CN107562195A

CN107562195A - 人机交互方法及系统

Info

Publication number: CN107562195A
Application number: CN201710708585.6A
Authority: CN
Inventors: 田善晋
Original assignee: Inventec Appliances Nanjing Corp; Inventec Appliances Corp
Current assignee: Inventec Appliances Nanjing Corp; Inventec Appliances Corp
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2018-01-09
Also published as: TW201913300A; TWI681317B

Abstract

本发明提供一种人机交互方法及系统，包括：自包含指定对象的图片和/或视频数据中获取所述指定对象的一个或多个外形特征；利用所述外形特征生成一虚拟角色；自包含所述指定对象的音频和/或视频数据中获取指定对象的一个或多个语音特征；显示所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征；识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句；以及所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。本发明提供的人机交互方法及系统可实现形象化的虚拟角色交互。

Description

人机交互方法及系统

技术领域

本发明涉及人机交互领域，尤其涉及一种人机交互方法及系统。

背景技术

目前，智能设备的发展越来越迅速，人机交互成为了重点研究的热点之一。现有的智能设备通过智能应用如Siri来实现人机交互。然而这些虚拟角色仅仅提供语音的反馈，且语音的语调、节奏以及口音非常单一，不会变化。

此外，在当前社会背景下，智能陪护机器人的需求越来越多，无论是对于老人还是小孩的陪护，仅仅通过单一的语音的交互和反馈，对于被陪护人员而言是远远不够的。

发明内容

本发明为了克服上述现有技术存在的缺陷，提供一种人机交互方法及系统，其可实现形象化的虚拟角色交互。

根据本发明的一个方面，提供一种人机交互方法，包括：自包含指定对象的图片和/或视频数据中获取所述指定对象的一个或多个外形特征；利用所述外形特征生成一虚拟角色；自包含所述指定对象的音频和/或视频数据中获取指定对象的一个或多个语音特征；显示所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征；识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句；以及所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

可选地，自包含所述指定对象的音频和/或视频数据中识别一个或多个对话，每个所述对话包括语音指示及回复语句，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。

可选地，按所述对话的出现频率进行排序，将出现频率最高的N个对话与所述虚拟角色关联地储存在所述本地或云端数据库中，N为大于0的整数。

可选地，每个所述对话还包括语音特征，不同的语音指示对应不同的语音特征。

可选地，还包括：识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句及回复动作；所述虚拟角色以所述指定对象的外形特征反馈所述回复动作，并以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

可选地，自包含所述指定对象的视频数据中识别一个或多个对话，每个所述对话包括语音指示、回复语句及回复动作，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。

可选地，所述显示所述虚拟角色还包括：显示所述虚拟角色，使所述虚拟角色位于虚拟场景中。

可选地，还包括：识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句及所述虚拟场景；所述虚拟角色位于所述虚拟场景中并以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

可选地，自包含所述指定对象的视频数据中识别一个或多个对话，每个所述对话包括语音指示、回复语句及形成虚拟场景的场景特征，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。

可选地，所述场景特征包括时间、地点、天气中的一项或多项。

可选地，所述虚拟角色的外形特征和语音特征经由更新的图片、音频、视频数据而增加或更新。

可选地，所述外形特征包括性别、年龄、身材比例、服装样式、发型以及五官中的一项或多项。

可选地，所述语音特征包括语调、节奏以及口音中的一项或多项。

根据本发明的又一方面，还提供一种人机交互系统，包括：分析模块，配置成：自包含指定对象的图片和/或视频数据中获取所述指定对象的一个或多个外形特征；利用所述外形特征生成一虚拟角色；自包含所述指定对象的音频和/或视频数据中获取指定对象的一个或多个语音特征；显示模块，配置成显示所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征；语音处理模块，配置成识别用户的语音输入中的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句，并使所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

与现有技术相比，本发明具有如下优势：

1)通过图片、音频、视频数据中识别指定对象的外形特征以及语音特征，以实现对应指定对象的虚拟角色的全息投影和会话反馈；

2)除了采用本地或云端数据库中通用的会话情况，通过图片、音频、视频数据还可以识别当前虚拟角色对于语音指示的回复语句、回复动作及相关的虚拟场景，使得虚拟角色更贴近指定对象；

3)通过多次输入的图片、音频、视频数据或文字数据可对虚拟对象的外形特征及语音特征进行更新和完善。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1示出了根据本发明实施例的人机交互方法的流程图。

图2示出了根据本发明实施例的建立或更新虚拟角色的流程图。

图3示出了根据本发明实施例的投影虚拟角色的流程图。

图4示出了根据本发明实施例的与虚拟角色交互的流程图。

图5示出了根据本发明实施例的人机交互系统的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员应意识到，没有特定细节中的一个或更多，或者采用其它的方法、组元、材料等，也可以实践本发明的技术方案。在某些情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本发明。

本发明的附图仅用于示意相对位置关系，附图中元件的大小并不代表实际大小的比例关系。

下面结合附图描述本发明提供的多个实施例。

下面首先参见图1，图1示出了根据本发明实施例的人机交互方法的流程图。图1供示出了6个步骤：

步骤S101：自包含指定对象的图片和/或视频数据中获取所述指定对象的一个或多个外形特征。

具体而言，外形特征可以包括性别、年龄、身材比例、服装样式、发型以及五官中的一项或多项。无法从图片和/或视频数据中识别出的特征，可通过用户手动输入或者向用户提供模板以供选择。

在一些变化例中，可以供一模板库，在包含指定对象的图片和/或视频数据中识别外形特征的参数，按照参数与模板库进行匹配，将相似度最高的模板作为最终决定的外形特征。例如，对于眼睛，可从图片和/或视频数据中识别指定对象的眼睛的参数，包括：宽度、高度、宽度与脸长的比例、高度与脸长的比例、内眼睑和外眼睑的高度差等。依据这些参数可在模板库中匹配到相应的眼型，例如桃花眼，瑞凤眼，睡凤眼，柳叶眼，杏眼，狐狸眼，铜铃眼，龙眼，丹凤眼和小鹿眼等等。利用模板库中该眼型的数据作为外形特征。

步骤S102：利用所述外形特征进行3D人物建模以生成一虚拟角色。

具体而言，利用上述识别的、输入的、选择的外形特征，于3D建模软件中进行人物建模，以生成一虚拟角色。该虚拟角色具有指定对象的外形特征。

步骤S103：自包含所述指定对象的音频和/或视频数据中获取指定对象的一个或多个语音特征。

具体而言，语音特征包括语调、节奏以及口音中的一项或多项。进一步地，可通过包含所述指定对象的音频和/或视频数据识别指定对象的语音波形图。依据波形图中的频率、强度、幅度等信息获得语调、节奏以及口音等语音特征。具体而言，语调可依据声波图中的频率来确定；节奏可通过超过某一设定幅度与下一次超过某一设定幅度的时间差来确定；口音可通过不同口音的模板匹配来确定。

进一步地，所述虚拟角色的外形特征和语音特征经由更新的图片、音频、视频数据而增加或更新。

步骤S104：全息投影所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征。

步骤S105：识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句。

在一些实施例中，本地或云端数据库中储存有通用的回复语句。在一些变化例中，可自步骤S101和步骤S103中的音频和/或视频数据识别一个或多个对话，每个所述对话包括语音指示及回复语句，将一个或多个所述对话与所述虚拟角色关联地储存在本地或云端数据库中。优选地，按所述对话的出现频率进行排序，将出现频率最高的N个对话与所述虚拟角色关联地储存在所述本地或云端数据库中，N为大于0的整数。由此，可直接通过构建虚拟角色的数据来储存与该虚拟角色交互时可能出现的会话，这样可以使得虚拟角色更贴近指定对象。

步骤S106：所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

在一个变化例中，可自步骤S101和步骤S103中的音频和/或视频数据识别的对话还可以包括语音特征，不同的语音指示对应不同的语音特征。例如，某些语音指示对应的语音特征节奏较快，语调较高，虚拟人物应以该较快的节奏和较高的语调来播放回复语句，以表示欢快的情绪；某些语音指示对应的语音特征节奏较慢，语调较低，虚拟人物应以该较慢的节奏和较低的语调来播放回复语句，以表示低落的情绪。在该变化例中，

在另一个变化例中，虚拟对象在反馈回复语句的同时还可进行回复动作。回复动作可以包括虚拟对象的动作、表情等。具体而言，当识别用户的语音指示，还需在一本地或云端数据库中查询该对应该语音指示的回复语句及回复动作。虚拟角色以所述指定对象的外形特征反馈所述回复动作，并以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。与上一实施例类似地，可自步骤S101和步骤S103中的音频和/或视频数据识别一个或多个对话，每个所述对话包括语音指示、回复语句及回复动作，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中，以使虚拟对象在播放回复语句时更为生动。

在又一个变化例中，在全息投影虚拟角色时还可使使所述虚拟角色位于一虚拟场景中。该虚拟场景的场景特征可以包括时间、地点、天气中的一项或多项。该虚拟场景的场景特征可由用户指定，也可自动生成或变换。

具体而言，当识别用户的语音指示，还可在一本地或云端数据库中查询该对应该语音指示的回复语句及所述虚拟场景。所述虚拟角色位于所述虚拟场景中并以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。与上述实施例类似，本变化例可自包含所述指定对象的视频数据中识别一个或多个对话，每个所述对话包括语音指示、回复语句及形成虚拟场景的场景特征，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。进一步地，虚拟场景的场景特征可自包含所述指定对象的视频数据中识别的各语句中出现与时间、地点、天气相关的词，则将该词作为虚拟场景的场景特征。虚拟场景的场景特征也可自包含所述指定对象的视频数据中识别光线方向、明暗或者环境对象(例如，建筑、家具、道路等可以判断大致地点的环境对象)来确定。

进一步地，本发明还可以实现上述各个变化例的组合。

上述实施例，示出了利用全息投影技术显示虚拟角色的实施例。在该实施例的一些变化例中，可通过显示屏显示平面或立体的虚拟角色。

在另一些变化例中，用户还可输入用户与该指定对象的关系，例如，朋友、家人等。

本发明并非限定上述步骤S101至步骤S106的执行顺序，例如步骤S102可在步骤S103后，步骤S104之前执行。

在上述实施例的又一个变化例中，将上述步骤应用在一游戏的应用场景中。具体而言，用户首先打开第一设备(例如电脑)，并在电脑上运行第一应用程序，该第一应用程序可以是一游戏程序。该游戏程序可具有多个角色，用户可在该多个角色中选取一个或多个角色进行控制。在对角色的控制中，该角色的运行参数会发生变化，例如，角色在运行中获取的金币数量、装备的武器、由于装备武器进而改变的各项属性值等等。当用户在第一设备上运行该第一应用程序时，于第二设备上打开第二应用程序，该第二应用程序与该第一应用程序关联，并实时获取该第一应用程序的数据。具体而言，当用户打开第二应用程序时，第二应用程序可获取用户当前在第一应用程序中所选择的角色，将该角色作为指定对象。第二应用程序可自第一应用程序获得该指定对象的音视频数据以生成虚拟角色，并在第二设备上显示。用户可向虚拟角色发出语音指示，语音指示例如可以是询问指定对象当前获得的金币数量、询问指定对象当前在队伍中金币数量的排名、询问指定对象当前攻击力、询问指定对象敌对队伍某一角色的攻击力等等。这些语音指示的回复语句可实时抓取第一应用程序中指定对象的运行参数，以向用户回复上述信息。由此，用户可在游戏过程中实现实时对话以获取实时数据，并且该实时数据无需用户在第一应用程序中进行额外的操作，以妨碍用户在第一应用程序中对角色的控制。以上仅仅是本发明的一个具体应用场景，本领域技术人员可以实现更多的变化例，本发明并非以此为限。

下面参见图2，图2示出了根据本发明实施例的建立或更新虚拟角色的流程图。

首先是步骤S201，用户开始进行虚拟角色的设置。步骤S201之后可执行步骤S202，新建一虚拟角色。步骤S204，获取用户输入的虚拟角色的名称。可以该虚拟角色的名称来命名后续储存的与该虚拟角色相关的特征数据的文件。步骤S205，可通过话筒、摄像头等输入设备采集指定对象的图片、音视频数据，或者可通过文件传输来获取包含指定对象的图片、音视频数据。步骤S206，依据包含指定对象的图片、音视频数据分析获得指定对象的外形特征和语音特征。步骤S207，依据这些外形特征和语音特征构建一虚拟角色，使虚拟角色具有指定对象的外形特征和语音特征。步骤S208，将分析获得的指定对象的外形特征和语音特征与虚拟角色(例如虚拟角色的名称)关联地储存在本地或云端数据库中。

此外，在步骤S201之后，还可以执行步骤S203，修改虚拟角色。步骤S203之后，与步骤S202之后类似地，执行步骤S204至步骤S208以更新或增加已有虚拟角色的外形特征和语音特征。

下面参见图3，图3示出了根据本发明实施例的投影虚拟角色的流程图。

首先是步骤S301，显示虚拟角色列表。可以理解，该虚拟角色列表中的角色可以是在本地创建的，或其他用户创建后上传至云端数据库的。步骤S302，用户在该虚拟角色的列表中选择一虚拟角色，获取用户的选择。步骤S303，判断本地数据库中是否存在该虚拟角色。若有，则执行步骤S304，在本地数据库中获取该虚拟角色的数据。若没有，则在云端数据库中获取该虚拟角色的数据。之后，执行步骤S306，利用全息投影，投影该虚拟角色。并在步骤S307中开始对话。

下面参见图4，图4示出了根据本发明实施例的与虚拟角色交互的流程图。

首先是步骤S401，接收用户的语音信息。步骤S402，自该语音信息中识别语音指示。语音指示可以是用户所说的一句话。之后步骤S403，判断本地数据库中是否存在该语音指示的回复语句。若存在，则执行步骤S404，字本地数据库中获取该回复语句。若不存在，则执行步骤S405，在云端数据库中搜索语音指示，以获取回复语句。具体而言，上述语音指示的查询，可以通过先查询语音指示中的词语，如果有多个查询结果，再从结果中和语音指示的完整句子比较，选择最接近的。如果都没有查询到则可将“对不起，我没听懂”或者“对不起，我不知道该如何回答”作为答复语句。之后执行步骤S406，使虚拟角色根据语音特征播放回复语句以与用户完成对话和交互。

下面参见图5，图5示出了根据本发明实施例的人机交互系统的示意图。

人机交互系统500包括分析模块501、显示模块503及语音处理模块505。

分析模块501配置成自包含指定对象的图片和/或视频数据中获取所述指定对象的一个或多个外形特征。分析模块501还配置成利用所述外形特征生成一虚拟角色。分析模块501还配置成自包含所述指定对象的音频和/或视频数据中获取指定对象的一个或多个语音特征。显示模块503配置成显示所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征。语音处理模块505配置成识别用户的语音输入中的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句，并使所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

人机交互系统500还可以包括移动模块502、网络通讯模块504、传感器模块506及本地储存模块507中的一个或多个模块。移动模块502可控制人机交互系统500进行移动。网络通讯模块504控制人机交互系统500与云端数据库相通讯。传感器模块506可以包括距离传感器，温度传感器，摄像头等，以增加人机交互系统500的其他功能。本地储存模块507可作为本地数据库储存虚拟角色的信息和会话是数据。

本发明提供的人机交互系统500可作为具有聊天功能的陪护机器人本提案所述之聊天机器人可以通过显示模块503将虚拟人物显示出来，例如通过投影的方式将虚拟人物投射成平面或立体图像，用户在使用陪护机器人前，可以设定对象人物的外形、语音等特征，达到不同用户，在不同时间都有不同的聊天交互体验。这样的情感陪护机器人应用相当广泛，可以代替子女陪伴空巢老人，甚至可以使已经离世的亲人或朋友音容再现，本发明的应用场景并非以此为限。

上述图1至图5仅仅是示意性地示出本发明提供的多个实施例，但本发明并非以此为限。

与现有技术相比，本发明具有如下优势：

以上具体地示出和描述了本发明的示例性实施方式。应该理解，本发明不限于所公开的实施方式，相反，本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。

Claims

1.一种人机交互方法，其特征在于，包括：

自包含指定对象的图片和/或视频数据中获取所述指定对象的一个或多个外形特征；

利用所述外形特征生成一虚拟角色；

自包含所述指定对象的音频和/或视频数据中获取指定对象的一个或多个语音特征；

显示所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征；

识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句；以及

所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

2.如权利要求1所述的人机交互方法，其特征在于，自包含所述指定对象的音频和/或视频数据中识别一个或多个对话，每个所述对话包括语音指示及回复语句，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。

3.如权利要求2所述的人机交互方法，其特征在于，按所述对话的出现频率进行排序，将出现频率最高的N个对话与所述虚拟角色关联地储存在所述本地或云端数据库中，N为大于0的整数。

4.如权利要求2所述的人机交互方法，其特征在于，每个所述对话还包括语音特征，不同的语音指示对应不同的语音特征。

5.如权利要求1所述的人机交互方法，其特征在于，还包括：

识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句及回复动作；

所述虚拟角色以所述指定对象的外形特征反馈所述回复动作，并以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

6.如权利要求5所述的人机交互方法，其特征在于，还包括：

自包含所述指定对象的视频数据中识别一个或多个对话，每个所述对话包括语音指示、回复语句及回复动作，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。

7.如权利要求1所述的人机交互方法，其特征在于，显示所述虚拟角色还包括：

显示所述虚拟角色，使所述虚拟角色位于虚拟场景中。

8.如权利要求7所述的人机交互方法，其特征在于，还包括：

识别用户的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句及所述虚拟场景；

所述虚拟角色位于所述虚拟场景中并以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。

9.如权利要求8所述的人机交互方法，其特征在于，还包括：

自包含所述指定对象的视频数据中识别一个或多个对话，每个所述对话包括语音指示、回复语句及形成虚拟场景的场景特征，将一个或多个所述对话与所述虚拟角色关联地储存在所述本地或云端数据库中。

10.如权利要求9所述的人机交互方法，其特征在于，所述场景特征包括时间、地点、天气中的一项或多项。

11.如权利要求1至10任一项所述的人机交互方法，其特征在于，所述虚拟角色的外形特征和语音特征经由更新的图片、音频、视频数据而增加或更新。

12.如权利要求1至10任一项所述的人机交互方法，其特征在于，所述外形特征包括性别、年龄、身材比例、服装样式、发型以及五官中的一项或多项。

13.如权利要求1至10任一项所述的人机交互方法，其特征在于，所述语音特征包括语调、节奏以及口音中的一项或多项。

14.一种人机交互系统，其特征在于，包括：

分析模块，配置成：

利用所述外形特征生成一虚拟角色；

显示模块，配置成显示所述虚拟角色，所述虚拟角色具有所述指定对象的外形特征；

语音处理模块，配置成识别用户的语音输入中的语音指示，在一本地或云端数据库中查询该对应该语音指示的回复语句，并使所述虚拟角色以所述指定对象的语音特征反馈所述回复语句以与所述用户进行交互。