CN106457563B

CN106457563B - 人形机器人和执行人形机器人与用户之间的对话的方法

Info

Publication number: CN106457563B
Application number: CN201580020117.9A
Authority: CN
Inventors: J·蒙索; G·加特; D·乌桑; G·巴尔别里; J·马丁; J·泰斯塔尔; I·古尔丹
Original assignee: SoftBank Robotics Europe SAS
Current assignee: Aldebaran SAS
Priority date: 2014-04-17
Filing date: 2015-04-17
Publication date: 2019-12-03
Anticipated expiration: 2035-04-17
Also published as: AU2015248713B2; JP2019164352A; CA2946056A1; EP2933067B1; US20190172448A1; HK1216405A1; BR112016023928A2; RU2016144006A; CN110774285A; SG10201806415YA; SG11201608205UA; KR20170003580A; US10242666B2; RU2016144006A3; MX2016013019A; AU2015248713A1; WO2015158887A2; CN106457563A; JP2017520782A; NZ725307A

Abstract

一种执行人形机器人与至少一个用户之间的对话的方法包括由人形机器人反复执行的以下步骤：ⅰ)从相应的传感器获得多个输入信号；ⅱ)解释所获得的信号以识别由用户产生的多个事件，所述事件选自于包括以下各项的组：说出至少词或句子、语音的语调、手势、身体姿势、面部表达；ⅲ)确定人形机器人的响应，该响应包括至少一个事件，所述事件选自于包括以下各项的组：说出至少词或句子、语音的语调、手势、身体姿势、面部表达；ⅳ)由人形机器人产生所述或每个所述事件；其特征在于，步骤ⅲ)根据由用户共同产生并且在步骤ⅱ)识别出的至少两个事件来确定响应，其中至少一个事件不是由用户说出的词或句子。一种用于实行这样的方法的人形机器人。

Description

人形机器人和执行人形机器人与用户之间的对话的方法

技术领域

本发明涉及执行人形机器人与用户或对话者(其通常是人)之间的所谓的“多模式”对话的方法。本发明还涉及用于实施这样的方法的计算机程序产品和人形机器人。

背景技术

“人形机器人”可以被定义为具有人类的外观和功能(例如躯干、头部、手臂、腿部)的某些属性、使用语音识别和声音合成与人类口头沟通的能力等的机器人。这种种类的机器人目的在于减小人与机器之间的认知距离。人形机器人的最重要的特性之一是它尽可能自然地支持与人类对话者的对话的能力。这个能力对于“伴侣机器人”的开发是必不可少的，以在日常生活的需要中帮助老年人、病人或仅仅孤独的人并且给这些人提供可接受的(也从情感发面看)对人类个人助手的存在的替代物。为此，有必要开发这样的人形机器人以尽可能接近地模仿人类行为的方式与人类交互的能力。具体而言，有必要的是机器人可以解释人类的问题或陈述，产生在对话模式中的复制物，许多表达对应于人类的表达和与典型的人类行为和情感的类型协作的表达的模式。

由于对Nao^TM人形机器人进行编程的方法，已经在这个方向上做出了第一步，Nao^TM人形机器人由申请人在市场上出售并且在关于机器人玩家的国际专利申请WO2012/000927中和在关于具有自然界面对话的人形机器人的国际专利申请WO2012/010451中被公开。

然而，由这些文件公开的机器人可能只执行有限和预定的对话要素。

国际专利申请WO2013/150076描述了具有对话代理、语音识别工具和用于分析对话者的行为的工具的人形机器人，其显示比先前存在的机器人的对话能力更丰富的对话能力。

发明内容

本发明目的在于改进这样的人形机器人，使与人类对话者的交互变得更丰富和更现实。具体而言，本发明包括被称为“Juliette”的项目，其目的在于通过提供具有解释用户的动作的能力的机器人来提高人类-机器人交互。

允许实现这样的目标的本发明的目的是一种执行人形机器人与至少一个用户之间的对话的方法，该方法包括由所述人形机器人反复执行的以下步骤：

ⅰ)从相应的传感器获得多个输入信号，至少一个所述传感器是声音传感器，并且至少一个另一种传感器是运动或图像传感器；

ⅱ)解释所获得的信号以识别由所述用户产生的多个事件，所述事件选自于包括以下各项的组：说出至少词或句子、语音的语调、手势、身体姿势、面部表达；

ⅲ)确定所述人形机器人的响应，该响应包括至少一个事件，所述至少一个事件选自于包括以下各项的组：说出至少词或句子、语音的语调、手势、身体姿势、面部表达，通过应用一组规则来执行所述确定，每个所述规则使一组输入事件与机器人的响应相关联；

ⅳ)由所述人形机器人产生所述或每个所述事件；

其特征在于，在所述步骤ⅲ)应用的所述规则中的至少一些规则使响应与由所述用户共同地产生并且在所述步骤ⅱ)识别出的至少两个事件的组合相关联，其中至少一个事件不是由所述用户说出的词或句子。

本说明书还公开了这样的方法的特定实施例。

本发明的另一个目的是包括程序代码指令的计算机程序产品，所述程序代码指令用于在所述程序由嵌入在人形机器人上的至少一个处理器执行时执行这样的方法，所述机器人包括：多个传感器，其操作地连接到所述或至少一个处理器并且包括至少一个声音传感器和至少一个图像或运动传感器，以获得相应的输入信号；语言合成模块，其由所述或至少一个所述处理器控制以说出词或句子；以及一组执行器，其由所述或至少一个所述处理器驱动，从而使所述机器人能够执行多个运动或手势。

本发明的又一目的是人形机器人，其包括：

-至少一个嵌入式处理器；

-传感器组件，其操作地连接到所述或至少一个所述处理器并且包括至少一个声音传感器和至少一个图像或运动传感器，以获得相应的输入信号；

-语言合成模块，其由所述或至少一个所述处理器驱动以说出词或句子；以及

-一组执行器，其由所述或至少一个所述处理器驱动，从而使所述机器人能够执行多个运动或手势；

其特征在于，所述或至少一个所述处理器被编程或被配置为实行根据本发明的实施例的方法。

这样的人形机器人还可以包括用于连接到至少一个远程服务器的设备，所述或至少一个所述处理器被编程或被配置为与所述或至少一个所述远程服务器协作以实行根据本发明的实施例的方法。

附图说明

当对参考通过示例的方式给出的附图做出的以下描述进行阅读时，本发明的其它特征、细节和优点将变得显而易见，其中：

-图1示出了适合于实施本发明的人形机器人的物理架构；

-图2是示出根据本发明的实施例的方法的步骤和用于该方法的实施方式的硬件和软件模块的布置的图；

-图3是示出根据本发明的一个实施例的“前摄”对话的实施方式的图；

-图4是示出根据本发明的实施例的使人形机器人的响应动画化的步骤的图；

-图5a、5b和5c是用于确定要进行动画化的一个或多个词的句子的句法分析的三个示例；

-图6示出了根据本发明的实施例的机器人相对于用户的位置的伺服控制；

-图7是示出根据本发明的一个实施例的识别事件的步骤的图；以及

-图8是示出根据本发明的一个实施例的语音语言识别的步骤的图。

具体实施方式

图1显示在本发明的多个实施例中的人形机器人的物理架构。

附图上的特定机器人R仅被当作本发明可以实施的人形机器人的示例。附图上的机器人的下肢不具备行走的功能，但可以用它的底座RB在任何方向上运动，底座RB在其放置于的表面上滚动。本发明可以容易地实施在适于行走的机器人中。通过示例的方式，该机器人具有可以是大约120cm的高度H、大约65cm的深度D和大约40cm的宽度W。在具体实施例中，本发明的机器人具有平板电脑RT，利用平板电脑RT机器人可以向其周围环境传达消息(音频、视频、网页)，或通过平板电脑的触觉界面接收来自用户的输入。除了平板电脑的处理器以外，本发明的机器人还使用其自身母板的处理器，该处理器可以是例如来自Inter^TM的ATOM^TM Z530。在本发明的具体实施例中，本发明的机器人还有利地包括专用于处理母板且尤其是容纳磁性旋转编码器(MRE)和传感器的板之间的数据流的处理器，所述传感器控制肢体中的关节的发动机以及被机器人用作轮子的球体。根据明确的关节所需的最大转矩的大小，发动机可以是不同的类型。例如，可以使用来自e-minebea^TM的有刷DC无芯发动机(例如SE24P2CTCA)或来自Maxon^TM的无刷DC发动机(例如EC45_70W)。优选地，MRE是具有12位或14位准确度的使用霍尔效应的类型。

在本发明的实施例中，图1上显示的机器人还包括各种种类的传感器。这些传感器中的一些传感器用于控制机器人的位置和运动。这是例如位于机器人的躯干中的惯性单元的情况，所述惯性单元包括3轴陀螺仪和3轴加速度计。机器人还可以包括位于片上系统(SOC)类型的机器人(顶部和底部)的前额上的两个2D彩色RGB相机，例如来自Shenzen V-Vision Technology Ltd^TM的相机(OV5640)，其具有以每秒5帧的500万像素分辨率以及大约57°水平和44°垂直的视场(FOV)。在机器人眼睛的后方还可以包括一个3D传感器，例如具有以每秒20帧的30万像素的分辨率的ASUS XTION^TM SOC传感器，其具有与2D相机大约相同的FOV。本发明的机器人还可以配备有激光线发生器，例如在头中的三个和在底座中的三个，以便于能够感测到其相对于对象/人的位置。本发明的机器人还可以包括能够感测其周围环境中的声音的麦克风。在实施例中，具有以1kHz的300mv/Pa+/-3dB的灵敏度和300Hz到12kHz的频率范围(-10dB相对于1kHz)的四个麦克风可以被植入在机器人的头部上。本发明的机器人还可以包括可能位于其底座的前面和后面的两个声纳传感器，以测量到机器人周围环境中的对象/人的距离。机器人还可以包括位于其头上和手上的触觉传感器，以允许与人的交互。机器人还可以包括位于其底座上的缓冲器以感测在机器人的路线上机器人遇到的障碍物。

为了解释机器人的情感并且在其周围环境中与人类进行沟通，本发明的机器人还可以包括：

-LED，例如在机器人的眼中、耳中和机器人的肩膀上；

-扬声器，例如位于机器人耳中的两个。

本发明的机器人可以通过以太网RJ45或WiFi 802.11连接与基站或其它机器人进行通信。

可以通过具有大约400Wh的能量的磷酸铁锂电池来对本发明的机器人进行供电。机器人可以接入适于其包括的电池类型的充电站。

鉴于传感器的测量结果，使用激活由每个肢体限定的链和在每个肢体的端部处限定的效应器的算法，由机器人的发动机来控制机器人的位置/运动。

图2示出了根据本发明的一个实施方式的对话的方法。由这样的方法的实施方式得到的对话可以被称为“多模式”，因为机器人为了制定其响应而考虑由用户(或对话者)产生的在性质上不同的事件(例如说出的词、手势、身体姿态、面部表达等的组合。应注意，前面提到的国际申请WO2013/150076还公开了一种方法，其中机器人对对话者的手势(例如，手的挥动)但不是对共同地产生的口头和非口头事件的特定组合做出反应。

在图2上示出的方法的第一步骤ⅰ)中，来自相应的传感器c1(麦克风)和c2(相机)的输入信号s1、s2由机器人获得并由一组提取器模块EXT(在此处和下文中，术语“模块”用于指示由嵌入式处理器或由远程传感器运行的软件模块；应理解，硬件或硬件-软件混合的实施方式总是可能的并落在本发明的范围内)进行处理。每个提取器模块接收输入信号或给定类型的多个信号，并且输出信息以供机器人的其它模块使用。例如，在图2的情况中，第一提取器模块处理来自麦克风c1的信号s1以提供：

通过音译被识别为与人类语音相兼容的声音来得到的文本输出TXT和代表所述语音的语调的元数据MD(快乐、悲伤、生气、专横、疑问……)；第二和第三提取模块处理来自相机c2的信号s2以在所述相机的视场中分别产生代表对用户的面部和手臂感兴趣的点的“非文本数据”NTD。这组提取器模块的输出被提供为到对话引擎模块DE的输入。由这个模块执行的处理可能是复杂的，并且需要访问相当大的数据库。由于这个原因，这个处理可以部分地由通过互联网连接进行访问的一个或多个远程服务器RS执行。

对话引擎模块包括识别模块REC，识别模块REC接收数据TXT、MD、NTD作为输入并且使它们与预定的“输入事件”EVI相关联。例如，模块REC可以使文本数据TXT与字典的词相关联；此外，它可以使用户的面部的感兴趣点的特定构造与微笑相关联，并且甚至将数值赋予所述微笑(例如被包括在0与5之间的值，其中0意指没有微笑并且5是大笑)；此外，它可以使用户的手臂的感兴趣点的特定构造与手势(例如挥手)相关联。根据所考虑的具体实施例，识别模块的任务可以由提取器模块(例如，可以具有“微笑提取器”的一个提取器模块)实行，从而直接提供如上所述的微笑值。

存储在机器人的存储器中的“对话语境”或“主题”、参数CTX可以影响识别模块的决定。实际上，类似的条目可以被解释为根据语境而不同的事件；例如，在不同的语境中，用户的嘴的宽开口可以被解释为打呵欠或惊愕的表达。这对应于创造性方法的第二步骤ⅱ)。

创造性方法的第三步骤ⅲ)由使响应与输入事件或输入事件的组合相关联的“规则应用”模块RUL实行。响应由一个或多个“输出事件”EVO构成，输出事件EVO可以是由机器人说出的词或短语、由其发出的声音、由其执行的手势、其“面部”表达等。以上引用的国际申请WO2012/010451描述了可以在本发明中使用的规则应用模块，虽然有重要的修改。实际上，根据本发明，至少一些规则使响应不与单个输入事件但与至少两个共同产生的事件的组合相关联，其中至少一个事件是非口头的(即不包括用户说出单词或句子)。根据本发明的优选实施例，至少一些规则(尤其是将多个事件件当作它们的输入的一些规则)确定由输出事件的组合组成的响应，其中至少一个事件是非口头的。

例如，可能的规则可以是：

IF{(smile>2)AND[waving or“hallo”or“hi”])}THEN{(smile＝4 AND wavingAND“hallo”}。

这意味着如果用户至少以中等微笑来微笑并且挥动他的手或说“hallo”或“hi”，那么机器人以大微笑、挥手并且说出词“hello”来答复。

所谓“共同产生的”事件指的是在时间上足够接近以为了对话的目的而被认为是同时的两个或多个事件。例如，如果用户挥动他的手并且接着在一秒钟之后说“hallo”，则这两个事件被认为是共同产生的，即使它们严格地说并不是同时的。

在每次，可应用的规则取决于对话语境CTX，其进而由先前应用的规则和/或输入确定。与相同语境或主题有关的规则形成“对话”，其可以由程序员编辑，如由国际申请WO2011/003628公开的。对话主题的示例可以是“足球”、“政治”、“烹饪”，但还有当用户发起与机器人的对话(或反之亦然，如之后将解释的)时的“会见”或当用户离开时的“再见”或表达终止对话的意愿。

此外，在每次，可应用的规则可以取决于机器人的内部状态RIS，其进而由先前应用的规则和/或输入确定。内部状态的示例是“快乐”、“悲伤”、“疲劳”，但还有“电池放电”或“机械故障”。

例如，如果机器人识别出用户有悲伤的表达，那么它的内部状态将变成“担心”。如果然后用户说“我今天不是很好”，那么对话语境将取值“健康”(指示健康将是对话的主题)，从而确定一组适当的规则。

要理解，输入事件的“产生”不一定需要由用户执行的动作；例如，用户穿彩色衣服的事实可以是“事件”。被称为“前摄规则”的特定类别的规则被应用于确定对事件或事件的组合(不包括由用户说出的词或识别出的手势)的响应。换句话说，机器人通过发起对话来对刺激(例如存在于房间中的人的数量、安静的用户的表达、衣服的颜色等)作出反应。在本发明的特定实施例中，一些“小谈话”主题被标记为前摄的，这意味着与所述主题有关的所有规则是前摄的。“小谈话”主题的示例是“微笑”，其包含当用户微笑而不讲话时应用的规则。更具体的主题(例如“烹饪”或“政治”)通常不是前摄的。

图3示出了根据本发明的特定实施例的“前摄”对话的实施方式。提取器组EXT包括颜色提取器COL(识别场景的不同元素的颜色)、微笑提取器SML、确定房间中的人的数量的提取器模块NBP、文本提取器TXTX和手势提取器GST。在具体情形中，颜色提取器识别红色衬衣，微笑提取器识别用户的大笑(微笑＝5)，并且NBP模块对房间中的2个人进行计数，而模块TXTX和GST指示用户既不讲话也不执行充分识别的手势。对话引擎并且更确切来说规则应用模块RUL将进而搜索在对话数据库DDB的包含“小谈话”主题的子集PRO内可应用于这种情形的“前摄”规则。

图2的方法还包括使机器人的响应在由说出至少词或句子组成或包括说出至少词或句子时动画化的可选的步骤ⅲ-a)。动画是机器人的一系列运动和/或其它非口头事件(例如，表达的变化)，其伴随有模仿人类的“肢体语言”的语言。经动画化的响应可以与包括语言和运动的多模式响应区分开；然而，它们以不同的方式产生。如以上所讨论的，多模式响应直接由规则应用模块确定；替代地，动画由专用模块ANE添加到口头响应，从而采用由规则应用模块产生的输出具体事件EVO(即口头事件，即要说出的词)作为其输入，如以下将参考图4、5a、5b和5c所解释的。

如图4上所示的，动画模块或引擎ANE包括句法分析模块SYNTA、存储在装载在机器人上或可由机器人访问的存储器中的动画列表AST、以及用于计算表现力值的两个模块1OX和FX。“表现力值”是确定运动必须“夸张”或“离散”到哪个程度的参数。“表现力系数”定义表现力值的修改。术语“表现力”指的是表现力值和系数两者。

如之后将参考图5a、5b和5c讨论的，句法分析允许确定要被动画化的(多个)词和不由它们本身动画化但影响(多个)经动画化的词的表现力的有关单词。此外，句法分析模块也可以例如通过考虑文本中的“情感单词”的频率和/或机器人的内部状态RIS来确定要说出的文本的“整体”表现力。要被动画化的每个词都具有其自身的表现力；该表现力通过模块1OX与有关词的表现力和文本的整体表现力结合，模块1OX输出被称为“一次性表现力”的表现力值。

要被动画化的每个词还与“概念”相关联。概念和一次性表现力用于选择动画列表ALST内的动画。该选择取决于与词相关联的概念并取决于由模块1OX计算出的一次性表现力。例如，列表的每个动画可以与一个或多个概念相关联，并且具有具体的表现力值；在这种情况下，选择与由要被动画化的词表达的概念相关联并且其具体的表现力值最接近一次性表现力的动画。在图4的示例中，所选择的动画被称为anim2并且具有exp2的具体表现力。最后，模块FX将所选择的动画的具体表现力与一次性表现力结合(例如，取平均值)以计算出最终表现力expf。动画引擎的输出是一对<动画，最终表现力>。最终表现力值确定例如组成动画的手势的速度和/或幅度。

图5a示出了要被动画化的句子的句法分析：“He loves chocolate and beer”。句法树提出连接两个补语的连词“AND”的证据，其指示列举。在这种情况下，连词是要被动画化的词。它与概念“列举”相关联，概念“enumeration”(列举)进而与被称为“two”(两个)的列举相关联，其在于手势，其中机器人紧握它的手，它伸展它的拇指并且然后它伸展它的食指。

图5b示出了要被动画化的另一句子的句法分析：“I agree with you”。这是具有以肯定形式的动词、主语和补语的简单句子。除了“with”以外的所有词被动画化：“I”凭借动画“myself”，其中机器人指示它自己，“agree”使用动画“yeah”，其中机器人点头；以及you凭借机器人。

这两个例子是非常简单的例子，其中表现力并不起任何作用。更复杂的示例由句子“I strongly disagree with you”构成，该句子的句法树在图5c上示出。在这种情况下，动词是以否定形式(在语意上，如果不是在语法上)；在这样的情况下，动词本身而不是主语和补语被动画化。此外，存在强调不同意的副词(“strongly”)。

动词“disagree”与概念“disagreement”相关联并且具有在从0到10的标度上的5的表现力值。然而，由于副词“strongly”的存在，一次性表现力从5增加到8。在本发明的实施例中，机器人的内部状态RIS也可以改变一次性表现力值。

存在与概念“disagreement”相关联的三个动画：具有3的具体表现力的“oppose1”，其只包括机器人的表达的变化；分别具有6和9的具体表现力的“oppose2”和“oppose3”，其还包括手势。具体表现力值接近一次性表现力的动画是“oppose3”，其随后被选择。然而，它的最终表现力减小到8.5，对应于具体表现力和一次性表现力的平均值。这意味着手势将比在“oppose3”的“standard”(标准)形式中略微缓慢和/或较不丰富。

重新回到图2，可以看到，输出事件和/或动画用于驱动机器人的不同执行器以“perform”(执行)响应。在附图的示例性实施例中，执行器是扬声器A1、一组面部表达控制执行器A2以及肢体控制执行器A3。这是图2的方法的步骤ⅳ)。

如果机器人站在用户旁边并且直接盯着他或她，那么与人形机器人的动画化和/或多模式的对话甚至还可以被感知为尴尬且不自然的。此外，如果机器人太靠近用户，它可能在“speaking with its hands”(用它的手交流)以便于产生动画化或多模式的响应时打到他或她。也有机器人在功能失常的情况下落在用户身上的一般风险。由于这个原因，根据本发明的优选实施例，机器人是伺服控制的以使离用户的距离维持在预定(并且可能地，语境相关的)范围内。有利地，在机器人的一部分(例如它的腰部)与用户的下身(上到腰部)之间测量该距离：这允许用户朝着机器人倾斜并用他/她的手触摸它而不使它往回运动。有利地，机器人也是伺服控制的以使相对于用户的取向维持在预定(并且可能地，语境相关的)角度范围内。优选地，机器人执行伪随机平移和/或旋转运动，同时保持在所述距离和角度范围内，以避免由不自然静态的机器人引起烦扰的感觉。

图6示出了根据上文的机器人R和用户U。在以机器人为中心的参考系中，要求用户(或更确切地说，用户的下身)保持在由距离范围[d1,d2]和角度范围[-Φ,Φ]限定的授权区域AR中。如果用户运动，则机器人也运动以保持这个条件被满足。此外，如以上所提到的，机器人可执行伪随机平移和/或旋转运动，同时将用户保持在授权区域中。

为了得到机器人的“自然”行为，距离和角度范围可以在对话期间发生变化，这取决于有效的主题。

可以通过使用与图像处理模块耦合的相机、激光线发生器和/或声纳传感器(见上文，附图1的人形机器人的物理架构的描述)来确定用户相对于机器人的位置。

重新回到图2，将注意到，解释输入信号以识别不同种类的事件(口头或非口头)的步骤ⅱ)是根据本发明的方法的非常重要的步骤。识别事件意味着使输入信号与存储在人形机器人的存储器中或可由其进行访问的预期事件的预定列表的项目匹配。有利地，根据对话语境或主题，在多个所述列表当中选择预期事件的所述列表。

例如，语言识别在于将由传感器获得的声音信号与字典的自然语言词或一系列词(其可以是特定语境的)匹配。通常，每个匹配结果与置信度分数相关联；这个分数越高，匹配正确的概率就越大。通常，阈值用于区分开“成功的”匹配和失败的尝试以识别事件。

根据要进行识别的事件的特定种类，不同复杂度的几种匹配方法在本领域中是已知的。例如在语言识别的领域中，以下方法(或更确切地，方法的系列)是已知的：

-明确匹配：这是最简单和最快速的方法，其使用有限状态机来检查输入是否明确地包含词或句子。置信度分数是布尔值：匹配是肯定的(分数＝1)或识别尝试失败(分数＝0)。

-近似匹配：它也基于有限状态机，但它允许在匹配链中的某些错误。当错误的数量增加时，置信度分数降低。

-语音匹配(仅用于语言识别)，其基于在输入与字典的词或句子之间的语音距离的确定。

-语义匹配，最复杂的方法，其基于在输入中所观察到的词汇和在每个对话条目中的词汇之间的距离的计算。这个距离是在所述输入和所述条目的矢量表示之间的余弦度量。遵循“词袋”分布语义表示，使用TF-IDF(词频——逆文档频率)、加权来计算矢量。

机器人可以使用分等级的方法，而不使用单一匹配方法，分等级的方法从最简单的方法开始，如果置信度分数超过预设阈值则接受结果，否则使用更复杂的方法来尝试；如果使用最复杂的匹配方法(例如语义)得到的置信度分数仍然低于阈值，则搜索失败。在这种情况下，机器人忽略输入或请求澄清(例如，在失败的语言识别的情况下通过说出“对不起，你说什么？”)。

等级结构也可以适合于诸如所使用的语言识别技术的因素。当ASR(自动语言识别)基于大语言模型时，语义匹配将是优选的，同时语音匹配将帮助从较不鲁棒的嵌入式ASR结果恢复错误。

有利地，机器人可以根据不同的参数并且具体而言根据对话语境或主题来选择匹配方法的子集。如果正在进行的对话是“关闭的”对话，其中只有几个不同的输入被预期，则明确匹配可能成功地起作用，并且继而值得尝试。相反，在允许大量可能的输入事件的非常广的语境的情况下，放弃明确和近似的匹配并直接以语音或甚至语义方法开始可能是优选的。在图7的右侧部分上，示出了增加计算复杂度的匹配方法MM1-MM4的等级链。对于每种匹配方法，两个结果是可能的：匹配是成功的，在这种情况下产生输入事件EVI，或匹配不是成功的，在这种情况下尝试下一种匹配方法(除了MM4以外)。要进行尝试的第一匹配方法不一定是MM1：根据对话语境CTX和可能的其它参数由匹配策略引擎MSE来进行选择。

如果互联网连接是可用的，则最复杂的(多种)匹配方法至少可以由远程服务器(见图2)实行。

图7指代语言识别的情况，其采用由适当的提取器通过音译被识别为人类语音的声音而得到的文本TXT作为输入，但这种方法更一般。将理解，其不限于“多模式”对话的情况。

现在将参考图8描述基于语音匹配的特定语言识别方法。

由传感器(麦克风)c1获得的声音作为输入被提供到转录模块TRSC，转录模块TRSC将它们转换为文本。然后，通过考虑对话的语言的特殊性(其为由机器人例如根据用户的身份而确定的参数，借助于在本领域中已知的相机和面部识别模块来识别出用户的身份)、通过语音转换模块PHON来将这个文本转换成它的语音等效形式。转录和语音转换也可以被共同执行：它们一起构成可以被称为“语音转录”的东西。

然后，语音转录由简化模块SIMP进行简化和平滑化。

“简化”在于由单音素表示不同的音素，不同的音素可能彼此混淆，例如“d”和“t”或“k”和“g”。

“平滑化”在于忽略由转录模块(其常常位于识别错误的起源处)提出的语句分割，同时保留激发它的信息。在这个程度上，元音被忽略，除了在每个词的开头处的元音(如由转录模块识别的)和鼻元音以外。包含在INDEX中的预期词经受(有利地离线)相同或相似处理。距离计算模块DIST确定在输入声音的简化和平滑化语音转录与索引的简化和平滑化条目之间的编辑距离。然后，选择模块SEL选择对应于最小编辑距离的条目。

通过示例的方式，如果用户用法语说“A demain”(即“明天见”)，则语音转录将是“AMIN”，其然后被简化为“ATMN”(“N”表示鼻元音)。

编辑距离被定义为将一串字母转换为另一串字母所必需的最小数量的变化。例如，ADMN与BDANS之间的编辑距离是3，因为三个变化是必需的：

-ADMN—>BDMN(“A”变为“B”)；

-BDMN—>BDLN(“M”变为“L”)；

-BDLN—>BDLNS(加上“S”)。

通过考虑具体实施例来描述本发明，具体实施例将多模式对话、动画化语言、机器人位置的伺服控制以及事件(并且更特别地，语言识别)识别的特定方法进行结合。虽然它们在协作中工作效率最高，但也可以彼此独立地实施本发明的这些不同的方面。

Claims

1.一种执行人形机器人(R)与至少一个用户(U)之间的对话的方法，包括由所述人形机器人反复执行的以下步骤：

ⅰ)从相应的传感器(c1，c2)获得多个输入信号(s1，s2)，至少一个所述传感器是声音传感器，并且至少一个另一种传感器是运动传感器或图像传感器；

ⅱ)解释所获得的信号以识别由所述用户产生的多个用户事件(EVI)，所述多个用户事件(EVI)选自于包括以下各项的组：说出至少词或句子、语音的语调、手势、身体姿势、以及面部表达；

ⅲ)基于一组规则来确定所述人形机器人对所述多个用户事件的响应，所述响应包括至少一个机器人事件(EVO)，所述至少一个机器人事件(EVO)选自于包括以下各项的组：说出至少词或句子、语音的语调、手势、身体姿势、以及面部表达，每个所述规则使一组所述多个用户事件与所述至少一个机器人事件相关联，其中如果在步骤ⅲ)期间确定的所述响应包括说出至少词或句子，那么对要说出的所述词或句子执行语言分析并且根据所述分析来确定伴随所述响应的动画，其中确定所述动画包括对要说出的句子执行句法分析，以根据要被动画的至少一个词在所述句子的结构内的功能来确定所述要被动画的至少一个词；以及

ⅳ)由所述人形机器人产生所确定响应的所述至少一个机器人事件中的一个或多个机器人事件；

其中，所述规则中的至少一些规则使所述至少一个机器人事件与由所述用户共同产生并且在所述步骤ⅱ)识别出的至少两个用户事件的组合相关联，其中所述至少两个用户事件中的至少一个用户事件不是由所述用户说出的词或句子。

2.根据权利要求1所述的方法，其中，在所述步骤ⅲ)应用的所述规则中的至少一些规则确定包括由所述人形机器人共同产生的至少两个机器人事件的响应，所述至少两个机器人事件中的至少一个机器人事件不是说出词或句子。

3.根据权利要求1所述的方法，其中，在所述步骤ⅲ，基于选自于：对话语境(CTX)、所述用户的身份、所述人形机器人的内部状态(RIS)的至少一个参数来确定人形机器人的所述响应。

4.根据权利要求3所述的方法，还包括根据在所述步骤ⅱ)识别出的至少一个所述用户事件或在所述步骤ⅲ)中确定的所述至少一个机器人事件来修改所述参数或至少一个所述参数的值的步骤。

5.根据权利要求1所述的方法，其中，所述步骤ⅱ)包括对所获得的信号与属于存储在所述人形机器人的存储器中或能够由所述人形机器人进行访问的预期事件的列表的预期事件之间的匹配进行搜索，通过连续地使用具有增加的复杂度的多个匹配方法(MM1-MM4)来执行所述搜索，直到识别有比预定值大的置信度分数的预期事件，或在具有复杂度的最高识别方法被使用之后。

6.根据权利要求5所述的方法，其中，根据对话的语境来选择所使用的匹配方法。

7.根据权利要求5或权利要求6所述的方法，其中，所述匹配方法按照复杂度增加的顺序包括：对明确匹配的搜索、对近似匹配的搜索、只在语音识别的情况下对语音对应性的搜索、以及对语义对应性的搜索。

8.根据权利要求7所述的方法，其中，对语音对应性进行搜索的所述方法包括：

-由声音传感器获得的一组声音的语音转录的步骤；

-使由此产生的语音转录简化和平滑化的步骤；

-计算所述简化和平滑化的语音转录与多个条目之间的编辑距离，通过以自然的语言使预定组的词简化和平滑化来获得所述多个条目；以及

-对应于具有离所述简化和平滑化的语音转录的最小编辑距离的条目，选择所述预定组的自然语言词。

9.根据权利要求8所述的方法，其中，所述简化和平滑化包括：

-用单音素代替易于混淆的音素；

-去除除了词的开头处的元音和鼻元音以外的元音；以及

-去除词之间的停顿。

10.根据权利要求5、6、8和9中的任一项所述的方法，其中，根据对话语境来在多个所述预期事件的列表当中选择所述预期事件的列表。

11.根据权利要求1、2、3、4、5、6、8和9中的任一项所述的方法，其中，所述步骤ⅲ)包括通过应用属于预定子集(PRO)的、被称为前摄规则的规则来确定对一组用户事件的响应，所述用户事件包括由所述用户说出的词或所识别的手势的缺乏。

12.根据权利要求1所述的方法，其中，对要说出的所述词或句子执行语言分析并且根据所述分析来确定伴随所述响应的动画包括以下子步骤：

α)识别要被动画化的所述响应的至少一个词；

β)确定与要被动画化的所述词或每个所述词相关联的概念和表现力，所述表现力被称为一次性表现力；

γ)基于所述概念和所述一次性表现力来从存储在所述人形机器人的存储器中或能够由所述人形机器人访问的动画的列表(ALST)中选择动画。

13.根据权利要求12所述的方法，其中，在所述子步骤β中，基于选自于：所述词的表现力、与所述词有关的一个或多个其它词的表现力、以及整个响应的整体表现力的至少一个参数来确定所述一次性表现力。

14.根据权利要求12或13所述的方法，其中，所述动画的列表的每个动画与一个或多个概念相关联并且具有具体的表现力，所述子步骤γ包括在所述动画的列表内选择与所述子步骤β中所确定的所述概念相关联并且具有最接近所述一次性表现力的具体表现力的动画。

15.根据权利要求14所述的方法，还包括以下子步骤：

δ)基于所述具体表现力和所述一次性表现力来确定被称为最终表现力的表现力。

16.根据权利要求15所述的方法，其中，所述一次性表现力或所述最终表现力确定在所述动画的至少一个手势的速度和幅度当中选择的至少一个参数。

17.根据权利要求1、2、3、4、5、6、8、9、12、13、15和16中的任一项所述的方法，还包括由所述人形机器人反复地、且与所述步骤ⅰ)到ⅳ)同时地实施的以下步骤：

A)确定所述用户(U)的身体的至少一部分相对于固定到所述人形机器人(R)的参考系的位置；

B)驱动所述人形机器人的至少一个执行器以将所述人形机器人或所述人形机器人的元件与所述用户的所述身体的所述至少一部分之间的距离维持在预定的距离值的范围内。

18.根据权利要求17所述的方法，其中，所述步骤B)还包括驱动所述人形机器人的至少一个执行器以将所述人形机器人相对于所述用户的取向维持在预定的角度范围内。

19.根据权利要求18所述的方法，还包括以下步骤：

C)驱动所述执行器或至少一个所述执行器以引起所述人形机器人的伪随机移位，同时将所述距离维持在所述预定的距离值的范围内，并且在适当的情况下，将所述取向维持在所述预定的角度范围内。

20.根据权利要求18或19所述的方法，还包括以下步骤：

D)执行所述用户与所述人形机器人之间正在进行的对话的语义分析，并且根据所述分析，改变所述预定的距离值的范围，并且在适当的情况下，改变所述预定的角度范围。

21.根据权利要求17所述的方法，其中，所述步骤A)包括确定所述用户的下身相对于固定到所述人形机器人的所述参考系的位置。

22.一种执行人形机器人(R)与至少一个用户(U)之间的对话的装置，包括用于执行根据权利要求1-21中的任一项所述的方法的模块。

23.一种人形机器人(R)，包括：

-至少一个嵌入式处理器；

-多个传感器(c1，c2)，其操作地连接到所述处理器或至少一个所述处理器并且包括至少一个声音传感器和至少一个图像传感器或运动传感器，以获得相应的输入信号；

-语言合成模块，其由所述处理器或至少一个所述处理器驱动以说出词或句子；以及

-至少一个执行器(A1，A2，A3)，其由所述处理器或至少一个所述处理器驱动，从而使所述人形机器人能够执行多个运动或手势；

其特征在于，所述处理器或至少一个所述处理器被编程或被配置为执行根据权利要求1到21中的任一项所述的方法。

24.根据权利要求23所述的人形机器人，还包括用于连接到至少一个远程服务器的设备，所述处理器或至少一个所述处理器被编程或被配置为与所述远程服务器或至少一个所述远程服务器协作以实行根据权利要求1到21中的任一项所述的方法。