CN106952648A

CN106952648A - 一种用于机器人的输出方法以及机器人

Info

Publication number: CN106952648A
Application number: CN201710086703.4A
Authority: CN
Inventors: 栗安
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2017-07-14

Abstract

本发明公开了一种用于机器人的输出方法以及机器人。本发明的方法包括：采集多模态输入数据并解析，确定当前用户的方言属性；根据所述方言属性匹配对应的个性化方言模型；结合所述个性化方言模型生成响应所述多模态输入数据的多模态交互输出。根据本发明的方法可以使得智能机器人实现匹配用户方言风格的多模态交互输出，使得智能机器人与用户的人机交互过程更加贴近人与人的交互过程，从而大大提高智能机器人的拟人化水平，增强智能机器人的用户体验。

Description

一种用于机器人的输出方法以及机器人

技术领域

本发明涉及机器人领域，具体涉及一种用于机器人的输出方法以及机器人。

背景技术

随着机器人技术的不断发展，智能机器人的越来越多的被应用到人类日常的生产生活中。

随着智能机器人在人类日常生活中的不断深化应用，用户对智能机器人的要求也越来越高。具体的，用户不仅希望智能机器人具备更多的日常应用功能，还希望智能机器人的行为更加贴近人类行为。

但是，在现有技术中，机器人的交互输出往往是对某个具体的交互意图的直接响应，其并不包含类似人类行为输出所包含的某些个性化细节，这就使得机器人的交互输出相较人类行为而言显得生涩、机械化，从而大大影响机器人的拟人化水平。

发明内容

本发明提供了一种用于机器人的输出方法，所述方法包括：

采集多模态输入数据并解析，确定当前用户的方言属性；

根据所述方言属性匹配对应的个性化方言模型；

结合所述个性化方言模型生成响应所述多模态输入数据的多模态交互输出。

在一实施例中，确定当前用户的方言属性,包括：

确定所述当前用户的身份；

根据当前用户的身份调用对应的方言属性。

在一实施例中，确定当前用户的方言属性,包括：

获取所述当前用户的语音数据；

将所述语音数据转化为文本，提取文本中的方言特征，生成所述当前用户的方言属性。

在一实施例中，结合所述个性化方言模型生成响应所述多模态输入数据的多模态交互输出，包括：

结合所述个性化方言模型将所述语音输入数据转化为普通话文本；

生成针对所述普通话文本的普通话回复；

通过所述个性化方言模型将所述普通话回复转化为方言回复。

在一实施例中，所述方法还包括：

获取用户的含有方言特征参数的语音识别文本；

将所述语音识别文本应用于训练所述个性化方言模型。

本发明还提供了一种智能机器人，所述机器人包括：

输入采集模块，其配置为采集多模态输入数据；

方言属性确认模块，其配置为解析所述多模态输入数据，确定当前用户的方言属性；

方言模型匹配模块，其配置为根据所述方言属性匹配对应的个性化方言模型；

输出模块，其配置为结合所述个性化方言模型生成响应所述多模态输入数据的多模态交互输出。

在一实施例中，所述方言属性确认模块配置为：

确定所述当前用户的身份；

根据当前用户的身份调用对应的方言属性。

在一实施例中，所述方言属性确认模块配置为：

获取所述当前用户的语音数据；

在一实施例中，所述输出模块配置为：

生成针对所述普通话文本的普通话回复；

在一实施例中，所述机器人还包括方言模型生成模块，其配置为：

获取用户的含有方言特征参数的语音识别文本；

将所述语音识别文本应用于训练所述个性化方言模型。

根据本发明的方法可以使得智能机器人实现匹配用户方言风格的多模态交互输出，使得智能机器人与用户的人机交互过程更加贴近人与人的交互过程，从而大大提高智能机器人的拟人化水平，增强智能机器人的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1～图4是根据本发明不同实施例的方法流程图；

图5是根据本发明一实施例的方法部分流程图；

图6～图9是根据本发明实施例的机器人系统结构简图；

图10是根据本发明一实施例的机器人系统部分结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

但是，在现有技术中，机器人的交互相较人类行为而言显得生涩、机械化，从而大大影响机器人的拟人化水平。

具体的，在人与人的交往场景中，较为常用的交往手段之一是语言交互。语言交互的基本过程是向交互对象发送具有特定含义的语言，通过交互双方对对方发送出的语言进行语义理解来实现交互。也就是说，语言交互的基本在与输出包含特定含义的语言。

对应的，在现有技术中，在机器人与人的交互场景中，基于对人与人之间的语言交互方式的模拟，机器人向人类输出包含特定含义的语言(语音输出)来实现人机交互。

然而，在实际的交互场景中，人类进行语言交互时所输出的语言(说话)并不仅仅包含具体的语义(说话人所想要表达的意思)，还会附带有说话人的一些个人信息(例如说话人的口音、声线等)。这些附带信息即是人类说话中体现“人性化”特征的关键。但是，在现有技术中，机器人在和人类进行语音交互时，仅仅单纯的输出包含具体语义的语音(实现语义的表达)，并未在语音上附加类似人类语音的“人性化特征”。由于人类在交互时已经习惯附加有“人性化”特征的语音，因此，在人机交互时，人类就会觉得机器人语音输出显得生涩、机械化。

基于上述分析，为了提高智能机器人的拟人化水平，本发明提出了一种用于机器人的输出方法。具体的，在本发明一实施例的方法中，机器人在进行语音输出时，模仿人类语音输出的特点，不仅仅进行单纯的包含具体语义的语音输出，而且在语音输出时附加人类语音的附加细节，使得输出的语音更加贴合人类语音的输出习惯。

进一步的，在众多的语音“人性化”特征中，关键特征之一在于方言。一般的，方言是在语种之下，基于语言地域环境不同而形成的一种语言习惯细节。

因此，同一语种下，操持不同方言的人在进行语音交互时会存在一定的理解障碍。例如，无法迅速理解对方的意思、无法完全准确的理解对方的意思甚至是无法理解对方的意思。因此，在人与人交往的过程中，比较理想的语音交互场景通常存在于同一语种下同种方言或相近方言的交互场合中。

基于上述分析，为了提高智能机器人的拟人化水平，在本发明一实施例的方法中，智能机器人在进行语音输出的时候，为自身输出的语音信息附加方言属性，这样就使得机器人输出的语音更加接近真实人类的语音输出，从而避免给听众带来生涩、机械化的感觉。进一步的，机器人为自身输出的语音信息所附加的方言属性是贴合当前的听众(用户)的方言属性的(机器人的语音与用户的语音从属于同一语种同一方言)，这就在提高了机器人语音的拟人化水平的基础上，保证用户可以快速准确的理解机器人输出的语音的具体含义，从而提高了交互效率以及用户体验。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，在一实施例中，智能机器人首先采集多模态输入数据(步骤S100)，然后解析采集到的多模态输入数据(步骤S110)，根据解析结果确定当前用户的方言属性(步骤S120)；接着根据当前用户的方言属性匹配对应的个性化方言模型(步骤S130)；最后结合个性化方言模型生成响应多模态输入数据的多模态交互输出(步骤S130)。

在上述步骤中，由于最后的输出步骤是结合了与用户方言属性匹配的个性化方言模型的，因此智能机器人最后输出的多模态交互输出并不仅仅是响应当前的多模态输入数据，而且带有了与当前用户方言属性匹配(一致)的方言特征。

进一步的，在实际的交互场景中，针对具体的人类(用户)，其方言特征往往是固定不变的。一般的，不会出现一个人的方言属性在短期内突变的情况。因此在本发明一实施例中，机器人预先记录不同的用户的方言属性，在进行人际交互的过程中，根据当前所面对的用户调用已保存的该用户的方言属性记录。

具体的，在一实施例中，即首先通过对采集到的多模态输入数据进行解析来确定当前用户的身份，然后根据当前用户的身份调用对应的方言属性。如图2所示，智能机器人首先采集多模态输入数据(步骤S200)，然后解析采集到的多模态输入数据以确定当前用户的身份(步骤S210)，接着根据用户身份调用已保存的当前用户所对应的方言属性(步骤S220)；接着根据当前用户的方言属性匹配对应的个性化方言模型(步骤S230)；最后结合个性化方言模型生成响应多模态输入数据的多模态交互输出(步骤S230)。

进一步的，在上一实施例中，用户的方言属性的获取前提之一是智能机器人必须预先保存有该用户的方言属性。但是，在某些交互场景中，机器人并没有保存有当前用户的方言属性(没有该用户的资料或者机器人并不具备保存用户方言属性的功能设置)。针对这一情况，在本发明一实施例中，机器人根据当前用户的语音输出(语言)特征来自行分析获取用户的方言属性。具体的，机器人首先获取当前用户的语音数据；然后将语音数据转化为文本；接着提取文本中的方言特征；最后根据提取到的方言特征生成(分析获取)当前用户的方言属性。

如图3所示，智能机器人首先采集多模态输入数据(包括采集当前用户的语音数据)(步骤S300)，然后将采集到的语音数据转化为文本数据(步骤S311)，接着从转化获取的文本数据中提取方言特征(例如特性的单词或是语法特征)(步骤S312)，最后分析提取出的方言特征生成(确定)当前用户所对应的方言属性(步骤S320)；接着根据当前用户的方言属性匹配对应的个性化方言模型(步骤S330)；最后结合个性化方言模型生成响应多模态输入数据的多模态交互输出(步骤S330)。

进一步的，结合上述实施例，在一实施例中，如图4所示，智能机器人首先采集多模态输入数据(包括采集当前用户的语音数据)(步骤S400)，然后解析多模态输入数据判断是否可以确定当前用户的身份(是否已保存有当前用户的相关数据)(步骤S411)。如果可以确定用户身份(已保存有当前用户的相关数据)，则根据用户的身份调用当前用户对应的方言属性(步骤S422)。

如果不能确定当前用户的身份(没有保存有当前用户的相关数据)，则将采集到的语音数据转化为文本数据(步骤S412)，接着从转化获取的文本数据中提取方言特征(例如特性的单词或是语法特征)(步骤S413)，最后分析提取出的方言特征生成(确定)当前用户所对应的方言属性(步骤S420)。

当获取到当前用户的方言属性后(步骤S421或S422)，根据当前用户的方言属性匹配对应的个性化方言模型(步骤S430)；最后结合个性化方言模型生成响应多模态输入数据的多模态交互输出(步骤S430)。

进一步的，在一实施例中，在步骤S421后，智能机器人还获取当前用户的身份，将步骤S421生成的用户的方言属性与该用户身份关联保存。这样，在下次面对该用户进行人机交互时，就不需要再次解析该用户的语音数据，而是直接识别用户身份并调用对应的方言属性。

进一步的，在人机交互场景中，通常的人机交互流程是机器人接收用户输入；解析用户输入确定用户意图；根据用户意图生成并输出对应的多模态交互输出。在上述流程中，决定最终机器人输出是否满足用户需求的关键点在于：

(a)机器人是否理解用户输入(是否可以正确的获取用户意图)

(b)机器人是否可以针对用户意图生成正确的多模态输出。

在实际的交互场景中，操持同一语种但具有不同方言属性的人在表达同一意思时，往往会输出相似但不同的语音。因此，在同一语种下，针对不同的方言，理解其含义的具体方式也是存在不同的。也就是说，人类在进行语音交互时，如果想完美理解交互对象所要表达的含义，前提之一是必须知道如何理解该方言；同时，如果想让对方完美理解自己所要表达的意思，前提之一就是必须知道如何说对方所掌握的方言。

将上述人与人的交互特点套用到人机交互流程上。则：如果机器人需要理解用户的输入(关键点a)，机器人需要具备对应该用户的方言属性的语义理解能力(具备对应该用户的方言属性的语音解析系统)；如果机器人需要用户完美理解自身输出的语音(关键点b)，机器人需要具备对应该用户的方言属性的语音生成能力(具备对应该用户的方言属性的语音生成系统)。

由于在同一语种下，针对不同的方言，理解其含义的具体方式以及方言输出的具体表达方式是存在不同的。因此，针对智能机器人，针对不同的方言，其语音解析系统以及语音输出系统也会不同。这就使得如果机器人需要面对多个不同的方言属性的用户，就需要具备针对多个不同的方言属性的语义解析系统以及语音输出系统。

针对上述情况，在本发明一实施例中，智能机器人在进行语义理解之前，将具有方言属性的语音数据转化为普通话格式，这样就可以采用针对普通话的语义解析系统进行语义理解从而确定用户意图。对应的，在生成多模态交互输出时，首先基于针对普通话的输出系统生成普通话格式的输出数据，然后将普通话格式的输出数据转化为具有方言属性的语音输出。这样，机器人只需要具备一套针对普通话的语义解析系统以及语音输出系统(结合不同方言的转化模型(个性化方言模型))就可以实现针对多个不同方言的人机交互。

如图5所示，在一实施例中，在确定了当前用户的方言属性后，根据当前用户的方言属性匹配对应的个性化方言模型(步骤S530)；然后结合匹配出的个性化方言模型将当前用户的语音输入数据转化为普通话文本(步骤S541)；接着根据步骤S541生成的普通话文本生成针对普通话文本的普通话回复(具体的，首先对普通话文本进行语义解析，然后生成对应语义解析结果的普通话回复)(步骤S542)；最后，通过匹配出的个性化方言模型将步骤S542生成的普通话回复转化为方言回复。

在上述实施例中，使得机器人最终的多模态输出具备方言属性的关键点之一在于输出过程中结合了与用户的方言属性匹配的个性化方言模型。在本发明一实施例中，个性化方言模型包含了方言的具体语法细节(与普通话的语法对应关系)以及特定的单词含义(与普通话的单词对应关系)。具体的，即在不改变语义的前提下，如何将普通话语法转化为方言语法以及如何将普通话单词转化为方言单词。

在本发明一实施例中，机器人采用模型训练的方法获取个性化方言模型。具体的，机器人获取用户的含有方言特征参数的语音识别文本；将含有方言特征参数的语音识别文本应用于训练个性化方言模型。这样就可以大大减少生成个性化方言模型所需的工作量。

进一步的，在一实施例中，机器人在与用户的人机交互过程中获取含有方言特征参数的语音识别文本，随着人机交互的进行，机器人获取到的含有方言特征参数的语音识别文本也不断积累，个性化方言模型不断被完善，从而机器人输出的具有方言属性的语音输出的正确率也就不断被提高，机器人的用户体验也不断改善。

进一步的，在一实施例中，机器人在进行人机交互过程中接收用户针对当前具有方言属性的语音输出的反馈(例如用户评价当前机器人的具有方言属性的语音输出是否正确)，然后根据用户的反馈调整个性化方言模型(例如用户评价当前机器人的语音输出某个方言词汇错误时，机器人调整个性化方言模型中方言词汇的对应关系)。这样就可以不断优化个性化方言模型，从而提高机器人输出的具有方言属性的语音输出的正确率，改善机器人的用户体验。

结合本发明的方法，本发明还提出了一种智能机器人。如图6所示，在一实施例中，机器人包括：

输入采集模块600，其配置为采集多模态输入数据；

方言属性确认模块610，其配置为解析多模态输入数据，确定当前用户的方言属性；

方言模型匹配模块620，其配置为根据当前用户的方言属性匹配对应的个性化方言模型；

输出模块630，其配置为结合个性化方言模型生成响应多模态输入数据的多模态交互输出。

进一步的，在一实施例中，方言属性确认模块配置为：

确定所述当前用户的身份；

根据当前用户的身份调用对应的方言属性。

具体的，如图7所示，方言属性确认模块710包含身份识别单元711以及方言属性调用单元712。输入采集模块700配置为采集多模态输入数据；身份识别单元711配置为根据多模态输入数据确定当前用户的身份；方言属性调用单元712配置为根据当前用户的身份调用对应的方言属性；方言模型匹配模块720配置为根据当前用户的方言属性匹配对应的个性化方言模型；输出模块730配置为结合个性化方言模型生成响应多模态输入数据的多模态交互输出。

进一步的，在一实施例中，方言属性确认模块配置为：

获取当前用户的语音数据；将语音数据转化为文本，提取文本中的方言特征，生成当前用户的方言属性。

具体的，如图8所示，方言属性确认模块810包含语音获取单元811、文本转化单元812、方言特征提取单元813以及方言属性生成单元814。输入采集模块800配置为采集多模态输入数据；语音获取单元811配置为获取多模态输入数据中的当前用户的语音数据；文本转化单元812配置为将语音数据转化为文本；方言特征提取单元813配置为提取文本中的方言特征；方言属性生成单元814配置为生成当前用户的方言属性；方言模型匹配模块820配置为根据当前用户的方言属性匹配对应的个性化方言模型；输出模块830配置为结合个性化方言模型生成响应多模态输入数据的多模态交互输出。

进一步的，在一实施例中，输出模块配置为：

结合个性化方言模型将语音输入数据转化为普通话文本；

生成针对普通话文本的普通话回复；

通过个性化方言模型将普通话回复转化为方言回复。

具体的，如图9所示，输出模块930包含普通话文本生成单元931、普通话回复生成单元932以及方言回复生成单元933。输入采集模块900配置为采集多模态输入数据；方言属性确认模块910配置为解析多模态输入数据，确定当前用户的方言属性；方言模型匹配模块920配置为根据当前用户的方言属性匹配对应的个性化方言模型；普通话文本生成单元931配置为结合个性化方言模型将多模态输入数据中的用户语音输入数据转化为普通话文本；普通话回复生成单元932配置为生成针对普通话文本的普通话回复；方言回复生成单元933配置为通过个性化方言模型将普通话回复转化为方言回复。

进一步的，如图10所示，在一实施例中，机器人还包括方言模型生成模块1040，其配置为：

获取用户的含有方言特征参数的语音识别文本(来自输入采集模块1000)；

将语音识别文本应用于训练个性化方言模型(并将训练完成的个性化方言模型提供给方言模型匹配模块1020)。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种用于机器人的输出方法，其特征在于，所述方法包括：

采集多模态输入数据并解析，确定当前用户的方言属性；

根据所述方言属性匹配对应的个性化方言模型；

2.根据权利要求1所述的方法，其特征在于，确定当前用户的方言属性,包括：

确定所述当前用户的身份；

根据当前用户的身份调用对应的方言属性。

3.根据权利要求1所述的方法，其特征在于，确定当前用户的方言属性,包括：

获取所述当前用户的语音数据；

4.根据权利要求1所述的方法，其特征在于，结合所述个性化方言模型生成响应所述多模态输入数据的多模态交互输出，包括：

生成针对所述普通话文本的普通话回复；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户的含有方言特征参数的语音识别文本；

将所述语音识别文本应用于训练所述个性化方言模型。

6.一种智能机器人，其特征在于，所述机器人包括：

输入采集模块，其配置为采集多模态输入数据；

7.根据权利要求6所述的机器人，其特征在于，所述方言属性确认模块配置为：

确定所述当前用户的身份；

根据当前用户的身份调用对应的方言属性。

8.根据权利要求6所述的机器人，其特征在于，所述方言属性确认模块配置为：

获取所述当前用户的语音数据；

9.根据权利要求6所述的机器人，其特征在于，所述输出模块配置为：

生成针对所述普通话文本的普通话回复；

10.根据权利要求6所述的机器人，其特征在于，所述机器人还包括方言模型生成模块，其配置为：

获取用户的含有方言特征参数的语音识别文本；

将所述语音识别文本应用于训练所述个性化方言模型。