CN114490971B

CN114490971B - 基于人机对话交互的机器人控制方法及系统

Info

Publication number: CN114490971B
Application number: CN202111662261.6A
Authority: CN
Inventors: 苏瑞; 衡进; 孙贇; 姚郁巍
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2024-04-05
Anticipated expiration: 2041-12-30
Also published as: CN114490971A

Abstract

本申请采用多轮人机对话的机制实现机器人与用户之间的交互，不但提升了准确率，而且改变了现有的机器人对话过程中只能识别和接收指令型语句的弊端，用户体验更加自然；本发明通过初级功能目标的识别，能够准确调用功能要素模板，再以功能要素模板为提纲进行多轮的对话组织，从而全面获得机器人功能的相关要素。

Description

基于人机对话交互的机器人控制方法及系统

技术领域

本申请属于机器人控制技术领域，具体涉及一种基于人机对话交互的机器人控制方法及系统。

背景技术

随着信息化时代的发展以及智能机器人技术的进步，智能机器人已经被广泛应用于多个领域。

在物流调度领域，物流机器人用于面向不便于外卖员、快递员进入的封闭管理写字楼、园区、社区，实现包裹、信件、餐饮等物品的物流配送。物流机器人可以承担送件和取件任务，即从园区、社区、写字楼的门口接收待配送的物品，然后按照规划的路径将物品输送至目的地，交付给用户；以及，根据用户下达的取件订单，前往取件位置，从用户处取走物品，输送到门口。

在物流机器人收发快递的作业进程中，显然需要使用户、快递员、外卖员与机器人能够畅通、无障碍、便捷地进行交互。通过人机交互过程实现的功能包括但不限于：地址信息的输入、指示机器人打开或关闭货物仓、身份信息核验、物品安检、费用支付等等。并且，在物流机器人的自主行动过程中，显然也经常需要人机交互，包括对道路和电梯空间的占用的协商等等场景。

由于机器人自身的硬件结构和尺寸限制，利用触摸屏幕实现人机交互可能存在一些困难和阻碍，包括屏幕位置不易安装、只能在很近的距离执行人机交互等等。

相比而言，用户、快递员、外卖员利用语音与机器人对话，实现人机交互，进而控制机器人执行功能，不但更为适合物流机器人的特点，也更加快捷方便。

然而，在现有技术中，以人机对话交互的方式执行的机器人控制往往并不准确，经常造成机器人误操作或者是无法响应。原因是机器人往往只能允许预先规定好的若干条指令型的对话语句，例如“请停下”、“请打开货仓门”、“请扫描面部”、“请出示身份证”等，而当用户超出该预定范围的对话语句与机器人交互时，机器人无法准确判断用户的功能目标，进而无法给出动作响应，可见其在性能和精度上达不到实际投入应用的要求。

发明内容

针对以上技术问题，本申请提出一种基于人机对话交互的机器人控制方法及系统。

本申请提出的基于人机对话交互的机器人控制方法，包括如下步骤：

获取用户提供的包含上下文信息的对话语句信息；

将所述对话语句信息输入到初级功能目标识别单元，得到初级功能目标；

将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比，获得功能要素模板；

根据功能要素模板中空缺的功能要素，发起多轮人机对话；并且，根据用户在多轮人机对话中的对话语句输入，填充所述功能要素模板中空缺的功能要素；

将填充完成后的功能要素模板输入到控制识别单元中，得到机器人控制指向的识别结果；根据所述机器人控制指向以及初级功能目标，生成并发布机器人动作的控制指令。

在一些实施例中，步骤S1中，将用户的语音信号转化为文本型的对话语句信息；对于转化后的文本型信息，将其与预置的关键词库进行比对，提取文本型信息中的关键词；然后，再针对所提取的关键词，使用以关键词为中心、预定词间距的截词窗口，提取关键词的上、下文临近词；所述对话语句信息是所述关键词及其临近词排列形成的词序列。

在一些实施例中，步骤S2具体包括：

步骤S2.1，将所述对话语句信息的词序列进行长度规整化；

步骤S2.2，使用BERT预训练的词特征提取器，对所述固定长度的对话语句信息进行词特征向量的提取；

步骤S2.3，将所述词特征向量输入针对初级功能目标的分类器当中，计算对应各个初级功能目标的逻辑值；并通过softmax函数根据所述逻辑值，确定初级功能目标。

在一些实施例中，步骤S3中，预先建立机器人功能库，该库中存储了机器人的全部的功能目标，形成功能目标集合；每一种功能目标具有对应的功能要素模板，该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。

在一些实施例中，步骤S5具体包括：

步骤S5.1，机器人的控制指向类别包括S个类别；并且，对于控制指向结果中的每个类别，分别对应一个指向识别词向量K；并且，机器人的控制指向结果的每个类别具有功能目标的标志向量V；

步骤5.2，将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算，得到第一相似度计算结果；

步骤5.3，将所述初级功能目标和所述标志向量V进行相似度计算，获得第二相似度计算结果；

步骤5.4，将第一相似度计算结果和第二相似度计算结果进行加权平均，根据加权平均值最大的控制指向类别作为机器人的控制指向结果。

本发明提供了一种基于人机对话交互的机器人控制系统，包括：

语音采集和转化单元，用于获取用户提供的包含上下文信息的对话语句信息；

功能目标识别单元，用于将所述对话语句信息输入到初级功能目标识别单元，得到初级功能目标；

机器人功能库单元，将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比，获得功能要素模板；

对话填充单元，根据功能要素模板中空缺的功能要素，发起多轮人机对话；并且，根据用户在多轮人机对话中的对话语句输入，填充所述功能要素模板中空缺的功能要素；

控制识别单元，用于根据输入的填充完成后的功能要素模板，得到机器人控制指向的识别结果；根据所述机器人控制指向以及初级功能目标，生成并发布机器人动作的控制指令。

在一些实施例中，所述语音采集和转化单元，将用户的语音信号转化为文本型的对话语句信息；对于转化后的文本型信息，将其与预置的关键词库进行比对，提取文本型信息中的关键词；然后，再针对所提取的关键词，使用以关键词为中心、预定词间距的截词窗口，提取关键词的上、下文临近词；所述对话语句信息是所述关键词及其临近词排列形成的词序列。

在一些实施例中，所述功能目标识别单元包括：

词序列规整化单元，用于将所述对话语句信息的词序列进行长度规整化；

BERT预训练的词特征提取器，用于对所述固定长度的对话语句信息进行词特征向量的提取；

softmax核函数分类器，用于将所述词特征向量输入针对初级功能目标的分类器当中，计算对应各个初级功能目标的逻辑值；并通过softmax函数根据所述逻辑值，确定初级功能目标。

在一些实施例中，所述机器人功能库单元用于预先建立机器人功能库，该库中存储了机器人的全部的功能目标，形成功能目标集合；每一种功能目标具有对应的功能要素模板，该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。

在一些实施例中，控制识别单元具体包括：机器人的控制指向类别包括S个类别；并且，对于控制指向结果中的每个类别，分别对应一个指向识别词向量K；并且，机器人的控制指向结果的每个类别具有功能目标的标志向量V；将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算，得到第一相似度计算结果；将所述初级功能目标和所述标志向量V进行相似度计算，获得第二相似度计算结果；将第一相似度计算结果和第二相似度计算结果进行加权平均，根据加权平均值最大的控制指向类别作为机器人的控制指向结果。

本发明采用多轮人机对话的机制实现机器人与用户之间的交互，不但提升了准确率，而且改变了现有的机器人对话过程中只能识别和接收指令型语句的弊端，用户体验更加自然；本发明通过初级功能目标的识别，能够准确调用功能要素模板，再以功能要素模板为提纲进行多轮的对话组织，从而全面获得机器人功能的相关要素。对于功能要素进行控制指向的双重标志识别，保障了控制指向的准确，防止误响应。

附图说明

图1为本申请实施例的人机对话交互的机器人控制方法的流程图；

图2为本申请实施例的初级功能目标识别过程流程图；

图3为本申请实施例的机器人控制指向识别的流程图；

图4为本申请实施例的人机对话交互的机器人控制系统结构图；

图5为本申请实施例的功能目标识别单元结构图。

具体实施方式：

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

参见图1所示，本申请提出的基于人机对话交互的机器人控制方法，包括如下步骤：

步骤S1：获取用户提供的包含上下文信息的对话语句信息；

步骤S2：将所述对话语句信息输入到初级功能目标识别单元，得到初级功能目标；

步骤S3：将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比，获得功能要素模板；

步骤S4：根据功能要素模板中空缺的功能要素，发起多轮人机对话；并且，根据用户在多轮人机对话中的对话语句输入，填充所述功能要素模板中空缺的功能要素；

步骤S5：将填充完成后的功能要素模板输入到控制识别单元中，得到机器人控制指向的识别结果；根据所述机器人控制指向以及初级功能目标，生成并发布机器人动作的控制指令。

在步骤S1中，机器人可以利用其内置的语音采集和转化单元，将用户的语音信号转化为文本型的对话语句信息。可以基于现有的语音识别技术，将语音信号采集、放大、降噪处理、模数转化后，识别为文本型信息，在此不再赘述。

步骤S1中，所获得的对话语句信息并非现有技术中的指令型语句信息，而是更为符合自然对话习惯的包含上下文信息的对话语句信息。具体来说，对于转化后的文本型信息，将其与预置的关键词库进行比对，提取文本型信息中的关键词；然后，再针对所提取的关键词，使用以关键词为中心、预定词间距的截词窗口，提取关键词的上、下文临近词；将关键词及其临近词排列形成的词序列表示为{…,l′₂,l′₁,m′₁,h′₁,h′₂,…},其中，m′₁为关键词，{…,l′₂,l′₁}、{h′₁,h′₂,…}分别表示截词窗口范围内的关键词的下、上文临近词；将所述关键词及其临近词排列形成的词序列作为所述包含上下文信息的对话语句信息。

步骤S2中，对于步骤S1取得的词序列形式的对话语句信息，将所述对话语句信息输入到初级功能目标识别单元，得到初级功能目标。

参见图2，在初级功能目标识别的过程中，首先，通过步骤S2.1将所述对话语句信息的词序列进行长度规整化，通过在词序列的头部和/或尾部填充空白词，将该词序列规整化为固定长度。

步骤S2.2中，使用BERT预训练的词特征提取器，对所述固定长度的对话语句信息进行词特征向量的提取。经BERT预训练的词特征提取器所提取的词特征向量表示为

步骤S2.3中，将所述词特征向量输入针对初级功能目标的分类器当中，计算对应各个初级功能目标的逻辑值；并通过softmax函数根据所述逻辑值，确定初级功能目标。

步骤2.3中，所述针对初级功能目标的分类器采用维度为2×d的线性分类器，其中，d为隐层状态维度。本申请在BERT预训练的词特征提取器所输出的提特征向量特征/>经过线性分类器的分类后产生分类逻辑向量l^s，分类逻辑向量l^s每个位置上的数值代表该位置的逻辑值。将该分类逻辑向量分类逻辑向量l^s代入softmax函数，softmax函数公式如下：

其中，z_i为分类逻辑向量l^s在第i个节点的输出值，C共计N个，即表示N个初级功能目标。取其中softmax函数公式的S(z_i)值最大者对应的功能目标，作为初级功能目标。

步骤S3中，将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比，获得功能要素模板。

机器人预先建立机器人功能库，该库中存储了机器人的全部的功能目标，形成功能目标集合。例如，对于物流机器人而言，功能目标集合中的功能目标包括但不限于：机器人行进、机器人停止、货仓开闭操作、录入取送货地址、人脸扫描、身份证扫描等。对于每一种功能目标，具有对应的功能要素模板，该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。例如，对于货仓开闭的功能目标，其功能要素模板中记录的功能要素包括：操作人身份权限、目标货物；对于录入取送货地址的功能目标，功能要素模板中记录的功能要素包括：取送货楼号、楼层号、房间号、用户电话、用户身份信息等。

步骤S4：根据功能要素模板中空缺的功能要素，发起多轮人机对话；并且，根据用户在多轮人机对话中的对话语句输入，填充所述功能要素模板中空缺的功能要素。

在开启多轮人机对话之前，前述功能要素模板中的功能要素均为空白状态。并且，为了采集功能要素，机器人针对功能要素模板中的每个功能要素，预先存储了提问语句信息。在多轮对话过程中，机器人根据功能要素模板中未填充的功能要素，播报所对应的提问语句信息。

多轮人机对话中，根据用户针对提问语句信息的语音回复，同样通过语音信号采集、放大、降噪处理、模数转化后，将其识别为文本型信息，填入所述功能要素模板。

步骤S5中，将填充完成后的功能要素模板以及初级功能目标输入到控制识别单元中，获得机器人控制指向结果，根据控制指向结果生成并发布机器人动作的控制指令。

参见图3，步骤S5具体包括：

步骤5.2和步骤5.3中，相似度计算公式如下：其中，A和B代表两个特征向量。

参见图4，本申请提出的基于人机对话交互的机器人控制系统，包括：

机器人可以利用其内置的语音采集和转化单元，将用户的语音信号转化为文本型的对话语句信息。可以基于现有的语音识别技术，将语音信号采集、放大、降噪处理、模数转化后，识别为文本型信息，在此不再赘述。

语音采集和转化单元所获得的对话语句信息并非现有技术中的指令型语句信息，而是更为符合自然对话习惯的包含上下文信息的对话语句信息。具体来说，对于转化后的文本型信息，将其与预置的关键词库进行比对，提取文本型信息中的关键词；然后，再针对所提取的关键词，使用以关键词为中心、预定词间距的截词窗口，提取关键词的上、下文临近词；将关键词及其临近词排列形成的词序列表示为{…,l′₂,l′₁,m′₁,h′₁,h′₂,…},其中，m′₁为关键词，{…,l′₂,l′₁}、{h′₁,h′₂,…}分别表示截词窗口范围内的关键词的下、上文临近词；将所述关键词及其临近词排列形成的词序列作为所述包含上下文信息的对话语句信息。

对于取得的词序列形式的对话语句信息，将所述对话语句信息输入到初级功能目标识别单元，得到初级功能目标。

如图5所示，功能目标识别单元包括词序列规整化单元，在初级功能目标识别的过程中，首先将所述对话语句信息的词序列进行长度规整化，通过在词序列的头部和/或尾部填充空白词，将该词序列规整化为固定长度。

并且，功能目标识别单元包括BERT预训练的词特征提取器，对所述固定长度的对话语句信息进行词特征向量的提取。经BERT预训练的词特征提取器所提取的词特征向量表示为

功能目标识别单元包括softmax核函数分类器，将所述词特征向量输入针对初级功能目标的分类器当中，计算对应各个初级功能目标的逻辑值；并通过softmax函数根据所述逻辑值，确定初级功能目标。所述针对初级功能目标的分类器采用维度为2×d的线性分类器，其中，d为隐层状态维度。本申请在BERT预训练的词特征提取器所输出的提特征向量特征/>经过线性分类器的分类后产生分类逻辑向量l^s，分类逻辑向量l^s每个位置上的数值代表该位置的逻辑值。将该分类逻辑向量分类逻辑向量l^s代入softmax函数，softmax函数公式如下：

机器人功能库单元将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比，获得功能要素模板。

对话填充单元，根据功能要素模板中空缺的功能要素，发起多轮人机对话；并且，根据用户在多轮人机对话中的对话语句输入，填充所述功能要素模板中空缺的功能要素。

将填充完成后的功能要素模板以及初级功能目标输入到控制识别单元中，获得机器人控制指向结果，根据控制指向结果生成并发布机器人动作的控制指令。具体包括：机器人的控制指向类别包括S个类别；并且，对于控制指向结果中的每个类别，分别对应一个指向识别词向量K；并且，机器人的控制指向结果的每个类别具有功能目标的标志向量V；将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算，得到第一相似度计算结果；将所述初级功能目标和所述标志向量V进行相似度计算，获得第二相似度计算结果；将第一相似度计算结果和第二相似度计算结果进行加权平均，根据加权平均值最大的控制指向类别作为机器人的控制指向结果。

其中，相似度计算公式如下：其中，A和B代表两个特征向量。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于人机对话交互的机器人控制方法，其特征在于，包括如下步骤：

获取用户提供的包含上下文信息的对话语句信息；

将填充完成后的功能要素模板输入到控制识别单元中，得到机器人控制指向的识别结果；根据所述机器人控制指向以及初级功能目标，生成并发布机器人动作的控制指令，具体包括：

步骤S5.2，将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算，得到第一相似度计算结果；

步骤S5.3，将所述初级功能目标和所述标志向量V进行相似度计算，获得第二相似度计算结果；

步骤S5.4，将第一相似度计算结果和第二相似度计算结果进行加权平均，根据加权平均值最大的控制指向类别作为机器人的控制指向结果。

2.根据权利要求1所述的基于人机对话交互的机器人控制方法，其特征在于，步骤S1中，将用户的语音信号转化为文本型的对话语句信息；对于转化后的文本型信息，将其与预置的关键词库进行比对，提取文本型信息中的关键词；然后，再针对所提取的关键词，使用以关键词为中心、预定词间距的截词窗口，提取关键词的上、下文临近词；所述对话语句信息是所述关键词及其临近词排列形成的词序列。

3.根据权利要求1所述的基于人机对话交互的机器人控制方法，其特征在于，步骤S2具体包括：

步骤S2.1，将所述对话语句信息的词序列进行长度规整化；

步骤S2.2，使用BERT预训练的词特征提取器，对固定长度的对话语句信息进行词特征向量的提取；

4.根据权利要求1所述的基于人机对话交互的机器人控制方法，其特征在于，步骤S3中，预先建立机器人功能库，该库中存储了机器人的全部的功能目标，形成功能目标集合；每一种功能目标具有对应的功能要素模板，该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。

5.一种基于人机对话交互的机器人控制系统，其特征在于，包括：

控制识别单元，用于根据输入的填充完成后的功能要素模板，得到机器人控制指向的识别结果；根据所述机器人控制指向以及初级功能目标，生成并发布机器人动作的控制指令，其中，控制识别单元具体包括：机器人的控制指向类别包括S个类别；并且，对于控制指向结果中的每个类别，分别对应一个指向识别词向量K；并且，机器人的控制指向结果的每个类别具有功能目标的标志向量V；将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算，得到第一相似度计算结果；将所述初级功能目标和所述标志向量V进行相似度计算，获得第二相似度计算结果；将第一相似度计算结果和第二相似度计算结果进行加权平均，根据加权平均值最大的控制指向类别作为机器人的控制指向结果。

6.根据权利要求5所述的基于人机对话交互的机器人控制系统，其特征在于，所述语音采集和转化单元，将用户的语音信号转化为文本型的对话语句信息；对于转化后的文本型信息，将其与预置的关键词库进行比对，提取文本型信息中的关键词；然后，再针对所提取的关键词，使用以关键词为中心、预定词间距的截词窗口，提取关键词的上、下文临近词；所述对话语句信息是所述关键词及其临近词排列形成的词序列。

7.根据权利要求5所述的基于人机对话交互的机器人控制系统，其特征在于，所述功能目标识别单元包括：

BERT预训练的词特征提取器，用于对固定长度的对话语句信息进行词特征向量的提取；

8.根据权利要求5所述的基于人机对话交互的机器人控制系统，其特征在于，所述机器人功能库单元用于预先建立机器人功能库，该库中存储了机器人的全部的功能目标，形成功能目标集合；每一种功能目标具有对应的功能要素模板，该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。