CN114490971B - 基于人机对话交互的机器人控制方法及系统 - Google Patents
基于人机对话交互的机器人控制方法及系统 Download PDFInfo
- Publication number
- CN114490971B CN114490971B CN202111662261.6A CN202111662261A CN114490971B CN 114490971 B CN114490971 B CN 114490971B CN 202111662261 A CN202111662261 A CN 202111662261A CN 114490971 B CN114490971 B CN 114490971B
- Authority
- CN
- China
- Prior art keywords
- robot
- functional
- function
- target
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 58
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000009471 action Effects 0.000 claims description 16
- 230000000977 initiatory effect Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012905 input function Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 96
- 230000008569 process Effects 0.000 abstract description 9
- 230000007547 defect Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000008520 organization Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请采用多轮人机对话的机制实现机器人与用户之间的交互,不但提升了准确率,而且改变了现有的机器人对话过程中只能识别和接收指令型语句的弊端,用户体验更加自然;本发明通过初级功能目标的识别,能够准确调用功能要素模板,再以功能要素模板为提纲进行多轮的对话组织,从而全面获得机器人功能的相关要素。
Description
技术领域
本申请属于机器人控制技术领域,具体涉及一种基于人机对话交互的机器人控制方法及系统。
背景技术
随着信息化时代的发展以及智能机器人技术的进步,智能机器人已经被广泛应用于多个领域。
在物流调度领域,物流机器人用于面向不便于外卖员、快递员进入的封闭管理写字楼、园区、社区,实现包裹、信件、餐饮等物品的物流配送。物流机器人可以承担送件和取件任务,即从园区、社区、写字楼的门口接收待配送的物品,然后按照规划的路径将物品输送至目的地,交付给用户;以及,根据用户下达的取件订单,前往取件位置,从用户处取走物品,输送到门口。
在物流机器人收发快递的作业进程中,显然需要使用户、快递员、外卖员与机器人能够畅通、无障碍、便捷地进行交互。通过人机交互过程实现的功能包括但不限于:地址信息的输入、指示机器人打开或关闭货物仓、身份信息核验、物品安检、费用支付等等。并且,在物流机器人的自主行动过程中,显然也经常需要人机交互,包括对道路和电梯空间的占用的协商等等场景。
由于机器人自身的硬件结构和尺寸限制,利用触摸屏幕实现人机交互可能存在一些困难和阻碍,包括屏幕位置不易安装、只能在很近的距离执行人机交互等等。
相比而言,用户、快递员、外卖员利用语音与机器人对话,实现人机交互,进而控制机器人执行功能,不但更为适合物流机器人的特点,也更加快捷方便。
然而,在现有技术中,以人机对话交互的方式执行的机器人控制往往并不准确,经常造成机器人误操作或者是无法响应。原因是机器人往往只能允许预先规定好的若干条指令型的对话语句,例如“请停下”、“请打开货仓门”、“请扫描面部”、“请出示身份证”等,而当用户超出该预定范围的对话语句与机器人交互时,机器人无法准确判断用户的功能目标,进而无法给出动作响应,可见其在性能和精度上达不到实际投入应用的要求。
发明内容
针对以上技术问题,本申请提出一种基于人机对话交互的机器人控制方法及系统。
本申请提出的基于人机对话交互的机器人控制方法,包括如下步骤:
获取用户提供的包含上下文信息的对话语句信息;
将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标;
将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板;
根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素;
将填充完成后的功能要素模板输入到控制识别单元中,得到机器人控制指向的识别结果;根据所述机器人控制指向以及初级功能目标,生成并发布机器人动作的控制指令。
在一些实施例中,步骤S1中,将用户的语音信号转化为文本型的对话语句信息;对于转化后的文本型信息,将其与预置的关键词库进行比对,提取文本型信息中的关键词;然后,再针对所提取的关键词,使用以关键词为中心、预定词间距的截词窗口,提取关键词的上、下文临近词;所述对话语句信息是所述关键词及其临近词排列形成的词序列。
在一些实施例中,步骤S2具体包括:
步骤S2.1,将所述对话语句信息的词序列进行长度规整化;
步骤S2.2,使用BERT预训练的词特征提取器,对所述固定长度的对话语句信息进行词特征向量的提取;
步骤S2.3,将所述词特征向量输入针对初级功能目标的分类器当中,计算对应各个初级功能目标的逻辑值;并通过softmax函数根据所述逻辑值,确定初级功能目标。
在一些实施例中,步骤S3中,预先建立机器人功能库,该库中存储了机器人的全部的功能目标,形成功能目标集合;每一种功能目标具有对应的功能要素模板,该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。
在一些实施例中,步骤S5具体包括:
步骤S5.1,机器人的控制指向类别包括S个类别;并且,对于控制指向结果中的每个类别,分别对应一个指向识别词向量K;并且,机器人的控制指向结果的每个类别具有功能目标的标志向量V;
步骤5.2,将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算,得到第一相似度计算结果;
步骤5.3,将所述初级功能目标和所述标志向量V进行相似度计算,获得第二相似度计算结果;
步骤5.4,将第一相似度计算结果和第二相似度计算结果进行加权平均,根据加权平均值最大的控制指向类别作为机器人的控制指向结果。
本发明提供了一种基于人机对话交互的机器人控制系统,包括:
语音采集和转化单元,用于获取用户提供的包含上下文信息的对话语句信息;
功能目标识别单元,用于将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标;
机器人功能库单元,将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板;
对话填充单元,根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素;
控制识别单元,用于根据输入的填充完成后的功能要素模板,得到机器人控制指向的识别结果;根据所述机器人控制指向以及初级功能目标,生成并发布机器人动作的控制指令。
在一些实施例中,所述语音采集和转化单元,将用户的语音信号转化为文本型的对话语句信息;对于转化后的文本型信息,将其与预置的关键词库进行比对,提取文本型信息中的关键词;然后,再针对所提取的关键词,使用以关键词为中心、预定词间距的截词窗口,提取关键词的上、下文临近词;所述对话语句信息是所述关键词及其临近词排列形成的词序列。
在一些实施例中,所述功能目标识别单元包括:
词序列规整化单元,用于将所述对话语句信息的词序列进行长度规整化;
BERT预训练的词特征提取器,用于对所述固定长度的对话语句信息进行词特征向量的提取;
softmax核函数分类器,用于将所述词特征向量输入针对初级功能目标的分类器当中,计算对应各个初级功能目标的逻辑值;并通过softmax函数根据所述逻辑值,确定初级功能目标。
在一些实施例中,所述机器人功能库单元用于预先建立机器人功能库,该库中存储了机器人的全部的功能目标,形成功能目标集合;每一种功能目标具有对应的功能要素模板,该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。
在一些实施例中,控制识别单元具体包括:机器人的控制指向类别包括S个类别;并且,对于控制指向结果中的每个类别,分别对应一个指向识别词向量K;并且,机器人的控制指向结果的每个类别具有功能目标的标志向量V;将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算,得到第一相似度计算结果;将所述初级功能目标和所述标志向量V进行相似度计算,获得第二相似度计算结果;将第一相似度计算结果和第二相似度计算结果进行加权平均,根据加权平均值最大的控制指向类别作为机器人的控制指向结果。
本发明采用多轮人机对话的机制实现机器人与用户之间的交互,不但提升了准确率,而且改变了现有的机器人对话过程中只能识别和接收指令型语句的弊端,用户体验更加自然;本发明通过初级功能目标的识别,能够准确调用功能要素模板,再以功能要素模板为提纲进行多轮的对话组织,从而全面获得机器人功能的相关要素。对于功能要素进行控制指向的双重标志识别,保障了控制指向的准确,防止误响应。
附图说明
图1为本申请实施例的人机对话交互的机器人控制方法的流程图;
图2为本申请实施例的初级功能目标识别过程流程图;
图3为本申请实施例的机器人控制指向识别的流程图;
图4为本申请实施例的人机对话交互的机器人控制系统结构图;
图5为本申请实施例的功能目标识别单元结构图。
具体实施方式:
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
参见图1所示,本申请提出的基于人机对话交互的机器人控制方法,包括如下步骤:
步骤S1:获取用户提供的包含上下文信息的对话语句信息;
步骤S2:将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标;
步骤S3:将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板;
步骤S4:根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素;
步骤S5:将填充完成后的功能要素模板输入到控制识别单元中,得到机器人控制指向的识别结果;根据所述机器人控制指向以及初级功能目标,生成并发布机器人动作的控制指令。
在步骤S1中,机器人可以利用其内置的语音采集和转化单元,将用户的语音信号转化为文本型的对话语句信息。可以基于现有的语音识别技术,将语音信号采集、放大、降噪处理、模数转化后,识别为文本型信息,在此不再赘述。
步骤S1中,所获得的对话语句信息并非现有技术中的指令型语句信息,而是更为符合自然对话习惯的包含上下文信息的对话语句信息。具体来说,对于转化后的文本型信息,将其与预置的关键词库进行比对,提取文本型信息中的关键词;然后,再针对所提取的关键词,使用以关键词为中心、预定词间距的截词窗口,提取关键词的上、下文临近词;将关键词及其临近词排列形成的词序列表示为{…,l′2,l′1,m′1,h′1,h′2,…},其中,m′1为关键词,{…,l′2,l′1}、{h′1,h′2,…}分别表示截词窗口范围内的关键词的下、上文临近词;将所述关键词及其临近词排列形成的词序列作为所述包含上下文信息的对话语句信息。
步骤S2中,对于步骤S1取得的词序列形式的对话语句信息,将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标。
参见图2,在初级功能目标识别的过程中,首先,通过步骤S2.1将所述对话语句信息的词序列进行长度规整化,通过在词序列的头部和/或尾部填充空白词,将该词序列规整化为固定长度。
步骤S2.2中,使用BERT预训练的词特征提取器,对所述固定长度的对话语句信息进行词特征向量的提取。经BERT预训练的词特征提取器所提取的词特征向量表示为
步骤S2.3中,将所述词特征向量输入针对初级功能目标的分类器当中,计算对应各个初级功能目标的逻辑值;并通过softmax函数根据所述逻辑值,确定初级功能目标。
步骤2.3中,所述针对初级功能目标的分类器采用维度为2×d的线性分类器,其中,d为隐层状态维度。本申请在BERT预训练的词特征提取器所输出的提特征向量特征/>经过线性分类器的分类后产生分类逻辑向量ls,分类逻辑向量ls每个位置上的数值代表该位置的逻辑值。将该分类逻辑向量分类逻辑向量ls代入softmax函数,softmax函数公式如下:
其中,zi为分类逻辑向量ls在第i个节点的输出值,C共计N个,即表示N个初级功能目标。取其中softmax函数公式的S(zi)值最大者对应的功能目标,作为初级功能目标。
步骤S3中,将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板。
机器人预先建立机器人功能库,该库中存储了机器人的全部的功能目标,形成功能目标集合。例如,对于物流机器人而言,功能目标集合中的功能目标包括但不限于:机器人行进、机器人停止、货仓开闭操作、录入取送货地址、人脸扫描、身份证扫描等。对于每一种功能目标,具有对应的功能要素模板,该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。例如,对于货仓开闭的功能目标,其功能要素模板中记录的功能要素包括:操作人身份权限、目标货物;对于录入取送货地址的功能目标,功能要素模板中记录的功能要素包括:取送货楼号、楼层号、房间号、用户电话、用户身份信息等。
步骤S4:根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素。
在开启多轮人机对话之前,前述功能要素模板中的功能要素均为空白状态。并且,为了采集功能要素,机器人针对功能要素模板中的每个功能要素,预先存储了提问语句信息。在多轮对话过程中,机器人根据功能要素模板中未填充的功能要素,播报所对应的提问语句信息。
多轮人机对话中,根据用户针对提问语句信息的语音回复,同样通过语音信号采集、放大、降噪处理、模数转化后,将其识别为文本型信息,填入所述功能要素模板。
步骤S5中,将填充完成后的功能要素模板以及初级功能目标输入到控制识别单元中,获得机器人控制指向结果,根据控制指向结果生成并发布机器人动作的控制指令。
参见图3,步骤S5具体包括:
步骤S5.1,机器人的控制指向类别包括S个类别;并且,对于控制指向结果中的每个类别,分别对应一个指向识别词向量K;并且,机器人的控制指向结果的每个类别具有功能目标的标志向量V;
步骤5.2,将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算,得到第一相似度计算结果;
步骤5.3,将所述初级功能目标和所述标志向量V进行相似度计算,获得第二相似度计算结果;
步骤5.4,将第一相似度计算结果和第二相似度计算结果进行加权平均,根据加权平均值最大的控制指向类别作为机器人的控制指向结果。
步骤5.2和步骤5.3中,相似度计算公式如下:其中,A和B代表两个特征向量。
参见图4,本申请提出的基于人机对话交互的机器人控制系统,包括:
语音采集和转化单元,用于获取用户提供的包含上下文信息的对话语句信息;
功能目标识别单元,用于将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标;
机器人功能库单元,将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板;
对话填充单元,根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素;
控制识别单元,用于根据输入的填充完成后的功能要素模板,得到机器人控制指向的识别结果;根据所述机器人控制指向以及初级功能目标,生成并发布机器人动作的控制指令。
机器人可以利用其内置的语音采集和转化单元,将用户的语音信号转化为文本型的对话语句信息。可以基于现有的语音识别技术,将语音信号采集、放大、降噪处理、模数转化后,识别为文本型信息,在此不再赘述。
语音采集和转化单元所获得的对话语句信息并非现有技术中的指令型语句信息,而是更为符合自然对话习惯的包含上下文信息的对话语句信息。具体来说,对于转化后的文本型信息,将其与预置的关键词库进行比对,提取文本型信息中的关键词;然后,再针对所提取的关键词,使用以关键词为中心、预定词间距的截词窗口,提取关键词的上、下文临近词;将关键词及其临近词排列形成的词序列表示为{…,l′2,l′1,m′1,h′1,h′2,…},其中,m′1为关键词,{…,l′2,l′1}、{h′1,h′2,…}分别表示截词窗口范围内的关键词的下、上文临近词;将所述关键词及其临近词排列形成的词序列作为所述包含上下文信息的对话语句信息。
对于取得的词序列形式的对话语句信息,将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标。
如图5所示,功能目标识别单元包括词序列规整化单元,在初级功能目标识别的过程中,首先将所述对话语句信息的词序列进行长度规整化,通过在词序列的头部和/或尾部填充空白词,将该词序列规整化为固定长度。
并且,功能目标识别单元包括BERT预训练的词特征提取器,对所述固定长度的对话语句信息进行词特征向量的提取。经BERT预训练的词特征提取器所提取的词特征向量表示为
功能目标识别单元包括softmax核函数分类器,将所述词特征向量输入针对初级功能目标的分类器当中,计算对应各个初级功能目标的逻辑值;并通过softmax函数根据所述逻辑值,确定初级功能目标。所述针对初级功能目标的分类器采用维度为2×d的线性分类器,其中,d为隐层状态维度。本申请在BERT预训练的词特征提取器所输出的提特征向量特征/>经过线性分类器的分类后产生分类逻辑向量ls,分类逻辑向量ls每个位置上的数值代表该位置的逻辑值。将该分类逻辑向量分类逻辑向量ls代入softmax函数,softmax函数公式如下:
其中,zi为分类逻辑向量ls在第i个节点的输出值,C共计N个,即表示N个初级功能目标。取其中softmax函数公式的S(zi)值最大者对应的功能目标,作为初级功能目标。
机器人功能库单元将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板。
机器人预先建立机器人功能库,该库中存储了机器人的全部的功能目标,形成功能目标集合。例如,对于物流机器人而言,功能目标集合中的功能目标包括但不限于:机器人行进、机器人停止、货仓开闭操作、录入取送货地址、人脸扫描、身份证扫描等。对于每一种功能目标,具有对应的功能要素模板,该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。例如,对于货仓开闭的功能目标,其功能要素模板中记录的功能要素包括:操作人身份权限、目标货物;对于录入取送货地址的功能目标,功能要素模板中记录的功能要素包括:取送货楼号、楼层号、房间号、用户电话、用户身份信息等。
对话填充单元,根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素。
在开启多轮人机对话之前,前述功能要素模板中的功能要素均为空白状态。并且,为了采集功能要素,机器人针对功能要素模板中的每个功能要素,预先存储了提问语句信息。在多轮对话过程中,机器人根据功能要素模板中未填充的功能要素,播报所对应的提问语句信息。
多轮人机对话中,根据用户针对提问语句信息的语音回复,同样通过语音信号采集、放大、降噪处理、模数转化后,将其识别为文本型信息,填入所述功能要素模板。
将填充完成后的功能要素模板以及初级功能目标输入到控制识别单元中,获得机器人控制指向结果,根据控制指向结果生成并发布机器人动作的控制指令。具体包括:机器人的控制指向类别包括S个类别;并且,对于控制指向结果中的每个类别,分别对应一个指向识别词向量K;并且,机器人的控制指向结果的每个类别具有功能目标的标志向量V;将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算,得到第一相似度计算结果;将所述初级功能目标和所述标志向量V进行相似度计算,获得第二相似度计算结果;将第一相似度计算结果和第二相似度计算结果进行加权平均,根据加权平均值最大的控制指向类别作为机器人的控制指向结果。
其中,相似度计算公式如下:其中,A和B代表两个特征向量。
本发明采用多轮人机对话的机制实现机器人与用户之间的交互,不但提升了准确率,而且改变了现有的机器人对话过程中只能识别和接收指令型语句的弊端,用户体验更加自然;本发明通过初级功能目标的识别,能够准确调用功能要素模板,再以功能要素模板为提纲进行多轮的对话组织,从而全面获得机器人功能的相关要素。对于功能要素进行控制指向的双重标志识别,保障了控制指向的准确,防止误响应。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (8)
1.一种基于人机对话交互的机器人控制方法,其特征在于,包括如下步骤:
获取用户提供的包含上下文信息的对话语句信息;
将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标;
将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板;
根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素;
将填充完成后的功能要素模板输入到控制识别单元中,得到机器人控制指向的识别结果;根据所述机器人控制指向以及初级功能目标,生成并发布机器人动作的控制指令,具体包括:
步骤S5.1,机器人的控制指向类别包括S个类别;并且,对于控制指向结果中的每个类别,分别对应一个指向识别词向量K;并且,机器人的控制指向结果的每个类别具有功能目标的标志向量V;
步骤S5.2,将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算,得到第一相似度计算结果;
步骤S5.3,将所述初级功能目标和所述标志向量V进行相似度计算,获得第二相似度计算结果;
步骤S5.4,将第一相似度计算结果和第二相似度计算结果进行加权平均,根据加权平均值最大的控制指向类别作为机器人的控制指向结果。
2.根据权利要求1所述的基于人机对话交互的机器人控制方法,其特征在于,步骤S1中,将用户的语音信号转化为文本型的对话语句信息;对于转化后的文本型信息,将其与预置的关键词库进行比对,提取文本型信息中的关键词;然后,再针对所提取的关键词,使用以关键词为中心、预定词间距的截词窗口,提取关键词的上、下文临近词;所述对话语句信息是所述关键词及其临近词排列形成的词序列。
3.根据权利要求1所述的基于人机对话交互的机器人控制方法,其特征在于,步骤S2具体包括:
步骤S2.1,将所述对话语句信息的词序列进行长度规整化;
步骤S2.2,使用BERT预训练的词特征提取器,对固定长度的对话语句信息进行词特征向量的提取;
步骤S2.3,将所述词特征向量输入针对初级功能目标的分类器当中,计算对应各个初级功能目标的逻辑值;并通过softmax函数根据所述逻辑值,确定初级功能目标。
4.根据权利要求1所述的基于人机对话交互的机器人控制方法,其特征在于,步骤S3中,预先建立机器人功能库,该库中存储了机器人的全部的功能目标,形成功能目标集合;每一种功能目标具有对应的功能要素模板,该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。
5.一种基于人机对话交互的机器人控制系统,其特征在于,包括:
语音采集和转化单元,用于获取用户提供的包含上下文信息的对话语句信息;
功能目标识别单元,用于将所述对话语句信息输入到初级功能目标识别单元,得到初级功能目标;
机器人功能库单元,将所述初级功能目标与机器人功能库中存储的功能目标集合进行对比,获得功能要素模板;
对话填充单元,根据功能要素模板中空缺的功能要素,发起多轮人机对话;并且,根据用户在多轮人机对话中的对话语句输入,填充所述功能要素模板中空缺的功能要素;
控制识别单元,用于根据输入的填充完成后的功能要素模板,得到机器人控制指向的识别结果;根据所述机器人控制指向以及初级功能目标,生成并发布机器人动作的控制指令,其中,控制识别单元具体包括:机器人的控制指向类别包括S个类别;并且,对于控制指向结果中的每个类别,分别对应一个指向识别词向量K;并且,机器人的控制指向结果的每个类别具有功能目标的标志向量V;将功能要素模板中的功能要素的词特征向量Q与关键词向量K进行相似度计算,得到第一相似度计算结果;将所述初级功能目标和所述标志向量V进行相似度计算,获得第二相似度计算结果;将第一相似度计算结果和第二相似度计算结果进行加权平均,根据加权平均值最大的控制指向类别作为机器人的控制指向结果。
6.根据权利要求5所述的基于人机对话交互的机器人控制系统,其特征在于,所述语音采集和转化单元,将用户的语音信号转化为文本型的对话语句信息;对于转化后的文本型信息,将其与预置的关键词库进行比对,提取文本型信息中的关键词;然后,再针对所提取的关键词,使用以关键词为中心、预定词间距的截词窗口,提取关键词的上、下文临近词;所述对话语句信息是所述关键词及其临近词排列形成的词序列。
7.根据权利要求5所述的基于人机对话交互的机器人控制系统,其特征在于,所述功能目标识别单元包括:
词序列规整化单元,用于将所述对话语句信息的词序列进行长度规整化;
BERT预训练的词特征提取器,用于对固定长度的对话语句信息进行词特征向量的提取;
softmax核函数分类器,用于将所述词特征向量输入针对初级功能目标的分类器当中,计算对应各个初级功能目标的逻辑值;并通过softmax函数根据所述逻辑值,确定初级功能目标。
8.根据权利要求5所述的基于人机对话交互的机器人控制系统,其特征在于,所述机器人功能库单元用于预先建立机器人功能库,该库中存储了机器人的全部的功能目标,形成功能目标集合;每一种功能目标具有对应的功能要素模板,该功能要素模板中记录了机器人执行动作实现该功能目标过程中必需的信息要素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111662261.6A CN114490971B (zh) | 2021-12-30 | 2021-12-30 | 基于人机对话交互的机器人控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111662261.6A CN114490971B (zh) | 2021-12-30 | 2021-12-30 | 基于人机对话交互的机器人控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114490971A CN114490971A (zh) | 2022-05-13 |
CN114490971B true CN114490971B (zh) | 2024-04-05 |
Family
ID=81508501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111662261.6A Active CN114490971B (zh) | 2021-12-30 | 2021-12-30 | 基于人机对话交互的机器人控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490971B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114267356B (zh) * | 2021-12-30 | 2024-04-02 | 重庆特斯联智慧科技股份有限公司 | 一种人机交互物流机器人及其控制方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107756395A (zh) * | 2016-08-19 | 2018-03-06 | 腾讯科技(深圳)有限公司 | 智能机器人的控制系统、方法和装置 |
CN107756412A (zh) * | 2017-09-22 | 2018-03-06 | 上海壹账通金融科技有限公司 | 语音对话机器人的控制方法及终端设备 |
CN108986801A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
CN110364251A (zh) * | 2019-06-14 | 2019-10-22 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN112100349A (zh) * | 2020-09-03 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 一种多轮对话方法、装置、电子设备及存储介质 |
CN112750431A (zh) * | 2019-10-29 | 2021-05-04 | 珠海市一微半导体有限公司 | 垃圾桶机器人的语音控制方法、垃圾桶机器人及芯片 |
KR102261539B1 (ko) * | 2020-06-02 | 2021-06-07 | 주식회사 날다 | 지능형 한국 문화 플랫폼 서비스 제공 시스템 |
CN112965594A (zh) * | 2021-02-25 | 2021-06-15 | 广东机电职业技术学院 | 一种基于视觉手势识别的机器人人机交互系统和方法 |
CN112965603A (zh) * | 2021-03-26 | 2021-06-15 | 南京阿凡达机器人科技有限公司 | 一种人机交互的实现方法和系统 |
CN113299294A (zh) * | 2021-05-26 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 任务型对话机器人交互方法、装置、设备及存储介质 |
-
2021
- 2021-12-30 CN CN202111662261.6A patent/CN114490971B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107756395A (zh) * | 2016-08-19 | 2018-03-06 | 腾讯科技(深圳)有限公司 | 智能机器人的控制系统、方法和装置 |
CN108986801A (zh) * | 2017-06-02 | 2018-12-11 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置及人机交互终端 |
CN107756412A (zh) * | 2017-09-22 | 2018-03-06 | 上海壹账通金融科技有限公司 | 语音对话机器人的控制方法及终端设备 |
CN110364251A (zh) * | 2019-06-14 | 2019-10-22 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN112750431A (zh) * | 2019-10-29 | 2021-05-04 | 珠海市一微半导体有限公司 | 垃圾桶机器人的语音控制方法、垃圾桶机器人及芯片 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
KR102261539B1 (ko) * | 2020-06-02 | 2021-06-07 | 주식회사 날다 | 지능형 한국 문화 플랫폼 서비스 제공 시스템 |
CN112100349A (zh) * | 2020-09-03 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 一种多轮对话方法、装置、电子设备及存储介质 |
CN112965594A (zh) * | 2021-02-25 | 2021-06-15 | 广东机电职业技术学院 | 一种基于视觉手势识别的机器人人机交互系统和方法 |
CN112965603A (zh) * | 2021-03-26 | 2021-06-15 | 南京阿凡达机器人科技有限公司 | 一种人机交互的实现方法和系统 |
CN113299294A (zh) * | 2021-05-26 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 任务型对话机器人交互方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于MDP的移动机器人室内导航对话管理实现;王恒升;王思远;张震钢;;《计算技术与自动化》;20180315(第1期);45-51 * |
多功能智能机器人的设计及实现;刘树洪 等;《电子制作》;20200601(第11期);10-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN114490971A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
Zhang et al. | A gru-based encoder-decoder approach with attention for online handwritten mathematical expression recognition | |
US11790919B2 (en) | Multiple classifications of audio data | |
Kim et al. | Towards speech emotion recognition" in the wild" using aggregated corpora and deep multi-task learning | |
US7724957B2 (en) | Two tiered text recognition | |
Kulik | Neural network model of artificial intelligence for handwriting recognition. | |
Yang et al. | Sign language spotting with a threshold model based on conditional random fields | |
Ren et al. | Intention detection based on siamese neural network with triplet loss | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN104205126A (zh) | 对手写字符的无旋转识别 | |
CN110472675A (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
CN111098312A (zh) | 窗口政务服务机器人 | |
CN113688221B (zh) | 基于模型的话术推荐方法、装置、计算机设备和存储介质 | |
CN114490971B (zh) | 基于人机对话交互的机器人控制方法及系统 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN111221961A (zh) | 一种基于s-lstm模型与槽值门的说话人意图识别系统及方法 | |
CN114764869A (zh) | 利用每个对象的单个检测的多对象检测 | |
Thiel et al. | Fuzzy-input fuzzy-output one-against-all support vector machines | |
Choudhury et al. | A CNN-LSTM based ensemble framework for in-air handwritten Assamese character recognition | |
Shareef et al. | A review: isolated Arabic words recognition using artificial intelligent techniques | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
Alisamir et al. | An end-to-end deep learning model to recognize Farsi speech from raw input | |
EP4030352A1 (en) | Task-specific text generation based on multimodal inputs | |
Kumar et al. | A Bayesian approach to script independent multilingual keyword spotting | |
US11681364B1 (en) | Gaze prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |