CN116050431A - 人机交互方法、装置、机器人、智能设备和存储介质 - Google Patents
人机交互方法、装置、机器人、智能设备和存储介质 Download PDFInfo
- Publication number
- CN116050431A CN116050431A CN202211702448.9A CN202211702448A CN116050431A CN 116050431 A CN116050431 A CN 116050431A CN 202211702448 A CN202211702448 A CN 202211702448A CN 116050431 A CN116050431 A CN 116050431A
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- normal
- deep learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种人机交互方法、装置、机器人、智能设备和存储介质,该方法包括:智能设备先获取自身采集的待处理文本。若待处理文本包含噪声文本,则再确定待处理文本中是否还包含具有正确语法的正常文本。进一步地,若待处理文本包含正常文本,则智能设备输出该正常文本对应的响应结果,也即是实现对待处理文本的交互。可见,上述方法提供了一种噪声文本过滤方法,即智能设备可以对待处理文本中的噪声文本进行过滤,并对过滤后得到的正常文本进行响应。这种方法能够避免待处理文本中噪声文本对人机交互的影响,从而提高用户与智能设备之间的响应成功率,即提高人机交互的流畅性。
Description
技术领域
本发明涉及人机交互领域,尤其涉及一种人机交互方法、装置、机器人、智能设备和存储介质。
背景技术
随着人工智能技术的快速发展,服务机器人、智能音箱等智能设备应运而生。在用户实际使用智能设备的过程中,用户与智能设备之间的交互音频、周围的噪声、广播以及其他人产生的音频可以形成混合音频以输入到智能设备中。之后,智能设备又可以将此混合音频转换成文本,并对此文本进行响应,从而实现人机交互。
由于混合音频中夹杂着除用户之外的音频,所以会导致智能设备识别出与用户意图无关的语法不正确的文本,进而影响到智能设备后续对用户意图的理解,导致人机交互失败。因此,如何提高人机交互的流畅性就成为一个亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种人机交互方法、装置、机器人、智能设备和存储介质,用以提高人机交互的流畅性。
第一方面,本发明实施例提供一种人机交互方法,包括:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
第二方面,本发明实施例提供一种人机交互装置,包括:
获取模块,用于获取智能设备采集的待处理文本;
确定模块,用于若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
输出模块,用于若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
第三方面,本发明实施例提供一种机器人,包括:处理器和存储器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
第四方面,本发明实施例提供一种智能设备,当所述智能设备中存储的计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器至少执行以下的动作:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
第五方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的人机交互方法。
本发明实施例提供的人机交互方法,首先,智能设备获取自身采集的待处理文本。若待处理文本包含噪声文本,则再确定待处理文本中是否还包含具有正确语法的正常文本。进一步地,若待处理文本包含正常文本,则智能设备输出该正常文本对应的响应结果,也即是实现对待处理文本的交互。可见,上述方法提供了一种噪声文本过滤方法,即智能设备可以对待处理文本中的噪声文本进行过滤,并对过滤后得到的正常文本进行响应。这种方法能够避免待处理文本中噪声文本对人机交互的影响,从而提高用户与智能设备之间的响应成功率,即提高人机交互的流畅性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人机交互方法的流程图;
图2为本发明实施例提供的另一种人机交互方法的流程图;
图3为本发明实施例提供的一种深度学习模型的结构示意图;
图4为本发明实施例提供的一种训练深度学习模型的流程图;
图5为本发明实施例提供的一种人机交互装置的结构示意图;
图6为本发明实施例提供的一种机器人的结构示意图;
图7为本发明实施例提供的一种智能设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
在对本发明各实施例提供的人机交互方法进行详细描述之前,还可以对人机交互的应用场景进行示意性描述:
正如背景技术中介绍的,在用户实际使用智能设备的过程中,用户与智能设备之间的交互音频、周围的噪声、广播以及其他人产生的音频可以形成混合音频以输入到智能设备中。之后,智能设备又可以将此混合音频转换成文本,并对此文本进行响应,从而实现人机交互。可选地,智能设备可以包括智能机器人、语音助手、蓝牙音箱、智能零售柜等任一具有对话功能的电子设备。
以商场迎宾接待场景为例,该智能机器人可以是商场中的智能导购机器人。智能导购机器人可以监测到目标用户对其产生的交互音频,该交互音频的内容可以为“给我推荐一家服装店”,智能导购机器人可以通过内置的语音识别(Automat i c Speech Recogni t i on,简称ASR)模块,将自身采集到的交互音频转换为对应的文本信息,即得到文本信息:“给我推荐一家服装店”,该智能导购机器人可以直接对其进行响应,以向目标用户输出推荐的服装店的位置。其中,上述的文本信息中包含的是具有正确语法的正常文本。
除了上述情况之外,正如背景技术中介绍的,智能导购机器人在监测交互音频“给我推荐一家服装店”的同时还可能受到周围声音的影响,如商场广播的声音、其他用户产生的音频等,则智能导购机器人最终可能得到一条“漂亮真给我推荐一家服装店”的文本信息。此时,智能导购机器人则会因为该文本信息的语法不正确而直接忽略该文本信息不进行应答。这样便会导致目标用户的问题得不到智能导购机器人的响应,从而降低了交互的体验感。其中,上述文本信息“漂亮真给我推荐一家服装店”中的“漂亮真”可以认为是对语义识别存在干扰的噪声文本,“给我推荐一家服装店”可以认为是用于进行语义识别的、具有正确语法的正常文本。容易理解的,在实际中,智能机器人得到的文本信息也可以只包含噪声文本。
则为了改善上述问题,则可以使用本发明下述各实施例提供的人机交互方法可以从上述得到的文本信息“漂亮真给我推荐一家服装店”中提取出具有正确语法的部分文本信息“给我推荐一家服装店”,并对该文本信息进行响应。也就是说,当智能设备得到包含噪声文本的交互音频“漂亮真给我推荐一家服装店”,相比于直接将其滤除,使用本发明所提供的方法智能设备仍会对其进行响应,从而提高用户与智能设备之间的响应成功率,也即是提高人机交互的流畅性。而本发明提供的人机交互方法的具体实现过程可以参加下述各实施例中的相关描述。
则图1为本发明实施例提供的一种人机交互方法的流程图。本发明实施例提供的该人机交互方法可以由智能设备来执行。可以理解的是,该智能设备具体可以包括智能机器人、蓝牙音箱、语音助手、智能零售柜等任一具有对话功能的电子设备。如图1所示,该方法包括如下步骤:
S101,获取智能设备采集的待处理文本。
具体地,智能设备可以实时获取待处理文本。待处理文本即为智能设备的拾音器件在所处环境内采集到的语音信息对应的文本信息。根据上述举例可知,待处理文本可以由噪声文本和/或具有正确语法的正常文本构成。
可选地,对于待处理文本的生成,可以通过智能设备中配置的ASR模块将智能设备采集到的语音信息转换为对应的文本信息,也可以通过语音识别算法或者神经网络模型将采集到的语音信息转换为对应的文本信息,本发明对此不做特殊限定。
S102,若待处理文本包含噪声文本,则确定待处理文本中是否还包含具有正确语法的正常文本。
对于步骤S101中智能设备获取到的待处理文本,智能设备可以进一步确定其中是否包含噪声文本。可选地,可以借助预先训练完成的、配置于智能设备中的分类模型来确定待处理文本中是否存在噪声文本。具体地,可以将待处理文本输入到智能设备中配置的分类模型,以由分类模型输出反映待处理文本是否包含噪声文本的分类结果。可选地,分类模型可以是深度学习模型中的任一种,例如:卷积神经网络模型(Convo l ut i ona l Neural Networks,CNN)、循环神经网络模型(Recurrent Neura l Networks,RNN)、神经网络语言模型(Neura l Network Language Mode l,NNLM)、基于变换器的双向编码器表示模型(B id i rect i ona l Encoder Representat i on from Transformers,Bert)等等。
一种情况,若确定待处理文本包含噪声文本,则智能设备可以进一步确定待处理文本中是否还包含具有正确语法的正常文本。对于待处理文本中正常文本的确定,一种可选地方式,可以利用智能设备中配置的分类算法对待处理文本进行分类,分类算法可以为K近邻算法、逻辑回归以及朴素贝叶斯算法中的任一种。另一种可选地方式,智能设备还可以利用自身配置的网络模型对待处理文本进行分类。网络模型比如可以为CNN、RNN、NNLM以及Bert等深度学习模型中的任一种。
另一种情况,若确定待处理文本中不包含噪声文本,表明此待处理文本包含的是正常文本,则智能设备可以直接对其进行响应,即输出待处理文本的响应结果,也即是完成一轮人机交互。
S103,若待处理文本包含正常文本,则输出正常文本的响应结果。
若待处理文本中同时包含噪声文本以及具有正确语法的正常文本,则智能设备可以从中过滤掉噪声文本并识别此正常文本的语义,以最终输出正常文本的响应结果。即智能设备会对待处理文本进行应答,实现人机交互。
本实施例中,首先,智能设备获取自身采集的待处理文本。若待处理文本包含噪声文本,则再确定待处理文本中是否还包含具有正确语法的正常文本。进一步地,若待处理文本包含正常文本,则智能设备输出该正常文本对应的响应结果,也即是实现对待处理文本的交互。可见,上述方法提供了一种噪声文本过滤方法,即智能设备可以对待处理文本中的噪声文本进行过滤,并对过滤后得到的正常文本进行响应。这种方法能够避免待处理文本中噪声文本对人机交互的影响,从而提高用户与智能设备之间的响应成功率,即提高人机交互的流畅性。
图1所示实施例中已经公开了智能设备可以使用自身配置的网络模型确定待处理文本中是否还包含具有语法正确的正常文本,并提取此正常文本。具体地,智能设备可以将待处理文本输入到智能设备配置的深度学习模型中,以由深度学习模型确定是否能从待处理文本中提取到正常文本。则图2为本发明实施例提供的另一种人机交互方法的流程图,如图2所示,该方法可以包括如下步骤:
S201,获取智能设备采集的待处理文本。
步骤S201的执行过程与前述实施例的步骤相似,可以参见如图1所示实施例中的相关描述,在此再不赘述。
S202,将待处理文本输入至智能设备配置的深度学习模型,以由深度学习模型输出分类结果以及位置信息,其中,分类结果反映待处理文本中是否包含正常文本,位置信息反映正常文本在待处理文本中的起始位置和结束位置。
将待处理文本输入至智能设备配置的深度学习模型,以由该深度学习模型对输入的待处理文本进行处理,得到分类结果以及位置信息。其中,分类结果反映此待处理文本是否还包含正常文本,位置信息反映正常文本在待处理文本中的起始位置和结束位置。
可选地,深度学习模型可以为Bert模型。具体地,该深度学习模型可以包括编码网络层和全连接层,其具体结构如图3所示。在待处理文本的开头可以添加一个特殊的标志位[CLS],该标志位[CLS]用于输出待处理文本中是否包含正常文本。将标志位和待处理文本共同输入至智能设备部署的深度学习模型中,以由深度学习模型中的编码网络层分别对标志位和待处理文本进行编码,以由深度学习模型中的全连接层根据编码网络层输出的编码向量输出分类结果和位置信息。其中,标志位[CLS]经过编码网络层可以得到第一编码向量,待处理文本中的每个字符经过编码网络层可以得到各自对应的第二编码向量。
接着,利用全连接层和归一化指数函数(简称softmax)可以得到第一编码向量对应的分类结果及其置信度。其中,分类结果表明待处理文本中是否还包含正常文本,置信度反映待处理文本包含正常文本的概率。其中,计算分类结果的置信度的公式如下:
p=softmax(Wcls[CLS]+bcls)
其中,[CLS]表示第一编码向量,Wcls为模型参数,bcls为模型参数,p为分类结果的置信度。
利用全连接层和softmax函数可以得到第二编码向量对应的位置信息及其置信度。其中,位置信息表明待处理文本中包含正常文本的起止位置,置信度反映待处理文本包含正常文本的起止位置的概率。其中,计算起始位置的置信度公式如下:
start_positioni=softmax(Wstartti+bstart)
其中,ti表示待处理文本中的第i字符对应的第二编码向量,start_positioni表明第i字符是待处理文本中正常文本的起始位置的置信度,Wstart和bstart为模型参数。
则基于上述得到的待处理文本中每个字符对应的起始位置的置信度,正常文本的起始位置可以通过下述公式确定,公式如下:
s=argmax(start_positoni)
其中,s表示正常文本的起始位置,argmax是函数,用于得到起始位置的置信度的最大值。即将最大start_positioni对应的字符在待处理文本中的位置确定为正常文本的起始位置。
其中,计算结束位置的置信度公式如下:
end_positioni=softmax(Wendti+bend)
其中,ti表示待处理文本中的第i字符对应的第二编码向量,end_positioni表明第i字符是待处理文本中正常文本的结束位置的置信度,Wend和bend为模型参数。
则基于上述得到的待处理文本中每个字符对应的结束位置的置信度,正常文本的结束位置可以通过下述公式确定,公式如下:
e=argmax(end_positoni)
其中,e表示正常文本的结束位置,argmax是函数,用于得到结束位置的置信度的最大值。即将最大end_positioni对应的字符在待处理文本中的位置确定为正常文本的结束位置。
基于上述过程得到的分类结果及其置信度、位置信息及其置信度,可以确定出待处理文本中是否还包含正常文本,以及正常文本的起始位置和结束位置。若分类结果的置信度大于预设阈值,则深度学习模型可以根据起始位置和结束位置从待处理文本中提取出正常文本。
S203,若待处理文本包含正常文本,则输出正常文本的响应结果。
若待处理文本中同时包含噪声文本以及具有正确语法的正常文本,则智能设备可以从中过滤掉噪声文本并识别此正常文本的语义,以最终输出正常文本的响应结果。即智能设备会对此待处理文本进行应答,实现人机交互。
本实施例中,首先,获取智能设备采集的待处理文本。然后,将此待处理文本输入至智能设备配置的深度学习模型,以由深度学习模型输出分类结果以及位置信息,其中,分类结果反映此待处理文本中是否还包含正常文本,位置信息反映正常文本在待处理文本中的起始位置和结束位置。最终,若待处理文本包含正常文本,则输出正常文本的响应结果。可见,通过智能设备配置的深度学习模型,能够准确输出分类结果即待处理文本是否还包含正常文本,以及准确输出待处理文本中正常文本的起始位置和结束位置。即通过深度学习模型能够更好地将待处理文本中的噪声文本过滤掉,并对过滤后得到的正常文本进行响应,能够更好地避免待处理文本中噪声文本对人机交互的影响,从而提高用户与智能设备之间的响应成功率,即提高人机交互的流畅性。
上述实施例中已经提及可以通过深度学习模型对待处理文本进行处理,该深度学习模型可以预先训练。而对于训练深度学习模型的过程,如图4所示,该方法可以包括以下步骤:
S301,将目标训练样本输入深度学习模型,以由深度学习模型输出目标训练样本的预测分类结果以及预测位置信息,其中,目标训练样本对应于目标标注信息。
将目标训练样本输入到深度学习模型,以由深度学习模型输出目标训练样本的预测分类结果以及预测位置信息。其中,目标训练样本对应于目标标注信息。
可选地,目标训练样本可以包括对应于第一标注信息的第一样本。对于第一样本的确定,一种可选地方式,可以先获取具有正确语法的历史文本,然后,根据预设算法在历史文本的预设位置添加预设长度的噪声文本,以得到第一样本。再根据第一样本中噪声文本的位置和长度,确定第一标注信息。
举例来说,获取一条具有正确语法的历史文本“给我推荐一家服装店”,此时根据预设算法,可以在此文本前面添加任意三个字,得到第一样本“漂亮真给我推荐一家服装店”。此第一样本是否需要提取正常文本即样本中是否包含噪声文本,以及该第一样本中“漂亮真”的起止位置即为第一标注信息。利用预设算法可以自动实现对样本的标注,从而提高标注效率,节约标注成本。
可选地,添加噪声文本的位置以及噪声文本的长度均可以认为是该预设算法的算法参数。可以根据智能设备历史采集到的历史文本中噪声文本的出现位置和长度进行抽象总结,从而得到上述的算法参数。
可选地,目标训练样本可以包括对应于第二标注信息的第二样本,通过人工标注可以得到第二标注信息。其中,第二标注信息同样包括样本中是否包含噪声文本即是否需要提取正常文本以及正常文本起始位置及结束位置。
可选地,目标训练样本还可以同时包括第一样本和第二样本。
S302,根据目标标注信息中的参考分类结果和预测分类结果,确定第一损失值。
根据目标标注信息中的参考分类结果,以及深度学习模型输出的预测分类结果,深度学习模型的第一损失值可以通过下述公式确定:
其中,N为目标训练样本的数量,yi为样本i是否需要提取的参考分类结果,pi为深度学习模型输出的样本i的预测分类结果。
S303,根据目标标注信息中的参考位置信息和预测位置信息,确定第二损失值。
根据目标标注信息中的参考位置信息,以及深度学习模型输出的预测位置信息,可以确定第二损失值。其中,位置信息包括待处理文本中正常文本的起始位置和结束位置,即分别计算起始位置和结束位置的损失值,也即是第二损失值为起始位置和结束位置的损失值之和。
其中,起始位置的损失值可以通过下述公式确定,公式如下:
其中,N为目标训练样本的数量,T为待处理文本的字符数,starti,j为样本i中第j个字符起始位置的参考位置信息,start_positioni,j为深度学习模型输出的样本i中第j个字符的预测位置信息。
其中,结束位置的损失值可以通过下述公式确定,公式如下:
其中,N为目标训练样本的数量,T为待处理文本的字符数,endi,j为样本i中第j个字符结束位置的参考位置信息,end_positioni,j为深度学习模型输出的样本i中第j个字符的预测位置信息。
S304,根据第一损失值和第二损失值,训练深度学习模型。
基于步骤S302和S303得到的第一损失值和第二损失值,训练深度学习模型,即可以根据两部分损失值调整深度学习模型的参数直至模型收敛从而完成模型训练。
一种可选地方式,可以直接将第一损失值和第二损失值之和作为总损失值进行深度学习模型的参数调整,总损失值可以表示为:
Loss=lp+lstart+lend
可选地,也可以为不同的损失值设置不同权重参数,从而利用权重参数和损失值计算出深度学习模型的总损失值。
本实施例中,将目标训练样本输入深度学习模型,以由深度学习模型输出目标训练样本的预测分类结果以及预测位置信息。其中,目标训练样本对应于目标标注信息。然后,根据目标标注信息中的参考分类结果和预测分类结果,确定第一损失值。再根据目标标注信息中的参考位置信息和预测位置信息,确定第二损失值。最终,根据第一损失值和第二损失值,训练深度学习模型。
对于目标样本中的第一样本,由于第一样本中的噪声文本是利用预设算法得到的,该算法中的算法参数可以直接反映该第一样本的标注信息,因此,可以自动得到第一样本对应的第一标注信息,从而提高标注效率,节约标注成本。同时,第二样本是根据第二标注信息人工标注得到的,同时使用第一样本和第二样本训练深度学习模型,能够提高深度学习模型的处理文本准确度。
为便于理解,还可以结合如下场景对以上提供的人机交互方法的具体实现过程进行示例性说明。
以商场迎宾接待场景为例,智能设备可以为智能导购机器人。则在这种环境下,用户可以向智能导购机器人发出交互音频,如“给我推荐一家服装店”。
智能导购机器人在接收用户产生的交互音频过程中,还可能也会采集到周围的噪声、广播以及其他人产生的音频,形成混合音频。接着,智能导购机器人会将此混合音频转换为对应的文本信息,即得到一条待处理文本:“漂亮真给我推荐一家服装店”。
对于上述获取到的待处理文本,智能导购机器人可以借助自身配置的分类模型确定待处理文本中是否包含噪声文本。若确定待处理文本包含噪声文本,则智能导购机器人可以在此待处理文本的开头添加一个特殊的标志位[CLS],并将此标志位和此待处理文本共同输入到深度学习模型,以由深度学习模型输出分类结果以及位置信息。其中,分类结果反映此待处理文本是否还包含正常文本,位置信息反映正常文本在待处理文本中的起始位置和结束位置。其中,深度学习模型可以为Bert模型,该模型具体可以包括编码网络层和全连接层。深度学习模型的具体工作过程可以参见上述图2所示实施例中的相关描述,在此不再赘述。
若根据分类结果确定此待处理文本中包含正常文本,则智能导购机器人可以直接根据位置信息,确定待处理文本中正常文本的起始位置和结束位置,即确定正常文本的起始位置为3,结束位置为11,得到正常文本为“给我推荐一家服装店”。最终智能导购机器人可以响应此正常文本,对其进行应答处理。
上述方法能够将待处理文本中的噪声文本过滤掉,并对过滤后得到的正常文本进行响应,避免了待处理文本中噪声文本对人机交互的影响,从而提高用户与智能设备之间的响应成功率,即提高人机交互的流畅性。
可选地,对于上述使用到的深度学习模型的训练过程也可以参见上述图4所示实施例中的相关描述。
可选地,目标训练样本可以包括对应于第一标注信息的第一样本。对于第一样本的确定过程可以参见图4实施例中的相关描述。其中,第一标注信息包括样本中是否包含噪声文本即是否需要提取正常文本以及正常文本的起止位置。利用预设算法可以自动实现对样本的标注,从而提高标注效率,节约标注成本。可选地,添加噪声文本的位置以及噪声文本的长度均可以认为是该预设算法的算法参数。
可选地,目标训练样本可以包括对应于第二标注信息的第二样本,通过人工标注可以得到第二标注信息。其中,第二标注信息同样包括样本中是否包含噪声文本即是否需要提取正常文本以及正常文本的起止位置。
可选地,目标训练样本还可以同时包括第一样本和第二样本。对于目标样本中的第一样本,由于第一样本中的噪声文本是利用预设算法得到的,该算法中的算法参数可以直接反映该第一样本的标注信息,因此,可以自动得到第一样本对应的第一标注信息,从而提高标注效率,节约标注成本。同时,第二样本是根据第二标注信息人工标注得到的,同时使用第一样本和第二样本训练深度学习模型,能够提高深度学习模型的处理文本准确度。
需要说明有,本发明提供的各实施例还可以应用在商场、银行、医院、图书馆等各种公共场所中设置的机器人上,具体实现方式与商场迎宾接待场景类似,在此不再赘述。
以下将详细描述本发明的一个或多个实施例的人机交互装置。本领域技术人员可以理解,这些人机交互装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图5为本发明实施例提供的一种人机交互装置的结构示意图,如图5所示,该装置包括:
待处理文本获取模块11,用于获取智能设备采集的待处理文本。
确定模块12,用于若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本。
输出模块13,用于若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
可选地,所述装置还包括:文本输入模块14,用于将所述待处理文本输入所述智能设备中配置的分类模型,以由所述分类模型输出所述待处理文本是否包含噪声文本。
可选地,所述确定模块12,用于将所述待处理文本输入至所述智能设备配置的深度学习模型,以由所述深度学习模型输出分类结果以及位置信息,其中,所述分类结果反映所述待处理文本中是否包含所述正常文本,所述位置信息反映所述正常文本在所述待处理文本中的起始位置和结束位置。
可选地,所述确定模块12,用于将所述待处理文本输入至所述智能设备部署的深度学习模型中,以由所述深度学习模型中的所述编码网络层对所述待处理文本进行编码,以由所述深度学习模型中的全连接层根据所述编码网络层输出的编码向量输出所述分类结果和所述位置信息。
可选地,所述确定模块12,用于所述全连接层根据所述编码向量对应的概率值输出所述分类结果和所述位置信息。
可选地,所述装置还包括:样本输入模块15,用于将目标训练样本输入所述深度学习模型,以由所述深度学习模型输出所述目标训练样本的预测分类结果以及预测位置信息,所述目标训练样本对应于目标标注信息;根据所述目标标注信息中的参考分类结果和所述预测分类结果,确定第一损失值;根据所述目标标注信息中的参考位置信息和所述预测位置信息,确定第二损失值;根据所述第一损失值和所述第二损失值,训练所述深度学习模型。
可选地,所述装置还包括:历史文本获取模块16,用于获取具有正确语法的历史文本。
设置模块17,用于根据预设算法,在所述历史文本的预设位置添加预设长度的噪声文本,以得到第一样本。
标注信息确定模块18,用于根据所述第一样本中噪声文本的位置和长度,确定所述第一标注信息。
其中,所述目标训练样本包括对应于第二标注信息的第二样本,通过人工标注得到所述第二标注信息。
图5所示装置可以执行图1至图4所示实施例的方法,本实施例未详细描述的部分,可参考对图1至图4所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图4所示实施例中的描述,在此不再赘述。
可选地,在一个可能的设计中,上述的各人机交互可以由一机器人执行,如图6所示,该机器人可以包括:第一处理器21和第一存储器22。其中,所述第一存储器22用于存储支持该机器人执行前述图1至图4所示实施例中提供的人机交互方法的程序,所述第一处理器21被配置为用于执行所述存储器22中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第一处理器21执行时能够实现如下步骤:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
可选地,所述第一处理器21还用于执行前述图1至图4所示实施例中的全部或部分步骤。
其中,所述电子设备的结构中还可以包括第一通信接口23,用于与其他设备或通信网络通信。
可选地,在一个可能的设计中,上述各实施例中的人机交互方法可以由一智能设备执行,如图7所示,该智能设备可以包括:第二处理器31和第二存储器32。其中,所述第二存储器32用于存储支持该机器人执行前述图1至图4所示实施例中提供的人机交互方法的程序,所述第二处理器31被配置为用于执行所述第二存储器32中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第二处理器31执行时能够实现如下步骤:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
可选地,所述第二处理器31还用于执行前述图1至图4所示实施例中的全部或部分步骤。
其中,所述电子设备的结构中还可以包括第二通信接口33,用于与其他设备或通信网络通信。
另外,本发明实施例提供了一种非暂时性可读存储介质,用于储存上述智能设备所用的计算机软件指令,其包含用于执行上述图1至图4所示方法实施例中人机交互方法所涉及的程序。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序指令,这些计算机程序指令被处理器读取并运行时,执行上述图1至图4所示方法实施例中人机交互方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种人机交互方法,其特征在于,包括:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待处理文本输入所述智能设备中配置的分类模型,以由所述分类模型输出所述待处理文本是否包含噪声文本。
3.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中是否还包含具有正确语法的正常文本,包括:
将所述待处理文本输入至所述智能设备配置的深度学习模型,以由所述深度学习模型输出分类结果以及位置信息,其中,所述分类结果反映所述待处理文本中是否包含所述正常文本,所述位置信息反映所述正常文本在所述待处理文本中的起始位置和结束位置。
4.根据权利要求3所述的方法,其特征在于,将所述待处理文本输入至所述智能设备配置的深度学习模型,以由所述深度学习模型输出分类结果以及位置信息,包括:
将所述待处理文本输入至所述智能设备部署的深度学习模型中,以由所述深度学习模型中的编码网络层对所述待处理文本进行编码,以由所述深度学习模型中的全连接层根据所述编码网络层输出的编码向量输出所述分类结果和所述位置信息。
5.根据权利要求4所述的方法,其特征在于,所述深度学习模型中的全连接层根据所述编码网络层输出的编码向量输出所述分类结果和所述位置信息,包括:
所述全连接层根据所述编码向量对应的概率值输出所述分类结果和所述位置信息。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将目标训练样本输入所述深度学习模型,以由所述深度学习模型输出所述目标训练样本的预测分类结果以及预测位置信息,所述目标训练样本对应于目标标注信息;
根据所述目标标注信息中的参考分类结果和所述预测分类结果,确定第一损失值;
根据所述目标标注信息中的参考位置信息和所述预测位置信息,确定第二损失值;
根据所述第一损失值和所述第二损失值,训练所述深度学习模型。
7.根据权利要求6所述的方法,其特征在于,所述目标训练样本包括对应于第一标注信息的第一样本,所述方法还包括:
获取具有正确语法的历史文本;
根据预设算法,在所述历史文本的预设位置添加预设长度的噪声文本,以得到第一样本;
根据所述第一样本中噪声文本的位置和长度,确定所述第一标注信息。
8.根据权利要求6或7所述的方法,其特征在于,所述目标训练样本包括对应于第二标注信息的第二样本,通过人工标注得到所述第二标注信息。
9.一种人机交互装置,其特征在于,包括:
获取模块,用于获取智能设备采集的待处理文本;
确定模块,用于若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
输出模块,用于若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
10.一种机器人,其特征在于,包括:处理器和存储器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
11.一种智能设备,其特征在于,当所述智能设备中存储的计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器至少执行以下的动作:
获取智能设备采集的待处理文本;
若所述待处理文本包含噪声文本,则确定所述待处理文本中是否还包含具有正确语法的正常文本;
若所述待处理文本包含所述正常文本,则输出所述正常文本的响应结果。
12.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至8中任一项所述的人机交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211702448.9A CN116050431A (zh) | 2022-12-28 | 2022-12-28 | 人机交互方法、装置、机器人、智能设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211702448.9A CN116050431A (zh) | 2022-12-28 | 2022-12-28 | 人机交互方法、装置、机器人、智能设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116050431A true CN116050431A (zh) | 2023-05-02 |
Family
ID=86124814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211702448.9A Pending CN116050431A (zh) | 2022-12-28 | 2022-12-28 | 人机交互方法、装置、机器人、智能设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050431A (zh) |
-
2022
- 2022-12-28 CN CN202211702448.9A patent/CN116050431A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US11132509B1 (en) | Utilization of natural language understanding (NLU) models | |
US11386890B1 (en) | Natural language understanding | |
US11276403B2 (en) | Natural language speech processing application selection | |
US11574637B1 (en) | Spoken language understanding models | |
CN113168832A (zh) | 交替响应生成 | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
US11532301B1 (en) | Natural language processing | |
CN114038457B (zh) | 用于语音唤醒的方法、电子设备、存储介质和程序 | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
US11990122B2 (en) | User-system dialog expansion | |
US20240185846A1 (en) | Multi-session context | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 | |
CN111192577A (zh) | 交流装置及交流装置的控制程序 | |
US11626107B1 (en) | Natural language processing | |
US20230306964A1 (en) | Device-specific skill processing | |
US11430435B1 (en) | Prompts for user feedback | |
US12002451B1 (en) | Automatic speech recognition | |
US11991511B2 (en) | Contextual awareness in dynamic device groups | |
US12033618B1 (en) | Relevant context determination | |
CN116050431A (zh) | 人机交互方法、装置、机器人、智能设备和存储介质 | |
US11907676B1 (en) | Processing orchestration for systems including distributed components | |
CN113555016A (zh) | 语音交互方法、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |