CN114936560A

CN114936560A - 人机交互方法、智能机器人和存储介质

Info

Publication number: CN114936560A
Application number: CN202210375013.1A
Authority: CN
Inventors: 林廷恩; 武玉川; 李永彬; 孙健
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-23

Abstract

本发明实施例提供一种人机交互方法、智能机器人和存储介质，该方法包括：获取用户产生的第一语音信号以及此第一语音信号对应的第一文本信息。然后，根据第一语音信号和第一文本信息各自的特征向量，得到融合特征向量。根据此融合特征向量确定反映第一语音信号的语义是否完整的分类结果，并根据分类结果对第一语音信号进行响应。其中，第一语音信号的特征向量反映用户的说话状态；第一文本信息的特征向量用户的语义，则融合特征向量中会同时包含上述的说话状态和语义，因此，能够提高识别语义是否完整的准确性，也即是提高智能机器人的断句准确性，降低出现由于断句错误而导致第一语音信号响应失败的情况，保证人机交互的流畅性。

Description

人机交互方法、智能机器人和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种人机交互方法、智能机器人和存储介质。

背景技术

随着人工智能技术的发展，各种智能机器人越来越多地进入人们的生活，比如服务机器人、清洁机器人、自移动售货机器人等等。除了上述机器人之外，近几年又出现了在客服场景下的智能语音机器人，比如智能外呼机器人以及智能客服机器人。

上述具有语音交互能力的各自智能机器人可以通过采集用户产生的语音信号并对其进行语义识别，再根据识别结果输出应答内容，从而实现交互。具体地，智能机器人在采集到用户产生的语音信号后可以对其进行语义是否完整的判断，并对语义完整的语音信号进行断句处理，即将采集到的语音信号作为一个语义完整的语音信号进行语义识别，最终输出与语义识别结果对的应答内容。

但在实际中，智能机器人对语义是否完整的识别准确度并不高，因此，智能机器人可能会输出错误的应答内容，甚至无法输出应答内容，从而导致人机交互失败。基于上述描述，如何提高语义是否完整的识别准确度，以保证人机交互的流畅性就成为一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种人机交互方法、智能机器人和存储介质，用以准确识别出语义是否完整，从而保证人机交互的流畅性。

第一方面，本发明实施例提供一种人机交互方法，包括：

获取用户产生的第一语音信号和所述第一语音信号对应的第一文本信息；

根据所述第一语音信号和所述第一文本信息各自特征向量，确定融合特征向量；

根据所述融合特征向量，确定反映所述第一语音信号是否语义完整的分类结果；

根据所述分类结果响应所述第一语音信号。

第二方面，本发明实施例提供一种智能机器人，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的人机交互方法。该电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第三方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的人机交互方法。

本发明实施例提供的人机交互方法，获取用户产生的第一语音信号以及此第一语音信号对应的第一文本信息。然后，分别对第一语音信号和第一文本信息进行特征提取，并由二者特征的特征向量得到融合特征向量。根据此融合特征向量确定反映第一语音信号的语义是否完整的分类结果，并根据分类结果对第一语音信号进行响应。

可见，上述过程中同时使用语音信号和文本信息来进行语音信号语义是否完整的识别，也即是使用多模态的数据进行语义是否完整的识别。并且由于第一语音信号的特征向量能够反映产生第一语音信号的用户的说话状态，比如语速语调等等；第一文本信息的特征向量能够反映第一语音信号的语义，因此，按照上述方式得到的融合特征向量中也包含了用户的说话状态和语义。智能机器人能够利用多模态数据从多角度(即说话状态和语音)对语义是否完整进行识别，从而能够提高识别的准确性，也即是提高智能机器人的断句准确性，降低出现由于断句错误而导致第一语音信号响应失败的情况，保证人机交互的流畅性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种人机交互方法的流程图；

图2为本发明实施例提供的另一种人机交互方法的流程图；

图3为本发明实施例提供的又一种人机交互方法的流程图；

图4为本发明实施例提供的又一种人机交互方法的流程图；

图5为本发明实施例提供的人机交互方法应用在客服场景下的示意图；

图6为本发明实施例提供的人机交互方法应用在外呼场景下的示意图；

图7为本发明实施例提供的一种智能机器人的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在对本发明各实施例提供的人机交互方法进行说明之前，还可以先大致说明一些可以实现的人机交互场景：

正如背景技术中提及的，常见的智能机器人可以包括服务机器人、清洁机器人、自移动售货机器人、智能语音机器人等等，这些机器人通过采集用户产生的语音信号，并根据语音信号的语义即可向用户输出相应的应答语音信号。

举例来说，服务机器人可以是商场大厅内的引导机器人，其可以主动先向位于机器人面方的用户说出：“请问有什么可以帮忙的”，之后用户可以说出：“店铺A在几楼”，则引导机器人在判断出用户产生的语音信号语义完整后，识别该语音信号的语义，以最终输出应答语音信号:“店铺A在2楼”。

又比如智能机器人可以是智能外呼机器人，其能够主动向用户拨打电话，比如常见的服务回访电话、款项催收电话、智能日程提醒电话等等。智能外呼机器人可以对采集到的用户产生的语音信号进行响应。以服务回访电话为例，当用户接听电话后，智能外呼机器人可以向用户说出：“请问您对之前购买的产品A是否满意”，用户可以回复：“我对产品A十分满意”，则智能外呼机器人在识别出用户产生的语音信号语义完整后，向用户输出应答语音信号：“好的，感谢您的支持”。

又比如智能机器人可以是智能客服机器人，其能够接听用户主动拨打的电话，比如相关事项的咨询电话，智能客服机器人同样可以对用户产生的语音信号进行语义识别，以为用户解答疑问。以政务咨询电话为例：用户可以主动拨打电话，智能客服机器人接听后说出：“这里是公积金服务平台，请问有什么可以帮忙的”，之后用户产生语音信号：“我想查询一下那个公积金”，则智能客服机器人在识别出用户产生的语音信号语义完整后，又可以向用户输出应答语音：“请输入您的证件号码”。

可见，上述各种场景中智能机器人在采集到用户产生的音频信号后，均需要判断其语义是否完整，并在确定语义完整后再对语音信号进行响应。此时，便可以使用本发明各实施例提供的人机交互方法，从而能够更加准确地识别出语义是否完整，从而保证人机交互的流程性。

另外，本发明提供的各实施例的使用场景并不限定于上述场景，任何需要进行语义是否完整判断的场景都可以使用本发明各实施例提供的人机交互方法。

基于上述描述，下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本发明实施例提供的一种人机交互方法的流程图。本发明实施例提供的该人机交互方法可以具有语音交互功能的智能机器人执行。如图1所示，该方法可以包括如下步骤：

S101，获取用户产生的第一语音信号和第一语音信号对应的第一文本信息。

用户可以向智能机器人产生第一语音信号，可选地，智能机器人可以利用话音激活检测(VAD,Voice Activity Detection)技术来确定用户是否正在说话，从而采集到用户产生的第一语音信号。之后，将此接收到的第一语音信号转换成文本信息，从而得到第一语音信号对应的第一文本信息。

S102，根据第一语音信号和第一文本信息各自特征向量，确定融合特征向量。

接着，智能机器人分别对第一语音信号和第一文本信息进行特征提取，以得到二者各自的特征向量。其中，第一语音信号的特征向量可以表示为a_u，第一文本信息的特征向量可以表示为t_u。根据前述特征向量a_u和特征向量t_u可以得到融合特征向量，融合特征向量可以表示为v。可选地，融合特征向量v的确定具体可以是特征向量的直接拼接也可以是线性融合，线性融合具体又可以是特征向量中对应元素的直接相加或相减等等。

其中，第一语音信号的特征向量a_u能够反映用户产生语音信号时的语速、重音，也能够反映用户的心情、年纪等内容，也即是第一语音信号的特征向量a_u能够反映用户的副语言信息。第一文本信息的特征向量t_u能够反映第一语音信号的语义，也即是能够反映用户的语言学信息。因此，上述得到的融合特征向量v也同时包含用户的语言学信息和副语言信息，融合特征向量v中包含用于识别语义是否完整的多种信息。

S103，根据融合特征向量，确定反映第一语音信号是否语义完整的分类结果。

进一步地，智能机器人可以根据融合特征向量确定反映第一语音信号语义是否完整的分类结果。

当第一语音信号的特征向量a_u反映用户当前的语速较慢、年纪较大时，用户可能对自己想要表达出的语义并不确定，使得用户表达出完整语义的可能性大大降低，则再使用包含第一文本信息的特征向量的融合特征向量v进行分类时，分类结果为语义不完整的可能性会大大增加；相反的，当用户的语速较快、年纪较小时，用户很清楚自己想要表达的语义，则再使用包含第一文本信息对应的特征向量的融合特征向量v进行分类时，分类结果为语义完整的可能性会大大增加。

需要说明的有，在根据融合特征向量v确定分类结果的过程中，智能机器人确定出的是第一语音信号的语义是否完整，但并未对第一语音信号进行语义识别，即并不知道第一语音信号具体的语义是什么。

S104，根据分类结果响应第一语音信号。

最终，智能机器人可以进一步根据分类结果，对第一语音信号采取不同的响应方式。

具体的，若第一语音信号的语义完整，则智能机器人可以对第一语音信号进行语义识别，并输出与语义识别结果对应的应答成功语音信号。一种可选地方式，得到语义识别结果后，智能机器人可以在本地存储的预设问答集合中确定与识别结果对应的应答文本信息，并将此应答文本信息播报出来，以形成第一语音信号对应的应答语音信号。另一种可选地方式，智能机器人可以基于识别结果，通过自身配置的语句生成模型实时生成应答文本信息，以形成应答语音信号。

若第一语音信号的语义不完整，则智能机器人可以输出预设的应答失败语音信号，该语音信号比如可以是：“对不起，我没有听清，请重复一遍”。

本实施例中，获取用户产生的第一语音信号以及此第一语音信号对应的第一文本信息。然后，分别对第一语音信号和第一文本信息进行特征提取，并由二者特征的特征向量得到融合特征向量。根据此融合特征向量确定反映第一语音信号的语义是否完整的分类结果，并根据分类结果对第一语音信号进行响应。

可见，上述过程中同时使用语音信号和文本信息来进行语音信号语义是否完整的识别，也即是使用多模态的数据进行语义是否完整的识别。并且由于第一语音信号的特征向量能够反映产生第一语音信号的用户的说话状态，比如语速语调等等；第一文本信息的特征向量能够反映第一语音信号的语义，因此，按照上述方式得到的融合特征向量中也包含了用户的说话状态和语义。智能机器人能够利用多模态数据从多角度对语义是否完整进行识别，从而能够提高识别的准确性，也即是提高智能机器人的断句准确性，降低出现由于断句错误而导致第一语音信号响应失败的情况，保证人机交互的流畅性。

需要说明的有，上述步骤S102～步骤S103具体可以由智能机器人中配置的分类模型执行，也即是将第一语音信号和第一文本信息作为分类模型的输入，以由分类模型对二者进行特征向量的提取和融合，并依据融合特征向量v进行分类。其中，第一语音信号和第一文本信号各自的特征向量可以按照下式进行线性融合：v＝a_uW₀t_u+b₀。其中，W₀和b₀是分类模型中的模型参数。

则在图1所示的人机交互方法中，可选地，第一语音信号的特征向量a_u可以由分类模型中的第一子模型来提取，此第一子模型可以是卷积神经网络(Convolutional NeuralNetworks,简称CNN)模型、双向编码表示变换(Bidirectional Encoder Representationfrom Transformers，简称BERT)模型、循环神经网络(Recurrent Neural Network,简称RNN)模型中的任一种。第一文本信息的特征向量t_u可以由分类模型中的第二子模型来提取，此第二子模型可以是基于门控(Gated Recurrent Unit，简称GRU)的RNN模型、长短期记忆神经网络(Long Short-Term Memory，简称LSTM)模型中的任一种。

且智能机器人中配置的分类模型的训练过程可以描述为：预先收集用户或者是智能机器人产生的语音信号，并将其转换成文本信息。并且对于语音信号还需要进行标注，标注内容即为此语音信号的语义是否完整。则将上述收集的语音信号和文本信息作为训练样本，将语音信号的标注内容作为监督信息，对分类模型进行训练。在训练过程中，还可以采用反向传播算法、梯度下降算法进行模型参数的调整，直至分类模型收敛。

对于训练分类模型使用到的语音信号，在实际中，智能机器人产生语义不完整的语音信号的可能性较小，因此，智能机器人产生的语音信号通常作为训练模型的正样本；语义不完整的语音信号往往是用户产生的，其可以作为训练模型的负样本。

根据上述实施例中的描述可知，智能机器人可以借助VAD技术采集用户产生的语音信号。而在实际中，一种常见的情况，用户由于个人习惯或者是对自己想要表达的语义不十分确定，则用户在产生包含完整语义的语音信号的过程中可能会产生长时间停顿，并且当停顿时间达到预设静默时长时，智能语音机器人会误以为用户已经停止说话，则会对在达到预设静默时长之前采集到的语音信号进行断句处理，即将在停顿前采集到的语音信号作为一个语义完整的语音信号进行语义识别，但由于此语音信号的语义并不完整，因此，智能机器人输出的应答语音信号可能并不是用户想要的回答，甚至还有可能输出应答失败语音信号，导致人机交互失败。

为了改善上述情况，可选地，若确定出第一语音信号的分类结果为语义不完整，则可以适当延长上述预设静默时长即智能机器人再等待预设时长，并进一步根据用户是否在此预设时长内产生了新的语音信号，来确定第一语音信号对应的应答语音信号。为了方便描述可以将用户新产生的语音信号称为第三语音信号。

一种情况，若第一语音信号的分类结果为语义不完整并且用户在预设时长内产生第三语音信号，表明用户在停顿了较长时间后又产生了新的语音信号即第三语音信号，第一语音信号和第三语音信号在语义上是高度相关的，则智能机器人可以拼接第一语音信号和第三语音信号，以得到拼接语音信号。并且此时预设静默时长被恢复，当用户在恢复的预设静默时长内未产生新的语音信号，则智能机器人判断拼接语音信号的语义是否完整。若拼接语音信号的分类结果是语义完整，则智能机器人对此拼接语音信号进行语义识别，并根据语义识别结果输出相应的应答内容即应答成功语音信号。若拼接语音信号的分类结果是语义不完整，则智能机器人输出应答失败语句。

上述情况中，用户在表达完整语义的过程中出现了一次停顿，则智能机器人需要进行一次拼接。而在实际，用户在表达一个完整的语义时也可以出现多次停顿，则智能机器人会将多次停顿产生的语音信号都进行拼接，并对拼接得到的拼接语音信号进行响应。

另一种情况，若第一语音信号的分类结果为语义不完整并且用户也未再预设时长内产生第三语音信号，也即是用户在预设静默时长+预设时长内只产生了第一语音信号，并且智能机器人判断此第一语音信号的语义不完整，则智能机器人输出第一语音信号对应的应答失败语音信号。

可选地，在用户产生语义不完整的第一语音信号后出现长停顿时，为了引导用户能够继续将语义补充完整，即引导用户产生第三语音信号，智能机器人还可以在预设静默时长+预设时长这段时间内向用户输出引导音频信号，比如“嗯，好的，请您继续说”。可选地，引导音频信号可以是预先设置的。

可选地，在图1所示实施例中，智能机器人可以根据融合特征向量v来判断用户产生的第一语音信号的语义是否完整。可选地，在此基础上，还可以使用第一文本信息来判断第一语音信号的语义是否完整。具体的，若智能机器人识别出第一文本信息中预设位置的词语是预设词语，则可以认为第一语音信号的语义不完整。举例来说，假设第一文本信息中的最后一个词语为“那个”、“还有”、“我还想”等明显表示语义不完整的预设词语，则智能机器人可以确定第一语音信号的语义不完整。

当智能机器人根据融合特征向量v或者第一文本信息确定出语义不完整时，则可以继续按照上述方式根据用户是否产生第三语音信号来确定如何响应第一语音信号。

在图1所示实施例的基础上，为了进一步提高识别第一语音信号语义是否完整的准确性，图2为本发明实施例提供的另一种人机交互方法的流程图。如图2所示，该方法可以包括如下步骤：

S201，获取用户产生的第一语音信号和第一语音信号对应的第一文本信息。

步骤S201的执行过程可以参见图1实施例中的相关描述，在此不赘述。

S202，获取智能机器人产生的第二语音信号对应的第二文本信息，第二语音信号在第一语音信号之前产生。

根据上述描述可知，用户可以对智能机器人产生的语音信号进行响应，以产生第一语音信号。则为了后续描述简洁，可以将在第一语音信号之前，智能机器人产生的语音信号称为第二语音信号，并且两语音信号在语义上是关联的。对于智能机器人产生的第二语音信号，智能机器人同样可以将其转换为文本信息，以得到第二语音信号对应的第二文本信息。

在实际中，在第一语音信号产生之前，智能机器人可以产生多条语音信号，为了保证与第一语音信号语义关联最紧密，在智能机器人产生的多条语音信号中，可以将产生时间与第一语音信号最近的语音信号确定为第二语音信号。

S203，根据第一文本信息和第二文本信息各自的特征向量，确定融合文本特征向量。

接着，可以分别获取第一文本信息和第二文本信息各自的特征向量并根据二者确定出融合文本特征向量。并且由于第一文本信息和第二文本信息在语义上是关联的，因此，得到融合文本特征向量中包含第一语音信号的语义的同时，也包括第一文本信息和第二文本信息之间的上下文信息。

对于融合文本特征向量的确定，可选地，可以是特征向量的直接拼接也可以是线性融合，比如特征向量中对应元素的直接相加或相减等等。其中，第一文本信息的特征向量可以表示为t_u，第二文本信息的特征向量可以表示为t_h，则将特征向量t_u和特征向量t_h进行融合以得到融合文本特征向量t_uh。

S204，根据融合文本特征向量和第一语音信号的特征向量，确定融合特征向量。

进一步地，再根据融合文本特征向量t_uh和第一语音信号的特征向量a_u，确定融合特征向量v。由于特征向量a_u能够反映用户的说话状态，融合文本特征向量t_uh能够反映用户的语义和上下文信息，因此，融合特征向量v中同时包括上述的说话状态、语义和上下文信息。可选地，融合特征向量v的确定也可以是特征向量的直接拼接也可以是线性融合，比如特征向量中对应元素的直接相加或相减等等。

S205，根据融合特征向量，确定反映第一语音信号是否语义完整的分类结果。

步骤S205的执行过程可以参见图1实施例中的相关描述，在此不赘述。但需要说明的有，由于融合特征向量v中包含第一文本信息和第二文本信息之间的上下文信息。因此，当用户产生的第一语音信号中存在成分省略时，智能机器人也能够结合融合文本特征向量t_uh中的上下文信息进行语义是否完整的判断，即第一语音信号中的成分省略并不会影响语义是否完整的判断。

S206，根据分类结果响应第一语音信号。

步骤S206的执行过程可以参见图1实施例中的相关描述，在此不赘述。

本实施例中，先获取与第一语音信号在语义上紧密关联的第二语音信号。再根据两个语音信号对应的文本信息的特征向量确定融合文本特征向量t_uh。接着，再根据融合文本特征向量t_uh和第一语音信号的特征向量a_u得到最终的融合特征向量v。此融合特征向量v不仅包括两个语音信号之间的上下文信息，还包括用户说话状态和语义，因此，能够更加准确的识别出第一语音信号的语义是否完整，也即是提高智能机器人的断句准确性，保证人机交互的流畅性。并且借助融合特征向量中包含的上下文信息，第一语音信号中的成分省略并不会影响语义是否完整的判断，保证人机交互的流畅性。

需要说明的有，上述步骤S203～步骤S205具体可以由智能机器人中配置的分类模型执行，也即是将第一语音信号、第一文本信息以及第二文本信息作为分类模型的输入，以由分类模型进行特征向量的提取和融合，并依据特征向量进行分类。可选地，第一文本信息和第二文本信息各自的特征向量还可以按照下式进行线性融合：

融合文本特征向量t_uh和第一语音信号的特征向量a_u也可以按照下式进行线性融合：v＝a_uW₀t_uh+b₀。其中，W₁、b₁、W₀和b₀是分类模型中的模型参数。

则在图2所示的人机交互方法中，可选地，智能机器人中配置的分类模型的训练过程可以描述为：预先收集人人或者人机产生的具有问答关系的语音信号，并将其转换成文本信息。再对用户产生的语音信号进行标注，即标注此语音信号的语义是否完整。则将上述收集的具有问答关系的语音信号和文本信息作为训练样本，将语音信号的标注内容作为监督信息，对分类模型进行训练，直至分类模型收敛。

在图2所示实施例的基础上，为了进一步提高识别语义是否完整的准确性，可选地，图3为本发明实施例提供的又一种人机交互方法的流程图。如图3所示，该方法可以包括如下步骤：

S301，获取用户产生的第一语音信号和第一语音信号对应的第一文本信息。

S302，获取智能机器人产生的第二语音信号对应的第二文本信息，第二语音信号在第一语音信号之前产生。

S303，根据第一文本信息和第二文本信息各自的特征向量，确定融合文本特征向量。

步骤S301～步骤S303的执行过程可以参见上述实施例中的相关描述，在此不赘述。

S304，根据融合文本特征向量，调整第一语音信号的特征向量的信息量，以得到第一调整结果。

根据融合文本特征向量t_uh，调整第一语音信号的特征向量a_u的信息量，以得到第一调整结果。上述调整过程也即是实现了语音信号模态的数据和文本信息模态的数据之间的交互。通过模态交互能够滤除第一语音信号的特征向量a_u中重要性较低的信息，在降低特征向量a_u信息量的同时也不会造成重要信息的丢失。

可选地，可以按照以下方式进行信息量的调整：a'_u＝a_uσ(t_uh)。

其中，a'_u为第一调整结果，σ(t_uh)为预设的Sigmoid函数，其用于将特征向量t_uh中的元素值进行归一化。

S305，根据第一语音信号的特征向量，调整融合文本特征向量的信息量，以得到第二调整结果。

类似的，还可以根据第一语音信号的特征向量a_u，调整融合文本特征向量t_uh的信息量，以得到第二调整结果。同样的，通过模态交互能够滤除融合文本特征向量t_uh中重要性较低的信息，在降低整个融合文本特征向量t_uh信息量的同时也不会造成重要信息的丢失。

可选地，可以按照以下方式进行信息量的调整：t'_uh＝t_uhσ(a_u)。

其中，t'_uh为第二调整结果，σ(a_u)为预设的Sigmoid函数，其用于将特征向量a_u中的元素值进行归一化。

S306，根据第一调整结果和第二调整结果，确定融合特征向量。

进一步地，根据上述得到的第一调整结果t'_uh和第二调整结果a'_u确定融合特征向量v。可选地，融合特征向量v的确定具体可以是第一调整结果t'_uh和第二调整结果a'_u的直接拼接也可以是线性融合，比如特征向量中对应元素的直接相加或相减等等。

S307，根据融合特征向量，确定反映第一语音信号是否语义完整的分类结果。

S308，根据分类结果响应第一语音信号。

步骤S307～S308的执行过程可以参见上述实施例中的相关描述，在此不赘述。

本实施例中，在图2所示实施例的基础上，智能机器人先获取到融合文本特征向量t_uh。再将融合文本特征向量t_uh和第一语音信号的特征向量a_u进行模态交互，以调整这两个特征向量的信息量。再将信息量调整结果进行融合，以得到最终的融合特征向量v。其中，经过融合和模态交互得到的融合特征向量v，不仅包括两个语音信号之间的上下文信息，还包括用户说话状态和语义，在降低特征向量信息量的同时也不会造成重要信息的丢失。因此，利用具有上述特点的融合特征向量v能够更加准确的识别出第一语音信号的语义是否完整，也即是提高智能机器人的断句准确性，降低出现由于断句错误而导致第一语音信号响应失败的情况，保证人机交互的流畅性。

需要说明的有，上述步骤S303～步骤S307也可以由智能机器人中配置的分类模型执行，与图2所示实施例相同的，也即是将第一语音信号、第一文本信息以及第二文本信息作为分类模型的输入，以由分类模型进行特征向量的提取和融合，并依据特征向量进行分类。可选地，第一文本信息和第二文本信息各自的特征向量还可以按照下式进行线性融合：

第一调整结果a'_u和第二调整结果t'_uh也可以按照下式进行线性融合：v＝a'_uW₀t'_uh+b₀。其中，W₁、b₁、W₀和b₀是分类模型中的模型参数。

在图1所示实施例的基础上，为了进一步提高识别语义是否完整的准确性，则图4为本发明实施例提供的又一种人机交互方法的流程图。如图4所示，该方法可以包括如下步骤：

S401，获取用户产生的第一语音信号和第一语音信号对应的第一文本信息。

步骤S401的执行过程可以参见上述实施例中的相关描述，在此不赘述。

S402，根据第一文本信息的特征向量，调整对第一语音信号的特征向量的信息量，以得到第三调整结果。

智能机器人可以对得到的多模态数据即第一语音信号和第一文本信息进行模态交互。通过模态交互能够滤除第一语音信号的特征向量a_u中重要性较低的信息，在降低特征向量a_u信息量的同时也不会造成重要信息的丢失。

具体的，可以根据第一文本信息的特征向量t_u，调整第一语音信号的特征向量a_u的信息量，以得到第三调整结果。类似的，可以按照以下方式进行信息量的调整：a”_u＝a_uσ(t_u)。

其中，a”_u为第三调整结果，σ(t_u)为预设的Sigmoid函数，其用于将特征向量t_u中的元素值进行归一化。

S403，根据第一语音信号的特征向量，调整第一文本信息的特征向量的信息量，以得到第四调整结果。

与步骤S402类似的，还可以根据第一语音信号的特征向量a_u，调整第一文本信息的特征向量t_u的信息量，以得到第四调整结果。通过模态交互能够滤除特征向量t_u中重要性较低的信息，在降低整个特征向量t_u信息量的同时也不会造成重要信息的丢失。

可选地，可以按照以下方式进行信息量的调整：t”_u＝t_uσ(a_u)。

其中，t”_u为第四调整结果，σ(a_u)为预设的Sigmoid函数，其用于将特征向量a_u中的元素值进行归一化。

S404，根据第三调整结果和第四调整结果，确定融合特征向量。

进一步的，根据第三调整结果a”_u和第四调整结果t”_u确定融合特征向量v。可选地，融合特征向量v的确定具体可以是第三调整结果a”_u和第四调整结果t”_u的直接拼接也可以是线性融合，比如特征向量中对应元素的直接相加或相减等等。

S405，根据融合特征向量，确定反映第一语音信号是否语义完整的分类结果。

S406，根据分类结果响应第一语音信号。

步骤S405～S406的执行过程可以参见上述实施例中的相关描述，在此不赘述。

本实施例中，在得到多模态的数据即第一语音信号和第一文本信息之后，智能机器人还可以对多模态数据各自的特征向量进行模态融合，以得到调整结果，并根据调整结果生成融合特征向量v。其中，融合特征向量v包括用户说话状态和语义，并且通过模态交互，在降低特征向量信息量的同时也不会造成重要信息的丢失。因此，利用具有上述特点的融合特征向量能够更加快速、准确的识别出第一语音信号的语义是否完整，也即是提高智能机器人的断句准确性，降低出现由于断句错误而导致第一语音信号响应失败的情况，保证人机交互的流畅性。

需要说明的有，上述步骤S402～步骤S405具体可以由智能机器人中配置的分类模型执行，也即是将第一语音信号和第一文本信息作为分类模型的输入，以由分类模型对二者进行特征向量的提取、模态交互和融合处理，并依据融合特征向量进行分类。其中，第三调整结果a”_u和第四调整结果t”_u还可以按照下式进行线性融合：v＝a”_uW₀t”_u+b₀。其中，W₀和b₀是分类模型中的模型参数。且在图4所示的人机交互方法中，智能机器人中分类模型的训练过程与图1所示实施例中分类模型的训练方法相同，可参见上述相关描述，在此不再赘述。

综上所述，上述各实施例都能够在不同程度上提高语义是否完整的准确性，保证人机交互的流程性。

其中，图1所示实施例中利用第一语音信号和第一文本信息各自特征向量识别第一语音信号的语义是否完整。

图2所示实施例中，在图1所示实施例的基础上，新增了第二语音信号及其对应的第二文本信息，智能机器人利用语义具有关联关系的多条语音信号、多条文本信息各自的特征向量识别第一语音信号的语义是否完整，从而进一步提高识别的准确性。

图3所示实施例中，在图2所示实施例的基础上，又新增了模态交互过程，在降低特征向量中信息量但不损失重要信息的情况下，又进一步提高识别语义是否完整的准确性。

图4所示实施例中，在图1所示实施例的基础上，新增了第一语音信号和第一文本信息的模态交互过程，从而进一步提高识别的准确性。

为了便于理解，结合客服场景对以上提供的人机交互方法的具体实现过程进行示例性说明。下述过程可以结合图5理解。

假设用户主动拨打公积金服务大厅的客服电话，智能客服机器人在接收到电话后向用户产生语音信号1：“这里是公积金服务平台，请问有什么可以帮忙的”。用户响应于语音信号1产生语音信号2：“我想查询一下那个”，则在达到预设静默时长比如3秒后，智能客服机器人对语音信号1进行断句处理，并开始判断此语音信号2的语义是否完整。

智能机器人可以先将语音信号1转换为文本信息1，语音信号2转换为文本信息2。基于此，一种判断过程可以是：智能机器人分别提取出语音信号1和文本信息1各自的特征向量，通过直接拼接或者线性融合的方式得到融合特征向量，并根据此特征向量判断出语音信号1的语义不完整。

又一种判断过程可以是：智能机器人分别提取出语音信号1和文本信息1各自的特征向量后，可以对提取出的特征向量进行模态融合，在对融合结果进行直接拼接或者线性融合的方式以，得到融合特征向量。根据此特征向量判断出语音信号2的语义不完整。

另一种判断过程可以是：智能机器人先提取出文本信息1和文本信息2的特征向量，然后通过直接拼接或者线性融合的方式得到融合文本特征向量。再将融合文本特征向量和语音信号2的特征向量进行直接拼接或者线性融合，以得到融合特征向量。根据此特征向量判断出语音信号2的语义不完整。

又一种判断过程可以是：智能机器人先根据文本信息1和文本信息2各自的特征向量得到融合文本特征向量，再对融合文本特征向量和第一语音信号的特征向量进行模态融合，根据模态融合结果得到融合特征向量。根据此特征向量判断出语音信号2的语义不完整。

上述的各种判断过程均可以是智能机器人中配置的分类模型执行。

又一种判断过程：由于文本信息1中最后一个词语为“那个”这种表明语义不完整的预设词语，则智能机器人可以直接判断出语音信号2的语义不完整。

在识别出语音信号2语义不完整后，智能机器人还可以适当延长预设静默时长即使智能机器人再等待预设时长比如3秒，并进一步确定用户是否在此预设时长内产生了语音信号3。若用户在预设静默时长+预设时长这6秒的时间内产生了语音信号3：“公积金”，则智能机器人可以拼接语音信号1和语音信号3，以得到拼接语音信号：“我想查询一下那个公积金”。此时，预设静默时长被恢复，当用户在恢复的预设静默时长3秒内未产生新的语音信号，则智能机器人对拼接语音信号进行断句处理，并开始判断拼接语音信号的语义是否完整。

此时，智能机器人可以判断出拼接语音信号语义完整，则智能机器人可以向用户输出应答语音4：“请输入您的证件号码”，从而保证了人机交互的流畅性。并且即使用户在产生语音信号的过程中出现长停顿，则智能机器人也不会出现断句错误，从而造成人机交互失败的情况。

可选地，在预设静默时长+预设时长这6秒的时间内，智能机器人还可以向用户输出引导音频信号：“嗯，好的，请您继续说”以引导用户产生语音信号3。

在实际中除了上述的客服场景外，智能机器人还可以是外呼机器人。则为了便于理解，结合外呼场景对以上提供的人机交互方法的具体实现过程进行示例性说明。下述过程可以结合图6理解。

以服务回访电话为例，外呼机器人可以产生语音信号1：“请问您对之前购买的产品A是否满意”。当用户接听电话后，用户可以回复语音信号2：“我对产品A十分满意”，则智能外呼机器人可以进行断句处理，并按照上述各实施例的方式判断语音信号2的语义完整，则智能机器人可以进一步向用户语音信号3：“好的，感谢您的支持”，从而实现流畅的人机交互。

在一个可能的设计中，上述各实施例提供的人机交互方法可以应用在一智能机器人中，如图7所示，该智能机器人可以包括：处理器21和存储器22。其中，所述存储器22用于存储支持该电子设备执行上述图1至图4所示实施例中提供的人机交互方法的程序，所述处理器21被配置为用于执行所述存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器21执行时能够实现如下步骤：

根据所述分类结果响应所述第一语音信号。

可选地，所述处理器21还用于执行前述图1至图4所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口23，用于该电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图1至图4所示方法实施例中人机交互方法所涉及的程序。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人机交互方法，其特征在于，应用于智能机器人，包括：

根据所述分类结果响应所述第一语音信号。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述智能机器人产生的第二语音信号对应的第二文本信息，所述第二语音信号在所述第一语音信号之前产生；

所述根据所述第一语音信号和所述第一文本信息各自特征向量，确定融合特征向量，包括：

根据所述第一文本信息和所述第二文本信息各自的特征向量，确定融合文本特征向量；

根据所述融合文本特征向量和所述第一语音信号的特征向量，确定所述融合特征向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一文本信息和所述第二文本信息各自的特征向量，确定融合文本特征向量之后，所述方法还包括：

根据所述融合文本特征向量，调整所述第一语音信号的特征向量的信息量，以得到第一调整结果；

根据所述第一语音信号的特征向量，调整所述融合文本特征向量的信息量，以得到第二调整结果；

所述根据融合文本特征向量和所述第一语音信号的特征向量，确定所述融合特征向量，包括：

根据所述第一调整结果和所述第二调整结果，确定所述融合特征向量。

4.根据权利要求1所述的方法，其特征在于所述根据所述第一语音信号和所述第一文本信息各自特征向量，确定融合特征向量，包括：

根据所述第一文本信息的特征向量，调整所述对所述第一语音信号的特征向量的信息量，以得到第三调整结果；

根据所述第一语音信号的特征向量，调整所述第一文本信息的特征向量的信息量，以得到第四调整结果；

根据所述第三调整结果和所述第四调整结果，确定所述融合特征向量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述分类结果响应所述第一语音信号，包括：

若所述分类结果为语义完整，则对所述第一语音信号进行语义识别；

根据识别结果，输出所述第一语音信号对应的应答成功语音信号。

6.根据权利要求1所述的方法，其特征在于，所述根据所述分类结果响应所述第一语音信号，包括：

若分类结果为语义不完整，则根据所述用户是否在预设时长内产生第三语音信号，确定所述第一语音信号的响应结果。

7.根据权利要求6所述的方法，其特征在于，所述根据所述用户是否在预设时长内产生第三语音信号，确定所述第一语音信号的响应结果，包括：

若所述用户未在所述预设时长内产生所述第三语音信号，则输出所述第一语音信号对应的应答失败语音信号。

8.根据权利要求6所述的方法，其特征在于，所述根据所述用户是否在预设时长内产生第三语音信号，确定所述第一语音信号的响应结果，包括：

若所述用户在所述预设时长内产生所述第三语音信号，则拼接所述第一语音信号和所述第三语音信号，以得到拼接语音信号；

若所述拼接语音信号的分类结果为语义完整，则对所述拼接语音信号进行语义识别；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一文本信息中预设位置的词语为预设词语，确定所述分类结果为语义不完整。

10.一种智能机器人，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的人机交互方法。

11.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的人机交互方法。