CN106205611B

CN106205611B - 一种基于多模态历史响应结果的人机交互方法及系统

Info

Publication number: CN106205611B
Application number: CN201610498611.2A
Authority: CN
Inventors: 郭祥; 郭瑞; 雷宇
Original assignee: Beijing Rubo Technology Co Ltd
Current assignee: Beijing Rubu Technology Co.,Ltd.
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2020-03-27
Anticipated expiration: 2036-06-29
Also published as: CN106205611A

Abstract

本发明提供了一种基于多模态历史响应结果的人机交互方法及系统。该基于多模态历史响应结果的人机交互方法包括：接收用户的语音指令；对所述语音指令进行语音识别，获取多个响应结果；获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率；确定联合概率最大的响应结果对所述语音指令进行响应；其中，所述概率模型是根据所述历史响应结果建立的随机数学模型；所述联合概率为各个输入特征信息下响应结果的概率的乘积。本发明实施例丰富了确定响应结果时输入的特征信息的维度，综合考虑多种因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

Description

一种基于多模态历史响应结果的人机交互方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于多模态历史响应结果的人机交互方法及系统。

背景技术

人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语义识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。人机交互(Human-ComputerInteraction,HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。

在智能机器人与用户交互、响应用户指令的过程中，需要对用户的指令进行语音识别。其中，对话交互是一个非常重要的领域，用户可以通过语音与计算机进行交流，使计算机理解用户意图，完成用户的指令。

然而，现有的一种人机交互方法对用户的语音指令进行识别的过程中，仅仅将用户的语音指令转换成文字，进而对语音指令进行响应。该方法在确定响应结果时由于接收的输入信息维度少、没有考虑其他因素对用户真实意图的影响，往往造成响应结果不准确。

现有的另外一种人机交互方法通过专家经验总结、数学统计和归纳方法等，获得响应规则，对用户的语音指令进行响应，需要专家知识和大量的人工设计，无法自动形成响应规则。

发明内容

本发明所要解决的技术问题是：现有的人机交互方法响应不准确的问题。

为解决上述技术问题，本发明提出了一种基于多模态历史响应结果的人机交互方法，该基于多模态历史响应结果的人机交互方法包括：

接收用户的语音指令；

对所述语音指令进行语音识别，获取多个响应结果；

获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率；

确定联合概率最大的响应结果对所述语音指令进行响应；

其中，所述概率模型是根据所述历史响应结果建立的随机数学模型；所述联合概率为各个输入特征信息下响应结果的概率的乘积。

可选地，所述获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括：

获取当前多个环境因素信息，根据概率模型计算各个环境因素下各个响应结果的概率；

根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。

可选地，所述环境因素信息包括：光强、温度、湿度、时间、环境图像和用户人脸图像。

获取所述语音指令的特征信息，根据概率模型计算各个特征信息下各个响应结果的概率；

根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。

可选地，所述语音指令的特征信息包括：文本、语调、语速和声纹。

本发明还提出了一种基于多模态历史响应结果的人机交互系统，该基于多模态历史响应结果的人机交互系统包括：

语音指令接收单元，用于接收用户的语音指令；

响应结果获取单元，用于对所述语音指令进行语音识别，获取多个响应结果；

联合概率确定单元，用于获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率；

响应单元，用于确定联合概率最大的响应结果对所述语音指令进行响应；

可选地，所述联合概率确定单元包括：

第一响应结果概率计算模块，用于获取当前多个环境因素信息，根据概率模型计算各个环境因素下各个响应结果的概率；

第一联合概率计算模块，根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。

可选地，所述联合概率确定单元包括：

第二响应结果概率计算模块，用于获取所述语音指令的特征信息，根据概率模型计算各个特征信息下各个响应结果的概率；

第二联合概率计算模块，用于根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。

本发明提供的基于多模态历史响应结果的人机交互方法及系统，接收用户的语音指令；对所述语音指令进行语音识别，获取多个响应结果；获取多个输入特征信息，根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率；确定联合概率最大的响应结果对所述语音指令进行响应，避免了现有技术中响应结果不准确的缺陷，丰富了确定响应结果时输入的特征信息的维度，综合考虑多种因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图；

图2是本发明另一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图；

图3是本发明另一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图；

图4是本发明另一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图；

图5是本发明一个实施例的基于多模态历史响应结果的人机交互系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图。如图1所示，该实施例的基于多模态历史响应结果的人机交互方法包括：

S11：接收用户的语音指令；

在实际应用中，用户可根据需求向智能机器人输入各种语音指令，例如“给我唱首歌”或“帮我点份早餐”。具体地，智能机器人可通过麦克风接收用户的语音指令。

S12：对所述语音指令进行语音识别，获取多个响应结果；

需要说明的是，智能机器人在接收到用户的语音指令后需要进行语音识别，确定具体的应用场景，并在确定的应用场景下获取多个响应结果；响应结果有多种形式，包括但不限于播放音乐、播放电影和提供点餐服务。举例来说，智能机器人在接收到“帮我点份早餐”的语音指令后，对语音指令进行识别，确定应用场景为点餐场景，并获取到“点粥”和“点凉皮”两个响应结果。

S13：获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率；所述概率模型是根据所述历史响应结果建立的随机数学模型；所述联合概率为各个输入特征信息下响应结果的概率的乘积；

需要说明的是，概率模型是用随机变量和概率分布描述随机因素的影响，建立的随机数学模型。在概率论中，联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。

举例来说，对P(Y|X)建模，X表示特定的输入特征信息值，Y表示响应结果，则P(Y|X)表示当输入特征信息值为X时，决策结果为Y的概率。根据建立的概率模型分别计算在各个输入信息特征“点粥”和“点凉皮”两个响应结果的概率，并计算“点粥”和“点凉皮”两个响应结果的联合概率。

S14：确定联合概率最大的响应结果对所述语音指令进行响应；

举例来说，根据步骤S13中计算获得“点粥”和“点凉皮”两个响应结果的联合概率，比较上述两个响应结果的联合概率的大小，如果是“点粥”的联合概率大，则智能机器人为用户提供点粥的服务；如果是“点凉皮”的联合概率大，则则智能机器人为用户提供点凉皮的服务。

本发明实施例的基于多模态历史响应结果的人机交互方法，接收用户的语音指令；对所述语音指令进行语音识别，获取多个响应结果；获取多个输入特征信息，根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率；确定联合概率最大的响应结果对所述语音指令进行响应，避免了现有技术中响应结果不准确的缺陷，丰富了确定响应结果时输入的特征信息的维度，综合考虑多种因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

如图2所示，在本发明实施例的一种优选的实施方式中，基于多模态历史响应结果的人机交互方法包括：

S21：接收用户的语音指令；

S22：对所述语音指令进行语音识别，获取多个响应结果；

S23：获取当前多个环境因素信息，根据概率模型计算各个环境因素下各个响应结果的概率；根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率；

其中，所述概率模型是根据所述历史响应结果建立的随机数学模型；所述联合概率为各个输入特征信息下响应结果的概率的乘积；

S24：确定联合概率最大的响应结果对所述语音指令进行响应。

其中，步骤S21和步骤S22与图1中的实施例相同，在此不再赘述。环境因素信息可以包括：光强、温度、湿度、时间、环境图像和用户人脸图像；其中，光强为当前环境的光照强度，温度为当前环境的空气温度，湿度为当前环境的空气湿度，分别通过光强传感器、温度传感器和湿度传感器获得；时间为接收用户的语音指令时的时间；环境图像和用户人脸图像是从智能设备摄像头捕捉的视频流的一帧，抽取出来成为图片。

以下以具体的例子说明通过获取多个环境因素信息计算各个响应结果的联合概率：

在步骤S24中，比较“点粥”的联合概率P1和“点凉皮”的联合概率P2的大小，如果是“点粥”的联合概率P1大，则智能机器人为用户提供点粥的服务；如果是“点凉皮”的联合概率P2大，则智能机器人为用户提供点凉皮的服务。

本实施例的基于多模态历史响应结果的人机交互方法，接收用户的语音指令；对所述语音指令进行语音识别，获取多个响应结果；获取多个环境因素信息，根据由历史响应结果建立的随机数学模型和多个环境因素信息计算各个响应结果的联合概率；确定联合概率最大的响应结果对所述语音指令进行响应，避免了现有技术中响应结果不准确的缺陷，丰富了确定响应结果时输入的特征信息的维度，除考虑语音指令对应的文本外，综合考虑其他因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

如图3所示，在本发明实施例的另一种优选的实施方式中，基于多模态历史响应结果的人机交互方法包括：

S31：接收用户的语音指令；

S32：对所述语音指令进行语音识别，获取多个响应结果；

S33：获取所述语音指令的特征信息，根据概率模型计算各个特征信息下各个响应结果的概率；根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率；

S34：确定联合概率最大的响应结果对所述语音指令进行响应。

其中，步骤S31、步骤S32和步骤S34与图1中的实施例相同，在此不再赘述。语音指令的特征信息包括：文本、语调、语速和声纹。

步骤S33中，通过获取语音指令的特征信息计算各个响应结果的联合概率的具体过程与图2中的实施例类似，获取语音指令的文本、语调、语速和声纹，根据概率模型分别计算各个特征信息下“点粥”和“点凉皮”的概率；根据各个特征信息下“点粥”和“点凉皮”的概率分别计算“点粥”和“点凉皮”的联合概率。

本实施例的基于多模态历史响应结果的人机交互方法，接收用户的语音指令；对所述语音指令进行语音识别，获取多个响应结果；获取语音指令的特征信息，根据由历史响应结果建立的随机数学模型和语音指令的特征信息计算各个响应结果的联合概率；确定联合概率最大的响应结果对所述语音指令进行响应，避免了现有技术中响应结果不准确的缺陷，丰富了确定响应结果时输入的特征信息的维度，综合考虑多种因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

如图4所示，在本发明实施例的另一种优选的实施方式中，基于多模态历史响应结果的人机交互方法包括：

S41：接收用户的语音指令；

S42：对所述语音指令进行语音识别，获取多个响应结果；

S43：获取当前多个环境因素信息，获取所述语音指令的特征信息；根据概率模型计算各个环境因素下各个响应结果的概率；根据概率模型计算各个特征信息下各个响应结果的概率；根据各个环境因素下各个响应结果的概率和各个特征信息下各个响应结果的概率计算各个响应结果的联合概率；

S44：确定联合概率最大的响应结果对所述语音指令进行响应。

可理解的是，本发明实施例的基于多模态历史响应结果的人机交互方法，获取的多个输入特征信息包括多个环境因素信息和语音指令的特征信息，在计算各个响应结果的联合概率时综合考虑了环境因素信息和语音指令的特征信息，进一步丰富了确定响应结果时输入的特征信息的维度，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

图5是本发明一个实施例的基于响应结果的人机交互系统的结构示意图。如图5所示，本发明实施例的基于响应结果的人机交互系统包括：语音指令接收单元51、响应结果获取单元52、联合概率确定单元53和响应单元54，具体地：

语音指令接收单元51，用于接收用户的语音指令；

响应结果获取单元52，用于对所述语音指令进行语音识别，获取多个响应结果；

联合概率确定单元53，用于获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率；

响应单元54，用于确定联合概率最大的响应结果对所述语音指令进行响应；

本发明实施例的基于多模态历史响应结果的人机交互系统，语音指令接收单元51接收用户的语音指令；响应结果获取单元52对所述语音指令进行语音识别，获取多个响应结果；联合概率确定单元53获取多个输入特征信息，根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率；响应单元54确定联合概率最大的响应结果对所述语音指令进行响应，避免了现有技术中响应结果不准确的缺陷，丰富了确定响应结果时输入的特征信息的维度，综合考虑多种因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

在本发明实施例的一种优选的实施方式中，联合概率确定单元53包括：

进一步地，所述环境因素信息包括：光强、温度、湿度、时间、环境图像和用户人脸图像。

在本发明实施例的另一种优选的实施方式中，联合概率确定单元53包括：

进一步地，所述语音指令的特征信息包括：文本、语调、语速和声纹。

本实施例的基于多模态历史响应结果的人机交互系统可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

本发明提供的基于多模态历史响应结果的人机交互方法及系统，接收用户的语音指令；对所述语音指令进行语音识别，获取多个响应结果；获取多个输入特征信息，根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率；确定联合概率最大的响应结果对所述语音指令进行响应，避免了现有技术中响应结果不准确的缺陷，丰富了确定响应结果时输入的特征信息的维度，除考虑语音指令对应的文本外，综合考虑其他因素对用户真实意图的影响，提高了响应结果的准确性，提升了人机交互过程中的用户体验。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多模态历史响应结果的人机交互方法，其特征在于，包括：

接收用户的语音指令；

对所述语音指令进行语音识别，获取多个响应结果，具体为：根据语音识别确定具体的应用场景，并在确定的应用场景下获取多个响应结果；

确定联合概率最大的响应结果对所述语音指令进行响应；

其中，所述概率模型是根据历史响应结果建立的随机数学模型；所述联合概率为各个输入特征信息下响应结果的概率的乘积；

其中，所述获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括：

2.根据权利要求1所述的基于多模态历史响应结果的人机交互方法，其特征在于，所述环境因素信息包括：光强、温度、湿度、时间、环境图像和用户人脸图像。

3.根据权利要求1所述的基于多模态历史响应结果的人机交互方法，其特征在于，所述获取多个输入特征信息，根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括：

4.根据权利要求3所述的基于多模态历史响应结果的人机交互方法，其特征在于，所述语音指令的特征信息包括：文本、语调、语速和声纹。

5.一种基于多模态历史响应结果的人机交互系统，其特征在于，包括：

语音指令接收单元，用于接收用户的语音指令；

响应结果获取单元，用于对所述语音指令进行语音识别，获取多个响应结果，具体为：根据语音识别确定具体的应用场景，并在确定的应用场景下获取多个响应结果；

其中，所述联合概率确定单元包括：

6.根据权利要求5所述的基于多模态历史响应结果的人机交互系统，其特征在于，所述环境因素信息包括：光强、温度、湿度、时间、环境图像和用户人脸图像。

7.根据权利要求5所述的基于多模态历史响应结果的人机交互系统，其特征在于，所述联合概率确定单元包括：

8.根据权利要求7所述的基于多模态历史响应结果的人机交互系统，其特征在于，所述语音指令的特征信息包括：文本、语调、语速和声纹。