CN106205611B - 一种基于多模态历史响应结果的人机交互方法及系统 - Google Patents

一种基于多模态历史响应结果的人机交互方法及系统 Download PDF

Info

Publication number
CN106205611B
CN106205611B CN201610498611.2A CN201610498611A CN106205611B CN 106205611 B CN106205611 B CN 106205611B CN 201610498611 A CN201610498611 A CN 201610498611A CN 106205611 B CN106205611 B CN 106205611B
Authority
CN
China
Prior art keywords
probability
response result
response
joint probability
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610498611.2A
Other languages
English (en)
Other versions
CN106205611A (zh
Inventor
郭祥
郭瑞
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rubu Technology Co.,Ltd.
Original Assignee
Beijing Rubo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rubo Technology Co Ltd filed Critical Beijing Rubo Technology Co Ltd
Priority to CN201610498611.2A priority Critical patent/CN106205611B/zh
Publication of CN106205611A publication Critical patent/CN106205611A/zh
Application granted granted Critical
Publication of CN106205611B publication Critical patent/CN106205611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

本发明提供了一种基于多模态历史响应结果的人机交互方法及系统。该基于多模态历史响应结果的人机交互方法包括:接收用户的语音指令;对所述语音指令进行语音识别,获取多个响应结果;获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;确定联合概率最大的响应结果对所述语音指令进行响应;其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积。本发明实施例丰富了确定响应结果时输入的特征信息的维度,综合考虑多种因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。

Description

一种基于多模态历史响应结果的人机交互方法及系统
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于多模态历史响应结果的人机交互方法及系统。
背景技术
人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语义识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。人机交互(Human-ComputerInteraction,HCI)是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。
在智能机器人与用户交互、响应用户指令的过程中,需要对用户的指令进行语音识别。其中,对话交互是一个非常重要的领域,用户可以通过语音与计算机进行交流,使计算机理解用户意图,完成用户的指令。
然而,现有的一种人机交互方法对用户的语音指令进行识别的过程中,仅仅将用户的语音指令转换成文字,进而对语音指令进行响应。该方法在确定响应结果时由于接收的输入信息维度少、没有考虑其他因素对用户真实意图的影响,往往造成响应结果不准确。
现有的另外一种人机交互方法通过专家经验总结、数学统计和归纳方法等,获得响应规则,对用户的语音指令进行响应,需要专家知识和大量的人工设计,无法自动形成响应规则。
发明内容
本发明所要解决的技术问题是:现有的人机交互方法响应不准确的问题。
为解决上述技术问题,本发明提出了一种基于多模态历史响应结果的人机交互方法,该基于多模态历史响应结果的人机交互方法包括:
接收用户的语音指令;
对所述语音指令进行语音识别,获取多个响应结果;
获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;
确定联合概率最大的响应结果对所述语音指令进行响应;
其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积。
可选地,所述获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括:
获取当前多个环境因素信息,根据概率模型计算各个环境因素下各个响应结果的概率;
根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。
可选地,所述环境因素信息包括:光强、温度、湿度、时间、环境图像和用户人脸图像。
可选地,所述获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括:
获取所述语音指令的特征信息,根据概率模型计算各个特征信息下各个响应结果的概率;
根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。
可选地,所述语音指令的特征信息包括:文本、语调、语速和声纹。
本发明还提出了一种基于多模态历史响应结果的人机交互系统,该基于多模态历史响应结果的人机交互系统包括:
语音指令接收单元,用于接收用户的语音指令;
响应结果获取单元,用于对所述语音指令进行语音识别,获取多个响应结果;
联合概率确定单元,用于获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;
响应单元,用于确定联合概率最大的响应结果对所述语音指令进行响应;
其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积。
可选地,所述联合概率确定单元包括:
第一响应结果概率计算模块,用于获取当前多个环境因素信息,根据概率模型计算各个环境因素下各个响应结果的概率;
第一联合概率计算模块,根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。
可选地,所述环境因素信息包括:光强、温度、湿度、时间、环境图像和用户人脸图像。
可选地,所述联合概率确定单元包括:
第二响应结果概率计算模块,用于获取所述语音指令的特征信息,根据概率模型计算各个特征信息下各个响应结果的概率;
第二联合概率计算模块,用于根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。
可选地,所述语音指令的特征信息包括:文本、语调、语速和声纹。
本发明提供的基于多模态历史响应结果的人机交互方法及系统,接收用户的语音指令;对所述语音指令进行语音识别,获取多个响应结果;获取多个输入特征信息,根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率;确定联合概率最大的响应结果对所述语音指令进行响应,避免了现有技术中响应结果不准确的缺陷,丰富了确定响应结果时输入的特征信息的维度,综合考虑多种因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图;
图2是本发明另一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图;
图3是本发明另一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图;
图4是本发明另一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图;
图5是本发明一个实施例的基于多模态历史响应结果的人机交互系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一个实施例的基于多模态历史响应结果的人机交互方法的流程示意图。如图1所示,该实施例的基于多模态历史响应结果的人机交互方法包括:
S11:接收用户的语音指令;
在实际应用中,用户可根据需求向智能机器人输入各种语音指令,例如“给我唱首歌”或“帮我点份早餐”。具体地,智能机器人可通过麦克风接收用户的语音指令。
S12:对所述语音指令进行语音识别,获取多个响应结果;
需要说明的是,智能机器人在接收到用户的语音指令后需要进行语音识别,确定具体的应用场景,并在确定的应用场景下获取多个响应结果;响应结果有多种形式,包括但不限于播放音乐、播放电影和提供点餐服务。举例来说,智能机器人在接收到“帮我点份早餐”的语音指令后,对语音指令进行识别,确定应用场景为点餐场景,并获取到“点粥”和“点凉皮”两个响应结果。
S13:获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积;
需要说明的是,概率模型是用随机变量和概率分布描述随机因素的影响,建立的随机数学模型。在概率论中,联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
举例来说,对P(Y|X)建模,X表示特定的输入特征信息值,Y表示响应结果,则P(Y|X)表示当输入特征信息值为X时,决策结果为Y的概率。根据建立的概率模型分别计算在各个输入信息特征“点粥”和“点凉皮”两个响应结果的概率,并计算“点粥”和“点凉皮”两个响应结果的联合概率。
S14:确定联合概率最大的响应结果对所述语音指令进行响应;
举例来说,根据步骤S13中计算获得“点粥”和“点凉皮”两个响应结果的联合概率,比较上述两个响应结果的联合概率的大小,如果是“点粥”的联合概率大,则智能机器人为用户提供点粥的服务;如果是“点凉皮”的联合概率大,则则智能机器人为用户提供点凉皮的服务。
本发明实施例的基于多模态历史响应结果的人机交互方法,接收用户的语音指令;对所述语音指令进行语音识别,获取多个响应结果;获取多个输入特征信息,根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率;确定联合概率最大的响应结果对所述语音指令进行响应,避免了现有技术中响应结果不准确的缺陷,丰富了确定响应结果时输入的特征信息的维度,综合考虑多种因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
如图2所示,在本发明实施例的一种优选的实施方式中,基于多模态历史响应结果的人机交互方法包括:
S21:接收用户的语音指令;
S22:对所述语音指令进行语音识别,获取多个响应结果;
S23:获取当前多个环境因素信息,根据概率模型计算各个环境因素下各个响应结果的概率;根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率;
其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积;
S24:确定联合概率最大的响应结果对所述语音指令进行响应。
其中,步骤S21和步骤S22与图1中的实施例相同,在此不再赘述。环境因素信息可以包括:光强、温度、湿度、时间、环境图像和用户人脸图像;其中,光强为当前环境的光照强度,温度为当前环境的空气温度,湿度为当前环境的空气湿度,分别通过光强传感器、温度传感器和湿度传感器获得;时间为接收用户的语音指令时的时间;环境图像和用户人脸图像是从智能设备摄像头捕捉的视频流的一帧,抽取出来成为图片。
以下以具体的例子说明通过获取多个环境因素信息计算各个响应结果的联合概率:
步骤S23中,获取当前的时间、湿度、温度和用户人脸图像,根据概率模型分别计算p(粥|早上)、p(粥|气候干燥)、p(粥|0度)和p(粥|用户身份);其中用户身份通过识别用户人脸图像获得。根据概率模型分别计算p(凉皮|早上)、p(凉皮|气候干燥)、p(凉皮|0度)和p(凉皮|用户身份);
计算“点粥”的联合概率P1=p(粥|早上)×p(粥|气候干燥)×p(粥|0度)×p(粥|用户身份);计算“点凉皮”的联合概率P2=p(凉皮|早上)×p(凉皮|气候干燥)×p(凉皮|0度)×p(凉皮|用户身份)。
在步骤S24中,比较“点粥”的联合概率P1和“点凉皮”的联合概率P2的大小,如果是“点粥”的联合概率P1大,则智能机器人为用户提供点粥的服务;如果是“点凉皮”的联合概率P2大,则智能机器人为用户提供点凉皮的服务。
本实施例的基于多模态历史响应结果的人机交互方法,接收用户的语音指令;对所述语音指令进行语音识别,获取多个响应结果;获取多个环境因素信息,根据由历史响应结果建立的随机数学模型和多个环境因素信息计算各个响应结果的联合概率;确定联合概率最大的响应结果对所述语音指令进行响应,避免了现有技术中响应结果不准确的缺陷,丰富了确定响应结果时输入的特征信息的维度,除考虑语音指令对应的文本外,综合考虑其他因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
如图3所示,在本发明实施例的另一种优选的实施方式中,基于多模态历史响应结果的人机交互方法包括:
S31:接收用户的语音指令;
S32:对所述语音指令进行语音识别,获取多个响应结果;
S33:获取所述语音指令的特征信息,根据概率模型计算各个特征信息下各个响应结果的概率;根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率;
其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积;
S34:确定联合概率最大的响应结果对所述语音指令进行响应。
其中,步骤S31、步骤S32和步骤S34与图1中的实施例相同,在此不再赘述。语音指令的特征信息包括:文本、语调、语速和声纹。
步骤S33中,通过获取语音指令的特征信息计算各个响应结果的联合概率的具体过程与图2中的实施例类似,获取语音指令的文本、语调、语速和声纹,根据概率模型分别计算各个特征信息下“点粥”和“点凉皮”的概率;根据各个特征信息下“点粥”和“点凉皮”的概率分别计算“点粥”和“点凉皮”的联合概率。
本实施例的基于多模态历史响应结果的人机交互方法,接收用户的语音指令;对所述语音指令进行语音识别,获取多个响应结果;获取语音指令的特征信息,根据由历史响应结果建立的随机数学模型和语音指令的特征信息计算各个响应结果的联合概率;确定联合概率最大的响应结果对所述语音指令进行响应,避免了现有技术中响应结果不准确的缺陷,丰富了确定响应结果时输入的特征信息的维度,综合考虑多种因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
如图4所示,在本发明实施例的另一种优选的实施方式中,基于多模态历史响应结果的人机交互方法包括:
S41:接收用户的语音指令;
S42:对所述语音指令进行语音识别,获取多个响应结果;
S43:获取当前多个环境因素信息,获取所述语音指令的特征信息;根据概率模型计算各个环境因素下各个响应结果的概率;根据概率模型计算各个特征信息下各个响应结果的概率;根据各个环境因素下各个响应结果的概率和各个特征信息下各个响应结果的概率计算各个响应结果的联合概率;
其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积;
S44:确定联合概率最大的响应结果对所述语音指令进行响应。
可理解的是,本发明实施例的基于多模态历史响应结果的人机交互方法,获取的多个输入特征信息包括多个环境因素信息和语音指令的特征信息,在计算各个响应结果的联合概率时综合考虑了环境因素信息和语音指令的特征信息,进一步丰富了确定响应结果时输入的特征信息的维度,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
图5是本发明一个实施例的基于响应结果的人机交互系统的结构示意图。如图5所示,本发明实施例的基于响应结果的人机交互系统包括:语音指令接收单元51、响应结果获取单元52、联合概率确定单元53和响应单元54,具体地:
语音指令接收单元51,用于接收用户的语音指令;
响应结果获取单元52,用于对所述语音指令进行语音识别,获取多个响应结果;
联合概率确定单元53,用于获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;
响应单元54,用于确定联合概率最大的响应结果对所述语音指令进行响应;
其中,所述概率模型是根据所述历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积。
本发明实施例的基于多模态历史响应结果的人机交互系统,语音指令接收单元51接收用户的语音指令;响应结果获取单元52对所述语音指令进行语音识别,获取多个响应结果;联合概率确定单元53获取多个输入特征信息,根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率;响应单元54确定联合概率最大的响应结果对所述语音指令进行响应,避免了现有技术中响应结果不准确的缺陷,丰富了确定响应结果时输入的特征信息的维度,综合考虑多种因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
在本发明实施例的一种优选的实施方式中,联合概率确定单元53包括:
第一响应结果概率计算模块,用于获取当前多个环境因素信息,根据概率模型计算各个环境因素下各个响应结果的概率;
第一联合概率计算模块,根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。
进一步地,所述环境因素信息包括:光强、温度、湿度、时间、环境图像和用户人脸图像。
在本发明实施例的另一种优选的实施方式中,联合概率确定单元53包括:
第二响应结果概率计算模块,用于获取所述语音指令的特征信息,根据概率模型计算各个特征信息下各个响应结果的概率;
第二联合概率计算模块,用于根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。
进一步地,所述语音指令的特征信息包括:文本、语调、语速和声纹。
本实施例的基于多模态历史响应结果的人机交互系统可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
本发明提供的基于多模态历史响应结果的人机交互方法及系统,接收用户的语音指令;对所述语音指令进行语音识别,获取多个响应结果;获取多个输入特征信息,根据由历史响应结果建立的随机数学模型和多个输入特征信息计算各个响应结果的联合概率;确定联合概率最大的响应结果对所述语音指令进行响应,避免了现有技术中响应结果不准确的缺陷,丰富了确定响应结果时输入的特征信息的维度,除考虑语音指令对应的文本外,综合考虑其他因素对用户真实意图的影响,提高了响应结果的准确性,提升了人机交互过程中的用户体验。
需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于多模态历史响应结果的人机交互方法,其特征在于,包括:
接收用户的语音指令;
对所述语音指令进行语音识别,获取多个响应结果,具体为:根据语音识别确定具体的应用场景,并在确定的应用场景下获取多个响应结果;
获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;
确定联合概率最大的响应结果对所述语音指令进行响应;
其中,所述概率模型是根据历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积;
其中,所述获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括:
获取当前多个环境因素信息,根据概率模型计算各个环境因素下各个响应结果的概率;
根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。
2.根据权利要求1所述的基于多模态历史响应结果的人机交互方法,其特征在于,所述环境因素信息包括:光强、温度、湿度、时间、环境图像和用户人脸图像。
3.根据权利要求1所述的基于多模态历史响应结果的人机交互方法,其特征在于,所述获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率包括:
获取所述语音指令的特征信息,根据概率模型计算各个特征信息下各个响应结果的概率;
根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。
4.根据权利要求3所述的基于多模态历史响应结果的人机交互方法,其特征在于,所述语音指令的特征信息包括:文本、语调、语速和声纹。
5.一种基于多模态历史响应结果的人机交互系统,其特征在于,包括:
语音指令接收单元,用于接收用户的语音指令;
响应结果获取单元,用于对所述语音指令进行语音识别,获取多个响应结果,具体为:根据语音识别确定具体的应用场景,并在确定的应用场景下获取多个响应结果;
联合概率确定单元,用于获取多个输入特征信息,根据概率模型和多个输入特征信息计算各个响应结果的联合概率;
响应单元,用于确定联合概率最大的响应结果对所述语音指令进行响应;
其中,所述概率模型是根据历史响应结果建立的随机数学模型;所述联合概率为各个输入特征信息下响应结果的概率的乘积;
其中,所述联合概率确定单元包括:
第一响应结果概率计算模块,用于获取当前多个环境因素信息,根据概率模型计算各个环境因素下各个响应结果的概率;
第一联合概率计算模块,根据各个环境因素下各个响应结果的概率计算各个响应结果的联合概率。
6.根据权利要求5所述的基于多模态历史响应结果的人机交互系统,其特征在于,所述环境因素信息包括:光强、温度、湿度、时间、环境图像和用户人脸图像。
7.根据权利要求5所述的基于多模态历史响应结果的人机交互系统,其特征在于,所述联合概率确定单元包括:
第二响应结果概率计算模块,用于获取所述语音指令的特征信息,根据概率模型计算各个特征信息下各个响应结果的概率;
第二联合概率计算模块,用于根据各个特征信息下各个响应结果的概率计算各个响应结果的联合概率。
8.根据权利要求7所述的基于多模态历史响应结果的人机交互系统,其特征在于,所述语音指令的特征信息包括:文本、语调、语速和声纹。
CN201610498611.2A 2016-06-29 2016-06-29 一种基于多模态历史响应结果的人机交互方法及系统 Active CN106205611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610498611.2A CN106205611B (zh) 2016-06-29 2016-06-29 一种基于多模态历史响应结果的人机交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610498611.2A CN106205611B (zh) 2016-06-29 2016-06-29 一种基于多模态历史响应结果的人机交互方法及系统

Publications (2)

Publication Number Publication Date
CN106205611A CN106205611A (zh) 2016-12-07
CN106205611B true CN106205611B (zh) 2020-03-27

Family

ID=57462807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610498611.2A Active CN106205611B (zh) 2016-06-29 2016-06-29 一种基于多模态历史响应结果的人机交互方法及系统

Country Status (1)

Country Link
CN (1) CN106205611B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205525B (zh) * 2016-12-20 2021-11-19 阿里巴巴集团控股有限公司 基于用户语音信息确定用户意图的方法和装置
CN107767869B (zh) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN108010527B (zh) * 2017-12-19 2020-06-12 深圳市欧瑞博科技有限公司 语音识别方法、计算机设备和存储介质
JP7063230B2 (ja) * 2018-10-25 2022-05-09 トヨタ自動車株式会社 コミュニケーション装置およびコミュニケーション装置の制御プログラム
CN109672724B (zh) * 2018-11-01 2022-07-29 百度在线网络技术(北京)有限公司 信息推送方法、装置及设备
CN109710941A (zh) * 2018-12-29 2019-05-03 上海点融信息科技有限责任公司 基于人工智能的用户意图识别方法和装置
CN109979453A (zh) * 2019-03-29 2019-07-05 客如云科技(成都)有限责任公司 一种面向点餐机器人的智能意图识别人机交互方法
CN111309283B (zh) * 2020-03-25 2023-12-05 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质
CN111507402A (zh) * 2020-04-17 2020-08-07 北京声智科技有限公司 一种确定响应方式的方法、装置、介质和设备
CN113643052B (zh) * 2021-04-21 2023-11-14 西安农链互联网科技有限公司 一种基于大数据分析的农业产销信息共享服务系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
AU2003272871A1 (en) * 2002-10-18 2004-05-04 Beijing Kexin Technology Co., Ltd. Portable digital mobile communication apparatus, method for controlling speech and system
US7991724B2 (en) * 2006-12-21 2011-08-02 Support Machines Ltd. Method and a computer program product for providing a response to a statement of a user
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN102324241A (zh) * 2011-05-04 2012-01-18 鸿富锦精密工业(深圳)有限公司 具有语音控制功能的电子装置及语音控制方法
CN102298443B (zh) * 2011-06-24 2013-09-25 华南理工大学 结合视频通道的智能家居语音控制系统及其控制方法
CN102855872B (zh) * 2012-09-07 2015-08-05 深圳市信利康电子有限公司 基于终端及互联网语音交互的家电控制方法及系统
CN103700369B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 语音导航方法及系统
CN103956169B (zh) * 2014-04-17 2017-07-21 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN104965426A (zh) * 2015-06-24 2015-10-07 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人控制系统、方法和装置
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统

Also Published As

Publication number Publication date
CN106205611A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106205611B (zh) 一种基于多模态历史响应结果的人机交互方法及系统
US10621991B2 (en) Joint neural network for speaker recognition
CN112560830B (zh) 多模态维度情感识别方法
KR102564855B1 (ko) 표정 변화에 강인한 객체 및 표정 인식 장치 및 방법, 객체 및 표정 트레이닝 장치 및 방법
US11423884B2 (en) Device with convolutional neural network for acquiring multiple intent words, and method thereof
CN109117952B (zh) 一种基于深度学习的机器人情感认知的方法
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
CN113314119B (zh) 语音识别智能家居控制方法及装置
Cid et al. A novel multimodal emotion recognition approach for affective human robot interaction
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
JP7178394B2 (ja) 音声信号を処理するための方法、装置、機器、および媒体
KR101910089B1 (ko) 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
CN115953521A (zh) 远程数字人渲染方法、装置及系统
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Huu et al. Two-stream convolutional network for dynamic hand gesture recognition using convolutional long short-term memory networks
Baranwal et al. Implementation of MFCC based hand gesture recognition on HOAP-2 using Webots platform
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
Park et al. Multimodal priority verification of face and speech using momentum back-propagation neural network
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN113792537A (zh) 一种动作生成方法以及装置
CN113450800A (zh) 一种唤醒词激活概率的确定方法、装置和智能语音产品
Khalifa et al. Hand motion modeling for psychology analysis in job interview using optical flow-history motion image: OF-HMI
Goutsu et al. Multi-modal gesture recognition using integrated model of motion, audio and video
Nakamura et al. Fast robot voice interface through optimum-path forest
CN115471893B (zh) 训练人脸识别模型、人脸识别的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 508 room 101500, government building, West Tian Zhen Town, 8 West Road, Miyun Economic Development Zone, Beijing, -598

Applicant after: Beijing Rubo Technology Co., Ltd.

Address before: 101500 Beijing City Economic Development Zone, West Road, No. 8 West of the town of Miyun, the town government office building, room 508, -598

Applicant before: BEIJING INTELLIGENT HOUSEKEEPER TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210827

Address after: 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100038

Patentee after: Beijing Rubu Technology Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun District Economic Development Zone, Beijing 101500

Patentee before: BEIJING ROOBO TECHNOLOGY Co.,Ltd.