CN110289000B - 一种语音识别方法、装置 - Google Patents

一种语音识别方法、装置 Download PDF

Info

Publication number
CN110289000B
CN110289000B CN201910446325.5A CN201910446325A CN110289000B CN 110289000 B CN110289000 B CN 110289000B CN 201910446325 A CN201910446325 A CN 201910446325A CN 110289000 B CN110289000 B CN 110289000B
Authority
CN
China
Prior art keywords
user
voice
determining
voice instruction
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910446325.5A
Other languages
English (en)
Other versions
CN110289000A (zh
Inventor
鞠向宇
袁志伟
赵晓朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moran Cognitive Technology Co Ltd
Original Assignee
Beijing Moran Cognitive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moran Cognitive Technology Co Ltd filed Critical Beijing Moran Cognitive Technology Co Ltd
Priority to CN201910446325.5A priority Critical patent/CN110289000B/zh
Publication of CN110289000A publication Critical patent/CN110289000A/zh
Application granted granted Critical
Publication of CN110289000B publication Critical patent/CN110289000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/0205Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种语音识别方法,所述方法包括:101,接收用户第一语音指令;102,采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别,如果未被正确识别,执行步骤103;103,接收用户第二语音指令;104,采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别,如果未被正确识别,执行步骤105;105,确定当前语音对话场景,根据所述对话场景,生成第一问询请求。通过本发明的方法,能够通过询问领域策略和提示用户更换说话方法,优化补救识别过程,提高了二次识别的准确性,提升了用户体验。

Description

一种语音识别方法、装置
技术领域
本发明实施例涉及信息处理技术领域,特别涉及一种语音识别方法、装置、终端设备和计算机可读存储介质。
背景技术
随着语音识别技术的发展和进步,语音识别技术逐渐进入工业、医疗、通信、汽车、智能家庭服务等多个领域。虽然语音识别在我们的日常生活中取得了一定规模的应用,但相关技术发展仍然不够完善,尤其是语音识别的精度仍然还有十分巨大的发展空间。
目前语音识别系统在一些复杂场景中的精确度大都差强人意的,尤其是在人机交互方面,语音识别系统经常会出现误识别的情况,在交互过程中,如果连续出现识别错误,会严重影响用户体验。如何优化语音识别成为一个亟待解决的问题。
发明内容
针对现有技术中的问题,本发明提供一种语音识别方法、装置、终端设备和计算机可读存储介质。
本发明提供一种语音识别方法,其特征在于,所述方法包括:
101,接收用户第一语音指令;
102,采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别,如果未被正确识别,执行步骤103;
103,接收用户第二语音指令;
104,采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别,如果未被正确识别,执行步骤105;
105,确定当前语音对话场景,根据所述对话场景,生成第一问询请求。
优选地,所述反馈信息包括用户生物特征反馈信息,所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。
优选地,所述步骤101进一步包括,
1011,接收用户第一语音指令,确定符合第一语音指令的多条第一候选识别结果;
1012,确定多条第一候选识别结果的第一置信等级,基于第一置信等级确定第一目标结果;
1013,基于第一目标结果,确定第一指令执行通知消息。
优选地,所述步骤102具体包括
根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第一语音指令未被正确识别,执行步骤103。
优选地,所述步骤103进一步包括,
1031,接收用户第二语音指令,确定符合第二语音指令的多条第二候选识别结果;
1032,基于多条第一候选识别结果和多条第二候选识别结果,确定多条第一候选识别结果和多条第二候选识别结果的第二置信等级,基于所述第二置信等级确定第二目标结果;
1033,基于第二目标结果,确定第二指令执行通知消息。
优选地,所述步骤105具体包括
确定用户语音指令所属对话场景,根据所述对话场景,生成第一问询请求,所述第一问询请求包括向用户发起的与场景相关的第一问询;
接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。
本发明还提供一种语音识别装置,其特征在于,所述装置包括:
接口模块,用于接收用户第一语音指令;
判断模块,用于采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别;
所述接口模块,还用所述用户第一语音指令未被正确识别时,接收用户第二语音指令;
所述判断模块,还用于采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别;
场景确定模块,用于所述用户第二语音指令未被正确识别时,确定当前语音对话场景,根据所述对话场景,生成第一问询请求。
优选地,所述反馈信息包括用户生物特征反馈信息,所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。
优选地,所述接口模块进一步包括,
候选结果确定模块,用于接收用户第一语音指令,确定符合第一语音指令的多条第一候选识别结果;
目标结果确定模块,用于确定多条第一候选识别结果的第一置信等级,基于第一置信等级确定第一目标结果;
通知确定模块,用于基于第一目标结果,确定第一指令执行通知消息。
优选地,所述判断模块具体包括
根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第一语音指令未被正确识别。
优选地,所述候选结果确定模块,进一步用于接收用户第二语音指令,确定符合第二语音指令的多条第二候选识别结果;
所述目标结果确定模块,进一步用于基于多条第一候选识别结果和多条第二候选识别结果,确定多条第一候选识别结果和多条第二候选识别结果的第二置信等级,基于所述第二置信等级确定第二目标结果;
所述通知确定模块,进一步用于基于第二目标结果,确定第二指令执行通知消息。
优选地,所述场景确定模块,具体用于确定用户语音指令所属对话场景,根据所述对话场景,生成第一问询请求,所述第一问询请求包括向用户发起的与场景相关的第一问询;
所述接口模块,进一步用于接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。
本发明还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
通过本发明的方法,能够优化语音补救识别过程,提高了二次识别的准确性,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的一种语音识别方法。
图2是本发明一个实施例中的一种语音识别装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
本发明的方法可以应用于任何具有语音交互能力的装置或设备,如计算机、手机,平板电脑,车机,车载终端,机顶盒,智慧型家电等。
实施例一
参考图1,本发明实施例一提供一种语音识别方法,其特征在于,所述方法包括:
101,接收用户第一语音指令;
102,采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别,如果未被正确识别,执行步骤103;
103,接收用户第二语音指令;
104,采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别,如果未被正确识别,执行步骤105;
105,确定当前语音对话场景,根据所述对话场景,生成第一问询请求。
优选地,所述步骤101进一步包括,
1011,接收用户第一语音指令,确定符合第一语音指令的多条第一候选识别结果;
1012,确定多条第一候选识别结果的第一置信等级,基于第一置信等级确定第一目标结果;
1013,基于第一目标结果,确定第一指令执行通知消息。
例如,接收用户通过语音助手输入的一段语音信息,对用户输入的语音进行特征提取,抽取反映语音信号特征的关键特征参数,将所述关键特征参数与语音特征库中的特征数据进行匹配。所述语音特征库包括通用语音数据库、和/或用户专属语音数据库。
上述数据库默认优先匹配用户专属语音数据库,其次匹配通用语音数据库,确定符合用户语音指令的可能候选结果;
选取用户专属语音数据库时,可以基于用户登录语音助手的用户ID,通过用户ID,调用与该用户ID相匹配的用户专属语音数据库;或者,或者通过采集用户生物识别信息,例如,声纹,指纹,虹膜,面部等,通过用户信息库,匹配用户身份,获取用户ID,调用与该用户ID相匹配的用户专属语音数据库。
将所述关键特征参数与语音特征库中的特征数据进行匹配,具体可采用相似性度量比较,将相似度较高的作为识别的中间候选结果,即第一候选识别结果;基于相似度对候选结果进行排序,缓存前N个候选结果,N可以预先设定,例如取大于等于10的自然数。随后对多个候选识别结果继续进行处理,通过音素、词法、句法和语义信息等进一步限定,确定多条候选识别结果的第一置信等级;确定第一置信等级最高的为目标识别结果,从而基于目标识别结果填充语音交互引擎的命令槽位,并向用户反馈第一指令执行通知消息。
优选地,步骤102中用户的反馈信息包括用户生物特征反馈信息,所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。
例如,可以通过摄像装置,采集用户的面部表情,用户的动作轨迹,包括头部、手部、身体姿势变化;通过麦克风装置采集用户的声音,包括语音语调,声音强度,声音频率;通过可穿戴的传感设备采集用户的生理指数信息,包括脉搏信号,心跳信号,呼吸信号,肌电信号,皮肤电信号,脑电信号等。
优选地,所述步骤102具体包括
根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第一语音指令未被正确识别,执行步骤103。
例如将情绪状态分为正性的和负性的情绪。通过一维或多维情绪识别模型对情绪进行分类和评价。进一步地,还可以基于通用的基本情绪划分:高兴、惊奇、悲伤、愤怒、恐惧、厌恶。可以将负性的情绪或者愤怒、厌恶情绪设置为第一预定分类,当确定用户的情绪属于所述第一预定分类,则判断用户第一语音指令未被正确识别。
具体地,以生理指数信息为例,通过传感器采集用户生理指数信息,所述传感器可配置于用户的可穿戴设备。例如采集脉搏信号,脉搏信号中包含了丰富的生理信息,当用户处于较平静的状态下时,正常的脉搏信号具有规律的波形变化。当用户处于愤怒、厌恶等状态下时,由于交感神经和副交感神经的调节作用,脉搏信号波形发生变化。通过采集脉搏信号,提取信号的特征信息,利用情绪识别模型的分类器对特征进行筛选并得到基于该脉搏信号的情绪识别结果。当识别结果为负性的情绪或者愤怒、厌恶时,认为用户对语音识别的结果不满意,即用户第一语音指令未被正确识别。同样地对于心跳信号,呼吸信号,肌电信号,皮肤电信号,脑电信号,可采用同样的方式采集上述信号执行情绪分析。另外可以结合多个生理指数信息执行情绪分析。
以表情信息为例,例如采集用户面部图像,采用图像情感识别技术识别用户面部变化,获取用户的表情,如眉间的肌肉皱纹增加,瞳孔缩小、嘴角下撇,耸鼻等,从而确定用户处于负性的情绪,例如愤怒或厌恶。当处于此类预定分类时,认为用户对语音识别的结果不满意,即用户第一语音指令未被正确识别。
以姿势信息为例,通过摄像头采集用户的动作轨迹,包括头部、手部、身体姿势变化,采用图像情感识别技术识别用户的动作变化确定用户的情绪,例如用户摇头,摆手,拍击方向盘等动作时,确定用户处于负性的情绪,例如愤怒或厌恶。当处于此类预定分类时,认为用户对语音识别的结果不满意,即用户第一语音指令未被正确识别。
以声音信息为例,通过麦克风采集用户声音,通过语音情绪识别系统分析用户的状态,如音调升高,节奏变快,语音中包含敏感词等,从而确定用户处于负性的情绪,例如愤怒或厌恶。当处于此类预定分类时,认为用户对语音识别的结果不满意,即用户第一语音指令未被正确识别。
同样地,可以结合表情信息、声音信息、姿势信息和/或生理指数信息等多种生物特征反馈信息,以更准确确定用户情绪分类。
优选地,所述步骤103进一步包括,
1031,接收用户第二语音指令,确定符合第二语音指令的多条第二候选识别结果;
1032,基于多条第一候选识别结果和多条第二候选识别结果,确定多条第一候选识别结果和多条第二候选识别结果的第二置信等级,基于所述第二置信等级确定第二目标结果;
1033,基于第二目标结果,确定第二指令执行通知消息。
具体地,在确定第一次未能准确识别用户语音时,用户通常会复述命令或者重新调整命令表述,此时获取用户的语音进行进一步识别。
此时,接收用户通过语音助手再次输入的一段语音信息,对用户输入的语音进行特征提取,抽取反映语音信号特征的关键特征参数,将所述关键特征参数与语音特征库中的特征数据进行匹配。将所述关键特征参数与语音特征库中的特征数据进行匹配,具体可采用相似性度量比较,将相似度较高的作为识别的中间候选结果,即第二候选识别结果;
提取在前缓存的多条第一候选识别结果;结合多条第一候选识别结果与第二候选识别结果,对多个候选识别结果继续进行处理,通过音素、词法、句法和语义信息等进一步限定,确定多条候选识别结果的第二置信等级;确定第二置信等级最高的为目标识别结果,从而基于第一语音指令和第二语音指令共同确定最有可能的指令,随后基于目标识别结果填充语音交互引擎的命令槽位,并向用户反馈第二指令执行通知消息。由此可见,在第二次的识别过程中,利用了前次的候选识别结果,通过对第一候选识别结果和第二候选识别结果的集合进行后续处理,能够进一步提高语音识别的准确度。
优选地,所述步骤104具体包括
根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第二语音指令未被正确识别,执行步骤105。
该步骤中根据用户的反馈信息,确定用户情绪分类,以及判断用户情绪是否属于第一预定分类,可采用步骤102中相同的方式。
优选地,所述步骤105具体包括
确定用户语音指令所属对话场景,根据所述对话场景,生成第一问询请求,所述第一问询请求包括向用户发起的与场景相关的第一问询;
接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。
基于第一语音指令和/或第二语音指令确定对话场景;
如果从语音指令中无法确定对话场景,可以进一步结合音频记录确定对话场景,具体地基于第一语音指令、第二语音指令和/或音频记录分析确定用户发起语音指令时的场景信息。所述音频记录是通过麦克风实时采集周围声音获取,所述音频记录以时间周期为单位,或存储空间为单位进行缓存。
另外,可以进一步结合位置信息确定对话场景,具体地可以获取用户的当前位置,所述当前位置可以是用户的定位信息,例如用户GPS数据。基于用户的定位,确定附近设施属性,例如超市、影院、图书馆等。或者获取用户的导航目的地,确定目的地属性,例如超市、影院、图书馆等,结合用户的当前位置/用户的导航目的地、第一语音指令、第二语音指令、和/或音频记录分析确定用户发起语音指令时的场景信息。
例如,在两次识别后都无法确定用户表述的是“买西红柿”或是“买西虹市”时,如果能通过用户发起语音指令时缓存的音频记录中存在用户与其他人交谈有关电影的内容时,可以确定用户的指令对话场景是电影;如果缓存的音频记录中存在用户与其他人交谈有关晚饭的内容时,可以确定用户的指令对话场景是生活。或者判断用户当前定位在超市附近,确定用户的指令对话场景是生活。或者判断用户导航目的地是电影院,确定用户的指令对话场景是电影。
随后根据所述对话场景,生成第一问询请求,所述第一问询请求包括向用户发起的与场景相关的第一问询。例如确定用户的指令对话场景是电影时,采用询问领域策略,比如,“您是否想购买电影票”。
接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。例如,当用户回答“是”,则确定用户是需要买西虹市首富的电影票,基于该识别结果填充语音交互引擎的命令槽位,例如填充订票,从而调用订票助手,并填充票务相关槽位信息,同时向用户反馈指令执行通知消息。例如,当用户回答“不是”,则确定用户是需要买西红柿,基于该识别结果填充语音交互引擎的命令槽位,例如填充外卖,从而调用外卖助手,并填充外卖订购相关槽位信息,同时向用户反馈指令执行通知消息。
进一步地如果在步骤105中仍旧无法确定用户领域,则使用提示用户更换说法策略,向用户发送错误通知,所述通知包括提示用户当前指令无法被识别,请用户变更指令表达方式。
通过本发明的方法,能够优化语音补救识别过程,提高了二次识别的准确性,提升了用户体验。
实施例二
参考图2,本发明实施例二还提供一种语音识别装置,其特征在于,所述装置包括:
接口模块,用于接收用户第一语音指令;
判断模块,用于采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别;
所述接口模块,还用所述用户第一语音指令未被正确识别时,接收用户第二语音指令;
所述判断模块,还用于采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别;
场景确定模块,用于所述用户第二语音指令未被正确识别时,确定当前语音对话场景,根据所述对话场景,生成第一问询请求。
优选地,所述接口模块进一步包括,
候选结果确定模块,用于接收用户第一语音指令,确定符合第一语音指令的多条第一候选识别结果;
目标结果确定模块,用于确定多条第一候选识别结果的第一置信等级,基于第一置信等级确定第一目标结果;
通知确定模块,用于基于第一目标结果,确定第一指令执行通知消息。
优选地,所述反馈信息包括用户生物特征反馈信息,所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。
例如,可以通过摄像装置,采集用户的面部表情,用户的动作轨迹,包括头部、手部、身体姿势变化;通过麦克风装置采集用户的声音,包括语音语调,声音强度,声音频率;通过可穿戴的传感设备采集用户的生理指数信息,包括脉搏信号,心跳信号,呼吸信号,肌电信号,皮肤电信号,脑电信号等。
优选地,所述判断模块还用于根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第一语音指令未被正确识别。
优选地,所述候选结果确定模块,进一步用于接收用户第二语音指令,确定符合第二语音指令的多条第二候选识别结果;
所述目标结果确定模块,进一步用于基于多条第一候选识别结果和多条第二候选识别结果,确定多条第一候选识别结果和多条第二候选识别结果的第二置信等级,基于所述第二置信等级确定第二目标结果;
所述通知确定模块,进一步用于基于第二目标结果,确定第二指令执行通知消息。
优选地,所述判断模块还用于根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第二语音指令未被正确识别。
优选地,所述场景确定模块,具体用于确定用户语音指令所属对话场景,根据所述对话场景,生成第一问询请求,所述第一问询请求包括向用户发起的与场景相关的第一问询;
所述接口模块,进一步用于接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。
本发明还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
所述终端设备包括但不限于计算机、手机,平板电脑,车机,车载终端,机顶盒,智慧型家电。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,所述方法包括:
1011,接收用户第一语音指令,确定符合所述第一语音指令的多条第一候选识别结果,缓存所述多条第一候选识别结果;
1012,确定所述多条第一候选识别结果的第一置信等级,基于所述第一置信等级确定第一目标识别结果;
1013,基于所述第一目标识别结果填充语音交互引擎的命令槽位,并向用户反馈第一指令执行通知消息;
102,采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别,如果未被正确识别,执行步骤1031;
1031,接收所述用户的第二语音指令,确定符合第二语音指令的多条第二候选识别结果;
1032,提取所述缓存的所述多条第一候选识别结果,基于所述多条第一候选识别结果和所述多条第二候选识别结果,确定所述多条第一候选识别结果和多条第二候选识别结果的第二置信等级,基于所述第二置信等级确定第二目标识别结果;
1033,基于所述第二目标识别结果填充语音交互引擎的命令槽位,并向用户反馈第二指令执行通知消息;
104,采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别,如果未被正确识别,执行步骤105;
105,获取用户的当前位置,所述当前位置是用户的定位信息,或者获取用户的导航目的地;结合用户的当前位置、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景,或者结合用户的导航目的地、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景;所述音频记录是通过麦克风实时采集周围声音获取;根据所述用户语音指令所属对话场景,生成第一问询请求;所述第一问询请求包括向用户发起的与场景相关的第一问询。
2.根据权利要求1所述的方法,其特征在于,所述反馈信息包括用户生物特征反馈信息,所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤102具体包括
根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第一语音指令未被正确识别,执行步骤1031。
4.根据权利要求1所述的方法,其特征在于,所述步骤105具体包括
接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。
5.一种语音识别装置,其特征在于,所述装置包括接口模块,判断模块以及场景确定模块,具体地:
所述接口模块进一步包括:
候选结果确定模块,用于接收用户第一语音指令,确定符合所述第一语音指令的多条第一候选识别结果,缓存所述多条第一候选识别结果;
目标结果确定模块,用于确定所述多条第一候选识别结果的第一置信等级,基于所述第一置信等级确定第一目标识别结果;
通知确定模块,用于基于所述第一目标识别结果填充语音交互引擎的命令槽位,并向用户反馈第一指令执行通知消息;
所述判断模块,用于采集用户的反馈信息,基于用户的反馈信息判断用户第一语音指令是否被正确识别;
所述候选结果确定模块,进一步用于接收所述用户的第二语音指令,确定符合第二语音指令的多条第二候选识别结果;
所述目标结果确定模块,进一步用于提取所述缓存的所述多条第一候选识别结果,基于所述多条第一候选识别结果和所述多条第二候选识别结果,确定所述多条第一候选识别结果和多条第二候选识别结果的第二置信等级,基于所述第二置信等级确定第二目标识别结果;
所述通知确定模块,进一步用于基于所述第二目标识别结果填充语音交互引擎的命令槽位,并向用户反馈第二指令执行通知消息;
所述判断模块,还用于采集用户的反馈信息,基于用户的反馈信息判断用户第二语音指令是否被正确识别;
所述场景确定模块,用于所述用户的所述第二语音指令未被正确识别时,获取用户的当前位置,所述当前位置是用户的定位信息,或者获取用户的导航目的地;结合用户的当前位置、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景,或者结合用户的导航目的地、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景;所述音频记录是通过麦克风实时采集周围声音获取;根据所述用户语音指令所属对话场景,生成第一问询请求,所述第一问询请求包括向用户发起的与场景相关的第一问询。
6.根据权利要求5所述的装置,其特征在于,
所述反馈信息包括用户生物特征反馈信息,所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。
7.根据权利要求5所述的装置,其特征在于,所述判断模块具体包括
根据用户的反馈信息,确定用户情绪分类,如果用户情绪属于第一预定分类,则判断用户第一语音指令未被正确识别。
8.根据权利要求5所述的装置,其特征在于,
所述接口模块,进一步用于接收用户第一应答指令,根据用户第一应答指令,确定第三识别结果,基于所述第三识别结果确定将要执行的指令。
9.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1至4任一项所述的方法。
CN201910446325.5A 2019-05-27 2019-05-27 一种语音识别方法、装置 Active CN110289000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910446325.5A CN110289000B (zh) 2019-05-27 2019-05-27 一种语音识别方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910446325.5A CN110289000B (zh) 2019-05-27 2019-05-27 一种语音识别方法、装置

Publications (2)

Publication Number Publication Date
CN110289000A CN110289000A (zh) 2019-09-27
CN110289000B true CN110289000B (zh) 2020-11-13

Family

ID=68002706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910446325.5A Active CN110289000B (zh) 2019-05-27 2019-05-27 一种语音识别方法、装置

Country Status (1)

Country Link
CN (1) CN110289000B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091825B (zh) * 2019-12-03 2022-09-23 杭州蓦然认知科技有限公司 一种构建交互引擎簇的方法及装置
CN111158477A (zh) * 2019-12-25 2020-05-15 北京金山安全软件有限公司 一种可穿戴设备的工作方法、控制方法、可穿戴设备及服务器
CN111696537B (zh) * 2020-06-05 2023-10-31 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN111696538B (zh) * 2020-06-05 2023-10-31 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN111696536B (zh) * 2020-06-05 2023-10-27 北京搜狗智能科技有限公司 语音处理方法、装置和介质
CN111816174A (zh) * 2020-06-24 2020-10-23 北京小米松果电子有限公司 语音识别方法、装置及计算机可读存储介质
CN112820293A (zh) * 2020-12-31 2021-05-18 讯飞智元信息科技有限公司 一种语音识别方法及相关装置
CN116705026B (zh) * 2023-08-02 2023-10-13 江西科技学院 一种人工智能交互方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106133825A (zh) * 2014-01-08 2016-11-16 格林伊登美国控股有限责任公司 自动语音识别系统中的广义短语

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01237597A (ja) * 1988-03-17 1989-09-22 Fujitsu Ltd 音声認識訂正装置
CN104795065A (zh) * 2015-04-30 2015-07-22 北京车音网科技有限公司 一种提高语音识别率的方法和电子设备
CN105047198B (zh) * 2015-08-24 2020-09-22 百度在线网络技术(北京)有限公司 语音纠错处理方法及装置
CN106098060B (zh) * 2016-05-19 2020-01-31 北京搜狗科技发展有限公司 语音的纠错处理方法和装置、用于语音的纠错处理的装置
CN109002501A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 用于处理自然语言对话的方法、装置、电子设备以及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106133825A (zh) * 2014-01-08 2016-11-16 格林伊登美国控股有限责任公司 自动语音识别系统中的广义短语

Also Published As

Publication number Publication date
CN110289000A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110289000B (zh) 一种语音识别方法、装置
US10977452B2 (en) Multi-lingual virtual personal assistant
US20210201911A1 (en) System and method for dynamic facial features for speaker recognition
US10884503B2 (en) VPA with integrated object recognition and facial expression recognition
KR100586767B1 (ko) 다중모드 입력을 이용한 다중모드 초점 탐지, 기준 모호성해명 및 기분 분류를 위한 시스템 및 방법
CN116547746A (zh) 针对多个用户的对话管理
CN106503646B (zh) 多模态情感辨识系统及方法
CN103456299B (zh) 一种控制语音识别的方法和装置
US11854550B2 (en) Determining input for speech processing engine
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
Yang et al. Enhanced multiclass SVM with thresholding fusion for speech-based emotion classification
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
CN111149172B (zh) 情绪管理方法、设备及计算机可读存储介质
CN112185422B (zh) 提示信息生成方法及其语音机器人
CN109922397B (zh) 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机
Yalamanchili et al. Survey on multimodal emotion recognition (mer) systems
CN112233674A (zh) 一种多模交互方法及其系统
Folorunso et al. Laughter signature, a new approach to gender recognition
CN116526634B (zh) 一种基于语音交互的充电系统及实现方法
Yang Algorithms for affective and ubiquitous sensing systems and for protein structure prediction
Adesola et al. Implementation of Multi-modal Speech Emotion Recognition Using Text Data and Audio Signals
Kobayashi et al. Discrimination of positive/negative attitude using optical flow and prosody information
Trabelsi et al. Dynamic sequence-based learning approaches on emotion recognition systems
KR20230149894A (ko) 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant