CN110675871A - 一种语音识别方法及装置 - Google Patents
一种语音识别方法及装置 Download PDFInfo
- Publication number
- CN110675871A CN110675871A CN201910913833.XA CN201910913833A CN110675871A CN 110675871 A CN110675871 A CN 110675871A CN 201910913833 A CN201910913833 A CN 201910913833A CN 110675871 A CN110675871 A CN 110675871A
- Authority
- CN
- China
- Prior art keywords
- candidate
- feedback
- answer
- user
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008451 emotion Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 description 33
- 230000011218 segmentation Effects 0.000 description 14
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音识别方法,包括:获取用户输入的语音指令中未识别的分词;判断是否已存在针对所述未识别的分词的第一候选识别结果集,若否,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息;根据候选答案的属性信息,更新所述多个候选答案的优先级。通过本发明的方法,能够加快对未登录词的理解,加强人机对话和自然语言理解的智能化水平,提高语音识别效率,提升用户使用体验。
Description
技术领域
本发明实施例涉及信息处理技术领域,特别涉及一种语音识别方法、装置。
背景技术
随着语音识别技术的不断发展,语音交互也在改变与智能设备的对话模式和提升日常应用的便捷度。语音交互过程不但需要基于声学的语音识别,还需要自然语言处理(Natural Language Process,NLP),但在NLP过程中,一旦用户的表述中出现未登录词,即各类没有被现有知识收录的专有名词(人名、地名、企业名等)、缩写词、新增词汇等,则会严重影响NLP的处理效果。
如何加快对未登录词的理解,加强人机对话和自然语言理解的智能化水平,提高语音识别效率,提升用户使用体验成为一个亟待解决的问题。
发明内容
针对现有技术中的问题,本发明提供一种语音识别方法、装置、终端设备和计算机可读存储介质。
本发明提供一种语音识别方法,其特征在于,所述方法包括:
步骤1,获取用户输入的语音指令中未识别的分词;
步骤2,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
步骤3,配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
步骤4,接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息;
步骤5,根据候选答案的属性信息,更新所述多个候选答案的优先级。
本发明还提供一种语音识别装置,其特征在于,所述装置包括:
未识别分词确定单元,获取用户输入的语音指令中未识别的分词;
答案获取单元,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
属性信息获取单元,配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
属性信息更新单元,接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息;
优先级更新单元,根据候选答案的属性信息,更新所述多个候选答案的优先级。
本发明还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
通过本发明的方法,能够提高对未登录词的理解,提高人机对话和自然语言理解的智能化水平,提升了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的一种语音识别方法。
图2是本发明一个实施例中的一种语音识别装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
实施例一
参考图1,本发明实施例一提供一种语音识别方法,其特征在于,所述方法包括:
步骤1,获取用户输入的语音指令中未识别的分词;
步骤2,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
步骤3,配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
步骤4,接收针对候选答案的第一反馈信息,基于第一反馈信息,更新所述候选答案的属性信息;
步骤5,根据候选答案的属性信息对所述多个候选答案进行优先级排序。
优选地,步骤1之前还包括
步骤01,接收用户输入的语音指令;
步骤02,对所述用户输入的语音指令进行初始语音识别,确定所述语音指令的一个或多个初始候选分词识别结果;
步骤03,判断是否有未识别的分词,如果有未识别的分词,判断该分词在所述语音指令的重要程度,如果重要,则执行步骤1.
优选地,所述步骤2还包括
步骤21,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果存在,获取第一候选识别结果集中的多个候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户,执行步骤4。
优选地,所述步骤5之后还包括
步骤6,根据所述属性信息,确定第一候选答案;
步骤7,根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果;
步骤8,向用户反馈所述语音指令的识别结果和/或执行所述语音指令。
优选地,步骤6还包括
判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,拆分所述未识别的分词为多个独立字,基于所述独立字确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集包含多个候选答案,根据置信度对所述多个候选答案进行优先级排序。
优选地,步骤7包括
根据所述反馈用户信息,确定所述用户与反馈用户之间相似度,如果所述相似度大于等于第一阈值,则根据候选答案的反馈值,确定第一候选答案。
优选地,步骤8之后还包括
步骤9,接收用户的反馈信息,所述反馈信息包含第二语音指令和/或用户情绪数据。
具体地,所述方法应用于具有语音助手或具有语音识别功能的终端,所述终端可以是移动终端,车载终端,计算机,智能家电等电子设备;所述步骤01中,可以通过终端的麦克风接收用户的语音指令。
在所述步骤02中,对所述用户输入的语音指令进行初始语音识别,确定所述语音指令包含的一个或多个音素;基于所述一个或多个音素,确定所述语音指令的一个或多个初始候选分词识别结果。
所述步骤03中判断是否有未识别的分词,如果有未识别的分词,判断该分词在所述语音指令的重要程度。在用户的语音指令中,可能出现无意义的未收录专有名词,例如,用户自创名词,但并未对语音指令的整体含义有影响,例如,用户发出语音指令,“xiangchi***daohangquxidandayuecheng”,通过步骤102中的初始语音识别得到初始候选分词识别结果“想吃,***,导航,去,西单大悦城”,其中“***”作为未识别的分词,在步骤103中判断该未识别的分词对用户语音指令的意图并不重要,如果此时,反馈一个***的可能答案,如果该答案错误,用户可能会对结果不满,但由于其意图也不是要终端理解具体要吃什么,而是设定导航路线,执行导航任务。此时,该分词在所述语音指令的重要程度为不重要,忽略该分词,基于其他分词的初始候选分词识别结果,构建语音指令的识别结果。如果用户发出的语音指令为“daohangqushilunkaoyuefan”,通过步骤02中的分词初始识别结果,“导航,去,shilunkao,约饭”,其中“shilunkao”为未识别的结果,根据上下文语义分析,发现该分词关系到语音指令的具体含义以及执行目的地,缺少该分词将导致语音指令的无法识别以及无法执行。因此,该未识别分词的重要程度为重要。
在步骤04,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果存在,获取候选识别结果集中的多个候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
具体地,使用同一或不同的语音识别应用的用户可共用语音识别的识别模型以及多个语料数据库,可存储用户的使用记录,以根据用户的反馈训练识别模型和语料数据库;
具体地步骤1中获取用户输入的语音指令中未识别的分词;
例如用户A使用语音助手时,输入语音指令“xianzaiqushilunkao”,语音指令包含“shilunkao”未被识别,则“shilunkao”为未识别的分词。
具体地步骤2中判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
所述步骤2中确定所述未识别的分词的第一候选识别结果集还包括
拆分所述未识别的分词为多个独立字,基于所述独立字确定所述未识别的分词的第一候选识别结果集。
例如系统中尚无用户输入过“shilunkao”,显然此时,识别模型以及语料数据库不存在针对该未识别的分词的第一候选识别结果集,此时拆分所述未识别的分词为多个独立字,例如上述“shilunkao”可以被拆分为“shi”、“lun”、“kao”、,或者“shi”、“lun”、“ka”、“o”,基于所述独立字确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集包含多个候选答案,例如:时论考、诗论考,食论烤,时论烤,什伦卡欧……,根据置信度对所述多个候选答案进行优先级排序,例如基于语音指令上下文,或者基于采集的语音指令外的对话、用户最近的检索信息,或者用户当前打开的应用,确定候选答案置信度,对候选答案进行排序:食论烤,时论烤、时论考、诗论考,什伦卡欧。
步骤3中配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户,具体包括
为所述每一候选答案配置一个属性信息,存储候选答案与属性信息的映射关系;所述属性信息包含候选答案的反馈值以及候选答案的反馈用户,其中,候选答案的反馈值包括对候选答案的正向反馈值和负向反馈值,候选答案的反馈用户包括对该候选答案给出正向反馈和负向反馈的用户。
初始状态时所述属性信息为{0,null,0,null},即当前尚无用户反馈。
具体地,步骤4,接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息可包括
接收用户的第一反馈信息,所述第一反馈信息包含第二语音指令和/或用户情绪数据。
例如,当候选答案中尚未存在反馈信息时,先向用户反馈的优选识别结果为排位第一的答案“食论烤”。用户针对该结果可提供第一反馈信息,例如,在向用户反馈识别结果和/或执行所述语音指令的同时,采集用户是否进行再次语音输入,或者通过图像传感器,例如摄像头等采集用户表情和/或肢体姿势;确定用户对本次识别结果是否认同,如果用户对本次识别结果不认同,则认为针对该未识别分词的候选答案错误,此时,基于用户的反馈,对候选集中的候选答案进行属性标记,例如,登记反馈值-1,以及用户A的ID。
例如,用户A反馈该答案不可信,此时,食论烤的属性信息为{-1,用户A,0,null},其中,-1表示负向反馈,+1表示正向反馈,即用户A登记反馈值-1,无反馈该答案为正确的用户;
由此,系统中保存并维护所述未识别分词的第一候选识别结果集。
后续如果存在用户C反馈该答案可信,则可标记属性信息为{-1,用户A,+1,用户C}。当存在多个用户反馈时,例如另一候选答案a,用户A、用户D反馈该答案可信,用户C、用户E反馈答案不可信,则其属性信息为{-2,用户A、用户D,+2,用户C、用户E}。
具体地,步骤5,根据候选答案的属性信息对所述多个候选答案进行优先级排序包括
基于属性信息对候选答案进行优先级排序,首先基于总反馈值进行大小排序,总反馈值大的对应的优先级高,总反馈值相同的,按照正向反馈值的大小进行局部二次排序,正向反馈值大的对应的优先级高。
优选地,可以对属性信息设置分数S1,S1=C1*(P+N)+C2*P;其中P为正向反馈值,N为负向反馈值,C1,C2为权重因子。
具体地,步骤3还可以包括
创建候选答案评分表,所述评分表包含未识别分词,反馈数,候选答案,候选答案计分等参数。每一未识别分词具有一反馈数,未识别分词对应多个候选答案,每一候选答案具有一候选答案计分。
优选地,通过征集多人投票的方式获取对候选答案的第二反馈信息,记录反馈数,并对反馈的候选答案计分。
例如,将未识别的分词作为用户登录个人账户时语音验证码的一部分,接收用户输入并提交的反馈信息,当接收到用户提交的验证码结果,则将候选答案评分表中的反馈数增加1,如,播放语音“womenshishilunkao”,接收用户输入相应的验证码结果,此时将反馈数计增加1,当用户输入的第一部分验证结果与系统预设的该部分验证答案匹配,则认为验证通过,此时也获取了用户针对未识别分词的第二部分验证结果,将该第二部分验证结果与候选答案相匹配,如果存在相匹配的候选答案,则在候选答案评分表对该候选答案计分增加1。
优选地,可以在判断验证通过后,对反馈数增加1,从而避免无效反馈,例如接收用户输入相应的验证码结果,当用户输入的第一部分验证结果与系统预设的该部分验证答案匹配,则认为验证通过,此时将反馈数计增加1,由于此时也获取了用户针对未识别分词的第二部分验证结果,将该第二部分验证结果与候选答案相匹配,如果存在相匹配的候选答案,则在候选答案评分表对该候选答案计分增加1。
优选地,如果用户输入的第二部分验证结果未在候选答案中,则将该部分验证结果补入候选识别结果集作为一候选答案,并将该候选答案的属性信息中的正向反馈值+1,并填入该反馈用户ID。
优选地,针对在前出现的用户反馈答案不一致的情况,即正向反馈和负向反馈同时存在的候选答案,如正向反馈值和负向反馈值均不为0的候选答案,通过征集多人投票的方式获取对候选答案的进一步反馈,例如将未识别的分词作为用户登录个人账户时语音验证码的一部分,以提供选择的方式,将正向反馈值和负向反馈值均不为0的候选答案作为验证码候选结果的一部分供用户选择,当接收到用户提交的的验证码结果,则将候选答案评分表中的反馈数增加1,如,播放语音“womenshi shilunkao”,接收用户选择的验证码结果,此时将反馈数计增加1,当用户输入的第一部分验证结果与系统预设的该部分验证答案匹配,则认为验证通过,此时也获取了用户针对未识别分词的第二部分验证结果,将该第二部分验证结果与候选答案进行匹配,在候选答案评分表对对应的候选答案计分增加1。同时将该候选答案的属性信息中的正向反馈值+1,并填入该反馈用户ID。类似地,也可以在判断验证通过后,对反馈数增加1,从而避免无效反馈,例如接收用户选择的验证码结果,当用户输入的第一部分验证结果与系统预设的该部分验证答案匹配,则认为验证通过,此时将反馈数计增加1,由于此时也获取了用户针对未识别分词的第二部分验证结果,将该第二部分验证结果与候选答案进行匹配,在候选答案评分表对对应的候选答案计分增加1。同时将该候选答案的属性信息中的正向反馈值+1,并填入该反馈用户ID。
进而,如果用户B在输入的语音指令中也包含“shilunkao”,此时,无需再进行拆分处理单字识别,构建第一候选识别结果集的过程,而是直接获取第一候选识别结果集,进而获取所述第一候选识别结果集中的多个候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户。
在所述步骤6中,如果第一候选识别结果集中排序首位的候选答案属性信息中正向反馈值和负向反馈值均为0,反馈用户为空,则,提供该候选答案作为第一候选答案。
此外,当属性信息中反馈用户不为空时,在所述步骤6中,根据所述反馈用户信息,确定所述用户与反馈用户之间相似度,如果所述相似度大于等于第一阈值,则根据候选答案的属性信息中所述反馈用户的反馈值,确定第一候选答案,即根据所述反馈用户给出的是正反馈还是负反馈,确定第一候选答案。
具体地,假设用户X为候选答案i的属性信息中正向反馈的用户,例如在前的用户C、用户E;用户Y为候选答案i的属性信息中负向反馈的用户,例如在前的用户A、用户D;对用户相似度的计算,可以基于云端大数据统计,例如用户X、Y和用户B兴趣点的相似度,用户X、Y和用户B地理位置的相似度,用户X,Y和用户B籍贯的相似度等,当所述相似度大于等于第一阈值时,可以认为用户X、Y和用户B表述的分词相同,此时,根据属性信息中用户X、Y的反馈值如+1(正向)、-1(负向),确定候选答案i可能是或可能不是用户B表述的分词真正含义,如果用户B与候选答案i的属性信息中用户X的相似度大于等于第一阈值,由于此时用户X的反馈值为正向,则将候选答案i作为提供给用户B的第一候选答案。如果用户B与候选答案i的属性信息中用户Y的相似度大于等于第一阈值,由于此时用户Y的反馈值为负向,排除候选答案i,将其他候选答案中排序最高,即在其他候选答案中具有最高优先级的候选答案作为第一候选答案。
在所述步骤7中,根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果。
具体地,例如在前用户B使用语音助手时,输入语音指令“daohangqu shilunkaoyuefan”,根据第一候选答案“时论烤”以及所述初始候选分词识别“导航”、“去”、“约饭”,构建语音指令的识别结果:导航/去/时论烤/约饭。
在所述步骤8中,向用户反馈所述语音指令的识别结果和/或执行所述语音指令。
具体地,向用户反馈识别结果:是需要导航去时论烤么?
可以在反馈识别结果的同时或之后,执行语音指令;或者直接执行语音指令,例如直接进入导航应用,将导航目的地设置为时论烤。
在所述步骤4中,接收用户的第一反馈信息,所述反馈信息包含第二语音指令和/或用户情绪数据。
监测用户反馈,例如接收用户的第二语音指令,所述第二语音指令指示用户表达的对答案的认可度,如对或不对,或者所述第二语音指令为重复的指令;如果用户表达认可,则认为识别结果正确,如果用户表达不对,或者重复,则认为用户不认可该识别结果;或者采集用户的情绪数据,例如,通过图像传感器,或其他人体可穿戴设备,判断用户时处于认可,满意,或不开心、愤怒,如果用户情绪为不开心或愤怒,则认为用户不认可该识别结果;如果用户情绪为认可,满意,则认为识别结果正确,或者用户无反应,例如2秒内,无反馈,默认识别结果正确。
此外,在用户反馈识别结果不正确时,可主动向用户提问未识别分词的含义,基于用户修正的答案,补充第一候选识别结果集,并基于该修正的答案更新其属性信息,例如将该修正的答案的属性信息中正反馈值+1,并记录用户ID。
基于候选答案评分表,对候选答案进行评分,例如分数S2=sumx/sumy,其中sumx为候选答案计分,sumy为候选答案对应的未识别分词的反馈数。当分数S2大于等于一预定置信阈值时,例如80%,则该答案可信,可以予以采纳。因而确定候选答案为针对该未识别分词的专有名词,此时,可以将其收录至专有名词库,从而优选语音识别,提高人机对话和自然语言理解NLP的智能化水平。
通过本发明的方法,能够加快对未登录词的理解,加强人机对话和自然语言理解的智能化水平,提高语音识别效率,提升用户使用体验。
实施例二
参考图2,本发明实施例二还提供一种语音识别装置,其特征在于,所述装置包括:
未识别分词确定单元,获取用户输入的语音指令中未识别的分词;
答案获取单元,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
属性信息获取单元,配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
属性信息更新单元,接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息;
优先级更新单元,根据候选答案的属性信息,更新所述多个候选答案的优先级。
优选地,所述答案获取单元还用于
拆分所述未识别的分词为多个独立字,基于所述独立字确定所述未识别的分词的第一候选识别结果集。
优选地,所述属性信息获取单元还用于
为所述每一候选答案配置一个属性信息,存储候选答案与属性信息的映射关系;其中,候选答案的反馈值包括对候选答案的正向反馈值和负向反馈值,候选答案的反馈用户包括对该候选答案给出正向反馈和负向反馈的用户。
优选地,装置还包括
输入单元,接收用户输入的语音指令;
优选地,所述输入单元还用于接收用户的第一反馈信息,所述反馈信息包含第二语音指令和/或用户情绪数据。
优选地,装置还包括
答案评分单元,创建候选答案评分表,所述评分表包含多个参数,所述参数包括未识别分词,反馈数,候选答案,以及候选答案计分。
优选地,装置还包括
接口单元,接收第二反馈信息,
所述属性信息更新单元还用于,基于所述第二反馈信息更新候选答案的属性信息;
所述答案评分单元还用于,基于所述第二反馈信息更新候选答案评分表。
优选地,装置还包括
初始识别单元,对所述用户输入的语音指令进行初始语音识别,确定所述语音指令的一个或多个初始候选分词识别结果;
词性判断单元,判断是否有未识别的分词,如果有未识别的分词,判断该分词在所述语音指令的重要程度,如果重要,则触发答案获取单元;
答案确定单元,根据所述属性信息,确定第一候选答案;
结果生成单元,根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果;
输出单元,向用户反馈所述语音指令的识别结果和/或执行所述语音指令。
优选地,所述装置的答案获取单元还用于,
判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果存在,获取候选识别结果集中的多个候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
优选地,所述词性判断单元还用于,如果不重要,则忽略该分词;
所述结果生成单元还用于,基于其他分词的初始候选分词识别结果,构建语音指令的识别结果。
优选地,所述答案获取单元,还用于
判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,拆分所述未识别的分词为多个独立字,基于所述独立字确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集包含多个候选答案,根据置信度对所述多个候选答案进行优先级排序。
优选地,所述答案确定单元,还用于
根据所述反馈用户信息,确定所述用户与反馈用户之间相似度,如果所述相似度大于等于第一阈值,则根据候选答案的属性信息中所述反馈用户的反馈值,确定第一候选答案。
通过本发明的装置,能够加快对未登录词的理解,加强人机对话和自然语言理解的智能化水平,提高语音识别效率,提升用户使用体验。
本发明还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种语音识别方法,其特征在于,所述方法包括:
步骤1,获取用户输入的语音指令中未识别的分词;
步骤2,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
步骤3,配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
步骤4,接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息;
步骤5,根据候选答案的属性信息,更新所述多个候选答案的优先级。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中确定所述未识别的分词的第一候选识别结果集还包括
拆分所述未识别的分词为多个独立字,基于所述独立字确定所述未识别的分词的第一候选识别结果集。
3.根据权利要求1所述的方法,其特征在于,步骤3包括
为所述每一候选答案配置一个属性信息,存储候选答案与属性信息的映射关系;其中,候选答案的反馈值包括对候选答案的正向反馈值和负向反馈值,候选答案的反馈用户包括对该候选答案给出正向反馈和负向反馈的用户。
4.根据权利要求1所述的方法,其特征在于,步骤4包括
接收用户的第一反馈信息,所述第一反馈信息包含第二语音指令和/或用户情绪数据。
5.根据权利要求1所述的方法,其特征在于,步骤3还包括
创建候选答案评分表,所述评分表包含多个参数,所述参数包括未识别分词,反馈数,候选答案,以及候选答案计分。
6.根据权利要求5所述的方法,其特征在于,步骤4还包括
接收第二反馈信息,基于所述第二反馈信息更新候选答案评分表以及候选答案的属性信息。
7.一种语音识别装置,其特征在于,所述方法包括:
未识别分词确定单元,获取用户输入的语音指令中未识别的分词;
答案获取单元,判断是否已存在针对所述未识别的分词的第一候选识别结果集,如果不存在,确定所述未识别的分词的第一候选识别结果集,所述第一候选识别结果集中包含多个候选答案;
属性信息获取单元,配置所述候选答案的属性信息,所述属性信息包括候选答案的反馈值和/或反馈用户;
属性信息更新单元,接收针对候选答案的第一反馈信息;基于第一反馈信息,更新所述候选答案的属性信息;
优先级更新单元,根据候选答案的属性信息,更新所述多个候选答案的优先级。
8.根据权利要求7所述的装置,其特征在于,所述答案获取单元还用于
拆分所述未识别的分词为多个独立字,基于所述独立字确定所述未识别的分词的第一候选识别结果集。
9.根据权利要求7所述的装置,其特征在于,所述属性信息获取单元还用于
为所述每一候选答案配置一个属性信息,存储候选答案与属性信息的映射关系;其中,候选答案的反馈值包括对候选答案的正向反馈值和负向反馈值,候选答案的反馈用户包括对该候选答案给出正向反馈和负向反馈的用户。
10.根据权利要求7所述的装置,其特征在于,装置还包括输入单元
接收用户的第一反馈信息,所述第一反馈信息包含第二语音指令和/或用户情绪数据。
11.根据权利要求7所述的装置,其特征在于,装置还包括答案评分单元创建候选答案评分表,所述评分表包含多个参数,所述参数包括未识别分词,反馈数,候选答案,以及候选答案计分。
12.根据权利要求11所述的装置,其特征在于,装置还包括
接口单元,接收第二反馈信息,
所述属性信息更新单元还用于,基于所述第二反馈信息更新候选答案的属性信息;
所述答案评分单元还用于,基于所述第二反馈信息更新候选答案评分表。
13.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913833.XA CN110675871B (zh) | 2019-09-25 | 2019-09-25 | 一种语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910913833.XA CN110675871B (zh) | 2019-09-25 | 2019-09-25 | 一种语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110675871A true CN110675871A (zh) | 2020-01-10 |
CN110675871B CN110675871B (zh) | 2021-03-05 |
Family
ID=69079020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910913833.XA Active CN110675871B (zh) | 2019-09-25 | 2019-09-25 | 一种语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675871B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111273990A (zh) * | 2020-01-21 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息交互方法、装置、计算机设备和存储介质 |
CN112151035A (zh) * | 2020-10-14 | 2020-12-29 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、电子设备及可读存储介质 |
CN112199470A (zh) * | 2020-10-09 | 2021-01-08 | 康佳集团股份有限公司 | 一种基于会话的客诉服务方法、智能终端及存储介质 |
CN112509690A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于控制质量的方法、装置、设备和存储介质 |
CN113223500A (zh) * | 2021-04-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法、训练语音识别模型的方法及对应装置 |
CN114242045A (zh) * | 2021-12-20 | 2022-03-25 | 山东科技大学 | 一种自然语言对话系统意图深度学习方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103489453A (zh) * | 2013-06-28 | 2014-01-01 | 陆蔚华 | 基于声学参数的产品情感量化方法 |
CN104062910A (zh) * | 2013-03-19 | 2014-09-24 | 海尔集团公司 | 命令生成装置、设备的智能控制方法和系统 |
US20140297281A1 (en) * | 2013-03-28 | 2014-10-02 | Fujitsu Limited | Speech processing method, device and system |
JP2016151718A (ja) * | 2015-02-19 | 2016-08-22 | 雅弘 渡邉 | 簡易通訳装置 |
US20170154264A1 (en) * | 2015-11-30 | 2017-06-01 | International Business Machines Corporation | Autonomous collaboration agent for meetings |
CN107135247A (zh) * | 2017-02-16 | 2017-09-05 | 江苏南大电子信息技术股份有限公司 | 一种人与人工智能协同工作的服务系统及方法 |
CN107832035A (zh) * | 2017-11-13 | 2018-03-23 | 赵桂银 | 一种智能终端的语音输入方法 |
CN107895572A (zh) * | 2016-09-30 | 2018-04-10 | 法乐第(北京)网络科技有限公司 | 一种语音识别训练方法及系统 |
US20180277133A1 (en) * | 2015-11-20 | 2018-09-27 | Synaptics Incorporated | Input/output mode control for audio processing |
CN108766416A (zh) * | 2018-04-26 | 2018-11-06 | Oppo广东移动通信有限公司 | 语音识别方法及相关产品 |
CN109313900A (zh) * | 2016-06-15 | 2019-02-05 | 索尼公司 | 信息处理设备和信息处理方法 |
US20190108493A1 (en) * | 2017-10-09 | 2019-04-11 | Ricoh Company, Ltd. | Attendance Tracking, Presentation Files, Meeting Services and Agenda Extraction for Interactive Whiteboard Appliances |
CN109727092A (zh) * | 2018-12-15 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 基于ai的产品推荐方法、装置、计算机设备及存储介质 |
CN109791767A (zh) * | 2016-09-30 | 2019-05-21 | 罗伯特·博世有限公司 | 用于语音识别的系统和方法 |
CN109949816A (zh) * | 2019-02-14 | 2019-06-28 | 安徽云之迹信息技术有限公司 | 机器人语音处理方法及装置、云端服务器 |
CN110019745A (zh) * | 2017-10-26 | 2019-07-16 | 株式会社日立制作所 | 具有自学习自然语言理解的对话系统 |
-
2019
- 2019-09-25 CN CN201910913833.XA patent/CN110675871B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104062910A (zh) * | 2013-03-19 | 2014-09-24 | 海尔集团公司 | 命令生成装置、设备的智能控制方法和系统 |
US20140297281A1 (en) * | 2013-03-28 | 2014-10-02 | Fujitsu Limited | Speech processing method, device and system |
CN103489453A (zh) * | 2013-06-28 | 2014-01-01 | 陆蔚华 | 基于声学参数的产品情感量化方法 |
JP2016151718A (ja) * | 2015-02-19 | 2016-08-22 | 雅弘 渡邉 | 簡易通訳装置 |
US20180277133A1 (en) * | 2015-11-20 | 2018-09-27 | Synaptics Incorporated | Input/output mode control for audio processing |
US20170154264A1 (en) * | 2015-11-30 | 2017-06-01 | International Business Machines Corporation | Autonomous collaboration agent for meetings |
CN109313900A (zh) * | 2016-06-15 | 2019-02-05 | 索尼公司 | 信息处理设备和信息处理方法 |
CN107895572A (zh) * | 2016-09-30 | 2018-04-10 | 法乐第(北京)网络科技有限公司 | 一种语音识别训练方法及系统 |
CN109791767A (zh) * | 2016-09-30 | 2019-05-21 | 罗伯特·博世有限公司 | 用于语音识别的系统和方法 |
CN107135247A (zh) * | 2017-02-16 | 2017-09-05 | 江苏南大电子信息技术股份有限公司 | 一种人与人工智能协同工作的服务系统及方法 |
US20190108493A1 (en) * | 2017-10-09 | 2019-04-11 | Ricoh Company, Ltd. | Attendance Tracking, Presentation Files, Meeting Services and Agenda Extraction for Interactive Whiteboard Appliances |
CN110019745A (zh) * | 2017-10-26 | 2019-07-16 | 株式会社日立制作所 | 具有自学习自然语言理解的对话系统 |
CN107832035A (zh) * | 2017-11-13 | 2018-03-23 | 赵桂银 | 一种智能终端的语音输入方法 |
CN108766416A (zh) * | 2018-04-26 | 2018-11-06 | Oppo广东移动通信有限公司 | 语音识别方法及相关产品 |
CN109727092A (zh) * | 2018-12-15 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 基于ai的产品推荐方法、装置、计算机设备及存储介质 |
CN109949816A (zh) * | 2019-02-14 | 2019-06-28 | 安徽云之迹信息技术有限公司 | 机器人语音处理方法及装置、云端服务器 |
Non-Patent Citations (3)
Title |
---|
S.ROJATHAI: ""Noise robust tamil speech word recognition system by means of PACfeatures with ANFIS"", 《2014 IEEE/ACIS 》 * |
刘一诚: ""垂直领域问答系统的研究与实现"", 《中国优秀硕士学位论文全文数据库》 * |
张长: ""金融知识自动问答中的新词发现及答案排序方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111273990A (zh) * | 2020-01-21 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息交互方法、装置、计算机设备和存储介质 |
CN112199470A (zh) * | 2020-10-09 | 2021-01-08 | 康佳集团股份有限公司 | 一种基于会话的客诉服务方法、智能终端及存储介质 |
CN112199470B (zh) * | 2020-10-09 | 2023-12-05 | 康佳集团股份有限公司 | 一种基于会话的客诉服务方法、智能终端及存储介质 |
CN112151035A (zh) * | 2020-10-14 | 2020-12-29 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、电子设备及可读存储介质 |
CN112151035B (zh) * | 2020-10-14 | 2023-08-11 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、电子设备及可读存储介质 |
CN112509690A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于控制质量的方法、装置、设备和存储介质 |
CN112509690B (zh) * | 2020-11-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于控制质量的方法、装置、设备和存储介质 |
US12032906B2 (en) | 2020-11-30 | 2024-07-09 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus and device for quality control and storage medium |
CN113223500A (zh) * | 2021-04-12 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法、训练语音识别模型的方法及对应装置 |
CN113223500B (zh) * | 2021-04-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 语音识别方法、训练语音识别模型的方法及对应装置 |
CN114242045A (zh) * | 2021-12-20 | 2022-03-25 | 山东科技大学 | 一种自然语言对话系统意图深度学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110675871B (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675871B (zh) | 一种语音识别方法及装置 | |
US10977452B2 (en) | Multi-lingual virtual personal assistant | |
CN110473543B (zh) | 一种语音识别方法、装置 | |
CN106548773B (zh) | 基于人工智能的儿童用户搜索方法及装置 | |
US11704501B2 (en) | Providing a response in a session | |
US7925506B2 (en) | Speech recognition accuracy via concept to keyword mapping | |
EP1800294B1 (en) | System and methods for improving accuracy of speech recognition | |
CN111984766B (zh) | 缺失语义补全方法及装置 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
CN108733650B (zh) | 个性化词获取方法及装置 | |
US11790897B2 (en) | Response generation for conversational computing interface | |
CN106446018B (zh) | 基于人工智能的查询信息处理方法和装置 | |
CN113468894B (zh) | 对话交互方法及装置、电子设备和计算机可读存储介质 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110580516A (zh) | 一种基于智能机器人的交互方法及装置 | |
CN115410572A (zh) | 语音交互方法、装置、终端、存储介质及程序产品 | |
CN114676259A (zh) | 一种基于因果感知交互网络的对话情绪识别方法 | |
CN111444321A (zh) | 问答方法、装置、电子设备和存储介质 | |
CN113539235B (zh) | 文本分析与语音合成方法、装置、系统及存储介质 | |
CN110727773B (zh) | 信息提供方法及装置 | |
CN113539234A (zh) | 语音合成方法、装置、系统及存储介质 | |
Sicilia et al. | ISABEL: An Inclusive and Collaborative Task-Oriented Dialogue System | |
US12099908B2 (en) | Updating training examples for artificial intelligence | |
CN117349410A (zh) | 对话意图识别方法、装置及计算机可读存储介质 | |
CN118551770A (zh) | 一种知识图谱生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240609 Address after: Room 203, No. 17, Lane 595, Pudong South Road, Pudong New Area, Shanghai, 200000 Patentee after: Ren Weijun Country or region after: China Address before: Room 401, gate 2, block a, Zhongguancun 768 Creative Industry Park, 5 Xueyuan Road, Haidian District, Beijing 100083 Patentee before: BEIJING MORAN COGNITIVE TECHNOLOGY Co.,Ltd. Country or region before: China |
|
TR01 | Transfer of patent right |