CN110838284A - 一种语音识别结果的处理方法、装置和计算机设备 - Google Patents
一种语音识别结果的处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN110838284A CN110838284A CN201911133695.XA CN201911133695A CN110838284A CN 110838284 A CN110838284 A CN 110838284A CN 201911133695 A CN201911133695 A CN 201911133695A CN 110838284 A CN110838284 A CN 110838284A
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- result
- type
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 title claims abstract description 40
- 230000003993 interaction Effects 0.000 claims description 72
- 238000013518 transcription Methods 0.000 claims description 60
- 230000035897 transcription Effects 0.000 claims description 60
- 230000000694 effects Effects 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012552 review Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 15
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000003672 processing method Methods 0.000 description 6
- 238000002156 mixing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别结果的处理方法、装置和计算机设备。该方法包括:获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;根据所述标记类型对所述语音识别结果进行标记处理。通过本发明实施例的技术方案,可以实现自动对语音识别结果进行标注,提高语音识别错误结果的筛选效率。
Description
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种语音识别结果的处理方法、装置和计算机设备。
背景技术
语音识别系统在日常生活中得到了越来越多的应用。语音识别系统可以对用户发出的语音指令进行处理,并向用户返回一定的处理结果。语音识别系统利用机器识别技术进行语音识别,难免识别错误的情况。
识别错误情况的出现主要是因为目前语音识别系统在ASR(Automatic SpeechRecognition,语音识别)技术和NLU(Natural Language Understanding,自然语言理解)技术上存在瓶颈,无法达到对用户语音指令有较高的理解准确性。因此,需要将向用户返回结果错误的情况识别出来,进行正确的标注,并将进行正确标注后的结果和用户指令补充到ASR和NLU的训练集中,以提高识别准确率。但现有技术中对返回结果错误的识别过程主要依靠人工完成,需要对用户的语音指令逐条听取,筛选出识别错误的部分,这种人工筛选的方法投入的成本过高,错误结果的筛选效率低下。
发明内容
本发明实施例提供一种语音识别结果的处理方法、装置和计算机设备,以提高语音识别错误结果的筛选效率。
第一方面,本发明实施例提供了一种语音识别结果的处理方法,该方法包括:
获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;
根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;
根据所述标记类型对所述语音识别结果进行标记处理。
第二方面,本发明实施例还提供了一种语音识别结果的处理装置,该装置包括:
语音识别关联数据获取模块,用于获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;
标记类型确定模块,用于根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;
标记处理模块,用于根据所述标记类型对所述语音识别结果进行标记处理。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如本实施例中任一所述的语音识别结果的处理方法。
本发明实施例通过获取用户语音指令和识别结果,并根据用户语音指令、识别结果、用户累积语音活跃次数或用户闲聊次数确定语音识别结果的标记类型,以对语音识别结果进行标记,解决了现有技术中人工标注方式存在的成本高及效率低等问题,实现了自动对语音识别的错误结果进行标注,提高了对语音识别错误结果的筛选效率。
附图说明
图1是本发明实施例一中的一种语音识别结果的处理方法的流程图;
图2是本发明实施例二中的一种语音识别结果的处理方法的流程图;
图3是本发明实施例三中的一种语音识别结果的处理方法的流程图;
图4是本发明实施例四中的一种语音识别结果的处理装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种语音识别结果的处理方法的流程图,本实施例可适用于对语音识别结果进行自动标注的情况,该方法可以由语音识别结果的处理装置来执行,该装置可以由软件和/硬件实现,并一般集成在计算机设备中,具体包括如下步骤:
S110、获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果。
其中,所述语音识别结果包括语音转写结果和/或语义理解结果。
语音识别关联数据可以是用于对语音识别结果进行识别的关联数据,示例性的,语音识别关联数据可以包括用户发出的用户语音指令,以及语音识别系统根据用户语音指令,向用户返回的语音识别结果。语音识别结果可以包括ASR (Automatic SpeechRecognition,自动语音识别)结果和/或NLU(Natural language understanding,自然语言理解)结果。ASR结果也即语音转写结果,是指系统将用户输入的语音指令转换成的文字结果。NLU结果也即语义理解结果,是对语音转写结果的意图识别和实体提取。语义理解结果的结构包括: Domain(领域)、Intent(意图)和Slot(槽位)。Domain即为NLU的语义分类,Intent为NLU的语义动作。在一个具体的例子中,语义理解结果为“我想吃火锅”,则Domain为餐厅,Intent为就餐,Slot为火锅。
本发明实施例的技术方案,是对语音识别系统中语音识别结果错误的部分进行标注,因此,可以将用户语音指令和语音识别结果同时作为识别对象。当用户向系统发出用户语音指令,系统由于各种原因未返回结果的情况,本发明实施例不予考虑。同时,由于网络迟延等原因,有可能会出现系统给出了语音转写结果但未给出语义理解结果的情况,因此本发明实施例对语音识别结果所包含的种类不进行限制。
S120、根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数。
其中,语音关联因素可以包括语音识别关联数据,也即,可以根据用户语音指令和语音识别结果确定标记类型。用户向系统发送语音指令,系统向用户返回识别结果,此为单次交互。在一个具体的例子中,用户向语音识别系统发送用户语音指令“打开手电筒”,系统将用户语音指令转换为文字“打开手电筒”,并回复用户“手电筒已打开”,此过程为单次交互的过程。在对语音识别结果确定标记类型时,可以以单次交互的用户语音指令和语音识别结果,也即语音识别关联数据作为语音关联因素,来确定标记类型。
其中,用户累积语音活跃次数可以是用户在设定时间段内与语音识别系统之间单次交互的次数。设定时间段可以是根据实际需求所设定的时间段,如每隔一周或每隔一个月等,本发明实施例并不对设定时间段的具体时间设定进行限制。
相应的,当语音关联因素包括用户累积语音活跃次数时,可以结合用户在设定时间段内与语音识别系统之间单次交互的次数确定标记类型。在一个具体的例子中,从用户首次使用语音识别系统之后的三个月内,用户与系统之间共计进行了100次单次交互,则用户累积语音活跃次数为100次。
其中,用户闲聊次数可以是用户在设定时间段内与语音识别系统之间的单次交互中语义理解领域为闲聊的次数。同样的,设定时间段可以是根据实际需求所设定的时间段,如每隔一周或每隔一个月等,本发明实施例并不对设定时间段的具体时间设定进行限制。
相应的,当语音关联因素包含用户闲聊次数时,可以结合用户在设定时间段内与语音识别系统之间的单次交互中语义理解领域为闲聊的次数,来确定标记类型。可选的,可以将闲聊定义为用户向系统发送用户语音指令,系统无需调用第三方应用或系统即可对用户进行响应。本发明实施例对闲聊的具体定义并不进行限制。
S130、根据所述标记类型对所述语音识别结果进行标记处理。
其中,所述标记类型可以包括语音转写错误类型、语义理解错误类型以及混合错误类型;所述混合错误类型可以包括语音转写错误类型以及语义理解错误类型。
其中,语音转写错误类型可以是语音识别系统在将用户语音指令转换成文字的过程中出现错误的类型;语义理解错误类型可以是语音识别系统将用户语音指令转换成文字的过程是正确的,但对用户语音指令进行理解时出现错误的类型;混合错误类型则可以同时包括两种错误类型。
相应的,当根据不同的语音关联因素,确定好标记类型之后,即可利用确定的标记类型对语音识别结果进行标记。
本实施例的技术方案通过获取用户语音指令和语音识别结果,并根据用户语音指令、语音识别结果、用户累积语音活跃次数或用户闲聊次数确定语音识别结果的标记类型,以对语音识别结果进行标记,解决了现有技术中对语音识别的错误结果进行人工标注的成本高、效率低的问题,实现了自动对语音识别的错误结果进行标注,提高了对语音识别错误结果的筛选效率。
实施例二
图2是本发明实施例二中的一种语音识别结果的处理方法的流程图,本实施例的技术方案在上述实施例的基础上,对语音识别关联数据为单次交互的语音识别关联数据时,根据语音关联因素确定标记类型的步骤进行了进一步的具体化。将“根据语音关联因素确定标记类型”优化为“如果确定所述用户语音指令的指令发出时间满足第一标记条件,且所述语音转写结果满足第二标记条件,则确定所述标记类型为所述混合错误类型”和“如果确定所述用户语音指令的指令发出时间满足第一标记条件,且所述语义理解结果满足第三标记条件,则确定所述标记类型为所述语义理解错误类型”,具体步骤包括:
S210、获取语音识别关联数据。
其中,所述语音识别关联数据包括用户语音指令和语音识别结果。
其中,语音识别关联数据为单次交互的语音识别关联数据,所述语音识别结果包括所述语音转写结果和/或语义理解结果。
本实施例在上述实施例的基础上,对语音识别关联数据为单次交互的语音识别关联数据时,根据语音关联因素确定标记类型的步骤进行了进一步的具体化。因此,可以将单次交互的用户语音指令和语音识别结果作为语音识别关联数据。
S220、判断所述用户语音指令的指令发出时间是否满足第一标记条件,如果是,执行S230,否则执行S2130。
其中,第一标记条件可以是当前用户语音指令的指令发出时间与下次用户语音指令的指令发出时间的时间差在预设时间范围内。其中,预设时间范围可以根据实际需求设定,如5S或10S等,本发明实施例对此并不进行限制。相应的,所述用户语音指令的指令发出时间满足第一标记条件,可以包括:用户发出用户语音指令,系统返回识别结果后,用户在预设时间范围内又发出用户语音指令,进行下次交互。
S230、判断所述语音转写结果是否满足第二标记条件。如果是,则执行S240;否则,执行S250。
在本发明的一个可选实施例中,所述确定语音转写结果满足第二标记条件可以包括:如果所述语音转写结果与下次交互的语音转写结果之间的编辑距离小于预设经验参数,则确定所述语音转写结果满足第二标记条件;或者,如果所述下次交互的语音转写结果对应的用户语音指令为负向指令,则确定所述语音转写结果满足第二标记条件。
其中,编辑距离可以是针对二个字符串的差异程度的量化量测值,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离越小,两个文本的相似性越大。预设经验参数可以为一个预设阈值,具体可以根据实际需求设定,本发明实施例对此并不进行限制。
具体的,当本次交互语音转写结果与下次交互的语音转写结果之间,编辑距离小于预设经验参数时,表明本次交互与下次交互的语音转写结果相似度较高。当用户在单次交互后,短时间内又发出指令,并且本次交互与下次交互的用户指令语音转写结果相似度很高,说明本次交互的识别结果可能出现错误,没有达到用户的要求,可以将标记类型记为混合错误类型。
其中,负向指令可以是是指用户发出的包含“错误”、“取消”、“关闭”以及“停止”等关键字的指令。当用户在单次交互后,短时间内又发出负向指令时,说明本次交互的识别结果可能出现错误,未达到用户的要求,可以将标记类型记为混合错误类型。
S240、确定所述标记类型为所述混合错误类型。
其中,混合错误类型可以包括语音转写错误类型以及语义理解错误类型。当满足S220-S230中的条件时,也即指令发出时间满足第一标记条件,且所述语音转写结果满足第二标记条件,本次交互的识别结果可能出现错误,但尚未明确具体是语音转写过程出现错误还是语义理解过程出现错误,因此先将标记类型记为混合错误类型,以待进行后续的判断,判断具体的错误类型。
S250、判断所述语义理解结果是否满足第三标记条件。如果是,执行S260;否则,执行S270。
其中,第三标记条件可以是语义理解结果与下次交互的语义理解结果的槽位相同,且领域和/或意图不同。其中,领域又称语义分类,意图又称语义动作。
相应的,如果所述语义理解结果与下次交互的语义理解结果的槽位相同,且领域和/或意图不同,则可以确定所述语义理解结果满足第三标记条件。
具体的,当本次交互与下次交互的语义理解结果槽位相同,但语义分类和/ 或语义动作不同时,说明语义理解过程可能出现了错误,可以将标记类型确定为语义理解错误。在一个具体的例子中,本次交互的用户语音指令的语音转写结果为“我想听小苹果”,此时,槽位为“小苹果”,语义分类为“音乐”,语义动作为“听”。下次交互的用户语音指令的语音转写结果为“我想吃小苹果”,此时,槽位为“小苹果”,语义分类为“水果”,语义动作为“吃”。此时,本次交互与下次交互的槽位相同,但语义分类和语义动作不同,则说明可能在语义理解的过程中出现了错误,将语音识别结果的标记类型记为语义理解错误类型。
S260、确定所述标记类型为所述语义理解错误类型。
需要说明的是,图2仅是一种实现方式的示意图,S230-S240与S250-S260 之间并没有先后顺序,也即,可以先执行S230-S240,再执行S250-S260;也可以先执行S250-S260,再执行S230-S240。当先执行S250-S260,再执行S230-S240 时,具体的,可以先判断所述语义理解结果是否满足第三标记条件。如果满足则确定所述标记类型为所述语义理解错误类型;如果不满足,再判断所述语音转写结果是否满足第二标记条件,如果满足,则确定所述标记类型为所述混合错误类型,如果不满足,再执行S270。
S270、判断所述语义理解结果的领域是否为媒体资源领域或一次性操作领域,如果是,执行S280;否则执行S2110。
需要说明的是,步骤S220-S260的技术方案为:无论语音识别结果中的语义理解结果领域属于什么类型,只要满足一定条件,就可以对语音识别结果确定不同的标记类型,相当于对语音识别结果的标记类型进行的初步判断。相应的,可以根据初步判断结果以及语义理解结果的特定领域,对语音识别结果对应的标记类型进行进一步判断。如果语义理解结果属于特定领域,并且满足一定条件,就可以将标记类型进行更改;如果语义理解结果不属于特定领域,或虽属于特定领域,但不满足一定条件,则标记类型不变。
其中,媒体资源可以包括音频和/或视频等资源。示例性的,用户发出指令播放某歌曲,此时语义理解结果的领域为音乐,属于媒体资源中的一种,本发明实施例对媒体资源的类型不进行限制。
可以理解的是,当用户发出的语音指令的语义理解结果的领域为一次性操作领域时,如果语音识别系统返回了正确的结果,并且该结果是唯一的、不可选择的,则用户通常不会、也无必要进行下一次交互。在一个具体的示例中,用户发出用户语音指令“导航去A地”,如果系统返回了正确的去往A地的最优导航路线,在一般情况下,用户不会再发出指令“导航去B地”,因此“导航”属于上述一次性操作领域。在另一具体的示例中,用户发出用户语音指令“打电话给M”,如果语音识别系统正确拨通了M的电话,在一般情况下,用户不会再发出指令“打电话给N”,因此“打电话”属于上述一次性操作领域。在又一具体实施方式中,用户发出用户语音指令“寻找附近的川菜馆”,即使系统返回了正确的结果,用户仍可能再次发送用户语音指令“寻找附近的粤菜馆”,因此“餐馆”就不属于上述一次性操作领域。本实施例对一次性操作领域的类型并不进行限制,所有符合该领域特性的都可以被归类到其中。
S280、当语义理解结果的领域为媒体资源领域时,判断所述单次交互的语音识别关联数据是否存在匹配的第一设定操作关联数据。
其中,所述第一设定操作关联数据包括:用户继续执行语音交互操作生成的数据,或,用户对所述语义理解结果执行手动操作生成的数据。在一个具体的示例中,用户发出指令播放某歌曲后,语音识别系统响应该请求播放该歌曲,用户在设定时间内,重新发出指令,要求搜索某歌曲,则用户对所述语义理解结果执行的设定操作为:继续执行语音交互。此时,用户与语音识别系统继续执行语音交互操作生成的数据可以为第一设定操作关联数据。在另一具体示例中,用户发出指令播放某歌曲后,语音识别系统响应该请求播放该歌曲,用户在设定时间内,在语音识别系统的用户交互界面点击暂停按钮,则用户对所述语义理解结果执行的设定操作为:对所述语义理解结果执行手动操作。此时,用户对语音识别系统执行的手动操作生成的数据可以为第一设定操作关联数据。在又一具体示例中,用户发出指令播放某歌曲后,语音识别系统响应该请求播放该歌曲,用户在设定时间内,在语音识别系统的用户交互界面上点击切换歌曲,则用户对所述语义理解结果执行的设定操作为:对所述语义理解结果执行手动操作。此时,用户对语音识别系统执行的手动操作生成的数据可以为第一设定操作关联数据。本实施例对设定操作的具体类型和步骤不进行任何的限定。
可以理解的是,如果用户在与语音识别系统进行单次交互的过程中,又针对产生的语音识别结果执行了设定操作,说明本次交互中系统响应用户的语音指令而返回的识别结果中,语义理解结果中的语义动作、语义分类是正确的,但未达到用户的要求。因此可能是语音转写过程出现了错误,可以将标记类型更改为语音转写错误类型。
S290、确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型。
在本发明实施例中,当语义理解结果属于特定领域并满足一定条件时,将由S220-S260中确定的混合错误类型或语义理解错误类型的标记类型,更改为语音转写错误类型。
S2100、当所述语义理解结果的领域为一次性操作领域时,判断所述单次交互的语音识别关联数据是否存在匹配的第二设定操作关联数据。如果是,执行 S290,否则执行S2110。
其中,所述第二设定操作关联数据包括:用户对所述一次性操作领域执行语音交互操作生成的数据。示例性的,在单次交互完成后,用户针对语音识别结果向语音识别系统发出同一领域的用户语音指令,此时,用户对一次性操作领域与语音识别系统执行的语音交互操作生成的数据可以为第二设定操作关联数据。
在本发明实施例中,当语义理解结果的领域为一次性操作领域时,如果单次交互的语音识别关联数据同时存在匹配的第二设定操作关联数据,也即,用户与语音识别系统在完成单次交互后又在同一领域执行了语音交互操作,说明本次交互的识别结果很有可能出现了错误。并且,下次语音交互的领域未发生变化,说明可能是在语音转写的过程中发生的错误,因此混合错误类型或语义理解错误类型更改为语音转写错误类型。
S2110、标记类型不变。
S2120、根据所述标记类型对所述语音识别结果进行标记处理。
S2130、将标记处理数据进行存储,所述标记处理数据用于进行人工审核。
其中,标记处理数据即为带有标记类型的语音识别结果数据。
在本发明实施例中,系统将语音识别结果标记为不同的标记类型后,可以由服务器侧的工作人员对形成的标记处理数据进行进一步的筛选和判断,从而提高错误识别结果筛选的准确性。
S2140、结束。
需要说明的是,本发明实施例并不对S280与S2100中判断过程的顺序进行限定。也即,可以先执行S280的判断,也可以先执行S2100。具体的,当先执行S2100 时,先判断当语义理解结果的领域为一次性操作领域时,所述单次交互的语音识别关联数据是否存在匹配的第二设定操作关联数据。如果是,则确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型,否则确定语义理解结果的领域为媒体资源领域,并判断所述单次交互的语音识别关联数据存在匹配的第一设定操作关联数据,如果是,则确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型,否则标记类型不变,并根据所述标记类型对所述语音识别结果进行标记处理。
本实施例的技术方案,获取用户语音指令和识别结果后,进行两轮判断过程,首先无论识别结果中的语义理解结果领域属于什么类型,只要满足一定条件,就将语音识别结果对应不同的标记类型,相当于对语音识别结果的标记类型进行的初步判断。然后对于特定的语义理解结果领域,在进行一轮判断,当满足一定条件时,对标记类型进行更正,得到最终的标记类型。并将标记后的语音识别结果提供给人工审核。解决了现有技术中对语音识别结果进行人工筛选而造成的成本高、效率低的问题。可以实现自动对可能识别错误的语音识别结果进行标注,提高了筛选效率和筛选的正确率。
实施例三
图3是本发明实施例三中的一种语音识别结果的处理方法的流程图,本实施例的技术方案在上述实施例的基础上,对语音识别关联数据为设定时间区域内生成的语音识别关联数据,语音关联因素包括所述用户累积语音活跃次数或用户闲聊次数时,根据语音关联因素确定标记类型的步骤进行了进一步的具体化,将“根据语音关联因素确定标记类型”优化为“根据所述用户累积语音活跃次数和所述设定时间区域计算用户平均活跃次数;如果所述用户平均活跃次数小于第一预设阈值,则确定所述标记类型为所述混合错误类型。”和“根据所述设定时间区域内生成的语音识别结果,计算语义理解结果的领域为闲聊的用户语音指令的数量,作为所述用户闲聊次数;如果所述用户闲聊次数小于第二预设阈值,则确定所述标记类型为所述混合错误类型。”具体步骤如下:
S310、获取语音识别关联数据。
其中,所述语音识别关联数据包括用户语音指令和语音识别结果。
具体的,所述语音识别关联数据可以为设定时间区域内生成的语音识别关联数据;也即,设定时间区域内所有单次交互的用户语音指令和语音识别结果。
S320、根据用户累积语音活跃次数和设定时间区域计算用户平均活跃次数。
其中,设定时间区域可以是根据实际需求设定的时间区域,如一周、一个月或3个月等,本发明实施例并不对设定时间区域的具体内容进行限定。用户累积语音活跃次数可以为用户在设定时间段内与语音识别系统之间单次交互的次数,用户平均活跃次数可以为用户累积语音活跃次数除以设定时间天数得到的数值。
在本发明实施例中,可以根据用户累积语音活跃次数和设定时间区域计算用户平均活跃次数。
S330、判断所述用户平均活跃次数是否小于第一预设阈值。若是,执行S360;否则执行S340。
在本发明实施例中,用户平均活跃次数小于第一预设阈值时,说明用户使用语音识别系统的频率较低,可能存在识别错误造成较差用户体验的情况。因此,将用户与语音识别系统之间每次交互的语音识别结果都标记为混合错误类型,以提供给人工进行二次审核。
S340、根据所述设定时间区域内生成的语音识别结果,计算语义理解结果的领域为闲聊的用户语音指令的数量,作为所述用户闲聊次数。
在一具体示例中,可以将闲聊定义为用户向系统发送用户语音指令,系统无需调用第三方应用或系统即可对用户进行响应。但是,本实施例对闲聊的定义并不进行限制。
S350、判断所述用户闲聊次数是否小于第二预设阈值。如果是,执行S360;否则,执行S380。
其中,如果用户闲聊次数小于第二预设阈值,说明用户与语音识别系统进行闲聊的频率较低,可能存在经常性识别错误造成较差用户体验的情况。
在一具体的示例中,可以对用户与语音识别系统之间最后N次交互中的语音识别结果进行错误标注。这样设置的好处在于可以减少人工二次审核的工作量。
在另一具体的示例中,可以对用户与语音识别系统之间所有单次交互中的语音识别结果进行错误标注。这样设置的好处在于,可以使可能错误结果的范围更加扩大,可以找到更多的错误识别结果。但是,本实施例对进行错误标注的范围并不进行限制。
S360、确定标记类型为混合错误类型。
S370、将标记处理数据进行存储,所述标记处理数据用于进行人工审核。
S380、结束。
需要说明的是,图3仅是一种实现方式的示意图,S320-S330与S340-S350 之间并没有先后顺序。也即,可以先实施S320-S330,再实施S340-S350。或者,也还可以先实施S340-S350,再实施S320-S330。当先实施S340-S350,再实施S320-S330时,具体的,可以先根据所述设定时间区域内生成的语音识别结果,计算语义理解结果的领域为闲聊的用户语音指令的数量,作为所述用户闲聊次数。判断所述用户闲聊次数是否小于第二预设阈值。如果是,则确定标记类型为混合错误类型,否则再根据用户累积语音活跃次数和设定时间区域计算用户平均活跃次数,判断所述用户平均活跃次数是否小于第一预设阈值,如果是,则确定标记类型为混合错误类型,否则结束流程。
本实施例的技术方案,识别对象为一定时间内用户与系统之间的交互结果。根据用户在一段时间内的累计活跃次数和闲聊次数,与设定阈值进行比较,如果小于设定阈值,则将语音识别结果进行标注并存储,以进行人工的二次审核。解决了现有技术中全部由人工进行审核,效率低、成本高的问题。将疑似错误的语音结果进行标注以提供给人工二次审核,可以提高错误结果的筛选效率,降低人工成本。
实施例四
图4是本发明实施例四中的一种语音识别结果的处理装置的结构示意图,如图4所示,该装置包括:语音识别关联数据获取模块410、标记类型确定模块420以及标记处理模块430,其中:
语音识别关联数据获取模块410,用于获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;
标记类型确定模块420,用于根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;
标记处理模块430,用于根据所述标记类型对所述语音识别结果进行标记处理。
本实施例的技术方案通过获取用户语音指令和识别结果,并根据用户语音指令、识别结果、用户累积语音活跃次数或用户闲聊次数确定语音识别结果的标记类型,并对语音识别结果进行标记,解决了现有技术中人工标注方式存在的成本高及效率低等问题,实现了自动对语音识别的错误结果进行标注,提高了对语音识别错误结果的筛选效率。
在上述实施例的基础上,所述语音识别结果包括语音转写结果和/或语义理解结果;所述标记类型包括语音转写错误类型、语义理解错误类型以及混合错误类型;所述混合错误类型包括语音转写错误类型以及语义理解错误类型。
在上述实施例的基础上,所述标记类型确定模块420,包括:
混合错误类型确定单元,用于如果确定所述用户语音指令的指令发出时间满足第一标记条件,且所述语音转写结果满足第二标记条件,则确定所述标记类型为所述混合错误类型。
在上述实施例的基础上,所述混合错误类型确定单元具体用于:
如果所述语音转写结果与下次交互的语音转写结果之间的编辑距离小于预设经验参数,则确定所述语音转写结果满足第二标记条件;或者
如果所述下次交互的语音转写结果对应的用户语音指令为负向指令,则确定所述语音转写结果满足第二标记条件。
在上述实施例的基础上,所述标记类型确定模块420,还包括:
语义理解错误类型确定单元,用于如果确定所述用户语音指令的指令发出时间满足第一标记条件,且所述语义理解结果满足第三标记条件,则确定所述标记类型为所述语义理解错误类型。
在上述实施例的基础上,所述语义理解错误类型确定单元具体用于:
如果所述语义理解结果与下次交互的语义理解结果的槽位相同,且领域和/ 或意图不同,则确定所述语义理解结果满足第三标记条件。
在上述实施例的基础上,所述标记类型确定模块420,还包括:
语音转写错误类型变更单元,用于如果所述语义理解结果的领域为媒体资源领域,且所述单次交互的语音识别关联数据存在匹配的第一设定操作关联数据,则确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型;
其中,所述第一设定操作关联数据包括:用户继续执行语音交互操作生成的数据,或,用户对所述语义理解结果执行手动操作生成的数据。
在上述实施例的基础上,所述标记类型确定模块420,还包括:
语音转写错误类型变更单元,用于如果所述语义理解结果的领域为一次性操作领域,且所述单次交互的语音识别关联数据存在匹配的第二设定操作关联数据,则确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型;
其中,所述第二设定操作关联数据包括:用户对所述一次性操作领域执行语音交互操作生成的数据。
在上述实施例的基础上,所述标记类型确定模块420,还包括:
用户平均活跃次数计算单元,用于根据所述用户累积语音活跃次数和所述设定时间区域计算用户平均活跃次数;
第二混合错误类型确定单元,用于如果所述用户平均活跃次数小于第一预设阈值,则确定所述标记类型为所述混合错误类型。
在上述实施例的基础上,所述标记类型确定模块420,还包括:
用户闲聊次数计算单元,用于根据所述设定时间区域内生成的语音识别结果,计算语义理解结果的领域为闲聊的用户语音指令的数量,作为所述用户闲聊次数;
第三混合错误类型确定单元,用于如果所述用户闲聊次数小于第二预设阈值,则确定所述标记类型为所述混合错误类型。
在上述实施例的基础上,所述语音识别结果的处理装置,还包括:
标记处理数据存储模块,用于将标记处理数据进行存储,所述标记处理数据用于进行人工审核。
本发明实施例所提供的语音识别结果的处理装置可执行本发明任意实施例所提供的语音识别结果的处理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器40、存储器41、输入装置42和输出装置43;计算机设备中处理器40的数量可以是一个或多个,图5中以一个处理器40为例;计算机设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音识别结果的处理方法对应的程序指令/模块(例如,语音识别结果的处理装置中的语音识别关联数据获取模块 410、标记类型确定模块420以及标记处理模块430)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的语音识别结果的处理方法。该方法包括:
获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;
根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;
根据所述标记类型对所述语音识别结果进行标记处理。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音识别结果的处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (12)
1.一种语音识别结果的处理方法,其特征在于,包括:
获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;
根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;
根据所述标记类型对所述语音识别结果进行标记处理。
2.根据权利要求1所述的方法,其特征在于,所述语音识别结果包括语音转写结果和/或语义理解结果;所述标记类型包括语音转写错误类型、语义理解错误类型以及混合错误类型;所述混合错误类型包括语音转写错误类型以及语义理解错误类型。
3.根据权利要求2所述的方法,其特征在于,所述语音识别关联数据为单次交互的语音识别关联数据;所述语音关联因素包括所述用户语音指令以及所述语音识别结果;所述语音识别结果包括所述语音转写结果;
根据语音关联因素确定标记类型,包括:
如果确定所述用户语音指令的指令发出时间满足第一标记条件,且所述语音转写结果满足第二标记条件,则确定所述标记类型为所述混合错误类型。
4.根据权利要求3所述的方法,其特征在于,所述确定语音转写结果满足第二标记条件包括:
如果所述语音转写结果与下次交互的语音转写结果之间的编辑距离小于预设经验参数,则确定所述语音转写结果满足第二标记条件;或者
如果所述下次交互的语音转写结果对应的用户语音指令为负向指令,则确定所述语音转写结果满足第二标记条件。
5.根据权利要求2所述的方法,其特征在于,所述语音识别关联数据为单次交互的语音识别关联数据;所述语音关联因素包括所述用户语音指令以及所述语音识别结果;所述语音识别结果包括所述语义理解结果;
根据语音关联因素确定标记类型,包括:
如果确定所述用户语音指令的指令发出时间满足第一标记条件,且所述语义理解结果满足第三标记条件,则确定所述标记类型为所述语义理解错误类型。
6.根据权利要求5所述的方法,其特征在于,所述确定语义理解结果满足第三标记条件包括:
如果所述语义理解结果与下次交互的语义理解结果的槽位相同,且领域和/或意图不同,则确定所述语义理解结果满足第三标记条件。
7.根据权利要求3-6任一所述的方法,其特征在于,在确定所述标记类型为所述混合错误类型之后,或,在确定所述标记类型为所述语义理解错误类型之后,还包括:
如果所述语义理解结果的领域为媒体资源领域,且所述单次交互的语音识别关联数据存在匹配的第一设定操作关联数据,则确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型;
其中,所述第一设定操作关联数据包括:用户继续执行语音交互操作生成的数据,或,用户对所述语义理解结果执行手动操作生成的数据。
8.根据权利要求3-6任一所述的方法,其特征在于,在确定所述标记类型为所述混合错误类型之后,或,在确定所述标记类型为所述语义理解错误类型之后,还包括:
如果所述语义理解结果的领域为一次性操作领域,且所述单次交互的语音识别关联数据存在匹配的第二设定操作关联数据,则确定所述混合错误类型或所述语义理解错误类型为语音转写错误类型;
其中,所述第二设定操作关联数据包括:用户对所述一次性操作领域执行语音交互操作生成的数据。
9.根据权利要求2所述的方法,其特征在于,所述语音识别关联数据为设定时间区域内生成的语音识别关联数据;所述语音关联因素包括所述用户累积语音活跃次数;
根据语音关联因素确定标记类型,包括:
根据所述用户累积语音活跃次数和所述设定时间区域计算用户平均活跃次数;
如果所述用户平均活跃次数小于第一预设阈值,则确定所述标记类型为所述混合错误类型。
10.根据权利要求2所述的方法,其特征在于,所述语音识别关联数据为设定时间区域内生成的语音识别关联数据;所述语音关联因素包括所述用户闲聊次数;
根据语音关联因素确定标记类型,包括:
根据所述设定时间区域内生成的语音识别结果,计算语义理解结果的领域为闲聊的用户语音指令的数量,作为所述用户闲聊次数;
如果所述用户闲聊次数小于第二预设阈值,则确定所述标记类型为所述混合错误类型。
11.根据权利要求1所述的方法,其特征在于,在根据所述标记类型对所述语音识别结果进行标记处理之后,还包括:
将标记处理数据进行存储,所述标记处理数据用于进行人工审核。
12.一种语音识别结果的处理装置,其特征在于,包括:
语音识别关联数据获取模块,用于获取语音识别关联数据;其中,所述语音识别关联数据包括用户语音指令和语音识别结果;
标记类型确定模块,用于根据语音关联因素确定标记类型;其中,所述语音关联因素包括所述语音识别关联数据、用户累积语音活跃次数或用户闲聊次数;
标记处理模块,用于根据所述标记类型对所述语音识别结果进行标记处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911133695.XA CN110838284B (zh) | 2019-11-19 | 2019-11-19 | 一种语音识别结果的处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911133695.XA CN110838284B (zh) | 2019-11-19 | 2019-11-19 | 一种语音识别结果的处理方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110838284A true CN110838284A (zh) | 2020-02-25 |
CN110838284B CN110838284B (zh) | 2022-06-14 |
Family
ID=69576731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911133695.XA Active CN110838284B (zh) | 2019-11-19 | 2019-11-19 | 一种语音识别结果的处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110838284B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735395A (zh) * | 2020-12-25 | 2021-04-30 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
CN113170938A (zh) * | 2021-04-26 | 2021-07-27 | 浙江悦芯科技有限公司 | 一种基于亚米级定位的智能安全帽 |
CN112735395B (zh) * | 2020-12-25 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810188A (zh) * | 2014-12-30 | 2016-07-27 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN108932945A (zh) * | 2018-03-21 | 2018-12-04 | 北京猎户星空科技有限公司 | 一种语音指令的处理方法及装置 |
CN109192194A (zh) * | 2018-08-22 | 2019-01-11 | 北京百度网讯科技有限公司 | 语音数据标注方法、装置、计算机设备及存储介质 |
US20190057701A1 (en) * | 2017-08-16 | 2019-02-21 | Samsung Electronics Co., Ltd. | Speech recognition method and device |
-
2019
- 2019-11-19 CN CN201911133695.XA patent/CN110838284B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810188A (zh) * | 2014-12-30 | 2016-07-27 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US20190057701A1 (en) * | 2017-08-16 | 2019-02-21 | Samsung Electronics Co., Ltd. | Speech recognition method and device |
CN108932945A (zh) * | 2018-03-21 | 2018-12-04 | 北京猎户星空科技有限公司 | 一种语音指令的处理方法及装置 |
CN109192194A (zh) * | 2018-08-22 | 2019-01-11 | 北京百度网讯科技有限公司 | 语音数据标注方法、装置、计算机设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735395A (zh) * | 2020-12-25 | 2021-04-30 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
CN112735395B (zh) * | 2020-12-25 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法及电子设备、存储装置 |
CN113170938A (zh) * | 2021-04-26 | 2021-07-27 | 浙江悦芯科技有限公司 | 一种基于亚米级定位的智能安全帽 |
CN113170938B (zh) * | 2021-04-26 | 2022-01-14 | 浙江悦芯科技有限公司 | 一种基于亚米级定位的智能安全帽 |
Also Published As
Publication number | Publication date |
---|---|
CN110838284B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11322153B2 (en) | Conversation interaction method, apparatus and computer readable storage medium | |
US11600259B2 (en) | Voice synthesis method, apparatus, device and storage medium | |
WO2020215554A1 (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN105931644A (zh) | 一种语音识别方法及移动终端 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
JP2021131528A (ja) | ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN108039175B (zh) | 语音识别方法、装置及服务器 | |
WO2022134110A1 (zh) | 一种语音理解方法及装置 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN110808031A (zh) | 一种语音识别方法、装置和计算机设备 | |
CN110838284B (zh) | 一种语音识别结果的处理方法、装置和计算机设备 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN111063348B (zh) | 一种信息处理方法、装置、设备及计算机存储介质 | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111899737A (zh) | 音频数据处理方法、装置、服务器及存储介质 | |
CN115358241B (zh) | 基于人机交互的标注方法及相关装置、设备和介质 | |
CN111373473B (zh) | 一种电子设备进行语音识别方法及电子设备 | |
CN114299955B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN113015002B (zh) | 一种主播视频数据的处理方法和装置 | |
CN114171016B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN113129902B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN113380229B (zh) | 语音响应速度确定方法、相关装置及计算机程序产品 | |
CN113936655A (zh) | 语音播报处理方法、装置、计算机设备和存储介质 | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |