CN111161707B - 一种自动补充质检关键词表的方法、电子设备和存储介质 - Google Patents

一种自动补充质检关键词表的方法、电子设备和存储介质 Download PDF

Info

Publication number
CN111161707B
CN111161707B CN202010089159.0A CN202010089159A CN111161707B CN 111161707 B CN111161707 B CN 111161707B CN 202010089159 A CN202010089159 A CN 202010089159A CN 111161707 B CN111161707 B CN 111161707B
Authority
CN
China
Prior art keywords
matching
matching result
adjacent word
word
quality inspection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010089159.0A
Other languages
English (en)
Other versions
CN111161707A (zh
Inventor
聂镭
李睿
聂颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longma Zhixin Zhuhai Hengqin Technology Co ltd
Original Assignee
Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longma Zhixin Zhuhai Hengqin Technology Co ltd filed Critical Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority to CN202010089159.0A priority Critical patent/CN111161707B/zh
Publication of CN111161707A publication Critical patent/CN111161707A/zh
Application granted granted Critical
Publication of CN111161707B publication Critical patent/CN111161707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了自动补充质检关键词表的方法,通过本发明,通过自动补充质检关键词表,也即将语音识别模型对质检关键词识别错误的识别文字作为该质检关键词的补充词,并将所述补充词加入所述质检关键词表,这样,当后续质检的时候,如果使用质检关键词匹配失败的时候,可以使用该质检关键词的补充词进行质检,可以在一定程度上改善因为语音识别模型对质检关键词的错误识别导致的质检效果差的问题。

Description

一种自动补充质检关键词表的方法、电子设备和存储介质
技术领域
本发明涉及语音处理技术领域,特别是一种自动补充质检关键词表的方法、电子设备和存储介质。
背景技术
为提升服务质量和业绩,同时降低法律风险,银行、保险、电信等行业的呼叫中心或者客服中心会对坐席或者客户经理的客服工作、营销工作等业务场景的对话语音录音进行质检,以检验坐席或者客户经理的讲话内容和方式是否符合单位规定和要求。质检是指对保险行业的客服人员与客户的交流语音进行检查,并与给定话术脚本进行比对,判断是否有错说、漏说等违规现象。话术脚本一般就是固定的文本。通常,对给定的话术脚本中包含有多个质检项,因此要按照各个质检项一一检查。
当前比较热门的语音质检方法是基于人工智能技术的语音质检系统,其先经过语音识别将语音转换为文本,然后基于给定的话术脚本内容,进行文本匹配,从而得出是否合规的结论。这种质检方法的关键在于语音识别的效果情况,在语音识别的结果比较清晰,识别出的文字错误率低的情况下,能很好的针对话术脚本进行质检,然而,在现实场景下,语音识别的效果往往不太如意,识别错误率较高。在这种情况下,如何对语音识别准确率低的音频进行质检就变得极具挑战性。
发明内容
本发明实施例提出了一种自动补充质检关键词表的方法、电子设备和存储介质,以至少改善现有技术中对语音识别准确率低的音频进行质检效果差的问题。
根据本发明的一个实施例,提供了一种自动补充质检关键词表的方法,包括:
步骤一,将音频输入语音识别模型,得到音频的语音识别内容,其中,所述音频带有文字标注,所述文字标注为音频中语音对应的文本内容;
步骤二,从质检关键词表中获取第一质检关键词,并将所述第一质检关键词对所述语音识别内容进行匹配,得到第一匹配结果;
步骤三,判断所述第一匹配结果,如果所述第一匹配结果为匹配成功,则回到步骤二;如果所述第一匹配结果为匹配失败,则进入步骤四;
步骤四,获取所述第一质检关键词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第二匹配结果;
步骤五,判断所述第二匹配结果,如果所述第二匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
如果所述第二匹配结果为匹配失败,则执行以下步骤:
步骤六,获取所述第一质检关键词在所述文字标注中的第一邻近词,将所述第一邻近词对所述语音识别内容进行匹配,得到第三匹配结果,其中,所述第一邻近词包括第一左邻近词和第一右邻近词;
步骤七,判断所述第三匹配结果,如果所述第三匹配结果为匹配成功,则将所述语音识别内容中所述第一邻近词之间的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
进一步地,如果所述第三匹配结果为匹配失败,则执行以下步骤:
步骤八,获取所述第一邻近词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第四匹配结果;
步骤九,判断所述第四匹配结果,如果所述第四匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表;如果所述第四匹配结果为匹配失败,则判断是否满足预设条件,如果满足预设条件,则流程结束,否则,将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,并重复步骤六至步骤九。
具体地,所述步骤六中的将所述第一邻近词对所述语音识别内容进行匹配,得到第三匹配结果,具体包括:
将所述第一左邻近词和所述第一右邻近词分别对所述语音识别内容进行匹配,得到第三匹配结果,其中,所述第三匹配结果包括第一左邻近词匹配结果和第一右邻近词匹配结果。
具体地,所述步骤七中的判断所述第三匹配结果,具体包括:
当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果都为匹配成功时,则所述第三匹配结果为匹配成功;当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果任一为匹配失败时,则所述第三匹配结果为匹配失败。
具体地,所述步骤九中的将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,具体包括:
当所述第一左邻近词匹配结果为匹配失败,所述第一右邻近词匹配结果为匹配成功时,将所述第一左邻近词的邻近词作为新的第一左邻近词,所述第一右邻近词保持不变;
当所述第一左邻近词匹配结果为匹配成功,所述第一右邻近词匹配结果为匹配失败时,将所述第一右邻近词的邻近词作为新的第一右邻近词,所述第一左邻近词保持不变;
当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果都为匹配失败时,将所述第一左邻近词的邻近词作为新的第一左邻近词,将所述第一右邻近词的邻近词作为新的第一右邻近词。
具体地,所述步骤九中的将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,具体包括:通过滑窗的方法获得所述第一邻近词的邻近词。
具体地,将所述补充词加入所述质检关键词表之前,所述方法还包括:
获取样本音频集,将所述样本音频集中的样本音频输入语音识别模型,得到所述样本音频的语音识别内容;
以所述补充词作为质检词对所述样本音频的语音识别内容进行匹配,统计匹配成功的概率;
将所述概率大于预设值的所述补充词加入所述质检关键词表。
根据本发明的又一个实施例,还提供了一种电子设备,包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
根据本发明的又一个实施例,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述上述任一项中所述的方法。
通过本发明,通过自动补充质检关键词表,也即将语音识别模型对质检关键词识别错误的识别结果作为该质检关键词的补充词,并将所述补充词加入所述质检关键词表,当质检的时候,使用本申请的方法得到的质检关键词表中的补充词进行质检,就可以改善因为语音识别模型对质检关键词的错误识别导致的质检效果差的问题。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点更为清楚,在附图中:
图1是本发明一个实施例的自动补充质检关键词表的方法的终端的硬件结构框图;
图2是本发明一个实施例提供的一种自动补充质检关键词表的方法的流程图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下方对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书的“包括”、“包含”等类似词语应当解释为包含的含义而还是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明中的描述中,需要理解的是,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种自动补充质检关键词表的方法的终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的自动补充质检关键词表的方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是本发明实施例提供的一种自动补充质检关键词表的方法的流程图。如图2所示,本实施例中提供的一种自动补充质检关键词表的方法,包括以下步骤:
步骤一,将音频输入语音识别模型,得到音频的语音识别内容,其中,所述音频带有文字标注,所述文字标注为音频中语音对应的文本内容;
步骤二,从质检关键词表中获取第一质检关键词,并将所述第一质检关键词对所述语音识别内容进行匹配,得到第一匹配结果;
步骤三,判断所述第一匹配结果,如果所述第一匹配结果为匹配成功,则回到步骤二;如果所述第一匹配结果为匹配失败,则进入步骤四;
步骤四,获取所述第一质检关键词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第二匹配结果;
步骤五,判断所述第二匹配结果,如果所述第二匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
通过本发明,通过自动补充质检关键词表,也即将语音识别模型对质检关键词识别错误的识别结果作为该质检关键词的补充词,并将所述补充词加入所述质检关键词表,当质检的时候,使用本申请的方法得到的质检关键词表中的补充词进行质检,因为该补充词就是语音识别模型对质检关键词识别错误的识别结果,所以可以在一定程度上改善因为语音识别模型对质检关键词的错误识别导致的质检效果差的问题。
下面将结合具体的实施方式对各个步骤进行详细的说明。
步骤一,将音频输入语音识别模型,得到音频的语音识别内容,其中,所述音频带有文字标注,所述文字标注为音频中语音对应的文本内容;
现有的语音识别技术,有非常多的商用接口,如科大讯飞、阿里巴巴、腾讯、百度等均提供了相关接口,可将语音直接转成文字。此外,也可以使用非商用的语音识别方式,如通过自行构建并经过训练的语音识别模型来实现待质检语音的文字识别。在本实施例中,是通过自行构建语音识别模型,并经过质检领域的语料来训练语音识别模型,这样得到的语音识别模型相对于商用中通用的语音识别模型的识别效果要好。
本实施例中的音频是收集自呼叫中心或者客服中心的坐席的通话录音,同时音频带有文字标注,文字标注为音频中语音对应的文本内容,即坐席与客户通话的内容,其由人工进行预先标注。在一些其它的实施中,音频也可以是由人工特意录制而成,不一定是真实业务场景产生的录音,同时,为了使得录制的音频更加贴近实际场景,可以在音频中添加各种噪音或者背景声音。输入语音识别模型的音频格式形如:{‘音频’:‘1.wav’,‘文字标注’:‘从第四天起赔付’},经过语音识别模型进行语音识别后,得到音频的语音识别内容,输出结果的格式形如:{‘音频’:‘1.wav’,‘文字标注’:‘从第四天起赔付’,‘语音识别内容’:‘从地市天气赔付’}。
步骤二,从质检关键词表中获取第一质检关键词,并将所述第一质检关键词对所述语音识别内容进行匹配,得到第一匹配结果;
需要说明的是,在现有技术中,先通过话术脚本来构建质检关键词表,同时通过语音识别技术将音频中的语音转化成待质检文本,然后再通过质检关键词表的质检关键词来对待质检文本进行匹配,然后得到匹配结果,根据匹配来决定质检结果,这是现有技术中的常规做法。在本实施例中,本发明在现有技术的基础上进行了改进,即通过自动补充质检关键词表的方法,实现了对上述方法的改进,在一定程度上改善了上述方法中存在的语音识别不准确而导致的质检不准确的技术问题,详见本实施例中后面的步骤的说明。在本实施的步骤二中,从质检关键词表中任意获取一个质检关键词,然后将该质检关键词对音频的语音识别内容进行匹配,得到匹配结果。例如,质检关键词为‘第四天起’,通过匹配,检测‘第四天起’是否出现在音频的语音识别内容。
步骤三,判断所述第一匹配结果,如果所述第一匹配结果为匹配成功,则回到步骤二;如果所述第一匹配结果为匹配失败,则进入步骤四;
根据步骤二中的匹配结果,当匹配结果为匹配成功时,即在上述例子中的质检关键词‘第四天起’出现在音频的语音识别内容中,也就说明,‘第四天起’这个质检关键词在该音频的语音识别内容没有被识别错误,用于语音识别的语音识别模型对于这个质检关键词是能够正确识别的,因此对于这个质检关键词来说,可以直接跳过后续的步骤,然后重新回到步骤二中,选取另外的质检关键词来进行匹配。当匹配结果为匹配失败时,即在上述例子中的质检关键词‘第四天起’没有出现在音频的语音识别内容中,也就说明,‘第四天起’这个质检关键词在该音频的语音识别内容被错误识别,用于语音识别的语音识别模型对于这个质检关键词是不能够正确识别的,将这个关键词识别成其它的字了,例如识别成‘地市天气’。
步骤四,获取所述第一质检关键词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第二匹配结果;
当匹配结果为匹配失败时,获取该质检关键词的拼音,并使用该质检关键词的拼音对音频的语音识别内容进行匹配,得到匹配结果。在上述例子中,质检关键词为‘第四天起’,则其对应的拼音为‘disitian qi’,同理,将音频的语音识别内容的内容也转化为拼音,从而实现使用该质检关键词的拼音对音频的语音识别内容进行匹配,从而得到匹配结果。需要说明的是,因为由于口音发音的问题,进行匹配的时候,不必完全百分之百地匹配成功,只要在设定一个匹配度,在大于匹配度的时候,就可以认为是匹配成功。具体匹配方法可以采用模糊匹配或者其它的匹配方法,此为现有技术,故不再赘述。
步骤五,判断所述第二匹配结果,如果所述第二匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
在上述例子中,质检关键词为‘第四天起’的拼音‘disitian qi’在语音识别内容中匹配出了相应的拼音,则说明质检关键词‘第四天起’被语音识别模型错误识别,即错误识别成了拼音读音相近的其它文字,例如‘地市天气’。当匹配成功时,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。在上述例子中,将‘地市天气’作为质检关键词 ‘第四天起’的补充词,并加入质检关键词表中。
在本实施例中,通过将质检关键词表中的质检关键词被语音识别模型识别错误的识别文字作为该质检关键词的补充词补充到质检关键词表中,也即,质检关键词被语音识别模型错误识别成了拼音读音相近的其它文字作为该质检关键词的补充词,并加入所述质检关键词表。这样,当后续质检的时候,如果使用质检关键词匹配失败的时候,可以使用该质检关键词的补充词进行质检,可以在一定程度上改善因为语音识别模型对质检关键词的错误识别导致的质检效果差的问题。
进一步地,在本发明的一些实施例中,如果所述第二匹配结果为匹配失败,则执行以下步骤:
步骤六,获取所述第一质检关键词在所述文字标注中的第一邻近词,将所述第一邻近词对所述语音识别内容进行匹配,得到第三匹配结果,其中,所述第一邻近词包括第一左邻近词和第一右邻近词;
步骤七,判断所述第三匹配结果,如果所述第三匹配结果为匹配成功,则将所述语音识别内容中所述第一邻近词之间的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
下面结合具体的实施方式对步骤六和步骤七进行详细的说明。
需要说明的是,在包括步骤一至步骤五的具体实施例中,其主要改善了语音识别模型对质检关键词错误识别成拼音读音类似的文字时导致的质检结果不准确的问题。然而,由于我国的地域广大,各地口音众多,对于相同的文字,不同的人读出来可能会读成其它的读音,这是现实存在的问题,也就是说,语音识别模型对质检关键词的识别错误,不仅仅是错误识别成拼音读音类似的文字,也可能是错误识别成拼音读音完全不同的文字。为了解决这个问题,可以通过步骤六和步骤七提供的方法进行解决。
步骤六,获取所述第一质检关键词在所述文字标注中的第一邻近词,将所述第一邻近词对所述语音识别内容进行匹配,得到第三匹配结果,其中,所述第一邻近词包括第一左邻近词和第一右邻近词;
若使用质检关键词和质检关键词对应的拼音都匹配失败,则说明语音识别模型将质检关键词错误识别成拼音读音完全不同的文字。在本实施例中,先将质检关键词在音频的文字标注中定位出来,方式也可以通过匹配的方法进行定位,然后找到该质检关键词在文字标注中的邻近词,邻近词包括左邻近词和右邻近词。如前所述,文字标注为音频中语音对应的文本内容,即坐席与客户通话的内容,其由人工进行预先标注。然后,利用该质检关键词在文字标注中的邻近词,对所述语音识别内容进行匹配,即利用该质检关键词在文字标注中的左邻近词和右邻近词分别进行匹配,然后得到匹配结果,该匹配结果包括左邻近词的匹配结果和右邻近词的匹配结果。例如,在一段音频中,标注文字为‘住院后的第四天起赔付每天两百五’,质检关键词为‘第四天起’,语音识别模型的识别内容为‘住院后的打死田七赔付每天两百五’,邻近词的长度设置为2个字,则质检关键词‘第四天起’在标注文字中的左邻近词为‘后的’,质检关键词‘第四天起’在标注文字中的右邻近词为‘赔付’,然后将左邻近词‘后的’和右邻近词‘赔付’分别与音频的识别内容‘住院后的打死田七赔付每天两百五’进行匹配,分别得到匹配结果。
步骤七,判断所述第三匹配结果,如果所述第三匹配结果为匹配成功,则将所述语音识别内容中所述第一邻近词之间的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
首先,对步骤六中的匹配结果进行判断,判断的方式是,当左邻近词匹配结果和右邻近词匹配结果都为匹配成功时,则匹配结果为匹配成功;当左邻近词匹配结果和右邻近词匹配结果任一为匹配失败时,则匹配结果为匹配失败。然后,根据对该匹配结果的判断结果,如果匹配结果为匹配成功,则将语音识别内容中该邻近词之间的文字作为该质检关键词的补充词,并将该补充词加入质检关键词表。如上述例子,左邻近词‘后的’和右邻近词‘赔付’都匹配成功了,则将语音识别内容中该邻近词之间的文字‘打死田七’作为该质检关键词‘第四天起’的补充词加入质检关键词表。
通过步骤六和步骤七的技术方案,首先将质检关键词在标注文字中的邻近词对语音识别内容中进行匹配,当匹配结果为匹配成功时,将语音识别内容中该邻近词之间的文字作为该质检关键词的补充词,并将该补充词加入质检关键词表,也就是说,质检关键词被语音识别模型错误识别成拼音读音不相近的其它文字,也作为该质检关键词的补充词加入所述质检关键词表。这样,当后续质检的时候,如果使用质检关键词匹配失败的时候,可以使用该质检关键词的补充词进行质检,也可以在一定程度上改善因为语音识别模型对质检关键词的错误识别导致的质检效果差的问题。
进一步地,在本发明的一些实施例中,如果所述第三匹配结果为匹配失败,则执行以下步骤:
步骤八,获取所述第一邻近词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第四匹配结果;
步骤九,判断所述第四匹配结果,如果所述第四匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表;如果所述第四匹配结果为匹配失败,则判断是否满足预设条件,如果满足预设条件,则流程结束,否则,将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,并重复步骤六至步骤九。
下面结合具体的实施方式对步骤八和步骤九进行详细的说明。
如前所述,匹配结果为匹配失败时,意味着左邻近词匹配结果或者右邻近词匹配结果至少有一个为匹配失败,也就是说,语音识别模型也把质检关键词的邻近词也识别错误了。在这种情况下,步骤一至步骤七的方案将不能将质检关键词被语音识别模型识别错误的文字增加到关键词表中。因此,本发明实施例在步骤八和步骤九提供了解决此种情况的将质检关键词被语音识别模型识别错误的文字增加到关键词表中的方法。具体见下面对步骤八和步骤九的详细说明。
步骤八,获取所述第一邻近词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第四匹配结果;
此步骤使用邻近词的拼音对音频的语音识别内容进行匹配的方法,与前面步骤四中使用的方法一致,在此不再重复说明。例如,在一段音频中,标注文字为‘住院后的第四天起赔付每天两百五’,质检关键词为‘第四天起’,语音识别模型的识别内容为‘住院后德打死田七赔付每天两百五’,邻近词的长度设置为2个字,则质检关键词‘第四天起’在标注文字中的左邻近词为‘后的’,质检关键词‘第四天起’在标注文字中的右邻近词为‘赔付’,然后将左邻近词和右邻近词‘赔付’的拼音‘hou de’和‘peifu’,分别与音频的识别内容‘住院后的打死田七赔付每天两百五’进行匹配,分别得到匹配结果。
步骤九,判断所述第四匹配结果,如果所述第四匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表;如果所述第四匹配结果为匹配失败,则判断是否满足预设条件,如果满足预设条件,则流程结束,否则,将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,并重复步骤六至步骤九。
当步骤八中的匹配结果为匹配成功时,则将拼音在语音识别内容中对应的文字作为该质检关键词的补充词,并将该补充词加入所述质检关键词表。如上述例子,左邻近词‘后的’的拼音‘hou de’和右邻近词‘赔付’的拼音‘peifu’都匹配成功了,则将语音识别内容中该邻近词之间的文字‘打死田七’作为该质检关键词‘第四天起’的补充词加入质检关键词表。通过此方案,就可以在语音识别模型也把质检关键词的邻近词也错误识别,但其是错误识别成拼音读音相同的文字的情况下,也可以将质检关键词被错误识别的文字增加到时补充词。
当步骤八中的匹配结果为匹配失败,这种情况下,意味着该质检关键词的邻近词被语音识别模型错误识别成拼音读音不同的其它文字。此时,可以通过质检关键词在标注文字中的邻近词的邻近词对音频的语音识别内容进行匹配,当匹配成功时,即可将该邻近词的邻近词之间的文字作为该质检关键词的补充词。也即,这个方法的过程步骤概括来说,就是将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,并重复步骤六至步骤九。在重复循环执行这个步骤之前,需要判断是否满足预设条件,如果满足预设条件,则流程结束。例如,可以设定预设条件为重复次数,例如重复次数为2,当超过重复次数2时,即当计算重复次数的计数器的计数为3时,则流程结束。
具体地,在本发明的一些实施例中,所述步骤九中的将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,具体包括:
当所述第一左邻近词匹配结果为匹配失败,所述第一右邻近词匹配结果为匹配成功时,将所述第一左邻近词的邻近词作为新的第一左邻近词,所述第一右邻近词保持不变;当所述第一左邻近词匹配结果为匹配成功,所述第一右邻近词匹配结果为匹配失败时,将所述第一右邻近词的邻近词作为新的第一右邻近词,所述第一左邻近词保持不变;当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果都为匹配失败时,将所述第一左邻近词的邻近词作为新的第一左邻近词,将所述第一右邻近词的邻近词作为新的第一右邻近词。
具体地,在本发明的一些实施例中,所述步骤九中的将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,具体包括:通过滑窗的方法获得所述第一邻近词的邻近词。滑窗为现有技术,只要设定滑窗的滑动步长和窗体长度即可,例如滑动步长为1,窗体长度为2字。
具体地,在本发明的一些实施例中,将所述补充词加入所述质检关键词表之前,所述方法还包括:获取样本音频集,将所述样本音频集中的样本音频输入语音识别模型,得到所述样本音频的语音识别内容;以所述补充词作为质检词对所述样本音频的语音识别内容进行匹配,统计匹配成功的概率;将所述概率大于预设值的所述补充词加入所述质检关键词表。
在步骤一至步骤九中,可以获得音频集合中,被语音识别模型错误识别的质检关键词的文字作为补充词加入到质检关键词表中。但是,这些补充词中,有一些补充词被语音识别模型错误识别成的概率是很低的,因此,为了平衡准确率和质检效率的关系,可以通过再通过一个样本音频集,使用在步骤一至步骤九中得到的补充词进行对音频集的语音识别内容进行质检,并统计匹配成功的概率,并设置一个概率的阈值,例如概率为80%,即将匹配成功的概率大于80%的补充词加入所述质检关键词表。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤一,将音频输入语音识别模型,得到音频的语音识别内容,其中,所述音频带有文字标注,所述文字标注为音频中语音对应的文本内容;
步骤二,从质检关键词表中获取第一质检关键词,并将所述第一质检关键词对所述语音识别内容进行匹配,得到第一匹配结果;
步骤三,判断所述第一匹配结果,如果所述第一匹配结果为匹配成功,则回到步骤二;如果所述第一匹配结果为匹配失败,则进入步骤四;
步骤四,获取所述第一质检关键词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第二匹配结果;
步骤五,判断所述第二匹配结果,如果所述第二匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
步骤一,将音频输入语音识别模型,得到音频的语音识别内容,其中,所述音频带有文字标注,所述文字标注为音频中语音对应的文本内容;
步骤二,从质检关键词表中获取第一质检关键词,并将所述第一质检关键词对所述语音识别内容进行匹配,得到第一匹配结果;
步骤三,判断所述第一匹配结果,如果所述第一匹配结果为匹配成功,则回到步骤二;如果所述第一匹配结果为匹配失败,则进入步骤四;
步骤四,获取所述第一质检关键词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第二匹配结果;
步骤五,判断所述第二匹配结果,如果所述第二匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种自动补充质检关键词表的方法,其特征在于,所述方法包括以下步骤:
步骤一,将音频输入语音识别模型,得到音频的语音识别内容,其中,所述音频带有文字标注,所述文字标注为音频中语音对应的文本内容;
步骤二,从质检关键词表中获取第一质检关键词,并将所述第一质检关键词对所述语音识别内容进行匹配,得到第一匹配结果;
步骤三,判断所述第一匹配结果,如果所述第一匹配结果为匹配成功,则回到步骤二;如果所述第一匹配结果为匹配失败,则进入步骤四;
步骤四,获取所述第一质检关键词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第二匹配结果;
步骤五,判断所述第二匹配结果,如果所述第二匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表;
如果所述第二匹配结果为匹配失败,则执行以下步骤:
步骤六,获取所述第一质检关键词在所述文字标注中的第一邻近词,将所述第一邻近词对所述语音识别内容进行匹配,得到第三匹配结果,其中,所述第一邻近词包括第一左邻近词和第一右邻近词;
步骤七,判断所述第三匹配结果,如果所述第三匹配结果为匹配成功,则将所述语音识别内容中所述第一邻近词之间的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表。
2.根据权利要求1所述的自动补充质检关键词表的方法,其特征在于,如果所述第三匹配结果为匹配失败,则执行以下步骤:
步骤八,获取所述第一邻近词的拼音,并使用所述拼音对所述语音识别内容进行匹配,得到第四匹配结果;
步骤九,判断所述第四匹配结果,如果所述第四匹配结果为匹配成功,则将所述拼音在所述语音识别内容中对应的文字作为所述第一质检关键词的补充词,并将所述补充词加入所述质检关键词表;如果所述第四匹配结果为匹配失败,则判断是否满足预设条件,如果满足预设条件,则流程结束,否则,将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,并重复步骤六至步骤九。
3.根据权利要求1所述的自动补充质检关键词表的方法,其特征在于,所述步骤六中的将所述第一邻近词对所述语音识别内容进行匹配,得到第三匹配结果,具体包括:
将所述第一左邻近词和所述第一右邻近词分别对所述语音识别内容进行匹配,得到第三匹配结果,其中,所述第三匹配结果包括第一左邻近词匹配结果和第一右邻近词匹配结果。
4.根据权利要求3所述的自动补充质检关键词表的方法,其特征在于,所述步骤七中的判断所述第三匹配结果,具体包括:
当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果都为匹配成功时,则所述第三匹配结果为匹配成功;当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果任一为匹配失败时,则所述第三匹配结果为匹配失败。
5.根据权利要求2所述的自动补充质检关键词表的方法,其特征在于,所述步骤九中的将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,具体包括:
当所述第一左邻近词匹配结果为匹配失败,所述第一右邻近词匹配结果为匹配成功时,将所述第一左邻近词的邻近词作为新的第一左邻近词,所述第一右邻近词保持不变;
当所述第一左邻近词匹配结果为匹配成功,所述第一右邻近词匹配结果为匹配失败时,将所述第一右邻近词的邻近词作为新的第一右邻近词,所述第一左邻近词保持不变;
当所述第一左邻近词匹配结果和所述第一右邻近词匹配结果都为匹配失败时,将所述第一左邻近词的邻近词作为新的第一左邻近词,将所述第一右邻近词的邻近词作为新的第一右邻近词。
6.根据权利要求2或5任一所述的自动补充质检关键词表的方法,其特征在于,所述步骤九中的将步骤六中所述第一邻近词的邻近词作为该步骤中新的第一邻近词,具体包括:通过滑窗的方法获得所述第一邻近词的邻近词。
7.根据权利要求1-5任一所述的自动补充质检关键词表的方法,其特征在于,将所述补充词加入所述质检关键词表之前,所述方法还包括:
获取样本音频集,将所述样本音频集中的样本音频输入语音识别模型,得到所述样本音频的语音识别内容;
以所述补充词作为质检词对所述样本音频的语音识别内容进行匹配,统计匹配成功的概率;
将所述概率大于预设值的所述补充词加入所述质检关键词表。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
CN202010089159.0A 2020-02-12 2020-02-12 一种自动补充质检关键词表的方法、电子设备和存储介质 Active CN111161707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089159.0A CN111161707B (zh) 2020-02-12 2020-02-12 一种自动补充质检关键词表的方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089159.0A CN111161707B (zh) 2020-02-12 2020-02-12 一种自动补充质检关键词表的方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111161707A CN111161707A (zh) 2020-05-15
CN111161707B true CN111161707B (zh) 2020-12-22

Family

ID=70565619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089159.0A Active CN111161707B (zh) 2020-02-12 2020-02-12 一种自动补充质检关键词表的方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111161707B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050391B (zh) * 2022-11-17 2024-05-14 西安电子科技大学广州研究院 基于细分行业纠错词表的语音识别纠错方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
US10140977B1 (en) * 2018-07-31 2018-11-27 botbotbotbot Inc. Generating additional training data for a natural language understanding engine
CN108922531A (zh) * 2018-07-26 2018-11-30 腾讯科技(深圳)有限公司 槽位识别方法、装置、电子设备及存储介质
CN109151218A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 通话语音质检方法、装置、计算机设备及存储介质
CN109446524A (zh) * 2018-10-25 2019-03-08 第四范式(北京)技术有限公司 一种语音质检方法及装置
CN109977398A (zh) * 2019-02-21 2019-07-05 江苏苏宁银行股份有限公司 一种特定领域的语音识别文本纠错方法
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110634471A (zh) * 2019-09-21 2019-12-31 龙马智芯(珠海横琴)科技有限公司 一种语音质检方法、装置、电子设备和存储介质
CN110718226A (zh) * 2019-09-19 2020-01-21 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374863B2 (en) * 2006-02-10 2013-02-12 Spinvox Limited Mass-scale, user-independent, device-independent voice messaging system
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN108922531A (zh) * 2018-07-26 2018-11-30 腾讯科技(深圳)有限公司 槽位识别方法、装置、电子设备及存储介质
US10140977B1 (en) * 2018-07-31 2018-11-27 botbotbotbot Inc. Generating additional training data for a natural language understanding engine
CN109151218A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 通话语音质检方法、装置、计算机设备及存储介质
CN109446524A (zh) * 2018-10-25 2019-03-08 第四范式(北京)技术有限公司 一种语音质检方法及装置
CN109977398A (zh) * 2019-02-21 2019-07-05 江苏苏宁银行股份有限公司 一种特定领域的语音识别文本纠错方法
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110718226A (zh) * 2019-09-19 2020-01-21 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质
CN110634471A (zh) * 2019-09-21 2019-12-31 龙马智芯(珠海横琴)科技有限公司 一种语音质检方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语音分析的智能质检关键词提取方法设计;关浩华;《自动化与仪器仪表》;20170725(第07期);第106-108页 *

Also Published As

Publication number Publication date
CN111161707A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN107622054B (zh) 文本数据的纠错方法及装置
CN106919661B (zh) 一种情感类型识别方法及相关装置
WO2015062482A1 (en) System and method for automatic question answering
US20170169822A1 (en) Dialog text summarization device and method
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN110634471B (zh) 一种语音质检方法、装置、电子设备和存储介质
CN111669757B (zh) 一种基于通话文本词向量的终端诈骗电话识别方法
CN110942763B (zh) 语音识别方法及装置
CN111210842A (zh) 语音质检方法、装置、终端及计算机可读存储介质
CN113903363B (zh) 基于人工智能的违规行为检测方法、装置、设备及介质
CN110287318B (zh) 业务操作的检测方法及装置、存储介质、电子装置
CN112507072A (zh) 基于对话的销售考评方法、系统及电子设备
CN114639386A (zh) 文本纠错及文本纠错词库构建方法
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111161707B (zh) 一种自动补充质检关键词表的方法、电子设备和存储介质
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN116303951A (zh) 对话处理方法、装置、电子设备和存储介质
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN116150333A (zh) 文本匹配方法、装置、电子设备及可读存储介质
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
CN115374793A (zh) 基于服务场景识别的语音数据处理方法及相关装置
CN115391541A (zh) 智能合约代码自动审查方法、存储介质和电子设备
CN115294974A (zh) 一种语音识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong

Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

Address before: Room 417, 418, 419, building 20, creative Valley, 1889 Huandao East Road, Hengqin New District, Zhuhai City, Guangdong Province

Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder