CN113035179B - 一种语音识别方法、装置、设备及计算机可读存储介质 - Google Patents

一种语音识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113035179B
CN113035179B CN202110233724.0A CN202110233724A CN113035179B CN 113035179 B CN113035179 B CN 113035179B CN 202110233724 A CN202110233724 A CN 202110233724A CN 113035179 B CN113035179 B CN 113035179B
Authority
CN
China
Prior art keywords
target
voice
current decoding
vector
context vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110233724.0A
Other languages
English (en)
Other versions
CN113035179A (zh
Inventor
尤祖寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
University of Science and Technology of China USTC
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, iFlytek Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202110233724.0A priority Critical patent/CN113035179B/zh
Publication of CN113035179A publication Critical patent/CN113035179A/zh
Application granted granted Critical
Publication of CN113035179B publication Critical patent/CN113035179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质,其中,语音识别方法包括:根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,目标语音为针对目标问题的作答语音,目标关键词为目标问题中包含的关键词,和/或目标问题对应的标准答案中包含的关键词;根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。本申请提供的语音识别方法在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词和与目标关键词有关的目标问题,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词。

Description

一种语音识别方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。
背景技术
语音识别技术为将语音信号转变为相应文本的技术。目前的语音识别方案通常为基于语音识别模型的识别方案,在过去的这几年里,基于注意力机制的端到端的语音识别模型引发了广泛的关注,在语音识别任务中,基于注意力机制的端到端的语音识别模型用一个单一的神经网络取代了传统的声学模型、发音模型、语言模型组合,并且能够通过统一目标进行优化。
基于注意力机制的端到端的语音识别模型虽然得到广泛应用,但也有一些问题随之而来。在问答场景中,用户对一些关键词较为关注,希望根据语音识别模型能够准确识别出语音中的关键词,然而,由于问答场景中的关键词通常为低频词,而训练数据集中包含关键词的训练数据较少,因此,根据训练得到的语音识别模型对问答场景中的语音进行识别时,对于关键词的识别效果不佳。
发明内容
有鉴于此,本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质,用以解决现有技术中的语音识别方案对问答场景中关键词的识别效果不佳的问题,其技术方案如下:
一种语音识别方法,包括:
根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题中包含的关键词,和/或所述目标问题对应的标准答案中包含的关键词;
根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
可选的,所述根据待识别的目标语音以及目标关键词,确定当前解码时刻的第一上下文向量,根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果,包括:
利用预先训练得到的语音识别模型处理所述目标语音、所述目标关键词和所述目标问题,得到所述语音识别模型输出的所述目标语音的识别结果,其中,所述语音识别模型采用训练语音、所述训练语音对应的标注文本,同时辅以对应的关键词和问题训练得到。
可选的,所述语音识别模型包括:语音编码器、关键词编码器、问题编码器、注意力模块和解码器;
所述语音编码器对所述目标语音中各语音帧分别对应的语音特征进行编码,得到所述目标语音中各语音帧分别对应的特征向量;
所述关键词编码器对所述目标关键词进行编码,得到所述目标关键词对应的特征向量;
所述问题编码器对所述目标问题进行编码,得到所述目标问题对应的特征向量;
所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量和所述目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,根据所述目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
所述解码器根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
可选的,所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量和所述目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,包括:
所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量、所述目标关键词对应的特征向量以及所述解码器在前一解码时刻的隐层输出向量,确定所述目标语音中各语音帧分别对应的权重;
所述注意力模块按所述目标语音中各语音帧分别对应的权重,对所述目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第一上下文向量。
可选的,所述注意力模块根据所述目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,包括:
所述注意力模块将所述目标问题对应的特征向量与当前解码时刻的第一上下文向量进行融合,得到同时包含有所述目标问题的信息和所述目标关键词的信息的融合向量;
所述注意力模块根据所述融合向量、所述目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量。
可选的,所述注意力模块根据所述融合向量、所述目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量,包括:
所述注意力模块根据所述融合向量,从所述目标语音中各语音帧分别对应的特征向量中提取与当前解码时刻相关的特征向量;
所述注意力模块根据从所述目标语音中各语音帧分别对应的特征向量中提取出的特征向量,确定所述目标语音中各语音帧分别对应的权重;
所述注意力模块按所述目标语音中各语音帧分别对应的权重,对所述目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第二上下文向量。
可选的,所述解码器根据当前解码时刻的第二上下文向量确定当前解码时刻的识别结果,包括:
所述解码器根据当前解码时刻的第二上下文向量、所述目标问题对应的特征向量以及前一解码时刻的识别结果的表征向量,确定当前解码时刻的识别结果。
一种语音识别装置,包括:第一上下文向量确定模块、第二上下文向量确定模块和识别结果确定模块;
所述第一上下文向量确定模块,用于根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题对应的标准答案中包含的关键词;
所述第二上下文向量确定模块,用于根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
所述识别结果确定模块,用于根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
一种语音识别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的语音识别方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的语音识别方法的各个步骤。
经由上述方案可知,本申请提供的语音识别方法、装置、设备及计算机可读存储介质,首先根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,即本申请首先结合目标关键词确定与当前解码时刻相关的第一上下文向量,然后根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,考虑到关键词与问题相关,在获得当前解码时刻的第二上下文向量后,本申请结合目标问题和第一上下文向量,确定当前解码时刻解码所需的上下文向量,最后根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。本申请提供的语音识别方法在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词以及与目标关键词有关的目标问题,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词,本申请提供的语音识别方法相比于现有的语音识别方案,提升了关键词的识别效果,用户体验较好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的语音识别方法的流程示意图;
图2为本申请实施例提供的语音识别模型的一结构示意图;
图3为本申请实施例提供的图2中语音识别模型进行语音识别的流程示意图;
图4为本申请实施例提供的语音识别装置的结构示意图;
图5为本申请实施例提供的语音识别设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。根据本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在问答场景中,用户对于关键词的关注度较高,比如,在问答考试场景中,需要考生听一段对话回答问题,正确答案有多种表达形式,但都必须包含关键词,或者,对话中存在多个关键词,正确答案可能包含其一或不在其中,抑或是听一篇短文,然后让考生复述短文内容,此时短文中的关键词就显得尤为重要。
由于现有的端到端的语音识别模型为一体化建模,通常需要海量的训练数据来训练模型,以保证模型的泛化性,这虽然保证了模型的整体效果,但也带来了一个问题,那就是,训练得到的语音识别模型对于低频词(上述的关键词)的识别效果不佳。
为了能够提升对于特定场景中关键词的识别效果,本案发明人进行了研究,起初的思路是:对于关键词,在解码过程中进行额外的激励,然而,经研究发现,一方面,即使在解码过程中对关键词给与了额外的激励,仍然很容易被裁剪掉,另一方面,为了确保误触发率可控,激励得分不宜设置过大,上述两个方面使得,在解码过程中对关键词进行额外的激励,对于关键词识别效果的提升不尽人意。
鉴于上述思路存在的问题,本案发明人试图摒弃上述进行激励的方式,从其他角度入手来提升对于特定场景中关键词的识别效果,为此,进行了深入研究,通过研究,最终提出了一种能够显著提升对关键词的识别效果的语音识别方法,该方法的基本思路是:
对待识别语音对应的特征向量与关键词所对应的特征向量进行注意力计算,以得到第一上下文向量,然后对待识别语音对应的问题所对应的特征向量与第一上下文向量进行注意力计算,以得到第二上下文向量,最后根据第二上下文向量确定识别结果。
本申请提供的语音识别方法可应用于具有处理能力的电子设备,该电子设备可以为网络侧的服务器,也可以为用户侧使用的终端,比如PC、笔记本、智能手机、车载终端、智能家居设备等,网络侧的服务器或用户侧使用的终端可按本申请提供的语音识别方法对用户的语音进行识别。
接下来,通过下述实施例对本申请提供的语音识别方法进行介绍。
第一实施例
请参阅图1,示出了本申请实施例提供的语音识别方法的流程示意图,该方法可以包括:
步骤S101:根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量。
其中,目标语音为目标问答场景中针对目标问题的作答语音。
其中,目标关键词可以为一个也可以为多个,目标关键词可以为目标问题中包含的关键词,也可以为目标问题对应的标准答案中包含的关键词,还可以为目标问题中包含的关键词以及目标问题对应的标准答案中包含的关键词。需要说明的是,目标关键词的来源可根据具体情况确定。
具体的,根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量的过程可以包括:
步骤S1011a、获取目标语音中各语音帧分别对应的语音特征,对目标语音中各语音帧分别对应的语音特征进行编码,得到目标语音中各语音帧分别对应的特征向量。
其中,目标语音中一语音帧对应的语音特征可以为FilterBank特征、PLP特征、MFCC特征、FilterBank特征等中的任一种。
步骤S1011b、对目标关键词进行编码,得到目标关键词对应的特征向量。
上述内容提及,目标关键词可以为一个,也可以为多个,若目标关键词为多个,则对多个目标关键词分别进行编码,以得到多个目标关键词分别对应的特征向量。
步骤S1012、根据目标语音中各语音帧分别对应的特征向量和目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量。
其中,当前解码时刻的第一上下文向量能够表征当前待解码字符与待识别语音中其它字符的上下文关系。
由于本实施例在确定当前解码时刻的第一上下文向量时,考虑了目标关键词,因此,当前解码时刻的第一上下文向量为包含对应关键词信息的上下文向量。
步骤S102:根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量。
具体的,根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量的过程包括:
步骤S1021、对目标问题进行编码,得到目标问题对应的特征向量。
步骤S1022、根据目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量。
当前解码时刻的第二上下文向量为最终用于确定当前解码时刻的识别结果的上下文向量。由于第一上下文向量的确定参考了目标关键词,第二上下文向量的确定参考了目标问题和第一上下文向量,因此,第二上下文向量相当于是同时参考目标关键词和目标问题确定的上下文向量,第二上下文向量中包含了与目标问题和目标关键词更加相关的音频信息。
步骤S103:根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
在一种可能的实现方式中,可根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果,为了进一步提升识别效果,在另一种可能的实现方式中,可根据当前解码时刻的第二上下文向量同时结合目标问题,确定当前解码时刻的识别结果,具体的,对目标问题进行编码,得到目标问题对应的特征向量,根据当前解码时刻的第二上下文向量和目标问题对应的特征向量确定当前解码时刻的识别结果,在解码过程中结合目标问题,能够重点关注到与目标问题相关的信息,从而得到更加准确的识别结果。
可选的,在获得目标语音的识别结果后,可根据目标关键词,将目标语音的识别结果中的关键词标记出来,以使用户能够较为直观地看到识别结果中的关键词,从而提升用户体验。其中,标记关键词的方式有多种,比如将关键词加粗、对关键词加下划线、改变关键词的颜色等等。
本申请实施例提供的语音识别方法,首先根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,即本申请实施例首先结合目标关键词确定与当前解码时刻相关的第一上下文向量,然后根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,考虑到关键词与问题相关,在获得当前解码时刻的第一上下文向量后,本申请实施例结合目标问题和第一上下文向量,确定当前解码时刻解码所需的上下文向量,最后根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。本申请实施例提供的语音识别方法在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词以及与目标关键词有关的目标问题,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词,本申请提供的语音识别方法相比于现有的语音识别方案,提升了关键词的识别效果,用户体验较好。
第二实施例
在一种可能的实现方式中,上述实施例提供的语音识别方法可通过预先训练得到的语音识别模型实现,该语音识别模型具备接收并处理待识别语音、对应问题和关键词,输出待识别语音的识别结果的能力。
具体的,语音识别模型根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
请参阅图2,示出了语音识别模型的一种可选结构示意图,其可以包括:语音编码器201、关键词编码器202、问题编码器203、注意力模块204和解码器205,请参阅图3,示出了图2中的语音识别模型进行语音识别的流程示意图,可以包括:
步骤S301a:语音编码器201对目标语音中各语音帧分别对应的语音特征进行编码,得到目标语音中各语音帧分别对应的特征向量。
其中,目标语音中一语音帧对应的特征向量能够表征该语音帧的音频信息。
步骤S301b:关键词编码器202对目标关键词进行编码,得到目标关键词对应的特征向量。
其中,目标关键词对应的特征向量能够表征目标关键词的关键词信息。
步骤S301c:问题编码器203对目标问题进行编码,得到目标问题对应的特征向量。
其中,目标问题对应的特征向量能够表征目标问题的问题信息。
步骤S302:注意力模块204根据目标语音中各语音帧分别对应的特征向量和目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,根据目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量。
可选的,注意力模块204可以包括第一注意力模块和第二注意力模块,其中,第一注意力模块根据目标语音中各语音帧分别对应的特征向量和目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,第二注意力模块根据目标问题对应的特征向量和第一注意力模块确定的当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量。
其中,第一注意力模块根据目标语音中各语音帧分别对应的特征向量和目标关键词对应的特征向量的过程包括:
步骤a1、第一注意力模块根据目标语音中各语音帧分别对应的特征向量、目标关键词对应的特征向量以及解码器204在前一解码时刻的隐层输出向量,确定目标语音中各语音帧分别对应的权重。
假设目标语音包含t个语音帧,目标语音中第j个语音帧对应的特征向量为hj,目标关键词为n(n大于或等于1)个,第i个目标关键词Zi对应的特征向量为当前解码时刻需要解码的是第u个字符,解码器204在前一解码时刻的隐层输出向量(即解第u-1个字符时,解码器的隐层输出向量)为su-1,则首先基于hj、su-1和n个目标关键词分别对应的特征向量计算对应于hj的attention能量/>然后对attention能量/>进行归一化,得到hj对应的权重/>具体的,/>和/>可通过下式(1)和(2)计算:
其中,Ws、WhV均为模型权重参数,V的上标T表示将列向量V转置成行向量,tanh为神经网络激活函数,softmax为归一化函数,/>表示对n个目标关键词分别对应的特征向量求和,若n=1,则/>
步骤a2、第一注意力模块按目标语音中各语音帧分别对应的权重,对目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第一上下文向量。
经由上式(1)和(2)的计算方式可计算出目标语音中各语音帧分别对应的权重,接下来便可按确定出的权重对目标语音中各语音帧分别对应的特征向量加权求和,即:
经由上述计算得到的即为当前解码时刻的第一上下文向量。
在确定出当前解码时刻的第一上下文向量后,第二注意力模块根据目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,接下来对这一过程进行介绍。
第二注意力模块根据目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量的过程可以包括:
步骤b1、第二注意力模块将目标问题对应的特征向量与当前解码时刻的第一上下文向量进行融合,得到同时包含有目标问题的信息和目标关键词的信息的融合向量。
具体的,第二注意力模块将目标问题对应的特征向量与当前解码时刻的第一上下文向量加权求和,加权求和后向量作为同时包含有目标问题的信息和目标关键词的信息的融合向量,即:
其中,p代表目标问题,为目标问题对应的特征向量,/>为当前解码时刻的第一上下文向量,/>为/>对应的权重,Wc q为/>对应的权重,/>和Wc q通过训练得到,Qu,p即为融合向量。
步骤b2、第二注意力模块根据融合向量、目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量。
具体的,第二注意力模块根据融合向量、目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量的过程包括:
步骤b21、第二注意力模块根据融合向量,从目标语音中各语音帧分别对应的特征向量中提取与当前解码时刻相关的特征向量。
具体的,可根据下式从目标语音中各语音帧分别对应的特征向量中提取与当前解码时刻相关的特征向量:
其中,Qu,p为融合向量,hj为目标语音中第j个语音帧对应的特征向量,eu,p,j即为从目标语音中第j个语音帧对应的特征向量中提取出的与当前解码时刻相关的特征向量。
步骤b22、第二注意力模块根据从目标语音中各语音帧分别对应的特征向量中提取出的特征向量,确定目标语音中各语音帧分别对应的权重。
具体的,第二注意力模块对从目标语音中各语音帧分别对应的特征向量中提取出的特征向量进行归一化,便得到目标语音中各语音帧分别对应的权重。
在本实施例中,可采用归一化函数softmax对从目标语音中各语音帧分别对应的特征向量中提取出的特征向量进行归一化,即:
αu,p,j=softmax(eu,p,j) (6)
其中,αu,p,j为目标语音中第j个语音帧对应的权重。
步骤b23、第二注意力模块按目标语音中各语音帧分别对应的权重,对目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第二上下文向量。
在获得目标语音中各语音帧分别对应的权重后,通过下式的计算方式计算得到当前解码时刻的第二上下文向量:
步骤S303:解码器204根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
解码器204根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果的实现方式有多种:在一种可能的实现方式中,解码器204根据当前解码时刻的第二上下文向量和前一解码时刻的识别结果的表征向量,确定当前解码时刻的识别结果;在另一种较为优选的实现方式中,解码器204根据当前解码时刻的第二上下文向量、目标问题对应的特征向量和前一解码时刻的识别结果的表征向量,确定当前解码时刻的识别结果。上述第二种实现方式结合了目标问题的信息,这使得解码器在解码过程中能够重点关注到与目标问题相关的信息,从而提升模型的识别效果。
需要说明的是,上述语音识别模型采用训练语音、训练语音对应的标注文本同时辅以训练语音对应的问题和关键词,对初始的语音识别模型训练得到,其中,训练语音对应的关键词为训练语音对应的问题中包含的关键词,和/或训练语音对应的问题所对应的标准答案中包含的关键词,初始的语音识别模型中的问题编码器可采用目标问答场景中问题的训练数据对通用的词嵌入表征提取模型进行训练得到,初始的语音识别模型中的关键词编码器采用目标问答场景中关键词的训练数据对通用的词嵌入表征提取模型进行训练得到,通用的词嵌入表征提取模型采用通用训练数据训练得到,通用训练数据可以为任何场景中的任何文本数据。
语音识别模型的训练过程包括:从训练语音集中获取训练语音,并获取训练语音对应的标注文本以及训练语音对应的问题和关键词,将训练语音中各语音帧分别对应的语音特征、训练语音对应的问题和关键词输入语音识别模型,得到语音识别模型输出的训练语音的识别结果,根据训练语音的识别结果和训练语音对应的标注文本确定语音识别模型的预测损失,根据语音识别模型的预测损失更新语音识别模型的参数,按上述过程进行多次迭代训练直至满足训练结束条件。
其中,语音识别模型接收并处理训练语音中各语音帧分别对应的语音特征、训练语音对应的问题和关键词,输出训练语音的识别结果的过程与上述语音识别模型接收并处理目标语音中各语音帧分别对应的语音特征、目标语音问题和目标关键词,输出目标语音的识别结果的过程类似,本实施例在此不做赘述。
本申请实施例提供的语音识别模型可根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,根据目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。本申请实施例提供的语音识别模型在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词以及与目标关键词有关的目标问题,因此,确定出的上下文向量包含了与问题和答案中关键词更为相关的信息,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词。
第三实施例
本申请实施例还提供了一种语音识别装置,下面对本申请实施例提供的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
请参阅图4,示出了本申请实施例提供的语音识别装置的结构示意图,可以包括:第一上下文向量确定模块401、第二上下文向量确定模块402和识别结果确定模块403。
第一上下文向量确定模块401,用于根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量。
其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题对应的标准答案中包含的关键词。
第二上下文向量确定模块402,用于根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量。
识别结果确定模块403,用于根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
可选的,第一上下文向量确定模块401、第二上下文向量确定模块402和识别结果确定模块403通过语音识别模型,语音识别模型处理所述目标语音、所述目标关键词和所述目标问题,得到所述语音识别模型输出的所述目标语音的识别结果。其中,所述语音识别模型采用训练语音、所述训练语音对应的标注文本,同时辅以对应的关键词和问题训练得到。
可选的,语音识别模型包括:语音编码器、关键词编码器、问题编码器、注意力模块和解码器。
所述语音编码器对所述目标语音中各语音帧分别对应的语音特征进行编码,得到所述目标语音中各语音帧分别对应的特征向量。
所述关键词编码器对所述目标关键词进行编码,得到所述目标关键词对应的特征向量。
所述问题编码器对所述目标问题进行编码,得到所述目标问题对应的特征向量。
所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量和所述目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,根据所述目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量。
所述解码器根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
可选的,所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量和所述目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量的过程包括:
所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量、所述目标关键词对应的特征向量以及所述解码器在前一解码时刻的隐层输出向量,确定所述目标语音中各语音帧分别对应的权重;
所述注意力模块按所述目标语音中各语音帧分别对应的权重,对所述目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第一上下文向量。
可选的,所述注意力模块根据所述目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量的过程包括:
所述注意力模块将所述目标问题对应的特征向量与当前解码时刻的第一上下文向量进行融合,得到同时包含有所述目标问题的信息和所述目标关键词的信息的融合向量;
所述注意力模块根据所述融合向量、所述目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量。
可选的,所述注意力模块根据所述融合向量、所述目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量的过程包括:
所述注意力模块根据所述融合向量,从所述目标语音中各语音帧分别对应的特征向量中提取与当前解码时刻相关的特征向量;
所述注意力模块根据从所述目标语音中各语音帧分别对应的特征向量中提取出的特征向量,确定所述目标语音中各语音帧分别对应的权重;
所述注意力模块按所述目标语音中各语音帧分别对应的权重,对所述目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第二上下文向量。
可选的,所述解码器根据当前解码时刻的第二上下文向量确定当前解码时刻的识别结果的过程包括:所述解码器根据当前解码时刻的第二上下文向量、所述目标问题对应的特征向量以及前一解码时刻的识别结果的表征向量,确定当前解码时刻的识别结果。
本申请实施例提供的语音识别装置在确定当前解码时刻解码所需的上下文向量时,由于结合了目标关键词以及与目标关键词有关的目标问题,因此,基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词,本申请实施例提供的语音识别语音识别装置相比于现有的语音识别方案,提升了关键词的识别效果,用户体验较好。
第四实施例
本申请实施例还提供了一种语音识别设备,请参阅图5,示出了该语音识别设备的结构示意图,该语音识别设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题中包含的关键词,和/或所述目标问题对应的标准答案中包含的关键词;
根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第五实施例
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题中包含的关键词,和/或所述目标问题对应的标准答案中包含的关键词;
根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题中包含的关键词,和/或所述目标问题对应的标准答案中包含的关键词;
根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述根据待识别的目标语音以及目标关键词,确定当前解码时刻的第一上下文向量,根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果,包括:
利用预先训练得到的语音识别模型处理所述目标语音、所述目标关键词和所述目标问题,得到所述语音识别模型输出的所述目标语音的识别结果,其中,所述语音识别模型采用训练语音、所述训练语音对应的标注文本,同时辅以对应的关键词和问题训练得到。
3.根据权利要求2所述的语音识别方法,其特征在于,所述语音识别模型包括:语音编码器、关键词编码器、问题编码器、注意力模块和解码器;
所述语音编码器对所述目标语音中各语音帧分别对应的语音特征进行编码,得到所述目标语音中各语音帧分别对应的特征向量;
所述关键词编码器对所述目标关键词进行编码,得到所述目标关键词对应的特征向量;
所述问题编码器对所述目标问题进行编码,得到所述目标问题对应的特征向量;
所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量和所述目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,根据所述目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
所述解码器根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
4.根据权利要求3所述的语音识别方法,其特征在于,所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量和所述目标关键词对应的特征向量,确定当前解码时刻的第一上下文向量,包括:
所述注意力模块根据所述目标语音中各语音帧分别对应的特征向量、所述目标关键词对应的特征向量以及所述解码器在前一解码时刻的隐层输出向量,确定所述目标语音中各语音帧分别对应的权重;
所述注意力模块按所述目标语音中各语音帧分别对应的权重,对所述目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第一上下文向量。
5.根据权利要求3所述的语音识别方法,其特征在于,所述注意力模块根据所述目标问题对应的特征向量和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量,包括:
所述注意力模块将所述目标问题对应的特征向量与当前解码时刻的第一上下文向量进行融合,得到同时包含有所述目标问题的信息和所述目标关键词的信息的融合向量;
所述注意力模块根据所述融合向量、所述目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量。
6.根据权利要求5所述的语音识别方法,其特征在于,所述注意力模块根据所述融合向量、所述目标语音中各语音帧分别对应的特征向量,确定当前解码时刻的第二上下文向量,包括:
所述注意力模块根据所述融合向量,从所述目标语音中各语音帧分别对应的特征向量中提取与当前解码时刻相关的特征向量;
所述注意力模块根据从所述目标语音中各语音帧分别对应的特征向量中提取出的特征向量,确定所述目标语音中各语音帧分别对应的权重;
所述注意力模块按所述目标语音中各语音帧分别对应的权重,对所述目标语音中各语音帧分别对应的特征向量加权求和,加权求和后得到的向量作为当前解码时刻的第二上下文向量。
7.根据权利要求3所述的语音识别方法,其特征在于,所述解码器根据当前解码时刻的第二上下文向量确定当前解码时刻的识别结果,包括:
所述解码器根据当前解码时刻的第二上下文向量、所述目标问题对应的特征向量以及前一解码时刻的识别结果的表征向量,确定当前解码时刻的识别结果。
8.一种语音识别装置,其特征在于,包括:第一上下文向量确定模块、第二上下文向量确定模块和识别结果确定模块;
所述第一上下文向量确定模块,用于根据待识别的目标语音和目标关键词,确定当前解码时刻的第一上下文向量,其中,所述目标语音为针对目标问题的作答语音,所述目标关键词为所述目标问题对应的标准答案中包含的关键词;
所述第二上下文向量确定模块,用于根据所述目标问题和当前解码时刻的第一上下文向量,确定当前解码时刻的第二上下文向量;
所述识别结果确定模块,用于根据当前解码时刻的第二上下文向量,确定当前解码时刻的识别结果。
9.一种语音识别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的语音识别方法的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的语音识别方法的各个步骤。
CN202110233724.0A 2021-03-03 2021-03-03 一种语音识别方法、装置、设备及计算机可读存储介质 Active CN113035179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110233724.0A CN113035179B (zh) 2021-03-03 2021-03-03 一种语音识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110233724.0A CN113035179B (zh) 2021-03-03 2021-03-03 一种语音识别方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113035179A CN113035179A (zh) 2021-06-25
CN113035179B true CN113035179B (zh) 2023-09-26

Family

ID=76466428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110233724.0A Active CN113035179B (zh) 2021-03-03 2021-03-03 一种语音识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113035179B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417891B (zh) * 2022-01-22 2023-05-09 平安科技(深圳)有限公司 基于粗糙语义的回复语句确定方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN110020429A (zh) * 2019-02-27 2019-07-16 百度在线网络技术(北京)有限公司 语义识别方法及设备
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN110020429A (zh) * 2019-02-27 2019-07-16 百度在线网络技术(北京)有限公司 语义识别方法及设备
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
T.F. Zheng et al..A two-step keyword spotting method based on context-dependent a posteriori probability.2004 International Symposium on Chinese Spoken Language Processing.2005,全文. *
李艳玲等.多特征融合的英语口语考试自动评分系统的研究.电子与信息学报.2012,全文. *

Also Published As

Publication number Publication date
CN113035179A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN110956959B (zh) 语音识别纠错方法、相关设备及可读存储介质
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111583909B (zh) 一种语音识别方法、装置、设备及存储介质
CN106897372B (zh) 语音查询方法和装置
CN106649739B (zh) 多轮交互信息继承识别方法、装置以及交互系统
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN110990685A (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN109635080A (zh) 应答策略生成方法及装置
CN111128118A (zh) 语音合成方法、相关设备及可读存储介质
CN111324736B (zh) 人机对话模型训练方法、人机对话方法及系统
CN110223134A (zh) 基于语音识别的产品推荐方法及相关设备
CN112509568A (zh) 一种语音唤醒方法及装置
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN111243604B (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
CN113035179B (zh) 一种语音识别方法、装置、设备及计算机可读存储介质
CN110706710A (zh) 一种语音识别方法、装置、电子设备及存储介质
CN108538292B (zh) 一种语音识别方法、装置、设备及可读存储介质
KR102559074B1 (ko) 뉴럴 네트워크를 이용하여 학습자 단말과 학부모 단말에게 영어 교육 서비스를 제공하는 방법 및 장치
CN112652309A (zh) 一种方言语音转换方法、装置、设备及存储介质
CN112017690A (zh) 一种音频处理方法、装置、设备和介质
CN114141271B (zh) 心理状态检测方法及系统
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230519

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province

Applicant before: IFLYTEK Co.,Ltd.

GR01 Patent grant
GR01 Patent grant