CN116206596A - 一种垂类领域端到端语音识别方法与装置 - Google Patents
一种垂类领域端到端语音识别方法与装置 Download PDFInfo
- Publication number
- CN116206596A CN116206596A CN202310201243.0A CN202310201243A CN116206596A CN 116206596 A CN116206596 A CN 116206596A CN 202310201243 A CN202310201243 A CN 202310201243A CN 116206596 A CN116206596 A CN 116206596A
- Authority
- CN
- China
- Prior art keywords
- context
- acoustic
- representation
- phrase
- wen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012512 characterization method Methods 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 45
- 238000002372 labelling Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 6
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种垂类领域端到端语音识别方法与装置,涉及智能语音技术领域,包括如下步骤:接收待识别语音信号,提取待识别语音信号的声学特征;将声学特征输入训练好的端到端语音识别模型中获取识别结果;通过编码器提取语音信号的高级声学表征,并通过与上下文感知矩阵融合得到上下文声学表征;通过上下文编码器将上下文短语映射成固定维度的字嵌入表征;通过编码器结合解码器提取音频对应文本的最终词嵌入表征并与所述上下文声学表征通过注意力机制进行融合,输出解码结果。本发明考虑上下文编码器同时考虑了上下文短语的字序列及发音序列,有利于提取更加具有区分性的词嵌入表征,缓解上下文短语量级的提升而导致的相似短语之间的串扰。
Description
技术领域
本发明涉及智能语音技术领域,尤其涉及一种垂类领域端到端语音识别方法与装置。
背景技术
作为人机交互的重要手段之一,语音识别(auto speechrecognition,ASR)技术已广泛应用于手机、音箱、大屏、车机等智能终端设备上。目前,语音识别方案可分为传统方案及端到端方案,传统方案由声学模型(acoustic model)、语言模型(language model)、发音词典(lexicon)及解码器(decoder)等相互独立的模块组成,端到端方案则是将传统方案中各个独立的模块融合到一个由编码器及解码器组成的神经网络模型中进行联合优化,直接将输入的声音信号转换成对应的文本序列。近年来,随着端到端语音识别技术的发展及相对于传统方案的优越性,端到端的语音识别方案已经成为业界使用的主流方案。在通用领域,端到端语音识别已经能够达到较好的识别效果,但是,在一些垂类领域(医学领域、金融领域等),由于存在大量的专有名词且在训练集中出现的频率较低,这些专有名词通常被识别成发音相近的通用词汇,导致ASR模型对于这类专有名词识别效果较差。
为了提升端到端语音识别模型对垂类领域中专有名词的识别效果,现有端到端识别方案一般是在识别过程中动态融入上下文信息(contextual information),增加模型对上下文的感知能力,进而根据提供的垂类上下文短语(如医学领域的药品名,金融领域的专有名词等)去提升识别效果。具体做法是首先在模型训练过程中随机抽取当前批次(batch)文本数据中的若干连续不定长文本作为当前batch数据的上下文短语,通过一个上下文编码器(context encoder)将每个短语映射成固定维度的词嵌入,然后采用attention注意力机制对词嵌入计算注意力得分,在模型输出预测的每一步根据attention计算得到的注意力得分对提供的上下文短语列表进行加权平均,去聚焦可用的上下文信息,对目标文本进行定向增强。而在推理阶段,根据提供的垂类领域上下文短语列表,对识别结果进行纠偏增强。
针对端到端语音识别方案在垂类领域识别效果较差的问题,现有方案一般是在端到端语音识别模型中增加一个上下文编码器,将提供的上下文短语映射成固定维度的词嵌入特征,在模型解码过程中通过注意力机制计算当前音频对于各个上下文短语的注意力得分并根据注意力得分将上下文短语对应的词嵌入特征进行加权和,并将加权和后的词嵌入特征融合到模型的解码过程中,进而使得模型根据当前的上下文信息输出正确的解码结果。然而,一方面,现有方案一般仅在解码器中与上下文编码器输出的上下文信息进行融合,未充分利用编码器提取的音频声学表征,导致上下文短语召回率较低,此外,现有方案中上下文编码器仅对上下文短语对应的字序列进行建模,对于含有多音字的上下文短语,无法生成具有区分性的词嵌入表征,进而导致该类上下文短语召回率较低;另一方面,当垂类领域的上下文短语量级较大(1000)时,通过注意力机制计算得到的端到端语音识别模型对于上下文短语列表的注意力得分分布趋于平滑,模型对于目标上下文短语与其他不相关上下文短语之间的区分性减弱,导致模型不能解码出正确的上下文短语,进而导致上下文短语召回率下降。
发明内容
本发明提供了一种垂类领域端到端语音识别方法与装置,目的是解决现有技术中存在的缺点。
为了实现上述目的,本发明提供如下技术方案:一种垂类领域端到端语音识别方法,包括如下步骤:
接收待识别语音信号,提取所述待识别语音信号的声学特征;
构建端到端语音识别模型;
获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果;
所述端到端语音识别模型由编码器、上下文编码器及解码器构成,且获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤:
通过编码器提取语音信号的声学表征,并获取声学特征对应的标注文本表征和上下文短语;
计算声学表征、标注文本表征与上下文短语的相似性矩阵,并对相似性矩阵进行多维度排序,选取值最大的topk值进行softmax归一化处理,其他位置元素置零;
通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵;
通过与上下文感知矩阵融合得到上下文声学表征Xcontext;
通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征;
通过解码器提取音频对应文本的最终词嵌入表征,并与所述上下文声学表征Xcontext通过注意力机制进行融合,输出识别结果。
优选的,将所述通过编码器提取语音信号的声学表征,并通过与上下文感知矩阵融合得到上下文声学表征Xcontext,具体包括如下步骤:
通过声学编码模块及第一上下文注意力模块构建所述编码器;
将所述声学特征送入到声学编码模块中计算,得到语音信号的声学表征;
利用第一上下文注意力模块将声学表征作为查询向量Q、将上下文短语的词嵌入表征作为键向量K及值向量V,进行声学表征与上下文短语的词嵌入表征之间的相关性计算;
根据查询向量Q、键向量K与值向量V计算得到上下文感知矩阵H与声学表征X;
将上下文感知矩阵H与声学表征X进行融合得到上下文声学表征Xcontext。
优选的,所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下:
Q1=σ(XTWq+1(bq)T)
K1=σ(CTWk+1(bk)T)
V1=σ(CTWv+1(bv)T)
H=a1V1
Xcontext=X+H或Xcontext=[X,H]
其中,X=[h1,...,hT]∈RdxT为声学编码模块的输出且T为音频经过声学编码模块提取的帧数,d为每一帧声学表征的维度;C=[c1,...,cn]∈Rk×n为上下文编码器生成的词嵌入表征,n为上下文短语的个数,k为上下文短语的词嵌入维度;σ(·)为激活函数,Wq、Wk、Wv、bq、bk、bv为相关权重及偏置参数;a∈RT×n为声学表征与上下文短语之间的相似性矩阵。
优选的,所述通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征,具体包括如下步骤:
通过字编码模块与音素编码模块构成所述上下文编码器;
将上下文短语分割为子词或字;
将子词或字输入字编码模块生成固定维度的表征向量;
将上下文短语转换成对应的发音序列;
将所述发音序列输入到音素编码模块中生成固定维度的音素表征向量;
将字编码模块及音素编码模块分别输出的表征向量进行拼接组成上下文短语的最终词嵌入表征。
优选的,所述通过解码器提取音频对应文本的最终词嵌入表征,并与所述上下文声学表征Xcontext通过注意力机制进行融合,输出识别结果,具体包括如下步骤:
通过解码模块及第二上下文注意力模块构成解码器;
解码器通过注意力机制计算当前标注文本与上下文声学表征之间的相关性;
根据相关性系数将上下文声学表征与当前标注文本的嵌入表征进行融合,最终输出解码结果;
通过第二上下文注意力模块计算音频当前文本的嵌入表征与上下文短语的词嵌入表征之间的相关性。
优选的,所述构建端到端语音识别模型,并对端到端语音识别模型进行训练,包括如下步骤:
构建训练时的上下文短语列表;
计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵,通过相似性矩阵对端到端语音识别模型进行训练。
优选的,所述构建训练时的上下文短语列表,包括如下步骤:
对当前批次的训练数据,将其对应的文本标注进行分词并进行词性标注;
针对每一条音频对应的标注文本,以概率p1确定是否从当前标注文本中选择连续字符作为上下文短语;
判断随机生成的概率是否大于p1;
在大于P1时从当前标注文本中选择连续字符作为上下文短语,针对当前标注文本中的多个词组,以概率p2确定选择哪个词组作为上下文短语,遍历当前标注文本中的所有词组;
在随机生成的概率大于p2,则选择当前词组加入到上下文短语列表中;
如果当前词组为名词,则随机生成的概率大于p2/2时就将当前名词加入到上下文短语列表中;
将无偏置短语no-bias加入到上下文短语列表中,以适配当前音频无对应上下文短语的情况。
优选的,所述计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵,包括如下步骤:
将声学表征及标注文本表征作为查询向量,上下文短语列表对应的词嵌入表征作为键向量及值向量;
通过注意力机制分别计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵。
一种语音识别装置,包括:
第一获得模块,用于接收待识别语音信号,并获得所述待识别语音信号的声学特征;
第二获得模块,与所述第一获得模块连接,用于将所述声学特征输入至训练后的端到端语音识别模型中以获得识别结果。
本发明与现有技术相比具有以下有益效果:
本发明考虑上下文编码器同时考虑了上下文短语的字序列及发音序列,有利于提取更加具有区分性的词嵌入表征,同时本发明在计算声学表征及文本表征与上下文短语的相关性时,通过先取topk再进行softmax归一化,并将其他位置置零的操作,不仅消除了无关上下文短语对解码过程的干扰,而且增加了相似上下文短语之间的区分性,有利于缓解因上下文短语量级的提升而导致的相似短语之间的串扰。
附图说明
图1为本发明端到端语音识别模型的流程图;
图2为本发明端到端语音识别模型训练流程图;
图3为本发明语音识别装置图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1-3所示,本申请提供一种垂类领域端到端语音识别方法、模型的训练方法及相关装置,以提升现有端到端语音识别模型对关键词的召回率并降低关键词之间的串扰率。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种垂类领域端到端语音识别方法,包括:
S1:通过第一获得模块接收待识别语音信号,并提取待检测语音信号的声学特征。
S3:构建端到端语音识别模型。
S3:获取声学特征并输入至训练好的端到端语音识别模型中以获取识别结果。
其中,端到端语音识别模型由编码器、上下文编码器及解码器构成,且获取声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤:
S31:通过编码器提取声学特征的声学表征,并获取声学特征对应的标注文本表征和上下文短语。
S32:计算声学表征、标注文本表征与上下文短语的相似性矩阵,并对相似性矩阵进行多维度排序,选取值最大的topk值进行softmax归一化处理,其他位置元素置零。
S33:通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵。
S34:将上下文感知矩阵通过与声学表征融合得到上下文声学表征Xcontext。
S35:通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征。
S36:通过解码器提取音频对应文本的最终词嵌入表征,并与上下文声学表征Xcontext通过注意力机制进行融合,输出识别结果。
如图1所示,编码器由声学编码模块及第一上下文注意力模块组成。声学编码模块用于提取语音信号的高级声学表征,可采用堆叠多层卷据神经网络(ConvolutionalNeural Network,CNN)、长短期记忆网络(Long short-termmemory,LSTM)、自注意力层(self-attention transformer layer)等神经网络结构组成,将声学特征送入到声学编码模块中进行计算,得到语音信号的高级声学表征。第一上下文注意力模块用于计算音频声学表征与上下文短语的词嵌入表征之间的相关性,将声学表征作为查询向量(Q),上下文短语的词嵌入表征作为键向量(K)及值向量(V),具体计算过程如下:
Q1=σ(XTWq+1(bq)T)
K1=σ(CTWk+1(bk)T)
V1=σ(CTWv+1(bv)T)
H=a1V1
Xcontext=X+H或Xcontext=[X,H]
其中,X=[h1,...,hT]∈RdxT为声学编码模块的输出且T为音频经过声学编码模块提取的帧数,d为每一帧声学表征的维度;C=[c1,...,cn]∈Rk×n为上下文编码器生成的词嵌入表征,n为上下文短语的个数,k为上下文短语的词嵌入维度;σ(·)为激活函数,Wq、Wk、Wv、bq、bk、bv为相关权重及偏置参数;a∈RT×n为声学表征与上下文短语之间的相似性矩阵,进行softmax归一化处理之前需要对相似性矩阵沿n维度进行排序,只对值较大的前topk的值进行softmax归一化处理,其他位置置零,再根据相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵,最后将上下文感知矩阵H与声学表征X进行融合,具体融合方式可通过矩阵加或拼接方式实现,最终得到经过上下文感知融合的声学表征Xcontext。
上下文编码器由字编码模块及音素编码模块组成。其中字编码模块用于将上下文短语映射成固定维度的字嵌入表征,首先将上下文短语分割为子词或字,然后输入字编码模块生成固定维度的表征向量,字编码模块可采用堆叠单向长短期记忆网络、双向长短期记忆网络、自注意力层等神经网络结构组成。音素编码模块用于将上下文短语映射成固定维度的音素嵌入表征,首先将上下文短语转换成对应的发音序列(中文可以为声韵母,英文可以为音素),然后输入到音素编码模块中生成固定维度的音素表征向量,音素编码模块可采用堆叠单向长短期记忆网络、双向长短期记忆网络、自注意力层等神经网络结构组成,最后将字编码模块及音素编码模块分别输出的表征向量进行拼接组成上下文短语的最终词嵌入表征。
解码器包括解码模块及第二上下文注意力模块组成,解码模块用于提取音频对应文本的词嵌入表征并与上下文声学表征Xcontext通过注意力机制进行融合,可采用堆叠多层卷据神经网络(ConvolutionalNeuralNetwork,CNN)、长短期记忆网络(Long short-termmemory,LSTM)、自注意力层(self-attention transformer layer)等神经网络结构组成,具体做法将是标注文本的词嵌入表征作为查询向量,上下文声学表征Xcontext作为键向量及值向量,通过注意力机制计算当前标注文本与上下文声学表征之间的相关性并根据相关性系数将上下文声学表征与当前标注文本的嵌入表征进行融合,最终输出解码结果;第二上下文注意力模块用于计算音频当前文本的嵌入表征与上下文短语的词嵌入表征之间的相关性,将当前标注文本的嵌入表征作为查询向量(Q),上下文短语的词嵌入表征作为键向量(K)及值向量(V),具体计算过程与第一上下文注意力模块相同。
为解决上述技术问题,本申请采用的另一个技术方案是:如图2所示,提供一种模型的训练方法,包括:
1、构建训练时的上下文短语列表,具体步骤为:首先,针对当前批次的训练数据,将其对应的文本标注进行分词并进行词性标注,然后,针对每一条音频对应的标注文本,以概率p1确定是否从当前标注文本中选择连续字符作为上下文短语,如果随机生成的概率大于p1,则从当前标注文本中选择连续字符作为上下文短语,针对当前标注文本中的多个词组,以概率p2确定选择哪个词组作为上下文短语,遍历当前标注文本中的所有词组,如果随机生成的概率大于p2,则选择当前词组加入到上下文短语列表中,如果当前词组为名词,则随机生成的概率大于p2/2时就将当前名词加入到上下文短语列表中,这样可以增加名词被选中的概率,与实际使用场景相匹配;最后,将无偏置短语no-bias加入到上下文短语列表中,以适配当前音频无对应上下文短语的情况;2、计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵,具体步骤为:首先,将声学表征及标注文本表征作为查询向量,上下文短语列表对应的词嵌入表征作为键向量及值向量,通过注意力机制分别计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵,对相似性矩阵进行softmax时只针对值较大的topk个元素进行归一化,将相关性参数归一化到0~1之间,其他位置元素置零,这样一方面可以减少不相关上下文短语的干扰,另一方面,增加了相似上下文短语之间的区分性,有利于正确的召回对应的上下文短语。
为解决上述技术问题,本申请采用的另一个技术方案是:如图3所示,提供一种语音识别装置,包括:第一获得模块,用于接收待识别语音信号,并获得待识别语音信号的声学特征;第二获得模块,与第一获得模块连接,用于将声学特征输入至训练后的端到端语音识别模型中以获得识别结果。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述任一实施例中的方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述任一实施例中的方法。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。
Claims (9)
1.一种垂类领域端到端语音识别方法,其特征在于,包括如下步骤:
接收待识别语音信号,提取所述待识别语音信号的声学特征;
构建端到端语音识别模型;
获取所述声学特征并输入至端到端语音识别模型中获取识别结果;
所述端到端语音识别模型由编码器、上下文编码器及解码器构成,且获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤:
通过编码器提取声学特征的声学表征,并获取声学特征对应的标注文本表征和上下文短语;
计算声学表征、标注文本表征与上下文短语的相似性矩阵,并对相似性矩阵进行多维度排序,选取值最大的topk值进行softmax归一化处理,其他位置元素置零;
通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵;
将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征Xcontext;
通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征;
通过解码器提取音频对应文本的最终词嵌入表征,并与所述上下文声学表征Xcontext通过注意力机制进行融合,输出识别结果。
2.如权利要求1所述的一种垂类领域端到端语音识别方法,其特征在于,将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征Xcontext,具体包括如下步骤:
通过声学编码模块及第一上下文注意力模块构建所述编码器;
将所述声学特征送入到声学编码模块中计算,得到语音信号的声学表征;
利用第一上下文注意力模块将声学表征作为查询向量Q、将上下文短语的词嵌入表征作为键向量K及值向量V,进行声学表征与上下文短语的词嵌入表征之间的相关性计算;
根据查询向量Q、键向量K与值向量V计算得到上下文感知矩阵H与声学表征X;
将上下文感知矩阵H与声学表征X进行融合得到上下文声学表征Xcontext。
3.如权利要求2所述的一种垂类领域端到端语音识别方法,其特征在于,所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下:
Q1=σ(XTWq+1(bq)T)
K1=σ(CTWk+1(bk)T)
V1=σ(CTWv+1(bv)T)
H=a1V1
Xcontext=X+H或Xcontext=[X,H]
其中,X=[h1,...,hT]∈RdxT为声学编码模块的输出且T为音频经过声学编码模块提取的帧数,d为每一帧声学表征的维度;C=[c1,...,cn]∈Rk×n为上下文编码器生成的词嵌入表征,n为上下文短语的个数,k为上下文短语的词嵌入维度;σ(·)为激活函数,Wq、Wk、Wv、bq、bk、bv为相关权重及偏置参数;a∈RT×n为声学表征与上下文短语之间的相似性矩阵。
4.如权利要求1所述的一种垂类领域端到端语音识别方法,其特征在于,所述通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征,具体包括如下步骤:
通过字编码模块与音素编码模块构成所述上下文编码器;
将上下文短语分割为子词或字;
将子词或字输入字编码模块生成固定维度的表征向量;
将上下文短语转换成对应的发音序列;
将所述发音序列输入到音素编码模块中生成固定维度的音素表征向量;
将字编码模块及音素编码模块分别输出的表征向量进行拼接组成上下文短语的最终词嵌入表征。
5.如权利要求1所述的一种垂类领域端到端语音识别方法,其特征在于,所述通过解码器提取音频对应文本的最终词嵌入表征,并与所述上下文声学表征Xcontext通过注意力机制进行融合,输出识别结果,具体包括如下步骤:
通过解码模块及第二上下文注意力模块构成解码器;
解码器通过注意力机制计算当前标注文本与上下文声学表征之间的相关性;
根据相关性的系数将上下文声学表征与当前标注文本的嵌入表征进行融合,最终输出解码结果;
通过第二上下文注意力模块计算音频当前文本的嵌入表征与上下文短语的词嵌入表征之间的相关性。
6.如权利要求2所述的一种垂类领域端到端语音识别方法,其特征在于,其特征在于,所述构建端到端语音识别模型,对端到端语音识别模型进行训练,包括如下步骤:
构建训练时的上下文短语列表;
计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵,通过相似性矩阵对端到端语音识别模型进行训练。
7.如权利要求6所述的一种垂类领域端到端语音识别方法,其特征在于,所述构建训练时的上下文短语列表,包括如下步骤:
对当前批次的训练数据,将其对应的文本标注进行分词并进行词性标注;
针对每一条音频对应的标注文本,以概率p1确定是否从当前标注文本中选择连续字符作为上下文短语,构建上下文短语列表;
判断随机生成的概率是否大于概率p1;
在大于概率p1时从当前标注文本中选择连续字符作为上下文短语,针对当前标注文本中的多个词组,以概率p2确定选择哪个词组作为上下文短语,遍历当前标注文本中的所有词组;
在随机生成的概率大于p2时,则选择当前词组加入到上下文短语列表中;
如果当前词组为名词,则随机生成的概率大于p2/2时就将当前名词加入到上下文短语列表中;
将无偏置短语no-bias加入到上下文短语列表中,以适配当前音频无对应上下文短语的情况。
8.如权利要求6所述的一种垂类领域端到端语音识别方法,其特征在于,所述计算声学表征、标注文本表征与上下文短语列表之间的相似性矩阵,包括如下步骤:
将声学表征及标注文本表征作为查询向量,上下文短语列表对应的词嵌入表征作为键向量及值向量;
通过注意力机制分别计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵。
9.一种语音识别装置,其特征在于,包括:
第一获得模块,用于接收待识别语音信号,并获得所述待识别语音信号的声学特征;
第二获得模块,与所述第一获得模块连接,用于将所述声学特征输入至训练后的端到端语音识别模型中以获得识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310201243.0A CN116206596A (zh) | 2023-02-28 | 2023-02-28 | 一种垂类领域端到端语音识别方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310201243.0A CN116206596A (zh) | 2023-02-28 | 2023-02-28 | 一种垂类领域端到端语音识别方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116206596A true CN116206596A (zh) | 2023-06-02 |
Family
ID=86512607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310201243.0A Pending CN116206596A (zh) | 2023-02-28 | 2023-02-28 | 一种垂类领域端到端语音识别方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206596A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453514A (zh) * | 2023-06-08 | 2023-07-18 | 四川大学 | 一种基于多视角的语音关键词检测与定位方法及装置 |
CN117153152A (zh) * | 2023-10-31 | 2023-12-01 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
-
2023
- 2023-02-28 CN CN202310201243.0A patent/CN116206596A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116453514A (zh) * | 2023-06-08 | 2023-07-18 | 四川大学 | 一种基于多视角的语音关键词检测与定位方法及装置 |
CN116453514B (zh) * | 2023-06-08 | 2023-08-25 | 四川大学 | 一种基于多视角的语音关键词检测与定位方法及装置 |
CN117153152A (zh) * | 2023-10-31 | 2023-12-01 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN117153152B (zh) * | 2023-10-31 | 2024-02-13 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240161732A1 (en) | Multi-dialect and multilingual speech recognition | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN116206596A (zh) | 一种垂类领域端到端语音识别方法与装置 | |
CN113811946A (zh) | 数字序列的端到端自动语音识别 | |
CN110428822B (zh) | 一种语音识别纠错方法及人机对话系统 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111583909A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN112599128A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN115617955B (zh) | 分级预测模型训练方法、标点符号恢复方法及装置 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN114708474A (zh) | 一种融合局部和全局特征的图像语义理解算法 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
WO2022134164A1 (zh) | 翻译方法、装置、设备及存储介质 | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN111816171B (zh) | 语音识别模型的训练方法、语音识别方法及装置 | |
CN114121018A (zh) | 语音文档分类方法、系统、设备及存储介质 | |
CN114519358A (zh) | 翻译质量评估方法、装置、电子设备和存储介质 | |
CN117150023B (zh) | 一种面向智能对话系统的对话状态追踪方法 | |
CN111984785B (zh) | 一种基于多领域多轮问答的对话状态跟踪方法 | |
CN109062911B (zh) | 一种人工智能语音建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |