CN113270086A - 一种融合多模态语义不变性的语音识别文本增强系统 - Google Patents
一种融合多模态语义不变性的语音识别文本增强系统 Download PDFInfo
- Publication number
- CN113270086A CN113270086A CN202110815743.4A CN202110815743A CN113270086A CN 113270086 A CN113270086 A CN 113270086A CN 202110815743 A CN202110815743 A CN 202110815743A CN 113270086 A CN113270086 A CN 113270086A
- Authority
- CN
- China
- Prior art keywords
- acoustic
- text
- representation
- data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 15
- 108091026890 Coding region Proteins 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000003321 amplification Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。
Description
技术领域
本申请涉及中英混合语音识别文本增强领域,尤其涉及一种融合多模态语义不变性的语音识别文本增强系统。
背景技术
中英混合现象是指在说话过程中切换语言,主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题;建模单元更多,更复杂;不同语言协同发音;数据搜集困难;数据标注困难等问题。随着深度学习技术的发展,特别是端到端模型,单语语音识别技术已有极大地提升。但是端到端模型只能使用语音-文本对数据进行训练,模型对文本数据的利用是极其有限的,大量的纯文本数据无法被直接使用,这限制了模型的性能提升。在实际的语音识别系统中,往往会对模型初步识别的结果进行进一步的处理,以提高语音识别系统的的性能。
常见的处理技术有语言模型重打分,语言模型融合等,这种方法使用大量的额外文本语料训练语言模型,然后使用语言模型对识别结果进行重打分,以提高识别系统的性能。但是这种语言模型是单独训练的,学到的是通用的语言信息,学习不到识别系统的错误模式,无法针对特定的识别系统进行优化。因此一些端到端的语音识别文本增强系统用来解决这个问题。这种模型以语音识别系统的识别结果作为输入,标注文本作为目标。意图通过学习识别系统的错误分布,将识别错误的部分纠正过来以提高语音识别的准确率。
公开号为CN112257437A的专利公开了一种语音识别文本增强方法、装置、电子设备和存储介质,其中方法包括:确定待文本增强的语音数据的识别文本;将所述识别文本,以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别文本增强系统,得到所述语音识别文本增强系统输出的文本增强结果;其中,所述语音识别文本增强系统是基于样本语音数据的样本识别文本及其样本文本增强结果,以及样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。
公开号为CN108417202B的专利公开一种语音识别方法及系统。所述语音识别方法包括:提取待识别的语音数据的声学特征;基于声学-音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素-语言神经网络模型,将所述音素阵列进一步解码为文字序列。本发明实施例的语音识别系统,声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入,无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型,从整体上看,提供了另一种全新的端到端的语音识别架构。
现有技术缺点
已有的端到端语音识别文本增强系统只将语音识别系统的识别结果作为输入,标注文本作为目标,没有考虑相应的声学信息。由于当代语音识别系统的准确率已经很高,大部分识别结果是正确的,因此语音识别文本增强系统的输入和输出大部分是相同的,只有少量识别错误的部分是不一样,语音识别文本增强系统就是为了学习到这种差异。同时由于神经网络强大的建模能力,已有的端到端语音识别文本增强系统非常容易过拟合,需要大量的训练数据,没有融合声学模态与文本模态语义上的相似性。无法适用于中英混合语音识别问题,模型训练困难,错误率高。
发明内容
有鉴于此,本发明第一方面提供一种融合多模态语义不变性的语音识别文本增强系统,所述系统包括:
声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示。
优选的,所述语音识别文本增强系统还包括,将所述解码表示输入到softmax函数得到概率最大的目标。
优选的,对声学特征降采样的方法为:通过所述声学特征拼接得到降采样后的声学特征序列,即所述声学表示。
优选的,所述声学特征拼接的具体方法为:将前后5帧的所述声学特征进行拼接,将拼接后的所述声学特征通过全连接映射层进行维度转换,转换为256维特征向量。
优选的,所述语音识别文本增强系统还包括,训练数据扩增模块;所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据,具体方法为:
(1)将用于训练的语音数据分成10份,选择其中九份数据训练所述语音识别模块,剩下的一份识别出结果;
(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍,即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据;
(3) 在识别时应用dropout模型扰动技术,谱文本增强数据扰动技术对所述10份语音数据添加扰动,通过使用不同的扰动比例进行多次识别,获得语音识别文本增强系统训练的输入文本数据。
优选的,所述语音识别文本增强系统还包括词嵌入模块,所述将所述输入文本数据输入到所述编码器之前,使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示,将所述连续特征向量表示输入到所述编码器。
优选的,所述语音识别文本增强系统还包括,对所述连续特征向量表示增加位置编码信息,对所述输入文本数据输的时间先后顺序信息进行建模,得到输入文本位置编码序列,将所述输入文本位置编码序列输入到所述编码器。
优选的,所述编码器由多个结构相同的基于多头自注意力的模块连接而成;两个基于多头自注意力的模块之间由残差连接;
所述基于多头自注意力的模块包括:两个子部分,第一子部分是多头自注意力层,后面接第二子部分,为全连接映射层,每个子部分进行层归一化操作;所述多头自注意力层和全连接映射层中间进行残差连接。
优选的,所述语音识别文本增强系统还包括,标注目标序列的高维表示模块,将所述输入文本数据对应的标注目标文本进行词嵌入表示,将所述词嵌入表示输入所述基于多头自注意力的模块,得到目标序列的高维表示,所述高维表示作为查询向量;所述基于多头自注意力的模块与所述编码器的基于多头自注意力的模块结构相同;
具体的方法为:
使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量;
对目标文本连续特征向量增加位置编码信息,对特征向量的时间先后顺序信息进行建模,得到目标文本位置编码序列;
将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示。
优选的,将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示的具体方法为:
将所述声学表示和所述输入文本编码表示输入到解码器中,作为待查询的声学键和声学值集合,文本键和文本值集合;
应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离,根据距离的大小得到声学的注意力分数和文本的注意力分数;
使用所述声学的注意力分数对声学值集合进行加权平均,得到声学上下文向量表示;
使用所述文本的注意力分数对文本值集合进行加权平均,得到文本上下文向量表示;
将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束,得到两种模态信号表示的相似性损失;
将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换,通过上述相似性损失,得到最终的解码表示。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方案,通过融合声学信息,为语音识别文本增强系统增加了更多的先验信息,通过融合跨模态语义不变性约束损失,用来辅助文本增强的过程,来减少模型对数据的依赖,提高模型的性能,以适用于中英混合语音识别问题。
附图说明
图1为本发明实施例提供的一种融合多模态语义不变性的语音识别文本增强系统结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示本申请实施例提供的融合多模态语义不变性的语音识别文本增强系统,所述语音识别文本增强系统具体包括:
声学特征提取模块、声学降采样模块、编码器和解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,得到解码表示;将所述解码表示输入到softmax函数得到概率最大的目标;
对声学特征降采样的方法为:通过所述声学特征拼接得到降采样后的声学特征序列,即所述声学表示;
所述声学特征拼接的具体方法为:将前后5帧的所述声学特征进行拼接,将拼接后的所述声学特征通过全连接映射层进行维度转换,转换为256维特征向量;
所述语音识别文本增强系统还包括,训练数据扩增模块;所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据,具体方法为:
(1)将用于训练的语音数据分成10份,选择其中九份数据训练所述语音识别模块,剩下的一份识别出结果;
(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍,即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据;
(3) 在识别时应用dropout模型扰动技术,谱文本增强数据扰动技术对所述10份语音数据添加扰动,通过使用不同的扰动比例进行多次识别,获得语音识别文本增强系统训练的输入文本数据。;
所述语音识别文本增强系统还包括,词嵌入模块:将所述输入文本数据输入到所述编码器之前,使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示,将所述连续特征向量表示输入到所述编码器。
所述语音识别文本增强系统还包括,对所述连续特征向量表示增加位置编码信息,对所述输入文本数据输入的时间先后顺序信息进行建模,得到输入文本位置编码序列,将所述输入文本位置编码序列输入到所述编码器。
所述编码器由多个结构相同的基于多头自注意力的模块连接而成;两个基于多头自注意力的模块之间由残差连接;
所述基于多头自注意力的模块包括:两个子部分,第一子部分是多头自注意力层,后面接第二子部分,为全连接映射层,每个子部分进行层归一化操作;所述多头自注意力层和全连接映射层中间进行残差连接;
所述语音识别文本增强系统还包括,标注目标序列的高维表示模块,将所述输入文本数据对应的标注目标文本进行词嵌入表示,将所述词嵌入表示输入所述基于多头自注意力的模块,得到目标序列的高维表示,所述高维表示作为查询向量;
具体的方法为:
使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量;
对目标文本连续特征向量增加位置编码信息,对特征向量的时间先后顺序信息进行建模,得到目标文本位置编码序列;
将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示;
将所述声学表示和所述输入文本编码表示输入到所述解码器融合,得到解码表示的具体方法为:
将所述声学表示和所述输入文本编码表示输入到解码器中,作为待查询的声学键和声学值集合,文本键和文本值集合;
应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离,根据距离的大小得到声学的注意力分数和文本的注意力分数;
使用所述声学的注意力分数对声学值集合进行加权平均,得到声学上下文向量表示;
使用所述文本的注意力分数对文本值集合进行加权平均,得到文本上下文向量表示;
将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束,得到两种模态信号表示的相似性损失;
将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换,通过上述相似性损失,得到最终的解码表示。
实施例
如图1所示,融合多模态语义不变性的语音识别文本增强系统,包括:
声学特征提取模块、声学降采样模块、编码器和解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,得到解码表示;将所述解码表示输入到softmax函数得到概率最大的目标;
声学特征提取:使用2019年ASRU 会议中英混合语音识别挑战赛提供的语音数据,其中训练集数据约200小时,验证集和测试集数据各20小时,数据均为中英混合wav语音数据,采样率为16K。首先将语音数据进行分帧,每25毫秒为一帧,帧与帧之间存在10毫秒的重叠,分帧以后提取80维的fbank特征,作为声学特征;
声学降采样模块:为了尽可能避免对声学特征的编码,减少模型开销,仅仅对声学特征进行降采样操作。方法为将前后5帧的特征进行拼接,将拼接后的特征通过全连接映射层进行维度转换,转换为256维特征向量,通过这种操作,可以将声学特征帧数减少为原来的1/10.有效地减少声学帧数,降低了文本与声学特征在长度上的不匹配,有利于后续的信息融合;
词嵌入模块和编码器:首先使用词嵌入模块将输入文本数据表示为256维的连续特征向量表示;对所述连续特征向量表示增加位置编码信息,建模所述输入文本数据输的时间先后顺序信息;然后输入到基于多头自注意力机制的编码模块,该编码模块由6个相同结构的子模块堆叠而成,每个编码模块包含两个子部分,一部分是多头自注意力层,后面接全连接映射层,头数设置为4,全连接层的维度为1024,激活函数使用GLU,每个子层进行层归一化操作,两个子模块中间进行残差连接,对自注意力层和全连接层使用dropout操作,参数为0.1。通过编码器,连续特征向量表示被转换为高维特征表示;多头注意力机制扩展了传统的注意机制,使之具有多个头部,使得每个头部在参与编码器输出时具有不同的角色。具体地说,多头注意力独立地计算h次注意力,然后将它们的输出连接到另一个线性投影中。注意力公式如下:
其中,Q、K、V分别表示输入的查询、键和值的集合,公式如下:
通过文本编码器,连续特征向量表示被转换为高维特征表示;
标注目标序列的高维表示模块和解码器:在解码器部分,将所述声学表示和所述输入文本编码表示输入到所述解码器融合,得到解码表示。标注目标序列的高维表示模块和解码器都由6个相同的基于多头注意力的模块组成。
标注目标序列的高维表示模块,将所述输入文本数据对应的标注目标文本进行词嵌入表示,得到256维的向量表示;然后对256维的向量表示增加位置编码信息,建模特征序列的时间先后顺序信息;将所述词嵌入表示输入所述基于多头自注意力的模块,得到高维表示作为查询向量;这部分结构头数设置为6,维度为256,全连接层的维度为1024,激活函数使用GLU,每个子层进行层归一化操作,两个子层中间进行残差连接,对自注意力层和全连接层使用dropout操作,参数为0.1;
将所述声学表示和所述输入文本编码表示输入到解码器中,作为待查询的声学键和声学值集合,文本键和文本值集合;
应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离,根据距离的大小得到声学的注意力分数和文本的注意力分数;
使用所述声学的注意力分数对声学值集合进行加权平均,得到声学上下文向量表示;
使用所述文本的注意力分数对文本值集合进行加权平均,得到文本上下文向量表示;
将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束,约束采用L1和L2范数损失,对两种损失进行平均,得到两种模态信号表示的相似性损失;
将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换,通过上述相似性损失,得到最终的解码表示;将得到的解码表示输入到softmax函数得到概率最大的目标。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种融合多模态语义不变性的语音识别文本增强系统,其特征在于,包括:
声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对所述短时音频帧提取fbank声学特征,将所述声学特征输入到所述声学降采样模块进行降采样,得到声学表示;将所述语音数据输入现有语音识别模块,得到输入文本数据,将所述输入文本数据输入到所述编码器,得到输入文本编码表示;将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示。
2.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括,将所述解码表示输入到softmax函数得到概率最大的目标。
3.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,对声学特征降采样的方法为:通过所述声学特征拼接得到降采样后的声学特征序列,即所述声学表示。
4.根据权利要求3所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述声学特征拼接的具体方法为:将前后5帧的所述声学特征进行拼接,将拼接后的所述声学特征通过全连接映射层进行维度转换,转换为256维特征向量。
5.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括,训练数据扩增模块;所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据,具体方法为:
(1)将用于训练的语音数据分成10份,选择其中九份数据训练所述语音识别模块,剩下的一份识别出结果;
(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍,即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据;
(3) 在识别时应用dropout模型扰动技术,谱文本增强数据扰动技术对所述10份语音数据添加扰动,通过使用不同的扰动比例进行多次识别,获得语音识别文本增强系统训练的输入文本数据。
6.根据权利要求5所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括词嵌入模块;
将所述输入文本数据输入到所述编码器之前,使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示,将所述连续特征向量表示输入到所述编码器。
7.根据权利要求6所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括,对所述连续特征向量表示增加位置编码信息,对所述输入文本数据输入的时间先后顺序信息进行建模,得到输入文本位置编码序列,将所述输入文本位置编码序列输入到所述编码器。
8.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述编码器由多个结构相同的基于多头自注意力的模块连接而成;两个基于多头自注意力的模块之间由残差连接;
所述基于多头自注意力的模块包括:两个子部分,第一子部分是多头自注意力层,后面接第二子部分,为全连接映射层,每个子部分进行层归一化操作;所述多头自注意力层和全连接映射层中间进行残差连接。
9.根据权利要求8所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,所述语音识别文本增强系统还包括,标注目标序列的高维表示模块,将所述输入文本数据对应的标注目标文本进行词嵌入表示,将所述词嵌入表示输入所述基于多头自注意力的模块,得到目标序列的高维表示,所述高维表示作为查询向量;
具体的方法为:
使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量;
对目标文本连续特征向量增加位置编码信息,对特征向量的时间先后顺序信息进行建模,得到目标文本位置编码序列;
将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示。
10.根据权利要求9所述的融合多模态语义不变性的语音识别文本增强系统,其特征在于,将所述声学表示和所述输入文本编码表示输入到所述解码器融合,通过声学模态和文本模态的表示进行相似性约束损失,得到解码表示的具体方法为:
将所述声学表示和所述输入文本编码表示输入到解码器中,作为待查询的声学键和声学值集合,文本键和文本值集合;
应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离,根据距离的大小得到声学的注意力分数和文本的注意力分数;
使用所述声学的注意力分数对声学值集合进行加权平均,得到声学上下文向量表示;
使用所述文本的注意力分数对文本值集合进行加权平均,得到文本上下文向量表示;
将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束,得到两种模态信号表示的相似性损失;
将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换,通过上述相似性损失,得到最终的解码表示。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815743.4A CN113270086B (zh) | 2021-07-19 | 2021-07-19 | 一种融合多模态语义不变性的语音识别文本增强系统 |
US17/867,937 US11488586B1 (en) | 2021-07-19 | 2022-07-19 | System for speech recognition text enhancement fusing multi-modal semantic invariance |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815743.4A CN113270086B (zh) | 2021-07-19 | 2021-07-19 | 一种融合多模态语义不变性的语音识别文本增强系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113270086A true CN113270086A (zh) | 2021-08-17 |
CN113270086B CN113270086B (zh) | 2021-10-15 |
Family
ID=77236775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110815743.4A Active CN113270086B (zh) | 2021-07-19 | 2021-07-19 | 一种融合多模态语义不变性的语音识别文本增强系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11488586B1 (zh) |
CN (1) | CN113270086B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838468A (zh) * | 2021-09-24 | 2021-12-24 | 中移(杭州)信息技术有限公司 | 流式语音识别方法、终端设备及介质 |
CN113936641A (zh) * | 2021-12-17 | 2022-01-14 | 中国科学院自动化研究所 | 一种可定制的中英混合语音识别端到端系统 |
CN114417021A (zh) * | 2022-01-24 | 2022-04-29 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
WO2023131207A1 (en) * | 2022-01-07 | 2023-07-13 | Huawei Technologies Co., Ltd. | Methods and systems for streamable multimodal language understanding |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089906B (zh) * | 2023-03-13 | 2023-06-16 | 山东大学 | 基于动态上下文表示和模态融合的多模态分类方法及系统 |
CN116110378B (zh) * | 2023-04-12 | 2023-07-18 | 中国科学院自动化研究所 | 模型训练方法、语音识别方法、装置和电子设备 |
CN116312486B (zh) * | 2023-05-25 | 2023-08-11 | 中国医学科学院阜外医院 | 情绪识别方法、装置、计算机可读存储介质及电子设备 |
CN116665675B (zh) * | 2023-07-25 | 2023-12-12 | 上海蜜度信息技术有限公司 | 语音转写方法、系统、电子设备和存储介质 |
CN117133275B (zh) * | 2023-08-25 | 2024-03-22 | 长春理工大学 | 基于单元点积相似度特征的并行化语音识别模型建立方法 |
CN117524193B (zh) * | 2024-01-08 | 2024-03-29 | 浙江同花顺智能科技有限公司 | 中英混合语音识别系统训练方法、装置、设备及介质 |
CN117577119B (zh) * | 2024-01-17 | 2024-04-05 | 清华大学 | 融合大语言模型的伪造语音检测方法、系统、设备及介质 |
CN117649466B (zh) * | 2024-01-30 | 2024-05-14 | 深圳市崇宁实业有限公司 | 基于ai算法的装饰画雕刻凹纹的生成系统及方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1016985A2 (en) * | 1998-12-30 | 2000-07-05 | Xerox Corporation | Method and system for topic based cross indexing of text and audio |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
US20180336900A1 (en) * | 2017-05-18 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd . | Artificial Intelligence-Based Cross-Language Speech Transcription Method and Apparatus, Device and Readable Medium |
CN108885870A (zh) * | 2015-12-01 | 2018-11-23 | 流利说人工智能公司 | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110570845A (zh) * | 2019-08-15 | 2019-12-13 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
US20200126538A1 (en) * | 2018-07-20 | 2020-04-23 | Google Llc | Speech recognition with sequence-to-sequence models |
CN111930900A (zh) * | 2020-09-28 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 标准发音生成方法及相关装置 |
CN111968622A (zh) * | 2020-08-18 | 2020-11-20 | 广州市优普科技有限公司 | 一种基于注意力机制的语音识别方法、系统及装置 |
CN112133287A (zh) * | 2020-11-24 | 2020-12-25 | 北京世纪好未来教育科技有限公司 | 语音识别模型训练方法、语音识别方法及相关装置 |
CN112420028A (zh) * | 2020-12-03 | 2021-02-26 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112489616A (zh) * | 2020-11-30 | 2021-03-12 | 国网重庆市电力公司物资分公司 | 一种语音合成方法 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112825248A (zh) * | 2019-11-19 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 语音处理方法、模型训练方法、界面显示方法及设备 |
CN113112987A (zh) * | 2021-04-14 | 2021-07-13 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013142852A1 (en) * | 2012-03-23 | 2013-09-26 | Sententia, LLC | Method and systems for text enhancement |
US8881005B2 (en) * | 2012-04-20 | 2014-11-04 | King Abdulaziz City For Science And Technology | Methods and systems for large-scale statistical misspelling correction |
CN112257437B (zh) | 2020-10-20 | 2024-02-13 | 中国科学技术大学 | 语音识别纠错方法、装置、电子设备和存储介质 |
-
2021
- 2021-07-19 CN CN202110815743.4A patent/CN113270086B/zh active Active
-
2022
- 2022-07-19 US US17/867,937 patent/US11488586B1/en active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1016985A2 (en) * | 1998-12-30 | 2000-07-05 | Xerox Corporation | Method and system for topic based cross indexing of text and audio |
CN108885870A (zh) * | 2015-12-01 | 2018-11-23 | 流利说人工智能公司 | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 |
US20180336900A1 (en) * | 2017-05-18 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd . | Artificial Intelligence-Based Cross-Language Speech Transcription Method and Apparatus, Device and Readable Medium |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
US20200126538A1 (en) * | 2018-07-20 | 2020-04-23 | Google Llc | Speech recognition with sequence-to-sequence models |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110570845A (zh) * | 2019-08-15 | 2019-12-13 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
CN112825248A (zh) * | 2019-11-19 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 语音处理方法、模型训练方法、界面显示方法及设备 |
CN111968622A (zh) * | 2020-08-18 | 2020-11-20 | 广州市优普科技有限公司 | 一种基于注意力机制的语音识别方法、系统及装置 |
CN111930900A (zh) * | 2020-09-28 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 标准发音生成方法及相关装置 |
CN112133287A (zh) * | 2020-11-24 | 2020-12-25 | 北京世纪好未来教育科技有限公司 | 语音识别模型训练方法、语音识别方法及相关装置 |
CN112489616A (zh) * | 2020-11-30 | 2021-03-12 | 国网重庆市电力公司物资分公司 | 一种语音合成方法 |
CN112420028A (zh) * | 2020-12-03 | 2021-02-26 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN113112987A (zh) * | 2021-04-14 | 2021-07-13 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
Non-Patent Citations (6)
Title |
---|
TAKAAKI HORI ET AL.: "Cycle-consistency Training for End-to-end Speech Recognition", 《ICASSP 2019》 * |
TIMO LOHRENZ ET AL.: "BLSTM-Driven Stream Fusion for Automatic Speech Recognition: Novel Methods and a Multi-Size Window Fusion Example", 《INTERSPEECH 2020》 * |
YE BAI ET AL.: "Integrating Knowledge Into End-to-End Speech Recognition From External Text-Only Data", 《TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
刘建伟 等: "多模态深度学习综述", 《计算机应用研究》 * |
杨威 等: "混合CTC/attention架构端到端带口音普通话识别", 《计算机应用研究》 * |
董永峰 等: "基于多头注意力机制的模型层融合维度情感识别方法", 《信号处理》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838468A (zh) * | 2021-09-24 | 2021-12-24 | 中移(杭州)信息技术有限公司 | 流式语音识别方法、终端设备及介质 |
CN113936641A (zh) * | 2021-12-17 | 2022-01-14 | 中国科学院自动化研究所 | 一种可定制的中英混合语音识别端到端系统 |
CN113936641B (zh) * | 2021-12-17 | 2022-03-25 | 中国科学院自动化研究所 | 一种可定制的中英混合语音识别端到端系统 |
WO2023131207A1 (en) * | 2022-01-07 | 2023-07-13 | Huawei Technologies Co., Ltd. | Methods and systems for streamable multimodal language understanding |
CN114417021A (zh) * | 2022-01-24 | 2022-04-29 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
CN114417021B (zh) * | 2022-01-24 | 2023-08-25 | 中国电子科技集团公司第五十四研究所 | 一种基于时、空、义多约束融合的语义信息精准分发方法 |
Also Published As
Publication number | Publication date |
---|---|
US11488586B1 (en) | 2022-11-01 |
CN113270086B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113270086B (zh) | 一种融合多模态语义不变性的语音识别文本增强系统 | |
CN111680541B (zh) | 一种基于多维度注意力融合网络的多模态情绪分析方法 | |
CN113284485B (zh) | 统一中英混合文本生成和语音识别的端到端系统 | |
Dreuw et al. | Benchmark databases for video-based automatic sign language recognition | |
Momeni et al. | Seeing wake words: Audio-visual keyword spotting | |
Sainath et al. | Exemplar-based processing for speech recognition: An overview | |
US20220270597A1 (en) | Learning Word-Level Confidence for Subword End-To-End Automatic Speech Recognition | |
Fenghour et al. | Deep learning-based automated lip-reading: A survey | |
CN112259100B (zh) | 语音识别方法及相关模型的训练方法和相关设备、装置 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
Liu et al. | End-to-End Language Diarization for Bilingual Code-Switching Speech. | |
Ren et al. | Two-stage training for chinese dialect recognition | |
US11756551B2 (en) | System and method for producing metadata of an audio signal | |
Zhang et al. | Gazev: Gan-based zero-shot voice conversion over non-parallel speech corpus | |
Khare et al. | Multi-modal embeddings using multi-task learning for emotion recognition | |
CN112802444A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN115910066A (zh) | 用于区域配电网的智能调度指挥与运营系统 | |
KR20230158608A (ko) | 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습 | |
Chandak et al. | Streaming language identification using combination of acoustic representations and ASR hypotheses | |
Deschamps-Berger et al. | Exploring attention mechanisms for multimodal emotion recognition in an emergency call center corpus | |
Aronowitz et al. | Context and uncertainty modeling for online speaker change detection | |
Dehzangi et al. | Discriminative feature extraction for speech recognition using continuous output codes | |
Mandava et al. | An investigation of LSTM-CTC based joint acoustic model for Indian language identification | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN114121018A (zh) | 语音文档分类方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |