CN116486794A - 一种中英混合语音识别方法 - Google Patents

一种中英混合语音识别方法 Download PDF

Info

Publication number
CN116486794A
CN116486794A CN202310386820.8A CN202310386820A CN116486794A CN 116486794 A CN116486794 A CN 116486794A CN 202310386820 A CN202310386820 A CN 202310386820A CN 116486794 A CN116486794 A CN 116486794A
Authority
CN
China
Prior art keywords
decoder
chinese
gpt
model
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310386820.8A
Other languages
English (en)
Inventor
徐慧
余伟超
王惠荣
吴一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202310386820.8A priority Critical patent/CN116486794A/zh
Publication of CN116486794A publication Critical patent/CN116486794A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音处理技术领域,具体涉及一种中英混合语音识别方法。本发明包括以下步骤:步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;步骤S2、使用预训练生成模型的解码器部分作为GPT‑Decoder解码器,同时由GPT‑Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM‑RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM‑RNNLM模型辅助GPT‑Decoder解码器进行解码。本发明中的编码器部分引入Conformer模型作为中英双编码器,替换传统的Transformer编码器。本发明中的解码器部分采用联合解码器形式代替原有单一的解码器结构。

Description

一种中英混合语音识别方法
技术领域
本发明涉及语音处理技术领域,具体涉及一种中英混合语音识别方法。
背景技术
中英混合语音识别是指在同一段语音中混合了中文和英文的情况下进行语音识别的技术。中英混合语音识别的挑战主要来自于两个方面:一是语音信号的多样性,中英文的语音信号在声学特征上存在差异,如音高、音色、语速等;二是语言模型的建立,中英文的语法和词汇表也存在差异,如词序、词性、语法规则等。
为了解决中英混合语音识别的挑战,研究者们提出了许多方法。其中,一种常见的方法是使用双语言混合模型,即将两种语言的语音信号和语言模型混合在一起进行识别。这种方法可以提高识别准确率,但需要大量的训练数据和计算资源。另一种方法是使用语音信号的特征进行识别。研究者们发现中英文的语音信号在声学特征上存在差异。因此,可以通过对语音信号的特征进行分析和提取,来区分中英文的语音信号。这种方法可以减少对语言模型的依赖,但需要更加精细的特征提取和分类算法。除了以上两种方法,还有一些其他的方法,如使用深度学习算法进行语音识别、使用语音分割和对齐技术进行语音识别等。这些方法都在不同程度上解决了混合语种语音识别的挑战,但仍需要进一步的研究和改进。总之,中英混合语音识别是一个具有挑战性的问题,但也是一个具有广泛应用前景的领域。应该继续研究探索更加精细的特征提取和分类算法,以及更加高效的语言模型建立方法和新的模块结构,以提高中英混合语音识别的准确率和效率。
发明内容
为了克服上述现有技术的缺点,本发明提出了一种中英混合语音识别方法。
本发明所采用的技术方案是:一种中英混合语音识别方法,包括以下步骤:
步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;
步骤S2、使用预训练生成模型的解码器部分作为GPT-Decoder解码器,同时由GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码。
作为本发明的优选技术方案:所述步骤S1中,用Conformer编码器将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器,训练的同时结合各自语种的位置信息编码。
作为本发明的优选技术方案:所述步骤S2中,把各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。
作为本发明的优选技术方案:所述步骤S2中,所述联结时序分类CTC模块负责序列解码的对齐任务,长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder适应变长输入序列的解码。
作为本发明的优选技术方案:所述步骤S2中,GPT-Decoder解码器先对输入序列进行无监督的预训练,同时利用联结时序分类CTC模块对解码序列进行对齐操作。
作为本发明的优选技术方案:所述步骤S2中,GPT-Decoder解码器进行有监督的微调,同时LSTM-RNNLM模块辅助GPT-Decoder解码器进行解码输出识别后的文本序列。
与现有技术相比,本发明的有益效果为:
(1)本发明的编码器部分中使用Conformer模型作为编码器,通过引入多层卷积模块提取更深层次的特征信息,降低了序列长度,进而减少模型的复杂度,有利于模型的快速训练和收敛。在编码器部分中采用联合解码的架构,CTC和LSTM-RNNLM模型辅助GPT-Decoder对序列化输入进行解码,相当程度上加快了模型的推理速度。
(2)本发明的LSTM-RNNLM模型的RNN结构可以将过去的信息传递到当前时刻,解决了上下文依赖的问题,使得模型更能适应变长序列输入的解码;而多个LSTM单元网络可以通过门机制来控制信息的流动,从而避免梯度消失问题。
附图说明
图1是本发明的中英混合语音识别方法流程图;
图2是本发明的单层Conformer模型编码器构造图;
图3是本发明的GPT模型解码器结构图;
图4是本发明的LSTM-RNNLM模型结构图。
具体实施方式
下面结合附图详细的描述本发明的作进一步的解释说明,以使本领域的技术人员可以更深入地理解本发明并能够实施,但下面通过参考实例仅用于解释本发明,不作为本发明的限定。
如图1所示,本发明提出了一种中英混合语音识别方法,包括以下步骤:
S1:采用TALCS中英混合音频集作为训练数据集,先对音频数据进行预处理、提取声学特征,然后借助Conformer模型作为中英双编码器对输入特征结合位置信息进行序列化编码,如图1中混合编码器所示;
S101:对中英混合音频进行预滤波和信号转换、预加重、分帧、加窗和端点检测等预处理操作,然后提取声学特征。
S102:利用12层连续的Conformer块结构分别对中英文语种特征结合位置信息进行编码操作。Conformer块结构如图2所示,一个Conformer块结构包括:前馈网络模块、多头自注意力模块、卷积模块、第二个前馈网络模块。图2四次残差连接数学表示如下:
其中FFN指的是前馈网络模块;MHSA代表的就是多头自注意力机制模块;Conv是卷积模块;Layernorm表示层归一化;xix′i、x″i表示中间输出,yi表示最终输出。
S2:语种编码器输出的序列加上语种位置信息作为输入。利用联合解码器对输入序列进行解码操作,其中CTC模块负责序列解码的对齐任务,LSTM-RNNLM模块则负责辅助GPT-Decoder适应变长输入序列的解码,解决上下文依赖问题。
S201:GPT解码器先对输入序列进行无监督的预训练,同时利用CTC模块对解码序列进行对齐操作。GPT解码器采用12组双层的Transformer结构如图3所示,用数学表示为:
其中U=(u-k,...,u-1)是当前时间片的上下文token,n是层数,We是词嵌入矩阵,Wp是位置嵌入矩阵,P(u)表示候选词u的概率,softmax为归一化。
GPT的无监督预训练是基于语言模型进行训练的,这里语言模型使用LSTM-RNNLM模型,由512个如图4所示的单元结构组成。给定一个无标签的序列u={u1,…,un},语言模型的优化目标是最大化下面的似然值:
其中是k滑动窗口的大小,P是条件概率,Θ是模型的参数。这些参数利用随机梯度下降算法(Stochastic Gradient Descent,SGD)进行优化。
S202:做完无监督的预训练后,然后进行有监督的微调。对于一个有标签的数据集每个实例有m个输入token:{x1,...,xw},组成标签序列。首先将这些token输入到训练好的预训练模型中,得到最终的特征向量/>然后再通过一个全连接层得到预测结果y:
其中Wy为全连接层的参数。
此时语言模型优化目标为:
但是这里不直接使用损失函数L2,而是向其中加入了L1,并使用λ进行两个任务权值的调整,这样可以更好统一整合音频特征序列,从而提高模型的泛化能力。λ的值取0.5:
当进行有监督微调的时候,只需训练输出层的Wy和分隔符的嵌入值,一定程度上减少了运算开支,有利于缩短模型训练时间。
本发明中的编码器部分引入Conformer模型作为中英双编码器,替换传统的Transformer编码器。
本发明中的解码器部分采用GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器形式代替原有单一的解码器结构。
以上所述的具体实施方案,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施方案而已,并非用以限定本发明的范围,任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所做出的等同变化与修改,均应属于本发明保护的范围。

Claims (6)

1.一种中英混合语音识别方法,其特征在于,包括以下步骤:
步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;
步骤S2、使用预训练生成模型的解码器部分作为GPT-Decoder解码器,同时由GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码。
2.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,所述步骤S1中,用Conformer编码器将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器,训练的同时结合各自语种的位置信息编码。
3.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,所述步骤S2中,把各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。
4.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,所述步骤S2中,所述联结时序分类CTC模块负责序列解码的对齐任务,长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder适应变长输入序列的解码。
5.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,所述步骤S2中,GPT-Decoder解码器先对输入序列进行无监督的预训练,同时利用联结时序分类CTC模块对解码序列进行对齐操作。
6.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,所述步骤S2中,GPT-Decoder解码器进行有监督的微调,同时LSTM-RNNLM模块辅助GPT-Decoder解码器进行解码输出识别后的文本序列。
CN202310386820.8A 2023-04-12 2023-04-12 一种中英混合语音识别方法 Pending CN116486794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310386820.8A CN116486794A (zh) 2023-04-12 2023-04-12 一种中英混合语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310386820.8A CN116486794A (zh) 2023-04-12 2023-04-12 一种中英混合语音识别方法

Publications (1)

Publication Number Publication Date
CN116486794A true CN116486794A (zh) 2023-07-25

Family

ID=87211252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310386820.8A Pending CN116486794A (zh) 2023-04-12 2023-04-12 一种中英混合语音识别方法

Country Status (1)

Country Link
CN (1) CN116486794A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386609A (zh) * 2023-04-14 2023-07-04 南通大学 一种中英混合语音识别方法
CN116796250A (zh) * 2023-08-22 2023-09-22 暨南大学 一种混叠无线信号智能识别与分离方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386609A (zh) * 2023-04-14 2023-07-04 南通大学 一种中英混合语音识别方法
CN116796250A (zh) * 2023-08-22 2023-09-22 暨南大学 一种混叠无线信号智能识别与分离方法及系统
CN116796250B (zh) * 2023-08-22 2024-03-08 暨南大学 一种混叠无线信号智能识别与分离方法及系统

Similar Documents

Publication Publication Date Title
US10854193B2 (en) Methods, devices and computer-readable storage media for real-time speech recognition
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN116486794A (zh) 一种中英混合语音识别方法
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Li et al. End-to-end speech recognition with adaptive computation steps
CN113569562B (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
CN113782048B (zh) 多模态语音分离方法、训练方法及相关装置
CN114385802A (zh) 一种融合主题预测和情感推理的共情对话生成方法
CN114817494B (zh) 基于预训练和注意力交互网络的知识型检索式对话方法
CN116578699A (zh) 基于Transformer的序列分类预测方法和系统
CN112349288A (zh) 基于拼音约束联合学习的汉语语音识别方法
CN113656569A (zh) 一种基于上下文信息推理的生成式对话方法
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN111599368B (zh) 一种基于直方图匹配的自适应实例规一化语音转换方法
CN116227503A (zh) 一种基于ctc的非自回归端到端语音翻译方法
CN111353315A (zh) 一种基于随机残差算法的深层神经机器翻译系统
CN116386609A (zh) 一种中英混合语音识别方法
CN116741153A (zh) 一种基于大规模音频表征语言模型的音频理解与生成方法
CN115273853A (zh) 一种基于仿生神经网络的语音识别系统与方法
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统
CN115169363A (zh) 一种融合知识的增量编码的对话情感识别方法
CN115273829A (zh) 基于多特征融合的越南语到英语的语音到文本翻译方法
CN115310461A (zh) 基于多模态数据优化的低资源语音翻译方法及系统
Zhou et al. Short-spoken language intent classification with conditional sequence generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination