CN116386609A - 一种中英混合语音识别方法 - Google Patents
一种中英混合语音识别方法 Download PDFInfo
- Publication number
- CN116386609A CN116386609A CN202310399570.1A CN202310399570A CN116386609A CN 116386609 A CN116386609 A CN 116386609A CN 202310399570 A CN202310399570 A CN 202310399570A CN 116386609 A CN116386609 A CN 116386609A
- Authority
- CN
- China
- Prior art keywords
- decoder
- chinese
- model
- gpt
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及语音处理技术领域,尤其涉及一种中英混合语音识别方法,包括:步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;步骤S2、使用预训练生成模型的解码器部分作为GPT‑Decoder解码器,同时由GPT‑Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM‑RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM‑RNNLM模型辅助GPT‑Decoder解码器进行解码。本发明中的编码器部分引入Conformer模型作为中英双编码器,替换传统的Transformer编码器。本发明中的解码器部分采用联合解码器形式代替原有单一的解码器结构,有效提高中英混合语音识别的准确率和效率。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种中英混合语音识别方法。
背景技术
中英混合语音识别是指在同一段语音中混合了中文和英文的情况下进行语音识别的技术。中英混合语音识别的挑战主要来自于两个方面:一是语音信号的多样性,中英文的语音信号在声学特征上存在差异,如音高、音色、语速等;二是语言模型的建立,中英文的语法和词汇表也存在差异,如词序、词性、语法规则等。
为了解决中英混合语音识别的挑战,研究者们提出了许多方法。其中,一种常见的方法是使用双语言混合模型,即将两种语言的语音信号和语言模型混合在一起进行识别。这种方法可以提高识别准确率,但需要大量的训练数据和计算资源。另一种方法是使用语音信号的特征进行识别。研究者们发现中英文的语音信号在声学特征上存在差异。因此,可以通过对语音信号的特征进行分析和提取,来区分中英文的语音信号。这种方法可以减少对语言模型的依赖,但需要更加精细的特征提取和分类算法。除了以上两种方法,还有一些其他的方法,如使用深度学习算法进行语音识别、使用语音分割和对齐技术进行语音识别等。这些方法都在不同程度上解决了混合语种语音识别的挑战,但仍需要进一步的研究和改进。总之,中英混合语音识别是一个具有挑战性的问题,但也是一个具有广泛应用前景的领域。应该继续研究探索更加精细的特征提取和分类算法,以及更加高效的语言模型建立方法和新的模块结构,以提高中英混合语音识别的准确率和效率。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种中英混合语音识别方法,能够有效提高中英混合语音识别的准确率和效率。
为了实现上述目的,本发明采用了如下技术方案:
一种中英混合语音识别方法,具体步骤如下:
步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;
步骤S2、使用预训练生成模型的解码器部分作为GPT-Decoder解码器,同时由GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码。
优选地,在步骤S1中,利用Conformer模型将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器,训练的同时结合各自语种的位置信息编码。
优选地,在步骤S2中,将各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。
优选地,在步骤S2中,所述联结时序分类CTC模块负责序列解码的对齐任务,长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder解码器适应变长输入序列的解码。
优选地,在步骤S2中,GPT-Decoder解码器先对输入序列进行无监督的预训练,同时利用联结时序分类CTC模块对解码序列进行对齐操作。
优选地,在步骤S2中,GPT-Decoder解码器进行有监督的微调,同时长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码输出识别后的文本序列。
与现有技术相比,本发明具有以下有益效果:
1、本发明的编码器部分中使用Conformer模型作为编码器,通过引入多层卷积模块提取更深层次的特征信息,降低了序列长度,进而减少模型的复杂度,有利于模型的快速训练和收敛。在编码器部分中采用联合解码的架构,采用CTC和LSTM-RNNLM模型辅助GPT-Decoder对序列化输入进行解码,相当程度上加快了模型的推理速度。
2、本发明的LSTM-RNNLM模型的RNN结构可以将过去的信息传递到当前时刻,解决了上下文依赖的问题,使得模型更能适应变长序列输入的解码;而多个LSTM单元网络可以通过门机制来控制信息的流动,从而避免梯度消失问题。
附图说明
图1为本发明的流程图;
图2为本发明中单层Conformer模型编码器的构造图;
图3为本发明中GPT模型解码器的结构图;
图4为本发明中LSTM-RNNLM模型的结构图。
具体实施方式
下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-4,一种中英混合语音识别方法,具体步骤如下:
S1:采用TALCS中英混合音频集作为训练数据集,先对音频数据进行预处理、提取声学特征,然后借助Conformer模型作为中英双编码器对输入特征结合位置信息进行序列化编码,如图1中混合编码器所示;
S101:对中英混合音频进行预滤波和信号转换、预加重、分帧、加窗和端点检测等预处理操作,然后提取声学特征;
S102:利用12层连续的Conformer块结构分别对中英文语种特征结合位置信息进行编码操作。Conformer块结构如图2所示,一个Conformer块结构包括:前馈网络模块、多头自注意力模块、卷积模块、第二个前馈网络模块。图2四次残差连接数学表示如下:
S2:语种编码器输出的序列加上语种位置信息作为输入。利用联合解码器对输入序列进行解码操作,其中CTC模块负责序列解码的对齐任务,LSTM-RNNLM模块则负责辅助GPT-Decoder适应变长输入序列的解码,解决上下文依赖问题。
S201:GPT解码器先对输入序列进行无监督的预训练,同时利用CTC模块对解码序列进行对齐操作。GPT解码器采用12组双层的Transformer结构如图3所示,用数学表示为:
其中U(u-k,...,u-1)是当前时间片的上下文token,n是层数,We是词嵌入矩阵,Wp是位置嵌入矩阵,P(u)表示候选词u的概率,softmax为归一化。
其中是k滑动窗口的大小,P是条件概率,Θ是模型的参数。这些参数利用随机梯度下降算法(Stochastic Gradient Descent,SGD)进行优化。
S202:做完无监督的预训练后,然后进行有监督的微调。对于一个有标签的数据集每个实例有m个输入token:{x1,...,xm},组成标签序列。首先将这些token输入到训练好的预训练模型中,得到最终的特征向量/>然后再通过一个全连接层得到预测结果y:
其中Wy为全连接层的参数。
此时语言模型优化目标为:
但是这里不直接使用损失函数L2,而是向其中加入了L1,并使用λ进行两个任务权值的调整,这样可以更好统一整合音频特征序列,从而提高模型的泛化能力。λ的值取0.5:
当进行有监督微调的时候,只需训练输出层的Wy和分隔符的嵌入值,一定程度上减少了运算开支,有利于缩短模型训练时间。
综上所述,本发明中的编码器部分引入Conformer模型作为中英双编码器,替换传统的Transformer编码器;解码器部分采用GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器形式代替原有单一的解码器结构,有效提高中英混合语音识别的准确率和效率。
本发明中披露的说明和实践,对于本技术领域的普通技术人员来说,都是易于思考和理解的,且在不脱离本发明原理的前提下,还可以做出若干改进和润饰。因此,在不偏离本发明精神的基础上所做的修改或改进,也应视为本发明的保护范围。
Claims (6)
1.一种中英混合语音识别方法,其特征在于,具体步骤如下:
步骤S1、对中英混合音频通过预处理得到声学特征,利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习,接着将编码学习后的特征混合输入到解码器部分;
步骤S2、使用预训练生成模型的解码器部分作为GPT-Decoder解码器,同时由GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器;其中,联结时序分类CTC模块和长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码。
2.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,在步骤S1中,利用Conformer模型将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器,训练的同时结合各自语种的位置信息编码。
3.根据权利要求2所述的一种中英混合语音识别方法,其特征在于,在步骤S2中,将各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。
4.根据权利要求1所述的一种中英混合语音识别方法,其特征在于,在步骤S2中,所述联结时序分类CTC模块负责序列解码的对齐任务,长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder解码器适应变长输入序列的解码。
5.根据权利要求4所述的一种中英混合语音识别方法,其特征在于,在步骤S2中,GPT-Decoder解码器先对输入序列进行无监督的预训练,同时利用联结时序分类CTC模块对解码序列进行对齐操作。
6.根据权利要求5所述的一种中英混合语音识别方法,其特征在于,在步骤S2中,GPT-Decoder解码器进行有监督的微调,同时长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码输出识别后的文本序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310399570.1A CN116386609A (zh) | 2023-04-14 | 2023-04-14 | 一种中英混合语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310399570.1A CN116386609A (zh) | 2023-04-14 | 2023-04-14 | 一种中英混合语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386609A true CN116386609A (zh) | 2023-07-04 |
Family
ID=86974934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310399570.1A Withdrawn CN116386609A (zh) | 2023-04-14 | 2023-04-14 | 一种中英混合语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386609A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510976A (zh) * | 2017-02-24 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN110428820A (zh) * | 2019-08-27 | 2019-11-08 | 深圳大学 | 一种中英文混合语音识别方法及装置 |
CN110517668A (zh) * | 2019-07-23 | 2019-11-29 | 普强信息技术(北京)有限公司 | 一种中英文混合语音识别系统及方法 |
CN110930980A (zh) * | 2019-12-12 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 一种中英文混合语音的声学识别模型、方法及系统 |
CN113284485A (zh) * | 2021-07-09 | 2021-08-20 | 中国科学院自动化研究所 | 统一中英混合文本生成和语音识别的端到端框架 |
CN114078468A (zh) * | 2022-01-19 | 2022-02-22 | 广州小鹏汽车科技有限公司 | 语音的多语种识别方法、装置、终端和存储介质 |
CN114373451A (zh) * | 2022-01-24 | 2022-04-19 | 江南大学 | 一种端到端中文语音识别方法 |
US20220310056A1 (en) * | 2021-03-26 | 2022-09-29 | Google Llc | Conformer-based Speech Conversion Model |
CN116486794A (zh) * | 2023-04-12 | 2023-07-25 | 南通大学 | 一种中英混合语音识别方法 |
-
2023
- 2023-04-14 CN CN202310399570.1A patent/CN116386609A/zh not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510976A (zh) * | 2017-02-24 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN110517668A (zh) * | 2019-07-23 | 2019-11-29 | 普强信息技术(北京)有限公司 | 一种中英文混合语音识别系统及方法 |
CN110428820A (zh) * | 2019-08-27 | 2019-11-08 | 深圳大学 | 一种中英文混合语音识别方法及装置 |
CN110930980A (zh) * | 2019-12-12 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 一种中英文混合语音的声学识别模型、方法及系统 |
US20220310056A1 (en) * | 2021-03-26 | 2022-09-29 | Google Llc | Conformer-based Speech Conversion Model |
CN113284485A (zh) * | 2021-07-09 | 2021-08-20 | 中国科学院自动化研究所 | 统一中英混合文本生成和语音识别的端到端框架 |
CN114078468A (zh) * | 2022-01-19 | 2022-02-22 | 广州小鹏汽车科技有限公司 | 语音的多语种识别方法、装置、终端和存储介质 |
CN114373451A (zh) * | 2022-01-24 | 2022-04-19 | 江南大学 | 一种端到端中文语音识别方法 |
CN116486794A (zh) * | 2023-04-12 | 2023-07-25 | 南通大学 | 一种中英混合语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10854193B2 (en) | Methods, devices and computer-readable storage media for real-time speech recognition | |
CN111382582B (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN116486794A (zh) | 一种中英混合语音识别方法 | |
CN110189749A (zh) | 语音关键词自动识别方法 | |
CN110633683A (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
Li et al. | End-to-end speech recognition with adaptive computation steps | |
CN114023316A (zh) | 基于TCN-Transformer-CTC的端到端中文语音识别方法 | |
CN113569562B (zh) | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 | |
CN114385802A (zh) | 一种融合主题预测和情感推理的共情对话生成方法 | |
CN116306652A (zh) | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN115985298A (zh) | 基于语音文本自动对齐混合自训练的端到端语音翻译方法 | |
CN112349288A (zh) | 基于拼音约束联合学习的汉语语音识别方法 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN117437909B (zh) | 基于热词特征向量自注意力机制的语音识别模型构建方法 | |
CN113656569A (zh) | 一种基于上下文信息推理的生成式对话方法 | |
CN111599368B (zh) | 一种基于直方图匹配的自适应实例规一化语音转换方法 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN116386609A (zh) | 一种中英混合语音识别方法 | |
CN116227503A (zh) | 一种基于ctc的非自回归端到端语音翻译方法 | |
CN115273829A (zh) | 基于多特征融合的越南语到英语的语音到文本翻译方法 | |
CN115273853A (zh) | 一种基于仿生神经网络的语音识别系统与方法 | |
CN112989845B (zh) | 一种基于路由算法的篇章级神经机器翻译方法及系统 | |
CN113035178B (zh) | 基于transformer的语音识别解码加速方法 | |
CN115310461A (zh) | 基于多模态数据优化的低资源语音翻译方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230704 |
|
WW01 | Invention patent application withdrawn after publication |