CN117711376A - 语种识别方法、系统、设备及存储介质 - Google Patents
语种识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN117711376A CN117711376A CN202311735878.5A CN202311735878A CN117711376A CN 117711376 A CN117711376 A CN 117711376A CN 202311735878 A CN202311735878 A CN 202311735878A CN 117711376 A CN117711376 A CN 117711376A
- Authority
- CN
- China
- Prior art keywords
- language
- audio data
- information
- data set
- multilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012512 characterization method Methods 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 65
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010008 shearing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 17
- 238000013518 transcription Methods 0.000 description 15
- 230000035897 transcription Effects 0.000 description 15
- 241001672694 Citrus reticulata Species 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种语种识别方法、系统、设备及存储介质,该方法包括:获取多语种音频数据集,采用数据混淆方法对多语种音频数据集进行处理;从处理后的多语种音频数据集中提取文本信息和语音信息;将文本信息和语音信息进行融合,得到融合表征信息;根据融合表征信息训练神经网络,得到语种模型;将待识别语种输入语种模型,得到语种类别。本发明获取包括短时音频数据和场景音频数据的多语种音频数据集,采用数据混淆方法对多语种音频数据集进行处理;将提取的文本信息和语音信息进行融合,将待识别语种输入根据融合表征信息训练得到的语种模型,得到语种类别,提升了语种模型的识别效果和准确率,改善了短时音频识别效果差以及语种混淆的问题。
Description
技术领域
本发明涉及语种识别技术领域,特别涉及一种语种识别方法、系统、设备及存储介质。
背景技术
语种识别是指计算机自动判定一段语音信号的语言类别的技术。该技术主要用在多语言语音处理系统的前端,先进行语种分类,再调用对应语言的ASR(自动语音识别)模型。机器学习的语种识别系统主要有GMM-UBM(Gaussian mixture model-universalbackground model)(声纹识别)、i-vector(线性降维模型)。深度学习时代,各种深度学习架构虽然在不断提升语种识别的性能,但是大大增加了系统复杂度,增加了资源消耗。同时对于语种识别的两个问题,短时语音的语种识别和易混淆的语种识别,仍然不能进行一劳永逸的解决。这主要是由于语言信息属于语音信号中的弱信息,隐藏在语音信号中,需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息,而在短时语音段和高混淆语言任务中,现有方法对这些统计信息的估计缺乏鲁棒性。
在现实研究中,大都只使用音频信息进行语种模型的训练,直接进行语种分类,但不能较好解决音频过短、不同语种发音相同和语种混淆问题,因此在使用场景中识别效果较差。
而对于一个拥有多语言技能组的呼叫中心来说,虽然可以通过规则的方式使用户进入对应的技能组,但仍有例外。比如,用户进入外语技能组后,如果客服是拥有外语技能组的中国人,此时客人仍然会使用普通话和客服交流。对于客服来说,这并不会造成任何困扰。但如果希望接入语音识别,就需要一个前置的语种识别模型来决定到底调用哪一种语种的ASR模型进行转写。同时根据使用场景,需要解决另外一个主要问题是非母语人士(non-native speakers)的语种识别。由于发音的不标准或者发音时间较短,如果从音素和语调的角度来判断语种,容易产生误判,给现在语种识别带来巨大的困难。同时,对于不同语种发音相似时,单纯通过语音是无法辨别出语种的类别的,对于该类发音是无法判断是哪种语言。
发明内容
本发明要解决的技术问题是为了克服现有技术中对于音频过短、不同语种发音相同和语种混淆的识别方式,存在识别效果差的缺陷,提供一种语种识别方法、系统、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明第一方面提供了一种语种识别方法,所述语种识别方法包括:
获取多语种音频数据集,所述多语种音频数据集包括短时音频数据和场景音频数据,所述短时音频数据为音频时长小于预设音频时长的不同语种的音频数据;所述场景音频数据为在场景内分布的不同语种的长短时音频数据;
采用数据混淆方法对所述多语种音频数据集进行处理;
从处理后的多语种音频数据集中提取文本信息和语音信息;
将所述文本信息和所述语音信息进行融合,得到融合表征信息;
根据融合表征信息训练神经网络,得到语种模型;
将待识别语种输入所述语种模型,得到语种类别。
优选地,所述采用数据混淆方法对所述多语种音频数据集进行处理的步骤包括:
采用数据混淆方法对所述多语种音频数据集进行剪切和拼接处理;
所述从处理后的多语种音频数据集中提取文本信息和语音信息的步骤包括:
从剪切和拼接处理后的多语种音频数据集中提取文本信息和语音信息。
优选地,所述从处理后的多语种音频数据集中提取文本信息和语音信息的步骤包括:
从所述处理后的多语种音频数据集中提取声学特征;
将所述声学特征分别输入时延神经网络以及自动语音识别网络,分别得到所述语音信息和所述文本信息。
优选地,所述将所述文本信息和所述语音信息进行融合,得到融合表征信息的步骤包括:
通过所述自动语音识别网络和注意力机制网络从所述文本信息中提取词向量;
将所述声学特征和所述词向量进行融合,得到所述融合表征信息;
和/或,
所述语种识别方法还包括:
获取所述待识别语种的语种类别概率值;
选择所述语种类别概率值最高的类别作为所述待识别语种的语种类别。
本发明第二方面提供了一种语种识别系统,所述语种识别系统包括:
第一获取模块,用于获取多语种音频数据集,所述多语种音频数据集包括短时音频数据和场景音频数据,所述短时音频数据为音频时长小于预设音频时长的不同语种的音频数据;所述场景音频数据为在场景内分布的不同语种的长短时音频数据;
处理模块,用于采用数据混淆方法对所述多语种音频数据集进行处理;
提取模块,用于从处理后的多语种音频数据集中提取文本信息和语音信息;
融合模块,用于将所述文本信息和所述语音信息进行融合,得到融合表征信息;
训练模块,用于根据融合表征信息训练神经网络,得到语种模型;
识别模块,用于将待识别语种输入所述语种模型,得到语种类别。
优选地,所述处理模块,具体用于采用数据混淆方法对所述多语种音频数据集进行剪切和拼接处理;
所述提取模块,具体用于从剪切和拼接处理后的多语种音频数据集中提取文本信息和语音信息。
优选地,所述提取模块包括:
第一提取单元,用于从所述处理后的多语种音频数据集中提取声学特征;
输入单元,用于将所述声学特征分别输入时延神经网络以及自动语音识别网络,分别得到所述语音信息和所述文本信息。
优选地,所述融合模块包括:
第二提取单元,用于通过所述自动语音识别网络和注意力机制网络从所述文本信息中提取词向量;
融合单元,用于将所述声学特征和所述词向量进行融合,得到所述融合表征信息;
和/或,
所述语种识别系统还包括:
第二获取模块,用于获取所述待识别语种的语种类别概率值;
选择模块,用于选择所述语种类别概率值最高的类别作为所述待识别语种的语种类别。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语种识别方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语种识别方法。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明获取包括短时音频数据和场景音频数据的多语种音频数据集,采用数据混淆方法对多语种音频数据集进行处理;并将从处理后的多语种音频数据集中提取文本信息和语音信息进行融合,将待识别语种输入根据融合表征信息训练得到的语种模型,得到语种类别,提升了语种模型的识别效果和识别准确率,改善了短时音频识别效果差以及语种混淆的问题。
附图说明
图1为本发明实施例1的语种识别方法的流程图。
图2为本发明实施例1和2的语种模型的结构示意图。
图3为本发明实施例2的语种识别系统的模块示意图。
图4为本发明实施例3的实现语种识别方法的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供的一种语种识别方法,如图1所示,该语种识别方法包括:
步骤101、获取多语种音频数据集,多语种音频数据集包括短时音频数据和场景音频数据,短时音频数据为音频时长小于预设音频时长的不同语种的音频数据;场景音频数据为在场景内分布的不同语种的长短时音频数据;
本实施例中,预设音频时长根据实际情况进行设置,例如,预设音频时可以设置为2秒,也可以设置为其他数值,此处不做具体限定。
例如,以预设音频时可以设置为2秒为例,对于构建短时音频数据,收集和切割了每个语种2万条短时音频数据,通过计算每个短时音频数据的时长,保存音频时长小于2秒的音频数据,同时对于音频时长大于2秒的音频数据采用随机切割其中2秒的音频数据,以构建短时音频数据。
对于构建场景音频数据,无筛选条件的随机选择每个语种数据各8万条。需要说明的是,场景音频数据包括短时音频数据和长时音频数据。另外,场景可以为通话场景,也可以为有语音交互的其他场景。
步骤102、采用数据混淆方法对多语种音频数据集进行处理;
在一可选的实施例中,步骤102包括:
步骤1021、采用数据混淆方法对多语种音频数据集进行剪切和拼接处理;
本实施例中,加入mixup(混淆)方法丰富多语种音频数据集,此处采用简化mixup方法直接对多语种音频数据集进行剪切和拼接,根据配置不同权重,由于场景特殊性,此处只针对中粤、中英进行了mixup数据增强。
步骤103、从处理后的多语种音频数据集中提取文本信息和语音信息;
在一可选的实施例中,步骤103包括:
步骤1031、从剪切和拼接处理后的多语种音频数据集中提取文本信息和语音信息。
步骤104、将文本信息和语音信息进行融合,得到融合表征信息;
步骤105、根据融合表征信息训练神经网络,得到语种模型;
步骤106、将待识别语种输入语种模型,得到语种类别。
在具体实施过程中,在训练神经网络时,在场景内音频数据上进行神经网络训练,得到一个模型,然后再更换短时音频数据进行迁移训练,提升了语种模型在短时音频上的识别效果。具体地,先通过场景音频数据训练神经网络,得到一个有识别能力的模型,在通过短时音频数据训练有识别能力的模型,使得该模型在短时音频上的鲁棒性更好;然后进一步地再通过融合表征信息训练短时音频数据训练后的模型,最终得到语种模型。
本实施例中,针对不同语种发音相同问题,本实施例采用将文本信息和语音信息进行融合,在模型训练过程中,其相互辅助学习,适应性的分配文本信息和语音信息的权重贡献值,改善了语种混淆问题。
针对语种混淆问题,本实施例引入mixup的数据增强方法丰富语多语种音频数据集,使更加丰富语种中相互混淆问题,由于话术问题,语种间出现相互掺杂,但该类数据较少,通过mixup方法增加多语种音频数据集的多样性,同时提升了语种对该类情况的鲁棒性。
需要说明的是,本实施例采用数据迭代的方法,对于有着庞大多语种音频数据集(例如,训练集)的语言,如普通话的英文,不需要将全部的多语种音频数据集都加入训练。因此可以对多语种音频数据集进行迭代。对于多语种音频数据集较多的类别,可以任意选择一部分数据训练模型,再用该模型对训练语料进行筛选,找出这几个类别中被判为其他语种的语料,再替换掉相应数量的语料。
本实施例在语音信息和文本信息融合的多模态语种识别中,实现了对普通话、粤语、英文、日语和韩语共5种语种进行分类。
本实施例获取包括短时音频数据和场景音频数据的多语种音频数据集,采用数据混淆方法对多语种音频数据集进行处理;并将从处理后的多语种音频数据集中提取文本信息和语音信息进行融合,将待识别语种输入根据融合表征信息训练得到的语种模型,得到语种类别,提升了语种模型的识别效果和识别准确率,改善了短时音频识别效果差以及语种混淆的问题。
在一可选的实施例中,步骤103包括:
步骤103-11、从处理后的多语种音频数据集中提取声学特征;
本实施例中,对于声学特征的提取:针对语种识别属于语音分类的任务,相比于事件检测类任务,语种信息类似说话人信息,更加全局。输入为整句的声学特征,设置帧长为25ms,帧移为10ms,使用每帧的原始频谱图作为特征,维度大小为(200,1),设计网络输入尺寸为(200,X),X为帧的数量,表示可变长,频谱图特征的适用。
步骤103-12、将声学特征分别输入时延神经网络以及自动语音识别网络,分别得到语音信息和文本信息。
本实施例中,先对语音部分提取帧级别的有效声学特征并输入给时延神经网络(TDNN),再利用语音信息(即通过语音中的statistics pooling(统计时序池化))将帧级别的声学特征优化为段级别的声学特征(例如,将帧级别的声学特征映射为句级的声学特征),最后通过一层全连接层输出语音得到的embedding(嵌入);在对文本信息部分,先将声学特征分别输入ASR(自动语音识别网络)获取文本信息。
在一可选的实施例中,步骤104包括:
步骤104-11、通过自动语音识别网络和注意力机制网络从文本信息中提取词向量;
本实施例中,词向量是通过自动语音识别(ASR)网络和注意力机制网络获得的。对于ASR网络,可以使用任一语种或多个语种的ASR网络做文本转写,但需要保持训练和预测的一致性,因此需要考虑使用场景。在目标场景中,多语言的ASR网络并行调用,而语种识别模型的调用在ASR网络之后,当语种模型确定当前通话的语种时,关闭其它语言的ASR网络。对于不同技能组,调用的ASR网络是不一致的,但任一技能组会存在普通话,所以普通话的ASR网络是总是会被调用的,适合被用于生成转写。Transformer(一种基于注意力机制的序列模型)机制使用的多层attention(注意力)结构很好的解决了文本中任务中的长时依赖问题,也能更好的关注文本语义的信息,在语种模型中融入Transformer机制增加了文本注意力并结合语音声学特征发挥重要的作用,同时利用每个词向量添加一个位置信息,这些向量遵循模型学习到的特定模式,有助于确定每个词的位置,或序列中不同单词间的距离,位置向量的添加能够对语序也有很好的表达。
步骤104-12、将声学特征和词向量进行融合,得到融合表征信息;
本实施例中,为了更深入的提取文本信息和保持特征维度的一致性,将词向量(word embedding)输入两层的卷积网络结构,最后得到文本的深度特征,最后将语音得到的向量与文本得到的深度特征进行拼接,将语音信息和文本信息进行融合,通过共享学习网络综合学习两个信息来提升模型识别效果。通过该方法,大幅度提升了语种识别的准确率,同时降低了其他语音处理模块的误识别率。
现有技术中语种识别的性能不能满足日益增长的需求,尤其是面对短时语音段语种识别以及高混淆度的语言识别任务时。主要是由于语言信息属于语音信号中的弱信息隐藏在语音信号中,需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息,而在短时语音段和高混淆语言任务中,现有方法对这些统计信息的估计缺乏鲁棒性。因此本实施例通过独特的语音信息和文本信息的特征融合方法,具体如下:
首先,先提取声学特征下的深度tdnn网络,然后提取音素相关的深度瓶颈特征(Deep Bottleneck Feature,DBF)得到语音深度特征evoice;然后在另外一个分支语音经过ASR网络转写成文本,再通过位置相关的多层attention模型结构,提取了深度位置相关的词向量,随后将得到的词向量输入给两层CNN(卷积神经网络)模型,提升对文本词向量的特征得到词向量特征etext,再通过concat(函数),对上述两个特征进行融合,具体如公式(1)所示:etotal=λevoice+(1-λ)etext(1);其中,公式内λ为权重可以设置为0.6,平衡语音信息和文本信息对网络模型的贡献度;向量e为256维。此处特征的融合可有效的抑制底层声学特征中的语种无关噪声,特别是信道差异、说话人差异、背景噪声差异等噪声因素,并且能够将底层声学特征与具有物理意义的底层文本单元结合起来,也提升了在短时音频和混淆语种的鲁棒性。
另外,考虑到希望对变长语音进行分类,同时融合声学特征和词向量特征。对于声学特征本实施例选择使用频谱图特征,如图2所示,设计5层tdnn(Time Delay NeuralNetwork),对于第一层tdnn层,取当前帧和前后各两帧的特征向量,共五帧,表示为[t-2,t+2]。第二层取当前帧和t-2时刻、t+2时刻各两帧,共三帧,表示为{t-2,t,t+2}。第三、四、五层仿此,具体参数见图1。五层tdnn后接pooling层,将深度网络学习到的帧级别的声学特征映射到句级别的声学特征,再接全连接层,输出1*256维的深度特征向量。
对于词向量,本实施例选取attention机制输出的-1层,也就是每句文本会被attention机制的模型转换为768维的词向量特征。将词向量特征输入两个一维卷积中,获得1*256的深度特征向量。将输入声学特征得到的深度特征和输入词向量特征得到的深度特征进行拼接。拼接之后设计两层全连接层,一个用于降维,另一个用于分类,最后接一个softmax(归一化指数函数)输出归一化后的概率。
为了进一步提高语种模型的准确率,针对短时语音的语种识别,对于每个batch,截取1s-4s训练语料进行训练。相比使用固定长度的语料进行训练,这种方式增加了对短时语音的语种识别性能。针对非母语人士(non-native speakers)的语种识别,增加了两个开源数据集,《A Database of Non-Native English Accents to Assist Neural SpeechRecognition》和《Speech Accent Archive》。
在一可选的实施例中,该语种识别方法还包括:
获取待识别语种的语种类别概率值;
选择语种类别概率值最高的类别作为待识别语种的语种类别。
在具体实施过程中,上游ASR网络经过VAD静音切割技术和转写结果,发送音频流字段,音频流对应ASR网络转写结果、当前技能组,先根据ASR网络转写结果和DNN的VAD结果判断当前句(例如当前待识别语种)是否为有效句,如果当前句为噪音、无法确定语种的语气词、语音播报,则视为无效句,不对当前句进行判断,反之则进行特征提取。对于声学特征,对传入的该音频按照帧长25ms、帧移10ms进行分帧、加窗、预加重、傅里叶变化获得声学特征。对于词向量特征,调用attention机制的模型输入ASR网络转写的文本获取词向量。再将声学特征和词向量传输至语种模型进行判断,例如,判断一通通话的前5个有效句。对于语种类别的概率值进行累加,选择累计概率值最高的类别作为当前句(例如当前待识别语种)的语种类别,然后返回给ASR模型作为语种的类别结果,结束当前通话对于语种识别服务的调用。
本实施例基于词向量和声学特征的语种识别方法,在传统利用语音语调判断语种的基础上,增加了文本长的语义维度,提升了语种识别的性能。同时引入mixup的数据增强方法和独特的模型训练策略,通过私有网络学习音频任务的模态内部主要声学信息,使用attention机制获取文本的语义信息,再通过共享层联合学习语音和文本的语种信息,在多模态的语种识别模型上测试结果得到大幅度的提升,也减少了后续对各语种音频处理的模块的误识别次数。通过使用文本信息和语音信息的融合构建多模态的语种模型,同时在训练策略上,先在场景音频数据上进行模型训练,然后在完成短时音频数据上进行迁移训练。在语种识别的过程中,使用声学特征和词向量联合建模,模型通过语音识别模型的转写文本结果,再通过attention机制模型获得词向量;再利用语音信息将帧级的声学特征映射为句级的声学特征,再与经过处理的词向量进行拼接后接全连接层和softmax进行分类。该基于语音信息和文本信息的多模态的语种识别方法,通过联合学习的方式,提升了语种识别的性能,同时较大的改善了短时音频识别效果差以及语种混淆的问题。
实施例2
本实施例提供的一种语种识别系统,如图3所示,该语种识别系统包括:第一获取模块21、处理模块22、提取模块23、融合模块24、训练模块25、识别模块26;
第一获取模块21,用于获取多语种音频数据集,多语种音频数据集包括短时音频数据和场景音频数据,短时音频数据为音频时长小于预设音频时长的不同语种的音频数据;场景音频数据为在场景内分布的不同语种的长短时音频数据;
本实施例中,预设音频时长根据实际情况进行设置,例如,预设音频时可以设置为2秒,也可以设置为其他数值,此处不做具体限定。
例如,以预设音频时可以设置为2秒为例,对于构建短时音频数据,收集和切割了每个语种2万条短时音频数据,通过计算每个短时音频数据的时长,保存音频时长小于2秒的音频数据,同时对于音频时长大于2秒的音频数据采用随机切割其中2秒的音频数据,以构建短时音频数据。
对于构建场景音频数据,无筛选条件的随机选择每个语种数据各8万条。需要说明的是,场景音频数据包括短时音频数据和长时音频数据。另外,场景可以为通话场景,也可以为有语音交互的其他场景。
处理模块22,用于采用数据混淆方法对多语种音频数据集进行处理;
在一可选的实施例中,处理模块22,具体用于采用数据混淆方法对多语种音频数据集进行剪切和拼接处理;
本实施例中,加入mixup方法丰富多语种音频数据集,此处采用简化mixup方法直接对多语种音频数据集进行剪切和拼接,根据配置不同权重,由于场景特殊性,此处只针对中粤、中英进行了mixup数据增强。
提取模块23,用于从处理后的多语种音频数据集中提取文本信息和语音信息;
在一可选的实施例中,提取模块23,具体用于从剪切和拼接处理后的多语种音频数据集中提取文本信息和语音信息。
融合模块24,用于将文本信息和语音信息进行融合,得到融合表征信息;
训练模块25,用于根据融合表征信息训练神经网络,得到语种模型;
识别模块26,用于将待识别语种输入语种模型,得到语种类别。
在具体实施过程中,在训练神经网络时,在场景内音频数据上进行神经网络训练,得到一个模型,然后再更换短时音频数据进行迁移训练,提升了语种模型在短时音频上的识别效果。具体地,先通过场景音频数据训练神经网络,得到一个有识别能力的模型,在通过短时音频数据训练有识别能力的模型,使得该模型在短时音频上的鲁棒性更好;然后进一步地再通过融合表征信息训练短时音频数据训练后的模型,最终得到语种模型。
本实施例中,针对不同语种发音相同问题,本实施例采用将文本信息和语音信息进行融合,在模型训练过程中,其相互辅助学习,适应性的分配文本信息和语音信息的权重贡献值,改善了语种混淆问题。
针对语种混淆问题,本实施例引入mixup的数据增强方法丰富语多语种音频数据集,使更加丰富语种中相互混淆问题,由于话术问题,语种间出现相互掺杂,但该类数据较少,通过mixup方法增加多语种音频数据集的多样性,同时提升了语种对该类情况的鲁棒性。
需要说明的是,本实施例采用数据迭代的方法,对于有着庞大多语种音频数据集(例如,训练集)的语言,如普通话的英文,不需要将全部的多语种音频数据集都加入训练。因此可以对多语种音频数据集进行迭代。对于多语种音频数据集较多的类别,可以任意选择一部分数据训练模型,再用该模型对训练语料进行筛选,找出这几个类别中被判为其他语种的语料,再替换掉相应数量的语料。
本实施例在语音信息和文本信息融合的多模态语种识别中,实现了对普通话、粤语、英文、日语和韩语共5种语种进行分类。
本实施例获取包括短时音频数据和场景音频数据的多语种音频数据集,采用数据混淆方法对多语种音频数据集进行处理;并将从处理后的多语种音频数据集中提取文本信息和语音信息进行融合,将待识别语种输入根据融合表征信息训练得到的语种模型,得到语种类别,提升了语种模型的识别效果和识别准确率,改善了短时音频识别效果差以及语种混淆的问题。
在一可选的实施例中,如图3所示,提取模块23包括:第一提取单元231、输入单元232;
第一提取单元231,用于从处理后的多语种音频数据集中提取声学特征;
本实施例中,对于声学特征的提取:针对语种识别属于语音分类的任务,相比于事件检测类任务,语种信息类似说话人信息,更加全局。输入为整句的声学特征,设置帧长为25ms,帧移为10ms,使用每帧的原始频谱图作为特征,维度大小为(200,1),设计网络输入尺寸为(200,X),X为帧的数量,表示可变长,频谱图特征的适用。
输入单元232,用于将声学特征分别输入时延神经网络以及自动语音识别网络,分别得到语音信息和文本信息。
本实施例中,先对语音部分提取帧级别的有效声学特征并输入给时延神经网络(TDNN),再利用语音信息(即通过语音中的statistics pooling(统计时序池化))将帧级别的声学特征优化为段级别的声学特征(例如,将帧级别的声学特征映射为句级的声学特征),最后通过一层全连接层输出语音得到的embedding(嵌入);在对文本信息部分,先将声学特征分别输入ASR(自动语音识别网络)获取文本信息。
在一可选的实施例中,如图3所示,融合模块24包括:第二提取单元241、融合单元242;
第二提取单元241,用于通过自动语音识别网络和注意力机制网络从文本信息中提取词向量;
本实施例中,词向量是通过自动语音识别(ASR)网络和注意力机制网络获得的。对于ASR网络,可以使用任一语种或多个语种的ASR网络做文本转写,但需要保持训练和预测的一致性,因此需要考虑使用场景。在目标场景中,多语言的ASR网络并行调用,而语种识别模型的调用在ASR网络之后,当语种模型确定当前通话的语种时,关闭其它语言的ASR网络。对于不同技能组,调用的ASR网络是不一致的,但任一技能组会存在普通话,所以普通话的ASR网络是总是会被调用的,适合被用于生成转写。Transformer机制使用的多层attention结构很好的解决了文本中任务中的长时依赖问题,也能更好的关注文本语义的信息,在语种模型中融入Transformer机制增加了文本注意力并结合语音声学特征发挥重要的作用,同时利用每个词向量添加一个位置信息,这些向量遵循模型学习到的特定模式,有助于确定每个词的位置,或序列中不同单词间的距离,位置向量的添加能够对语序也有很好的表达。
融合单元242,用于将声学特征和词向量进行融合,得到融合表征信息;
本实施例中,为了更深入的提取文本信息和保持特征维度的一致性,将词向量(word embedding)输入两层的卷积网络结构,最后得到文本的深度特征,最后将语音得到的向量与文本得到的深度特征进行拼接,将语音信息和文本信息进行融合,通过共享学习网络综合学习两个信息来提升模型识别效果。通过该方法,大幅度提升了语种识别的准确率,同时降低了其他语音处理模块的误识别率。
现有技术中语种识别的性能不能满足日益增长的需求,尤其是面对短时语音段语种识别以及高混淆度的语言识别任务时。主要是由于语言信息属于语音信号中的弱信息隐藏在语音信号中,需要通过对语音中的信息进行提取和分析才能进行判定。判决结果的好坏强烈地依赖于语音信息段中的相关统计信息,而在短时语音段和高混淆语言任务中,现有方法对这些统计信息的估计缺乏鲁棒性。因此本实施例通过独特的语音信息和文本信息的特征融合方法,具体如下:
首先,先提取声学特征下的深度tdnn网络,然后提取音素相关的深度瓶颈特征(Deep Bottleneck Feature,DBF)得到语音深度特征evoice;然后在另外一个分支语音经过ASR网络转写成文本,再通过位置相关的多层attention模型结构,提取了深度位置相关的词向量,随后将得到的词向量输入给两层CNN模型,提升对文本词向量的特征得到词向量特征etext,再通过concat,对上述两个特征进行融合,具体如公式(1)所示:etotal=λevoice+(1-λ)etext(1);其中,公式内λ为权重可以设置为0.6,平衡语音信息和文本信息对网络模型的贡献度;向量e为256维。此处特征的融合可有效的抑制底层声学特征中的语种无关噪声,特别是信道差异、说话人差异、背景噪声差异等噪声因素,并且能够将底层声学特征与具有物理意义的底层文本单元结合起来,也提升了在短时音频和混淆语种的鲁棒性。
另外,考虑到希望对变长语音进行分类,同时融合声学特征和词向量特征。对于声学特征本实施例选择使用频谱图特征,如图2所示,设计5层tdnn(Time Delay NeuralNetwork),对于第一层tdnn层,取当前帧和前后各两帧的特征向量,共五帧,表示为[t-2,t+2]。第二层取当前帧和t-2时刻、t+2时刻各两帧,共三帧,表示为{t-2,t,t+2}。第三、四、五层仿此,具体参数见图1。五层tdnn后接pooling层,将深度网络学习到的帧级别的声学特征映射到句级别的声学特征,再接全连接层,输出1*256维的深度特征向量。
对于词向量,本实施例选取attention机制输出的-1层,也就是每句文本会被attention机制的模型转换为768维的词向量特征。将词向量特征输入两个一维卷积中,获得1*256的深度特征向量。将输入声学特征得到的深度特征和输入词向量特征得到的深度特征进行拼接。拼接之后设计两层全连接层,一个用于降维,另一个用于分类,最后接一个softmax输出归一化后的概率。
为了进一步提高语种模型的准确率,针对短时语音的语种识别,对于每个batch,截取1s-4s训练语料进行训练。相比使用固定长度的语料进行训练,这种方式增加了对短时语音的语种识别性能。针对非母语人士(non-native speakers)的语种识别,增加了两个开源数据集,《A Database of Non-Native English Accents to Assist Neural SpeechRecognition》和《Speech Accent Archive》。
在一可选的实施例中,如图3所示,该语种识别系统还包括:第二获取模块27、选择模块28;
第二获取模块27,用于获取待识别语种的语种类别概率值;
选择模块28,用于选择语种类别概率值最高的类别作为待识别语种的语种类别。
在具体实施过程中,上游ASR网络经过VAD静音切割技术和转写结果,发送音频流字段,音频流对应ASR网络转写结果、当前技能组,先根据ASR网络转写结果和DNN的VAD结果判断当前句(例如当前待识别语种)是否为有效句,如果当前句为噪音、无法确定语种的语气词、语音播报,则视为无效句,不对当前句进行判断,反之则进行特征提取。对于声学特征,对传入的该音频按照帧长25ms、帧移10ms进行分帧、加窗、预加重、傅里叶变化获得声学特征。对于词向量特征,调用attention机制的模型输入ASR网络转写的文本获取词向量。再将声学特征和词向量传输至语种模型进行判断,例如,判断一通通话的前5个有效句。对于语种类别的概率值进行累加,选择累计概率值最高的类别作为当前句(例如当前待识别语种)的语种类别,然后返回给ASR模型作为语种的类别结果,结束当前通话对于语种识别服务的调用。
本实施例基于词向量和声学特征的语种识别方法,在传统利用语音语调判断语种的基础上,增加了文本长的语义维度,提升了语种识别的性能。同时引入mixup的数据增强方法和独特的模型训练策略,通过私有网络学习音频任务的模态内部主要声学信息,使用attention机制获取文本的语义信息,再通过共享层联合学习语音和文本的语种信息,在多模态的语种识别模型上测试结果得到大幅度的提升,也减少了后续对各语种音频处理的模块的误识别次数。通过使用文本信息和语音信息的融合构建多模态的语种模型,同时在训练策略上,先在场景音频数据上进行模型训练,然后在完成短时音频数据上进行迁移训练。在语种识别的过程中,使用声学特征和词向量联合建模,模型通过语音识别模型的转写文本结果,再通过attention机制模型获得词向量;再利用语音信息将帧级的声学特征映射为句级的声学特征,再与经过处理的词向量进行拼接后接全连接层和softmax进行分类。该基于语音信息和文本信息的多模态的语种识别方法,通过联合学习的方式,提升了语种识别的性能,同时较大的改善了短时音频识别效果差以及语种混淆的问题。
实施例3
图4为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,处理器执行程序时实现实施例1的语种识别方法。图4显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的语种识别方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1所提供的语种识别方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1所述的语种识别方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种语种识别方法,其特征在于,所述语种识别方法包括:
获取多语种音频数据集,所述多语种音频数据集包括短时音频数据和场景音频数据,所述短时音频数据为音频时长小于预设音频时长的不同语种的音频数据;所述场景音频数据为在场景内分布的不同语种的长短时音频数据;
采用数据混淆方法对所述多语种音频数据集进行处理;
从处理后的多语种音频数据集中提取文本信息和语音信息;
将所述文本信息和所述语音信息进行融合,得到融合表征信息;
根据融合表征信息训练神经网络,得到语种模型;
将待识别语种输入所述语种模型,得到语种类别。
2.如权利要求1所述的语种识别方法,其特征在于,所述采用数据混淆方法对所述多语种音频数据集进行处理的步骤包括:
采用数据混淆方法对所述多语种音频数据集进行剪切和拼接处理;
所述从处理后的多语种音频数据集中提取文本信息和语音信息的步骤包括:
从剪切和拼接处理后的多语种音频数据集中提取文本信息和语音信息。
3.如权利要求1所述的语种识别方法,其特征在于,所述从处理后的多语种音频数据集中提取文本信息和语音信息的步骤包括:
从所述处理后的多语种音频数据集中提取声学特征;
将所述声学特征分别输入时延神经网络以及自动语音识别网络,分别得到所述语音信息和所述文本信息。
4.如权利要求3所述的语种识别方法,其特征在于,所述将所述文本信息和所述语音信息进行融合,得到融合表征信息的步骤包括:
通过所述自动语音识别网络和注意力机制网络从所述文本信息中提取词向量;
将所述声学特征和所述词向量进行融合,得到所述融合表征信息;
和/或,
所述语种识别方法还包括:
获取所述待识别语种的语种类别概率值;
选择所述语种类别概率值最高的类别作为所述待识别语种的语种类别。
5.一种语种识别系统,其特征在于,所述语种识别系统包括:
第一获取模块,用于获取多语种音频数据集,所述多语种音频数据集包括短时音频数据和场景音频数据,所述短时音频数据为音频时长小于预设音频时长的不同语种的音频数据;所述场景音频数据为在场景内分布的不同语种的长短时音频数据;
处理模块,用于采用数据混淆方法对所述多语种音频数据集进行处理;
提取模块,用于从处理后的多语种音频数据集中提取文本信息和语音信息;
融合模块,用于将所述文本信息和所述语音信息进行融合,得到融合表征信息;
训练模块,用于根据融合表征信息训练神经网络,得到语种模型;
识别模块,用于将待识别语种输入所述语种模型,得到语种类别。
6.如权利要求5所述的语种识别系统,其特征在于,所述处理模块,具体用于采用数据混淆方法对所述多语种音频数据集进行剪切和拼接处理;
所述提取模块,具体用于从剪切和拼接处理后的多语种音频数据集中提取文本信息和语音信息。
7.如权利要求5所述的语种识别系统,其特征在于,所述提取模块包括:
第一提取单元,用于从所述处理后的多语种音频数据集中提取声学特征;
输入单元,用于将所述声学特征分别输入时延神经网络以及自动语音识别网络,分别得到所述语音信息和所述文本信息。
8.如权利要求7所述的语种识别系统,其特征在于,所述融合模块包括:
第二提取单元,用于通过所述自动语音识别网络和注意力机制网络从所述文本信息中提取词向量;
融合单元,用于将所述声学特征和所述词向量进行融合,得到所述融合表征信息;
和/或,
所述语种识别系统还包括:
第二获取模块,用于获取所述待识别语种的语种类别概率值;
选择模块,用于选择所述语种类别概率值最高的类别作为所述待识别语种的语种类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的语种识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的语种识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311735878.5A CN117711376A (zh) | 2023-12-15 | 2023-12-15 | 语种识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311735878.5A CN117711376A (zh) | 2023-12-15 | 2023-12-15 | 语种识别方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117711376A true CN117711376A (zh) | 2024-03-15 |
Family
ID=90149440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311735878.5A Pending CN117711376A (zh) | 2023-12-15 | 2023-12-15 | 语种识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117711376A (zh) |
-
2023
- 2023-12-15 CN CN202311735878.5A patent/CN117711376A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
JP7417634B2 (ja) | 音声認識のためのエンドツーエンドモデルでコンテキスト情報を使用すること | |
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN112259089B (zh) | 语音识别方法及装置 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN110853628A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Desot et al. | End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
CN113129895A (zh) | 一种语音检测处理系统 | |
CN108597497B (zh) | 一种字幕语音精准同步系统及方法、信息数据处理终端 | |
US11989514B2 (en) | Identifying high effort statements for call center summaries | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN114067793A (zh) | 音频处理方法和装置、电子设备及可读存储介质 | |
CN117711376A (zh) | 语种识别方法、系统、设备及存储介质 | |
CN114171004A (zh) | 语音交互方法、装置、电子设备及存储介质 | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
CN112420022A (zh) | 一种噪声提取方法、装置、设备和存储介质 | |
CN116959421B (zh) | 处理音频数据的方法及装置、音频数据处理设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |