CN113870839A - 一种基于多任务的语种识别模型的语种识别装置 - Google Patents

一种基于多任务的语种识别模型的语种识别装置 Download PDF

Info

Publication number
CN113870839A
CN113870839A CN202111153638.5A CN202111153638A CN113870839A CN 113870839 A CN113870839 A CN 113870839A CN 202111153638 A CN202111153638 A CN 202111153638A CN 113870839 A CN113870839 A CN 113870839A
Authority
CN
China
Prior art keywords
voice
data
queue
identification
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111153638.5A
Other languages
English (en)
Other versions
CN113870839B (zh
Inventor
陈玮
冯少辉
张建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202111153638.5A priority Critical patent/CN113870839B/zh
Publication of CN113870839A publication Critical patent/CN113870839A/zh
Application granted granted Critical
Publication of CN113870839B publication Critical patent/CN113870839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多任务的语种识别模型的语种识别装置包括:客户端和服务端;客户端与服务端通信连接;客户端用于获取待识别语音数据,进行预处理得到待识别的第一语音队列发送给所述服务端;服务端,用于将客户端发送的第一语音队列进行分批处理,得到多个批次的第二语音队列;并将多批次的第二语音队列导入到内置的识别模型中进行多任务识别得到识别结果队列;客户端还用于从识别结果队列中获取识别结果进行输出;识别模型为多任务学习的多语种识别模型;其中的多任务包括语种识别任务和是否为有效话音识别任务。本发明实现了对语种识别和有效话音识别两种任务的同时识别,提高了语种识别的准确率和识别效率。

Description

一种基于多任务的语种识别模型的语种识别装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于多任务的语种识别模型的语种识别装置。
背景技术
近些年,语音识别技术取得显著进步,语种识别作为语音识别的重要技术之一,在军事、医疗、教育等多个领域发挥着重要作用;在多语言语音识别系统中,语种识别作为语音识别系统中的上游任务,对提高多语种语言识别的准确率和系统的用户体验上发挥重要作用;
传统的语种识别方法通常包括语音信号特征提取、语种模型构建和判决规则这三个过程,在这个过程中常用的语音特征有MFCC、Fbank、语谱图、i-vector等,语种模型通常为一个或多个分类器,常用的分类器有SVM、决策树、随机森林等,判决规则与所选的分类器有关,通常是根据先验信息计算出待分类的样本的概率或置信度,以此来预测出语种的类别;
基于深度学习的语种识别方法通常不需要人为手动提取特征,通过深度学习模型,例如CNN、LSTM、transformer等这些非线性特征提取器将语音变换到一个可区分的向量空间,从而定义优化目标函数,使用梯度下降算法更新模型的参数,直到模型预测的类别与真实类别一致。在这类方法中,模型的好坏往往依赖标注数据的质量和数量,此外,这些模型很难提取出语音的深层特征,例如说话人的性别、年龄以及不同语种间发音差异等等。
发明内容
鉴于上述的分析,本发明旨在提供一种基于多任务的语种识别模型的语种识别装置,同时完成实现对输入数据的语种识别和是否为有效话音的多任务识别。
本发明提供的技术方案是:
本发明公开了一种基于多任务的语种识别模型的语种识别装置,包括:客户端和服务端;所述客户端与服务端通信连接;
所述客户端,用于获取待识别语音数据,进行预处理得到待识别的第一语音队列发送给所述服务端;
所述服务端,用于将所述客户端发送的第一语音队列进行分批处理,得到多个批次的第二语音队列,其中每个批第二语音队列中数据长短相近;并将多批次的所述第二语音队列导入到内置的识别模型中进行多任务识别得到识别结果队列;
所述客户端,还用于从所述识别结果队列中获取识别结果进行输出;
所述识别模型为多任务学习的多语种识别模型;其中的多任务包括语种识别任务和是否为有效话音识别任务。
进一步地,所述客户端包括数据获取模块、预处理模块、发送模块和结果获取模块;
所述数据获取模块,用于获取待识别语音数据;
所述预处理模块,用于对获取的识别语音数据进行包括数据重采样、去除静音和数据切割在内的处理后,得到待识别的第一语音队列;
所述发送模块,用于将所述第一语音队列发送到服务端;
所述结果获取模块,用于访问服务端,从服务端的识别结果队列中获取识别结果后进行输出。
进一步地,所述预处理模块包括第一重采样模块、声道拆分模块、静音去除模块、数据切割模块和第二重采样模块;
所述第一重采样模块,用于将所述数据获取模块获取的待识别语音数据进行首次重采样,统一话音数据的采样率、编码、精度和头文件格式;
所述声道拆分模块,用于对首次重采样数据中声道数大于1的数据拆分成单声道数据;
所述静音去除模块,用于对单声道数据进行语音检测,将单声道数据分为固定时长的多个语音片段,根据每个语音片段在人声的频带范围内各子带的能量,判断语音片段内是否是静音片段,是则去掉该片段,否则保留;得到去除静音的话音数据;
所述数据切割模块,用于对去除静音的话音数据进行切割,得到话音数据片段;
所述第二重采样模块,用于对切割后的话音数据片段再次重采样后得到所述第一语音队列。
进一步地,所述服务端包括重排序模块、队列存储模块、分批控制模块、识别模块和识别结果模块;
所述重排序模块,用于将所述客户端发送的所述第一语音队列中的话音数据片段取出后,按照数据片段的长度依次进行排序,得到排序语音队列;
队列存储模块中包括多个队列存储器;每个存储器用于存储一个批次的第二语音队列;
分批控制模块,用于从排序语音队列中的一端开始持续取出话音数据片段,当取出话音数据片段的长度和达到分批的预设长度后,分批为一个第二语音队列,存储到队列存储模块中的一个队列存储器中;持续进行取出、分批和存储控制,直到取完排序语音队列,或排序语音队列中剩余的话音数据片段不足一批;则将剩余的语音数据返回所述客户端的第一语音队列;
所述识别模块内部设置的多语种识别模型,用于对每个队列存储器中存储的第二语音队列分别进行语种识别和是否为有效话音识别;并将识别结果输出到识别结果模块;
所述识别结果模块,用于将所述识别结果存储于内部设置的识别结果存储队列中。
进一步地,所述识别模块内部设置有一个多语种识别模型;所述多语种识别模型按照所述队列存储器的顺序,依次从对每个批次的第二语音队列进行语种识别和是否为有效话音识别。
进一步地,所述识别模块中包括与所述队列存储器数量相同,且一一对应连接的多个语种识别模型;
每个多语种识别模型对一个对应的队列存储器中的第二语音队列进行语种识别和是否为有效话音识别。
进一步地,所述多语种识别模型包括特征提取层、上下文编码层以及输出层;所述特征提取层采用wav2vec模型中的卷积网络;用于提取输入语音样本语音帧级别的浅层特征;所述上下文编码层采用wav2vec模型中基于自注意力机制的transformer网络,用于提取语音各个帧间的权重和特征;所述输出层为依据同时完成语种识别和数据有效识别任务的要求,对wav2vec模型输出层和损失函数进行调整后的输出层;所述输出层使用全连接网络将提取的权重和特征变换到与语种识别任务和数据有效识别任务对应的label维度,同时输出两个任务的识别结果。
进一步地,所述输出层属于语种任务的输出Y i 为:
Figure 100002_DEST_PATH_IMAGE001
所述输出层属于数据有效识别任务的输出Z i 为:
Figure 384182DEST_PATH_IMAGE002
其中,P(X i h y i )为语种类别概率归一化输出,P(X i h z i )数据有效性概率归一化输出,X i 为所述多语种识别模型输入的第i个样本数据;
h y i 为属于语种任务的经过卷积网络和自注意力网络后得到的隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );
h z i 为属于数据有效识别任务的经过卷积网络和自注意力网络后得到隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );j=1,2,…,T;T为经过所述多语种识别模型中的卷积操作后的帧个数。
进一步地,在多语种识别模型中的损失函数L fine_tuning =(1-α)L y +αL z
其中,α为平衡语种识别和数据有效识别两种任务的输出的加权因子;L y 为语种识别任务的softmax交叉损失,
Figure 100002_DEST_PATH_IMAGE003
L z 为数据有效识别任务的sigmoid交叉损失,
Figure 98060DEST_PATH_IMAGE004
y i z i 分别为语种的真实类别和有效音真实类别,N为样本总数。
进一步地,在多语种识别模型中的损失函数L fine_tuning =(1-α)L y +αL z
其中,α为平衡语种识别和数据有效识别两种任务的输出的加权因子;L y 为语种识别任务的softmax交叉损失,
Figure 100002_DEST_PATH_IMAGE005
L z 为数据有效识别任务的sigmoid交叉损失,
Figure 205694DEST_PATH_IMAGE006
y i z i 分别为语种的真实类别和有效音真实类别,N为样本总数;
其中,
Figure 100002_DEST_PATH_IMAGE007
β为缩放不同类别语种损失的加权因子;Reject为数据无效标记。
本发明至少可实现以下有益效果之一:
本发明在语种识别的同时能判断出无效音,能够同时满足实际场景中有效话音检出和语种识别两个任务,节省了时间和空间成本。
对获取待识别语音数据进行预处理以及分批处理后,得到总长固定且语音片段长度相同或相近的语音片段同时输入到识别模型中进行识别,提高了模型的识别的效率。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例中的语种识别装置的组成框图;
图2为本发明实施例中的一种服务端的组成框图;
图3为本发明实施例中的另一种服务端的组成框图;
图4为本发明实施例中的多语种识别模型结构图;
图5为本发明实施例中的语种识别模型的构建和训练方法流程图;
图6为本发明实施例中的wav2vec预训练任务模型结构图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本实施例中公开了一种基于多任务的语种识别模型的语种识别装置,如图1所示,包括:客户端和服务端;所述客户端与服务端通信连接;
所述客户端,用于获取待识别语音数据,进行预处理得到待识别的第一语音队列;发送给所述服务端;
所述服务端,用于将所述客户端发送的第一语音队列进行分批处理,得到多个批次的第二语音队列,其中每个批第二语音队列中数据长短相近;并将多批次的所述第二语音队列导入到内置的识别模型中进行多任务识别得到识别结果队列;
所述客户端,还用于从所述识别结果队列中获取识别结果进行输出;
所述识别模型为多任务学习的多语种识别模型;其中的多任务包括语种识别任务和是否为有效话音识别任务。
具体的,所述客户端包括数据获取模块、预处理模块、发送模块和结果获取模块;
所述数据获取模块,用于获取待识别语音数据;所述获取的待识别语音数据可以是一批也可以是一条;
所述预处理模块,用于对获取的识别语音数据进行包括数据重采样、去除静音和数据切割在内的处理后,得到待识别的第一语音队列;
所述发送模块,用于将所述第一语音队列发送到服务端;
所述结果获取模块,用于访问服务端,从服务端的识别结果队列中获取识别结果后进行输出。
更具体的,所述预处理模块包括第一重采样模块、声道拆分模块、静音去除模块、数据切割模块和第二重采样模块;
所述第一重采样模块,用于将所述数据获取模块获取的待识别语音数据进行首次重采样,统一话音数据的采样率、编码、精度和头文件格式;
具体的,通过初次重采样,将所有语音的格式转换为采样率为8000,通道数为1,PCM编码,精度为16bit的格式,并且为每个语音添加语音头文件;所述头文件为位于语音文件开头的一段数据,用于对主体数据的描述,共占44字节,包含了采样率、通道数、编码等语音格式信息。
所述声道拆分模块,用于对首次重采样数据中声道数大于1的数据拆分成单声道数据。
所述静音去除模块,用于对单声道数据进行语音检测,将单声道数据分为固定时长的多个语音片段,根据每个语音片段在人声的频带范围内各子带的能量,判断语音片段内是否是静音片段,是则去掉该片段,否则保留;得到去除静音的话音数据;
具体的,所述静音去除模块通过webbrtc语音端点检测检测语音片段;
首先,将输入的语音以20ms间隔进行分片,得到系列语音片段,
其次,将对每个语音片段分别去检测该片段是否为静音,如果是则去掉该片段,否则保留。
其中,使用webrtc的vad中Very Aggressive模式进行检测,把输入语音片段的频谱分成六个子带(80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K);并分别计算这六个子带的能量,即特征并且使用高斯模型的概率密度函数做运算,得出六个子带的对数似然比函数,即静音和语音的概率。
将每个子带的对数似然比作为局部判定的条件;根据人声的频谱范围(大约在80Hz至1K左右)进行权重优选,将(0.25,0.25,0.25,0.08,0.08,0.08)作为上述六个子带分别使用的权重;将六个子带进行加权求和作为全局特征。
在进行是否为静音判断时,先判断局部,即判断每个子带的对数似然比是否超出了判断阈值,阈值分为局部和全局两组,分别使用94和1100;当有一个子带的对数似然比超出了阈值时,则判断为包含语音;当所有局部均判断为不包含语音时,再判断全局,即判断六个子带进行加权求和结果是否超出了判断阈值,超出了阈值,则判断为包含语音,未超出则判读为静音。
所述数据切割模块,用于对去除静音的话音数据进行切割,得到话音数据片段;
语音切割的阈值包括最小长度min_len和最大长度max_len;根据min_len和max_len将语音切割为固定长度范围内的长度;使用最小语音min_len来过滤掉过短的语音,以此去除训练集中的一些噪音数据,加快模型收敛速度;由于模型无法处理过长的数据,设置max_len将过长的语音进行截取,以此提高训练效率。本发明中min_len和max_len分别取1秒和30秒,作为经验本方案认为1秒以下的话音数据由于表达内容和说话人语速的限制,难以确定其语种类别,而30秒以内的话音数据足以判断其说话内容涉及的语种。
所述第二重采样模块,用于对切割后的话音数据片段再次重采样后得到所述第一语音队列。
所述再次重采样,将切割后的语音统一转换为采样率为16000,采样精度为16bit的格式,作为模型训练和识别的样本数据。
本实施例的待识别语音数据的处理,采用两次重采样的方式进行,在初次重采样中采用一个采样率比较低的采样速率,则使对语音进行格式统一,声道拆分、静音去除和语音切割处理时的数据量降低,可以加快处理的速度,对处理硬件的要求降低,在上述处理进行完后,以一个高采样速率去再次进行重采样,使待识别语音数据的采样率和采样精度满足模型的要求。
具体的,所述服务端包括重排序模块、队列存储模块、分批控制模块、识别模块和识别结果模块;
所述重排序模块,用于将所述客户端发送的所述第一语音队列中的话音数据片段取出后,按照数据片段的长度依次进行排序,得到排序语音队列;
队列存储模块中包括N个队列存储器;每个存储器用于存储一个批次的第二语音队列;
分批控制模块,用于从排序语音队列中的一端开始持续取出话音数据片段,当取出话音数据片段的长度和达到分批的预设长度后,分批为一个第二语音队列,存储到队列存储模块中的一个队列存储器中;持续进行取出、分批和存储控制,直到取完排序语音队列,或排序语音队列中剩余的话音数据片段不足一批;则将剩余的语音数据返回所述客户端的第一语音队列;返回所述客户端的第一语音队列的剩余的语音数据等待与下一条待识别语音数据的预处理后话音数据片段组合在一起,形成新的第一语音队列。
所述识别模块内部设置的多语种识别模型,用于对每个队列存储器中存储的第二语音队列分别进行语种识别和是否为有效话音识别;并将识别结果输出到识别结果模块;
所述识别结果模块,用于将所述识别结果存储于内部设置的识别结果存储队列中。
优选的,如图2所示,所述识别模块内部设置有一个多语种识别模型;所述多语种识别模型按照所述队列存储器的顺序,依次从对每个批次的第二语音队列进行语种识别和是否为有效话音识别。
更优选的,如图3所示,为了增加识别的效率,所述识别模块中包括与所述队列存储器数量相同,且一一对应连接的N个语种识别模型;
每个多语种识别模型对一个对应的队列存储器中的第二语音队列进行语种识别和是否为有效话音识别。
如图4所示,本实施例中公开方案的所述多语种识别模型包括特征提取层、上下文编码层以及输出层;所述特征提取层采用wav2vec模型中的卷积网络;用于提取输入语音样本语音帧级别的浅层特征;所述上下文编码层采用wav2vec模型中基于自注意力机制的transformer网络,用于提取语音各个帧间的权重和特征;所述输出层为依据同时完成语种识别和数据有效识别任务的要求,对wav2vec模型输出层和损失函数进行调整后的输出层;所述输出层使用全连接网络将提取的权重和特征变换到与语种识别任务和数据有效识别任务对应的label维度,同时输出两个任务的识别结果。
更具体的,所述输出层属于语种任务的输出Y i 为:
Y i =argmax(P(X i ,h i y ))
Figure 164685DEST_PATH_IMAGE008
所述输出层属于数据有效识别任务的输出:
Z i =argmax(P(X i ,h i z ))
Figure DEST_PATH_IMAGE009
其中,P(X i h y i )为语种类别概率归一化输出,P(X i h z i )数据有效性概率归一化输出,X i 为所述多语种识别模型输入的第i个样本数据;
h y i 为属于语种任务的经过卷积网络和自注意力网络后得到的隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );
h z i 为属于数据有效识别任务的经过卷积网络和自注意力网络后得到隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );j=1,2,…,T;T为经过所述多语种识别模型中的卷积操作后的帧个数。
优选的,在多语种识别模型中的损失函数中引入加权因子α来平衡语种识别和数据有效识别两种任务的输出,使用加权因子β来缩放不同类别语种的损失。
具体的,在多语种识别模型中的损失函数L fine_tuning =(1-α)L y +αL z ,其中,L y 为语种的softmax交叉损失,L z 为有效音的sigmoid交叉损失,具体地:
Figure 41374DEST_PATH_IMAGE003
,
Figure 332678DEST_PATH_IMAGE010
因此,
Figure DEST_PATH_IMAGE011
其中,y i z i 分别为语种的真实类别和有效音真实类别,Y i 、Z i 分别为模型预测输出的语种类别和有效音真实类别。
N为样本总数。
实际中,对语种识别后的不同语音通常会输入给不同的转写识别引擎去做处理,这就要求对于语种识别的准确率要求要更高;
为此,进一步使用因子β来缩放不同类别语种的损失,即:
Figure 662028DEST_PATH_IMAGE012
,其中,
Figure DEST_PATH_IMAGE013
具体的,本实施例的多语种识别模型,基于fairseq开源框架进行微调,模型的主体结构仍然由7层卷积和12层的Transformer,模型参数不做调整。
本实施例还公开了构建并训练基于多任务学习的多语种识别模型的构建和训练过程,如图5所示,包括以下步骤:
步骤S501、使用无监督预训练方式对wav2vec模型进行第一次预训练;获得语音数据的表示;
步骤S502、根据语种识别和数据有效识别任务要求建立包含多语种样本数据的训练样本集;
步骤S503、采用训练样本集中的样本数据对第一次预训练好的wav2vec模型再进行第二次预训练;
步骤S504、针对于语种识别和数据有效识别任务要求对第二次预训练好的wav2vec模型的输出层和损失函数进行适应性微调后构建出最终的多语种识别模型;再次采用训练样本集中样本数据对所述多语种识别模型进行训练,使多语种识别模型能够同时识别输入语音数据的语种和话音有效性。
具体的,在步骤S501中,本实施例采用wav2vec模型这种开源的预训练模型作为初始模型,使用mask的无监督预训练方式,其预训练任务则是去预测这些片段来获得对语音context信息的增强表示,以此作为初始参数去对下游的任务进行参数微调,使得下游的任务有更好的性能。
图6给出了采用wav2vec的预训练模型结构。从图中可知,
首先,原始语音输入到Feature encoder中依次通过7层的卷积做特征提取,每一层的输出作为下一层的输入,每一层的步长分别为(5,2,2,2,2,2,2),卷积核宽度分别为(10,3,3,3,3,2,2)。例如,输入一条(1,L)维的语音,其中L为该语音的长度,通过特征编码后产生维度为(1, L/320,512)的3维向量。
其次,通过上步后得到固定维度为512的语音特征向量,然后通过12层的block进行计算语音特征间的“注意力”,每个block为包含768个隐层单元的transformer结构,使用多头的self-attention计算上述L/320个特征序列间的注意力权重,以此来获得整条完整语音的深层context特征,通过12层的transformer编码后一条语音得到维度为(L/320,1 ,768)的向量。
在预训练阶段,为了构建预测目标,wav2vec通过mask的方式将CNN卷积输出的特征中某一固定长度的特征序列遮蔽,训练任务的目标则是预测这些被遮蔽的特征序列。为了计算被遮蔽掉的特征,wav2vec引入了量化模块将上下文编码输出层的表示进行离散成接近ont-hot向量,以此来量化表示输出特征用来和ground-truth计算损失。wav2vec提供了Gumbel-Softmax和K-means clustering两种量化方法,本发明的预训练任务使用的是前一种方法。预训练任务的损失函数为:
L pre =L m 1 L d 其中,L m 为做mask预测的对比损失,L d 为多样性损失,α 1设为0.1。具体地,
L m
Figure 657666DEST_PATH_IMAGE014
c t 为当前时刻t的transformer网络输出,q t 为隐特征(多层卷积后的feature encoder)量化后的输出,对于以上两输出计算cosine相似度,即sim(a,b)=aTb/||a|| ||b||。在此,wav2vec引入了负采样技术:在当前时刻t,模型要在包含q t 在内的κ+1个量化候选中识别出q t ,其中Q t 表示这κ+1个量化候选,
Figure DEST_PATH_IMAGE015
κ是其他遮蔽项中均匀采样出的干扰项个数。
L d
Figure 887397DEST_PATH_IMAGE016
,G为码本数,取2,V为每个码本的条目数,取320,码本的维度为128;
Figure DEST_PATH_IMAGE017
为一组语音片段在每一个码本条目上的平均gumbelsoftmax概率;具体地
Figure 943077DEST_PATH_IMAGE017
Figure 962986DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
为gumbelsoftmax的非负温度,n=-log(-log(u)),u服从均匀分布U(0,1),l g,v 为码本中的每个条目,即l g,v ∈R(G×V)
wav2vec模型第一次预训练的训练数据为大规模语音数据;该大规模语音数据可以是待识别的目标语种以外的语音数据,且无需进行根据任务需要的标记,不会增加额外的工作量。
使用上述处理完的语音进行预训练,预训练的优化目标为上述的直到L pre 小于预设的最大值或预训练的学习率L Rpre小于预设的最大学习率值。
具体的,在步骤S502中建立包含多语种样本数据的训练样本集过程如下:
在本实施例的多任务学习中,语种识别任务和有效话音识别任务各被形式化为一个多分类任务,即输入为语音数据,输出为语种类别和语音是否为有效话音。不同于一般的语种识别任务,本实施例的任务是去确定语种类别标签的同时还要预测出该条语音是否为有效话音,通过引入有效话音识别任务,在判断一条语音的语种类别的前提是该语音必须为有效话音数据,而实际的智能语音识别系统中难以保证所有的输入均为有效音,往往包含大量的无效音,引入有效话音识别任务对于语种识别有其实际的意义,此外无效音相比有效话音,其音频范围和特征与话音数据有一定的区别,可以提高语种识别的泛化能力。因此,训练样本集中的样本数据包括有效话音的样本数据和无效话音数据。
所述训练样本集的数据来源为通话录音语音数据,包括多个语种的有效话音数据;对所述有效话音数据进行包括数据重采样、去除静音和数据切割在内的处理后,得到有效话音的样本数据;并对所述样本数据进行语种类别标记;
所述训练样本集中的无效话音数据为音频范围和特征与有效话音数据存在区别的音频数据,如噪音数据或机器合成的语音提示音。对无效话音数据进行与所述有效话音数据相同的包括数据重采样、去除静音和数据切割在内的处理后,得到无效话音的样本数据,并进行数据无效标记。在本实施例中将无效话音的样本数据采用标签“Reject”进行标记,表示为无效话音的语种类别。
具体的,多个语种的有效话音数据,涉及15个语种,包括俄语、印地语、孟加拉语、德语、日语、汉语、法语、波斯语、泰米尔语、泰语、英语、西班牙语、越南语、阿拉伯语、韩语以及部分无效话音数据,根据每类数据量的不同,将随机划分为表1数据集中的训练集、开发集和测试集,用以交叉验证模型的性能。
更具体的,为了实现更好的训练效果与训练的模型匹配,本实施例中对所述有效话音数据或无效话音数据的处理,包括以下步骤:
1)将多个语种的有效话音数据和无效话音数据进行初次重采样后,进行话音数据的采样率、编码、精度和头文件格式的统一;
2)将声道数大于1的话音数据拆分成单声道话音数据。
3)对于单声道的话音数据进行语音检测,将语音数据分为固定时长的多个语音片段,根据每个语音片段在人声的频带范围内各子带的能量,判断语音片段内是否是静音片段,是则去掉该片段,否则保留;得到去除静音的话音数据。
4)根据语音切割的阈值范围,将去除静音的话音数据切割成为为固定长度的话音数据片段;
5)将切割后的话音数据片段再次重采样后,得到作为模型训练和识别的输入有效话音和无效话音的样本数据。
上述样本数据的处理方法与待识别语音数据的预处理方法相同,从而使训练好的模型能够与识别任务更加匹配。
更有选的,对于某一个语种由于样本数据太少,在训练的过程中会导致准确率、召回率和F1较差,即识别效果会变差,为了改善该语种识别效果,本实施例通过训练样本增强来增加话音数据量少的语种数据的数据量。
具体的,对数据量少的语种的话音数据,分别以各设定的话音倍数进行变速扰动,以增加话音数据的数量,用以缓解样本不均衡带来的过拟合和提高模型准确率。
优选的,分别进行0.9、1.1、1.2倍速变速扰动,扰动方法使用sox工具操作;通过变速操作,使该语种的数据量增多了3倍;再通过上述有效话音数据的处理方法进行处理,大大提高了该语种的样本数据量,用以缓解样本不均衡带来的过拟合和模型准确率差问题。
具体的,在步骤S503中的第二次预训练过程中不改动模型结构和损失函数,直到损失达到一个相对平衡的状态后结束训练;
优选的,可将第一次预训练的学习率L Rpre加0.5,在学习的过程中,直到损失L pre的值再次小于预设的损失L pre最大值结束预训练;在第二次预训练过程中,由于训练样本集中的样本数据与第一次预训练数据存在差异,在第二次预训练过程中可能会导致损失函数L pre变大,但是经过几轮以后又会逐渐变小,通过继续训练可以使模型参数更接近该数据的特征,这样有益于微调任务提高准确率。
第二次预训练,优选迭代超过10000步以后结束预训练。
具体的,在步骤S504中进行适应性微调后构建出最终的多语种识别模型包括特征提取层、上下文编码层以及输出层;所述特征提取层采用第二次预训练好的wav2vec模型中的卷积网络;用于提取输入语音样本语音帧级别的浅层特征;所述上下文编码层用第二次预训练好的wav2vec模型中基于自注意力机制的transformer网络,用于提取语音各个帧间的权重和特征;基于语种识别和有效话音识别任务,对wav2vec模型输出层和损失函数进行调整,使用全连接网络将提取的权重和特征变换到对应任务的label维度,同时输出两个任务的识别结果。
为了训练语种识别任务和有效话音识别两种任务,本实施例中模型的输出层包含1个softmax层和1个sigmoid层来分别预测语种类别和有效音类别。对于第i个样本数据,预测其类别语种类别Y i 和有效音类别Z i
微调后的模型结构,语音数据第i个样本X i =(x i1x i2,…,x iL)作为输入,L为语音的长度(L与语音的采样率有关,本方案的训练样本采样率均为16K),经过卷积网络和自注意力网络后得到隐层特征h i =(h i1,h i2,…,h ij ,…,h iT),其中T的值为经过7层卷积操作后的帧个数,优选的T=L/320;经过卷积网络和自注意力网络后通过改进的输出层得到属于语种任务的输出Y i 和有效话音类别输出Z i
模型中,属于语种任务的经过卷积网络和自注意力网络后得到的隐层特征
Figure 762315DEST_PATH_IMAGE020
属于数据有效识别任务的经过卷积网络和自注意力网络后得到隐层特征
Figure DEST_PATH_IMAGE021
属于语种任务的输出:
Y i =argmax(P(X i ,h i y ))
Figure 82437DEST_PATH_IMAGE008
属于数据有效识别任务的输出:
Z i =argmax(P(X i ,h i z ))
Figure 607222DEST_PATH_IMAGE009
其中,P(X i h y i )为语种类别概率归一化输出,P(X i h z i )数据有效性概率归一化输出,X i 为所述多语种识别模型输入的第i个样本数据;
h y i 为属于语种任务的经过卷积网络和自注意力网络后得到的隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );
h z i 为属于数据有效识别任务的经过卷积网络和自注意力网络后得到隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );j=1,2,…,T;T为经过所述多语种识别模型中的卷积操作后的帧个数。
本实施例中的softmax使用log_softmax函数,也就是softmax之后再通过一个log函数,用以缓解softmax函数计算中的上溢和下溢问题。
Hi计算方式如下:
Figure 317689DEST_PATH_IMAGE022
;表示将语音的特征按照帧级别求取平均值,即将一条语音的所有帧的特征求平均,作为概率转换函数的输入,以得到目标输出类别。
此外,由于有效话音识别的就只有“有效”和“无效”两种类别,则使用sigmoid函数作为输出层的激活函数。
在多语种识别模型中的损失函数中引入加权因子α来平衡语种识别和数据有效识别两种任务的输出,使用加权因子β来缩放不同类别语种的损失。
具体的,整个微调任务的损失函数如下所示:
L fine_tuning =(1-α)L y +αL z ,其中,L y 为语种的softmax交叉损失,L z 为有效音的sigmoid交叉损失,具体地:
Figure 451867DEST_PATH_IMAGE003
,
Figure 564180DEST_PATH_IMAGE010
因此,
Figure 492821DEST_PATH_IMAGE011
其中,y i z i 分别为语种的真实类别和有效音真实类别,Y i 、Z i 分别为模型预测输出的语种类别和有效音真实类别。
N为样本总数。
实际中,对语种识别后的不同语音通常会输入给不同的转写识别引擎去做处理,这就要求对于语种识别的准确率要求要更高;
为此,进一步使用因子β来缩放不同类别语种的损失,即:
Figure 690584DEST_PATH_IMAGE012
,其中,
Figure 97295DEST_PATH_IMAGE013
具体的,本实施例的多语种识别模型,基于fairseq开源框架进行微调,在整个微调过程中,模型的主体结构仍然由7层卷积和12层的Transformer,模型参数不做调整。
训练过程中,将训练样本输入fairseq中进行训练,在损失函数中αβ分别取0.2和1.5时效果较为稳定;记录loss的变化,直到loss变化幅度在0.001内时停止训练。
采用15个语种的数据进行语种识别训练后的统计结果如表1所示,
表中的数据包括15个语种的数据,每个语种随机划分为训练集、开发集、测试集3部分。在数据集1实验中,除了带*语种数据较少,导致准确率、召回率和F1较差外,其他语种的交叉验证均取得了较好的识别效果;数据集2中针对这几类样本较少的类别,依次做了0.9、1.1、1.2倍速的语速扰动,很明显的经过语速扰动的数据增强,无论是准确率、召回率还是F1均取得了较好的效果。
表1语种识别装置实施结果
Figure 64114DEST_PATH_IMAGE023
综上所述,本实施例中采用的多语种识别模型直接输入语音数据,在语种识别的同时能判断出无效音,能够同时满足实际场景中有效话音检出和语种识别两个任务,节省了时间和空间成本。
对获取待识别语音数据进行预处理以及分批处理后,得到总长固定且语音片段长度相同或相近的语音片段同时输入到识别模型中进行识别,提高了模型的识别的效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于多任务的语种识别模型的语种识别装置,其特征在于,包括:客户端和服务端;所述客户端与服务端通信连接;
所述客户端,用于获取待识别语音数据,进行预处理得到待识别的第一语音队列发送给所述服务端;
所述服务端,用于将所述客户端发送的第一语音队列进行分批处理,得到多个批次的第二语音队列,其中每个批第二语音队列中数据长短相近;并将多批次的所述第二语音队列导入到内置的识别模型中进行多任务识别得到识别结果队列;
所述客户端,还用于从所述识别结果队列中获取识别结果进行输出;
所述识别模型为多任务学习的多语种识别模型;其中的多任务包括语种识别任务和是否为有效话音识别任务。
2.根据权利要求1所述的语种识别装置,其特征在于,
所述客户端包括数据获取模块、预处理模块、发送模块和结果获取模块;
所述数据获取模块,用于获取待识别语音数据;
所述预处理模块,用于对获取的识别语音数据进行包括数据重采样、去除静音和数据切割在内的处理后,得到待识别的第一语音队列;
所述发送模块,用于将所述第一语音队列发送到服务端;
所述结果获取模块,用于访问服务端,从服务端的识别结果队列中获取识别结果后进行输出。
3.根据权利要求2所述的语种识别装置,其特征在于,所述预处理模块包括第一重采样模块、声道拆分模块、静音去除模块、数据切割模块和第二重采样模块;
所述第一重采样模块,用于将所述数据获取模块获取的待识别语音数据进行首次重采样,统一话音数据的采样率、编码、精度和头文件格式;
所述声道拆分模块,用于对首次重采样数据中声道数大于1的数据拆分成单声道数据;
所述静音去除模块,用于对单声道数据进行语音检测,将单声道数据分为固定时长的多个语音片段,根据每个语音片段在人声的频带范围内各子带的能量,判断语音片段内是否是静音片段,是则去掉该片段,否则保留;得到去除静音的话音数据;
所述数据切割模块,用于对去除静音的话音数据进行切割,得到话音数据片段;
所述第二重采样模块,用于对切割后的话音数据片段再次重采样后得到所述第一语音队列。
4.根据权利要求1所述的语种识别装置,其特征在于,所述服务端包括重排序模块、队列存储模块、分批控制模块、识别模块和识别结果模块;
所述重排序模块,用于将所述客户端发送的所述第一语音队列中的话音数据片段取出后,按照数据片段的长度依次进行排序,得到排序语音队列;
队列存储模块中包括多个队列存储器;每个存储器用于存储一个批次的第二语音队列;
分批控制模块,用于从排序语音队列中的一端开始持续取出话音数据片段,当取出话音数据片段的长度和达到分批的预设长度后,分批为一个第二语音队列,存储到队列存储模块中的一个队列存储器中;持续进行取出、分批和存储控制,直到取完排序语音队列,或排序语音队列中剩余的话音数据片段不足一批;则将剩余的语音数据返回所述客户端的第一语音队列;
所述识别模块内部设置的多语种识别模型,用于对每个队列存储器中存储的第二语音队列分别进行语种识别和是否为有效话音识别;并将识别结果输出到识别结果模块;
所述识别结果模块,用于将所述识别结果存储于内部设置的识别结果存储队列中。
5.根据权利要求4所述的语种识别装置,其特征在于,
所述识别模块内部设置有一个多语种识别模型;所述多语种识别模型按照所述队列存储器的顺序,依次从对每个批次的第二语音队列进行语种识别和是否为有效话音识别。
6.根据权利要求4所述的语种识别装置,其特征在于,所述识别模块中包括与所述队列存储器数量相同,且一一对应连接的多个语种识别模型;
每个多语种识别模型对一个对应的队列存储器中的第二语音队列进行语种识别和是否为有效话音识别。
7.根据权利要求1-6任一项所述的语种识别装置,其特征在于,所述多语种识别模型包括特征提取层、上下文编码层以及输出层;所述特征提取层采用wav2vec模型中的卷积网络;用于提取输入语音样本语音帧级别的浅层特征;所述上下文编码层采用wav2vec模型中基于自注意力机制的transformer网络,用于提取语音各个帧间的权重和特征;所述输出层为依据同时完成语种识别和数据有效识别任务的要求,对wav2vec模型输出层和损失函数进行调整后的输出层;所述输出层使用全连接网络将提取的权重和特征变换到与语种识别任务和数据有效识别任务对应的label维度,同时输出两个任务的识别结果。
8.根据权利要求7所述的语种识别装置,其特征在于,
所述输出层属于语种任务的输出Y i 为:
Figure DEST_PATH_IMAGE001
所述输出层属于数据有效识别任务的输出Z i 为:
Figure 512504DEST_PATH_IMAGE002
其中,P(X i h y i )为语种类别概率归一化输出,P(X i h z i )数据有效性概率归一化输出,X i 为所述多语种识别模型输入的第i个样本数据;
h y i 为属于语种任务的经过卷积网络和自注意力网络后得到的隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );
h z i 为属于数据有效识别任务的经过卷积网络和自注意力网络后得到隐层特征;h y i =(h y i1,h y i2,…,h y ij ,…,h y iT );j=1,2,…,T;T为经过所述多语种识别模型中的卷积操作后的帧个数。
9.根据权利要求8所述的语种识别装置,其特征在于,在多语种识别模型中的损失函数L fine_tuning =(1-α)L y +αL z
其中,α为平衡语种识别和数据有效识别两种任务的输出的加权因子;L y 为语种识别任务的softmax交叉损失,
Figure DEST_PATH_IMAGE003
L z 为数据有效识别任务的sigmoid交叉损失,
Figure 728721DEST_PATH_IMAGE004
y i z i 分别为语种的真实类别和有效音真实类别,N为样本总数。
10.根据权利要求8所述的语种识别装置,其特征在于,在多语种识别模型中的损失函数L fine_tuning =(1-α)L y +αL z
其中,α为平衡语种识别和数据有效识别两种任务的输出的加权因子;L y 为语种识别任务的softmax交叉损失,
Figure DEST_PATH_IMAGE005
L z 为数据有效识别任务的sigmoid交叉损失,
Figure 470281DEST_PATH_IMAGE006
y i z i 分别为语种的真实类别和有效音真实类别,N为样本总数;
其中,
Figure DEST_PATH_IMAGE007
β为缩放不同类别语种损失的加权因子;Reject为数据无效标记。
CN202111153638.5A 2021-09-29 2021-09-29 一种基于多任务的语种识别模型的语种识别装置 Active CN113870839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111153638.5A CN113870839B (zh) 2021-09-29 2021-09-29 一种基于多任务的语种识别模型的语种识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111153638.5A CN113870839B (zh) 2021-09-29 2021-09-29 一种基于多任务的语种识别模型的语种识别装置

Publications (2)

Publication Number Publication Date
CN113870839A true CN113870839A (zh) 2021-12-31
CN113870839B CN113870839B (zh) 2022-05-03

Family

ID=79000710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111153638.5A Active CN113870839B (zh) 2021-09-29 2021-09-29 一种基于多任务的语种识别模型的语种识别装置

Country Status (1)

Country Link
CN (1) CN113870839B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104746A1 (en) * 2017-12-15 2020-04-02 Google Llc Training encoder model and/or using trained encoder model to determine responsive action(s) for natural language input
CN111402861A (zh) * 2020-03-25 2020-07-10 苏州思必驰信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN112017630A (zh) * 2020-08-19 2020-12-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质
CN112489622A (zh) * 2019-08-23 2021-03-12 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104746A1 (en) * 2017-12-15 2020-04-02 Google Llc Training encoder model and/or using trained encoder model to determine responsive action(s) for natural language input
CN112489622A (zh) * 2019-08-23 2021-03-12 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及系统
CN111402861A (zh) * 2020-03-25 2020-07-10 苏州思必驰信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN112017630A (zh) * 2020-08-19 2020-12-01 北京字节跳动网络技术有限公司 一种语种识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKATOMO KANO ET AL.: "End-to-End Speech Translation With Transcoding by Multi-Task Learning for Distant Language Pairs", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
张吉: "基于时间卷积网络的多口音中文语音识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN113870839B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
US7957959B2 (en) Method and apparatus for processing speech data with classification models
CN113889090A (zh) 一种基于多任务学习的多语种识别模型的构建和训练方法
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
Meng et al. Speaker adaptation for attention-based end-to-end speech recognition
CN111916111A (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
Verma et al. Indian language identification using k-means clustering and support vector machine (SVM)
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Kumar et al. Machine learning based speech emotions recognition system
Thukroo et al. Spoken language identification system for kashmiri and related languages using mel-spectrograms and deep learning approach
CN113782000B (zh) 一种基于多任务的语种识别方法
Dave et al. Speech recognition: A review
Rabiee et al. Persian accents identification using an adaptive neural network
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
Reynolds et al. Automatic language recognition via spectral and token based approaches
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
CN113870839B (zh) 一种基于多任务的语种识别模型的语种识别装置
Fachrie et al. Robust Indonesian digit speech recognition using Elman recurrent neural network
Sen et al. A novel bangla spoken numerals recognition system using convolutional neural network
Chakroun et al. A hybrid system based on GMM-SVM for speaker identification
Alvarez et al. Learning intonation pattern embeddings for arabic dialect identification
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Barman et al. State of the art review of speech recognition using genetic algorithm
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
Woods et al. A robust ensemble model for spoken language recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A language recognition device based on multi task language recognition model

Effective date of registration: 20221027

Granted publication date: 20220503

Pledgee: Beijing Zhongguancun bank Limited by Share Ltd.

Pledgor: BEIJING IPLUS TECK Co.,Ltd.

Registration number: Y2022990000738