CN111653267A - 一种基于时延神经网络的快速语种识别方法 - Google Patents

一种基于时延神经网络的快速语种识别方法 Download PDF

Info

Publication number
CN111653267A
CN111653267A CN202010245658.4A CN202010245658A CN111653267A CN 111653267 A CN111653267 A CN 111653267A CN 202010245658 A CN202010245658 A CN 202010245658A CN 111653267 A CN111653267 A CN 111653267A
Authority
CN
China
Prior art keywords
feature
representing
features
attention
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010245658.4A
Other languages
English (en)
Inventor
刘俊南
江海
王化
刘文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innomicro Technology Tianjin Co Ltd
Original Assignee
Innomicro Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innomicro Technology Tianjin Co Ltd filed Critical Innomicro Technology Tianjin Co Ltd
Priority to CN202010245658.4A priority Critical patent/CN111653267A/zh
Publication of CN111653267A publication Critical patent/CN111653267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于时延神经网络的快速语种识别方法,步骤1,输入语音信号,对输入的语音信号进行处理,得到固定长度的语音信号帧序列;步骤2、按帧提取语音信号帧序列的底层声学特征;步骤3,将底层声学特征输入Residual TDNN残差块结构中进行计算处理,得到M×64抽象特征;步骤4,进行Attention计算,步骤5,对Attention特征在时间帧维度上应用全局平均池化处理,得到Embedding向量;步骤6,对Embedding向量进行两层DNN提取,得到语种向量;步骤7,将语种向量输入ArcFaceStatic损失函数,将底层声学特征输入到训练好的神经网络,得到所有可识别语种的概率。本发明本发明在短语音上具有较强鲁棒性,因此能够快速准确地识别语种。

Description

一种基于时延神经网络的快速语种识别方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种应用于语种识别的。
背景技术
21世纪以来,伴随着模式识别、人工智能等学科的快速发展,人类发展进入了智能化时代。语音识别作为人机交互领域的关键技术受到了极大的重视并体现出较大的实用价值。按照形式可将语音划分为与字词信息相关、与语段内容相关的语音识别系统、与语段中所蕴含说话人身份相关的说话人识别系统及与语段所属语言种类相关的语种识别系统。
目前,语种识别领域中时长大于10s长语段的识别准确率已经足够好,但复杂的测试环境和测试条件的限制对语种识别技术提出了更高的要求。传统的基于统计模型的全差异空间分析i-vector方法和基于音素语言模型的PRLM方法在短语音识别中无法满足识别性能的要求,基于神经网络模型发展起来的端到端的语种识别系统在当前语种识别领域获得了广泛的应用并有着较好的发展前景。
基于端到端的语种识别系统简化了传统模型的结构,将模型和分类打分部分融为一体,通过网络中参数将各个部分进行连接,使网络的优化更加直接、简便。目前在语种识别领域应用基于神经网络的端到段系统有循环神经网络(Recurrent Neural Network,RNN)及其变体长短时记忆神经网络模型(Long Short Term Memory,LSTM)、时延神经网络模型(Time Delay Neural Network,TDNN)等都取得了极高的准确率。
发明内容
针对现有技术及其存在的缺陷,本发明提出一种基于时延神经网络的快速语种识别方法,以时延神经网络为基础,在短语音上具有鲁棒性的特征提取,实现快速端到端语种识别方法。
本发明的一种基于时延神经网络的快速语种识别方法,该方法包括以下步骤:
步骤1,输入语音信号,对输入的语音信号进行处理,得到固定长度的语音信号帧序列;
步骤2、按帧提取语音信号帧序列的底层声学特征;
步骤3,将底层声学特征输入Residual TDNN残差块结构中进行计算处理,得到M/2×64抽象特征;
步骤4,进行Attention计算,Attention使用MultiHead-attention,Head选择为8,Self-attention的计算过程为:
4-1,选择Query Key Value矩阵;
4--2,计算抽象特征之间的相似度分数Query×Key为M/2×M/2(,通过将Q和每个K进行相似度计算,经过softmax得到归一化权重;
然后,对相似度分数进行归一化处理,得到注意力系数,使用softmax函数并通过计算权重和相应键值value的加权和求得最后的Attention输出特征H;
注意力系数计算公式为:
H=V(softmax(KTQ))
Figure BDA0002433903940000021
Figure BDA0002433903940000022
其中,i,j为每一帧特征索引,aij为第i帧特征对所有其他帧特征权重的索引,其中,i,j表示每一帧特征索引,aij表示第i帧特征对所有其他j帧特征的注意力系数,V表示输入特征序列、KT表示输入特征序列转置、Q表示输入特征序列、hi表示第i帧输出特征、νj表示第i帧输入特征、kj表示第j帧输入特征、qi表示第i帧输入特征、M表示特征序列长度;
MultiHead-Attention的计算过程为:
先对Query Key Value进行多个线性变换得到QWi Q、KWi K、VWi V
然后,对每个QWi Q、KWi K、VWi V进行Self-Attention,操作处理如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)wO
Figure BDA0002433903940000032
其中,QWi Q、KWi K、VWi V分别表示对Query Key Value的多个变换矩阵,WO表示拼接多个Attention结果后再进行一个线性变换;
得到输出的Attention特征,其特征维度M/2×d,d表示特征维度;
步骤5,对Attention特征在时间帧维度上应用全局平均池化处理,得到Embedding向量;在平均池化层上,拼接两层前馈神经网络;Embedding向量公式如下;
Figure BDA0002433903940000031
其中,hi表示Multihead-attention输出的第i帧特征;
步骤6,对Embedding向量进行两层DNN提取,得到语种向量;
步骤7,将语种向量输入ArcFaceStatic损失函数,将底层声学特征输入到训练好的神经网络,得到所有可识别语种的概率。
与现有技术相比,本发明在短语音上具有较强鲁棒性,因此能够快速准确地识别语种。
附图说明
图1为本发明的一种基于时延神经网络的快速语种识别方法整体实现过程示意图;
图2为语音信号FDLP特征提取的具体处理流程示意图;
图3为Residual TDNN残差块结构示意图;
图4为进行Attention计算的具体处理流程示意图;
图5为multihead-attention模块示意图;
图6为时延残差块结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述,下列实施例仅用于解释本发明的发明内容,并不用于限定本发明的保护范围。
如图1-图3所示,为本发明的一种基于时延神经网络的快速语种识别方法整体实现过程示意图,以采用FDLP(频域线性预测系数特征)为例,实现过程具体包括以下步骤:
步骤1,对输入的语音信号进行拼接或剪切处理,得到固定长度的语音信号帧序列,本例中使用1s固定长度,信号的采样频率为8000;设定固定提取窗口帧参数:25ms窗口、10ms帧移;
步骤2,提取语音信号FDLP(频域线性预测系数)特征(也可以使用SFFT特征(短时快速傅立叶变换计算得到的频域幅度));具体过程如下:
2-1,计算语音信号的离散余弦变换DCT值(Discrete Cosine Tranform);
2-2,将上述所得的语音信号DCT值乘以第i个Mel滤波器得到第i个子带DCT分量Yi[k],作为滤波器输出;
Figure BDA0002433903940000051
其中,C[k]表示频域等价信号,s[n]表示语音信,N表示采样点,k表示频域频率点,k=0,1...N-1;
Yi[k]=C[k]·Hi[k]:
其中,Yi[k]表示经过滤波的DCT信号,Hi[k]表示梅尔谱滤波器;
2-3,使用自相关方法计算Yi[k]的线性预测因子,计算这些线性预测因子每个滤波器中语音信号的短时谱;
自相关系数计算公式:
Figure BDA0002433903940000052
2-4,在固定的时间间隔中计算上述线性预测分析的极点值时间包络信号,这些极点值时间包络信号即对应了时域信号的能量峰值点,通过这种方法能够较好的估计出信号的峰值点,去除对语种识别无用的信息;
每个梅尔滤波器i输出信号的时间包络信号计算公式如下
Figure BDA0002433903940000053
其中,si[g]表示时间包络信号,b表示包络极点数量,g表示包络信号点[0,1...G-1](1s信号下G取100);
2-5,对上述得到的时间包络信号进行平滑能量规整,该步骤中可以使用短时平均幅度(temporal average magnitude,TAM)、时间质心大小(temporal centroidmagnitude,TCM)和时间质心距离(temporal centroid distance,TCD)三种方法,上述三种方法够作为能量规整的方法单独使用,也能够结合使用,在本发明中以TAM为例;
Figure BDA0002433903940000061
其中,TAMi[p]表示使用TAM计算方法得到的平滑包络信号,Wh表示汉明窗函数,L表示窗口宽度(小于序列长度),p表示帧号,M表示窗口重叠宽度;
2-6,将得到的TAM能量值,计算倒谱,得到FDLP特征,每一段语音的特征形状为M×F(M为特征帧数,F为特征维度),FDLP特征的表达式如下:
FDLP=cosmat·ln{TAM}
其中,i、j分别为TAM的行、列索引,i∈[0,1...I],j∈[0,1...J];
Figure BDA0002433903940000062
步骤3,将FDLP特征输入Residual TDNN残差块结构中进行计算处理,如图3所示,为Residual TDNN残差块结构;Residual TDNN残差块的计算处理流程包括:
先对TDNN残差块将F维特征变换为64维的变换特征,这样不同特征可以使用相同结构,例如如果选择81维的FFT特征,经过此变换也得到64维度;
然后,经过20个TDNN残差块(本例使用20个残差块)进行变换,从变换特征中抽取深层特征(残差块内维度都为64维);
再经过一个TDNN残差块将维度提升为128维,然后经过一个2×2的MaxPool层,得到M×64抽象特征;
步骤4,进行Attention计算:Attention使用MultiHead-attention,Head选择为8(MultiHead-Attention是多个Self-Attention的拼接变换),如图4所示,为进行Attention计算的具体处理流程示意图;Self-attention的计算过程为:
4-1,选择Query Key Value矩阵,Query Key Value都使用64维抽象特征Mx64(M表示特征序列长度,64是特征维度)(以64维为例);
4--2,计算抽象特征之间的相似度分数Query×Key为MxM,通过将Q和每个K进行相似度计算,经过softmax得到归一化权重;
然后,对相似度分数进行归一化处理,使用softmax函数并通过计算权重得到注意力系数aij,和相应键值value的加权和求得最后的Attention输出特征H;
Self-attention计算公式为:
H=V(softmax(KTQ))
Figure BDA0002433903940000071
Figure BDA0002433903940000072
其中,i,j为每一帧特征索引,aij为第i帧特征对所有其他j帧特征的注意力系数,V表示输入特征序列、KT表示输入特征序列转置、Q表示输入特征序列、hi表示第i帧输出特征、vj表示第j帧输入特征、kj表示第j帧输入特征、qi表示第i帧输入特征、M表示特征序列长度;Query,Key,Value都是输入到attention的特征序列,是相同的.
MultiHead-Attention的计算过程为:
先对Query,Key,Value进行多个线性变换得到QWi Q、KWi K、VWi V
然后,对每个QWi Q、KWi K、VWi V进行Self-Attention,操作处理如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
Figure BDA0002433903940000073
其中,QWi Q、KWi K、VWi V分别表示对Query KeyValue的多个变换矩阵,WO表示拼接多个Attention结果后再进行一个线性变换;
得到输出的Attention特征,其特征维度M×d,d表示特征维度(这里以64为例);
步骤5,对Attention特征在时间帧维度上应用全局平均池化处理,得到Embedding向量,维度为1×d(这里以64为例);在平均池化层上,拼接两层前馈神经网络,Embedding向量公式如下;
Figure BDA0002433903940000081
其中,hi表示Multihead-attention输出的第i帧特征
步骤6,对Embedding向量进行两层DNN提取,得到语种向量;
步骤7,将语种向量输入ArcFaceStatic损失函数,将底层声学特征输入到训练好的神经网络,得到所有可识别语种的概率:
ArcFace损失函数定义如下:
Figure BDA0002433903940000082
其中,s表示缩放系数,m表示在正确分类上的额外偏置角度(增加对正确分类的确信度),L表示一批样本的损失量、i表示第i个样本,yi表示第i个样本的真实类别、N表示一次批计算的样本数量、θyi表示第i个样本到的yi分类的分类角度、θj分别表示第i个样本到其他分类的分类角度。
该函数的原理是将需要识别的语种向量类别映射至球面空间上,而每个语种类别都有一个已经训练好的空间向量,通过Cosine相似度比较得到识别为每个语种的概率。
ArcFaceStatic损失函数的改进是将语种向量调整为one-hot矩阵,10个待识别语种的形式定义如下:
Figure BDA0002433903940000083
ArcFace需要对每个语种的空间向量进行学习,通过学习扩大语种空间向量间的区分性,而ArcFaceStatic损失函数则是将语种空间向量固定的设置为相互之间距离最远的one-hot空间向量,提升语种空间向量的区分性。
本发明的神经网络结构包括三层,即(1)低层,使用多个时延残差块拼接得到深度特征提取部分;(2)中间层,增加Attention层,在Attention层上增加时间维度上平均池化层,得到语种Embedding向量;(3)高层,拼接两层前馈神经网络,最后使用ArcFaceStatic直接输出为可识别语种概率。该神经网络中,激活函数选择PRELU激活函数,若输入为xi,则该函数在xi大于0的部分值为xi,在xi小于0部分值为aixi。该神经网络最终模型只有11M,输入系统的语音信号可以短至1s,而且选择的特征在短语音上具有较强鲁棒性,因此能够快速准确的识别语种。
如图6所示,为一个时延残差块结构示意图。该结构包括输入x、Residual TDNN残差块、PRELU激活函数、Residual TDNN残差块,若输入为xi,则该PRELU激活函数在xi大于0的部分值为xi,在xi小于0部分值为axi。a为小于零的权重,i为时延残差块序号。
本发明所采用的深度神经网络利用多个时延残差块提取深度特征,具体操作如下:
使用10到30个时延残差块;TDNN中选择使用3×d卷积核,时间维度上的卷积宽度为3,特征维度卷积宽度为d,直接选择为特征维度;
本系统使用的神经网络最终模型只有11M,输入系统的语音信号可以短至1s。

Claims (6)

1.一种基于时延神经网络的快速语种识别方法,其特征在于,该方法包括以下步骤:
步骤1,输入语音信号,对输入的语音信号进行处理,得到固定长度的语音信号帧序列;
步骤2、按帧提取语音信号帧序列的底层声学特征;
步骤3,将底层声学特征输入Residual TDNN残差块结构中进行计算处理,得到64维抽象特征;
步骤4,进行Attention计算,Attention使用MultiHead-attention,Multihead-attention是Head数为8的self-attention构成.
Self-attention的计算过程为:
4-1,选择Query Key Value矩阵;
4--2,计算抽象特征之间的相似度分数Query×Key为MxM,通过将Q和每个K进行相似度计算,经过softmax得到归一化权重;
然后,对相似度分数进行归一化处理,使用softmax函数并通过计算权重得到注意力系数aij,和相应键值value的加权和求得最后的Attention输出特征H;
Self-attention计算公式为:
H=V(softmax(KTQ))
Figure FDA0002433903930000011
Figure FDA0002433903930000012
其中,i,j表示每一帧特征索引,aij表示第i帧特征对所有其他j帧特征的注意力系数,V表示输入特征序列、KT表示输入特征序列转置、Q表示输入特征序列、hi表示第i帧输出特征、vj表示第j帧输入特征、kj表示第j帧输入特征、qi表示第i帧输入特征、M表示特征序列长度;
MultiHead-Attention的计算过程为:
先对Query Key Value进行多个线性变换得到QWi Q、KWi K、VWi V;Query,Key,Value都是输入到attention的特征序列;
然后,对每个QWi Q、KWi K、VWi V进行Self-Attention,操作处理如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
Figure FDA0002433903930000021
其中,QWi Q、KWi K、VWi V分别表示对Query Key Value的多个变换矩阵,WO表示拼接多个Attention结果后再进行一个线性变换;
得到输出的Attention特征,其特征维度M×d,d表示特征维度(这里以64为例);
步骤5,对Attention特征在时间帧维度上应用全局平均池化处理,得到Embedding向量;在平均池化层上,拼接两层前馈神经网络,Embedding向量公式如下;
Figure FDA0002433903930000022
其中,hi表示Multihead-attention输出的第i帧特征;
步骤6,对Embedding向量进行两层DNN提取,得到语种向量;
步骤7,将语种向量输入ArcFaceStatic损失函数,将底层声学特征输入到训练好的神经网络,得到所有可识别语种的概率。
2.如权利要求1所述的一种基于时延神经网络的快速语种识别方法,其特征在于,所述底层声学特征为SFFT特征或FDLP特征中的任意一种。
3.如权利要求1所述的一种基于时延神经网络的快速语种识别方法,其特征在于,所述神经网络使用多个时延残差块提取得到深度特征提取部分,提取抽象特征表示,具体操作如下:
使用10到30个时延残差块;TDNN中选择使用3×d卷积核,时间维度上的卷积宽度为3,特征维度卷积宽度为d,直接选择为特征维度。
4.如权利要求1所述的一种基于时延神经网络的快速语种识别方法,其特征在于,所述ArcFace损失函数定义如下:
ArcFace损失函数定义如下:
Figure FDA0002433903930000031
其中,s表示缩放系数,m表示在正确分类上的额外偏置角度(增加对正确分类的确信度),L表示一批样本的损失量、i表示第i个样本,yi表示第i个样本的真实类别、N表示一次批计算的样本数量、θyi表示第i个样本到的yi分类的分类角度、θj分别表示第i个样本到其他分类的分类角度。
5.如权利要求1所述的一种基于时延神经网络的快速语种识别方法,其特征在于,所述步骤2的按帧提取语音信号帧序列的底层声学特征,具体处理过程如下:
2-1,计算语音信号的离散余弦变换DCT值;
2-2,将上述所得的语音信号DCT值乘以第i个Mel滤波器得到第i个子带DCT分量Yi[k],作为滤波器输出;
DCT计算公式为:
Figure FDA0002433903930000032
其中,C[k]表示频域等价信号,s[n]表示语音信,N表示采样点,k表示频域频率点,k=0,1...N-1;
Yi[k]=C[k]·Hi[k]:
其中,Yi[k]表示经过滤波的DCT信号,Hi[k]表示梅尔谱滤波器;
2-3,使用自相关方法计算Yi[k]的线性预测因子,计算线性预测因子每个滤波器中语音信号的短时谱;
自相关系数计算公式:
Figure FDA0002433903930000041
2-4,在固定的时间间隔中计算上述线性预测分析的极点值时间包络信号,估计出时间包络信号的峰值点,去除对语种识别无用的信息;
每个梅尔滤波器i输出信号的时间包络信号计算公式如下
Figure FDA0002433903930000042
其中,si[g]表示时间包络信号,b表示包络极点数量,g表示包络信号点[0,1...G-1],1s信号下G取100;
2-5,对上述得到的时间包络信号进行平滑能量规整;
2-6,将得到的TAM能量值,计算倒谱,得到FDLP特征,每一段语音的特征形状为M×F,其中:M为特征帧数,F为特征维度,FDLP特征的表达式如下:
FDLP=cosmat·ln{TAM}
其中,i、j分别为TAM的行、列索引,i∈[0,1...I],j∈[0,1...J];
Figure FDA0002433903930000043
6.如权利要求1所述的一种基于时延神经网络的快速语种识别方法,其特征在于,所述步骤3的Residual TDNN残差块的计算处理流程,具体包括以下处理:
先对TDNN残差块将F维特征变换为64维的变换特征,这样不同特征可以使用相同结构;
然后,经过TDNN残差块进行变换,从变换特征中抽取深层特征;
再经过一个TDNN残差块将维度提升为128维,然后经过一个2×2的MaxPool层,得到M×64抽象特征。
CN202010245658.4A 2020-03-31 2020-03-31 一种基于时延神经网络的快速语种识别方法 Pending CN111653267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245658.4A CN111653267A (zh) 2020-03-31 2020-03-31 一种基于时延神经网络的快速语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245658.4A CN111653267A (zh) 2020-03-31 2020-03-31 一种基于时延神经网络的快速语种识别方法

Publications (1)

Publication Number Publication Date
CN111653267A true CN111653267A (zh) 2020-09-11

Family

ID=72352081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245658.4A Pending CN111653267A (zh) 2020-03-31 2020-03-31 一种基于时延神经网络的快速语种识别方法

Country Status (1)

Country Link
CN (1) CN111653267A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581980A (zh) * 2021-02-26 2021-03-30 中国科学院自动化研究所 时频通道注意力权重计算和向量化的方法和网络
CN112885330A (zh) * 2021-01-26 2021-06-01 北京云上曲率科技有限公司 一种基于低资源音频的语种识别方法及系统
CN113327604A (zh) * 2021-07-02 2021-08-31 因诺微科技(天津)有限公司 一种超短语音语种识别方法
CN113380226A (zh) * 2021-07-02 2021-09-10 因诺微科技(天津)有限公司 一种极短语音语种识别特征提取方法
CN113611285A (zh) * 2021-09-03 2021-11-05 哈尔滨理工大学 基于层叠双向时序池化的语种识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2560174A (en) * 2017-03-01 2018-09-05 Toshiba Kk A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
CN109545198A (zh) * 2019-01-04 2019-03-29 北京先声智能科技有限公司 一种基于卷积神经网络的英语口语母语度判断方法
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2560174A (en) * 2017-03-01 2018-09-05 Toshiba Kk A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
CN109545198A (zh) * 2019-01-04 2019-03-29 北京先声智能科技有限公司 一种基于卷积神经网络的英语口语母语度判断方法
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI ET AL.: "《Attention Is All You Need》", 《ARXIV:1706.03762V5》 *
JIANKANG DENG ET AL.: "《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》", 《ARXIV:1801.07698V3》 *
SARITH FERNANDO ET AL.: "《Sub-band Envelope Features using Frequency Domain Linear Prediction for Short Duration Language Identification》", 《INTERSPEECH 2018》 *
TIRUSHA MANDAVA ET AL.: "《Attention based Residual-Time Delay Neural Network for Indian Language Identification》", 《2019 TWELFTH INTERNATIONAL CONFERENCE ON CONTEMPORARY COMPUTING(IC3)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885330A (zh) * 2021-01-26 2021-06-01 北京云上曲率科技有限公司 一种基于低资源音频的语种识别方法及系统
CN112581980A (zh) * 2021-02-26 2021-03-30 中国科学院自动化研究所 时频通道注意力权重计算和向量化的方法和网络
CN112581980B (zh) * 2021-02-26 2021-05-25 中国科学院自动化研究所 时频通道注意力权重计算和向量化的方法和网络
CN113327604A (zh) * 2021-07-02 2021-08-31 因诺微科技(天津)有限公司 一种超短语音语种识别方法
CN113380226A (zh) * 2021-07-02 2021-09-10 因诺微科技(天津)有限公司 一种极短语音语种识别特征提取方法
CN113327604B (zh) * 2021-07-02 2024-07-19 因诺微科技(天津)有限公司 一种超短语音语种识别方法
CN113611285A (zh) * 2021-09-03 2021-11-05 哈尔滨理工大学 基于层叠双向时序池化的语种识别方法
CN113611285B (zh) * 2021-09-03 2023-11-24 哈尔滨理工大学 基于层叠双向时序池化的语种识别方法

Similar Documents

Publication Publication Date Title
CN111653267A (zh) 一种基于时延神经网络的快速语种识别方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN109949824B (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN113488058A (zh) 一种基于短语音的声纹识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Ghezaiel et al. Hybrid network for end-to-end text-independent speaker identification
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN115312080A (zh) 一种基于互补声学表征的语音情绪识别模型以及方法
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法
CN116092512A (zh) 一种基于数据生成的小样本语音分离方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Si et al. Variational information bottleneck for effective low-resource audio classification
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN112599123B (zh) 轻量级语音关键词识别网络、方法、设备及存储介质
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN115083433A (zh) 一种基于dnn的文本无关表征音色聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911

RJ01 Rejection of invention patent application after publication