CN113611285B - 基于层叠双向时序池化的语种识别方法 - Google Patents

基于层叠双向时序池化的语种识别方法 Download PDF

Info

Publication number
CN113611285B
CN113611285B CN202111032721.7A CN202111032721A CN113611285B CN 113611285 B CN113611285 B CN 113611285B CN 202111032721 A CN202111032721 A CN 202111032721A CN 113611285 B CN113611285 B CN 113611285B
Authority
CN
China
Prior art keywords
time sequence
pooling
training
neural network
bidirectional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111032721.7A
Other languages
English (en)
Other versions
CN113611285A (zh
Inventor
陈晨
刘修言
蓝海乐
何勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202111032721.7A priority Critical patent/CN113611285B/zh
Publication of CN113611285A publication Critical patent/CN113611285A/zh
Application granted granted Critical
Publication of CN113611285B publication Critical patent/CN113611285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于层叠双向时序池化的语种识别方法,属于语种分类领域。本发明首先提取训练集和验证集音频文件的梅尔频率倒谱系数与基音参数,并切分成长度相同的片段,利用训练集段级特征训练残差‑双向长短时记忆神经网络,然后使用训练好的神经网络提取训练数据的高级时序特征,将高级时序特征进行非线性变换后,再对非线性特征进行双向时序池化。本发明可高效、准确地编码神经网络的隐藏层序列,从而获取音频的高阶动态信息,降低语种识别系统的错误率。

Description

基于层叠双向时序池化的语种识别方法
技术领域
本发明涉及音频特征表示方法,属于语种分类领域。
背景技术
近年来,随着智能技术的发展与全球化进程的不断推进,人们在各个地区的来往和贸易越来越密切,人们对于跨越语言的交流需求也日益增长。作为语音前端处理过程中的重要环节与为未来人机交互的重要接口,语种识别的准确率和效率,对于智能系统的发展具有重大的影响并且具有重大的科研价值和实用价值。
目前世界上已知现存人类语言大约7139种,分布在142个不同的语系中,依据人类分辨语言的过程来分析,人类并不需要精通多门语言,便能够对数种语言的种类进行判断。这些有效判断往往需要依赖于某层区分性特征:如韵律特征、基本声学特征、音素特征、词汇和语法等。
时序变化信息作为能够描述区分特征的重要依据,其建模方式直接影响语种识别系统的准确率和效率。传统的语种后端建模方式主要有:高斯混合模型-通用背景模型(GMM-UBM)、隐马尔科夫模型(HMM)、广义线性区分-支持向量机模型(GLDS-SVM)等。近年来,基于底层声学特征的深度学习模型方法,得到极大的发展:其对于局部特征的深度抽象能力,可提取更鲁棒的空间特征。但深度神经网络(DNN)、卷积神经网络(CNN)、延时神经网络(TDNN)等作为特征提取器,无法捕捉长时间序列之间的时序依赖关系、导致时序信息丢失。传统循环神经网络(RNN)作为池化编码层,虽然可以有效解决短序列编码问题,但对于长序列却会引发梯度消失和爆炸。长短时记忆网络(LSTM/BILSTM)虽然可以有效缓解这一问题,但现有的时序方法只能够获取时序末端的隐藏层编码,不可避免地忽略了隐藏层之间重要的时序信息。
针对以上的问题,提出基于层叠双向时序池化的语种识别方法,该方法可高效、准确地编码隐藏层序列的时序特征,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
发明内容
本发明的目的是为了解决语音信号的时序动态编码问题,并降低语种识别系统的错误率,进而提出了一种基于层叠双向时序池化的语种识别方法。
本发明为解决上述技术问题采取的技术方案是:一种基于层叠双向时序池化的语种识别方法,该方法包括以下步骤:
步骤1、对训练集与验证集中所有语音进行预处理并提取梅尔频率倒谱系数(MFCC)和基音(PITCH)参数,作为前端特征。
步骤2、将步骤1对应的训练集和验证集的前端特征,截取成长度相同的段级特征,作为残差-双向长短时记忆神经网络的训练样本和验证样本数据集合。
步骤3、用步骤2中的训练样本数据集的段级特征批量训练残差-双向长短时记忆神经网络,然后将训练得到的神经网络作为高层时序特征提取器,提取高层时序特征前向表示与后向表示/>
步骤4、将步骤3得到的高层时序特征,经过非线性特征映射后,作为双向时序池化的输入,得到层叠双向时序池化特征。
步骤5、将步骤4的层叠双向时序池化特征,经特征正则化后,由逻辑回归(LR)分类器进行评分。
进一步地,步骤1中所述的梅尔频率倒谱系数的计算步骤分别是分帧、预处理、短时傅里叶变换、频谱平方、能量谱梅尔滤波、对数运算、离散余弦。
步骤1中所述的基音参数的计算步骤分别为,首先对于音频文件下采样,再对下采样的音频计算归一化互相关系数函数,对相关处最大值进行记录、在上述最大值处选取候选点集合、在候选点集合中使用动态规划算法选取最佳候选点。
进一步地,步骤2中所述对训练数据集切割为固定长度的片段,对一句语音的前端特征,按任务最短语音段长度要求,按照其窗长和帧移设置切割成对应的长度。不足此长度的帧的语音段则丢弃。
进一步地,步骤3中所述对残差-双向长短时记忆神经网络的训练步骤分为,用步骤2中切割完成的特征训练神经网络,并保存网络参数,作为提取高层时序特征的网络参数;
步骤3中所述提取高层时序特征,具体步骤为:将训练集、测试集和注册集分别经过训练好的残差-双向长短时记忆神经网络,得到高层时序特征。
进一步地,步骤4中所述非线性变换定义为:
其对应海林格核函数为:
其中x+,x-,y+,若xi≥0,则xi +=xi,否则xi=0。若xi<0,则xi -=-xi,否则xi=0。y+、y-亦是。且/>
步骤4中所述双向时序池化包含前、后向时序池化,经前向、后向时序池化后的特征u均满足以下约束:
其中为在ti,tj时刻的hf或hb序列中元素的非线性时序特征。
式(3)中的线性参数u可由以下逐点排序学习定义:
则前向、后向时序池化均可定义为L2-loss支持向量回归形式:
其中[·]≥0=max{0,·},ε为不敏感系数,C为正则项系数。
为求解式(5),等价于解决如下对偶问题:
其中:
上式为核矩阵,Q中元素/>其中ti,tj=1,...,T。
对式(6)中α+-进行组合,可以得到以下二次规划形式:
其中I为单位矩阵,/>t=[1,2,...,T]T为时序向量。
求解式(8)得到单向时序池化特征u为:
且在最优处满足
定义层叠双向时序池化特征:
其中uf为前向时序池化特征,ub为后向时序池化特征。
具体地:
其中t=1,...,T对应于残差网络输出特征的时序顺序。
附图说明
图1:本发明流程图。
图2、图3、图4和图5:不同正则项系数(C)对应任务的平均损失(Cavg)、等错误率(EER)的对比图。
具体实施方式
下面将通过实施例并结合附图,对本发明中的技术方案进行详细清楚的描述,所描述的实施特例仅是本发明的一部分实施例。
实施例:
本发明采取的技术方案是一种基于层叠双向时序池化的语种识别方法,该方法包括以下步骤:
步骤1、对训练集与验证集中所有语音进行预处理并提取梅尔频率倒谱系数(MFCC)和基音(PITCH)参数,作为前端特征。
步骤2、将步骤1对应的训练集和验证集的前端特征,截取成长度相同的段级特征,作为残差-双向长短时记忆神经网络的训练样本和验证样本数据集合。
步骤3、用步骤2中的训练样本数据集的段级特征批量训练残差-双向长短时记忆神经网络,然后用训练完成的神经网络作为高层时序特征提取器,提取高层时序特征表示与/>其中/>与残差网络特征x=[x1,x2,...,xT]中序列的起始特征x1相对应。
步骤4、将步骤3得到的高层时序特征,经过非线性变换后,作为双向时序池化的输入,对应得到层叠双向时序池化特征。
步骤5、将步骤4的层叠双向时序池化特征,经特征正则化后,由逻辑回归(LR)分类器进行评分。
在本实施例中,所述步骤1的具体过程为:
步骤1-1、对输入的语音信号,进行预加重、分帧、加窗、傅里叶变换、幅值平方、梅尔滤波、对数功率再经离散余弦变换得到梅尔倒谱系数,其中,音频采样率为16000Hz,窗长25ms,帧移10ms。
步骤1-2、再对语音信号计算基音系数叠加到梅尔倒谱系数特征上,首先对音频下采样、计算相关关系、对相关处最大值进行记录、选取候选点集合、在集合内选取最佳点,从而得到基音系数。
在本实施例中,所述步骤2的具体过程为:
将训练数据集切割为长度为100的片段,对一句语音的前端特征,不足此长度的语音段则丢弃。
在本实施例中,所述步骤3的具体过程为:
步骤3-1、将步骤2处理后的训练集的等长语音段作为残差-双向长短时记忆神经网络的输入,训练神经网络。残差神经网络为RESNET-50,池化操作为最大池化,激活函数选为ReLU。双向长短时记忆网络为单层。
步骤3-2、将步骤1的训练集数据,经过步骤3的高层特征提取器,得到训练集的p=768维高层时序特征序列
在本实施例中,所述步骤4的具体过程为:
将步骤3得到的高层时序特征经非线性变换后,得到非线性特征序列其作为双向时序池化的输入,得到层叠双向时序池化特征/>
在本实施例中,所述步骤5的具体过程为:
将步骤4的双向时序池化特征,经均值正则化(Sub-Mean)和长度正则化(L-Norm)后,由逻辑回归(LR)分类器进行评分。
实验结果:
本发明采用东方语种识别大赛(OLR-2019)数据集中的任务2与任务3进行性能验证,性能评价方式采用平均损失(Cavg)、等错误率(EER)。
不同非线性变换对本发明(RESNET-BILSTM RANK)的性能影响如表1所示,实验结果表明,海林格核函数使双向时序池化获得非线性建模能力,能提取更鲁棒的时序特征。
对比其他方法,本发明使系统的平均损失、等错误率明显降低,如表2所示,相较于基线系统,本发明使任务2的相对平均损失、相对等错误率分别降低22.93%、25.36%。使任务3的相对平均损失、相对等错误率分别降低44.54%、48.68%。相较于双向长短时记忆网络(BILSTM)方法、相对平均损失、相对等错误率分别降低8.75%、8.69%、13.73%、13.78%。
表1:海林格核函数与等价核函数对不同任务的平均损失、等错误率对比表。
表1
表2:在OLR-2019数据库上本发明方法(命名RESNET-BILSTM RANK)与其他方法的平均损失(Cavg)、等错误率(EER)对比表。
表2
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。因此,凡依据本发明所揭示的原理、思路所作的等同变化,仍属于本发明的保护范围之内。

Claims (1)

1.基于层叠双向时序池化的语种识别方法,其特征在于,包含前端特征提取、残差-双向长短时记忆神经网络模型训练、双向时序特征提取,测试语音评分,具体步骤如下:
所述前端特征提取包含步骤:
步骤1、对训练集与验证集中所有语音进行预处理并提取梅尔频率倒谱系数(MFCC)和基音(PITCH)参数,作为前端特征;
步骤2、将步骤1对应的训练集和验证集的前端特征,截取成长度相同的段级特征,作为残差-双向长短时记忆神经网络的训练样本和验证样本数据集合;
步骤3、用步骤2中的训练样本数据集的段级特征批量训练残差-双向长短时记忆神经网络,然后将训练得到的神经网络作为高层时序特征提取器,提取高层时序特征前向表示与后向表示/>
步骤4、将步骤3得到的高层时序特征,经过非线性特征映射后,作为双向时序池化的输入,得到层叠双向时序池化特征;
步骤5、将步骤4的层叠双向时序池化特征,经特征正则化后,由逻辑回归(LR)分类器进行评分;
步骤1中所述的梅尔频率倒谱系数的计算步骤分别是分帧、预处理、短时傅里叶变换、频谱平方、能量谱梅尔滤波、对数运算、离散余弦,
步骤1中所述的基音参数的计算步骤分别为,首先对于音频文件下采样,再对下采样的音频计算归一化互相关系数函数,对相关处最大值进行记录、在上述最大值处选取候选点集合、在候选点集合中使用动态规划算法选取最佳候选点,
所述步骤2中将步骤1对应的训练集截取成长度相同的段级特征,对一句语音的前端特征,按任务最短语音段长度要求,按照其窗长和帧移设置切割成对应的长度,不足此长度的帧的语音段则丢弃,
所述步骤3中训练残差-双向长短时记忆神经网络的训练步骤分为,用步骤2中切割完成的特征训练神经网络,并保存网络参数,作为提取高层时序特征的网络参数;
步骤3中所述提取高层时序特征,具体步骤为:将训练集、测试集和注册集分别经过训练好的残差-双向长短时记忆神经网络,得到高层时序特征,
所述步骤4中非线性特征映射定义为:
其对应海林格核函数为:
其中x+,x-,y+,若xi≥0,则xi +=xi,否则xi=0,若xi<0,则xi -=-xi,否则xi=0;y+、y-亦是,且/>
步骤4中所述双向时序池化包含前、后向时序池化,经前向、后向时序池化后的特征u均满足以下约束:
其中为在ti,tj时刻的hf或hb序列中元素的非线性时序特征;
式(3)中的线性参数u可由以下逐点排序学习定义:
g(vt,u)→t
则前向、后向时序池化均可定义为L2-loss支持向量回归形式:
其中[·]≥0=max{0,·},ε为不敏感系数,C为正则项系数;
为求解式(5),等价于解决如下对偶问题:
其中:
上式为核矩阵,Q中元素/>其中ti,tj=1,...,T;
对式(6)中α+-进行组合,可以得到以下二次规划形式:
其中I为单位矩阵,/>t=[1,2,...,T]T为时序向量;
求解式(8)得到单向时序池化特征u为:
且在最优处满足
定义层叠双向时序池化特征:
其中uf为前向时序池化特征,ub为后向时序池化特征;
具体地:
其中t=1,...,T对应于残差网络输出特征的时序顺序。
CN202111032721.7A 2021-09-03 2021-09-03 基于层叠双向时序池化的语种识别方法 Active CN113611285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111032721.7A CN113611285B (zh) 2021-09-03 2021-09-03 基于层叠双向时序池化的语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111032721.7A CN113611285B (zh) 2021-09-03 2021-09-03 基于层叠双向时序池化的语种识别方法

Publications (2)

Publication Number Publication Date
CN113611285A CN113611285A (zh) 2021-11-05
CN113611285B true CN113611285B (zh) 2023-11-24

Family

ID=78310024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111032721.7A Active CN113611285B (zh) 2021-09-03 2021-09-03 基于层叠双向时序池化的语种识别方法

Country Status (1)

Country Link
CN (1) CN113611285B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637545A (zh) * 2019-01-17 2019-04-16 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110334243A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多层时序池化的音频表示学习方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
WO2020143263A1 (zh) * 2019-01-11 2020-07-16 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法
CN111653267A (zh) * 2020-03-31 2020-09-11 因诺微科技(天津)有限公司 一种基于时延神经网络的快速语种识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143263A1 (zh) * 2019-01-11 2020-07-16 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法
CN109637545A (zh) * 2019-01-17 2019-04-16 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110334243A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多层时序池化的音频表示学习方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN111653267A (zh) * 2020-03-31 2020-09-11 因诺微科技(天津)有限公司 一种基于时延神经网络的快速语种识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于模式发现的语种识别方法;关娜娜 等;《信息工程大学学报》(第01期);全文 *
基于循环神经网络的藏语语音识别声学模型;黄晓辉 等;《中文信息学报》(第05期);全文 *
深浅层特征及模型融合的说话人识别;仲伟峰 等;《声学学报》(第02期);全文 *

Also Published As

Publication number Publication date
CN113611285A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN104008751A (zh) 一种基于bp神经网络的说话人识别方法
CN111243575A (zh) 基于扩张卷积神经网络的方言种属识别方法
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN109377981B (zh) 音素对齐的方法及装置
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
CN111599344A (zh) 一种基于拼接特征的语种识别方法
CN114387997B (zh) 一种基于深度学习的语音情感识别方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
CN110390929A (zh) 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN113611285B (zh) 基于层叠双向时序池化的语种识别方法
Dharmale et al. Evaluation of phonetic system for speech recognition on smartphone
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
CN115033695A (zh) 一种基于常识知识图谱的长对话情感检测方法及系统
CN113628639A (zh) 一种基于多头注意力机制的语音情感识别方法
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
CN113488069A (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN106297823A (zh) 一种基于环境噪声标准化变换的语音情感特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant