CN113539238A - 一种基于空洞卷积神经网络的端到端语种识别分类方法 - Google Patents

一种基于空洞卷积神经网络的端到端语种识别分类方法 Download PDF

Info

Publication number
CN113539238A
CN113539238A CN202010247070.2A CN202010247070A CN113539238A CN 113539238 A CN113539238 A CN 113539238A CN 202010247070 A CN202010247070 A CN 202010247070A CN 113539238 A CN113539238 A CN 113539238A
Authority
CN
China
Prior art keywords
language identification
voice
trained
network
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010247070.2A
Other languages
English (en)
Other versions
CN113539238B (zh
Inventor
张鹏远
苗晓晓
王文超
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN202010247070.2A priority Critical patent/CN113539238B/zh
Publication of CN113539238A publication Critical patent/CN113539238A/zh
Application granted granted Critical
Publication of CN113539238B publication Critical patent/CN113539238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。

Description

一种基于空洞卷积神经网络的端到端语种识别分类方法
技术领域
本发明涉及语种识别技术领域,特别涉及一种基于空洞卷积神经网络的端到端语种识别分类方法。
背景技术
语种识别(Language Identification,LID)是指自动判定给定的语音片段,从该语音片段的语音信号中提取各语种的差异信息,判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用,例如,口语语言翻译系统、多语种语音识别系统、语音文本处理等。
目前,传统的语种识别技术包括两种方法:第一种方法,基于音素层特征的语种识别技术;其中,基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)等。第二种方法,基于声学层特征的语种识别技术依赖于声学层特征,主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-UniversalBack-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-SupportVector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本发明采用传统的TV ivector系统提取原始i-vector。
近几年,深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展,具体从以下两个方面体现:一方面从前端语种特征提取层面,利用DNN模型强大的语种特征的抽取能力,提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发,提出基于DNN的TV建模策略。
近几年,也有学者提出了基于深度学习的端对端语种识别系统,摒弃了传统的语种识别系统框架。2014年GOOGLE的研究人员将特征提取、特征变换和分类器融于一个神经网络模型中,搭建了一个帧级别的语种识别端到端系统。随后有研究人员在此基础上发掘了不同神经网络的优势,包括延时神经网络(time-delay neural network,TDNN),长短时记忆递归神经网络(long short term memory-recurrent neural network,LSTM-RNN),但这些端到端语种识别系统的输入为帧级声学特征,输出为帧级判决,需要后处理将帧级特征转成句级特征进行语种判决。2016年Geng等人利用注意力机制模型(attention-basedmodel),结合LSTM-RNN搭建了端到端语种识别系统,输入帧级声学特征,利用LSTM提取语音的段级表达,在短时语音上取得了不错的语种识别性能。2018年,David等人提出基于深度神经网络的x-vector系统,验证了借助统计池化层得到的输入语音段级表达在各个语音时长测试条件下都优于传统i-vector系统。同年Cai等人采用深度卷积神经网络提取更加具有语种鉴别性的帧级特征并提出基于可学习的字典编码层,也得到了很好的段级表达。从这些研究工作中可以发现,相比较传统的基于i-vector方法的语种识别技术,基于深度学习的端到端方法更具性能优势,已经成为语种识别任务中的主流方法。普通的卷积神经网络及其下采样在局部上下文建模和语种相关性方面具有很强的能力,但在这一过程中压缩了特征,丧失了语音的时间结构。然而时间信息与语种识别高度相关。
发明内容
本发明的目的在于,为解决现有的基于卷积神经网络的语种识别方法存在上述缺陷,提出了一种基于空洞卷积神经网络的端到端语种识别网络,经过多层空洞卷积,保证网络计算量不变的情况下,增加语音信号的感受野,充分挖掘上下文信息,提取具有更具有鉴别性的语种特征,进一步提升语种识别系统的性能。
为了达到上述目的,本发明实施例记载了一种基于空洞卷积神经网络的端到端语种识别分类方法,通过下列步骤实现对目标语音的识别:
提取训练语音的帧级别声学底层特征;待训练语种识别网络接收,并对训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。
一个实例中,训练语音的帧级别声学底层特征,和测试语音的帧级别声学底层特征,为23维梅尔倒谱系数。
一个实例中,语种识别网络为残差网络,残差网络中包括至少一空洞卷积层。
其中,残差网络第l组中第i层空洞卷积层
Figure BDA0002434242050000031
的输出为:
Figure BDA0002434242050000032
Figure BDA0002434242050000033
为与
Figure BDA0002434242050000034
相关联的滤波器,p为
Figure BDA0002434242050000035
中的特征映射域,a为网络层的输入,b为滤波器域,k为空洞率。
本发明实施例的优点在于:使用空洞卷积神经网络,在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。空洞卷积继承了残差网络的特性,保持了输入信号的时间结构,并且随着网络的扩展,网络可以保证大的视野,提供了很强的局部上下文建模能力。
附图说明
图1为本发明实施例的一种基于空洞卷积神经网络的端到端语种识别分类方法流程图框图;
图2(a)为标准卷积的示意图;
图2(b)为空洞卷积的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的一种基于空洞卷积神经网络的端到端语种识别分类方法流程图框图,如图1所示,包括下列步骤:
步骤S101:提取训练语音的帧级别声学底层特征。
一个实施例中,帧级别声学底层特征为23维梅尔倒谱系数。
步骤S102:待训练语种识别网络接收训练语音的帧级别声学底层特征,并对其进行至少一层空洞卷积后,输出后验概率。
采用基于空洞卷积的语种识别网络作为样本的训练对象,可以通过空洞卷积,增加语音信号的感受野。以此充分挖掘上下文信息,提取具有鉴别性的帧级别语种特征。随后,网络中的平均池化层将帧级别语种特征的集合进行统计,并计算集合的均值,得到段级特征传递给后续的全连接层,最终由输出层输出后验概率。
一个实施例中,采用经典的34层残差网络(Residual Network)Resnet34作为基线构建语种识别网络,其中,Resnet34中的卷积层均为标准卷积。我们将Resnet34中的部分或全部标准卷积替换为空洞卷积。基于空洞卷积不需要引入新的参数即可进行卷积的特点,如图2所示,图2(a)为标准卷积的示意图,图2(b)为空洞卷积的示意图,使构建的语种识别网络,可以从更广泛的语境中整合不同的语言信息,从而增加语音信号的感受野。
具体地,Resnet34中的每个残差结构包含5组卷积层,使用
Figure BDA0002434242050000041
表示l组中的第i层,l=1,…,5。在不降低感知场的情况下提高深层网络的时间分辨率,以此保持语音中的时间结构,使用空洞卷积取代标准卷积。
在标准卷积中,
Figure BDA0002434242050000042
的输出是:
Figure BDA0002434242050000043
其中,
Figure BDA0002434242050000044
为与
Figure BDA0002434242050000045
相关联的滤波器,p为
Figure BDA0002434242050000046
中的特征映射域,a为网络层的输入,b为滤波器域。
在空洞卷积中,
Figure BDA0002434242050000047
的输出是:
Figure BDA0002434242050000048
其中,k为空洞率。
步骤S103:将后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络。
步骤S104:提取测试语音的帧级别声学底层特征。其中,帧级别声学底层特征为23维梅尔倒谱系数。
步骤S105:训练后语种识别网络接收测试语音的帧级别声学底层特征,输出后验概率,即分数向量;根据后验概率得到至少一个语种类别的概率,根据这一概率判定其所对应语种的语种类别。
一个实施例中,采用平均检测代价Cavg(average cost)对测试语音的识别结果进行评价,得到语种类别的概率。
Cavg的定义为:
Figure BDA0002434242050000051
其中,NL为目标语种数目,LT为目标语种,LN为非目标语种,LO为集外语种,PMiss(LT)表示目标语种为LT时的漏检率,PFA(LT,LN)是目标语种为LT时的虚警率,CMiss和CFA分别是漏检和虚警的惩罚因子,PTarget为目标语种的先验概率,PNon-Target=(1-PTarget-POut-of-Set)/(NL-1)为非目标语种的先验概率,POut-of-Set为集外语种的先验概率。
如考虑闭集测试计算Cavg,则POut-of-Set=0,此时定义CMiss=CFA=1,PTarget=0.5。
实施例一
采用Resnet34卷积神经网络作为基线,其中,Resnet34中的每个残差结构包含5组卷积层,且均为标准卷积。将其中每个残差结构的第4和第5组标准卷积(
Figure BDA0002434242050000052
Figure BDA0002434242050000053
)替换为空洞卷积,构建基于空洞卷积神经网络的语种识别网络。使用训练语音的帧级别声学底层特征对该语种识别网络进行训练,得到训练完成的基于空洞卷积的Resnet34。
为便于比较,设置对比例一。
对比例一
采用Resnet34卷积神经网络作为语种识别网络,其中,Resnet34中的每个残差结构包含5组卷积层,且均为标准卷积。使用与实施例一中相同的训练语音的帧级别声学底层特征对该语种识别网络进行训练,得到训练完成的基于标准卷积的Resnet34。
将3段时长不等的测试语音,分别作为实施例一和对比例一中的输入,进行语音识别。其中,第一测试语音时长为3秒,第二测试语音时长为10秒,第三测试语音时长为30秒。采用平均检测代价Cavg分别对实施例一和对比例一中的3段测试语音的识别结果进行评价,如表1所示:
第一测试语音(3s) 第二测试语音(10s) 第三测试语音(30s)
实施例一 18.26% 5.98% 2.04%
对比例一 20.44% 6.35% 2.22%
表1不同测试语音的平均检测代价
通过表1可知,本申请实施例一中采用基于空洞卷积的Resnet34对不同时长的测试语音进行识别的结果,采用平均检测代价Cavg进行评价的结果均小于对比例一中传统的采用基于标准卷积的Resnet34的识别结果。对于平均检测代价Cavg的评价,两者的数值越小,表示识别结果的准确率越高。由此可知,实施例一相比于对比例一在多种不同时长的测试语音的识别方面,均体现出更好的识别性能。
本发明实施例使用空洞卷积神经网络,在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。空洞卷积继承了残差网络的特性,保持了输入信号的时间结构,并且随着网络的扩展,网络可以保证大的视野,提供了很强的局部上下文建模能力。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于空洞卷积神经网络的端到端语种识别分类方法,其特征在于,包括下列步骤:
提取训练语音的帧级别声学底层特征;
待训练语种识别网络接收所述训练语音的帧级别声学底层特征,对所述训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;
根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新所述待训练语种识别网络的参数,得到训练后语种识别网络;
提取测试语音的帧级别声学底层特征;
所述训练后语种识别网络接收所述测试语音的帧级别声学底层特征,输出测试语音后验概率;根据所述测试语音后验概率判定测试语音中的至少一个语种类别。
2.根据权利要求1所述的方法,其特征在于,所述训练语音的帧级别声学底层特征,和所述测试语音的帧级别声学底层特征,为23维梅尔倒谱系数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,具体为:
将所述训练语音后验概率与真实类别标签的最小均方误差作为所述待训练语种识别网络的损失函数。
4.根据权利要求1所述的方法,其特征在于,所述语种识别网络为残差网络,残差网络中包括至少一空洞卷积层。
5.根据权利要求1或4所述的方法,其特征在于,所述残差网络第l组中第i层空洞卷积层
Figure FDA0002434242040000011
的输出为:
Figure FDA0002434242040000012
其中,fi l为与
Figure FDA0002434242040000013
相关联的滤波器,p为
Figure FDA0002434242040000014
中的特征映射域,a为网络层的输入,b为滤波器域,k为空洞率。
CN202010247070.2A 2020-03-31 2020-03-31 一种基于空洞卷积神经网络的端到端语种识别分类方法 Active CN113539238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247070.2A CN113539238B (zh) 2020-03-31 2020-03-31 一种基于空洞卷积神经网络的端到端语种识别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247070.2A CN113539238B (zh) 2020-03-31 2020-03-31 一种基于空洞卷积神经网络的端到端语种识别分类方法

Publications (2)

Publication Number Publication Date
CN113539238A true CN113539238A (zh) 2021-10-22
CN113539238B CN113539238B (zh) 2023-12-08

Family

ID=78087715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247070.2A Active CN113539238B (zh) 2020-03-31 2020-03-31 一种基于空洞卷积神经网络的端到端语种识别分类方法

Country Status (1)

Country Link
CN (1) CN113539238B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109313892A (zh) * 2017-05-17 2019-02-05 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
US20190189111A1 (en) * 2017-12-15 2019-06-20 Mitsubishi Electric Research Laboratories, Inc. Method and Apparatus for Multi-Lingual End-to-End Speech Recognition
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN110827809A (zh) * 2018-08-13 2020-02-21 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
CN110838286A (zh) * 2019-11-19 2020-02-25 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN110858477A (zh) * 2018-08-13 2020-03-03 中国科学院声学研究所 一种基于降噪自动编码器的语种识别分类方法及装置
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN110929602A (zh) * 2019-11-09 2020-03-27 北京工业大学 一种基于卷积神经网络的地基云图云状识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109313892A (zh) * 2017-05-17 2019-02-05 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
US20190189111A1 (en) * 2017-12-15 2019-06-20 Mitsubishi Electric Research Laboratories, Inc. Method and Apparatus for Multi-Lingual End-to-End Speech Recognition
CN110827809A (zh) * 2018-08-13 2020-02-21 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
CN110858477A (zh) * 2018-08-13 2020-03-03 中国科学院声学研究所 一种基于降噪自动编码器的语种识别分类方法及装置
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN110517663A (zh) * 2019-08-01 2019-11-29 北京语言大学 一种语种识别方法及识别系统
CN110929602A (zh) * 2019-11-09 2020-03-27 北京工业大学 一种基于卷积神经网络的地基云图云状识别方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN110838286A (zh) * 2019-11-19 2020-02-25 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOXIAO MIAO ETC: "D-MONA: A dilated mixed-order non-local attention network for speaker and language recognition", 《NEURAL NETWORKS》, pages 201 *
金马 等: "基于卷积神经网络的语种识别系统", 《数据采集与处理》, vol. 34, no. 2, pages 321 - 330 *

Also Published As

Publication number Publication date
CN113539238B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别系统及语音评分系统
US20060190259A1 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
Bhattacharjee A comparative study of LPCC and MFCC features for the recognition of Assamese phonemes
CN111429887B (zh) 基于端到端的语音关键词识别方法、装置以及设备
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN110992959A (zh) 一种语音识别方法及系统
CN112992191B (zh) 语音端点检测方法、装置、电子设备及可读存储介质
Ren et al. Two-stage training for chinese dialect recognition
CN112233651A (zh) 方言类型的确定方法、装置、设备及存储介质
Takamichi et al. JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification
CN113129900A (zh) 一种声纹提取模型构建方法、声纹识别方法及其相关设备
Bellagha et al. Speaker naming in tv programs based on speaker role recognition
Santos et al. Speech recognition in noisy environments with convolutional neural networks
CN114627868A (zh) 意图识别方法、装置、模型及电子设备
CN112509557B (zh) 一种基于非确定化词图生成的语音识别方法及其系统
Aronowitz et al. Context and uncertainty modeling for online speaker change detection
KR20080026951A (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
CN113539238B (zh) 一种基于空洞卷积神经网络的端到端语种识别分类方法
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
Duong Development of accent recognition systems for Vietnamese speech
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant