CN113539238A - 一种基于空洞卷积神经网络的端到端语种识别分类方法 - Google Patents
一种基于空洞卷积神经网络的端到端语种识别分类方法 Download PDFInfo
- Publication number
- CN113539238A CN113539238A CN202010247070.2A CN202010247070A CN113539238A CN 113539238 A CN113539238 A CN 113539238A CN 202010247070 A CN202010247070 A CN 202010247070A CN 113539238 A CN113539238 A CN 113539238A
- Authority
- CN
- China
- Prior art keywords
- language identification
- voice
- trained
- network
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 14
- 239000011800 void material Substances 0.000 title claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 8
- 210000002569 neuron Anatomy 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。
Description
技术领域
本发明涉及语种识别技术领域,特别涉及一种基于空洞卷积神经网络的端到端语种识别分类方法。
背景技术
语种识别(Language Identification,LID)是指自动判定给定的语音片段,从该语音片段的语音信号中提取各语种的差异信息,判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用,例如,口语语言翻译系统、多语种语音识别系统、语音文本处理等。
目前,传统的语种识别技术包括两种方法:第一种方法,基于音素层特征的语种识别技术;其中,基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)等。第二种方法,基于声学层特征的语种识别技术依赖于声学层特征,主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-UniversalBack-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-SupportVector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等。本发明采用传统的TV ivector系统提取原始i-vector。
近几年,深度神经网络(Deep Neural Networks,DNN)模型在语种识别技术上得到快速发展,具体从以下两个方面体现:一方面从前端语种特征提取层面,利用DNN模型强大的语种特征的抽取能力,提取了深度瓶颈特征(Deep Bottleneck Feature,DBF)。另一方面从模型域出发,提出基于DNN的TV建模策略。
近几年,也有学者提出了基于深度学习的端对端语种识别系统,摒弃了传统的语种识别系统框架。2014年GOOGLE的研究人员将特征提取、特征变换和分类器融于一个神经网络模型中,搭建了一个帧级别的语种识别端到端系统。随后有研究人员在此基础上发掘了不同神经网络的优势,包括延时神经网络(time-delay neural network,TDNN),长短时记忆递归神经网络(long short term memory-recurrent neural network,LSTM-RNN),但这些端到端语种识别系统的输入为帧级声学特征,输出为帧级判决,需要后处理将帧级特征转成句级特征进行语种判决。2016年Geng等人利用注意力机制模型(attention-basedmodel),结合LSTM-RNN搭建了端到端语种识别系统,输入帧级声学特征,利用LSTM提取语音的段级表达,在短时语音上取得了不错的语种识别性能。2018年,David等人提出基于深度神经网络的x-vector系统,验证了借助统计池化层得到的输入语音段级表达在各个语音时长测试条件下都优于传统i-vector系统。同年Cai等人采用深度卷积神经网络提取更加具有语种鉴别性的帧级特征并提出基于可学习的字典编码层,也得到了很好的段级表达。从这些研究工作中可以发现,相比较传统的基于i-vector方法的语种识别技术,基于深度学习的端到端方法更具性能优势,已经成为语种识别任务中的主流方法。普通的卷积神经网络及其下采样在局部上下文建模和语种相关性方面具有很强的能力,但在这一过程中压缩了特征,丧失了语音的时间结构。然而时间信息与语种识别高度相关。
发明内容
本发明的目的在于,为解决现有的基于卷积神经网络的语种识别方法存在上述缺陷,提出了一种基于空洞卷积神经网络的端到端语种识别网络,经过多层空洞卷积,保证网络计算量不变的情况下,增加语音信号的感受野,充分挖掘上下文信息,提取具有更具有鉴别性的语种特征,进一步提升语种识别系统的性能。
为了达到上述目的,本发明实施例记载了一种基于空洞卷积神经网络的端到端语种识别分类方法,通过下列步骤实现对目标语音的识别:
提取训练语音的帧级别声学底层特征;待训练语种识别网络接收,并对训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。
一个实例中,训练语音的帧级别声学底层特征,和测试语音的帧级别声学底层特征,为23维梅尔倒谱系数。
一个实例中,语种识别网络为残差网络,残差网络中包括至少一空洞卷积层。
本发明实施例的优点在于:使用空洞卷积神经网络,在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。空洞卷积继承了残差网络的特性,保持了输入信号的时间结构,并且随着网络的扩展,网络可以保证大的视野,提供了很强的局部上下文建模能力。
附图说明
图1为本发明实施例的一种基于空洞卷积神经网络的端到端语种识别分类方法流程图框图;
图2(a)为标准卷积的示意图;
图2(b)为空洞卷积的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的一种基于空洞卷积神经网络的端到端语种识别分类方法流程图框图,如图1所示,包括下列步骤:
步骤S101:提取训练语音的帧级别声学底层特征。
一个实施例中,帧级别声学底层特征为23维梅尔倒谱系数。
步骤S102:待训练语种识别网络接收训练语音的帧级别声学底层特征,并对其进行至少一层空洞卷积后,输出后验概率。
采用基于空洞卷积的语种识别网络作为样本的训练对象,可以通过空洞卷积,增加语音信号的感受野。以此充分挖掘上下文信息,提取具有鉴别性的帧级别语种特征。随后,网络中的平均池化层将帧级别语种特征的集合进行统计,并计算集合的均值,得到段级特征传递给后续的全连接层,最终由输出层输出后验概率。
一个实施例中,采用经典的34层残差网络(Residual Network)Resnet34作为基线构建语种识别网络,其中,Resnet34中的卷积层均为标准卷积。我们将Resnet34中的部分或全部标准卷积替换为空洞卷积。基于空洞卷积不需要引入新的参数即可进行卷积的特点,如图2所示,图2(a)为标准卷积的示意图,图2(b)为空洞卷积的示意图,使构建的语种识别网络,可以从更广泛的语境中整合不同的语言信息,从而增加语音信号的感受野。
其中,k为空洞率。
步骤S103:将后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络。
步骤S104:提取测试语音的帧级别声学底层特征。其中,帧级别声学底层特征为23维梅尔倒谱系数。
步骤S105:训练后语种识别网络接收测试语音的帧级别声学底层特征,输出后验概率,即分数向量;根据后验概率得到至少一个语种类别的概率,根据这一概率判定其所对应语种的语种类别。
一个实施例中,采用平均检测代价Cavg(average cost)对测试语音的识别结果进行评价,得到语种类别的概率。
Cavg的定义为:
其中,NL为目标语种数目,LT为目标语种,LN为非目标语种,LO为集外语种,PMiss(LT)表示目标语种为LT时的漏检率,PFA(LT,LN)是目标语种为LT时的虚警率,CMiss和CFA分别是漏检和虚警的惩罚因子,PTarget为目标语种的先验概率,PNon-Target=(1-PTarget-POut-of-Set)/(NL-1)为非目标语种的先验概率,POut-of-Set为集外语种的先验概率。
如考虑闭集测试计算Cavg,则POut-of-Set=0,此时定义CMiss=CFA=1,PTarget=0.5。
实施例一
采用Resnet34卷积神经网络作为基线,其中,Resnet34中的每个残差结构包含5组卷积层,且均为标准卷积。将其中每个残差结构的第4和第5组标准卷积(和)替换为空洞卷积,构建基于空洞卷积神经网络的语种识别网络。使用训练语音的帧级别声学底层特征对该语种识别网络进行训练,得到训练完成的基于空洞卷积的Resnet34。
为便于比较,设置对比例一。
对比例一
采用Resnet34卷积神经网络作为语种识别网络,其中,Resnet34中的每个残差结构包含5组卷积层,且均为标准卷积。使用与实施例一中相同的训练语音的帧级别声学底层特征对该语种识别网络进行训练,得到训练完成的基于标准卷积的Resnet34。
将3段时长不等的测试语音,分别作为实施例一和对比例一中的输入,进行语音识别。其中,第一测试语音时长为3秒,第二测试语音时长为10秒,第三测试语音时长为30秒。采用平均检测代价Cavg分别对实施例一和对比例一中的3段测试语音的识别结果进行评价,如表1所示:
第一测试语音(3s) | 第二测试语音(10s) | 第三测试语音(30s) | |
实施例一 | 18.26% | 5.98% | 2.04% |
对比例一 | 20.44% | 6.35% | 2.22% |
表1不同测试语音的平均检测代价
通过表1可知,本申请实施例一中采用基于空洞卷积的Resnet34对不同时长的测试语音进行识别的结果,采用平均检测代价Cavg进行评价的结果均小于对比例一中传统的采用基于标准卷积的Resnet34的识别结果。对于平均检测代价Cavg的评价,两者的数值越小,表示识别结果的准确率越高。由此可知,实施例一相比于对比例一在多种不同时长的测试语音的识别方面,均体现出更好的识别性能。
本发明实施例使用空洞卷积神经网络,在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。空洞卷积继承了残差网络的特性,保持了输入信号的时间结构,并且随着网络的扩展,网络可以保证大的视野,提供了很强的局部上下文建模能力。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于空洞卷积神经网络的端到端语种识别分类方法,其特征在于,包括下列步骤:
提取训练语音的帧级别声学底层特征;
待训练语种识别网络接收所述训练语音的帧级别声学底层特征,对所述训练语音的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;
根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新所述待训练语种识别网络的参数,得到训练后语种识别网络;
提取测试语音的帧级别声学底层特征;
所述训练后语种识别网络接收所述测试语音的帧级别声学底层特征,输出测试语音后验概率;根据所述测试语音后验概率判定测试语音中的至少一个语种类别。
2.根据权利要求1所述的方法,其特征在于,所述训练语音的帧级别声学底层特征,和所述测试语音的帧级别声学底层特征,为23维梅尔倒谱系数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练语音后验概率与真实类别标签,确定所述待训练语种识别网络的损失函数,具体为:
将所述训练语音后验概率与真实类别标签的最小均方误差作为所述待训练语种识别网络的损失函数。
4.根据权利要求1所述的方法,其特征在于,所述语种识别网络为残差网络,残差网络中包括至少一空洞卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010247070.2A CN113539238B (zh) | 2020-03-31 | 2020-03-31 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010247070.2A CN113539238B (zh) | 2020-03-31 | 2020-03-31 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539238A true CN113539238A (zh) | 2021-10-22 |
CN113539238B CN113539238B (zh) | 2023-12-08 |
Family
ID=78087715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010247070.2A Active CN113539238B (zh) | 2020-03-31 | 2020-03-31 | 一种基于空洞卷积神经网络的端到端语种识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539238B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313892A (zh) * | 2017-05-17 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
US20190189111A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Multi-Lingual End-to-End Speech Recognition |
CN110517663A (zh) * | 2019-08-01 | 2019-11-29 | 北京语言大学 | 一种语种识别方法及识别系统 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN110827809A (zh) * | 2018-08-13 | 2020-02-21 | 中国科学院声学研究所 | 一种基于条件生成式对抗网络的语种识别分类方法 |
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN110858477A (zh) * | 2018-08-13 | 2020-03-03 | 中国科学院声学研究所 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
CN110895932A (zh) * | 2018-08-24 | 2020-03-20 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
CN110929602A (zh) * | 2019-11-09 | 2020-03-27 | 北京工业大学 | 一种基于卷积神经网络的地基云图云状识别方法 |
-
2020
- 2020-03-31 CN CN202010247070.2A patent/CN113539238B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313892A (zh) * | 2017-05-17 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
US20190189111A1 (en) * | 2017-12-15 | 2019-06-20 | Mitsubishi Electric Research Laboratories, Inc. | Method and Apparatus for Multi-Lingual End-to-End Speech Recognition |
CN110827809A (zh) * | 2018-08-13 | 2020-02-21 | 中国科学院声学研究所 | 一种基于条件生成式对抗网络的语种识别分类方法 |
CN110858477A (zh) * | 2018-08-13 | 2020-03-03 | 中国科学院声学研究所 | 一种基于降噪自动编码器的语种识别分类方法及装置 |
CN110895932A (zh) * | 2018-08-24 | 2020-03-20 | 中国科学院声学研究所 | 基于语言种类和语音内容协同分类的多语言语音识别方法 |
CN110517663A (zh) * | 2019-08-01 | 2019-11-29 | 北京语言大学 | 一种语种识别方法及识别系统 |
CN110929602A (zh) * | 2019-11-09 | 2020-03-27 | 北京工业大学 | 一种基于卷积神经网络的地基云图云状识别方法 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
XIAOXIAO MIAO ETC: "D-MONA: A dilated mixed-order non-local attention network for speaker and language recognition", 《NEURAL NETWORKS》, pages 201 * |
金马 等: "基于卷积神经网络的语种识别系统", 《数据采集与处理》, vol. 34, no. 2, pages 321 - 330 * |
Also Published As
Publication number | Publication date |
---|---|
CN113539238B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 | |
US20060190259A1 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
Bhattacharjee | A comparative study of LPCC and MFCC features for the recognition of Assamese phonemes | |
CN111429887B (zh) | 基于端到端的语音关键词识别方法、装置以及设备 | |
Bhosale et al. | End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios. | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
Ren et al. | Two-stage training for chinese dialect recognition | |
CN112233651A (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
Takamichi et al. | JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification | |
CN113129900A (zh) | 一种声纹提取模型构建方法、声纹识别方法及其相关设备 | |
Bellagha et al. | Speaker naming in tv programs based on speaker role recognition | |
Santos et al. | Speech recognition in noisy environments with convolutional neural networks | |
CN114627868A (zh) | 意图识别方法、装置、模型及电子设备 | |
CN112509557B (zh) | 一种基于非确定化词图生成的语音识别方法及其系统 | |
Aronowitz et al. | Context and uncertainty modeling for online speaker change detection | |
KR20080026951A (ko) | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 | |
CN113539238B (zh) | 一种基于空洞卷积神经网络的端到端语种识别分类方法 | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Duong | Development of accent recognition systems for Vietnamese speech | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |