CN105632501B - 一种基于深度学习技术的自动口音分类方法及装置 - Google Patents
一种基于深度学习技术的自动口音分类方法及装置 Download PDFInfo
- Publication number
- CN105632501B CN105632501B CN201511021329.7A CN201511021329A CN105632501B CN 105632501 B CN105632501 B CN 105632501B CN 201511021329 A CN201511021329 A CN 201511021329A CN 105632501 B CN105632501 B CN 105632501B
- Authority
- CN
- China
- Prior art keywords
- accent
- voice
- neural
- deep
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 53
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000013135 deep learning Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims 3
- 230000006690 co-activation Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于深度学习技术的自动口音分类方法和装置,方法包括:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息,从而可以提供比传统浅层模型更好的分类效果。
Description
技术领域
本发明涉及带口音语音去静音处理及提取特征方法、深层神经网络的建模、参数选取、训练以及推断方法,口音分类等。
背景技术
语音中的口音分为母语口音(native accent)和外语口音(foreign accent)。母语口音是指说话人使用母语发音时受其母语中方言的影响而产生的口音。外语口音是指说话人在用非母语语言发音时,受到母语发音影响而产生的口音。本发明中我们主要针对汉语中母语口音分类问题。
汉语带口音语音分类的常用方法主要有文本相关的方法和文本无关的方法两大类。
文本相关的口音分类方法是指在对口音进行建模时,使用语音对应的文本信息如音素层级(phoneme level)、词语层级(word level)的信息等,建立包含口音信息的特定音素或词语的模型。这种方法的出发点是口音信息是附着于特定的词语或者音素上的,对这些词语或者音素进行建模,可以准确地分别不同口音的语音。实验结果也表明这种建模方式可以取得很高的口音分类准确率。这类方法的问题时,建模时需要词语或者音素等的边界信息,对训练数据要求较好。
文本无关的方法在建模时假设语音对应的文本、说话人或者说话人性别信息都不存在,只使用从语音数据提取的信息。在实际中,将要被处理的语音数据往往没有与之对应的文本、说话人等信息。在这种情况下,对语音数据进行准确的口音分类,对语音处理(如语音识别、语音理解)系统的性能很重要。因此,这类方法的研究在实际应用中有重要的意义。本发明针对文本无关的口音分类方法。
文本无关的口音分类方法在建模时通常使用高斯混合模型(GMM)对口音信息进行建模。在训练高斯混合模型过程中,来自不同口音的语音训练数据被用来不同的GMM模型,因此对于N种口音就会产生N个对应的GMM模型。在测试过程中,对于输入音频,首先经过静音去除模块去掉音频里的静音帧,然后通过特征提取模块提取特征,最后将特征输入到训练得到的各个高斯混合模型中去计算每帧特征在各模型上的后验概率。在计算得到每帧特征的后验概率之后,每一帧的口音类别就是该帧最大的后验概率对应的口音类别。通过这种方式得到一条语句中的每一帧的口音类别之后,该条语句的的口音类别就由所有帧的口音类别进行多数投票决定。
训练高斯混合模型时,通常使用最大似然估计(maximmum likelihoodestimation,简称MLE)准则来估计参数。使用MLE准则训练得到不同口音的GMM模型之间的混淆区域(confusion regions)得不到很好地压制,因为MLE准则在训练过程中会以最大化不同种类的口音数据的概率为目
标。模型尽管GMM模型的区分度训练方法(discriminative training methods)如最小分类错误准则(minimum classification estimation,简称MCE)已经被用来压制混淆区域并且也增加了口音模型的区分能力,但文本无关的口音分类方法的性能还是需要进一步提高。
发明内容
为了进一步提高自动口音分类算法的性能。本发明提出了一种基于深度学习技术的自动口音分类方法。本发明提出的上述方法使用深度学习技术中的深层神经网络来对口音信息建模。在本发明中,深层神经网络是指网络结构中至少含有两个隐层的前向神经网络。对于口音分类任务,作为判别式模型的深层神经网络相比于产生式模型GMM可以对不同口音的混淆区域提供更好的区分性。除此之外,在语音识别任务中,相比于浅层模型,深层神经网络中的多个隐层可以被看成更强的特征提取器。有研究表明,上下文信息可以提高语音识别和韵律事件检测等语音处理任务的性能。因此,本发明还研究了包含长时信息的上下文特征在口音分类任务中的应用。
根据本发明一方面,提供了一种基于深度学习技术的自动口音分类方法,包括下列步骤:
步骤1:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;
步骤2:根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;
步骤3:计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
步骤4:使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。
根据本发明另一方面,提供了一种基于深度学习技术的自动口音分类装置,其特征在于,包括:
预处理模块,对训练集中的所有带口音语音进行去除静音并提取MFCC特征;
训练模块,根据所提取的MFCC特征训练各个带口音语音的深层神经网路,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;
分类识别模块,计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
结果获取模块,使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。
本发明的有益效果:本发明针对传统的口音分类方法中使用的统计模型缺乏利用深层结构来学习更具区分性的高层特征以及上下文信息,提出了一种深度学习技术的口音分类算法,以使用深度学习技术中的深层神经网络来对口音信息进行建模,并在此基础上使用包含上下文信息的特征来进一步提高口音分类算法的性能。基于深度学习技术的口音分类新方法可以通过深层结构来学习出更具区分性的高层特征以及使用上下文特征,并且深层神经网络作为一种判别式模型对不同口音具有更好的分类性能,从而使得提出的新方法具有更好的口音分类效果。
附图说明
本发明进一步的特色和优点将参考说明性的附图在下面描述。
图1是本发明中基于深度学习技术的自动分类算法的流程图;
图2是本发明中对带口音语音进行去除静音并提取特征过程的示意图;
图3是本发明中训练表示各口音语音的深层神经网络的流程图;
图4是本发明中表示计算各语音帧在深层神经网络上的各口音分类的概率得分的流程图;
图5是本发明中表示使用每句带口音语音中的每帧语音的口音类别进行多数投票,得到每句语音相对应的口音类别的流程图;
图6是本发明中表示使用当前帧的前后帧特征对应的上下文信息的流程图。
具体实施方式
应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利要求来定义。
本发明通过建立基于深度学习技术的自动口音分类算法,取代传统方法中使用的浅层模型,通过深度学习技术中的深层神经网络本身具有的更强的区分性以及其深层结构学习出更具鲁棒性的高层特征,从而提高了自动口音分类算法的性能。更近一步的是,使用深度学习技术可以更加有效地利用包含语音上下文信息的特征,从而进一步提高了自动口音分类算法的分类效果。
如图1所示,本发明提出了一种基于深度学习技术的自动口音分类方法。该方法的具体步骤如下:
步骤1:对训练集中每句带口音语音进行去除静音并提取梅尔倒谱系数特征;
步骤2:训练各种带口音语音的深层神经网络,用于描述各种带口音语音的声学特性,这里深层神经网络是指至少包含两个隐层的前向人工神经网络;
步骤3:计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
步骤4:使用每句待识别带口音语音中的每帧语音的口音类别进行多数投票,得到每句语音相对应的口音类别;
步骤5:使用当前帧语音的前后帧语音特征对应的上下文信息进一步提高口音分类算法的性能。
其中,所述对带口音语音语句去除静音并提取特征,如图2所示,主要包括以下两个步骤:
第一,首先对每句带口音语句中的语音进行加窗分帧操作,得到多个语音帧,每个语音帧窗长为25ms,帧移为10ms。之后计算每个语音帧的短时能量值,设定一个短时能量阈值来去除静音帧,当语音帧的短时能量值小于该阈值则为静音帧需要去除,反之当大于等于时则为语音帧需要保留;
第二,对于经过筛选得到的语音帧,提取梅尔倒谱系数(Mel-Frequency CepstrumCoefficients,简称MFCC),每帧MFCC特征包含39维特征。提取完训练集上的语音语句的MFCC特征后,对所有训练集上的MFCC特征做零均值归一化操作。
步骤2中所述训练各口音语音的深层神经网络,用于描述各种带口音语音的声学特性,其包括训练一个基于深度学习技术中的深层神经网络的自动口音分类模型,以对各带口音语音的声学特性进行建模。训练步骤包括:
第一,汇集所有训练集中的所有种类的带口音语音的特征数据,使用随机梯度下降(Stochastic Gradient Descent,简称SGD)训练得到一个深层神经网络(Deep NeuralNetwork,简称DNN)。
第二,根据上一步骤中使用的训练数据和训练方法训练不同网络结构和使用不同隐层激活函数的不同深层神经网络,以便取得最优的口音分类口音分类性能。在识别过程中,可以根据这些不同深层神经网络在测试集数据上的性能来选择得到最好性能的深层神经网络进行识别。即利用训练集训练具有不同激活函数和不同网络结构的多个深层神经网络,之后利用所述多个深层神经网络对测试集中的所有带口音语音进行口音识别,将识别结果与所述测试集中的所有带口音语音的真实口音类别进行比较,分别计算所述多个深层神经网络的总体帧分类正确率和整句分类正确率,选择正确率最高的深层神经网络作为最终的口音分类模型,对所述待识别语音进行识别。
如图3所示,训练所述深层神经网络具体包括如下步骤:
选定深层神经网络的结构以及各层使用的激活函数;
使用Glorot-Bengio方法初始化深层神经网络中的参数;
使用各帧语音特征和随机梯度下降算法来训练深层神经网络中的参数;
判断训练得到的深层神经网络中的参数是否已经收敛,未收敛则转上一步骤继续训练,否则结束训练,得到口音分类模型。
步骤3中所述计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签,如图4所示,训练步骤包括:
第一,将待识别语音中的语句进行与训练集中数据相同的加窗分帧处理,之后进行同样的去静音及提取MFCC特征操作,最后再对待识别语音中每句的MFCC特征进行零均值归一化时,使用的均值是从整个训练集上得到的均值。
第二,将待识别语音经过上一步骤处理得到的语音帧特征输入到已经训练好的表征口音信息的深层神经网络模型中,计算该语音帧对应于各口音类别的概率得分。选择概率得分最大的口音类别作为该语音帧的口音类别。
所述使用每句带口音语音中的每帧语音的口音类别进行多数投票,得到每句语音相对应的口音类别,如图5所示,包括:
经过以上几个步骤得到待识别语音中每帧语音对应的口音类别信息之后,由于口音分类任务中通常以句准确率作为衡量口音分类算法性能的标准,因此需要取得每句的口音类别。对于每句的口音类别,通常由该语句中所有语音帧进行多数投票决定,所谓多数投票是指统计该句语音帧中各口音类别包含的语音帧的帧数,然后将包含帧数最多的口音类别设置为该句的口音类别。
所述使用当前帧的前后帧特征对应的上下文信息进一步提高口音分类算法的性能。包括:
使用当前语音帧的前后帧特征来表示上下文信息,来提高口音分类算法的性能。口音信息蕴含于语音的一个较长的时间段中,将连续多帧的语音特征作为深层神经网络的输入,可以提高基于深度学习技术的口音分类算法的性能。
如图6所示,利用连续多帧的语音特征提高基于深度学习技术的口音分类算法的性能具体包括:
将每帧语音的特征与其前后n帧连续语音帧的特征拼接在一起,作为输入特征输入到已训练好的深度神经网络口音分类模型中,该模型同样适用前后语音帧的特征训练得到的;
比较该帧在各不同口音类别上的概率得分的大小,将概率得分最大的口音类别设置为该帧的口音类别;
统计该句中各口音类别包含的语音帧的帧数;
将帧数最多的口音类别设置为改语句的口音类别。
根据本说明书,本发明进一步地修改和变化对于所述领域的技术人员是显而易见的。因此,本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解,本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。
Claims (10)
1.一种基于深度学习技术的自动口音分类方法,其特征在于,包括下列步骤:
步骤1:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;
步骤2:根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;
步骤3:计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
步骤4:使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别;
其中,在训练深层神经网络时,将带口音语音中前后连续多帧对应的MFCC特征作为输入进行训练;
利用训练好的深层神经网络对待识别语音进行识别时,将待识别语音中前后连续多帧对应的MFCC特征作为所述深层神经网络的输入进行识别。
2.如权利要求1所述的方法,其特征在于,步骤1中所述对带口音语音去除静音并提取MFCC特征,包括以下两个步骤:
第一,首先对每个带口音语语音进行加窗分帧操作,得到每个带口音语音所包括的所有语音帧,之后计算每个语音帧的短时能量值,根据所述短时能量值去除静音帧;
第二,对于去除了静音帧后的每个语音帧,提取梅尔倒谱系数,提取完训练集上的所有带口音语音的MFCC特征后,对所有MFCC特征做零均值归一化操作。
3.如权利要求1所述的方法,其特征在于,所述步骤2具体包括:
汇集训练集中的所有带口音语音,使用随机梯度下降训练得到多个深层神经网络;所述多个深层神经网络为不同网络结构和使用不同隐层激活函数的深层神经网络。
4.如权利要求1所述的方法,其特征在于,步骤3包括以下步骤:
第一,将待识别语音进行加窗分帧操作,得到待识别语音所包括的所有语音帧,之后计算每个语音帧的短时能量值,根据所述短时能量值去除静音帧;对于去除了静音帧后的每个语音帧提取MFCC特征,并对所提取的所有MFCC特征进行零均值归一化,进行零均值归一化所使用的均值是从所述训练集上得到的均值;
第二,根据所提取的MFCC特征和所述深层神经网络模型,计算待识别语音中各语音帧对应于各口音类别的概率得分,选择概率得分最大的口音类别作为该语音帧的口音类别。
5.如权利要求1所述的方法,其特征在于,步骤4中所述多数投票是指统计各口音类别对应的语音帧的帧数,然后将包含帧数最多的口音类别设置为待识别语音的口音类别。
6.如权利要求3所述的方法,其特征在于,步骤3中利用训练集训练具有不同激活函数和不同网络结构的多个深层神经网络,之后利用所述多个深层神经网络对测试集中的所有带口音语音进行口音识别,将识别结果与所述测试集中的所有带口音语音的真实口音类别进行比较,分别计算所述多个深层神经网络的总体帧分类正确率和整句分类正确率,选择正确率最高的深层神经网络作为最终的口音分类模型,对所述待识别语音进行识别。
7.一种基于深度学习技术的自动口音分类装置,其特征在于,包括:
预处理模块,对训练集中的所有带口音语音进行去除静音并提取MFCC特征;
训练模块,根据所提取的MFCC特征训练各个带口音语音的深层神经网络 ,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络,其中,在训练所述深层神经网络时,将带口音语音中前后连续多帧对应的MFCC特征作为输入进行训练;
分类识别模块,计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签,其中,所述分类识别模块将待识别语音中前后连续多帧对应的MFCC特征作为所述深层神经网络的输入进行识别;
结果获取模块,使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。
8.如权利要求7所述的装置,其特征在于,所述训练模块实现如下功能:
汇集训练集中的所有带口音语音,使用随机梯度下降训练得到多个深层神经网络;所述多个深层神经网络为不同网络结构和使用不同隐层激活函数的深层神经网络。
9.如权利要求7所述的装置,其特征在于,所述分类识别模块实现如下功能:
将待识别语音进行加窗分帧操作,得到待识别语音所包括的所有语音帧,之后计算每个语音帧的短时能量值,根据所述短时能量值去除静音帧;对于去除了静音帧后的每个语音帧提取MFCC特征,并对所提取的所有MFCC特征进行零均值归一化,进行零均值归一化所使用的均值是从所述训练集上得到的均值;
根据所提取的MFCC特征和所述深层神经网络模型,计算待识别语音中各语音帧对应于各口音类别的概率得分,选择概率得分最大的口音类别作为该语音帧的口音类别。
10.如权利要求8所述的装置,其中,所述分类识别模块利用训练集训练具有不同激活函数和不同网络结构的多个深层神经网络,之后利用所述多个深层神经网络对测试集中的所有带口音语音进行口音识别,将识别结果与所述测试集中的所有带口音语音的真实口音类别进行比较,分别计算所述多个深层神经网络的总体帧分类正确率和整句分类正确率,选择正确率最高的深层神经网络作为最终的口音分类模型,对所述待识别语音进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511021329.7A CN105632501B (zh) | 2015-12-30 | 2015-12-30 | 一种基于深度学习技术的自动口音分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511021329.7A CN105632501B (zh) | 2015-12-30 | 2015-12-30 | 一种基于深度学习技术的自动口音分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105632501A CN105632501A (zh) | 2016-06-01 |
CN105632501B true CN105632501B (zh) | 2019-09-03 |
Family
ID=56047344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511021329.7A Expired - Fee Related CN105632501B (zh) | 2015-12-30 | 2015-12-30 | 一种基于深度学习技术的自动口音分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105632501B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854528B2 (en) | 2020-12-22 | 2023-12-26 | Samsung Electronics Co., Ltd. | Method and system for detecting unsupported utterances in natural language understanding |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102192678B1 (ko) * | 2015-10-16 | 2020-12-17 | 삼성전자주식회사 | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 |
CN106228980B (zh) * | 2016-07-21 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
CN106251859B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN108172218B (zh) * | 2016-12-05 | 2021-01-12 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
CN107316637A (zh) * | 2017-05-31 | 2017-11-03 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
CN109033921A (zh) * | 2017-06-08 | 2018-12-18 | 北京君正集成电路股份有限公司 | 一种识别模型的训练方法和装置 |
CN107506407B (zh) * | 2017-08-07 | 2020-03-27 | 深圳市大迈科技有限公司 | 一种文件分类、调用的方法及装置 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
CN108346426B (zh) * | 2018-02-01 | 2020-12-08 | 威盛电子(深圳)有限公司 | 语音识别装置以及语音识别方法 |
US10580414B2 (en) * | 2018-05-07 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speaker recognition/location using neural network |
WO2019227290A1 (en) * | 2018-05-28 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
CN108899017B (zh) * | 2018-06-22 | 2020-09-08 | 深圳市鸿基盛科技有限公司 | 一种基于环境数据的投票式多层次语音识别架构 |
CN108877784B (zh) * | 2018-09-05 | 2022-12-06 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、系统及计算机可读存储介质 |
US11375293B2 (en) * | 2018-10-31 | 2022-06-28 | Sony Interactive Entertainment Inc. | Textual annotation of acoustic effects |
CN109493846B (zh) * | 2018-11-18 | 2021-06-08 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN109686362B (zh) * | 2019-01-02 | 2021-04-02 | 百度在线网络技术(北京)有限公司 | 语音播报方法、装置和计算机可读存储介质 |
CN109887497B (zh) * | 2019-04-12 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN110033760B (zh) | 2019-04-15 | 2021-01-29 | 北京百度网讯科技有限公司 | 语音识别的建模方法、装置及设备 |
CN112116909A (zh) * | 2019-06-20 | 2020-12-22 | 杭州海康威视数字技术股份有限公司 | 语音识别方法、装置及系统 |
CN110517664B (zh) * | 2019-09-10 | 2022-08-05 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110648654A (zh) * | 2019-10-09 | 2020-01-03 | 国家电网有限公司客户服务中心 | 一种引入语言向量的语音识别增强方法和装置 |
US11120219B2 (en) | 2019-10-28 | 2021-09-14 | International Business Machines Corporation | User-customized computer-automated translation |
CN110910865B (zh) * | 2019-11-25 | 2022-12-13 | 秒针信息技术有限公司 | 语音转换方法和装置、存储介质及电子装置 |
CN110992928A (zh) * | 2019-11-26 | 2020-04-10 | 维沃移动通信有限公司 | 音频处理方法及终端设备 |
CN111508501B (zh) * | 2020-07-02 | 2020-09-29 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及系统 |
CN111901737A (zh) * | 2020-08-07 | 2020-11-06 | 浙江大学 | 一种基于智能终端的助听器参数自适应方法 |
CN112233651B (zh) * | 2020-10-10 | 2024-06-04 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN113593525A (zh) * | 2021-01-26 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 口音分类模型训练和口音分类方法、装置和存储介质 |
US20230368786A1 (en) * | 2022-05-12 | 2023-11-16 | Samsung Electronics Co., Ltd. | System and method for accent-agnostic frame-level wake word detection |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426835A (zh) * | 2011-08-30 | 2012-04-25 | 华南理工大学 | 一种基于支持向量机模型的开关柜局部放电信号识别方法 |
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
-
2015
- 2015-12-30 CN CN201511021329.7A patent/CN105632501B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426835A (zh) * | 2011-08-30 | 2012-04-25 | 华南理工大学 | 一种基于支持向量机模型的开关柜局部放电信号识别方法 |
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854528B2 (en) | 2020-12-22 | 2023-12-26 | Samsung Electronics Co., Ltd. | Method and system for detecting unsupported utterances in natural language understanding |
Also Published As
Publication number | Publication date |
---|---|
CN105632501A (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
US11315550B2 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN105654944B (zh) | 一种融合了短时与长时特征建模的环境声识别方法及装置 | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Martinez et al. | Prosodic features and formant modeling for an ivector-based language recognition system | |
Archana et al. | Gender identification and performance analysis of speech signals | |
Bhukya | Effect of gender on improving speech recognition system | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
MY | An improved feature extraction method for Malay vowel recognition based on spectrum delta | |
Ardiana et al. | Gender Classification Based Speaker’s Voice using YIN Algorithm and MFCC | |
Patil et al. | Evaluating vowel pronunciation quality: Formant space matching versus ASR confidence scoring | |
Sankala et al. | Self attentive context dependent speaker embedding for speaker verification | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
Kamble et al. | Spontaneous emotion recognition for Marathi spoken words | |
Mengistu et al. | Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM | |
Beke et al. | Automatic phrase segmentation and clustering in spontaneous speech | |
Majidnezhad | A HTK-based method for detecting vocal fold pathology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190903 Termination date: 20211230 |
|
CF01 | Termination of patent right due to non-payment of annual fee |