CN105810191B - 融合韵律信息的汉语方言辨识方法 - Google Patents

融合韵律信息的汉语方言辨识方法 Download PDF

Info

Publication number
CN105810191B
CN105810191B CN201610131809.7A CN201610131809A CN105810191B CN 105810191 B CN105810191 B CN 105810191B CN 201610131809 A CN201610131809 A CN 201610131809A CN 105810191 B CN105810191 B CN 105810191B
Authority
CN
China
Prior art keywords
feature
frame
follows
model
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610131809.7A
Other languages
English (en)
Other versions
CN105810191A (zh
Inventor
夏玉果
顾明亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Vocational College of Information Technology
Original Assignee
Jiangsu Vocational College of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Vocational College of Information Technology filed Critical Jiangsu Vocational College of Information Technology
Priority to CN201610131809.7A priority Critical patent/CN105810191B/zh
Publication of CN105810191A publication Critical patent/CN105810191A/zh
Application granted granted Critical
Publication of CN105810191B publication Critical patent/CN105810191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种融合韵律信息的汉语方言辨识方法,包括:s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策。本发明融合韵律信息的模型方法增加了汉语方言间的区别性,大大提升了方言辨识的正确率。

Description

融合韵律信息的汉语方言辨识方法
技术领域
本申请属于语音信号处理领域,特别涉及一种融合韵律信息的汉语方言辨识方法,它在多语言环境下的语音识别、口语翻译、信息检索和辅助人工咨询等方面具有广阔的应用前景。
背景技术
作为语言辨识的一个重要分支,汉语方言辨识的研究还处于起步阶段,最早在中国台湾受到重视,随后新加坡也开展了此项研究,国内在这方面的研究比较少。2002年,我国台湾学者Tsai W.H.等提出了直接利用未标注语音的声学特征和韵律特征,建立高斯混合二元模型进行方言辨识的方法,取得了一定的成功。新加坡学者Lim B.P.等则提出了利用局部和全局音位配列特征的汉语方言辨识方法,对三种方言和一种外来语的辨识实验中取得了很好的识别效果。国内的顾明亮利用高斯混合模型与语言模型相结合,提出了一种基于音位配列特征的汉语方言辨识方法,在不用标注语音样本的前提下,系统取得了很好的效果。
分析以上方法不难看出,目前汉语方言辨识中区别特征的选择主要集中在声学特征、音位配列特征和韵律特征,而且在应用方式上主要集中在其中的一种或两种。另一方面,在韵律特征和其他特征的融合方式上,仅仅局限在简单的加权研究,这种方法在特征子空间增大了空间的维数,在训练同样多参数的情况下,特征效果并不会有太大改进,有时反而会引起性能下降。
发明内容
本申请所要解决的问题是克服传统方言辨识中仅仅使用单一特征和简单加权的信息融合缺陷,提出了融合韵律信息的汉语辨识方法。为实现上述目的,本发明提供如下技术方案:
本申请实施例公开了一种融合韵律信息的汉语方言辨识方法,包括:
s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;
s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策。
优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述SDC特征的计算由4个整型参数决定,即(N,d,P,k),其中N是每帧中倒谱特征的维数,d是计算差分倒谱的差分时间,P是k个倒谱块之间的转移时间,k是构成一个SDC特征的倒谱块的个数,在t帧第j个SDC特征的计算公式是Δcj,t=cj,(t+d)-cj,(t-d):cj,t在t帧的第j个MFFCC特征参数,所以在t帧时SDC的特征可表示为:
每帧SDC特征向量的维数为N×k维。
优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述基频特征中,基音频率包含在语音信号的浊音段中,浊音信号的每一帧可以写成:
其中,n=0,…,N-1,N是每一帧语音的样本点数,I是拟合的谐波数αi,ωi分别是描述第i个谐波的幅度、频率和相位,该信号x(n)的自相关为:
其中,τ=0,…,N-1,定义相邻两帧信号的自相关协方差为该帧语音的基频流特征:
其中,μt(τ)=E{Rt(τ)},d∈(N/2,N/2]是特征矢量的下标,令:
其中,δi=ωt,it+1,i,Δ={δi,i=1,…,I},通过求导得到,
假设分帧后的语音信号为相邻两帧语音信号记为:xt(n),xt+1(n),n=0,1,…N-1。
优选的,在上述的融合韵律信息的汉语方言辨识方法中,基音特征流的具体计算方法包括:
(i)利用傅里叶变换(DFT)计算各帧的功率谱密度:
Pt(k)=|DFT(xt(n))|2
其中,k=0,1,...K-1.
(ii)对所得的功率谱密度进行平滑处理:
Pt(k)=Pt(k)·W(k)
其中,窗函数为:W(k)=1+cos(2πk/K)
(iii)归一化平滑后的功率谱密度:
(iv)计算归一化能量谱的逆傅里叶变换(IDFT):
Rt(k)=DFT-1(Pt(k))
(v)则基频流特征为:
其中C是归一化常数,特征矢量下标的取值范围是:-D≤d≤D。
优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述能量包络特征中,语音信号各帧的能量参数记为:E={e1,e2,…,eN},其中,ei为:
优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述时长特征中,对能量特征矢量作差分,然后检查差分能量中变号的次数以及两次变号间隔,将变号次数及平均变号间隔作为时长特征。
优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述步骤s2中,采用模型融合的方法进行特征融合,计算每种特征在方言的高斯混合模型和语言模型下的概率分数。
优选的,在上述的融合韵律信息的汉语方言辨识方法中,在高斯混合模型下,设语音信号经特征提取后为是第t帧的语音特征矢量,T为该语音段总的帧数,则该语音段在第k个方言GMM模型下的输出概率为:
其中,M为高斯混合元数目,也是符号总数,表示第k个方言的GMM符号化模型。表示该模型第j个高斯混合分量的加权值, 分别表示该模型第j个高斯混合分量的均值和协方差矩阵,
优选的,在上述的融合韵律信息的汉语方言辨识方法中,在语言模型下,首先采用插值法对数据进行平滑处理,然后建立各种语言的二元插值语言模型,其算法如下:
设经过第k个GMM模型下得到的语音符号串为:表示第k个GMM模型下,第i帧语音的符号,i=1,2,…,T,k=1,2,…,N,N表示方言总数,T为总的语音帧数,则它在第i个方言语言模型下得到的对数似然为:
其中,
优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述步骤s2中,分类器设计中采用的是支持矢量机,最优分类函数的算法如下:
给定样本训练集X={(x1,y1),(x2,y2),…,(xn,yn)},X∈Rd,y∈Y={+1,-1},
求解最优超平面可以转化为以下最优化问题,
式中,xi表示样本特征矢量,参数w和b决定超平面位置的两个参数,使分类间隔最大,该优化问题可以转化为其对偶问题求解,
解得最优分类函数为:
对于两类非线性可分问题,可以通过引入核函数将其转化为高维空间的线性可分问题,通过引入松弛变量ξi转化成下列优化问题:
其中,C为常数,表示对错分样本的惩罚大小,表示发生错误分类的量。其对应的对偶问题为:
其中,αi为与每个样本对应的Lagrange乘子,K(xi,xj)为满足Mercer条件的核函数,最终解得的最优分类函数是:
与现有技术相比,本发明的优点在于:本发明融合韵律信息的模型方法增加了汉语方言间的区别性,大大提升了方言辨识的正确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明具体实施例中汉语方言辨识方法的原理示意图;
图2所示为本发明具体实施例中SDC特征的参数和计算的原理示意图;
图3所示为本发明具体实施例中两类线性可分情况下SVM分类示意图。
具体实施方式
汉语是一种声调语言,相同的汉字由于不同的声调而具有不同的含义,此外方言间在语调的类型、重音模型以及时长特征上具有很大的不同,也就是在韵律特征上具有很大的不同。本发明方法充分利用这一特点,在提取声学特征基础上,提取了方言的韵律特征,包括基频特征、能量包络特征和时长特征。
为了解决多信息融合问题,本发明将不同质的特征先经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策,即提出了模型融合的辨识方法。
实验结果表明融合韵律信息的模型方法增加了汉语方言间的区别性,大大提升了方言辨识的正确率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1所示,融合韵律信息的汉语方言辨识方法主要包括预处理,特征提取,特征融合以及分类器设计四个部分。
1、预处理
主要包括有声与无声判别、预加重、分段和加窗运算等。
2、特征提取
(1)声学特征
声学特征通过声学参数建模来反映每种语言中的音素特征,也就是各种语音谱特征参数,如线性预测参数LPCC、美尔倒谱系数MFCC和差分倒谱系数SDC,其中MFCC特征是语音识别中应用最多的特征,而SDC特征是在MFCC上提出的一种新的反映长时相关声学信息的特征,SDC特征也称为移位的差分谱特征,其实质是由若干块跨多帧语音的差分倒谱组成,从而使一个特征矢量内包含多帧语音的长时相关声学信息.它的计算由4个整型参数决定,即(N,d,P,k)其中N是每帧中倒谱特征的维数,d是计算差分倒谱的差分时间,P是k个倒谱块之间的转移时间,k是构成一个SDC特征的倒谱块的个数,SDC特征的参数和计算如图2所示。
在t帧第j个SDC特征的计算公式是:Δcj,t=cj,(t+d)-cj,(t-d)cj,t在t帧的第j个MFFCC特征参数,所以在t帧时SDC的特征可表示为:
由上式可以得出,每帧SDC特征向量的维数为N×k维。
(2)韵律特征
语言学上,语言的韵律特征主要表现为:节律、轻重、重音和声律等超语音现象。这些语言现象表现在物理上即为:语言的音调、时长和强度等声学特征。其中,基频特征是最重要的言语辨识特征,其次,时长和能量包络也是非常重要的特征。
I基频特征
语音信号处理理论指出,基音频率是反映声门激励周期性变化的一个重要参数,它包含在语音信号的浊音段中,由于其准周期性,该浊音信号可以用一组谐波信号的叠加来描述。即浊音信号的每一帧可以写成:
其中,n=0,…,N-1。N是每一帧语音的样本点数,I是拟合的谐波数,αi,ωi分别是描述第i个谐波的幅度、频率和相位。该信号x(n)的自相关为:
其中,τ=0,…,N-1。定义相邻两帧信号的自相关协方差为该帧语音的基频流特征:
其中,μt(τ)=E{Rt(τ)},d∈(N/2,N/2]是特征矢量的下标。令:
其中,δi=ωt,it+1,i,Δ={δi,i=1,…,I}。通过对上式求导不难得到,
假如分帧后的语音信号为相邻两帧语音信号记为:xt(n),xt+1(n),n=0,1,…N-1。基音特征流的具体计算方法可以归纳为五步:
(i)利用傅里叶变换(DFT)计算各帧的功率谱密度:
Pt(k)=|DFT(xt(n))|2 k=0,1,…K-1.
(ii)对所得的功率谱密度进行平滑处理:
Pt(k)=Pt(k)·W(k)
其中,窗函数为:W(k)=1+cos(2πk/K)
(iii)归一化平滑后的功率谱密度:
(iv)计算归一化能量谱的逆傅里叶变换(IDFT):
Rt(k)=DFT-1(Pt(k))
(v)则基频流特征为:
其中C是归一化常数,特征矢量下标的取值范围是:-D≤d≤D,由此可以构成一个(2D+1)维的特征矢量。
II能量包络特征
语音信号各帧的能量参数记为:E={e1,e2,…,eN},其中,ei可用公式(11)得到:
III时长特征
为了得到时长参数,我们对能量特征矢量作差分(由前后两帧能量相减所得),然后检查差分能量中变号的次数以及两次变号间隔,将变号次数及平均变号间隔作为时长特征。
3、特征融合
特征融合采用的是模型融合的方法。在提取方言的以上三种特征后,计算每种特征在方言的高斯混合模型和语言模型下的概率分数。
设语音信号经预处理和特征提取后为是第t帧的语音特征矢量,T为该语音段总的帧数。则该语音段在第k个方言GMM模型下的输出概率为:
其中,M为高斯混合元数目,也是符号总数。表示第k个方言的GMM符号化模型。表示该模型第j个高斯混合分量的加权值, 分别表示该模型第j个高斯混合分量的均值和协方差矩阵。
语言模型是用来描述自然语言内在规律的数学模型,通常采用的是基于统计的语言模型,也就是概率模型。其实质是借助于统计语言模型的概率参数,估计出语言中每个词出现的可能性以及词之间的搭配概率。由于语料库的大小究竟有限,有可能造成严重的数据稀疏和训练不足问题。为了解决这些问题,实验中首先采用插值法对数据进行平滑处理,然后建立各种语言的二元插值语言模型,其算法如下:
设经过第k个GMM模型下得到的语音符号串为:表示第k个GMM模型下,第i帧语音的符号,i=1,2,…,T,k=1,2,…,N,N表示方言总数,T为总的语音帧数。则它在第i个方言语言模型下得到的对数似然为:
其中,
4、分类器设计
分类器设计中采用的是支持矢量机(SVM),支持矢量机是20世纪90年代中期在统计学习理论基础上发展起来的分类方法,对解决小样本、非线性和高维模式识别问题中显示了许多独特的优势,在模式识别、数据挖掘和非线性控制等领域得到了成功的应用。
对于两类线性可分问题,它要求划分两类的决策超平面不仅能将两类样本无错误地分开,而且要使两个类别的分类间隔达到最大。图3是两类线性可分情况下SVM分类示意图。
给定样本训练集X={(x1,y1),(x2,y2),…,(xn,yn)},X∈Rd,y∈Y={+1,-1},
求解最优超平面可以转化为以下最优化问题。
式中,xi表示样本特征矢量,参数w和b决定超平面位置的两个参数。使分类间隔最大,该优化问题可以转化为其对偶问题求解。
解得最优分类函数为:
对于两类非线性可分问题,可以通过引入核函数将其转化为高维空间的线性可分问题,通过引入松弛变量ξi转化成下列优化问题:
其中,C为常数,表示对错分样本的惩罚大小。表示发生错误分类的量。其对应的对偶问题为:
其中,αi为与每个样本对应的Lagrange乘子,K(xi,xj)为满足Mercer条件的核函数,常用的三种核函数为:多项式核函数,径向基核函数和Sigmoid核函数。显然,这是一个不等式约束下的二次函数寻优问题。可以证明,它存在唯一解,且解中将只有一部分αi不为零,对应的样本就是支撑矢量。最终解得的最优分类函数是:
此外,在多类分类问题。SVM通常采用“一对其他”和“一对一”的解决办法。“一对其他”的方法中,对于类问题需要构造N个两类分类器,训练时,第i个SVM分类器用第i类中的训练样本作为正的训练样本,而将其他的样本作为负的训练样本。测试时,取所有两类分类器输出最大的那一类。“一对一”的方法中,训练时,先构造N(N-1)/2个两类SVM分类器,测试时,对上述分类器进行投票,得票最多的类别为测试样本所属的类别。本方法采用的是“一对其他”的方法。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

Claims (7)

1.一种融合韵律信息的汉语方言辨识方法,其特征在于,包括:
s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;
s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策,所述SDC特征的计算由4个整型参数决定,即(N,d,P,k),其中N是每帧中倒谱特征的维数,d是计算差分倒谱的差分时间,P是k个倒谱块之间的转移时间,k是构成一个SDC特征的倒谱块的个数,在t帧第j个SDC特征的计算公式是:Δcj,t=cj,(t+d)-cj,(t-d)cj,t在t帧的第j个MFFCC特征参数,所以在t帧时SDC的特征可表示为:
每帧SDC特征向量的维数为N×k维,所述基频特征中,基音频率包含在语音信号的浊音段中,浊音信号的每一帧写成:
其中,n=0,…,N-1,N是每一帧语音的样本点数,I是拟合的谐波数,αi,ωi分别是描述第i个谐波的幅度、频率和相位,该信号x(n)的自相关为:
其中,τ=0,…,N-1,定义相邻两帧信号的自相关协方差为该帧语音的基频流特征:
其中,μt(τ)=E{Rt(τ)},d∈(N/2,N/2]是特征矢量的下标,令:
其中,δi=ωt,it+1,i,Δ={δi,i=1,…,I},通过求导得到,
假设分帧后的语音信号为相邻两帧语音信号记为:xt(n),xt+1(n),n=0,1,…N-1。
2.根据权利要求1所述的融合韵律信息的汉语方言辨识方法,其特征在于:基音特征流的具体计算方法包括:
(i)利用傅里叶变换(DFT)计算各帧的功率谱密度:
Pt(k)=|DFT(xt(n))|2
其中,k=0,1,…, K-1
(ii)对所得的功率谱密度进行平滑处理:
Pt(k)=Pt(k)·W(k)
其中,窗函数为:W(k)=1+cos(2πk/K)
(iii)归一化平滑后的功率谱密度:
(iv)计算归一化能量谱的逆傅里叶变换(IDFT):
Rt(k)=DFT-1(Pt(k))
(v)则基频流特征为:
其中C是归一化常数,特征矢量下标的取值范围是:-D≤d≤D。
3.根据权利要求2所述的融合韵律信息的汉语方言辨识方法,其特征在于:所述能量包络特征中,语音信号各帧的能量参数记为:E={e1,e2,…,eN},其中,ei为:
4.根据权利要求1所述的融合韵律信息的汉语方言辨识方法,其特征在于:所述时长特征中,对能量特征矢量作差分,然后检查差分能量中变号的次数以及两次变号间隔,将变号次数及平均变号间隔作为时长特征。
5.根据权利要求1所述的融合韵律信息的汉语方言辨识方法,其特征在于:所述步骤s2中,采用模型融合的方法进行特征融合,计算每种特征在方言的高斯混合模型和语言模型下的概率分数,在高斯混合模型下,设语音信号经特征提取后为 是第t帧的语音特征矢量,T为该语音段总的帧数,则该语音段在第k个方言GMM模型下的输出概率为:
其中,M为高斯混合元数目,也是符号总数,表示第k个方言的GMM符号化模型,表示该模型第j个高斯混合分量的加权值,分别表示该模型第j个高斯混合分量的均值和协方差矩阵,
6.根据权利要求5所述的融合韵律信息的汉语方言辨识方法,其特征在于:在语言模型下,首先采用插值法对数据进行平滑处理,然后建立各种语言的二元插值语言模型,其算法如下:
设经过第k个GMM模型下得到的语音符号串为: 表示第k个GMM模型下,第i帧语音的符号,i=1,2,…,T,k=1,2,…,N,N表示方言总数,T为总的语音帧数,则它在第i个方言语言模型下得到的对数似然为:
其中,
7.根据权利要求1所述的融合韵律信息的汉语方言辨识方法,其特征在于:所述步骤s2中,分类器设计中采用的是支持矢量机,最优分类函数的算法如下:
给定样本训练集X={(x1,y1),(x2,y2),…,(xn,yn)},X∈Rd,y∈Y={+1,-1},
求解最优超平面转化为以下最优化问题,
式中,xi表示样本特征矢量,参数w和b决定超平面位置的两个参数,使分类间隔最大,该优化问题转化为其对偶问题求解,
解得最优分类函数为:
对于两类非线性可分问题,通过引入核函数将其转化为高维空间的线性可分问题,通过引入松弛变量ξi转化成下列优化问题:
其中,C为常数,表示对错分样本的惩罚大小,表示发生错误分类的量,其对应的对偶问题为:
其中,αi为与每个样本对应的Lagrange乘子,K(xi,xj)为满足Mercer条件的核函数,最终解得的最优分类函数是:
CN201610131809.7A 2016-03-08 2016-03-08 融合韵律信息的汉语方言辨识方法 Active CN105810191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610131809.7A CN105810191B (zh) 2016-03-08 2016-03-08 融合韵律信息的汉语方言辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610131809.7A CN105810191B (zh) 2016-03-08 2016-03-08 融合韵律信息的汉语方言辨识方法

Publications (2)

Publication Number Publication Date
CN105810191A CN105810191A (zh) 2016-07-27
CN105810191B true CN105810191B (zh) 2019-11-29

Family

ID=56466946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610131809.7A Active CN105810191B (zh) 2016-03-08 2016-03-08 融合韵律信息的汉语方言辨识方法

Country Status (1)

Country Link
CN (1) CN105810191B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877769B (zh) * 2018-06-25 2020-12-01 北京语言大学 识别方言种类的方法和装置
CN111210805A (zh) * 2018-11-05 2020-05-29 北京嘀嘀无限科技发展有限公司 一种语种鉴别模型训练方法、装置及语种鉴别方法和装置
CN111261141A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种语音识别方法以及语音识别装置
CN109714608B (zh) * 2018-12-18 2023-03-10 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质
CN109686362B (zh) * 2019-01-02 2021-04-02 百度在线网络技术(北京)有限公司 语音播报方法、装置和计算机可读存储介质
CN109887484B (zh) * 2019-02-22 2023-08-04 平安科技(深圳)有限公司 一种基于对偶学习的语音识别与语音合成方法及装置
CN110148425A (zh) * 2019-05-14 2019-08-20 杭州电子科技大学 一种基于完整局部二进制模式的伪装语音检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938252A (zh) * 2012-11-23 2013-02-20 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别系统及方法
CN103337241A (zh) * 2013-06-09 2013-10-02 北京云知声信息技术有限公司 一种语音识别方法和装置
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
JP2015128491A (ja) * 2014-01-07 2015-07-16 三菱電機株式会社 テレビジョン受信機
EP2949536A1 (en) * 2014-05-30 2015-12-02 Honda Research Institute Europe GmbH Method for controlling a driver assistance system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938252A (zh) * 2012-11-23 2013-02-20 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别系统及方法
CN103337241A (zh) * 2013-06-09 2013-10-02 北京云知声信息技术有限公司 一种语音识别方法和装置
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
JP2015128491A (ja) * 2014-01-07 2015-07-16 三菱電機株式会社 テレビジョン受信機
EP2949536A1 (en) * 2014-05-30 2015-12-02 Honda Research Institute Europe GmbH Method for controlling a driver assistance system
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于发音特征的汉语省调建模方法及其在汉语语音识别中的应用";晁浩;《计算机应用》;20131001;正文全文 *
语种识别声学建模方法研究;徐颖;《中国优秀硕士论文全文数据库(电子期刊)·信息科技辑》;20110915;正文第12页 *

Also Published As

Publication number Publication date
CN105810191A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105810191B (zh) 融合韵律信息的汉语方言辨识方法
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
Zhang et al. Deep belief networks based voice activity detection
CN106227721B (zh) 汉语韵律层级结构预测系统
CN107731233B (zh) 一种基于rnn的声纹识别方法
CN107610707A (zh) 一种声纹识别方法及装置
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN108847244A (zh) 基于mfcc和改进bp神经网络的声纹识别方法及系统
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Ke et al. Speech emotion recognition based on SVM and ANN
CN107180084A (zh) 词库更新方法及装置
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN107507619A (zh) 语音转换方法、装置、电子设备及可读存储介质
Shen et al. A deep learning method for Chinese singer identification
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN106448660A (zh) 一种引入大数据分析的自然语言模糊边界确定方法
Koolagudi et al. Dravidian language classification from speech signal using spectral and prosodic features
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
CN103871413A (zh) 基于svm和hmm混合模型的男女说话声音分类方法
CN105632485A (zh) 一种基于语种识别系统的语言距离关系的获取方法
Zhang et al. Chinese dialect tone’s recognition using gated spiking neural P systems
Agarwal et al. Lidsnet: A lightweight on-device intent detection model using deep siamese network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant