CN107146615A - 基于匹配模型二次识别的语音识别方法及系统 - Google Patents
基于匹配模型二次识别的语音识别方法及系统 Download PDFInfo
- Publication number
- CN107146615A CN107146615A CN201710342320.9A CN201710342320A CN107146615A CN 107146615 A CN107146615 A CN 107146615A CN 201710342320 A CN201710342320 A CN 201710342320A CN 107146615 A CN107146615 A CN 107146615A
- Authority
- CN
- China
- Prior art keywords
- mrow
- user
- msub
- voice
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本发明公开一种基于匹配模型二次识别的语音识别方法及系统;方法包括如下步骤:(10)语音处理:对用户输入的语音进行预处理及特征提取;(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。本发明的基于匹配模型二次识别的语音识别方法及系统,识别准确度高、用户体验好。
Description
技术领域
本发明属于人机语音交互技术领域,特别是一种识别准确度高、用户体验好的基于匹配模型二次识别的语音识别方法及实现该方法的系统。
背景技术
语音识别是理想的人机交互中介工具,是推动机器向更智能化发展的重要技术。能听懂人讲话,可以进行思考和理解人的意图,并最终对人作出语音或者行动上的响应的智能化机器一直是人工智能的终极目标之一。
在大数据的背景下,机器学习逐渐渗透到智能家居、车载语音、身份识别等领域。基于大数据的深度学习研究方法对语音识别系统性能的提升有重要意义。早在几年前就有国外学者提出了关于将深度学习研究方法运用在语音识别上(Geoffrey Hinton,Li Deng,Dong Yu.Deep neural networks for acoustic modeling in speech recognition)。
但是通过调整模型结构以及参数来提升语音识别系统准确率的方法,在实际用户语音噪声背景不匹配时会导致语音识别准确率急剧下降,严重影响人机交互体验。
发明内容
本发明的目的在于提供一种基于匹配模型二次识别的语音识别方法,识别准确度高、用户体验好。
本发明的另一目的在于提供一种基于匹配模型二次识别的语音识别系统,识别准确度高、用户体验好。
实现本发明目的的技术解决方案为:
一种基于匹配模型二次识别的语音识别方法,包括如下步骤:
(10)语音处理:对用户输入的语音进行预处理及特征提取;
(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。。
实现本发明另一目的的技术解决方案为:
一种基于匹配模型二次识别的语音识别系统,包括:
语音处理单元(1),用于对用户输入的语音进行预处理及特征提取;
语音识别单元(2),用于识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
用户评价(3),用于接收用户对第一次识别结果的反馈信息;
匹配模型识别单元(4),用于根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
本发明与现有技术相比,其显著优点为:
1、识别准确度高:本发明的方法基于机器学习,利用针对不同用户的输入语音情况在对应的训练集上建立与之匹配的声学模型,很好的保证了识别系统的准确率;
2、用户体验好:本发明的方法重复利用了用户输入语音,避免了一旦识别出错只能二次输入的情况,极大的提升了用户体验。
下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
图1为本发明基于匹配模型二次识别的语音识别方法的主流程图。
图2是图1中识别解析用户的语音信息步骤的原理框图。
图3是图1中用户性别提取步骤的原理框图。
图4是图1中环境噪声提取步骤的流程图。
具体实施方式
如图1所示,本发明基于匹配模型二次识别的语音识别方法,包括如下步骤:
(10)语音处理:对用户输入的语音进行预处理及特征提取;
现有技术中,常见的语音识别模型建模过程包括以下步骤:
(1)获取足量已经标注好的训练数据,提取每个训练样本的梅尔域倒谱系数(MFCC)作为声学特征;整理训练数据的标注信息提取文本特征矢量
(2)将训练样本的声学特征向量输入到由受限玻尔兹曼机器(RBM)堆叠构成的深度神经网络(DNN)中,采用GMM-HMM基线系统经强制对齐得到神经网络的输出层。将训练样本的网络输出结果与实际标注信息进行对照得到输出层的误差信号,利用误差反向传播(BP)算法来调整网络参数。反复训练,调整参数得到最终的声学模型。
(3)根据样本文本特征矢量,分析得到统计意义上的语言环境中的词序列概率。用三音素的N-gram分析方法训练语言模型,得到样本空间的语言模型。
(4)运用维特比解码算法,把由训练样本空间抽取得到的发音词典,语音模型以及声学模型连成一个网络,通过搜索网络中的最优路径完成待解析的用户输入语音的解码。
(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
如图2所示,所述(20)语音识别步骤中,识别解析用户的语音信息步骤包括:
(211)提取用户输入语音的梅尔域倒谱系数(MFCC)作为声学特征;
(212)将输入语音的特征向量输入到已经在训练样本集上训练完成的声学模型中,解码得到输入语音的音素成分。
(213)用户输入语音的音素组成信息被输入到解码器中,解码器综合训练集的发音词典以及语言模型,给用户输入语音一个最优词序列作为最终的识别解析结果。
如图3所示,所述(20)语音识别步骤中,用户性别提取步骤包括:
(221)模型训练:采用最大似然准则在足量的数据样本上训练高斯混合模型;
(222)语音特征提取:提取用户输入语音的语音特征,其总体变量空间在UBM上的超级矢量M表示如下,
M=m+Tx+e
其中,M是特定输入语句的超级矢量,m是样本数据的均值超级矢量,x是符合正态分布的低维随机矢量,T是描述总体变化的矩阵,e是由噪声或其他非相关因素产生的残差,GMM为高斯混合模型,UBM为统一背景模型;
在已知UBM-GMM模型的参数为Ω时,i-vector可以由上式得到,从而解决如下问题:
(223)根据样本数据的Baum-Welch统计量γk(i)和Γy,k(i),公式如下:
可以得到i-vector的提取公式:
(224)特征向量估计:根据i-vector的提取公式,可以利用EM算法来估计实际特征向量。
(225)用户性别分析:将提取得到的用户i-vector特征用线性投影分析(LDA)方法投影在由500名男性500名女性构成的散布平面上,由此分析出用户性别。
所述(224)特征向量估计步骤包括:
(2241)初始化:在训练样本中随机地选取T,设定T中每个成分的初始值,对于每个训练的语音片段计算其相应的Baum-Welch统计量。
(2242)设定E值:对于每个训练的语音片段用充足的数据和当前对T的估计,计算ω(i)的期望值,计算的方法如下:
E[ω(i)]=I-1(i)TTR0 -1Γy(i)
E[ω(i)ωT(i)]=E[ω(i)]E[ωT(i)]+I-1(i)
(2243)设定M值:采用一个方程更新总体变化矩阵T:
(2244)重复或者中止:反复步骤(2242)、(2243),直到迭代次数的固定值或者直到目标函数收敛。
如图4所示,所述(20)语音识别步骤中,环境噪声提取步骤包括:
(231)功率谱密度平滑:计算用户输入语音的功率谱密度,并进行递归平滑,所用公式如下:
Y(n,k)=X(n,k)+D(n,k);
|Y(n,k)|2=|X(n,k)|2+|D(n,k)|2;
P(n,k)=αP(n-1,k)+(1-α)|Y(n,k)|2;
上式中,X(n,k)、D(n,k)、Y(n,k)分别表示用户输入语音y(t)中纯净语音x(t)和不相关加性噪声d(t)的短时傅里叶变换形式;|Y(n,k)|2、|X(n,k)|2、|D(n,k)|2分别表示输入语音、纯净语音和噪声的功率谱。P(n,k)是对输入语音功率谱密度进过平滑得到的结果,α是平滑因子。
(232)噪声功率谱获取:搜索输入语音的功率谱密度在一定时间窗内的最小值,乘以一个偏差修正量即可得到噪声功率谱,公式如下:
Smin(n,k)=min{P(n,k)|n-D+1≤n≤n};
上式中,D是最小值搜索窗口长度,β是偏差补偿因子,就是所估计的噪声功率了。
(233)噪声情况判断:利用公式估计输入信号的信噪比,并与预设的经验阈值进行比较,由此判断用户输入语音的噪声情况,即可认为输入语音信噪比高,属于无噪的情况;即是信噪比差,噪声影响严重。
(30)用户评价:
接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
所述(40)匹配模型识别步骤具体为:
接收用户的二次识别请求信号,根据第一次识别得到的性别和噪声情况信息,以用户特征信号作为输入,匹配到预先准备的语音识别模型中,重新按照第一次识别的过程进行二次识别和解析,返回文本结果给用户。
本发明基于匹配模型二次识别的语音识别系统,包括:
语音处理单元(1),用于对用户输入的语音进行预处理及特征提取;
语音识别单元(2),用于识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
用户评价(3),用于接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
匹配模型识别单元(4),用于根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
根据用户性别和环境噪声情况,匹配一个最优的语音识别模型:匹配模型由4种根据性别(男,女)以及噪声情况(信噪比好,信噪比差)分别独立训练而成的语音识别模型组成,其建模方法跟通用识别模型一致,建模数据不再基于男女混合的有噪无噪均匀分布的训练集,而是分别基于高信噪比的男性语音、高信噪比的女性语音、低信噪比的男性语音、低信噪比的女性语音。以用户原始语音特征作输入,重新识别并输出解析结果。
Claims (7)
1.一种基于匹配模型二次识别的语音识别方法,其特征在于,包括如下步骤:
(10)语音处理:对用户输入的语音进行预处理及特征提取;
(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,识别解析用户的语音信息步骤包括:
(211)提取用户输入语音的梅尔域倒谱系数作为声学特征;
(212)将输入语音的特征向量输入到已经在训练样本集上训练完成的声学模型中,解码得到输入语音的音素成分。
(213)用户输入语音的音素组成信息被输入到解码器中,解码器综合训练集的发音词典以及语言模型,给用户输入语音一个最优词序列作为最终的识别解析结果。
3.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,用户性别提取步骤包括:
(221)模型训练:采用最大似然准则在足量的数据样本上训练高斯混合模型;
(222)语音特征提取:提取用户输入语音的语音特征,其总体变量空间在UBM上的超级矢量M表示如下,
M=m+Tx+e
其中,M是特定输入语句的超级矢量,m是样本数据的均值超级矢量,x是符合正态分布的低维随机矢量,T是描述总体变化的矩阵,e是由噪声或其他非相关因素产生的残差,GMM为高斯混合模型,UBM为统一背景模型;
在已知UBM-GMM模型的参数为Ω时,i-vector可以由上式得到,从而解决如下问题:
(223)根据样本数据的Baum-Welch统计量γk(i)和Γy,k(i),公式如下:
<mrow>
<msub>
<mi>&gamma;</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>|</mo>
<msup>
<msub>
<mi>y</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>&Omega;</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&Gamma;</mi>
<mrow>
<mi>y</mi>
<mo>,</mo>
<mi>k</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>T</mi>
<mi>i</mi>
</msub>
</munderover>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>|</mo>
<msup>
<msub>
<mi>y</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>&Omega;</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<msub>
<mi>m</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
可以得到i-vector的提取公式:
(224)特征向量估计:根据i-vector的提取公式,可以利用EM算法来估计实际特征向量。
(225)用户性别分析:将提取得到的用户i-vector特征用线性投影分析(LDA)方法投影在由500名男性500名女性构成的散布平面上,由此分析出用户性别。
4.根据权利要求3所述的语音识别方法,其特征在于,所述(224)特征向量估计步骤包括:
(2241)初始化:在训练样本中随机地选取T,设定T中每个成分的初始值,对于每个训练的语音片段计算其相应的Baum-Welch统计量。
(2242)设定E值:对于每个训练的语音片段用充足的数据和当前对T的估计,计算ω(i)的期望值,计算的方法如下:
E[ω(i)]=I-1(i)TTR0 -1Γy(i)
E[ω(i)ωT(i)]=E[ω(i)]E[ωT(i)]+I-1(i)
(2243)设定M值:采用一个方程更新总体变化矩阵T:
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>I</mi>
</munderover>
<mi>&Gamma;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
<mi>E</mi>
<mo>&lsqb;</mo>
<mi>&omega;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<msup>
<mi>&omega;</mi>
<mi>T</mi>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>I</mi>
</munderover>
<msub>
<mi>&Gamma;</mi>
<mi>y</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mi>E</mi>
<mo>&lsqb;</mo>
<msup>
<mi>&omega;</mi>
<mi>T</mi>
</msup>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
(2244)重复或者中止:反复步骤(2242)、(2243),直到迭代次数的固定值或者直到目标函数收敛。
5.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,环境噪声提取步骤包括:
(231)功率谱密度平滑:计算用户输入语音的功率谱密度,并进行递归平滑,所用公式如下:
Y(n,k)=X(n,k)+D(n,k);
|Y(n,k)|2=|X(n,k)|2+|D(n,k)|2;
P(n,k)=αP(n-1,k)+(1-α)|Y(n,k)|2;
上式中,X(n,k)、D(n,k)、Y(n,k)分别表示用户输入语音y(t)中纯净语音x(t)和不相关加性噪声d(t)的短时傅里叶变换形式;|Y(n,k)|2、|X(n,k)|2、|D(n,k)|2分别表示输入语音、纯净语音和噪声的功率谱;P(n,k)是对输入语音功率谱密度进过平滑得到的结果,α是平滑因子;
(232)噪声功率谱获取:搜索输入语音的功率谱密度在一定时间窗内的最小值,乘以一个偏差修正量即可得到噪声功率谱,公式如下:
Smin(n,k)=min{P(n,k)|n-D+1≤n≤n};
<mrow>
<msubsup>
<mi>&lambda;</mi>
<mi>D</mi>
<mrow>
<mi>M</mi>
<mi>S</mi>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&beta;S</mi>
<mi>min</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>,</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
上式中,D是最小值搜索窗口长度,β是偏差补偿因子,即是所估计的噪声功率。
(233)噪声情况判断:利用公式估计输入信号的信噪比,并与预设的经验阈值进行比较,由此判断用户输入语音的噪声情况,即可认为输入语音信噪比高,属于无噪的情况;即是信噪比差,噪声影响严重。
6.根据权利要求1所述的语音识别方法,其特征在于,所述(40)匹配模型识别步骤具体为:
在二次识别请求下,根据第一次识别得到的性别和噪声情况信息,以用户特征信号作为输入,匹配到预先准备的语音识别模型中,重新按照第一次识别的过程进行二次识别和解析,返回文本结果给用户。
7.一种基于匹配模型二次识别的语音识别系统,其特征在于,包括:
语音处理单元(1),用于对用户输入的语音进行预处理及特征提取;
语音识别单元(2),用于识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
用户评价(3),用于接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
匹配模型识别单元(4),用于在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710342320.9A CN107146615A (zh) | 2017-05-16 | 2017-05-16 | 基于匹配模型二次识别的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710342320.9A CN107146615A (zh) | 2017-05-16 | 2017-05-16 | 基于匹配模型二次识别的语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107146615A true CN107146615A (zh) | 2017-09-08 |
Family
ID=59777764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710342320.9A Pending CN107146615A (zh) | 2017-05-16 | 2017-05-16 | 基于匹配模型二次识别的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107146615A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610706A (zh) * | 2017-09-13 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 语音搜索结果的处理方法和处理装置 |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
CN108175426A (zh) * | 2017-12-11 | 2018-06-19 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
CN108269566A (zh) * | 2018-01-17 | 2018-07-10 | 南京理工大学 | 一种基于多尺度子带能量集特征的膛口波识别方法 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN109903750A (zh) * | 2019-02-21 | 2019-06-18 | 科大讯飞股份有限公司 | 一种语音识别方法及装置 |
CN110503943A (zh) * | 2018-05-17 | 2019-11-26 | 蔚来汽车有限公司 | 一种语音交互方法以及语音交互系统 |
CN110660201A (zh) * | 2019-09-23 | 2020-01-07 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN111128141A (zh) * | 2019-12-31 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 音频识别解码方法和装置 |
CN111192573A (zh) * | 2018-10-29 | 2020-05-22 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN112908301A (zh) * | 2021-01-27 | 2021-06-04 | 科大讯飞(上海)科技有限公司 | 一种语音识别方法、装置、存储介质及设备 |
WO2021109856A1 (zh) * | 2019-12-04 | 2021-06-10 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
CN113345428A (zh) * | 2021-06-04 | 2021-09-03 | 北京华捷艾米科技有限公司 | 语音识别模型的匹配方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1905007A (zh) * | 2005-07-27 | 2007-01-31 | 日本电气株式会社 | 语音识别系统和方法 |
CN102549654A (zh) * | 2009-10-21 | 2012-07-04 | 独立行政法人情报通信研究机构 | 语音翻译系统、控制装置以及控制方法 |
CN103578471A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
CN104485103A (zh) * | 2014-11-21 | 2015-04-01 | 东南大学 | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 |
CN105872792A (zh) * | 2016-03-25 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于语音的服务推荐方法及装置 |
CN105957516A (zh) * | 2016-06-16 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106548773A (zh) * | 2016-11-04 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的儿童用户搜索方法及装置 |
-
2017
- 2017-05-16 CN CN201710342320.9A patent/CN107146615A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1905007A (zh) * | 2005-07-27 | 2007-01-31 | 日本电气株式会社 | 语音识别系统和方法 |
CN102549654A (zh) * | 2009-10-21 | 2012-07-04 | 独立行政法人情报通信研究机构 | 语音翻译系统、控制装置以及控制方法 |
CN103578471A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
CN104485103A (zh) * | 2014-11-21 | 2015-04-01 | 东南大学 | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 |
CN105872792A (zh) * | 2016-03-25 | 2016-08-17 | 乐视控股(北京)有限公司 | 基于语音的服务推荐方法及装置 |
CN105957516A (zh) * | 2016-06-16 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106548773A (zh) * | 2016-11-04 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的儿童用户搜索方法及装置 |
Non-Patent Citations (4)
Title |
---|
张琨磊: ""基于语音增强的基频提取算法在语音识别上的应用研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
张芙蓉: ""基于听觉掩蔽的语音增强算法及DSP实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李亚琦: ""语音识别中基于i-vector的说话人归一化研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王欢良: ""基于HMM/SVM两级结构的汉语易混淆语音识别"", 《模式识别与人工智能》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610706A (zh) * | 2017-09-13 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 语音搜索结果的处理方法和处理装置 |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
CN108175426A (zh) * | 2017-12-11 | 2018-06-19 | 东南大学 | 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 |
CN108269566A (zh) * | 2018-01-17 | 2018-07-10 | 南京理工大学 | 一种基于多尺度子带能量集特征的膛口波识别方法 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN109545227B (zh) * | 2018-04-28 | 2023-05-09 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN110503943A (zh) * | 2018-05-17 | 2019-11-26 | 蔚来汽车有限公司 | 一种语音交互方法以及语音交互系统 |
CN110503943B (zh) * | 2018-05-17 | 2023-09-19 | 蔚来(安徽)控股有限公司 | 一种语音交互方法以及语音交互系统 |
CN111192573A (zh) * | 2018-10-29 | 2020-05-22 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN111192573B (zh) * | 2018-10-29 | 2023-08-18 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN109903750B (zh) * | 2019-02-21 | 2022-01-04 | 科大讯飞股份有限公司 | 一种语音识别方法及装置 |
CN109903750A (zh) * | 2019-02-21 | 2019-06-18 | 科大讯飞股份有限公司 | 一种语音识别方法及装置 |
CN110660201A (zh) * | 2019-09-23 | 2020-01-07 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
WO2021109856A1 (zh) * | 2019-12-04 | 2021-06-10 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
CN111128141A (zh) * | 2019-12-31 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 音频识别解码方法和装置 |
CN111128141B (zh) * | 2019-12-31 | 2022-04-19 | 思必驰科技股份有限公司 | 音频识别解码方法和装置 |
CN112908301A (zh) * | 2021-01-27 | 2021-06-04 | 科大讯飞(上海)科技有限公司 | 一种语音识别方法、装置、存储介质及设备 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
CN113345428A (zh) * | 2021-06-04 | 2021-09-03 | 北京华捷艾米科技有限公司 | 语音识别模型的匹配方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107146615A (zh) | 基于匹配模型二次识别的语音识别方法及系统 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN108806667B (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和系统 | |
US20190266998A1 (en) | Speech recognition method and device, computer device and storage medium | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN105702250B (zh) | 语音识别方法和装置 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN101702314B (zh) | 基于语种对的鉴别式语种识别模型建立方法 | |
CN108962247B (zh) | 基于渐进式神经网络多维语音信息识别系统及其方法 | |
CN108109613A (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN109271497B (zh) | 一种基于词向量的事件驱动服务匹配方法 | |
CN109754790A (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与系统 | |
CN109192200A (zh) | 一种语音识别方法 | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
US8645135B2 (en) | Method for creating a speech model | |
Poorjam et al. | Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170908 |
|
WD01 | Invention patent application deemed withdrawn after publication |