CN103236260B - 语音识别系统 - Google Patents

语音识别系统 Download PDF

Info

Publication number
CN103236260B
CN103236260B CN201310109044.3A CN201310109044A CN103236260B CN 103236260 B CN103236260 B CN 103236260B CN 201310109044 A CN201310109044 A CN 201310109044A CN 103236260 B CN103236260 B CN 103236260B
Authority
CN
China
Prior art keywords
identified
voice signal
speech
voice
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310109044.3A
Other languages
English (en)
Other versions
CN103236260A (zh
Inventor
王健铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Beijing BOE Display Technology Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Beijing BOE Display Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd, Beijing BOE Display Technology Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201310109044.3A priority Critical patent/CN103236260B/zh
Priority to PCT/CN2013/074831 priority patent/WO2014153800A1/zh
Priority to US14/366,482 priority patent/US20150340027A1/en
Publication of CN103236260A publication Critical patent/CN103236260A/zh
Application granted granted Critical
Publication of CN103236260B publication Critical patent/CN103236260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。

Description

语音识别系统
技术领域
本发明涉及语音检测技术领域,尤其是指一种语音识别系统。
背景技术
目前,在电信、服务业和工业生产线的电子产品开发中,许多产品上使用了语音识别技术,并创造出一批新颖的语音产品,如语音记事本、声控玩具、语音摇控器及家用服务器等,从而极大地减轻了劳动强度、提高了工作效率,并日益改变着人们的日常生活。因此,目前语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。
语音识别包含说话人识别和说话人语义识别两种,前者利用的是语音信号中说话人的个性特征,不考虑包含在语音中的字词的含义,强调的是说话人的个性;而后者的目的是识别出语音信号中的语义内容,并不考虑说话人的个性,强调的是语音的共性。
然而现有技术识别说话人的技术可靠性不高,因此使得采用说话人检测的语音产品不能被广泛应用。
发明内容
根据以上,本发明技术方案的目的是提供一种语音识别系统,以提高说话人检测的可靠性,使语音产品能够被广泛应用。
本发明提供一种语音识别系统,包括:
存储单元,用于存储至少一个用户的语音模型;
语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;
特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;
模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。
优选地,上述所述的语音识别系统,在采集所述待识别语音信号后,所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样,之后对所述待识别语音信号进行格式转换及编码,使所述待识别语音信号被分割为由多帧组合而成的短时信号。
优选地,上述所述的语音识别系统,所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
优选地,上述所述的语音识别系统,还包括:
端点检测单元,用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点,去除所述待识别语音信号中的静音信号,获得所述待识别语音信号中语音的时域范围;以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析,根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。
优选地,上述所述的语音识别系统,所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征,获得所述语音特征参数。
优选地,上述所述的语音识别系统,所述语音识别系统还包括:语音建模单元,用于利用所述语音特征参数,采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
优选地,上述所述的语音识别系统,所述模式匹配单元利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,计算所述待识别语音信号与每一个所述语音模型的似然度。
优选地,上述所述的语音识别系统,采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户的方式具体采用以下公式:
其中:θi表示存储单元所存储的第i个人语音的模型参数,χ为待识别语音信号的特征参数;P(χ)、P(θi)分别为θi、χ的先验概率;P(χ/θi)为所述待识别语音信号的特征参数相对于第i个说话人得似然估计。
优选地,上述所述的语音识别系统,利用高斯混合模型,所述待识别语音信号的特征参数由一组参数唯一确定,其中wiCi分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。
优选地,上述所述的语音识别系统,还包括判决单元,用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对,确定所述待识别语音信号所属的用户。
本发明具体实施例上述技术方案中的至少一个具有以下有益效果:
从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
附图说明
图1表示本发明具体实施例所述语音识别系统的结构示意图;
图2表示采用本发明所述语音识别系统,在语音采集及预处理阶段的处理过程示意图;
图3表示本发明具体实施例所述语音识别系统进行语音识别的原理示意图;
图4表示采用MEL滤波器的语音输出频率示意图。
具体实施方式
为使本发明实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
图1为本发明具体实施例所述语音识别系统的结构示意图。如图1所示,所述语音识别系统包括:
存储单元10,用于存储至少一个用户的语音模型;
语音采集及预处理单元20,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;
特征提取单元30,用于从编码后的所述待识别语音信号中提取语音特征参数;
模式匹配单元40,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户。
具体地,如图2所示,在采集所述待识别语音信号后,所述语音采集及预处理单元20用于依次对所述待识别信号进行放大、增益控制、滤波及采样,之后对所述待识别信号进行格式转换及编码,使所述待识别语音信号被分割为由多帧组合而成的短时信号;以及还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
在说话人识别技术中,语音采集实际上是语音信号的数字化过程,通过放大及增益控制、反混叠滤波、采样、A/D(模拟/数字)变换及编码(一般为PCM(脉冲编码调制)码)过程,对待识别语音信号进行滤波和放大,并将滤波和放大后的模拟语音信号转变为数字语音信号。
在上述过程中,通过进行滤波处理,达到抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰的目的,同时达到抑制50Hz的电源工频干扰的目的。
此外,如图2所示,所述语音采集及预处理单元20还用于对编码后的所述待识别语音信号进行数字化的反过程处理,以从数字化语音中重构语音波形,也即进行D/A(数字/模拟)变换。此外,还需要在D/A变换之后进行平滑滤波,对重构的语音波形的高次谐波进行平滑处理,以去除高次谐波失真。
通过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。
此外,所述语音采集及预处理单元20还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
其中,预处理一般包括预加重、加窗和分帧等,由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频),20dB/dec(10倍频),通常是频率越高幅值越小,在语音信号的功率降低二分之一时,其功率谱的幅度就会有半个量级的下降。因此,在对语音信号进行分析之前,一般要对语音信号加以一定的提升。
在语音信号处理中常用的窗函数是矩形窗和汉明窗等,用于对采样的语音信号进行加窗分割成一帧一帧的短时语音序列,表达式分别如下:(其中N为帧长):
矩形窗:
汉明窗:
此外,参阅图1所示,所述语音识别系统还包括:端点检测单元50,用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点,去除所述待识别语音信号中的静音信号,获得所述待识别语音信号中语音的时域范围;以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析,根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号。
所述语音识别系统通过端点检测单元50,从包含语音的一段待识别语音信号中确定出语音的起点以及终点,其作用是使处理的时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。
本发明所述语音识别系统,基于相关性的语音端点检测算法:语音信号具有相关性,而背景噪声则无相关性。因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。
所述特征提取单元30从所述待识别语音信号中进行语音特征参数提取,包括线性预测参数及其派生参数(LPCC)、语音频谱直接导出的参数、混合参数及Mel频率倒谱系数(MFCC)等。
对于线性预测参数及其派生参数:
通过对线性预测参数进行正交变换得到的参量,其中阶数较高的几个方差较小,这说明它们实质上与语句的内容相关性小,而反映了说话人的信息。另外,由于这些参数是对整个语句平均得到的,所以不需要进行时间上的归一化,因此可用于与文本无关的说话人识别。
对于语音频谱直接导出的参数:
语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差别。而短时谱随时间变化,又在一定程度上反映了说话人的发音习惯,因此,由语音短时谱中导出的参数可以有效地用于说话人识别中。已经使用的参数包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。
对于混合参数
为了提高系统的识别率,部分原因也许是因为对究竟哪些参量是关键把握不够,相当多的系统采用了混合参量构成的矢量。如将“动态”参量(对数面积比与基频随时间的变化)与“统计”分量(由长时间平均谱导出)相结合,还有将逆滤波器谱与带通滤波器谱结合,或者将线性预测参数与基音轮廓结合等参量组合方法。如果组成矢量得各个参量之间的相关性不大,则效果会很好,因为该些参量分别反映了语音信号中不同的特征。
对于其他鲁棒性参数:
包括Mel频率倒谱系数,以及经过噪声谱减或者信道谱减的去噪倒谱系数。
其中,MFCC参数具有如下优点(与LPCC参数相比):
语音信息大多集中在低频部分,而高频部分易受环境噪音干扰;MFCC参数将线性频标转化为Mel频标,强调语音的低频信息,从而除了具有LPCC的优点之外,还突出了有利于识别的信息,屏蔽了噪音的干扰。LPCC参数是基于线性频标的,所以没有这样的特点;
MFCC参数没有任何前提假设,在各种情况下都可使用。而LPCC参数假设所处理的信号是AR信号,对于动态特性较强的辅音,该假设并不严格成立,所以MFCC参数在说话人识别中优于LPCC参数;
MFCC参数提取过程中需要FFT变换,可以以此获得语音信号频域上的所有信息。
图4表示采用MEL滤波器的语音输出频率示意图,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用式:Mel(f)=2595lg(1+f/700),这里,实际频率f的单位是Hz。临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长。类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。
三角滤波器的输出则为: Y i = Σ k = F i - 1 F i k - F i - 1 F i - F i - 1 X k + Σ k = F i + 1 F i + 1 F i + 1 - k F i + 1 - F i X k , i = 1,2 , · · · , P
其中Yi为第i个滤波器的输出。
用离散余弦变换(DCT)将滤波器输出变换到倒谱域:
C k = Σ j = 1 24 log ( Y i ) cos [ k ( j - 1 2 ) π 24 ] , k = 1,2 , . . . , P
其中P为MFCC参数的阶数,实际软件算法中选取P=12,{Ck}k=1,2,...,12即为所求的MFCC参数。
本发明具体实施例所述语音识别系统进行语音识别的原理如图3所示,利用特征提取单元30,通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征,获得所述语音特征参数。
此外,所述语音识别系统还包括:语音建模单元60,用于利用所述语音特征参数,采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
所述模式匹配单元40利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,使判决单元70根据匹配结果确定所述待识别语音信号所属的用户。这样通过将提取出的语音特征参数与存储单元10中所保存的语音模型相比对,得出识别结果。
具体采用高斯混合模型进行语音建模和模式匹配的方式可以为如下:
在采取高斯混合模型的说话人集合中,任一说话人的模型形式都是一致的,其个性特征由一组参数,唯一确定。其中wiCi分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。因此,说话人的训练是从已知说话人的语音中得到这样的一组参数λ,使得其产生训练语音得概率密度最大。而说活人识别就是依靠最大概率原则选出识别语音概率最大得那一组参数代表得说话人,即参阅公式(1):
λ=argλmaxP(X|λ)     (1)
其中P(X/λ)表示长度为T的训练序列(T个特征参数)X={X1,X2,…,XT}关于GMM模型的似然度:
具体地: P ( X / λ ) = Π t = 1 T P ( X t / λ ) - - - ( 2 )
下面是MAP算法过程:
说话人识别系统中,设χ为训练样本,θi是第i个说话人得模型参数,则根据最大后验概率原则及公式1,由MAP训练方法准则所确定的语音声学模型为如下公式(3):
上式公式(3)中:P(χ)、P(θi)分别为θi、χ的先验概率;P(χ/θi)为该待识别语音信号的特征参数相对于第i个说话人得似然估计。
对于上述公式2中的GMM的似然度计算,由于上式2是参数λ的非线性函数,很难直接求出上式的最大值。因此,常常采用EM(ExpectationMaximization,简称为EM)算法估计参数λ。EM算法的计算是从参数λ的一个初值开始,采用EM算法估计出一个新的参数使得新的模型参数下的似然度新的模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面的重估公式保证了模型似然度的单调递增。
(1)混合权值的重估公式:
ω i = 1 T Σ t = 1 T P ( i / X t , λ )
(2)均值的重估公式:
μ i = Σ t = 1 T P ( i / X t , λ ) X t Σ t = 1 T P ( i / X t , λ )
(3)方差的重估公式:
σ i 2 = Σ t = 1 T P ( i / X t , λ ) ( X t - μ i ) 2 Σ t = 1 T P ( i / X t , λ )
其中,分量i的后验概率为:
P ( i / X t , λ ) = ω i b i ( X t ) Σ k = 1 M ω k b k ( X t )
在使用EM算法训练GMM时,GMM的模型的高斯分量的个数M和模型的初始参数必须首先确定。如果M取值太小,则训练出的GMM模型不能有效地刻画说话人的特征,从而使整个系统性能下降。如果M取值过大,则模型参数会很多,从有效的训练数据中可能得不到收敛的模型参数,同时,训练得到的模型参数误差会很大。而且,太多的模型参数要求更多的存贮空间,而且训练和识别的运算复杂度大大增加。高斯分量M的大小,很难从理论上推导出来,可以根据不同的识别系统,由实验确定。
一般,M取值可以是4、8、16等。可以采用两种初始化模型参数的方法:第一种方法使用一个与说话人无关的HMM模型对训练数据进行自动分段。训练数据语音帧根据其特征分到M个不同的类中(M为混合数的个数),与初始的M个高斯分量相对应。每个类的均值和方差作为模型的初始化参数。尽管有实验证明EM算法对于初始化参数的选择并不敏感,但是显然第一种方法训练要优于第二种方法。也可以首先采用聚类的方法将特征矢量归位于混合数相等的各个类中,然后分别计算各个类的方差和均值,作为初始矩阵和均值,权值是各个类中所包含的特征矢量的个数占总的特征矢量的百分比。建立的模型中,方差矩阵可以为全矩阵,也可以为对角矩阵。
本发明所述语音识别系统,利用高斯混合模型(GMM)采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户的方式。
使用最大后验概率算法(MAP),就是利用Bayes学习方法对参数进行修改,先从一个给定得初始模型λ开始,计算训练语料中每个特征向量在每个高斯分布得统计几率,再利用这些统计几率来计算每个高斯分布得期望值,然后以这些期望值反过来最大化高斯混合模型得参数值,得到重复上面得步骤,直到P(X|λ)收敛为止。当训练语料足够多时,MAP算法有理论上得最优性。
当设χ为训练样本,θi是第i个说话人得模型参数,根据最大后验概率原则及公式1,由MAP训练方法准则所确定的语音声学模型为如上公式(3)后,获得的为模型参数得Bayes估计值。
当考虑P(χ)和{θi}i=1,2,...W(W是词条数)无关得情况:在渐进的自适应方式中,训练样本是逐个输入的。设λ={piii},i=1,2,…,M为训练样本序列,则渐进MAP方法准则如下:
其中为第一次训练的模型参数估计值。
根据上述计算过程,以更简化形式举例说明:
本发明所述语音识别系统,说话人辨认的目的是要用于确定待识别语音信号属于N个说话人中的哪一个。在一个封闭的说话人集合里,只需要确认该语音属于语音库中的哪一个说话人。在辨认任务中,目的是找到一个说话者i*,其对应的模型使得待识别语音特征矢量组X具有最大后验概率P(λi/X)。根据Bayes理论及上述公式3,最大后验概率可表示为:
P ( λ i / X ) = P ( X / λ i ) P ( λ i ) P ( X )
在这里,参阅上述公式2:
P ( X / λ ) = Π t = 1 T P ( X t / λ )
其对数形式为:
log P ( X / λ ) = Σ t = 1 T log P ( X t / λ )
因为P(λi)的先验概率未知,假定该所述待识别语音信号出自封闭集里的每个人的可能性相等,也即为:
P ( λ i ) = 1 N , 1 ≤ i ≤ N
对于一个确定的观察值矢量X,P(X)是一个确定的常数值,对所有说话人都相等。因此,求取后验概率的最大值可以通过求取P(X/λi)获得。因此,辨认该语音属于语音库中的哪一个说话人可以表示为:
i * = arg max i P ( X / λ i )
上述公式对应公式(3),i*即为所识别出的说话人。
进一步地,利用上述方式,只是识别出模型库中最接近的用户,通过上述,匹配时计算要识别的说话人与语音库中所有说话人信息的似然度之后,还需要通过判决单元将与待识别语音信号具有最高似然度的用户的语音模型配合识别门限的限制,确定所述待识别语音信号所属的用户,从而达到对说话人身份进行认证的目的。
所述语音识别系统还包括判决单元,用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对,确定所述待识别语音信号所属的用户。
本发明具体实施例所述语音识别系统,从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别的算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种语音识别系统,其特征在于,包括:
存储单元,用于存储至少一个用户的语音模型;
语音采集及预处理单元,用于采集待识别语音信号,对所述待识别语音信号进行格式转换及编码;
特征提取单元,用于从编码后的所述待识别语音信号中提取语音特征参数;
模式匹配单元,用于将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户;
端点检测单元,用于计算进行格式转换及编码后的所述待识别语音信号的语音起点及语音终点,去除所述待识别语音信号中的静音信号,获得所述待识别语音信号中语音的时域范围;以及用于对所述待识别语音信号中的语音频谱进行傅里叶变换FFT分析,根据分析结果计算所述待识别语音信号中的元音信号、浊音信号及轻辅音信号;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。
2.如权利要求1所述的语音识别系统,其特征在于,在采集所述待识别语音信号后,所述语音采集及预处理单元还用于依次对所述待识别语音信号进行放大、增益控制、滤波及采样,之后对所述待识别语音信号进行格式转换及编码,使所述待识别语音信号被分割为由多帧组合而成的短时信号。
3.如权利要求2所述的语音识别系统,其特征在于,所述语音采集及预处理单元还用于对进行格式转换及编码后的所述待识别语音信号采用窗函数进行预加重处理。
4.如权利要求1所述的语音识别系统,其特征在于,所述特征提取单元通过从编码后的所述待识别语音信号中提取频率倒谱系数MFCC特征,获得所述语音特征参数。
5.如权利要求4所述的语音识别系统,其特征在于,所述语音识别系统还包括:语音建模单元,用于利用所述语音特征参数,采用频率倒谱系数MFCC建立与文本无关的高斯混合模型为语音的声学模型。
6.如权利要求1所述的语音识别系统,其特征在于,所述模式匹配单元利用高斯混合模型,使用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,计算所述待识别语音信号与每一个所述语音模型的似然度。
7.如权利要求6所述的语音识别系统,其特征在于,采用最大后验概率算法MAP将所提取的所述语音特征参数与至少一个所述语音模型进行匹配,确定所述待识别语音信号所属的用户的方式具体采用以下公式:
其中:θi表示存储单元所存储的第i个人语音的模型参数,χ为待识别语音信号的特征参数;P(χ)、P(θi)分别为θi、χ的先验概率;P(χ/θi)为所述待识别语音信号的特征参数相对于第i个说话人得似然估计。
8.如权利要求7所述的语音识别系统,其特征在于,利用高斯混合模型,所述待识别语音信号的特征参数由一组参数唯一确定,其中Ci分别为说话人语音特征参数的混合加权值、平均值向量及协方差矩阵。
9.如权利要求6所述的语音识别系统,其特征在于,所述语音识别系统还包括判决单元,用于将与所述待识别语音信号具有最高似然度的所述语音模型与预设识别门限进行比对,确定所述待识别语音信号所属的用户。
CN201310109044.3A 2013-03-29 2013-03-29 语音识别系统 Active CN103236260B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310109044.3A CN103236260B (zh) 2013-03-29 2013-03-29 语音识别系统
PCT/CN2013/074831 WO2014153800A1 (zh) 2013-03-29 2013-04-26 语音识别系统
US14/366,482 US20150340027A1 (en) 2013-03-29 2013-04-26 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310109044.3A CN103236260B (zh) 2013-03-29 2013-03-29 语音识别系统

Publications (2)

Publication Number Publication Date
CN103236260A CN103236260A (zh) 2013-08-07
CN103236260B true CN103236260B (zh) 2015-08-12

Family

ID=48884296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310109044.3A Active CN103236260B (zh) 2013-03-29 2013-03-29 语音识别系统

Country Status (3)

Country Link
US (1) US20150340027A1 (zh)
CN (1) CN103236260B (zh)
WO (1) WO2014153800A1 (zh)

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015026960A1 (en) * 2013-08-21 2015-02-26 Sanger Terence D Systems, methods, and uses of b a yes -optimal nonlinear filtering algorithm
CN105981099A (zh) * 2014-02-06 2016-09-28 三菱电机株式会社 语音检索装置和语音检索方法
CN103940190B (zh) * 2014-04-03 2016-08-24 合肥美的电冰箱有限公司 具有食品管理系统的冰箱及食品管理方法
CN103974143B (zh) * 2014-05-20 2017-11-07 北京速能数码网络技术有限公司 一种生成媒体数据的方法和设备
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
KR101619262B1 (ko) * 2014-11-14 2016-05-18 현대자동차 주식회사 음성인식 장치 및 방법
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
CN106161755A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 一种关键词语音唤醒系统及唤醒方法及移动终端
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CN104900235B (zh) * 2015-05-25 2019-05-28 重庆大学 基于基音周期混合特征参数的声纹识别方法
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN104900234B (zh) * 2015-05-30 2018-09-21 宁波摩米创新工场电子科技有限公司 一种高清语音识别系统
CN104835496B (zh) * 2015-05-30 2018-08-03 宁波摩米创新工场电子科技有限公司 一种基于线性驱动的高清语音识别系统
CN104851425B (zh) * 2015-05-30 2018-11-30 宁波摩米创新工场电子科技有限公司 一种基于对称式三极管放大电路的高清语音识别系统
CN104835495B (zh) * 2015-05-30 2018-05-08 宁波摩米创新工场电子科技有限公司 一种基于低通滤波的高清语音识别系统
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN105096551A (zh) * 2015-07-29 2015-11-25 努比亚技术有限公司 一种实现虚拟遥控器的装置和方法
CN105245497B (zh) * 2015-08-31 2019-01-04 刘申宁 一种身份认证方法及装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9754593B2 (en) 2015-11-04 2017-09-05 International Business Machines Corporation Sound envelope deconstruction to identify words and speakers in continuous speech
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105709291B (zh) * 2016-01-07 2018-12-04 王贵霞 一种智能血液透析过滤装置
CN105931635B (zh) * 2016-03-31 2019-09-17 北京奇艺世纪科技有限公司 一种音频分割方法及装置
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN105913840A (zh) * 2016-06-20 2016-08-31 西可通信技术设备(河源)有限公司 一种语音识别装置及移动终端
CN106328168B (zh) * 2016-08-30 2019-10-18 成都普创通信技术股份有限公司 一种语音信号相似度检测方法
CN106448654A (zh) * 2016-09-30 2017-02-22 安徽省云逸智能科技有限公司 一种机器人语音识别系统及其工作方法
CN106448655A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 语音识别方法
CN106557164A (zh) * 2016-11-18 2017-04-05 北京光年无限科技有限公司 应用于智能机器人的多模态输出方法和装置
CN106782550A (zh) * 2016-11-28 2017-05-31 黑龙江八农垦大学 一种基于dsp芯片的自动语音识别系统
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置
CN106653043B (zh) * 2016-12-26 2019-09-27 云知声(上海)智能科技有限公司 降低语音失真的自适应波束形成方法
CN106782595B (zh) * 2016-12-26 2020-06-09 云知声(上海)智能科技有限公司 一种降低语音泄露的鲁棒阻塞矩阵方法
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10264410B2 (en) * 2017-01-10 2019-04-16 Sang-Rae PARK Wearable wireless communication device and communication group setting method using the same
CN106782521A (zh) * 2017-03-22 2017-05-31 海南职业技术学院 一种语音识别系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
JP6677796B2 (ja) 2017-06-13 2020-04-08 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 話者照合の方法、装置、及びシステム
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
CN107564522A (zh) * 2017-09-18 2018-01-09 郑州云海信息技术有限公司 一种智能控制方法及装置
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
CN108022584A (zh) * 2017-11-29 2018-05-11 芜湖星途机器人科技有限公司 办公室语音识别优化方法
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108172229A (zh) * 2017-12-12 2018-06-15 天津津航计算技术研究所 一种基于语音识别的身份验证及可靠操控的方法
CN108022593A (zh) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 一种高灵敏度语音识别系统及其控制方法
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108538310B (zh) * 2018-03-28 2021-06-25 天津大学 一种基于长时信号功率谱变化的语音端点检测方法
CN108600898B (zh) * 2018-03-28 2020-03-31 深圳市冠旭电子股份有限公司 一种配置无线音箱的方法、无线音箱及终端设备
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN108922541B (zh) * 2018-05-25 2023-06-02 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10460749B1 (en) * 2018-06-28 2019-10-29 Nuvoton Technology Corporation Voice activity detection using vocal tract area information
CN109036437A (zh) * 2018-08-14 2018-12-18 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及计算机可读存储介质
CN109147796B (zh) * 2018-09-06 2024-02-09 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109378002B (zh) * 2018-10-11 2024-05-07 平安科技(深圳)有限公司 声纹验证的方法、装置、计算机设备和存储介质
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109545192B (zh) * 2018-12-18 2022-03-08 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109920406B (zh) * 2019-03-28 2021-12-03 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111027453B (zh) * 2019-12-06 2022-05-17 西北工业大学 基于高斯混合模型的非合作水中目标自动识别方法
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111277341B (zh) * 2020-01-21 2021-02-19 北京清华亚迅电子信息研究所 无线电信号分析方法及装置
CN113223511B (zh) * 2020-01-21 2024-04-16 珠海市煊扬科技有限公司 用于语音识别的音频处理装置
CN111429890B (zh) * 2020-03-10 2023-02-10 厦门快商通科技股份有限公司 一种微弱语音增强方法、语音识别方法及计算机可读存储介质
CN111581348A (zh) * 2020-04-28 2020-08-25 辽宁工程技术大学 一种基于知识图谱的查询分析系统
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112721933B (zh) * 2020-07-28 2022-01-04 盐城工业职业技术学院 一种基于语音识别的农用拖拉机的控制终端
CN112037792B (zh) * 2020-08-20 2022-06-17 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN112331231B (zh) * 2020-11-24 2024-04-19 南京农业大学 基于音频技术的肉鸡采食量检测系统
CN112242138A (zh) * 2020-11-26 2021-01-19 中国人民解放军陆军工程大学 一种无人平台语音控制方法
CN112820319A (zh) * 2020-12-30 2021-05-18 麒盛科技股份有限公司 一种人类鼾声识别方法及其装置
CN112954521A (zh) * 2021-01-26 2021-06-11 深圳市富天达电子有限公司 一种具有声控免按键调节系统的蓝牙耳机
CN113053398B (zh) * 2021-03-11 2022-09-27 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法
CN113674766A (zh) * 2021-08-18 2021-11-19 上海复深蓝软件股份有限公司 语音评价方法、装置、计算机设备及存储介质
CN115950517A (zh) * 2023-03-02 2023-04-11 南京大学 一种可配置水声信号特征提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427395A (zh) * 2001-12-17 2003-07-02 中国科学院自动化研究所 基于子带能量和特征检测技术的语音信号端点检测方法
CN101206858A (zh) * 2007-12-12 2008-06-25 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195634B1 (en) * 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
JP2001166789A (ja) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
CN1123862C (zh) * 2000-03-31 2003-10-08 清华大学 基于语音识别专用芯片的特定人语音识别、语音回放方法
WO2006024117A1 (en) * 2004-09-02 2006-03-09 Coelho Rosangela Fernandes Method for automatic speaker recognition
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
CN100570710C (zh) * 2005-12-13 2009-12-16 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
CN101241699B (zh) * 2008-03-14 2012-07-18 北京交通大学 一种远程汉语教学中的说话人确认方法
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102737629B (zh) * 2011-11-11 2014-12-03 东南大学 一种嵌入式语音情感识别方法及装置
WO2013133768A1 (en) * 2012-03-06 2013-09-12 Agency For Science, Technology And Research Method and system for template-based personalized singing synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427395A (zh) * 2001-12-17 2003-07-02 中国科学院自动化研究所 基于子带能量和特征检测技术的语音信号端点检测方法
CN101206858A (zh) * 2007-12-12 2008-06-25 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101872616A (zh) * 2009-04-22 2010-10-27 索尼株式会社 端点检测方法以及使用该方法的系统

Also Published As

Publication number Publication date
US20150340027A1 (en) 2015-11-26
WO2014153800A1 (zh) 2014-10-02
CN103236260A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103236260B (zh) 语音识别系统
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN102968990B (zh) 说话人识别方法和系统
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN109192200B (zh) 一种语音识别方法
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CA2492204A1 (en) Similar speaking recognition method and system using linear and nonlinear feature extraction
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN103400578B (zh) 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
Lim et al. Classification of underwater transient signals using MFCC feature vector
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
CN108022588B (zh) 一种基于双特征模型的鲁棒语音识别方法
Kim et al. Speech recognition using hidden markov models in embedded platform
CN103971697A (zh) 基于非局部均值滤波的语音增强方法
Radha et al. Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Chen et al. Speaker recognition using spectral dimension features
TWI749547B (zh) 應用深度學習的語音增強系統
Kumar Voice based control command signal generation for intelligent system
Gao et al. DNN Speech Separation Algorithm Based on Improved Segmented Masking Target

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant