CN112331178A - 一种用于低信噪比环境下的语种识别特征融合方法 - Google Patents
一种用于低信噪比环境下的语种识别特征融合方法 Download PDFInfo
- Publication number
- CN112331178A CN112331178A CN202011154249.XA CN202011154249A CN112331178A CN 112331178 A CN112331178 A CN 112331178A CN 202011154249 A CN202011154249 A CN 202011154249A CN 112331178 A CN112331178 A CN 112331178A
- Authority
- CN
- China
- Prior art keywords
- syllable
- language identification
- language
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000000513 principal component analysis Methods 0.000 claims abstract 4
- 238000012549 training Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 11
- 238000000034 method Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 33
- 239000013598 vector Substances 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 238000009432 framing Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100148545 Caenorhabditis elegans snr-5 gene Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明针对目前技术工程应用困难和低信噪比下识别率低的问题公开了一种用于低信噪比环境下语种识别的特征融合方法,属于语音识别领域。语种识别提取有效特征减少噪声影响是识别准确的关键。本发明主要采用音节分割、CFCC系数、主成分分析和Teager能量算子倒谱参数。本发明对全语音段进行音节分割,再对每个音节语音段提取CFCC系数;使用PCA技术对提取的CFCC系数进行主成分分析,从每个音节对应的F帧中选取贡献率最高的前S帧;为了提高特征的鲁棒性,融合基于音节提取的Teager能量算子倒谱参数得到融合特征集。将提取的融合特征集输入到语种识别模型中训练出对应语种识别模型,把训练好的语种模型挂载到服务器端,再通过客户端采集要识别的语音输入到服务器,提取融合特征并与训练好的语种模型进行打分判决,最后输出识别结果返回客户端。经过测试,本文方法可以提高语种识别在低信噪比环境下准确率,且运行速度快,计算量少。
Description
技术领域
本发明涉及一种用于低信噪比环境下语种识别的特征融合方法,属于语音识别领域。
背景技术
随着全球化和人类命运共同体稳步前进的形式下,语种识别问题也逐渐得到重视。不同国家人民之间的交流问题是全球化发展的一大阻碍,人们已经不能满足于仅仅通过键盘和显示器与智能设备进行信息交互,而是迫切需要以一种更自然、更能为多数人所接受的方式与智能设备进行沟通交流,让计算机能听懂人话,或是用语音来控制各种智能设备。使用人类交换信息最直接最方便的语言来与计算机通信,一直以来都是一个备受关注同时也极具挑战的研究课题。随着社会的快速发展,越来越多的专家开始研究多语种的理解系统以及语音识别等问题,其中,语种识别问题也得到了高度重视。目前,语种识别技术已大量运用在军事安全及多语种信息服务领域。当前语种识别技术对无噪语种识别的准确率已经足够好,但低信噪比下语种的识别率还需要提升。
发明内容
本发明要解决的技术问题在于提高低信噪比下语种识别的准确性和鲁棒性。本发明在特征提取前端引入音节分割,然后分别提取每个音节的GTCC特征参数,再利用PCA技术对提取特征进行降维优化为了提高特征的鲁棒性,将每个音节提取的Teager能量算子倒谱参数(s-TEOCC)的和s-GTCC+PCA融合,从而获得最优特征集S-EGTCC,最后采用语种识别系统进行模型训练,将训练好的模型挂载到服务器上,通过客户端和服务器结合形成一个完整的语种识别系统。为了解决以上技术问题,本发明采用如下技术方案:一种用于低信噪比环境下的语种识别特征融合方法。该方法包括以下步骤:
S1、基于音节分割后的GFCC特征提取
其步骤包括音节分割、Gammatone滤波、分帧加窗、计算短时对数能量、计算DCT倒谱、s-GFCC特征提取。
S1.1、音节分割
其中j表示第j个音节,V是音节个数,对x(j)(t)采样后得到对应音节j上的离散时间信号x(j)(n),n为采样点序列。
S1.2、Gammatone滤波
音节语音段x(j)(n)通过滤波器滤波,在时域等同于x(j)(n)与滤波器g(i)(t)卷积:
y(i,j)(n)=x(j)(n)*g(i)(t),0<i≤N (2)
其中,y(i,j)(n)为滤波后的信号,i是指第i个Gammatone滤波器(共有N个)。
S1.3、分帧加窗
对Gammatone滤波后输出y(i,j)(n)进行分帧并加窗,帧长取A,帧移取inc,分帧后得到的第m帧数据为y(m,i,j)(n),0<m≤F(共F帧),由于各个音节长度不同,F取值是随音节变化的。加入汉明窗是为了减少边缘效应和频谱泄露,加窗后的信号:
S(m,i,j)(n)=y(m,i,j)(n)·W(n),0<n≤A (3)
其中,W(n)为窗函数,S(m,i,j)(n)为加窗后第j个音节通过第i个滤波器的第m帧的输出信号。
S1.4、计算短时对数能量
每帧信号计算S(m,i,j)(n)的短时对数能量:
S1.5、计算DCT倒谱
其中,Z为GFCC维数,g(m,j)(n)是第j个音节的第m帧的第n个GFCC系数,融合成该帧上的系数矩阵:
G(m,j)=[g(m,j)(1),g(m,j)(2),...,g(m,j)(n),...,g(m,j)(Z)]T (6)
S1.6、s-GFCC特征提取
对每帧的G(m,j)通过公式(7)融合成第j个音节的特征参数矩阵:
G(j)=[G(1,j)G(2,j),...,G(m,j),...,G(F,j)],0<j≤V (7)
其中,称Gj为融合后Z×F的特征参数矩阵(s-GFCC)。
S2、s-TEOCC参数提取
其步骤包括音节分割、分帧加窗、计算Teager能量算子、归一化取对数、计算DCT取平均值等
S2.1、音节分割
和步骤[0012]一样
S2.2、分帧加窗
对x(j)(n)分帧加窗后的第m帧的数据为x(m,j)(n),其中0≤m≤F。
S2.3、计算Teager能量算子
根据Teager能量算子的定义,x(m,j)(n)的Teager能量为:
ψ[x(m,j)(n)]=x(m,j)(n)2-x(m,j)(n+1)x(m,j)(n-1) (8)
其中,ψ[x(m,j)(n)]是输出第j个音节的第m帧的Teager能量。
S2.4、归一化取对数
进行归一化并取对数,得到每帧的Teager能量算子:
ψ[x(m,j)(n)]=lg[ψ[x(m,j)(n)]/max(ψ[x(m,j)(n)])] (9)
S2.5、计算DCT取平均值
对ψ[x(m,j)(n)]进行DCT变换再求平均值得到一维Teager能量算子倒谱(TEOCC),将单个音节的所有帧的TEOCC求平均值得到一维的音节Teager能量算子倒谱(s-TEOCC):
其中,e(m,j)(o)是Teager能量算子倒谱,e(j)是一维的第j个s-TEOCC。
S3、特征融合
其步骤包括均值化处理、计算协方差矩阵、求特征值特征向量、计算特征值贡献率、计算降维特征集矩阵、融合形成s-EGFCC特征、融合形成S-EGFCC特征集。
S3.1、均值化处理
对提取的s-GFCC特征集进行均值化处理:
其中,G(j)为Z×F维的第j个音节对应的原始特征对应的矩阵,X(j)为中心化处理后的矩阵,k为列数,q为每列的数据个数。
S3.2、计算协方差矩阵
计算样本的协方差矩阵C(j):
C(j)=X(j)X(j)T
(13)
S3.3、求特征值特征向量
计算C(j)的特征值并按大小进行降序排列,即λ(1)≥λ(2)≥..≥λ(F),以及特征值对应的特征向量u(1),u(2),...,u(F)。
S3.4、计算特征值贡献率
特征值贡献率的计算公式:
S3.5、计算降维特征集矩阵
通过步骤[0061]特征值贡献率计算结果,从而选取第j个音节的特征向量矩阵W(j)=[u(1)u(2)...u(S)],进而求取降维的特征集矩阵:
Y(j)=G(j)W(j) (15)
其中,Y(j)是Z×S的对应的降维特征集矩阵,将Y(j)拆分成S列,即Y(j)=[y(1,j)y(2 ,j)...y(S,j)],y(1,j)为第一列数据向量,y(S,j)为第S列数据向量,W(j)是F×S的特征向量矩阵。
S3.6、融合形成s-EGFCC特征
利用公式(16)将降维后特征集矩阵和一维的s-TEOCC融合形成新的特征集s-EGFCC:
其中,y(j)'为融合后的第j个音节的特征矩阵,e(j)是第j个音节对应的一维的s-TEOCC特征参数向量。
S3.7、融合形成S-EGFCC特征集
将每个s-EGFCC融合形成特征集S-EGFCC,将融合特征集作为语种模型的输入:
Y'=[y(1)'y(2)',...,y(j)',...,y(V)'],0<j≤V (17)
其中,Y'为融合后的音节特征矩阵S-EGFCC。
S4、训练特征模型
参见图1,将提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型;
S5、语种识别
本发明提出的一种用于低信噪比环境下语种识别的特征融合方法,对输入的语音文件进行融合特征提取,然后和训练好的模型进行打分判决,而后就可以输出识别结果。
附图说明
图1是语种理论训练识别图
图2是各波形不同信噪比下的局部语音波形图
图3是融合特征提取流程图
图4是音节端点检测图
图5是完整GMM-UBM的语种识别系统
图6是整体语种识别流程图
图7是客户端识别结果图
具体实施方式
S1、测试语音数据获取:
语料来源于中国广播电台,主要包括汉语、藏语、维吾尔语、英语、哈沙克斯坦语五种语言。五种语言均采单声道、8000Hz采样率、长度10秒的音频文件。
S2、带噪语音生成
原理:
带噪语音定义为x(n)=s(n)+w(n),平均信噪比定义如下:
参见图2,本发明中语音各波形是不同信噪比下的局部语音波形,SNR=-5dB和SNR=0dB基本上只有部分强音凸显出来,其他部分全部被淹没,所以低信噪比下识别较为困难。
S3、基于音节分割后的GFCC特征提取
参见图3,本发明实例部分其步骤包括音节分割、Gammatone滤波、分帧加窗、计算短时对数能量、计算DCT倒谱、s-GFCC特征提取。
S3.1、音节分割
参见图4,音节分割后能有效的去掉背景噪声部分,也最大程度上减少噪声特征的影响。图中虚线为音节起始点,实线为音节终点,粗点线为起始点和终点重合部分。从图可以获取音节的起始点和终点从而得到每个音节的时间长度形成音节语音段:
其中j表示第j个音节,V是音节个数,对x(j)(t)采样后得到对应音节j上的离散时间信号x(j)(n),n为采样点序列。
S3.2、Gammatone滤波
音节语音段x(j)(n)通过滤波器滤波,在时域等同于x(j)(n)与滤波器g(i)(t)卷积:
y(i,j)(n)=x(j)(n)*g(i)(t),0<i≤N (20)
其中,y(i,j)(n)为滤波后的信号,i是指第i个Gammatone滤波器(共有N个),本发明实例部分N=32。
S3.3、分帧加窗
对Gammatone滤波后输出y(i,j)(n)进行分帧并加窗,本发明实例部分帧长取A=160,帧移取inc=80,分帧后得到的第m帧数据为y(m,i,j)(n),0<m≤F(共F帧),由于各个音节长度不同,F取值是随音节变化的。加入汉明窗是为了减少边缘效应和频谱泄露,加窗后的信号:
S(m,i,j)(n)=y(m,i,j)(n)·W(n),0<n≤A (21)
其中,W(n)为窗函数,S(m,i,j)(n)为加窗后第j个音节通过第i个滤波器的第m帧的输出信号。
S3.4、计算短时对数能量
每帧信号计算S(m,i,j)(n)的短时对数能量:
S3.5、计算DCT倒谱
其中,g(m,j)(n)是第j个音节的第m帧的第n个GFCC系数,融合成该帧上的系数矩阵:
G(m,j)=[g(m,j)(1),g(m,j)(2),...,g(m,j)(n),...,g(m,j)(13)]T (24)
S3.6、s-GFCC特征提取
对每帧的G(m,j)通过公式(25)融合成第j个音节的特征参数矩阵:
G(j)=[G(1,j)G(2,j),...,G(m,j),...,G(F,j)],0<j≤V (25)
其中,称G(j)为融合后13×F的特征参数矩阵(s-GFCC)。
S4、s-TEOCC参数提取
参见图2,本发明实例部分其步骤包括音节分割、分帧加窗、计算Teager能量算子、归一化取对数、计算DCT取平均值等
S4.1、音节分割
和步骤[0012]一样
S4.2、分帧加窗
对x(j)(n)分帧加窗后的第m帧的数据为x(m,j)(n),其中0≤m≤F。
S4.3、计算Teager能量算子
根据Teager能量算子的定义,x(m,j)(n)的Teager能量为:
ψ[x(m,j)(n)]=x(m,j)(n)2-x(m,j)(n+1)x(m,j)(n-1) (26)
其中,ψ[x(m,j)(n)]是输出第j个音节的第m帧的Teager能量。
S4.4、归一化取对数
进行归一化并取对数,得到每帧的Teager能量算子:
ψ[x(m,j)(n)]=lg[ψ[x(m,j)(n)]/max(ψ[x(m,j)(n)])] (27)
S4.5、计算DCT取平均值
对ψ[x(m,j)(n)]进行DCT变换再求平均值得到一维Teager能量算子倒谱(TEOCC),将单个音节的所有帧的TEOCC求平均值得到一维的音节Teager能量算子倒谱(s-TEOCC):
其中,e(m,j)(o)是Teager能量算子倒谱,e(j)是一维的第j个s-TEOCC。
S5、特征融合
其步骤包括均值化处理、计算协方差矩阵、求特征值特征向量、计算特征值贡献率、计算降维特征集矩阵、融合形成s-EGFCC特征、融合形成S-EGFCC特征集。
S5.1、均值化处理
对提取的s-GFCC特征集进行均值化处理:
其中,G(j)为13×F维的第j个音节对应的原始特征对应的矩阵,X(j)为中心化处理后的矩阵,k为列数,q为每列的数据个数。
S5.2、计算协方差矩阵
计算样本的协方差矩阵C(j):
C(j)=X(j)X(j)T
(31)
S5.3、求特征值特征向量
计算C(j)的特征值并按大小进行降序排列,即λ(1)≥λ(2)≥..≥λ(F),以及特征值对应的特征向量u(1),u(2),...,u(F)。
S5.4、计算特征值贡献率
特征值贡献率的计算公式:
S5.5、计算降维特征集矩阵
通过步骤[0069]特征值贡献率计算结果,本发明实例部分取前两维特征向量,从而选取第j个音节的特征向量矩阵W(j)=[u(1)u(2)],
进而求取降维的特征集矩阵:
Y(j)=G(j)W(j) (33)
其中,Y(j)是13×2的对应的降维特征集矩阵,将Y(j)拆分成2列,即Y(j)=[y(1,j)y(2 ,j)],y(1,j)为第一列数据向量,y(2,j)为第2列数据向量,W(j)是F×2的特征向量矩阵。
S5.6、融合形成s-EGFCC特征
利用公式(34)将降维特征集矩阵和一维的s-TEOCC融合形成新的特征集s-EGFCC:
其中,y(j)'为融合后的第j个音节的特征矩阵,e(j)是第j个音节对应的一维的s-TEOCC特征参数向量。
S5.7、融合形成S-EGFCC特征集
将每个s-EGFCC融合形成特征集S-EGFCC,将融合特征集作为语种模型的输入:
Y'=[y(1)'y(2)',...,y(j)',...,y(V)'],0<j≤V (35)
其中,Y'为融合后的音节特征矩阵S-EGFCC。
S6、生成训练模型
参见图5,本发明采用GMM-UBM模型语种识别系统训练对应语种模型,可以有效克服训练数据较少问题。实验将1675条作为通用模板训练语料,训练样本每种语言300条,其中50条无噪声,其余分别是SNR=25dB、20dB、15dB、10dB、5dB各50条,这样可以更好的模拟现实嘈杂环境。
S7、本发明方法对单个语音应用实例
参见图6,本发明实例部分,随机采用一段中文语音音频文件,针对本发明提出的一种用于低信噪比环境下语种识别的特征融合方法进行实验,按照本发明实例中的步骤进行融合特征提取,然后与服务器里的语种模型进行打分判决检测该语音属于那种语种,识别结果如图7所示。
S8、本发明方法大量语音测试性能实例
本发明测试性能实例的样本每种语言171条,然后依次加入SNR=-5dB、0dB、5dB、10dB、15dB、20dB的语料分别进行识别实验。按照本发明实例中的步骤进行融合特征提取,然后与服务器里的语种模型进行打分判决检测该语音属于那种语种,识别结果表1所示。
表1融合特征五种语种不同信噪比识别率
(单位/%)
通过表1的检测结果可以看到,通过本发明提到的方法,在-5dB和0dB时,融合特征集能分别达到50.0%和66.5%的识别率。可见本发明在低信噪比下能依然能保持很好的识别准确性。
以上所述仅为本发明的较佳实例而已,并不用限制本发明,凡在本发明的精神和原则之内,所作的如何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种用于低信噪比环境下语种识别的特征融合方法,其特征在于:
S1、音节端点检测:根据能零比和峰谷点进行音节端点检测;
S2、音节分割:根据检测的端点对全语音点进行音节分割,得到若干音节语音段;
S3、音节的GFCC系数提取:对每个音节进行GFCC系数提取;
S4、音节的Teager能量算子倒谱参数提取:对每个音节进行Teager能量算子倒谱参数提取;
S5、特征融合:对提取的音节GFCC进行主成分分析后融合提取的音节Teager能量算子倒谱参数;
S6、训练特征模型:提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型;
S7、语种识别:将最优的训练模型挂载到服务器上,采集要识别的语音输入到服务器,提取融合特征并与训练好的语种模型进行打分判决,最后输出识别结果返回客户端。
2.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:根据能零比和峰谷点进行音节端点检测,求取音节的起始点和终点。
3.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:音节分割:根据检测的端点对全语音点进行音节分割,从而得到每个音节的时间长度形成音节语音段。
4.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:音节的GFCC系数提取:对每个音节进行GFCC系数提取。
5.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:音节的Teager能量算子倒谱参数提取:对每个音节进行Teager能量算子倒谱参数提取。
6.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:特征融合:对提取的音节GFCC系数进行主成分分析后融合提取的音节Teager能量算子倒谱参数。
7.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:训练特征模型:提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型。
8.根据权利要求1所述的一种用于低信噪比环境下语种识别的特征融合法,其特征在于:语种识别:将最优的训练模型挂载到服务器上,采集要识别的语音输入到服务器,提取融合特征并与训练好的语种模型进行打分判决,最后输出识别结果返回客户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154249.XA CN112331178A (zh) | 2020-10-26 | 2020-10-26 | 一种用于低信噪比环境下的语种识别特征融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154249.XA CN112331178A (zh) | 2020-10-26 | 2020-10-26 | 一种用于低信噪比环境下的语种识别特征融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112331178A true CN112331178A (zh) | 2021-02-05 |
Family
ID=74310997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011154249.XA Pending CN112331178A (zh) | 2020-10-26 | 2020-10-26 | 一种用于低信噪比环境下的语种识别特征融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331178A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257226A (zh) * | 2021-03-28 | 2021-08-13 | 昆明理工大学 | 一种基于gfcc的改进特征参数的语种识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100121638A1 (en) * | 2008-11-12 | 2010-05-13 | Mark Pinson | System and method for automatic speech to text conversion |
CN102194452A (zh) * | 2011-04-14 | 2011-09-21 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
CN107221318A (zh) * | 2017-05-12 | 2017-09-29 | 广东外语外贸大学 | 英语口语发音评分方法和系统 |
CN111128126A (zh) * | 2019-12-30 | 2020-05-08 | 上海浩琨信息科技有限公司 | 多语种智能语音对话的方法及系统 |
-
2020
- 2020-10-26 CN CN202011154249.XA patent/CN112331178A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100121638A1 (en) * | 2008-11-12 | 2010-05-13 | Mark Pinson | System and method for automatic speech to text conversion |
CN102194452A (zh) * | 2011-04-14 | 2011-09-21 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
CN107221318A (zh) * | 2017-05-12 | 2017-09-29 | 广东外语外贸大学 | 英语口语发音评分方法和系统 |
CN111128126A (zh) * | 2019-12-30 | 2020-05-08 | 上海浩琨信息科技有限公司 | 多语种智能语音对话的方法及系统 |
Non-Patent Citations (4)
Title |
---|
史燕燕: "融合CFCC和Teager能量算子倒谱参数的语音识别", 《计算机科学》 * |
杜鑫: "电话语音语种识别算法研究", 《中国优秀硕士学位论文全文数据库》 * |
杨帆: "《数字图像处理与分析 第4版》", 31 January 2019 * |
赵至柔: "基于能零比与峰谷点的汉语语音音节分割算法", 《电子测量技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257226A (zh) * | 2021-03-28 | 2021-08-13 | 昆明理工大学 | 一种基于gfcc的改进特征参数的语种识别方法 |
CN113257226B (zh) * | 2021-03-28 | 2022-06-28 | 昆明理工大学 | 一种基于gfcc的改进特征参数的语种识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
Ramgire et al. | A survey on speaker recognition with various feature extraction and classification techniques | |
CN112331178A (zh) | 一种用于低信噪比环境下的语种识别特征融合方法 | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
CN116597853A (zh) | 一种音频消噪方法 | |
Das et al. | Robust front-end processing for speech recognition in noisy conditions | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
Zhang et al. | Speech endpoint detection in noisy environments using EMD and teager energy operator | |
Gan et al. | Savitzky-Golay filtering and improved energy entropy for speech endpoint detection under low SNR | |
Liu et al. | Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability | |
Nosan et al. | Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech | |
Huang et al. | A speaker recognition method based on GMM using non-negative matrix factorization | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Pandharipande et al. | Front-end feature compensation for noise robust speech emotion recognition | |
Kumar et al. | Analysis of audio visual feature extraction techniques for AVSR system | |
Deshwal et al. | Language Identification Performance Evaluation Using Spectral Processing | |
Ishizuka et al. | Speech feature extraction method using subband-based periodicity and nonperiodicity decomposition | |
Liu et al. | Multiresolution cochleagram speech enhancement algorithm using improved deep neural networks with skip connections | |
Gulzar et al. | An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words | |
Nosan et al. | Enhanced Feature Extraction Based on Absolute Sort Delta Mean Algorithm and MFCC for Noise Robustness Speech Recognition. | |
Wan et al. | Robust speech recognition based on multi-band spectral subtraction | |
He et al. | Speaker recognition method based on deep residual network and improved power normalized Cepstral coefficients features | |
Fan et al. | Recognition System for Cantonese Speakers in Different Noisy Environments Based on Estimate--Maximize Algorithm. | |
Min et al. | Wavelet Packet Sub-band Cepstral Coefficient for Speaker Verification | |
Li et al. | Detection of speech signal in strong ship-radiated noise based on spectrum entropy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210205 |
|
RJ01 | Rejection of invention patent application after publication |