CN113257226B - 一种基于gfcc的改进特征参数的语种识别方法 - Google Patents

一种基于gfcc的改进特征参数的语种识别方法 Download PDF

Info

Publication number
CN113257226B
CN113257226B CN202110329394.5A CN202110329394A CN113257226B CN 113257226 B CN113257226 B CN 113257226B CN 202110329394 A CN202110329394 A CN 202110329394A CN 113257226 B CN113257226 B CN 113257226B
Authority
CN
China
Prior art keywords
gfcc
parameters
language
parameter
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110329394.5A
Other languages
English (en)
Other versions
CN113257226A (zh
Inventor
邵玉斌
陈亮
龙华
杜庆治
杨贵安
唐维康
刘晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110329394.5A priority Critical patent/CN113257226B/zh
Publication of CN113257226A publication Critical patent/CN113257226A/zh
Application granted granted Critical
Publication of CN113257226B publication Critical patent/CN113257226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及一种基于GFCC的改进特征参数的语种识别方法,属于语音识别技术领域。本发明首先提取广播音频的GFCC特征参数,然后将GFCC参数的后面若干维数据置为零,但仍保持原来的数据维度,将置零后的GFCC参数进行IDCT变换,得到新的特征参数。将新的特征参数(命名为G‑Fbank)放入模型中进行训练,得到不同的语种识别模型。再将测试语种语音提取同样的特征参数放入模型中查找与之最相似的语种,得到语种识别结果。本发明可以提高广播音频的语种识别准确率,且识别速率较快。

Description

一种基于GFCC的改进特征参数的语种识别方法
技术领域
本发明涉及一种基于GFCC的改进特征参数的语种识别方法,属于语音识别技术领域。
背景技术
世界上与中国接壤的国家众多,交流也是必不可少的。而语言的障碍阻碍了我们与周边国家的交流。为了方便交流,需要将周边国家的语言翻译成我们能够听懂的语言。为了将别国语言翻译出来,首先要将当前语言是哪个国家的语言识别出来,进而放入对应的翻译器进行翻译。为了了解邻国的实时新闻等,我们经常会收听周边国家的广播。收听广播音频也是其中一种交流方式。随着我国与周边国家交流的增加,语种识别的重要性也逐渐显现出来。在收听国外广播时,亟待解决的问题是如何准确高效的识别周边国家的语种,从而及时将实时语音转入相应的翻译器进行翻译,转为我们能听懂的语言。而广播音频复杂的环境,包括背景音乐,噪声,男生女生说话声音频率的不同等加剧了语种识别的难度。如何提取语种特有的特征,而去除一些不必要的噪声,背景音乐,采访等的干扰,提高语种识别的准确率,成为一大技术难点。语种识别这一领域一直以来都是备受关注且具有挑战性的研究课题。目前很多研究者使用比较流行的方法包括神经网络,机器学习等提取与语种相关的特征进行学习建模,从而提高语种识别的准确率。
发明内容
本发明要解决的技术问题是提供一种基于GFCC的改进特征参数的语种识别方法,可以在复杂的国内外广播音频信号环境中,尽量提取语种的特征,尽减少男生女生说话的不同导致的识别错误,以及减少背景音乐,噪声等的干扰,识别出广播音频所播放的语种,提高语种识别的准确率。
本发明的技术方案是:一种基于GFCC(Gamma Frequency Cepstrum Coefficient,Gamma频率倒谱系数)的改进特征参数的语种识别方法,首先提取广播音频的GFCC特征参数,然后将GFCC参数的后面若干维数据置为零,但仍保持原来的数据维度,将置零后的GFCC参数进行IDCT变换,得到新的特征参数。将新的特征参数(命名为G-Fbank)放入模型中进行训练,得到不同的语种识别模型。再将测试语种语音提取同样的特征参数放入模型中查找与之最相似的语种,得到语种识别结果。
具体步骤为:
Step1:不同语种的语音数据的GFCC特征提取,包括对语音的预处理(归一化,分帧,加窗)、傅里叶变换、计算谱线能量、计算通过Gammatone滤波器滤波后的能量、计算DCT倒谱等。
Step1.1:预处理;
预处理首先进行归一化,以免语音的音量大小影响语种识别结果。语音进行归一化的公式为:
Figure GDA0003100337870000021
式中,xi为输入的语音序列,x为进行归一化后的语音序列。
接着对语音进行分帧(分帧的帧长是可变的)。分帧的帧移取帧长的一半,再对每帧信号加窗。分帧后的信号为x(m)(n),则y(m)(n)为加窗后的信号,w(n)为窗函数。表达式如下:
y(m)(n)=x(m)(n).w(n) (2)
再对分帧加窗后的语音序列进行FFT变换,将数据从时域变为频域。频域信号记为y(m)(k),其中m为语音帧数。
Step1.2:计算通过Gammatone滤波器滤波后的能量;
Gammatone滤波器频域表达式:
Figure GDA0003100337870000022
式中,Y(f)是指数和阶跃函数的傅里叶变换,S(f)是频率为f0的余弦函数的傅里叶变换,H(f)是滤波器的频域表达。
经过滤波器后的频域表达式为:
Figure GDA0003100337870000023
式中,m代表第m帧,i代表第i个Gammatone滤波器。Y(m,i)代表第m帧通过第i个滤波器后的频域信号。
Step1.3:DCT变换,得到GFCC特征参数;
对通过Gammatone滤波器后的信号取对数后再进行离散余弦变换,得到GFCC特征参数。它的表达式如下:
Figure GDA0003100337870000024
式中,m代表第m帧,i代表第i个Gammatone滤波器(一共有N个)。n是DCT后的谱线。
Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,但参数总体维度不变,然后进行IDCT变换。
Step2.1:GFCC参数把后面的若干维参数置零;
GFCC特征参数由语音信号经过预处理,FFT变换,滤波,DCT变换得到。它的维数由Gammatone滤波器的个数来决定,而Gammatone滤波器的个数是可变的,所以GFCC特征参数的维数也是可变的。
得到GFCC特征参数后,将后面的若干维的参数置零,但置零的维数不能大于GFCC参数维数减1。假设GFCC参数为n维,那么置零的维数应小于n-1。
每一帧的原始GFCC参数表达式为:
gfcc(m)=[x1,x2,x3,x4,...,xn-2,xn-1,xn] (6)
式中,x1到xn为一帧的GFCC参数,m代表第m帧。将后面若干维置零后为:
gfcc'(m)=[x1,x2,x3,x4,...,0,0,0] (7)
Step2.2:置零后的GFCC参数进行IDCT变换;
置零后的GFCC参数维数仍然和原来的GFCC参数维数一样。此时再进行离散余弦逆变换(IDCT),即得到最终的改进的GFCC参数(命名为G-Fbank)。
对置零后的GFCC参数进行IDCT:
Figure GDA0003100337870000031
式中,y(i)代表进行离散余弦逆变换后的信号,i代表第i个Gammatone滤波器,u代表DCT的谱线,Y(u)为进行IDCT之前的信号,N为Gammatone滤波器总个数。
其中,
Figure GDA0003100337870000032
Step3:训练语种的特征模型;
将每个语种按如上步骤提取G-Fbank特征参数,将特征参数放入模型中进行训练,得到每个语种对应的特征模型。
Step4:语种识别;
对识别的语种语音数据提取同样的G-Fbank参数,再放入语种识别模型中进行识别,得到语种识别结果。
本发明的有益效果是:在语种识别方向,提取与语种相关的主要特征,去除细节特征可以有效地提高语种识别的准确率。可以提高广播音频的语种识别准确率,且识别速率较快。
附图说明
图1是本发明语种提取参数训练识别图;
图2是本发明语种提取参数训练识别的流程图;
图3是本发明实施例中GFCC数据画出的图和GFCC后面14维置零的数据进行IDCT画出的图;
图4是本发明实施例中GFCC数据直接进行IDCT画出的图和GFCC数据后面14维置零进行IDCT画出的图;
图5是本发明实施例中语种识别结果画出的混淆矩阵图;
图6是本发明实施例中GFCC数据后面14维置零进行IDCT的参数得到的语种识别结果图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于GFCC的改进特征参数的语种识别方法:
Step1:对每条语音数据提取不同维度的GFCC参数,GFCC参数维度可变。
Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,但参数总体维度不变,然后进行IDCT变换。
Step3:对后面若干维GFCC参数置零后进行IDCT变换,得到改进的GFCC参数,命名为G-Fbank。
Step4:G-Fbank参数输入到语种训练模型中进行训练,得到不同语种的识别模型。
Step5:对识别语音提取G-Fbank参数,放入训练好的模型中进行识别,得到最终识别结果。
下面通过具体的例子对本发明进行详细的说明。
Step1:训练和测试的广播语音数据来源:
语料来自中国国际广播电台,主要包括老挝语,柬埔寨语,印地语,藏语,孟加拉语,越南语六种语言。六种语种的语音数据采集好后通过音频转换软件转为单声道数据,采样频率为16000Hz,语音长度剪为3秒。
Step2:总体实施流程:
如图2所示,本发明的具体实施流程是先对语音进行预处理,接着进行FFT、Gammatone滤波器滤波和DCT变换得到GFCC参数,对GFCC参数的若干维置零后,再进行IDCT变换,得到G-Fbank参数。将得到的语音特征参数放入隐马尔科夫模型(HMM)中进行训练,得到每个语种的对应的语种特征模型。再对测试语种语音数据进行同样的处理,将得到的G-Fbank参数放入模型中进行识别,得到语种识别结果。
Step3:语音数据的GFCC特征参数提取:
如图2所示,本发明实例部分其步骤包括预处理、FFT、Gammatone滤波器滤波、DCT、GFCC参数若干维置零、IDCT。
Step3.1:预处理
首先对语音数据进行能量归一化,排除不同语种的音量大小对语种识别结果的影响。归一化公式如下:
Figure GDA0003100337870000051
归一化后对语音数据进行分帧,将语音分成固定长度的数据,实例中帧长取1024,帧移取512。接着对每一帧数据加窗,窗函数为Hamming窗,窗长和帧长一样。
Step3.2:Gammatone滤波器滤波
对进行分帧加窗后的信号y(m)(n)进行FFT变换(FFT点数和帧长一样),得到频域信号。再将信号取平方后通过Gammatone滤波器进行滤波:
Figure GDA0003100337870000052
式中,m代表第m帧,i代表第i个Gammatone滤波器。Y(m,i)代表第m帧通过第i个滤波器后的频域信号。本实例Gammatone滤波器个数取20个。
Step3.3:进行DCT变换,得到GFCC特征参数
对通过Gammatone滤波器后的信号取对数后再进行离散余弦变换,得到GFCC特征参数。它的表达式如下:
Figure GDA0003100337870000053
式中,m代表第m帧,i代表第i个Gammatone滤波器(一共有N个)。n是DCT后的谱线。
最后得到GFCC特征参数。得到的GFCC特征参数前面几维数值比较大,后面维数的数值较小。
Step4:GFCC参数将后面的若干维度置零,进行IDCT变换。
Step4.1:GFCC参数把后面的若干维参数置零:
GFCC特征参数由语音信号经过预处理,FFT变换,滤波,DCT变换得到。它的维数由Gammatone滤波器的个数来决定,而Gammatone滤波器的个数是可变的,所以GFCC特征参数的维数也是可变的。本实例Gammatone滤波器个数取20维,所以GFCC特征参数维数也为20维。
得到GFCC特征参数后,将后面的若干维的参数置零,但置零的维数不能大于GFCC参数维数减1。假设GFCC参数为n维,那么置零的维数应小于n-1。
每一帧的原始GFCC参数表达式为:
gfcc(m)=[x1,x2,x3,x4,...,xn-2,xn-1,xn] (4)
式中,x1到xn为一帧的GFCC参数,m代表第m帧。
将后面若干维置零后为:
gfcc'(m)=[x1,x2,x3,x4,...,0,0,0] (5)
本实例中分别对GFCC参数的后面7维、10维、14维参数置零。
Step4.2:置零后的GFCC参数进行IDCT变换:
:置零后的GFCC参数维数仍然和原来的GFCC参数维数一样。此时再进行离散余弦逆变换(IDCT),即得到最终的改进的GFCC参数(命名为G-Fbank)。
置零后的GFCC参数进行IDCT:
Figure GDA0003100337870000061
式中,y(i)代表进行离散余弦逆变换后的信号,i代表第i个Gammatone滤波器,u代表DCT的谱线,Y(u)为进行IDCT之前的信号,N为Gammatone滤波器总个数。
其中,
Figure GDA0003100337870000062
如图3所示,GFCC参数画出的数据图和GFCC参数后14维置零后进行IDCT画出的图。由图可以看出GFCC参数置零若干维后进行IDCT得到的数据的值变化比较大,每个数据和周围数据之间有明显的不同。
如图4所示,GFCC参数不置零进行IDCT变换和GFCC参数后14维置零进行IDCT变换画出的数据图。由图可以看出GFCC参数不置零进行IDCT变换画出的图数据的值变化较大,每个数据与周围数据之间的值相差比较明显,而GFCC参数不置零进行IDCT变换画出的图数据的值相对来说变化较为缓慢,从图上看更为模糊。
Step5:训练语种的特征模型:
如图2所示,将每个语种按如上步骤提取G-Fbank特征参数,将特征参数放入模型中进行训练,得到每个语种对应的特征模型。本发明采用HMM模型训练不同语种的特征模型,保留了语种的语音数据之间的前后关联性,可以建立每个语种特有的特征模型,从而达到较好的识别效果。训练的语料均来自中国国际广播电台。每个语种510条语音,每条语音长度为3秒,一共6个语种,包括老挝语,柬埔寨语,印地语,藏语,孟加拉语,越南语。将一共3060条语音数据提取特征参数放入HMM模型中进行训练,得到每个语种对应的模型。
Step6:不同语种语音数据测试模型识别效果:
对测试的语种语音数据提取同样的G-Fbank参数,再放入语种识别模型中进行识别,得到语种识别结果。本实例用于测试的的语料不包含在训练的语料之中。每个语种语音条数为220条,每条语音长度为3秒,共6个语种。将一共1320条语音数据打上对应语种的标签,提取特征参数放入训练得到的模型中进行打分识别,输出概率最大的语种作为每条语音的识别语种。将识别结果和原语音数据实际的语种标签进行比对,统计结果,得到最终的识别准确率。识别结果如图5所示的混淆矩阵,图中1,2,3,4,5,6数字分别代表老挝语,柬埔寨语,印地语,藏语,孟加拉语,越南语6个语种。最右下角的结果对语种的平均识别准确率和错误率。实际的识别输出结果如图6所示。
对GFCC参数后面的7维、10维、14维置零,分别进行训练,识别。得到不同的识别结果,参见表1。
Figure GDA0003100337870000071
表1:六种语种不同维数置零后的识别准确率
通过表1可以看出,对GFCC特征参数后面不同的维数置零,对语种的识别准确率也不一样。最好的结果是在GFCC参数取20维,对后面的10维参数置零时,平均识别准确率达到91.4%。对于广播音频,在含有一定背景噪声和背景音乐等的条件下,六个语种已经可以达到较好的识别准确率。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于GFCC的改进特征参数的语种识别方法,其特征在于:
Step1:对每条语音数据提取不同维度的GFCC参数;
Step2:对任意维度的GFCC参数,将其后面若干维数数据置零,然后进行IDCT变换;
得到GFCC特征参数后,将后面的若干维的参数置零,但置零的维数不能大于GFCC参数维数减1,假设GFCC参数为n维,那么置零的维数应小于n-1;
Step3:对后面若干维GFCC参数置零后进行IDCT变换,得到改进的GFCC参数,命名为G-Fbank;
Step4:G-Fbank参数输入到语种训练模型中进行训练,得到不同语种的识别模型;
Step5:对识别语音提取G-Fbank参数,放入训练好的模型中进行识别,得到最终识别结果。
2.根据权利要求1所述的基于GFCC的改进特征参数的语种识别方法,其特征在于所述Step1具体为:
Step1.1:预处理;
首先通过式(1)对语音进行归一化;
Figure FDA0003648579630000011
式中,xi为输入的语音序列,x为进行归一化后的语音序列;
对语音进行分帧,分帧的帧移取帧长的一半,再对每帧信号加窗,分帧后的信号为x(m)(n),则y(m)(n)为加窗后的信号,w(n)为窗函数,表示为:
y(m)(n)=x(m)(n).w(n) (2)
然后对分帧加窗后的语音序列进行FFT变换,将数据从时域变为频域,频域信号记为y(m)(k),其中m为语音帧数;
Step1.2:计算通过Gammatone滤波器滤波后的能量;
Gammatone滤波器频域表达式为:
Figure FDA0003648579630000012
式中,Y(f)是指数和阶跃函数的傅里叶变换,S(f)是频率为f0的余弦函数的傅里叶变换,H(f)是滤波器的频域表达;
经过滤波器后的频域表达式为:
Figure FDA0003648579630000021
式中,m代表第m帧,i代表第i个Gammatone滤波器,Y(m,i)代表第m帧通过第i个滤波器后的频域信号;
Step1.3:进行DCT变换,得到GFCC特征参数;
对通过Gammatone滤波器后的信号取对数后,再进行离散余弦变换,得到GFCC特征参数,其表达式为:
Figure FDA0003648579630000022
式中,m代表第m帧,i代表第i个Gammatone滤波器,n是DCT后的谱线。
3.根据权利要求1所述的基于GFCC的改进特征参数的语种识别方法,其特征在于所述Step2具体为:
Step2.1:对任意维度的GFCC参数,将其后面若干维数数据置零,但置零的维数不能大于GFCC参数维数减1,即,若GFCC参数为n维,则置零的维数应小于n-1;
每一帧的原始GFCC参数表达式为:
gfcc(m)=[x1,x2,x3,x4,...,xn-2,xn-1,xn] (6)
式中,x1到xn为一帧的GFCC参数,m代表第m帧;
将其后面若干维数数据置零后为:
gfcc'(m)=[x1,x2,x3,x4,...,0,0,0] (7)
Step2.2:对数据置零后的GFCC参数进行IDCT变换;
Figure FDA0003648579630000023
式中,y(i)代表进行离散余弦逆变换后的信号,i代表第i个Gammatone滤波器,u代表DCT的谱线,Y(u)为进行IDCT之前的信号,N为Gammatone滤波器总个数;
其中,
Figure FDA0003648579630000024
CN202110329394.5A 2021-03-28 2021-03-28 一种基于gfcc的改进特征参数的语种识别方法 Active CN113257226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110329394.5A CN113257226B (zh) 2021-03-28 2021-03-28 一种基于gfcc的改进特征参数的语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110329394.5A CN113257226B (zh) 2021-03-28 2021-03-28 一种基于gfcc的改进特征参数的语种识别方法

Publications (2)

Publication Number Publication Date
CN113257226A CN113257226A (zh) 2021-08-13
CN113257226B true CN113257226B (zh) 2022-06-28

Family

ID=77181148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110329394.5A Active CN113257226B (zh) 2021-03-28 2021-03-28 一种基于gfcc的改进特征参数的语种识别方法

Country Status (1)

Country Link
CN (1) CN113257226B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN110111769A (zh) * 2019-04-28 2019-08-09 深圳信息职业技术学院 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN111128126A (zh) * 2019-12-30 2020-05-08 上海浩琨信息科技有限公司 多语种智能语音对话的方法及系统
CN112331178A (zh) * 2020-10-26 2021-02-05 昆明理工大学 一种用于低信噪比环境下的语种识别特征融合方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181399B1 (en) * 1999-05-19 2007-02-20 At&T Corp. Recognizing the numeric language in natural spoken dialogue
US7240010B2 (en) * 2004-06-14 2007-07-03 Papadimitriou Wanda G Voice interaction with and control of inspection equipment
US8306942B2 (en) * 2008-05-06 2012-11-06 Lawrence Livermore National Security, Llc Discriminant forest classification method and system
US9620106B2 (en) * 2014-07-30 2017-04-11 At&T Intellectual Property I, L.P. System and method for personalization in speech recogniton
CN108717854A (zh) * 2018-05-08 2018-10-30 哈尔滨理工大学 基于优化gfcc特征参数的说话人识别方法
CN111833842B (zh) * 2020-06-30 2023-11-03 讯飞智元信息科技有限公司 合成音模板发现方法、装置以及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221318A (zh) * 2017-05-12 2017-09-29 广东外语外贸大学 英语口语发音评分方法和系统
CN110111769A (zh) * 2019-04-28 2019-08-09 深圳信息职业技术学院 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN111128126A (zh) * 2019-12-30 2020-05-08 上海浩琨信息科技有限公司 多语种智能语音对话的方法及系统
CN112331178A (zh) * 2020-10-26 2021-02-05 昆明理工大学 一种用于低信噪比环境下的语种识别特征融合方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Chinese Text Synthesis Method Based on Word Order Rules;Yu Bin Shao et al;《Procedia Computer Science》;20200318;全文 *
Auditory Features with Vocal Track Length Normalization for Language Identification;Weiqiang Zhang et al;《ICALIP2008》;20080808;全文 *
基于 GFCC 和能量算子倒谱的语种识别;刘晶等;《云南大学学报(自然科学版)》;20211230;全文 *
电话语音语种识别算法研究;杜鑫;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20131115;全文 *

Also Published As

Publication number Publication date
CN113257226A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN106935248B (zh) 一种语音相似度检测方法及装置
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN105374352A (zh) 一种语音激活方法及系统
CN111462729B (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN101751919A (zh) 一种汉语口语重音自动检测方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN109360554A (zh) 一种基于语深度神经网络的语言识别方法
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
CN107564543A (zh) 一种高情感区分度的语音特征提取方法
CN114863937A (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
CN108735230B (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN113257226B (zh) 一种基于gfcc的改进特征参数的语种识别方法
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN102750950B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
CN115273908A (zh) 一种基于分类器融合的生猪咳嗽声音识别方法
CN111210845A (zh) 一种基于改进自相关特征的病理语音检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant