CN102436815B - 一种应用于英语口语网络机考系统的语音识别装置 - Google Patents
一种应用于英语口语网络机考系统的语音识别装置 Download PDFInfo
- Publication number
- CN102436815B CN102436815B CN2011102689763A CN201110268976A CN102436815B CN 102436815 B CN102436815 B CN 102436815B CN 2011102689763 A CN2011102689763 A CN 2011102689763A CN 201110268976 A CN201110268976 A CN 201110268976A CN 102436815 B CN102436815 B CN 102436815B
- Authority
- CN
- China
- Prior art keywords
- voice
- training
- submodule
- code book
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种用于英语口语网络机考的语音识别装置,属于语音识别的应用领域。该装置由输入I/O、模数转换器、数字信号处理器模块、分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器、输出I/O组成。其中数字信号处理器模块包括特征提取子模块、训练子模块和识别子模块,完成对输入语音的训练和识别过程。该装置结构简单,具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销,语音识别率高,识别效果好,可以很好地应用于英语口语网络机考中。
Description
【技术领域】
本发明涉及一种语音识别装置。特别涉及一种用于英语口语网络机考的语音识别装置。
【背景技术】
我国教育部高等教育司于2007年5月启动基于计算机和网络的大学英语四、六级考试项目,并于2008年12月20日在全国53所高校实施大学英语网考点考试。随着我国四、六级网考点工作的开展将彻底改变长期以来语言考试中主要依靠纸质考试制度的弊端,无论对考生还是大学英语老师都是一个巨大的挑战,是英语教学理念中的一场革命。在大学英语网考的口语测试系统中,语音识别装置居于核心地位。在传统的语音识别装置的基础上,应用于英语口语网络机考的语音识别装置需要具有以下特性.
首先,英语口语网络机考系统一般是通过网络来提供终端和服务器之间的英语识别和评估服务的,因此对语音识别装置的一般要求是面对非特定人的。其次,语音识别装置需要对由终端机、传输网络和背景噪声所带来的不利影响具有较强的鲁棒性。此外,要求其具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销。因此,在这种情况下,传统的基于隐马尔科夫模型(HMM)的语音识别方法由于需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间,并且对于噪声的鲁棒性较差,因此无法应用于面向英语口语网络机考的语音识别装置。
【发明内容】
为了解决上述的缺陷和不足,本发明提供了一种智能电视终端。本发明所采用的技术方案是:
一种用于英语口语网络机考的语音识别装置,包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块;语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端;
在程序存储器里存放提示语音,在数据存储器里存放所有的码本及采样的语音数据,
所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块;由特征提取子模块和训练子模块完成训练流程,由特征提取子模块和识别子模块完成识别流程;
特征提取子模块对输入的语音提取相应的特征参数,步骤包括先对语音进行预加重,再加窗分帧,然后对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数;
对于训练流程,训练子模块对语音的特征参数,通过改进的矢量量化的训练算法,生成后续识别时需要用到的码本;
对于识别流程,识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离,选出距离最小的码本所在的类作为识别结果输出。
所述改进的矢量量化的训练算法,步骤包括:
首先用分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集;在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化;如此反复M次可产生含2M个矢量的码本,所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定(这些语音类别是根据网考的实际情况来,M=2~10,换算成类别的话数目是4~1024这样一个范围,这个类别范围内都可以用本方法。至于具体网考中有多少类别需要识别,直接用类别数求以2为底的对数,就可以得到M的取值了。),取值范围为M=2~10。
特征提取子模块对输入语音信号提取其相关的特征参数,过程为:将语音信号经过采样,1-aZ-1的预加重,并且通过加窗将其分为一帧一帧的语音;
对每一帧语音sn,首先进行线性预测分析,通过Levinson-Durbin算法求出其p阶的线性预测系数LPC a1,a2,...,ap;
接着,由LPC通过递推,获得倒谱系数c1,c2,...,cp,递推公式如下:
c1=a1
把倒谱系数进一步按人耳的听觉特性变换,得到如下所示的MEL倒谱参数:
其中,式(1)中的ck和式(2)中为cn表示倒谱系数,MCk表示美尔倒谱系数,n为迭代次数,k为MEL倒谱阶数,取n=k;迭代是从高往低,即n从大到0取值,最后求得的MEL倒谱系数放在MC0(0),MC1(0),...,MCp(0)中。
对于训练流程,训练子模块采用的是基于改进的矢量量化训练算法对输入的MEL倒谱系数进行训练,改进的矢量量化训练的步骤包括:
(a1)采用分裂法求取初始码本:
假设当前经过特征提取得到的特征矢量为X,其所在的集合为S;
然后在S中找一个与此质心的畸变为最大的矢量Xj,再在S中找一个与Xj的误差为最大的矢量Xk以Xj和Xk为基准,S中的矢量与Xk距离较近的矢量归于子集Sk,反之归于Sj;
(a2)采用LBG算法进行聚类,对初始生成的M个子集进行优化,经过迭代,产生含2M个矢量的码本。
所述LBG算法的步骤包括:
该装置结构简单,具有一定的实时性,并且具有较短的训练时间、较高的识别精度和较小的硬件存储开销,语音识别率高,识别效果好,可以很好地应用于英语口语网络机考中。
【附图说明】
图1是本发明的系统结构框图。
图2是本发明的数字信号处理器模块中各个子模块及其连接关系框图。
图3是本发明的数字信号处理器模块训练过程的工作流程图。
图4是本发明的数字信号处理器模块识别过程的工作流程图。
【具体实施方式】
下面结合附图和具体实施方式对本发明作进一步详细描述。
一种用于英语口语网络机考的语音识别装置,所述的语音识别装置包括:输入I/O,与输入I/O相连的模数转换器,与模数转换器相连的数字信号处理器模块C54X,分别通过程序总线与数据总线与数字信号处理器模块相连的程序存储器和数据存储器,以及与数字信号处理模块相连的输出I/O。
在所述的一种用于英语口语网络机考的语音识别装置中,所述的数字信号处理模块包括语音信号的特征提取子模块,训练子模块和识别子模块;训练流程由特征提取子模块和训练子模块完成,识别流程由特征提取子模块和识别子模块完成。
在所述的一种用于英语口语网络机考的语音识别装置中,所述的特征提取子模块完成对输入的语音提取相应的特征参数过程,该过程主要包括预加重,加窗分帧,对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数。
在所述的一种用于英语口语网络机考的语音识别装置中,所述的训练子模块完成对输入的用于训练的特征参数,通过改进的矢量量化的训练算法,生成后续识别时需要用到的码本。
在所述的一种用于英语口语网络机考的语音识别装置中,其特征在于,所述的识别子模块完成对输入的用于识别的特征参数,计算其与每个通过训练所生成的码本的欧氏距离,选出距离最小的码本所在的类作为识别结果输出。
所述的改进的矢量量化的训练算法主要包括如下过程:首先由分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集;在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法,如此反复M次可产生含2M个矢量的码本。此方法可以改进由于初始码本的选择不当而引起最终生成码本的劣化;M的值根据在英语口语网络机考中需要区分的英语语音类别进行设定。
图1是本发明的系统结构框图,选用的是TI公司的EVM板,其上的数字信号处理器(DSP)模块-C54x用以实现语音训练与识别的过程。由话筒等输入设备输入的语音送入EVM板上的输入I/O,而后进行模数转换(A/D),转换后的数字信号送入C54x进行训练或识别,最终将训练或识别的结果通过数据总线(Data buses)送往输出I/O进行输出。
为了满足英语口语网络机考系统对于实时性要求,在本语音识别装置中,需要对所有的浮点数据进行定点化,以提高效率。此外,在该装置中将所有的提示语音存放在程序存储器(Program Memory)里,而所有的码本及采样的语音数据都存放在数据存储器(DataMemory)里,程序存储器和数据存储器分别通过程序总线(Program buses)和数据总线(Databuses)与数字信号处理器模块C54x相连。
图2是本发明的数字信号处理模块中的各个子模块及其连接关系图。它主要包括三个子模块:语音信号的特征提取子模块,训练子模块和识别子模块。完整的训练流程由特征提取子模块和训练子模块完成,如图3所示。完整的识别流程由特征提取子模块和识别子模块完成,如图4所示。
特征提取子模块主要完成的是对输入语音信号提取其相关的特征参数。其具体过程为:将语音信号经过8KHz采样,1-aZ-1的预加重(a=0.95),并且通过加窗将其分为一帧一帧的语音(采用窗长为200个采样点,窗移为65个采样点的Hamming窗)。
对每一帧语音sn,首先进行线性预测分析,通过Levinson-Durbin算法求出其p阶的线性预测系数(LPC)a1,a2,...,ap。本装置中,p=11。
接着,由LPC通过递推,获得倒谱系数c1,c2,...,cp,递推公式如下:
c1=a1
根据人耳的听觉特性,人们对声音频率的分解能力大致符合对数特性,即低频部分比较细,高频部分比较粗。所以为了提高特征参数的识别性能,把倒谱系数进一步按人耳的听觉特性变换,得到如下所示的MEL倒谱参数。
这里,ck(式(2)中为cn)表示倒谱系数,MCk表示美尔倒谱系数,n为迭代次数,k为MEL倒谱阶数,取n=k。迭代是从高往低,即n从大到0取值,最后求得的MEL倒谱系数放在MC0(0),MC1(0),...,MCp(0)中。本例中,抽样频率为8kHz时,α取0.31。
训练子模块采用的是基于改进的矢量量化(VQ)的训练算法对输入的MEL倒谱系数进行训练。与基于HMM的训练算法相比,基于改进的VQ训练算法所需的模型训练数据,训练与识别时间,工作存储空间都很小。改进的矢量量化训练主要包括如下两个步骤:
(1)采用分裂法求取初始码本。
假设当前经过特征提取得到的特征矢量为X,其所在的集合为S。首先求出样本点集合S中全体样本X的质心Y然后在S中找一个与此质心的畸变为最大的矢量Xj,再在S中找一个与Xj的误差为最大的矢量Xk以Xj和Xk为基准,S中的矢量与Xk距离较近的矢量归于子集Sk,反之归于Sj。这也称为以Xj和Xk为基准的Voronoi划分。依次类推,经过B次分裂就可以得到C个子集(C=2B)。这C个子集的质心可作为初始码字S的初始子集划分为
(2)采用Linde-Buzo-Gray(LBG)算法进行聚类,对初始生成的M个子集进行优化,经过一定次数的迭代,就可以产生含2M个矢量的码本。LBG算法的步骤如下:
5.如果δ(m)小于某个预先设定的阈值(一般可以选择10-5),则迭代终止,输出作为训练成的码本的码字。否则转到步骤1继续迭代。
由于在英语口语网络机考系统的测试中发现,用LBG算法生成的码本的好坏与初始码本有很大关系,所以我们采用了改进的矢量量化的训练算法即首先由分裂法产生只有两个矢量的初始码本,再由LBG算法聚类,生成两个子集;在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化,如此反复可产生含2M个矢量的码本。此方法可以改进由于初始码本的选择不当而引起最终生成码本的劣化。M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定,取值范围为M=2~10。
识别子模块的中主要完成的工作是计算经过特征提取后的语音的特征矢量与每个通过训练生成的码本的欧氏距离,并且比较,选出距离最小的码本所在的类作为识别结果输出。
利用上述所述的语音识别装置进行不特定话者英语的六个塞音音族"b"、"p"、"d"、"t"、"g"、"k"的识别实验。选择《大学一年级语音语音练习手册》中IV.Exercisesfor the English consonants的练习题,由5名男性在读研究生对每个音节发音三遍,其中二遍做学习用(共1800个),一遍作识别用音节(共900个)。实验结果表明,该语音识别装置的正确识别率能达到98%以上,从而可以成功地应用于英语口语网络机考。
在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在不脱离本发明所保护的范围和精神的情况下,可以根据不同的实际需要设计出各种实施方式。
Claims (4)
1.一种用于英语口语网络机考的语音识别装置,其特征在于,包括输入接口模块、模数转换器、数字信号处理器模块、程序存储器、数据存储器和输出接口模块;语音信号依次经输入接口模块和数转换器连接数字信号处理器模块的信号输入端;数字信号处理器模块的信号输出端连接输出接口模块;所述程序存储器和数据存储器通过程序/数据总线连接数字信号处理模块的通用输入/输出端;
在程序存储器里存放提示语音,在数据存储器里存放所有的码本及采样的语音数据,
所述的数字信号处理模块包括特征提取子模块、训练子模块和识别子模块;由特征提取子模块和训练子模块完成训练流程,由特征提取子模块和识别子模块完成识别流程;
特征提取子模块对输入的语音提取相应的特征参数,步骤包括先对语音进行预加重,再加窗分帧,然后对每一帧语音求取MEL倒谱系数,用该系数作为该帧语音的特征参数;
对于训练流程,训练子模块对语音的特征参数,通过改进的矢量量化的训练算法,生成后续识别时需要用到的码本;
对于识别流程,识别子模块计算语音的特征参数与每个通过训练所生成的码本之间的欧氏距离,选出距离最小的码本所在的类作为识别结果输出;
特征提取子模块对输入语音信号提取其相关的特征参数,过程为:将语音信号经过采样,1-aZ-1的预加重,并且通过加窗将其分为一帧一帧的语音;
对每一帧语音sn,首先进行线性预测分析,通过Levinson-Durbin算法求出其p阶的线性预测系数LPC a1,a2,...,ap;
接着,由LPC通过递推,获得倒谱系数c1,c2,...,cp,递推公式如下:
c1=a1
把倒谱系数进一步按人耳的听觉特性变换,得到如下所示的MEL倒谱参数:
其中,式(1)中的ck和式(2)中为cn表示倒谱系数,MCk表示美尔倒谱系数,n为迭代次数,k为MEL倒谱阶数,取n=k;迭代是从高往低,即n从大到0取值,最后求得的MEL倒谱系数放在MC0(0),MC1(0),...,MCp(0)中。
2.根据权利要求1所述的装置,其特征是所述改进的矢量量化的训练算法,步骤包括:
首先用分裂法产生只有两个矢量的初始码本,再用LBG算法聚类,生成两个子集;在两个子集中分别用分裂法各产生两个矢量的码本,再用LBG算法优化;如此反复M次可产生含2M个矢量的码本,所述M的值根据在英语口语网络机考中具体需要区分的英语语音类别进行设定,取值范围为M=2~10。
3.根据权利要求1所述的装置,其特征是对于训练流程,训练子模块采用的是基于改进的矢量量化训练算法对输入的MEL倒谱系数进行训练,改进的矢量量化训练的步骤包括:
(a1)采用分裂法求取初始码本:
假设当前经过特征提取得到的特征矢量为X,其所在的集合为S;
然后在S中找一个与此质心的畸变为最大的矢量Xj,再在S中找一个与Xj的误差为最大的矢量Xk以Xj和Xk为基准,S中的矢量与Xk距离较近的矢量归于子集Sk,反之归于Sj;
(a2)采用LBG算法进行聚类,对初始生成的M个子集进行优化,经过迭代,产生含2M个矢量的码本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102689763A CN102436815B (zh) | 2011-09-13 | 2011-09-13 | 一种应用于英语口语网络机考系统的语音识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102689763A CN102436815B (zh) | 2011-09-13 | 2011-09-13 | 一种应用于英语口语网络机考系统的语音识别装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102436815A CN102436815A (zh) | 2012-05-02 |
CN102436815B true CN102436815B (zh) | 2012-12-19 |
Family
ID=45984837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102689763A Expired - Fee Related CN102436815B (zh) | 2011-09-13 | 2011-09-13 | 一种应用于英语口语网络机考系统的语音识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102436815B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3547261B1 (en) * | 2012-03-29 | 2023-08-09 | Telefonaktiebolaget LM Ericsson (publ) | Vector quantizer |
CN103065642B (zh) * | 2012-12-31 | 2015-06-17 | 安徽科大讯飞信息科技股份有限公司 | 检测口语考试作弊的方法及系统 |
CN104505089B (zh) * | 2014-12-17 | 2018-05-18 | 福建网龙计算机网络信息技术有限公司 | 口语纠错方法及设备 |
CN105679321B (zh) * | 2016-01-29 | 2020-05-19 | 宇龙计算机通信科技(深圳)有限公司 | 语音识别方法、装置及终端 |
CN105931632B (zh) * | 2016-06-13 | 2019-10-18 | 科大讯飞股份有限公司 | 口考作弊检测方法和装置 |
CN109036429A (zh) * | 2018-07-25 | 2018-12-18 | 浪潮电子信息产业股份有限公司 | 一种基于云服务的语音匹配评分查询方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030027990A (ko) * | 2001-09-27 | 2003-04-08 | 주식회사 아이티엔방송 | 음성 인식 시스템을 이용한 인터넷 영어 능력 평가 시스템및 그 방법 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习系统 |
CN101826263A (zh) * | 2009-03-04 | 2010-09-08 | 中国科学院自动化研究所 | 基于客观标准的自动化口语评估系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4801108B2 (ja) * | 2008-03-06 | 2011-10-26 | 日本電信電話株式会社 | 音声認識装置、方法、プログラム及びその記録媒体 |
-
2011
- 2011-09-13 CN CN2011102689763A patent/CN102436815B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030027990A (ko) * | 2001-09-27 | 2003-04-08 | 주식회사 아이티엔방송 | 음성 인식 시스템을 이용한 인터넷 영어 능력 평가 시스템및 그 방법 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习系统 |
CN101826263A (zh) * | 2009-03-04 | 2010-09-08 | 中国科学院自动化研究所 | 基于客观标准的自动化口语评估系统 |
Non-Patent Citations (3)
Title |
---|
JP特开2009-210976A 2009.09.17 |
车载环境下语音识别方法研究;马龙华;《中国博士学位论文全文数据库》;20100615(第6期);正文第56页第18-19行、第102页第13行-第103页第13行、第108页图6.2 * |
马龙华.车载环境下语音识别方法研究.《中国博士学位论文全文数据库》.2010,(第6期), |
Also Published As
Publication number | Publication date |
---|---|
CN102436815A (zh) | 2012-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
McLaren et al. | Advances in deep neural network approaches to speaker recognition | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN102436815B (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Revathi et al. | Speaker independent continuous speech and isolated digit recognition using VQ and HMM | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN110827844A (zh) | 一种基于bp网络的噪声分类方法 | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Yılmaz et al. | Noise robust exemplar matching using sparse representations of speech | |
Parthasarathi et al. | Wordless sounds: Robust speaker diarization using privacy-preserving audio representations | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Akila et al. | Isolated Tamil word speech recognition system using HTK | |
Zhang et al. | Recognition-synthesis based non-parallel voice conversion with adversarial learning | |
US20230178069A1 (en) | Methods and systems for synthesising speech from text | |
CN202307118U (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
Barman et al. | State of the art review of speech recognition using genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121219 Termination date: 20150913 |
|
EXPY | Termination of patent right or utility model |