CN1787070A

CN1787070A - 用于语言学习机的片上系统

Info

Publication number: CN1787070A
Application number: CNA2005101279639A
Authority: CN
Inventors: 董明; 梁维谦; 丁玉国; 刘志; 刘润生
Original assignee: Lingshengxin Pronunciation Sci & Tech Co Ltd Beijing
Current assignee: Beijing tianxuewang Education Technology Co., Ltd.
Priority date: 2005-12-09
Filing date: 2005-12-09
Publication date: 2006-06-14
Anticipated expiration: 2025-12-09
Also published as: CN1787070B

Abstract

本发明涉及用于语言学习机的片上系统，属于语音技术和嵌入式系统领域，本系统包括语音处理芯片硬件模块以及固化在其上的操作系统模块、标准发音播放模块、录音模块、录音回放模块、语速调节模块和发音质量评价模块。语音处理芯片硬件模块可为16位或以上的通用或专用数字信号处理芯片。标准发音播放模块可采用宽带语音编解码技术，录音和录音回放模块可采用低码率的窄带语音编解码技术，语速调节模块具有调节范围大且失真小的特点、发音质量平年国家模块具有评价准确度高且稳健性好的特点。采用本发明的片上系统构成的嵌入式英语学习系统可以用于人机交互教学和客观的口语水平测试。

Description

用于语言学习机的片上系统

技术领域

本发明属于语音技术和嵌入式系统领域，尤其涉及具有语音端点和音量检测、录音、放音、语速调节以及发音质量评价功能的语言学习片上系统。

背景技术

机器辅助语言学习在上世纪九十年代开始研究和应用。目前市场上已经有多种嵌入式的语言学习机产品，如好记星和E百分等。它们都采用数字信号处理(DSP，Digital SignalProcessing)技术。硬件系统一般包括微控制器(Micro Control Unit，MCU)、DSP芯片、多媒体数字信号编解码器(CODEC)、快闪存储器(Flash Memory)、通用串行总线(USB)、键盘和液晶显示器(Liquid Crystal Display，LCD)等；其中MCU作为主控芯片，执行设备驱动和程序调度等操作系统程序，DSP执行应用算法程序。应用程序包括录音、放音、语速调节等基本模块，有些产品还带有mp3模块。功能上具有复读，跟读，跟读对比，文字同步显示，内容检索查询和语速可调节的放音等。这些语言学习产品大都可以通过互联网下载和更新学习材料。总结目前的语言学习机产品主要的问题在于：录音和放音采用PCM、ADPCM或MP3等编码方式，存储数据量大，占用了大量的硬件资源；语速调节会引发声音变调或是调节区间过小，无法满足语言学习的要求；不具备发音质量评价功能，学习者无法获取学习机的自动反馈。

目前国际了出现了一些的基于计算机的带有发音质量评价功能的语言学习产品，如美国Auralog公司Tell me More系列，美国Ordinate公司的PhonePass系列等。前者包括英语、法语、汉语和日语等多种语言，利用语音分析及模式识别技术评价学习者的发音，并能够检查和纠正学习的发音错误；后者主要用于英语的口语测试，通过电话信道或互联网接受用户的语音，评价用户的英语口语能力。这些产品虽然能够较好地进行发音质量评价，但却由于算法复杂性的问题只限于计算机平台，无法在嵌入式设备上实现。

目前市场上还未见基于嵌入式平台的具有发音评价功能的语言学习产品，而其所具有的便携性和交互性对于语言学习又是非常重要的。

发明内容

本发明的目的是为克服已有学习机技术的不足之处，提出一种全新的用于英语语言学习机的片上系统，该系统基于16位及以上的语音处理芯片，可实现说话人无关的发音质量评价，具有结构复杂度适中、评价准确度高和稳健性好的特点。利用本发明系统能够很容易地实现一台具有交互功能的嵌入式语言学习机。

本发明提出的用于语言学习机的片上系统，包括语音处理芯片硬件模块以及固化在其上的操作系统模块、标准发音播放模块、录音模块、录音回放模块、语速调节模块和发音质量评价模块；其特征在于，

A、所述语音处理芯片硬件模块，作为本片上系统的硬件平台(可为16位及以上的通用或专用数字信号处理芯片)；

B、所述操作系统模块，用于有效管理系统资源，驱动底层硬件，调度应用程序任务(可为实时或准实时的操作系统，要求系统内核小，占用资源小)；

C、所述标准发音播放模块，用于将预先压缩编码(宽带音频编码)的标准发音语音进行解码后播放；

D、所述录音模块，用于录制用户的语音并提取语音特征，该模块包括：

(1)用于将用户的模拟语音信号转换成数字语音的A/D模块；

(2)用于将该数字语音进行分帧成为分帧信号的分帧模块；

(3)用于检测当前分帧信号是否为语音的实时端点检测模块；

(4)用于检测音量是否适中的音量检测模块；

(5)用于对分帧语音进行压缩的编码模块(低码率窄带语音编码)；

(6)用于对分帧语音提取用于发音质量评价的语音特征的语音特征提取模块；

E、所述录音回放模块，用于对D(5)中所述编码模块压缩的数字语音进行解码播放；

F、所述语速调节模块，用于对所述标准发音播放模块和录音回放模块解码后的数字语音进行时域压扩得到语速改变后的数字语音；

G、所述发音质量评价模块，用于对用户发音质量进行评价，具体包括：

(1)用于训练基于音素的标准发音模型的模型训练模块；

(2)用于生成标准发音网络的网络生成模块；

(3)用于将所述语音特征提取模块提取的语音特征与网络生成模块生成的标准发音网络进行强制匹配的最优路径搜索模块；

(4)用于计算整句的发音质量分数的评分模块：利用所述最优路径搜索模块中所说的最优路径信息计算得到每帧语音特征的置信分数，并计算路径上每个状态的置信分数，再对最优路径上所有状态的置信分数取平均得到整句的置信分数；利用映射函数将所说的整句置信分数映射到主观评价分数区间，得到最终的发音质量分数。

所说的模块D(3)中的实时端点检测模块可包括：用于对所说的分帧语音进行计算得到时域对数能量的时域对数能量子模块；对所说的时域对数能量进行滤波得到用于端点检测的特征(以下简称为端检特征)的滑动平均滤波器(moving-average filter)；以及采用上限和下限双阈值对所说的端检特征进行端点检测，得到语音的起始和结束端点的有限状态机。

所说的模块D(6)中的用于发音质量评价的语音特征可为美尔频标倒谱系数(MelFrequency Cepstrum Coefficients，MFCC)，它利用了人耳的频率分辨特性。

所说的语速调节模块中的时频压扩可采用同步交迭相加法(The Synchronous OverlapAdd method，SOLA)的语音压扩方法实现(可以在0.4～5倍语速范围内进行任意调节，而失真很小)。

所说的模型训练模块G(1)中的标准发音模型可为基于音素的隐含马尔可夫模型(HMM，Hidden Markov Model)。该训练模块包括：采用英语朗读语音数据对所说的标准发音模型进行训练的子模块，和采用汉语说话人的英语语音数据对所说的标准发音模型进行汉语说话人口音的自适应得到最终的标准发音模型的自适应子模块。

所说的网络生成模块G(2)中生成的标准发音网络可为一个具有确定的起始节点和终止节点，当前节点只与其前序节点相关的不考虑文法的以HMM的状态为节点的线性网络；该网络生成模块具体可包括：用于对给定的文本进行单词切分，查找发音字典得到音素标注的切分子模块和利用所说的基于音素的标准发音模型得到以状态为节点的线性标准发音网络的标准发音网络生成子模块。

所说的最优路径搜索模块G(3)中的最优路径搜索采用了帧同步维特比(Viterbi)束搜索的方法实现。

本发明的特点及效果：

本发明基于16位及以上的语音处理芯片，可实现高性能的录音、放音、语速调节以及说话人无关的发音质量评价，具有结构复杂度适中、语音压缩率高、语音质量好、评价准确度高和稳健性好的特点。利用本发明系统能够很容易地实现一台具有交互功能的嵌入式语言学习机。

采用本发明的片上系统用于语言学习机实现的交互式英语学习系统在实际应用中取得了较好的性能。

附图说明

图1为本发明实施例的语音处理芯片硬件模块及其外围电路的框图。

图2为本发明实施例的操作系统模块的层次结构的框图。

图3为本发明实施例的用于语言学习的标准发音播放模块、录音模块、录音回放模块、语速调节模块和发音质量评价模块的连接关系框图。

图4为本发明实施例的发音质量评价模块中的标准发音模型的拓扑结构图；图4(a)表示停顿模型，图4(b)表示音素和静音模型。

图5为本发明实施例的发音质量评价模块中的标准发音网络的拓扑结构示意图；图5(a)表示整句以单词为节点的线性网络结构，图5(b)表示每一个单词以音素为节点的线性网络结构。

具体实施方式

本发明提出的一种用于语言学习机的片上系统实施例结合各图详细说明如下：

本发明的用于语言学习的片上系统的实施例包括语音处理芯片硬件模块以及固化在其上的操作系统模块、标准发音播放模块、录音模块、录音回放模块、语速调节模块和发音质量评价模块。

A、语音处理芯片硬件模块

本实施例的语音处理芯片硬件模块采用Infineon公司生产的UniSpeech芯片(内部主要集成了微控制器、数字信号处理器、存储器管理单元和片内存储器)，外围元件只需要再辅以NAND Flash存储器以及一颗高性能的音频编解码器(CODEC)就完成了主系统的基本设计，如图1所示。

B、操作系统模块

本实施例的操作系统模块采用由发明人自行开发的一个多任务准实时操作系统(命名为“TSARM”)产品，层次结构如图2所示，自底向上包括驱动层(驱动底层硬件)、调度层、服务层(包含基本的算法函数)、日志式Flash文件管理系统和用于语言学习的应用软件；其内核只有8KB。“TSARM”操作系统的调度层提供并发多任务准实时的调度机制，内建了任务程序运行时的动态Overlay管理；日志式Flash文件管理系统可以实现均衡写入和抗掉电两个重要的特性，均衡写入将使得Flash的每一个扇区以基本相同的频率被擦除写入，这样可以避免如FAT文件系统对于系统区域太过频繁的擦写而造成损坏的问题，延长Flash存储器的使用寿命。

以下各模块的组成实施例及各模块的连接关系如图3所示，分别说明如下：

C、标准发音播放模块

用于将预先压缩(宽带音频编码)的标准发音语音进行解码后播放的模块：本实施例采用ITU-T建议的G.722.1的音频编码方法对所说的标准发音的数字语音进行编码，编码后的码流为24kbit/s，将编码后的标准发音下装到嵌入式设备的存储器；播放时对压缩后的数字语音进行G.722.1解码，得到解码后的数字语音；所说的解码后的数字语音经过D/A变换，得到可供播放的模拟语音；

D、录音模块(如图3线框内所示)，包括：

(1)用于将模拟语音信号转换成数字语音的A/D模块：语音信号首先进行低通滤波，然后通过16bit线性A/D进行采样和量化，成为数字语音。采样频率为8kHz；

(2)用于将语音进行分帧的模块：对所说的数字语音进行分帧处理，得到具有准平稳性的分帧语音；

(3)用于检测当前分帧信号是否为语音的实时端点检测模块：对所说的分帧语音进行实时的端点检测，得到当前帧的语音激活标识(如果当前帧被判断为语音则语音激活标识为1，否则为0)，本实施例具体采用：

a、对所说的分帧语音计算短时对数能量；

b、利用滑动平均滤波的方法由所说的时域对数能量得到端检特征；所说的滑动平均滤波器如式(1)所示，其中g(·)是时域对数能量，t为当前帧数，h(·)为滑动平均滤波器，如式(2)所示，可见h(·)是一个奇对称函数，W可取13，f(·)如式(3)所示，其参数可为：A＝0.2208，s＝0.5383，[K₁...K₆]＝[1.583，1.468，-0.078，-0.036，-0.872，-0.56]。

F (t) = Σ_{i = - W}^{W} h (i) g (i + i) - - - (1)

h (i) = \{\begin{matrix} - f (- i) & - W \leq i < 0 \\ f (i) & 0 \leq i \leq W \end{matrix} - - - (2)

f(x)＝e^Ax[K₁sin(Ax)+K₂cos(Ax)]+e^-Ax[K₃sin(Ax)+K₄cos(Ax)]+K₅+K₆e^sx (3)

(上述实现方法参考图像处理中已有的图形边缘检测方法)

c、采用上限和下限双阈值和有限状态机结合，对所说的端检特征进行端点检测，得到语音的起始和结束端点：所说的端检特征F(t)在语音的起始端为正值，在结束端为负值，在静音段则接近为零。根据预先设定的上限、下限阈值和语音最短持续时间，控制每一帧语音在语音、静音和离开语音状态之间进行跳转。初始设定为静音状态(语音激活标识为0)，当F(t)达到上限阈值时输出语音的起始端点，进入语音状态(语音激活标识为1)。处于语音状态，当F(t)达到下限阈值时就进入了离开语音状态。处于离开语音状态的时间达到一个设定的阈值时输出语音的结束端点(语音激活标识重新置0)，关闭录音通道，端点检测结束。

(4)用于检测音量是否适中的音量检测模块：本实施例采用对所有语音激活标识为1的分帧语音进行音量检测，得到音量是否适中的标识：对最大能量区间的语音帧检查是否大于预先设定的阈值，大于则判定音量过大；对最小能量区间的语音帧检查是否小于预先设定的阈值，小于则判定音量过小；

(5)用于对分帧语音进行压缩的编码模块：本实施例采用ITU-T建议的G.723.1的语音编码方法对所说的标准发音的数字语音进行编码，编码后的码流为5.3kbit/s；将编码后的数字语音存入嵌入式设备的存储器；

(6)用于对分帧语音提取语音特征的模块：采用美尔频标倒谱系数(MFCC)作为语音特征；MFCC是根据人耳听觉的频率分辨特性计算出来的一种特征矢量，建立在傅立叶频谱分析的基础上，MFCC的计算方法为：首先对分帧语音进行快速傅立叶变换(FastFourier Transformation，FFT)得到信号的短时频谱，其次根据MEL频标把短时频谱等分成若干个带通组，其带通的频率响应为三角形，再次计算相应滤波器组的信号能量，最后通过离散余弦变换计算对应的倒谱系数；MFCC特征主要反映语音的静态特征，语音信号的动态特征可以用静态特征的一阶差分谱和二阶差分谱来描述。整个语音特征由MFCC参数、MFCC一阶、二阶差分系数、归一化能量系数及其一阶、二阶差分系数构成。每帧共包含39维特征；

E、录音回放模块

录音回放模块用于对模块D(5)压缩的数字语音进行解码播放的模块：本实施例采用ITU-T建议的G.723.1解码，得到解码后的数字语音；所说的解码后的数字语音经过D/A变换，得到可供播放的模拟语音；

F、语速调节模块

用于对模块C和模块E所说的解码后的数字语音进行时域压扩得到语速改变后的数字语音的模块：本实施例采用基于同步交迭相加法(SOLA)的时域压扩方法实现，对模块C和模块E所说的解码后的数字语音进行分帧处理；SOLA方法采用交迭相加法则(Overlap and add principle)来实现输入帧与输出帧交迭部分的合成。在交迭部分，新的输出帧是由上一输出帧和当前输入帧加权合成的，其中，上一输出帧采用一个渐减的加权函数，而当前输入帧则采用一个渐增的加权函数(例如，可以采用线性函数或升余弦函数)，这两个加权函数在每一点上的和均为1。而在交迭部分之后的部分，直接将当前输入帧赋给输出帧即可。第m帧的合成方法如下：

y (m S_{s} + k + j) = \{\begin{matrix} (1 - f (j)) y (m S_{s} + k + j) + f (j) x (m S_{a} + j) & for & 0 \leq j < L \\ x (m S_{a} + j) & for & L \leq j < N \end{matrix} - - - (4)

式中，k为“合成位置”，L为交迭部分长度，f(·)为加权函数。仅做到了交迭相加还不够，还需要保证交叠部分的两帧尽量相似。为了度量这种相似性，SOLA算法中引入归一化互相关系数。设上一合成帧与当前分析帧之间交迭部分的长度为L，归一化互相关系数如式(5)所示：

R_{m} (k) = \frac{Σ_{j = 0}^{L - 1} y (m S_{s} + k + j) x (m S_{a} + j)}{{[Σ_{j = 0}^{L - 1} y^{2} (m S_{s} + k + j) Σ_{j = 0}^{L - 1} x^{2} (m S_{a} + j)]}^{\frac{1}{2}}}, k_{\min} \leq k \leq k_{\max} - - - (5)

式中，[kmin，kmax]为搜索范围。可以选用最大的点k作为最大相似点，也即两帧之间的连接点。这样，在上一输出帧和当前输入帧交迭的部分，分别乘上一个加权函数；其后的部分直接将输入帧赋给输出帧，一帧语速改变后的数字语音就被合成出来了；所说的语速改变后的数字语音经过D/A变换，得到可供播放的模拟语音；

G、发音质量评价模块

本实施例的发音质量评价模块具体组成如下：

(1)用于训练标准发音模型的模型训练模块：

a、采用英语朗读语音数据对所说的标准发音模型进行训练的子模块：利用预先建立的包含大量英语朗读语音的训练数据库，采用Baum-Welch算法训练得到基于音素的标准发音模型(采用基于音素的隐含马尔可夫模型(Hidden Markov Model，HMM)作为标准发音模型。HMM是目前被广泛采用的统计语音识别模型。HMM从左向右的状态转移模型，能够很好地描叙语音的发音特点。本发明采用的音素和静音HM 模型包含3个状态，如图4(a)所示；停顿模型为单状态可跨越的HMM，如图4(b)所示；图4(a)和4(b)中开头和结尾以深色填充的语法节点用于将各个HMM连接起来，q_i表示HMM的状态。a_ij表示HMM的跳转概率。b_j(O_t)为HMM模型的状态输出的多流混合高斯密度概率分布函数)；

b、采用汉语说话人的英语语音数据对所说的标准发音模型进行汉语说话人口音的自适应得到最终的标准发音模型的自适应子模块：利用汉语说话人的发音质量主观评价优秀的英语语音数据，采用最大似然线性回归(Maximum Likelihood Linear Regression，MLLR)和最大后验概率(Maximum A Posteriori，MAP)串行的方法对所说的标准发音模型进行汉语说话人口音的自适应得到最终的标准发音模型，优化模型对汉语说话人的评价性能；将最终的标准发音模型下装到嵌入式设备的存储器；

(2)用于生成标准发音网络的网络生成模块：对给定的文本进行单词切分，查找发音字典得到音素标注，最后利用所说的基于音素的标准发音模型得到以状态为节点的线性标准发音网络(网络形式如图5所示，其中图5(a)为句子的以单词为节点的线性网络示例，起始节点为开始的静音(sil)，终止节点为结尾的静音(sil)，各个单词之间以停顿(sp)分开；图5(b)为每个单词(以单词“present”举例)内部的以音素为节点的线性网络，其中由箭头连接的节点(如“ER”)代表音素标注；每个音素内部即为如图4所示的以状态为节点的网络。)；将生成的标准发音网络下装到嵌入式设备的存储器；

(3)用于将所述语音特征提取模块提取的语音特征与网络生成模块生成的标准发音网络进行强制匹配的最优路径搜索模块：将模块D(5)中所说的用于发音质量评价的语音特征与所说的标准发音网络进行强制匹配(帧同步维特比(Viterbi)束搜索)，得到网络中所有可能的路径信息；利用所说的路径信息，从网络允许的终止节点回溯出最优路径；

(4)用于计算整句的发音质量分数的评分模块：利用所说的最优路径信息计算得到每帧语音特征的置信分数；进而计算得到每个状态的帧平均的置信分数；对最优路径上所有状态的置信分数取平均得到整句的置信分数；最后利用映射函数将所说的整句置信分数映射到主观评价分数区间，得到发音质量分数。

本实施例具有如下特点：

(1)具有模块集成度高，占用资源小，稳健性好等特点；

(2)语音处理芯片硬件模块具有体积小、重量轻、耗电省、成本低的突出特点；

(3)标准发音播放模块具有高压缩率与高音质兼顾，而且时延短、复杂性很低的特点；

(4)实时端点检测模块采用了滑动平均滤波器和有限状态机，提高了端点检测对英语语音的准确性和稳健性；

(5)录音模块具有高压缩率与较好音质的特点；

(6)语速调节模块具有调节范围大，失真小的特点。

(7)发音质量评价模块对汉语说话人的英语发音质量评价在评分等级为4级(优、良、中、差)时，与主观评价的相关性达到了0.74；结合丰富的课件形式，可以改变传统的学习机工作模式和课堂教学模式，使得语言学习系统具有交互能力。

Claims

1、一种用于语言学习机的片上系统，包括语音处理芯片硬件模块以及固化在其上的操作系统模块、标准发音播放模块、录音模块、录音回放模块、语速调节模块和发音质量评价模块；其特征在于，

A、所述语音处理芯片硬件模块，作为本片上系统的硬件平台；

B、所述操作系统模块，用于有效管理系统资源，驱动底层硬件，调度应用程序任务；

C、所述标准发音播放模块，用于将预先压缩编码的标准发音语音进行解码后播放；

(1)用于将用户的模拟语音信号转换成数字语音的A/D模块；

(2)用于将该数字语音进行分帧成为分帧信号的分帧模块；

(3)用于检测当前分帧信号是否为语音的实时端点检测模块；

(4)用于检测音量是否适中的音量检测模块；

(5)用于对分帧语音进行压缩的编码模块；

(1)用于训练基于音素的标准发音模型的模型训练模块；

(2)用于生成标准发音网络的网络生成模块；

2、如权利要求1所述的用于语言学习机的片上系统，其特征在于，所说的模块D(3)中的实时端点检测模块包括：用于对所说的分帧语音进行计算得到时域对数能量的时域对数能量子模块；对所说的时域对数能量进行滤波得到端检特征的滑动平均滤波器；以及采用上限和下限双阈值对所说的端检特征进行端点检测，得到语音的起始和结束端点的有限状态机。

3、如权利要求1所述的用于语言学习机的片上系统，其特征在于，所说的模块D(6)中的用于发音质量评价的语音特征为利用了人耳的频率分辨特性的美尔频标倒谱系数。

4、如权利要求1所述的用于语言学习机的片上系统，其特征在于，所说的语速调节模块中的时频压扩采用同步交迭相加法的语音压扩方法实现。

5、如权利要求1所述的用于语言学习机的片上系统，其特征在于，所说的模型训练模块G(1)中的标准发音模型为基于音素的隐含马尔可夫模型；该训练模块包括：采用英语朗读语音数据对所说的标准发音模型进行训练的子模块，和采用汉语说话人的英语语音数据对所说的标准发音模型进行汉语说话人口音的自适应得到最终的标准发音模型的自适应子模块。

6、如权利要求1所述的用于语言学习机的片上系统，其特征在于，所说的网络生成模块G(2)中生成的标准发音网络为一个具有确定的起始节点和终止节点，当前节点只与其前序节点相关的不考虑文法的以HMM的状态为节点的线性网络；该网络生成模块具体可包括：用于对给定的文本进行单词切分，查找发音字典得到音素标注的切分子模块和利用所说的基于音素的标准发音模型得到以状态为节点的线性标准发音网络的标准发音网络生成子模块。

7、如权利要求1所述的用于语言学习机的片上系统，其特征在于，所说的最优路径搜索模块G(3)中的最优路径搜索采用帧同步维特比束搜索。