CN101145283A - 具有发音质量评价的嵌入式语言教学机 - Google Patents
具有发音质量评价的嵌入式语言教学机 Download PDFInfo
- Publication number
- CN101145283A CN101145283A CNA2006101272174A CN200610127217A CN101145283A CN 101145283 A CN101145283 A CN 101145283A CN A2006101272174 A CNA2006101272174 A CN A2006101272174A CN 200610127217 A CN200610127217 A CN 200610127217A CN 101145283 A CN101145283 A CN 101145283A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- pronunciation
- data
- processing chip
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
具有发音质量评价的嵌入式语言教学机,其包括硬件平台和软件系统。软件系统包括系统程序、算法程序和应用程序,在所述硬件平台的语音处理芯片上运行。所述算法程序包括语音的编解码程序和发音质量评价算法程序,具体的程序模块包括学习内容音频数据的播放、录音、录音回放、语速调节以及发音质量评价。本发明的有发音质量评价的嵌入式语言教学机,解决了现有学习机的缺陷,不但可以实现现有学习机的单词和语句学习、阅读、练习和测试等功能,而且融入了对学习者发音质量进行评价的功能和互动式的教学思想。
Description
技术领域
本发明属于语音技术和嵌入式系统领域,尤其涉及具有发音质量评价的嵌入式语言教学机。
背景技术
机器辅助语言学习在上世纪九十年代开始研究和应用。目前市场上已经有多种嵌入式的英语学习机产品,如好记星和E百分等。它们都采用数字信号处理(Digital Signal Processing,以下简称DSP)技术。硬件系统一般包括微控制器(Micro Control Unit,以下简称MCU)DSP芯片、多媒体数字信号编解码器(Coder-Decoder,以下简称CODEC)快闪存储器(Flash Memory)通用串行总线(Universal Serial Bus,以下简称USB)键盘和液晶显示器(Liquid Crystal Display,简称LCD)等;其中MCU作为主控芯片,执行设备驱动和程序调度等操作系统程序,DSP执行应用算法程序。功能上具有内容检索查询,复读,跟读,跟读对比,文字同步显示,语速可调节的放音等,有些产品还具有MP3功能。这些语言学习产品大都可以通过互联网下载和更新学习材料。
总结目前语言学习机产品的主要问题在于:学习过程基本是学习者阅读或收听学习内容,机器对学习者的发音质量不能进行评价,缺乏互动的学习过程枯燥乏味。因此,实现具有互动性学习功能、能够对学习者的发音质量进行评价的新一代学习机是非常重要和必然的。
发明内容
本发明的目的是为了突破现有学习机的缺陷,提供一种除了实现现有学习机的单词和语句学习、语言阅读、语言练习和测试等功能外,还融入对学习者发音质量进行评价的功能和互动式的语言教学思想,对学习者的单词和语句跟读,能给出发音质量的分数或等级,让学习者自我了解发音是否规范正确;此外还引入互动式教学思想,模拟现实的课堂教学,讲解、提问、评价等学习环节交错进行,对学习者的语音或按键回答做出评判,同时可以根据回答结果选择后继教学内容的教学机。
本发明提供的具有发音质量评价的嵌入式教学机,包括硬件平台和软件系统;其特点是:
其硬件平台包括电池和电源模块、语音处理芯片、闪烁存储器、CODEC、液晶显示屏、键盘、麦克、语音功率放大芯片、喇叭和耳机插座、USB接口芯片;其中上述电池和电源模块为上述的硬件平台提供电源;上述语音处理芯片与上述麦克相连,学习者的语音信号通过上述麦克传送给上述语音处理芯片,上述语音处理芯片对上述语音信号至少进行压缩、评价处理;上述语音处理芯片与上述闪烁存储器相连,完成程序的加载和数据的存储;上述语音处理芯片与上述键盘相连,接受上述键盘的按键消息;上述语音处理芯片与上述液晶显示屏相连,控制显示屏的刷新显示;上述语音处理芯片与上述CODEC相连,上述CODEC输出模拟音频信号,上述音频信号经上述语音功率放大芯片放大通过上述喇叭输出声音,上述音频信号也可通过上述耳机插座直接外接耳机输出声音;上述语音处理芯片与上述USB接口芯片相连,实现与计算机的通讯;
其软件系统包括系统程序、算法程序和应用程序,在上述的语音处理芯片上运行;其中系统程序是准实时的操作系统,配置和驱动上述其他器件,实现上述的语音处理芯片与外围器件的通信,调用算法程序和应用程序,控制系统的流程;上述算法程序完成语音的编译码、学习者发音质量评价的算法;上述应用程序是开放式软件平台,解释具体的学习课件。
具有发音质量评价的嵌入式教学机硬件平台的具体电路连接与功能说明如下:
(1)上述语音处理芯片为MCU和DSP,上述MCU控制外围器件,上述DSP运行语音的编解码程序和发音质量评价算法程序;
(2)上述语音处理芯片与上述闪烁存储器之间有双向数据、地址和控制信号线的连接,上述语音处理芯片向上述闪烁存储器读写程序与数据内容,完成程序的加载和数据的存储;
(3)上述语音处理芯片与上述键盘有控制信号和数据线连接;
(4)上述语音处理芯片与上述液晶显示屏有双向数据、地址和控制信号线的连接,上述语音处理芯片从上述液晶显示屏读出当前显示的数据,上述语音处理芯片向液晶显示屏写入需在上述液晶显示屏重新显示的数据;
(5)上述语音处理芯片与上述CODEC有控制信号线和数据线的连接;语音处理芯片输出音频数据到所述的CODEC;
(6)语音处理芯片与USB接口芯片有控制信号线和双向数据的连接。
上述算法程序的具体程序模块包括学习内容音频数据的播放、录音、录音回放、语速调节以及发音质量评价;其中:
(1)学习内容音频数据的播放模块中,采用低码率和高音质的音频编码方法压缩编码后的压缩语音先解码成数字语音,再经过D/A变换得到可供播放的模拟语音;
(2)录音模块中,模拟语音信号经过A/D变换,得到数字语音并进行分帧,进行实时的端点检测和音量检测,对上述分帧语音进行低码率压缩编码得到压缩语音,并提取用于发音质量评价的语音特征;
(3)录音回放模块中,对(2)所述的压缩编码后的压缩语音进行解码得到数字语音,上述数字语音经过D/A变换,得到可供播放的模拟语音;
(4)语速调节模块中,对(1)和(3)所述的解码后的数字语音进行时域压扩,得到语速改变后的数字语音,语速改变后的数字语音经过D/A变换,得到可供播放的模拟语音;
(5)发音质量评价模块中,利用(2)中所述的用于发音质量评价的语音特征、预先训练好的标准发音模型和预先生成的标准发音网络进行发音质量评价,得到发音质量的评分结果。
上述应用程序是一个解释具体学习课件的开放式软件平台,学习内容先在计算机上组织并编译成一个课件文件,课件需要组织的内容包括学习文本、标准发音、标准发音的字幕、为进行发音质量评价所需的标准发音的网络和预先训练好的标准发音模型;通过课件设计后的课件文件通过usB接口下载到嵌入式设备,上述应用程序解释上述课件文件,控制学习流程,至少实现单词学习、语句学习、课堂学习、语言练习、口语测试和发音质量评价。
上述课件设计包括课件编排和课件保存两个方面,上述课件编排是指按照数据结构实现学习的流程框架和学习功能,上述课件保存是指上述学习内容通过上述课件编排形成的数据包的保存和索引查询。
上述课件文件内容采取菜单和脚本的方式编排,每一级菜单或脚本编制成一个独立的数据包并被分别独立编号,多个菜单和脚本形成一个分叉树结构,脚本必须处于分叉树结构的末端;学习文本通过处于所述分叉树结构中不同层次的菜单显示,单个菜单中包含多个菜单项,菜单项又包括需显示的内容和对该菜单项的操作两部分;对于每一个菜单,可以上翻选择并显示菜单的上一个菜单项,下翻选择并显示菜单的下一个菜单项,后退到上一级菜单和进入到下一级操作,下一级的操作是菜单或者脚本。
上述脚本由操作命令顺序构成,上述操作命令由命令关键字和命令参数构成,上述命令关键字标识操作类型;上述操作命令的长度固定为某字节数或其倍数;上述操作类型至少包括放音、录音、简单评分、复杂评分、暂停、延时;评分机制分为简单评分和复杂评分,上述简单评分仅仅给出发音质量的评价,上述复杂评分根据上一次的发音质量评价结果给出不同的反馈,进入不同的后续流程;上述发音质量评价用脚本实现,该脚本结构包括三个操作命令,第一步播放标准音并显示字幕,第二步学习者跟读标准音并录音,第三步给出跟读的评价;上述互动式课堂学习也用脚本实现,至少由放音、录音、暂停、延时、简单评分、复杂评分操作命令组合实现;在放音和录音操作时,液晶屏幕会有同步的字幕显示;上述菜单实现学习内容的层次结构,上述脚本实现学习的顺序过程。
上述课件按菜单和脚本的方式编排后,需要保存的数据内容包括菜单、脚本、标准发音、标准发音的字幕、标准发音的网络,预先训练好的标准发音模型共六类数据;上述数据类中的每一项都是一个数据包,将数据类的数据包分别独立从零开始顺序编号,相同编号的数据包再合成一个数据项;上述课件保存分为索引头和具体的数据项两部分,索引头的每一条索引项长度固定,索引项对应编号相同的数据项,依次记录数据项中数据包的相对偏移地址和数据包的长度;数据项按编号从小到大顺序保存。
本发明提供了一种具有词汇和语句学习、互动式课堂教学、语言练习和测试等功能,能对学习者发音质量评价的嵌入式教学机。该发明具有以下优点:1.对学习者的发音质量进行分数或等级评价;2.模拟现实的课堂教学方式,提供互动式的学习过程;3.实现个人口语能力和发音质量的测试,记录各次测试成绩,方便查询;4.一个开放式的软件平台,学习者可以网上下载丰富的课件,也可以自己编制学习课件内容;5.利用USB通讯接口方便快捷更新学习内容;6.单一语音处理芯片实现控制和算法,具有体积小、重量轻、耗电省、成本低的突出特点;7.对语音进行压缩处理,占用存储空间小。
下面结合附图,对本发明的具体实施作进一步的详细说明。对于所属技术领域的技术人员而言,从对本发明的详细说明中,本发明的上述和其他目的、特征和优点将显而易见。
附图说明
图1为本发明一较佳实施例的总体结构框图。
图2为本发明一较佳实施例的系统软件的结构方框图。
图3为本发明一较佳实施例的课件实例的结构图。
图4为本发明一较佳实施例的课堂教学实例的脚本结构图。
图5为本发明一较佳实施例的课件索引头结构图。
具体实施方式
本发明设计的具有发音质量评价的嵌入式教学机的实施例,结合附图详细说明如下:
请参照图1,该图是本发明一较佳实施例的总体结构框图。可以看出:本发明的具有发音质量评价的嵌入式教学机的硬件平台组成为:U0电池模块(本实施例采用带电源管理的锂电池模块);U1语音处理芯片(本实施例采用Infineon公司生产的UniSpeech芯片);U2闪烁存储器(本实施例采用三星公司生产的K9F2808U0B芯片);U3键盘;U4液晶显示屏;U5麦克;U6多媒体数字信号编解码芯片(CODEC)(本实施例采用TLV320AIC23芯片);U7音频输出插座;U8音频功率放大芯片(本实施例采用LM4871芯片);U9喇叭;U10 USB接口芯片(本实施例采用PDIUSBD12芯片)。
本实施例的电路连接与功能说明如下:
1、U0电池模块为本实施例的硬件平台提供电源。
2、U1语音处理芯片为MCU和DSP双核结构,MCU控制外围器件,DSP运行语音编解码和学习者发音质量评价算法程序。
3、U1与U2之间有双向数据、地址和控制信号线的连接,U1语音处理芯片向U2闪烁存储器读写程序与数据内容。
4、U1与U3有控制信号和数据线连接,U1语音处理芯片接收U3键盘的按键消息。
5、U1与U4有双向数据、地址和控制信号线的连接,U1语音处理芯片控制U4液晶显示屏的更新显示,U1从U4读出当前显示的数据,U1向U4写入需在U4重新显示的数据。
6、学习者的语音信号通过U5麦克传送给U1,U1对所述的语音信号进行压缩、评价等处理。
7、U1与U6有控制信号线和数据线的连接,U1输出的音频数据传送给U6进行解码形成音频信号,所述的音频信号可以选择通过插到U7的耳机输出或经U8功率放大后由U9喇叭输出。
8、U1与U10有控制信号线和双向数据的连接,U1语音处理芯片通过U10 USB通讯接口芯片实现与计算机的通讯。
本发明的软件系统包括系统程序、算法程序和应用程序,在所述的语音处理芯片上运行。其中,系统程序是准实时的操作系统,内核小,占用资源少。系统程序配置和驱动所述的其它器件,实现所述的语音处理芯片与所述的外围器件的通信;系统程序调用所述的算法程序和所述的应用程序,控制系统的流程。
下面请参照图2,该图是本发明一较佳实施例的系统软件的结构方框图。本发明一较佳实施例的软件系统分为系统程序、算法程序和应用程序,在U1语音处理芯片上运行。系统程序是整个软件系统的核心,为准实时操作系统,包括硬件驱动和系统调度两部分。硬件驱动是指控制外围器件,读写U2闪烁存储器的数据,处理U3键盘的按键消息,控制U4液晶显示屏的显示,向U6传送数字语音数据以及控制U10实现与计算机的USB通讯。系统调度是指系统程序调用所述的算法程序和所述的应用程序,控制系统的运行流程,实现机器的教学功能。
所述的算法程序包括语音编解码程序和发音评价程序,其程序的特点是需处理的数据量大、运算量大。具体的程序模块包括学习内容音频数据的播放、录音、录音回放、语速调节以及发音质量评价,每个模块的实施例详细说明如下:
模块1、学习内容音频数据的播放
(a)根据学习内容预先准备好的学习内容音频数据的数字语音,采样率为16kHz,量化位数为16bit,本实施例采用基于多链路骨干技术(MultiLink Trunking简称MLT)的音频编码方法对所述的学习内容音频数据的数字语音进行压缩编码,编码后的码流为24 kbit/s;
(b)对压缩编码后的数字语音进行解码,得到解码后的数字语音;
(c)所述的解码后的数字语音经过D/A变换,得到可供播放的模拟语音。
模块2、录音
(a)麦克输入的模拟语音信号首先进行低通滤波,然后通过16bit线性A/D进行采样和量化,成为数字语音,采样频率为8kHz;
(b)对所述的数字语音进行分帧处理,得到具有准平稳性的分帧语音;对所述的分帧语音进行实时的端点检测,得到当前帧的语音激活标识(如果当前帧被判断为语音则语音激活标识为1,否则为0);
(c)对所有语音激活标识为1的分帧语音进行音量检测,得到音量是否适中的标识:对最大能量区间的语音帧检查是否大于预先设定的阈值,大于则判定音量过大;对最小能量区间的语音帧检查是否小于预先设定的阈值,小于则判定音量过小;
(d)对所有语音激活标识为1的分帧语音进行低码率压缩编码,得到压缩编码后的数字语音,本实施例的语音编码采用代数码激励线性预测(Algebraic-Code-Excited Linear-Prediction,简称ACELP)的方法,编码后的码流为5.3 kbit/s,该编码方法根据线性预测分析--合成编码的原理编码并试图极小化感知加权误差信号。编码器在每240个采样点的帧上操作,相当于8kHz采样速率下的30ms;
(e)对所有语音激活标识为1的分帧语音提取用于发音质量评价的语音特征。本实施例采用美尔频标倒谱系数(Mel-Frequency CeptralCoefficients以下简称MFCC)作为语音特征;整个语音特征由MFCC参数、MFCC一阶、二阶差分系数、归一化能量系数及其一阶、二阶差分系数构成,每帧共包含39维特征。
模块3、录音回放
(a)对模块2(d)中所述的压缩编码后的数字语音进行解码,得到解码后的数字语音;
(b)所述的解码后的数字语音经过D/A变换,得到可供播放的模拟语音。
模块4、语速调节
(a)对模块1(b)和模块3(a)所述的解码后的数字语音进行时域压扩,得到语速改变后的数字语音,本实施例采用基于同步交迭相加法(简称SOLA)的时域压扩方法;
(b)所述的语速改变后的数字语音经过D/A变换,得到可供播放的模拟语音。
模块5、发音质量评价
利用模块2(e)中所述的用于发音质量评价的语音特征、预先训练好的标准发音模型和预先生成的标准发音网络进行发音质量评价,得到发音质量的评分结果。具体算法说明如下:
(a)利用预先建立的包含大量朗读语音的训练数据库,训练得到基于音素的标准发音模型,本实施例采用基于音素的隐含马尔可夫模型(Hidden Markov Mode1以下简称HMM)作为标准发音模型,HMM是目前被广泛采用的统计语音识别模型;
(b)对给定的跟读发音文本进行单词切分,查找发音字典得到音素标注,最后利用所述的基于音素的标准发音模型得到以状态为节点的线性标准发音网络;
(c)将模块2(e)中所述的用于发音质量评价的语音特征与所述的标准发音网络进行强制匹配(帧同步维特比(Viterbi)束搜索),得到网络中所有可能的路径信息;利用所述的路径信息,从网络允许的终止节点回溯出最优路径;利用所述的最优路径信息计算得到每帧语音特征的置信分数;进而计算得到每个状态的帧平均的置信分数;对最优路径上所有状态的置信分数取平均得到整句的置信分数;最后利用映射函数将所述的整句置信分数映射到主观评价分数区间,得到发音质量分数。
本实施例的应用程序是一个开放式软件平台,用于课件解释。课件需要组织的内容有学习文本、标准发音、标准发音的字幕、为了进行发音质量评价所需的标准发音的网络和预先训练好的标准发音模型。课件的设计包括课件的编排和课件的保存两个方面,课件的编排采取菜单和脚本结合的方式,本发明一较佳实施例的课件实例的结构图如图3所示。所述的课件是各级层次结构,处于不同层次的多个菜单和脚本形成一个分叉树结构,脚本必须处于分叉树结构的末端,每一级菜单或脚本编制成一个独立的数据包并被分别独立编号。
所述的菜单数据包完全采用文本字符写成(支持中文),本实施例的某具体菜单如图3中的菜单0001所示:所述的菜单可以包括多个菜单项,菜单项的数据格式固定为:~H菜单项的内容~M对该菜单项的操作~T。所述的菜单项分为两部分,第一部分为需要在液晶屏幕中显示的内容,第二部分是对该菜单项的操作。所述的菜单项的显示内容为文本形式,如要显示~字符,使用~~。所述的菜单项的内容可以在液晶屏山多行显示,但是在反白选择所述的菜单项内容时只反白选择所述的菜单项内容的第一行。对该菜单项的操作是指所述的菜单项对不同的按键的响应和所述的菜单项在液晶屏幕显示时的格式控制。所述的菜单项的操作的数据格式是:B+KMCabcd+KSCabcd,每一个字母代表一个字符数据。所述的数据格式的第一位B默认为反白控制,B为字符‘0’,表示所述的菜单项不用反白,B为字符‘1’,表示所述的菜单项第一行反白。所述的数据格式的第二项KMCabcd,表示当按相应操作键时进入下一级菜单的操作。字符K表示操作键的编号,只有对应键才能激活所述的操作,abcd是十进制数字,为进入的下一级菜单的数据包的编号。所述的数据格式的第三项KSCabcd,表示当按相应操作键时进入下一级脚本的操作。字符K表示操作键的编号,只有对应键才能激活所述的操作,abcd是十进制数字,为进入的下一级脚本的数据包的编号,C是脚本操作控制选项,当C为字符‘0’,不启动下一级脚本的字幕显示;当C为字符‘1’,启动下一级脚本的字幕显示。所述的数据格式的第二项和第三项可以根据按键有多项或没有。对于所述的每一个菜单,可以上翻选中并显示所述菜单的上一个菜单项,下翻选中并显示所述菜单的下一个菜单项,后退到上一级菜单和进入到下一级操作,所述的下一级的操作可以是菜单或者脚本。
所述的脚本是一系列的操作命令,本实施例的操作命令的结构如图3中的脚本0001所示:所述的操作命令由命令关键字(含标记字和控制字)和命令参数构成,所述的命令关键字标识所述的操作的类型。所述的操作的类型包括放音、录音、简单评分、复杂评分、暂停、延时等。评分机制分为简单评分和复杂评分,所述的简单评分仅仅给出发音质量的评价,所述的复杂评分可以根据上一次的发音质量评价结果给出不同的反馈,进入不同的后续流程。所述的操作命令采取固定长度结构,长度是固定长度16字节或者其倍数,所述的命令关键字的控制字占一个字节,标识操作的类型。所述的标记字有两个控制功能:1.标记包括所述标记字以下的16个字节是一项新的操作命令或者是上一项操作命令的延续;2.标记操作命令是否是快进点,快进点指在解释脚本并运行操作命令对应的操作时按快进键或快退键时可以调用解释的操作命令的起点。标志字只能取三种值,标记字为0X00,表示以下16字节是上一脚本命令的延续,标记字为0XF0表示新的脚本命令开始,但不是快进点,标记字为0XFF表示新的脚本命令开始,也是快进点。命令参数与操作类型相关,例如标准发音的数据包的编号,字幕的编号等信息。
本实施例中对学习者发音评价用脚本实现,脚本结构包括三个操作命令,第一步播放标准音并显示字幕,第二步学习者跟读所述的标准音并录音,第三步给出所述的跟读的评价。本实施例的互动式课堂学习用脚本实现,本发明一较佳实施例的课堂教学实例的脚本结构图如图4所示,由所述的放音、录音、暂停、延时、简单评分、复杂评分等操作命令按一定方式组合实现。
本实施例的课件按所述的菜单和脚本的方式编排后,需要保存的数据内容包括菜单、脚本、标准发音、标准发音的字幕、标准发音的网络,预先训练好的标准发音模型共六类数据。课件保存的数据分为索引头和具体的数据项两部分。所述的数据类中的每一项都是一个数据包(例如所述的课件结构中处于不同层次的菜单),将所述的数据类的数据包分别独立从零开始顺序编号,相同编号的数据包再合成一个数据项,所述的数据包的前后排列顺序是固定的,所述的数据项按编号从小到大顺序保存形成所述课件的数据内容。本发明一较佳实施例的课件索引头结构图如图5所示。本实施例的索引头的每一条索引项长度固定,所述的索引项对应编号相同的数据项,依次记录了所述的数据项中数据包的相对偏移地址和所述数据包的长度。
当然,本发明还可有其他实施例,在不背离本发明精神及其实质的情况下,所属技术领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。
Claims (8)
1.一种具有发音质量评价的嵌入式语言教学机,包括硬件平台和软件系统;其特征在于:
其硬件平台包括电池和电源模块、语音处理芯片、闪烁存储器、多媒体数字信号编解码芯片、液晶显示屏、键盘、麦克、语音功率放大芯片、喇叭和耳机插座、通用串行总线接口芯片;其中上述电池和电源模块为上述的硬件平台提供电源;上述语音处理芯片与上述麦克相连,学习者的语音信号通过上述麦克传送给上述语音处理芯片,上述语音处理芯片对上述语音信号至少进行压缩、评价处理;上述语音处理芯片与上述闪烁存储器相连,完成程序的加载和数据的存储;上述语音处理芯片与上述键盘相连,接受上述键盘的按键消息;上述语音处理芯片与上述液晶显示屏相连,控制显示屏的刷新显示;上述语音处理芯片与上述多媒体数字信号编解码芯片相连,上述语音处理芯片传输数字音频信号到上述多媒体数字信号编解码芯片,上述多媒体数字信号编解码芯片输出模拟音频信号,上述模拟音频信号经上述语音功率放大芯片放大通过上述喇叭输出声音,上述模拟音频信号也可通过上述耳机插座直接外接耳机输出声音;上述语音处理芯片与上述通用串行总线接口芯片相连,实现与计算机的通讯;
其软件系统包括系统程序、算法程序和应用程序,在上述的语音处理芯片上运行;其中系统程序是准实时的操作系统,配置和驱动上述其他器件,实现上述的语音处理芯片与外围器件的通信,调用算法程序和应用程序,控制系统的流程;上述算法程序完成语音的编译解码、学习者发音质量评价的算法;上述应用程序是开放式软件平台,解释具体的学习课件。
2.根据权利要求1所述的具有发音质量评价的嵌入式教学机,其特征在于:
(1)上述语音处理芯片为微控制器和数字信号处理,上述微控制器控制外围器件,上述数字信号处理运行语音的编解码程序和发音质量评价算法程序;
(2)上述语音处理芯片与上述闪烁存储器之间有双向数据、地址和控制信号线的连接,上述语音处理芯片向上述闪烁存储器读写程序与数据内容,完成程序的加载和数据的存储;
(3)上述语音处理芯片与上述键盘有控制信号和数据线连接;
(4)上述语音处理芯片与上述液晶显示屏有双向数据、地址和控制信号线的连接,上述语音处理芯片从上述液晶显示屏读出当前显示的数据,上述语音处理芯片向液晶显示屏写入需在上述液晶显示屏重新显示的数据;
(5)上述语音处理芯片与上述多媒体数字信号编解码芯片有控制信号线和数据线的连接;上述语音处理芯片输出数字音频数据到所述的多媒体数字信号编解码芯片;
(6)上述语音处理芯片与上述通用串行总线接口芯片有控制信号线和双向数据的连接。
3.根据权利要求1或2所述的具有发音质量评价的嵌入式教学机,其特征在于:
上述算法程序的具体程序模块包括学习内容音频数据的播放、录音、录音回放、语速调节以及发音质量评价;其中:
(1)学习内容音频数据的播放模块中,采用低码率和高音质的音频编码方法压缩编码后的压缩语音先解码成数字语音,再经过D/A变换得到可供播放的模拟语音;
(2)录音模块中,模拟语音信号经过A/D变换,得到数字语音并进行分帧,进行实时的端点检测和音量检测,对上述分帧语音进行低码率压缩编码得到压缩语音,并提取用于发音质量评价的语音特征;
(3)录音回放模块中,对(2)所述的压缩编码后的压缩语音进行解码得到数字语音,上述数字语音经过D/A变换,得到可供播放的模拟语音;
(4)语速调节模块中,对(1)和(3)所述的解码后的数字语音进行时域压扩,得到语速改变后的数字语音,语速改变后的数字语音经过D/A变换,得到可供播放的模拟语音;
(5)发音质量评价模块中,利用(2)中所述的用于发音质量评价的语音特征、预先训练好的标准发音模型和预先生成的标准发音网络进行发音质量评价,得到发音质量的评分结果。
4.根据权利要求3所述的具有发音质量评价的嵌入式教学机,其特征在于:上述应用程序是一个解释具体学习课件的开放式软件平台,学习内容先在个人计算机上组织并编译成一个课件文件,课件需要组织的内容包括学习文本、标准发音、标准发音的字幕、为进行发音质量评价所需的标准发音的网络和预先训练好的标准发音模型;通过课件设计后的课件文件通过通用串行总线接口下载到嵌入式设备,上述应用程序解释上述课件文件,控制学习流程,至少实现单词学习、语句学习、课堂学习、语言练习、口语测试和发音质量评价。
5.根据权利要求4所述的具有发音质量评价的嵌入式教学机,其特征在于,上述课件设计包括课件编排和课件保存两个方面,上述课件编排是指按照数据结构实现学习的流程框架和学习功能,上述课件保存是指上述学习内容通过上述课件编排形成的数据包的保存和索引查询。
6.根据权利要求5所述的具有发音质量评价的嵌入式教学机,其特征在于,上述课件文件内容采取菜单和脚本的方式编排,每一级菜单或脚本编制成一个独立的数据包并被分别独立编号,多个菜单和脚本形成一个分叉树结构,脚本必须处于分叉树结构的末端;学习文本通过处于所述分叉树结构中不同层次的菜单显示,单个菜单中包含多个菜单项,菜单项又包括需显示的内容和对该菜单项的操作两部分;对于每一个菜单,可以上翻选择并显示菜单的上一个菜单项,下翻选择并显示菜单的下一个菜单项,后退到上一级菜单和进入到下一级操作,下一级的操作是菜单或者脚本。
7.根据权利要求6所述的具有发音质量评价的嵌入式教学机,其特征在于,上述脚本由操作命令顺序构成,上述操作命令由命令关键字和命令参数构成,上述命令关键字标识操作类型;上述操作命令的长度固定为某字节数或其倍数;上述操作类型至少包括放音、录音、简单评分、复杂评分、暂停、延时;评分机制分为简单评分和复杂评分,上述简单评分仅仅给出发音质量的评价,上述复杂评分根据上一次的发音质量评价结果给出不同的反馈,进入不同的后续流程;上述发音质量评价用脚本实现,该脚本结构包括三个操作命令,第一步播放标准音并显示字幕,第二步学习者跟读标准音并录音,第三步给出跟读的评价;上述互动式课堂学习也用脚本实现,至少由放音、录音、暂停、延时、简单评分、复杂评分操作命令组合实现;在放音和录音操作时,液晶屏幕会有同步的字幕显示;上述菜单实现学习内容的层次结构,上述脚本实现学习的顺序过程。
8.根据权利要求7所述的具有发音质量评价的嵌入式教学机,其特征在于,上述课件按菜单和脚本的方式编排后,需要保存的数据内容包括菜单、脚本、标准发音、标准发音的字幕、标准发音的网络,预先训练好的标准发音模型共六类数据;上述数据类中的每一项都是一个数据包,将数据类的数据包分别独立从零开始顺序编号,相同编号的数据包再合成一个数据项;上述课件保存分为索引头和具体的数据项两部分,索引头的每一条索引项长度固定,索引项对应编号相同的数据项,依次记录数据项中数据包的相对偏移地址和数据包的长度;数据项按编号从小到大顺序保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101272174A CN101145283A (zh) | 2006-09-12 | 2006-09-12 | 具有发音质量评价的嵌入式语言教学机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101272174A CN101145283A (zh) | 2006-09-12 | 2006-09-12 | 具有发音质量评价的嵌入式语言教学机 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101145283A true CN101145283A (zh) | 2008-03-19 |
Family
ID=39207794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101272174A Pending CN101145283A (zh) | 2006-09-12 | 2006-09-12 | 具有发音质量评价的嵌入式语言教学机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101145283A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942990A (zh) * | 2013-01-23 | 2014-07-23 | 郭毓斌 | 一种语言学习装置 |
CN104732825A (zh) * | 2014-09-02 | 2015-06-24 | 山东轻工职业学院 | 一种指导教学的计算机辅助方法和系统 |
WO2016165334A1 (zh) * | 2015-09-17 | 2016-10-20 | 中兴通讯股份有限公司 | 一种语音处理方法及装置、终端设备 |
CN107578004A (zh) * | 2017-08-30 | 2018-01-12 | 苏州清睿教育科技股份有限公司 | 基于图像识别和语音交互的学习方法及系统 |
CN108039180A (zh) * | 2017-12-11 | 2018-05-15 | 广东小天才科技有限公司 | 一种儿童语言表达练习的成果获悉方法及麦克风设备 |
CN108615429A (zh) * | 2018-06-26 | 2018-10-02 | 宗仁科技(平潭)有限公司 | 一种用于枪声和爆炸声模拟器的集成电路及装置 |
CN109272992A (zh) * | 2018-11-27 | 2019-01-25 | 北京粉笔未来科技有限公司 | 一种口语测评方法、装置及一种生成口语测评模型的装置 |
CN109473007A (zh) * | 2018-12-28 | 2019-03-15 | 昫爸教育科技(北京)有限公司 | 一种音素结合声旁的英语自然拼读教学方法及系统 |
CN109767786A (zh) * | 2019-01-29 | 2019-05-17 | 广州势必可赢网络科技有限公司 | 一种在线语音实时检测方法及装置 |
CN110085226A (zh) * | 2019-04-25 | 2019-08-02 | 广州智伴人工智能科技有限公司 | 一种基于机器人的语音交互方法 |
CN112384961A (zh) * | 2018-06-23 | 2021-02-19 | 方正熊猫有限公司 | 符号操纵教育系统和方法 |
-
2006
- 2006-09-12 CN CNA2006101272174A patent/CN101145283A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942990A (zh) * | 2013-01-23 | 2014-07-23 | 郭毓斌 | 一种语言学习装置 |
CN104732825A (zh) * | 2014-09-02 | 2015-06-24 | 山东轻工职业学院 | 一种指导教学的计算机辅助方法和系统 |
WO2016165334A1 (zh) * | 2015-09-17 | 2016-10-20 | 中兴通讯股份有限公司 | 一种语音处理方法及装置、终端设备 |
CN107578004A (zh) * | 2017-08-30 | 2018-01-12 | 苏州清睿教育科技股份有限公司 | 基于图像识别和语音交互的学习方法及系统 |
CN108039180B (zh) * | 2017-12-11 | 2021-03-12 | 广东小天才科技有限公司 | 一种儿童语言表达练习的成果获悉方法及麦克风设备 |
CN108039180A (zh) * | 2017-12-11 | 2018-05-15 | 广东小天才科技有限公司 | 一种儿童语言表达练习的成果获悉方法及麦克风设备 |
CN112384961A (zh) * | 2018-06-23 | 2021-02-19 | 方正熊猫有限公司 | 符号操纵教育系统和方法 |
CN108615429A (zh) * | 2018-06-26 | 2018-10-02 | 宗仁科技(平潭)有限公司 | 一种用于枪声和爆炸声模拟器的集成电路及装置 |
CN108615429B (zh) * | 2018-06-26 | 2024-03-22 | 宗仁科技(平潭)股份有限公司 | 一种用于枪声和爆炸声模拟器的集成电路及装置 |
CN109272992A (zh) * | 2018-11-27 | 2019-01-25 | 北京粉笔未来科技有限公司 | 一种口语测评方法、装置及一种生成口语测评模型的装置 |
CN109272992B (zh) * | 2018-11-27 | 2022-03-18 | 北京猿力未来科技有限公司 | 一种口语测评方法、装置及一种生成口语测评模型的装置 |
CN109473007A (zh) * | 2018-12-28 | 2019-03-15 | 昫爸教育科技(北京)有限公司 | 一种音素结合声旁的英语自然拼读教学方法及系统 |
CN109767786A (zh) * | 2019-01-29 | 2019-05-17 | 广州势必可赢网络科技有限公司 | 一种在线语音实时检测方法及装置 |
CN109767786B (zh) * | 2019-01-29 | 2020-10-16 | 广州势必可赢网络科技有限公司 | 一种在线语音实时检测方法及装置 |
CN110085226A (zh) * | 2019-04-25 | 2019-08-02 | 广州智伴人工智能科技有限公司 | 一种基于机器人的语音交互方法 |
CN110085226B (zh) * | 2019-04-25 | 2021-05-11 | 广州智伴人工智能科技有限公司 | 一种基于机器人的语音交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101145283A (zh) | 具有发音质量评价的嵌入式语言教学机 | |
CN101785048B (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
Levis et al. | Automatic speech recognition | |
US8306822B2 (en) | Automatic reading tutoring using dynamically built language model | |
CN109256152A (zh) | 语音评分方法及装置、电子设备、存储介质 | |
US20060122834A1 (en) | Emotion detection device & method for use in distributed systems | |
CN109741732A (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
EP0852782A1 (en) | Apparatus for interactive language training | |
Schuppler et al. | GRASS: the Graz corpus of Read And Spontaneous Speech. | |
CN109697988B (zh) | 一种语音评价方法及装置 | |
Guevara-Rukoz et al. | Crowdsourcing Latin American Spanish for low-resource text-to-speech | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
Bertenstam et al. | The Waxholm system-a progress report | |
LaRocca et al. | On the path to 2X learning: Exploring the possibilities of advanced speech recognition | |
CN109584906A (zh) | 口语发音评测方法、装置、设备及存储设备 | |
Dua et al. | Punjabi speech to text system for connected words | |
Pineda et al. | DIMEx100: A new phonetic and speech corpus for Mexican Spanish | |
Mihelič et al. | Spoken language resources at LUKS of the University of Ljubljana | |
Isenberg et al. | A top‐down effect on the identification of function words | |
CN110956859A (zh) | 基于深度学习的vr智能语音交互英语方法 | |
CN111508522A (zh) | 一种语句分析处理方法及系统 | |
Tamgno et al. | Wolof speech recognition model of digits and limited-vocabulary based on hmm and toolkit | |
Bang et al. | An automatic feedback system for English speaking integrating pronunciation and prosody assessments | |
Wik | Designing a virtual language tutor | |
Mbogho et al. | The impact of accents on automatic recognition of South African English speech: a preliminary investigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080319 |