CN109119064A - 一种适用于翻转课堂的英语口语教学系统的实现方法 - Google Patents

一种适用于翻转课堂的英语口语教学系统的实现方法 Download PDF

Info

Publication number
CN109119064A
CN109119064A CN201811031629.7A CN201811031629A CN109119064A CN 109119064 A CN109119064 A CN 109119064A CN 201811031629 A CN201811031629 A CN 201811031629A CN 109119064 A CN109119064 A CN 109119064A
Authority
CN
China
Prior art keywords
text
speech
value
parameter
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811031629.7A
Other languages
English (en)
Inventor
刘健刚
李晨
陈美华
马冬梅
赵力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201811031629.7A priority Critical patent/CN109119064A/zh
Publication of CN109119064A publication Critical patent/CN109119064A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种适用于翻转课堂的英语口语教学系统的实现方法,该方法包括以下步骤:(1)构建基于语音新技术的云存储平台;(2)建立云存储平台上说话者的识别系统;(3)构建云存储平台上说话者识别系统语音/文本的检索系统框架;(4)建立语音/文本检索系统框架下的STT系统;(5)建立语音/文本检索系统框架下的TTS系统。本发明主要基于翻转课堂的理念和教学方法,结合当今语音识别技术,实现学生与老师、学生与人工智能的互动,提供以音频为主体学习材料、实现自动教学、自助学习和智能评分的在线英语口语教学和评估系统。

Description

一种适用于翻转课堂的英语口语教学系统的实现方法
技术领域
本发明属于属于语音识别,涉及一种口语教学的在线教学系统,尤其涉及一种适用于翻转课堂的英语口语教学系统的实现方法。
背景技术
翻转课堂得益于利用计算机实现的多媒体现代教学系统。高等教育中的翻转课堂并不是一个全新的理念。把内容传递和知识应用加以翻转在英语教学实践中并不鲜见,例如文学课学生在课外阅读小说,而课上时间则用于讨论主题。高等教育“翻转课堂”研究始于20世纪90年代,较早开展翻转课堂研究的是哈佛大学物理教授Mazur,他把学习分为知识传递和知识内化两个步骤,并在课堂上使用同伴互助教学(peer instruction)。进人21世纪以来,伴随信息技术进步以及教育资源开放运动,正真意义上的“翻转课堂”才获得更深更广的技术支持而广受关注。
2015年,美国Flipped Learning Network网站对“翻转课堂”给予了概括总结:“翻转课堂是对传统教学的一种翻转,学生首先在课外接触课程即将学习的新材料(通常是阅读文献或观看视频讲座),然后在课堂时间通过问题解决、讨论或辩论等策略完成知识的内化。“翻转学习”是从学生学习角度对“翻转课堂”的另一种表述,因为归根结底“教”是为了促进学生的“学”。翻转课堂实际上是一种“先学后教”模式,它不仅仅是翻转了时空、流程和结构,更是一种“范式的转换”。就教学目标而言,学生在课外实现的是布卢姆教学目标中的低阶认知目标(知识和理解),课上时间则在同伴和教师的支持下专注于高阶认知目标(应用、分析、综合和评价)。从教学方法看,教师课堂教学是为了促进学生主动学习,关注课堂师生面对面环境下的概念探究、意义建构和知识应用。
很明显,美国Flipped Learning Network网站对“翻转课堂”的概括总结基于前期“翻转课堂”的研究,受制于前期的科技发展的瓶颈。其学习的新材料基本局限于阅读文献和视屏讲座,不能体现“在线”的互动。课堂并没有正真做到颠覆性的“翻转”,仅仅体现在时间和地点的漂移,在课堂实施过程的手段和方法上并没有对传统教学起到本质上的颠覆。
随着声音处理、图像处理和互联网的快速发展,声音转换文字处理技术、图像识别情感处理技术和网络在线技术使得真正意义上的“翻转课堂”成为可能。
“翻转课堂”的核心特征是主动学习与教育技术的结合。就教育技术而言,其优势主要体现在以下几个方面(1)方便学生自定步调的学习;(2)提供各种形式的学习材料(如文本、视频、音频、多媒体),适应于不同的学生学习方式;(3)利用各种工具(测验工具、讨论工具、内容创建工具)提供课内外交流和互动的机会;(4)传递即时信息(如微博、发布工具);(5)利用在线测验或问卷调查等提供学习反馈与评价;(6)利用数据分析学生学习进步情况,识别学习困难的学生。
发明内容
发明目的:为了解决英语口语在翻转课堂模式及教学系统中存在利用音频和语音处理技术较缺的问题,本发明提供一种适用于翻转课堂的英语口语教学系统的实现方法。
技术方案:一种适用于翻转课堂的英语口语教学系统的实现方法,所述方法基于口语学习材料和语音教学,通过人工智能网络进行评分,所述方法包括如下步骤:
(1)构建基于语音新技术的云存储平台;
(2)建立云存储平台上说话者的识别系统;
(3)构建云存储平台上说话者识别系统语音/文本的检索系统框架;
(4)建立语音/文本检索系统框架下的STT系统;
(5)建立语音/文本检索系统框架下的TTS系统。
进一步的,步骤(1)基于Hadoop+Hbase集群和EJB WEB服务集群。
进一步的,步骤(2)包括语音信号的预处理和特征提取,训练和识别的步骤如下:
(21)对语音信号进行预处理:包括说话者输入语音数据的采样与量化、预加重、分帧与加窗;
(22)语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;
(23)对每位说话者语音信号进行训练,通过状态数自适应隐马尔可夫模型进行建模,通过训练模拟出该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况,得到ASHMM1,……,ASHMMg,……ASHMMG,每位说话者所对应的训练集合表达式如下:
其中段数为M段,每段训练语音的帧数为T;所述隐马尔可夫模型每一状态的输出概率分布通过高斯混合模型表示,G为说话者的数量;
(24)对于待识别的一段语音,首先进行预处理以及特征提取,得到相应的特征矢量所组成的时间序列{x't}t=1,...,T,T为序列的帧数;计算{x't}t=1,...,T关于每一个说话者的模型ASHMM1,……,ASHMMg,……ASHMMG的似然值LIK(g),最终的识别结果为最大的LIK(g)所对应的说话者speaker,即:
进一步的,步骤(3)包括语音文本转换文字文本和文字文本转换语音文本两个子系统,进行说话者进行语音或文本检索。
进一步的,步骤(4)所述的STT系统构建包括如下步骤:
(41)语音信号经过预处理和语音分析部分变换成语音特征参数;
(42)基于DTW技术,将输入语音特征参数信息与训练时预存的参考模版进行比较匹配;
(43)运用语言学知识和超音段信息对识别出的候选字或词进行最后的判决。
进一步的,步骤(5)通过文本分析后语音合成,然后文本生成,最后输出有效的语音文本,步骤如下:
(51)规范文本:将输入的文本进行语法词汇检索,基于学习教材和语音数据库进行筛选和删除文本错误词汇及字符,包括数字、姓氏特殊字符,确定文本发音,提取规范后的语音文本参数,所述特殊字符包括不发音词汇和语气词;
(52)将步骤(51)中的参数进行语气、语调和韵律的特征提取参数,所述韵律参数包括基频、音长和音强三种;
(53)基于基音同步叠加法,通过声调变化参数控制语音的合成,包括基音同步分析、基音同步修改和基音同步合成。
进一步的,隐马尔可夫模型中的参数值以及随机变量的分布情况过程如下:
(a)设定参数α,bijijij,包括π,A的初始值、表达式分别为与状态i的输出分布函数有关的高斯混合模型中的第j个混合成分的权值,均值,协方差;L为实际训练中近似代表∞的一个较大的状态数,L取值为文本中的音素数目的2~3倍;J为混合成分数目;初始时,bij=1/J,μij和Σij的初始值通过对当前说话者的所有训练数据求均值和协方差得到;π={πh}h=1,...,L为初始状态矢量,为状态转移矩阵,首先随机取得每个元素的值,然后对A中的每一行,以及π元素进行归一化,使其满足在满足归一化条件:α为与π,A分布相关的参数,取值范围为α=1~100,其初始值为在其取值范围内任意取出的一个值;定义三个辅助变量,它们的初始值分别为ζimt=πi,ζhimt=ahi和ξijmt=πi;当前的迭代次数k=1;
(b)更新参数bijijijij,其计算表达式如下:
(c)更新与πh和ahi相关的随机变量的分布,其分布服从Beta分布,即:
其中参数更新如下:
而后可以得到关于的如下的数学期望:
(d)由本权利要求的步骤(b)~(c)模拟出的参数值以及计算得到的随机变量的分布,采用前向—后向算法更新三个辅助变量ζimt,ζhimt和ξijmt
其中,为前向概率,为后向概率,其计算过程如下:
<πh>和<ahi>分别为π,A的期望值,其计算如下:
(e)计算当前迭代后的似然值LIKk,k为当前的迭代次数,由上一步计算出的前向概率得到:
(f)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK=LIKk-LIKk-1;如果ΔLIK≤δ,则训练完成,否则转到步骤(b),k的值增加1,继续下一次的迭代;阈值δ的取值范围为10-5~10-4
有益效果:本发明所提供的一种适用于翻转课堂的英语口语教学系统的实现方法一方面极大的结合了语音识别技术,且通过文本分析到语音合成、语音分析转化成文本识别筛选,提高说话者语音的识别率和有效词汇提取特征,提高英语口语教学的互动性和学习效率;另一方面,本发明所述方法实现的系统涵盖了英语口语的关键参数和必要发音特点,口语评估和识别度高,适用面广。
附图说明
图1是本发明所述方法的翻转课堂教学模式示意图;
图2基于语音教育技术的翻转课堂教学流程示意图;
图3基于语音新技术的云存储平台示意图;
图4云存储平台上说话者识别系统示意图;
图5语音/文本检索系统框架示意图;
图6语音/文本检索系统框架下的STT系统示意图;
图7语音/文本检索系统框架下的TTS系统示意图。
具体实施方式
为了详细的说明本发明公开的技术方案,下面结合说明书附图和具体实施例做进一步的阐述。
本发明的实现方案和技术主要基于“翻转课堂”的理念,结合当今语音识别技术,实现学生与老师、学生与“人工智能”的互动,生成网络人工智能提供学习材料(主要以音频为主体)、自动教学(以语音教学软件为主体)、自助学习(以语音学习软件为主体)、智能评分的网络在线英语口语教学和评估系统。
图1是本发明所述翻转课堂的教学模式。区别与传统的教学模式(老师在课堂上讲课,布置“家庭作业”,让学生课外练习),“翻转课堂”教学模式促使学生在课外完成知识的学习,而课堂变成了老师与学生之间、学生与学生之间互动的场所,包括答疑解惑、知识的运用等,从而达到更好的教育效果。这样的“翻转课堂”教学模式需要类似微视频、在线作业等网络课程和网络教学资源的制作,在实现教学目的手段上,通过教育新技术(多媒体),达成学生与教师之间在课前、课中和课后的互动,将“知识传递”和“知识内化”扩展到运用教育学习的新技术上,为学生的学习提供了新的学习机会(如在线或离线)。
图2示意基于语音教育技术的“翻转课堂”教学流程。教学模式确定之后,继续解决的问题就是如何实施的步骤。本发明基于通过教育新技术(多媒体)的教学模式,在运用教育学习的新技术上,“知识传递”和“知识内化”的过程不仅仅局限在微视频和在线文字作业的教育学习的多媒体技术上。该图示意了本发明的“翻转课堂”教学步骤在课前、课中、课后都运用了教育学习的语音新技术,通过语音学习软件,使得学生和老师在课前、课中和课后能够实现口语交流互动。图示中语音信息处理技术的运用,将“知识传递”阶段前置,真正体现了“翻转课堂”的本质。例如,英语口语教学过程中,学生在课前可根据自己的需要或存在问题,在网络平台上开展自定进度的个性化学习,遇到的疑难点可借助平台上的语音处理软件反复练习探究。最终在课堂上通过与同学和老师的有效交流与探讨,促进对英语口语技巧的理解并运用这些技巧解决自己口语存在的问题,比如流利度问题,发音不到位问题,语法问题等等。
图3是基于语音新技术的云存储平台示意图。基于语音新技术的云存储平台包含Hadoop+Hbase集群和EJB WEB服务集群。其中Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。Hadoop的工作原理如同Google的MapReduce的技术,在此不做赘述。主要将任务分解为成百上千块的小任务,首先发送到计算机集群中,然后会每台计算机再传送自己的那部分信息,最后迅速整合这些反馈并形成答案。Hadoop的扩展性非常优秀,对硬件的支持也很强,其处理混合数据类型的能力超强。平台使用Hadoop管理结构化数据,以及诸如服务器日志文件和Web点击流的数据。Hadoop处理多类型数据的能力非常重要,它催生了NoSQL平台和产品,如Cassandra,CouchDB,MongoDB以及Oracle最新的NoSQL数据库,为本平台的构建奠定了基础。图3中的HBase是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。考虑到学生的数量可能导致海量语音文本以及语音文本格式不同的实际情况,本发明同时采用了HBase可伸缩性分布式数据库,以满足实际需求。图3中的EJB是设计成运行在学校服务器上,并由客户(学生和老师)机调用的非可视远程对象。EJB可通过多个非可视JavaBean来构建。EJB还可以独立于平台,可以在任何支持Java的平台(包括客户机和服务器)上使用。
图4示意云存储平台上说话者识别系统。该系统在学校(云存储平台)和客户(学生和老师的PC)之间设计了系列软件程序,对语音库中的语音信号和采自声卡的实时语音信号进行预处理,进行特征提取。根据语音特征,处理手段上分成两个方向:训练和直接进入测试。最后对说话者的码本进行逻辑判决,得到识别结果。例如图4云存储平台上说话者识别系统的语音库的设计总共采样说话者10位,男女各为5人,年龄从18岁到54岁不等,发音时都比较自然。录音是在本校语言和信息院系的专业录音实验室中完成的,录音时尽量保持室内环境的安静,使用普通的话筒完成录音。使用PC机声卡通过采样率为8kHz、量化位数为16bit、单声道的A/D变换将录音数据转化成数字信号存储,同一说话者同一语音的多次录入是一次完成的。实际操作中,为了能反映说话者的发声随时间变化的规律,分间隔一段时间(隔天和隔周)多次录入(不少于三次)。建成的语音库共有语音文件1800个,包括10个说话者,每个说话者的发声包括10个单音节词,10个双音节词和10个四音节词,每个词每个说话者发音6遍,前3遍语音用于训练,后3遍用于测试,这样就得到了(10+10+10)*6*10=1800个语音。图4云存储平台上说话者识别系统的实现线路主要包括语音信号的预处理,特征提取,训练,测试和实时识别过程。本发明设计中的预处理及特征提取就是预加重、加窗、分帧、求线性预测分析系数,最后求出倒谱系数和差值倒谱系数以及估计基音和差值基音周期;本发明设计中的训练就是码本形成的过程,即对输入语音所形成的所有原始特征矢量,使用改进的LBG算法形成码本并存储。本发明设计中的测试是指对语音数据(采自声卡的实时语音信号)进行预处理,得到原始特征矢量,然后计算该语音与经过训练后形成个人码本的距离。最后对各帧语音的原始矢量与码本中码字的距离进行逻辑判断,识别结果取值平均数,剔去最大值和最小值。
图5示意云存储平台上语音/文本检索系统的框架。该框架设有(语音文本转换文字文本)和TTS(文字文本转换语音文本)两个系统,对说话者进行语音或文本检索,以满足学生和老师的文本或语音的互动需求。在这个检索框架内,围绕文字文本管理和语音文本管理中“话语、语义、语气、韵律、篇章、语法、句法、词法”这几个核心问题,通过人机交互界面进行输入、输出设定和语料库选择,以此进行数据特征对比分析。解决四个需求:语料库空间概念建模;信息的有效抽取;语音文本和文字文本的合理分类;话题的准确检测。文字文本管理和语音文本管理是人机交互中的中心枢纽,如何建立可控、有效的管理机制始终是一个关键核心问题。本框架引入文字文本管理和语音文本管理检索,并作为整个系统的管理中心,建立有助于用户意图理解和检索,有效地协调语音识别、口语解析和检索以及文字文本的语音合成等各主要模块的工作程序,减少人机交互的回合次数,实现系统理解和检索结果与学生、老师之间的有效沟通,以提高系统输出的正确率和有效率。图5示意云存储平台上语音/文本检索系统的框架的具体解决方案设计原理可以用“韵律”的技术解决方案来说明。其余方案如此类推,省略。例如,在语音学中,“韵律”中包含了语音和语法双重语言信息。与朗读语音相比,口语语流中蕴涵了更丰富的韵律特征和韵律变化规律特征和知识。在处理“韵律”这个难题中,语音/文本检索系统的框架围绕口语语音的韵律表现,从语音和语法层面,解决语音层口语韵律特征的抽取与建模技术,语法层口语语流的韵律边界与韵律单元(词/组块/短语)自动分割技术和基于韵律单元的语言建模技术。
图6示意语音/文本检索系统框架下的STT系统。该系统首先将输入的语音信号经过预处理和语音分析部分变换成语音特征参数;接着,基于DTW技术,将输入语音特征参数信息与训练时预存的参考模版进行比较匹配;而后,运用语言学知识和超音段信息对识别出的候选字或词进行最后的判决,从而输出文字。
图7示意语音/文本检索系统框架下的TTS系统。该系统通过文本分析,语音合成,文本生成,输出有效的语音文本“话语”。TTS系统首先将输入的文本进行语法词汇检索,基于学习教材和语音数据库进行筛选和删除文本错误词汇及字符,包括数字、姓氏特殊字符,确定文本发音,提取规范后的语音文本参数,所述特殊字符包括不发音词汇和语气词;接着,将上述参数进行语气、语调和韵律的特征提取参数,所述韵律参数包括基频、音长和音强三种;最后,基于基音同步叠加法,通过声调变化参数控制语音的合成,包括基音同步分析、基音同步修改和基音同步合成。
此外,图7语音/文本检索系统框架下TTS系统的文本分析的主要功能是使计算机能够识别文字,并根据文本的上下文关系在一定程度上对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式指令发送到计算机。文本分析主要解决四个问题:将输入的文本规范化,并将文本中出现的一些不规范或无法发音的字符过滤掉;分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式;根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式;最终,文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。具体的技术可以使用基于数据驱动(Data-Driven)的文本分析方法技术。图7语音/文本检索系统框架下TTS系统的语气、语调、韵律控制的解决方法也基于数据驱动的方法。主要涉及解决韵律参数的获取,如:基频、音长、音强等。该系统能够用来进行语音信号合成的具体韵律参数,还要靠韵律控制模块,通过统计驱动的方法进行韵律控制的应用。图7语音/文本检索系统框架下TTS系统的语音合成由文语转换系统的合成语音模块技术支持。该技术采用波形拼接来合成语音的方法(基音同步叠加法PSOLA)。其核心思想是,直接对存储于音库的语音运用PSOLA算法来进行拼接,从而整合成完整的语音。图7语音/文本检索系统框架下TTS系统中基音同步叠加法(PSOLA)是用于波形编辑合成语音技术中对合成语音的韵律进行修改的一种算法。用PSOLA法实现语音合成时主要有三个步骤,分别为基音同步分析、基音同步修改和基音同步合成。基音同步分析解决对语音合成单元进行同步标记设置;基音同步修改通过对合成单元同步标记的插入、删除来改变合成语音的时长,或通过对合成单元标记间隔的增加、减小来改变合成语音的基频等,从而使这些短时合成信号序列在修改时与一套新的合成信号基音标记同步。基音同步合成利用短时合成信号进行叠加合成。如果合成信号仅仅在时长上有变化,则增加或减少相应的短时合成信号;如果是基频上有变换则首先将短时合成信号变换成符合要求的短时合成信号再进行合成。图7语音/文本检索系统框架下TTS系统中基音同步叠加法(PSOLA)根据声母、韵母、声调曲线来合成语音。其步骤分为4步。根据声母、韵母的组合确定所需的声母,根据韵母确定所需的基音同步帧以及韵母的非平稳段,根据韵母和声调确定所需的声调曲线;根据声调曲线上的周期值将原始基音同步帧的周期调整到所需的周期值上并保持基音同步帧的波形轮廓不变,然后将调整后的各基音同步帧按先后顺序叠接起来即得到韵母的平稳段,该平稳段具有所需的声调;如果韵母还包含有非平稳部分,则再将非平稳部分叠接在平稳部分的前面或后面,然后对这一段合成的语音进行幅度调整,即得到要合成的韵母;将合成的韵母叠接到声母段的后面即得到所要合成的语音。

Claims (7)

1.一种适用于翻转课堂的英语口语教学系统的实现方法,所述方法基于口语学习材料和语音教学,通过人工智能网络进行评分,其特征在于:所述方法包括如下步骤:
(1)构建基于语音新技术的云存储平台;
(2)建立云存储平台上说话者的识别系统;
(3)构建云存储平台上说话者识别系统语音/文本的检索系统框架;
(4)建立语音/文本检索系统框架下的STT系统;
(5)建立语音/文本检索系统框架下的TTS系统。
2.根据权利要求1所述的一种适用于翻转课堂的英语口语教学系统的实现方法,其特征在于:步骤(1)基于Hadoop+Hbase集群和EJB WEB服务集群。
3.根据权利要求1所述的一种适用于翻转课堂的英语口语教学系统的实现方法,其特征在于:步骤(2)包括语音信号的预处理和特征提取,训练和识别的步骤如下:
(21)对语音信号进行预处理:包括说话者输入的语音数据采样与量化、预加重、分帧与加窗处理;
(22)语音帧上的特征提取:对每一语音帧,计算D阶线性预测倒谱系数,将其作为该帧的D维特征矢量;
(23)对每位说话者语音信号进行训练,通过状态数自适应隐马尔可夫模型进行建模,通过训练模拟出该无限状态隐马尔可夫模型中的参数值以及随机变量的分布情况,得到ASHMM1,……,ASHMMg,……ASHMMG,每位说话者所对应的训练集合表达式如下:
其中段数为M段,每段训练语音的帧数为T;所述隐马尔可夫模型每一状态的输出概率分布通过高斯混合模型表示,G为说话者的数量;
(24)对于待识别的一段语音,首先进行预处理以及特征提取,得到相应的特征矢量所组成的时间序列{x't}t=1,...,T,T为序列的帧数;计算{x't}t=1,...,T关于每一个说话者的模型ASHMM1,……,ASHMMg,……ASHMMG的似然值LIK(g),最终的识别结果为最大的LIK(g)所对应的说话者speaker,表达式如下:
4.根据权利要求1所述的一种适用于翻转课堂的英语口语教学系统的实现方法,其特征在于:步骤(3)包括语音文本转换文字文本和文字文本转换语音文本两个子系统,分别进行说话者进行语音或文本检索。
5.根据权利要求1所述的一种适用于翻转课堂的英语口语教学系统的实现方法,其特征在于:步骤(4)所述的STT系统构建包括如下步骤:
(41)语音信号经过预处理和语音分析部分变换成语音特征参数;
(42)基于DTW技术,将输入语音特征参数信息与训练时预存的参考模版进行比较匹配;
(43)运用语言学知识和超音段信息对识别出的候选字或词进行最后的判决。
6.根据权利要求1所述的一种适用于翻转课堂的英语口语教学系统的实现方法,其特征在于:步骤(5)通过文本分析后语音合成,然后文本生成,最后输出有效的语音文本,步骤如下:
(51)规范文本:将输入的文本进行语法词汇检索,基于学习教材和语音数据库进行筛选和删除文本错误词汇及字符,包括数字、姓氏特殊字符,确定文本发音,提取规范后的语音文本参数,所述特殊字符包括不发音词汇和语气词;
(52)将步骤(51)中的参数进行语气、语调和韵律的特征提取参数,所述韵律参数包括基频、音长和音强三种;
(53)基于基音同步叠加法,通过声调变化参数控制语音的合成,包括基音同步分析、基音同步修改和基音同步合成。
7.根据权利要求3所述的一种适用于翻转课堂的英语口语教学系统的实现方法,其特征在于:隐马尔可夫模型中的参数值以及随机变量的分布情况过程如下:
(a)设定参数α,bijijij,包括π,A的初始值、表达式为:计算与状态i的输出分布函数有关的高斯混合模型中的第j个混合成分的权值、均值,协方差;L为实际训练中近似代表∞的状态数,L取值为文本中的音素数目的2~3倍;J为混合成分数目;初始时,bij=1/J,μij和Σij的初始值通过对当前说话者的所有训练数据求均值和协方差得到;π={πh}h=1,...,L为初始状态矢量,为状态转移矩阵,首先随机取得每个元素的值,然后对A中的每一行,以及π元素进行归一化,使其满足在满足归一化条件:h=1,...,L;α为与π,A分布相关的参数,取值范围为α=1~100,其初始值为在其取值范围内任意取出的一个值;且定义三个辅助变量,它们的初始值分别为ζimt=πi,ζhimt=ahi和ξijmt=πi;当前的迭代次数k=1;
(b)更新参数bijijijij,其计算表达式如下:
(c)更新与πh和ahi相关的随机变量的分布,其分布服从Beta分布,表达式如下:
其中参数更新计算过程如下:
的如下的数学期望计算表达式如下:
(d)由步骤(b)和(c)模拟出的参数值以及计算得到的随机变量的分布,采用前向—后向算法更新三个辅助变量ζimt,ζhimt和ξijmt,计算表达式如下:
其中,为前向概率,为后向概率,其计算过程如下:
<πh>和<ahi>分别为π,A的期望值,其计算如下:
(e)计算当前迭代后的似然值LIKk,k为当前的迭代次数,由上一步计算出的前向概率得到:
(f)计算当前迭代后与上一次迭代后的似然值的差值ΔLIK=LIKk-LIKk-1;如果ΔLIK≤δ,则训练完成,否则转到步骤(b),k的值增加1,继续下一次的迭代;阈值δ的取值范围为10-5~10-4
CN201811031629.7A 2018-09-05 2018-09-05 一种适用于翻转课堂的英语口语教学系统的实现方法 Pending CN109119064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811031629.7A CN109119064A (zh) 2018-09-05 2018-09-05 一种适用于翻转课堂的英语口语教学系统的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811031629.7A CN109119064A (zh) 2018-09-05 2018-09-05 一种适用于翻转课堂的英语口语教学系统的实现方法

Publications (1)

Publication Number Publication Date
CN109119064A true CN109119064A (zh) 2019-01-01

Family

ID=64858134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811031629.7A Pending CN109119064A (zh) 2018-09-05 2018-09-05 一种适用于翻转课堂的英语口语教学系统的实现方法

Country Status (1)

Country Link
CN (1) CN109119064A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741649A (zh) * 2019-03-01 2019-05-10 云南北飞科技有限公司 智师课堂互动学习平台
CN110246376A (zh) * 2019-06-13 2019-09-17 江苏海事职业技术学院 一种儿童英语口语训练装置及其训练方法
CN112507294A (zh) * 2020-10-23 2021-03-16 重庆交通大学 一种基于人机交互的英语教学系统及教学方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102737536A (zh) * 2012-05-29 2012-10-17 于鑫 一种语言体验教学系统的工作方法
CN103546581A (zh) * 2013-11-08 2014-01-29 上海斐讯数据通信技术有限公司 一种面向学龄前儿童的云教育系统
CN105844978A (zh) * 2016-05-18 2016-08-10 华中师范大学 一种小学语文词语学习辅助语音机器人装置及其工作方法
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN107146484A (zh) * 2017-07-06 2017-09-08 王鹏 一种基于智能手机和云存储的英语听说教学系统
CN107430616A (zh) * 2015-03-13 2017-12-01 微软技术许可有限责任公司 语音查询的交互式再形成

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102737536A (zh) * 2012-05-29 2012-10-17 于鑫 一种语言体验教学系统的工作方法
CN103546581A (zh) * 2013-11-08 2014-01-29 上海斐讯数据通信技术有限公司 一种面向学龄前儿童的云教育系统
CN107430616A (zh) * 2015-03-13 2017-12-01 微软技术许可有限责任公司 语音查询的交互式再形成
CN106056207A (zh) * 2016-05-09 2016-10-26 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN105844978A (zh) * 2016-05-18 2016-08-10 华中师范大学 一种小学语文词语学习辅助语音机器人装置及其工作方法
CN107146484A (zh) * 2017-07-06 2017-09-08 王鹏 一种基于智能手机和云存储的英语听说教学系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋芳芳 等: "基于语音识别技术的英语口语自学系统评分机制的研究", 《电脑知识与技术》, vol. 5, no. 7, 31 March 2009 (2009-03-31), pages 1726 - 1728 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741649A (zh) * 2019-03-01 2019-05-10 云南北飞科技有限公司 智师课堂互动学习平台
CN110246376A (zh) * 2019-06-13 2019-09-17 江苏海事职业技术学院 一种儿童英语口语训练装置及其训练方法
CN112507294A (zh) * 2020-10-23 2021-03-16 重庆交通大学 一种基于人机交互的英语教学系统及教学方法

Similar Documents

Publication Publication Date Title
Chen et al. End-to-end neural network based automated speech scoring
Listiyaningsih The influence of listening English song to improve listening skill in listening class
US20060122834A1 (en) Emotion detection device & method for use in distributed systems
Dong Application of artificial intelligence software based on semantic web technology in english learning and teaching
Athanaselis et al. Making assistive reading tools user friendly: A new platform for Greek dyslexic students empowered by automatic speech recognition
CN109119064A (zh) 一种适用于翻转课堂的英语口语教学系统的实现方法
Shao et al. Ai-based arabic language and speech tutor
CN116797417A (zh) 一种基于大语言模型的智能辅助系统
Guo [Retracted] Innovative Application of Sensor Combined with Speech Recognition Technology in College English Education in the Context of Artificial Intelligence
Pucher et al. Perceptual effects of interpolated Austrian and German standard varieties
EP4033487A1 (en) Method and system for measuring the cognitive load of a user
Kochem et al. The Use of ASR-Equipped Software in the Teaching of Suprasegmental Features of Pronunciation: A Critical Review.
Sering Predictive articulatory speech synthesis utilizing lexical embeddings (paule)
Leppik et al. Estoñol, a computer-assisted pronunciation training tool for Spanish L1 speakers to improve the pronunciation and perception of Estonian vowels
Essien et al. An interactive intelligent web-based text-to-speech system for the visually impaired
Peng Speech synthesis system based on big data and evaluation of Japanese language feeling
Varatharaj et al. Supporting teacher assessment in chinese language learning using textual and tonal features
Li et al. A Review of Research on Automatic Scoring of English Reading
Liu et al. Deep learning scoring model in the evaluation of oral English teaching
Zhang [Retracted] English Speech Recognition System Model Based on Computer‐Aided Function and Neural Network Algorithm
Li et al. Speech interaction of educational robot based on Ekho and Sphinx
Wang et al. Interactive teaching system for remote vocal singing based on decision tree algorithm
Bao et al. [Retracted] An Auxiliary Teaching System for Spoken English Based on Speech Recognition Technology
Wang et al. A teaching method of deaf-mute based on artificial intelligence
Abdullah Arabic Alphabets Learning Application for Children Early Childhood based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101