CN116403607B - 一种发音检测方法与发音检测装置 - Google Patents
一种发音检测方法与发音检测装置Info
- Publication number
- CN116403607B CN116403607B CN202310432880.9A CN202310432880A CN116403607B CN 116403607 B CN116403607 B CN 116403607B CN 202310432880 A CN202310432880 A CN 202310432880A CN 116403607 B CN116403607 B CN 116403607B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- user
- comparison
- audio
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种发音检测方法与发音检测装置,包括以下步骤:S1:为用户提供文本,并采集用户朗读所述文本的用户发音音频;S2:对所述用户发音音频进行误发音检测与诊断,进行错误发音定位并进行错误标注,得到带有错误标注的文本;S3:可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,本发明能够强调地、加重地让用户了解自身发音问题以及错误原因,从而帮助用户根据对比反馈结果进行改正。
Description
技术领域
本发明涉及计算机辅助发音训练的技术领域,特别是涉及一种发音检测方法与发音检测装置。
背景技术
语言作为人类智能和文化的基础,不仅有助于个体之间的交流,还促进了知识的积累和传播,掌握一门第二语言逐渐成为了人类的基本需要。在第二语言习得的过程中,部分学习者因条件所限未曾受过系统的发音训练,受母语迁移的影响难以感知到发音错误。随着基于深度学习的人机语音交互技术的成熟,计算机辅助发音训练(CAPT)系统有效缓解了时空资源问题,已经被广泛地应用到了词汇学习、口语学习等产品中。然而当前的系统通常使用标准英语音标、通用英语教材为用户讲解单词并提供正确的发音,不同水平所学到的知识完全一致,而且仅提供了打分结果,并没有明确为用户提供指导,对真正的教学过程干预极少,不利于用户准确认识自身发音错误。
早期的口语教学完全依赖教师人力教学,受到教育资源分配不平衡的影响,我国很多人并未受到过系统的发音训练。汉语母语者在学习英语的过程中往往会受到自身汉语发音的影响,使用汉语规则进行朗读,导致发音始终存在明显了汉腔汉调。随着深度学习等技术的发展,误发音检测、语音合成技术支持了计算机辅助发音训练系统的诞生。然而当前的计算机辅助发音训练系统都较为关注自身性能的提升,而没有明确考虑到用户自身切实的需求,不利于用户准确认识自身发音错误。
缩略语和关键术语定义
MDD:Mispronunciation Diagnose and Detection,误发音检测与诊断,指检测语音中存在的错误并提供诊断结果。
CAPT:Computer Assisted Pronunciation Training,计算机辅助发音训练,指使用计算机技术帮助用户改善发音的方法统称。
TTS:Text-to-speech,文语转换,又称语音合成。指将文字信息转换为标准流畅的读音。
VC:Voice Conversion,声音转换,指将一个人的语音转换为另一个人的语音,同时保留其语音内容和情感特征的技术。
ASR:Automatic Speech Recognization,自动语音识别。指将语音转换为相应的文字信息。
引证文件:
[1]Z.Zhang,Y.Wang and J.Yang,"Masked Acoustic Unit forMispronunciation Detection and Correction,"ICASSP 2022-2022 IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),Singapore,Singapore,2022,pp.6832-6836,doi:10.1109/ICASSP43922.2022.9747414.
[2]Alif Silpachai,Ivana Rehman,Taylor Anne Barriuso,John Levis,EvgenyChukharev-Hudilainen,Guanlong Zhao,RicardoGutierrez-Osuna:Effects of VoiceType and Task on L2 Learners'
Awareness ofPronunciation Errors.Interspeech 2021:1952-1956
[3]发音训练方法、装置、电子设备和存储介,CN115273898A,安徽
淘云科技股份有限公司
[4]Bu Y,Ma T,Li W,et al.PTeacher:a Computer-AidedPersonalizedPronunciation Training System with Exaggerated Audio-VisualCorrective Feedback[C]//Proceedings ofthe 2021CHI Conference onHumanFactors in Computing Systems.2021:1-14.
发明内容
本发明的目的在于解决现有技术不利于用户准确认识自身发音错误的技术问题,提供一种发音检测方法与发音检测装置。
为实现上述目的,本发明采用以下技术方案:
一种发音检测方法,包括以下步骤:S1:为用户提供文本,并采集用户朗读所述文本的用户发音音频;S2:对所述用户发音音频进行误发音检测与诊断,进行错误发音定位并进行错误标注,得到带有错误标注的文本;S3:可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,使得用户了解自身发音问题以及错误原因,从而根据所述对比反馈结果进行改正。
在本发明的一些实施例中,基于汉语母语者在学习英语中常见的发音错误,从音系学的元音、辅音和超音段三方面进行语音对比分析,形成针对汉语母语者检测英文发音正误的所述文本。
在本发明的一些实施例中,所述对比反馈结果包括听觉对比反馈结果和视觉对比反馈结果。
在本发明的一些实施例中,步骤S3包括如下步骤:S31:将所述文本进行标准美式发音的语音合成,得到标准发音音频,作为第一听觉对比反馈结果;S32:将带有错误标注的文本进行标准美式发音的语音合成,并基于声音转换技术得到带有用户音色的错误重建音频,作为第二听觉对比反馈结果;S33:所述带有错误标注的文本包括音素文本,将所述音素文本转换为英文音标,作为第一视觉对比反馈结果;S34:基于数字音频处理技术将所述用户发音音频、所述标准发音音频、所述错误重建音频进行音频可视化,得到音标对比图、波形图、语谱图、音高轮廓和共振峰散点图,作为第二视觉对比反馈结果。
在本发明的一些实施例中,使用双声道的方式为用户提供对比反馈结果,其中,一个声道为所述第二听觉对比反馈结果,另一个声道为所述用户发音音频。
在本发明的一些实施例中,当所述错误发音的数量大于等于两个时,一次仅反馈其中一个错误发音的对比反馈结果。
本发明还提供一种发音检测装置,包括评估试题模块、检测定位模块、可视化对比模块,其中:所述评估试题模块接收用户发音音频作为输入,用于为用户提供文本,采集用户朗读所述文本的用户发音音频;所述检测定位模块用于误发音检测与诊断所述用户发音音频,进行错误发音定位并进行错误标注,从而得到带有错误标注的文本;所述可视化对比模块用于可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,使得用户了解自身发音问题以及错误原因,从而根据所述对比反馈结果进行改正。
在本发明的一些实施例中,所述对比反馈结果包括听觉对比反馈结果和视觉对比反馈结果;所述听觉对比反馈结果包括第一听觉对比反馈结果和第二听觉对比反馈结果,所述视觉对比反馈结果包括第一视觉对比反馈结果和第二视觉对比反馈结果;所述可视化对比模块将所述文本进行标准美式发音的语音合成,得到标准发音音频,作为第一听觉对比反馈结果;所述可视化对比模块将带有错误标注的文本进行标准美式发音的语音合成,并基于声音转换技术得到带有用户音色的错误重建音频,作为第二听觉对比反馈结果;所述带有错误标注的文本包括音素文本,所述可视化对比模块将所述音素文本转换为英文音标,作为第一视觉对比反馈结果;所述可视化对比模块基于数字音频处理技术将所述用户发音音频、所述标准发音音频、所述错误重建音频进行音频可视化,得到波形图、语谱图、音高轮廓和共振峰散点图,作为第二视觉对比反馈结果。
在本发明的一些实施例中,所述可视化对比模块使用双声道的方式为用户提供对比反馈结果,其中,一个声道为所述第二听觉对比反馈结果,另一个声道为所述用户发音音频。
在本发明的一些实施例中,当所述错误发音的数量大于等于两个时,所述可视化对比模块一次仅反馈其中一个错误发音的对比反馈结果。
本发明具有如下有益效果:
本发明提出的发音检测方法与发音检测装置通过为用户提供文本并采集用户朗读所述文本的用户发音音频后,通过误发音检测与诊断进行错误发音定位,并可视化错误发音得到对比反馈结果,最后将对比反馈结果反馈给用户;强调地、加重地让用户了解自身发音问题以及错误原因,从而帮助用户根据对比反馈结果进行改正。
此外,在本发明的一些实施例中,还具有如下有益效果:
通过分析汉语母语者的英语发音可能存在发音混淆的常见错误类型,设计并提供朗读用文本,使得用户在短时间内暴露更多的错误发音,从而快速定位该用户的高频错误类型,有助于用户改正错误发音。
通过提供多维度多模态的视觉与听觉正误发音对比反馈结果,明确告知学习者自身错误问题所在,提高用户对自身错误发音的感知能力,同时延长了计算机辅助发音训练系统和用户之间的交互路径,从而帮助用户进行更好地纠正和改进。
通过每次只针对一个错误发音进行对比反馈并纠正,以控制变量的形式让用户一次只关注于一个发音存在的问题,从而提高用户对错误定位的准确性,按部就班地进行自我纠正。
本发明实施例中的其他有益效果将在下文中进一步述及。
附图说明
图1是本发明实施例中发音检测方法的步骤流程图;
图2是本发明实施例中发音检测装置的检测发音的示意图;
图3是实施例1中发音检测方法的使用流程图;
图4是本发明实施例中发音检测方法的原理图;
图5a是本发明实施例中用户朗读音频的波形图示意;
图5b是本发明实施例中标准美式发音的波形图示意;
图5c是本发明实施例中错误重建音频的波形图示意;
图6a是本发明实施例中视觉反馈对比结果中的波形图;
图6b是本发明实施例中视觉反馈对比结果中的语谱图;
图6c是本发明实施例中视觉反馈对比结果中的音高轮廓;
图6d是本发明实施例中视觉反馈对比结果中的共振峰散点图。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本实施例中的左、右、上、下、顶、底等方位用语,仅是互为相对概念,或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。
现有方案中,比如论文[1]提出了使用声学单元(Acoustic Unit,AU)作为发音错误检测和纠正的中介特征,而不直接使用基于ASR的方法,避免基于ASR的CAPT系统对数据集注释的昂贵要求。论文[2]进行了使用Golden Speech和Silver Speech的发音感知实验,Golden Speech即使用口音转换技术将学习者发音转换为标准发音的音频,Silver Speech为标准发音音频,通过让学习者先听音频再标注自己认为存在发音问题的地方,检验保留口音的技术是否能提升学习者的错误意识。专利[3]提出了计算跟读音频和标准音频相似度的方式,展示所述单词的发音训练信息,直观了解每个音节的发音情况。论文[4]提出了将夸张反馈引入计算机辅助发音训练系统的方式,设定了零、低、中、高四种不同程度的夸张视听语音让用户进行自主学习。
当前,大部分AI口语应用所提供的功能为教材同步,跟读打分,音标学习等,能够进行针对性发音训练的系统较为缺失。存在如下缺点:
(1)没有考虑到用户自身的发音水平和母语背景,所有初始水平和发音背景的学习者都使用同一套测试题目,所提供的知识难度不一定和学习者自身适配;很难在短时间内找出学习者自身所有发音错误(论文[1][2][4],专利[3]);
(2)没有针对用户自身错误进行词级别的重点讲解,一句话中错误过多会导致学习者无法准确定位错误,从而无法针对性改进(论文[2]);
(3)没有将用户的错误进行可视化反馈,仅提供了发音得分和错误位置,用户只能知道自身水平高低,用户无法意识到自身的错误原因,导致用户的感知能力始终得不到提升(论文[1][2])。
针对以上问题,本发明下述实施例提出一种发音检测方法与发音检测装置,本发明实施例的发音检测方法,如图1所示,包括以下步骤:S1:为用户提供文本,并采集用户朗读所述文本的用户发音音频;
S2:对所述用户发音音频进行误发音检测与诊断,进行错误发音定位并进行错误标注,得到带有错误标注的文本;S3:可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,使得用户了解自身发音问题以及错误原因,从而根据所述对比反馈结果进行改正。
优选的,基于汉语母语者在学习英语中常见的发音错误,从音系学的元音、辅音和超音段三方面进行语音对比分析,形成针对汉语母语者检测英文发音正误的所述文本。
本发明实施例对汉语母语背景的学习者进行了更为针对性地朗读文本设计,囊括了所有可能存在发音混淆的错误类型,以实现在短时间内暴露更多错误的目的。
(1)为用户提供文本,并采集用户朗读所述文本的用户发音音频。
母语迁移是语言学习中广泛存在的影响,这一影响在发音学习中尤为明显,在任何母语背景下都可能存在。汉语的发音规则以拼音为范本,而英语的发音以音标为范本,不同的发音范本是造成母语迁移的原因之一。然而二者之间的共同点即语音之间的共同点,都存在元音、辅音和超音段的特征,国际音标可以为所有的元音、辅音、超音段提供符号语言支撑。因此,本发明实施例对比了汉英音系之间在元音、辅音、超音段上的区别。总结出来二者之间由于相似性和差异性导致的负向迁移作用,如表1所示。并将对比结果从音素级扩大至包含该音素的单词,再进一步扩大至包含该单词的句子。按照从局部到整体的过程层层设计,总体遵循冗余度最低的原则,最终的评估试题以单词、句子为载体呈现,如表2所示,该表中内容囊括了汉语母语在说英语的时候绝大部分可能存在的错误,可以在短期内让用户暴露出来错误所在。
本发明实施例中的限定朗读文本的方法明显优于当前AI口语产品如流利说,开言英语等默认朗读教材的方式,能够全面刺激用户暴露自身发音所在。相比于论文[1][2][4]中的仅使用了大规模语料库的方法,本发明实施例能更快速地定位用户错误发音,避免因文本和用户自身水平不匹配导致的评价结果不全面。
表1汉语母语存在的英语发音混淆
表2评估试题部分内容示意
(2)针对性误发音检测与诊断
当用户朗读完成提供的文本后,使用深度学习中的误发音检测与诊断技术进行错误识别和诊断,得到用户错误发音的音素以及其诊断结果,进行错误发音定位并进行错误标注,得到带有错误标注的文本,即用户实际发音对应的音素文本内容,带有错误标注的文本中包含了错误发音的字母、单词以及具体错误形式等,了解用户的发音问题。
(3)个性化视听反馈实现
本发明实施例将对比反馈策略引入计算机辅助发音训练系统,如图4所示,它由听觉对比反馈结果和视觉对比反馈结果两部分构成。当定位到用户错误发音之后,如何强调地、加重地让用户意识到自己错误所在,是当前CAPT系统缺乏的能力之一。而本发明实施例引入了传统教学方法中的对比反馈机制,让用户直面正误发音对比,并通过多维度多模态形式的对比让用户深入了解正误之间的发音区别。
为实现个性化视听反馈,可视化错误发音得到对比反馈结果,本发明实施例将提示文本进行标准美式发音的语音合成,得到标准发音音频(如图5b所示),作为本发明实施例的第一听觉对比反馈;将带有错误标注的文本进行标准美式发音的语音合成,并基于声音转换技术转变为带有用户音色的错误重建音频(如图5c所示),作为本发明实施例的第二听觉对比;将带有错误标注的音素文本转换为英文音标,作为本发明实施例的第一视觉对比;将用户发音音频(如图5a所示)、标准发音音频、错误重建音频使用数字音频处理技术进行音频可视化,得到音标对比图、波形图(如图6a所示)、语谱图(如图6b所示)、音高轮廓(如图6c所示)和共振峰散点图(如图6d所示),作为本发明实施例的第二视觉对比。由于训练音频是根据用户自身发音情况所生成,所以可以准确生成针对用户自身的视听对比反馈,帮助用户提高对自己发音错误的感知。图5a至图5c中,横坐标均为时间,纵坐标均为振幅;图5a至图6d中,均已以单词issue为例。
在优选的实施例中,使用双声道的方式为用户提供对比反馈结果,其中,一个声道为所述第二听觉对比反馈结果,另一个声道为所述用户发音音频。
在得到听觉上的对比反馈结果后,为了让用户更直观地学习到错误产生的原因,本发明实施例使用了数字音频处理的知识对音频信号进行了可视化绘制,如图6a至图6d所示。
波形图:如图6a所示,将声音信号随时间的变化进行可视化表示,大致显示声音的基本特征,比如响度变化、发音时长。其中,横坐标均为时间,纵坐标为振幅。
语谱图:如图6b所示,将时域信号变为频域信号,是声音信号的频谱随时间变化的二维表示,能直观地展示不同时刻下所包含的声音频率成分以及其变化过程。图中灰度为幅度(颜色或亮度越深,表示该时间点和频率处的信号强度越大)。
音高轮廓:如图6c所示,随着时间跟踪声音的感知音高的曲线,表示语音信号的基频随时间的变化,携带有一定的韵律信息。音高轮廓对于对比词级别的语调变化非常有必要,汉语母语者受汉字单声调影响,很难理解一个单词中需要变调的情况,因此需要用音高轮廓这种直观的形式表明单词内的发音变化。横坐标为时间,纵坐标为音高(赫兹)。
共振峰散点图:如图6d所示,声道中可以产生共振的频率,在语谱图中表现为一系列离散的高能区域。因共振峰和发音内容强相关,因此对于分辨元音、辅音等任务至关重要。共振峰的频率和能量可以通过线性预测编码(Linear Predictive Coding,LPC)进行估计。横坐标为时间,纵坐标为频率。
据此,本发明实施例得到了针对某个用户发音的个性化视听对比反馈结果,为用户提供深入地发音指导,以便提高用户对正误发音的区分和感知能力。
在优选的实施例中,当所述错误发音的数量大于等于两个时,一次仅反馈其中一个错误发音的对比反馈结果。
本发明还提供了一种发音检测装置,包括评估试题模块、检测定位模块、可视化对比模块,其中:评估试题模块接收用户发音音频作为输入,用于为用户提供文本,采集用户朗读文本的用户发音音频;检测定位模块用于误发音检测与诊断用户发音音频,进行错误发音定位并进行错误标注,从而得到带有错误标注的文本;可视化对比模块用于可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,使得用户了解自身发音问题以及错误原因,从而根据对比反馈结果进行改正。评估试题模块也用于为用户提供朗读文本。
在优选的实施例中,可视化对比模块将文本进行标准美式发音的语音合成,得到标准发音音频,作为第一听觉对比反馈结果;可视化对比模块将带有错误标注的文本进行标准美式发音的语音合成,并基于声音转换技术得到带有用户音色的错误重建音频,作为第二听觉对比反馈结果;可视化对比模块将所述音素文本转换为英文音标,作为第一视觉对比反馈结果;可视化对比模块基于数字音频处理技术将所述用户发音音频、所述标准发音音频、所述错误重建音频进行音频可视化,得到波形图、语谱图、音高轮廓和共振峰散点图,作为第二视觉对比反馈结果。
在优选的实施例中,可视化对比模块使用双声道的方式为用户提供对比反馈结果,其中,一个声道为所述第二听觉对比反馈结果,另一个声道为所述用户发音音频。
在优选的实施例中,当错误发音的数量大于等于两个时,可视化对比模块一次仅反馈其中一个错误发音的对比反馈结果。
当错误发音的数量大于等于两个时,可视化模块会在对比反馈结果中呈现哪个发音存在问题,但点击而视听反馈只针对其中一个发音进行。以“It is a sentence”为例,如果a和en都有错误,则会同时标注显示两个音节。但针对a生成的视听对比反馈结果并不会对en有任何处理,即“错了就错了”,取决于用户想要改正哪个音节。用户每朗读一次,则针对该次朗读结果生成对比反馈的内容再进行教学,而不会像其他产品一样直接提供展示教学资料,是一个动态教学的过程。
在本发明实施例中,用户选择自身的母语背景为汉语,根据提示朗读文本内容即可。在本发明实施例中评估试题模块接收用户朗读的音频文件作为输入,检测定位模块使用误发音检测与诊断技术对其进行处理,得到用户错误发音的音素以及其诊断结果。可视化对比模块根据诊断进行视听正误对比反馈的合成。将视听对比反馈结果直接呈现给用户,以便用户了解自身针对性的发音问题以及错误原因,根据对比反馈结果进行改正。如图2所示,以issue为例,音标/I/在汉语声韵母中没有单独对应的发音。issue的发音为//,部分学习者会将短元音/I/发为长原因/eI/,导致发音为//。本发明实施例需要首先为用户返回音标对比,同时提供用户录制原声、正确的//音频和重建的//音频,以及三者相应的音频可视化图像。
仍以issue为例,所生成的听觉对比反馈音频(以语谱图示意)如下。在具体的实施例中可以将左耳应用用户原声音频、右耳应用错误重建音频的方式,双声道地为用户提供对比反馈。如果用户在一句话中存在过多错误,那么本发明实施例根据诊断结果,只针对某一个错误发音生成对比反馈结果,而对于其他的错误暂不进行纠正,以实现“一次一词”的过程。在这个过程中,本发明实施例使用了以标准美式发音为数据集的TTS算法,以便生成自然地道的英语表达。同时使用了针对任意说话人的VC算法,以便得到用户的声学特征,进行保留音色的错误发音重建,让用户“听到自己的声音”。
实施例1
本实施例的发音检测方法利用了引入视听对比反馈策略的计算机辅助发音训练系统。如图3所示,本发明实施例的发音检测方法由三部分组成:(1)针对汉语母语背景学习者,为学习者的朗读提供范本,范本为汉语母语背景学习者学习英文时的易错、易混淆发音文本,帮助学习者更明显地暴露自身发音错误,范本也作为评估试题;发音检测装置将朗读文本输入给用户,得到用户朗读后的音频为发音检测装置的输入;(2)基于误发音检测与诊断技术的用户错误发音诊断,为学习者的发音打分和纠错,以准确地定位问题;(3)基于语音合成、声音转换技术的语音生成,基于数字音频处理的音频可视化作为对比反馈结果,对比反馈结果从视觉和听觉两个角度进行对比反馈,视觉提供音标对比、波形对比、语谱图对比、音高轮廓对比和共振峰散点图对比,听觉提供用户发音音频、标准发音音频、错误重建音频三者之间的对比。
本发明实施例所提出发音检测方法利用了计算机辅助发音训练系统,主要由三部分构成,针对用户背景进行的发音评估并进行错误诊断,以及根据错误结果生成的个性化视听对比反馈。第一部分,针对性发音诊断考虑到了汉语母语者在学习英语中常见的发音错误,从音系学的元音、辅音和超音段三方面进行了语音对比分析,总结出来了一套适合该背景学习者的评估试题。第二部分,根据学习者对该文本的朗读进行全面的误发音检测与诊断,以定位用户自身高频错误所在;第三部分,根据所得错误结果分别进行标准美式发音、错误发音重建,并将合成结果进行音频可视化,得到相应的波形图、语谱图、音高轮廓和共振峰散点图,以提供个性化的视听对比反馈。相比于之前的方法,本发明实施例有以下优势:
对汉语母语背景的学习者进行了更为针对性地朗读文本设计,囊括了所有可能存在发音混淆的错误类型,以实现在短时间内暴露更多错误的目的。
每次仅对用户在一个单词上的一个错误发音进行针对性纠正,保证学习者只关注于某个发音存在的问题,能够提高用户对错误的定位能力。
同时提供了多种形式的视听对比反馈,明确告知学习者自身错误问题所在,延长了计算机辅助发音训练系统和用户之间的交互路径,以进行更好地纠正和改进。
本发明实施例对于人机交互和外语教学行业有重要价值,可用于口语学习、口音纠正、发音训练等多种应用场景中,可以针对用户自身水平进行个性化反馈,改善用户自身的错误发音意识。
本发明实施例对硬件环境没有特殊的要求,在一般的计算机上即可实现。
本发明实施例的特点可以归纳为:
提供针对汉语母语背景的英语发音测评朗读文本,在短时间内快速定位用户的高频错误类型。
保证每次只针对一个错误发音进行纠正,以控制变量的形式让用户准确定位自身错误所在,按部就班地进行自我纠正。
提供了多维度多模态的个性化视听正误对比反馈,进一步延伸了计算机辅助发音训练系统所能提供的能力,提高用户对自身错误发音的感知能力。
上述系统设计实现了动态教学和个性化纠正反馈的过程,具有一定的应用意义。
本发明实施例还可以进行以下内容拓展:
(1)对于反馈模态,本发明实施例使用了视觉和听觉对比反馈,如果能够针对智能终端设备进行落地应用,也可以采用听觉和触觉(震动)的对比形式,以通过更明显的刺激让学习者意识到错误所在。
(2)对于算法实现,本发明实施例使用了声音转换的方式进行了发音重建,进行用户错误发音和用户正确发音对比,也可以直接使用说话人相关的自然语音合成算法,进行正确标准美式发音和带有用户自身错误的标准美式发音进行对比,也是一种对比反馈的方式。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (8)
1.一种发音检测方法,其特征在于,包括以下步骤:
S1:为用户提供文本,并采集用户朗读所述文本的用户发音音频;
S2:对所述用户发音音频进行误发音检测与诊断,进行错误发音定位并进行错误标注,得到带有错误标注的文本;
S3:可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,使得用户了解自身发音问题以及错误原因,从而根据所述对比反馈结果进行改正;其中,步骤S3包括如下步骤:
S31:将所述文本进行标准美式发音的语音合成,得到标准发音音频,作为第一听觉对比反馈结果;
S32:将带有错误标注的文本进行标准美式发音的语音合成,并基于声音转换技术得到带有用户音色的错误重建音频,作为第二听觉对比反馈结果;
S33:所述带有错误标注的文本包括音素文本,将所述音素文本转换为英文音标,作为第一视觉对比反馈结果;
S34:基于数字音频处理技术将所述用户发音音频、所述标准发音音频、所述错误重建音频进行音频可视化,得到音标对比图、波形图、语谱图、音高轮廓和共振峰散点图,作为第二视觉对比反馈结果。
2.根据权利要求1所述的发音检测方法,其特征在于,基于汉语母语者在学习英语中常见的发音错误,从音系学的元音、辅音和超音段三方面进行语音对比分析,形成针对汉语母语者检测英文发音正误的所述文本。
3.根据权利要求1所述的发音检测方法,其特征在于,所述对比反馈结果包括听觉对比反馈结果和视觉对比反馈结果。
4.根据权利要求1所述的发音检测方法,其特征在于,使用双声道的方式为用户提供对比反馈结果,其中,一个声道为所述第二听觉对比反馈结果,另一个声道为所述用户发音音频。
5.根据权利要求1所述的发音检测方法,其特征在于,当所述错误发音的数量大于等于两个时,一次仅反馈其中一个错误发音的对比反馈结果。
6.一种发音检测装置,其特征在于,包括评估试题模块、检测定位模块、可视化对比模块,其中:
所述评估试题模块接收用户发音音频作为输入,用于为用户提供文本,采集用户朗读所述文本的用户发音音频;
所述检测定位模块用于误发音检测与诊断所述用户发音音频,进行错误发音定位并进行错误标注,从而得到带有错误标注的文本;
所述可视化对比模块用于可视化所述错误发音得到对比反馈结果,并将对比反馈结果反馈给用户,使得用户了解自身发音问题以及错误原因,从而根据所述对比反馈结果进行改正;所述对比反馈结果包括听觉对比反馈结果和视觉对比反馈结果;所述听觉对比反馈结果包括第一听觉对比反馈结果和第二听觉对比反馈结果,所述视觉对比反馈结果包括第一视觉对比反馈结果和第二视觉对比反馈结果;
所述可视化对比模块将所述文本进行标准美式发音的语音合成,得到标准发音音频,作为第一听觉对比反馈结果;
所述可视化对比模块将带有错误标注的文本进行标准美式发音的语音合成,并基于声音转换技术得到带有用户音色的错误重建音频,作为第二听觉对比反馈结果;
所述带有错误标注的文本包括音素文本,所述可视化对比模块将所述音素文本转换为英文音标,作为第一视觉对比反馈结果;
所述可视化对比模块基于数字音频处理技术将所述用户发音音频、所述标准发音音频、所述错误重建音频进行音频可视化,得到波形图、语谱图、音高轮廓和共振峰散点图,作为第二视觉对比反馈结果。
7.根据权利要求6所述的发音检测装置,其特征在于,所述可视化对比模块使用双声道的方式为用户提供对比反馈结果,其中,一个声道为所述第二听觉对比反馈结果,另一个声道为所述用户发音音频。
8.根据权利要求6所述的发音检测装置,其特征在于,当所述错误发音的数量大于等于两个时,所述可视化对比模块一次仅反馈其中一个错误发音的对比反馈结果。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310432880.9A CN116403607B (zh) | 2023-04-21 | 2023-04-21 | 一种发音检测方法与发音检测装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310432880.9A CN116403607B (zh) | 2023-04-21 | 2023-04-21 | 一种发音检测方法与发音检测装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN116403607A CN116403607A (zh) | 2023-07-07 |
| CN116403607B true CN116403607B (zh) | 2025-11-07 |
Family
ID=87019780
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310432880.9A Active CN116403607B (zh) | 2023-04-21 | 2023-04-21 | 一种发音检测方法与发音检测装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116403607B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119252287B (zh) * | 2024-12-03 | 2025-03-04 | 山东大学 | 一种基于多任务学习的英语辅助发音训练方法及系统 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110085261A (zh) * | 2019-05-16 | 2019-08-02 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及计算机可读存储介质 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6610917B2 (en) * | 1998-05-15 | 2003-08-26 | Lester F. Ludwig | Activity indication, external source, and processing loop provisions for driven vibrating-element environments |
| CN101661675B (zh) * | 2009-09-29 | 2012-01-11 | 苏州思必驰信息科技有限公司 | 一种错误自感知的声调发音学习方法和系统 |
| CN110097874A (zh) * | 2019-05-16 | 2019-08-06 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及存储介质 |
| CN112466279B (zh) * | 2021-02-02 | 2021-05-18 | 深圳市阿卡索资讯股份有限公司 | 一种英语口语发音自动纠正方法和装置 |
-
2023
- 2023-04-21 CN CN202310432880.9A patent/CN116403607B/zh active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110085261A (zh) * | 2019-05-16 | 2019-08-02 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及计算机可读存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN116403607A (zh) | 2023-07-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Dhanjal et al. | An automatic machine translation system for multi-lingual speech to Indian sign language | |
| Engwall | Analysis of and feedback on phonetic features in pronunciation training with a virtual teacher | |
| Ping et al. | Innovative approaches to English pronunciation instruction in ESL contexts: integration of multi-sensor detection and advanced algorithmic feedback | |
| Herman | Phonetic markers of global discourse structures in English | |
| Kissova | Contrastive analysis in teaching English pronunciation | |
| CN116403607B (zh) | 一种发音检测方法与发音检测装置 | |
| Peabody et al. | Towards automatic tone correction in non-native mandarin | |
| CN111508522A (zh) | 一种语句分析处理方法及系统 | |
| Price et al. | Assessment of emerging reading skills in young native speakers and language learners | |
| KR20140087956A (ko) | 단어 및 문장과 이미지 데이터 그리고 원어민의 발음 데이터를 이용한 파닉스 학습장치 및 방법 | |
| KR20140078810A (ko) | 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법 | |
| JP2026511871A (ja) | 学習のための区別化された口頭プロンプトを生成するための方法及び装置 | |
| Ping et al. | Innovative approaches to English pronunciation instruction in ESL environments: integration of multi-sensor detection and advanced algorithmic feedback | |
| Van et al. | Adopting StudyIntonation CAPT tools to tonal languages through the example of Vietnamese | |
| Hsiao et al. | A text-dependent end-to-end speech sound disorder detection and diagnosis in mandarin-speaking children | |
| Cucchiarini et al. | The nature of phonetic transcription | |
| Yang et al. | LLM-Based Teacher Tone Recognition for Educational Scenarios | |
| Levis et al. | Phonetics and phonology: Overview | |
| Alsabaan | Pronunciation support for Arabic learners | |
| Xue | Measuring the intelligibility of pathological speech through subjective and objective procedures | |
| Pandey | Segmental evaluation of Text-to-Speech Synthesizers | |
| KR20140079245A (ko) | 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법 | |
| Kawamura et al. | DDSupport: Language learning support system that displays differences and distances from model speech | |
| KR20140087950A (ko) | 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법 | |
| Hismanoglu et al. | Computer assisted pronunciation teaching: From the past to the present with its limitations and pedagogical implications |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |