CN116206496A - 一种基于人工智能的英语口语练习分析比对系统 - Google Patents

一种基于人工智能的英语口语练习分析比对系统 Download PDF

Info

Publication number
CN116206496A
CN116206496A CN202310045592.8A CN202310045592A CN116206496A CN 116206496 A CN116206496 A CN 116206496A CN 202310045592 A CN202310045592 A CN 202310045592A CN 116206496 A CN116206496 A CN 116206496A
Authority
CN
China
Prior art keywords
pronunciation
english
key
english word
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310045592.8A
Other languages
English (en)
Other versions
CN116206496B (zh
Inventor
李�诚
李娜
李晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiqihar University
Original Assignee
Qiqihar University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiqihar University filed Critical Qiqihar University
Priority to CN202310045592.8A priority Critical patent/CN116206496B/zh
Publication of CN116206496A publication Critical patent/CN116206496A/zh
Application granted granted Critical
Publication of CN116206496B publication Critical patent/CN116206496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及英语口语分析技术领域,公开一种基于人工智能的英语口语练习分析比对系统,通过利用拾音器和图像采集器采集学生用户练习各英语单词的发音音频和口型视频,进而将发音音频进行音波图转化分割处理,以此评判学生用户的英语口语发音是否标准,并在评判结束后基于发音音频数据的具象分割处理实现了发音错误的细化指向解析,使得评判结果更加深入,能够为发音辅助指导提供针对性的发音口型指导方向,与此同时通过学生用户存在发音错误的英语单词进行集中处理,确定学生用户对应的英语口语重点练习音素,并据此进行重点练习词库构建,实现了学生用户错误发音数据的高效利用,能够为练习者的未来发音练习提供有效参考。

Description

一种基于人工智能的英语口语练习分析比对系统
技术领域
本发明涉及英语口语分析技术领域,具体而言,是一种基于人工智能的英语口语练习分析比对系统。
背景技术
英语在世界所有语言中用途最广,由于社会的不断发展进步,对综合型人才有大量的需求,很多学校对英语口语教学予以一定的重视,但由于学校的英语口语教学是一对多的教学模式,使得教学老师在教学过程中无法实时关注到每一个学生,导致难以为学生提供一对一均衡的口语教学,致使当前学校英语口语的教学收效甚微,在这种情况下,人们迫切需要一种一对一实时的口语教学形式,为了满足这种需求,基于人工智能的英语口语教学系统应运而生。
鉴于英语口语教学的关键在于发音教学,使得现在的英语口语教学系统侧重于发音校对,如公开号为CN109326160A的中国发明专利公开的一种英语口语发音校对系统,通过对练习者进行发音音频数据和口型图像数据采集,以此评判练习者的英语口语发音是否标准,并根据评判结果进行发音辅助指导,该发明在实际应用中存在如下缺陷:1、该发明在进行发音辅助指导时由于缺乏对发音错误的细化指向解析,导致难以为发音辅助指导提供针对性的发音口型指导方向,进而不仅降低了辅助指导效率,还直接影响了辅助指导效果。
2、该发明对练习者错误发音数据的利用形式过于单一,仅用于实现发音校正,致使错误发音数据的利用率较低,导致英语口语教学系统的使用功能过于局限,仅适合当前使用,无法为练习者的未来发音练习提供有效参考,潜在价值不高,不利于练习者发音标准度的快速提高,从而在一定程度上降低了练习者对英语口语教学系统的使用粘性。
发明内容
为解决上述技术问题,本发明是通过以下技术方案实现的:一种基于人工智能的英语口语练习分析比对系统,包括:学生用户登录模块,用于由学生用户通过注册账号登录系统。
发音音频采集模块,用于在学生用户练习英语单词的过程中利用拾音器采集学生用户练习各英语单词的发音音频。
口型视频采集模块,用于在学生用户练习英语单词的过程中利用图像采集器采集学生用户练习各英语单词的口型视频。
比对信息库,用于存储各英语单词对应的标准发音音频和标准口型视频,并存储各音素表征类型对应的发音主导因子。
发音标准评估模块,用于提取各英语单词的标准发音音频,进而将学生用户练习各英语单词的发音音频与对应英语单词的标准发音音频进行对比分析,评估学生用户练习各英语单词的发音标准度。
关键英语单词识别模块,用于基于学生用户练习各英语单词的发音标准度识别出关键英语单词。
发音错误音节解析模块,用于解析各关键英语单词对应的发音错误音节。
关键英语单词发音指导模块,用于提取各关键英语单词的口型视频,并结合各关键英语单词对应的发音错误音节进行发音指导。
重点练习音素确定模块,用于将各关键英语单词对应的发音错误音节进行综合对比分析,从中确定学生用户对应的英语口语重点练习音素。
重点练习词库构建存储模块,用于根据学生用户对应的英语口语重点练习音素进行重点练习词库构建,并存储。
进一步地,所述评估学生用户练习各英语单词的发音标准度包括以下步骤:A1、依次将学生用户练习各英语单词的发音音频和各英语单词的标准发音音频进行音波图转化,得到学生用户练习各英语单词的发音波形图和各英语单词的标准发音波形图。
A2、将各英语单词进行音节划分,并对各音节进行编号,同时计算各音节对应的字母占比率。
A3、分别从各英语单词的标准发音波形图、学生用户练习各英语单词的发音波形图中标记出音波单体,其中音波单体与音节一一对应。
A4、从学生用户练习各英语单词的发音波形图中提取各音节所属音波单体的幅值和发音时间区间,其中发音时间区间由初始发音时间点和结束发音时间点构成,并从各英语单词的标准发音波形图中提取各音节所属音波单体的标准幅值和标准发音时间区间。
A5、借助公式
Figure BDA0004055274050000041
统计得到学生用户练习各英语单词中各音节对应的发音标准度CPij,其中i表示为英语单词的编号,i=1,2,…,n,n表示为学生用户练习的英语单词数量,j表示为音节编号,j=1,2,...,m,m表示为英语单词中存在的音节数量,pij表示为学生用户练习第i个英语单词中第j个音节所属音波单体的幅值,pij′表示为第i个英语单词中第j个音节所属音波单体的标准幅值,tija、tijb分别表示为学生用户练习第i个英语单词中第j个音节所属音波单体的初始发音时间点、结束发音时间点,tija′、tijb′分别表示为第i个英语单词中第j个音节所属音波单体的标准初始发音时间点、标准结束发音时间点,Rij表示为学生用户练习第i个英语单词中第j个音节对应的发音时长符合度,α、β分别表示为预设的幅值、发音时间对应的权衡因子,且α+β=1。
A6、将CPij代入评估公式
Figure BDA0004055274050000042
得到学生用户练习各英语单词的发音标准度Qi,λij表示为第i个英语单词中第j个音节对应的字母占比率。
进一步地,所述Rij的表示公式为
Figure BDA0004055274050000043
e表示为自然常数。
进一步地,所述关键英语单词的识别方式为将学生用户练习各英语单词的发音标准度与设置的合格发音标准度进行对比,若学生用户练习某英语单词的发音标准度小于设置的合格发音标准度,则将该英语单词记为关键英语单词。
进一步地,所述解析各关键英语单词对应的发音错误音节如下解析方式为:将学生用户练习各关键英语单词中各音节对应的发音标准度与相应音节的发音标准度阈值进行对比,从中筛选出各关键英语单词中小于发音标准度阈值的音节作为各关键英语单词对应的发音错误音节。
进一步地,所述基于各关键英语单词对应的发音错误音节进行发音指导具体包括以下步骤:B1、根据各关键英语单词对应的发音错误音节从学生用户练习各关键英语单词的发音波形图中定位出发音错误音节对应的音波单体,将其记为特定音波单体。
B2、从学生用户练习各关键英语单词的发音波形图中提取指定音波单体对应的发音时间区间,将其记为特定时间区间,以此从相应关键英语单词的口型视频中截取特定时间区间对应的口型视频段,记为特定口型视频段。
B3、从各关键英语单词对应的特定口型视频段中截取有效口型图像,并从中提取口型特征参数,其中口型特征参数包括唇部张开形状、舌头卷曲形状和舌尖放置位置。
B4、从比对信息中提取各关键英语单词对应的标准口型视频,并将其按照B2和B3处理得到标准有效口型图像,进而从中提取标准口型特征参数。
B5、将各关键英语单词对应的口型特征参数与标准口型特征参数进行对比,从中识别出异常口型特征参数,作为各关键英语单词对应的发音口型指导方向。
B6、根据各关键英语单词对应的发音口型指导方向进行指导。
进一步地,所述从各关键英语单词对应的特定口型视频段中截取有效口型图像如下操作方式:从学生用户练习各关键英语单词的发音波形图中提取指定音波单体峰值对应的时间点,记为目标时间点。
从各关键英语单词对应的特定口型视频段中定位到目标时间点对应的图像,记为有效口型图像,并截取。
进一步地,所述确定学生用户对应的英语口语重点练习音素参见如下步骤:C1、将各关键英语单词对应的发音错误音节依次进行音素分解,得到若干音素,并识别出各音素对应的表征类型,进而从对比信息库中提取各音素对应的发音主导因子。
C2、将各发音错误音节分解得到的各音素进行相互对比,进而将相同音素进行归类,以此统计所有发音错误音节归类出的音素数量及各音素的出现频次。
C3、将各音素对应的发音主导因子和出现频次通过公式
Figure BDA0004055274050000061
计算出各音素对应的倾向指数/>
Figure BDA0004055274050000062
其中k表示为音素编号,k=1,2,…,z,z表示为所有发音错误音节归类出的音素数量,xk表示为第k音素的出现频次,εk表示为第k音素对应的发音主导因子。
C4、从各音素对应的倾向指数中提取最大倾向指数对应的音素作为学生用户对应的英语口语重点练习音素。
进一步地,所述表征类型包括元音和辅音。
进一步地,所述根据学生用户对应的英语口语重点练习音素进行重点练习词库归纳构建具体执行过程包括以下步骤:D1、基于学生用户的注册账号从后台提取学生用户对应的当前学业年级,并据此从英语词库中筛选出学生用户当前学业年级规定掌握的英语单词,将其记为备选英语单词。
D2、分别将各备选英语单词进行音节划分,并对划分的各音节进行音素分解,得到各备选英语单词分解完成的若干音素。
D3、将各备选英语单词分解完成的若干音素与学生用户对应的英语口语重点练习音素进行匹配,从中筛查出匹配成功的备选英语单词,记为适配英语单词。
D4、从各适配英语单词划分的音节中识别出学生用户对应的英语口语重点练习音素归属音节,将其记为指定音节。
D5、依次将各适配英语单词对应的指定音节与各关键英语单词对应的发音错误音节进行字母重合对比,并利用公式
Figure BDA0004055274050000071
计算得到各适配英语单词与各关键英语单词的音节相似度,与此同时将其导入/>
Figure BDA0004055274050000072
计算得到各适配英语单词对应的综合音节相似度/>
Figure BDA0004055274050000081
d表示为适配英语单词的编号,d=1,2,…,u,u表示为适配英语单词的数量,χdmax、χdmin分别表示为第d适配英语单词与各关键英语单词的音节相似度中的最大音节相似度、最小音节相似度。
D6、将筛查出的适配英语单词构成重点练习词库,并在重点练习词库内将各适配英语单词按照综合音节相似度降序排列。
与现有技术相比,本发明具有以下优点:1、本发明通过利用拾音器和图像采集器采集学生用户练习各英语单词的发音音频和口型视频,进而将发音音频进行音波图转化分割处理,以此评判学生用户的英语口语发音是否标准,并在评判结束后基于发音音频数据的具象分割处理实现了发音错误的细化指向解析,使得评判结果更加深入,能够为发音辅助指导提供针对性的发音口型指导方向,不仅能够提高辅助指导效率,还有利于提高辅助指导效果。
2、本发明通过对学生用户存在发音错误的英语单词进行集中处理,确定学生用户对应的英语口语重点练习音素,并据此进行重点练习词库构建,实现了学生用户错误发音数据的高效利用,使得英语口语教学系统的使用功能不在局限于当前使用,而是扩展到未来使用,能够为练习者的未来发音练习提供有效参考,具有较高的潜在价值,有利于在短期内提高学生用户的发音标准度,从而在一定程度上提高了的学生用户对英语口语教学系统的使用粘性。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的系统连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种基于人工智能的英语口语练习分析比对系统,包括学生用户登录模块、发音音频采集模块、口型视频采集模块、比对信息库、发音标准评估模块、关键英语单词识别模块、发音错误音节解析模块、关键英语单词发音指导模块、重点练习音素确定模块和重点练习词库构建存储模块连接,其中学生用户登录模块分别与发音音频采集模块和口型视频采集模块连接,发音音频采集模块与发音标准评估模块连接,发音标准评估模块与关键英语单词识别模块连接,关键英语单词识别模块与发音错误音节解析模块连接,发音错误音节解析模块和口型视频采集模块均与关键英语单词发音指导模块连接,发音错误音节解析模块与重点练习音素确定模块连接,重点练习音素确定模块与重点练习词库构建存储模块连接,比对信息库分别与发音标准评估模块、关键英语单词发音指导模块和重点练习音素确定模块连接。
所述学生用户登录模块用于由学生用户通过注册账号登录系统。
所述发音音频采集模块用于在学生用户练习英语单词的过程中利用拾音器采集学生用户练习各英语单词的发音音频。
所述口型视频采集模块用于在学生用户练习英语单词的过程中利用图像采集器采集学生用户练习各英语单词的口型视频。
所述比对信息库用于存储各英语单词对应的标准发音音频和标准口型视频,并存储各音素表征类型对应的发音主导因子。
所述发音标准评估模块用于提取各英语单词的标准发音音频,进而将学生用户练习各英语单词的发音音频与对应英语单词的标准发音音频进行对比分析,评估学生用户练习各英语单词的发音标准度,具体包括以下步骤:A1、依次将学生用户练习各英语单词的发音音频和各英语单词的标准发音音频进行音波图转化,得到学生用户练习各英语单词的发音波形图和各英语单词的标准发音波形图。
A2、将各英语单词进行音节划分,并对各音节进行编号,同时获取各音节中存在的字母数量,通过公式
Figure BDA0004055274050000101
由此计算各音节对应的字母占比率。
需要说明的是,上述提到的将英语单词进行音节划分的方式可以通过音标划分。
A3、分别从各英语单词的标准发音波形图、学生用户练习各英语单词的发音波形图中标记出音波单体,其中音波单体与音节一一对应。
A4、从学生用户练习各英语单词的发音波形图中提取各音节所属音波单体的幅值和发音时间区间,其中发音时间区间由初始发音时间点和结束发音时间点构成,并从各英语单词的标准发音波形图中提取各音节所属音波单体的标准幅值和标准发音时间区间。
A5、借助公式
Figure BDA0004055274050000111
统计得到学生用户练习各英语单词中各音节对应的发音标准度CPij,其中i表示为英语单词的编号,i=1,2,...,n,n表示为学生用户练习的英语单词数量,j表示为音节编号,j=1,2,…,m,m表示为英语单词中存在的音节数量,pij表示为学生用户练习第i个英语单词中第j个音节所属音波单体的幅值,pij′表示为第i个英语单词中第j个音节所属音波单体的标准幅值,tija、tijb分别表示为学生用户练习第i个英语单词中第j个音节所属音波单体的初始发音时间点、结束发音时间点,tija′、tijb′分别表示为第i个英语单词中第j个音节所属音波单体的标准初始发音时间点、标准结束发音时间点,Rij表示为学生用户练习第i个英语单词中第j个音节对应的发音音调符合度,Rij的表示公式为/>
Figure BDA0004055274050000112
e表示为自然常数,α、β分别表示为预设的幅值、发音时间对应的权衡因子,且α+β=1。
作为本发明的具体实施例,在评估英语单词的发音标准度过程中考虑到音高、音调和节奏是否标准直接决定了发音是否标准,由此将发音标准度评估转化为音高、音调和节奏的评估,其中音节所属音波单体的幅值代表音节的发音响度,音节所属音波单体的发音时间区间对应的时长代表音节的音调,且发音时间区间对应的时长越短,音节的音调越高,音节所属音波单体的发音时间区间中的初始发音时间点和结束发音时间点代表音节的发音节奏,当初始发音时间点与结束发音时间点与标准初始发音时间点、标准结束发音时间点越贴近时,音节的发音节奏感越强,越能够达到精准踩点的效果。
A6、将CPij代入评估公式
Figure BDA0004055274050000121
得到学生用户练习各英语单词的发音标准度Qi,λij表示为第i个英语单词中第j个音节对应的字母占比率,其中某音节的字母占比率越大,该音节的权重越大。
所述关键英语单词识别模块用于基于学生用户练习各英语单词的发音标准度识别出关键英语单词,其识别方式为将学生用户练习各英语单词的发音标准度与设置的合格发音标准度进行对比,若学生用户练习某英语单词的发音标准度小于设置的合格发音标准度,则将该英语单词记为关键英语单词。
所述发音错误音节解析模块用于解析各关键英语单词对应的发音错误音节,其解析方式为将学生用户练习各关键英语单词中各音节对应的发音标准度与相应音节的发音标准度阈值进行对比,从中筛选出各关键英语单词中小于发音标准度阈值的音节作为各关键英语单词对应的发音错误音节。
所述关键英语单词发音指导模块用于基于关键英语单词的编号从学生用户练习各英语单词的口型视频中提取各关键英语单词的口型视频,并结合各关键英语单词对应的发音错误音节进行发音指导,具体包括以下步骤:B1、根据各关键英语单词对应的发音错误音节从学生用户练习各关键英语单词的发音波形图中定位出发音错误音节对应的音波单体,将其记为特定音波单体。
B2、从学生用户练习各关键英语单词的发音波形图中提取指定音波单体对应的发音时间区间,将其记为特定时间区间,以此从相应关键英语单词的口型视频中截取特定时间区间对应的口型视频段,记为特定口型视频段。
B3、从各关键英语单词对应的特定口型视频段中截取有效口型图像,并从中提取口型特征参数,其中口型特征参数包括唇部张开形状、舌头卷曲形状和舌尖放置位置。
需要提醒的是上述口型特征参数中舌尖放置位置的具体提取方式可以通过在学生用户的口腔内进行三维坐标系构建,进而根据构建的三维坐标系得到舌尖放置位置对应的三维坐标。
作为一个示例,从各关键英语单词对应的特定口型视频段中截取有效口型图像如下操作方式:从学生用户练习各关键英语单词的发音波形图中提取指定音波单体峰值对应的时间点,记为目标时间点。
从各关键英语单词对应的特定口型视频段中定位到目标时间点对应的图像,记为有效口型图像,并截取。
B4、从比对信息中提取各关键英语单词对应的标准口型视频,并将其按照B2和B3处理得到标准有效口型图像,进而从中提取标准口型特征参数。
B5、将各关键英语单词对应的口型特征参数与标准口型特征参数进行对比,若某关键英语单词对应的某口型特征参数与对应的标准口型特征参数不一致,则将该口型特征参数记为异常口型特征参数,进而将其作为该关键英语单词对应的发音口型指导方向。
B6、根据各关键英语单词对应的发音口型指导方向进行指导。
本发明通过利用拾音器和图像采集器采集学生用户练习各英语单词的发音音频和口型视频,进而将发音音频进行音波图转化分割处理,以此评判学生用户的英语口语发音是否标准,并在评判结束后基于发音音频数据的具象分割处理实现了发音错误的细化指向解析,使得评判结果更加深入,能够为发音辅助指导提供针对性的发音口型指导方向,不仅能够提高辅助指导效率,还有利于提高辅助指导效果。
所述重点练习音素确定模块用于将各关键英语单词对应的发音错误音节进行综合对比分析,从中确定学生用户对应的英语口语重点练习音素,参见如下步骤:C1、将各关键英语单词对应的发音错误音节依次进行音素分解,得到若干音素,并识别出各音素对应的表征类型,进而从对比信息库中提取各音素对应的发音主导因子。
需要说明的是,音素是音的最小单位,英语国际音标中共有48音素,音素的表征类型分为元音和辅音,其中元音由于发音响亮,口腔中由于气流不受阻碍,是构成音节的主要音,因此元音对应的发音主导因子大于辅音对应的发音主导因子。
C2、将各发音错误音节分解得到的各音素进行相互对比,进而将相同音素进行归类,以此统计所有发音错误音节归类出的音素数量及各音素的出现频次。
C3、将各音素对应的发音主导因子和出现频次通过公式
Figure BDA0004055274050000151
计算出各音素对应的倾向指数/>
Figure BDA0004055274050000152
其中k表示为音素编号,k=1,2,...,z,z表示为所有发音错误音节归类出的音素数量,xk表示为第k音素的出现频次,εk表示为第k音素对应的发音主导因子,其中音素对应的发音主导因子和出现频次均对倾向指数产生正面影响。
C4、从各音素对应的倾向指数中提取最大倾向指数对应的音素作为学生用户对应的英语口语重点练习音素。
所属重点练习词库构建存储模块用于根据学生用户对应的英语口语重点练习音素进行重点练习词库构建,并存储,其中重点练习词库构建的具体执行过程包括以下步骤:D1、基于学生用户的注册账号从后台提取学生用户对应的当前学业年级,并据此从英语词库中筛选出学生用户当前学业年级规定掌握的英语单词,将其记为备选英语单词。
D2、分别将各备选英语单词进行音节划分,并对划分的各音节进行音素分解,得到各备选英语单词分解完成的若干音素。
D3、将各备选英语单词分解完成的若干音素与学生用户对应的英语口语重点练习音素进行匹配,从中筛查出匹配成功的备选英语单词,记为适配英语单词。
D4、从各适配英语单词划分的音节中识别出学生用户对应的英语口语重点练习音素归属音节,将其记为指定音节。
D5、依次将各适配英语单词对应的指定音节与各关键英语单词对应的发音错误音节进行字母重合对比,并利用公式
Figure BDA0004055274050000161
计算得到各适配英语单词与各关键英语单词的音节相似度,与此同时将其导入/>
Figure BDA0004055274050000162
计算得到各适配英语单词对应的综合音节相似度/>
Figure BDA0004055274050000163
d表示为适配英语单词的编号,d=1,2,...,u,u表示为适配英语单词的数量,χdmax、χdmin分别表示为第d适配英语单词与各关键英语单词的音节相似度中的最大音节相似度、最小音节相似度。
D6、将筛查出的适配英语单词构成重点练习词库,并在重点练习词库内将各适配英语单词按照综合音节相似度降序排列。
本发明通过对学生用户存在发音错误的英语单词进行集中处理,确定学生用户对应的英语口语重点练习音素,并据此进行重点练习词库构建,实现了学生用户错误发音数据的高效利用,使得英语口语教学系统的使用功能不在局限于当前使用,而是扩展到未来使用,能够为练习者的未来发音练习提供有效参考,具有较高的潜在价值,有利于在短期内提高学生用户的发音标准度,从而在一定程度上提高了的学生用户对英语口语教学系统的使用粘性。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于人工智能的英语口语练习分析比对系统,其特征在于,包括:
学生用户登录模块,用于由学生用户通过注册账号登录系统;
发音音频采集模块,用于在学生用户练习英语单词的过程中利用拾音器采集学生用户练习各英语单词的发音音频;
口型视频采集模块,用于在学生用户练习英语单词的过程中利用图像采集器采集学生用户练习各英语单词的口型视频;
比对信息库,用于存储各英语单词对应的标准发音音频和标准口型视频,并存储各音素表征类型对应的发音主导因子;
发音标准评估模块,用于提取各英语单词的标准发音音频,进而将学生用户练习各英语单词的发音音频与对应英语单词的标准发音音频进行对比分析,评估学生用户练习各英语单词的发音标准度;
关键英语单词识别模块,用于基于学生用户练习各英语单词的发音标准度识别出关键英语单词;
发音错误音节解析模块,用于解析各关键英语单词对应的发音错误音节;
关键英语单词发音指导模块,用于提取各关键英语单词的口型视频,并结合各关键英语单词对应的发音错误音节进行发音指导;
重点练习音素确定模块,用于将各关键英语单词对应的发音错误音节进行综合对比分析,从中确定学生用户对应的英语口语重点练习音素;
重点练习词库构建存储模块,用于根据学生用户对应的英语口语重点练习音素进行重点练习词库构建,并存储。
2.根据权利要求1所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述评估学生用户练习各英语单词的发音标准度包括以下步骤:
A1、依次将学生用户练习各英语单词的发音音频和各英语单词的标准发音音频进行音波图转化,得到学生用户练习各英语单词的发音波形图和各英语单词的标准发音波形图;
A2、将各英语单词进行音节划分,并对各音节进行编号,同时计算各音节对应的字母占比率;
A3、分别从各英语单词的标准发音波形图、学生用户练习各英语单词的发音波形图中标记出音波单体,其中音波单体与音节一一对应;
A4、从学生用户练习各英语单词的发音波形图中提取各音节所属音波单体的幅值和发音时间区间,其中发音时间区间由初始发音时间点和结束发音时间点构成,并从各英语单词的标准发音波形图中提取各音节所属音波单体的标准幅值和标准发音时间区间;
A5、借助公式
Figure FDA0004055274040000021
统计得到学生用户练习各英语单词中各音节对应的发音标准度CPij,其中i表示为英语单词的编号,i=1,2,...,n,n表示为学生用户练习的英语单词数量,j表示为音节编号,j=1,2,…,m,m表示为英语单词中存在的音节数量,pij表示为学生用户练习第i个英语单词中第j个音节所属音波单体的幅值,pij′表示为第i个英语单词中第j个音节所属音波单体的标准幅值,tija、tijb分别表示为学生用户练习第i个英语单词中第j个音节所属音波单体的初始发音时间点、结束发音时间点,tija′、tijb′分别表示为第i个英语单词中第j个音节所属音波单体的标准初始发音时间点、标准结束发音时间点,Rij表示为学生用户练习第i个英语单词中第j个音节对应的发音音调符合度,α、β分别表示为预设的幅值、发音时间对应的权衡因子,且α+β=1;
A6、将CPij代入评估公式
Figure FDA0004055274040000031
得到学生用户练习各英语单词的发音标准度Qi,λij表示为第i个英语单词中第j个音节对应的字母占比率。
3.根据权利要求2所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述Rij的表示公式为
Figure FDA0004055274040000032
e表示为自然常数。
4.根据权利要求1所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述关键英语单词的识别方式为将学生用户练习各英语单词的发音标准度与设置的合格发音标准度进行对比,若学生用户练习某英语单词的发音标准度小于设置的合格发音标准度,则将该英语单词记为关键英语单词。
5.根据权利要求3所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述解析各关键英语单词对应的发音错误音节如下解析方式为:将学生用户练习各关键英语单词中各音节对应的发音标准度与相应音节的发音标准度阈值进行对比,从中筛选出各关键英语单词中小于发音标准度阈值的音节作为各关键英语单词对应的发音错误音节。
6.根据权利要求5所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述基于各关键英语单词对应的发音错误音节进行发音指导具体包括以下步骤:
B1、根据各关键英语单词对应的发音错误音节从学生用户练习各关键英语单词的发音波形图中定位出发音错误音节对应的音波单体,将其记为特定音波单体;
B2、从学生用户练习各关键英语单词的发音波形图中提取指定音波单体对应的发音时间区间,将其记为特定时间区间,以此从相应关键英语单词的口型视频中截取特定时间区间对应的口型视频段,记为特定口型视频段;
B3、从各关键英语单词对应的特定口型视频段中截取有效口型图像,并从中提取口型特征参数,其中口型特征参数包括唇部张开形状、舌头卷曲形状和舌尖放置位置;
B4、从比对信息中提取各关键英语单词对应的标准口型视频,并将其按照B2和B3处理得到标准有效口型图像,进而从中提取标准口型特征参数;
B5、将各关键英语单词对应的口型特征参数与标准口型特征参数进行对比,从中识别出异常口型特征参数,作为各关键英语单词对应的发音口型指导方向;
B6、根据各关键英语单词对应的发音口型指导方向进行指导。
7.根据权利要求6所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述从各关键英语单词对应的特定口型视频段中截取有效口型图像如下操作方式:
从学生用户练习各关键英语单词的发音波形图中提取指定音波单体峰值对应的时间点,记为目标时间点;
从各关键英语单词对应的特定口型视频段中定位到目标时间点对应的图像,记为有效口型图像,并截取。
8.根据权利要求1所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述确定学生用户对应的英语口语重点练习音素参见如下步骤:
C1、将各关键英语单词对应的发音错误音节依次进行音素分解,得到若干音素,并识别出各音素对应的表征类型,进而从对比信息库中提取各音素对应的发音主导因子;
C2、将各发音错误音节分解得到的各音素进行相互对比,进而将相同音素进行归类,以此统计所有发音错误音节归类出的音素数量及各音素的出现频次;
C3、将各音素对应的发音主导因子和出现频次通过公式
Figure FDA0004055274040000061
计算出各音素对应的倾向指数/>
Figure FDA0004055274040000062
其中k表示为音素编号,k=1,2,…,z,z表示为所有发音错误音节归类出的音素数量,xk表示为第k音素的出现频次,εk表示为第k音素对应的发音主导因子;
C4、从各音素对应的倾向指数中提取最大倾向指数对应的音素作为学生用户对应的英语口语重点练习音素。
9.根据权利要求8所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述表征类型包括元音和辅音。
10.根据权利要求1所述的一种基于人工智能的英语口语练习分析比对系统,其特征在于:所述根据学生用户对应的英语口语重点练习音素进行重点练习词库归纳构建具体执行过程包括以下步骤:
D1、基于学生用户的注册账号从后台提取学生用户对应的当前学业年级,并据此从英语词库中筛选出学生用户当前学业年级规定掌握的英语单词,将其记为备选英语单词;
D2、分别将各备选英语单词进行音节划分,并对划分的各音节进行音素分解,得到各备选英语单词分解完成的若干音素;
D3、将各备选英语单词分解完成的若干音素与学生用户对应的英语口语重点练习音素进行匹配,从中筛查出匹配成功的备选英语单词,记为适配英语单词;
D4、从各适配英语单词划分的音节中识别出学生用户对应的英语口语重点练习音素归属音节,将其记为指定音节;
D5、依次将各适配英语单词对应的指定音节与各关键英语单词对应的发音错误音节进行字母重合对比,并利用公式
Figure FDA0004055274040000071
计算得到各适配英语单词与各关键英语单词的音节相似度,与此同时将其导入/>
Figure FDA0004055274040000072
计算得到各适配英语单词对应的综合音节相似度/>
Figure FDA0004055274040000073
d表示为适配英语单词的编号,d=1,2,...,u,u表示为适配英语单词的数量,χdmax、χdmin分别表示为第d适配英语单词与各关键英语单词的音节相似度中的最大音节相似度、最小音节相似度;
D6、将筛查出的适配英语单词构成重点练习词库,并在重点练习词库内将各适配英语单词按照综合音节相似度降序排列。
CN202310045592.8A 2023-01-30 2023-01-30 一种基于人工智能的英语口语练习分析比对系统 Active CN116206496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310045592.8A CN116206496B (zh) 2023-01-30 2023-01-30 一种基于人工智能的英语口语练习分析比对系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310045592.8A CN116206496B (zh) 2023-01-30 2023-01-30 一种基于人工智能的英语口语练习分析比对系统

Publications (2)

Publication Number Publication Date
CN116206496A true CN116206496A (zh) 2023-06-02
CN116206496B CN116206496B (zh) 2023-08-18

Family

ID=86510600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310045592.8A Active CN116206496B (zh) 2023-01-30 2023-01-30 一种基于人工智能的英语口语练习分析比对系统

Country Status (1)

Country Link
CN (1) CN116206496B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340489A (zh) * 2023-03-27 2023-06-27 齐齐哈尔大学 一种基于大数据的日语教学交互方法和装置
CN116705070A (zh) * 2023-08-02 2023-09-05 南京优道言语康复研究院 一种唇腭裂术后说话发音及鼻音矫正方法及系统
CN117877523A (zh) * 2024-01-10 2024-04-12 广州市信息技术职业学校 一种英文发音评测方法、装置、设备和可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140074459A (ko) * 2012-12-10 2014-06-18 주홍찬 단어의 음절와 이미지 데이터 및 원어민의 발음 데이터를 이용한 단어 학습장치 및 방법
JP2015036788A (ja) * 2013-08-14 2015-02-23 直也 内野 外国語の発音学習装置
CN106205634A (zh) * 2016-07-14 2016-12-07 东北电力大学 一种大学英语口语学习与测试系统及其方法
CN106940939A (zh) * 2017-03-16 2017-07-11 牡丹江师范学院 英语口语教学辅助装置及其方法
CN107424450A (zh) * 2017-08-07 2017-12-01 英华达(南京)科技有限公司 发音纠正系统和方法
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109326160A (zh) * 2018-11-07 2019-02-12 吕梁学院 一种英语口语发音校对系统
CN111710203A (zh) * 2020-07-15 2020-09-25 罗鹏 一种基于大数据的英语发音纠正系统
CN112133325A (zh) * 2020-10-14 2020-12-25 北京猿力未来科技有限公司 错误音素识别方法及装置
CN113990351A (zh) * 2021-11-01 2022-01-28 苏州声通信息科技有限公司 纠音方法、纠音装置及非瞬时性存储介质
CN115456676A (zh) * 2022-09-17 2022-12-09 深圳市漫城科技开发有限公司 一种游戏广告可视化投放数据分析管理方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140074459A (ko) * 2012-12-10 2014-06-18 주홍찬 단어의 음절와 이미지 데이터 및 원어민의 발음 데이터를 이용한 단어 학습장치 및 방법
JP2015036788A (ja) * 2013-08-14 2015-02-23 直也 内野 外国語の発音学習装置
CN106205634A (zh) * 2016-07-14 2016-12-07 东北电力大学 一种大学英语口语学习与测试系统及其方法
CN106940939A (zh) * 2017-03-16 2017-07-11 牡丹江师范学院 英语口语教学辅助装置及其方法
CN107424450A (zh) * 2017-08-07 2017-12-01 英华达(南京)科技有限公司 发音纠正系统和方法
CN109036464A (zh) * 2018-09-17 2018-12-18 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109326160A (zh) * 2018-11-07 2019-02-12 吕梁学院 一种英语口语发音校对系统
CN111710203A (zh) * 2020-07-15 2020-09-25 罗鹏 一种基于大数据的英语发音纠正系统
CN112133325A (zh) * 2020-10-14 2020-12-25 北京猿力未来科技有限公司 错误音素识别方法及装置
CN113990351A (zh) * 2021-11-01 2022-01-28 苏州声通信息科技有限公司 纠音方法、纠音装置及非瞬时性存储介质
CN115456676A (zh) * 2022-09-17 2022-12-09 深圳市漫城科技开发有限公司 一种游戏广告可视化投放数据分析管理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
曾洪鑫: "双模态驱动的汉语语音与口型匹配控制模型", 《计算机工程与应用》, vol. 51, no. 03 *
朱铮宇: "语音唇动关联性分析方法研究及其在录音回放检测中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 05 *
王兴刚;: "英文发音中错误语音自动识别系统设计", 现代电子技术, no. 10 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340489A (zh) * 2023-03-27 2023-06-27 齐齐哈尔大学 一种基于大数据的日语教学交互方法和装置
CN116340489B (zh) * 2023-03-27 2023-08-22 齐齐哈尔大学 一种基于大数据的日语教学交互方法和装置
CN116705070A (zh) * 2023-08-02 2023-09-05 南京优道言语康复研究院 一种唇腭裂术后说话发音及鼻音矫正方法及系统
CN116705070B (zh) * 2023-08-02 2023-10-17 南京优道言语康复研究院 一种唇腭裂术后说话发音及鼻音矫正方法及系统
CN117877523A (zh) * 2024-01-10 2024-04-12 广州市信息技术职业学校 一种英文发音评测方法、装置、设备和可读存储介质

Also Published As

Publication number Publication date
CN116206496B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN116206496B (zh) 一种基于人工智能的英语口语练习分析比对系统
US7280964B2 (en) Method of recognizing spoken language with recognition of language color
US8121838B2 (en) Method and system for automatic transcription prioritization
Jancovic et al. Bird species recognition using unsupervised modeling of individual vocalization elements
CN106935239A (zh) 一种发音词典的构建方法及装置
CN108876951A (zh) 一种基于声音识别的教学考勤方法
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
CN1851779A (zh) 多种语言适用的聋哑人语音学习计算机辅助方法
Xiao et al. Hierarchical classification of emotional speech
CN110473548B (zh) 一种基于声学信号的课堂交互网络分析方法
CN115565540A (zh) 一种侵入式脑机接口汉语发音解码方法
Wang et al. Musicyolo: A vision-based framework for automatic singing transcription
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
US20230402030A1 (en) Embedded Dictation Detection
CN115440193A (zh) 一种基于深度学习的发音评测打分方法
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN114333828A (zh) 用于数码产品的快速语音识别系统
CN114678039A (zh) 一种基于深度学习的歌唱评价方法
Zheng [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective
CN112201100A (zh) 一种中小学艺术素质测评中音乐演唱评分系统和方法
CN114758560B (zh) 一种基于动态时间规整的哼唱音准评价方法
Islam et al. Exploring speech representations for proficiency assessment in language learning
CN116340489B (zh) 一种基于大数据的日语教学交互方法和装置
TW201411577A (zh) 點讀裝置之語音處理方法
Stadelmann Voice Modeling Methods: For Automatic Speaker Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant