CN112309429A - 一种失爆检测方法、装置、设备及计算机可读存储介质 - Google Patents
一种失爆检测方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112309429A CN112309429A CN201910695671.7A CN201910695671A CN112309429A CN 112309429 A CN112309429 A CN 112309429A CN 201910695671 A CN201910695671 A CN 201910695671A CN 112309429 A CN112309429 A CN 112309429A
- Authority
- CN
- China
- Prior art keywords
- explosion
- pronunciation
- preset
- feedback information
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004880 explosion Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 title claims description 58
- 230000000007 visual effect Effects 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 21
- 238000012937 correction Methods 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000005474 detonation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了一种失爆检测方法、装置、设备和计算机可读存储介质,该方法包括:获取针对预设语句录入的音频数据;解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。本申请能够自动对录入的音频数据进行分析,以判断其中需要应用失爆技巧的单词对的实际读音是否失爆,生成相应的反馈信息,能够有效帮助学习者理解失爆的概念和掌握失爆技巧;并且避免了人工教学和纠错的过程,突破了学习时间和空间的限制,显著节约了学习成本。
Description
技术领域
本申请涉及语音技术领域,更具体地说,涉及一种失爆检测方法、装置、设备和一种计算机可读存储介质。
背景技术
随着科学技术的发展,基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中,应用提供商通过互联网将学习材料发送到客户端,用户经由客户端获取学习材料,进行对应的学习。对于语言学习,除了学习语法和词汇之外,发音能力是其中最重要的能力之一。通常情况下,用户会通过朗读、跟读等方式来提升自身的发音能力。然而,多数情况下用户无法得知自身发音是否准确。
在现代英语的朗读和学习过程中,爆破音占有重要地位,爆破音失爆的现象也很普遍,失爆具体是指当爆破音,如/p/、/b/、/t/、/d/、/k/、/g/后面带有其他辅音时,爆破音不会释放气流。由于失爆时需要学习者在做到爆破音口型的基础上不让气流泄出,而在中文中不存在类似的发音现象,掌握起来较为困难。
传统的学习方案是通过人工进行现场教学和纠错,然而口语的学习需要不断进行练习,人工教学和纠错不但成本高,也对学习者的学习时间和空间造成了一定的限制。
发明内容
本申请的目的在于提供一种失爆检测方法、装置、设备和一种计算机可读存储介质,以解决传统方法学习效率较低且有效练习的时间和空间受到限制的问题。
为实现上述目的,本申请提供了一种失爆检测方法,包括:
获取针对预设语句录入的音频数据;
解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;
基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
可选的,所述获取针对预设语句录入的音频数据之前,还包括:
利用所述预设语句的单词发音及预设失爆规则,筛选出需要应用失爆技巧的单词对;
对所述单词对插入预设符号构建生成新的单词,并根据所述单词应用失爆技巧后的发音方式构建对应的音素序列,将所述音素序列添加至发音词典中。
可选的,所述筛选出需要应用失爆技巧的单词对之后,还包括:
通过所述显示界面的第一视觉元素对所述单词对中失爆部分的音标和字母进行标示,以提示所述失爆部分的发音特征。
可选的,所述解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆,包括:
解析所述音频数据,根据单词时间边界截取需要应用失爆技巧的单词对所对应的声学模型输出片段;
将所述声学模型输出片段输入至预先基于所述发音词典构建的解码网络中,得到判断所述实际读音是否失爆的判断结果。
可选的,所述基于判断结果生成反馈信息,包括:
若判定所述预设语句中需要应用失爆技巧的单词对的实际读音失爆,则判断所述实际读音是否符合预设条件;所述预设条件为所述实际读音的发音分数大于第一阈值,和/或所述实际读音的音素时长小于第二阈值;
若判定所述实际读音符合所述预设条件,则生成所述实际读音正确失爆的反馈信息;
若判定所述实际读音不符合所述预设条件,则生成所述实际读音未正确失爆的反馈信息。
可选的,所述通过显示界面的预设视觉元素标示所述反馈信息之后,还包括:
通过文字和/或语音的方式对需要应用失爆技巧的单词对的正确发音进行提示。
为实现上述目的,本申请提供了一种失爆检测装置,包括:
获取模块,用于获取针对预设语句录入的音频数据;
判断模块,用于解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;
生成模块,用于基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
为实现上述目的,本申请提供了一种失爆检测设备,应用于服务端,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现前述公开的任一种失爆检测方法的步骤。
为实现上述目的,本申请提供了一种失爆检测设备,应用于客户端,所述设备包括:
音频采集装置,用于录入针对预设语句的音频数据;
通信装置,用于将所述音频数据发送至服务端,以便所述服务端解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息;
显示装置,用于将标示所述反馈信息的预设视觉元素在显示界面上进行显示。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述公开的任一种失爆检测方法的步骤。
通过以上方案可知,本申请提供的一种失爆检测方法,包括:获取针对预设语句录入的音频数据;解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。本申请能够自动对录入的音频数据进行分析,以判断其中需要应用失爆技巧的单词对的实际读音是否失爆,生成相应的反馈信息,能够有效帮助学习者理解失爆的概念并掌握失爆技巧;并且避免了人工教学和纠错的过程,突破了学习时间和空间的限制,显著节约了学习成本。
本申请还公开了一种失爆检测装置、设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种失爆检测方法的流程图;
图2为本申请实施例公开的另一种失爆检测方法的流程图;
图3为在显示界面对用户失爆练习进行提示的视觉化展现示意图;
图4为本申请实施例公开的又一种失爆检测方法的流程图;
图5为在显示界面对用户失爆正误进行反馈的视觉化展现示意图;
图6为本发明实施例提供的失爆检测装置的结构框图;
图7为本发明实施例提供的失爆检测设备应用于服务端的结构框图;
图8为本发明实施例提供的失爆检测设备应用于客户端的结构框图;
图9为本发明实施例提供的失爆检测系统的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明实施例可以用于发音学习场景,尤其是语言学习中的发音学习场景或者发音校正场景,其中语言包括但不限于英语、法语、德语、日语等外语,以及粤语、四川话等汉语分支。本发明实施例涉及的语言学习场景例如可以是语言学习软件或语言学习终端中的发音测评场景、发音校正场景等场景,也可以是其他语言学习场景,本发明实施例中并不限定。
下面对本申请实施例的应用场景进行详细阐述,用户可以通过客户端进行发音学习,客户端可以在显示界面上显示用户待学习的内容,并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容。在用户进行语音的发音学习时,客户端可以通过音频采集装置采集用户发音时的音频数据,以便后续进行失爆检测操作。可以理解的是,执行失爆检测操作的主体可以为客户端,也可以为服务端,这均不影响本申请的实现。
本发明实施例中客户端可以包括但不限于:智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等;服务端可以包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。
结合上述应用场景,本申请所提供的失爆检测方法的一种具体实施方式的流程图如图1所示,该方法具体包括:
S101:获取针对预设语句录入的音频数据;
本实施例中,预设语句可以为需要应用失爆技巧的语句,具体包括一个或多个语句,每个语句可以包括两个及以上单词。用户可以通过显示屏查看该预设语句并进行朗读,以通过客户端录入针对该预设语句的语音,经过音频采集装置采集后获得语音对应的音频数据。
S102:解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;
在本步骤中,通过对音频数据进行解析,得到预设语句中需要应用失爆技巧的单词对的实际读音,并判断上述实际语音是否失爆。其中,该过程可以由客户端执行,也可以由服务端执行,本实施例对此不做限定。
S103:基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
可以理解的是,本实施例基于上述判断实际语音是否失爆的结果可以生成相应的反馈信息,并通过显示界面上的预设视觉元素向用户进行直观反馈。当然,还可以通过播放相应的音效来进行反馈,这均不影响本申请的实现。
通过以上方案可知,本申请提供的一种失爆检测方法,包括:获取针对预设语句录入的音频数据;解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。本申请能够自动对录入的音频数据进行分析,以判断其中需要应用失爆技巧的单词对的实际读音是否失爆,生成相应的反馈信息,能够辅助学习者理解失爆的概念,有效帮助学习者掌握失爆技巧;并且避免了人工教学和纠错的过程,突破了学习时间和空间的限制,显著节约了学习成本。
本申请实施例公开了另一种失爆检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。参见图2所示,具体的:
S201:利用预设语句的单词发音及预设失爆规则,筛选出需要应用失爆技巧的单词对;
在具体实施中,可以通过遍历预设语句中的相邻单词对,基于预设失爆规则筛选出需要应用失爆技巧的单词对,其中,预设失爆规则为需要进行失爆的条件信息,例如,前一词以"持续音+/t//d/"结尾,后一词以辅音开头,则其中/t//d/需要应用失爆技巧。
S202:对所述单词对插入预设符号构建生成新的单词,并根据所述单词应用失爆技巧后的发音方式构建对应的音素序列,将所述音素序列添加至发音词典中;
本步骤中,在筛选得到需要应用失爆技巧的单词对之后,在该单词对的中间插入预设符号构建生成新的单词,同时根据其在失爆时的发音方式构建对应的音素序列,例如,预设符号可以为@@,当检测到单词对为“stick to”时,对其插入预设符号,构建生成新的单词“stick@@to”,对应的发音为/stitu/,其中k失爆,将新构建的单词对应发音添加至语音识别系统的发音词典中。其中,发音词典是构建传统语音识别系统的必要组成部分,识别系统仅会输出存在于发音词典中的单词,发音词典可以预先构建得到,在失爆检测过程中会根据需求向发音词典中添加新构建的单词发音。
可以理解的是,本实施例在筛选出需要应用失爆技巧的单词对之后,还可以通过显示界面的第一视觉元素对单词对中失爆部分的音标和字母进行标示,以提示失爆部分的发音特征。其中,第一视觉元素可以为虚线,在显示界面展示需要应用失爆技巧的短语或句子及其对应的音标,其中失爆部分的字母,利用虚线从中间划开,虚线右边部分利用预设颜色进行标记,以提示用户无需完整的发音;对于失爆部分的音标,利用虚线从中间划开,虚线左边利用特殊颜色标注,同时,失爆音素右边紧邻的整个音素用特殊颜色标注,以提醒用户注意是由于这两个特殊颜色的音素出现了组合情况时才发生了失爆现象,从视觉上直观的对用户进行提醒,以辅助用户理解失爆的概念及对应的发音特征。
如图3所示,对于预设语句“stick to””,首先检测到二者为需要应用失爆技巧的单词对。对失爆部分的字母利用虚线从中间划开,虚线右边部分标为灰色,并且在音标部分直接标明失爆部分的发音特征。
S203:获取针对所述预设语句录入的音频数据;
S204:解析所述音频数据,根据单词时间边界截取需要应用失爆技巧的单词对所对应的声学模型输出片段;
需要指出的是,本实施例可以通过语音识别的强制切分对齐确定每个音素的位置,并可根据每个单词的音节找到每个音节和单词的时间边界,进一步根据时间边界截取出当前需要应用失爆技巧的单词对所对应的声学模型输出片段。
S205:将所述声学模型输出片段输入至预先基于所述发音词典构建的解码网络中,得到判断所述实际读音是否失爆的判断结果;
其中,解码网络为预先构建的只有两条支路的语法网络,其中一条由两个未进行失爆的单词构成,如“stick”和“to”,另一条则由对应新添加的应用失爆技巧的单词构成,如“stick@@to”,再与状态转移、上下文、发音规则一同构建解码网络,该解码网络有且仅有表示失爆或未失爆的两种输出。
将上述声学模型输出片段输入至解码网络中进行解码,若解码结果为两个独立单词,如“stick”和“to”,则表示该音频数据在对应单词对上未进行失爆;若解码结果为上述新添加至发音词典中的应用失爆技巧的单词,如“stick@@to”,则表示该音频数据在对应单词对上进行了失爆。
S206:基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
进一步地,本申请所提供的失爆检测方法的又一种具体实施方式中,在解码网络确定音频数据在对应单词对上进行了失爆之后,还可以进行进一步判断,以提高判断的准确性。该实施例对应的流程图如图4所示,该方法具体包括:
S301:利用预设语句的单词发音及预设失爆规则,筛选出需要应用失爆技巧的单词对;
S302:对所述单词对插入预设符号构建生成新的单词,并根据所述单词应用失爆技巧后的发音方式构建对应的音素序列,将所述音素序列添加至发音词典中;
S303:获取针对所述预设语句录入的音频数据;
S304:解析所述音频数据,根据单词时间边界截取需要应用失爆技巧的单词对所对应的声学模型输出片段;
S305:将所述声学模型输出片段输入至预先基于所述发音词典构建的解码网络中,得到判断所述实际读音是否失爆的判断结果;
S306:若判定所述预设语句中需要应用失爆技巧的单词对的实际读音失爆,则判断所述实际读音是否符合预设条件;
其中,上述预设条件为所述实际读音的发音分数大于第一阈值,和/或所述实际读音的音素时长小于第二阈值。
S307:若判定所述实际读音符合所述预设条件,则生成所述实际读音正确失爆的反馈信息;
S308:若判定所述实际读音不符合所述预设条件,则生成所述实际读音未正确失爆的反馈信息。
通过预设发音分数计算方法,计算上述单词对的发音分数,将得分低于预设第一阈值的语音数据判定为未正确失爆。其中,预设第一阈值可以为对大量标注数据进行统计分析获得。
一种预设发音分数从计算方法可以为:计算失爆单词对应的实际发音数据的后验概率评价指标;计算失爆单词对应的实际发音数据的时长评价指标;将后验概率评价指标以及时长评价指标输入至预先建立的评价模型中,得到实际发音数据的发音分数。其中,计算失爆单词对应的实际发音数据的后验概率评价指标的过程可以具体包括:计算每一个音素的似然度得分;将失爆单词对应的实际发音数据的似然度得分除以所有音素的似然度得分,得到失爆单词对应的实际发音数据的后验概率评价指标。具体地,预先建立的评价模型可以为线性回归模型。
计算失爆单词对应的实际发音数据的时长评价指标的过程可以具体包括:预先在标准发音数据上统计每一个音素的音素时长,通过高斯模型建立表征音素时长与时长评价指标的对应关系;确定失爆单词对应的实际发音数据的音素时长;根据高斯模型确定当前音素时长所对应的时长评价指标。
失爆单词的音素时长可以具体为:失爆单词对中前一个单词的末尾音素以及后一个单词的首个音节的时间长度,该时间长度由上文中的音素边界计算获得。将该音素时长低于预设第二阈值的语音数据判为失爆,否则判为未失爆。该预设第二阈值同样通过对大量标注数据的分析统计获得。
在上述任一实施例的基础上,本申请所提供的失爆检测方法中,上述通过显示界面的预设视觉元素标示所述反馈信息可以具体包括:通过显示界面的第二视觉元素标示出实际读音是否正确失爆。例如,在显示界面可以失爆的单词对之间通过特殊标识表示失爆,在进行了正确失爆的情况下特殊标识呈现预设第一颜色,在未进行正确失爆的情况下该特殊标识呈现预设第二颜色。预设第一颜色与预设第二颜色为不同的颜色。
此外,还可以通过文字和/或语音的方式对需要应用失爆技巧的单词对的正确发音进行提示。例如,在显示界面显示失爆对应的音标,或者显示失爆时的发音技巧。进一步地,还可以播放用户录入的音频及示范音频帮助用户进行对比并模仿正确发音。
参照图5,该实施例中,预设语句为“stick to”,通过界面上方左边的大圆圈指示用户是否进行了失爆,该圆圈颜色变绿则表示进行了正确失爆,该圆圈颜色变红则表示未进行正确失爆。
本实施例中通过显示界面视觉元素辅助学习用户练习失爆技巧,在练习过程中加强对概念的理解,并能快速定位自己在练习时的问题所在。具体可以通过形象化的视觉元素图形,例如,利用虚线对字母进行切分,并采用将字母的一半设为灰色的方式来标识发音时口型到位但是气流不能释放的发音方式,辅助用户直观理解单词的失爆情况。
下面对本发明实施例提供的一种失爆检测装置进行介绍,下文描述的失爆检测装置与上文描述的失爆检测方法可相互对应参照。
图6为本发明实施例提供的失爆检测装置的结构框图,参照图6失爆检测装置可以包括:
获取模块100,用于获取针对预设语句录入的音频数据;
判断模块200,用于解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;
生成模块300,用于基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
作为一种具体实施方式,本申请实施例还可以进一步包括:
筛选模块,用于在获取针对预设语句录入的音频数据之前,利用所述预设语句的单词发音及预设失爆规则,筛选出需要应用失爆技巧的单词对;
构建模块,用于对所述单词对插入预设符号构建生成新的单词,并根据所述单词应用失爆技巧后的发音方式构建对应的音素序列,将所述音素序列添加至发音词典中。
作为一种具体实施方式,本申请实施例还可以进一步包括:
标示模块,用于在筛选出需要应用失爆技巧的单词对之后,通过所述显示界面的第一视觉元素对所述单词对中失爆部分的音标和字母进行标示,以提示所述失爆部分的发音特征。
作为一种具体实施方式,本申请实施例中判断模块200可以具体包括:
截取单元,用于解析所述音频数据,根据单词时间边界截取需要应用失爆技巧的单词对所对应的声学模型输出片段;
输入单元,用于将所述声学模型输出片段输入至预先基于所述发音词典构建的解码网络中,得到判断所述实际读音是否失爆的判断结果。
作为一种具体实施方式,本申请实施例中生成模块300可以具体包括:
判断单元,用于若判定所述预设语句中需要应用失爆技巧的单词对的实际读音失爆,则判断所述实际读音是否符合预设条件;所述预设条件为所述实际读音的发音分数大于第一阈值,和/或所述实际读音的音素时长小于第二阈值;
第一反馈单元,用于若判定所述实际读音符合所述预设条件,则生成所述实际读音正确失爆的反馈信息;
第二反馈单元,用于若判定所述实际读音不符合所述预设条件,则生成所述实际读音未正确失爆的反馈信息。
作为一种具体实施方式,本申请实施例还可以进一步包括:
提示模块,用于在通过显示界面的预设视觉元素标示所述反馈信息之后,通过文字和/或语音的方式对需要应用失爆技巧的单词对的正确发音进行提示。
本实施例的失爆检测装置用于实现前述的失爆检测方法,因此失爆检测装置中的具体实施方式可见前文中的失爆检测方法的实施例部分,例如,获取模块100,判断模块200,生成模块300,分别用于实现上述失爆检测方法中的步骤S101,S102,S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本申请能够自动对录入的音频数据进行分析,以判断其中需要应用失爆技巧的单词对的实际读音是否失爆,生成相应的反馈信息,能够辅助学习者理解失爆的概念,有效帮助学习者掌握失爆技巧;并且避免了人工教学和纠错的过程,突破了学习时间和空间的限制,显著节约了学习成本。
此外,本申请还提供了一种失爆检测设备,应用于服务端1,如图7所示,所述设备包括:
存储器11,用于存储计算机程序;
处理器12,用于执行所述计算机程序时实现如下步骤:获取针对预设语句录入的音频数据;解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是失爆检测设备的内部存储单元,例如硬盘。存储器11在另一些实施例中也可以是失爆检测设备的外部存储设备,例如插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括失爆检测设备的内部存储单元也包括可以外部存储设备。存储器11不仅可以用于存储安装于失爆检测设备的应用软件及各类数据,例如失爆检测的程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行失爆检测的程序01等。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:在获取针对预设语句录入的音频数据之前,利用所述预设语句的单词发音及预设失爆规则,筛选出需要应用失爆技巧的单词对;对所述单词对插入预设符号构建生成新的单词,并根据所述单词应用失爆技巧后的发音方式构建对应的音素序列,将所述音素序列添加至发音词典中。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:在筛选出需要应用失爆技巧的单词对之后,通过所述显示界面的第一视觉元素对所述单词对中失爆部分的音标和字母进行标示,以提示所述失爆部分的发音特征。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:解析所述音频数据,根据单词时间边界截取需要应用失爆技巧的单词对所对应的声学模型输出片段;将所述声学模型输出片段输入至预先基于所述发音词典构建的解码网络中,得到判断所述实际读音是否失爆的判断结果。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:若判定所述预设语句中需要应用失爆技巧的单词对的实际读音失爆,则判断所述实际读音是否符合预设条件;所述预设条件为所述实际读音的发音分数大于第一阈值,和/或所述实际读音的音素时长小于第二阈值;若判定所述实际读音符合所述预设条件,则生成所述实际读音正确失爆的反馈信息;若判定所述实际读音不符合所述预设条件,则生成所述实际读音未正确失爆的反馈信息。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:在通过显示界面的预设视觉元素标示所述反馈信息之后,通过文字和/或语音的方式对需要应用失爆技巧的单词对的正确发音进行提示。
可以理解的是,本申请实施例中服务端可以包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。
此外,本申请还提供了一种失爆检测设备,应用于客户端2,如图8所示,所述设备包括:
音频采集装置21,用于录入针对预设语句的音频数据;
通信装置22,用于将所述音频数据发送至服务端,以便所述服务端解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息;
显示装置23,用于将标示所述反馈信息的预设视觉元素在显示界面上进行显示。
可选地,本申请实施例所提供的失爆检测设备中所述显示装置23还可以用于:在筛选出需要应用失爆技巧的单词对之后,通过所述显示界面的第一视觉元素对所述单词对中失爆部分的音标和字母进行标示,以提示所述失爆部分的发音特征。
可以理解的是,本申请实施例中客户端可以包括但不限于:智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等。
进一步地,本申请还提供了一种失爆检测系统,如图9所示,该系统包括上述任一种服务端1以及上述任一种客户端2。用户可以通过客户端进行发音学习,客户端可以在显示界面上显示用户待学习的内容,并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容,在用户进行语音的发音学习时,客户端可以通过音频采集装置采集用户发音时的音频数据,并将音频数据发送至服务端,由服务端进行失爆检测的过程。在服务端对音频数据进行分析并得到反馈信息之后,将该反馈信息发送至客户端。通过客户端的显示装置对反馈信息进行显示,向用户提供视觉辅助信息。
此外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例公开的任一种失爆检测方法的步骤。
本申请所提供的失爆检测设备、失爆检测系统、计算机可读存储介质与前述失爆检测方法相对应。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上,本申请能够自动对录入的音频数据进行分析,以判断其中需要应用失爆技巧的单词对的实际读音是否失爆,生成相应的反馈信息,能够帮助学习者理解失爆的概念,有效帮助学习者掌握失爆技巧;并且避免了人工教学和纠错的过程,突破了学习时间和空间的限制,显著节约了学习成本。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种失爆检测方法,其特征在于,包括:
获取针对预设语句录入的音频数据;
解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;
基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
2.根据权利要求1所述的失爆检测方法,其特征在于,所述获取针对预设语句录入的音频数据之前,还包括:
利用所述预设语句的单词发音及预设失爆规则,筛选出需要应用失爆技巧的单词对;
对所述单词对插入预设符号构建生成新的单词,并根据所述单词应用失爆技巧后的发音方式构建对应的音素序列,将所述音素序列添加至发音词典中。
3.根据权利要求2所述的失爆检测方法,其特征在于,所述筛选出需要应用失爆技巧的单词对之后,还包括:
通过所述显示界面的第一视觉元素对所述单词对中失爆部分的音标和字母进行标示,以提示所述失爆部分的发音特征。
4.根据权利要求2所述的失爆检测方法,其特征在于,所述解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆,包括:
解析所述音频数据,根据单词时间边界截取需要应用失爆技巧的单词对所对应的声学模型输出片段;
将所述声学模型输出片段输入至预先基于所述发音词典构建的解码网络中,得到判断所述实际读音是否失爆的判断结果。
5.根据权利要求1至4任一项所述的失爆检测方法,其特征在于,所述基于判断结果生成反馈信息,包括:
若判定所述预设语句中需要应用失爆技巧的单词对的实际读音失爆,则判断所述实际读音是否符合预设条件;所述预设条件为所述实际读音的发音分数大于第一阈值,和/或所述实际读音的音素时长小于第二阈值;
若判定所述实际读音符合所述预设条件,则生成所述实际读音正确失爆的反馈信息;
若判定所述实际读音不符合所述预设条件,则生成所述实际读音未正确失爆的反馈信息。
6.根据权利要求5所述的失爆检测方法,其特征在于,所述通过显示界面的预设视觉元素标示所述反馈信息之后,还包括:
通过文字和/或语音的方式对需要应用失爆技巧的单词对的正确发音进行提示。
7.一种失爆检测装置,其特征在于,包括:
获取模块,用于获取针对预设语句录入的音频数据;
判断模块,用于解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;
生成模块,用于基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息。
8.一种失爆检测设备,其特征在于,应用于服务端,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述失爆检测方法的步骤。
9.一种失爆检测设备,其特征在于,应用于客户端,所述设备包括:
音频采集装置,用于录入针对预设语句的音频数据;
通信装置,用于将所述音频数据发送至服务端,以便所述服务端解析所述音频数据,确定所述预设语句中需要应用失爆技巧的单词对的实际读音,并判断所述实际读音是否失爆;基于判断结果生成反馈信息,并通过显示界面的预设视觉元素标示所述反馈信息;
显示装置,用于将标示所述反馈信息的预设视觉元素在显示界面上进行显示。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述失爆检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910695671.7A CN112309429A (zh) | 2019-07-30 | 2019-07-30 | 一种失爆检测方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910695671.7A CN112309429A (zh) | 2019-07-30 | 2019-07-30 | 一种失爆检测方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112309429A true CN112309429A (zh) | 2021-02-02 |
Family
ID=74485120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910695671.7A Pending CN112309429A (zh) | 2019-07-30 | 2019-07-30 | 一种失爆检测方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112309429A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053415A (zh) * | 2021-03-24 | 2021-06-29 | 北京儒博科技有限公司 | 一种连读的检测方法、装置、设备及存储介质 |
CN113077822A (zh) * | 2021-03-24 | 2021-07-06 | 北京儒博科技有限公司 | 一种爆破音的评测方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006154212A (ja) * | 2004-11-29 | 2006-06-15 | Ntt Advanced Technology Corp | 音声評価方法および評価装置 |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
US20150056580A1 (en) * | 2013-08-26 | 2015-02-26 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
CN104464751A (zh) * | 2014-11-21 | 2015-03-25 | 科大讯飞股份有限公司 | 发音韵律问题的检测方法及装置 |
CN104485116A (zh) * | 2014-12-04 | 2015-04-01 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN105654785A (zh) * | 2016-03-18 | 2016-06-08 | 上海语知义信息技术有限公司 | 个性化外语口语学习系统及方法 |
CN106297828A (zh) * | 2016-08-12 | 2017-01-04 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
KR101779361B1 (ko) * | 2016-11-30 | 2017-09-18 | 동서대학교산학협력단 | 어플리케이션 기반 음성인식을 이용한 발음 학습방법 |
CN108648527A (zh) * | 2018-05-15 | 2018-10-12 | 郑州琼佩电子技术有限公司 | 一种英语发音匹配纠正方法 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
-
2019
- 2019-07-30 CN CN201910695671.7A patent/CN112309429A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006154212A (ja) * | 2004-11-29 | 2006-06-15 | Ntt Advanced Technology Corp | 音声評価方法および評価装置 |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
US20150056580A1 (en) * | 2013-08-26 | 2015-02-26 | Seli Innovations Inc. | Pronunciation correction apparatus and method thereof |
CN104464751A (zh) * | 2014-11-21 | 2015-03-25 | 科大讯飞股份有限公司 | 发音韵律问题的检测方法及装置 |
CN104485116A (zh) * | 2014-12-04 | 2015-04-01 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN105654785A (zh) * | 2016-03-18 | 2016-06-08 | 上海语知义信息技术有限公司 | 个性化外语口语学习系统及方法 |
CN106297828A (zh) * | 2016-08-12 | 2017-01-04 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
KR101779361B1 (ko) * | 2016-11-30 | 2017-09-18 | 동서대학교산학협력단 | 어플리케이션 기반 음성인식을 이용한 발음 학습방법 |
CN108648527A (zh) * | 2018-05-15 | 2018-10-12 | 郑州琼佩电子技术有限公司 | 一种英语发音匹配纠正方法 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053415A (zh) * | 2021-03-24 | 2021-06-29 | 北京儒博科技有限公司 | 一种连读的检测方法、装置、设备及存储介质 |
CN113077822A (zh) * | 2021-03-24 | 2021-07-06 | 北京儒博科技有限公司 | 一种爆破音的评测方法、装置、设备及存储介质 |
CN113077822B (zh) * | 2021-03-24 | 2022-09-27 | 北京如布科技有限公司 | 一种爆破音的评测方法、装置、设备及存储介质 |
CN113053415B (zh) * | 2021-03-24 | 2023-09-29 | 北京如布科技有限公司 | 一种连读的检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085261B (zh) | 一种发音纠正方法、装置、设备以及计算机可读存储介质 | |
Witt | Automatic error detection in pronunciation training: Where we are and where we need to go | |
CN109256152A (zh) | 语音评分方法及装置、电子设备、存储介质 | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN109979484B (zh) | 发音检错方法、装置、电子设备及存储介质 | |
US9449522B2 (en) | Systems and methods for evaluating difficulty of spoken text | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN109697988B (zh) | 一种语音评价方法及装置 | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
CN113205729A (zh) | 一种面向外国留学生的演讲评测方法、装置及系统 | |
CN110136748A (zh) | 一种节奏识别校正方法、装置、设备及存储介质 | |
KR20210059995A (ko) | 학습 기반의 외국어 말하기 평가 방법 및 그 시스템 | |
CN110503941B (zh) | 语言能力评测方法、装置、系统、计算机设备及存储介质 | |
CN112309429A (zh) | 一种失爆检测方法、装置、设备及计算机可读存储介质 | |
CN111292769A (zh) | 一种口语发音的纠音方法、系统、装置、存储介质 | |
CN110097874A (zh) | 一种发音纠正方法、装置、设备以及存储介质 | |
KR102414626B1 (ko) | 외국어 발음 훈련 및 평가 시스템 | |
CN111951827B (zh) | 一种连读识别校正方法、装置、设备以及可读存储介质 | |
CN111383495A (zh) | 一种用于口语教学的课中讲解系统、方法、装置及介质 | |
CN110085260A (zh) | 一种单词音节重音识别校正方法、装置、设备以及介质 | |
CN114241835B (zh) | 一种学生口语质量评测方法和设备 | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
CN113990351A (zh) | 纠音方法、纠音装置及非瞬时性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |