CN110136748A - 一种节奏识别校正方法、装置、设备及存储介质 - Google Patents

一种节奏识别校正方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110136748A
CN110136748A CN201910409870.7A CN201910409870A CN110136748A CN 110136748 A CN110136748 A CN 110136748A CN 201910409870 A CN201910409870 A CN 201910409870A CN 110136748 A CN110136748 A CN 110136748A
Authority
CN
China
Prior art keywords
word
rhythm
predetermined phrase
weak reading
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910409870.7A
Other languages
English (en)
Inventor
刘晨晨
沈欣尧
吴伶俐
张蕾
杨晓飞
蒋成林
崔云凡
王少星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority to CN201910409870.7A priority Critical patent/CN110136748A/zh
Publication of CN110136748A publication Critical patent/CN110136748A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种节奏识别校正方法,通过获取针对预定语句录入的音频数据;对音频数据进行分析,识别预定语句所对应的实际重弱读序列;将实际重弱读序列与预定语句所对应的标准重弱读序列进行比对,生成判断预定语句当前的发音节奏是否正确的反馈信息。本申请所提供的方法可以自动对录入的音频数据进行分析,检测其中的发音节奏是否正确,得到的反馈信息可以辅助用户理解节奏的概念,从而帮助用户有效掌握英语口语中的节奏特征的效果,提高用户的学习效率。并且,采用本申请可以不需要老师当面进行真人教学示范或纠正,用户可以随时随地进行相关的练习。此外,本申请还提供了一种具有上述技术效果的节奏识别校正装置、设备及计算机可读存储介质。

Description

一种节奏识别校正方法、装置、设备及存储介质
技术领域
本发明涉及语音技术领域,特别是涉及一种节奏识别校正方法、装置、设备以及计算机可读存储介质。
背景技术
随着科学技术的发展,基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中,应用提供商通过互联网将学习材料发送到客户端,用户经由客户端获取学习材料,进行对应的学习。对于语言学习,除了学习语法和词汇之外,发音能力是其中最重要的能力之一。通常情况下,用户会通过朗读、跟读等方式来提升自身的发音能力。然而,多数情况下用户无法得知自身发音是否准确。
在英文中,一个重读单词为一拍,通过单词的重读和弱读形成语句的节奏感,这与中文一个字为一拍的节奏感差别较大。因此,受母语习惯的影响,国人在英语学习中理解和掌握节奏的特征相对困难。现有传统的方案是通过原理教学和标准示范,在老师的反馈指导下,让用户通过不断模仿去尽量掌握,但是单纯通过模仿标准发音来练习的传统手段,需要一定的听辩和总结技能,无法让用户在练习过程中形成对节奏的直观理解,学习效率较低。并且,学习过程需要真人老师反馈来纠正存在的问题,使得用户的有效练习受到了时间和空间的限制。
发明内容
本发明的目的是提供一种节奏识别校正方法、装置、设备以及计算机可读存储介质,以解决传统方法学习效率较低且有效练习的时间和空间受到限制的问题。
为解决上述技术问题,本发明提供一种节奏识别校正方法,包括:
获取针对预定语句录入的音频数据;
对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;
将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
可选地,所述对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列包括:
对所述音频数据进行分析,得到每个单词、音节的时间边界;
确定每个单词的音量指标,以及每个单词的音节时长指标;
结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标;
按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词,从而得到所述预定语句所对应的实际重弱读序列。
可选地,所述结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标包括:
按照预设权重值对所述音量指标以及所述音节时长指标进行比重加权计算,确定每个单词对应的重弱读指标。
可选地,所述按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词包括:
按照所述重弱读指标从低到高的顺序对各个单词进行排序,以弱读单词数+(单词总数-弱读单词数-重读单词数)/2的位置为分界点,落到左边的单词则认为是实际弱读的单词,落到右边的单词则认为是实际重读的单词。
可选地,在所述将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还包括:
在所述实际重弱读序列与所述标准重弱读序列比对一致时,通过显示界面的第一视觉元素指示所述预定语句的整体发音节奏正确;
在所述实际重弱读序列与所述标准重弱读序列比对不一致时,通过所述显示界面的第二视觉元素指示所述预定语句的整体发音节奏不正确。
可选地,在所述将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还包括:
通过所述显示界面的第三视觉元素对所述实际重弱读序列与所述标准重弱读序列进行对比显示,通过所述显示界面的第四视觉元素标示出所述预定语句中各个单词的重弱读情况是否正确。
可选地,在所述将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还包括:
通过所述显示界面的第五视觉元素标示出所述预定语句中需重读的单词以及需弱读的单词。
本申请还提供了一种节奏识别校正装置,包括:
获取模块,用于获取针对预定语句录入的音频数据;
识别模块,用于对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;
生成模块,用于将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
本申请还提供了一种节奏识别校正设备,应用于服务端,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如下步骤:获取针对预定语句录入的音频数据;对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
本申请还提供了一种节奏识别校正设备,应用于客户端,所述设备包括:
音频采集装置,用于录入针对预定语句的音频数据;
通信装置,用于将所述音频数据发送至服务端,以便所述服务端对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息;并且接收所述服务端发送的反馈信息;
显示装置,用于将所述反馈信息在显示界面上进行显示。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述节奏识别校正方法的步骤。
本发明所提供的节奏识别校正方法,通过获取针对预定语句录入的音频数据;对音频数据进行分析,识别预定语句所对应的实际重弱读序列;将实际重弱读序列与预定语句所对应的标准重弱读序列进行比对,生成判断预定语句当前的发音节奏是否正确的反馈信息。本申请所提供的方法可以自动对录入的音频数据进行分析,检测其中的发音节奏是否正确,得到的反馈信息可以辅助用户理解节奏的概念,从而帮助用户有效掌握英语口语中的节奏特征的效果,提高用户的学习效率。并且,采用本申请可以不需要老师当面进行真人教学示范或纠正,因此克服了学习时间和空间的限制,用户可以随时随地进行相关的练习。此外,本申请还提供了一种具有上述技术效果的节奏识别校正装置、设备以及计算机可读存储介质。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的节奏识别校正方法的一种具体实施方式的流程图;
图2为识别预定语句所对应的实际重弱读序列的过程示意图;
图3为本申请所提供的节奏识别校正方法的另一种具体实施方式的流程图;
图4为在显示界面对用户节奏练习反馈视觉化展现的示意图;
图5为本发明实施例提供的节奏识别校正装置的结构框图;
图6为本申请实施例所提供的节奏识别校正设备应用于服务端的结构框图;
图7为本申请实施例所提供的节奏识别校正设备应用于客户端的结构框图;
图8为本申请实施例所提供的节奏识别校正系统的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明实施例可以用于发音学习场景,尤其是语言学习中的发音学习场景或者发音校正场景,其中语言包括但不限于英语、法语、德语、日语等外语,以及粤语、四川话等汉语分支。本发明实施例涉及的语言学习场景例如可以是语言学习软件或语言学习终端中的发音测评场景、发音校正场景等场景,也可以是其他语言学习场景,本发明实施例中并不限定。
下面对本申请实施例的应用场景进行详细阐述,用户可以通过客户端进行发音学习,客户端可以在显示界面上显示用户待学习的内容,并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容。在用户进行语音的发音学习时,客户端可以通过音频采集装置采集用户发音时的音频数据,以便后续进行节奏识别校正操作。可以理解的是,执行节奏识别校正操作的主体可以为客户端,也可以为服务端,这均不影响本申请的实现。
本发明实施例中客户端可以包括但不限于:智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等;服务端可以包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。
结合上述应用场景,本申请所提供的节奏识别校正方法的一种具体实施方式的流程图如1所示,该方法具体包括:
步骤S101:获取针对预定语句录入的音频数据;
其中,预定语句包括一个或者多个语句,每个语句包括至少两个单词。本实施例中预定语句为节奏特征的待练习语句。用户可以朗读该预定语句,通过客户端录入针对该待练习语句的语音,经过音频采集装置采集后获得语音对应的音频数据。
步骤S102:对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;
本申请实施例中实际重弱读序列为由各个单词分别对应的实际发音重弱读情况按照一定序列排列的信息。通过对音频数据分析,得到预定语句中哪个单词是用户实际重读的单词,哪个单词是用户实际弱读的单词,根据用户实际重弱读情况生成实际重弱读序列。需要指出的是,该过程可以由客户端执行,也可以由后台服务端执行,这均不影响本申请的实现。
作为一种具体实施方式,参照图2,本申请中对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列的过程可以包括:
步骤S1021:对所述音频数据进行分析,得到每个单词、音节的时间边界;
结合预定语句对录入的音频数据进行分析,得到每个单词的时间边界。时间边界是指单词在语音中开始和结束的时间位置。具体可以通过语音识别的强制切分对齐操作,得到每个单词、音素的位置,然后结合字典中音节的划分每个音节的时间边界。
步骤S1022:确定每个单词的音量指标,以及每个单词的音节时长指标;
音量指标可以具体为单词的音量大小。音节时长指标可以具体为单词的音节时长,进一步地,音量需要根据整句发音的音量规整,音节时长指标可以在得到音节时长之后根据每个音节的平均时长进行规整之后的数值。
步骤S1023:结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标;
重弱读指标为标示发音重弱程度的指标,重弱读指标数值越大代表重读程度越高。具体地,可以按照预设权重值对所述音量指标以及所述音节时长指标进行比重加权计算,确定每个单词对应的重弱读指标。音量指标以及音节时长指标可以分别按照w、1-w的权重进行加权计算,得到重弱读指标。可选地,w可以为0.90,当然还可以为其他数值,在此不做限定。
步骤S1024:按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词,从而得到所述预定语句所对应的实际重弱读序列。
在得到每个单词的重弱读指标之后,可以按照该重弱读指标对各个单词进行排序。例如,可以选择重弱读指标数值最大的单词作为实际重读的单词,其他单词则作为实际弱读的单词。本申请实施例还提供了另一种方法:按照所述重弱读指标从低到高的顺序对各个单词进行排序,以弱读单词数+(单词总数-弱读单词数-重读单词数)/2的位置为分界点,落到左边的单词则认为是实际弱读的单词,落到右边的单词则认为是实际重读的单词。
在得到实际重读的单词与实际弱读的单词之后,将各个单词对应的重弱读情况按照一定序列排列得到实际重弱读序列,例如可以按照预定文本中各个单词的排列情况得到实际重弱读序列。
步骤S103:将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
同样地,标准重弱读序列为由各个单词分别对应的标准发音重弱读情况按照一定序列排列的信息。标准重弱读序列可以为预先设定得到。
将实际重弱读序列与标准重弱读序列进行逐一比对,若存在不一致的情况,即可认为当前的发音节奏不正确,从而生成当前的发音节奏不正确的反馈信息。若均不存在不一致的情况,即可认为当前的发音节奏正确,从而生成当前的发音节奏正确的反馈信息。
反馈信息可以通过视觉方式向用户进行直观显示,也可以辅助增加对应的音效进行反馈,在此不做限定。
本发明所提供的节奏识别校正方法,获取针对预定语句录入的音频数据;对音频数据进行分析,识别预定语句所对应的实际重弱读序列;将实际重弱读序列与预定语句所对应的标准重弱读序列进行比对,生成判断预定语句当前的发音节奏是否正确的反馈信息。本申请所提供的方法可以自动对录入的音频数据进行分析,检测其中的发音节奏是否正确,得到的反馈信息可以辅助用户理解节奏的概念,从而帮助用户有效掌握英语口语中的节奏特征的效果,提高用户的学习效率。并且,采用本申请可以不需要老师当面进行真人教学示范或纠正,因此克服了学习时间和空间的限制,用户可以随时随地进行相关的练习。
如图3所示,在上述任一实施例的基础上,本申请所提供的节奏识别校正方法在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还可以进一步包括:通过视觉元素将反馈信息显示给用户、以辅助用户学习的一系列过程。
一种具体实施方式可以为:步骤S1041:在所述实际重弱读序列与所述标准重弱读序列比对一致时,通过显示界面的第一视觉元素指示所述预定语句的整体发音节奏正确;在所述实际重弱读序列与所述标准重弱读序列比对不一致时,通过所述显示界面的第二视觉元素指示所述预定语句的整体发音节奏不正确。
其中,第一视觉元素与第二视觉元素可以为不同的几何图案,也可以为相同的几何图案,通过几何图案的指示颜色或其他特征的不同来进行区别。例如,几何图案可以选择为圆圈,在整体发音节奏正确时,将该圆圈的颜色变为绿色,并同时播放预设第一音效,进行整体节奏正确的指示。在整体发音节奏不正确时,将该圆圈的颜色变为红色,同时该圆圈进行晃动或播放预设第二音效,来进行整体节奏错误的指示。
另一种具体实施方式可以为:步骤S1042:通过所述显示界面的第三视觉元素对所述实际重弱读序列与所述标准重弱读序列进行对比显示,通过所述显示界面的第四视觉元素标示出所述预定语句中各个单词的重弱读情况是否正确。
例如,可以在预定语句下方通过圆点的大小表示重弱读情况,重读的单词对应的圆点形状较大,弱读的单词对应的圆点形状较小。实际重弱读序列与标准重弱读序列可以通过两行圆点进行对比显示。对于单个单词,其实际重弱读情况与标准重弱读情况相同时,可以通过圆点的颜色进行指示。例如该特定单词重弱读情况正确时,对应圆点为绿色;该特定单词重弱读情况不正确时,对应圆点为红色。
又一种具体实施方式可以为:步骤S1043:通过所述显示界面的第五视觉元素标示出所述预定语句中需重读的单词以及需弱读的单词。
例如,可以将预定语句中需重读的单词进行放大显示,可以与其他弱读的单词相区别。当然,还可以采用其他方式对需重读的单词进行突出显示。
可以理解的是,上述反馈信息的方式仅为实例,实际的应用过程中,其他同样可以实现标示显示作用的方式也应包含在本发明的保护范围之内。
参照图4在显示界面对用户节奏练习反馈视觉化展现的示意图,该实施例中,预定语句为“He told me that he knew time is up”,通过界面上方左边的大圆圈指示用户实际的整体发音节奏是否正确,该圆圈颜色变绿则表示整体发音节奏正确,该圆圈颜色变红则表示整体发音节奏不正确。在每个单词下方用圆点标示该单词对应的重弱读情况,位于左边用户实际发音语句下方的圆点为用户实际发音的重弱读情况,位于右边标准发音语句下方的圆点为标准发音的重弱读情况。重读的单词对应的圆点形状较大,弱读的单词对应的圆点形状较小。当该单词的实际发音与标准发音的重弱读情况相同时,该单词下方的圆点颜色变为绿色。当该单词的实际发音与标准发音的重弱读情况不相同时,该单词下方的圆点颜色变为红色。此外,在预定语句的显示中需要重读的单词进行了放大,例如“told”以及“time”这两个需要重读的单词,在预定语句中进行了突出显示。
本实施例中通过显示界面将反馈信息反馈至用户,反馈信息可以包括但不限于:整体节奏的正误、每个单词实际的重弱读情况和标准重弱读情况之间的对比。由于单词的重读和弱读概念对学习用户来说不易理解,需要不断强化,尤其在学习初期,学习用户难以通过标准音频准确判断强弱,需要直接清晰的说明,因此本实施例采用视觉元素辅助学习用户清晰获取练习内容中强弱的区分,在练习过程中加强对概念的理解,并能快速定位自己在练习时的问题所在。视觉上通过大和小的对比,用单词的放大和缩小,以及更抽象化的不同大小的几何图形来辅助用户直观理解单词的重读和弱读。
进一步地,本申请还可以通过播放用户在练习时的音频数据及标准语音,帮助用户更清晰地对比自己在发音时出现的问题,并有机会通过模仿标准语音来进一步改善问题。
下面对本发明实施例提供的节奏识别校正装置进行介绍,下文描述的节奏识别校正装置与上文描述的节奏识别校正方法可相互对应参照。
图5为本发明实施例提供的节奏识别校正装置的结构框图,参照图5节奏识别校正装置可以包括:
获取模块100,用于获取针对预定语句录入的音频数据;
识别模块200,用于对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;
生成模块300,用于将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
作为一种具体实施方式,本申请实施例中所述识别模块200可以具体包括:
分析单元,用于对所述音频数据进行分析,得到每个单词的时间边界;
第一确定单元,用于确定每个单词的音量指标,以及每个单词的音节时长指标;
第二确定单元,用于结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标;
第三确定单元,用于按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词,从而得到所述预定语句所对应的实际重弱读序列。
作为一种具体实施方式,本申请实施例中第二确定单元具体用于:按照预设权重值对所述音量指标以及所述音节时长指标进行比重加权计算,确定每个单词对应的重弱读指标。
作为一种具体实施方式,本申请实施例中第三确定单元具体用于:按照所述重弱读指标从低到高的顺序对各个单词进行排序,以弱读单词数+(单词总数-弱读单词数-重读单词数)/2的位置为分界点,落到左边的单词则认为是实际弱读的单词,落到右边的单词则认为是实际重读的单词。
此外,在上述任一实施例的基础上,本申请所提供的节奏识别校正装置还可以进一步包括:
第一显示模块,用于在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后,在所述实际重弱读序列与所述标准重弱读序列比对一致时,通过显示界面的第一视觉元素指示所述预定语句的整体发音节奏正确;在所述实际重弱读序列与所述标准重弱读序列比对不一致时,通过所述显示界面的第二视觉元素指示所述预定语句的整体发音节奏不正确。
此外,在上述任一实施例的基础上,本申请所提供的节奏识别校正装置还可以进一步包括:
第二显示模块,用于在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后,通过所述显示界面的第三视觉元素对所述实际重弱读序列与所述标准重弱读序列进行对比显示,通过所述显示界面的第四视觉元素标示出所述预定语句中各个单词的重弱读情况是否正确。
此外,在上述任一实施例的基础上,本申请所提供的节奏识别校正装置还可以进一步包括:
第三显示模块,用于在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后,通过所述显示界面的第五视觉元素标示出所述预定语句中需重读的单词。
本实施例的节奏识别校正装置用于实现前述的节奏识别校正方法,因此节奏识别校正装置中的具体实施方式可见前文中的节奏识别校正方法的实施例部分,例如,获取模块100,识别模块200,生成模块300,分别用于实现上述节奏识别校正方法中步骤S101,S102,S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本申请可以自动对录入的音频数据进行分析,检测其中的发音节奏是否正确,得到的反馈信息可以辅助用户理解节奏的概念,从而帮助用户有效掌握英语口语中的节奏特征的效果,提高了学习效率。并且,采用本申请可以不需要老师当面进行真人教学示范或纠正,因此克服了学习时间和空间的限制,用户可以随时随地进行节奏的练习。
此外,本申请还提供了一种节奏识别校正设备,应用于服务端1,如图6所示,所述设备包括:
存储器11,用于存储计算机程序;
处理器12,用于执行所述计算机程序时实现如下步骤:获取针对预定语句录入的音频数据;对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是节奏识别校正设备的内部存储单元,例如硬盘。存储器11在另一些实施例中也可以是节奏识别校正设备的外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括节奏识别校正设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于节奏识别校正设备的应用软件及各类数据,例如节奏识别校正程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行节奏识别校正程序01等。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:对所述音频数据进行分析,得到每个单词的时间边界;确定每个单词的音量指标,以及每个单词的音节时长指标;结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标;按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词,从而得到所述预定语句所对应的实际重弱读序列。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:按照预设权重值对所述音量指标以及所述音节时长指标进行比重加权计算,确定每个单词对应的重弱读指标。
可选地,所述处理器12用于执行所述计算机程序时具体实现如下步骤:按照所述重弱读指标从低到高的顺序对各个单词进行排序,以弱读单词数+(单词总数-弱读单词数-重读单词数)/2的位置为分界点,落到左边的单词则认为是实际弱读的单词,落到右边的单词则认为是实际重读的单词。
可以理解的是,本申请实施例中服务端可以包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。
此外,本申请还提供了一种节奏识别校正设备,应用于客户端2,如图7所示,所述设备包括:
音频采集装置21,用于录入针对预定语句的音频数据;
通信装置22,用于将所述音频数据发送至服务端,以便所述服务端对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息;并且接收所述服务端发送的反馈信息;
显示装置23,用于将所述反馈信息在显示界面上进行显示。
可选地,本申请实施例所提供的节奏识别校正设备中显示装置23可以具体用于:在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后,在所述实际重弱读序列与所述标准重弱读序列比对一致时,通过显示界面的第一视觉元素指示所述预定语句的整体发音节奏正确;在所述实际重弱读序列与所述标准重弱读序列比对不一致时,通过所述显示界面的第二视觉元素指示所述预定语句的整体发音节奏不正确。
可选地,本申请实施例所提供的节奏识别校正设备中显示装置23可以具体用于:在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后,通过所述显示界面的第三视觉元素对所述实际重弱读序列与所述标准重弱读序列进行对比显示,通过所述显示界面的第四视觉元素标示出所述预定语句中各个单词的重弱读情况是否正确。
可选地,本申请实施例所提供的节奏识别校正设备中显示装置23可以具体用于:在将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后,通过所述显示界面的第五视觉元素标示出所述预定语句中需重读的单词。
可以理解的是,本申请实施例中客户端可以包括但不限于:智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等。
进一步地,本申请还提供了一种节奏识别校正系统,如图8所示,该系统包括上述任一种服务端1以及上述任一种客户端2。用户可以通过客户端进行发音学习,客户端可以在显示界面上显示用户待学习的内容,并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容,在用户进行语音的发音学习时,客户端可以通过音频采集装置采集用户发音时的音频数据,并将音频数据发送至服务端,由服务端进行节奏识别校正的过程。在服务端对音频数据进行分析并得到反馈信息之后,将该反馈信息发送至客户端。通过客户端的显示装置对反馈信息进行显示,向用户提供视觉辅助信息。
此外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种节奏识别校正方法的步骤。
本申请所提供的节奏识别校正设备、节奏识别校正系统、计算机可读存储介质与前述方法相对应。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上,本申请可以自动对录入的音频数据进行分析,检测其中的发音节奏是否正确,得到的反馈信息可以辅助用户理解节奏的概念,从而帮助用户有效掌握英语口语中的节奏特征的效果,提高了学习效率。并且,采用本申请可以不需要老师当面进行真人教学示范或纠正,因此克服了学习时间和空间的限制,用户可以随时随地进行节奏的练习。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的节奏识别校正方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (11)

1.一种节奏识别校正方法,其特征在于,包括:
获取针对预定语句录入的音频数据;
对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;
将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
2.如权利要求1所述的节奏识别校正方法,其特征在于,所述对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列包括:
对所述音频数据进行分析,得到每个单词、音节的时间边界;
确定每个单词的音量指标,以及每个单词的音节时长指标;
结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标;
按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词,从而得到所述预定语句所对应的实际重弱读序列。
3.如权利要求2所述的节奏识别校正方法,其特征在于,所述结合所述音量指标以及所述音节时长指标,确定每个单词对应的重弱读指标包括:
按照预设权重值对所述音量指标以及所述音节时长指标进行比重加权计算,确定每个单词对应的重弱读指标。
4.如权利要求3所述的节奏识别校正方法,其特征在于,所述按照所述重弱读指标对各个单词进行排序,确定出实际重读的单词以及实际弱读的单词包括:
按照所述重弱读指标从低到高的顺序对各个单词进行排序,以弱读单词数+(单词总数-弱读单词数-重读单词数)/2的位置为分界点,落到左边的单词则认为是实际弱读的单词,落到右边的单词则认为是实际重读的单词。
5.如权利要求1至4任一项所述的节奏识别校正方法,其特征在于,在所述将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还包括:
在所述实际重弱读序列与所述标准重弱读序列比对一致时,通过显示界面的第一视觉元素指示所述预定语句的整体发音节奏正确;
在所述实际重弱读序列与所述标准重弱读序列比对不一致时,通过所述显示界面的第二视觉元素指示所述预定语句的整体发音节奏不正确。
6.如权利要求5所述的节奏识别校正方法,其特征在于,将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还包括:
通过所述显示界面的第三视觉元素对所述实际重弱读序列与所述标准重弱读序列进行对比显示,通过所述显示界面的第四视觉元素标示出所述预定语句中各个单词的重弱读情况是否正确。
7.如权利要求6所述的节奏识别校正方法,其特征在于,在所述将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息之后还包括:
通过所述显示界面的第五视觉元素标示出所述预定语句中需重读的单词以及需弱读的单词。
8.一种节奏识别校正装置,其特征在于,包括:
获取模块,用于获取针对预定语句录入的音频数据;
识别模块,用于对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;
生成模块,用于将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
9.一种节奏识别校正设备,其特征在于,应用于服务端,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如下步骤:获取针对预定语句录入的音频数据;对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息。
10.一种节奏识别校正设备,其特征在于,应用于客户端,所述设备包括:
音频采集装置,用于录入针对预定语句的音频数据;
通信装置,用于将所述音频数据发送至服务端,以便所述服务端对所述音频数据进行分析,识别所述预定语句所对应的实际重弱读序列;将所述实际重弱读序列与所述预定语句所对应的标准重弱读序列进行比对,生成判断所述预定语句当前的发音节奏是否正确的反馈信息;并且接收所述服务端发送的反馈信息;
显示装置,用于将所述反馈信息在显示界面上进行显示。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述节奏识别校正方法的步骤。
CN201910409870.7A 2019-05-16 2019-05-16 一种节奏识别校正方法、装置、设备及存储介质 Pending CN110136748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910409870.7A CN110136748A (zh) 2019-05-16 2019-05-16 一种节奏识别校正方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910409870.7A CN110136748A (zh) 2019-05-16 2019-05-16 一种节奏识别校正方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110136748A true CN110136748A (zh) 2019-08-16

Family

ID=67574723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910409870.7A Pending CN110136748A (zh) 2019-05-16 2019-05-16 一种节奏识别校正方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110136748A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503941A (zh) * 2019-08-21 2019-11-26 北京隐虚等贤科技有限公司 语言能力评测方法、装置、系统、计算机设备及存储介质
CN110930821A (zh) * 2019-12-12 2020-03-27 武汉天喻教育科技有限公司 一种基于网络学习空间的信息化教学效果评选方法及系统
CN111739527A (zh) * 2020-06-01 2020-10-02 广东小天才科技有限公司 语音识别方法及电子设备、计算机可读存储介质
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN114446268A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 一种音频数据处理方法、装置、电子设备、介质和程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067174A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation Visual comparison of speech utterance waveforms in which syllables are indicated
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN102436807A (zh) * 2011-09-14 2012-05-02 苏州思必驰信息科技有限公司 自动生成重读音节语音的方法和系统
CN104299612A (zh) * 2014-11-10 2015-01-21 科大讯飞股份有限公司 模仿音相似度的检测方法和装置
CN104485116A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 语音质量评价设备、方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067174A1 (en) * 2005-09-22 2007-03-22 International Business Machines Corporation Visual comparison of speech utterance waveforms in which syllables are indicated
CN101000764A (zh) * 2006-12-18 2007-07-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN101739870A (zh) * 2009-12-03 2010-06-16 深圳先进技术研究院 交互式语言学习系统及交互式语言学习方法
CN102436807A (zh) * 2011-09-14 2012-05-02 苏州思必驰信息科技有限公司 自动生成重读音节语音的方法和系统
CN104299612A (zh) * 2014-11-10 2015-01-21 科大讯飞股份有限公司 模仿音相似度的检测方法和装置
CN104485116A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 语音质量评价设备、方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503941A (zh) * 2019-08-21 2019-11-26 北京隐虚等贤科技有限公司 语言能力评测方法、装置、系统、计算机设备及存储介质
CN110503941B (zh) * 2019-08-21 2022-04-12 北京隐虚等贤科技有限公司 语言能力评测方法、装置、系统、计算机设备及存储介质
CN110930821A (zh) * 2019-12-12 2020-03-27 武汉天喻教育科技有限公司 一种基于网络学习空间的信息化教学效果评选方法及系统
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
CN111739527A (zh) * 2020-06-01 2020-10-02 广东小天才科技有限公司 语音识别方法及电子设备、计算机可读存储介质
CN114446268A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 一种音频数据处理方法、装置、电子设备、介质和程序产品
WO2023142413A1 (zh) * 2022-01-28 2023-08-03 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN110136748A (zh) 一种节奏识别校正方法、装置、设备及存储介质
CN110085261B (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
Jing et al. Prominence features: Effective emotional features for speech emotion recognition
CN110136747A (zh) 一种评价语音音素正确性的方法、装置、设备及存储介质
KR102161638B1 (ko) 기계학습 모델을 이용한 음성인식 기술에 기반한 치매정도 판별방법, 시스템, 및 컴퓨터-판독가능매체
US10755595B1 (en) Systems and methods for natural language processing for speech content scoring
CN109326162A (zh) 一种口语练习自动评测方法及装置
US11410642B2 (en) Method and system using phoneme embedding
US9536438B2 (en) System and method for customizing reading materials based on reading ability
CN109858009A (zh) 根据文本产生控制指令的装置、方法及其电脑存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN109166569B (zh) 音素误标注的检测方法和装置
CN105095415A (zh) 网络情绪的确定方法和装置
WO2019146753A1 (ja) 脳活動を利用した語学能力評価装置、及び語学能力評価システム
CN110222331A (zh) 谎言识别方法及装置、存储介质、计算机设备
CN104951434B (zh) 品牌情绪的确定方法和装置
CN110085260A (zh) 一种单词音节重音识别校正方法、装置、设备以及介质
CN115511704A (zh) 一种虚拟客服生成方法、装置、电子设备及存储介质
JP2000019941A (ja) 発音学習装置
CN113011164B (zh) 数据质量检测方法、装置、电子设备及介质
CN110097874A (zh) 一种发音纠正方法、装置、设备以及存储介质
CN112309429A (zh) 一种失爆检测方法、装置、设备及计算机可读存储介质
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
CN111951827B (zh) 一种连读识别校正方法、装置、设备以及可读存储介质
CN110827986A (zh) 一种发展性阅读障碍筛查方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816