CN112086094A

CN112086094A - 一种纠正发音的方法、终端设备及计算机可读存储介质

Info

Publication number: CN112086094A
Application number: CN202010851189.0A
Authority: CN
Inventors: 陆开中; 姚旭新; 钟宇文; 朱向军
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-15
Anticipated expiration: 2040-08-21
Also published as: CN112086094B

Abstract

本发明实施例提供了一种纠正发音的方法、终端设备及计算机可读存储介质，用于在用户学习英语口语发音或普通话发音的情况下，该用户能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，从而提高其学习语言发音的准确性。本发明实施例方法包括：响应用户的操作，生成并播放参考跟读语音信息；采集用户的当前跟读语音信息；对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果；根据所述当前匹配结果，生成并显示学习指示信息；其中，所述参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；所述多个英文词句中包括至少同一个音标；所述多个中文词句中包括至少同一个音节。

Description

一种纠正发音的方法、终端设备及计算机可读存储介质

技术领域

本发明涉及终端设备应用领域，尤其涉及一种纠正发音的方法、终端设备及计算机可读存储介质。

背景技术

目前，儿童对于其学习正确的英语口语发音或普通话发音的需求比较强烈，比如儿童能够方便或实时跟读所学习的英语或普通话，在学习英语或普通话的过程中也能够及时纠正自己的发音。但是，由于我国的平均教育水平参差不齐，大部分老师或家长的英语口语发音或普通话发音不够准确，导致其无法及时的跟进和纠正儿童的发音。

对于及时地跟读和纠正儿童的英语或普通话发音，目前通常采用对已采集的儿童跟读语音的音量值(或者是能力值)与预设跟读语音的跟读音量(能力值)范围进行匹配。这种做法对于相似读法的词句，不能准确进行匹配，不利于儿童对于语言的准确发音。比如：在儿童学习英语发音的情况下，如车子bike，喜欢like，远足hike，五five，九nine，米饭rice等单词如果使用能量匹配法就比较难以区分，会导致语音识别的准确性较低，无法做到对儿童的英语发音进行及时地纠正。

发明内容

本发明实施例提供了一种纠正发音的方法、终端设备及计算机可读存储介质，用于在用户学习英语口语发音或普通话发音的情况下，该用户能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，从而提高其学习语言发音的准确性。

有鉴于此，本发明实施例第一方面提供了一种对焦方法，可以包括：

响应用户的操作，生成并播放参考跟读语音信息；

采集用户的当前跟读语音信息；

对该当前跟读语音信息和该参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果；

根据该当前匹配结果，生成并显示学习指示信息；

其中，该参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；该多个英文词句中包括至少同一个音标；该多个中文词句中包括至少同一个音节。

可选的，该当前匹配结果包括：能量值当前匹配结果和语音转文字信息当前匹配结果；匹配阈值包括：第一匹配阈值和第二匹配阈值。该根据该当前匹配结果，生成并显示学习指示信息，包括：在该能量值当前匹配结果大于该第一匹配阈值，且，在该语音转文字信息当前匹配结果大于该第二匹配阈值的情况下，生成并显示关于表扬的提示信息；在该能量值当前匹配结果小于等于该第一匹配阈值，和/或，在该语音转文字信息当前匹配结果小于等于该第二匹配阈值的情况下，生成并显示关于鼓励的提示信息、再次播放该参考跟读语音信息的提示信息，以及该当前跟读语音信息中发音不准确的字母或汉字的提示信息中的至少一项。

可选的，该响应用户的操作，生成并播放参考跟读语音信息，包括：响应用户输入目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息；其中，该目标场景包括预置场景和当前实时场景中的至少一种。

可选的，该响应用户的操作，生成并播放参考跟读语音信息，包括：响应用户使用文字、图片、语音及视频中的至少一种方式输入该目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息。

可选的，在该根据该匹配结果，生成并显示学习指示信息之后，该方法还包括：针对历史匹配结果，和/或，该当前匹配结果，进行该参考跟读语音信息的相关测验，生成并显示该测验结果；根据该测验结果，生成并显示该测验结果相应的提示信息。

可选的，在该根据该测验结果，生成并显示该测验结果相应的提示信息之后，该方法还包括：向第一终端设备上报该测验结果；接收该第一终端设备发送的针对该测验结果的学习计划。

本发明实施例第二方面提供了一种终端设备，可以包括：

生成模块，用于响应用户的操作，生成并播放参考跟读语音信息；根据该当前匹配结果，生成并显示学习指示信息；其中，该参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；该多个英文词句中包括至少同一个音标；该多个中文词句中包括至少同一个音节；

处理模块，用于采集用户的当前跟读语音信息；对该当前跟读语音信息和该参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果。

可选的，该生成模块，具体用于该当前匹配结果包括：能量值当前匹配结果和语音转文字信息当前匹配结果；匹配阈值包括：第一匹配阈值和第二匹配阈值。在该能量值当前匹配结果大于该第一匹配阈值，且，在该语音转文字信息当前匹配结果大于该第二匹配阈值的情况下，生成并显示关于表扬的提示信息；在该能量值当前匹配结果小于等于该第一匹配阈值，和/或，在该语音转文字信息当前匹配结果小于等于该第二匹配阈值的情况下，生成并显示关于鼓励的提示信息、再次播放该参考跟读语音信息的提示信息，以及该当前跟读语音信息中发音不准确的字母或汉字的提示信息中的至少一项。

可选的，该生成模块，具体用于响应用户输入目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息；其中，该目标场景包括预置场景和当前实时场景中的至少一种。

可选的，该生成模块，具体用于响应用户使用文字、图片、语音及视频中的至少一种方式输入该目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息。

可选的，该生成模块，具体用于针对历史匹配结果，和/或，该当前匹配结果，进行该参考跟读语音信息的相关测验，生成并显示该测验结果；根据该测验结果，生成并显示该测验结果相应的提示信息。

可选的，该处理模块，具体用于向第一终端设备上报该测验结果；接收该第一终端设备发送的针对该测验结果的学习计划。

本发明实施例第三方面提供了一种终端设备，可以包括：

存储有可执行程序代码的存储器；

以及该存储器耦合的处理器；

该处理器调用该存储器中存储的该可执行程序代码，用于执行如本发明实施例第一方面该的方法。

本发明实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明实施例第一方面该的方法。

本发明实施例第五方面公开一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行本发明实施例第一方面公开的任意一种该的方法。

本发明实施例第六方面公开一种应用发布平台，该应用发布平台用于发布计算机程序产品，其中，当该计算机程序产品在计算机上运行时，使得该计算机执行本发明实施例第一方面公开的任意一种该的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本申请实施例中，响应用户的操作，生成并播放参考跟读语音信息；采集用户的当前跟读语音信息；对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果；根据所述当前匹配结果，生成并显示学习指示信息；其中，所述参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；所述多个英文词句中包括至少同一个音标；所述多个中文词句中包括至少同一个音节。

即用户能够选择自己想要学习的语言，终端设备根据用户选择的语言，生成并播放想学习语言的参考跟读语音信息；终端设备通过采集的用户的当前跟读语音信息与播放的学习语言的参考跟读语音信息进行能量值匹配和语音转文字匹配，生成当前匹配结果；终端设备根据该当前匹配结果，生成对应的提示信息。其中，终端设备在进行能量值匹配时，能够将当前跟读语音信息和参考跟读语音信息的语调和音量进行匹配；终端设备在进行语音转文字匹配时，能够通过文字转换更准确地识别用户是否跟读成对应的词句，而不是跟读成其他相似能量的词句。这样一来，在用户学习英语口语发音或普通话发音的情况下，该用户能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，从而提高其学习语言发音的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，还可以根据这些附图获得其它的附图。

图1为本发明实施例中纠正发音的方法的一个实施例示意图；

图2为本发明实施例中能量值匹配的一个实施例示意图；

图3为本发明实施例中语音转文字匹配的一个实施例示意图；

图4为本发明实施例中纠正发音的方法的另一个实施例示意图；

图5为本发明实施例中纠正发音的方法的另一个实施例示意图；

图6为本发明实施例中终端设备的一个实施例示意图；

图7为本发明实施例中终端设备的另一个实施例示意图。

具体实施方式

本发明实施例提供了一种纠正发音的方法、终端设备及计算机可读存储介质，用于在用户学习英语口语发音或普通话发音的情况下，用户能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，从而提高用户学习语言发音的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，都应当属于本发明保护的范围。

可以理解的是，本发明实施例中所涉及的终端设备可以包括一般的手持有屏电子终端设备，诸如手机、智能电话、便携式终端、终端、个人数字助理(Personal DigitalAssistant，PDA)、便携式多媒体播放器(Personal Media Player，PMP)装置、笔记本电脑、笔记本(Note Pad)、无线宽带(Wireless Broadband，Wibro)终端、平板电脑(PersonalComputer，PC)、智能PC、销售终端(Point of Sales，POS)和车载电脑等。

终端设备也可以包括可穿戴设备。可穿戴设备即可以直接穿戴在用户身上，或是整合到用户的衣服或配件的一种便携式电子设备。可穿戴设备不仅仅是一种硬件设备，更可以通过软件支持以及数据交互、云端交互来实现强大的智能功能，比如：计算功能、定位功能、报警功能，同时还可以连接手机及各类终端。可穿戴设备可以包括但不限于以手腕为支撑的watch类(比如手表、手腕等产品)，以脚为支撑的shoes类(比如鞋、袜子或者其他腿上佩戴产品)，以头部为支撑的Glass类(比如眼镜、头盔、头带等)以及智能服装，书包、拐杖、配饰等各类非主流产品形态。

下面先对本发明实施例中所涉及的一些术语做一个简要的说明，如下所示：

(1)在英语口语发音中

英语口语发音的一个音标由多个音素组成。

音素：英语中有48个音素，26个字母，音素与字母有本质区别。音素是从音质角度划分的最小的语音单位，从发音特征上可分为两类，即元音(也叫母音)音素和辅音(也叫子音)音素。在读音方面，音素是发音的最小单位；在词汇拼写即形状方面，字母是单词的最小单位。在英语语音方面，比音素大一级的发音单位是音节，音节是实际读音的基本单位，音节组合构成词汇的音标，即完整的读音方式。例如：字母B的发音是[bi:]，字母C的发音是[ci:]，所以这两个字母含有相同的音素i。

音标：音标有48个。48个音标也被称作48个国际音标、48个英语音标、48个英语国际英标，48个国际英语音标，这些称呼通常都是指48个英语国际英标。48个国际音标中有其中20个元音，20个辅音，3个鼻音，2个半元音，3个似拼音。元音包括12个单元音和8个双元音：12个单元音分别为5个长元音和7个短元音，其中，5个长元音分别为[i:]、[E:]、[O:]、[u:]和[A:]，7个短元音分别为[i]、[E]、[O]、[u]、[V]、[Q]和[e]；8个双元音分别为[ai]、[ei]、[Oi]、[iE]、[CE]、[uE]、[Eu]和[au]。辅音包括10个清辅音和10个浊辅音：10个清辅音分别为[p]、[t]、[k]、[f]、[s]、[T]、[S]、[tS]、[tr]和[ts]；10个浊辅音分别为[b]、[d]、[g]、[v]、[z]、[D]、[Z]、[dZ]、[dr]和[dz]。3个鼻音分别为[m]、[n]和[N]。2个半元音分别为[w]和[j]。3个似拼音分别为[h]、[r]和[l]。

音节：是读音的基本单位，任何单词音节单音节的象形文字的读音，都是分解为一个个音节朗读。在英语中元音字母(五个元音字母为a、e、i、o、u)特别响亮，一个元音音素(音素不是字母)可构成一个音节，一个元音音素和一个或几个辅音音素结合也可以构成一个音节。英语的词有一个音节的，两个音节的，多个音节的。一个音节叫单音节词，两个音节叫双音节词，两个音节以上叫多音节词。例如：拿take是单音节词；桌子'ta-ble是双音节词；马铃薯po-'ta-to，人口po-pu-'la-tion，祝贺con-gra-tu-'la-tion，电讯te-le-com-mu-ni-'ca-tion等是多音节词。

(2)在中文的发音中

中文发音词句中的音节包括声母，韵母和声调。

声母：是使用在韵母前面的辅音，跟韵母一起构成的一个完整的音节。其他汉藏语系语言也有类似的结构。一般由辅音充当，即首辅音。声母共有23个，它们分别为b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y和w。

韵母：是一个中国汉语音韵学术语，汉语字音中声母、声调以外的部分。旧称为韵。韵母由韵头(介音)、韵腹(主要元音)、韵尾三部分组成。按韵母结构可分为单韵母、复韵母、鼻韵母。普通话韵母共有三十九个，数目比声母多，系统也比较复杂。韵母24个。单韵母分别为a、o、e和i、u、v。复韵母分别为ai、ei、ui、ao、ou、iu、ie、ve、er、an、en、in、un、vn、ang、eng、ing和ong。

声调：声调有4个。分别为阴平(第一声)，用“ˉ”表示，如lā；阳平(第二声)，用“ˊ”表示，如lá；上声(第三声)，用“ˇ”表示，如lǎ；去声(第四声)，用“ˋ”表示，如là。现代汉语普通话的声调，共分四类，就是“阴平声、阳平声、上(读如‘赏’)声、去声”，简称为阴、阳、上、去。不过，一般民众或小学生都只用“第一声”、“第二声”、“第三声”、“第四声”来代替“阴”、“阳”、“上”、“去”。

下面以实施例的方式，对本发明技术方案做进一步的说明，如图1所示，为本发明实施例中纠正发音的方法的一个实施例示意图，可以包括：

101、响应用户的操作，生成并播放参考跟读语音信息。

其中，所述参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；所述多个英文词句中包括至少同一个音标；所述多个中文词句中包括至少同一个音节。

示例性的，在英文单词中，远足hike

五five

车子bike

这三个单词包括了同一个音标

在中文词汇中，和hé好，合hé成，荷hé花，这三个词汇包括了同一个音节hé。

可选的，终端设备所述响应用户的操作，生成并播放参考跟读语音信息，可以包括但不限于以下的实现方式：

实现方式1：终端设备响应用户输入目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息；

其中，该目标场景可以包括预置场景和当前实时场景中的至少一种；该预置场景可以包括预置静态场景，和/或，预置动态场景；该当前实时场景可以包括用户当前所处的静态场景，和/或，用户当前所处的动态场景。

实现方式2：终端设备响应用户使用文字、图片、语音及视频中的至少一种方式输入该目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息。

其中，该目标场景包括预置场景和当前实时场景中的至少一种；该预置场景可以包括预置静态场景，和/或，预置动态场景；该当前实时场景可以包括用户当前所处的静态场景，和/或，用户当前所处的动态场景。

示例性的，用户以视频的方式输入客厅的场景，终端设备生成并播放与客厅相关的单词。例如：电视television，沙发sofa，茶几tea table等。

实现方式3：终端设备响应用户使用文字、图片、语音及视频中的至少一种方式输入该目标场景的操作，在生成并播放与该目标场景相关的参考跟读语音信息之后，生成并播放与该参考跟读语音信息相关的第二参考跟读语音信息。

示例性的，用户以图片的方式输入客厅的场景图片，终端设备在生成并播放与客厅相关的单词之后，生成并播放与该客厅相关的单词发音相似的单词。例如：与电视television

发音相似的单词如沟通communication

与沙发sofa

发音相似的单词如苏打soda

与桌子table

发音相似的单词如三倍triple

等。

102、采集用户的当前跟读语音信息。

其中，该当前跟读语音信息中包括多个英文词句，和/或，多个中文词句；该多个英文词句中包括至少同一个音标；该多个中文词句中包括至少同一个音节。

103、对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果。

其中，该当前匹配结果包括：能量值当前匹配结果和语音转文字信息当前匹配结果；该匹配阈值包括：第一匹配阈值和第二匹配阈值。

可选的，所述对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果，可以包括但不限于以下的实现方式：

实现方式1：终端设备对该当前跟读语音信息和该参考跟读语音信息，同时进行能量值匹配和语音转文字信息匹配，终端设备得到该能量值匹配结果和该语音转文字信息匹配结果。

实现方式2：终端设备对该当前跟读语音信息和该参考跟读语音信息进行能量值匹配，得到该能量值匹配结果；终端设备对该当前跟读语音信息和该参考跟读语音信息进行语音转文字信息匹配，得到该语音转文字信息匹配结果。

实现方式3：终端设备对该当前跟读语音信息和该参考跟读语音信息进行语音转文字信息匹配，得到该语音转文字信息匹配结果；终端设备对该当前跟读语音信息和该参考跟读语音信息进行能量值匹配，得到该能量值匹配结果。

可以理解的是，本步骤中的实现方式1-3是对该当前跟读语音信息和该参考跟读语音信息进行匹配的过程中，该能量值匹配和该语音转文字匹配的时序不同，但是对最终得到的匹配结果不造成影响。

其中，(1)终端设备对该当前跟读语音信息和该参考跟读语音信息进行能量值匹配，即终端设备对采集的当前跟读语音信息的波形能量进行采样和量化对比，其中，终端设备中的参考跟读语音信息为基准项，用户的当前跟读语音信息为对比项。如图2所示，为本发明实施例中能量值匹配的一个实施例示意图，可以包括：201、终端设备对采集的该当前跟读语音信息的波形能量进行采样，获取采样后的第一波形能量信号。其中，该波形能量信号为模拟信号。202、终端设备对该第一波形能量信号进行量化，生成该第一波形能量信号所对应的数字信号。203、终端设备对该数字信号和语言数据库进行匹配。

(2)终端设备对该当前跟读语音信息和该参考跟读语音信息进行语音转文字匹配。如图3所示，为本发明实施例中语音转文字匹配的一个实施例示意图，可以包括：301、终端设备对该当前跟读语音信息进行预处理后，获取第一语音信息。其中，语音信息为数字语音信号，预处理可以包括对第一语音信息进行端点检测和降噪；302、终端设备选择一个语言数据库；303、终端设备提取该第一语音信息的特征，通过解码该特征与该语言数据库进行匹配。其中，该特征可以包括：词句中的音标或音节等。

可以理解的是，终端设备对第一语音信息进行端点检测是为了检测出有效的语音信息，终端设备对第一语音信息进行降噪是为了更准确地对有效的语音信息进行特征提取做准备。

可以理解的是，终端设备在选择一个语言数据库时，该语言数据库可以由用户进行选择，也可以由能量识别进行选择，具体此处不做具体赘述。该语言数据库中可以包括相似读音语言库，也可以包括不同读音语言库；该相似读音语言库中可以包括多个相似读音模型组，其中，该相似读音模型组可以包括相似读音的词句和/或相似读音词句中的音标或音节，例如辅音训练模型，该辅音训练模型包括至少同一个辅音。

示例性的，第一语音信息包括车子bike

喜欢like

桌子table

沙发sofa

远足hike

电视television

假设特定的语言数据库为辅音[k]训练模型。终端设备根据这些单词的辅音与辅音[k]训练模型进行匹配，终端设备则会在辅音[k]训练模型中选择bike

喜欢like

远足hike

进行匹配。

104、根据所述当前匹配结果，生成并显示学习指示信息。

可选的，所述根据所述当前匹配结果，生成并显示学习指示信息，可以包括但不限于以下的实现方式：

实现方式1：终端设备在该能量值当前匹配结果大于该第一匹配阈值，且，在该语音转文字信息当前匹配结果大于该第二匹配阈值的情况下，生成并显示关于表扬的提示信息。

示例性的，假设匹配阈值为分数，第一匹配阈值为80分，第二匹配阈值为85分，终端设备得到的能量值当前匹配结果为86分大于第一匹配阈值80分，得到的语音转文字信息当前匹配结果为88分第二匹配阈值85分，此时，终端设备生成并显示“读得很棒”。可以理解的是，显示方式可以是文字显示，也可以是动画显示，此处不做具体赘述。

实现方式2：终端设备在该能量值当前匹配结果小于等于该第一匹配阈值，和/或，在该语音转文字信息当前匹配结果小于等于该第二匹配阈值的情况下，生成并显示关于鼓励的提示信息、再次播放该参考跟读语音信息的提示信息，以及该当前跟读语音信息中发音不准确的字母或汉字的提示信息中的至少一项。

示例性的，假设匹配阈值为分数，第一匹配阈值为80分，第二匹配阈值为85分，终端设备得到的能量值当前匹配结果为76分小于第一匹配阈值80分，得到的语音转文字信息当前匹配结果为88分第二匹配阈值85分，此时，终端设备生成并显示再次播放该参考跟读语音信息。

在本发明实施例中，用户能够选择自己想要学习的语言，终端设备根据用户选择的语言，生成并播放想学习语言的参考跟读语音信息；终端设备通过采集的用户的当前跟读语音信息与播放的学习语言的参考跟读语音信息进行能量值匹配和语音转文字匹配，生成当前匹配结果；终端设备根据该当前匹配结果，生成对应的提示信息。这样一来，在用户学习英语口语发音或普通话发音的情况下，该用户能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，从而提高其学习语言发音的准确性。

如图4所示，为本发明实施例中纠正发音的方法的另一个实施例示意图，可以包括：

401、响应用户的操作，生成并播放参考跟读语音信息。

402、采集用户的当前跟读语音信息。

403、对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果。

404、根据所述当前匹配结果，生成并显示学习指示信息。

需要说明的是，步骤401～404与图1所示实施例中的步骤101～104类似，此处不再赘述。

405、针对历史匹配结果，和/或，所述当前匹配结果，进行所述参考跟读语音信息的相关测验，生成并显示所述测验结果。

可选的，所述针对历史匹配结果，和/或，所述当前匹配结果，进行所述参考跟读语音信息的相关测验，生成并显示所述测验结果，可以包括：终端设备针对历史匹配结果，和/或，该当前匹配结果，实时地或者周期性地进行该参考跟读语音信息的相关测验，生成并显示该测验结果。

可以理解的是，终端设备实时地进行该参考跟读语音信息的相关测验，是针对当前匹配结果进行的相关测验，能够及时地纠正用户的语言发音；终端设备周期性地进行该参考跟读语音信息的相关测验，是针对历史匹配结果，和/或，该当前匹配结果进行的相关测验，能够及时地复习用户的语言发音。

示例性的，终端设备根据当前匹配结果设置一周后对该参考跟读语音信息进行相关测验，该相关测验可以是针对该参考跟读语音信息进行整体测验，也可以是对在学习该参考跟读语音信息的过程中出现的错误读音进行测验。可以理解的是，相关测验的具体内容这里不做详细赘述。

在本发明实施例中，用户能够选择自己想要学习的语言，终端设备根据用户选择的语言，生成并播放想学习语言的参考跟读语音信息；终端设备通过采集的用户的当前跟读语音信息与播放的学习语言的参考跟读语音信息进行能量值匹配和语音转文字匹配，生成当前匹配结果；终端设备根据该当前匹配结果，生成对应的提示信息。这样一来，在用户学习英语口语发音或普通话发音的情况下，该用户不仅能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，还能够通过终端设备及时复习学习过的英语口语发音或普通话发音，从而提高其学习语言发音的准确性。

如图5所示，为本发明实施例中纠正发音的方法的另一个实施例示意图，可以包括：

501、响应用户的操作，生成并播放参考跟读语音信息。

502、采集用户的当前跟读语音信息。

503、对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果。

504、根据所述当前匹配结果，生成并显示学习指示信息。

505、针对历史匹配结果，和/或，所述当前匹配结果，进行所述参考跟读语音信息的相关测验，生成并显示所述测验结果。

需要说明的是，步骤501～505与图4所示实施例中的步骤401～405类似，此处不再赘述。

506、向第一终端设备上报所述测验结果。

可选的，所述向第一终端设备上报所述测验结果，可以包括：实时地或者周期性地向第一终端设备上报所述测验结果。

示例性的，终端设备设置每隔两周向第一终端设备上报所述测验结果。

507、接收所述第一终端设备发送的针对所述测验结果的学习计划。

可选的，所述接收所述第一终端设备发送的针对所述测验结果的学习计划，可以包括：实时地或者周期性地接收所述第一终端设备发送的针对所述测验结果的学习计划。

在本发明实施例中，用户能够选择自己想要学习的语言，终端设备根据用户选择的语言，生成并播放想学习语言的参考跟读语音信息；终端设备通过采集的用户的当前跟读语音信息与播放的学习语言的参考跟读语音信息进行能量值匹配和语音转文字匹配，生成当前匹配结果；终端设备根据该当前匹配结果，生成对应的提示信息。这样一来，在用户学习英语口语发音或普通话发音的情况下，该用户不仅能够通过终端设备及时跟进和纠正其英语口语发音或普通话发音，还能够通过终端设备及时复习学习过的英语口语发音或普通话发音，除此以外，其他用户也可以对该客户进行学习语言发音的监督，从而提高其学习语言发音的准确性。

如图6所示，为本发明实施例中终端设备的一个实施例示意图，可以包括：

生成模块601，用于响应用户的操作，生成并播放参考跟读语音信息；根据该当前匹配结果，生成并显示学习指示信息；其中，该参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；该多个英文词句中包括至少同一个音标；该多个中文词句中包括至少同一个音节；

处理模块602，用于采集用户的当前跟读语音信息；对该当前跟读语音信息和该参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果。

可选的，在本发明的一些实施例中，

生成模块601，具体用于该当前匹配结果包括：能量值当前匹配结果和语音转文字信息当前匹配结果；匹配阈值包括：第一匹配阈值和第二匹配阈值。在该能量值当前匹配结果大于该第一匹配阈值，且，在该语音转文字信息当前匹配结果大于该第二匹配阈值的情况下，生成并显示关于表扬的提示信息；在该能量值当前匹配结果小于等于该第一匹配阈值，和/或，在该语音转文字信息当前匹配结果小于等于该第二匹配阈值的情况下，生成并显示关于鼓励的提示信息、再次播放该参考跟读语音信息的提示信息，以及该当前跟读语音信息中发音不准确的字母或汉字的提示信息中的至少一项。

可选的，在本发明的一些实施例中，

生成模块601，具体用于响应用户输入目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息；其中，该目标场景包括预置场景和当前实时场景中的至少一种。

可选的，在本发明的一些实施例中，

生成模块601，具体用于响应用户使用文字、图片、语音及视频中的至少一种方式输入该目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息。

可选的，在本发明的一些实施例中，

生成模块601，具体用于针对历史匹配结果，和/或，该当前匹配结果，进行该参考跟读语音信息的相关测验，生成并显示该测验结果；根据该测验结果，生成并显示该测验结果相应的提示信息。

可选的，在本发明的一些实施例中，

处理模块602，具体用于向第一终端设备上报该测验结果；接收该第一终端设备发送的针对该测验结果的学习计划。

如图7所示，为本发明实施例中终端设备的另一个实施例示意图，图7示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图7，手机包括：射频(Radio Frequency，RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端设备所包括的处理器780还具有以下功能：

响应用户的操作，生成并播放参考跟读语音信息；

采集用户的当前跟读语音信息；

根据该当前匹配结果，生成并显示学习指示信息；

可选的，处理器780还具有以下功能：

该当前匹配结果包括：能量值当前匹配结果和语音转文字信息当前匹配结果；匹配阈值包括：第一匹配阈值和第二匹配阈值。在该能量值当前匹配结果大于该第一匹配阈值，且，在该语音转文字信息当前匹配结果大于该第二匹配阈值的情况下，生成并显示关于表扬的提示信息；在该能量值当前匹配结果小于等于该第一匹配阈值，和/或，在该语音转文字信息当前匹配结果小于等于该第二匹配阈值的情况下，生成并显示关于鼓励的提示信息、再次播放该参考跟读语音信息的提示信息，以及该当前跟读语音信息中发音不准确的字母或汉字的提示信息中的至少一项。

可选的，处理器780还具有以下功能：

响应用户输入目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息；其中，该目标场景包括预置场景和当前实时场景中的至少一种。

可选的，处理器780还具有以下功能：

响应用户使用文字、图片、语音及视频中的至少一种方式输入该目标场景的操作，生成并播放与该目标场景相关的参考跟读语音信息。

可选的，处理器780还具有以下功能：

针对历史匹配结果，和/或，该当前匹配结果，进行该参考跟读语音信息的相关测验，生成并显示该测验结果；根据该测验结果，生成并显示该测验结果相应的提示信息。

可选的，处理器780还具有以下功能：

向第一终端设备上报该测验结果；接收该第一终端设备发送的针对该测验结果的学习计划。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种纠正发音的方法，其特征在于，包括：

响应用户的操作，生成并播放参考跟读语音信息；

采集用户的当前跟读语音信息；

对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果；

根据所述当前匹配结果，生成并显示学习指示信息；

2.根据权利要求1所述的方法，其特征在于，所述当前匹配结果包括：能量值当前匹配结果和语音转文字信息当前匹配结果；匹配阈值包括：第一匹配阈值和第二匹配阈值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前匹配结果，生成并显示学习指示信息，包括：

在所述能量值当前匹配结果大于所述第一匹配阈值，且，在所述语音转文字信息当前匹配结果大于所述第二匹配阈值的情况下，生成并显示关于表扬的提示信息；

在所述能量值当前匹配结果小于等于所述第一匹配阈值，和/或，在所述语音转文字信息当前匹配结果小于等于所述第二匹配阈值的情况下，生成并显示关于鼓励的提示信息、再次播放所述参考跟读语音信息的提示信息，以及所述当前跟读语音信息中发音不准确的字母或汉字的提示信息中的至少一项。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述响应用户的操作，生成并播放参考跟读语音信息，包括：

响应用户输入目标场景的操作，生成并播放与所述目标场景相关的参考跟读语音信息；

其中，所述目标场景包括预置场景和当前实时场景中的至少一种。

5.根据权利要求4所述的方法，其特征在于，所述响应用户的操作，生成并播放参考跟读语音信息，包括：

响应用户使用文字、图片、语音及视频中的至少一种方式输入所述目标场景的操作，生成并播放与所述目标场景相关的参考跟读语音信息。

6.根据权利要求1-3中任一项所述的方法，其特征在于，在所述根据所述匹配结果，生成并显示学习指示信息之后，所述方法还包括：

针对历史匹配结果，和/或，所述当前匹配结果，进行所述参考跟读语音信息的相关测验，生成并显示所述测验结果；

根据所述测验结果，生成并显示所述测验结果相应的提示信息。

7.根据权利要求6所述的方法，其特征在于，在所述根据所述测验结果，生成并显示所述测验结果相应的提示信息之后，所述方法还包括：

向第一终端设备上报所述测验结果；

接收所述第一终端设备发送的针对所述测验结果的学习计划。

8.一种终端设备，其特征在于，包括：

生成模块，用于响应用户的操作，生成并播放参考跟读语音信息；根据所述当前匹配结果，生成并显示学习指示信息；其中，所述参考跟读语音信息中包括多个英文词句，和/或，多个中文词句；所述多个英文词句中包括至少同一个音标；所述多个中文词句中包括至少同一个音节；

处理模块，用于采集用户的当前跟读语音信息；对所述当前跟读语音信息和所述参考跟读语音信息，进行能量值匹配和语音转文字信息匹配，得到当前匹配结果。

9.一种终端设备，其特征在于，包括：

存储有可执行程序代码的存储器；

以及所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的方法。