CN114596880A

CN114596880A - 一种发音纠正方法、装置、计算机设备及存储介质

Info

Publication number: CN114596880A
Application number: CN202111652811.6A
Authority: CN
Inventors: 朱奇峰
Original assignee: Suzhou Qingrui Intelligent Technology Co ltd
Current assignee: Suzhou Qingrui Intelligent Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-06-07

Abstract

本发明公开一种发音纠正方法、装置、计算机设备及存储介质，涉及人工智能技术领域。具体方案包括：计算机设备响应于用户跟读预设语音的语音输入，获取用户跟读语音，并根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段，目标发音片段为用户跟读语音中，发音准确度满足预设规则的片段，且根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，发音纠正语音用于纠正用户跟读语音中的目标发音片段。本发明通过对比的方式同时呈现目标发音片段和预设语音中与目标发音片段对应的片段，同时辅助以自然语言的引导，能够主动有效引导学习者对发音不准确的地方进行发音纠正，提升了发音纠正的效率。

Description

一种发音纠正方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种发音纠正方法、装置、计算机设备及存储介质。

背景技术

在语言学习中，“示范-模仿朗读”是一种常见的语言学习方式。在这种语言学习方式中，计算机设备会先向学习者示范一整句话的正确的发音，然后录制学习者模仿的跟读语音，并确定跟读语音中发音有问题的单词或音节，且向学习者指出。

相关技术中，计算机设备通过训练好的发音模型来确定跟读语音中发音有问题的单词或音节，并进行标识显示，以提示学习者的发音存在缺陷。

但是，上述方式难以主动引导学习者对发音不准确的地方进行发音纠正，发音纠正的效率低。

发明内容

本发明提供一种发音纠正方法、装置、计算机设备及存储介质，解决了发音纠正的效率低的问题。

为达到上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种发音纠正方法，该方法包括：

响应于用户跟读预设语音的语音输入，获取用户跟读语音；

根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段，目标发音片段为用户跟读语音中，发音准确度满足预设规则的片段；

根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，发音纠正语音用于纠正用户跟读语音中的目标发音片段。

在一种可能的实现方式中，根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段，包括：对用户跟读语音进行预处理，得到目标语音；获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形；根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度；将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段。

在一种可能的实现方式中，第一内容或第二内容为：词语、词组和音节中的任意一项。

在一种可能的实现方式中，获取预设语音中每个第一内容的发音的波形和所述目标语音中对应的第二内容的发音的波形，包括：计算目标语音和预设语音的声音感知差距；根据声音感知差距和预存的时间对齐算法，将目标语音的发音的波形和预设语音的发音的波形对齐；根据预设语音中预先标注的声音起始信息，截取对齐的预设语音和目标语音的发音的波形，得到每个第一内容的发音的波形和对应的第二内容的发音的波形。

在一种可能的实现方式中，目标发音片段为目标词语的发音片段，根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，包括：根据目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段，生成第一纠正语音，第一纠正语音用于纠正目标词语的发音；确定目标词语的发音片段中的目标音节片段，目标音节片段为目标词语中发音准确度小于预设阈值的音节；根据目标音节片段和预设语音中与目标音节片段对应的片段生成第二纠正语音，第二纠正语音用于纠正目标音节片段的发音；发音纠正语音包括第一纠正语音和第二纠正语音。

在一种可能的实现方式中，根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，包括：将目标发音片段和预设语音中与目标发音片段对应的片段以对比的方式添加至预存的语音模板中，生成发音纠正语音；或者，根据目标发音片段生成发音纠正语音；或者，根据预设语音中与目标发音片段对应的片段生成发音纠正语音。

在一种可能的实现方式中，上述发音纠正方法还包括：获取预设语音对应的目标内容；根据每个第二内容的发音准确度，确定目标内容中与每个第二内容对应的内容的发音评价参数；采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用第二标记方式对发音评价参数小于或等于预设值的内容进行标记，第一标记方式与第二标记方式不同；显示标记后的目标内容，标记后的目标内容用于提示用户的用户跟读语音的发音准确度。

在一种可能的实现方式中，上述发音纠正方法还包括：在目标内容的所有内容的发音评价参数的平均值小于预设参数的情况下，再次输出预设语音；或者，在目标内容中发音评价参数小于预设参数的内容数量在目标内容的内容总数中的占比小于预设占比的情况下，再次输出预设语音；或者，在目标内容的所有内容的发音评价参数的总和小于预设和值的情况下，再次输出预设语音。

第二方面，本发明提供一种发音纠正装置，包括：

获取模块，用于响应于用户跟读预设语音的语音输入，获取用户跟读语音；

确定模块，用于根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段，目标发音片段为用户跟读语音中，发音准确度满足预设规则的片段；

语音合成模块，用于根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，发音纠正语音用于纠正用户跟读语音中的目标发音片段。

在一种可能的实现方式中，确定模块具体用于：对用户跟读语音进行预处理，得到目标语音；获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形；根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度；将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段。

在一种可能的实现方式中，第一内容或第二内容为：词语、词组、音节中的任意一项。

在一种可能的实现方式中，确定模块具体用于：计算目标语音和预设语音的声音感知差距；根据声音感知差距和预存的时间对齐算法，将目标语音的发音的波形和预设语音的发音的波形对齐；根据预设语音中预先标注的声音起始信息，截取对齐的预设语音和目标语音的发音的波形，得到每个第一内容的发音的波形和对应的第二内容的发音的波形。

在一种可能的实现方式中，目标发音片段为目标词语的发音片段，语音合成模块具体用于：根据目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段，生成第一纠正语音，第一纠正语音用于纠正目标词语的发音；确定目标词语的发音片段中的目标音节片段，目标音节片段为目标词语中发音准确度小于预设阈值的音节；根据目标音节片段和预设语音中与目标音节片段对应的片段生成第二纠正语音，第二纠正语音用于纠正目标音节片段的发音；发音纠正语音包括第一纠正语音和第二纠正语音。

在一种可能的实现方式中，语音合成模块具体用于：将目标发音片段和预设语音中与目标发音片段对应的片段以对比的方式添加至预存的语音模板中，生成发音纠正语音；或者，根据目标发音片段生成发音纠正语音；或者，根据预设语音中与目标发音片段对应的片段生成发音纠正语音。

在一种可能的实现方式中，上述发音纠正装置还包括评价模块和显示模块，获取模块还用于：获取预设语音对应的目标内容；确定模块还用于，根据每个第二内容的发音准确度，确定目标内容中与每个第二内容对应的内容的发音评价参数；评价模块用于，采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用第二标记方式对发音评价参数小于或等于预设值的内容进行标记，第一标记方式与第二标记方式不同；显示模块用于，显示标记后的目标内容，标记后的目标内容用于提示用户的用户跟读语音的发音准确度。

在一种可能的实现方式中，上述发音纠正装置还包括输出模块，输出模块用于：在目标内容的所有内容的发音评价参数的平均值小于预设参数的情况下，再次输出预设语音；或者，在目标内容中发音评价参数小于预设参数的内容数量在目标内容的内容总数中的占比小于预设占比的情况下，再次输出预设语音；或者，在目标内容的所有内容的发音评价参数的总和小于预设和值的情况下，再次输出预设语音。

第三方面，本发明提供一种计算机设备，该计算机设备包括：处理器和存储器。存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。当处理器执行计算机指令时，计算机设备执行如第一方面及其任一种可能的实现方式的发音纠正方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机指令，当计算机指令在计算机设备上运行时，使得计算机设备执行如第一方面或第一方面的可能的实现方式中任意一项的发音纠正方法。

第五方面，本发明提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在计算机设备上运行时，使得计算机设备执行如第一方面及其任一种可能的实现方式的发音纠正方法方法。

本发明实施例提供的发音纠正方法方法，计算机设备响应于用户跟读预设语音的语音输入，获取用户跟读语音，并根据预设语音和用户跟读语音的发音感知相似的分析，确定需要纠正的目标发音片段，目标发音片段为用户跟读语音中，发音准确度满足预设规则的片段，且根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，发音纠正语音用于纠正用户跟读语音中的目标发音片段。本发明实施例通过对比的方式同时呈现目标发音片段和预设语音中与目标发音片段对应的片段，同时辅助以自然语言的引导，能够主动有效引导学习者对发音不准确的地方进行发音纠正，提升了发音纠正的效率。

附图说明

图1为本发明实施例提供的一种发音纠正方法的应用环境示意图；

图2为本发明实施例提供的一种发音纠正方法的流程示意图之一；

图3为本发明实施例提供的一种发音练习界面的示意图之一；

图4为本发明实施例提供的一种发音练习界面的示意图之二；

图5为本发明实施例提供的一种发音纠正方法的流程示意图之二；

图6为本发明实施例提供的一种发音纠正方法的流程示意图之三；

图7为本发明实施例提供的一种发音纠正方法的流程示意图之四；

图8为本发明实施例提供的一种发音练习界面的示意图之三；

图9为本发明实施例提供的一种发音纠正装置的组成示意图之一；

图10为本发明实施例提供的一种发音纠正装置的组成示意图之二；

图11为本发明实施例提供的一种发音纠正装置的组成示意图之三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

为了解决发音纠正的效率低的问题，本发明实施例提供了一种发音纠正方法、装置、计算机设备及存储介质。

本发明实施例提供的发音纠正方法的执行主体为发音纠正装置，发音纠正装置可以是计算机设备，还可以是计算机设备的处理器，也可以是计算机设备中安装的客户端。在本发明实施例中以计算机设备执行发音纠正方法为例进行介绍。

在一种场景中，计算机设备可以是终端设备，可以由终端设备来执行本发明实施例的发音纠正方法。例如，终端设备可以是手机、平板电脑、笔记本电脑等设备。

在另一种场景中，计算机设备可以是终端设备或服务器，可以由终端设备和服务器共同完成本发明实施例的发音纠正方法。其中，该服务器可以是一台服务器，还可以是服务器集群，还可以是云平台计算中心。当服务器为服务器集群时，服务器集群包括的不同服务器可以为终端设备提供不同的服务，例如，语音对比、语音合成等服务。

图1为本发明实施例提供的一种发音纠正方法的应用场景示意图。如图1所示，该场景中可以包括终端设备10、语音对比服务器11和语音合成服务器12。终端设备10、语音对比服务器11和语音合成服务器12以有线或无线的方式进行通信连接。

终端设备10，用于响应于用户跟读预设语音的语音输入，获取用户跟读语音。语音对比服务器11，用于根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段。语音合成服务器12，还用于根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音。

示例性地，终端设备10可以响应于用户跟读预设语音的语音输入，获取用户跟读语音，并将用户跟读语音发送给语音对比服务器11。语音对比服务器11可以对接收到的用户跟读语音进行预处理，得到目标语音，将目标语音和预设语音进行波形对比，确定目标发音片段，并将目标发音片段发送给语音合成服务器12。语音合成服务器12可以根据接收到的目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，并将发音纠正语音发送给终端设备10。终端设备10可以接收并输出该发音纠正语音。

基于上述发音纠正方法的应用环境的介绍，本发明实施例以执行主体为终端设备为例，提供一种发音纠正方法。如图2所示，发音纠正方法可以包括以下步骤S201-步骤S203。

需要说明的是，本发明实施例中涉及的预设语音和用户跟读语音可以是任意语言类型的语音。例如，预设语音和用户跟读语音可以是英文语音，还可以是中文语音，还可以是法语语音，本发明实施例不做具体限定。为了便于理解，本发明实施例中以预设语音和用户跟读语音为英文语音，即以英文语音的发音练习进行举例说明。

S201、终端设备响应于用户跟读预设语音的语音输入，获取用户跟读语音。

终端设备中安装有发音练习应用，当需要通过该发音练习应用进行发音练习时，用户可以打开该发音练习应用。终端设备可以显示发音练习界面，且可以响应于用户的操作，在发音练习界面显示预设语音对应的文本信息，并输出预设语音，而后响应于用户跟读预设语音的语音输入，获取用户跟读语音。

可以理解的是，预设语音用于引导用户进行发音练习，当预设语音为英文语音时，预设语音可以是标准美式发音，也可以是标准英式发音。预设语音可以是终端设备根据用户最近学习的词语确定的语音会话，还可以是用户在预设语音库中选择的语音会话，此处对于预设语音的确定方式不做限定。

示例性地，如图3所示，终端设备可以在发音练习界面中显示预设语音对应的文本信息“Mike：Do you want any breakfast,Lily？”,并输出预设语音。在输出预设语音时，终端设备可以在发音练习界面的预设位置处显示输出预设语音的进度条，还可以响应于用户对发音练习界面中“暂停跟读”按钮的操作，暂停输出预设语音。

在输出预设语音后，如图4所示，终端设备可以显示如话筒样式的录音提示框，并显示正在录音，以提醒用户跟读预设语音，并响应于用户跟读预设语音的语音输入，获取用户跟读语音。同样的，在用户跟读预设语音时，终端设备还可以在发音练习界面的预设位置处显示录音进度条。可以理解的是，录音进度条的时长与预设语音的进度条的时长相同，以此提醒用户在跟读过程中注意把握语速，从而提高用户的跟读准确性。

进一步的，预设语音可以是一段对话语音中的一句话，也可以是一段对话语音中的一部分，还可以是整段对话语音。这样，用户即可以逐句进行发音练习，也可以灵活、有选择地进行部分或全部对话语音的发音练习。

S202、终端设备根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段，目标发音片段为用户跟读语音中，发音准确度满足预设规则的片段。

可以理解的是，目标发音片段可以是词语语音片段、词组语音片段或音节语音片段。发音准确度可以以得分来表示，也可以以百分数来表示，还可以以等级来表示，在此不做限定。

在一种可能的实现方式中，终端设备可以在获取用户跟读语音后，根据预设语音和用户跟读语音的发音感知相似的分析，确定用户跟读语音中每个发音片段的发音准确度，并将发音准确度满足预设规则的片段，确定为目标发音片段。

在另一种可能的实现方式中，终端设备可以在获取用户跟读语音后，将用户跟读语音发送至语音对比服务器。语音对比服务器可以根据预设语音和用户跟读语音的发音感知相似的分析，确定用户跟读语音中每个发音片段的发音准确度，并将发音准确度满足预设规则的片段，确定为目标发音片段。

可选的，终端设备或语音对比服务器可以将用户跟读语音中，发音准确度小于预设阈值的片段，确定为目标发音片段。

可选的，终端设备或语音对比服务器还可以将用户跟读语音中，发音准确度最小的片段，确定为目标发音片段。

可选的，终端设备或语音对比服务器还可以将用户跟读语音中的每个发音片段的发音准确度从小到大进行排序，按照预设百分比确定目标发音片段，例如，将前百分之五十的发音准确度对应的发音片段确定为目标发音片段。

可以理解的是，判断发音是否准确与人的感知差距密切相关，因此并没有固定统一的判断标准。基于此，本实施例中判断发音是否准确时所采用的预设规则并不固定，用户可以根据需要灵活设置，对于目标发音片段的具体确定方式，在此不做限定。

S203、终端设备根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，发音纠正语音用于纠正用户跟读语音中的目标发音片段。

可以理解的是，目标发音片段可以是用户跟读语音中，发音不准确的发音片段，与之相对应的，预设语音中与目标发音片段对应的片段，可以是预设语音中与目标发音片段对应的发音准确的标准发音片段。

在一种可能的实现方式中，终端设备可以根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音。

在另一种可能的实现方式中，终端设备可以在获取用户跟读语音后，将用户跟读语音发送至语音对比服务器。语音对比服务器可以根据预设语音和用户跟读语音，确定用户跟读语音中每个发音片段的发音准确度，将发音准确度满足预设规则的片段，确定为目标发音片段，并将目标发音片段发送给语音合成服务器。语音合成服务器可以根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音。

可选的，终端设备或语音对比服务器可以将目标发音片段和预设语音中与目标发音片段对应的片段以对比的方式添加至预存的语音模板中，生成发音纠正语音。

可选的，终端设备或语音对比服务器还可以根据目标发音片段生成发音纠正语音。

可选的，端设备或语音对比服务器还可以根据预设语音中与目标发音片段对应的片段生成发音纠正语音。

可以理解的是，发音纠正语音可以用于纠正用户跟读语音中的目标发音片段，本实施例中的发音纠正语音生成方式可以是上述可选方式中的任一种，也可以是以上可选方式中任意两种的组合，还可以包括以上三种的全部，此处不做限制。

本实施例中，终端设备响应于用户跟读预设语音的语音输入，获取用户跟读语音，并根据预设语音和用户跟读语音的发音感知相似的分析，确定需要纠正的目标发音片段，且根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，从而纠正用户跟读语音中的目标发音片段。本实施例中生成的发音纠正语音，以对比的方式同时呈现目标发音片段和预设语音中与目标发音片段对应的片段，同时辅助以自然语言的引导，能够主动有效引导学习者对发音不准确的地方进行发音纠正，提升了发音纠正的效率。

可选的，在上述实施例的基础上，如图5所示，上述步骤S202，包括：

S301、终端设备对用户跟读语音进行预处理，得到目标语音。

可以理解的是，用户跟读语音为用户录入的原始跟读语音，其中可能包含的噪音以及用户的音色或语速等，均会对确定发音准确度带来干扰。

在一种可能的实现方式中，终端设备可以对用户跟读语音进行预处理，去除用户跟读语音中的噪音以及用户的音色或语速的干扰，得到目标语音。

在另一种可能的实现方式中，终端设备可以将用户跟读语音发送给语音对比服务器，语音对比服务器可以对用户跟读语音进行预处理，去除用户跟读语音中的噪音以及用户的音色或语速的干扰，得到目标语音。

S302、终端设备获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形。

可以理解的是，第一内容或第二内容可以为词语、词组和音节中的任意一项。

在一种可能的实现方式中，终端设备可以获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形。

在另一种可能的实现方式中，语音对比服务器在得到目标语音后，可以可以获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形。

可选的，终端设备或语音对比服务器可以通过语音识别技术，确定预设语音中每个第一内容的发音起始时间，以及目标语音中与每个第一内容对应的第二内容的发音起始时间，并根据第一内容的发音起始时间以及与每个第一内容对应的第二内容的发音起始时间，截取预设语音和目标语音的发音的波形，得到每个第一内容的发音的波形和与每个第一内容对应的第二内容的发音的波形。

可选的，终端设备或语音对比服务器还可以计算目标语音和预设语音的声音感知差距，并根据声音感知差距和预存的时间对齐算法，将目标语音的发音的波形和预设语音的发音的波形对齐，根据所述预设语音中预先标注的声音起始信息，例如，预设语音的发音的波形中每个音节、词语和词组的发音起始位置，分别截取对齐后的预设语音发音的波形和目标语音的发音的波形，得到每个第一内容的发音的波形和对应的第二内容的发音的波形，相较于上述语音识别的方式，本实施例基于声音感知差距和时间对齐算法，能够将目标语音的发音的波形和预设语音的发音的波形中，每个音节、词语和词组的发音起始位置精确对齐，提高了获取的第一内容的发音的波形和与每个第一内容对应的第二内容的发音的波形的准确度。

S303、终端设备根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度。

可以理解的是，感知相似度可以表示两个发音的波形的重合程度。第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度越高，该第二内容的发音准确度就越高。

在一种可能的实现方式中，终端设备可以根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度。

在另一种可能的实现方式中，语音对比服务器在获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形后，可以根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度。

S304、终端设备将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段。

可以理解的是，发音准确度越小，则第二内容的发音就越不准确，越需要进行纠正。

在一种可能的实现方式中，终端设备可以将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段。

在另一种可能的实现方式中，语音对比服务器可以在确定每个第二内容的发音准确度后，将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段。

本实施例中，终端设备对用户跟读语音进行预处理，得到目标语音，并获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形，根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度，将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段，从而精准地确定出目标语音中发音不准的音节、词语或词组，为生成对比性的发音纠正语音提供了关键的语音数据。

可选的，在上述实施例的基础上，目标发音片段为目标词语的发音片段，发音纠正语音包括第一纠正语音和第二纠正语音，如图6所示，上述步骤S203，包括：

S401、终端设备根据目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段，生成第一纠正语音，第一纠正语音用于纠正目标词语的发音。

可以理解的是，目标词语的发音片段可以是目标语音中发音不准确的词语对应的发音片段。

在一种可能的实现方式中，终端设备可以根据目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段，生成第一纠正语音，从而纠正目标词语的发音。

在另一种可能的实现方式中，语音对比服务器可以将对比识别出的目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段发送至语音合成服务器，语音合成服务器可以根据目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段，生成第一纠正语音，从而纠正目标词语的发音。

S402、终端设备确定目标词语的发音片段中的目标音节片段，目标音节片段为目标词语中发音准确度小于预设阈值的音节。

可以理解的是目标音节片段可以为目标词语中发音不准确的音节，目标词语中的音节对应的发音准确度越小，该音节的发音就越不准确。

在一种可能的实现方式中，终端设备可以确定目标词语的发音片段中，发音准确度小于预设阈值的目标音节片段，

在另一种可能的实现方式中，语音对比服务器可以在得到目标语音后，通过对比预设语音，确定目标语音中包括的目标词语的发音片段中，发音准确度小于预设阈值的目标音节片段。

S403、终端设备根据目标音节片段和预设语音中与目标音节片段对应的片段生成第二纠正语音，第二纠正语音用于纠正目标音节片段的发音。

在一种可能的实现方式中，终端设备可以根据目标音节片段和预设语音中目标音节片段对应的片段，生成第二纠正语音，从而纠正目标音节片段的发音。

在另一种可能的实现方式中，语音对比服务器可以将目标音节片段和预设语音中与目标音节片段对应的片段发送给语音合乘服务器，语音合成服务器可以根据目标音节片段和预设语音中与目标音节片段对应的片段，生成第二纠正语音，从而纠正目标音节片段的发音。

可选的，目标发音片段还可以是目标词组的发音片段，终端设备或语音合成服务器在生成第一纠正语音之前，还可以先根据目标词组的发音片段生成第三纠正语音，从而纠正目标词组的整体发音。

本实施例中，终端设备在目标发音片段是目标词语情况下，先生成目标词语的发音纠正语音，然后再进一步缩小发音纠正的范围，通过逐级的纠正用户跟读语音，进一步的提高了发音纠正的效率。

可选的，在上述实施例的基础上，如图7所示，发音纠正方法还包括：

S501、终端设备获取预设语音对应的目标内容。

可以理解的是，目标内容可以为预设语音对应的文本内容。

在一种可能的实现方式中，终端设备可以通过语音识别技术，获取预设语音对应的目标内容。

在另一种可能的实现方式中，终端设备可以根据预设语音与预设文本数据库中包括的文本内容的对应关系，获取预设语音对应的目标内容。

S502、终端设备根据每个第二内容的发音准确度，确定目标内容中与每个第二内容对应的内容的发音评价参数。

可以理解的是，发音评价参数用于表示发音准确度的高低，发音准确度越高，发音评价参数就越高。发音评价参数可以以得分来表示，也可以以等级来表示，在此不做限定。

在一种可能的实现方式中，终端设备可以根据每个第二内容的发音准确度，确定目标内容中与每个第二内容对应的内容的发音评价参数。

S503、终端设备采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用第二标记方式对发音评价参数小于或等于预设值的内容进行标记，第一标记方式与第二标记方式不同；显示标记后的目标内容，标记后的目标内容用于提示用户的用户跟读语音的发音准确度。

可以理解的是，第一标记方式用于标记目标内容中发音准确的内容，第二标记方式用于标记目标内容中发音不准确的内容。

在一种可能的实现方式中，终端设备可以采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用与第一标记方式不同的第二标记方式，对发音评价参数小于或等于预设值的内容进行标记，并显示标记后的目标内容，从而提示用户的用户跟读语音的发音准确度。

示例性地，终端设备可以在显示目标内容时，以不同的字体颜色或字体背景色，区别标记出目标内容中发音准确的内容和发音不准确的内容，还可以如图8所示，在目标内容中每个内容的关联位置，如右下角，显示标内容中每个内容的评价参数，从而区别标记出目标内容中发音准确的内容和发音不准确的内容。

本实施例中，终端设备以第一标记方式标记目标内容中发音准确的内容，以第二标记方式用于标记目标内容中发音不准确的内容，使得用户能够直观的了解自身对目标内容中每个内容的发音的掌握程度，提高了用户发音练习的体验度。

可选的，在上述实施例的基础上，终端设备可以根据目标内容中每个内容的发音评价参数，确定是否再次输出预设语音。

在一种可能的实现方式中，终端设备可以在目标内容的内容的发音评价参数的平均值小于预设参数的情况下，再次输出预设语音。

在另一种可能的实现方式中，终端设备可以在目标内容中发音评价参数小于预设参数的内容数量在目标内容的内容总数中的占比小于预设占比的情况下，再次输出预设语音。

在另一种可能的实现方式中，终端设备可以在目标内容的所有内容的发音评价参数的总和小于预设和值的情况下，再次输出预设语音。

示例性的，如图8所示，终端设备可以响应于用户在发音练习界面中的设置操作，在发音练习界面中显示目标成绩，并根据目标内容中每个内容的发音评价参数，计算出所有内容的发音评价参数的总和，显示在发音练习界面中的本次成绩中。终端设备还可以在本次成绩小于目标成绩的情况下，再次输出预设语音。

可以理解的是，确定是否再次输出预设语音的方式包括但不限于以上方式中任意一种或多种组合，在此不做限定。

本实施中，终端设备可以根据目标内容的内容的发音评价参数，确定是否再次输出预设语音，使得用户在基于预设语音进行发音练习的效果不理想时，可以重复聆听终端设备输出的预设语音，并再次进行跟读发音练习，提高了发音纠正的效率。

可选的，如图8所示，在上述实施例的基础上，发音练习界面中还包括跟读模式操作框，终端设备可以响应于用户对跟读模式操作框的操作，设置跟读模式以及预设语音的语速，例如，终端设备可以响应于用户在跟读模式操作框中选择智能模式的操作，使得终端设备进入逐句发音练习模式，在每次输出一个对话句子对应的预设语音后，即开始进行跟读语音的录取。又例如，终端设备可以响应于用户在跟读模式操作框中选择慢速的操作，放慢终端设备输出的预设语音的语速，以便用户更加清楚的聆听预设语音的正确发音。

可选的，如图8所示，在上述实施例的基础上，发音练习界面中还包括暂停跟读按钮，终端设备可以响应于用户对暂停跟读按钮的操作，在终端设备输出预设语音时，随时暂停预设语音，提升用户发音练习的自由度。

可选的，如图8所示，在上述实施例的基础上，发音练习界面中还包括播放反馈按钮，终端设备可以响应于用户对播放反馈按钮的操作，输出发音纠正语音。

可选的，如图8所示，在上述实施例的基础上，发音练习界面中还包括全文试听按钮，终端设备可以响应于用户对全文试听按钮的操作，输出包含多个对话句子的会话全文对应的预设语音。

可选的，如图8所示，在上述实施例的基础上，发音练习界面中还包括跟读全放按钮，终端设备可以响应于用户对跟读全放按钮的操作，输出会话全文对应的多个用户输入语音。

可选的，如图8所示，在上述实施例的基础上，发音练习界面中还包括翻译显示框，终端设备可以在输出预设语音后，在翻译显示框中显示该预设语音对应的翻译文本，以便用户理解预设语音的语义。图8中仅以中文翻译为例，此处对于翻译文本的语言类型不做限定。

上述主要从设备的角度对本发明实施例提供的方案进行了介绍。可以理解的是，设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图9示出了上述实施例中涉及的发音纠正装置的一种可能的组成示意图，如图9所示，该发音纠正装置可以包括：获取模块91、确定模块92和语音合成模块93。

获取模块91，用于响应于用户跟读预设语音的语音输入，获取用户跟读语音。

确定模块92，用于根据预设语音和用户跟读语音的发音感知相似的分析，确定目标发音片段，目标发音片段为用户跟读语音中，发音准确度满足预设规则的片段。

语音合成模块93，用于根据目标发音片段，以及预设语音中与目标发音片段对应的片段生成发音纠正语音，发音纠正语音用于纠正用户跟读语音中的目标发音片段。

可选的，确定模块92具体用于：对用户跟读语音进行预处理，得到目标语音；获取预设语音中每个第一内容的发音的波形和目标语音中与每个第一内容对应的第二内容的发音的波形；根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度；将发音准确度小于预设阈值的第二内容的发音确定为目标发音片段。

可选的，第一内容或第二内容为：词语、词组、音节中的任意一项。

可选的，确定模块92具体用于：计算目标语音和预设语音的声音感知差距；根据声音感知差距和预存的时间对齐算法，将目标语音的发音的波形和预设语音的发音的波形对齐；根据预设语音中预先标注的声音起始信息，截取对齐的预设语音和目标语音的发音的波形，得到每个第一内容的发音的波形和对应的第二内容的发音的波形。

可选的，目标发音片段为目标词语的发音片段，语音合成模块93具体用于：根据目标词语的发音片段和预设语音中与目标词语对应的词语的发音片段，生成第一纠正语音，第一纠正语音用于纠正目标词语的发音；确定目标词语的发音片段中的目标音节片段，目标音节片段为目标词语中发音准确度小于预设阈值的音节；根据目标音节片段和预设语音中与目标音节片段对应的片段生成第二纠正语音，第二纠正语音用于纠正目标音节片段的发音；发音纠正语音包括第一纠正语音和第二纠正语音。

可选的，语音合成模块93具体用于：将目标发音片段和预设语音中与目标发音片段对应的片段以对比的方式添加至预存的语音模板中，生成发音纠正语音；或者，根据目标发音片段生成发音纠正语音；或者，根据预设语音中与目标发音片段对应的片段生成发音纠正语音。

可选的，如图10所示，上述发音纠正装置还包括评价模块94和显示模块95，获取模块91还用于：获取预设语音对应的目标内容；确定模块92还用于，根据每个第二内容的发音准确度，确定目标内容中与每个第二内容对应的内容的发音评价参数；评价模块94用于，采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用第二标记方式对发音评价参数小于或等于预设值的内容进行标记，第一标记方式与第二标记方式不同；显示模块95用于，显示标记后的目标内容，标记后的目标内容用于提示用户的用户跟读语音的发音准确度。

可选的，如图11所示，上述发音纠正装置还包括输出模块96，输出模块96用于：在目标内容的所有内容的发音评价参数的平均值小于预设参数的情况下，再次输出预设语音；或者，在目标内容中发音评价参数小于预设参数的内容数量在目标内容的内容总数中的占比小于预设占比的情况下，再次输出预设语音；或者，在目标内容的所有内容的发音评价参数的总和小于预设和值的情况下，再次输出预设语音。

本发明实施例提供的发音纠正装置，用于执行上述发音纠正方法，因此可以达到与上述发音纠正方法相同的效果。

本发明提供一种计算机设备，该计算机设备包括：处理器和存储器。存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。当处理器执行计算机指令时，计算机设备执行上述方法实施例所示的发音纠正方法中的各个步骤。

本发明另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在计算机设备上运行时，使得计算机设备执行上述方法实施例所示的发音纠正方法中的各个步骤。

本发明另一实施例还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在计算机设备上运行时，使得计算机设备执行上述方法实施例所示的发音纠正方法中的各个步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种发音纠正方法，其特征在于，包括：

响应于用户跟读预设语音的语音输入，获取用户跟读语音；

根据所述预设语音和所述用户跟读语音的发音感知相似的分析，确定目标发音片段，所述目标发音片段为所述用户跟读语音中，发音准确度满足预设规则的片段；

根据所述目标发音片段，以及所述预设语音中与所述目标发音片段对应的片段生成发音纠正语音，所述发音纠正语音用于纠正所述用户跟读语音中的所述目标发音片段。

2.根据权利要求1所述的发音纠正方法，其特征在于，所述根据所述预设语音和所述用户跟读语音的发音感知相似的分析，确定目标发音片段，包括：

对所述用户跟读语音进行预处理，得到目标语音；

获取所述预设语音中每个第一内容的发音的波形和所述目标语音中与每个第一内容对应的第二内容的发音的波形；

根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知相似度，确定每个第二内容的发音准确度；

将发音准确度小于预设阈值的第二内容的发音确定为所述目标发音片段。

3.根据权利要求2所述的发音纠正方法，其特征在于，所述第一内容或所述第二内容为：词语、词组、音节中的任意一项。

4.根据权利要求2或3所述的发音纠正方法，其特征在于，所述获取所述预设语音中每个第一内容的发音的波形和所述目标语音中对应的第二内容的发音的波形，包括：

计算所述目标语音和所述预设语音的声音感知差距；

根据所述声音感知差距和预存的时间对齐算法，将所述目标语音的发音的波形和所述预设语音的发音的波形对齐；

根据所述预设语音中预先标注的声音起始信息，截取对齐的所述预设语音和所述目标语音的发音的波形，得到每个第一内容的发音的波形和对应的第二内容的发音的波形。

5.根据权利要求1-3中任一项所述的发音纠正方法，其特征在于，所述目标发音片段为目标词语的发音片段，所述根据所述目标发音片段，以及所述预设语音中与所述目标发音片段对应的片段生成发音纠正语音，包括：

根据所述目标词语的发音片段和所述预设语音中与所述目标词语对应的词语的发音片段，生成第一纠正语音，所述第一纠正语音用于纠正所述目标词语的发音；

确定所述目标词语的发音片段中的目标音节片段，所述目标音节片段为所述目标词语中发音准确度小于预设阈值的音节；

根据所述目标音节片段和所述预设语音中与所述目标音节片段对应的片段生成第二纠正语音，所述第二纠正语音用于纠正所述目标音节片段的发音；

所述发音纠正语音包括所述第一纠正语音和所述第二纠正语音。

6.根据权利要求1-3中任一项所述的发音纠正方法，其特征在于，所述根据所述目标发音片段，以及所述预设语音中与所述目标发音片段对应的片段生成发音纠正语音，包括：

将所述目标发音片段和所述预设语音中与所述目标发音片段对应的片段以对比的方式添加至预存的语音模板中，生成所述发音纠正语音；

或者，

根据所述目标发音片段生成所述发音纠正语音；

或者，

根据所述预设语音中与所述目标发音片段对应的片段生成所述发音纠正语音。

7.根据权利要求2或3所述的发音纠正方法，其特征在于，所述发音纠正方法还包括：

获取所述预设语音对应的目标内容；

根据每个第二内容的发音准确度，确定所述目标内容中与每个第二内容对应的内容的发音评价参数；

采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用第二标记方式对发音评价参数小于或等于所述预设值的内容进行标记，所述第一标记方式与所述第二标记方式不同；

显示标记后的目标内容，所述标记后的目标内容用于提示用户的所述用户跟读语音的发音准确度。

8.根据权利要求7所述的发音纠正方法，其特征在于，所述发音纠正方法还包括：

在所述目标内容的所有内容的发音评价参数的平均值小于预设参数的情况下，再次输出所述预设语音；

或者，

在所述目标内容中发音评价参数小于所述预设参数的内容数量在所述目标内容的内容总数中的占比小于预设占比的情况下，再次输出所述预设语音；

或者，

在所述目标内容的所有内容的发音评价参数的总和小于预设和值的情况下，再次输出所述预设语音。

9.一种发音纠正装置，其特征在于，包括：

确定模块，用于根据所述预设语音和所述用户跟读语音的发音感知相似的分析，确定目标发音片段，所述目标发音片段为所述用户跟读语音中，发音准确度满足预设规则的片段；

语音合成模块，用于根据所述目标发音片段，以及所述预设语音中与所述目标发音片段对应的片段生成发音纠正语音，所述发音纠正语音用于纠正所述用户跟读语音中的所述目标发音片段。

10.根据权利要求9所述的发音纠正装置，其特征在于，所述确定模块具体用于：

对所述用户跟读语音进行预处理，得到目标语音；

根据每个第二内容的发音的波形和对应的第一内容的发音的波形的感知感知相似度，确定每个第二内容的发音准确度；

11.根据权利要求10所述的发音纠正装置，其特征在于，所述第一内容或所述第二内容为：词语、词组、音节中的任意一项。

12.根据权利要求10或11所述的发音纠正装置，其特征在于，所述确定模块具体用于：

计算所述目标语音和所述预设语音的声音感知差距；

13.根据权利要求9-11中任一项所述的发音纠正装置，其特征在于，所述目标发音片段为目标词语的发音片段，所述语音合成模块具体用于：

14.根据权利要求9-11中任一项所述的发音纠正装置，其特征在于，所述语音合成模块具体用于：

或者，

根据所述目标发音片段生成所述发音纠正语音；

或者，

15.根据权利要求10或11所述的发音纠正装置，其特征在于，所述发音纠正装置还包括评价模块和显示模块；

所述获取模块，还用于获取所述预设语音对应的目标内容；

所述确定模块，还用于根据每个第二内容的发音准确度，确定所述目标内容中与每个第二内容对应的内容的发音评价参数；

所述评价模块，用于采用第一标记方式对发音评价参数大于预设值的内容进行标记，采用第二标记方式对发音评价参数小于或等于所述预设值的内容进行标记，所述第一标记方式与所述第二标记方式不同；

所述显示模块，用于显示标记后的目标内容，所述标记后的目标内容用于提示用户的所述用户跟读语音的发音准确度。

16.根据权利要求15所述的发音纠正装置，其特征在于，所述发音纠正装置还包括输出模块，所述输出模块用于：

或者，

17.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述处理器执行所述计算机指令时，所述计算机设备执行如权利要求1-8中任意一项所述的发音纠正方法。

18.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-8中任意一项所述的发音纠正方法。