CN111326177A

CN111326177A - 一种语音评测方法、电子设备及计算机可读存储介质

Info

Publication number: CN111326177A
Application number: CN202010084015.6A
Authority: CN
Inventors: 王磊; 苏少炜; 邱锋
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-23
Anticipated expiration: 2040-02-10
Also published as: CN111326177B

Abstract

本发明提供一种语音评测方法、电子设备及计算机可读存储介质，涉及语音处理技术领域，所述语音评测方法包括：获取用户针对测试文本的第一语音；对所述测试文本进行语音合成，得到第二语音；将所述第一语音和所述第二语音进行比对，得到对所述第一语音的评测结果。本发明实施例能够提高语音评测的效率。

Description

一种语音评测方法、电子设备及计算机可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音评测方法、电子设备及计算机可读存储介质。

背景技术

随着科技的发展，可以通过语音评测技术判断用户的发音是否标准，例如，评测用户的英语发音是否标准，或者，评测用户的普通话发音是否标准。现有技术中，在进行语音评测时，给用户提供一段文本，获取用户朗读该段文本的语音，将用户朗读该段文本的语音与标准音进行比较，对比两段语音的相似度进行评测，而标准音为专业人员事先录制好的对该段文本朗读的语音。

目前，在进行语音评测前，需要专业人员事先录制标准音，进行语音评测的效率较低。

发明内容

本发明实施例提供一种语音评测方法、电子设备及计算机可读存储介质，以解决现有技术中在进行语音评测前，需要专业人员事先录制标准音，进行语音评测的效率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音评测方法，所述方法包括：

获取用户针对测试文本的第一语音；

对所述测试文本进行语音合成，得到第二语音；

将所述第一语音和所述第二语音进行比对，得到对所述第一语音的评测结果。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

获取模块，用于获取用户针对测试文本的第一语音；

第一合成模块，用于对所述测试文本进行语音合成，得到第二语音；

第一比对模块，用于将所述第一语音和所述第二语音进行比对，得到对所述第一语音的评测结果。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的语音评测方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音评测方法的步骤。

本发明实施例中，获取用户针对测试文本的第一语音；对所述测试文本进行语音合成，得到第二语音；将所述第一语音和所述第二语音进行比对，得到对所述第一语音的评测结果。这样，采用对所述测试文本进行语音合成得到的语音进行语音评测，在进行语音评测前，不需要专业人员事先录制标准音，从而能够提高语音评测的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音评测方法的流程图；

图2是本发明实施例提供的一种电子设备的结构示意图之一；

图3是本发明实施例提供的一种电子设备的结构示意图之二；

图4是本发明实施例提供的一种电子设备的结构示意图之三；

图5是本发明实施例提供的一种电子设备的结构示意图之四；

图6是本发明实施例提供的一种电子设备的结构示意图之五；

图7是本发明实施例提供的一种电子设备的结构示意图之六。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本发明实施例提供的一种语音评测方法的流程图，如图1所示，包括以下步骤：

步骤101、获取用户针对测试文本的第一语音。

其中，所述测试文本可以是用于语音评测的文本，所述第一语音可以是用户朗读所述测试文本的文本内容得到的语音，可以通过麦克风获取用户针对测试文本的第一语音。

步骤102、对所述测试文本进行语音合成，得到第二语音。

其中，可以采用TTS(Text To Speech，从文本到语音)语音合成技术对所述测试文本进行语音合成，得到第二语音。

步骤103、将所述第一语音和所述第二语音进行比对，得到对所述第一语音的评测结果。

其中，可以计算所述第一语音和所述第二语音的相似度，可以基于所述第一语音和所述第二语音的相似度对所述第一语音进行评分，将对所述第一语音的评分作为对所述第一语音的评测结果；或者，可以基于所述第一语音和所述第二语音的相似度对所述第一语音进行评级，将对所述第一语音的评级作为对所述第一语音的评测结果，对所述第一语音的评级可以包括优秀、良好、一般等等。可以采用simhash算法来进行相似度计算。

在实际应用中，以将对所述第一语音的评分作为对所述第一语音的评测结果为例，对所述第一语音的评分可以与所述第一语音和所述第二语音的相似度呈正相关，例如，所述第一语音和所述第二语音的相似度高于第一预设值，则对所述第一语音的评分可以为第一分值；所述第一语音和所述第二语音的相似度高于第二预设值且低于第一预设值，则对所述第一语音的评分可以为第二分值，所述第一预设值大于所述第二预设值，所述第一分值大于所述第二分值。

可选的，所述获取用户针对测试文本的第一语音之后，所述方法还包括：

确定所述测试文本是否包括目标文本；

在所述测试文本包括所述目标文本的情况下，对所述第一语音进行语音识别，得到第一文本；

将所述第一文本与所述测试文本进行比对，得到比对结果；

基于所述比对结果修正所述评测结果，得到修正后的评测结果。

其中，可以采用ASR(Automatic Speech Recognition，自动语音识别)技术对所述第一语音进行语音识别，得到第一文本。在实际应用中，测试文本中可能会包括目标文本，所述目标文本可以为在不同的语境下具有至少两种不同含义的文本，在语音合成过程中，所述目标文本可以为具有至少两种读音的文本，具体地，所述目标文本还可以为这样一种文本，所述文本至少出现在一句话中的两处且出现在每一处时所表示的意思不同。因此，目标文本可以为语音合成过程中的易错文本，目标文本会影响对所述第一语音的评测结果。由于语言的多解性，同样的文本可能被理解出不同的意思，从而会导致目标文本对应不同的语音，会影响对所述第一语音的评测结果。例如，测试文本可以为“我花了120住进了120房间”，目标文本可以为120，在该测试文本中前一个120为一百二十块，后一个120应为幺二零号，在语音合成过程中容易产生错误。目标文本导致的语音错误可以通过文本匹配来进行修正。目标文本可以为数字，读音易出错的字或者容易导致断句有误的字等等。

另外，所述将所述第一文本与所述测试文本进行比对，得到比对结果，可以是，将所述第一文本中的文本内容与所述测试文本中的文本内容进行比对，确定所述第一文本与所述测试文本中不匹配的内容，可以基于所述不匹配的文本内容对第一文本进行评分，可以将对第一文本的评分作为比对结果。对所述第一文本的评分可以与所述不匹配的文本内容的内容量呈负相关，例如，不匹配的文本内容包括0个字，则对所述第一文本的评分可以为100分；不匹配的文本内容包括5个字，则对所述第一文本的评分可以为90分；不匹配的文本内容包括10个字，则对所述第一文本的评分可以为80分。

或者，所述对所述测试文本进行语音合成，得到第二语音，可以包括：对所述测试文本进行分句处理，基于分句处理后的测试文本获取第二语音；所述将所述第一文本与所述测试文本进行比对，可以包括：对所述第一文本进行分句处理，确定所述测试文本中所述目标文本所在的分句，得到第一分句，确定所述第一文本中与所述第一分句对应的第二分句，若所述第一分句与所述第二分句匹配，则所述比对结果为第一评分，若所述第一分句与所述第二分句不匹配，则所述比对结果为第二评分，所述第一评分高于所述第二评分。

进一步的，所述确定所述测试文本是否包括目标文本，可以包括：将所述测试文本与第一测试集中的正则表达式进行匹配，确定所述测试文本中是否包括所述目标文本；或者，将所述测试文本与第二测试集中的文本进行匹配，确定所述测试文本中是否包括所述目标文本；或者，所述目标文本可以为某一类型的文本，例如，所述目标文本为数字。本发明实施例对确定所述测试文本是否包括目标文本的具体方式不进行限定。

需要说明的是，所述基于所述比对结果修正所述评测结果，得到修正后的评测结果，可以是，将所述比对结果与所述评述结果进行加权平均，得到修正后的评测结果，加权系数可以预先设置。例如，所述第一语音的评测结果可以为80分，所述比对结果可以为90分，所述第一语音的评测结果的加权系数可以为0.8，所述比对结果的加权系数可以为0.2，则修正后的评测结果可以为：80*0.8+90*0.2＝82分。在所述测试文本不包括所述目标文本的情况下，可以不对所述评测结果进行修正。

该实施方式中，确定所述测试文本是否包括目标文本；在所述测试文本包括所述目标文本的情况下，对所述第一语音进行语音识别，得到第一文本；将所述第一文本与所述测试文本进行比对，得到比对结果；基于所述比对结果修正所述评测结果，得到修正后的评测结果。这样，基于目标文本对评测结果进行修正，能够提高语音评测的准确性。

可选的，所述对所述测试文本进行语音合成，得到第二语音，包括：

对所述测试文本进行分句处理；

基于分句处理后的测试文本获取第二语音；

所述将所述第一文本与所述测试文本进行比对，包括：

对所述第一文本进行分句处理；

确定所述测试文本中所述目标文本所在的分句，得到第一分句；

确定所述第一文本中与所述第一分句对应的第二分句；

若所述第一分句与所述第二分句匹配，则所述比对结果为第一评分；

若所述第一分句与所述第二分句不匹配，则所述比对结果为第二评分，所述第一评分高于所述第二评分。

其中，可以获取分句处理后的测试文本中的每个分句的语音，将每个分句的语音进行拼接得到第二语音。所述第一分句与所述第二分句匹配，可以是所述第一分句中的文本内容与所述第二分句中的文本内容相同，所述第一评分可以为100分，或者可以为95分，或者可以为90分等等。所述第一分句与所述第二分句不匹配，可以是所述第一分句中的文本内容与所述第二分句中的文本内容部分不同或者全部不同。所述第二评分可以为预设值，例如，60分；或者，所述第二评分可以与所述第一分句与所述第二分句不匹配的程度相关，例如，若第一分句与第二分句有3个字不同，则第二评分可以为70分；若第一分句与第二分句有5个字不同，则第二评分可以为50分。

该实施方式中，分别对所述测试文本和第一文本进行分句处理，确定所述测试文本中所述目标文本所在的分句，得到第一分句；确定所述第一文本中与所述第一分句对应的第二分句；若所述第一分句与所述第二分句匹配，则所述比对结果为第一评分；若所述第一分句与所述第二分句不匹配，则所述比对结果为第二评分，所述第一评分高于所述第二评分。这样，不必将整个测试文本和第一文本进行对比，提高了语音评测的效率，从而用户可以更快地获得语音评测结果，用户体验较好。

可选的，所述确定所述测试文本是否包括目标文本，包括：

将所述测试文本与第一测试集中的正则表达式进行匹配，确定所述测试文本中是否包括所述目标文本；或者

将所述测试文本与第二测试集中的文本进行匹配，确定所述测试文本中是否包括所述目标文本。

其中，第一测试集中的正则表达式可以用于搜索目标文本，确定所述测试文本中是否包括所述目标文本。例如，若目标文本为数字，则所述第一测试集中可以包括用于搜索数字的正则表达式。所述第二测试集中的文本可以包括目标文本，可以将易错文本添加至所述第二测试集中，通过第二测试集可以确定所述测试文本中是否包括易错文本。

该实施方式中，将所述测试文本与第一测试集中的正则表达式进行匹配，确定所述测试文本中是否包括所述目标文本，这样，通过第一测试集中的正则表达式可以快速地确定所述测试文本中是否包括易错文本；将所述测试文本与第二测试集中的文本进行匹配，确定所述测试文本中是否包括所述目标文本，这样，通过第二测试集，可以快捷地收集易错文本。

可选的，所述方法还包括：

接收输入的正则表达式；

将所述输入的正则表达式添加至所述第一测试集中。

其中，本发明实施例的语音评测方法可以应用于电子设备，用户可以在电子设备的显示界面输入正则表达式，从而对第一测试集进行补充。

该实施方式中，接收输入的正则表达式；将所述输入的正则表达式添加至所述第一测试集中。这样，对于不同的语音评测场景，可以添加与语音评测场景对应的正则表达式，而且，用户在进行语音评测时，可以根据自身的使用情况补充第一测试集，从而能够优化语音评测效果。

可选的，所述方法还包括：

对第二文本进行语音合成，得到第三语音；

计算所述第三语音与预设语音的相似度，所述预设语音为所述第二文本对应的标准语音；

若所述相似度低于预设值，则显示所述第二文本；

接收输入的文本，将所述输入的文本添加至所述第二测试集中，所述输入的文本为所述第二文本中的部分或全部文本。

其中，所述第二文本可以为预先设置的文本。所述预设语音可以是专业人员事先录制好的对第二文本朗读的语音。可以采用simhash算法计算所述第三语音与预设语音的相似度，或者，还可以采用其他算法计算相似度。若所述相似度低于预设值，则表示第二文本中可能包括易错文本。可以在电子设备的显示界面显示所述第二文本，用户可以从第二文本中挑选出易错文本，并将易错文本输入所述电子设备的显示界面，电子设备可以将所述输入的文本添加至所述第二测试集中，从而可以补充第二测试集。

该实施方式中，对第二文本进行语音合成，得到第三语音；计算所述第三语音与预设语音的相似度，所述预设语音为所述第二文本对应的标准语音；若所述相似度低于预设值，则显示所述第二文本；接收输入的文本，将所述输入的文本添加至所述第二测试集中，所述输入的文本为所述第二文本中的部分或全部文本。这样，可以根据标准语音对合成语音进行测试，根据测试结果对第二测试集进行补充，从而能够优化语音评测效果。

可选的，所述方法还包括：

若存在预设数量的用户针对目标分句对应的第一子语音和对应的第二子语音的比对结果满足预设条件，则将所述目标分句添加至所述第二测试集中；

其中，所述目标分句为第三文本中的任一分句，所述第一子语音为用户针对所述目标分句的语音，所述第二子语音为对所述目标分句进行语音合成得到的语音。

其中，所述预设数量可以为1000个，或，10000个等等，可以通过大量的用户评测结果对第二测试集进行补充。所述第三文本可以为预先设置的文本。针对目标分句对应的第一子语音和对应的第二子语音的比对结果满足预设条件，可以是，第一子语音和第二子语音的相似度低于预设相似度。若大量的用户在语音评测的过程中，第一子语音和第二子语音的相似度均低于预设相似度，可以认为目标分句为易错文本。

该实施方式中，若存在预设数量的用户针对目标分句对应的第一子语音和对应的第二子语音的比对结果满足预设条件，则将所述目标分句添加至所述第二测试集中。这样，根据大量用户进行语音评测的结果补充第二测试集，从而能够优化语音评测效果。

参见图2，图2是本发明实施例提供的一种电子设备的结构示意图，如图2所示，所述电子设备200包括：

获取模块201，用于获取用户针对测试文本的第一语音；

第一合成模块202，用于对所述测试文本进行语音合成，得到第二语音；

第一比对模块203，用于将所述第一语音和所述第二语音进行比对，得到对所述第一语音的评测结果。

可选的，如图3所示，所述电子设备200还包括：

确定模块204，用于确定所述测试文本是否包括目标文本；

识别模块205，用于在所述测试文本包括所述目标文本的情况下，对所述第一语音进行语音识别，得到第一文本；

第二比对模块206，用于将所述第一文本与所述测试文本进行比对，得到比对结果；

修正模块207，用于基于所述比对结果修正所述评测结果，得到修正后的评测结果。

可选的，所述第一合成模块202具体用于：

对所述测试文本进行分句处理；

基于分句处理后的测试文本获取第二语音；

所述第二比对模块206具体用于：

对所述第一文本进行分句处理；

确定所述第一文本中与所述第一分句对应的第二分句；

可选的，所述确定模块204具体用于：

可选的，如图4所示，所述电子设备200还包括：

接收模块208，用于接收输入的正则表达式；

第一添加模块209，用于将所述输入的正则表达式添加至所述第一测试集中。

可选的，如图5所示，所述电子设备200还包括：

第二合成模块210，用于对第二文本进行语音合成，得到第三语音；

计算模块211，用于计算所述第三语音与预设语音的相似度，所述预设语音为所述第二文本对应的标准语音；

显示模块212，用于若所述相似度低于预设值，则显示所述第二文本；

第二添加模块213，用于接收输入的文本，将所述输入的文本添加至所述第二测试集中，所述输入的文本为所述第二文本中的部分或全部文本。

可选的，如图6所示，所述电子设备200还包括：

第三添加模块214，用于若存在预设数量的用户针对目标分句对应的第一子语音和对应的第二子语音的比对结果满足预设条件，则将所述目标分句添加至所述第二测试集中；

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图7，图7是本发明实施例提供的另一种电子设备的结构示意图，如图7所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

获取用户针对测试文本的第一语音；

对所述测试文本进行语音合成，得到第二语音；

可选的，所述处理器301还用于执行：

确定所述测试文本是否包括目标文本；

将所述第一文本与所述测试文本进行比对，得到比对结果；

可选的，所述处理器301用于执行的所述对所述测试文本进行语音合成，得到第二语音，包括：

对所述测试文本进行分句处理；

基于分句处理后的测试文本获取第二语音；

所述处理器301用于执行的所述将所述第一文本与所述测试文本进行比对，包括：

对所述第一文本进行分句处理；

确定所述第一文本中与所述第一分句对应的第二分句；

可选的，所述处理器301用于执行的所述确定所述测试文本是否包括目标文本，包括：

可选的，所述处理器301还用于执行：

接收输入的正则表达式；

将所述输入的正则表达式添加至所述第一测试集中。

可选的，所述处理器301还用于执行：

对第二文本进行语音合成，得到第三语音；

若所述相似度低于预设值，则显示所述第二文本；

可选的，所述处理器301还用于执行：

在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本发明实施例中图1所示的方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音评测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音评测方法，其特征在于，所述方法包括：

获取用户针对测试文本的第一语音；

对所述测试文本进行语音合成，得到第二语音；

2.根据权利要求1所述的方法，其特征在于，所述获取用户针对测试文本的第一语音之后，所述方法还包括：

确定所述测试文本是否包括目标文本；

将所述第一文本与所述测试文本进行比对，得到比对结果；

3.根据权利要求2所述的方法，其特征在于，所述对所述测试文本进行语音合成，得到第二语音，包括：

对所述测试文本进行分句处理；

基于分句处理后的测试文本获取第二语音；

所述将所述第一文本与所述测试文本进行比对，包括：

对所述第一文本进行分句处理；

确定所述第一文本中与所述第一分句对应的第二分句；

4.根据权利要求2所述的方法，其特征在于，所述确定所述测试文本是否包括目标文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

接收输入的正则表达式；

将所述输入的正则表达式添加至所述第一测试集中。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对第二文本进行语音合成，得到第三语音；

若所述相似度低于预设值，则显示所述第二文本；

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.一种电子设备，其特征在于，所述电子设备包括：

获取模块，用于获取用户针对测试文本的第一语音；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音评测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音评测方法的步骤。