CN110930988B

CN110930988B - 一种音素评分的确定方法及系统

Info

Publication number: CN110930988B
Application number: CN201911284482.7A
Authority: CN
Inventors: 邱威
Original assignee: Guangzhou Sanxing Yibai Education Technology Co ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-10-20
Anticipated expiration: 2039-12-13
Also published as: CN110930988A

Abstract

本发明提供了一种音素评分的确定方法及系统，该方法为：获取待识别音频和待识别音频对应的标定文本；对待识别音频进行语音识别，获取识别音素和识别音素对应的第一GOP评分；确定第一GOP评分是否大于等于识别音素对应的阈值评分，每一音素对应设置有一个阈值评分；若第一GOP评分小于阈值评分，判断识别音素是否为目标音素的竞争音素；基于判断结果，输出最终GOP评分。本方案中，预先为每一音素设置对应的阈值评分，比较识别音素对应的第一GOP评分和阈值评分，若第一GOP评分小于阈值评分，判断识别音素是否为目标音素的竞争音素。根据判断结果确定最终GOP评分，提高音素评分的准确性。

Description

一种音素评分的确定方法及系统

技术领域

本发明涉及语音评测技术领域，具体涉及一种音素评分的确定方法及系统。

背景技术

随着社会的发展，目前越来越多人在学习多门语言。在学习语言时，人们通常借助语言学习软件辅助学习，例如通过语言学习软件为自己的发音打分，并根据打分结果纠正发音。

目前的语言学习软件在为用户的发音进行打分时，通常是利用Goodness ofpronunciation(GOP)进行评分。具体评分方式为：预先为所有音素都设置同一个阈值，用户在使用语言学习软件时，利用GOP算法计算目标音素的GOP评分，比较GOP评分和阈值确定用户是否发音准确。但是由于很多用户的发音不标准且无序，同时不同的音素对应不同的隐马尔科夫模型(HMMs)分数。为所有音素都设置同一个阈值，无法准确判断用户的发音是否标准，音素评分准确性较低。

发明内容

有鉴于此，本发明实施例提供一种音素评分的确定方法及系统，以解决现有音素评分方式存在的音素评分准确性较低等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种音素评分的确定方法，所述方法包括：

获取待识别音频和所述待识别音频对应的标定文本，所述标定文本至少包含目标音素；

对所述待识别音频进行语音识别，获取识别音素和所述识别音素对应的第一GOP评分；

确定所述第一GOP评分是否大于等于所述识别音素对应的阈值评分，每一音素对应设置有一个阈值评分；

若所述第一GOP评分小于所述阈值评分，判断所述识别音素是否为所述目标音素的竞争音素；

基于判断结果，输出最终GOP评分。

优选的，所述基于所述判断结果，输出最终GOP评分，包括：

若判断结果为所述识别音素不是所述目标音素的竞争音素，确定所述第一GOP评分为最终GOP评分；

若所述判断结果为所述识别音素是所述目标音素的竞争音素，确定所述目标音素对应的预设第二GOP评分为最终GOP评分。

优选的，为每一音素设置阈值评分的过程，包括：

针对每一音素，获取所述音素对应的多个历史GOP评分；

计算所述音素的多个历史GOP评分的平均值和方差；

根据所述平均值和所述方差，确定所述音素的阈值评分。

优选的，所述判断所述识别音素是否为所述目标音素的竞争音素，包括：

基于所述识别音素和所述目标音素查找竞争音素表，判断所述识别音素是否为所述目标音素的竞争音素，所述竞争音素表为预先基于音素的发音相似度构建，所述竞争音素表至少包含所述目标音素和对应的竞争音素。

优选的，还包括：

若所述第一GOP评分大于等于所述阈值评分，确定所述第一GOP评分为最终GOP评分。

本发明实施例第二方面公开一种音素评分的确定系统，所述系统包括：

获取单元，用于获取待识别音频和所述待识别音频对应的标定文本，所述标定文本至少包含目标音素；

识别单元，用于对所述待识别音频进行语音识别，获取识别音素和所述识别音素对应的第一GOP评分；

确定单元，用于确定所述第一GOP评分是否大于等于所述识别音素对应的阈值评分，每一音素对应设置有一个阈值评分，若所述第一GOP评分小于所述阈值评分，执行判断单元；

所述判断单元，用于判断所述识别音素是否为所述目标音素的竞争音素；

输出单元，用于基于判断结果，输出最终GOP评分。

优选的，所述输出单元具体用于：若判断结果为所述识别音素不是所述目标音素的竞争音素，确定所述第一GOP评分为最终GOP评分，若所述判断结果为所述识别音素是所述目标音素的竞争音素，确定所述目标音素对应的预设第二GOP评分为最终GOP评分。

优选的，所述判断单元具体用于：基于所述识别音素和所述目标音素查找竞争音素表，判断所述识别音素是否为所述目标音素的竞争音素，所述竞争音素表为预先基于音素的发音相似度构建，所述竞争音素表至少包含所述目标音素和对应的竞争音素。

本发明实施例第三方面公开一种电子设备，所述电子设备用于运行程序，其中，所述程序运行时执行如本发明实施例第一方面公开的音素评分的确定方法。

本发明实施例第四方面公开一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本发明实施例第一方面公开的音素评分的确定方法。

基于上述本发明实施例提供的一种音素评分的确定方法及系统，该方法为：获取待识别音频和待识别音频对应的标定文本；对待识别音频进行语音识别，获取识别音素和识别音素对应的第一GOP评分；确定第一GOP评分是否大于等于识别音素对应的阈值评分，每一音素对应设置有一个阈值评分；若第一GOP评分小于阈值评分，判断识别音素是否为目标音素的竞争音素；基于判断结果，输出最终GOP评分。本方案中，预先为每一音素设置对应的阈值评分，对待识别音频进行语音识别得到识别音素和第一GOP评分。若第一GOP评分小于识别音素对应的阈值评分，判断识别音素是否为目标音素的竞争音素，基于判断结果输出最终GOP评分。通过比较第一GOP评分和识别音素对应的阈值评分，以及判断识别音素是否为目标音素的竞争音素，从而确定最终GOP评分，提高音素评分的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种音素评分的确定方法的流程图；

图2为本发明实施例提供的设置阈值评分的流程图；

图3为本发明实施例提供的另一种音素评分的确定方法的流程图；

图4为本发明实施例提供的一种音素评分的确定系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前的音素评分方式为：预先为所有音素都设置同一个阈值，利用GOP算法计算目标音素的GOP评分，比较GOP评分和阈值确定用户是否发音准确。但是，由于很多用户的发音不标准且无序，同时不同的音素对应不同的HMMs分数。为所有音素都设置同一个阈值，无法准确判断用户的发音是否标准，音素评分准确性较低。

因此，本发明实施例提供一种音素评分的确定方法及系统，预先为每一音素设置对应的阈值评分，比较识别音素的第一GOP评分和阈值评分，若第一GOP评分小于阈值评分，判断识别音素是否为目标音素的竞争音素。根据判断结果确定最终GOP评分，以提高音素评分的准确性。

参见图1，示出了本发明实施例提供的一种音素评分的确定方法的流程图，该确定方法包括以下步骤：

步骤S101：获取待识别音频和待识别音频对应的标定文本。

在具体实现步骤S101的过程中，标定文本中包含目标音素，可以理解的是，目标音素指的是：用户在学习语言的过程中被读的音素。

例如：用户在学习英语时，学习软件向用户展示音素

，即用户需要朗读该音素。用户朗读的语音即为待识别音频，目标音素为被用户朗读的音素

。

需要说明的是，上述示例中为用户仅朗读一个音素，英文单词由一个以上音素构成，用户在实际学习英语的过程中会朗读一个英语单词或者朗读多个英语单词。将用户所朗读的内容拆分为单个音素，目标音素即为构成被读的英语单词的音素，结合用户对每个音素的发音，为用户的发音进行评分。

进一步需要说明的是，用户所学习的语言不仅局限于英语，本发明实施例中所涉及的确定音素评分的内容也同样适用于其它语言。

步骤S102：对待识别音频进行语音识别，获取识别音素和识别音素对应的第一GOP评分。

在具体实现步骤S102的过程中，对待识别音频中的内容进行语音识别，识别待识别音频中的音素，得到识别音素和该识别音素对应的第一GOP评分。

步骤S103：确定第一GOP评分是否大于等于识别音素对应的阈值评分。若第一GOP评分大于等于阈值评分，执行步骤S104，若第一GOP评分小于阈值评分，执行步骤S105。

预先为每一音素对应设置一个阈值评分，也就是说，识别音素存在自身对应的阈值评分。在具体实现步骤S103的过程中，比较识别音素的第一GOP评分和阈值评分。若第一GOP评分大于等于阈值评分，则确定第一GOP评分为最终GOP评分。若第一GOP评分小于阈值评分，判断识别音素是否为目标音素的竞争音素。

需要说明的是，第一GOP评分大于或等于阈值评分时，存在以下两种情况：

第一种情况为：识别音素与目标音素一致，即识别待识别音频得到的识别音素与标定文本中的目标音素一致，表明用户的发音标准且准确，确定第一GOP评分为最终GOP评分。

第二种情况为：识别音素与目标音素不一致，即识别待识别音频得到的识别音素不是标定文本中的目标音素，也就是说用户的发音不准确，将目标音素读成其它音素。但是由于第一GOP评分大于或等于识别音素对应的阈值评分，表明用户的发音标准，确定第一GOP评分为最终GOP评分。

步骤S104：确定第一GOP评分为最终GOP评分。

步骤S105：判断识别音素是否为目标音素的竞争音素。

需要说明的是，不同区域的用户在学习语言时有不同的发音特点，预先收集预设区域内大量用户在学习语言时的发音数据，对收集得到的发音数据进行分析，确定该语言对应的音素之间的发音相似度，基于音素的发音相似度构建竞争音素表。也就是说，根据预设区域内用户对不同音素的发音特点，确定音素之间的发音相似度，从而使构建得到的竞争音素表更加贴近该预设区域的用户的实际使用情况。

例如：收集大量中国用户在学习英语时的发音数据，对大量的发音数据进行分析，统计中国用户对英语中48个音素的发音相似度，从而构建竞争音素表。使构建得到的竞争音素表更加贴近中国用户的实际使用情况。

在具体实现步骤S105的过程中，基于识别音素和目标音素查找竞争音素表，判断识别音素是否为目标音素的竞争音素，竞争音素表至少包含目标音素和对应的竞争音素。

需要说明的是，竞争音素表中包含每个音素和与其对应的竞争音素，为更好解释说明竞争音素表的内容，通过以下内容进行举例说明。

分析大量中国用户对英语中48个音素的发音特点，根据分析结果构建竞争音素表，以下内容为竞争音素表的部分内容，相应的，以下竞争音素表的部分内容仅用于举例说明。

竞争音素表:

aa＝aa|ah|er|ao，即表明音素“aa”的竞争音素分别为：“aa”、“ah”、“er”和“ao”。竞争音素表的其它内容可参见，在此不再进行赘述。

需说明的是，将竞争音素表存储至指定文件中，例如：将竞争音素表存储至neighbors.config文件中。

步骤S106：基于判断结果，输出最终GOP评分。

在具体实现步骤S106的过程中，判断结果为识别音素不是目标音素的竞争音素，或者，判断结果为识别音素是目标音素的竞争音素。

若判断结果为识别音素不是目标音素的竞争音素，确定第一GOP评分为最终GOP评分。

若判断结果为识别音素是目标音素的竞争音素，确定目标音素对应的预设第二GOP评分为最终GOP评分。需要说明的是，预先为该目标音素设置相应的第二GOP评分。

在本发明实施例中，预先构建竞争音素表和为每一音素设置对应的阈值评分。对待识别音频进行语音识别得到识别音素和第一GOP评分。若第一GOP评分小于识别音素对应的阈值评分，利用竞争音素表判断识别音素是否为目标音素的竞争音素，基于判断结果输出最终GOP评分，提高音素评分的准确性。

上述本发明实施例图1步骤S103中涉及的为每一音素对应设置一个阈值评分的过程，参见图2，示出了本发明实施例提供的设置阈值评分的流程图，包括以下步骤：

步骤S201：针对每一音素，获取音素对应的多个历史GOP评分。

在具体实现步骤S201的过程中，针对每一个音素，收集大量该音素对应的历史GOP评分。也就是说，需要根据每个音素的大量历史GOP评分确定该音素的阈值评分，即每一个音素都存在各自对应的阈值评分，而不是所有音素共用一个阈值评分。

步骤S202：计算音素的多个历史GOP评分的平均值和方差。

在具体实现步骤S202的过程中，针对每一个音素，计算收集得到的该音素的多个历史GOP评分的平均值和方差。

步骤S203：根据平均值和方差，确定音素的阈值评分。

在具体实现中，针对每一个音素，利用在步骤S202中计算得到的该音素对应的平均值和方差，通过公式(1)计算该音素的阈值评分T_q。

T_q＝u_q+aσ_q+β (1)

在公式(1)中，q指代每个音素，u_q为平均值，σ_q为方差，a和β为预设系数，例如：0.8＜a＜1.3，-1.0＜β＜-2.0。

在本发明实施例中，预先收集每个音素的多个历史GOP评分，利用每个音素对应的多个历史GOP评分确定该音素的阈值评分，使得到的阈值评分更适用于与之对应的音素。每个音素对应一个阈值评分，而不是所有音素共用一个阈值评分，提高音素评分的准确性。

为更好解释说明上述本发明实施例图1示出的内容，通过图3进行举例说明，需要说明的是，图3仅用于举例说明。

参见图3，示出了本发明实施例提供的另一种音素评分的确定方法的流程图，包括以下步骤：

步骤S301：获取待识别音频和标定文本。

在具体实现步骤S301的过程中，待识别音频和标定文本的具体内容可参见上述本发明实施例图1步骤S101中示出的内容。

步骤S302：对待识别音频进行语音识别，获取识别音素和识别音素对应的第一GOP评分。

在具体实现步骤S302的过程中，对待识别音频进行语音识别，确定待识别音频中识别概率最大的音素为识别音素。

步骤S303：判断第一GOP评分是否大于等于识别音素的阈值评分。若第一GOP评分大于等于识别音素的阈值评分，执行步骤S304，若第一GOP评分小于识别音素的阈值评分，执行步骤S305。

在具体实现步骤S303的过程中，每个音素的阈值评分的设置过程，参见上述本发明实施例图2中的内容。

步骤S304：确定第一GOP评分为最终GOP评分。

步骤S305：判断识别音素是否为目标音素的竞争音素。若识别音素为目标音素的竞争音素，执行步骤S306，若识别音素不是目标音素的竞争音素，执行步骤S307。

在具体实现步骤S305的过程中，判断识别音素是否为目标音素的竞争音素的过程，参见上述本发明实施例图1步骤S105中的内容。

步骤S306：确定目标音素对应的第二GOP评分为最终GOP评分。

步骤S307：确定第一GOP评分为最终GOP评分。

与上述本发明实施例提供的一种音素评分的确定方法相对应，参见图4，本发明实施例还提供一种音素评分的确定系统的结构框图，该确定系统包括：获取单元401、识别单元402、确定单元403、判断单元404和输出单元405。

获取单元401，用于获取待识别音频和待识别音频对应的标定文本，标定文本至少包含目标音素。

识别单元402，用于对待识别音频进行语音识别，获取识别音素和识别音素对应的第一GOP评分。

确定单元403，用于确定第一GOP评分是否大于等于识别音素对应的阈值评分，每一音素对应设置有一个阈值评分，若第一GOP评分小于阈值评分，执行判断单元404。

优选的，若第一GOP评分大于等于阈值评分，确定单元403还用于：确定第一GOP评分为最终GOP评分。

判断单元404，用于判断识别音素是否为目标音素的竞争音素。

在具体实现中，判断单元404具体用于：基于识别音素和目标音素查找竞争音素表，判断识别音素是否为目标音素的竞争音素，竞争音素表为预先基于音素的发音相似度构建，竞争音素表至少包含目标音素和对应的竞争音素。

输出单元405，用于基于判断结果，输出最终GOP评分。

在具体实现中，输出单元405具体用于：若判断结果为识别音素不是目标音素的竞争音素，确定第一GOP评分为最终GOP评分，若判断结果为识别音素是目标音素的竞争音素，确定目标音素对应的预设第二GOP评分为最终GOP评分。

优选的，结合图4示出的内容，确定单元403包括：获取模块、计算模块和确定模块，各个模块的执行原理如下：

获取模块，用于针对每一音素，获取音素对应的多个历史GOP评分。

计算模块，用于计算音素的多个历史GOP评分的平均值和方差。

确定模块，用于根据平均值和方差，确定音素的阈值评分。

基于上述本发明实施例公开的一种音素评分的确定系统，上述各个模块可以通过一种由处理器和存储器构成的电子设备实现。具体为：上述各个模块作为程序单元存储于存储器中，由处理器执行存储在存储器中的上述程序单元来实现音素评分。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现音素评分。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

进一步的，本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行音素评分的确定方法。

进一步的，本发明实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上任一实施例中示出的音素评分的确定方法。

本发明实施例中公开的设备可以是PC、PAD、手机等。

进一步的，本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现音素评分。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如上任一实施例中示出的音素评分的确定方法。

综上所述，本发明实施例提供一种音素评分的确定方法及系统，该方法为：获取待识别音频和待识别音频对应的标定文本；对待识别音频进行语音识别，获取识别音素和识别音素对应的第一GOP评分；确定第一GOP评分是否大于等于识别音素对应的阈值评分，每一音素对应设置有一个阈值评分；若第一GOP评分小于阈值评分，判断识别音素是否为目标音素的竞争音素；基于判断结果，输出最终GOP评分。本方案中，预先为每一音素设置对应的阈值评分，对待识别音频进行语音识别得到识别音素和第一GOP评分。若第一GOP评分小于识别音素对应的阈值评分，判断识别音素是否为目标音素的竞争音素，基于判断结果输出最终GOP评分。通过比较第一GOP评分和识别音素对应的阈值评分，以及判断识别音素是否为目标音素的竞争音素，从而确定最终GOP评分，提高音素评分的准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音素评分的确定方法，其特征在于，所述方法包括：

基于判断结果，输出最终GOP评分。

2.根据权利要求1所述的方法，其特征在于，所述基于所述判断结果，输出最终GOP评分，包括：

3.根据权利要求1所述的方法，其特征在于，为每一音素设置阈值评分的过程，包括：

针对每一音素，获取所述音素对应的多个历史GOP评分；

计算所述音素的多个历史GOP评分的平均值和方差；

根据所述平均值和所述方差，确定所述音素的阈值评分。

4.根据权利要求1所述的方法，其特征在于，所述判断所述识别音素是否为所述目标音素的竞争音素，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种音素评分的确定系统，其特征在于，所述系统包括：

输出单元，用于基于判断结果，输出最终GOP评分。

7.根据权利要求6所述的系统，其特征在于，所述输出单元具体用于：若判断结果为所述识别音素不是所述目标音素的竞争音素，确定所述第一GOP评分为最终GOP评分，若所述判断结果为所述识别音素是所述目标音素的竞争音素，确定所述目标音素对应的预设第二GOP评分为最终GOP评分。

8.根据权利要求6所述的系统，其特征在于，所述判断单元具体用于：基于所述识别音素和所述目标音素查找竞争音素表，判断所述识别音素是否为所述目标音素的竞争音素，所述竞争音素表为预先基于音素的发音相似度构建，所述竞争音素表至少包含所述目标音素和对应的竞争音素。

9.一种电子设备，其特征在于，所述电子设备用于运行程序，其中，所述程序运行时执行如权利要求1-5中任一所述的音素评分的确定方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的音素评分的确定方法。