CN110136747A

CN110136747A - 一种评价语音音素正确性的方法、装置、设备及存储介质

Info

Publication number: CN110136747A
Application number: CN201910406388.8A
Authority: CN
Inventors: 刘晨晨; 沈欣尧; 余津锐; 杨晓飞; 蒋成林; 梁球斌; 高前勇; 刘扬; 唐义哲
Original assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI LIULISHUO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-16

Abstract

本发明公开了一种评价语音音素正确性的方法，通过获取针对预定文本录入的音频数据，该预定文本中至少包含一个目标音素；从音频数据中解析出目标音素对应的实际发音数据；对实际发音数据的音素正确性指标进行评价，生成反映目标音素发音正误情况的反馈信息。本申请所提供的方法能够详细反馈音素级别发音的正误情况，帮助用户把握音素发音准确性，提高学习的效率，提升学习的效果。并且，采用本申请在练习发音时，用户不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。此外，本申请还提供了一种具有上述技术效果的评价语音音素正确性的装置、设备以及计算机可读存储介质。

Description

一种评价语音音素正确性的方法、装置、设备及存储介质

技术领域

本发明涉及语音技术领域，特别是涉及一种评价语音音素正确性的方法、装置、设备以及计算机可读存储介质。

背景技术

随着科学技术的发展，基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中，应用提供商通过互联网将学习材料发送到客户端，用户经由客户端获取学习材料，进行对应的学习。对于语言学习，除了学习语法和词汇之外，发音能力是其中最重要的能力之一。通常情况下，用户会通过朗读、跟读等方式来提升自身的发音能力。然而，多数情况下用户无法得知自身发音是否准确。

现有的方案为对练习的语音进行评价时，通常都是对单个音标或者整个单词、句子进行打分，用户仅能得到针对整个单词、句子的笼统的评价信息，并不能够获知在单词和句子场景下单个音素发音是否准确的信息，导致学习针对性差、学习效率不高、效果较差的问题。

发明内容

本发明的目的是提供一种评价语音音素正确性的方法、装置、设备以及计算机可读存储介质，以解决现有方案学习效率较低、学习效果较差的问题。

为解决上述技术问题，本发明提供一种评价语音音素正确性的方法，包括：

获取针对预定文本录入的音频数据，所述预定文本中至少包含一个目标音素；

从所述音频数据中解析出所述目标音素对应的实际发音数据；

对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息。

可选地，所述从所述音频数据中解析出所述目标音素对应的实际发音数据包括：

通过强制切分对齐匹配出所述目标音素在所述音频数据中的开始结束位置，从对应位置处提取出所述目标音素对应的实际发音数据。

可选地，所述对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息包括：

计算所述目标音素对应的实际发音数据的后验概率评价指标；

计算所述目标音素对应的实际发音数据的时长评价指标；

将所述后验概率评价指标以及所述时长评价指标输入至预先建立的评价模型中，得到所述实际发音数据的音素正确性指标；

将所述音素正确性指标与预设阈值比较，当所述音素正确性指标高于所述预设阈值时，生成所述目标音素发音为正确的反馈信息；否则，生成所述目标音素发音为错误的反馈信息。

可选地，所述计算所述目标音素对应的实际发音数据的后验概率评价指标包括：

计算所述音频数据中每一个音素的似然度得分；

将所述目标音素对应的实际发音数据的似然度得分除以所有音素的似然度得分，得到所述目标音素对应的实际发音数据的后验概率评价指标。

可选地，所述计算所述目标音素对应的实际发音数据的时长评价指标包括：

预先在标准发音数据上统计每一个音素的音素时长，通过高斯模型建立表征音素时长与时长评价指标的对应关系；

确定所述目标音素对应的实际发音数据的音素时长；

根据高斯模型确定当前音素时长所对应的时长评价指标。

可选地，在所述生成反映所述目标音素发音正误情况的反馈信息之后还包括：

通过显示界面的视觉元素展示所述反馈信息，和/或通过特定音效提示所述反馈信息。

本申请还提供了一种评价语音音素正确性的装置，包括：

获取模块，用于获取针对预定文本录入的音频数据，所述预定文本中至少包含一个目标音素；

解析模块，用于从所述音频数据中解析出所述目标音素对应的实际发音数据；

生成模块，用于对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息。

本申请还提供了一种评价语音音素正确性的设备，应用于服务端，所述设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如下步骤：获取针对预定文本录入的音频数据，所述预定文本中至少包含一个目标音素；从所述音频数据中解析出所述目标音素对应的实际发音数据；对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息。

本申请还提供了一种评价语音音素正确性的设备，应用于客户端，所述设备包括：

音频采集装置，用于录入针对预定文本的音频数据；

通信装置，用于将所述音频数据发送至服务端，以便所述服务端从所述音频数据中解析出所述目标音素对应的实际发音数据；对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息；并且接收所述服务端发送的反馈信息；

显示装置，用于将所述反馈信息在显示界面上进行显示。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种所述评价语音音素正确性的方法的步骤。

本发明所提供的评价语音音素正确性的方法，通过获取针对预定文本录入的音频数据，该预定文本中至少包含一个目标音素；从音频数据中解析出目标音素对应的实际发音数据；对实际发音数据的音素正确性指标进行评价，生成反映目标音素发音正误情况的反馈信息。本申请所提供的方法能够详细反馈音素级别发音的正误情况，帮助用户把握音素发音准确性，提高学习的效率，提升学习的效果。并且，采用本申请在练习发音时，用户不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。此外，本申请还提供了一种具有上述技术效果的评价语音音素正确性的装置、设备以及计算机可读存储介质。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的评价语音音素正确性的方法的一种具体实施方式的流程图；

图2为生成反映所述目标音素发音正误情况的反馈信息的过程流程图；

图3为本申请所提供的评价语音音素正确性的方法的另一种具体实施方式的流程图；

图4为音素练习正误反馈视觉化展现的示例图；

图5为本发明实施例提供的评价语音音素正确性的装置的结构框图；

图6为本发明实施例提供的评价语音音素正确性的设备应用于服务端的结构框图；

图7为本发明实施例提供的评价语音音素正确性的设备应用于客户端的结构框图；

图8为本发明实施例提供的评价语音音素正确性的系统的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例可以用于发音学习场景，尤其是语言学习中的发音学习场景或者发音校正场景，其中语言包括但不限于英语、法语、德语、日语等外语，以及普通话、粤语、四川话等汉语分支。本发明实施例涉及的语言学习场景例如可以是语言学习软件或语言学习终端中的发音测评场景、发音校正场景等场景，也可以是其他语言学习场景，本发明实施例中并不限定。

下面对本申请实施例的应用场景进行详细阐述，用户可以通过客户端进行发音学习，客户端可以在显示界面上显示用户待学习的内容，并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容。在用户进行语音的发音学习时，客户端可以通过音频采集装置采集用户发音时的音频数据，以便后续进行评价语音音素正确性的操作。可以理解的是，执行评价语音音素正确性的操作的主体可以为客户端，也可以为服务端，这均不影响本申请的实现。

本发明实施例中客户端可以包括但不限于：智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等；服务端可以包括但不限于：单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。

结合上述应用场景，本申请所提供的评价语音音素正确性的方法的一种具体实施方式的流程图如图1所示，该方法具体包括：

步骤S101：获取针对预定文本录入的音频数据；

其中，预定文本可以为音素组合，也可以为一个单词或者句子。一个句子可以包括一个或者多个语句，每个语句包括一个或者多个词。本实施例中预定文本中至少包含一个目标音素，目标音素为待练习音素、易错音素或重点关注音素，可以为预先设置得到。优选地，目标音素在预定文本中可以进行特殊标识显示。用户可以朗读该预定文本，通过客户端录入针对该待练习目标音素的语音，经过音频采集装置采集后获得语音对应的音频数据。

步骤S102：从所述音频数据中解析出所述目标音素对应的实际发音数据；

本步骤可以通过强制切分对齐匹配出所述目标音素在所述音频数据中的开始结束位置，从对应位置处提取出所述目标音素对应的实际发音数据。

步骤S103：对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息。

本申请中音素正确性指标用于标识音素正确与否的数值，在音素正确性指标高于预设阈值时，目标音素发音为正确；否则，目标音素发音为错误。预设阈值可以根据实际情况进行设置于调整，这均不影响本申请的实现。反馈信息可以通过视觉方式向用户进行直观显示，也可以辅助增加对应的音效进行反馈，在此不做限定。

下面提供了一种确定音素正确性指标的具体实施例，在本实施例中，音素正确性指标由后验概率评价指标以及时长评价指标共同确定得到。参照图2生成反映所述目标音素发音正误情况的反馈信息的过程流程图，步骤S103中生成反映所述目标音素发音正误情况的反馈信息的过程具体包括：

步骤S1031：计算所述目标音素对应的实际发音数据的后验概率评价指标；

其中，后验概率评价指标的计算过程可以为：通过计算所述音频数据中每一个音素的似然度得分；将所述目标音素对应的实际发音数据的似然度得分除以所有音素的似然度得分，得到所述目标音素对应的实际发音数据的后验概率评价指标。

步骤S1032：计算所述目标音素对应的实际发音数据的时长评价指标；

通过预先在标准发音数据上统计每一个音素的音素时长，通过高斯模型建立表征音素时长与时长评价指标的对应关系；确定所述目标音素对应的实际发音数据的音素时长；根据高斯模型确定当前音素时长所对应的时长评价指标。

步骤S1033：将所述后验概率评价指标以及所述时长评价指标输入至预先建立的评价模型中，得到所述实际发音数据的音素正确性指标；

评价模型可以具体为线性回归模型，可以在训练样本集合上得到后验概率评价指标和时长评价指标后，加上已知的每个音素的评分结果，通过最小化均方误差的准则估计其中的参数。在拟合得到其中的参数后，在使用时将后验概率评价指标以及时长评价指标输入至该评价模型中，即带入该线性模型即可得到预测的音素正确性指标。

步骤S1034：将所述音素正确性指标与预设阈值比较，当所述音素正确性指标高于所述预设阈值时，生成所述目标音素发音为正确的反馈信息；否则，生成所述目标音素发音为错误的反馈信息。

本发明所提供的评价语音音素正确性的方法，通过获取针对预定文本录入的音频数据，该预定文本中至少包含一个目标音素；从音频数据中解析出目标音素对应的实际发音数据；对实际发音数据的音素正确性指标进行评价，生成反映目标音素发音正误情况的反馈信息。本申请所提供的方法能够详细反馈音素级别发音的正误情况，帮助用户把握音素发音准确性，提高学习的效率，提升学习的效果。并且，采用本申请在练习发音时，用户不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。

在上述任一实施例的基础上，本申请所提供的评价语音音素正确性的方法在所述生成反映所述目标音素发音正误情况的反馈信息之后还可以进一步包括：通过显示界面的视觉元素展示所述反馈信息，和/或通过特定音效提示所述反馈信息。

如图3所示，本实施例所提供的评价语音音素正确性的方法的另一种具体实施方式可以具体包括：

步骤S201：获取针对预定文本录入的音频数据，所述预定文本中至少包含一个目标音素；

步骤S202：从所述音频数据中解析出所述目标音素对应的实际发音数据；

步骤S203：对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息；

步骤S204：通过显示界面的视觉元素展示所述反馈信息，和/或通过特定音效提示所述反馈信息。

参照图4音素练习正误反馈视觉化展现的示例图，图中从左至右场景依次为音素组合、单词和句子。可以在目标音素对应的位置进行特殊标识处理，例如图中通过不同颜色予以区分。通过界面上方的大圆圈指示用户实际对目标音素的发音是否正确，该圆圈颜色变绿则表示目标音素的实际发音正确，该圆圈颜色变红则表示目标音素的实际发音不正确。进一步地，本申请实施例在生成目标音素发音正误情况的反馈信息之后，在用户发音错误时还能够检测出用户实际读成了哪个音，从而进行提示或纠正。

下面对本发明实施例提供的评价语音音素正确性的装置进行介绍，下文描述的评价语音音素正确性的装置与上文描述的评价语音音素正确性的方法可相互对应参照。

图5为本发明实施例提供的评价语音音素正确性的装置的结构框图，参照图5评价语音音素正确性的装置可以包括：

获取模块100，用于获取针对预定文本录入的音频数据，所述预定文本中至少包含一个目标音素；

解析模块200，用于从所述音频数据中解析出所述目标音素对应的实际发音数据；

生成模块300，用于对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息。

作为一种具体实施方式，本申请实施例中解析模块200可以具体用于：通过强制切分对齐匹配出所述目标音素在所述音频数据中的开始结束位置，从对应位置处提取出所述目标音素对应的实际发音数据。

作为一种具体实施方式，本申请实施例中生成模块300包括：

第一计算单元，用于计算所述目标音素对应的实际发音数据的后验概率评价指标；

第二计算单元，用于计算所述目标音素对应的实际发音数据的时长评价指标；

确定单元，用于将所述后验概率评价指标以及所述时长评价指标输入至预先建立的评价模型中，得到所述实际发音数据的音素正确性指标；

生成单元，用于将所述音素正确性指标与预设阈值比较，当所述音素正确性指标高于所述预设阈值时，生成所述目标音素发音为正确的反馈信息；否则，生成所述目标音素发音为错误的反馈信息。

作为一种具体实施方式，本申请实施例中第一计算单元具体用于：计算所述音频数据中每一个音素的似然度得分；将所述目标音素对应的实际发音数据的似然度得分除以所有音素的似然度得分，得到所述目标音素对应的实际发音数据的后验概率评价指标。

作为一种具体实施方式，本申请实施例中第二计算单元具体用于：预先在标准发音数据上统计每一个音素的音素时长，通过高斯模型建立表征音素时长与时长评价指标的对应关系；确定所述目标音素对应的实际发音数据的音素时长；根据高斯模型确定当前音素时长所对应的时长评价指标。

作为一种具体实施方式，本申请实施例还可以进一步包括：

反馈模块，用于在生成反映所述目标音素发音正误情况的反馈信息之后，通过显示界面的视觉元素展示所述反馈信息，和/或通过特定音效提示所述反馈信息。

本实施例的评价语音音素正确性的装置用于实现前述的评价语音音素正确性的方法，因此评价语音音素正确性的装置中的具体实施方式可见前文中的评价语音音素正确性的方法的实施例部分，例如，获取模块100，解析模块200，生成模块300，分别用于实现上述评价语音音素正确性的方法中步骤S101，S102，S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本申请通过获取针对预定文本录入的音频数据，该预定文本中至少包含一个目标音素；从音频数据中解析出目标音素对应的实际发音数据；对实际发音数据的音素正确性指标进行评价，生成反映目标音素发音正误情况的反馈信息。本申请能够详细反馈音素级别发音的正误情况，帮助用户把握音素发音准确性，提高学习的效率，提升学习的效果。并且，采用本申请在练习发音时，用户不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。

此外，本申请还提供了一种评价语音音素正确性的设备，应用于服务端1，如图6所示，所述设备包括：

存储器11，用于存储计算机程序；

处理器12，用于执行所述计算机程序时实现如下步骤：获取针对预定文本录入的音频数据，所述预定文本中至少包含一个目标音素；从所述音频数据中解析出所述目标音素对应的实际发音数据；对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是评价语音音素正确性的设备的内部存储单元，例如硬盘。存储器11在另一些实施例中也可以是评价语音音素正确性的设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括评价语音音素正确性的设备的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于评价语音音素正确性的设备的应用软件及各类数据，例如评价语音音素正确性的程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行评价语音音素正确性的程序01等。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：通过强制切分对齐匹配出所述目标音素在所述音频数据中的开始结束位置，从对应位置处提取出所述目标音素对应的实际发音数据。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：计算所述目标音素对应的实际发音数据的后验概率评价指标；计算所述目标音素对应的实际发音数据的时长评价指标；将所述后验概率评价指标以及所述时长评价指标输入至预先建立的评价模型中，得到所述实际发音数据的音素正确性指标；将所述音素正确性指标与预设阈值比较，当所述音素正确性指标高于所述预设阈值时，生成所述目标音素发音为正确的反馈信息；否则，生成所述目标音素发音为错误的反馈信息。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：计算所述音频数据中每一个音素的似然度得分；将所述目标音素对应的实际发音数据的似然度得分除以所有音素的似然度得分，得到所述目标音素对应的实际发音数据的后验概率评价指标。

可选地，所述处理器12用于执行所述计算机程序时具体实现如下步骤：预先在标准发音数据上统计每一个音素的音素时长，通过高斯模型建立表征音素时长与时长评价指标的对应关系；确定所述目标音素对应的实际发音数据的音素时长；根据高斯模型确定当前音素时长所对应的时长评价指标。

可以理解的是，本申请实施例中服务端可以包括但不限于：单个网络服务器、多个网络服务器组成的服务器组或基于云计算由大量计算机或网络服务器构成的云。

此外，本申请还提供了一种评价语音音素正确性的设备，应用于客户端2，如图7所示，所述设备包括：

音频采集装置21，用于录入针对预定文本的音频数据；

通信装置22，用于将所述音频数据发送至服务端，以便所述服务端从所述音频数据中解析出所述目标音素对应的实际发音数据；对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息；并且接收所述服务端发送的反馈信息；

显示装置23，用于将所述反馈信息在显示界面上进行显示。

可选地，本申请实施例所提供的评价语音音素正确性的设备中所述显示装置还用于：通过显示界面的视觉元素展示所述反馈信息，和/或通过特定音效提示所述反馈信息。

可以理解的是，本申请实施例中客户端可以包括但不限于：智能手机、平板电脑、MP4、MP3、PC、PDA、可穿戴设备和头戴显示设备等。

进一步地，本申请还提供了一种评价语音音素正确性的系统，如图8所示，该系统包括上述任一种服务端1以及上述任一种客户端2。用户可以通过客户端进行发音学习，客户端可以在显示界面上显示用户待学习的内容，并且还可以通过扬声器等音频播放装置向用户输出语音形式的音频内容，在用户进行语音的发音学习时，客户端可以通过音频采集装置采集用户发音时的音频数据，并将音频数据发送至服务端，由服务端进行评价语音音素正确性的过程。在服务端对音频数据进行分析并得到反馈信息之后，将该反馈信息发送至客户端。通过客户端的显示装置对反馈信息进行显示，向用户提供视觉辅助信息。

此外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种评价语音音素正确性的方法的步骤。

本申请所提供的评价语音音素正确性的设备、评价语音音素正确性的系统、计算机可读存储介质与前述方法相对应。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上，本申请能够详细反馈音素级别发音的正误情况，帮助用户把握音素发音准确性，提高学习的效率，提升学习的效果。并且，采用本申请在练习发音时，用户不需要老师当面进行真人教学示范或纠正，因此克服了学习时间和空间的限制，用户可以随时随地进行相关的练习。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的评价语音音素正确性的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种评价语音音素正确性的方法，其特征在于，包括：

2.如权利要求1所述的评价语音音素正确性的方法，其特征在于，所述从所述音频数据中解析出所述目标音素对应的实际发音数据包括：

3.如权利要求1或2所述的评价语音音素正确性的方法，其特征在于，所述对所述实际发音数据的音素正确性指标进行评价，生成反映所述目标音素发音正误情况的反馈信息包括：

计算所述目标音素对应的实际发音数据的时长评价指标；

4.如权利要求3所述的评价语音音素正确性的方法，其特征在于，所述计算所述目标音素对应的实际发音数据的后验概率评价指标包括：

计算所述音频数据中每一个音素的似然度得分；

5.如权利要求4所述的评价语音音素正确性的方法，其特征在于，所述计算所述目标音素对应的实际发音数据的时长评价指标包括：

确定所述目标音素对应的实际发音数据的音素时长；

根据高斯模型确定当前音素时长所对应的时长评价指标。

6.如权利要求3所述的评价语音音素正确性的方法，其特征在于，在所述生成反映所述目标音素发音正误情况的反馈信息之后还包括：

7.一种评价语音音素正确性的装置，其特征在于，包括：

8.一种评价语音音素正确性的设备，其特征在于，应用于服务端，所述设备包括：

存储器，用于存储计算机程序；

9.一种评价语音音素正确性的设备，其特征在于，应用于客户端，所述设备包括：

音频采集装置，用于录入针对预定文本的音频数据；

显示装置，用于将所述反馈信息在显示界面上进行显示。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述评价语音音素正确性的方法的步骤。