CN111785299A

CN111785299A - 一种语音测评方法、装置、设备及计算机存储介质

Info

Publication number: CN111785299A
Application number: CN202010811978.1A
Authority: CN
Inventors: 黄羿衡; 田晋川
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-10-16
Anticipated expiration: 2040-08-13
Also published as: CN111785299B

Abstract

本申请提供一种语音测评方法、装置、设备及计算机存储介质，涉及计算机技术领域，以提升语音的发音标准程度的测评准确度。该方法包括：获取根据目标文本输入的待测评语音；按照目标文本中的各目标音素在目标文本中的发音顺序，确定各目标音素在待测评语音中的待测评发音时间；根据各目标音素在待测评语音中的待测评发音时间和各目标音素的标准发音时间的匹配程度，确定待测评语音的测评结果；标准发音时间是根据各目标元素在目标文本的标准语音中的发音时间确定的。该方法中根据各目标元素的待测评发音时间和标准发音时间的匹配程度确定待测评语音的测评结果，能够提高确定待测评语音中发音不标准的目标音素的准确度，进而提升语音测评的准确度。

Description

一种语音测评方法、装置、设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音测评方法、装置、设备及计算机存储介质。

背景技术

相关技术中在测评语音的发音标准程度时，常通过用于测评打分的分类器模型，对从该语音中提取的特征进行测评，得到该语音的发音标准程度；但该方法中测评得到的发音标准程度，很大程度上依赖于从语音中提取的特征的准确度，且该方法中根据从语音中提取的特征对发音标准程度进行测评时，可能会出现语音的发音是错误的，但是测评得到的发音标准程度较高的情况，因此如何提升语音的发音标准程度的测评准确度，是一个需要考虑的问题。

发明内容

本申请实施例提供一种语音测评方法、装置、设备及计算机存储介质，用于提升语音的发音标准程度的测评准确度。

本申请第一方面，提供一种语音测评方法，包括：

获取根据目标文本输入的待测评语音；

按照所述目标文本中的各目标音素在所述目标文本中的发音顺序，确定所述各目标音素在所述待测评语音中的待测评发音时间；

根据所述各目标音素在所述待测评语音中的待测评发音时间和所述各目标音素的标准发音时间的匹配程度，确定所述待测评语音的测评结果；所述标准发音时间是根据所述各目标元素，在所述目标文本的标准语音中的发音时间确定的。

在一种可能的实现方式中，所述按照所述目标文本中的各目标音素在所述目标文本中的发音顺序，确定所述各目标音素在所述待测评语音中的待测评发音时间，包括：

对所述待测评语音进行分帧处理；

按照所述目标文本中的各目标音素在所述目标文本中的发音顺序，以及分帧处理得到的每个音频帧的时间先后顺序，确定所述每个音频帧对应的目标音素；

基于所述各目标音素对应的音频帧的数量，确定所述各目标音素在所述待测评语音中的待测评发音时间。

在一种可能的实现方式中，所述标准语音包括基于预设发音角色的发音规则，通过TTS技术根据所述目标文本合成的语音。

本申请第二方面，提供一种语音测评装置，包括：

语音获取单元，用于获取根据目标文本输入的待测评语音；

语音处理单元，用于按照所述目标文本中的各目标音素在所述目标文本中的发音顺序，确定所述各目标音素在所述待测评语音中的待测评发音时间；

测评单元，用于根据所述各目标音素在所述待测评语音中的待测评发音时间和所述各目标音素的标准发音时间的匹配程度，确定所述待测评语音的测评结果；所述标准发音时间是根据所述各目标元素，在所述目标文本的标准语音中的发音时间确定的。

在一种可能的实现方式中，所述测评单元具体用于：

确定所述待测评语音的待测评音素序列，所述待测评音素序列包括按照所述发音顺序排列的所述各目标元素和所述各目标音素的待测评发音时间；以及

确定所述标准语音的标准音素序列，所述标准音素序列包括按照所述发音顺序排列的所述各目标音素和所述各目标音素的标准发音时间；

将所述待测评音素序列和所述标准音素序列进行匹配，根据所述各目标音素的待测评发音时间和标准发音时间的匹配程度，确定所述待测评音素序列中的异常音素段，所述异常音素段包括所述待测评音素序列中连续排列的K个音素，所述K为大于1的整数；

根据确定的异常音素段，确定所述待测评语音的测评分值。

在一种可能的实现方式中，所述测评单元具体用于：

若所述待测评音素序列中，至少一个与异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的偏移值满足第一异常偏移条件，则确定所述异常音素和与所述异常音素关联的目标音素组成的音素段为所述异常音素段；所述异常音素包括所述待测评音素序列中不属于所述标准音素序列的静音音素；与异常音素关联的目标音素包括所述异常音素的排列顺序之前第一设定数量的目标音素，以及所述异常音素的排列顺序之后第二设定数量的目标音素；

若所述待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应的标准发音时间的偏移值满足第二异常偏移条件，则确定所述K个目标音素组成的音素段为所述异常音素段。

在一种可能的实现方式中，所述至少一个与所述异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，包括：

至少一个与所述异常音素关联的目标音素的待测评发音时间不小于对应的标准发音时间的M1倍，M1为大于1的值；或

至少一个与所述异常音素关联的目标音素的待测评发音时间不大于对应的标准发音时间的M2倍，M2为小于1的值；或

至少一个与所述异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的差值不小于第一时间阈值。

在一种可能的实现方式中，所述待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应标准发音时间的偏移值满足第二异常偏移条件，包括：

所述K个目标音素的待测评发音时间不小于对应的标准发音时间的M3倍，M3为大于1的值；或

所述K个目标音素的待测评发音时间不大于对应的标准发音时间的M4倍，M4为小于1的值；或

所述K个目标音素的待测评发音时间和对应的标准发音时间的差值不小于第二时间阈值。

在一种可能的实现方式中，所述测评单元具体用于：

根据确定的异常音素段的数量，确定所述待测评语音的测评分值，其中所述异常音素段的数量和所述测评分值负相关；或

根据确定的异常音素段的类型，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定所述待测评语音的测评分值。

在一种可能的实现方式中，所述测评单元还用于：根据确定的异常音素段，确定所述待测评语音的测评分值之前，确定所述待测评语音的目标测评特征，所述目标测评特征是根据所述各目标音素在所述待测评语音中的发音特征和所述各目标音素的标准发音特征的匹配程度确定的，所述发音特征包括目标音素的发音顺序和发音时长占比；所述标准发音特征是根据所述各目标元素，在所述目标文本的标准语音中的发音特征确定的；

采用已训练的语音测评模型，输入所述待测评语音的目标测评特征，并获得所述语音测评模型输出的所述待测评语音的初始测评分值，所述语音测评模型是基于机器学习方法，采用各历史语音的目标测评特征和所述各历史语音的初始测评分值作为训练样本训练得到的；

所述测评单元具体用于：根据确定的异常音素段，对所述待测评语音的初始测评分值进行调整，得到所述待测评语音的测评分值。

在一种可能的实现方式中，所述测评单元具体用于：

根据确定的异常音素段的数量，确定所述待测评语音的异常分值；或，根据确定异常音素段的类型，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定所述待测评语音的异常分值；

将所述初始测评分值与所述异常分值的差值，确定为所述待测评语音的测评分值。

在一种可能的实现方式中，所述语音处理单元具体用于：

对所述待测评语音进行分帧处理；

本申请第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及任一种可能的实施方式中任一所述的方法。

本申请第四方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面的各种可能的实现方式中提供的方法。

本申请第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及任一种可能的实施方式中任一所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中通过将各目标元素在待测评语音中的待测评发音时间和对应的标准发音时间进行匹配，并匹配程度确定待测评语音的测评结果，能够快速且准确地找到待测评语音中发音标准程度低的目标音素，进而提升测评结果的准确度，且由于本申请实施例中可以快速且准确地找到待测评语音中发音标准程度低的目标音素，能显著减少待测评语音的发音错误但测评结果为发音标准的错误预测的现象，减少测评结果的错误率。

附图说明

图1为本申请实施例提供的一种场景示例图；

图2为本申请实施例提供的一种用于语音测评的交互界面的示例图；

图3为本申请实施例提供的一种用于语音测评的交互界面的示意图；

图4为本申请实施例提供的一种语音测评方法的过程示意图；

图5为本申请实施例提供的一种确定目标音素在待测评语音中的待测评发音时间的过程示意图；

图6为本申请实施例提供的一种异常音素和与异常音素关联的目标音素的示意图；

图7为本申请实施例提供的一种第一异常音素段的示意图；

图8为本申请实施例提供的一种第二异常音素段的示意图；

图9为本申请实施例提供的一种第二异常音素段的示意图；

图10为本申请实施例提供的一种第二异常音素段的示意图；

图11为本申请实施例提供的一种待测评语音的目标测评特征的示意图；

图12为本申请实施例提供的一种语音测评的完整流程示意图；

图13为本申请实施例提供的一种语音测评装置的结构示意图；

图14为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的技术名词进行说明。

音素(phone)：语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。英语词汇的音素可以分为元音、辅音两大类，例如，元音有a、e、ai等，辅音有p、t、h等。中文词汇的音素可以分为声母、韵母两大类，例如声母有b、p、m、f、d、t、n、zh、s、y、w等；韵母有单韵母和复韵母，单韵母有a、o、e、i等，双韵母有ai、ao、ou、ve、er、an、ang、eng、ing等。

目标文本：本申请实施例中的目标文本可以包括各种语言的文本，如英语、中文、印地语、俄罗斯语、日语、韩语等的文本信息，如中文的“爸爸你好”，英语的“Hello World”等；也可以包括某种语音在某个地域的方言或标准语言，如中文的普通话、东北话、河南话等，本领域的技术人员可根据实际需求设置。

目标音素：目标文本中的音素，如若目标文本为中文“爸爸你好”，则目标文本的目标音素包括“b、a、b、a、n、i、h、ao”；若目标文本为英文“Hello World”，则目标文本的目标音素包括“H、e、l、l、o、W、o、r、l、d”；且本申请中的目标音素还可以包括静音音素SIL；本申请实施例中将不同声调的同一个音素视为不同的目标音素，如“爸爸你好”的目标音素“b、a、b、a、n、i、h、ao”中第一个“a”为四声调，则可以记为“a4”，第二个“a”的为一声调，则可以记为“a1”，目标音素后的数字表示该目标音素的发音的声调，本申请实施例中将“a4”和“a1”视为两个不同的目标音素；且本申请实施例中将目标文本中不同发音顺序的音素视为不同的目标音素，如将“b、a、b、a、n、i、h、ao”中，将排序在第一个发音顺序的“b”和排序在第三个发音顺序的“b”视为不同的目标音素。

待测评语音：用户或智能设备根据目标文本输入的语音，本申请实施例中待测评语音的音频格式可由本领域的技术人员根据实际需求设置，待测评语音的音频格式可以但不局限于包括无损格式(Wave Audio Files，WAV)、中文脉冲编码调制(Pluse CodeModulation，PCM)格式，压缩格式有动态影像专家压缩标准音频层面3(MPEG AudioLayer3，MP3)格式、WMV(Window Media Audio)等格式；上述智能设备可以但不局限于是手机、电脑、机器人等。

下面对本申请的设计思想进行说明。

在对用户语音的发音标准程度进行测评时，如对用户的英语的发音标准程度、中文普通话的发音标准程度、印地语的发音标准程度、方言的发音标准程度进行测评时，通常使用跟读测评的方法检测用户的口语水平，即终端设备给定目标文本，用户通过终端设备的录音设备录制目标文本对应的待测评语音，进而对录制的待测评语音进行发音准确度的特征提取，将提取的发音准确度特征输入用于打分的分类器中，通过分类器输出待测评语音的测评得分，但该方法中待测评语音的测评得分的准确度，很大程度上依赖于发音准确度特征的提取，且该方法中根据待测评语音的发音准确度特征对其发音的标准程度进行评估时，可能会出现待测评语音中的发音错误，但测评得分较高的情况，因此如何提升语音的发音标准程度的准确度，是一个需要考虑的问题。

鉴于此，发明人设计了一种语音测评方法、装置、设备及计算机存储介质，由于与目标文本对应的待测评语音的发音标准程度，是参照目标文本的标准发音确定的，因此为了提升测评语音的发音标准程度的准确度，本申请实施例中考虑将待测评语音的发音情况与目标文本的标准语音的发音情况进行对比，进而根据对比结果确定待测评语音的测评结果；考虑到目标文本中每个音素在待测评语音的发音情况，会影响待测评语音的发音标准程度，因此本申请实施例中基于目标文本中的每个音素在待测评语音中的发音情况和在标准语音中的发音情况的匹配程度，确定待测评语音的测评结果；具体地，在对根据目标文本输入的待测评语音的发音准确程度进行测评时，可以根据目标文本中各目标音素在待测评语音中的发音时间，和各目标音素在目标文本的标准语音中的发音时间的匹配程度，确定该待测评语音的测评结果。

本申请实施例中的标准语音指目标文本的发音程度标准的语音，本申请实施例中的标准语音可以由多种方式获得，如可以将专业播音人员朗读目标文本的语音作为标准语音，也可以通过语音合成(Text To Speech，TTS)技术根据目标文本生成的语音作为标准语音；其中在通过TTS技术，根据目标文本合成标准语音时，可以基于预设发音角色的发音规则，通过TTS技术根据上述目标文本合成的语音；预设发音角色可以是某个动漫人物或某个真实人物，预设发音角色的发音规则可以是预设发音角色说话的音色、音调等。

上述标准语音可以是预先获得并存储的，也可以是在对待测评语音进行测评的过程中，利用TTS技术合成的，如在触发对某一待测评语音进行测评后，根据设定好的预设发音角色的发音规则，以及正常的发音速度的预设倍数合成目标文本的标准语音，上述预设倍数可以是大于0的值如0.7、1.2、1.5、2.0等。

为了更清楚地理解本申请的设计思路，以下对本申请实施例的应用场景进行示例介绍。

图1是根据本申请实施例的语音测评方法的应用场景的示意图，该场景中包括至少一个终端设备110和服务器220，用户通过安装在终端设备110上的目标应用与终端设备110完成交互。

图2是本申请实施例提供的一个语音测评的交互界面的示例图，终端设备110在交互界面中显示目标文本，用户可以点击开始跟读按钮，开始跟读目标文本，此时，终端设备110通过目标应用启动终端设备110内置或外接的语音采集装置12(如麦克风)，以采集用户读目标文本的语音作为待测评语音；用户可以点击结束根据按钮，结束跟读目标文本，此时目标应用将待测评语音以及目标文本发送给服务器220，服务器220根据待测评语音和目标文本对应的标准语音对待测评语音进行发音质量的评价，得到待测评语音的测评结果，将测评结果反馈给终端设备110，终端设备110显示服务器220反馈的测评结果；该测评结果可以是测评分值，如将测评分值设置为0至100，测评结果也可以是发音标准等级，如将发音标准等级设置为优秀、良好、一般、较差，差等多个等级。

图3是本申请实施例提供的另一个语音测评的交互界面的示例图，终端设备110在用户结束跟读后，可以在交互界面显示服务器220反馈的待测评语音的测评结果；可以但不局限于通过若干个标签展示待测评语音的发音标准等级，如图3中左侧图中通过四个涂色的矩形框，展示该待测评语音的发音标准等级为良好；也可以通过得分显示框301中显示待测评语音的测评得分，在如图3中左侧图中的得分显示框301中展示待测评语音的测评分值为80分；进一步，终端设备110显示测评结果后，用户可以点击重新跟读按钮，重新读目标文本，以时终端设备110重新采集待测评语音，并交由服务器220对新采集的待测评语音进行发音质量的测评。

本申请实施例的应用场景下，终端设备110和服务器220之间通过网络进行通信连接，该网络可以为局域网、广域网等。终端设备110可以为便携设备(例如：手机、平板、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)等)，也可以为个人电脑(PC，PersonalComputer)，一般手机、平板、笔记本电脑均内置有麦克风，而个人电脑可通过外接语音采集装置采集用户的语音。服务器220可以为任何能够提供语音识别以及语音测评服务的设备。

下面结合图1所示的应用场景，对本申请实施例提供的语音测评方法进行说明。

本申请实施例公开了一种语音测评方法，如图4所示，提供一种语音测评方法的流程图，具体包括如下步骤：

步骤S401，获取根据目标文本输入的待测评语音。

具体地，服务器可以接收终端设备发送的待测评语音，该待测评语音可以是用户通过目标应用触发采集根据目标文本输入的语音后，终端设备通过语音采集装置采集的根据目标文本输入的语音；上述目标应用包括可以进行语音测评的应用，如语言学习应用、游戏应用等。

用户可以通过点击图2中的开始跟读按钮或图3中的重新跟读按钮，触发待测评语音的采集；用户也可以通过终端设备110上的某些设定按钮触发待测评语音的采集，本领域的技术人员可根据实际需求设置待测评语音的采集方式。

步骤S402，按照目标文本中的各目标音素在上述目标文本中的发音顺序，确定上述各目标音素在待测评语音中的待测评发音时间。

具体地，为了提升获取的各目标元素的待测评发音时间的准确度，本申请实施例中可以对待测评语音进行分帧处理按照目标文本中的各目标音素在目标文本中的发音顺序，以及分帧处理得到的每个音频帧的时间先后顺序，确定每个音频帧对应的目标音素，进而基于各目标音素对应的音频帧的数量，确定各目标音素在待测评语音中的待测评发音时间。

步骤S403，根据各目标音素在待测评语音中的待测评发音时间和各目标音素的标准发音时间的匹配程度，确定待测评语音的测评结果；标准发音时间是根据上述各目标元素在目标文本的标准语音中的发音时间确定的。

作为一种实施例，为了便于确定各目标音素的待测评发音时间和各目标音素的标准发音时间的匹配程度，以提升测评效率，本申请实施例中考虑通过将待测评语音的音素序列和标准语音的音素序列进行匹配的方式，确定各目标音素的待测评发音时间和标准发音时间的匹配程度，以下对此进行详细说明，且本申请实施例的以下内容中将待测评语音的音素序列记为待测音素序列，将标准语音的音素序列记为标准音素序列，待测评音素序列包括按照发音顺序排列的各目标元素和各目标音素的待测评发音时间；标准音素序列包括按照发音顺序排列的各目标音素和上述各目标音素的标准发音时间。

上述待测评音素序列和标准音素序列可以但不局限于表示为“phone Time；phoneTime；…；phone Time”的形式；其中phone为目标音素，Time在待测评音素序列中表示目标音素的待测评发音时间，Time在标准音素序列中表示目标音素的标准发音时间，且Time的值可以用目标音素对应的音频帧的数量表示，也可以用目标音素对应的音频帧的数量和音频帧的时长的乘积表示，以下给出音素序列的示例：

以目标文本“爸爸你好”的语音为例：该语音的音素序列的一种表示形式为“SIL20；b 30；a4 15；b 12；a1 0；n 14；i3 20；h 14；ao3 25；SIL 20”，该音素序列中每个phone后面的数值为该phone对应该语音中的音频帧的数量；该语音的音素序列的另一种表示形式为“SIL 500；b 750；a4 375；b 300；a1 0；n 350；i3 500；h 350；ao3 625；SIL 500”，该音素序列中每个phone后面的数值为该phone在该语音中对应的音频帧的数量和音频帧的时长的乘积，单位为毫秒，其中每个音频帧的时长为25毫秒。

在步骤S403中，可以获取待测评语音的待测评音素序列以及标准语音的标准音素序列，将待测评音素序列和标准音素序列进行匹配，确定各目标音素的待测评发音时间和标准发音时间的匹配程度。

进一步地，考虑到待测评语音的发音不标准时，其对应的待测评音素序列中会存在异常的音素段，因此本申请实施例中根据各目标音素的待测评发音时间和标准发音时间的匹配程度，确定待测评音素序列中的异常音素段，根据确定的异常音素段，确定待测评语音的测评分值；上述异常音素段包括待测评音素序列中连续排列的K个音素，上述K为大于1的整数。

以下对步骤S402中确定各目标音素在待测评语音中的待测评发音时间进行详细说明。

请参见图5，提供一种确定各目标音素在待测评语音中的待测评发音时间的流程示意图，具体包括如下步骤：

步骤S501，对待测评语音进行分帧处理，得到多个音频帧。

具体地，可以按照发音时间的先后顺序，将待测评语音划分为多个等时长的音频帧，如将一个100毫秒的音频按照发音时间的先后顺序，划分为0-20毫秒的音频帧、20-40毫秒的音频帧、40-60毫秒的音频帧、60-80毫秒的音频帧、80-100毫秒的音频帧等。

考虑到音频帧的声学特征的准确度，会影响各目标元素的待测评发音时间的准确度，因此，为了降低换将噪声、信道、说话的人等特征的影响对音频帧的声学特征的影响，在对待测评语音进行分帧处理时，可以基于预设帧长和预设帧移量，通过窗口移动的方式对待测评语音进行划分，如预设帧长为25毫秒，预设帧移量为10毫秒，则可以将一个100毫秒的音频按照发音时间的先后顺序，划分为0-25毫秒的音频帧、10-35毫秒的音频帧、20-45毫秒的音频帧、30-55毫秒的音频帧、40-65毫秒的音频帧、50-75毫秒的音频帧、60-75毫秒的音频帧、70-95毫秒的音频帧、80-100毫秒的音频帧等，其中每两个发音时间相邻的音频帧之间有15毫秒的音频重叠。

步骤S502，提取分帧处理得到的每个音频帧的声学特征。

具体地，可以将每个音频帧的波形进行变换，提取音频帧的声音特征，声音特征可以是fbank特征或mfcc特征，且该声音特征可以用一个多维的特征向量表示；进而基于提取的声音特征获得声音特征的差分和pitch特征，针对每个音频帧，将提取的声音特征、声音特征的差分和pitch特征整合成音频帧的声学特征；上述声音特征的差分可以是上述多维向量的不同维度的特征之间的差值；上述pitch特征为反映每个音频帧的声调的特征。

步骤S503，根据每个音频帧的声学特征、各目标音素在目标文本中的发音顺序，以及每个音频帧的时间先后顺序，确定每个音频帧对应的目标音素。

具体地，针对一个音频帧而言，可以通过声学模型，利用解码网络确定各个目标元素在该音频帧的声学特征的分布概率，进而将最大的分布概率对应的目标元素，确定为该音频帧对应的目标元素。

上述声学模型可以是采用一阶隐马尔科夫模型进行建模获得的，其中一阶隐马尔科夫模型每个马尔科夫状态可以由100万个混合高斯峰值描述，可以但不局限于通过kaldiwsj s5中间的流程训练上述声学模型。

解码器根据各目标音素在目标文本中的发音顺序，通过解码网络(Finite StateTransducers，FST)对每个音频帧的声学特征进行打分搜索，确定每个音频帧对应的马尔可夫状态，进而解码器根据每个音频帧对应的马尔科夫状态，确定每个音频帧对应的目标音素，上述马尔科夫状态可以表征各目标音素在每个音频帧中的分布概率。

此处仍以目标文本“爸爸你好”为例进行说明，该目标文本中的目标音素的发音顺序为“b、a4、b、a1、n、i、h、ao3”，待测评语音分帧处理得到多个音频帧，则可以根据“b、a4、b、a1、n、i、h、ao3”，去确定待测评语音分帧处理得到多个音频帧各自对应的目标音素；如若待测评语音的前20个音频帧对应的目标音素为静音音素SIL，紧接着第21个至33个音频帧对应的目标音素为发音顺序中从前至后的第一个b，若第34个音频帧对应的目标元素为a4，则针对排序在第34个音频帧之后的音频帧而言，其对应的目标元素不再考虑发音顺序中从前至后的第一个b；进而通过上述方法可以得到每个音频帧对应的目标音素。

步骤S504，基于各目标音素对应的音频帧的数量，确定各目标音素在待测评语音中的待测评发音时间。

此处仍以目标文本“爸爸你好”为例进行说明，在经过步骤S503的处理后，针对待测评语音的多个音频帧，可以得到如下音素信息“SIL 20；b 30；a4 15；b 12；a1 0；n 14；i320；h 14；ao3 25；SIL 20”，上述音素信息中每个目标音素后的数字表征该目标音素对应的音频帧的数量，即第一个静音音素SIL、目标音素b、目标音素a4、目标音素b、目标音素a1、目标音素n、目标音素i3、目标音素h、目标音素ao3以及最后一个静音音素SIL对应的音频帧的数量分别是20、30、15、12、0、14、20、14、25、20。

进而在步骤S504中，可以将各目标音素对应的音频帧的数量，确定为各目标音素的待测评发音时间，也可以将各目标音素对应的音频帧的数量与音频帧的时长的乘积，确定为各目标音素的待测评发音时间。

本申请实施例中的异常音素段可以包括不同类型的音素段，以下以第一异常音素段和第二异常音素为例进行说明。

(一)第一异常音素段

在步骤S403中，若根据各目标音素的待测评发音时间和标准发音时间的匹配程度，确定待测评音素序列中存在异常音素，且待测评音素序列中至少一个与异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的偏移值满足第一异常偏移条件，则确定上述异常音素和与上述异常音素关联的目标音素组成的音素段为第一异常音素段。

上述异常音素可以包括待测评音素序列中不属于标准音素序列的静音音素SIL；上述与异常音素关联的目标音素，可以包括异常音素的排列顺序之前第一设定数量的目标音素，以及异常音素的排列顺序之后第二设定数量的目标音素；本领域的技术人员可以根据实际需求，设置上述第一设定数量和第二设定数量，根据实验的经验值，可以将上述第一设定数量和第二设定数量分别设置为1和4。

请参见图6，此处仍以目标文本“爸爸你好”为例进行说明，若“爸爸你好”的待测评语音的待测评音素序列为“SIL 20；b 13；a4 15；b 12；a1 36；SIL 45；n 3；i3 3；h 14；ao325；SIL 20”，“爸爸你好”的标准语音的标准音素序列为“b 13；a4 15；b 12；a1 15；n 14；i320；h 14；ao3 25；SIL 20”，则上述待测评音素序列中“b 13”之前的静音音素SIL以及“a136”和“n 3”中间的静音音素SIL为异常音素；考虑到用户发音前的静音并不影响待测评语音的发音标准程度，本申请实施例中针对待测评音素序列中第一个目标音素为静音音素SIL，可以不将上述待测评音素序列中的第一个静音音素视为异常音素；上述第一设定数量和第二设定数量分别设置为1和4时，上述待测评音素序列中“a1 36”和“n 3”中间的静音音素SIL为异常音素，该异常的静音音素SIL的排列顺序之前的1个目标音素为a1，该异常的静音音素SIL的排列顺序之后的4个目标音素为“n、i3、h、ao3”，则“a1、n、i3、h、ao3”为与该异常的静音音素SIL关联的目标音素。

作为一种实施例，至少一个与上述异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，包括如下情况A1至情况A3：

情况A1：至少一个与异常音素关联的目标音素的待测评发音时间不小于对应的标准发音时间的M1倍，M1为大于1的值。

具体地，当与异常音素关联的目标音素中，一个或多个目标元素的待测评发音时间不小于对应的标准发音时间的M1倍时，确定与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件；本领域的技术人员可根据实际经验值设置上述M1的值，如基于实际经验值将上述M1设置为不小于2的值，如将M1设置为2或2.5。

如请参见图7，基于图6的内容可知“a1、n、i3、h、ao3”为与异常音素关联的目标音素，则“a1、n、i3、h、ao3”中目标音素a1的待测评时间36不小于标准发音时间15的2倍时，则确定与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，将“a1、n、i3、h、ao3”和该异常音素组成的音素段确定为第一异常音素段。

情况A2：至少一个与异常音素关联的目标音素的待测评发音时间不大于对应的标准发音时间的M2倍，M2为小于1的值。

具体地，当与异常音素关联的目标音素中，一个或多个目标音素的待测评发音时间不大于对应的标准发音时间的M2倍时，确定与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件；本领域的技术人员可根据实际经验值设置上述M2的值，如基于实际经验值将上述M2设置为不大于0.618的值，如将M2设置为0.5。

如参照上述内容，“a1、n、i3、h、ao3”为与异常音素关联的目标音素，则“a1、n、i3、h、ao3”中一个或多个目标音素的待测评时间小于标准发音时间的0.5倍时，确定与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，将“a1、n、i3、h、ao3”和该异常音素组成的音素段确定为第一异常音素段。

情况A3：至少一个与异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的差值不小于第一时间阈值。

具体地，当与异常音素关联的目标音素中，一个或多个目标音素的待测评发音时间和标准发音时间的差值不小于第一时间阈值，确定与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件；上述待测评发音时间和标准发音时间的差值可以是待测评发音时间减去标准发音时间的值的绝对值，也可以是标准发音时间减去待测评发音时间的值的绝对值，本领域的技术人员可根据实际经验值设置上述第一时间阈值。

如参照上述内容，“a1、n、i3、h、ao3”为与异常音素关联的目标音素，则“a1、n、i3、h、ao3”中一个或多个目标音素的待测评时间和标准发音时间的差值大于第一时间阈值时，确定与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，将“a1、n、i3、h、ao3”和该异常音素组成的音素段确定为第一异常音素段。

(二)第二种异常音素段

在步骤S403中，若根据各目标音素的待测评发音时间和标准发音时间的匹配程度，确定待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应的标准发音时间的偏移值满足第二异常偏移条件，则确定上述K个目标音素组成的音素段为第二异常音素段；本领域的技术人员可根据实际经验值设定上述K的值，如将K设置为不小于3的整数。

作为一种实施例，待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应标准发音时间的偏移值满足第二异常偏移条件，包括如下情况B1至情况B3：

情况B1：K个目标音素的待测评发音时间不小于对应的标准发音时间的M3倍，M3为大于1的值。

具体地，当K个目标音素的待测评发音时间都不小于对应的标准发音时间的M3倍时，则确定该K个目标音素的待测评发音时间和标准发音时间的偏移值满足第二异常偏移条件；本领域的技术人员可根据实际经验值设置上述M3的值，如基于实际经验值将上述M3设置为不小于2的值，如将M3设置为2或2.5。

如请参见图8，此处仍以目标文本“爸爸你好”为例进行说明，若“爸爸你好”的待测评语音的待测评音素序列为“SIL 20；b 13；a4 50；b 24；a1 36；SIL 45；n 3；i3 3；h 14；ao3 25；SIL 20”，“爸爸你好”的标准语音的标准音素序列为“b 13；a4 15；b 12；a1 15；n14；i3 20；h 14；ao3 25；SIL 20”，K为3，M3为2时，待测评语音中连续排列的目标元素“a4、b和a1”的待测评发音时间均不小于对应标准发音时间的2倍，此时目标元素“a4、b和a1”组成的音素段即为第二异常音素段。

情况B2：K个目标音素的待测评发音时间不大于对应的标准发音时间的M4倍，M4为小于1的值。

具体地，当K个目标音素的待测评发音时间都不大于对应的标准发音时间的M4倍时，则确定该K个目标音素的待测评发音时间和标准发音时间的偏移值满足第二异常偏移条件；本领域的技术人员可根据实际经验值设置上述M4的值，如基于实际经验值将上述M4设置为不小于0.618的值，如将M4设置为0.5。

如请参见图9，此处仍以目标文本“爸爸你好”为例进行说明，若“爸爸你好”的待测评语音的待测评音素序列为“SIL 20；b 13；a4 15；b 12；a1 36；SIL 45；n 3；i3 3；h 5；ao325；SIL 20”，“爸爸你好”的标准语音的标准音素序列为“b 13；a4 15；b 12；a1 15；n 14；i320；h 14；ao3 25；SIL 20”，K为3，M4为0.5时，待测评语音中连续排列的目标元素“n、i3、h”的待测评发音时间均小于对应标准发音时间的0.5倍，此时目标元素“n、i3、h”组成的音素段即为第二异常音素段。

情况B3：K个目标音素的待测评发音时间和对应的标准发音时间的差值不小于第二时间阈值。

具体地，当K个目标音素的待测评发音时间和对应的标准发音时间的差值均不小于第二时间阈值，则确定该K个目标音素的待测评发音时间和标准发音时间的偏移值满足第二异常偏移条件。上述待测评发音时间和标准发音时间的差值可以是待测评发音时间减去标准发音时间的值的绝对值，也可以是标准发音时间减去待测评发音时间的值的绝对值；本领域的技术人员可根据实际经验值设置上述第二时间阈值，如各目标音素的待测评发音时间和标准发音时间以对应的音频帧的数量表示时，第二时间阈值可以是音频帧的数量阈值如5。

如请参见图10，此处仍以目标文本“爸爸你好”为例进行说明，若“爸爸你好”的待测评语音的待测评音素序列为“SIL 20；b 13；a4 20；b 26；a1 36；SIL 45；n 3；i3 3；h 5；ao3 25；SIL 20”，“爸爸你好”的标准语音的标准音素序列为“b 13；a4 15；b 12；a1 15；n14；i3 20；h 14；ao3 25；SIL 20”，其中待测评发音时间和标准发音时间以音频帧的数量表示，K为3，第二时间阈值为5(即待测评发音时间和标准发音时间对应的音频帧的数量的差值为5)时，待测评语音中连续排列的3个目标元素“a4、b、a1”的待测评发音时间和对应标准发音时间的差值均不小于第二时间阈值，此时将连续的目标元素“n、i3、h”组成的音素段即为第二异常音素段。

以下对本申请实施例步骤S403中，根据确定的异常音素段确定待测评语音的测评分值的过程进行详细说明；具体地，以下述几种测评打分方式为例进行说明：

第一种测评打分方式：根据确定的异常音素段的数量，确定待测评语音的测评分值。

其中由于异常音素段表征待测评语音中发音标准程度低的发音，因此设置异常音素段的数量可以和上述测评分值负相关；具体地，可以设置一个标准分值，将异常音素段的数量与第一参考分值的乘积确定为第一异常分值，将标准分值减去第一异常分值的差值确定为待测评语音的测评得分，具体可参见下述公式1的原理。

公式1：Score1＝S0-m1×S1；

公式1中，Score1为待测评语音的测评得分，S0为标准分值，S1为第一参考分值，m1为异常音素段的数量，m1×S1为第一异常分值，本领域的技术人员可根据实际需求设置上述S0和S1，如将S0设置为100，将S1设置为10，或将S0设置为10，将S1设置为1等。

第二种测评打分方式：根据确定的异常音素段的类型，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定待测评语音的测评分值。

异常音素段的类型可以但不局限于包括上述第一异常音素段和第二异常音素段，此处可以直接将上述加权求和处理的结果确定为待测评语音的测评分值，此时测评分值越高，则表征待测评语音的发音标准程度越低，具体可参见下述公式2的原理：

公式2：

公式2中，Score2为待测评语音的测评得分，i为不同的异常音素段的类型的标识信息，N为异常音素段的类型的总数量，Si为标识信息为i类型的异常音素段对应的分值，qi为标识信息为i类型的异常音素段的加权权重。

进一步地，还可以根据确定的异常音素段的类型以及各类型的异常音素段的数量，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定待测评语音的测评分值，具体可参见公式3的原理：

公式3：

公式3中，Score3为待测评语音的测评得分，i为不同的异常音素段的类型的标识信息，N为异常音素段的类型的总数量，Si为标识信息为i类型的异常音素段对应的分值，qi为标识信息为i类型的异常音素段的加权权重，mi为标识信息为i类型的异常音素段的数量。

更进一步，还可以根据预设的标准分值以及上述加权求和处理的结果，确定待测评语音的测评分值，具体地，可以将标准分值减去上述加权求和的结果的值，确定为待测评语音的测评分值，如可以基于如下公式4和公式5的原理，确定待测评语音的测评分值。

公式4：

公式5：

公式4和公式5中，Score4和Score5为待测评语音的测评得分，S0为标准分值，i为不同的异常音素段的类型的标识信息，N为异常音素段的类型的总数量，Si为标识信息为i类型的异常音素段对应的分值，qi为标识信息为i类型的异常音素段的加权权重，mi为标识信息为i类型的异常音素段的数量，其中本领域的技术人员可根据实际需求设置上述S0，根据各类型的异常音素段对发音标准程度的影响，设置上述Si和qi等。

作为一种实施例，考虑到对待测评语音进行更全面的测评，本申请实施例中还可以在步骤S103之前，通过待测评语音的目标测评特征，确定待测评语音的初始测评分值，进而根据确定的异常音素段，对待测评语音的初始测评分值进行调整，得到待测评语音的测评分值。

具体地，可以通过如下方式获得待测评语音的初始测评分值：

确定待测评语音的目标测评特征，目标测评特征是根据上述各目标音素在待测评语音中的发音特征和各目标音素的标准发音特征的匹配程度确定的，发音特征包括目标音素的发音顺序和发音时长占比；标准发音特征是根据上述各目标元素在目标文本的标准语音中的发音特征确定的；

进而采用已训练的语音测评模型，输入待测评语音的目标测评特征，并获得语音测评模型输出的上述待测评语音的初始测评分值，语音测评模型是基于机器学习方法，采用各历史语音的目标测评特征和上述各历史语音的初始测评分值作为训练样本训练得到的。

本申请实施例中的目标测评特征可以但不局限于包括如下一种或多种特征：

第一种目标测评特征：音素替换特征。

首先删除待测评音素序列中的静音音素SIL，得到第一音素序列，以及删除标准音素序列中的静音音素SIL，得到第二音素序列；若第一音素序列和第二音素序列中，同一排序位置处的目标音素不一致，则将该排序位置处的目标元素作为音素替换特征。

请参见图11，此处仍以目标文本“爸爸你好”为例进行说明，若“爸爸你好”的待测评语音的待测评音素序列为“SIL 20；b 13；a4 15；b 12；a4 15；SIL 18；n 14；i3 20；h 14；ao3 25；SIL 20”，“爸爸你好”的标准语音的标准音素序列为“SIL 20；b 13；a4 15；b 12；a115；n 14；i3 20；h 14；ao3 25；SIL 20”，则第一音素序列为“b 13；a4 15；b 12；a4 15；n14；i3 20；h 14；ao3 25”，第二音素序列为“b 13；a4 15；b 12；a1 15；n 14；i3 20；h 14；ao325”，其中第一音素序列第4个排序位置处的目标元素为“a4”，第二音素序列第4个排序位置处的目标元素为“a1”，第一音素序列和第二音素序列的第4个排序位置处的目标元素不一致，则将待测评音素序列中的目标元素“a4”确定为一个音素替换特征。

第二种目标测评特征：静音音素异常插入特征。

将待测评音素序列中不属于标准音素序列的静音音素SIL，确定为一个静音音素异常插入特征；考虑到用户发音前的静音并不影响待测评语音的发音标准程度，本申请实施例中针对待测评音素序列中第一个目标音素为静音音素SIL，可以不将该静音音素视为静音音素异常插入特征。

请继续参见图11，待测评音素序列中第6个排序位置处的静音音素SIL不属于标准音素序列，则将待测评音素序列中第6个排序位置处的静音音素SIL，确定为一个静音音素异常插入特征。

第三种目标测评特征：静音占比特征。

将待测评语音中的所有静音音素的发音时长之和与该待测评语音的发音总时长的比值，确定为待测评语音的静音占比特征。

请继续参见图11，待测评音素序列的静音占比特征为(20+18+20)/(20+13+15+12+15+18+14+20+14+25+20)。

进一步，在对语音测评模型进行训练时，可以采用各历史语音的上述第一种目标测评特征至第三种目标测评特征中的一个或多个，以及上述各历史语音的初始测评分值作为训练样本训练得到的，训练语音测评模型的初始测评分值可以是人工根据历史语音的目标测评特征进行标注的。

作为一种实施例，可以但不局限于通过如下测评打分方式，根据确定的异常音素段，对待测评语音的初始测评分值进行调整。

第三种测评打分方式：根据确定的异常音素段，对待测评语音的初始测评分值进行调整，得到待测评语音的测评分值。

具体地，可以确定异常音素段的数量与第二参考分值的乘积确定为第二异常分值，将初始测评分值减去第二异常分值的差值确定为待测评语音的测评得分，具体可参见下述公式6的原理。

公式6：Score6＝Sp-m1×S2；

公式6中，Score6为待测评语音的测评得分，Sp为待测评语音的初始测评分值，S2为第二参考分值，m1为异常音素段的数量，m1×S2为第二异常分值，本领域的技术人员可根据实际需求设置上述S2，如若Sp的范围为0至100，则可以将S2设置为10，或若Sp的范围为0至10，则可以将S2设置为1等，其中第二参考分值S2可以和上述第一种测评打分方式中的第一参考分值S1相同或者不同。

第四种测评打分方式：根据异常音素段的类型调整初始测评得分。

具体地，根据确定异常音素段的类型，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定待测评语音的第三异常分值；将初始测评分值与上述第三异常分值的差值，进而基于第三异常分值和初始测评分值确定待测评语音的测评分值，具体地，可以参照下述公式7的原理。

公式7：

公式7中，Score7为待测评语音的测评得分，Sp为待测评语音的初始测评分值，i为不同的异常音素段的类型的标识信息，N为异常音素段的类型的总数量，Si为标识信息为i类型的异常音素段对应的分值，qi为标识信息为i类型的异常音素段的加权权重，

为第三异常分值，其中本领域的技术人员可根据各类型的异常音素段对发音标准程度的影响，设置上述Si和qi等。

进一步地，还可以根据确定的异常音素段的类型以及各类型的异常音素段的数量，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定待测评语音的第四异常分值，进而基于第四异常分值和初始测评分值确定待测评语音的测评得分，具体可参见公式8的原理：

公式8：

公式8中，Score8为待测评语音的测评得分Sp为待测评语音的初始测评分值，i为不同的异常音素段的类型的标识信息，N为异常音素段的类型的总数量，Si为标识信息为i类型的异常音素段的参考分值，qi为标识信息为i类型的异常音素段的加权权重，mi为标识信息为i类型的异常音素段的数量，

为第四异常分值，其中本领域的技术人员可根据各类型的异常音素段对发音标准程度的影响，设置上述Si和qi等。

作为一种实施例，在上述第三种测评打分方式和第四种测评打分方式中，还可以设定一个异常分值阈值，当计算出的异常分值(第二异常分值或第三异常分值或第四异常分值)大于异常分值阈值时，采用异常分值阈值对待测评语音的初始测评分值进行调整；如计算出的异常分值大于异常分值阈值时，将初始测评分值和异常分值的差值，确定为待测评语音的测评分值。

以下提供一个语音测评的完整流程的示例。

该示例中目标文本为中文，目标文本的标准语音为根据目标文本生成的标准普通话语音。

请参见图12，终端设备110和服务器220之间的具体交互如下：

步骤S1201，终端设备110采集根据目标文本输入的待测评语音，并对待测评语音进行格式处理，将处理后的待测评语音和目标文本发送给服务器220。

具体地，终端设备可以采集包含用户的账号信息的待测评语音，并将采集的待测评语音转换成16k单声道16bit采样的WAV格式的音频数据，以便服务器220对待测评语音进行测评。

步骤S1202，服务器220接收待测评语音和目标文本，并确定待测评语音的待测评音素序列。

服务器220确定待测评音素序列的具体方式可参见上述内容，此处不再重复叙述。

步骤S1203，服务器220通过TTS技术，合成目标文本的标准普通话语音。

步骤S1204，服务器220确定标准普通话语音的标准音素序列。

确定标准音素序列的具体方式可参见上述确定待测评音素序列的方式，此处不再重复叙述。

步骤S1205，根据待测评音素序列和标准音素序列，确定待测评语音的目标测评特征，并将确定的目标测评特征输入已训练的语音测评模型，得到待测评语音的初始测评分值。

步骤S1206，服务器220将待测评音素序列和标准音素序列进行匹配，确定各目标音素的待测评发音时间和标准发音时间的匹配程度，根据各目标音素的待测评发音时间和标准发音时间的匹配程度，确定待测评音素序列中的异常音素段。

步骤S1207，服务器220根据确定的异常音素段，对待测评语音的初始测评分值进行调整，得到待测评语音的测评分值。

步骤S1208，服务器220将待测评语音的测评分值发送给终端设备110。

步骤S1209，终端设备110展示待测评语音的测评分值。

本申请实施例中，本申请实施例中基于各目标元素在待测评语音中的待测评发音时间和对应的标准发音时间的匹配程度，确定待测评语音的测评结果，能够快速且准确地找到待测评语音中发音不标准的目标音素，进而提升测评结果的准确度，且能显著减少待测评语音的发音错误但测评结果为发音标准的错误预测的现象，减少测评结果的错误率。

请参照图13，基于同一发明构思，本申请实施例提供一种语音测评装置700，包括：

语音获取单元1301，用于获取根据目标文本输入的待测评语音；

语音处理单元1302，用于按照上述目标文本中的各目标音素在上述目标文本中的发音顺序，确定上述各目标音素在上述待测评语音中的待测评发音时间；

测评单元1303，用于根据上述各目标音素在上述待测评语音中的待测评发音时间和上述各目标音素的标准发音时间的匹配程度，确定上述待测评语音的测评结果；上述标准发音时间是根据上述各目标元素，在上述目标文本的标准语音中的发音时间确定的。

作为一种实施例，测评单元1303具体用于：

确定上述待测评语音的待测评音素序列，上述待测评音素序列包括按照上述发音顺序排列的上述各目标元素和上述各目标音素的待测评发音时间；以及

确定上述标准语音的标准音素序列，上述标准音素序列包括按照上述发音顺序排列的上述各目标音素和上述各目标音素的标准发音时间；

将上述待测评音素序列和上述标准音素序列进行匹配，根据上述各目标音素的待测评发音时间和标准发音时间的匹配程度，确定上述待测评音素序列中的异常音素段，上述异常音素段包括上述待测评音素序列中连续排列的K个音素，上述K为大于1的整数；

根据确定的异常音素段，确定上述待测评语音的测评分值。

作为一种实施例，测评单元1303具体用于：

若上述待测评音素序列中，至少一个与异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的偏移值满足第一异常偏移条件，则确定上述异常音素和与上述异常音素关联的目标音素组成的音素段为上述异常音素段；上述异常音素包括上述待测评音素序列中不属于上述标准音素序列的静音音素；与异常音素关联的目标音素包括上述异常音素的排列顺序之前第一设定数量的目标音素，以及上述异常音素的排列顺序之后第二设定数量的目标音素；

若上述待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应的标准发音时间的偏移值满足第二异常偏移条件，则确定上述K个目标音素组成的音素段为上述异常音素段。

作为一种实施例，上述至少一个与上述异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，包括：

至少一个与上述异常音素关联的目标音素的待测评发音时间不小于对应的标准发音时间的M1倍，M1为大于1的值；或

至少一个与上述异常音素关联的目标音素的待测评发音时间不大于对应的标准发音时间的M2倍，M2为小于1的值；或

至少一个与上述异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的差值不小于第一时间阈值。

作为一种实施例，上述待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应标准发音时间的偏移值满足第二异常偏移条件，包括：

上述K个目标音素的待测评发音时间不小于对应的标准发音时间的M3倍，M3为大于1的值；或

上述K个目标音素的待测评发音时间不大于对应的标准发音时间的M4倍，M4为小于1的值；或

上述K个目标音素的待测评发音时间和对应的标准发音时间的差值不小于第二时间阈值。

作为一种实施例，测评单元1303具体用于：

根据确定的异常音素段的数量，确定上述待测评语音的测评分值，其中上述异常音素段的数量和上述测评分值负相关；或

根据确定的异常音素段的类型，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定上述待测评语音的测评分值。

作为一种实施例，测评单元1303还用于：根据确定的异常音素段，确定上述待测评语音的测评分值之前，确定上述待测评语音的目标测评特征，上述目标测评特征是根据上述各目标音素在上述待测评语音中的发音特征和上述各目标音素的标准发音特征的匹配程度确定的，上述发音特征包括目标音素的发音顺序和发音时长占比；上述标准发音特征是根据上述各目标元素，在上述目标文本的标准语音中的发音特征确定的；

采用已训练的语音测评模型，输入上述待测评语音的目标测评特征，并获得上述语音测评模型输出的上述待测评语音的初始测评分值，上述语音测评模型是基于机器学习方法，采用各历史语音的目标测评特征和上述各历史语音的初始测评分值作为训练样本训练得到的；

测评单元1303具体用于：根据确定的异常音素段，对上述待测评语音的初始测评分值进行调整，得到上述待测评语音的测评分值。

作为一种实施例，测评单元1303具体用于：

根据确定的异常音素段的数量，确定上述待测评语音的异常分值；或，根据确定异常音素段的类型，对确定的异常音素段对应的分值进行加权求和处理，根据加权求和处理的结果确定上述待测评语音的异常分值；

将上述初始测评分值与上述异常分值的差值，确定为上述待测评语音的测评分值。

作为一种实施例，语音处理单元1302具体用于：

对上述待测评语音进行分帧处理；

按照上述目标文本中的各目标音素在上述目标文本中的发音顺序，以及分帧处理得到的每个音频帧的时间先后顺序，确定上述每个音频帧对应的目标音素；

基于上述各目标音素对应的音频帧的数量，确定上述各目标音素在上述待测评语音中的待测评发音时间。

作为一种实施例，上述标准语音包括基于预设发音角色的发音规则，通过TTS技术根据上述目标文本合成的语音。

作为一种实施例，图13中的装置可以用于实现前文论述的任意一种语音测评方法。

上述装置1300作为硬件实体的一个实例如图14所示的计算机设备，该计算机设备包括处理器1401、存储介质1402以及至少一个外部通信接口1403；上述处理器1401、存储介质1402以及外部通信接口1403均通过总线1404连接。

存储介质1402中存储有计算机程序；

处理器1401执行该计算机程序时实现前文论述的语音测评方法。

图14中是以一个处理器1401为例，但是实际上不限制处理器1401的数量。

其中，存储介质1402可以是易失性存储介质(volatile memory)，例如随机存取存储介质(random-access memory，RAM)；存储介质1402也可以是非易失性存储介质(non-volatile memory)，例如只读存储介质，快闪存储介质(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储介质1402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储介质1402可以是上述存储介质的组合。

基于同一技术构思，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的一种直播控制方法。

基于同一技术构思，本申请实施例还一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当上述计算机指令在计算机上运行时，使得计算机执行如前文论述的目标函数确定方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音测评方法，其特征在于，包括：

获取根据目标文本输入的待测评语音；

2.如权利要求1所述的方法，其特征在于，所述根据所述各目标音素在所述待测评语音中的待测评发音时间和所述各目标音素的标准发音时间的匹配程度，确定所述待测评语音的测评结果，包括：

根据确定的异常音素段，确定所述待测评语音的测评分值。

3.如权利要求2所述的方法，其特征在于，所述根据所述各目标音素的待测评发音时间和标准发音时间的匹配程度，确定所述待测评音素序列中的异常音素段，包括：

4.如权利要求3所述的方法，其特征在于，所述至少一个与异常音素关联的目标音素的待测评发音时间和标准发音时间的偏移值满足第一异常偏移条件，包括：

至少一个与异常音素关联的目标音素的待测评发音时间不小于对应的标准发音时间的M1倍，M1为大于1的值；或

至少一个与异常音素关联的目标音素的待测评发音时间不大于对应的标准发音时间的M2倍，M2为小于1的值；或

至少一个与异常音素关联的目标音素的待测评发音时间和对应的标准发音时间的差值不小于第一时间阈值。

5.如权利要求3所述的方法，其特征在于，所述待测评音素序列中连续排列的K个目标音素的待测评发音时间和对应标准发音时间的偏移值满足第二异常偏移条件，包括：

6.如权利要求2-5任一项所述的方法，其特征在于，所述根据确定的异常音素段，确定所述待测评语音的测评分值，包括：

7.如权利要求2-5任一项所述的方法，其特征在于，所述根据确定的异常音素段，确定所述待测评语音的测评分值之前，还包括：

确定所述待测评语音的目标测评特征，所述目标测评特征是根据所述各目标音素在所述待测评语音中的发音特征和所述各目标音素的标准发音特征的匹配程度确定的，所述发音特征包括目标音素的发音顺序和发音时长占比；所述标准发音特征是根据所述各目标元素，在所述目标文本的标准语音中的发音特征确定的；

所述根据确定的异常音素段，确定所述待测评语音的测评分值，包括：

根据确定的异常音素段，对所述待测评语音的初始测评分值进行调整，得到所述待测评语音的测评分值。

8.如权利要求7所述的方法，其特征在于，所述根据确定的异常音素段，对所述待测评语音的初始测评分值进行调整，得到所述待测评语音的测评分值，包括：

9.一种语音测评装置，其特征在于，包括：

语音获取单元，用于获取根据目标文本输入的待测评语音；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8中任一权利要求所述方法的步骤。