CN114678040B

CN114678040B - 语音一致性检测方法、装置、设备及存储介质

Info

Publication number: CN114678040B
Application number: CN202210541377.2A
Authority: CN
Inventors: 邵志明; 黄宇凯; 李科; 郝玉峰
Original assignee: Beijing Speechocean Technology Co ltd
Current assignee: Beijing Speechocean Technology Co ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-30
Anticipated expiration: 2042-05-19
Also published as: CN114678040A

Abstract

本发明公开了一种语音一致性检测方法、装置、设备及存储介质。该方法通过获取目标用户的模板语音特征库和待判定语音，确定待判定语音中各待判定元音音素的音素特征，进而根据各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音特征库中的模板语音之间是否具备一致性，实现了基于音素特征的语音一致性检测，该方法通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测，无需人工多次回放收听，解决了检测语音一致性的成本较高以及时效性较低的技术问题，提高了语音一致性的检测效率和检测时效性。

Description

语音一致性检测方法、装置、设备及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音一致性检测方法、装置、设备及存储介质。

背景技术

在生成语音合成数据库的过程中，通常要求同一个发音人在不同时期、不同环境所录制的数据保持较高的一致性，即从听感上保证所录制的各个批次的语音尽量保持一致，如，同一发音人在不同时期录制的音频的音量是否忽高忽低、语速是否时快时慢、音调是否忽高忽低等。

针对同一发音人在不同时期录制的音频是否在听感上保持一致，目前没有一个标准的评价方法。现有技术通常依赖于人工检查，即人为反复多次回放音频来判断是否一致。然而，该方法人工成本、时间成本较多，并且，不能实时判断出发音人当前录制的语音是否具备一致性，时效性较低。

发明内容

本发明提供了一种语音一致性检测方法、装置、设备及存储介质，以解决检测语音一致性的成本较高以及时效性较低的技术问题。

根据本发明的一方面，提供了一种语音一致性检测方法，包括：

获取目标用户的模板语音特征库，其中，所述模板语音特征库包括模板语音中各模板元音音素的音素特征；

获取所述目标用户的待判定语音，确定所述待判定语音中各待判定元音音素的音素特征；

基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性。

可选的，所述获取目标用户的模板语音特征库，包括：

获取目标用户的模板语音，确定所述模板语音中各模板元音音素的音素信息；

基于各所述模板元音音素的音素信息确定各所述模板元音音素的音素特征；

基于各所述模板元音音素的音素特征构建模板语音特征库。

可选的，所述确定所述模板语音中各模板元音音素的音素信息，包括：

确定所述模板语音中各音素的音素信息，其中，所述音素信息包括音素置信度；

基于各所述音素的音素置信度以及预设置信度阈值对各所述音素进行过滤处理，基于过滤处理的结果确定各模板元音音素的音素信息。

可选的，在所述确定所述模板语音中各模板元音音素的音素信息之前，所述方法还包括：

针对各所述模板语音，确定所述模板语音中的静音片段和噪声片段，将所述静音片段和所述噪声片段从所述模板语音中剔除。

可选的，所述音素信息包括音素起始时间、音素结束时间以及音素采样点幅度值，所述基于各所述模板元音音素的音素信息确定各所述模板元音音素的音素特征，包括：

基于所述模板元音音素的音素起始时间和音素结束时间，确定所述模板元音音素的平均语速；

基于所述模板元音音素的音素采样点幅度值确定所述模板元音音素的平均能量；

根据所述平均语速、所述平均能量、所述模板元音音素的基频以及所述模板元音音素的共振峰，构建所述模板元音音素的音素特征。

可选的，所述基于各所述模板元音音素的音素特征构建模板语音特征库，包括：

基于各所述模板元音音素的基频和共振峰，对各所述模板元音音素进行聚类处理；

根据聚类处理的结果在各所述模板元音音素中确定各簇内音素，基于所述簇内音素的音素特征构建模板语音特征库。

可选的，所述基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性，包括：

获取预先训练的音素识别模型，其中，所述音素识别模型包括特征处理模块；

基于所述特征处理模块和各所述模板元音音素的音素特征确定各所述模板元音音素的目标高阶特征，基于所述特征处理模块和各所述待判定元音音素的音素特征确定各所述待判定元音音素的目标高阶特征；

基于各所述待判定元音音素的目标高阶特征以及与各所述待判定元音音素对应的模板元音音素的目标高阶特征，检测所述待判定语音与所述模板语音之间是否具备一致性。

可选的，所述方法还包括：

获取各所述模板元音音素的音素标签，基于各所述模板元音音素的音素标签和各所述模板元音音素的音素特征构建训练样本集；

基于所述训练样本集对预先构建的音素识别网络进行训练，基于训练的结果确定音素识别模型。

针对各所述待判定元音音素，计算所述待判定元音音素的音素特征以及与所述待判定元音音素对应的模板元音音素的音素特征之间的特征距离；

基于各所述待判定元音音素对应的特征距离检测所述待判定语音与所述模板语音之间是否具备一致性。

根据本发明的另一方面，提供了一种语音一致性检测装置，包括：

模板信息获取模块，用于获取目标用户的模板语音特征库，其中，所述模板语音特征库包括模板语音中各模板元音音素的音素特征；

待判定语音获取模块，用于获取所述目标用户的待判定语音，确定所述待判定语音中各待判定元音音素的音素特征；

一致性确定模块，用于基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的语音一致性检测方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音一致性检测方法。

本发明实施例的技术方案，通过获取目标用户的模板语音特征库和待判定语音，确定待判定语音中各待判定元音音素的音素特征，进而根据各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音特征库中的模板语音之间是否具备一致性，实现了基于音素特征的语音一致性检测，该方法通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测，无需人工多次回放收听，解决了检测语音一致性的成本较高以及时效性较低的技术问题，提高了语音一致性的检测效率和检测时效性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种语音一致性检测方法的流程示意图；

图2A是本发明实施例二提供的一种语音一致性检测方法的流程示意图；

图2B是本发明实施例二提供的一种模板元音音素的音素信息的提取流程图；

图3A是本发明实施例三提供的一种语音一致性检测方法的流程示意图；

图3B是本发明实施例三提供的一种模板语音特征库的构建流程图；

图4A是本发明实施例四提供的一种语音一致性检测方法的流程示意图；

图4B是本发明实施例四提供的一种音素识别模型中特征处理模块的处理流程图；

图5是本发明实施例五提供的一种语音一致性检测装置的结构示意图；

图6是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的一种语音一致性检测方法的流程示意图，本实施例可适用于判断用户录制的语音或录制的视频中的音频是否与模板语音特征库中的模板语音具备一致性的情况，该方法可以由语音一致性检测装置来执行，该语音一致性检测装置可以采用硬件和/或软件的形式实现，该语音一致性检测装置可配置于诸如计算机、智能手机、平板电脑等电子设备中。如图1所示，该方法包括：

S110、获取目标用户的模板语音特征库，其中，模板语音特征库包括模板语音中各模板元音音素的音素特征。

其中，模板语音特征库可以是根据目标用户的各个模板语音中的音素特征所构建的特征库。需要说明的是，模板语音可以是目标用户预先按照指定的文本内容录制的语音，且经过人工检查后各模板语音之间的发音、音量、语速等均保持一致。

模板语音的长度和数量可以根据实际需求进行设置，本实施例对此不进行限定。例如，可以结合语音一致性的检测效率以及检测精度，设置模板语音的数量；模板语音的数量越多，语音一致性的检测精度越高，模板语音的数量越少，语音一致性的检测效率越高，因此，可以综合考虑检测效率以及检测精度选取合适的数量，如，模板语音的数量可以为100。

具体的，模板语音特征库包括所有模板语音中的所有模板元音音素的音素特征。其中，模板元音音素可以是模板语音中属于元音的音素，如a、o、i等。可选的，可以先检测出所有模板语音中的所有音素，进一步的，根据元音检测模型在所有音素中筛选出模板元音音素，并提取模板元音音素的音素特征。其中，音素特征可以是模板元音音素的基音频率（基频）、模板元音音素的平均能量、模板元音音素的平均语速和模板元音音素的共振峰中的至少一种。

需要说明的是，将基音频率（基频）、平均能量、平均语速和共振峰中的至少一种作为音素特征的原因在于：基音频率可以决定元音的音高，在声音中，基频是指一个复音中基音的频率，在构成一个复音的若干个音中，基音的频率最低，强度最大；因此，可以将基音频率作为音素特征，以将基音频率作为检测语音一致性的一个参数。语音的能量大小可以影响用户听感上的音量大小，如果发音人在不同时期录制的语音的能量大小不一致，则会造成各语音在听感上的音量大小不一致，因此，也可以将平均能量作为音素特征，以将平均能量作为检测语音一致性的一个参数。平均语速可以衡量一个人说话的速度，不同的人语速有大小之别，同一个人在不同时期录制的语音的语速也可能会存在差别，因此，可以将平均语速作为音素特征，以将平均语速作为检测语音一致性的一个参数。一切元音都有一个基音，并有至少两个语音加强频带，亦即有两个共振峰，一般用F1、F2表示，声道中的共鸣作用可以使一个音的加强区有别于另一个音的加强区，因此不同元音音素的共振峰标度就有所不同，因此，也可以将共振峰作为音素特征，以将共振峰作为检测语音一致性的一个参数。

S120、获取目标用户的待判定语音，确定待判定语音中各待判定元音音素的音素特征。

其中，待判定语音可以是目标用户所录制的需要判断是否与模板语音具备一致性的语音，如目标用户实时录制的语音，或者目标用户所录制的视频中的语音。

具体的，本实施例在获取到目标用户的待判定语音后，可以确定待判定语音中包含的全部元音音素，即各待判定元音音素，进一步的，确定各待判定元音音素的音素特征。其中，音素特征可以是待判定元音音素的基音频率（基频）、待判定元音音素的平均能量、待判定元音音素的平均语速和待判定元音音素的共振峰中的至少一种。

示例性的，可以将待判定语音输入至预先训练的元音检测模型，得到元音检测模型输出的待判定语音中所包含的各待判定元音音素，进一步的，将各待判定元音音素输入至元音特征提取模型，得到元音特征提取模型输出的各待判定元音音素的音素特征。又或者，还可以先提取待判定语音中各音素的音素信息，并将各音素输入至元音检测模型，保留待判定元音音素的音素信息，进而根据音素信息计算出音素特征。

S130、基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音之间是否具备一致性。

其中，模板语音特征库中与待判定元音音素对应的模板元音音素，可以是模板语音特征库中与待判定元音音素的元音类型相同的模板元音音素。示例性的，待判定元音音素的元音类型为i，则与待判定元音音素对应的模板元音音素的元音类型也为i。

在本实施例中，与待判定元音音素对应的模板元音音素的数量可以为一个或多个。若与待判定元音音素对应的模板元音音素的数量为多个，则可以基于待判定元音音素和各个与其对应的模板元音音素检测待判定语音与模板语音之间是否具备一致性。

具体的，在一种可选的实施方式中，可以是针对每一个待判定元音音素，将当前的待判定元音音素的音素特征以及与该待判定元音音素对应的各个模板元音音素的音素特征进行比对，若该待判定元音音素对应的各个模板元音音素中存在与该待判定元音音素的音素特征一致的模板元音音素，或者与该待判定元音音素的音素特征一致的模板元音音素的数量超过设定阈值，则确定该待判定元音音素为一致性元音音素。

通过该方式，可以确定全部待判定元音音素中的一致性元音音素，进一步的，可以根据一致性元音音素的数量确定待判定语音与模板语音之间是否具备一致性；例如，可以根据一致性元音音素的数量在所有待判定元音音素中的占比确定待判定语音与模板语音之间是否具备一致性，占比越高，则表明待判定语音的一致性越高。例如，一致性元音音素的数量在所有待判定元音音素中的占比大于设定占比阈值时，可以确定待判定语音与模板语音之间具备一致性。

在另一种可选的实施方式中，基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音之间是否具备一致性，还可以是：针对各待判定元音音素，计算待判定元音音素的音素特征以及与待判定元音音素对应的模板元音音素的音素特征之间的特征距离；基于各待判定元音音素对应的特征距离检测待判定语音与模板语音之间是否具备一致性。

其中，特征距离可以是欧氏距离、马氏距离等。具体的，若与待判定元音音素对应的模板元音音素的数量为多个，则计算待判定元音音素的音素特征以及与待判定元音音素对应的模板元音音素的音素特征之间的特征距离，可以是：基于与待判定元音音素对应的各个模板元音音素的音素特征，确定平均音素特征，计算待判定元音音素的音素特征与该平均音素特征之间的特征距离。

或者，计算待判定元音音素的音素特征以及与待判定元音音素对应的模板元音音素的音素特征之间的特征距离，还可以是：计算与待判定元音音素对应的各个模板元音音素的音素特征与该待判定元音音素的音素特征之间的距离值，基于各个距离值计算特征距离。

示例性的，可以采用如下公式计算各个待判定元音音素对应的特征距离：

；

其中，

表示第i个待判定元音音素对应的特征距离，

表示第i个待判定元音音素对应的模板元音音素的数量，

表示第i个待判定元音音素的音素特征，

表示与第i个待判定元音音素对应的第j个模板元音音素的音素特征，

表示与第i个待判定元音音素对应的第j个模板元音音素的音素特征与第i个待判定元音音素的音素特征之间的距离值。

其中，以欧氏距离为例，第i个待判定元音音素对应的第j个模板元音音素的音素特征与第i个待判定元音音素的音素特征之间的距离值，可以采用如下公式计算：

；式中，n表示音素特征的数量，

表示第i个待判定元音音素中的第k个音素特征，

表示与第i个待判定元音音素对应的第j个模板元音音素中的第k个音素特征。

进一步的，可以根据各个待判定元音音素对应的特征距离，检测待判定语音与模板语音之间是否具备一致性。示例性的，可以根据各个待判定元音音素对应的特征距离计算所有待判定元音音素对应的特征距离均值，进而根据特征均值判断待判定语音与模板语音之间是否具备一致性。如，采用如下公式计算待判定元音音素对应的特征距离均值：

；

其中，C为特征距离均值，

为待判定语音中的待判定元音音素的数量。C的值越小，则表示待判定语音的音素特征与模板语音中的音素特征越接近，待判定语音与模板语音之间的一致性越高；C值越大，则表示待判定语音与模板语音之间的一致性越小。

在该可选的实施方式中，可以直接根据特征距离均值判断待判定语音与模板语音之间是否具备一致性，特征距离均值的取值范围为[0,1]，具体可以是：预先设置一个距离阈值，将特征距离均值与该预设的距离阈值进行比对，基于比对的结果确定待判定语音与模板语音之间是否具备一致性。如，若特征距离均值大于或等于预设的距离阈值，则确定待判定语音与模板语音之间不具备一致性，若特征距离均值小于预设的距离阈值，则确定待判定语音与模板语音之间具备一致性。

通过该可选的实施方式，针对待判定语音中的每一个待判定元音音素，计算待判定元音音素的音素特征以及与其对应的模板元音音素的音素特征之间的特征距离，进而根据各个待判定元音音素的特征距离确定待判定语音与模板语音之间是否具备一致性，以根据模板语音中的音素特征对待判定语音进行一致性检测，保证了语音一致性检测的准确性。

可选的，本实施例提供的方法还包括：若待判定语音与模板语音之间的不具备一致性，则可以向目标用户的关联终端发送重新录制提示信息，以使目标用户根据该重新录制提示信息，重新录制待判定语音。

本实施例的技术方案，通过获取目标用户的模板语音特征库和待判定语音，确定待判定语音中各待判定元音音素的音素特征，进而根据各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音特征库中的模板语音之间是否具备一致性，实现了基于音素特征的语音一致性检测，该方法通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测，无需人工多次回放收听，解决了检测语音一致性的成本较高以及时效性较低的技术问题，提高了语音一致性的检测效率和检测时效。

实施例二

图2A是本发明实施例二提供的一种语音一致性检测方法的流程示意图，本实施例在上述各实施例的基础上，对目标用户的模板语音特征库的构建过程进行了示例性说明。如图2A所示，本实施例提供的语音一致性检测方法包括：

S210、获取目标用户的模板语音，确定模板语音中各模板元音音素的音素信息。

其中，模板元音音素的音素信息可以是描述模板元音音素的基础信息，如，音素标识、音素起始时间、音素结束时间以及音素采样点幅度值等。具体的，可以先获取各模板语音中全部音素的音素信息，进而基于预先训练的元音检测模型确定全部音素中的模板元音音素，进而得到模板元音音素的音素信息。或者，先基于元音检测模型确定全部音素中的模板元音音素，进而提取模板元音音素的音素信息。

具体的，可以采用如下步骤得到音素信息：步骤1、将全部模板语音按照预设帧长以及预设帧移长度，提取全部模板语音中的梅尔倒频谱系数（Mel-Frequency CepstralCoefficients，MFCC）特征；步骤2、经提取的MFCC特征经过预先训练的隐马尔可夫-高斯混合模型，并经过维特比算法（Viterbi Algorithm）解码，得到每个音素对应的音素信息。如，按照预设帧长为25ms、预设帧移长度为10ms的方式，提取39维的MFCC特征。

在一种可选的实施方式中，还可以在提取音素信息之前，获取模板语音中的有效语音片段，进而根据有效语音片段提取音素信息。如，可选的，在确定模板语音中各模板元音音素的音素信息之前，还包括：针对各模板语音，确定模板语音中的静音片和噪声片段，将静音片段和噪声片段从模板语音中剔除。

其中，静音片段可以是模板语音中音量小于预设音量阈值的语音片段。噪声片段可以是模板语音中发音对象是目标用户的语音片段，如，键盘声、手机铃声等。

具体的，可以将全部模板语音输入至预先训练的语音检测模型，以使语音检测模型输出剔除静音片段和噪声片段后的模板语音，或，输出剔除静音片段和噪声片段后的模板语音的片段。或者，还可以将全部模板语音输入至预先训练的静音检测模型和噪声检测模型，以分别检测静音片段和噪声片段，进而将检测到的静音片段以及噪声片段从模板语音中剔除。通过该可选的实施方式，通过剔除模板语音中的静音和噪声部分，可以丢弃全部模板语音中的静音和噪声部分，减少了模板语音特征库中无效音素特征的生成，提高了模板语音特征库的构建效率，以及，提高了语音一致性的检测效率，并且，还可以避免静音和噪声部分对构建模板语音特征库造成干扰，提高了模板语音特征库的精度，进而提高了语音一致性的检测准确率。

可选的，在本实施例中，还可以对模板元音音素进行筛选，仅保留置信度较高的模板元音音素的音素信息。如，确定模板语音中各模板元音音素的音素信息，包括：确定模板语音中各音素的音素信息，其中，音素信息包括音素置信度；基于各音素的音素置信度以及预设置信度阈值对各音素进行过滤处理，基于过滤处理的结果确定各模板元音音素的音素信息。

其中，音素置信度的取值可以为[0,1]。预设置信度阈值为预先设置的用于筛选模板语音中的音素的阈值，其可以根据实际需求进行设置；如，预设置信度阈值可以为0.80。

具体的，可以先获取全部模板语音中各音素的音素信息，进而根据各音素的音素置信度以及预设置信度阈值，丢弃音素置信度不超过预设置信度阈值的音素；进一步的，将剩余的全部音素通过元音检测模型，检测出模板元音音素，基于此可得到模板元音音素的音素信息。

通过该可选方式，可以实现对音素的过滤处理，仅保留音素置信度不小于预设置信度阈值的模板元音音素的音素信息，提高了模板语音特征库的准确度，进而提高了语音一致性的检测精度。

示例性的，如图2B所示，展示了一种模板元音音素的音素信息的提取流程图，具体的，可以采用如下步骤获取模板元音音素的音素信息：

步骤1、将所有模板语音输入至预先训练的语音检测模型，以使语音检测模型丢弃模板语音中的静音片段和噪声片段，输出有效语音片段；

步骤2、按照预设帧长和预设帧移长度对全部有效语音片段进行截取，得到各个待特征提取帧，进而根据全部待特征提取帧提取MFCC特征；

步骤3、将提取到的MFCC特征使用隐马尔可夫-高斯混合模型（HMM-GMM模型）并经过Viterbi解码，得到每个音素对应的音素信息；

步骤4、将全部音素的音素信息输入至预先训练的音素置信度过滤模型，以使音素置信度过滤模型过滤掉置信度低于预设置信度阈值的音素，输出置信度大于或等于预设置信度阈值的音素；

步骤5、将音素置信度过滤模型输出的音素输入至元音检测模型，以使元音检测模型检测各音素是否为元音音素，即确定全部音素中的模板元音音素；

步骤6、在获取到全部模板元音音素后，按照元音种类，统计各元音种类对应的各模板元音音素的音素信息，如，元音种类e对应

个模板元音音素，记元音种类e的第j个模板元音音素的音素信息为

。

S220、基于各模板元音音素的音素信息确定各模板元音音素的音素特征，基于各模板元音音素的音素特征构建模板语音特征库。

具体的，在得到模板元音音素的音素信息后，可以根据模板元音音素的音素信息构建模板元音音素的音素特征，进而根据模板元音音素的音素特征生成模板语音特征库。

示例性的，音素信息可以包括音素起始时间和音素结束时间，根据音素起始时间和音素结束时间即可计算模板元音音素的平均语速。又比如，音素信息可以包括共振峰，将共振峰作为音素特征，等。

S230、获取目标用户的待判定语音，确定待判定语音中各待判定元音音素的音素特征。

S240、基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音之间是否具备一致性。

本实施例的技术方案，通过获取目标用户的模板语音，确定模板语音中各模板元音音素的音素信息，进而根据各模板元音音素的音素信息确定音素特征，并基于音素特征构建模板语音特征库，实现了模板语音特征库的准确构建，以使可以根据已构建的模板语音特征库进行语音一致性的检测，无需人为检查，提高了语音一致性的检测效率。

实施例三

图3A是本发明实施例三提供的一种语音一致性检测方法的流程示意图，本实施例在上述各实施例的基础上，对根据模板元音音素的音素信息确定模板元音音素的音素特征的过程进行了示例性说明。如图3A所示，本实施例提供的语音一致性检测方法包括：

S310、获取目标用户的模板语音，确定模板语音中各模板元音音素的音素信息。

其中，音素信息包括音素起始时间、音素结束时间以及音素采样点幅度值。具体的，音素起始时间可以是模板元音音素在其所属的模板语音中的发音起始时间，音素结束时间可以是模板元音音素在其所属的模板语音中的发音结束时间。示例性的，某一模板元音音素的音素起始时间为第10s，音素结束时间为第10.05s。音素采样点幅值可以是模板元音音素中全部采样点的幅值。

S320、基于模板元音音素的音素起始时间和音素结束时间，确定模板元音音素的平均语速。

示例性的，假如目标用户录制的某个语音时长为T秒，该语音对应的文本长度为N，其中，若文本为中文汉字，则N为汉字的个数，若文本为音素序列，则N代表音素的个数，若文本为英文单词，则N代表单词的个数，该段语音的平均语速为V=N/T。

在本实施例中，在模板元音音素的发音过程中，N=1，因此，模板元音音素的平均语速可以根据模板元音音素的发音时长确定，其中，模板元音音素的发音时长可以根据音素信息的音素起始时间和音素结束时间计算得到。

例如，基于模板元音音素的音素起始时间和音素结束时间，确定模板元音音素的平均语速，可以满足如下公式：

；

其中，

为音素种类i的第j个模板元音音素的平均语速，

为音素种类i的第j 个模板元音音素的音素结束时间，

为音素种类i的第j个模板元音音素的音素起始时间，

可以表示模板元音音素的发音时长。

S330、基于模板元音音素的音素采样点幅度值确定模板元音音素的平均能量。

具体的，可以根据模板元音音素中各个采样点的音素采样点幅度值，计算该模板元音音素的平均能量，如：

；

其中，

为音素种类i的第j个模板元音音素的平均能量，

表示该模板元音音素一共包含

个采样点，

表示第

个采样点的音素采样点幅度。

S340、根据平均语速、平均能量、模板元音音素的基频以及模板元音音素的共振峰，构建模板元音音素的音素特征。

其中，可以通过基频提取算法获取模板元音音素的基频，如，YIN算法、CREPE（Convolutional Representation for Pitch Estimation，基音估计的卷积表示法）算法等。

在本实施例中，可以通过共振峰提取算法提取模板元音音素的共振峰。模板元音音素的共振峰的数量可以是一个或多个。优选的，每一个模板元音音素的共振峰的数量为2个；具体的，可以是所有模板元音音素的前2个共振峰，以保证语音一致性检测的准确性。

具体的，本实施例可以将平均语速、平均能量、基频以及共振峰作为模板元音音素的音素特征。

S350、基于各模板元音音素的音素特征构建模板语音特征库，获取目标用户的待判定语音，确定待判定语音中各待判定元音音素的音素特征。

在本实施例中，考虑到基频提取算法和共振峰提取算法的准确率可能会对音素特征造成干扰，本实施例还可以根据基频提取算法和共振峰提取算法所提取的基频和共振峰，对模板元音音素进行筛选，以保留音素特征更准确的模板元音音素。

例如，在一种实施方式中，基于各模板元音音素的音素特征构建模板语音特征库，包括：基于各模板元音音素的基频和共振峰，对各模板元音音素进行聚类处理；根据聚类处理的结果在各模板元音音素中确定各簇内音素，基于簇内音素的音素特征构建模板语音特征库。

具体的，可以根据全部模板元音音素的基频和共振峰对全部模板元音音素进行聚类处理，以将属于相同音素种类的模板元音音素聚类在一起，得到各个音素种类的聚类簇。其中，可以采用改进的DBSCAN（Density-Based Spatial Clustering of Applicationswith Noise，密度聚类算法）对属于相同音素种类的模板元音音素进行聚类，如，可以通过不断扩大领域最大半径（epsilon参数）使得领域内最小样本数（minPts参数）能够包含80%的模板元音音素样本即可。

进一步的，可以将各个音素种类的聚类簇的核心点和边界点作为簇内音素，将离群点作为簇外音素，可以直接根据簇内音素的音素特征构建模板语音特征库，或者，将全部模板元音音素中的簇外音素抛弃，基于抛弃簇外音素后的模板元音音素的音素特征构建模板语音特征库。

示例性的，如图3B所示，展示了一种模板语音特征库的构建流程图，其中，根据所得到的各模板元音音素的音素信息，分别计算模板元音音素的平均能量和平均语速，并进行基频和共振峰（包括共振峰F1和共振峰F2）的提取，进一步的，根据基频和共振峰对各模板元音音素进行聚类处理，丢弃聚类后的簇外音素（即离群点），以实现对模板元音音素的去噪，即DBSCAN去除噪声数据，进而将剩余的模板元音音素的音素特征融合，得到各个模板元音音素的特征向量，得到维度为5的特征向量：

，其中，

分别为平均能量、平均语速、基频、共振峰 F1、共振峰F2。基于此可以构建一个包含特征向量的数据库，作为模板特征数据库。

需要说明的是，本实施例可以为每一个元音种类构建其对应的模板语音特征库，即将属于同一元音种类的模板元音音素的特征向量存放于该元音种类对应的模板语音特征库中。当然，也可以将全部模板元音音素的特征向量存放于一个模板语音特征库中，在该模板语音特征库中对各模板元音音素的特征向量按照元音种类进行分类存储。

在该可选的实施方式中，通过各模板元音音素的基频和共振峰对个模板元音音素进行聚类处理，根据聚类处理的结果构建模板语音特征库，以将聚类后离群的模板元音音素丢弃，实现了对模板元音音素中的噪声数据的去除，进一步的提高了模板语音特征库的精度，提高了语音一致性的检测准确率。

S360、基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音之间是否具备一致性。

本实施例的技术方案，通过模板元音音素的音素起始时间和音素结束时间确定模板元音音素的平均语速，并根据模板元音音素的音素采样点幅度值确定模板元音音素的平均能量，进而基于模板元音音素的平均语速、平均能量、基频以及共振峰构建模板元音音素的音素特征，实现了模板元音音素的音素特征的准确提取，进而实现了基于平均语速、平均能量、基频以及共振峰的语音一致性检测，以综合考虑多种特征进行语音的一致性检测，避免了单一特征的准确率对语音一致性检测结果的干扰，提高了语音一致性的检测准确率。

实施例四

图4A是本发明实施例四提供的一种语音一致性检测方法的流程示意图，本实施例在上述各实施例的基础上，对基于待判定元音音素的音素特征以及模板元音音素的音素特征检测待判定语音与模板语音之间是否具备一致性的过程进行了补充说明。如图4A所示，本实施例提供的语音一致性检测方法包括：

S410、获取目标用户的模板语音特征库，其中，模板语音特征库包括模板语音中各模板元音音素的音素特征。

S420、获取目标用户的待判定语音，确定待判定语音中各待判定元音音素的音素特征。

S430、获取预先训练的音素识别模型，其中，音素识别模型包括特征处理模块。

其中，音素识别模型可以是预先训练的用于识别音素种类的模型，音素识别模型可以根据输入的音素，输出该音素对应的音素种类，如输入第p个音素，音素识别模型输出该音素对应的音素种类为ei。音素识别模型可以包括特征处理模块，其中，特征处理模块可以包括至少一个特征处理层；特征处理模块可以通过对输入的特征进行处理，得到高阶特征。

音素识别模型可以基于预先构建的样本集训练得到，其中，样本集可以包括样本音素和样本音素对应的标签。

在本实施例中，还可以根据模板语音构建训练音素识别模型的样本集。可选的，所述方法还包括：获取各模板元音音素的音素标签，基于各模板元音音素的音素标签和各模板元音音素的音素特征构建训练样本集；基于训练样本集对预先构建的音素识别网络进行训练，基于训练的结果确定音素识别模型。

即，可以根据模板元音音素的音素标签和音素特征构建训练样本集，将训练样本集输入至音素识别网络，以使音素识别网络通过特征处理模块根据输入的模板元音音素的音素特征进行处理，得到与音素特征对应的高阶特征，进而音素识别网络根据高阶特征识别模板元音音素的音素种类，并基于音素标签和识别的音素种类计算网络的损失函数，根据损失函数的计算结果反向调整音素识别网络中的网络参数，直至损失函数收敛，此时将训练后的音素识别网络作为音素识别模型。

在该可选的实施方式中，可以通过已录制的模板语音训练得到音素识别模型，无需再次构建样本集，提高了音素识别模型的训练效率。

示例性的，如图4B所示，展示了一种音素识别模型中特征处理模块的处理流程图，其中，该特征处理模块包括三个特征处理层（可以是3个隐层），模板元音音素的音素特征

，即平均语速、平均能量、基频和两个共振峰经过特征处理模块的三个特征处理层后，输入高阶特征

，进而根据高阶特征识别音素种类。

S440、基于特征处理模块和各模板元音音素的音素特征确定各模板元音音素的目标高阶特征，基于特征处理模块和各待判定元音音素的音素特征确定各待判定元音音素的目标高阶特征。

具体的，可以将模板元音音素的音素特征输入至特征处理模块中，得到特征处理模块输出的模板元音音素的目标高阶特征，并且，将待判定元音音素的音素特征也输入至特征处理模块中，得到特征处理模块输出的待判定元音音素的目标高阶特征。

S450、基于各待判定元音音素的目标高阶特征以及与各待判定元音音素对应的模板元音音素的目标高阶特征，检测待判定语音与模板语音之间是否具备一致性。

具体的，可以针对每一个待判定元音音素，根据待判定元音音素的目标高阶特征以及与该待判定元音音素对应的模板元音音素的目标高阶特征，计算该待判定元音音素与该模板元音音素之间的特征距离，进而根据各个特征距离确定待判定语音与模板语音之间是否具备一致性。

本实施例的技术方案，考虑到直接提取到的模板元音音素的音素特征和待判定元音音素的音素特征为低阶特征，若只是将具有代表语音一致性物理意义的离散特征进行了融合进行语音一致性检测，可能会影响检测结果的准确性。因此，本实施例还可以通过预先训练的音素识别模型的特征处理模块，获取模板元音音素和待判定元音音素的目标高阶特征，进而根据目标高阶特征确定待判定语言与模板语音之间是否具备一致性，提高了语音一致性的检测精度。

实施例五

图5是本发明实施例五提供的一种语音一致性检测装置的结构示意图。如图5所示，该装置包括模板信息获取模块510、待判定语音获取模块520以及一致性确定模块530。其中：

模板信息获取模块510，用于获取目标用户的模板语音特征库，其中，模板语音特征库包括模板语音中各模板元音音素的音素特征；

待判定语音获取模块520，用于获取目标用户的待判定语音，确定待判定语音中各待判定元音音素的音素特征；

一致性确定模块530，用于基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音之间是否具备一致性。

可选的，模板信息获取模块510包括音素信息确定单元、音素特征确定单元以及特征库构建单元，其中；

音素信息确定单元，用于获取目标用户的模板语音，确定模板语音中各模板元音音素的音素信息；

音素特征确定单元，用于基于各模板元音音素的音素信息确定各模板元音音素的音素特征；

特征库构建单元，用于基于各模板元音音素的音素特征构建模板语音特征库。

可选的，音素信息确定单元，具体用于：

确定模板语音中各音素的音素信息，其中，音素信息包括音素置信度；基于各音素的音素置信度以及预设置信度阈值对各音素进行过滤处理，基于过滤处理的结果确定各模板元音音素的音素信息。

可选的，模板信息获取模块510还包括片段剔除模块，用于在确定模板语音中各模板元音音素的音素信息之前，针对各模板语音，确定模板语音中的静音片段和噪声片段，将静音片段和噪声片段从模板语音中剔除。

可选的，音素信息包括音素起始时间、音素结束时间以及音素采样点幅度值，音素特征确定单元，具体用于：

基于模板元音音素的音素起始时间和音素结束时间，确定模板元音音素的平均语速；基于模板元音音素的音素采样点幅度值确定模板元音音素的平均能量；根据平均语速、平均能量、模板元音音素的基频以及模板元音音素的共振峰，构建模板元音音素的音素特征。

可选的，特征库构建单元，具体用于：

基于各模板元音音素的基频和共振峰，对各模板元音音素进行聚类处理；根据聚类处理的结果在各模板元音音素中确定各簇内音素，基于簇内音素的音素特征构建模板语音特征库。

可选的，一致性确定模块530，还用于获取预先训练的音素识别模型，其中，音素识别模型包括特征处理模块；基于特征处理模块和各模板元音音素的音素特征确定各模板元音音素的目标高阶特征，基于特征处理模块和各待判定元音音素的音素特征确定各待判定元音音素的目标高阶特征；基于各待判定元音音素的目标高阶特征以及与各待判定元音音素对应的模板元音音素的目标高阶特征，检测待判定语音与模板语音之间是否具备一致性。

可选的，本实施例提供的装置还包括模型训练模块，模型训练模块，用于获取各模板元音音素的音素标签，基于各模板元音音素的音素标签和各模板元音音素的音素特征构建训练样本集；基于训练样本集对预先构建的音素识别网络进行训练，基于训练的结果确定音素识别模型。

可选的，一致性确定模块530，还用于基于各待判定元音音素对应的特征距离检测待判定语音与模板语音之间是否具备一致性；基于各待判定元音音素对应的特征距离检测待判定语音与模板语音之间是否具备一致性。

本实施例的技术方案，通过获取目标用户的模板语音特征库和待判定语音，确定待判定语音中各待判定元音音素的音素特征，进而根据各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音特征库中的模板语音之间是否具备一致性，实现了基于音素特征的语音一致性检测，该方法通过为用户构建的模板语音特征库即可实现实时对用户录制语音的一致性检测，无需人工多次回放收听，解决了检测语音一致性的成本较高以及时效性较低的技术问题，提高了语音一致性的检测效率和检测时效性。

本发明实施例所提供的语音一致性检测装置可执行本发明任意实施例所提供的语音一致性检测方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如语音一致性检测方法。

在一些实施例中，语音一致性检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的语音一致性检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行语音一致性检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的语音一致性检测方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行一种语音一致性检测方法，该方法包括：

获取目标用户的模板语音特征库，其中，模板语音特征库包括模板语音中各模板元音音素的音素特征；

获取目标用户的待判定语音，确定待判定语音中各待判定元音音素的音素特征；

基于各待判定元音音素的音素特征以及模板语音特征库中与各待判定元音音素对应的模板元音音素的音素特征，检测待判定语音与模板语音之间是否具备一致性。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种语音一致性检测方法，其特征在于，包括：

基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性；

其中，所述基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标用户的模板语音特征库，包括：

基于各所述模板元音音素的音素特征构建模板语音特征库。

3.根据权利要求2所述的方法，其特征在于，所述确定所述模板语音中各模板元音音素的音素信息，包括：

4.根据权利要求2所述的方法，其特征在于，在所述确定所述模板语音中各模板元音音素的音素信息之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述音素信息包括音素起始时间、音素结束时间以及音素采样点幅度值，所述基于各所述模板元音音素的音素信息确定各所述模板元音音素的音素特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于各所述模板元音音素的音素特征构建模板语音特征库，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性，包括：

9.一种语音一致性检测装置，其特征在于，包括：

一致性确定模块，用于基于各所述待判定元音音素的音素特征以及所述模板语音特征库中与各所述待判定元音音素对应的模板元音音素的音素特征，检测所述待判定语音与所述模板语音之间是否具备一致性；

其中，所述一致性确定模块（ 530），还用于获取预先训练的音素识别模型，其中，音素识别模型包括特征处理模块；基于特征处理模块和各模板元音音素的音素特征确定各模板元音音素的目标高阶特征，基于特征处理模块和各待判定元音音素的音素特征确定各待判定元音音素的目标高阶特征；基于各待判定元音音素的目标高阶特征以及与各待判定元音音素对应的模板元音音素的目标高阶特征，检测待判定语音与模板语音之间是否具备一致性。

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的语音一致性检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的语音一致性检测方法。