CN112331219B

CN112331219B - 语音处理方法和装置

Info

Publication number: CN112331219B
Application number: CN202011220024.XA
Authority: CN
Inventors: 张晴晴; 何淑琳; 贾艳明; 张雪璐
Original assignee: Beijing Qingshu Intelligent Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2024-05-03
Anticipated expiration: 2040-11-05
Also published as: CN112331219A

Abstract

本申请公开了一种说话人识别技术中语音处理方法和装置，语音处理方法包括：获取第一语音以及与第一语音对应的标注文本；获取第一语音的音素对齐序列；根据音素对齐序列获取第一语音对应的音素集合，其中，音素集合包括多个音素单元；从数据库中挑选出由音素单元重新组合形成的第一词汇；对构成第一词汇的音素单元的波形进行拼接，以合成与第一词汇对应的第二语音；对第一语音与第二语音进行合并，得到第三语音，其中，第三语音的语音时长大于第一语音的语音时长。之后对语音时长更长的第三语音进行说话人识别，增加了说话人语音数据的时长和多样性，也相应提高了说话人识别技术的准确性。

Description

语音处理方法和装置

技术领域

本申请属于说话人识别技术领域，具体涉及说话人识别中的一种语音数据处理方法和装置。

背景技术

说话人识别(或声纹识别)是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。在说话人识别技术中,身份认证矢量(identity vector)由于其性能明显优于其他方法而被广泛使用,也是目前说话人识别领域中最先进的技术之一。i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间，并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。

但是ivector对说话人时长比较敏感，能够获取的说话人时长及说话人语音丰富性，直接影响着说话人识别结果的性能，随着说话人语音时长的变短，识别效果有明显的降低。

目前的现有技术至少存在如下问题：在说话人语音时长较短的情况下，当前说话人识别技术的识别准确度较低的问题。

发明内容

本申请实施例的目的是提供一种说话人识别技术中语音处理方法和装置，能够解决目前说话人识别技术在说话人语音时长较短的情况下，当前说话人识别技术的识别准确度较低的技术问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种说话人识别技术中语音数据处理方法，包括：

获取第一语音以及与所述第一语音对应的标注文本；

获取所述第一语音的音素对齐序列；

根据所述音素对齐序列获取所述第一语音对应的音素集合，其中，所述音素集合包括多个音素单元；

从数据库中挑选出由所述音素单元重新组合形成的第一词汇；

对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音；

对所述第一语音与所述第二语音进行合并，得到第三语音，其中，所述第三语音的语音时长大于所述第一语音的语音时长。

进一步地，所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。

可选地，所述数据库为常用词典数据库，所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。

可选地，在所述对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音之前，还包括：

对所述音素单元的拼接部位的波形进行加窗处理。

进一步地，在所述对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音之前，还包括：

将所述音素单元的波形由时域转化到频域，并使用滤波器进行平滑处理。

第二方面，本申请实施例提供了一种说话人识别技术中语音处理装置，其特征在于，包括：

第一获取模块，用于获取第一语音以及与所述第一语音对应的标注文本；

第二获取模块，用于获取所述第一语音的音素对齐序列；

第三获取模块，用于根据所述音素对齐序列获取所述第一语音对应的音素集合，其中，所述音素集合包括多个音素单元；

重组模块，用于从数据库中挑选出由所述音素单元重新组合形成的第一词汇；

拼接模块，用于对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音；

合并模块，用于对所述第一语音与所述第二语音进行合并，得到第三语音，其中，所述第三语音的语音时长大于所述第一语音的语音时长。

进一步地，所述数据库为常用词典数据库，所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。

可选地，所述语音处理装置还包括：

加窗模块，用于对所述音素单元的拼接部位的波形进行加窗处理。

可选地，所述语音处理装置还包括：

滤波模块，用于将所述音素单元的波形由时域转化到频域，并使用滤波器进行平滑处理。

在本申请实施例中，通过获取所述第一语音对应的音素集合，对音素集合中包括的多个音素单元进行重新组合得到新的词汇，通过拼接处理得到新词汇对应的第二语音，并对第一语音与第二语音进行合并，以得到时长更长的第三语音。之后对语音时长更长的第三语音进行说话人识别，增加了说话人语音数据的时长和多样性，也相应提高了说话人识别技术的准确性。

附图说明

图1是本申请实施例提供的一种说话人识别技术中语音处理方法的流程示意图；

图2是本申请实施例提供的另一种说话人识别技术中语音处理方法的流程示意图；

图3是本申请实施例提供的一种说话人识别技术中语音处理装置的结构示意图。

附图标记说明：

30-语音处理装置、301-第一获取模块、302-第二获取模块、303-第三获取模块、304-重组模块、305-拼接模块、306-合并模块、307-加窗模块、308-滤波模块。

本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。

实施例一

参照图1，示出了本申请实施例提供的一种说话人识别技术中语音处理方法的流程示意图，

语音处理方法包括：

S101：获取第一语音以及与所述第一语音对应的标注文本。

具体地，获取第一语音可以是通过录制的方式，也可以通过接收对端传输过来的语音信号。

优选地，获取在简单场景下的第一语音，其中，简单场景可以是安静环境，其具有最佳的声音采集效果，没有噪音，比较纯净，便于后续的说话人识别。

具体地，第一语音对应的标注文本可以通过语义识别算法获得，也可以是预先已知的标注文本。

S102：获取所述第一语音的音素对齐序列。

其中，所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。

需要说明的是，音素是构成单词发音的最小发音单元。音素的置信度越高，意味着语义识别的质量越高。

具体地，可以通过强制对齐算法获取第一语音的音素对齐序列。常见的强制对齐算法包括维特比强制对齐算法等。

在对第一语音强制对齐的过程中，可以是对第一语音中某一目标词对应的语音段进行强制对齐，再依次选择其他目标词的对应语音段，可以是一次性对整个第一语音的对应语音段进行强制对齐。在对目标词对应的语音段进行强制对齐的过程中，可以是对目标词中各音素对应的语音段依次对齐，也可以是一次性对整个词的对应语音进行对齐。

可选地，S102包括S1021至S1025。

S1021：计算第一语音的梅尔倒谱系数。

S1022：对梅尔倒谱系数进行均值归一化并计算梅尔倒谱系数的一阶和二阶差分特征。

S1023：采用三状态三音素HMM-GMM模型对梅尔倒谱系数及梅尔倒谱系数的一阶和二阶差分特征进行建模，生成三音素隐马尔科夫模型的决策树。

S1024：对三音素隐马尔科夫模型进行迭代训练，生成需要的目标三音素隐马尔科夫模型。

S1025：基于目标三音素隐马尔科夫模型生成第一语音的音素对齐序列。

以上强制对齐算法仅仅是一个示例，本领域技术人员还可以采用其他的强制对齐算法，本实施例不做限制。

S103：根据所述音素对齐序列获取所述第一语音对应的音素集合，其中，所述音素集合包括多个音素单元。

需要说明的是，以第一语音为“近年来随着国内互联网企业的快速发展”为例，经过强制对齐后的音素对齐序列为“j in4 n ian2 l ai2 s ui2 zh e5 g uo2 n ei2 h u4l ian2 uu uang3 q i3 ii ie4 d e5 k uai4 s u4 f a1 zh an3”。

此时音素集合中所包括的音素单元有“j、in4、n、ian2、l、ai2、s、ui2、zh、e5、g、uo2、ei2、h、u4、ian2、uu、uang3、q、i3、ii、ie4、d、k、uai4、u4、f、a1和an3”。

可选地，上述第一语音中出现了两个“n”、“l”和“u4”的音素单元，应当选取置信度较高的音素放入到音素集合中，置信度越高，也就意味着音素的质量越高。

S104：从数据库中挑选出由所述音素单元重新组合形成的第一词汇。

可选地，数据库为常用词典数据库，常用词典数据库中所包括词汇的使用频率均大于预设频率值。

具体地，可以将使用频率大于10的词汇放入到数据库中。

将以上音素集合中的音素单元进行重新组合形成第一词汇，应当理解的是第一词汇的每个音素应当都在上述的音素集合中。

例如，从上述音素集合中挑选出“n、l、ai2、uo2、uu、i3和uang3”，将其重新组合为“你来我往”，对应的音素序列为“n i3 l ai2 uu uo2 uu uang3”。

可选地，第一词汇的数量可以为多个，可以相应的设置一个数量阈值，例如100个。

S105：对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音。

对挑选出“n、l、ai2、uo2、uu、i3和uang3”音素对应的波形进行拼接，得到“n i3 lai2 uu uo2 uu uang3”即“你来我往”的第二语音。

S106：对所述第一语音与所述第二语音进行合并，得到第三语音，其中，所述第三语音的语音时长大于所述第一语音的语音时长。

将第一语音“近年来随着国内互联网企业的快速发展”和第二语音“你来我往”进行合并，得到第三语音“近年来随着国内互联网企业的快速发展你来我往”，可以理解的是，第三语音的语音时长相较于第一语音的语音时长有了进一步的拉长。

在实际应用中，第二语音的数量可以是多个，将多个第二语音与第一语音进行合并，可以更进一步的拉长语音时长，以便更加准确的进行说话人识别。

实施例二

参照图2，示出了本申请实施例提供的另一种说话人识别技术中语音处理方法的流程示意图。

语音处理方法，包括：

S201：获取第一语音以及与所述第一语音对应的标注文本。

S202：获取所述第一语音的音素对齐序列。

S203：根据所述音素对齐序列获取所述第一语音对应的音素集合，其中，所述音素集合包括多个音素单元。

S204：从数据库中挑选出由所述音素单元重新组合形成的第一词汇。

S205具体为S205a或者S205b。

S205a：对所述音素单元的拼接部位的波形进行加窗处理。

具体地，将相邻的两个音素单元的拼接部位的波形乘以汉明窗。

汉明窗又称海明窗，是一个窗函数，这个函数在某一区间有非零值，而在其余区间皆为0。

需要说明的是，上述加窗处理所使用的窗函数可以包括矩形窗、高斯窗、汉明窗、Bartlett窗、Blackman窗等，可以根据实际需要自行设定，本发明实施例不做限定。

更进一步地，还可以直接对拼接部位的波形直接乘上一个中央高两边低的函数。

经过加窗处理后的波形更加平滑，拼接后的语音更加通顺自然。

S205b：将所述音素单元的波形由时域转化到频域，并使用滤波器进行平滑处理。

具体地，可以通过傅里叶变换进行时域与频域的转化。

经过滤波器滤波后的音素单元的波形更加平滑，拼接后的语音更加通顺自然。

在本申请实施例中，通过对音素对应的波形进行加窗处理或者过滤器处理，使得波形更加平滑，拼接后的语音更加通顺自然，进一步提供说话人识别的准确性。

实施例三

参照图3，示出了本申请实施例提供的一种说话人识别技术中语音处理装置的结构示意图，语音处理装置30包括：

第一获取模块301，用于获取第一语音以及与所述第一语音对应的标注文本；

第二获取模块302，用于获取所述第一语音的音素对齐序列；

第三获取模块303，用于根据所述音素对齐序列获取所述第一语音对应的音素集合，其中，所述音素集合包括多个音素单元；

重组模块304，用于从数据库中挑选出由所述音素单元重新组合形成的第一词汇；

拼接模块305，用于对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音；

合并模块306，用于对所述第一语音与所述第二语音进行合并，得到第三语音，其中，所述第三语音的语音时长大于所述第一语音的语音时长。

可选地，所述语音处理装置30还包括：

加窗模块307，用于对所述音素单元的拼接部位的波形进行加窗处理。

可选地，所述语音处理装置30还包括：

滤波模块308，用于将所述音素单元的波形由时域转化到频域，并使用滤波器进行平滑处理。

本申请实施例提供的语音处理装置30能够实现上述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中的虚拟装置可以是装置，也可以是终端中的部件、集成电路、或芯片。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种说话人识别技术中语音处理方法，其特征在于，包括：

获取第一语音以及与所述第一语音对应的标注文本；

获取所述第一语音的音素对齐序列；

对所述第一语音与所述第二语音进行合并，得到第三语音，其中，所述第三语音的语音时长大于所述第一语音的语音时长；

在所述对构成所述第一词汇的所述音素单元的波形进行拼接，以合成与所述第一词汇对应的第二语音之前，还包括：

对所述音素单元的拼接部位的波形进行加窗处理，将相邻的两个音素单元的拼接部位的波形乘以汉明窗；

将所述音素单元的波形由时域转化到频域，并使用滤波器进行平滑处理；

所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度；

所述数据库为常用词典数据库，所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。

2.一种说话人识别技术中语音处理装置，其特征在于，包括：

第二获取模块，用于获取所述第一语音的音素对齐序列；

合并模块，用于对所述第一语音与所述第二语音进行合并，得到第三语音，其中，所述第三语音的语音时长大于所述第一语音的语音时长；

加窗模块，用于对所述音素单元的拼接部位的波形进行加窗处理，将相邻的两个音素单元的拼接部位的波形乘以汉明窗；

滤波模块，用于将所述音素单元的波形由时域转化到频域，并使用滤波器进行平滑处理；