CN108847251B

CN108847251B - 一种语音去重方法、装置、服务器及存储介质

Info

Publication number: CN108847251B
Application number: CN201810724991.6A
Authority: CN
Inventors: 杨小龙; 张文明; 陈少杰
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Aerospace Guosheng Technology Co ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2022-12-02
Anticipated expiration: 2038-07-04
Also published as: CN108847251A

Abstract

本发明实施例公开了一种语音去重方法、装置、服务器和存储介质，其中，语音去重方法包括：利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像；基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引；根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音。本发明实施例克服了现有语音去重方法忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定的不足，并基于语音内容的层面，实现了快速有效地对语音数据进行去重处理。

Description

一种语音去重方法、装置、服务器及存储介质

技术领域

本发明实施例涉及互联网技术应用领域，尤其涉及一种语音去重方法、装置、服务器及存储介质。

背景技术

随着互联网行业的快速发展，语音信息膨胀式产生，如何在海量信息中快速、精准地对语音数据进行去重，并节约计算资源，是目前的一个难点。

现有的语音去重方法，通常计算语音数据中每帧的MFCC特征，然后将每帧的MFCC特征拼接为短语音的整体特征，并计算特征哈希索引，然后比较哈希值的相似程度。但是，基于哈希值的语音去重方法，忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定。

发明内容

本发明提供一种语音去重方法、装置、服务器及存储介质，以基于语音内容的层面，快速有效地实现语音去重。

第一方面，本发明实施例提供了一种语音去重方法，所述方法包括：

利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将所述MFCC特征矩阵转换为目标图像；

基于深度学习模型和特征降维算法，提取所述目标图像的目标图像特征，并确定所述目标图像特征的目标索引；

根据所述目标索引确定与各历史短语音相对应的各历史图像特征，利用所述各历史图像特征与所述目标图像特征之间的重复度，确定所述目标短语音是否为重复语音。

第二方面，本发明实施例还提供了一种语音去重装置，所述装置包括：

目标图像转换模块，用于利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将所述MFCC特征矩阵转换为目标图像；

特征与索引确定模块，用于基于深度学习模型和特征降维算法，提取所述目标图像的目标图像特征，并确定所述目标图像特征的目标索引；

重复语音确定模块，用于根据所述目标索引确定与各历史短语音相对应的各历史图像特征，利用所述各历史图像特征与所述目标图像特征之间的重复度，确定所述目标短语音是否为重复语音。

第三方面，本发明实施例还提供了一种语音去重服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的语音去重方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的语音去重方法。

本发明实施例提供的语音去重方法、装置、服务器及存储介质，通过利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像，基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引，根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定所述目标短语音是否为重复语音，克服了现有语音去重方法忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定的不足，并基于语音内容的层面，实现了快速有效地对语音数据进行去重处理的效果。

附图说明

下面将通过参照附图详细描述本发明的示例性实施例，使本领域的普通技术人员更清楚本发明的上述及其他特征和优点，附图中：

图1是本发明实施例一中的语音去重方法的流程图；

图2是本发明实施例二中的语音去重方法的流程图；

图3是本发明实施例三中的语音去重方法的流程图；

图4是本发明实施例四中的语音去重装置的结构示意图；

图5是本发明实施例五中的语音去重服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音去重方法的流程图，本实施例可适用于在众多语音数据中，基于语音内容的深层信息实现语音去重的情况，该方法可以由语音去重装置来执行，其中，该装置可由软件和/或硬件实现。如图1所示，本实施例的方法具体包括：

S110、利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像。

其中，梅尔频率是基于人耳听觉特性提出的，其与HZ频率成非线性对应关系。其中，人耳的听觉特性为人耳对不同频率的语音信号有不同的感知能力，语音信号的频率越高，人耳的感知能力就越差。梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC，以下简称MFCC)是受人的听觉系统研究成果推动而导出的声学特征，该特征通常需要利用MFCC算法从语音数据中提取出来。一般的，利用MFCC算法提取MFCC特征的过程可以包括如下步骤：(1)先对语音信号进行预加重、分帧和加窗；(2)对每一个短时分析窗进行快速傅里叶变换FFT，得到对应的频谱；(3)将获取到的对应频谱通过梅尔滤波器组，得到梅尔频谱；(4)通过取对数，离散余弦变换DCT等操作，对Mel频谱进行倒谱分析，得到D阶MFCC系数(D通常取12-16之间的整数)，其中，D阶MFCC系数即为相应帧语音信号的MFCC特征。

其中，目标短语音是根据预设短语音时长，从目标长语音信号中提取出来的。由于语音信号是一种非平稳的时变信号，因此，无法直接提取目标短语音中的语音特征。但是语音信号在非常短的时间段内能够近似稳定，因此，优选可以根据预设帧长，将目标短语音信号分成各帧，并利用MFCC算法提取各帧中的MFCC特征。在将短语音进行分帧的过程中，为了避免相邻两帧的特征变化过大，还可以根据预设帧移使相邻两帧之间存在重叠区域。在获取到各帧的MFCC特征之后，可以将各MFCC特征按预设规则整合成一个MFCC特征矩阵，即MFCC特征矩阵中包含目标短语音中的各帧语音的MFCC特征。将该MFCC特征矩阵作为目标短语音的MFCC特征表达。

由于现有的基于MFCC算法的语音去重方法无法提取出语音内容中更加深层的特征信息，因此，优选可以将利用MFCC算法获取到的MFCC特征转换为视觉图像，从图像的层面上提取语音内容中更加深层次的特征信息。本实施例中，在利用梅尔频率倒谱系数MFCC算法获取到目标短语音的MFCC特征矩阵之后，优选可以将MFCC特征矩阵转换为目标图像。

示例性的，利用MFCC算法获取目标短语音的MFCC特征矩阵的过程主要可以包括：

1)将当前目标语音数据切分为多条短语音，其中，预设段语音时长可以设定为30s。

采用语音活动检测(Voice Activity Detect，VAD，以下简称VAD)算法，将当前目标语音Voice^current提取为多条短语音数据Speech^current，同时丢弃一部分静音数据。其中，VAD算法又称为语音端点检测算法或语音边界检测算法。该算法的目的是从语音信号流中识别和消除长时间的静音期。

上述提取段语音的公式如下：

其中，M为当前目标语音能够提取到的短语音的总条数。2)对当前目标短语音进行分帧，其中，预设帧长可以设定为25ms，预设帧移可以设定为10ms。

依据预设的帧长与帧移，将当前第m条短语音

作为当前目标短语音，对该当前目标短语音进行分帧操作。

上述将当前目标短语音进行分帧的公式如下：

其中，N为当前目标短语音进行分帧后，得到的总帧数。

3)提取每帧语音的MFCC特征。

采用MFCC算法，提取当前目标短语音第n帧

的MFCC特征MFCC^m,n。

上述提取每帧语音的MFCC特征的公式如下：

其中，D为每帧语音的MFCC特征长度，本方案中可以取D＝13；i为具体的特征索引。

4)将各帧短语音对应的MFCC特征依次进行拼接，整合成一个MFCC特征矩阵。

S120、基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引。

其中，深度学习模型可以用来提取目标图像中的各图像特征，优选可以是卷积神经网络模型CNN、循环神经网络模型RNN等。一般的，利用深度学习模型提取到的目标图像的图像特征可以具有几百甚至上千个特征维度，基于如此高特征维度的图像特征进行语音去重处理，会增加语音去重过程的计算复杂度，同时也会导致语音去重的周期延长。因此，在利用深度学习模型提取目标图像的各图像特征时，优选可以引入特征降维算法，以降低深度学习模型输出的图像特征的特征维度。其中，特征降维算法优选可以是深度哈希算法，主成分分析算法和经典特征选择算法等。此外，为了便于在存储空间中查找各图像特征，加速语音去重的进程，优选可以为提取出的各图像特征设置目标索引。

示例性的，在对目标图像进行目标图像特征提取的过程中，可以将卷积神经网络模型CNN作为深度学习模型，将深度哈希算法作为特征降维算法，其中，深度哈希算法优选可以应用于卷积神经网络模型CNN的最后一层全连接层，可以将深度卷积神经网络提取到的特征维度为4096的图像特征线性组合为特征维度为32的目标图像特征。

将目标短语音的MFCC特征矩阵转换为目标图像表达，并基于深度学习模型提取目标图像的各图像特征，可以理解为将目标短语音的MFCC特征在深度学习网络中的高维特征表达。上述利用深度学习模型获取目标图像特征的方式可以提升语音特征的表达能力，获取到语音信号中更加深层细致的语音特征。

S130、根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音。

本实施例中，每一个历史短语音都可以对应一个历史图像特征，每一个历史图像特征都可以对应一个目标索引。且两个短语音信号的语音特征越相似，其对应的目标索引也越有可能相同。基于上述规律，可以根据目标索引，在所有的历史图像特征中提取出与目标图像特征相似度相对较高的各历史图像特征，并分别确定各历史图像特征与目标图像特征之间的各重复度，根据各重复度确定目标短语音是否为与历史短语音重复的重复语音。

本实施例提供的语音去重方法，通过利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像，基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引，根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音，克服了现有语音去重方法忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定的不足，并基于语音内容的层面，实现了快速有效地对语音数据进行去重处理的效果。

在上述各实施例的基础上，进一步的，根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音，包括：

利用目标索引在语音库中查找各历史图像特征，其中，各历史图像特征与目标图像特征具有相同的目标索引；

分别计算目标图像特征与各历史图像特征之间的各特征匹配距离；

利用第三预设规则，将各特征匹配距离转换为各重复度，并利用各重复度确定目标短语音是否为重复语音。

优选的，深度学习模型为卷积神经网络模型CNN，特征降维算法为深度哈希算法，相对应的，目标图像特征即为哈希特征，目标索引即为哈希索引。在语音库中存储有与各历史短语音相对应的各历史图像特征，每一个历史图像特征都对应一个哈希索引。本实施例中，可以利用目标图像对应的哈希索引，在语音库中查找同样对应该哈希索引的各历史图像特征。如果没有查找到与目标图像特征具有相同的哈希索引的历史图像特征，则可以将目标图像特征和相应的哈希索引保存至语音库中。如果查找到与目标图像特征具有相同的哈希索引的各历史图像特征，则可以分别计算目标图像特征与各历史图像特征之间的各特征匹配距离，其中，特征匹配距离可以是欧式距离、绝对值距离、余弦距离和马氏距离等，优选可以是欧式距离。如果只在距离空间上，通过确定图像特征之间的距离关系来判断两个图像特征是否等同，其置信度并不高。因此，可以利用第三预设规则，将各特征匹配距离转换为置信度较高的各重复度，并利用各重复度确定目标短语音是否为重复语音。其中，第三预设规则可以是将特征匹配距离映射为相应重复度的规则。示例性的，上述过程主要可以包括：

11)利用哈希索引在语音库中查找各历史图像特征。

使用快速查找算法，在语音库中查找在历史哈希索引Index-Hash^history中，是否存在与当前第m条目标短语音

相对应的哈希索引Index-Hash^m相同的历史哈希索引Index-Hash^history。如果不存在，则将当前目标图像特征Hash-Feat^m与目标索引Index-Hash^m存储至语音库中；如果存在，则将对应该哈希索引Index-Hash^m的各历史图像特征从语音库中提取出来。

12)分别计算目标图像特征与各历史图像特征之间的各特征匹配距离。

若在历史哈希索引Index-Hash^history中，存在与当前第m条目标短语音

相对应的哈希索引Index-Hash^m相同的历史哈希索引Index-Hash^history，则将当前目标图像特征Hash-Feat^m与各历史图像特征Hash-Feat^history进行特征匹配，假设特征匹配距离为Dist_s，其计算公式如下：

Dist_s＝D(Hash-Feat^m,Hash-Feat^history),1≤s≤S

其中，S表示提取出的各历史特征Hash-Feat^history的总条数，按特征写入时间进行排序。s为具体的匹配距离索引。为了加快计算速度，优选可以仅对靠近当前目标图像特征Hash-Feat^m的前t条历史图像特征进行特征匹配，且t满足条件1≤t≤S；特征匹配过程D，可以为欧式距离度量过程。

13)将各特征匹配距离转换为各重复度，并利用各重复度确定目标短语音是否为重复语音。

利用匹配距离Dist_s计算重复度Similar_s，其计算公式如下：

其中，Dist_max为S个匹配距离中最大匹配距离，具体Dist_max的选取需依据实际样本集进行获取，优选可以是Dist_max＝10000。

进一步的，利用各重复度确定目标短语音是否为重复语音，包括：

确定各重复度中的最大重复度，并将最大重复度与预设重复度阈值进行比较；

若最大重复度高于或等于预设重复度阈值，则确定目标短语音为重复语音，并舍弃目标短语音；

若最大重复度低于预设重复度阈值，则确定目标短语音不是重复语音，并将目标短语音保存至语音库。

示例性的，上述过程主要可以包括：

111)对生成的S个重复度Similar_s其进行排序，并查找到分值最高的重复度Similar_max及其对应的历史图像特征的哈希索引，具体公式如下：

112)判定是否为重复语音：

将查找到的分值最高的重复度Similar_max与预设重复度阈值T进行比较，并判段当前目标短语音是否为重复语音，具体公式如下：

其中，T为预设重复度阈值，依据实际样本集进行选取，优选可以是T＝90。

若判定结果Similar＝0，则将当前目标图像特征Hash-Feat^m与目标索引Index-Hash^m存储至语音库中；

否则，确定当前第m条目标短语音

是重复语音。此时可以将提取到的分值最高的重复度Similar_max对应的历史图像特征的哈希索引反馈至系统，完成最优重复度的获取。

实施例二

图2为本发明实施例二提供的一种语音去重方法的流程图。本实施例在上述各实施例的基础上，可选所述将所述MFCC特征矩阵转换为目标图像，包括：根据第一预设规则调整所述MFCC特征矩阵的行列比值，使得所述行列比值与所述目标图像的预设长宽比值相同；将调整行列比值后的所述MFCC特征矩阵转换为灰度图像，其中，调整行列比值后的所述MFCC特征矩阵中的每个元素对应所述灰度图像中的一个灰度值；将所述灰度图像转换为RGB三原色图像，将所述RGB三原色图像作为所述目标图像。进一步的，可选所述在根据预设第一规则调整所述MFCC特征矩阵的行列比值之前，还包括：对所述MFCC特征矩阵中的每个元素进行归一化处理；利用权重255对经过归一化处理后的所述每个元素做乘积处理，使得经过乘积处理后的所述MFCC特征矩阵中的每个元素的取值均在0到255之间。如图2所示，本实施例的方法具体包括：

S210、利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵。

S220、对MFCC特征矩阵中的每个元素进行归一化处理。

由于MFCC特征矩阵中的各个MFCC特征是分别利用MFCC算法获取到的，因此，可以将各个MFCC特征置于同一度量维度下进行度量。优选的，可以对MFCC特征矩阵中的每个元素进行归一化处理。

S230、利用权重255对经过归一化处理后的每个元素做乘积处理，使得经过乘积处理后的MFCC特征矩阵中的每个元素的取值均在0到255之间。

为了方便后续将MFCC特征矩阵转换为视觉图像表达，优选可以利用权重255对归一化后的各特征元素做乘积处理，以使经过乘积处理后的各特征原色的取值在0到255之间。

上述S220和S230的过程如下公式所示：

其中，max为MFCC特征矩阵MFCC^m中的最大值，min为MFCC特征矩阵MFCC^m中的最小值。

S240、根据第一预设规则调整MFCC特征矩阵的行列比值，使得行列比值与目标图像的预设长宽比值相同。

本实施例中，需要将MFCC特征矩阵转换为目标图像，但是，一般的，深度学习模型对输入图像的尺寸都存在特殊的要求，例如，卷积神经网络模型CNN对输入图像的长宽比值要求为1:1，而MFCC特征矩阵的行和列分别对应目标短语音的总帧数和特征维度，其行列比值可能并不能满足深度学习模型对输入图像的需求。因此，如果直接将MFCC特征矩阵转换为目标图像，该转换后的目标图像可能并不能作为深度学习网络的输入。因此，可以根据第一预设规则调整MFCC特征矩阵的行列比值，使得行列比值与目标图像的预设长宽比值相同。其中，目标图像的预设长宽比值即为深度学习模型所要求的输入图像的长宽比值。

以深度学习模型为卷积神经网络CNN为例，由于卷积神经网络CNN的输入图像长宽比为1:1，且当前短语音MFCC特征MFCC^m的帧数为N，特征维度为D，故可以根据下述公式将MFCC特征矩阵重新整合为MFCC^m。

其中，Mean为当前短语音MFCC特征MFCC^m的均值；P和Q在取值时分别为向上取整。

S250、将调整行列比值后的MFCC特征矩阵转换为灰度图像，其中，调整行列比值后的MFCC特征矩阵中的每个元素对应灰度图像中的一个灰度值。

其中，在将调整行列比值后的MFCC特征矩阵转换为灰度图像之后，优选可以根据深度学习模型对输入图像的尺寸要求，对灰度图像进行尺寸缩放处理。

S260、将灰度图像转换为RGB三原色图像，将RGB三原色图像作为目标图像。

其中，将灰度图像转换为RGB三原色图像，即将每个灰度值转换为由R、G、B三个颜色通道来表示。

S270、基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引。

S280、根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音。

本实施例提供的语音去重方法，在上述各实施例的基础上，对转换为目标图像的MFCC特征矩阵进行归一化以及加权处理，并适应性的调整处理后的MFCC特征矩阵的行列比值，在克服了现有语音去重方法忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定的不足，并基于语音内容的层面，实现了快速有效地对语音数据进行去重处理的效果的同时，使得语音去重的结果更加精确。

实施例三

图3为本发明实施例三提供的一种语音去重方法的流程图。本实施例在上述各实施例的基础上，可选基于深度学习模型和特征降维算法，提取所述目标图像的目标图像特征，包括：将所述目标图像输入所述深度学习模型中，并经过所述最后一层全连接层进行特征降维调整，输出具有预设维度的所述目标图像特征，其中，所述全连接层利用特征降维算法设置。进一步的，可选所述确定所述目标图像特征的目标索引，包括：对所述目标图像特征每个维度上的元素进行归一化处理；利用第二预设规则，将经过归一化处理后的所述每个维度上的元素进行二值量化，得到具有所述预设维度位数的二值编码，将所述二值编码作为所述目标索引。如图3所示，本实施例的方法具体包括：

S310、利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像。

S320、将目标图像输入深度学习模型中，并经过最后一层全连接层进行特征降维调整，输出具有预设维度的目标图像特征，其中，全连接层利用特征降维算法设置。

示例性的，深度学习模型为卷积神经网络模型CNN，特征降维算法为深度哈希算法，其中，卷积神经网络模型CNN的最后一个全连接层为深度哈希全连接层，用于降低最终输出的图像特征的特征维度。利用卷积神经网络模型CNN和深度哈希算法，获取当前目标图像Image^m在哈希全连接层的卷积映射，得到哈希图像特征Hash-Feat^m。

上述过程的具体公式如下：

其中D_hash为哈希图像特征的特征维度。

S330、对目标图像特征每个维度上的元素进行归一化处理。

该过程的具体公式如下：

其中，max为目标图像特征Hash-Feat^m中的最大值，min为目标图像特征Hash-Feat^m中的最小值，在该过程中，优选可以利用权重255对经过归一化处理后的每个特征元素做乘积处理，使得经过乘积处理后的每个特征元素的取值均在0到255之间。

S340、利用第二预设规则，将经过归一化处理后的每个维度上的元素进行二值量化，得到具有预设维度位数的二值编码，将二值编码作为目标索引。

优选的，上述经过归一化及加权处理后的每个维度上的元素的取值均在0到255之间，可以根据第二预设规则对每个维度上的元素进行二值量化，即将每个维度上的元素的取值范围0到255划分为第一取值范围和第二取值范围，使得在第一取值范围内的元素对应的二值量化值为1，使得在第二取值范围内的元素对应的二值量化值为0。经过上述二值量化处理，得到具有预设维度位数的二值编码，并将该二值编码作为目标索引。示例性的，预设维度位数为32，则目标索引为32位的二值编码，其中，二值编码中的每一位的取值可以是0也可以是1。

以构建哈希索引Index-Hash^m为例，上述第二预设规则可以用如下公式表示：

S350、根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音。

本实施例提供的语音去重方法，在上述各实施例的基础上，通过将目标图像输入深度学习模型中，并经过最后一层全连接层进行特征降维调整，输出具有预设维度的目标图像特征，其中，全连接层利用特征降维算法设置，对目标图像特征每个维度上的元素进行归一化处理，并利用第二预设规则，将经过归一化处理后的每个维度上的元素进行二值量化，得到具有预设维度位数的二值编码，将二值编码作为目标索引，克服了现有语音去重方法忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定的不足，并基于语音内容的层面，实现了快速有效地对语音数据进行去重处理的效果。

实施例四

图4是本发明实施例四中的一种语音去重装置的结构示意图。如图4所示，语音去重装置包括：

目标图像转换模块410，用于利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像；

特征与索引确定模块420，用于基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引；

重复语音确定模块430，用于根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音。

本实施例提供的语音去重装置，通过目标图像转换模块利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像，利用特征与索引确定模块基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引，并利用重复语音确定模块根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音，克服了现有语音去重方法忽视了语音内容的深层信息，仅能对内容相似的两份语音进行粗略的评定的不足，并基于语音内容的层面，实现了快速有效地对语音数据进行去重处理的效果。

在上述各实施例的基础上，进一步的，目标图像转换模块410可以包括：

行列比值调整单元，用于根据第一预设规则调整MFCC特征矩阵的行列比值，使得行列比值与目标图像的预设长宽比值相同；

灰度图像转换单元，用于将调整行列比值后的MFCC特征矩阵转换为灰度图像，其中，调整行列比值后的MFCC特征矩阵中的每个元素对应灰度图像中的一个灰度值；

目标图像获取单元，用于将灰度图像转换为RGB三原色图像，将RGB三原色图像作为目标图像。

进一步的，目标图像转换模块410还可以包括：

第一归一化处理单元，用于在根据预设第一规则调整MFCC特征矩阵的行列比值之前，对MFCC特征矩阵中的每个元素进行归一化处理；

乘积处理单元，用于利用权重255对经过归一化处理后的每个元素做乘积处理，使得经过乘积处理后的MFCC特征矩阵中的每个元素的取值均在0到255之间。

进一步的，特征与索引确定模块420可以包括：

目标图像特征确定单元，用于将目标图像输入深度学习模型中，并经过最后一层全连接层进行特征降维调整，输出具有预设维度的目标图像特征，其中，全连接层利用特征降维算法设置。

进一步的，特征与索引确定模块420还可以包括：

第二归一处理单元，用于对目标图像特征每个维度上的元素进行归一化处理；

目标索引确定单元，用于利用第二预设规则，将经过归一化处理后的每个维度上的元素进行二值量化，得到具有预设维度位数的二值编码，将二值编码作为目标索引。

进一步的，重复语音确定模块430可以包括：

历史图像特征查找单元，用于利用目标索引在语音库中查找各历史图像特征，其中，各历史图像特征与目标图像特征具有相同的目标索引；

特征匹配距离计算单元，用于分别计算目标图像特征与各历史图像特征之间的各特征匹配距离；

重复语音确定单元，用于利用第三预设规则，将各特征匹配距离转换为各重复度，并利用各重复度确定目标短语音是否为重复语音。

进一步的，重复语音确定单元具体用于：

本发明实施例所提供的语音去重装置可执行本发明任意实施例所提供的语音去重方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的语音去重服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性语音去重服务器512的框图。图5显示的语音去重服务器512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，语音去重服务器512以通用计算设备的形式表现。语音去重服务器512的组件可以包括但不限于：一个或者多个处理器516，存储器528，连接不同系统组件(包括存储器528和处理器516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

语音去重服务器512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被语音去重服务器512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)530和/或高速缓存存储器532。语音去重服务器512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储装置534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

语音去重服务器512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等，其中，显示器524可根据实际需要决定是否配置)通信，还可与一个或者多个使得用户能与该语音去重服务器512交互的设备通信，和/或与使得该语音去重服务器512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，语音去重服务器512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与语音去重服务器512的其它模块通信。应当明白，尽管图5中未示出，可以结合语音去重服务器512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储装置等。

处理器516通过运行存储在存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音去重方法。

实施例六

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的语音去重方法，包括：

利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将MFCC特征矩阵转换为目标图像；

基于深度学习模型和特征降维算法，提取目标图像的目标图像特征，并确定目标图像特征的目标索引；

根据目标索引确定与各历史短语音相对应的各历史图像特征，利用各历史图像特征与目标图像特征之间的重复度，确定目标短语音是否为重复语音。

当然，本发明实施例所提供的计算机可读存储介质，其上存储的计算机程序不限于执行如上所述的方法操作，还可以执行本发明任意实施例所提供的基于语音去重服务器的语音去重方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音去重方法，其特征在于，包括：

在所述利用梅尔频率倒谱系数MFCC算法获取目标短语音的MFCC特征矩阵，并将所述MFCC特征矩阵转换为目标图像之前，还包括：

依据预设语音时长，将所述目标短语音从目标长语音信号中进行提取；

依据预设帧长，将所述目标短语音分为各帧，其中，所述依据预设帧长，将所述目标短语音分为各帧，包括：

依据预设帧移使相邻两帧之间存在重叠区域；基于深度学习模型和特征降维算法，提取所述目标图像的目标图像特征，并确定所述目标图像特征的目标索引；

根据所述目标索引确定与各历史短语音相对应的各历史图像特征，利用所述各历史图像特征与所述目标图像特征之间的重复度，确定所述目标短语音是否为重复语音；所述根据所述目标索引确定与各历史短语音相对应的各历史图像特征，利用所述各历史图像特征与所述目标图像特征之间的重复度，确定所述目标短语音是否为重复语音，包括：

利用所述目标索引在语音库中查找各历史图像特征，其中，所述各历史图像特征与所述目标图像特征具有相同的目标索引；

分别计算所述目标图像特征与所述各历史图像特征之间的各特征匹配距离；

利用第三预设规则，将所述各特征匹配距离转换为各重复度，并利用所述各重复度确定所述目标短语音是否为重复语音；所述将所述MFCC特征矩阵转换为目标图像，包括：

对所述MFCC特征矩阵中的每个元素进行归一化处理；

根据第一预设规则调整所述MFCC特征矩阵的行列比值，使得所述行列比值与所述目标图像的预设长宽比值相同；

将调整行列比值后的所述MFCC特征矩阵转换为灰度图像，其中，调整行列比值后的所述MFCC特征矩阵中的每个元素对应所述灰度图像中的一个灰度值；

将所述灰度图像转换为RGB三原色图像，将所述RGB三原色图像作为所述目标图像。

2.根据权利要求1所述的方法，其特征在于，在所述根据预设第一规则调整所述MFCC特征矩阵的行列比值之前，还包括：

利用权重255对经过归一化处理后的所述每个元素做乘积处理，使得经过乘积处理后的所述MFCC特征矩阵中的每个元素的取值均在0到255之间。

3.根据权利要求1所述的方法，其特征在于，基于深度学习模型和特征降维算法，提取所述目标图像的目标图像特征，包括：

将所述目标图像输入所述深度学习模型中，并经过最后一层全连接层进行特征降维调整，输出具有预设维度的所述目标图像特征，其中，所述全连接层利用特征降维算法设置。

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标图像特征的目标索引，包括：

对所述目标图像特征每个维度上的元素进行归一化处理；

利用第二预设规则，将经过归一化处理后的所述每个维度上的元素进行二值量化，得到具有所述预设维度位数的二值编码，将所述二值编码作为所述目标索引。

5.根据权利要求1所述的方法，其特征在于，所述利用所述各重复度确定所述目标短语音是否为重复语音，包括：

确定所述各重复度中的最大重复度，并将所述最大重复度与预设重复度阈值进行比较；

若所述最大重复度高于或等于预设重复度阈值，则确定所述目标短语音为重复语音，并舍弃所述目标短语音；

若所述最大重复度低于预设重复度阈值，则确定所述目标短语音不是重复语音，并将所述目标短语音保存至所述语音库。

6.一种语音去重装置，其特征在于，包括：

所述目标图像转换模块，包括：

目标图像获取单元，用于将灰度图像转换为RGB三原色图像，将RGB三原色图像作为目标图像；

在所述目标图像转换模块之前，还包括：

目标短语音提取单元，用于依据预设语音时长，将所述目标短语音从目标长语音信号中进行提取；

第一帧长提取单元，用于依据预设帧长，将所述目标短语音分为各帧，其中，所述第一帧长提取单元，包括：

第一帧长提取子单元，用于依据预设帧移使相邻两帧之间存在重叠区域；特征与索引确定模块，用于基于深度学习模型和特征降维算法，提取所述目标图像的目标图像特征，并确定所述目标图像特征的目标索引；

重复语音确定模块，用于根据所述目标索引确定与各历史短语音相对应的各历史图像特征，利用所述各历史图像特征与所述目标图像特征之间的重复度，确定所述目标短语音是否为重复语音；

所述重复语音确定模块包括：

第一图像特征查找单元，用于利用所述目标索引在语音库中查找各历史图像特征，其中，所述各历史图像特征与所述目标图像特征具有相同的目标索引；

特征匹配距离计算单元，用于分别计算所述目标图像特征与所述各历史图像特征之间的各特征匹配距离；

第一重复语音确定单元，用于利用第三预设规则，将所述各特征匹配距离转换为各重复度，并利用所述各重复度确定所述目标短语音是否为重复语音。

7.一种语音去重服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的语音去重方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的语音去重方法。