CN114255741B

CN114255741B - 重复音频检测方法、设备、存储介质

Info

Publication number: CN114255741B
Application number: CN202210184493.3A
Authority: CN
Inventors: 杨栋; 刘名乐; 曹木勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-10
Anticipated expiration: 2042-02-28
Also published as: CN114255741A

Abstract

本申请提供了一种重复音频检测方法、设备、存储介质，该方法包括：对待检测语音进行处理，得到待检测语音的语谱图；确定语谱图的N个特征点，N为大于1的整数；根据N个特征点中每个特征点与每个特征点周围的M个特征点，得到每个特征点对应的M个第一张量，M为大于1的整数；根据每个特征点对应的M个第一张量，确定待检测语音中是否存在重复音频。从而可以准确地检测语音中的重复音频。

Description

重复音频检测方法、设备、存储介质

技术领域

本申请实施例涉及音频处理技术领域，尤其涉及一种重复音频检测方法、设备、存储介质。

背景技术

目前经常存在非法篡改语音和在语音中非法插播广告的情况，通常在非法篡改语音情况下，语音中会存在重复的非法篡改音频，同样的，在非法插播广告的情况下，语音中会存在重复的非法广告。为了处理这些非法篡改音频和非法广告，检测重复音频至关重要。

当前所采用的重复音频检测方法是：将语音进行分割，得到多个语音片段，提取每个语音片段的声学特征，如能量特征、基频特征等，每个语音片段的声学特征构成一个声学特征向量，进一步地，可以基于每两个语音片段的声学特征向量确定这两个语音片段的相似性，当这两个语音片段的相似性达到预设阈值时，确定这两个语音片段是重复音频。

然而，如果语音中引入了一下至少一种情况：语音中存在噪声污染、语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真等等，那么提取到的某些语音片段的声学特征可能不准确，从而导致无法准确地检测语音中的重复音频。

发明内容

本申请提供一种重复音频检测方法、设备、存储介质，从而可以准确地检测语音中的重复音频。

第一方面，提供一种重复音频检测方法，包括：对待检测语音进行处理，得到待检测语音的语谱图；确定语谱图的N个特征点，N为大于1的整数；根据N个特征点中每个特征点与每个特征点周围的M个特征点，得到每个特征点对应的M个第一张量，M为大于1的整数；根据每个特征点对应的M个第一张量，确定待检测语音中是否存在重复音频。

第二方面，提供一种重复音频检测装置，包括：处理模块、第一确定模块、计算模块和第二确定模块，处理模块用于对待检测语音进行处理，得到待检测语音的语谱图；第一确定模块用于确定语谱图的N个特征点，N为大于1的整数；计算模块用于根据N个特征点中每个特征点与每个特征点周围的M个特征点，得到每个特征点对应的M个第一张量，M为大于1的整数；第二确定模块用于根据每个特征点对应的M个第一张量，确定待检测语音中是否存在重复音频。

第三方面，提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。

第四方面，提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

第五方面，提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

第六方面，提供一种计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

通过本申请提供的技术方案，即使由于噪声污染、丢帧、语谱图缺失、语音播放器在有些时间段失真导致语谱图中某些特征点周围的部分特征点发生错误、丢失等情况下，但是在本申请中，可以基于任一个特征点与该特征点周围至少一个特征点，得到该任一个特征点对应的多个第一张量，通过这些第一张量来检测语音中的重复音频，从而可以准确地检测语音中的重复音频。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种重复音频检测方法的流程图；

图2为本申请实施例提供的另一种重复音频检测方法的流程图；

图3为本申请一实施例提供的特征点之间所形成的向量的示意图；

图4为本申请实施例提供的再一种重复音频检测方法的流程图；

图5为本申请另一实施例提供的特征点之间所形成的向量的示意图；

图6为本申请再一实施例提供的特征点之间所形成的向量的示意图；

图7为本申请实施例提供的又一种重复音频检测方法的流程图；

图8为本申请实施例提供的一种重复音频检测装置的示意图；

图9是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本申请技术方案之前，下面先对本申请技术方案的相关知识进行说明：

子带分解：将原始语音由时间域转变为频率域，然后将其分割为若干个子频带。

语谱图：其是频谱分析视图，如果针对语音数据的话，叫语谱图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，一个点的颜色越深，表示该点的语音能量越强，相反，一个点的颜色越浅，表示该点的语音能量越弱。

嵌入（embedding）处理：一种降维处理方式，例如：将一个向量或者多个向量映射为一个表征向量。

特征点提取：通过一定的算法提取语音中具有特殊属性的点，比如能量峰值点、谷值点、频率突变点等等。

张量：由若干坐标系改变时满足一定坐标转化关系的有序数组成的集合。张量是矢量和矩阵概念的推广，标量是零阶张量，矢量是一阶张量，矩阵是二阶张量，而三阶张量好比是立方体矩阵。

下面将对本申请技术方案的技术问题和发明构思进行阐述：

如上所述，如果语音中引入了一下至少一种情况：语音中存在噪声污染、语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真等等，那么按照现有技术所提取到的某些语音片段的声学特征可能不准确，从而导致无法准确地检测语音中的重复音频。

为了解决上述技术问题，即使由于噪声污染、丢帧、语谱图缺失、语音播放器在有些时间段失真导致语谱图中某些特征点周围的部分特征点发生错误、丢失等情况下，但是在本申请中，可以基于任一个特征点与该特征点周围至少一个特征点，得到该任一个特征点对应的多个张量，通过这些张量来检测语音中的重复音频。

本申请技术方案可以应用于如下场景，但不限于此：非法篡改语音场景、在语音中非法插播广告的场景。

应理解的是，本申请中的语音可以是单人或多人游戏交互中产生的语音，本申请对此不做限制。其中，该游戏可以是云游戏，但不先于此。

下面将对本申请技术方案进行详细阐述：

图1为本申请实施例提供的一种重复音频检测方法的流程图，该方法可以由计算机、笔记本电脑、平板、甚至手机等电子设备执行，本申请对此不做限制，如图1所示，该方法包括：

S110：对待检测语音进行处理，得到待检测语音的语谱图；

S120：确定语谱图的N个特征点，N为大于1的整数；

S130：根据N个特征点中每个特征点与每个特征点周围的M个特征点，得到每个特征点对应的M个第一张量，M为大于1的整数；

S140：根据每个特征点对应的M个第一张量，确定待检测语音中是否存在重复音频。

应理解的是，待检测语音指的是需要检测是否存在重复音频的语音。

可选地，电子设备中的麦克风可以采集待检测语音，或者，其他电子设备通过自身的麦克风采集待检测语音，并将采集得到的待检测语音发送给用于执行重复音频检测方法的电子设备，总之，本申请对待检测语音的获取方式不做限制。

可选地，电子设备可以通过子带分解算法将待检测语音由时间域转变为频率域，然后将其分割为若干个子频带，进一步地，可以对若干个子频带进行处理，得到语谱图。

可选地，该子带分解算法可以是短时傅里叶变换，但不限于此。

可选地，每个子频带包括：时间信息、频率信息和能量、相位信息，电子设备可以去除子频带的相位信息，对能量求模的平方得到能量值，最后可以分别将时间信息、频率信息作为语谱图的横坐标和纵坐标，将每个点的能量值作为该点的坐标值。

可选地，上述N个特征点可以是语音中具有特殊属性的点，比如能量峰值、谷值点、频率突变点或者是语谱图中能量值大于预设阈值的N个点确定为语谱图的N个特征点等等，本申请对此不做限制。

可选地，每个特征点周围的M个特征点是该特征点预设范围内的M个特征点。

可选地，上述N个特征点分别对应的预设范围可以相同。

需要说明的是，每个特征点周围的M个特征点，这里的M对于不同的特征点可以不尽相同。例如：当语音中存在噪声污染时，虽然存在噪声污染，即噪声有些特点点发生了错误，但是每个特征点周围可以取相同数量的特征点，即每个特征点对应的M相同。当语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真时，这时假设本来规定取每个特征点周围相同数量的特征点，如P个特征点，P为大于1的整数，但是在这些情况下，可能有些特征点周围的部分特征点发生了丢失，这时导致针对有些特征点，只能取其周围少于P个的特征点，而有些特征点周围未受影响，针对这些特征点，可以取P个特征点，换句话讲，有些特征点对应的M小于P，有些特征点对应的M等于P。

应理解的是，针对任一个特征点，它周围的M个特征点与它对应的M个第一张量是一一对应关系，也就是说，周围的每个特征点对应一个第一张量。

应理解的是，考虑到可能出现语音中存在噪声污染、语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真等等情况，在本申请中，需要确定每个特征点对应的M个第一张量，M为大于1的整数，即确定多个第一张量。

可选地，第一张量可以是向量、矩阵或者是更高阶的张量，本申请对此不做限制。

可选地，图2为本申请实施例提供的另一种重复音频检测方法的流程图，如图2所示，上述S120包括：

S1201：确定每个特征点与每个特征点周围的M个特征点之间的M个第二张量；

S1202：根据每个特征点对应的M个第二张量，得到每个特征点对应的M个第一张量。

可选地，第二张量可以是向量、矩阵或者是更高阶的张量，本申请对此不做限制。

示例性地，假设每个特征点是一个二维特征点，用（t,f）表示，其中，t表示特征点的时间信息，f表示特征点的频率信息。对于每个特征点，它与它周围的任一个特征点之间形成一个向量，比如：以该特征点为起点，该特征点周围的一个特征点为终点形成这两个特征点之间的向量。

需要说明的是，该示例以特征点为二维特征点为例，实际上，每个特征点可以是D维特征点，D是大于1的正整数，基于此，所形成的两个特征点之间的向量是D维向量。

在一种可实现方式中，电子设备可以直接将第二张量作为第一张量。

示例性地，图3为本申请一实施例提供的特征点之间所形成的向量的示意图，如图3所示，对于特征点k1，假设取其周围的五个特征点，分别是特征点k2至k6，以k1为起点，分别以k2至k6为终点，可以得到五个向量，这五个向量即为五个第二向量，基于此，可以将这五个第二向量作为特征点k1对应的五个第一向量。

在另一种可实现方式中，电子设备可以获取每个特征点与每个特征点周围的特征点的坐标，根据每个特征点、每个特征点周围的特征点的坐标和每个特征点对应的M个第二张量，得到每个特征点对应的M个第一张量。

换句话讲，针对任一个特征点以及该特征点周围的任一个特征点，电子设备可以得到这两个特征点之间的第二张量，进一步地，可以根据这两个特征点的坐标以及该第二张量得到一个第一张量。

可选地，假设将特征点ki周围的任一个特征点称为第一特征点，那么针对特征点ki以及第一特征点，电子设备可以确定这两个特征点之间的第二张量，并且可以将特征点ki的坐标、第一特征点的坐标与该第二张量进行组合，得到特征点ki对应的一个第一张量。或者，电子设备可以将特征点ki的坐标、第一特征点的坐标与该第二张量中的分量进行一定的计算，如求和或者求乘积等，得到特征点ki对应的一个第一张量，总之，本申请对第一张量的计算方式不做限制。

示例性地，假设对于特征点k1，其坐标是（t1,f1），假设取其周围的五个特征点，分别是特征点k2至k6，它们的坐标分别是（t2,f2），（t3,f3），（t4,f4），（t5,f5），（t6,f6），以k1为起点，分别以k2至k6为终点，可以得到五个第二向量，分别为：（t2-t1,f2-f1）,（t3-t1,f3-f1）,（t4-t1,f4-f1）,（t5-t1,f5-f1）,（t6-t1,f6-f1），将特征点k1与k2的坐标加入至第二向量（t2-t1,f2-f1）中，可以得到第一向量（t2-t1,f2-f1,t1,f1, t2,f2），将特征点k1与k3的坐标加入至第二向量（t3-t1,f3-f1）中，可以得到第一向量（t3-t1,f3-f1,t1,f1, t3,f3），将特征点k1与k4的坐标加入至第二向量（t4-t1,f4-f1）中，可以得到第一向量（t4-t1,f4-f1,t1,f1, t4,f4），将特征点k1与k5的坐标加入至第二向量（t5-t1,f5-f1）中，可以得到第一向量（t5-t1,f5-f1,t1,f1, t5,f5），将特征点k1与k2的坐标加入至第二向量（t6-t1,f6-f1）中，可以得到第一向量（t6-t1,f6-f1,t1,f1, t6,f6）。

需要说明的是，在该示例中，将这两个特征点的坐标与第二向量的组合方式是：将这两个特征点的坐标以向量分量的形式加入至第二向量中，并且这两个特征点的坐标排列在第二向量之后。实际上，这两个特征点的坐标也可以排列在第二向量之前。又或者特征点k1的坐标可以排列在第二向量之前，其周围的任一个特征点kj的坐标可以排列在第二向量之后，其中，j=2,3……6。再或者特征点k1的坐标可以排列在第二向量之后，其周围的任一个特征点kj的坐标可以排列在第二向量之前。总之，本申请对特征点的坐标与第二向量的组合方式不做限制。

可选地，特征点的坐标与第二向量的组合方式可以是预定义的，也可以是电子设备指定的等，本申请对此不做限制。

示例性地，假设对于特征点k1，其坐标是（t1,f1），假设取其周围的五个特征点，分别是特征点k2至k6，它们的坐标分别是（t2,f2），（t3,f3），（t4,f4），（t5,f5），（t6,f6），以k1为起点，分别以k2至k6为终点，可以得到五个第二向量，分别为：（t2-t1,f2-f1）,（t3-t1,f3-f1）,（t4-t1,f4-f1）,（t5-t1,f5-f1）,（t6-t1,f6-f1）。将特征点k1的坐标与第二向量（t2-t1,f2-f1）的两个分量进行相加，得到向量（t2,f2），再将特征点k2的坐标与该向量的两个分量分别相乘，最终得到一个第一向量（t2*t2,f2*f2）。类似的，将特征点k1的坐标与第二向量（t3-t1,f3-f1）的两个分量进行相加，得到向量（t3,f3），再将特征点k3的坐标与该向量的两个分量分别相乘，最终得到一个第一向量（t3*t3,f3*f3）。将特征点k1的坐标与第二向量（t4-t1,f4-f1）的两个分量进行相加，得到向量（t4,f4），再将特征点k4的坐标与该向量的两个分量分别相乘，最终得到一个第一向量（t4*t4,f4*f4）。将特征点k1的坐标与第二向量（t5-t1,f5-f1）的两个分量进行相加，得到向量（t5,f5），再将特征点k5的坐标与该向量的两个分量分别相乘，最终得到一个第一向量（t5*t5,f5*f5）。将特征点k1的坐标与第二向量（t6-t1,f6-f1）的两个分量进行相加，得到向量（t6,f6），再将特征点k6的坐标与该向量的两个分量分别相乘，最终得到一个第一向量（t6*t6,f6*f6）。

需要说明的是，在该示例中，电子设备可以将特征点ki的坐标与该第二向量中的分量进行求和运算，再对得到的向量与第一特征点的坐标进行求乘积运算。实际上，电子设备也可以将第一特征点的坐标与该第二向量中的分量进行求和运算，再对得到的向量与特征点ki的坐标进行求乘积运算。总之，本申请对特征点ki的坐标、第一特征点的坐标与第二向量之间所采用的计算方式不做限制。

在电子设备获取到每个特征点对应的至少一个第一张量之后，可以通过如下可实现方式来检测语音中是否存在重复音频，但不限于此：

可实现方式一，结合图1和图4所示，上述S140可以包括如下步骤：

S1401a：将每个特征点对应的M个第一张量转换为至少一个数值；

S1402a：根据每个特征点对应的至少一个数值，确定待检测语音中是否存在重复音频。

应理解的是，电子设备可以将M个第一张量转换为M个数值，其中，M个第一张量与M个数值一一对应。或者，电子设备可以将M个第一张量转换为一个数值。再或者，电子设备可以将M个第一张量转换为Q个数值，Q为大于1且小于M的整数。

示例性地，假设对于特征点k1，其坐标是（t1,f1），假设取其周围的五个特征点，分别是特征点k2至k6，它们的坐标分别是（t2,f2），（t3,f3），（t4,f4），（t5,f5），（t6,f6），电子设备得到了5个第一向量，分别记为a1,a2,a3,a4和a5，电子设备可以将这5个第一向量分别转换为5个数值，分别为b1,b2,b3,b4和b5。

示例性地，假设对于特征点k1，其坐标是（t1,f1），假设取其周围的五个特征点，分别是特征点k2至k6，它们的坐标分别是（t2,f2），（t3,f3），（t4,f4），（t5,f5），（t6,f6），电子设备得到了5个第一向量，分别记为a1,a2,a3,a4和a5，电子设备可以将这5个第一向量分别转换为1个数值b。

示例性地，假设对于特征点k1，其坐标是（t1,f1），假设取其周围的五个特征点，分别是特征点k2至k6，它们的坐标分别是（t2,f2），（t3,f3），（t4,f4），（t5,f5），（t6,f6），电子设备得到了5个第一向量，分别记为a1,a2,a3,a4和a5，电子设备可以将a1,a2转换为1个数值b6，将a3,a4和a5转换为1个数值b7。

可选地，电子设备可以采用目标转换方式将M个第一张量转换为至少一个数值。该目标转换方式可以是嵌入（embedding）处理方式，但不限于此。

应理解的是，目标转换方式决定了将M个第一张量转换为几个数值。

可选地，若每个特征点对应多个数值，则确定N个特征点中相同数值达到预设数量的第一特征点对，并将第一特征点对在待检测语音中分别对应的音频确定为重复音频。

应理解的是，考虑到可能出现语音中存在噪声污染、语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真等等情况，对于重复音频来讲，该重复音频对应的特征点对未必对应的所有第一张量相同，进而未必对应的所有数值相同。因此，上述预设数量通常小于M，当然也可以等于M，本申请对预设数量的取值不做限制。

示例性地，在语音中存在噪声污染的情况下，可能有些特征点周围被噪声污染，如图5所示，假设特征点k1周围被噪声污染，使得周围的特征点k2发生错误，其他周围的特征点k3、k4、k5和k6正常。假设特征点k94周围未被噪声污染，其周围的特征点k95、k96、k97、k98和k99正常。进一步地，电子设备计算特征点k1与其周围的特征点之间的向量，得到5个向量，并将这5个向量转换为5个数值。类似的，电子设备计算特征点k94与其周围的特征点之间的向量，得到5个向量，并将这5个向量转换为5个数值。更进一步地，假设电子设备确定特征点k1与特征点k94存在4个相同的数值，不同的数值是：特征点k1与特征点k2构成的向量对应的数值，与，特征点k94与特征点k95构成的向量对应的数值。特征点k1与特征点k94具有相同数值的数量4大于预设数量3，则确定特征点k1与特征点k94在待检测语音中分别对应的音频为重复音频。

示例性地，语音在传输过程中发生了丢帧、语音对应的语谱图发生缺失或者语音播放器在有些时间段失真等等情况下，可能有些特征点周围的特征点存在缺失，如图6所示，假设特征点k1周围存在特征点缺失的情况，它周围的特征点是k3、k4、k5和k6。假设特征点k94周围未存在特征点缺失的情况，其周围的特征点k95、k96、k97、k98和k99。进一步地，电子设备计算特征点k1与其周围的特征点之间的向量，得到4个向量，并将这4个向量转换为4个数值。类似的，电子设备计算特征点k94与其周围的特征点之间的向量，得到5个向量，并将这5个向量转换为5个数值。更进一步地，假设电子设备确定特征点k1与特征点k94存在4个相同的数值。特征点k1与特征点k94具有相同数值的数量4大于预设数量3，则确定特征点k1与特征点k94在待检测语音中分别对应的音频为重复音频。

应理解的是，对于一个语谱图而言，它可能存在一个或者多个第一特征点对。

示例性地，假设一个语谱图中存在100个特征点，假设特征点k1与特征点k94具有相同数值的数量达到预设数量，假设特征点k1与特征点k30具有相同数值的数量也达到预设数量，那么特征点k1和特征点k94构成一个第一特征点对，特征点k1和特征点k30也构成一个第一特征点对，并且经过等价原理可知，特征点k30和特征点k94同样构成一个第一特征点对。

示例性地，假设一个语谱图中存在100个特征点，假设特征点k1与特征点k94具有相同数值的数量达到预设数量，假设特征点k2与特征点k98具有相同数值的数量也达到预设数量，那么特征点k1和特征点k94构成一个第一特征点对，特征点k2和特征点k98也构成一个第一特征点对。

应理解的是，电子设备可以对语谱图中的两两特征点，确定它们是否具有相同的数值，如果具有相同的数值，进一步地，电子设备可以确定相同数值的数量是否达到预设阈值，也就是说，这种方式是需要对语谱图中的两两特征点进行比较来确定第一特征点对。然而，这种方式导致对重复音频的检测效率较低。为了提高对重复音频的检测效率，本申请可以采用如下方式来确定第一特征点对，但不限于此：

可选地，电子设备对N个特征点分别对应的至少一个数值进行排序，得到数值序列；在数值序列中查询具有相同数值的第三特征点对；判断第三特征点对的相同数值是否达到预设数量；若第三特征点对的相同数值达到预设数量，则将第三特征点对确定为第一特征点对。

可选地，电子设备对N个特征点分别对应的至少一个数值可以从小到大进行排序，也可以从大到小排序，本申请对此不做限制。

应理解的是，第三特征点对指的是N个特征点中只要具有相同数值的特征点对，该第三特征点对只有相同数值的数量达到预设数量，才能是第一特征点对，否则，则不是第一特征点对。

示例性地，假设语谱图中存在100个特征点，取每个特征点周围的5个特征点，基于此，每个特征点对应5个数值，假设这100个特征点对应的数值序列为：1，2，3，3，4，4，5，5，6，7，9，10…400，400，401，402…500，从该序列中确定相同数值有3，4，5，400，进一步地，电子设备可以确定这四个数值分别对应的特征点，假设特征点k1具有数值3，4，5，特征点k96也具有数值3，4，5，特征点k2具有数值400，特征点k98也对应数值400，说明特征点k1与特征点k96构成的特征点对为第三特征点对，说明特征点k2与特征点k98构成的特征点对为第三特征点对。进一步地，电子设备确定特征点k1与特征点k96具有的相同数值的数量是3，其达到了预设数量3，基于此，可以将特征点k1与特征点k96构成的特征点对确定为第一特征点对。而电子设备确定特征点k2与特征点k98具有的相同数值的数量是1，其未达到了预设数量3，基于此，特征点k2与特征点k98构成的特征点对不是第一特征点对。

需要说明的是，本申请技术方案不仅适用于可能出现语音中存在噪声污染、语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真等等情况，也可以适用于干净语音，也就是说，待检测语音中不存在上述几种情况，在这种情况下，可以采用如下方式确定待检测语音中是否存在重复音频，但不限于此：

可选地，若每个特征点对应一个数值，则确定N个特征点中具有相同数值的第二特征点对，并将第二特征点对在待检测语音中分别对应的音频确定为重复音频。

示例性地，对于一条干净的待检测语音，假设对于特征点k1，取其周围的5个特征点，分别是特征点k2、k3、k4、k5和k6。对于特征点k94，取其周围的特征点，分别是特征点k95、k96、k97、k98和k99。进一步地，电子设备计算特征点k1与其周围的特征点之间的向量，得到5个向量，并将这5个向量转换为1个数值。类似的，电子设备计算特征点k94与其周围的特征点之间的向量，得到5个向量，并将这5个向量转换为1个数值。更进一步地，假设电子设备确定特征点k1与特征点k94对应的数值相同，则确定特征点k1与特征点k94在待检测语音中分别对应的音频为重复音频。

应理解的是，对于一个语谱图而言，它可能存在一个或者多个第二特征点对。

示例性地，假设一个语谱图中存在100个特征点，假设特征点k1与特征点k94具有相同数值，假设特征点k1与特征点k30具有相同数值，那么特征点k1和特征点k94构成一个第二特征点对，特征点k1和特征点k30也构成一个第二特征点对，并且经过等价原理可知，特征点k30和特征点k94同样构成一个第二特征点对。

示例性地，假设一个语谱图中存在100个特征点，假设特征点k1与特征点k94具有相同数值，假设特征点k2与特征点k98具有相同数值，那么特征点k1和特征点k94构成一个第二特征点对，特征点k2和特征点k98也构成一个第二特征点对。

可实现方式二，结合图1和图7所示，上述S140可以包括如下步骤：

S1401b：确定N个特征点中相同第一张量达到预设数量的第四特征点对，并将第四特征点对在待检测语音中分别对应的音频确定为重复音频。

应理解的是，考虑到可能出现语音中存在噪声污染、语音在传输过程中发生了丢帧情况，语音对应的语谱图发生缺失，语音播放器在有些时间段失真等等情况，对于重复音频来讲，该重复音频对应的特征点对未必对应的所有第一张量相同。因此，上述预设数量通常小于M，当然也可以等于M，本申请对预设数量的取值不做限制。

示例性地，在语音中存在噪声污染的情况下，可能有些特征点周围被噪声污染，如图5所示，假设特征点k1周围被噪声污染，使得周围的特征点k2发生错误，其他周围的特征点k3、k4、k5和k6正常。假设特征点k94周围未被噪声污染，其周围的特征点k95、k96、k97、k98和k99正常。进一步地，电子设备计算特征点k1与其周围的特征点之间的向量，得到5个向量。类似的，电子设备计算特征点k94与其周围的特征点之间的向量，得到5个向量。更进一步地，假设电子设备确定特征点k1与特征点k94存在4个相同的向量。特征点k1与特征点k94具有相同向量的数量4大于预设数量3，则确定特征点k1与特征点k94在待检测语音中分别对应的音频为重复音频。

示例性地，语音在传输过程中发生了丢帧、语音对应的语谱图发生缺失或者语音播放器在有些时间段失真等等情况下，可能有些特征点周围的特征点存在缺失，如图6所示，假设特征点k1周围存在特征点缺失的情况，它周围的特征点是k3、k4、k5和k6。假设特征点k94周围未存在特征点缺失的情况，其周围的特征点是k95、k96、k97、k98和k99。进一步地，电子设备计算特征点k1与其周围的特征点之间的向量，得到4个向量。类似的，电子设备计算特征点k94与其周围的特征点之间的向量，得到5个向量。更进一步地，假设电子设备确定特征点k1与特征点k94存在4个相同的向量。特征点k1与特征点k94具有相同向量的数量4大于预设数量3，则确定特征点k1与特征点k94在待检测语音中分别对应的音频为重复音频。

应理解的是，对于一个语谱图而言，它可能存在一个或者多个第四特征点对。

示例性地，假设一个语谱图中存在100个特征点，假设特征点k1与特征点k94具有相同向量的数量达到预设数量，假设特征点k1与特征点k30具有相同向量的数量也达到预设数量，那么特征点k1和特征点k94构成一个第四特征点对，特征点k1和特征点k30也构成一个第四特征点对，并且经过等价原理可知，特征点k30和特征点k94同样构成一个第四特征点对。

示例性地，假设一个语谱图中存在100个特征点，假设特征点k1与特征点k94具有相同向量的数量达到预设数量，假设特征点k2与特征点k98具有相同向量的数量也达到预设数量，那么特征点k1和特征点k94构成一个第四特征点对，特征点k2和特征点k98也构成一个第四特征点对。

综上，在本申请中，即使由于噪声污染、丢帧、语谱图缺失、语音播放器在有些时间段失真导致语谱图中某些特征点周围的部分特征点发生错误、丢失等情况下，但是在本申请中，可以基于任一个特征点与该特征点周围至少一个特征点，得到该任一个特征点对应的多个第一张量，通过这些第一张量来检测语音中的重复音频，从而可以准确地检测语音中的重复音频。

进一步地，电子设备可以将特征点对应的多个第一张量转换为数值，基于特征点对应的数值来检测语音中的重复音频，这种方式相对于直接基于张量来检测语音中的重复音频，由于数值相对于张量简单的多，从而可以提高对重复音频的检测效率。

进一步地，电子设备在基于特征点对应的数值来检测语音中的重复音频时，其可以对这些数值进行排序，得到数值序列；在数值序列中查询具有相同数值的第三特征点对；判断第三特征点对的相同数值是否达到预设数量；若第三特征点对的相同数值达到预设数量，则将第三特征点对确定为第一特征点对，最后将第一特征点对在待检测语音中分别对应的音频确定为重复音频。而无需电子设备对语谱图中两两特征点的数值进行比对，来检测重复音频，从而可以提高对重复音频的检测效率。

可选地，在本申请中，电子设备不但可以基于上述重复音频检测方法检测待检测语音中的重复音频，还可以确定重复音频在待检测语音中的位置，以方便用户尽快查找到重复音频。

在一种可实现方式中，假设将特征点ki周围的任一个特征点称为第一特征点，那么针对特征点ki以及第一特征点，电子设备可以确定这两个特征点之间的第二张量，并且可以将特征点ki的坐标、第一特征点的坐标与该第二张量进行组合，得到特征点ki对应的一个第一张量。基于此，电子设备可以对这些数值采用目标转换方式的逆变换方式，分别得到每个特征点的M个第一张量，如果电子设备对特征点的坐标、周围特征点的坐标和第二张量采用的是组合方式得到第一张量，那么直接可以从第一张量中取分量得到特征点对的坐标。

示例性地，假设对于特征点k1，其坐标是（t1,f1），假设取其周围的五个特征点，分别是特征点k2至k6，它们的坐标分别是（t2,f2），（t3,f3），（t4,f4），（t5,f5），（t6,f6），以k1为起点，分别以k2至k6为终点，可以得到五个第二向量，分别为：（t2-t1,f2-f1）,（t3-t1,f3-f1）,（t4-t1,f4-f1）,（t5-t1,f5-f1）,（t6-t1,f6-f1），将特征点k1与k2的坐标加入至第二向量（t2-t1,f2-f1）中，可以得到第一向量（t2-t1,f2-f1,t1,f1, t2,f2），将特征点k1与k3的坐标加入至第二向量（t3-t1,f3-f1）中，可以得到第一向量（t3-t1,f3-f1,t1,f1, t3,f3），将特征点k1与k4的坐标加入至第二向量（t4-t1,f4-f1）中，可以得到第一向量（t4-t1,f4-f1,t1,f1, t4,f4），将特征点k1与k5的坐标加入至第二向量（t5-t1,f5-f1）中，可以得到第一向量（t5-t1,f5-f1,t1,f1, t5,f5），将特征点k1与k2的坐标加入至第二向量（t6-t1,f6-f1）中，可以得到第一向量（t6-t1,f6-f1,t1,f1, t6,f6）。假设电子设备通过目标转换方式将这5个第一向量转换为5个数值。类似的，假设对于特征点k96，其也对应5个第一向量，电子设备通过目标转换方式将这5个第一向量转换为5个数值。假设特征点k1与特征点k96存在4个相同数值，其大于预设数量3，因此，该特征点k1与特征点k96在待检测语音中的音频是重复音频。基于此，电子设备可以首先对特征点k1对应的5个数值采用目标转换方式的逆变换，得到特征点k1对应的5个第一向量，并对特征点k96对应的5个数值采用目标转换方式的逆变换，得到特征点k96对应的5个第一向量，按照电子设备对特征点的坐标、周围特征点的坐标和第二张量采用的组合方式，可知特征点k1对应的每个第一向量中的第三个分量和第四个分量是特征点k1的坐标，特征点k1对应的每个第一向量中的第五个分量和第六个分量是其周围的一个特征点的坐标。例如：第一向量是（t2-t1,f2-f1,t1,f1, t2,f2），则电子设备可以确定特征点k1的坐标是（t1,f1），特征点k2的坐标是（t2,f2）。类似的，按照电子设备对特征点的坐标、周围特征点的坐标和第二张量采用的组合方式，可知特征点k96对应的每个第一向量中的第三个分量和第四个分量是特征点k96的坐标，特征点k96对应的每个第一向量中的第五个分量和第六个分量是其周围的一个特征点的坐标。需要说明的是，如果两个特征点对应的音频是重复音频，那么它们的频率信息应该是相同的，假设将特征点k1与特征点k96的频率记为f，因此，电子设备可以输出如下结果：【t1，t96，f】，其中，t96是特征点k96的频率。基于此，这两个特征点所对应的音频位置就被确定出来了，也就是说，该特征点对对应的重复音频的时间信息是t1和t96，频率是f。

在另一种可实现方式中，电子设备在确定每个特征点对应的第一张量以及将第一张量转换为对应数值时，可以建立数值与特征点的坐标之间的对应关系，如表1所示：

表1

特征点坐标	数值
		（t1,f1）	（1,2,3,9,10）
（t2,f2）	（4,5,6,7,8）
		……	……
（t96,f96）	（1,2,3,100,20）
		……	……

进一步地，假设电子设备确定特征点k1和k96对应重复音频，那么其可以查表的方式，根据这两个特征点对应的数值，得到它们各自的坐标是（t1,f1）和（t96,f96），需要说明的是，如果两个特征点对应的音频是重复音频，那么它们的频率信息应该是相同的，假设将特征点k1与特征点k96的频率记为f，因此，电子设备可以输出如下结果：【t1，t96，f】，其中，t96是特征点k96的频率。基于此，这两个特征点所对应的音频位置就被确定出来了，也就是说，该特征点对对应的重复音频的时间信息是t1和t96，频率是f。

在再一种可实现方式中，电子设备在确定每个特征点对应的第一张量以及将第一张量转换为对应数值时，可以建立数值与特征点的标识之间的对应关系，如表2所示：

表2

特征点坐标	数值
		k1	（1,2,3,9,10）
k2	（4,5,6,7,8）
		……	……
k96	（1,2,3,100,20）
		……	……

进一步地，假设电子设备确定特征点k1和k96对应重复音频，那么其可以查表的方式，根据这两个特征点对应的数值，得到它们各自的标识是k1和k96，更进一步地，电子设备可以根据这两个标识得到特征点k1的坐标（t1,f1）以及特征点k96的坐标（t96,f96），需要说明的是，如果两个特征点对应的音频是重复音频，那么它们的频率信息应该是相同的，假设将特征点k1与特征点k96的频率记为f，因此，电子设备可以输出如下结果：【t1，t96，f】，其中，t96是特征点k96的频率。基于此，这两个特征点所对应的音频位置就被确定出来了，也就是说，该特征点对对应的重复音频的时间信息是t1和t96，频率是f。

需要说明的是，一条待检测语音中可能存在至少一个重复音频，例如：电子设备输出的结果是：【t1，t96，f】，则表示待检测语音中存在一个重复音频。再例如，电子设备输出的结果是：【t1，t96，t30，f】，则表示待检测语音中存在三个重复音频。

综上，在本申请中，电子设备不但可以基于上述重复音频检测方法检测待检测语音中的重复音频，还可以确定重复音频在待检测语音中出现的次数，以及重复音频在待检测语音中的位置，以方便用户尽快查找到重复音频。

图8为本申请实施例提供的一种重复音频检测装置的示意图，如图8所示，该装置包括：处理模块810、第一确定模块820、计算模块830和第二确定模块840，其中，处理模块810用于对待检测语音进行处理，得到待检测语音的语谱图；第一确定模块820用于确定语谱图的N个特征点，N为大于1的整数；计算模块830用于根据N个特征点中每个特征点与每个特征点周围的M个特征点，得到每个特征点对应的M个第一张量，M为大于1的整数；第二确定模块840用于根据每个特征点对应的M个第一张量，确定待检测语音中是否存在重复音频。

可选地，第二确定模块840具体用于：将每个特征点对应的M个第一张量转换为至少一个数值；根据每个特征点对应的至少一个数值，确定待检测语音中是否存在重复音频。

可选地，第二确定模块840具体用于：若每个特征点对应多个数值，则确定N个特征点中相同数值达到预设数量的第一特征点对，并将第一特征点对在待检测语音中分别对应的音频确定为重复音频；若每个特征点对应一个数值，则确定N个特征点中具有相同数值的第二特征点对，并将第二特征点对在待检测语音中分别对应的音频确定为重复音频。

可选地，第二确定模块840具体用于：对N个特征点分别对应的至少一个数值进行排序，得到数值序列；在数值序列中查询具有相同数值的第三特征点对；判断第三特征点对的相同数值是否达到预设数量；若第三特征点对的相同数值达到预设数量，则将第三特征点对确定为第一特征点对。

可选地，第二确定模块840具体用于：对每个特征点对应的M个第一张量采用目标变换方式，得到每个特征点对应的至少一个数值。

可选地，每个特征点对应的每个第一张量包括：每个特征点的坐标和每个特征点周围的一个特征点的坐标；相应的，该装置还包括：逆变换模块850和第三确定模块860，其中，逆变换模块850用于对对应重复音频的特征点对中的两个特征点各自对应的至少一个数值采用目标变换方式的逆变换，得到两个特征点各自对应的至少一个第一张量；第三确定模块860用于根据两个特征点各自对应的至少一个第一张量确定两个特征点的坐标。

可选地，计算模块830具体用于：确定每个特征点与每个特征点周围的M个特征点之间的M个第二张量；根据每个特征点对应的M个第二张量，得到每个特征点对应的M个第一张量。

可选地，计算模块830具体用于：将每个特征点对应的M个第二张量确定为每个特征点对应的M个第一张量。

可选地，该装置还包括：获取模块870，用于在计算模块830根据每个特征点对应的M个第二张量，得到每个特征点对应的M个第一张量之前获取每个特征点与每个特征点周围的特征点的坐标；相应的，计算模块830具体用于：根据每个特征点、每个特征点周围的特征点的坐标和每个特征点对应的M个第二张量，得到每个特征点对应的M个第一张量。

可选地，计算模块830具体用于：对每个特征点的坐标、第一特征点的坐标、每个特征点与第一特征点之间的第二张量进行组合，得到每个特征点对应的一个第一张量；其中，第一特征点是每个特征点周围的任一个特征点。

可选地，第一确定模块820具体用于：将语谱图中能量值大于预设阈值的N个点确定为语谱图的N个特征点。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图8所示的装置可以执行上述方法实施例，并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图9是本申请实施例提供的电子设备的示意性框图。

如图9所示，该电子设备可包括：

存储器910和处理器920，该存储器910用于存储计算机程序，并将该程序代码传输给该处理器920。换言之，该处理器920可以从存储器910中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器920可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器920可以包括但不限于：

通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器910包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器910中，并由该处理器920执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图9所示，该电子设备还可包括：

收发器930，该收发器930可连接至该处理器920或存储器910。

其中，处理器920可以控制该收发器930与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器930可以包括发射机和接收机。收发器930还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种重复音频检测方法，其特征在于，包括：

对待检测语音进行处理，得到所述待检测语音的语谱图；

确定所述语谱图的N个第一特征点，N为大于1的整数；

确定每个所述第一特征点在预设范围内相邻的M个第二特征点，M为大于1的整数；

根据每个所述第一特征点分别与对应的M个第二特征点之间的向量以及每个所述第一特征点的坐标、对应的M个第二特征点的坐标，得到每个所述第一特征点对应的M个第一向量；

将每个所述第一特征点对应的M个第一向量转换为M个第一数值；

确定所述N个第一特征点中具有相同第一数值达到预设数量的特征点对，所述预设数量大于或等于3；

将具有相同第一数值达到预设数量的特征点对在所述待检测语音中分别对应的音频确定为重复音频。

2.根据权利要求1所述的方法，其特征在于，所述根据每个所述第一特征点分别与对应的M个第二特征点之间的向量以及每个所述第一特征点的坐标、对应的M个第二特征点的坐标，得到每个所述第一特征点对应的M个第一向量，包括：

针对每个所述第一特征点以及该第一特征点对应的任一个第二特征点，对该第一特征点与该第二特征点之间的向量、该第一特征点的坐标以及该第二特征点的坐标进行组合，得到该第一特征点对应的一个第一向量。

3.根据权利要求2所述的方法，其特征在于，所述对该第一特征点与该第二特征点之间的向量、该第一特征点的坐标以及该第二特征点的坐标进行组合，得到该第一特征点对应的一个第一向量，包括：

将该第一特征点的坐标、该第二特征点的坐标以向量分量的形式加入至该第一特征点与该第二特征点之间的向量中，得到该第一特征点对应的一个第一向量。

4.根据权利要求1所述的方法，其特征在于，所述根据每个所述第一特征点分别与对应的M个第二特征点之间的向量以及每个所述第一特征点的坐标、对应的M个第二特征点的坐标，得到每个所述第一特征点对应的M个第一向量，包括：

针对每个所述第一特征点以及该第一特征点对应的任一个第二特征点，对该第一特征点与该第二特征点之间的向量与该第一特征点的坐标、第二特征点的坐标进行计算，得到该第一特征点对应的一个第一向量。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述N个第一特征点中具有相同第一数值达到预设数量的特征点对，包括：

针对所述N个第一特征点中的任意两个第一特征点，若所述两个第一特征点对应的第一数值的数量均大于或等于所述预设数量，则判断所述两个第一特征点的相同第一数值的数量是否达到预设数量；

若所述两个第一特征点中任一个第一特征点对应的第一数值的数量小于所述预设数量，则不判断所述两个第一特征点的相同第一数值的数量是否达到预设数量。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述第一特征点与所述第二特征点均属于所述语谱图。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述N个第一特征点中具有相同第一数值达到预设数量的特征点对，包括：

对所述N个第一特征点分别对应的M个第一数值进行排序，得到数值序列；

在所述数值序列中查询具有相同第一数值的特征点对；

在具有相同第一数值的特征点对中确定具有相同第一数值达到预设数量的特征点对。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述将每个所述第一特征点对应的M个第一向量转换为M个第一数值，包括：

对每个所述第一特征点对应的M个第一向量采用目标变换方式，得到每个所述第一特征点对应的M个第一数值。

9.根据权利要求8所述的方法，其特征在于，每个所述第一特征点对应的每个第一向量包括：该第一特征点的坐标和该第一特征点对应的一个第二特征点的坐标；所述方法还包括：

对具有相同第一数值达到预设数量的特征点对各自对应的第一数值采用所述目标变换方式的逆变换，得到所述具有相同第一数值达到预设数量的特征点对各自对应的第一向量；

根据所述具有相同第一数值达到预设数量的特征点对各自对应的第一向量确定所述具有相同第一数值达到预设数量的特征点对的坐标。

10.根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述语谱图的N个第一特征点，包括：

将所述语谱图中能量值大于预设阈值的N个特征点确定为所述语谱图的N个第一特征点。

11.一种重复音频检测装置，其特征在于，包括：处理模块、确定模块和转换模块；

所述处理模块用于对待检测语音进行处理，得到所述待检测语音的语谱图；

所述确定模块用于确定所述语谱图的N个第一特征点，N为大于1的整数；

所述确定模块还用于确定每个所述第一特征点在预设范围内相邻的M个第二特征点，M为大于1的整数；

所述确定模块还用于根据每个所述第一特征点分别与对应的M个第二特征点之间的向量以及每个所述第一特征点的坐标、对应的M个第二特征点的坐标，得到每个所述第一特征点对应的M个第一向量；

所述转换模块用于将每个所述第一特征点对应的M个第一向量转换为M个第一数值；

所述确定模块还用于确定所述N个第一特征点中具有相同第一数值达到预设数量的特征点对；

所述确定模块还用于将具有相同第一数值达到预设数量的特征点对在所述待检测语音中分别对应的音频确定为重复音频。

12.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。