CN113555007B

CN113555007B - 语音拼接点检测方法及存储介质

Info

Publication number: CN113555007B
Application number: CN202111116267.3A
Authority: CN
Inventors: 傅睿博; 陶建华; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-14
Anticipated expiration: 2041-09-23
Also published as: CN113555007A; US11410685B1

Abstract

本公开涉及一种语音拼接点检测方法及存储介质，上述方法包括：获取待检测语音，并确定所述待检测语音的高频成分和低频成分；根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；根据所述特征序列对所述待检测语音进行语音拼接点检测。采用上述技术手段，解决现有技术中，通过单一的声学特征对语音拼接点进行检测，语音拼接点检测的准确率低的问题。

Description

语音拼接点检测方法及存储介质

技术领域

本公开涉及语音识别领域，尤其涉及一种语音拼接点检测方法及存储介质。

背景技术

为了捕获语音音频更有区分度的信息，音频或者语音的拼接点的检测至关重要。检测语音拼接点的传统技术中，往往采用的是单一的声学特征，比如常采用梅尔倒谱系数（Mel Frequency Cepstral Coefficient , MFCC），线性频率倒谱系数（Linear FrequencyCepstral Coefficient, LFCC），线性预测系数（Linear Predictive Coefficient，LPC）等单一的声学特征。通过单一的声学特征对语音拼接点进行检测，与音频拼接点实际差异所展示的特征可能存在不匹配，因此，可能会导致对语音拼接点的检测出现错误。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下技术问题：通过单一的声学特征对语音拼接点进行检测，语音拼接点检测的准确率低的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种语音拼接点检测方法及存储介质，以至少解决现有技术中，通过单一的声学特征对语音拼接点进行检测，语音拼接点检测的准确率低的问题。

本公开的目的是通过以下技术方案实现的：

第一方面，本公开的实施例提供了一种语音拼接点检测方法，包括：获取待检测语音，并确定所述待检测语音的高频成分和低频成分；根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；根据所述特征序列对所述待检测语音进行语音拼接点检测。

在一个示例性实施例中，所述根据所述特征序列对所述待检测语音进行语音拼接点检测，包括：以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵；通过聚类算法对所述第一距离矩阵进行处理，得到第二距离矩阵；根据所述第二距离矩阵对所述待检测语音进行所述语音拼接点检测。

在一个示例性实施例中，所述以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵之后，所述方法还包括：将所述第一距离矩阵中大于预设阈值的值更新为第一值，将所述第一距离矩阵中小于所述预设阈值的值更新为第二值，得到所述第二距离矩阵；将所述第二距离矩阵中所述第二值所对应的两帧语音确定为所述待检测语音的语音拼接点。

在一个示例性实施例中，所述将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，包括：将所述参数序列输入编码器网络，输出隐变量序列，其中，所述神经网络模型包括所述编码器网络；将所述隐变量序列输入解码器网络，输出所述特征序列，其中，所述神经网络模型包括所述解码器网络。

在一个示例性实施例中，所述编码器网络包括多层感知机网络；所述解码器网络包括：多层循环神经网络；其中，所述编码器网络和所述解码器网络对各自输入均是执行以帧为单位的操作。

在一个示例性实施例中，所述第一倒谱特征为梅尔频率倒谱系数；所述第二倒谱特征为常数倒谱系数。

在一个示例性实施例中，包括：获取待训练语音，其中，所述待训练语音包括：通过语音拼接得到的语音和未通过语音拼接得到的语音；根据所述待训练语音的高频成分和低频成分提取所述待训练语音所对应的第三倒谱特征和第四倒谱特征；以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列；对所述待训练语音的参数序列进行第一标注处理，并通过所述第一标注处理之后的参数序列对所述神经网络模型进行训练。

在一个示例性实施例中，所述以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列之后，所述方法还包括：定义所述待训练语音的参数序列的第三距离矩阵；对所述第三距离矩阵进行标注处理，并通过所述标注处理之后的第三距离矩阵对所述神经网络模型进行训练。

第二方面，本公开的实施例提供了另一种语音拼接点检测方法，包括：获取待检测语音，并确定所述待检测语音的高频成分和低频成分；根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；根据所述参数序列，通过神经网络模型对所述待检测语音进行语音拼接点检测，其中，所述神经网络模型已经通过训练，学习并保存有所述待检测语音与语音拼接点之间的对应关系。

第三方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的语音拼接点检测方法或图像处理的方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的语音拼接点检测方法或图像处理的方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：获取待检测语音，并确定所述待检测语音的高频成分和低频成分；根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；根据所述特征序列对所述待检测语音进行语音拼接点检测。因为，本公开实施例可以提取所述待检测语音的高频成分和低频成分之间的差异信息提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征，以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列，根据参数序列对所述待检测语音进行语音拼接点检测，因此，采用上述技术手段，可以解决现有技术中，通过单一的声学特征对语音拼接点进行检测，语音拼接点检测的准确率低的问题，进而提高检测语音拼接点的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了本公开实施例一种语音拼接点检测方法的计算机终端的硬件结构框图；

图2示意性示出了本公开实施例的一种语音拼接点检测方法的流程图（一）；

图3示意性示出了本公开实施例的一种语音拼接点检测方法的流程图（二）；

图4示意性示出了本公开实施例的一种语音拼接点检测装置的结构框图（一）；

图5示意性示出了本公开实施例的一种语音拼接点检测装置的结构框图（二）；

图6示意性示出了本公开实施例提供的一种电子设备的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本公开实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1示意性示出了本公开实施例的一种语音拼接点检测方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器（Microprocessor Unit，简称是MPU）或可编程逻辑器件（Programmable logic device，简称是PLD）等处理装置和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本公开实施例中的语音拼接点检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本公开实施例中提供了一种语音拼接点检测方法，图2示意性示出了本公开实施例的一种语音拼接点检测方法的流程图（一），如图2所示，该流程包括如下步骤：

步骤S202，获取待检测语音，并确定所述待检测语音的高频成分和低频成分；

步骤S204，根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；

步骤S206，以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；

步骤S208，将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；

步骤S210，根据所述特征序列对所述待检测语音进行语音拼接点检测。

需要说明的是，第一倒谱特征和第二倒谱特征均包括所述高频成分和所述低频成分，第一倒谱特征和第二倒谱特征不同点在于：第一倒谱特征和第二倒谱特征含有所述高频成分和所述低频成分的比例不同，比如：第一倒谱特征更加关注所述低频成分，第一倒谱特征含有的所述低频成分比所述高频成分更多，比如第一倒谱特征可以是梅尔倒谱系数（Mel Frequency Cepstral Coefficient , MFCC）；第二倒谱特征更加关注所述高频成分，第二倒谱特征含有的所述高频成分比所述低频成分更多，比如第二倒谱特征可以是常数Q变换倒谱系数（CQCC）。当然,第一倒谱特征可以是更加关注所述高频成分，第二倒谱特征更加关注所述低频成分。第一倒谱特征和第二倒谱特征各自的侧重点不一样就可以。

通过本公开，获取待检测语音，并确定所述待检测语音的高频成分和低频成分；根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；根据所述特征序列对所述待检测语音进行语音拼接点检测。因为，本公开实施例可以提取所述待检测语音的高频成分和低频成分之间的差异信息提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征，以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列，根据参数序列对所述待检测语音进行语音拼接点检测，因此，采用上述技术手段，可以解决现有技术中，通过单一的声学特征对语音拼接点进行检测，语音拼接点检测的准确率低的问题，进而提高检测语音拼接点的准确率。

在步骤S210中，根据所述特征序列对所述待检测语音进行语音拼接点检测，包括：以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵；通过聚类算法对所述第一距离矩阵进行处理，得到第二距离矩阵；根据所述第二距离矩阵对所述待检测语音进行所述语音拼接点检测。

为了理解该实施例，需要先说明神经网络模型的训练过程，在神经网络模型的训练中：

定义一个N*N维度的距离矩阵A_i,j，其中，

，距离矩阵A_i,j用于描述各帧音频之间的距离，也是神经网络模型的训练预测目标。i和j为所述特征序列中元素的序号，i和j也可以是所述特征序列中元素所对应所述待检测语音中任意两帧语音的序号，其中，x_i和x_j表示所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值。所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值可以是所述待检测语音中任意两帧语音所分别对应的所述特征序列中的元素的值。

其中，A_i,j可以通过如下的标注方式：

；

当第i帧语音与第j帧语音来源于同一音频，也就是第i帧语音与第j帧语音不是拼接音频，将A_i,j对应的元素标为1；同理，当第i帧语音与第j帧语音来源于不同音频，也就是第i帧语音与第j帧语音是拼接音频，将A_i,j对应的元素标为0。通过上述标注之后的A_i,j训练神经网络模型。

在训练神经网络模型完成之后，使用神经网络模型检测语音拼接点时：计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵，其中，第一距离矩阵可以是经过归一化处理之后的，第一距离矩阵中的元素的值大小可以在0到1之间。通过聚类算法对所述第一距离矩阵进行处理，将第一距离矩阵中大于预设阈值的元素的值更新为第一值，比如第一值可以为1，将所述第一距离矩阵中小于所述预设阈值的值更新为第二值，比如第二值可以为0，得到所述第二距离矩阵。假设预设阈值是0.6，那么将第一距离矩阵中值大于0.6的元素，更新为1，将第一距离矩阵中值小于0.6的元素，更新为0，得到的所述第二距离矩阵的元素要么是1，要么是0，所述第二距离矩阵同于距离矩阵A_i,j。将所述第二距离矩阵值为1的元素所对应的两帧语音判断为是来源于同一音频的，将所述第二距离矩阵值为0的元素所对应的两帧语音判断为是来源于不同音频的。

在步骤S210中，以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵之后，所述方法还包括：将所述第一距离矩阵中大于预设阈值的值更新为第一值，将所述第一距离矩阵中小于所述预设阈值的值更新为第二值，得到所述第二距离矩阵；将所述第二距离矩阵中所述第二值所对应的两帧语音确定为所述待检测语音的语音拼接点。

可选地，将所述第二距离矩阵中所述第一值所对应的两帧语音确定不是所述待检测语音的语音拼接点。

需要说明的是，判断所述第一值或者所述第二值所对应的两帧语音是不是所述待检测语音的语音拼接点，效果上等同于判断待检测语音是不是通过语音拼接得到的。

在步骤S208中，将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，包括：将所述参数序列输入编码器网络，输出隐变量序列，其中，所述神经网络模型包括所述编码器网络；将所述隐变量序列输入解码器网络，输出所述特征序列，其中，所述神经网络模型包括所述解码器网络。

神经网络模型可以是编码器网络和解码器网络组成的编码再解码的模型，神经网络模型也可以是包括了编码器网络、解码器网络、矩阵计算网络和检测网络，其中，矩阵计算网络用于实现上述求解第一距离矩阵和第二距离矩阵，检测网络用于实现根据所述第二距离矩阵对所述待检测语音进行所述语音拼接点检测。如果神经网络模型只包括了编码器网络和解码器网络，那么本公开实施例相当于给神经网络模型后再接矩阵计算网络和检测网络。

所述参数序列是一种关于第一倒谱特征和第二倒谱特征的组合声学参数的序列，所述特征序列可以是一种帧级别的一致性特征序列。

所述编码器网络包括多层感知机网络；所述解码器网络包括：多层循环神经网络；其中，所述编码器网络和所述解码器网络对各自输入均是执行以帧为单位的操作。

感知机网络用于实现感知机算法，感知机算法是一种很好的二分类在线算法，感知机算法要求是线性可分的模型，感知机对应于在输入的空间中将实例划分成正负样本，分离正负样本的是分离超平面，即判别的模型。在循环神经网络中，即一个序列当前的输出与前面的输出也有关，具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即循环神经网络中的隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。为了使得所述特征序列是帧级别的序列，所述编码器网络和所述解码器网络对各自输入执行的操作均是以帧为单位的。

所述第一倒谱特征为梅尔频率倒谱系数；所述第二倒谱特征为常数倒谱系数。

梅尔倒谱系数（Mel Frequency Cepstral Coefficient , MFCC），常数倒谱系数可以是常数Q变换倒谱系数CQCC。以提取语音的MFCC为例：对语音进行傅里叶变换获得频谱图，然后将频谱图与MEL倒谱系数相乘获得Mel谱特征，最后根据Mel谱特征提取MFCC系数。

在步骤S208之前，也就是将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列之前，对神经网络模型进行训练，包括：获取待训练语音，其中，所述待训练语音包括：通过语音拼接得到的语音和未通过语音拼接得到的语音；根据所述待训练语音的高频成分和低频成分提取所述待训练语音所对应的第三倒谱特征和第四倒谱特征；以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列；对所述待训练语音的参数序列进行第一标注处理，并通过所述第一标注处理之后的参数序列对所述神经网络模型进行训练。

需要说明的是，第三倒谱特征和第四倒谱特征实际上是同于第一倒谱特征和第二倒谱特征的，这里只是为了区分是从待训练语音还是从待检测语音中提取的特征。

需要说明的是，对所述待训练语音的参数序列进行第一标注处理，是对所述参数序列标注对应的所述特征序列。

本公开实施例通过所述标注处理之后的参数序列对所述神经网络模型进行训练，使得所述神经网络模型学习并保存有参数序列与所述特征序列之间的对应关系。进而，在通过神经网络模型对所述待检测语音进行语音拼接点检测时，通过神经网络模型输出所述特征序列，进而根据所述特征序列对所述待检测语音进行语音拼接点检测。

以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列之后，所述方法还包括：定义所述待训练语音的参数序列的第三距离矩阵；对所述第三距离矩阵进行标注处理，并通过所述标注处理之后的第三距离矩阵对所述神经网络模型进行训练。

定义的第三距离矩阵就是距离矩阵A_i,j。

可选地，定义所述待训练语音的参数序列的第三距离矩阵，包括：将所述参数序列输入编码器网络，输出隐变量序列；将所述隐变量序列输入解码器网络，输出所述特征序列；定义所述特征序列的第三距离矩阵。

在本公开实施例中提供了另一种语音拼接点检测方法，图3示意性示出了本公开实施例的一种语音拼接点检测方法的流程图（二），如图3所示，该流程包括如下步骤：

步骤S302，获取待检测语音，并确定所述待检测语音的高频成分和低频成分；

步骤S304，根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；

步骤S306，以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；

步骤S308，根据所述参数序列，通过神经网络模型对所述待检测语音进行语音拼接点检测，其中，所述神经网络模型已经通过训练，学习并保存有所述待检测语音与语音拼接点之间的对应关系。

通过本公开，获取待检测语音，并确定所述待检测语音的高频成分和低频成分；根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；根据所述参数序列，通过神经网络模型对所述待检测语音进行语音拼接点检测，其中，所述神经网络模型已经通过训练，学习并保存有所述待检测语音与语音拼接点之间的对应关系。因为，本公开实施例可以提取所述待检测语音的高频成分和低频成分之间的差异信息提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征，以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列，根据参数序列对所述待检测语音进行语音拼接点检测，因此，采用上述技术手段，可以解决现有技术中，通过单一的声学特征对语音拼接点进行检测，语音拼接点检测的准确率低的问题，进而提高检测语音拼接点的准确率。

将所述参数序列输入神经网络模型，输出所述待检测语音的语音拼接点。

在步骤S308之前，也就是根据所述参数序列，通过神经网络模型对所述待检测语音进行语音拼接点检测之前，对神经网络模型进行训练，包括：获取待训练语音，其中，所述待训练语音包括：通过语音拼接得到的语音和未通过语音拼接得到的语音；根据所述待训练语音的高频成分和低频成分提取所述待训练语音所对应的第三倒谱特征和第四倒谱特征；以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列；对所述待训练语音的参数序列进行第二标注处理，并通过所述第二标注处理之后的参数序列对所述神经网络模型进行训练。

需要说明的是，对所述待训练语音的参数序列进行第二标注处理，是对所述参数序列标注对应的语音拼接点。

本公开实施例通过所述标注处理之后的参数序列对所述神经网络模型进行训练，使得所述神经网络模型学习并保存有所述待检测语音与语音拼接点之间的对应关系。进而，在通过神经网络模型对所述待检测语音进行语音拼接点检测时，识别出所述待检测语音是不是通过语音拼接得到的，同时识别出语音拼接的位置。

定义的第三距离矩阵就是距离矩阵A_i,j。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（RandomAccessMemory，简称为RAM）、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，组件服务端，或者网络设备等）执行本公开各个实施例的方法。

在本实施例中还提供了一种语音拼接点检测装置，该语音拼接点检测装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4示意性示出了本公开可选实施例的一种语音拼接点检测装置的结构框图（一），如图4所示，该装置包括：

确定模块402，用于获取待检测语音，并确定所述待检测语音的高频成分和低频成分；

提取模块404，用于根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；

拼接模块406，用于以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；

模型模块408，用于将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；

检测模块410，用于根据所述特征序列对所述待检测语音进行语音拼接点检测。

可选地，检测模块410还用于以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵；通过聚类算法对所述第一距离矩阵进行处理，得到第二距离矩阵；根据所述第二距离矩阵对所述待检测语音进行所述语音拼接点检测。

定义一个N*N维度的距离矩阵A_i,j，其中，

其中，A_i,j可以通过如下的标注方式：

；

可选地，检测模块410还用于将所述第一距离矩阵中大于预设阈值的值更新为第一值，将所述第一距离矩阵中小于所述预设阈值的值更新为第二值，得到所述第二距离矩阵；将所述第二距离矩阵中所述第二值所对应的两帧语音确定为所述待检测语音的语音拼接点。

可选地，模型模块408还用于将所述参数序列输入编码器网络，输出隐变量序列，其中，所述神经网络模型包括所述编码器网络；将所述隐变量序列输入解码器网络，输出所述特征序列，其中，所述神经网络模型包括所述解码器网络。

可选地，模型模块408还用于获取待训练语音，其中，所述待训练语音包括：通过语音拼接得到的语音和未通过语音拼接得到的语音；根据所述待训练语音的高频成分和低频成分提取所述待训练语音所对应的第三倒谱特征和第四倒谱特征；以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列；对所述待训练语音的参数序列进行第一标注处理，并通过所述第一标注处理之后的参数序列对所述神经网络模型进行训练。

可选地，模型模块408还用于定义所述待训练语音的参数序列的第三距离矩阵；对所述第三距离矩阵进行标注处理，并通过所述标注处理之后的第三距离矩阵对所述神经网络模型进行训练。

定义的第三距离矩阵就是距离矩阵A_i,j。

可选地，模型模块408还用于将所述参数序列输入编码器网络，输出隐变量序列；将所述隐变量序列输入解码器网络，输出所述特征序列；定义所述特征序列的第三距离矩阵。

在本公开实施例中提供了另一种语音拼接点检测装置，图5示意性示出了本公开可选实施例的一种语音拼接点检测装置的结构框图（二），如图5所示，该装置包括：

获取模块502，用于获取待检测语音，并确定所述待检测语音的高频成分和低频成分；

特征模块504，用于根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；

参数模块506，用于以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；

语音模块508，用于根据所述参数序列，通过神经网络模型对所述待检测语音进行语音拼接点检测，其中，所述神经网络模型已经通过训练，学习并保存有所述待检测语音与语音拼接点之间的对应关系。

可选地，语音模块508还用于获取待训练语音，其中，所述待训练语音包括：通过语音拼接得到的语音和未通过语音拼接得到的语音；根据所述待训练语音的高频成分和低频成分提取所述待训练语音所对应的第三倒谱特征和第四倒谱特征；以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列；对所述待训练语音的参数序列进行第二标注处理，并通过所述第二标注处理之后的参数序列对所述神经网络模型进行训练。

可选地，语音模块508还用于定义所述待训练语音的参数序列的第三距离矩阵；对所述第三距离矩阵进行标注处理，并通过所述标注处理之后的第三距离矩阵对所述神经网络模型进行训练。

定义的第三距离矩阵就是距离矩阵A_i,j。

可选地，语音模块508还用于将所述参数序列输入编码器网络，输出隐变量序列；将所述隐变量序列输入解码器网络，输出所述特征序列；定义所述特征序列的第三距离矩阵。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本公开的实施例提供了一种电子设备。

参照图6所示，本公开实施例提供的电子设备600包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信；存储器603，用于存放计算机程序；处理器601，用于执行存储器上所存放的程序时，实现上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该输入输出设备与上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待检测语音，并确定所述待检测语音的高频成分和低频成分；

S2，根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；

S3，以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；

S4，将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；

S5，根据所述特征序列对所述待检测语音进行语音拼接点检测。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本公开的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的优选实施例而已，并不用于限制于本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音拼接点检测方法，其特征在于，包括：

获取待检测语音，并确定所述待检测语音的高频成分和低频成分；

根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征；

以帧为单位，拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征，得到参数序列；

将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，其中，所述神经网络模型已通过训练，学习并保存有参数序列与所述特征序列之间的对应关系；

根据所述特征序列对所述待检测语音进行语音拼接点检测。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征序列对所述待检测语音进行语音拼接点检测，包括：

以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵；

通过聚类算法对所述第一距离矩阵进行处理，得到第二距离矩阵；

根据所述第二距离矩阵对所述待检测语音进行所述语音拼接点检测。

3.根据权利要求2所述的方法，其特征在于，所述以帧为单位，计算所述待检测语音中任意两帧语音所分别对应的所述特征序列中的值的差值，得到第一距离矩阵之后，所述方法还包括：

将所述第一距离矩阵中大于预设阈值的值更新为第一值，将所述第一距离矩阵中小于所述预设阈值的值更新为第二值，得到所述第二距离矩阵；

将所述第二距离矩阵中所述第二值所对应的两帧语音确定为所述待检测语音的语音拼接点。

4.根据权利要求1所述的方法，其特征在于，所述将所述参数序列输入神经网络模型，输出所述待检测语音所对应的特征序列，包括：

将所述参数序列输入编码器网络，输出隐变量序列，其中，所述神经网络模型包括所述编码器网络；

将所述隐变量序列输入解码器网络，输出所述特征序列，其中，所述神经网络模型包括所述解码器网络。

5.根据权利要求4所述的方法，其特征在于，所述编码器网络包括多层感知机网络；

所述解码器网络包括：多层循环神经网络；

其中，所述编码器网络和所述解码器网络对各自输入均是执行以帧为单位的操作。

6.根据权利要求1所述的方法，其特征在于，所述第一倒谱特征为梅尔频率倒谱系数；

所述第二倒谱特征为常数倒谱系数，其中，常数倒谱系数是常数Q变换倒谱系数CQCC。

7.根据权利要求1所述的方法，其特征在于，包括：

获取待训练语音，其中，所述待训练语音包括：通过语音拼接得到的语音和未通过语音拼接得到的语音；

根据所述待训练语音的高频成分和低频成分提取所述待训练语音所对应的第三倒谱特征和第四倒谱特征；

以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列；

对所述待训练语音的参数序列进行第一标注处理，并通过所述第一标注处理之后的参数序列对所述神经网络模型进行训练。

8.根据权利要求7所述的方法，其特征在于，所述以帧为单位，拼接所述待训练语音中的每一帧语音中的第三倒谱特征和第四倒谱特征，得到所述待训练语音的参数序列之后，所述方法还包括：

定义所述待训练语音的参数序列的第三距离矩阵；

对所述第三距离矩阵进行标注处理，并通过所述标注处理之后的第三距离矩阵对所述神经网络模型进行训练。

9.一种语音拼接点检测方法，其特征在于，包括：

根据所述参数序列，通过神经网络模型对所述待检测语音进行语音拼接点检测，其中，所述神经网络模型已经通过训练，学习并保存有所述待检测语音与语音拼接点之间的对应关系。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8或9中任一项所述的方法。