CN109285559B

CN109285559B - 角色转换点检测方法及装置、存储介质、电子设备

Info

Publication number: CN109285559B
Application number: CN201811076413.2A
Authority: CN
Inventors: 李萧萧; 李俊玲
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd; Jingdong Technology Holding Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2021-05-04
Anticipated expiration: 2038-09-14
Also published as: CN109285559A

Abstract

本公开涉及计算机技术领域，尤其涉及一种角色转换点检测方法及装置、存储介质、电子设备。通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息；根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络；判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。本公开提高了检测角色转换点的准确率。

Description

角色转换点检测方法及装置、存储介质、电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种角色转换点检测方法及装置、存储介质、电子设备。

背景技术

语音识别是各行各业的客服智能质检的一个重要环节，传统的语音识别技术往往聚焦在如何提升字的识别的准确率。然而，语音识别的前处理对质检的整体效果有着重要的影响。例如，语音识别的前处理中语音切割对质检的角色识别有着重要的作用。

在语音切割技术中，准确的检测角色转换点(例如客服与客户的转换点)是语音切割技术的一个重要步骤。目前，由于在传统的角色转换点的检测方法中，要求语音信息的频谱信息符合正态分布，但是在实际情况中，用正态分布反应语音信息的频谱信息往往是不合适的，因此，采用传统方法无法准确的检测出角色转换点，降低了检测角色转换点的准确率。

综上所述，需要提供一种可准确的检测出角色转换点的角色转换点检测方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种角色转换点检测方法及装置、存储介质、电子设备，进而至少在一定程度上克服角色转换点的检测准确率低的问题。

根据本公开的一个方面，提供一种角色转换点检测方法，包括：

通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息；

根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络；

判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。

在本公开的一种示例性实施例中，所述方法还包括：

获取所述语音信息，并在所述语音信息上按照一预设步长滑动预设大小的傅里叶窗口，以得到所述语音信息的频谱信息。

在本公开的一种示例性实施例中，所述方法还包括：根据所述卷积神经网络构建所述预测模型，其中，所述根据所述卷积神经网络构建所述预测模型包括：

获取多个多样性的语音信息样本，并将所述多个多样性的语音信息样本转化为多个频谱信息样本，其中，各所述多样性的语音信息样本中均包括至少一个所述角色转换点；

通过在各所述频谱信息样本上滑动所述预设窗口获取与各所述频谱信息样本对应的多个训练窗口和各所述训练窗口的频谱信息；

根据各所述频谱信息样本中的所述角色转换点，对与各所述频谱信息样本对应的各所述训练窗口的转换值进行标记；

根据与各所述频谱信息样本对应的各所述训练窗口的频谱信息以及各所述训练窗口的转换值，并结合Sigmoid函数对所述卷积神经网络进行训练以得到所述预测模型。

在本公开的一种示例性实施例中，所述根据各所述频谱信息样本中的所述角色转换点，对与各所述频谱信息样本对应的各所述训练窗口的转换值进行标记包括：

根据各所述频谱信息样本中的所述角色转换点并结合转换值标记公式对与各所述频谱信息样本对应的各所述训练窗口的转换值进行标记，其中，所述转换值标记公式为：

其中，L(i,j)为与第i个所述频谱信息样本对应的第j个所述训练窗口的转换值，τ的取值为0.6，s(i)为第i个所述频谱信息样本中的角色转换点，t(i,j)为与第i个所述频谱信息样本对应的第j个所述训练窗口的中心点。

在本公开的一种示例性实施例中，所述根据与各所述频谱信息样本对应的各所述训练窗口的频谱信息以及各所述训练窗口的转换值，并结合Sigmoid函数对所述卷积神经网络进行训练以得到所述预测模型包括：

将与各所述频谱信息样本对应的多个所述训练窗口划分为多个训练窗口集合；

根据所述多个训练窗口集合中的各所述训练窗口的频谱信息以及各所述训练窗口集合中的各所述训练窗口的转换值并结合所述Sigmoid函数对所述卷积神经网络进行迭代训练，以获取每次迭代训练后的所述卷积神经网络的各参数的数值；

分别根据每次迭代训练后的所述卷积神经网络的各参数的数值并结合所述卷积神经网络生成多个候选卷积神经网络；

获取多个验证语音信息，并将所述多个验证语音信息转化为多个验证频谱信息；

通过在各所述验证频谱信息上滑动所述预设窗口获取与各所述验证频谱信息对应的多个验证窗口和各所述验证窗口的频谱信息；

根据与各所述验证频谱信息对应的多个验证窗口的频谱信息计算各所述候选卷积神经网络的准确度，并将所述准确度最高的所述候选卷积神经网络确定为所述预测模型。

在本公开的一种示例性实施例中，所述判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点包括：

判断各所述检测窗口的转换值是否大于一预设数值，并将所述转换值大于所述预设数值的检测窗口确定为候选检测窗口；

结合各所述检测窗口的转换值判断所述候选检测窗口的转换值是否为局部最大值，并将所述转换值为所述局部最大值的所述候选检测窗口的中心点确定为角色转换点。

在本公开的一种示例性实施例中，所述根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值包括：

通过将预设数量的所述检测窗口的频谱信息进行捆绑的方式，将所述多个检测窗口的频谱信息捆绑为多个绑定频谱信息；

调用多个线程并基于所述预测模型分别计算各所述绑定频谱信息中的各所述检测窗口的转换值。

根据本公开的一个方面，提供一种角色转换点检测装置，包括：

获取模块，用于通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息；

计算模块，用于根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络；

确定模块，用于判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的角色转换点检测方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述中任意一项所述的角色转换点检测方法。

本公开一种示例实施例提供的角色转换点检测方法及装置、存储介质、电子设备。通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各检测窗口的频谱信息，然后，根据各检测窗口的频谱信息并基于一预测模型计算各检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络，以及判断各检测窗口的转换值是否满足预设条件，并将满足预设条件的检测窗口的中心点确定为角色转换点。由于通过预测模型(即卷积神经网络)计算各检测窗口的转换值时，不需要语音信息的频谱信息符合正态分布，因此，相比于现有技术，提高了检测角色转换点的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例性实施例，本公开的上述和其它特征及优点将变得更加明显。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本公开一种角色转换点检测方法的流程图；

图2为本公开一示例性实施例中提供的构建所述预测模型的流程图一；

图3为本公开一示例性实施例中提供的构建所述预测模型的流程图二；

图4为本公开一示例性实施例中提供的转换值曲线的示意图；

图5为本公开一种角色转换点检测装置的框图；

图6为本公开一示例性实施例中的电子设备的模块示意图；

图7为本公开一示例性实施例中的程序产品示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例性实施例中首先公开了一种角色转换点检测方法，参照图1所示，所述角色转换点检测方法可以包括以下步骤：

步骤S110、通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息；

步骤S120、根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络；

步骤S130、判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。

根据本示例性实施例中的角色转换点检测方法，由于通过预测模型(即卷积神经网络)计算各检测窗口的转换值时，不需要语音信息的频谱信息符合正态分布，因此，相比于现有技术，提高了检测角色转换点的准确率。

下面，将参照图1，对本示例性实施例中的角色转换点检测方法作进一步说明。

在步骤S110中，通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息。

在本示例性实施例中，可以在语音信息的频谱信息上按照一滑动步长滑动预设窗口，以获取多个检测窗口和各检测窗口的频谱信息。所述预设窗口的大小例如可以为1.4秒，还可以为1.5秒等，本示例性实施例对此不作特殊限定。所述预设窗口的滑动步长例如可以为100毫秒、110毫秒等，本示例性实施例对此不作特殊限定。由于在语音信息的频谱信息上滑动预设窗口即可得到检测窗口，因此，检测窗口的大小等于预设窗口的大小，即预设窗口每滑动一个滑动步长即可得到一个检测窗口，且检测窗口铺盖的频谱信息即为检测窗口的频谱信息。所述频谱信息的维度例如可以为81维等，本示例性实施例对此不作特殊限定。

获取语音信息的频谱信息的过程可以包括：获取所述语音信息，并在所述语音信息上按照一预设步长滑动预设大小的傅里叶窗口，以得到所述语音信息的频谱信息。

在本示例性实施例中，可以通过一获取模块获取语音信息，然后在语音信息上按照预设步长滑动预设大小的傅里叶窗口，以将语音信息转化为频谱信息，即得到语音信息的频谱信息。所述预设大小例如可以为20毫秒、30毫秒等，本示例性实施例对此不作特殊限定，所述预设步长例如可以为10毫秒、15毫秒等，本示例性实施例对此不作特殊限定。所述语音信息可以为在一预设采样率下采集的语音通话音频，所述预设采样率例如可以为8KHZ、16KHz等，本示例性实施例对此不作特殊限定。

在步骤S120中，根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络。

在本示例性实施例中，所述三层2D卷积层分别为第一层卷积层、第二层卷积层、第三层卷积层，其中每层卷积层中的卷积核的数量、各卷积核的大小、各卷积核的步长以及池化过滤器的大小均可由开发人员自行设置，本示例性实施例对此不作特殊限定。所述全连接层中的神经元的数量可以由开发人员自行设置，本示例性实施例对此不作特殊限定。例如，在预测模型中，三层2D卷积层中的第一层卷积层可以包括50个卷积核，各卷积核的大小均可以为32*16，各卷积核的步长均可以为2*2，池化过滤器的大小均可以为2*2；三层2D卷积层中的第二层卷积层可以包括200个卷积核，各卷积核的大小均可以为4*4，各卷积核的步长均可以为1*1，池化过滤器的大小均可以为2*2；三层2D卷积层中的第三层卷积层可以包括300个卷积核，各卷积核的大小均可以为3*3，各卷积核的步长均可以为1*1，池化过滤器的大小均可以为2*2；全连接层中的神经元的个数可以为1个。

计算各检测窗口的转换值的过程可以包括：分别将各检测窗口的频谱信息输入至预测模型中，以使预测模型分别输出各检测窗口的转换值。

为了解决预测模型计算量大的问题，所述根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值可以包括：通过将预设数量的所述检测窗口的频谱信息进行捆绑的方式，将所述多个检测窗口的频谱信息捆绑为多个绑定频谱信息；调用多个线程并基于所述预测模型分别计算各所述绑定频谱信息中的各所述检测窗口的转换值。

在本示例性实施例中，所述预设数量例如可以为16、32、48等等，本示例性实施例对此不作特殊限定。例如，在预设数量为32时，可以将第一个检测窗口的频谱信息至第32个检测窗口的频谱信息进行捆绑以得到第一个绑定频谱信息，然后将第33个至第64个检测窗口的频谱信息进行捆绑生成第二个绑定频谱信息，重复上述过程将剩余的检测窗口的频谱信息进行绑定，以生成多个绑定频谱信息。所述多个线程的具体数量可以根据CPU的计算资源进行设置，本示例性实施例对此不作特殊限定。

将多个检测窗口的频谱信息进行捆绑得到多个绑定频谱信息，将一个绑定频谱信息中的各检测窗口的频谱信息同时输入至预测模型中，同时调用多个线程，以使预测模型在多个线程中同时对该绑定频谱信息中的各检测窗口的频谱信息进行计算，进而使得预测模型同时输出该绑定频谱信息中的各检测窗口的转换值。重复上述过程，即可得到剩余的各绑定频谱信息中的各检测窗口的转换值。

由于调用了多个线程，提高了CPU的资源利用率，从而提高了计算效率和计算速度，又由于将预设数量的检测窗口的频谱信息进行捆绑以得到绑定频谱信息，并将绑定频谱信息输入至预测模型中，以使预测模型同时输出绑定频谱信息中的各检测窗口的转换值，即同时对多个检测窗口的频谱信息进行处理，进一步的提高了计算效率和计算速度。

下面，对根据所述卷积神经网络构建所述预测模型的过程进行说明，如图2所示，所述根据所述卷积神经网络构建所述预测模型可以包括以下步骤：

步骤S210、获取多个多样性的语音信息样本，并将所述多个多样性的语音信息样本转化为多个频谱信息样本，其中，各所述多样性的语音信息样本中均包括至少一个所述角色转换点。

在本示例性实施例中，可以通过一获取模块在历史语音数据库中获取多个多样性的语音信息，并将每个多样性的语音信息作为一个多样性的语音信息样本。可以在一多样性的语音信息样本中按照预设步长滑动预设大小的傅里叶窗口以将该多样性的语音信息样本转化为频谱信息样本，重复上述过程，即可将其他多样性的语音信息样本转化为频谱信息样本。需要说明的是，预设大小和预设步长的数值可以根据实际情况进行设置，本示例性实施例对此不作特殊限定。所述多样性的语音信息样本指在不同的客服场景(例如，网络购物平台的客服场景、电视购物平台的客服场景、外卖购物平台的客服场景等)中获取的语音信息。需要说明的是，每个多样性的语音信息样本中均包括至少一个角色转换点。所述角色转换点指在语音信息中当前说话的角色从第一角色变为第二角色的点，例如，在第一角色为客户，第二角色为客服时，角色转换点指当前说话的角色从客户变为客服的点。

步骤S220、通过在各所述频谱信息样本上滑动所述预设窗口获取与各所述频谱信息样本对应的多个训练窗口和各所述训练窗口的频谱信息。

在本示例性实施例中，可以在一频谱信息样本上按照一滑动步长滑动预设窗口，以获取与该频谱信息样本对应的多个训练窗口和各训练窗口的频谱信息。所述预设窗口的大小例如可以为1.4秒，还可以为1.5秒等，本示例性实施例对此不作特殊限定。所述预设窗口的滑动步长例如可以为100毫秒、110毫秒等，本示例性实施例对此不作特殊限定。由于在频谱信息样本上滑动预设窗口即可得到训练窗口，因此，训练窗口的大小等于预设窗口的大小，即预设窗口每滑动一个滑动步长即可得到一个训练窗口，且训练窗口铺盖的频谱信息即为训练窗口的频谱信息。所述频谱信息的维度例如可以为81维等，本示例性实施例对此不作特殊限定。重复上述过程即可得到与其他各频谱信息样本对应的多个训练窗口和各训练窗口的频谱信息。

步骤S230、根据各所述频谱信息样本中的所述角色转换点，对与各所述频谱信息样本对应的各所述训练窗口的转换值进行标记。

在本示例性实施例中，可以根据各多样性的语音信息样本中的角色转换点确定对应的各频谱信息样本的角色转换点，然后可以根据各所述频谱信息样本中的所述角色转换点并结合转换值标记公式对与各所述频谱信息样本对应的各所述训练窗口的转换值进行标记，其中，所述转换值标记公式可以为：

其中，L(i,j)为与第i个所述频谱信息样本对应的第j个所述训练窗口的转换值，τ的取值为0.6，s(i)为第i个所述频谱信息样本中的角色转换点，t(i,j)为与第i个所述频谱信息样本对应的第j个所述训练窗口的中心点。根据上述公式可知，训练窗口的转换值L(i,j)的取值范围从0到1，其中，训练窗口的转换值L(i,j)越接近1，说明训练窗口离角色转换点越近，训练窗口的转换值L(i,j)越接近0，说明训练窗口离角色转换点越远。

需要说明的是，在上述转换值标记公式中，s(i)为第i个所述频谱信息样本中的角色转换点，由于一个频谱信息样本中可能存在多个角色转换点，因此对于具有多个角色转换点的频谱信息样本，s(i)为第i个所述频谱信息样本中距离t(i,j)最近的角色转换点。

步骤S240、根据与各所述频谱信息样本对应的各所述训练窗口的频谱信息以及各所述训练窗口的转换值，并结合Sigmoid函数对所述卷积神经网络进行训练以得到所述预测模型。

在本示例性实施例中，将与各所述频谱信息样本对应的各训练窗口的频谱信息分别作为输入，将与各频谱信息样本对应的各训练窗口的转换值作为对应的输出输入至卷积神经网络中，以对卷积神经网络进行训练，且在对卷积神经网络训练的过程中，通过Sigmoid函数对卷积神经网络中的每个上一层网络的输出信号进行激活之后输入至对应的下一层网络中。在完成训练之后即可得到该卷积神经网络中的各参数的数值，并将该卷积神经网络中的各参数的数值代入卷积神经网络中即可得到预测模型。

由上可知，通过获取多个多样性的语音信息样本构建预测模型，使得预测模型可以处理不同场景中的语音信息。

为了提高预测模型的准确率，如图3所示，所述根据与各所述频谱信息样本对应的各所述训练窗口的频谱信息以及各所述训练窗口的转换值，并结合Sigmoid函数对所述卷积神经网络进行训练以得到所述预测模型可以包括以下步骤：

步骤S310、将与各所述频谱信息样本对应的多个所述训练窗口划分为多个训练窗口集合。

在本示例性实施例中，可以将所有频谱信息样本对应的多个训练窗口进行集合之后，并对集合后的多个训练窗口进行划分，以得到多个训练窗口集合。在对集合后的多个训练窗口进行划分时，可以设置一预设数量，将集合后的多个训练窗口划分为多个具有预设数量的训练窗口的训练窗口集合。所述预设数量例如可以为128，也可以为130等，本示例性实施例对此不作特殊限定。

步骤S320、根据所述多个训练窗口集合中的各所述训练窗口的频谱信息以及各所述训练窗口集合中的各所述训练窗口的转换值并结合所述Sigmoid函数对所述卷积神经网络进行迭代训练，以获取每次迭代训练后的所述卷积神经网络的各参数的数值。

在本示例性实施例中，以训练窗口集合的数量为5个为例对步骤S320进行说明，上述5个训练窗口集合分别为第一训练窗口集合至第五训练窗口集合。首先，将第一训练窗口集合中的各训练窗口的频谱信息分别作为输入，将第一训练窗口集合中的各训练窗口的转换值作为对应的输出输入至卷积神经网络中，以对卷积神经网络进行第一次迭代训练，且在第一次迭代训练的过程中，通过Sigmoid函数对卷积神经网络中的每个上一层网络的输出信号激活之后输入至对应的下一层网络中，在完成第一次迭代训练之后即可得到该卷积神经网络在第一次迭代训练中得到的各参数的第一数值；在卷积神经网络中的各参数的第一数值的基础上，将第二训练窗口集合中的各训练窗口的频谱信息分别作为输入，将第二训练窗口集合中的各训练窗口的转换值作为对应的输出输入至卷积神经网络中，以对卷积神经网络进行第二次迭代训练，且在第二次迭代训练的过程中，通过Sigmoid函数对卷积神经网络中的每个上一层网络的输出信号激活之后输入至对应的下一层网络中，对卷积神经网络进行第二次迭代训练即是对卷积神经网络中的各参数的第一数值进行第一次更新，在完成第二次迭代训练后即可得到卷积神经网络的各参数的第二数值；在卷积神经网络中的各参数的第二数值的基础上，将第三训练窗口集合中的各训练窗口的频谱信息分别作为输入，将第三训练窗口集合中的各训练窗口的转换值作为对应的输出输入至卷积神经网络中，以对卷积神经网络进行第三次迭代训练，且在第三次迭代训练的过程中，通过Sigmoid函数对卷积神经网络中的每个上一层网络的输出信号激活之后输入至对应的下一层网络中，对卷积神经网络进行第三次迭代训练即是对卷积神经网络中的各参数的第二数值进行第二次更新，在完成第三次迭代训练后即可得到卷积神经网络的各参数的第三数值；在卷积神经网络中的各参数的第三数值的基础上，将第四训练窗口集合中的各训练窗口的频谱信息分别作为输入，将第四训练窗口集合中的各训练窗口的转换值作为对应的输出输入至卷积神经网络中，以对卷积神经网络进行第四次迭代训练，且在第四次迭代训练的过程中，通过Sigmoid函数对卷积神经网络中的每个上一层网络的输出信号激活之后输入至对应的下一层网络中，对卷积神经网络进行第四次迭代训练即是对卷积神经网络中的各参数的第三数值进行第三次更新，在完成第四次迭代训练后即可得到卷积神经网络的各参数的第四数值；在卷积神经网络中的各参数的第四数值的基础上，将第五训练窗口集合中的各训练窗口的频谱信息分别作为输入，将第五训练窗口集合中的各训练窗口的转换值作为对应的输出输入至卷积神经网络中，以对卷积神经网络进行第五次迭代训练，且在第五次迭代训练的过程中，通过Sigmoid函数对卷积神经网络中的每个上一层网络的输出信号激活之后输入至对应的下一层网络中，对卷积神经网络进行第五次迭代训练即是对卷积神经网络中的各参数的第四数值进行第四次更新，在完成第五次迭代训练后即可得到卷积神经网络的各参数的第五数值。

需要说明的是，在训练窗口集合的数量为其他数量时，对卷积神经网络进行迭代训练的原理与上述训练窗口集合的数量为5个时的原理相同，因此此处不再赘述。此外，在对卷积神经网络进行迭代训练的过程中，在每一次迭代训练完成后，利用MSE(Mean SquareError)Loss函数(即MSE损失函数)计算每次迭代训练后的卷积神经网络的预测准确度，并在卷积神经网络的预测准确度趋于稳定时，停止对卷积神经网络的迭代训练。

步骤S330、分别根据每次迭代训练后的所述卷积神经网络的各参数的数值并结合所述卷积神经网络生成多个候选卷积神经网络。

在本示例性实施例中，可以将每次迭代训练后的卷积神经网络的各参数的数值分别带入卷积神经网络中，以得到多个候选卷积神经网络。下面以步骤S320中的例子得到的卷积神经网络的各参数的第一数值至第五数值为例对上述过程进行说明。将卷积神经网络的各参数的第一数值带入卷积神经网络中，即可得到第一候选卷积神经网络；将卷积神经网络的各参数的第二数值带入卷积神经网络中，即可得到第二候选卷积神经网络；将卷积神经网络的各参数的第三数值带入卷积神经网络中，即可得到第三候选卷积神经网络；将卷积神经网络的各参数的第四数值带入卷积神经网络中，即可得到第四候选卷积神经网络；将卷积神经网络的各参数的第五数值带入卷积神经网络中，即可得到第五候选卷积神经网络。

步骤S340、获取多个验证语音信息，并将所述多个验证语音信息转化为多个验证频谱信息。

在本示例性实施例中，可以通过一获取模块在历史语音数据库中获取多个语音信息，并将每个语音信息均作为一个验证语音信息。由于将验证语音信息转化为验证频谱信息的原理与将多样性的语音信息样本转化为频谱信息样本的原理相同，因此此处不再对将验证语音信息转化为验证频谱信息的过程进行赘述。

步骤S350、通过在各所述验证频谱信息上滑动所述预设窗口获取与各所述验证频谱信息对应的多个验证窗口和各所述验证窗口的频谱信息。

在本示例性实施例中，可以在一验证频谱信息上按照一滑动步长滑动预设窗口以得到与该验证频谱信息对应的多个验证窗口和各验证窗口的频谱信息，所述预设窗口的大小例如可以为1.4秒，还可以为1.5秒等，本示例性实施例对此不作特殊限定。所述预设窗口的滑动步长例如可以为100毫秒、110毫秒等，本示例性实施例对此不作特殊限定。由于在验证频谱信息上滑动预设窗口即可得到验证窗口，因此，验证窗口的大小等于预设窗口的大小，即预设窗口每滑动一个滑动步长即可得到一个验证窗口，且验证窗口铺盖的频谱信息即为验证窗口的频谱信息。所述验证频谱信息的维度例如可以为81维等，本示例性实施例对此不作特殊限定。重复上述过程即可得到与其他各验证频谱信息对应的多个验证窗口和各验证窗口的频谱信息。

步骤S360、根据与各所述验证频谱信息对应的多个验证窗口的频谱信息计算各所述候选卷积神经网络的准确度，并将所述准确度最高的所述候选卷积神经网络确定为所述预测模型。

在本示例性实施例中，可以将各验证频谱信息对应的各验证窗口的频谱信息分别输入至一候选卷积神经网络中，以使该候选卷积神经网络输出与各验证频谱信息对应的各验证窗口转换值；同时结合上述转换值标记公式计算与各验证频谱信息对应的各验证窗口的实际转换值；将各验证窗口的转换值与其实际转换值做均方误差得到的数值确定为对应的各验证窗口的准确度，将所有验证窗口的准确度求和之后除以验证窗口的总数量得到的商确定为该候选卷积神经网络的准确度。重复上述过程即可计算出其他各候选卷积神经网络的准确度。按照准确度由高到低的顺序对各候选卷积神经网络进行排序，并将排在第一位的候选卷积神经网络确定为预测模型。

需要说明的是，上述计算各候选卷积神经网络的准确度的方式仅为示例性的，并不用于限定本发明。

在步骤S130中，判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。

在本示例性实施例中，所述预设条件可以为大于一预设转换值，即判断各检测窗口的转换值是否大于预设转换值，并将转换值大于预设转换值的检测窗口的中心点确定为角色转换点。需要说明的是，角色转换点的数量与转换值大于预设转换值的检测窗口的数量相同。所述预设转换值的具体数值可以由开发人员自行设置，例如可以为0.8、0.85等，本示例性实施例对此不作特殊限定。

进一步的，为了进一步提高确定角色转换点的准确度，所述判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点可以包括：判断各所述检测窗口的转换值是否大于一预设数值，并将所述转换值大于所述预设数值的检测窗口确定为候选检测窗口；结合各所述检测窗口的转换值判断所述候选检测窗口的转换值是否为局部最大值，并将所述转换值为所述局部最大值的所述候选检测窗口的中心点确定为角色转换点。

在本示例性实施例中，首先可以将各检测窗口的转换值分别与预设数值进行比较，并获取转换值大于预设数值的检测窗口，以及将转换值大于预设数值的检测窗口确定为候选检测窗口，所述候选检测窗口的数量等于转换值大于预设数值的检测窗口的数量。在获取到候选检测窗口后，可以通过将候选检测窗口的转换值与其两侧相邻的多个检测窗口的转换值进行比较，以判断候选检测窗口的转换值是否大于其两侧相邻的多个检测窗口的转换值，来判断候选检测窗口的转换值是否为局部最大值，若候选检测窗口的转换值大于其两侧相邻的多个检测窗口的转换值，则说明候选检测窗口的转换值为局部最大值，并将该候选检测窗口的中心点确定为角色转换点。需要说明的是，上述过程仅对一个候选检测窗口的判断过程进行了说明，由于每个候选检测窗口的判断过程是相同的，因此此处不再对其他候选检测窗口的判断过程进行赘述。

上述候选检测窗口的中心点可以指候选检测窗口的频谱信息中的中心点。所述预设数值可以由开发人员自行设置，例如可以为0.8、也可以为0.85、还可以为0.9等，本示例性实施例对此不作特殊限定。上述候选检测窗口两侧相邻的多个检测窗口可以指候选检测窗口之前的多个相邻的检测窗口和候选检测窗口之后的多个相邻的检测窗口。

图4中示出了语音信息的频谱信息以及该语音信息的频谱信息对应的多个检测窗口的转换值构建的转换值曲线。从图中可以看出，转换值曲线中的与虚线的交界处对应的检测窗口的转换值为局部最大值，因此，将该检测窗口的中心点确定为角色转换点，从图4中可知，语音信息的频谱信息中的虚线位置即为角色转换点的位置。

综上所述，由于通过预测模型(即卷积神经网络)计算各检测窗口的转换值时，不需要语音信息的频谱信息符合正态分布，因此，相比于现有技术，提高了检测角色转换点的准确率。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种角色转换点检测装置，如图5所示，所述虚拟对象控制装置500可以包括：获取模块501、计算模块502、确定模块503，其中：

获取模块501，可以用于通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息；

计算模块502，可以用于根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络；

确定模块503，可以用于判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。

上述中各角色转换点检测装置模块的具体细节已经在对应的角色转换点检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤S110、通过在语音信息的频谱信息上滑动预设窗口获取多个检测窗口和各所述检测窗口的频谱信息；步骤S120、根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值，其中，所述预测模型为具有三层2D卷积层以及一层全连接层的卷积神经网络；步骤S130、判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备670(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种角色转换点检测方法，其特征在于，包括：

获取语音信息，并在所述语音信息上按照一预设步长滑动预设大小的傅里叶窗口，以得到所述语音信息的频谱信息；

通过在所述语音信息的频谱信息上按照一滑动步长滑动预设时间窗口获取多个检测窗口和各所述检测窗口的频谱信息；

分别将各所述检测窗口的频谱信息输入至一预测模型中，以使所述预测模型分别输出各所述检测窗口的转换值；其中，所述预测模型是根据具有三层2D卷积层以及一层全连接层的卷积神经网络构建而成的模型；

2.根据权利要求1所述的角色转换点检测方法，其特征在于，所述方法还包括：根据所述卷积神经网络构建所述预测模型，其中，所述根据所述卷积神经网络构建所述预测模型包括：

通过在各所述频谱信息样本上滑动所述预设时间窗口获取与各所述频谱信息样本对应的多个训练窗口和各所述训练窗口的频谱信息；

3.根据权利要求2所述的角色转换点检测方法，其特征在于，所述根据各所述频谱信息样本中的所述角色转换点，对与各所述频谱信息样本对应的各所述训练窗口的转换值进行标记包括：

4.根据权利要求3所述的角色转换点检测方法，其特征在于，所述根据与各所述频谱信息样本对应的各所述训练窗口的频谱信息以及各所述训练窗口的转换值，并结合Sigmoid函数对所述卷积神经网络进行训练以得到所述预测模型包括：

通过在各所述验证频谱信息上滑动所述预设时间窗口获取与各所述验证频谱信息对应的多个验证窗口和各所述验证窗口的频谱信息；

5.根据权利要求1所述的角色转换点检测方法，其特征在于，所述判断各所述检测窗口的转换值是否满足预设条件，并将满足所述预设条件的检测窗口的中心点确定为角色转换点包括：

6.根据权利要求1所述的角色转换点检测方法，其特征在于，所述根据各所述检测窗口的频谱信息并基于一预测模型计算各所述检测窗口的转换值包括：

7.一种角色转换点检测装置，其特征在于，包括：

获取模块，用于获取语音信息，并在所述语音信息上按照一预设步长滑动预设大小的傅里叶窗口，以得到所述语音信息的频谱信息；以及，通过在所述语音信息的频谱信息上按照一滑动步长滑动预设时间窗口获取多个检测窗口和各所述检测窗口的频谱信息；

计算模块，用于分别将各所述检测窗口的频谱信息输入至一预测模型中，以使所述预测模型分别输出各所述检测窗口的转换值，其中，所述预测模型是根据具有三层2D卷积层以及一层全连接层的卷积神经网络构建而成的模型；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任意一项所述的角色转换点检测方法。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～6中任意一项所述的角色转换点检测方法。