CN108922516B

CN108922516B - 检测调域值的方法和装置

Info

Publication number: CN108922516B
Application number: CN201810697966.3A
Authority: CN
Inventors: 张劲松; 张微; 张琦; 林举; 解焱陆
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-11-06
Anticipated expiration: 2038-06-29
Also published as: CN108922516A

Abstract

本发明公开了一种检测调域值的方法和装置。其中，该方法包括：采用获取频谱特征和调域值，其中，频谱特征是与音质有关的频谱参数，调域值是话者的调域高度值和/或调域宽度值；根据频谱特征和调域值通过机器学习算法训练预测模型，其中，预测模型是频谱特征和调域值建立的映射关系；输入待检测频谱特征利用预测模型获得待检测调域值，其中，待检测调域值与待检测频谱特征相对应，待检测频谱特征是从话者的待预测语音中截取的方式。本发明解决了现有技术在用户不确定情况下需要较长的输入语音样本来估计调域而导致的准确率和速度都较低的技术问题。

Description

检测调域值的方法和装置

技术领域

本发明涉及语音识别领域，具体而言，涉及一种检测调域值的方法和装置。

背景技术

在语音交流中，音高是信息传递的重要载体。话者的音高变化时，最大值与最小值之间的范围叫做调域。调域值的大小主要取决于说话人发声的生理器官构造，不同的说话人调域一般存在差异，例如女性或者儿童，其调域一般显著高于男性成年话者。因生理差异造成的音高差异，却并不影响听者正确理解不同话者差异显著的音高参数所传递的语言信息。例如在汉语这样的声调语言中，虽然一个女性话者在其低音调(lowtone)实现的音高参数F0(Fundamental frequency)可能会高于男性话者的高音调(high tone)的F0，但是“低/高”音调信息都会被听者正确识别。人类解决这一问题的关键在于人类的听觉机制有这样一种能力，能够在接受到少量说话人语音信号后，就会迅速判断出说话人的调域范围，然后推断出后续输入语音的音高参数F0在说话人调域中的相对位置，从而理解其所表征的语言信息。这样的听觉机制称作调域规整、音高规整、话者规整等，其核心在于听者能够基于话者的少量语音可靠地估计出其调域范围。

对话者调域进行估计不仅在语音交际中有着重要作用，在语音智能技术中也有很多需求。例如，在口语对话系统中，对话者的调域估计可以提高用户分类性能，进而把交互控制实现得更好。又如，在第二语言发音评估任务中，调域估计可以对让机器对于二语学习者的发音错误进行更好的判断。

目前，现有技术的调域估计方法主要是基于F0参数的统计估计，需要采集话者较长的语音输入，在检测出其中的高音调与低音调样本后再计算出话者调域。对于在用户为相对固定的特定话者语音智能系统场景下，现有技术这种方法是满足需求的。但是，在用户不确定和系统需要快速响应的场景下，此时现有技术存在需要用户输入较长语音样本才可以检测出话者调域值的问题，导致现有技术这样的调域估计方法不能保证实时响应需求，调域估计的准确率和速度都较低。

针对上述现有技术在用户不确定情况下需要较长的输入语音样本来估计调域导致的准确率和速度都较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种检测调域值的方法，以至少解决现有技术在用户不确定情况下需要较长的输入语音样本来估计调域而导致的准确率和速度都较低的技术问题。

根据本发明实施例的一个方面，提供了一种检测调域值的方法，包括：获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是话者的调域高度上限、下限值之间的取值，或者所述调域值是话者基频的频率高度均值和话者基频的宽度值；根据所述频谱特征和所述调域值通过机器学习算法训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取。

进一步地，获取所述调域值包括：获取话者基频值的对均值和标准差。

进一步地，获取所述频谱特征和所述调域值包括：通过语料数据库获取所述频谱特征和所述调域值。

进一步地，根据所述频谱特征和所述调域值通过机器学习算法训练所述预测模型包括：根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型，其中，所述长短时记忆模型的模型深度是所述待预测语音的长度。

根据本发明实施例的另一方面，还提供了一种检测调域值的装置，包括：获取单元，用于获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是话者的调域高度值和/或调域宽度值；训练单元，用于根据所述频谱特征和所述调域值通过机器学习算法训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；检测单元，用于输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取。

进一步地，所述获取单元包括：第二获取模块，用于获取话者基频值的对均值和标准差。

进一步地，所述获取单元还包括：第一获取模块，用于通过语料数据库获取所述频谱特征和所述调域值。

进一步地，所述训练单元包括：训练模块，用于根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型，其中，所述长短时记忆模型的模型深度是所述待预测语音的长度。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的方法。在本发明实施例中，采用获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是话者的调域高度值和/或调域宽度值；根据所述频谱特征和所述调域值通过机器学习算法训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取的方式，解决了现有技术在用户不确定情况下需要较长的输入语音样本来估计调域而导致的准确率和速度都较低的技术问题，使得本申请仅利用少量短的语音输入就能够实现较准确的调域自动检测，同时检测速度很快。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种检测调域值的方法的示意图；

图2是根据本发明实施例的一种三种调域模式的示意图；

图3是根据本发明实施例的一种调域预测原理示意图；

图4是根据本发明实施例的一种预测模型的网络结构示意图；

图5是根据本发明实施例的一种检测调域值的装置结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种检测调域值的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的检测调域值的方法，如图1所示，该方法包括如下步骤：

步骤S102，获取频谱特征和调域值，其中，频谱特征是与音质有关的频谱参数，该频谱参数可以为傅立叶频谱，该调域值可以是话者的调域高度上限、下限值之间的取值，或者该调域值也可以是话者基频的频率高度均值和话者基频的宽度值；

步骤S104，根据频谱特征和调域值通过机器学习算法训练预测模型，其中，预测模型是频谱特征和调域值建立的映射关系；

步骤S106，输入待检测频谱特征利用预测模型获得待检测调域值，其中，待检测调域值与待检测频谱特征相对应，待检测频谱特征是从话者的待预测语音中截取。

上述步骤中的调域是指在话者的音高变化时，最大的调域值与最小调域值之间的变化范围。调域的变化分为两个方面：调域的高度变化和调域的宽度变化。调域高度(pitchlevel)表示话者发音时F0值的平均水平，调域宽度(pitch span)表示话者发音时F0值变化范围的大小，是音高高点和音高低点之间的距离。图2是三种调域变化模式的示意图，如图2所示，图2中的虚线范围代表调域宽度，实线在纵轴的高度代表调域高度，所以图2中可见左图表示正常的调域模式，中间图有更高的调域高度，右图有更大的调域宽度。

人的调域检测是在人的听觉系统中自动完成的，听者在听到话者的音高高点(H)和低点(L)后，听者能够迅速确定该话者的其他音高值在其调域中的相对位置。听者还能够利用一个未知话者很短的语音输入，在其调域内进行音高相对高度的判断，即使此短语音未能充分包含话者音高变化的最大值或最小值。此外，在汉语中，听者可以仅通过声母和韵母的前6个基频周期判断该音节的声调。

现有技术的调域估计方法都是通过基频从话者很长的一段语音中的所有基频点的分布中分析得到稳定的基频最大值和最小值，从而来实现调域检测；而本发明上述实施例通过利用频谱特征(如，频谱倾斜，第一共振峰带宽等)作为检测调域的依据，再结合机器学习算法将频谱特征与调域值建立映射关系，从而来模仿人的调域检测方式与现有技术完全不同，上述实施例解决了现有技术中在用户不确定情况下需要较长的输入语音样本来估计调域导致的准确率和速度都较低的问题，显著地提高了检测性能，尤其是在只有较短或少量(200-300毫秒语音样本下，甚至不到一个完整汉语音节)的语音输入时，频谱结构结合机器学习算法可以帮助更加快速和准确的检测。

从图2中可以看到调域可以使用调域高度值和调域宽度值来进行衡量，可以用话者所有语音基频点的均值代表调域高度值，标准差代表调域宽度值，这样对话者调域的检测就可以进行转化，在一个可选的实施方式中，获取调域值，即，获取话者基频值的均值和标准差。

通过使用话者基频值的均值和标准差来代表话者调域值的方式，相比于直接统计最大与最小值的点估计方法，可以减少采集数据过程中的误差，从而提高整个方法的稳定性。

获取频谱特征和调域值可以通过有一定数量语料数据的数据库，在一个可选的实施方式中，即通过语料数据库获取频谱特征和调域值。本发明实施例可以通过两种语料数据库来获得训练预测模型的原始数据，分别是中国国家高新技术项目863语料库和一个开放的汉语语音语料库AISHELL；第一种中国国家高新技术项目863语料库,该语料库收录了166位话者的语音数据(83男性和83女性)。本实施例将其中的158人用于训练过程，8人用于测试，训练集和测试集性别分配均衡。在本实施例中，本实施例排除少于3s的句子后，共有16328句用于训练，703句用于测试。此外，训练集和测试集在话者层级和句子层级都没有重叠部分。第二种是从汉语语音语料库AISHELL中随机选取32个话者的数据，共5024个句子，其选用方式和应用配置和863语料库相同。第二种语料库在文本内容和语音设备上都与863语料库有较大差异。

上述机器学习算法可以采用多种模型，比如，可以利用深度神经网络，在语音频谱特征和话者的调域值之间构建直接的映射关系，从而实现短语音情况下的话者调域估计。在一个可选的实施方式中，包括根据频谱特征和调域值通过机器学习算法训练预测模型可以是根据频谱特征和调域值通过长短时记忆模型(LSTM)训练预测模型，其中，长短时记忆模型(LSTM)的模型深度是待预测语音的长度。

下面以一个可选的实施方式对上述整个训练和预测过程进行说明：

如图3所示，在从语料数据库获得语音数据后，将语音数据进行处理提取FBANK特征(频谱结构X)，从而获得训练数据集，该训练数据集包括频谱结构X(频谱特征)，和话者的调域值Y，再根据LSTM进行训练建立X与Y的映射关系预测模型，输入x待预测的特征频谱就可以得到话者的待预测调域值y。

上述LSTM模型结构可以包含三个LSTM层，每层有20或32或64个记忆细胞，此外，模型的输出层使用KERAS工具中的Dense层，为了实现回归功能，该Dense层只有一个节点。图3表示模型的网络结构。以图3种的a)为例，FBANK为输入的频谱特征，输入给第一个LSTM层，再经过两层LSTM后，传给上述Dense层，即输出层，输出的结果即为调域的高度值。

上述步骤中的频谱结构(频谱参数)能够为检测调域提供帮助，尤其是在短语音的情况下，效果更为明显。而上述长短时记忆模型(LSTM)使得预测结果随着时间步将前一个时间步的预测结果带来的影响传递给下一个时间步的预测结果，从而使得预测结果也变得越来越精准，直到到某个时间步后获得一个稳态的预测结果。本实施例通过上述训练长短时记忆模型的过程来模拟人类的听觉对调域感知的迭代过程，同时，该模型的深度表示预测时候所用的语音长度，本实施例通过调节该模型深度也可以得到达到稳定预测性能的最短语音输入的长度。

通过上述预测模型对调域进行预测，预测结果比现有技术显著提高，具体地，在预测性能要求为调域的高度预测相对错误率2.3％左右的情况下，本实施例达到该性能要求的最短语音输入为300ms；而在预测性能要求是调域宽度预测的相对错误率12％左右的情况下，达到该性能要求的最短语音输入为500ms，而现有技术的输入语音至少是远大于500ms的音频。

下面对以一个可选的实施方式对上述预测模型的预测效果进行检测：

当测试一段语音时，先提取30帧FBANK特征，使用23维的FBANK作为输入特征，提取FBANK时每帧帧长是25ms,帧移是10ms。提取特征时经过了发音事件检测(VAD)，去除静音段所在的样本。可以将提取到的频谱特征(FBANK特征)输入给如图3的三层LSTM，经过此网络结构的计算，最后将计算出这段语音的发音人调域的预测值，例如，该发音人的调域预测值是均值2.5和标准差0.3(单位为logHZ)。

在本实施例中考察了不同的网络深度(包括1，5，10，20，30，50，100)在三种误差准则下的性能，分别是，平均平方误差(MSE)：

平均绝对误差(MAE)：

和平均绝对百分误差(MAPE):

调域高度和宽度估计模型训练的预测效果如表1所示，调域高度估计模型在网络深度为30时，MSE,MAE,和MAPE都随着深度增加而下降；30时间步之后，此三种误差值分别稳定于0.004，0.05和2.3％左右。调域宽度估计模型在网络深度少于50时，MSE和MAPE的值随着网络深度增加而减小。最终的MSE,MAE,MAPE的值分别稳定在0.0002，0.011和12％左右。

表1.调域预测模型性能和所需预测网络深度

由于在训练和测试时频谱特征提取所用的帧移为10ms,从上述结果可见：当输入给定话者的音频长度达到300ms时(网络深度为30，用30帧的频谱特征，每帧10ms，故300ms)，本实施的方法可以较为可信地预测调域高度值；当输入待预测话者的音频长度达到500ms时，本实施的方法可以较为可信地预测调域宽度值。相比于使用大规模(远远多于500ms的音频)F0样本来估计调域的传统方法，300ms、500ms的音频是较短的。

本发明实施例还提供了一种检测调域值的装置，该装置可以由获取单元、训练单元、检测单元实现其功能。需要说明的是，本发明实施例的一种检测调域值的装置可以用于执行本发明实施例所提供的一种检测调域值的方法，本发明实施例的检测调域值的方法也可以通过本发明实施例所提供的检测调域值的装置来执行。图5是根据本发明实施例的一种检测调域值的装置的示意图。如图5所示，图5是根据本发明实施例的检测调域值的装置结构图。一种检测调域值的装置包括：获取单元52，用于获取频谱特征和调域值，其中，频谱特征是与音质有关的频谱参数，调域值是话者的调域高度值和/或调域宽度值；训练单元54，用于根据频谱特征和调域值通过机器学习算法训练预测模型，其中，预测模型是频谱特征和调域值建立的映射关系；检测单元56，用于输入待检测频谱特征利用预测模型获得待检测调域值，其中，待检测调域值与待检测频谱特征相对应，待检测频谱特征是从话者的待预测语音中截取。

在一个可选的实施方式中，获取单元包括：第二获取模块，用于获取话者基频值的对均值和标准差。

在一个可选的实施方式中，获取单元还包括：第一获取模块，用于通过语料数据库获取频谱特征和调域值。

在一个可选的实施方式中，训练单元包括：训练模块，用于根据频谱特征和调域值通过长短时记忆模型训练预测模型，其中，长短时记忆模型的模型深度是待预测语音的长度。

本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述方法。

本发明实施例提供了一种处理器，处理器包括处理的程序，其中，在程序运行时控制处理器所在设备执行上述方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种检测调域值的方法，其特征在于，包括：

获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是调域高度值和调域宽度值；其中，所述调域高度值用话者所有语音基频点的均值代表，所述调域宽度值用话者所有语音基频点的标准差代表；

根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；所述长短时记忆模型的模型深度是待预测语音的长度，其包含三个LSTM层，每层有20或32或64个记忆细胞，所述长短时记忆模型的输出层使用KERAS工具中的Dense层，为了实现回归功能，该Dense层只有一个节点；所述长短时记忆模型的输入为频谱特征，输入给第一个LSTM层，再经过两层LSTM后，传给所述Dense层，即输出层，输出的结果即为调域的高度值；

输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取。

2.根据权利要求1所述的方法，其特征在于，获取所述频谱特征和所述调域值包括：通过语料数据库获取所述频谱特征和所述调域值。

3.一种检测调域值的装置，其特征在于，包括：

获取单元，用于获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是调域高度值和调域宽度值；其中，所述调域高度值用话者所有语音基频点的均值代表，所述调域宽度值用话者所有语音基频点的标准差代表；

训练单元，用于根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；所述长短时记忆模型的模型深度是待预测语音的长度，其包含三个LSTM层，每层有20或32或64个记忆细胞，所述长短时记忆模型的输出层使用KERAS工具中的Dense层，为了实现回归功能，该Dense层只有一个节点；所述长短时记忆模型的输入为频谱特征，输入给第一个LSTM层，再经过两层LSTM后，传给所述Dense层，即输出层，输出的结果即为调域的高度值；

检测单元，用于输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取。

4.根据权利要求3所述的装置，其特征在于，所述获取单元还包括：第一获取模块，用于通过语料数据库获取所述频谱特征和所述调域值。

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至2中任意一项所述的方法。

6.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至2中任意一项所述的方法。