CN113192488B

CN113192488B - 一种语音处理方法及装置

Info

Publication number: CN113192488B
Application number: CN202110366094.4A
Authority: CN
Inventors: 李程帅; 孙进伟; 徐涛
Original assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Current assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2022-05-06
Anticipated expiration: 2041-04-06
Also published as: CN113192488A

Abstract

本发明实施例涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、计算设备及计算机可读存储介质。包括：针对语音集中的任一第一语音文件，通过语音分析确定第一语音文件的第一有效语音；对各第一有效语音在各第一语音文件中的位置进行聚类，得到有效语音在语音文件中的k个预测位置；针对语音集中的任一第二语音文件，从第二语音文件在k个预测位置处的语音序列中，确定第二语音文件的第二有效语音。通过先对语音集中的一部分语音文件的有效语音所在的位置进行聚类，得到k个可能的预测位置，如此，针对剩下的语音文件，只需在这k个预测位置处进行判断即可，无需对再进行逐帧的语音分析，从而提高了提取有效语音的效率。

Description

一种语音处理方法及装置

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、计算设备及计算机可读存储介质。

背景技术

为了训练基于深度学习的语音识别声学模型，通常需要对大量的语音数据进行处理，其数据量是几十万甚至上百万的。在对语音处理的过程中，往往需要提取每个文件的有效语音，但是由于数据量巨大，提取有效语音的效率就极为重要。

综上，目前亟需一种语音处理方法，用以解决现有的提取有效语音的工作量大，效率低的问题。

发明内容

本发明实施例提供一种语音处理方法，用以解决现有的提取有效语音的工作量大，效率低的问题。

本发明实施例提供一种语音处理方法，包括：

针对语音集中的任一第一语音文件，通过语音分析确定所述第一语音文件的第一有效语音；

对各第一有效语音在各第一语音文件中的位置进行聚类，得到有效语音在语音文件中的k个预测位置；

针对所述语音集中的任一第二语音文件，从所述第二语音文件在所述k个预测位置处的语音序列中，确定所述第二语音文件的第二有效语音。

通过先对语音集中的一部分语音文件判断其对应的有效语音，然后通过对这一部分的有效语音所在的位置进行聚类，从而得到k个可能的预测位置，如此，针对剩下的语音文件，只需在这k个预测位置处进行判断即可，而无需对剩下的语音文件再进行逐帧的语音分析，从而降低了工作量，提高了提取有效语音的效率。

可选地，所述方法还包括：

针对所述语音集中的任一语音文件，根据所述语音文件的起始语音序列或结尾语音序列确定所述语音文件的噪声语音；根据所述语音文件的有效语音和所述语音文件的噪声语音，确定所述语音文件的信噪比。

如此，在确定出语音文件的有效语音后，还可结合语音文件的噪声语音，确定出语音文件的信噪比，提高了确定信噪比的效率。

可选地，通过语音分析确定所述第一语音文件的第一有效语音，包括：

通过对所述第一语音文件进行滑窗操作，得到每个滑窗的语音序列；

将能量最高的语音序列确定为所述第一语音文件的第一有效语音；所述能量最高的语音序列对应的滑窗为所述第一有效语音在所述第一语音文件中的位置。

通过将能量最高的语音序列确定为有效语音，提高了确定有效语音的准确性。在后续处理中采用基于此方法确定的有效语音，也可以提高后续处理的准确性。

可选地，通过对所述第一语音文件进行滑窗操作，得到每个滑窗的语音序列，包括：

采用n种不同尺寸的滑窗对所述第一语音文件进行滑窗操作，得到每个滑窗的语音序列；

将能量最高的语音序列确定为所述第一语音文件的第一有效语音，包括：

针对任一种尺寸的滑窗，将能量最高的语音序列确定为所述第一语音文件的第一有效语音。

在确定第一语音文件的第一有效语音的过程中，还对滑窗的尺寸做了多种限定，如此，针对不同尺寸的滑窗，会得到不同的第一有效语音。在后续的聚类中，增加了聚类的维度，如此通过聚类得到的k个预测位置会更加具有多样性，提高了预测位置的准确性。

可选地，通过如下方式确定每个滑窗的语音序列的能量：

根据第一滑窗的语音序列与第二滑窗的语音序列，通过差分方式确定所述第二滑窗的语音序列的能量；所述第二滑窗为位于所述第一滑窗之后的第一个滑窗。

通过差分的技巧计算能量，即，在滑窗过程中，不需要对每个窗进行计算，只需要在上一个窗的基础上计算与当前窗的插值即可，这样做可以大幅度降低计算量。

可选地，从所述第二语音文件在所述k个预测位置处的语音序列中，确定所述第二语音文件的第二有效语音，包括：

从所述第二语音文件在所述k个预测位置处的语音序列中，确定过零率大于预设阈值的语音序列；

从过零率大于预设阈值的语音序列中确定能量最高的语音序列为所述第二语音文件的第二有效语音。

首先通过过零率筛选出可能是有效语音的语音序列，继而通过能量做进一步的筛选，通过两个维度进行判断，如此提高了确定第二语音文件的第二有效语音的准确性。

可选地，根据所述语音文件的起始语音序列或结尾语音序列确定所述语音文件的噪声语音，包括：

将所述语音文件的起始语音序列或结尾语音序列中能量最低的语音序列，确定为所述语音文件的噪声语音。

由于在语音文件的起始语音序列或结尾语音序列中出现噪声语音的可能性非常大，因此通过对起始语音序列和结尾语音序列的判断中确定噪声语音，提高了确定噪声语音的效率和准确性。

本发明实施例还提供一种语音处理装置，包括：

确定单元，用于针对语音集中的任一第一语音文件，通过语音分析确定所述第一语音文件的第一有效语音；

处理单元，用于：

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述任一方式所列语音处理的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述任一方式所列的语音处理的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本发明实施例提供的一种可能的语音处理方法；

图2示出了一种对语音文件进行滑窗的操作方式；

图3示出了一种采用k均值聚类算法进行预测位置聚类的方法；

图4为本发明实施例中所涉及到的整体性流程的示意图；

图5示例性示出了本发明实施例提供的一种可能的语音处理装置。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本发明实施例提供了一种语音处理方法，通过对语音集中的一部分语音文件进行语音分析，确定有效语音所在的k个预测位置，然后通过k个预测位置确定语音集中的其余的语音文件的有效语音的位置。如此，简化了分析过程，降低了工作量，提高了确定语音文件的有效语音的效率。

图1示出了一种语音处理方法，如图1所示，包括：

步骤101、针对语音集中的任一第一语音文件，通过语音分析确定第一语音文件的第一有效语音。

首先在语音集中挑选一部分语音文件，对这一部分语音文件进行语音分析。本发明实施例对挑选的第一语音文件的数量和大小不做限制，如果为了实现结果的准确性，则设置第一语音文件的数量不可过少；如果为了保证提升处理效率，设置第一语音文件的数量不可过多。

进行语音分析可以采用多种方法，如逐帧判断、滑窗的方法等。本发明实施例对语音分析的方法不作限制。

以滑窗的方法为例进行介绍。

例如在500万条语音文件中随机挑选50万，对这一部分通过滑窗操作进行语音分析。例如每个语音文件的时长是5秒，取滑窗的大小为b毫秒，滑动的步长为s毫秒，以s毫秒为步长进行滑窗的移动，由此可以得到多个滑窗的语音序列，对得到的多个滑窗进行比较，确定第一有效语音。

确定第一有效语音的方法也是多种多样的，例如，可以对多个滑窗的能量进行比较；或者结合多个滑窗的过零率和能量进行比较；也可以通过窗内的信号分帧后训练一个GMM或DNN模型等方法逐帧判断该帧是否为语音信号；或者对整个音频文件分帧，利用强制对齐(Forced alignment)使用DNN或CNN、LSTM等模型将帧声学特征分类为语音或非语音二分类数据，与通过滑窗能量确定第一有效语音的方法相比，这种做法的精度更高，但是需要进行预加重、分帧、加窗、傅里叶变换、模型训练等操作，计算量更大。

以结合多个滑窗的过零率和能量进行比较的方法为例，详细介绍第一有效语音的确定方法。

使用差分的方式计算能量和过零率，即，在滑窗过程中不需要对每个窗都进行计算，只需要在上一个窗的基础上计算于当前窗的插值即可，这样做可以大幅度减少计算量。图2示出了一种对语音文件进行滑窗的操作方式。如图2所示，通过对上一个窗x_t-1加上窗x_t中的b与窗x_t-1中的a的插值，即可得到每个窗的能量与过零率。选择过零率达到阈值并且能量最高的窗作为该语音文件的第一有效语音。

步骤102、对各第一有效语音在各第一语音文件中的位置进行聚类，得到有效语音在语音文件中的k个预测位置。

根据步骤101，每个第一语音文件都得到了一个最有可能是第一有效语音的滑窗，该滑窗对应的位置就是第一有效语音在第一语音文件中的位置。

举个例子，对10个第一语音文件进行语音分析，得到10个语音文件对应的第一有效语音的位置分别为0s，0.5s，1s，1.5s，2s，2.5s，3s，3.5s，4s，4.5s。通过聚类的方法将上述位置进行聚类，得到有效语音在语音文件中的k个预测位置。

可以采用k均值算法进行聚类，也可以利用EM算法等其他算法对语音窗进行聚类，将语音窗建模为混合高斯模型(GMM)并进行最大似然估计。本发明实施例对聚类的方法不作限制。

以k均值聚类算法为例进行介绍。图3示出了一种采用k均值聚类算法进行预测位置聚类的方法。

步骤301、输入n个第一有效语音的坐标位置；

步骤302、初始化k个均值坐标，即确定k个聚类中心；

步骤303、按欧式距离进行聚类；

步骤304、重新计算k个均值，更新聚类中心；

步骤305、判断聚类中心是否收敛，若是，则结束聚类；若否，则返回步骤303。

其中，k值的选择，确定初始均值坐标的方法也不唯一，例如k值可以取5到10，初始值可以是对音频文件k均分的k个位置或是随机的k个位置。

例如，对上述例子中得到的10个第一有效语音的位置进行聚类，得到5个聚类中心，分别为0s，1s，2s，3s，4s。

可选地，不仅对第一有效语音的位置进行聚类，还可引入多种参数进行聚类。对滑窗的尺寸和位置同时进行聚类。

在确定第一语音文件的第一有效语音的过程中，采用n种不同尺寸的滑窗对第一语音文件进行滑窗操作，得到每个滑窗的语音序列。例如，采用尺寸为200ms和500ms的滑窗分别进行滑窗，针对每个尺寸的滑窗，将能量最高的语音序列确定为第一有效语音。则针对每个第一语音文件，可以得到两个不同尺寸的第一有效语音。例如在上述例子中，得到的两个第一有效语音可以表示为(200，1)，(500，1.2)，其中，200和500表示第一有效语音的尺寸分别为200ms和500ms，1和1.2表示两种尺寸的滑窗在第一语音文件中分别所处的位置为1s处和1.2s处。

通过上述方法，针对每个第一语音文件，可以得到n个第一有效语音，则若有50万个第一语音文件，会得到50n万个第一有效语音。对这50n万个第一有效语音进行聚类，聚类的目标修改为坐标和尺寸两个维度。如此，会使聚类的维度增加，得到的聚类结果更加丰富，提高了得到的聚类中心的可信度。

步骤103、针对语音集中的任一第二语音文件，从第二语音文件在k个预测位置处的语音序列中，确定第二语音文件的第二有效语音。

在对一部分第一语音文件进行处理后得到了k个预测位置，然后对语音集中剩下的第二语音文件在k个预测位置处的语音信息进行比较，即可确定剩下的第二语音文件的第二有效语音。如此，免去了对语音集中所有语音文件均要逐帧进行判断的繁琐，降低了工作量，提高了确定有效语音的效率。

例如，在上述例子中，对50万的第一语音文件进行分析后，得到了5个聚类中心，即5个有效语音最有可能所处的位置，分别为0s，1s，2s，3s，4s，尺寸均为200ms。对剩余的450万个第二语音文件，针对任一第二语音文件A，分别得到A在0s，1s，2s，3s，4s，尺寸为200ms的语音序列。首先从5个语音序列中筛选出过零率大于预设阈值的语音序列，然后从过零率大于预设阈值的语音序列中确定能量最高的语音序列为A的第二有效语音。

通过上述方法确定了众多语音文件的有效语音后，可以使用有效语音进行多种分析处理，从而得到很多的语音信息，例如语音文件的信噪比、唤醒词或指令词的识别等。

以计算语音文件的信噪比为例。很多语音识别模型对语音数据的信噪比范围有一定的要求，又很难在数据采集过程中及时的监控和控制数据的信噪比，因此通常需要在事后对大量的语音数据进行筛选，由于数据量巨大，信噪比估计算法的效率就极为重要，因此设计一个高效的信噪比估计方法是十分重要的。

采集语音数据时说话人在5秒固定的时间内读指令词，经过对10万条数据统计得出，有超过99.99％的数据在文件的开头或结尾至少存在100ms是没有人声的，因此可以直接取每个语音文件的起始语音序列或结尾语音序列中能量较低的100ms的窗作为该语音文件的噪声语音。

针对任一语音文件，根据已经确定的有效语音和噪声语音，可以确定该语音文件的信噪比。

为了更好地介绍本发明的语音处理方法，下面以计算语音文件的信噪比为例，对本发明实施例提供的方法做整体性说明，如图4所示。

步骤401、从语音集中随机选择m个第一语音文件。

步骤402、对m个第一语音文件进行语音分析，确定m个第一有效语音的位置。

步骤403、对m个第一有效语音的位置进行聚类，得到有效语音在语音文件中的k个预测位置。

步骤404、对语音集中的其余的第二语音文件，从k个预测位置处的语音序列中确定第二语音文件的第二有效语音。

步骤405、针对语音集中的任一语音文件，确定其对应的噪声语音。

步骤406、结合每个语音文件的有效语音和噪声语音，确定各自的信噪比。

本发明实施例还提供一种语音处理装置500，如图5所示，包括：

确定单元501，用于针对语音集中的任一第一语音文件，通过语音分析确定所述第一语音文件的第一有效语音；

处理单元502，用于：

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音处理方法，其特征在于，包括：

在语音集中任意挑选一部分第一语音文件，针对每个第一语音文件，通过语音分析确定所述第一语音文件的第一有效语音及所述第一有效语音在所述第一语音文件中的位置；所述第一有效语音为来自设备外部需要通过设备进行处理的电子信号；

对各第一有效语音在各第一语音文件中的位置进行聚类，将得到的k个聚类中心作为有效语音在语音文件中的k个预测位置；

针对所述语音集中的每个第二语音文件，从所述第二语音文件在所述k个预测位置处的语音序列中，确定过零率大于预设阈值且能量最高的语音序列为所述第二语音文件的第二有效语音；所述第二语音文件为所述语音集中除所述第一语音文件之外的语音文件；

通过语音分析确定所述第一语音文件的第一有效语音及所述第一有效语音在所述第一语音文件中的位置，包括：

通过对所述第一语音文件按照设定步长进行滑窗操作，得到多个滑窗的语音序列；

将多个滑窗的语音序列的能量和/或过零率进行比较，将能量和/或过零率满足预设条件的滑窗的语音序列确定为所述第一语音文件的第一有效语音；所述能量和/或过零率满足预设条件的滑窗所在的位置为所述第一有效语音在所述第一语音文件中的位置。

2.如权利要求1所述的方法，其特征在于，还包括：

针对所述语音集中的任一语音文件，将所述语音文件的起始语音序列或结尾语音序列中能量最低的设定长度的窗对应的语音序列确定为所述语音文件的噪声语音；根据所述语音文件的有效语音和所述语音文件的噪声语音，确定所述语音文件的信噪比。

3.如权利要求1所述的方法，其特征在于，

将能量和/或过零率满足预设条件的滑窗的语音序列确定为所述第一语音文件的第一有效语音，包括：

4.如权利要求3所述的方法，其特征在于，

通过对所述第一语音文件进行滑窗操作，得到每个滑窗的语音序列，包括：

5.如权利要求3所述的方法，其特征在于，

通过如下方式确定每个滑窗的语音序列的能量：

6.一种语音处理装置，其特征在于，包括：

确定单元，用于在语音集中任意挑选一部分第一语音文件，针对每个第一语音文件，通过语音分析确定所述第一语音文件的第一有效语音及所述第一有效语音在所述第一语音文件中的位置；所述第一有效语音为来自设备外部需要通过设备进行处理的电子信号；

处理单元，用于：

7.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至5任一项所述的方法。