CN109256137A

CN109256137A - 语音采集方法、装置、计算机设备和存储介质

Info

Publication number: CN109256137A
Application number: CN201811172477.2A
Authority: CN
Inventors: 陈东鹏
Original assignee: Shenzhen Sound Yang Technology Co Ltd
Current assignee: Shenzhen Sound Yang Technology Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-01-22
Anticipated expiration: 2038-10-09
Also published as: CN109256137B

Abstract

本申请涉及一种语音采集方法、装置、计算机设备及存储介质，接收音频流，将所述音频流分割为多个语音片段；提取所述多个语音片段的声纹特征；将所述多个语音片段的声纹特征进行两两比对，得到所述音频流对应的分数矩阵，所述分数矩阵用于表示语音片段两两之间相似度对应的分数；根据所述分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量；根据语音片段数量最大的声源，提取相应的语音片段。采用本方法能够避免因语音质量问题增加后期人工操作，提高了语音采集效率。

Description

语音采集方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种语音采集方法、装置、计算机设备和存储介质。

背景技术

随着语音技术的发展，对于语音的要求越来越高，语音采集作为语音机器学习模型训练的基础和重要环节，需要对语音质量进行严格把控。在语音采集过程中，语音质量极易受到各种因素的影响。例如，语音中混入噪声。但是，该混入噪声的语音中大部分语音片段是合格的。然而，在传统的语音采集方式中，即使混入噪声的语音中大部分语音片段是合格的，也会被认定为整段语音不合格。为了将不合格的小部分语音去除，需要进行人工剪辑，或是将整段语音放弃进行重新采集，费时费力，存在语音采集效率较低的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音采集效率的语音采集计算方法、装置、计算机设备和存储介质。

一种语音采集方法，所述方法包括：

接收音频流，将所述音频流分割为多个语音片段；

提取所述多个语音片段的声纹特征；

将所述多个语音片段的声纹特征进行两两比对，得到所述音频流对应的分数矩阵，所述分数矩阵用于表示语音片段两两之间相似度对应的分数；

根据所述分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量；

根据语音片段数量最大的声源，提取相应的语音片段。

在其中一个实施例中，所述将所述音频流分割为多个语音片段，包括：

根据机器学习模型中的历史数据识别所述音频流中的多个语句的结尾；将所述多个语句的结尾作为多个语音片段的分割点；利用所述多个语音片段的分割点，将所述音频流分割为多个语音片段。

在其中一个实施例中，所述将所述多个语音片段的声纹特征进行两两比对，得到所述音频流对应的分数矩阵，所述分数矩阵用于表示语音片段两两之间相似度对应的分数，包括：

将所述多个语音片段的声纹特征进行两两比对，得到多个声纹特征向量之间的距离；

利用所述多个声纹特征向量之间的距离生成所述多个语音片段之间的距离关系；

根据所述多个语音片段之间的距离关系计算语音片段两两之间相似度对应的分数；

根据所述语音片段两两之间相似度对应的分数生成所述音频流对应的分数矩阵。

在其中一个实施例中，所述根据所述分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量，包括：

根据所述分数矩阵对所述声纹特征进行聚类，并得到所述分数矩阵中同行或同列分数在预设分数阈值以上的数量，将所述数量在预设数量以下的所述同行或同列分数对应的语音片段去除，得到多种声源对应的语音片段数量。

在其中一个实施例中，所述声源还包括噪声声源，在所述根据分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量，还包括：

对所述噪声声源进行过滤；

识别过滤后的声源中同种声源对应的语音片段数量。

一种语音采集装置，所述装置包括：

音频流分割模块，用于接收音频流，将所述音频流分割为多个语音片段；

声纹特征提取模块，用于提取所述多个语音片段的声纹特征；

声纹特征比对模块，用于将所述多个语音片段的声纹特征进行两两比对，得到所述音频流对应的分数矩阵，所述分数矩阵用于表示语音片段两两之间相似度对应的分数；

声纹特征聚类模块，用于根据所述分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量；

语音片段提取模块，用于根据语音片段数量最大的声源，提取相应的语音片段。

在其中一个实施例中，所述音频流分割模块，还用于根据机器学习模型中的历史数据识别所述音频流中的多个语句的结尾；将所述多个语句的结尾作为多个语音片段的分割点；利用所述多个语音片段的分割点，将所述音频流分割为多个语音片段。

在其中一个实施例中，所述声纹特征比对模块，还用于将所述多个语音片段的声纹特征进行两两比对，得到多个声纹特征向量之间的距离；利用所述多个声纹特征向量之间的距离生成所述多个语音片段之间的距离关系；根据所述多个语音片段之间的距离关系计算语音片段两两之间相似度对应的分数；根据所述语音片段两两之间相似度对应的分数生成所述音频流对应的分数矩阵。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述语音采集方法、装置、计算机设备和存储介质，通过将音频流分割为多个语音片段，提取多个语音片段的声纹特征，将声纹特征进行两两比对，得到分数矩阵，根据分数矩阵将声纹特征进行聚类的过程中，能够准确去除不合格的语音片段，将噪声声源进行过滤，提高语音质量，避免因语音质量问题将整段语音放弃重新采集或是进行人工剪辑，极大减少了后期人工操作，进一步提高了语音采集效率。

附图说明

图1为一个实施例中语音采集方法的应用环境图；

图2为一个实施例中语音采集方法的流程示意图；

图3为一个实施例中将音频流分割为多个语音片段步骤的流程示意图；

图4为一个实施例中装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音采集方法，可以应用于如图1所示的应用环境中。服务器104与多个语音采集设备102通过网络进行通信。服务器104接收多个语音采集设备102发送的音频流，服务器104将音频流分割为多个语音片段。服务器104提取多个语音片段的声纹特征。服务器104将多个语音片段的声纹特征进行两两比对，得到音频流对应的分数矩阵，服务器104得到的分数矩阵用于表示语音片段两两之间相似度对应的分数。服务器104再根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量。服务器104根据语音片段数量最大的声源，提取相应的语音片段。服务器104将提取出来的语音片段存储于数据库中。其中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音采集方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，接收音频流，将音频流分割为多个语音片段。

其中，音频流为语音采集设备采集的语音样本。服务器在接收语音设备发送的音频流后，将音频流进行分割，得到多个语音片段。语音片段是指一句或多句完整的话。在语音片段结束时对缓存的语音进行质量检测与声纹分析对比，防止切到语句的中间。

进一步地，服务器可对音频流进行实时分割，实时分割可以通过语音活动检测(Voice Activity Detection，简称VAD)的方式来实现。

在传统的方式中，服务器会将混入噪声且大部分语音片段合格的语音，认定为整段语音不合格，将整段语音放弃进行重新采集。而在本实施例中，服务器在接收音频流后，对音频流分割为多个语音片段，即对音频流进行断句处理，在聚类的过程中，判断每个语音片段是否合格，如果不合格就直接将该语音片段去除，实现自动剪辑，提高了语音采集效率。

步骤204，提取多个语音片段的声纹特征。

服务器将音频流分割为多个语音片段后，可提取多个语音片段的声纹特征。具体地，服务器可以根据声纹识别技术提取多个语音片段的声纹特征向量，提取声纹特征向量可以利用高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal BackgroundModel,简称GMM-UBM)。

步骤206，将多个语音片段的声纹特征进行两两比对，得到音频流对应的分数矩阵，分数矩阵用于表示语音片段两两之间相似度对应的分数。

服务器在提取多个语音片段的声纹特征后，可将多个语音片段的声纹特征进行两两比对，得到音频流对应的分数矩阵，分数矩阵用于表示声纹特征两两之间相似度对应的分数。具体地，服务器比对声纹特征向量两两之间的距离，得到多个语音片段之间的距离关系，根据多个语音片段之间的距离关系计算出语音片段两两之间相似度对应的分数，根据语音片段两两之间相似度对应的分数生成分数矩阵。

步骤208，根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量。

服务器在将多个语音片段的声纹特征进行两两比对，得到音频流对应的分数矩阵，分数矩阵用于表示声纹特征两两之间相似度对应的分数后，可根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量。具体地，服务器根据声纹特征两两之间相似度对应的分数将声纹特征进行聚类。可以利用K-Means(K均值)、Hierarchical_clustering(层次聚类)等经典聚类算法进行聚类。经过聚类，得到声纹特征对应的语音片段生成的多种声源，并得到多种声源对应的语音片段数量。

步骤210，根据语音片段数量最大的声源，提取相应的语音片段。

服务器在根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量后，可根据语音片段数量最大的声源，提取相应的语音片段。具体地，服务器挑选语音片段数量最大的一种声源，将该声源中相应的语音片段提取出来，作为目标说话人的语音存储在语音库中。

上述语音采集方法，服务器将音频流分割为多个语音片段，提取多个语音片段的声纹特征，将声纹特征进行两两比对与聚类得到多种声源对应的语音片段数量，根据语音片段数量最大的声源，提取相应的语音片段。实现去除整段语音中的不合格语音片段，提高了语音质量，避免因语音质量问题将整段语音放弃重新采集或是进行人工剪辑，减少了后期人工操作，提高了语音采集效率。

在一个实施例中，如图3所示，将音频流分割为多个语音片段，包括以下步骤：

步骤302，根据机器学习模型中的历史数据识别音频流中多个语句的结尾。

步骤304，将多个语句的结尾作为多个语音片段的分割点。

步骤306，利用多个语音片段的分割点，将音频流分割为多个语音片段。

具体地，服务器将多个语句的结尾作为多个语音片段的分割点，该分割点可以是人声端点，人声端点可根据音量、能量来进行识别。服务器在将多个语句的结尾作为多个语音片段的分割点，可利用多个语音片段的分割点，将音频流分割为多个语音片段。

在本实施例中，服务器识别音频流中多个语句的结尾，将语句的结尾作为多个语音片段的分割点，利用多个语音片段的分割点，将音频流分割为多个语音片段。实现将整段语音分割为多个语音片段，避免切到语句的中间，提高了语音质量检测的准确性，减少了后期人工操作，进一步提高了语音采集效率。

在一个实施例中，将多个语音片段的声纹特征进行两两比对，得到音频流对应的分数矩阵，分数矩阵用于表示语音片段两两之间相似度对应的分数，包括：将多个语音片段的声纹特征进行两两比对，得到多个声纹特征向量之间的距离；利用多个声纹特征向量之间的距离生成多个语音片段之间的距离关系；根据多个语音片段之间的距离关系计算语音片段两两之间相似度对应的分数；根据语音片段两两之间相似度对应的分数生成音频流对应的分数矩阵。其中，语音片段两两之间相似度对应的分数可以自由设定，相似度由高到低，对应的分数也由高到低。分数矩阵如下表所示：

400	319.769	199.989	113.783	212.336	154.437
						319.769	400	217.438	144.261	211.534	182.938
199.989	217.438	400	252.207	160.404	226.003
						113.783	144.261	252.207	400	233.648	288.902
212.336	211.534	160.404	233.648	400	196.524
						154.437	182.938	226.003	288.902	196.524	400

其中，第i行第j列表示第i个语音片段与第j个语音片段相似度的对应分数；第一行第一列表示第一个语音片段自身进行对比，相似度为100％，分数为满分400，该满分数值可以自由设定。

在本实施例中，服务器比对声纹特征，得到多个声纹特征向量之间的距离，进而得到语音片段之间的距离关系，根据该距离关系计算语音片段两两之间相似度对应的分数，从而生成音频流对应的分数矩阵。利用分数来直观的表示语音片段两两之间的相似度，分数越接近满分，表示语音片段两两之间的相似度越高。若分数在预设分数阈值以下，则需要判断该分数所在行或列对应的语音片段是否合格。如果该行或该列中在预设分数阈值以上的分数的数量在预设数量以下，服务器就将该行或该列分数对应的语音片段去除，即将不合格的语音片段去除，实现更准确地去除不合格的语音片段，避免将整段语音放弃重新采集或是进行人工剪辑，极大减少了后期人工操作。

在一个实施例中，根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量，包括：根据分数矩阵对声纹特征进行聚类，并得到分数矩阵中同行或同列分数在预设分数阈值以上的数量，将数量在预设数量以下的同行或同列分数对应的语音片段去除，得到多种声源对应的语音片段数量。

具体地，服务器根据语音片段两两之间的相似度对应的分数将声纹特征进行聚类，在聚类的过程中，识别分数矩阵中预设分数阈值以下的分数对应的语音片段。其中，预设分数阈值可以根据满分来进行设置。例如，满分是400分，预设分数阈值为240分，服务器识别240分以下的分数对应的语音片段。服务器根据该分数所在行或列中分数在预设分数阈值以上的数量，若该数量在预设数量以下，则证明该行或列对应的语音片段与其他语音片段差异较大，为不合格的语音片段。例如，夹杂有背景噪声的语音片段。其中，预设数量可以是两个。服务器将该行或列对应的语音片段去除，经过聚类后得到多种声源对应的语音片段数量。服务器经过聚类可以判断每个语音片段所属的声源，从而得到每种声源对应的语音片段数量，进而得到多种声源对应得语音片段数量。

在传统的方式中，若采集的语音中部分语音片段夹杂有背景噪声，会被认定为人声，导致入库语音不纯净。在本实施例中，服务器在将声纹特征进行聚类的过程中，识别同行或同列中在预设分数阈值以上的分数数量，去除分数数量在预设数量以下的同行或同列对应的语音片段，例如，夹杂有背景噪声的语音片段，提高了语音质量。

在一个实施例中，声源还包括噪声声源，在根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量，还包括：对噪声声源进行过滤；识别过滤后的声源中同种声源对应的语音片段数量。

具体地，服务器根据语音片段两两之间相似度对应的分数将声纹特征进行聚类，服务器经过聚类可以得到多种声源，对声源中的噪声声源进行过滤，过滤后的声源为多种人声声源，识别多种人声声源中的同种声源对应的语音片段数量。

在传统的方式中，采集的语音中混有噪声时，会被认定为整段语音不合格，将整段语音放弃进行重新采集，或是进行人工剪辑将混有噪声的部分语音进行过滤。在本实施例中，服务器能够准确判断人声声源与噪声声源，并自动将噪声声源进行过滤，进一步提高了语音质量。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种语音采集装置，包括：音频流分割模块402、声纹特征提取模块404、声纹特征比对模块406、声纹特征聚类模块408和语音片段提取模块410，其中：

音频流分割模块402，用于接收音频流，将音频流分割为多个语音片段。

声纹特征提取模块404，用于提取多个语音片段的声纹特征。

声纹特征比对模块406，用于将多个语音片段的声纹特征进行两两比对，得到音频流对应的分数矩阵，分数矩阵用于表示语音片段两两之间相似度对应的分数。

声纹特征聚类模块408，用于根据分数矩阵对声纹特征进行聚类，得到多种声源对应的语音片段数量。

语音片段提取模块410，用于根据语音片段数量最大的声源，提取相应的语音片段。

上述语音采集装置，服务器将音频流分割为多个语音片段，提取多个语音片段的声纹特征，将声纹特征进行两两比对，得到分数矩阵，根据分数矩阵将声纹特征进行聚类的过程中，能够准确去除不合格的语音片段，将噪声声源进行过滤，提高语音质量，避免因语音质量问题将整段语音放弃重新采集或是进行人工剪辑，极大减少了后期人工操作，进一步提高了语音采集效率。

在其中一个实施例中，音频流分割模块402，还用于根据机器学习模型中的历史数据识别音频流中多个语句的结尾；将多个语句的结尾作为多个语音片段的分割点；利用多个语音片段的分割点，将音频流分割为多个语音片段。

在其中一个实施例中，声纹特征比对模块406，还用于将多个语音片段的声纹特征进行两两比对，得到多个声纹特征向量之间的距离；利用多个声纹特征向量之间的距离生成多个语音片段之间的距离关系；根据多个语音片段之间的距离关系计算语音片段两两之间相似度对应的分数；根据语音片段两两之间相似度对应的分数生成音频流对应的分数矩阵。

在其中一个实施例中，声纹特征聚类模块408，还用于根据分数矩阵对声纹特征进行聚类，并得到分数矩阵中同行或同列分数在预设分数阈值以上的数量，将数量在预设数量以下的同行或同列分数对应的语音片段去除，得到多种声源对应的语音片段数量。

在其中一个实施例中，声纹特征聚类模块408，还用于对声源中的噪声声源进行过滤；识别过滤后的声源中同种声源对应的语音片段数量。

关于语音采集装置的具体限定可以参见上文中对于药丸包衣图像处理方法的限定，在此不再赘述。上述语音采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音采集方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音采集方法，所述方法包括：

接收音频流，将所述音频流分割为多个语音片段；

提取所述多个语音片段的声纹特征；

根据语音片段数量最大的声源，提取相应的语音片段。

2.根据权利要求1所述的方法，其特征在于，所述将所述音频流分割为多个语音片段，包括：

根据机器学习模型中的历史数据识别所述音频流中多个语句的结尾；

将所述多个语句的结尾作为多个语音片段的分割点；

利用所述多个语音片段的分割点，将所述音频流分割为多个语音片段。

3.根据权利要求1所述的方法，其特征在于，所述将所述多个语音片段的声纹特征进行两两比对，得到所述音频流对应的分数矩阵，所述分数矩阵用于表示语音片段两两之间相似度对应的分数，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量，包括：

5.根据权利要求1所述的方法，其特征在于，所述声源还包括噪声声源，在所述根据分数矩阵对所述声纹特征进行聚类，得到多种声源对应的语音片段数量，还包括：

对所述噪声声源进行过滤；

识别过滤后的声源中同种声源对应的语音片段数量。

6.一种语音采集装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述音频流分割模块，还用于根据机器学习模型中的历史数据识别所述音频流中的多个语句的结尾；将所述多个语句的结尾作为多个语音片段的分割点；利用所述多个语音片段的分割点，将所述音频流分割为多个语音片段。

8.根据权利要求6所述的装置，其特征在于，所述声纹特征比对模块，还用于将所述多个语音片段的声纹特征进行两两比对，得到多个声纹特征向量之间的距离；利用所述多个声纹特征向量之间的距离生成所述多个语音片段之间的距离关系；根据所述多个语音片段之间的距离关系计算语音片段两两之间相似度对应的分数；根据所述语音片段两两之间相似度对应的分数生成所述音频流对应的分数矩阵。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。