CN109545242A

CN109545242A - 一种音频数据处理方法、系统、装置及可读存储介质

Info

Publication number: CN109545242A
Application number: CN201811495727.6A
Authority: CN
Inventors: 石云龙; 段旭恒; 陈昊亮
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-03-29

Abstract

本申请公开了一种音频数据处理方法，区别于使用位置固定的单一拾音器，本申请首先使用了分散在目标场景各个位置下的多个拾音器，以通过不同位置的拾音器对不同位置音源发出的声音采集得到更优的音频数据。由于每个拾音器都将形成完整的音频数据文件，本申请还通过比对各音频数据文件相同时刻的音频质量，从各音频数据文件中选取出相比其它音频数据文件在相同时刻下音频质量最高的目标音频片段，并拼接得到由各目标音频片段组成的最终音频文件，使得音频质量更高，读取者体验更佳。本申请还同时公开了一种音频数据处理系统、装置及计算机可读存储介质，具有上述有益效果。

Description

一种音频数据处理方法、系统、装置及可读存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种音频数据处理方法、系统、装置及计算机可读存储介质。

背景技术

在演讲或会议等参与人数较多、音源位置分散的场景下，单一固定位置设置的拾音器已经无法很好的记录来自不同位置的声音数据，使得最终形成的音频文件会由于不同音源距该拾音器位置的远近，使得音频文件在不同时刻的声音有大有小、清晰度有高有低的现象，严重影响了音频文件读取者的体验，继而造成产品竞争力的下降。

因此，如何克服现有技术针对此场景下存在的技术缺陷，提供一种音频质量更优、读取者体验更佳的音频数据处理方法，是本领域技术人员亟待结局的问题。

发明内容

本申请的目的是提供一种音频数据处理方法，区别于使用位置固定的单一拾音器，本申请首先使用了分散在目标场景各个位置下的多个拾音器，以通过不同位置的拾音器对不同位置音源发出的声音采集得到更优的音频数据。由于每个拾音器都将形成完整的音频数据文件，本申请还通过比对各音频数据文件相同时刻的音频质量，从各音频数据文件中选取出相比其它音频数据文件在相同时刻下音频质量最高的目标音频片段，并拼接得到由各目标音频片段组成的最终音频文件，使得音频质量更高，读取者体验更佳。

本申请的另一目的在于提供了一种音频数据处理系统、装置及计算机可读存储介质。

为实现上述目的，本申请提供一种音频数据处理方法，该方法包括：

获取多个拾音器从相同音源分别采集到的音频数据文件；其中，多个所述拾音器分别设置于目标场景下的不同位置，且多个所述拾音器采集声音数据所使用的信道参数相同；

分别检测每个所述音频数据文件的音频质量；

比较各所述音频数据文件中相同时刻的音频质量，得到各目标音频片段；其中，所述目标音频片段为各所述音频数据文件中相同时刻下拥有最高音频质量的音频片段；

将各所述目标音频片段按时间顺序进行拼接，得到最终音频文件。

可选的，分别检测每个所述音频数据文件的音频质量，包括：

获取每个所述音频数据文件的第一音频质量影响因子和第二音频质量影响因子的具体参数；

加权每个所述音频数据文件的第一音频质量影响因子和第二音频质量影响因子，得到加权后第一影响因子和加权后第二影响因子；

分别将每个所述音频数据文件的加权后第一影响因子和加权后第二影响因子按加权计算法计算得到对应音频数据文件的音频质量；

其中，所述第一音频质量影响因子包括信噪比、有效时间占比、平均能量值中的至少一项；所述第二音频质量影响因子包括人声声音强度、人声清晰度中的至少一项。

可选的，在检测每个所述音频数据文件的音频质量之前，还包括：

分别对每个所述音频数据文件进行Vad检测，得到每个所述音频数据文件的第一音频质量影响因子的具体参数；

分别对每个所述音频数据文件依次执行人声分离操作和杂音去除操作，得到处理后音频数据；

对所述处理后音频数据进行人声特征检测，得到每个所述音频数据文件的第二音频质量影响因子的具体参数。

可选的，在比较各所述音频数据文件中相同时刻的音频质量之前，还包括：

将各所述音频数据文件分割为时长相同的音频片段；

对应的，比较各所述音频数据文件中相同时刻的音频质量，包括：

比较各所述音频数据文件中相同时刻对应的音频片段的音频质量。

为实现上述目的，本申请还提供了一种音频数据处理系统，该系统包括：

多音频文件获取单元，用于获取多个拾音器从相同音源分别采集到的音频数据文件；其中，多个所述拾音器分别设置于目标场景下的不同位置，且多个所述拾音器采集声音数据所使用的信道参数相同；

音频质量检测单元，用于分别检测每个所述音频数据文件的音频质量；

音频质量比较单元，用于比较各所述音频数据文件中相同时刻的音频质量，得到各目标音频片段；其中，所述目标音频片段为各所述音频数据文件中相同时刻下拥有最高音频质量的音频片段；

高质量音频片段拼接单元，用于将各所述目标音频片段按时间顺序进行拼接，得到最终音频文件。

可选的，所述音频质量检测单元包括：

影响因子具体参数获取子单元，用于获取每个所述音频数据文件的第一音频质量影响因子和第二音频质量影响因子的具体参数；

加权子单元，用于加权每个所述音频数据文件的第一音频质量影响因子和第二音频质量影响因子，得到加权后第一影响因子和加权后第二影响因子；

音频质量计算子单元，用于分别将每个所述音频数据文件的加权后第一影响因子和加权后第二影响因子按加权计算法计算得到对应音频数据文件的音频质量；

可选的，该音频数据处理系统还包括：

Vad检测单元，用于在检测每个所述音频数据文件的音频质量之前，分别对每个所述音频数据文件进行Vad检测，得到每个所述音频数据文件的第一音频质量影响因子的具体参数；

人声分离和杂音去除单元，用于在检测每个所述音频数据文件的音频质量之前，分别对每个所述音频数据文件依次执行人声分离操作和杂音去除操作，得到处理后音频数据；

人声特征检测单元，用于对所述处理后音频数据进行人声特征检测，得到每个所述音频数据文件的第二音频质量影响因子的具体参数。

可选的，该音频数据处理系统还包括：

分割单元，用于在比较各所述音频数据文件中相同时刻的音频质量之前，将各所述音频数据文件分割为时长相同的音频片段；

对应的，所述音频质量比较单元包括：

音频片段比较子单元，用于比较各所述音频数据文件中相同时刻对应的音频片段的音频质量。

为实现上述目的，本申请还提供了一种音频数据处理装置，该装置包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述内容所描述的音频数据处理方法。

为实现上述目的，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述内容所描述的音频数据处理方法。

显然，本申请所提供的音频数据处理方法，区别于使用位置固定的单一拾音器，本申请首先使用了分散在目标场景各个位置下的多个拾音器，以通过不同位置的拾音器对不同位置音源发出的声音采集得到更优的音频数据。由于每个拾音器都将形成完整的音频数据文件，本申请还通过比对各音频数据文件相同时刻的音频质量，从各音频数据文件中选取出相比其它音频数据文件在相同时刻下音频质量最高的目标音频片段，并拼接得到由各目标音频片段组成的最终音频文件，使得音频质量更高，读取者体验更佳。本申请同时还提供了一种音频数据处理系统、装置及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种音频数据处理方法的流程图；

图2为本申请实施例提供的另一种音频数据处理方法的流程图；

图3为本申请实施例提供的一种音频数据处理系统的结构框图；

图4为本申请实施例提供的一种音频数据处理系统与多个拾音器间的连接关系的示意图。

具体实施方式

本申请的核心是提供一种音频数据处理方法、系统、装置及计算机可读存储介质，区别于使用位置固定的单一拾音器，本申请首先使用了分散在目标场景各个位置下的多个拾音器，以通过不同位置的拾音器对不同位置音源发出的声音采集得到更优的音频数据。由于每个拾音器都将形成完整的音频数据文件，本申请还通过比对各音频数据文件相同时刻的音频质量，从各音频数据文件中选取出相比其它音频数据文件在相同时刻下音频质量最高的目标音频片段，并拼接得到由各目标音频片段组成的最终音频文件，使得音频质量更高，读取者体验更佳。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一

请参见图1，图1为本申请实施例提供的一种音频数据处理方法的流程图，其包括以下步骤：

S101：获取多个拾音器从相同音源分别采集到的音频数据文件；

本步骤旨在获取多个拾音器从相同音源分别采集到的音频数据文件，其中，相同音源是指对所有拾音器来说采集声音数据的源头是同一个，但该音源可处在目标场景下的不同位置。

需要说明的是，本申请为了解决现有使用位置固定的单一拾音器对较大场景下存在的分散音源进行声音采集时存在的技术缺陷，使用了多个拾音器，且这些拾音器分散在目标场景下的不同位置，且每个拾音器采集声音数据所使用的信道参数相同，以期由距分散音源较近的拾音器采集到音频质量更高的声音数据，由于每个拾音器都将会形成完整的音频数据文件，且高音频质量的声音数据将分散在各个拾音器形成的音频数据文件，为了最终得到一个全由高音频质量的声音数据构成的音频文件，还需要通过后续步骤实现。

进一步的，为了使得分散在不同位置的各拾音器能够在所处位置采集到质量尽可能高的声音数据，还可以事先对各拾音器进行调试，以使每个拾音器在所处位置下处于最佳工作状态。具体的，调试的内容可以包括采样率、采样精度、通道数等等。

S102：分别检测每个音频数据文件的音频质量；

在S101的基础上，为了确定各个音频数据文件中的哪些声音数据相对于其它音频数据文件相同时刻的声音数据是音频质量最高的，本步骤将首先分别检测每个音频数据文件的音频质量，以便通过量化的指标进行横向比较。

具体的，音频质量可有多个或多种影响因子共同决定，即每个或每种影响因子将对音频质量的某一方面造成影响，由于本申请提供的方法主要适用于演讲、会议等人声场景，基于此，音频质量可大体由两类影响因子综合，一类将由表示有效信号与噪声比例的信噪比、有效语音信号占全部有效信号的比例、平均能量值等等“硬参数”组成；另一类将由人声特征参数组成，例如人声声音强度、人声清晰度等等与人声相关的参数。

当然，在实际应用场景变化时，也可以根据实际应用场景中主要包含的声音特征进行适应性调整，比如记录各个位置的设备运行时产生的运转声时，就无需将人声特征参数作为影响音频质量的参数使用，应将其替换为运转声特征，其它场景以此类推，在此不再一一赘述。

S103：比较各音频数据文件中相同时刻的音频质量，得到各目标音频片段；

在S102的基础上，本步骤旨在利用上一步骤检测得到的量化的音频质量指标，在各音频数据文件间进行横向比较，以比较得到相同时刻对应的各音频片段中拥有最高音频质量的目标音频片段。

为了便于比较，还可以设置每个拾音器将自己采集达到的声音数据均按照相同的分割方式依次得到多个音频片段，并将相同时刻对应的音频片段附加同类标记，以通过S102得到每个音频片段的音频质量，并在拥有同类标记的音频片段间进行横向比较，以得到拥有最高音频质量的目标音频片段。

其中，分割方式包括但不限于按照固定时长(例如3秒)、固定文件大小。

S104：将各目标音频片段按时间顺序进行拼接，得到最终音频文件。

在S103的基础上，本步骤旨在将各拥有最高音频质量的目标音频片段按时间顺序进行拼接，得到最终音频文件，即最终音频文件是由每个拾音器分别采集到的音频数据文件中最高音频质量的声音数据构成的，是将优选的音频片段整合后得到。

基于上述技术方案，本申请实施例提供的音频数据处理方法，使用了分散在目标场景各个位置下的多个拾音器，以通过不同位置的拾音器对不同位置音源发出的声音采集得到更优的音频数据。由于每个拾音器都将形成完整的音频数据文件，本申请还通过比对各音频数据文件相同时刻的音频质量，从各音频数据文件中选取出相比其它音频数据文件在相同时刻下音频质量最高的目标音频片段，并拼接得到由各目标音频片段组成的最终音频文件，使得音频质量更高，读取者体验更佳。

为了加深对本申请技术方案和效果的理解，本申请还将通过一个具体的例子来进行说明，场景如下：

假定将在一个大会议室召开100人的代表发言会议，该会议时长共60分钟，将会有6个代表分别进行10分钟的发言，且这个代表分别位于会议室的不同位置，在该会议室内共设置有10个分布间隔均匀的拾音器。

10个拾音器将分别得到时长均为60分钟的音频数据文件，经检测这10个音频数据文件的音频质量，发现3号拾音器由于距1号发言人距离较近，因此在0至10分钟这个时间段内，其音频质量最高；后续的5个发言人依次对应2号拾音器、6号拾音器、10号拾音器、7号拾音器以及4号拾音器，也就是最终形成的最终音频文件中的60分钟分为有3号拾音器的0～10分钟、2号拾音器的10～20分钟、6号拾音器对应的20～30分钟、10号拾音器对应的30～40分钟、7号拾音器对应的40～50分钟以及4号拾音器对应的50～60分钟拼接而成。

实施例二

请参见图2，图2为本申请实施例提供的另一种音频数据处理方法的流程图，相对于实施例一，本实施例主要针对人声场景给出了一种包含具体如何计算音频质量的方法，更合适人声场景，具体包括以下步骤：

S201：获取多个拾音器从相同音源分别采集到的音频数据文件；

S202：分别对每个音频数据文件进行Vad检测，得到每个音频数据文件的第一音频质量影响因子的具体参数；

Vad，Voice Activity Detection，中文称为语音活动检测、语音端点检测、语音边界检测等等，是指在噪声环境中检测语音的存在与否。通常用于语音编码、语音增强等语音处理系统中，目的在于通过检测结果实现对语音编码速率、通信带宽、移动设备能耗、识别率的调整。

在本实施例提供的场景下，本步骤在进行Vad检测后，得到的第一音频质量影响因子将包括有效信号与噪声比例的信噪比、有效语音信号占全部有效信号的比例、平均能量值。

S203：分别对每个音频数据文件依次执行人声分离操作和杂音去除操作，得到处理后音频数据；

S204：对处理后音频数据进行人声特征检测，得到每个音频数据文件的第第一音频质量影响因子；

S203和S204旨在提取出与第一音频质量影响因子一并影响音频质量的第二音频质量影响因子，即在人声场景下重要的人声特征。S203是为了更好的提取出人声特征参数，所预先做的人声分离和杂音去除操作，以使可从处理后音频数据中提取出更好的人声特征参数。具体的，第二音频质量影响因子将包括人声声音强度、人声清晰度等。

可从图2看出，S202与S203和S203两部分间不存在依赖关系，可计算性能足够时刻采用并行的方式同时执行，也可在计算性能不足时以串行的方式依次执行，前执行哪一部分都可以。

S205：获取每个音频数据文件的第一音频质量影响因子和第二音频质量影响因子的具体参数；

S206：加权每个音频数据文件的第一音频质量影响因子和第二音频质量影响因子，得到加权后第一影响因子和加权后第二影响因子；

本步骤旨在根据第一音频质量影响因子和第二音频质量影响因子对综合音频质量造成影响的程度不同，向其赋予符合其影响程度的权值。权值的具体大小根据长期的历史经验进行设置，也可以通过诸如机器学习算法构建出的模型来得到，此处并不做具体限定。

S207：分别将每个音频数据文件的加权后第一影响因子和加权后第二影响因子按加权计算法计算得到对应音频数据文件的音频质量；

加权计算法的计算过程如下：第一音频质量影响因子×第一权值+第二音频质量影响因子×第二权值＝音频质量。

当然，实际情况下可能还需要在此基础上进行适应性的调整，例如增加修改系数和基准值等等，此处不做具体限定。

S208：将各音频数据文件分割为时长相同的音频片段；

S209：比较各音频数据文件中相同时刻对应的音频片段的音频质量，得到各目标音频片段；

S210：将各目标音频片段按时间顺序进行拼接，得到最终音频文件。

因为情况复杂，无法一一列举进行阐述，本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子，在不付出足够的创造性劳动下，应均在本申请的保护范围内。

实施例三

下面请参见图3，图3为本申请实施例提供的一种音频数据处理系统的结构框图，该系统可以包括：

多音频文件获取单元100，用于获取多个拾音器从相同音源分别采集到的音频数据文件；其中，多个拾音器分别设置于目标场景下的不同位置，且多个拾音器采集声音数据所使用的信道参数相同；

音频质量检测单元200，用于分别检测每个音频数据文件的音频质量；

音频质量比较单元300，用于比较各音频数据文件中相同时刻的音频质量，得到各目标音频片段；其中，目标音频片段为各音频数据文件中相同时刻下拥有最高音频质量的音频片段；

高质量音频片段拼接单元400，用于将各目标音频片段按时间顺序进行拼接，得到最终音频文件。

其中，该音频质量检测单元200可以包括：

影响因子具体参数获取子单元，用于获取每个音频数据文件的第一音频质量影响因子和第二音频质量影响因子的具体参数；

加权子单元，用于加权每个音频数据文件的第一音频质量影响因子和第二音频质量影响因子，得到加权后第一影响因子和加权后第二影响因子；

音频质量计算子单元，用于分别将每个音频数据文件的加权后第一影响因子和加权后第二影响因子按加权计算法计算得到对应音频数据文件的音频质量；

其中，第一音频质量影响因子包括信噪比、有效时间占比、平均能量值中的至少一项；第二音频质量影响因子包括人声声音强度、人声清晰度中的至少一项。

进一步的，该音频数据处理系统还可以包括：

Vad检测单元，用于在检测每个音频数据文件的音频质量之前，分别对每个音频数据文件进行Vad检测，得到每个音频数据文件的第一音频质量影响因子的具体参数；

人声分离和杂音去除单元，用于在检测每个音频数据文件的音频质量之前，分别对每个音频数据文件依次执行人声分离操作和杂音去除操作，得到处理后音频数据；

人声特征检测单元，用于对处理后音频数据进行人声特征检测，得到每个音频数据文件的第二音频质量影响因子的具体参数。

进一步的，该音频数据处理系统还可以包括：

分割单元，用于在比较各音频数据文件中相同时刻的音频质量之前，将各音频数据文件分割为时长相同的音频片段；

对应的，该音频质量比较单元300可以包括：

音频片段比较子单元，用于比较各音频数据文件中相同时刻对应的音频片段的音频质量。

该处理系统对应该处理方法，本实施例作为一个与方法实施例对应的系统实施例存在，具有与方法实施例相同的有益效果，在此不再赘述。

基于上述实施例，本申请还提供了一种音频数据处理装置，该装置可以包括存储器和处理器，其中，该存储器中存有计算机程序，该处理器调用该存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然，该装置还可以包括各种必要的网络接口、电源以及其它零部件等。

可参见图4，图4给出了一种该音频数据处理装置与多个拾音器间的连接关系示意图，图4中形如话筒的装置为拾音器，可看到有4个拾音器分布在不同的方位，且图4中还示出了三个处于不同位置的音源，可以明显看出，音源1相距左上的拾音器较近，理应左上拾音器所采集到的音源1的声音数据的质量最高，音源2和音源3同理，分别应为右下拾音器和左下拾音器。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，且各个实施例间为递进关系，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，可参见对应的方法部分说明。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音频数据处理方法，其特征在于，包括：

分别检测每个所述音频数据文件的音频质量；

2.根据权利要求1所述的音频数据处理方法，其特征在于，分别检测每个所述音频数据文件的音频质量，包括：

3.根据权利要求2所述的音频数据处理方法，其特征在于，在检测每个所述音频数据文件的音频质量之前，还包括：

4.根据权利要求1至3任一项所述的音频数据处理方法，其特征在于，在比较各所述音频数据文件中相同时刻的音频质量之前，还包括：

将各所述音频数据文件分割为时长相同的音频片段；

5.一种音频数据处理系统，其特征在于，包括：

6.根据权利要求5所述的音频数据处理系统，其特征在于，所述音频质量检测单元包括：

7.根据权利要求6所述的音频数据处理系统，其特征在于，还包括：

8.根据权利要求5至7任一项所述的音频数据处理系统，其特征在于，还包括：

对应的，所述音频质量比较单元包括：

9.一种音频数据处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的音频数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的音频数据处理方法。