CN110580906B

CN110580906B - 一种基于云端数据的远场音频扩音方法及系统

Info

Publication number: CN110580906B
Application number: CN201910705548.9A
Authority: CN
Inventors: 虞焰兴; 徐勇
Original assignee: Anhui Semxum Information Technology Co ltd
Current assignee: Anhui Semxum Information Technology Co ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-02-11
Anticipated expiration: 2039-08-01
Also published as: CN110580906A

Abstract

本发明公开了一种基于云端数据的远场音频扩音方法，所述方法包括：通过声音采集设备获取远场音频数据；录音声卡获取并将所述远场音频数据保存后传给处理器；所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注；根据所述远场文字标注从近场模型数据库中得到近场音频数据，所述近场音频数据用于扩音播放。本发明能够将声音放大的同时不影响声音的音质，能够去除掉噪声，有效避免了回声造成的干扰，并且以不同距离场景下的声音选择性播放，更加人性化，使声音更加清晰。

Description

一种基于云端数据的远场音频扩音方法及系统

技术领域

本发明属于语音识别技术领域，特别涉及一种基于云端数据的远场音频扩音方法及系统。

背景技术

语音扩音的技术在日常生活中很常见，如会议上，当会议室比较大时，为了让每一个人都能够听到，就会用到扩音器等设备。

现有的扩音器设备是将接收到的所有声音都转换成电流，再将电流放大，以声音的形式释放出来，达到扩音的目的。但这种扩音方式会将周围的噪声一起放大，形成干扰，使人们不容易听清，并且回声也会再次进入扩音器的话筒中，经过扩音后再次被释放出来，不断循环，形成重声，大大影响了会议的质量和效率。

因此，需要解决远音在放大时，如何有效去除原声中夹杂的噪声，提高声音播放时的音质，并以近场效果播放的问题。

发明内容

针对上述问题，本发明提供了一种基于云端数据的远场音频扩音方法，所述方法包括：

通过声音采集设备获取远场音频数据；

录音声卡获取并将所述远场音频数据保存后传给处理器；

所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注；

根据所述远场文字标注从近场模型数据库中得到近场音频数据，所述近场音频数据用于扩音播放。

进一步地，所述根据远场模型数据库将所述远场音频数据转换成远场文字标注包括：

基于远场模型数据库，通过语音识别技术将所述远场音频数据转换成远场文字标注。

进一步地，所述根据所述远场文字标注从近场模型数据库中得到近场音频数据的步骤如下：

将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配得到近场音频语料组，具体包括：

若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注，则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组；

若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注，则根据所述远场文字标注对所述近场模型数据库进行匹配训练，形成新的近场文字标注，并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组；

根据所述近场音频语料组形成所述近场音频数据。

进一步地，所述匹配训练具体包括：

将所述远场文字标注按照字或词进行拆分；

根据已拆分的所述远场文字标注在所述近场模型数据库中匹配对应的近场文字标注；

将匹配到的对应的近场文字标注组合成所述新的近场文字标注。

进一步地，将所述近场模型数据库中已有的近场文字标注与所述远场模型数据库中已有的远场文字标注进行比较，判断所述远场模型数据库中是否存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，根据判断结果执行处理步骤，所述处理步骤包括：

若所述远场模型数据库中存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，则不做处理；

若所述远场模型数据库中不存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，则将所述近场模型数据库中的近场文字标注按照字或词进行拆分，根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注，将匹配到的对应的远场文字标注组合成新的远场文字标注，并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。

进一步地，所述近场音频语料组存储在所述近场模型数据库中作为新的近场音频语料，所述远场音频语料组存储在所述远场模型数据库中作为新的远场音频语料。

进一步地，所述近场模型数据库中的近场音频语料包括不同距离场景下的近场音频语料，每个所述近场音频语料都绑定有对应的近场文字标注，每个所述远场音频语料都绑定有对应的远场文字标注。

进一步地，所述远场音频语料或所述近场音频语料能够通过外部导入获取并存储在远场模型数据库或近场模型数据库中，还能够通过从云端数据库下载获取并存储在远场模型数据库或近场模型数据库中。

一种基于云端数据的远场音频扩音系统，所述系统包括：

声音采集设备，用于获取远场音频数据；

录音声卡，用于将所述远场音频数据保存后传给处理器；

处理器，用于根据远场模型数据库将所述远场音频数据转换成远场文字标注，并根据所述远场文字标注从近场模型数据库中得到近场音频数据；

播放模块，用于将近场音频数据形成近场音频播放。

进一步地，所述系统还包括云端数据库和网络模块，其中：

所述云端数据库，用于存储远场音频语料和近场音频语料；

所述网络模块，用于从所述云端数据库中下载远场音频语料和近场音频语料，还用于上传远场音频语料和近场音频语料到所述云端数据库。

本发明能够将声音放大的同时不影响声音的音质，能够去除掉噪声，有效避免了回声造成的干扰，并且以不同距离场景下的声音选择性播放，更加人性化，使声音更加清晰。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的基于云端数据的远场音频扩音方法流程示意图；

图2示出了根据本发明实施例的音频语料匹配与训练过程示意图；

图3示出了根据本发明实施例的基于云端数据的远场音频扩音系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于云端数据的远场音频扩音方法，图1示出了根据本发明实施例的基于云端数据的远场音频扩音方法流程示意图，如图1所示，所述方法包括以下步骤：

步骤一：通过声音采集设备获取远场音频数据；本发明实施例中，通过音频采集设备获取远场音频数据，如采用麦克风接收远场声音。其中，远场声音是指目标声源距离音频采集设备的距离较远，示例性地，目标声源-讲话者距离麦克风2m以上、8m之内(一般的麦克风接收声音的有效距离为8m以内)。实际应用中，根据音频采集设备的选择和音频采集技术的发展，可能支持距离更大的远场音频采集，本发明实施例对远场音频的采集距离不做限制。

远场音频进入到声音采集设备中后，声音采集设备会将远场音频转换成电流信号，即形成远场音频数据，远场音频数据会被传输到多媒体设备中的录音声卡。

步骤二：录音声卡获取并将所述远场音频数据保存后传给处理器；

步骤三：所述处理器根据远场模型数据库将所述远场音频数据转换成远场文字标注；其中，远场模型数据库中包括远场音频数据和远场文字标注，远场音频数据由一个或多个远场音频语料组成，每个远场音频语料均绑定有语意相同的远场文字标注。其中，远场音频语料包括字、词或句的音频数据，远场文字标注包括字、词或句的拼音字段+声调字段组合，如“我”的远场文字标注为“wo3”，“我们”的远场文字标注为“wo3 men2”。

具体的，所述根据远场模型数据库将所述远场音频数据转换成远场文字标注包括：

步骤四：根据所述远场文字标注从近场模型数据库中得到近场音频数据，所述近场音频数据用于扩音播放。

其中，近场音频是指目标声源距离音频采集设备的距离较近，示例性地，目标声源-讲话者距离麦克风2m以内。近场模型数据库中包括近场音频数据和近场文字标注，近场音频数据由一个或多个近场音频语料组成，每个近场音频语料均绑定有语意相同的近场文字标注。其中，近场音频语料包括字、词或句的音频数据，近场文字标注包括字、词或句的拼音字段+声调字段组合，如“我”的近场文字标注为“wo3”，“我们”的近场文字标注为“wo3men2”。

具体的，根据所述远场文字标注从近场模型数据库中得到近场音频数据的步骤如下：

a、将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配，根据匹配结果执行处理步骤，所述处理步骤包括：

1、若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注，则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组；

2、若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注，则根据所述远场文字标注对所述近场模型数据库进行匹配训练，形成新的近场文字标注，并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组；

b、根据所述近场音频语料组形成所述近场音频数据。

其中，所述匹配训练具体包括：

将所述远场文字标注按照字或词进行拆分；

不仅仅近场模型数据库可以做匹配训练增加新的近场音频语料，远场模型数据库也可以通过训练增加新的远场音频语料，具体包括：

将所述近场模型数据库中已有的近场文字标注与所述远场模型数据库中已有的远场文字标注进行比较，判断所述远场模型数据库中是否存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，根据判断结果执行处理步骤，所述处理步骤包括：

1、若所述远场模型数据库中存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，则不做处理；

2、若所述远场模型数据库中不存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，则将所述近场模型数据库中的近场文字标注按照字或词进行拆分，根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注，将匹配到的对应的远场文字标注组合成新的远场文字标注，并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。

所述近场音频语料组存储在所述近场模型数据库中作为新的近场音频语料，所述远场音频语料组存储在所述远场模型数据库中作为新的远场音频语料。

需要说明的是，生成新的音频语料时，模型数据库中原音频语料不改变。

本发明实施例结合图2对音频语料匹配与训练的过程进行说明，示例性的，图2示出了根据本发明实施例的音频语料匹配与训练过程示意图，如图2所示，远场音频被转换成远场音频数据后传送到远场模型数据库中，通过语音转换技术将远场音频数据转换成远场文字标注。示例性的，远场音频数据的语意为“你们大家好”，转换成远场文字标注后就是“ni3 men2 da4 jia1 hao3”，以“ni3 men2 da4 jia1 hao3”为检索对象，在近场模型数据库中匹配与远场文字标注“ni3 men2 da4 jia1 hao3”相同的近场文字标注，包括两种情况：

1、在近场模型数据库中直接匹配到与远场文字标注“ni3 men2 da4 jia1 hao3”相同的近场文字标注。

2、在近场模型数据库中不能直接匹配到与远场文字标注“ni3 men2 da4 jia1hao3”相同的近场文字标注，此时可通过以下方式进行匹配：

将远场文字标注“ni3 men2 da4 jia1 hao3”按照字或词进行拆分，示例性的，可拆分成“ni3 men2”、“da4 jia1”、“hao3”，在近场模型数据库中匹配“ni3 men2”、“da4jia1”、“hao3”这三个近场文字标注，匹配到以后，将“ni3 men2”、“da4 jia1”、“hao3”这三个近场文字标注进行组合，形成一个近场文字标注“ni3 men2 da4 jia1 hao3”，即为所需匹配的近场文字标注。

由于近场模型数据库中的每个近场文字标注都绑定有与之对应的近场音频语料，因此根据近场文字标注可得到近场音频语料，即根据近场文字标注“ni3 men2 da4 jia1hao3”可得到语意为“你们大家好”的近场音频语料组。近场音频语料组存储在近场模型数据库中作为新的近场音频语料，便于下次匹配，节省处理时间，提高效率。

近场模型数据库与远场模型数据库之间进行训练，将远场模型数据库中的远场文字标注与近场模型数据库中的近场文字标注进行比对，当远场模型数据库中不存在与近场模型数据库中的近场文字标注相同的远场文字标注时，则将所述近场模型数据库中的近场文字标注按照字或词进行拆分，根据已拆分的所述近场文字标注在所述远场模型数据库中匹配对应的远场文字标注，将匹配到的对应的远场文字标注组合成新的远场文字标注，并根据所述新的远场文字标注得到与所述新的远场文字标注绑定的远场音频语料组。示例性的，近场模型数据库中存在近场文字标注“ni3 men2 da4 jia1 hao3”，而远场模型数据库中没有与之相同的远场文字标注，此时可将近场文字标注“ni3 men2 da4 jia1 hao3”拆分成“ni3 men2”、“da4 jia1”、“hao3”，在远场模型数据库中对这三个近场文字标注进行匹配，匹配到“ni3 men2”、“da4 jia1”、“hao3”的远场文字标注，将“ni3 men2”、“da4 jia1”、“hao3”三个远场文字标注组合成一个远场文字标注“ni3 men2 da4 jia1 hao3”。三个远场文字标注各自绑定的远场音频语料合成了一个远场音频语料组，远场音频语料组存储在远场模型数据库中作为新的远场音频语料，待到下次匹配相同文字标注时，由于远场模型数据库与近场模型数据库存在相同的文字标注，因此可以直接进行匹配，大大提高了匹配速度。

所述近场模型数据库中的近场音频语料包括不同距离场景下的近场音频语料。

所述远场音频语料或所述近场音频语料能够通过外部导入获取并存储在远场模型数据库或近场模型数据库中，还能够通过从云端数据库下载获取并存储在远场模型数据库或近场模型数据库中。

所述近场音频数据经过播放后形成近场音频。

根据距离场景在远场模型数据库中匹配对应的远场音频语料，有利于筛选掉回声和其他人声音的干扰。示例性的，选择的距离场景为6m至7m，人们位于距离声音采集设备6m至7m的范围内说话“我们都很好”，声音采集设备将接收到该距离场景的音频转换为电流信号，即转换为音频数据。远场模型数据库中会有不同距离场景下的远场音频语料，处理器先根据距离场景在远场模型数据库中选择相同距离场景下的远场音频语料，即选择的距离场景为6m至7m，至于此距离场景以外的声音将被去除，减少了噪声，提高了原声音的清晰度。通过语音转换技术和该距离场景下的远场音频语料，将远场音频数据“我们都很好”转换成远场文字标注“wo3 men2 dou1 hen3 hao3”，并根据此远场文字标注在近场模型数据库中匹配相同的近场文字标注，通过已匹配的近场文字标注，得到与之绑定的近场音频语料组，此近场音频语料组的内容即为“我们都很好”。根据需要选择合适距离场景的近场音频语料，示例性的，选择的距离场景为1m至2m，得到的近场音频即为1m至2m距离场景的音频。此时，在距离声音采集设备6m至7m处发出的声音，经音频转换后，播放出距离声音采集设备1m至2m发出声音的效果。采集远场音频时提取音质特征数据，用所述音质特征数据渲染生成的近场音频语料，保持输出的音频音质与声源的音质一致，提高了音频播放的效果。

本发明还提供了一种基于云端数据的远场音频扩音系统，图3示出了根据本发明实施例的基于云端数据的远场音频扩音系统示意图，如图3所示，声音采集设备将接收到的远场音频转换成远场音频数据(电流信号)传给多媒体设备，多媒体设备中的录音声卡将接收到的远场音频数据进行保存并传送给处理器，处理器根据远场模型数据库将所述远场音频数据转换成对应远场文字标注，并根据所述远场文字标注从近场模型数据库中得到近场音频数据。近场音频数据传到扩音模块，根据需求，扩音模块可以将近场音频数据进行放大处理，处理后的近场音频数据通过播放模块进行播放，形成所需要的近场音频。多媒体设备通过网络模块与云端数据库进行交互，具体的，处理器可以通过网络模块将音频语料上传到云端数据库进行存储，也可以通过网络模块从云端数据库中下载需要的音频语料存储在远场模型数据库或近场模型数据库中。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于云端数据的远场音频扩音方法，其特征在于，所述方法包括：

通过声音采集设备获取远场音频数据；

录音声卡将所述远场音频数据保存后传给处理器；

根据所述远场文字标注从近场模型数据库中得到近场音频数据，具体为：将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配得到近场音频语料组，具体包括：若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注，则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组；若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注，则根据所述远场文字标注对所述近场模型数据库进行匹配训练，形成新的近场文字标注，并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组；根据所述近场音频语料组形成所述近场音频数据；所述近场音频数据用于扩音播放。

2.根据权利要求1所述的基于云端数据的远场音频扩音方法，其特征在于，所述根据远场模型数据库将所述远场音频数据转换成远场文字标注包括：

3.根据权利要求1所述的基于云端数据的远场音频扩音方法，其特征在于，所述匹配训练具体包括：

将所述远场文字标注按照字或词进行拆分；

4.根据权利要求1所述的基于云端数据的远场音频扩音方法，其特征在于，将所述近场模型数据库中已有的近场文字标注与所述远场模型数据库中已有的远场文字标注进行比较，判断所述远场模型数据库中是否存在与所述近场模型数据库中的近场文字标注相同的远场文字标注，根据判断结果执行处理步骤，所述处理步骤包括：

5.根据权利要求4所述的基于云端数据的远场音频扩音方法，其特征在于，所述近场音频语料组存储在所述近场模型数据库中作为新的近场音频语料，所述远场音频语料组存储在所述远场模型数据库中作为新的远场音频语料。

6.根据权利要求5所述的基于云端数据的远场音频扩音方法，其特征在于，所述近场模型数据库中的近场音频语料包括不同距离场景下的近场音频语料，每个所述近场音频语料都绑定有对应的近场文字标注，每个所述远场音频语料都绑定有对应的远场文字标注。

7.根据权利要求6所述的基于云端数据的远场音频扩音方法，其特征在于，所述远场音频语料或所述近场音频语料能够通过外部导入获取并存储在远场模型数据库或近场模型数据库中，还能够通过从云端数据库下载获取并存储在远场模型数据库或近场模型数据库中。

8.一种基于云端数据的远场音频扩音系统，其特征在于，所述系统包括：

声音采集设备，用于获取远场音频数据；

录音声卡，用于将所述远场音频数据保存后传给处理器；

处理器，用于根据远场模型数据库将所述远场音频数据转换成远场文字标注，并根据所述远场文字标注从近场模型数据库中得到近场音频数据，具体为：将所述远场文字标注与所述近场模型数据库中的近场文字标注进行匹配得到近场音频语料组，具体包括：若所述近场模型数据库中匹配到与所述远场文字标注相同的近场文字标注，则根据所述近场文字标注得到与所述近场文字标注绑定的近场音频语料组；若所述近场模型数据库中匹配不到与所述远场文字标注相同的近场文字标注，则根据所述远场文字标注对所述近场模型数据库进行匹配训练，形成新的近场文字标注，并根据所述新的近场文字标注得到与所述新的近场文字标注绑定的近场音频语料组；根据所述近场音频语料组形成所述近场音频数据；

播放模块，用于将近场音频数据形成近场音频播放。

9.根据权利要求8所述的基于云端数据的远场音频扩音系统，其特征在于，所述系统还包括云端数据库和网络模块，其中：

所述云端数据库，用于存储远场音频语料和近场音频语料；