CN113593593A

CN113593593A - 一种具有音频识别功能的虚拟隔音通信方法

Info

Publication number: CN113593593A
Application number: CN202110914644.1A
Authority: CN
Inventors: 朱志辉
Original assignee: Shenzhen Lianyin Intercommunication Information Co ltd
Current assignee: Shenzhen Lianyin Intercommunication Information Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-02

Abstract

本发明公开一种具有音频识别功能的虚拟隔音通信方法。所述方法包括音频信号采集步骤、接近信号检测步骤、采集指令调节步骤、虚拟音频隔音步骤、输出信号质量评价步骤以及音频识别模型更新步骤。所述音频信号采集步骤用于采集输入音频、所述接近信号检测步骤用于检测接近信号、所述采集指令调节步骤用于基于所述检测到的接近信号调节所述音频信号采集指令、所述虚拟音频隔音步骤用于基于音频识别模型进行隔音处理后输出信号、若所述输出信号质量评价步骤的结论为否，则执行所述音频识别模型更新步骤。本发明的技术方案能够自适应的进行不同场景下的隔音消噪。

Description

一种具有音频识别功能的虚拟隔音通信方法

技术领域

本发明属于智能通信领域，尤其涉及一种具有音频识别功能的虚拟隔音通信方法。

背景技术

众所周知，语音是人类最自然便捷的交流方式，也是人机交互中最直接的交互模式之一，被普遍认为是下一代人机交互革命的主角。伴随着以智能手机、平板电脑等为代表的嵌入式移动设备的普及，以及语音核心技术和应用环境的逐步成熟，语音交互在全球范围内正在被越来越多的用户接受和使用。

发明人认识到，在不同的交互性场景中，用户需要的语音识别效果是不同的。例如私密状态下的端对端语音通话，其实受噪声的影响较低甚至可以忽略不计；而在多方通话例如视频直播、免提/外放式通话等场景中，外部噪声又是最重要的干扰因素，需要不同的通话模式和拾音模式。

对此，申请号为CN201910607790.2的中国发明专利申请提出一种虚拟隔音通信方法、装置、系统、电子设备、存储介质。基于光通信的虚拟隔音通信方法包括：基于光通信确定由光分隔而成的公共区域及私密区域；采集第一语音数据；自所述第一语音数据分离一个或多个声源的声源语音数据；根据所述声源语音数据确定该声源语音数据的声源位置；自所述第一语音数据中过滤声源位置位于所述私密区域的声源语音数据；以及利用过滤后的第一语音数据进行语音通信，从而实现音频通话和/或视频通话中的智能隔音；公布号为CN107148782A的申请，其公开了一种具有可配置区的音频系统，其基于用户、音频源和/或扬声器阵列的定位，可被配置为向独立区中输出表示针对一条或多条声音节目内容的信道的音频的波束。

然而，上述现有技术仍然未能解决在不同的交互性场景中通话模式和拾音模式自动化切换和识别的问题。

发明内容

为解决上述技术问题，本发明提出一种具有音频识别功能的虚拟隔音通信方法。所述方法包括音频信号采集步骤、接近信号检测步骤、采集指令调节步骤、虚拟音频隔音步骤、输出信号质量评价步骤以及音频识别模型更新步骤。所述音频信号采集步骤用于采集输入音频、所述接近信号检测步骤用于检测接近信号、所述采集指令调节步骤用于基于所述检测到的接近信号调节所述音频信号采集指令、所述虚拟音频隔音步骤用于基于音频识别模型进行隔音处理后输出信号、若所述输出信号质量评价步骤的结论为否，则执行所述音频识别模型更新步骤。本发明的技术方案能够自适应的进行不同场景下的隔音消噪。

本发明的技术方案能够自适应的进行不同场景下的隔音消噪，并且在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。

本发明所述的虚拟隔音方法，包括如下步骤：

音频信号采集步骤，所述音频信号采集步骤基于状态监测指令，发出音频采集指令，用于采集外界输入的音频信号；

接近信号检测步骤，所述接近信号检测步骤，在所述音频信号采集步骤之后，检测是否存在接近信号；

如果检测到接近信号，则执行采集指令调节步骤；

所述采集指令调节步骤基于检测到的所述接近信号，调节所述音频信号采集步骤中的音频采集指令对于所述外界输入的音频信号的采集方式；

虚拟音频隔音步骤，所述虚拟音频隔音步骤用于基于音频识别模型所述音频信号采集步骤采集得到的所述外界输入的音频信号进行隔音处理后输出信号；

输出信号质量评价步骤，所述输出信号质量评价步骤对所述虚拟音频隔音步骤的输出信号进行质量评价；

如果所述质量评价不符合预定条件，则执行音频识别模型更新步骤；

所述音频识别模型更新步骤用于更新所述虚拟音频隔音步骤中使用的音频识别模型。

在具体应用中，所述系统可以用于交互式移动终端，所述交互式移动终端包括至少一个人机交互界面，所述人机交互交互界面提供设置选项，所述设置选项用于设置所述接近检测信号与所述拾音阵列的状态对应控制关系，所述状态对应控制关系包括不同场景下不同接近信号类型对应的所述拾音阵列的控制状态。

此时，本发明所述的虚拟隔音通信方法可应用于包括多个接近传感器和多个拾音阵列的移动终端。

因此，基于上述移动终端，本发明所述方法实现为包括如下步骤S901-S906：

S901：判断所述移动终端是否处于交互状态，所述交互状态包括开启语音通话或开启视频通话；

如果是，则进入步骤S902；

S902：开启所述多个拾音阵列；

S903：判断是否至少一个所述多个接近传感器检测到接近信号，

如果是，则进入步骤S904；否则，进入步骤S905；

S904：根据所述检测到的接近信号的类型，调节所述拾音阵列的状态，进入步骤S605；

S905：通过所述拾音阵列采集音频输入信号，利用所述移动终端内置的音频AI处理器对其进行隔音处理后输出；

S906：对所述输出信号进行质量评估，判断是否符合预设标准；

如果是，则返回步骤S903；

如果否，则发送反馈信号给所述音频AI处理器，使得所述音频AI处理器更新音频AI识别模型后，返回步骤S903。

上述第二个方面提供的所述方法可以基于第一个方面提供的系统，在至少一个移动终端上自动化的实现，实现的方式可以是程序化指令等形式。

本发明的优点和关键技术手段至少包括：

（1）通过可更新识别模型的音频AI处理器进行音频识别处理，能够有效的融合现有的各种降噪识别技术；

（2）拾音模式切换模块接收所述接近传感器的接近检测信号，基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态，从而在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的虚拟隔音通信方法的主体流程图

图2是基于移动终端实现的虚拟隔音通信方法的流程图

图3是对音频输入信号进行预处理的原理图

图4是实现本发明所述方法的移动终端的一种具体硬件构造图

需要指出的是，图1-图4仅仅是示意性的说明，不代表实际结构的位置，不同位置或者大小仅仅是相对的说明。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

图1中，所述方法包括如下步骤：

如果检测到接近信号，则执行采集指令调节步骤；

更具体的，所述状态监测指令基于检测到的交互状态发出。

其中，所述音频信号采集步骤还包括预处理步骤；

所述预处理步骤对所述采集的外界输入的音频信号进行预处理，所述预处理包括信号预加重、分帧以及端点监测。

所述分帧操作包括采用与所述信号预加重步骤使用的传递函数有关的滑动时间窗口函数执行。

所述预加重步骤使用的传递函数为：

，其中，

；z为传递函数变量。

所述分帧操作采用的所述滑动时间窗口函数表达式如下：

；N为每一帧的长度。

在所述分帧操作中，相邻帧序列重叠的序列长度D满足如下条件：

，

其中N为每一帧的长度。

图2给出了一种虚拟隔音通信方法，所述方法应用于包括多个接近传感器和多个拾音阵列的移动终端。

具体而言，参见图2，所述方法包括如下步骤：

如果是，则进入步骤S902；

S902：开启所述多个拾音阵列；

如果是，则进入步骤S904；否则，进入步骤S905；

如果是，则返回步骤S903；

作为进一步的优选，参见图3。

所述步骤S905采集所述音频输入信号之后，对所述音频输入信号进行预处理后输入所述音频AI处理器；所述预处理包括如下步骤：

S9051：通过高通滤波器对所述音频输入信号进行预加重处理，所述高通滤波器的传递函数为：

，其中，

；z为传递函数变量；

S9052：采用与所述高通滤波器相关联的滑动时间窗口对所述进行预加重处理后的音频输入信号进行分帧；

所述滑动时间窗口函数表达式如下：

；N为每一帧的长度；

S9053：采用谱减法对所述分帧后的序列进行去噪；

S9054：对所述去噪后的序列进行端点检测，获取每两个相邻端点之间的音频频域特征。

在上述实施例中，通过拾音阵列采集到音频输入信号并对此进行预处理之后，采用的所述音频AI处理器的音频AI识别模型进行降噪识别，包括单麦克风降噪、双麦克风降噪、近场语音识别、远场语音识别降噪等，在本领域有多种常见的方法，本发明对此不再赘述，具体可参见如下相关技术文献：

Jonghee Han, Sunhyun Yook, Kyoung Won Nam. Comparative evaluationofvoice activity detectors in single microphone noise reduction algorithms[J].Biomed Eng Lett. 2012 (2):255-264

姚健，麦克风阵列信号处理技术研究[D]. 哈尔滨工程大学, 2012:7-32.

Gillespie B W, Malvar H S, Florêncio D A F. Speech dereverberationvia maximum-kurtosis subband adaptive filtering[C]//Proceedings of the 2001IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP'01), Salt Lake City: IEEE Press, 2001: 3701–3074.

舒晓峰. 远场语音识别系统中的语音增强技术研究[D].重庆邮电大学,2019.

不过，作为本发明的重要算法改进，步骤S9052所采用的滑动时间窗口函数是本发明语音识别识别效率提高的一个重要改进之一，采用这种改进的滑动时间窗口函数，能够确保相邻帧序列重叠的序列长度D满足如下条件：

。

即确保重叠长度大于帧长的一半，从而保证准确率与效率替身。

相比之下，目前语音信号分帧常用的窗函数主要有常规的矩形窗函数和汉明窗函数两种，其重叠长度最多为帧长的一半，并且滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择不存在关联，二者不相关。

而在本发明的上述实施例中，滑动时间窗口函数本身的参数与高通滤波器的传递函数的参数选择存在强烈的关联性（即α），能够自适应变化，从而使得算法执行速度更快。

图4是实现本发明所述方法的移动终端的一种具体硬件系统构造图。

参见图4，所述系统包括音频存储器、音频处理器、音频输出组件以及拾音阵列。

所述系统还包括多个接近传感器与拾音模式切换模块；

所述拾音阵列与所述音频存储器连接；

所述多个接近传感器均连接所述拾音模式切换模块；

所述拾音模式切换模块连接所述拾音阵列；

所述拾音阵列包括第一拾音阵列与第二拾音阵列；

基于图4的实施例，所述第一拾音阵列包括第一麦克风和第二麦克风；所述第二拾音阵列包括第三麦克风；所述第三麦克风不同于所述第一麦克风或所述第二麦克风。

在图4中，所述音频处理器为音频AI处理器，所述音频AI处理器包括至少一个可更新的音频AI识别模型。所述系统还包括音频预处理模块，所述音频预处理模块连接所述音频AI处理器与所述音频存储器。

所述系统还包括自反馈模块，所述自反馈模块连接所述音频输出组件；

所述自反馈模块对所述音频输出组件输出的音频进行质量评估，判断是否符合预设标准；如果否，则发送反馈信号给所述音频AI处理器，使得所述音频AI处理器更新音频AI识别模型。

作为体现本发明相对于现有技术的核心贡献，所述拾音模式切换模块接收所述接近传感器的接近检测信号，基于所述接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态。

图4所述系统可应用于一移动终端；所述移动终端在顶部边缘侧和左右边缘侧各设置一个接近传感器；所述第一拾音阵列位于所述移动终端的所述顶部边缘侧部分，所述第二拾音阵列位于所述移动终端的底部边缘侧部分。

此时，所述移动终端可以是包括至少一个人机交互界面的交互式移动终端，例如智能手机、便携式电脑等。

所述人机交互交互界面提供设置选项，所述设置选项用于设置所述接近检测信号与所述拾音阵列的状态对应控制关系，所述状态对应控制关系包括不同场景下不同接近信号类型对应的所述拾音阵列的控制状态。

在一个场景中，若所述拾音模式切换模块接收未接收到任何传感器的接近检测信号，则保持所述所述第二拾音阵列的所述第三麦克风处于开启状态。

在另一个场景中，若所述接近检测信号来自于所述第一接近传感器，则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风；

在一个场景中，若所述接近检测信号来自于所述第二接近传感器，则所述拾音模式切换模块关闭所述第一拾音阵列的第二麦克风

在一个场景中，若所述接近检测信号来自于所述第三接近传感器，则所述拾音模式切换模块关闭所述第一拾音阵列的第一麦克风以及所述第二麦克风，同时开启所述所述第二拾音阵列的所述第三麦克风。

在一个场景中，若所述拾音模式切换模块接收未接收到任何传感器的接近检测信号，则保持所述所述第二拾音阵列的所述第三麦克风处于关闭状态，同时开启所述第一拾音阵列的第一麦克风和第二麦克风。

在实践上，本发明可以通过在移动终端上配置多个接近检测器和多个拾音阵列，能够自适应的感知当前使用场景以及切换到对应的拾音需求；通过可更新识别模型的音频AI处理器进行音频识别处理，能够有效的融合现有的各种降噪识别技术；拾音模式切换模块接收所述接近传感器的接近检测信号，基于接近检测信号控制所述第一拾音阵列和所述第二拾音阵列的状态，从而在不同的交互性场景中实现通话模式和拾音模式自动化切换和识别。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。