CN108305631B

CN108305631B - 一种基于多核模块化构架的声学处理设备

Info

Publication number: CN108305631B
Application number: CN201810300988.1A
Authority: CN
Inventors: 聂玮奇; 贺武君; 罗晓峰
Original assignee: Xi'an Hepu Accoustic Technology Co ltd
Current assignee: Xi'an Hepu Accoustic Technology Co ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2023-09-05
Anticipated expiration: 2038-04-04
Also published as: CN108305631A

Abstract

本发明公开了一种基于多核模块化构架的声学处理设备，包括至少两个处理核心，处理核心包括至少一个算法核心模块和至少一个控制核心模块，还包括音视频输入模块、接口模块、语音拾取模块、语音预处理模块、参考信号输入模块、控制与算法模块、语音输出模块、网络模块和电源管理模块，将声学处理过程分成了不同的模块，不同功模块相互独立且受不同处理核心的管理及控制，管理核心之间通过核间通信以及共享内存的方式协同合作，将不同模块交给不同的核心进行管理与控制，通过合理的模块控制与系统资源分配，充分利用处理器的运算资源，提高声处理系统的运算能力以及有效利用率、减少处理时延长以及提高系统资源调度能力。

Description

一种基于多核模块化构架的声学处理设备

技术领域

本发明涉及声信号处理领域，涉及一种声学处理设备，尤其是一种基于多核模块化构架的声学处理设备。

背景技术

声信号(尤其是语音信号)的获取和增强是包括智能家居、车载导航、监控、电话会议、远程协作等行业的重要技术基础。声学前端处理设备需要通过对信号算法和阵列结构的优化，在软件和硬件层面实现如下功能：远讲(hands-free)技术；高保真语音信号的获取、编码、传输和播放；声信号的重构；对噪声、混响、回声以及干扰的处理等。

从原理上讲，声学前端处理设备解决的是信号的分离和增强问题。在一个复杂的声学环境中，利用麦克风来拾取来自某个声源的信号，该信号几乎无例外地会被污染。根据污染产生的机理，语音信号处理中的噪声分为4类：环境噪声，回声，混响和其他干扰。为了将声源和噪声分开，针对每一类噪声用特定的方法进行处理：

环境噪声(Noise)：环境噪声无法避免而且无处不在，它的存在会严重影响语音信号的话音质量、可懂度和人耳对空间信息的感知。环境噪声通常都是相对平稳的，也就是说当前时间点噪声的统计特性可以用历史时间里的噪声统计特性来代替。根据带噪信号的统计特性和噪声的统计特性，可以设计滤波器对观测信号进行滤波，进而增强语音信号，抑制背景噪声，这种技术称为降噪技术。降噪技术可以利用单通道拾音系统，也可以利用多通道拾音系统，他们分别对应于单通道降噪技术和多通道降噪技术。单通道降噪技术在获得噪声抑制的同时会导致语音畸变，相比而言，多通道降噪技术在获得相同输出信噪比的同时会减小语音畸变。

回声(Echo)：声学回声是由麦克风和扬声器之间的声耦合产生的。回声的存在会严重影响多方双工交互。回声最大的特点是声源信号是已知的，只要能够估计出从扬声器到麦克风之间的声传播信道，就能估计出麦克风拾取的观测信号中的回声成分，将此成分的估计从拾取到的信号中减去，就可以实现回声消除，这种技术称为回声对消技术。

混响(Reverberation)：混响是由于房间环境中的界面反射(多径效应)造成的。反射分为早期反射和晚期反射。早期反射(通常40ms以内)一般会携带有用信息，如通过分析早期反射的结构，可以估计房间的大小。另外，早期反射还会增强音乐的谐波成分，提高听感。但是晚期反射会引起频谱畸变，进而导致话音质量、可懂度的下降，而且会模糊声源的位置信息。在语音通信系统中，晚期反射造成混响，从而严重影响语音通信的质量，所以需要去混响技术。一种去混响技术是首先对信道进行盲估计，然后再利用均衡技术实现去混响；另一种抑制混响的技术是超指向阵列波束形成技术，其基本原理是提取期望方向的声源信号的同时，抑制来自其他方向的信号。混响是来自四面八方的，因此超指向阵列可以一定程度地抑制混响。

来自其他声源的干扰(Interference)信号：干扰信号由点源噪声引起，是空间中来自某个方向的噪声。语音通信中，周围往往有很多人，而且存在其他声源，因此在每个通信端，多个声源的情况是不可避免的，来自不同声源的信号之间会互相干扰。干扰抑制的典型技术是波束形成技术，其基本思想是首先形成一个空域的滤波器，再将滤波器响应最大的方向对准期望声源的方向，对于干扰的抑制程度取决于干扰方向上的阵列响应的大小。

声学处理的质量直接决定着后续语音识别、语音交互以及声纹识别等功能的实现，是影响人工智能中智能语音交互效果的决定性技术。目前的声学处理设备普遍存在着运算能力有效利用率低、处理时延长以及系统资源调度能力差等一个或者多个缺陷。

发明内容

本发明的目的在于提供一种基于多核模块化构架的声学处理设备，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种基于多核模块化构架的声学处理设备，包括至少两个处理核心，处理核心包括至少一个算法核心模块和至少一个控制核心模块，还包括音视频输入模块、接口模块、语音拾取模块、语音预处理模块、参考信号输入模块、控制与算法模块、语音输出模块、网络模块和电源管理模块，语音拾取模块和参考信号输入模块同步输出多路语音信号到语音预处理模块；语音预处理模块处理完成后输出数字语音信号到控制与算法模块；音视频输入模块和控制与算法模块完成输入音视频数据的吞吐；接口模块和控制与算法模块完成数据的交互、存储、通信；控制与算法模块输出的数字音频由语音输出模块处理和输出；控制与算法模块通过控制逻辑控制其他所有单元；网络模块和控制与算法模块通过接口模块完成网络数据的交互和通信；电源管理模块通过电源信号保障其他工作模块的电源以及PI。

进一步的，两个或两个以上处理核心集成在同一块处理芯片上或者由不同的处理芯片组成。

进一步的，音视频输入模块用于完成音视频等输入、解码、算法处理、编码和输出功能；接口模块用于完成UART、I2C、SD、DDR、DMA、KVM接口的控制与输入输出功能；语音拾取模块用于完成0～50m范围内的多路语音信号拾取功能，语音预处理模块用于完成采集到的多路信号和语音同步信号的均衡、放大、滤波以及模数转换，参考信号输入模块用于完成参考信号及噪声的输入以及采集功能，语音输出模块用于处理后一路或多路语音的数模转换、编码、驱动以及输出功能，网络模块用于完成数据的网络通信交互功能；电源管理模块用于完成设备的电源管理和低功耗模式，保障设备高效工作的功能。

进一步的，控制与算法模块包括控制核心模块和算法核心模块，控制核心模块用于音视频输入、接口、网络、电源以及数据存储对实时性要求不高的模块进行管理与控制；算法核心模块用于音频输入输出、语音信号预处理以及语音增强对实时性以及运行能力要求比较高的模块。

进一步的，控制核心模块与算法核心模块之间通过核间通信以及共享内存的方式协同合作；控制核心模块与算法核心模块共享一部分内存空间，两核心通过共享内存来进行数据交互；控制核心模块与算法核心模块通过核间通信来进行信息交互，进而协调不同模块联合工作。

进一步的，控制与算法模块中控制核心模块直接管理与控制音视频输入模块、接口模块、网络模块和电源管理模块；控制与算法模块中算法核心模块直接管理与控制语音拾取模块、语音预处理模块、参考信号输入模块和语音输出模块。

进一步的，语音拾取模块采用阵列排列麦克风，包括至少两个麦克风阵列排列。

进一步的，麦克风采用阵列排列为平面阵、立体阵、线性、圆阵、圆环阵、球阵其中的一种，或其中几种的组合；或为小型阵、大型阵。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种基于多核模块化构架的声学处理设备，包括至少两个处理核心，处理核心包括至少一个算法核心模块和至少一个控制核心模块，还包括音视频输入模块、接口模块、语音拾取模块、语音预处理模块、参考信号输入模块、控制与算法模块、语音输出模块、网络模块和电源管理模块，语音拾取模块和参考信号输入模块同步输出多路语音信号到语音预处理模块；语音预处理模块处理完成后输出数字语音信号到控制与算法模块；音视频输入模块和控制与算法模块完成输入音视频数据的吞吐；接口模块和控制与算法模块完成数据的交互、存储、通信；控制与算法模块输出的数字音频由语音输出模块处理和输出；控制与算法模块通过控制逻辑控制其他所有单元；网络模块和控制与算法模块通过接口模块完成网络数据的交互和通信；电源管理模块通过电源信号保障其他工作模块的电源以及PI，将声学处理过程分成了不同的模块，并根据声学处理的特点，不同功模块相互独立且受不同处理核心的管理及控制，管理核心之间通过核间通信以及共享内存的方式协同合作，将不同模块交给不同的核心进行管理与控制，通过合理的模块控制与系统资源分配，充分利用处理器的运算资源，提高声处理系统的运算能力以及有效利用率、减少处理时延长以及提高系统资源调度能力。

附图说明

图1是模块及其连接的一种示意图；

图2是多核处理流程的一种示意图；

图3是多核协作方式的一种示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1至图3所示，一种基于多核模块化构架的声学处理设备，包括至少两个处理核心，处理核心包括至少一个算法核心模块和至少一个控制核心模块，两个或两个以上处理核心，可以集成在同一块处理芯片上，也可以由不同的处理芯片组成；

包括音视频输入模块1、接口模块2、语音拾取模块3、语音预处理模块4、参考信号输入模块5、控制与算法模块6、语音输出模块7、网络模块8和电源管理模块9，语音拾取模块3和参考信号输入模块5同步输出多路语音信号到语音预处理模块4；语音预处理模块4处理完成后输出数字语音信号到控制与算法模块6；音视频输入模块1和控制与算法模块6完成输入音视频数据的吞吐；接口模块2和控制与算法模块6完成数据的交互、存储、通信；控制与算法模块6输出的数字音频由语音输出模块7处理和输出；控制与算法模块6通过控制逻辑控制其他所有单元；网络模块8和控制与算法模块6通过接口模块2完成网络数据(音频、视频、信息)的交互和通信；电源管理模块9通过电源信号保障其他工作模块的电源以及PI。

音视频输入模块用于完成音视频等输入、解码、算法处理、编码和输出功能；

接口模块用于完成UART、I2C、SD、DDR、DMA、KVM接口的控制与输入输出功能；

语音拾取模块用于完成0～50m范围内的多路语音信号拾取功能。

语音拾取模块采用阵列排列麦克风，包括至少两个麦克风阵列排列；

麦克风采用阵列排列为平面阵、立体阵、线性、圆阵、圆环阵、球阵其

中的一种，或其中几种的组合；或为小型阵、大型阵。

语音预处理模块用于完成采集到的多路信号和语音同步信号的均衡、放大、滤波以及模数转换；

参考信号输入模块用于完成参考信号及噪声的输入以及采集功能；

控制与算法模块包括控制核心模块和算法核心模块，控制核心模块用于音视频输入、接口、网络、电源以及数据存储对实时性要求不高的模块进行管理与控制；算法核心模块用于音频输入输出、语音信号预处理以及语音增强对实时性以及运行能力要求比较高的模块；控制核心模块与算法核心模块之间通过核间通信以及共享内存的方式协同合作；控制核心模块与算法核心模块共享一部分内存空间，两核心通过共享内存来进行数据交互；控制核心模块与算法核心模块通过核间通信来进行信息交互，进而协调不同模块联合工作；

除控制与算法模块6外，其他模块相互独立同时受且仅受控制与算法模块6中的单独一个核心控制；

控制与算法模块6中控制核心模块直接管理与控制音视频输入模块、接口模块、网络模块和电源管理模块；控制与算法模块中算法核心模块直接管理与控制语音拾取模块、语音预处理模块、参考信号输入模块和语音输出模块。

语音输出模块用于处理后一路或多路语音的数模转换、编码、驱动以及输出功能；

网络模块用于完成数据的网络通信交互功能；

电源管理模块用于完成设备的电源管理和低功耗模式，保障设备高效工作的功能。

如图2所示，本实施例中，本发明涉及的多核处理流程：

1、包括算法流程和控制流程两部分；

2、算法流程受算法核心模块控制，控制流程受控制核心模块控制；

3、控制核心模块与算法核心模块都处于控制与算法模块中；

4、控制核心模块与算法核心模块通过核间通信以及共享内存的方式来协调工作。

如图2所示，本发明涉及的多核处理流程中的算法流程：

(1)、包括：①通过麦克风阵列拾取语音信号、②对获取的语音信号进行语音增强并获取增强后的语音信号、③提取目标语音信号的信号特征、④输出增强的语音信号并根据信号特征执行操作四个环节；

(2)、其中的②对获取的语音信号进行语音增强并获取增强后的语音信号以及③提取目标语音信号的信号特征环节都将在算法核心模块中进行。

如图2所示，本发明涉及的多核处理流程中的控制流程：

(1)、包括：⑤接收外部数据与控制信号、⑥数据整理及处理、⑦模块及算法控制以及⑧向外部发送数据与控制信号四个环节；

(2)、其中的⑥数据整理及处理以及⑦模块及算法控制环节都将在控制核心模块中进行。

相应的，本发明实施例还提供了一种多核协作方式示意图，如图3所示。

如图3所示，本发明设计的多核协作方式中：

(1)、控制核心模块与算法核心模块共享一部分内存空间，两核心通过共享内存来进行数据交互；

(2)、控制核心模块与算法核心模块通过核间通信来进行信息交互，进而协调不同模块联合工作。

Claims

1.一种基于多核模块化构架的声学处理设备，其特征在于，包括至少两个处理核心，两个或两个以上处理核心集成在同一块处理芯片上或者由不同的处理芯片组成，处理核心包括至少一个算法核心模块和至少一个控制核心模块，还包括音视频输入模块（1）、接口模块（2）、语音拾取模块（3）、语音预处理模块（4）、参考信号输入模块（5）、控制与算法模块（6）、语音输出模块（7）、网络模块（8）和电源管理模块（9），语音拾取模块（3）和参考信号输入模块（5）同步输出多路语音信号到语音预处理模块（4）；语音预处理模块（4）处理完成后输出数字语音信号到控制与算法模块（6）；音视频输入模块（1）和控制与算法模块（6）完成输入音视频数据的吞吐；接口模块（2）和控制与算法模块（6）完成数据的交互、存储、通信；控制与算法模块（6）输出的数字音频由语音输出模块（7）处理和输出；控制与算法模块（6）通过控制逻辑控制其他所有单元；网络模块（8）和控制与算法模块（6）通过接口模块（2）完成网络数据的交互和通信；电源管理模块（9）通过电源信号保障其他工作模块的电源以及PI，音视频输入模块用于完成音视频等输入、解码、算法处理、编码和输出功能；接口模块用于完成UART、I2C、SD、DDR、DMA、KVM接口的控制与输入输出功能；语音拾取模块用于完成0～50m范围内的多路语音信号拾取功能，语音预处理模块用于完成采集到的多路信号和语音同步信号的均衡、放大、滤波以及模数转换，参考信号输入模块用于完成参考信号及噪声的输入以及采集功能，语音输出模块用于处理后一路或多路语音的数模转换、编码、驱动以及输出功能，网络模块用于完成数据的网络通信交互功能；电源管理模块用于完成设备的电源管理和低功耗模式，保障设备高效工作的功能，控制与算法模块包括控制核心模块和算法核心模块，控制核心模块用于音视频输入、接口、网络、电源以及数据存储对实时性要求不高的模块进行管理与控制；算法核心模块用于音频输入输出、语音信号预处理以及语音增强对实时性以及运行能力要求比较高的模块，控制核心模块与算法核心模块之间通过核间通信以及共享内存的方式协同合作；控制核心模块与算法核心模块共享一部分内存空间，两核心通过共享内存来进行数据交互；控制核心模块与算法核心模块通过核间通信来进行信息交互，进而协调不同模块联合工作。

2.根据权利要求1所述的一种基于多核模块化构架的声学处理设备，其特征在于，控制与算法模块（6）中控制核心模块直接管理与控制音视频输入模块、接口模块、网络模块和电源管理模块；控制与算法模块中算法核心模块直接管理与控制语音拾取模块、语音预处理模块、参考信号输入模块和语音输出模块。

3.根据权利要求1所述的一种基于多核模块化构架的声学处理设备，其特征在于，语音拾取模块采用阵列排列麦克风，包括至少两个麦克风阵列排列。

4.根据权利要求3所述的一种基于多核模块化构架的声学处理设备，其特征在于，麦克风采用阵列排列为平面阵、立体阵、线性、圆阵、圆环阵、球阵其中的一种，或其中几种的组合；或为小型阵、大型阵。