CN110728988A

CN110728988A - 一种用于自助终端设备的语音降噪摄像头的实现方法

Info

Publication number: CN110728988A
Application number: CN201911011830.3A
Authority: CN
Inventors: 胡炎; 徐宝秋; 安静
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-01-24

Abstract

本发明公开了一种用于自助终端设备的语音降噪摄像头的实现方法，包括摄像头、阵列麦克风、视频传感器、AD采集器、主控制器和终端设备；所述摄像头上集成有阵列麦克风、视频传感器、AD采集器、主控制器；所述阵列麦克风与AD采集器连接并接入主控制器；所述视频传感器通过图像接口连接到主控制器，将视频信号送入主控制器；所述主控制器利用内部波束成形算法对接收到的阵列麦克风信号进行降噪处理，将处理后的语音信号和视频信号通过USB接口送入终端设备；本发明将阵列麦克风与摄像头集成为一体，成本降低且可控；大大提高音视频通话质量，而且可简化设备安装流程，同时提供优质的音频信号，提升业务办理效率和客户满意度。

Description

一种用于自助终端设备的语音降噪摄像头的实现方法

技术领域

本发明涉及一种一种用于自助终端设备的语音降噪摄像头的实现方法，属于自助终端设备技术领域。

背景技术

为分流柜台业务缓解柜台业务的压力，现代银行已大批量应用一种新型设备——虚拟柜员机，其结合了视、听、自助和专人服务，使客户在办理业务时不用排队等待，通过远程音视频方式来办理柜台业务，能够很快速的完成各项业务的处理，提高了银行的业务办理效率，在银行中得到了非常广泛的应用。

然而，在使用虚拟柜员机办理业务时，需要与银行后台服务人员进行音视频交互，由于银行的环境嘈杂，环境噪声会通过自助设备的前置麦克传输到服务后台，影响通话质量。

现代自助终端设备对音视频交互的应用越来越广泛，同时对交互的质量要求也越来越高，自助终端多采用单独的麦克风采集音频信号和单独的图像传感器采集视频信号，不仅语音信号质量得不到保证而且分立实现的成本相对较高。

市面上的摄像头虽然集成语音接收功能，但多采用单麦克来实现，单麦克只能进行单一的语音接收，并不能进行降噪处理，因此集成单麦克的摄像头号不能保证语音质量，尤其应用在自助终端设备中，其对语音通话质量要求更是严格。

发明内容

针对上述存在的技术问题，本发明的目的是：提出了一种用于自助终端设备的语音降噪摄像头的实现方法，提高了业务办理过程中的音视频交互质量，而且降低了实现成本。

本发明的技术解决方案是这样实现的：一种用于自助终端设备的语音降噪摄像头的实现方法，包括摄像头、阵列麦克风、视频传感器、AD采集器、主控制器和终端设备；所述摄像头上集成有阵列麦克风、视频传感器、AD采集器、主控制器；所述阵列麦克风与AD采集器连接并接入主控制器；所述视频传感器通过图像接口连接到主控制器，将视频信号送入主控制器；所述主控制器利用内部波束成形算法对接收到的阵列麦克风信号进行降噪处理，将处理后的语音信号和视频信号通过USB接口送入终端设备；采用基于时延估计的定位降噪算法，第一步计算麦克风对之间的时延；第二步根据前一步得到的时间延迟和麦克风阵列中各个麦克风的位置定位声源；

设麦克风数目为M，第m个麦克风的接收信号为x_m(n)，信号从声源到麦克的时延为τ_m，麦克风阵列中各个麦克风采集信号的增益相同，而且背景噪声统计独立，那么对语音信号s(n)用下式表示：

设声源到阵列的辐射角为θ，则方向矢量

延迟求和波束形成器的输出y(n)的频域描述Y(k)为

其中X(k)是麦克风阵列采集信号的频域表示，W(k)是阵列方向矢量，即W(k)＝A(k,θ)，在本算法中，声源位置由波束最大输出能量确定，

即

其中，R_xx(k)＝E{X(k)X^T(k)}，A^H(k,θ)为A(k,θ)的共轭；

根据求得的θ值，得到此时各个阵元的加权值，从而增强信号来向方向的信号，抑制其他方向的信号，其输出信号可根据下式得到：y(n)＝x(n)w^H(n)，其中x(n)＝{x₁(n),x₂(n),...x_m(n)}，w(n)＝{w₁(n),w₂(n),...w_m(n)}。

优选的，所述阵列麦克风采用4麦线性阵列麦克风，麦克风选用驻极体电容麦克，阵元间距为35mm，水平放置。

优选的，所述主控制器的主控芯片选用瑞芯微RK3288。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明的一种用于自助终端设备的语音降噪摄像头的实现方法，将阵列麦克风与摄像头集成为一体，成本降低且可控；利用阵列麦克风的良好降噪功能，大大提高音视频通话质量，本发明不仅成本降低，而且可简化设备安装流程，同时提供优质的音频信号，提升业务办理效率和客户满意度。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为本发明的方案系统框图；

附图2为本发明的4麦线性阵列麦克风示意图。

具体实施方式

下面结合附图来说明本发明。

如附图1、2所示为本发明所述的一种用于自助终端设备的语音降噪摄像头的实现方法，包括摄像头、阵列麦克风、视频传感器、AD采集器、主控制器和终端设备；所述摄像头上集成有阵列麦克风、视频传感器、AD采集器、主控制器；所述阵列麦克风与AD采集器连接并接入主控制器；所述视频传感器通过图像接口连接到主控制器，将视频信号送入主控制器；所述主控制器利用内部波束成形算法对接收到的阵列麦克风信号进行降噪处理，将处理后的语音信号和视频信号通过USB接口送入终端设备；采用基于时延估计的定位降噪算法，第一步计算麦克风对之间的时延；第二步根据前一步得到的时间延迟和麦克风阵列中各个麦克风的位置定位声源；

设声源到阵列的辐射角为θ，则方向矢量

延迟求和波束形成器的输出y(n)的频域描述Y(k)为

其中X(k)是麦克风阵列采集信号的频域表示，W(k)是阵列方向矢量，即W(k)＝A(k,θ)，在本算法中，声源位置由波束最大输出能量确定，即

其中，R_xx(k)＝E{X(k)X^T(k)}，A^H(k,θ)为A(k,θ)的共轭；

为了满足所述阵列麦克风采用4麦线性阵列麦克风，麦克风选用驻极体电容麦克，阵元间距为35mm，水平放置。

系统各功能部分介绍如下：

阵列麦克风：阵列麦克风采用4麦线性阵列麦克风，麦克风选用驻极体电容麦克，阵元间距为35mm，水平放置，拾音距离可达5米，麦克1、麦克2、麦克3、麦克4负责采集音频信号，并将音频信号转为电信号，送入主控制器进行处理。

AD采集器：AD采集器主要负责将麦克风阵列信号转换为数字信号，用于降噪处理。

视频传感器：视频传感器内通过图像接口连接到主控，将视频信号送入控制器。

主控制器：主控制器的芯片选用瑞芯微RK3288，主要实现语音降噪、视频处理等功能，首先主控制器利用内部波束成形算法对接收到的阵列麦克风信号进行降噪处理，最终将处理后的语音信号和视频信号通过USB接口送入自助终端设备。

终端设备：终端设备接收处理之后的音视频信号，用于后续处理，或送入VTM后台，或进行语义识别从而执行某些操作。

工作原理如下：当阵列麦克风接收到语音信号后，通过处理器内部波束成形算法计算出语音信号来向，并增强语音信号来向方向的接收强度，抑制其他方向的语音信号及背景噪音，得到降低噪音的语音信号，将处理后的语音信号与视频图像信号一并送入主机。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种用于自助终端设备的语音降噪摄像头的实现方法，其特征在于：包括摄像头、阵列麦克风、视频传感器、AD采集器、主控制器和终端设备；所述摄像头上集成有阵列麦克风、视频传感器、AD采集器、主控制器；所述阵列麦克风与AD采集器连接并接入主控制器；所述视频传感器通过图像接口连接到主控制器，将视频信号送入主控制器；所述主控制器利用内部波束成形算法对接收到的阵列麦克风信号进行降噪处理，将处理后的语音信号和视频信号通过USB接口送入终端设备；采用基于时延估计的定位降噪算法，第一步计算麦克风对之间的时延；第二步根据前一步得到的时间延迟和麦克风阵列中各个麦克风的位置定位声源；

设声源到阵列的辐射角为θ，则方向矢量

延迟求和波束形成器的输出y(n)的频域描述Y(k)为

其中，R_xx(k)＝E{X(k)X^T(k)}，A^H(k,θ)为A(k,θ)的共轭；

2.如权利要求1所述的一种用于自助终端设备的语音降噪摄像头的实现方法，其特征在于：所述阵列麦克风采用4麦线性阵列麦克风，麦克风选用驻极体电容麦克，阵元间距为35mm，水平放置。

3.如权利要求1所述的一种用于自助终端设备的语音降噪摄像头，其特征在于：所述主控制器的主控芯片选用瑞芯微RK3288。