CN108198551A

CN108198551A - 回声消除延时的处理方法及装置

Info

Publication number: CN108198551A
Application number: CN201810036944.2A
Authority: CN
Inventors: 胡诗浩; 王兴超; 舒剑泽
Original assignee: Shenzhen Qianhai Blackfish Technology Co Ltd
Current assignee: Shenzhen Qianhai Blackfish Technology Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-06-22

Abstract

本发明提供了一种回声消除延时的处理方法，用于智能设备和麦克风模块，麦克风模块可插拔的连接在智能设备上，麦克风模块包括麦克风单元和音频输入端口，该方法包括：响应触发信号播放预设的音频文件；接收来自所述麦克风单元采集的音频数据和来自所述音频输入端口传送的音频数据；记录所述接收两路音频数据的时间及计算所述两路音频数据的延时值；存储所述延时值以作为后续所述智能设备利用所述麦克风模块实现语音识别控制的校正值。该方法可以使麦克风单元采集的语音和语音输入接口采集的语音完全同步，语音分离识别效果好，语音遥控效果佳，用户体验好。

Description

回声消除延时的处理方法及装置

技术领域

本发明属于语音识别遥控技术领域，具体涉及回声消除延时的处理方法及装置。

背景技术

目前对于不具备语音遥控功能的智能电视可以通过在智能电视USB接口上安插一USB麦克风并在智能电视上安装运行相关的语音识别控制软件实现语音遥控功能。USB麦克风设置有一麦克风单元和一语音输入接口；语音输入接口连接智能电视的音频输出口，麦克风单元采集人声和智能电视扬声器播放的声音；USB麦克风将麦克风单元采集的一路语音和语音输入接口采集的另一路语音输入到智能电视的主控单元进行语音分离识别实现语音控制。由于麦克风单元采集的语音和语音输入接口采集的语音不同步，存在一定程度的延时，并且不同的智能电视延时各不相同，因此智能电视要通过音频算法消除回声，如AEC(Acoustic Echo Chancellor，回声消除器)算法、降噪算法，然而某些情况下延时会超出降噪算法的最大所能接受范围，导致语音分离识别效果不好，语音遥控效果不佳，用户体验差。

发明内容

本发明的目的在于针对现有技术的不足，提供一种回声消除延时的处理方法及装置，用于克服现有技术中的缺点。

具体的，本发明提出了以下具体的实施例：

本发明实施例提供了一种回声消除延时的处理方法，应用于智能设备和麦克风模块，所述麦克风模块可插拔的连接在所述智能设备上，所述麦克风模块包括麦克风单元和音频输入端口，所述回声消除延时的处理方法包括：

响应触发信号播放预设的音频文件；

接收来自所述麦克风单元采集的音频数据和来自所述音频输入端口传送的音频数据；

记录所述接收两路音频数据的时间及计算所述两路音频数据的延时值；

存储所述延时值以作为后续所述智能设备利用所述麦克风模块实现语音识别控制的校正值。

作为上述技术方案的进一步改进，所述两路音频数据存储于所述智能设备的左右声道，其中一个声道传输所述麦克风单元采集的音频数据，另一个声道传输所述音频输入端口传送的音频数据。

作为上述技术方案的进一步改进，所述麦克风模块通过USB接口和音频接口可插拔的连接在所述智能设备上。

作为上述技术方案的进一步改进，所述延时值的范围为10-500ms。

作为上述技术方案的进一步改进，还包括：

当接收到语音识别控制指令时，获取该延时值；

根据所述两路音频数据和该延时值进行回声消除处理以实现语音识别控制。

本发明实施例提供了一种回声消除延时的处理装置，应用于智能设备和麦克风模块，所述麦克风模块可插拔的连接在所述智能设备上，所述麦克风模块包括麦克风单元和音频输入端口，所述回声消除延时的处理装置包括：

触发模块，用于响应触发信号播放预设的音频文件；

接收模块，用于接收来自所述麦克风单元采集的音频数据和来自所述音频输入端口传送的音频数据；

计算模块，用于记录所述接收两路音频数据的时间及计算所述两路音频数据的延时值；

存储模块，存储所述延时值以作为后续所述回声消除延时的处理装置利用所述麦克风模块实现语音识别控制的校正值。

作为上述技术方案的进一步改进，还包括：获取模块和控制模块；所述获取模块用于当接收到语音识别控制指令时，获取该延时值；所述接收模块接收来自所述麦克风单元采集的音频数据和来自所述音频输入端口传送的音频数据；所述控制模块用于根据所述两路音频数据和该延时值进行回声消除处理以实现语音识别控制。

采用本发明提供的技术方案，与已有的公知技术相比，至少具有如下有益效果：通过该回声消除延时的处理方法，智能设备计算麦克风单元和音频输入端口采集的两路音频数据的延时值并保存；智能设备利用USB麦克风实现语音识别控制时利用该延时值对麦克风单元采集的语音和语音输入接口采集的语音进行回声消除延时的处理校正。回声消除延时的处理校正后，麦克风单元采集的语音和语音输入接口采集的语音完全同步，语音分离识别效果好，语音遥控效果佳，用户体验好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为麦克风模块与智能设备的连接示意图。

图2为本发明实施例提出的一种回声消除延时的处理方法的流程示意图。

图3为本发明实施例提出的一种回声消除延时的处理装置的模块结构示意图。

主要元件符号说明：

图中：10-智能设备；20-麦克风模块；11-音频输出端口；12、23-通信端口；21-音频输入端口；22-麦克风单元；100-触发模块；200-接收模块；300-计算模块；400-存储模块。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开保护范围限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在下文中，可在本公开的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本公开的各种实施例中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

在本公开的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件，不过可不限制相应组成元件。例如，以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如，第一用户设备和第二用户设备指示不同用户设备，尽管二者都是用户设备。例如，在不脱离本公开的各种实施例的范围的情况下，第一元件可被称为第二元件，同样地，第二元件也可被称为第一元件。

应注意到：如果描述将一个组成元件“连接”到另一组成元件，则可将第一组成元件直接连接到第二组成元件，并且可在第一组成元件和第二组成元件之间“连接”第三组成元件。相反地，当将一个组成元件“直接连接”到另一组成元件时，可理解为在第一组成元件和第二组成元件之间不存在第三组成元件。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

如图1所示，为麦克风模块与智能设备的连接示意图。本发明实施例提供的一种回声消除延时的处理方法，应用于智能设备10和麦克风模块20。麦克风模块20可插拔的连接在智能设备10上。智能设备10包括：音频输出端口11和通信端口12。智能设备10可以是智能电视、电视盒子、智能投影等娱乐影音设备。麦克风模块20包括：麦克风单元22、音频输入端口21和通信端口23。通信端口23和通信端口12可以均为USB端口，亦可为其他通讯接口。音频输入端口21直接接收智能设备10通过音频输出端口11输出的音频信号。音频输入端口21可以为AV音频接口或3.5mm耳机音频接口等。麦克风单元22可以为一个或者多个麦克风。

如图2所示，回声消除延时的处理方法包括：

S101、响应触发信号播放预设的音频文件。

用户通过手动触发运行智能设备10上安装的测试app软件发起请求。具体地，用户可以通过红外遥控器以及鼠标键盘等操作运行该测试app软件，发起触发请求。该测试app软件支持安卓，IOS，windows、linux等系统，具体由智能设备10的操作系统决定。该测试app软件可以是一个独立的app测试小程序，也可以集成在语音识别控制软件上。智能设备10接收到触发请求后，播放预设的音频文件供麦克风模块20的麦克风单元22和音频输入端口21采集音频数据。

播放预设的音频文件优选WAV文件格式。WAV为微软公司开发的一种声音文件格式，该格式支持多种压缩运算法，支持多种音频数字，取样频率和声道，WAV是最接近无损的音乐格式。

S102、接收来自所述麦克风单元采集的音频数据和来自所述音频输入端口传送的音频数据。

当智能设备10播放预设的音频文件时，麦克风单元22采集到的音频数据包括人声、环境噪声和智能设备10播放的音频文件的音频数据。同时智能设备10通过音频输出端口11和音频输入端口21传送音频文件的音频数据。麦克风模块20通过通信端口23把两路音频数据传输到智能设备10。

S103、记录所述接收两路音频数据的时间及计算所述两路音频数据的延时值。

在本实施例中，麦克风模块20的麦克风单元22和音频输入端口21采集的两路音频数据存储于智能设备10的左右声道，其中一个声道传输麦克风单元22采集的音频数据，另一个声道传输音频输入端口21传送的音频数据。

由于通过智能设备10的音频输出端口11提供给麦克风模块20的音频输入端口21的音频数据要比麦克风模块20的麦克风单元22采集到扬声器播放的音频数据要快一些，需要将这个快慢的程度进行量化，以便后续进行语音识别控制时能够采用获取到的延时值进行修正。智能设备10记录所述接收两路音频数据的时间及计算所述两路音频数据的延时值。在本实施例中，该延时值的范围为10-500ms。

S104、存储所述延时值以作为后续所述智能设备利用所述麦克风模块实现语音识别控制的校正值。

智能设备10可以先判断获取的延时值是否在预设的范围内，当延时值不在预设的范围内时，提示用户重新发起获取延时值的请求，获取的延时值不在预设的范围内可能是进行测试时，环境噪声干扰太大，导致两路音频数据不仅存在时间上的相位差，还存在很大的幅值差异；为了确保测试时能够顺利获取到延时值，测试时需要保持安静的环境。当智能设备10判断获取的延时值在预设的范围内时，智能设备10保存该延时值后，后续用户通过语音识别控制软件和麦克风模块20实现语音识别控制。

例如：麦克风模块20将采集的数据传输给智能设备10时，左声道传输麦克风单元22采集的音频数据，右声道传输音频输入端口21采集的音频数据。当智能设备10获取到延时值为100ms，也就是麦克风模块20的麦克风单元22采集的音频数据要延后音频输入端口21采集的音频数据100ms，即左声道的音频数据在相位上落后右声道色音频数据100ms，这个是固有存在的。当智能设备10后台运行语音识别控制程序。智能设备10将接收麦克风模块20通过通信端口23发送的数字音频信号；由于左声道的音频数据在相位上落后右声道色音频数据100ms。智能设备10将右声道的音频数据延后100ms，使右声道的音频数据与左声道的音频回声消除延时的处理，保证两者不存在相位差。由于左声道采集的是人声和智能设备10播放节目的声音，右声道采集的是智能设备10播放节目的声音，由于左右声道数据已经对齐，就可以将左声道音频数据和右声道音频数据做差处理分离出人声信息；根据人声信息识别生成对应的遥控指令。

语音识别控制软件运行后，会查找智能设备10本地是否存储有延时值，当智能设备10本地没有存储延时值时会提示用户手动运行测试app软件来获取延时值，以便后续语音识别控制能够高效工作。

实施例2

如图1所示，为麦克风模块与智能设备的连接示意图。本发明实施例提供的一种回声消除延时的处理装置，应用于智能设备10和麦克风模块20。麦克风模块20可插拔的连接在智能设备10上。智能设备10包括：音频输出端口11和通信端口12。智能设备10可以是智能电视、电视盒子、智能投影等娱乐影音设备。麦克风模块20包括：麦克风单元22、音频输入端口21和通信端口23。通信端口23和通信端口12可以均为USB端口，亦可为其他通讯接口。音频输入端口21直接接收智能设备10通过音频输出端口11输出的音频信号。麦克风单元22可以为一个或者多个麦克风。

如图3所示，回声消除延时的处理装置，包括：触发模块100、接收模块200、计算模块300和存储模块400。

触发模块100，用于响应触发信号播放预设的音频文件。

用户通过手动触发运行智能设备10上安装的测试app软件发起请求。具体地，用户可以通过红外遥控器以及鼠标键盘等操作运行该测试app软件，发起触发请求。智能设备10接收到触发请求后，播放预设的音频文件供麦克风模块20的麦克风单元22和音频输入端口21采集音频数据。

接收模块200，用于接收来自麦克风单元22采集的音频数据和来自音频输入端口21传送的音频数据。

计算模块300，用于记录所述接收两路音频数据的时间及计算所述两路音频数据的延时值。

存储模块400，存储所述延时值以作为后续所述回声消除延时的处理装置利用麦克风模块20实现语音识别控制的校正值。

在本实施例中，麦克风模块20通过USB接口和音频接口可插拔的连接在智能设备10上，音频接口可以为AV音频接口或3.5mm耳机音频接口等。

所述回声消除延时的处理装置还包括：获取模块和控制模块；所述获取模块用于当接收到语音识别控制指令时，获取该延时值；接收模块200接收来自麦克风单元22采集的音频数据和来自音频输入端口21传送的音频数据；所述控制模块用于根据所述两路音频数据和该延时值进行回声消除处理以实现语音识别控制。

智能设备10的语音控制通过增加一个硬件设备麦克风模块20安插在智能设备10的某一通信接口，比如USB接口上，同时将智能设备10的音频输出端口11与麦克风模块20上的音频输入端口21连接以及智能设备10上安装运行测试app软件来获取延时值以及语音识别控制软件利用延时值来做回声消除使麦克风单元22采集的音频数据和音频输入端口21传送的音频数据对齐从而更好实现语音识别从而实现智能设备10的语音遥控。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的设备中的模块可以按照实施场景描述进行分布于实施场景的设备中，也可以进行相应变化位于不同于本实施场景的一个或多个设备中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种回声消除延时的处理方法，应用于智能设备和麦克风模块，所述麦克风模块可插拔的连接在所述智能设备上，所述麦克风模块包括麦克风单元和音频输入端口，其特征在于，所述回声消除延时的处理方法包括：

响应触发信号播放预设的音频文件；

2.根据权利要求1所述的回声消除延时的处理方法，其特征在于，所述两路音频数据存储于所述智能设备的左右声道，其中一个声道传输所述麦克风单元采集的音频数据，另一个声道传输所述音频输入端口传送的音频数据。

3.根据权利要求1所述的回声消除延时的处理方法，其特征在于，所述麦克风模块通过USB接口和音频接口可插拔的连接在所述智能设备上。

4.根据权利要求1所述的回声消除延时的处理方法，其特征在于，所述延时值的范围为10-500ms。

5.根据权利要求1所述的回声消除延时的处理方法，其特征在于，还包括：

当接收到语音识别控制指令时，获取该延时值；

6.一种回声消除延时的处理装置，应用于智能设备和麦克风模块，所述麦克风模块可插拔的连接在所述智能设备上，所述麦克风模块包括麦克风单元和音频输入端口，其特征在于，所述回声消除延时的处理装置包括：

触发模块，用于响应触发信号播放预设的音频文件；

7.根据权利要求6所述的回声消除延时的处理装置，其特征在于，所述两路音频数据存储于所述智能设备的左右声道，其中一个声道传输所述麦克风单元采集的音频数据，另一个声道传输所述音频输入端口传送的音频数据。

8.根据权利要求6所述的回声消除延时的处理装置，其特征在于，所述麦克风模块通过USB接口和音频接口可插拔的连接在所述智能设备上。

9.根据权利要求6所述的回声消除延时的处理装置，其特征在于，所述延时值的范围为10-500ms。

10.根据权利要求6所述的回声消除延时的处理装置，其特征在于，还包括：获取模块和控制模块；所述获取模块用于当接收到语音识别控制指令时，获取该延时值；所述接收模块接收来自所述麦克风单元采集的音频数据和来自所述音频输入端口传送的音频数据；所述控制模块用于根据所述两路音频数据和该延时值进行回声消除处理以实现语音识别控制。