CN113496699A

CN113496699A - 语音处理方法、装置、存储介质及终端

Info

Publication number: CN113496699A
Application number: CN202010250042.6A
Authority: CN
Inventors: 朱怀东
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2021-10-12

Abstract

本申请实施例公开了一种语音处理方法、装置、存储介质及终端，属于计算机技术领域。所述方法应用于终端，终端生成远端语音信号，根据自适应滤波权值，对远端语音信号进行自适应滤波得到第一语音信号，并通过发声单元播放远端语音信号得到第一语音，通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号，第二语音是第一语音在空间中传输后到达声音采集单元的语音，将混合语音信号和第一语音信号进行差分处理得到差分语音信号，并对该差分语音信号进行非线性滤波得到控制语音信号，终端基于控制语音信号执行相应的控制语音操作。通过此种方法对所采集的语音中的回声进行更精确的滤除处理，得到较纯净的控制语音信号。

Description

语音处理方法、装置、存储介质及终端

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音处理方法、装置、存储介质及终端。

背景技术

随着科学技术的进步，智能家电的发展速度越来越快，使用智能音箱播放音乐的用户也越来越多，用户对智能家电的要求也越来越高。而在相关技术中，用户对正在工作的智能音箱进行控制时，智能音箱的麦克风不能精确的采集到用户的控制语音，可能会使智能音箱执行错误的操作时，不能更好地体现出智能家电的特点，给用户带来较差的使用体验。

发明内容

本申请实施例提供了一种语音处理方法、装置、存储介质及终端，可以解决在实际环境中不能采集到精确的语音信号的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种语音处理方法，所述方法包括：

生成远端语音信号；

根据自适应滤波权值，对所述远端语音信号进行自适应滤波得到第一语音信号；

通过发声单元播放所述远端语音信号得到第一语音；

通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号；其中，所述第二语音是所述第一语音在空间中传输后到达所述声音采集单元的语音；

将所述混合语音信号和所述第一语音信号进行差分处理得到差分语音信号；

对差分语音信号进行非线性滤波得到控制语音信号；

基于所述控制语音信号执行相应的控制语音操作。

第二方面，本申请实施例提供了一种语音处理装置，所述装置包括：

处理模块，用于生成远端语音信号；

第一滤波模块，用于根据自适应滤波权值，对所述远端语音信号进行自适应滤波得到第一语音信号；

获取模块，用于通过发声单元播放所述远端语音信号得到第一语音；

采集模块，用于通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号；其中，所述第二语音是所述第一语音在空间中传输后到达所述声音采集单元的语音；

差分模块，用于将所述混合语音信号和所述第一语音信号进行差分处理得到差分语音信号；

第二滤波模块，用于对差分语音信号进行非线性滤波得到控制语音信号；

执行模块，用于基于所述控制语音信号执行相应的控制语音操作。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，包括：处理器、存储器、扬声器和麦克风；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的方案在执行时，终端生成远端语音信号，根据自适应滤波权值，对远端语音信号进行自适应滤波得到第一语音信号，并通过发声单元播放远端语音信号得到第一语音，通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号，第二语音是第一语音在空间中传输后到达声音采集单元的语音，将混合语音信号和第一语音信号进行差分处理得到差分语音信号，并对该差分语音信号进行非线性滤波得到控制语音信号，终端基于控制语音信号执行相应的控制语音操作。通过此种方法对所采集的语音中的回声进行更精确的滤除处理，得到较纯净的控制语音信号。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的终端的结构示意图；

图2是本申请实施例提供的操作系统和用户空间的结构示意图；

图3是图1中安卓操作系统的架构图；

图4是图1中IOS操作系统的架构图；

图5是本申请实施例提供的一种语音处理方法的流程示意图；

图6是本申请实施例提供的一种语音处理方法的另一流程示意图；

图7是本申请实施例提供的一种语音处理装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参见图1，其示出了本申请一个示例性实施例提供的终端的结构方框图。本申请中的终端可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessingunit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(randomAccess Memory，RAM)，也可以包括只读存储器(read-onlymemory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

参见图2所示，存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

以操作系统为Android系统为例，存储器120中存储的程序和数据如图3所示，存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间，应用层380属于用户空间。Linux内核层320为终端的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Androidruntime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作系统自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序、购物程序等。

以操作系统为IOS系统为例，存储器120中存储的程序和数据如图4所示，IOS系统包括：核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Medialayer)、可触摸层480(CocoaTouch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架，可触摸层480负责用户在终端上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(UserInterface，UI)框架、用户界面UIKit框架、地图框架等等。

在图4所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的系统服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

其中，在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统，本申请在此不再赘述。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏，该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、无线保真(wirelessfidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的终端。可选地，各步骤的执行主体为终端的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本申请实施例对此不作限定。

在图1所示的终端中，处理器110可以用于调用存储器120中存储的应用程序，并具体执行本申请实施例的语音处理方法。

下面将结合附图5至图6，对本申请实施例提供的语音处理方法进行详细介绍。

请参见图5，为本申请实施例提供了一种语音处理方法的流程示意图。本实施例以语音处理方法应用于终端中来举例说明。该语音处理方法可以包括以下步骤：

S501，生成远端语音信号。

其中，远端语音信号是指由终端控制生成的语音信号，一方面，在扬声器接收到该远端语音信号后，将该远端语音信号转换成模拟远端语音信号，并通过扬声器发出远端语音；另一方面，终端将对该远端语音信号进行自适应滤波处理，得到回声估计信号。

一般的，终端在接收到播放远端语音信号的指令时，将根据该指令生成远端语音信号，并将该远端语音信号送至扬声器和自适应滤波器。

S502，根据自适应滤波权值，对远端语音信号进行自适应滤波得到第一语音信号。

其中，自适应滤波权值是指可用于自适应滤波器根据远端语音信号生成相应的回声估计信号的权值系数，第一语音信号是指远端语音信号经过自适应滤波器处理后生成的回声估计信号。

一般的，终端主要运用最小均方自适应滤波算法，根据自适应滤波权值将自适应滤波器获取到的远端语音信号和麦克风采集的混合语音信号进行圆周卷积处理之后，生成回声估计信号，即第一语音信号。

S503，通过发声单元播放远端语音信号得到第一语音。

其中，发声单元是指终端的输出单元中的扬声器，第一语音是指发声单元扬声器接收到该远端语音信号后，将该远端语音信号转换成模拟远端语音信号，并通过扬声器发出的远端语音。

S504，通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号。

其中，第二语音是指上述第一语音在空间中传输后到达声音采集单元的语音，即回声；声音采集单元是指终端的输入单元中的麦克风，用户的控制语音是指用户在麦克风处发出的用于指示终端执行相应处理的语音，混合语音信号是指终端通过麦克风采集到环境中用户的控制语音和第二语音的混合语音，并将该混合语音进行处理的得到混合语音信号。

一般的，在用户听到环境中由扬声器发出的第二语音后，在终端的麦克风处发出控制语音，该麦克风将采集环境中近端语音，即混合语音，该混合语音包括第二语音和用户的控制语音。

S505，将混合语音信号和第一语音信号进行差分处理得到差分语音信号。

其中，差分语音信号是指终端将混合语音信号中的回声信号消除后的语音信号。

一般的，混合语音信号中包含用户的控制语音信号和第二语音信号(回声信号)，第一语音信号是指终端根据远端语音信号估计的回声信号，即回声估计信号，终端对第一语音信号进行相应的时延处理后，使混合语音信号和该第一语音信号进行时间对齐，并将时间对齐后的混合语音信号和第一语音信号进行差分处理后得到差分语音信号。

S506，对差分语音信号进行非线性滤波得到控制语音信号。

其中，控制语音信号是指从麦克风处采集到的混合语音中滤除的用户的控制好语音信号。

一般的，在终端对麦克风采集到的混合语音进行相应的自适应滤波处理以及差分处理后，得到差分语音信号，对该差分语音信号通过NLP(No-Linear Processor，非线性处理)后得到较纯净的用户控制语音信号。

S507，基于控制语音信号执行相应的控制语音操作。

其中，控制语音操作是指终端根据获取到的用户控制语音信号做出的相应处理的操作。

一般的，终端在获得较纯净的用户控制语音信号后，将根据语义识别算法分析所述控制语音信号携带语义以获取控制语音指令，在接收到该控制语音指令后终端执行相应的控制语音操作。

举例说明：将该方法应用的场景设定为智能音箱中，终端即为包含智能音箱的整个设备，终端的扬声器正在播放音乐A，用户在终端的麦克风处发出“播放音乐B”的控制语音，麦克风将采集到包含该用户发出的“播放音乐B”的控制语音和扬声器播放音乐A的混合语音C，在通过终端对该混合语音C进行回声滤除处理后，终端分析该用户发出的控制语音信号，做出相应的控制操作，即关闭当前播放的音乐A，打开并播放音乐B。

由上述内容可知，本方案提供的语音处理方法，在终端生成远端语音信号后，根据自适应滤波权值，对远端语音信号进行自适应滤波得到第一语音信号，并通过发声单元播放远端语音信号得到第一语音，通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号，第二语音是第一语音在空间中传输后到达声音采集单元的语音，将混合语音信号和第一语音信号进行差分处理得到差分语音信号，并对该差分语音信号进行非线性滤波得到控制语音信号，终端基于控制语音信号执行相应的控制语音操作。通过此种方法对所采集的语音中的回声进行更精确的滤除处理，得到较纯净的控制语音信号。

请参见图6，为本申请实施例提供了一种语音处理方法的另一流程示意图。本实施例以语音处理方法应用于终端中来举例说明。该语音处理方法可以包括以下步骤：

S601，生成远端语音信号。

S602，通过判别相关滤波器DCF对自适应滤波器进行收敛处理。

其中，DCF(Discriminative Correlation Filters，判别相关滤波器)主要是用于帮助自适应滤波算法快速收敛，而自适应滤波算法的收敛速度越快，通过自适应滤波算法计算出的回声估计信号越接近真实回声。

S603，根据远端语音信号和自适应滤波权值，通过自适应滤波器对远端语音信号进行回声估计得到第一语音信号。

其中，自适应滤波权值是指可用于自适应滤波器根据远端语音信号生成相应的估计回声信号的权值系数，第一语音信号是指远端语音信号经过自适应滤波器处理后生成的回声估计信号。自适应滤波器是指根据环境的改变，使用自适应算法来改变滤波器的参数和结构的滤波器。

S604，通过发声单元播放远端语音信号得到第一语音。

S605，通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号。

S606，将第一语音信号和混合语音信号进行时间对齐。

其中，时间对齐是指终端对第一语音信号进行相应的时延处理后，使混合语音信号和该第一语音信号在时域上进行对齐。

S607，分析混合语音信号和第一语音信号，获取差分加权系数。

其中，差分加权系数是指根据混合语音信号和第一语音信号的重要程度而赋予该混合语音信号和该第一语音信号不同的特征值。

一般的，在获取混合语音信号和第一语音信号后，分析该混合语音信号和第一语音信号的重要程度，根据该重要程度分别获取该混合语音信号和该第一语音信号的差分加权系数。

S608，根据差分加权系数对混合语音信号和第一语音信号进行差分处理，并获取差分语音信号。

其中，差分语音信号是指对混合语音信号进行初步滤除后得到的初步控制语音信号，该差分语音信号是具有一定误差的语音信号。

一般的，在获取混合语音信号和第一语音信号的差分加权系数后，根据该差分加权系数对混合语音信号和第一语音信号进行差分处理，对该混合语音信号中的回声信号进行滤除，得到差分语音信号。

S609，通过DCF将差分语音信号发送给自适应滤波器。

其中，DCF主要是用于帮助自适应滤波算法快速收敛，而自适应滤波算法的收敛速度越快，通过自适应滤波算法估计出的回声信号越接近真实回声。

一般的，通过将经初次滤波之后的差分语音信号重新发送给自适应滤波器，以及利用DCF对自适应滤波器进行快速收敛的方式，获取自适应滤波器的自适应滤波权值。

S610，在检测到自适应滤波器对差分语音信号进行归一化处理后，获取自适应滤波权值。

其中，归一化是一种简化计算的方式，即将有量纲的表达式，经过变换化为无量纲的表达式成为标量。

一般的，自适应滤波器获取进行初次滤波后的差分语音信号，根据上次的自适应滤波权值和获取的远端语音信号，计算得到新的自适应滤波权值，该方式对自适应滤波器中的自适应滤波权值进行更新。

S611，将差分语音信号进行非线性滤波得到控制语音信号。

其中，非线性滤波是指从连续的(或离散的)差分语音信号中滤除噪声和干扰以提取有用信息的过程。

一般的，差分语音信号是经过初次滤除回声信号后的语音信号，该差分语音信号是有误差的语音信号，其中还含有残留回声信号，通过对该差分语音信号进行非线性滤波的方式，对该差分语音信号中的残留回声信号进行滤除，以得到较为纯净的控制语音信号。

S612，通过舒适噪声发生器CNG生成舒适噪声信号。

其中，CNG(ComfortNoise Generator，舒适噪声发生器)由振荡器、放大器、输出衰减器、稳压电源及指示电压表等组成，能够产生稳定的舒适噪声信号；舒适噪声信号是指在终端能识别到控制语音信号中的背景噪声，是在采集该控制语音信号的过程中出现短暂静音时用来为该控制语音信号产生背景噪声。

S613，将舒适噪声信号添加到控制语音信号中。

其中，舒适噪声信号是指在终端能识别到控制语音信号中的背景噪声，是在采集该控制语音信号的过程中出现短暂静音时用来为该控制语音信号产生背景噪声。

S614，根据语义识别算法分析控制语音信号，获取控制语音指令。

一般的，对控制语音信号中包含的语音信息进行语义识别，根据所识别到的语义生成对应的控制语音指令，使终端能识别到对应的指令信息，并作出相应的处理。

S615，根据控制语音指令执行控制语音操作。

举例说明：若远端语音信号为x(n)，远端语音信号x(n)经过终端中自适应滤波器的语音信号为x1(n)，远端语音信号x(n)通过扬声器发出的语音信号为x2(n)，麦克风采集到扬声器通过环境传播的语音信号为s(n)，即回声信号，麦克风采集到用户的控制语音后生成的近端语音信号f(n)，该近端语音信号f(n)和回声信号s(n)形成混合语音信号d(n)，经过自适应滤波器的语音信号x1(n)根据自适应滤波器的自适应滤波权值计算出回声估计信号s1(n)，对该回声估计信号s1(n)和混合语音信号d(n)进行差分处理后得到的差分语音信号为e1(n)，即误差信号，差分语音信号e1(n)经过非线性处理后，将该差分语音信号为e1(n)中的残留回声削弱得到的控制语音信号为e2(n)，该控制语音信号e2(n)中包含舒适噪声发生器添加的舒适噪声信号c(n)。X(w)为频域远端信号，H(w)为频域自适应滤波器权值系数，S(w)为频域回声估计信号，S_de为近端信号和误差信号的相干频谱，S_xd为远端信号和误差信号频谱，C_de为近端信号和误差信号的子带相关频谱，C_xd为远端信号和误差信号的自带相关频谱。对x1(n)的频域信号X(w)和自适应滤波权值的频域信号H(w)进行频域回声估计得到频域的回声估计信号S(w)，即S(w)＝X(w)H(w)对该频域的回声估计信号S(w)进行频域-时域变换得到时域的回声估计信号s1(n)，并根据时域的回声估计信号s1(n)和混合语音信号d(n)做计算时域回声误差分析得到差分语音信号e1(n)；对该差分语音信号e1(n)做快速傅里叶变换得到频域的差分语音信号E(w)，对该频域的差分语音信号E(w)进行误差信号归一化处理，得到归一化误差信号E1(w)：

mu为自适应滤波器步长参数，E(w)为e1(n)作FFT得到的频域的差分语音信号，x_pow为远端信号的功率，对自适应滤波器的自适应滤波权值进行更新的得到H(w+1)＝H(w)+E1(w)X(w)；根据差分语音信号e1(n)、经过自适应滤波器的语音信号x1(n)以及混合语音信号d(n)进行加窗处理和快速傅里叶变换处理，对功率谱密度进行更新得到：

并计算子带相干性：不使用当前远端输入块，而是选择之前的块，以便与近端中的相应回声保持最佳同步化，分区指数m拥有线性滤波器中的最大能量：

远端自功率谱密度的阈值：

远端信号和近端信号的频带相干性：

近端信号和误差信号的频带相干性：

C_xd越大表示回声越大，C_de越大回声越小。计算参数hN1：

为C_de的平均相干性，

为C_xd的平均相干性，

的最小阈值：

步长参数为：

当u_c＝1时，系统被视为处于“相干性状态”，u_e＝1时，系统被视为处于“回声状态”。在回声状态时，系统可能包含回声，反之则不然。当处于回声状态时，抑制因子s＝min(c_de，1-c_xd)；根据首选频率带的次序统计计算出两个总抑制因子：{s_h，s_l}＝{s(n_h)，s(n_l)}×{n_h，n_l}；大部分情境中存在合理消除所有残余回声所需的典型抑制度，这被称为目标抑制度s_t；计算出最低的s_l水平，并追踪一段时间：

其中μ_s＝0.0008mf_s；当两个连续区块内的最小值

均为改变时，设置过载值

γ平滑变化，阈值为：

该值的将倾向于快速上升，且上升速度超过下降速度。为得到最终抑制因子，首先加权s_h，根据权重向量v_sN(0≤v_sN≤1)可得：

应用过载值得到

v_γN是另一个权重向量，能实现与v_sN类似功能，即参数hN1为s_γ；对频域E1(w)进行NLP滤波得到频域输出块：Y＝s_γ·E1(w)得到滤除残留回声信号的频谱E2(w)，并向该频谱E2(w)加入舒适噪声，进行频域-时域变换的到时域的控制语音信号e2(n)，终端通过分析该控制语音信号e2(n)执行相应的操作。

由上述内容可知，本方案提供的语音处理方法，终端生成远端语音信号，通过判别相关滤波器DCF对自适应滤波器进行收敛处理，并根据远端语音信号和自适应滤波权值，通过自适应滤波器对远端语音信号进行回声估计得到第一语音信号，通过发声单元播放远端语音信号得到第一语音，通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号，将第一语音信号和混合语音信号进行时间对齐，分析混合语音信号和第一语音信号，获取差分加权系数，根据差分加权系数对混合语音信号和第一语音信号进行差分处理，并获取差分语音信号，通过DCF将差分语音信号发送给自适应滤波器，在检测到自适应滤波器对差分语音信号进行归一化处理后，获取自适应滤波权值，将差分语音信号进行非线性滤波得到控制语音信号，通过舒适噪声发生器CNG生成舒适噪声信号，将舒适噪声信号添加到控制语音信号中，根据语义识别算法分析控制语音信号，获取控制语音指令，并根据该控制语音指令执行控制语音操作。通过此种方式，对自适应滤波器中参数进行实时更新，能估计出更真实的回声信号，能更好的滤除终端采集到的语音中的回声，得到较纯净的的控制语音信号。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图7，其示出了本申请一个示例性实施例提供的语音处理装置7的结构示意图。该语音处理装置7可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，该装置7包括：

一种语音处理装置7，所述装置7还包括：

处理模块701，用于生成远端语音信号；

第一滤波模块702，用于根据自适应滤波权值，对所述远端语音信号进行自适应滤波得到第一语音信号；

获取模块703，用于通过发声单元播放所述远端语音信号得到第一语音；

采集模块704，用于通过声音采集单元采集第二语音和用户的控制语音得到混合语音信号；其中，所述第二语音是所述第一语音在空间中传输后到达所述声音采集单元的语音；

差分模块705，用于将所述混合语音信号和所述第一语音信号进行差分处理得到差分语音信号；

第二滤波模块706，用于对差分语音信号进行非线性滤波得到控制语音信号；

执行模块707，用于基于所述控制语音信号执行相应的控制语音操作。

可选地，所述差分模块705包括：

对齐单元，用于将所述第一语音信号和所述混合语音信号进行时间对齐；

差分单元，用于将时间对齐后的所述混合语音信号和所述第一语音信号进行差分处理得到所述差分语音信号。

可选地，所述差分模块705包括：

分析单元，用于分析所述混合语音信号和所述第一语音信号，获取差分加权系数；

第一获取单元，用于根据所述差分加权系数对所述混合语音信号和所述第一语音信号进行差分处理，并获取所述差分语音信号。

可选地，所述执行模块707包括：

第二获取单元，用于根据语义识别算法分析所述控制语音信号，获取控制语音指令；

执行单元，用于根据所述控制语音指令执行所述控制语音操作。

可选地，所述装置7还包括：

生成单元，用于通过舒适噪声发生器CNG生成舒适噪声信号；其中，所述舒适噪声信号的编码率小于预设编码率；

添加单元，用于将所述舒适噪声信号添加到所述控制语音信号中。

可选地，所述第一滤波模块702包括：

处理单元，用于通过判别相关滤波器DCF对自适应滤波器进行收敛处理；

估计单元，用于根据所述远端语音信号和所述自适应滤波权值，通过所述自适应滤波器对所述远端语音信号进行回声估计得到所述第一语音信号。

可选地，所述装置7还包括：

发送单元，用于通过所述DCF将所述差分语音信号发送给所述自适应滤波器；

第三获取单元，用于在检测到所述自适应滤波器对所述差分语音信号进行归一化处理后，获取所述自适应滤波权值。

需要说明的是，上述实施例提供的语音处理装置在执行语音处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音处理装置与语音处理方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述的方法步骤。

本申请还提供了一种终端，包括处理器、存储器、扬声器和麦克风；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

生成远端语音信号；

通过发声单元播放所述远端语音信号得到第一语音；

对差分语音信号进行非线性滤波得到控制语音信号；

基于所述控制语音信号执行相应的控制语音操作。

2.根据权利要求1所述的方法，其特征在于，所述将所述混合语音信号和所述第一语音信号进行差分处理得到差分语音信号，包括：

将所述第一语音信号和所述混合语音信号进行时间对齐；

将时间对齐后的所述混合语音信号和所述第一语音信号进行差分处理得到所述差分语音信号。

3.根据权利要求2所述的方法，其特征在于，所述将时间对齐后的所述混合语音信号和所述第一语音信号进行差分处理得到所述差分语音信号，包括：

分析所述混合语音信号和所述第一语音信号，获取差分加权系数；

根据所述差分加权系数对所述混合语音信号和所述第一语音信号进行差分处理，并获取所述差分语音信号。

4.根据权利要求1所述的方法，其特征在于，所述基于所述控制语音信号执行相应的控制语音操作，包括：

根据语义识别算法分析所述控制语音信号，获取控制语音指令；

根据所述控制语音指令执行所述控制语音操作。

5.根据权利要求1所述的方法，其特征在于，所述对差分语音信号进行非线性滤波得到控制语音信号之后，还包括：

通过舒适噪声发生器CNG生成舒适噪声信号；其中，所述舒适噪声信号的编码率小于预设编码率；

将所述舒适噪声信号添加到所述控制语音信号中。

6.根据权利要求1所述的方法，其特征在于，所述根据自适应滤波权值，对所述远端语音信号进行自适应滤波得到第一语音信号，包括：

通过判别相关滤波器DCF对自适应滤波器进行收敛处理；

根据所述远端语音信号和所述自适应滤波权值，通过所述自适应滤波器对所述远端语音信号进行回声估计得到所述第一语音信号。

7.根据权利要求1所述的方法，其特征在于，所述将所述混合语音信号和所述第一语音信号进行差分处理得到差分语音信号之后，还包括：

通过所述DCF将所述差分语音信号发送给所述自适应滤波器；

在检测到所述自适应滤波器对所述差分语音信号进行归一化处理后，获取所述自适应滤波权值。

8.一种语音处理装置，所述装置还包括：

处理模块，用于生成远端语音信号；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种终端，其特征在于，包括：处理器、存储器、扬声器和麦克风；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。