CN108986831B

CN108986831B - 语音干扰滤除的方法、电子装置及计算机可读存储介质

Info

Publication number: CN108986831B
Application number: CN201710396430.3A
Authority: CN
Inventors: 林燕星
Original assignee: Nanning Fugui Precision Industrial Co Ltd
Current assignee: Nanning Fulian Fugui Precision Industrial Co Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2021-04-20
Anticipated expiration: 2037-05-31
Also published as: US10643635B2; US20180350386A1; CN108986831A; TW201903756A; TWI663595B

Abstract

一种语音干扰滤除方法，其特征在于，所述方法包括步骤：通过音频采集单元获取外部环境中的第一音频信号，所述第一音频信号中包括用户语音信号；获取音频输出单元输出的第二音频信号；过滤所述第一音频信号中的语音音区以得到第一背景音频信号，过滤所述第二音频信号中的语音音区以得到第二背景音频信号；通过对比第一背景音频信号和第二背景音频信号，得到时间差T和扩音参数X；对所述第二音频信号进行时间补偿、放大和反相操作以得到第三音频信号；合成所述第一音频信号与所述第三音频信号，得到与用户语音信号接近的第四音频信号。本发明还提供一种电子装置、计算机可读存储介质。本发明可以避免用户的控制语音受到音频输出单元声源干扰的情况。

Description

语音干扰滤除的方法、电子装置及计算机可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其是涉及一种语音干扰滤除的方法、电子装置及计算机可读存储介质。

背景技术

随着科技的发展，具有播放功能的电子装置(如智能电视、电脑、手机等)因具备丰富的功能与复杂的选项，传统的控制方法(如遥控器控制、触摸控制、键鼠控制)已不足以带来便捷的控制与直觉式使用者体验，因此多数产品开始导入语音控制。

然而，使用者在利用所述电子装置播放电影或音乐时，若想要通过语音控制所述电子装置，则必须关闭正在播放的电影或音乐，否则使用者所发出的控制语音容易受到所述电子装置所产生的音源干扰，其控制语音无法被所述电子装置精确识别，降低了使用者语音控制的控制效率和准确率。

发明内容

鉴于以上内容，有必要提供一种语音干扰滤除的方法、电子装置及计算机可读存储介质，可以让使用者所发出的控制语音不会受到所述电子装置输出的音源干扰，使得控制语音被所述电子装置精确识别，提高了使用者语音控制的控制效率。

本发明实施方式提供一种语音干扰滤除的方法，包括步骤：通过所述音频采集单元获取外部环境中的第一音频信号，所述第一音频信号中包括用户语音信号；获取所述音频输出单元输出的第二音频信号；过滤所述第一音频信号中的语音音区以得到第一背景音频信号，过滤所述第二音频信号中的语音音区以得到第二背景音频信号；通过对比所述第一背景音频信号和所述第二背景音频信号，得到所述第一音频信号和所述第二音频信号之间的时间差T和扩音参数X；依据所述时间差T及所述扩音参数X，对所述第二音频信号进行时间补偿、放大和反相操作以得到第三音频信号；合成所述第一音频信号与所述第三音频信号，得到与所述用户语音信号接近的第四音频信号。

本发明实施方式还提供一种电子装置，所述电子装置包括存储器、处理器、音频采集单元、音频输出单元及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如所述语音干扰滤除的方法的步骤。

进一步地，本发明实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如所述语音干扰滤除的方法的步骤。

相较于现有技术，所述的语音干扰滤除的方法、电子装置及计算机可读存储介质，能够使得使用者的控制语音被所述电子装置精确识别，提高了使用者语音控制的控制效率。

附图说明

图1是本发明实施例之电子装置的架构图。

图2是本发明实施例之语音干扰滤除系统的程序模块图。

图3是本发明实施例之语音干扰滤除方法的步骤流程图。

主要元件符号说明

电子装置	2
		语音干扰滤除系统	10
存储器	20
		处理器	30
音频采集单元	40
		音频输出单元	50
获取模块	100
		过滤模块	200
对比模块	300
		修改模块	400
合成模块	500

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

参阅图1所示，是本发明实施例之电子装置2的架构图。在本实施例中，所述电子装置2中包括语音干扰滤除系统10、存储器20、处理器30、音频采集单元40及音频输出单元50。所述电子装置2可以是智能家电、智能手机、电脑等。

其中，所述存储器20至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。所述处理器30可以是中央处理器(CentralProcessing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片等。

参阅图2所示，是所述语音干扰滤除系统10的程序模块图。

所述语音干扰滤除系统10包括获取模块100、过滤模块200、对比模块300、修改模块400以及合成模块500。所述模块被配置成由一个或多个处理器(本实施例为处理器30)执行，以完成本发明。本发明所称的模块是完成特定功能的计算机程序段。所述存储器20用于存储所述语音干扰滤除系统10的程序代码等资料。所述处理器30用于执行所述存储器20中存储的程序代码。

所述获取模块100用于通过所述音频采集单元40获取外部环境中的第一音频信号，所述第一音频信号中包括用户语音信号。

所述获取模块100还用于获取所述音频输出单元50输出的第二音频信号。在本实施例中，所述第二音频信号是从所述电子装置2内部获取，而不是在所述音频输出单元50输出时从外部采集。

所述过滤模块200用于过滤所述第一音频信号中的语音音区以得到第一背景音频信号，过滤所述第二音频信号中的语音音区以得到第二背景音频信号。在本实施例中，所述语音音区是指人类正常声音频率对应的音区，例如80-1000HZ音区。

所述对比模块300用于对比所述第一背景音频信号和所述第二背景音频信号，得到所述第一音频信号和所述第二音频信号之间的时间差T和扩音参数X。

在本实施例中，所述对比模块300取样所述第一背景音频信号以提取所述第一背景音频信号中多个取样点的第一特征值序列，及取样所述第二背景音频信号以提取所述第二背景音频信号中多个取样点的第二特征值序列。

其中，计算所述第一特征值序列与所述第二特征值序列的方法包括：

设定一固定区间作为计算能量值的时间区间，区间长度为t。

在所述第一背景音频信号与所述第二背景音频信号的相同时间点，以所述区间长度t设置连续n个所述固定区间。在本实施例中，以n＝10为例。

计算所述第一背景音频信号中设置的10个固定区间的能量值，得到第一区间能量序列，记为E1[10]＝{E1₁，E1₂，…，E1₁₀}。依据各固定区间内音频信号的振幅大小为该固定区间计算一对应的能量值，其中，E1₁为第一个固定区间的能量值、E1₂为第二个固定区间的能量值，以此类推。

同样地，计算所述第二背景音频信号中设置的10个固定区间的能量值，得到第二区间能量序列，记为E2[10]＝{E2₁，E2₂，…，E2₁₀}。其中，E2₁为第一个固定区间的能量值、E2₂为第二个固定区间的能量值，以此类推。

针对所述第一背景音频信号和所述第二背景音频信号，依序将每一固定区间的能量值与后一固定区间的能量值进行比较，得到多个特征值。特征值的计算公式如下：

其中，E_m为第m个所述固定区间的能量值。

根据所述第一区间能量序列计算得到多个特征值，以取得第一特征值序列。在本实施例中，所述第一特征值序列记为C1[9]。

根据所述第二区间能量序列计算得到多个特征值，以取得第二特征值序列。在本实施例中，所述第二特征值序列记为C2[9]。

所述对比模块300还用于对比所述第一特征值序列C1[9]与所述第二特征值序列C2[9]，得到一数值k，使得C1_m+k＝C2_m。例如，若C1[9]＝{0，1，0，-1，1，1，1，0，0}，C2[9]＝{0，-1，1，1，1，0，0，1，0}，可以看出C1₃＝C2₁＝0、C1₄＝C2₂＝-1、…、C1₉＝C2₇＝0，此时所述数值k为2。

所述时间差T等于所述区间长度t与所述数值k的乘积。

所述对比模块300还用于根据所述数值k计算所述扩音参数X。

计算所述扩音参数X的公式如下:

其中，E1_n为所述第一背景音频信号中第n个所述固定区间的能量值，E2_n为所述第二背景音频信号中第n个所述固定区间的能量值。例如：

E1₁₀＝{3.7，3.8，6.0，5.9，3.8，5.0，5.6，6.5，7.1，7.4}，E2₁₀＝{5.0，4.9，3.2，4.2，4.7，5.4，5.9，6.2，6.8，7.3}，当k＝2时，

此时，所述扩音参数X＝1.1971。

所述修改模块400用于依据所述时间差T及所述扩音参数X，对所述第二音频信号进行时间补偿、放大和反相操作以得到第三音频信号。公式如下：

S₃(t)＝-XS₂(t-T)

其中，S₃(t)为所述第三音频信号，S₂(t)为所述第二音频信号。

所述合成模块500用于合成所述第一音频信号与所述第三音频信号，得到与所述用户语音信号接近的第四音频信号。

S₄(t)＝S₁(t)+S₃(t)

其中，S₄(t)为所述第四音频信号，S₁(t)为所述第一音频信号，S₃(t)为所述第三音频信号。在本实施例中，所述第四音频信号为已经消除背景噪声的用户控制语音，可以直接输入至所述电子装置2语音辨识系统进行辨识进而控制所述电子装置2。

参阅图3所示，是本发明实施例之语音干扰滤除的方法的步骤流程图。所述语音干扰滤除的方法应用于所述电子装置2中，通过处理器30执行存储器20中存储的程序代码实现。

步骤S302，通过所述音频采集单元40获取外部环境中的第一音频信号，所述第一音频信号中包括用户语音信号。

步骤S304，获取所述音频输出单元50输出的第二音频信号。

步骤S306，过滤所述第一音频信号中的语音音区以得到第一背景音频信号，过滤所述第二音频信号中的语音音区以得到第二背景音频信号。

步骤S308，通过对比所述第一背景音频信号和所述第二背景音频信号，得到所述第一音频信号和所述第二音频信号之间的时间差T和扩音参数X。

步骤S310，依据所述时间差T及所述扩音参数X，对所述第二音频信号进行时间补偿、放大和反相操作以得到第三音频信号。

步骤S312，合成所述第一音频信号与所述第三音频信号，得到与所述用户语音信号接近的第四音频信号。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种语音干扰滤除的方法，用于电子装置中，所述电子装置包含至少一个音频采集单元和至少一个音频输出单元，其特征在于，所述方法包括步骤：

通过所述音频采集单元获取外部环境中的第一音频信号，所述第一音频信号中包括用户语音信号；

获取所述音频输出单元输出的第二音频信号；

过滤所述第一音频信号中的语音音区以得到第一背景音频信号，过滤所述第二音频信号中的语音音区以得到第二背景音频信号；

设定一固定区间作为计算能量值的时间区间，区间长度为t；

在所述第一背景音频信号与所述第二背景音频信号的相同时间点以所述区间长度t设置连续n个所述固定区间；

计算所述第一背景音频信号中设置的n个区间的能量值，得到第一区间能量序列，记为E1[n]；

计算所述第二背景音频信号中设置的n个区间内的能量，得到第二区间能量序列，记为E2[n]；

针对所述第一背景音频信号和所述第二背景音频信号，将每一固定区间内的能量与后一固定区间内的能量进行比较，得到多个特征值，从而得到第一特征值序列C1[m]和第二特征值序列C2[m]；

根据所述第一特征值序列C1[m]和所述第二特征值序列C2[m]，计算得到所述第一背景音频信号和所述第二背景音频信号之间的时间差T；

根据所述时间差T，补偿所述第二背景音频信号并将补偿后的第二背景音频信号和所述第一背景音频信号进行对比，以得到扩音参数X；

依据所述时间差T及所述扩音参数X，对所述第二音频信号进行时间补偿、放大和反相操作以得到第三音频信号；及

合成所述第一音频信号与所述第三音频信号，得到与所述用户语音信号接近的第四音频信号；

其中，所述第一特征值序列C1[m]中第m个第一特征值C1_m和所述第二特征值序列C2[m]的中第m个第二特征值C2m的计算公式如下：

其中，E1_m为所述第一背景音频信号中第m个所述固定区间的能量值，E2_m为所述第二背景音频信号中第m个所述固定区间的能量值。

2.如权利要求1所述的语音干扰滤除的方法，其特征在于，所述根据所述第一特征值序列和所述第二特征值序列，计算得到所述第一背景音频信号和所述第二背景音频信号之间的时间差T的步骤，包括：

对比所述第一特征值序列C1[m]与所述第二特征值序列C2[m]，得到一数值k，使得C1_m+k＝C2_m；

所述时间差T等于所述区间长度t与所述数值k的乘积。

3.如权利要求2所述的语音干扰滤除的方法，其特征在于，计算所述扩音参数X的公式为：

其中，E1_n为所述第一背景音频信号中第n个所述固定区间的能量值，E2_n为所述第二背景音频信号中第n个所述固定区间内的能量值。

4.如权利要求1所述的语音干扰滤除的方法，其特征在于，所述第三音频信号的计算公式为：

S₃(t)＝-XS₂(t-T)

5.一种电子装置，其特征在于，所述装置包括：至少一个音频采集单元和至少一个音频输出单元，存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音干扰滤除方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音干扰滤除的方法的步骤。