CN111462757A

CN111462757A - 基于语音信号的数据处理方法、装置、终端及存储介质

Info

Publication number: CN111462757A
Application number: CN202010042542.0A
Authority: CN
Inventors: 王秋明; 吴富章; 邓菁
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-07-28
Anticipated expiration: 2040-01-15
Also published as: CN111462757B

Abstract

本申请公开了一种基于语音信号的数据处理方法、装置、终端及存储介质。其中方法包括：检测到语音信号时，确定针对语音信号的多个候选预加重系数各自对应的预加重信号；基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度；将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数；依据目标斜度及目标候选预加重系数，对语音信号进行处理。本申请实施例解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。

Description

基于语音信号的数据处理方法、装置、终端及存储介质

技术领域

本申请涉及语音处理技术领域，特别涉及一种基于语音信号的数据处理方法、装置、终端及存储介质。

背景技术

基于语音信号处理的声纹识别、语音识别等交互技术目前在智能家居、智能驾驶等诸多领域都有了比较成熟的应用。语音识别、声纹识别都是基于深度学习等训练方法对海量标注数据进行训练，获得数据分布信息，因此麦克风采集到的音频信号和训练数据的匹配程度会影响后续声纹识别、语音识别的准确率。由于语音信号是宽度信号，能量主要分布在在50Hz到 8000Hz之间。麦克风传感器对各个频率感知增益(频响曲线)并不完全一致，在中高频感知增益低于低频，并且频率越高增益越小。因此，在用户与麦克风的距离适中的情况下，可以调节频响曲线使得采集的声信号在正值与负值之间均衡；在用户与麦克风的距离较近的情况下，音频信号在高频能量分布远远低于低频能量，会造成信号整体下移，影响后续声纹识别、语音识别的准确性。

相关技术中一般采用号预加重技术对不同频带的能量进行调整，但预加重技术中采用的是通过固定的前向滤波权重的方式，来抑制低频能量并实现能量均衡，因此，这种方式并无法解决距离对不同频带的能量的影响，存在声纹验证精度差、语音识别的准确性低的问题。

发明内容

本申请旨在解决至少一个上述技术问题，本申请提出一种基于语音信号的数据处理方法、装置、终端及存储介质。

第一方面，本申请提供一种基于语音信号的数据处理方法，该方法包括：

检测到语音信号时，确定针对语音信号的多个候选预加重系数各自对应的预加重信号；

基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度；

将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数；

依据目标斜度及目标候选预加重系数，对语音信号进行处理。

第二方面，本申请提供一种基于语音信号的数据处理装置，该装置包括：

加重信号确定模块，用于检测到语音信号时，确定针对语音信号的多个候选预加重系数各自对应的预加重信号；

信号斜度确定模块，用于基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度；

处理参数确定模块，用于将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数；

信号处理模块，用于依据目标斜度及目标候选预加重系数，对语音信号进行处理。

第三方面，本申请提供一种终端，该终端包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于语音信号的数据处理方法。

第四方面，本申请提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述基于语音信号的数据处理方法。

本申请实施例的有益效果：通过检测语音信来确定针对语音信号的多个候选预加重系数各自对应的预加重信号，以基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度，进而将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数，从而依据目标斜度及目标候选预加重系数，对语音信号进行处理，解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本申请实施例提供的基于语音信号的数据处理方法的流程示意图；

图2是本申请实施例提供的基于语音信号的数据处理装置的框图结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

本申请提供了一种基于语音信号的数据处理方法，如图1所示，该方法包括：步骤S101至步骤S104。

步骤S101、检测到语音信号时，确定针对语音信号的多个候选预加重系数各自对应的预加重信号。

本申请实施例中，终端设备检测到语音信号时，确定针对语音信号的多个候选预加重系数各自赌赢的预加重信号。具体地，终端设备可以为中控设备，也可以为被控设备。例如，智能家居控制系统中，手机等移动终端可以作为中控设备与多个智能家电(如智能空调)通过WiFi、蓝牙等无线连接方式进行连接，手机通过麦克风检测用户输入的语音信号；再如，智能音响可以作为被控设备，利用内置的麦克风检测用户输入的语音信号。

本申请实施例中，多个候选预加重系数一般是依据用户与麦克风的距离设置。例如，当用户距离麦克风S1米时，对应的预加重系数为

当用户距离麦克风S2米时，对应的预加重系数为

以此类推，确定出多个预加重系数来作为本申请实施例中多个候选预加重系数。

具体应用时，一般滤波器来确定语音信号针对多个候选预加重系数各自对应的预加重信号。

具体应用时，多个预加重系数一般设置在终端设备本地，执行步骤S101 时直接在本地进行读取即可，另外，存储在本地的多个预加重系数还可以通过向服务器发送更新请求来实现更新本地存储的多个预加重系数的目的；具体应用时，多个预加重系数还可以设置在服务端，终端设备在执行步骤S101时，将语音信号发送至服务端，以使服务端计算语音信号针对多个候选预加重系数各自对应的预加重信号，并在服务端计算完成后发送至终端设备，从而完成确定语音信号针对多个候选预加重系数各自对应的预加重信号的目的。

具体地，假设多个候选预加重系数的数量为^N，第n个候选系数为

若麦克风检测到的语音信号为y(t)，t为时间变量，对每一个候选预加重系数 α_n，进行预加重计算，信号输出x(t)为：

x(t)＝y(t)-α_ny(t-1)。

步骤S102、基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度。

具体地，每一个预加重系数，对应一组预加重信号输出，对每一组预加重信号输出，并计算斜度。

本申请实施例中，斜度用于表征信号分布对称性的常用度量。

本申请实施例中，通过预设的预加重计算公式来根据语音信号针对多个候选预加重系数各自对应的预加重信号，确定多个斜度。具体应用时，可以采用任一斜度计算公式进行计算，斜度计算公式：

其中，ρ_n表示斜度，T表示语音信号的信号长度。

因此，具体应用时，信号长度可以根据通过在终端设备设定单次采集的语音信号的长度来进行控制。

步骤S103、将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数。

步骤S104、依据目标斜度及目标候选预加重系数，对语音信号进行处理。

本申请实施例，检测到语音信号时，确定针对语音信号的多个候选预加重系数各自对应的预加重信号，以基于针对语音信号的对多个候选预加重系数各自对应的预加重信号，确定多个斜度，进而将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数，从而依据目标斜度及目标候选预加重系数，对语音信号进行处理，解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。

在一个实现方式中，步骤S101中确定针对语音信号的多个候选预加重系数各自对应的预加重信号之前，该方法还包括：

对预存斜度进行初始化，得到初始斜度；

对预存预加重系数进行初始化，得到初始预加重系数。

本申请实施例中，预存斜度一般为上次计算得到的目标斜度，预存预加重系数一般为上次计算得到的目标预加重系数。具体应用时，若，终端设备还未执行过本申请实施例提供的方法，那么预存斜度即为预设的斜度，预存预加重系数即为预设的预加重系数。

在另一个实现方式中，步骤S103依据比较结果确定目标斜度以及目标预加重系数，包括：

若任一斜度小于初始斜度，则依据该任一斜度确定目标斜度，该任一斜度对应的候选预加重系数确定目标预加重系数；

若任一候选预加重系数不小于初始斜度，则将初始预加重系数作为目标预加重系数，初始斜度作为目标斜度。

例如，假设终端设备初始化本次之前得到的目标目标斜度和目标预加重系数之后，得到初始斜度、初始预加重系数分别为：

将该步骤按照如下公式进行比较：

因此，若某一斜度的绝对值绝对值小于初始斜度时，目标斜度、目标预加重系数为该某一斜度的绝对值，该斜度对应的候选预加重系数为目标预加重系数。

在另一个实现方式中，步骤S101检测到语音信号之前，该方法还包括：

对已存储的目标斜度、目标预加重系数进行初始化处理，并将初始化处理之后的目标斜度作为初始斜度，初始化之后的目标预加重系数作为初始预加重系数。

本申请实施例通过对各次计算得到的目标斜度、目标预加重系数的初始化，保证了后续再次进行计算的准确性，防止了以前计算得到的目标斜度、目标预加重系数的影响。

在又一个实现方式中，步骤S101确定针对语音信号的多个候选预加重系数各自对应的预加重信号之前，方法还包括：

基于预加重系数算法，确定多个距离参数分别对应的预加重系数，以得到多个候选预加重系数。

例如，不同的距离分别采集一组语音信号y(t)，假设采集周期为1分钟，那么在距离为S时，进行语音信号的采集，得到一组语音信号y(t)。

具体应用时，根据不同的候选预加重系数来进行滤波，按照公式 x(t)＝y(t)-α_ny(t-1)进行处理。

在又一个实现方式中，如图1所示，步骤S101检测到语音信号之后，该方法还包括：

步骤S1011(图中未示出)、对语音信号进行预处理；

步骤S101中确定针对语音信号的多个候选预加重系数各自对应的预加重信号，包括：

步骤S1012(图中未示出)、基于预处理之后的语音信号，确定针对多个候选预加重系数各自对应的预加重信号。

进一步地，预处理至少包括：自适应增益控制、噪声抑制。

本申请实施例中对语音信号的增益进行自适应控制，能够保证信号在一定幅度范围之内，而去燥处理(即噪声抑制处理)能够抑制环境噪声，避免环境噪声对后续识别的影响，为后续确定预加重信号提供支持。

具体应用时，可以采用以下方法进行增益控制：主要方法基于过零率检测的语音活动检测与增益控制方法、基于语音存在概率的语音活动检测与增益控制方法、基于深度学习的语音活动检测与增益控制方法等方法。在以基于语音存在概率的语音活动检测与增益控制方法进行增益的过程为：基于信号初始段估计噪音的功率谱密度，然后更新更新噪音的功率谱密度与语音先验与后验信噪比；然后根据信噪比估计结果确定语音存在概率，如果一定时段内信噪比估计结果较大，对应语音存在概率较大，说明当前进入语音段；否则为噪音段；随后进行增益控制，对语音存在时段把幅值调整到目标幅度范围，对噪音时段，则不做处理。

具体应用时，可以采用麦克风阵列的超指向滤波器的方法、基于单声道噪声功率谱密度估计的方法、基于深度学习的语音增强方法等进行去燥处理。例如，以噪声功率谱密度估计方法进行去燥时，首先采用短时傅里叶变化把时域信号变化到时频域，然后对信号起始段能量进行平均，得到噪声功率谱密度的初始估计，在后续处理中实时更新噪声功率谱密度；随后构建维纳滤波器对噪声进行抑制。

在又一个实现方式中，如图1所示，该方法还包括以下至少一项：

步骤S105(图中未示出)、确定处理后的语音信号的声纹特征；

步骤S106(图中未示出)、若声纹特征对应用户为具有控制权限的用户，则将声纹特征与预存声纹特征数据库进行匹配，确定被控设备及相应的控制指令，并依据控制指令对被控设备进行控制处理，声纹特征数据库包括多个被控设备及针对多个被控设备各自对应的多个控制指令分别对应的声纹特征。

本申请实施例通过提取语音信号的声纹特征来确定相应的控制指令以及被控设备，起到了语音控制的作用，实现了对被控设备的自动化、智能化控制。

具体地，一般可以设置声纹特征与各个被控设备的对应关系，以及声纹特征与控制指令的对应关系，通过这两个对应关系来执行控制。

实施例二

本申请实施例提供了一种基于语音信号的数据处理装置，如图2所示，该装置30包括：加重信号确定模块301、信号斜度确定模块302、处理参数确定模块303和信号处理模块304，其中，

加重信号确定模块301，用于检测到语音信号时，确定针对语音信号的多个候选预加重系数各自对应的预加重信号；

信号斜度确定模块302，用于基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度；

处理参数确定模块303，用于将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数；

信号处理模块304，用于依据目标斜度及目标候选预加重系数，对语音信号进行处理。

本申请实施例，检测到语音信号时，确定针对语音信号的对多个候选预加重系数各自对应的预加重信号，以基于针对语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度，进而将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数，从而依据目标斜度及目标候选预加重系数，对语音信号进行处理，解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。

进一步地，加重信号确定模块301确定针对语音信号的多个候选预加重系数各自对应的预加重信号之前，用于：

对预存斜度进行初始化，得到初始斜度；

对预存预加重系数进行初始化，得到初始预加重系数。

进一步地，信号处理模块304用于：

若任一斜度小于初始斜度，则依据该任一斜度确定目标斜度，将该任一斜度对应的候选预加重系数确定目标预加重系数；

进一步地，加重信号确定模块301检测到语音信号之后，用于：

对语音信号进行预处理；

确定针对语音信号的多个候选预加重系数各自对应的预加重信号，包括：

基于预处理之后的语音信号，确定针对多个候选预加重系数各自对应的预加重信号。

进一步地，预处理至少包括：

自适应增益控制、噪声抑制。

进一步地，信号处理模块304还包括以下至少一项：

确定处理后的语音信号的声纹特征；

若声纹特征对应用户为具有控制权限的用户，则将声纹特征与预存声纹特征数据库进行匹配，确定被控设备及相应的控制指令，并依据控制指令对被控设备进行控制处理，声纹特征数据库包括多个被控设备及针对多个被控设备各自对应的多个控制指令分别对应的声纹特征。

本实施例的基于语音信号的数据处理装置可执行本申请实施例一提供的基于语音信号的数据处理方法，其实现原理相类似，此处不再赘述。

实施例三

本申请实施例提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该计算机程序时以实现上述基于语音信号的数据处理方法。

具体地，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

具体地，处理器通过总线与存储器连接，总线可包括一通路，以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。

存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备， RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、 CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器用于存储执行本申请方案的计算机程序的代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现所示实施例提供的基于语音信号的数据处理装置的动作。

本申请实施例，检测到语音信号时，确定语音信号针对多个候选预加重系数各自对应的预加重信号，以基于语音信号针对多个候选预加重系数各自对应的预加重信号，确定多个斜度，进而将多个斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数，从而依据目标斜度及目标候选预加重系数，对语音信号进行处理，解决了现有技术中因预加重系数固定导致的因未考虑距离因素导致的语音识别技术中声纹验证精度差、语音识别的准确性低的问题。

实施例四

本申请实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述实施例提供的基于语音信号的数据处理方法。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语音信号的数据处理方法，其特征在于，包括：

检测到语音信号时，确定针对所述语音信号的多个候选预加重系数各自对应的预加重信号；

基于所述语音信号针对多个候选预加重系数各自对应的预加重信号，确定多个斜度；

将多个所述斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数；

依据所述目标斜度及所述目标候选预加重系数，对所述语音信号进行处理。

2.根据权利要求1所述的方法，其特征在于，所述确定针对所述语音信号的多个候选预加重系数各自对应的预加重信号之前，所述方法还包括：

对预存斜度进行初始化，得到初始斜度；

对预存预加重系数进行初始化，得到初始预加重系数。

3.根据权利要求2所述的方法，其特征在于，所述依据比较结果确定目标斜度以及目标预加重系数，包括：

若任一所述斜度小于所述初始斜度，则依据该任一所述斜度确定所述目标斜度，将该任一所述斜度对应的候选预加重系数确定目标预加重系数；

若任一所述候选预加重系数不小于所述初始斜度，则将所述初始预加重系数作为目标预加重系数，所述初始斜度作为所述目标斜度。

4.根据权利要求1所述的方法，其特征在于，所述确定针对语音信号的多个候选预加重系数各自对应的预加重信号之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，

所述检测到语音信号之后，所述方法还包括：

对所述语音信号进行预处理；

所述确定针对语音信号的多个候选预加重系数各自对应的预加重信号，包括：

基于预处理之后的所述语音信号，确定针对多个候选预加重系数各自对应的预加重信号。

6.根据权利要求5所述的方法，其特征在于，所述预处理至少包括：

自适应增益控制、噪声抑制。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括以下至少一项：

确定处理后的所述语音信号的声纹特征；

若所述声纹特征对应用户为具有控制权限的用户，则将所述声纹特征与预存声纹特征数据库进行匹配，确定被控设备及相应的控制指令，并依据所述控制指令对所述被控设备进行控制处理，所述声纹特征数据库包括多个被控设备及针对多个被控设备各自对应的多个控制指令分别对应的声纹特征。

8.一种基于语音信号的数据处理装置，其特征在于，包括：

加重信号确定模块，用于检测到语音信号时，确定针对所述语音信号的多个候选预加重系数各自对应的预加重信号；

信号斜度确定模块，用于基于针对所述语音信号的多个候选预加重系数各自对应的预加重信号，确定多个斜度；

处理参数确定模块，用于将多个所述斜度分别与预设斜度阈值进行比较，并依据比较结果确定目标斜度以及目标预加重系数；

信号处理模块，用于依据所述目标斜度及所述目标候选预加重系数，对所述语音信号进行处理。

9.一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于语音信号的数据处理方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任意一项所述的基于语音信号的数据处理方法。