CN110288983B

CN110288983B - 一种基于机器学习的语音处理方法

Info

Publication number: CN110288983B
Application number: CN201910558412.XA
Authority: CN
Inventors: 张昊天; 刘文红; 胡锦熙; 刘中华
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-10-01
Anticipated expiration: 2039-06-26
Also published as: CN110288983A

Abstract

一种基于机器学习的语音处理方法，包括：确定语音样本分类数量为k，预先接收一组包括多个具有分类标签的语音样本；对已获得的语音样本进行频谱分析，提取特征属性；接收语音信号，分析当前输入的语音信号特征，通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别；根据判断结果对输入语音信号进行数字滤波操作。本发明提高了语音美化技术的普适性，提高语音处理效率，赋予系统对不同人群语音类别的判别能力。

Description

一种基于机器学习的语音处理方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于机器学习的语音处理方法。

背景技术

对于语音音频的处理美化技术，主要集中在视频后期制作、歌曲调音、主持人调音等专业领域。现有方法是通过人工操作，根据经验以及响应的规则对音频信号进行处理，达到美化音频的效果。其具体方法是将语音音频分为若干频段，分别对其幅值进行相应的增益处理，再将其叠加。这种方法需要专业人员根据被调音人的声音特点和自身经验自行把握，导致调音时间成本较高，调音结果各有不同，且专业性强。因此该方法不适用于对于普通人日常语音交流、小视频制作等活动中对音频的美化操作。

发明内容

本发明实施例针对目前语音美化技术专业性强，需要专业人员进行调音，时间成本较高等问题，采用机器学习分类算法判断输入语音信号的类别，并根据其类别做出相应的数字滤波处理，达到在无专业设备和专业人员操作下快速美化语音的效果，扩展了语音美化技术的应用领域。

本发明实施例之一，一种基于机器学习的语音处理方法，该方法包括步骤：

确定语音样本分类数量为k，预先接收一组包括多个具有分类标签的语音样本；

对已获得的语音样本进行频谱分析，提取特征属性；

接收语音信号，分析当前输入的语音信号特征，通过由所述语音样本进行机器学习建立的模型判断当前输入信号的类别；

根据判断结果对输入语音信号进行数字滤波操作。

本发明采用机器学习分类算法，分析输入语音信号的特征属性并将其分类，再根据分类结果做出相应的美化操作，扩展了语音美化技术的应用领域，大幅提高了语音美化操作的处理速度，节省了人工语音处理的成本，可进行在线语音美化操作。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1根据本发明实施例之一的基于机器学习的语音处理方法流程图。

具体实施方式

根据一个或者多个实施例，如图1所示，一种语音处理方法，包括以下几个步骤：

S101.确定系统分类个数k，预先输入一组数量足够的带分类标签的语音样本；

S102.将输入的语音信号进行预处理(主要为频谱分析)，提取其特征属性；

S103.判断当前输入信号是否为可处理的语音信号，若不是则不进行美化操作；

S104.分析系统当前输入的语音信号特征，通过机器学习分类方法判断当前输入信号的类别；

S105.根据判断结果对输入信号进行与美化方向相应的数字滤波操作。

其中，步骤S103中预先输入的语音样本须具备在其所属类别中具有典型样本为中心的分布；

步骤S104中的机器学习分类方法根据场景需求做出选择；

步骤S105中每个类别采用固定系数的数字滤波器对其进行处理，根据该类别的通用美化方向制定滤波器权系数。

根据一个或者多个实施例，一种适用于语音信箱的语音美化方法。在该实施例中，信号处理中允许具有较大的时间复杂度和空间复杂度，同时输入信号长度固定且已知，可采用k-近邻算法对其分类。

首先输入一组数量为p的带标签语音语音样本，确定分类个数k。

对每个样本进行快速傅里叶变换：

其中

结合采样频率f，确定其频谱。

提取频谱中前N/2个元素，组成向量：

X＝(X(0)X(0)...X(N/2))^T (1-2)

将其降序排列得到向量：

X′＝(X′(0)X′(1)...X′(N/2))^T (1-3)

满足

X′(0)≥X′(1)≥…≥X′(N/2) (1-4)

提取其特征属性：

其中x₁、x₂、x₃、x₄表示最大的四个频率点所在的频率位置，A_max表示输入信号最大幅值，A_ave表示最大四个频率点的平均幅值。

将以上六个特征属性组成向量，得到第i个样本的特征属性矢量：

X_(i)＝(x_(i)1 x_(i)2 x_(i)3 x_(i)4 A_(i)max A_(i)ave)^T (1-6)

重复以上操作得到所有p个语音样本的特征是下矢量所张成的线性空间：

S＝Span{X₍₁₎，X₍₂₎，...X_(p)} (1-7)

系统输入一长度为N的信号x_in(n)，求其频谱中前N/2个元素组成的向量X_in和X_in的降序排列矢量X′_in。取X′_in中位数：

A_in＝X′_in(N/4) (1-8)

若满足：

即信号具有至少四个明显的频率点，则判断其是否为可处理的语音信号，进行下一步处理，否则不处理该信号，直接将输入信号输出。

若上述条件符合，则计算输入信号的特征属性矢量：

X_in＝(x₁ x₂ x₃ x₄ A_max A_ave)^T (1-10)

判断其与线性空间S中各点的距离(这里采用欧式距离)：

将与X_in距离最小的k个样本取出，根据取出样本的标签类别进行投票，票数最多的为系统判断的类别。

根据系统对X_in类别的判断对X_in进行数字滤波，系统预先根据对应类别的特征进行滤波器设计。例如年轻女性一类，在100Hz左右衰减6dB～10dB，在250Hz～2kHz频段提升3dB～6dB，此举可提高女声的饱满度并抑制近讲效应引起的低频过强现象。

最后系统将滤波完成后的音频打包发送给目的地址。

根据一个或者多个实施例，一种适用于视频聊天、语音通话的在线语音美化方法。鉴于在线语音美化需要系统具备高实时性和低算法复杂度，由于网络实时传输本身具有丢包现象，对输出信号精度(采用频率)要求较低，可采用决策树算法对输入信号进行分类。为了满足系统的实时性，可采用分时间片处理方案。

与前述实施例中对语音样本的预处理方法相同，得到特征属性矢量：

X_(i)＝(x_(i)1 x_(i)2 x_(i)3 x_(i)4 A_(i)max A_(i)ave)^T (2-1)

重复以上操作得到p个特征属性矢量，由于系统精度要求不高，这里将每个特征属性按照数值大小分为低、中、高三个类，令其分别对应于1，2，3。

求系统基础信息熵H(D_base)：

其中P(x)表示第x个类别出现的概率。

假设采用第i条特征属性划分数据集，其第j个子数据集(特征属性取值对应于第j个划分，j＝1，2，3)的信息熵为：

其中P_im表示第i条特征属性划分下，该属性特征取值为j的条件下，第x个类别发生的概率。

计算第i条特征属性划分下的信息熵：

信息增益为：

A_i＝H(D_base)-H(Di) (2-5)

通过上述方法计算6个特征属性的信息增益，将信息增益最大的特征作为数据划分节点。再从未被选择的特征里继续选择最优数据划分特征来划分子数据集，从而完成决策树的创建。

以上均为系统预先对语音信号的学习，现在对系统输入进行处理：

系统输入x(n)长度未知，设一个时间片长度为2s，且认定每个时间片内语音信号的类别不变。

则一个时间片的长度为2f，f为输入信号的采样频率。取当前时间片的第1.8f个点到第1.9f个点为输入信号x_in(n)，经过0.1f个采样周期的计算时间，可保证下一个时间片可完整的得到系统滤波，以此类推。(第一个时间片不处理)

对长度为0.1f的系统输入x_in(n)，与前述实施例判别方法相同，判断其是否为可处理的语音信号，进行下一步处理，否则不处理该信号，直接将输入信号输出。

若条件符合，则计算输入信号的特征属性矢量：

X_in＝(x₁ x₂ x₃ x₄ A_max A_ave)^T (2-6)

将X_in输入预先创建好的决策树，通过各特征属性的划分可直接得出X_in的类别，以X_in类别对应的数字滤波权系数对下一个时间片的语音信号滤波。

根据一个或者多个实施例，一种基于机器学习的语音处理装置，所述语音处理装置包括存储器；以及耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下RPA操作：

对已获得的语音样本进行频谱分析，提取特征属性；

根据判断结果对输入语音信号进行数字滤波操作。

RPA，即Robotic Process Automation(软件流程自动化)，是指用软件自动化方式实现在各个行业中本来是人工操作计算机完成的业务。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。