CN110322887B

CN110322887B - 一种多类型音频信号能量特征提取方法

Info

Publication number: CN110322887B
Application number: CN201910351459.9A
Authority: CN
Inventors: 邓小涛; 张华军; 王征华; 倪杰
Original assignee: Wuhan Dashengji Technology Co ltd
Current assignee: Wuhan Dashengji Technology Co ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-10-15
Anticipated expiration: 2039-04-28
Also published as: CN110322887A

Abstract

本发明提供一种多类型音频信号能量特征提取方法，选取采样频率，采集说话人的音频信号值；对采集的说话人的音频信号值进行滤波和切片处理，得到若干个一定长度的音频信号帧；建立数组；将每一组音频信号帧与数组相乘，得到局部被放大或者缩小的音频信号切片；对音频信号切片进行幅频分析，计算每一种频率信号的能量；生成一维数组；将所有的音频信号帧的特征形成一个二维数组，作为采集的音频信号的能量特征矩阵；依据该能量特征矩阵得到音频信号每一帧之间能量的变化特征矩阵和不同频率信号之间能量的变化特征矩阵。本发明能获得更加丰富的音频信号能量特征。

Description

一种多类型音频信号能量特征提取方法

技术领域

本发明涉及音频信号能量提取技术领域，具体涉及一种多类型音频信号能量特征提取方法。

背景技术

在对语言信号进行说话人身份识别的应用过程中，往往需要提取说话人的语言特征以进行辨认，而表征一个人特点的特征主要包括频谱、倒频谱、共振峰、基音、反射系数、鼻音、沙哑音等人类的声学特征，以及语义、修辞、发音、言语习惯、韵律、节奏、速度、语调、音量等特征。目前大部分说话人识别系统都是采用声学层面的特征，通过采集语音的电信号进行相关的分析，提取典型的特征以供识别算法进行准确识别和分类。

发明内容

本发明要解决的技术问题是：提供一种多类型音频信号能量特征提取方法，从而获得更加丰富的音频信号能量特征。

本发明为解决上述技术问题所采取的技术方案为：一种多类型音频信号能量特征提取方法，其特征在于：本方法包括以下步骤：

S1、数据采集：

令采样频率为f，采集说话人的音频信号值为s₁、s₂、s₃、……、s_n，其中n为采集的音频信号的采样数量；

S2、滤波：

对采集的说话人的音频信号值进行滤波处理，得到s′₁、s′₂、s′₃、……、s′_n；

S3、切片：

对s′₁、s′₂、s′₃、……、s′_n进行切片处理，按照每个切片包含l₁个采样点，每两个切片之间有l₂个采样点重复的原则进行切割，得到的切片个数为m＝floor((n-l₁)÷(l₁-l₂))+1，其中运算符号floor()表示对括号里面的数进行向下取整运算；进行切片处理后，得到m个长度为l₁个采样点的音频信号帧

其中1≤i≤n-l₁+1，i为音频信号帧中每一个元素的序号，s′_i至

为第i组音频信号帧中的第1至第l₁个元素；

S4、建立数组H，其中数组H的每一个元素H(i)的表达式计算方法为H(i)＝0.54-0.46×cos(2πi/(l₁-1))，其中0≤i≤l₁-1；

S5、将每一组音频信号帧

与数组H相乘，得到局部被放大或者缩小的音频信号切片

S6、对音频信号切片

进行幅频分析，得到l₁个频率、幅值数组对(f_k M_k)，其中0≤k≤l₁，计算每一种频率信号的能量大小P_k，计算公式为P_k＝M_k×M_k；

S7、生成j个一维数组，每一个数组包含l₁个元素，其中每一个数组包含三个位置特征f_pl、f_pc、f_pr，第t个数组中每一个元素值大小满足关系式：

公式(1)中t表示数组的序号，1≤t≤12，k表示数组中元素的序号，其中三个位置特征f_plt、f_pct、f_prt分别为第t个数组的位置特征f_pl、f_pc、f_pr，且均为预设值；

S8、将P_k分别与S7中的数组FA_t(k)相乘得到结果PFA_t(k)，将第t个数组PFA_t(k)中的l₁个元素相加，得到整个音频信号的第t个特征F_t，因此一个音频信号帧获得j个特征；

S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat，作为采集的音频信号的能量特征矩阵；Feat的第r行的j个元素为第r帧信号的j个特征值；

S10、将二维数组Feat的第r+1行数值减去第r行数值，得到音频信号每一帧之间能量的变化特征矩阵ΔFeat_r，其中1≤r≤m-1；

S11、将二维数组Feat的第c+1列数值减去第c列数值，得到每一个音频信号帧不同频率信号之间能量的变化特征矩阵ΔFeat_c，其中1≤c≤j-1。

按上述方法，所述的S2具体为：采用如下公式进行平滑滤波：s_i′＝s_i-α×s_i-1，其中α为平滑系数，0.95≤α≤0.97。

按上述方法，所述的j取12。

按上述方法，所述的l₁＝1102，l₂＝441。

本发明的有益效果为：通过对采集的音频信号切片和局部放大或缩小处理，然后构件二维数组，从而获得音频信号的能量矩阵及其变化特征矩阵，从而获得更加丰富的音频信号能量特征，非常适合进行各种音频信号的身份特征提取，为获得更加准确的语音身份辨识提供了基础。

附图说明

图1为本发明一实施例的方法原理图。

图2为音频信号切片形成音频信号帧的原理图。

图3为本发明一实施例采集的音频信号曲线图。

图4为本发明一实施例单帧信号滤波前后的对比曲线图。

图5为本发明一实施例采集的音频信号的能量特征矩阵图。

图6为本发明一实施例采集的音频信号的每一帧能量变化率矩阵图。

图7为本发明一实施例采集的音频信号的一帧信号内不同频率信号能量变化矩阵图。

具体实施方式

下面结合具体实例和附图对本发明做进一步说明。

本发明提供一种多类型音频信号能量特征提取方法，如图1所示，本方法包括以下步骤：

S1、数据采集：

令采样频率为f，采集说话人的音频信号值为s₁、s₂、s₃、……、s_n，其中n为采集的音频信号的采样数量。

S2、滤波：

为了消除高频信号的影响和改善信噪比，对采集的语音信号进行滤波处理，其处理方法的计算公式为s′_i＝s_i-α×s_i-1，其中α为平滑系数，0.95≤α≤0.97，采样信号滤波后得到信号s′₁、s′₂、s′₃、……、s′_n。

S3、切片：

由于音频信号在不同时间会出现频率和幅值较大的波动，因此对s′₁、s′₂、s′₃、……、s′_n进行切片处理，按照每个切片包含l₁个采样点，每两个切片之间有l₂个采样点重复的原则进行切割，如图2所示，得到的切片个数为m＝floor((n-l₁)÷(l₁-l₂))+1，其中运算符号floor()表示对括号里面的数进行向下取整运算；进行切片处理后，得到m个长度为l₁个采样点的音频信号帧

为第i组音频信号帧中的第1至第l₁个元素；

S5、将每一组音频信号帧

与数组H相乘，得到局部被放大或者缩小的音频信号切片

其中数组中每一个元素sf_i′的计算方法为sf_i′＝s′_i×H(i)，其中i为音频信号帧中每一个元素的序号。

S6、对音频信号切片

公式(1)中t表示数组的序号，1≤t≤12，k表示数组中元素的序号，其中三个位置特征f_plt、f_pct、f_prt分别为第t个数组的位置特征f_pl、f_pc、f_pr，且均为预设值。

本实施例中，取j为12，三个位置特征的值如下表所示：

表1

系数	t＝1	t＝2	t＝3	t＝4	t＝5	t＝6	t＝7	t＝8	t＝9	t＝10	t＝11	t＝12
													f<sub>plt</sub>	4	7	10	14	17	22	27	32	38	45	53	62
f<sub>pct</sub>	7	10	14	17	22	27	32	38	45	53	62	72
													f<sub>prt</sub>	10	14	17	22	27	32	38	45	53	62	72	83

S8、将P_k分别与S7中的数组FA_t(k)相乘得到结果PFA_t(k)，将第t个数组PFA_t(k)中的l₁个元素相加，得到整个音频信号的第t个特征F_t，因此一个音频信号帧获得j个特征。

S9、将所有的m个音频信号帧的特征形成一个m行、j列的二维数组Feat，作为采集的音频信号的能量特征矩阵；Feat的第r行的j个元素为第r帧信号的j个特征值。

S10、将二维数组Feat的第r+1行数值减去第r行数值，得到音频信号每一帧之间能量的变化特征矩阵ΔFeat_r，其中1≤r≤m-1。

以采样频率f＝44100Hz采集一段音频信号，采样点数量n＝154350，其信号如附图3所示。令每一个切片的长度l₁＝1102，切片之间重叠长度l₂＝441，则采集到的信号可以切分为698帧长度为1102点的数据集合。每一帧采样信号经过S4和S5后得到了如附图4所示的曲线，从附图4可知每一帧音频信号在中间部分进行放大，两端逐渐衰减。经过S6-S9处理后，得到采样音频数据的特征矩阵如附图5所示，其中S7中的数组系数如表1所示。附图5中用颜色深浅表示每一帧信号特征的数值大小，从图中可以发现每一帧信号的特征差异非常清晰。按照S10计算得到音频信号每一帧之间特征的变化率矩阵，其如附图6所示，从附图6可知每一帧信号之间的能量变化比较平缓。按照S11计算得到音频信号同一帧内不同频率信号的能量变化矩阵，其如附图7所示，从附图7可知短时间内不同频率的信号能量差距非常大，可以用来清晰描述声音信号的差异。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。