CN115171721A

CN115171721A - 一种音频数据切片识别处理方法

Info

Publication number: CN115171721A
Application number: CN202210775888.0A
Authority: CN
Inventors: 王建伟
Original assignee: Beijing Xinghan Bona Medicine Science And Technology Co ltd
Current assignee: Zhejiang Xinghan Bona Pharmaceutical Technology Co.,Ltd.
Priority date: 2022-07-03
Filing date: 2022-07-03
Publication date: 2022-10-11
Anticipated expiration: 2042-07-03
Also published as: CN115171721B

Abstract

本发明公开了一种音频数据切片识别处理方法，具体涉及声音识别技术领域，包括如下步骤：信号采集，44.1kH采样率获取音频输入，并转换为数组存储；能量差处理；设存储源音数据数组为S，处理后的数组为R，两个数组的长度相同，处理规则：R(n)＝S(n‑1)‑S(n),n>0；R(0)＝S(0)；能量信号切片分层；特征提取和识别。经过能量差处理后，数据产生正、负和零，三类数据，有意义的数据在正负两类数据里，并且这两类数据是绝对附着在过零位上的；解决了低频信号干扰，引起的过零位偏移问题；通过切片分层方法，可以通过调参，剥离不同音量或频率的声音数据，在对声音的分类识别过程中，去除噪音和回声，很有效，效果十分显著。

Description

一种音频数据切片识别处理方法

技术领域

本发明涉及声音识别技术领域，具体为一种音频数据切片识别处理方法。

背景技术

本发明借鉴了人耳对声音识别的生物学原理，模仿人耳提取声音信息的功能；声音是一种机械波，经过空气传递，振动人耳的鼓膜，经耳蜗进行处理，最后传递给大脑进行识别；通过话筒采集到信息，相当于鼓膜到耳蜗之间处理的信息，当前对声音的处理步骤，相当于耳蜗的功能，最终为声音识别功能提供输入信息；核心思路，通过邻居两个采样点的差值，获得一个能量差值，该值也可以另外描述为，单位时间内能量的变化值，频率高的声音变化值大，频率低的声音变化值小；经过能量差处理的数据，通过分层切片方法，提取不同频率的数据，用于声音识别或解析。

对于现有的音频数据切片识别处理方法，如专利公开号为【公开号】CN112863489A的中国专利，其公开了一种语音识别方法、装置、设备及介质，包括如下步骤：该方法包括：获取待识别的第一语音信号，并对第一语音信号进行回声消除处理，获得相应的第二语音信号，且第二语音信号中包括第三语音信号；识别第三语音信号，确定相应的场景信息；根据所确定的场景信息，并基于预设映射表得到与场景信息对应的预设领域；根据所得到的预设领域，从预先存储的语音模型数据库中调取出相应的语音识别模型；基于所调取出的语音识别模型对第二语音信号进行识别，获得相应的语音识别结果。用以通过识别第三语音信号，确定相应的场景信息，有利于提高对语音信号的识别率。

现有技术中的音频数据切片识别处理方法存在以下问题：

1、现有的音频数据切片识别处理受无意义的低频声音信号干扰，会让有意义信号严重偏离过零位，影响识别效果；在做回声消除的处理中，不能有效区分源音和回音，造成过多消除有意义音源；

2、且声音识别过程中，不能对不同音量声音做分层处理，影响语音信号识别率，为此，我们提出一种音频数据切片识别处理方法用于解决上述问题。

发明内容

本发明的目的在于提供一种音频数据切片识别处理方法，以解决上述背景技术中提出的问题。

为解决上述技术问题，本发明采用如下技术方案：一种音频数据切片识别处理方法，包括如下步骤：

步骤一、信号采集，44.1kH采样率获取音频输入，并转换为数组存储；

该步骤可以由文件输入，也可以由话筒设备输入，输入后，取一条主声道数据作为待分析数据，保存为一维数组S。

对于采样率，主要影响当前算法的效率和精度，采样率越高需要计算的采样点越多性能变差，但声音识别精度约高；采样率低，需要分析的采样点少，性能变好，但声音识别精度变差。

对于声道，主要分为2.0声道、3.1声道、5.1声道等，本算法主要使用2.0声道数据，

并且只提取一条声道数据，用于语义识别。

步骤二、能量差处理；

声音是一种机械波，它对话筒的振动产生不同的声音电位信号，如果需要感知能量的变化，就需要计算相邻两个采样点的变化值，这个变化值就是当前步骤最终处理值，所以我们做如下处理：

设存储源音数据数组为S，处理后的数组为R，两个数组的长度相同，处理公式，

R(n)＝S(n-1)-S(n),n>0；R(0)＝S(0)；

根据声音的原理，声音电位信号有变动才会有能量，即使是持续的高电位，但没有变化，也不会产生能量，所以数组R存储的是声音的能量数据。

经过能量差处理后，数据产生正、负和零，三类数据，有意义的数据在正负两类数据里，并且这两类数据是绝对附着在过零位上的。解决了低频信号干扰，引起的过零位偏移问题。

需要注意的是，经过能量差处理后的声音数据，听起来会变尖锐，即频率是处理前的两倍，低频会减弱，但不影响语义和声纹特征识别，如果遇到需要计算源语音频率的地方，需要除步骤二。

图3，为能量差处理后，相同音频处理后的图像选段。

步骤三、能量信号切片分层；

通过能量差处理的数组R，对其进行切片，切片规则为：

正负各切150层，层与层之间的间隔为层数的平方，只保留达到当前层值的能量差数据。一般情况下，高音或源音信息分布在比较大的层次里，低音或回声分布在比较低的层次里，这里高音是声音识别的主要对象；

此处通过调整能量信号提取层数，快速消除回声或背景音。

经过实验数据验证，声音的波形，对语义影响不大，见图4，为信号切片后，相同段信号提取28层切片信号图像，可以看到，经过切片处理后的音频数据，为整齐的上下对称的方波，通过转存为声音文件进行播放，人耳仍然可以识别声音的语义，不影响识别结果。

需要注意，进行声音切片前，必须要经过能量差处理，否则高低频声音信号，会混合在各个层级分层数据里，使得切片变得没有意义。

步骤四、特征提取和识别

通过能量差处理的数组R，取正数或负数部分，按层数提取数据，为了提高效率，可以按比例提取3层数据用于特征提取和识别，高层数数据设置比较大的权重；需要注意，用于识别训练的样本数据，也需要做相同的处理。

借助能量信号切片分层处理规则，可以清晰区分高音语义和低音语义。。

与现有技术相比，本发明的有益效果在于：

1、本发明经过能量差处理后，数据产生正、负和零，三类数据，有意义的数据在正负两类数据里，并且这两类数据是绝对附着在过零位上的；解决了低频信号干扰，引起的过零位偏移问题；通过切片分层方法，可以通过调参，剥离不同音量或频率的声音数据，在对声音的分类识别过程中，去除噪音和回声，很有效，效果十分显著；通过按比例提取不同层次的音频数据，进行特征提取和识别，并对结果加权统计，提高了声音转文字的准确率；

2、本发明经过能量差处理后的数据，取正数或负数部分，进行声音识别计算，减少数据运算量，提高了运行效率；通过对不通层数的声音进行分析，能实现对不同音量目标进行识别，相比传统单个声音目标识别，效果显著提高；通过对声音数据进行切片操作，把声音数据处理成简单的矩形波，由传统的离散余弦运算，变为真假运算，运行量更少，逻辑判断更简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的核心处理流程图。

图2为本发明的音频数据采集后，音频图像选段图。

图3为本发明的能量差处理后，相同音频处理后的图像选段。

图4为本发明的信号切片后，相同段信号提取28层切片信号图像图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：如图1-4所示，本发明提供了一种音频数据切片识别处理方法，包括如下步骤：

该步骤可以由文件输入，也可以由话筒设备输入，输入后，取一条主声道数据作为待分析数据，保存为一维数组S；

对于采样率，主要影响当前算法的效率和精度，采样率越高需要计算的采样点越多性能变差，但声音识别精度约高；采样率低，需要分析的采样点少，性能变好，但声音识别精度变差；

对于声道，主要分为2.0声道、3.1声道、5.1声道等，本算法主要使用2.0声道数据，并且只提取一条声道数据，用于语义识别。

步骤二、能量差处理；

R(n)＝S(n-1)-S(n),n>0；R(0)＝S(0)；

根据声音的原理，声音电位信号有变动才会有能量，即使是持续的高电位，但没有变化，也不会产生能量，所以数组R存储的是声音的能量数据；

经过能量差处理后，数据产生正、负和零，三类数据，有意义的数据在正负两类数据里，并且这两类数据是绝对附着在过零位上的。解决了低频信号干扰，引起的过零位偏移问题；

图3，为能量差处理后，相同音频处理后的图像选段。

步骤三、能量信号切片分层；

通过能量差处理的数组R，对其进行切片，切片规则为：

正负各切150层，层与层之间的间隔为层数的平方，只保留达到当前层值的能量差数据；一般情况下，高音或源音信息分布在比较大的层次里，低音或回声分布在比较低的层次里，这里高音是声音识别的主要对象；

此处通过调整能量信号提取层数，快速消除回声或背景音；

经过实验数据验证，声音的波形，对语义影响不大，见图4，为信号切片后，相同段信号提取28层切片信号图像，可以看到，经过切片处理后的音频数据，为整齐的上下对称的方波，通过转存为声音文件进行播放，人耳仍然可以识别声音的语义，不影响识别结果；

步骤四、特征提取和识别

通过能量差处理的数组R，取正数或负数部分，按层数提取数据，为了提高效率，可以按比例提取3层数据用于特征提取和识别，高层数数据设置比较大的权重。需要注意，用于识别训练的样本数据，也需要做相同的处理。

借助能量信号切片分层处理规则，可以清晰区分高音语义和低音语义。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频数据切片识别处理方法，其特征在于：包括如下步骤：

1)信号采集，44.1kH采样率获取音频输入，并转换为数组存储；

2)能量差处理；

设存储源音数据数组为S，处理后的数组为R，两个数组的长度相同，处理规则:

R(n)＝S(n-1)-S(n),n>0；R(0)＝S(0)；

3)能量信号切片分层；

4)特征提取和识别。

2.如权利要求1所述的一种音频数据切片识别处理方法，其特征在于，所述信号采集，44.1kH采样率获取音频输入，并转换为数组存储包括：该步骤可以由文件输入，也可以由话筒设备输入，输入后，取一条主声道数据作为待分析数据，保存为一维数组S。

3.如权利要求1所述的一种音频数据切片识别处理方法，其特征在于，所述能量差处理包括根据声音传递的原理，声音电位信号有变动才会有能量，即使是持续的高电位，但没有变化，也不会产生能量，所以数组R存储的是声音的能量数据，后面步骤称为能量差数据。

4.如权利要求1所述的一种音频数据切片识别处理方法，其特征在于，所述能量信号切片分层包括通过能量差处理的数组R，对其进行切片，切片规则为：

相对与x轴，水平正负各切150层，层与层之间的间隔为层数的平方，只保留达到当前层值的能量差数据，未达到的数据置位为零；

具体切片动作是指，只取1层或连续多层数据，如，提取第20层数据，是指提取数据值大于等于20*20，并且小于21*21，满足条件的数据设置为20*20，不满足条件的数据设置为零；

一般情况下，重要的声音信息分布在有声音数据的高层数里，次要信息(如：回音)分布在声音数据的低层数里，这里高层数数据是声音识别的主要对象；高层数是相对于有声音信号的数据而言的，是一个相对值。

5.如权利要求1所述的一种音频数据切片识别处理方法，其特征在于，所述特征提取和识别包括通过能量差处理的数组R，取正数或负数部分，按层数提取数据，为了提高效率，可以按比例提取3层数据用于特征提取和识别高层数数据设置比较大的权重。