CN111526469A

CN111526469A - 一种基于神经网络的扩声系统啸叫点检测方法

Info

Publication number: CN111526469A
Application number: CN202010366924.9A
Authority: CN
Inventors: 吴道远; 迟景立
Original assignee: Chengdu Qianli Network Technology Co ltd
Current assignee: Chengdu Qianli Network Technology Co ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-11

Abstract

本发明涉及音频信号处理技术，其公开了一种基于神经网络的扩声系统啸叫点检测方法，解决传统技术中存在对啸叫点的误判、漏判，无法准确的跟踪和检测到啸叫点的问题。该方法包括以下步骤：a.采集音频数据进行FFT转换后进行啸叫频点的标记，形成样本数据；b.基于样本数据对定义的神经网络模型进行训练，获得啸叫点识别模型；c.在实际应用中，将待处理的音频数据经过FFT转换后的频域数据作为输入，通过啸叫点识别模型输出啸叫点频率的识别结果。

Description

一种基于神经网络的扩声系统啸叫点检测方法

技术领域

本发明涉及音频信号处理技术，具体涉及一种基于神经网络的扩声系统啸叫点检测方法。

背景技术

在一些场景下，如会议，学校教学场景等，若讲话人的声音不能覆盖到所有区域，此时就需要有扩声系统的辅助，将讲话人的声音通过麦克风拾音后，经过一个处理设备，对音频数据做一些处理后，再通过功放放大，经过音响将声音播放出去，这样达到增强讲话人声音强度的效果。

扩声系统普遍面临一个问题就是啸叫问题，啸叫产生的原因是声音经过麦克风拾音进入扩声系统后，再通过扩声系统将声音输出到功放，功放将声音放大后，输出到音响，由于在一个密闭的空间内，扩大的声音经过反射后，再次进入麦克风，导致声音叠加，不断循环产生啸叫。

目前解决啸叫的方法主要包括：调整距离法、频率均衡法、反馈抑制器法、移频法和陷波法。以上方法中，调整距离法，主要是依靠物理上将音箱和麦克风的距离进行控制，防止啸叫。频率均衡法，反馈抑制器法，移频法均对声音信号做处理，会导致音频信号声音损失，处理后的声音保真度不高，适合对声音要求较低的场合使用。陷波法对声音的损失最小，也是常用的一种啸叫抑制方法，其原理是在识别出啸叫点后，通过陷波的方法对啸叫频点进行精确抑制，这样就能有效的提高扩声系统的声音，防止啸叫。

陷波法的难点在于如何判断识别啸叫点，也即对啸叫点的跟踪识别。传统技术中对啸叫点的识别通常是将声音的时域语音信号通过FFT(快速傅里叶变换)处理后得到频域数据，然后观察频域数据中的频点的幅值是否持续增大，或者频点的能量是否在持续增加，或者频域的峰均比等方式来判断是否是啸叫点。此方案存在啸叫点识别得不够及时、啸叫点的判断准确率不高，存在误判，漏判的情况，给实际使用带来不好的体验。

发明内容

本发明所要解决的技术问题是：提出一种基于神经网络的扩声系统啸叫点检测方法，解决传统技术中存在对啸叫点的误判、漏判，无法准确的跟踪和检测到啸叫点的问题。

本发明解决上述技术问题采用的技术方案是：

一种基于神经网络的扩声系统啸叫点检测方法，包括以下步骤：

a.采集音频数据进行FFT转换后进行啸叫频点的标记，形成样本数据；

b.基于样本数据对定义的神经网络模型进行训练，获得啸叫点识别模型；

c.在实际应用中，将待处理的音频数据经过FFT转换后的频域数据作为输入，通过啸叫点识别模型输出啸叫点频率的识别结果。

作为进一步优化，步骤a中，所述采集音频数据进行FFT变换后进行啸叫频点的标记，具体包括：

采集m份音频数据得到Data(1,2,3,4…m)，将每份原始数据经过FFT变换后，得到频域数据FData(1,2,3,4,…m)，标记每一份频域数据中的啸叫频点。

作为进一步优化，步骤b中，所述神经网络模型采用RNN或CNN模型，在RNN或CNN模型基础上定义神经网络的层数和激活函数。

作为进一步优化，步骤b中，在对定义的神经网络模型进行训练时，将频域数据FData(1,2,3,4,…m)作为神经网络模型的输入，将可能的啸叫点的频率作为模型的输出，对神经网络模型进行训练，使其收敛，将训练后的神经网络模型作为啸叫点识别模型。

本发明的有益效果是：

通过大量数据样本训练神经网络得到啸叫点识别模型，将啸叫点识别模型应用于实际中对音频数据的啸叫点识别和跟踪，从而快速、准确检测出啸叫点，以便能够通过陷波法进行准确的频点抑制，提升扩声系统的使用效果。神经网络具有很强的自学习功能和快速寻找优化解的能力，从而克服传统技术中对啸叫点的误判、漏判等问题。

附图说明

图1为本发明中的啸叫点检测方法流程图；

图2为神经网络模型的结构图；

图3为神经网络模型的训练过程图。

具体实施方式

本发明旨在提出一种基于神经网络的扩声系统啸叫点检测方法，解决传统技术中存在对啸叫点的误判、漏判，无法准确的跟踪和检测到啸叫点的问题。其核心思想是：通过大量采集的样本数据对定义的神经网络模型进行训练，获得啸叫点识别模型，将啸叫点识别模型应用于实际中对音频数据的啸叫点识别和跟踪，从而快速、准确检测出啸叫点。

在具体实现上，本发明中的基于神经网络的扩声系统啸叫点检测方法流程如图1所示，其包括以下实现步骤：

1.采集音频数据进行FFT转换后进行啸叫频点的标记，形成样本数据；

数字信号处理中，我们一般将音频数据分时域数据和频域数据，时域数据是扩声系统通过硬件的ADC模拟到数字信号转换后采集到的数据，也是音频的原始数据。频域数据是音频的时域数据经过FFT变换得到的数据，频域数据让我们能更方便的分析音频数据。

为了获得样本数据，我们首先采集神经网络训练需要的原始数据，采集m份(考虑到训练的模型的准确性，这里的m值尽量大)，得到Data(1,2,3,4….m)，将每份原始数据经过FFT变换后，得到频域数据FData(1,2,3,4,…m)，对每一份频域数据进行标记，标记频域数据中的啸叫频点。

假设我们设定原始数据的采样频率为Freq,FFT变换的分辨率为Freq,则生成的FData为包含频率成分为1到Freq/2的Freq/2个点数据。

2.基于样本数据对定义的神经网络模型进行训练，获得啸叫点识别模型；

神经网络模型可以选用RNN,CNN等目前比较经典的神经网络模型，在RNN,CNN模型基础上定义神经网络的层数和激活函数等，神经网络模型的结构如图2所示。

神经网络模型的输入为频域数据的Freq/2个点，神经网络的隐藏层数为LayerN，每层的神经元个数定义为Neurons(N)，输出层的输出个数为K个AData。AData为可能的啸叫点的频率。

在定义好模型后，我们可以通过将m份的频域数据FData(1,2,3,4,…m)输入到定义好的神经网络的训练模型进行训练，最终使训练模型输出的频率啸叫点数据和真实数据无限接近，即达到模型收敛，训练过程如图3所示。训练完成后，我们会得到一组训练好的模型参数Wdata，应用此组模型参数的模型就作为我们需要的啸叫点识别模型。

3.在实际应用中，将待处理的音频数据经过FFT转换后的频域数据作为输入，通过啸叫点识别模型输出啸叫点频率的识别结果。

在实际应用中，我们将啸叫点识别模型到实际系统中，采集待处理的音频原始数据，做FFT变换，变换后将频域数据作为神经网络的输入层数据，输出层将得到啸叫点的频率。获得啸叫点的频率后，便能够通过陷波法进行准确的频点抑制，提升扩声系统的使用效果。

Claims

1.一种基于神经网络的扩声系统啸叫点检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于神经网络的扩声系统啸叫点检测方法，其特征在于，

步骤a中，所述采集音频数据进行FFT变换后进行啸叫频点的标记，具体包括：

3.如权利要求1所述的一种基于神经网络的扩声系统啸叫点检测方法，其特征在于，

步骤b中，所述神经网络模型采用RNN或CNN模型，在RNN或CNN模型基础上定义神经网络的层数和激活函数。

4.如权利要求1-3任意一项所述的一种基于神经网络的扩声系统啸叫点检测方法，

其特征在于，步骤b中，在对定义的神经网络模型进行训练时，将频域数据FData(1,2,3,4,…m)作为神经网络模型的输入，将可能的啸叫点的频率作为模型的输出，对神经网络模型进行训练，使其收敛，将训练后的神经网络模型作为啸叫点识别模型。