CN111526469A - 一种基于神经网络的扩声系统啸叫点检测方法 - Google Patents
一种基于神经网络的扩声系统啸叫点检测方法 Download PDFInfo
- Publication number
- CN111526469A CN111526469A CN202010366924.9A CN202010366924A CN111526469A CN 111526469 A CN111526469 A CN 111526469A CN 202010366924 A CN202010366924 A CN 202010366924A CN 111526469 A CN111526469 A CN 111526469A
- Authority
- CN
- China
- Prior art keywords
- howling
- neural network
- model
- data
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 230000003321 amplification Effects 0.000 title claims abstract description 19
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及音频信号处理技术,其公开了一种基于神经网络的扩声系统啸叫点检测方法,解决传统技术中存在对啸叫点的误判、漏判,无法准确的跟踪和检测到啸叫点的问题。该方法包括以下步骤:a.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;b.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;c.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
Description
技术领域
本发明涉及音频信号处理技术,具体涉及一种基于神经网络的扩声系统啸叫点检测方法。
背景技术
在一些场景下,如会议,学校教学场景等,若讲话人的声音不能覆盖到所有区域,此时就需要有扩声系统的辅助,将讲话人的声音通过麦克风拾音后,经过一个处理设备,对音频数据做一些处理后,再通过功放放大,经过音响将声音播放出去,这样达到增强讲话人声音强度的效果。
扩声系统普遍面临一个问题就是啸叫问题,啸叫产生的原因是声音经过麦克风拾音进入扩声系统后,再通过扩声系统将声音输出到功放,功放将声音放大后,输出到音响,由于在一个密闭的空间内,扩大的声音经过反射后,再次进入麦克风,导致声音叠加,不断循环产生啸叫。
目前解决啸叫的方法主要包括:调整距离法、频率均衡法、反馈抑制器法、移频法和陷波法。以上方法中,调整距离法,主要是依靠物理上将音箱和麦克风的距离进行控制,防止啸叫。频率均衡法,反馈抑制器法,移频法均对声音信号做处理,会导致音频信号声音损失,处理后的声音保真度不高,适合对声音要求较低的场合使用。陷波法对声音的损失最小,也是常用的一种啸叫抑制方法,其原理是在识别出啸叫点后,通过陷波的方法对啸叫频点进行精确抑制,这样就能有效的提高扩声系统的声音,防止啸叫。
陷波法的难点在于如何判断识别啸叫点,也即对啸叫点的跟踪识别。传统技术中对啸叫点的识别通常是将声音的时域语音信号通过FFT(快速傅里叶变换)处理后得到频域数据,然后观察频域数据中的频点的幅值是否持续增大,或者频点的能量是否在持续增加,或者频域的峰均比等方式来判断是否是啸叫点。此方案存在啸叫点识别得不够及时、啸叫点的判断准确率不高,存在误判,漏判的情况,给实际使用带来不好的体验。
发明内容
本发明所要解决的技术问题是:提出一种基于神经网络的扩声系统啸叫点检测方法,解决传统技术中存在对啸叫点的误判、漏判,无法准确的跟踪和检测到啸叫点的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于神经网络的扩声系统啸叫点检测方法,包括以下步骤:
a.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;
b.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;
c.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
作为进一步优化,步骤a中,所述采集音频数据进行FFT变换后进行啸叫频点的标记,具体包括:
采集m份音频数据得到Data(1,2,3,4…m),将每份原始数据经过FFT变换后,得到频域数据FData(1,2,3,4,…m),标记每一份频域数据中的啸叫频点。
作为进一步优化,步骤b中,所述神经网络模型采用RNN或CNN模型,在RNN或CNN模型基础上定义神经网络的层数和激活函数。
作为进一步优化,步骤b中,在对定义的神经网络模型进行训练时,将频域数据FData(1,2,3,4,…m)作为神经网络模型的输入,将可能的啸叫点的频率作为模型的输出,对神经网络模型进行训练,使其收敛,将训练后的神经网络模型作为啸叫点识别模型。
本发明的有益效果是:
通过大量数据样本训练神经网络得到啸叫点识别模型,将啸叫点识别模型应用于实际中对音频数据的啸叫点识别和跟踪,从而快速、准确检测出啸叫点,以便能够通过陷波法进行准确的频点抑制,提升扩声系统的使用效果。神经网络具有很强的自学习功能和快速寻找优化解的能力,从而克服传统技术中对啸叫点的误判、漏判等问题。
附图说明
图1为本发明中的啸叫点检测方法流程图;
图2为神经网络模型的结构图;
图3为神经网络模型的训练过程图。
具体实施方式
本发明旨在提出一种基于神经网络的扩声系统啸叫点检测方法,解决传统技术中存在对啸叫点的误判、漏判,无法准确的跟踪和检测到啸叫点的问题。其核心思想是:通过大量采集的样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型,将啸叫点识别模型应用于实际中对音频数据的啸叫点识别和跟踪,从而快速、准确检测出啸叫点。
在具体实现上,本发明中的基于神经网络的扩声系统啸叫点检测方法流程如图1所示,其包括以下实现步骤:
1.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;
数字信号处理中,我们一般将音频数据分时域数据和频域数据,时域数据是扩声系统通过硬件的ADC模拟到数字信号转换后采集到的数据,也是音频的原始数据。频域数据是音频的时域数据经过FFT变换得到的数据,频域数据让我们能更方便的分析音频数据。
为了获得样本数据,我们首先采集神经网络训练需要的原始数据,采集m份(考虑到训练的模型的准确性,这里的m值尽量大),得到Data(1,2,3,4….m),将每份原始数据经过FFT变换后,得到频域数据FData(1,2,3,4,…m),对每一份频域数据进行标记,标记频域数据中的啸叫频点。
假设我们设定原始数据的采样频率为Freq,FFT变换的分辨率为Freq,则生成的FData为包含频率成分为1到Freq/2的Freq/2个点数据。
2.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;
神经网络模型可以选用RNN,CNN等目前比较经典的神经网络模型,在RNN,CNN模型基础上定义神经网络的层数和激活函数等,神经网络模型的结构如图2所示。
神经网络模型的输入为频域数据的Freq/2个点,神经网络的隐藏层数为LayerN,每层的神经元个数定义为Neurons(N),输出层的输出个数为K个AData。AData为可能的啸叫点的频率。
在定义好模型后,我们可以通过将m份的频域数据FData(1,2,3,4,…m)输入到定义好的神经网络的训练模型进行训练,最终使训练模型输出的频率啸叫点数据和真实数据无限接近,即达到模型收敛,训练过程如图3所示。训练完成后,我们会得到一组训练好的模型参数Wdata,应用此组模型参数的模型就作为我们需要的啸叫点识别模型。
3.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
在实际应用中,我们将啸叫点识别模型到实际系统中,采集待处理的音频原始数据,做FFT变换,变换后将频域数据作为神经网络的输入层数据,输出层将得到啸叫点的频率。获得啸叫点的频率后,便能够通过陷波法进行准确的频点抑制,提升扩声系统的使用效果。
Claims (4)
1.一种基于神经网络的扩声系统啸叫点检测方法,其特征在于,包括以下步骤:
a.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;
b.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;
c.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
2.如权利要求1所述的一种基于神经网络的扩声系统啸叫点检测方法,其特征在于,
步骤a中,所述采集音频数据进行FFT变换后进行啸叫频点的标记,具体包括:
采集m份音频数据得到Data(1,2,3,4…m),将每份原始数据经过FFT变换后,得到频域数据FData(1,2,3,4,…m),标记每一份频域数据中的啸叫频点。
3.如权利要求1所述的一种基于神经网络的扩声系统啸叫点检测方法,其特征在于,
步骤b中,所述神经网络模型采用RNN或CNN模型,在RNN或CNN模型基础上定义神经网络的层数和激活函数。
4.如权利要求1-3任意一项所述的一种基于神经网络的扩声系统啸叫点检测方法,
其特征在于,步骤b中,在对定义的神经网络模型进行训练时,将频域数据FData(1,2,3,4,…m)作为神经网络模型的输入,将可能的啸叫点的频率作为模型的输出,对神经网络模型进行训练,使其收敛,将训练后的神经网络模型作为啸叫点识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010366924.9A CN111526469A (zh) | 2020-04-30 | 2020-04-30 | 一种基于神经网络的扩声系统啸叫点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010366924.9A CN111526469A (zh) | 2020-04-30 | 2020-04-30 | 一种基于神经网络的扩声系统啸叫点检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111526469A true CN111526469A (zh) | 2020-08-11 |
Family
ID=71905215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010366924.9A Pending CN111526469A (zh) | 2020-04-30 | 2020-04-30 | 一种基于神经网络的扩声系统啸叫点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111526469A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112225026A (zh) * | 2020-10-30 | 2021-01-15 | 江苏蒙哥马利电梯有限公司 | 一种基于声信号的电梯按需维保方法 |
CN112669868A (zh) * | 2020-12-23 | 2021-04-16 | 广州智讯通信系统有限公司 | 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质 |
CN115243162A (zh) * | 2022-07-14 | 2022-10-25 | 中国科学院声学研究所 | 一种基于深度学习的闭环系统声反馈抑制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0937383A (ja) * | 1995-07-20 | 1997-02-07 | Nec Corp | ハウリング防止回路 |
US20100166200A1 (en) * | 2005-03-31 | 2010-07-01 | Polycom, Inc. | Feedback Elimination Method and Apparatus |
CN108449493A (zh) * | 2018-03-12 | 2018-08-24 | 广东欧珀移动通信有限公司 | 语音通话数据处理方法、装置、存储介质及移动终端 |
EP3409028A1 (en) * | 2016-01-26 | 2018-12-05 | Soundchip SA | Method and apparatus for testing earphone apparatus |
CN109218957A (zh) * | 2018-10-23 | 2019-01-15 | 北京达佳互联信息技术有限公司 | 啸叫检测方法、装置、电子设备及存储介质 |
CN109788400A (zh) * | 2019-03-06 | 2019-05-21 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质 |
CN110234051A (zh) * | 2019-06-27 | 2019-09-13 | 中科上声(苏州)电子有限公司 | 一种基于深度学习的防啸叫扩声方法及系统 |
WO2019216975A1 (en) * | 2018-05-07 | 2019-11-14 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things |
US20200023189A1 (en) * | 2016-12-14 | 2020-01-23 | Inner Cosmos Llc | Brain computer interface systems and methods of use thereof |
-
2020
- 2020-04-30 CN CN202010366924.9A patent/CN111526469A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0937383A (ja) * | 1995-07-20 | 1997-02-07 | Nec Corp | ハウリング防止回路 |
US20100166200A1 (en) * | 2005-03-31 | 2010-07-01 | Polycom, Inc. | Feedback Elimination Method and Apparatus |
EP3409028A1 (en) * | 2016-01-26 | 2018-12-05 | Soundchip SA | Method and apparatus for testing earphone apparatus |
US20200023189A1 (en) * | 2016-12-14 | 2020-01-23 | Inner Cosmos Llc | Brain computer interface systems and methods of use thereof |
CN108449493A (zh) * | 2018-03-12 | 2018-08-24 | 广东欧珀移动通信有限公司 | 语音通话数据处理方法、装置、存储介质及移动终端 |
WO2019216975A1 (en) * | 2018-05-07 | 2019-11-14 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things |
CN109218957A (zh) * | 2018-10-23 | 2019-01-15 | 北京达佳互联信息技术有限公司 | 啸叫检测方法、装置、电子设备及存储介质 |
CN109788400A (zh) * | 2019-03-06 | 2019-05-21 | 哈尔滨工业大学(深圳) | 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质 |
CN110234051A (zh) * | 2019-06-27 | 2019-09-13 | 中科上声(苏州)电子有限公司 | 一种基于深度学习的防啸叫扩声方法及系统 |
Non-Patent Citations (2)
Title |
---|
J. FLOCON-CHOLET, J. FAURE, A. GUÉRIN AND P. SCALART: "A robust howling detection algorithm based on a statistical approach", 《2014 14TH INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT (IWAENC)》 * |
汤磊: "现场扩声的反馈抑制", 《演艺科技》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112225026A (zh) * | 2020-10-30 | 2021-01-15 | 江苏蒙哥马利电梯有限公司 | 一种基于声信号的电梯按需维保方法 |
CN112225026B (zh) * | 2020-10-30 | 2022-05-24 | 江苏蒙哥马利电梯有限公司 | 一种基于声信号的电梯按需维保方法 |
CN112669868A (zh) * | 2020-12-23 | 2021-04-16 | 广州智讯通信系统有限公司 | 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质 |
CN112669868B (zh) * | 2020-12-23 | 2021-11-26 | 广州智讯通信系统有限公司 | 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质 |
CN115243162A (zh) * | 2022-07-14 | 2022-10-25 | 中国科学院声学研究所 | 一种基于深度学习的闭环系统声反馈抑制方法 |
CN115243162B (zh) * | 2022-07-14 | 2023-09-29 | 中国科学院声学研究所 | 一种基于深度学习的闭环系统声反馈抑制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111526469A (zh) | 一种基于神经网络的扩声系统啸叫点检测方法 | |
CN101762806B (zh) | 声源定位方法和装置 | |
CN107919133A (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
CN111429939B (zh) | 一种双声源的声音信号分离方法和拾音器 | |
CN108109617A (zh) | 一种远距离拾音方法 | |
CN107274911A (zh) | 一种基于声音特征的相似度分析方法 | |
CN113490115A (zh) | 一种基于声纹识别技术的声反馈抑制方法及系统 | |
CN108632711A (zh) | 扩声系统增益自适应控制方法 | |
CN113472390A (zh) | 一种基于深度学习的跳频信号参数估计方法 | |
CN110718229A (zh) | 录音回放攻击的检测方法及对应检测模型的训练方法 | |
Imoto | Acoustic scene classification using multichannel observation with partially missing channels | |
Nguyen et al. | Real-time sound localization using field-programmable gate arrays | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
CN114333874B (zh) | 处理音频信号的方法 | |
Shen et al. | RFMic-phone: Robust sound acquisition combining millimeter-wave radar and microphone | |
CN113936687B (zh) | 一种实时语音分离语音转写的方法 | |
CN110211606A (zh) | 一种语音认证系统的重放攻击检测方法 | |
WO2020238703A1 (zh) | 获取语音信号的方法及装置 | |
CN105676167B (zh) | 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法 | |
CN113345421B (zh) | 一种基于角度谱特征的多通道远场的目标语音识别方法 | |
Ma et al. | Acoustic scene classification based on binaural deep scattering spectra with neural network | |
Wang et al. | Robust direction-of-arrival estimation for a target speaker based on multi-task U-net based direct-path dominance test | |
Pan et al. | Application of hidden Markov models in speech command recognition | |
Saruwatari et al. | Semi-blind speech extraction for robot using visual information and noise statistics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |
|
RJ01 | Rejection of invention patent application after publication |