CN111526469A - 一种基于神经网络的扩声系统啸叫点检测方法 - Google Patents

一种基于神经网络的扩声系统啸叫点检测方法 Download PDF

Info

Publication number
CN111526469A
CN111526469A CN202010366924.9A CN202010366924A CN111526469A CN 111526469 A CN111526469 A CN 111526469A CN 202010366924 A CN202010366924 A CN 202010366924A CN 111526469 A CN111526469 A CN 111526469A
Authority
CN
China
Prior art keywords
howling
neural network
model
data
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010366924.9A
Other languages
English (en)
Inventor
吴道远
迟景立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Qianli Network Technology Co ltd
Original Assignee
Chengdu Qianli Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Qianli Network Technology Co ltd filed Critical Chengdu Qianli Network Technology Co ltd
Priority to CN202010366924.9A priority Critical patent/CN111526469A/zh
Publication of CN111526469A publication Critical patent/CN111526469A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及音频信号处理技术,其公开了一种基于神经网络的扩声系统啸叫点检测方法,解决传统技术中存在对啸叫点的误判、漏判,无法准确的跟踪和检测到啸叫点的问题。该方法包括以下步骤:a.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;b.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;c.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。

Description

一种基于神经网络的扩声系统啸叫点检测方法
技术领域
本发明涉及音频信号处理技术,具体涉及一种基于神经网络的扩声系统啸叫点检测方法。
背景技术
在一些场景下,如会议,学校教学场景等,若讲话人的声音不能覆盖到所有区域,此时就需要有扩声系统的辅助,将讲话人的声音通过麦克风拾音后,经过一个处理设备,对音频数据做一些处理后,再通过功放放大,经过音响将声音播放出去,这样达到增强讲话人声音强度的效果。
扩声系统普遍面临一个问题就是啸叫问题,啸叫产生的原因是声音经过麦克风拾音进入扩声系统后,再通过扩声系统将声音输出到功放,功放将声音放大后,输出到音响,由于在一个密闭的空间内,扩大的声音经过反射后,再次进入麦克风,导致声音叠加,不断循环产生啸叫。
目前解决啸叫的方法主要包括:调整距离法、频率均衡法、反馈抑制器法、移频法和陷波法。以上方法中,调整距离法,主要是依靠物理上将音箱和麦克风的距离进行控制,防止啸叫。频率均衡法,反馈抑制器法,移频法均对声音信号做处理,会导致音频信号声音损失,处理后的声音保真度不高,适合对声音要求较低的场合使用。陷波法对声音的损失最小,也是常用的一种啸叫抑制方法,其原理是在识别出啸叫点后,通过陷波的方法对啸叫频点进行精确抑制,这样就能有效的提高扩声系统的声音,防止啸叫。
陷波法的难点在于如何判断识别啸叫点,也即对啸叫点的跟踪识别。传统技术中对啸叫点的识别通常是将声音的时域语音信号通过FFT(快速傅里叶变换)处理后得到频域数据,然后观察频域数据中的频点的幅值是否持续增大,或者频点的能量是否在持续增加,或者频域的峰均比等方式来判断是否是啸叫点。此方案存在啸叫点识别得不够及时、啸叫点的判断准确率不高,存在误判,漏判的情况,给实际使用带来不好的体验。
发明内容
本发明所要解决的技术问题是:提出一种基于神经网络的扩声系统啸叫点检测方法,解决传统技术中存在对啸叫点的误判、漏判,无法准确的跟踪和检测到啸叫点的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于神经网络的扩声系统啸叫点检测方法,包括以下步骤:
a.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;
b.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;
c.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
作为进一步优化,步骤a中,所述采集音频数据进行FFT变换后进行啸叫频点的标记,具体包括:
采集m份音频数据得到Data(1,2,3,4…m),将每份原始数据经过FFT变换后,得到频域数据FData(1,2,3,4,…m),标记每一份频域数据中的啸叫频点。
作为进一步优化,步骤b中,所述神经网络模型采用RNN或CNN模型,在RNN或CNN模型基础上定义神经网络的层数和激活函数。
作为进一步优化,步骤b中,在对定义的神经网络模型进行训练时,将频域数据FData(1,2,3,4,…m)作为神经网络模型的输入,将可能的啸叫点的频率作为模型的输出,对神经网络模型进行训练,使其收敛,将训练后的神经网络模型作为啸叫点识别模型。
本发明的有益效果是:
通过大量数据样本训练神经网络得到啸叫点识别模型,将啸叫点识别模型应用于实际中对音频数据的啸叫点识别和跟踪,从而快速、准确检测出啸叫点,以便能够通过陷波法进行准确的频点抑制,提升扩声系统的使用效果。神经网络具有很强的自学习功能和快速寻找优化解的能力,从而克服传统技术中对啸叫点的误判、漏判等问题。
附图说明
图1为本发明中的啸叫点检测方法流程图;
图2为神经网络模型的结构图;
图3为神经网络模型的训练过程图。
具体实施方式
本发明旨在提出一种基于神经网络的扩声系统啸叫点检测方法,解决传统技术中存在对啸叫点的误判、漏判,无法准确的跟踪和检测到啸叫点的问题。其核心思想是:通过大量采集的样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型,将啸叫点识别模型应用于实际中对音频数据的啸叫点识别和跟踪,从而快速、准确检测出啸叫点。
在具体实现上,本发明中的基于神经网络的扩声系统啸叫点检测方法流程如图1所示,其包括以下实现步骤:
1.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;
数字信号处理中,我们一般将音频数据分时域数据和频域数据,时域数据是扩声系统通过硬件的ADC模拟到数字信号转换后采集到的数据,也是音频的原始数据。频域数据是音频的时域数据经过FFT变换得到的数据,频域数据让我们能更方便的分析音频数据。
为了获得样本数据,我们首先采集神经网络训练需要的原始数据,采集m份(考虑到训练的模型的准确性,这里的m值尽量大),得到Data(1,2,3,4….m),将每份原始数据经过FFT变换后,得到频域数据FData(1,2,3,4,…m),对每一份频域数据进行标记,标记频域数据中的啸叫频点。
假设我们设定原始数据的采样频率为Freq,FFT变换的分辨率为Freq,则生成的FData为包含频率成分为1到Freq/2的Freq/2个点数据。
2.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;
神经网络模型可以选用RNN,CNN等目前比较经典的神经网络模型,在RNN,CNN模型基础上定义神经网络的层数和激活函数等,神经网络模型的结构如图2所示。
神经网络模型的输入为频域数据的Freq/2个点,神经网络的隐藏层数为LayerN,每层的神经元个数定义为Neurons(N),输出层的输出个数为K个AData。AData为可能的啸叫点的频率。
在定义好模型后,我们可以通过将m份的频域数据FData(1,2,3,4,…m)输入到定义好的神经网络的训练模型进行训练,最终使训练模型输出的频率啸叫点数据和真实数据无限接近,即达到模型收敛,训练过程如图3所示。训练完成后,我们会得到一组训练好的模型参数Wdata,应用此组模型参数的模型就作为我们需要的啸叫点识别模型。
3.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
在实际应用中,我们将啸叫点识别模型到实际系统中,采集待处理的音频原始数据,做FFT变换,变换后将频域数据作为神经网络的输入层数据,输出层将得到啸叫点的频率。获得啸叫点的频率后,便能够通过陷波法进行准确的频点抑制,提升扩声系统的使用效果。

Claims (4)

1.一种基于神经网络的扩声系统啸叫点检测方法,其特征在于,包括以下步骤:
a.采集音频数据进行FFT转换后进行啸叫频点的标记,形成样本数据;
b.基于样本数据对定义的神经网络模型进行训练,获得啸叫点识别模型;
c.在实际应用中,将待处理的音频数据经过FFT转换后的频域数据作为输入,通过啸叫点识别模型输出啸叫点频率的识别结果。
2.如权利要求1所述的一种基于神经网络的扩声系统啸叫点检测方法,其特征在于,
步骤a中,所述采集音频数据进行FFT变换后进行啸叫频点的标记,具体包括:
采集m份音频数据得到Data(1,2,3,4…m),将每份原始数据经过FFT变换后,得到频域数据FData(1,2,3,4,…m),标记每一份频域数据中的啸叫频点。
3.如权利要求1所述的一种基于神经网络的扩声系统啸叫点检测方法,其特征在于,
步骤b中,所述神经网络模型采用RNN或CNN模型,在RNN或CNN模型基础上定义神经网络的层数和激活函数。
4.如权利要求1-3任意一项所述的一种基于神经网络的扩声系统啸叫点检测方法,
其特征在于,步骤b中,在对定义的神经网络模型进行训练时,将频域数据FData(1,2,3,4,…m)作为神经网络模型的输入,将可能的啸叫点的频率作为模型的输出,对神经网络模型进行训练,使其收敛,将训练后的神经网络模型作为啸叫点识别模型。
CN202010366924.9A 2020-04-30 2020-04-30 一种基于神经网络的扩声系统啸叫点检测方法 Pending CN111526469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010366924.9A CN111526469A (zh) 2020-04-30 2020-04-30 一种基于神经网络的扩声系统啸叫点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010366924.9A CN111526469A (zh) 2020-04-30 2020-04-30 一种基于神经网络的扩声系统啸叫点检测方法

Publications (1)

Publication Number Publication Date
CN111526469A true CN111526469A (zh) 2020-08-11

Family

ID=71905215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010366924.9A Pending CN111526469A (zh) 2020-04-30 2020-04-30 一种基于神经网络的扩声系统啸叫点检测方法

Country Status (1)

Country Link
CN (1) CN111526469A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112225026A (zh) * 2020-10-30 2021-01-15 江苏蒙哥马利电梯有限公司 一种基于声信号的电梯按需维保方法
CN112669868A (zh) * 2020-12-23 2021-04-16 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN115243162A (zh) * 2022-07-14 2022-10-25 中国科学院声学研究所 一种基于深度学习的闭环系统声反馈抑制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0937383A (ja) * 1995-07-20 1997-02-07 Nec Corp ハウリング防止回路
US20100166200A1 (en) * 2005-03-31 2010-07-01 Polycom, Inc. Feedback Elimination Method and Apparatus
CN108449493A (zh) * 2018-03-12 2018-08-24 广东欧珀移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
EP3409028A1 (en) * 2016-01-26 2018-12-05 Soundchip SA Method and apparatus for testing earphone apparatus
CN109218957A (zh) * 2018-10-23 2019-01-15 北京达佳互联信息技术有限公司 啸叫检测方法、装置、电子设备及存储介质
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN110234051A (zh) * 2019-06-27 2019-09-13 中科上声(苏州)电子有限公司 一种基于深度学习的防啸叫扩声方法及系统
WO2019216975A1 (en) * 2018-05-07 2019-11-14 Strong Force Iot Portfolio 2016, Llc Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things
US20200023189A1 (en) * 2016-12-14 2020-01-23 Inner Cosmos Llc Brain computer interface systems and methods of use thereof

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0937383A (ja) * 1995-07-20 1997-02-07 Nec Corp ハウリング防止回路
US20100166200A1 (en) * 2005-03-31 2010-07-01 Polycom, Inc. Feedback Elimination Method and Apparatus
EP3409028A1 (en) * 2016-01-26 2018-12-05 Soundchip SA Method and apparatus for testing earphone apparatus
US20200023189A1 (en) * 2016-12-14 2020-01-23 Inner Cosmos Llc Brain computer interface systems and methods of use thereof
CN108449493A (zh) * 2018-03-12 2018-08-24 广东欧珀移动通信有限公司 语音通话数据处理方法、装置、存储介质及移动终端
WO2019216975A1 (en) * 2018-05-07 2019-11-14 Strong Force Iot Portfolio 2016, Llc Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things
CN109218957A (zh) * 2018-10-23 2019-01-15 北京达佳互联信息技术有限公司 啸叫检测方法、装置、电子设备及存储介质
CN109788400A (zh) * 2019-03-06 2019-05-21 哈尔滨工业大学(深圳) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
CN110234051A (zh) * 2019-06-27 2019-09-13 中科上声(苏州)电子有限公司 一种基于深度学习的防啸叫扩声方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. FLOCON-CHOLET, J. FAURE, A. GUÉRIN AND P. SCALART: "A robust howling detection algorithm based on a statistical approach", 《2014 14TH INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT (IWAENC)》 *
汤磊: "现场扩声的反馈抑制", 《演艺科技》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112225026A (zh) * 2020-10-30 2021-01-15 江苏蒙哥马利电梯有限公司 一种基于声信号的电梯按需维保方法
CN112225026B (zh) * 2020-10-30 2022-05-24 江苏蒙哥马利电梯有限公司 一种基于声信号的电梯按需维保方法
CN112669868A (zh) * 2020-12-23 2021-04-16 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN112669868B (zh) * 2020-12-23 2021-11-26 广州智讯通信系统有限公司 基于指挥调度系统的语音啸叫抑制方法、设备、存储介质
CN115243162A (zh) * 2022-07-14 2022-10-25 中国科学院声学研究所 一种基于深度学习的闭环系统声反馈抑制方法
CN115243162B (zh) * 2022-07-14 2023-09-29 中国科学院声学研究所 一种基于深度学习的闭环系统声反馈抑制方法

Similar Documents

Publication Publication Date Title
CN111526469A (zh) 一种基于神经网络的扩声系统啸叫点检测方法
CN101762806B (zh) 声源定位方法和装置
CN107919133A (zh) 针对目标对象的语音增强系统及语音增强方法
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
CN108109617A (zh) 一种远距离拾音方法
CN107274911A (zh) 一种基于声音特征的相似度分析方法
CN113490115A (zh) 一种基于声纹识别技术的声反馈抑制方法及系统
CN108632711A (zh) 扩声系统增益自适应控制方法
CN113472390A (zh) 一种基于深度学习的跳频信号参数估计方法
CN110718229A (zh) 录音回放攻击的检测方法及对应检测模型的训练方法
Imoto Acoustic scene classification using multichannel observation with partially missing channels
Nguyen et al. Real-time sound localization using field-programmable gate arrays
CN111009259B (zh) 一种音频处理方法和装置
CN114333874B (zh) 处理音频信号的方法
Shen et al. RFMic-phone: Robust sound acquisition combining millimeter-wave radar and microphone
CN113936687B (zh) 一种实时语音分离语音转写的方法
CN110211606A (zh) 一种语音认证系统的重放攻击检测方法
WO2020238703A1 (zh) 获取语音信号的方法及装置
CN105676167B (zh) 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法
CN113345421B (zh) 一种基于角度谱特征的多通道远场的目标语音识别方法
Ma et al. Acoustic scene classification based on binaural deep scattering spectra with neural network
Wang et al. Robust direction-of-arrival estimation for a target speaker based on multi-task U-net based direct-path dominance test
Pan et al. Application of hidden Markov models in speech command recognition
Saruwatari et al. Semi-blind speech extraction for robot using visual information and noise statistics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication