CN111243616A - 一种基于自动增益的恒定音量输出方法 - Google Patents

一种基于自动增益的恒定音量输出方法 Download PDF

Info

Publication number
CN111243616A
CN111243616A CN202010020832.5A CN202010020832A CN111243616A CN 111243616 A CN111243616 A CN 111243616A CN 202010020832 A CN202010020832 A CN 202010020832A CN 111243616 A CN111243616 A CN 111243616A
Authority
CN
China
Prior art keywords
voice
gain
data
input
constant volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010020832.5A
Other languages
English (en)
Inventor
宣士斌
张�浩
宣彦庄
刘金宁
蒋荣萍
潘满英
王杰
秦续阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University for Nationalities
Original Assignee
Guangxi University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University for Nationalities filed Critical Guangxi University for Nationalities
Priority to CN202010020832.5A priority Critical patent/CN111243616A/zh
Publication of CN111243616A publication Critical patent/CN111243616A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

本发明公开了一种基于自动增益的恒定音量输出方法,包括以下步骤:S1.麦克风接收声音信号;S2.vad人声判断,丢弃非人声数据,并保留人声数据;S3.agc人声增益;S4.ns噪声降噪;S5.输出设备将处理后的声音信号输出。本方法所实现功能为在自由选择输入设备和输出设备的情况下,将输入设备输入的音频,进行噪声降噪,以及人声检测。在有人声的情况下,将输入的人声增益到设定的音量大小,当输入的人声音量小时,进行增大。当输入的人声音量大时,进行减小,将人声输出的音量始终增益到同一大小,以提升通话质量。

Description

一种基于自动增益的恒定音量输出方法
技术领域
本发明涉及一种基于自动增益的恒定音量输出方法。
背景技术
使用手机、电脑等数码设备进行远距离语音聊天时,如果设备不具有自动增益的功能,使用者听到的人声会发生忽大忽小的情况,大大降低了通话质量,并极大的影响了使用体验,。
但现有的绝大多数扩音或麦克风设备均不具有自动增益的功能,如果将其全部进行硬件更换,其需要较大的成本,且会造成社会公用资源的极大浪费。而基于软件层次的自动增益方法,可以在不更换硬件的情况下进行对声音的自动增益,以节约升级成本。
发明内容
本发明的目的是为了解决以上现有技术的不足,提出了一种基于自动增益的恒定音量输出方法。
一种基于自动增益的恒定音量输出方法,包括以下步骤:
S1.麦克风接收声音信号;
S2.vad人声判断,丢弃非人声数据,并保留人声数据;
S3.agc人声增益;
S4.ns噪声降噪;
S5.输出设备将处理后的声音信号输出。
具体流程如下:
alsaaudio获取linux设备中的PCM数据(设置采样率为44100通道数为1,表示单声道,宽度为2处理语音帧长度为320字节数据,也就是20ms声音长度,设定输入输出设备以及输出声音的长度模式等等)
使用webrtc_audio_processing库,对获取的声音进行处理(设定声音处理的模式,类型等先后进行vad人声检测,agc自动增益处理,agc通过VAD判断语音,对传入每段语音进项幅值的改变)。
其中agc处理过程如下:
1、根据输入的音频数据得到频率fs和样本数samples计算子帧长度,1ms长度以及毫米数M;
2、根据帧长和采样率继续分帧。将20ms的数据分成了低频16k的20ms数据和高频16k的20ms数据。使用这些子帧计算能量信息;
3、当麦克风的最大值大于模拟值就计算缓慢增益的序号对应的值;
4、获取了目标放大序号后,缓慢调整放大表序号,每次调整1单位,并且取出增益系数。
5、使用这个增益倍数对输入的声音数据进行使用,对输入信号计算长度为L的M个子帧的最大M个能量,作为信号包络,以及M个低频8K的能量。
6、最后对每一个subFrames计算VAD。
对音量进行增益,先通过零率和能量大小判断是否是低能信号。这里的能量大小判断主要是做VAD判决,保证处理的信号是语音而不是噪音。之后是根据输入麦克风等级计算出增益倍数,对声音数据进行线性的增益。
有益效果:
本方法所实现功能为在自由选择输入设备和输出设备的情况下,将输入设备输入的音频,进行噪声降噪,以及人声检测。在有人声的情况下,将输入的人声增益到设定的音量大小,当输入的人声音量小时,进行增大。当输入的人声音量大时,进行减小,将人声输出的音量始终增益到同一大小,以提升通话质量。
附图说明
图1是一种基于自动增益的恒定音量输出方法的流程图;
图2是一种基于自动增益的恒定音量输出方法的功能图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例和附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1-2所示,一种基于自动增益的恒定音量输出方法,包括以下步骤:
S1.麦克风接收声音信号;
S2.vad人声判断,丢弃非人声数据,并保留人声数据;
S3.agc人声增益;
S4.ns噪声降噪;
S5.输出设备将处理后的声音信号输出。
具体流程如下:
alsaaudio获取linux设备中的PCM数据(设置采样率为44100通道数为1,表示单声道,宽度为2处理语音帧长度为320字节数据,也就是20ms声音长度,设定输入输出设备以及输出声音的长度模式等等)
使用webrtc_audio_processing库,对获取的声音进行处理(设定声音处理的模式,类型等先后进行vad人声检测,agc自动增益处理,agc通过VAD判断语音,对传入每段语音进项幅值的改变)。
其中agc处理过程如下:
1、根据输入的音频数据得到频率fs和样本数samples计算子帧长度,1ms长度以及毫米数M;
2、根据帧长和采样率继续分帧。将20ms的数据分成了低频16k的20ms数据和高频16k的20ms数据。使用这些子帧计算能量信息;
3、当麦克风的最大值大于模拟值就计算缓慢增益的序号对应的值;
4、获取了目标放大序号后,缓慢调整放大表序号,每次调整1单位,并且取出增益系数。
5、使用这个增益倍数对输入的声音数据进行使用,对输入信号计算长度为L的M个子帧的最大M个能量,作为信号包络,以及M个低频8K的能量。
6、最后对每一个subFrames计算VAD。
对音量进行增益,先通过零率和能量大小判断是否是低能信号。这里的能量大小判断主要是做VAD判决,保证处理的信号是语音而不是噪音。之后是根据输入麦克风等级计算出增益倍数,对声音数据进行线性的增益。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于自动增益的恒定音量输出方法,其特征在于,包括以下步骤:
S1.麦克风接收声音信号;
S2.vad人声判断,丢弃非人声数据,并保留人声数据;
S3.agc人声增益;
S4.ns噪声降噪;
S5.输出设备将处理后的声音信号输出。
2.根据权利要求1所述的一种基于自动增益的恒定音量输出方法,其特征在于,其中S3中agc人声增益具体包括以下步骤:
①、根据输入的音频数据得到频率fs和样本数samples计算子帧长度,1ms长度以及毫米数M;
②、根据帧长和采样率继续分帧,将20ms的数据分成了低频16k的20ms数据和高频16k的20ms数据,使用这些子帧计算能量信息;
③、当麦克风的最大值大于模拟值就计算缓慢增益的序号对应的值;
④、获取了目标放大序号后,缓慢调整放大表序号,每次调整1单位,并且取出增益系数;
⑤、使用这个增益倍数对输入的声音数据进行使用,对输入信号计算长度为L的M个子帧的最大M个能量,作为信号包络,以及M个低频8K的能量。
3.根据权利要求1所述的一种基于自动增益的恒定音量输出方法,其特征在于,所述的麦克风为alsaaudio设备。
CN202010020832.5A 2020-01-09 2020-01-09 一种基于自动增益的恒定音量输出方法 Pending CN111243616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010020832.5A CN111243616A (zh) 2020-01-09 2020-01-09 一种基于自动增益的恒定音量输出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020832.5A CN111243616A (zh) 2020-01-09 2020-01-09 一种基于自动增益的恒定音量输出方法

Publications (1)

Publication Number Publication Date
CN111243616A true CN111243616A (zh) 2020-06-05

Family

ID=70868664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020832.5A Pending CN111243616A (zh) 2020-01-09 2020-01-09 一种基于自动增益的恒定音量输出方法

Country Status (1)

Country Link
CN (1) CN111243616A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669878A (zh) * 2020-12-23 2021-04-16 北京声智科技有限公司 声音增益值的计算方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457239A (zh) * 2010-11-02 2012-05-16 安凯(广州)微电子技术有限公司 一种增益控制系统及方法
CN105049968A (zh) * 2015-07-07 2015-11-11 深圳市东方智通科技有限公司 基于Android系统的集成数字音效处理式音响装置及其操作方法
CN105979460A (zh) * 2015-03-13 2016-09-28 西万拓私人有限公司 运行听力设备的方法以及听力设备
CN108573709A (zh) * 2017-03-09 2018-09-25 中移(杭州)信息技术有限公司 一种自动增益控制方法及装置
CN109792572A (zh) * 2016-09-28 2019-05-21 3M创新有限公司 自适应电子听力保护装置
CN110650410A (zh) * 2019-09-11 2020-01-03 厦门亿联网络技术股份有限公司 一种麦克风自动增益控制方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457239A (zh) * 2010-11-02 2012-05-16 安凯(广州)微电子技术有限公司 一种增益控制系统及方法
CN105979460A (zh) * 2015-03-13 2016-09-28 西万拓私人有限公司 运行听力设备的方法以及听力设备
CN105049968A (zh) * 2015-07-07 2015-11-11 深圳市东方智通科技有限公司 基于Android系统的集成数字音效处理式音响装置及其操作方法
CN109792572A (zh) * 2016-09-28 2019-05-21 3M创新有限公司 自适应电子听力保护装置
CN108573709A (zh) * 2017-03-09 2018-09-25 中移(杭州)信息技术有限公司 一种自动增益控制方法及装置
CN110650410A (zh) * 2019-09-11 2020-01-03 厦门亿联网络技术股份有限公司 一种麦克风自动增益控制方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669878A (zh) * 2020-12-23 2021-04-16 北京声智科技有限公司 声音增益值的计算方法、装置和电子设备
CN112669878B (zh) * 2020-12-23 2024-04-19 北京声智科技有限公司 声音增益值的计算方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN104200810B (zh) 自动增益控制装置及方法
CN108597498B (zh) 一种多麦克风语音采集方法及装置
CN110473567B (zh) 基于深度神经网络的音频处理方法、装置及存储介质
CN103871421B (zh) 一种基于子带噪声分析的自适应降噪方法与系统
TWI579834B (zh) 調整聲音清晰度強化的方法與系統
CN111149370B (zh) 会议系统中的啸叫检测
CN1271593C (zh) 一种语音信号检测方法
CN1783214A (zh) 混响估计和抑制系统
CN108833722A (zh) 语音识别方法、装置、计算机设备及存储介质
CN101185240A (zh) 用于音频信号增益控制的设备和方法
KR20140121447A (ko) 오디오 데이터 프로세싱을 위한 방법, 디바이스, 및 시스템
CN102547543B (zh) 增加听障者听到声音正确性的方法及助听器
US10466959B1 (en) Automatic volume leveler
GB2375935A (en) Speech quality indication
KR20100138804A (ko) 명료도 향상장치와 이를 이용한 음성출력장치
CN102498482A (zh) 用于自适应话音可懂度处理的系统
WO2023070792A1 (zh) 通话式门铃的音量均衡方法、设备和可读存储介质
US20240177726A1 (en) Speech enhancement
CN111243616A (zh) 一种基于自动增益的恒定音量输出方法
TWI451405B (zh) 增進語音即時輸出之方法及助聽器
CN112951251A (zh) 一种lc3音频混合方法、装置及存储介质
CN101600132B (zh) 在便携式手持设备上调节音频文件播放效果的方法及装置
CN112669878A (zh) 声音增益值的计算方法、装置和电子设备
CN1682280A (zh) 控制用来传送语音的信号中可能有害的信号的方法与系统
WO2023287782A1 (en) Data augmentation for speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200605