CN115050380A - 音频信号处理方法、耳机及计算机可读存储介质 - Google Patents
音频信号处理方法、耳机及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115050380A CN115050380A CN202210885684.2A CN202210885684A CN115050380A CN 115050380 A CN115050380 A CN 115050380A CN 202210885684 A CN202210885684 A CN 202210885684A CN 115050380 A CN115050380 A CN 115050380A
- Authority
- CN
- China
- Prior art keywords
- signal
- audio
- voice
- earphone
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 112
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012544 monitoring process Methods 0.000 claims abstract description 32
- 230000007613 environmental effect Effects 0.000 claims abstract description 16
- 230000002708 enhancing effect Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- BPPVUXSMLBXYGG-UHFFFAOYSA-N 4-[3-(4,5-dihydro-1,2-oxazol-3-yl)-2-methyl-4-methylsulfonylbenzoyl]-2-methyl-1h-pyrazol-3-one Chemical compound CC1=C(C(=O)C=2C(N(C)NC=2)=O)C=CC(S(C)(=O)=O)=C1C1=NOCC1 BPPVUXSMLBXYGG-UHFFFAOYSA-N 0.000 description 1
- 241001091551 Clio Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种音频信号处理方法、耳机及计算机可读存储介质,该耳机设置有麦克风,所述耳机的音频处理模式包括语音增强模式和环境音监听模式,该音频信号处理方法包括:获取所述麦克风实时采集到的音频信号,并提取所述音频信号中的音频特征;根据提取的音频特征进行语音信号识别;当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强;当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。本发明可以实现嘈杂环境中清晰通话以及静默环境下的环境音监听。
Description
技术领域
本发明涉及耳机领域,特别是涉及一种音频信号处理方法、耳机及计算机可读存储介质。
背景技术
随着科技的进步,单兵装备的样式越来越多,其中耳机就是单兵的重要装备之一。战场上最多的就是枪支射击时发出来的声音,还有各种火炮发出来的声音,这些枪弹声分贝都非常高,耳机可以很好的保护耳朵。同时通过耳机也可以判断敌人的动向,以及与队友进行语音交谈。
然而现有的耳机存在两个最大的问题是:
一,单兵所处的战场环境较为嘈杂,单兵在嘈杂环境很难可清晰听到人员通话的声音,通话效果差;
二,对环境音拾取能力差,难以满足战场需要,特别是解决侦查、隐蔽等作战环境对环境感知、声音判别、近距离监听等需求。
发明内容
鉴于上述状况,有必要针对现有技术中通话效果差以及环境监听难的问题,提供一种音频信号处理方法、耳机及计算机可读存储介质。
本发明公开了一种音频信号处理方法,应用于耳机中,所述耳机设置有麦克风,所述耳机的音频处理模式包括语音增强模式和环境音监听模式,所述音频信号处理方法包括:
获取所述麦克风实时采集到的音频信号,并提取所述音频信号中的音频特征;
根据提取的音频特征进行语音信号识别;
当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强;
当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。
进一步的,上述音频信号处理方法,其中,在所述语音增强模式下,所述耳机将获取到的音频信号中300Hz~4000Hz频段的信号进行增强;
在所述环境音监听模式下,所述耳机将获取到的音频信号中100Hz~8000Hz频段的信号进行增强。
进一步的,上述音频信号处理方法,其中,所述语音语音增强模式下,所述耳机还将300Hz~4000Hz频段之外的信号进行抑制;
所述环境音监听模式下,所述耳机还将100Hz~8000Hz频段之外的信号进行抑制。
进一步的,上述音频信号处理方法,其中,所述提取所述音频信号中的音频特征的步骤包括:
提取所述音频信号中每一帧信号的时域特征;
所述根据提取的音频特征进行语音信号识别的步骤包括:
根据提取的当前帧信号的时域特征计算所述当前帧信号的短时能量和过零指数;
当所述当前帧信号的短时能量大于或等于能量阈值,且所述当前帧信号的过零指数小于指数阈值时,确定所述当前帧信号中含有语音信号。
进一步的,上述音频信号处理方法,其中,所述语音信号或所述环境音信号通过后置滤波算法进行增强。
进一步的,上述音频信号处理方法,其中,所述耳机将获取到的音频信号中的语音信号或环境音信号进行增强后,通过自动电平控制电路将信号的强度控制在预设范围内进行输出。
本发明还公开了一种耳机,包括:麦克风、PGA模块、ADC模块、数据处理模块、DAC模块和功放,所述PGA模块用于对麦克风拾取的音频信号进行放大,所述ADC模块用于将模拟信号转换为数字信号,所述DAC模块用于将数字信号转换为模拟信号,所述数据处理模块包括:
提取单元,用于获取音频信号,并提取所述音频信号中的音频特征;
识别单元,用于根据提取的音频特征进行语音信号识别;
第一增强单元,用于当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强;
第二增强单元,用于当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。
进一步的,上述耳机,其中,在所述语音增强模式下,所述第一增强模块,用于将获取到的音频信号中300Hz~4000Hz频段的信号进行增强;
在所述环境音监听模式下,所述第二增强模块用于将获取到的音频信号中100Hz~8000Hz频段的信号进行增强。
进一步的,上述耳机,其中,所述数据处理模块还包括:
自动电平控制单元,用于通过自动电平控制电路将所述第一增强单元和第二增单元处理后的信号的强度控制在预设范围内,并输出。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的方法。
本发明通过对麦克风采集的音频信号进行判断,当音频信号中含有的语音信号时,自动切换到语音增强模式,对语音信号进行增强处理,抑制噪声部分,对有用语音信号进行提取与放大,实现嘈杂环境中清晰通话。当音频信号中含有的语音信号时,自动切换到环境音监听模式,通过高灵敏度的拾音麦克风捕获远距离下有效的音频信号进行增强,保障单兵在紧急环境下的声音方位感知能力,便于环境音感知和声源方位辨识。
附图说明
图1为本发明第一实施例提供的音频信号处理方法的流程图;
图2为拾音增强测试曲线;
图3为本发明第二实施例中的耳机的结构示意图;
图4为本发明第二实施例在数据处理模块的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
本发明实施例中的音频信号处理方法应用于耳机中,该耳机的音频处理模式包括语音增强模式和环境音监听模式。本发明通过对外界声音进行语音信号识别,当识别到语音信号时,对语音信号进行增强,实现在噪声环境中也能进行清晰的交流;当外界声音中含有的语音信号很少或几乎没有的情况下,自动切换到环境音监听模式,使士兵可以更好得感知周围和环境音。
请参阅图1,为本发明第一实施例中的音频信号处理方法,应用于耳机中,所述耳机设置有麦克风,所述耳机的音频处理模式包括语音增强模式和环境音监听模式,所述音频信号处理方法包括步骤S11~S14。
步骤S11,获取所述麦克风实时采集到的音频信号,并提取所述音频信号中的音频特征。
步骤S12,根据提取的音频特征进行语音信号识别。
可以理解的,耳机在进行语音通话时,麦克风采集到的音频信号包括通话中的语音信号,以及环境音信号。没有进行通话时,麦克风采集到的音频信号仅包含环境音信号。
具体的,在本发明的一实施例中,所述提取所述音频信号中的音频特征的步骤包括:
提取所述音频信号中每一帧信号的时域特征;
所述根据提取的音频特征进行语音信号识别的步骤包括:
根据提取的当前帧信号的时域特征计算所述当前帧信号的短时能量和过零指数;
当所述当前帧信号的短时能量大于或等于能量阈值,且所述当前帧信号的过零指数小于指数阈值时,确定所述当前帧信号中含有语音信号。
音频特征分为音频帧特征和音频段特征,语音原本具有短时特性,所以描述语音的单位用帧(一般为10ms~40ms),在音频帧上提取的短时音频特征,为音频帧特征,相对音频帧较长的时间间隔成为音频段,在音频段上提取的特征为音频段特征。
常用的音频帧特征分为三类:时域特征、频域特征和声学感知特征。本发明实施例中可提取出音频信号的时域特征,利用时域特征进行语音信号识别。
时域特征利用了音频信号在时域上面的信息,可以理解成横轴为时间,纵轴为音频信号。主要通过过零数、短时能量、音量、自相关系数等来描述音频信号在时间上的信息。
过零数指的是:音频信号由正到负、由负到正过程中,通过零的次数。应用于语音信号分析中,浊音具有较低的过零数,清音具有较高的过零数(发音时声带振动的是浊音,声带不振动的是清音)。
短时能量指的是:通过能量的计算方法用于监测浊音和清音的转换时刻。应用于语音信号分析中,短时能量大的地方过零数低,短时能量小的地方过零数高。
由于语音信号能量绝大部分包含在低频带内,而噪音信号通常能量较小且含有较高频段的信息,故而可以通过测量语音信号的过零数和短时能量这两个特征并且与两个门限(阈值)进行对比,从而判断语音信号与非语音信号。
基于语音片段短时能量(STE)(一帧语音信号的能量)较大、过零数(ZCC)(即一帧语音时域信号穿过0(时间轴)的次数)较小;而非语音片段短时能量(STE)较小、过零数(ZCC)较大的特征,可以将输入信号的数据分为20mS一个片段(一帧)进行计算,当采用8KHz采样率时,则每一帧包含160个样点数,对帧内数据求平方和即为该语音片段的短时能量;对帧内样点数平移1,再求对应两相邻样点的乘积,符号为负的则说明此处过零,只需将帧内所有负数乘积数目求出则得到该帧的过零数,计算公式如下:
式中,n为帧数,En为短时能量,x(m)为帧内数据,w(n)为窗口函数,N=160为数据帧样点数。
判定条件:
当En≥STE阈值,且Zn≤ZCC阈值时判定该帧含有语音信号;
当En<STE阈值,且Zn>ZCC阈值时判定该帧为环境音信号。
具体的,语音起始检测时,考擦语音的平均能量设置一个较高的门限T1,用以确定语音的开始,然后根据背景噪声的平均能量确定一个稍低的门限T2,用以确定第一级语音结束点。第二级判决同样根据背景噪声平均过零,设置一个门限T3,判断语音前段清音和后端尾音。
步骤S13,当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强。
步骤S14,当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。
当识别到音频信号中含有语音信号时,将耳机的音频处理模式切换为语音增强模式,当该音频信号中不含有语音信号(即为环境音信号)时,音频处理模式切换为环境音监听模式。
在语音增强模式下,将音频信号中的语音信号增强,具体实施时,将300Hz~4000Hz频段的信号进行增强,300Hz~4000Hz频段的信号是人语发音所在的频段。该模式下,单兵所处的战场环境较为嘈杂时,此时需将单兵语音信号放大,确保单兵在此环境下也能进行清晰的交流。
在环境音监听模式下,100Hz~8000Hz频段的信号进行增强,该频段为人耳可识别出的频率范畴。为了适应战场需要,特别是解决侦查、隐蔽等作战环境对环境感知、声音判别、近距离监听等需求,通过对环境音的增强,实现静默环境下的环境音感知、近距离语音监听,以及嘈杂环境降噪状态下的语音交谈。
具体的,语音信号或环境音信号可通过后置滤波算法进行增强。后置滤波算法的处理步骤如下。
(1)长时预测。
主要目的是利用语音的长时相关来加强当前的语音信号。
实现方法是在基音延迟附近搜索最佳基音延迟,利用历史解码出来的激励信号,对当前的激励信号做一个加权。
(2)共振峰感知加权,加强共振峰处的能量。
(3)倾斜被偿,修正因为共振峰感知加权引入的频谱倾斜。
(4)增益处理。
进一步的,在语音增强模式下,还将300Hz~4000Hz频段之外的信号进行抑制,以进一步增强语音信号;在环境音监听模式下,还将100Hz~8000Hz频段之外的信号进行抑制。
利用CLIO电声测试系统对本实施例中的耳机样品进行了智能语音增强和环境音增强切换摸底测试,结果表明满足300Hz~4000Hz语音增强和100Hz~8000Hz环境音增强的技术要求,增强曲线详见图2,其中,图2中,L1表示空场0dB的音频信号曲线,L2表示降噪曲线(即佩戴耳机时采集到的音频信号曲线),L3表示语音增强曲线,L4表示环境监听曲线。
本实施例,通过对麦克风采集的音频信号进行判断,当音频信号中含有的语音信号时,自动切换到语音增强模式,对语音信号进行增强处理,抑制噪声部分,对有用语音信号进行提取与放大,实现嘈杂环境中清晰通话。当音频信号中含有的语音信号时,自动切换到环境音监听模式,通过高灵敏度的拾音麦克风捕获远距离下有效的音频信号进行增强,保障单兵在紧急环境下的声音方位感知能力,便于环境音感知和声源方位辨识。
请参阅图3,为本发明第二实施例中耳机,包括麦克风21、PGA模块22、ADC模块23、数据处理模块24、DAC模块25和功放26。
PGA(Pmgrammable Gain Amplifier)模块22为可编程增益放大器,其放大倍数可以根据需要用程序进行控制。ADC模块23为模拟信号转数字信号,DAC模块25为数字信号转模拟信号。麦克风21拾取到音频信号后进行放大,并通过ADC模块23进行数字信号转换,转换后的音频信号输入至数据处理模块24中进行处理,处理后的信号再通过DAC模块25转换为模拟信号,并通过功放26输出。
如图4所示,该数据处理模块24,包括:
提取单元241,用于获取音频信号,并提取所述音频信号中的音频特征;
识别单元242,用于根据提取的音频特征进行语音信号识别;
第一增强单元243,用于当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强;
第二增强单元244,用于当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。
进一步的,上述耳机,其中,在所述语音增强模式下,所述第一增强单元243用于将获取到的音频信号中300Hz~4000Hz频段的信号进行增强;
在所述环境音监听模式下,所述第二增强单元244用于所述耳机将获取到的音频信号中100Hz~8000Hz频段的信号进行增强。
进一步的,上述耳机,其中,所述数据处理模块24还包括:
自动电平控制单元245,用于通过自动电平控制电路将所述第一增强单元和第二增单元处理后的信号的强度控制在预设范围内,并输出。
自动电平控制单元是针对由于器件本身变化,环境引起工作点变化等,在电路中加入的稳定电平的电路在一定范围内,ALC电路(自动电平控制电路)自动纠正偏移的电平回到要求的数值。ALC可用于自动控制输出给扬声器的功率,可防止扬声器过载并优化动态范围。
本发明实施例所提供的耳机,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的音频信号处理方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置中获取指令并执行指令的系统)使用,或结合这些指令执行系统、装置而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或结合这些指令执行系统、装置而使用的设备。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种音频信号处理方法,应用于耳机中,所述耳机设置有麦克风,其特征在于,所述耳机的音频处理模式包括语音增强模式和环境音监听模式,所述音频信号处理方法包括:
获取所述麦克风实时采集到的音频信号,并提取所述音频信号中的音频特征;
根据提取的音频特征进行语音信号识别;
当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强;
当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。
2.如权利要求1所述的音频信号处理方法,其特征在于,在所述语音增强模式下,所述耳机将获取到的音频信号中300Hz~4000Hz频段的信号进行增强;
在所述环境音监听模式下,所述耳机将获取到的音频信号中100Hz~8000Hz频段的信号进行增强。
3.如权利要求2所述的音频信号处理方法,其特征在于,所述语音语音增强模式下,所述耳机还将300Hz~4000Hz频段之外的信号进行抑制;
所述环境音监听模式下,所述耳机还将100Hz~8000Hz频段之外的信号进行抑制。
4.如权利要求1所述的音频信号处理方法,其特征在于,所述提取所述音频信号中的音频特征的步骤包括:
提取所述音频信号中每一帧信号的时域特征;
所述根据提取的音频特征进行语音信号识别的步骤包括:
根据提取的当前帧信号的时域特征计算所述当前帧信号的短时能量和过零指数;
当所述当前帧信号的短时能量大于或等于能量阈值,且所述当前帧信号的过零指数小于指数阈值时,确定所述当前帧信号中含有语音信号。
5.如权利要求1所述的音频信号处理方法,其特征在于,所述语音信号或所述环境音信号通过后置滤波算法进行增强。
6.如权利要求1所述的音频信号处理方法,其特征在于,所述耳机将获取到的音频信号中的语音信号或环境音信号进行增强后,通过自动电平控制电路将信号的强度控制在预设范围内进行输出。
7.一种耳机,其特征在于,包括:麦克风、PGA模块、ADC模块、数据处理模块、DAC模块和功放,所述PGA模块用于对麦克风拾取的音频信号进行放大,所述ADC模块用于将模拟信号转换为数字信号,所述DAC模块用于将数字信号转换为模拟信号,所述数据处理模块包括:
提取单元,用于获取音频信号,并提取所述音频信号中的音频特征;
识别单元,用于根据提取的音频特征进行语音信号识别;
第一增强单元,用于当识别出语音信号时,将所述音频处理模式切换为语音增强模式,在所述语音增强模式下,所述耳机将获取到的音频信号中的语音信号进行增强;
第二增强单元,用于当未识别出语音信号时,将所述音频处理模式切换为环境音监听模式,在所述环境音增强模式下,所述耳机将获取到的音频信号中的环境音信号进行增强。
8.如权利要求7所述的耳机,其特征在于,在所述语音增强模式下,所述第一增强模块,用于将获取到的音频信号中300Hz~4000Hz频段的信号进行增强;
在所述环境音监听模式下,所述第二增强模块用于将获取到的音频信号中100Hz~8000Hz频段的信号进行增强。
9.如权利要求7所述的耳机,其特征在于,所述数据处理模块还包括:
自动电平控制单元,用于通过自动电平控制电路将所述第一增强单元和第二增单元处理后的信号的强度控制在预设范围内,并输出。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210885684.2A CN115050380A (zh) | 2022-07-26 | 2022-07-26 | 音频信号处理方法、耳机及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210885684.2A CN115050380A (zh) | 2022-07-26 | 2022-07-26 | 音频信号处理方法、耳机及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115050380A true CN115050380A (zh) | 2022-09-13 |
Family
ID=83168030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210885684.2A Pending CN115050380A (zh) | 2022-07-26 | 2022-07-26 | 音频信号处理方法、耳机及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050380A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116614742A (zh) * | 2023-07-20 | 2023-08-18 | 江西红声技术有限公司 | 一种清晰语音送受话降噪耳机 |
-
2022
- 2022-07-26 CN CN202210885684.2A patent/CN115050380A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116614742A (zh) * | 2023-07-20 | 2023-08-18 | 江西红声技术有限公司 | 一种清晰语音送受话降噪耳机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5757937A (en) | Acoustic noise suppressor | |
JP4764995B2 (ja) | 雑音を含む音響信号の高品質化 | |
JP2995737B2 (ja) | 改良されたノイズ抑圧システム | |
US9196258B2 (en) | Spectral shaping for speech intelligibility enhancement | |
US8473282B2 (en) | Sound processing device and program | |
JP2002014689A (ja) | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 | |
CN103544961B (zh) | 语音信号处理方法及装置 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
US7539614B2 (en) | System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes | |
WO2013067145A1 (en) | Systems and methods for enhancing place-of-articulation features in frequency-lowered speech | |
CN113225657B (zh) | 基于双麦克风架构的多通道啸叫抑制方法 | |
CN106782586B (zh) | 一种音频信号处理方法及装置 | |
Itoh et al. | Environmental noise reduction based on speech/non-speech identification for hearing aids | |
CN115050380A (zh) | 音频信号处理方法、耳机及计算机可读存储介质 | |
CN106571148B (zh) | 一种音频信号自动增益控制方法及装置 | |
KR100450787B1 (ko) | 스펙트럼의동적영역정규화에의한음성특징추출장치및방법 | |
JPH09311696A (ja) | 自動利得調整装置 | |
EP2063420A1 (en) | Method and assembly to enhance the intelligibility of speech | |
CN114402388A (zh) | 上下文感知语音可懂度增强 | |
CN118379986B (zh) | 基于关键词的非标准语音识别方法、装置、设备及介质 | |
US11967334B2 (en) | Method for operating a hearing device based on a speech signal, and hearing device | |
Somarathne et al. | A Study of the Variation of Acoustic Properties of Signals Received by Used Mobile Phones | |
JPH0635498A (ja) | 音声認識装置及び方法 | |
Li et al. | Enhancement of non-air conduct speech based on multi-band spectral subtraction method | |
CN118782064A (zh) | 一种语音信号处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |