CN110473567A - 基于深度神经网络的音频处理方法、装置及存储介质 - Google Patents
基于深度神经网络的音频处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110473567A CN110473567A CN201910843603.0A CN201910843603A CN110473567A CN 110473567 A CN110473567 A CN 110473567A CN 201910843603 A CN201910843603 A CN 201910843603A CN 110473567 A CN110473567 A CN 110473567A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- speech
- gain compensation
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 40
- 238000003672 processing method Methods 0.000 title claims description 31
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 56
- 230000005236 sound signal Effects 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 210000002569 neuron Anatomy 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 14
- 239000000284 extract Substances 0.000 abstract description 3
- 230000010370 hearing loss Effects 0.000 description 17
- 231100000888 hearing loss Toxicity 0.000 description 17
- 208000016354 hearing loss disease Diseases 0.000 description 17
- 206010011878 Deafness Diseases 0.000 description 16
- 208000032041 Hearing impaired Diseases 0.000 description 13
- 238000003062 neural network model Methods 0.000 description 8
- 230000003321 amplification Effects 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/70—Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Fuzzy Systems (AREA)
- Automation & Control Theory (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种基于深度神经网络的语音处理方法,包括:获取基于深度神经网络的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果。
Description
技术领域
本申请涉及音频处理技术,更具体地,涉及一种基于深度神经网络的音频处理方法、装置及存储介质。
背景技术
辅助听力设备(又称为“助听器”)被广泛应用于听力障碍患者的听力补偿,其可以将听力障碍患者原本听不到的声音放大,再利用他们的残余听力,使声音能送到大脑听觉中枢,从而感觉到声音。
由于不同的听力障碍患者通常具有不同的听力图谱或听力损失图谱(其可以反映患者在不同音频频率上听力的不同程度的损失),因此传统的助听器通常会基于一些频率补偿算法来放大某些特定频率范围的音频信号,例如放大某些高频音频信号。然而,这些传统的听力补偿算法没有办法区分人声和背景噪声,因此在被放大的助听频带上,噪声会和人声一并放大,这会影响人声的收听和识别。
因此,有必要提供一种音频处理方法来解决现有技术存在的上述问题。
发明内容
本申请的一个目的在于提供一种基于深度神经网络的音频处理方法、装置与存储介质。
在本申请的一个方面,提供了一种基于深度神经网络的音频处理方法,所述音频处理方法包括:获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。
在本申请的另一方面,还提供了一种基于深度神经网络的音频处理装置,所述音频处理装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。
在本申请的又一方面,还提供了一种一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。
以上为本申请的概述,可能有简化、概括和省略细节的情况,因此本领域的技术人员应该认识到,该部分仅是示例说明性的,而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征,也非旨在用作为确定所要求保护主题的范围的辅助手段。
附图说明
通过下面说明书和所附的权利要求书并与附图结合,将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更加明确和详细地说明。
图1a示出了根据本申请一个实施例的示例性听力图谱;
图1b示出了根据本申请一个实施例的与图1a所示的听力图谱中的听力曲线对应的一组增益系数;
图2a示出了根据本申请一个实施例的语音提取模型的示例;
图2b示出了根据本申请另一实施例的语音提取模型的示例;
图3示出了根据本申请一个实施例的创建基于深度神经网络的语音提取模型的方法;
图4示出了根据本申请一个实施例的基于深度神经网络的音频处理方法;
图5a示出了混合了语音信号与非语音信号的示例性音频信号;
图5b和5c示出了现有音频处理方法对图5a所示的示例性音频信号进行处理的结果;
图5d示出了用本申请实施例的音频处理方法对图5a所示的示例性音频信号进行处理的结果。
具体实施方式
在下面的详细描述中,参考了构成其一部分的附图。在附图中,类似的符号通常表示类似的组成部分,除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下,可以采用其他实施方式,并且可以做出其他变化。可以理解,可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合,设计,而所有这些都明确地构成本申请内容的一部分。
图1a示出了根据本申请一个实施例的示例性听力图谱。可以理解,不同的听力损失患者可以具有不同的听力图谱。
如图1a所示,听力曲线C表示正常人耳的听力曲线,在250Hz至8000Hz的音频信号频率范围内,响度大体在15dB SPL以上的声音都可以被听到。听力曲线A和B则分别表示听力障碍患者的听力曲线,例如患者左耳和右耳的听力曲线。可以看出这两个听力曲线A和B相比于正常听力曲线C具有明显的听力损失。例如对于听力曲线A,当频率在1000Hz以下时,仅有响度在45dB SPL以上的声音才能够被听到;在2000Hz到3000Hz的频率范围,仅有响度在约85dB SPL以上的声音才能够被听到;而当频率在4000Hz以上时,基本上响度为120dBSPL的声音也无法被听到。类似地,对于听力曲线B,其听力损失相较于听力曲线A更为明显,在2000Hz以上的较高频率下,响度为120dB SPL的声音也无法被听到。在一些实施例中,将异常听力曲线补偿至正常听力曲线(例如以能够听到最小响度为20dB SPL的声音为例)所需的放大增益对应于听力损失,例如,对于曲线A而言,在250Hz至1000Hz的频带上,听力损失约为(45-20)dB SPL=25dB SPL。
由图1a所示的听力图谱可以看出,对于听力障碍患者而言,其听觉在不同的音频信号频率往往具有不同的听力损失,因此需要基于不同的频率提供不同的听力补偿。例如,对于听力曲线A和B,在低频带(例如频率小于1000Hz)可以对声音进行小幅度放大,而在高频带(例如频率大于1000Hz)提供较大幅度的放大,以此补偿高频范围上显著的听力损失。
由于听力补偿的目的在于补偿听力损失,以使得听力障碍患者能够较为理想地感受到外部声音,因此通常补偿处理后的声音通常希望处于一定的响度范围内,既不要太小也不要过大。相应地,在一些实施例中,在同一频率下,不同响度的声音期望可以被以不同的增益补偿系数放大或缩小。例如,在100Hz至200Hz的频率范围内,对于30至90dB SPL的声音可以进行小幅度放大,对于90至120dB SPL的声音可以进行小幅度缩小,而对于120dBSPL的声音可以进行限幅。这样,在达到声音补偿的目的的同时,可以保证处理后的声音不会听起来太响。换言之,听力损失的频率增益补偿优选地还随着响度的变化而变化。
可以采用各种已知算法来确定从听力图谱到不同频率下、不同响度对应的不同补偿增益值。在一些实施例中,可以利用宽频动态范围压缩算法(“Wide Dynamic RangeCompression”)确定补偿增益值。宽频动态范围压缩算法可以具有不同的映射公式来确定补偿增益值,例如2012年由澳大利亚国家声学实验室发布的针对非线性放大的NAL-NL2映射公式(参见https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4627149/)。
图1b示出了根据本申请一个实施例与图1a所示的听力图谱中的听力曲线B对应的一组增益补偿系数。
如图1b所示,横向为音频信号频率,而纵向为响度。相应地,该组增益补偿系数可以被表示为以音频频率和响度索引的二维增益系数矩阵。例如,在第一列,频率为125Hz,当输入音频信号的音量为50dB SPL时,可以对其放大3.25dB,而当输入音频信号的音量为80dB SPL时,可以不对其进行放大。再例如,在第十列,频率为1000Hz,当输入音频信号的音量为50dB SPL时,可以对其放大15.75dB,而当输入音频信号的音量为80dB SPL时,可以对其放大1.66dB。其他频率下类似,在此不再赘述。
可以理解,图1b所示的听力损失补偿方法可以有效补偿听力障碍患者的听力损失,但是其仍然不能够区分同频率下的语音信号和背景噪声。为了解决这一问题,本申请的发明人创造性地将深度神经网络技术与上述听力损失补偿方法相结合,通过设计特定的音频训练数据集来对深度神经网络的模型进行训练,从而使得经训练的深度神经网络模型能够根据音频输入对象适应性地进行增益补偿,并且能够在抑制音频输入对象中的背景噪声的同时放大语音信号。
图2a示出了根据本申请一个实施例的语音提取模型的示例。
如图2a所示,该语音提取模型采用了全连接神经网络的结构,其包括输入层、多个隐含层(子处理层,图中只示意性地示出了两个隐含层,在其他的实施例中,可以包括更多个隐含层)以及输出层。其中,经特定的训练数据训练后,该语音提取模型可以具有加权系数集与偏置系数集,从而每个隐含层可以利用加权系数集中的至少一组加权系数和/或偏置系数集中的一组偏置系数来对其接收的数据进行加权处理。从整体来看,神经网络的输入层接收的数据(音频输入对象)会被相应转换为输出层输出的数据(音频输出结果)。
在一些实施例中,输入层至少包括第一多个神经元用于接收音频输入对象,并且输出层包括第二多个神经元用于输出音频输出结果。优选地,第一多个神经元的数量可以与第二多个神经元的数量相等,也即音频输入对象的每个音频数据帧中包括的一组音频数据的数量与音频输出结果中每个处理后的音频数据帧中包括的一组音频数据的数量相等。换言之,输入的音频输入对象的数据格式与输出的音频输出结果的数据格式是相同的,也即实现了端对端的处理。这可以提高音频处理的兼容性与处理效率。可以理解,输入层还可以包括第三多个神经元用于接收一组用户增益补偿系数。
图2b示出了根据本申请另一实施例的语音提取模型的示例。
如图2b所示,该语音提取模型采用了循环神经网络的结构,其中图2b示出了该循环神经网络中隐含层的层级展开图,隐含层连接在输入层与输出层之间。不同时刻输入对应不同的输出,而且上一时刻的隐含层的值会影响当前时刻的输出。具体地,t-1,t,t+1表示时间序列;X表示输入数据;St表示样本在时刻t处的记忆,也即时刻t处的隐含层的值,其可以表示为St=f(W*St-1+U*Xt)。其中,U是输出层到隐含层的权重,W是上个时刻隐含层作为这个时刻输入的权重,V是隐含层到输出层的权重,o是输出数据,f(x)是激活函数。
类似于图2a所示的全连接神经网络的示例,经特定的训练数据训练后,该语音提取模型可以具有加权系数集与偏置系数集,从而每个隐含层可以利用加权系数集中的至少一组加权系数和/或偏置系数集中的一组偏置系数来对其接收的数据进行加权处理。
在一些实施例中,该循环神经网络模型可以包括多个处理层(隐含层),例如包括至少一个门控循环单元(Gated Recurrent Unit,GRU)子处理层或长短时记忆网络(LongShort Time Memory network,LSTM)子处理层。
图3示出了根据本申请一个实施例的创建基于深度神经网络的语音提取模型的方法。所创建的语音提取模型可以用于后续音频输入对象的处理,也即用于提取并选择性地放大/衰减其中的语音信号。该语音提取模型可以采用图2a或图2b所示的神经网络模型,或者其他适合的深度神经网络模型。
本申请实施例的方法设计了特殊的训练数据,并且用该训练数据对基于深度神经网络的语音提取模型进行训练。
具体地,在训练语音提取模型前,本申请的实施例构建了混合有语音数据和非语音数据的训练数据集,其可以模拟实际噪声环境下的语音数据。此外,本申请的实施例还构建了该训练数据集中语音数据经增益补偿后的数据集,其可以模拟提取并放大/衰减后的语音数据。对于语音提取模型而言,这两个数据集中的数据均为已知数据,此外听力图谱以及及其对应增益补偿系数也是已知数据。这样,利用这些已知数据就可以对语音提取模型训练,从而使得训练后的语音提取模型能够随后对未知音频数据(包含有语音数据和非语音数据)进行类似地处理,以选择性地提取并补偿语音数据。
如图3所示,该方法300起始于步骤302,获取混合音频训练数据集。该混合音频训练数据集包括多个混合音频数据帧,其中每个混合音频数据帧包括以预定增益比混合的语音数据与非语音数据,并且该语音数据与该非语音数据均为时域数据格式。
在一些实施例中,每个混合音频数据帧可以具有预定帧长(例如1至50毫秒,优选10毫秒),并且包括按时间顺序分布于该预定帧长范围内的多个采样数据点。这些采样数据点可以是以预定采样频率(例如不小于10kHz)采样得到的。由于每个混合音频数据帧均包括以预定增益比混合的语音数据与非语音数据,因此大体每个采样数据点均包括语音数据部分与非语音数据部分。其中,语音数据部分可以是对预定语音信号(纯粹人声,例如特定语言的音素)采样得到的,而非语音数据部分可以是对预定背景噪声信号采样得到的。其中,预定语音信号可以是例如不同性别、年龄、国籍、生理状态、母语的人在语音朗读、日常对话、哼歌、唱歌、叫喊情况等情境下发声所产生的语音信号;而预定背景噪声信号可以是交通工具、风声、水声、室内(例如家庭、办公室、工地、教室等)环境、室外环境、动物、机器运行等产生的背景噪声信号。语音数据部分与非语音数据部分可以以预定增益比混合,该预定增益比例如等于1,或者大于或小于1。在一些实施例中,非语音数据部分可以包括多个预定背景噪声信号,并且这些预定背景噪声信号分别以对应的预定增益比与预定语音信号混合。可以理解,混合音频数据帧中混合的语音数据和非语音数据的来源或类型越多,混合音频训练数据集中的训练数据也越丰富,这有利于后续深度神经网络模型的训练。
在一些实施例中,每个混合音频数据帧X可以由等式(1)表示:
X=Y+Z 等式(1)
其中,等式(1)中的语音数据Y可以由等式(2)表示:
Y={y0,y1...yi...yN-1} 等式(2)
其中,yi表示第i个语音数据点,i值为0到N-1,N为自然数,N表示一帧语音数据Y包括的语音数据点的数量。在一些实施例中,语音数据或非语音数据均可以经过预定增益处理,例如被放大或被衰减。在另一些实施例中,语音数据或非语音数据也可以不经过预定增益处理,而仅仅简单叠加。
等式(1)中的非语音数据z可以由等式(3)表示:
其中,表示该混合音频数据帧中的第i个非语音数据点,其与第i个语音数据点相对同时地采样,并且该第i个非语音数据点可以包括分别以预定增益比aj与语音数据点yi混合的m个预定背景噪声信号的组合,其中m可以为自然数。在一些实施例中,m可以等于1,也即每个语音数据点与一个非语音数据点混合;在另一些实施例中,m可以大于1,也即每个语音数据点与多个非语音数据点混合,并且它们可以采用相同或不同的预定增益比与语音数据点混合。在一些实施例中,预定增益比可以等于1,或者大于1(放大),也或者可以小于1(衰减)。
需要说明的是,在此假设每个混合音频数据帧均为短时平稳信号,其在帧长范围内信号无显著变化。在一些实施例中,多个混合音频数据帧可以是部分重叠的,可以通过对混合信号用滑动窗口进行分帧操作来获得部分重叠的多个混合音频数据帧。
可以看出,通过选取不同增益比混合的非语音数据和语音数据,混合音频训练数据库可以包括适合的样本来模拟实际生活中出现的语音环境和待提取的语音对象,这非常有利于后续神经网络的训练。需要说明的是,混合音频训练数据集中的音频数据和增益比均为已知数据。
在步骤304,对每个混合音频数据帧中的语音数据进行傅里叶变换以得到对应的以频域数据格式表示的语音数据。
由于需要对语音数据进行频率补偿,因此在步骤304利用傅里叶变换将语音数据转换为以频域数据格式表示的语音数据S={S0,S1,...Sk...SN-1},如等式(4)表示。
其中,N是每个混合音频数据帧中包括的数据采样点的数量,Sk表示了该语音数据在对应频率处的能量,其中fs是采样频率。
在确定混合音频训练数据集之后,需要进一步确定对该混合音频训练数据集中的语音数据的补偿结果,该补偿结果需要根据听力障碍患者的听力损失情况来对语音数据进行放大,以补偿他们的听力损失。图3所示的步骤306至310即用于语音数据的针对性补偿。
具体地,在步骤306,获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数。
听力图谱的示例如图1a所示,其包括在不同频率下的听力或听力损失。在一些实施例中,这些听力图谱或听力曲线可以随机生成,例如选取8至9个音频信号频率,并且对于每个频率点,可以从0至120dB SPL中随机选择一个数值,从而得到8至9个随频率变化的听力数据。可以理解,在一些实施例中,也可以不随机生成而是选取一些已有代表性听力障碍患者的听力图谱。在一些实施例中,可以以随机生成方式或指定方式获取例如1个、5个、10个、15个、20个、30个、50个、100个、500个、1000个或其他数量的听力图谱,并且每个听力图谱对应于一组预定增益补偿系数。可以理解,听力图谱的数量越多,可以用于训练的数据也就越多。此外,在随机生成听力图谱的情况下,听力图谱的数量越多,与后续实际使用语音提取过程中的用户听力图谱匹配的程度也越高。
类似于图1b所示的增益系数,可以利用各种现有的频率补偿算法来基于每个听力图谱生成一组预定增益补偿系数。在一些实施例中,对于听力图谱范围内的每个音频信号频率,可以分别生成至少一个增益补偿系数,从而得到与该听力图谱对应的一组增益加权系数。在一些实施例中,对于每个音频信号频率,该组增益补偿系数可以包括一个或多个对应的增益补偿系数,并且每个增益补偿系数对应于不同的响度,图1b即为这种增益补偿系数的示例。
优选地,可以采用宽频动态压缩算法(“Wide Dynamic Range Compression”)确定与听力图谱对应的一组增益补偿系数。宽频动态压缩算法可以为至少部分音频信号频率产生随响度变化的多个增益补偿系数,这可以使得声音依频率补偿时不会过响,因此患者使用时的感受会比较好。
可以理解,上述音频信号频率应与在步骤304获得的以频域数据格式表示的语音数据所在的音频信号频率对应。换言之,以频域数据格式表示的语音数据S的每个频率点均应具有对应的增益补偿系数。通常来说,听力图谱本身仅可具有少量的频率点,例如图1a所示的听力图谱仅包括6个频率点,而图1b所示的一组增益补偿系数也仅对应于19个频率点。因此,在一些实施例中,可以通过插值算法来获得与语音数据S的频谱分布对应的增益补偿系数W={W0,...Wk...,WN-1}。例如,可以通过等式(5)的线性插值算法计算确定每个增益补偿系数。
其中,Wk为在Sk所在频率f(k)对应需要的增益补偿系数,w(f1)为听力图谱上采样频率在频率f1处所需要的增益补偿系数,w(f2)为听力图谱上采样频率在频率f2处所需要的增益补偿系数。
等式(5)表示了在相同响度下增益补偿系数的插值算法。对于不同响度下增益补偿系数不同的情况,可以分别对每个响度下增益补偿系数进行插值类似的计算。可以理解,经插值得到的一组增益补偿系数可以被表示为随音频信号频率和响度变化的一个二维增益系数矩阵。需要说明的是,在其他的实施例中,增益补偿系数也可以通过其他插值算法计算得到,例如n阶多项式插值,或者其他非线性插值算法。
接着,在步骤308,利用至少一组预定增益补偿系数对每个混合音频数据帧对应的以频域数据格式表示的语音数据进行增益补偿,从而生成经补偿的以频域数据格式表示的语音数据。
具体地,经补偿的以频域数据格式表示的语音数据为H={H0,...Hk...,HN-1},每个语音数据Hk可以由等式(6)计算:
Hk=Wk*Sk,其中k=0,...,N-1 等式(6)
可以理解,对于不同响度对应不同的增益补偿系数的情况,每个语音数据Sk还包括了响度信息。相应地,与该响度信息对应的增益补偿系数被可以选择以用于对该语音数据Sk进行补偿。
在步骤310,对每个混合音频数据帧对应的经补偿的以频域数据格式表示的语音数据进行逆傅里叶变换,从而生成每个混合音频数据帧对应的经补偿的语音数据,其中所述经补偿的语音数据以时域数据格式表示。
具体地,经补偿的以时域数据格式表示的语音数据为T={T0,...Tn...,TN-1},每个语音数据Tn可以由等式(7)表示:
通过上述步骤306至310处理后,每个混合音频数据帧中的语音数据即可被以所需的增益补偿系数进行补偿。
接着,在步骤312,利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型。
在一些实施例中,语音提取模型可以是循环神经网络模型。循环神经网络擅长处理序列数据,它会对前面的信息进行记忆并且参与当前输出的计算,理论上循环神经网络能处理任意长度的序列数据。
在一些实施例中,可以以混合音频训练数据集和与至少一个听力图谱相关联的至少一组预定增益补偿系数作为语音提取模型中输入层的输入,并且以混合音频训练数据集中每个混合音频数据帧对应的经补偿的语音数据作为语音提取模型中输出层的输出,对语音提取模型进行训练,从而使得经训练的语音提取模型具有对应的加权系数集与偏置系数集。
在一些实施例中,可以采用例如逆误差传播(Error Back Propagation)算法或者其他现有神经网络的训练算法来训练语音提取模型。在逆误差传播算法的训练过程中,对于每一个训练样本,其算法先初始化随机的加权系数、偏置系数和阈值参数,然后将相关的已知输入示例(等式(1)表示的混合音频数据帧X)提供给输入层神经元,并一层一层将信号向前传递(输入层->隐含层->输出层),直到输出层产生输出值。之后,再根据计算产生的输出值与已知输出值(等式(7)表示经补偿的以时域数据格式表示的语音数据T)的误差,而后将误差逆向传播到隐含层的神经元,最终根据隐含层神经元计算得来的误差来调整连接的加权系数和神经元的阈值。逆误差传播算法可以不断地迭代循环执行上述步骤,直到达到训练停止的条件。
图4示出了根据本申请一个实施例的基于深度神经网络的音频处理方法400。
如图4所示,在步骤402,获取基于深度神经网络的语音提取模型。在一些实施例中,该语音提取模型可以是由图3所示的实施例所创建的经特定训练数据训练的语音提取模型。
在步骤404,接收具有语音部分和非语音部分的待处理的音频输入对象,该音频输入对象包括一个或多个音频数据帧,并且这些音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中该音频数据以时域数据格式表示。
在步骤406,获取用户听力图谱以及与用户听力图谱相关联的一组用户增益补偿系数。正如前述,听力障碍患者的听力图谱通常随患者不同而不同,因此用户听力图谱是例如佩戴听力辅助设备的患者自己的听力图谱。接着,可以以类似于图3中步骤306的方式确定与该用户听力图谱相关联的一组用户增益补偿系数。
接着,在步骤408,将音频输入对象与一组用户增益补偿系数输入经训练的语音提取模型,从而得到经训练的语音提取模型输出的音频输出结果,其中音频输出结果以时域数据格式表示。音频输出结果相比于音频输入对象,音频输入对象中非语音部分的至少一部分被削弱或去除。
在一些实施例中,步骤402中获得的经训练的语音提取模型可以是用户定制化的语音提取模型。换言之,在创建训练数据时,例如在图3所示的实施例的步骤306中,所获取的至少一个听力图谱至少包括用户听力图谱,也即利用用户听力图谱来对应地生成补偿的混合音频训练数据集,从而能够用该混合音频训练数据集来训练神经网络模型。模型的训练可以在例如听力辅助设备初始化设置时进行。
在一些实施例中,音频输入对象的每个音频数据帧的帧长为1至50毫秒,采样频率不小于10kHz。音频数据帧可以通过声音采集设备(例如麦克风)采集并且由模数转换设备转换后得到。可以理解,在步骤408得到的音频输出结果可以通过数模转换设备转换为模拟信号。
图5a示出了混合了语音信号与非语音信号的示例性音频信号;图5b和5c示出了现有音频处理方法对图5a所示的示例性音频信号进行处理的结果;图5d示出了用本申请实施例的音频处理方法对图5a所示的示例性音频信号进行处理的结果。
具体地,图5b是仅对示例性音频信号进行现有人声提升处理后的音频信号,可以看出,人声信号被有效提取出来,但是在高频范围,提取出的人声信号响度较低,对于图1a的听力曲线B或C所示的听力障碍患者而言,该提升后的信号仍难以满足他们的听力需求。
图5c对示例性音频信号进行现有人声提升处理后进一步进行了频率补偿的音频信号。可以看出,人声信号的高频范围被放大,这满足了听力障碍患者的听力需求。但是注意到,高频范围的信号基本上均被放大,这导致在没有人声的时刻(例如图中的开始时刻),高频率背景噪声也被放大,这大大影响了听力障碍患者的听觉感受。
继续参考图5d,可以看出本申请实施例的音频处理方法不仅能够有效分离人声与背景噪声,并且还能够压制与人声同频率的背景噪声。例如,在没有人声的时刻(例如图中的开始时刻),基本上没有噪声信号被放大。
本申请的音频处理方法可以被用于各种音频设备,并且被实现为耦接到音频设备或集成在音频设备中的音频处理装置。该音频设备例如听力辅助设备或者耳机、移动通信终端等具有音频采集和/或音频输出功能的电子设备等。
需要说明的是,在本申请中,混合音频训练数据集是以语音数据作为期待提取的数据或信号进行设计/处理的。在一些其他的实施例中,如果期待从混合有背景噪声中的音频信号中提取的信号为其他类型的数据/信号,例如乐器声音、动物声音,或者机器运行声音,等等,可以以与语音信号类似的方式进行处理,来创建对应的混合音频训练数据集。之后,可以用这些对应的混合音频训练数据集以及补偿后的音频信号对深度神经网络模型进行训练,从而可以利用训练后的模型对实际信号进行处理。在此不再赘述。
在一些实施例中,本申请还提供了一些计算机程序产品,其包括非暂态计算机可读存储介质。该非暂态计算机可读存储介质包括计算机可执行的代码,用于执行图3或图4所示的方法实施例中的步骤。在一些实施例中,计算机程序产品可以被存储在硬件装置中,例如音频设备中。
本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当注意,尽管在上文详细描述中提及了深度神经网络的音频处理方法、装置和存储介质的若干步骤或模块,但是这种划分仅仅是示例性的而非强制性的。实际上,根据本申请的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书,理解和实施对披露的实施方式的其他改变。在权利要求中,措词“包括”不排除其他的元素和步骤,并且措辞“一”、“一个”不排除复数。在本申请的实际应用中,一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。
Claims (18)
1.一种基于深度神经网络的音频处理方法,其特征在于,所述音频处理方法包括:
获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:
获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;
获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;
利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及
利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及
将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。
2.根据权利要求1所述的音频处理方法,其特征在于,每个混合音频数据帧中的语音数据与非语音数据以预定增益比混合。
3.根据权利要求1所述的音频处理方法,其特征在于,所述利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据的步骤包括:
对每个混合音频数据帧中的语音数据进行傅里叶变换以得到对应的以频域数据格式表示的语音数据;
利用所述至少一组预定增益补偿系数对每个混合音频数据帧对应的以频域数据格式表示的语音数据进行增益补偿,从而生成经补偿的以频域数据格式表示的语音数据;以及
对每个混合音频数据帧对应的经补偿的以频域数据格式表示的语音数据进行逆傅里叶变换,从而生成每个混合音频数据帧对应的经补偿的语音数据,其中所述经补偿的语音数据以时域数据格式表示。
4.根据权利要求1所述的音频处理方法,其特征在于,所述利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型的步骤包括:
以所述混合音频训练数据集和与所述至少一个听力图谱相关联的至少一组预定增益补偿系数作为所述语音提取模型中输入层的输入,并且以所述混合音频训练数据集中每个混合音频数据帧对应的经补偿的语音数据作为所述语音提取模型中输出层的输出,对所述语音提取模型进行训练。
5.根据权利要求1所述的音频处理方法,其特征在于,对所述语音提取模型进行训练是使用逆误差传播算法进行的。
6.根据权利要求1所述的音频处理方法,其特征在于,所述经训练的语音提取模型具有加权系数集与偏置系数集,所述经训练的语音提取模型包括多个子处理层,每个子处理层利用所述加权系数集中的至少一组加权系数对每个音频数据帧进行加权处理。
7.根据权利要求6所述的音频处理方法,其特征在于,所述深度神经网络是循环神经网络。
8.根据权利要求7所述的音频处理方法,其特征在于,所述多个子处理层包括至少一个门控循环单元子处理层或长短时记忆网络子处理层。
9.根据权利要求1所述的音频处理方法,其特征在于,所述语音提取模型的输入层至少包括第一多个神经元用于接收所述音频输入对象,并且所述语音提取模型的输出层包括第二多个神经元用于输出所述音频输出结果,其中第一多个神经元的数量与所述第二多个神经元的数量相等。
10.根据权利要求9所述的音频处理方法,其特征在于,所述语音提取模型的输入层还包括第三多个神经元用于接收所述一组用户增益补偿系数。
11.根据权利要求1所述的音频处理方法,其特征在于,获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数包括:
获取至少一个听力图谱;以及
对于每个听力图谱,选取所述听力图谱频率范围内的多个不同的音频信号频率,利用宽频动态范围压缩算法确定所述多个不同的音频信号频率分别对应的多个预定增益补偿系数。
12.根据权利要求11所述的音频处理方法,其特征在于,所述至少一个听力图谱是随机生成的。
13.根据权利要求1所述的音频处理方法,其特征在于,所述至少一个听力图谱包括所述用户听力图谱。
14.根据权利要求1所述的音频处理方法,其特征在于,所述音频输入对象的每个音频数据帧的帧长为1至50毫秒,采样频率不小于10kHz。
15.根据权利要求1所述的音频处理方法,其特征在于,对于每个音频信号频率,每组预定增益补偿系数包括一个或多个对应的预定增益补偿系数,并且每个预定增益补偿系数对应于不同的响度。
16.一种基于深度神经网络的音频处理装置,其特征在于,所述音频处理装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行下述步骤:
获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:
获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;
获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;
利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及
利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及
将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。
17.根据权利要求16所述的音频处理装置,其特征在于,所述音频处理装置是辅助听力设备。
18.一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行下述步骤:
获取基于深度神经网络的语音提取模型,其中,所述语音提取模型是通过下述步骤创建的:
获取混合音频训练数据集,其中所述混合音频训练数据集包括多个混合音频数据帧,并且每个混合音频数据帧包括混合的语音数据与非语音数据,其中所述语音数据与所述非语音数据均以时域数据格式表示;
获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数,其中每个听力图谱对应一组预定增益补偿系数,并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数;
利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿,从而生成经补偿的语音数据;以及
利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型;接收具有语音部分和非语音部分的待处理的音频输入对象,所述音频输入对象包括一个或多个音频数据帧,并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据,其中所述音频数据以时域数据格式表示;获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数;以及
将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型,从而得到所述经训练的语音提取模型输出的音频输出结果,其中所述音频输出结果以时域数据格式表示,并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843603.0A CN110473567B (zh) | 2019-09-06 | 2019-09-06 | 基于深度神经网络的音频处理方法、装置及存储介质 |
US16/930,337 US11270688B2 (en) | 2019-09-06 | 2020-07-16 | Deep neural network based audio processing method, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843603.0A CN110473567B (zh) | 2019-09-06 | 2019-09-06 | 基于深度神经网络的音频处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473567A true CN110473567A (zh) | 2019-11-19 |
CN110473567B CN110473567B (zh) | 2021-09-14 |
Family
ID=68515094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910843603.0A Active CN110473567B (zh) | 2019-09-06 | 2019-09-06 | 基于深度神经网络的音频处理方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11270688B2 (zh) |
CN (1) | CN110473567B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312218A (zh) * | 2019-12-30 | 2020-06-19 | 苏州思必驰信息科技有限公司 | 神经网络的训练和语音端点检测方法及装置 |
CN112929731A (zh) * | 2021-05-11 | 2021-06-08 | 浙江蓝鸽科技有限公司 | 一种多媒体交换机系统 |
WO2022017040A1 (zh) * | 2020-07-21 | 2022-01-27 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
CN114121032A (zh) * | 2021-12-10 | 2022-03-01 | 思必驰科技股份有限公司 | 语音信号增益补偿方法、电子设备和存储介质 |
CN114615610A (zh) * | 2022-03-23 | 2022-06-10 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、系统和电子设备 |
EP4033784A1 (en) * | 2021-01-20 | 2022-07-27 | Oticon A/s | A hearing device comprising a recurrent neural network and a method of processing an audio signal |
CN114999611A (zh) * | 2022-07-29 | 2022-09-02 | 支付宝(杭州)信息技术有限公司 | 一种模型训练和信息推荐的方法及装置 |
WO2023088083A1 (zh) * | 2021-11-18 | 2023-05-25 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
EP4236361A3 (en) * | 2020-07-15 | 2023-10-04 | Meta Platforms Technologies, LLC | Audio system using individualized sound profiles |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3598777B1 (en) * | 2018-07-18 | 2023-10-11 | Oticon A/s | A hearing device comprising a speech presence probability estimator |
EP3900399B1 (en) * | 2018-12-21 | 2024-04-03 | GN Hearing A/S | Source separation in hearing devices and related methods |
US11580382B2 (en) * | 2019-04-26 | 2023-02-14 | Rohde & Schwarz Gmbh & Co. Kg | Method and apparatus providing a trained signal classification neural network |
US11575999B2 (en) * | 2020-01-16 | 2023-02-07 | Meta Platforms Technologies, Llc | Systems and methods for hearing assessment and audio adjustment |
EP3970142A1 (en) * | 2020-02-07 | 2022-03-23 | Google LLC | Separating speech by source in audio recordings by predicting isolated audio signals conditioned on speaker representations |
US11854528B2 (en) | 2020-12-22 | 2023-12-26 | Samsung Electronics Co., Ltd. | Method and system for detecting unsupported utterances in natural language understanding |
CN112951197B (zh) * | 2021-04-02 | 2022-06-24 | 北京百瑞互联技术有限公司 | 一种音频混音方法、装置、介质及设备 |
EP4099724A1 (en) | 2021-06-04 | 2022-12-07 | Oticon A/s | A low latency hearing aid |
US11902747B1 (en) * | 2022-08-09 | 2024-02-13 | Chromatic Inc. | Hearing loss amplification that amplifies speech and noise subsignals differently |
US11915689B1 (en) | 2022-09-07 | 2024-02-27 | Google Llc | Generating audio using auto-regressive generative neural networks |
CN116248229B (zh) * | 2022-12-08 | 2023-12-01 | 南京龙垣信息科技有限公司 | 一种面向实时语音通讯的丢包补偿方法 |
CN117854536B (zh) * | 2024-03-09 | 2024-06-07 | 深圳市龙芯威半导体科技有限公司 | 一种基于多维语音特征组合的rnn降噪方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1416564A (zh) * | 2000-01-12 | 2003-05-07 | 声波创新有限公司 | 减噪仪器及方法 |
US20060204025A1 (en) * | 2003-11-24 | 2006-09-14 | Widex A/S | Hearing aid and a method of processing signals |
CN101529929A (zh) * | 2006-09-05 | 2009-09-09 | Gn瑞声达A/S | 具有基于直方图的声环境分类的助听器 |
CN101606195A (zh) * | 2007-02-12 | 2009-12-16 | 杜比实验室特许公司 | 用于年长或听力受损的收听者的改进的语音与非语音音频比值 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN105228069A (zh) * | 2015-09-28 | 2016-01-06 | 南京工程学院 | 一种基于声压级分段的数字助听器宽动态压缩方法 |
CN105679330A (zh) * | 2016-03-16 | 2016-06-15 | 南京工程学院 | 基于改进子带信噪比估计的数字助听器降噪方法 |
CN106714062A (zh) * | 2016-11-30 | 2017-05-24 | 天津大学 | 一种基于bp人工神经网络的数字助听器智能验配算法 |
CN107221339A (zh) * | 2017-05-22 | 2017-09-29 | 华北电力大学 | 基于增益补偿助听器语音质量w‑pesq客观评价方法 |
WO2018141464A1 (en) * | 2017-01-31 | 2018-08-09 | Widex A/S | Method of operating a hearing aid system and a hearing aid system |
CN109147808A (zh) * | 2018-07-13 | 2019-01-04 | 南京工程学院 | 一种言语增强助听方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
CN110115049A (zh) * | 2016-12-27 | 2019-08-09 | 大北欧听力公司 | 基于记录对象声音的声音信号建模 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10347211A1 (de) * | 2003-10-10 | 2005-05-25 | Siemens Audiologische Technik Gmbh | Verfahren zum Nachtrainieren und Betreiben eines Hörgeräts und entsprechendes Hörgerät |
WO2008028484A1 (en) * | 2006-09-05 | 2008-03-13 | Gn Resound A/S | A hearing aid with histogram based sound environment classification |
US8582790B2 (en) * | 2010-02-12 | 2013-11-12 | Audiotoniq, Inc. | Hearing aid and computing device for providing audio labels |
WO2011159349A1 (en) * | 2010-06-14 | 2011-12-22 | Audiotoniq, Inc. | Hearing aid system |
US9524730B2 (en) * | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
US20170061978A1 (en) * | 2014-11-07 | 2017-03-02 | Shannon Campbell | Real-time method for implementing deep neural network based speech separation |
EP3514792B1 (en) * | 2018-01-17 | 2023-10-18 | Oticon A/s | A method of optimizing a speech enhancement algorithm with a speech intelligibility prediction algorithm |
US10905337B2 (en) * | 2019-02-26 | 2021-02-02 | Bao Tran | Hearing and monitoring system |
-
2019
- 2019-09-06 CN CN201910843603.0A patent/CN110473567B/zh active Active
-
2020
- 2020-07-16 US US16/930,337 patent/US11270688B2/en active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1416564A (zh) * | 2000-01-12 | 2003-05-07 | 声波创新有限公司 | 减噪仪器及方法 |
US20060204025A1 (en) * | 2003-11-24 | 2006-09-14 | Widex A/S | Hearing aid and a method of processing signals |
CN101529929A (zh) * | 2006-09-05 | 2009-09-09 | Gn瑞声达A/S | 具有基于直方图的声环境分类的助听器 |
CN101606195A (zh) * | 2007-02-12 | 2009-12-16 | 杜比实验室特许公司 | 用于年长或听力受损的收听者的改进的语音与非语音音频比值 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN105228069A (zh) * | 2015-09-28 | 2016-01-06 | 南京工程学院 | 一种基于声压级分段的数字助听器宽动态压缩方法 |
CN105679330A (zh) * | 2016-03-16 | 2016-06-15 | 南京工程学院 | 基于改进子带信噪比估计的数字助听器降噪方法 |
CN106714062A (zh) * | 2016-11-30 | 2017-05-24 | 天津大学 | 一种基于bp人工神经网络的数字助听器智能验配算法 |
CN110115049A (zh) * | 2016-12-27 | 2019-08-09 | 大北欧听力公司 | 基于记录对象声音的声音信号建模 |
WO2018141464A1 (en) * | 2017-01-31 | 2018-08-09 | Widex A/S | Method of operating a hearing aid system and a hearing aid system |
CN107221339A (zh) * | 2017-05-22 | 2017-09-29 | 华北电力大学 | 基于增益补偿助听器语音质量w‑pesq客观评价方法 |
CN109147808A (zh) * | 2018-07-13 | 2019-01-04 | 南京工程学院 | 一种言语增强助听方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
Non-Patent Citations (2)
Title |
---|
BORYS KOWALEWSKI ET AL: "Effects of Fast-Acting Hearing-Aid Compression on Audibility, Forward Masking and Speech Perception", 《2018 JOINT CONFERENCE - ACOUSTICS》 * |
张建星: "以聆听环境下的集成言语清晰度指数评估助听器性能和优化的模型", 《听力学及言语疾病杂志》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312218A (zh) * | 2019-12-30 | 2020-06-19 | 苏州思必驰信息科技有限公司 | 神经网络的训练和语音端点检测方法及装置 |
US11843926B2 (en) | 2020-07-15 | 2023-12-12 | Meta Platforms Technologies, Llc | Audio system using individualized sound profiles |
EP4236361A3 (en) * | 2020-07-15 | 2023-10-04 | Meta Platforms Technologies, LLC | Audio system using individualized sound profiles |
US11842722B2 (en) | 2020-07-21 | 2023-12-12 | Ai Speech Co., Ltd. | Speech synthesis method and system |
WO2022017040A1 (zh) * | 2020-07-21 | 2022-01-27 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
EP4033784A1 (en) * | 2021-01-20 | 2022-07-27 | Oticon A/s | A hearing device comprising a recurrent neural network and a method of processing an audio signal |
CN112929731B (zh) * | 2021-05-11 | 2021-07-30 | 浙江蓝鸽科技有限公司 | 一种多媒体交换机系统 |
CN112929731A (zh) * | 2021-05-11 | 2021-06-08 | 浙江蓝鸽科技有限公司 | 一种多媒体交换机系统 |
WO2023088083A1 (zh) * | 2021-11-18 | 2023-05-25 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
CN114121032A (zh) * | 2021-12-10 | 2022-03-01 | 思必驰科技股份有限公司 | 语音信号增益补偿方法、电子设备和存储介质 |
CN114615610A (zh) * | 2022-03-23 | 2022-06-10 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、系统和电子设备 |
CN114615610B (zh) * | 2022-03-23 | 2023-05-16 | 东莞市晨新电子科技有限公司 | 音频补偿式耳机的音频补偿方法、系统和电子设备 |
CN114999611A (zh) * | 2022-07-29 | 2022-09-02 | 支付宝(杭州)信息技术有限公司 | 一种模型训练和信息推荐的方法及装置 |
CN114999611B (zh) * | 2022-07-29 | 2022-12-20 | 支付宝(杭州)信息技术有限公司 | 一种模型训练和信息推荐的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110473567B (zh) | 2021-09-14 |
US20210074266A1 (en) | 2021-03-11 |
US11270688B2 (en) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473567B (zh) | 基于深度神经网络的音频处理方法、装置及存储介质 | |
Chen et al. | Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises | |
Stone et al. | Tolerable hearing aid delays. I. Estimation of limits imposed by the auditory path alone using simulated hearing losses | |
CN109121057B (zh) | 一种智能助听的方法及其系统 | |
CN103871421B (zh) | 一种基于子带噪声分析的自适应降噪方法与系统 | |
TWI459828B (zh) | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 | |
Stone et al. | Tolerable hearing aid delays. II. Estimation of limits imposed during speech production | |
Gustafson et al. | Listening effort and perceived clarity for normal-hearing children with the use of digital noise reduction | |
Zhao et al. | A deep learning based segregation algorithm to increase speech intelligibility for hearing-impaired listeners in reverberant-noisy conditions | |
Lai et al. | Multi-objective learning based speech enhancement method to increase speech quality and intelligibility for hearing aid device users | |
Monaghan et al. | Auditory inspired machine learning techniques can improve speech intelligibility and quality for hearing-impaired listeners | |
CN108235181A (zh) | 在音频处理装置中降噪的方法 | |
Monson et al. | The maximum audible low-pass cutoff frequency for speech | |
Souza et al. | Effect of single-channel compression on temporal speech information | |
JP2010091897A (ja) | 音声信号強調装置 | |
Zorilă et al. | Effectiveness of a loudness model for time-varying sounds in equating the loudness of sentences subjected to different forms of signal processing | |
Jørgensen et al. | Effects of manipulating the signal-to-noise envelope power ratio on speech intelligibility | |
Monson et al. | On the use of the TIMIT, QuickSIN, NU-6, and other widely used bandlimited speech materials for speech perception experiments | |
Souza et al. | Application of the envelope difference index to spectrally sparse speech | |
US11445307B2 (en) | Personal communication device as a hearing aid with real-time interactive user interface | |
JP2006333396A (ja) | 音声信号拡声装置 | |
Patel et al. | Compression Fitting of Hearing Aids and Implementation | |
Reinhart et al. | Effects of reverberation, background talker number, and compression release time on signal-to-noise ratio | |
Arioz et al. | Preliminary results of a novel enhancement method for high-frequency hearing loss | |
Brennan et al. | Influence of audibility and distortion on recognition of reverberant speech for children and adults with hearing aid amplification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |