CN110992967A - 一种语音信号处理方法、装置、助听器及存储介质 - Google Patents
一种语音信号处理方法、装置、助听器及存储介质 Download PDFInfo
- Publication number
- CN110992967A CN110992967A CN201911380159.XA CN201911380159A CN110992967A CN 110992967 A CN110992967 A CN 110992967A CN 201911380159 A CN201911380159 A CN 201911380159A CN 110992967 A CN110992967 A CN 110992967A
- Authority
- CN
- China
- Prior art keywords
- signal
- audio signal
- voice signal
- voice
- hearing aid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/30—Monitoring or testing of hearing aids, e.g. functioning, settings, battery power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Otolaryngology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Neurosurgery (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例公开了一种语音信号处理方法、装置、助听器及存储介质。该方法包括:通过麦克风阵列接收音频信号;对语音频信号进行检测,确定是否存在语音信号;若存在语音信号,将音频信号进行盲源分离,得到语音信号,并将语音信号输出;若不存在语音信号,将音频信号输出或者丢弃。该方法可以去除音频信号中同一方向性的干扰,获取高质量的语音信号,可以减少计算量以及功率消耗。
Description
技术领域
本发明实施例涉及助听器技术领域,尤其涉及一种语音信号处理方法、装置、助听器及存储介质。
背景技术
目前有关数字助听器的算法主要解决的是降噪以及声源定位问题,常用的算法有基于麦克风阵列的语音增强技术和基于维纳滤波等的去噪方法。其中,基于麦克风阵列的语音增强技术如广义旁瓣消除(General Sidelobe Canceller,GSC)是一种波束赋形技术,通过调整相位阵列的基本单元的参数,使得某些角度的信号获得相长干涉,而另一些角度的信号获得相消干涉,在保留主瓣能量的基础上,尽可能地削减接收到的旁瓣能量。而维纳滤波根据最小均方误差准则,即滤波器的输出信号和需要信号之差的均方值最小,求得最佳线性滤波器的参数,再求出滤波器的增益,用带噪语音信号乘以增益求得去噪后的语音信号。
但是,GSC只能消除旁瓣的干扰,而对于说话人同方向的噪声或干扰则效果比较差。维纳滤波法是基于一些数学假设的,真实环境下难以有效抑制非平稳噪声的干扰,鲁棒性比较差。由于声学模型的局限,这些算法在语音与噪声的频率处在同一频率区时,对噪声和语音的区分效果比较差,从而利用这些算法设计的助听器的对于同一方向性的干扰问题得不到有效解决。
发明内容
本发明实施例提供了一种语音信号处理方法、装置、助听器及存储介质,可以去除同一方向性的干扰,获取高质量的语音信号,可以减少计算量以及功率消耗。
第一方面,本发明实施例提供了一种语音信号处理方法,该方法包括:
通过麦克风阵列接收音频信号;
对所述语音频信号进行检测,确定是否存在语音信号;
若存在语音信号,将所述音频信号进行盲源分离,得到所述语音信号,并将所述语音信号输出;
若不存在语音信号,将所述音频信号输出或者丢弃。
可选的,所述将所述语音信号输出,包括:
将所述语音信号输出至助听器;
相应的,所述将所述音频信号输出或者丢弃,包括:
将所述音频信号输出至助听器或者将所述音频信号不输出至助听器。
可选的,所述对所述语音频信号进行检测,确定是否存在语音信号,包括:
将所述语音频信号进行去均值预加重;
将去均值预加重后的音频信号进行傅里叶变换;
将傅里叶变换后的音频信号提取滤波器fbank特征,并进行特征修正;
将修正的fbank特征进行解码,确定是否存在语音信号。
可选的,所述将修正的fbank特征进行解码,确定是否存在语音信号,包括:
通过神经网络进行解码,获取是否存在语音信号的布尔结果;
根据布尔结果确定是否存在语音信号。
可选的,所述将所述音频信号进行盲源分离,包括:
将傅里叶变换后的音频信号进行盲源分离。
可选的,所述盲源分离,包括基于独立向量分析IVA的盲源分离。
第二方面,本发明实施例还提供了一种语音信号处理装置,该装置包括:
音频信号接收模块,用于通过麦克风阵列接收音频信号;
语音频信号检测模块,用于对所述语音频信号进行检测,确定是否存在语音信号;
盲源分离进行模块,用于若存在语音信号,将所述音频信号进行盲源分离,得到所述语音信号,并将所述语音信号输出;
音频信号处理模块,用于若不存在语音信号,将所述音频信号输出或者丢弃。
可选的,所述盲源分离进行模块,包括:
语音信号输出单元,用于将所述语音信号输出至助听器;
相应的,所述音频信号处理模块,包括:
音频信号处理单元,用于将所述音频信号输出至助听器或者将所述音频信号不输出至助听器。
第三方面,本发明实施例还提供了一种助听器,该助听器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的一种语音信号处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的一种语音信号处理方法。
本发明通过麦克风阵列接收音频信号;对语音频信号进行检测,确定是否存在语音信号;若存在语音信号,将音频信号进行盲源分离,得到语音信号,并将语音信号输出;若不存在语音信号,将音频信号输出或者丢弃,解决了现有技术中同一方向性的噪声对语音信号的干扰问题,实现了可以去除音频信号中同一方向性的干扰,获取高质量的语音信号,减少计算量以及功率消耗的效果。
附图说明
图1a是本发明实施例一提供的一种语音信号处理方法的流程图;
图1b是本发明实施例提供的语音信号处理的流程图;
图1c是本发明实施例提供的语音信号检测及分离的流程图;
图2是本发明实施例二提供的一种语音信号处理装置的结构示意图;
图3是本发明实施例三提供的一种助听器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1a是本发明实施例一提供的一种语音信号处理方法的流程图,本实施例可适用于去除音频信号中的噪声以使助听器获取高质量的语音信号的情况,该方法可以由语音信号处理装置来执行,该装置可以通过软件,和/或硬件的方式实现,装置可以集成在助听器中,如图1a所示,该方法具体包括:
步骤110、通过麦克风阵列接收音频信号。
其中,麦克风阵列可以是助听器中的收音装置,可以通过麦克风阵列接收助听器附近的音频信号。音频信号可以包括人说话的声音信号、道路提示信号、动物发出的声音信号以及环境中的噪声等。音频信号可以是来自多个方向的语音类信号混和形成的声音信号。
步骤120、对语音频信号进行检测,确定是否存在语音信号。
其中,麦克风阵列接收到的音频信号中可能存在很多噪声,在实际应用中,如果将麦克风阵列接收到的音频信号直接通过助听器传输给助听器佩戴者,会使助听器佩戴者听到混乱、嘈杂的声音,起不到良好的助听效果。因此,可以对于麦克风阵列接收到音频信号需要进行检测,确定是否存在语音信号,以确定音频信号是否需要进行进一步的处理,以使助听器佩戴者可以听到干净、无噪声的语音信号。
在本发明实施例的一个实施方式中,可选的,对语音频信号进行检测,确定是否存在语音信号,包括:将语音频信号进行去均值预加重;将去均值预加重后的音频信号进行傅里叶变换;将傅里叶变换后的音频信号提取滤波器fbank特征,并进行特征修正;将修正的fbank特征进行解码,确定是否存在语音信号。
其中,可以通过语音活动检测(Voice Activity Detection,VAD)模块检测音频信号中是否存在语音信号,VAD模块的输入可以是麦克风阵列接收的20毫秒帧长、10毫秒帧移的音频信号。VAD模块可以对输入的音频信号,先进行去均值预加重,可以通过一阶高通数字滤波器作为传递函数实现预加重,可以去除口鼻辐射的影响,增强音频信号高频部分的分辨率,对音频信号的高频部分进行加重。然后,可以对去均值预加重后的音频信号进行傅里叶变换。再通过美尔(Mel)滤波器组,提取音频信号的滤波器(Filter Bank,fbank)特征,并进行特征修正。最后,可以通过深度神经网络(Deep Neural Network,DNN)对修正的fbank特征进行解码,确定音频信号中是否存在语音信号。
在本发明实施例的一个实施方式中,可选的,将修正的fbank特征进行解码,确定是否存在语音信号,包括:通过神经网络进行解码,获取是否存在语音信号的布尔结果;根据布尔结果确定是否存在语音信号。
其中,DNN可以是112*32,32*32,32*2的三层神经网络,前两层的激活函数可以是sigmoid函数,第三层的激活函数可以是softmax函数。通过DNN可以得到是否存在语音信号的布尔结果,其中,存在语音信号,布尔结果为1;不存在语音信号,布尔结果为0。可以根据布尔结果,确定音频信号中是否存在语音信号,其准确性更高。
在本发明实施例的一个实施方式中,可选的,将音频信号进行盲源分离,包括:将傅里叶变换后的音频信号进行盲源分离。
在本发明实施例的一个实施方式中,可选的,盲源分离,包括基于独立向量分析IVA的盲源分离。
其中,本发明实施中,可以采用独立成分分析(Independent ComponentAnalysis,ICA)算法做盲源分离,但是可能会出现排序模糊性问题。例如,对于麦克风阵列采集到的音频信号x(i)可以表示为x(i)=Asi,其中,A为混合矩阵,si为分离信号,根据x(i),求A和si,但是A和si的结果不唯一,造成si的顺序不确定,即出现排序模糊性问题。
优选的,本发明实施中,可以采用独立向量分析(Independent Vector Analysis,IVA)算法做盲源分离,IVA算法是对ICA算法的一种扩展,可以将ICA算法中的单变量成分扩展为多维变量成分,可以增加频点,利用频点的特性来确定语音信号属于哪一个通道,可以避免盲源分离过程中的排序模糊问题。
具体的,可以在VAD模块检测到音频信号中存在语音信号时,将傅里叶变换后的音频信号作为IVA算法的输入,可以选取输入的帧长为20毫秒、帧移为10毫秒。可以利用KL散度(Kullback-Leibler divergence)作为评价函数,利用梯度下降法更新分离矩阵,经过IVA算法可以分离出不同说话人的语音信号或者噪声。
步骤130、若存在语音信号,将音频信号进行盲源分离,得到语音信号,并将语音信号输出。
在本发明实施例的一个实施方式中,可选的,将语音信号输出,包括:将语音信号输出至助听器。
其中,IVA算法可以将经过去均值预加重,傅里叶变换后的音频信号,分离出语音信号或者噪声。现有技术利用GSC算法或者维纳滤波算法,均不能很好地解决音频信号中的语音信号与噪声的频率处在同一频率区时,对噪声与语音信号进行区分。而本发明实施例采用盲源分离,可以将音频信号中的噪声和语音信号进行分离,解决了同一方向性的干扰问题。可选的,可以将分离得到的语音信号输出至助听器,以使助听器佩戴者听到干净、无噪声的语音信号,可以解决同一方向性的干扰问题,提升助听器佩戴者的使用体验。
步骤140、若不存在语音信号,将音频信号输出或者丢弃。
在本发明实施例的一个实施方式中,可选的,将音频信号输出或者丢弃,包括:将音频信号输出至助听器或者将音频信号不输出至助听器。
其中,如果VAD模块检测到音频信号中不存在语音信号,即麦克风阵列接收的音频信号是纯噪声,对该纯噪声可以不进行盲源分离,可以减少计算量以及功率消耗。可以将纯噪声直接输出至助听器,也可以忽略纯噪声信号,不输出至助听器。可以取决于助听器的具体应用场景设置成将纯噪声直接输出至助听器或者将纯噪声丢弃即不输出至助听器。例如,对于经常在室外活动的助听器佩戴者,麦克风阵列接收的纯噪声通常是一些道路提示音如车鸣声,可以将纯噪声直接输出至助听器,便于助听器佩戴者听到道路提示音,做出正确的决策;对于经常在室内活动的助听器佩戴者,麦克风阵列接收的纯噪声通常是一些嘈杂的可以丢弃的声音,可以将纯噪声丢弃,避免干扰助听器佩戴者;也可以根据实际需求,设置一个关于纯噪声是直接输出还是丢弃的开关,由助听器佩戴者根据自己的应用需求,决定纯噪声是直接输出至助听器,还是丢弃。
本实施例的技术方案,通过麦克风阵列接收音频信号;对语音频信号进行检测,确定是否存在语音信号;若存在语音信号,将音频信号进行盲源分离,得到语音信号,并将语音信号输出;若不存在语音信号,将音频信号输出或者丢弃,解决了现有技术中同一方向的噪声对语音信号的干扰问题,实现了可以去除音频信号中同一方向的干扰,获取高质量的语音信号,减少计算量以及功率消耗的效果。
图1b是本发明实施例提供的语音信号处理的流程图,如图1b所示,麦克风阵列可以接收音频信号;VAD模块对该音频信号进行检测,确定音频信号中是否存在语音信号;对于存在语音信号的音频信号,盲源分离模块(Blind Source Separation,BSS)分离出音频信号中的语音信号,并将语音信号传输至助听器,以使助听器佩戴者听到干净、无噪声的语音信号。
图1c是本发明实施例提供的语音信号检测及分离的流程图,如图1c所示,对于麦克风阵列接收的音频信号主要分为语音信号检测和语音信号分离两大部分进行处理。其中,语音信号检测由VAD模块执行,语音信号分离由BSS模块执行。具体的,麦克风阵列接收的音频信号可以通过VAD模块进行去均值预加重、傅里叶变换、提取fbank特征、特征修正、解码,得到布尔结果。BSS模块根据布尔结果判断语音信号是否存在,如果不存在语音信号,可以对音频信号(此时为纯噪声)不做处理,直接将音频信号输出,可以是输出至助听器;或者可以将音频信号丢弃;如果存在语音信号,可以基于IVA算法,分离出音频信号中的语音信号,将语音信号输出。例如,可以输出至助听器,可以使助听器佩戴者听到干净、无噪声的语音信号,可以去除音频信号中同一方向性的干扰,获取高质量的语音信号,可以减少计算量以及功率消耗。
实施例二
图2是本发明实施例二提供的一种语音信号处理装置的结构示意图。结合图2,该装置包括:音频信号接收模块210,语音频信号检测模块220,盲源分离进行模块230和音频信号处理模块240。
音频信号接收模块210,用于通过麦克风阵列接收音频信号;
语音频信号检测模块220,用于对语音频信号进行检测,确定是否存在语音信号;
盲源分离进行模块230,用于若存在语音信号,将音频信号进行盲源分离,得到语音信号,并将语音信号输出;
音频信号处理模块240,用于若不存在语音信号,将音频信号输出或者丢弃。
可选的,盲源分离进行模块230,包括:
语音信号输出单元,用于将语音信号输出至助听器;
相应的,音频信号处理模块240,包括:
音频信号处理单元,用于将音频信号输出至助听器或者将音频信号不输出至助听器。
可选的,语音频信号检测模块220,包括:
去均值预加重单元,用于将语音频信号进行去均值预加重;
傅里叶变换单元,用于将去均值预加重后的音频信号进行傅里叶变换;
特征提取单元,用于将傅里叶变换后的音频信号提取滤波器fbank特征,并进行特征修正;
语音信号确定单元,用于将修正的fbank特征进行解码,确定是否存在语音信号。
可选的,语音信号确定单元,包括:
布尔结果获取子单元,用于通过神经网络进行解码,获取是否存在语音信号的布尔结果;
语音信号确定子单元,用于根据布尔结果确定是否存在语音信号。
可选的,盲源分离进行模块230,包括:
盲源分离进行单元,用于将傅里叶变换后的音频信号进行盲源分离。
可选的,盲源分离,包括基于独立向量分析IVA的盲源分离。
本发明实施例所提供的语音信号处理装置可执行本发明任意实施例所提供的语音信号处理方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3是本发明实施例三提供的一种助听器的结构示意图,如图3所示,该助听器包括:
一个或多个处理器410,图3中以一个处理器410为例;
存储器420;
所述设备还可以包括:输入装置430和输出装置440。
所述设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种语音信号处理方法对应的程序指令/模块(例如,附图2所示的音频信号接收模块210,语音频信号检测模块220,盲源分离进行模块230和音频信号处理模块240)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种语音信号处理方法,即:
通过麦克风阵列接收音频信号;
对所述语音频信号进行检测,确定是否存在语音信号;
若存在语音信号,将所述音频信号进行盲源分离,得到所述语音信号,并将所述语音信号输出;
若不存在语音信号,将所述音频信号输出或者丢弃。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种语音信号处理方法:
通过麦克风阵列接收音频信号;
对所述语音频信号进行检测,确定是否存在语音信号;
若存在语音信号,将所述音频信号进行盲源分离,得到所述语音信号,并将所述语音信号输出;
若不存在语音信号,将所述音频信号输出或者丢弃。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音信号处理方法,其特征在于,包括:
通过麦克风阵列接收音频信号;
对所述语音频信号进行检测,确定是否存在语音信号;
若存在语音信号,将所述音频信号进行盲源分离,得到所述语音信号,并将所述语音信号输出;
若不存在语音信号,将所述音频信号输出或者丢弃。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号输出,包括:
将所述语音信号输出至助听器;
相应的,所述将所述音频信号输出或者丢弃,包括:
将所述音频信号输出至助听器或者将所述音频信号不输出至助听器。
3.根据权利要求1所述的方法,其特征在于,所述对所述语音频信号进行检测,确定是否存在语音信号,包括:
将所述语音频信号进行去均值预加重;
将去均值预加重后的音频信号进行傅里叶变换;
将傅里叶变换后的音频信号提取滤波器fbank特征,并进行特征修正;
将修正的fbank特征进行解码,确定是否存在语音信号。
4.根据权利要求3所述的方法,其特征在于,所述将修正的fbank特征进行解码,确定是否存在语音信号,包括:
通过神经网络进行解码,获取是否存在语音信号的布尔结果;
根据所述布尔结果确定是否存在语音信号。
5.根据权利要求3所述的方法,其特征在于,所述将所述音频信号进行盲源分离,包括:
将所述傅里叶变换后的音频信号进行盲源分离。
6.根据权利要求1-5任一所述的方法,其特征在于,所述盲源分离,包括基于独立向量分析IVA的盲源分离。
7.一种语音信号处理装置,其特征在于,包括:
音频信号接收模块,用于通过麦克风阵列接收音频信号;
语音频信号检测模块,用于对所述语音频信号进行检测,确定是否存在语音信号;
盲源分离进行模块,用于若存在语音信号,将所述音频信号进行盲源分离,得到所述语音信号,并将所述语音信号输出;
音频信号处理模块,用于若不存在语音信号,将所述音频信号输出或者丢弃。
8.根据权利要求7所述的装置,其特征在于,所述盲源分离进行模块,包括:
语音信号输出单元,用于将所述语音信号输出至助听器;
相应的,所述音频信号处理模块,包括:
音频信号处理单元,用于将所述音频信号输出至助听器或者将所述音频信号不输出至助听器。
9.一种助听器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的一种语音信号处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的一种语音信号处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380159.XA CN110992967A (zh) | 2019-12-27 | 2019-12-27 | 一种语音信号处理方法、装置、助听器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380159.XA CN110992967A (zh) | 2019-12-27 | 2019-12-27 | 一种语音信号处理方法、装置、助听器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110992967A true CN110992967A (zh) | 2020-04-10 |
Family
ID=70078047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911380159.XA Pending CN110992967A (zh) | 2019-12-27 | 2019-12-27 | 一种语音信号处理方法、装置、助听器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992967A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477241A (zh) * | 2020-04-15 | 2020-07-31 | 南京邮电大学 | 一种面向家居噪声环境的分层自适应去噪方法及系统 |
CN112562742A (zh) * | 2020-12-29 | 2021-03-26 | 苏州思必驰信息科技有限公司 | 语音处理方法和装置 |
CN112653979A (zh) * | 2020-12-29 | 2021-04-13 | 苏州思必驰信息科技有限公司 | 自适应去混响方法和装置 |
CN113115190A (zh) * | 2021-03-31 | 2021-07-13 | 歌尔股份有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN111856402B (zh) * | 2020-07-23 | 2023-08-18 | 海尔优家智能科技(北京)有限公司 | 信号处理方法及装置、存储介质、电子装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101278337A (zh) * | 2005-07-22 | 2008-10-01 | 索福特迈克斯有限公司 | 噪声环境中语音信号的健壮分离 |
CN101903948A (zh) * | 2007-12-19 | 2010-12-01 | 高通股份有限公司 | 用于基于多麦克风的语音增强的系统、方法及设备 |
CN102436807A (zh) * | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
CN202749088U (zh) * | 2012-08-08 | 2013-02-20 | 滨州学院 | 一种盲源分离算法的语音增强系统 |
CN103559879A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种识别系统中声学特征提取方法及装置 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
US20180350381A1 (en) * | 2017-05-31 | 2018-12-06 | Apple Inc. | System and method of noise reduction for a mobile device |
CN109874096A (zh) * | 2019-01-17 | 2019-06-11 | 天津大学 | 一种基于智能终端选择输出的双耳麦克风助听器降噪算法 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
CN110459234A (zh) * | 2019-08-15 | 2019-11-15 | 苏州思必驰信息科技有限公司 | 用于车载的语音识别方法及系统 |
-
2019
- 2019-12-27 CN CN201911380159.XA patent/CN110992967A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101278337A (zh) * | 2005-07-22 | 2008-10-01 | 索福特迈克斯有限公司 | 噪声环境中语音信号的健壮分离 |
CN101903948A (zh) * | 2007-12-19 | 2010-12-01 | 高通股份有限公司 | 用于基于多麦克风的语音增强的系统、方法及设备 |
CN102436807A (zh) * | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
CN202749088U (zh) * | 2012-08-08 | 2013-02-20 | 滨州学院 | 一种盲源分离算法的语音增强系统 |
CN103559879A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种识别系统中声学特征提取方法及装置 |
US20180350381A1 (en) * | 2017-05-31 | 2018-12-06 | Apple Inc. | System and method of noise reduction for a mobile device |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109874096A (zh) * | 2019-01-17 | 2019-06-11 | 天津大学 | 一种基于智能终端选择输出的双耳麦克风助听器降噪算法 |
CN110428854A (zh) * | 2019-08-12 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 车载端的语音端点检测方法、装置和计算机设备 |
CN110459234A (zh) * | 2019-08-15 | 2019-11-15 | 苏州思必驰信息科技有限公司 | 用于车载的语音识别方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477241A (zh) * | 2020-04-15 | 2020-07-31 | 南京邮电大学 | 一种面向家居噪声环境的分层自适应去噪方法及系统 |
CN111856402B (zh) * | 2020-07-23 | 2023-08-18 | 海尔优家智能科技(北京)有限公司 | 信号处理方法及装置、存储介质、电子装置 |
CN112562742A (zh) * | 2020-12-29 | 2021-03-26 | 苏州思必驰信息科技有限公司 | 语音处理方法和装置 |
CN112653979A (zh) * | 2020-12-29 | 2021-04-13 | 苏州思必驰信息科技有限公司 | 自适应去混响方法和装置 |
CN112562742B (zh) * | 2020-12-29 | 2022-10-21 | 思必驰科技股份有限公司 | 语音处理方法和装置 |
CN113115190A (zh) * | 2021-03-31 | 2021-07-13 | 歌尔股份有限公司 | 音频信号处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503970B (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN110992967A (zh) | 一种语音信号处理方法、装置、助听器及存储介质 | |
CN102164328B (zh) | 一种用于家庭环境的基于传声器阵列的音频输入系统 | |
CN109121057B (zh) | 一种智能助听的方法及其系统 | |
CN110010143B (zh) | 一种语音信号增强系统、方法及存储介质 | |
CN109493877B (zh) | 一种助听装置的语音增强方法和装置 | |
CN112424863B (zh) | 语音感知音频系统及方法 | |
AU2010204470B2 (en) | Automatic sound recognition based on binary time frequency units | |
US20060206320A1 (en) | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers | |
US10154353B2 (en) | Monaural speech intelligibility predictor unit, a hearing aid and a binaural hearing system | |
US11832072B2 (en) | Audio processing using distributed machine learning model | |
CN112185408B (zh) | 音频降噪方法、装置、电子设备以及存储介质 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN116343756A (zh) | 人声透传方法、装置、耳机、存储介质及程序产品 | |
CN113314134B (zh) | 一种骨传导信号补偿方法及装置 | |
CN114302286A (zh) | 一种通话语音降噪方法、装置、设备及存储介质 | |
CN114664322A (zh) | 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机 | |
CN113593593A (zh) | 一种具有音频识别功能的虚拟隔音通信方法 | |
CN113593612A (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
CA3146517A1 (en) | Speech-tracking listening device | |
CN112118511A (zh) | 耳机降噪方法、装置、耳机及计算机可读存储介质 | |
JP2005157086A (ja) | 音声認識装置 | |
JP2015155982A (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
CN112312258B (zh) | 一种具有听力防护及听力补偿的智能耳机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215021 building 14, Tengfei Science Park, No. 388, Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215021 building 14, Tengfei Science Park, No. 388, Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |