CN107945815A - 语音信号降噪方法及设备 - Google Patents
语音信号降噪方法及设备 Download PDFInfo
- Publication number
- CN107945815A CN107945815A CN201711207556.8A CN201711207556A CN107945815A CN 107945815 A CN107945815 A CN 107945815A CN 201711207556 A CN201711207556 A CN 201711207556A CN 107945815 A CN107945815 A CN 107945815A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice signal
- voice
- sample
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims description 79
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 24
- 230000009467 reduction Effects 0.000 description 12
- 238000011946 reduction process Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 206010061218 Inflammation Diseases 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种语音信号降噪方法及设备。其中,方法的部分包括以下步骤:根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号;从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号;根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号。本发明提供的方法可以有效滤除语音信号中的环境噪声信号和其他噪声信号。
Description
技术领域
本发明涉及信号处理技术领域,尤其涉及一种语音信号降噪方法及设备。
背景技术
随着科技的发展,出现了很多具有语音输入功能的设备,例如手机、机器人、语音音响等。在用户通过耳机上的麦克风输入语音信号的过程中,除了用户的语音信号,也会混入一些噪声信号,这些噪声信号会对用户输入的语音信号造成干扰,降低有效语音信号的清晰度。
目前,主要使用最小均方(Least Mean Square,LMS)算法对用户输入的信号进行降噪处理。该LMS算法主要用于滤除环境噪声信号,若用户输入的信号中除了环境噪声信号之外还掺杂着其它人的声音信号,在采用LMS算法进行降噪后仍得到不清晰的有效语音信号。由此可见,需要一种更为有效的语音信号降噪方法,去除语音信号中的各种噪声,以获得清晰的有效语音信号。
发明内容
本发明的多个方面提供一种语音信号降噪方法及设备,用以有效地去除语音信号中的环境噪声信号和其他噪声信号,以获的清晰的语音信号。
本发明提供一种语音信号降噪方法,包括:
根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号;
从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号;
根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号。
可选地,所述从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号,包括:
对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征;
计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度;
将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。
可选地,所述对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征,包括:
对所述第一语音信号进行加窗处理,以获得至少一帧语音信号;
对所述至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号;
提取所述至少一帧频域信号的频谱特征,以获得所述第一语音信号的频谱特征。
可选地,所述提取所述至少一帧频域信号的频谱特征,以获得所述第一语音信号的频谱特征,包括:
从所述至少一帧频域信号中,选择一帧频域信号作为第一频域信号;
按照预设的幅度-灰度映射关系,将所述第一频域信号中各频率上的信号幅度映射为灰度值;
将所述第一频域信号中各频率对应的灰度值,作为所述第一语音信号的频谱特征。
可选地,所述根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号,包括:
根据与所述第一语音信号相匹配的样本信号,采用最小均方算法计算每一帧频域信号中的其它噪声值;
将每一帧频域信号减去每一帧频域信号中的其它噪声值,以得到每一帧有效频域信号;
对所述每一帧有效频域信号进行傅里叶反变换,以得到每一帧有效时域信号;
将每一帧有效时域信号顺次组合,以得到所述有效语音信号。
可选地,在所述根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号之前,所述方法还包括:
通过距离声源在第一指定距离内的第一麦克风采集所述原始输入信号;以及
通过距离所述声源在所述第一指定距离外、第二指定距离内的第二麦克风采集所述干扰信号;
其中,所述第二指定距离大于所述第一指定距离。
可选地,所述根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号,包括:
采用最小均方算法,根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到所述第一语音信号。
本发明还提供一种电子设备,包括:处理器,以及与所述处理器连接的存储器;
所述存储器,用于存储一条或多条计算机指令;
所述处理器,用于执行所述一条或多条计算机指令,以用于:
根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号;
从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号;
根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号。
可选地,所述处理器在从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号时,具体用于:
对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征;
计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度;
将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。
可选地,所述处理器在对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征时,具体用于:
对所述第一语音信号进行加窗处理,以获得至少一帧语音信号;
对所述至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号;
提取所述至少一帧频域信号的频谱特征,以获得所述第一语音信号的频谱特征。
在本发明中,通过滤除原始输入信号中的环境噪声信号,以得到第一语音信号,实现了原始输入信号的第一次降噪,即滤除了环境噪声信号;在此基础上,根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号,使得能够依照与第一语音信号相匹配的样本信号,保留用户发出的有效语音信号,滤除除有效信号之外的其他噪声信号,实现第二次降噪。尤其是当其他噪声信号是其他说话者发出的语音时,能够根据样本信号有效滤除。本实施例中,通过两次降噪,依次滤除原始输入信号中的环境噪声信号和其他噪声信号,获得的有效语音信号更为清晰。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一实施例提供的语音信号降噪方法的流程示意图;
图2为本发明又一实施例提供的第一帧频域信号中各频率对应的灰度值;
图3为本发明又一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明各实施例提供的技术方案。
图1为本发明一实施例提供的语音信号降噪方法的流程示意图。如图1所示,该方法包括以下步骤:
S101:根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号。
S102:从语音信号样本库中,获取与第一语音信号相匹配的样本信号。
S103:根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号。
原始输入信号指用户通过耳机、手机等设备上的麦克风输入的语音信号。由于环境噪声和其他说话者的存在,原始输入信号除了用户发出的有效语音信号外还会包括环境噪声信号和其他噪声信号。其中,环境噪声信号是指在工业生产、建筑施工、交通运输和社会生活中所产生的干扰周围生活环境的声音信号。其他噪声信号可以指除环境噪声之外的噪声信号,例如除用户外的其他说话者发出的语音信号。
本实施例中,首先对原始输入信号进行第一次降噪处理,以滤除原始输入信号中的环境噪声信号。然后对第一次降噪处理后的语音信号进行第二次降噪处理,以滤除其他说话者发出的语音信号等其他噪声信号,进而得到更加清晰的语音信号。为了方便描述,将最后得到的语音信号称为有效语音信号。
下面详细说明对原始输入信号进行两次降噪处理的过程。
第一次降噪处理:根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号(即步骤S101)。
干扰信号是从与原始输入信号的环境相同的环境中采集的信号。例如,原始输入信号是从下雨的环境中采集的,那么干扰信号也是从下雨的环境中采集的。干扰信号主要由环境噪声信号构成,与环境噪声信号具有相随变动的关系,也即干扰信号与环境噪声信号相关。
基于干扰信号与环境噪声信号的相关性,可以采用降噪算法,例如最小均方算法,根据干扰信号得到的逼近环境噪声信号的信号。再将原始输入信号减去根据干扰信号得到的信号,以获得滤除环境噪声信号的语音信号。为方便描述,将滤除环境噪声信号的语音信号称为第一语音信号。
第一语音信号除了有效语音信号外还会包括其他噪声信号,基于此,下面对第一语音信号进行第二次降噪处理。
第二次降噪处理:从语音信号样本库中,获取与第一语音信号相匹配的样本信号(即步骤S102);根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号(即步骤S103)。
语音信号样本库中存储有至少一个样本信号。这些样本信号可以是用户在比较安静的环境中预先输入的语音信号,这些样本信号可以认为是不包括噪声的有效语音信号。其中,一个用户可以对应一个样本信号也可以对应多个样本信号。例如,用户可以在嗓子正常和发炎两种情况下,各存储一个样本信号。
样本信号与第一语音信号相匹配指的是样本信号与第一语音信号的时域波形、频谱特性或统计特性等相匹配。如果第一语音信号与样本信号相匹配,说明第一语音信号包括用户发出的有效语音信号,则可以根据样本信号对第一语音信号再次进行降噪处理,以得到有效语音信号。
其中,基于第一语音信号与该样本信号相匹配,使得该样本信号与第一语音信号中的有效语音信号具有相关性,与其他噪声信号不具有相关性。基于此,可以根据该样本信号,保留与样本信号相关的信号,也就是有效语音信号;滤除与样本信号不相关的信号,即其他噪声信号。
在一示例中,其他噪声信号例如是其他说话者的语音信号。与第一语音信号相匹配的样本信号例如为信号A。由于其他说话者的发声系统与用户的发声系统不同,导致其他说话者发出的语音信号与信号A不相关。基于此,可以滤除第一语音信号中的其他说话者的语音信号,以得到用户的发出的有效语音信号。
本实施例中,通过滤除原始输入信号中的环境噪声信号,以得到第一语音信号,实现了原始输入信号的第一次降噪,即滤除了环境噪声信号;在此基础上,根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号,使得能够依照与第一语音信号相匹配的样本信号,保留用户发出的有效语音信号,滤除除有效信号之外的其他噪声信号,实现第二次降噪。尤其是当其他噪声信号是其他说话者发出的语音时,可以根据样本信号有效滤除。本实施例中,通过两次降噪,依次滤除原始输入信号中的环境噪声信号和其他噪声信号,获得的有效语音信号更为清晰。
在上述实施例或下述实施例中,从语音信号样本库中,获取与第一语音信号相匹配的样本信号,包括:对第一语音信号进行声纹识别,以获得第一语音信号的频谱特征;计算第一语音信号的频谱特征与语音信号样本库中存储的各样本信号的频谱特征的相似度;将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。
其中,声纹是用电声学仪器显示的携带言语信息的声波频谱。通过对第一语音信号进行声纹识别可以得到第一语音信号中携带言语信息的声波频谱,进而从声波频谱中提取该声波频谱的特征作为第一语音信号的频谱特征。
不同人的语音信号的频谱特征不同,若两个语音信号的频谱特征越相似,说明两个语音信号的发声者是同一人的概率越高,两个语音信号也就越匹配。基于此,计算第一语音信号的频谱特征与语音信号样本库中存储的各样本信号的频谱特征的相似度;将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。
可选地,语音信号样本库中除了存储至少一个样本信号外,可以存储各样本信号对应的频谱特征,以便能够直接对比第一语音信号和各样本信号的相似度。
可选地,可以计算第一语音信号和各样本信号在同一频率下的的幅度的差值,差值越大说明第一语音信号与该样本信号的相似度越低,则第一语音信号包括用户的发出的语音信号的概率越小;差值与越小说明第一语音信号与该样本信号的相似度越高,则第一语音信号包括用户发出的语音信号的概率越大。基于此,将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。
语音信号样本库中,可能未存储用户的语音信号,也就不存在与第一语音信号相匹配的样本信号。基于此,可以设置一相似度阈值。将与第一语音信号的频谱特征的相似度最高、且相似度大于相似度阈值的样本信号作为与第一语音信号相匹配的样本信号,进而执行后续降噪操作。若语音信号样本库中不存在与第一语音信号的频谱特征的相似度最高、且相似度大于相似度阈值的样本信号,则可以直接将第一语音信号作为有效语音信号,并结束操作。
在上述实施例或下述实施例中,在对第一语音信号进行声纹识别,以获得第一语音信号的频谱特征的过程中,可以首先对第一语音信号进行加窗处理,以获得至少一帧语音信号;然后,对至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号;接着,提取至少一帧频域信号的频谱特征,以获得第一语音信号的频谱特征。
在使用计算机进行信号处理时,不能对无限长的信号进行处理,而是取其有限的时间片段进行分析;而且,由于语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或是缓慢的,于是可截取一小段语音信号进行频谱分析。基于此,可以通过窗函数,将第一语音信号拆分成至少一个时间片段的信号,每一个时间片段的信号可以称为一帧语音信号。其中,时间片段的长度可以为10~30ms中的任一时长。
可选地,若第一语音信号的时间长度在10~30ms,则可以不对第一语音信号进行加窗处理,直接将第一语音信号作为一帧语音信号。
至少一帧语音信号是时域信号,为了获取语音信号在频域中的频谱特征,可对至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号。可选地,可以对至少一帧语音信号进行快速傅里叶变换(fast Fourier transform,FFT)。其中,FFT即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数越多,FFT算法计算量的节省就越显著。
接着,从至少一帧频域信号中,提取至少一帧频域信号的频谱特征,以获得第一语音信号的频谱特征。
对于每一帧语音信号来说,频谱特征几乎是相同的。因此,可以从至少一帧频域信号中,选择一帧频域信号作为第一频域信号;提取第一频域信号的频谱特征,作为第一语音信号的频谱特征。
可选地,可以从至少一帧频域信号中任选一帧作为第一频域信号。
语音信号的频谱指的是语音信号的各频率与信号幅度的对应关系。为了能够清晰、直观地反映语音信号的频谱特征,可以预设一幅度-灰度映射关系,将各频率对应的信号幅度大小用相应的灰度表述。可选地,将各频率对应的信号幅度所在的幅度范围量化为256个量化值,0表示黑色,255表示白色,幅度值越大,对应的灰度值越小。
然后,在幅度-灰度映射关系中,查找第一频域信号中各频率上的信号幅度对应的灰度值,以将各频率上的信号幅度映射为灰度值。继而,将第一频域信号中各频率对应的灰度值,作为第一语音信号的频谱特征。
在一示例中,如图2所示,第一频域信号中各频率例如为0Hz、400Hz、800Hz、1200Hz、1600Hz和2000Hz。各频率对应的灰度值分别为255、0、155、255、50、200。这些各频率对应的灰度值就是第一语音信号的频谱特征。
可选地,除了将第一频域信号中各频率对应的灰度值作为第一语音信号的频谱特征之外,还可以将第一频域信号的频率-分贝曲线对应的包络线信息作为第一语音信号的频谱特征。
可选地,将第一频域信号中各频率对应的振幅作对数计算,以得到各频率对应的分贝,进而得到各频率与分贝的对应关系。然后,根据各频率与分贝的对应关系获得频率-分贝曲线,继而得到频率-分贝曲线对应的包络线信息。
在获取第一频域信号中各频率对应的灰度值之后,可以从语音信号样本库中,获取与第一频域信号中各频率对应的灰度值相近的样本信号。
可选地,在语音信号样本库中可以预先存储样本信号中各频率对应的灰度值。若第一频域信号中各频率对应的灰度值与样本信号中相同频率对应的灰度值之差在指定阈值范围内,可以认为该样本信号与第一频域信号相匹配,进一步,该样本信号与第一语音信号相匹配。
样本信号中各频率对应的灰度值的获取方法与第一频域信号中各频率对应的灰度值的获取方法类似。对于一个样本信号来说,可以接收用户输入的样本信号,这个样本信号是时域信号。然后,对时域样本信号进行加窗处理以及傅里叶变换,以得到至少一帧频域样本信号。从至少一帧频域样本信号选择一帧频域样本信号,作为第一频域样本信号。按照预设的幅度-灰度映射关系,将第一频域样本信号中各频率上的信号幅度映射为灰度值。
进一步地,将第一频域样本信号中各频率对应的灰度值,作为第一频域样本的频谱特征,也就是该样本信号的频谱特征。
值得说明的是,每一帧频域信号的帧长应与每一帧样本信号的帧长相同。若一帧频域信号的时间长度是10ms,则与该帧频域信号相匹配的样本信号的帧长应是10ms。
在上述实施例或下述实施例中,根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号,包括:根据与第一语音信号相匹配的样本信号,采用最小均方算法计算每一帧频域信号中的其它噪声值;将每一帧频域信号减去每一帧频域信号中的其它噪声值,以得到每一帧有效频域信号;对每一帧有效频域信号进行傅里叶反变换,以得到每一帧有效时域信号;将每一帧有效时域信号顺次组合,以得到有效语音信号。
其中,最小均方算法是以期望响应和输出信号之间的误差的均方值最小为基准的,是依据输入信号在迭代过程中估计梯度矢量,并更新权系数以达到最优的自适应迭代算法。最小均方算法是一种梯度最速下降方法,其显著的特点和优点是简单性、快速性。
第一语音信号可转换为至少一帧频域信号,对于至少一帧频域信号中的每一帧频域信号而言,滤除其他噪声信号的方法相同。下面以第一帧频域信号为例,说明滤除第一帧频域信号中的其他噪声信号的方法。
采用权函数,对第一帧频域信号进行加权处理,以得到第一帧加权信号。将与第一语音信号相匹配的样本信号和第一加权信号作为输入,将第一帧频域信号中的其他噪声值作为期望输出。经过最小均方算法,多次迭代第一帧加权信号中的权函数,使得将第一帧加权信号逼近样本信号。当第一帧加权信号逼近样本信号时,权函数可称为最优权函数。
可选地,可以将第一帧加权信号中的权函数迭代指定次数,以得到最优权函数;也可以多次迭代第一帧加权信号中的权函数,当第一帧加权信号与样本信号之差在指定误差范围内时,所得的权函数为最优权函数。
然后,将样本信号减去最优权函数与第一帧频域信号的乘积,以得到其他噪声值。最后,将第一帧频域信号减去第一帧频域信号中的其他噪声值,以得到第一帧频域信号中的有效信号。同理,可以得到每一帧频域信号中的有效语音信号。
上述得到的每一帧频域信号中的有效语音信号是频域信号,还要将其转换为时域信号。基于此,对每一帧有效频域信号进行傅里叶反变换,以得到每一帧有效时域信号;然后,将每一帧有效时域信号按照时间顺序,顺次组合,建立帧与帧之间的连接关系,以得到时域内的有效语音信号。该时域内的有效语音信号是去除环境噪声信号和其他噪声信号的信号,可以用于输出至扬声器、语音识别、语音通信等操作。
可选地,与滤除其他噪声信号的方法类似,本实施例中也可以采用最小均方算法,根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号。
首先,如式(1)所示,对干扰信号进行加权处理,以得到加权信号。
y(n)=w(n)x(n),n=1,…,M;x(n)=N1(n) (1)
其中,M是迭代次数,x(n)是干扰信号,w(n)是权函数。
原始输入信号d(n)=s(n)+N0(n),其中,s(n)是第一语音信号,N0(n)是环境噪声信号。其中N0(n)与N1(n)相关。
然后,将干扰信号和原始输入信号作为输入,将第一语音信号作为期望输出,经过最小均方算法,多次迭代加权信号中的权函数,使得加权信号逼近环境噪声信号。此时的权函数可称为最优权函数。然后,将原始输入信号减去最优权函数与干扰信号的乘积,以得到第一语音信号。
具体而言,期望输出为原始输入信号减去加权信号的差值,即误差信号,如式(2)所示。
e(n)=d(n)-y(n)=s(n)+N0(n)-y(n) (2)
期望输出的均方差为:
由于s(n)与N0(n)不相关,s(n)与N1(n)不相关,则有式(4)
E[s(n)·(N0(n)-y(n))]=0 (4)
进一步,将式(4)代入式(3)中得到式(5)
E[e2(n)]=E[s2(n)]+E[(N0(n)-y(n))2] (5)
由于s(n)为定值,若使E[e2(n)]取最小值,则有式(6)
N0(n)=y(n)=w(n)x(n)=w(n)N1(n) (6)
进一步,将式(6)代入式(5)中,得到式(7)
e(n)=s(n) (7)
在最小均方算法初始时,可以将权函数设为0,后续将权函数自适应更新。权函数的自适应更新过程如下。
如式(8)所示,计算误差信号e(n)。
e(n)=d(n)-y(n)=d(n)-w(n)x(n) (8)
然后,计算误差信号e(n)的误差均方差ξ(n)。
ξ(n)=E[e2(n)]=E[d2(n)-2d(n)y(n)+y2(n)] (9)
设R是x(n)的自相关矩阵,P是x(n)与d(n)的互相关矩阵,则根据式(9)可以得到式(10)。
ξ(n)=E[e2(n)]=E[d2(n)]+w(n)Rw(n)-2Pw(n) (10)
然后,计算误差均方差梯度:
简化误差均方差梯度:
▽=-2e(n)x(n) (12)
不断迭代权函数,直到迭代次数为M。更新的权函数可以表示为:
w(n+1)=w(n)+2μe(n)x(n) (13)
其中,μ是一个比较小的值,以使权函数的更新算法是收敛的,进而保证算法的准确性。
在得到每次迭代过程中的权函数后,可以将权函数代入式(6)中,得到与环境噪声信号逼近的加权信号,即y(n)。然后,通过原始信号减去加权信号,即d(n)-y(n),就得到滤除环境噪声信号的第一语音信号。
在上述实施例或下述实施例中,为了准确采集到干扰信号和原始输入信号,在根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号之前,可以通过距离声源在第一指定距离内的第一麦克风采集原始输入信号;以及通过距离声源在第一指定距离外、第二指定距离内的第二麦克风采集干扰信号。其中,第二指定距离大于第一指定距离。
若第一麦克风和第二麦克风安装在头戴式耳机上,声源为用户的口部,则第一麦克风可以设置在距离用户的口部第一指定距离内的位置,即靠近用户的口部的位置,例如头戴式耳机上对应嘴角的位置。第二麦克风可以设置在距离用户的口部第一指定距离外、第二指定距离内的位置,即远离用户的口部的位置,例如头戴式耳机上对应头顶的位置。
本实施例中,第一麦克风和第二麦克风应处于相同的环境中,使得第一麦克风采集的原始输入信号中的环境噪声信号与第二麦克风采集的干扰信号相关。第一麦克风靠近声源,第二麦克风远离声源,使得第一麦克风采集的原始输入信号中大部分为有效语音信号,小部分为环境噪声信号和其他噪声信号;第二麦克风采集的干扰信号中大部分为环境噪声信号,小部分为有效语音信号。基于此,可以根据第二麦克风采集到的干扰信号,滤除第一麦克风采集到的原始输入信号中的环境噪声信号,以得到第一语音信号。
图3为本发明又一实施例提供的电子设备的结构示意图。如图3所示,电子设备200包括处理器201,以及与处理器201连接的存储器202;
存储器202,用于存储一条或多条计算机指令。
处理器201,用于执行一条或多条计算机指令,以用于:根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号;从语音信号样本库中,获取与第一语音信号相匹配的样本信号;根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号。
本实施例中,通过滤除原始输入信号中的环境噪声信号,以得到第一语音信号,实现了原始输入信号的第一次降噪,即滤除了环境噪声信号;在此基础上,根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号,使得能够依照与第一语音信号相匹配的样本信号,保留用户发出的有效语音信号,滤除除有效信号之外的其他噪声信号,实现第二次降噪。尤其是当其他噪声信号是其他说话者发出的语音时,能够根据样本信号有效滤除。本实施例中,通过两次降噪,依次滤除原始输入信号中的环境噪声信号和其他噪声信号,获得的有效语音信号更为清晰。
可选地,处理器201在从语音信号样本库中,获取与第一语音信号相匹配的样本信号时,具体用于:对第一语音信号进行声纹识别,以获得第一语音信号的频谱特征;计算第一语音信号的频谱特征与语音信号样本库中存储的各样本信号的频谱特征的相似度;将与第一语音信号的频谱特征的相似度最高的样本信号作为与第一语音信号相匹配的样本信号。
可选地,处理器201在对第一语音信号进行声纹识别,以获得第一语音信号的频谱特征时,具体用于:对第一语音信号进行加窗处理,以获得至少一帧语音信号;对至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号;提取至少一帧频域信号的频谱特征,以获得第一语音信号的频谱特征。
可选地,处理器201在提取至少一帧频域信号的频谱特征,以获得第一语音信号的频谱特征时,具体用于:从至少一帧频域信号中,选择一帧频域信号作为第一频域信号;按照预设的幅度-灰度映射关系,将第一频域信号中各频率上的信号幅度映射为灰度值;将第一频域信号中各频率对应的灰度值,作为第一语音信号的频谱特征。
可选地,处理器201在根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号时,具体用于:根据与第一语音信号相匹配的样本信号,采用最小均方算法计算每一帧频域信号中的其它噪声值;将每一帧频域信号减去每一帧频域信号中的其它噪声值,以得到每一帧有效频域信号;对每一帧有效频域信号进行傅里叶反变换,以得到每一帧有效时域信号;将每一帧有效时域信号顺次组合,以得到有效语音信号。
可选地,处理器201在根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号之前,还用于:通过距离声源在第一指定距离内的第一麦克风采集原始输入信号;以及通过距离声源在第一指定距离外、第二指定距离内的第二麦克风采集干扰信号;其中,第二指定距离大于第一指定距离。
可选地,处理器201在根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号时,具体用于:采用最小均方算法,根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号。
本发明实施例还提供了一种计算机存储介质,该计算机存储介质存储一条或多条计算机指令,该一条或多条计算机指令被计算机执行时,可实现:根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除原始输入信号中的环境噪声信号,以得到第一语音信号;从语音信号样本库中,获取与第一语音信号相匹配的样本信号;根据与第一语音信号相匹配的样本信号,滤除第一语音信号中的其它噪声信号,以得到有效语音信号。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (10)
1.一种语音信号降噪方法,其特征在于,包括:
根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号;
从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号;
根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号。
2.根据权利要求1所述的方法,其特征在于,所述从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号,包括:
对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征;
计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度;
将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征,包括:
对所述第一语音信号进行加窗处理,以获得至少一帧语音信号;
对所述至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号;
提取所述至少一帧频域信号的频谱特征,以获得所述第一语音信号的频谱特征。
4.根据权利要求3所述的方法,其特征在于,所述提取所述至少一帧频域信号的频谱特征,以获得所述第一语音信号的频谱特征,包括:
从所述至少一帧频域信号中,选择一帧频域信号作为第一频域信号;
按照预设的幅度-灰度映射关系,将所述第一频域信号中各频率上的信号幅度映射为灰度值;
将所述第一频域信号中各频率对应的灰度值,作为所述第一语音信号的频谱特征。
5.根据权利要求3所述的方法,其特征在于,所述根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号,包括:
根据与所述第一语音信号相匹配的样本信号,采用最小均方算法计算每一帧频域信号中的其它噪声值;
将每一帧频域信号减去每一帧频域信号中的其它噪声值,以得到每一帧有效频域信号;
对所述每一帧有效频域信号进行傅里叶反变换,以得到每一帧有效时域信号;
将每一帧有效时域信号顺次组合,以得到所述有效语音信号。
6.根据权利要求1所述的方法,其特征在于,在所述根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号之前,所述方法还包括:
通过距离声源在第一指定距离内的第一麦克风采集所述原始输入信号;以及
通过距离所述声源在所述第一指定距离外、第二指定距离内的第二麦克风采集所述干扰信号;
其中,所述第二指定距离大于所述第一指定距离。
7.根据权利要求1所述的方法,其特征在于,所述根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号,包括:
采用最小均方算法,根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到所述第一语音信号。
8.一种电子设备,其特征在于,包括:处理器,以及与所述处理器连接的存储器;
所述存储器,用于存储一条或多条计算机指令;
所述处理器,用于执行所述一条或多条计算机指令,以用于:
根据与原始输入信号中的环境噪声信号相关的干扰信号,滤除所述原始输入信号中的环境噪声信号,以得到第一语音信号;
从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号;
根据与所述第一语音信号相匹配的样本信号,滤除所述第一语音信号中的其它噪声信号,以得到有效语音信号。
9.根据权利要求8所述的电子设备,其特征在于,所述处理器在从语音信号样本库中,获取与所述第一语音信号相匹配的样本信号时,具体用于:
对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征;
计算所述第一语音信号的频谱特征与所述语音信号样本库中存储的各样本信号的频谱特征的相似度;
将与所述第一语音信号的频谱特征的相似度最高的样本信号作为与所述第一语音信号相匹配的样本信号。
10.根据权利要求9所述的电子设备,其特征在于,所述处理器在对所述第一语音信号进行声纹识别,以获得所述第一语音信号的频谱特征时,具体用于:
对所述第一语音信号进行加窗处理,以获得至少一帧语音信号;
对所述至少一帧语音信号进行傅里叶变换,以获得至少一帧频域信号;
提取所述至少一帧频域信号的频谱特征,以获得所述第一语音信号的频谱特征。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711207556.8A CN107945815B (zh) | 2017-11-27 | 2017-11-27 | 语音信号降噪方法及设备 |
US16/766,236 US11475907B2 (en) | 2017-11-27 | 2017-12-20 | Method and device of denoising voice signal |
PCT/CN2017/117553 WO2019100500A1 (zh) | 2017-11-27 | 2017-12-20 | 语音信号降噪方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711207556.8A CN107945815B (zh) | 2017-11-27 | 2017-11-27 | 语音信号降噪方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107945815A true CN107945815A (zh) | 2018-04-20 |
CN107945815B CN107945815B (zh) | 2021-09-07 |
Family
ID=61949069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711207556.8A Active CN107945815B (zh) | 2017-11-27 | 2017-11-27 | 语音信号降噪方法及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11475907B2 (zh) |
CN (1) | CN107945815B (zh) |
WO (1) | WO2019100500A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831440A (zh) * | 2018-04-24 | 2018-11-16 | 中国地质大学(武汉) | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
CN108965904A (zh) * | 2018-09-05 | 2018-12-07 | 北京优酷科技有限公司 | 一种直播间的音量调节方法及客户端 |
CN109005419A (zh) * | 2018-09-05 | 2018-12-14 | 北京优酷科技有限公司 | 一种语音信息的处理方法及客户端 |
CN109104616A (zh) * | 2018-09-05 | 2018-12-28 | 北京优酷科技有限公司 | 一种直播间的语音连麦方法及客户端 |
CN109120947A (zh) * | 2018-09-05 | 2019-01-01 | 北京优酷科技有限公司 | 一种直播间的语音私聊方法及客户端 |
CN109273020A (zh) * | 2018-09-29 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 音频信号处理方法、装置、设备和存储介质 |
CN109410975A (zh) * | 2018-10-31 | 2019-03-01 | 歌尔科技有限公司 | 一种语音降噪方法、设备及存储介质 |
CN109635759A (zh) * | 2018-12-18 | 2019-04-16 | 北京嘉楠捷思信息技术有限公司 | 一种信号处理方法、装置及计算机可读存储介质 |
CN109946023A (zh) * | 2019-04-12 | 2019-06-28 | 西南石油大学 | 一种管道气体泄漏判别装置及判识方法 |
CN110232905A (zh) * | 2019-06-12 | 2019-09-13 | 会听声学科技(北京)有限公司 | 上行降噪方法、装置和电子设备 |
WO2019210605A1 (zh) * | 2018-05-04 | 2019-11-07 | 歌尔科技有限公司 | 一种降噪处理方法、装置和耳机 |
CN111383653A (zh) * | 2020-03-18 | 2020-07-07 | 北京海益同展信息科技有限公司 | 语音处理方法及装置、存储介质、机器人 |
CN111583946A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音信号增强方法和装置以及设备 |
CN112331225A (zh) * | 2020-10-26 | 2021-02-05 | 东南大学 | 一种高噪声环境下辅助听力的方法及装置 |
CN113539291A (zh) * | 2021-07-09 | 2021-10-22 | 北京声智科技有限公司 | 音频信号的降噪方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101432805A (zh) * | 2006-05-02 | 2009-05-13 | 高通股份有限公司 | 用于盲源分离(bss)的增强技术 |
FR2932332A1 (fr) * | 2008-06-04 | 2009-12-11 | Parrot | Systeme de controle automatique de gain applique a un signal audio en fonction du bruit ambiant |
CN102497613A (zh) * | 2011-11-30 | 2012-06-13 | 江苏奇异点网络有限公司 | 用于课堂扩音的双通道实时语音输出方法 |
CN103514884A (zh) * | 2012-06-26 | 2014-01-15 | 华为终端有限公司 | 通话音降噪方法及终端 |
US20140142944A1 (en) * | 2012-11-21 | 2014-05-22 | Verint Systems Ltd. | Diarization Using Acoustic Labeling |
CN104898836A (zh) * | 2015-05-19 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种旋转摄像头调节方法及用户终端 |
US20150278863A1 (en) * | 2014-03-31 | 2015-10-01 | Softfoundry International Pte Ltd. | Information processing method, audio signal-based transaction method, and server system |
CN105632493A (zh) * | 2016-02-05 | 2016-06-01 | 深圳前海勇艺达机器人有限公司 | 一种通过语音控制和唤醒机器人的方法 |
CN105989836A (zh) * | 2015-03-06 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
CN106486130A (zh) * | 2015-08-25 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 噪声消除、语音识别方法及装置 |
EP3167618A1 (en) * | 2015-09-08 | 2017-05-17 | Apple Inc. | Intelligent automated assistant in a media environment |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
CN106971733A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 基于语音降噪的声纹识别的方法及系统以及智能终端 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US20060282264A1 (en) * | 2005-06-09 | 2006-12-14 | Bellsouth Intellectual Property Corporation | Methods and systems for providing noise filtering using speech recognition |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
EP2081189B1 (en) * | 2008-01-17 | 2010-09-22 | Harman Becker Automotive Systems GmbH | Post-filter for beamforming means |
US8639516B2 (en) * | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US9330675B2 (en) * | 2010-11-12 | 2016-05-03 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
US9685171B1 (en) * | 2012-11-20 | 2017-06-20 | Amazon Technologies, Inc. | Multiple-stage adaptive filtering of audio signals |
CN104160443B (zh) * | 2012-11-20 | 2016-11-16 | 统一有限责任两合公司 | 用于音频数据处理的方法、设备和系统 |
JP6314837B2 (ja) * | 2013-01-15 | 2018-04-25 | ソニー株式会社 | 記憶制御装置、再生制御装置および記録媒体 |
US9117457B2 (en) * | 2013-02-28 | 2015-08-25 | Signal Processing, Inc. | Compact plug-in noise cancellation device |
US10306389B2 (en) * | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
CN104050971A (zh) * | 2013-03-15 | 2014-09-17 | 杜比实验室特许公司 | 声学回声减轻装置和方法、音频处理装置和语音通信终端 |
US9530428B2 (en) * | 2013-05-14 | 2016-12-27 | Mitsubishi Electric Corporation | Echo cancellation device |
JP6261043B2 (ja) * | 2013-08-30 | 2018-01-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US9177567B2 (en) * | 2013-10-17 | 2015-11-03 | Globalfoundries Inc. | Selective voice transmission during telephone calls |
US10332541B2 (en) * | 2014-11-12 | 2019-06-25 | Cirrus Logic, Inc. | Determining noise and sound power level differences between primary and reference channels |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
US20170294185A1 (en) * | 2016-04-08 | 2017-10-12 | Knuedge Incorporated | Segmentation using prior distributions |
JP6878776B2 (ja) * | 2016-05-30 | 2021-06-02 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム |
US10170137B2 (en) * | 2017-05-18 | 2019-01-01 | International Business Machines Corporation | Voice signal component forecaster |
US10558421B2 (en) * | 2017-05-22 | 2020-02-11 | International Business Machines Corporation | Context based identification of non-relevant verbal communications |
CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
-
2017
- 2017-11-27 CN CN201711207556.8A patent/CN107945815B/zh active Active
- 2017-12-20 WO PCT/CN2017/117553 patent/WO2019100500A1/zh active Application Filing
- 2017-12-20 US US16/766,236 patent/US11475907B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101432805A (zh) * | 2006-05-02 | 2009-05-13 | 高通股份有限公司 | 用于盲源分离(bss)的增强技术 |
FR2932332A1 (fr) * | 2008-06-04 | 2009-12-11 | Parrot | Systeme de controle automatique de gain applique a un signal audio en fonction du bruit ambiant |
CN102497613A (zh) * | 2011-11-30 | 2012-06-13 | 江苏奇异点网络有限公司 | 用于课堂扩音的双通道实时语音输出方法 |
CN103514884A (zh) * | 2012-06-26 | 2014-01-15 | 华为终端有限公司 | 通话音降噪方法及终端 |
US20140142944A1 (en) * | 2012-11-21 | 2014-05-22 | Verint Systems Ltd. | Diarization Using Acoustic Labeling |
US20150278863A1 (en) * | 2014-03-31 | 2015-10-01 | Softfoundry International Pte Ltd. | Information processing method, audio signal-based transaction method, and server system |
CN105989836A (zh) * | 2015-03-06 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
CN104898836A (zh) * | 2015-05-19 | 2015-09-09 | 广东欧珀移动通信有限公司 | 一种旋转摄像头调节方法及用户终端 |
CN106486130A (zh) * | 2015-08-25 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 噪声消除、语音识别方法及装置 |
EP3167618A1 (en) * | 2015-09-08 | 2017-05-17 | Apple Inc. | Intelligent automated assistant in a media environment |
CN106971733A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 基于语音降噪的声纹识别的方法及系统以及智能终端 |
CN105632493A (zh) * | 2016-02-05 | 2016-06-01 | 深圳前海勇艺达机器人有限公司 | 一种通过语音控制和唤醒机器人的方法 |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
SIYU YANG,等: "An Automated Student Attendance Tracking System Based on Voiceprint and Location", 《ICCSE》 * |
胡琦: "基于计算听觉场景分析的单信道语音分离", 《中国博士学位论文全文数据库 信息科技辑》 * |
郑燕琳,等: "电话语音中基于多说话人的声纹识别系统", 《电信科学》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831440A (zh) * | 2018-04-24 | 2018-11-16 | 中国地质大学(武汉) | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
WO2019210605A1 (zh) * | 2018-05-04 | 2019-11-07 | 歌尔科技有限公司 | 一种降噪处理方法、装置和耳机 |
US11328705B2 (en) | 2018-05-04 | 2022-05-10 | Goertek Technology Co., Ltd. | Noise-reduction processing method and device, and earphones |
CN109005419B (zh) * | 2018-09-05 | 2021-03-19 | 阿里巴巴(中国)有限公司 | 一种语音信息的处理方法及客户端 |
CN108965904A (zh) * | 2018-09-05 | 2018-12-07 | 北京优酷科技有限公司 | 一种直播间的音量调节方法及客户端 |
CN109005419A (zh) * | 2018-09-05 | 2018-12-14 | 北京优酷科技有限公司 | 一种语音信息的处理方法及客户端 |
CN109104616B (zh) * | 2018-09-05 | 2022-01-14 | 阿里巴巴(中国)有限公司 | 一种直播间的语音连麦方法及客户端 |
CN109120947A (zh) * | 2018-09-05 | 2019-01-01 | 北京优酷科技有限公司 | 一种直播间的语音私聊方法及客户端 |
CN109104616A (zh) * | 2018-09-05 | 2018-12-28 | 北京优酷科技有限公司 | 一种直播间的语音连麦方法及客户端 |
CN109273020A (zh) * | 2018-09-29 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 音频信号处理方法、装置、设备和存储介质 |
CN109273020B (zh) * | 2018-09-29 | 2022-04-19 | 阿波罗智联(北京)科技有限公司 | 音频信号处理方法、装置、设备和存储介质 |
CN109410975A (zh) * | 2018-10-31 | 2019-03-01 | 歌尔科技有限公司 | 一种语音降噪方法、设备及存储介质 |
CN109410975B (zh) * | 2018-10-31 | 2021-03-09 | 歌尔科技有限公司 | 一种语音降噪方法、设备及存储介质 |
CN109635759A (zh) * | 2018-12-18 | 2019-04-16 | 北京嘉楠捷思信息技术有限公司 | 一种信号处理方法、装置及计算机可读存储介质 |
CN109946023A (zh) * | 2019-04-12 | 2019-06-28 | 西南石油大学 | 一种管道气体泄漏判别装置及判识方法 |
CN110232905A (zh) * | 2019-06-12 | 2019-09-13 | 会听声学科技(北京)有限公司 | 上行降噪方法、装置和电子设备 |
CN111383653A (zh) * | 2020-03-18 | 2020-07-07 | 北京海益同展信息科技有限公司 | 语音处理方法及装置、存储介质、机器人 |
CN111583946A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音信号增强方法和装置以及设备 |
CN112331225A (zh) * | 2020-10-26 | 2021-02-05 | 东南大学 | 一种高噪声环境下辅助听力的方法及装置 |
CN112331225B (zh) * | 2020-10-26 | 2023-09-26 | 东南大学 | 一种高噪声环境下辅助听力的方法及装置 |
CN113539291A (zh) * | 2021-07-09 | 2021-10-22 | 北京声智科技有限公司 | 音频信号的降噪方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107945815B (zh) | 2021-09-07 |
US11475907B2 (en) | 2022-10-18 |
US20200372925A1 (en) | 2020-11-26 |
WO2019100500A1 (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945815A (zh) | 语音信号降噪方法及设备 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN111223493B (zh) | 语音信号降噪处理方法、传声器和电子设备 | |
CN101014997B (zh) | 用于生成用于自动语音识别器的训练数据的方法和系统 | |
Qi et al. | Auditory features based on gammatone filters for robust speech recognition | |
CN106340292B (zh) | 一种基于连续噪声估计的语音增强方法 | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
US20100094622A1 (en) | Feature normalization for speech and audio processing | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
KR20050020949A (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대잡음비를 사용하는 잡음 감소 방법 | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
Shi et al. | Fusion feature extraction based on auditory and energy for noise-robust speech recognition | |
Maganti et al. | Auditory processing-based features for improving speech recognition in adverse acoustic conditions | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN110795996B (zh) | 心音信号的分类方法、装置、设备及存储介质 | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
CN113035216A (zh) | 麦克风阵列语音的增强方法、及其相关设备 | |
Nataraj et al. | Single channel speech enhancement using adaptive filtering and best correlating noise identification | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Sharma et al. | Speech analysis and feature extraction using SCILAB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |