CN112767963B - 一种语音增强方法、装置、系统及计算机可读存储介质 - Google Patents
一种语音增强方法、装置、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112767963B CN112767963B CN202110119855.6A CN202110119855A CN112767963B CN 112767963 B CN112767963 B CN 112767963B CN 202110119855 A CN202110119855 A CN 202110119855A CN 112767963 B CN112767963 B CN 112767963B
- Authority
- CN
- China
- Prior art keywords
- signal
- time domain
- bone conduction
- frequency
- noise elimination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 235
- 230000008030 elimination Effects 0.000 claims abstract description 119
- 238000003379 elimination reaction Methods 0.000 claims abstract description 119
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims description 39
- 230000004913 activation Effects 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 35
- 238000001228 spectrum Methods 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 4
- 210000003027 ear inner Anatomy 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 210000000959 ear middle Anatomy 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/41—Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/61—Aspects relating to mechanical or electronic switches or control elements, e.g. functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/60—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
- H04R25/604—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
- H04R25/606—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种语音增强方法、装置、系统及计算机可读存储介质,该方法包括:获取当前时刻的时域麦克风信号和时域骨导信号;判断时域麦克风信号和时域骨导信号是否为语音信号,若是,则通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理,并对时域骨导信号进行频域的噪声消除处理;若否,则将与当前时刻对应的输出信号置为零;对经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;依据第一输出时域信号和第二输出时域信号,得到与当前时刻对应的输出时域信号;本发明能够较好的消除背景噪声,有利于提高声音的音质,提升用户体验。
Description
技术领域
本发明实施例涉及语音处理技术领域,特别是涉及一种语音增强方法、装置、系统及计算机可读存储介质。
背景技术
语音增强是解决噪声污染的有效方法,因此被广泛的用于数字移动电话、汽车中Hands-free电话系统、远距离电话会议(teleconferencing)、为听力障碍者降低背景干扰等等民用和军用场合。语音增强的主要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,降低听众的听觉疲劳程度,提高可懂度。
在正常情况下,如图1所示声波可以通过两条路径传入内耳:空气传导和骨传导。空气传导是我们所熟知的声波经耳廓由外耳道传递到中耳,再经听骨链传到内耳,语音频谱成份比较丰富。由于环境噪声的影响,经过空气传导的语音信号不可避免受到噪声的污染。
骨传导是指声波通过颅骨、颌骨等的振动传到内耳,在骨传导中声波无需经过外耳和中耳也可以传递到内耳。骨声纹传感器只能采集与骨导麦克风直接接触并产生振动的信息,理论上不能采集通过空气传播的语音,不受环境噪声的干扰,非常适用于噪声环境下的语音传输。但由于工艺影响,骨声纹传感器只能采集并传送较低频率的语音信号,导致语音听起来比较沉闷,影响音质及用户体验。
鉴于此,如何提供一种解决上述技术问题的语音增强方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种语音增强方法、装置、系统及计算机可读存储介质,在使用过程中可以使输出的声音信号更加好听,提高声音的音质,提升用户体验。
为解决上述技术问题,本发明实施例提供了一种语音增强方法,包括:
获取当前时刻的时域麦克风信号和时域骨导信号;
判断所述时域麦克风信号和所述时域骨导信号是否为语音信号,若是,则通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;若否,则将与所述当前时刻对应的输出信号置为零;
对所述经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对所述经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;
依据所述第一输出时域信号和所述第二输出时域信号,得到与所述当前时刻对应的输出时域信号。
可选的,所述对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号的过程为:
将所述时域骨导信号通过时频转换,转换为频域骨导信号;
对所述频域骨导信号进行频域的噪声消除处理,得到经噪声消除后的频域骨导信号;
判断所述经噪声消除后的频域骨导信号的带宽是否达到预设带宽,若达到,则直接对所述经噪声消除后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号;若不满足,则采用预先建立的DNN带宽扩展模型对所述经噪声消除后的频域骨导信号进行带宽扩展,使扩展后的带宽达到所述预设带宽,并将所述扩展后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号。
可选的,所述通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理,得到消除噪声后的时域麦克风信号的过程为:
对所述时域麦克风信号进行时频变换,得到对应的频域麦克风信号;
提取所述频域麦克风信号的第一信号特征,并采用预先建立的DNN噪声消除模型对所述第一信号特性进行处理,得到与所述频域麦克风信号的各个第一频率点分别对应的第一增益;
计算所述频域麦克风信号中与每个所述第一频率点对应的频谱信号与对应的第一增益的乘积,得到与每个所述第一频率点各自对应的、消除噪声后的频谱信号,以得到消除噪声后的频域麦克风信号;
将所述消除噪声后的频域麦克风信号进行时频反变换,得到消除噪声后的时域麦克风信号。
可选的,所述判断所述时域麦克风信号和所述时域骨导信号是否为语音信号的过程为:
对所述时域骨导信号进行语音激活检测,以判断所述时域骨导信号是否为语音信号;
当所述时域骨导信号为语音信号时,所述时域麦克风信号为语音信号。
可选的,所述对所述时域骨导信号进行语音激活检测,判断所述时域骨导信号是否为语音信号的过程为:
计算所述时域骨导信号对应的过零率及基音周期;
对所述时域骨导信号进行时频变换,得到频域骨导信号;
计算所述频域骨导信号对应的频谱能量及谱质心;
对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断,并得到与所述时域骨导信号对应的语音激活检测标记位;
依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号。
可选的,所述对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断,并得到与所述时域骨导信号对应的语音激活检测标记位的过程为:
判断所述频谱能量是否小于第一预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0;若否,则进入下一步判断;
判断所述过零率是否大于第二预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0,若否,则进入下一步判断;
判断所述基音周期是否大于第三预设值或小于第四预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0;否则,进入下一步判断;
判断所述谱质心是否大于第五预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0;否则,则与所述时域骨导信号对应的语音激活检测标记位为1;
则,所述依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号的过程为:
当所述语音激活检测标记位为1时,所述时域骨导信号为语音信号;
当所述语音激活检测标记位为0时,所述当前的时域骨导信号为噪声信号。
可选的,所述依据所述第一输出时域信号和所述第二输出时域信号,得到与所述当前时刻对应的输出时域信号的过程为:
依据第一权重系数和第二权重系数对所述第一输出时域信号和所述第二输出时域信号进行融合,得到融合后的时域信号;
对融合后的时域信号进行动态调整,使调整后的时域信号在预设范围内,并将调整后的时域信号作为与所述当前时刻对应的输出时域信号。
本发明实施例还提供了一种语音增强装置,包括:
获取模块,用于获取当前时刻的时域麦克风信号和时域骨导信号;
判断模块,用于判断所述时域麦克风信号和所述时域骨导信号是否为语音信号,若是,则触发降噪模块;若否,则触发置零模块;
所述降噪模块,用于通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,用于对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;
所述置零模块,用于将与所述当前时刻对应的输出信号置为零;
滤波模块,用于对所述经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对所述经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;
融合模块,用于依据所述第一输出时域信号和所述第二输出时域信号,得到与所述当前时刻对应的输出时域信号。
本发明实施例还提供了一种语音增强系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述语音增强方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述语音增强方法的步骤。
本发明实施例提供了一种语音增强方法、装置、系统及计算机可读存储介质,该方法通过拾取时域麦克风信号和时域骨导信号,然后通过判断时域麦克风信号和时域骨导信号是否为语音信号,可以确定出当前时刻是否是用户在讲话,当是语音信号时进一步通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理,并对时域骨导信号进行频域的噪声消除处理,从而较好的消除背景噪声,再对经噪声消除后的时域麦克风信号进行高通滤波后得到高频部分的第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理后,得到低频部分的第二输出时域信号,然后根据第一输出时域信号和第二输出时域信号即可得到既包含高频部分又包含低频部分的输出时域信号;本发明能够较好的消除背景噪声,有利于提高声音的音质,提升用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的骨传导原理示意图;
图2为本发明实施例提供的一种语音增强方法的流程示意图;
图3为本发明实施例提供的一种语音增强装置的结构示意图。
具体实施方式
本发明实施例提供了一种语音增强方法、装置、系统及计算机可读存储介质,在使用过程中可以使输出的声音信号更加好听,提高声音的音质,提升用户体验。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图2,图2为本发明实施例提供的一种语音增强方法的流程示意图。该方法包括:
S110:获取当前时刻的时域麦克风信号和时域骨导信号;
具体的,在实际应用中可以通过麦克风拾取时域麦克风信号,通过骨声纹传感器采集时域骨导信号,并对每一时刻所获取的时域麦克风信号和时域骨导信号均采用本发明实施例所提供的语音增强方法进行处理。
S120:判断时域麦克风信号和时域骨导信号是否为语音信号,若是,则进入S130;若否,则进入S140;
需要说明的是,在获取当前时刻的时域麦克风信号和时域骨导信号后,可以判断时域麦克风信号和时域骨导信号是不是语音信号,其中,由于时域骨导信号能够准确的反应当前是不是用户在说话,因此通过判断时域骨导信号是不是语音信号,能够进一步确定当前时刻麦克风拾取到的时域麦克风信号是否为语音信号,也即,当确定出当前时刻的时域骨导信号为语音信号后,由于时域麦克风信号和时域骨导信号是同一时刻采集的信号,因此当前时刻的时域麦克风信号也是语音信号,则说明当前时刻的时域麦克风信号也是语音信号,当确定出当前时刻的时域骨导信号为噪声信号后,则说明当前时刻的时域麦克风信号也是噪声信号。
S130:通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;
需要说明的是,本实施例中为了更好地消除噪声,可以预先建立DNN噪声消除模型,然后采用该DNN噪声消除模型对时域麦克风信号进行噪声消除处理,其中,DNN噪声消除模型的建立过程为:
实际录取时域噪声信号n'和时域麦克风语音信号s,计算时域噪声信号n'和时域麦克风语音信号s的混合信号s_mix,将时域噪声信号n'、时域麦克风语音信号s以及混合信号s_mix分别做时频变换(如FFT),得到的频域信号分别为N'(k),S(k)和S_mix(k),其中,k为频域序号。再对S_mix(k)进行特征提取,计算第一特征参数。
将时域麦克风语音信号s以及混合信号s_mix在频域上分别划分为多个第一子带(如18个第一子带),第一子带划分的方式可以采用mel频率的划分方式也可以采用bark子带的划分方式,具体采用哪种方式可以根据实际需要进行确定。
具体的,深度神经网络DNN噪声消除模型的训练的过程中,将上述计算出的真实混合信号的第一特征参数为输入信号,将上述计算得到的真实的第一子带增益g作为输出信号,不断训练和调整深度神经网路中的权重系数W、U及偏置,使每次输出的第一增益g'不断接近真实的第一增益值g。当g'和g的误差小于对应的预设值后,网络训练成功,并依据此时的网络参数得到最终的DNN噪声消除模型。
另外,上述判断时域骨导信号是否为语音信号,并确定出时域骨导信号不是语言信号后,该方法还可以包括:
依据时域骨导信号对骨导噪声信号功率谱进行更新;具体的,将时域骨导信号通过时频转换,转换为频域骨导信号,然后可以根据计算关系式Pn(k,t)=β*Pn(k,t-1)+(1-β)*|Y(k,t)|2对骨导噪声信号功率谱进行更新,其中,Pn(k,t)表示t时刻骨导传感器接收到的噪声信号的功率,Pn(k,t-1)表示t-1时刻骨导传感器接收到的噪声信号的功率,Y(k,t)表示t时刻的第k个频域骨导信号,k表示频域序号,β表示迭代因子,β具体可以为0.9,当然,β的具体数值可以根据实际需要进行确定,本实施例不做特殊限定。
则相应的,上述对时域骨导信号进行频域的噪声消除处理,得到噪声消除后的时域骨导信号的过程,具体可以为:
依据计算关系式对频域骨导信号进行噪声消除,得到消除后的频域骨导信号,其中,Yt(k)表示t时刻的频谱信号,表示经过噪声消除后的频谱信号,Ht(k)表示增益函数,λ表示过减因子,λ为常数(例如为0.9),γt(k)表示后验信噪比。
S140:将与当前时刻对应的输出信号置为零;
具体的,当确定出当前时刻的时域骨导信号为噪声信号后,对应的时域麦克风信号也是噪声信号,因此可以直接将与当前时刻对应的输出信号置为零。
S150:对经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;
需要说明的是,由于麦克风采集到的声音信号中高频比较丰富,骨导传感器采集到的声音信号中低频比较清晰完整,因此,本发明实施例可以对经噪声消除后的时域麦克风信号进行高通滤波处理,得到高频部分的第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理,得到低频部分的第二输出时域信号。
S160:依据第一输出时域信号和第二输出时域信号,得到与当前时刻对应的输出时域信号。
具体的,本发明可以将第一输出时域信号和第二输出时域信号进行融合,具体可以预先确定与第一输出时域信号对应的第一权重系数k1,以及与第二输出时域信号对应的第二权重系数k2,然后通过各自的权重系数求和得到融合后的时域信号,具体可以通过out=k1*out1+k2*out2计算关系式得到融合后的时域信号out,其中,out1为第一输出时域信号,out2为第二输出时域信号。
另外,为了避免融合后的时域信号溢出,还可以对融合后的时域信号进行动态调整,将过大的信号进行压缩,将过小的信号适当放大,从而防止信号溢出,然后将调整后的时域信号作为与当前时刻对应的输出时域信号。
进一步的,对时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号的过程,具体可以为:
将时域骨导信号通过时频转换,转换为频域骨导信号;
对频域骨导信号进行频域的噪声消除处理,得到经噪声消除后的频域骨导信号;
判断经噪声消除后的频域骨导信号的带宽是否达到预设带宽,若达到,则直接对经噪声消除后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号;若不满足,则采用预先建立的DNN带宽扩展模型对经噪声消除后的频域骨导信号进行带宽扩展,使扩展后的带宽达到预设带宽,并将扩展后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号。
需要说明的是,上述在得到经噪声消除后的频域骨导信号后,还可以进一步判断噪声消除后的频域骨导信号的带宽是否达到预设带宽(预设带宽可以为1kHz),若达到,则直接对噪声消除后的频域骨导信号做时频反变换,得到噪声消除后的时域骨导信号;若不满足预设带宽,则可以采用预先建立的DNN带宽扩展模型对经噪声消除后的频域骨导信号进行带宽扩展,将其扩展后的带宽达到预设带宽即可,然后在将扩展后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号。
其中,DNN带宽扩展模型的建立过程为:
实际获取降噪后残留的骨导噪声信号ng和骨导语音信号sg,计算骨导噪声信号ng和骨导语音信号sg的混合信号sg_mix,将骨导噪声信号ng、骨导语音信号sg以及骨导混合信号sg_mix分别做时频变换(如FFT),得到频域信号Ng(k),Sg(k)和Sg_mix(k),再对Ng(k),Sg(k)和Sg_mix(k)分别进行特征提取,计算各自的第二特征参数。
同样将骨导语音信号sg以及混合信号sg_mix在频域上划分为多个第二子带(如5个第二子带),第二子带划分的方式可以采用mel频率的划分方式也可以采用bark子带的划分方式,具体采用哪种方式可以根据实际需要进行确定;计算各个第二子带上的骨导语音信号能量和骨导混合信号能量:
具体的,深度神经网络DNN带宽扩展模型的训练过程中,将上述计算得到的真实的第二特征参数作为输入信号,将上述计算得到的真实的第二子带增益g作为输出信号,不断训练和调整深度神经网路中的权重系数W、U偏置,使每次输出的第二增益不断接近真实值。当输出的第二增益和真实值的误差小于对应的预设值后,网络训练成功,,并依据此时的网络参数得到最终的DNN带宽扩展模型。
具体的,采用预先建立的DNN带宽扩展模型对经噪声消除后的频域骨导信号进行带宽扩展的过程,具体可以为:对频域骨导信号进行特征提取,得到第二信号特征;采用上述预先建立的DNN带宽扩展模型对第二信号特征进行处理,得到与频域骨导信号的各个第二频域点分别对应的第二增益;
计算频域骨导信号中与每个第二频率点各自对应的频谱信号与对应的第二增益的乘积,得到与每个第二频率点各自对应的、消除噪声后的频谱信号,以得到消除噪声后的频域骨导信号。进一步的,通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理,得到消除噪声后的时域麦克风信号的过程,具体可以为:
对时域麦克风信号进行时频变换,得到对应的频域麦克风信号;
提取频域麦克风信号的第一信号特征,并采用预先建立的DNN噪声消除模型对第一信号特性进行处理,得到与频域麦克风信号的各个第一频率点分别对应的第一增益;
计算频域麦克风信号中与每个第一频率点对应的频谱信号与对应的第一增益的乘积,得到与每个第一频率点各自对应的、消除噪声后的频谱信号,以得到消除噪声后的频域麦克风信号;
将消除噪声后的频域麦克风信号进行时频反变换,得到消除噪声后的时域麦克风信号。
进一步的,上述S120中判断时域骨导信号是否为语音信号的过程,具体可以为:
对时域骨导信号进行语音激活检测,以判断时域骨导信号是否为语音信号。
其中,上述对时域骨导信号进行语音激活检测,判断时域骨导信号是否为语音信号的过程,具体可以为:
计算时域骨导信号对应的过零率及基音周期;
对时域骨导信号进行时频变换,得到频域骨导信号;具体可以采用FFT快速傅里叶变换对时域骨导信号进行处理得到频域骨导信号;
计算频域骨导信号对应的频谱能量及谱质心;
对过零率、基音周期、频谱能量及谱质心进行融合判断,并得到与时域骨导信号对应的语音激活检测标记位;
依据语音激活检测标记位判断时域骨导信号是否为语音信号。
具体的,上述计算时域骨导信号对应的过零率的过程为:
根据第一计算关系式,计算时域骨导信号对应的过零率,其中第一计算关系式为:
其中,Zn表示过零数,x(m)表示与时间变量m对应的时域信号,x(m-1)表示与时间变量m-1对应的时域信号,x(n)表示与时间变量n对应的时域信号,x(n-1)表示与时间变量n-1对应的时域信号;n≤N,N表示当前时域信号x(n)的长度;
ZCR=Zn/(m2-m1+1),其中,ZCR表示过零率,m1表示当前帧时域信号列中第m1个点,m2表示当前帧时域信号中第m2个点。
上述计算时域骨导信号对应的基音周期的过程为:
基音周期为:Pitch=max{Rm},其中,Pitch表示基音周期。
上述计算频域骨导信号对应的频谱能量的过程为:
具体的,对于指定带宽的频谱能量,如时域骨导信号经FFT快速傅里叶变换后,将8khz带宽分为128个子带,取低24子带能量:
上述计算频域骨导信号对应的谱质心的过程为:
更进一步的,上述对过零率、基音周期、频谱能量及谱质心进行融合判断,并得到与时域骨导信号对应的语音激活检测标记位的过程,具体可以为:
判断频谱能量是否小于第一预设值,若是,则与时域骨导信号对应的语音激活检测标记位为0;若否,则进入下一步判断;
判断过零率是否大于第二预设值,若是,则与时域骨导信号对应的语音激活检测标记位为0,若否,则进入下一步判断;
判断基音周期是否大于第三预设值或小于第四预设值,若是,则与时域骨导信号对应的语音激活检测标记位为0;否则,进入下一步判断;
判断谱质心是否大于第五预设值,若是,则与时域骨导信号对应的语音激活检测标记位为0;否则,则与时域骨导信号对应的语音激活检测标记位为1;
需要说明的是,在实际应用中第一预设值可以为-9,第二预设值可以为03.6,第三预设值可以为143,第四预设值可以为8,第五预设值可以为3,当然,每个预设值的具体数值可以根据实际情况进行确定,本实施例不做特殊限定。
则,相应的上述依据语音激活检测标记位判断时域骨导信号是否为语音信号的过程,具体可以为:
当语音激活检测标记位为1时,时域骨导信号为语音信号;
当语音激活检测标记位为0时,当前的时域骨导信号为噪声信号。
进一步的,上述S130中对时域麦克风信号以及时域骨导信号进行噪声消除处理的过程,具体可以为:
通过预先建立的DNN噪声消除模型,对时域麦克风信号进行噪声消除处理,得到消除噪声后的时域麦克风信号;
对时域骨导信号进行频域的噪声消除处理,得到噪声消除后的时域骨导信号。
可见,本发明实施例通过麦克风拾取时域麦克风信号,通过骨声纹传感器采集时域骨导信号,然后通过判断时域麦克风信号和时域骨导信号是否为语音信号,可以确定出当前时刻是否是用户在讲话,当是语音信号时进一步通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理,并对时域骨导信号进行频域的噪声消除处理,从而较好的消除背景噪声,再对经噪声消除后的时域麦克风信号进行高通滤波后得到高频部分的第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理后,得到低频部分的第二输出时域信号,然后根据第一输出时域信号和第二输出时域信号即可得到既包含高频部分又包含低频部分的输出时域信号;本发明能够较好的消除背景噪声,有利于提高声音的音质,提升用户体验。
在上述实施例的基础上,本发明实施例还提供了一种语音增强装置,具体请参照图3。该装置包括:
获取模块21,用于获取当前时刻的时域麦克风信号和时域骨导信号;
判断模块22,用于判断时域麦克风信号和时域骨导信号是否为语音信号,若是,则触发降噪模块23;若否,则触发置零模块24;
降噪模块23,用于通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,用于对时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;
置零模块24,用于将与当前时刻对应的输出信号置为零;
滤波模块25,用于对经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;
融合模块26,用于依据第一输出时域信号和第二输出时域信号,得到与当前时刻对应的输出时域信号。
需要说明的是,本发明实施例中提供的语音增强装置具有与上述实施例中所提供的语音增强方法相同的有益效果,并且对于本实施例中所涉及到的语音增强方法的具体介绍请参照上述实施例,本申请在此不再赘述。
在上述实施例的基础上,本发明实施例还提供了一种语音增强系统,该系统包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述语音增强方法的步骤。
需要说明的是,本发明实施例中的处理器具体可以用于实现接收当前时刻的时域麦克风信号和时域骨导信号,其中,时域麦克风信号为通过麦克风拾取的,时域骨导信号为通过骨声纹传感器采集的;判断时域麦克风信号和时域骨导信号是否为语音信号,若是,则通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,用于对时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;若否,则将与当前时刻对应的输出信号置为零;对经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;依据第一输出时域信号和第二输出时域信号,得到与当前时刻对应的输出时域信号。
在上述实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述语音增强方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种语音增强方法,其特征在于,包括:
获取当前时刻的时域麦克风信号和时域骨导信号;
判断所述时域麦克风信号和所述时域骨导信号是否为语音信号,若是,则通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;若否,则将与所述当前时刻对应的输出信号置为零;
对所述经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对所述经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;
依据所述第一输出时域信号和所述第二输出时域信号,得到与所述当前时刻对应的输出时域信号;其中,所述对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号的过程为:
将所述时域骨导信号通过时频转换,转换为频域骨导信号;
对所述频域骨导信号进行频域的噪声消除处理,得到经噪声消除后的频域骨导信号;
判断所述经噪声消除后的频域骨导信号的带宽是否达到预设带宽,若达到,则直接对所述经噪声消除后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号;若不满足,则采用预先建立的DNN带宽扩展模型对所述经噪声消除后的频域骨导信号进行带宽扩展,使扩展后的带宽达到所述预设带宽,并将所述扩展后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号。
2.根据权利要求1所述的语音增强方法,其特征在于,所述通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理,得到消除噪声后的时域麦克风信号的过程为:
对所述时域麦克风信号进行时频变换,得到对应的频域麦克风信号;
提取所述频域麦克风信号的第一信号特征,并采用预先建立的DNN噪声消除模型对所述第一信号特征 进行处理,得到与所述频域麦克风信号的各个第一频率点分别对应的第一增益;
计算所述频域麦克风信号中与每个所述第一频率点对应的频谱信号与对应的第一增益的乘积,得到与每个所述第一频率点各自对应的、消除噪声后的频谱信号,以得到消除噪声后的频域麦克风信号;
将所述消除噪声后的频域麦克风信号进行时频反变换,得到消除噪声后的时域麦克风信号。
3.根据权利要求1所述的语音增强方法,其特征在于,所述判断所述时域麦克风信号和所述时域骨导信号是否为语音信号的过程为:
对所述时域骨导信号进行语音激活检测,以判断所述时域骨导信号是否为语音信号;
当所述时域骨导信号为语音信号时,所述时域麦克风信号为语音信号。
4.根据权利要求3所述的语音增强方法,其特征在于,所述对所述时域骨导信号进行语音激活检测,判断所述时域骨导信号是否为语音信号的过程为:
计算所述时域骨导信号对应的过零率及基音周期;
对所述时域骨导信号进行时频变换,得到频域骨导信号;
计算所述频域骨导信号对应的频谱能量及谱质心;
对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断,并得到与所述时域骨导信号对应的语音激活检测标记位;
依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号。
5.根据权利要求4所述的语音增强方法,其特征在于,所述对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断,并得到与所述时域骨导信号对应的语音激活检测标记位的过程为:
判断所述频谱能量是否小于第一预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0;若否,则进入下一步判断;
判断所述过零率是否大于第二预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0,若否,则进入下一步判断;
判断所述基音周期是否大于第三预设值或小于第四预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0;否则,进入下一步判断;
判断所述谱质心是否大于第五预设值,若是,则与所述时域骨导信号对应的语音激活检测标记位为0;否则,则与所述时域骨导信号对应的语音激活检测标记位为1;
则,所述依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号的过程为:
当所述语音激活检测标记位为1时,所述时域骨导信号为语音信号;
当所述语音激活检测标记位为0时,所述当前的时域骨导信号为噪声信号。
6.根据权利要求1所述的语音增强方法,其特征在于,所述依据所述第一输出时域信号和所述第二输出时域信号,得到与所述当前时刻对应的输出时域信号的过程为:
依据第一权重系数和第二权重系数对所述第一输出时域信号和所述第二输出时域信号进行融合,得到融合后的时域信号;
对融合后的时域信号进行动态调整,使调整后的时域信号在预设范围内,并将调整后的时域信号作为与所述当前时刻对应的输出时域信号。
7.一种语音增强装置,其特征在于,包括:
获取模块,用于获取当前时刻的时域麦克风信号和时域骨导信号;
判断模块,用于判断所述时域麦克风信号和所述时域骨导信号是否为语音信号,若是,则触发降噪模块;若否,则触发置零模块;
所述降噪模块,用于通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号,并对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号;
所述置零模块,用于将与所述当前时刻对应的输出信号置为零;
滤波模块,用于对所述经噪声消除后的时域麦克风信号进行高通滤波处理,得到第一输出时域信号,对所述经噪声消除后的时域骨导信号进行低通滤波处理,得到第二输出时域信号;
融合模块,用于依据所述第一输出时域信号和所述第二输出时域信号,得到与所述当前时刻对应的输出时域信号;其中,
所述降噪模块中,对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号,包括:
将所述时域骨导信号通过时频转换,转换为频域骨导信号;
对所述频域骨导信号进行频域的噪声消除处理,得到经噪声消除后的频域骨导信号;
判断所述经噪声消除后的频域骨导信号的带宽是否达到预设带宽,若达到,则直接对所述经噪声消除后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号;若不满足,则采用预先建立的DNN带宽扩展模型对所述经噪声消除后的频域骨导信号进行带宽扩展,使扩展后的带宽达到所述预设带宽,并将所述扩展后的频域骨导信号进行时频反变换,得到经噪声消除后的时域骨导信号。
8.一种语音增强系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述语音增强方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音增强方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110119855.6A CN112767963B (zh) | 2021-01-28 | 2021-01-28 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
PCT/CN2021/103635 WO2022160593A1 (zh) | 2021-01-28 | 2021-06-30 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
US18/263,357 US20240079021A1 (en) | 2021-01-28 | 2021-06-30 | Voice enhancement method, apparatus and system, and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110119855.6A CN112767963B (zh) | 2021-01-28 | 2021-01-28 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767963A CN112767963A (zh) | 2021-05-07 |
CN112767963B true CN112767963B (zh) | 2022-11-25 |
Family
ID=75706467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110119855.6A Active CN112767963B (zh) | 2021-01-28 | 2021-01-28 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240079021A1 (zh) |
CN (1) | CN112767963B (zh) |
WO (1) | WO2022160593A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767963B (zh) * | 2021-01-28 | 2022-11-25 | 歌尔科技有限公司 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
CN113593612B (zh) * | 2021-08-24 | 2024-06-04 | 歌尔科技有限公司 | 语音信号处理方法、设备、介质及计算机程序产品 |
CN113727242B (zh) * | 2021-08-30 | 2022-11-04 | 歌尔科技有限公司 | 一种在线拾音主电单元、方法及可穿戴设备 |
CN114038476A (zh) * | 2021-11-29 | 2022-02-11 | 北京达佳互联信息技术有限公司 | 音频信号处理方法及装置 |
CN114822573B (zh) * | 2022-04-28 | 2024-10-11 | 歌尔股份有限公司 | 语音增强方法、装置、耳机设备以及计算机可读存储介质 |
CN114582365B (zh) * | 2022-05-05 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 音频处理方法和装置、存储介质和电子设备 |
CN115662436B (zh) * | 2022-11-14 | 2023-04-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
CN115862656B (zh) * | 2023-02-03 | 2023-06-02 | 中国科学院自动化研究所 | 一种骨传麦克风语音增强方法及装置、设备及存储介质 |
CN116030823B (zh) * | 2023-03-30 | 2023-06-16 | 北京探境科技有限公司 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
CN116904569B (zh) * | 2023-09-13 | 2023-12-15 | 北京齐碳科技有限公司 | 信号处理方法、装置、电子设备、介质和产品 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US10074380B2 (en) * | 2016-08-03 | 2018-09-11 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
CN107886967B (zh) * | 2017-11-18 | 2018-11-13 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
CN109767783B (zh) * | 2019-02-15 | 2021-02-02 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
CN110782912A (zh) * | 2019-10-10 | 2020-02-11 | 安克创新科技股份有限公司 | 音源的控制方法以及扬声设备 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112017696B (zh) * | 2020-09-10 | 2024-02-09 | 歌尔科技有限公司 | 耳机的语音活动检测方法、耳机及存储介质 |
CN112017687B (zh) * | 2020-09-11 | 2024-03-29 | 歌尔科技有限公司 | 一种骨传导设备的语音处理方法、装置及介质 |
CN112767963B (zh) * | 2021-01-28 | 2022-11-25 | 歌尔科技有限公司 | 一种语音增强方法、装置、系统及计算机可读存储介质 |
-
2021
- 2021-01-28 CN CN202110119855.6A patent/CN112767963B/zh active Active
- 2021-06-30 US US18/263,357 patent/US20240079021A1/en active Pending
- 2021-06-30 WO PCT/CN2021/103635 patent/WO2022160593A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022160593A1 (zh) | 2022-08-04 |
CN112767963A (zh) | 2021-05-07 |
US20240079021A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767963B (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
AU771444B2 (en) | Noise reduction apparatus and method | |
CN112017696B (zh) | 耳机的语音活动检测方法、耳机及存储介质 | |
US9064502B2 (en) | Speech intelligibility predictor and applications thereof | |
US8504360B2 (en) | Automatic sound recognition based on binary time frequency units | |
US20060206320A1 (en) | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers | |
US20120263317A1 (en) | Systems, methods, apparatus, and computer readable media for equalization | |
US20090299742A1 (en) | Systems, methods, apparatus, and computer program products for spectral contrast enhancement | |
CN111833896A (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
US20080228473A1 (en) | Method and apparatus for adjusting hearing intelligibility in mobile phones | |
US20110054889A1 (en) | Enhancing Receiver Intelligibility in Voice Communication Devices | |
CN113593612B (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
CN101233561B (zh) | 通过根据背景噪声控制振动器的操作来增强移动通信设备中的语音可懂度 | |
CN112019967B (zh) | 一种耳机降噪方法、装置、耳机设备及存储介质 | |
US9245538B1 (en) | Bandwidth enhancement of speech signals assisted by noise reduction | |
CN112017639B (zh) | 语音信号的检测方法、终端设备及存储介质 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN103827967A (zh) | 语音信号复原装置以及语音信号复原方法 | |
CN102246230A (zh) | 用于提高噪声环境中话音的可理解性的系统和方法 | |
JP2007251354A (ja) | マイクロホン、音声生成方法 | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
JPH07146700A (ja) | ピッチ強調方法および装置ならびに聴力補償装置 | |
EP4258263A1 (en) | Apparatus and method for noise suppression | |
US20230217194A1 (en) | Methods for synthesis-based clear hearing under noisy conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |