CN106531156A - 一种基于室内多移动源实时处理的语音信号增强技术方法 - Google Patents
一种基于室内多移动源实时处理的语音信号增强技术方法 Download PDFInfo
- Publication number
- CN106531156A CN106531156A CN201610908661.3A CN201610908661A CN106531156A CN 106531156 A CN106531156 A CN 106531156A CN 201610908661 A CN201610908661 A CN 201610908661A CN 106531156 A CN106531156 A CN 106531156A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- source
- voice
- signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000005516 engineering process Methods 0.000 title abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 120
- 238000011160 research Methods 0.000 claims abstract description 53
- 238000000926 separation method Methods 0.000 claims abstract description 53
- 238000012805 post-processing Methods 0.000 claims abstract description 29
- 230000008030 elimination Effects 0.000 claims abstract description 12
- 238000003379 elimination reaction Methods 0.000 claims abstract description 12
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 239000004568 cement Substances 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000012880 independent component analysis Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010397 one-hybrid screening Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000001914 filtration Methods 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000017531 blood circulation Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000002969 morbid Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及语音信号处理领域,尤其是一种基于室内多移动源实时处理的语音信号增强技术方法。在室内没有源信号任何先验知识可以被利用以及多反射混响条件下的盲源分离并结合语音后处理算法实现语音增强,其主要研究内容包括:⑴盲源分离算法实现多路话音分离;⑵语音后处理算法实现音源移动环境下的自适应噪声滤除;⑶室内混响残留串扰的建模与消除。本研究成果将对室内环境下多移动源信号实现鲁棒实时分离提供新的理论支持与技术方法,可具体应用于建筑物内监听等安防系统中的多话音辨识,这对于事先防范打击恐怖分子犯罪及维护社会稳定都具有十分重要的意义。
Description
技术领域
本发明涉及语音信号处理领域,尤其是一种基于室内多移动源实时处理的语音信号增强技术方法。
背景技术
语音信号是人类传播信息和交流情感的重要媒体,是听觉器官对声音传媒介质机械振动的感知。在现实生活中,室内语音信号经常会受到噪声和房间混响的干扰,这不仅影响人们的听觉质量,而且对语音处理的其它环节也会产生影响,因此必须采用信号处理技术对带噪语音信号进行增强处理。语音分离是从得到的混合信号中分离出所有的信号分量,语音增强是要从混合信号中得到其中一路语音信号,而将其它成分看作背景噪声,语音增强可以看作是语音分离的特殊情况。盲源分离是指在不知道语音源信号分布和混合方式的情况下,仅根据观测到的多路混合信号恢复语音源信号的过程。由于盲源分离无需知道语音源信号的先验信息,从而在语音信号处理领域中得到了广泛的应用。
基于室内的移动语音源是指在几平米到几十平米范围内,以低于10m/s的速度自由移动的人所产生的语音。室内移动语音增强的主要目标是在多人所产生的混合语音信号中,尽可能地分离并提取出所需的某一路纯净移动语音源信号。这里有两个度量标准:一个是主观度量,以改进语音质量、消除背景噪声,使听者不感觉疲劳为目的;二是客观度量,以提高语音可懂度和信噪比为目的。然而,一般情况下,室内噪声干扰包括多路移动语音源之间的相互串扰、房间混响、语音延迟,这些都是随机事件因素,要完全消除室内噪声几乎是不可能的,所以语音增强的目标对收听人而言主要是改善语音质量,提高语音可懂度,减少疲劳感;对语音处理系统而言是提高系统的识别率和抗干扰能力,提高系统的稳定性。现有的某些语音增强算法,能显著降低背景噪声,提高信噪比,改善语音质量,但一般都不能提高语音可懂度,在很多情况下处理后虽然信噪比提高了,但可懂度却下降了。所以改善语音质量和提高语音可懂度是难以同时达到的两个目标,需要根据语音增强的具体应用场合做出不同的选择。
室内移动语音增强的主要目标是在多人所产生的混合语音信号中,尽可能地分离并提取出所需的某一路纯净移动语音源信号。这里有两个度量标准:一个是主观度量,以改进语音质量、消除背景噪声,使听者不感觉疲劳为目的;二是客观度量,以提高语音可懂度和信噪比为目的。然而,一般情况下,室内噪声干扰包括多路移动语音源之间的相互串扰、房间混响、语音延迟,这些都是随机事件因素,要完全消除室内噪声几乎是不可能的,所以语音增强的目标对收听人而言主要是改善语音质量,提高语音可懂度,减少疲劳感;对语音处理系统而言是提高系统的识别率和抗干扰能力,提高系统的稳定性。现有的某些语音增强算法,能显著降低背景噪声,提高信噪比,改善语音质量,但一般都不能提高语音可懂度,在很多情况下处理后虽然信噪比提高了,但可懂度却下降了。所以改善语音质量和提高语音可懂度是难以同时达到的两个目标,需要根据语音增强的具体应用场合做出不同的选择。
由于噪声来源众多,随应用场合而异,特性各不相同,增加了室内移动语音增强的复杂性。而且语音增强不仅仅是一个数字信号处理技术方面的问题,还涉及到人的听觉感知和语音学,所以是一个多领域交叉的复杂技术。要想理想地设计出一种算法来解决所有的噪声是不现实的,只能针对不同的噪声情况,采取不同的语音增强算法。尽管目前有了很多较好的语音分离算法,但是大多数盲信号分离算法是基于瞬时、线性混合模型的,而在实际语音信号处理中,系统接收到的混合输入信号是语音源信号经不同的传播途径到达拾音器,经拾音器的声电转换、模拟变换形成系统的数字信号输入,故而不可避免地存在时延和滤波效应,需要进一步研究新的算法。如在安防系统中室内拾音器记录下来的语音信号,有多人说话、位置不固定,存在房间多途径反射混响等特点,不易辨识,为了更好的对记录下的数据进行分析,有必要先将混叠的声信号进行盲分离,得到多路声源,再对各路源信号进行具体分析,以便找到更适合、更有效的语音增强后处理方法。
目前国际、国内对BSS算法的研究工作仍处在不断发展的阶段,新的理论和新的方法还在源源不断地涌现。到目前为止,对盲源分离的研究主要分为两个类别,即线性盲源分离算法和非线性盲源分离算法。其中,以独立分量分析(ICA)算法为代表的线性盲源分离技术已经相对较为成熟,但分离估计出的语音波形存在以下问题:⑴无法确定独立分量的幅值;⑵无法确定独立分量的次序。
线性BSS算法大部分是基于平稳环境、统计独立和线性混叠等假设条件,而实际的源信号通过传感器时,很可能会发生非线性畸变或混合,观测信号常常是非线性或者弱非线性的,如果应用线性语音BSS算法,对于充分描述观测数据来说过于简单,对于非线性混合问题可能失效或者导致完全错误的结论。文献中,指出如果在混合过程中存在噪声,那么意味着观测数据和源信号的关系存在非线性,则带噪声混合可近似看成一种非线性混合过程,故非线性的情况是广泛存在的。但是,由于非线性语音BSS的随机性、复杂性,目前的研究瓶颈是:
⑴对于源信号数目未知、源信号数目大于观测信号数目及存在系统噪声情况下的非线性语音BSS算法模型的设计;⑵由于非线性BSS是一个“病态”问题,所以对于它的可分离性还需更进一步的验证研究;⑶寻找源信号和观测信号之间的联系,用于指导如何选择适当的分离算法,降低BSS的复杂度;⑷由于非线性语音BSS的解的不确定性,如何充分利用某些源信号的先验信息,来解决非线性BSS问题。
针对线性与非线性盲源分离算法中存在的问题,本发明采用了盲源分离与后处理相结合的语音增强算法,解决室内移动源语音实时去噪问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于室内多移动源实时处理的语音信号增强技术方法。
本发明解决其技术问题所采用的技术方案是:
一种基于室内多移动源实时处理的语音信号增强技术方法,其步骤包括有数学建模,仿真平台,盲源分离,语音后处理,算法优化,算法移植现场检测和提交应用。
本发明还具有以下附加技术特征:
进一步具体优化的,所述盲源分离对源信号及其系统的先验假设较少,利用信号的统计独立性、概率分布特性、二阶统计量、高阶统计量或者信号的频域特性以及时频特性,建立目标函数,得到分离算法;应用盲源分离算法实现移动语音增强,由于源信号处于不断移动的过程,该盲源分离系统中对应的混合系统也是时变的;基本的时变系统跟踪方法是在线算法,该算法根据源信号所处位置的不同来不断更新分离系统。
进一步具体优化的,所述语音后处理采用传统的谱减法或采用语音增强其它算法,传统谱减法语音增强在估计噪声谱时,需假定平稳噪声和信号源统计独立。
进一步具体优化的,所述算法优化在线性BSS串扰成分系统的脉冲响应中,线性干扰通过BSS完全清除,剩余的非线性串扰成分源自混响,自适应建模,根据移动语音实时更新算法,消除非线性的残留串扰。
进一步具体优化的,具体研究方法步骤如下:
⑴研究与移动语音源自适应的盲源分离算法;
在这一阶段需要研究基于频域的独立分量分析在这一阶段需要研究基于频域的独立分量分析(ICA)与矩阵更新算法;一个混合系统当源信号移动时是时变的,由于室内语音源信号处于不断移动的过程,因此该盲源分离系统中对应的混合系统也是时变的。根据源信号所处位置不同来不断自适应更新盲源分离系统参数,建立动态的分离矩阵,实现移动语音的实时盲分离;
⑵研究移动语音增强的后处理算法;
本阶段需要研究完成串扰成分估计的后处理;为了补偿室内干扰信号移动时对系统的影响,需要对盲源分离后语音进行后置处理;通过采用自适应波束形成的算法,模拟室内空间各向的干扰信号,作为干扰移动源的鲁棒性信号,或估算出剩余串扰成分,提高算法精度;
⑶研究语音混响的残留串扰消除算法;
本阶段需要研究在先前语音处理的基础上进行混响的消除;通过后处理算法,将移动语音中的线性干扰脉冲去除,剩余的非线性残留串扰成分源自房间混响,需要根据房间的面积不同及反射情况实时更新算法,获取实时参数、自适应建模及利用谱减法经典语音增强算法,实现串扰滤除。
本发明和现有技术相比,其优点在于:本发明的完成,可为建筑物内安防系统监听中的多话音辨识等类似特殊场合的语音增强技术奠定更为坚实的理论基础,丰富当前语音增强技术,并有可能激发新的研究方向。理论方面,盲源分离可以为实际环境中各种语音分离、弱信号检测带来新的启示。在应用层面,一方面最大程度改善了对高质量移动源语音信号的处理时间,实现了寺庙、监舍等特殊建筑物内多种类似特殊场合中的多人语音实时监听,维护了社会治安稳定;另一方面使得许多原来需要大量耗费人力物力资源的语音监听工作以及事后取证工作,得以在更多场合、便捷地展开,从而拓宽了应用的场景和可能性,为数字化语音的诸多应用场景提供了更强有力的支持和帮助。综上所述,基于室内移动语音源盲源分离语音增强算法的研究,是一项具有重要理论价值和广泛应用前景的工作。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1总体研究目标系统模型示意图;
图2盲源分离系统模型示意图;
图3移动语音线性后处理系统模型示意图;
图4非线性混响残留串扰消除模型示意图;
图5发明技术路线示意示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
一种基于室内多移动源实时处理的语音信号增强技术方法,其步骤包括有数学建模,系统仿真,盲源分离,语音后处理,算法优化,算法移植现场检测和提交应用。
本发明针对室内移动源语音的盲源分离,以盲源分离算法为主要工作对象,研究与移动语音自适应的盲源分离算法、语音后处理增强算法、室内混响环境中残留串扰的消除算法。
盲源分离算法研究。应用盲源分离算法实现移动语音增强,由于源信号处于不断移动的过程,因此该盲源分离系统中对应的混合系统也是时变的。基本的时变系统跟踪方法是在线算法,用于实现盲源分离、话者识别。该算法根据源信号所处位置不同来不断更新分离系统,首先采用基于频域的独立分量分析(ICA)与批量算法,采用基于频域ICA时,需要对每一个数据块(尤其是当块的长度较短时)进行排列,可使用邻频幅角比排序法和自适应耦合法,解决排序和频点不确定问题。批量算法的另一个内在的问题是输入输出延迟,为了减少这种延迟,无须等分离系统的计算全部完成,可采用一些语音信号处理技术来计算输出信号,这些技术有助于低时延、实时BSS的实现。
此外,移动语音信号可看成是由独立的高阶统计信息组成的,独立分量分析提取出的基函数是建立在高阶统计信息之上的,可准确的描述信号某一时段的二阶及高阶统计信息,反映出信号的内在变化特征,从而较二阶信息具有较高的编码效率;另一方面,人脑能够在听到任意几个字的发音后即可判断出说话人,可见语音信号中包含了语义及声学两方面的信息,并且在一定程度上可认为声学信息是独立于语义信息的,正好与人脑能够在听到任意几个字的发音后即可判断出说话人,可见语音信号中包含了语义及声学两方面的信息,并且在一定程度上可认为声学信息是独立于语义信息的,正好与ICA的思想相吻合,因此采用ICA的方法来提取特征,通过足够的语音信息即可获取反映话者声学信息的特征,用于话者识别及确认。
该算法中,过完备描述是将信号表示成基函数的线性组合,通过指定基函数系数的概率分布函数,使其系数近可能的稀疏,由于基函数之间可以不正交,使得基函数具有准确描述信号结构信息的功能。利用该特征,我们可以利用一段待识别的说话者的语音信号,通过训练获得描述该说话人的特征基函数,进而实现多个移动语音源之间的盲分离。
本部分的核心研究内容为:⑴研究适合移动源语音混合信号的BSS算法;⑵研究分离信号输出后的排列和缩放比例问题;⑶研究实时批量算法的最小延迟问题;⑷研究室内最佳拾音器数量和位置分布问题。
语音后处理增强算法研究。
ICA法类似于一个自适应波束形成,形成一种空间各向的干扰信号,作为干扰移动源的鲁棒性信号,即使干扰信号移动,也可以估算剩余串扰成分,为了补偿干扰信号移动时对系统的影响,在这一阶段使用了后置处理算法,可利用分离信号的特征值来估计串扰成分,其研究内容如下:⑴研究语音源移动速度和方位对线性BSS的串扰成分的影响;⑵研究移动语音源信号剩余串扰成分估计的模型;⑶研究不同室内环境下后处理语音增强算法的适应性。
室内混响非平稳串扰的消除。传统语音增强算法估计噪声是基于平稳环境、统计独立的前提假设,而移动语音盲源分离更广泛地应用于非线性环境,需要通过非线性建模仿真实际环境中的室内混响非平稳串扰,以此进一步去除噪声,使得接收语音的清晰度和可懂度更高,其研究内容主要有:⑴研究不同房间面积和多说话人条件下声音反射所引起混响时间变化的数学模型;⑵研究最佳混响消除的非线性频谱估计和自适应算法。
研究目标:本发明旨在针对室内移动源语音,研究切实可行且具有理论依据的盲源分离算法、语音后处理算法、室内混响残留串扰消除算法,实现室内移动语音性能最优化,以满足特定用户的需求为最终目标,总体研究目标思路见图1所示。
研究与移动语音自适应的盲源分离算法。盲源分离对源信号及其系统的先验假设较少,可以利用信号的统计独立性、概率分布特性、二阶统计量、高阶统计量或者信号的频域特性以及时频特性,建立目标函数,得到分离算法。应用盲源分离算法实现移动语音增强,由于源信号处于不断移动的过程,因此该盲源分离系统中对应的混合系统也是时变的。基本的时变系统跟踪方法是在线算法,该算法根据源信号所处位置的不同来不断更新分离系统,即利用自适应的盲源分离算法对移动语音进行实时处理。在研究时把源信号的混合信号称为观测信号或阵列接收信号,源信号的混合模型称为混合系统或混迭系统,盲源分离系统模型如图2所示。
研究移动语音增强的线性后处理算法。语音后处理算法可以采用传统的谱减法,也可以采用语音增强其它算法,如自适应滤波法和小波变换法等估计噪声,图3为移动源语音增强线性系统后处理系统模型,传统谱减法语音增强在估计噪声谱时,需假定平稳噪声和信号源统计独立。图3移动语音线性后处理系统模型。
研究语音混响的非线性残留串扰消除算法。在线性BSS串扰成分系统的脉冲响应中,线性干扰几乎可以通过BSS完全清除,而剩余的非线性串扰成分源自混响,需要自适应建模,根据移动语音实时更新算法,来消除非线性的残留串扰,图4为非线性混响残留串扰消除实现模型。
拟解决的关键技术问题。移动语音状态的不确定性和盲源分离算法的自适应性、后处理算法和语音混响的非线性残留串扰建模消除是本发明所面临的主要挑战,本发明拟解决的关键问题包括:⑴研究自适应盲源分离算法实现多路移动源语音分离算法;⑵研究语音后处理算法实现移动源环境下线性串扰消除;⑶研究室内混响非线性残留串扰的建模与消除;⑷相关算法的复杂性和实时性研究;⑸基于ARMCortexTM-A8内核DSP和TMS320C64x+TM内核的OMAP3530平台的实时系统的处理算法优化及移植。
拟采取的研究方案及可行性分析,包括有关方法、技术路线、实验手段、关键技术等说明。
拟采取的研究方案,研究思路及技术路线,发明组以发明组成员已有的研究成果为基础,以从现场采集到的室内移动源语音据为切入点开展研究。发明组提出了首先采用软件仿真平台进行数学建模、理论分析论证、算法仿真与优化,其次再将最优算法移植到高速语音信号处理芯片中,最后将研究成果转化为具有一般的普适性的理论模型,针对室内移动源语音的不同应用场景进行适应性推广的研究思路,其具体技术路线如图5所示。
主要研究方法,发明研究从盲源分离算法入手,以自适应盲源分离算法更新作为研究主要内容,将语音后处理和非线性残留串扰消除作为研究突破点,以提高采集语音的清晰度和自然度作为性能度量标准。在现有盲源分离模型的基础上,引入自适应技术,结合语音后处理技术、非线性残留串扰技术进行实时语音增强,在理论分析和实验测试的指导下,进行室内移动源语音增强算法的优化研究,并力图将新技术融合到研究方法中去,其具体研究方法步骤如下:
⑴研究与移动语音源自适应的盲源分离算法。不同来不断自适应更新盲源在这一阶段需要研究基于频域的独立分量分析(ICA)与矩阵更新算法;一个混合系统当源信号移动时是时变的,由于室内语音源信号处于不断移动的过程,因此该盲源分离系统中对应的混合系统也是时变的。根据源信号所处位置不同来不断自适应更新盲源分离系统参数,建立动态的分离矩阵,实现移动语音的实时盲分离。
⑵研究移动语音增强的后处理算法。本阶段需要研究完成串扰成分估计的后处理;为了补偿室内干扰信号移动时对系统的影响,需要对盲源分离后语音进行后置处理。通过采用一种类似自适应波束形成的算法,模拟室内空间各向的干扰信号,并作为干扰移动源的鲁棒性信号,即使干扰信号移动,也可估算出剩余串扰成分,以此提高算法精度。
⑶研究语音混响的残留串扰消除算法。本阶段需要研究在先前语音处理的基础上进行混响的消除;通过后处理算法,可将移动语音中的线性干扰脉冲几乎完全去除,而剩余的非线性残留串扰成分源自房间混响,需要根据房间的面积不同及反射情况实时更新算法,获取实时参数、自适应建模及利用谱减法等经典语音增强算法,实现串扰滤除。
可行性分析。本申请发明经多方论证具有以下可行性。本发明的立项具有充足的实践依据和理论基础。
本发明的立项是在基于参与甘南拉卜楞寺安全防范系统工程验收过程中对寺院殿堂等区域进行语音提取后无法辨别说话人声音内容而提出的,通过大量采集现场语音数据及参阅大量国内外相关资料,经反复分析和对比认为造成这种结果的原因是多方面的,不可能只采取单一的语音增强方法就可以解决问题。本发明是发明组在以往语音增强领域长期、大量基础性研究及实践工作的基础上提出了首先采用软件仿真平台进行数学建模、理论分析论证、算法仿真与优化,其次再将最优算法移植到高速语音信号处理芯片中的研究思路,使得发明在实践上和理论上均具有可靠的基础。
发明组有扎实的前期工作基础。发明申请人长期从事语音增强领域的教学和研究工作,先后主持研发过各类科研发明10多项,领导的团队具有较强的科研能力,本团队多年来在语音信息处理方面发表论文20余篇,其中被EI和ISTP检索10余篇。主要研究人员承担了甘肃省自然科学基金发明“语音信号增强算法综合仿真研究(3ZS061-A25-056)”,“基于GIS及分数阶Fourier的空间谱估计及联合测向技术研究(1010RJZA065)”,甘肃省科技支撑发明“基于分布式虚拟环境的数字博物馆关键技术研究(1104KFCA012)”等的研究工作,尤其是2014年初由科学出版社出版的《语音信号增强技术及其应用》专著是国内第一部对语音增强技术进行全面和系统论述的著作,此书出版后得到了多位相关专家的肯定,所有这些都为本发明的研究奠定了良好的理论及实践基础。
本发明的主要创新在于提出了基于自适应盲源分离、移动话音语音增强、室内混响非线性串扰消除相结合的研究方法及适应性算法研究,并优化算法用嵌入式双核DSP高速处理平台加以实时实现。
⑴到目前为止,还没有一种语音增强算法能够适应所有场合的语音信号,而且该算法又不能够太复杂,否则无法满足实时性要求。本发明所需解决的问题主要针对特定场合,即移动混合语音的盲分离及室内混响严重影响语音辨识清晰度的问题所提出的,是现有的算法无法从根本上有效解决的实际问题,根据发明组发明立项前期的调查和相关文献检索,在国内、外还没有找到类似的解决方法;
⑵本发明是基于参与甘南拉卜楞寺安全防范系统综合视频监控子系统工程中对寺院殿堂内语音提取后无法辨别说话人内容而提出的,前期课题组曾使用过多种语音增强处理方法进行尝试,都没有得到令人满意的效果,因此必须克服常规思想,解决特殊环境下移动语音的位置不确定性及房间多路径反射混响造成的清晰度下降这两个核心问题。
预期研究成果。本发明的研究将致力于研究室内移动源语音增强的新方法,以满足特定用户的需求为最终目标,研究切实可行的盲源分离算法、语音后处理算法、残留串扰消除算法,实现室内移动源语音增强性能的最优化。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (5)
1.一种基于室内多移动源实时处理的语音信号增强技术方法,其特征在于,其步骤包括有数学建模,仿真平台,盲源分离,语音后处理,算法优化,算法移植现场检测和提交应用。
2.根据权利要求1所述的一种基于室内多移动源实时处理的语音信号增强技术方法,其特征在于,所述盲源分离对源信号及其系统的先验假设少,利用信号的统计独立性、概率分布特性、二阶统计量、高阶统计量或信号的频域特性以及时频特性,建立目标函数,得到分离算法;应用盲源分离算法实现移动语音增强,由于源信号处于不断移动的过程,该盲源分离系统中对应的混合系统也是时变的;基本的时变系统跟踪方法是在线算法,该算法根据源信号所处位置的不同来不断更新分离系统。
3.根据权利要求1所述的一种基于室内多移动源实时处理的语音信号增强技术方法,其特征在于,所述语音后处理采用传统的谱减法或采用语音增强其它算法,传统谱减法语音增强在估计噪声谱时,需假定平稳噪声和信号源统计独立。
4.根据权利要求1所述的一种基于室内多移动源实时处理的语音信号增强技术方法,其特征在于,所述算法优化在线性BSS串扰成分系统的脉冲响应中,线性干扰通过BSS完全清除,剩余的非线性串扰成分源自混响,自适应建模,根据移动语音实时更新算法,消除非线性的残留串扰。
5.根据权利要求1所述的一种基于室内多移动源实时处理的语音信号增强技术方法,其特征在于,具体研究方法步骤如下:
⑴研究与移动语音源自适应的盲源分离算法;
在这一阶段需要研究基于频域的独立分量分析在这一阶段需要研究基于频域的独立分量分析(ICA)与矩阵更新算法;一个混合系统当源信号移动时是时变的,由于室内语音源信号处于不断移动的过程,因此该盲源分离系统中对应的混合系统也是时变的;根据源信号所处位置不同来不断自适应更新盲源分离系统参数,建立动态的分离矩阵,实现移动语音的实时盲分离;
⑵研究移动语音增强的后处理算法;
本阶段需要研究完成串扰成分估计的后处理;为了补偿室内干扰信号移动时对系统的影响,需要对盲源分离后语音进行后置处理;通过采用自适应波束形成的算法,模拟室内空间各向的干扰信号,作为干扰移动源的鲁棒性信号,或估算出剩余串扰成分,提高算法精度;
⑶研究语音混响的残留串扰消除算法;
本阶段需要研究在先前语音处理的基础上进行混响的消除;通过后处理算法,将移动语音中的线性干扰脉冲去除,剩余的非线性残留串扰成分源自房间混响,需要根据房间的面积不同及反射情况实时更新算法,获取实时参数、自适应建模及利用谱减法经典语音增强算法,实现串扰滤除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610908661.3A CN106531156A (zh) | 2016-10-19 | 2016-10-19 | 一种基于室内多移动源实时处理的语音信号增强技术方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610908661.3A CN106531156A (zh) | 2016-10-19 | 2016-10-19 | 一种基于室内多移动源实时处理的语音信号增强技术方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106531156A true CN106531156A (zh) | 2017-03-22 |
Family
ID=58332649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610908661.3A Pending CN106531156A (zh) | 2016-10-19 | 2016-10-19 | 一种基于室内多移动源实时处理的语音信号增强技术方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106531156A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994125A (zh) * | 2017-12-29 | 2019-07-09 | 音科有限公司 | 一种提高具有声音触发预设置的听力设备和系统触发精度的方法 |
CN110610718A (zh) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN113362847A (zh) * | 2021-05-26 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070257840A1 (en) * | 2006-05-02 | 2007-11-08 | Song Wang | Enhancement techniques for blind source separation (bss) |
CN101819782A (zh) * | 2010-03-10 | 2010-09-01 | 重庆邮电大学 | 一种变步长自适应盲源分离方法及盲源分离系统 |
CN102610237A (zh) * | 2012-03-21 | 2012-07-25 | 山东大学 | 两通道卷积混合语音信号盲分离算法的dsp实现系统 |
CN102831898A (zh) * | 2012-08-31 | 2012-12-19 | 厦门大学 | 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法 |
CN202749088U (zh) * | 2012-08-08 | 2013-02-20 | 滨州学院 | 一种盲源分离算法的语音增强系统 |
CN103544959A (zh) * | 2013-10-25 | 2014-01-29 | 华南理工大学 | 一种基于无线定位麦克风阵列语音增强的通话系统及方法 |
CN103594094A (zh) * | 2012-08-15 | 2014-02-19 | 王景芳 | 自适应谱减法实时语音增强 |
CN104658543A (zh) * | 2013-11-20 | 2015-05-27 | 大连佑嘉软件科技有限公司 | 一种室内混响消除的方法 |
CN104835503A (zh) * | 2015-05-06 | 2015-08-12 | 南京信息工程大学 | 一种改进gsc自适应语音增强方法 |
-
2016
- 2016-10-19 CN CN201610908661.3A patent/CN106531156A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070257840A1 (en) * | 2006-05-02 | 2007-11-08 | Song Wang | Enhancement techniques for blind source separation (bss) |
CN101819782A (zh) * | 2010-03-10 | 2010-09-01 | 重庆邮电大学 | 一种变步长自适应盲源分离方法及盲源分离系统 |
CN102610237A (zh) * | 2012-03-21 | 2012-07-25 | 山东大学 | 两通道卷积混合语音信号盲分离算法的dsp实现系统 |
CN202749088U (zh) * | 2012-08-08 | 2013-02-20 | 滨州学院 | 一种盲源分离算法的语音增强系统 |
CN103594094A (zh) * | 2012-08-15 | 2014-02-19 | 王景芳 | 自适应谱减法实时语音增强 |
CN102831898A (zh) * | 2012-08-31 | 2012-12-19 | 厦门大学 | 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法 |
CN103544959A (zh) * | 2013-10-25 | 2014-01-29 | 华南理工大学 | 一种基于无线定位麦克风阵列语音增强的通话系统及方法 |
CN104658543A (zh) * | 2013-11-20 | 2015-05-27 | 大连佑嘉软件科技有限公司 | 一种室内混响消除的方法 |
CN104835503A (zh) * | 2015-05-06 | 2015-08-12 | 南京信息工程大学 | 一种改进gsc自适应语音增强方法 |
Non-Patent Citations (2)
Title |
---|
刘建华: "室内移动源语音增强算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈胜: "室内多移动源的语音增强技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109994125A (zh) * | 2017-12-29 | 2019-07-09 | 音科有限公司 | 一种提高具有声音触发预设置的听力设备和系统触发精度的方法 |
CN110610718A (zh) * | 2018-06-15 | 2019-12-24 | 炬芯(珠海)科技有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN113362847A (zh) * | 2021-05-26 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gamper et al. | Blind reverberation time estimation using a convolutional neural network | |
CN103811020B (zh) | 一种智能语音处理方法 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN102388416B (zh) | 信号处理装置及信号处理方法 | |
CN101980336B (zh) | 一种基于隐马尔可夫模型的汽车声音识别方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
KR20140079369A (ko) | 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
CN108877823A (zh) | 语音增强方法和装置 | |
Pianese et al. | Deepfake audio detection by speaker verification | |
KR20200145219A (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
JP2015118361A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP3392882A1 (en) | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium | |
CN106531156A (zh) | 一种基于室内多移动源实时处理的语音信号增强技术方法 | |
Ling et al. | Attention-Based Convolutional Neural Network for ASV Spoofing Detection. | |
CN101419799A (zh) | 基于混合t模型的说话人识别方法 | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
Zeinali et al. | Acoustic scene classification using fusion of attentive convolutional neural networks for DCASE2019 challenge | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
Enzinger et al. | Mismatched distances from speakers to telephone in a forensic-voice-comparison case | |
CN112466333A (zh) | 一种声学场景分类方法与系统 | |
CN110459235A (zh) | 一种混响消除方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170322 |