CN116312545A - 多噪声环境下的语音识别系统和方法 - Google Patents

多噪声环境下的语音识别系统和方法 Download PDF

Info

Publication number
CN116312545A
CN116312545A CN202310604820.0A CN202310604820A CN116312545A CN 116312545 A CN116312545 A CN 116312545A CN 202310604820 A CN202310604820 A CN 202310604820A CN 116312545 A CN116312545 A CN 116312545A
Authority
CN
China
Prior art keywords
noise
signal
transient
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310604820.0A
Other languages
English (en)
Other versions
CN116312545B (zh
Inventor
傅训
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Daodafengchang Technology Co ltd
Original Assignee
Beijing Daodafengchang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Daodafengchang Technology Co ltd filed Critical Beijing Daodafengchang Technology Co ltd
Priority to CN202310604820.0A priority Critical patent/CN116312545B/zh
Publication of CN116312545A publication Critical patent/CN116312545A/zh
Application granted granted Critical
Publication of CN116312545B publication Critical patent/CN116312545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • G10K11/17854Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明涉及语音识别技术领域,具体多噪声环境下的语音识别系统和方法;其包括语音输入模块、降噪模块和语音识别模块,所述语音识别系统基于语音输入模块输入语音音频,所述降噪模块用于对输入的语音音频进行降噪处理,所述语音识别模块对降噪后的语音音频进行识别,并将识别结果输出至用户端;本发明中以基础噪声信号和目标信号作为对比标准得出瞬态噪声信号,这样使瞬态噪声的认定变得更加灵活,从而避免过多的使用瞬态噪声抑制模块进行降噪,以降低降噪过程中的计算量,减轻系统的运行负担,使瞬态噪声抑制模块仅在必要时介入。

Description

多噪声环境下的语音识别系统和方法
技术领域
本发明涉及语音识别技术领域,具体地说,涉及多噪声环境下的语音识别系统和方法。
背景技术
在语音识别中,降噪的意义非常重要,噪音可以干扰语音信号的良好识别,例如环境噪音、交通噪音、声音反射等,因此,如果能够降低噪音,就可以提高语音信号的质量,进而提高语音识别的准确性和可靠性;在语音识别系统中,通常使用数字信号处理技术来减少噪音,这些技术包括滤波、降噪算法、时域处理和频域处理等,这些方法可以分析和识别语音信号中的噪声成分,并消除或减弱它们,使得语音信号更加清晰和容易识别。
可是在面对瞬态噪声时,普通的技术很难对其进行降噪处理,因为瞬态噪声具有一些比较特殊的特征:在时域上是短暂的振荡衰减的,通常作用时间在10ms-30ms内,在频域上分布比较宽。
在现有技术中有针对瞬态噪声进行降噪处理的技术,但是降噪过程中非常复杂,计算量也非常大,而且并不是所有情况下都需要对瞬态噪声进行降噪,比如环境中在同一时间下有多个瞬态噪音,这时候可以掌握瞬态噪音的特征进行正常的降噪处理,而且在多噪声环境下,也很难完成瞬态噪音的降噪。
发明内容
本发明的目的在于提供多噪声环境下的语音识别系统和方法,以解决多环境下噪音相互干扰导致瞬态噪声难以处理的问题。
为实现上述目的,本发明目的之一在于,提供了多噪声环境下的语音识别方法,其包括如下方法步骤:
S1、向语音识别系统输入语音音频;
S2、采用自适应噪声降噪法对语音音频进行降噪处理,在处理过程中得到目标信号和噪声信号,噪声信号又包含基础噪音信号和瞬态噪声信号,其中:
基础噪音信号是必然产生的,而瞬态噪声信号是基于基础噪声信号和目标信号产生的;
S3、在瞬态噪声信号产生后针对瞬态噪声信号进行降噪处理;
S4、对降噪后的语音音频进行识别,并将识别结果输出至用户端;
其中,S3在瞬态噪声信号产生后进行,如果S2中没有产生瞬态噪声信号,则直接进行S4。
作为本技术方案的进一步改进,所述S2中的自适应噪声降噪法包括如下步骤:
S2.1、建立滤波器;
S2.2、估计噪声;
S2.3、进行噪声减除;
S2.4、对减除后的信号进行平滑处理。
作为本技术方案的进一步改进,所述滤波器包括移动滤波器或自适应滤波器。
作为本技术方案的进一步改进,所述S3中针对瞬态噪声信号进行降噪处理的方法步骤如下:
S3.1、建立瞬态噪声信号模型;
S3.2、采用递归均值算法对瞬态噪声信号的噪声谱进行提取;
S3.3、根据提取的噪声谱抑制瞬态噪声。
作为本技术方案的进一步改进,所述递归均值算法对带瞬态噪声语音功率谱密度进行时域递归平均,具体公式如下:
Figure SMS_1
式中,
Figure SMS_2
为频率的索引号;/>
Figure SMS_3
和/>
Figure SMS_4
为时域帧的索引号;/>
Figure SMS_5
为带瞬态噪声语音功率谱;/>
Figure SMS_6
和/>
Figure SMS_7
为带瞬态噪声语音功率谱的时域平滑;/>
Figure SMS_8
为带瞬态噪声语音功率谱的时域平滑因子。
本发明目的之二在于,提供了多噪声环境下的语音识别系统,其包括语音输入模块、降噪模块和语音识别模块,所述语音识别系统基于语音输入模块输入语音音频,所述降噪模块用于对输入的语音音频进行降噪处理,所述语音识别模块对降噪后的语音音频进行识别,并将识别结果输出至用户端,所述语音识别系统至少还包括:
语音过渡模块,所述语音过渡模块用于搭建瞬态噪声过渡存储区和基准噪声过渡存储区,其中,所述基准噪声过渡存储区为必要存储区,所述瞬态噪声过渡存储区为选择性产生存储区;
瞬态噪声抑制模块,所述瞬态噪声抑制模块在瞬态噪声过渡存储区产生时介入,以对语音音频中的瞬态噪声进行抑制。
作为本技术方案的进一步改进,所述降噪模块具体将语音音频分解为目标信号和噪声信号,所述噪声信号包括基础噪声信号和瞬态噪声信号,其中:
所述目标信号和基础噪声信号进入基准噪声过渡存储区进行存储;
所述瞬态噪声信号进入瞬态噪声过渡存储区进行存储。
作为本技术方案的进一步改进,所述瞬态噪声信号基于基础噪声信号和目标信号产生。
作为本技术方案的进一步改进,所述瞬态噪声抑制模块对降噪模块降噪后的语音音频进行抑制。
作为本技术方案的进一步改进,所述降噪模块包括语音音频接收单元、自适应降噪单元和音频信号输出单元,其中:
所述语音音频接收单元用于接收语音输入模块输入的语音音频;
所述自适应降噪单元采用自适应噪声降噪法对语音音频进行降噪处理;
所述音频信号输出单元用于向瞬态噪声过渡存储区和基准噪声过渡存储区输出对应的音频信号。
与现有技术相比,本发明的有益效果:
1、该多噪声环境下的语音识别系统和方法中,以基础噪声信号和目标信号作为对比标准得出瞬态噪声信号,这样使瞬态噪声的认定变得更加灵活,从而避免过多的使用瞬态噪声抑制模块进行降噪,以降低降噪过程中的计算量,减轻系统的运行负担,使瞬态噪声抑制模块在必要时介入。
2、该多噪声环境下的语音识别系统和方法中,介入后的瞬态噪声抑制模块对降噪模块降噪后的语音音频进行抑制,也就是说,瞬态噪声抑制模块在进行抑制时,基础噪声信号已经被减弱,进而使瞬态噪声信号更加明显,以便于瞬态噪声抑制模块进行抑制,同时也避免了多噪音之间的相互干扰。
附图说明
图1为本发明语音识别系统的整体单元框图;
图2为本发明的降噪模块内部工作流程框图;
图3为本发明的识别方法步骤流程示意图;
图4为本发明的自适应噪声降噪方法步骤流程示意图;
图5为本发明的针对瞬态噪声信号进行降噪处理的方法步骤流程示意图。
图中各个标号意义为:
100、语音识别输入模块;200、降噪模块;300、语音识别模块;400、语音过渡模块;500、瞬态噪声抑制模块;
210、语音音频接收单元;220、自适应降噪单元;230、音频信号输出单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有技术中有针对瞬态噪声进行降噪处理的技术,但是降噪过程中非常复杂,计算量也非常大,而且并不是所有情况下都需要对瞬态噪声进行降噪,比如环境中在同一时间下有多个瞬态噪音,这时候可以掌握瞬态噪音的特征进行正常的降噪处理,而且在多噪声环境下,也很难完成瞬态噪音的降噪。
为此,本实施例提供了多噪声环境下的语音识别系统,如图1所示,该系统包括语音输入模块100、降噪模块200和语音识别模块300,同现有的语音识别原理相同,即语通过音输入模块100向语音识别系统内输入需要识别的语音音频,输入后降噪模块200对输入的语音音频进行降噪处理,接着语音识别模块300对降噪后的语音音频进行识别,并将识别结果输出至用户端,这里的用户端可以是手机、电脑、智能音响又或者是智能手表等搭载有语音识别功能的设备,为了解决多环境下噪音相互干扰导致瞬态噪声难以处理的问题,本实施例的语音识别系统至少还包括:
语音过渡模块400,语音过渡模块400用于搭建瞬态噪声过渡存储区和基准噪声过渡存储区,以下将二者统称为过渡存储区,过渡存储区对语音音频的信号进行存储,这样在产生瞬态噪声时,能够进行延时,以为瞬态噪声抑制模块500介入提供足够时间,如果没有产生瞬态噪声的话,语音识别模块300就可以在其识别后直接输出,其中,瞬态噪声抑制模块500在瞬态噪声过渡存储区产生时介入,以对语音音频中的瞬态噪声进行抑制。
进一步的,基准噪声过渡存储区为必要存储区,也就是说不论有无瞬态噪声都得产生基准噪声过渡存储区,因为需要通过基准噪声过渡存储区对述降噪模块200降噪处理的语音音频进行存储,降噪模块200具体将语音音频分解为目标信号和噪声信号,噪声信号包括基础噪声信号和瞬态噪声信号,其中:
目标信号和基础噪声信号进入基准噪声过渡存储区进行存储,而目标信号和基础噪声信号是每个语音音频都具有的,所以说基准噪声过渡存储区为必要存储区。
而瞬态噪声信号是基于基础噪声信号和目标信号产生的,并存储至瞬态噪声过渡存储区,而瞬态噪声得出是具有一定条件的,这样瞬态噪声过渡存储区是基于瞬态噪声产生而产生的,所以说瞬态噪声过渡存储区为选择性产生存储区,其产生是受瞬态噪声选择的;简单来说就是,瞬态噪声产生瞬态噪声过渡存储区就会产生,以对瞬态噪声信号进行存储,同时瞬态噪声抑制模块500对降噪模块200降噪后的语音音频进行抑制。
需要说明的是,如图2所示,降噪模块200包括语音音频接收单元210、自适应降噪单元220和音频信号输出单元230,其中:
语音音频接收单元210用于接收语音输入模块100输入的语音音频;
自适应降噪单元220采用自适应噪声降噪法对语音音频进行降噪处理;
音频信号输出单元230用于向瞬态噪声过渡存储区和基准噪声过渡存储区输出对应的音频信号。
工作时,首先语音输入模块100将提取到的语音音频输入至语音音频接收单元210,具体可通过麦克风、数字录音机、耳麦、话筒或者传感器等,其中:
麦克风是一种将声音转换成电信号的设备,在语音识别中,麦克风是最常用的设备之一,可以将人的声音转换成数字信号,以供计算机进行处理和识别;数字录音机是一种可以将声音录制成数字化音频文件的设备,它可以记录语音、音乐等声音,并将录制的内容转化成电脑可以处理的数字信号,再借助电脑完成识别处理;耳麦和话筒也是一种可以进行语音提取的设备,它们可以采集人的声音,并将其转换为数字信号;传感器是一种可以检测声音、振动等信号的设备,在一些特殊场合下,例如在嘈杂环境中进行语音识别,传感器可以起到一定的作用。
接着,语音音频接收单元210接收语音输入模块100输入的语音音频,再通过自适应降噪单元220对语音音频进行降噪处理,降噪处理过程中产生的目标信号和噪声信号(即音频信号),被音频信号输出单元230输出至过渡存储区,这时候如果环境中出现多处在时域上是短暂的振荡衰减的,同时在频域上分布比较宽的噪音时,本实施例将这类噪音认定为基础噪声信号,因为这类噪音由多点同时产生,在该环境下这类噪音属于一个常态,例如:在计算机房,这种敲击键盘的噪音就是一个常态,又或者在厂房内机器的轰鸣声就是一个常态,这样在降噪时相应的噪音规律更容易掌握,也更具特点,而且在该环境下的目标信号也会更加突出,这时候完全可以不需要瞬态噪声抑制模块500介入,而是将上述常态话的噪音认定为基础噪声信号。
同时,在降噪处理过程中会以基础噪声信号和目标信号作为对比标准得出瞬态噪声信号(即瞬态噪声),这样使瞬态噪声的认定变得更加灵活,从而避免过多的使用瞬态噪声抑制模块500进行降噪,以降低降噪过程中的计算量,减轻系统的运行负担,使瞬态噪声抑制模块500在必要时介入。
而且,介入后的瞬态噪声抑制模块500对降噪模块200降噪后的语音音频进行抑制,也就是说,瞬态噪声抑制模块500在进行抑制时,基础噪声信号已经被减弱,进而使瞬态噪声信号更加明显,以便于瞬态噪声抑制模块500进行抑制,并且避免了多噪音之间的相互干扰。
基于上述原理,本实施例还提供了多噪声环境下的语音识别方法,如图3所示,该方法包括如下方法步骤:
S1、向语音识别系统输入语音音频;
S2、采用自适应噪声降噪法对语音音频进行降噪处理,在处理过程中得到目标信号和噪声信号,噪声信号又包含基础噪音信号和瞬态噪声信号,其中:
基础噪音信号是必然产生的,而瞬态噪声信号是基于基础噪声信号和目标信号产生的;
S3、在瞬态噪声信号产生后针对瞬态噪声信号进行降噪处理;
S4、对降噪后的语音音频进行识别,并将识别结果输出至用户端。
需要说明的是,S3在瞬态噪声信号产生后进行,如果S2中并没有产生瞬态噪声信号,那么直接跳过S3,直接进行S4。
进一步说明的是,在S2进行的同时,本实施例会根据产生的基础噪音信号和瞬态噪声信号搭建基准噪声过渡存储区和瞬态噪声过渡存储区,因为基础噪音信号是必然产生的,所以基准噪声过渡存储区为必要存储区,而瞬态噪声过渡存储区为选择性产生存储区,总之,基准噪声过渡存储区和瞬态噪声过渡存储区分别对基础噪声信号和瞬态噪声信号进行存储。
如图4所示,在S2中说到的自适应噪声降噪法包括如下步骤:
S2.1、建立滤波器:对于每个信号(具体包括目标信号和噪声信号)都需要建立一个滤波器(包括移动滤波器或自适应滤波器),用于估计信号中的噪声水平;
S2.2、估计噪声:通过建立的滤波器,可以得出当前信号中存在的噪声水平,具体使用短时平均幅度来表示噪声水平;
S2.3、进行噪声减除:在得到估计的噪声水平之后,可以将其减去,从而得到一个更加清晰的信号,而噪声减除通常使用差分处理或减法处理;
S2.4、对减除后的信号进行平滑处理:为了使减除后的信号更加平滑和自然,可使用一些数字滤波器或平滑算法对其进行平滑处理。
自适应噪声抑制法基于最小均方误差准则,利用时间域滤波器实现降噪,具体来说,自适应噪声抑制法将输入信号分解为目标信号和噪声信号两部分,通过对噪声信号进行建模,将其作为滤波器输入,利用最小均方误差准则来不断优化滤波器参数,以取得最好的降噪效果。
而自适应噪声抑制法的核心是一个自适应滤波器,该滤波器可以通过一些参数的调整不断适应环境噪声的变化,来提高噪声抑制的效果,以下是适应噪声抑制法中的关键参数的计算公式:
其一、估计噪声信号的功率谱密度,使用前一段时间的语音信号的短时谱来估计噪声功率谱密度,计算公式如下:
Figure SMS_9
其中,H{N}(f)表示噪声的功率谱密度函数,f表示功率谱;{N}表示噪声信息标记;P{xx}(f)表示当前语音信号的功率谱密度函数;{xx}表示语音信号标记;A是滤波器的平滑系数。
其二、计算滤波器的输出,将输入信号x(n)分离成目标信号s(n)和基础噪声信号v(n),滤波器的输出y(n)计算公式如下:
Figure SMS_10
其中,
Figure SMS_11
表示初始输入信号;L表示滤波器的步长;/>
Figure SMS_12
表示第i个输入信号;
Figure SMS_13
表示第j个滤波器在第i个输入信号处的值;n和m分别表示输入信号总数和滤波器总数;
并通过以上计算公式是不断迭代更新实现滤波器的自适应降噪的过程,在迭代更新过程中常用的适应算法包括LMS算法、RLS算法等。
如图5所示,S3中针对瞬态噪声信号进行降噪处理的方法步骤如下:
S3.1、建立瞬态噪声信号模型;
S3.2、采用递归均值算法对瞬态噪声信号的噪声谱进行提取;
S3.3、根据提取的噪声谱抑制瞬态噪声。
其中,递归均值算法对带瞬态噪声语音功率谱密度进行时域递归平均,具体公式如下:
Figure SMS_14
式中,
Figure SMS_16
为频率的索引号;/>
Figure SMS_20
为时域帧的索引号;/>
Figure SMS_22
为带瞬态噪声语音功率谱;/>
Figure SMS_17
为带瞬态噪声语音功率谱的时域平滑;/>
Figure SMS_19
为带瞬态噪声语音功率谱的时域平滑因子;/>
Figure SMS_21
的大小与/>
Figure SMS_23
这个带瞬态噪声语音功率谱有关,/>
Figure SMS_15
越小,当前帧的权重越大,越容易跟踪到瞬态噪声的快速变化,而且在进行瞬态噪声处理时,基础噪音信号已经被取出,所以瞬态噪声的变化很容易被追踪到,因此/>
Figure SMS_18
的设定控制在0.6-0.7范围内变化。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种多噪声环境下的语音识别方法,其特征在于,包括如下方法步骤:
S1、向语音识别系统输入语音音频;
S2、采用自适应噪声降噪法对语音音频进行降噪处理,在处理过程中得到目标信号和噪声信号,所述噪声信号包含基础噪音信号和瞬态噪声信号,所述基础噪音信号是语音音频产生过程中必然产生的,而瞬态噪声信号是基于基础噪声信号和目标信号产生的;
若产生瞬态噪声信号,则进入步骤S3;若未产生瞬态噪声信号,则进入步骤S4;
S3、在瞬态噪声信号产生后针对瞬态噪声信号进行降噪处理;具体包括:
S3.1、建立瞬态噪声信号模型;
S3.2、采用递归均值算法对瞬态噪声信号的噪声谱进行提取;所述递归均值算法对带瞬态噪声语音功率谱密度进行时域递归平均,满足公式:
Figure QLYQS_1
其中,
Figure QLYQS_2
和/>
Figure QLYQS_3
为带瞬态噪声语音功率谱的时域平滑函数;/>
Figure QLYQS_4
为频率的索引号;/>
Figure QLYQS_5
和/>
Figure QLYQS_6
为时域帧的索引号;/>
Figure QLYQS_7
为带瞬态噪声语音功率谱的时域平滑因子;
Figure QLYQS_8
为带瞬态噪声语音功率谱函数;
S3.3、根据提取的噪声谱抑制瞬态噪声;
S4、对降噪后的语音音频进行识别,并将识别结果输出至用户端。
2.根据权利要求1所述的多噪声环境下的语音识别方法,其特征在于,所述S2中的自适应噪声降噪法包括如下步骤:
S2.1、建立滤波器;
S2.2、估计噪声;
S2.3、进行噪声减除;
S2.4、对减除后的信号进行平滑处理。
3.根据权利要求2所述的多噪声环境下的语音识别方法,其特征在于,所述滤波器包括移动滤波器或自适应滤波器。
4.一种多噪声环境下的语音识别系统,用于执行如权利要求1至3任一项所述的多噪声环境下的语音识别方法,其包括语音输入模块(100)、降噪模块(200)和语音识别模块(300),所述语音识别系统基于语音输入模块(100)输入语音音频,所述降噪模块(200)用于对输入的语音音频进行降噪处理,所述语音识别模块(300)对降噪后的语音音频进行识别,并将识别结果输出至用户端,其特征在于,所述语音识别系统至少还包括:
语音过渡模块(400),所述语音过渡模块(400)用于搭建瞬态噪声过渡存储区和基准噪声过渡存储区,其中,所述基准噪声过渡存储区为必要存储区,所述瞬态噪声过渡存储区为选择性产生存储区;
瞬态噪声抑制模块(500),所述瞬态噪声抑制模块(500)在瞬态噪声过渡存储区产生时介入,以对语音音频中的瞬态噪声进行抑制。
5.根据权利要求4所述的多噪声环境下的语音识别系统,其特征在于,所述降噪模块(200)具体将语音音频分解为目标信号和噪声信号,所述噪声信号包括基础噪声信号和瞬态噪声信号,其中:
所述目标信号和基础噪声信号进入基准噪声过渡存储区进行存储;
所述瞬态噪声信号进入瞬态噪声过渡存储区进行存储。
6.根据权利要求5所述的多噪声环境下的语音识别系统,其特征在于,所述瞬态噪声信号基于基础噪声信号和目标信号产生。
7.根据权利要求6所述的多噪声环境下的语音识别系统,其特征在于,所述瞬态噪声抑制模块(500)对降噪模块(200)降噪后的语音音频进行抑制。
8.根据权利要求7所述的多噪声环境下的语音识别系统,其特征在于,所述降噪模块(200)包括语音音频接收单元(210)、自适应降噪单元(220)和音频信号输出单元(230),其中:
所述语音音频接收单元(210)用于接收语音输入模块(100)输入的语音音频;
所述自适应降噪单元(220)采用自适应噪声降噪法对语音音频进行降噪处理;
所述音频信号输出单元(230)用于向瞬态噪声过渡存储区和基准噪声过渡存储区输出对应的音频信号。
CN202310604820.0A 2023-05-26 2023-05-26 多噪声环境下的语音识别系统和方法 Active CN116312545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310604820.0A CN116312545B (zh) 2023-05-26 2023-05-26 多噪声环境下的语音识别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310604820.0A CN116312545B (zh) 2023-05-26 2023-05-26 多噪声环境下的语音识别系统和方法

Publications (2)

Publication Number Publication Date
CN116312545A true CN116312545A (zh) 2023-06-23
CN116312545B CN116312545B (zh) 2023-07-21

Family

ID=86787374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310604820.0A Active CN116312545B (zh) 2023-05-26 2023-05-26 多噪声环境下的语音识别系统和方法

Country Status (1)

Country Link
CN (1) CN116312545B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219098A (zh) * 2023-09-13 2023-12-12 南京汇智互娱网络科技有限公司 一种用于智能体的数据处理系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706394A (en) * 1993-11-30 1998-01-06 At&T Telecommunications speech signal improvement by reduction of residual noise
US20060100868A1 (en) * 2003-02-21 2006-05-11 Hetherington Phillip A Minimization of transient noises in a voice signal
CN104658544A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种语音中瞬态噪声抑制的方法
CN107004424A (zh) * 2014-11-06 2017-08-01 沃寇族姆系统有限公司 噪声降低和语音增强的方法、设备和系统
CN110503973A (zh) * 2019-08-28 2019-11-26 浙江大华技术股份有限公司 音频信号瞬态噪音抑制方法、系统以及存储介质
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111564161A (zh) * 2020-04-28 2020-08-21 长沙世邦通信技术有限公司 智能抑制噪音的声音处理装置、方法、终端设备及可读介质
US20210014593A1 (en) * 2018-03-30 2021-01-14 Panasonic Intellectual Property Management Co., Ltd. Noise reduction device
CN113196382A (zh) * 2018-12-19 2021-07-30 谷歌有限责任公司 稳健的自适应噪声消除系统和方法
CN115954012A (zh) * 2023-03-03 2023-04-11 成都启英泰伦科技有限公司 一种周期性瞬态干扰事件检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706394A (en) * 1993-11-30 1998-01-06 At&T Telecommunications speech signal improvement by reduction of residual noise
US20060100868A1 (en) * 2003-02-21 2006-05-11 Hetherington Phillip A Minimization of transient noises in a voice signal
CN104658544A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种语音中瞬态噪声抑制的方法
CN107004424A (zh) * 2014-11-06 2017-08-01 沃寇族姆系统有限公司 噪声降低和语音增强的方法、设备和系统
US20210014593A1 (en) * 2018-03-30 2021-01-14 Panasonic Intellectual Property Management Co., Ltd. Noise reduction device
CN113196382A (zh) * 2018-12-19 2021-07-30 谷歌有限责任公司 稳健的自适应噪声消除系统和方法
CN110503973A (zh) * 2019-08-28 2019-11-26 浙江大华技术股份有限公司 音频信号瞬态噪音抑制方法、系统以及存储介质
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111564161A (zh) * 2020-04-28 2020-08-21 长沙世邦通信技术有限公司 智能抑制噪音的声音处理装置、方法、终端设备及可读介质
CN115954012A (zh) * 2023-03-03 2023-04-11 成都启英泰伦科技有限公司 一种周期性瞬态干扰事件检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219098A (zh) * 2023-09-13 2023-12-12 南京汇智互娱网络科技有限公司 一种用于智能体的数据处理系统

Also Published As

Publication number Publication date
CN116312545B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US6157909A (en) Process and device for blind equalization of the effects of a transmission channel on a digital speech signal
CN104050971A (zh) 声学回声减轻装置和方法、音频处理装置和语音通信终端
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
CN108696648B (zh) 一种短时语音信号处理的方法、装置、设备及存储介质
CN116312545B (zh) 多噪声环境下的语音识别系统和方法
CN111312290B (zh) 音频数据音质检测方法及装置
CN104980337A (zh) 一种音频处理的性能提升方法及装置
CN115762579A (zh) 一种声音处理方法、装置与设备
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
CN115884032B (zh) 一种后馈式耳机的智慧通话降噪方法及系统
CN112037810B (zh) 一种回音处理方法、装置、介质和计算设备
CN112309417A (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
CN108810746A (zh) 一种音质优化方法、反馈降噪系统、耳机及存储介质
CN112201273A (zh) 一种噪声功率谱密度计算方法、系统、设备及介质
KR100308028B1 (ko) 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체
CN113241089A (zh) 语音信号增强方法、装置及电子设备
CN113763975A (zh) 一种语音信号处理方法、装置及终端
CN116887160B (zh) 基于神经网络的数字助听器啸叫抑制方法及系统
CN113763945B (zh) 一种语音唤醒方法、装置、设备及存储介质
CN111354341A (zh) 语音唤醒方法及装置、处理器、音箱和电视机
CN113539284B (zh) 语音降噪方法、装置、计算机设备及存储介质
CN115985337B (zh) 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
KR102218151B1 (ko) 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant