CN116964664A - 噪声抑制装置、噪声抑制方法以及噪声抑制程序 - Google Patents
噪声抑制装置、噪声抑制方法以及噪声抑制程序 Download PDFInfo
- Publication number
- CN116964664A CN116964664A CN202180094907.7A CN202180094907A CN116964664A CN 116964664 A CN116964664 A CN 116964664A CN 202180094907 A CN202180094907 A CN 202180094907A CN 116964664 A CN116964664 A CN 116964664A
- Authority
- CN
- China
- Prior art keywords
- noise
- data
- noise suppression
- weighting coefficient
- input data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 192
- 238000000034 method Methods 0.000 title claims description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000003595 spectral effect Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 description 25
- 230000002411 adverse Effects 0.000 description 16
- 230000008034 disappearance Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Noise Elimination (AREA)
Abstract
噪声抑制装置(1)具备:噪声抑制部(11),其对输入数据(Si(t))进行噪声抑制处理而生成噪声抑制后数据(Ss(t));加权系数计算部(12),其基于时间序列上的预先决定的区间(E)内的输入数据(Si(t))和预先决定的区间(E)内的噪声抑制后数据(Ss(t))来决定加权系数(α);以及加权和部(13),其将基于加权系数(α)的值用作权重,对输入数据(Si(t))与噪声抑制后数据(Ss(t))进行加权相加,由此生成输出数据(So(t))。
Description
技术领域
本公开涉及噪声抑制装置、噪声抑制方法以及噪声抑制程序。
背景技术
作为从在语音(以下也称为“语音”。)中混入了噪音(以下也称为“噪声”。)的声音信号中降低噪声成分的方法,已知有Weiner法。根据该方法,SN(signal-noise)比得到改善,但语音成分劣化。于是,提出了通过进行与SN比相应的降噪处理来改善SN比并且抑制语音成分的劣化的方法(例如参照非专利文献1)。
现有技术文献
非专利文献
非专利文献1:佐佐木润子和另一名作者著,“マスキング効果を用いた低失真雑音低減方式における効果的な原音付加率の検討”,日本声学学会研究发表会演讲论文集,pp.503-504,1998年9月
发明内容
发明要解决的问题
但是,在噪声下,作为识别对象的语音被噪声埋没,SN比的测定精度下降。因此,存在不能适当地进行噪声成分的抑制和语音成分的劣化的抑制这样的问题。
本公开是为了解决如上问题而完成的,其目的在于,提供一种能够适当地进行噪声成分的抑制和语音成分的劣化的抑制的噪声抑制装置、噪声抑制方法及噪声抑制程序。
用于解决问题的手段
本公开的噪声抑制装置的特征在于,具备:噪声抑制部,其对输入数据进行噪声抑制处理而生成噪声抑制后数据;加权系数计算部,其基于时间序列上的预先决定的区间内的所述输入数据和所述预先决定的区间内的所述噪声抑制后数据,来决定加权系数;以及加权和部,其将基于所述加权系数的值用作权重,对所述输入数据与所述噪声抑制后数据进行加权相加,由此生成输出数据。
本公开的另一噪声抑制装置的特征在于,噪声抑制部,其对输入数据进行噪声抑制处理而生成噪声抑制后数据;加权系数计算部,其将所述输入数据的全部区间的数据划分为时间序列上的预先决定的多个短区间,基于所述多个短区间内的所述输入数据和所述多个短区间内的所述噪声抑制后数据,决定所述多个短区间各自的加权系数;以及加权和部,其分别在所述多个短区间内,将基于所述加权系数的值用作权重,对所述输入数据与所述噪声抑制后数据进行加权相加,由此生成输出数据。
发明的效果
根据本公开,能够适当地进行输入数据中的噪声成分的抑制和输入数据中的语音成分的劣化的抑制。
附图说明
图1是示出实施方式1至3的噪声抑制装置的硬件结构的例子的图。
图2是概要地示出实施方式1的噪声抑制装置的结构的功能框图。
图3是示出实施方式1的噪声抑制装置的动作的流程图。
图4是概要地示出实施方式2的噪声抑制装置的结构的功能框图。
图5是示出实施方式2的噪声抑制装置所使用的加权系数表的例子的图。
图6是示出实施方式2的噪声抑制装置的动作的流程图。
图7是概要地示出实施方式3的噪声抑制装置的结构的功能框图。
图8是示出实施方式3的噪声抑制装置的动作的流程图。
图9是示出实施方式3的噪声抑制装置中的相加系数的计算方法的流程图。
具体实施方式
以下,参照附图对实施方式的噪声抑制装置、噪声抑制方法及噪声抑制程序进行说明。以下的实施方式只不过是例子,能够适当地组合实施方式、以及适当地变更各实施方式。
实施方式1.
图1示出实施方式1的噪声抑制装置1的硬件结构的例子。噪声抑制装置1是能够执行实施方式1的噪声抑制方法的装置。噪声抑制装置1例如是执行实施方式1的噪声抑制程序的计算机。如图1所示,噪声抑制装置1具备作为处理信息的信息处理部的处理器101、作为易失性存储装置的存储器102、作为存储信息的存储部的非易失性存储装置103、以及用于与外部设备之间进行数据的收发的输入输出接口104。非易失性存储装置103也可以是能够经由网络而与噪声抑制装置1进行通信的其他装置的一部分。噪声抑制程序能够通过经由网络进行的下载或者从存储信息的光盘等这样的记录介质读入而取得。另外,图1的硬件结构也能够应用于后述的实施方式2和3的噪声抑制装置2和3。
处理器101对噪声抑制装置1的整体的动作进行控制。处理器101例如是CPU(Central Processing Unit:中央处理单元)或者FPGA(Field Programmable Gate Array:现场可编程门阵列)等。噪声抑制装置1也可以由处理电路实现。此外,噪声抑制装置1也可以由软件、固件、或者它们的组合实现。
存储器102是噪声抑制装置1的主存储装置。存储器102例如是RAM(Random AccessMemory:随机存取存储器)。非易失性存储装置103是噪声抑制装置1的辅助存储装置。非易失性存储装置103例如是HDD(Hard Disk Drive:硬盘驱动器)或者SSD(Solid StateDrive:固态硬盘)。输入输出接口104进行输入数据Si(t)的输入和输出数据So(t)的输出。输入数据Si(t)例如是从麦克风输入并进行数字转换后的数据。输入输出接口104用于接收基于用户操作部(例如,语音输入的开始按钮、键盘、鼠标、触摸面板等)的用户操作的操作信号、与其他装置之间的通信等。t是表示时间序列上的位置的索引。t的值越大则表示时间轴上的越晚的时刻。
图2是概要地示出实施方式1的噪声抑制装置1的结构的功能框图。如图2所示,噪声抑制装置1具备噪声抑制部11、加权系数计算部12、以及加权和部13。
噪声抑制装置1的输入数据Si(t)是对在作为识别对象的语音成分中叠加了噪声成分的信号进行A/D(模拟/数字)转换而得到的PCM(pulse code modulation:脉冲编码调制)数据。这里,t=1、2、……、T。t是作为表示时间序列上的位置的索引的整数,T是表示输入数据Si(t)的时间长度的整数。
此外,输出数据So(t)是抑制了输入数据Si(t)中的噪声成分的数据。输出数据So(t)例如被发送到公知的语音识别装置。这里,t和T的含义如已经说明的那样。
噪声抑制部11接受输入数据Si(t),输出通过抑制输入数据Si(t)中的噪声成分而得到的PCM数据,即噪声抑制后数据Ss(t),噪声抑制后数据Ss(t)是实施了噪声抑制处理后的数据。这里,t和T的含义如已经说明的那样。在噪声抑制后数据Ss(t)中,有时产生噪声成分的抑制量不够或者作为识别对象语音的成分的语音成分失真或语音成分消失等现象。
噪声抑制部11能够使用任意的噪声抑制方式。在实施方式1中,噪声抑制部11使用神经网络(NN)进行噪声抑制处理。噪声抑制部11在实施噪声抑制处理之前学习神经网络。例如能够将在语音中叠加有噪声的声音的PCM数据作为输入数据,将在语音中未叠加噪声的PCM数据作为训练数据,使用误差反向传播法来实施学习。
加权系数计算部12基于时间序列上的预先决定的区间内的输入数据Si(t)和预先决定的区间内的噪声抑制后数据Ss(t)来决定(即,计算)加权系数α。
加权和部13将基于加权系数α的值用作权重,通过对输入数据Si(t)与噪声抑制后数据Ss(t)进行加权相加而生成输出数据So(t)。
图3是示出噪声抑制装置1的动作的流程图。在图3的步骤ST11中,噪声抑制装置1开始接收输入数据Si(t),在向噪声抑制装置1输入了输入数据Si(t)时,噪声抑制部11对输入数据Si(t)进行噪声抑制处理,生成噪声抑制后数据Ss(t)。
接着,在图3的步骤ST12中,加权系数计算部12接受作为噪声抑制前的数据的输入数据Si(t)和噪声抑制后数据Ss(t),计算从输入数据Si(t)和噪声抑制后数据Ss(t)的开头起预先决定的区间(例如,0.5秒钟等短时间的区间)内的输入数据Si(t)的功率P1和噪声抑制后数据Ss(t)的功率P2。在预先决定的区间内的数据中,认为不包含作为识别对象的语音成分,仅包含噪声成分。这是因为,几乎不会在刚刚起动噪声抑制装置1后(例如,在刚刚进行了语音输入开始操作后)开始说话。换言之,是因为,发出识别对象语音的说话人(即,用户)在进行装置中的语音输入开始操作并吸入空气之后,一边从肺呼气一边发出语音,因此,至少吸入空气的时间未发出语音。因此,通常,语音输入开始时的预先决定的区间是仅为不包含说话人的语音的噪声的区间,即,噪声区间。在以下的说明中,对噪声区间标注标号E。
另外,噪声区间E不限定于从输入数据的开头起0.5秒的区间,也可以是1秒的区间、0.75秒的区间等其他长度的区间。但是,在噪声区间E过长的情况下,语音成分混入的可能性高,但加权系数α的可靠度提高。此外,在噪声区间E过短的情况下,语音成分混入的可能性低,但加权系数α的可靠度下降。因此,期望根据使用环境、用户的希望等适当设定噪声区间E。
接着,加权系数计算部12使用噪声区间E内的输入数据Si(t)的功率P1和噪声区间E内的噪声抑制后数据Ss(t)的功率P2,计算作为两者之比的分贝值的噪声抑制量R。即,加权系数计算部12基于噪声区间E内的输入数据Si(t)的功率P1与噪声区间E内的噪声抑制后数据Ss(t)的功率之比来计算噪声抑制量R,基于噪声抑制量R来决定加权系数α的值。噪声抑制量R的计算式例如是以下的式(1)。
[数式1]
由式(1)计算的噪声抑制量R表示噪声区间E内的输入数据Si(t)与噪声区间E内的噪声抑制后数据Ss(t)之间的噪声抑制部11抑制噪声的程度。噪声抑制量R越大,则噪声抑制部11抑制噪声的程度越大。
在图3的步骤ST13、ST14、ST15中,加权系数计算部12基于计算出的噪声抑制量R来决定加权系数α的值。即,加权系数计算部12将计算出的噪声抑制量R与预先决定的阈值TH_R进行比较,基于该比较的结果来决定加权系数α的值。
具体而言,加权系数计算部12在噪声抑制量R小于阈值TH_R的情况下(在步骤ST13中为“是”的情况下),在步骤ST14中,输出预先决定的值α1作为加权系数α。另一方面,加权系数计算部12在噪声抑制量R为阈值TH_R以上的情况下(在步骤ST13中为“否”的情况下),在步骤ST15中,输出预先决定的值α2作为加权系数α。α1和α2是满足α1>α2的0以上且1以下的常数。另外,值α1和α2与阈值TH_R一起被存储于预先设定的非易失性存储装置103。例如,TH_R=3,α1=0.5,α2=0.2。
关于像这样计算加权系数α的加权系数计算部12,在认为由于噪声抑制量R小而噪声抑制的效果小、反之语音的失真或消失所产生的不良影响可能变大的噪声环境中,增大针对输入数据Si(t)的加权系数α,降低噪声抑制所产生的不良影响。另一方面,加权系数计算部12在噪声抑制量R大的情况下,认为噪声抑制的效果大,因此,减小针对输入数据Si(t)的加权系数α,相对地增大噪声抑制后数据Ss(t)的权重,由此,能够减轻语音的失真或消失所产生的不良影响,而不会过度降低噪声抑制的效果。
接着,在图3的步骤ST16中,加权和部13基于输入数据Si(t)、噪声抑制后数据Ss(t)及加权系数α,使用以下的式(2)来计算输出数据So(t)并输出。
[数式2]
So(t)=α*Si(t)+(1-α)*Ss(t) (t=0,1,2,…,T) (2)
如以上说明的那样,根据实施方式1的噪声抑制装置1或噪声抑制方法,在噪声抑制量R小的噪声环境中,增大与输入数据Si(t)相乘的加权系数α,减小表示噪声抑制效果的系数(1-α)。另一方面,在噪声抑制量R大的噪声环境中,减小与输入数据Si(t)相乘的加权系数α,增大表示噪声抑制效果的系数(1-α)。通过这样的处理,不会过度降低噪声抑制效果,能够输出作为识别对象的语音的失真或消失所产生的不良影响少的语音数据作为输出数据So(t)。即,在实施方式1中,能够适当地进行输入数据Si(t)中的噪声成分的抑制和语音成分的劣化的抑制。
此外,根据实施方式1的噪声抑制装置1或噪声抑制方法,使用噪声区间E内的输入数据Si(t)和噪声区间E内的噪声抑制后数据Ss(t),来决定加权系数α的值,噪声区间E是从噪声抑制装置1的语音输入开始时起的短时间。因此,无需如使用输入数据的SN比来决定加权系数α的技术那样使用在噪声环境下难以测定的语音功率。因此,能够改善加权系数α的计算精度,能够适当地进行输入数据Si(t)中的噪声成分的抑制和语音成分的劣化的抑制。此外,能够针对输入数据Si(t)无延迟地决定加权系数α。
实施方式2.
图4是概要地示出实施方式2的噪声抑制装置2的结构的框图。在图4中,针对与图2所示的结构要素相同或对应的结构要素标注与图2所示的标号相同的标号。如图4所示,噪声抑制装置2具备噪声抑制部11、加权系数计算部12a、加权和部13、加权系数表14、以及噪声种类判定模型15。此外,噪声抑制装置2的硬件结构与图1所示的硬件结构相同。加权系数表14和噪声种类判定模型15例如预先通过学习而求出,并存储在非易失性存储装置103中。
加权系数表14与对多种噪声分别赋予的噪声识别编号对应地保持预先决定的加权系数候选。噪声种类判定模型15用于基于输入数据的谱特征量来判定输入数据所包含的噪声成分是加权系数表14中的多种噪声中的哪种。加权系数计算部12a使用所述噪声种类判定模型(15),计算所述多种噪声中的、与输入数据中的所述预先决定的区间(E)的数据最相似的噪声,从加权系数表14输出与计算出的噪声的噪声识别编号对应起来的加权系数候选作为加权系数α。
图5是示出加权系数表14的例子的图。在加权系数表14中,针对预先赋予了噪声识别编号的多种噪声,按照每个噪声保持有与噪声识别编号对应地预先决定的最优的加权系数α的候选(即,加权系数候选)。使用多种噪声数据和评价用的语音数据,事先制作加权系数表14。
具体而言,针对评价用语音数据,制作叠加了多种噪声数据内的1个噪声的噪声叠加语音数据,将该噪声叠加语音数据输入到噪声抑制部11,所输出的数据是噪声抑制后数据。针对多种噪声数据分别进行该处理,得到多个噪声抑制后数据。
接着,设定多种加权系数,利用各加权系数对噪声叠加语音数据和噪声抑制后数据进行加权平均而制作识别率评价用数据。
接着,按照多个加权系数中的每个加权系数,对识别率评价用数据实施语音识别实验,将识别率最高的加权系数与噪声数据的噪声识别编号一起保持于加权系数表14。另外,语音识别实验通过识别语音的语音识别引擎来实施。语音识别引擎识别人的语音,并转换成文本。期望使用与噪声抑制装置2组合使用的语音识别引擎来进行语音识别实验,但语音识别实验能够使用公知的语音识别引擎。
噪声种类判定模型15是用于判定输入数据Si(t)所包含的噪声成分与预先赋予了噪声识别编号的多种噪声中的哪种最相似的模型。使用预先赋予了噪声识别编号的多种噪声数据,事先制作噪声种类判定模型15。
具体而言,计算预先赋予了噪声识别编号的多种噪声数据的谱特征量,使用计算出的谱特征量来制作噪声种类判定模型15。噪声种类判定模型15能够由神经网络或GMM(Gaussian Mixture Model:高斯混合模型)等公知的模式识别模型构建。在实施方式2中,作为噪声种类判定模型15而使用神经网络。神经网络的输出单元的数量是预先赋予了噪声识别编号的多种噪声的种类的数量。各输出单元与噪声识别编号对应。此外,在实施方式2中,作为谱特征量而使用梅尔滤波器组(Mel filter bank)特征量。
在实施噪声抑制之前,需要对作为噪声种类判定模型15的神经网络进行学习。能够将梅尔滤波器组特征量作为输入数据,将设与输入数据的噪声识别编号对应的输出单元的输出值为1且设其他输出单元的输出值为0的数据作为训练数据,使用误差反向传播法来实施学习。通过该学习,噪声种类判定模型15被训练为,在输入噪声的梅尔滤波器组特征量时,对应的噪声识别编号的输出单元的输出值比其他输出单元的输出值高。因此,在判定噪声的种类的情况下,将针对所输入的梅尔滤波器组特征量而输出了最高值的输出单元所对应的噪声识别编号作为所述判定的结果。
图6是示出噪声抑制装置2的动作的流程图。在将输入数据Si(t)输入到噪声抑制装置2时,在图6的步骤ST21中,噪声抑制部11对输入数据Si(t)进行噪声抑制处理,输出噪声抑制后数据Ss(t)。在实施方式2中,t=1、2、……、T。t和T与实施方式1相同。
接着,在图6的步骤ST22中,加权系数计算部12a在接收到输入数据Si(t)时,针对作为从输入数据Si(t)的开头起预先决定的区间的噪声区间E(例如,0.5秒钟的短时间的区间),计算输入数据Si(t)的谱特征量即梅尔滤波器组特征量,使用噪声种类判定模型15,得到噪声识别编号。即,加权系数计算部12a将梅尔滤波器组特征量输入到噪声种类判定模型15,得到噪声种类判定模型15的输出单元中输出了最高值的输出单元所对应的噪声识别编号。然后,参照加权系数表14,输出与噪声识别编号对应的加权系数候选作为加权系数α。
接着,在图6的步骤ST23中,加权和部13接受输入数据Si(t)、作为噪声抑制部11的输出的噪声抑制后数据Ss(t)、以及加权系数α,通过上述的式(2),计算输出数据So(t)并输出。加权和部13的动作与实施方式1相同。
如以上说明的那样,根据实施方式2的噪声抑制装置2或噪声抑制方法,加权系数计算部12a使用噪声种类判定模型15来判定输入数据Si(t)所包含的噪声的种类,基于该判定的结果,从加权系数表14决定(即,取得)该噪声环境下的适当的加权系数候选作为加权系数α。因此,具有能够提高噪声抑制性能这样的效果。
另外,关于上述以外,实施方式2与实施方式1相同。
实施方式3.
图7是概要地示出实施方式3的噪声抑制装置3的结构的功能框图。在图7中,针对与图2所示的结构要素相同或对应的结构要素,标注与图2所示的标号相同的标号。如图7所示,噪声抑制装置3具备噪声抑制部11、加权系数计算部12b、加权和部13b以及语音噪声判定模型16。此外,噪声抑制装置3的硬件结构与图1所示的硬件结构相同。语音噪声判定模型16例如存储在非易失性存储装置103中。
语音噪声判定模型16是判定在输入数据Si(t)所包含的数据中是否包含语音的模型。使用语音数据和多种噪声数据,事先制作语音噪声判定模型16。
具体而言,针对多种噪声数据、语音数据、在语音数据中叠加了多种噪声的数据、以及多种噪声数据来计算谱特征量,使用计算出的谱特征量来制作语音噪声判定模型16。语音噪声判定模型16能够由神经网络或GMM等任意的模式识别模型构筑。在实施方式3中,语音噪声判定模型16的制作使用神经网络。例如,神经网络的输出单元数量为2个,与语音及噪声对应起来。此外,作为谱特征量,例如使用梅尔滤波器组特征量。在实施噪声抑制之前,需要学习作为语音噪声判定模型16的神经网络。关于学习,能够将梅尔滤波器组特征量作为输入数据,将以下数据作为训练数据,使用误差反向传播法来实施,作为训练数据的该数据为,如果输入数据是包含语音的数据,即语音数据或叠加了多种噪声的语音数据,则设与语音对应的输出单元的输出值为1,且设与噪声对应的输出单元的输出值为0,如果输入数据是噪声数据,则设与语音对应的输出单元的输出值为0,且设与噪声对应的输出单元的输出值为1。通过该学习,语音噪声判定模型16被训练为,在输入语音数据或者叠加了噪声的语音数据的梅尔滤波器组特征量时,与语音对应的输出单元的输出值变高,在输入噪声数据的梅尔滤波器组特征量时,与噪声对应的输出单元的输出值变高。因此,加权系数计算部12b在判断输入数据是否包含语音的情况下,如果针对所输入的梅尔滤波器组特征量输出了最高值的输出单元是与语音对应的输出单元,则能够判定为是包含语音的数据,如果是与噪声对应的输出单元,则能够判定为是噪声。
图8是示出噪声抑制装置3的动作的流程图。在将输入数据Si(t)输入到噪声抑制装置3时,在图8的步骤ST31中,噪声抑制部11对输入数据Si(t)进行噪声抑制处理,输出噪声抑制后数据Ss(t)。在实施方式3中,t=1、2、……、T。t和T与实施方式1相同。
接着,在图8的步骤ST32中,加权系数计算部12b接受输入数据Si(t)和噪声抑制后数据Ss(t),将各个输入数据Si(t)的区间t=1、2、……、T划分为短区间Dj(j=1、2、……、J),每个短区间Dj(j=1、2、……、J)具有预先决定的短时间的时间长度d。即,将输入数据Si(t)的区间t=1、2、……、T划分为短区间D1、D2、D3、……、DJ。即,1个短区间Dj包含与时间长度d对应的个数的数据,J个短区间D1~DJ的整体包含T个数据。在将1个短区间Dj包含与d对应的个数的数据表述为Dj={t=(j-1)*d+1、(j-1)*d+2、……、j*d}时,D1~DJ如以下那样表述。
D1={t=1、2、……、d}
D2={t=d+1、d+2、……、2d}
D3={t=2d+1、2d+2、……、3d}
……
Dj={t=(j-1)*d+1、(j-1)*d+2、……、j*d}
……
DJ={t=(J-1)*d+1、(J-1)*d+2、……、T}
这里,J是通过以下的式(3)得到的整数。在式(3)中,记号[]是舍去记号内的数值的小数点以下的部分而将记号内的数值整数化的运算符。
[数式3]
然后,在步骤ST33中,按照每个短区间Dj,计算加权系数αj,与短时间的时间长度d的值一起输出。另外,之后叙述加权系数αj的具体的计算方法。
接着,在步骤ST34中,加权和部13b将输入数据Si(t)、噪声抑制后数据Ss(t)、加权系数αj及短区间的时间长度d作为输入,通过以下的式(4)求出输出数据So(t)并输出。
[数式4]
So(t)=αj*Si(t)+(1-αj)*Ss(t) (t=0,1,2,…,T) (4)
另外,在式(4)中,j通过以下的式(5)来计算。在式(5)中,记号[]是舍去记号内的数值的小数点以下的部分而将记号内的数值整数化的运算符。
[数式5]
图9是示出加权系数αj的计算方法的流程图。首先,在步骤ST40中,加权系数计算部12b将短区间Dj的编号j设置为j=1。
接着,在步骤ST41中,加权系数计算部12b接受
短区间Dj={t=(j-1)*d+1、(j-1)*d+2、……、j*d}内的输入数据
Si(t),(t=(j-1)*d+1、(j-1)*d+2、……、j*d)
、以及噪声抑制后数据
Ss(t),(t=(j-1)*d+1、(j-1)*d+2、……、j*d),
计算短区间Dj内的输入数据Si(t)的功率Pij与短区间Dj内的噪声抑制后数据Ss(t)的功率Psj,通过以下的式(6)来计算作为两者之比的分贝值的噪声抑制量Rj。
[数式6]
接着,在步骤ST42中,加权系数计算部12b针对
短区间Dj={t=(j-1)*d+1、(j-1)*d+2、……、j*d}内的输入数据
Si(t),(t=(j-1)*d+1、(j-1)*d+2、……、j*d)
来计算作为谱特征量的梅尔滤波器组特征量。加权系数计算部12b使用语音噪声判定模型16,判定梅尔滤波器组特征量是语音数据的特征量还是叠加了噪声的噪声数据的特征量。即,加权系数计算部12b将梅尔滤波器组特征量输入到语音噪声判定模型16,如果语音噪声判定模型16的输出单元中输出了最高值的输出单元是与语音对应的单元,则判定为包含语音,如果不是,则判定为噪声。
接着,在步骤ST43中,加权系数计算部12b根据短区间Dj的判定结果是否包含语音来对处理进行分支。如果判定结果包含语音,则在步骤ST44中,加权系数计算部12b判定噪声抑制量Rj是否为预先决定的阈值TH_Rs以上,在为阈值TH_Rs(也称为“第1阈值”。)以上的情况下,在步骤ST45中将预先决定的值A1(也称为“第1值”。)作为加权系数αj。另一方面,加权系数计算部12b在噪声抑制量Rj的值小于阈值TH_Rs的情况下,在步骤ST46中输出预先决定的值A2(也称为“第2值”。)作为加权系数αj。这里,值A1和值A2是满足A1>A2的0以上且1以下的常数。另外,值A1和值A2与阈值TH_Rs一起被事先设定。例如,TH_Rs=10,A1=0.5,A2=0.2。
通过像这样计算加权系数αj,针对判定为短区间Dj内的数据包含语音的区间,在噪声抑制量Rj大的情况下,噪声抑制后数据Ss(t)存在语音消失的可能性,因此,能够增大针对输入数据Si(t)的加权系数αj的值,来抑制噪声抑制所引起的语音的消失等的不良影响。另一方面,在噪声抑制量Rj小的情况下,认为语音的消失所产生的不良影响小,因此,通过减小针对输入数据Si(t)的加权系数α,并且相对地增大噪声抑制后数据Ss(t)的权重,能够抑制语音的失真或消失所产生的不良影响,而不会大幅降低噪声抑制的效果。
接着,对步骤ST43中的短区间Dj的判定结果为噪声的情况下的动作进行说明。在该情况下,加权系数计算部12b在步骤ST47中判定噪声抑制量Rj是否小于预先决定的阈值TH_Rn(也称为“第1阈值”。),在噪声抑制量Rj小于预先决定的阈值TH_Rn的情况下,在步骤ST48中,将预先决定的值A3(也称为“第3值”。)作为加权系数αj。另一方面,加权系数计算部12b在阈值TH_Rn以上的情况下,在步骤ST49中,将预先决定的值A4(也称为“第4值”。)作为加权系数αj。这里,值A3和值A4是满足A3≧A4的0以上且1以下的常数。另外,如上所述,值A3和值A4与阈值TH_Rn一起事先被设定。例如,TH_Rn=3,A3=0.5,A4=0.2。
像这样通过计算加权系数α,针对判定为是噪声的数据,在认为由于噪声抑制量Rj小而噪声抑制的效果小、反之语音的失真或消失所产生的不良影响可能变大的噪声环境中,能够增大针对输入数据Si(t)的加权系数α,降低噪声抑制所产生的不良影响。另一方面,在噪声抑制量Rj大的情况下,认为噪声抑制的效果大,因此,减小针对输入数据Si(t)的加权系数α,相对地增大噪声抑制后数据Ss(t)的权重,由此,能够抑制语音的失真或消失所产生的不良影响而不会大幅降低噪声抑制的效果。
接着,加权系数计算部12b通过步骤ST50针对全部的短区间Dj,(j=1、2、……、J)调查是否计算了加权系数αj,如果针对全部的短区间已进行了计算,则结束处理。另一方面,在存在未计算的短区间Dj的情况下,在步骤ST51中,对j的值加1,返回到步骤ST41。以上是加权系数αj,(j=1、2、……、J)的计算方法的例子。
如以上说明的那样,根据实施方式3的噪声抑制装置3或噪声抑制方法,针对由语音噪声判定模型16判定为包含语音的数据,在噪声抑制量Rj大的情况下,噪声抑制后数据Ss(t)存在语音消失的可能性,因此,能够增大针对输入数据Si(t)的加权系数αj的值而降低噪声抑制所引起的语音的消失等不良影响。
另一方面,在噪声抑制量Rj小的情况下,认为语音的消失所产生的不良影响小,因此,减小针对输入数据Si(t)的加权系数α,相对地增大噪声抑制后数据Ss(t)的权重,由此,能够抑制语音的失真或消失所产生的不良影响而不会大幅降低噪声抑制的效果。
另一方面,针对由语音噪声判定模型16判定为噪声的数据,在认为由于噪声抑制量Rj小而噪声抑制的效果小、反之语音的失真或消失所产生的不良影响可能变大的噪声环境中,能够增大针对输入数据Si(t)的加权系数α,降低噪声抑制所产生的不良影响。
另一方面,在噪声抑制量Rj大的情况下,认为噪声抑制的效果大,因此,减小针对输入数据Si(t)的加权系数α,相对地增大噪声抑制后数据Ss(t)的权重,由此,能够抑制语音的失真或消失所产生的不良影响而不会大幅降低噪声抑制的效果。
另外,关于上述以外,实施方式3与实施方式1相同。
变形例.
能够通过在上述噪声抑制装置1~3中的任意噪声抑制装置的后级连接将语音数据转换成文本数据的公知的语音识别引擎而构成语音识别装置,能够提高语音识别装置中的语音识别精度。例如,用户在室外或工厂使用语音识别装置通过语音来进行设备的检查结果的输入的情况下,即便存在设备的工作音等噪声,也能够以较高的语音识别精度进行语音识别。
附图标记说明
1~3噪声抑制装置,11噪声抑制部,12、12a、12b加权系数计算部,13,13b加权和部,14加权系数表,15噪声种类判定模型,16声音噪声判定模型,101处理器,102存储器,103非易失性存储装置,104输入输出接口,Si(t)输入数据,Ss(t)噪声抑制后数据,So(t)输出数据,Dj短区间,α、αj加权系数,R、Rj噪声抑制量。
Claims (10)
1.一种噪声抑制装置,其特征在于,具备:
噪声抑制部,其对输入数据进行噪声抑制处理而生成噪声抑制后数据;
加权系数计算部,其基于时间序列上的预先决定的区间内的所述输入数据和所述预先决定的区间内的所述噪声抑制后数据,来决定加权系数;以及
加权和部,其将基于所述加权系数的值用作权重,对所述输入数据与所述噪声抑制后数据进行加权相加,由此生成输出数据。
2.根据权利要求1所述的噪声抑制装置,其特征在于,
所述加权系数计算部将从开始所述输入数据的输入的时间点到经过预先决定的时间为止的期间用作所述预先决定的区间。
3.根据权利要求1或2所述的噪声抑制装置,其特征在于,
所述加权系数计算部基于所述预先决定的区间内的所述输入数据的功率与所述预先决定的区间内的所述噪声抑制后数据的功率之比来计算加权系数。
4.根据权利要求1至3中的任意一项所述的噪声抑制装置,其特征在于,
所述噪声抑制装置还具备:
加权系数表,其与对多种噪声分别赋予的噪声识别编号对应地保持预先决定的所述加权系数的候选;以及
噪声种类判定模型,其用于根据所述输入数据的谱特征量来判定所述输入数据中包含的噪声成分是所述加权系数表中的所述多种噪声中的哪种,
所述加权系数计算部使用所述噪声种类判定模型,计算所述多种噪声中与所述输入数据中的所述预先决定的区间的数据最相似的噪声,
从所述加权系数表输出与计算出的所述噪声的噪声识别编号对应的所述加权系数的候选作为所述加权系数。
5.一种噪声抑制装置,其特征在于,具备:
噪声抑制部,其对输入数据进行噪声抑制处理而生成噪声抑制后数据;
加权系数计算部,其将所述输入数据的全部区间的数据划分为时间序列上的预先决定的多个短区间,基于所述多个短区间内的所述输入数据和所述多个短区间内的所述噪声抑制后数据,决定所述多个短区间各自的加权系数;以及
加权和部,其分别在所述多个短区间内,将基于所述加权系数的值用作权重,对所述输入数据与所述噪声抑制后数据进行加权相加,由此生成输出数据。
6.根据权利要求5所述的噪声抑制装置,其特征在于,
所述噪声抑制装置还具备语音噪声判定模型,该语音噪声判定模型用于根据输入数据的谱特征量来判定该输入数据是语音还是噪声,
所述加权系数计算部进行以下处理:
将所述输入数据的全部区间的数据划分为每个预先决定的时间的短区间,
按照每个所述短区间,计算所述输入数据与所述噪声抑制后数据的功率比即噪声抑制量,并且使用所述语音噪声判定模型,判定所述输入数据是语音还是噪声,
在判定为所述输入数据是语音的情况下,如果所述噪声抑制量为预先决定的第1阈值以上,则将所述加权系数设为预先决定的第1值,如果所述噪声抑制量小于所述第1阈值,则将所述加权系数设为比所述第1值小的预先决定的第2值,
在判定为所述输入数据是噪声的情况下,如果所述噪声抑制量小于预先决定的第2阈值,则将所述加权系数设为预先决定的第3值,如果所述噪声抑制量为所述第2阈值以上,则将所述加权系数设为所述第3值以上的预先决定的第4值,
按照每个所述短区间将所述加权系数输出到所述加权和部。
7.一种噪声抑制方法,其是由计算机执行的噪声抑制方法,其特征在于,具有以下步骤:
对输入数据进行噪声抑制处理而生成噪声抑制后数据;
基于时间序列上的预先决定的区间内的所述输入数据和所述预先决定的区间内的所述噪声抑制后数据来决定加权系数;以及
将基于所述加权系数的值用作权重,对所述输入数据与所述噪声抑制后数据进行加权相加,由此生成输出数据。
8.一种噪声抑制程序,其特征在于,
所述噪声抑制程序使计算机执行权利要求7所述的噪声抑制方法。
9.一种噪声抑制方法,其是由计算机执行的噪声抑制方法,其特征在于,具有以下步骤:
对输入数据进行噪声抑制处理而生成噪声抑制后数据;
将所述输入数据的全部区间的数据划分为时间序列上的预先决定的多个短区间,基于所述多个短区间内的所述输入数据和所述多个短区间内的所述噪声抑制后数据,决定所述多个短区间各自的加权系数;以及
分别在所述多个短区间内,将基于所述加权系数的值用作权重,对所述输入数据与所述噪声抑制后数据进行加权相加,由此生成输出数据。
10.一种噪声抑制程序,其特征在于,
所述噪声抑制程序使计算机执行权利要求9所述的噪声抑制方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/009490 WO2022190245A1 (ja) | 2021-03-10 | 2021-03-10 | 騒音抑圧装置、騒音抑圧方法、及び騒音抑圧プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116964664A true CN116964664A (zh) | 2023-10-27 |
Family
ID=83226425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180094907.7A Pending CN116964664A (zh) | 2021-03-10 | 2021-03-10 | 噪声抑制装置、噪声抑制方法以及噪声抑制程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230386493A1 (zh) |
EP (1) | EP4297028A4 (zh) |
JP (1) | JP7345702B2 (zh) |
CN (1) | CN116964664A (zh) |
WO (1) | WO2022190245A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07193548A (ja) * | 1993-12-25 | 1995-07-28 | Sony Corp | 雑音低減処理方法 |
AU730123B2 (en) * | 1997-12-08 | 2001-02-22 | Mitsubishi Denki Kabushiki Kaisha | Method and apparatus for processing sound signal |
JP3961290B2 (ja) * | 1999-09-30 | 2007-08-22 | 富士通株式会社 | 雑音抑圧装置 |
JP5187666B2 (ja) * | 2009-01-07 | 2013-04-24 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
WO2017065092A1 (ja) * | 2015-10-13 | 2017-04-20 | ソニー株式会社 | 情報処理装置 |
-
2021
- 2021-03-10 JP JP2023504950A patent/JP7345702B2/ja active Active
- 2021-03-10 WO PCT/JP2021/009490 patent/WO2022190245A1/ja active Application Filing
- 2021-03-10 EP EP21930102.5A patent/EP4297028A4/en active Pending
- 2021-03-10 CN CN202180094907.7A patent/CN116964664A/zh active Pending
-
2023
- 2023-08-14 US US18/233,476 patent/US20230386493A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4297028A1 (en) | 2023-12-27 |
JPWO2022190245A1 (zh) | 2022-09-15 |
EP4297028A4 (en) | 2024-03-20 |
US20230386493A1 (en) | 2023-11-30 |
WO2022190245A1 (ja) | 2022-09-15 |
JP7345702B2 (ja) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101323061B1 (ko) | 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체 | |
US6546367B2 (en) | Synthesizing phoneme string of predetermined duration by adjusting initial phoneme duration on values from multiple regression by adding values based on their standard deviations | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JPS62231996A (ja) | 音声認識方法 | |
Novoa et al. | Uncertainty weighting and propagation in DNN–HMM-based speech recognition | |
CN101432799B (zh) | 基于高斯混合模型的变换中的软校准 | |
JP2007279444A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
JP2008293019A (ja) | 言語理解装置 | |
JP2007279349A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
Seong et al. | Dysarthric speech recognition error correction using weighted finite state transducers based on context–dependent pronunciation variation | |
US20100161329A1 (en) | Viterbi decoder and speech recognition method using same | |
Seshadri et al. | Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion | |
KR20200092501A (ko) | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
US20050021335A1 (en) | Method of modeling single-enrollment classes in verification and identification tasks | |
CN116964664A (zh) | 噪声抑制装置、噪声抑制方法以及噪声抑制程序 | |
JPWO2008126254A1 (ja) | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム | |
KR20200092500A (ko) | 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법 | |
JP2003177781A (ja) | 音響モデル生成装置及び音声認識装置 | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2021167850A (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |