CN117063231A - 回波抑制装置、回波抑制方法以及回波抑制程序 - Google Patents
回波抑制装置、回波抑制方法以及回波抑制程序 Download PDFInfo
- Publication number
- CN117063231A CN117063231A CN202280024072.2A CN202280024072A CN117063231A CN 117063231 A CN117063231 A CN 117063231A CN 202280024072 A CN202280024072 A CN 202280024072A CN 117063231 A CN117063231 A CN 117063231A
- Authority
- CN
- China
- Prior art keywords
- signal
- echo
- speech
- learning
- suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000001629 suppression Effects 0.000 claims abstract description 231
- 230000005540 biological transmission Effects 0.000 claims abstract description 169
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000000873 masking effect Effects 0.000 claims description 108
- 238000001514 detection method Methods 0.000 claims description 97
- 230000006870 function Effects 0.000 claims description 62
- 238000001228 spectrum Methods 0.000 description 171
- 238000010586 diagram Methods 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 26
- 230000014509 gene expression Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 9
- 241000219498 Alnus glutinosa Species 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
- H04B3/23—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
- H04B3/234—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using double talk detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6008—Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
即使是非线性回波分量大的情况,也能按每个频率正确推定回波抑制量。存储推定回波函数,其中该推定回波函数将语音接收信号的各频率下的大小的对数、语音接收信号的频率、语音接收信号的大小的总和或作为任意的频率范围内的语音接收信号的语音发送的总语音接收值的对数、和总语音接收值的包络的对数作为变量。在表征推定回波的函数输入第2语音接收信号(将语音接收信号变换成频率的区域的结果)的值来生成回波抑制用掩蔽信号,通过将基于该回波抑制用掩蔽信号而算出的回波抑制增益与第2语音发送信号(将语音发送信号变换成频率的区域的结果)相乘来进行回波抑制处理。
Description
技术领域
本发明涉及回波抑制装置、回波抑制方法以及回波抑制程序。
背景技术
在专利文献1中公开了在具有麦克风和扬声器的声音通信系统中使用的回波消除器装置。该回波消除器装置具有:回波消去部,其从麦克风输入信号除去伪回波分量并输出残差信号;pERL算出部,其算出表示麦克风输入信号与残差信号之比的pERL值;ERLE算出部,其算出表示麦克风输入信号当中的基于从扬声器输入到麦克风的回波的回波信号与从回波信号减去伪回波分量而得到的残留回波信号之比的ERLE值;pERL减少程度算出部,其算出表示ERLE值与pERL值的差分的减少程度;抑制量算出部,其将以线性值表示减少程度的值设为K,将以线性值表示ERLE值的值设为T,在此时,根据式(K-1)T/K(T-1)来算出残留回波抑制量;和残留回波抑制处理部,其通过在残差信号上残留回波抑制量来生成输出信号。
在先技术文献
专利文献
专利文献1:JP专利第6180689号
发明内容
-发明所要解决的课题-
一般,在通过反射、扬声器的振动等而产生的非线性回波分量大的情况下,回波抑制量的推定多无法合适地发挥功能。在专利文献1记载的回波消除器装置中,在反射时间长、语音接收中没有信号的帧中,有可能不能正确推定回波抑制量。
本发明鉴于这样的事情而提出,目的在于,提供一种回波抑制装置、回波抑制方法以及回波抑制程序,即使是非线性回波分量大的情况,也能按每个频率正确推定回波抑制量。
-用于解决课题的手段-
为了解决上述课题,本发明所涉及的回波抑制装置例如抑制在向扬声器传输信号的语音接收侧信号路径中传输语音接收信号,通过所述语音接收信号而从所述扬声器输出的声音输入到麦克风而产生的回波,所述回波抑制装置的特征在于,具备:存储部,其存储推定回波函数,其中,所述推定回波基于第2学习用语音接收信号和第2学习用信号来算出,所述第2学习用语音接收信号将在所述语音接收侧信号路径中传输的学习用语音接收信号变换成频率的区域而得到,所述第2学习用信号将在传输通过所述学习用语音接收信号而从所述扬声器输出的声音输入到所述麦克风时从所述麦克风输入的信号的语音发送侧信号路径中传输的学习用信号变换成频率的区域而得到,所述推定回波函数将所述语音接收信号的各频率下的大小的对数、所述语音接收信号的频率、所述语音接收信号的大小的总和或作为任意的频率范围内的所述语音接收信号的语音发送的总语音接收值的对数、和所述总语音接收值的包络的对数作为变量;和非线性回波抑制部,其对表征所述推定回波的函数输入将所述语音接收信号变换成频率的区域而得到的第2语音接收信号的值来生成回波抑制用掩蔽信号(mask),通过将基于所述回波抑制用掩蔽信号算出的回波抑制增益与将在所述语音发送侧信号路径中传输的语音发送信号变换成频率的区域而得到的第2语音发送信号相乘,来进行回波抑制处理。
根据本发明所涉及的回波抑制装置,存储将语音接收信号的各频率下的大小的对数、语音接收信号的频率、作为语音接收信号的大小的总和的总语音接收值的对数和总语音接收值的包络的对数作为变量的推定回波函数,对表征该推定回波的函数输入第2语音接收信号(将语音接收信号变换成频率的区域的结果)的值来生成回波抑制用掩蔽信号,通过将基于该回波抑制用掩蔽信号而算出的回波抑制增益与第2语音发送信号(将语音发送信号变换成频率的区域的结果)相乘,来进行回波抑制处理。由此,即使非线性回波分量大的情况,也能按每个频率正确推定回波抑制量。其结果,能提升通话品质。
也可以,所述回波抑制装置具有:双讲探测部,其对表征所述推定回波的函数输入所述第2语音接收信号的值来生成双讲探测用掩蔽信号,基于所述第2语音发送信号和所述双讲探测用掩蔽信号来逐次探测是否对所述麦克风输入了语音发送,所述非线性回波抑制部在对所述麦克风输入语音发送的情况下,使所述回波抑制增益比不对所述麦克风输入语音发送的情况小。由此,在由近端语音发送且远端的说话者难以将回波感觉为不快时,减弱回波的抑制,能防止因过于抑制回波而声音变得不自然。
也可以,所述双讲探测部按每个频率比较所述第2语音发送信号的大小和所述双讲探测用掩蔽信号的大小,基于所述第2语音发送信号的大小高于所述双讲探测用掩蔽信号的大小的频率的数量是否小于第1阈值、所述第2语音发送信号的大小高于所述双讲探测用掩蔽信号的大小的频段中的所述第2语音发送信号的大小的总和是否大于第2阈值、或者所述第2语音发送信号的大小高于所述双讲探测用掩蔽信号的大小的频段中的所述第2语音发送信号的大小与所述双讲探测用掩蔽信号的大小之差的总和是否小于第3阈值,来探测未对所述麦克风输入语音发送。由此,能正确探测近端语音发送的有无。
也可以,所述回波抑制装置具备:噪声推定部,其推定所述第2语音发送信号中所含的噪声分量;和噪声抑制部,其在所述第2语音发送信号上乘以噪声抑制增益来从回波除去信号抑制噪声信号,所述非线性回波抑制部基于所述推定回波、所述噪声分量和所述噪声抑制增益来求取所述回波抑制用掩蔽信号。由此,能不影响噪声地进行合适的回波抑制。
也可以,所述回波抑制装置具备:噪声推定部,其推定所述第2语音发送信号中所含的噪声分量;和噪声抑制部,其在所述第2语音发送信号上乘以噪声抑制增益来从回波除去信号抑制噪声信号,所述双讲探测部基于所述推定回波、所述噪声分量和所述噪声抑制增益来求取所述双讲探测用掩蔽信号。由此,能防止噪声的影响导致的误探测。
也可以,所述非线性回波抑制部基于所述噪声分量和所述噪声抑制增益来求取表示容许的残留回波的大小的容许值,将使所述回波抑制用掩蔽信号的大小小到所述容许值的大小这样的所述回波抑制增益与所述第2语音发送信号相乘。由此,能使得不会必要以上地抑制回波。
也可以,所述非线性回波抑制部在所述第2语音发送信号的大小大于所述容许值且为所述回波抑制用掩蔽信号以下的情况下,基于从所述第2语音发送信号的大小减去所述容许值的值来求取所述回波抑制增益,在所述第2语音发送信号的值大于所述容许值以及所述回波抑制用掩蔽信号的情况下,基于从所述回波抑制用掩蔽信号减去所述容许值的值来求取所述回波抑制增益。由此,能对应于第2语音发送信号的大小来合适地抑制回波。
也可以,在表征所述推定回波的函数中,基于从所述第2学习用信号除去了离群值的数据来求取各变量的系数。由此,能防止回波抑制用掩蔽信号的大小必要以上变大,能使得不会过于抑制回波。此外,能防止双讲探测用掩蔽信号的大小必要以上地变大,能正确探测近端语音发送的有无。
也可以,表征所述推定回波的函数具有:基于从所述第2学习用信号除去了离群值的数据来求取各变量的系数的第1函数;和基于未除去离群值的所述第2学习用信号来求取各变量的系数的第2函数,所述双讲探测用掩蔽信号基于所述第1函数来求取,所述回波抑制用掩蔽信号基于所述第2函数来求取。由此,能正确探测近端语音发送的有无,且能增强非线性回波的抑制来进行足够的回波抑制。
为了解决上述课题,本发明所涉及的回波抑制方法例如抑制在向扬声器传输信号的语音接收侧信号路径中传输语音接收信号,通过所述语音接收信号而从所述扬声器输出的声音输入到麦克风而产生的回波,所述回波抑制方法的特征在于,包含如下步骤:取得推定回波函数,所述推定回波存储于存储部,基于第2学习用语音接收信号和第2学习用信号来算出,其中,所述第2学习用语音接收信号将在所述语音接收侧信号路径中传输的学习用语音接收信号变换成频率的区域而得到,所述第2学习用信号将在传输通过所述学习用语音接收信号而从所述扬声器输出的声音输入到所述麦克风时从所述麦克风输入的信号的语音发送侧信号路径中传输的学习用信号变换成频率的区域而得到,所述推定回波函数将所述语音接收信号的各频率下的大小的对数、所述语音接收信号的频率、作为所述语音接收信号的大小的总和的总语音接收值的对数、和所述总语音接收值的包络的对数作为变量;和对表征所述推定回波的函数输入将所述语音接收信号变换成频率的区域而得到的第2语音接收信号的值来生成回波抑制用掩蔽信号,通过将基于所述回波抑制用掩蔽信号算出的回波抑制增益与将在所述语音发送侧信号路径中传输的语音发送信号变换成频率的区域而得到的第2语音发送信号相乘,来进行回波抑制处理。
为了解决上述课题,本发明所涉及的回波抑制程序例如抑制在向扬声器传输信号的语音接收侧信号路径中传输语音接收信号,通过所述语音接收信号而从所述扬声器输出的声音输入到麦克风而产生的回波,其特征在于,所述回波抑制程序使计算机作为如下要素发挥功能:存储部,其存储推定回波函数,其中,所述推定回波基于第2学习用语音接收信号和第2学习用信号来算出,所述第2学习用语音接收信号将在所述语音接收侧信号路径中传输的学习用语音接收信号变换成频率的区域而得到,所述第2学习用信号将在传输通过所述学习用语音接收信号而从所述扬声器输出的声音输入到所述麦克风时从所述麦克风输入的信号的语音发送侧信号路径中传输的学习用信号变换成频率的区域而得到,所述推定回波函数将所述语音接收信号的各频率下的大小的对数、所述语音接收信号的频率、作为所述语音接收信号的大小的总和的总语音接收值的对数、和所述总语音接收值的包络的对数作为变量;和非线性回波抑制部,对表征所述推定回波的函数输入将所述语音接收信号变换成频率的区域而得到的第2语音接收信号的值来生成回波抑制用掩蔽信号,通过将基于所述回波抑制用掩蔽信号算出的回波抑制增益与将在所述语音发送侧信号路径中传输的语音发送信号变换成频率的区域而得到的第2语音发送信号相乘,来进行回波抑制处理。
另外,计算机程序能通过经由因特网等网络的下载来提供,或者记录于CD-ROM等计算机可读的各种记录介质来提供。
-发明效果-
根据本发明,即使是非线性回波分量大的情况,也能按每个频率正确推定回波抑制量。
附图说明
图1是示意表示设有第1实施方式所涉及的回波抑制装置1的声音通信系统100的图。
图2是表示回波抑制装置1的功能块的概略的图。
图3是表示在回波抑制装置1中求取算出推定回波的函数时的功能块的概略的图。
图4是针对某时刻的学习用语音接收信号i的学习用信号i的散布图的一例,(A)是学习用语音接收信号的各频率下的功率谱的对数和学习用信号的各频率下的功率谱的对数的散布图,(B)是学习用语音接收信号的频率和学习用信号的各频率下的功率谱的对数的散布图,(C)是学习用语音接收信号的总语音接收功率谱的对数和学习用信号的各频率下的功率谱的对数的散布图,(D)是总语音接收功率谱的包络的对数和学习用信号的各频率下的功率谱的对数的散布图。
图5是语音接收的功率谱的对数和语音发送的功率谱的对数的散布图。
图6是语音接收的频率的对数和语音发送的功率谱的对数的散布图。
图7是学习用语音接收信号的总语音接收功率谱的对数和语音发送的功率谱的对数的散布图。
图8是学习用语音接收信号的总语音接收功率谱的包络的对数和语音发送的功率谱的对数的散布图。
图9是表示比较某时刻的1帧的被抑制信号和双讲探测用掩蔽信号的样子的图。
图10是表示比较某时刻的1帧的被抑制信号和回波抑制用掩蔽信号的样子的图。
图11是表示容许值i的一例的图表。
图12是表示回波抑制装置1减少回波的处理的流程的流程图。
具体实施方式
以下,参照附图来详细说明本发明所涉及的回波抑制装置的实施方式。回波抑制装置是在声音通信系统中抑制因从扬声器输出的声音信号输入麦克风而产生的回波的装置。
<第1实施方式>
图1是示意表示设有第1实施方式所涉及的回波抑制装置1的声音通信系统100的图。声音通信系统100主要具有:具有麦克风51以及扬声器52的终端50;2台便携电话53、54;扬声器放大器55;和回波抑制装置1。
声音通信系统100是利用终端50(近端终端)的近端说话者(位于近端侧的利用者A)与利用便携电话54(远端终端)的远端说话者(位于远端侧的利用者B)进行声音通信的系统。经由便携电话54输入的声音信号通过扬声器52而扩声输出,且将位于近端侧的利用者A所发出的声音通过麦克风51进行集音冰箱便携电话54传输,由此,利用者A不握持便携电话53就能进行扩声通话(免提通话)。便携电话53和便携电话54通过一般的电话线路连接。
回波抑制装置1例如可以构建为搭载于声音通信系统100内的通信终端等(例如车载装置、会议系统、便携终端)的专用板。此外,回波抑制装置1例如可以主要由包含用于执行信息处理的CPU(Central ProcessingUnit,中央处理器)等运算装置、RAM(RandomAccess Memory,随机存取存储器)、ROM(Read Only Memory,只读存储器)等存储装置的计算机系统以及软件(回波抑制程序)构成。回波抑制程序可以预先存储于作为内置于计算机等设备的存储介质的SSD、具有CPU的微型计算机内的ROM等,从那里安装到计算机。此外,回波抑制程序可以临时或永久地存放(存储)在半导体存储器、存储卡、光盘、光磁盘、磁盘等可移动存储介质中。
图2是表示回波抑制装置1的功能块的概略的图。回波抑制装置1在功能上主要具有回波除去部11、频率分析器(FFT部)12、22、噪声推定部13、噪声抑制部14、双讲探测部15、非线性回波抑制部16、噪声叠加部17、复原部(IFFT部)18、动态范围控制21和存储部23。在图2中,上侧的信号路径是传输从麦克风51输入的输入信号的语音发送侧信号路径,下侧的信号路径是向扬声器52传输信号的语音接收侧信号路径。另外,回波抑制装置1的功能构成要素可以对应于处理内容而分类成进一步多的构成要素,也可以1个构成要素执行多个构成要素的处理。
回波除去部11例如使用自适应滤波器来除去回波。回波除去部11按照所给予的步骤来更新滤波器系数,根据在语音接收侧信号路径中传输的信号来生成伪回波信号,从在语音发送侧信号路径中传输的信号减去伪回波信号,由此来除去回波。另外,关于自适应滤波器,由于已经公知,因此省略说明。
另外,在本实施方式中,在回波除去部11中运用自适应滤波器,但也还能将其他公知的回波除去技术运用于回波除去部11。此外,回波除去部11并非必须,但通过使用除去了回波的一部分的学习用信号来生成掩蔽信号,能更正确探测有近端语音发送(利用者A(参照图1)的语音发送)这一情况,因此,期望设置回波除去部11。
动态范围控制21在通过双讲探测部15(之后详述)探测到有近端语音发送的情况下,对所输入的语音接收信号当中大于阈值的接收信号以预先确定的系数(系数是比1小的值)进行放大(即压缩),来进行输出。另外,动态范围控制21也可以具有增益调整部,起根据搭载终端50的环境的噪声等自动改变增益,或者对应于语音接收信号的大小自动改变增益。
频率分析器(FFT部)12、22对信号进行高速傅立叶变换(FFT、Fast FourierTransform)。FFT部12对在语音发送侧信号路径中传输的信号、这里是通过了回波除去部11的信号进行高速傅立叶变换,FFT部22对在语音接收侧信号路径中传输的信号进行高速傅立叶变换。FFT部12、22将时间序列上排列的信号(时间的区域)变换成以频率的集合表征的信号(频率的区域)。以下,将依赖于时间的信号以…[t]表示,将依赖于频率的信号以…[i]表示。
噪声推定部13按每个频率来推定对从麦克风51输入并在语音发送侧信号路径中传输的语音发送信号在回波除去部11中除去回波、在FFT部12中变换成频率的区域的回波除去信号[i]中所含的噪声分量、即推定噪声信号的功率谱[i](以下称作推定噪声功率谱[i])。将推定噪声功率谱[i]输出到噪声抑制部14、双讲探测部15、非线性回波抑制部16以及噪声叠加部17。
噪声抑制部14在推定噪声功率谱[i]上乘以作为依赖于频率的信号的噪声抑制增益(以下称作噪声抑制增益[i])来从回波除去信号[i]抑制噪声信号,生成被抑制信号[i]。噪声抑制部14使用谱减法、维纳滤波器等公知的噪声抑制方法来抑制噪声信号,噪声抑制增益[i]对应于所用的噪声抑制方法而在噪声抑制部14中算出。将所算出的噪声抑制增益[i]输出到双讲探测部15。另外,噪声推定部13以及噪声抑制部14并非必须。
存储部23存储由推定回波算出部24(参照图3)生成的掩蔽信号。以下,说明掩蔽信号的生成。掩蔽信号在回波抑制装置1进行抑制回波的处理之前提前生成。
图3是表示在回波抑制装置1中求取算出推定回波的函数时的功能块的概略的图。回波抑制装置1在功能上具有推定回波算出部24。推定回波的算出处理主要在推定回波算出部24中进行。
详细说明推定回波的算出处理。首先,在回波除去部11中充分地结束了自适应滤波器的学习后,在没有近端语音发送且背景噪声足够小的状况下,重复单侧语音发送(单讲),使语音接收侧信号路径传输学习用语音接收信号,并通过学习用语音接收信号而从扬声器52输出声音的远端侧的。然后,在单讲时将在语音发送侧信号路径中传输的信号设为学习用信号。在回波抑制装置1中,通过回波除去部11除去了回波的信号成为学习用信号。
将作为依赖于时间的信号的学习用信号(以下称作学习用信号[t])输入到FFT部12。FFT部12对学习用信号[t]进行高速傅立叶变换,来生成作为依赖于频率的信号的学习用信号(以下称作学习用信号[i]),并输入到推定回波算出部24。
将作为依赖于时间的信号的学习用语音接收信号(以下称作学习用语音接收信号[t])输入到FFT部22。FFT部22对学习用语音接收信号[t]进行高速傅立叶变换,来生成作为依赖于频率的信号的学习用语音接收信号(以下称作学习用语音接收信号[i]),并输入到推定回波算出部24。
推定回波算出部24将学习用信号[i]以及学习用语音接收信号[i]存储到存储部23。此外,推定回波算出部24每一定区间计算关于存储于存储部23的学习用信号[i]以及学习用语音接收信号[i]的功率谱,并求取多个学习用功率谱。在此,所谓一定区间,是任意确定的给定的时间区域。推定回波算出部24将学习用功率谱存储到存储部23。
另外,所谓功率谱P[i],以通过高速傅立叶变换求得的傅立叶谱X[i]的平方表征(参照数式(1))。
P[i]=|X[i]|2=|X[i]|×|X[i]|…(1)
推定回波算出部24基于存储于存储部23的学习用信号[i]、学习用语音接收信号[i]以及学习用功率谱来作成多个学习用信号[i]和学习用语音接收信号[i]的散布图。
图4是针对某时刻(例如时刻t1)的学习用语音接收信号[i]的学习用信号[i]的散布图的一例,(A)是各频率下的学习用语音接收信号的大小(学习用语音接收信号[t]的功率谱)的对数和学习用信号的各频率下的功率谱的对数的散布图,(B)是学习用语音接收信号的频率和学习用信号的各频率下的功率谱的对数的散布图,(C)是学习用语音接收信号的大小的总和即总语音接收功率谱(相当于本发明的总语音接收值)的对数和学习用信号的各频率下的功率谱的对数的散布图,(D)是总语音接收功率谱的包络的对数和学习用信号的各频率下的功率谱的对数的散布图。
例如,如图4(A)、(C)所示那样,即使学习用信号的功率谱相同学习用信号即回波的功率谱也各种各样。因此,在本实施方式中,不仅基于学习用信号的功率谱,还基于改变了横轴的多个散布图来算出推定回波。
在此,学习用信号的各频率下的功率谱意味着基于学习用语音接收信号的回波的功率谱。此外,总语音接收功率谱与学习用信号的各频率下的功率谱的总和、即经过FFT部22之前的学习用语音接收信号[t]的功率谱的总和相同,以以下的数式(2)表征。
[数学式1]
另外,总语音接收功率谱可以设为学习用信号的任意的频率的范围内的各频率下的功率谱的总和。这时的总语音接收功率谱以以下的数式(3)表征。在此,A为0以上,B比最大的频率效(A>0、B<F_MAX)。
[数学式2]
在双讲探测部15进行语音发送探测(之后详述)时,与使用学习用信号的全部各频率的功率谱的总和(数式(2))的情况相比,在使用学习用信号的任意的频率的范围的功率谱的总和和(数式(3))的情况下,有时精度更佳。因此,在这样的情况下,推定回波算出部24期望使用数式(3)来求取总语音接收功率谱。
另外,图4所示的散布图是一例,成为根据声音的反射的状况、扬声器52、麦克风51的配置、扬声器52的形状、回波除去部11的有无等而不同的散布图。
如图4所示那样,在学习用语音接收信号的对数、频率的信息与学习用信号即回波的功率谱之间成立固定的关系。在本实施方式中,预先取得足够的学习用信号[i]以及学习用语音接收信号[i],基于它们之间的固定的关系来求取推定回波量。
具体地,推定回波算出部24使用以下的数式(4)来算出推定回波函数。推定回波函数(推定回波功率谱[i])是依赖于频率的信号,以将学习用语音接收信号的各频率下的大小的对数、学习用语音接收信号的频率、学习用语音接收信号的总语音接收功率谱的对数、和学习用语音接收信号的总语音接收值的包络的对数作为变量的函数来表征。
推定回波功率谱[i]=α×语音接收功率谱[i]+β×频率+γ×总语音接收功率谱+δ×总语音接收功率谱的包络…(4)
使用图5~图8来详细说明推定回波函数的算出。推定回波算出部24按顺序算出语音接收功率谱[i]的系数α、频率的系数β、总语音接收功率谱的系数γ、总语音接收功率谱的包络的系数δ。各变量的系数α、β、γ、δ是基于从学习用信号[i]除去离群值的数据而求得的。
图5是学习用语音接收信号的各频率下的功率谱(以下称作语音接收的功率谱)的对数和学习用信号的各频率下的功率谱(以下称作语音发送的功率谱)的对数的散布图。在图5中,绘制所测定的数据,以线来表示α。
α表示语音接收的功率谱的对数与语音发送的功率谱的对数的最大值的关系。α是基于从语音接收的功率谱的对数和语音发送的功率谱的对数的散布图除去离群值的结果而求得的。α以线性函数(没有条件分支)或非线性函数(具有条件分支)来表征。
如图5所示那样,并不是说若语音接收的功率谱大,语音发送的功率谱(即回波)就大,而是若语音接收的功率谱大于某种程度,回波就变小。理由在于,扬声器52的特性(有不发出声音的区域)、或在比FFT部12更前级设置了回波除去部11。在图5所示的示例中,α以数式(5)以及数式(6)来表示。如此地,α是非线性函数。
语音接收的功率谱的对数<-1的情况下
α=0.5×语音接收的功率谱的对数-0.5…(5)
语音接收的功率谱的对数≥-1的情况下
α=-1.0×语音接收的功率谱的对数-2.0…(6)
另外,在不设回波除去部11的情况下,与图5所示的示例相比,表示α的线的峰值向右侧偏离,峰值以后的下降线的倾斜度变小,但α是非线性函数(有条件分支)这点没有改变。
若算出α,推定回波算出部24就算出β。图6是学习用语音接收信号的频率(以下称作语音接收的频率)的对数和语音发送的功率谱的对数的散布图。在图6中,绘制从所测定的数据减去α分量的结果,以线表示β。
β表示语音接收的频率与语音发送的功率谱的对数的最大值的关系。β是基于从语音接收的频率和语音发送的功率谱的对数的散布图除去离群值的结果而求得的。β以线性函数或非线性函数来表征。
由于在扬声器52中有难以鸣响低频、高频这样的特性,因此,在图6中,关于低频、高频,回波变小。此外,在终端50设于车辆内的情况下,如图6所示那样,因中途环境的影响(反射等)而在1kHz近旁存在回波变小的骤降。因此,β是非线性函数。
若算出β,推定回波算出部24就算出γ。图7是学习用语音接收信号的总语音接收功率谱的对数和语音发送的功率谱的对数的散布图。在图7中,绘制从所测定的数据减去α分量以及β分量的结果,以线表示γ。
例如,在从扬声器52输出100Hz和110Hz的声音时,从扬声器52除了鸣响100Hz和110Hz以外,有时还鸣响105Hz的声音。因此,为了参照是否鸣响了本来希望鸣响的频率以外的声音这样的信息,在本实施方式中,在推定回波函数(数式(4))中加进以总语音接收功率谱的对数为变量的项。
γ表示总语音接收功率谱的对数与语音发送的功率谱的对数的最大值的关系。γ是基于从语音接收的频率和语音发送的功率谱的对数的散布图除去离群值的结果而求得的。γ以线性函数或非线性函数表征。在图7所示的示例中,γ是非线性函数。
若算出γ,推定回波算出部24就算出δ。图8是学习用语音接收信号的总语音接收功率谱的包络的对数和语音发送的功率谱的对数的散布图。在图8中,绘制从所测定的数据减去α分量、β分量以及γ分量的结果,δ以线表示。
由于车内的声音的反射、扬声器52的振动等从扬声器52成为声音而输出,因此,即使没有学习用语音接收信号,也会存在回波。因此,需要不仅参照当前时间点的总语音接收功率谱,还参照最近的一定期间的学习用信号来推定回波。为此,在本实施方式中,在推定回波函数(数式(4))中加进以总语音接收功率谱的包络的对数为变量的项。
包络A是最近的一定期间中的最大值,使用时间常数B、总语音接收功率谱C,如以下的数式(7)那样逐渐算出。在本实施方式中,将时间常数B设为0.5~1。
If(A<C):
A=C
Else:
A=B×A+(1-B)×C…(7)
δ表示总语音接收功率谱的包络的对数与语音发送的功率谱的对数的最大值的关系。δ是基于从语音接收的频率和语音发送的功率谱的对数的散布图除去离群值的结果而求得的。δ以线性函数或非线性函数表征。在图8所示的示例中,δ是线性函数。
若如此地算出了推定回波函数(表征推定回波功率谱[i]的函数),推定回波算出部24就将推定回波函数存储到存储部23。
回到图2的说明。在图2的说明中,在从麦克风51输入的输入信号中包含通过在语音接收侧信号路径中传输的语音接收信号而从扬声器52输出的声音以及其回波、输入到麦克风51的噪声、通过位于近端侧的利用者A的语音发送(参照图1)而输入到麦克风51的声音(近端语音发送)。
双讲探测部15基于将在语音接收侧信号路径中传输的语音接收信号[t]在FFT部22中变换成依赖于频率的信号而得到的语音接收信号[i]、从麦克风51输入输入信号并在语音发送侧信号路径中传输的语音发送信号[i](这里是通过回波除去部11、FFT部12以及噪声抑制部14后的被抑制信号)、和双讲探测用掩蔽信号,来逐次探测是否是双讲状态。
另外,所谓双讲状态,是有近端语音发送以及远端语音发送的状态,所谓单讲状态,是仅近端语音发送或仅远端语音发送的状态。本实施方式在双讲探测部15探测近端语音发送的有无的方法中有特征,不问探测远端语音发送的有无的方法。例如,双讲探测部15可以在总语音接收功率谱的包络比阈值大的情况下探测为有远端语音发送。
以下,说明双讲探测部15探测近端语音发送的有无的方法。对双讲探测部15逐次输入语音接收信号[i]以及语音发送信号[i]。双讲探测部15若被输入语音接收信号[i]以及语音发送信号[i](取得了采样点),就基于存储于存储部23的推定回波功率谱[i]来生成双讲探测用掩蔽信号,探测是否是双讲状态。此外,双讲探测部15每当取得采样点就进行探测是否是双讲状态的处理。
首先,说明双讲探测用掩蔽信号。双讲探测部15基于推定回波功率谱[i]、推定噪声功率谱[i]和噪声抑制增益[i]来算出双讲探测用掩蔽信号。具体地,如数式(8)所示那样,在推定回波功率谱[i]上加上将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项来求取双讲探测用掩蔽信号。由于双讲探测用掩蔽信号是依赖于频率的信号,因此以下称作双讲探测用掩蔽信号[i]。
双讲探测用掩蔽信号[i]=推定回波功率谱[i]+推定噪声功率谱[i]×噪声抑制增益[i]…(8)
在数式(8)中,推定回波功率谱[i]是通过将语音接收信号[i]的值输入到表征推定回波的函数(数式(4))而求得的。推定噪声功率谱[i]在噪声推定部13中求得,将噪声抑制增益[i]存储到存储部23。
接下来,使用图9来说明探测是否是双讲状态的处理。图9是表示比较某时刻的1帧的被抑制信号和双讲探测用掩蔽信号的样子的图。在图9中,各绘制是被抑制信号,线是双讲探测用掩蔽信号。此外,图9的横轴是被抑制信号的频率,纵轴是被抑制信号的功率谱的对数。
双讲探测部15按每个频率比较被抑制信号和双讲探测用掩蔽信号,来探测是否是双讲状态。作为探测是否是双讲状态的方法,有以下的模式A、B、C这3种方法。模式A、B、C是用于在图9的绘制超过双讲探测用掩蔽信号时判定其是基于近端语音发送还是离群值的方法。
<模式A>
双讲探测部15按每个频率比较被抑制信号的大小和双讲探测用掩蔽信号的大小,对被抑制信号的大小高于双讲探测用掩蔽信号的大小的频率的数量(以下称作超过数)进行计数。换言之,在图9所示的散布图中,对位于比双讲探测用掩蔽信号更上侧的绘制的数量进行计数。双讲探测部15求取超过数是否是预先准备的阈值I(相当于第1阈值)以下。另外,能将阈值I设定为任意的值。
<模式B>
双讲探测部15按每个频率比较被抑制信号的大小和双讲探测用掩蔽信号的大小,算出被抑制信号的大小高于双讲探测用掩蔽信号的大小的频率下的被抑制信号的大小的总和。换言之,在图9所示的散布图中,求取位于比双讲探测用掩蔽信号更上侧的绘制的值(参照图9的两点划线)的总和。
例如,被抑制信号的大小的总和是从被抑制信号的功率谱的对数的值减去常数(例如-7)而得到的值。由于被抑制信号的功率谱的对数能取负的值,因此,通过减去负的值而成为正的值。此外,例如被抑制信号的大小的总和可以是被抑制信号的功率谱的总和。被抑制信号的功率谱由于未去对数,是正的值,因此,可以仅求取总和。
双讲探测部15求取被抑制信号的大小的总和是否是预先准备的阈值II(相当于第2阈值)以下。另外,能将阈值II设定为任意的值。
<模式C>
双讲探测部15按每个频率比较被抑制信号的大小和双讲探测用掩蔽信号的大小,算出被抑制信号的大小高于双讲探测用掩蔽信号的大小的频率下的被抑制信号的大小(这里是被抑制信号的功率谱的对数)与双讲探测用掩蔽信号大小之差的总和。换言之,在图9所示的散布图中,求取位于比双讲探测用掩蔽信号更上侧的绘制的大小与双讲探测用掩蔽信号的大小之差(参照图9的点线)的总和。
双讲探测部15求取被抑制信号的大小与双讲探测用掩蔽信号大小之差的总和是否是预先准备的阈值III(相当于第3阈值)以下。另外,能将阈值III设定为任意的值。
双讲探测部15探测模式A~C中任一方法中算出的值是否为阈值(阈值I、II或III)以上。然后,在所算出的值成为阈值以上的帧连续成为给定数(例如2帧)以上的情况下,判定为有近端语音发送。
例如,双讲探测部15在所算出的值成为阈值以上的情况下,将计数器的值增加1(计数增),在所算出的值不足阈值的情况下,将计数器的值减去1(计数减),或使计数器为0。然后,双讲探测部15在计数器的值成为阈值(例如2)以上时判定为有近端语音发送。
模式C中,计算量最多,但在超过双讲探测用掩蔽信号时,最能正确判定其是基于近端语音发送还是离群值。
另外,双讲探测部15例如也可以在从仅近端语音发送的状态移转到仅远端语音发送的状态的情况下,在从双讲状态移转到仅近端语音发送的状态、仅远端语音发送的状态或不进行近端语音发送以及远端语音发送的状态的情况下,不探测是否是双讲状态。特别是,在从双讲状态移转到没有近端远端语音发送的状态的情况下,在还残留回波的可能性高地从双讲状态移转到没有远端语音发送的状态的情况下,由于有近端语音发送的可能性高,因此,也可以在移行后给定的时间不探测是否是双讲状态。
回到图2的说明。非线性回波抑制部16对从麦克风51输入输入信号并在语音发送侧信号路径中传输的语音发送信号[i](这里是通过回波除去部11、FFT部12以及噪声抑制部14后的被抑制信号)进行抑制非线性回波的处理(以下称作非线性回波抑制处理)。在本实施方式中,非线性回波抑制部16通过将基于回波抑制用掩蔽信号算出的回波抑制增益与语音发送信号[i]相乘来进行非线性回波抑制处理,其中该回波抑制用掩蔽信号是基于推定回波而生成的。此外,非线性回波抑制部16基于双讲探测部15中的探测结果来使回波抑制增益成为不同的值。
对非线性回波抑制部16逐次输入语音接收信号[i]、语音发送信号[i]以及双讲探测部15中的探测结果。非线性回波抑制部16若被输入语音发送信号[i](取得了采样点),就基于存储于存储部23的推定回波函数来生成回波抑制用掩蔽信号,且进行非线性回波抑制处理
非线性回波抑制部16基于推定回波功率谱[i]、推定噪声功率谱[i]和噪声抑制增益[i]来算出回波抑制用掩蔽信号。具体地,如数式(9)所示那样,在推定回波功率谱[i]上加上将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项来求取回波抑制用掩蔽信号。由于回波抑制用掩蔽信号是依赖于频率的信号,因此以下称作回波抑制用掩蔽信号[i]。
回波抑制用掩蔽信号[i]=推定回波功率谱[i]+推定噪声功率谱[i]×噪声抑制增益『i]…(9)
在数式(9)的情况下,也与数式(8)的情况同样,推定回波功率谱[i]是将语音接收信号[i]的值输入到数式(4)而求取的,推定噪声功率谱[i]在噪声推定部13中求取,将噪声抑制增益[i]存储到存储部23。
图10是表示比较某时刻的1帧的被抑制信号和回波抑制用掩蔽信号的样子的图。在图10中,各绘制是被抑制信号,实线是回波抑制用掩蔽信号,点线是容许值。此外,图10的横轴是被抑制信号的频率,纵轴是被抑制信号的功率谱的对数。
非线性回波抑制部1对各绘制进行回波抑制处理,以使回波抑制用掩蔽信号的大小小到容许值的大小。以下,详细说明回波抑制处理。
首先,说明容许值。所谓容许值,表示在语音发送信号[i]中容许的残留回波的大小,如数式(10)所示那样,基于推定噪声功率谱[i]和噪声抑制增益[i]来求取。由于容许值是依赖于频率的信号,因此以下称作容许值[i]。
容许值[i]=推定噪声功率谱[i]×噪声抑制增益[i]+L…(10)
L是常数。另外,也可以基于推定噪声功率谱[i]的大小、双讲探测部15中的探测结果来改变L。
图11是表示容许值[i]的一例的图表。在推定噪声功率谱[i]大的情况下,容许值变大,在推定噪声功率谱[i]小的情况下,容许值变小。
回到图10的说明。图10的容许值[i]是图11中的推定噪声功率谱[i]小的情况的容许值[i]。非线性回波抑制部16基于以下的数式(11)来算出基本的增益G。由于增益G是依赖于频率的信号,因此以下称作G[i]。
[数学式3]
另外,数式(9)将输入信号设为X(Z=log10Re(X)×Re(X)+Im(X)×Im(X),Z是输入信号的功率谱的对数,Re是实部,Im是虚部),将目标信号设为Y(Re(Y)=Re(X)×G,Im(Y)=Im(X)×G),基于以下的数式(12)~(15)来算出。
[数学式4]
Y2=G2×X2…(12)
[数学式5]
[数学式6]
2×log10G=log10X2-log10Y2…(14)
[数学式7]
非线性回波抑制部16按每帧生成回波抑制用掩蔽信号[i]以及容许值[i]。然后,非线性回波抑制部16按每帧比较语音发送信号[i]的大小和回波抑制用掩蔽信号[i]的大小、以及语音发送信号[i]的大小和容许值[i]的大小。然后,非线性回波抑制部16按每帧,基于比较的结果和双讲探测部15中的探测结果来算出回波抑制增益G1~G5。使用通过数式(11)求得的基本的增益G,如以下的数式(16)~(20)那样求取回波抑制增益G1~G5。另外,数式(16)~(20)中的Z是语音发送信号[i]的功率谱的对数(语音发送信号[i]的大小),在图10中是各绘制的纵轴的值。
Z≤容许值:G1=1.0…(16)
[数学式8]
Z>容许值且Z≤回波抑制用掩蔽信号且无近端语音发送:
[数学式9]
Z>容许值且Z≤回波抑制用掩蔽信号且有近端语音发送:
[数学式10]
Z>容许值且Z大于回波抑制用掩蔽信号且无近端语音发送:
[数学式11]
Z>容许值且Z>回波抑制用掩蔽信号且有近端语音发送:
如数式(16)所示那样,在Z为容许值以下的情况下(图10的阴影部I),非线性回波抑制部16将回波抑制增益G1设为1,不进行回波抑制。
在数式(17)、(18)所示那样Z大于容许值且为回波抑制用掩蔽信号的大小以下的情况下(图10的阴影部II),基于从语音发送信号的大小减去容许值的值(Z-容许值)来求取回波抑制增益G2、G3。换言之,在Z大于容许值且为回波抑制用掩蔽信号的大小以下的情况下,非线性回波抑制部16进行回波抑制,以使语音发送信号的大小小到容许值。
然后,在有近端语音发送的情况下,非线性回波抑制部16在从语音发送信号的大小减去容许值的值上乘以常数W1来求取回波抑制增益G3。常数W1是0到1之间的任意的数。换言之,非线性回波抑制部16在有近端语音发送的情况下减弱回波抑制。另外,若将W1设为1,则回波抑制增益G2和回波抑制增益G3一致。
在数式(19)、(20)所示那样Z大于容许值以及回波抑制用掩蔽信号的大小的情况下(图10的非阴影部III),基于从回波抑制用掩蔽信号的大小减去容许值的值(回波抑制用掩蔽信号-容许值)来求取回波抑制增益G4、G5。换言之,在Z大于容许值以及回波抑制用掩蔽信号的情况下,非线性回波抑制部16进行回波抑制,以使回波抑制用掩蔽信号的大小小到容许值。
然后,在有近端语音发送的情况下,非线性回波抑制部16在从回波抑制用掩蔽信号减去容许值的值上乘以常数W2来求取回波抑制增益G5。常数W2是0到1之间的任意的数。换言之,非线性回波抑制部16在有近端语音发送的情况下减弱回波抑制。另外,若将W2设为1,则回波抑制增益G4和回波抑制增益G5一致。另外,W2的值可以与W1的值相同,也可以不同
非线性回波抑制部16在各帧中,按每个测定点使用所求得的回波抑制增益G1~G5来进行非线性回波抑制处理。
回到图2的说明。噪声叠加部17基于噪声推定部13中推定的推定噪声信号来生成舒适噪声,对在非线性回波抑制部16中进行回波抑制处理后的语音发送信号叠加舒适噪声。
IFFT部18对通过了噪声叠加部17的输入信号进行逆FFT(IFFT、Inverse FFT)。
图12是表示回波抑制装置1逐次减少回波的处理的流程的流程图。该处理在将语音接收信号以及输入信号输入到回波抑制装置的期间中每给定时间连续进行。
首先,回波除去部11从输入信号除去回波(步骤S11)。噪声推定部13推定回波除去信号中所含的推定噪声信号,噪声抑制部14基于推定噪声信号来从回波除去信号抑制噪声信号,生成被抑制信号(步骤S12)。
双讲探测部15算出被抑制信号以及语音接收信号的功率谱(步骤S13),从存储部23取得推定回波功率谱[i],基于该取得的推定回波和步骤S13中算出的功率谱来生成双讲探测用掩蔽信号(步骤S14),使用步骤S14中生成的双讲探测用掩蔽信号来探测近端语音发送的有无(步骤S15)。
接下来,非线性回波抑制部16从存储部23取得推定回波功率谱[i],基于该取得的推定回波和步骤S13中算出的功率谱来生成回波抑制用掩蔽信号(步骤S16),使用步骤S15中探测的近端语音发送的有无以及步骤S16中生成的回波抑制用掩蔽信号来对被抑制信号进行回波抑制处理(步骤S17)。
接下来,噪声叠加部17基于噪声推定部13中推定的推定噪声信号来生成舒适噪声,对步骤S17中进行回波抑制处理后的语音发送信号叠加舒适噪声(步骤S18)。最后,IFFT部18使叠加噪声后的语音发送信号回到时间轴信号(步骤S19)。
根据本实施方式,由于使用在推定回波函数(推定回波功率谱[i])输入语音接收信号的值而生成的回波抑制用掩蔽信号来进行非线性回波抑制处理,因此,即使是非线性回波分量大的情况,也能正确推定回波抑制量。
此外,根据本实施方式,由于使用在表征推定回波功率谱[i]的函数输入语音接收信号的值而生成的双讲探测用掩蔽信号来探测近端语音发送的有无,因此,能正确探测近端语音发送的有无。特别是,通过算出被抑制信号高于双讲探测用掩蔽信号的值的频率下的被抑制信号的大小与双讲探测用掩蔽信号的大小之差的总和的方法(模式C)来探测近端语音发送的有无,由此,能在输入信号大于双讲探测用掩蔽信号的情况下,正确探测该数据是近端语音发送还是离群值。
此外,根据本实施方式,通过在求取双讲探测用掩蔽信号的数式(8)追加将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项,能正确探测近端语音发送的有无。例如,有可能不是近端语音发送,而是因噪声的影响而语音发送信号的值变得大于双讲探测用掩蔽信号。与此相对,通过在求取双讲探测用掩蔽信号的数式(8)中追加将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项,能防止因噪声的影响而误探测。
此外,根据本实施方式,通过在求取回波抑制掩蔽信号的数式(9)中追加将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项,能合适地进行非线性回波抑制处理。
此外,根据本实施方式,基于噪声推定部13中推定的噪声分量和噪声抑制部14中所用的噪声抑制增益来求取容许的残留回波的值即容许值,使用基于回波抑制用掩蔽信号与容许值之差求得的回波抑制增益来进行非线性回波抑制处理,因此,能使得不会必要以上地过于抑制回波。例如,不需要使非线性回波抑制处理后的大小小于没有近端以及远端中的语音发送时的语音发送信号[i]的值,使回波抑制增益过大从而导致因非线性回波抑制处理而声音变得不自然的缺点会变大。因此,在非线性回波抑制处理中,期望调整回波抑制增益,以使得处理后的信号的大小不小于基于噪声分量求得的容许值。特别是,在语音发送信号[i]的值比容许值大且为回波抑制用掩蔽信号以下的情况下(图10的阴影部II),基于从语音发送信号减去容许值的值(Z-容许值)来求取回波抑制增益G2、G3,在语音发送信号[i]大于容许值以及回波抑制用掩蔽信号的情况下(图10的非阴影部III),通过基于从回波抑制用掩蔽信号减去容许值的值(回波抑制用掩蔽信号-容许值)求取回波抑制增益G4、G5,能合适地抑制回波。
此外,根据本实施方式,在Z大于容许值大且为回波抑制用掩蔽信号的大小以下的情况下,进行回波抑制,以使语音发送信号的大小小到容许值,在Z大于容许值以及回波抑制用掩蔽信号的情况下,进行回波抑制,以使回波抑制用掩蔽信号的大小小到容许值,由此,能对应于Z的大小来合适地抑制回波。
此外,根据本实施方式,通过使有近端语音发送时的回波抑制增益G3、G5比没有近端语音发送时的回波抑制增益G2、G4小,能使得不会必要以上地过于抑制回波。一般,在有近端语音发送时,存在说话者不在意回波的倾向。因此,在有近端语音发送的情况下减弱回波的抑制,能防止因过于抑制回波而声音变得不自然。
此外,根据本实施方式,由于基于从学习用信号[i]除去离群值的数据来求取推定回波功率谱[i]的各系数α、β、γ、δ,因此,能防止双讲探测用掩蔽信号的大小必要以上地变大,能正确探测近端语音发送的有无。例如,若放入离群值不变地求取推定回波功率谱[i]的各系数,则在近端说话者的声音小时,语音发送信号[i]的值有可能不超过双讲探测用掩蔽信号。与此相对,通过基于从学习用信号[i]除去离群值的数据来求取推定回波功率谱[i]的各系数α、β、γ、δ,即使近端说话者的声音小,也能探测到有近端语音发送。此外,由于基于从学习用信号[i]除去离群值的数据求取推定回波功率谱[i]的各系数α、β、γ、δ,因此,能防止回波抑制用掩蔽信号的大小必要以上地变大,能使得不会过于抑制回波。
另外,在本实施方式中,在非线性回波抑制部16中,使用双讲探测部15中的探测结果,在有近端语音发送时使回波抑制增益比没有近端语音发送时小,但双讲探测部15并非必须,非线性回波抑制部16也可以不使用双讲探测部15中的探测结果进行处理。例如,非线性回波抑制部16也可以使用数式(15)、(16)、(18)中求得的回波抑制增益G1、G2、G5来进行非线性回波抑制处理。
此外,在本实施方式中,基于从学习用信号[i]除去离群值的数据来求取推定回波功率谱[i]的各系数α、β、γ、δ,使用其来求取双讲探测用掩蔽信号以及回波抑制用掩蔽信号,但也可以成为双讲探测用掩蔽信号的基础的推定回波功率谱『i]和成为回波抑制用掩蔽信号的基础的推定回波功率谱[i]不同。
例如,推定回波算出部24生成基于从学习用信号[i]除去离群值的数据来求取各变量的系数的第1推定回波函数(第1推定回波功率谱[i])、和基于不除去离群值的学习用语音接收信号[i]求取各变量的系数的第2推定回波函数(第2推定回波功率谱[i]),存储部23存储第1推定回波功率谱[i]以及第2推定回波功率谱[i]作为推定回波功率谱[i]。然后,双讲探测部15基于第1推定回波功率谱[i]来求取双讲探测用掩蔽信号,非线性回波抑制部16基于第2推定回波功率谱[i]来求取回波抑制用掩蔽信号。由此,能正确探测近端语音发送的有无,且能增强非线性回波的抑制而进行足够的回波抑制。
此外,在本实施方式中,具有噪声推定部13以及噪声抑制部14,在求取双讲探测用掩蔽信号[i]的数式(8)以及求取回波抑制用掩蔽信号[i]的数式(9)中,在推定回波功率谱[i]追加将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项,但噪声推定部13以及噪声抑制部14并非必须,在数式(8)、(9)中追加将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项也并非必须。其中,为了进行正确的近端语音发送的探测以及合适的回波抑制,期望在数式(8)、(9)中追加将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项。
此外,在本实施方式中,在非线性回波抑制处理中,基于推定噪声功率谱[i]和噪声抑制增益[i]来求取容许值,求取使回波抑制用掩蔽信号[i]的大小小到容许值的大小这样的回波抑制增益,但并不需要在非线性回波抑制处理中使用容许值。例如,非线性回波抑制部16也可以使用使回波抑制用掩蔽信号[i]的大小小到0或任意的值这样的回波抑制增益来进行非线性回波抑制处理。其中,为了防止过于抑制回波而声音变得不自然,期望进行非线性回波抑制处理,以使回波抑制用掩蔽信号[i]的大小小到容许值的大小。
此外,在本实施方式中,容许值[i]是依赖于频率的信号,但容许值也可以是不依赖于频率的常数。例如,也可以将容许值[i]的平均值设为不依赖于频率的容许值(常数),使用容许值(常数)来来求取G『i]。
此外,在本实施方式中,推定回波算出部24设于回波抑制装置1,但推定回波算出部24也可以设于与回波抑制装置1不同的运算装置等。例如,推定回波算出部24经由未图示的存储介质或网络等取得学习用信号[i]以及学习用语音接收信号[i],将所生成的推定回波功率谱[i]经由未图示的存储介质或网络等存储到存储部23即可。
此外,在本实施方式中,使用针对某时刻的学习用语音接收信号[i]的学习用信号[i]的散布图(图5~图8)来求取推定回波功率谱[i],但各散布图中语音发送的功率谱的对数为某一定值(例如-5)以下的数据由于不会影响推定回波功率谱[i]的算出,因此,也可以使用删除了语音发送的功率谱的对数为某一定值以下的数据的数据来求取推定回波功率谱[i]。由此,能减少数据量、计算量。
此外,在本实施方式中,使用针对某时刻的学习用语音接收信号[i]的学习用信号[i]的散布图(图5~图8)来求取推定回波功率谱[i],但根据学习用语音接收信号[i]以及学习用信号[i]求取推定回波功率谱[i]的方法并不限于此。例如,也可以使用公知的统计学的手法或深度学习来求取推定回波功率谱[i]。
此外,在本实施方式中,使用功率谱,但也可以取代功率谱而使用振幅谱。在使用振幅谱的情况下,本发明的信号的大小使用信号的振幅的绝对值作为信号的大小即可,相当于本发明的总语音接收值的总语音接收振幅谱如数式(21)所示那样,使用学习用信号的各频率下的振幅谱的绝对值的总和即可。此外,总语音接收振幅谱可以如数式(22)(A>0、B<F MAX)所示那样,设为学习用信号的任意的频率的范围内的各频率下的振幅谱的总和。
[数学式12]
[数学式13]
此外,在本实施方式中,回波除去部11设于FFT部12的前级,但回波除去部11也可以设于FFT部12的后级,还可以设于噪声抑制部14的后级。此外,噪声叠加部17设于非线性回波抑制部16的后级,但也可以噪声叠加部17设于复原部(IFFT部)18的后级。
此外,在本实施方式中,噪声抑制部14设于非线性回波抑制部16的前级,但也可以噪声抑制部14设于非线性回波抑制部16的后级。在该情况下,在数式(8)、(9)中不需要将推定噪声功率谱[i]和噪声抑制增益[i]相乘的项。
以上,参照附图详述了本发明的实施方式,但具体的结构并不限于该实施方式,还包含不脱离本发明的要旨的范围的设计变更等。特别是在实施方式中,基于以振幅的平方表征的功率谱来进行基础掩蔽信号的生成、最优掩蔽信号的生成、选择、双讲状态的探测等,但这些处理也可以基于振幅的绝对值来进行。
-符号说明-
1:回波抑制装置
11:回波除去部
12、22:FFT部
13:噪声推定部
14:噪声抑制部
15:双讲探测部
16:非线性回波抑制部
17:噪声叠加部
18:IFFT部
21:动态范围控制
23:存储部
24:推定回波算出部
50:终端
51:麦克风
52:扬声器
53、54:便携电话
55:扬声器放大器
100:声音通信系统。
Claims (11)
1.一种回波抑制装置,抑制在向扬声器传输信号的语音接收侧信号路径中传输语音接收信号,通过所述语音接收信号而从所述扬声器输出的声音输入到麦克风而产生的回波,
所述回波抑制装置的特征在于,具备:
存储部,其存储推定回波函数,其中,所述推定回波基于第2学习用语音接收信号和第2学习用信号来算出,所述第2学习用语音接收信号将在所述语音接收侧信号路径中传输的学习用语音接收信号变换成频率的区域而得到,所述第2学习用信号将在传输通过所述学习用语音接收信号而从所述扬声器输出的声音输入到所述麦克风时从所述麦克风输入的信号的语音发送侧信号路径中传输的学习用信号变换成频率的区域而得到,所述推定回波函数将所述语音接收信号的各频率下的大小的对数、所述语音接收信号的频率、所述语音接收信号的大小的总和或作为任意的频率范围内的所述语音接收信号的语音发送的总语音接收值的对数、和所述总语音接收值的包络的对数作为变量;和
非线性回波抑制部,其对表征所述推定回波的函数输入将所述语音接收信号变换成频率的区域而得到的第2语音接收信号的值来生成回波抑制用掩蔽信号,通过将基于所述回波抑制用掩蔽信号算出的回波抑制增益与将在所述语音发送侧信号路径中传输的语音发送信号变换成频率的区域而得到的第2语音发送信号相乘,来进行回波抑制处理。
2.根据权利要求1所述的回波抑制装置,其特征在于,
所述回波抑制装置具有:双讲探测部,其对表征所述推定回波的函数输入所述第2语音接收信号的值来生成双讲探测用掩蔽信号,基于所述第2语音发送信号和所述双讲探测用掩蔽信号来逐次探测是否对所述麦克风输入了语音发送,
所述非线性回波抑制部在对所述麦克风输入语音发送的情况下,使所述回波抑制增益比不对所述麦克风输入语音发送的情况小。
3.根据权利要求2所述的回波抑制装置,其特征在于,
所述双讲探测部按每个频率比较所述第2语音发送信号的大小和所述双讲探测用掩蔽信号的大小,基于所述第2语音发送信号的大小高于所述双讲探测用掩蔽信号的大小的频率的数量是否小于第1阈值、所述第2语音发送信号的大小高于所述双讲探测用掩蔽信号的大小的频段中的所述第2语音发送信号的大小的总和是否大于第2阈值、或者所述第2语音发送信号的大小高于所述双讲探测用掩蔽信号的大小的频段中的所述第2语音发送信号的大小与所述双讲探测用掩蔽信号的大小之差的总和是否小于第3阈值,来探测未对所述麦克风输入语音发送。
4.根据权利要求1~3中任一项所述的回波抑制装置,其特征在于,
所述回波抑制装置具备:
噪声推定部,其推定所述第2语音发送信号中所含的噪声分量;和
噪声抑制部,其在所述第2语音发送信号上乘以噪声抑制增益来从回波除去信号抑制噪声信号,
所述非线性回波抑制部基于所述推定回波、所述噪声分量和所述噪声抑制增益来求取所述回波抑制用掩蔽信号。
5.根据权利要求2或3所述的回波抑制装置,其特征在于,
所述回波抑制装置具备:
噪声推定部,其推定所述第2语音发送信号中所含的噪声分量;和
噪声抑制部,其在所述第2语音发送信号上乘以噪声抑制增益来从回波除去信号抑制噪声信号,
所述双讲探测部基于所述推定回波、所述噪声分量和所述噪声抑制增益来求取所述双讲探测用掩蔽信号。
6.根据权利要求4或5所述的回波抑制装置,其特征在于,
所述非线性回波抑制部基于所述噪声分量和所述噪声抑制增益来求取表示容许的残留回波的大小的容许值,将使所述回波抑制用掩蔽信号的大小小到所述容许值的大小这样的所述回波抑制增益与所述第2语音发送信号相乘。
7.根据权利要求6所述的回波抑制装置,其特征在于,
所述非线性回波抑制部在所述第2语音发送信号的大小大于所述容许值且为所述回波抑制用掩蔽信号以下的情况下,基于从所述第2语音发送信号的大小减去所述容许值的值来求取所述回波抑制增益,在所述第2语音发送信号的值大于所述容许值以及所述回波抑制用掩蔽信号的情况下,基于从所述回波抑制用掩蔽信号减去所述容许值的值来求取所述回波抑制增益。
8.根据权利要求1~7中任一项所述的回波抑制装置,其特征在于,
在表征所述推定回波的函数中,基于从所述第2学习用信号除去了离群值的数据来求取各变量的系数。
9.根据权利要求2、3或5所述的回波抑制装置,其特征在于,
表征所述推定回波的函数具有:基于从所述第2学习用信号除去了离群值的数据来求取各变量的系数的第1函数;和基于未除去离群值的所述第2学习用信号来求取各变量的系数的第2函数,
所述双讲探测用掩蔽信号基于所述第1函数来求取,
所述回波抑制用掩蔽信号基于所述第2函数来求取。
10.一种回波抑制方法,抑制在向扬声器传输信号的语音接收侧信号路径中传输语音接收信号,通过所述语音接收信号而从所述扬声器输出的声音输入到麦克风而产生的回波,
所述回波抑制方法的特征在于,包含如下步骤:
取得推定回波函数,所述推定回波存储于存储部,基于第2学习用语音接收信号和第2学习用信号来算出,其中,所述第2学习用语音接收信号将在所述语音接收侧信号路径中传输的学习用语音接收信号变换成频率的区域而得到,所述第2学习用信号将在传输通过所述学习用语音接收信号而从所述扬声器输出的声音输入到所述麦克风时从所述麦克风输入的信号的语音发送侧信号路径中传输的学习用信号变换成频率的区域而得到,所述推定回波函数将所述语音接收信号的各频率下的大小的对数、所述语音接收信号的频率、作为所述语音接收信号的大小的总和的总语音接收值的对数、和所述总语音接收值的包络的对数作为变量;和
对表征所述推定回波的函数输入将所述语音接收信号变换成频率的区域而得到的第2语音接收信号的值来生成回波抑制用掩蔽信号,通过将基于所述回波抑制用掩蔽信号算出的回波抑制增益与将在所述语音发送侧信号路径中传输的语音发送信号变换成频率的区域而得到的第2语音发送信号相乘,来进行回波抑制处理。
11.一种回波抑制程序,抑制在向扬声器传输信号的语音接收侧信号路径中传输语音接收信号,通过所述语音接收信号而从所述扬声器输出的声音输入到麦克风而产生的回波,
所述回波抑制程序的特征在于使计算机作为如下要素发挥功能:
存储部,其存储推定回波函数,其中,所述推定回波基于第2学习用语音接收信号和第2学习用信号来算出,所述第2学习用语音接收信号将在所述语音接收侧信号路径中传输的学习用语音接收信号变换成频率的区域而得到,所述第2学习用信号将在传输通过所述学习用语音接收信号而从所述扬声器输出的声音输入到所述麦克风时从所述麦克风输入的信号的语音发送侧信号路径中传输的学习用信号变换成频率的区域而得到,所述推定回波函数将所述语音接收信号的各频率下的大小的对数、所述语音接收信号的频率、作为所述语音接收信号的大小的总和的总语音接收值的对数、和所述总语音接收值的包络的对数作为变量;和
非线性回波抑制部,对表征所述推定回波的函数输入将所述语音接收信号变换成频率的区域而得到的第2语音接收信号的值来生成回波抑制用掩蔽信号,通过将基于所述回波抑制用掩蔽信号算出的回波抑制增益与将在所述语音发送侧信号路径中传输的语音发送信号变换成频率的区域而得到的第2语音发送信号相乘,来进行回波抑制处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021054402A JP2022151366A (ja) | 2021-03-26 | 2021-03-26 | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
JP2021-054402 | 2021-03-26 | ||
PCT/JP2022/006655 WO2022202012A1 (ja) | 2021-03-26 | 2022-02-18 | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117063231A true CN117063231A (zh) | 2023-11-14 |
Family
ID=83396876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280024072.2A Pending CN117063231A (zh) | 2021-03-26 | 2022-02-18 | 回波抑制装置、回波抑制方法以及回波抑制程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240171685A1 (zh) |
EP (1) | EP4319192A4 (zh) |
JP (1) | JP2022151366A (zh) |
CN (1) | CN117063231A (zh) |
WO (1) | WO2022202012A1 (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW432855B (en) * | 1996-04-25 | 2001-05-01 | Mitsubishi Electric Corp | Echo eliminator |
JP4438720B2 (ja) * | 2005-08-17 | 2010-03-24 | ソニー株式会社 | エコーキャンセラ及びマイク装置 |
JP2009094802A (ja) * | 2007-10-09 | 2009-04-30 | Renesas Technology Corp | 通信装置 |
GB2510331A (en) * | 2012-12-21 | 2014-08-06 | Microsoft Corp | Echo suppression in an audio signal |
JP6180689B1 (ja) | 2016-11-10 | 2017-08-16 | 三菱電機株式会社 | エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム |
JP6833616B2 (ja) * | 2017-05-29 | 2021-02-24 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
JP7043344B2 (ja) * | 2018-05-17 | 2022-03-29 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
JP7187183B2 (ja) * | 2018-06-14 | 2022-12-12 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム |
-
2021
- 2021-03-26 JP JP2021054402A patent/JP2022151366A/ja active Pending
-
2022
- 2022-02-18 EP EP22774812.6A patent/EP4319192A4/en active Pending
- 2022-02-18 WO PCT/JP2022/006655 patent/WO2022202012A1/ja active Application Filing
- 2022-02-18 CN CN202280024072.2A patent/CN117063231A/zh active Pending
- 2022-02-18 US US18/283,677 patent/US20240171685A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4319192A4 (en) | 2024-07-31 |
JP2022151366A (ja) | 2022-10-07 |
EP4319192A1 (en) | 2024-02-07 |
US20240171685A1 (en) | 2024-05-23 |
WO2022202012A1 (ja) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5036874B2 (ja) | エコー消去装置 | |
US8315380B2 (en) | Echo suppression method and apparatus thereof | |
US7003099B1 (en) | Small array microphone for acoustic echo cancellation and noise suppression | |
US8644496B2 (en) | Echo suppressor, echo suppressing method, and computer readable storage medium | |
JP4377952B1 (ja) | 適応フィルタ及びこれを有するエコーキャンセラ | |
US6868158B2 (en) | Echo processing apparatus | |
CN103329450B (zh) | 回波消除装置以及回波检测装置 | |
KR100595799B1 (ko) | 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감 | |
JP2003101445A (ja) | エコー処理装置 | |
JP2002528995A (ja) | 周波数ドメインの非線形プロセッシングを使用したエコー・サプレッションを提供するための方法および装置 | |
WO2018221206A1 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
WO2019239977A1 (ja) | エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム | |
JP4607015B2 (ja) | エコー抑圧装置 | |
CN117063231A (zh) | 回波抑制装置、回波抑制方法以及回波抑制程序 | |
CN115620737A (zh) | 语音信号处理装置、方法、电子设备和扩音系统 | |
EP3952335A1 (en) | Echo suppression device, echo suppression method, and echo suppression program | |
KR100272131B1 (ko) | 계층적 구조의 적응반향 제거장치 | |
KR100545832B1 (ko) | 간섭신호에 강인한 음향 반향 제거장치 | |
JP4903843B2 (ja) | 適応フィルタ及びこれを有するエコーキャンセラ | |
WO2024202349A1 (ja) | 自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム | |
WO2018087855A1 (ja) | エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム | |
WO2024009892A1 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
JP7382273B2 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
JP4534529B2 (ja) | ハウリング抑圧方法及び装置 | |
RU2799561C2 (ru) | Устройство эхоподавления, способ эхоподавления и программа эхоподавления |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40094881 Country of ref document: HK |