CN115053460A - 回波抑制装置、回波抑制方法以及回波抑制程序 - Google Patents
回波抑制装置、回波抑制方法以及回波抑制程序 Download PDFInfo
- Publication number
- CN115053460A CN115053460A CN202180013053.5A CN202180013053A CN115053460A CN 115053460 A CN115053460 A CN 115053460A CN 202180013053 A CN202180013053 A CN 202180013053A CN 115053460 A CN115053460 A CN 115053460A
- Authority
- CN
- China
- Prior art keywords
- signal
- masking
- input
- echo
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims description 37
- 238000000034 method Methods 0.000 title claims description 26
- 230000000873 masking effect Effects 0.000 claims abstract description 231
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims description 101
- 238000001514 detection method Methods 0.000 claims description 44
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 35
- 238000004891 communication Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000002592 echocardiography Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6008—Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
即使在发声较小的情况下也能够探测发声并适当地抑制回波。在每次取得在向扬声器传输信号的受话侧信号路径中传输的受话信号的采样点时,基于在取得该采样点的时间点以前的给定期间内取得的受话信号,从基于学习用信号来生成的一个或者多个掩蔽信号即基础掩蔽信号依次生成或者选择最佳掩蔽信号。在每次选择最佳掩蔽信号时,基于对输入信号和最佳掩蔽信号进行比较的结果依次探测是否是双端通话状态,在探测到未对麦克风输入发声并且受话信号包括发声的情况下,依次对输入信号进行抑制回波的处理。
Description
技术领域
本发明涉及回波抑制装置、回波抑制方法以及回波抑制程序。
背景技术
在专利文献1中公开了一种回波抑制装置,该回波抑制装置进行如下处理:将基于关于在受话侧信号路径中传输的学习用信号的功率谱的掩蔽信号(mask)、和关于从麦克风输入的输入信号的功率谱的值按每个频带进行比较来探测是否为双端通话状态,在探测到信号未在送话侧信号路径中传输且信号正在受话侧信号路径中传输的情况下,使用回波抑制器来抑制输入信号的回波。
在先技术文献
专利文献
专利文献1:日本特开2018-201147号公报
发明内容
-发明所要解决的课题-
然而,在专利文献1所记载的通话信号处理装置中,设想受话侧信号路径的信号较大的情况而生成掩蔽信号,因此在位于麦克风侧的利用者(近端说话者)的发声较小、且在受话侧信号路径中传输的受话信号较大的情况下,回声抑制器会强烈地作用于在受话侧信号路径中传输的输入信号,近端说话者的语音有可能会消失。
本发明是鉴于这样的情况而完成的,其目的在于提供一种即使在发声较小的情况下也能够探测发声并适当地抑制回波的回波抑制装置、回波抑制方法以及回波抑制程序。
-用于解决课题的手段-
为了解决上述课题,本发明所涉及的回波抑制装置例如是如下回波抑制装置,设置于送话侧信号路径,该送话侧信号路径对从具有扬声器和麦克风的近端终端中的所述麦克风输入的输入信号进行传输,其特征在于,具备:掩蔽信号存储部,存储基础掩蔽信号,该基础掩蔽信号是基于在未对所述麦克风输入发声而从所述扬声器输出声音时在所述送话侧信号路径中传输的学习用信号来生成的一个或者多个掩蔽信号;掩蔽信号选择部,每当取得在向所述扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的所述受话信号,从所述基础掩蔽信号依次生成或者选择与所述受话信号的大小相应的最佳掩蔽信号;双端通话探测部,每当生成或者选择所述最佳掩蔽信号,就基于对所述输入信号和所述最佳掩蔽信号进行比较的结果依次探测是否为双端通话状态;以及回波抑制器,在通过所述双端通话探测部探测到未对所述麦克风输入发声且所述受话信号包括发声的情况下,依次对所述输入信号进行抑制回波的处理。
根据本发明所涉及的回波抑制装置,每当取得在向扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的受话信号,从基于学习用信号生成的一个或者多个掩蔽信号即基础掩蔽信号依次生成或者选择最佳掩蔽信号。每当选择最佳掩蔽信号,就基于对输入信号和最佳掩蔽信号进行比较的结果依次探测是否是双端通话状态,在探测到未对麦克风输入发声并且受话信号包括发声的情况下,依次进行对输入信号抑制回波的处理。这样,通过根据受话信号的大小来改变掩蔽信号的大小,即使在发声较小的情况下也能够探测发声,并适当地抑制回波。
具备:掩蔽信号生成部,变更所述学习用信号的大小来生成多个掩蔽信号,所述掩蔽信号存储部将所述掩蔽信号生成部生成的多个掩蔽信号作为所述基础掩蔽信号进行存储,所述掩蔽信号选择部基于所述输入信号的大小从所述基础掩蔽信号中选择所述最佳掩蔽信号。由此,能够针对每个受话等级准确地存储残留回波的频率特性,并根据受话信号的大小来改变掩蔽信号的大小。此外,不会频繁地改变回波抑制器的起效方式,能够确保稳定的通话。
具备:掩蔽信号生成部,基于所述学习用信号来生成一个掩蔽信号,所述掩蔽信号存储部将所述掩蔽信号生成部生成的一个掩蔽信号作为所述基础掩蔽信号进行存储,所述掩蔽信号选择部基于所述输入信号的大小,对所述基础掩蔽信号乘以系数,由此生成所述最佳掩蔽信号。由此,能够针对每个受话等级准确地存储残留回波的频率特性,并根据受话信号的大小来改变掩蔽信号的大小。此外,不需要存储多个基础掩蔽信号,能够减少使用的存储器。
具备:信号测定部,在从未对所述麦克风输入发声而从所述扬声器输出声音的状态转变为未对所述麦克风输入发声且未从所述扬声器输出声音的状态时,测定信号不再在所述送话侧信号路径中传输的时间即第一时间,所述掩蔽信号选择部将所述第一时间作为所述给定期间,来依次生成或者选择所述最佳掩蔽信号。由此,能够根据由受话信号产生的回波的长度来确定给定期间。
具备:第一功率谱计算部,计算关于所述输入信号的功率谱即输入信号功率谱以及所述学习用信号的功率谱即学习用功率谱,所述掩蔽信号是在一定区间之间取得的所述学习用功率谱的每个频带的最大值,所述最佳掩蔽信号按每个频带具有值,所述双端通话探测部基于按每个频带比较所述输入信号功率谱的值和所述最佳掩蔽信号的值而得到的结果,来探测是否是双端通话状态。由此,能够准确地探测双端通话状态。
具备:第二功率谱计算部,计算关于所述受话信号的功率谱即受话信号功率谱,所述掩蔽信号选择部按每个频带将所述受话信号功率谱的最大值和所述最佳掩蔽信号进行比较,来生成或者选择所述最佳掩蔽信号。由此,能够考虑受话信号的频率特性而适当地生成或者选择最佳掩蔽信号。
所述双端通话探测部按每个频带将所述输入信号功率谱和所述最佳掩蔽信号进行比较,在所述输入信号功率谱超过所述最佳掩蔽信号的频带数小于第一阈值的情况下,或者在所述输入信号功率谱超过所述最佳掩蔽信号的区域的积分值小于第二阈值的情况下,探测到未在所述受话侧信号路径中传递信号。由此,能够准确地探测近端发声。
为了解决上述课题,本发明所涉及的回波抑制方法例如特征在于,包括如下的步骤:基于学习用信号来生成以及存储作为一个或者多个掩蔽信号的基础掩蔽信号,所述学习用信号在未对近端终端的麦克风输入发声而从所述近端终端的扬声器输出声音时在送话侧信号路径中传输,所述送话侧信号路径传输从所述麦克风输入的信号;每当取得在向所述扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的所述受话信号和所述基础掩蔽信号,依次生成或者选择作为与从所述麦克风输入的输入信号的大小相应的大小的掩蔽信号的最佳掩蔽信号;若选择了所述最佳掩蔽信号,就基于对所述输入信号和所述最佳掩蔽信号进行比较的结果来依次探测是否是双端通话状态;以及在探测到未对所述麦克风输入发声且所述受话信号包括发声的情况下,对所述输入信号进行抑制回波的回波抑制处理。
为了解决上述课题,本发明所涉及的回波抑制程序是如下回波抑制程序,例如,设置于送话侧信号路径,该送话侧信号路径对从具有扬声器和麦克风的近端终端中的所述麦克风输入的信号进行传输,其特征在于,使计算机作为以下要素发挥功能:掩蔽信号存储部,存储基础掩蔽信号,该基础掩蔽信号是基于在未对所述麦克风输入发声而从所述扬声器输出声音时在所述送话侧信号路径中传输的学习用信号来生成的一个或者多个掩蔽信号;掩蔽信号选择部,每当取得在向所述扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的所述受话信号,来从所述基础掩蔽信号依次生成或者选择与所述受话信号的大小相应的最佳掩蔽信号;双端通话探测部,每当选择所述最佳掩蔽信号,就基于对从所述麦克风输入的输入信号和所述最佳掩蔽信号进行比较的结果,来依次探测是否为双端通话状态;以及回波抑制器,在通过所述双端通话探测部探测到未对所述麦克风输入发声且所述受话信号包括发声的情况下,依次对所述输入信号进行抑制回波的处理。
-发明效果-
根据本发明,即使在发声较小的情况下也能够探测发声并适当地抑制回波。
附图说明
图1是示意性地表示设置有第一实施方式所涉及的回波抑制装置1的语音通信系统100的图。
图2是表示回波抑制装置1的功能块的概略的图。
图3是表示在回波抑制装置1中生成掩蔽信号时的功能块的概略的图。
图4是时刻t1处的学习用功率谱的一例。
图5是输入了包括图4所示的学习用功率谱的多个学习用功率谱时的掩蔽信号的一例。
图6是表示受话等级不同的两个掩蔽信号的例子的图。
图7是表示没有近端发话时的受话信号与输入信号的关系的图,(A)表示受话信号,(B)表示输入信号。
图8是表示没有近端发话时的受话信号与输入信号的关系的图,(A)表示受话信号,(B)表示输入信号。
图9是示意性地表示在取得采样点的时间点以前的给定期间内取得的受话信号的每个频带的最大值与最佳掩蔽信号的关系的图。
图10是示意性地表示在取得采样点的时间点以前的给定期间内取得的受话信号的每个频带的最大值与最佳掩蔽信号的关系的图。
图11是示意性地表示基于按每个频带求出的受话信号的功率的总和来选择最佳掩蔽信号的例子的图。
图12是示意性地表示将输入信号功率谱的值与掩蔽信号的值进行比较的情形的图。
图13是示意性地表示将输入信号功率谱的值与掩蔽信号的值进行比较的情形的图。
图14是示意性地表示将输入信号功率谱的值与掩蔽信号的值进行比较的情形的图。
图15是表示回波抑制装置1依次降低回波的处理的流程的流程图。
图16是表示回波抑制装置2的功能块的概略的图。
图17是示意性地表示将受话信号的信号电平为阈值II以上时的输入信号功率谱的值与最佳掩蔽信号的值进行比较的情形的图。
图18是表示回波抑制装置3的功能块的概略的图。
图19是示意性地表示掩蔽信号选择部14A生成最佳掩蔽信号的处理的图。
图20是表示回波抑制装置4的功能块的概略的图。
图21是表示回波抑制装置5的功能块的概略的图。
图22是表示在回波抑制装置5中生成掩蔽信号时的功能块的概略的图。
图23是表示回波抑制装置5依次降低回波的处理的流程的流程图。
具体实施方式
以下,参照附图对本发明所涉及的回波抑制装置的实施方式进行详细说明。回波抑制装置是在语音通信系统中抑制在通话时产生的回波的装置。
<第一实施方式>
图1是示意性地表示设置有第一实施方式所涉及的回波抑制装置1的语音通信系统100的图。语音通信系统100主要具有:具有麦克风51以及扬声器52的终端50、2台移动电话53、54、扬声器放大器55以及回波抑制装置1。
语音通信系统100是利用终端50(近端终端)的近端说话者(位于近端侧的利用者A)与利用移动电话54(远端终端)的远端说话者(位于远端侧的利用者B)进行语音通信的系统。通过利用扬声器52扩音输出经由移动电话54输入的语音信号,并且,通过麦克风51对位于近端侧的利用者发出的语音进行集音并向移动电话54传输,利用者A能够在不抓着移动电话53的情况下进行扩音通话(免提通话)。移动电话53和移动电话54通过一般的电话线路连接。
回波抑制装置1设置在从终端50向移动电话53传输经由麦克风51输入的信号的送话侧信号路径中。
回波抑制装置1例如也可以构建为搭载于语音通信系统100内的通信终端等(例如车载装置、会议系统、移动终端)的专用板。此外,回波抑制装置1例如也可以主要由包括用于执行信息处理的CPU(Central Processing Unit:中央处理单元)等运算装置、RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)等存储装置的计算机系统以及软件(回波抑制程序)构成。回波抑制程序可以预先存储在作为内置于计算机等设备中的存储介质的HDD、具有CPU的微型计算机内的ROM等中,并从此处安装到计算机中。此外,回波抑制程序可以临时或者永久地保存(存储)在半导体存储器、存储卡、光盘、磁光盘、磁盘等的可移动存储介质中。
图2是表示回波抑制装置1的功能块的概略的图。回波抑制装置1在功能上主要具有回波除去部11、频率分析器(FFT部)12、19、掩蔽信号存储部13、掩蔽信号选择部14、双端通话探测部15、回波抑制器16和复原部(IFFT部)17。在图2中,上侧的信号路径是传输从麦克风51输入的输入信号的送话侧信号路径,下侧的信号路径是向扬声器52传输信号的受话侧信号路径。另外,回波抑制装置1的功能结构要素可以根据处理内容进一步分类为更多的结构要素,也可以由一个结构要素执行多个结构要素的处理。
回波除去部11例如使用自适应滤波器除去回波。回波除去部11根据被给予的过程更新滤波系数,根据在受话侧信号路径中传输的信号生成伪回波信号,并从在送话侧信号路径中传输的信号中减去伪回波信号,由此除去回波。另外,关于自适应滤波器已经是公知的,因此省略说明。
另外,在本实施方式中,将自适应滤波器应用于回波除去部11,但也可以将其他公知的回波除去技术应用于回波除去部11。此外,回波除去部11不是必须的,但通过使用除去了回波的一部分的学习用信号来生成掩蔽信号,如后面详细叙述的那样,即使在掩蔽信号的值变小、输入信号小的情况下,关于输入信号的功率谱(以下,称为输入信号功率谱)的值也容易超过掩蔽信号的值,能够更准确地探测有近端发声(利用者A(参照图1)的发声)这一情况,因此优选设置回波除去部11。
频率分析器(FFT部)12、19对信号进行快速傅里叶变换(FFT、Fast FourierTransform)。FFT部12对在送话侧信号路径中传输的信号、在此为通过了回波除去部11的信号进行快速傅立叶变换,FFT部19对在受话侧信号路径中传输的受话信号进行快速傅立叶变换。FFT部12、19求出将时间的函数变换为频率的函数的结果,作为每个频带i的X[i]。
掩蔽信号存储部13存储由掩蔽信号生成部18(参照图3)生成的掩蔽信号。以下,对掩蔽信号的生成进行详细说明。在回波抑制装置1进行抑制回波的处理之前,预先生成掩蔽信号。
图3是表示在回波抑制装置1中生成掩蔽信号时的功能块的概略的图。回波抑制装置1在功能上具有掩蔽信号生成部18。掩蔽信号的生成处理主要由掩蔽信号生成部18进行。
关于掩蔽信号的生成处理进行详细说明。首先,在回波除去部11中充分地结束自适应滤波器的学习之后,在没有近端发声的状况下,反复进行从扬声器52输出语音的远端侧的单侧发声(单端通话)。而且,将在单端通话时在送话侧信号路径中传输的信号作为学习用信号。在回波抑制装置1中,通过回波除去部11除去了回波的信号成为学习用信号。
学习用信号被输入到FFT部12。FFT部12对学习用信号进行快速傅里叶变换,并输入到掩蔽信号生成部18。掩蔽信号生成部18按每一定区间计算关于学习用信号的功率谱,求出多个学习用功率谱。在此,一定区间是任意决定的给定的时间区域,用时刻t1、t2、t3…表示。
另外,功率谱P[i]表示通过快速傅里叶变换求出的每个频率要素i的X[i]的功率作为频率要素的函数(参照数式(1))。
[数学式1]
P[i]=|X[i]|2=X[i]*X[i]···(1)
图4是时刻t1的学习用功率谱的一例。以下,将功率谱中的功率(纵轴的值)称为功率谱的值。功率谱的横轴为频率。掩蔽信号生成部18存储按每一定区间计算出的多个学习用功率谱。
掩蔽信号生成部18按每个频带取得多个学习用功率谱的值中的最大值,并将其作为掩蔽信号。图5是输入了包括图4所示的学习用功率谱的多个学习用功率谱时的掩蔽信号的一例。然后,掩蔽信号生成部18将生成的掩蔽信号输出到掩蔽信号存储部13,掩蔽信号存储部13存储掩蔽信号。
在本实施方式中,掩蔽信号生成部18变更学习用信号的大小(受话等级)而生成多个掩蔽信号。图6是表示受话等级不同的两个掩蔽信号的例子的图。图6中的实线是受话等级较大的情况、即回波能够较大地返回的情况下的掩蔽信号,图6中的虚线是受话等级较小的情况下的掩蔽信号。这样,掩蔽信号生成部18多次进行变更学习用信号的大小来生成掩蔽信号的处理,生成多个掩蔽信号。由此,能够针对每个受话等级准确地存储残留回波的频率特性。
另外,掩蔽信号生成部18生成且掩蔽信号存储部13存储的掩蔽信号的数量不限于两个,也可以是三个以上。以下,将掩蔽信号存储部13存储的多个掩蔽信号称为基础掩蔽信号。
返回图2的说明。从双端通话探测部15向掩蔽信号选择部14依次输入关于受话信号的功率谱(以下,称为受话信号功率谱)。掩蔽信号选择部14若被依次输入受话信号功率谱(取得了采样点),就基于取得采样点的时间点以前的给定期间内取得的受话信号,从基础掩蔽信号依次选择与受话信号的大小对应的掩蔽信号(以下,称为最佳掩蔽信号)。
在此,取得采样点的时间点以前的给定期间是以从受话信号变为0开始(从扬声器52不再输出声音)到输入信号的值成为0为止所需要的时间为基准求出的。该给定时间根据受话信号的大小而变化,在较短的情况下为数十m秒~数百m秒左右,在长的情况下为1秒~2秒左右。
图7、图8是表示没有近端发声(没有向麦克风51输入发声)时的受话信号与输入信号的关系的图,(A)表示受话信号,(B)表示输入信号。图7是受话信号的电平小的情况,图8表示受话信号的电平大的情况。
由于车内的声音的反射、扬声器52的振动等会从扬声器52成为声音而输出,因此即使没有近端发声,回波信号也作为输入信号而存在。在受话信号的电平较小的情况下,即使受话信号为0,输入信号也大致存在100m秒左右,在受话信号的电平较大的情况下,即使受话信号为0,输入信号也大致存在150m秒左右。因此,在本实施方式中,将给定时间设为大致100m秒~大致300m秒。
掩蔽信号选择部14基于在取得受话信号功率谱的采样点的时间点以前的大致100m秒~大致300m秒内取得的受话信号的功率的最大值来选择最佳掩蔽信号。
图9、图10是示意性地表示在取得采样点的时间点以前的给定期间内取得的受话信号功率谱的每个频带的最大值与最佳掩蔽信号的关系的图。在图9、10中,实线表示在给定期间内取得的受话信号频谱的最大值,点线表示基础掩蔽信号。在此,设存储三个掩蔽信号作为基础掩蔽信号。掩蔽信号选择部14按每个频带对受话信号的功率的最大值和基础掩蔽信号进行比较,在哪个频带中都选择与受话信号最接近的掩蔽信号作为最佳掩蔽信号,以使得掩蔽信号的值不小于受话信号的最大值。在图9所示的情况下,选择值最大的掩蔽信号(参照图9粗点线),在图10所示的情况下,选择中间值的掩蔽信号(参照图10粗点线)。由此,能够考虑受话信号的频率特性来选择最佳掩蔽信号。
另外,掩蔽信号选择部14也可以不是基于在取得受话信号功率谱的采样点的时间点以前的大致100m秒~大致300m秒内取得的受话信号的功率的最大值来选择最佳掩蔽信号,而是基于在取得受话信号功率谱的采样点的时间点以前的大致100m秒~大致300m秒内取得的受话信号的功率的总和、平均值来选择最佳掩蔽信号。
图11是示意性地表示基于按频带区别地求出的受话信号的功率的平均值来选择最佳掩蔽信号的例子的图。在图11中,实线的细线是受话信号的功率谱的最大值,实线的粗线是将受话信号的功率谱的最大值(在图9中的细线)按频带区别地加在一起(总和),将其除以频带而得到的平均值。换句话说,平均值与总和含义相同。此外,在图11中,点线是掩蔽信号。
掩蔽信号选择部14按每个频带将受话信号的平均值和掩蔽信号进行比较,选择与受话信号最接近的掩蔽信号作为最佳掩蔽信号,以使得掩蔽信号不会比受话信号的平均值小。在图11中,选择最小的值的掩蔽信号(参照图11的粗点线)。
另外,在基于按频带区别地求出的受话信号的功率的总和来选择最佳掩蔽信号的情况下,将按频带区别地求出的受话信号的功率的总和与基础掩蔽信号的功率的总和进行比较,选择与受话信号最接近的掩蔽信号作为最佳掩蔽信号,以使得掩蔽信号不会比受话信号的功率的总和小。这样,通过基于受话信号的功率的总和、平均值来选择最佳掩蔽信号,能够在仅一个频带中的功率突出的情况下降低其影响。
返回图2的说明。双端通话探测部15基于从FFT部12、19输入的频谱波形,分别按每单位时间计算输入信号功率谱以及受话信号功率谱。另外,FFT部12以及双端通话探测部15的一部分相当于本发明的第一功率谱计算部,FFT部19以及双端通话探测部15的一部分相当于本发明的第二功率谱计算部。
此外,每当由掩蔽信号选择部14选择最佳掩蔽信号时,双端通话探测部15就依次将输入信号功率谱的值和由掩蔽信号选择部14选择出的最佳掩蔽信号的值按每个频带进行比较。然后,双端通话探测部15基于比较结果来探测是否处于双端通话状态。双端通话探测部15在计算输入信号功率谱的每单位时间中执行探测是否是双端通话状态的处理。
以下,详细说明在双通话探测部15中探测是否为双端通话状态的方法。在此,所谓双端通话状态,是近端说话者(利用者A)以及远端说话者(利用者B)都正在发声的状态。
首先,双端通话探测部15按每个频带将输入信号功率谱的值与最佳掩蔽信号的值进行比较,对输入信号功率谱的值超过最佳掩蔽信号的值的频带的数量(以下,称为超过数)进行计数。双端通话探测部15求出超过数是否为预先准备的阈值I(相当于第一阈值)以下。另外,阈值I能够设定为任意的值。
图12、13分别是示意性地表示将输入信号功率谱的值与掩蔽信号的值进行比较的情形的图。在图12、13中,实线表示输入信号功率谱,虚线表示受话信号,一点划线表示掩蔽信号。
在图12所示的情况下,最近的给定期间内取得的受话信号大,选择值大的掩蔽信号作为最佳掩蔽信号。双端通话探测部15由于超过数为0,为阈值I(例如,阈值I=3)以下,因此探测到无近端发声。
在图13所示的情况下,最近的给定期间内取得的受话信号小,选择值小的掩蔽信号作为最佳掩蔽信号。由于超过数(参照图13的圆圈)为阈值I以上,因此双端通话探测部15探测出有近端发声。
此外,双端通话探测部15取得从移动电话53向终端50发送的受话信号的功率谱,求出其信号电平。从受话侧信号路径经由FFT部19取得受话信号的功率谱。双端通话探测部15将受话信号的信号电平与预先准备的阈值III进行比较。另外,阈值III能够设定为任意的值。
在受话信号的信号电平为预先准备的阈值III以上的情况下,双端通话探测部15探测到存在远端发声(利用者B(参照图1)的发声),受话信号包括发声。
这样,双端通话探测部15通过基于阈值I、III探测近端发声以及远端发声的有无,来探测是有近端发声以及远端发声的双端通话状态,还是仅近端发声的单端通话,还是仅远端发声的单端通话。
另外,双端通话探测部15探测近端发声的有无的方法不限于基于超过数是否为阈值I以上来进行的方法。例如,双端通话探测部15也可以求出输入信号功率谱的值超过掩蔽信号的值的部分的总和(积分值)是否为预先准备的阈值II(相当于第二阈值)以下,并基于该结果来探测近端发声的有无。另外,阈值II能够设定为任意的值。
图14是示意性地表示将输入信号功率谱的值与最佳掩蔽信号的值进行比较的情形的图。在图14中,实线表示输入信号功率谱,虚线表示受话信号,一点划线表示最佳掩蔽信号。此外,在图14中,在输入信号功率谱的值超过掩蔽信号的值的部分,以斜线进行阴影显示。双端通话探测部15求出阴影部分的面积。在图14中,由于输入信号功率谱的值超过掩蔽信号的值的部分的面积为阈值III以上,因此探测出信号正在送话侧信号路径中传输(有近端发声)。
返回图2的说明。回波抑制器16对通过FFT部12的输入信号进行回波抑制处理(强烈地抑制回波的处理)。回波抑制器16在仅远端发声的单端通话的情况下,使回波抑制处理有效,在其他情况下使回波抑制处理无效。回波抑制处理已经是公知的,因此省略详细的说明。
另外,在本实施方式中,回波抑制器16在仅远端发声的单端通话以外的情况下使回波抑制处理无效地切换回波抑制处理的开启/关闭,但也可以切换回波抑制处理的强弱。例如,可以在仅远端发声的单端通话的情况下,强烈地抑制回波,并且在其它情况下,较弱地抑制回波。
每单位时间从双端通话探测部15向回波抑制器16输入探测是否为双端通话状态的结果。因此,回波抑制器16每单位时间切换使回波抑制处理有效或无效。
IFFT部17对通过FFT部12的输入信号进行逆FFT(IFFT,Inverse FFT)。
图15是表示回波抑制装置1依次降低回波的处理的流程的流程图。在受话信号以及输入信号被输入到回波抑制装置1的期间,每给定时间连续地进行该处理。
首先,回波除去部11从输入信号中除去回波(步骤S11),并且双端通话探测部15计算除去了回波的输入信号的功率谱(步骤S12)。此外,双端通话探测部15计算受话信号功率谱(步骤S13),掩蔽信号选择部14基于受话信号功率谱从基础掩蔽信号中选择最佳掩蔽信号(步骤S14)。另外,也可以同时进行步骤S11或者步骤S12、和步骤S13。
接下来,双端通话探测部15基于在步骤S12中计算出的输入信号功率谱以及在步骤S13中计算出的受话信号功率谱来探测是否为双端通话状态(步骤S15)。而且,回波抑制器16在仅是远端发声的单端通话而不是双端通话状态的情况下,对在步骤S12中计算出的输入信号功率谱进行回波抑制处理(步骤S16)。最后,IFFT部17使输入信号功率谱返回时间轴信号(步骤S17)。
根据本实施方式,着眼于近端发声带来的输入信号与远端发声的残留回波具有不同的频率特性这点,将残留回波的频率特性作为掩蔽信号进行存储,通过对输入信号的频率特性与掩蔽信号进行比较来准确地探测双端通话状态,在不是双端通话状态时有效地进行回波抑制处理,从而能够不使近端语音(从麦克风51输入的语音)劣化,可靠地抑制回波。
此外,根据本实施方式,由于根据受话信号的大小来改变掩蔽信号的大小,所以即使在发声较小的情况下也能够探测发声并适当地抑制回波。
例如,在仅使用设想受话信号较大时生成的掩蔽信号的情况下,在位于麦克风侧的利用者(近端说话者)的发声较小并且受话信号较大时,回波抑制器会强烈地作用于在受话侧信号路径中传输的输入信号,近端说话者的声音有可能消失。与此相对,在本实施方式中,变更学习用信号的大小来生成多个掩蔽信号,从其中选择最接近受话信号的掩蔽信号作为最佳掩蔽信号,即,使用与可能产生的回波的大小匹配的最佳掩蔽信号来准确地探测双端通话状态,因此,在发声较小的情况下也能够探测发声,并且能够防止回波抑制器必要以上地发挥作用。
此外,例如,在远端说话者(利用者B)是呼叫中心的情况下,存在与利用者B相邻的说话者的声音进入受话信号的情况。在这样的情况下,由于较小的受话信号持续,因此凭借设想受话信号较大时生成的掩蔽信号无法适当地探测双端通话状态。与此相对,在本实施方式中,由于使用与受话信号的大小匹配的最佳掩蔽信号来准确地探测双端通话状态,所以在这样的状况下也能够应对。
此外,根据本实施方式,掩蔽信号选择部14若被依次输入了受话信号功率谱,就基于在取得到采样点的时间点以前的给定期间内取得到的受话信号,从基础掩蔽信号依次选择最佳掩蔽信号,因此能够在不频繁地改变回波抑制器的起效方式的情况下确保稳定的通话。
由于移动电话53与移动电话54通过一般的电话线路连接,因此根据通信状态,从扬声器52输出的声音的大小(受话信号的大小)频繁地变化。在仅基于取得到采样点的时间点的受话信号的大小来选择最佳掩蔽信号的情况下,由于受话信号的大小频繁地变化,因此会频繁地切换掩蔽信号,其结果,远端说话者有可能难以听到近端说话者的声音。与此相对,通过基于在取得了样本点的时间点以前的给定期间内取得的受话信号来选择最佳掩蔽信号,能够防止频繁地切换掩蔽信号,通话的品质稳定。
此外,即使在没有从受话侧输入信号的情况下,有时声音也会在车内反射,或者由于扬声器52的振动等而从扬声器52输出声音。在这样的情况下,如果仅基于取得采样点的时间点的受话信号的大小来选择最佳掩蔽信号,则由于受话信号为0,因此回波抑制器16不发挥功能,无法消除回波。与此相对,通过基于在取得采样点的时间点以前的给定期间内取得的受话信号来选择最佳掩蔽信号,能够包括以前的状态来选择最佳掩蔽信号,能够消除因车内的声音的反射、扬声器52的振动等从扬声器52成为声音而输出的回波。
另外,在本发明的方式中,掩蔽信号选择部14在基于在取得受话信号的采样点的时间点以前的给定期间内取得的受话信号选择最佳掩蔽信号时,将给定期间预先决定为大致100m秒~大致300m秒,但给定期间的值以及给定时间的决定方法不限于此。例如,掩蔽信号生成部18也可以在生成掩蔽信号时,测定从受话信号成为0起到输入信号成为0为止的时间,并基于该测定出的时间来决定给定时间。由此,能够根据由受话信号产生的回波的长度来确定给定期间。
此外,在本发明的方式中,掩蔽信号生成部18变更学习用信号的大小来生成多个掩蔽信号,但掩蔽信号生成部18生成的掩蔽信号的种类不限于此。例如,掩蔽信号生成部18也可以生成仅将由车内的声音的反射、扬声器52的振动等从扬声器52成为声音而输出所引起的回波信号作为输入信号输入时的掩蔽信号。此时,掩蔽信号生成部18在回波除去部11中充分地结束自适应滤波器的学习之后,将在仅产生了车内的声音的反射、扬声器52的振动等从扬声器52成为声音而输出所引起的回波信号的状态下在送话侧信号路径中传输的信号(参照图7、图8的(B))作为学习用信号,按每个频带取得学习用功率谱的值中的最大值,将其作为掩蔽信号。
然后,掩蔽信号选择部14依次取得受话信号以及输入信号的功率谱,若取得了各个采样点,就基于在取得采样点的时间点以前的给定期间内取得的受话信号以及输入信号,从基础掩蔽信号依次选择最佳掩蔽信号。例如,在受话信号为0且输入信号小的状态持续几毫秒的情况下,掩蔽信号选择部14选择与仅产生了因车内的声音的反射、扬声器52的振动等从扬声器52成为声音而输出所引起的回波信号的状态对应的掩蔽信号,作为最佳掩蔽信号。由此,能够适当地消除由于车内的声音的反射、扬声器52的振动等从扬声器52成为声音而输出所引起的回波信号。
<第二实施方式>
第二实施方式是按每个频带进行双端通话状态的探测的方式。以下,对第二实施方式所涉及的回波抑制装置2进行说明。另外,对于与第一实施方式所涉及的回波抑制装置1相同的部分,标注相同的附图标记,并省略说明。
图16是表示回波抑制装置2的功能块的概略的图。回波抑制装置2主要具有回波除去部11、FFT部12、19、掩蔽信号存储部13、掩蔽信号选择部14、双端通话探测部15A、回波抑制器16A、IFFT部17以及掩蔽信号生成部18(省略图示)。
双端通话探测部15A针对每个频带探测是否是双端通话状态。另外,双端通话探测部15A在计算出输入信号功率谱的每单位时间依次进行探测是否是双端通话状态的处理。
以下,将详细叙述在双端通话探测部15A中探测是否是双端通话状态的方法。首先,双端通话探测部15A按每个频带将从FFT部12输入的输入信号功率谱的值与由掩蔽信号选择部14选择的最佳掩蔽信号的值进行比较。
此外,双端通话探测部15A取得从移动电话53向终端发送的受话信号,求出其信号电平。双端通话探测部15A对受话信号的信号电平与阈值II进行比较。
而且,关于输入信号功率谱的值未超过最佳掩蔽信号的值的频带,在受话信号的信号电平为阈值II以上的情况下,双端通话探测部15A探测出是仅远端发声的单端通话,不是双端通话状态。
图17是示意性地表示将受话信号的信号电平为阈值II以上时的输入信号功率谱的值与最佳掩蔽信号的值进行比较的情形的图。在图17中,实线表示输入信号功率谱,虚线表示最佳掩蔽信号。
在图17的实线的圆圈所包围的频带中,输入信号功率谱的值超过最佳掩蔽信号的值。因此,关于该频带,双端通话探测部15A探测出有远端发声且有近端发声、即是双端通话状态。
与此相对,在图17的点线的圆圈所包围的频带中,输入信号功率谱的值不超过最佳掩蔽信号的值。因此,关于该频带,双端通话探测部15A探测出有远端发声但无近端发声的仅远端发声的单端通话,即不是双端通话状态。
返回到图16的说明。回波抑制器16A对通过FFT部12的输入信号进行回波抑制处理。回波抑制器16A关于探测到仅远端发声的单端通话的频带,使回波抑制处理有效,关于其他频带,使回波抑制处理无效。回波抑制器16A按每单位时间切换使回波抑制处理有效或者无效。
根据本实施方式,能够针对每个频带准确地探测双端通话状态,针对每个频带有效地进行回波抑制处理。
<第三实施方式>
第三实施方式是如下方式:掩蔽信号存储部保持一个基础掩蔽信号,由掩蔽信号选择部生成最佳掩蔽信号。以下,对第三实施方式所涉及的回波抑制装置3进行说明。另外,关于与第一、第二实施方式所涉及的回波抑制装置1、2相同的部分,标注相同的附图标记,并省略说明。
图18是表示回波抑制装置3的功能块的概略的图。回波抑制装置3主要具有回波除去部11、FFT部12、19、掩蔽信号存储部13A、掩蔽信号选择部14A、双端通话探测部15、回波抑制器16、IFFT部17以及掩蔽信号生成部18(省略图示)。
掩蔽信号生成部18基于关于由FFT部12计算出的学习用信号的功率谱生成掩蔽信号,并存储所生成的掩蔽信号。掩蔽信号生成部18仅生成设想受话侧信号路径的信号较大时生成的掩蔽信号(参照图5),仅将该掩蔽信号作为基础掩蔽信号存储于掩蔽信号存储部13A。
掩蔽信号选择部14A基于在取得到受话信号功率谱的采样点的时间点以前的给定期间内取得到的受话信号的功率的最大值,对基础掩蔽信号乘以系数,由此生成最佳掩蔽信号。
图19是示意性地表示掩蔽信号选择部14A生成最佳掩蔽信号的处理的图。在图19中,实线表示在给定期间内取得的受话信号频谱的最大值,点线表示基础掩蔽信号。掩蔽信号选择部14A按每个频带对受话信号的功率的最大值和基础掩蔽信号进行比较,对基础掩蔽信号乘以系数,从而生成最佳掩蔽信号,以使得在哪个频带中,都是最佳掩蔽信号的值不小于受话信号的最大值,并且,最佳掩蔽信号接近受话信号的最大值。在图18所示的例子中,掩蔽信号选择部14A对基础掩蔽信号的各频带的功率乘以系数0.3而生成最佳掩蔽信号。由此,能够考虑受话信号的频率特性而生成最佳掩蔽信号。
根据本实施方式,不需要存储多个基础掩蔽信号,能够减少使用的存储器。本实施方式在不依赖于受话信号的大小而掩蔽信号的形状类似时是有效的。
另外,在本实施方式中,无论频带如何,掩蔽信号选择部14A都对基础掩蔽信号的各频带的功率乘以任意的系数来生成最佳掩蔽信号,但也可以对每个频带改变与基础掩蔽信号相乘的系数。例如,可以随着频带增大而减小系数。在该情况下,将表示频带的大小与系数的关系的式子保持于掩蔽信号存储部13A,掩蔽信号选择部14A基于任意频率下的系数和表示频带的大小与系数的关系的式子来求出各频带中的系数即可。由此,能够生成进一步反映了受话信号的频率特性的最佳掩蔽信号。
<第四实施方式>
第四实施方式是不使用FFT部19的方式。以下,对第四实施方式所涉及的回波抑制装置4进行说明。另外,对于与第一实施方式~第三实施方式所涉及的回波抑制装置1~3相同的部分,标注相同的附图标记,并省略说明。
图20是表示回波抑制装置4的功能块的概略的图。回波抑制装置4主要具有回波除去部11、FFT部12、掩蔽信号存储部13、掩蔽信号选择部14B、双端通话探测部15、回波抑制器16、IFFT部17以及掩蔽信号生成部18(省略图示)。
向掩蔽信号选择部14B依次输入受话信号。掩蔽信号选择部14若被依次输入了受话信号(取得了采样点),就基于在取得采样点的时间点以前的给定期间内取得的受话信号,从基础掩蔽信号依次选择与受话信号的大小对应的掩蔽信号(以下,称为最佳掩蔽信号)。
在本实施方式中,由于不使用FFT部19,所以对掩蔽信号选择部14B输入不按每个频带分开的受话信号的功率。然后,掩蔽信号选择部14A将在一定时间期间输入的受话信号的功率的总和与掩蔽信号的每个频带的功率的总和进行比较。然后,掩蔽信号选择部14B选择在掩蔽信号存储部13中存储的基础掩蔽信号中的、受话信号的功率的总和比掩蔽信号的功率的总和小、并且掩蔽信号的功率的总和最接近受话信号的功率的总和的掩蔽信号,作为最佳掩蔽信号。
双端通话探测部15B对从回波除去部11输入的输入信号功率谱与掩蔽信号选择部14C所选择的最佳掩蔽信号的值进行比较,对输入信号功率谱的值超过最佳掩蔽信号的值的频带的数量(超过数)进行计数。而且,双端通话探测部15B在超过数为任意的阈值以下的情况下探测出无近端发声。
此外,双端通话探测部15B将受话信号的大小与预先准备的阈值进行比较。双端通话探测部15在受话信号的大小为预先准备的阈值以上的情况下,探测出有远端发声(利用者B(参照图1)的发声)、探测信号正在受话侧信号路径中传输。
根据本实施方式,能够减少掩蔽信号的选择处理的运算量。
<第五实施方式>
第五实施方式是不使用FFT部12、19的方式。以下,对第五实施方式所涉及的回波抑制装置5进行说明。另外,对于与第一实施方式~第四实施方式所涉及的回波抑制装置1~4相同的部分,标注相同的附图标记并省略说明。
图21是表示回波抑制装置5的功能块的概略的图。图22是表示在回波抑制装置5中生成掩蔽信号时的功能块的概略的图。回波抑制装置5主要具有回波除去部11、掩蔽信号存储部13B、掩蔽信号选择部14C、双端通话探测部15C、回波抑制器16B以及掩蔽信号生成部18A。
首先,使用图22对掩蔽信号的生成处理进行详细说明。首先,在回波除去部11中充分地结束自适应滤波器的学习之后,在未从麦克风51输入声音的状况下,反复进行从扬声器52输出声音的远端侧的单侧发声(单端通话)。而且,将通过回波除去部11除去了回波的信号作为学习用信号。
将每一定区间计算出的学习用信号的功率(学习用功率)输入到掩蔽信号生成部18A。掩蔽信号生成部18A存储所输入的多个学习用功率。掩蔽信号生成部18A取得所输入的多个学习用功率的值中的最大值,并将其作为掩蔽信号。因此,所生成的掩蔽信号仅具有一个值。
在本实施方式中,掩蔽信号生成部18A多次进行变更学习用信号的大小(受话等级)而生成多个掩蔽信号的处理,生成多个掩蔽信号。由此,能够针对每个受话等级准确地存储残留回波的大小。
返回到图21的说明。掩蔽信号存储部13B将由掩蔽信号生成部18A生成的多个掩蔽信号作为基础掩蔽信号进行存储。
对掩蔽信号选择部14C依次输入受话信号。掩蔽信号选择部14C若被依次输入了受话信号功率谱(取得了采样点),就基于在取得采样点的时间点以前的给定期间内取得的受话信号,从基础掩蔽信号依次选择与受话信号的大小相应的掩蔽信号(以下,称为最佳掩蔽信号)。
在本实施方式中,由于不使用FFT部19,所以对掩蔽信号选择部14C输入不按每个频带分开的受话信号的功率。掩蔽信号选择部14C将在一定时间内输入的受话信号的功率的总和与掩蔽信号的功率进行比较。然后,掩蔽信号选择部14C选择在掩蔽信号存储部13B中存储的基础掩蔽信号中的、受话信号的功率的总和比掩蔽信号的功率小、且掩蔽信号的功率的总和最接近受话信号的功率的总和的掩蔽信号作为最佳掩蔽信号。
例如,在掩蔽信号存储部13B中存储有三个掩蔽信号(受话等级为3时的第一掩蔽信号、受话等级为6时的第二掩蔽信号、受话等级为9时的第三掩蔽信号),在输入到掩蔽信号选择部14C的受话信号的功率为2的情况下,掩蔽信号选择部14C选择第一掩蔽信号作为最佳掩蔽信号。此外,例如,在输入到掩蔽信号选择部14C的受话信号的功率为4的情况下,掩蔽信号选择部14C选择第二掩蔽信号作为最佳掩蔽信号。
双端通话探测部15C将从回波除去部11输入的输入信号的大小与掩蔽信号选择部14C选择出的最佳掩蔽信号的值进行比较,在输入信号的大小大于最佳掩蔽信号的值的情况下,探测为有近端发声。
此外,双端通话探测部15C将受话信号的大小与预先准备的阈值进行比较。双端通话探测部15C在受话信号的大小为预先准备的阈值以上的情况下,探测为有远端发声。
回波抑制器16B在是仅远端发声的单端通话而不是双端通话状态的情况下,对通过了回波除去部11的输入信号使回波抑制处理为有效,在其他情况下使回波抑制处理无效。
图23是表示回波抑制装置5依次降低回波的处理的流程的流程图。在受话信号以及输入信号被输入到回波抑制装置1的期间,每给定时间连续地进行该处理。
首先,回波除去部11从输入信号除去回波(步骤S11),掩蔽信号选择部14基于受话信号的功率从基础掩蔽信号中选择最佳掩蔽信号(步骤S18)。
接下来,双端通话探测部15基于在步骤S11中除去了回波的输入信号的功率以及受话信号的功率,来探测是否为双端通话状态(步骤S19)。而且,回波抑制器16在仅远端发声的单端通话的情况下,对在步骤S11中除去了回波的输入信号进行回波抑制处理(步骤S20)。
根据本实施方式,由于不进行FFT处理以及IFFT处理,所以能够削减运算量。
以上,参照附图对本发明的实施方式进行了详细叙述,但具体的结构不限于该实施方式,也包括不脱离本发明的主旨的范围的设计变更等。特别是,在实施方式中,基于由振幅的平方表示的功率来进行基础掩蔽信号的生成、最佳掩蔽信号的生成、选择、双端通话状态的探测等,但这些处理也可以基于振幅的绝对值来进行。
-附图标记说明-
1、2、3、4、5:回波抑制装置
11:回波除去部
12:FFT部
13、13A、13B:掩蔽信号存储部
14、14A、14B、14C:掩蔽信号选择部
15、15A、15B:双端通话探测部
16、16A、16B:回波抑制器
17:IFFT部
18、18A:掩蔽信号生成部
19:FFT部
50:终端
51:麦克风
52:扬声器
53、54:移动电话
55:扬声器放大器
100:语音通信系统。
Claims (9)
1.一种回波抑制装置,设置于送话侧信号路径,该送话侧信号路径对从具有扬声器和麦克风的近端终端中的所述麦克风输入的输入信号进行传输,其特征在于,具备:
掩蔽信号存储部,存储基础掩蔽信号,该基础掩蔽信号是基于在未对所述麦克风输入发声而从所述扬声器输出声音时在所述送话侧信号路径中传输的学习用信号来生成的一个或者多个掩蔽信号;
掩蔽信号选择部,每当取得在向所述扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的所述受话信号,从所述基础掩蔽信号依次生成或者选择与所述受话信号的大小相应的最佳掩蔽信号;
双端通话探测部,每当生成或者选择所述最佳掩蔽信号,就基于对所述输入信号和所述最佳掩蔽信号进行比较的结果依次探测是否为双端通话状态;以及
回波抑制器,在通过所述双端通话探测部探测到未对所述麦克风输入发声且所述受话信号包括发声的情况下,依次对所述输入信号进行抑制回波的处理。
2.根据权利要求1所述的回波抑制装置,其中,
所述回波抑制装置具备:掩蔽信号生成部,变更所述学习用信号的大小来生成多个掩蔽信号,
所述掩蔽信号存储部将所述掩蔽信号生成部生成的多个掩蔽信号作为所述基础掩蔽信号进行存储,
所述掩蔽信号选择部基于所述输入信号的大小从所述基础掩蔽信号中选择所述最佳掩蔽信号。
3.根据权利要求1所述的回波抑制装置,其中,
所述回波抑制装置具备:掩蔽信号生成部,基于所述学习用信号来生成一个掩蔽信号,
所述掩蔽信号存储部将所述掩蔽信号生成部生成的一个掩蔽信号作为所述基础掩蔽信号进行存储,
所述掩蔽信号选择部基于所述输入信号的大小,对所述基础掩蔽信号乘以系数,由此生成所述最佳掩蔽信号。
4.根据权利要求1~3中任一项所述的回波抑制装置,其中,
所述回波抑制装置具备:信号测定部,在从未对所述麦克风输入发声而从所述扬声器输出声音的状态转变为未对所述麦克风输入发声且未从所述扬声器输出声音的状态时,测定信号不再在所述送话侧信号路径中传输的时间即第一时间,
所述掩蔽信号选择部将所述第一时间作为所述给定期间来依次生成或者选择所述最佳掩蔽信号。
5.根据权利要求1~4中任一项所述的回波抑制装置,其中,
所述回波抑制装置具备:第一功率谱计算部,计算关于所述输入信号的功率谱即输入信号功率谱以及所述学习用信号的功率谱即学习用功率谱,
所述掩蔽信号是在一定区间之间取得的所述学习用功率谱的每个频带的最大值,
所述最佳掩蔽信号按每个频带具有值,
所述双端通话探测部基于按每个频带比较所述输入信号功率谱的值和所述最佳掩蔽信号的值而得到的结果,来探测是否是双端通话状态。
6.根据权利要求5所述的回波抑制装置,其中,
所述回波抑制装置具备:第二功率谱计算部,计算关于所述受话信号的功率谱即受话信号功率谱,
所述掩蔽信号选择部按每个频带将所述受话信号功率谱的最大值和所述最佳掩蔽信号进行比较,生成或者选择所述最佳掩蔽信号。
7.根据权利要求5或者6所述的回波抑制装置,其中,
所述双端通话探测部按每个频带将所述输入信号功率谱和所述最佳掩蔽信号进行比较,在所述输入信号功率谱超过所述最佳掩蔽信号的频带数小于第一阈值的情况下,或者在所述输入信号功率谱超过所述最佳掩蔽信号的区域的积分值小于第二阈值的情况下,探测为未对所述麦克风输入发声。
8.一种回波抑制方法,其特征在于,包括如下步骤:
基于学习用信号来生成以及存储作为一个或者多个掩蔽信号的基础掩蔽信号,所述学习用信号在未对近端终端的麦克风输入发声而从所述近端终端的扬声器输出声音时在送话侧信号路径中传输,所述送话侧信号路径传输从所述麦克风输入的信号;
每当取得在向所述扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的所述受话信号和所述基础掩蔽信号,依次生成或者选择作为与从所述麦克风输入的输入信号的大小相应的大小的掩蔽信号的最佳掩蔽信号;
若选择了所述最佳掩蔽信号,就基于对所述输入信号和所述最佳掩蔽信号进行比较的结果来依次探测是否是双端通话状态;以及
在探测到未对所述麦克风输入发声且所述受话信号包括发声的情况下,对所述输入信号进行抑制回波的回波抑制处理。
9.一种回波抑制程序,设置于送话侧信号路径,该送话侧信号路径对从具有扬声器和麦克风的近端终端中的所述麦克风输入的信号进行传输,其特征在于,
使计算机作为以下要素发挥功能:
掩蔽信号存储部,存储基础掩蔽信号,该基础掩蔽信号是基于在未对所述麦克风输入发声而从所述扬声器输出声音时在所述送话侧信号路径中传输的学习用信号来生成的一个或者多个掩蔽信号;
掩蔽信号选择部,每当取得在向所述扬声器传输信号的受话侧信号路径中传输的受话信号的采样点,就基于在取得该采样点的时间点以前的给定期间内取得的所述受话信号,来从所述基础掩蔽信号依次生成或者选择与所述受话信号的大小相应的最佳掩蔽信号;
双端通话探测部,每当生成或者选择所述最佳掩蔽信号,就基于对从所述麦克风输入的输入信号和所述最佳掩蔽信号进行比较的结果,来依次探测是否为双端通话状态;以及
回波抑制器,在通过所述双端通话探测部探测到未对所述麦克风输入发声且所述受话信号包括发声的情况下,依次对所述输入信号进行抑制回波的处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-071463 | 2020-04-13 | ||
JP2020071463A JP7382273B2 (ja) | 2020-04-13 | 2020-04-13 | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
PCT/JP2021/014808 WO2021210473A1 (ja) | 2020-04-13 | 2021-04-07 | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115053460A true CN115053460A (zh) | 2022-09-13 |
Family
ID=78079895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180013053.5A Pending CN115053460A (zh) | 2020-04-13 | 2021-04-07 | 回波抑制装置、回波抑制方法以及回波抑制程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230079749A1 (zh) |
EP (1) | EP4138307A4 (zh) |
JP (1) | JP7382273B2 (zh) |
CN (1) | CN115053460A (zh) |
WO (1) | WO2021210473A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0847180A1 (en) * | 1996-11-27 | 1998-06-10 | Nokia Mobile Phones Ltd. | Double talk detector |
JP4105681B2 (ja) | 2004-06-16 | 2008-06-25 | 日本電信電話株式会社 | エコーサプレス方法、エコーサプレッサ、エコーサプレッサプログラム、通信路上の損失量制御方法、通信路上の損失量制御装置、通信路上の損失量制御プログラム、記録媒体 |
JP4978352B2 (ja) | 2007-07-11 | 2012-07-18 | ヤマハ株式会社 | エコーキャンセラ |
JP6833616B2 (ja) | 2017-05-29 | 2021-02-24 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
-
2020
- 2020-04-13 JP JP2020071463A patent/JP7382273B2/ja active Active
-
2021
- 2021-04-07 WO PCT/JP2021/014808 patent/WO2021210473A1/ja unknown
- 2021-04-07 US US17/801,955 patent/US20230079749A1/en active Pending
- 2021-04-07 EP EP21788431.1A patent/EP4138307A4/en active Pending
- 2021-04-07 CN CN202180013053.5A patent/CN115053460A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4138307A1 (en) | 2023-02-22 |
JP2021168455A (ja) | 2021-10-21 |
US20230079749A1 (en) | 2023-03-16 |
JP7382273B2 (ja) | 2023-11-16 |
EP4138307A4 (en) | 2023-07-26 |
WO2021210473A1 (ja) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4624503B2 (ja) | 音声源を検出する装置及び方法 | |
CN101719969B (zh) | 判断双端对话的方法、系统以及消除回声的方法和系统 | |
US7826799B2 (en) | System for calibrating a hands-free system | |
US6868158B2 (en) | Echo processing apparatus | |
US6510224B1 (en) | Enhancement of near-end voice signals in an echo suppression system | |
KR101262381B1 (ko) | 네트워크 종속 신호 처리 | |
JP6833616B2 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
US11375066B2 (en) | Echo suppression device, echo suppression method, and echo suppression program | |
JPWO2007083349A1 (ja) | エコー消去装置 | |
JP2009094802A (ja) | 通信装置 | |
CN115053460A (zh) | 回波抑制装置、回波抑制方法以及回波抑制程序 | |
EP3952335A1 (en) | Echo suppression device, echo suppression method, and echo suppression program | |
KR19990080327A (ko) | 계층적 구조의 적응반향 제거장치 | |
US20030235293A1 (en) | Adaptive system control | |
EP4319192A1 (en) | Echo suppressing device, echo suppressing method, and echo suppressing program | |
RU2799561C2 (ru) | Устройство эхоподавления, способ эхоподавления и программа эхоподавления | |
KR100890708B1 (ko) | 잔류 잡음 제거 장치 및 방법 | |
JPH11298382A (ja) | ハンズフリー装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40073190 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |