JP2017123554A - Speech apparatus and audio signal correction program - Google Patents
Speech apparatus and audio signal correction program Download PDFInfo
- Publication number
- JP2017123554A JP2017123554A JP2016001367A JP2016001367A JP2017123554A JP 2017123554 A JP2017123554 A JP 2017123554A JP 2016001367 A JP2016001367 A JP 2016001367A JP 2016001367 A JP2016001367 A JP 2016001367A JP 2017123554 A JP2017123554 A JP 2017123554A
- Authority
- JP
- Japan
- Prior art keywords
- conduction sound
- bone conduction
- signal
- sound signal
- transfer characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は、通話装置及び音声信号補正プログラム The present invention relates to a call device and an audio signal correction program.
携帯電話端末等の通話装置は、音声信号を気導音として出力(放射)するレシーバと、通話装置の周囲を伝播する気導音を収音するマイクロフォン(以下「マイク」という)とを備える。通話装置は、他の通話装置との呼接続が確立された状態では、レシーバにより他の通話装置から受信した音声信号(受話信号)を出力するとともに、マイクで収音した気導音の音声信号(送話信号)を他の通話装置に送信する。そのため、一方の通話装置における送話信号は、当該通話装置のレシーバから出力した音声を含んでいることがある。レシーバから出力した音声を含む音声信号が一方の通話装置から他方の通話装置に送信されると、エコーが発生して通話品質が劣化する。 A communication device such as a mobile phone terminal includes a receiver that outputs (radiates) an audio signal as air conduction sound, and a microphone that collects air conduction sound that propagates around the communication device (hereinafter referred to as a “microphone”). In a state in which a call connection with another call device is established, the call device outputs an audio signal (received signal) received from the other call device by the receiver and an air conduction sound signal picked up by the microphone. (Transmission signal) is transmitted to another communication device. For this reason, the transmission signal in one of the communication devices may include sound output from the receiver of the communication device. When a voice signal including voice output from the receiver is transmitted from one call device to the other call device, echo is generated and the call quality deteriorates.
エコーによる通話品質の劣化を防ぐ技術として、レシーバからマイクへの気導音の伝達特性に基づいてマイクから入力された音声信号に含まれるエコー成分を抑圧する技術が知られている。エコー成分は、エコーの発生原因となる成分である。エコー成分を抑圧する際には、レシーバからマイクへの音の伝達特性を示す伝達係数と受話信号とから擬似エコー信号を生成し、擬似エコー信号と送話信号とに基づいて残留信号を生成する(例えば、特許文献1を参照)。 As a technique for preventing deterioration of call quality due to echo, a technique for suppressing an echo component included in a voice signal input from a microphone based on a transfer characteristic of air conduction sound from the receiver to the microphone is known. The echo component is a component that causes an echo to occur. When suppressing the echo component, a pseudo echo signal is generated from the transmission coefficient indicating the transmission characteristic of the sound from the receiver to the microphone and the received signal, and a residual signal is generated based on the pseudo echo signal and the transmitted signal. (For example, see Patent Document 1).
また、伝達特性に基づいてエコー成分を抑圧する際に、レシーバから出力させる受話信号とマイクから入力された送話信号とに基づいて伝達特性を学習することにより、送話信号に含まれるエコー成分を適切に抑圧する技術が知られている。 Further, when suppressing the echo component based on the transfer characteristic, the echo component included in the transmission signal is learned by learning the transfer characteristic based on the reception signal output from the receiver and the transmission signal input from the microphone. A technique for appropriately suppressing the above is known.
更に、マイクから入力された送話信号に通話装置の利用者の音声が含まれる場合には伝達特性を学習しないようにすることで、誤った伝達特性の学習を防ぎエコー成分の抑圧性能の低下を防止する技術が知られている(例えば、特許文献2を参照)。 In addition, when the voice signal input from the microphone contains the voice of the user of the telephone device, learning of the transfer characteristic is prevented to prevent erroneous transfer characteristic learning and the echo component suppression performance is reduced. A technique for preventing this is known (see, for example, Patent Document 2).
マイクで気導音を収音する通話装置では、利用者の発した音声(気導音)が小さい等の理由により、利用者が発話しているにもかかわらずマイクから入力された音声信号に含まれる利用者の音声が検出されないことがある。そのため、マイクから入力された音声信号に利用者の音声が含まれる場合には伝達特性を学習しない通話装置においても、利用者の音声を含む音声信号に基づいて誤った伝達特性を学習してしまいエコー成分の抑圧性能が低下することがある。 In a call device that collects air conduction sound with a microphone, the voice signal (air conduction sound) emitted by the user is low, and the sound signal input from the microphone is not processed even though the user is speaking. The contained user's voice may not be detected. For this reason, when a voice signal input from a microphone includes a user's voice, a call device that does not learn a transfer characteristic learns an incorrect transfer characteristic based on the voice signal including the user's voice. The echo component suppression performance may be reduced.
1つの側面において、本発明は、通話時に誤った伝達特性を学習することによるエコーの発生や送話音質の劣化を防止することを目的とする。 In one aspect, an object of the present invention is to prevent generation of echoes and deterioration of transmission sound quality due to learning of erroneous transfer characteristics during a call.
1つの態様の通話装置は、レシーバと、第1のマイクと、第2のマイクと、エコー抑圧部と、伝達特性学習部と、を備える。レシーバは、音声信号を気導音として出力する。第1のマイクは気導音を収音し、第2のマイクは骨導音を収音する。エコー抑圧部は、レシーバから第1のマイクへの音声の伝達特性に基づいて第1のマイクから入力された気導音信号に含まれるエコー成分を抑圧する。伝達特性学習部は、第2のマイクから入力された骨導音信号の入力レベルが所定の閾値以下である場合に、レシーバから出力させる受話信号、及び気導音信号に基づいて伝達特性を学習する。 The telephone device according to one aspect includes a receiver, a first microphone, a second microphone, an echo suppression unit, and a transfer characteristic learning unit. The receiver outputs an audio signal as an air conduction sound. The first microphone picks up air conduction sound, and the second microphone picks up bone conduction sound. The echo suppression unit suppresses an echo component included in the air conduction sound signal input from the first microphone based on the transmission characteristic of the sound from the receiver to the first microphone. The transfer characteristic learning unit learns transfer characteristics based on the reception signal and the air conduction sound signal output from the receiver when the input level of the bone conduction sound signal input from the second microphone is equal to or lower than a predetermined threshold. To do.
上述の態様によれば、通話時に誤った伝達特性を学習することによるエコーの発生や送話音質の劣化を防止することが可能となる。 According to the above-described aspect, it is possible to prevent the occurrence of echoes and the deterioration of the transmission sound quality due to learning of erroneous transfer characteristics during a call.
[第1の実施形態]
図1は、第1の実施形態に係る通話装置の構成を示す図である。
[First Embodiment]
FIG. 1 is a diagram illustrating a configuration of a communication device according to the first embodiment.
本実施形態の通話装置は、携帯電話端末等、通話が可能な移動体通信装置である。図1に示すように、本実施形態の通話装置1は、RF送受信部2と、アンテナ3と、ベースバンド処理部4と、音声信号処理部5と、レシーバ8と、第1のマイク9と、第2のマイク10と、を備える。また、通話装置1は、D/Aコンバータ11と、A/Dコンバータ12A,12Bと、増幅器13A,13B,13Cと、を備える。また、通話装置1は、図示しない入力操作部や表示部等を備える。
The call device according to the present embodiment is a mobile communication device such as a mobile phone terminal that can make a call. As shown in FIG. 1, the
RF送受信部2は、アンテナ3で受信した信号の復調、及び他の通話装置に向けて送信する信号の変調を行う。
The RF transmitter /
ベースバンド処理部4は、RF送受信部2で復調した信号、及びRF送受信部2で変調させる信号に対するベースバンド処理を行う。また、ベースバンド処理部4は、RF送受信部2で復調したアナログ信号をデジタル信号に変換するA/Dコンバータと、RF送受信部2で変調させるデジタル信号をアナログ信号に変換するD/Aコンバータとを含む。
The
音声信号処理部5は、音声信号に対し所定の処理を行う。音声信号処理部5は、他の通話装置から受信した音声信号に対する処理を行う受話信号処理部6と、他の通話装置に送信する音声信号に対する処理を行う送話信号処理部7と、を含む。
The audio
レシーバ8は、受話信号処理部6で処理された音声信号を気導音として通話装置1の外部に出力(放射)する。受話信号処理部6で処理された音声信号は、D/Aコンバータ11でデジタル信号からアナログ信号に変換し増幅器13Aで増幅させた後、レシーバ8から出力する。なお、本明細書ではレシーバ8としているが、これに限らず、スピーカ等、音声信号を気導音として通話装置1の外部に出力(放射)することが可能なものであればよい。
The
第1のマイク9は、空気中を伝播して通話装置1に到来する音(気導音)を収音する。第1のマイク9で収音した気導音の音声信号は、増幅器13Bで増幅させA/Dコンバータ12Aでアナログ信号からデジタル信号に変換した後、送話信号処理部7に入力する。以下、第1のマイク9から送話信号処理部7に入力される音声信号を気導音信号ともいう。
The
第2のマイク10は、通話装置1と接触した固体を介して通話装置1に伝達する音(例えば骨導音)を収音する。第2のマイク10で収音した骨導音の音声信号は、増幅器13Cで増幅させA/Dコンバータ12Bでアナログ信号からデジタル信号に変換した後、送話信号処理部7に入力する。以下、第2のマイク10から送話信号処理部7に入力される音声信号を骨導音信号ともいう。
The
本実施形態の通話装置1は、他の通話装置との呼接続が確立されると、他の通話装置から受信した音声信号をレシーバ8から出力させる処理とともに、第1のマイク9から入力された気導音信号を他の通話装置に向けて送信する処理を行う。この際、第1のマイク9から入力された気導音信号を他の通話装置に向けて送信する処理は、送話信号処理部7が行う。送話信号処理部7は、気導音信号に対する処理の1つとして、気導音信号に含まれるエコー成分を抑圧する処理を行う。気導音信号に含まれるエコー成分は、通信装置1や他の通信装置のレシーバから出力される音声を聞く際のエコーの要因となる音声成分である。エコーは、図1に示したように、レシーバ8から出力された音声の一部14が第1のマイク9で収音されることにより生じる。
When the call connection with the other call device is established, the
図2は、第1の実施形態に係る通話装置における送話信号処理部の機能的構成を示す図である。 FIG. 2 is a diagram illustrating a functional configuration of a transmission signal processing unit in the communication device according to the first embodiment.
図2に示すように、送話信号処理部7は、利用者音声検出部701と、伝達特性学習部702と、エコー抑圧部703と、記憶部711と、を含む。
As shown in FIG. 2, the transmission
利用者音声検出部701は、第2のマイク10から入力される骨導音信号に含まれる通話装置1の利用者が発した音声を検出する。通話装置1の利用者は、通話装置1のレシーバ8から出力された音声(気導音)を聞きながら通話を行う者である。以下、利用者が発した音声のことを利用者音声ともいう。なお、本実施形態に係る利用者音声検出部701は、骨導音信号から利用者音声が検出された場合に、利用者音声を検出したと判定する。
The user
伝達特性学習部702は、レシーバ8から第1のマイク9に伝播する音の伝達特性を学習する。本実施形態に係る伝達特性学習部702は、受話信号と、第1のマイク9から入力された気導音信号とを用いて伝達特性を学習する。また、本実施形態に係る送話信号処理部7では、利用者音声検出部701において利用者音声が検出されなかった場合に、伝達特性学習部702による伝達特性の学習を行う。
The transfer
エコー抑圧部703は、伝達特性に基づいて気導音信号に含まれるエコー成分を抑圧する。エコー抑圧部703は、受話信号に伝達特性を適用して気導音信号に含まれるエコー成分を推定し、推定したエコー成分を気導音信号から除去する。利用者音声検出部701において利用者音声が検出されなかった場合、エコー抑圧部703は、伝達特性学習部702で学習した伝達特性に基づいて気導音信号のエコー成分を抑圧する。一方、利用者音声検出部701において利用者音声を検出した場合、エコー抑圧部703は、記憶部711に記憶させた伝達特性に基づいて気導音信号のエコー成分を抑圧する。
The
記憶部711には、伝達特性の初期値、及び伝達特性学習部702において学習した伝達特性を記憶させる。
The
本実施形態の通話装置1と他の通話装置との呼接続が確立されると、音声信号処理部5の送話信号処理部7は、順次入力される気導音信号、骨導音信号、及び受話信号に基づいて、図3に示すようなエコー抑圧処理を行う。
When the call connection between the
図3は、第1の実施形態に係るエコー抑圧処理を説明するフローチャートである。
送話信号処理部7は、図3に示すように、まず、音声信号の処理単位であるフレームを識別する変数tを1に初期化する(ステップS1)。
FIG. 3 is a flowchart for explaining echo suppression processing according to the first embodiment.
As shown in FIG. 3, the transmission
次に、送話信号処理部7は、フレームtの気導音信号、骨導音信号、及び受話信号を入力する(ステップS2)。ステップS2において、送話信号処理部7は、例えば、骨導音信号及び受話信号を利用者音声検出部701に入力し、気導音信号を伝達特性学習部702及びエコー抑圧部703に入力する。
Next, the transmission
次に、送話信号処理部7は、骨導音信号を用いた利用者音声検出処理(ステップS3)を行う。ステップS3の処理は、利用者音声検出部701が行う。利用者音声検出部701は、ステップS2で入力されたフレームt(処理対象フレーム)の骨導音信号から音声を検出する処理を行う。また、利用者音声検出部701は、音声を検出する処理の結果に基づいて、利用者音声を検出したか否かを判定する(ステップS4)。利用者音声検出部701は、骨導音信号から利用者音声を検出した場合に、利用者音声を検出した(ステップS4;Yes)と判定する。利用者音声を検出した場合(ステップS4;Yes)、利用者音声検出部701は、エコー抑圧部703に、伝達特性に基づいて気導音信号のエコー成分を抑圧する処理(ステップS6)を行わせる。
Next, the transmission
一方、利用者音声が検出されなかった場合(ステップS4;No)、利用者音声検出部701は、伝達特性学習部702に、受話信号及び気導音信号を用いて伝達特性を学習する処理(ステップS5)を行わせる。ステップS5において、伝達特性学習部702は、フレームtの気導音信号及び受話信号を取得し、現在の伝達特性と、フレームtの気導音信号及び受話信号とに基づいて、フレームtの気導音信号に適用する伝達特性を学習(算出)する。ここで、現在の伝達特性は、伝達特性の初期値、又は1フレーム前(フレームt−1)の気導音信号に対するエコー抑圧処理で用いた伝達特性である。伝達特性学習部702は、記憶部711から現在の伝達特性を読み出す。また、ステップS5で伝達特性を学習した場合、伝達特性学習部702は、学習した伝達特性をエコー抑圧部703に送信するとともに、記憶部711に記憶させる。
On the other hand, when the user voice is not detected (step S4; No), the user
伝達特性学習部702におけるステップS5の処理が終わると、次に、エコー抑圧部703が伝達特性に基づいて気導音信号のエコー成分を抑圧する(ステップS6)。フレームtの気導音信号に対する処理において伝達特性学習部702が伝達特性を学習した場合、エコー抑圧部703は、学習後の伝達特性に基づいてフレームtの気導音信号のエコー成分を抑圧する。一方、伝達特性学習部702が伝達特性を学習していない場合、エコー抑圧部703は、フレームtの気導音信号を取得し、伝達特性の初期値又は1フレーム前の気導音信号に対するエコー抑圧処理で用いた伝達特性に基づいて気導音信号のエコー成分を抑圧する。この際、エコー抑圧部703は、記憶部711から伝達特性を読み出す。エコー抑圧部703は、エコー成分を抑圧した気導音信号をベースバンド処理部4に出力する。
When the process of step S5 in the transfer
フレームtの気導音信号に対するエコー成分の抑圧を終えると、送話信号処理部7は、エコー成分を抑圧したフレームtが最終フレームであるか否かを判定する(ステップS7)。エコー成分を抑圧したフレームtが最終フレームではない場合(ステップS7;No)、送話信号処理部7は、変数tをt+1に更新し(ステップS8)、後続のフレームに対するステップS2〜S6の処理を行う。一方、エコー成分を抑圧したフレームtが最終フレームである場合(ステップS7;Yes)、送話信号処理部7は、エコー抑圧処理を終了する。
When the suppression of the echo component with respect to the air conduction sound signal of the frame t is completed, the transmission
図4は、利用者音声検出処理の内容を説明するフローチャートである。
本実施形態のエコー抑圧処理における利用者音声検出処理(ステップS3)は、上記のように、利用者音声検出部701が骨導音信号を用いて行う。利用者音声検出部701は、図4に示すように、まず、フレームtの骨導音信号のフレームパワーPd(単位はdB)を算出する(ステップS301)。ステップS301において、利用者音声検出部701は、フレームtの骨導音信号に対する周波数解析により得た周波数スペクトル(パワースペクトル)に基づいてフレームパワーPdを算出する。骨導音信号に対する周波数解析は、利用者音声検出部701、又は図2には示していない周波数解析部が行う。
FIG. 4 is a flowchart for explaining the contents of the user voice detection process.
As described above, the user voice detection process (step S3) in the echo suppression process of the present embodiment is performed by the user
次に、利用者音声検出部701は、ステップS301で算出した骨導音信号のフレームパワーPdと、利用者音声がない場合のフレームパワーPf(単位はdB)との差分値ΔP=Pb−Pfを算出する(ステップS302)。ここで、利用者音声がない場合のフレームパワーPfは、第2のマイク10から入力される音声信号(骨導音信号)が利用者音声を含まない場合のフレームパワーの平均値である。フレームパワーPfは、予め、第2のマイク10により利用者音声を含まない音を収音して求めておく。
Next, the user
次に、利用者音声検出部701は、ステップS302で算出したフレームパワーの差分値ΔPが判定閾値THbよりも大きいか否かを判定する(ステップS303)。利用者が頭部に通話装置1を接触させた状態で発話した場合、第2のマイク10から入力される骨導音信号には利用者音声が含まれる。そのため、骨導音信号に利用者音声が含まれる場合のフレームパワーPdは、利用者音声がない場合のフレームパワーPfよりも大きくなる。よって、判定閾値THpは、任意の正の値(例えば6dB)とする。
Next, the user
ΔP>THbの場合(ステップS303;Yes)、利用者音声検出部701は、処理結果を「利用者音声を検出した」とし(ステップS304)、利用者音声検出処理を終了する(リターン)。一方、ΔP≦THbの場合(ステップS303;No)、利用者音声検出部701は、処理結果を「利用者音声が検出されなかった」とし(ステップS305)、利用者音声検出処理を終了する。
When ΔP> THb (step S303; Yes), the user
なお、図4の利用者音声検出処理は一例に過ぎず、骨導音信号から利用者音声を検出する処理は、骨導音信号の入力レベルが利用者音声を含むレベルであるか否かを判定できれば、他の方法で利用者音声を検出してもよい。 Note that the user voice detection process of FIG. 4 is merely an example, and the process of detecting the user voice from the bone conduction signal determines whether the input level of the bone conduction signal is a level including the user voice. If it can be determined, the user voice may be detected by another method.
上記の利用者音声検出処理(ステップS301〜S305)を終えると、利用者音声検出部701は、利用者音声を検出したか否かを判定する(ステップS4)。ステップS4の判定は、伝達特性を学習するか否かを判定するために行う。本実施形態の通信装置1では、利用者音声が検出されなかった場合(ステップS4;No)、伝達特性を学習する処理(ステップS5)を行う。すなわち、通信装置1は、骨導音信号から利用者音声が検出されなかった場合に伝達特性を学習する処理を行う。伝達特性を学習する処理は、伝達特性学習部702が行う。このため、利用者音声が検出されなかった場合(ステップS4;No)、利用者音声検出部701は、入力された受話信号を伝達特性学習部702に送信する。本実施形態に係る伝達特性学習部702は、図5に示したような処理を行う。
When the user voice detection process (steps S301 to S305) is completed, the user
図5は、伝達特性を学習する処理の内容を説明するフローチャートである。
伝達特性学習部702は、図5に示すように、まず、フレームtの気導音信号及び受話信号の周波数スペクトルを取得する(ステップS501)。気導音信号及び受話信号の周波数スペクトルは、例えば、伝達特性学習部702において周波数解析を行って算出する。なお、気導音信号及び受話信号の周波数スペクトルは、図2には示していない周波数解析部において気導音信号及び受話信号の周波数解析を行って算出してもよい。
FIG. 5 is a flowchart for explaining the contents of the process of learning the transfer characteristics.
As shown in FIG. 5, the transfer
次に、伝達特性学習部702は、周波数スペクトルの周波数帯域を識別する変数iをi=0に初期化する(ステップS502)。
Next, the transfer
次に、伝達特性学習部702は、記憶部711から現在の伝達特性EH(i,t−1)を読み込む(ステップS503)。伝達特性EH(i,t−1)は、フレームt−1の気導音信号のエコー成分を抑圧する処理において周波数帯域iの振幅スペクトルに適用した伝達特性である。なお、変数tが初期値(例えばt=1)の場合、伝達特性学習部702は、現在の伝達特性EH(i,0)として、伝達特性の初期値を読み込む。
Next, the transfer
次に、伝達特性学習部702は、気導音信号の振幅スペクトルA(i,t)、受話信号の振幅スペクトルRef(i,t)、現在の伝達特性EH(i,t−1)に基づいて、伝達特性EH(i,t)を学習(算出)する(ステップS504)。伝達特性EH(i,t)は、気導音信号の振幅スペクトルA(i,t)に適用する伝達特性である。ステップS504において、伝達特性学習部702は、式(1)を用いて伝達特性EH(i,t)を算出する。
Next, the transfer
式(1)のαは伝達特性の更新係数であり、0<α<1の定数(例えばα=0.99)とする。 Α in equation (1) is a transfer characteristic update coefficient, and is a constant of 0 <α <1 (for example, α = 0.99).
次に、伝達特性学習部702は、全ての周波数帯域に対して処理をしたか否かを判定する(ステップS505)。未処理の周波数帯域がある場合(ステップS505;No)、伝達特性学習部702は、変数iをi+1に更新し(ステップS506)、ステップS503及びS504の処理に行う。全ての周波数帯域に対して処理を行った場合(ステップS505;Yes)、伝達特性学習部702は、フレームtの気導音信号に適用する伝達特性を学習する処理を終了する。この際、伝達特性学習部702は、例えば、学習した伝達特性EH(i,t)を記憶部711に記憶させる。また、伝達特性学習部702は、例えば、気導音信号及び受話信号の振幅スペクトルと、学習(算出)した伝達特性とをエコー抑圧部703に送信する。この場合、エコー抑圧部703は、伝達特性学習部702において学習した伝達特性EH(i,t)に基づいて、フレームtの気導音信号のエコー成分を抑圧する処理(ステップS6)を行う。すなわち、利用者音声検出部701において利用者音声が検出されなかった場合、エコー抑圧部703は、学習した伝達特性EH(i,t)に基づいて、フレームtの気導音信号のエコー成分を抑圧する。一方、利用者音声検出部701において利用者音声を検出した場合、エコー抑圧部703は、伝達特性EH(i,t−1)に基づいて、フレームtの気導音信号に含まれるエコー成分を抑圧する。すなわち、利用者音声検出部701において利用者音声を検出した場合、エコー抑圧部703は、EH(i,t)=EH(i,t−1)として、フレームtの気導音信号に含まれるエコー成分を抑圧する。
Next, the transfer
図6は、エコー成分を抑圧する処理の内容を説明するフローチャートである。
エコー抑圧部703は、図6に示すように、まず、フレームtの気導音信号及び受話信号の周波数スペクトル、並びに伝達特性を取得する(ステップS601)。フレームtの気導音信号に適用する伝達特性EH(i,t)を学習した場合、エコー抑圧部703は、伝達特性学習部702から伝達特性EH(i,t)を取得する。一方、フレームtの気導音信号に適用する伝達特性EH(i,t)を学習しなかった場合、エコー抑圧部703は、記憶部711から伝達特性EH(i,t−1)を読み出して伝達特性EH(i,t)とする。
FIG. 6 is a flowchart for explaining the content of the processing for suppressing the echo component.
As shown in FIG. 6, the
次に、エコー抑圧部703は、周波数帯域を識別する変数iをi=0に初期化する(ステップS602)。
Next, the
次に、エコー抑圧部703は、受話信号の振幅スペクトルRef(i,t)、及び伝達特性EH(i,t)に基づいて、エコー推定信号Eest(i,t)を算出する(ステップS603)。エコー推定信号Eest(i,t)は、気導音信号における周波数帯域iの振幅スペクトルに含まれるエコー成分の推定値を表す。エコー抑圧部703は、下記式(2)を用いてエコー推定信号Eest(i,t)を算出する。
Next, the
Eest(i,t)=Ref(i,t)×EH(i,t) ・・・(2) Eest (i, t) = Ref (i, t) × EH (i, t) (2)
式(2)のRef(i,t)及びEH(i,t)は、それぞれ、受話信号における周波数帯域iの振幅スペクトル、及び周波数帯域iの気導音信号に適用する伝達特性である。 Ref (i, t) and EH (i, t) in Expression (2) are transfer characteristics applied to the amplitude spectrum of the frequency band i and the air conduction sound signal of the frequency band i in the received signal, respectively.
次に、エコー抑圧部703は、気導音信号における周波数帯域iの振幅スペクトルA(i)、及びエコー推定信号Eest(i,t)に基づいて、エコー成分を抑圧した振幅スペクトルを算出する(ステップS604)。エコー抑圧部703は、下記式(3)を用いてエコー成分を抑圧した振幅スペクトルAmod(i,t)を算出する。
Next, the
Amod(i,t)=A(i,t)−Eest(i,t) ・・・(3) Amod (i, t) = A (i, t) −Eest (i, t) (3)
次に、エコー抑圧部703は、全ての周波数帯域に対して処理をしたか否かを判定する(ステップS605)。未処理の周波数帯域がある場合(ステップS605;No)、エコー抑圧部703は、変数iをi+1に更新し(ステップS606)、ステップS603及びS604の処理を行う。そして、全ての周波数帯域に対して処理を行った場合(ステップS605;Yes)、エコー抑圧部703は、エコー成分を抑圧した気導音信号の周波数スペクトルを時間領域の信号に変換する(ステップS607)。その後、エコー抑圧部703は、時間領域の信号に変換された気導音信号を出力してエコー成分を抑圧する処理を終了する。
Next, the
第1のマイク9から入力される気導音信号は、通話装置1を頭部に接触させた状態の利用者が発話した音声だけでなく、利用者の周囲を伝播する雑音等が含まれる。そのため、気導音信号を用いて利用者音声を検出する処理を行った場合、利用者音声が小さい、又は雑音が大きい等の理由により、利用者音声を含んでいるにもかかわらず利用者音声が検出されないことがある。このように処理対象の音声信号(フレーム)に含まれる利用者音声の検出に失敗した場合、適切な伝達特性に基づいてエコー成分を適切に抑圧することができない可能性がある。
The air conduction sound signal input from the
これに対し、本実施形態のエコー抑圧処理では、上記のように、第2のマイク10から入力された骨導音信号を用いて利用者音声を検出する。第2のマイク10で収音する骨導音は、利用者(話者)が発話した際に利用者の頭骨や皮膚組織等を伝播する音、言い換えると固体を伝播する音である。そのため、第2のマイク10から入力される骨導音信号は、利用者の周囲を伝播する雑音(気導音)等の成分が非常に少ない。よって、第2のマイク10から入力された骨導音信号を用いて利用者音声を検出することにより、利用者音声の検出精度の低下を抑制することができる。すなわち、本実施形態によれば、利用者音声の有無に基づいて伝達特性を学習するか否かを判定する際の誤判定を低減することが可能となる。したがって、本実施形態によれば、誤った伝達特性を学習することによるエコー成分の抑圧性能の低下、言い換えると誤った(不適切な)伝達特性を用いることによるエコーの発生や送話音質の劣化等を防止することが可能となる。
On the other hand, in the echo suppression process of the present embodiment, the user voice is detected using the bone conduction sound signal input from the
[第2の実施形態]
図7は、第2の実施形態に係る通話装置における送話信号処理部の機能的構成を示す図である。
[Second Embodiment]
FIG. 7 is a diagram illustrating a functional configuration of a transmission signal processing unit in the communication device according to the second embodiment.
本実施形態に係る通話装置1は、携帯電話端末等、通話が可能な移動体通信装置であり、その機能的構成は第1の実施形態に係る通話装置1と同様である。
The
なお、図7に示すように、本実施形態の通話装置1における送話信号処理部7は、利用者音声検出部701と、骨導音補正部704と、伝達特性学習部702と、エコー抑圧部703と、第1の記憶部711と、第2の記憶部712と、を含む。
As shown in FIG. 7, the transmission
利用者音声検出部701は、第2のマイク10から入力される骨導音信号に含まれる通話装置1の利用者が発した音声を検出する。なお、本実施形態においても、骨導音信号から利用者音声が検出された場合にのみ、利用者音声を検出したと判定する。
The user
骨導音補正部704は、第2の記憶部712に記憶させた骨導音補正特性に基づいて、骨導音信号を補正する。本実施形態の送話信号処理部7では、利用者音声検出部701において利用者音声を検出した場合に、骨導音補正部704による骨導音信号の補正を行う。骨導音補正特性は、骨導音信号における利用者音声と気導音信号における利用者音声との対応関係を表す特性である。すなわち、本実施形態の送話信号処理部7では、骨導音補正部704において骨導音信号を補正することにより、気導音信号に含まれる利用者音声を推定する。
The bone conduction
伝達特性学習部702は、レシーバ8から第1のマイク9に伝播する音の伝達特性を学習する。本実施形態に係る伝達特性学習部702は、利用者音声が検出されなかった場合には受話信号及び気導音信号を用いて伝達特性を学習し、利用者音声を検出した場合には受話信号、気導音信号、及び補正した骨導音信号を用いて伝達特性を学習する。
The transfer
エコー抑圧部703は、伝達特性学習部702において学習した伝達特性に基づいて、気導音信号に含まれるエコー成分を抑圧する。エコー抑圧部703は、受話信号に伝達特性を適用して気導音信号に含まれるエコー成分を推定し、推定したエコー成分を気導音信号から除去する。
The
第1の記憶部711には、伝達特性の初期値、及び伝達特性学習部702において学習した伝達特性を記憶させる。第2の記憶部712には、骨導音補正特性を記憶させる。
The
本実施形態の通話装置1と他の通話装置との呼接続が確立されると、音声信号処理部5の送話信号処理部7は、順次入力される気導音信号、骨導音信号、及び受話信号に基づいて、図8A及び図8Bに示すようなエコー抑圧処理を行う。
When the call connection between the
図8Aは、第2の実施形態に係るエコー抑圧処理を説明するフローチャート(その1)である。図8Bは、第2の実施形態に係るエコー抑圧処理を説明するフローチャート(その2)である。 FIG. 8A is a flowchart (part 1) for explaining echo suppression processing according to the second embodiment. FIG. 8B is a flowchart (part 2) for explaining echo suppression processing according to the second embodiment.
送話信号処理部7は、図8Aに示すように、まず、音声信号の処理単位であるフレームを識別する変数tを1に初期化する(ステップS1)。
As shown in FIG. 8A, the transmission
次に、送話信号処理部7は、フレームtの気導音信号、骨導音信号、及び受話信号を入力する(ステップS2)。ステップS2において、送話信号処理部7は、例えば、骨導音信号及び受話信号を利用者音声検出部701に入力し、気導音信号を伝達特性学習部702に入力する。
Next, the transmission
次に、送話信号処理部7は、骨導音信号を用いた利用者音声検出処理(ステップS3)を行う。ステップS3の処理は、利用者音声検出部701が行う。利用者音声検出部701は、ステップS2で入力されたフレームt(処理対象フレーム)の骨導音信号から利用者音声を検出する処理を行う。利用者音声検出部701は、ステップS3の処理として、例えば、第1の実施形態で説明したステップS301〜S305の処理を行う(図4参照)。また、利用者音声検出部701は、利用者音声検出処理の結果に基づいて、利用者音声を検出したか否かを判定する(ステップS4)。利用者音声検出部701は、ステップS3において骨導音信号から利用者音声を検出した場合に、利用者音声を検出したと判定する。利用者音声が検出されなかった場合(ステップS4;No)、利用者音声検出部701は、伝達特性学習部702に、受話信号及び気導音信号を用いて伝達特性を学習する処理(ステップS5)を行わせる。この場合、伝達特性学習部702は、ステップS5の処理として、例えば、第1の実施形態で説明したステップS501〜S506の処理を行う(図5参照)。
Next, the transmission
一方、利用者音声を検出した場合(ステップS4;Yes)、利用者音声検出部701は、骨導音補正部704に骨導音信号を補正させる(ステップS11)。骨導音補正部704は、骨導音信号の周波数スペクトルにおける各周波数帯域の振幅スペクトルに第2の記憶部712から読み出した骨導音補正特性を適用して各振幅スペクトルを補正する。骨導音信号を補正すると、骨導音補正部704は、伝達特性学習部702に、受話信号、気導音信号及び補正した骨導音信号を用いて伝達特性を学習する処理(ステップS12)を行わせる。この場合、伝達特性学習部702は、ステップS12の処理として、例えば、第1の実施形態で説明したステップS501〜S506と同様の処理を行う。ただし、ステップS12では、伝達特性学習部702は、ステップS501と対応する処理として、フレームtの受話信号、気導音信号及び補正後の骨導音信号の周波数スペクトル(振幅スペクトル)を取得する処理を行う。また、ステップS12では、伝達特性学習部702は、ステップS504と対応する処理として、フレームtの受話信号、気導音信号及び補正後の骨導音信号の振幅スペクトルと伝達特性EH(i,t−1)とに基づいて伝達特性EH(i,t)を算出する処理を行う。
On the other hand, when the user voice is detected (step S4; Yes), the user
ステップS5又はS12による伝達特性の学習を終えると、送話信号処理部7は、次に、伝達特性に基づいて気導音信号のエコー成分を抑圧する(ステップS6)。ステップS6の処理は、エコー抑圧部703が行う。エコー抑圧部703は、ステップS6の処理として、例えば、第1の実施形態で説明したステップS601〜S607の処理を行う(図6参照)。
After completing the learning of the transfer characteristic in step S5 or S12, the transmission
エコー抑圧部703がステップS6の処理を終えると、送話信号処理部7は、エコー成分を抑圧したフレームtが最終フレームであるか否かを判定する(ステップS7)。エコー成分を抑圧したフレームtが最終フレームではない場合(ステップS7;No)、送話信号処理部7は、変数tをt+1に更新し(ステップS8)、後続のフレームに対するステップS2〜S6,S11,及びS12の処理を行う。一方、エコー成分を抑圧したフレームtが最終フレームである場合(ステップS7;Yes)、送話信号処理部7は、エコー抑圧処理を終了する。
When the
このように、本実施形態に係るエコー抑圧処理では、利用者音声が検出されなかった場合には気導音信号を用いて伝達特性を学習し、利用者音声を検出した場合には気導音信号及び骨導音信号を用いて伝達特性を学習する。また、気導音信号及び骨導音信号を用いて伝達特性を学習する際には、骨導音補正部704において、骨導音補正特性に基づいて骨導音信号を補正する処理(ステップS11)を行う。骨導音補正部704は、ステップS11の処理として、図9に示したような処理を行う。
As described above, in the echo suppression processing according to the present embodiment, when the user voice is not detected, the transfer characteristic is learned using the air conduction sound signal, and when the user voice is detected, the air conduction sound is detected. The transfer characteristic is learned using the signal and the bone conduction sound signal. Further, when learning the transfer characteristic using the air conduction sound signal and the bone conduction sound signal, the bone conduction
図9は、骨導音信号を補正する処理の内容を説明するフローチャートである。
骨導音補正部704は、図9に示すように、まず、フレームtの骨導音信号の周波数スペクトルを取得する(ステップS1101)。骨導音補正部704は、利用者音声検出部701、又は図7には示していない周波数解析部から骨導音信号の周波数スペクトルを取得する。
FIG. 9 is a flowchart for explaining the content of the process for correcting the bone conduction sound signal.
As shown in FIG. 9, the bone conduction
次に、骨導音補正部704は、周波数帯域を識別する変数iをi=0に初期化する(ステップS1102)。
Next, the bone conduction
次に、骨導音補正部704は、骨導音信号における周波数帯域iの振幅スペクトルB(i,t)と、骨導音補正特性coef(i,t)とに基づいて、骨導音信号における周波数帯域の振幅スペクトルを補正する(ステップS1103)。ステップS1103において、骨導音補正部704は、式(4)を用いて振幅スペクトルの補正値Bmod(i,t)を算出する。
Next, the bone conduction
Bmod(i,t)=B(i,t)×coef(i,t) ・・・(4) Bmod (i, t) = B (i, t) × coef (i, t) (4)
次に、骨導音補正部704は、全ての周波数帯域に対して処理をしたか否かを判定する(ステップS1104)。未処理の周波数帯域がある場合(ステップS1104;No)、骨導音補正部704は、変数iをi+1に更新し(ステップS1105)、ステップS1103の処理を行う。そして、全ての周波数帯域に対して処理を行った場合(ステップS1104;Yes)、骨導音補正部704は、補正した骨導音信号(各周波数帯域の振幅スペクトルBmod(i,t))を伝達特性学習部702に送信し、骨導音信号を補正する処理を終了する。
Next, the bone conduction
このように骨導音補正部704において骨導音信号を補正した場合、伝達特性学習部702は、受話信号と、気導音信号と、補正した骨導音信号とを用いて伝達特性を学習する。この場合、伝達特性学習部702は、下記式(5)を用いてフレームtの気導音信号に適用する伝達特性を学習(算出)する。
When the bone conduction
式(5)のA(i,t)は、現フレーム(フレームt)の気導音信号における周波数帯域iの振幅スペクトルである。式(5)のRef(i,t)は、現フレームの受話信号における周波数帯域iの振幅スペクトルである。式(5)のEH(i,t−1)は、1フレーム前(フレームt−1)の気導音信号における周波数帯域iの振幅スペクトルに適用した伝達特性である。式(5)のαは伝達特性の更新係数であり、本実施形態では0<α<1の定数(例えばα=0.99)とする。すなわち、式(5)を用いた伝達特性の学習方法では、フレームtの受話信号と、フレームtの気導音信号から補正した骨導音信号を減算した音声信号と、に基づいて伝達特性を学習する。 A (i, t) in Expression (5) is an amplitude spectrum of the frequency band i in the air conduction sound signal of the current frame (frame t). Ref (i, t) in Expression (5) is an amplitude spectrum of the frequency band i in the received signal of the current frame. EH (i, t−1) in Expression (5) is a transfer characteristic applied to the amplitude spectrum of the frequency band i in the air conduction sound signal one frame before (frame t−1). Α in Expression (5) is a transfer characteristic update coefficient, and in the present embodiment, a constant of 0 <α <1 (for example, α = 0.99). That is, in the transfer characteristic learning method using equation (5), the transfer characteristic is determined based on the received signal of frame t and the audio signal obtained by subtracting the bone conduction sound signal corrected from the air conduction sound signal of frame t. learn.
なお、骨導音信号を補正する処理(ステップS11)で用いる骨導音補正特性は、例えば、図10に示したような方法で、通話装置1とは別の情報処理装置を用いて予め算出しておく。
Note that the bone conduction sound correction characteristic used in the process of correcting the bone conduction sound signal (step S11) is calculated in advance using an information processing device different from the
図10は、骨導音補正特性の算出方法の例を説明するフローチャートである。
骨導音補正特性を算出する情報処理装置は、図10に示すように、まず、気導音信号及び骨導音信号の周波数スペクトルのサンプルを取得する(ステップS21)。ステップS21において、情報処理装置は、通話装置1の第1のマイク9から入力される気導音信号及び第2のマイク10から入力される骨導音信号を、それぞれ複数フレームずつ取得する。
FIG. 10 is a flowchart for explaining an example of a method for calculating the bone conduction sound correction characteristic.
As illustrated in FIG. 10, the information processing apparatus that calculates the bone conduction sound correction characteristic first acquires a sample of the air conduction sound signal and the frequency spectrum of the bone conduction sound signal (step S21). In step S <b> 21, the information processing apparatus acquires an air conduction sound signal input from the
次に、情報処理装置は、周波数帯域を識別する変数iをi=0に初期化する(ステップS22)。 Next, the information processing apparatus initializes a variable i for identifying a frequency band to i = 0 (step S22).
次に、情報処理装置は、気導音信号の平均振幅スペクトルFa(i)及び骨導音信号の平均振幅スペクトルFb(i)を算出する(ステップS23)。気導音信号の平均振幅スペクトルFa(i)は、複数フレーム分の気導音信号における周波数帯域iの振幅スペクトルに基づいて算出する。同様に、骨導音信号の平均振幅スペクトルFb(i)は、複数フレーム分の骨導音信号における周波数帯域iの振幅スペクトルに基づいて算出する。 Next, the information processing apparatus calculates an average amplitude spectrum Fa (i) of the air conduction sound signal and an average amplitude spectrum Fb (i) of the bone conduction sound signal (step S23). The average amplitude spectrum Fa (i) of the air conduction sound signal is calculated based on the amplitude spectrum of the frequency band i in the air conduction sound signals for a plurality of frames. Similarly, the average amplitude spectrum Fb (i) of the bone conduction sound signal is calculated based on the amplitude spectrum of the frequency band i in the bone conduction sound signals for a plurality of frames.
次に、情報処理装置は、周波数帯域iの気導音信号の平均振幅スペクトルFa(i)と、骨導音信号の平均振幅スペクトルFb(i)とを用いて、周波数帯域iの振幅スペクトルに対する骨導音補正特性coef(i)を算出する(ステップS24)。骨導音補正特性coef(i)は、例えば、下記式(6)により算出する。 Next, the information processing apparatus uses the average amplitude spectrum Fa (i) of the air conduction sound signal in the frequency band i and the average amplitude spectrum Fb (i) of the bone conduction sound signal to the amplitude spectrum in the frequency band i. A bone conduction sound correction characteristic coef (i) is calculated (step S24). The bone conduction sound correction characteristic coef (i) is calculated by, for example, the following formula (6).
次に、情報処理装置は、全ての周波数帯域に対して処理をしたか否かを判定する(ステップS25)。未処理の周波数帯域がある場合(ステップS25;No)、情報処理装置は、変数iをi+1に更新し(ステップS26)、ステップS23及びS24の処理を行う。そして、全ての周波数帯域に対して処理を行った場合(ステップS25;Yes)、情報処理装置は、骨導音補正特性の算出処理を終了する。このようにして得た各周波数帯域iの骨導音補正特性coef(i)の組は、通信装置1の第2の記憶部712に記憶させる。
Next, the information processing apparatus determines whether or not processing has been performed for all frequency bands (step S25). When there is an unprocessed frequency band (step S25; No), the information processing apparatus updates the variable i to i + 1 (step S26), and performs the processes of steps S23 and S24. When the processing is performed on all the frequency bands (step S25; Yes), the information processing apparatus ends the bone conduction sound correction characteristic calculation processing. The set of bone conduction sound correction characteristics coef (i) of each frequency band i obtained in this way is stored in the
式(6)により算出した骨導音補正特性coef(i)は、骨導音信号における周波数帯域iの平均振幅スペクトルFb(i)に対する、気導音信号における周波数帯域iの平均振幅スペクトルFa(i)である。そのため、骨導音補正特性coef(i)を用いた式(4)により骨導音信号の補正することは、骨導音信号から気導音信号に含まれる利用者音声を推定することともいえる。すなわち、式(4)を用いて骨導音信号を補正することにより、送話信号処理部7は、気導音信号に含まれる利用者の音声を推定することが可能となる。そのため、伝達特性学習部702は、気導音信号及び補正した骨導音信号に基づいて、利用者音声を含まない気導音信号を推定することが可能となる。したがって、第1のマイク9から入力された気導音信号に利用者音声が含まれる場合でも、伝達特性学習部702は、推定した気導音信号に基づいて利用者音声を含まない場合と同等の信頼度で伝達特性を学習することが可能となる。すなわち、本実施形態に係るエコー抑圧処理によれば、第1のマイク9から入力された気導音信号に含まれる利用者音声が正しく検出されない場合に誤った伝達特性を学習してしまうことを防止でき、エコー成分の抑圧性能の低下を防止することが可能となる。
The bone conduction sound correction characteristic coef (i) calculated by the equation (6) has an average amplitude spectrum Fa (of the frequency band i in the air conduction sound signal to the average amplitude spectrum Fb (i) of the frequency band i in the bone conduction signal. i). Therefore, correcting the bone conduction sound signal by the equation (4) using the bone conduction sound correction characteristic coef (i) can be said to estimate the user voice included in the air conduction sound signal from the bone conduction sound signal. . That is, by correcting the bone conduction sound signal using Expression (4), the transmission
また、本実施形態に係るエコー抑圧処理では、第1のマイク9から入力された気導音信号に利用者音声が含まれる場合にも気導音信号から利用者音声を除去して伝達特性を学習(推定)することが可能となる。よって、本実施形態のエコー抑圧処理によれば、利用者の発話中に伝達特性が変化した場合にも、適切な伝達特性を学習してエコー成分を抑圧することが可能となる。したがって、利用者の発話中においても、誤った(不適切な)伝達特性を用いることによるエコーの発生や送話音質の劣化等を防止することが可能となる
Further, in the echo suppression processing according to the present embodiment, even when the user's voice is included in the air conduction sound signal input from the
[第3の実施形態]
図11は、第3の実施形態に係る通話装置における送話信号処理部の機能的構成を示す図である。
[Third Embodiment]
FIG. 11 is a diagram illustrating a functional configuration of a transmission signal processing unit in the communication device according to the third embodiment.
本実施形態に係る通信装置1は、携帯電話端末等、通話が可能な移動体通信装置であり、その機能的構成は第1の実施形態に係る通話装置1と同様である。
The
なお、図11に示すように、本実施形態の通話装置1における送話信号処理部7は、利用者音声検出部701と、信頼度算出部705と、骨導音補正部704と、伝達特性学習部702と、エコー抑圧部703と、を含む。また、送話信号処理部7は、第1の記憶部711と、第2の記憶部712と、を含む。
As shown in FIG. 11, the transmission
利用者音声検出部701は、第2のマイク10から入力される骨導音信号に含まれる通話装置1の利用者が発した音声を検出する。なお、本実施形態においても、利用者音声検出部701は、骨導音信号から利用者音声が検出された場合に、利用者音声を検出したと判定する。
The user
信頼度算出部705は、第2のマイク10から入力された骨導音信号の信頼度を算出する。ここで、骨導音信号の信頼度は、入力された骨導音信号が利用者の発した音声(骨導音)を反映した音声信号であることの信頼性を表す値である。本実施形態の信頼度算出部705は、骨導音信号及び気導音信号に基づいて骨導音信号の信頼度を算出する。本実施形態の送話信号処理部7では、利用者音声検出部701において利用者音声を検出した場合に、信頼度算出部705において骨導音信号の信頼度を算出する。信頼度算出部705で算出した骨導音信号の信頼度は、伝達特性の学習に補正した骨導音信号を用いるか否かの判定に用いる。
The reliability calculation unit 705 calculates the reliability of the bone conduction sound signal input from the
骨導音補正部704は、第2の記憶部712に記憶させた骨導音補正特性に基づいて、骨導音信号を補正する。本実施形態の送話信号処理部7では、利用者音声検出部701において利用者音声を検出し、かつ骨導音信号の信頼度が閾値よりも大きい場合に、骨導音補正部704による骨導音信号の補正を行う。
The bone conduction
伝達特性学習部702は、レシーバ8から第1のマイク9に伝播する音の伝達特性を学習する。本実施形態に係る伝達特性学習部702は、利用者音声が検出されなかった場合、及び利用者音声を検出したが骨導音信号の信頼度が閾値以下である場合には、受話信号及び気導音信号を用いて伝達特性を学習する。また、伝達特性学習部702は、利用者音声を検出し、かつ骨導音信号の信頼度が閾値よりも大きい場合には、受話信号、気導音信号及び補正した骨導音信号を用いて伝達特性を学習する。
The transfer
エコー抑圧部703は、伝達特性学習部702において学習した伝達特性に基づいて、気導音信号に含まれるエコー成分を抑圧する。エコー抑圧部703は、受話信号に伝達特性を適用して気導音信号に含まれるエコー成分を推定し、推定したエコー成分を気導音信号から除去する。
The
第1の記憶部711には、伝達特性の初期値、及び伝達特性学習部702において学習した伝達特性を記憶させる。第2の記憶部712には、骨導音補正特性を記憶させる。
The
本実施形態の通話装置1と他の通話装置との呼接続が確立されると、音声信号処理部5の送話信号処理部7は、順次入力される気導音信号、骨導音信号、及び受話信号に基づいて、図12A及び図12Bに示すようなエコー抑圧処理を行う。
When the call connection between the
図12Aは、第3の実施形態に係るエコー抑圧処理を説明するフローチャート(その1)である。図12Bは、第3の実施形態に係るエコー抑圧処理を説明するフローチャート(その2)である。 FIG. 12A is a flowchart (part 1) for explaining echo suppression processing according to the third embodiment. FIG. 12B is a flowchart (part 2) illustrating the echo suppression processing according to the third embodiment.
送話信号処理部7は、図12Aに示すように、まず、音声信号の処理単位であるフレームを識別する変数tを1に初期化する(ステップS1)。
As shown in FIG. 12A, the transmission
次に、送話信号処理部7は、フレームtの気導音信号、骨導音信号、及び受話信号を入力する(ステップS2)。ステップS2において、送話信号処理部7は、例えば、利用者音声検出部701に骨導音信号及び受話信号を入力する。また、送話信号処理部7は、例えば、伝達特性学習部702に気導音信号を入力する。更に、送話信号処理部7は、信頼度算出部705に骨導音信号及び気導音信号を入力する。
Next, the transmission
次に、送話信号処理部7は、骨導音信号を用いた利用者音声検出処理(ステップS3)を行う。ステップS3の処理は、利用者音声検出部701が行う。利用者音声検出部701は、ステップS2で入力されたフレームt(処理対象フレーム)の骨導音信号から利用者音声を検出する処理を行う。利用者音声検出部701は、ステップS3の処理として、例えば、第1の実施形態で説明したステップS301〜S305の処理を行う(図4参照)。また、利用者音声検出部701は、利用者音声検出処理の結果に基づいて、利用者音声を検出したか否かを判定する(ステップS4)。利用者音声検出部701は、骨導音信号から利用者音声を検出した場合に、利用者音声を検出したと判定する。利用者音声が検出されなかった場合(ステップS4;No)、利用者音声検出部701は、伝達特性学習部702に、受話信号及び気導音信号を用いて伝達特性を学習する処理(ステップS5)を行わせる。この場合、伝達特性学習部702は、ステップS5の処理として、例えば、第1の実施形態で説明したステップS501〜S506の処理を行う(図5参照)。
Next, the transmission
一方、利用者音声を検出した場合(ステップS4;Yes)、利用者音声検出部701は、信頼度算出部705に骨導音信号の信頼度を算出させる(ステップS9)。信頼度算出部705は、例えば、骨導音信号と気導音信号との相関係数に基づいて骨導音信号の信頼度を算出する。また、信頼度算出部705は、算出した骨導音信号の信頼度を利用者音声検出部701に通知する。利用者音声検出部701は、骨導音信号の信頼度を受け取ると、受け取った信頼度が閾値THよりも大きいか否かを判定する(ステップS10)。骨導音信号の信頼度が閾値TH以下の場合(ステップS10;No)、利用者音声検出部701は、伝達特性学習部702に、受話信号及び気導音信号を用いて伝達特性を学習する処理(ステップS5)を行わせる。
On the other hand, when the user voice is detected (step S4; Yes), the user
骨導音信号の信頼度が閾値THよりも大きい場合(ステップS10;Yes)、利用者音声検出部701は、骨導音補正部704に骨導音信号を補正させる(ステップS11)。骨導音補正部704は、ステップS11の処理として、例えば、第2の実施形態で説明したステップS1101〜S1105の処理を行う(図9参照)。
When the reliability of the bone conduction sound signal is larger than the threshold value TH (step S10; Yes), the user
骨導音信号を補正すると、骨導音補正部704は、伝達特性学習部702に、受話信号、気導音信号及び補正した骨導音信号を用いて伝達特性を学習する処理(ステップS12)を行わせる。この場合、伝達特性学習部702は、ステップS12の処理として、例えば、第1の実施形態で説明したステップS501〜S506と同様の処理を行う。ただし、ステップS12では、伝達特性学習部702は、ステップS501と対応する処理として、フレームtの受話信号、気導音信号及び補正後の骨導音信号の周波数スペクトル(振幅スペクトル)を取得する処理を行う。また、ステップS12では、伝達特性学習部702は、ステップS504と対応する処理として、フレームtの受話信号、気導音信号及び補正後の骨導音信号の振幅スペクトルと伝達特性EH(i,t−1)とに基づいて伝達特性EH(i,t)を算出する処理を行う。
When the bone conduction sound signal is corrected, the bone conduction
ステップS5又はS12による伝達特性の学習を終えると、送話信号処理部7は、図12Bに示すように、次に、伝達特性に基づいて気導音信号のエコー成分を抑圧する(ステップS6)。ステップS6の処理は、エコー抑圧部703が行う。エコー抑圧部703は、ステップS6の処理として、例えば、第1の実施形態で説明したステップS601〜S607の処理を行う(図6参照)。
When the transmission characteristic learning in step S5 or S12 is completed, the transmission
エコー抑圧部703がステップS6の処理を終えると、送話信号処理部7は、エコー成分を抑圧したフレームtが最終フレームであるか否かを判定する(ステップS7)。エコー成分を抑圧したフレームtが最終フレームではない場合(ステップS7;No)、送話信号処理部7は、変数tをt+1に更新し(ステップS8)、後続のフレームに対するステップS2〜S6,及びS9〜S12の処理を行う。一方、エコー成分を抑圧したフレームtが最終フレームである場合(ステップS7;Yes)、送話信号処理部7は、エコー抑圧処理を終了する。
When the
このように、本実施形態に係るエコー抑圧処理では、利用者音声を検出した場合に、骨導音信号の信頼度に基づいて骨導音信号を用いた伝達特性の学習を行うか否かを判定する。すなわち、骨導音信号から利用者音声を検出したとしても、骨導音信号の信頼度が低い場合には骨導音信号を用いずに伝達特性を学習する。そのため、信頼度の低い骨導音信号を用いて伝達特性を学習することによる伝達特性の信頼度の低下を防ぐことが可能となる。したがって、骨導音信号から利用者音声を検出した場合に、信頼度の高い伝達特性に基づいてより適切にエコー成分を抑圧することが可能となる。 As described above, in the echo suppression processing according to the present embodiment, whether or not learning of transfer characteristics using a bone conduction sound signal is performed based on the reliability of the bone conduction signal when a user voice is detected. judge. That is, even if the user voice is detected from the bone conduction signal, if the reliability of the bone conduction signal is low, the transfer characteristic is learned without using the bone conduction signal. Therefore, it is possible to prevent a decrease in the reliability of the transfer characteristic due to learning of the transfer characteristic using the bone conduction sound signal with low reliability. Therefore, when the user voice is detected from the bone conduction sound signal, the echo component can be more appropriately suppressed based on the highly reliable transfer characteristic.
図13は、骨導音信号の信頼度の算出方法を説明するグラフである。
本実施形態のエコー抑圧処理では、上記のように、骨導音信号の信頼度に基づいて骨導音信号を用いた伝達特性の学習を行うか否かを判定する。骨導音信号の信頼度は、骨導音信号と気導音信号との相関係数に基づいて算出する。骨導音信号と気導音信号との相関係数corrは、下記式(7)を用いて算出する。
FIG. 13 is a graph illustrating a method for calculating the reliability of the bone conduction sound signal.
In the echo suppression processing of this embodiment, as described above, it is determined whether or not to perform transfer characteristic learning using the bone conduction sound signal based on the reliability of the bone conduction sound signal. The reliability of the bone conduction sound signal is calculated based on the correlation coefficient between the bone conduction sound signal and the air conduction sound signal. The correlation coefficient corr between the bone conduction sound signal and the air conduction sound signal is calculated using the following equation (7).
式(7)のNはフレームのサンプル数であり、8kHzサンプリングの場合、N=160である。式(7)のsaj及びsbjは、それぞれ、気導音信号におけるj番目のサンプル、及び骨導音信号におけるj番目のサンプルである。 N in Equation (7) is the number of samples in the frame, and N = 160 in the case of 8 kHz sampling. In the equation (7), sa j and sb j are the j-th sample in the air conduction sound signal and the j-th sample in the bone conduction sound signal, respectively.
相関係数corrに基づいて骨導音信号の信頼度を算出する際には、例えば、図13に示すような相関係数corrと信頼度Rとの対応関係に基づいて算出する。すなわち、骨導音信号の信頼度Rは、下記式(8)を用いて算出する。 When calculating the reliability of the bone conduction sound signal based on the correlation coefficient corr, for example, it is calculated based on the correspondence between the correlation coefficient corr and the reliability R as shown in FIG. That is, the reliability R of the bone conduction sound signal is calculated using the following formula (8).
式(8)における第1の相関閾値corrL及び第2の相関閾値corrHは、0<corrL<corrH<1を満たす任意の値とし、例えば、corrL=0.2、corrH=0.7とする。 The first correlation threshold corrL and the second correlation threshold corrH in Expression (8) are arbitrary values that satisfy 0 <corrL <corrH <1, for example, corrL = 0.2 and corrH = 0.7.
第2のマイク10で骨導音を収音するには、利用者の頭部に通話装置1を接触させた状態で利用者が発話する必要がある。このとき、利用者の頭部と通話装置1との接触状態が不安定であると、利用者が発した音声と骨導音信号に含まれる利用者音声とに差異が生じ、骨導音信号から気導音信号に含まれる利用者音声を正しく推定することが困難となる。そのため、本実施形態に係るエコー抑圧処理では、骨導音信号の信頼度Rに基づいて伝達特性の学習に骨導音信号を用いるか否かを判定する。そして、骨導音信号の信頼度が低く気導音信号に含まれる利用者音声を正しく推定することが困難であると判定した場合、送話信号処理部7は、受話信号及び気導音信号のみを用いて伝達特性を学習する。すなわち、送話信号処理部7は、骨導音信号から利用者音声を検出したとしても、骨導音信号の信頼度Rが低い場合には骨導音信号を用いずに伝達特性を学習する。よって、本実施形態によれば、信頼度の低い骨導音信号(言い換えると利用者音声を適切に反映していない骨導音信号)を用いて誤った伝達特性を学習することを防ぐことが可能となる。
In order to collect the bone conduction sound with the
なお、利用者音声を検出しかつ骨導音信号の信頼度Rが低い場合(ステップS10;No)、例えば、第1の実施形態に係るエコー抑圧処理において利用者音声を検出したときのように、伝達特性を学習せずにエコー成分を抑圧してもよい。 When the user voice is detected and the reliability R of the bone conduction sound signal is low (step S10; No), for example, when the user voice is detected in the echo suppression processing according to the first embodiment. The echo component may be suppressed without learning the transfer characteristics.
また、本実施形態のように骨導音信号の信頼度Rを算出する場合、信頼度Rに基づいて伝達特性の学習に骨導音信号を用いるか否かを判定する代わりに、骨導音信号の信頼度Rに応じて式(5)における伝達特性の更新係数αの値を変更してもよい。 Further, when the reliability R of the bone conduction sound signal is calculated as in the present embodiment, instead of determining whether or not the bone conduction sound signal is used for learning of the transfer characteristics based on the reliability R, the bone conduction sound is determined. Depending on the signal reliability R, the value of the transfer characteristic update coefficient α in the equation (5) may be changed.
図14は、伝達特性の更新係数の算出方法を説明するグラフである。
骨導音信号を用いた伝達特性の学習(算出)に用いる式(5)では、更新係数αの値が小さくなるほど、算出した伝達特性EH(i,t)における骨導音信号の振幅スペクトルBmod(i,t)の寄与度が大きくなる。そのため、例えば、骨導音信号の信頼度Rが低い場合には算出した伝達特性EH(i,t)におけるフレームtの骨導音信号の寄与度が小さくなるよう更新係数αを決定する。
FIG. 14 is a graph illustrating a method for calculating the transfer coefficient update coefficient.
In Expression (5) used for transfer characteristic learning (calculation) using the bone conduction sound signal, the amplitude spectrum Bmod of the bone conduction sound signal in the calculated transmission characteristic EH (i, t) as the update coefficient α decreases. The contribution of (i, t) increases. Therefore, for example, when the reliability R of the bone conduction sound signal is low, the update coefficient α is determined so that the contribution degree of the bone conduction signal of the frame t in the calculated transfer characteristic EH (i, t) is small.
骨導音信号の信頼度Rに応じて伝達特性の更新係数αを変更する場合、更新係数αの値は、例えば、図14に示すような信頼度Rと更新係数αとの対応関係に基づいて変更する。すなわち、骨導音信号の信頼度Rに応じて伝達特性の更新係数αを変更する場合、更新係数αは、下記式(9)を用いて算出する。 When changing the update coefficient α of the transfer characteristic according to the reliability R of the bone conduction sound signal, the value of the update coefficient α is based on, for example, the correspondence between the reliability R and the update coefficient α as shown in FIG. To change. That is, when the update coefficient α of the transfer characteristic is changed according to the reliability R of the bone conduction sound signal, the update coefficient α is calculated using the following formula (9).
更新係数αの最小値αminは、0<αmin<1の任意の値とし、例えば、αmin=0.95とする。また、第1の判定閾値RL及び第2の判定閾値RHは、0<RL<RH<1を満たす任意の値とし、例えば、RL=0.2、RH=0.7とする。 The minimum value αmin of the update coefficient α is an arbitrary value of 0 <αmin <1, for example, αmin = 0.95. The first determination threshold RL and the second determination threshold RH are arbitrary values that satisfy 0 <RL <RH <1, for example, RL = 0.2 and RH = 0.7.
骨導音信号の信頼度Rに応じて更新係数αを変更する場合、例えば、図12Aの骨導音信号を用いて伝達特性を学習する処理(ステップS12)において、式(9)により更新係数αを算出(決定)する。 When the update coefficient α is changed according to the reliability R of the bone conduction sound signal, for example, in the process of learning transfer characteristics using the bone conduction sound signal of FIG. 12A (step S12), the update coefficient is expressed by Expression (9). α is calculated (determined).
このように、骨導音信号の信頼度Rが低くなると更新係数αが大きくなるように信頼度Rに応じて更新係数αを変更することで、骨導音信号の信頼度Rが低い場合に式(5)で算出される伝達特性における骨導音信号の寄与度を小さくすることが可能となる。そのため、信頼度の低い骨導音信号(言い換えると利用者の音声を適切に反映していない骨導音信号)を用いて誤った伝達特性を学習(算出)することを防ぐことが可能となる。 As described above, when the reliability R of the bone conduction sound signal is low by changing the update coefficient α according to the reliability R so that the update coefficient α is increased when the reliability R of the bone conduction sound signal is low. It is possible to reduce the contribution degree of the bone conduction sound signal to the transfer characteristic calculated by Expression (5). Therefore, it is possible to prevent learning (calculation) of erroneous transfer characteristics using a bone conduction sound signal with low reliability (in other words, a bone conduction signal that does not properly reflect the user's voice). .
また、図14に示したような0≦R≦1の信頼度Rと更新係数αとの対応関係を参照して更新係数αを決定する場合、R<RLであると更新係数αが1となり、式(5)で算出した伝達特性に対する骨導音信号の寄与度は0となる。そのため、図14に示したような0≦R≦1の信頼度Rと更新係数αとの対応関係を参照して更新係数αを決定する場合、例えば、図12AにおけるステップS10の判定を省略可能である。 Further, when the update coefficient α is determined with reference to the correspondence relationship between the reliability R of 0 ≦ R ≦ 1 and the update coefficient α as shown in FIG. 14, the update coefficient α becomes 1 when R <RL. The contribution degree of the bone conduction sound signal to the transfer characteristic calculated by Expression (5) is zero. Therefore, when determining the update coefficient α with reference to the correspondence relationship between the reliability R of 0 ≦ R ≦ 1 and the update coefficient α as shown in FIG. 14, for example, the determination in step S10 in FIG. 12A can be omitted. It is.
また、図12A及び図12Bのエコー抑圧処理において骨導音信号の信頼度Rに応じて伝達特性の更新係数αを変更する場合、信頼度Rと更新係数αとの対応関係は、例えば、信頼度Rが閾値THよりも大きい範囲(TH<R≦1)のみを用意してもよい。 When the transfer characteristic update coefficient α is changed in accordance with the reliability R of the bone conduction sound signal in the echo suppression processing of FIGS. 12A and 12B, the correspondence relationship between the reliability R and the update coefficient α is, for example, the reliability Only a range in which the degree R is greater than the threshold value TH (TH <R ≦ 1) may be prepared.
[第4の実施形態]
本実施形態では、通話装置1が利用者の頭部から受ける圧力(押圧荷重)に基づいて骨導音信号の信頼度Rを算出する通話装置について説明する。
[Fourth Embodiment]
In the present embodiment, a communication device that calculates the reliability R of the bone conduction sound signal based on the pressure (pressing load) that the
図15は、第4の実施形態に係る通話装置における要部の機能的構成を示す図である。
図15に示すように、本実施形態の通話装置1は、レシーバ8と、第1のマイク9と、第2のマイク10と、送話信号処理部7と、圧力センサ15と、を備える。なお、本実施形態の通話装置1は、図15には示していないRF送受信部2、アンテナ3、ベースバンド処理部4、受話信号処理部8等を備える。
FIG. 15 is a diagram illustrating a functional configuration of a main part in the communication device according to the fourth embodiment.
As shown in FIG. 15, the
圧力センサ15は、通話時に通話装置1が利用者の頭部から受ける圧力の検出に用いる。そのため、圧力センサ15は、通話装置1において通話時に利用者の頭部と対向する面内の利用者の頭部が接触する領域に印加される圧力を検出可能な態様で通話装置1に搭載される。
The
送話信号処理部7は、利用者音声検出部701と、信頼度算出部706と、骨導音補正部704と、伝達特性学習部702と、エコー抑圧部703と、第1の記憶部711と、第2の記憶部712と、を含む。
The transmission
利用者音声検出部701は、第2のマイク10から入力される骨導音信号に含まれる通話装置1の利用者が発した音声を検出する。なお、本実施形態においても、利用者音声検出部701は、骨導音信号から利用者音声が検出された場合に、利用者音声を検出したと判定する。
The user
信頼度算出部706は、第2のマイク10から入力された骨導音信号の信頼度を算出する。本実施形態の信頼度算出部706は、圧力センサ15による圧力の検出結果に基づいて骨導音信号の信頼度を算出する。本実施形態の送話信号処理部7では、利用者音声検出部701において利用者音声を検出した場合に、信頼度算出部706において骨導音信号の信頼度を算出する。信頼度算出部706で算出した骨導音信号の信頼度は、伝達特性の学習に補正した骨導音信号を用いるか否かの判定に用いる。
The
骨導音補正部704は、第2の記憶部712に記憶させた骨導音補正特性に基づいて、骨導音信号を補正する。本実施形態の送話信号処理部7では、利用者音声検出部701において利用者音声を検出し、かつ骨導音信号の信頼度が閾値よりも大きい場合に、骨導音補正部704による骨導音信号の補正を行う。
The bone conduction
伝達特性学習部702は、レシーバ8から第1のマイク9に伝播する音の伝達特性を学習する。本実施形態に係る伝達特性学習部702は、利用者音声が検出されなかった場合、及び利用者音声を検出したが骨導音信号の信頼度が閾値以下である場合には、受話信号及び気導音信号のみを用いて伝達特性を学習する。また、伝達特性学習部702は、利用者音声を検出し、かつ骨導音信号の信頼度が閾値よりも大きい場合には、受話信号、気導音信号、及び補正した骨導音信号を用いて伝達特性を学習する。
The transfer
エコー抑圧部703は、伝達特性学習部702において学習した伝達特性に基づいて、気導音信号に含まれるエコー成分を抑圧する。エコー抑圧部703は、受話信号に伝達特性を適用して気導音信号に含まれるエコー成分を推定し、推定したエコー成分を気導音信号から除去する。
The
第1の記憶部711には、伝達特性の初期値、及び伝達特性学習部702において学習した伝達特性を記憶させる。第2の記憶部712には、骨導音補正特性を記憶させる。
The
本実施形態の通話装置1と他の通話装置との呼接続が確立されると、音声信号処理部5の送話信号処理部7は、図12A及び図12Bに示したエコー抑圧処理を行う。なお、本実施形態に係るエコー抑圧処理では、骨導音信号の信頼度Rを算出する処理(ステップS9)を信頼度算出部706が行う。信頼度算出部706は、圧力センサ15が検出した圧力(言い換えると通話装置1が利用者の頭部から受ける圧力)に基づいて骨導音信号の信頼度Rを算出する。
When the call connection between the
図16は、第4の実施形態における骨導音信号の信頼度の算出方法を説明するグラフである。 FIG. 16 is a graph for explaining a calculation method of the reliability of the bone conduction sound signal in the fourth embodiment.
圧力センサ15が検出した圧力に基づいて骨導音信号の信頼度を算出する際には、例えば、図16に示すような圧力Pと信頼度Rとの対応関係に基づいて算出する。すなわち、圧力センサ15が検出した圧力Pに基づいて骨導音信号の信頼度Rを算出する場合、信頼度Rは、下記式(10)を用いて算出する。
When calculating the reliability of the bone conduction sound signal based on the pressure detected by the
第1の圧力閾値PL及び第2の圧力閾値PHは、0<PL<PHを満たす任意の値とし、例えば、PL=0.2kPa、PH=1.2kPaとする。 The first pressure threshold value PL and the second pressure threshold value PH are arbitrary values satisfying 0 <PL <PH, for example, PL = 0.2 kPa and PH = 1.2 kPa.
利用者が頭部に通話装置1を押し付ける力が大きいほど、圧力センサ15が検出する圧力Pは大きな値となる。また、利用者が所定の押圧力よりも大きい力で頭部に通話装置1を押し付けている場合、利用者の頭部から通話装置1(第2のマイク10)に骨導音が正しく伝達される。逆に、利用者が頭部に通話装置1を押し付ける力が小さい場合、利用者の頭部から通話装置1(第2のマイク10)に伝達される骨導音が不安定になる。そのため、本実施形態に係るエコー抑圧処理においては、通話装置1が利用者の頭部から受ける圧力Pに基づいて算出した骨導音信号の信頼度Rが閾値THよりも大きい場合にのみ、伝達特性の学習に補正した骨導音信号を用いる。これにより、利用者音声を適切に反映していない骨導音信号を用いて誤った伝達特性を学習(算出)することを防ぐことが可能となる。
The greater the force with which the user presses the
また、骨導音信号の信頼度Rは、骨導音信号と気導音信号との相関係数に基づいて算出した第1の信頼度Rcorrと、圧力センサ15が検出した圧力Pに基づいて算出した第2の信頼度Rpとを用い、下記式(11)により算出してもよい。
The reliability R of the bone conduction sound signal is based on the first reliability Rcorr calculated based on the correlation coefficient between the bone conduction sound signal and the air conduction sound signal, and the pressure P detected by the
R=β×Rcorr+(1−β)×Rp ・・・(11) R = β × Rcorr + (1−β) × Rp (11)
式(11)の第1の信頼度Rcorr及び第2の信頼度Rpは、それぞれ、例えば式(8)及び式(10)を用いて算出する。また、式(11)のβは、重み係数である。重み係数βは、0≦β≦1を満たす任意の値とし、例えば、β=0.5とする。 The first reliability Rcorr and the second reliability Rp in Expression (11) are calculated using, for example, Expression (8) and Expression (10), respectively. Further, β in the equation (11) is a weighting factor. The weighting coefficient β is an arbitrary value satisfying 0 ≦ β ≦ 1, for example, β = 0.5.
式(11)のように異なる情報を用いて算出した複数の信頼度に基づいて骨導音信号の信頼度Rを決定(算出)することにより、信頼度Rの精度(信頼性)を高くすることが可能となる。そのため、利用者音声を適切に反映していない骨導音信号を用いた誤った伝達特性の学習(算出)をより効果的に防止することが可能となる。 The reliability (reliability) of the reliability R is increased by determining (calculating) the reliability R of the bone conduction sound signal based on a plurality of reliability calculated using different information as in Expression (11). It becomes possible. Therefore, it becomes possible to more effectively prevent learning (calculation) of erroneous transfer characteristics using a bone conduction sound signal that does not properly reflect the user voice.
なお、第1〜第4の実施形態で示した送話信号処理部7(通話装置1)の機能的構成は一例に過ぎず、各実施形態で説明したエコー抑圧処理を実行可能であれば他の構成であってもよい。 Note that the functional configuration of the transmission signal processing unit 7 (calling device 1) shown in the first to fourth embodiments is merely an example, and the echo suppression processing described in each embodiment can be executed. It may be configured as follows.
また、図3〜図6、図8A及び図8B、図9、図10、並びに図12A及び図12Bに示したフローチャートはいずれも一例に過ぎず、処理内容や処理手順は適宜変更可能である。 Also, the flowcharts shown in FIGS. 3 to 6, 8A and 8B, 9, 10, 12 </ b> A and 12 </ b> B are only examples, and the processing content and processing procedure can be changed as appropriate.
また、第1〜第4の実施形態に係る通話装置1は、例えば、コンピュータと、当該コンピュータに実行させるプログラムとを用いて実現することが可能である。以下、コンピュータとプログラムとを用いて実現される通話装置1について、図17を参照して説明する。
Moreover, the
図17は、コンピュータのハードウェア構成を示す図である。
図17に示すように、コンピュータ20は、プロセッサ2001と、主記憶装置2002と、補助記憶装置2003と、入力装置2004と、表示装置2005と、インタフェース装置2006と、通信制御装置2007と、記憶媒体駆動装置2008と、を備える。コンピュータ20におけるこれらの要素2001〜2008は、バス2010により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
FIG. 17 is a diagram illustrating a hardware configuration of a computer.
As shown in FIG. 17, the
プロセッサ2001は、Central Processing Unit(CPU)等の演算処理装置であり、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ20の全体の動作を制御する。
The
主記憶装置2002は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置2002のROMには、例えばコンピュータ20の起動時にプロセッサ2001が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置2002のRAM は、プロセッサ2001が各種のプログラムを実行する際に、必要に応じて作業用記憶領域として使用する。主記憶装置2002のRAMは、例えば、伝達特性や骨導音補正特性等の記憶に利用可能である。
The
補助記憶装置2003は、Hard Disk Drive(HDD)やSolid State Drive(SSD)等の主記憶装置2002に比べて容量の大きい記憶装置である。補助記憶装置2003には、プロセッサ2001によって実行される各種のプログラムや各種のデータ等を記憶させることができる。補助記憶装置2003は、例えば、図3〜図6に示した処理を含む通話用プログラム等の記憶に利用可能である。また、補助記憶装置2003は、例えば、伝達特性や骨導音補正特性等の記憶に利用可能である。
The
入力装置2004は、例えばキーボード装置やタッチパネル装置である。コンピュータ20のオペレータ(利用者)が入力装置2004に対し押下する等の操作を行うと、入力装置2004は、その操作内容に対応付けられている入力情報をプロセッサ2001に送信する。
The
表示装置2005は、例えば液晶ディスプレイである。表示装置2005は、プロセッサ2001等から送信される表示データに従って各種のテキスト画面、画像等を表示する。
The
インタフェース装置2006は、コンピュータ20と他の電子装置等とを接続する装置であり、Universal Serial Bus(USB)規格のコネクタ等を備える。インタフェース装置2006によりコンピュータ20と接続可能な装置には、レシーバ8、第1のマイク9、第2のマイク10等がある。
The
通信制御装置2007は、電話網やインターネット等のネットワーク21を介したコンピュータ20と他の通信機器との各種通信を制御する装置である。通信制御装置2007が行う通信の制御には、ネットワーク21を介したコンピュータ20と他の通話装置22との通話(音声信号の送受信)の制御が含まれる。
The
記憶媒体駆動装置2008は、図示しない可搬型記憶媒体に記録されているプログラムやデータの読み出し、補助記憶装置2003に記憶されたデータ等の可搬型記憶媒体への書き込みを行う。可搬型記憶媒体としては、例えば、USB規格のコネクタが備えられているフラッシュメモリが利用可能である。また、可搬型記憶媒体としては、Compact Disk(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等の光ディスクも利用可能である。
The storage
コンピュータ20は、プロセッサ2001が補助記憶装置2003等から図3〜図6の処理を含むプログラムを読み出し、第1のマイク9から入力された気導音信号のエコー成分を抑圧しながら他の通話装置22との間で音声信号の送受信を行う。
In the
なお、通話装置1として用いるコンピュータ20は、図17に示した全ての構成要素を含む必要はなく、用途や条件に応じて一部の構成要素を省略することも可能である。例えば、インタフェース装置2006を省略してレシーバ8、第1のマイク9、第2のマイク10等をプリント回路板に直接接続することも可能である。
Note that the
以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
音声信号を気導音として出力するレシーバと、
気導音を収音する第1のマイクと、
骨導音を収音する第2のマイクと、
前記レシーバから前記第1のマイクへの音声の伝達特性に基づいて、前記第1のマイクから入力された気導音信号に含まれるエコー成分を抑圧するエコー抑圧部と、
前記第2のマイクから入力された骨導音信号の入力レベルが所定の閾値以下である場合に、前記レシーバから出力させる受話信号、及び前記気導音信号に基づいて前記伝達特性を学習する伝達特性学習部と、
を備えることを特徴とする通話装置。
(付記2)
前記伝達特性学習部は、前記骨導音信号の入力レベルが前記閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて前記伝達特性を学習する、
ことを特徴とする付記1に記載の通話装置。
(付記3)
予め前記気導音信号及び前記骨導音信号に基づいて算出した骨導音補正特性と、前記骨導音信号とに基づいて、前記骨導音信号を補正する骨導音補正部、を更に備え、
前記伝達特性学習部は、前記骨導音信号の入力レベルが前記閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音補正部で補正した前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、
ことを特徴とする付記2に記載の通話装置。
(付記4)
前記骨導音信号の入力レベルが前記閾値を超えている場合に、前記骨導音信号が前記骨導音の音源が発した音声を反映した音声信号であることの信頼度を算出する信頼度算出部、を更に備え、
前記伝達特性学習部は、前記骨導音信号の信頼度が所定の閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、
ことを特徴とする付記2に記載の通話装置。
(付記5)
前記信頼度算出部は、前記骨導音信号と前記気導音信号との相関係数に基づいて前記骨導音信号の信頼度を算出する、
ことを特徴とする付記4に記載の通話装置。
(付記6)
前記通話装置は、前記骨導音の音源から受ける圧力を検出する態様で当該通話装置に設けられた圧力センサ、を更に備え、
前記信頼度算出部は、前記圧力センサが検出した圧力に基づいて前記骨導音信号の信頼度を算出する、
ことを特徴とする付記4に記載の通話装置。
(付記7)
前記伝達特性学習部は、前記骨導音信号の入力レベルが前記閾値を超えており、かつ前記受話信号に音声が含まれる場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、
ことを特徴とする付記2に記載の通話装置。
(付記8)
気導音を収音する第1のマイクから気導音信号を取得するとともに骨導音を収音する第2のマイクから骨導音信号を取得し、
前記骨導音信号の入力レベルが所定の閾値以下である場合に、レシーバから出力させる受話信号と、前記気導音信号とに基づいて、前記レシーバから前記第1のマイクへの音声の伝達特性を学習し、
前記伝達特性に基づいて、前記第1のマイクから入力された気導音信号を補正する、
処理をコンピュータに実行させる音声信号補正プログラム。
(付記9)
前記骨導音信号の入力レベルが前記閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて前記伝達特性を学習する、処理を前記コンピュータに更に実行させる、
ことを特徴とする付記8に記載の音声信号補正プログラム。
(付記10)
前記骨導音信号の入力レベルが前記閾値を超えている場合の前記伝達特性を学習する処理は、
予め前記気導音信号及び前記骨導音信号に基づいて算出した骨導音補正特性と、前記骨導音信号とに基づいて、前記骨導音信号を補正し、
前記受話信号と、前記気導音信号から補正した前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、処理を含む、
ことを特徴とする付記9に記載の音声信号補正プログラム。
(付記11)
前記骨導音信号の入力レベルが前記閾値を超えている場合の前記伝達特性を学習する処理は、
前記骨導音信号が前記骨導音の音源が発した音声を反映した音声信号であることの信頼度を算出し、
前記骨導音信号の信頼度が所定の閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、処理を含む、
ことを特徴とする付記9に記載の音声信号補正プログラム。
(付記12)
前記骨導音信号と前記気導音信号との相関係数に基づいて前記骨導音信号の信頼度を算出する、処理をコンピュータに実行させる、
ことを特徴とする付記10に記載の音声信号補正プログラム。
(付記13)
前記骨導音信号の信頼度を算出する処理は、
前記第2のマイクを設置した筐体が前記骨導音の音源から受ける圧力を取得し、
取得した前記圧力に基づいて前記骨導音信号の信頼度を算出する、処理を含む、
ことを特徴とする付記10に記載の音声信号補正プログラム。
(付記14)
前記骨導音信号の入力レベルが前記閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて前記伝達特性を学習する、処理を前記コンピュータに更に実行させる、
ことを特徴とする付記9に記載の音声信号補正プログラム。
(付記15)
前記気導音信号を補正する処理は、
前記伝達特性と前記受話信号とに基づいて、前記気導音信号に含まれる前記レシーバから出力させた音声成分を推定し、
推定した前記音声成分を前記気導音信号から減算する、処理を含む、
ことを特徴とする付記8に記載の音声信号補正プログラム。
The following additional notes are further disclosed with respect to the embodiments including the examples described above.
(Appendix 1)
A receiver that outputs an audio signal as air conduction sound;
A first microphone that collects the air conduction sound;
A second microphone for picking up bone conduction sound;
An echo suppression unit that suppresses an echo component included in an air conduction sound signal input from the first microphone based on a transmission characteristic of sound from the receiver to the first microphone;
Transmission that learns the transfer characteristic based on the received signal to be output from the receiver and the air conduction sound signal when the input level of the bone conduction sound signal inputted from the second microphone is equal to or lower than a predetermined threshold value A characteristic learning unit;
A call device comprising:
(Appendix 2)
The transfer characteristic learning unit, when an input level of the bone conduction sound signal exceeds the threshold, the received signal, and a voice signal obtained by subtracting the bone conduction signal from the air conduction signal; Learning the transfer characteristics based on
The telephone call device according to
(Appendix 3)
A bone conduction sound correction unit that corrects the bone conduction sound signal based on the bone conduction sound correction characteristic calculated in advance based on the air conduction sound signal and the bone conduction sound signal, and the bone conduction sound signal; Prepared,
When the input level of the bone conduction sound signal exceeds the threshold, the transfer characteristic learning unit corrects the bone conduction sound signal corrected by the bone conduction sound correction unit from the received signal and the air conduction sound signal. Learning transfer characteristics based on the audio signal obtained by subtracting
The telephone call device according to
(Appendix 4)
A reliability for calculating a reliability of the bone conduction sound signal reflecting a sound emitted from the sound source of the bone conduction sound when an input level of the bone conduction sound signal exceeds the threshold; A calculation unit,
The transfer characteristic learning unit is configured to subtract the bone conduction sound signal from the received signal and the air conduction sound signal when the reliability of the bone conduction sound signal exceeds a predetermined threshold. Learn transfer characteristics based on
The telephone call device according to
(Appendix 5)
The reliability calculation unit calculates the reliability of the bone conduction sound signal based on a correlation coefficient between the bone conduction sound signal and the air conduction sound signal.
The telephone call device according to
(Appendix 6)
The communication device further includes a pressure sensor provided in the communication device in a mode of detecting pressure received from the bone conduction sound source,
The reliability calculation unit calculates the reliability of the bone conduction sound signal based on the pressure detected by the pressure sensor.
The telephone call device according to
(Appendix 7)
The transfer characteristic learning unit, when an input level of the bone conduction sound signal exceeds the threshold value and the speech signal includes voice, the bone conduction sound from the reception signal and the air conduction sound signal. Learning transfer characteristics based on the audio signal obtained by subtracting the signal,
The telephone call device according to
(Appendix 8)
Obtaining an air conduction sound signal from a first microphone that collects the air conduction sound and obtaining a bone conduction sound signal from a second microphone that collects the bone conduction sound;
Transfer characteristics of sound from the receiver to the first microphone based on the reception signal output from the receiver and the air conduction sound signal when the input level of the bone conduction sound signal is equal to or lower than a predetermined threshold value To learn and
Correcting the air conduction sound signal input from the first microphone based on the transfer characteristic;
An audio signal correction program that causes a computer to execute processing.
(Appendix 9)
When the input level of the bone conduction sound signal exceeds the threshold, the transfer characteristic is determined based on the received signal and an audio signal obtained by subtracting the bone conduction signal from the air conduction sound signal. Learning, causing the computer to perform further processing,
The audio signal correction program according to
(Appendix 10)
The process of learning the transfer characteristic when the input level of the bone conduction sound signal exceeds the threshold,
Based on the bone conduction sound correction characteristic calculated based on the air conduction sound signal and the bone conduction sound signal in advance, and the bone conduction sound signal, the bone conduction sound signal is corrected,
Learning a transfer characteristic based on the received signal and an audio signal obtained by subtracting the bone conduction sound signal corrected from the air conduction sound signal,
The audio signal correction program according to
(Appendix 11)
The process of learning the transfer characteristic when the input level of the bone conduction sound signal exceeds the threshold,
Calculating the reliability that the bone conduction sound signal is an audio signal reflecting the sound emitted by the bone conduction sound source;
When the reliability of the bone conduction sound signal exceeds a predetermined threshold value, transfer characteristics are determined based on the received signal and an audio signal obtained by subtracting the bone conduction signal from the air conduction sound signal. Learn, process,
The audio signal correction program according to
(Appendix 12)
Calculating a reliability of the bone conduction sound signal based on a correlation coefficient between the bone conduction sound signal and the air conduction sound signal, causing the computer to execute a process;
The audio signal correction program according to
(Appendix 13)
The process of calculating the reliability of the bone conduction sound signal,
Obtaining the pressure received by the case where the second microphone is installed from the bone conduction sound source;
Calculating the reliability of the bone conduction sound signal based on the acquired pressure, including processing,
The audio signal correction program according to
(Appendix 14)
When the input level of the bone conduction sound signal exceeds the threshold, the transfer characteristic is determined based on the received signal and an audio signal obtained by subtracting the bone conduction signal from the air conduction sound signal. Learning, causing the computer to perform further processing,
The audio signal correction program according to
(Appendix 15)
The process of correcting the air conduction sound signal is as follows:
Based on the transfer characteristics and the received signal, the speech component output from the receiver included in the air conduction sound signal is estimated,
Subtracting the estimated audio component from the air conduction sound signal, including processing.
The audio signal correction program according to
1 通話装置
2 RF送受信部
3 アンテナ
4 ベースバンド処理部
5 音声信号処理部
6 受話信号処理部
7 送話信号処理部
701 利用者音声検出部
702 伝達特性学習部
703 エコー抑圧部
704 骨導音補正部
705,706 信頼度算出部
711 (第1の)記憶部
712 第2の記憶部
8 レシーバ
9 第1のマイク
10 第2のマイク
15 圧力センサ
20 コンピュータ
2001 プロセッサ
2002 主記憶装置
2003 補助記憶装置
2004 入力装置
2005 表示装置
2006 インタフェース装置
2007 通信制御装置
2008 記憶媒体駆動装置
21 ネットワーク
22 通話装置
DESCRIPTION OF
Claims (7)
気導音を収音する第1のマイクと、
骨導音を収音する第2のマイクと、
前記レシーバから前記第1のマイクへの音声の伝達特性に基づいて、前記第1のマイクから入力された気導音信号に含まれるエコー成分を抑圧するエコー抑圧部と、
前記第2のマイクから入力された骨導音信号の入力レベルが所定の閾値以下である場合に、前記レシーバから出力させる受話信号、及び前記気導音信号に基づいて前記伝達特性を学習する伝達特性学習部と、
を備えることを特徴とする通話装置。 A receiver that outputs an audio signal as air conduction sound;
A first microphone that collects the air conduction sound;
A second microphone for picking up bone conduction sound;
An echo suppression unit that suppresses an echo component included in an air conduction sound signal input from the first microphone based on a transmission characteristic of sound from the receiver to the first microphone;
Transmission that learns the transfer characteristic based on the received signal to be output from the receiver and the air conduction sound signal when the input level of the bone conduction sound signal inputted from the second microphone is equal to or lower than a predetermined threshold value A characteristic learning unit;
A call device comprising:
ことを特徴とする請求項1に記載の通話装置。 The transfer characteristic learning unit, when an input level of the bone conduction sound signal exceeds the threshold, the received signal, and a voice signal obtained by subtracting the bone conduction signal from the air conduction signal; Learn transfer characteristics based on
The call device according to claim 1.
前記伝達特性学習部は、前記骨導音信号の入力レベルが前記閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音補正部で補正した前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、
ことを特徴とする請求項2に記載の通話装置。 A bone conduction sound correction unit that corrects the bone conduction sound signal based on the bone conduction sound correction characteristic calculated in advance based on the air conduction sound signal and the bone conduction sound signal, and the bone conduction sound signal; Prepared,
When the input level of the bone conduction sound signal exceeds the threshold, the transfer characteristic learning unit corrects the bone conduction sound signal corrected by the bone conduction sound correction unit from the received signal and the air conduction sound signal. Learning transfer characteristics based on the audio signal obtained by subtracting
The communication device according to claim 2.
前記伝達特性学習部は、前記骨導音信号の信頼度が所定の閾値を超えている場合に、前記受話信号と、前記気導音信号から前記骨導音信号を減算して得られる音声信号とに基づいて伝達特性を学習する、
ことを特徴とする請求項2に記載の通話装置。 A reliability for calculating a reliability of the bone conduction sound signal reflecting a sound emitted from the sound source of the bone conduction sound when an input level of the bone conduction sound signal exceeds the threshold; A calculation unit,
The transfer characteristic learning unit is configured to subtract the bone conduction sound signal from the received signal and the air conduction sound signal when the reliability of the bone conduction sound signal exceeds a predetermined threshold. Learn transfer characteristics based on
The communication device according to claim 2.
ことを特徴とする請求項4に記載の通話装置。 The reliability calculation unit calculates the reliability of the bone conduction sound signal based on a correlation coefficient between the bone conduction sound signal and the air conduction sound signal.
The call device according to claim 4, wherein:
前記信頼度算出部は、前記圧力センサが検出した圧力に基づいて前記骨導音信号の信頼度を算出する、
ことを特徴とする請求項4に記載の通話装置。 The communication device further includes a pressure sensor provided in the communication device in a mode of detecting pressure received from the bone conduction sound source,
The reliability calculation unit calculates the reliability of the bone conduction sound signal based on the pressure detected by the pressure sensor.
The call device according to claim 4, wherein:
前記骨導音信号の入力レベルが所定の閾値以下である場合に、レシーバから出力させる受話信号と、前記気導音信号とに基づいて、前記レシーバから前記第1のマイクへの音声の伝達特性を学習し、
前記伝達特性に基づいて、前記第1のマイクから入力された気導音信号を補正する、
処理をコンピュータに実行させる音声信号補正プログラム。 Obtaining an air conduction sound signal from a first microphone that collects the air conduction sound and obtaining a bone conduction sound signal from a second microphone that collects the bone conduction sound;
Transfer characteristics of sound from the receiver to the first microphone based on the reception signal output from the receiver and the air conduction sound signal when the input level of the bone conduction sound signal is equal to or lower than a predetermined threshold value To learn and
Correcting the air conduction sound signal input from the first microphone based on the transfer characteristic;
An audio signal correction program that causes a computer to execute processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001367A JP2017123554A (en) | 2016-01-06 | 2016-01-06 | Speech apparatus and audio signal correction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016001367A JP2017123554A (en) | 2016-01-06 | 2016-01-06 | Speech apparatus and audio signal correction program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017123554A true JP2017123554A (en) | 2017-07-13 |
Family
ID=59306466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016001367A Pending JP2017123554A (en) | 2016-01-06 | 2016-01-06 | Speech apparatus and audio signal correction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017123554A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782912A (en) * | 2019-10-10 | 2020-02-11 | 安克创新科技股份有限公司 | Sound source control method and speaker device |
-
2016
- 2016-01-06 JP JP2016001367A patent/JP2017123554A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782912A (en) * | 2019-10-10 | 2020-02-11 | 安克创新科技股份有限公司 | Sound source control method and speaker device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3084756B1 (en) | Systems and methods for feedback detection | |
JP4247002B2 (en) | Speaker distance detection apparatus and method using microphone array, and voice input / output apparatus using the apparatus | |
US8644496B2 (en) | Echo suppressor, echo suppressing method, and computer readable storage medium | |
JP5036874B2 (en) | Echo canceller | |
EP3058710B1 (en) | Detecting nonlinear amplitude processing | |
US9135924B2 (en) | Noise suppressing device, noise suppressing method and mobile phone | |
EP2643834B1 (en) | Device and method for producing an audio signal | |
EP2920950B1 (en) | Echo suppression | |
CN102474541B (en) | For controlling the device of acoustic signal, method and computer program | |
US20110081026A1 (en) | Suppressing noise in an audio signal | |
EP2920949B1 (en) | Echo suppression | |
KR101610161B1 (en) | System and method for speech recognition | |
JP2016092822A (en) | Gain control system and gain control method | |
EP2982101B1 (en) | Noise reduction | |
JP5391103B2 (en) | Multi-channel echo canceling method, multi-channel echo canceling apparatus, multi-channel echo canceling program and recording medium therefor | |
EP2700161B1 (en) | Processing audio signals | |
US20140341386A1 (en) | Noise reduction | |
US20190075403A1 (en) | Method of detecting a defect in a hearing instrument, and hearing instrument | |
EP2920948B1 (en) | Echo suppression | |
US9485572B2 (en) | Sound processing device, sound processing method, and program | |
EP3252765B1 (en) | Noise suppression in a voice signal | |
JP2017123554A (en) | Speech apparatus and audio signal correction program | |
CN112866877B (en) | Speaker control method, speaker control device, electronic apparatus, and storage medium | |
KR20090122802A (en) | Method and apparatus for acoustic echo cancellation using spectral subtraction | |
JP2016025471A (en) | Echo suppression device, echo suppression program, echo suppression method and communication terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200107 |