【発明の詳細な説明】
ステート・マシン制御スイッチによるエコー減少電話
発明の技術分野
本発明は一般に電気通信に関係し、特にインターネットを介した音声通信用の
音声処理に関係する。
関連技術の説明
標準的なインターネット電話は、音声ボード、マイクロフォン及び2個のスピ
ーカを有するPCを使用する。マイクロフォンとスピーカはしばしば机上で互いに
近接して配置される。このような構成により受信端でエコーとして聞こえる相当
量の漏話が発生する。インターネット電話を使用可能とするにはこのエコーを抑
止しなければならない。
GSMでは、移動電話のユーザーが会話中であるか又は会話中でない時を検出す
るためVAD(Voice Activity Detection、音声活動検出)を使用することが公知
である。この情報を使用して、音声を送信する時には帯域幅を減少することかが
可能である。VOX原理(Voice Operated Transmission、音声操作送信)による不
連続音声コーディングでは、VAD装置は受取った音声列が人間の音声であるかど
うかを検出する責任がある。VAD装置は2つの異なる状態、すなわち音声列が人
間の声であることを指示する第1状態と、音声列が人間の声ではないことを指示
する他の状態を取る。
VAD装置が、与えられた音声列が人間の音声を表していることを検出した場合
、VAD装置は、音声列を音声フレームにコード化する音声コーディング装置へ第
1状態信号を発行する。反対に、与えられた音声列が人間の声以外の何かを表し
ている場合、VAD装置はSID(Silnce Descriptor、静寂記述子)装置へ第2状態
信号を発行する。前記SID装置は各N番目のフレームにSIDフレームを送り出す。
残りのN-1のフレームを送信する可能な機会の間は、何も送信されない。SIDフレ
ームは送信側の概算背景雑音と概算雑音スペクトルに関する情報を含む。この処
理により電池電力と無線帯域幅が節約可能となる。
SID装置が第1状態信号を発生している状態から第2状態信号を発生している
状態へ、すなわち音声を検出している状態から非音声時間間隔を検出する状態へ
変化すると、いわゆるハングオーバー(hang-over)が通常適用されて、この間
音声コーディング装置は受取った音声列が人間の音声であるかのように音声フレ
ームを送り続ける。ハングオーバー時間後に、VAD装置が依然として非音声を検
出している場合、SIDフレームが発生される。この処理の理由は、人間の声の単
語間の短い休止は非音声と解釈されるべきではなく、音声フレーム発生器は依然
としてアクティブでなければならないからである。
発明の要旨
本発明は漏話により導入されるエコーの減少用の方法と装置を開示する。
本発明の目的は従って漏話により生じるエコーを減少することである。
上述した問題、漏話により生じるエコーをいかに減少するかは、マイクロフォ
ンからの信号の信号のエネルギ、マイクロフォンからの信号のVADフラグ、スピ
ーカへの信号の信号エネルギ、及びスピーカへの信号のVADフラグを入力として
取るステートマシンにより制御されるスイッチをスピーカとマイクロフォンに入
れることにより解決される。
本発明の利点の1つは、そう多くの計算能力を必要とすることなく、漏話によ
り生じるエコーが著しく減少することである。
その他の利点は、以下の詳細な説明の下で当業者には明らかである。
本発明の更なる適用範囲は以下に与える詳細な説明から明らかとなる。しかし
ながら、以下の詳細な説明から本発明の範囲内の各種の変更や修正が当業者には
明らかとなるため、本発明の望ましい実施例は単なる説明用に与えたものである
ことを理解すべきである。
図面の簡単な説明
図1は本発明の1実施例のブロック線図である。
図2は有限状態図である。
望ましい実施例の詳細な説明
図1では、マイクロフォン101はGSMエンコーダ102に接続される。GSMエ
ンコーダ102に信号が到達する前に、既知の技術に従ってディジタル化されサ
ンプルされるが、これは図1には示されていない。GSMエンコーダ102から、
コード化信号は図面に図示されていない受信器に送信され、最初に送信を付勢ま
たは減勢可能なスイッチ103を通過する。GSMエンコーダ102からはVAD装置
104にACFE(Autocorrection CoeFficient、自動訂正係数)が渡される。VAD
装置105にはGSMフレームから長期予測装置ラグ値NEも渡される。VAD装置10
4からは、有限ステート・マシン105へ信号のエネルギを表す値PEが渡される
。VAD装置104が人間の音声を検出したかどうかを指示するフラグFEもVAD装置
104は計算する。フラグFEは有限ステート・マシン105に渡される。フラグ
FEは人間の音声を検出した場合に真である。
さらに図1には、送信者(図示せず)から受信し、GSMデコーダ106へ渡さ
れるサンプルされたコード化音声信号がある。GSMデコーダ106から、デコー
ドされサンプルされた音声信号がスピーカ107に渡され、最初に音声信号がス
ピーカに到達することをエイブルまたはディスエイブル可能なスイッチ108を
通る。スピーカが正しく機能するためには、既知技術によるD/A変換を必要とす
るが、図1には図示されていない。受信したサンプルされたコード化音声信号か
ら長期予測装置ラグ値NDが演鐸されVAD装置109に渡される。
GSMフレームのデコードは通常VAD装置の使用には関係していないため、GSMデ
コーダはACFを計算するための必要なパラメータが不足している。ACFを計算可能
とするため、自動相関装置110がGSMデコーダ106からのデータを受け取っ
てVAD装置109へ渡されるACFDを計算する。自動相関装置110は基準に記載
されているようにGSMデコーダの一部である。スピーカへの音声信号のエネルギ
の指示である値PDがVAD装置109から有限ステート・マシン105に渡される
。VAD装置109からは、VAD装置が人間の音声を検出したかどうかを指示するフ
ラグFDが前記有限ステート・マシンに渡される。
有限ステート・マシン106は、有限ステート・マシンに入力される値に応じ
てスイッチ103と109を設定する機能を含む。
図2に、図1の有限ステート・マシンの状態と可能な遷移を図示する。
状態間の遷移は以下の説明に従って行われる。以下の定義が使用される:
・FE:コード化時のVADフラグ
・FD:デコード時のVADフラグ
・PE:コード化時の信号エネルギ
・PD:デコード時の信号エネルギ
・ハングオーバー:方向を切り替える決定から切替が行われるまでの時間。この
時間は部屋のエコーを補償する十分な長さがなければならない。
201.FE=1かつFD=0またはFE=1かつPE>PD、ハングオーバー=0
202.FE=0、ハングオーバー=600ms
203.FD=1かつFE=0またはFD=1かつPD>PE、ハングオーバー=0
204.FD=0、ハングオーバー=600ms
205.FD=1かつPD>PE、ハングオーバー=600ms
206.FE=1かつPE>PD、ハングオーバー=600ms
状態送信中207では、マイクロフォンから音声信号の送信を制御するスイッ
チはエイブルされ、スピーカへ音声信号の送信を制御するスイッチはディスエイ
ブルされる。状態受信中208では、マイクロフォンから音声信号の送信を制御
するスイッチはディスエイブルされ、スピーカへの送信を制御するスイッチはエ
イブルされる。アイドル状態209では両方のスイッチがディスエイブルされる
。
本発明を以上のように説明してきたが、同じものが多数の方法に変更できるこ
とは明らかである。このような変更は本発明の要旨と範囲から逸脱するものとは
見なせるものではなく、当業者には明らかなこの様な全ての変更は以下の請求の
範囲の範囲内に含まれるものと見なせる。Description: FIELD OF THE INVENTION The present invention relates generally to telecommunications, and more particularly to voice processing for voice communications over the Internet. 2. Description of the Related Art A standard Internet phone uses a PC with a voice board, microphone and two speakers. Microphones and speakers are often placed close to each other on a desk. Such a configuration causes a considerable amount of crosstalk that can be heard as an echo at the receiving end. This echo must be suppressed to enable internet telephony. In GSM, VAD for detecting when the user of the mobile telephone is not in or conversation is a conversation (V oice A ctivity D etection, voice activity detection) is known to use. Using this information, it is possible to reduce the bandwidth when transmitting voice. VOX principles (V oice O perated Transmission, voice operated transmission) In the discontinuous speech coding by, the VAD apparatus is responsible for voice string received to detect whether the human voice. The VAD device takes two different states, a first state indicating that the speech sequence is a human voice and another state indicating that the speech sequence is not a human voice. If the VAD device detects that the given speech sequence represents human speech, the VAD device issues a first state signal to a speech coding device that encodes the speech sequence into speech frames. Conversely, the voice string given when they represent something other than a human voice, VAD apparatus SID (Si lnce D escriptor, silence descriptor) issues a second status signal to the apparatus. The SID device sends out a SID frame for each Nth frame. Nothing is transmitted during the possible opportunities to transmit the remaining N-1 frames. The SID frame contains information about the estimated background noise and the estimated noise spectrum of the transmitting side. This process can save battery power and wireless bandwidth. When the SID device changes from generating the first status signal to generating the second status signal, that is, from detecting voice to non-voice time interval, a so-called hangover occurs. (Hang-over) is usually applied, during which the speech coding device continues to send speech frames as if the received speech sequence were human speech. After the hangover time, if the VAD device is still detecting non-voice, a SID frame is generated. The reason for this processing is that short pauses between words in the human voice should not be interpreted as non-speech, and the speech frame generator must still be active. SUMMARY OF THE INVENTION The present invention discloses a method and apparatus for reducing echo introduced by crosstalk. It is therefore an object of the present invention to reduce the echo caused by crosstalk. The above problems, how to reduce the echo caused by the crosstalk, input the signal energy of the signal from the microphone, the VAD flag of the signal from the microphone, the signal energy of the signal to the speaker, and the VAD flag of the signal to the speaker The problem is solved by putting a switch controlled by a state machine taking into the speaker and microphone. One of the advantages of the present invention is that echoes caused by crosstalk are significantly reduced without requiring much computing power. Other advantages will be apparent to those skilled in the art under the following detailed description. Further areas of applicability of the present invention will become apparent from the detailed description provided hereinafter. However, it should be understood that preferred embodiments of the present invention have been given by way of illustration only, since various changes and modifications within the scope of the invention will become apparent to those skilled in the art from the following detailed description. It is. BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram of one embodiment of the present invention. FIG. 2 is a finite state diagram. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT In FIG. 1, a microphone 101 is connected to a GSM encoder 102. Before the signal reaches the GSM encoder 102, it is digitized and sampled according to known techniques, but this is not shown in FIG. From the GSM encoder 102, the coded signal is transmitted to a receiver (not shown) and first passes through a switch 103 that can activate or deactivate the transmission. ACF E in VAD apparatus 104 from the GSM encoder 102 (A utocorrection C oe F ficient , automatic correction factor) is passed. The long-term prediction device lag value NE is also passed to the VAD device 105 from the GSM frame. From VAD apparatus 104, the value P E representing the energy of the signal to a finite state machine 105 is passed. Flag F E also VAD apparatus 104 VAD apparatus 104 instructs whether the detected human speech is calculated. Flag F E is passed to a finite state machine 105. The flag FE is true when a human voice is detected. 1 also includes a sampled coded audio signal received from a sender (not shown) and passed to GSM decoder 106. From the GSM decoder 106, the decoded and sampled audio signal is passed to the speaker 107 and first passes through a switch 108 that can enable or disable the audio signal from reaching the speaker. In order for the loudspeaker to function properly, D / A conversion according to a known technique is required, but is not shown in FIG. Received sampled coded long term predictor lag value N D from the audio signal is passed to the VAD apparatus 109 is were deducted and examples of the solution were. The GSM decoder lacks the necessary parameters to calculate the ACF, since decoding of the GSM frame is usually not related to the use of a VAD device. To enable the ACF to be calculated, the autocorrelator 110 receives the data from the GSM decoder 106 and calculates the ACF D passed to the VAD device 109. The autocorrelator 110 is part of the GSM decoder as described in the standard. A value P D, which is an indication of the energy of the audio signal to the speaker, is passed from the VAD device 109 to the finite state machine 105. From VAD apparatus 109, the flag F D the VAD apparatus instructs whether the detected human voice is passed to the finite state machine. The finite state machine 106 has a function of setting the switches 103 and 109 according to a value input to the finite state machine. FIG. 2 illustrates the states and possible transitions of the finite state machine of FIG. The transition between the states is performed according to the following description. The following definitions are used: • F E : VAD flag during coding • F D : VAD flag during decoding • P E : Signal energy during coding • P D : Signal energy during decoding • Hangover: The time between the decision to switch directions and the switch. This time must be long enough to compensate for room echoes. 201. F E = 1 and F D = 0 or F E = 1 and P E > P D , hangover = 0 202. F E = 0, hangover = 600 ms 203. F D = 1 and F E = 0 or F D = 1 and P D > P E , hangover = 0 204. F D = 0, hangover = 600 ms 205. 206. F D = 1 and P D > P E , hangover = 600 ms F E = 1 and P E > P D , hangover = 600 ms During state transmission 207, the switch controlling the transmission of the audio signal from the microphone is disabled, and the switch controlling the transmission of the audio signal to the speaker is disabled. . In state receiving 208, the switch controlling the transmission of the audio signal from the microphone is disabled and the switch controlling the transmission to the loudspeaker is disabled. In the idle state 209, both switches are disabled. Having described the invention in the foregoing, it is clear that the same can be varied in many ways. Such modifications should not be deemed to depart from the spirit and scope of the present invention, and all such modifications apparent to those skilled in the art are deemed to be within the scope of the following claims.
─────────────────────────────────────────────────────
フロントページの続き
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),OA(BF,BJ,CF
,CG,CI,CM,GA,GN,ML,MR,NE,
SN,TD,TG),AP(GH,GM,KE,LS,M
W,SD,SZ,UG,ZW),EA(AM,AZ,BY
,KG,KZ,MD,RU,TJ,TM),AL,AM
,AT,AU,AZ,BA,BB,BG,BR,BY,
CA,CH,CN,CU,CZ,DE,DK,EE,E
S,FI,GB,GE,GH,GM,GW,HU,ID
,IL,IS,JP,KE,KG,KP,KR,KZ,
LC,LK,LR,LS,LT,LU,LV,MD,M
G,MK,MN,MW,MX,NO,NZ,PL,PT
,RO,RU,SD,SE,SG,SI,SK,SL,
TJ,TM,TR,TT,UA,UG,US,UZ,V
N,YU,ZW────────────────────────────────────────────────── ───
Continuation of front page
(81) Designated countries EP (AT, BE, CH, DE,
DK, ES, FI, FR, GB, GR, IE, IT, L
U, MC, NL, PT, SE), OA (BF, BJ, CF)
, CG, CI, CM, GA, GN, ML, MR, NE,
SN, TD, TG), AP (GH, GM, KE, LS, M
W, SD, SZ, UG, ZW), EA (AM, AZ, BY)
, KG, KZ, MD, RU, TJ, TM), AL, AM
, AT, AU, AZ, BA, BB, BG, BR, BY,
CA, CH, CN, CU, CZ, DE, DK, EE, E
S, FI, GB, GE, GH, GM, GW, HU, ID
, IL, IS, JP, KE, KG, KP, KR, KZ,
LC, LK, LR, LS, LT, LU, LV, MD, M
G, MK, MN, MW, MX, NO, NZ, PL, PT
, RO, RU, SD, SE, SG, SI, SK, SL,
TJ, TM, TR, TT, UA, UG, US, UZ, V
N, YU, ZW