JP2003249996A

JP2003249996A - 音声信号入出力装置

Info

Publication number: JP2003249996A
Application number: JP2002048183A
Authority: JP
Inventors: Tetsuya Takahashi; 哲也高橋; Hiroshi Hashimoto; 裕志橋本; Toshiaki Shimoda; 敏章下田; Takayuki Hiekata; 孝之稗方
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2002-02-25
Filing date: 2002-02-25
Publication date: 2003-09-05

Abstract

(57)【要約】【課題】オーディオ音声信号の出力機能とハンズフリ
ー通話機能とを実現し，オーディオ音声信号と通話信号
とが混在する状況化で適切なエコーキャンセルを行う。【解決手段】受話音声信号を第１のサンプリングレー
ト変換部１１によりオーディオ音声信号のそれと一致さ
せ，さらにチャンネルゲイン乗算部１２によりオーディ
オ音声信号の各チャンネル（Ｌ，Ｒ等）に対応したチャ
ンネルごとに音量調節した後に，オーディオ音声信号と
混合した混合音声信号をスピーカ出力する。さらに，エ
コーキャンセラ２０により，低サンプリングレートに変
換した混合音声信号に基づいて，マイクＭ入力された送
話音声信号からエコー除去を行う。エコー除去のパラメ
ータを学習するタイミングは，コントローラ３０によ
り，送話及び通話音声信号，オーディオ音声信号のレベ
ルに基づいて制御する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，オーディオ音声信
号の出力機能とハンズフリー通話機能とを実現する音声
信号入出力装置に関するものである。

【０００２】

【従来の技術】近年，自動車運転時においても，安全に
携帯電話等による通話を行えるようにするため，いわゆ
るハンズフリー通話を可能とする車載装置が普及しつつ
ある。また，小型化や低コスト化等のため，カーオーデ
ィオやカーナビゲーション等の車載装置の一体化，部品
の共有化が図られている。このような中で，ハンズフリ
ー通話を実現する装置もカーオーディオ等と一体化する
ことにより，スピーカやマイク，情報処理部等を共有化
することが望ましい。また，インターネットにより安価
な電話サービスを提供するＶｏＩＰ（Voiceover IP）の
普及にともない，ＶｏＩＰを用いたハンズフリー通話を
実現する装置をゲーム機やテレビ受像機等の情報家電に
組み込むことも行われつつある。この場合にも，スピー
カやマイク，情報処理部等を共有化することが小型化，
低コスト化のために望ましい。一般に，ハンズフリー通
話機能を有する通話装置では，スピーカ（音声出力手
段）から出力された音声がマイク（音声入力手段）に回
り込み，利用者が直接発した音声に混入することにより
エコーやハウリングが発生することが知られている。こ
のようなエコーやハウリングを防止するため，混入した
音声信号（以下，混入音声信号という）をマイクで入力
した音声信号から除去するエコーキャンセル機能を設け
ることが必要となる。このエコーキャンセル機能を有す
るものとして，例えば，特開平１０−１９０５３３号公
報，特開平１１−２８４５５０号公報，特開平１１−２
９８３８２号公報（以下，公報１〜３という）等には，
前記混入音声信号を学習同定し，相手先からの受話信号
に基づいてエコーを除去する適応フィルタを設けた通話
装置が示されている。

【０００３】

【発明が解決しようとする課題】しかしながら，オーデ
ィオや情報家電等にハンズフリー通話機能を設ける場
合，スピーカから出力される音声には，相手先からの受
話音声信号だけでなく，音楽ＣＤ再生やテレビ放送等に
係る音声信号（以下，オーディオ音声信号という）も加
わることになるが，前記公報１〜３に示されるような受
話音声信号に基づくエコーキャンセルでは，適切なエコ
ーキャンセルが行えないという問題点があった。また，
特開２００１−１９５０８５号公報（以下，公報４とい
う）には，カーオーディオによる音声が流れる車内で，
音声認識装置に入力する音声信号から前記オーディオ音
声信号に基づきエコーキャンセルを行う音声認識用オー
ディオキャンセル装置が示されているが，ハンズフリー
通話機能を設けた場合に，相手先からの受話音声信号に
起因するエコーをどのようにキャンセルするかについて
は何ら示されていない。また，一般に，通話信号（前記
送話音声信号及び受話音声信号，即ち，人の声について
の音声信号）と前記オーディオ音声信号とは周波数帯域
やサンプリングレート等の信号形態が異なるが，この違
いをどのように処理してエコーキャンセルを行うかにつ
いても，前記公報１〜３及び公報４には何ら示されてい
ない。従って，本発明は上記事情に鑑みてなされたもの
であり，その目的とするところは，オーディオ音声信号
の出力機能とハンズフリー通話機能とを実現し，オーデ
ィオ音声信号と通話信号とが混在する状況化で適切なエ
コーキャンセルを行う音声信号入出力装置を提供するこ
とにある。

【０００４】

【課題を解決するための手段】上記目的を達成するため
に本発明は，ハンズフリー通話における相手先へ送信す
る送話音声信号を所定の音声入力手段から入力して所定
の通話装置へ出力するとともに，該通話装置から入力し
た相手先からの受話音声信号を所定の音声出力手段に出
力する音声信号入出力装置において，所定のオーディオ
音声信号を入力するオーディオ音声信号入力手段と，前
記受話音声信号に前記オーディオ音声信号を混合した混
合音声信号を前記音声出力手段に出力する音声信号混合
手段と，前記混合音声信号に基づいて，前記通話装置へ
出力する前記送話音声信号から前記混合音声信号に対応
する混入音声信号を除去する混入音声信号除去手段と，
を具備してなることを特徴とする音声信号入出力装置で
ある。これにより，オーディオ機器や家電製品等とスピ
ーカ（前記音声出力手段）やマイク（前記音声入力手
段）等の部品を共有化しながら，オーディオ音声信号の
出力機能とハンズフリー通話機能とを実現するに際し，
受話音声信号とオーディオ音声信号とを混合した混合音
声信号に基づいてエコー除去を行うため，オーディオ音
声信号と通話信号とが混在する状況化でもオーディオ音
声信号の影響を考慮した適切なエコーキャンセルを行う
ことが可能となる。

【０００５】また，前記オーディオ音声信号が１以上の
チャンネルから構成されるものであり，前記音声信号混
合手段により混合される前記受話音声信号に対して，前
記オーディオ音声信号のチャンネルそれぞれに対応した
所定の信号処理を施すチャンネル信号処理手段を具備す
るものであれば，利用者と前記チャンネルそれぞれに対
応した複数のスピーカとの位置関係に応じて音声信号の
適切なバランス調整（音量等）を行うことが可能とな
る。

【０００６】また，前記音声信号混合手段により混合さ
れる前記受話音声信号と前記オーディオ音声信号とにつ
いて，そのサンプリングレート及び周波数帯域の一方又
は両方を一致させるよう信号変換する第１の信号変換手
段を具備すれば，通話信号（前記受話音声信号及び前記
送話音声信号）とオーディオ音声信号とのサンプリング
レートや周波数帯域に違いがある場合にも適用可能であ
る。

【０００７】また，前記混入音声信号が除去された前記
送話音声信号と前記混合音声信号とに基づいて，前記混
入音声信号除去手段における前記混入音声信号の特定に
関するパラメータを学習する学習手段を具備すれば，状
況変化に応じた混入音声信号の除去が可能となる。

【０００８】また，前記学習手段及び前記混入音声除去
手段の一方又は両方に用いられる前記混合音声信号及び
前記送話音声信号について，そのサンプリングレート及
び周波数帯域の一方又は両方を一致させるよう信号変換
する第２の信号変換手段を具備するものも考えられ，さ
らに，前記第２の信号変換手段における信号変換後のサ
ンプリングレートが，前記音声信号入力手段から入力さ
れる前記送話音声信号，前記通話装置から入力される前
記受話音声信号，及び前記オーディオ音声信号の各サン
プリングレートの値の最小値に基づいて設定すれば，混
入音声除去やその学習の演算負荷を大幅に低減でき，比
較的性能の低い，安価なＤＳＰやＣＰＵ等で混入音声の
除去やその学習を実現できる。

【０００９】また，前記送話音声信号，前記受話音声信
号，及び前記オーディオ音声信号のいずれか１つ又は複
数の信号レベルを検出する信号レベル検出手段と，該信
号レベル検出手段による信号レベルに基づいて，前記送
話音声信号，前記前記受話音声信号，及び前記オーディ
オ音声信号のいずれか１つ又は複数の信号レベルを調節
する信号レベル調節手段と，を具備すれば，例えば，通
話中は前記オーディオ音声信号のレベルを下げる等の調
節により，混入音声除去の学習が不十分な場合等におい
ても，送話音声信号へのエコーの混入やハウリングの発
生を防止することができる。

【００１０】

【発明の実施の形態】以下添付図面を参照しながら，本
発明の実施の形態及び実施例について説明し，本発明の
理解に供する。尚，以下の実施の形態及び実施例は，本
発明を具体化した一例であって，本発明の技術的範囲を
限定する性格のものではない。ここに，図１は本発明の
実施の形態に係る音声信号入出力装置Ｘの構成を表すブ
ロック図，図２は本発明の実施例に係る音声信号入出力
装置Ｙ１の構成を表すブロック図，図３は本発明の実施
例に係る音声信号入出力装置Ｙ２の構成を表すブロック
図である。

【００１１】まず，図１を用いて本発明の実施の形態に
係る音声信号入出力装置Ｘについて説明する。本音声信
号入出力装置Ｘは，例えば，マイクＭとスピーカＳが設
けられたカーオーディオやテレビ受像機等のオーディオ
機器に組み込まれ，携帯電話機や通常の電話機等の通話
装置と接続されることにより，いわゆるハンズフリー通
話機能を実現するものである。即ち，オーディオ機器が
備えるマイクＭ（前記音声信号入力手段の一例）により
送話音声信号を入力し，これを電話機等の通話装置に出
力することによって相手先へ送信するとともに，相手先
から受信した受話音声信号を電話機等から入力し，これ
をオーディオ機器のスピーカＳ（前記音声信号出力手段
の一例）に出力して音声出力するものである。このと
き，スピーカＳには，前記受話音声信号にオーディオ機
器より出力されるオーディオ音声信号（ラジオ放送の受
信音声やＣＤ音楽の再生音等の音声信号）を混合した
（加えた）混合音声信号が出力される。これにより，オ
ーディオ機器のスピーカＳが，通話用のスピーカとして
も兼用（共有化）されることになる。図１に示すよう
に，本音声信号入出力装置Ｘは，前記受話音声信号と前
記オーディオ音声信号とを混合し，混合された前記混合
音声信号を不図示のＤ／Ａ変換器及びアンプを介してス
ピーカＳに出力する音声信号混合手段１０と，前記混合
音声信号に基づいて，マイクＭから入力して前記通話装
置へ出力する前記送話音声信号から前記混合音声信号に
対応する混入音声信号を除去するエコーキャンセラ２０
と，前記オーディオ音声信号と前記通話装置へ出力され
る前記送話音声信号とを入力し，これらに基づいて前記
エコーキャンセラ２０が具備する所定の学習手段２３
（後述）が学習を行うべきタイミングを制御するコント
ローラ３０とを具備している。このように，前記エコー
キャンセラ２０が，前記受話音声信号と前記オーディオ
音声信号とが混合された前記混合音声信号に基づいてエ
コー除去を行うため，前記オーディオ音声信号と前記受
話音声信号とが混在する状況化で適切なエコーキャンセ
ルを行うことが可能となる。

【００１２】次に，前記音声信号混合手段１０について
説明する。一般に，音楽ＣＤ等の前記オーディオ音声信
号は，サンプリングレートが４４．１ｋＨｚであり，理
論的には２２．０５ｋＨｚという高い周波数帯域まで含
むことが可能な広帯域な音声信号である。一方，電話機
等の通話装置で用いられる通話信号（前記受話音声信号
及び送話音声信号）は，一般に，サンプリングレートが
８ｋＨｚであり，４ｋＨｚ程度の周波数帯域しか含ませ
ることができない。このようにサンプリングレートや周
波数帯域の異なる２つの音声信号を混合するために，前
記音声信号混合手段１０は，前記受話音声信号及び前記
オーディオ音声信号について，混合前にそれらのサンプ
リングレートを一致させるよう変換するための第１のサ
ンプリングレート変換部１１を具備している。図１に示
す前記第１のサンプリングレート変換部１１は，前記受
話音声信号のサンプリングレートを前記オーディオ音声
信号のそれ（４４．１ｋＨｚ）に一致させるよう変換す
るものである。変換後のサンプリングレートが，前記２
つの音声信号のうちの高い方の値となるように構成され
ているのは，スピーカＳへ出力される音声信号に音質の
低下が生じないようにするためである。前記第１のサン
プリングレート変換部１１としては，例えば，変換前の
ディジタル信号をアップサンプリングした信号を低域通
過フィルタに通した後，目標のサンプリングレートにな
るようにダウンサンプリングするものが知られている。
具体的には，８ｋＨｚから４４．１ｋＨｚへの変換を行
う場合，まず，８ｋＨｚの前記受話音声信号を４４１倍
のサンプリングレートとし，４４１サンプルごとに元の
８ｋＨｚの音声信号と同じ値を残し，その他の値が０
（ゼロ）にした信号を作るいわゆるアップサンプリング
処理を施す。この信号を４４．１ｋＨｚにダウンサンプ
リングする前に，８ｋＨｚでは本来存在しない４ｋＨｚ
を越える周波数成分を取り除くための低域通過フィルタ
の処理を施す。このフィルタ処理により得られた信号を
８０サンプルおきに間引いた信号を作ることにより４
４．１ｋＨｚの音声信号が得られる。もちろん，サンプ
リングレートの変換手段としては，データの補間を用い
るものなど各種存在するので，前記第１のサンプリング
レート変換部１１は，他の手段によるものであってもか
まわない。

【００１３】また，前記オーディオ音声信号は，いわゆ
るモノラル方式のように１チャンネルで構成される場合
は少なく，一般に，いわゆるステレオ方式の２チャンネ
ル，或いはサラウンド方式の５．１チャンネル等のよう
に複数のスピーカＳそれぞれに対応した複数チャンネル
で構成される場合が多い。一方，前記通話装置で用いら
れる前記通話信号は，モノラル方式であることが一般的
である。例えば，カーオーディオ等のように，主な聴取
者である運転者が座る運転席と複数のスピーカＳとの位
置関係が固定されている場合には，運転席において最も
音量バランス（左右バランス等）が良くなるように各ス
ピーカＳの音量レベル，即ち，前記オーディオ音声信号
の各チャンネルの信号レベルを個別に補正（信号処理の
一例）することが有効である。これを実現するため，前
記音声信号混合手段１０は，前記受話音声信号を前記オ
ーディオ音声信号の各チャンネルに対応するチャンネル
ごとに信号レベルのゲイン補正を行うチャンネルゲイン
乗算部１２（前記チャンネル信号処理手段の一例）を具
備している。これにより，例えば，ステレオ方式の場合
には左右の２チャンネル，サラウンド方式の場合には
５．１チャンネル（５＋１チャンネル）それぞれに対応
する信号のゲインが補正（それぞれ個別に乗算補正）さ
れる。さらに，ゲインの乗算補正だけでなく，車内の音
響特性を考慮して各チャンネルごとに所定の特性のフィ
ルタ処理（信号処理の一例）を施すようにしてもよい。

【００１４】以上のように，前記第１のサンプリングレ
ート変換部１１によりサンプリングレートが前記オーデ
ィオ音声信号のそれと一致するように変換され，チャン
ネルごとに所定の処理が施された前記受話音声信号に対
し，所定の音響補償フィルタ１３により所定の音響処理
がなされた前記オーディオ音声信号を加算器１５により
混合し（加え），混合後の混合音声信号を不図示のＡ／
Ｄ変換器及びアンプを介してスピーカＳに出力する。も
ちろん，前記チャンネルゲイン乗算部１２と同様に，前
記オーディオ音声信号や前記混合音声信号についてもチ
ャンネルごとに信号処理（ゲイン乗算やフィルタ処理
等）を行う手段を設けることも考えられる。また，前記
混合音声信号は，前記音声信号混合手段１０の具備する
第２サンプリングレート変換部１４により，そのサンプ
リングレートが変換されて前記エコーキャンセラ２０に
出力される。前記第２のサンプリングレート変換部１４
による変換後のサンプリングレートの値は，前記通話装
置へ出力される前記送話音声信号のサンプリングレート
（８ｋＨｚ）の値となるように設定されている。

【００１５】次に，前記エコーキャンセラ２０について
説明する。前記エコーキャンセラ２０は，帯域制限部２
１，適応フィルタ２２，学習手段２３，及び減算器２４
を具備している。前記帯域制限部２１は，マイクＭによ
り入力された前記送話音声信号の周波数帯域を所定のフ
ィルタにより，前記通話装置へ出力される前記送話音声
信号の周波数帯域（４ｋＨｚ）に制限（変換）するもの
である。前記帯域制限部２１及び前記第２のサンプリン
グレート変換部１４により，前記第２の信号変換手段の
一例が構成されている。前記適応フィルタ２２は，前記
音声信号混合手段１０から入力した低サンプリングレー
ト（８ｋＨｚ）に変換後の前記混合音声信号に基づい
て，スピーカＳからマイクＭに回り込む音声に相当する
擬似エコー（前記混合音声信号に対応する前記混入音声
信号の一例）を出力するものである。前記減算器２４
は，前記擬似エコーを，前記帯域制限部２１により帯域
制限された前記送話音声信号（前記通話装置へ出力され
る前記送話音声信号）から減算器２４によって除去する
ことにより，スピーカＳからマイクＭに回り込むエコー
を除去するものである。前記適応フィルタ２２及び前記
減算器２４により，前記混入音声信号除去手段の一例が
構成されている。前記学習手段２３は，前記音声信号混
合手段１０から入力した低サンプリングレート（８ｋＨ
ｚ）の前記オーディオ音声信号と，前記擬似エコーが除
去された前記送話音声信号とに基づいて，前記適応フィ
ルタ２２のフィルタ係数（前記擬似エコーを求める（特
定する）ためのパラメータの一例）を自動学習するもの
である。該学習手段２３の学習方法としては，ＬＭＳア
ルゴリズムや学習同定アルゴリズム等の手法が知られて
いる。例えば，学習同定アルゴリズムでは，最大Ｎサン
プル時間までの長さのエコーを除去する場合，前記擬似
エコーをｐ（ｉ）とすると，ｐ（ｉ）は過去Ｎサンプル
分のＬ（左）側スピーカの音声出力ＳＬ（ｉ），及びＲ
（右）側スピーカの音声出力ＳＲ（ｉ）の線形和として
次の（１）式で推定する。

【数１】ここで，ＫＬｉ，ＫＲｉは適応フィルタのフィルタ係数
である。この（１）式の時刻ｉにおける前記フィルタ係
数ＫＬｉ，ＫＲｉからなる１行ベクトルをＨ（ｉ），同
スピーカの音声出力ＳＬ（ｉ），ＳＲ（ｉ）からなる１
列ベクトルをＳ（ｉ）とし，前記擬似エコーｐ（ｉ）の
誤差をｅ（ｉ）（時刻ｉにおけるマイクＭからの実際の
音声入力と前記擬似エコーｐ（ｉ）との差分）とする
と，学習同定アルゴリズムでは，次の（２）式に示すよ
うに，誤差ｅ（ｉ）に応じて前記フィルタ係数を修正
（学習）を行う。

【数２】（２）式において，αは学習の収束スピードを調節する
パラメータであり，各種の設定方法が知られている。前
記適応フィルタ２２及び前記学習手段２３については，
前記公報１〜３等にも示されている。本音声信号入出力
装置Ｘでは，図１に示すように，マイクＭから入力した
前記送話音声信号から前記擬似エコーを除去した後の信
号を前記誤差ｅ（ｉ）として用いている。

【００１６】前述したように，本音声信号入出力装置Ｘ
では，前記適応フィルタ２２及び前記学習手段２３に入
力される音声信号のサンプリングレートは，前記帯域制
限部２１及び前記第２のサンプリングレート変換部１４
によって小さい値，即ち，マイクＭから入力される前記
送話音声信号，スピーカＳへ出力される前記混合音声信
号，及び前記通話装置へ出力される前記送話音声信号の
各サンプリングレートのうち最小の値となるように変換
される。これにより，ＤＳＰやＣＰＵ等で実現される前
記適応フィルタ２２や前記学習手段２３にかかる処理の
負荷を大幅に低減することができ，比較的性能の低い，
安価なＤＳＰやＣＰＵ等で前記適応フィルタ２２や前記
学習手段２３を実現することが可能となる。一般に，取
り扱う信号のサンプリングレートが大きくなるにつれて
必要な演算量が加速度的に増大するので，サンプリング
レートを小さくした信号に基づき前記適応フィルタ２２
や前記学習手段２３の処理を行うことによる負荷低減効
果は大きい。一方，このようにサンプリングレートを低
くすると，前記送話音声信号の音声品質を低下させるこ
とになるが，そもそも通話用としては前記オーディオ音
声信号ほどの音声品質を必要としないため，このように
しても何ら問題はない。

【００１７】次に，前記コントローラ３０について説明
する。前述したように，前記学習手段２３は，前記擬似
エコーを除去した後の前記送話音声信号を前記誤差ｅ
（ｉ）として用いているため，話者が発した音声と，ス
ピーカＳから回りこんだエコーとが混在してマイクＭに
入力されるダブルトークの状況化で学習を行うと，話者
の発した音声が外乱となるため適切な学習が行えない。
そこで，話者が声を発していないタイミングで学習を行
う必要がある。前記コントローラ３０は，この学習のタ
イミングを，前記擬似エコーを除去した後の前記送話音
声信号の信号レベルに基づいて制御する。該信号レベル
は所定の信号レベル検出手段４１により検出される。例
えば，前記送話音声信号の信号レベルが所定レベル以下
である場合に前記ダブルトークの状態でないと判断し，
該受話状態である場合にのみ前記学習手段２３による前
記適用フィルタ２２のパラメータの学習を行うよう制御
する等が考えられる。これにより，話者の音声が混入し
ない適切なタイミングでエコーの学習が可能となる。も
ちろん，前記受話音声信号や，前記オーディオ音声信号
の信号レベルを検出し，これらに基づいて学習タイミン
グを制御するようにしてもよい。例えば，前記受話音声
信号のレベルが，前記送話音声信号のレベルより大きい
場合に前記受話状態であると判断することや，前記受話
状態であって，かつ前記オーディオ音声信号のレベルが
大きい場合にのみ学習する等が考えられる。

【００１８】

【実施例】次に，図２を用いて，前記音声信号入出力装
置Ｘの応用例である音声信号入出力装置Ｙ１について説
明する。前述したように，前記音声信号入出力装置Ｘで
は，前記エコーキャンセラ２０によりスピーカＳからマ
イクＭに回り込むエコーを除去するが，前記学習手段２
３による学習が不十分な場合等にはエコー除去が不十分
となる場合もある。このため，前記エコーキャンセラ２
０によるエコー除去に加えて，前記通話装置を介しての
通話状態に応じて，各音声信号の信号レベル（音量レベ
ル）を調節することが望ましい。これに対応するため，
本音声信号入出力装置Ｙ１は，前記音声信号入出力装置
Ｘにおける前記コントローラ３０に新たな制御機能を付
加したものであり，その他の構成及び機能については，
前記音声信号入出力信号装置Ｘと同じである。即ち，本
音声信号入出力装置Ｙ１は，前記音声信号入出力装置Ｘ
の構成に加え，前記通話装置へ出力される前記送話音声
信号，前記音声信号混合手段１０に入力される前記受話
音声信号及び前記オーディオ音声信号の音量レベル（信
号レベル）それぞれを検出する音量レベル検出手段４
１，４２，４３及び，同音量レベルそれぞれを調節する
音量ゲイン調節手段５１，５２，５３を具備している。
ここで，前記送話音声信号についての前記音量レベル検
出手段４１は，前記エコーキャンセラ２０により前記擬
似エコーが除去された後の信号レベルを検出することが
望ましい。前記コントローラ３０は，前記音量レベル検
出手段４１，４２，４３それぞれによって検出された音
量レベルに基づいて前記音量ゲイン調節手段５１，５
２，５３それぞれを例えば以下のように制御する。ま
ず，前記送話音声信号のレベルが前記受話音声信号のレ
ベルよりも大きい場合は，送話状態であると判断し，前
記受話音声信号に係る前記音量ゲイン調節手段５２のゲ
インを下げる。逆に，前記受話音声信号のレベルが前記
送話音声信号のレベルよりも大きい場合は受話状態であ
ると判断し，前記送話音声信号に係る前記音量ゲイン調
節手段５１のゲインを下げる。さらには，前記送話音声
信号又は前記受話音声信号のいずれかのレベルが所定レ
ベル以上である場合には，通話状態（前記送話状態又は
受話状態）であると判断し，前記オーディオ音声信号に
係る前記音量ゲイン調節手段５３のゲインを下げる。以
上のような制御を行うことにより，前記学習手段２３に
よる学習が不十分な場合でも，前記送話音声信号にエコ
ーが混入することを防止できるとともに，前記送話音声
信号と前記受話音声信号とが同時に発生することによる
ハウリングの発生防止にもつながる。

【００１９】次に，図３を用いて，前記音声入出力装置
Ｘの別の応用例である音声入出力装置Ｙ２について説明
する。本発明は，音声認識機能を有するカーナビゲーシ
ョン装置やカーオーディオ，携帯電話やＶｏＩＰによる
通話装置等への適用が考えられるが，これらの装置それ
ぞれの有する機能の一部を前記音声入出力装置Ｘに付加
して一体に統合したものが，本音声入出力装置Ｙ２であ
る。図３に示すように本音声入出力装置Ｙ２は，前記音
声信号入出力装置Ｘの構成に加え，ノイズサプレッサ６
１，音声認識手段６２，送話音声符号化手段６３，受話
音声復号化手段６４，通信プロトコル処理手段６５，音
声合成手段６６，オーディオ信号復号化手段６７，及び
加算器６８を具備している。前記ノイズサプレッサ６１
は，前記エコーキャンセラ２０から出力される前記送話
音声信号から車の走行音等，所定の周波数帯域のノイズ
を除去するものである。前記音声認識手段６２は，一般
に，カーナビゲーション装置等に搭載されるものであ
り，前記ノイズサプレッサ６１の出力する音声信号に基
づき，音声認識を行い，カーナビゲーション装置に対す
る制御コマンド等の音声認識結果を出力するものであ
る。これにより，前記エコーキャンセラ２０を前記送話
音声信号からのエコー除去だけでなく，前記音声認識手
段６２に対する音声信号からのエコー除去にも兼用（共
用）される。前記送話音声符号化手段６３及び前記受話
音声復号化手段６４は，携帯電話やＶｏＩＰによる通話
装置との間で入出力する前記送話音声信号及び前記受話
音声信号について，所定の符号化（エンコード）及び復
号化（デコード）をおこなうものである。一般に，携帯
電話やＶｏＩＰ等で送受信される通話信号は，ＶＳＥＬ
Ｐ，ＰＳＩ−ＣＥＬＰ，ＡＭＲ，Ｇ．７２９，Ｇ．７２
３．１等の規格で圧縮（符号化）されている。前記送話
音声符号化手段６３及び前記受話音声復号化手段６４
は，これら各規格に応じた符号化及び復号化を行う。こ
の送話音声符号化手段６３により符号化する音声信号に
車の走行音等のノイズが混入していると，符号化（圧
縮）によって著しく音声品質の劣化が生じるので，前記
ノイズサプレッサ６１によるノイズ除去が，音声品質を
確保する上で有効である。前記通信プロトコル処理手段
６５は，例えば，ＶｏＩＰにおけるＲＴＰやＧ．３２
３，ＳＩＰ等，音声信号の符号化や復号化と同時に行う
ことが効率的である通信のプロトコル処理を行うもので
ある。前記音声合成手段６６は，カーナビゲーション装
置等で行われる利用者への音声ガイダンス等の合成音声
を出力するものである。該合成音声は，前記加算器６８
によって前記音声信号混合手段１０に入力される前記受
話音声信号に加算（混合）される。これにより，音声ガ
イダンス等の合成音声も前記エコーキャンセラ２０が用
いる前記混合音声信号に含まれることになるので，前記
送話音声信号に音声ガイダンス等のエコーが含まれるこ
とを防止できる。前記オーディオ信号復号化手段６７
は，ＭＰ３，ＷＭＡ，ＴｗｉｎＶＱ，ＭＰＥＧ２−ＡＡ
Ｃ等の圧縮規格によって符号化されたデジタルオーディ
オ信号（前記オーディオ音声信号の一例）を復号化する
ものである。

【００２０】図３に示した各構成要素を１チップのＤＳ
Ｐ等に一体化して統合することは，単に複数の機器を組
み合わせた１チップ化により小型・軽量化が図れるだけ
でなく，通話品質悪化を防止する効果をも奏する。即
ち，各機器を別の装置に搭載して接続し，それぞれの間
で音声信号を入出力する構成とした場合，機器間で通信
を行うことにより生じる音声信号の入出力のタイミング
の違いを緩衝させたり，信号の処理待ち等のためにバッ
ファが必要となるが，このようなバッファに入出力信号
が一時滞留すると信号処理の遅延が生じる。例えば，送
話側では，前記エコーキャンセラ２０，前記ノイズサプ
レッサ６１，前記送話音声符号化手段６３，及び前記通
信プロトコル処理手段６５それぞれの間の信号入出力に
おいて遅延が生じ，受話側では，前記通信プロトコル処
理手段６５，前記受話音声復号化手段６４，及び前記音
声信号混合手段１０それぞれの間の信号入出力において
遅延が生じる。この遅延により，例えば一方の話者の問
いかけに対して他方の話者の応答が遅れて聞こえてくる
等，円滑な通話が阻害される。一方，図３に示す構成要
素を１チップ化して統合することにより，同一メモリ上
のデータ（音声信号）に対して各種処理を行えるように
なり，音声信号の入出力に遅延が発生せず，通話品質の
悪化を防止できる。さらに，処理の遅延がなくなること
により，利用者の音声を認識してガイダンス（合成音
声）を出力したりオーディオ機器を動作させたりする等
の応答の速度が向上するという効果も奏する。また，前
記音声信号入出力装置Ｙ１と同様に音量調節機能を付加
することにより，例えば前記音声認識手段６２の動作中
はスピーカＳへの出力信号を減衰させる等，全体として
最適な制御が可能となる。

【００２１】

【発明の効果】以上説明したように，本発明によれば，
オーディオ機器や家電製品等とスピーカやマイク等の部
品を共有化しながら，オーディオ音声信号の出力機能と
ハンズフリー通話機能とを実現するに際し，受話音声信
号とオーディオ音声信号とを混合した混合音声信号に基
づいてエコー除去を行うため，オーディオ音声信号と通
話信号とが混在する状況化でもオーディオ音声信号の影
響を考慮した適切なエコーキャンセルを行うことが可能
となる。また，オーディオ音声信号の有する１以上のチ
ャンネルに対応させて受話音声信号の処理を行うことに
より，利用者と複数のスピーカとの位置関係に応じて音
声信号の適切なバランス調整を行うことが可能となる。
また，サンプリングレートや周波数帯域についての信号
変換手段を具備することにより，通話信号とオーディオ
音声信号とのサンプリングレートや周波数帯域に違いが
ある場合にも適用可能である。また，混入音声（エコ
ー）の除去やその学習に用いる信号のサンプリングレー
トを，通話信号及びオーディオ音声信号のサンプリング
レートの最小値に基づいて設定することにより，混入音
声除去やその学習の演算負荷を大幅に低減でき，比較的
性能の低い，安価なＤＳＰやＣＰＵ等で混入音声の除去
やその学習を実現できる。また，送話音声信号，受話音
声信号，オーディオ音声信号について，これらの信号レ
ベルの検出結果に基づいてその信号レベルを調節するこ
とにより，エコー除去の学習が不十分な場合等において
も，送話音声信号へのエコーの混入やハウリングの発生
を防止することができる。また，本発明を，音声信号の
符号化や復号化，音声認識，通信プロトコル処理，音声
合成等の各手段と統合した形で実施すれば，信号の遅延
が防止できるため，信号遅延に起因する通話品質の悪化
を防止できるとともに，応答速度の向上が図れる。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る音声信号入出力装置
Ｘの構成を表すブロック図。

【図２】本発明の実施例に係る音声信号入出力装置Ｙ１
の構成を表すブロック図。

【図３】本発明の実施例に係る音声信号入出力装置Ｙ２
の構成を表すブロック図。

【符号の説明】

１０…音声信号混合手段１１…第１のサンプリングレート変換部１２…チャンネルゲイン乗算部１３…音響補償フィルタ１４…第２のサンプリングレート変換部１５…加算器２０…エコーキャンセラ２１…帯域制限部２２…適応フィルタ２３…学習手段２４…減算器３０…コントローラ４１，４２，４３…音量レベル検出手段５１，５２，５３…音量ゲイン調節手段６１…ノイズサプレッサ６２…音声認識手段６３…送話音声符号化手段６４…受話音声復号化手段６５…通信プロトコル処理手段６６…音声合成手段６７…オーディオ信号復号化手段６８…加算器Ｍ…マイクＳ…スピーカ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 Ｎ (72)発明者下田敏章兵庫県神戸市西区高塚台１丁目５番５号株式会社神戸製鋼所神戸総合技術研究所内 (72)発明者稗方孝之兵庫県神戸市西区高塚台１丁目５番５号株式会社神戸製鋼所神戸総合技術研究所内Ｆターム(参考） 5D020 CC05 CC06 5D045 AB26 DA20 5K027 DD07 DD10 HH03 5K046 BB01 CC28 HH02 HH19 HH78 HH79

Claims

【特許請求の範囲】

【請求項１】ハンズフリー通話における相手先へ送信
する送話音声信号を所定の音声入力手段から入力して所
定の通話装置へ出力するとともに，該通話装置から入力
した相手先からの受話音声信号を所定の音声出力手段に
出力する音声信号入出力装置において，所定のオーディ
オ音声信号を入力するオーディオ音声信号入力手段と，
前記受話音声信号に前記オーディオ音声信号を混合した
混合音声信号を前記音声出力手段に出力する音声信号混
合手段と，前記混合音声信号に基づいて，前記通話装置
へ出力する前記送話音声信号から前記混合音声信号に対
応する混入音声信号を除去する混入音声信号除去手段
と，を具備してなることを特徴とする音声信号入出力装
置。
【請求項２】前記オーディオ音声信号が１以上のチャ
ンネルから構成されるものであり，前記音声信号混合手
段により混合される前記受話音声信号に対して，前記オ
ーディオ音声信号のチャンネルそれぞれに対応した所定
の信号処理を施すチャンネル信号処理手段を具備してな
る請求項１に記載の音声信号入出力装置。
【請求項３】前記音声信号混合手段により混合される
前記受話音声信号と前記オーディオ音声信号とについ
て，そのサンプリングレート及び周波数帯域の一方又は
両方を一致させるよう信号変換する第１の信号変換手段
を具備してなる請求項１又は２のいずれかに記載の音声
信号入出力装置。
【請求項４】前記混入音声信号が除去された前記送話
音声信号と前記混合音声信号とに基づいて，前記混入音
声信号除去手段における前記混入音声信号の特定に関す
るパラメータを学習する学習手段を具備してなる請求項
１〜３のいずれかに記載の音声信号入出力装置。
【請求項５】前記学習手段及び前記混入音声除去手段
の一方又は両方に用いられる前記混合音声信号及び前記
送話音声信号について，そのサンプリングレート及び周
波数帯域の一方又は両方を一致させるよう信号変換する
第２の信号変換手段を具備してなる請求項４に記載の音
声信号入出力装置。
【請求項６】前記第２の信号変換手段における信号変
換後のサンプリングレートが，前記音声信号入力手段か
ら入力される前記送話音声信号，前記通話装置から入力
される前記受話音声信号，及び前記オーディオ音声信号
の各サンプリングレートの値の最小値に基づいて設定さ
れてなる請求項５に記載の音声信号入出力装置。
【請求項７】前記送話音声信号，前記受話音声信号，
及び前記オーディオ音声信号のいずれか１つ又は複数の
信号レベルを検出する信号レベル検出手段と，該信号レ
ベル検出手段による信号レベルに基づいて，前記送話音
声信号，前記前記受話音声信号，及び前記オーディオ音
声信号のいずれか１つ又は複数の信号レベルを調節する
信号レベル調節手段と，を具備してなる請求項１〜６の
いずれかに記載の音声信号入出力装置。