JP2006126424A

JP2006126424A - 音声入力装置

Info

Publication number: JP2006126424A
Application number: JP2004313693A
Authority: JP
Inventors: Takeshi Ura; 威史浦
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-10-28
Filing date: 2004-10-28
Publication date: 2006-05-18

Abstract

【課題】話者音声を確実に抽出することのできる簡易な構成の音声入力装置を提供する。
【解決手段】音声入力装置１０は、所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声する話者音声および騒音を収音する収音手段１と、収音手段１の出力に基づいて収音手段１に対する話者の方向を決定する話者方向決定手段２と、話者方向に基づいて収音手段１の指向性を変更して話者音声を抽出する話者音声抽出手段３とを含む。
【選択図】図１

Description

本発明は、特定の話者の音声を抽出できる音声入力装置に関する。

従来から、自動車等の運行時の安全性、利便性を向上するために、ナビゲーションシステム、オーディオシステム等の車載機器の音声操作を可能とする、あるいは、携帯電話でのハンズフリー通話を可能とするための音声入力装置が実用化されている。

第１の従来の音声入力装置としては、話者の近傍にマイクロフォンを配置したものが知られている（例えば、特許文献１参照）。

図１７は、第１の従来の音声入力装置のブロック図であって、運転席用マイクロフォン８１で生成された第１の電気信号は、第１のマイクロフォンアンプ８３で増幅され、第１のＡ／Ｄコンバータ８５でディジタル化されて、制御部８７に導かれる。また、助手席用マイクロフォン８２で生成された第２の電気信号は、第２のマイクロフォンアンプ８４で増幅され、第２のＡ／Ｄコンバータ８６でディジタル化されて、制御部８７に導かれる。制御部８７は、第１の電気信号と第２の電気信号のレベルを比較し、レベルの高いほうの電気信号を出力端子８８から出力する。

即ち、従来の第１の音声入力装置は、複数のマイクロフォンで電気信号に変換された音声の中で、最も高レベルの音声を選択的に出力するようになっている。

さらに、第２の従来の音声入力装置として、複数のマイクロフォンを使用して話者方向を探索するものがある（例えば、特許文献２参照）。

図１８は、従来の第２の音声入力装置のブロック図であって、３本のマイクロフォン９１、９２、および９３を含むマイクロフォンアレイ９０の出力は制御部９４に導かれる。制御部９４は、話者音声が各マイクロフォン９１、９２、および９３に到達するまでの時間と３本のマイクロフォン９１、９２、および９３の位置関係から話者方向を決定する。そして、話者方向に応じて予めメモリ９５に記憶されている複数のゲインの中から話者方向に応じて１つのゲインを選択し、ゲイン調整部９６のゲインとして設定する。

即ち、第２の従来の音声入力装置は、話者方向を決定し、その方向に対する指向性を強めることにより話者音声を、例えば音声認識部９７に出力する。
特開２００１−２２２２９１号公報（第４頁、図１）特開平１１−２１９１９３号公報（第５頁、図１）

しかしながら、従来の第１の音声入力装置には、話者の近傍にマイクロフォンを設置する必要があるため、話者がマイクロフォンから離れたときには走行音やエンジン音の影響により話者の音声を確実に検出できないという課題があった。

また、従来の第２の音声入力装置には、常時話者方向を探索する必要があるため、制御部の処理が複雑となるという課題があった。

本発明は、前述の２つの課題を解決するためになされたものであって、話者音声を確実に抽出することのできる簡易な構成の音声入力装置を提供することを目的とする。

本発明の音声入力装置は、所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声する話者音声を含む音声を収音する収音手段と、前記収音手段で収音された音声に基づいて前記収音手段に対する前記話者の方向を決定する話者方向決定手段と、前記話者方向決定手段で決定された話者方向に基づいて前記収音手段の指向性を変更して前記話者音声を抽出する話者音声抽出手段とを含む構成を有している。

この構成により、話者音声を確実に抽出できることとなる。

本発明の音声入力装置は、前記話者方向決定手段が、前記収音手段で収音された音声のレベルを前記マイクロフォンごとに算出する音声レベル算出部と、前記収音手段で収音された音声に前記話者音声が含まれているか否かを前記マイクロフォンごとに判定する判定部と、前記判定部で前記話者音声が含まれていると判定され、かつ、前記音声レベル算出部で算出された音声レベルが最大である１つのマイクロフォンの前記マイクロフォンアレイ中の位置に基づいて話者方向を決定する話者方向決定部とを有する構成を有している。

この構成により、話者方向をマイクロフォンアレイの音声レベルに基づいて定めることが可能となる。

本発明の音声入力装置は、前記話者音声抽出手段が、前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向の指向性を付加する指向性付加部である構成を有している。

この構成により、マイクロフォンアレイの話者方向への指向性を強めて話者音声を抽出することとなる。

本発明の音声入力装置は、前記話者音声抽出手段が、前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向以外の方向に死角を付加する死角付加部である構成を有している。

この構成により、話者音声に対する騒音を除去して話者音声を抽出することとなる。

本発明の音声入力装置は、前記指向性付加部が、前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、前記フィルタ部の出力を加算する加算部とを有する構成を有している。

この構成により、遅延和アレイにより話者音声を抽出できることとなる。

本発明の音声入力装置は、前記死角付加部が、前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、前記話者方向決定手段で決定された話者方向に対応する前記フィルタ部の出力から前記話者方向決定手段で決定された話者方向以外の１方向に対応する前記フィルタの出力を減算する減算部と、前記減算部の出力の周波数特性を補正する周波数特性補正部とを有する構成を有している。

この構成により、減算型アレイにより話者音声を抽出できることとなる。

本発明の音声入力装置は、前記収音手段が、収音対象である複数の話者の略中央に配置されるマイクロフォンアレイであってもよい。

本発明の音声入力装置は、前記マイクロフォンアレイが、前記複数のマイクロフォンの中心に関し点対称に配置されたものであってもよい。

本発明の音声入力装置は、前記複数のマイクロフォンが、無指向性マイクロフォンであってもよい。

本発明は、収音手段、話者方向決定手段および話者音声抽出手段により音声入力装置を構成することにより、話者音声を確実に抽出することのできる簡易な構成の音声入力装置を提供することができる。

以下図面を参照しつつ、本発明の実施の形態に係る音声入力装置を説明する。

（第１の実施の形態）
本発明の第１の実施の形態に係る音声入力装置１０は、図１に示すように、所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声する話者音声を含む音声を収音する収音手段１と、収音手段１により収音された音声に基づいて収音手段１に対する話者の方向を決定する話者方向決定手段２と、話者方向決定手段２で決定された話者方向に基づいて収音手段１の指向性を変更して話者音声を抽出する話者音声抽出手段３とを含む。

本発明の第１の実施の形態に係る音声入力装置１０は、ハードウエア的には、図２に示すように、所定の位置関係で配置された複数のマイクロフォンで構成されるマイクロフォンアレイ１１と、複数のマイクロフォンの出力を増幅するマイクロフォン増幅器群１２と、マイクロコンピュータシステム４とで構成される。

実施の形態においては、マイクロフォンアレイ１１は、４つのマイクロフォン１１１、１１２、１１３および１１４が点対称に配置されているものとしているが、マイクロフォンの本数は４つに限定されることはない。なお、４つのマイクロフォン１１１、１１２、１１３および１１４は、無指向性であることが望ましい。

また、マイクロフォン増幅器群１２は、マイクロフォンの本数に対応して、４つの増幅器１２１、１２２、１２３および１２４を含む。

図３は本発明の音声入力装置を備える車両の上面図であって、マイクロフォンアレイ１１は、車両の天井のほぼ中央に埋め込まれている。また、マイクロフォン増幅器群１２とマイクロコンピュータシステム４とは、車両のインスツルメントパネル内に配置される。

また、本発明の音声入力装置から出力される抽出音声信号は、例えばナビゲーションシステム、車載電話等に対する音声信号として使用される。

即ち、収音手段１はマイクロフォンアレイ１１およびマイクロフォン増幅器群１２で構成され、話者方向決定手段２および話者音声抽出手段３はマイクロコンピュータシステム４によりソフトウエア的に構成される。

マイクロコンピュータシステム４は、マイクロフォン増幅器群１２の出力をディジタル化するＡ／Ｄ変換器４１１、４１２、４１３および４１４と、話者方向決定手段２および話者音声抽出手段３とを実現するプログラムを実行するＣＰＵ４２と、話者方向決定手段２と話者音声抽出手段３とを実現するプログラムを記憶するメモリ４３と、抽出された話者音声を出力する出力インターフェイス（Ｉ／Ｆ）４４と、マイクロコンピュータシステム４を保守するための保守ツール４５とを有している。

以下に本発明の実施の形態に係る音声入力装置の動作を説明する。

図４は、ＣＰＵ４２が実行するメインルーチンのフローチャートであって、ＣＰＵ４２は予め定められた時間間隔ごとにこのメインルーチンを実行する。

ＣＰＵ４２は、まずマイクロフォン増幅器群１２の出力をディジタル化して入力する入力ルーチンを実行（ステップＳ５１）し、次にマイクロフォンアレイ１１を基準とする話者方向を決定（ステップＳ５２）する。ＣＰＵ４２は、さらに、話者方向に基づいてマイクロフォンアレイ１１の指向性を変更して話者音声を抽出（ステップＳ５３）し、抽出された話者音声を出力（ステップＳ５４）するが、各処理の詳細は以下に説明する。

図５は、ＣＰＵ４２がメインルーチン（図４）のステップＳ５１で実行する入力ルーチンのフローチャートであって、ＣＰＵ４２は、まず、４つのマイクロフォン１１１、１１２、１１３および１１４のチャンネル番号を表すインデックスichを“１”に設定（ステップＳ５１１）する。

なお、本実施例においては、マイクロフォン１１１のチャンネル番号が“１”に、マイクロフォン１１２のチャンネル番号が“２”に、マイクロフォン１１３のチャンネル番号が“３”に、マイクロフォン１１４のチャンネル番号が“４”に設定されているものとする。

次に、ＣＰＵ４２は、増幅器１２１、およびＡ／Ｄ変換器４１１を介して“ichチャンネル”のマイクロフォンの出力Ｘ（ich）を取り込み（ステップＳ５１２）、マイクロフォンの出力Ｘ（ich）の突発的な変動を抑制するために時間平均処理を実行（ステップＳ５１３）する。なお、この時間平均処理は省略することも可能である。

そして、ＣＰＵ４２は、インデックスichがマイクロフォンの本数（本実施の形態にあっては“４”）に到達したか、即ちすべてのマイクロフォン出力の読み込みを完了したか否かを判断（ステップＳ５１４）し、未完であればインデックスichをインクリメント（ステップＳ５１５）して、ステップＳ５１２およびステップＳ５１３の処理を繰り返す。

ＣＰＵ４２は、すべてのマイクロフォンの出力の読み込みを完了したと判断したときは、このルーチンを終了する。

図６は、ＣＰＵ４２がメインルーチン（図４）のステップＳ５２で実行する話者方向決定ルーチンのフローチャートであって、ＣＰＵ４２は、まず、マイクロフォン出力Ｘ（ich）の音声レベルＬ（ich）を算出（ステップＳ５２０）する。音声レベルＬ（ich）としては、マイクロフォン出力Ｘ（ich）の絶対値、２乗値等を使用することができる。

ＣＰＵ４２は、４つのマイクロフォン１１１、１１２、１１３および１１４のチャンネル番号を表すインデックスichを“１”に、音声レベルの最大値Ｌmax“０”に設定（ステップＳ５２１）する。

次に、ＣＰＵ４２は、音声レベルＬ（ich）が最大値Ｌmaxより大きいか否かを判断（ステップＳ５２２）する。

ＣＰＵ４２が、音声レベルＬ（ich）は最大値Ｌmaxより大きいと判断したときには、ＣＰＵ４２は話者音声検出閾値Ｔを算出（ステップＳ５２３）するが、詳細は後述する。

ＣＰＵ４２は、音声レベルＬ（ich）が話者音声検出閾値Ｔより大きいか否かを判断（ステップＳ５２４）することによって、マイクロフォン出力Ｘ（ich）中に話者音声が含まれているか否かを判断する。

ＣＰＵ４２が、マイクロフォン出力Ｘ（ich）中に話者音声が含まれていると判断したときは、音声レベルの最大値Ｌmaxを音声レベルＬ（ich）で更新するとともに、当該チャンネルをＩmaxに記憶（ステップＳ５２５）する。

なお、ＣＰＵ４２は、ステップＳ５２４においてチャンネルichの出力中に話者音声が含まれていないと判断したときは、ステップＳ５２５をバイパスしてステップＳ５２６に進む。

次に、ＣＰＵ４２は、全てのマイクロフォンについて処理が完了したか否かを判断（ステップＳ５２６）し、全てのマイクロフォンについて処理が完了していないときは、インデックスichをインクリメント（ステップＳ５２７）して、ステップＳ５２２からステップＳ５２５の処理を繰り返す。

なお、ＣＰＵ４２は、ステップＳ５２２において、音声レベルＬ（ich）が最大値Ｌmax以下であると判断したときは、直接ステップＳ５２７に進む。

ＣＰＵ４２は、全てのマイクロフォンについて処理が完了したと判断したときは、最大音声レベルチャンネルＩmaxが変化したか否かを判定（ステップＳ５２８）する。

そして、最大音声レベルチャンネルＩmaxが変化したと判断したときは、最大の音声レベルを有し、かつ、話者音声を含むマイクロフォンの対角に配置されているマイクロフォンのチャンネル番号を最小レベルチャンネルＩminに設定（ステップＳ５２９）して、このルーチンを終了する。

なお、ステップＳ５２８において最大音声レベルチャンネルＩmaxが変化していないと判断したときは、最小音声レベルチャンネルＩminを更新することなくこのルーチンを終了する。

図７は、ＣＰＵ４２が話者方向決定ルーチン（図６）のステップＳ５２３で実行する話者音声検出閾値算出ルーチンのフローチャートであって、ＣＰＵ４２は前回実行時における雑音レベルＮＬが音声レベルＬ（ich）以上であるか否かを判断（ステップＳ６１）する。

ＣＰＵ４２が、雑音レベルＮＬが音声レベルＬ（ich）以上であると判断したときは、雑音レベルＮＬを音声レベルＬ（ich）で置き換えて、雑音レベルＮＬを更新（ステップＳ６２）する。

ＣＰＵ４２が、ステップＳ６１で雑音レベルＮＬが音声レベルＬ（ich）未満であると判断したときは、雑音レベルＮＬをそれまでの雑音レベルＮＬに第１の所定係数α（＞１、例えば１．０５）を乗じて、雑音レベルＮＬを更新（ステップＳ６３）する。

そして、ＣＰＵ４２は、更新された雑音レベルＮＬに第２の所定係数β（＞１、例えば１．３）を乗じて今回の話者音声検出閾値Ｔを算出（ステップＳ６４）して、このルーチンを終了する。

即ち、図８に示すように、マイクロフォンの音声レベルＬ（ich）が話者音声検出閾値Ｔ未満であるときは、雑音レベルＮＬは音声レベルＬ（ich）に追従する。円で囲まれた部分に示すように、音声レベルＬ（ich）が話者音声検出閾値Ｔ以上となると、雑音レベルＮＬは前ステップで算出された雑音レベルＮＬに所定値（α）を乗ずることにより更新され、漸次増加する。そして、話者音声検出閾値Ｔは更新された雑音レベルＮＬの所定係数（β）倍として算出されるので、話者音声検出閾値Ｔも漸次増加する。

話者が発声を止めると、音声レベルＬ（ich）は話者音声検出閾値Ｔ未満となり、雑音レベルＮＬは再び音声レベルＬ（ich）に追従するようになり、雑音レベルＮＬは話者音声検出前のレベルに復帰する。

図９は、ＣＰＵ４２がメインルーチン（図４）のステップＳ５３で実行する話者音声抽出ルーチンのフローチャートであって、４つのマイクロフォン１１１、１１２、１１３および１１４のチャンネル番号を表すインデックスichを“１”に設定（ステップＳ５３０）する。

ＣＰＵ４２は、次に、最小レベルチャンネルＩminおよびチャンネル番号ichから定まる遅延時間Ｄと、マイクロフォン出力Ｘ（ich）とを引数とするフィルタ関数として、遅延時間補正後出力Ｙ（ich）を算出（ステップＳ５３１）する。

図１０は、図１０右側に示すように正方形の４つの頂点にマイクロフォンを配置したマイクロフォンアレイを適用したときの遅延時間の設定表であって、縦方向に最小レベルチャンネルＩminを、横方向にフィルタのチャンネル番号をとる。

例えば、最小レベルチャンネルＩminが“１”であれば、第１のマイクロフォン１１１に接続される第１のフィルタ関数の遅延時間は“０”に設定される。第２のマイクロフォン１１２に接続される第２のフィルタ関数および第４のマイクロフォン１１４に接続される第４のフィルタ関数の係数はＤ_Sに設定される。さらに、最大レベルチャンネル“４” に接続される第４のフィルタ関数の遅延時間はＤ_Lに設定される。なお、０＜Ｄ_S＜Ｄ_Lである。

図９のフローチャートに戻り、ＣＰＵ４２は、すべてのマイクロフォンについて処理が終了したか否かを判断（ステップＳ５３２）し、終了していないと判断したときは、インデックスをインクリメント（ステップＳ５３３）して、ステップＳ５３１の処理を繰り返す。

ＣＰＵ４２は、すべてのマイクロフォンについて処理が終了したと判断したときは、４つの遅延時間補正後出力Ｙ（ich）を加算して、抽出話者音声Ｙoutを算出（ステップＳ５３４）して、出力Ｉ／Ｆを介して外部に出力（ステップＳ５３５）する。

図１１は、第１の実施形態で使用される話者音声抽出手段３の機能線図であって、マイクロフォンの出力Ｘ（ich）はフィルタ群８１に導かれる。

フィルタ群８１は、マイクロフォンアレイ１１を形成するマイクロフォンの本数に等しい数のフィルタ８１１、８１２、８１３、および８１４を含む。

各フィルタの係数は、最小レベルチャンネルＩminに応じて設定表８１５（図１０参照）に従って設定される。

そして、フィルタ８１１、８１２、８１３、および８１４の出力は加算部８２において加算され、抽出話者音声Ｙoutが算出される。

即ち、第１の実施の形態では、話者からもっとも離れているマイクロフォンの出力に含まれる話者音声と同相となるように他のマイクロフォン出力を遅延し、加算することにより話者音声を抽出している。

上記のように、本発明の第１の実施の形態によれば、マイクロフォンアレイに話者方向の指向性を与えることにより話者音声を抽出することが可能となる。

（第２の実施の形態）
図１２は、ＣＰＵ４２がメインルーチンのステップＳ５２で実行する第２の話者方向決定ルーチンのフローチャートであるが、図６に示す話者方向決定ルーチンと同一の処理には同一のステップ番号を付して説明を省略する。

即ち、第２の話者方向決定ルーチンでは、ステップＳ５２９に代えてステップＳ５５０を実行する点のみが相違する。

即ち、ＣＰＵ４２は、ステップＳ５５０で、最大レベルチャンネルＩmaxに基づいて雑音除去チャンネルＩdを設定する。雑音除去チャンネルＩdは、話者音声に対する雑音が到来する方向に対応するチャンネルであって、最大レベルチャンネルＩmaxに対応してどのように雑音除去チャンネルＩdを設定するかは、車両の特性に応じて予め定められているものとする。

図１３は、ＣＰＵ４２がメインルーチンのステップＳ５３で実行する第２の話者音声抽出ルーチンのフローチャートであるが、図９に示す話者音声抽出ルーチンと同一の処理には同一のステップ番号を付して説明を省略する。

ＣＰＵ４２は，インデックスichを“１”に設定（ステップＳ５３０）した後、雑音除去チャンネルＩdおよびチャンネル番号ichから定まる遅延時間Ｄと、マイクロフォン出力Ｘ（ich）とを引数とするフィルタ関数として、遅延時間補正後出力Ｙ（ich）を算出（ステップＳ５６０）する。

さらに、ＣＰＵ４２は、雑音除去チャンネルＩdおよびチャンネル番号ichに基づいて、係数Ｓ（ich）を設定する。

図１４は、第２の実施の形態で使用する第２の設定表であって、横方向に最大レベルチャンネルＩmaxを、縦方向に雑音除去チャンネルＩdをとる。最大レベルチャンネルＩmaxに対応する各列の左側は遅延時間Ｄ（ich）の設定値を、右側は係数Ｓ（ich）の設定値を示している。

例えば、最大レベルチャンネルＩmaxが“１”であり、雑音除去チャンネルＩdが“２”であるときは、２チャンネルのマイクロフォン１１２の方向から到来する雑音を除去するために、１チャンネルのフィルタの遅延時間Ｄ（１）を“０”に、２チャンネルのフィルタの遅延時間Ｄ（２）を、雑音が２チャンネルのマイクロフォン１１２に到達してから１チャンネルのマイクロフォン１１１に到達するまでの時間差γに設定する。

さらに、１チャンネルの係数Ｓ（１）を“１”に、２チャンネルの係数Ｓ（２）を“−１”に、３チャンネルの係数Ｓ（３）および４チャンネルの係数Ｓ（４）を“０”に設定する。

なお、３チャンネルのフィルタの遅延時間Ｄ（３）および４チャンネルのフィルタの遅延時間Ｄ（４）は対応する係数が“０”であるので、フィルタの動作が不安定にならない範囲で任意の値に設定すればよい。

第２の話者音声抽出ルーチンに戻り、すべてのチャンネルについてフィルタ出力の算出および係数の設定が終了すると、遅延時間補正後出力Ｙ（ich）と係数Ｓ（ich）との積をすべてのチャンネルについて加算して抽出話者音声Ｙoutを算出（ステップＳ５６２）する。

そして、ＣＰＵ４２は、雑音を除去したことによる話者音声の周波数特性の劣化を補償するために、雑音除去チャンネルＩdを引数とするイコライジング関数により抽出話者音声Ｙoutをイコライジング（ステップＳ５６３）し、イコライジング後の抽出話者音声Ｙoutを出力（ステップＳ５３５）する。

図１５は、話者音声抽出手段３の第２実施形態の機能線図であって、マイクロフォンの出力Ｘ（ich）はフィルタ群８３に導かれる。

フィルタ群８３は、マイクロフォンアレイ１１を形成するマイクロフォンの本数に等しい数のフィルタ８３１、８３２、８３３、および８３４を含む。

各フィルタの係数は、最大レベルチャンネルＩmaxおよび雑音除去チャンネルＩdをインデックスとして第２の設定表８３９（図１４参照）に従って設定される。

そして、フィルタ８３１、８３２、８３３、および８３４の出力は、係数器８３５、８３６、８３７、および８３８を経て加算部８２において加算され、抽出話者音声Ｙoutが算出される。なお、係数器の係数Ｓ（ich）も最大レベルチャンネルＩmaxおよび雑音除去チャンネルＩdをインデックスとして第２の設定表８３９（図１０参照）に従って設定される。

さらに、抽出話者音声Ｙoutはイコライザ８４においてイコライジングされた後に出力される。

即ち、第２の実施の形態では、雑音源からもっとも離れているマイクロフォン以外の１つのマイクロフォンの出力に含まれる雑音が、雑音源からもっとも離れているマイクロフォンの出力に含まれる雑音と同相となるように他の１つのマイクロフォン出力を遅延し、減算することにより雑音を除去して話者音声を抽出している。

上記のように、本発明の第２の実施の形態によれば、マイクロフォンアレイの話者方向以外の方向に死角を形成することにより話者音声を抽出することが可能となる。
（第３の実施の形態）
第３の実施の形態では、コンピュータシステム４の出力Ｉ／Ｆ４４に表示装置を接続し、表示装置に話者方向を表示できるようにする。

図１６は話者方向の表示例を示す図であって、車両の運転者が話者である場合を示している。

（ａ）は運転者のアイコンを他の搭乗者と異なる色に表示する場合であり、（ｂ）は運転席を他の席と異なる色に表示する場合を示している。

第３の実施の形態によれば、音声入力装置が検出している話者方向を運転者および他の搭乗者が確認できることとなる。

以上のように、本発明に係る音声入力装置は、簡易な構成で話者音声を確実に抽出することのできるという効果を有し、音声処理装置等として有効である。

本発明の実施の形態における音声入力装置のブロック図本発明の実施の形態における音声入力装置のハードウエアブロック図本発明の実施の形態における音声入力装置のマイクロフォンアレイを備える車両の上面図本発明の実施の形態における音声入力装置が実行するメインルーチンのフローチャート本発明の実施の形態における音声入力装置が実行する入力ルーチンのフローチャート本発明の第１の実施の形態における音声入力装置が実行する話者方向決定ルーチンのフローチャート本発明の第１の実施の形態における音声入力装置が実行する話者音声閾値算出ルーチンのフローチャート本発明の第１の実施の形態における音声レベル、話者音声閾値、および雑音レベルの変化を示すグラフ本発明の第１の実施の形態における音声入力装置が実行する話者音声抽出ルーチンのフローチャート本発明の第１の実施の形態における音声入力装置に適用される遅延時間の設定表本発明の第１の実施の形態における音声入力装置の機能線図本発明の第２の実施の形態における音声入力装置が実行する第２の話者方向決定ルーチンのフローチャート本発明の第２の実施の形態における音声入力装置が実行する第２の話者音声抽出ルーチンのフローチャート本発明の第２の実施の形態における音声入力装置に適用される第２の遅延時間の設定表本発明の第２の実施の形態における音声入力装置の機能線図本発明の第３の実施の形態における音声入力装置の表示装置の表示画面例従来の第１の音声入力装置のブロック図従来の第２の音声入力装置のブロック図

符号の説明

１収音手段
２話者方向決定手段
３話者音声抽出手段
１０音声入力装置

Claims

所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声した話者音声を含む音声を収音する収音手段と、
前記収音手段により収音された音声に基づいて前記収音手段に対する前記話者の方向を決定する話者方向決定手段と、
前記話者方向決定手段で決定された話者方向に基づいて前記収音手段の指向性を変更して前記話者音声を抽出する話者音声抽出手段とを含む音声入力装置。
前記話者方向決定手段が、
前記収音手段で収音された音声のレベルを前記マイクロフォンごとに算出する音声レベル算出部と、
前記収音手段で収音された音声に前記話者音声が含まれているか否かを前記マイクロフォンごとに判定する判定部と、
前記判定部で前記話者音声が含まれていると判定され、かつ、前記音声レベル算出部で算出された音声レベルが最大である１つのマイクロフォンの前記マイクロフォンアレイ中の位置に基づいて話者方向を決定する話者方向決定部とを有する請求項１に記載の音声入力装置。
前記話者音声抽出手段が、
前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向の指向性を付加する指向性付加部である請求項１または請求項２に記載の音声入力装置。
前記話者音声抽出手段が、
前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向以外の方向に死角を付加する死角付加部である請求項１または請求項２に記載の音声入力装置。
前記指向性付加部が、
前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、
前記フィルタ部の出力を加算する加算部とを有する請求項３に記載の音声入力装置。
前記死角付加部が、
前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、
前記話者方向決定手段で決定された話者方向に対応する前記フィルタ部の出力から前記話者方向決定手段で決定された話者方向以外の１方向に対応する前記フィルタの出力を減算する減算部と、
前記減算部の出力の周波数特性を補正する周波数特性補正部とを有する請求項４に記載の音声入力装置。
前記収音手段が、収音対象である複数の話者の略中央に配置されるマイクロフォンアレイである請求項１から請求項６のいずれか１項に記載の音声入力装置。
前記マイクロフォンアレイが、前記複数のマイクロフォンの中心に関し点対称に配置されたものである請求項７に記載の音声入力装置。
前記複数のマイクロフォンが、無指向性マイクロフォンである請求項８に記載の音声入力装置。