JP2006126424A - 音声入力装置 - Google Patents

音声入力装置 Download PDF

Info

Publication number
JP2006126424A
JP2006126424A JP2004313693A JP2004313693A JP2006126424A JP 2006126424 A JP2006126424 A JP 2006126424A JP 2004313693 A JP2004313693 A JP 2004313693A JP 2004313693 A JP2004313693 A JP 2004313693A JP 2006126424 A JP2006126424 A JP 2006126424A
Authority
JP
Japan
Prior art keywords
speaker
voice
unit
input device
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004313693A
Other languages
English (en)
Inventor
Takeshi Ura
威史 浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004313693A priority Critical patent/JP2006126424A/ja
Publication of JP2006126424A publication Critical patent/JP2006126424A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 話者音声を確実に抽出することのできる簡易な構成の音声入力装置を提供する。
【解決手段】 音声入力装置10は、所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声する話者音声および騒音を収音する収音手段1と、収音手段1の出力に基づいて収音手段1に対する話者の方向を決定する話者方向決定手段2と、話者方向に基づいて収音手段1の指向性を変更して話者音声を抽出する話者音声抽出手段3とを含む。
【選択図】 図1

Description

本発明は、特定の話者の音声を抽出できる音声入力装置に関する。
従来から、自動車等の運行時の安全性、利便性を向上するために、ナビゲーションシステム、オーディオシステム等の車載機器の音声操作を可能とする、あるいは、携帯電話でのハンズフリー通話を可能とするための音声入力装置が実用化されている。
第1の従来の音声入力装置としては、話者の近傍にマイクロフォンを配置したものが知られている(例えば、特許文献1参照)。
図17は、第1の従来の音声入力装置のブロック図であって、運転席用マイクロフォン81で生成された第1の電気信号は、第1のマイクロフォンアンプ83で増幅され、第1のA/Dコンバータ85でディジタル化されて、制御部87に導かれる。また、助手席用マイクロフォン82で生成された第2の電気信号は、第2のマイクロフォンアンプ84で増幅され、第2のA/Dコンバータ86でディジタル化されて、制御部87に導かれる。制御部87は、第1の電気信号と第2の電気信号のレベルを比較し、レベルの高いほうの電気信号を出力端子88から出力する。
即ち、従来の第1の音声入力装置は、複数のマイクロフォンで電気信号に変換された音声の中で、最も高レベルの音声を選択的に出力するようになっている。
さらに、第2の従来の音声入力装置として、複数のマイクロフォンを使用して話者方向を探索するものがある(例えば、特許文献2参照)。
図18は、従来の第2の音声入力装置のブロック図であって、3本のマイクロフォン91、92、および93を含むマイクロフォンアレイ90の出力は制御部94に導かれる。制御部94は、話者音声が各マイクロフォン91、92、および93に到達するまでの時間と3本のマイクロフォン91、92、および93の位置関係から話者方向を決定する。そして、話者方向に応じて予めメモリ95に記憶されている複数のゲインの中から話者方向に応じて1つのゲインを選択し、ゲイン調整部96のゲインとして設定する。
即ち、第2の従来の音声入力装置は、話者方向を決定し、その方向に対する指向性を強めることにより話者音声を、例えば音声認識部97に出力する。
特開2001−222291号公報(第4頁、図1) 特開平11−219193号公報(第5頁、図1)
しかしながら、従来の第1の音声入力装置には、話者の近傍にマイクロフォンを設置する必要があるため、話者がマイクロフォンから離れたときには走行音やエンジン音の影響により話者の音声を確実に検出できないという課題があった。
また、従来の第2の音声入力装置には、常時話者方向を探索する必要があるため、制御部の処理が複雑となるという課題があった。
本発明は、前述の2つの課題を解決するためになされたものであって、話者音声を確実に抽出することのできる簡易な構成の音声入力装置を提供することを目的とする。
本発明の音声入力装置は、所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声する話者音声を含む音声を収音する収音手段と、前記収音手段で収音された音声に基づいて前記収音手段に対する前記話者の方向を決定する話者方向決定手段と、前記話者方向決定手段で決定された話者方向に基づいて前記収音手段の指向性を変更して前記話者音声を抽出する話者音声抽出手段とを含む構成を有している。
この構成により、話者音声を確実に抽出できることとなる。
本発明の音声入力装置は、前記話者方向決定手段が、前記収音手段で収音された音声のレベルを前記マイクロフォンごとに算出する音声レベル算出部と、前記収音手段で収音された音声に前記話者音声が含まれているか否かを前記マイクロフォンごとに判定する判定部と、前記判定部で前記話者音声が含まれていると判定され、かつ、前記音声レベル算出部で算出された音声レベルが最大である1つのマイクロフォンの前記マイクロフォンアレイ中の位置に基づいて話者方向を決定する話者方向決定部とを有する構成を有している。
この構成により、話者方向をマイクロフォンアレイの音声レベルに基づいて定めることが可能となる。
本発明の音声入力装置は、前記話者音声抽出手段が、前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向の指向性を付加する指向性付加部である構成を有している。
この構成により、マイクロフォンアレイの話者方向への指向性を強めて話者音声を抽出することとなる。
本発明の音声入力装置は、前記話者音声抽出手段が、前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向以外の方向に死角を付加する死角付加部である構成を有している。
この構成により、話者音声に対する騒音を除去して話者音声を抽出することとなる。
本発明の音声入力装置は、前記指向性付加部が、前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、前記フィルタ部の出力を加算する加算部とを有する構成を有している。
この構成により、遅延和アレイにより話者音声を抽出できることとなる。
本発明の音声入力装置は、前記死角付加部が、前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、前記話者方向決定手段で決定された話者方向に対応する前記フィルタ部の出力から前記話者方向決定手段で決定された話者方向以外の1方向に対応する前記フィルタの出力を減算する減算部と、前記減算部の出力の周波数特性を補正する周波数特性補正部とを有する構成を有している。
この構成により、減算型アレイにより話者音声を抽出できることとなる。
本発明の音声入力装置は、前記収音手段が、収音対象である複数の話者の略中央に配置されるマイクロフォンアレイであってもよい。
本発明の音声入力装置は、前記マイクロフォンアレイが、前記複数のマイクロフォンの中心に関し点対称に配置されたものであってもよい。
本発明の音声入力装置は、前記複数のマイクロフォンが、無指向性マイクロフォンであってもよい。
本発明は、収音手段、話者方向決定手段および話者音声抽出手段により音声入力装置を構成することにより、話者音声を確実に抽出することのできる簡易な構成の音声入力装置を提供することができる。
以下図面を参照しつつ、本発明の実施の形態に係る音声入力装置を説明する。
(第1の実施の形態)
本発明の第1の実施の形態に係る音声入力装置10は、図1に示すように、所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声する話者音声を含む音声を収音する収音手段1と、収音手段1により収音された音声に基づいて収音手段1に対する話者の方向を決定する話者方向決定手段2と、話者方向決定手段2で決定された話者方向に基づいて収音手段1の指向性を変更して話者音声を抽出する話者音声抽出手段3とを含む。
本発明の第1の実施の形態に係る音声入力装置10は、ハードウエア的には、図2に示すように、所定の位置関係で配置された複数のマイクロフォンで構成されるマイクロフォンアレイ11と、複数のマイクロフォンの出力を増幅するマイクロフォン増幅器群12と、マイクロコンピュータシステム4とで構成される。
実施の形態においては、マイクロフォンアレイ11は、4つのマイクロフォン111、112、113および114が点対称に配置されているものとしているが、マイクロフォンの本数は4つに限定されることはない。なお、4つのマイクロフォン111、112、113および114は、無指向性であることが望ましい。
また、マイクロフォン増幅器群12は、マイクロフォンの本数に対応して、4つの増幅器121、122、123および124を含む。
図3は本発明の音声入力装置を備える車両の上面図であって、マイクロフォンアレイ11は、車両の天井のほぼ中央に埋め込まれている。また、マイクロフォン増幅器群12とマイクロコンピュータシステム4とは、車両のインスツルメントパネル内に配置される。
また、本発明の音声入力装置から出力される抽出音声信号は、例えばナビゲーションシステム、車載電話等に対する音声信号として使用される。
即ち、収音手段1はマイクロフォンアレイ11およびマイクロフォン増幅器群12で構成され、話者方向決定手段2および話者音声抽出手段3はマイクロコンピュータシステム4によりソフトウエア的に構成される。
マイクロコンピュータシステム4は、マイクロフォン増幅器群12の出力をディジタル化するA/D変換器411、412、413および414と、話者方向決定手段2および話者音声抽出手段3とを実現するプログラムを実行するCPU42と、話者方向決定手段2と話者音声抽出手段3とを実現するプログラムを記憶するメモリ43と、抽出された話者音声を出力する出力インターフェイス(I/F)44と、マイクロコンピュータシステム4を保守するための保守ツール45とを有している。
以下に本発明の実施の形態に係る音声入力装置の動作を説明する。
図4は、CPU42が実行するメインルーチンのフローチャートであって、CPU42は予め定められた時間間隔ごとにこのメインルーチンを実行する。
CPU42は、まずマイクロフォン増幅器群12の出力をディジタル化して入力する入力ルーチンを実行(ステップS51)し、次にマイクロフォンアレイ11を基準とする話者方向を決定(ステップS52)する。CPU42は、さらに、話者方向に基づいてマイクロフォンアレイ11の指向性を変更して話者音声を抽出(ステップS53)し、抽出された話者音声を出力(ステップS54)するが、各処理の詳細は以下に説明する。
図5は、CPU42がメインルーチン(図4)のステップS51で実行する入力ルーチンのフローチャートであって、CPU42は、まず、4つのマイクロフォン111、112、113および114のチャンネル番号を表すインデックスichを“1”に設定(ステップS511)する。
なお、本実施例においては、マイクロフォン111のチャンネル番号が“1”に、マイクロフォン112のチャンネル番号が“2”に、マイクロフォン113のチャンネル番号が“3”に、マイクロフォン114のチャンネル番号が“4”に設定されているものとする。
次に、CPU42は、増幅器121、およびA/D変換器411を介して“ichチャンネル”のマイクロフォンの出力X(ich)を取り込み(ステップS512)、マイクロフォンの出力X(ich)の突発的な変動を抑制するために時間平均処理を実行(ステップS513)する。なお、この時間平均処理は省略することも可能である。
そして、CPU42は、インデックスichがマイクロフォンの本数(本実施の形態にあっては“4”)に到達したか、即ちすべてのマイクロフォン出力の読み込みを完了したか否かを判断(ステップS514)し、未完であればインデックスichをインクリメント(ステップS515)して、ステップS512およびステップS513の処理を繰り返す。
CPU42は、すべてのマイクロフォンの出力の読み込みを完了したと判断したときは、このルーチンを終了する。
図6は、CPU42がメインルーチン(図4)のステップS52で実行する話者方向決定ルーチンのフローチャートであって、CPU42は、まず、マイクロフォン出力X(ich)の音声レベルL(ich)を算出(ステップS520)する。音声レベルL(ich)としては、マイクロフォン出力X(ich)の絶対値、2乗値等を使用することができる。
CPU42は、4つのマイクロフォン111、112、113および114のチャンネル番号を表すインデックスichを“1”に、音声レベルの最大値Lmax“0”に設定(ステップS521)する。
次に、CPU42は、音声レベルL(ich)が最大値Lmaxより大きいか否かを判断(ステップS522)する。
CPU42が、音声レベルL(ich)は最大値Lmaxより大きいと判断したときには、CPU42は話者音声検出閾値Tを算出(ステップS523)するが、詳細は後述する。
CPU42は、音声レベルL(ich)が話者音声検出閾値Tより大きいか否かを判断(ステップS524)することによって、マイクロフォン出力X(ich)中に話者音声が含まれているか否かを判断する。
CPU42が、マイクロフォン出力X(ich)中に話者音声が含まれていると判断したときは、音声レベルの最大値Lmaxを音声レベルL(ich)で更新するとともに、当該チャンネルをImaxに記憶(ステップS525)する。
なお、CPU42は、ステップS524においてチャンネルichの出力中に話者音声が含まれていないと判断したときは、ステップS525をバイパスしてステップS526に進む。
次に、CPU42は、全てのマイクロフォンについて処理が完了したか否かを判断(ステップS526)し、全てのマイクロフォンについて処理が完了していないときは、インデックスichをインクリメント(ステップS527)して、ステップS522からステップS525の処理を繰り返す。
なお、CPU42は、ステップS522において、音声レベルL(ich)が最大値Lmax以下であると判断したときは、直接ステップS527に進む。
CPU42は、全てのマイクロフォンについて処理が完了したと判断したときは、最大音声レベルチャンネルImaxが変化したか否かを判定(ステップS528)する。
そして、最大音声レベルチャンネルImaxが変化したと判断したときは、最大の音声レベルを有し、かつ、話者音声を含むマイクロフォンの対角に配置されているマイクロフォンのチャンネル番号を最小レベルチャンネルIminに設定(ステップS529)して、このルーチンを終了する。
なお、ステップS528において最大音声レベルチャンネルImaxが変化していないと判断したときは、最小音声レベルチャンネルIminを更新することなくこのルーチンを終了する。
図7は、CPU42が話者方向決定ルーチン(図6)のステップS523で実行する話者音声検出閾値算出ルーチンのフローチャートであって、CPU42は前回実行時における雑音レベルNLが音声レベルL(ich)以上であるか否かを判断(ステップS61)する。
CPU42が、雑音レベルNLが音声レベルL(ich)以上であると判断したときは、雑音レベルNLを音声レベルL(ich)で置き換えて、雑音レベルNLを更新(ステップS62)する。
CPU42が、ステップS61で雑音レベルNLが音声レベルL(ich)未満であると判断したときは、雑音レベルNLをそれまでの雑音レベルNLに第1の所定係数α(>1、例えば1.05)を乗じて、雑音レベルNLを更新(ステップS63)する。
そして、CPU42は、更新された雑音レベルNLに第2の所定係数β(>1、例えば1.3)を乗じて今回の話者音声検出閾値Tを算出(ステップS64)して、このルーチンを終了する。
即ち、図8に示すように、マイクロフォンの音声レベルL(ich)が話者音声検出閾値T未満であるときは、雑音レベルNLは音声レベルL(ich)に追従する。円で囲まれた部分に示すように、音声レベルL(ich)が話者音声検出閾値T以上となると、雑音レベルNLは前ステップで算出された雑音レベルNLに所定値(α)を乗ずることにより更新され、漸次増加する。そして、話者音声検出閾値Tは更新された雑音レベルNLの所定係数(β)倍として算出されるので、話者音声検出閾値Tも漸次増加する。
話者が発声を止めると、音声レベルL(ich)は話者音声検出閾値T未満となり、雑音レベルNLは再び音声レベルL(ich)に追従するようになり、雑音レベルNLは話者音声検出前のレベルに復帰する。
図9は、CPU42がメインルーチン(図4)のステップS53で実行する話者音声抽出ルーチンのフローチャートであって、4つのマイクロフォン111、112、113および114のチャンネル番号を表すインデックスichを“1”に設定(ステップS530)する。
CPU42は、次に、最小レベルチャンネルIminおよびチャンネル番号ichから定まる遅延時間Dと、マイクロフォン出力X(ich)とを引数とするフィルタ関数として、遅延時間補正後出力Y(ich)を算出(ステップS531)する。
図10は、図10右側に示すように正方形の4つの頂点にマイクロフォンを配置したマイクロフォンアレイを適用したときの遅延時間の設定表であって、縦方向に最小レベルチャンネルIminを、横方向にフィルタのチャンネル番号をとる。
例えば、最小レベルチャンネルIminが“1”であれば、第1のマイクロフォン111に接続される第1のフィルタ関数の遅延時間は“0”に設定される。第2のマイクロフォン112に接続される第2のフィルタ関数および第4のマイクロフォン114に接続される第4のフィルタ関数の係数はDSに設定される。さらに、最大レベルチャンネル“4” に接続される第4のフィルタ関数の遅延時間はDLに設定される。なお、0<DS<DLである。
図9のフローチャートに戻り、CPU42は、すべてのマイクロフォンについて処理が終了したか否かを判断(ステップS532)し、終了していないと判断したときは、インデックスをインクリメント(ステップS533)して、ステップS531の処理を繰り返す。
CPU42は、すべてのマイクロフォンについて処理が終了したと判断したときは、4つの遅延時間補正後出力Y(ich)を加算して、抽出話者音声Youtを算出(ステップS534)して、出力I/Fを介して外部に出力(ステップS535)する。
図11は、第1の実施形態で使用される話者音声抽出手段3の機能線図であって、マイクロフォンの出力X(ich)はフィルタ群81に導かれる。
フィルタ群81は、マイクロフォンアレイ11を形成するマイクロフォンの本数に等しい数のフィルタ811、812、813、および814を含む。
各フィルタの係数は、最小レベルチャンネルIminに応じて設定表815(図10参照)に従って設定される。
そして、フィルタ811、812、813、および814の出力は加算部82において加算され、抽出話者音声Youtが算出される。
即ち、第1の実施の形態では、話者からもっとも離れているマイクロフォンの出力に含まれる話者音声と同相となるように他のマイクロフォン出力を遅延し、加算することにより話者音声を抽出している。
上記のように、本発明の第1の実施の形態によれば、マイクロフォンアレイに話者方向の指向性を与えることにより話者音声を抽出することが可能となる。
(第2の実施の形態)
図12は、CPU42がメインルーチンのステップS52で実行する第2の話者方向決定ルーチンのフローチャートであるが、図6に示す話者方向決定ルーチンと同一の処理には同一のステップ番号を付して説明を省略する。
即ち、第2の話者方向決定ルーチンでは、ステップS529に代えてステップS550を実行する点のみが相違する。
即ち、CPU42は、ステップS550で、最大レベルチャンネルImaxに基づいて雑音除去チャンネルIdを設定する。雑音除去チャンネルIdは、話者音声に対する雑音が到来する方向に対応するチャンネルであって、最大レベルチャンネルImaxに対応してどのように雑音除去チャンネルIdを設定するかは、車両の特性に応じて予め定められているものとする。
図13は、CPU42がメインルーチンのステップS53で実行する第2の話者音声抽出ルーチンのフローチャートであるが、図9に示す話者音声抽出ルーチンと同一の処理には同一のステップ番号を付して説明を省略する。
CPU42は,インデックスichを“1”に設定(ステップS530)した後、雑音除去チャンネルIdおよびチャンネル番号ichから定まる遅延時間Dと、マイクロフォン出力X(ich)とを引数とするフィルタ関数として、遅延時間補正後出力Y(ich)を算出(ステップS560)する。
さらに、CPU42は、雑音除去チャンネルIdおよびチャンネル番号ichに基づいて、係数S(ich)を設定する。
図14は、第2の実施の形態で使用する第2の設定表であって、横方向に最大レベルチャンネルImaxを、縦方向に雑音除去チャンネルIdをとる。最大レベルチャンネルImaxに対応する各列の左側は遅延時間D(ich)の設定値を、右側は係数S(ich)の設定値を示している。
例えば、最大レベルチャンネルImaxが“1”であり、雑音除去チャンネルIdが“2”であるときは、2チャンネルのマイクロフォン112の方向から到来する雑音を除去するために、1チャンネルのフィルタの遅延時間D(1)を“0”に、2チャンネルのフィルタの遅延時間D(2)を、雑音が2チャンネルのマイクロフォン112に到達してから1チャンネルのマイクロフォン111に到達するまでの時間差γに設定する。
さらに、1チャンネルの係数S(1)を“1”に、2チャンネルの係数S(2)を“−1”に、3チャンネルの係数S(3)および4チャンネルの係数S(4)を“0”に設定する。
なお、3チャンネルのフィルタの遅延時間D(3)および4チャンネルのフィルタの遅延時間D(4)は対応する係数が“0”であるので、フィルタの動作が不安定にならない範囲で任意の値に設定すればよい。
第2の話者音声抽出ルーチンに戻り、すべてのチャンネルについてフィルタ出力の算出および係数の設定が終了すると、遅延時間補正後出力Y(ich)と係数S(ich)との積をすべてのチャンネルについて加算して抽出話者音声Youtを算出(ステップS562)する。
そして、CPU42は、雑音を除去したことによる話者音声の周波数特性の劣化を補償するために、雑音除去チャンネルIdを引数とするイコライジング関数により抽出話者音声Youtをイコライジング(ステップS563)し、イコライジング後の抽出話者音声Youtを出力(ステップS535)する。
図15は、話者音声抽出手段3の第2実施形態の機能線図であって、マイクロフォンの出力X(ich)はフィルタ群83に導かれる。
フィルタ群83は、マイクロフォンアレイ11を形成するマイクロフォンの本数に等しい数のフィルタ831、832、833、および834を含む。
各フィルタの係数は、最大レベルチャンネルImaxおよび雑音除去チャンネルIdをインデックスとして第2の設定表839(図14参照)に従って設定される。
そして、フィルタ831、832、833、および834の出力は、係数器835、836、837、および838を経て加算部82において加算され、抽出話者音声Youtが算出される。なお、係数器の係数S(ich)も最大レベルチャンネルImaxおよび雑音除去チャンネルIdをインデックスとして第2の設定表839(図10参照)に従って設定される。
さらに、抽出話者音声Youtはイコライザ84においてイコライジングされた後に出力される。
即ち、第2の実施の形態では、雑音源からもっとも離れているマイクロフォン以外の1つのマイクロフォンの出力に含まれる雑音が、雑音源からもっとも離れているマイクロフォンの出力に含まれる雑音と同相となるように他の1つのマイクロフォン出力を遅延し、減算することにより雑音を除去して話者音声を抽出している。
上記のように、本発明の第2の実施の形態によれば、マイクロフォンアレイの話者方向以外の方向に死角を形成することにより話者音声を抽出することが可能となる。
(第3の実施の形態)
第3の実施の形態では、コンピュータシステム4の出力I/F44に表示装置を接続し、表示装置に話者方向を表示できるようにする。
図16は話者方向の表示例を示す図であって、車両の運転者が話者である場合を示している。
(a)は運転者のアイコンを他の搭乗者と異なる色に表示する場合であり、(b)は運転席を他の席と異なる色に表示する場合を示している。
第3の実施の形態によれば、音声入力装置が検出している話者方向を運転者および他の搭乗者が確認できることとなる。
以上のように、本発明に係る音声入力装置は、簡易な構成で話者音声を確実に抽出することのできるという効果を有し、音声処理装置等として有効である。
本発明の実施の形態における音声入力装置のブロック図 本発明の実施の形態における音声入力装置のハードウエアブロック図 本発明の実施の形態における音声入力装置のマイクロフォンアレイを備える車両の上面図 本発明の実施の形態における音声入力装置が実行するメインルーチンのフローチャート 本発明の実施の形態における音声入力装置が実行する入力ルーチンのフローチャート 本発明の第1の実施の形態における音声入力装置が実行する話者方向決定ルーチンのフローチャート 本発明の第1の実施の形態における音声入力装置が実行する話者音声閾値算出ルーチンのフローチャート 本発明の第1の実施の形態における音声レベル、話者音声閾値、および雑音レベルの変化を示すグラフ 本発明の第1の実施の形態における音声入力装置が実行する話者音声抽出ルーチンのフローチャート 本発明の第1の実施の形態における音声入力装置に適用される遅延時間の設定表 本発明の第1の実施の形態における音声入力装置の機能線図 本発明の第2の実施の形態における音声入力装置が実行する第2の話者方向決定ルーチンのフローチャート 本発明の第2の実施の形態における音声入力装置が実行する第2の話者音声抽出ルーチンのフローチャート 本発明の第2の実施の形態における音声入力装置に適用される第2の遅延時間の設定表 本発明の第2の実施の形態における音声入力装置の機能線図 本発明の第3の実施の形態における音声入力装置の表示装置の表示画面例 従来の第1の音声入力装置のブロック図 従来の第2の音声入力装置のブロック図
符号の説明
1 収音手段
2 話者方向決定手段
3 話者音声抽出手段
10 音声入力装置

Claims (9)

  1. 所定の位置関係に配置された複数のマイクロフォンで構成されるマイクロフォンアレイにより話者が発声した話者音声を含む音声を収音する収音手段と、
    前記収音手段により収音された音声に基づいて前記収音手段に対する前記話者の方向を決定する話者方向決定手段と、
    前記話者方向決定手段で決定された話者方向に基づいて前記収音手段の指向性を変更して前記話者音声を抽出する話者音声抽出手段とを含む音声入力装置。
  2. 前記話者方向決定手段が、
    前記収音手段で収音された音声のレベルを前記マイクロフォンごとに算出する音声レベル算出部と、
    前記収音手段で収音された音声に前記話者音声が含まれているか否かを前記マイクロフォンごとに判定する判定部と、
    前記判定部で前記話者音声が含まれていると判定され、かつ、前記音声レベル算出部で算出された音声レベルが最大である1つのマイクロフォンの前記マイクロフォンアレイ中の位置に基づいて話者方向を決定する話者方向決定部とを有する請求項1に記載の音声入力装置。
  3. 前記話者音声抽出手段が、
    前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向の指向性を付加する指向性付加部である請求項1または請求項2に記載の音声入力装置。
  4. 前記話者音声抽出手段が、
    前記収音手段で収音された音声に対して、前記話者方向決定手段で決定された話者方向以外の方向に死角を付加する死角付加部である請求項1または請求項2に記載の音声入力装置。
  5. 前記指向性付加部が、
    前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、
    前記フィルタ部の出力を加算する加算部とを有する請求項3に記載の音声入力装置。
  6. 前記死角付加部が、
    前記複数のマイクロフォンの出力を前記話者方向決定手段で決定された話者方向に応じて遅延させるフィルタ部と、
    前記話者方向決定手段で決定された話者方向に対応する前記フィルタ部の出力から前記話者方向決定手段で決定された話者方向以外の1方向に対応する前記フィルタの出力を減算する減算部と、
    前記減算部の出力の周波数特性を補正する周波数特性補正部とを有する請求項4に記載の音声入力装置。
  7. 前記収音手段が、収音対象である複数の話者の略中央に配置されるマイクロフォンアレイである請求項1から請求項6のいずれか1項に記載の音声入力装置。
  8. 前記マイクロフォンアレイが、前記複数のマイクロフォンの中心に関し点対称に配置されたものである請求項7に記載の音声入力装置。
  9. 前記複数のマイクロフォンが、無指向性マイクロフォンである請求項8に記載の音声入力装置。
JP2004313693A 2004-10-28 2004-10-28 音声入力装置 Pending JP2006126424A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004313693A JP2006126424A (ja) 2004-10-28 2004-10-28 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004313693A JP2006126424A (ja) 2004-10-28 2004-10-28 音声入力装置

Publications (1)

Publication Number Publication Date
JP2006126424A true JP2006126424A (ja) 2006-05-18

Family

ID=36721254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004313693A Pending JP2006126424A (ja) 2004-10-28 2004-10-28 音声入力装置

Country Status (1)

Country Link
JP (1) JP2006126424A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010056763A (ja) * 2008-08-27 2010-03-11 Murata Machinery Ltd 音声認識装置
US10951978B2 (en) 2017-03-21 2021-03-16 Fujitsu Limited Output control of sounds from sources respectively positioned in priority and nonpriority directions
JP2022014907A (ja) * 2020-12-15 2022-01-20 阿波羅智聯(北京)科技有限公司 車両ベースの音声処理方法、音声プロセッサ、車載プロセッサ

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010056763A (ja) * 2008-08-27 2010-03-11 Murata Machinery Ltd 音声認識装置
US10951978B2 (en) 2017-03-21 2021-03-16 Fujitsu Limited Output control of sounds from sources respectively positioned in priority and nonpriority directions
JP2022014907A (ja) * 2020-12-15 2022-01-20 阿波羅智聯(北京)科技有限公司 車両ベースの音声処理方法、音声プロセッサ、車載プロセッサ
JP7258083B2 (ja) 2020-12-15 2023-04-14 阿波羅智聯(北京)科技有限公司 車両ベースの音声処理方法、音声プロセッサ、車載プロセッサ

Similar Documents

Publication Publication Date Title
JP4333369B2 (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US9002028B2 (en) Noisy environment communication enhancement system
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
CN102164328B (zh) 一种用于家庭环境的基于传声器阵列的音频输入系统
US7930175B2 (en) Background noise reduction system
EP1718103B1 (en) Compensation of reverberation and feedback
JP2016051038A (ja) ノイズゲート装置
EP3096318B1 (en) Noise reduction in multi-microphone systems
KR100318144B1 (ko) 핸드프리장치를갖는이동무선송수신기
EP2859772B1 (en) Wind noise detection for in-car communication systems with multiple acoustic zones
US20100004929A1 (en) Apparatus and method for canceling noise of voice signal in electronic apparatus
US20200245066A1 (en) Sound processing apparatus and sound processing method
JP2012195801A (ja) 会話支援装置
JP2007180896A (ja) 音声信号処理装置および音声信号処理方法
US20210142802A1 (en) Vehicular apparatus, vehicle, operation method of vehicular apparatus, and storage medium
JP4161685B2 (ja) 音声入出力装置
EP1575034A1 (en) Input sound processor
JP2006126424A (ja) 音声入力装置
US20220189450A1 (en) Audio processing system and audio processing device
JPH0683387A (ja) 音声認識装置用騒音低減回路
JP5383008B2 (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
JP2020134566A (ja) 音声処理システム、音声処理装置及び音声処理方法
US20180350383A1 (en) Dynamic spectral filtering
JP2008070877A (ja) 音声信号前処理装置、音声信号処理装置、音声信号前処理方法、及び音声信号前処理用のプログラム