JP2008275987A

JP2008275987A - 音声認識装置および会議システム

Info

Publication number: JP2008275987A
Application number: JP2007120734A
Authority: JP
Inventors: Noriyuki Hata; 紀行畑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-05-01
Filing date: 2007-05-01
Publication date: 2008-11-13

Abstract

【課題】複数の話者毎の発言内容を正確に再現した議事録データを作成できる音声認識装置及び会議システムを提供する。
【解決手段】制御部１１は、アレイマイク１２を用いて収音方向毎に音声信号を順次収音し、最も音声レベルの大きい音声信号をこれに対応する収音方向ともに記憶部１３の収音領域に記憶させる。次に、制御部１１は方向・辞書テーブル１３ｃを参照し、記憶部１３に記憶させた収音方向に対応する辞書を辞書群１３ｂから選択する。制御部１１は、選択した辞書と標準辞書１３ａを読み出し、音声信号の音声認識処理（音声区間検出、音素認識、単語認識、文章認識）を行う。また、制御部１１は選択した辞書に記述されていない要素については標準辞書１３ａを用いるとともに当該辞書にその要素を追加記録し、さらに音声信号に関して話者に固有な特徴も記録する。
【選択図】図１

Description

本発明は、複数話者の音声を認識する技術に関する。

会議の議事録を自動的に作成する装置が種々提案されている。例えば、特許文献１の装置においては、複数の話者毎に識別データを入力するようにし、入力された識別データによって誰が発言しているのか弁別している。そして、弁別した話者毎に事前に登録した発声データを用いて音声認識を行っている。この場合、話者毎に登録した発声データを用いることにより、音声認識の精度を上げるようにしている。
特開２０００−３５２９９５号公報

しかしながら、特許文献１の装置では、発言者を弁別するため識別情報を入力しなければならず、このために、識別情報を記憶した識別カードを持参したり、あるいは、マイクスイッチを切り替えることによって発言者を識別させたりという処理が必要になり会議参加者にとって煩雑となる欠点があった。
本発明は、このような事情に鑑みてなされたものであり、会議参加者に負担をかけず、かつ、複数音声に対してその認識の精度を上げることができる音声認識装置及び会議システムを提供する。

本発明の好適な態様である音声認識装置は、複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、前記収音手段が出力する前記音声信号に基づいて収音位置を特定し、特定した収音位置を示す位置情報を出力する位置情報特定手段と、音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、前記収音位置と前記各辞書との対応関係を記憶する対応関係記憶手段と、前記位置情報特定手段が出力した位置情報に対応する辞書を、前記対応関係記憶手段の記憶内容を参照して選択する辞書選択手段と、前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段とを具備することを特徴とする。

また、上述の態様において、前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御する収音方向制御手段と、前記アレイマイクが収音した音声を音声信号に変換して出力する音声信号生成手段とを有し、前記位置情報特定手段は前記収音方向制御手段により制御される前記アレイマイクの収音方向を示す方向データに基づいて前記収音位置を特定することにより前記位置情報を出力してもよい。

また、上述の態様において、前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、話者の発声する音声の特徴量と話者の位置を示す話者位置情報との対応関係を記憶する位置対応関係記憶手段とを具備し、前記収音手段が出力する音声信号に基づいて収音位置の特定ができない場合に、前記特徴量抽出手段が抽出した特徴量に対応する話者位置情報を前記位置対応関係記憶手段の記憶内容を参照して特定し、特定した話者位置情報を前記位置情報としてもよい。

また、本発明の別の好適な態様である音声認識装置は、複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、話者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、前記特徴量抽出手段が抽出した特徴量に対応する辞書を前記対応付け手段による対応付けを参照して選択する辞書選択手段と、前記辞書選択手段が選択した辞書を用いて前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段とを具備することを特徴とする。

また、本発明の好適な態様である会議システムは、上述の音声認識装置と、前記音声認識装置の音声認識結果を記憶する認識結果記憶手段とを具備することを特徴とする。

本発明によれば、会議参加者に負担をかけず、かつ、複数音声に対してその認識の精度を上げることができる。

次に、この発明を実施するための最良の形態を説明する。
（Ａ）構成
図１は音声認識装置１の全体構成を示すブロック図である。音声認識装置１は、制御部１１、アレイマイク１２、記憶部１３、操作部１４、表示部１５、外部機器ＩＦ１６を備えており、これらはバス１９で接続されている。制御部１１は、例えばＣＰＵ（Central Processing Unit）などの演算装置とＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などの各種メモリを備えている。演算装置がこれらのメモリや記憶部に記憶されているコンピュータプログラムを読み出して実行することにより、音声認識装置１の各部を制御する。

アレイマイク１２には、複数のマイクロフォンＭと、各マイクロフォンＭ，Ｍ…に対応するアンプおよび遅延回路および加算等を行う演算回路が設けられており、これらの出力レベルと遅延時間は制御部１１が出力するパラメータＭＣＰによって設定されるようになっている。制御部１１は、このパラメータＭＣＰを調整することによりアレイマイク１２の収音方向Ｌを制御することができる。

ここで、図２を用いて、本実施形態におけるアレイマイク１２の収音方向Ｌについて説明する。図２は本実施形態の使用状態の一例を示す平面図であり、図において４０は天板が長方形状に形成されているテーブルである。この使用例においては、アレイマイク１２は、会議用のテーブル４０の中央部に図示のようにテーブル４０の長手方向に沿って配置されている。また、テーブル４０の近傍には、椅子５０が並べられている。この場合、椅子５０は、天板長辺の一方側に４個並べられ、また、これらに対向するように天板長辺の他方側に４個並べられている。本実施形態において収音方向Ｌはアレイマイク１２を中心としてそれぞれの椅子５０が設置されている８つの方向のいずれかであり、これらの収音方向Ｌのそれぞれは、図に示すように、Ｌ１、Ｌ２、…、Ｌ８であらわす。このように、アレイマイク１２は、任意の収音方向Ｌが事前に設定できるようになっている。

図１に戻る。操作部１４は各種のキーを備えており、押下されたキーに対応した信号を制御部１１へ出力する。表示部１５は、ＣＲＴ（Cathode Ray Tube）またはＬＣＤ（Liquid Crystal Display）等の表示装置を備えており、制御部１１の制御下で文字や画像を表示する。外部機器ＩＦ１６はＵＳＢインタフェースであり、文字や画像を印刷するプリンタ２に接続されている。なお、外部機器ＩＦ１６は無線通信回路であってもよい。

記憶部１３は、例えばハードディスクなどの大容量の記憶手段であり、基本ＯＳや、コンピュータプログラムなどのほか、音声認識処理に用いられる標準辞書１３ａを記憶している。ここで標準辞書１３ａは予め定められた言語に係る単語辞書や構文情報が記録された辞書であり、本実施形態においては日本語の標準音声を認識できる辞書である。また、記憶部１３には、音声認識のための辞書Ｄを収音方向Ｌと同じ数だけ記憶できる辞書群１３ｂの記憶領域と、収音方向Ｌと辞書Ｄの対応関係を記述した方向・辞書対応テーブル１３ｃの記憶領域が予め定められている。図３は方向・辞書テーブル１３ｃの一例を示す図である。図に示すように、本実施形態においては、辞書群１３ｂの各辞書Ｄは収音方向Ｌ１〜Ｌ８に対応付けられている。本実施形態においては、会議参加者の着席位置（収音方向Ｌに対応）と、辞書Ｄ１〜Ｄ８の対応関係が事前に設定されている。すなわち、該当する収音方向Ｌのところに座る人の会話の特徴に応じた辞書が準備されることになる。この対応関係の設定は、操作者が操作部１４を操作することにより、方向・辞書テーブル１３ｃとの対応関係を設定すればよい。

次に、実施形態の動作を説明する。
（Ｂ）動作
図４は本実施形態に係る音声認識装置１の動作を示すフローチャートである。利用者が操作部１４の図示しないスイッチを押下して収音開始の指示をすると、制御部１１はこの指示を受けて、アレイマイク１２を収音可能にする。アレイマイク１２の各マイクロフォンＭ、Ｍ…はそれぞれの収音位置で収音された音を音声信号に変換して出力する。制御部１１は、収音方向Ｌ（Ｌ１、Ｌ２、…、Ｌ８）のそれぞれに対応するパラメータＭＣＰを出力し、アレイマイク１２の上述したアンプ、遅延回路、演算回路はこれに応じて上述の８つの収音方向Ｌ毎に音声信号Ｓ（Ｓ１、Ｓ２、…、Ｓ８）を順次収音する。

制御部１１は、これらの音声信号Ｓの音声レベルを比較して、最も音声レベルの大きい音声信号Ｓを特定し、特定された音声信号Ｓの音声レベルが所定の閾値を超えているか否かを判定する（ステップＳＡ１０１）。当該音声信号Ｓの音声レベルが所定の閾値を超えているのであれば、発言が開始されたとみなし（ステップＳＡ１０１；ＹＥＳ）、音声信号Ｓに対応する収音方向Ｌを収音方向として決定し（ステップＳＡ１０２）、音声信号Ｓとともに記憶部１３の収音領域に記憶させる（ステップＳＡ１０３）。当該音声信号Ｓの音声レベルが所定の閾値を超えていなければ、発言は開始されていないとみなし（ステップＳＡ１０１；ＮＯ）、上述の収音、音声信号の生成、音声レベルの比較を繰り返す。

次に、制御部１１は方向・辞書テーブル１３ｃを参照し、記憶部１３に記憶させた収音方向Ｌに対応する辞書Ｄを辞書群１３ｂから選択する（ステップＳＡ１０４）。ここで制御部１１が収音方向Ｌ２からの音声信号Ｓ２において発音がなされたと判定した場合を例にとって説明すると、制御部１１は方向・辞書テーブル１３ｃを参照することで、収音方向Ｌ２に対応する辞書Ｄ２を選択する。

次に、制御部１１は、選択した辞書Ｄ２と標準辞書１３ａを読み出し、音声信号Ｓ２の音声認識処理を行う（ステップＳＡ１０５）。ここで、制御部１１は前述のように発音がされていると判定した音声信号（この場合は音声信号Ｓ２）については、音声認識処理を行うために一定量（あるいは全部）を記憶部１３の収音領域（図示略）に記憶して処理を行うようになっている。

次に、図５は、制御部１１によって実行される音声認識プロセスを表したブロック図である。図に示すように、音声信号Ｓ２が入力されると、制御部１１は音声信号Ｓ２から音声認識の対象となる音声信号の部分（音声区間）を検出する。なお、音声区間の検出は例えば音声信号が所定の閾値を超える振幅値を一定時間以上持っているか否かによって行われる。次に、制御部１１は音声の特徴を分析すべく、検出された音声区間のスペクトルを所定の時間毎に分割し（音声特徴分析）、これらを辞書に含まれる音素・標準スペクトル対応パターンと照合することによって、音声区間に応じた音素類似度行列を生成する（音素認識）。

そして、制御部１１は、この音素類似度行列と辞書に記述された各単語の音素標準パターンとをＤＰ（Dynamic Programming：動的計画法）マッチングアルゴリズムに従って順次比較して、音声区間に対応した単語を認識する（単語認識）。そして、認識された単語の前後関係等を、辞書に含まれる構文情報を参照して解析することにより、音声信号Ｓ２に含まれた発言内容を示す文章を生成する（文章認識）。これら音素認識、単語認識、文章認識の各プロセスにおいて制御部１１は辞書Ｄ２を用いる。また、辞書Ｄ２に記述されていない要素については標準辞書１３ａを用いるとともに辞書Ｄ２にその要素を追加記録する。さらに、辞書Ｄ２には音声信号Ｓ２に関し、標準スペクトルに対するずれや発音の長さ、選択された単語の出現確率（尤度）などの話者に固有な特徴を記録する。

図４に戻る。上述の音声認識により制御部１１は、認識した文章を文章データとして制御部１１内のＲＡＭに一時記憶する（ステップＳＡ１０６）。また、制御部１１は、この文章データを表示部１５に出力し、文字列として表示させる(ステップＳＡ１０７)。本実施形態において、この文章データには収音方向Ｌ２を示す記号が含まれている。なお、記号に替えて文字列の表示色によって収音方向Ｌ２を示しても良い。
収音方向Ｌ２から発言した話者が発言を続けている間は（ステップＳＡ１０８；ＮＯ）、制御部１１はステップＳＡ１０５に戻り音声認識を続ける。また、当該話者が発言をやめると（ステップＳＡ１０８；ＹＥＳ）、制御部１１は所定時間の無声状態を検知して音声信号Ｓ２の音声認識を終了し、ステップＳＡ１０１に戻り、次の発言が開始されるまで待機する。

ここで、表示部１５に表示された文章を利用者が読み、文章に間違いが見つかったときに、利用者は操作部１４を介して文章を修正することができる。制御部１１は利用者からの修正入力を受け取ると、これに応じてＲＡＭに記憶された文章データを修正し、修正された文章データを表示部１５に表示させる。また、図５において、制御部１１は、修正前の語句を導出した音素認識、単語認識、文章認識の各プロセスに対し、修正後の語句を導出するような補正を加える（出力文章補正）。この補正とは例えば、類似度計算に用いる重み関数に対し、上述の修正結果を反映して変更を加えることなどである。なお、このような修正機能が音声認識装置１に付与されていると、音声認識の精度を上げることができるが、修正機能を付与しなくてもよい。

また、利用者は操作部１４を介して上述の文章を文章データとして記憶部１３の議事録記憶エリアに記憶させることができる。この記憶処理は制御部１１が自動的に行っても良い。いずれの場合においても、収音方向Ｌ２を識別する識別情報とともに文章データが記憶される。
また、利用者は操作部１４を介して上述の文章を印刷させることができる。制御部１１は利用者から印刷指示を受け取ると上述のＲＡＭに記憶された文章データを、外部機器ＩＦ１６を介してプリンタ２に送信する。プリンタ２は送信された文章データを文字列として紙に印刷する。
このようにして、各話者の発言は収音方向Ｌ毎に音声信号Ｓとして記録され、各音声信号Ｓは収音方向Ｌ毎に用意された辞書Ｄ（Ｄ１〜Ｄ８）を用いて音声認識されて文章化され、外部機器ＩＦ１６を介してプリンタ２から印刷される。なお、印刷機能が会議システムに備わっていることで、利用者は会議内容を紙面で確認することができるが、会議システムに印刷機能が備わっていなくてもよい。

以上のようにして、会議の発言者（本実施形態では最も声が大きい発言者）の音声が特定され、特定された音声に対して、その位置（方向）に対応する辞書を用いて音声認識される。音声認識の結果は記憶部１３内の議事録記録エリアに記憶されるから、自動的に議事録が形成されてゆく。また、このような議事録がプリンタ２によって印刷されるから、紙面による議事録も記録されてゆく。
また、本実施形態の場合、方向・辞書テーブル１３ｃについて、その方向に着席する参加者と辞書との対応関係を事前に整合させておくことができるから、音声認識は本人の音声特徴に応じた辞書を用いることができ、音声認識の精度を向上させることができる。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。

（変形例１）
上記実施形態では、収音方向Ｌは制御部１１が８つの音声信号Ｓを比較して、音声の大きさによって決定したが、収音方向Ｌの決定方法はこれに限られない。例えば、音声信号Ｓの特徴情報Ｃを当該音声信号Ｓに対応する収音方向Ｌと関連付けて記憶し、現在収音している音声信号から特徴情報を抽出して上述の記憶内容と比較することにより収音方向Ｌを検証し、対応関係に不整合が見つかったときは収音方向Ｌを訂正するようにしてもよい。この場合の一例を、図６及び図７を用いて説明する。図６はこの変形例における音声認識装置１の全体構成を示すブロック図である。図６において、記憶部１３には特徴記憶領域１３ｆが設けられている。特徴記憶領域１３ｆは音声信号Ｓから抽出した音声の特徴情報Ｃを収音方向Ｌ毎に記憶する領域である。また、図７はこの変形例における音声認識装置１の動作を示すフローチャートであり、上述の実施形態と同じステップについては同じ符号を付し、説明を省略する。
制御部１１は音声信号Ｓ２から音声の特徴情報Ｃ２を抽出し、これを収音方向Ｌ毎に特徴記憶領域１３ｆに記憶させる（ステップＳＤ１０１）。このとき特徴情報Ｃ２は収音方向Ｌ２に対応付けて記憶される。所定の情報量が特徴記憶領域１３ｆに記憶されたら、制御部１１は、音声信号Ｓから抽出した音声の特徴情報Ｃをキーにして特徴記憶領域１３ｆを検索し、特徴情報Ｃが収音方向Ｌと関連付けられて記憶されているか否かによって収音方向が正しいかどうかを判定する（ステップＳＤ１０２）。ここで、音声信号Ｓ２が収音方向Ｌ１とともに制御部１１に入力されたとすると、制御部１１は音声信号Ｓ２から特徴情報Ｃ２を抽出するため、特徴記憶領域１３ｆに記憶された特徴情報Ｃ２と収音方向Ｌ２の組み合わせと収音方向Ｌ１が整合せず、上述の判定結果は否定的になる（ステップＳＤ１０２；ＮＯ）。この否定的な判定結果を受けて制御部１１は収音方向Ｌ１を収音方向Ｌ２に訂正し（ステップＳＤ１０３）、これに対応した辞書Ｄ２を辞書群１３ｂから選択して、音声認識を行うことができる。
以上のように、この変形例においては、音声の収音方向の正否を判断したが、収音方向が特定出来ない場合に、特徴情報Ｃを用いて辞書Ｄを選択してもよい。また、収音方向の検出に代えて特徴情報Ｃだけを用いて辞書Ｄを特定してもよい。さらに、特徴情報Ｃと収音方向Ｌとの関係を検出結果に応じて関連付けて記憶することに代えて、事前に特徴情報Ｃと収音方向Ｌとの関係を設定してもよい。

（変形例２）
図８に示すような全体構成としてもよい。この構成において、まず、制御部１１はアレイマイク１２によって収音方向Ｌに対応する音声信号Ｓを生成する。次に、音声信号Ｓから音声の特徴情報Ｃを抽出して、話者・特徴ＤＢ１３ｄを参照することにより、当該音声信号Ｓの音声を発生した話者Ｐを特定し、収音方向Ｌとともに話者・方向テーブル１３ｅに記述する。このようにして、話者・方向テーブル１３ｅが一度記述されると、これを参照することによって制御部１１は収音方向Ｌが決定された時点で話者Ｐを特定することができる。そして、話者Ｐが特定できると、話者・辞書テーブル１３ｇを参照することによって辞書群１３ｂから当該話者Ｐに対応する辞書Ｄを選択することができる。なお、話者・方向テーブル１３ｅと話者・辞書テーブル１３ｇは一つにしてもよい。要するに特徴情報と辞書とが対応付けられていれば良い。

（変形例３）
音声信号Ｓに対して収音方向Ｌ毎に所定の処理を施してもよい。所定の処理とは例えば録音レベルの調整、ノイズ音質と量の調整、イコライザによる特定周波数の調整などである。また、収音方向Ｌ毎にノイズのパターンを学習することにより、収音方向Ｌ毎にノイズリダクション処理を行ってもよい。さらにこの会議システムで収音した音声をスピーカによって放音させる場合には、収音方向毎にエコーキャンセル処理を行ってもよい。この場合、図９に示すように、収音方向Ｌと音声信号Ｓをともに記憶部１３に記憶させるステップＳＡ１０３の直前にこれらの音響処理を行ってもよい（ステップＳＥ１０１）。

（変形例４）
上述の実施形態において、音声認識の方法として、音素を単位としてＤＰマッチングを行う方法を用いたが、音声認識の方法はこれに限られない。例えば、隠れマルコフモデル（Hidden Markov Model）法やニューラルネットワークによる方法などであってもよい。

（変形例５）
上述の実施形態において、音声認識装置１は会議システムを構成したが、音声認識装置１の用途は会議の音声認識のみに限られない。例えば、この音声認識装置１を自動車に搭載するカーナビゲーションシステムに用いてもよい。この場合、上述した変形例２の音声認識装置１を用いれば、家族一人一人に固有の音声特徴情報（話者・特徴ＤＢ１３ｄ）と音声認識用辞書（話者・辞書テーブル１３ｇ及び辞書群１３ｂ）を記憶部１３に記憶させ、車内の収音方向Ｌ毎に音声の特徴情報Ｃを分析することにより、誰がどこに着席しているか（話者・方向テーブル１３ｅ）がわかり、運転席、助手席など座席（収音方向Ｌ）毎に音声認識のための辞書Ｄを切り替えることができる。

（変形例６）
上述の実施形態において、音声認識装置１は単独で一つの会議システムを構成したが、本発明の会議システムは単独の音声認識装置１で構成される場合に限られない。例えば通信回線を用いて複数の音声認識装置１を接続し、全体で一つの会議システムを構成してもよい。

（変形例７）
上述の実施形態において、収音装置としてアレイマイク１２を用いたが、収音装置はアレイマイクに限られない。例えば、各話者に配布した個別のマイクなどでもよい。この場合、話者の数だけマイクの入力端子が存在するので、入力端子毎に音声信号を入力することによって、制御部１１は入力端子を識別することにより、方向情報Ｌ（座席情報）と同じ機能を持つ情報を得ることができる。要するに、音声信号Ｓと方向情報Ｌ（話者位置が特定できる情報）が対になって入力され、この方向情報Ｌによって辞書Ｄを選択することができればよい。このように、入力音声信号に基づく収音位置の特定は種々の態様がある。すなわち、アレイマイクのように最大音量の入力音声信号の方向を収音位置とする態様もあり、また、複数マイクを用いた場合のように、どの入力端子から入力音声信号が入力されたかを識別することにより収音方向を特定することもできる。このような入力音声信号に基づく収音方向の特定ができない場合は、前述した変形例１の場合のように音声の特徴量を用いて収音方向を特定してもよい。また、収音方向を特定せず、特徴情報だけを用いて辞書選択を行ってもよい。

（変形例８）
上述の実施形態において、アレイマイク１２は音声認識装置１においてバス１９に直結された入力装置であったが、会議システムの構成はこれに限られない。例えば、図１０に示すように、アレイマイクを搭載した会議端末３を音声認識装置１の外部機器として会議システムを構成しても良い。この場合では、会議端末３には制御部３１、アレイマイク３２、通信部３３を備え、音声認識装置１には上述のアレイマイク１２に替えて通信部１８を備えており、通信部１８と通信部３３とでデータの送受信を行う。そして、制御部１１は会議端末３から送信された音声データに対して音声認識処理を行い、制御部３１はアレイマイク３２に収音方向Ｌに対応するパラメータＭＣＰの出力を行うなど、制御する内容を分担させてもよい。

本実施形態に係る音声認識装置１の全体構成を示すブロック図である。本実施形態の使用状態の一例を示す平面図である。本実施形態に係る方向・辞書対応テーブル１３ｃの一例を示す図である。本実施形態に係る音声認識装置１の動作を示すフローチャートである。本実施形態に係る音声認識装置１の制御部１１によって実行される音声認識プロセスを表したブロック図である。変形例１における音声認識装置１の全体構成を示すブロック図である。変形例１における音声認識装置１の動作を示すフローチャートである。変形例２に係る音声認識装置１の全体構成を示すブロック図である。変形例３に係る音声認識装置１の動作を示すフローチャートである。変形例８に係る会議システムの全体構成を示すブロック図である。

符号の説明

１…音声認識装置、１１…制御部、１２…アレイマイク、１３…記憶部、１３ａ…標準辞書、１３ｂ…辞書群、１３ｃ…方向・辞書テーブル、１３ｄ…話者・特徴ＤＢ、１３ｅ…話者・方向テーブル、１３ｆ…特徴記憶領域、１３ｇ…話者・辞書テーブル、１４…操作部、１５…表示部、１６…外部機器ＩＦ、１８…通信部、１９…バス、２…プリンタ、３…会議端末、３１…制御部、３２…アレイマイク、３３…通信部、４０…テーブル、５０…椅子

Claims

複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、
前記収音手段が出力する前記音声信号に基づいて収音位置を特定し、特定した収音位置を示す位置情報を出力する位置情報特定手段と、
音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
前記収音位置と前記各辞書との対応関係を記憶する対応関係記憶手段と、
前記位置情報特定手段が出力した位置情報に対応する辞書を、前記対応関係記憶手段の記憶内容を参照して選択する辞書選択手段と、
前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段と
を具備することを特徴とする音声認識装置。
前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御する収音方向制御手段と、前記アレイマイクが収音した音声を音声信号に変換して出力する音声信号生成手段とを有し、
前記位置情報特定手段は前記収音方向制御手段により制御される前記アレイマイクの収音方向を示す方向データに基づいて前記収音位置を特定することにより前記位置情報を出力することを特徴とする請求項１記載の音声認識装置。
前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、
話者の発声する音声の特徴量と話者の位置を示す話者位置情報との対応関係を記憶する位置対応関係記憶手段と
を具備し、
前記収音手段が出力する音声信号に基づいて収音位置の特定ができない場合に、
前記特徴量抽出手段が抽出した特徴量に対応する話者位置情報を前記位置対応関係記憶手段の記憶内容を参照して特定し、特定した話者位置情報を前記位置情報とすることを特徴とする請求項１記載の音声認識装置。
複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、
前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、
音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
話者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、
前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、
前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段と
を具備することを特徴とする音声認識装置。
請求項１乃至４いずれかに記載の音声認識装置と、
前記音声認識装置の音声認識結果を記憶する認識結果記憶手段と
を具備することを特徴とする会議システム。