JP2008275987A - 音声認識装置および会議システム - Google Patents

音声認識装置および会議システム Download PDF

Info

Publication number
JP2008275987A
JP2008275987A JP2007120734A JP2007120734A JP2008275987A JP 2008275987 A JP2008275987 A JP 2008275987A JP 2007120734 A JP2007120734 A JP 2007120734A JP 2007120734 A JP2007120734 A JP 2007120734A JP 2008275987 A JP2008275987 A JP 2008275987A
Authority
JP
Japan
Prior art keywords
sound
dictionary
sound collection
speaker
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007120734A
Other languages
English (en)
Inventor
Noriyuki Hata
紀行 畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007120734A priority Critical patent/JP2008275987A/ja
Publication of JP2008275987A publication Critical patent/JP2008275987A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】複数の話者毎の発言内容を正確に再現した議事録データを作成できる音声認識装置及び会議システムを提供する。
【解決手段】制御部11は、アレイマイク12を用いて収音方向毎に音声信号を順次収音し、最も音声レベルの大きい音声信号をこれに対応する収音方向ともに記憶部13の収音領域に記憶させる。次に、制御部11は方向・辞書テーブル13cを参照し、記憶部13に記憶させた収音方向に対応する辞書を辞書群13bから選択する。制御部11は、選択した辞書と標準辞書13aを読み出し、音声信号の音声認識処理(音声区間検出、音素認識、単語認識、文章認識)を行う。また、制御部11は選択した辞書に記述されていない要素については標準辞書13aを用いるとともに当該辞書にその要素を追加記録し、さらに音声信号に関して話者に固有な特徴も記録する。
【選択図】図1

Description

本発明は、複数話者の音声を認識する技術に関する。
会議の議事録を自動的に作成する装置が種々提案されている。例えば、特許文献1の装置においては、複数の話者毎に識別データを入力するようにし、入力された識別データによって誰が発言しているのか弁別している。そして、弁別した話者毎に事前に登録した発声データを用いて音声認識を行っている。この場合、話者毎に登録した発声データを用いることにより、音声認識の精度を上げるようにしている。
特開2000−352995号公報
しかしながら、特許文献1の装置では、発言者を弁別するため識別情報を入力しなければならず、このために、識別情報を記憶した識別カードを持参したり、あるいは、マイクスイッチを切り替えることによって発言者を識別させたりという処理が必要になり会議参加者にとって煩雑となる欠点があった。
本発明は、このような事情に鑑みてなされたものであり、会議参加者に負担をかけず、かつ、複数音声に対してその認識の精度を上げることができる音声認識装置及び会議システムを提供する。
本発明の好適な態様である音声認識装置は、複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、前記収音手段が出力する前記音声信号に基づいて収音位置を特定し、特定した収音位置を示す位置情報を出力する位置情報特定手段と、音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、前記収音位置と前記各辞書との対応関係を記憶する対応関係記憶手段と、前記位置情報特定手段が出力した位置情報に対応する辞書を、前記対応関係記憶手段の記憶内容を参照して選択する辞書選択手段と、前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段とを具備することを特徴とする。
また、上述の態様において、前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御する収音方向制御手段と、前記アレイマイクが収音した音声を音声信号に変換して出力する音声信号生成手段とを有し、前記位置情報特定手段は前記収音方向制御手段により制御される前記アレイマイクの収音方向を示す方向データに基づいて前記収音位置を特定することにより前記位置情報を出力してもよい。
また、上述の態様において、前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、話者の発声する音声の特徴量と話者の位置を示す話者位置情報との対応関係を記憶する位置対応関係記憶手段とを具備し、前記収音手段が出力する音声信号に基づいて収音位置の特定ができない場合に、前記特徴量抽出手段が抽出した特徴量に対応する話者位置情報を前記位置対応関係記憶手段の記憶内容を参照して特定し、特定した話者位置情報を前記位置情報としてもよい。
また、本発明の別の好適な態様である音声認識装置は、複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、話者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、前記特徴量抽出手段が抽出した特徴量に対応する辞書を前記対応付け手段による対応付けを参照して選択する辞書選択手段と、前記辞書選択手段が選択した辞書を用いて前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段とを具備することを特徴とする。
また、本発明の好適な態様である会議システムは、上述の音声認識装置と、前記音声認識装置の音声認識結果を記憶する認識結果記憶手段とを具備することを特徴とする。
本発明によれば、会議参加者に負担をかけず、かつ、複数音声に対してその認識の精度を上げることができる。
次に、この発明を実施するための最良の形態を説明する。
(A)構成
図1は音声認識装置1の全体構成を示すブロック図である。音声認識装置1は、制御部11、アレイマイク12、記憶部13、操作部14、表示部15、外部機器IF16を備えており、これらはバス19で接続されている。制御部11は、例えばCPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)やRAM(Random Access Memory)などの各種メモリを備えている。演算装置がこれらのメモリや記憶部に記憶されているコンピュータプログラムを読み出して実行することにより、音声認識装置1の各部を制御する。
アレイマイク12には、複数のマイクロフォンMと、各マイクロフォンM,M…に対応するアンプおよび遅延回路および加算等を行う演算回路が設けられており、これらの出力レベルと遅延時間は制御部11が出力するパラメータMCPによって設定されるようになっている。制御部11は、このパラメータMCPを調整することによりアレイマイク12の収音方向Lを制御することができる。
ここで、図2を用いて、本実施形態におけるアレイマイク12の収音方向Lについて説明する。図2は本実施形態の使用状態の一例を示す平面図であり、図において40は天板が長方形状に形成されているテーブルである。この使用例においては、アレイマイク12は、会議用のテーブル40の中央部に図示のようにテーブル40の長手方向に沿って配置されている。また、テーブル40の近傍には、椅子50が並べられている。この場合、椅子50は、天板長辺の一方側に4個並べられ、また、これらに対向するように天板長辺の他方側に4個並べられている。本実施形態において収音方向Lはアレイマイク12を中心としてそれぞれの椅子50が設置されている8つの方向のいずれかであり、これらの収音方向Lのそれぞれは、図に示すように、L1、L2、…、L8であらわす。このように、アレイマイク12は、任意の収音方向Lが事前に設定できるようになっている。
図1に戻る。操作部14は各種のキーを備えており、押下されたキーに対応した信号を制御部11へ出力する。表示部15は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)等の表示装置を備えており、制御部11の制御下で文字や画像を表示する。外部機器IF16はUSBインタフェースであり、文字や画像を印刷するプリンタ2に接続されている。なお、外部機器IF16は無線通信回路であってもよい。
記憶部13は、例えばハードディスクなどの大容量の記憶手段であり、基本OSや、コンピュータプログラムなどのほか、音声認識処理に用いられる標準辞書13aを記憶している。ここで標準辞書13aは予め定められた言語に係る単語辞書や構文情報が記録された辞書であり、本実施形態においては日本語の標準音声を認識できる辞書である。また、記憶部13には、音声認識のための辞書Dを収音方向Lと同じ数だけ記憶できる辞書群13bの記憶領域と、収音方向Lと辞書Dの対応関係を記述した方向・辞書対応テーブル13cの記憶領域が予め定められている。図3は方向・辞書テーブル13cの一例を示す図である。図に示すように、本実施形態においては、辞書群13bの各辞書Dは収音方向L1〜L8に対応付けられている。本実施形態においては、会議参加者の着席位置(収音方向Lに対応)と、辞書D1〜D8の対応関係が事前に設定されている。すなわち、該当する収音方向Lのところに座る人の会話の特徴に応じた辞書が準備されることになる。この対応関係の設定は、操作者が操作部14を操作することにより、方向・辞書テーブル13cとの対応関係を設定すればよい。
次に、実施形態の動作を説明する。
(B)動作
図4は本実施形態に係る音声認識装置1の動作を示すフローチャートである。利用者が操作部14の図示しないスイッチを押下して収音開始の指示をすると、制御部11はこの指示を受けて、アレイマイク12を収音可能にする。アレイマイク12の各マイクロフォンM、M…はそれぞれの収音位置で収音された音を音声信号に変換して出力する。制御部11は、収音方向L(L1、L2、…、L8)のそれぞれに対応するパラメータMCPを出力し、アレイマイク12の上述したアンプ、遅延回路、演算回路はこれに応じて上述の8つの収音方向L毎に音声信号S(S1、S2、…、S8)を順次収音する。
制御部11は、これらの音声信号Sの音声レベルを比較して、最も音声レベルの大きい音声信号Sを特定し、特定された音声信号Sの音声レベルが所定の閾値を超えているか否かを判定する(ステップSA101)。当該音声信号Sの音声レベルが所定の閾値を超えているのであれば、発言が開始されたとみなし(ステップSA101;YES)、音声信号Sに対応する収音方向Lを収音方向として決定し(ステップSA102)、音声信号Sとともに記憶部13の収音領域に記憶させる(ステップSA103)。当該音声信号Sの音声レベルが所定の閾値を超えていなければ、発言は開始されていないとみなし(ステップSA101;NO)、上述の収音、音声信号の生成、音声レベルの比較を繰り返す。
次に、制御部11は方向・辞書テーブル13cを参照し、記憶部13に記憶させた収音方向Lに対応する辞書Dを辞書群13bから選択する(ステップSA104)。ここで制御部11が収音方向L2からの音声信号S2において発音がなされたと判定した場合を例にとって説明すると、制御部11は方向・辞書テーブル13cを参照することで、収音方向L2に対応する辞書D2を選択する。
次に、制御部11は、選択した辞書D2と標準辞書13aを読み出し、音声信号S2の音声認識処理を行う(ステップSA105)。ここで、制御部11は前述のように発音がされていると判定した音声信号(この場合は音声信号S2)については、音声認識処理を行うために一定量(あるいは全部)を記憶部13の収音領域(図示略)に記憶して処理を行うようになっている。
次に、図5は、制御部11によって実行される音声認識プロセスを表したブロック図である。図に示すように、音声信号S2が入力されると、制御部11は音声信号S2から音声認識の対象となる音声信号の部分(音声区間)を検出する。なお、音声区間の検出は例えば音声信号が所定の閾値を超える振幅値を一定時間以上持っているか否かによって行われる。次に、制御部11は音声の特徴を分析すべく、検出された音声区間のスペクトルを所定の時間毎に分割し(音声特徴分析)、これらを辞書に含まれる音素・標準スペクトル対応パターンと照合することによって、音声区間に応じた音素類似度行列を生成する(音素認識)。
そして、制御部11は、この音素類似度行列と辞書に記述された各単語の音素標準パターンとをDP(Dynamic Programming:動的計画法)マッチングアルゴリズムに従って順次比較して、音声区間に対応した単語を認識する(単語認識)。そして、認識された単語の前後関係等を、辞書に含まれる構文情報を参照して解析することにより、音声信号S2に含まれた発言内容を示す文章を生成する(文章認識)。これら音素認識、単語認識、文章認識の各プロセスにおいて制御部11は辞書D2を用いる。また、辞書D2に記述されていない要素については標準辞書13aを用いるとともに辞書D2にその要素を追加記録する。さらに、辞書D2には音声信号S2に関し、標準スペクトルに対するずれや発音の長さ、選択された単語の出現確率(尤度)などの話者に固有な特徴を記録する。
図4に戻る。上述の音声認識により制御部11は、認識した文章を文章データとして制御部11内のRAMに一時記憶する(ステップSA106)。また、制御部11は、この文章データを表示部15に出力し、文字列として表示させる(ステップSA107)。本実施形態において、この文章データには収音方向L2を示す記号が含まれている。なお、記号に替えて文字列の表示色によって収音方向L2を示しても良い。
収音方向L2から発言した話者が発言を続けている間は(ステップSA108;NO)、制御部11はステップSA105に戻り音声認識を続ける。また、当該話者が発言をやめると(ステップSA108;YES)、制御部11は所定時間の無声状態を検知して音声信号S2の音声認識を終了し、ステップSA101に戻り、次の発言が開始されるまで待機する。
ここで、表示部15に表示された文章を利用者が読み、文章に間違いが見つかったときに、利用者は操作部14を介して文章を修正することができる。制御部11は利用者からの修正入力を受け取ると、これに応じてRAMに記憶された文章データを修正し、修正された文章データを表示部15に表示させる。また、図5において、制御部11は、修正前の語句を導出した音素認識、単語認識、文章認識の各プロセスに対し、修正後の語句を導出するような補正を加える(出力文章補正)。この補正とは例えば、類似度計算に用いる重み関数に対し、上述の修正結果を反映して変更を加えることなどである。なお、このような修正機能が音声認識装置1に付与されていると、音声認識の精度を上げることができるが、修正機能を付与しなくてもよい。
また、利用者は操作部14を介して上述の文章を文章データとして記憶部13の議事録記憶エリアに記憶させることができる。この記憶処理は制御部11が自動的に行っても良い。いずれの場合においても、収音方向L2を識別する識別情報とともに文章データが記憶される。
また、利用者は操作部14を介して上述の文章を印刷させることができる。制御部11は利用者から印刷指示を受け取ると上述のRAMに記憶された文章データを、外部機器IF16を介してプリンタ2に送信する。プリンタ2は送信された文章データを文字列として紙に印刷する。
このようにして、各話者の発言は収音方向L毎に音声信号Sとして記録され、各音声信号Sは収音方向L毎に用意された辞書D(D1〜D8)を用いて音声認識されて文章化され、外部機器IF16を介してプリンタ2から印刷される。なお、印刷機能が会議システムに備わっていることで、利用者は会議内容を紙面で確認することができるが、会議システムに印刷機能が備わっていなくてもよい。
以上のようにして、会議の発言者(本実施形態では最も声が大きい発言者)の音声が特定され、特定された音声に対して、その位置(方向)に対応する辞書を用いて音声認識される。音声認識の結果は記憶部13内の議事録記録エリアに記憶されるから、自動的に議事録が形成されてゆく。また、このような議事録がプリンタ2によって印刷されるから、紙面による議事録も記録されてゆく。
また、本実施形態の場合、方向・辞書テーブル13cについて、その方向に着席する参加者と辞書との対応関係を事前に整合させておくことができるから、音声認識は本人の音声特徴に応じた辞書を用いることができ、音声認識の精度を向上させることができる。
<変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(変形例1)
上記実施形態では、収音方向Lは制御部11が8つの音声信号Sを比較して、音声の大きさによって決定したが、収音方向Lの決定方法はこれに限られない。例えば、音声信号Sの特徴情報Cを当該音声信号Sに対応する収音方向Lと関連付けて記憶し、現在収音している音声信号から特徴情報を抽出して上述の記憶内容と比較することにより収音方向Lを検証し、対応関係に不整合が見つかったときは収音方向Lを訂正するようにしてもよい。この場合の一例を、図6及び図7を用いて説明する。図6はこの変形例における音声認識装置1の全体構成を示すブロック図である。図6において、記憶部13には特徴記憶領域13fが設けられている。特徴記憶領域13fは音声信号Sから抽出した音声の特徴情報Cを収音方向L毎に記憶する領域である。また、図7はこの変形例における音声認識装置1の動作を示すフローチャートであり、上述の実施形態と同じステップについては同じ符号を付し、説明を省略する。
制御部11は音声信号S2から音声の特徴情報C2を抽出し、これを収音方向L毎に特徴記憶領域13fに記憶させる(ステップSD101)。このとき特徴情報C2は収音方向L2に対応付けて記憶される。所定の情報量が特徴記憶領域13fに記憶されたら、制御部11は、音声信号Sから抽出した音声の特徴情報Cをキーにして特徴記憶領域13fを検索し、特徴情報Cが収音方向Lと関連付けられて記憶されているか否かによって収音方向が正しいかどうかを判定する(ステップSD102)。ここで、音声信号S2が収音方向L1とともに制御部11に入力されたとすると、制御部11は音声信号S2から特徴情報C2を抽出するため、特徴記憶領域13fに記憶された特徴情報C2と収音方向L2の組み合わせと収音方向L1が整合せず、上述の判定結果は否定的になる(ステップSD102;NO)。この否定的な判定結果を受けて制御部11は収音方向L1を収音方向L2に訂正し(ステップSD103)、これに対応した辞書D2を辞書群13bから選択して、音声認識を行うことができる。
以上のように、この変形例においては、音声の収音方向の正否を判断したが、収音方向が特定出来ない場合に、特徴情報Cを用いて辞書Dを選択してもよい。また、収音方向の検出に代えて特徴情報Cだけを用いて辞書Dを特定してもよい。さらに、特徴情報Cと収音方向Lとの関係を検出結果に応じて関連付けて記憶することに代えて、事前に特徴情報Cと収音方向Lとの関係を設定してもよい。
(変形例2)
図8に示すような全体構成としてもよい。この構成において、まず、制御部11はアレイマイク12によって収音方向Lに対応する音声信号Sを生成する。次に、音声信号Sから音声の特徴情報Cを抽出して、話者・特徴DB13dを参照することにより、当該音声信号Sの音声を発生した話者Pを特定し、収音方向Lとともに話者・方向テーブル13eに記述する。このようにして、話者・方向テーブル13eが一度記述されると、これを参照することによって制御部11は収音方向Lが決定された時点で話者Pを特定することができる。そして、話者Pが特定できると、話者・辞書テーブル13gを参照することによって辞書群13bから当該話者Pに対応する辞書Dを選択することができる。なお、話者・方向テーブル13eと話者・辞書テーブル13gは一つにしてもよい。要するに特徴情報と辞書とが対応付けられていれば良い。
(変形例3)
音声信号Sに対して収音方向L毎に所定の処理を施してもよい。所定の処理とは例えば録音レベルの調整、ノイズ音質と量の調整、イコライザによる特定周波数の調整などである。また、収音方向L毎にノイズのパターンを学習することにより、収音方向L毎にノイズリダクション処理を行ってもよい。さらにこの会議システムで収音した音声をスピーカによって放音させる場合には、収音方向毎にエコーキャンセル処理を行ってもよい。この場合、図9に示すように、収音方向Lと音声信号Sをともに記憶部13に記憶させるステップSA103の直前にこれらの音響処理を行ってもよい(ステップSE101)。
(変形例4)
上述の実施形態において、音声認識の方法として、音素を単位としてDPマッチングを行う方法を用いたが、音声認識の方法はこれに限られない。例えば、隠れマルコフモデル(Hidden Markov Model)法やニューラルネットワークによる方法などであってもよい。
(変形例5)
上述の実施形態において、音声認識装置1は会議システムを構成したが、音声認識装置1の用途は会議の音声認識のみに限られない。例えば、この音声認識装置1を自動車に搭載するカーナビゲーションシステムに用いてもよい。この場合、上述した変形例2の音声認識装置1を用いれば、家族一人一人に固有の音声特徴情報(話者・特徴DB13d)と音声認識用辞書(話者・辞書テーブル13g及び辞書群13b)を記憶部13に記憶させ、車内の収音方向L毎に音声の特徴情報Cを分析することにより、誰がどこに着席しているか(話者・方向テーブル13e)がわかり、運転席、助手席など座席(収音方向L)毎に音声認識のための辞書Dを切り替えることができる。
(変形例6)
上述の実施形態において、音声認識装置1は単独で一つの会議システムを構成したが、本発明の会議システムは単独の音声認識装置1で構成される場合に限られない。例えば通信回線を用いて複数の音声認識装置1を接続し、全体で一つの会議システムを構成してもよい。
(変形例7)
上述の実施形態において、収音装置としてアレイマイク12を用いたが、収音装置はアレイマイクに限られない。例えば、各話者に配布した個別のマイクなどでもよい。この場合、話者の数だけマイクの入力端子が存在するので、入力端子毎に音声信号を入力することによって、制御部11は入力端子を識別することにより、方向情報L(座席情報)と同じ機能を持つ情報を得ることができる。要するに、音声信号Sと方向情報L(話者位置が特定できる情報)が対になって入力され、この方向情報Lによって辞書Dを選択することができればよい。このように、入力音声信号に基づく収音位置の特定は種々の態様がある。すなわち、アレイマイクのように最大音量の入力音声信号の方向を収音位置とする態様もあり、また、複数マイクを用いた場合のように、どの入力端子から入力音声信号が入力されたかを識別することにより収音方向を特定することもできる。このような入力音声信号に基づく収音方向の特定ができない場合は、前述した変形例1の場合のように音声の特徴量を用いて収音方向を特定してもよい。また、収音方向を特定せず、特徴情報だけを用いて辞書選択を行ってもよい。
(変形例8)
上述の実施形態において、アレイマイク12は音声認識装置1においてバス19に直結された入力装置であったが、会議システムの構成はこれに限られない。例えば、図10に示すように、アレイマイクを搭載した会議端末3を音声認識装置1の外部機器として会議システムを構成しても良い。この場合では、会議端末3には制御部31、アレイマイク32、通信部33を備え、音声認識装置1には上述のアレイマイク12に替えて通信部18を備えており、通信部18と通信部33とでデータの送受信を行う。そして、制御部11は会議端末3から送信された音声データに対して音声認識処理を行い、制御部31はアレイマイク32に収音方向Lに対応するパラメータMCPの出力を行うなど、制御する内容を分担させてもよい。
本実施形態に係る音声認識装置1の全体構成を示すブロック図である。 本実施形態の使用状態の一例を示す平面図である。 本実施形態に係る方向・辞書対応テーブル13cの一例を示す図である。 本実施形態に係る音声認識装置1の動作を示すフローチャートである。 本実施形態に係る音声認識装置1の制御部11によって実行される音声認識プロセスを表したブロック図である。 変形例1における音声認識装置1の全体構成を示すブロック図である。 変形例1における音声認識装置1の動作を示すフローチャートである。 変形例2に係る音声認識装置1の全体構成を示すブロック図である。 変形例3に係る音声認識装置1の動作を示すフローチャートである。 変形例8に係る会議システムの全体構成を示すブロック図である。
符号の説明
1…音声認識装置、11…制御部、12…アレイマイク、13…記憶部、13a…標準辞書、13b…辞書群、13c…方向・辞書テーブル、13d…話者・特徴DB、13e…話者・方向テーブル、13f…特徴記憶領域、13g…話者・辞書テーブル、14…操作部、15…表示部、16…外部機器IF、18…通信部、19…バス、2…プリンタ、3…会議端末、31…制御部、32…アレイマイク、33…通信部、40…テーブル、50…椅子

Claims (5)

  1. 複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、
    前記収音手段が出力する前記音声信号に基づいて収音位置を特定し、特定した収音位置を示す位置情報を出力する位置情報特定手段と、
    音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
    前記収音位置と前記各辞書との対応関係を記憶する対応関係記憶手段と、
    前記位置情報特定手段が出力した位置情報に対応する辞書を、前記対応関係記憶手段の記憶内容を参照して選択する辞書選択手段と、
    前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段と
    を具備することを特徴とする音声認識装置。
  2. 前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御する収音方向制御手段と、前記アレイマイクが収音した音声を音声信号に変換して出力する音声信号生成手段とを有し、
    前記位置情報特定手段は前記収音方向制御手段により制御される前記アレイマイクの収音方向を示す方向データに基づいて前記収音位置を特定することにより前記位置情報を出力することを特徴とする請求項1記載の音声認識装置。
  3. 前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、
    話者の発声する音声の特徴量と話者の位置を示す話者位置情報との対応関係を記憶する位置対応関係記憶手段と
    を具備し、
    前記収音手段が出力する音声信号に基づいて収音位置の特定ができない場合に、
    前記特徴量抽出手段が抽出した特徴量に対応する話者位置情報を前記位置対応関係記憶手段の記憶内容を参照して特定し、特定した話者位置情報を前記位置情報とすることを特徴とする請求項1記載の音声認識装置。
  4. 複数位置からの収音が可能に構成され、収音した音を音声信号に変換して出力する収音手段と、
    前記収音手段が出力した音声信号から特徴量を抽出する特徴量抽出手段と、
    音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
    話者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、
    前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、
    前記辞書選択手段が選択した辞書を用いて、前記収音手段が出力する音声信号に対して音声認識処理を行い、処理結果を出力する音声認識手段と
    を具備することを特徴とする音声認識装置。
  5. 請求項1乃至4いずれかに記載の音声認識装置と、
    前記音声認識装置の音声認識結果を記憶する認識結果記憶手段と
    を具備することを特徴とする会議システム。
JP2007120734A 2007-05-01 2007-05-01 音声認識装置および会議システム Pending JP2008275987A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007120734A JP2008275987A (ja) 2007-05-01 2007-05-01 音声認識装置および会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007120734A JP2008275987A (ja) 2007-05-01 2007-05-01 音声認識装置および会議システム

Publications (1)

Publication Number Publication Date
JP2008275987A true JP2008275987A (ja) 2008-11-13

Family

ID=40054006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007120734A Pending JP2008275987A (ja) 2007-05-01 2007-05-01 音声認識装置および会議システム

Country Status (1)

Country Link
JP (1) JP2008275987A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011165056A (ja) * 2010-02-12 2011-08-25 Nec Casio Mobile Communications Ltd 情報処理装置及びプログラム
JP2011244454A (ja) * 2010-05-18 2011-12-01 Polycom Inc 複数の音声追跡カメラを有するビデオ会議端末
WO2014069798A1 (en) * 2012-10-29 2014-05-08 Samsung Electronics Co., Ltd. Voice recognition apparatus and voice recognition method thereof
US9305555B2 (en) 2012-06-25 2016-04-05 Mitsubishi Electric Corporation Onboard information device
JP2018156047A (ja) * 2017-03-21 2018-10-04 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
KR102147811B1 (ko) * 2020-01-14 2020-08-25 김승모 회의장 발언자 음성인식 및 문자정보변환시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6356698A (ja) * 1986-08-27 1988-03-11 沖電気工業株式会社 多数話者音声認識装置
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2001005482A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 音声認識方法及び装置
JP2007011380A (ja) * 2005-07-01 2007-01-18 Bose Corp 自動車インターフェース
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6356698A (ja) * 1986-08-27 1988-03-11 沖電気工業株式会社 多数話者音声認識装置
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2001005482A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 音声認識方法及び装置
JP2007011380A (ja) * 2005-07-01 2007-01-18 Bose Corp 自動車インターフェース
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011165056A (ja) * 2010-02-12 2011-08-25 Nec Casio Mobile Communications Ltd 情報処理装置及びプログラム
JP2011244454A (ja) * 2010-05-18 2011-12-01 Polycom Inc 複数の音声追跡カメラを有するビデオ会議端末
US9305555B2 (en) 2012-06-25 2016-04-05 Mitsubishi Electric Corporation Onboard information device
WO2014069798A1 (en) * 2012-10-29 2014-05-08 Samsung Electronics Co., Ltd. Voice recognition apparatus and voice recognition method thereof
JP2018156047A (ja) * 2017-03-21 2018-10-04 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
KR102147811B1 (ko) * 2020-01-14 2020-08-25 김승모 회의장 발언자 음성인식 및 문자정보변환시스템

Similar Documents

Publication Publication Date Title
JP4867804B2 (ja) 音声認識装置及び会議システム
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP3263392B2 (ja) テキスト処理装置
EP0865651B1 (en) Method of and system for recognizing a spoken text
JP6654611B2 (ja) 成長型対話装置
JP2008275987A (ja) 音声認識装置および会議システム
JP2004037721A (ja) 音声応答システム、音声応答プログラム及びそのための記憶媒体
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JP2003330485A (ja) 音声認識装置、音声認識システム及び音声認識方法
Park et al. Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles
JP2005283647A (ja) 感情認識装置
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
US7146317B2 (en) Speech recognition device with reference transformation means
US10963548B2 (en) Information acquisition device, information acquisition system, and information acquisition method
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2003330491A (ja) 音声認識装置および音声認識方法ならびにプログラム
JPH1020883A (ja) ユーザ認証装置
JP7172120B2 (ja) 音声認識装置及び音声認識方法
JP2000206987A (ja) 音声認識装置
JP4779365B2 (ja) 発音矯正支援装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JPH04324499A (ja) 音声認識装置
CN113228170B (zh) 信息处理装置及非易失性存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121204