JP4100243B2

JP4100243B2 - 映像情報を用いた音声認識装置及び方法

Info

Publication number: JP4100243B2
Application number: JP2003127928A
Authority: JP
Inventors: 亮子今井; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-05-06
Filing date: 2003-05-06
Publication date: 2008-06-11
Anticipated expiration: 2023-05-06
Also published as: JP2004333738A

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識装置と方法に関し、特に、テレビ番組やビデオなど映像とともに記録されている音声、あるいは、MPEG-7などによりアノテーションの付加されたデータやデータ付加ラジオ番組などテキスト情報を含むデータとともに記録されている音声の書き起こし等を行なう装置に適用して好適とされる装置及び方法に関する。
【０００２】
【従来の技術】
従来、この種の音声認識装置は、映像・音声データを検索したり要約したりできるように、入力音声を書き起こしてテキスト化するために用いられている。
【０００３】
この種の音声認識装置として、放送音声、特にニュース番組の音声認識を行う装置が知られている（例えば非特許文献１参照）。背景雑音などがなく丁寧に読み上げられた音声の認識と異なり、放送番組の音声を対象とした音声認識では、言語的には広範囲の話題、話し言葉と書き言葉、音響的には録音環境、背景音楽、話者のバラエティ、など様々な状況に対処する必要がある。
【０００４】
音響モデルについても言語モデルについても、放送音声認識用にLDC(Linguistic Data Consortium)より広く配布されている何種類かの放送音声データや雑誌のデータを利用して作成を行っている。例えば、音響モデルについては、HMM(Hidden Markov Model)を用い、LDCより配布された音声データのうちタスクに合うと考えられるデータを人手で選んで学習を行ったり、予め人手で音響的な情報がラベル付けされたデータを各条件毎に分割し、それぞれの条件下の音声の音声認識において良い認識結果を得られるようそれぞれの条件のデータで学習を行ったりしており、言語モデルについても単語N-gramモデルを用い、タスクに合うと考えられる、新聞や放送番組の書き起こしを人手で選び、組み合わせ、適宜重み付けを行って学習を行っている。
【０００５】
なお、後に説明されるテキストの抽出については下記の特許文献１等が参照される。
【０００６】
【非特許文献１】
Jean-Luc Gauvain, Lori Lamel, Gilles Adda, "The LIMSI Broadcast News transcription system", Speech Communication, Vol.37,pp.89-108,2002
【特許文献１】
特表２００１−５０７４８２号公報
【０００７】
【発明が解決しようとする課題】
しかしながら、上述した従来の装置では、良い認識性能が得られていない、という問題がある。
【０００８】
その理由は、番組ごと、あるいは番組中で話者や話題が変わっても、音響モデルや言語モデルとして事前に固定したモデルを用いている、ためである。
【０００９】
したがって、本発明は、上記問題点に鑑みて創案されたものであって、その主たる目的は、認識性能の高い音声認識装置及び方法を提供することにある。
【００１０】
【課題を解決するための手段】
本発明の第１のアスペクトに係る音声認識装置は、認識対象の音声とともに記録されている映像を文字認識する文字認識手段と文字認識結果のテキストを用いて音声認識処理に使用するパラメータを制御するパラメータ制御手段を有する。
【００１１】
本発明の第２のアスペクトに係る音声認識装置は、認識対象の音声とともに記録されている映像を画像認識する画像認識手段と画像認識結果を用いて音声認識処理に使用するパラメータを制御するパラメータ制御手段を有する。
【００１２】
本発明の第３のアスペクトに係る音声認識装置は、認識対象の音声とともに記録されているテキスト情報を含むデータから抽出したテキストを用いて音声認識処理に使用するパラメータを制御するパラメータ制御手段を有する。
【００１３】
本発明によれば、音声とともに記録されていた、音声の質や内容と関連深い情報を用いて音声認識処理に使用するパラメータを用意することにより、認識性能の向上を図る、ことができる。
【００１４】
【発明の実施の形態】
次に、本発明の第１の実施の形態について図面を用いて詳細に説明する。
【００１５】
図１、図７、図１３、図１４は、本発明の第１の実施の形態による音声認識装置の構成を示すブロック図である。
【００１６】
本発明の第１の実施の形態による音声認識装置は、図１に示されたパラメータ制御手段４および照合手段７が、図７に示される構成を有している。パラメータ制御手段４は、辞書制御手段４１および言語モデル制御手段４２から構成されている。図１３は、辞書制御手段４１の構成を示す図である。図１４は、言語モデル制御手段４２の構成を示す図である。
【００１７】
本発明の第１の実施の形態による音声認識装置は、音声認識の認識対象、ここでは、映像とともに記録されている音声とその映像を入力とし音声と映像をそれぞれ出力する認識対象入力手段１と、認識対象入力手段１が出力する映像を入力し、後段の文字認識手段３で認識が行える形に処理した映像を出力する映像入力手段２と、認識対象入力手段１が出力する音声を入力し、後段の音声分析手段６で分析が行える形に処理した音声信号を出力する音声入力手段５と、映像入力手段２が出力する映像を入力とし映像中に含まれる文字を抽出及び認識し、認識したテキストを出力する文字認識手段３と、文字認識手段３が出力するテキストを入力とし、後段の照合手段７における音声認識処理で用いるパラメータを出力するパラメータ制御手段４と、音声入力手段５が出力した音声信号を入力とし、分析結果を出力する音声分析手段６と、音声分析手段６の出力した音声の分析結果と、パラメータ制御手段４が出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する照合手段７と、照合手段７が出力した音声認識結果を表示する等して出力する認識結果出力手段８を含む。
【００１８】
図７を参照すると、照合手段７は、照合処理を行う照合手段７１と、辞書７２と、言語モデル７３と、音響モデル７４とを備えており、これらを用いて、入力された分析音声に対し、候補単語列との間で確率計算を行い、最も尤度の高かった単語列を認識結果として出力する。
【００１９】
辞書７２は、認識対象の単語およびその発音を記述している。
【００２０】
言語モデル７３は、認識対象の単語間の接続制約を記述している。言語モデルの例としては、音声認識に広く用いられている、単語N-gramモデルがある。
【００２１】
音響モデル７４は、認識単位の音響的特徴を記述している。音響モデルの例としては、音声認識に広く用いられている、HMM(Hidden Markov Model)がある。辞書７２、言語モデル７３、音響モデル７４の各情報は、図示されない記憶装置に記憶保持されている。
【００２２】
音声分析手段６における分析処理および照合手段７における音声認識処理については、たとえば、上記非特許文献１に記載された方法を用いることができる。
【００２３】
図７に示すように、パラメータ制御手段４は、辞書制御手段４１と言語モデル制御手段４２を含む。
【００２４】
辞書制御手段４１は、図１の文字認識手段３が出力したテキストと、後段の照合手段７が元から備えている辞書７２とを入力とし、照合手段７１における音声認識処理で用いるパラメータとして、辞書７２Ａを出力する。
【００２５】
図１３を参照すると、辞書制御手段４１は、図１の文字認識手段３が出力したテキストを入力とし、単語を抽出、出力する単語抽出手段４１１と、単語抽出手段が出力した単語を入力とし元辞書中に登録されている単語と突合せ、元辞書（図７の元の辞書７２）になかった単語を登録して、辞書（図７の辞書７２Ａ）を出力する単語登録手段４１２と、を含む。なお、単語は、単語列であってもよい。
【００２６】
図７の言語モデル制御手段４２は、図１の文字認識手段３が出力したテキストを入力とし、後段の照合手段７における音声認識処理で用いるパラメータとして言語モデル７３を出力する。
【００２７】
図１４を参照すると、言語モデル制御手段４２は、図１の文字認識手段３が出力したテキストを入力とし検索キーを抽出して出力する検索キー抽出手段４２１と、検索キー抽出手段４２１が出力した検索キーを入力とし、図示されない記憶装置に蓄積されたテキストセットから検索キーに基づいてテキストを選択して、取得し、出力するテキスト取得手段４２２と、テキスト取得手段４２２が出力したテキストを入力とし言語モデルを学習するためのコーパスを構成して出力する学習コーパス構成手段４２３と、学習コーパス構成手段４２３が出力したコーパスを用いて言語モデルを学習し、その結果を出力する言語モデル学習手段４２４とを含む。検索キー抽出の方法は、例えば、映像を文字認識した結果のテキストを形態素解析し、形態素解析結果の中から自立語を抽出する。テキストの取得方法および学習コーパスの構成方法の具体的な例としては、上記特許文献１等の記載が参照される。
【００２８】
再び図７を参照すると、照合手段７１は、パラメータ制御手段４が出力する辞書７２Ａ、言語モデル７３と、予め備えている音響モデル７４と、を用いて、分析された音声の音声認識処理を行い、認識結果を出力する。
【００２９】
映像の文字認識の例としては、例えば、テレビの映像中の字幕や看板の文字、OHPの文字、ニュースのタイトルなどの文字を認識する。
【００３０】
例えば、映像を文字認識した結果「イラク攻撃」が含まれれば、これを検索キーとして、インターネットの検索エンジンを用いて、イラク攻撃の話題のテキストを取得し、言語モデルを学習する。
【００３１】
また、例えば映像を文字認識した結果、「ナジャフ」が含まれ、それまでの辞書７２に、この単語の登録が存在しない場合、新しく追加する。
【００３２】
本実施の形態では、図１３に示すように、単語登録手段４１２として、単語抽出手段４１１が抽出した単語をそのまま用いる場合を例示したが、たとえば予め各単語に対してそれに関連する単語の集合を定めて関連語テーブルとして保持しておき、単語抽出手段４１１が抽出した単語に関連する単語も合わせて辞書７２に、登録するようにしてもよいことは勿論である。
【００３３】
また、図７の言語モデル制御手段４２についても、予め元言語モデルを備えておき、辞書制御手段４１中の単語抽出手段４１１（図１３参照）が抽出した単語や、その関連語についての言語スコアがよくなるよう、元言語モデル中に格納されたパラメータを更新するような構成としてもよいことは勿論である。
【００３４】
さらに、「政治」、「経済」、「スポーツ」等の話題に応じて、複数の辞書、複数の言語モデルを予め用意しておき、文字認識した結果のテキストから話題を推定し、当該話題に対応した辞書、言語モデルを選択して用いることも可能である。
【００３５】
本発明の第１の実施の形態の作用効果について説明する。
【００３６】
音声とともに記録されていた映像から抽出された単語でそれまで辞書になかった単語を登録することにより、入力音声の内容に即した単語が認識されやすくなる。
【００３７】
また、音声とともに記録されていた映像を文字認識して得られたテキストを用い、それから抽出された検索キーにより取得したコーパスを用いて言語モデルの学習を行うため、入力音声の内容に即した適切な言語モデルが学習でき認識性能が向上する。
【００３８】
上記した第１の実施の形態に対応する方法について説明する。音声認識方法は、図１の手段による、以下のような処理工程を含む。
【００３９】
ステップ１：文字認識手段３により、映像入力手段２からの映像について文字認識を行う。
【００４０】
ステップ２：パラメータ制御手段４により、文字認識手段３が出力するテキストを用いて、照合手段７における音声認識処理で用いるパラメータを制御する。照合手段７では、音声分析手段６の出力した音声の分析結果と、パラメータ制御手段４が出力したパラメータを入力として、音声認識処理を行う。
【００４１】
次に、本発明の第２の実施の形態について図面を用いて詳細に説明する。
【００４２】
図２、図８、図１５は、本発明の第２の実施の形態による音声認識装置の構成を示すブロック図である。図２を参照すると、本発明の第２の実施の形態による音声認識装置は、図１に示した前記第１の実施の形態と相違して、認識対象入力手段１の前段に、受信手段９を備え、文字認識手段３のかわりに画像認識手段１０を備えている。図８は、パラメータ制御手段４Ａおよび照合手段７Ａの構成を示す図である。前記第１の実施の形態と相違して、パラメータ制御手段４Ａは、音響モデル制御手段４３を備えている。図１５は、音響モデル制御手段４３の構成を示す図である。
【００４３】
図２において、受信手段９は、テレビ放送など認識対象の映像とともに記録されている音声とその映像を受信し、それぞれを逐次後段の認識対象入力手段１へ出力する。
【００４４】
認識対象入力手段１は、前記第１の実施の形態と同様に動作する。
【００４５】
映像入力手段２は、認識対象入力手段１が出力する映像を入力し、後段の画像認識手段で認識が行える形式に処理した映像を出力する。
【００４６】
画像認識手段１０は、映像入力手段２が出力する映像を入力とし画像認識して画像認識結果を逐次出力する。
【００４７】
パラメータ制御手段４Ａは、画像認識手段１０が出力した画像認識結果を入力とし、照合手段７Ａにおける音声認識処理で用いるパラメータを逐次出力する。
【００４８】
図８を参照すると、パラメータ制御手段４Ａは、前述したように、音響モデル制御手段４３を含む。音響モデル制御手段４３は、画像認識手段１０が出力した画像認識結果と、照合手段７Ａに予め用意しておいた複数の音響モデル７４Ａを入力とし、照合手段７１が音声認識処理で用いるパラメータとして、音響モデル７４を逐次出力する。
【００４９】
図１５を参照すると、音響モデル制御手段４３は、画像認識手段１０が出力した画像認識結果と、照合手段７に予め用意しておいた複数の音響モデル（図８の７４Ａ）を入力とし、画像認識結果に基づいて、音響モデルを選択して出力する音響モデル切替手段４２５を含む。
【００５０】
音声入力手段５及び音声分析手段６は、前記第１の実施の形態と同様に動作し、照合手段７Ａに、分析音声を、逐次送信する。
【００５１】
照合手段７Ａは、パラメータ制御手段４Ａの出力と音声分析手段６の出力を同期させつつ、入力される分析音声に対し、音響モデルを逐次切り替えながら、あらかじめ備えた辞書７２と、言語モデル７３を用いて音声認識処理を行い、認識結果を出力する。
【００５２】
具体的な例としては、例えば、図２の画像認識手段１０は、映像の中から発話している人物を抽出し、その人物の性別や年齢などの属性を判別して、画像認識結果として出力する。例えば、映像の中の登場人物が男性である第１の人物から、女性である第２の人物に変わった場合、画像認識の結果抽出した属性により予め用意しておいた男性音響モデル、女性音響モデル、子供音響モデル、年配音響モデル、汎用音響モデルの中から音響モデルを選択し、男性音響モデルから女性音響モデルに切り替えを行う。映像中に人物が映っていない場合には、「画像認識結果なし」として、汎用音響モデルを用いる。
【００５３】
また、別の例としては、図２の画像認識手段１０は、例えば、映像のシーンを認識し、それがスタジオか屋外かなどの別を画像認識結果として出力する。
【００５４】
例えば映像のシーンがスタジオのニュースから屋外の取材に変わった場合、画像認識の結果抽出したシーンより予め用意しておいた、静かなスタジオ向け音響モデル、耐雑音音響モデル、電話向け音響モデルの中から音響モデルを選択し、静かなスタジオ向け音響モデルから耐雑音音響モデルに切り替えを行う。
【００５５】
本発明の第２の実施の形態の作用効果について説明する。
【００５６】
本実施の形態では、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ認識性能が向上する。また、音声認識処理を放送の受信と並行して逐次行うことで、リアルタイムに認識結果を出力することが可能となる。
【００５７】
上記した第２の実施の形態に対応する方法について説明する。音声認識方法は、図２の各手段による、以下のような処理工程を含む。
【００５８】
ステップ１：画像認識手段１０が、映像を入力し前記映像を画像認識を行う。
【００５９】
ステップ２：パラメータ制御手段４Ａは、画像認識結果を用いて、照合手段７Ａにおける音声認識処理に用いるパラメータを出力し、照合手段７Ａは、音声分析手段６の出力した音声の分析結果と、パラメータ制御手段４Ａが出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する。
【００６０】
次に、本発明の第３の実施の形態について図面を用いて詳細に説明する。
【００６１】
図３、図９、図１６は、本発明の第３の実施の形態による音声認識装置の構成を示す図である。図３を参照すると、本発明の第３の実施の形態による音声認識装置は、図１の映像入力手段２のかわりにテキスト情報を含むデータ入力手段１１を備え、文字認識手段３のかわりにテキスト抽出手段１２を備えている。図９は、本実施の形態のパラメータ制御手段４Ｂおよび照合手段７Ｂの構成を示す図である。前記第１の実施の形態と相違して、パラメータ制御手段４Ｂは、言語モデル制御手段４２Ｂから構成されている。図１６は、言語モデル制御手段４２Ｂの構成を示す図である。
【００６２】
図３を参照すると、認識対象入力手段１は、音声認識の認識対象、ここでは、テキスト情報を含むデータとともに記録されている音声とそのテキスト情報を含むデータを入力とし音声とテキスト情報を含むデータをそれぞれ出力する。
【００６３】
テキスト情報を含むデータ入力手段１１は、認識対象入力手段１が出力するテキスト情報を含むデータを入力し、テキスト抽出手段１２で処理が行える形にしたテキスト情報を含むデータを出力する。
【００６４】
テキスト抽出手段１２は、テキスト情報を含むデータ入力手段１１が出力するテキスト情報を含むデータを入力としテキスト部分を抽出して出力する。
【００６５】
パラメータ制御手段４Ｂは、テキスト抽出手段１２が出力したテキストを入力とし、照合手段７Ｂにおける音声認識処理で用いるパラメータを出力する。
【００６６】
図９を参照すると、パラメータ制御手段７Ｂは、言語モデル制御手段４２Ｂを含む。言語モデル制御手段４２Ｂは、図９のテキスト抽出手段１２が出力したテキストを入力とし、照合手段７Ｂにおける音声認識処理（照合手段７１の処理）で用いるパラメータである言語モデル７３を出力する。
【００６７】
図１６を参照すると、本実施の形態の言語モデル制御手段４２Ｂは、図１４の検索キー抽出手段４２１のかわりに、接続先指定抽出手段４２６を備えている。接続先指定抽出手段４２６は、図３のテキスト抽出手段１２が出力したテキストを入力とし、該テキストの中から文字列のパターンマッチングにより、接続先指定を抽出して、出力する。
【００６８】
テキスト取得手段４２２Ａは、接続先指定抽出手段４２６が出力した接続先指定を入力とし、その接続先から取得したテキストを出力する。
【００６９】
学習コーパス構成手段４２３及び言語モデル学習手段４２４は、図１４の学習コーパス構成手段４２３及び言語モデル学習手段４２４と同様に動作し、言語モデルを出力する。
【００７０】
また図３において、音声入力手段５及び音声分析手段６は、前記第１の実施の形態と同様に動作する。
【００７１】
図９を参照すると、照合手段７１は、元から備える辞書７２をそのまま用いる点を除き、前記第１の実施の形態と同様の構成及び動作とされ、認識結果を出力する。
【００７２】
テキスト情報を含むデータとともに記録されている音声の例としては、データ付加テレビ番組(連動型データ放送)、字幕放送、OHPとともに記録されている講演音声、MPEG-7などの形式でアノテーションを付加された映像・音声データなどが挙げられる。接続先指定の例としては、インターネットのURL（Uniform Resource Location）等が挙げられる。接続先指定抽出手段の例としては、「http://」の文字列を手がかりとしてURLを抽出する。
【００７３】
次に、本発明の第３の実施の形態の作用効果について説明する。
【００７４】
本実施の形態では、音声とともに記録されていたテキスト情報を含むデータ中のテキストを用い、それから抽出された接続先指定により取得したコーパスを用いて言語モデルの学習を行うため、入力音声の内容に即した適切な言語モデルが学習でき認識性能が向上する。
【００７５】
上記した第３の実施の形態に対応する方法について説明する。音声認識方法は、図３の各手段による、以下のような処理工程を含む。
【００７６】
ステップ１：テキスト情報を含むデータからテキスト抽出手段１２がテキストを抽出する。
【００７７】
ステップ２：前記抽出されたテキストを用いて、パラメータ制御手段４Ｂは、照合手段７Ｂにおける音声認識処理に用いるパラメータを出力する。照合手段７Ｂは、音声分析手段６の出力した音声の分析結果と、パラメータ制御手段４Ｂが出力したパラメータを入力として、音声認識処理を行う。
【００７８】
次に、本発明の第４の実施の形態について図面を用いて詳細に説明する。
【００７９】
図４、図１０、図１５は、本発明の第４の実施の形態による音声認識装置の構成を示すブロック図である。図４を参照すると、本発明の第４の実施の形態による音声認識装置は、図２の受信手段９を備えていず、パラメータ制御手段４Ｃおよび照合手段７Ｃが、図１０に示される構成を有する点が、前記第２の実施の形態と相違している。図１５は、音響モデル制御手段４３Ｃの構成を示す図である。
【００８０】
図４を参照すると、本実施の形態においては、認識対象入力手段１は、映像と音声が同時に録画・録音されたビデオデータなど、音声と映像が時間軸の対応付けをもって記録された映像・音声データを入力し、映像信号と音声信号に分離してそれぞれ出力する。映像入力手段２は、前記第２の実施の形態と同様に動作する。
【００８１】
画像認識手段１０は、映像の各時刻あるいは時間区間に対する画像認識結果を時間タグ付きで出力する。
【００８２】
音声入力手段５と音声分析手段６は、前記第２の実施の形態と同様に動作し、音声分析手段６は、入力音声から発話区間を切り出して分析し、各発話区間の分析音声を時間タグ付きで出力する。
【００８３】
図１０を参照すると、パラメータ制御手段４Ｃは、時間タグ付き画像認識結果記憶手段４４と、時間タグ付き画像認識結果選択手段４５と、音響モデル制御手段４３Ｃと、を含む。
【００８４】
照合手段７Ｃは、時間タグ付き分析音声記憶手段７５を含む。
【００８５】
時間タグ付き画像認識結果記憶手段４４は、図４の画像認識手段１０が出力した時間タグ付き画像認識結果を記憶する。
【００８６】
時間タグ付き分析音声記憶手段７５は、図４の音声分析手段６が出力した時間タグ付き分析音声を記憶する。
【００８７】
パラメータ制御手段４Ｃと照合手段７Ｃは以下のように動作する。
【００８８】
照合手段７１は、時間タグ付き分析音声記憶手段７５から、順に、発話区間ごとの分析音声を取り出す。時間タグ付き画像認識結果選択手段４５は、時間タグを手がかりに、取り出された発話区間に対応する画像認識結果を、時間タグ付き画像認識結果記憶手段４４から抽出し、出力する。
【００８９】
発話区間に対応した時間区間内に画像認識結果が得られていない場合には、たとえば前後に一定時間探索範囲を広げ、その中で発話区間に最も近いものを選ぶこともできる。これにより、発話区間より時間的に後の画像認識結果が対応付けられることもあり得る。
【００９０】
音響モデル制御手段４３Ｃは、時間タグ付き画像認識結果選択手段４５が出力した画像認識結果を入力とし、前記第２の実施の形態と同様に、予め用意した複数の音響モデル７４Ａから、音響モデルを一つ選択して出力する。
【００９１】
照合手段７１は、取り出した発話区間の分析音声に対し、選択された音響モデルを用いて音声認識処理を行い、認識結果を出力する。
【００９２】
以上の処理を、時間タグ付き分析音声記憶手段７５に記憶された各発話区間の分析音声に対して繰り返す。
【００９３】
本発明の第４の実施の形態の作用効果について説明する。
【００９４】
本実施の形態では、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて、音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ、認識性能が向上する。あらかじめ画像認識を行って、その結果を時間タグつきで記憶しておくことで、入力音声の話者や質の情報を抽出できる画像が入力音声よりも時間的に遅れて現れる場合にも、対応できる。
【００９５】
次に、本発明の第５の実施の形態について図面を用いて詳細に説明する。
【００９６】
図１、図１１、図１７は、本発明の第５の実施の形態による音声認識装置の構成を示すブロック図である。
【００９７】
本発明の第５の実施の形態による音声認識装置においては、図１のパラメータ制御手段４および照合手段７が、図１１に示される構成のパラメータ制御手段４’および照合手段７’とされている。
【００９８】
本発明の第５の実施の形態において、図１の認識対象入力手段１、映像入力手段２、文字認識手段３、音声入力手段５、音声分析手段６は、前記第１の実施の形態と同様とされる。
【００９９】
図１１を参照すると、パラメータ制御手段４’は、後処理制御手段４６を含む。図１７は、パラメータ制御手段４’の後処理制御手段４６の構成を示す図である。
【０１００】
図１１を参照すると、照合手段７’は、認識結果候補出力手段７６と、認識結果選択手段７７と、を含む。
【０１０１】
図１１において、認識結果候補出力手段７６は、図１の音声分析手段６が出力した分析音声を入力とし、辞書７２、言語モデル７３、音響モデル７４を参照して照合処理を行い、認識結果候補８０を、Ｎベストリストあるいは単語グラフとして出力する。
【０１０２】
後処理制御手段４６は、図１の文字認識手段３が出力したテキストを入力とし、認識結果選択手段７７における音声認識処理で用いる後処理パラメータ８１を出力する。
【０１０３】
認識結果選択手段７７は、後処理制御手段４６が出力した後処理パラメータ８１と、認識結果候補出力手段７６が出力した認識結果候補８０を入力とし、認識結果候補の再スコア付けを行い、最もスコアのよいものを認識結果として出力する。
【０１０４】
後処理制御手段４６は、図１７を参照すると、文字認識手段３（図１参照）の出力したテキストを入力とし、単語抽出手段４１１により、テキストから単語を抽出して単語リストを作成し、後段の認識結果選択手段７７で用いられる後処理パラメータとして出力する。
【０１０５】
図１１において、認識結果選択手段７７は、認識結果の再スコア付けの際、認識結果候補中に現れる単語のうち、後処理パラメータとして与えられた単語リストに含まれるものに対してスコアに一定値を加算することで、その単語を含む候補が優先して選択されるようにする。
【０１０６】
本発明の第５の実施の形態の作用効果について説明する。
【０１０７】
本実施の形態では、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語を含む認識結果候補を認識結果として出力することができ、認識性能が向上する。
【０１０８】
次に、本発明の第６の実施の形態について図面を用いて詳細に説明する。
【０１０９】
図１、図１２、図１７は、本発明の第６の実施の形態による音声認識装置の構成を示すブロック図である。
【０１１０】
図１２を参照すると、本発明の第６の実施の形態による音声認識装置は、照合手段７”として、図１１の認識結果候補出力手段７６のかわりに、認識結果出力手段７８を備え、図１１の認識結果選択手段７７のかわりに、認識結果変更手段７９を備えている点が、前記第５の実施の形態と相違している。その他は、前記第５の実施の形態と同様の構成及び動作とされている。
【０１１１】
図１２において、認識結果出力手段７８は、辞書７２中の単語の列で表されるただ１つの認識結果候補を、認識結果（認識結果１）８２として出力する。
【０１１２】
認識結果変更手段７９は、後処理パラメータ８１として、与えられた単語リスト中に認識結果８２中の単語と発音が同じであり、表記の異なる単語が存在すれば、認識結果８２中の単語を、当該単語で置き換え、認識結果として、出力する。置換の対象として、発音が同じである単語だけでなく、発音が類似しているものも含めることもできる。
【０１１３】
次に、本発明の第６の実施の形態の作用効果について説明する。
【０１１４】
本実施の形態では、最初に出力された認識結果中に含まれる単語を、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語に置換し、認識結果として出力することができ、認識性能が向上する。
【０１１５】
次に、本発明の第７の実施の形態について図面を用いて詳細に説明する。図５は、本発明の第７の実施の形態による音声翻訳装置の構成を示すブロック図である。
【０１１６】
図５を参照すると、本発明の第７の実施の形態による音声翻訳装置は、図２に示した前記第２の実施の形態に、翻訳手段１４、動作制御手段１３、翻訳結果出力手段１５が追加されている。
【０１１７】
動作制御手段１３は、画像認識手段１０の出力する画像認識結果を入力とし翻訳手段１４における翻訳処理の動作を制御する。
【０１１８】
翻訳手段１４は、認識結果出力手段８が出力した認識結果テキストを動作制御手段１３の制御に基づいて、他の言語のテキストに変換する翻訳を行い、翻訳結果を出力する。
【０１１９】
翻訳結果出力手段１５は、翻訳手段１４が出力した翻訳結果を表示したり、テキストを音声に変換して出力する音声合成を行う。
【０１２０】
例えば、音声が英語で入力され、それを認識して日本語に翻訳する場合に、画像認識の結果その映像のシーンが病院であることが抽出でき、「doctor」という音声認識結果が得られている場合、翻訳結果は「博士」ではなく「医師」と出力するよう、翻訳処理の動作を制御する。
【０１２１】
次に、本発明の第７の実施の形態の作用効果について説明する。
【０１２２】
本実施の形態では、音声とともに記録されていた映像を用いて翻訳処理を制御するため、精度の良い翻訳結果が得られる。
【０１２３】
上記した第７の実施の形態に対応する方法について説明する。音声認識方法は、図５の各手段による、以下のような処理工程を含む。
【０１２４】
ステップ１：映像とともに記録されている映像を画像認識する画像認識手段１０による画像認識結果に基づき、パラメータ制御手段４Ａは、照合手段７Ａにおける音声認識処理で用いるパラメータを出力する。
【０１２５】
ステップ２：照合手段７Ａは、音声分析手段６の出力した音声の分析結果と、パラメータ制御手段４Ａが出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する。
【０１２６】
ステップ３：動作制御手段１３は、画像認識結果に基づき翻訳手段１４に対して翻訳処理の動作を制御する設定を行う。翻訳手段１４は、動作制御手段１３の制御のもと、認識結果出力手段８の出力を翻訳して出力する。
【０１２７】
次に、本発明の第８の実施の形態について図面を用いて詳細に説明する。
【０１２８】
図６は、本発明の第８の実施の形態による音声翻訳装置の構成を示すブロック図である。本発明の第８の実施の形態による音声翻訳装置は、動作制御手段１３の制御する対象が、翻訳結果出力手段１５である点が、前記第７の実施の形態と相違している。
【０１２９】
図６を参照すると、動作制御手段１３Ａは、画像認識結果を入力とし、翻訳結果出力手段１５Ａの動作を制御する。
【０１３０】
翻訳結果出力手段１５Ａは、翻訳手段１４が出力した翻訳結果を動作制御手段１３Ａの制御に基づいて音声合成により音声に変換し出力する。
【０１３１】
具体的な例としては、映像中の人物が女性であることが画像認識結果で得られている場合、翻訳結果を女声音声合成で出力するよう音声合成の声質のパラメータを設定する。
【０１３２】
本発明の第８の実施の形態の作用効果について説明する。
【０１３３】
本実施の形態では、音声とともに記録されていた映像を用いて翻訳結果出力のための音声合成処理を制御するため、人物の属性やシーンにあった自然な出力が得られる。
【０１３４】
各実施の形態でそれぞれ例を挙げて説明してきたが、音声とともに記録されていた映像やデータの情報を用いてパラメータ制御を行う方法は他の組み合わせも可能である。
【０１３５】
例えば、テレビのニュース番組の認識において、「スポーツ」「天気」などの話題に応じて複数の辞書・言語モデルを用意しておいて、画像認識で野球中継のシーンであると認識されればスポーツの話題に対応した辞書・言語モデルに切り替えたり、よく番組に登場する人物の音響モデルをあらかじめ用意しておいて、字幕にその人物名が現れれば、それに基づいて音響モデルを切り替えることもできる。
【０１３６】
また、パラメータ制御手段４Ａで制御するパラメータとしては、これまでに挙げたものの他に、照合の際のビームサーチのためのビーム幅や言語重みパラメータなどもある。例えば、画像認識で背景雑音の少ないスタジオのニュースであれば、音響モデルのスコアがより信頼できるとして言語重みパラメータを小さくするなどの制御も可能である。
【０１３７】
さらに、照合手段７Ａとして、複数の音声認識装置を用意し、場面等に応じて適切なものを選択して用いることも可能である。たとえば、音声認識装置として日本語用と英語用を用意し、映像中の人物が日本人かアメリカ人かに応じて使用する音声認識装置を切り替える。
【０１３８】
上記した第８の実施の形態に対応する方法について説明する。音声認識方法は、図５の各手段による、以下のような処理工程を含む。
【０１３９】
ステップ１：映像とともに記録されている映像を画像認識する画像認識手段１０による画像認識結果に基づき、パラメータ制御手段４Ａは、照合手段７Ａにおける音声認識処理で用いるパラメータを出力する。
【０１４０】
ステップ２：照合手段７Ａは、音声分析手段６の出力した音声の分析結果と、パラメータ制御手段４Ａが出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する。
【０１４１】
ステップ３：動作制御手段１３は、画像認識結果に基づき翻訳結果出力手段１５Ａに対して翻訳処理の動作を制御する設定を行う。翻訳結果出力手段１５Ａは、翻訳手段１４が出力した翻訳結果を、動作制御手段１３Ａの制御に基づいて音声合成により音声に変換し出力する。
【０１４２】
以上本発明を上記実施形態に即して説明したが、本発明は、上記実施形態の構成にのみ限定されるものでなく、本発明の原理の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【０１４３】
【発明の効果】
以上説明したように、本発明によれば、音声とともに記録されていた、音声の質や内容に関連する情報を用いて音声認識処理に用いるパラメータを制御することにより、認識性能を向上させる、という効果を奏する。
【０１４４】
本発明によれば、音声とともに記録されている映像から抽出された単語で、単語を辞書に登録することにより、入力音声の内容に即した単語の認識を容易化し、また音声とともに記録されていた映像を文字認識して得られたテキストを用い、それから抽出された検索キーにより取得したコーパスを用いて言語モデルの学習を行うため、入力音声の内容に即した適切な言語モデルが学習でき認識性能を向上している。
【０１４５】
また本発明によれば、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ認識性能が向上することができる。また、音声認識処理を放送の受信と並行して逐次行うことで、リアルタイムに認識結果を出力することが可能となる。
【０１４６】
さらに、本発明によれば、音声とともに記録されていたテキスト情報を含むデータ中のテキストを用い、抽出された接続先指定により取得したコーパスを用いて、言語モデルの学習を行う構成とすることで、入力音声の内容に即した適切な言語モデルが学習でき認識性能を向上させることができる。
【０１４７】
本発明によれば、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて、音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ、認識性能を向上させることができる。
【０１４８】
本発明によれば、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語を含む認識結果候補を認識結果として出力することができ、認識性能を向上させることができる。
【０１４９】
さらに、本発明によれば、最初に出力された認識結果中に含まれる単語を、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語に置換し、認識結果として出力することができ、認識性能をさせることができる。
【０１５０】
本発明によれば、音声とともに記録されていた映像を用いて翻訳処理を制御するため、精度の良い翻訳結果を得ることができる。
【図面の簡単な説明】
【図１】本発明の第１、５、６の実施の形態に係る装置の構成を示す図である。
【図２】本発明の第２の実施の形態に係る装置の構成を示す図である。
【図３】本発明の第３の実施の形態に係る装置の構成を示す図である。
【図４】本発明の第４の実施の形態に係る装置の構成を示す図である。
【図５】本発明の第７の実施の形態に係る装置の構成を示す図である。
【図６】本発明の第８の実施の形態に係る装置の構成を示す図である。
【図７】本発明の第６の実施の形態に係る装置の構成を示す図である。
【図８】本発明の第２の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図９】本発明の第３の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図１０】本発明の第４の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図１１】本発明の第５の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図１２】本発明の第６の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図１３】図７における辞書制御手段の具体的な構成の一例を示す図である。
【図１４】図７における言語モデル制御手段の具体的な構成の一例を示す図である。
【図１５】図８における音響モデル制御手段の具体的な構成の一例を示す図である。
【図１６】図９における言語モデル制御手段の具体的な構成の一例を示す図である。
【図１７】図１１および図１２における後処理制御手段の具体的な構成の一例を示す図である。
【符号の説明】
１認識対象入力手段
２映像入力手段
３文字認識手段
４、４Ａ、４Ｂ、４Ｃ、４’、４” パラメータ制御手段
５音声入力手段
６音声分析手段
７、７Ａ、７Ｂ、７Ｃ、７’、７” 照合手段
８認識結果出力手段
９受信手段
１０画像認識手段
１１テキスト情報を含むデータ入力手段
１２テキスト抽出手段
１３、１３Ａ動作制御手段
１４翻訳手段
１５、１５Ａ翻訳結果出力手段
４１辞書制御手段
４２、４２Ｂ、言語モデル制御手段
４３音響モデル制御手段
４４時間タグ付き画像認識結果記憶手段
４５時間タグ付き画像認識結果選択手段
４６後処理制御手段
７１照合手段
７２元の辞書
７２Ａ辞書
７３言語モデル
７４音響モデル
７５時間タグ付き分析結果記憶手段
７６認識結果候補出力手段
７７認識結果選択手段
７８認識結果出力手段
７９認識結果変更手段
８０認識結果候補
８１後処理パラメータ
８２認識結果
４１１単語抽出手段
４１２単語登録手段
４２１検索キー抽出手段
４２２、４２２Ａテキスト取得手段
４２３学習コーパス構成手段
４２４言語モデル学習手段
４２５音響モデル切替手段
４２６接続先指定抽出手段

Claims

映像とともに記録されている音声を認識する処理を行うにあたり、音声認識対象の音声とともに記録されている前記映像から文字認識して得たテキストを用いて、前記音声認識処理に用いるパラメータを可変制御する手段を備えている、ことを特徴とする音声認識装置。
テキスト情報を含むデータとともに記録されている音声を認識する処理を行うにあたり、音声認識対象の音声とともに記録されている前記テキスト情報を含むデータ中のテキストを用いて、前記音声認識処理に用いるパラメータを可変制御する手段を備えている、ことを特徴とする音声認識装置。
映像とともに記録されている音声を認識する処理を行うにあたり、音声認識対象の音声とともに記録されている前記映像を画像認識して得た画像認識結果を用いて、前記音声認識処理に用いるパラメータを可変制御する手段を備えている、ことを特徴とする音声認識装置。
映像とともに記録されている音声、又は、テキスト情報を含むデータとともに記録されている音声を認識して認識結果テキストに変換する手段と、
他の言語のテキストに変換して翻訳する手段と、
変換したテキストを表示又は音声合成で出力する手段と、
前記映像を文字認識して得たテキスト、前記テキスト情報を含むデータ中のテキスト、前記映像を画像認識して得た認識結果に応じて、翻訳処理、あるいは音声合成処理の動作を制御する手段と、
を備えている、ことを特徴とする音声認識装置。
映像とともに記録されている音声を認識する方法であって、
音声認識対象の音声とともに記録されている前記映像を文字認識するステップと、
前記文字認識で得られたテキストを用いて、前記音声認識処理に用いるパラメータを可変制御するステップと、
を含む、ことを特徴とする音声認識方法。
テキスト情報を含むデータとともに記録されている音声を認識する方法であって、
音声認識対象の音声とともに記録されている前記テキスト情報を含むデータからテキストを抽出するステップと、
前記抽出されたテキストを用いて、前記音声認識処理に用いるパラメータを可変制御するステップと、
を含む、ことを特徴とする音声認識方法。
映像とともに記録されている音声を認識する方法であって、
音声認識対象の音声とともに記録されている前記映像を入力し前記映像を画像認識するステップと、
前記画像認識結果を用いて、前記音声認識処理に用いるパラメータを可変制御するステップと、
を含む、ことを特徴とする音声認識方法。
前記画像認識結果に基づき、音声認識結果の翻訳処理、又は翻訳出力の動作を制御するステップを含む、ことを特徴とする請求項７記載の音声認識方法。
映像とともに記録されている音声、又は、テキスト情報を含むデータとともに記録されている音声を認識し、認識結果を、テキストに変換するステップと、
前記テキストを他の言語のテキストに変換して翻訳するステップと、
前記変換したテキストを表示又は音声合成で出力するステップと、
を含み、
さらに、
前記映像を文字認識して得たテキスト、前記テキスト情報を含むデータ中のテキスト、及び、映像を画像認識して得た認識結果のうちの、少なくとも１つに応じて、翻訳処理及び又は音声合成処理の動作を制御するステップを含む、ことを特徴とする音声認識方法。
映像とともに記録されている音声の認識処理を行う手段を備えた音声認識装置であって、
前記映像を文字認識してテキストを抽出する文字認識手段と、
前記文字認識手段で抽出されたテキストに応じて前記音声認識処理で用いるパラメータを可変制御するパラメータ制御手段と、
を有する、ことを特徴とする音声認識装置。
テキスト情報を含むデータとともに記録されている音声の認識処理を行う手段を備えた音声認識装置であって、
前記データ中のテキストを抽出するテキスト抽出手段と、
前記テキスト抽出手段で抽出されたテキストに応じて前記音声認識処理に用いるパラメータを可変制御するパラメータ制御手段と、
を有する、ことを特徴とする音声認識装置。
映像とともに記録されている音声の認識処理を行う手段を備えた音声認識装置であって、
前記映像を画像認識してその認識結果を出力する画像認識手段と、
前記画像認識手段での画像認識結果に応じて前記音声認識処理に用いるパラメータを可変制御するパラメータ制御手段と、
を有する、ことを特徴とする音声認識装置。
前記画像認識手段が、前記映像中の人物の属性を抽出する手段を備えている、ことを特徴とする請求項１２に記載の音声認識装置。
前記画像認識手段が、前記映像のシーンを認識する手段を備えている、ことを特徴とする請求項１２に記載の音声認識装置。
前記音声認識処理に用いるパラメータが、
認識単位の音響的特徴を記述した音響モデルを含み、
前記パラメータ制御手段が、前記音響モデルの、作成、更新、及び、切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項１０乃至１４のいずれか一に記載の音声認識装置。
前記音声認識処理に用いるパラメータが、
認識対象の単語および該単語の発音を記述した認識辞書と、
前記認識対象の単語間の接続制約を記述した言語モデルと、
を含み、
前記パラメータ制御手段が、
前記認識辞書と前記言語モデルのうち少なくとも一つについて、作成、更新、及び切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項１０乃至１４のいずれか一に記載の音声認識装置。
前記パラメータ制御手段が、前記抽出されたテキストを入力し前記テキストから検索キーとなる文字列を抽出する検索キー抽出手段と、
蓄積されたテキストコーパスセットから前記検索キーを用いてテキストコーパスを選択、取得するテキストコーパス取得手段と、
を有し、
前記音声認識処理に用いるパラメータが、
認識対象の単語および該単語の発音を記述した認識辞書と、
前記認識対象の単語間の接続制約を記述した言語モデルと、
を含み、
前記パラメータ制御手段は、前記テキストコーパスを用いて、前記認識辞書と前記言語モデルのうちの少なくとも一つについて、作成、更新、及び、切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項１０又は１１に記載の音声認識装置。
前記パラメータ制御手段が、前記抽出したテキストを入力し前記テキストからハイパーリンクの接続先を指定している情報を抽出する接続先指定抽出手段と、
前記接続先からテキストコーパスを取得するテキストコーパス取得手段と、
を有し、
前記音声認識処理に用いるパラメータが、
認識対象の単語および該単語の発音を記述した認識辞書と、
前記認識対象の単語間の接続制約を記述した言語モデルと、
を含み、
前記パラメータ制御手段は、前記テキストコーパスを用いて前記認識辞書と前記言語モデルのうち少なくとも一つについて、作成、更新、及び切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項１０又は１１に記載の音声認識装置。
前記音声認識処理を行う手段が、
複数の認識結果候補を出力する認識結果候補出力手段と、
前記認識結果候補から最適な認識結果を選択する認識結果選択手段と、
を有し、
前記パラメータ制御手段が、前記認識結果候補選択手段の動作を決定するパラメータを可変制御する、ことを特徴とする請求項１０乃至１４のいずれか一に記載の音声認識装置。
前記音声認識処理を行う手段が、
認識結果を出力する認識結果出力手段と、
前記認識結果を変更する認識結果変更手段と、
を有し、
前記パラメータ制御手段が、前記認識結果変更手段の動作を決定するパラメータを可変制御する、ことを特徴とする請求項１０乃至１４のいずれか一に記載の音声認識装置。
前記音声と、前記映像又は前記テキスト情報を含むデータとが時間軸の対応付けを持って記録されており、
前記パラメータ制御手段が、前記時間軸の対応付けを利用して、音声認識対象区間に応じて、前記パラメータを動的に可変制御する手段を備えている、ことを特徴とする請求項１０乃至２０のいずれか一に記載の音声認識装置。
前記抽出したテキスト、あるいは前記画像認識結果を時間情報と対応付けて保持する保持手段を有し、
前記パラメータ制御手段が、音声認識対象区間に応じて前記時間軸の対応付けを利用して、前記保持手段から保持された情報を読み出し、前記読み出した情報に応じて前記パラメータを動的に可変制御する手段を備えている、ことを特徴とする請求項２１に記載の音声認識装置。
前記音声と、前記映像又は前記テキスト情報を含むデータとを受信する受信手段を有し、
前記音声認識処理を受信と、並行して、逐次行なう、ことを特徴とする請求項１０乃至２２のいずれか一に記載の音声認識装置。
映像とともに記録されている音声、又は、テキスト情報を含むデータとともに記録されている音声を、認識し、認識結果テキストに変換する音声テキスト変換手段と、
前記認識結果テキストを、他の言語のテキストに変換する翻訳手段と、
前記変換されたテキストを表示する表示手段、及び／又は、前記変換されたテキストを音声に変換して出力する音声合成手段と、
を有し、
前記映像を文字認識して得たテキスト、前記テキスト情報を含むデータ中のテキスト、前記映像を画像認識して得た認識結果のうちのいずれかに応じて、前記翻訳手段、及び／又は、前記音声合成手段の動作を制御する動作制御手段を有する、ことを特徴とする音声翻訳装置。
前記映像とともに記録されている音声を入力し映像と音声をそれぞれ出力する手段と、
前記音声を入力する音声入力手段と、
前記入力された音声を分析する音声分析手段と、
を備え、
前記音声の認識処理を行う手段が、
前記音声分析手段からの分析結果と、前記パラメータ制御手段が出力したパラメータを入力し、音声認識用の辞書、単語間の接続制約情報、認識単位の音響的特徴情報のうちのいずれか１つ又は複数を、前記パラメータに基づき可変に設定する手段と、
音声認識用の辞書、単語間の接続制約情報、認識単位の音響的特徴情報のうちの少なくとも１つを用いて、前記音声分析手段で分析された音声認識処理を行う照合手段と、
を備えている、ことを特徴とする請求項１０乃至１２のいずれか一に記載の音声認識装置。