JP2004333738A - 映像情報を用いた音声認識装置及び方法 - Google Patents

映像情報を用いた音声認識装置及び方法 Download PDF

Info

Publication number
JP2004333738A
JP2004333738A JP2003127928A JP2003127928A JP2004333738A JP 2004333738 A JP2004333738 A JP 2004333738A JP 2003127928 A JP2003127928 A JP 2003127928A JP 2003127928 A JP2003127928 A JP 2003127928A JP 2004333738 A JP2004333738 A JP 2004333738A
Authority
JP
Japan
Prior art keywords
recognition
text
voice
video
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003127928A
Other languages
English (en)
Other versions
JP4100243B2 (ja
Inventor
Riyouko Imai
亮子 今井
Ryosuke Isotani
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003127928A priority Critical patent/JP4100243B2/ja
Publication of JP2004333738A publication Critical patent/JP2004333738A/ja
Application granted granted Critical
Publication of JP4100243B2 publication Critical patent/JP4100243B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】音声とともに記録されていた、音声の質や内容と関連深い情報を用いて音声認識処理に使用するパラメータを用意することで認識性能を向上させる。
【解決手段】文字認識手段3で音声とともに記録されている映像を文字認識してテキストを抽出し、抽出したテキストに応じてパラメータ制御手段4は、照合手段7が音声認識処理に用いるパラメータを制御する。
【選択図】図1

Description

【0001】
【発明の属する技術分野】
本発明は音声認識装置と方法に関し、特に、テレビ番組やビデオなど映像とともに記録されている音声、あるいは、MPEG−7などによりアノテーションの付加されたデータやデータ付加ラジオ番組などテキスト情報を含むデータとともに記録されている音声の書き起こし等を行なう装置に適用して好適とされる装置及び方法に関する。
【0002】
【従来の技術】
従来、この種の音声認識装置は、映像・音声データを検索したり要約したりできるように、入力音声を書き起こしてテキスト化するために用いられている。
【0003】
この種の音声認識装置として、放送音声、特にニュース番組の音声認識を行う装置が知られている(例えば非特許文献1参照)。背景雑音などがなく丁寧に読み上げられた音声の認識と異なり、放送番組の音声を対象とした音声認識では、言語的には広範囲の話題、話し言葉と書き言葉、音響的には録音環境、背景音楽、話者のバラエティ、など様々な状況に対処する必要がある。
【0004】
音響モデルについても言語モデルについても、放送音声認識用にLDC(Linguistic Data Consortium)より広く配布されている何種類かの放送音声データや雑誌のデータを利用して作成を行っている。例えば、音響モデルについては、HMM(Hidden Markov Model)を用い、LDCより配布された音声データのうちタスクに合うと考えられるデータを人手で選んで学習を行ったり、予め人手で音響的な情報がラベル付けされたデータを各条件毎に分割し、それぞれの条件下の音声の音声認識において良い認識結果を得られるようそれぞれの条件のデータで学習を行ったりしており、言語モデルについても単語N−gramモデルを用い、タスクに合うと考えられる、新聞や放送番組の書き起こしを人手で選び、組み合わせ、適宜重み付けを行って学習を行っている。
【0005】
なお、後に説明されるテキストの抽出については下記の特許文献1等が参照される。
【0006】
【非特許文献1】
Jean−Luc Gauvain, Lori Lamel, Gilles Adda, ”The LIMSI Broadcast News transcription system”, Speech Communication, Vol.37,pp.89−108,2002
【特許文献1】
特表2001−507482号公報
【0007】
【発明が解決しようとする課題】
しかしながら、上述した従来の装置では、良い認識性能が得られていない、という問題がある。
【0008】
その理由は、番組ごと、あるいは番組中で話者や話題が変わっても、音響モデルや言語モデルとして事前に固定したモデルを用いている、ためである。
【0009】
したがって、本発明は、上記問題点に鑑みて創案されたものであって、その主たる目的は、認識性能の高い音声認識装置及び方法を提供することにある。
【0010】
【課題を解決するための手段】
本発明の第1のアスペクトに係る音声認識装置は、認識対象の音声とともに記録されている映像を文字認識する文字認識手段と文字認識結果のテキストを用いて音声認識処理に使用するパラメータを制御するパラメータ制御手段を有する。
【0011】
本発明の第2のアスペクトに係る音声認識装置は、認識対象の音声とともに記録されている映像を画像認識する画像認識手段と画像認識結果を用いて音声認識処理に使用するパラメータを制御するパラメータ制御手段を有する。
【0012】
本発明の第3のアスペクトに係る音声認識装置は、認識対象の音声とともに記録されているテキスト情報を含むデータから抽出したテキストを用いて音声認識処理に使用するパラメータを制御するパラメータ制御手段を有する。
【0013】
本発明によれば、音声とともに記録されていた、音声の質や内容と関連深い情報を用いて音声認識処理に使用するパラメータを用意することにより、認識性能の向上を図る、ことができる。
【0014】
【発明の実施の形態】
次に、本発明の第1の実施の形態について図面を用いて詳細に説明する。
【0015】
図1、図7、図13、図14は、本発明の第1の実施の形態による音声認識装置の構成を示すブロック図である。
【0016】
本発明の第1の実施の形態による音声認識装置は、図1に示されたパラメータ制御手段4および照合手段7が、図7に示される構成を有している。パラメータ制御手段4は、辞書制御手段41および言語モデル制御手段42から構成されている。図13は、辞書制御手段41の構成を示す図である。図14は、言語モデル制御手段42の構成を示す図である。
【0017】
本発明の第1の実施の形態による音声認識装置は、音声認識の認識対象、ここでは、映像とともに記録されている音声とその映像を入力とし音声と映像をそれぞれ出力する認識対象入力手段1と、認識対象入力手段1が出力する映像を入力し、後段の文字認識手段3で認識が行える形に処理した映像を出力する映像入力手段2と、認識対象入力手段1が出力する音声を入力し、後段の音声分析手段6で分析が行える形に処理した音声信号を出力する音声入力手段5と、映像入力手段2が出力する映像を入力とし映像中に含まれる文字を抽出及び認識し、認識したテキストを出力する文字認識手段3と、文字認識手段3が出力するテキストを入力とし、後段の照合手段7における音声認識処理で用いるパラメータを出力するパラメータ制御手段4と、音声入力手段5が出力した音声信号を入力とし、分析結果を出力する音声分析手段6と、音声分析手段6の出力した音声の分析結果と、パラメータ制御手段4が出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する照合手段7と、照合手段7が出力した音声認識結果を表示する等して出力する認識結果出力手段8を含む。
【0018】
図7を参照すると、照合手段7は、照合処理を行う照合手段71と、辞書72と、言語モデル73と、音響モデル74とを備えており、これらを用いて、入力された分析音声に対し、候補単語列との間で確率計算を行い、最も尤度の高かった単語列を認識結果として出力する。
【0019】
辞書72は、認識対象の単語およびその発音を記述している。
【0020】
言語モデル73は、認識対象の単語間の接続制約を記述している。言語モデルの例としては、音声認識に広く用いられている、単語N−gramモデルがある。
【0021】
音響モデル74は、認識単位の音響的特徴を記述している。音響モデルの例としては、音声認識に広く用いられている、HMM(Hidden Markov Model)がある。辞書72、言語モデル73、音響モデル74の各情報は、図示されない記憶装置に記憶保持されている。
【0022】
音声分析手段6における分析処理および照合手段7における音声認識処理については、たとえば、上記非特許文献1に記載された方法を用いることができる。
【0023】
図7に示すように、パラメータ制御手段4は、辞書制御手段41と言語モデル制御手段42を含む。
【0024】
辞書制御手段41は、図1の文字認識手段3が出力したテキストと、後段の照合手段7が元から備えている辞書72とを入力とし、照合手段71における音声認識処理で用いるパラメータとして、辞書72Aを出力する。
【0025】
図13を参照すると、辞書制御手段41は、図1の文字認識手段3が出力したテキストを入力とし、単語を抽出、出力する単語抽出手段411と、単語抽出手段が出力した単語を入力とし元辞書中に登録されている単語と突合せ、元辞書(図7の元の辞書72)になかった単語を登録して、辞書(図7の辞書72A)を出力する単語登録手段412と、を含む。なお、単語は、単語列であってもよい。
【0026】
図7の言語モデル制御手段42は、図1の文字認識手段3が出力したテキストを入力とし、後段の照合手段7における音声認識処理で用いるパラメータとして言語モデル73を出力する。
【0027】
図14を参照すると、言語モデル制御手段42は、図1の文字認識手段3が出力したテキストを入力とし検索キーを抽出して出力する検索キー抽出手段421と、検索キー抽出手段421が出力した検索キーを入力とし、図示されない記憶装置に蓄積されたテキストセットから検索キーに基づいてテキストを選択して、取得し、出力するテキスト取得手段422と、テキスト取得手段422が出力したテキストを入力とし言語モデルを学習するためのコーパスを構成して出力する学習コーパス構成手段423と、学習コーパス構成手段423が出力したコーパスを用いて言語モデルを学習し、その結果を出力する言語モデル学習手段424とを含む。検索キー抽出の方法は、例えば、映像を文字認識した結果のテキストを形態素解析し、形態素解析結果の中から自立語を抽出する。テキストの取得方法および学習コーパスの構成方法の具体的な例としては、上記特許文献1等の記載が参照される。
【0028】
再び図7を参照すると、照合手段71は、パラメータ制御手段4が出力する辞書72A、言語モデル73と、予め備えている音響モデル74と、を用いて、分析された音声の音声認識処理を行い、認識結果を出力する。
【0029】
映像の文字認識の例としては、例えば、テレビの映像中の字幕や看板の文字、OHPの文字、ニュースのタイトルなどの文字を認識する。
【0030】
例えば、映像を文字認識した結果「イラク攻撃」が含まれれば、これを検索キーとして、インターネットの検索エンジンを用いて、イラク攻撃の話題のテキストを取得し、言語モデルを学習する。
【0031】
また、例えば映像を文字認識した結果、「ナジャフ」が含まれ、それまでの辞書72に、この単語の登録が存在しない場合、新しく追加する。
【0032】
本実施の形態では、図13に示すように、単語登録手段412として、単語抽出手段411が抽出した単語をそのまま用いる場合を例示したが、たとえば予め各単語に対してそれに関連する単語の集合を定めて関連語テーブルとして保持しておき、単語抽出手段411が抽出した単語に関連する単語も合わせて辞書72に、登録するようにしてもよいことは勿論である。
【0033】
また、図7の言語モデル制御手段42についても、予め元言語モデルを備えておき、辞書制御手段41中の単語抽出手段411(図13参照)が抽出した単語や、その関連語についての言語スコアがよくなるよう、元言語モデル中に格納されたパラメータを更新するような構成としてもよいことは勿論である。
【0034】
さらに、「政治」、「経済」、「スポーツ」等の話題に応じて、複数の辞書、複数の言語モデルを予め用意しておき、文字認識した結果のテキストから話題を推定し、当該話題に対応した辞書、言語モデルを選択して用いることも可能である。
【0035】
本発明の第1の実施の形態の作用効果について説明する。
【0036】
音声とともに記録されていた映像から抽出された単語でそれまで辞書になかった単語を登録することにより、入力音声の内容に即した単語が認識されやすくなる。
【0037】
また、音声とともに記録されていた映像を文字認識して得られたテキストを用い、それから抽出された検索キーにより取得したコーパスを用いて言語モデルの学習を行うため、入力音声の内容に即した適切な言語モデルが学習でき認識性能が向上する。
【0038】
上記した第1の実施の形態に対応する方法について説明する。音声認識方法は、図1の手段による、以下のような処理工程を含む。
【0039】
ステップ1:文字認識手段3により、映像入力手段2からの映像について文字認識を行う。
【0040】
ステップ2:パラメータ制御手段4により、文字認識手段3が出力するテキストを用いて、照合手段7における音声認識処理で用いるパラメータを制御する。照合手段7では、音声分析手段6の出力した音声の分析結果と、パラメータ制御手段4が出力したパラメータを入力として、音声認識処理を行う。
【0041】
次に、本発明の第2の実施の形態について図面を用いて詳細に説明する。
【0042】
図2、図8、図15は、本発明の第2の実施の形態による音声認識装置の構成を示すブロック図である。図2を参照すると、本発明の第2の実施の形態による音声認識装置は、図1に示した前記第1の実施の形態と相違して、認識対象入力手段1の前段に、受信手段9を備え、文字認識手段3のかわりに画像認識手段10を備えている。図8は、パラメータ制御手段4Aおよび照合手段7Aの構成を示す図である。前記第1の実施の形態と相違して、パラメータ制御手段4Aは、音響モデル制御手段43を備えている。図15は、音響モデル制御手段43の構成を示す図である。
【0043】
図2において、受信手段9は、テレビ放送など認識対象の映像とともに記録されている音声とその映像を受信し、それぞれを逐次後段の認識対象入力手段1へ出力する。
【0044】
認識対象入力手段1は、前記第1の実施の形態と同様に動作する。
【0045】
映像入力手段2は、認識対象入力手段1が出力する映像を入力し、後段の画像認識手段で認識が行える形式に処理した映像を出力する。
【0046】
画像認識手段10は、映像入力手段2が出力する映像を入力とし画像認識して画像認識結果を逐次出力する。
【0047】
パラメータ制御手段4Aは、画像認識手段10が出力した画像認識結果を入力とし、照合手段7Aにおける音声認識処理で用いるパラメータを逐次出力する。
【0048】
図8を参照すると、パラメータ制御手段4Aは、前述したように、音響モデル制御手段43を含む。音響モデル制御手段43は、画像認識手段10が出力した画像認識結果と、照合手段7Aに予め用意しておいた複数の音響モデル74Aを入力とし、照合手段71が音声認識処理で用いるパラメータとして、音響モデル74を逐次出力する。
【0049】
図15を参照すると、音響モデル制御手段43は、画像認識手段10が出力した画像認識結果と、照合手段7に予め用意しておいた複数の音響モデル(図8の74A)を入力とし、画像認識結果に基づいて、音響モデルを選択して出力する音響モデル切替手段425を含む。
【0050】
音声入力手段5及び音声分析手段6は、前記第1の実施の形態と同様に動作し、照合手段7Aに、分析音声を、逐次送信する。
【0051】
照合手段7Aは、パラメータ制御手段4Aの出力と音声分析手段6の出力を同期させつつ、入力される分析音声に対し、音響モデルを逐次切り替えながら、あらかじめ備えた辞書72と、言語モデル73を用いて音声認識処理を行い、認識結果を出力する。
【0052】
具体的な例としては、例えば、図2の画像認識手段10は、映像の中から発話している人物を抽出し、その人物の性別や年齢などの属性を判別して、画像認識結果として出力する。例えば、映像の中の登場人物が男性である第1の人物から、女性である第2の人物に変わった場合、画像認識の結果抽出した属性により予め用意しておいた男性音響モデル、女性音響モデル、子供音響モデル、年配音響モデル、汎用音響モデルの中から音響モデルを選択し、男性音響モデルから女性音響モデルに切り替えを行う。映像中に人物が映っていない場合には、「画像認識結果なし」として、汎用音響モデルを用いる。
【0053】
また、別の例としては、図2の画像認識手段10は、例えば、映像のシーンを認識し、それがスタジオか屋外かなどの別を画像認識結果として出力する。
【0054】
例えば映像のシーンがスタジオのニュースから屋外の取材に変わった場合、画像認識の結果抽出したシーンより予め用意しておいた、静かなスタジオ向け音響モデル、耐雑音音響モデル、電話向け音響モデルの中から音響モデルを選択し、静かなスタジオ向け音響モデルから耐雑音音響モデルに切り替えを行う。
【0055】
本発明の第2の実施の形態の作用効果について説明する。
【0056】
本実施の形態では、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ認識性能が向上する。また、音声認識処理を放送の受信と並行して逐次行うことで、リアルタイムに認識結果を出力することが可能となる。
【0057】
上記した第2の実施の形態に対応する方法について説明する。音声認識方法は、図2の各手段による、以下のような処理工程を含む。
【0058】
ステップ1:画像認識手段10が、映像を入力し前記映像を画像認識を行う。
【0059】
ステップ2:パラメータ制御手段4Aは、画像認識結果を用いて、照合手段7Aにおける音声認識処理に用いるパラメータを出力し、照合手段7Aは、音声分析手段6の出力した音声の分析結果と、パラメータ制御手段4Aが出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する。
【0060】
次に、本発明の第3の実施の形態について図面を用いて詳細に説明する。
【0061】
図3、図9、図16は、本発明の第3の実施の形態による音声認識装置の構成を示す図である。図3を参照すると、本発明の第3の実施の形態による音声認識装置は、図1の映像入力手段2のかわりにテキスト情報を含むデータ入力手段11を備え、文字認識手段3のかわりにテキスト抽出手段12を備えている。図9は、本実施の形態のパラメータ制御手段4Bおよび照合手段7Bの構成を示す図である。前記第1の実施の形態と相違して、パラメータ制御手段4Bは、言語モデル制御手段42Bから構成されている。図16は、言語モデル制御手段42Bの構成を示す図である。
【0062】
図3を参照すると、認識対象入力手段1は、音声認識の認識対象、ここでは、テキスト情報を含むデータとともに記録されている音声とそのテキスト情報を含むデータを入力とし音声とテキスト情報を含むデータをそれぞれ出力する。
【0063】
テキスト情報を含むデータ入力手段11は、認識対象入力手段1が出力するテキスト情報を含むデータを入力し、テキスト抽出手段12で処理が行える形にしたテキスト情報を含むデータを出力する。
【0064】
テキスト抽出手段12は、テキスト情報を含むデータ入力手段11が出力するテキスト情報を含むデータを入力としテキスト部分を抽出して出力する。
【0065】
パラメータ制御手段4Bは、テキスト抽出手段12が出力したテキストを入力とし、照合手段7Bにおける音声認識処理で用いるパラメータを出力する。
【0066】
図9を参照すると、パラメータ制御手段7Bは、言語モデル制御手段42Bを含む。言語モデル制御手段42Bは、図9のテキスト抽出手段12が出力したテキストを入力とし、照合手段7Bにおける音声認識処理(照合手段71の処理)で用いるパラメータである言語モデル73を出力する。
【0067】
図16を参照すると、本実施の形態の言語モデル制御手段42Bは、図14の検索キー抽出手段421のかわりに、接続先指定抽出手段426を備えている。接続先指定抽出手段426は、図3のテキスト抽出手段12が出力したテキストを入力とし、該テキストの中から文字列のパターンマッチングにより、接続先指定を抽出して、出力する。
【0068】
テキスト取得手段422Aは、接続先指定抽出手段426が出力した接続先指定を入力とし、その接続先から取得したテキストを出力する。
【0069】
学習コーパス構成手段423及び言語モデル学習手段424は、図14の学習コーパス構成手段423及び言語モデル学習手段424と同様に動作し、言語モデルを出力する。
【0070】
また図3において、音声入力手段5及び音声分析手段6は、前記第1の実施の形態と同様に動作する。
【0071】
図9を参照すると、照合手段71は、元から備える辞書72をそのまま用いる点を除き、前記第1の実施の形態と同様の構成及び動作とされ、認識結果を出力する。
【0072】
テキスト情報を含むデータとともに記録されている音声の例としては、データ付加テレビ番組(連動型データ放送)、字幕放送、OHPとともに記録されている講演音声、MPEG−7などの形式でアノテーションを付加された映像・音声データなどが挙げられる。接続先指定の例としては、インターネットのURL(Uniform Resource Location)等が挙げられる。接続先指定抽出手段の例としては、「http://」の文字列を手がかりとしてURLを抽出する。
【0073】
次に、本発明の第3の実施の形態の作用効果について説明する。
【0074】
本実施の形態では、音声とともに記録されていたテキスト情報を含むデータ中のテキストを用い、それから抽出された接続先指定により取得したコーパスを用いて言語モデルの学習を行うため、入力音声の内容に即した適切な言語モデルが学習でき認識性能が向上する。
【0075】
上記した第3の実施の形態に対応する方法について説明する。音声認識方法は、図3の各手段による、以下のような処理工程を含む。
【0076】
ステップ1:テキスト情報を含むデータからテキスト抽出手段12がテキストを抽出する。
【0077】
ステップ2:前記抽出されたテキストを用いて、パラメータ制御手段4Bは、照合手段7Bにおける音声認識処理に用いるパラメータを出力する。照合手段7Bは、音声分析手段6の出力した音声の分析結果と、パラメータ制御手段4Bが出力したパラメータを入力として、音声認識処理を行う。
【0078】
次に、本発明の第4の実施の形態について図面を用いて詳細に説明する。
【0079】
図4、図10、図15は、本発明の第4の実施の形態による音声認識装置の構成を示すブロック図である。図4を参照すると、本発明の第4の実施の形態による音声認識装置は、図2の受信手段9を備えていず、パラメータ制御手段4Cおよび照合手段7Cが、図10に示される構成を有する点が、前記第2の実施の形態と相違している。図15は、音響モデル制御手段43Cの構成を示す図である。
【0080】
図4を参照すると、本実施の形態においては、認識対象入力手段1は、映像と音声が同時に録画・録音されたビデオデータなど、音声と映像が時間軸の対応付けをもって記録された映像・音声データを入力し、映像信号と音声信号に分離してそれぞれ出力する。映像入力手段2は、前記第2の実施の形態と同様に動作する。
【0081】
画像認識手段10は、映像の各時刻あるいは時間区間に対する画像認識結果を時間タグ付きで出力する。
【0082】
音声入力手段5と音声分析手段6は、前記第2の実施の形態と同様に動作し、音声分析手段6は、入力音声から発話区間を切り出して分析し、各発話区間の分析音声を時間タグ付きで出力する。
【0083】
図10を参照すると、パラメータ制御手段4Cは、時間タグ付き画像認識結果記憶手段44と、時間タグ付き画像認識結果選択手段45と、音響モデル制御手段43Cと、を含む。
【0084】
照合手段7Cは、時間タグ付き分析音声記憶手段75を含む。
【0085】
時間タグ付き画像認識結果記憶手段44は、図4の画像認識手段10が出力した時間タグ付き画像認識結果を記憶する。
【0086】
時間タグ付き分析音声記憶手段75は、図4の音声分析手段6が出力した時間タグ付き分析音声を記憶する。
【0087】
パラメータ制御手段4Cと照合手段7Cは以下のように動作する。
【0088】
照合手段71は、時間タグ付き分析音声記憶手段75から、順に、発話区間ごとの分析音声を取り出す。時間タグ付き画像認識結果選択手段45は、時間タグを手がかりに、取り出された発話区間に対応する画像認識結果を、時間タグ付き画像認識結果記憶手段44から抽出し、出力する。
【0089】
発話区間に対応した時間区間内に画像認識結果が得られていない場合には、たとえば前後に一定時間探索範囲を広げ、その中で発話区間に最も近いものを選ぶこともできる。これにより、発話区間より時間的に後の画像認識結果が対応付けられることもあり得る。
【0090】
音響モデル制御手段43Cは、時間タグ付き画像認識結果選択手段45が出力した画像認識結果を入力とし、前記第2の実施の形態と同様に、予め用意した複数の音響モデル74Aから、音響モデルを一つ選択して出力する。
【0091】
照合手段71は、取り出した発話区間の分析音声に対し、選択された音響モデルを用いて音声認識処理を行い、認識結果を出力する。
【0092】
以上の処理を、時間タグ付き分析音声記憶手段75に記憶された各発話区間の分析音声に対して繰り返す。
【0093】
本発明の第4の実施の形態の作用効果について説明する。
【0094】
本実施の形態では、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて、音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ、認識性能が向上する。あらかじめ画像認識を行って、その結果を時間タグつきで記憶しておくことで、入力音声の話者や質の情報を抽出できる画像が入力音声よりも時間的に遅れて現れる場合にも、対応できる。
【0095】
次に、本発明の第5の実施の形態について図面を用いて詳細に説明する。
【0096】
図1、図11、図17は、本発明の第5の実施の形態による音声認識装置の構成を示すブロック図である。
【0097】
本発明の第5の実施の形態による音声認識装置においては、図1のパラメータ制御手段4および照合手段7が、図11に示される構成のパラメータ制御手段4’および照合手段7’とされている。
【0098】
本発明の第5の実施の形態において、図1の認識対象入力手段1、映像入力手段2、文字認識手段3、音声入力手段5、音声分析手段6は、前記第1の実施の形態と同様とされる。
【0099】
図11を参照すると、パラメータ制御手段4’は、後処理制御手段46を含む。図17は、パラメータ制御手段4’の後処理制御手段46の構成を示す図である。
【0100】
図11を参照すると、照合手段7’は、認識結果候補出力手段76と、認識結果選択手段77と、を含む。
【0101】
図11において、認識結果候補出力手段76は、図1の音声分析手段6が出力した分析音声を入力とし、辞書72、言語モデル73、音響モデル74を参照して照合処理を行い、認識結果候補80を、Nベストリストあるいは単語グラフとして出力する。
【0102】
後処理制御手段46は、図1の文字認識手段3が出力したテキストを入力とし、認識結果選択手段77における音声認識処理で用いる後処理パラメータ81を出力する。
【0103】
認識結果選択手段77は、後処理制御手段46が出力した後処理パラメータ81と、認識結果候補出力手段76が出力した認識結果候補80を入力とし、認識結果候補の再スコア付けを行い、最もスコアのよいものを認識結果として出力する。
【0104】
後処理制御手段46は、図17を参照すると、文字認識手段3(図1参照)の出力したテキストを入力とし、単語抽出手段411により、テキストから単語を抽出して単語リストを作成し、後段の認識結果選択手段77で用いられる後処理パラメータとして出力する。
【0105】
図11において、認識結果選択手段77は、認識結果の再スコア付けの際、認識結果候補中に現れる単語のうち、後処理パラメータとして与えられた単語リストに含まれるものに対してスコアに一定値を加算することで、その単語を含む候補が優先して選択されるようにする。
【0106】
本発明の第5の実施の形態の作用効果について説明する。
【0107】
本実施の形態では、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語を含む認識結果候補を認識結果として出力することができ、認識性能が向上する。
【0108】
次に、本発明の第6の実施の形態について図面を用いて詳細に説明する。
【0109】
図1、図12、図17は、本発明の第6の実施の形態による音声認識装置の構成を示すブロック図である。
【0110】
図12を参照すると、本発明の第6の実施の形態による音声認識装置は、照合手段7”として、図11の認識結果候補出力手段76のかわりに、認識結果出力手段78を備え、図11の認識結果選択手段77のかわりに、認識結果変更手段79を備えている点が、前記第5の実施の形態と相違している。その他は、前記第5の実施の形態と同様の構成及び動作とされている。
【0111】
図12において、認識結果出力手段78は、辞書72中の単語の列で表されるただ1つの認識結果候補を、認識結果(認識結果1)82として出力する。
【0112】
認識結果変更手段79は、後処理パラメータ81として、与えられた単語リスト中に認識結果82中の単語と発音が同じであり、表記の異なる単語が存在すれば、認識結果82中の単語を、当該単語で置き換え、認識結果として、出力する。置換の対象として、発音が同じである単語だけでなく、発音が類似しているものも含めることもできる。
【0113】
次に、本発明の第6の実施の形態の作用効果について説明する。
【0114】
本実施の形態では、最初に出力された認識結果中に含まれる単語を、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語に置換し、認識結果として出力することができ、認識性能が向上する。
【0115】
次に、本発明の第7の実施の形態について図面を用いて詳細に説明する。図5は、本発明の第7の実施の形態による音声翻訳装置の構成を示すブロック図である。
【0116】
図5を参照すると、本発明の第7の実施の形態による音声翻訳装置は、図2に示した前記第2の実施の形態に、翻訳手段14、動作制御手段13、翻訳結果出力手段15が追加されている。
【0117】
動作制御手段13は、画像認識手段10の出力する画像認識結果を入力とし翻訳手段14における翻訳処理の動作を制御する。
【0118】
翻訳手段14は、認識結果出力手段8が出力した認識結果テキストを動作制御手段13の制御に基づいて、他の言語のテキストに変換する翻訳を行い、翻訳結果を出力する。
【0119】
翻訳結果出力手段15は、翻訳手段14が出力した翻訳結果を表示したり、テキストを音声に変換して出力する音声合成を行う。
【0120】
例えば、音声が英語で入力され、それを認識して日本語に翻訳する場合に、画像認識の結果その映像のシーンが病院であることが抽出でき、「doctor」という音声認識結果が得られている場合、翻訳結果は「博士」ではなく「医師」と出力するよう、翻訳処理の動作を制御する。
【0121】
次に、本発明の第7の実施の形態の作用効果について説明する。
【0122】
本実施の形態では、音声とともに記録されていた映像を用いて翻訳処理を制御するため、精度の良い翻訳結果が得られる。
【0123】
上記した第7の実施の形態に対応する方法について説明する。音声認識方法は、図5の各手段による、以下のような処理工程を含む。
【0124】
ステップ1:映像とともに記録されている映像を画像認識する画像認識手段10による画像認識結果に基づき、パラメータ制御手段4Aは、照合手段7Aにおける音声認識処理で用いるパラメータを出力する。
【0125】
ステップ2:照合手段7Aは、音声分析手段6の出力した音声の分析結果と、パラメータ制御手段4Aが出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する。
【0126】
ステップ3:動作制御手段13は、画像認識結果に基づき翻訳手段14に対して翻訳処理の動作を制御する設定を行う。翻訳手段14は、動作制御手段13の制御のもと、認識結果出力手段8の出力を翻訳して出力する。
【0127】
次に、本発明の第8の実施の形態について図面を用いて詳細に説明する。
【0128】
図6は、本発明の第8の実施の形態による音声翻訳装置の構成を示すブロック図である。本発明の第8の実施の形態による音声翻訳装置は、動作制御手段13の制御する対象が、翻訳結果出力手段15である点が、前記第7の実施の形態と相違している。
【0129】
図6を参照すると、動作制御手段13Aは、画像認識結果を入力とし、翻訳結果出力手段15Aの動作を制御する。
【0130】
翻訳結果出力手段15Aは、翻訳手段14が出力した翻訳結果を動作制御手段13Aの制御に基づいて音声合成により音声に変換し出力する。
【0131】
具体的な例としては、映像中の人物が女性であることが画像認識結果で得られている場合、翻訳結果を女声音声合成で出力するよう音声合成の声質のパラメータを設定する。
【0132】
本発明の第8の実施の形態の作用効果について説明する。
【0133】
本実施の形態では、音声とともに記録されていた映像を用いて翻訳結果出力のための音声合成処理を制御するため、人物の属性やシーンにあった自然な出力が得られる。
【0134】
各実施の形態でそれぞれ例を挙げて説明してきたが、音声とともに記録されていた映像やデータの情報を用いてパラメータ制御を行う方法は他の組み合わせも可能である。
【0135】
例えば、テレビのニュース番組の認識において、「スポーツ」「天気」などの話題に応じて複数の辞書・言語モデルを用意しておいて、画像認識で野球中継のシーンであると認識されればスポーツの話題に対応した辞書・言語モデルに切り替えたり、よく番組に登場する人物の音響モデルをあらかじめ用意しておいて、字幕にその人物名が現れれば、それに基づいて音響モデルを切り替えることもできる。
【0136】
また、パラメータ制御手段4Aで制御するパラメータとしては、これまでに挙げたものの他に、照合の際のビームサーチのためのビーム幅や言語重みパラメータなどもある。例えば、画像認識で背景雑音の少ないスタジオのニュースであれば、音響モデルのスコアがより信頼できるとして言語重みパラメータを小さくするなどの制御も可能である。
【0137】
さらに、照合手段7Aとして、複数の音声認識装置を用意し、場面等に応じて適切なものを選択して用いることも可能である。たとえば、音声認識装置として日本語用と英語用を用意し、映像中の人物が日本人かアメリカ人かに応じて使用する音声認識装置を切り替える。
【0138】
上記した第8の実施の形態に対応する方法について説明する。音声認識方法は、図5の各手段による、以下のような処理工程を含む。
【0139】
ステップ1:映像とともに記録されている映像を画像認識する画像認識手段10による画像認識結果に基づき、パラメータ制御手段4Aは、照合手段7Aにおける音声認識処理で用いるパラメータを出力する。
【0140】
ステップ2:照合手段7Aは、音声分析手段6の出力した音声の分析結果と、パラメータ制御手段4Aが出力したパラメータを入力として、音声認識処理を行い音声認識結果を出力する。
【0141】
ステップ3:動作制御手段13は、画像認識結果に基づき翻訳結果出力手段15Aに対して翻訳処理の動作を制御する設定を行う。翻訳結果出力手段15Aは、翻訳手段14が出力した翻訳結果を、動作制御手段13Aの制御に基づいて音声合成により音声に変換し出力する。
【0142】
以上本発明を上記実施形態に即して説明したが、本発明は、上記実施形態の構成にのみ限定されるものでなく、本発明の原理の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【0143】
【発明の効果】
以上説明したように、本発明によれば、音声とともに記録されていた、音声の質や内容に関連する情報を用いて音声認識処理に用いるパラメータを制御することにより、認識性能を向上させる、という効果を奏する。
【0144】
本発明によれば、音声とともに記録されている映像から抽出された単語で、単語を辞書に登録することにより、入力音声の内容に即した単語の認識を容易化し、また音声とともに記録されていた映像を文字認識して得られたテキストを用い、それから抽出された検索キーにより取得したコーパスを用いて言語モデルの学習を行うため、入力音声の内容に即した適切な言語モデルが学習でき認識性能を向上している。
【0145】
また本発明によれば、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ認識性能が向上することができる。また、音声認識処理を放送の受信と並行して逐次行うことで、リアルタイムに認識結果を出力することが可能となる。
【0146】
さらに、本発明によれば、音声とともに記録されていたテキスト情報を含むデータ中のテキストを用い、抽出された接続先指定により取得したコーパスを用いて、言語モデルの学習を行う構成とすることで、入力音声の内容に即した適切な言語モデルが学習でき認識性能を向上させることができる。
【0147】
本発明によれば、音声とともに記録されていた映像を画像認識して得られた画像認識結果に基づいて、音響モデルを切り替えることにより、逐次入力音声の話者や質に即した適切な音響モデルを用意することができ、認識性能を向上させることができる。
【0148】
本発明によれば、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語を含む認識結果候補を認識結果として出力することができ、認識性能を向上させることができる。
【0149】
さらに、本発明によれば、最初に出力された認識結果中に含まれる単語を、音声とともに記録されていた映像を文字認識して得られたテキストから抽出した単語に置換し、認識結果として出力することができ、認識性能をさせることができる。
【0150】
本発明によれば、音声とともに記録されていた映像を用いて翻訳処理を制御するため、精度の良い翻訳結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1、5、6の実施の形態に係る装置の構成を示す図である。
【図2】本発明の第2の実施の形態に係る装置の構成を示す図である。
【図3】本発明の第3の実施の形態に係る装置の構成を示す図である。
【図4】本発明の第4の実施の形態に係る装置の構成を示す図である。
【図5】本発明の第7の実施の形態に係る装置の構成を示す図である。
【図6】本発明の第8の実施の形態に係る装置の構成を示す図である。
【図7】本発明の第6の実施の形態に係る装置の構成を示す図である。
【図8】本発明の第2の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図9】本発明の第3の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図10】本発明の第4の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図11】本発明の第5の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図12】本発明の第6の実施の形態における、パラメータ制御手段および照合手段の具体的な構成の一例を示す図である。
【図13】図7における辞書制御手段の具体的な構成の一例を示す図である。
【図14】図7における言語モデル制御手段の具体的な構成の一例を示す図である。
【図15】図8における音響モデル制御手段の具体的な構成の一例を示す図である。
【図16】図9における言語モデル制御手段の具体的な構成の一例を示す図である。
【図17】図11および図12における後処理制御手段の具体的な構成の一例を示す図である。
【符号の説明】
1 認識対象入力手段
2 映像入力手段
3 文字認識手段
4、4A、4B、4C、4’、4” パラメータ制御手段
5 音声入力手段
6 音声分析手段
7、7A、7B、7C、7’、7” 照合手段
8 認識結果出力手段
9 受信手段
10 画像認識手段
11 テキスト情報を含むデータ入力手段
12 テキスト抽出手段
13、13A 動作制御手段
14 翻訳手段
15、15A 翻訳結果出力手段
41 辞書制御手段
42、42B、言語モデル制御手段
43 音響モデル制御手段
44 時間タグ付き画像認識結果記憶手段
45 時間タグ付き画像認識結果選択手段
46 後処理制御手段
71 照合手段
72 元の辞書
72A 辞書
73 言語モデル
74 音響モデル
75 時間タグ付き分析結果記憶手段
76 認識結果候補出力手段
77 認識結果選択手段
78 認識結果出力手段
79 認識結果変更手段
80 認識結果候補
81 後処理パラメータ
82 認識結果
411 単語抽出手段
412 単語登録手段
421 検索キー抽出手段
422、422A テキスト取得手段
423 学習コーパス構成手段
424 言語モデル学習手段
425 音響モデル切替手段
426 接続先指定抽出手段

Claims (25)

  1. 映像とともに記録されている音声を認識する処理を行うにあたり、前記映像から文字認識して得たテキストを用いて、音声認識処理に用いるパラメータを制御する手段を備えている、ことを特徴とする音声認識装置。
  2. テキスト情報を含むデータとともに記録されている音声を認識する処理を行うにあたり、前記テキスト情報を含むデータ中のテキストを用いて、音声認識処理に用いるパラメータを制御する手段を備えている、ことを特徴とする音声認識装置。
  3. 映像とともに記録されている音声を認識する処理を行うにあたり、前記映像を画像認識して得た画像認識結果を用いて、音声認識処理に用いるパラメータを制御する手段を備えている、ことを特徴とする音声認識装置。
  4. 映像とともに記録されている音声、又は、テキスト情報を含むデータとともに記録されている音声を認識して認識結果テキストに変換する手段と、
    他の言語のテキストに変換して翻訳する手段と、
    変換したテキストを表示又は音声合成で出力する手段と、
    前記映像を文字認識して得たテキスト、前記テキスト情報を含むデータ中のテキスト、前記映像を画像認識して得た認識結果に応じて、翻訳処理、あるいは音声合成処理の動作を制御する手段と、
    を備えている、ことを特徴とする音声認識装置。
  5. 映像とともに記録されている音声を認識する方法であって、
    前記映像を文字認識するステップと、
    前記文字認識で得られたテキストを用いて、音声認識処理に用いるパラメータを制御するステップと、
    を含む、ことを特徴とする音声認識方法。
  6. テキスト情報を含むデータとともに記録されている音声を認識する方法であって、
    前記テキスト情報を含むデータからテキストを抽出するステップと、
    前記抽出されたテキストを用いて、音声認識処理に用いるパラメータを制御するステップと、
    を含む、ことを特徴とする音声認識方法。
  7. 映像とともに記録されている音声を認識する方法であって、
    前記映像を入力し前記映像を画像認識するステップと、
    前記画像認識結果を用いて、音声認識処理に用いるパラメータを制御するステップと、
    を含む、ことを特徴とする音声認識方法。
  8. 前記画像認識結果に基づき、音声認識結果の翻訳処理、又は翻訳出力の動作を制御するステップを含む、ことを特徴とする請求項7記載の音声認識方法。
  9. 映像とともに記録されている音声、又は、テキスト情報を含むデータとともに記録されている音声を認識し、認識結果を、テキストに変換するステップと、
    前記テキストを他の言語のテキストに変換して翻訳するステップと、
    前記変換したテキストを表示又は音声合成で出力するステップと、
    を含み、
    さらに、
    前記映像を文字認識して得たテキスト、前記テキスト情報を含むデータ中のテキスト、及び、映像を画像認識して得た認識結果のうちの、少なくとも1つに応じて、翻訳処理及び又は音声合成処理の動作を制御するステップを含む、ことを特徴とする音声認識方法。
  10. 映像とともに記録されている音声の認識処理を行う手段を備えた音声認識装置であって、
    前記映像を文字認識してテキストを抽出する文字認識手段と、
    前記文字認識手段で抽出されたテキストに応じて前記音声認識処理で用いるパラメータを制御するパラメータ制御手段と、
    を有する、ことを特徴とする音声認識装置。
  11. テキスト情報を含むデータとともに記録されている音声の認識処理を行う手段を備えた音声認識装置であって、
    前記データ中のテキストを抽出するテキスト抽出手段と、
    前記テキスト抽出手段で抽出されたテキストに応じて前記音声認識処理に用いるパラメータを制御するパラメータ制御手段と、
    を有する、ことを特徴とする音声認識装置。
  12. 映像とともに記録されている音声の認識処理を行う手段を備えた音声認識装置であって、
    前記映像を画像認識してその認識結果を出力する画像認識手段と、
    前記画像認識手段での画像認識結果に応じて前記音声認識処理に用いるパラメータを制御するパラメータ制御手段と、
    を有する、ことを特徴とする音声認識装置。
  13. 前記画像認識手段が、前記映像中の人物の属性を抽出する手段を備えている、ことを特徴とする請求項12に記載の音声認識装置。
  14. 前記画像認識手段が、前記映像のシーンを認識する手段を備えている、ことを特徴とする請求項12に記載の音声認識装置。
  15. 前記音声認識処理に用いるパラメータが、
    認識単位の音響的特徴を記述した音響モデルを含み、
    前記パラメータ制御手段が、前記音響モデルの、作成、更新、及び、切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項10乃至14のいずれか一に記載の音声認識装置。
  16. 前記音声認識処理に用いるパラメータが、
    認識対象の単語および該単語の発音を記述した認識辞書と、
    前記認識対象の単語間の接続制約を記述した言語モデルと、
    を含み、
    前記パラメータ制御手段が、
    前記認識辞書と前記言語モデルのうち少なくとも一つについて、作成、更新、及び切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項10乃至14のいずれか一に記載の音声認識装置。
  17. 前記パラメータ制御手段が、前記抽出されたテキストを入力し前記テキストから検索キーとなる文字列を抽出する検索キー抽出手段と、
    蓄積されたテキストコーパスセットから前記検索キーを用いてテキストコーパスを選択、取得するテキストコーパス取得手段と、
    を有し、
    前記音声認識処理に用いるパラメータが、
    認識対象の単語および該単語の発音を記述した認識辞書と、
    前記認識対象の単語間の接続制約を記述した言語モデルと、
    を含み、
    前記パラメータ制御手段は、前記テキストコーパスを用いて、前記認識辞書と前記言語モデルのうちの少なくとも一つについて、作成、更新、及び、切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項10又は11に記載の音声認識装置。
  18. 前記パラメータ制御手段が、前記抽出したテキストを入力し前記テキストからハイパーリンクの接続先を指定している情報を抽出する接続先指定抽出手段と、
    前記接続先からテキストコーパスを取得するテキストコーパス取得手段と、
    を有し、
    前記音声認識処理に用いるパラメータが、
    認識対象の単語および該単語の発音を記述した認識辞書と、
    前記認識対象の単語間の接続制約を記述した言語モデルと、
    を含み、
    前記パラメータ制御手段は、前記テキストコーパスを用いて前記認識辞書と前記言語モデルのうち少なくとも一つについて、作成、更新、及び切り替えのいずれかを行なう手段を備えている、ことを特徴とする請求項10又は11に記載の音声認識装置。
  19. 前記音声認識処理を行う手段が、
    複数の認識結果候補を出力する認識結果候補出力手段と、
    前記認識結果候補から最適な認識結果を選択する認識結果選択手段と、
    を有し、
    前記パラメータ制御手段が、前記認識結果候補選択手段の動作を決定するパラメータを制御する、ことを特徴とする請求項10乃至14のいずれか一に記載の音声認識装置。
  20. 前記音声認識処理を行う手段が、
    認識結果を出力する認識結果出力手段と、
    前記認識結果を変更する認識結果変更手段と、
    を有し、
    前記パラメータ制御手段が、前記認識結果変更手段の動作を決定するパラメータを制御する、ことを特徴とする請求項10乃至14のいずれか一に記載の音声認識装置。
  21. 前記音声と、前記映像又は前記テキスト情報を含むデータとが時間軸の対応付けを持って記録されており、
    前記パラメータ制御手段が、前記時間軸の対応付けを利用して、音声認識対象区間に応じて、前記パラメータを動的に制御する手段を備えている、ことを特徴とする請求項10乃至20のいずれか一に記載の音声認識装置。
  22. 前記抽出したテキスト、あるいは前記画像認識結果を時間情報と対応付けて保持する保持手段を有し、
    前記パラメータ制御手段が、音声認識対象区間に応じて前記時間軸の対応付けを利用して、前記保持手段から保持された情報を読み出し、前記読み出した情報に応じて前記パラメータを動的に制御する手段を備えている、ことを特徴とする請求項21に記載の音声認識装置。
  23. 前記音声と、前記映像又は前記テキスト情報を含むデータとを受信する受信手段を有し、
    前記音声認識処理を受信と、並行して、逐次行なう、ことを特徴とする請求項10乃至22のいずれか一に記載の音声認識装置。
  24. 映像とともに記録されている音声、又は、テキスト情報を含むデータとともに記録されている音声を、認識し、認識結果テキストに変換する音声テキスト変換手段と、
    前記認識結果テキストを、他の言語のテキストに変換する翻訳手段と、
    前記変換されたテキストを表示する表示手段、及び/又は、前記変換されたテキストを音声に変換して出力する音声合成手段と、
    を有し、
    前記映像を文字認識して得たテキスト、前記テキスト情報を含むデータ中のテキスト、前記映像を画像認識して得た認識結果のうちのいずれかに応じて、前記翻訳手段、及び/又は、前記音声合成手段の動作を制御する動作制御手段を有する、ことを特徴とする音声翻訳装置。
  25. 前記映像とともに記録されている音声を入力し映像と音声をそれぞれ出力する手段と、
    前記音声を入力する音声入力手段と、
    前記入力された音声を分析する音声分析手段と、
    を備え、
    前記音声の認識処理を行う手段が、
    前記音声分析手段からの分析結果と、前記パラメータ制御手段が出力したパラメータを入力し、音声認識用の辞書、単語間の接続制約情報、認識単位の音響的特徴情報のうちのいずれか1つ又は複数を、前記パラメータに基づき可変に設定する手段と、
    音声認識用の辞書、単語間の接続制約情報、認識単位の音響的特徴情報のうちの少なくとも1つを用いて、前記音声分析手段で分析された音声認識処理を行う照合手段と、
    を備えている、ことを特徴とする請求項10乃至12のいずれか一に記載の音声認識装置。
JP2003127928A 2003-05-06 2003-05-06 映像情報を用いた音声認識装置及び方法 Expired - Fee Related JP4100243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003127928A JP4100243B2 (ja) 2003-05-06 2003-05-06 映像情報を用いた音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003127928A JP4100243B2 (ja) 2003-05-06 2003-05-06 映像情報を用いた音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2004333738A true JP2004333738A (ja) 2004-11-25
JP4100243B2 JP4100243B2 (ja) 2008-06-11

Family

ID=33504263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003127928A Expired - Fee Related JP4100243B2 (ja) 2003-05-06 2003-05-06 映像情報を用いた音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP4100243B2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
JP2007225952A (ja) * 2006-02-24 2007-09-06 Casio Comput Co Ltd 画像処理装置および画像処理のプログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
JP2012103428A (ja) * 2010-11-09 2012-05-31 Murata Mach Ltd 受音装置、音声認識システム、及び作業指示システム
JP2014122978A (ja) * 2012-12-20 2014-07-03 Casio Comput Co Ltd 撮像装置、音声認識方法、及びプログラム
JP2017062349A (ja) * 2015-09-24 2017-03-30 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム
JP2018169697A (ja) * 2017-03-29 2018-11-01 西日本電信電話株式会社 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
WO2020246033A1 (ja) * 2019-06-07 2020-12-10 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
WO2021080190A1 (ko) * 2019-10-25 2021-04-29 삼성전자 주식회사 음성 서비스 제공 방법 및 장치
WO2021118180A1 (ko) * 2019-12-09 2021-06-17 김경철 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법
WO2021118179A1 (ko) * 2019-12-09 2021-06-17 김경철 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법
WO2021118184A1 (ko) * 2019-12-09 2021-06-17 김경철 사용자 단말 및 그 제어방법
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
JP2023005038A (ja) * 2021-06-28 2023-01-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102041618B1 (ko) * 2019-02-25 2019-11-06 (주)미디어코퍼스 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad
JP2007225952A (ja) * 2006-02-24 2007-09-06 Casio Comput Co Ltd 画像処理装置および画像処理のプログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system
JP2012103428A (ja) * 2010-11-09 2012-05-31 Murata Mach Ltd 受音装置、音声認識システム、及び作業指示システム
JP2014122978A (ja) * 2012-12-20 2014-07-03 Casio Comput Co Ltd 撮像装置、音声認識方法、及びプログラム
JP2017062349A (ja) * 2015-09-24 2017-03-30 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム
JP2018169697A (ja) * 2017-03-29 2018-11-01 西日本電信電話株式会社 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
JPWO2020246033A1 (ja) * 2019-06-07 2020-12-10
JP7173327B2 (ja) 2019-06-07 2022-11-16 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム
WO2020246033A1 (ja) * 2019-06-07 2020-12-10 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
JP7242520B2 (ja) 2019-07-11 2023-03-20 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
WO2021080190A1 (ko) * 2019-10-25 2021-04-29 삼성전자 주식회사 음성 서비스 제공 방법 및 장치
WO2021118180A1 (ko) * 2019-12-09 2021-06-17 김경철 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법
WO2021118179A1 (ko) * 2019-12-09 2021-06-17 김경철 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법
WO2021118184A1 (ko) * 2019-12-09 2021-06-17 김경철 사용자 단말 및 그 제어방법
JP2023005038A (ja) * 2021-06-28 2023-01-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム
JP7369739B2 (ja) 2021-06-28 2023-10-26 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム

Also Published As

Publication number Publication date
JP4100243B2 (ja) 2008-06-11

Similar Documents

Publication Publication Date Title
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US11922924B2 (en) Multilingual neural text-to-speech synthesis
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US5832428A (en) Search engine for phrase recognition based on prefix/body/suffix architecture
JP4100243B2 (ja) 映像情報を用いた音声認識装置及び方法
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP4439431B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
WO2004044887A1 (ja) 音声認識用辞書作成装置および音声認識装置
US11093110B1 (en) Messaging feedback mechanism
CN1559042A (zh) 多语言转录系统
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP2008083855A (ja) 機械翻訳を行う装置、システム、方法およびプログラム
JP5296598B2 (ja) 音声情報抽出装置
CN110870004B (zh) 基于音节的自动语音识别
US20130080384A1 (en) Systems and methods for extracting and processing intelligent structured data from media files
JP2011504624A (ja) 自動同時通訳システム
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
JP3639776B2 (ja) 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2002062891A (ja) 音素割当て方法
CN112541324A (zh) 一种标点符号添加方法、装置及电子设备
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080310

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4100243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees