JP2003345379A6 - 音声映像変換装置及び方法、音声映像変換プログラム - Google Patents
音声映像変換装置及び方法、音声映像変換プログラム Download PDFInfo
- Publication number
- JP2003345379A6 JP2003345379A6 JP2003068440A JP2003068440A JP2003345379A6 JP 2003345379 A6 JP2003345379 A6 JP 2003345379A6 JP 2003068440 A JP2003068440 A JP 2003068440A JP 2003068440 A JP2003068440 A JP 2003068440A JP 2003345379 A6 JP2003345379 A6 JP 2003345379A6
- Authority
- JP
- Japan
- Prior art keywords
- unit
- video
- data
- language
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 56
- 238000000034 method Methods 0.000 title claims description 36
- 230000003111 delayed effect Effects 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims description 118
- 230000001360 synchronised effect Effects 0.000 claims description 57
- 238000004891 communication Methods 0.000 claims description 15
- 230000001934 delay Effects 0.000 claims description 9
- 230000008921 facial expression Effects 0.000 claims description 8
- 235000016496 Panda oleosa Nutrition 0.000 claims description 4
- 240000000220 Panda oleosa Species 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 9
- 208000032041 Hearing impaired Diseases 0.000 description 10
- 230000008859 change Effects 0.000 description 8
- 230000002146 bilateral effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Abstract
【課題】話者の声を復唱者が復唱した音声を認識し、話者の映像を遅らせて文字とともに表示することにより、話者の話したことを理解しやすくする。
【解決手段】映像遅延部2は、カメラ1に入力された映像を遅延した遅延映像データを出力する。第1音声認識部5は、第1音声入力部3に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換する。第2音声認識部6は、第2音声入力部4に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換する。レイアウト設定部8は、第1及び第2音声認識部5、6からの第1及び第2言語データ及び映像遅延部2からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、表示映像を生成し、文字映像表示部9に表示する。
【選択図】図1
【解決手段】映像遅延部2は、カメラ1に入力された映像を遅延した遅延映像データを出力する。第1音声認識部5は、第1音声入力部3に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換する。第2音声認識部6は、第2音声入力部4に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換する。レイアウト設定部8は、第1及び第2音声認識部5、6からの第1及び第2言語データ及び映像遅延部2からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、表示映像を生成し、文字映像表示部9に表示する。
【選択図】図1
Description
【0001】
【発明の属する技術分野】本発明は、音声映像変換装置及び方法、音声映像変換プログラムに係る。
【0002】
【従来の技術】従来、聴覚障害者が参加しうる会議の支援手段としては、例えば、字幕放送や要約筆記がある。一方、コンピュータによる音声自動認識技術は現時点では、使用する前にあらかじめ使用者の音声で幾つかの単語や文章を読み上げて音声認識装置に入力し、使用者の音声の特徴を辞書に登録するという手法をとる。このように話者の音声を登録し、話題を限ったとしても、最高の認識率はせいぜい95%程度である。本発明に抵触する論文等の報告は本発明者は発見していないが、NHKが放送映像に字幕を付ける際に復唱者による音声認識方式を採り入れている。また、プレスリリース(2003年1月20日)により、(株)ダイキン工業が「音声認識によるノンリニア文字おこしソフト(mospy)を新発売」との記事が発表される。これは映像と音声を一時停止と再生を繰り返しながら復唱し、音声認識装置を介して文字化するソフトウェアである。
【0003】
【発明が解決しようとする課題】しかしながら、このような従来の字幕放送や要約筆記については、異言語対応になっていないこと、字幕作りや要約作りには熟練を要すること、また、その熟練者が少ないことなど、普及に向けて大きな障壁があった。一方、通常の音声自動認識技術に関しては、現在のところ誰の声でも正しく認識する不特定話者の音声認識は精度が極めて低く、雑音の多い環境下では使用できない場合が想定される。また、音声の認識時間が1秒ほどかかり、また、通訳者を介するとさらに2〜3秒かかってしまう。よって、音声認識された結果である文字列と話者の表情等に大きな時間差が生じ、そのため、話し手の唇の動きや表情、さらに手話などの視覚データを文意の理解に利用できなくなる。さらに、日本語の場合は、多くの同音意義語の漢字があるため前後関係から文意を推定できないと誤変換してしまう。現在の技術では文意を人工的に把握することは困難であり、漢字の選択は音声認識装置の使用者に任せている。また、現在の音声認識技術では、話者や話題が変わると途端に認識率が低下する。使用環境も静かなところに限られ、しかも、マイクロホンも特定のものを使用し、いつも口元の同じ位置に設置しなければならない。このように、従来は、音声認識装置を聴覚障害者のための会議支援や通訳支援に利用することはむずかしかった。さらに、上述のNHK方式及びダイキン工業社製品にはインターネット等の電気通信回路を利用していないので、遠隔地や在宅地にいる通訳者、復唱者によりユーザを支援するサービスを提供することはできなかった。
【0004】本発明は、以上の点に鑑み、不特定話者の声を復唱者が自己の声に変換し音声認識装置を介して文字に変換するとともに、話者の表情などの映像を遅らせて文字とともにスクリーンなどに表示することにより、聴覚障害者などが話者の話したことを理解しやすくするための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。また、本発明は、聴覚障害者が出席するような国際会議、多国間・二国間会議等の会議において、講演者あるいは通訳者の音声を復唱者が復唱して音声認識装置に入力し、その結果である文字列を講演者の映像とともにスクリーンに表示するようにした会議支援のための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。さらに、本発明は、異種言語を使って行われる国際会議等の通訳および会議の即時印刷(情報補償)、聴覚障害者等が参加する会議や授業の支援、電話から復唱者へ声を転送し文字化された情報をユーザに提供することを目的とする。また、本発明は、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。また、本発明は、さらにインターネットなどの電気通信回線を用いて通信を行う電気通信回路により、話者の声と映像を遠隔地や在宅地にいる通訳者、復唱者及び修正者に転送する手段を付加することにより、ユーザがどこにいても本システムを利用できるようにすることを目的とする。本発明は、介在する復唱者や通訳者が在宅ビジネスとして利用すること、さらに、外出の難しい在宅の障害者が復唱者になることにより就労を支援することを目的とする。
【0005】
【課題を解決するための手段】本発明の第1の解決手段によると、話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容が入力される第2音声入力部と、それぞれ、前記第1及び第2音声入力部から入力された第1及び第2言語の内容を認識して第1及び第2可視言語データに変換して出力する第1及び第2音声認識部と、前記第1及び第2音声認識部から出力された第1及び第2可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部からの出力に従い、第1及び第2可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第1及び第2音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、前記第1及び第2音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置が提供される。
【0006】本発明の第2の解決手段によると、話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、話者又は通訳者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、第1音声認識部は、前記第1音声入力部から入力された第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部から出力された第1可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部からの出力に従い、第1可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第1音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、前記第1音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置が提供される。
【0007】本発明の第3の解決手段によると、話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法又はプログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部及び映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声入力部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、第2音声入力部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を第2復唱者が復唱し、その復唱された第2言語の内容を入力するステップと、第2音声認識部は、第2音声入力部に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法、及び、これら各ステップをコンピュータに実行させるためのプログラムが提供される。
【0008】本発明の第4の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換又はプログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声入力部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従い、第1音声認識部からの第1言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法、及び、これら各ステップをコンピュータに実行させるためのプログラムが提供される。
【0009】本発明の第5の解決手段によると話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部の各種設定を行うための第1入力部と、前記第1音声認識部及び前記第1入力部を制御する第1処理部とを有する第1認識装置と、話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容を認識して第2可視言語データに変換して出力する第2音声認識部と、前記第2音声認識部の各種設定を行うための第2入力部と、前記第2音声認識部及び前記第2入力部を制御する第2処理部とを有する第2認識装置と、前記第1及び第2認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、前記第1及び第2認識装置から出力された第1及び第2可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第3入力部と、前記映像遅延部、前記第3入力部、前記レイアウト設定部の各部を制御する第3処理部とを有する音声映像変換装置が提供される。本発明の第6の解決手段によると話者又は通訳者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部の各種設定を行うための第1入力部と、前記第1音声認識部及び前記第1入力部を制御する第1処理部とを有する第1認識装置と、前記第1認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、前記第1認識装置から出力された第1可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第3入力部と、前記映像遅延部、前記第3入力部、前記レイアウト設定部の各部を制御する第3処理部とを有する音声映像変換装置が提供される。本発明の第7の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、第1及び第2処理部、第3処理部は、それぞれ、第1及び第2入力部、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部、映像遅延部の設定を行うステップと、第3処理部は、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、映像遅延部は、第3処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声認識部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、第2音声認識部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を復唱した第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、レイアウト設定部は、第3処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法が提供される。本発明の第8の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、第1及び第3処理部は、それぞれ、第1及び第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、第3処理部は、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、映像遅延部は、第3処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声認識部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、レイアウト設定部は、第3処理部による設定及び制御に従い、第1音声認識部からの第1可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法が提供される。
【0010】
【発明の実施の形態】以下、図面を用いて本発明の実施の形態を詳細に説明する。
1.第1の実施の形態
図1は、音声映像変換装置の第1の実施の形態の概略構成図である。本実施の形態は、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、カメラ1、映像遅延部2、第1及び第2音声入力部3、4、第1及び第2音声認識部5、6、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10、処理部11を備える。
【0011】カメラ1は、話者Aの表情映像を撮影する。映像遅延部2は、カメラ1からの映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する。映像遅延部2は、話者の表情映像を認識された文字と一緒に表示して、受け手の言語理解の補助となるようにするために所定の映像遅延時間を与える。この映像遅延時間は、聴覚障害者等の会議参加者の読話能力、話者A・復唱者B又はC・通訳者Dの話すスピードや能力等に応じて、適宜変更することができる。また、映像遅延部2は、話者Aの表情などの映像を拡大・縮小等の適宜の画像処理を行うようにしてもよい。
【0012】第1音声入力部3は、マイクロフォン等で構成され、話者Aの音声を聞き取った特定の第1復唱者Bの音声による内容が入力される。一方、第2音声入力部4は、話者Aが話す内容を通訳者Dが通訳し、その通訳者Dの音声を聞き取った特定の第2復唱者Cの音声による内容が入力される。復唱者B又はCは、会議内に設けた静かな場所で、説話マイクロホン等の第1又は第2音声入力部3、4を通して音声入力することで、環境雑音やマイクロホンの影響を解決することもできる。
【0013】第1及び第2音声認識部5、6は、それぞれ第1及び第2音声入力部3、4から入力された音声を認識して文字データ、表意データ等の第1及び第2可視言語データに変換して出力する。この例では、第1音声認識部5は、話者Aが話す第1言語(例:日本語)を聞いた第1復唱者Bにより第1言語で復唱された内容が入力され、第1言語の可視言語データ(例:日本語文字列)を出力する。一方、第2音声認識部6は、話者Aが話す第1言語(例:日本語)を聞いた通訳者Dが第2言語(例:英語などの外国語)に通訳して、さらに、通訳者Dが話す第2言語を聞いた第2復唱者Cにより第2言語で復唱された内容が入力され、第2言語の可視言語データ(例:英語などの外国語文字列)を出力する。
【0014】第1及び/又は第2音声認識部5、6は、音声を第1復唱者Bが復唱した音声、通訳者Dの音声を第2復唱者Cが復唱した音声のいずれか又は両方を選択できるようにしてもよい。第1及び/又は第2音声認識部5、6は、復唱者の音声を認識するように設定されており、話者Aが話す話題又は会議の内容等により、第1及び/又は第2復唱者B、Cが第1及び/又は第2音声認識装置5、6に登録されている言語データベースを選択できる選択部を備えるようにしてもよい。
【0015】さらに、第1及び/又は第2音声認識部5、6は、仮名−漢字変換において誤変換される確率を計算する誤変換確率計算部と、誤変換確率計算部で計算された確率に応じて漢字出力か仮名文字出力かを決定する出力決定部を備えるようにしてもよい。第1及び/又は第2音声認識部5、6は、日本語の同音意義語の漢字処理に関しては、誤認識の確率を音声認識前に計算し、その確率が高い場合には仮名文字で表示するようにすることもできる。また、第1及び/又は第2音声認識部5、6に登録されていない言葉は、第1及び/又は第2復唱者B、Cの判断により仮名文字で表示するようにしてもよい。
【0016】文字表示部7は、第1音声認識部5により出力された第1言語の可視言語データを可視表示する。通訳者Dは、文字表示部7により表示された第1可視言語データを見て通訳するようにしても良い。
【0017】レイアウト設定部8は、第1及び第2音声認識部5、6により認識された結果として出力された第1及び第2可視言語データと、映像遅延部2により遅延された話者Aの遅延映像データとを入力し、文字映像表示部9への表示状態を設定する。処理部11は、文字映像表示部9に表示される第1及び第2可視言語データ(文字データ)及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、1行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれか又は複数を設定し、レイアウト設定部8は、処理部11による設定に応じて第1及び第2可視言語データ及び遅延映像データについての拡大・縮小等の適宜の画像処理を実行し、表示画像を生成する。
【0018】文字映像表示部9は、レイアウト設定部8により設定及び生成された出力に従い、第1及び第2音声認識部5、6により認識された結果として出力された第1及び第2可視言語データと、映像遅延部2により遅延された話者Aの遅延映像データとを組み合わせて表示する。入力部10は、第1及び第2音声認識部5、6、映像遅延部2、レイアウト設定部8等の各部の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部11は、小型コンピュータであって、第1及び第2音声認識部5、6、映像遅延部2、入力部10、レイアウト設定部8等の各部を制御する。
【0019】図2に、処理部による音声変換処理の第1の実施の形態フローチャートを示す。処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、第1、第2音声認識部5、6及び映像遅延部2の設定を行う(S01)。第1、第2音声認識部5、6の設定では、例えば、漢字誤認識率の閾値、使用する言語データベース等を設定する。映像遅延部2の設定では、例えば、話者画像の遅延時間の設定又は選定を行う。さらに、処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部8の設定を行う(S03)。レイアウト設定部8の設定では、文字映像表示部9に表示される第1、第2可視言語データ及び遅延映像データの表示状態・レイアウトを設定する。可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置、また、遅延映像データについては、話者画像の大きさ、表示位置等がそれぞれ適宜設定される。
【0020】カメラ1は、話者Aの映像を入力する(S05)。映像遅延部2は、処理部11による設定及び制御に従い、カメラ1に入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力する(S07)。
【0021】第1音声入力部3は、第1復唱者Bによる音声を入力する(S11)。第1音声認識部5は、処理部11による設定及び制御に従い、第1音声入力部3に入力された第1復唱者Bによる第1言語を認識して第1可視言語データ(例:日本語文字列)に変換する(S13)。さらに、必要に応じて、文字表示部7は、第1音声認識部5から出力された第1可視言語データを表示する(S15)。
【0022】第2音声入力部4は、通訳者Dが、話者音声及び/又は文字表示部7に表示された第1可視言語データに基づき通訳した音声を第2復唱者Cが復唱し、その復唱された音声を入力する(S17)。第2音声認識部6は、処理部11による設定及び制御に従い、第2音声入力部4に入力された第2復唱者Cによる第2言語を認識して第2可視言語データ(例:外国語文字列)に変換する(S19)。
【0023】レイアウト設定部8は、処理部11による設定及び制御に従い、第1及び第2音声認識部5、6からの第1及び第2可視言語データ及び映像遅延部2から遅延映像データを入力し、それらデータの表示レイアウトを設定し、必要に応じて適宜の画像処理により表示画像を生成及び出力する(S21)。文字映像表示部9は、レイアウト設定部8からの出力に従い、第1及び第2可視言語データ及び映像遅延部2を適宜表示する(S23)。
【0024】処理部11は、設定変更があるときはステップS01に戻り処理を実行する(S25)。また、処理部11は、設定変更が無い場合、話者A変更が無いときはステップS03の後の処理に移り、一方、話者A変更があるときは、処理を終了して(S27)、改めて処理を実行することができる。
【0025】2.第2の実施の形態
図3は、音声映像変換装置の第2の実施の形態の概略構成図である。本実施の形態は、特に、国内会議、二カ国間会議等の会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、カメラ1、映像遅延部2、第1及び第2音声入力部3、4、第1音声認識部5、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10、処理部11、及び、選択部20を備える。
【0026】第1の実施の形態と比較すると、第2音声認識部が省略され、選択部20がさらに備えられた点が、異なるが、他の構成及び動作は同様である。なお、第2音声入力部及び選択部20は、必要に応じて、さらに省略してもよい。
【0027】図4に、処理部による音声変換処理の第2の実施の形態フローチャートを示す。第1の実施の形態と比較すると、主に、ステップS17〜S19が省略された点が異なる。また、第1音声入力部3には、話者の音声を復唱した復唱者Bの音声か、話者の音声を通訳した通訳者Dの音声を復唱者Cが復唱した音声かのいずれかが入力される。
【0028】処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部5及び映像遅延部2及び選択部20の設定を行う(S101)。なお、選択部20が省略されているときは、その設定は不要である。第1音声認識部5の設定では、例えば、漢字誤認識率の閾値、使用する言語データベース等を設定する。映像遅延部2の設定では、例えば、話者画像の遅延時間の設定又は選定を行う。さらに、処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部8の設定を行う(S103)。レイアウト設定部8の設定では、文字映像表示部9に表示される第1可視言語データ(この例では、日本語文字列又は外国語文字列)及び遅延映像データの表示状態・レイアウトを設定する。可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置、また、遅延映像データについては、話者画像の大きさ、表示位置等がそれぞれ適宜設定される。
【0029】カメラ1は、話者Aの映像を入力する(S105)。映像遅延部2は、処理部11による設定及び制御に従い、カメラ1に入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力する(S107)。
【0030】第1音声入力部3は、第1復唱者B又は第2復唱者Cによる音声を入力する(S111)。第1音声認識部5は、処理部11による設定及び制御に従い、第1音声入力部3に入力された第1復唱者B又は第2復唱者Cによる第1言語(この例では、日本語又は外国語)を認識して第1可視言語データ(この例では、日本語文字列又は外国語文字列)に変換する(S113)。さらに、必要に応じて、文字表示部7は、第1音声認識部5から出力された第1可視言語データを表示する(S115)。
【0031】レイアウト設定部8は、処理部11による設定及び制御に従い、第1音声認識部5からの第1可視言語データ及び映像遅延部2から遅延映像データを入力し、それらデータの表示レイアウトを設定し、必要に応じて適宜の画像処理により表示画像を生成及び出力する(S121)。文字映像表示部9は、レイアウト設定部8からの出力に従い、第1可視言語データ及び映像遅延部2を適宜表示する(S123)。
【0032】処理部11は、設定変更があるときはステップS101に戻り処理を実行する(S125)。また、処理部11は、設定変更が無い場合、話者A変更が無いときはステップS103の後の処理に移り、一方、話者A変更があるときは、処理を終了して(S127)、改めて処理を実行することができる。
【0033】3.第3の実施の形態
図5は、音声映像変換装置の第3の実施の形態の概略構成図である。本実施の形態は、話者の音声言語情報を復唱者などの第3者が文字言語情報に変換し、それらの言語情報と話者による非言語情報とを電気通信回路を介して呈示することで、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うものである。本実施の形態は、第1の実施の形態と同様に、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、話者用装置100、通訳者用装置200、第1及び第2復唱者用装置300及び400、第1及び第2認識装置500及び600、表示装置700、電気通信回路800を備える。話者用装置100は、カメラ1と、必要に応じてマイクを備える。通訳者用装置200は、受話器及びマイクを備える。第1及び第2復唱者用装置300及び400は、それぞれ、第1及び第2音声入力部3及び4、受話器を備える。第1及び第2認識装置500及び600は、それぞれ、第1及び第2音声認識部5及び6、入力部10−b及び10−c、処理部11−b及び11−cを備える。表示装置700は、映像遅延部2、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10−c、処理部11−cを備える。また、図中黒丸印●で示す構成は、電気通信回路800であり、インターネット、LAN、無線LAN、携帯電話、PDA等の各種電気通信回線と、電気通信回線が入力及び出力される各装置100〜700内におけるインタフェースが設けられていることを表す。話者用装置100、通訳者用装置200、第1及び第2復唱者用装置300及び400、第1及び第2認識装置500及び600、表示装置700のそれぞれは、必要に応じて適宜、このような電気通信回路800により接続され、音声及び/又は映像信号が通信される。図中のいずれかの電気通信回路800を介さずに、直接有線又は無線により接続するようにしてもよい。よって、電気通信回線及びインターフェースを有する電気通信回路800を用いることにより、話者A、通訳者D、第1及び第2復唱者B及びC、第1及び第2認識装置500及び600、会場などに設置される表示装置700は、どこに存在してもよく、適宜配置することができる。カメラ1、映像遅延部2、第1及び第2音声入力部3、4、第1音声認識部5、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10(−a、b、c)処理部11(−a、b、c)の構成及び動作は、第1の実施の形態の同一符号のそれと同様である。ただし、入力部10−aは、映像遅延部2、レイアウト設定部8等の各部の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部−aは、小型コンピュータであって、映像遅延部2、入力部10−a、−b及び10−c、レイアウト設定部8等の各部を制御する。また、入力部10−b及び10−cは、第1及び第2音声認識部5、6の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部11−b及び11−cは、小型コンピュータであって、第1及び第2音声認識部5、6等の各部を制御する。また、第3の実施の形態の音声変換処理のフローチャートは、第1の実施の形態と同様であり、上述したように動作する。
【0034】4.第4の実施の形態
図6は、音声映像変換装置の第4の実施の形態の概略構成図である。本実施の形態は、話者の音声言語情報を復唱者などの第3者が文字言語情報に変換し、それらの言語情報と話者による非言語情報とを電気通信回路を介して呈示することで、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うものである。本実施の形態は、第3の実施の形態と同様に、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、話者用装置100、通訳者用装置200、第1及び第2復唱者用装置300及び400、第1認識装置500、表示装置700、電気通信回路800を備える。
【0035】第3の実施の形態と比較すると、第2音声認識部を含む第2認識装置600が省略され、第1認識装置500に選択部20がさらに備えられた点が、異なるが、他の構成及び動作は同様である。選択部20の構成及び動作は、第2の実施の形態と同様である。なお、第2音声入力部及び選択部20は、必要に応じて、さらに省略してもよい。また、第4の実施の形態の音声変換処理のフローチャートは、第3の実施の形態と同様であり、上述したように動作する。
【0036】5.むすび
本実施の形態では、以上のように、音声認識装置は、あらかじめ登録済みの復唱者の音声データベースを用い、話者Aの声を復唱者が復唱した音声を該音声認識装置に入力することにより音声変換し、どのような話者Aにでも高い認識率が得られるようにしている。話者Aが通訳者Dの場合でも、復唱者が通訳者Dの声を復唱することにより、外国語を高い認識率で日本語に翻訳できる。逆に、日本語で話された音声の場合は、通訳者Dが外国語に訳し、その音声をその外国語で復唱することにより、日本語を高い認識率で外国語に翻訳できる。同様に、質問者の音声も文字表示できるため双方向の会議支援を実現することができる。そのため、本実施の形態は、国内会議ばかりでなく国際会議におけるコミュニケーション支援としても利用できる。
【0037】また、本実施の形態によると、話者Aの映像も取り込み、ある遅延時間で認識結果の文字列と一緒に表示する方法を採っており、話者Aの唇の動き、表情さらに手話の映像なども音声理解の手がかりとして利用することができる。聴覚障害者の読話能力に応じて、映像遅延部2による映像遅延時間を変更することができるようになっている。そのため、唇の動きを読みとる読話に習熟した聴覚障害者にとっては音声認識の5%の誤りを読話で修復できる。
【0038】本発明の文字映像変換方法又は文字映像変換装置・システムは、その各手順をコンピュータに実行させるための文字映像変換プログラム、文字映像変換プログラムを記録したコンピュータ読み取り可能な記録媒体、文字映像変換プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
【0039】
【発明の効果】本発明によると、以上のように、不特定話者の声を復唱者が自己の声に変換し音声認識装置を介して文字に変換するとともに、話者の表情などの映像を遅らせて文字とともにスクリーンなどに表示することにより、聴覚障害者などが話者の話したことを理解しやすくするための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。
【0040】また、本発明によると、聴覚障害者が出席するような国際会議、多国間・二国間会議等の会議において、講演者あるいは通訳者の音声を復唱者が復唱して音声認識装置に入力し、その結果である文字列を講演者の映像とともにスクリーンに表示するようにした会議支援のための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。さらに、本発明によると、異種言語を使って行われる国際会議等の通訳および会議の即時印刷(情報補償)、聴覚障害者等が参加する会議や授業の支援、電話から復唱者へ声を転送し文字化された情報をユーザに提供することができる。また、本発明によると、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。また、本発明によると、さらにインターネットなどの電気通信回線を用いて通信を行う電気通信回路により、話者の声と映像を遠隔地や在宅地にいる通訳者、復唱者及び修正者に転送する手段を付加することにより、ユーザがどこにいても本システムを利用できるようにすることができる。本発明によると、介在する復唱者や通訳者が在宅ビジネスとして利用すること、さらに、外出の難しい在宅の障害者が復唱者になることにより就労を支援することができる。
【図面の簡単な説明】
【図1】音声映像変換装置の第1の実施の形態の概略構成図。
【図2】処理部による音声変換処理の第1の実施の形態のフローチャート。
【図3】音声映像変換装置の第2の実施の形態の概略構成図。
【図4】処理部による音声変換処理の第2の実施の形態のフローチャート。
【図5】音声映像変換装置の第3の実施の形態の概略構成図。
【図6】音声映像変換装置の第4の実施の形態の概略構成図。
【符号の説明】
1 カメラ
2 映像遅延部
3 第1音声入力部
4 第2音声入力部
5 第1音声認識部
6 第2音声認識部
7 文字表示部
8 レイアウト設定部
9 文字映像表示部
10 入力部
11 処理部
【発明の属する技術分野】本発明は、音声映像変換装置及び方法、音声映像変換プログラムに係る。
【0002】
【従来の技術】従来、聴覚障害者が参加しうる会議の支援手段としては、例えば、字幕放送や要約筆記がある。一方、コンピュータによる音声自動認識技術は現時点では、使用する前にあらかじめ使用者の音声で幾つかの単語や文章を読み上げて音声認識装置に入力し、使用者の音声の特徴を辞書に登録するという手法をとる。このように話者の音声を登録し、話題を限ったとしても、最高の認識率はせいぜい95%程度である。本発明に抵触する論文等の報告は本発明者は発見していないが、NHKが放送映像に字幕を付ける際に復唱者による音声認識方式を採り入れている。また、プレスリリース(2003年1月20日)により、(株)ダイキン工業が「音声認識によるノンリニア文字おこしソフト(mospy)を新発売」との記事が発表される。これは映像と音声を一時停止と再生を繰り返しながら復唱し、音声認識装置を介して文字化するソフトウェアである。
【0003】
【発明が解決しようとする課題】しかしながら、このような従来の字幕放送や要約筆記については、異言語対応になっていないこと、字幕作りや要約作りには熟練を要すること、また、その熟練者が少ないことなど、普及に向けて大きな障壁があった。一方、通常の音声自動認識技術に関しては、現在のところ誰の声でも正しく認識する不特定話者の音声認識は精度が極めて低く、雑音の多い環境下では使用できない場合が想定される。また、音声の認識時間が1秒ほどかかり、また、通訳者を介するとさらに2〜3秒かかってしまう。よって、音声認識された結果である文字列と話者の表情等に大きな時間差が生じ、そのため、話し手の唇の動きや表情、さらに手話などの視覚データを文意の理解に利用できなくなる。さらに、日本語の場合は、多くの同音意義語の漢字があるため前後関係から文意を推定できないと誤変換してしまう。現在の技術では文意を人工的に把握することは困難であり、漢字の選択は音声認識装置の使用者に任せている。また、現在の音声認識技術では、話者や話題が変わると途端に認識率が低下する。使用環境も静かなところに限られ、しかも、マイクロホンも特定のものを使用し、いつも口元の同じ位置に設置しなければならない。このように、従来は、音声認識装置を聴覚障害者のための会議支援や通訳支援に利用することはむずかしかった。さらに、上述のNHK方式及びダイキン工業社製品にはインターネット等の電気通信回路を利用していないので、遠隔地や在宅地にいる通訳者、復唱者によりユーザを支援するサービスを提供することはできなかった。
【0004】本発明は、以上の点に鑑み、不特定話者の声を復唱者が自己の声に変換し音声認識装置を介して文字に変換するとともに、話者の表情などの映像を遅らせて文字とともにスクリーンなどに表示することにより、聴覚障害者などが話者の話したことを理解しやすくするための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。また、本発明は、聴覚障害者が出席するような国際会議、多国間・二国間会議等の会議において、講演者あるいは通訳者の音声を復唱者が復唱して音声認識装置に入力し、その結果である文字列を講演者の映像とともにスクリーンに表示するようにした会議支援のための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。さらに、本発明は、異種言語を使って行われる国際会議等の通訳および会議の即時印刷(情報補償)、聴覚障害者等が参加する会議や授業の支援、電話から復唱者へ声を転送し文字化された情報をユーザに提供することを目的とする。また、本発明は、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。また、本発明は、さらにインターネットなどの電気通信回線を用いて通信を行う電気通信回路により、話者の声と映像を遠隔地や在宅地にいる通訳者、復唱者及び修正者に転送する手段を付加することにより、ユーザがどこにいても本システムを利用できるようにすることを目的とする。本発明は、介在する復唱者や通訳者が在宅ビジネスとして利用すること、さらに、外出の難しい在宅の障害者が復唱者になることにより就労を支援することを目的とする。
【0005】
【課題を解決するための手段】本発明の第1の解決手段によると、話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容が入力される第2音声入力部と、それぞれ、前記第1及び第2音声入力部から入力された第1及び第2言語の内容を認識して第1及び第2可視言語データに変換して出力する第1及び第2音声認識部と、前記第1及び第2音声認識部から出力された第1及び第2可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部からの出力に従い、第1及び第2可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第1及び第2音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、前記第1及び第2音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置が提供される。
【0006】本発明の第2の解決手段によると、話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、話者又は通訳者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、第1音声認識部は、前記第1音声入力部から入力された第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部から出力された第1可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部からの出力に従い、第1可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第1音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、前記第1音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置が提供される。
【0007】本発明の第3の解決手段によると、話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法又はプログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部及び映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声入力部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、第2音声入力部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を第2復唱者が復唱し、その復唱された第2言語の内容を入力するステップと、第2音声認識部は、第2音声入力部に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法、及び、これら各ステップをコンピュータに実行させるためのプログラムが提供される。
【0008】本発明の第4の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換又はプログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声入力部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従い、第1音声認識部からの第1言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法、及び、これら各ステップをコンピュータに実行させるためのプログラムが提供される。
【0009】本発明の第5の解決手段によると話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部の各種設定を行うための第1入力部と、前記第1音声認識部及び前記第1入力部を制御する第1処理部とを有する第1認識装置と、話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容を認識して第2可視言語データに変換して出力する第2音声認識部と、前記第2音声認識部の各種設定を行うための第2入力部と、前記第2音声認識部及び前記第2入力部を制御する第2処理部とを有する第2認識装置と、前記第1及び第2認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、前記第1及び第2認識装置から出力された第1及び第2可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第3入力部と、前記映像遅延部、前記第3入力部、前記レイアウト設定部の各部を制御する第3処理部とを有する音声映像変換装置が提供される。本発明の第6の解決手段によると話者又は通訳者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部の各種設定を行うための第1入力部と、前記第1音声認識部及び前記第1入力部を制御する第1処理部とを有する第1認識装置と、前記第1認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、前記第1認識装置から出力された第1可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第3入力部と、前記映像遅延部、前記第3入力部、前記レイアウト設定部の各部を制御する第3処理部とを有する音声映像変換装置が提供される。本発明の第7の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、第1及び第2処理部、第3処理部は、それぞれ、第1及び第2入力部、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部、映像遅延部の設定を行うステップと、第3処理部は、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、映像遅延部は、第3処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声認識部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、第2音声認識部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を復唱した第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、レイアウト設定部は、第3処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法が提供される。本発明の第8の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、第1及び第3処理部は、それぞれ、第1及び第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、第3処理部は、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、映像遅延部は、第3処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第1音声認識部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、レイアウト設定部は、第3処理部による設定及び制御に従い、第1音声認識部からの第1可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第1可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法が提供される。
【0010】
【発明の実施の形態】以下、図面を用いて本発明の実施の形態を詳細に説明する。
1.第1の実施の形態
図1は、音声映像変換装置の第1の実施の形態の概略構成図である。本実施の形態は、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、カメラ1、映像遅延部2、第1及び第2音声入力部3、4、第1及び第2音声認識部5、6、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10、処理部11を備える。
【0011】カメラ1は、話者Aの表情映像を撮影する。映像遅延部2は、カメラ1からの映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する。映像遅延部2は、話者の表情映像を認識された文字と一緒に表示して、受け手の言語理解の補助となるようにするために所定の映像遅延時間を与える。この映像遅延時間は、聴覚障害者等の会議参加者の読話能力、話者A・復唱者B又はC・通訳者Dの話すスピードや能力等に応じて、適宜変更することができる。また、映像遅延部2は、話者Aの表情などの映像を拡大・縮小等の適宜の画像処理を行うようにしてもよい。
【0012】第1音声入力部3は、マイクロフォン等で構成され、話者Aの音声を聞き取った特定の第1復唱者Bの音声による内容が入力される。一方、第2音声入力部4は、話者Aが話す内容を通訳者Dが通訳し、その通訳者Dの音声を聞き取った特定の第2復唱者Cの音声による内容が入力される。復唱者B又はCは、会議内に設けた静かな場所で、説話マイクロホン等の第1又は第2音声入力部3、4を通して音声入力することで、環境雑音やマイクロホンの影響を解決することもできる。
【0013】第1及び第2音声認識部5、6は、それぞれ第1及び第2音声入力部3、4から入力された音声を認識して文字データ、表意データ等の第1及び第2可視言語データに変換して出力する。この例では、第1音声認識部5は、話者Aが話す第1言語(例:日本語)を聞いた第1復唱者Bにより第1言語で復唱された内容が入力され、第1言語の可視言語データ(例:日本語文字列)を出力する。一方、第2音声認識部6は、話者Aが話す第1言語(例:日本語)を聞いた通訳者Dが第2言語(例:英語などの外国語)に通訳して、さらに、通訳者Dが話す第2言語を聞いた第2復唱者Cにより第2言語で復唱された内容が入力され、第2言語の可視言語データ(例:英語などの外国語文字列)を出力する。
【0014】第1及び/又は第2音声認識部5、6は、音声を第1復唱者Bが復唱した音声、通訳者Dの音声を第2復唱者Cが復唱した音声のいずれか又は両方を選択できるようにしてもよい。第1及び/又は第2音声認識部5、6は、復唱者の音声を認識するように設定されており、話者Aが話す話題又は会議の内容等により、第1及び/又は第2復唱者B、Cが第1及び/又は第2音声認識装置5、6に登録されている言語データベースを選択できる選択部を備えるようにしてもよい。
【0015】さらに、第1及び/又は第2音声認識部5、6は、仮名−漢字変換において誤変換される確率を計算する誤変換確率計算部と、誤変換確率計算部で計算された確率に応じて漢字出力か仮名文字出力かを決定する出力決定部を備えるようにしてもよい。第1及び/又は第2音声認識部5、6は、日本語の同音意義語の漢字処理に関しては、誤認識の確率を音声認識前に計算し、その確率が高い場合には仮名文字で表示するようにすることもできる。また、第1及び/又は第2音声認識部5、6に登録されていない言葉は、第1及び/又は第2復唱者B、Cの判断により仮名文字で表示するようにしてもよい。
【0016】文字表示部7は、第1音声認識部5により出力された第1言語の可視言語データを可視表示する。通訳者Dは、文字表示部7により表示された第1可視言語データを見て通訳するようにしても良い。
【0017】レイアウト設定部8は、第1及び第2音声認識部5、6により認識された結果として出力された第1及び第2可視言語データと、映像遅延部2により遅延された話者Aの遅延映像データとを入力し、文字映像表示部9への表示状態を設定する。処理部11は、文字映像表示部9に表示される第1及び第2可視言語データ(文字データ)及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、1行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれか又は複数を設定し、レイアウト設定部8は、処理部11による設定に応じて第1及び第2可視言語データ及び遅延映像データについての拡大・縮小等の適宜の画像処理を実行し、表示画像を生成する。
【0018】文字映像表示部9は、レイアウト設定部8により設定及び生成された出力に従い、第1及び第2音声認識部5、6により認識された結果として出力された第1及び第2可視言語データと、映像遅延部2により遅延された話者Aの遅延映像データとを組み合わせて表示する。入力部10は、第1及び第2音声認識部5、6、映像遅延部2、レイアウト設定部8等の各部の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部11は、小型コンピュータであって、第1及び第2音声認識部5、6、映像遅延部2、入力部10、レイアウト設定部8等の各部を制御する。
【0019】図2に、処理部による音声変換処理の第1の実施の形態フローチャートを示す。処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、第1、第2音声認識部5、6及び映像遅延部2の設定を行う(S01)。第1、第2音声認識部5、6の設定では、例えば、漢字誤認識率の閾値、使用する言語データベース等を設定する。映像遅延部2の設定では、例えば、話者画像の遅延時間の設定又は選定を行う。さらに、処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部8の設定を行う(S03)。レイアウト設定部8の設定では、文字映像表示部9に表示される第1、第2可視言語データ及び遅延映像データの表示状態・レイアウトを設定する。可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置、また、遅延映像データについては、話者画像の大きさ、表示位置等がそれぞれ適宜設定される。
【0020】カメラ1は、話者Aの映像を入力する(S05)。映像遅延部2は、処理部11による設定及び制御に従い、カメラ1に入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力する(S07)。
【0021】第1音声入力部3は、第1復唱者Bによる音声を入力する(S11)。第1音声認識部5は、処理部11による設定及び制御に従い、第1音声入力部3に入力された第1復唱者Bによる第1言語を認識して第1可視言語データ(例:日本語文字列)に変換する(S13)。さらに、必要に応じて、文字表示部7は、第1音声認識部5から出力された第1可視言語データを表示する(S15)。
【0022】第2音声入力部4は、通訳者Dが、話者音声及び/又は文字表示部7に表示された第1可視言語データに基づき通訳した音声を第2復唱者Cが復唱し、その復唱された音声を入力する(S17)。第2音声認識部6は、処理部11による設定及び制御に従い、第2音声入力部4に入力された第2復唱者Cによる第2言語を認識して第2可視言語データ(例:外国語文字列)に変換する(S19)。
【0023】レイアウト設定部8は、処理部11による設定及び制御に従い、第1及び第2音声認識部5、6からの第1及び第2可視言語データ及び映像遅延部2から遅延映像データを入力し、それらデータの表示レイアウトを設定し、必要に応じて適宜の画像処理により表示画像を生成及び出力する(S21)。文字映像表示部9は、レイアウト設定部8からの出力に従い、第1及び第2可視言語データ及び映像遅延部2を適宜表示する(S23)。
【0024】処理部11は、設定変更があるときはステップS01に戻り処理を実行する(S25)。また、処理部11は、設定変更が無い場合、話者A変更が無いときはステップS03の後の処理に移り、一方、話者A変更があるときは、処理を終了して(S27)、改めて処理を実行することができる。
【0025】2.第2の実施の形態
図3は、音声映像変換装置の第2の実施の形態の概略構成図である。本実施の形態は、特に、国内会議、二カ国間会議等の会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、カメラ1、映像遅延部2、第1及び第2音声入力部3、4、第1音声認識部5、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10、処理部11、及び、選択部20を備える。
【0026】第1の実施の形態と比較すると、第2音声認識部が省略され、選択部20がさらに備えられた点が、異なるが、他の構成及び動作は同様である。なお、第2音声入力部及び選択部20は、必要に応じて、さらに省略してもよい。
【0027】図4に、処理部による音声変換処理の第2の実施の形態フローチャートを示す。第1の実施の形態と比較すると、主に、ステップS17〜S19が省略された点が異なる。また、第1音声入力部3には、話者の音声を復唱した復唱者Bの音声か、話者の音声を通訳した通訳者Dの音声を復唱者Cが復唱した音声かのいずれかが入力される。
【0028】処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部5及び映像遅延部2及び選択部20の設定を行う(S101)。なお、選択部20が省略されているときは、その設定は不要である。第1音声認識部5の設定では、例えば、漢字誤認識率の閾値、使用する言語データベース等を設定する。映像遅延部2の設定では、例えば、話者画像の遅延時間の設定又は選定を行う。さらに、処理部11は、入力部10からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部8の設定を行う(S103)。レイアウト設定部8の設定では、文字映像表示部9に表示される第1可視言語データ(この例では、日本語文字列又は外国語文字列)及び遅延映像データの表示状態・レイアウトを設定する。可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置、また、遅延映像データについては、話者画像の大きさ、表示位置等がそれぞれ適宜設定される。
【0029】カメラ1は、話者Aの映像を入力する(S105)。映像遅延部2は、処理部11による設定及び制御に従い、カメラ1に入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力する(S107)。
【0030】第1音声入力部3は、第1復唱者B又は第2復唱者Cによる音声を入力する(S111)。第1音声認識部5は、処理部11による設定及び制御に従い、第1音声入力部3に入力された第1復唱者B又は第2復唱者Cによる第1言語(この例では、日本語又は外国語)を認識して第1可視言語データ(この例では、日本語文字列又は外国語文字列)に変換する(S113)。さらに、必要に応じて、文字表示部7は、第1音声認識部5から出力された第1可視言語データを表示する(S115)。
【0031】レイアウト設定部8は、処理部11による設定及び制御に従い、第1音声認識部5からの第1可視言語データ及び映像遅延部2から遅延映像データを入力し、それらデータの表示レイアウトを設定し、必要に応じて適宜の画像処理により表示画像を生成及び出力する(S121)。文字映像表示部9は、レイアウト設定部8からの出力に従い、第1可視言語データ及び映像遅延部2を適宜表示する(S123)。
【0032】処理部11は、設定変更があるときはステップS101に戻り処理を実行する(S125)。また、処理部11は、設定変更が無い場合、話者A変更が無いときはステップS103の後の処理に移り、一方、話者A変更があるときは、処理を終了して(S127)、改めて処理を実行することができる。
【0033】3.第3の実施の形態
図5は、音声映像変換装置の第3の実施の形態の概略構成図である。本実施の形態は、話者の音声言語情報を復唱者などの第3者が文字言語情報に変換し、それらの言語情報と話者による非言語情報とを電気通信回路を介して呈示することで、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うものである。本実施の形態は、第1の実施の形態と同様に、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、話者用装置100、通訳者用装置200、第1及び第2復唱者用装置300及び400、第1及び第2認識装置500及び600、表示装置700、電気通信回路800を備える。話者用装置100は、カメラ1と、必要に応じてマイクを備える。通訳者用装置200は、受話器及びマイクを備える。第1及び第2復唱者用装置300及び400は、それぞれ、第1及び第2音声入力部3及び4、受話器を備える。第1及び第2認識装置500及び600は、それぞれ、第1及び第2音声認識部5及び6、入力部10−b及び10−c、処理部11−b及び11−cを備える。表示装置700は、映像遅延部2、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10−c、処理部11−cを備える。また、図中黒丸印●で示す構成は、電気通信回路800であり、インターネット、LAN、無線LAN、携帯電話、PDA等の各種電気通信回線と、電気通信回線が入力及び出力される各装置100〜700内におけるインタフェースが設けられていることを表す。話者用装置100、通訳者用装置200、第1及び第2復唱者用装置300及び400、第1及び第2認識装置500及び600、表示装置700のそれぞれは、必要に応じて適宜、このような電気通信回路800により接続され、音声及び/又は映像信号が通信される。図中のいずれかの電気通信回路800を介さずに、直接有線又は無線により接続するようにしてもよい。よって、電気通信回線及びインターフェースを有する電気通信回路800を用いることにより、話者A、通訳者D、第1及び第2復唱者B及びC、第1及び第2認識装置500及び600、会場などに設置される表示装置700は、どこに存在してもよく、適宜配置することができる。カメラ1、映像遅延部2、第1及び第2音声入力部3、4、第1音声認識部5、文字表示部7、レイアウト設定部8、文字映像表示部9、入力部10(−a、b、c)処理部11(−a、b、c)の構成及び動作は、第1の実施の形態の同一符号のそれと同様である。ただし、入力部10−aは、映像遅延部2、レイアウト設定部8等の各部の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部−aは、小型コンピュータであって、映像遅延部2、入力部10−a、−b及び10−c、レイアウト設定部8等の各部を制御する。また、入力部10−b及び10−cは、第1及び第2音声認識部5、6の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部11−b及び11−cは、小型コンピュータであって、第1及び第2音声認識部5、6等の各部を制御する。また、第3の実施の形態の音声変換処理のフローチャートは、第1の実施の形態と同様であり、上述したように動作する。
【0034】4.第4の実施の形態
図6は、音声映像変換装置の第4の実施の形態の概略構成図である。本実施の形態は、話者の音声言語情報を復唱者などの第3者が文字言語情報に変換し、それらの言語情報と話者による非言語情報とを電気通信回路を介して呈示することで、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うものである。本実施の形態は、第3の実施の形態と同様に、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、話者用装置100、通訳者用装置200、第1及び第2復唱者用装置300及び400、第1認識装置500、表示装置700、電気通信回路800を備える。
【0035】第3の実施の形態と比較すると、第2音声認識部を含む第2認識装置600が省略され、第1認識装置500に選択部20がさらに備えられた点が、異なるが、他の構成及び動作は同様である。選択部20の構成及び動作は、第2の実施の形態と同様である。なお、第2音声入力部及び選択部20は、必要に応じて、さらに省略してもよい。また、第4の実施の形態の音声変換処理のフローチャートは、第3の実施の形態と同様であり、上述したように動作する。
【0036】5.むすび
本実施の形態では、以上のように、音声認識装置は、あらかじめ登録済みの復唱者の音声データベースを用い、話者Aの声を復唱者が復唱した音声を該音声認識装置に入力することにより音声変換し、どのような話者Aにでも高い認識率が得られるようにしている。話者Aが通訳者Dの場合でも、復唱者が通訳者Dの声を復唱することにより、外国語を高い認識率で日本語に翻訳できる。逆に、日本語で話された音声の場合は、通訳者Dが外国語に訳し、その音声をその外国語で復唱することにより、日本語を高い認識率で外国語に翻訳できる。同様に、質問者の音声も文字表示できるため双方向の会議支援を実現することができる。そのため、本実施の形態は、国内会議ばかりでなく国際会議におけるコミュニケーション支援としても利用できる。
【0037】また、本実施の形態によると、話者Aの映像も取り込み、ある遅延時間で認識結果の文字列と一緒に表示する方法を採っており、話者Aの唇の動き、表情さらに手話の映像なども音声理解の手がかりとして利用することができる。聴覚障害者の読話能力に応じて、映像遅延部2による映像遅延時間を変更することができるようになっている。そのため、唇の動きを読みとる読話に習熟した聴覚障害者にとっては音声認識の5%の誤りを読話で修復できる。
【0038】本発明の文字映像変換方法又は文字映像変換装置・システムは、その各手順をコンピュータに実行させるための文字映像変換プログラム、文字映像変換プログラムを記録したコンピュータ読み取り可能な記録媒体、文字映像変換プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
【0039】
【発明の効果】本発明によると、以上のように、不特定話者の声を復唱者が自己の声に変換し音声認識装置を介して文字に変換するとともに、話者の表情などの映像を遅らせて文字とともにスクリーンなどに表示することにより、聴覚障害者などが話者の話したことを理解しやすくするための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。
【0040】また、本発明によると、聴覚障害者が出席するような国際会議、多国間・二国間会議等の会議において、講演者あるいは通訳者の音声を復唱者が復唱して音声認識装置に入力し、その結果である文字列を講演者の映像とともにスクリーンに表示するようにした会議支援のための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。さらに、本発明によると、異種言語を使って行われる国際会議等の通訳および会議の即時印刷(情報補償)、聴覚障害者等が参加する会議や授業の支援、電話から復唱者へ声を転送し文字化された情報をユーザに提供することができる。また、本発明によると、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。また、本発明によると、さらにインターネットなどの電気通信回線を用いて通信を行う電気通信回路により、話者の声と映像を遠隔地や在宅地にいる通訳者、復唱者及び修正者に転送する手段を付加することにより、ユーザがどこにいても本システムを利用できるようにすることができる。本発明によると、介在する復唱者や通訳者が在宅ビジネスとして利用すること、さらに、外出の難しい在宅の障害者が復唱者になることにより就労を支援することができる。
【図面の簡単な説明】
【図1】音声映像変換装置の第1の実施の形態の概略構成図。
【図2】処理部による音声変換処理の第1の実施の形態のフローチャート。
【図3】音声映像変換装置の第2の実施の形態の概略構成図。
【図4】処理部による音声変換処理の第2の実施の形態のフローチャート。
【図5】音声映像変換装置の第3の実施の形態の概略構成図。
【図6】音声映像変換装置の第4の実施の形態の概略構成図。
【符号の説明】
1 カメラ
2 映像遅延部
3 第1音声入力部
4 第2音声入力部
5 第1音声認識部
6 第2音声認識部
7 文字表示部
8 レイアウト設定部
9 文字映像表示部
10 入力部
11 処理部
Claims (26)
- 話者の表情映像を撮影するカメラと、
前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、
話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容が入力される第2音声入力部と、
それぞれ、前記第1及び第2音声入力部から入力された第1及び第2言語の内容を認識して第1及び第2可視言語データに変換して出力する第1及び第2音声認識部と、
前記第1及び第2音声認識部から出力された第1及び第2可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部からの出力に従い、第1及び第2可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と
前記第1及び第2音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、
前記第1及び第2音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置。 - 話者の表情映像を撮影するカメラと、
前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
話者又は通訳者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、
第1音声認識部は、前記第1音声入力部から入力された第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、
前記第1音声認識部から出力された第1可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部からの出力に従い、第1可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第1音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、
前記第1音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置。 - 前記第1及び/又は第2音声認識部は、さらに、話者が話す話題又は会議の内容に従って、複数の音声認識用の言語データベースから特定の言語データベースを選択することができるようにした選択部を備えた請求項1又は2に記載の音声映像変換装置。
- 前記第1及び/又は第2音声認識部は、さらに、
仮名−漢字変換において誤変換される確率を計算する誤変換確率計算部と、
前記誤変換確率計算部で計算された確率に応じて漢字出力か仮名文字出力かを決定する出力決定部を備えた請求項1又は2に記載の音声映像変換装置。 - 前記第1及び/又は第2音声認識部は、言語データベースに漢字が登録されていない言葉を、予め定められた設定により仮名文字で表示するようにすることを特徴とする請求項1又は2に記載の音声映像変換装置。
- 前記第1音声認識部により出力された第1言語の可視言語データを可視表示する文字表示部をさらに備えた請求項1又は2に記載の音声映像変換装置。
- 前記レイアウト設定部は、前記文字映像表示部に表示される可視言語データ及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、1行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれかが設定され、該設定に応じて可視言語データ及び遅延映像データについての画像処理を実行し、表示映像を生成することを特徴とする請求項1又は2に記載の音声映像変換装置。
- 話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第1音声入力部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、
第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、
第2音声入力部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を第2復唱者が復唱し、その復唱された第2言語の内容を入力するステップと、
第2音声認識部は、第2音声入力部に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。 - 話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第1音声入力部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、
第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第1音声認識部からの第1言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第1言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。 - レイアウト設定部の設定を行うステップでは、可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置のいずれか又は複数が設定され、また、遅延映像データについては、話者画像の大きさ、表示位置等のいずれか又は複数が設定されることを特徴とする請求項8又は9に記載の音声映像変換方法。
- さらに、文字表示部は、第1音声認識部から出力された第1可視言語データを表示するステップとを含むことを特徴とする請求項8又は9に記載の音声映像変換方法。
- 話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換プログラムであって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第1音声入力部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、
第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、
第2音声入力部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を第2復唱者が復唱し、その復唱された第2言語の内容を入力するステップと、
第2音声認識部は、第2音声入力部に入力された第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、をコンピュータに実行させるための音声映像変換方法プログラム。 - 話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換プログラムであって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第1音声入力部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を入力するステップと、
第1音声認識部は、第1音声入力部に入力された第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第1音声認識部からの第1言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第1言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、をコンピュータに実行させるための音声映像変換方法プログラム。 - 話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部の各種設定を行うための第1入力部と、前記第1音声認識部及び前記第1入力部を制御する第1処理部とを有する第1認識装置と、
話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容を認識して第2可視言語データに変換して出力する第2音声認識部と、前記第2音声認識部の各種設定を行うための第2入力部と、前記第2音声認識部及び前記第2入力部を制御する第2処理部とを有する第2認識装置と、
前記第1及び第2認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、
前記表示装置は、
カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
前記第1及び第2認識装置から出力された第1及び第2可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と
前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第3入力部と、
前記映像遅延部、前記第3入力部、前記レイアウト設定部の各部を制御する第3処理部とを有する音声映像変換装置。 - 話者又は通訳者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容を認識して第1可視言語データに変換して出力する第1音声認識部と、前記第1音声認識部の各種設定を行うための第1入力部と、前記第1音声認識部及び前記第1入力部を制御する第1処理部とを有する第1認識装置と、
前記第1認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、
前記表示装置は、
カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
前記第1認識装置から出力された第1可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と
前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第3入力部と、
前記映像遅延部、前記第3入力部、前記レイアウト設定部の各部を制御する第3処理部とを有する音声映像変換装置。 - 話者の表情映像を撮影するカメラと、
話者の音声を入力するする入力部と、
電気通信回線を介して通信するためのインタフェースとを有し、電気通信回線及びインタフェースを経て音声及び映像信号を出力する話者用装置をさらに備えた請求項14又は15に記載の音声映像変換装置。 - 話者が話す第1言語の内容を復唱する第1復唱者の第1言語の内容が入力される第1音声入力部と、電気通信回線を介して通信するためのインタフェースとを有し、電気通信回線及びインタフェースを経て音声信号を前記第1認識装置に出力する第1復唱者用装置をさらに備えた請求項14又は15に記載の音声映像変換装置。
- 話者が話す第1言語の内容を通訳した通訳者の第2言語の内容をさらに復唱する第2復唱者の第2言語の内容が入力される第2音声入力部と、電気通信回線を介して通信するためのインタフェースとを有し、電気通信回線及びインタフェースを経て音声信号を前記第2認識装置に出力する第2復唱者用装置さらに備えた請求項14又は15に記載の音声映像変換装置。
- 前記第1及び第2認識装置及び前記表示装置は、電気通信回線を介して通信するためのインタフェースと、
前記第1及び/又は第2認識装置の出力は、電気通信回線及びインタフェースを介して前記表示装置に伝送されることを特徴とする請求項14又は15に記載の音声映像変換装置。 - 前記レイアウト設定部は、前記文字映像表示部に表示される可視言語データ及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、1行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれかが設定され、該設定に応じて可視言語データ及び遅延映像データについての画像処理を実行し、表示映像を生成することを特徴とする請求項14又は15に記載の音声映像変換装置。
- 話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
第1及び第2処理部、第3処理部は、それぞれ、第1及び第2入力部、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1及び第2音声認識部、映像遅延部の設定を行うステップと、
第3処理部は、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
映像遅延部は、第3処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第1音声認識部は、話者による第1言語の内容を復唱する第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、
第2音声認識部は、話者による第1言語の内容を通訳者が通訳した第2言語の内容を復唱した第2復唱者による第2言語の内容を認識して第2可視言語データに変換するステップと、
レイアウト設定部は、第3処理部による設定及び制御に従い、第1及び第2音声認識部からの第1及び第2可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第1及び第2可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。 - 話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
第1及び第3処理部は、それぞれ、第1及び第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第1音声認識部及び映像遅延部の設定を行うステップと、
第3処理部は、第3入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
映像遅延部は、第3処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第1音声認識部は、話者又は通訳者による第1言語の内容を復唱する第1復唱者による第1言語の内容を認識して第1可視言語データに変換するステップと、
レイアウト設定部は、第3処理部による設定及び制御に従い、第1音声認識部からの第1可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第1可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。 - レイアウト設定部の設定を行うステップでは、可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置のいずれか又は複数が設定され、また、遅延映像データについては、話者画像の大きさ、表示位置等のいずれか又は複数が設定されることを特徴とする請求項8又は9に記載の音声映像変換方法。
- 話者による第1言語の内容及びカメラから入力された話者の映像を、電気通信回路を介して伝送するステップをさらに含む請求項8又は9に記載の音声映像変換方法。
- 第1復唱者による第1言語の内容、第2復唱者による第2言語の内容、通訳者による第2言語の内容、のいずれか又は複数を電気通信回路を介して伝送するステップをさらに含む請求項8又は9に記載の音声映像変換方法。
- 第1及び/又は第2音声認識装置から出力された第1及び/又は第2可視言語データを電気通信回路を介して入力するステップをさらに含む請求項8又は9に記載の音声映像変換方法。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003068440A JP2003345379A (ja) | 2002-03-20 | 2003-03-13 | 音声映像変換装置及び方法、音声映像変換プログラム |
AU2003220916A AU2003220916A1 (en) | 2002-03-20 | 2003-03-19 | Audio video conversion apparatus and method, and audio video conversion program |
CN03806570.3A CN1262988C (zh) | 2002-03-20 | 2003-03-19 | 音频视频转换设备和音频视频转换方法 |
CA002479479A CA2479479A1 (en) | 2002-03-20 | 2003-03-19 | Audio video conversion apparatus, audio video conversion method, and audio video conversion program |
US10/506,220 US20050228676A1 (en) | 2002-03-20 | 2003-03-19 | Audio video conversion apparatus and method, and audio video conversion program |
EP03744531A EP1486949A4 (en) | 2002-03-20 | 2003-03-19 | APPARATUS, METHOD AND PROGRAM FOR VIDEO AUDIO CONVERSION |
PCT/JP2003/003305 WO2003079328A1 (fr) | 2002-03-20 | 2003-03-19 | Appareil, procede et programme de conversion audio video |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002077773 | 2002-03-20 | ||
JP2002-77773 | 2002-03-20 | ||
JP2002077773 | 2002-03-20 | ||
JP2003068440A JP2003345379A (ja) | 2002-03-20 | 2003-03-13 | 音声映像変換装置及び方法、音声映像変換プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003345379A JP2003345379A (ja) | 2003-12-03 |
JP2003345379A6 true JP2003345379A6 (ja) | 2004-09-02 |
JP2003345379A5 JP2003345379A5 (ja) | 2005-10-06 |
Family
ID=28043788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003068440A Withdrawn JP2003345379A (ja) | 2002-03-20 | 2003-03-13 | 音声映像変換装置及び方法、音声映像変換プログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050228676A1 (ja) |
EP (1) | EP1486949A4 (ja) |
JP (1) | JP2003345379A (ja) |
CN (1) | CN1262988C (ja) |
AU (1) | AU2003220916A1 (ja) |
CA (1) | CA2479479A1 (ja) |
WO (1) | WO2003079328A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7416078B2 (ja) | 2019-09-27 | 2024-01-17 | 日本電気株式会社 | 音声認識装置、音声認識方法、およびプログラム |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6603835B2 (en) | 1997-09-08 | 2003-08-05 | Ultratec, Inc. | System for text assisted telephony |
US8416925B2 (en) | 2005-06-29 | 2013-04-09 | Ultratec, Inc. | Device independent text captioned telephone service |
US8515024B2 (en) | 2010-01-13 | 2013-08-20 | Ultratec, Inc. | Captioned telephone service |
US7702506B2 (en) | 2004-05-12 | 2010-04-20 | Takashi Yoshimine | Conversation assisting device and conversation assisting method |
JP2006240826A (ja) * | 2005-03-03 | 2006-09-14 | Mitsubishi Electric Corp | エレベータかご内表示装置 |
US11258900B2 (en) | 2005-06-29 | 2022-02-22 | Ultratec, Inc. | Device independent text captioned telephone service |
KR100856407B1 (ko) * | 2006-07-06 | 2008-09-04 | 삼성전자주식회사 | 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법 |
US7844460B2 (en) * | 2007-02-15 | 2010-11-30 | Motorola, Inc. | Automatic creation of an interactive log based on real-time content |
CN101309390B (zh) * | 2007-05-17 | 2012-05-23 | 华为技术有限公司 | 视讯通信系统、装置及其字幕显示方法 |
WO2008154542A1 (en) * | 2007-06-10 | 2008-12-18 | Asia Esl, Llc | Program to intensively teach a second language using advertisements |
US8149330B2 (en) * | 2008-01-19 | 2012-04-03 | At&T Intellectual Property I, L. P. | Methods, systems, and products for automated correction of closed captioning data |
US8358328B2 (en) * | 2008-11-20 | 2013-01-22 | Cisco Technology, Inc. | Multiple video camera processing for teleconferencing |
JP4930564B2 (ja) * | 2009-09-24 | 2012-05-16 | カシオ計算機株式会社 | 画像表示装置及び方法並びにプログラム |
CN110347834A (zh) * | 2010-02-18 | 2019-10-18 | 株式会社尼康 | 信息处理装置、便携式装置以及信息处理系统 |
US8670018B2 (en) | 2010-05-27 | 2014-03-11 | Microsoft Corporation | Detecting reactions and providing feedback to an interaction |
US8963987B2 (en) * | 2010-05-27 | 2015-02-24 | Microsoft Corporation | Non-linguistic signal detection and feedback |
JP5727777B2 (ja) | 2010-12-17 | 2015-06-03 | 株式会社東芝 | 会議支援装置および会議支援方法 |
CN104424955B (zh) * | 2013-08-29 | 2018-11-27 | 国际商业机器公司 | 生成音频的图形表示的方法和设备、音频搜索方法和设备 |
CN103632670A (zh) * | 2013-11-30 | 2014-03-12 | 青岛英特沃克网络科技有限公司 | 语音和文本消息自动转换系统及其方法 |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US9741342B2 (en) * | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
KR102281341B1 (ko) * | 2015-01-26 | 2021-07-23 | 엘지전자 주식회사 | 싱크 디바이스 및 그 제어 방법 |
US10397645B2 (en) * | 2017-03-23 | 2019-08-27 | Intel Corporation | Real time closed captioning or highlighting method and apparatus |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11017778B1 (en) | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
CN110246501B (zh) * | 2019-07-02 | 2022-02-01 | 思必驰科技股份有限公司 | 用于会议记录的语音识别方法及系统 |
US11132535B2 (en) * | 2019-12-16 | 2021-09-28 | Avaya Inc. | Automatic video conference configuration to mitigate a disability |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
US11488604B2 (en) | 2020-08-19 | 2022-11-01 | Sorenson Ip Holdings, Llc | Transcription of audio |
KR102583764B1 (ko) * | 2022-06-29 | 2023-09-27 | (주)액션파워 | 외국어가 포함된 오디오의 음성 인식 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63219067A (ja) * | 1987-03-09 | 1988-09-12 | Agency Of Ind Science & Technol | 辞書検索装置 |
US5294982A (en) * | 1991-12-24 | 1994-03-15 | National Captioning Institute, Inc. | Method and apparatus for providing dual language captioning of a television program |
US5701153A (en) * | 1994-01-14 | 1997-12-23 | Legal Video Services, Inc. | Method and system using time information in textual representations of speech for correlation to a second representation of that speech |
JP3582069B2 (ja) * | 1994-08-05 | 2004-10-27 | マツダ株式会社 | 音声対話型ナビゲーション装置 |
JPH10234016A (ja) * | 1997-02-21 | 1998-09-02 | Hitachi Ltd | 映像信号処理装置及びそれを備えた映像表示装置及び記録再生装置 |
CN1208969C (zh) * | 1998-03-31 | 2005-06-29 | 松下电器产业株式会社 | 传送装置以及传送方法 |
US7110951B1 (en) * | 2000-03-03 | 2006-09-19 | Dorothy Lemelson, legal representative | System and method for enhancing speech intelligibility for the hearing impaired |
DE60142967D1 (de) * | 2000-06-09 | 2010-10-14 | British Broadcasting Corp | Erzeugung von untertiteln für bewegte bilder |
JP2002010138A (ja) * | 2000-06-20 | 2002-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 情報処理方法及び情報処理装置 |
US7035797B2 (en) * | 2001-12-14 | 2006-04-25 | Nokia Corporation | Data-driven filtering of cepstral time trajectories for robust speech recognition |
-
2003
- 2003-03-13 JP JP2003068440A patent/JP2003345379A/ja not_active Withdrawn
- 2003-03-19 CA CA002479479A patent/CA2479479A1/en not_active Abandoned
- 2003-03-19 WO PCT/JP2003/003305 patent/WO2003079328A1/ja active Application Filing
- 2003-03-19 AU AU2003220916A patent/AU2003220916A1/en not_active Abandoned
- 2003-03-19 EP EP03744531A patent/EP1486949A4/en not_active Withdrawn
- 2003-03-19 CN CN03806570.3A patent/CN1262988C/zh not_active Expired - Fee Related
- 2003-03-19 US US10/506,220 patent/US20050228676A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7416078B2 (ja) | 2019-09-27 | 2024-01-17 | 日本電気株式会社 | 音声認識装置、音声認識方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003345379A6 (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
JP2003345379A (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
EP2574220B1 (en) | Hand-held communication aid for individuals with auditory, speech and visual impairments | |
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US8494859B2 (en) | Universal processing system and methods for production of outputs accessible by people with disabilities | |
US6377925B1 (en) | Electronic translator for assisting communications | |
US9298704B2 (en) | Language translation of visual and audio input | |
WO1997008895A1 (fr) | Systeme de telephone chirologique | |
CN111936964A (zh) | 非中断性nui命令 | |
US9110888B2 (en) | Service server apparatus, service providing method, and service providing program for providing a service other than a telephone call during the telephone call on a telephone | |
WO2024008047A1 (zh) | 数字人手语播报方法、装置、设备及存储介质 | |
US20040012643A1 (en) | Systems and methods for visually communicating the meaning of information to the hearing impaired | |
JP2004015478A (ja) | 音声通信端末装置 | |
JP6172770B2 (ja) | 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム | |
JPH1141538A (ja) | 音声認識文字表示装置 | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
KR20200049404A (ko) | 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법 | |
KR20150060348A (ko) | 장애인 사이의 의사소통 장치 및 방법 | |
JP2002027039A (ja) | 通信通訳システム | |
JP7152454B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム | |
KR20010017865A (ko) | 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법 | |
JPH10224520A (ja) | マルチメディア公衆電話システム | |
TWI795209B (zh) | 多種手語轉譯系統 | |
KR20000033518A (ko) | 네트워크를 이용한 음성 언어 번역 시스템 및 그 방법 | |
Zimmermann et al. | Internet Based Personal Services on Demand |