JP2003345379A6

JP2003345379A6 - 音声映像変換装置及び方法、音声映像変換プログラム

Info

Publication number: JP2003345379A6
Application number: JP2003068440A
Authority: JP
Inventors: 達伊福部
Original assignee: B U G Inc; Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency; B U G Inc
Priority date: 2002-03-20
Filing date: 2003-03-13
Publication date: 2004-09-02

Abstract

【課題】話者の声を復唱者が復唱した音声を認識し、話者の映像を遅らせて文字とともに表示することにより、話者の話したことを理解しやすくする。
【解決手段】映像遅延部２は、カメラ１に入力された映像を遅延した遅延映像データを出力する。第１音声認識部５は、第１音声入力部３に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換する。第２音声認識部６は、第２音声入力部４に入力された第２復唱者による第２言語の内容を認識して第２可視言語データに変換する。レイアウト設定部８は、第１及び第２音声認識部５、６からの第１及び第２言語データ及び映像遅延部２からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、表示映像を生成し、文字映像表示部９に表示する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】本発明は、音声映像変換装置及び方法、音声映像変換プログラムに係る。
【０００２】
【従来の技術】従来、聴覚障害者が参加しうる会議の支援手段としては、例えば、字幕放送や要約筆記がある。一方、コンピュータによる音声自動認識技術は現時点では、使用する前にあらかじめ使用者の音声で幾つかの単語や文章を読み上げて音声認識装置に入力し、使用者の音声の特徴を辞書に登録するという手法をとる。このように話者の音声を登録し、話題を限ったとしても、最高の認識率はせいぜい９５％程度である。本発明に抵触する論文等の報告は本発明者は発見していないが、ＮＨＫが放送映像に字幕を付ける際に復唱者による音声認識方式を採り入れている。また、プレスリリース（２００３年１月２０日）により、（株）ダイキン工業が「音声認識によるノンリニア文字おこしソフト（ｍｏｓｐｙ）を新発売」との記事が発表される。これは映像と音声を一時停止と再生を繰り返しながら復唱し、音声認識装置を介して文字化するソフトウェアである。
【０００３】
【発明が解決しようとする課題】しかしながら、このような従来の字幕放送や要約筆記については、異言語対応になっていないこと、字幕作りや要約作りには熟練を要すること、また、その熟練者が少ないことなど、普及に向けて大きな障壁があった。一方、通常の音声自動認識技術に関しては、現在のところ誰の声でも正しく認識する不特定話者の音声認識は精度が極めて低く、雑音の多い環境下では使用できない場合が想定される。また、音声の認識時間が１秒ほどかかり、また、通訳者を介するとさらに２〜３秒かかってしまう。よって、音声認識された結果である文字列と話者の表情等に大きな時間差が生じ、そのため、話し手の唇の動きや表情、さらに手話などの視覚データを文意の理解に利用できなくなる。さらに、日本語の場合は、多くの同音意義語の漢字があるため前後関係から文意を推定できないと誤変換してしまう。現在の技術では文意を人工的に把握することは困難であり、漢字の選択は音声認識装置の使用者に任せている。また、現在の音声認識技術では、話者や話題が変わると途端に認識率が低下する。使用環境も静かなところに限られ、しかも、マイクロホンも特定のものを使用し、いつも口元の同じ位置に設置しなければならない。このように、従来は、音声認識装置を聴覚障害者のための会議支援や通訳支援に利用することはむずかしかった。さらに、上述のＮＨＫ方式及びダイキン工業社製品にはインターネット等の電気通信回路を利用していないので、遠隔地や在宅地にいる通訳者、復唱者によりユーザを支援するサービスを提供することはできなかった。
【０００４】本発明は、以上の点に鑑み、不特定話者の声を復唱者が自己の声に変換し音声認識装置を介して文字に変換するとともに、話者の表情などの映像を遅らせて文字とともにスクリーンなどに表示することにより、聴覚障害者などが話者の話したことを理解しやすくするための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。また、本発明は、聴覚障害者が出席するような国際会議、多国間・二国間会議等の会議において、講演者あるいは通訳者の音声を復唱者が復唱して音声認識装置に入力し、その結果である文字列を講演者の映像とともにスクリーンに表示するようにした会議支援のための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。さらに、本発明は、異種言語を使って行われる国際会議等の通訳および会議の即時印刷（情報補償）、聴覚障害者等が参加する会議や授業の支援、電話から復唱者へ声を転送し文字化された情報をユーザに提供することを目的とする。また、本発明は、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うための音声映像変換装置及び方法、音声映像変換プログラムを提供することを目的とする。また、本発明は、さらにインターネットなどの電気通信回線を用いて通信を行う電気通信回路により、話者の声と映像を遠隔地や在宅地にいる通訳者、復唱者及び修正者に転送する手段を付加することにより、ユーザがどこにいても本システムを利用できるようにすることを目的とする。本発明は、介在する復唱者や通訳者が在宅ビジネスとして利用すること、さらに、外出の難しい在宅の障害者が復唱者になることにより就労を支援することを目的とする。
【０００５】
【課題を解決するための手段】本発明の第１の解決手段によると、話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、話者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容が入力される第１音声入力部と、話者が話す第１言語の内容を通訳した通訳者の第２言語の内容をさらに復唱する第２復唱者の第２言語の内容が入力される第２音声入力部と、それぞれ、前記第１及び第２音声入力部から入力された第１及び第２言語の内容を認識して第１及び第２可視言語データに変換して出力する第１及び第２音声認識部と、前記第１及び第２音声認識部から出力された第１及び第２可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部からの出力に従い、第１及び第２可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第１及び第２音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、前記第１及び第２音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置が提供される。
【０００６】本発明の第２の解決手段によると、話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、話者又は通訳者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容が入力される第１音声入力部と、第１音声認識部は、前記第１音声入力部から入力された第１言語の内容を認識して第１可視言語データに変換して出力する第１音声認識部と、前記第１音声認識部から出力された第１可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部からの出力に従い、第１可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第１音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、前記第１音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置が提供される。
【０００７】本発明の第３の解決手段によると、話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法又はプログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１及び第２音声認識部及び映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第１音声入力部は、話者による第１言語の内容を復唱する第１復唱者による第１言語の内容を入力するステップと、第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、第２音声入力部は、話者による第１言語の内容を通訳者が通訳した第２言語の内容を第２復唱者が復唱し、その復唱された第２言語の内容を入力するステップと、第２音声認識部は、第２音声入力部に入力された第２復唱者による第２言語の内容を認識して第２可視言語データに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従い、第１及び第２音声認識部からの第１及び第２言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第１及び第２言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法、及び、これら各ステップをコンピュータに実行させるためのプログラムが提供される。
【０００８】本発明の第４の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換又はプログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１音声認識部及び映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第１音声入力部は、話者又は通訳者による第１言語の内容を復唱する第１復唱者による第１言語の内容を入力するステップと、第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従い、第１音声認識部からの第１言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第１言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法、及び、これら各ステップをコンピュータに実行させるためのプログラムが提供される。
【０００９】本発明の第５の解決手段によると話者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容を認識して第１可視言語データに変換して出力する第１音声認識部と、前記第１音声認識部の各種設定を行うための第１入力部と、前記第１音声認識部及び前記第１入力部を制御する第１処理部とを有する第１認識装置と、話者が話す第１言語の内容を通訳した通訳者の第２言語の内容をさらに復唱する第２復唱者の第２言語の内容を認識して第２可視言語データに変換して出力する第２音声認識部と、前記第２音声認識部の各種設定を行うための第２入力部と、前記第２音声認識部及び前記第２入力部を制御する第２処理部とを有する第２認識装置と、前記第１及び第２認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、前記第１及び第２認識装置から出力された第１及び第２可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第３入力部と、前記映像遅延部、前記第３入力部、前記レイアウト設定部の各部を制御する第３処理部とを有する音声映像変換装置が提供される。本発明の第６の解決手段によると話者又は通訳者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容を認識して第１可視言語データに変換して出力する第１音声認識部と、前記第１音声認識部の各種設定を行うための第１入力部と、前記第１音声認識部及び前記第１入力部を制御する第１処理部とを有する第１認識装置と、前記第１認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、前記第１認識装置から出力された第１可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第３入力部と、前記映像遅延部、前記第３入力部、前記レイアウト設定部の各部を制御する第３処理部とを有する音声映像変換装置が提供される。本発明の第７の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、第１及び第２処理部、第３処理部は、それぞれ、第１及び第２入力部、第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１及び第２音声認識部、映像遅延部の設定を行うステップと、第３処理部は、第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、映像遅延部は、第３処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第１音声認識部は、話者による第１言語の内容を復唱する第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、第２音声認識部は、話者による第１言語の内容を通訳者が通訳した第２言語の内容を復唱した第２復唱者による第２言語の内容を認識して第２可視言語データに変換するステップと、レイアウト設定部は、第３処理部による設定及び制御に従い、第１及び第２音声認識部からの第１及び第２可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第１及び第２可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法が提供される。本発明の第８の解決手段によると話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、第１及び第３処理部は、それぞれ、第１及び第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１音声認識部及び映像遅延部の設定を行うステップと、第３処理部は、第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、映像遅延部は、第３処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、第１音声認識部は、話者又は通訳者による第１言語の内容を復唱する第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、レイアウト設定部は、第３処理部による設定及び制御に従い、第１音声認識部からの第１可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従い、第１可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法が提供される。
【００１０】
【発明の実施の形態】以下、図面を用いて本発明の実施の形態を詳細に説明する。
１．第１の実施の形態
図１は、音声映像変換装置の第１の実施の形態の概略構成図である。本実施の形態は、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、カメラ１、映像遅延部２、第１及び第２音声入力部３、４、第１及び第２音声認識部５、６、文字表示部７、レイアウト設定部８、文字映像表示部９、入力部１０、処理部１１を備える。
【００１１】カメラ１は、話者Ａの表情映像を撮影する。映像遅延部２は、カメラ１からの映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する。映像遅延部２は、話者の表情映像を認識された文字と一緒に表示して、受け手の言語理解の補助となるようにするために所定の映像遅延時間を与える。この映像遅延時間は、聴覚障害者等の会議参加者の読話能力、話者Ａ・復唱者Ｂ又はＣ・通訳者Ｄの話すスピードや能力等に応じて、適宜変更することができる。また、映像遅延部２は、話者Ａの表情などの映像を拡大・縮小等の適宜の画像処理を行うようにしてもよい。
【００１２】第１音声入力部３は、マイクロフォン等で構成され、話者Ａの音声を聞き取った特定の第１復唱者Ｂの音声による内容が入力される。一方、第２音声入力部４は、話者Ａが話す内容を通訳者Ｄが通訳し、その通訳者Ｄの音声を聞き取った特定の第２復唱者Ｃの音声による内容が入力される。復唱者Ｂ又はＣは、会議内に設けた静かな場所で、説話マイクロホン等の第１又は第２音声入力部３、４を通して音声入力することで、環境雑音やマイクロホンの影響を解決することもできる。
【００１３】第１及び第２音声認識部５、６は、それぞれ第１及び第２音声入力部３、４から入力された音声を認識して文字データ、表意データ等の第１及び第２可視言語データに変換して出力する。この例では、第１音声認識部５は、話者Ａが話す第１言語（例：日本語）を聞いた第１復唱者Ｂにより第１言語で復唱された内容が入力され、第１言語の可視言語データ（例：日本語文字列）を出力する。一方、第２音声認識部６は、話者Ａが話す第１言語（例：日本語）を聞いた通訳者Ｄが第２言語（例：英語などの外国語）に通訳して、さらに、通訳者Ｄが話す第２言語を聞いた第２復唱者Ｃにより第２言語で復唱された内容が入力され、第２言語の可視言語データ（例：英語などの外国語文字列）を出力する。
【００１４】第１及び／又は第２音声認識部５、６は、音声を第１復唱者Ｂが復唱した音声、通訳者Ｄの音声を第２復唱者Ｃが復唱した音声のいずれか又は両方を選択できるようにしてもよい。第１及び／又は第２音声認識部５、６は、復唱者の音声を認識するように設定されており、話者Ａが話す話題又は会議の内容等により、第１及び／又は第２復唱者Ｂ、Ｃが第１及び／又は第２音声認識装置５、６に登録されている言語データベースを選択できる選択部を備えるようにしてもよい。
【００１５】さらに、第１及び／又は第２音声認識部５、６は、仮名−漢字変換において誤変換される確率を計算する誤変換確率計算部と、誤変換確率計算部で計算された確率に応じて漢字出力か仮名文字出力かを決定する出力決定部を備えるようにしてもよい。第１及び／又は第２音声認識部５、６は、日本語の同音意義語の漢字処理に関しては、誤認識の確率を音声認識前に計算し、その確率が高い場合には仮名文字で表示するようにすることもできる。また、第１及び／又は第２音声認識部５、６に登録されていない言葉は、第１及び／又は第２復唱者Ｂ、Ｃの判断により仮名文字で表示するようにしてもよい。
【００１６】文字表示部７は、第１音声認識部５により出力された第１言語の可視言語データを可視表示する。通訳者Ｄは、文字表示部７により表示された第１可視言語データを見て通訳するようにしても良い。
【００１７】レイアウト設定部８は、第１及び第２音声認識部５、６により認識された結果として出力された第１及び第２可視言語データと、映像遅延部２により遅延された話者Ａの遅延映像データとを入力し、文字映像表示部９への表示状態を設定する。処理部１１は、文字映像表示部９に表示される第１及び第２可視言語データ（文字データ）及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、１行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれか又は複数を設定し、レイアウト設定部８は、処理部１１による設定に応じて第１及び第２可視言語データ及び遅延映像データについての拡大・縮小等の適宜の画像処理を実行し、表示画像を生成する。
【００１８】文字映像表示部９は、レイアウト設定部８により設定及び生成された出力に従い、第１及び第２音声認識部５、６により認識された結果として出力された第１及び第２可視言語データと、映像遅延部２により遅延された話者Ａの遅延映像データとを組み合わせて表示する。入力部１０は、第１及び第２音声認識部５、６、映像遅延部２、レイアウト設定部８等の各部の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部１１は、小型コンピュータであって、第１及び第２音声認識部５、６、映像遅延部２、入力部１０、レイアウト設定部８等の各部を制御する。
【００１９】図２に、処理部による音声変換処理の第１の実施の形態フローチャートを示す。処理部１１は、入力部１０からの指令又は適宜の記憶部により予め定められた設定に従い、第１、第２音声認識部５、６及び映像遅延部２の設定を行う（Ｓ０１）。第１、第２音声認識部５、６の設定では、例えば、漢字誤認識率の閾値、使用する言語データベース等を設定する。映像遅延部２の設定では、例えば、話者画像の遅延時間の設定又は選定を行う。さらに、処理部１１は、入力部１０からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部８の設定を行う（Ｓ０３）。レイアウト設定部８の設定では、文字映像表示部９に表示される第１、第２可視言語データ及び遅延映像データの表示状態・レイアウトを設定する。可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置、また、遅延映像データについては、話者画像の大きさ、表示位置等がそれぞれ適宜設定される。
【００２０】カメラ１は、話者Ａの映像を入力する（Ｓ０５）。映像遅延部２は、処理部１１による設定及び制御に従い、カメラ１に入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力する（Ｓ０７）。
【００２１】第１音声入力部３は、第１復唱者Ｂによる音声を入力する（Ｓ１１）。第１音声認識部５は、処理部１１による設定及び制御に従い、第１音声入力部３に入力された第１復唱者Ｂによる第１言語を認識して第１可視言語データ（例：日本語文字列）に変換する（Ｓ１３）。さらに、必要に応じて、文字表示部７は、第１音声認識部５から出力された第１可視言語データを表示する（Ｓ１５）。
【００２２】第２音声入力部４は、通訳者Ｄが、話者音声及び／又は文字表示部７に表示された第１可視言語データに基づき通訳した音声を第２復唱者Ｃが復唱し、その復唱された音声を入力する（Ｓ１７）。第２音声認識部６は、処理部１１による設定及び制御に従い、第２音声入力部４に入力された第２復唱者Ｃによる第２言語を認識して第２可視言語データ（例：外国語文字列）に変換する（Ｓ１９）。
【００２３】レイアウト設定部８は、処理部１１による設定及び制御に従い、第１及び第２音声認識部５、６からの第１及び第２可視言語データ及び映像遅延部２から遅延映像データを入力し、それらデータの表示レイアウトを設定し、必要に応じて適宜の画像処理により表示画像を生成及び出力する（Ｓ２１）。文字映像表示部９は、レイアウト設定部８からの出力に従い、第１及び第２可視言語データ及び映像遅延部２を適宜表示する（Ｓ２３）。
【００２４】処理部１１は、設定変更があるときはステップＳ０１に戻り処理を実行する（Ｓ２５）。また、処理部１１は、設定変更が無い場合、話者Ａ変更が無いときはステップＳ０３の後の処理に移り、一方、話者Ａ変更があるときは、処理を終了して（Ｓ２７）、改めて処理を実行することができる。
【００２５】２．第２の実施の形態
図３は、音声映像変換装置の第２の実施の形態の概略構成図である。本実施の形態は、特に、国内会議、二カ国間会議等の会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、カメラ１、映像遅延部２、第１及び第２音声入力部３、４、第１音声認識部５、文字表示部７、レイアウト設定部８、文字映像表示部９、入力部１０、処理部１１、及び、選択部２０を備える。
【００２６】第１の実施の形態と比較すると、第２音声認識部が省略され、選択部２０がさらに備えられた点が、異なるが、他の構成及び動作は同様である。なお、第２音声入力部及び選択部２０は、必要に応じて、さらに省略してもよい。
【００２７】図４に、処理部による音声変換処理の第２の実施の形態フローチャートを示す。第１の実施の形態と比較すると、主に、ステップＳ１７〜Ｓ１９が省略された点が異なる。また、第１音声入力部３には、話者の音声を復唱した復唱者Ｂの音声か、話者の音声を通訳した通訳者Ｄの音声を復唱者Ｃが復唱した音声かのいずれかが入力される。
【００２８】処理部１１は、入力部１０からの指令又は適宜の記憶部により予め定められた設定に従い、第１音声認識部５及び映像遅延部２及び選択部２０の設定を行う（Ｓ１０１）。なお、選択部２０が省略されているときは、その設定は不要である。第１音声認識部５の設定では、例えば、漢字誤認識率の閾値、使用する言語データベース等を設定する。映像遅延部２の設定では、例えば、話者画像の遅延時間の設定又は選定を行う。さらに、処理部１１は、入力部１０からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部８の設定を行う（Ｓ１０３）。レイアウト設定部８の設定では、文字映像表示部９に表示される第１可視言語データ（この例では、日本語文字列又は外国語文字列）及び遅延映像データの表示状態・レイアウトを設定する。可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置、また、遅延映像データについては、話者画像の大きさ、表示位置等がそれぞれ適宜設定される。
【００２９】カメラ１は、話者Ａの映像を入力する（Ｓ１０５）。映像遅延部２は、処理部１１による設定及び制御に従い、カメラ１に入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力する（Ｓ１０７）。
【００３０】第１音声入力部３は、第１復唱者Ｂ又は第２復唱者Ｃによる音声を入力する（Ｓ１１１）。第１音声認識部５は、処理部１１による設定及び制御に従い、第１音声入力部３に入力された第１復唱者Ｂ又は第２復唱者Ｃによる第１言語（この例では、日本語又は外国語）を認識して第１可視言語データ（この例では、日本語文字列又は外国語文字列）に変換する（Ｓ１１３）。さらに、必要に応じて、文字表示部７は、第１音声認識部５から出力された第１可視言語データを表示する（Ｓ１１５）。
【００３１】レイアウト設定部８は、処理部１１による設定及び制御に従い、第１音声認識部５からの第１可視言語データ及び映像遅延部２から遅延映像データを入力し、それらデータの表示レイアウトを設定し、必要に応じて適宜の画像処理により表示画像を生成及び出力する（Ｓ１２１）。文字映像表示部９は、レイアウト設定部８からの出力に従い、第１可視言語データ及び映像遅延部２を適宜表示する（Ｓ１２３）。
【００３２】処理部１１は、設定変更があるときはステップＳ１０１に戻り処理を実行する（Ｓ１２５）。また、処理部１１は、設定変更が無い場合、話者Ａ変更が無いときはステップＳ１０３の後の処理に移り、一方、話者Ａ変更があるときは、処理を終了して（Ｓ１２７）、改めて処理を実行することができる。
【００３３】３．第３の実施の形態
図５は、音声映像変換装置の第３の実施の形態の概略構成図である。本実施の形態は、話者の音声言語情報を復唱者などの第３者が文字言語情報に変換し、それらの言語情報と話者による非言語情報とを電気通信回路を介して呈示することで、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うものである。本実施の形態は、第1の実施の形態と同様に、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、話者用装置１００、通訳者用装置２００、第1及び第２復唱者用装置３００及び４００、第1及び第２認識装置５００及び６００、表示装置７００、電気通信回路８００を備える。話者用装置１００は、カメラ１と、必要に応じてマイクを備える。通訳者用装置２００は、受話器及びマイクを備える。第1及び第２復唱者用装置３００及び４００は、それぞれ、第１及び第２音声入力部３及び４、受話器を備える。第1及び第２認識装置５００及び６００は、それぞれ、第１及び第２音声認識部５及び６、入力部１０−ｂ及び１０−ｃ、処理部１１−ｂ及び１１−ｃを備える。表示装置７００は、映像遅延部２、文字表示部７、レイアウト設定部８、文字映像表示部９、入力部１０−ｃ、処理部１１−ｃを備える。また、図中黒丸印●で示す構成は、電気通信回路８００であり、インターネット、ＬＡＮ、無線ＬＡＮ、携帯電話、ＰＤＡ等の各種電気通信回線と、電気通信回線が入力及び出力される各装置１００〜７００内におけるインタフェースが設けられていることを表す。話者用装置１００、通訳者用装置２００、第1及び第２復唱者用装置３００及び４００、第1及び第２認識装置５００及び６００、表示装置７００のそれぞれは、必要に応じて適宜、このような電気通信回路８００により接続され、音声及び／又は映像信号が通信される。図中のいずれかの電気通信回路８００を介さずに、直接有線又は無線により接続するようにしてもよい。よって、電気通信回線及びインターフェースを有する電気通信回路８００を用いることにより、話者Ａ、通訳者Ｄ、第1及び第２復唱者Ｂ及びＣ、第1及び第２認識装置５００及び６００、会場などに設置される表示装置７００は、どこに存在してもよく、適宜配置することができる。カメラ１、映像遅延部２、第１及び第２音声入力部３、４、第１音声認識部５、文字表示部７、レイアウト設定部８、文字映像表示部９、入力部１０（−ａ、ｂ、ｃ）処理部１１（−ａ、ｂ、ｃ）の構成及び動作は、第１の実施の形態の同一符号のそれと同様である。ただし、入力部１０−ａは、映像遅延部２、レイアウト設定部８等の各部の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部−ａは、小型コンピュータであって、映像遅延部２、入力部１０−ａ、−ｂ及び１０−ｃ、レイアウト設定部８等の各部を制御する。また、入力部１０−ｂ及び１０−ｃは、第１及び第２音声認識部５、６の各種設定、適宜のデータベースやメモリ等へのデータ入力指示を行う。処理部１１−ｂ及び１１−ｃは、小型コンピュータであって、第１及び第２音声認識部５、６等の各部を制御する。また、第３の実施の形態の音声変換処理のフローチャートは、第１の実施の形態と同様であり、上述したように動作する。
【００３４】４．第４の実施の形態
図６は、音声映像変換装置の第４の実施の形態の概略構成図である。本実施の形態は、話者の音声言語情報を復唱者などの第３者が文字言語情報に変換し、それらの言語情報と話者による非言語情報とを電気通信回路を介して呈示することで、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うものである。本実施の形態は、第３の実施の形態と同様に、特に、国際会議、多国間会議、二カ国間会議等の複数言語が関与する会議・会合・講義・授業・教育等におけるコミュニケーションを支援する。本実施の形態の音声映像変換装置は、話者用装置１００、通訳者用装置２００、第1及び第２復唱者用装置３００及び４００、第1認識装置５００、表示装置７００、電気通信回路８００を備える。
【００３５】第３の実施の形態と比較すると、第２音声認識部を含む第２認識装置６００が省略され、第１認識装置５００に選択部２０がさらに備えられた点が、異なるが、他の構成及び動作は同様である。選択部２０の構成及び動作は、第２の実施の形態と同様である。なお、第２音声入力部及び選択部２０は、必要に応じて、さらに省略してもよい。また、第４の実施の形態の音声変換処理のフローチャートは、第３の実施の形態と同様であり、上述したように動作する。
【００３６】５．むすび
本実施の形態では、以上のように、音声認識装置は、あらかじめ登録済みの復唱者の音声データベースを用い、話者Ａの声を復唱者が復唱した音声を該音声認識装置に入力することにより音声変換し、どのような話者Ａにでも高い認識率が得られるようにしている。話者Ａが通訳者Ｄの場合でも、復唱者が通訳者Ｄの声を復唱することにより、外国語を高い認識率で日本語に翻訳できる。逆に、日本語で話された音声の場合は、通訳者Ｄが外国語に訳し、その音声をその外国語で復唱することにより、日本語を高い認識率で外国語に翻訳できる。同様に、質問者の音声も文字表示できるため双方向の会議支援を実現することができる。そのため、本実施の形態は、国内会議ばかりでなく国際会議におけるコミュニケーション支援としても利用できる。
【００３７】また、本実施の形態によると、話者Ａの映像も取り込み、ある遅延時間で認識結果の文字列と一緒に表示する方法を採っており、話者Ａの唇の動き、表情さらに手話の映像なども音声理解の手がかりとして利用することができる。聴覚障害者の読話能力に応じて、映像遅延部２による映像遅延時間を変更することができるようになっている。そのため、唇の動きを読みとる読話に習熟した聴覚障害者にとっては音声認識の５％の誤りを読話で修復できる。
【００３８】本発明の文字映像変換方法又は文字映像変換装置・システムは、その各手順をコンピュータに実行させるための文字映像変換プログラム、文字映像変換プログラムを記録したコンピュータ読み取り可能な記録媒体、文字映像変換プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
【００３９】
【発明の効果】本発明によると、以上のように、不特定話者の声を復唱者が自己の声に変換し音声認識装置を介して文字に変換するとともに、話者の表情などの映像を遅らせて文字とともにスクリーンなどに表示することにより、聴覚障害者などが話者の話したことを理解しやすくするための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。
【００４０】また、本発明によると、聴覚障害者が出席するような国際会議、多国間・二国間会議等の会議において、講演者あるいは通訳者の音声を復唱者が復唱して音声認識装置に入力し、その結果である文字列を講演者の映像とともにスクリーンに表示するようにした会議支援のための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。さらに、本発明によると、異種言語を使って行われる国際会議等の通訳および会議の即時印刷（情報補償）、聴覚障害者等が参加する会議や授業の支援、電話から復唱者へ声を転送し文字化された情報をユーザに提供することができる。また、本発明によると、話者とユーザとの異なる言語体系間におけるコミュニケーションの補助を行うための音声映像変換装置及び方法、音声映像変換プログラムを提供することができる。また、本発明によると、さらにインターネットなどの電気通信回線を用いて通信を行う電気通信回路により、話者の声と映像を遠隔地や在宅地にいる通訳者、復唱者及び修正者に転送する手段を付加することにより、ユーザがどこにいても本システムを利用できるようにすることができる。本発明によると、介在する復唱者や通訳者が在宅ビジネスとして利用すること、さらに、外出の難しい在宅の障害者が復唱者になることにより就労を支援することができる。
【図面の簡単な説明】
【図１】音声映像変換装置の第１の実施の形態の概略構成図。
【図２】処理部による音声変換処理の第１の実施の形態のフローチャート。
【図３】音声映像変換装置の第２の実施の形態の概略構成図。
【図４】処理部による音声変換処理の第２の実施の形態のフローチャート。
【図５】音声映像変換装置の第３の実施の形態の概略構成図。
【図６】音声映像変換装置の第４の実施の形態の概略構成図。
【符号の説明】
１カメラ
２映像遅延部
３第１音声入力部
４第２音声入力部
５第１音声認識部
６第２音声認識部
７文字表示部
８レイアウト設定部
９文字映像表示部
１０入力部
１１処理部

Claims

話者の表情映像を撮影するカメラと、
前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
話者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容が入力される第１音声入力部と、
話者が話す第１言語の内容を通訳した通訳者の第２言語の内容をさらに復唱する第２復唱者の第２言語の内容が入力される第２音声入力部と、
それぞれ、前記第１及び第２音声入力部から入力された第１及び第２言語の内容を認識して第１及び第２可視言語データに変換して出力する第１及び第２音声認識部と、
前記第１及び第２音声認識部から出力された第１及び第２可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部からの出力に従い、第１及び第２可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と
前記第１及び第２音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、
前記第１及び第２音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置。
話者の表情映像を撮影するカメラと、
前記カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
話者又は通訳者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容が入力される第１音声入力部と、
第１音声認識部は、前記第１音声入力部から入力された第１言語の内容を認識して第１可視言語データに変換して出力する第１音声認識部と、
前記第１音声認識部から出力された第１可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部からの出力に従い、第１可視言語データと遅延映像データとを同期又は略同期させた表示映像を表示する文字映像表示部と前記第１音声認識部、前記映像遅延部、前記レイアウト設定部のいずれか又は複数の各部の各種設定を行うための入力部と、
前記第１音声認識部、前記映像遅延部、前記入力部、前記レイアウト設定部の各部を制御する処理部とを備えた音声映像変換装置。
前記第１及び／又は第２音声認識部は、さらに、話者が話す話題又は会議の内容に従って、複数の音声認識用の言語データベースから特定の言語データベースを選択することができるようにした選択部を備えた請求項１又は２に記載の音声映像変換装置。
前記第１及び／又は第２音声認識部は、さらに、
仮名−漢字変換において誤変換される確率を計算する誤変換確率計算部と、
前記誤変換確率計算部で計算された確率に応じて漢字出力か仮名文字出力かを決定する出力決定部を備えた請求項１又は２に記載の音声映像変換装置。
前記第１及び／又は第２音声認識部は、言語データベースに漢字が登録されていない言葉を、予め定められた設定により仮名文字で表示するようにすることを特徴とする請求項１又は２に記載の音声映像変換装置。
前記第１音声認識部により出力された第１言語の可視言語データを可視表示する文字表示部をさらに備えた請求項１又は２に記載の音声映像変換装置。
前記レイアウト設定部は、前記文字映像表示部に表示される可視言語データ及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、１行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれかが設定され、該設定に応じて可視言語データ及び遅延映像データについての画像処理を実行し、表示映像を生成することを特徴とする請求項１又は２に記載の音声映像変換装置。
話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１及び第２音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第１音声入力部は、話者による第１言語の内容を復唱する第１復唱者による第１言語の内容を入力するステップと、
第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、
第２音声入力部は、話者による第１言語の内容を通訳者が通訳した第２言語の内容を第２復唱者が復唱し、その復唱された第２言語の内容を入力するステップと、
第２音声認識部は、第２音声入力部に入力された第２復唱者による第２言語の内容を認識して第２可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第１及び第２音声認識部からの第１及び第２言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第１及び第２言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。
話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第１音声入力部は、話者又は通訳者による第１言語の内容を復唱する第１復唱者による第１言語の内容を入力するステップと、
第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第１音声認識部からの第１言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第１言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。
レイアウト設定部の設定を行うステップでは、可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置のいずれか又は複数が設定され、また、遅延映像データについては、話者画像の大きさ、表示位置等のいずれか又は複数が設定されることを特徴とする請求項８又は９に記載の音声映像変換方法。
さらに、文字表示部は、第１音声認識部から出力された第１可視言語データを表示するステップとを含むことを特徴とする請求項８又は９に記載の音声映像変換方法。
話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換プログラムであって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１及び第２音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第１音声入力部は、話者による第１言語の内容を復唱する第１復唱者による第１言語の内容を入力するステップと、
第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、
第２音声入力部は、話者による第１言語の内容を通訳者が通訳した第２言語の内容を第２復唱者が復唱し、その復唱された第２言語の内容を入力するステップと、
第２音声認識部は、第２音声入力部に入力された第２復唱者による第２言語の内容を認識して第２可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第１及び第２音声認識部からの第１及び第２言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第１及び第２言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、をコンピュータに実行させるための音声映像変換方法プログラム。
話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換プログラムであって、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１音声認識部及び映像遅延部の設定を行うステップと、
処理部は、入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメラに入力された映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第１音声入力部は、話者又は通訳者による第１言語の内容を復唱する第１復唱者による第１言語の内容を入力するステップと、
第１音声認識部は、第１音声入力部に入力された第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、
レイアウト設定部は、処理部による設定及び制御に従い、第１音声認識部からの第１言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第１言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、をコンピュータに実行させるための音声映像変換方法プログラム。
話者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容を認識して第１可視言語データに変換して出力する第１音声認識部と、前記第１音声認識部の各種設定を行うための第１入力部と、前記第１音声認識部及び前記第１入力部を制御する第１処理部とを有する第１認識装置と、
話者が話す第１言語の内容を通訳した通訳者の第２言語の内容をさらに復唱する第２復唱者の第２言語の内容を認識して第２可視言語データに変換して出力する第２音声認識部と、前記第２音声認識部の各種設定を行うための第２入力部と、前記第２音声認識部及び前記第２入力部を制御する第２処理部とを有する第２認識装置と、
前記第１及び第２認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、
前記表示装置は、
カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
前記第１及び第２認識装置から出力された第１及び第２可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と
前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第３入力部と、
前記映像遅延部、前記第３入力部、前記レイアウト設定部の各部を制御する第３処理部とを有する音声映像変換装置。
話者又は通訳者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容を認識して第１可視言語データに変換して出力する第１音声認識部と、前記第１音声認識部の各種設定を行うための第１入力部と、前記第１音声認識部及び前記第１入力部を制御する第１処理部とを有する第１認識装置と、
前記第１認識装置からの出力が入力され、文字及び映像を表示するための表示装置とを備え、
前記表示装置は、
カメラにより撮影された映像信号に対して予め設定された遅延時間差を与え、遅延映像データを出力する映像遅延部と、
前記第１認識装置から出力された第１可視言語データと、前記映像遅延部により遅延された話者の遅延映像データとを入力し、表示状態を設定してこれらデータを同期又は略同期させた表示映像を生成するレイアウト設定部と、
前記レイアウト設定部から出力された表示映像を表示する文字映像表示部と
前記映像遅延部及び前記レイアウト設定部の各種設定を行うための第３入力部と、
前記映像遅延部、前記第３入力部、前記レイアウト設定部の各部を制御する第３処理部とを有する音声映像変換装置。
話者の表情映像を撮影するカメラと、
話者の音声を入力するする入力部と、
電気通信回線を介して通信するためのインタフェースとを有し、電気通信回線及びインタフェースを経て音声及び映像信号を出力する話者用装置をさらに備えた請求項１４又は１５に記載の音声映像変換装置。
話者が話す第１言語の内容を復唱する第１復唱者の第１言語の内容が入力される第１音声入力部と、電気通信回線を介して通信するためのインタフェースとを有し、電気通信回線及びインタフェースを経て音声信号を前記第１認識装置に出力する第１復唱者用装置をさらに備えた請求項１４又は１５に記載の音声映像変換装置。
話者が話す第１言語の内容を通訳した通訳者の第２言語の内容をさらに復唱する第２復唱者の第２言語の内容が入力される第２音声入力部と、電気通信回線を介して通信するためのインタフェースとを有し、電気通信回線及びインタフェースを経て音声信号を前記第２認識装置に出力する第２復唱者用装置さらに備えた請求項１４又は１５に記載の音声映像変換装置。
前記第１及び第２認識装置及び前記表示装置は、電気通信回線を介して通信するためのインタフェースと、
前記第１及び／又は第２認識装置の出力は、電気通信回線及びインタフェースを介して前記表示装置に伝送されることを特徴とする請求項１４又は１５に記載の音声映像変換装置。
前記レイアウト設定部は、前記文字映像表示部に表示される可視言語データ及び遅延映像データについての、単位時間当たりの行数、単位時間当たりの文字数、１行当たりの文字数、色、大きさ、表示位置、その他の表示形式のいずれかが設定され、該設定に応じて可視言語データ及び遅延映像データについての画像処理を実行し、表示映像を生成することを特徴とする請求項１４又は１５に記載の音声映像変換装置。
話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
第１及び第２処理部、第３処理部は、それぞれ、第１及び第２入力部、第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１及び第２音声認識部、映像遅延部の設定を行うステップと、
第３処理部は、第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
映像遅延部は、第３処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第１音声認識部は、話者による第１言語の内容を復唱する第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、
第２音声認識部は、話者による第１言語の内容を通訳者が通訳した第２言語の内容を復唱した第２復唱者による第２言語の内容を認識して第２可視言語データに変換するステップと、
レイアウト設定部は、第３処理部による設定及び制御に従い、第１及び第２音声認識部からの第１及び第２可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第１及び第２可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。
話者の音声を可視言語データに変換して話者の映像データとともに表示するための音声映像変換方法であって、
第１及び第３処理部は、それぞれ、第１及び第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、第１音声認識部及び映像遅延部の設定を行うステップと、
第３処理部は、第３入力部からの指令又は適宜の記憶部により予め定められた設定に従い、レイアウト設定部の設定を行うステップと、
映像遅延部は、第３処理部による設定及び制御に従い、カメラに入力された話者の映像を遅延及び必要に応じて適宜の画像処理を行い、遅延映像データを出力するステップと、
第１音声認識部は、話者又は通訳者による第１言語の内容を復唱する第１復唱者による第１言語の内容を認識して第１可視言語データに変換するステップと、
レイアウト設定部は、第３処理部による設定及び制御に従い、第１音声認識部からの第１可視言語データ及び映像遅延部からの遅延映像データを入力し、それらデータの表示レイアウトを設定し、画像処理によりこれらデータを同期又は略同期させた表示映像を生成及び出力するステップと、
文字映像表示部は、レイアウト設定部からの出力に従い、第１可視言語データ及び映像遅延データを同期又は略同期させた表示映像を表示するステップと、を含む音声映像変換方法。
レイアウト設定部の設定を行うステップでは、可視言語データについては、例えば、呈示文字列数、呈示文字の大きさ・フォント・色、文字列の表示位置のいずれか又は複数が設定され、また、遅延映像データについては、話者画像の大きさ、表示位置等のいずれか又は複数が設定されることを特徴とする請求項８又は９に記載の音声映像変換方法。
話者による第１言語の内容及びカメラから入力された話者の映像を、電気通信回路を介して伝送するステップをさらに含む請求項８又は９に記載の音声映像変換方法。
第１復唱者による第１言語の内容、第２復唱者による第２言語の内容、通訳者による第２言語の内容、のいずれか又は複数を電気通信回路を介して伝送するステップをさらに含む請求項８又は９に記載の音声映像変換方法。
第１及び／又は第２音声認識装置から出力された第１及び／又は第２可視言語データを電気通信回路を介して入力するステップをさらに含む請求項８又は９に記載の音声映像変換方法。