JP2003345379A

JP2003345379A - 音声映像変換装置及び方法、音声映像変換プログラム

Info

Publication number: JP2003345379A
Application number: JP2003068440A
Authority: JP
Inventors: Tatsu Ifukube; 達伊福部
Original assignee: BUG Inc; Japan Science and Technology Corp
Current assignee: BUG Inc; Japan Science and Technology Agency
Priority date: 2002-03-20
Filing date: 2003-03-13
Publication date: 2003-12-03
Also published as: CN1262988C; US20050228676A1; CA2479479A1; WO2003079328A1; AU2003220916A1; EP1486949A4; CN1643573A; EP1486949A1

Abstract

(57)【要約】【課題】話者の声を復唱者が復唱した音声を認識し、
話者の映像を遅らせて文字とともに表示することによ
り、話者の話したことを理解しやすくする。【解決手段】映像遅延部２は、カメラ１に入力された
映像を遅延した遅延映像データを出力する。第１音声認
識部５は、第１音声入力部３に入力された第１復唱者に
よる第１言語の内容を認識して第１可視言語データに変
換する。第２音声認識部６は、第２音声入力部４に入力
された第２復唱者による第２言語の内容を認識して第２
可視言語データに変換する。レイアウト設定部８は、第
１及び第２音声認識部５、６からの第１及び第２言語デ
ータ及び映像遅延部２からの遅延映像データを入力し、
それらデータの表示レイアウトを設定し、表示映像を生
成し、文字映像表示部９に表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声映像変換装置
及び方法、音声映像変換プログラムに係る。

【０００２】

【従来の技術】従来、聴覚障害者が参加しうる会議の支
援手段としては、例えば、字幕放送や要約筆記がある。
一方、コンピュータによる音声自動認識技術は現時点で
は、使用する前にあらかじめ使用者の音声で幾つかの単
語や文章を読み上げて音声認識装置に入力し、使用者の
音声の特徴を辞書に登録するという手法をとる。このよ
うに話者の音声を登録し、話題を限ったとしても、最高
の認識率はせいぜい９５％程度である。本発明に抵触す
る論文等の報告は本発明者は発見していないが、ＮＨＫ
が放送映像に字幕を付ける際に復唱者による音声認識方
式を採り入れている。また、プレスリリース（２００３
年１月２０日）により、（株）ダイキン工業が「音声認
識によるノンリニア文字おこしソフト（ｍｏｓｐｙ）を
新発売」との記事が発表される。これは映像と音声を一
時停止と再生を繰り返しながら復唱し、音声認識装置を
介して文字化するソフトウェアである。

【０００３】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の字幕放送や要約筆記については、異言語対応
になっていないこと、字幕作りや要約作りには熟練を要
すること、また、その熟練者が少ないことなど、普及に
向けて大きな障壁があった。一方、通常の音声自動認識
技術に関しては、現在のところ誰の声でも正しく認識す
る不特定話者の音声認識は精度が極めて低く、雑音の多
い環境下では使用できない場合が想定される。また、音
声の認識時間が１秒ほどかかり、また、通訳者を介する
とさらに２〜３秒かかってしまう。よって、音声認識さ
れた結果である文字列と話者の表情等に大きな時間差が
生じ、そのため、話し手の唇の動きや表情、さらに手話
などの視覚データを文意の理解に利用できなくなる。さ
らに、日本語の場合は、多くの同音意義語の漢字がある
ため前後関係から文意を推定できないと誤変換してしま
う。現在の技術では文意を人工的に把握することは困難
であり、漢字の選択は音声認識装置の使用者に任せてい
る。また、現在の音声認識技術では、話者や話題が変わ
ると途端に認識率が低下する。使用環境も静かなところ
に限られ、しかも、マイクロホンも特定のものを使用
し、いつも口元の同じ位置に設置しなければならない。
このように、従来は、音声認識装置を聴覚障害者のため
の会議支援や通訳支援に利用することはむずかしかっ
た。さらに、上述のＮＨＫ方式及びダイキン工業社製品
にはインターネット等の電気通信回路を利用していない
ので、遠隔地や在宅地にいる通訳者、復唱者によりユー
ザを支援するサービスを提供することはできなかった。

【０００４】本発明は、以上の点に鑑み、不特定話者の
声を復唱者が自己の声に変換し音声認識装置を介して文
字に変換するとともに、話者の表情などの映像を遅らせ
て文字とともにスクリーンなどに表示することにより、
聴覚障害者などが話者の話したことを理解しやすくする
ための音声映像変換装置及び方法、音声映像変換プログ
ラムを提供することを目的とする。また、本発明は、聴
覚障害者が出席するような国際会議、多国間・二国間会
議等の会議において、講演者あるいは通訳者の音声を復
唱者が復唱して音声認識装置に入力し、その結果である
文字列を講演者の映像とともにスクリーンに表示するよ
うにした会議支援のための音声映像変換装置及び方法、
音声映像変換プログラムを提供することを目的とする。
さらに、本発明は、異種言語を使って行われる国際会議
等の通訳および会議の即時印刷（情報補償）、聴覚障害
者等が参加する会議や授業の支援、電話から復唱者へ声
を転送し文字化された情報をユーザに提供することを目
的とする。また、本発明は、話者とユーザとの異なる言
語体系間におけるコミュニケーションの補助を行うため
の音声映像変換装置及び方法、音声映像変換プログラム
を提供することを目的とする。また、本発明は、さらに
インターネットなどの電気通信回線を用いて通信を行う
電気通信回路により、話者の声と映像を遠隔地や在宅地
にいる通訳者、復唱者及び修正者に転送する手段を付加
することにより、ユーザがどこにいても本システムを利
用できるようにすることを目的とする。本発明は、介在
する復唱者や通訳者が在宅ビジネスとして利用するこ
と、さらに、外出の難しい在宅の障害者が復唱者になる
ことにより就労を支援することを目的とする。

【０００５】

【課題を解決するための手段】本発明の第１の解決手段
によると、話者の表情映像を撮影するカメラと、前記カ
メラにより撮影された映像信号に対して予め設定された
遅延時間差を与え、遅延映像データを出力する映像遅延
部と、話者が話す第１言語の内容を復唱する第１復唱者
の第１言語の内容が入力される第１音声入力部と、話者
が話す第１言語の内容を通訳した通訳者の第２言語の内
容をさらに復唱する第２復唱者の第２言語の内容が入力
される第２音声入力部と、それぞれ、前記第１及び第２
音声入力部から入力された第１及び第２言語の内容を認
識して第１及び第２可視言語データに変換して出力する
第１及び第２音声認識部と、前記第１及び第２音声認識
部から出力された第１及び第２可視言語データと、前記
映像遅延部により遅延された話者の遅延映像データとを
入力し、表示状態を設定してこれらデータを同期又は略
同期させた表示映像を生成するレイアウト設定部と、前
記レイアウト設定部からの出力に従い、第１及び第２可
視言語データと遅延映像データとを同期又は略同期させ
た表示映像を表示する文字映像表示部と前記第１及び第
２音声認識部、前記映像遅延部、前記レイアウト設定部
のいずれか又は複数の各部の各種設定を行うための入力
部と、前記第１及び第２音声認識部、前記映像遅延部、
前記入力部、前記レイアウト設定部の各部を制御する処
理部とを備えた音声映像変換装置が提供される。

【０００６】本発明の第２の解決手段によると、話者の
表情映像を撮影するカメラと、前記カメラにより撮影さ
れた映像信号に対して予め設定された遅延時間差を与
え、遅延映像データを出力する映像遅延部と、話者又は
通訳者が話す第１言語の内容を復唱する第１復唱者の第
１言語の内容が入力される第１音声入力部と、第１音声
認識部は、前記第１音声入力部から入力された第１言語
の内容を認識して第１可視言語データに変換して出力す
る第１音声認識部と、前記第１音声認識部から出力され
た第１可視言語データと、前記映像遅延部により遅延さ
れた話者の遅延映像データとを入力し、表示状態を設定
してこれらデータを同期又は略同期させた表示映像を生
成するレイアウト設定部と、前記レイアウト設定部から
の出力に従い、第１可視言語データと遅延映像データと
を同期又は略同期させた表示映像を表示する文字映像表
示部と前記第１音声認識部、前記映像遅延部、前記レイ
アウト設定部のいずれか又は複数の各部の各種設定を行
うための入力部と、前記第１音声認識部、前記映像遅延
部、前記入力部、前記レイアウト設定部の各部を制御す
る処理部とを備えた音声映像変換装置が提供される。

【０００７】本発明の第３の解決手段によると、話者の
音声を可視言語データに変換して話者の映像データとと
もに表示するための音声映像変換方法又はプログラムで
あって、処理部は、入力部からの指令又は適宜の記憶部
により予め定められた設定に従い、第１及び第２音声認
識部及び映像遅延部の設定を行うステップと、処理部
は、入力部からの指令又は適宜の記憶部により予め定め
られた設定に従い、レイアウト設定部の設定を行うステ
ップと、カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメ
ラに入力された映像を遅延及び必要に応じて適宜の画像
処理を行い、遅延映像データを出力するステップと、第
１音声入力部は、話者による第１言語の内容を復唱する
第１復唱者による第１言語の内容を入力するステップ
と、第１音声認識部は、第１音声入力部に入力された第
１復唱者による第１言語の内容を認識して第１可視言語
データに変換するステップと、第２音声入力部は、話者
による第１言語の内容を通訳者が通訳した第２言語の内
容を第２復唱者が復唱し、その復唱された第２言語の内
容を入力するステップと、第２音声認識部は、第２音声
入力部に入力された第２復唱者による第２言語の内容を
認識して第２可視言語データに変換するステップと、レ
イアウト設定部は、処理部による設定及び制御に従い、
第１及び第２音声認識部からの第１及び第２言語データ
及び映像遅延部からの遅延映像データを入力し、それら
データの表示レイアウトを設定し、画像処理によりこれ
らデータを同期又は略同期させた表示映像を生成及び出
力するステップと、文字映像表示部は、レイアウト設定
部からの出力に従い、第１及び第２言語データ及び映像
遅延データを同期又は略同期させた表示映像を表示する
ステップと、を含む音声映像変換方法、及び、これら各
ステップをコンピュータに実行させるためのプログラム
が提供される。

【０００８】本発明の第４の解決手段によると話者の音
声を可視言語データに変換して話者の映像データととも
に表示するための音声映像変換又はプログラムであっ
て、処理部は、入力部からの指令又は適宜の記憶部によ
り予め定められた設定に従い、第１音声認識部及び映像
遅延部の設定を行うステップと、処理部は、入力部から
の指令又は適宜の記憶部により予め定められた設定に従
い、レイアウト設定部の設定を行うステップと、カメラ
は、話者の映像を入力するステップと、映像遅延部は、
処理部による設定及び制御に従い、カメラに入力された
映像を遅延及び必要に応じて適宜の画像処理を行い、遅
延映像データを出力するステップと、第１音声入力部
は、話者又は通訳者による第１言語の内容を復唱する第
１復唱者による第１言語の内容を入力するステップと、
第１音声認識部は、第１音声入力部に入力された第１復
唱者による第１言語の内容を認識して第１可視言語デー
タに変換するステップと、レイアウト設定部は、処理部
による設定及び制御に従い、第１音声認識部からの第１
言語データ及び映像遅延部からの遅延映像データを入力
し、それらデータの表示レイアウトを設定し、画像処理
によりこれらデータを同期又は略同期させた表示映像を
生成及び出力するステップと、文字映像表示部は、レイ
アウト設定部からの出力に従い、第１言語データ及び映
像遅延データを同期又は略同期させた表示映像を表示す
るステップと、を含む音声映像変換方法、及び、これら
各ステップをコンピュータに実行させるためのプログラ
ムが提供される。

【０００９】本発明の第５の解決手段によると話者が話
す第１言語の内容を復唱する第１復唱者の第１言語の内
容を認識して第１可視言語データに変換して出力する第
１音声認識部と、前記第１音声認識部の各種設定を行う
ための第１入力部と、前記第１音声認識部及び前記第１
入力部を制御する第１処理部とを有する第１認識装置
と、話者が話す第１言語の内容を通訳した通訳者の第２
言語の内容をさらに復唱する第２復唱者の第２言語の内
容を認識して第２可視言語データに変換して出力する第
２音声認識部と、前記第２音声認識部の各種設定を行う
ための第２入力部と、前記第２音声認識部及び前記第２
入力部を制御する第２処理部とを有する第２認識装置
と、前記第１及び第２認識装置からの出力が入力され、
文字及び映像を表示するための表示装置とを備え、前記
表示装置は、カメラにより撮影された映像信号に対して
予め設定された遅延時間差を与え、遅延映像データを出
力する映像遅延部と、前記第１及び第２認識装置から出
力された第１及び第２可視言語データと、前記映像遅延
部により遅延された話者の遅延映像データとを入力し、
表示状態を設定してこれらデータを同期又は略同期させ
た表示映像を生成するレイアウト設定部と、前記レイア
ウト設定部から出力された表示映像を表示する文字映像
表示部と前記映像遅延部及び前記レイアウト設定部の各
種設定を行うための第３入力部と、前記映像遅延部、前
記第３入力部、前記レイアウト設定部の各部を制御する
第３処理部とを有する音声映像変換装置が提供される。
本発明の第６の解決手段によると話者又は通訳者が話す
第１言語の内容を復唱する第１復唱者の第１言語の内容
を認識して第１可視言語データに変換して出力する第１
音声認識部と、前記第１音声認識部の各種設定を行うた
めの第１入力部と、前記第１音声認識部及び前記第１入
力部を制御する第１処理部とを有する第１認識装置と、
前記第１認識装置からの出力が入力され、文字及び映像
を表示するための表示装置とを備え、前記表示装置は、
カメラにより撮影された映像信号に対して予め設定され
た遅延時間差を与え、遅延映像データを出力する映像遅
延部と、前記第１認識装置から出力された第１可視言語
データと、前記映像遅延部により遅延された話者の遅延
映像データとを入力し、表示状態を設定してこれらデー
タを同期又は略同期させた表示映像を生成するレイアウ
ト設定部と、前記レイアウト設定部から出力された表示
映像を表示する文字映像表示部と前記映像遅延部及び前
記レイアウト設定部の各種設定を行うための第３入力部
と、前記映像遅延部、前記第３入力部、前記レイアウト
設定部の各部を制御する第３処理部とを有する音声映像
変換装置が提供される。本発明の第７の解決手段による
と話者の音声を可視言語データに変換して話者の映像デ
ータとともに表示するための音声映像変換方法であっ
て、第１及び第２処理部、第３処理部は、それぞれ、第
１及び第２入力部、第３入力部からの指令又は適宜の記
憶部により予め定められた設定に従い、第１及び第２音
声認識部、映像遅延部の設定を行うステップと、第３処
理部は、第３入力部からの指令又は適宜の記憶部により
予め定められた設定に従い、レイアウト設定部の設定を
行うステップと、映像遅延部は、第３処理部による設定
及び制御に従い、カメラに入力された話者の映像を遅延
及び必要に応じて適宜の画像処理を行い、遅延映像デー
タを出力するステップと、第１音声認識部は、話者によ
る第１言語の内容を復唱する第１復唱者による第１言語
の内容を認識して第１可視言語データに変換するステッ
プと、第２音声認識部は、話者による第１言語の内容を
通訳者が通訳した第２言語の内容を復唱した第２復唱者
による第２言語の内容を認識して第２可視言語データに
変換するステップと、レイアウト設定部は、第３処理部
による設定及び制御に従い、第１及び第２音声認識部か
らの第１及び第２可視言語データ及び映像遅延部からの
遅延映像データを入力し、それらデータの表示レイアウ
トを設定し、画像処理によりこれらデータを同期又は略
同期させた表示映像を生成及び出力するステップと、文
字映像表示部は、レイアウト設定部からの出力に従い、
第１及び第２可視言語データ及び映像遅延データを同期
又は略同期させた表示映像を表示するステップと、を含
む音声映像変換方法が提供される。本発明の第８の解決
手段によると話者の音声を可視言語データに変換して話
者の映像データとともに表示するための音声映像変換方
法であって、第１及び第３処理部は、それぞれ、第１及
び第３入力部からの指令又は適宜の記憶部により予め定
められた設定に従い、第１音声認識部及び映像遅延部の
設定を行うステップと、第３処理部は、第３入力部から
の指令又は適宜の記憶部により予め定められた設定に従
い、レイアウト設定部の設定を行うステップと、映像遅
延部は、第３処理部による設定及び制御に従い、カメラ
に入力された話者の映像を遅延及び必要に応じて適宜の
画像処理を行い、遅延映像データを出力するステップ
と、第１音声認識部は、話者又は通訳者による第１言語
の内容を復唱する第１復唱者による第１言語の内容を認
識して第１可視言語データに変換するステップと、レイ
アウト設定部は、第３処理部による設定及び制御に従
い、第１音声認識部からの第１可視言語データ及び映像
遅延部からの遅延映像データを入力し、それらデータの
表示レイアウトを設定し、画像処理によりこれらデータ
を同期又は略同期させた表示映像を生成及び出力するス
テップと、文字映像表示部は、レイアウト設定部からの
出力に従い、第１可視言語データ及び映像遅延データを
同期又は略同期させた表示映像を表示するステップと、
を含む音声映像変換方法が提供される。

【００１０】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。１．第１の実施の形態図１は、音声映像変換装置の第１の実施の形態の概略構
成図である。本実施の形態は、特に、国際会議、多国間
会議、二カ国間会議等の複数言語が関与する会議・会合
・講義・授業・教育等におけるコミュニケーションを支
援する。本実施の形態の音声映像変換装置は、カメラ
１、映像遅延部２、第１及び第２音声入力部３、４、第
１及び第２音声認識部５、６、文字表示部７、レイアウ
ト設定部８、文字映像表示部９、入力部１０、処理部１
１を備える。

【００１１】カメラ１は、話者Ａの表情映像を撮影す
る。映像遅延部２は、カメラ１からの映像信号に対して
予め設定された遅延時間差を与え、遅延映像データを出
力する。映像遅延部２は、話者の表情映像を認識された
文字と一緒に表示して、受け手の言語理解の補助となる
ようにするために所定の映像遅延時間を与える。この映
像遅延時間は、聴覚障害者等の会議参加者の読話能力、
話者Ａ・復唱者Ｂ又はＣ・通訳者Ｄの話すスピードや能
力等に応じて、適宜変更することができる。また、映像
遅延部２は、話者Ａの表情などの映像を拡大・縮小等の
適宜の画像処理を行うようにしてもよい。

【００１２】第１音声入力部３は、マイクロフォン等で
構成され、話者Ａの音声を聞き取った特定の第１復唱者
Ｂの音声による内容が入力される。一方、第２音声入力
部４は、話者Ａが話す内容を通訳者Ｄが通訳し、その通
訳者Ｄの音声を聞き取った特定の第２復唱者Ｃの音声に
よる内容が入力される。復唱者Ｂ又はＣは、会議内に設
けた静かな場所で、説話マイクロホン等の第１又は第２
音声入力部３、４を通して音声入力することで、環境雑
音やマイクロホンの影響を解決することもできる。

【００１３】第１及び第２音声認識部５、６は、それぞ
れ第１及び第２音声入力部３、４から入力された音声を
認識して文字データ、表意データ等の第１及び第２可視
言語データに変換して出力する。この例では、第１音声
認識部５は、話者Ａが話す第１言語（例：日本語）を聞
いた第１復唱者Ｂにより第１言語で復唱された内容が入
力され、第１言語の可視言語データ（例：日本語文字
列）を出力する。一方、第２音声認識部６は、話者Ａが
話す第１言語（例：日本語）を聞いた通訳者Ｄが第２言
語（例：英語などの外国語）に通訳して、さらに、通訳
者Ｄが話す第２言語を聞いた第２復唱者Ｃにより第２言
語で復唱された内容が入力され、第２言語の可視言語デ
ータ（例：英語などの外国語文字列）を出力する。

【００１４】第１及び／又は第２音声認識部５、６は、
音声を第１復唱者Ｂが復唱した音声、通訳者Ｄの音声を
第２復唱者Ｃが復唱した音声のいずれか又は両方を選択
できるようにしてもよい。第１及び／又は第２音声認識
部５、６は、復唱者の音声を認識するように設定されて
おり、話者Ａが話す話題又は会議の内容等により、第１
及び／又は第２復唱者Ｂ、Ｃが第１及び／又は第２音声
認識装置５、６に登録されている言語データベースを選
択できる選択部を備えるようにしてもよい。

【００１５】さらに、第１及び／又は第２音声認識部
５、６は、仮名−漢字変換において誤変換される確率を
計算する誤変換確率計算部と、誤変換確率計算部で計算
された確率に応じて漢字出力か仮名文字出力かを決定す
る出力決定部を備えるようにしてもよい。第１及び／又
は第２音声認識部５、６は、日本語の同音意義語の漢字
処理に関しては、誤認識の確率を音声認識前に計算し、
その確率が高い場合には仮名文字で表示するようにする
こともできる。また、第１及び／又は第２音声認識部
５、６に登録されていない言葉は、第１及び／又は第２
復唱者Ｂ、Ｃの判断により仮名文字で表示するようにし
てもよい。

【００１６】文字表示部７は、第１音声認識部５により
出力された第１言語の可視言語データを可視表示する。
通訳者Ｄは、文字表示部７により表示された第１可視言
語データを見て通訳するようにしても良い。

【００１７】レイアウト設定部８は、第１及び第２音声
認識部５、６により認識された結果として出力された第
１及び第２可視言語データと、映像遅延部２により遅延
された話者Ａの遅延映像データとを入力し、文字映像表
示部９への表示状態を設定する。処理部１１は、文字映
像表示部９に表示される第１及び第２可視言語データ
（文字データ）及び遅延映像データについての、単位時
間当たりの行数、単位時間当たりの文字数、１行当たり
の文字数、色、大きさ、表示位置、その他の表示形式の
いずれか又は複数を設定し、レイアウト設定部８は、処
理部１１による設定に応じて第１及び第２可視言語デー
タ及び遅延映像データについての拡大・縮小等の適宜の
画像処理を実行し、表示画像を生成する。

【００１８】文字映像表示部９は、レイアウト設定部８
により設定及び生成された出力に従い、第１及び第２音
声認識部５、６により認識された結果として出力された
第１及び第２可視言語データと、映像遅延部２により遅
延された話者Ａの遅延映像データとを組み合わせて表示
する。入力部１０は、第１及び第２音声認識部５、６、
映像遅延部２、レイアウト設定部８等の各部の各種設
定、適宜のデータベースやメモリ等へのデータ入力指示
を行う。処理部１１は、小型コンピュータであって、第
１及び第２音声認識部５、６、映像遅延部２、入力部１
０、レイアウト設定部８等の各部を制御する。

【００１９】図２に、処理部による音声変換処理の第１
の実施の形態フローチャートを示す。処理部１１は、入
力部１０からの指令又は適宜の記憶部により予め定めら
れた設定に従い、第１、第２音声認識部５、６及び映像
遅延部２の設定を行う（Ｓ０１）。第１、第２音声認識
部５、６の設定では、例えば、漢字誤認識率の閾値、使
用する言語データベース等を設定する。映像遅延部２の
設定では、例えば、話者画像の遅延時間の設定又は選定
を行う。さらに、処理部１１は、入力部１０からの指令
又は適宜の記憶部により予め定められた設定に従い、レ
イアウト設定部８の設定を行う（Ｓ０３）。レイアウト
設定部８の設定では、文字映像表示部９に表示される第
１、第２可視言語データ及び遅延映像データの表示状態
・レイアウトを設定する。可視言語データについては、
例えば、呈示文字列数、呈示文字の大きさ・フォント・
色、文字列の表示位置、また、遅延映像データについて
は、話者画像の大きさ、表示位置等がそれぞれ適宜設定
される。

【００２０】カメラ１は、話者Ａの映像を入力する（Ｓ
０５）。映像遅延部２は、処理部１１による設定及び制
御に従い、カメラ１に入力された映像を遅延及び必要に
応じて適宜の画像処理を行い、遅延映像データを出力す
る（Ｓ０７）。

【００２１】第１音声入力部３は、第１復唱者Ｂによる
音声を入力する（Ｓ１１）。第１音声認識部５は、処理
部１１による設定及び制御に従い、第１音声入力部３に
入力された第１復唱者Ｂによる第１言語を認識して第１
可視言語データ（例：日本語文字列）に変換する（Ｓ１
３）。さらに、必要に応じて、文字表示部７は、第１音
声認識部５から出力された第１可視言語データを表示す
る（Ｓ１５）。

【００２２】第２音声入力部４は、通訳者Ｄが、話者音
声及び／又は文字表示部７に表示された第１可視言語デ
ータに基づき通訳した音声を第２復唱者Ｃが復唱し、そ
の復唱された音声を入力する（Ｓ１７）。第２音声認識
部６は、処理部１１による設定及び制御に従い、第２音
声入力部４に入力された第２復唱者Ｃによる第２言語を
認識して第２可視言語データ（例：外国語文字列）に変
換する（Ｓ１９）。

【００２３】レイアウト設定部８は、処理部１１による
設定及び制御に従い、第１及び第２音声認識部５、６か
らの第１及び第２可視言語データ及び映像遅延部２から
遅延映像データを入力し、それらデータの表示レイアウ
トを設定し、必要に応じて適宜の画像処理により表示画
像を生成及び出力する（Ｓ２１）。文字映像表示部９
は、レイアウト設定部８からの出力に従い、第１及び第
２可視言語データ及び映像遅延部２を適宜表示する（Ｓ
２３）。

【００２４】処理部１１は、設定変更があるときはステ
ップＳ０１に戻り処理を実行する（Ｓ２５）。また、処
理部１１は、設定変更が無い場合、話者Ａ変更が無いと
きはステップＳ０３の後の処理に移り、一方、話者Ａ変
更があるときは、処理を終了して（Ｓ２７）、改めて処
理を実行することができる。

【００２５】２．第２の実施の形態図３は、音声映像変換装置の第２の実施の形態の概略構
成図である。本実施の形態は、特に、国内会議、二カ国
間会議等の会議・会合・講義・授業・教育等におけるコ
ミュニケーションを支援する。本実施の形態の音声映像
変換装置は、カメラ１、映像遅延部２、第１及び第２音
声入力部３、４、第１音声認識部５、文字表示部７、レ
イアウト設定部８、文字映像表示部９、入力部１０、処
理部１１、及び、選択部２０を備える。

【００２６】第１の実施の形態と比較すると、第２音声
認識部が省略され、選択部２０がさらに備えられた点
が、異なるが、他の構成及び動作は同様である。なお、
第２音声入力部及び選択部２０は、必要に応じて、さら
に省略してもよい。

【００２７】図４に、処理部による音声変換処理の第２
の実施の形態フローチャートを示す。第１の実施の形態
と比較すると、主に、ステップＳ１７〜Ｓ１９が省略さ
れた点が異なる。また、第１音声入力部３には、話者の
音声を復唱した復唱者Ｂの音声か、話者の音声を通訳し
た通訳者Ｄの音声を復唱者Ｃが復唱した音声かのいずれ
かが入力される。

【００２８】処理部１１は、入力部１０からの指令又は
適宜の記憶部により予め定められた設定に従い、第１音
声認識部５及び映像遅延部２及び選択部２０の設定を行
う（Ｓ１０１）。なお、選択部２０が省略されていると
きは、その設定は不要である。第１音声認識部５の設定
では、例えば、漢字誤認識率の閾値、使用する言語デー
タベース等を設定する。映像遅延部２の設定では、例え
ば、話者画像の遅延時間の設定又は選定を行う。さら
に、処理部１１は、入力部１０からの指令又は適宜の記
憶部により予め定められた設定に従い、レイアウト設定
部８の設定を行う（Ｓ１０３）。レイアウト設定部８の
設定では、文字映像表示部９に表示される第１可視言語
データ（この例では、日本語文字列又は外国語文字列）
及び遅延映像データの表示状態・レイアウトを設定す
る。可視言語データについては、例えば、呈示文字列
数、呈示文字の大きさ・フォント・色、文字列の表示位
置、また、遅延映像データについては、話者画像の大き
さ、表示位置等がそれぞれ適宜設定される。

【００２９】カメラ１は、話者Ａの映像を入力する（Ｓ
１０５）。映像遅延部２は、処理部１１による設定及び
制御に従い、カメラ１に入力された映像を遅延及び必要
に応じて適宜の画像処理を行い、遅延映像データを出力
する（Ｓ１０７）。

【００３０】第１音声入力部３は、第１復唱者Ｂ又は第
２復唱者Ｃによる音声を入力する（Ｓ１１１）。第１音
声認識部５は、処理部１１による設定及び制御に従い、
第１音声入力部３に入力された第１復唱者Ｂ又は第２復
唱者Ｃによる第１言語（この例では、日本語又は外国
語）を認識して第１可視言語データ（この例では、日本
語文字列又は外国語文字列）に変換する（Ｓ１１３）。
さらに、必要に応じて、文字表示部７は、第１音声認識
部５から出力された第１可視言語データを表示する（Ｓ
１１５）。

【００３１】レイアウト設定部８は、処理部１１による
設定及び制御に従い、第１音声認識部５からの第１可視
言語データ及び映像遅延部２から遅延映像データを入力
し、それらデータの表示レイアウトを設定し、必要に応
じて適宜の画像処理により表示画像を生成及び出力する
（Ｓ１２１）。文字映像表示部９は、レイアウト設定部
８からの出力に従い、第１可視言語データ及び映像遅延
部２を適宜表示する（Ｓ１２３）。

【００３２】処理部１１は、設定変更があるときはステ
ップＳ１０１に戻り処理を実行する（Ｓ１２５）。ま
た、処理部１１は、設定変更が無い場合、話者Ａ変更が
無いときはステップＳ１０３の後の処理に移り、一方、
話者Ａ変更があるときは、処理を終了して（Ｓ１２
７）、改めて処理を実行することができる。

【００３３】３．第３の実施の形態図５は、音声映像変換装置の第３の実施の形態の概略構
成図である。本実施の形態は、話者の音声言語情報を復
唱者などの第３者が文字言語情報に変換し、それらの言
語情報と話者による非言語情報とを電気通信回路を介し
て呈示することで、話者とユーザとの異なる言語体系間
におけるコミュニケーションの補助を行うものである。
本実施の形態は、第1の実施の形態と同様に、特に、国
際会議、多国間会議、二カ国間会議等の複数言語が関与
する会議・会合・講義・授業・教育等におけるコミュニ
ケーションを支援する。本実施の形態の音声映像変換装
置は、話者用装置１００、通訳者用装置２００、第1及
び第２復唱者用装置３００及び４００、第1及び第２認
識装置５００及び６００、表示装置７００、電気通信回
路８００を備える。話者用装置１００は、カメラ１と、
必要に応じてマイクを備える。通訳者用装置２００は、
受話器及びマイクを備える。第1及び第２復唱者用装置
３００及び４００は、それぞれ、第１及び第２音声入力
部３及び４、受話器を備える。第1及び第２認識装置５
００及び６００は、それぞれ、第１及び第２音声認識部
５及び６、入力部１０−ｂ及び１０−ｃ、処理部１１−
ｂ及び１１−ｃを備える。表示装置７００は、映像遅延
部２、文字表示部７、レイアウト設定部８、文字映像表
示部９、入力部１０−ｃ、処理部１１−ｃを備える。ま
た、図中黒丸印●で示す構成は、電気通信回路８００で
あり、インターネット、ＬＡＮ、無線ＬＡＮ、携帯電
話、ＰＤＡ等の各種電気通信回線と、電気通信回線が入
力及び出力される各装置１００〜７００内におけるイン
タフェースが設けられていることを表す。話者用装置１
００、通訳者用装置２００、第1及び第２復唱者用装置
３００及び４００、第1及び第２認識装置５００及び６
００、表示装置７００のそれぞれは、必要に応じて適
宜、このような電気通信回路８００により接続され、音
声及び／又は映像信号が通信される。図中のいずれかの
電気通信回路８００を介さずに、直接有線又は無線によ
り接続するようにしてもよい。よって、電気通信回線及
びインターフェースを有する電気通信回路８００を用い
ることにより、話者Ａ、通訳者Ｄ、第1及び第２復唱者
Ｂ及びＣ、第1及び第２認識装置５００及び６００、会
場などに設置される表示装置７００は、どこに存在して
もよく、適宜配置することができる。カメラ１、映像遅
延部２、第１及び第２音声入力部３、４、第１音声認識
部５、文字表示部７、レイアウト設定部８、文字映像表
示部９、入力部１０（−ａ、ｂ、ｃ）処理部１１（−
ａ、ｂ、ｃ）の構成及び動作は、第１の実施の形態の同
一符号のそれと同様である。ただし、入力部１０−ａ
は、映像遅延部２、レイアウト設定部８等の各部の各種
設定、適宜のデータベースやメモリ等へのデータ入力指
示を行う。処理部−ａは、小型コンピュータであって、
映像遅延部２、入力部１０−ａ、−ｂ及び１０−ｃ、レ
イアウト設定部８等の各部を制御する。また、入力部１
０−ｂ及び１０−ｃは、第１及び第２音声認識部５、６
の各種設定、適宜のデータベースやメモリ等へのデータ
入力指示を行う。処理部１１−ｂ及び１１−ｃは、小型
コンピュータであって、第１及び第２音声認識部５、６
等の各部を制御する。また、第３の実施の形態の音声変
換処理のフローチャートは、第１の実施の形態と同様で
あり、上述したように動作する。

【００３４】４．第４の実施の形態図６は、音声映像変換装置の第４の実施の形態の概略構
成図である。本実施の形態は、話者の音声言語情報を復
唱者などの第３者が文字言語情報に変換し、それらの言
語情報と話者による非言語情報とを電気通信回路を介し
て呈示することで、話者とユーザとの異なる言語体系間
におけるコミュニケーションの補助を行うものである。
本実施の形態は、第３の実施の形態と同様に、特に、国
際会議、多国間会議、二カ国間会議等の複数言語が関与
する会議・会合・講義・授業・教育等におけるコミュニ
ケーションを支援する。本実施の形態の音声映像変換装
置は、話者用装置１００、通訳者用装置２００、第1及
び第２復唱者用装置３００及び４００、第1認識装置５
００、表示装置７００、電気通信回路８００を備える。

【００３５】第３の実施の形態と比較すると、第２音声
認識部を含む第２認識装置６００が省略され、第１認識
装置５００に選択部２０がさらに備えられた点が、異な
るが、他の構成及び動作は同様である。選択部２０の構
成及び動作は、第２の実施の形態と同様である。なお、
第２音声入力部及び選択部２０は、必要に応じて、さら
に省略してもよい。また、第４の実施の形態の音声変換
処理のフローチャートは、第３の実施の形態と同様であ
り、上述したように動作する。

【００３６】５．むすび本実施の形態では、以上のように、音声認識装置は、あ
らかじめ登録済みの復唱者の音声データベースを用い、
話者Ａの声を復唱者が復唱した音声を該音声認識装置に
入力することにより音声変換し、どのような話者Ａにで
も高い認識率が得られるようにしている。話者Ａが通訳
者Ｄの場合でも、復唱者が通訳者Ｄの声を復唱すること
により、外国語を高い認識率で日本語に翻訳できる。逆
に、日本語で話された音声の場合は、通訳者Ｄが外国語
に訳し、その音声をその外国語で復唱することにより、
日本語を高い認識率で外国語に翻訳できる。同様に、質
問者の音声も文字表示できるため双方向の会議支援を実
現することができる。そのため、本実施の形態は、国内
会議ばかりでなく国際会議におけるコミュニケーション
支援としても利用できる。

【００３７】また、本実施の形態によると、話者Ａの映
像も取り込み、ある遅延時間で認識結果の文字列と一緒
に表示する方法を採っており、話者Ａの唇の動き、表情
さらに手話の映像なども音声理解の手がかりとして利用
することができる。聴覚障害者の読話能力に応じて、映
像遅延部２による映像遅延時間を変更することができる
ようになっている。そのため、唇の動きを読みとる読話
に習熟した聴覚障害者にとっては音声認識の５％の誤り
を読話で修復できる。

【００３８】本発明の文字映像変換方法又は文字映像変
換装置・システムは、その各手順をコンピュータに実行
させるための文字映像変換プログラム、文字映像変換プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体、文字映像変換プログラムを含みコンピュータの内部
メモリにロード可能なプログラム製品、そのプログラム
を含むサーバ等のコンピュータ、等により提供されるこ
とができる。

【００３９】

【発明の効果】本発明によると、以上のように、不特定
話者の声を復唱者が自己の声に変換し音声認識装置を介
して文字に変換するとともに、話者の表情などの映像を
遅らせて文字とともにスクリーンなどに表示することに
より、聴覚障害者などが話者の話したことを理解しやす
くするための音声映像変換装置及び方法、音声映像変換
プログラムを提供することができる。

【００４０】また、本発明によると、聴覚障害者が出席
するような国際会議、多国間・二国間会議等の会議にお
いて、講演者あるいは通訳者の音声を復唱者が復唱して
音声認識装置に入力し、その結果である文字列を講演者
の映像とともにスクリーンに表示するようにした会議支
援のための音声映像変換装置及び方法、音声映像変換プ
ログラムを提供することができる。さらに、本発明によ
ると、異種言語を使って行われる国際会議等の通訳およ
び会議の即時印刷（情報補償）、聴覚障害者等が参加す
る会議や授業の支援、電話から復唱者へ声を転送し文字
化された情報をユーザに提供することができる。また、
本発明によると、話者とユーザとの異なる言語体系間に
おけるコミュニケーションの補助を行うための音声映像
変換装置及び方法、音声映像変換プログラムを提供する
ことができる。また、本発明によると、さらにインター
ネットなどの電気通信回線を用いて通信を行う電気通信
回路により、話者の声と映像を遠隔地や在宅地にいる通
訳者、復唱者及び修正者に転送する手段を付加すること
により、ユーザがどこにいても本システムを利用できる
ようにすることができる。本発明によると、介在する復
唱者や通訳者が在宅ビジネスとして利用すること、さら
に、外出の難しい在宅の障害者が復唱者になることによ
り就労を支援することができる。

【図面の簡単な説明】

【図１】音声映像変換装置の第１の実施の形態の概略構
成図。

【図２】処理部による音声変換処理の第１の実施の形態
のフローチャート。

【図３】音声映像変換装置の第２の実施の形態の概略構
成図。

【図４】処理部による音声変換処理の第２の実施の形態
のフローチャート。

【図５】音声映像変換装置の第３の実施の形態の概略構
成図。

【図６】音声映像変換装置の第４の実施の形態の概略構
成図。

【符号の説明】

１カメラ２映像遅延部３第１音声入力部４第２音声入力部５第１音声認識部６第２音声認識部７文字表示部８レイアウト設定部９文字映像表示部１０入力部１１処理部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５６１Ｃ (72)発明者伊福部達東京都杉並区和泉３−59−15 シティハウス永福町205 Ｆターム(参考） 5C023 AA37 AA38 BA01 BA09 CA04 CA05 5D015 KK02 LL11

Claims

【特許請求の範囲】

【請求項１】話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定
された遅延時間差を与え、遅延映像データを出力する映
像遅延部と、話者が話す第１言語の内容を復唱する第１復唱者の第１
言語の内容が入力される第１音声入力部と、話者が話す第１言語の内容を通訳した通訳者の第２言語
の内容をさらに復唱する第２復唱者の第２言語の内容が
入力される第２音声入力部と、それぞれ、前記第１及び第２音声入力部から入力された
第１及び第２言語の内容を認識して第１及び第２可視言
語データに変換して出力する第１及び第２音声認識部
と、前記第１及び第２音声認識部から出力された第１及び第
２可視言語データと、前記映像遅延部により遅延された
話者の遅延映像データとを入力し、表示状態を設定して
これらデータを同期又は略同期させた表示映像を生成す
るレイアウト設定部と、前記レイアウト設定部からの出力に従い、第１及び第２
可視言語データと遅延映像データとを同期又は略同期さ
せた表示映像を表示する文字映像表示部と前記第１及び第２音声認識部、前記映像遅延部、前記レ
イアウト設定部のいずれか又は複数の各部の各種設定を
行うための入力部と、前記第１及び第２音声認識部、前記映像遅延部、前記入
力部、前記レイアウト設定部の各部を制御する処理部と
を備えた音声映像変換装置。
【請求項２】話者の表情映像を撮影するカメラと、前記カメラにより撮影された映像信号に対して予め設定
された遅延時間差を与え、遅延映像データを出力する映
像遅延部と、話者又は通訳者が話す第１言語の内容を復唱する第１復
唱者の第１言語の内容が入力される第１音声入力部と、第１音声認識部は、前記第１音声入力部から入力された
第１言語の内容を認識して第１可視言語データに変換し
て出力する第１音声認識部と、前記第１音声認識部から出力された第１可視言語データ
と、前記映像遅延部により遅延された話者の遅延映像デ
ータとを入力し、表示状態を設定してこれらデータを同
期又は略同期させた表示映像を生成するレイアウト設定
部と、前記レイアウト設定部からの出力に従い、第１可視言語
データと遅延映像データとを同期又は略同期させた表示
映像を表示する文字映像表示部と前記第１音声認識部、
前記映像遅延部、前記レイアウト設定部のいずれか又は
複数の各部の各種設定を行うための入力部と、前記第１音声認識部、前記映像遅延部、前記入力部、前
記レイアウト設定部の各部を制御する処理部とを備えた
音声映像変換装置。
【請求項３】前記第１及び／又は第２音声認識部は、さ
らに、話者が話す話題又は会議の内容に従って、複数の
音声認識用の言語データベースから特定の言語データベ
ースを選択することができるようにした選択部を備えた
請求項１又は２に記載の音声映像変換装置。
【請求項４】前記第１及び／又は第２音声認識部は、さ
らに、仮名−漢字変換において誤変換される確率を計算する誤
変換確率計算部と、前記誤変換確率計算部で計算された確率に応じて漢字出
力か仮名文字出力かを決定する出力決定部を備えた請求
項１又は２に記載の音声映像変換装置。
【請求項５】前記第１及び／又は第２音声認識部は、言
語データベースに漢字が登録されていない言葉を、予め
定められた設定により仮名文字で表示するようにするこ
とを特徴とする請求項１又は２に記載の音声映像変換装
置。
【請求項６】前記第１音声認識部により出力された第１
言語の可視言語データを可視表示する文字表示部をさら
に備えた請求項１又は２に記載の音声映像変換装置。
【請求項７】前記レイアウト設定部は、前記文字映像表
示部に表示される可視言語データ及び遅延映像データに
ついての、単位時間当たりの行数、単位時間当たりの文
字数、１行当たりの文字数、色、大きさ、表示位置、そ
の他の表示形式のいずれかが設定され、該設定に応じて
可視言語データ及び遅延映像データについての画像処理
を実行し、表示映像を生成することを特徴とする請求項
１又は２に記載の音声映像変換装置。
【請求項８】話者の音声を可視言語データに変換して話
者の映像データとともに表示するための音声映像変換方
法であって、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、第１及び第２音声認識部及び
映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、レイアウト設定部の設定を行
うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメ
ラに入力された映像を遅延及び必要に応じて適宜の画像
処理を行い、遅延映像データを出力するステップと、第１音声入力部は、話者による第１言語の内容を復唱す
る第１復唱者による第１言語の内容を入力するステップ
と、第１音声認識部は、第１音声入力部に入力された第１復
唱者による第１言語の内容を認識して第１可視言語デー
タに変換するステップと、第２音声入力部は、話者による第１言語の内容を通訳者
が通訳した第２言語の内容を第２復唱者が復唱し、その
復唱された第２言語の内容を入力するステップと、第２音声認識部は、第２音声入力部に入力された第２復
唱者による第２言語の内容を認識して第２可視言語デー
タに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従
い、第１及び第２音声認識部からの第１及び第２言語デ
ータ及び映像遅延部からの遅延映像データを入力し、そ
れらデータの表示レイアウトを設定し、画像処理により
これらデータを同期又は略同期させた表示映像を生成及
び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従
い、第１及び第２言語データ及び映像遅延データを同期
又は略同期させた表示映像を表示するステップと、を含
む音声映像変換方法。
【請求項９】話者の音声を可視言語データに変換して話
者の映像データとともに表示するための音声映像変換方
法であって、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、第１音声認識部及び映像遅延
部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、レイアウト設定部の設定を行
うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメ
ラに入力された映像を遅延及び必要に応じて適宜の画像
処理を行い、遅延映像データを出力するステップと、第１音声入力部は、話者又は通訳者による第１言語の内
容を復唱する第１復唱者による第１言語の内容を入力す
るステップと、第１音声認識部は、第１音声入力部に入力された第１復
唱者による第１言語の内容を認識して第１可視言語デー
タに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従
い、第１音声認識部からの第１言語データ及び映像遅延
部からの遅延映像データを入力し、それらデータの表示
レイアウトを設定し、画像処理によりこれらデータを同
期又は略同期させた表示映像を生成及び出力するステッ
プと、文字映像表示部は、レイアウト設定部からの出力に従
い、第１言語データ及び映像遅延データを同期又は略同
期させた表示映像を表示するステップと、を含む音声映
像変換方法。
【請求項１０】レイアウト設定部の設定を行うステップ
では、可視言語データについては、例えば、呈示文字列
数、呈示文字の大きさ・フォント・色、文字列の表示位
置のいずれか又は複数が設定され、また、遅延映像デー
タについては、話者画像の大きさ、表示位置等のいずれ
か又は複数が設定されることを特徴とする請求項８又は
９に記載の音声映像変換方法。
【請求項１１】さらに、文字表示部は、第１音声認識部
から出力された第１可視言語データを表示するステップ
とを含むことを特徴とする請求項８又は９に記載の音声
映像変換方法。
【請求項１２】話者の音声を可視言語データに変換して
話者の映像データとともに表示するための音声映像変換
プログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、第１及び第２音声認識部及び
映像遅延部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、レイアウト設定部の設定を行
うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメ
ラに入力された映像を遅延及び必要に応じて適宜の画像
処理を行い、遅延映像データを出力するステップと、第１音声入力部は、話者による第１言語の内容を復唱す
る第１復唱者による第１言語の内容を入力するステップ
と、第１音声認識部は、第１音声入力部に入力された第１復
唱者による第１言語の内容を認識して第１可視言語デー
タに変換するステップと、第２音声入力部は、話者による第１言語の内容を通訳者
が通訳した第２言語の内容を第２復唱者が復唱し、その
復唱された第２言語の内容を入力するステップと、第２音声認識部は、第２音声入力部に入力された第２復
唱者による第２言語の内容を認識して第２可視言語デー
タに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従
い、第１及び第２音声認識部からの第１及び第２言語デ
ータ及び映像遅延部からの遅延映像データを入力し、そ
れらデータの表示レイアウトを設定し、画像処理により
これらデータを同期又は略同期させた表示映像を生成及
び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従
い、第１及び第２言語データ及び映像遅延データを同期
又は略同期させた表示映像を表示するステップと、をコ
ンピュータに実行させるための音声映像変換方法プログ
ラム。
【請求項１３】話者の音声を可視言語データに変換して
話者の映像データとともに表示するための音声映像変換
プログラムであって、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、第１音声認識部及び映像遅延
部の設定を行うステップと、処理部は、入力部からの指令又は適宜の記憶部により予
め定められた設定に従い、レイアウト設定部の設定を行
うステップと、カメラは、話者の映像を入力するステップと、映像遅延部は、処理部による設定及び制御に従い、カメ
ラに入力された映像を遅延及び必要に応じて適宜の画像
処理を行い、遅延映像データを出力するステップと、第１音声入力部は、話者又は通訳者による第１言語の内
容を復唱する第１復唱者による第１言語の内容を入力す
るステップと、第１音声認識部は、第１音声入力部に入力された第１復
唱者による第１言語の内容を認識して第１可視言語デー
タに変換するステップと、レイアウト設定部は、処理部による設定及び制御に従
い、第１音声認識部からの第１言語データ及び映像遅延
部からの遅延映像データを入力し、それらデータの表示
レイアウトを設定し、画像処理によりこれらデータを同
期又は略同期させた表示映像を生成及び出力するステッ
プと、文字映像表示部は、レイアウト設定部からの出力に従
い、第１言語データ及び映像遅延データを同期又は略同
期させた表示映像を表示するステップと、をコンピュー
タに実行させるための音声映像変換方法プログラム。
【請求項１４】話者が話す第１言語の内容を復唱する第
１復唱者の第１言語の内容を認識して第１可視言語デー
タに変換して出力する第１音声認識部と、前記第１音声
認識部の各種設定を行うための第１入力部と、前記第１
音声認識部及び前記第１入力部を制御する第１処理部と
を有する第１認識装置と、話者が話す第１言語の内容を通訳した通訳者の第２言語
の内容をさらに復唱する第２復唱者の第２言語の内容を
認識して第２可視言語データに変換して出力する第２音
声認識部と、前記第２音声認識部の各種設定を行うため
の第２入力部と、前記第２音声認識部及び前記第２入力
部を制御する第２処理部とを有する第２認識装置と、前記第１及び第２認識装置からの出力が入力され、文字
及び映像を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定され
た遅延時間差を与え、遅延映像データを出力する映像遅
延部と、前記第１及び第２認識装置から出力された第１及び第２
可視言語データと、前記映像遅延部により遅延された話
者の遅延映像データとを入力し、表示状態を設定してこ
れらデータを同期又は略同期させた表示映像を生成する
レイアウト設定部と、前記レイアウト設定部から出力された表示映像を表示す
る文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を
行うための第３入力部と、前記映像遅延部、前記第３入力部、前記レイアウト設定
部の各部を制御する第３処理部とを有する音声映像変換
装置。
【請求項１５】話者又は通訳者が話す第１言語の内容を
復唱する第１復唱者の第１言語の内容を認識して第１可
視言語データに変換して出力する第１音声認識部と、前
記第１音声認識部の各種設定を行うための第１入力部
と、前記第１音声認識部及び前記第１入力部を制御する
第１処理部とを有する第１認識装置と、前記第１認識装置からの出力が入力され、文字及び映像
を表示するための表示装置とを備え、前記表示装置は、カメラにより撮影された映像信号に対して予め設定され
た遅延時間差を与え、遅延映像データを出力する映像遅
延部と、前記第１認識装置から出力された第１可視言語データ
と、前記映像遅延部により遅延された話者の遅延映像デ
ータとを入力し、表示状態を設定してこれらデータを同
期又は略同期させた表示映像を生成するレイアウト設定
部と、前記レイアウト設定部から出力された表示映像を表示す
る文字映像表示部と前記映像遅延部及び前記レイアウト設定部の各種設定を
行うための第３入力部と、前記映像遅延部、前記第３入力部、前記レイアウト設定
部の各部を制御する第３処理部とを有する音声映像変換
装置。
【請求項１６】話者の表情映像を撮影するカメラと、話者の音声を入力するする入力部と、電気通信回線を介して通信するためのインタフェースと
を有し、電気通信回線及びインタフェースを経て音声及
び映像信号を出力する話者用装置をさらに備えた請求項
１４又は１５に記載の音声映像変換装置。
【請求項１７】話者が話す第１言語の内容を復唱する第
１復唱者の第１言語の内容が入力される第１音声入力部
と、電気通信回線を介して通信するためのインタフェー
スとを有し、電気通信回線及びインタフェースを経て音
声信号を前記第１認識装置に出力する第１復唱者用装置
をさらに備えた請求項１４又は１５に記載の音声映像変
換装置。
【請求項１８】話者が話す第１言語の内容を通訳した通
訳者の第２言語の内容をさらに復唱する第２復唱者の第
２言語の内容が入力される第２音声入力部と、電気通信
回線を介して通信するためのインタフェースとを有し、
電気通信回線及びインタフェースを経て音声信号を前記
第２認識装置に出力する第２復唱者用装置さらに備えた
請求項１４又は１５に記載の音声映像変換装置。
【請求項１９】前記第１及び第２認識装置及び前記表示
装置は、電気通信回線を介して通信するためのインタフ
ェースと、前記第１及び／又は第２認識装置の出力は、電気通信回
線及びインタフェースを介して前記表示装置に伝送され
ることを特徴とする請求項１４又は１５に記載の音声映
像変換装置。
【請求項２０】前記レイアウト設定部は、前記文字映像
表示部に表示される可視言語データ及び遅延映像データ
についての、単位時間当たりの行数、単位時間当たりの
文字数、１行当たりの文字数、色、大きさ、表示位置、
その他の表示形式のいずれかが設定され、該設定に応じ
て可視言語データ及び遅延映像データについての画像処
理を実行し、表示映像を生成することを特徴とする請求
項１４又は１５に記載の音声映像変換装置。
【請求項２１】話者の音声を可視言語データに変換して
話者の映像データとともに表示するための音声映像変換
方法であって、第１及び第２処理部、第３処理部は、それぞれ、第１及
び第２入力部、第３入力部からの指令又は適宜の記憶部
により予め定められた設定に従い、第１及び第２音声認
識部、映像遅延部の設定を行うステップと、第３処理部は、第３入力部からの指令又は適宜の記憶部
により予め定められた設定に従い、レイアウト設定部の
設定を行うステップと、映像遅延部は、第３処理部による設定及び制御に従い、
カメラに入力された話者の映像を遅延及び必要に応じて
適宜の画像処理を行い、遅延映像データを出力するステ
ップと、第１音声認識部は、話者による第１言語の内容を復唱す
る第１復唱者による第１言語の内容を認識して第１可視
言語データに変換するステップと、第２音声認識部は、話者による第１言語の内容を通訳者
が通訳した第２言語の内容を復唱した第２復唱者による
第２言語の内容を認識して第２可視言語データに変換す
るステップと、レイアウト設定部は、第３処理部による設定及び制御に
従い、第１及び第２音声認識部からの第１及び第２可視
言語データ及び映像遅延部からの遅延映像データを入力
し、それらデータの表示レイアウトを設定し、画像処理
によりこれらデータを同期又は略同期させた表示映像を
生成及び出力するステップと、文字映像表示部は、レイアウト設定部からの出力に従
い、第１及び第２可視言語データ及び映像遅延データを
同期又は略同期させた表示映像を表示するステップと、
を含む音声映像変換方法。
【請求項２２】話者の音声を可視言語データに変換して
話者の映像データとともに表示するための音声映像変換
方法であって、第１及び第３処理部は、それぞれ、第１及び第３入力部
からの指令又は適宜の記憶部により予め定められた設定
に従い、第１音声認識部及び映像遅延部の設定を行うス
テップと、第３処理部は、第３入力部からの指令又は適宜の記憶部
により予め定められた設定に従い、レイアウト設定部の
設定を行うステップと、映像遅延部は、第３処理部による設定及び制御に従い、
カメラに入力された話者の映像を遅延及び必要に応じて
適宜の画像処理を行い、遅延映像データを出力するステ
ップと、第１音声認識部は、話者又は通訳者による第１言語の内
容を復唱する第１復唱者による第１言語の内容を認識し
て第１可視言語データに変換するステップと、レイアウト設定部は、第３処理部による設定及び制御に
従い、第１音声認識部からの第１可視言語データ及び映
像遅延部からの遅延映像データを入力し、それらデータ
の表示レイアウトを設定し、画像処理によりこれらデー
タを同期又は略同期させた表示映像を生成及び出力する
ステップと、文字映像表示部は、レイアウト設定部からの出力に従
い、第１可視言語データ及び映像遅延データを同期又は
略同期させた表示映像を表示するステップと、を含む音
声映像変換方法。
【請求項２３】レイアウト設定部の設定を行うステップ
では、可視言語データについては、例えば、呈示文字列
数、呈示文字の大きさ・フォント・色、文字列の表示位
置のいずれか又は複数が設定され、また、遅延映像デー
タについては、話者画像の大きさ、表示位置等のいずれ
か又は複数が設定されることを特徴とする請求項８又は
９に記載の音声映像変換方法。
【請求項２４】話者による第１言語の内容及びカメラか
ら入力された話者の映像を、電気通信回路を介して伝送
するステップをさらに含む請求項８又は９に記載の音声
映像変換方法。
【請求項２５】第１復唱者による第１言語の内容、第２
復唱者による第２言語の内容、通訳者による第２言語の
内容、のいずれか又は複数を電気通信回路を介して伝送
するステップをさらに含む請求項８又は９に記載の音声
映像変換方法。
【請求項２６】第１及び／又は第２音声認識装置から出
力された第１及び／又は第２可視言語データを電気通信
回路を介して入力するステップをさらに含む請求項８又
は９に記載の音声映像変換方法。