JP2003345379A - 音声映像変換装置及び方法、音声映像変換プログラム - Google Patents

音声映像変換装置及び方法、音声映像変換プログラム

Info

Publication number
JP2003345379A
JP2003345379A JP2003068440A JP2003068440A JP2003345379A JP 2003345379 A JP2003345379 A JP 2003345379A JP 2003068440 A JP2003068440 A JP 2003068440A JP 2003068440 A JP2003068440 A JP 2003068440A JP 2003345379 A JP2003345379 A JP 2003345379A
Authority
JP
Japan
Prior art keywords
unit
data
language
video
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003068440A
Other languages
English (en)
Other versions
JP2003345379A6 (ja
JP2003345379A5 (ja
Inventor
Tatsu Ifukube
達 伊福部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BUG Inc
Japan Science and Technology Agency
Original Assignee
BUG Inc
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BUG Inc, Japan Science and Technology Corp filed Critical BUG Inc
Priority to JP2003068440A priority Critical patent/JP2003345379A/ja
Priority to US10/506,220 priority patent/US20050228676A1/en
Priority to CN03806570.3A priority patent/CN1262988C/zh
Priority to EP03744531A priority patent/EP1486949A4/en
Priority to AU2003220916A priority patent/AU2003220916A1/en
Priority to CA002479479A priority patent/CA2479479A1/en
Priority to PCT/JP2003/003305 priority patent/WO2003079328A1/ja
Publication of JP2003345379A publication Critical patent/JP2003345379A/ja
Publication of JP2003345379A6 publication Critical patent/JP2003345379A6/ja
Publication of JP2003345379A5 publication Critical patent/JP2003345379A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)
  • Studio Circuits (AREA)

Abstract

(57)【要約】 【課題】 話者の声を復唱者が復唱した音声を認識し、
話者の映像を遅らせて文字とともに表示することによ
り、話者の話したことを理解しやすくする。 【解決手段】 映像遅延部2は、カメラ1に入力された
映像を遅延した遅延映像データを出力する。第1音声認
識部5は、第1音声入力部3に入力された第1復唱者に
よる第1言語の内容を認識して第1可視言語データに変
換する。第2音声認識部6は、第2音声入力部4に入力
された第2復唱者による第2言語の内容を認識して第2
可視言語データに変換する。レイアウト設定部8は、第
1及び第2音声認識部5、6からの第1及び第2言語デ
ータ及び映像遅延部2からの遅延映像データを入力し、
それらデータの表示レイアウトを設定し、表示映像を生
成し、文字映像表示部9に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声映像変換装置
及び方法、音声映像変換プログラムに係る。
【0002】
【従来の技術】従来、聴覚障害者が参加しうる会議の支
援手段としては、例えば、字幕放送や要約筆記がある。
一方、コンピュータによる音声自動認識技術は現時点で
は、使用する前にあらかじめ使用者の音声で幾つかの単
語や文章を読み上げて音声認識装置に入力し、使用者の
音声の特徴を辞書に登録するという手法をとる。このよ
うに話者の音声を登録し、話題を限ったとしても、最高
の認識率はせいぜい95%程度である。本発明に抵触す
る論文等の報告は本発明者は発見していないが、NHK
が放送映像に字幕を付ける際に復唱者による音声認識方
式を採り入れている。また、プレスリリース(2003
年1月20日)により、(株)ダイキン工業が「音声認
識によるノンリニア文字おこしソフト(mospy)を
新発売」との記事が発表される。これは映像と音声を一
時停止と再生を繰り返しながら復唱し、音声認識装置を
介して文字化するソフトウェアである。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の字幕放送や要約筆記については、異言語対応
になっていないこと、字幕作りや要約作りには熟練を要
すること、また、その熟練者が少ないことなど、普及に
向けて大きな障壁があった。一方、通常の音声自動認識
技術に関しては、現在のところ誰の声でも正しく認識す
る不特定話者の音声認識は精度が極めて低く、雑音の多
い環境下では使用できない場合が想定される。また、音
声の認識時間が1秒ほどかかり、また、通訳者を介する
とさらに2〜3秒かかってしまう。よって、音声認識さ
れた結果である文字列と話者の表情等に大きな時間差が
生じ、そのため、話し手の唇の動きや表情、さらに手話
などの視覚データを文意の理解に利用できなくなる。さ
らに、日本語の場合は、多くの同音意義語の漢字がある
ため前後関係から文意を推定できないと誤変換してしま
う。現在の技術では文意を人工的に把握することは困難
であり、漢字の選択は音声認識装置の使用者に任せてい
る。また、現在の音声認識技術では、話者や話題が変わ
ると途端に認識率が低下する。使用環境も静かなところ
に限られ、しかも、マイクロホンも特定のものを使用
し、いつも口元の同じ位置に設置しなければならない。
このように、従来は、音声認識装置を聴覚障害者のため
の会議支援や通訳支援に利用することはむずかしかっ
た。さらに、上述のNHK方式及びダイキン工業社製品
にはインターネット等の電気通信回路を利用していない
ので、遠隔地や在宅地にいる通訳者、復唱者によりユー
ザを支援するサービスを提供することはできなかった。
【0004】本発明は、以上の点に鑑み、不特定話者の
声を復唱者が自己の声に変換し音声認識装置を介して文
字に変換するとともに、話者の表情などの映像を遅らせ
て文字とともにスクリーンなどに表示することにより、
聴覚障害者などが話者の話したことを理解しやすくする
ための音声映像変換装置及び方法、音声映像変換プログ
ラムを提供することを目的とする。また、本発明は、聴
覚障害者が出席するような国際会議、多国間・二国間会
議等の会議において、講演者あるいは通訳者の音声を復
唱者が復唱して音声認識装置に入力し、その結果である
文字列を講演者の映像とともにスクリーンに表示するよ
うにした会議支援のための音声映像変換装置及び方法、
音声映像変換プログラムを提供することを目的とする。
さらに、本発明は、異種言語を使って行われる国際会議
等の通訳および会議の即時印刷(情報補償)、聴覚障害
者等が参加する会議や授業の支援、電話から復唱者へ声
を転送し文字化された情報をユーザに提供することを目
的とする。また、本発明は、話者とユーザとの異なる言
語体系間におけるコミュニケーションの補助を行うため
の音声映像変換装置及び方法、音声映像変換プログラム
を提供することを目的とする。また、本発明は、さらに
インターネットなどの電気通信回線を用いて通信を行う
電気通信回路により、話者の声と映像を遠隔地や在宅地
にいる通訳者、復唱者及び修正者に転送する手段を付加
することにより、ユーザがどこにいても本システムを利
用できるようにすることを目的とする。本発明は、介在
する復唱者や通訳者が在宅ビジネスとして利用するこ
と、さらに、外出の難しい在宅の障害者が復唱者になる
ことにより就労を支援することを目的とする。
【0005】
【課題を解決するための手段】本発明の第1の解決手段
によると、話者の表情映像を撮影するカメラと、前記カ
メラにより撮影された映像信号に対して予め設定された
遅延時間差を与え、遅延映像データを出力する映像遅延
部と、話者が話す第1言語の内容を復唱する第1復唱者
の第1言語の内容が入力される第1音声入力部と、話者
が話す第1言語の内容を通訳した通訳者の第2言語の内
容をさらに復唱する第2復唱者の第2言語の内容が入力
される第2音声入力部と、それぞれ、前記第1及び第2
音声入力部から入力された第1及び第2言語の内容を認
識して第1及び第2可視言語データに変換して出力する
第1及び第2音声認識部と、前記第1及び第2音声認識
部から出力された第1及び第2可視言語データと、前記
映像遅延部により遅延された話者の遅延映像データとを
入力し、表示状態を設定してこれらデータを同期又は略
同期させた表示映像を生成するレイアウト設定部と、前
記レイアウト設定部からの出力に従い、第1及び第2可
視言語データと遅延映像データとを同期又は略同期させ
た表示映像を表示する文字映像表示部と前記第1及び第
2音声認識部、前記映像遅延部、前記レイアウト設定部
のいずれか又は複数の各部の各種設定を行うための入力
部と、前記第1及び第2音声認識部、前記映像遅延部、
前記入力部、前記レイアウト設定部の各部を制御する処
理部とを備えた音声映像変換装置が提供される。
【0006】本発明の第2の解決手段によると、話者の
表情映像を撮影するカメラと、前記カメラにより撮影さ
れた映像信号に対して予め設定された遅延時間差を与
え、遅延映像データを出力する映像遅延部と、話者又は
通訳者が話す第1言語の内容を復唱する第1復唱者の第
1言語の内容が入力される第1音声入力部と、第1音声
認識部は、前記第1音声入力部から入力された第1言語
の内容を認識して第1可視言語データに変換して出力す
る第1音声認識部と、前記第1音声認識部から出力され
た第1可視言語データと、前記映像遅延部により遅延さ
れた話者の遅延映像データとを入力し、表示状態を設定
してこれらデータを同期又は略同期させた表示映像を生
成するレイアウト設定部と、前記レイアウト設定部から
の出力に従い、第1可視言語データと遅延映像データと
を同期又は略同期させた表示映像を表示する文字映像表
示部と前記第1音声認識部、前記映像遅延部、前記レイ
アウト設定部のいずれか又は複数の各部の各種設定を行
うための入力部と、前記第1音声認識部、前記映像遅延
部、前記入力部、前記レイアウト設定部の各部を制御す
る処理部とを備えた音声映像変換装置が提供される。
【0007】本発明の第3の解決手段によると、話者の
音声を可視言語データに変換して話者の映像データとと
もに表示するための音声映像変換方法又はプログラムで
あって、処理部は、入力部からの指令又は適宜の記憶部
により予め定められた設定に従い、第1及び第2音声認
識部及び映像遅延部の設定を行うステップと、処理部
は、入力部からの指令又は適宜の記憶部により予め定め
られた設定に従い、レイアウト設定部の設定を行うステ
ップと、カメラは、話者の映像を入力するステップと、
映像遅延部は、処理部による設定及び制御に従い、カメ
ラに入力された映像を遅延及び必要に応じて適宜の画像
処理を行い、遅延映像データを出力するステップと、第
1音声入力部は、話者による第1言語の内容を復唱する
第1復唱者による第1言語の内容を入力するステップ
と、第1音声認識部は、第1音声入力部に入力された第
1復唱者による第1言語の内容を認識して第1可視言語
データに変換するステップと、第2音声入力部は、話者
による第1言語の内容を通訳者が通訳した第2言語の内
容を第2復唱者が復唱し、その復唱された第2言語の内
容を入力するステップと、第2音声認識部は、第2音声
入力部に入力された第2復唱者による第2言語の内容を
認識して第2可視言語データに変換するステップと、レ
イアウト設定部は、処理部による設定及び制御に従い、
第1及び第2音声認識部からの第1及び第2言語データ
及び映像遅延部からの遅延映像データを入力し、それら
データの表示レイアウトを設定し、画像処理によりこれ
らデータを同期又は略同期させた表示映像を生成及び出
力するステップと、文字映像表示部は、レイアウト設定
部からの出力に従い、第1及び第2言語データ及び映像
遅延データを同期又は略同期させた表示映像を表示する
ステップと、を含む音声映像変換方法、及び、これら各
ステップをコンピュータに実行させるためのプログラム
が提供される。
【0008】本発明の第4の解決手段によると話者の音
声を可視言語データに変換して話者の映像データととも
に表示するための音声映像変換又はプログラムであっ
て、処理部は、入力部からの指令又は適宜の記憶部によ
り予め定められた設定に従い、第1音声認識部及び映像
遅延部の設定を行うステップと、処理部は、入力部から
の指令又は適宜の記憶部により予め定められた設定に従
い、レイアウト設定部の設定を行うステップと、カメラ
は、話者の映像を入力するステップと、映像遅延部は、
処理部による設定及び制御に従い、カメラに入力された
映像を遅延及び必要に応じて適宜の画像処理を行い、遅
延映像データを出力するステップと、第1音声入力部
は、話者又は通訳者による第1言語の内容を復唱する第
1復唱者による第1言語の内容を入力するステップと、
第1音声認識部は、第1音声入力部に入力された第1復
唱者による第1言語の内容を認識して第1可視言語デー
タに変換するステップと、レイアウト設定部は、処理部
による設定及び制御に従い、第1音声認識部からの第1
言語データ及び映像遅延部からの遅延映像データを入力
し、それらデータの表示レイアウトを設定し、画像処理
によりこれらデータを同期又は略同期させた表示映像を
生成及び出力するステップと、文字映像表示部は、レイ
アウト設定部からの出力に従い、第1言語データ及び映
像遅延データを同期又は略同期させた表示映像を表示す
るステップと、を含む音声映像変換方法、及び、これら
各ステップをコンピュータに実行させるためのプログラ
ムが提供される。
【0009】本発明の第5の解決手段によると話者が話
す第1言語の内容を復唱する第1復唱者の第1言語の内
容を認識して第1可視言語データに変換して出力する第
1音声認識部と、前記第1音声認識部の各種設定を行う
ための第1入力部と、前記第1音声認識部及び前記第1
入力部を制御する第1処理部とを有する第1認識装置
と、話者が話す第1言語の内容を通訳した通訳者の第2
言語の内容をさらに復唱する第2復唱者の第2言語の内
容を認識して第2可視言語データに変換して出力する第
2音声認識部と、前記第2音声認識部の各種設定を行う
ための第2入力部と、前記第2音声認識部及び前記第2
入力部を制御する第2処理部とを有する第2認識装置
と、前記第1及び第2認識装置からの出力が入力され、
文字及び映像を表示するための表示装置とを備え、前記
表示装置は、カメラにより撮影された映像信号に対して
予め設定された遅延時間差を与え、遅延映像データを出
力する映像遅延部と、前記第1及び第2認識装置から出
力された第1及び第2可視言語データと、前記映像遅延
部により遅延された話者の遅延映像データとを入力し、
表示状態を設定してこれらデータを同期又は略同期させ
た表示映像を生成するレイアウト設定部と、前記レイア
ウト設定部から出力された表示映像を表示する文字映像
表示部と前記映像遅延部及び前記レイアウト設定部の各
種設定を行うための第3入力部と、前記映像遅延部、前
記第3入力部、前記レイアウト設定部の各部を制御する
第3処理部とを有する音声映像変換装置が提供される。
本発明の第6の解決手段によると話者又は通訳者が話す
第1言語の内容を復唱する第1復唱者の第1言語の内容
を認識して第1可視言語データに変換して出力する第1
音声認識部と、前記第1音声認識部の各種設定を行うた
めの第1入力部と、前記第1音声認識部及び前記第1入
力部を制御する第1処理部とを有する第1認識装置と、
前記第1認識装置からの出力が入力され、文字及び映像
を表示するための表示装置とを備え、前記表示装置は、
カメラにより撮影された映像信号に対して予め設定され
た遅延時間差を与え、遅延映像データを出力する映像遅
延部と、前記第1認識装置から出力された第1可視言語
データと、前記映像遅延部により遅延された話者の遅延
映像データとを入力し、表示状態を設定してこれらデー
タを同期又は略同期させた表示映像を生成するレイアウ
ト設定部と、前記レイアウト設定部から出力された表示
映像を表示する文字映像表示部と前記映像遅延部及び前
記レイアウト設定部の各種設定を行うための第3入力部
と、前記映像遅延部、前記第3入力部、前記レイアウト
設定部の各部を制御する第3処理部とを有する音声映像
変換装置が提供される。本発明の第7の解決手段による
と話者の音声を可視言語データに変換して話者の映像デ
ータとともに表示するための音声映像変換方法であっ
て、第1及び第2処理部、第3処理部は、それぞれ、第
1及び第2入力部、第3入力部からの指令又は適宜の記
憶部により予め定められた設定に従い、第1及び第2音
声認識部、映像遅延部の設定を行うステップと、第3処
理部は、第3入力部からの指令又は適宜の記憶部により
予め定められた設定に従い、レイアウト設定部の設定を
行うステップと、映像遅延部は、第3処理部による設定
及び制御に従い、カメラに入力された話者の映像を遅延
及び必要に応じて適宜の画像処理を行い、遅延映像デー
タを出力するステップと、第1音声認識部は、話者によ
る第1言語の内容を復唱する第1復唱者による第1言語
の内容を認識して第1可視言語データに変換するステッ
プと、第2音声認識部は、話者による第1言語の内容を
通訳者が通訳した第2言語の内容を復唱した第2復唱者
による第2言語の内容を認識して第2可視言語データに
変換するステップと、レイアウト設定部は、第3処理部
による設定及び制御に従い、第1及び第2音声認識部か
らの第1及び第2可視言語データ及び映像遅延部からの
遅延映像データを入力し、それらデータの表示レイアウ
トを設定し、画像処理によりこれらデータを同期又は略
同期させた表示映像を生成及び出力するステップと、文
字映像表示部は、レイアウト設定部からの出力に従い、
第1及び第2可視言語データ及び映像遅延データを同期
又は略同期させた表示映像を表示するステップと、を含
む音声映像変換方法が提供される。本発明の第8の解決
手段によると話者の音声を可視言語データに変換して話
者の映像データとともに表示するための音声映像変換方
法であって、第1及び第3処理部は、それぞれ、第1及
び第3入力部からの指令又は適宜の記憶部により予め定
められた設定に従い、第1音声認識部及び映像遅延部の
設定を行うステップと、第3処理部は、第3入力部から
の指令又は適宜の記憶部により予め定められた設定に従
い、レイアウト設定部の設定を行うステップと、映像遅
延部は、第3処理部による設定及び制御に従い、カメラ
に入力された話者の映像を遅延及び必要に応じて適宜の
画像処理を行い、遅延映像データを出力するステップ
と、第1音声認識部は、話者又は通訳者による第1言語
の内容を復唱する第1復唱者による第1言語の内容を認
識して第1可視言語データに変換するステップと、レイ
アウト設定部は、第3処理部による設定及び制御に従
い、第1音声認識部からの第1可視言語データ及び映像
遅延部からの遅延映像データを入力し、それらデータの
表示レイアウトを設定し、画像処理によりこれらデータ
を同期又は略同期させた表示映像を生成及び出力するス
テップと、文字映像表示部は、レイアウト設定部からの
出力に従い、第1可視言語データ及び映像遅延データを
同期又は略同期させた表示映像を表示するステップと、
を含む音声映像変換方法が提供される。
【0010】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。 1.第1の実施の形態 図1は、音声映像変換装置の第1の実施の形態の概略構
成図である。本実施の形態は、特に、国際会議、多国間
会議、二カ国間会議等の複数言語が関与する会議・会合
・講義・授業・教育等におけるコミュニケーションを支
援する。本実施の形態の音声映像変換装置は、カメラ
1、映像遅延部2、第1及び第2音声入力部3、4、第
1及び第2音声認識部5、6、文字表示部7、レイアウ
ト設定部8、文字映像表示部9、入力部10、処理部1
1を備える。
【0011】カメラ1は、話者Aの表情映像を撮影す
る。映像遅延部2は、カメラ1からの映像信号に対して
予め設定された遅延時間差を与え、遅延映像データを出
力する。映像遅延部2は、話者の表情映像を認識された
文字と一緒に表示して、受け手の言語理解の補助となる
ようにするために所定の映像遅延時間を与える。この映
像遅延時間は、聴覚障害者等の会議参加者の読話能力、
話者A・復唱者B又はC・通訳者Dの話すスピードや能
力等に応じて、適宜変更することができる。また、映像
遅延部2は、話者Aの表情などの映像を拡大・縮小等の
適宜の画像処理を行うようにしてもよい。
【0012】第1音声入力部3は、マイクロフォン等で
構成され、話者Aの音声を聞き取った特定の第1復唱者
Bの音声による内容が入力される。一方、第2音声入力
部4は、話者Aが話す内容を通訳者Dが通訳し、その通
訳者Dの音声を聞き取った特定の第2復唱者Cの音声に
よる内容が入力される。復唱者B又はCは、会議内に設
けた静かな場所で、説話マイクロホン等の第1又は第2
音声入力部3、4を通して音声入力することで、環境雑
音やマイクロホンの影響を解決することもできる。
【0013】第1及び第2音声認識部5、6は、それぞ
れ第1及び第2音声入力部3、4から入力された音声を
認識して文字データ、表意データ等の第1及び第2可視
言語データに変換して出力する。この例では、第1音声
認識部5は、話者Aが話す第1言語(例:日本語)を聞
いた第1復唱者Bにより第1言語で復唱された内容が入
力され、第1言語の可視言語データ(例:日本語文字
列)を出力する。一方、第2音声認識部6は、話者Aが
話す第1言語(例:日本語)を聞いた通訳者Dが第2言
語(例:英語などの外国語)に通訳して、さらに、通訳
者Dが話す第2言語を聞いた第2復唱者Cにより第2言
語で復唱された内容が入力され、第2言語の可視言語デ
ータ(例:英語などの外国語文字列)を出力する。
【0014】第1及び/又は第2音声認識部5、6は、
音声を第1復唱者Bが復唱した音声、通訳者Dの音声を
第2復唱者Cが復唱した音声のいずれか又は両方を選択
できるようにしてもよい。第1及び/又は第2音声認識
部5、6は、復唱者の音声を認識するように設定されて
おり、話者Aが話す話題又は会議の内容等により、第1
及び/又は第2復唱者B、Cが第1及び/又は第2音声
認識装置5、6に登録されている言語データベースを選
択できる選択部を備えるようにしてもよい。
【0015】さらに、第1及び/又は第2音声認識部
5、6は、仮名−漢字変換において誤変換される確率を
計算する誤変換確率計算部と、誤変換確率計算部で計算
された確率に応じて漢字出力か仮名文字出力かを決定す
る出力決定部を備えるようにしてもよい。第1及び/又
は第2音声認識部5、6は、日本語の同音意義語の漢字
処理に関しては、誤認識の確率を音声認識前に計算し、
その確率が高い場合には仮名文字で表示するようにする
こともできる。また、第1及び/又は第2音声認識部
5、6に登録されていない言葉は、第1及び/又は第2
復唱者B、Cの判断により仮名文字で表示するようにし
てもよい。
【0016】文字表示部7は、第1音声認識部5により
出力された第1言語の可視言語データを可視表示する。
通訳者Dは、文字表示部7により表示された第1可視言
語データを見て通訳するようにしても良い。
【0017】レイアウト設定部8は、第1及び第2音声
認識部5、6により認識された結果として出力された第
1及び第2可視言語データと、映像遅延部2により遅延
された話者Aの遅延映像データとを入力し、文字映像表
示部9への表示状態を設定する。処理部11は、文字映
像表示部9に表示される第1及び第2可視言語データ
(文字データ)及び遅延映像データについての、単位時
間当たりの行数、単位時間当たりの文字数、1行当たり
の文字数、色、大きさ、表示位置、その他の表示形式の
いずれか又は複数を設定し、レイアウト設定部8は、処
理部11による設定に応じて第1及び第2可視言語デー
タ及び遅延映像データについての拡大・縮小等の適宜の
画像処理を実行し、表示画像を生成する。
【0018】文字映像表示部9は、レイアウト設定部8
により設定及び生成された出力に従い、第1及び第2音
声認識部5、6により認識された結果として出力された
第1及び第2可視言語データと、映像遅延部2により遅
延された話者Aの遅延映像データとを組み合わせて表示
する。入力部10は、第1及び第2音声認識部5、6、
映像遅延部2、レイアウト設定部8等の各部の各種設
定、適宜のデータベースやメモリ等へのデータ入力指示
を行う。処理部11は、小型コンピュータであって、第
1及び第2音声認識部5、6、映像遅延部2、入力部1
0、レイアウト設定部8等の各部を制御する。
【0019】図2に、処理部による音声変換処理の第1
の実施の形態フローチャートを示す。処理部11は、入
力部10からの指令又は適宜の記憶部により予め定めら
れた設定に従い、第1、第2音声認識部5、6及び映像
遅延部2の設定を行う(S01)。第1、第2音声認識
部5、6の設定では、例えば、漢字誤認識率の閾値、使
用する言語データベース等を設定する。映像遅延部2の
設定では、例えば、話者画像の遅延時間の設定又は選定
を行う。さらに、処理部11は、入力部10からの指令
又は適宜の記憶部により予め定められた設定に従い、レ
イアウト設定部8の設定を行う(S03)。レイアウト
設定部8の設定では、文字映像表示部9に表示される第
1、第2可視言語データ及び遅延映像データの表示状態
・レイアウトを設定する。可視言語データについては、
例えば、呈示文字列数、呈示文字の大きさ・フォント・
色、文字列の表示位置、また、遅延映像データについて
は、話者画像の大きさ、表示位置等がそれぞれ適宜設定
される。
【0020】カメラ1は、話者Aの映像を入力する(S
05)。映像遅延部2は、処理部11による設定及び制
御に従い、カメラ1に入力された映像を遅延及び必要に
応じて適宜の画像処理を行い、遅延映像データを出力す
る(S07)。
【0021】第1音声入力部3は、第1復唱者Bによる
音声を入力する(S11)。第1音声認識部5は、処理
部11による設定及び制御に従い、第1音声入力部3に
入力された第1復唱者Bによる第1言語を認識して第1
可視言語データ(例:日本語文字列)に変換する(S1
3)。さらに、必要に応じて、文字表示部7は、第1音
声認識部5から出力された第1可視言語データを表示す
る(S15)。
【0022】第2音声入力部4は、通訳者Dが、話者音
声及び/又は文字表示部7に表示された第1可視言語デ
ータに基づき通訳した音声を第2復唱者Cが復唱し、そ
の復唱された音声を入力する(S17)。第2音声認識
部6は、処理部11による設定及び制御に従い、第2音
声入力部4に入力された第2復唱者Cによる第2言語を
認識して第2可視言語データ(例:外国語文字列)に変
換する(S19)。
【0023】レイアウト設定部8は、処理部11による
設定及び制御に従い、第1及び第2音声認識部5、6か
らの第1及び第2可視言語データ及び映像遅延部2から
遅延映像データを入力し、それらデータの表示レイアウ
トを設定し、必要に応じて適宜の画像処理により表示画
像を生成及び出力する(S21)。文字映像表示部9
は、レイアウト設定部8からの出力に従い、第1及び第
2可視言語データ及び映像遅延部2を適宜表示する(S
23)。
【0024】処理部11は、設定変更があるときはステ
ップS01に戻り処理を実行する(S25)。また、処
理部11は、設定変更が無い場合、話者A変更が無いと
きはステップS03の後の処理に移り、一方、話者A変
更があるときは、処理を終了して(S27)、改めて処
理を実行することができる。
【0025】2.第2の実施の形態 図3は、音声映像変換装置の第2の実施の形態の概略構
成図である。本実施の形態は、特に、国内会議、二カ国
間会議等の会議・会合・講義・授業・教育等におけるコ
ミュニケーションを支援する。本実施の形態の音声映像
変換装置は、カメラ1、映像遅延部2、第1及び第2音
声入力部3、4、第1音声認識部5、文字表示部7、レ
イアウト設定部8、文字映像表示部9、入力部10、処
理部11、及び、選択部20を備える。
【0026】第1の実施の形態と比較すると、第2音声
認識部が省略され、選択部20がさらに備えられた点
が、異なるが、他の構成及び動作は同様である。なお、
第2音声入力部及び選択部20は、必要に応じて、さら
に省略してもよい。
【0027】図4に、処理部による音声変換処理の第2
の実施の形態フローチャートを示す。第1の実施の形態
と比較すると、主に、ステップS17〜S19が省略さ
れた点が異なる。また、第1音声入力部3には、話者の
音声を復唱した復唱者Bの音声か、話者の音声を通訳し
た通訳者Dの音声を復唱者Cが復唱した音声かのいずれ
かが入力される。
【0028】処理部11は、入力部10からの指令又は
適宜の記憶部により予め定められた設定に従い、第1音
声認識部5及び映像遅延部2及び選択部20の設定を行
う(S101)。なお、選択部20が省略されていると
きは、その設定は不要である。第1音声認識部5の設定
では、例えば、漢字誤認識率の閾値、使用する言語デー
タベース等を設定する。映像遅延部2の設定では、例え
ば、話者画像の遅延時間の設定又は選定を行う。さら
に、処理部11は、入力部10からの指令又は適宜の記
憶部により予め定められた設定に従い、レイアウト設定
部8の設定を行う(S103)。レイアウト設定部8の
設定では、文字映像表示部9に表示される第1可視言語
データ(この例では、日本語文字列又は外国語文字列)
及び遅延映像データの表示状態・レイアウトを設定す
る。可視言語データについては、例えば、呈示文字列
数、呈示文字の大きさ・フォント・色、文字列の表示位
置、また、遅延映像データについては、話者画像の大き
さ、表示位置等がそれぞれ適宜設定される。
【0029】カメラ1は、話者Aの映像を入力する(S
105)。映像遅延部2は、処理部11による設定及び
制御に従い、カメラ1に入力された映像を遅延及び必要
に応じて適宜の画像処理を行い、遅延映像データを出力
する(S107)。
【0030】第1音声入力部3は、第1復唱者B又は第
2復唱者Cによる音声を入力する(S111)。第1音
声認識部5は、処理部11による設定及び制御に従い、
第1音声入力部3に入力された第1復唱者B又は第2復
唱者Cによる第1言語(この例では、日本語又は外国
語)を認識して第1可視言語データ(この例では、日本
語文字列又は外国語文字列)に変換する(S113)。
さらに、必要に応じて、文字表示部7は、第1音声認識
部5から出力された第1可視言語データを表示する(S
115)。
【0031】レイアウト設定部8は、処理部11による
設定及び制御に従い、第1音声認識部5からの第1可視
言語データ及び映像遅延部2から遅延映像データを入力
し、それらデータの表示レイアウトを設定し、必要に応
じて適宜の画像処理により表示画像を生成及び出力する
(S121)。文字映像表示部9は、レイアウト設定部
8からの出力に従い、第1可視言語データ及び映像遅延
部2を適宜表示する(S123)。
【0032】処理部11は、設定変更があるときはステ
ップS101に戻り処理を実行する(S125)。ま
た、処理部11は、設定変更が無い場合、話者A変更が
無いときはステップS103の後の処理に移り、一方、
話者A変更があるときは、処理を終了して(S12
7)、改めて処理を実行することができる。
【0033】3.第3の実施の形態 図5は、音声映像変換装置の第3の実施の形態の概略構
成図である。本実施の形態は、話者の音声言語情報を復
唱者などの第3者が文字言語情報に変換し、それらの言
語情報と話者による非言語情報とを電気通信回路を介し
て呈示することで、話者とユーザとの異なる言語体系間
におけるコミュニケーションの補助を行うものである。
本実施の形態は、第1の実施の形態と同様に、特に、国
際会議、多国間会議、二カ国間会議等の複数言語が関与
する会議・会合・講義・授業・教育等におけるコミュニ
ケーションを支援する。本実施の形態の音声映像変換装
置は、話者用装置100、通訳者用装置200、第1及
び第2復唱者用装置300及び400、第1及び第2認
識装置500及び600、表示装置700、電気通信回
路800を備える。話者用装置100は、カメラ1と、
必要に応じてマイクを備える。通訳者用装置200は、
受話器及びマイクを備える。第1及び第2復唱者用装置
300及び400は、それぞれ、第1及び第2音声入力
部3及び4、受話器を備える。第1及び第2認識装置5
00及び600は、それぞれ、第1及び第2音声認識部
5及び6、入力部10−b及び10−c、処理部11−
b及び11−cを備える。表示装置700は、映像遅延
部2、文字表示部7、レイアウト設定部8、文字映像表
示部9、入力部10−c、処理部11−cを備える。ま
た、図中黒丸印●で示す構成は、電気通信回路800で
あり、インターネット、LAN、無線LAN、携帯電
話、PDA等の各種電気通信回線と、電気通信回線が入
力及び出力される各装置100〜700内におけるイン
タフェースが設けられていることを表す。話者用装置1
00、通訳者用装置200、第1及び第2復唱者用装置
300及び400、第1及び第2認識装置500及び6
00、表示装置700のそれぞれは、必要に応じて適
宜、このような電気通信回路800により接続され、音
声及び/又は映像信号が通信される。図中のいずれかの
電気通信回路800を介さずに、直接有線又は無線によ
り接続するようにしてもよい。よって、電気通信回線及
びインターフェースを有する電気通信回路800を用い
ることにより、話者A、通訳者D、第1及び第2復唱者
B及びC、第1及び第2認識装置500及び600、会
場などに設置される表示装置700は、どこに存在して
もよく、適宜配置することができる。カメラ1、映像遅
延部2、第1及び第2音声入力部3、4、第1音声認識
部5、文字表示部7、レイアウト設定部8、文字映像表
示部9、入力部10(−a、b、c)処理部11(−
a、b、c)の構成及び動作は、第1の実施の形態の同
一符号のそれと同様である。ただし、入力部10−a
は、映像遅延部2、レイアウト設定部8等の各部の各種
設定、適宜のデータベースやメモリ等へのデータ入力指
示を行う。処理部−aは、小型コンピュータであって、
映像遅延部2、入力部10−a、−b及び10−c、レ
イアウト設定部8等の各部を制御する。また、入力部1
0−b及び10−cは、第1及び第2音声認識部5、6
の各種設定、適宜のデータベースやメモリ等へのデータ
入力指示を行う。処理部11−b及び11−cは、小型
コンピュータであって、第1及び第2音声認識部5、6
等の各部を制御する。また、第3の実施の形態の音声変
換処理のフローチャートは、第1の実施の形態と同様で
あり、上述したように動作する。
【0034】4.第4の実施の形態 図6は、音声映像変換装置の第4の実施の形態の概略構
成図である。本実施の形態は、話者の音声言語情報を復
唱者などの第3者が文字言語情報に変換し、それらの言
語情報と話者による非言語情報とを電気通信回路を介し
て呈示することで、話者とユーザとの異なる言語体系間
におけるコミュニケーションの補助を行うものである。
本実施の形態は、第3の実施の形態と同様に、特に、国
際会議、多国間会議、二カ国間会議等の複数言語が関与
する会議・会合・講義・授業・教育等におけるコミュニ
ケーションを支援する。本実施の形態の音声映像変換装
置は、話者用装置100、通訳者用装置200、第1及
び第2復唱者用装置300及び400、第1認識装置5
00、表示装置700、電気通信回路800を備える。
【0035】第3の実施の形態と比較すると、第2音声
認識部を含む第2認識装置600が省略され、第1認識
装置500に選択部20がさらに備えられた点が、異な
るが、他の構成及び動作は同様である。選択部20の構
成及び動作は、第2の実施の形態と同様である。なお、
第2音声入力部及び選択部20は、必要に応じて、さら
に省略してもよい。また、第4の実施の形態の音声変換
処理のフローチャートは、第3の実施の形態と同様であ
り、上述したように動作する。
【0036】5.むすび 本実施の形態では、以上のように、音声認識装置は、あ
らかじめ登録済みの復唱者の音声データベースを用い、
話者Aの声を復唱者が復唱した音声を該音声認識装置に
入力することにより音声変換し、どのような話者Aにで
も高い認識率が得られるようにしている。話者Aが通訳
者Dの場合でも、復唱者が通訳者Dの声を復唱すること
により、外国語を高い認識率で日本語に翻訳できる。逆
に、日本語で話された音声の場合は、通訳者Dが外国語
に訳し、その音声をその外国語で復唱することにより、
日本語を高い認識率で外国語に翻訳できる。同様に、質
問者の音声も文字表示できるため双方向の会議支援を実
現することができる。そのため、本実施の形態は、国内
会議ばかりでなく国際会議におけるコミュニケーション
支援としても利用できる。
【0037】また、本実施の形態によると、話者Aの映
像も取り込み、ある遅延時間で認識結果の文字列と一緒
に表示する方法を採っており、話者Aの唇の動き、表情
さらに手話の映像なども音声理解の手がかりとして利用
することができる。聴覚障害者の読話能力に応じて、映
像遅延部2による映像遅延時間を変更することができる
ようになっている。そのため、唇の動きを読みとる読話
に習熟した聴覚障害者にとっては音声認識の5%の誤り
を読話で修復できる。
【0038】本発明の文字映像変換方法又は文字映像変
換装置・システムは、その各手順をコンピュータに実行
させるための文字映像変換プログラム、文字映像変換プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体、文字映像変換プログラムを含みコンピュータの内部
メモリにロード可能なプログラム製品、そのプログラム
を含むサーバ等のコンピュータ、等により提供されるこ
とができる。
【0039】
【発明の効果】本発明によると、以上のように、不特定
話者の声を復唱者が自己の声に変換し音声認識装置を介
して文字に変換するとともに、話者の表情などの映像を
遅らせて文字とともにスクリーンなどに表示することに
より、聴覚障害者などが話者の話したことを理解しやす
くするための音声映像変換装置及び方法、音声映像変換
プログラムを提供することができる。
【0040】また、本発明によると、聴覚障害者が出席
するような国際会議、多国間・二国間会議等の会議にお
いて、講演者あるいは通訳者の音声を復唱者が復唱して
音声認識装置に入力し、その結果である文字列を講演者
の映像とともにスクリーンに表示するようにした会議支
援のための音声映像変換装置及び方法、音声映像変換プ
ログラムを提供することができる。さらに、本発明によ
ると、異種言語を使って行われる国際会議等の通訳およ
び会議の即時印刷(情報補償)、聴覚障害者等が参加す
る会議や授業の支援、電話から復唱者へ声を転送し文字
化された情報をユーザに提供することができる。また、
本発明によると、話者とユーザとの異なる言語体系間に
おけるコミュニケーションの補助を行うための音声映像
変換装置及び方法、音声映像変換プログラムを提供する
ことができる。また、本発明によると、さらにインター
ネットなどの電気通信回線を用いて通信を行う電気通信
回路により、話者の声と映像を遠隔地や在宅地にいる通
訳者、復唱者及び修正者に転送する手段を付加すること
により、ユーザがどこにいても本システムを利用できる
ようにすることができる。本発明によると、介在する復
唱者や通訳者が在宅ビジネスとして利用すること、さら
に、外出の難しい在宅の障害者が復唱者になることによ
り就労を支援することができる。
【図面の簡単な説明】
【図1】音声映像変換装置の第1の実施の形態の概略構
成図。
【図2】処理部による音声変換処理の第1の実施の形態
のフローチャート。
【図3】音声映像変換装置の第2の実施の形態の概略構
成図。
【図4】処理部による音声変換処理の第2の実施の形態
のフローチャート。
【図5】音声映像変換装置の第3の実施の形態の概略構
成図。
【図6】音声映像変換装置の第4の実施の形態の概略構
成図。
【符号の説明】
1 カメラ 2 映像遅延部 3 第1音声入力部 4 第2音声入力部 5 第1音声認識部 6 第2音声認識部 7 文字表示部 8 レイアウト設定部 9 文字映像表示部 10 入力部 11 処理部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561C (72)発明者 伊福部 達 東京都杉並区和泉3−59−15 シティハウ ス永福町205 Fターム(参考) 5C023 AA37 AA38 BA01 BA09 CA04 CA05 5D015 KK02 LL11

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】話者の表情映像を撮影するカメラと、 前記カメラにより撮影された映像信号に対して予め設定
    された遅延時間差を与え、遅延映像データを出力する映
    像遅延部と、 話者が話す第1言語の内容を復唱する第1復唱者の第1
    言語の内容が入力される第1音声入力部と、 話者が話す第1言語の内容を通訳した通訳者の第2言語
    の内容をさらに復唱する第2復唱者の第2言語の内容が
    入力される第2音声入力部と、 それぞれ、前記第1及び第2音声入力部から入力された
    第1及び第2言語の内容を認識して第1及び第2可視言
    語データに変換して出力する第1及び第2音声認識部
    と、 前記第1及び第2音声認識部から出力された第1及び第
    2可視言語データと、前記映像遅延部により遅延された
    話者の遅延映像データとを入力し、表示状態を設定して
    これらデータを同期又は略同期させた表示映像を生成す
    るレイアウト設定部と、 前記レイアウト設定部からの出力に従い、第1及び第2
    可視言語データと遅延映像データとを同期又は略同期さ
    せた表示映像を表示する文字映像表示部と 前記第1及び第2音声認識部、前記映像遅延部、前記レ
    イアウト設定部のいずれか又は複数の各部の各種設定を
    行うための入力部と、 前記第1及び第2音声認識部、前記映像遅延部、前記入
    力部、前記レイアウト設定部の各部を制御する処理部と
    を備えた音声映像変換装置。
  2. 【請求項2】話者の表情映像を撮影するカメラと、 前記カメラにより撮影された映像信号に対して予め設定
    された遅延時間差を与え、遅延映像データを出力する映
    像遅延部と、 話者又は通訳者が話す第1言語の内容を復唱する第1復
    唱者の第1言語の内容が入力される第1音声入力部と、 第1音声認識部は、前記第1音声入力部から入力された
    第1言語の内容を認識して第1可視言語データに変換し
    て出力する第1音声認識部と、 前記第1音声認識部から出力された第1可視言語データ
    と、前記映像遅延部により遅延された話者の遅延映像デ
    ータとを入力し、表示状態を設定してこれらデータを同
    期又は略同期させた表示映像を生成するレイアウト設定
    部と、 前記レイアウト設定部からの出力に従い、第1可視言語
    データと遅延映像データとを同期又は略同期させた表示
    映像を表示する文字映像表示部と前記第1音声認識部、
    前記映像遅延部、前記レイアウト設定部のいずれか又は
    複数の各部の各種設定を行うための入力部と、 前記第1音声認識部、前記映像遅延部、前記入力部、前
    記レイアウト設定部の各部を制御する処理部とを備えた
    音声映像変換装置。
  3. 【請求項3】前記第1及び/又は第2音声認識部は、さ
    らに、話者が話す話題又は会議の内容に従って、複数の
    音声認識用の言語データベースから特定の言語データベ
    ースを選択することができるようにした選択部を備えた
    請求項1又は2に記載の音声映像変換装置。
  4. 【請求項4】前記第1及び/又は第2音声認識部は、さ
    らに、 仮名−漢字変換において誤変換される確率を計算する誤
    変換確率計算部と、 前記誤変換確率計算部で計算された確率に応じて漢字出
    力か仮名文字出力かを決定する出力決定部を備えた請求
    項1又は2に記載の音声映像変換装置。
  5. 【請求項5】前記第1及び/又は第2音声認識部は、言
    語データベースに漢字が登録されていない言葉を、予め
    定められた設定により仮名文字で表示するようにするこ
    とを特徴とする請求項1又は2に記載の音声映像変換装
    置。
  6. 【請求項6】前記第1音声認識部により出力された第1
    言語の可視言語データを可視表示する文字表示部をさら
    に備えた請求項1又は2に記載の音声映像変換装置。
  7. 【請求項7】前記レイアウト設定部は、前記文字映像表
    示部に表示される可視言語データ及び遅延映像データに
    ついての、単位時間当たりの行数、単位時間当たりの文
    字数、1行当たりの文字数、色、大きさ、表示位置、そ
    の他の表示形式のいずれかが設定され、該設定に応じて
    可視言語データ及び遅延映像データについての画像処理
    を実行し、表示映像を生成することを特徴とする請求項
    1又は2に記載の音声映像変換装置。
  8. 【請求項8】話者の音声を可視言語データに変換して話
    者の映像データとともに表示するための音声映像変換方
    法であって、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、第1及び第2音声認識部及び
    映像遅延部の設定を行うステップと、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、レイアウト設定部の設定を行
    うステップと、 カメラは、話者の映像を入力するステップと、 映像遅延部は、処理部による設定及び制御に従い、カメ
    ラに入力された映像を遅延及び必要に応じて適宜の画像
    処理を行い、遅延映像データを出力するステップと、 第1音声入力部は、話者による第1言語の内容を復唱す
    る第1復唱者による第1言語の内容を入力するステップ
    と、 第1音声認識部は、第1音声入力部に入力された第1復
    唱者による第1言語の内容を認識して第1可視言語デー
    タに変換するステップと、 第2音声入力部は、話者による第1言語の内容を通訳者
    が通訳した第2言語の内容を第2復唱者が復唱し、その
    復唱された第2言語の内容を入力するステップと、 第2音声認識部は、第2音声入力部に入力された第2復
    唱者による第2言語の内容を認識して第2可視言語デー
    タに変換するステップと、 レイアウト設定部は、処理部による設定及び制御に従
    い、第1及び第2音声認識部からの第1及び第2言語デ
    ータ及び映像遅延部からの遅延映像データを入力し、そ
    れらデータの表示レイアウトを設定し、画像処理により
    これらデータを同期又は略同期させた表示映像を生成及
    び出力するステップと、 文字映像表示部は、レイアウト設定部からの出力に従
    い、第1及び第2言語データ及び映像遅延データを同期
    又は略同期させた表示映像を表示するステップと、を含
    む音声映像変換方法。
  9. 【請求項9】話者の音声を可視言語データに変換して話
    者の映像データとともに表示するための音声映像変換方
    法であって、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、第1音声認識部及び映像遅延
    部の設定を行うステップと、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、レイアウト設定部の設定を行
    うステップと、 カメラは、話者の映像を入力するステップと、 映像遅延部は、処理部による設定及び制御に従い、カメ
    ラに入力された映像を遅延及び必要に応じて適宜の画像
    処理を行い、遅延映像データを出力するステップと、 第1音声入力部は、話者又は通訳者による第1言語の内
    容を復唱する第1復唱者による第1言語の内容を入力す
    るステップと、 第1音声認識部は、第1音声入力部に入力された第1復
    唱者による第1言語の内容を認識して第1可視言語デー
    タに変換するステップと、 レイアウト設定部は、処理部による設定及び制御に従
    い、第1音声認識部からの第1言語データ及び映像遅延
    部からの遅延映像データを入力し、それらデータの表示
    レイアウトを設定し、画像処理によりこれらデータを同
    期又は略同期させた表示映像を生成及び出力するステッ
    プと、 文字映像表示部は、レイアウト設定部からの出力に従
    い、第1言語データ及び映像遅延データを同期又は略同
    期させた表示映像を表示するステップと、を含む音声映
    像変換方法。
  10. 【請求項10】レイアウト設定部の設定を行うステップ
    では、可視言語データについては、例えば、呈示文字列
    数、呈示文字の大きさ・フォント・色、文字列の表示位
    置のいずれか又は複数が設定され、また、遅延映像デー
    タについては、話者画像の大きさ、表示位置等のいずれ
    か又は複数が設定されることを特徴とする請求項8又は
    9に記載の音声映像変換方法。
  11. 【請求項11】さらに、文字表示部は、第1音声認識部
    から出力された第1可視言語データを表示するステップ
    とを含むことを特徴とする請求項8又は9に記載の音声
    映像変換方法。
  12. 【請求項12】話者の音声を可視言語データに変換して
    話者の映像データとともに表示するための音声映像変換
    プログラムであって、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、第1及び第2音声認識部及び
    映像遅延部の設定を行うステップと、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、レイアウト設定部の設定を行
    うステップと、 カメラは、話者の映像を入力するステップと、 映像遅延部は、処理部による設定及び制御に従い、カメ
    ラに入力された映像を遅延及び必要に応じて適宜の画像
    処理を行い、遅延映像データを出力するステップと、 第1音声入力部は、話者による第1言語の内容を復唱す
    る第1復唱者による第1言語の内容を入力するステップ
    と、 第1音声認識部は、第1音声入力部に入力された第1復
    唱者による第1言語の内容を認識して第1可視言語デー
    タに変換するステップと、 第2音声入力部は、話者による第1言語の内容を通訳者
    が通訳した第2言語の内容を第2復唱者が復唱し、その
    復唱された第2言語の内容を入力するステップと、 第2音声認識部は、第2音声入力部に入力された第2復
    唱者による第2言語の内容を認識して第2可視言語デー
    タに変換するステップと、 レイアウト設定部は、処理部による設定及び制御に従
    い、第1及び第2音声認識部からの第1及び第2言語デ
    ータ及び映像遅延部からの遅延映像データを入力し、そ
    れらデータの表示レイアウトを設定し、画像処理により
    これらデータを同期又は略同期させた表示映像を生成及
    び出力するステップと、 文字映像表示部は、レイアウト設定部からの出力に従
    い、第1及び第2言語データ及び映像遅延データを同期
    又は略同期させた表示映像を表示するステップと、をコ
    ンピュータに実行させるための音声映像変換方法プログ
    ラム。
  13. 【請求項13】話者の音声を可視言語データに変換して
    話者の映像データとともに表示するための音声映像変換
    プログラムであって、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、第1音声認識部及び映像遅延
    部の設定を行うステップと、 処理部は、入力部からの指令又は適宜の記憶部により予
    め定められた設定に従い、レイアウト設定部の設定を行
    うステップと、 カメラは、話者の映像を入力するステップと、 映像遅延部は、処理部による設定及び制御に従い、カメ
    ラに入力された映像を遅延及び必要に応じて適宜の画像
    処理を行い、遅延映像データを出力するステップと、 第1音声入力部は、話者又は通訳者による第1言語の内
    容を復唱する第1復唱者による第1言語の内容を入力す
    るステップと、 第1音声認識部は、第1音声入力部に入力された第1復
    唱者による第1言語の内容を認識して第1可視言語デー
    タに変換するステップと、 レイアウト設定部は、処理部による設定及び制御に従
    い、第1音声認識部からの第1言語データ及び映像遅延
    部からの遅延映像データを入力し、それらデータの表示
    レイアウトを設定し、画像処理によりこれらデータを同
    期又は略同期させた表示映像を生成及び出力するステッ
    プと、 文字映像表示部は、レイアウト設定部からの出力に従
    い、第1言語データ及び映像遅延データを同期又は略同
    期させた表示映像を表示するステップと、をコンピュー
    タに実行させるための音声映像変換方法プログラム。
  14. 【請求項14】話者が話す第1言語の内容を復唱する第
    1復唱者の第1言語の内容を認識して第1可視言語デー
    タに変換して出力する第1音声認識部と、前記第1音声
    認識部の各種設定を行うための第1入力部と、前記第1
    音声認識部及び前記第1入力部を制御する第1処理部と
    を有する第1認識装置と、 話者が話す第1言語の内容を通訳した通訳者の第2言語
    の内容をさらに復唱する第2復唱者の第2言語の内容を
    認識して第2可視言語データに変換して出力する第2音
    声認識部と、前記第2音声認識部の各種設定を行うため
    の第2入力部と、前記第2音声認識部及び前記第2入力
    部を制御する第2処理部とを有する第2認識装置と、 前記第1及び第2認識装置からの出力が入力され、文字
    及び映像を表示するための表示装置とを備え、 前記表示装置は、 カメラにより撮影された映像信号に対して予め設定され
    た遅延時間差を与え、遅延映像データを出力する映像遅
    延部と、 前記第1及び第2認識装置から出力された第1及び第2
    可視言語データと、前記映像遅延部により遅延された話
    者の遅延映像データとを入力し、表示状態を設定してこ
    れらデータを同期又は略同期させた表示映像を生成する
    レイアウト設定部と、 前記レイアウト設定部から出力された表示映像を表示す
    る文字映像表示部と 前記映像遅延部及び前記レイアウト設定部の各種設定を
    行うための第3入力部と、 前記映像遅延部、前記第3入力部、前記レイアウト設定
    部の各部を制御する第3処理部とを有する音声映像変換
    装置。
  15. 【請求項15】話者又は通訳者が話す第1言語の内容を
    復唱する第1復唱者の第1言語の内容を認識して第1可
    視言語データに変換して出力する第1音声認識部と、前
    記第1音声認識部の各種設定を行うための第1入力部
    と、前記第1音声認識部及び前記第1入力部を制御する
    第1処理部とを有する第1認識装置と、 前記第1認識装置からの出力が入力され、文字及び映像
    を表示するための表示装置とを備え、 前記表示装置は、 カメラにより撮影された映像信号に対して予め設定され
    た遅延時間差を与え、遅延映像データを出力する映像遅
    延部と、 前記第1認識装置から出力された第1可視言語データ
    と、前記映像遅延部により遅延された話者の遅延映像デ
    ータとを入力し、表示状態を設定してこれらデータを同
    期又は略同期させた表示映像を生成するレイアウト設定
    部と、 前記レイアウト設定部から出力された表示映像を表示す
    る文字映像表示部と 前記映像遅延部及び前記レイアウト設定部の各種設定を
    行うための第3入力部と、 前記映像遅延部、前記第3入力部、前記レイアウト設定
    部の各部を制御する第3処理部とを有する音声映像変換
    装置。
  16. 【請求項16】話者の表情映像を撮影するカメラと、 話者の音声を入力するする入力部と、 電気通信回線を介して通信するためのインタフェースと
    を有し、電気通信回線及びインタフェースを経て音声及
    び映像信号を出力する話者用装置をさらに備えた請求項
    14又は15に記載の音声映像変換装置。
  17. 【請求項17】話者が話す第1言語の内容を復唱する第
    1復唱者の第1言語の内容が入力される第1音声入力部
    と、電気通信回線を介して通信するためのインタフェー
    スとを有し、電気通信回線及びインタフェースを経て音
    声信号を前記第1認識装置に出力する第1復唱者用装置
    をさらに備えた請求項14又は15に記載の音声映像変
    換装置。
  18. 【請求項18】話者が話す第1言語の内容を通訳した通
    訳者の第2言語の内容をさらに復唱する第2復唱者の第
    2言語の内容が入力される第2音声入力部と、電気通信
    回線を介して通信するためのインタフェースとを有し、
    電気通信回線及びインタフェースを経て音声信号を前記
    第2認識装置に出力する第2復唱者用装置さらに備えた
    請求項14又は15に記載の音声映像変換装置。
  19. 【請求項19】前記第1及び第2認識装置及び前記表示
    装置は、電気通信回線を介して通信するためのインタフ
    ェースと、 前記第1及び/又は第2認識装置の出力は、電気通信回
    線及びインタフェースを介して前記表示装置に伝送され
    ることを特徴とする請求項14又は15に記載の音声映
    像変換装置。
  20. 【請求項20】前記レイアウト設定部は、前記文字映像
    表示部に表示される可視言語データ及び遅延映像データ
    についての、単位時間当たりの行数、単位時間当たりの
    文字数、1行当たりの文字数、色、大きさ、表示位置、
    その他の表示形式のいずれかが設定され、該設定に応じ
    て可視言語データ及び遅延映像データについての画像処
    理を実行し、表示映像を生成することを特徴とする請求
    項14又は15に記載の音声映像変換装置。
  21. 【請求項21】話者の音声を可視言語データに変換して
    話者の映像データとともに表示するための音声映像変換
    方法であって、 第1及び第2処理部、第3処理部は、それぞれ、第1及
    び第2入力部、第3入力部からの指令又は適宜の記憶部
    により予め定められた設定に従い、第1及び第2音声認
    識部、映像遅延部の設定を行うステップと、 第3処理部は、第3入力部からの指令又は適宜の記憶部
    により予め定められた設定に従い、レイアウト設定部の
    設定を行うステップと、 映像遅延部は、第3処理部による設定及び制御に従い、
    カメラに入力された話者の映像を遅延及び必要に応じて
    適宜の画像処理を行い、遅延映像データを出力するステ
    ップと、 第1音声認識部は、話者による第1言語の内容を復唱す
    る第1復唱者による第1言語の内容を認識して第1可視
    言語データに変換するステップと、 第2音声認識部は、話者による第1言語の内容を通訳者
    が通訳した第2言語の内容を復唱した第2復唱者による
    第2言語の内容を認識して第2可視言語データに変換す
    るステップと、 レイアウト設定部は、第3処理部による設定及び制御に
    従い、第1及び第2音声認識部からの第1及び第2可視
    言語データ及び映像遅延部からの遅延映像データを入力
    し、それらデータの表示レイアウトを設定し、画像処理
    によりこれらデータを同期又は略同期させた表示映像を
    生成及び出力するステップと、 文字映像表示部は、レイアウト設定部からの出力に従
    い、第1及び第2可視言語データ及び映像遅延データを
    同期又は略同期させた表示映像を表示するステップと、
    を含む音声映像変換方法。
  22. 【請求項22】話者の音声を可視言語データに変換して
    話者の映像データとともに表示するための音声映像変換
    方法であって、 第1及び第3処理部は、それぞれ、第1及び第3入力部
    からの指令又は適宜の記憶部により予め定められた設定
    に従い、第1音声認識部及び映像遅延部の設定を行うス
    テップと、 第3処理部は、第3入力部からの指令又は適宜の記憶部
    により予め定められた設定に従い、レイアウト設定部の
    設定を行うステップと、 映像遅延部は、第3処理部による設定及び制御に従い、
    カメラに入力された話者の映像を遅延及び必要に応じて
    適宜の画像処理を行い、遅延映像データを出力するステ
    ップと、 第1音声認識部は、話者又は通訳者による第1言語の内
    容を復唱する第1復唱者による第1言語の内容を認識し
    て第1可視言語データに変換するステップと、 レイアウト設定部は、第3処理部による設定及び制御に
    従い、第1音声認識部からの第1可視言語データ及び映
    像遅延部からの遅延映像データを入力し、それらデータ
    の表示レイアウトを設定し、画像処理によりこれらデー
    タを同期又は略同期させた表示映像を生成及び出力する
    ステップと、 文字映像表示部は、レイアウト設定部からの出力に従
    い、第1可視言語データ及び映像遅延データを同期又は
    略同期させた表示映像を表示するステップと、を含む音
    声映像変換方法。
  23. 【請求項23】レイアウト設定部の設定を行うステップ
    では、可視言語データについては、例えば、呈示文字列
    数、呈示文字の大きさ・フォント・色、文字列の表示位
    置のいずれか又は複数が設定され、また、遅延映像デー
    タについては、話者画像の大きさ、表示位置等のいずれ
    か又は複数が設定されることを特徴とする請求項8又は
    9に記載の音声映像変換方法。
  24. 【請求項24】話者による第1言語の内容及びカメラか
    ら入力された話者の映像を、電気通信回路を介して伝送
    するステップをさらに含む請求項8又は9に記載の音声
    映像変換方法。
  25. 【請求項25】第1復唱者による第1言語の内容、第2
    復唱者による第2言語の内容、通訳者による第2言語の
    内容、のいずれか又は複数を電気通信回路を介して伝送
    するステップをさらに含む請求項8又は9に記載の音声
    映像変換方法。
  26. 【請求項26】第1及び/又は第2音声認識装置から出
    力された第1及び/又は第2可視言語データを電気通信
    回路を介して入力するステップをさらに含む請求項8又
    は9に記載の音声映像変換方法。
JP2003068440A 2002-03-20 2003-03-13 音声映像変換装置及び方法、音声映像変換プログラム Withdrawn JP2003345379A (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2003068440A JP2003345379A (ja) 2002-03-20 2003-03-13 音声映像変換装置及び方法、音声映像変換プログラム
US10/506,220 US20050228676A1 (en) 2002-03-20 2003-03-19 Audio video conversion apparatus and method, and audio video conversion program
CN03806570.3A CN1262988C (zh) 2002-03-20 2003-03-19 音频视频转换设备和音频视频转换方法
EP03744531A EP1486949A4 (en) 2002-03-20 2003-03-19 APPARATUS, METHOD AND PROGRAM FOR VIDEO AUDIO CONVERSION
AU2003220916A AU2003220916A1 (en) 2002-03-20 2003-03-19 Audio video conversion apparatus and method, and audio video conversion program
CA002479479A CA2479479A1 (en) 2002-03-20 2003-03-19 Audio video conversion apparatus, audio video conversion method, and audio video conversion program
PCT/JP2003/003305 WO2003079328A1 (fr) 2002-03-20 2003-03-19 Appareil, procede et programme de conversion audio video

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002077773 2002-03-20
JP2002077773 2002-03-20
JP2002-77773 2002-03-20
JP2003068440A JP2003345379A (ja) 2002-03-20 2003-03-13 音声映像変換装置及び方法、音声映像変換プログラム

Publications (3)

Publication Number Publication Date
JP2003345379A true JP2003345379A (ja) 2003-12-03
JP2003345379A6 JP2003345379A6 (ja) 2004-09-02
JP2003345379A5 JP2003345379A5 (ja) 2005-10-06

Family

ID=28043788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003068440A Withdrawn JP2003345379A (ja) 2002-03-20 2003-03-13 音声映像変換装置及び方法、音声映像変換プログラム

Country Status (7)

Country Link
US (1) US20050228676A1 (ja)
EP (1) EP1486949A4 (ja)
JP (1) JP2003345379A (ja)
CN (1) CN1262988C (ja)
AU (1) AU2003220916A1 (ja)
CA (1) CA2479479A1 (ja)
WO (1) WO2003079328A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7702506B2 (en) 2004-05-12 2010-04-20 Takashi Yoshimine Conversation assisting device and conversation assisting method
US8553855B2 (en) 2010-12-17 2013-10-08 Kabushiki Kaisha Toshiba Conference support apparatus and conference support method
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
WO2021059968A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
JP2006240826A (ja) * 2005-03-03 2006-09-14 Mitsubishi Electric Corp エレベータかご内表示装置
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US7844460B2 (en) * 2007-02-15 2010-11-30 Motorola, Inc. Automatic creation of an interactive log based on real-time content
CN101309390B (zh) * 2007-05-17 2012-05-23 华为技术有限公司 视讯通信系统、装置及其字幕显示方法
WO2008154542A1 (en) * 2007-06-10 2008-12-18 Asia Esl, Llc Program to intensively teach a second language using advertisements
US8149330B2 (en) * 2008-01-19 2012-04-03 At&T Intellectual Property I, L. P. Methods, systems, and products for automated correction of closed captioning data
US8358328B2 (en) * 2008-11-20 2013-01-22 Cisco Technology, Inc. Multiple video camera processing for teleconferencing
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
CN116312567A (zh) * 2010-02-18 2023-06-23 株式会社尼康 便携式装置以及信息处理系统
US8963987B2 (en) * 2010-05-27 2015-02-24 Microsoft Corporation Non-linguistic signal detection and feedback
US8670018B2 (en) 2010-05-27 2014-03-11 Microsoft Corporation Detecting reactions and providing feedback to an interaction
CN104424955B (zh) * 2013-08-29 2018-11-27 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
KR102281341B1 (ko) * 2015-01-26 2021-07-23 엘지전자 주식회사 싱크 디바이스 및 그 제어 방법
US10397645B2 (en) * 2017-03-23 2019-08-27 Intel Corporation Real time closed captioning or highlighting method and apparatus
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110246501B (zh) * 2019-07-02 2022-02-01 思必驰科技股份有限公司 用于会议记录的语音识别方法及系统
US11132535B2 (en) * 2019-12-16 2021-09-28 Avaya Inc. Automatic video conference configuration to mitigate a disability
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63219067A (ja) * 1987-03-09 1988-09-12 Agency Of Ind Science & Technol 辞書検索装置
US5294982A (en) * 1991-12-24 1994-03-15 National Captioning Institute, Inc. Method and apparatus for providing dual language captioning of a television program
US5701153A (en) * 1994-01-14 1997-12-23 Legal Video Services, Inc. Method and system using time information in textual representations of speech for correlation to a second representation of that speech
JP3582069B2 (ja) * 1994-08-05 2004-10-27 マツダ株式会社 音声対話型ナビゲーション装置
JPH10234016A (ja) * 1997-02-21 1998-09-02 Hitachi Ltd 映像信号処理装置及びそれを備えた映像表示装置及び記録再生装置
TW416247B (en) * 1998-03-31 2000-12-21 Matsushita Electric Ind Co Ltd Transmission device and transmission method
US7110951B1 (en) * 2000-03-03 2006-09-19 Dorothy Lemelson, legal representative System and method for enhancing speech intelligibility for the hearing impaired
EP1295482B1 (en) * 2000-06-09 2010-09-01 British Broadcasting Corporation Generation of subtitles or captions for moving pictures
JP2002010138A (ja) * 2000-06-20 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報処理方法及び情報処理装置
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7702506B2 (en) 2004-05-12 2010-04-20 Takashi Yoshimine Conversation assisting device and conversation assisting method
US8553855B2 (en) 2010-12-17 2013-10-08 Kabushiki Kaisha Toshiba Conference support apparatus and conference support method
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
WO2021059968A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01

Also Published As

Publication number Publication date
CN1262988C (zh) 2006-07-05
AU2003220916A1 (en) 2003-09-29
EP1486949A4 (en) 2007-06-06
WO2003079328A1 (fr) 2003-09-25
EP1486949A1 (en) 2004-12-15
CN1643573A (zh) 2005-07-20
US20050228676A1 (en) 2005-10-13
CA2479479A1 (en) 2003-09-25

Similar Documents

Publication Publication Date Title
JP2003345379A (ja) 音声映像変換装置及び方法、音声映像変換プログラム
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
US10885318B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
EP2574220B1 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
US8494859B2 (en) Universal processing system and methods for production of outputs accessible by people with disabilities
US6377925B1 (en) Electronic translator for assisting communications
US5815196A (en) Videophone with continuous speech-to-subtitles translation
US20090012788A1 (en) Sign language translation system
WO1997008895A1 (fr) Systeme de telephone chirologique
US20120209588A1 (en) Multiple language translation system
US20090144048A1 (en) Method and device for instant translation
US20020198716A1 (en) System and method of improved communication
US9110888B2 (en) Service server apparatus, service providing method, and service providing program for providing a service other than a telephone call during the telephone call on a telephone
JPH10136327A (ja) ディスクトップ会議システム
US11700325B1 (en) Telephone system for the hearing impaired
WO2024008047A1 (zh) 数字人手语播报方法、装置、设备及存储介质
US20040012643A1 (en) Systems and methods for visually communicating the meaning of information to the hearing impaired
JP2004015478A (ja) 音声通信端末装置
KR102299571B1 (ko) 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
KR20150060348A (ko) 장애인 사이의 의사소통 장치 및 방법
KR100395491B1 (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
JP2002027039A (ja) 通信通訳システム
TWI795209B (zh) 多種手語轉譯系統
JP7152454B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050526

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050526

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20061004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061004

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080221