JP2011182125A - 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム - Google Patents
会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2011182125A JP2011182125A JP2010043163A JP2010043163A JP2011182125A JP 2011182125 A JP2011182125 A JP 2011182125A JP 2010043163 A JP2010043163 A JP 2010043163A JP 2010043163 A JP2010043163 A JP 2010043163A JP 2011182125 A JP2011182125 A JP 2011182125A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- original
- subtitle
- data
- displayed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 194
- 238000004590 computer program Methods 0.000 title claims abstract description 27
- 230000010365 information processing Effects 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000013519 translation Methods 0.000 claims abstract description 373
- 239000010979 ruby Substances 0.000 claims abstract description 11
- 229910001750 ruby Inorganic materials 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 98
- 238000009826 distribution Methods 0.000 claims description 14
- 230000014616 translation Effects 0.000 description 356
- 230000008569 process Effects 0.000 description 152
- 230000006870 function Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 33
- 238000007726 management method Methods 0.000 description 29
- 238000012937 correction Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 20
- 230000008859 change Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 239000011295 pitch Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001248531 Euchloe <genus> Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【解決手段】発言者が英語で発言した音声が音声認識される。聞き手が使用するディスプレイの字幕表示領域4は、上半分が訳振り領域41として用いられ、下半分が原文領域42として用いられる。訳振り領域41には、音声認識結果である原文431に、原文431を日本語に翻訳した訳文432がルビ状に併記された訳振り字幕43が表示される。このように、原文431及び訳文432の両方が表示され、しかも、原文431に含まれる単語又は連語に、訳文432として、この単語又は連語を翻訳した語句が表示されるため、聞き手が理解し易く、また、誤訳に気付き易い。更に、原文領域42には、まだ翻訳されていない原文442を含む原文字幕44が表示される。
【選択図】図6
Description
以下では、発言する立場の参加者を発言者といい、発言を聞く立場の参加者を聞き手といい、両者を区別しない場合には単に参加者という。
この結果、聞き手が理解できない言語、又は理解に多くの努力を要する言語でなされた発言の内容を、聞き手が容易に理解することができる言語に翻訳してから表示することが可能である。従って、参加者の利便性を向上させることができる。
このため、原文のみが表示される場合は、聞き手が発言者の発言内容を理解できないことがある。
一方、訳文のみが表示される場合は、原文が誤訳された場合に、聞き手が発言者の発言内容を誤解する虞がある。
発言者は、一の言語で発言する。ここで、一の言語は、発言者が容易に理解することができる言語である。
発言者による発言の音声は、認識手段によって一の言語で音声認識される。
認識手段による認識結果(即ち原文)は、翻訳手段によって他の言語に翻訳される。ここで、他の言語は、聞き手が容易に理解することができる言語である。
制御手段は、表示部を制御する。この結果、表示部に、生成手段が生成した対訳字幕、即ち、原文と訳文とが併記された字幕が表示される。
聞き手は、表示部に表示された対訳字幕を読むことによって、発言者の発言内容を理解する。このとき、聞き手は訳文のみ又は原文のみを読むことも、原文と訳文とを対比させつつ読むことも可能である。
なお、参加者が一堂に会している場合には、表示部は1つであってもよい。
原文に含まれる一文を正確に翻訳することに比べれば、原文に含まれる単語又は連語を正確に翻訳することは容易である。従って、原文を誤訳してしまう可能性を低減することができる。
また、聞き手は、単語又は連語毎に原文と訳文とを容易に対比させることができる。従って、聞き手は誤訳の有無を容易に判断することができる。この結果、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。
制御手段は表示部を制御する。この結果、表示部が有する表示領域が2分割される。更に、2分割された表示領域の一方(以下、訳振り領域という)に、原文と訳文とが併記された訳振り字幕が表示され、他方(以下、原文領域という)に、原文が記載された字幕(即ち認識結果字幕)が表示される。このため、表示領域に訳振り字幕及び認識結果字幕の両方が表示されているにも拘らず、聞き手にとっては訳振り字幕及び認識結果字幕夫々が読み易い。即ち、各字幕の読み易さを向上させることができる。
しかしながら、本発明では、原文から訳文が得られる前に、認識結果字幕だけを先に表示することができる。この結果、訳振り字幕のみを表示する場合に比べて、聞き手を無用に待たせてしまう虞がない。
つまり、認識結果字幕を適宜に消去することができる。この結果、参加者の利便性を損ねることなく、原文及び訳文を効率よく表示することができる。
訳振り領域及び原文領域夫々は、表示部が有する表示領域を2分割したものであるため、訳振り領域(又は原文領域)に同時的に表示することが可能な訳振り字幕(又は認識結果字幕)の量は、表示領域全体に表示可能な量よりも少ない。
しかしながら、訳振り字幕(又は認識結果字幕)が自動的にスクロール表示される場合には、聞き手は、訳振り字幕(又は認識結果字幕)の全文を、順に読んでいくことができる。
以上の結果、各字幕の読み易さを向上させることができる。
一般に、高精度の音声認識結果を得るための演算には長時間を要する。従って、高精度の音声認識結果が表示されるまで、聞き手を長時間待たせてしまう虞がある。とはいえ、音声認識結果の精度を犠牲にして演算時間を短縮すると、誤った音声認識結果が表示されてしまうかもしれない。
以下では、認識手段による最初の認識結果を最初の原文といい、再度の認識結果を、高精度原文という。
生成手段は、置換部分及び被置換部分がある場合、即ち、最初の原文に誤りが含まれている場合、最初の原文と訳文とが併記された対訳字幕を、高精度原文と訳文とが併記された対訳字幕に修正する。
一方、表示されている対訳字幕に誤りが含まれていた場合には、注意が必要である。何故ならば、例えば被置換部分の文字数が、置換部分の文字数よりも少ない場合、表示部に表示されている被置換部分を、置換部分で単純に置き換えることができないからである。
更に、最初の原文と高精度原文とでは、例えば置換部分及び被置換部分夫々の文字数の差異により、同一の語句が異なる位置に配置される可能性が高い。このため、聞き手が最初の原文を読んでいる最中に、最初の原文が消去されてしまうと、改めて高精度原文が表示されても、聞き手は、自分がどこまで読んだのかがわからなくなり易い。
つまり、原文の全置換には、会議システムの使用性を悪化させるという問題がある。
被置換部分を消去すれば表示可能領域が生じる場合、制御手段は、表示部を制御することによって、被置換部分を消去させ、表示可能領域に置換部分を表示させる。
以上の結果、文字サイズ又は文字間のピッチを変更することなく、また、原文を全部置換することなく、表示されている最初の原文を、高精度原文に修正することができる。この場合、会議システムの使用性の悪化を抑制することができる。
しかも、所定時間が経過すれば、強調表示は行なわれないため、置換部分が強調表示され続けることによって美観を損なったり、聞き手が対訳字幕を読み難くなったりする虞がない。
中央装置では、認識手段が、発言の音声を一の言語で音声認識する。この結果、中央装置では原文が得られる。また、中央装置では、翻訳手段が、原文を他の言語に翻訳する。この結果、中央装置では訳文が得られる。
更に、中央装置では、配信手段が、原文及び訳文を夫々示すデータを複数台の端末装置へ配信する。
このような端末装置は、本発明に係る情報処理装置を用いてなり、本発明に係る情報処理方法を実現する。また、本発明に係るコンピュータプログラムは、本発明の情報処理装置が備える各種手段を、コンピュータのハードウェア要素を用いてソフトウェア的に実現させる。
そこで、中央装置が煩雑な演算処理を実行する。この場合、中央装置の演算能力のみ高くすればよいため、会議システムの製造コストを低減しつつ、音声認識から字幕表示までの処理時間を短縮することができる。
一方、聞き手は、発言者の発言内容を、自身が容易に理解することができる他の言語で読むことができる。このとき、一の言語が全く理解できなくても格別の問題はない。従って、聞き手は、一の言語でなされた発言を聞く場合、及び、一の言語で表記された発言内容を読む場合の何れと比べても、発言者の発言内容を、容易に理解することができる。
以上の結果、発言者であるか聞き手であるかを問わず、会議の参加者全員の利便性を向上させることができる。
図1は、本発明の実施の形態1に係る会議システム6の構成を模式的に示す斜視図である。
本実施の形態における会議システム6は、複数人の参加者による会議の実現を支援すべく、会議に必要な情報を複数台の端末装置1,1,…間で共有させる。このために、会議システム6は、参加者が使用する端末装置1を人数分備え、更に、1台の中央装置3と、ネットワーク5とを備えている。
ネットワーク5は、会議が行なわれる会社組織の社内LAN、及び/又はインターネットのような公衆通信網等を用いてなる。
以下では、特に区別しない限り、認証された端末装置1を単に端末装置1という。
端末装置1は、パーソナルコンピュータを用いてなり、バス又は信号線によって相互に接続されている制御部11、HDD(ハードディスク)12、入力処理部13、表示処理部14、通信処理部15、映像処理部16、入力音声処理部17、出力音声処理部18、及び外部記憶部19を備える。
更に、端末装置1は、内蔵又は外部接続により、タブレット21、マウス22、キーボード23、ディスプレイ24、I/F部25、カメラ26、マイク27、及びスピーカ28を備える。
制御部11が、HDD12に記憶されている端末プログラム1Pに従って装置各部を制御することによって、端末装置1は、本発明の実施の形態における情報処理装置として機能する。
また、HDD12には、後述する字幕管理テーブル1T(図8及び図9参照)が記憶されている。
以下では、タブレット21、マウス22、及びキーボード23を区別せずに、操作部21〜23という。
制御部11は、表示処理部14を介して、ディスプレイ24に、後述する字幕表示画面241(図4参照)を表示させる。字幕表示画面241内には、端末装置1,1,…間で共有すべき字幕を表示するための字幕表示領域4が設けられる。
制御部11は、通信処理部15を用いて、中央装置3との間で各種データを送受信する。
制御部11は、映像処理部16から出力された動画像データを、中央装置3へ送信する。一の端末装置1から中央装置3へ送信された動画像データは、中央装置3から他の端末装置1,1,…へ配信される。
制御部11は、入力音声処理部17から出力された音声データを、中央装置3へ送信する。一の端末装置1から中央装置3へ送信された音声データは、中央装置3から他の端末装置1,1,…へ配信される。
出力音声処理部18には、スピーカ28が接続されている。出力音声処理部18はD/A変換機能を有しており、自身に入力されたデジタルの音声データを、アナログの音声へ変換してからスピーカ28に与える。このとき、スピーカ28から音声が出力される。
記録媒体Mとしては、例えばCD−ROM、DVD、ブルーレイディスク、又はフレキシブルディスク等が用いられる。
本実施の形態においては、端末プログラム1Pは、記録媒体Mに記録された状態で配布される構成であるが、このような構成に限定されるものではない。例えば、端末プログラム1Pは、ネットワーク5を介して配信される構成でもよく、制御部11が有するROMに予め記憶してある構成でもよい。
以下では、複数台の端末装置1,1,…を区別する場合に、便宜的に端末装置A1,B1,C1,…という(後述する図7参照)。また、端末装置A1,B1,C1,…を使用する参加者を、参加者a,b,c,…という。更に、参加者aは発言者aともいい、参加者b,c,…は聞き手b,c,…ともいう。
中央装置3は、サーバコンピュータを用いてなり、バス又は信号線によって相互に接続されている制御部31、HDD32、及び通信処理部33を備える。更に、中央装置3は、I/F部34を内蔵している。
制御部31は、主記憶部であるROMと、ROMに記憶されているコンピュータプログラムに従って各種処理を実行するCPUと、CPUが作業領域として用いるRAMとを備え、中央装置3の制御中枢として機能する。
HDD32には、中央装置3用のコンピュータプログラム(以下、中央プログラムという)3Pが記憶されている。制御部31が、HDD32に記憶されている中央プログラム3Pに従って各種処理を実行し、装置各部を制御する。中央プログラム3Pには、音声認識用のコンピュータプログラム、及び、翻訳用のコンピュータプログラム等が含まれている。なお、HDD32には中央プログラム3P以外のコンピュータプログラムも記憶されていてよい。
また、HDD32には、図示はしないが、端末装置1,1,…の認証を行なうためのユーザデータが記憶されている。更に、HDD32には、後述する言語登録テーブル3Tが記憶されている。
制御部31は、通信処理部33を用いて、端末装置1,1,…夫々との間で各種データを送受信する。
このために、各参加者は、端末装置1を1台ずつ使用し、操作部21〜23を操作することによって、端末プログラム1Pに基づく会議用アプリケーションソフトウェア(以下、会議用アプリという)を起動させる。
会議用アプリが起動した場合、参加者がユーザID及びパスワード等のユーザ情報を入力するための認証画面がディスプレイ24に表示される。参加者は、ディスプレイ24に表示された認証画面を視認しながら、操作部21〜23を操作することによって、認証画面にユーザ情報を入力する。
中央装置3は、ユーザデータ及びIPアドレスを受信する。
制御部31は、受信したユーザデータとHDD32に記憶されているユーザデータとを比較することによって、ログインを許可するか否かを判定する。次いで、制御部31は、判定結果に応じた認証結果データを、受信したIPアドレスによって識別される端末装置1へ送信する。
一方、ログインの却下を示す認証結果データを受信した端末装置1(即ち認証されなかった端末装置1)では、ディスプレイ24に、エラーメッセージを含む画面が表示される。この場合、参加者は、端末装置1を会議システム6の会議用端末装置として使用することができない。
字幕表示画面241は会議用アプリのアプリケーション・ウィンドウであり、字幕表示画面241の中央部には、矩形状の字幕表示領域4が設けられている。
ところで、発言者aが英語を母国語としており、聞き手b,cが日本語を母国語としており、聞き手dがドイツ語を母国語としている場合、発言者aは英語を使用する方が日本語又はドイツ語等を使用するよりも利便性が高く、聞き手b,cは日本語を使用する方が利便性が高く、聞き手dはドイツ語を使用する方が利便性が高い。
このような対訳字幕として、本実施の形態では、原文に訳文がルビ状に併記された訳振り字幕を例示する。また、原文字幕は、本発明の実施の形態における認識結果字幕として機能する。
字幕表示領域4は仮想的に上下に2分割されており、上側が訳振り字幕を表示するための訳振り領域41として用いられ、下側が原文字幕を表示するための原文領域42として用いられる。従って、字幕表示領域4、並びに訳振り領域41及び原文領域42は、本発明の実施の形態における表示部が有する表示領域、並びに表示領域を2分割してなる一方及び他方として機能する。なお、訳振り領域41と原文領域42との間に、境界線が表示されてもよい。
このとき、原文領域42を視認する聞き手b,cには、まず、原文441が原文領域42の下辺部から上方へ移動するように自動的に表示され(即ち原文441が自動的にスクロールアップ表示され)、次いで、原文442が原文441を押し上げるように自動的に表示される(即ち原文441,442が自動的にスクロールアップ表示される)ように見える。
このとき、訳振り領域41視認する聞き手b,cには、1行目の原文431が原文領域42の下辺部から上方へ移動するように自動的に表示され、次いで、1行目の訳文432が原文441を押し上げるように自動的に表示され、同様に、各2行目の原文431及び訳文432が各1行目の原文431及び訳文432を押し上げるように自動的に表示されるように見える。
このため、原文領域42を視認する聞き手b,cには、原文431及び訳文432の表示と共に原文441が消去されて、原文442だけが残るように見える。
この後、使用言語が英語であることを示すデータと端末識別データとが、端末装置A1から中央装置3へ送信される。
使用言語を示すデータと端末識別データとを受信した中央装置3では、端末装置A1,B1,C1,…の端末識別データと、参加者a,b,c,…の使用言語とが関連付けられた言語登録テーブル3Tが、HDD32に記憶される。
発言者aが英語でなした発言の音声は、端末装置A1のマイク27によって集音され、端末装置A1の入力音声処理部17によって音声データに変換される。変換後の音声データ、即ち発言者aによる発言を示す音声データは、端末装置A1の端末識別データと共に、端末装置A1から中央装置3へ送信される。
本実施の形態の例では、中央装置3が受信した端末識別データは端末装置A1を示すものであるため、原文の言語は英語である、と判定される。また、端末装置B1,C1に係る訳文の言語は日本語であり、端末装置D1に係る訳文の言語はドイツ語である、と判定される。
以下では、英語を日本語に翻訳する場合を例示する。
また、音声認識エンジン311は、生成した原文データを端末装置B1,C1へ配信する。
また、翻訳エンジン312は、生成した訳文データを端末装置B1,C1へ配信する。
ところで、一の音声認識処理の終了後、この音声認識処理に続く翻訳処理が終了しない内に、次の音声認識処理が終了することがある。この場合、例えば一の原文441の原文データが配信され、原文441(原文431)に対応する訳文432の訳文データが配信される前に、次の原文442の原文データが配信される(図5及び図6参照)。
図7に示すように、端末装置B1,C1夫々の制御部11は、端末プログラム1Pに従うことによって、字幕生成エンジン111として機能する。
次に、字幕生成エンジン111は、受信した原文データに基づいて、ディスプレイ24に原文441を含む原文字幕44を表示させるための原文字幕データを生成する。更に、字幕生成エンジン111は、生成した原文字幕データを表示処理部14に与えることによって、ディスプレイ24に原文字幕44を表示させる。そして、字幕生成エンジン111は、字幕管理テーブル1Tに、原文441を含む原文字幕44を登録する。
この結果、図8(a)に示すような字幕管理テーブル1Tが得られる。
次に、字幕生成エンジン111は、受信した原文データに基づいて、ディスプレイ24に原文441,442を含む原文字幕44を表示させるための原文字幕データを生成する。更に、字幕生成エンジン111は、生成した原文字幕データを表示処理部14に与えることによって、ディスプレイ24に原文字幕44を表示させる。
そして、字幕生成エンジン111は、字幕管理テーブル1Tに、原文441,442を含む原文字幕44を登録する。
更に、訳文432の訳文データを受信した場合、字幕生成エンジン111は、字幕管理テーブル1Tに、訳文432の訳文データを登録する。
この結果、図9(a)に示すような字幕管理テーブル1Tが得られる。
また、字幕生成エンジン111は、現在の原文字幕データ、つまり、ディスプレイ24に原文441,442を含む原文字幕44を表示させるための原文字幕データを、ディスプレイ24に原文442を含む原文字幕44を表示させるための原文字幕データに修正する。何故ならば、原文441に相当する原文431が訳振り字幕43に含まれるからである。このように修正した原文字幕データに基づいて表示される原文字幕44からは、原文441が消去される。
そして、字幕生成エンジン111は、字幕管理テーブル1Tに、原文431及び訳文432を含む訳振り字幕43と原文442を含む原文字幕44とを登録する。
この結果、図9(b)に示すような字幕管理テーブル1Tが得られる。従って、この字幕管理テーブル1Tを参照すれば、図6に示すような字幕表示領域4がディスプレイ24に表示されていることがわかる。
以上のような字幕生成エンジン111は、本発明の実施の形態における生成手段及び制御手段として機能する。
この場合には、原文領域42において、原文字幕44に含まれる原文の先頭部側が順に自動的に消去されると共に、原文字幕44に含まれる原文の後尾部側が順に自動的にスクロールアップ表示される。しかも、原文字幕44に含まれる原文の先頭部側が省略されていることを報知する省略記号45(次の図10参照)が表示される。
原文領域42を視認する聞き手b,cには、原文字幕44に含まれる原文が、先頭部から後尾部へ順に自動的にスクロールアップ表示され続けている内に、やがて、原文の先頭部が原文領域42外へ自動的に押し出される(即ち自動的にスクロールアウト表示される)ように見える。また、聞き手b,cには、原文のスクロールアウト表示と共に、訳振り領域41と原文領域42との間に、両者を区切るような省略記号45が表示されるように見える。
この場合、聞き手b,cは、操作部21〜23を用いてスクロールボックス422を操作することによって、原文字幕44に含まれる任意の部分を原文領域42に表示させることができるため、聞き手b,cの利便性が向上される。
この場合には、訳振り領域41において、訳振り字幕43に含まれる原文及び訳文の先頭部側が順に自動的に消去されると共に、訳振り字幕43に含まれる原文及び訳文の後尾部側が順に自動的にスクロールアップ表示される。
ここで、消去された原文及び訳文は、二度と表示されない構成でもよいが、聞き手b,cが訳振り字幕43を手動でスクロール表示させることによって、訳振り字幕43に含まれている原文及び訳文の内、消去されている部分が表示され、表示されていた部分が消去される構成でもよい。
この場合、聞き手b,cは、操作部21〜23を用いてスクロールボックス412を操作することによって、訳振り字幕43に含まれる任意の部分を訳振り領域41に表示させることができる。この結果、聞き手b,cは、読み逃した原文又は再読を所望する訳文等を、任意に読むことができるため、聞き手b,cの利便性が向上される。
図5、図6、図10、及び図11夫々には、字幕表示領域4に訳振り領域41及び原文領域42が設けられている場合を例示しているが、図12に示す字幕表示領域4には、原文領域42に相当するものは設けられておらず、字幕表示領域4全体が訳振り領域41に相当する。
このため、図12に示す字幕表示領域4には、訳振り字幕43はスクロール表示されるが、原文字幕44は全く表示されない。つまり、字幕表示領域4には、翻訳が終了した原文のみが表示され、未訳の原文は表示されない。
なお、字幕表示領域4には、訳振り字幕43ではなく、原文と訳文とが単純に並置されているだけの対訳字幕が表示される構成でもよい。
以下では、訳振り字幕43及び原文字幕44が自動的にスクロール表示される場合を説明し、手動でのスクロール表示についての説明は省略する。
また、原文字幕44のスクロール速度は、一の1行(例えば1行目)が表示されてから、次の1行(例えば2行目)が表示されるまでに、一の1行の下側に1行分の空き行が生じるような速度に設定される。
一方、訳振り字幕43のスクロール速度は、一の2行(例えば1行目及び2行目)が表示されてから、次の2行(例えば3行目及び4行目)が表示されるまでに、一の2行の下側に2行分の空き行が生じるような速度に設定される。何故ならば、訳振り字幕43においては、原文と、原文にルビ状に併記される訳文との2行分がセットになっているからである。
図14は、中央装置3で実行されるデータ配信処理の手順を示すフローチャートである。図15及び図16は、各端末装置B1,C1で実行される字幕表示処理の手順を示すフローチャートである。
図13に示す音声送信処理は、端末装置A1で実行される。
発言者aが音声を入力した場合(S11でYES)、制御部11は、発言者aによる発言を示す音声データを、端末装置A1の端末識別データと共に、中央装置3へ送信する(S12)。
S12の処理終了後、制御部11は、処理をS11へ戻す。
中央装置3の制御部31は、端末装置1,1,…の何れかから、端末識別データと共に音声データを受信したか否かを判定する(S21)。
音声データを受信していない場合(S21でNO)、制御部31は、処理を後述するS24へ移す。
制御部31は、S23の音声認識処理をマルチタスクで実行しつつ、処理を次のS24へ移す。
未訳の原文データが存在する場合(S24でYES)、即ち、音声認識処理の結果が得られ、得られた結果がまだ翻訳されていない場合には、未訳の原文データに対して翻訳処理を施す(S25)。S25における制御部31は、翻訳エンジン312として機能する。
制御部31は、S25で翻訳処理を施した未訳の原文データを端末装置1,1,…へ配信し(S26)、次いで、処理を後述するS27へ移す。このとき、制御部31は、未訳の原文データを、翻訳済みの原文の原文データとしてHDD32に記憶するか、又は削除する。
制御部31は、未配信の訳文データが存在するかを判定し(S27)、未配信の訳文データが存在しない場合(S27でNO)、処理をS21へ戻す。
S26及びS28における制御部31は、本発明の実施の形態における配信手段として機能する。
図15に示すように、端末装置B1,C1夫々の制御部11は、字幕表示領域4をディスプレイ24に表示させる(S41)。S41の処理が実行された時点では、字幕表示領域4には訳振り字幕43も原文字幕44も表示されない。
また、制御部11は、訳振り領域41に係るスクロール速度及び原文領域42に係るスクロール速度夫々を“0”に初期化し(S42)、処理を次のS43へ移す。
原文データを受信した場合(S43でYES)、制御部11は、後述する原文字幕出力処理(図17参照)を実行する(S44)。
制御部11は、S44の原文字幕出力処理をマルチタスクで実行しつつ、処理を後述するS45へ移す。
制御部11は、S43で受信した原文データに基づいて、原文字幕データを生成する(S61)。次に、制御部11は、S61で生成した原文字幕データに基づいて、原文領域42に原文字幕44を表示させる(S62)。S61及びS62における制御部11は、字幕生成エンジン111として機能する。
更に、制御部11は、原文入手速度を演算する(S63)。
原文領域42の空き行が下限値超過且つ上限値未満(例えば1.5行)である場合(S64でNO)、制御部11は、スクロール速度を現状維持して、原文字幕出力処理を終了し、元の字幕表示処理へ戻る。
S65の処理終了後、制御部11は、原文字幕出力処理を終了し、元の字幕表示処理へ戻る。
訳文データを受信した場合(S45でYES)、制御部11は、後述する訳振り字幕出力処理(図18参照)を実行する(S46)。
制御部11は、S46の訳振り字幕出力処理をマルチタスクで実行しつつ、処理を後述するS47へ移す。
制御部11は、S45で受信した訳文データに基づいて、訳振り字幕データを生成する(S71)。次に、S45で受信した訳文データに基づいて、重複する原文を消去すべく、S61で生成した原文字幕データを修正する(S72)。制御部11は、S71で生成した訳振り字幕データ及びS72で修正した原文字幕データに基づいて、訳振り領域41に訳振り字幕43を表示させ、原文領域42に原文字幕44を表示させる(S73)。S71〜S73における制御部11は、字幕生成エンジン111として機能する。
次に、制御部11は、訳振り領域41の空き行が上限値(例えば4行)以上であるか、又は下限値(例えば2行)以下であるかを判定する(S75)。ここで、訳振り領域41の空き行とは、訳振り領域41に表示されている訳振り字幕43がスクロールアップ表示されることによって訳振り字幕43の最終行の下側に生じる空き行のことである。
訳振り領域41の空き行が下限値超過且つ上限値未満(例えば3行)である場合(S75でNO)、制御部11は、スクロール速度を現状維持して、訳振り字幕出力処理を終了し、元の字幕表示処理へ戻る。
S76の処理終了後、制御部11は、訳振り字幕出力処理を終了し、元の字幕表示処理へ戻る。
終了操作がなされていない場合(S51でNO)、制御部11は、処理をS43へ戻す。
終了操作がなされた場合(S51でYES)、制御部11は、字幕表示処理を終了する。
また、英語の単語又は連語に日本語の語句がルビ状に併記されているため、誤訳の有無を判断し易い。
本実施の形態における会議システム6のハードウェア構成は、実施の形態1における会議システム6のハードウェア構成と同様である。その他、実施の形態1に対応する部分には同一符号を付してそれらの説明を省略する。
会議を円滑に進行させるためには、発言者aの発言後、実施の形態1の図5に示すような原文字幕44が速やかに表示され、続いて、図6に示すような訳振り字幕43が速やかに表示されることが望ましい。
しかしながら、音声認識の精度が低い場合には、表示された原文字幕44及び訳振り字幕43が誤っていることがある。かといって、音声認識を高精度に行なうためには、往々にして長時間を要する。
中央装置3の制御部31は、中央プログラム3P(図3参照)に含まれる音声認識用のコンピュータプログラムに従うことによって、高速認識エンジン313及び高精度認識エンジン315として機能する。また、制御部31は、中央プログラム3Pに含まれる翻訳用のコンピュータプログラムに従うことによって、高速翻訳エンジン314及び高精度翻訳エンジン316として機能する。
高速認識エンジン313は、生成した高速原文データを端末装置B1,C1へ配信する。
高速認識エンジン313が音声認識し終えた音声データは、HDD32(図2参照)に蓄積される。
高速翻訳エンジン314は、生成した高速訳文データを端末装置B1,C1へ配信する。
高速訳文データは、音声認識の精度が低い高速原文データに基づくものであるため、高速訳文データが示す訳文(以下、高速訳文という)は、誤りを含む可能性が高い。
高精度認識エンジン315は、生成した高精度原文データを端末装置B1,C1へ配信する。
なお、音声認識の精度を向上させる手法は、音声データのデータ量を増加させることに限定されない。
高精度翻訳エンジン316は、生成した高精度訳文データを端末装置B1,C1へ配信する。
高精度訳文データは、音声認識の精度が高い高精度原文データに基づくものであるため、高精度訳文データが示す訳文(以下、高精度訳文という)は、誤りを含む可能性が低い。
本実施の形態においては、発言者aが「We will try and make a final hotel decision by the end of the calendar year.」と発言したにもかかわらず、発言の一部分「We will try and 」を示す音声データに基づいて高速認識エンジン313が音声認識を行なった結果、「We will try a 」という誤った高速原文を示す高速原文データが生成された場合を例示する。
しかしながら、誤った高速原文「We will try a 」を示す高速原文データに対して翻訳処理を施した場合、高速翻訳エンジン314は、動詞「try 」を「試す」と翻訳し、不定冠詞「a 」を、特に翻訳する必要がない単語と看做して無視する。
高速原文481の高速原文データを受信した場合、字幕生成エンジン112は、まず、字幕管理テーブル1Tに、受信した高速原文データを登録する(図8参照)。
ただし、このとき字幕生成エンジン112が生成する原文字幕データは、高速原文481に含まれる英単語間に余裕を持たせるべく、この英単語間に、少なくとも2文字分の空白文字が配置されるようにしてある。なお、原文領域42に表示可能な高速原文字幕48の空白文字を除く文字の個数が大幅に低減されない程度であれば、配置すべき空白文字は2文字分に限定されるものではなく、3文字分以上であってもよい。また、配置すべき空白文字は1文字分であってもよい。
次に、字幕生成エンジン112は、受信した高速訳文データに基づいて、高速原文471と高速訳文474とを含む高速訳振り字幕47(図21参照)をディスプレイ24に表示させるための訳振り字幕データを生成する。
ただし、このとき字幕生成エンジン112が生成する訳振り字幕データは、高速原文471に含まれる英単語間に、最小限(少なくとも1文字分)の空白文字が配置されるようにしてある。なお、訳振り領域41に表示可能な高速訳振り字幕47の空白文字を除く文字の個数が大幅に低減されない程度であれば、英単語間に余裕を持たせるべく、2文字分以上の空白文字を配置してもよい。
そして、字幕生成エンジン112は、字幕管理テーブル1Tに、高速原文471及び高速訳文474を含む高速訳振り字幕47の訳振り字幕データを登録する(図9参照)。
以上のような字幕生成エンジン112は、本発明の実施の形態における生成手段及び制御手段として機能する。
次に、字幕生成エンジン112は、受信した訳文データに基づいて、ディスプレイ24に、高速原文471〜473と高速訳文474〜476とを含む訳振り字幕43(図22参照)を表示させるための訳振り字幕データを生成する。
そして、字幕生成エンジン112は、字幕管理テーブル1Tに、高速原文471〜473及び高速訳文474〜476を含む高速訳振り字幕47の訳振り字幕データを登録する。
ここでは、発言者aの発言の一文全体を示す音声データに基づいて高精度認識エンジン315が音声認識を行なった結果、「We will try and make a final hotel decision by the end of the calendar year.」という正確な高精度原文を示す高精度原文データが生成された場合を説明する。
このような高精度原文データに対して翻訳処理を施した結果、高精度翻訳エンジン316は、2語の単語「try and 」を、「and 」の後に動詞「make」を伴う連語と看做して「〜よう努める」と翻訳する。
誤りを含んでいる高速訳振り字幕が訳振り領域41に表示されていなかった場合、字幕生成エンジン112は、適宜のタイミングで、高精度訳振り字幕を示す訳振り字幕データに基づく高精度訳振り字幕をディスプレイ24に表示させればよい。このとき、高精度訳振り字幕に含まれている英単語間には、最小限の文字数の空白文字が含まれていればよい。
図23は、字幕表示領域4に表示される高速訳振り字幕47及び高速原文字幕48の更に他の一例を示す模式図である。
被置換部分「a 」は誤りであるため、高速訳振り字幕47及び高速原文字幕48夫々からは、被置換部分「a 」が消去される。このとき、字幕生成エンジン112は、表示処理部14を制御することによって、被置換部分「a 」がフェードアウト表示されるようにする。
フェードイン表示された置換部分「and 」は、所定時間(例えば10秒間)だけ太字で強調表示される。これは、被置換部分「a 」が置換部分「and 」に置き換えられたことを聞き手b,cに報知するためのものである。従って、置換部分「and 」の強調表示は、置換部分「and 」が高精度訳振り字幕49及び高精度原文字幕46の他の部分よりも目立つのあれば、太字表示に限定されず、囲み表示、点滅表示、斜体表示、赤字表示、又はアンダーライン表示等であってもよい。
ここで、被置換部分「a 」がフェードアウト表示され、置換部分「and 」がフェードイン表示されることによって、聞き手b,cには、被置換部分「a 」と置換部分「and 」とは徐々に置き換えられるように見える。このため、被置換部分「a 」と置換部分「and 」とが瞬時に置き換えられる場合よりも、被置換部分「a 」と置換部分「and 」との置き換えが強調される。
そこで、字幕生成エンジン112は、高速訳振り字幕47及び高速原文字幕48から被置換部分「a 」を消去した場合に、置換部分「and 」を表示可能な表示可能領域が高速訳振り字幕47及び高速原文字幕48に生じるか否かを夫々判定する。このような字幕生成エンジン112は、本発明の実施の形態における領域判定手段として機能する。
高速原文字幕48において、被置換部分「a 」の文字数と、被置換部分の前後に配されている空白文字の文字数合計は5文字である。このため、被置換部分「a 」を消去することによって、高速原文字幕48には、表示可能領域が生じる。
従って、高速原文字幕48に関しては、被置換部分「a 」がフェードアウト表示によって消去され、また、置換部分「and 」がフェードイン表示及び強調表示される。
なお、置換部分「and 」と被置換部分「a 」との置き換えに伴い、高精度原文字幕46に含まれている他の英単語間の空白文字の文字数を1文字ずつに減少させても(即ち、単語間のピッチを減少させても)よい。この場合、例えば高精度原文字幕46に含まれている各英単語を左方向へスクロール表示させることよって、高精度原文字幕46の可読性を犠牲にすることなく、単語間のピッチを減少させることができる。
そこで、字幕生成エンジン112は、被置換部分「a 」の可読方向後尾側に表示されている字幕、即ち被置換部分「a 」の右側及び次行に表示されている高速原文472,473を、右方向(図23中の白抜矢符方向)へスクロール表示させる。スクロール表示は、表示可能領域が生じるまで(即ち、5文字分の空白領域が生じるまで)継続される。つまり、高速原文472,473は、2文字分だけ右方向へスクロール表示されればよい。
ところで、一般に英文は半角文字で、和文は全角文字で記載される。従って、置換部分「〜よう努める」の文字数は、被置換部分「試す」に比べて、半角8文字分だけ長い。ただし、被置換部分「試す」と高速訳文475との間には、先程のスクロール表示によって、2文字分の余裕が生じている。
ところが、このままの状態では、高精度原文492,493の左右方向の位置と高精度訳文495,496の左右方向の位置とが位置ズレを生じてしまう。そこで、字幕生成エンジン112は、高精度原文492,493を6文字分だけ右方向へスクロール表示させることによって、高精度原文492,493と高精度訳文495,496との位置関係を図24に示す状態になるように調整する。
なお、本実施の形態とは逆に、「and 」が被置換部分であり、「a 」が置換部分である場合、被置換部分「and 」を置換部分「a 」で置き換えると、「a 」の「and 」の前後の空白文字が2文字分増加する。
例えば、発言の前半の音声を示す前半音声データに基づいて、第1組の高速原文データ及び高速訳文データが生成され、発言の後半の音声を示す後半音声データに基づいて、第2組の高速原文データ及び高速訳文データが生成される。更に、前半音声データ及び後半音声データ両方に基づいて、高精度原文データ及び高精度訳文データが生成される。
この場合、端末装置B1,C1夫々にて、識別情報に基づき、高速原文データと高精度原文データ(又は高速訳文データと高精度訳文データ)とを容易に関連付けることができる。
図26は、中央装置3で実行されるデータ配信処理の手順を示すフローチャートである。図27及び図28は、各端末装置B1,C1で実行される字幕表示処理の手順を示すフローチャートである。
図25及び図26に示すS21は、実施の形態1の図13及び図14に示すS21と同様であり、図26に示すS22、S24、及びS27は、実施の形態1の図14に示すS22、S24、及びS27と同様である。
音声データを受信した場合(S21でYES)、制御部31は、音声データを識別するための識別情報を発行し(S81)、発行した識別情報と、S21で受信した音声データとを関連付けて、HDD32に蓄積する(S82)。次いで、制御部31は、処理をS22に移す。
制御部31は、S83の音声認識処理をマルチタスクで実行しつつ、処理を次のS24へ移す。
S24における制御部31は、高速原文データと高精度原文データとの区別なく、未訳の原文データが存在するか否かを判定する。
制御部31は、S84の翻訳処理をマルチタスクで実行しつつ、処理を次のS85へ移す。
S27における制御部31は、高速訳文データと高精度訳文データとの区別なく、未配信の訳文データが存在するかを判定する。
未配信の訳文データが存在しない場合(S27でNO)、制御部31は、処理を後述するS87へ移す。
未配信の訳文データが存在する場合(S27でYES)、制御部31は、実施の形態1のS28と略同様にして、未配信の訳文データを、識別情報と共に端末装置1,1,…へ配信し(S86)、次に、処理をS87へ移す。
音声データが蓄積されている場合(S87でYES)、制御部31は、HDD32に蓄積されている音声データに対して、音声認識処理を施す(S88)。S88における制御部31は、高精度認識エンジン315として機能する。このとき生成される高精度原文データには、HDD32に蓄積されている音声データの識別情報が全て関連付けられる。
図27に示すS41及びS42の処理は、実施の形態1の図15に示すS41及びS42の処理と同様である。
図25及び図27に示すS44とS46との処理は、実施の形態1の図13及び図15に示すS44及びS46の処理と略同様である。
図28に示すS47〜S51の処理は、実施の形態1の図16に示すS47〜S51の処理と同様である。
そして、制御部11は、S44の原文字幕出力処理をマルチタスクで実行しつつ、処理を後述するS92へ移す。
S44の原文字幕出力処理が実行された場合、原文領域42に、高速原文字幕48が表示される。
高速訳文データ及び識別情報を受信した場合(S92でYES)、制御部11は、処理をS46へ移して、実施の形態1の図18に示す訳振り字幕出力処理と略同様の訳振り字幕出力処理を実行する。ただし、この訳振り字幕出力処理では、実施の形態1のS72の処理に相当する処理を実行する必要はなく、S73の処理に相当する処理では、制御部11は、S71で生成した訳振り字幕データに基づいて、訳振り領域41に高速訳振り字幕47を表示させればよい。S71及びS73における制御部11は、字幕生成エンジン112として機能する。
S46の訳振り字幕出力処理が実行された場合、訳振り領域41に、高速訳振り字幕47が表示される。
次いで、制御部11は、高精度原文データ及び識別情報を受信したか否かを判定し(S93)、受信していない場合(S93でNO)、処理を後述するS95へ移す。
制御部11は、S94の原文字幕修正処理をマルチタスクで実行しつつ、処理をS95へ移す。
図29に示すように、制御部11は、S93で受信した高精度原文データと、この高精度原文データに対応する高速原文データと(即ち、関連付けられている識別情報が互いに等しい高精度原文データと高速原文データと)を比較し(S111)、両者の差異、即ち置換部分及び被置換部分が存在するか否かを判定する(S112)。
高精度原文データが示す高精度原文と高速原文データが示す高速原文とが一致する場合(S112でNO)、制御部11は、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
次に、制御部11は、修正前の原文字幕データ及び訳振り字幕データに基づく高速原文字幕及び高速訳振り字幕が字幕表示領域4に表示されているか否かを判定し(S114)、表示されていない場合には(S114でNO)、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
高速原文字幕に表示可能領域が生じない場合(S115でNO)、制御部11は、高速原文字幕に設けるべき表示可能領域の文字数を求め(S116)、求めた表示可能領域の文字数に応じて、高速原文字幕における被置換部分よりも後尾側を、右方向へスクロール表示させる(S117)。
次に、制御部11は、置換部分を強調表示させてからの経過時間の計時を開始し(S124)、計時した経過時間が所定時間を超過したか否かを判定し(S125)、まだ超過していない場合には(S125でNO)、S125の処理を繰り返し実行する。
S126の処理終了後、制御部11は、S124で開始した計時処理を終了してから(S127)、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
以上のような原文字幕修正処理を実行する制御部11は、字幕生成エンジン112として機能する。
高精度訳文データ及び識別情報を受信した場合(S95でYES)、制御部11は、後述する訳振り字幕修正処理(図31参照)を実行する(S96)。
制御部11は、S96の訳振り字幕修正処理をマルチタスクで実行しつつ、処理をS47へ移す。
制御部11は、S95で受信した高精度訳文データと、この高精度訳文データに対応する高速訳文データと(即ち、関連付けられている識別情報が互いに等しい高精度訳文データと高速訳文データと)を比較し(S131)、両者の差異、即ち置換部分及び被置換部分が存在するか否かを判定する(S132)。
高精度訳文データが示す高精度訳文と高速訳文データが示す高速訳文とが一致する場合(S132でNO)、制御部11は、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
次に、制御部11は、修正前の訳振り字幕データに基づく高速訳振り字幕が字幕表示領域4に表示されているか否かを判定し(S134)、表示されていない場合には(S134でNO)、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
各種字幕が表示されている場合(S134でYES)、制御部11は、表示されている表示されている高速訳振り字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する(S135)。
次に、制御部11は、置換部分を強調表示させてからの経過時間の計時を開始し(S141)、計時した経過時間が所定時間を超過したか否かを判定し(S142)、まだ超過していない場合には(S142でNO)、S142の処理を繰り返し実行する。
S143の処理終了後、制御部11は、S141で開始した計時処理を終了してから(S144)、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
以上のような訳振り字幕修正処理を実行する制御部11は、字幕生成エンジン112として機能する。
このため、聞き手b,cは、発言者aが発言してから各種字幕が表示されるまで長時間待たされることがない。たとえ各種字幕の内容に誤りが含まれていたたとしても、後に、誤りの部分だけが修正されるため、聞き手b,cは、発言者aの発言を正確に、しかも容易に理解することができる。
例えば、実施の形態1,2では、原文字幕及び訳振り字幕夫々が横書きで表示される場合を例示したが、各種字幕が縦書きで表示されてもよい。この場合、実施の形態1で説明したような各種字幕をスクロールアウトするためのスクロール表示は、右方向へのスクロール表示であればよい。また、実施の形態2で説明したような表示可能領域を設けるためのスクロール表示は、下方向へのスクロール表示であればよい。
11 制御部(生成手段,制御手段,認識判定手段,領域判定手段)
1P 端末プログラム(コンピュータプログラム)
24 ディスプレイ(表示部)
3 中央装置
31 制御部(認識手段,翻訳手段,配信手段)
4 字幕表示領域(表示部が有する表示領域)
41 訳振り領域(表示領域を2分割してなる一方)
42 原文領域(他方)
43 訳振り字幕
44 原文字幕(認識結果字幕)
6 会議システム
Claims (13)
- 字幕を表示する表示部を備える会議システムにおいて、
発言の音声を一の言語で音声認識する認識手段と、
該認識手段による認識結果を、前記一の言語とは異なる他の言語に翻訳する翻訳手段と、
前記認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕を生成する生成手段と、
該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段と
を備えることを特徴とする会議システム。 - 前記対訳字幕は、前記認識結果に前記翻訳結果がルビ状に併記された訳振り字幕であることを特徴とする請求項1に記載の会議システム。
- 前記訳振り字幕は、前記認識結果に含まれる単語又は連語に、前記翻訳結果に含まれ、前記単語又は連語に対応する語句がルビ状に併記されたものであることを特徴とする請求項2に記載の会議システム。
- 前記生成手段は、前記認識結果を示す認識結果字幕を更に生成するようにしてあり、
前記制御手段は、前記表示部が有する表示領域を2分割してなる一方に前記訳振り字幕を表示させ、他方に前記生成手段が生成した認識結果字幕を表示させるようにしてあることを特徴とする請求項2又は3に記載の会議システム。 - 前記制御手段は、前記表示部に前記訳振り字幕を表示させる場合に、表示される訳振り字幕に含まれている認識結果を示す認識結果字幕を消去させるようにしてあることを特徴とする請求項4に記載の会議システム。
- 前記制御手段は、前記認識結果字幕と前記訳振り字幕とを個別にスクロール表示させるようにしてあることを特徴とする請求項4又は5に記載の会議システム。
- 前記認識手段は、前記発言の音声を前記一の言語で改めて音声認識するようにしてあり、
前記認識結果を前記認識手段による再度の認識結果で置換すべき置換部分及び被置換部分の有無を判定する認識判定手段と、
該認識判定手段があると判定した場合、前記表示部に表示されている前記対訳字幕から前記被置換部分を消去したときに、前記置換部分を表示可能な表示可能領域が前記対訳字幕に生じるか否かを判定する領域判定手段と
を更に有し、
前記生成手段は、前記認識判定手段があると判定した場合、前記対訳字幕を、前記再度の認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕に修正するようにしてあり、
前記制御手段は、
前記認識判定手段があると判定した場合に、前記被置換部分を消去させる手段と、
前記領域判定手段が否と判定した場合に、前記表示可能領域を設けるべく、前記被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる手段と、
前記表示可能領域に前記置換部分を表示させる手段と
を有することを特徴とする請求項1から6の何れか一項に記載の会議システム。 - 前記制御手段は、
前記表示可能領域に前記置換部分を表示させる場合に、該置換部分を、所定時間だけ、前記置換部分以外の前記対訳字幕に比べて強調表示させるようにしてあることを特徴とする請求項7に記載の会議システム。 - 中央装置と、複数台の端末装置夫々とが通信可能に接続されており、
各端末装置は、前記表示部、前記生成手段、及び前記制御手段を有し、
前記中央装置は、
前記認識手段及び翻訳手段と、
前記認識結果及び翻訳結果を夫々示すデータを前記端末装置へ配信する配信手段と
を有し、
各端末装置では、受信したデータに基づいて、前記生成手段による生成処理を実行するようにしてあることを特徴とする請求項1から8の何れか一項に記載の会議システム。 - 字幕を表示する表示部を備え、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理装置において、
受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成する生成手段と、
該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段と
を備えることを特徴とする情報処理装置。 - 字幕を表示する表示部を備える会議システムにて、会議の実現を支援する会議支援方法において、
一の言語でなされた発言の音声を音声認識し、
音声認識した認識結果を、前記一の言語とは異なる他の言語に翻訳し、
前記認識結果と翻訳した翻訳結果とが併記された対訳字幕を前記表示部に表示させることを特徴とする会議支援方法。 - 字幕を表示する表示部を備える情報処理装置にて、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理方法において、
受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を前記表示部に表示させることを特徴とする情報処理方法。 - 字幕を表示する表示部を備えるコンピュータに、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信させるコンピュータプログラムであって、
コンピュータに、受信されたデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成させる生成ステップと、
コンピュータに、前記生成ステップで生成された対訳字幕が表示されるように前記表示部を制御させる制御ステップと
を実行させることを特徴とするコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010043163A JP5014449B2 (ja) | 2010-02-26 | 2010-02-26 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
CN2011100491071A CN102170553A (zh) | 2010-02-26 | 2011-02-25 | 会议系统、信息处理装置、会议辅助方法及信息处理方法 |
US13/035,631 US8504375B2 (en) | 2010-02-26 | 2011-02-25 | Conference system, information processor, conference supporting method and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010043163A JP5014449B2 (ja) | 2010-02-26 | 2010-02-26 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011182125A true JP2011182125A (ja) | 2011-09-15 |
JP5014449B2 JP5014449B2 (ja) | 2012-08-29 |
Family
ID=44491508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010043163A Active JP5014449B2 (ja) | 2010-02-26 | 2010-02-26 | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8504375B2 (ja) |
JP (1) | JP5014449B2 (ja) |
CN (1) | CN102170553A (ja) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853705A (zh) * | 2012-11-28 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语语音与外语语音实时语音字幕翻译方法 |
CN103854648A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 汉语外语有声影像资料双向可逆语音转换并加注字幕方法 |
CN103853704A (zh) * | 2012-11-28 | 2014-06-11 | 上海能感物联网有限公司 | 计算机外语有声影像资料自动加注中外文字幕的方法 |
CN103853708A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语有声影像资料自动加注汉语字幕的方法 |
CN103902529A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 外语自动实时标注中外文字幕音像录播方法 |
CN103902530A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语自动实时标注中外文字幕音像录播方法 |
CN103905743A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语自动实时标注汉语字幕音像录播方法 |
CN103902531A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语与外语自动实时语音翻译并标注字幕的音像录播方法 |
JP2015153408A (ja) * | 2014-02-19 | 2015-08-24 | 株式会社リコー | 翻訳システム、翻訳処理装置、及び翻訳処理プログラム |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US9588967B2 (en) | 2015-04-22 | 2017-03-07 | Kabushiki Kaisha Toshiba | Interpretation apparatus and method |
JP2017097092A (ja) * | 2015-11-20 | 2017-06-01 | 株式会社Jvcケンウッド | 端末装置、通信方法 |
JP2017097093A (ja) * | 2015-11-20 | 2017-06-01 | 株式会社Jvcケンウッド | 端末装置、通信方法 |
JP2018018052A (ja) * | 2016-07-13 | 2018-02-01 | 株式会社富士通ソーシアルサイエンスラボラトリ | 端末装置、翻訳方法、及び、翻訳プログラム |
US10339224B2 (en) | 2016-07-13 | 2019-07-02 | Fujitsu Social Science Laboratory Limited | Speech recognition and translation terminal, method and non-transitory computer readable medium |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
US10468029B2 (en) | 2017-03-14 | 2019-11-05 | Ricoh Company, Ltd. | Communication terminal, communication method, and computer program product |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360347A (zh) * | 2011-09-30 | 2012-02-22 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音翻译方法、系统及语音翻译服务器 |
CN102521221A (zh) * | 2011-11-30 | 2012-06-27 | 江苏奇异点网络有限公司 | 具有文字输出功能的多语言会议信息输出方法 |
CN103853709A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语有声影像资料自动加注中外文字幕的方法 |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
JP2015060332A (ja) * | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
CN103744843B (zh) * | 2013-12-25 | 2017-01-04 | 北京百度网讯科技有限公司 | 一种在线语音翻译方法及装置 |
JP2016062357A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
CN105024834A (zh) * | 2015-07-03 | 2015-11-04 | 马岩 | 会议的互动方法及系统 |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10884612B2 (en) * | 2016-02-08 | 2021-01-05 | Mitsubishi Electric Corporation | Input display control device, input display control method, and input display system |
US10866719B1 (en) * | 2016-11-29 | 2020-12-15 | Amazon Technologies, Inc. | Content-specific auto-scrolling devices and methods |
JP7030434B2 (ja) * | 2017-07-14 | 2022-03-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 翻訳方法、翻訳装置及び翻訳プログラム |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
JP7044633B2 (ja) * | 2017-12-28 | 2022-03-30 | シャープ株式会社 | 操作支援装置、操作支援システム、及び操作支援方法 |
US10459620B2 (en) * | 2018-02-09 | 2019-10-29 | Nedelco, Inc. | Caption rate control |
CN110728976B (zh) * | 2018-06-30 | 2022-05-06 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN109033423A (zh) * | 2018-08-10 | 2018-12-18 | 北京搜狗科技发展有限公司 | 同传字幕显示方法及装置、智能会议方法、装置及系统 |
CN111356025A (zh) * | 2018-12-24 | 2020-06-30 | 深圳Tcl新技术有限公司 | 一种多字幕显示方法、智能终端及存储介质 |
CN109686363A (zh) * | 2019-02-26 | 2019-04-26 | 深圳市合言信息科技有限公司 | 一种现场会议人工智能同传设备 |
CN109889764A (zh) * | 2019-03-20 | 2019-06-14 | 上海高屋信息科技有限公司 | 会议系统 |
CN110232194B (zh) * | 2019-06-17 | 2024-04-09 | 安徽听见科技有限公司 | 翻译显示方法、装置、设备及可读存储介质 |
CN110475146B (zh) * | 2019-09-05 | 2022-01-14 | 珠海市杰理科技股份有限公司 | 字幕矫正方法、装置及智能音箱 |
CN110648653A (zh) * | 2019-09-27 | 2020-01-03 | 安徽咪鼠科技有限公司 | 基于智能语音鼠标的字幕实现方法、装置、系统和存储介质 |
CN113014853B (zh) * | 2020-04-30 | 2022-11-11 | 北京字节跳动网络技术有限公司 | 互动信息处理方法、装置、电子设备及存储介质 |
KR102390187B1 (ko) * | 2020-05-27 | 2022-04-25 | 네이버 주식회사 | 회의보조용 번역 도구를 위한 방법 및 시스템 |
CN112541495A (zh) * | 2020-12-22 | 2021-03-23 | 厦门亿联网络技术股份有限公司 | 会议消息的检测方法、装置、服务器及存储介质 |
CN112672099B (zh) * | 2020-12-31 | 2023-11-17 | 深圳市潮流网络技术有限公司 | 字幕数据生成和呈现方法、装置、计算设备、存储介质 |
US11955117B2 (en) * | 2021-05-27 | 2024-04-09 | The Toronto-Dominion Bank | System and method for analyzing and reacting to interactions between entities using electronic communication channels |
CN114125358A (zh) * | 2021-11-11 | 2022-03-01 | 北京有竹居网络技术有限公司 | 云会议字幕显示方法、系统、装置、电子设备和存储介质 |
CN115022574A (zh) * | 2022-05-30 | 2022-09-06 | 北京字跳网络技术有限公司 | 字幕处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06124302A (ja) * | 1992-10-14 | 1994-05-06 | Brother Ind Ltd | 機械翻訳システム |
JPH09106399A (ja) * | 1995-08-08 | 1997-04-22 | Matsushita Electric Ind Co Ltd | 機械翻訳装置及び機械翻訳方法 |
JP2001350749A (ja) * | 2000-06-06 | 2001-12-21 | Nec Corp | インターネットにおける議事録の作成記録方法及び記録媒体 |
JP2003242148A (ja) * | 2002-02-15 | 2003-08-29 | Seiko Epson Corp | 情報端末、管理装置、及び情報処理方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0787472A (ja) * | 1993-09-09 | 1995-03-31 | Oki Electric Ind Co Ltd | テレビ会議システム |
US6651039B1 (en) * | 1995-08-08 | 2003-11-18 | Matsushita Electric Industrial Co., Ltd. | Mechanical translation apparatus and method |
JPH10307496A (ja) | 1996-10-04 | 1998-11-17 | Ricoh Co Ltd | ベルト定着装置 |
US6175819B1 (en) * | 1998-09-11 | 2001-01-16 | William Van Alstine | Translating telephone |
DE60022976T2 (de) * | 1999-07-08 | 2006-07-06 | Koninklijke Philips Electronics N.V. | Spracherkennungseinrichtung mit transfermitteln |
US7130790B1 (en) * | 2000-10-24 | 2006-10-31 | Global Translations, Inc. | System and method for closed caption data translation |
JP2003122179A (ja) | 2001-10-19 | 2003-04-25 | Ricoh Co Ltd | 定着装置・画像形成装置 |
JP4087400B2 (ja) * | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
JP2007133033A (ja) * | 2005-11-08 | 2007-05-31 | Nec Corp | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
US7822596B2 (en) * | 2005-12-05 | 2010-10-26 | Microsoft Corporation | Flexible display translation |
US8249856B2 (en) * | 2008-03-20 | 2012-08-21 | Raytheon Bbn Technologies Corp. | Machine translation |
US8621505B2 (en) * | 2008-03-31 | 2013-12-31 | At&T Intellectual Property I, L.P. | Method and system for closed caption processing |
US8639505B2 (en) * | 2008-04-23 | 2014-01-28 | Nvoq Incorporated | Method and systems for simplifying copying and pasting transcriptions generated from a dictation based speech-to-text system |
KR100998566B1 (ko) * | 2008-08-11 | 2010-12-07 | 엘지전자 주식회사 | 음성인식을 이용한 언어 번역 방법 및 장치 |
-
2010
- 2010-02-26 JP JP2010043163A patent/JP5014449B2/ja active Active
-
2011
- 2011-02-25 US US13/035,631 patent/US8504375B2/en active Active
- 2011-02-25 CN CN2011100491071A patent/CN102170553A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06124302A (ja) * | 1992-10-14 | 1994-05-06 | Brother Ind Ltd | 機械翻訳システム |
JPH09106399A (ja) * | 1995-08-08 | 1997-04-22 | Matsushita Electric Ind Co Ltd | 機械翻訳装置及び機械翻訳方法 |
JP2001350749A (ja) * | 2000-06-06 | 2001-12-21 | Nec Corp | インターネットにおける議事録の作成記録方法及び記録媒体 |
JP2003242148A (ja) * | 2002-02-15 | 2003-08-29 | Seiko Epson Corp | 情報端末、管理装置、及び情報処理方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853705A (zh) * | 2012-11-28 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语语音与外语语音实时语音字幕翻译方法 |
CN103853704A (zh) * | 2012-11-28 | 2014-06-11 | 上海能感物联网有限公司 | 计算机外语有声影像资料自动加注中外文字幕的方法 |
CN103854648A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 汉语外语有声影像资料双向可逆语音转换并加注字幕方法 |
CN103853708A (zh) * | 2012-12-08 | 2014-06-11 | 上海能感物联网有限公司 | 计算机汉语有声影像资料自动加注汉语字幕的方法 |
CN103902529A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 外语自动实时标注中外文字幕音像录播方法 |
CN103902530A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语自动实时标注中外文字幕音像录播方法 |
CN103905743A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语自动实时标注汉语字幕音像录播方法 |
CN103902531A (zh) * | 2012-12-30 | 2014-07-02 | 上海能感物联网有限公司 | 汉语与外语自动实时语音翻译并标注字幕的音像录播方法 |
JP2015153408A (ja) * | 2014-02-19 | 2015-08-24 | 株式会社リコー | 翻訳システム、翻訳処理装置、及び翻訳処理プログラム |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US9588967B2 (en) | 2015-04-22 | 2017-03-07 | Kabushiki Kaisha Toshiba | Interpretation apparatus and method |
JP2017097092A (ja) * | 2015-11-20 | 2017-06-01 | 株式会社Jvcケンウッド | 端末装置、通信方法 |
JP2017097093A (ja) * | 2015-11-20 | 2017-06-01 | 株式会社Jvcケンウッド | 端末装置、通信方法 |
US10423700B2 (en) | 2016-03-16 | 2019-09-24 | Kabushiki Kaisha Toshiba | Display assist apparatus, method, and program |
JP2018018052A (ja) * | 2016-07-13 | 2018-02-01 | 株式会社富士通ソーシアルサイエンスラボラトリ | 端末装置、翻訳方法、及び、翻訳プログラム |
US10339224B2 (en) | 2016-07-13 | 2019-07-02 | Fujitsu Social Science Laboratory Limited | Speech recognition and translation terminal, method and non-transitory computer readable medium |
US10489516B2 (en) | 2016-07-13 | 2019-11-26 | Fujitsu Social Science Laboratory Limited | Speech recognition and translation terminal, method and non-transitory computer readable medium |
US10468029B2 (en) | 2017-03-14 | 2019-11-05 | Ricoh Company, Ltd. | Communication terminal, communication method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
US8504375B2 (en) | 2013-08-06 |
JP5014449B2 (ja) | 2012-08-29 |
US20110213607A1 (en) | 2011-09-01 |
CN102170553A (zh) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5014449B2 (ja) | 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム | |
CN108028042B (zh) | 口头通信的转录 | |
US10614265B2 (en) | Apparatus, method, and computer program product for correcting speech recognition error | |
US11301644B2 (en) | Generating and editing media | |
JP7529236B2 (ja) | インタラクティブ情報処理方法、装置、機器、及び媒体 | |
US20180143956A1 (en) | Real-time caption correction by audience | |
US20180144747A1 (en) | Real-time caption correction by moderator | |
US8515728B2 (en) | Language translation of visual and audio input | |
US10970678B2 (en) | Conference information accumulating apparatus, method, and computer program product | |
US20150149149A1 (en) | System and method for translation | |
CN101998107B (zh) | 信息处理装置、会议系统和信息处理方法 | |
US20170263265A1 (en) | Conference support apparatus, conference support method, and computer program product | |
JP6233798B2 (ja) | データを変換する装置及び方法 | |
US10699712B2 (en) | Processing method and electronic device for determining logic boundaries between speech information using information input in a different collection manner | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
CA2799892A1 (en) | System and method for real-time multimedia reporting | |
JP2015115892A (ja) | コメント作成装置およびその制御方法 | |
JP2007199410A (ja) | テキストに付与する発音情報の編集を支援するシステム | |
JP2005228178A (ja) | 書き起こしテキスト作成支援システムおよびプログラム | |
Graham et al. | Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits | |
CN115278331A (zh) | 基于机器翻译的多语言字幕展示方法、系统、设备及介质 | |
CN115048949B (zh) | 基于术语库的多语言文字替换方法、系统、设备及介质 | |
US20030097253A1 (en) | Device to edit a text in predefined windows | |
JP5892598B2 (ja) | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム | |
CN101169789A (zh) | 基于输入法的词库更新装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120605 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150615 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5014449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |