JP2011182125A

JP2011182125A - 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム

Info

Publication number: JP2011182125A
Application number: JP2010043163A
Authority: JP
Inventors: Satoshi Onishi; 諭大西
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-02-26
Filing date: 2010-02-26
Publication date: 2011-09-15
Anticipated expiration: 2030-02-26
Also published as: US8504375B2; JP5014449B2; US20110213607A1; CN102170553A

Abstract

【課題】発言者の発言内容を、聞き手が容易に、且つ正確に理解することができる会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムを提供する。
【解決手段】発言者が英語で発言した音声が音声認識される。聞き手が使用するディスプレイの字幕表示領域４は、上半分が訳振り領域４１として用いられ、下半分が原文領域４２として用いられる。訳振り領域４１には、音声認識結果である原文４３１に、原文４３１を日本語に翻訳した訳文４３２がルビ状に併記された訳振り字幕４３が表示される。このように、原文４３１及び訳文４３２の両方が表示され、しかも、原文４３１に含まれる単語又は連語に、訳文４３２として、この単語又は連語を翻訳した語句が表示されるため、聞き手が理解し易く、また、誤訳に気付き易い。更に、原文領域４２には、まだ翻訳されていない原文４４２を含む原文字幕４４が表示される。
【選択図】図６

Description

本発明は、会議の実現を支援するための会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムに関する。

通信技術及び画像処理技術等の進歩により、会議の参加者同士が遠隔地にいる場合であっても問題なく会議を行なうことができる会議システムが実現されている。このような会議システムでは、複数台の端末装置がネットワークに接続されており、各端末装置が有する表示部に、互いに共通の画像を表示させる。この結果、端末装置を使用する参加者同士が、会議に必要な情報を共有することができる。
以下では、発言する立場の参加者を発言者といい、発言を聞く立場の参加者を聞き手といい、両者を区別しない場合には単に参加者という。

昨今、発言者の発言を音声認識し、音声認識の結果（以下、原文という）を表示する技術が知られている。更に、異国間での会議、又は母国語が異なる参加者同士の会議等を支援するために、原文を所要の言語に翻訳した結果（以下、訳文という）を表示する技術が知られている（特許文献１参照）。
この結果、聞き手が理解できない言語、又は理解に多くの努力を要する言語でなされた発言の内容を、聞き手が容易に理解することができる言語に翻訳してから表示することが可能である。従って、参加者の利便性を向上させることができる。

特開平７−８７４７２号公報

ところが、従来の会議システムでは、原文のみが表示されるか、又は、訳文のみが表示される。
このため、原文のみが表示される場合は、聞き手が発言者の発言内容を理解できないことがある。
一方、訳文のみが表示される場合は、原文が誤訳された場合に、聞き手が発言者の発言内容を誤解する虞がある。

本発明は斯かる問題を解決するためになされたものであり、その主たる目的は、発言の音声を一の言語で音声認識した結果と、音声認識した結果を翻訳した結果とを併記した対訳字幕を表示する構成とすることにより、聞き手が発言者の発言内容を、容易に、且つ正確に理解することができる会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムを提供することにある。

本発明に係る会議システムは、字幕を表示する表示部を備える会議システムにおいて、発言の音声を一の言語で音声認識する認識手段と、該認識手段による認識結果を、前記一の言語とは異なる他の言語に翻訳する翻訳手段と、前記認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕を生成する生成手段と、該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段とを備えることを特徴とする。

本発明に係る会議システムは、前記対訳字幕は、前記認識結果に前記翻訳結果がルビ状に併記された訳振り字幕であることを特徴とする。

本発明に係る会議システムは、前記訳振り字幕は、前記認識結果に含まれる単語又は連語に、前記翻訳結果に含まれ、前記単語又は連語に対応する語句がルビ状に併記されたものであることを特徴とする。

本発明に係る会議システムは、前記生成手段は、前記認識結果を示す認識結果字幕を更に生成するようにしてあり、前記制御手段は、前記表示部が有する表示領域を２分割してなる一方に前記訳振り字幕を表示させ、他方に前記生成手段が生成した認識結果字幕を表示させるようにしてあることを特徴とする。

本発明に係る会議システムは、前記制御手段は、前記表示部に前記訳振り字幕を表示させる場合に、表示される訳振り字幕に含まれている認識結果を示す認識結果字幕を消去させるようにしてあることを特徴とする。

本発明に係る会議システムは、前記制御手段は、前記認識結果字幕と前記訳振り字幕とを個別にスクロール表示させるようにしてあることを特徴とする。

本発明に係る会議システムは、前記認識手段は、前記発言の音声を前記一の言語で改めて音声認識するようにしてあり、前記認識結果を前記認識手段による再度の認識結果で置換すべき置換部分及び被置換部分の有無を判定する認識判定手段と、該認識判定手段があると判定した場合、前記表示部に表示されている前記対訳字幕から前記被置換部分を消去したときに、前記置換部分を表示可能な表示可能領域が前記対訳字幕に生じるか否かを判定する領域判定手段とを更に有し、前記生成手段は、前記認識判定手段があると判定した場合、前記対訳字幕を、前記再度の認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕に修正するようにしてあり、前記制御手段は、前記認識判定手段があると判定した場合に、前記被置換部分を消去させる手段と、前記領域判定手段が否と判定した場合に、前記表示可能領域を設けるべく、前記被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる手段と、前記表示可能領域に前記置換部分を表示させる手段とを有することを特徴とする。

本発明に係る会議システムは、前記制御手段は、前記表示可能領域に前記置換部分を表示させる場合に、該置換部分を、所定時間だけ、前記置換部分以外の前記対訳字幕に比べて強調表示させるようにしてあることを特徴とする。

本発明に係る会議システムは、中央装置と、複数台の端末装置夫々とが通信可能に接続されており、各端末装置は、前記表示部、前記生成手段、及び前記制御手段を有し、前記中央装置は、前記認識手段及び翻訳手段と、前記認識結果及び翻訳結果を夫々示すデータを前記端末装置へ配信する配信手段とを有し、各端末装置では、受信したデータに基づいて、前記生成手段による生成処理を実行するようにしてあることを特徴とする。

本発明に係る情報処理装置は、字幕を表示する表示部を備え、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理装置において、受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成する生成手段と、該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段とを備えることを特徴とする。

本発明に係る会議支援方法は、字幕を表示する表示部を備える会議システムにて、会議の実現を支援する会議支援方法において、一の言語でなされた発言の音声を音声認識し、音声認識した認識結果を、前記一の言語とは異なる他の言語に翻訳し、前記認識結果と翻訳した翻訳結果とが併記された対訳字幕を前記表示部に表示させることを特徴とする。

本発明に係る情報処理方法は、字幕を表示する表示部を備える情報処理装置にて、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理方法において、受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を前記表示部に表示させることを特徴とする。

本発明に係るコンピュータプログラムは、字幕を表示する表示部を備えるコンピュータに、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信させるコンピュータプログラムであって、コンピュータに、受信されたデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成させる生成ステップと、コンピュータに、前記生成ステップで生成された対訳字幕が表示されるように前記表示部を制御させる制御ステップとを実行させることを特徴とする。

本発明にあっては、会議システムが表示部を備え、更に、認識手段、翻訳手段、生成手段、及び制御手段を備える。このような会議システムは、本発明に係る会議支援方法を実現する。
発言者は、一の言語で発言する。ここで、一の言語は、発言者が容易に理解することができる言語である。
発言者による発言の音声は、認識手段によって一の言語で音声認識される。
認識手段による認識結果（即ち原文）は、翻訳手段によって他の言語に翻訳される。ここで、他の言語は、聞き手が容易に理解することができる言語である。

生成手段は、原文と翻訳手段による翻訳結果（即ち訳文）とが併記された対訳字幕を生成する。
制御手段は、表示部を制御する。この結果、表示部に、生成手段が生成した対訳字幕、即ち、原文と訳文とが併記された字幕が表示される。
聞き手は、表示部に表示された対訳字幕を読むことによって、発言者の発言内容を理解する。このとき、聞き手は訳文のみ又は原文のみを読むことも、原文と訳文とを対比させつつ読むことも可能である。

一般に、会議システムは、複数人の参加者が個別に使用する複数台の端末装置を用いてなる。このような会議システムにおいては、少なくとも表示部は各端末装置が備えている必要がある。一方、認識手段、翻訳手段、生成手段、及び制御手段については、これらの一部又は全部を、各端末装置が備えていてもよく、代表的な端末装置が備えていてもよく、各端末装置と通信する中央装置が備えていてもよい。
なお、参加者が一堂に会している場合には、表示部は１つであってもよい。

本発明にあっては、表示部に、訳振り字幕が表示される。訳振り字幕とは、原文に訳文がルビ状に併記されたものであるため、聞き手は、訳振り字幕以外の対訳字幕（例えば、原文と訳文とが単純に並置されているだけの対訳字幕）に比べて、原文と訳文とを更に容易に対比させることができる。従って、聞き手は誤訳の有無を容易に判断することができる。この結果、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。

ところで、会議システムが、後述するように訳振り字幕と認識結果字幕とを両方表示する構成ではなく、訳振り字幕のみを表示する構成である場合には、表示部が有する表示領域を、訳振り字幕だけで独占することができる。このため、原文が理解できない聞き手にとっては無用なものである認識結果字幕によって、表示領域の一部が占拠され、その分、訳振り字幕を表示することができない、という不都合を防止することができる。

本発明にあっては、原文に含まれる単語又は連語に、この単語又は連語を翻訳した語句がルビ状に併記された訳振り字幕が、表示部に表示される。
原文に含まれる一文を正確に翻訳することに比べれば、原文に含まれる単語又は連語を正確に翻訳することは容易である。従って、原文を誤訳してしまう可能性を低減することができる。
また、聞き手は、単語又は連語毎に原文と訳文とを容易に対比させることができる。従って、聞き手は誤訳の有無を容易に判断することができる。この結果、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。

本発明にあっては、生成手段が、訳振り字幕と認識結果字幕とを夫々生成する。
制御手段は表示部を制御する。この結果、表示部が有する表示領域が２分割される。更に、２分割された表示領域の一方（以下、訳振り領域という）に、原文と訳文とが併記された訳振り字幕が表示され、他方（以下、原文領域という）に、原文が記載された字幕（即ち認識結果字幕）が表示される。このため、表示領域に訳振り字幕及び認識結果字幕の両方が表示されているにも拘らず、聞き手にとっては訳振り字幕及び認識結果字幕夫々が読み易い。即ち、各字幕の読み易さを向上させることができる。

ところで、発言者が発言してから原文が得られるまでの時間は、この原文の訳文が得られるまでの時間よりも短い。換言すれば、発言者が発言してから訳文が得られるまでの時間は長い。
しかしながら、本発明では、原文から訳文が得られる前に、認識結果字幕だけを先に表示することができる。この結果、訳振り字幕のみを表示する場合に比べて、聞き手を無用に待たせてしまう虞がない。

しかも、既に原文領域に表示した認識結果字幕とは別に、後から訳振り領域に訳振り字幕を表示するため、既に表示してある認識結果字幕を修正して訳振り字幕となす必要がない。即ち、認識結果字幕及び訳振り字幕夫々を表示する処理が簡易である。

本発明にあっては、認識結果字幕が適宜に消去される。何故ならば、訳振り字幕には原文も含まれているからである。更に詳細には、同じ原文を含む訳振り字幕と認識結果字幕とを両方表示することに大きな利益はなく、その一方で、重複した原文が、表示部が有する表示領域を無用に占拠するという不都合が生じるからである。

そこで、訳振り領域に訳振り字幕が表示される場合に、表示される訳振り字幕に含まれる原文を示す認識結果字幕が、原文領域から消去される。この結果、認識結果字幕は、通常、古いものから順次消去されていく。
つまり、認識結果字幕を適宜に消去することができる。この結果、参加者の利便性を損ねることなく、原文及び訳文を効率よく表示することができる。

本発明にあっては、訳振り領域にて訳振り字幕がスクロール表示され、原文領域にて認識結果字幕がスクロール表示される。
訳振り領域及び原文領域夫々は、表示部が有する表示領域を２分割したものであるため、訳振り領域（又は原文領域）に同時的に表示することが可能な訳振り字幕（又は認識結果字幕）の量は、表示領域全体に表示可能な量よりも少ない。
しかしながら、訳振り字幕（又は認識結果字幕）が自動的にスクロール表示される場合には、聞き手は、訳振り字幕（又は認識結果字幕）の全文を、順に読んでいくことができる。

また、訳振り字幕（又は認識結果字幕）が手動でスクロール可能な場合には、聞き手は、訳振り字幕（又は認識結果字幕）をスクロールアップ表示又はスクロールダウン表示させることによって、訳振り字幕（又は認識結果字幕）の内、所望する箇所を適宜に読むことができる。
以上の結果、各字幕の読み易さを向上させることができる。

なお、原文から訳文が得られるまでの時間が過剰に長い場合には、原文領域に表示されている認識結果字幕に対応する訳振り字幕が訳振り領域に表示されない内に、新たな認識結果字幕を原文領域に表示しなければならないことがある。この場合には、既に表示されている認識結果字幕を原文領域から自動的にスクロールアウト表示して、新たな認識結果字幕を原文領域に表示させることが考えられる。また、この場合には、認識結果字幕がスクロールアウト表示されていることを示す記号又はメッセージ等を原文領域に付加的に表示することが考えられる。

本発明にあっては、会議システムは、認識判定手段及び領域判定手段を更に有する。
一般に、高精度の音声認識結果を得るための演算には長時間を要する。従って、高精度の音声認識結果が表示されるまで、聞き手を長時間待たせてしまう虞がある。とはいえ、音声認識結果の精度を犠牲にして演算時間を短縮すると、誤った音声認識結果が表示されてしまうかもしれない。

そこで、認識手段は、発言の音声を一の言語で音声認識した後で、発言の音声を一の言語で改めて音声認識する。この場合、認識手段は、再度の認識結果が、最初の認識結果よりも高精度になるように音声認識すればよい。このとき、音声認識に関する演算に長時間を要するが、音声認識結果が表示されるまで、聞き手を長時間待たせてしまうことはない。何故ならば、２回目に認識手段が音声認識すべき発言の音声は、既に音声認識したものであるため、２回目の音声認識の終了を待つことなく、１回目の音声認識の認識結果を表示すればよいからである。
以下では、認識手段による最初の認識結果を最初の原文といい、再度の認識結果を、高精度原文という。

最初の原文には誤りが含まれている虞がある。そこで、認識判定手段は、最初の原文を高精度原文で置換すべき置換部分及び被置換部分の有無を判定する。高精度原文の方が最初の原文よりも音声認識の精度が高いため、最初の原文と高精度原文とで異なる部分が存在する場合には、最初の原文における当該部分は被置換部分であり、高精度原文における当該部分は置換部分である。被置換部分を置換部分で置き換えれば、最初の原文と高精度原文とは等しくなる。即ち、最初の原文の誤りを正すことができる。
生成手段は、置換部分及び被置換部分がある場合、即ち、最初の原文に誤りが含まれている場合、最初の原文と訳文とが併記された対訳字幕を、高精度原文と訳文とが併記された対訳字幕に修正する。

表示されていない対訳字幕に誤りが含まれていた場合、制御手段は、表示されていない対訳字幕を表示させるときに、生成手段による修正後の対訳字幕を表示させればよい。
一方、表示されている対訳字幕に誤りが含まれていた場合には、注意が必要である。何故ならば、例えば被置換部分の文字数が、置換部分の文字数よりも少ない場合、表示部に表示されている被置換部分を、置換部分で単純に置き換えることができないからである。

仮に、置換部分の文字サイズ又は文字間のピッチを、被置換部分の文字サイズ又は文字間よりも小さく又は狭くすれば、置き換えは可能かもしれない。しかしながら、この場合、文字サイズ又は文字間のピッチが部分的に異なる対訳字幕が表示されることになるため、美観を損ない易く、しかも、聞き手が対訳字幕を読み難くなる虞がある。

また、最初の原文を消去してから、改めて高精度原文を表示させる（即ち、原文を全部置換する）ことも考えられるが、この場合、どの部分が修正されたのか、聞き手には把握し難い。
更に、最初の原文と高精度原文とでは、例えば置換部分及び被置換部分夫々の文字数の差異により、同一の語句が異なる位置に配置される可能性が高い。このため、聞き手が最初の原文を読んでいる最中に、最初の原文が消去されてしまうと、改めて高精度原文が表示されても、聞き手は、自分がどこまで読んだのかがわからなくなり易い。
つまり、原文の全置換には、会議システムの使用性を悪化させるという問題がある。

そこで、最初の原文に誤りが含まれている場合、領域判定手段は、表示部に表示されている対訳字幕から被置換部分を消去したときに、置換部分を表示可能な表示可能領域が対訳字幕に生じるか否かを判定する。
被置換部分を消去すれば表示可能領域が生じる場合、制御手段は、表示部を制御することによって、被置換部分を消去させ、表示可能領域に置換部分を表示させる。

被置換部分を消去しても、表示可能領域が生じない場合、制御手段は、表示部を制御することによって、被置換部分を消去させ、且つ、表示可能領域を設けてから、表示可能領域に置換部分を表示させる。ここで、制御手段は、表示可能領域を設けるために、被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる。
以上の結果、文字サイズ又は文字間のピッチを変更することなく、また、原文を全部置換することなく、表示されている最初の原文を、高精度原文に修正することができる。この場合、会議システムの使用性の悪化を抑制することができる。

なお、表示内容の変化を更に低減するためには、表示部に最初の原文を表示させる際、制御手段が、語句と語句との間に予め余裕を持たせておけばよい。この場合、例えば、通常は１文字分の空白を配置すべき英単語間に、所定のＮ（Ｎ≧２）文字分の空白が配置される。このとき、被置換部分を消去すれば表示可能領域が生じる、と判定され易くなるため、表示可能領域を設けるためのスクロール表示が不要になる可能性が高くなる。即ち、表示内容の変化が低減される。

本発明にあっては、制御手段は、表示可能領域に置換部分を表示させる場合に、この置換部分を、所定時間だけ、置換部分以外の対訳字幕に比べて強調表示させる。この場合、聞き手は、表示されている原文が修正されたか否か、及び、修正された場合にはどこが修正されたのかを、更に容易に把握することができる。
しかも、所定時間が経過すれば、強調表示は行なわれないため、置換部分が強調表示され続けることによって美観を損なったり、聞き手が対訳字幕を読み難くなったりする虞がない。

本発明にあっては、会議システムは、中央装置と複数台の端末装置とを用いてなる。中央装置と複数台の端末装置夫々とは通信可能に接続されている。端末装置は、参加者が使用するものである。
中央装置では、認識手段が、発言の音声を一の言語で音声認識する。この結果、中央装置では原文が得られる。また、中央装置では、翻訳手段が、原文を他の言語に翻訳する。この結果、中央装置では訳文が得られる。
更に、中央装置では、配信手段が、原文及び訳文を夫々示すデータを複数台の端末装置へ配信する。

端末装置では、受信したデータに基づいて、生成手段が、原文と訳文とが併記された対訳字幕を生成する。また、端末装置では、制御手段が表示部を制御することによって、生成手段が生成した対訳字幕を表示部に表示させる。
このような端末装置は、本発明に係る情報処理装置を用いてなり、本発明に係る情報処理方法を実現する。また、本発明に係るコンピュータプログラムは、本発明の情報処理装置が備える各種手段を、コンピュータのハードウェア要素を用いてソフトウェア的に実現させる。

一般に、音声認識及び翻訳をコンピュータで実現するためには、煩雑な演算処理を必要とする。従って、仮に、各端末装置が認識手段及び翻訳手段を備えている場合には、個々の端末装置の演算能力が高くなければ、音声認識から字幕表示までの処理時間が非常に長くなる虞がある。かといって、個々の端末装置の演算能力を高くすれば、会議システムの製造コストが増大する。
そこで、中央装置が煩雑な演算処理を実行する。この場合、中央装置の演算能力のみ高くすればよいため、会議システムの製造コストを低減しつつ、音声認識から字幕表示までの処理時間を短縮することができる。

本発明の会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムによる場合、発言者は、自身が容易に理解することができる一の言語で発言することができる。このとき、他の言語が全く理解できなくても格別の問題はない。
一方、聞き手は、発言者の発言内容を、自身が容易に理解することができる他の言語で読むことができる。このとき、一の言語が全く理解できなくても格別の問題はない。従って、聞き手は、一の言語でなされた発言を聞く場合、及び、一の言語で表記された発言内容を読む場合の何れと比べても、発言者の発言内容を、容易に理解することができる。

また、一の言語に対する理解が不十分であっても、聞き手は、一の言語で表記された発言内容（即ち原文）と他の言語で表記された発言内容（即ち訳文）とを読み比べることによって、誤訳の有無を容易に判断することができる。従って、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。
以上の結果、発言者であるか聞き手であるかを問わず、会議の参加者全員の利便性を向上させることができる。

本発明の実施の形態１に係る会議システムの構成を模式的に示す斜視図である。本発明の実施の形態１に係る会議システムが備える端末装置の要部構成を示すブロック図である。本発明の実施の形態１に係る会議システムが備える中央装置の要部構成を示すブロック図である。本発明の実施の形態１に係る会議システムにおいて各端末装置のディスプレイに表示される字幕表示画面の一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて字幕表示画面の字幕表示領域に表示される原文字幕の一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて字幕表示領域に表示される訳振り字幕及び原文字幕の一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて端末装置間で字幕が共有される仕組みを説明するための機能ブロック図である。本発明の実施の形態１に係る会議システムにおいて原文、訳文、及び各種字幕を管理するための字幕管理テーブルの一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて原文、訳文、及び各種字幕を管理するための字幕管理テーブルの一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて字幕表示領域に表示される訳振り字幕及び原文字幕の他の一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて字幕表示領域に表示される訳振り字幕及び原文字幕の更に他の一例を示す模式図である。本発明の実施の形態１に係る会議システムにおいて字幕表示領域に表示される訳振り字幕の一例を示す模式図である。本発明の実施の形態１に係る会議システムで実行される音声送信処理、データ配信処理、及び字幕表示処理の手順を示すフローチャートである。本発明の実施の形態１に係る会議システムが備える中央装置で実行されるデータ配信処理の手順を示すフローチャートである。本発明の実施の形態１に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。本発明の実施の形態１に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。本発明の実施の形態１に係る会議システムが備える各端末装置で実行される原文字幕出力処理手順の詳細を示すフローチャートである。本発明の実施の形態１に係る会議システムが備える各端末装置で実行される訳振り字幕出力処理手順の詳細を示すフローチャートである。本発明の実施の形態２に係る会議システムにおける高速処理及び高精度処理の仕組みを説明するための機能ブロック図である。本発明の実施の形態２に係る会議システムにおいて字幕表示画面の字幕表示領域に表示される高速原文字幕の一例を示す模式図である。本発明の実施の形態２に係る会議システムにおいて字幕表示領域に表示される高速訳振り字幕及び高速原文字幕の一例を示す模式図である。本発明の実施の形態２に係る会議システムにおいて字幕表示領域に表示される高速訳振り字幕及び高速原文字幕の他の一例を示す模式図である。本発明の実施の形態２に係る会議システムにおいて字幕表示領域に表示される高速訳振り字幕及び高速原文字幕の更に他の一例を示す模式図である。本発明の実施の形態２に係る会議システムにおいて字幕表示領域に表示される高精度訳振り字幕及び高精度原文字幕の一例を示す模式図である。本発明の実施の形態２に係る会議システムで実行されるデータ配信処理及び字幕表示処理の手順を示すフローチャートである。本発明の実施の形態２に係る会議システムが備える中央装置で実行されるデータ配信処理の手順を示すフローチャートである。本発明の実施の形態２に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。本発明の実施の形態２に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。本発明の実施の形態２に係る会議システムが備える各端末装置で実行される原文字幕修正処理手順の詳細を示すフローチャートである。本発明の実施の形態２に係る会議システムが備える各端末装置で実行される原文字幕修正処理手順の詳細を示すフローチャートである。本発明の実施の形態２に係る会議システムが備える各端末装置で実行される訳振り字幕修正処理手順の詳細を示すフローチャートである。

以下、本発明を、その実施の形態を示す図面に基づいて詳述する。

実施の形態１．
図１は、本発明の実施の形態１に係る会議システム６の構成を模式的に示す斜視図である。
本実施の形態における会議システム６は、複数人の参加者による会議の実現を支援すべく、会議に必要な情報を複数台の端末装置１，１，…間で共有させる。このために、会議システム６は、参加者が使用する端末装置１を人数分備え、更に、１台の中央装置３と、ネットワーク５とを備えている。

会議に必要な情報としては、例えば、参加者の発言の音声、参加者が映っている動画像、会議に供される資料の静止画像、及び、参加者の発言内容を示す字幕等が挙げられる。
ネットワーク５は、会議が行なわれる会社組織の社内ＬＡＮ、及び／又はインターネットのような公衆通信網等を用いてなる。

各端末装置１と中央装置３とは、ネットワーク５を介して、通信可能に接続される。このために、各端末装置１は、中央装置３との接続の認証を受け、認証された端末装置１と中央装置３との間で、共有すべき音声及び字幕等が授受される。例えば、音声を示す音声データが、中央装置３から、認証された端末装置１，１，…へ配信され、音声データを受信した各端末装置１は、受信した音声データに基づいて、後述するスピーカ２８から音声を出力する。この結果、同一の音声が、認証された端末装置１，１，…夫々のスピーカ２８から出力される。即ち、同一の音声が端末装置１，１，…間で共有される。
以下では、特に区別しない限り、認証された端末装置１を単に端末装置１という。

図２は、端末装置１の要部構成を示すブロック図である。
端末装置１は、パーソナルコンピュータを用いてなり、バス又は信号線によって相互に接続されている制御部１１、ＨＤＤ（ハードディスク）１２、入力処理部１３、表示処理部１４、通信処理部１５、映像処理部１６、入力音声処理部１７、出力音声処理部１８、及び外部記憶部１９を備える。
更に、端末装置１は、内蔵又は外部接続により、タブレット２１、マウス２２、キーボード２３、ディスプレイ２４、Ｉ／Ｆ部２５、カメラ２６、マイク２７、及びスピーカ２８を備える。

制御部１１は、主記憶部であるＲＯＭと、ＲＯＭに記憶されているコンピュータプログラムに従って各種処理を実行するＣＰＵと、ＣＰＵが作業領域として用いるＲＡＭとを備え、端末装置１の制御中枢として機能する。

ＨＤＤ１２は補助記憶部である。ＨＤＤ１２には、端末装置１用のコンピュータプログラム（以下、端末プログラムという）１Ｐが記憶されている。端末プログラム１Ｐは、本発明の実施の形態に係るコンピュータプログラムとして機能する。なお、ＨＤＤ１２には端末プログラム１Ｐ以外のコンピュータプログラムも記憶されていてよい。
制御部１１が、ＨＤＤ１２に記憶されている端末プログラム１Ｐに従って装置各部を制御することによって、端末装置１は、本発明の実施の形態における情報処理装置として機能する。
また、ＨＤＤ１２には、後述する字幕管理テーブル１Ｔ（図８及び図９参照）が記憶されている。

入力処理部１３には、入力用ユーザインタフェースとして、タブレット２１、マウス２２、及びキーボード２３が接続されている。タブレット２１は、ペン２０を用いて操作される。
以下では、タブレット２１、マウス２２、及びキーボード２３を区別せずに、操作部２１〜２３という。

表示処理部１４には、出力用ユーザインタフェースとして、ディスプレイ２４が接続されている。ディスプレイ２４は、液晶ディスプレイを用いてなり、本発明の実施の形態における表示部として機能する。
制御部１１は、表示処理部１４を介して、ディスプレイ２４に、後述する字幕表示画面２４１（図４参照）を表示させる。字幕表示画面２４１内には、端末装置１，１，…間で共有すべき字幕を表示するための字幕表示領域４が設けられる。

通信処理部１５は、ネットワークカードを用いてなり、通信処理部１５には、端末装置１とネットワーク５とのインタフェースであるＩ／Ｆ部２５が接続されている。通信処理部１５は、ネットワーク５を介して送受信されるデジタルデータのパケット化及びパケットからのデジタルデータの読み取り等を行なう。通信処理部１５が、音声データ及び動画像を示す動画像データ等を送受信するために用いる通信プロトコルは、例えばＨ．３２３、ＳＩＰ（Session Initiation Protocol ）、又はＨＴＴＰ（Hypertext Transfer Protocol ）等であるが、これらに限定されるものではない。
制御部１１は、通信処理部１５を用いて、中央装置３との間で各種データを送受信する。

映像処理部１６には、カメラ２６が接続されている。カメラ２６は、端末装置１を使用している参加者を撮像することによって、参加者の動画像を映像処理部１６に与える。映像処理部１６はエンコーダを含んでおり、カメラ２６から与えられた動画像を、Ｈ．２６４又はＭＰＥＧ等の映像規格の動画像データへ変換して出力する。
制御部１１は、映像処理部１６から出力された動画像データを、中央装置３へ送信する。一の端末装置１から中央装置３へ送信された動画像データは、中央装置３から他の端末装置１，１，…へ配信される。

動画像データを受信した端末装置１は、受信した動画像データに基づく動画像を、ディスプレイ２４の所定の表示領域（例えば図４に示す字幕表示画面２４１の近傍に表示される動画像表示画面内）に表示させる。

入力音声処理部１７には、マイク２７が接続されている。マイク２７は、端末装置１を使用している参加者の発言を集音することによって、アナログの音声を入力音声処理部１７に与える。入力音声処理部１７はＡ／Ｄ変換機能を有しており、与えられた音声をサンプリングすることによって、デジタルの音声データへ変換して出力する。なお、入力音声処理部１７は、エコーキャンセラを内蔵していてもよい。
制御部１１は、入力音声処理部１７から出力された音声データを、中央装置３へ送信する。一の端末装置１から中央装置３へ送信された音声データは、中央装置３から他の端末装置１，１，…へ配信される。

音声データを受信した端末装置１は、受信した音声データを、出力音声処理部１８に入力する。
出力音声処理部１８には、スピーカ２８が接続されている。出力音声処理部１８はＤ／Ａ変換機能を有しており、自身に入力されたデジタルの音声データを、アナログの音声へ変換してからスピーカ２８に与える。このとき、スピーカ２８から音声が出力される。

外部記憶部１９は、制御部１１に制御されることによって、可搬性を有する記録媒体Ｍから、記録媒体Ｍに記録されている端末プログラム１Ｐを読み込む。読み込まれた端末プログラム１Ｐは、ＨＤＤ１２に書き込まれる。
記録媒体Ｍとしては、例えばＣＤ−ＲＯＭ、ＤＶＤ、ブルーレイディスク、又はフレキシブルディスク等が用いられる。
本実施の形態においては、端末プログラム１Ｐは、記録媒体Ｍに記録された状態で配布される構成であるが、このような構成に限定されるものではない。例えば、端末プログラム１Ｐは、ネットワーク５を介して配信される構成でもよく、制御部１１が有するＲＯＭに予め記憶してある構成でもよい。

また、本実施の形態においては、端末プログラム１Ｐは、端末装置１にインストールされてから実行される構成であるが、このような構成に限定されず、記録媒体Ｍ又は配信元から読み取られて直接的に実行される構成でもよい。
以下では、複数台の端末装置１，１，…を区別する場合に、便宜的に端末装置Ａ１，Ｂ１，Ｃ１，…という（後述する図７参照）。また、端末装置Ａ１，Ｂ１，Ｃ１，…を使用する参加者を、参加者ａ，ｂ，ｃ，…という。更に、参加者ａは発言者ａともいい、参加者ｂ，ｃ，…は聞き手ｂ，ｃ，…ともいう。

図３は、中央装置３の要部構成を示すブロック図である。
中央装置３は、サーバコンピュータを用いてなり、バス又は信号線によって相互に接続されている制御部３１、ＨＤＤ３２、及び通信処理部３３を備える。更に、中央装置３は、Ｉ／Ｆ部３４を内蔵している。
制御部３１は、主記憶部であるＲＯＭと、ＲＯＭに記憶されているコンピュータプログラムに従って各種処理を実行するＣＰＵと、ＣＰＵが作業領域として用いるＲＡＭとを備え、中央装置３の制御中枢として機能する。

ＨＤＤ３２は補助記憶部である。
ＨＤＤ３２には、中央装置３用のコンピュータプログラム（以下、中央プログラムという）３Ｐが記憶されている。制御部３１が、ＨＤＤ３２に記憶されている中央プログラム３Ｐに従って各種処理を実行し、装置各部を制御する。中央プログラム３Ｐには、音声認識用のコンピュータプログラム、及び、翻訳用のコンピュータプログラム等が含まれている。なお、ＨＤＤ３２には中央プログラム３Ｐ以外のコンピュータプログラムも記憶されていてよい。
また、ＨＤＤ３２には、図示はしないが、端末装置１，１，…の認証を行なうためのユーザデータが記憶されている。更に、ＨＤＤ３２には、後述する言語登録テーブル３Ｔが記憶されている。

通信処理部３３は、ネットワークカードを用いてなり、通信処理部３３には、中央装置３とネットワーク５とのインタフェースであるＩ／Ｆ部３４が接続されている。通信処理部３３は、ネットワーク５を介して送受信されるデジタルデータのパケット化及びパケットからのデジタルデータの読み取り等を行なう。通信処理部３３が、音声データ及び動画像データ等を送受信するために用いる通信プロトコルは、例えばＨ．３２３、ＳＩＰ、又はＨＴＴＰ等であるが、これらに限定されるものではない。
制御部３１は、通信処理部３３を用いて、端末装置１，１，…夫々との間で各種データを送受信する。

なお、端末装置１（又は中央装置３）は、ＨＤＤ１２（又はＨＤＤ３２）を用いてなる補助記憶部に替えて、ＳＳＤのようなフラッシュメモリを用いてなる補助記憶部を備える構成でもよい。

以上のように構成された会議システム６は、いわゆるテレビ会議システムであり、会議システム６を用いることによって、参加者は、リアルタイムで電子会議を行なうことができる。
このために、各参加者は、端末装置１を１台ずつ使用し、操作部２１〜２３を操作することによって、端末プログラム１Ｐに基づく会議用アプリケーションソフトウェア（以下、会議用アプリという）を起動させる。
会議用アプリが起動した場合、参加者がユーザＩＤ及びパスワード等のユーザ情報を入力するための認証画面がディスプレイ２４に表示される。参加者は、ディスプレイ２４に表示された認証画面を視認しながら、操作部２１〜２３を操作することによって、認証画面にユーザ情報を入力する。

入力処理部１３は、認証画面に入力されたユーザ情報を示すユーザデータを制御部１１へ出力する。制御部１１は、入力されたユーザデータを中央装置３へ送信する。このとき、ユーザデータに関連付けて、端末装置１に割り振られているＩＰアドレスも、中央装置３へ送信される。
中央装置３は、ユーザデータ及びＩＰアドレスを受信する。
制御部３１は、受信したユーザデータとＨＤＤ３２に記憶されているユーザデータとを比較することによって、ログインを許可するか否かを判定する。次いで、制御部３１は、判定結果に応じた認証結果データを、受信したＩＰアドレスによって識別される端末装置１へ送信する。

ログインを許可する場合、制御部３１は、個々の端末装置１，１，…を識別するための端末識別データを発行する。ログインの許可を示す認証結果データには、端末識別データが含まれている。以後、制御部３１は、端末識別データを用いて、個々の端末装置１，１，…を識別する。

ログインの許可を示す認証結果データを受信した端末装置１（即ち認証された端末装置１）では、ディスプレイ２４に、会議用アプリの各種画面（動画像表示画面及び字幕表示画面２４１等）が表示される。以後、参加者は、端末装置１を会議システム６の会議用端末装置として使用することができる。また、端末装置１は、所要のデータを中央装置３へ送信する場合に、認証結果データに含まれていた端末識別データも、同時的に中央装置３へ送信する。
一方、ログインの却下を示す認証結果データを受信した端末装置１（即ち認証されなかった端末装置１）では、ディスプレイ２４に、エラーメッセージを含む画面が表示される。この場合、参加者は、端末装置１を会議システム６の会議用端末装置として使用することができない。

図４は、各端末装置Ｂ１，Ｃ１のディスプレイ２４に表示される字幕表示画面２４１の一例を示す模式図である。
字幕表示画面２４１は会議用アプリのアプリケーション・ウィンドウであり、字幕表示画面２４１の中央部には、矩形状の字幕表示領域４が設けられている。
ところで、発言者ａが英語を母国語としており、聞き手ｂ，ｃが日本語を母国語としており、聞き手ｄがドイツ語を母国語としている場合、発言者ａは英語を使用する方が日本語又はドイツ語等を使用するよりも利便性が高く、聞き手ｂ，ｃは日本語を使用する方が利便性が高く、聞き手ｄはドイツ語を使用する方が利便性が高い。

そこで、会議システム６は、発言者ａが英語でなした発言を音声認識してから日本語に翻訳し、発言内容の英文（即ち原文）及び和文（即ち訳文）が併記された対訳字幕と、原文のみの原文字幕とを、端末装置Ｂ１，Ｃ１夫々のディスプレイ２４が有する字幕表示領域４に表示させる。同様に、会議システム６は、原文及び訳文である独文が併記された対訳字幕と原文字幕とを、端末装置Ｄ１のディスプレイ２４が有する字幕表示領域４に表示させる。
このような対訳字幕として、本実施の形態では、原文に訳文がルビ状に併記された訳振り字幕を例示する。また、原文字幕は、本発明の実施の形態における認識結果字幕として機能する。

図５は、字幕表示領域４に表示される原文字幕４４の一例を示す模式図である。また、図６は、字幕表示領域４に表示される訳振り字幕４３及び原文字幕４４の一例を示す模式図である。
字幕表示領域４は仮想的に上下に２分割されており、上側が訳振り字幕を表示するための訳振り領域４１として用いられ、下側が原文字幕を表示するための原文領域４２として用いられる。従って、字幕表示領域４、並びに訳振り領域４１及び原文領域４２は、本発明の実施の形態における表示部が有する表示領域、並びに表示領域を２分割してなる一方及び他方として機能する。なお、訳振り領域４１と原文領域４２との間に、境界線が表示されてもよい。

図５には、原文４４１，４４２を含む原文字幕４４が原文領域４２に横書きで表示され、訳振り領域４１には何も表示されていない場合が例示されている。一般に、翻訳処理は長時間を要するため、原文４４１，４４２の訳文が得られるまでは、原文４４１，４４２を含む原文字幕４４が表示される。
このとき、原文領域４２を視認する聞き手ｂ，ｃには、まず、原文４４１が原文領域４２の下辺部から上方へ移動するように自動的に表示され（即ち原文４４１が自動的にスクロールアップ表示され）、次いで、原文４４２が原文４４１を押し上げるように自動的に表示される（即ち原文４４１，４４２が自動的にスクロールアップ表示される）ように見える。

図６には、原文４４１（図５参照）の訳文４３２が得られた場合が例示されている。このとき、訳振り領域４１には、原文４３１と訳文４３２とが併記された訳振り字幕４３が横書きで表示され、原文領域４２には、原文字幕４４が横書きで表示される。
このとき、訳振り領域４１視認する聞き手ｂ，ｃには、１行目の原文４３１が原文領域４２の下辺部から上方へ移動するように自動的に表示され、次いで、１行目の訳文４３２が原文４４１を押し上げるように自動的に表示され、同様に、各２行目の原文４３１及び訳文４３２が各１行目の原文４３１及び訳文４３２を押し上げるように自動的に表示されるように見える。

ここで、原文４３１は、図５に示す原文４４１に相当する。このため、図６に示す原文字幕４４には、図５に示す原文４４２は含まれているが、原文４４１は含まれていない。換言すれば、訳振り領域４１に表示される訳振り字幕４３に含まれている原文４３１を示す原文字幕４４は、原文領域４２から消去されている。従って、訳振り字幕４３と原文字幕４４とで全く同じ内容の原文４４１と原文４３１いとが重複することはない。つまり、原文字幕４４には、未訳の原文４４２のみが含まれている。
このため、原文領域４２を視認する聞き手ｂ，ｃには、原文４３１及び訳文４３２の表示と共に原文４４１が消去されて、原文４４２だけが残るように見える。

図６に示すように、本実施の形態の訳振り字幕４３は、原文４３１に含まれる単語又は連語（例えば「try and 」、「make〜decision」、「final 」、及び「hotel 」）に、訳文４３２として、この単語又は連語を翻訳した語句（この場合、「〜よう努める」、「意思決定をする」、「最終の」、及び「ホテル」）がルビ状に併記されたものである。このとき、各単語及び各連語は、下線及び表示色等の違いによって、他の単語及び連語と区別される。

ところで、図６に示す例では、原文４３１に含まれる単語又は連語の横方向の長さは、訳文４３２に含まれ、この単語又は連語を翻訳した語句の横方向の長さよりも短い。このため、原文４３１では、翻訳した語句の長さに応じて、単語又は連語同士の間隔が、図５に示す原文４４１における単語又は連語同士の間隔と比べて、長く設けられている。

字幕表示のために、参加者ａ，ｂ，ｃ，…は、自身が使用する言語を予め登録する。このために、ディスプレイ２４には言語登録画面が表示される。例えば参加者ａは、ディスプレイ２４に表示された言語登録画面を視認しながら、操作部２１〜２３を操作することによって、言語登録画面に、所望する言語である英語を、使用言語として入力する。
この後、使用言語が英語であることを示すデータと端末識別データとが、端末装置Ａ１から中央装置３へ送信される。
使用言語を示すデータと端末識別データとを受信した中央装置３では、端末装置Ａ１，Ｂ１，Ｃ１，…の端末識別データと、参加者ａ，ｂ，ｃ，…の使用言語とが関連付けられた言語登録テーブル３Ｔが、ＨＤＤ３２に記憶される。

なお、会議システム６は、端末装置Ａ１のディスプレイ２４にも訳振り字幕及び原文字幕を表示させる構成でもよい。また、少なくとも原文字幕を端末装置Ａ１のディスプレイ２４に表示する場合には、発言者ａは、表示された原文字幕を読んで、自身の発言が正確に音声認識されたか否かを判断することができる。

図７は、端末装置１，１，…間で字幕が共有される仕組みを説明するための機能ブロック図である（図２及び図３参照）。
発言者ａが英語でなした発言の音声は、端末装置Ａ１のマイク２７によって集音され、端末装置Ａ１の入力音声処理部１７によって音声データに変換される。変換後の音声データ、即ち発言者ａによる発言を示す音声データは、端末装置Ａ１の端末識別データと共に、端末装置Ａ１から中央装置３へ送信される。

音声データ及び端末識別データを受信した場合、中央装置３の制御部３１は、受信した端末識別データに基づいて言語登録テーブル３Ｔを参照することによって、原文の言語と訳文の言語とを判定する。
本実施の形態の例では、中央装置３が受信した端末識別データは端末装置Ａ１を示すものであるため、原文の言語は英語である、と判定される。また、端末装置Ｂ１，Ｃ１に係る訳文の言語は日本語であり、端末装置Ｄ１に係る訳文の言語はドイツ語である、と判定される。
以下では、英語を日本語に翻訳する場合を例示する。

中央装置３の制御部３１は、中央プログラム３Ｐに含まれる音声認識用のコンピュータプログラムの内、英語の音声認識用のコンピュータプログラムに従うことによって、英語の音声認識エンジン３１１として機能する。また、制御部３１は、中央プログラム３Ｐに含まれる翻訳用のコンピュータプログラムの内、英文和訳用のコンピュータプログラムに従うことによって、英語から日本語への翻訳エンジン３１２として機能する。

音声認識エンジン３１１は、端末装置Ａ１から受信した音声データに対して音声認識処理を実行することによって、認識結果（即ち原文）を示す原文データを生成する。このような音声認識エンジン３１１は、本発明の実施の形態における認識手段として機能する。
また、音声認識エンジン３１１は、生成した原文データを端末装置Ｂ１，Ｃ１へ配信する。

翻訳エンジン３１２は、音声認識エンジン３１１が生成した原文データに対して翻訳処理を実行することによって、翻訳結果（即ち訳文）を示す訳文データを生成する。このような翻訳エンジン３１２は、本発明の実施の形態における翻訳手段として機能する。ただし、訳文データには、原文の単語又は連語と、この単語又は連語を翻訳した語句とが関連付けられた状態で含まれている。
また、翻訳エンジン３１２は、生成した訳文データを端末装置Ｂ１，Ｃ１へ配信する。

音声認識エンジン３１１による音声認識処理と、翻訳エンジン３１２による翻訳処理とは、マルチタスクで実行される。音声認識処理及び翻訳処理は、演算負荷が大きい処理であるため、制御部３１の演算能力は、少なくとも端末装置１の制御部１１よりは高いことが望ましい。なお、制御部３１は、音声認識処理を専ら実行するＭＰＵと翻訳処理を専ら実行するＭＰＵとを有していてもよい。
ところで、一の音声認識処理の終了後、この音声認識処理に続く翻訳処理が終了しない内に、次の音声認識処理が終了することがある。この場合、例えば一の原文４４１の原文データが配信され、原文４４１（原文４３１）に対応する訳文４３２の訳文データが配信される前に、次の原文４４２の原文データが配信される（図５及び図６参照）。

なお、原文が長文である場合には、原文を分割して翻訳し、翻訳が終了した部分から順に、訳文データを配信することが考えられる。この場合、長文が分割された一の原文４４１及び次の原文４４２の原文データが配信され、先に翻訳された原文４４１に対応する訳文４３２の訳文データが配信されてから、残る原文４４２に係る訳文の訳文データが配信される。

図８（ａ），（ｂ）及び図９（ａ），（ｂ）夫々は、原文、訳文、及び各種字幕を管理するための字幕管理テーブル１Ｔの一例を示す模式図である。更に詳細には、字幕管理テーブル１Ｔは、端末装置１において、受信した原文データと、表示中の原文字幕と、受信した訳文データと、表示中の訳振り字幕とを管理するためのものである。

図８及び図９では、原文４４１，４４２の原文データを「ａａａ」，「ｂｂｂ」で示し、原文字幕４４に含まれている原文４４１，４４２を「ＡＡＡ」，「ＢＢＢ」で示している。また、図９では、訳文４３２の訳文データを「あああ」で示し、訳振り字幕４３に含まれている原文４３１及び訳文４３２を「ααα」及び「アアア」で示している。更に、原文４４１の原文データと、訳文４３２の訳文データとが対応していることを、「＊」で示している。
図７に示すように、端末装置Ｂ１，Ｃ１夫々の制御部１１は、端末プログラム１Ｐに従うことによって、字幕生成エンジン１１１として機能する。

原文４４１の原文データを受信した場合、端末装置Ｂ１，Ｃ１夫々の字幕生成エンジン１１１は、まず、字幕管理テーブル１Ｔに、原文４４１の原文データを登録する。
次に、字幕生成エンジン１１１は、受信した原文データに基づいて、ディスプレイ２４に原文４４１を含む原文字幕４４を表示させるための原文字幕データを生成する。更に、字幕生成エンジン１１１は、生成した原文字幕データを表示処理部１４に与えることによって、ディスプレイ２４に原文字幕４４を表示させる。そして、字幕生成エンジン１１１は、字幕管理テーブル１Ｔに、原文４４１を含む原文字幕４４を登録する。
この結果、図８（ａ）に示すような字幕管理テーブル１Ｔが得られる。

更に、原文４４２の原文データを受信した場合、字幕生成エンジン１１１は、字幕管理テーブル１Ｔに、原文４４２の原文データを登録する。
次に、字幕生成エンジン１１１は、受信した原文データに基づいて、ディスプレイ２４に原文４４１，４４２を含む原文字幕４４を表示させるための原文字幕データを生成する。更に、字幕生成エンジン１１１は、生成した原文字幕データを表示処理部１４に与えることによって、ディスプレイ２４に原文字幕４４を表示させる。
そして、字幕生成エンジン１１１は、字幕管理テーブル１Ｔに、原文４４１，４４２を含む原文字幕４４を登録する。

この結果、図８（ｂ）に示すような字幕管理テーブル１Ｔが得られる。従って、この字幕管理テーブル１Ｔを参照すれば、図５に示すような字幕表示領域４がディスプレイ２４に表示されていることがわかる。
更に、訳文４３２の訳文データを受信した場合、字幕生成エンジン１１１は、字幕管理テーブル１Ｔに、訳文４３２の訳文データを登録する。

また、字幕生成エンジン１１１は、訳文４３２の訳文データに含まれている原文の単語又は連語に基づいて、訳文４３２と、既に受信している原文データが示す原文との対応関係を調査する。本実施の形態の例では、訳文４３２は原文４４１に対応しているため、字幕生成エンジン１１１は、原文４４１の原文データと、訳文４３２の訳文データとが対応している旨を字幕管理テーブル１Ｔに登録する。
この結果、図９（ａ）に示すような字幕管理テーブル１Ｔが得られる。

次に、字幕生成エンジン１１１は、受信した訳文データに基づいて、ディスプレイ２４に原文４４１に相当する原文４３１と訳文４３２とを含む訳振り字幕４３を表示させるための訳振り字幕データを生成する。
また、字幕生成エンジン１１１は、現在の原文字幕データ、つまり、ディスプレイ２４に原文４４１，４４２を含む原文字幕４４を表示させるための原文字幕データを、ディスプレイ２４に原文４４２を含む原文字幕４４を表示させるための原文字幕データに修正する。何故ならば、原文４４１に相当する原文４３１が訳振り字幕４３に含まれるからである。このように修正した原文字幕データに基づいて表示される原文字幕４４からは、原文４４１が消去される。

更に、字幕生成エンジン１１１は、生成した訳振り字幕データと修正した原文字幕データとを表示処理部１４に与えることによって、ディスプレイ２４に訳振り字幕４３及び原文字幕４４を表示させる。
そして、字幕生成エンジン１１１は、字幕管理テーブル１Ｔに、原文４３１及び訳文４３２を含む訳振り字幕４３と原文４４２を含む原文字幕４４とを登録する。
この結果、図９（ｂ）に示すような字幕管理テーブル１Ｔが得られる。従って、この字幕管理テーブル１Ｔを参照すれば、図６に示すような字幕表示領域４がディスプレイ２４に表示されていることがわかる。
以上のような字幕生成エンジン１１１は、本発明の実施の形態における生成手段及び制御手段として機能する。

ところで、図５（及び図６）の例では、原文字幕４４に含まれる原文４４１，４４２（及び原文４４２）は、原文領域４２に全て表示可能な量である。しかしながら、中央装置３から訳文データが配信されないまま、新たな原文データが配信された場合、原文字幕４４に含まれる原文の量が、原文領域４２に表示可能な量を超過することがある。
この場合には、原文領域４２において、原文字幕４４に含まれる原文の先頭部側が順に自動的に消去されると共に、原文字幕４４に含まれる原文の後尾部側が順に自動的にスクロールアップ表示される。しかも、原文字幕４４に含まれる原文の先頭部側が省略されていることを報知する省略記号４５（次の図１０参照）が表示される。

図１０は、字幕表示領域４に表示される訳振り字幕４３及び原文字幕４４の他の一例を示す模式図である。図１０に示す字幕表示領域４は、図６に示す字幕表示領域４に対応するが、省略記号４５、並びに後述するスクロールバー４２１及びスクロールボックス４２２が表示されている。
原文領域４２を視認する聞き手ｂ，ｃには、原文字幕４４に含まれる原文が、先頭部から後尾部へ順に自動的にスクロールアップ表示され続けている内に、やがて、原文の先頭部が原文領域４２外へ自動的に押し出される（即ち自動的にスクロールアウト表示される）ように見える。また、聞き手ｂ，ｃには、原文のスクロールアウト表示と共に、訳振り領域４１と原文領域４２との間に、両者を区切るような省略記号４５が表示されるように見える。

本実施の形態では、聞き手ｂ，ｃが手動で原文字幕４４をスクロール表示させることによって、原文字幕４４に含まれている原文の内、消去されている部分が表示され、表示されていた部分が消去されるようにしてある。このために、原文領域４２には、省略記号４５と共に、原文字幕４４を手動でスクロール表示させるためのスクロールバー４２１及びスクロールボックス４２２が表示される。
この場合、聞き手ｂ，ｃは、操作部２１〜２３を用いてスクロールボックス４２２を操作することによって、原文字幕４４に含まれる任意の部分を原文領域４２に表示させることができるため、聞き手ｂ，ｃの利便性が向上される。

ところで、図６の例では、訳振り字幕４３に含まれる原文４３１及び訳文４３２は、訳振り領域４１に全て表示可能な量である。しかしながら、中央装置３から新たな訳文データが配信された場合、訳振り字幕４３に含まれる原文及び訳文の量が、訳振り字幕４３に表示可能な量を超過することがある。
この場合には、訳振り領域４１において、訳振り字幕４３に含まれる原文及び訳文の先頭部側が順に自動的に消去されると共に、訳振り字幕４３に含まれる原文及び訳文の後尾部側が順に自動的にスクロールアップ表示される。

このため、訳振り領域４１を視認する聞き手ｂ，ｃには、訳振り字幕４３に含まれる原文及び訳文が、先頭部から後尾部へ順に自動的にスクロールアップ表示され続けている内に、やがて、原文及び訳文の先頭部が自動的にスクロールアウト表示されるように見える。
ここで、消去された原文及び訳文は、二度と表示されない構成でもよいが、聞き手ｂ，ｃが訳振り字幕４３を手動でスクロール表示させることによって、訳振り字幕４３に含まれている原文及び訳文の内、消去されている部分が表示され、表示されていた部分が消去される構成でもよい。

図１１は、字幕表示領域４に表示される訳振り字幕４３及び原文字幕４４の更に他の一例を示す模式図である。図１１に示す字幕表示領域４は、図１０に示す字幕表示領域４に対応するが、訳振り領域４１には、訳振り字幕４３を手動でスクロール表示させるためのスクロールバー４１１及びスクロールボックス４１２が表示されている。
この場合、聞き手ｂ，ｃは、操作部２１〜２３を用いてスクロールボックス４１２を操作することによって、訳振り字幕４３に含まれる任意の部分を訳振り領域４１に表示させることができる。この結果、聞き手ｂ，ｃは、読み逃した原文又は再読を所望する訳文等を、任意に読むことができるため、聞き手ｂ，ｃの利便性が向上される。

なお、訳振り領域４１及び原文領域４２夫々の縦長さが、訳振り字幕４３に含まれる原文及び訳文の量並びに原文領域４２に含まれる原文の量夫々の多寡に応じて、可変であってもよい。この場合、例えば図６に示す訳振り領域４１には空白が少なく、原文領域４２には空白が多いため、訳振り領域４１の縦長さが長くなり、その分、原文領域４２の縦長さが短くなる。

図１２は、字幕表示領域４に表示される訳振り字幕４３の一例を示す模式図である。
図５、図６、図１０、及び図１１夫々には、字幕表示領域４に訳振り領域４１及び原文領域４２が設けられている場合を例示しているが、図１２に示す字幕表示領域４には、原文領域４２に相当するものは設けられておらず、字幕表示領域４全体が訳振り領域４１に相当する。
このため、図１２に示す字幕表示領域４には、訳振り字幕４３はスクロール表示されるが、原文字幕４４は全く表示されない。つまり、字幕表示領域４には、翻訳が終了した原文のみが表示され、未訳の原文は表示されない。

従って、字幕表示領域４を、訳振り字幕４３で占有することができる。
なお、字幕表示領域４には、訳振り字幕４３ではなく、原文と訳文とが単純に並置されているだけの対訳字幕が表示される構成でもよい。
以下では、訳振り字幕４３及び原文字幕４４が自動的にスクロール表示される場合を説明し、手動でのスクロール表示についての説明は省略する。

訳振り字幕４３及び原文字幕４４夫々は、スムーススクロール表示（以下、単にスクロール表示という）される。
また、原文字幕４４のスクロール速度は、一の１行（例えば１行目）が表示されてから、次の１行（例えば２行目）が表示されるまでに、一の１行の下側に１行分の空き行が生じるような速度に設定される。
一方、訳振り字幕４３のスクロール速度は、一の２行（例えば１行目及び２行目）が表示されてから、次の２行（例えば３行目及び４行目）が表示されるまでに、一の２行の下側に２行分の空き行が生じるような速度に設定される。何故ならば、訳振り字幕４３においては、原文と、原文にルビ状に併記される訳文との２行分がセットになっているからである。

このような原文字幕４４のスクロール速度の高低は、原文データに含まれる原文の量と、原文データを受信する頻度とに依存する。原文データに含まれる原文の量が多いか、又は、原文データを受信する頻度が高い場合（以下、原文入手速度が速い場合という）には、高いスクロール速度が設定される。逆に、原文入手速度が遅い場合には、低いスクロール速度が設定される。ただし、スクロール速度の設定は、スクロール表示される原文の見易さを考慮して、できるだけ滑らかに変化させる。

同様に、訳振り字幕４３のスクロール速度は、訳文データに含まれる原文及び訳文の量と、訳文データを受信する頻度とに依存する。訳文データに含まれる原文及び訳文の量が多いか、又は、訳文データを受信する頻度が高い場合（以下、訳振り入手速度が速い場合という）には、高速のスクロール速度が設定される。逆に、訳振り入手速度が遅い場合には、低速のスクロール速度が設定される。ただし、スクロール速度の設定は、スクロール表示される原文及び訳文の見易さを考慮して、できるだけ滑らかに変化させる。

図１３は、会議システム６で実行される音声送信処理、データ配信処理、及び字幕表示処理の手順を示すフローチャートである。図１３には、次の図１４に示すデータ配信処理と図１５及び図１６に示す字幕表示処理を抜粋したものが示されている。
図１４は、中央装置３で実行されるデータ配信処理の手順を示すフローチャートである。図１５及び図１６は、各端末装置Ｂ１，Ｃ１で実行される字幕表示処理の手順を示すフローチャートである。
図１３に示す音声送信処理は、端末装置Ａ１で実行される。

端末装置Ａ１の制御部１１は、発言者ａがマイク２７に音声を入力したか否かを判定し（Ｓ１１）、まだ入力していない場合には（Ｓ１１でＮＯ）、Ｓ１１の処理を繰り返し実行する。Ｓ１１における制御部１１は、例えば入力音声処理部１７が音声データを出力したか否かを判定し、音声データが出力された（されていない）場合に、発言者ａが音声を入力した（していない）と判定する。
発言者ａが音声を入力した場合（Ｓ１１でＹＥＳ）、制御部１１は、発言者ａによる発言を示す音声データを、端末装置Ａ１の端末識別データと共に、中央装置３へ送信する（Ｓ１２）。
Ｓ１２の処理終了後、制御部１１は、処理をＳ１１へ戻す。

図１３及び図１４夫々に示すデータ配信処理は、中央装置３で実行される。
中央装置３の制御部３１は、端末装置１，１，…の何れかから、端末識別データと共に音声データを受信したか否かを判定する（Ｓ２１）。
音声データを受信していない場合（Ｓ２１でＮＯ）、制御部３１は、処理を後述するＳ２４へ移す。

音声データを受信した場合（Ｓ２１でＹＥＳ）、制御部３１は、言語登録テーブル３Ｔを参照することによって、原文の言語と訳文の言語とを判定する（Ｓ２２）。次に、制御部３１は、Ｓ２２における原文の言語の判定結果に基づき、Ｓ２１で受信した音声データに対して、音声認識処理を施す（Ｓ２３）。Ｓ２３における制御部３１は、音声認識エンジン３１１として機能する。
制御部３１は、Ｓ２３の音声認識処理をマルチタスクで実行しつつ、処理を次のＳ２４へ移す。

制御部３１は、未訳の原文の原文データ（即ち、まだ翻訳処理が施されていない原文データ。以下、単に未訳の原文データという）が存在するか否かを判定し（Ｓ２４）、未訳の原文データが存在しない場合（Ｓ２４でＮＯ）、処理を後述するＳ２７へ移す。
未訳の原文データが存在する場合（Ｓ２４でＹＥＳ）、即ち、音声認識処理の結果が得られ、得られた結果がまだ翻訳されていない場合には、未訳の原文データに対して翻訳処理を施す（Ｓ２５）。Ｓ２５における制御部３１は、翻訳エンジン３１２として機能する。

制御部３１は、Ｓ２５の翻訳処理をマルチタスクで実行しつつ、処理を次のＳ２６へ移す。
制御部３１は、Ｓ２５で翻訳処理を施した未訳の原文データを端末装置１，１，…へ配信し（Ｓ２６）、次いで、処理を後述するＳ２７へ移す。このとき、制御部３１は、未訳の原文データを、翻訳済みの原文の原文データとしてＨＤＤ３２に記憶するか、又は削除する。
制御部３１は、未配信の訳文データが存在するかを判定し（Ｓ２７）、未配信の訳文データが存在しない場合（Ｓ２７でＮＯ）、処理をＳ２１へ戻す。

未配信の訳文データが存在する場合（Ｓ２７でＹＥＳ）、制御部３１は、未配信の訳文データを端末装置１，１，…へ配信し（Ｓ２８）、次に、処理をＳ２１へ戻す。このとき、制御部３１は、未配信の訳文データを、配信済みの訳文データとしてＨＤＤ３２に記憶するか、又は削除する。ここで、Ｓ２２における訳文の言語の判定結果が日本語である場合、Ｓ２８の処理で訳文データを配信すべき端末装置１，１，…は、端末装置Ｂ１，Ｃ１である。
Ｓ２６及びＳ２８における制御部３１は、本発明の実施の形態における配信手段として機能する。

図１３並びに図１５及び図１６夫々に示す字幕表示処理は、端末装置Ｂ１，Ｃ１夫々で実行される。
図１５に示すように、端末装置Ｂ１，Ｃ１夫々の制御部１１は、字幕表示領域４をディスプレイ２４に表示させる（Ｓ４１）。Ｓ４１の処理が実行された時点では、字幕表示領域４には訳振り字幕４３も原文字幕４４も表示されない。
また、制御部１１は、訳振り領域４１に係るスクロール速度及び原文領域４２に係るスクロール速度夫々を“０”に初期化し（Ｓ４２）、処理を次のＳ４３へ移す。

図１３及び図１５に示すように、制御部１１は、原文データを受信したか否かを判定し（Ｓ４３）、受信していない場合（Ｓ４３でＮＯ）、処理を後述するＳ４５へ移す。
原文データを受信した場合（Ｓ４３でＹＥＳ）、制御部１１は、後述する原文字幕出力処理（図１７参照）を実行する（Ｓ４４）。
制御部１１は、Ｓ４４の原文字幕出力処理をマルチタスクで実行しつつ、処理を後述するＳ４５へ移す。

図１７は、各端末装置１で実行される原文字幕出力処理手順の詳細を示すフローチャートである。
制御部１１は、Ｓ４３で受信した原文データに基づいて、原文字幕データを生成する（Ｓ６１）。次に、制御部１１は、Ｓ６１で生成した原文字幕データに基づいて、原文領域４２に原文字幕４４を表示させる（Ｓ６２）。Ｓ６１及びＳ６２における制御部１１は、字幕生成エンジン１１１として機能する。
更に、制御部１１は、原文入手速度を演算する（Ｓ６３）。

次に、制御部１１は、原文領域４２の空き行が上限値（例えば２行）以上であるか、又は下限値（例えば１行）以下であるかを判定する（Ｓ６４）。ここで、原文領域４２の空き行とは、原文領域４２に表示されている原文字幕４４がスクロールアップ表示されることによって原文字幕４４の最終行の下側に生じる空き行のことである。
原文領域４２の空き行が下限値超過且つ上限値未満（例えば１．５行）である場合（Ｓ６４でＮＯ）、制御部１１は、スクロール速度を現状維持して、原文字幕出力処理を終了し、元の字幕表示処理へ戻る。

原文領域４２の空き行が上限値以上であるか、又は、下限値以下である場合（Ｓ６４でＹＥＳ）、制御部１１は、現在のスクロール速度と、原文領域４２の空き行の多寡とに基づいて、スクロール速度を設定する（Ｓ６５）。

具体的には、原文領域４２の空き行が下限値以下である場合、Ｓ６５における制御部１１は、スクロール速度を増加させる。このとき、制御部１１は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように設定する。例えば、現時点のスクロール速度が“０”である場合、制御部１１は、スクロール速度を、単位時間当たり１ドットの速さ、単位時間当たり２ドットの速さ、…、と、将来的にスクロール速度が徐々に増加するように設定する。このとき、最終的なスクロール速度は、原文領域４２において原文字幕４４に含まれる原文が描画されている行の描画が終了するタイミングで空き行が１行又は１行強発生する速度とする。

一方、原文領域４２の空き行が上限値以上である場合、Ｓ６５における制御部１１は、スクロール速度を減少させる。このとき、制御部１１は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように（即ち、将来的にスクロール速度が徐々に減少するように）設定する。ただし、現時点のスクロール速度が“０”である場合には、Ｓ６５においても、スクロール速度は現状維持される。
Ｓ６５の処理終了後、制御部１１は、原文字幕出力処理を終了し、元の字幕表示処理へ戻る。

図１３及び図１５に示すように、制御部１１は、訳文データを受信したか否かを判定し（Ｓ４５）、受信していない場合（Ｓ４５でＮＯ）、処理を後述するＳ４７へ移す。
訳文データを受信した場合（Ｓ４５でＹＥＳ）、制御部１１は、後述する訳振り字幕出力処理（図１８参照）を実行する（Ｓ４６）。
制御部１１は、Ｓ４６の訳振り字幕出力処理をマルチタスクで実行しつつ、処理を後述するＳ４７へ移す。

図１８は、各端末装置１で実行される訳振り字幕出力処理手順の詳細を示すフローチャートである。
制御部１１は、Ｓ４５で受信した訳文データに基づいて、訳振り字幕データを生成する（Ｓ７１）。次に、Ｓ４５で受信した訳文データに基づいて、重複する原文を消去すべく、Ｓ６１で生成した原文字幕データを修正する（Ｓ７２）。制御部１１は、Ｓ７１で生成した訳振り字幕データ及びＳ７２で修正した原文字幕データに基づいて、訳振り領域４１に訳振り字幕４３を表示させ、原文領域４２に原文字幕４４を表示させる（Ｓ７３）。Ｓ７１〜Ｓ７３における制御部１１は、字幕生成エンジン１１１として機能する。

ただし、後述するＳ４８の処理でスクロールアウト表示された原文の全てが、Ｓ７２の処理の結果として消去された場合、Ｓ７３における制御部１１は、省略記号４５、スクロールバー４２１及びスクロールボックス４２２を原文領域４２から消去させる。

更に、制御部１１は、訳振り入手速度を演算する（Ｓ７４）。
次に、制御部１１は、訳振り領域４１の空き行が上限値（例えば４行）以上であるか、又は下限値（例えば２行）以下であるかを判定する（Ｓ７５）。ここで、訳振り領域４１の空き行とは、訳振り領域４１に表示されている訳振り字幕４３がスクロールアップ表示されることによって訳振り字幕４３の最終行の下側に生じる空き行のことである。
訳振り領域４１の空き行が下限値超過且つ上限値未満（例えば３行）である場合（Ｓ７５でＮＯ）、制御部１１は、スクロール速度を現状維持して、訳振り字幕出力処理を終了し、元の字幕表示処理へ戻る。

訳振り領域４１の空き行が上限値以上であるか、又は、下限値以下である場合（Ｓ７５でＹＥＳ）、制御部１１は、現在のスクロール速度と、訳振り領域４１の空き行の多寡とに基づいて、スクロール速度を設定する（Ｓ７６）。

訳振り領域４１の空き行が下限値以下である場合、Ｓ７６における制御部１１は、スクロール速度を増加させる。このとき、制御部１１は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように設定する。例えば、現時点のスクロール速度が“０”である場合、制御部１１は、スクロール速度を、単位時間当たり１ドットの速さ、単位時間当たり２ドットの速さ、…、と、将来的にスクロール速度が徐々に増加するように設定する。このとき、最終的なスクロール速度は、訳振り領域４１において訳振り字幕４３に含まれる訳振りが描画されている行の描画が終了するタイミングで空き行が２行又は２行強発生する速度とする。

一方、訳振り領域４１の空き行が上限値以上である場合、Ｓ７６における制御部１１は、スクロール速度を減少させる。このとき、制御部１１は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように（即ち、将来的にスクロール速度が徐々に減少するように）設定する。ただし、現時点のスクロール速度が“０”である場合には、Ｓ７６においても、スクロール速度は現状維持される。
Ｓ７６の処理終了後、制御部１１は、訳振り字幕出力処理を終了し、元の字幕表示処理へ戻る。

図１６に示すように、制御部１１は、原文字幕４４をスクロール表示すべきタイミングであるか否かを判定し（Ｓ４７）、スクロール表示すべきタイミングである場合（Ｓ４７でＹＥＳ）、原文字幕４４を、原文領域４２に係るスクロール速度でスクロール表示させる（Ｓ４８）。Ｓ４８の処理の結果として、原文字幕４４に含まれている原文がスクロールアウト表示された場合には、制御部１１は、省略記号４５、スクロールバー４２１及びスクロールボックス４２２を原文領域４２に表示させる。

Ｓ４８の処理終了後、又は、原文字幕４４をスクロール表示すべきタイミングではない場合（Ｓ４７でＮＯ）、制御部１１は、訳振り字幕４３をスクロール表示すべきタイミングであるか否かを判定し（Ｓ４９）、スクロール表示すべきタイミングである場合（Ｓ４９でＹＥＳ）、訳振り字幕４３を、訳振り領域４１に係るスクロール速度でスクロール表示させる（Ｓ５０）。

Ｓ５０の処理終了後、又は、訳振り字幕４３をスクロール表示すべきタイミングではない場合（Ｓ４９でＮＯ）、制御部１１は、操作部２１〜２３にて字幕表示画面２４１の表示を終了させる操作（以下、終了操作という）がなされたか否かを判定する（Ｓ５１）。
終了操作がなされていない場合（Ｓ５１でＮＯ）、制御部１１は、処理をＳ４３へ戻す。
終了操作がなされた場合（Ｓ５１でＹＥＳ）、制御部１１は、字幕表示処理を終了する。

以上のような会議システム６を用いることによって、発言者ａが英語でなした発言の内容を、聞き手ｂ，ｃが日本語で読み、容易且つ正確に理解することができる。
また、英語の単語又は連語に日本語の語句がルビ状に併記されているため、誤訳の有無を判断し易い。

しかも、訳振り字幕４３及び原文字幕４４が訳振り領域４１及び原文領域に個別に表示され、更に、訳振り字幕４３及び原文字幕４４が個々に自動的にスクロール表示されるため、聞き手ｂ，ｃが、訳振り字幕４３及び原文字幕４４夫々の内容を読み取り易い。また、訳振り字幕４３及び原文字幕４４夫々のスクロール速度が、原文入手速度及び訳振り入手速度に応じて適宜に設定され、しかも、スクロール速度を滑らかに変化させるため、スクロール表示が速すぎる、又は遅すぎることによる可読性の悪化、及びスクロール速度の変化が急激であることによる可読性の悪化を抑制することができる。

更にまた、訳振り字幕４３に含まれる原文と原文字幕４４に含まれる原文とが重複しないため、字幕表示領域４を効率的に利用することができる。しかも、聞き手ｂ，ｃが同一の原文を読み取る無用な努力を強いられる虞がない。

実施の形態２．
本実施の形態における会議システム６のハードウェア構成は、実施の形態１における会議システム６のハードウェア構成と同様である。その他、実施の形態１に対応する部分には同一符号を付してそれらの説明を省略する。
会議を円滑に進行させるためには、発言者ａの発言後、実施の形態１の図５に示すような原文字幕４４が速やかに表示され、続いて、図６に示すような訳振り字幕４３が速やかに表示されることが望ましい。
しかしながら、音声認識の精度が低い場合には、表示された原文字幕４４及び訳振り字幕４３が誤っていることがある。かといって、音声認識を高精度に行なうためには、往々にして長時間を要する。

そこで、本実施の形態における会議システム６は、発言者ａの発言から短時間で（即ち高速に）音声認識することによって、原文字幕を表示し、高速に音声認識された結果に基づいて、訳振り字幕を表示する。このような高速の音声認識、翻訳、及び表示等（以下、まとめて高速処理という）と並行して、会議システム６は、高精度に音声認識することによって、既に表示されている原文字幕の誤りを修正し、高精度に音声認識された結果に基づいて、既に表示されている訳振り字幕の誤りを修正する。このような高精度の音声認識、翻訳、及び修正等を、以下ではまとめて高精度処理という。

図１９は、本発明の実施の形態２に係る会議システム６における高速処理及び高精度処理の仕組みを説明するための機能ブロック図である。図１９は、実施の形態１における図７に対応するが、端末装置Ａ１及び端末装置Ｃ１の図示は省略している。
中央装置３の制御部３１は、中央プログラム３Ｐ（図３参照）に含まれる音声認識用のコンピュータプログラムに従うことによって、高速認識エンジン３１３及び高精度認識エンジン３１５として機能する。また、制御部３１は、中央プログラム３Ｐに含まれる翻訳用のコンピュータプログラムに従うことによって、高速翻訳エンジン３１４及び高精度翻訳エンジン３１６として機能する。

高速認識エンジン３１３は、端末装置Ａ１から受信した音声データに対し、１回目の音声認識処理を即時実行することによって、認識結果を示す原文データを高速に生成する。このような高速認識エンジン３１３は、本発明の実施の形態における認識手段として機能する。高速認識エンジン３１３が生成した原文データを、以下では、高速原文データという。
高速認識エンジン３１３は、生成した高速原文データを端末装置Ｂ１，Ｃ１へ配信する。

高速認識エンジン３１３では、最初の音声認識処理が即時実行される。このため、高速認識エンジン３１３が音声認識処理を施すべき音声データは、例えば数秒分〜十数秒分の発言を示す音声データ、即ち、データ量が少ない音声データである。従って、音声認識の精度は低いが、音声認識結果を短時間で得ることができる。高速原文データが示す原文（以下、高速原文という）は、発言の内容とは異なる可能性がある。
高速認識エンジン３１３が音声認識し終えた音声データは、ＨＤＤ３２（図２参照）に蓄積される。

高速翻訳エンジン３１４は、高速認識エンジン３１３が生成した高速原文データに対して翻訳処理を施すことによって、翻訳結果を示す訳文データを生成する。このような高速翻訳エンジン３１４は、本発明の実施の形態における翻訳手段として機能する。高速翻訳エンジン３１４が生成した訳文データを、以下では、高速訳文データという。
高速翻訳エンジン３１４は、生成した高速訳文データを端末装置Ｂ１，Ｃ１へ配信する。
高速訳文データは、音声認識の精度が低い高速原文データに基づくものであるため、高速訳文データが示す訳文（以下、高速訳文という）は、誤りを含む可能性が高い。

高精度認識エンジン３１５は、ＨＤＤ３２に蓄積されている音声データ、即ち、高速認識エンジン３１３が音声認識し終えた音声データに対し、２回目の音声認識処理を施すことによって、認識結果を示す原文データを生成する。このような高精度認識エンジン３１５も、本発明の実施の形態における認識手段として機能する。高精度認識エンジン３１５が生成した原文データを、以下では、高精度原文データという。
高精度認識エンジン３１５は、生成した高精度原文データを端末装置Ｂ１，Ｃ１へ配信する。

高精度認識エンジン３１５では、一旦蓄積された音声データに対して再度の音声認識処理を施す。このとき、高精度認識エンジン３１５が音声認識処理を施すべき音声データは、例えば数十秒分〜数分分の発言を示す音声データ、即ち、データ量が多い音声データである。従って、音声認識結果が得られるまでに長時間を要するが、音声認識の精度は高い。高精度原文データが示す原文（以下、高精度原文という）は、発言の内容と同じである可能性が高い。

何故ならば、音声認識は、データ量が少ない音声データ（例えば、発言の一部を示す音声データ）に対して実行した場合よりも、データ量が多い音声データ（例えば、発言の全体を示す音声データ）に対して実行した場合の方が、認識精度が向上されるからである。
なお、音声認識の精度を向上させる手法は、音声データのデータ量を増加させることに限定されない。

高精度翻訳エンジン３１６は、高精度認識エンジン３１５が生成した高精度原文データに対して翻訳処理を施すことによって、翻訳結果を示す訳文データを生成する。高精度翻訳エンジン３１６が生成した訳文データを、以下では、高精度訳文データという。
高精度翻訳エンジン３１６は、生成した高精度訳文データを端末装置Ｂ１，Ｃ１へ配信する。
高精度訳文データは、音声認識の精度が高い高精度原文データに基づくものであるため、高精度訳文データが示す訳文（以下、高精度訳文という）は、誤りを含む可能性が低い。

高速認識エンジン３１３及び高精度認識エンジン３１５夫々による音声認識処理と、高速翻訳エンジン３１４及び高精度翻訳エンジン３１６夫々による翻訳処理とは、マルチタスクで実行される。
本実施の形態においては、発言者ａが「We will try and make a final hotel decision by the end of the calendar year.」と発言したにもかかわらず、発言の一部分「We will try and 」を示す音声データに基づいて高速認識エンジン３１３が音声認識を行なった結果、「We will try a 」という誤った高速原文を示す高速原文データが生成された場合を例示する。

仮に、原文「We will try and 」を示す原文データに対して翻訳処理を施した場合、高速翻訳エンジン３１４は、２語の単語「try and 」を、「and 」の後に何らかの動詞を伴う連語と看做して「〜よう努める」と翻訳する。
しかしながら、誤った高速原文「We will try a 」を示す高速原文データに対して翻訳処理を施した場合、高速翻訳エンジン３１４は、動詞「try 」を「試す」と翻訳し、不定冠詞「a 」を、特に翻訳する必要がない単語と看做して無視する。

図２０は、会議システム６において字幕表示画面２４１（図４参照）の字幕表示領域４に表示される高速原文字幕４８の一例を示す模式図である。図２０には、原文領域４２に、「We will try a 」という誤った高速原文４８１を含む高速原文字幕４８が表示されており、訳振り領域４１には、まだ何も表示されていない場合を例示している。

図２１は、字幕表示領域４に表示される高速訳振り字幕４７及び高速原文字幕４８の一例を示す模式図である。図２１に示すように、原文領域４２には、誤った高速原文４８１と、正確な高速原文４８２とを含む高速原文字幕４８が表示されている。また、訳振り領域４１には、誤った高速原文４８１と同じ高速原文４７１と、誤った高速原文４７１に対応する誤った高速訳文４７４とを含む高速訳振り字幕４７が表示されている。このように、本実施の形態では、高速訳振り字幕４７に高速原文４７１が表示されても、高速原文字幕４８に高速原文４８１が表示され続ける場合を例示する。なお、実施の形態１と同様に、高速訳振り字幕４７に高速原文４７１が表示されると、高速原文字幕４８に含まれている高速原文４８１が消去される構成でもよい。

図２２は、字幕表示領域４に表示される高速訳振り字幕４７及び高速原文字幕４８の他の一例を示す模式図である。図２２に示すように、原文領域４２には、誤った高速原文４８１と、正確な高速原文４８２，４８３とを含む高速原文字幕４８が表示されている。また、訳振り領域４１には、高速原文４７１と、正確な高速原文４８２，４８３と同じ高速原文４７２，４７３と、高速訳文４７４と、正確な高速原文４７２，４７３に対応する正確な高速訳文４７５，４７６とを含む高速訳振り字幕４７が表示されている。

図１９に示すように、端末装置Ｂ１，Ｃ１夫々の制御部１１は、端末プログラム１Ｐ（図２参照）に従うことによって、字幕生成エンジン１１２として機能する。
高速原文４８１の高速原文データを受信した場合、字幕生成エンジン１１２は、まず、字幕管理テーブル１Ｔに、受信した高速原文データを登録する（図８参照）。

また、字幕生成エンジン１１２は、受信した高速原文データに基づいて、高速原文４８１を含む高速原文字幕４８（図２０参照）をディスプレイ２４に表示させるための原文字幕データを生成する。
ただし、このとき字幕生成エンジン１１２が生成する原文字幕データは、高速原文４８１に含まれる英単語間に余裕を持たせるべく、この英単語間に、少なくとも２文字分の空白文字が配置されるようにしてある。なお、原文領域４２に表示可能な高速原文字幕４８の空白文字を除く文字の個数が大幅に低減されない程度であれば、配置すべき空白文字は２文字分に限定されるものではなく、３文字分以上であってもよい。また、配置すべき空白文字は１文字分であってもよい。

更に、字幕生成エンジン１１２は、生成した原文字幕データを表示処理部１４（図２参照）に与えることによって、ディスプレイ２４に高速原文字幕４８を表示させる。そして、字幕生成エンジン１１２は、字幕管理テーブル１Ｔに、高速原文４８１を含む高速原文字幕４８の原文字幕データを登録する。

同様に、字幕生成エンジン１１２は、高速原文データを受信する都度、字幕管理テーブル１Ｔに、受信した高速原文データを登録する。また、字幕生成エンジン１１２は、受信した高速原文データに基づいて、高速原文４８１，４８２を含む高速原文字幕４８（図２１参照）をディスプレイ２４に表示させるための原文字幕データを生成し、次に受信した高速原文データに基づいて、高速原文４８１〜４８３を含む高速原文字幕４８（図２２参照）をディスプレイ２４に表示させるための原文字幕データを生成する。更に、字幕生成エンジン１１２は、生成した原文字幕データを表示処理部１４に与えることによって、ディスプレイ２４に高速原文字幕４８を表示させる。そして、字幕生成エンジン１１２は、字幕管理テーブル１Ｔに、高速原文字幕４８の原文字幕データを登録する。

高速訳文４７４の高速訳文データを受信した場合、字幕生成エンジン１１２は、字幕管理テーブル１Ｔに、高速訳文４７４の高速訳文データを登録する。
次に、字幕生成エンジン１１２は、受信した高速訳文データに基づいて、高速原文４７１と高速訳文４７４とを含む高速訳振り字幕４７（図２１参照）をディスプレイ２４に表示させるための訳振り字幕データを生成する。
ただし、このとき字幕生成エンジン１１２が生成する訳振り字幕データは、高速原文４７１に含まれる英単語間に、最小限（少なくとも１文字分）の空白文字が配置されるようにしてある。なお、訳振り領域４１に表示可能な高速訳振り字幕４７の空白文字を除く文字の個数が大幅に低減されない程度であれば、英単語間に余裕を持たせるべく、２文字分以上の空白文字を配置してもよい。

更に、字幕生成エンジン１１２は、生成した訳振り字幕データを表示処理部１４に与えることによって、高速訳振り字幕４７をディスプレイ２４に表示させる。
そして、字幕生成エンジン１１２は、字幕管理テーブル１Ｔに、高速原文４７１及び高速訳文４７４を含む高速訳振り字幕４７の訳振り字幕データを登録する（図９参照）。
以上のような字幕生成エンジン１１２は、本発明の実施の形態における生成手段及び制御手段として機能する。

同様に、字幕生成エンジン１１２は、高速訳文データを受信する都度、字幕管理テーブル１Ｔに、受信した高速訳文データを登録する。
次に、字幕生成エンジン１１２は、受信した訳文データに基づいて、ディスプレイ２４に、高速原文４７１〜４７３と高速訳文４７４〜４７６とを含む訳振り字幕４３（図２２参照）を表示させるための訳振り字幕データを生成する。

更に、字幕生成エンジン１１２は、生成した訳振り字幕データを表示処理部１４に与えることによって、高速原文字幕４８をディスプレイ２４に表示させる。
そして、字幕生成エンジン１１２は、字幕管理テーブル１Ｔに、高速原文４７１〜４７３及び高速訳文４７４〜４７６を含む高速訳振り字幕４７の訳振り字幕データを登録する。

本実施の形態では、図２２に示すような高速訳振り字幕４７及び高速原文字幕４８を表示させた後で、字幕生成エンジン１１２が、高精度原文データ及び高精度訳文データを受信した場合を例示する。
ここでは、発言者ａの発言の一文全体を示す音声データに基づいて高精度認識エンジン３１５が音声認識を行なった結果、「We will try and make a final hotel decision by the end of the calendar year.」という正確な高精度原文を示す高精度原文データが生成された場合を説明する。
このような高精度原文データに対して翻訳処理を施した結果、高精度翻訳エンジン３１６は、２語の単語「try and 」を、「and 」の後に動詞「make」を伴う連語と看做して「〜よう努める」と翻訳する。

高精度原文データを受信した字幕生成エンジン１１２は、字幕管理テーブル１Ｔに登録されている高速原文データとを比較することによって、高速原文を高精度原文で置換すべき置換部分及び被置換部分の有無を判定する。このような字幕生成エンジン１１２は、本発明の実施の形態における認識判定手段として機能する。

高速原文に誤りが含まれていない場合、高速認識データが示す高速原文と高精度認識データが示す高精度原文とは等しい。このとき、置換部分及び被置換部分は存在しない。従って、字幕管理テーブル１Ｔに登録されている高速原文データ、高速原文字幕の原文字幕データ、及び高速訳振り字幕の訳振り字幕データは、高精度原文データ、高精度原文の原文字幕データ、及び高精度訳振り字幕の訳振り字幕データと看做される。

一方、高速原文に誤りが含まれている場合、高速認識データが示す高速原文と高精度認識データが示す高精度原文とは異なる。更に詳細には、高速原文の内、高精度原文とは異なる部分が、誤りである。具体的には、本実施の形態においては、高速原文「…try a …」の「a 」が誤りであり、高精度原文「…try and …」の「and 」が、高速原文の誤りをそれで置き換えるべき置換部分である。このとき、高速原文に含まれている誤り「a 」が被置換部分である。

そこで、字幕生成エンジン１１２は、被置換部分を置換部分で置き換えることによって、字幕管理テーブル１Ｔに登録されている高速原文データ、高速原文字幕の原文字幕データ、及び高速訳振り字幕の訳振り字幕データを、高精度原文データ、高精度原文の原文字幕データ、及び高精度訳振り字幕の訳振り字幕データに修正する。
誤りを含んでいる高速訳振り字幕が訳振り領域４１に表示されていなかった場合、字幕生成エンジン１１２は、適宜のタイミングで、高精度訳振り字幕を示す訳振り字幕データに基づく高精度訳振り字幕をディスプレイ２４に表示させればよい。このとき、高精度訳振り字幕に含まれている英単語間には、最小限の文字数の空白文字が含まれていればよい。

同様に、誤りを含んでいる高速原文字幕が原文領域４２に表示されていなかった場合、字幕生成エンジン１１２は、適宜のタイミングで、高精度原文字幕を示す原文字幕データに基づく高精度原文字幕をディスプレイ２４に表示させればよい。このとき、高精度原文字幕に含まれている英単語間には、最小限の文字数の空白文字が含まれていればよい。

以下では、表示されている高速訳振り字幕及び高速原文字幕の両方に、誤りが含まれていた場合を説明する。
図２３は、字幕表示領域４に表示される高速訳振り字幕４７及び高速原文字幕４８の更に他の一例を示す模式図である。
被置換部分「a 」は誤りであるため、高速訳振り字幕４７及び高速原文字幕４８夫々からは、被置換部分「a 」が消去される。このとき、字幕生成エンジン１１２は、表示処理部１４を制御することによって、被置換部分「a 」がフェードアウト表示されるようにする。

この後、被置換部分「a 」に置き換えられるように置換部分「and 」がフェードイン表示されることによって、高速訳振り字幕４７の高速原文４７１〜４７３と高速原文字幕４８の高速原文４８１〜４８３とは、次の図２４に示すような高精度訳振り字幕４９の高精度原文４９１〜４９３と高精度原文字幕４６の高精度原文４６１〜４６３に修正される。

図２４は、字幕表示領域４に表示される高精度訳振り字幕４９及び高精度原文字幕４６の一例を示す模式図である。
フェードイン表示された置換部分「and 」は、所定時間（例えば１０秒間）だけ太字で強調表示される。これは、被置換部分「a 」が置換部分「and 」に置き換えられたことを聞き手ｂ，ｃに報知するためのものである。従って、置換部分「and 」の強調表示は、置換部分「and 」が高精度訳振り字幕４９及び高精度原文字幕４６の他の部分よりも目立つのあれば、太字表示に限定されず、囲み表示、点滅表示、斜体表示、赤字表示、又はアンダーライン表示等であってもよい。

所定時間が超過した後は、置換部分「and 」は、高精度訳振り字幕４９及び高精度原文字幕４６の他の部分と同様に表示（以下、通常表示という）される。
ここで、被置換部分「a 」がフェードアウト表示され、置換部分「and 」がフェードイン表示されることによって、聞き手ｂ，ｃには、被置換部分「a 」と置換部分「and 」とは徐々に置き換えられるように見える。このため、被置換部分「a 」と置換部分「and 」とが瞬時に置き換えられる場合よりも、被置換部分「a 」と置換部分「and 」との置き換えが強調される。

なお、フェードアウト表示及びフェードイン表示に限定されず、例えば、被置換部分「a 」の文字サイズが徐々に小さくなり、置換部分「and 」の文字サイズが徐々に大きくなるような表示手法によって両者が置き換えられてもよい。又は、被置換部分「a 」が所定時間だけ他の部分と異なる色彩（例えば灰色）で表示されてから消去され、次いで、置換部分「and 」が強調表示されてもよい。

ところで、被置換部分「a 」は１文字であり、置換部分「and 」は３文字であるため、被置換部分「a 」を消去した後の１文字分の空白領域に、置換部分「and 」を表示することはできない。
そこで、字幕生成エンジン１１２は、高速訳振り字幕４７及び高速原文字幕４８から被置換部分「a 」を消去した場合に、置換部分「and 」を表示可能な表示可能領域が高速訳振り字幕４７及び高速原文字幕４８に生じるか否かを夫々判定する。このような字幕生成エンジン１１２は、本発明の実施の形態における領域判定手段として機能する。

置換部分「and 」の前後には、少なくとも１文字分の空白文字を配する必要がある。従って、最低５文字分の空白領域が、置換部分「and 」の表示可能領域である。
高速原文字幕４８において、被置換部分「a 」の文字数と、被置換部分の前後に配されている空白文字の文字数合計は５文字である。このため、被置換部分「a 」を消去することによって、高速原文字幕４８には、表示可能領域が生じる。
従って、高速原文字幕４８に関しては、被置換部分「a 」がフェードアウト表示によって消去され、また、置換部分「and 」がフェードイン表示及び強調表示される。

この結果、高精度原文字幕４６においては、他の英単語間には２文字ずつ空白文字が配されているのに対し、「and 」の前後の空白文字は１文字ずつに減少する。しかしながら、これは可読性が悪化するほどの変化ではない。
なお、置換部分「and 」と被置換部分「a 」との置き換えに伴い、高精度原文字幕４６に含まれている他の英単語間の空白文字の文字数を１文字ずつに減少させても（即ち、単語間のピッチを減少させても）よい。この場合、例えば高精度原文字幕４６に含まれている各英単語を左方向へスクロール表示させることよって、高精度原文字幕４６の可読性を犠牲にすることなく、単語間のピッチを減少させることができる。

一方、高速訳振り字幕４７において、被置換部分「a 」の文字数と、被置換部分の前後に配されている空白文字の文字数合計は３文字である。このため、被置換部分「a 」を消去しても、高速訳振り字幕４７には、表示可能領域が生じない。
そこで、字幕生成エンジン１１２は、被置換部分「a 」の可読方向後尾側に表示されている字幕、即ち被置換部分「a 」の右側及び次行に表示されている高速原文４７２，４７３を、右方向（図２３中の白抜矢符方向）へスクロール表示させる。スクロール表示は、表示可能領域が生じるまで（即ち、５文字分の空白領域が生じるまで）継続される。つまり、高速原文４７２，４７３は、２文字分だけ右方向へスクロール表示されればよい。

この後、高速訳振り字幕４７では、被置換部分「a 」がフェードアウト表示によって消去され、また、置換部分「and 」がフェードイン表示及び強調表示される。なお、被置換部分「a 」のフェードアウト表示と、高速原文４７２，４７３のスクロール表示とは同時的であってもよい。

ところが、このままの状態では、高速原文４７２，４７３の左右方向の位置と高速訳文４７５，４７６の左右方向の位置とが位置ズレを生じてしまう。ゆえに、字幕生成エンジン１１２は、高速原文４７２，４７３の２文字分のスクロール表示に応じて、高速訳文４７５，４７６も２文字分だけ右方向へスクロール表示させる。

高速訳文を高精度訳文に修正する手順は、高速原文を高精度原文に修正する手順と略同様である。具体的には、高精度訳文データを受信した字幕生成エンジン１１２は、字幕管理テーブル１Ｔに登録されている高速訳文データとを比較することによって、高速訳文を高精度訳文で置換すべき置換部分及び被置換部分の有無を判定する。本実施の形態では、「試す」が被置換部分であり、「〜よう努める」が置換部分である。

そして、高速訳振り字幕４７の高速訳文４７４〜４７６は、図２４に示すような高精度訳振り字幕４９の高精度訳文４９４〜４９６に修正される。
ところで、一般に英文は半角文字で、和文は全角文字で記載される。従って、置換部分「〜よう努める」の文字数は、被置換部分「試す」に比べて、半角８文字分だけ長い。ただし、被置換部分「試す」と高速訳文４７５との間には、先程のスクロール表示によって、２文字分の余裕が生じている。

このため、字幕生成エンジン１１２は、被置換部分「試す」の右側及び次行に表示されている高速訳文４７５，４７６を、６文字分だけ右方向（図２３中の白抜矢符方向）へスクロール表示させる。この後、高速訳振り字幕４７では、被置換部分「試す」がフェードアウト表示によって消去され、また、置換部分「〜よう努める」がフェードイン表示及び強調表示される。
ところが、このままの状態では、高精度原文４９２，４９３の左右方向の位置と高精度訳文４９５，４９６の左右方向の位置とが位置ズレを生じてしまう。そこで、字幕生成エンジン１１２は、高精度原文４９２，４９３を６文字分だけ右方向へスクロール表示させることによって、高精度原文４９２，４９３と高精度訳文４９５，４９６との位置関係を図２４に示す状態になるように調整する。

以上のようなスクロール表示によって単語間のピッチを増加させた結果、例えば１行目に配されていた語句（具体的には「by the end of the 」及び「〜の終わりまでに」）を１行目に配置することができなくなった場合には、この単語を２行目に送ればよい。
なお、本実施の形態とは逆に、「and 」が被置換部分であり、「a 」が置換部分である場合、被置換部分「and 」を置換部分「a 」で置き換えると、「a 」の「and 」の前後の空白文字が２文字分増加する。

このような場合、増加した空白文字は放置しておいてもよく、高精度原文字幕に含まれている各英単語を左方向へスクロール表示させることよって、増加した空白文字を消去させてもよい。増加した空白文字を放置する場合には、置換部分及び被置換部分以外の英単語に変化が生じないため、聞き手ｂ，ｃに与える違和感を低減することができる。一方、増加した空白文字を消去させる場合には、その分、表示される原文字幕の文字数を増加させることができるため、限られた字幕表示領域４を有効利用することができる。

ここで、高速原文データと高精度原文データとの関連付け、及び、高速訳文データと高精度訳文データとの関連付けについて述べる。
例えば、発言の前半の音声を示す前半音声データに基づいて、第１組の高速原文データ及び高速訳文データが生成され、発言の後半の音声を示す後半音声データに基づいて、第２組の高速原文データ及び高速訳文データが生成される。更に、前半音声データ及び後半音声データ両方に基づいて、高精度原文データ及び高精度訳文データが生成される。

本実施の形態では、中央装置３にて、前半音声データ及び後半音声データ夫々に識別情報が発行される。第１組（又は第２組）の高速原文データ及び高速訳文データ夫々には、前半音声データ（又は後半音声データ）の識別情報が関連付けられて端末装置Ｂ１，Ｃ１へ配信される。そして、高精度原文データ及び高精度訳文データ夫々には、前半音声データの識別情報と後半音声データの識別情報とが共に関連付けられて配信される。
この場合、端末装置Ｂ１，Ｃ１夫々にて、識別情報に基づき、高速原文データと高精度原文データ（又は高速訳文データと高精度訳文データ）とを容易に関連付けることができる。

図２５は、会議システム６で実行されるデータ配信処理及び字幕表示処理の手順を示すフローチャートである。図２５は、実施の形態１の図１３に対応するものであるが、本実施の形態における音声送信処理は、実施の形態１の音声送信処理と同様であるため、図示を省略している。また、図２５には、次の図２６に示すデータ配信処理と図２７及び図２８に示す字幕表示処理を抜粋したものが示されている。
図２６は、中央装置３で実行されるデータ配信処理の手順を示すフローチャートである。図２７及び図２８は、各端末装置Ｂ１，Ｃ１で実行される字幕表示処理の手順を示すフローチャートである。

図２５及び図２６夫々に示すデータ配信処理は、中央装置３で実行される。
図２５及び図２６に示すＳ２１は、実施の形態１の図１３及び図１４に示すＳ２１と同様であり、図２６に示すＳ２２、Ｓ２４、及びＳ２７は、実施の形態１の図１４に示すＳ２２、Ｓ２４、及びＳ２７と同様である。
音声データを受信した場合（Ｓ２１でＹＥＳ）、制御部３１は、音声データを識別するための識別情報を発行し（Ｓ８１）、発行した識別情報と、Ｓ２１で受信した音声データとを関連付けて、ＨＤＤ３２に蓄積する（Ｓ８２）。次いで、制御部３１は、処理をＳ２２に移す。

Ｓ２２の処理終了後、制御部３１は、実施の形態１のＳ２３と略同様にして、Ｓ２２における原文の言語の判定結果に基づき、Ｓ２１で受信した音声データに対して、音声認識処理を施す（Ｓ８３）。Ｓ８３における制御部３１は、高速認識エンジン３１３として機能する。このとき生成される高速原文データには、Ｓ２１で受信した音声データの識別情報が関連付けられる。
制御部３１は、Ｓ８３の音声認識処理をマルチタスクで実行しつつ、処理を次のＳ２４へ移す。
Ｓ２４における制御部３１は、高速原文データと高精度原文データとの区別なく、未訳の原文データが存在するか否かを判定する。

Ｓ２４でＹＥＳの場合、制御部３１は、実施の形態１のＳ２５と略同様にして、未訳の高速原文データ（又は高精度原文データ）に対して翻訳処理を施す（Ｓ８４）。Ｓ８４における制御部３１は、高速翻訳エンジン３１４（又は高精度翻訳エンジン３１６）として機能する。このとき生成される高速訳文データ（又は高精度訳文データ）には、Ｓ８４で翻訳処理を施した未訳の原文データに係る識別情報が関連付けられる。
制御部３１は、Ｓ８４の翻訳処理をマルチタスクで実行しつつ、処理を次のＳ８５へ移す。

制御部３１は、実施の形態１のＳ２６と略同様にして、Ｓ８４で翻訳処理を施した未訳の原文データを、識別情報と共に端末装置１，１，…へ配信し（Ｓ８５）、次いで、処理をＳ２７へ移す。
Ｓ２７における制御部３１は、高速訳文データと高精度訳文データとの区別なく、未配信の訳文データが存在するかを判定する。
未配信の訳文データが存在しない場合（Ｓ２７でＮＯ）、制御部３１は、処理を後述するＳ８７へ移す。
未配信の訳文データが存在する場合（Ｓ２７でＹＥＳ）、制御部３１は、実施の形態１のＳ２８と略同様にして、未配信の訳文データを、識別情報と共に端末装置１，１，…へ配信し（Ｓ８６）、次に、処理をＳ８７へ移す。

制御部３１は、ＨＤＤ３２に音声データが蓄積されているか否かを判定する（Ｓ８７）。Ｓ８７における制御部３１は、例えば、蓄積されている音声データのデータ量が所定データ量以上であるか否かを判定し、また、音声データが蓄積されてからの経過時間が所定の時間以上であるか否かを判定する。蓄積されている音声データのデータ量が所定データ量以上であれば、制御部３１は、音声データが蓄積されていると判定する。ただし、蓄積されている音声データのデータ量が所定データ量未満であっても、音声データが蓄積されてからの経過時間が所定の時間以上であれば、制御部３１は、音声データが蓄積されていると判定する。

音声データが蓄積されていない場合（Ｓ８７でＮＯ）、制御部３１は、処理をＳ２１へ戻す。
音声データが蓄積されている場合（Ｓ８７でＹＥＳ）、制御部３１は、ＨＤＤ３２に蓄積されている音声データに対して、音声認識処理を施す（Ｓ８８）。Ｓ８８における制御部３１は、高精度認識エンジン３１５として機能する。このとき生成される高精度原文データには、ＨＤＤ３２に蓄積されている音声データの識別情報が全て関連付けられる。

制御部３１は、Ｓ８８の音声認識処理をマルチタスクで実行しつつ、処理をＳ２１へ戻す。Ｓ８８の音声認識処理が終了した場合には、ＨＤＤ３２に蓄積されている音声データを削除するか、又は、音声認識処理済みの音声データとして、新たに蓄積される音声データとは区別されるようにする。

図２５並びに図２７及び図２８夫々に示す字幕表示処理は、端末装置Ｂ１，Ｃ１夫々で実行される。
図２７に示すＳ４１及びＳ４２の処理は、実施の形態１の図１５に示すＳ４１及びＳ４２の処理と同様である。
図２５及び図２７に示すＳ４４とＳ４６との処理は、実施の形態１の図１３及び図１５に示すＳ４４及びＳ４６の処理と略同様である。
図２８に示すＳ４７〜Ｓ５１の処理は、実施の形態１の図１６に示すＳ４７〜Ｓ５１の処理と同様である。

図２５及び図２７に示すように、制御部１１は、高速原文データ及び識別情報を受信したか否かを判定し（Ｓ９１）、受信していない場合（Ｓ９１でＮＯ）、処理を後述するＳ９２へ移す。

高速原文データ及び識別情報を受信した場合（Ｓ９１でＹＥＳ）、制御部１１は、処理をＳ４４へ移して、実施の形態１の図１７に示す原文字幕出力処理と同様の原文字幕出力処理を実行する。この原文字幕出力処理のＳ６１及びＳ６２における制御部１１は、字幕生成エンジン１１２として機能する。
そして、制御部１１は、Ｓ４４の原文字幕出力処理をマルチタスクで実行しつつ、処理を後述するＳ９２へ移す。
Ｓ４４の原文字幕出力処理が実行された場合、原文領域４２に、高速原文字幕４８が表示される。

次に、制御部１１は、高速訳文データ及び識別情報を受信したか否かを判定し（Ｓ９２）、受信していない場合（Ｓ９２でＮＯ）、処理を後述するＳ９３へ移す。
高速訳文データ及び識別情報を受信した場合（Ｓ９２でＹＥＳ）、制御部１１は、処理をＳ４６へ移して、実施の形態１の図１８に示す訳振り字幕出力処理と略同様の訳振り字幕出力処理を実行する。ただし、この訳振り字幕出力処理では、実施の形態１のＳ７２の処理に相当する処理を実行する必要はなく、Ｓ７３の処理に相当する処理では、制御部１１は、Ｓ７１で生成した訳振り字幕データに基づいて、訳振り領域４１に高速訳振り字幕４７を表示させればよい。Ｓ７１及びＳ７３における制御部１１は、字幕生成エンジン１１２として機能する。

そして、制御部１１は、訳振り字幕出力処理をマルチタスクで実行しつつ、処理をＳ９３へ移す。
Ｓ４６の訳振り字幕出力処理が実行された場合、訳振り領域４１に、高速訳振り字幕４７が表示される。
次いで、制御部１１は、高精度原文データ及び識別情報を受信したか否かを判定し（Ｓ９３）、受信していない場合（Ｓ９３でＮＯ）、処理を後述するＳ９５へ移す。

高精度原文データ及び識別情報を受信した場合（Ｓ９３でＹＥＳ）、制御部１１は、後述する原文字幕修正処理（図２９及び図３０参照）を実行する（Ｓ９４）。
制御部１１は、Ｓ９４の原文字幕修正処理をマルチタスクで実行しつつ、処理をＳ９５へ移す。

図２９及び図３０は、各端末装置１で実行される原文字幕修正処理手順の詳細を示すフローチャートである。
図２９に示すように、制御部１１は、Ｓ９３で受信した高精度原文データと、この高精度原文データに対応する高速原文データと（即ち、関連付けられている識別情報が互いに等しい高精度原文データと高速原文データと）を比較し（Ｓ１１１）、両者の差異、即ち置換部分及び被置換部分が存在するか否かを判定する（Ｓ１１２）。
高精度原文データが示す高精度原文と高速原文データが示す高速原文とが一致する場合（Ｓ１１２でＮＯ）、制御部１１は、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。

置換部分及び被置換部分が存在する場合（Ｓ１１２でＹＥＳ）、制御部１１は、被置換部分を置換部分で置き換えることによって、原文字幕データ及び訳振り字幕データを修正する（Ｓ１１３）。
次に、制御部１１は、修正前の原文字幕データ及び訳振り字幕データに基づく高速原文字幕及び高速訳振り字幕が字幕表示領域４に表示されているか否かを判定し（Ｓ１１４）、表示されていない場合には（Ｓ１１４でＮＯ）、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。

各種字幕が表示されている場合（Ｓ１１４でＹＥＳ）、制御部１１は、表示されている高速原文字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する（Ｓ１１５）。
高速原文字幕に表示可能領域が生じない場合（Ｓ１１５でＮＯ）、制御部１１は、高速原文字幕に設けるべき表示可能領域の文字数を求め（Ｓ１１６）、求めた表示可能領域の文字数に応じて、高速原文字幕における被置換部分よりも後尾側を、右方向へスクロール表示させる（Ｓ１１７）。

Ｓ１１７の処理をマルチタスクで実行しつつ、又は、高速原文字幕に表示可能領域が生じる場合（Ｓ１１５でＹＥＳ）、制御部１１は、表示されている高速訳振り字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する（Ｓ１１８）。

高速訳振り字幕に表示可能領域が生じない場合（Ｓ１１８でＮＯ）、制御部１１は、高速訳振り字幕に設けるべき表示可能領域の文字数を求める（Ｓ１１９）。そして、制御部１１は、Ｓ１１９で求めた表示可能領域の文字数に応じて、高速訳振り字幕に含まれている高速原文における被置換部分よりも後尾側を、右方向へスクロール表示させ、且つ、高速訳振り字幕に含まれている高速訳文における被置換部分に対応する語句よりも後尾側を、右方向へスクロール表示させる（Ｓ１２０）。

Ｓ１２０における制御部１１は、図２２の例では、高速訳振り字幕４７に含まれている高速原文４７１〜４７３における被置換部分「a 」よりも後尾側である「make a…」を、右方向へスクロール表示させ、且つ、高速訳文４７４〜４７６における被置換部分に対応する語句「試す」よりも後尾側である「意思決定をする…」を、右方向へスクロール表示させる。この結果、「make a…」の配置位置と「意思決定をする…」の配置位置とが位置ズレを生じることなく対応する。

Ｓ１２０の処理をマルチタスクで実行しつつ、又は、高速訳振り字幕に表示可能領域が生じる場合（Ｓ１１８でＹＥＳ）、図３０に示すように、制御部１１は、高速原文字幕及び高速訳振り字幕夫々において、被置換部分をフェードアウト表示させ（Ｓ１２１）、置換部分をフェードイン表示させてから（Ｓ１２２）、置換部分を強調表示させる（Ｓ１２３）。
次に、制御部１１は、置換部分を強調表示させてからの経過時間の計時を開始し（Ｓ１２４）、計時した経過時間が所定時間を超過したか否かを判定し（Ｓ１２５）、まだ超過していない場合には（Ｓ１２５でＮＯ）、Ｓ１２５の処理を繰り返し実行する。

置換部分を強調表示させてからの経過時間が所定時間を超過した場合（Ｓ１２５でＹＥＳ）、制御部１１は、置換部分を通常表示させる（Ｓ１２６）。
Ｓ１２６の処理終了後、制御部１１は、Ｓ１２４で開始した計時処理を終了してから（Ｓ１２７）、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
以上のような原文字幕修正処理を実行する制御部１１は、字幕生成エンジン１１２として機能する。

図２５及び図２８に示すように、制御部１１は、高精度訳文データ及び識別情報を受信したか否かを判定し（Ｓ９５）、受信していない場合（Ｓ９５でＮＯ）、処理をＳ４７へ移す。
高精度訳文データ及び識別情報を受信した場合（Ｓ９５でＹＥＳ）、制御部１１は、後述する訳振り字幕修正処理（図３１参照）を実行する（Ｓ９６）。
制御部１１は、Ｓ９６の訳振り字幕修正処理をマルチタスクで実行しつつ、処理をＳ４７へ移す。

図３１は、各端末装置１で実行される訳振り字幕修正処理手順の詳細を示すフローチャートである。
制御部１１は、Ｓ９５で受信した高精度訳文データと、この高精度訳文データに対応する高速訳文データと（即ち、関連付けられている識別情報が互いに等しい高精度訳文データと高速訳文データと）を比較し（Ｓ１３１）、両者の差異、即ち置換部分及び被置換部分が存在するか否かを判定する（Ｓ１３２）。
高精度訳文データが示す高精度訳文と高速訳文データが示す高速訳文とが一致する場合（Ｓ１３２でＮＯ）、制御部１１は、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。

置換部分及び被置換部分が存在する場合（Ｓ１３２でＹＥＳ）、制御部１１は、被置換部分を置換部分で置き換えることによって、訳振り字幕データを修正する（Ｓ１３３）。
次に、制御部１１は、修正前の訳振り字幕データに基づく高速訳振り字幕が字幕表示領域４に表示されているか否かを判定し（Ｓ１３４）、表示されていない場合には（Ｓ１３４でＮＯ）、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
各種字幕が表示されている場合（Ｓ１３４でＹＥＳ）、制御部１１は、表示されている表示されている高速訳振り字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する（Ｓ１３５）。

高速訳振り字幕に表示可能領域が生じない場合（Ｓ１３５でＮＯ）、制御部１１は、高速訳振り字幕に設けるべき表示可能領域の文字数を求める（Ｓ１３６）。そして、制御部１１は、Ｓ１３６で求めた表示可能領域の文字数に応じて、高速訳振り字幕に含まれている高速訳文における被置換部分よりも後尾側を、右方向へスクロール表示させ、且つ、高速訳振り字幕に含まれている高速原文における被置換部分に対応する語句よりも後尾側を、右方向へスクロール表示させる（Ｓ１３７）。

Ｓ１３７における制御部１１は、図２２の例では、高速訳振り字幕４７に含まれている高速訳文４７４〜４７６における被置換部分に対応する語句「試す」よりも後尾側である「意思決定をする…」を、右方向へスクロール表示させ、且つ、高精度原文４９１〜４９３（図２４参照）における置換部分「and 」よりも後尾側である「make a…」を、右方向へスクロール表示させる。この結果、「make a…」の配置位置と「意思決定をする…」の配置位置とが位置ズレを生じることなく対応する。

Ｓ１３７の処理をマルチタスクで実行しつつ、又は、高速訳振り字幕に表示可能領域が生じる場合（Ｓ１３５でＹＥＳ）、図３１に示すように、制御部１１は、高速訳振り字幕において、被置換部分をフェードアウト表示させ（Ｓ１３８）、置換部分をフェードイン表示させてから（Ｓ１３９）、置換部分を強調表示させる（Ｓ１４０）。
次に、制御部１１は、置換部分を強調表示させてからの経過時間の計時を開始し（Ｓ１４１）、計時した経過時間が所定時間を超過したか否かを判定し（Ｓ１４２）、まだ超過していない場合には（Ｓ１４２でＮＯ）、Ｓ１４２の処理を繰り返し実行する。

置換部分を強調表示させてからの経過時間が所定時間を超過した場合（Ｓ１４２でＹＥＳ）、制御部１１は、置換部分を通常表示させる（Ｓ１４３）。
Ｓ１４３の処理終了後、制御部１１は、Ｓ１４１で開始した計時処理を終了してから（Ｓ１４４）、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
以上のような訳振り字幕修正処理を実行する制御部１１は、字幕生成エンジン１１２として機能する。

なお、制御部１１は、Ｓ９３で高精度原文データを受信した直後にＳ９４の原文字幕修正処理を実行する構成に限定されず、Ｓ９５で高精度訳文データを受信した後に、原文字幕修正処理及びＳ９６の訳振り字幕修正処理に相当する字幕修正処理を実行する構成でもよい。この場合、高速原文字幕及び高速訳振り字幕を同時的に高精度原文字幕及び高精度訳振り字幕に修正することができる。

以上のような会議システム６は、高速処理と高精度処理とを同時的に実行することによって、各種字幕を短時間で表示することと、正確な各種字幕を表示することとを両立させることができる。
このため、聞き手ｂ，ｃは、発言者ａが発言してから各種字幕が表示されるまで長時間待たされることがない。たとえ各種字幕の内容に誤りが含まれていたたとしても、後に、誤りの部分だけが修正されるため、聞き手ｂ，ｃは、発言者ａの発言を正確に、しかも容易に理解することができる。

今回開示された実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、特許請求の範囲と均等の意味及び特許請求の範囲内での全ての変更が含まれることが意図される。
例えば、実施の形態１，２では、原文字幕及び訳振り字幕夫々が横書きで表示される場合を例示したが、各種字幕が縦書きで表示されてもよい。この場合、実施の形態１で説明したような各種字幕をスクロールアウトするためのスクロール表示は、右方向へのスクロール表示であればよい。また、実施の形態２で説明したような表示可能領域を設けるためのスクロール表示は、下方向へのスクロール表示であればよい。

また、本実施の形態では、会議システム６は、音声認識エンジン３１１及び翻訳エンジン３１２を中央装置３で実現し、原文データ及び訳文データを配信して、字幕生成エンジン１１１を各聞き手の端末装置１で実現する。しかしながら、会議システム６は、中央装置３（又は発言者の端末装置１）で音声認識エンジン３１１を実現し、原文データを配信して、各聞き手の端末装置１で翻訳エンジン３１２及び字幕生成エンジン１１１を実現する構成でもよい。或いは、会議システム６は、中央装置３（又は発言者の端末装置１）で音声認識エンジン３１１、翻訳エンジン３１２、及び字幕生成エンジン１１１を実現し、原文字幕データ及び訳振り字幕データを配信する構成でもよい。

また、例えば、本実施の形態では、会議システム６は、端末装置１，１，…と中央装置３とを用いたクライアントサーバ型の通信方式で会議の実現を支援する構成である。しかしながら、中央装置３を用いず、端末装置１，１，…のみを用いたピア・トゥ・ピア型の通信方式で会議の実現を支援する会議システムでもよい。或いは、会議システムは、２台の端末装置１，１のみを用いたポイント・トゥ・ポイント型の通信方式でもよく、端末装置１，１，…とＭＣＵ（多地点接続装置）とを用いたポイント・トゥ・マルチポイント型又はマルチポイント・トゥ・ポイント型の通信方式でもよい。

更に、本発明の効果がある限りにおいて、会議システム６又は端末装置１に、実施の形態１，２に開示されていない構成要素が含まれていてもよい。

１端末装置（情報処理装置）
１１制御部（生成手段，制御手段，認識判定手段，領域判定手段）
１Ｐ端末プログラム（コンピュータプログラム）
２４ディスプレイ（表示部）
３中央装置
３１制御部（認識手段，翻訳手段，配信手段）
４字幕表示領域（表示部が有する表示領域）
４１訳振り領域（表示領域を２分割してなる一方）
４２原文領域（他方）
４３訳振り字幕
４４原文字幕（認識結果字幕）
６会議システム

Claims

字幕を表示する表示部を備える会議システムにおいて、
発言の音声を一の言語で音声認識する認識手段と、
該認識手段による認識結果を、前記一の言語とは異なる他の言語に翻訳する翻訳手段と、
前記認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕を生成する生成手段と、
該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段と
を備えることを特徴とする会議システム。
前記対訳字幕は、前記認識結果に前記翻訳結果がルビ状に併記された訳振り字幕であることを特徴とする請求項１に記載の会議システム。
前記訳振り字幕は、前記認識結果に含まれる単語又は連語に、前記翻訳結果に含まれ、前記単語又は連語に対応する語句がルビ状に併記されたものであることを特徴とする請求項２に記載の会議システム。
前記生成手段は、前記認識結果を示す認識結果字幕を更に生成するようにしてあり、
前記制御手段は、前記表示部が有する表示領域を２分割してなる一方に前記訳振り字幕を表示させ、他方に前記生成手段が生成した認識結果字幕を表示させるようにしてあることを特徴とする請求項２又は３に記載の会議システム。
前記制御手段は、前記表示部に前記訳振り字幕を表示させる場合に、表示される訳振り字幕に含まれている認識結果を示す認識結果字幕を消去させるようにしてあることを特徴とする請求項４に記載の会議システム。
前記制御手段は、前記認識結果字幕と前記訳振り字幕とを個別にスクロール表示させるようにしてあることを特徴とする請求項４又は５に記載の会議システム。
前記認識手段は、前記発言の音声を前記一の言語で改めて音声認識するようにしてあり、
前記認識結果を前記認識手段による再度の認識結果で置換すべき置換部分及び被置換部分の有無を判定する認識判定手段と、
該認識判定手段があると判定した場合、前記表示部に表示されている前記対訳字幕から前記被置換部分を消去したときに、前記置換部分を表示可能な表示可能領域が前記対訳字幕に生じるか否かを判定する領域判定手段と
を更に有し、
前記生成手段は、前記認識判定手段があると判定した場合、前記対訳字幕を、前記再度の認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕に修正するようにしてあり、
前記制御手段は、
前記認識判定手段があると判定した場合に、前記被置換部分を消去させる手段と、
前記領域判定手段が否と判定した場合に、前記表示可能領域を設けるべく、前記被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる手段と、
前記表示可能領域に前記置換部分を表示させる手段と
を有することを特徴とする請求項１から６の何れか一項に記載の会議システム。
前記制御手段は、
前記表示可能領域に前記置換部分を表示させる場合に、該置換部分を、所定時間だけ、前記置換部分以外の前記対訳字幕に比べて強調表示させるようにしてあることを特徴とする請求項７に記載の会議システム。
中央装置と、複数台の端末装置夫々とが通信可能に接続されており、
各端末装置は、前記表示部、前記生成手段、及び前記制御手段を有し、
前記中央装置は、
前記認識手段及び翻訳手段と、
前記認識結果及び翻訳結果を夫々示すデータを前記端末装置へ配信する配信手段と
を有し、
各端末装置では、受信したデータに基づいて、前記生成手段による生成処理を実行するようにしてあることを特徴とする請求項１から８の何れか一項に記載の会議システム。
字幕を表示する表示部を備え、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理装置において、
受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成する生成手段と、
該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段と
を備えることを特徴とする情報処理装置。
字幕を表示する表示部を備える会議システムにて、会議の実現を支援する会議支援方法において、
一の言語でなされた発言の音声を音声認識し、
音声認識した認識結果を、前記一の言語とは異なる他の言語に翻訳し、
前記認識結果と翻訳した翻訳結果とが併記された対訳字幕を前記表示部に表示させることを特徴とする会議支援方法。
字幕を表示する表示部を備える情報処理装置にて、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理方法において、
受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を前記表示部に表示させることを特徴とする情報処理方法。
字幕を表示する表示部を備えるコンピュータに、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信させるコンピュータプログラムであって、
コンピュータに、受信されたデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成させる生成ステップと、
コンピュータに、前記生成ステップで生成された対訳字幕が表示されるように前記表示部を制御させる制御ステップと
を実行させることを特徴とするコンピュータプログラム。