JP7417272B2 - 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム - Google Patents

端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム Download PDF

Info

Publication number
JP7417272B2
JP7417272B2 JP2020549982A JP2020549982A JP7417272B2 JP 7417272 B2 JP7417272 B2 JP 7417272B2 JP 2020549982 A JP2020549982 A JP 2020549982A JP 2020549982 A JP2020549982 A JP 2020549982A JP 7417272 B2 JP7417272 B2 JP 7417272B2
Authority
JP
Japan
Prior art keywords
language
information
interpreter
identifier
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020549982A
Other languages
English (en)
Other versions
JPWO2020070959A1 (ja
Inventor
征範 慎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JPWO2020070959A1 publication Critical patent/JPWO2020070959A1/ja
Application granted granted Critical
Publication of JP7417272B2 publication Critical patent/JP7417272B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/563User guidance or feature selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2061Language aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

本発明は、サーバ装置と1以上の端末装置とで実現される通訳システム等に関するものである。
従来、言語の選択だけでなく、通訳の得意分野等を考慮して利用者が通訳者を選ぶことができる通訳システムに関する文献が存在した(例えば、特許文献1参照)。この従来の通訳システムは、複数の移動体通信端末と通訳管理装置とを備える。通訳管理装置は、第1移動体通信端末を利用する第1の利用者と、第2移動体通信端末を利用する第2の利用者との会話を、両者に共通の言語で通訳する通訳者に通訳させるための処理を行う。詳しくは、通訳管理装置は、複数の通訳者を言語及び専門分野に分類した通訳者リストを記憶する記憶部と、第1の利用者が第1移動体端末を利用して選択した言語及び専門分野に基づいて、記憶部から適合する通訳者を抽出する通訳抽出部と、抽出された通訳者の移動体通信端末に対し通信を確立する通信確立部とを有する。
特開2017-143322号公報
しかし、上記従来の通訳システムは、二人の利用者の会話を一人の通訳者が通訳するものであり、一の話者の話を1以上の通訳者が通訳し、その1以上の通訳音声を1以上のユーザに配信するものではない。また、上記従来の通訳システムにおいて、通訳管理装置が複数の通訳者の言語をどのように管理しているか定かでないが、この通訳管理装置を、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を1以上のユーザに配信する通訳システムに用いた場合、1以上の通訳者の言語に関する情報を的確に管理できるとは限らない。
そして、サーバ装置と1以上の端末装置とで実現され、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を1以上のユーザに配信する通訳システムであって、サーバ装置が1以上の通訳者の言語に関する情報を的確に管理する通訳システムは存在しなかった。
また、従来、2以上の各通訳者の端末に、会場を撮影した映像と2以上の通訳者画像を含む画面を表示するサーバ装置は存在しなかった。
本第一の発明の通訳システムは、サーバ装置と1または2以上の端末装置とで実現される通訳システムであって、サーバ装置は、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、第一の言語を識別する第一言語識別子と、第二の言語を識別する第二言語識別子と、通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、ユーザを識別するユーザ識別子と、ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、ユーザ情報群を用いて、1以上の各端末装置に、第二言語音声取得部が取得した1以上の第二言語音声のうち、端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、1以上の各端末装置は、サーバ装置から配信される第二言語音声を受信する端末受信部と、端末受信部が受信した第二言語音声を再生する再生部とを具備する通訳システムである。
かかる構成により、サーバ装置と1以上の端末装置とで実現され、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を1以上のユーザに配信する通訳システムであって、サーバ装置が1以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。その結果、1以上の各通訳者を活用した各種の通訳サービスの提供が可能になる。例えば、一人の話者が話す講演会において、1以上の各端末装置に、当該端末装置のユーザが聴く又は読む言語に対応する通訳者の音声を配信できるのみならず、2以上の話者が討論する国際会議において、2以上の各端末装置に、当該端末装置のユーザが聴く又は読む言語に対応する1以上の各通訳者の音声を配信できる。
また、本第二の発明の通訳システムは、第一の発明に対して、サーバ装置は、第二言語音声取得部が取得した1以上の第二言語音声をそれぞれ音声認識したテキストのデータである1以上の第二言語テキストを取得する第二言語テキスト取得部をさらに具備し、配信部は、第二言語テキスト取得部が取得した1以上の第二言語テキストを1以上の各端末装置に配信し、端末受信部は、サーバ装置から配信される1以上の第二言語テキストをも受信し、再生部は、1以上の第二言語テキストをも出力する通訳システムである。
かかる構成により、1以上の各通訳者の音声に加えて、当該音声を音声認識した1以上のテキストも配信できる。
また、本第三の発明の通訳システムは、第一または第二の発明に対して、再生部は、第二言語音声の再生を中断後に再開する場合、第二言語音声の未再生部分を、早送りで追っかけ再生する通訳システムである。
かかる構成により、1以上の各端末装置において、通訳者の音声の再生が途切れても、ユーザは、その未再生部分を漏れなく、かつ遅れを取り戻すように聴くことができる。
また、本第四の発明の通訳システムは、第三の発明に対して、再生部は、未再生部分の追っかけ再生を、未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に応じた速度の早送りで行う通訳システムである。
かかる構成により、的確な速度の早送りで、遅れを無理なく取り戻すことができる。
また、本第五の発明の通訳システムは、第三または第四の発明に対して、再生部は、未再生部分の追っかけ再生を、未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する通訳システムである。
かかる構成により、再度の途切れを回避しつつ、遅れを取り戻すことができる。
また、本第六の発明の通訳システムは、第一から第五いずれか1つの発明に対して、サーバ装置は、一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得部と、第一言語テキストを翻訳エンジンを用いて第二の言語に翻訳した翻訳テキスト、または翻訳テキストを音声変換した翻訳音声のうち1以上のデータを含む1以上の翻訳結果を取得する翻訳結果取得部とをさらに具備し、配信部は、ユーザ情報群を用いて、1以上の各端末装置に、翻訳結果取得部が取得した1以上の翻訳結果のうち、端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信し、端末受信部は、サーバ装置から配信される翻訳結果をも受信し、再生部は、翻訳結果をも出力する通訳システムである。
かかる構成により、ユーザは、翻訳エンジンによる翻訳結果も利用できる。
なお、第六の発明において、サーバ装置は、話者を識別する話者識別子と、話者が話す第一の言語を識別する第一言語識別子とを有する1以上の話者情報が格納される話者情報群格納部111をさらに具備し、第一言語テキスト取得部は、話者情報群を用いて、1以上の各話者に対応する第一言語テキストを取得してもよい。
また、本第七の発明の通訳システムは、第六の発明に対して、翻訳結果取得部は、ユーザ情報群が有する1以上の第二言語識別子のうち、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しない通訳システムである。
かかる構成により、必要な翻訳のみを効率よく行える。
また、本第八の発明の通訳システムは、第二から第7いずれか1つの発明に対して、1以上の各端末装置は、音声またはテキストのうち1以上のデータ形式を選択する操作を受け付け得る端末受付部をさらに具備し、再生部は、端末装置のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または第二言語音声を音声認識した第二言語テキストのうち、選択された1以上のデータ形式に対応する1以上のデータを再生する通訳システムである。
かかる構成により、ユーザは、自分の言語に対応する翻訳者の音声またはテキストのうち1以上を利用できる。
また、本第九の発明の通訳システムは、第八の発明に対して、端末受信部は、第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、再生部は、端末受信部が受信した第二言語テキストと副第二言語の第二言語テキストとを出力する通訳システムである。
かかる構成により、ユーザは、自分の言語に対応する通訳者以外の通訳者のテキストも利用できる。
なお、第八の発明において、端末受付部は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する2以上の第二言語識別子のうち、当該端末装置のユーザに関するユーザ情報が有する第二言語識別子である主第二言語識別子とは異なる1以上の第二言語識別子の集合である副第二言語識別子群をさらに選択する操作をも受け付け可能であり、端末受信部は、副第二言語識別子群が選択された場合に、サーバ装置から副第二言語識別子群に対応する1以上の第二言語テキストをも受信し、再生部は、副第二言語識別子群に対応する1以上の第二言語テキストを、主第二言語識別子に対応する第二言語テキストと共に出力してもよい。
また、本第十の発明の通訳システムは、第一から第九いずれか1つの発明に対して、通訳者情報群格納部およびユーザ情報群格納部には、会場を識別する会場識別子に対応付けて、1以上の通訳者情報群および1以上のユーザ情報群がそれぞれ格納され、ユーザ情報は、会場識別子をさらに有し、第二言語音声取得部および配信部は、2以上の各会場識別子ごとに、1以上の第二言語音声の取得および配信を行う通訳システムである。
かかる構成により、2以上の各会場ごとに、1以上の第二言語音声の取得および配信を行える。
また、本第十一の発明の通訳システムは、第一から第十いずれか1つの発明に対して、サーバ装置は、一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得部と、第一言語音声取得部が取得した第一言語音声と、第二言語音声取得部が取得した1以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である1以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得部と、1以上の各言語情報ごとに、音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する学習器構成部とをさらに具備する通訳システムである。
かかる構成により、学習器による第一言語から1以上の第二言語への通訳も行える。
また、本第十二の発明の通訳システムは、第十一の発明に対して、サーバ装置は、再生部が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得する反応取得部をさらに具備し、学習器構成部は、反応情報を用いて選別された、2以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する通訳システムである。
かかる構成により、ユーザの反応を利用して、音声特徴量対応情報の選別を行うことで、精度の高い学習器を構成できる。
また、本第十三の発明の通訳システムは、第十一の発明に対して、サーバ装置は、再生部が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得する反応取得部と、1以上の各通訳者ごとに、通訳者に対応する反応情報を用いて、通訳者の評価に関する評価情報を取得する評価取得部とをさらに具備する通訳システムである。
かかる構成により、ユーザの反応を利用して、1以上の各通訳者を評価できる。
本第十四の発明のサーバ装置は、通訳者の画像である通訳者画像を含む2以上の通訳者情報を有する通訳者情報群が格納される通訳者情報群格納部と、会場を撮影した映像を受け付ける映像受付部と、映像受付部が受け付けた映像と2以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、画面情報構成部が構成した画面情報を2以上の通訳者の第二端末装置に送信する画面情報送信部とを具備するサーバ装置である。
なお、上記構成において、通訳者情報群が有する全ての通訳者情報が通訳者画像を含む必要はない。
かかる構成により、2以上の各通訳者の端末に、会場を撮影した映像と2以上の通訳者画像を含む画面を表示する仕組みを提供できる。
また、本第十五の発明のサーバ装置は、第十四の発明に対して、画面情報構成部は、予め決められた条件を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成するサーバ装置である。
かかる構成により、各通訳者を識別できるが、その細部(例えば、化粧の有無等)までは分からない画面を表示できる。
また、本第十六の発明のサーバ装置は、第十四または第十五の発明に対して、通訳者情報は、通訳者識別子を有し、2以上の通訳者情報の中の1以上の通訳者情報は、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する状態情報を有し、画面情報構成部は、状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像受付部が受け付けた映像と2以上の通訳者画像を含む画面を構成するサーバ装置である。
かかる構成により、2以上の通訳者のうち、どの通訳者が通訳中であるかが分かる画面を表示できる。
また、本第十七の発明のサーバ装置は、第十六の発明に対して、通訳者情報は、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないことの少なくとも3つの状態のうちのいずれかの状態を示す状態情報を有し、画面情報構成部は、状態情報を用いて、各通訳者の状態を視覚的に区別可能な態様で、映像受付部が受け付けた映像と2以上の通訳者画像を含む画面を構成するサーバ装置である。
かかる構成により、2以上の通訳者のうち、どの通訳者が通訳中であり、どの通訳者が次に通訳を行うかがわかる画面を表示できる。
また、本第十八の発明のサーバ装置は、第十四から第十七いずれか1つの発明に対して、チャットの情報を端末装置または第二端末装置から受信するチャット受信部をさらに具備し、画面情報構成部は、ユーザの端末装置とチャットを行う第一チャット領域、スタッフの第二端末装置とチャットを行う第二チャット領域のいずれか1以上のチャット領域を含む画面であり、チャット領域にチャット受信部が受信したチャットの情報が表出した画面の画面情報を構成するサーバ装置である。
かかる構成により、通訳者がユーザまたはスタッフのうち1以上とチャットを行える画面を表示できる。
また、本第十九の発明のサーバ装置は、第十八の発明に対して、通訳者情報は、通訳可能な2以上の言語を識別する2以上の言語識別子を有し、画面情報構成部は、2以上の各言語識別子に対応するチャットの領域である2以上の第一チャット領域を有する画面の画面情報を構成するサーバ装置である。
かかる構成により、通訳者が2以上の言語でユーザとチャットを行える画面を表示できる。
また、本第二十の発明のサーバ装置は、第十四から第十九いずれか1つの発明に対して、画面情報構成部は、通訳者の操作を受け付ける1以上の操作対象の領域である操作領域が画面の下部に位置し、映像受付部が受け付けた映像が画面の上部に位置するように画面情報を構成するサーバ装置である。
かかる構成により、視認性および操作性に優れた画面を表示できる。
また、本第二十一の発明のサーバ装置は、第二十の発明に対して、画面情報構成部は、通訳者の音声をミュートする2つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するように画面情報を構成するサーバ装置である。
かかる構成により、通訳者がその利き腕によらず音声を容易にミュートし得る画面を表示できる。
また、本第二十二の発明のサーバ装置は、第十四から第二十一いずれか1つの発明に対して、通訳者情報は、通訳者が設定したボリュームであり、2以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有し、通訳者の第二端末装置において、言語識別子で識別される言語の音声が、言語識別子と対になるボリューム情報により特定されるボリュームで入力されるサーバ装置である。
かかる構成により、通訳者が2以上の各言語ごとにボリュームの設定を行える画面を表示できる。
また、本第二十三の発明のサーバ装置は、第十四から第二十二いずれか1つの発明に対して、画面情報構成部は、言語識別子に対応する2種類以上のユーザインターフェイス部品を有する画面情報を構成し、第二端末装置から、2種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、2種類以上のすべてのユーザインターフェイス部品のカレントの言語を指示に対応する言語識別子で識別される言語とするように、第二端末装置において画面が変更されるサーバ装置である。
かかる構成により、2種類以上のいずれかのユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、2種類以上の全てのユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。
また、本第二十四の発明のサーバ装置は、第二十三の発明に対して、2種類以上のユーザインターフェイス部品は、ボリューム操作のためのユーザインターフェイス部品と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品であるサーバ装置である。
かかる構成により、ボリューム操作用またはテキスト表示用のいずれか一方のユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、ボリューム操作用およびテキスト表示用の両方のユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。
本発明による通訳システムによれば、サーバ装置と2以上の端末装置とで実現され、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を2以上のユーザに配信する通訳システムであって、サーバ装置が1以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。
また、本発明によれば、2以上の各通訳者の端末に、会場を撮影した映像と2以上の通訳者画像を含む画面を表示するサーバ装置を提供できる。
実施の形態1における通訳システムのブロック図 同サーバ装置の動作例を説明するためのフローチャート 同サーバ装置の動作例を説明するためのフローチャート 同端末装置の動作例を説明するためのフローチャート 同話者情報のデータ構造図 同通訳者情報のデータ構造図 同ユーザ情報のデータ構造図 実施の形態2における通訳システムのブロック図 同サーバ装置のブロック図 同サーバ装置の動作例を説明するためのフローチャート 同第二端末装置の動作例を説明するためのフローチャート 同通訳者情報のデータ構造図 画面情報の出力例を示す図 コンピュータシステムの外観図 コンピュータシステムの内部構成の一例を示す図
以下、通訳システム等の2つの実施形態について図面を参照して説明する。なお、各実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
実施の形態1では、サーバ装置と1以上の端末装置とで実現され、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を1以上のユーザに配信する通訳システムであって、サーバ装置が1以上の通訳者の言語に関する情報を的確に管理する通訳システムについて説明する。
実施の形態2では、実施の形態1の通訳システムにおいて、さらに、サーバ装置が、2以上の各通訳者の端末に、会場を撮影した映像と2以上の通訳者画像を含む画面を表示する通訳システムについて説明する。
(実施の形態1)
図1は、本実施の形態における通訳システムのブロック図である。通訳システムは、サーバ装置1、および2以上の端末装置2を備える。サーバ装置1は、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線などを介して、2以上の端末装置2の各々と通信可能に接続される。なお、通訳システムを構成する端末装置2の数は、本実施の形態では2以上としているが、1でもよい。
サーバ装置1は、例えば、通訳システムを運営する運営企業のサーバであるが、クラウドサーバやASPサーバ等でもよく、そのタイプや所在は問わない。
端末装置2は、例えば、通訳システムを利用するユーザの携帯端末である。なお、携帯端末とは、携帯可能な端末であり、例えば、スマートフォン、タブレット端末、携帯電話機、ノートPC等であるが、その種類は問わない。ただし、端末装置2は、据え置き型の端末でもよく、そのタイプは問わない。
なお、通訳システムは、通常、1または2以上の話者装置3、および1または2以上の通訳者装置4も備える。話者装置3は、講演会や討論会等で話をする話者の端末装置である。話者装置3は、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。通訳者装置4は、話者の話を通訳する通訳者の端末装置である。通訳者装置4もまた、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。話者装置3等を実現する端末は、ネットワーク等を介してサーバ装置1と通信可能に接続される。話者装置3等を実現するマイクロフォンは、例えば、有線または無線でサーバ装置1に接続されるが、ネットワーク等を介してサーバ装置1と通信可能に接続されてもよい。
サーバ装置1は、格納部11、受信部12、処理部13、および配信部14を備える。格納部11は、話者情報群格納部111、通訳者情報群格納部112、およびユーザ情報群格納部113を備える。処理部13は、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、および評価取得部139を備える。
端末装置2は、端末格納部21、端末受付部22、端末送信部23、端末受信部24、および端末処理部25を備える。端末格納部21は、ユーザ情報格納部211を備える。端末処理部25は、再生部251を備える。
サーバ装置1を構成する格納部11は、各種の情報を格納し得る。各種の情報とは、例えば、後述する話者情報群、後述する通訳者情報群、後述するユーザ情報群などである。
また、格納部11には、処理部13による処理の結果も格納される。処理部13による処理の結果とは、例えば、第一言語音声取得部131によって取得された第一言語音声、第二言語音声取得部132によって取得された第二言語音声、第一言語テキスト取得部133によって取得された第一言語テキスト、第二言語テキスト取得部134によって取得された第二言語テキスト、翻訳結果取得部135によって取得された翻訳結果、音声特徴量対応情報取得部136によって取得された音声特徴量対応情報、反応取得部137によって取得された反応情報、学習器構成部138によって構成された学習器、および評価取得部139によって取得された評価値などである。なお、こうした情報については後述する。
話者情報群格納部111には、話者情報群が格納される。話者情報群とは、1以上の話者情報の集合である。話者情報とは、話者に関する情報である。話者とは、話をする者である。話者は、例えば、講演会で講演を行う講演者、討論会で討論を行う討論者などであるが、誰でもよい。
話者情報は、例えば、話者識別子と、第一言語識別子とを有する。話者識別子とは、話者を識別する情報である。話者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ID等であるが、話者の携帯端末を識別する端末識別子(例えば、MACアドレス、IPアドレス等)でもよく、話者を識別し得る情報であれば何でもよい。ただし、話者識別子は必須ではない。例えば、話者が一人だけの場合、話者情報は、話者識別子を有していなくてもよい。
第一言語識別子とは、第一の言語を識別する情報である。第一の言語とは、話者が話す言語である。第一の言語は、例えば、日本語であるが、英語、中国語、フランス語等、何語でもよい。第一言語識別子は、例えば、“日本語”や“英語”等の言語名であるが、“日”や“英”等の略語でもよいし、IDでもよく、第一の言語を識別できる情報であれば何でもよい。
話者情報群格納部111には、例えば、会場識別子に対応付けて、1または2以上の話者情報群が格納されてもよい。会場識別子とは、会場を識別する情報である。会場とは、話者が話をする場所である。会場は、例えば、会議場、教室、ホールなどであるが、その種類や所在は問わない。会場識別子は、例えば、会場名、IDなど、会場を識別し得る情報であれば何でもよい。
ただし、話者情報群は必須ではなく、サーバ装置1は、話者情報群格納部111を備えていなくてもよい。
通訳者情報群格納部112には、通訳者情報群が格納される。通訳者情報群とは、1以上の通訳者情報の集合である。通訳者情報とは、通訳者に関する情報である。通訳者とは、通訳をする者である。通訳とは、ある言語の音声を聴きながら、別の言語に訳出していくことである。通訳は、例えば、同時通訳であるが、逐次通訳でもよい。同時通訳とは、話者の話を聞くとほぼ同時に訳出を行う方式である。逐次通訳とは、話者の話を適宜な長さに区切りつつ、順次訳出していく方式である。
通訳者は、第一の言語の音声を第二の言語に通訳する。第二の言語とは、ユーザが聴く又は読む言語である。第二の言語は、第一の言語と異なる言語であれば何語でもよい。例えば、第一の言語が日本語の場合、第二の言語は、英語、中国語、フランス語などである。
具体的には、例えば、ある会場Xで講演者αが話す日本語を、通訳者Aが英語に、通訳者Bが中国語に、通訳者Cがフランス語に、それぞれ翻訳してもよい。なお、同種の通訳を行う通訳者が2人以上いてもよい。例えば、二人の通訳者A1およびA2が、日本語から英語への通訳を行い、サーバ装置1は、一方の通訳A1またはA2の通訳音声と、他方の通訳A2またはA1の通訳テキストとを2以上の端末装置2に配信してもよい。
または、別の会場Yで、討論者βが話す日本語を、通訳者E,Fが英語,中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者E,Gが日,中にそれぞれ通訳してもよい。なお、この例では、一の通訳者Eが、日英および英日の双方向の通訳を行っているが、通訳者Eは、日英または英日の一方の通訳のみを行い、他方の通訳は、別の通訳者Hが行ってもよい。
通訳者は、通常、話者が話をする会場で通訳を行うが、別の場所で通訳を行ってもよく、その所在は問わない。別の場所とは、例えば、運営企業の一室でも、各通訳者の自宅でも、どこでもよい。別の場所で通訳が行われる場合、話者の音声は、話者装置3からネットワーク等を介して通訳者装置4に送信される。
通訳者情報は、例えば、第一言語識別子と、第二言語識別子と、通訳者識別子とを有する。第二言語識別子とは、前述した第二の言語を識別する情報である。第二言語識別子は、例えば、言語名、略語、ID等、何でもよい。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ID、端末識別子等、何でもよい。
または、通訳者情報は、通訳者言語情報と通訳者識別子とで構成される、といってもよい。通訳者言語情報とは、通訳者の言語に関する情報である、通訳者言語情報は、例えば、第一言語識別子、第二言語識別子、および評価値を有する。評価値とは、通訳者が行った通訳の品質に関する評価を示す値である。品質は、例えば、分かりやすさ、誤訳の少なさ等である。評価値は、例えば、通訳者の音声を聴いたユーザの反応を基に取得される。評価値は、例えば、“5”,“4”,“3”等の数値であるが、“A”,“B”,“C”等の文字でもよく、その表現形式は問わない。
通訳者情報群格納部112には、例えば、会場識別子に対応付けて、1または2以上の通訳者情報群が格納されてもよい。
ユーザ情報群格納部113には、ユーザ情報群が格納される。ユーザ情報群とは、1または2以上のユーザ情報の集合である。ユーザ情報とは、ユーザに関する情報である。ユーザとは、前述したように、通訳システムの利用者である。ユーザは、端末装置2を介して、話者の話を通訳した音声である通訳音声を聴くことができる。また、ユーザは、通訳音声を音声認識したテキストである通訳テキストを読むこともできる。
なお、ユーザは、通常、話者が居る会場内で通訳音声を聴くが、別の場所で通訳音声を聴いてもよく、その所在は問わない。別の場所とは、例えば、ユーザの自宅、電車の中など、どこでもよい。
ユーザ情報は、ユーザ識別子と、第二言語識別子とを有する。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、氏名、メールアドレス、携帯電話番号、ID、端末識別子等、何でもよい。
ユーザ情報が有する第二言語識別子は、ユーザが聴く又は読む言語を識別する情報である。ユーザ情報が有する第二言語識別子は、ユーザ自身の選択に基づく情報であり、通常、変更可能であるが、固定的な情報でもよい。
または、ユーザ情報は、ユーザ言語情報とユーザ識別子とで構成される、といってもよい。ユーザ言語情報とは、ユーザの言語に関する情報である。ユーザ言語情報は、例えば、主第二言語識別子、副第二言語識別子群、およびデータ形式情報などを有する。主第二言語識別子とは、主たる第二言語(以下、主第二言語)を識別する情報である。副第二言語識別子群とは、1または2以上の副第二言語識別子の集合である。副第二言語識別子とは、主たる第二言語に加えて選択可能な、副次的な第二言語(以下、副第二言語)を識別する情報である。
例えば、主第二言語がフランス語である場合、副第二言語は、英語でもよいし、中国語でもよく、主第二言語とは異なる言語であれば何語でもよい。
データ形式情報とは、第二言語のデータ形式に関する情報である。データ形式情報は、通常、主第二言語のデータ形式を示す。主第二言語のデータ形式は、音声またはテキストであり、データ形式情報は、“音声”または“テキスト”のうち1以上のデータ形式を含み得る。つまり、主第二言語は、音声でもよいし、テキストでもよいし、音声およびテキストの両方でもよい。
なお、データ形式情報は、本実施の形態においては、例えば、ユーザの選択に基づく情報であり、変更可能である。ユーザは、主第二言語については、音声を聴いてもよいし、テキストを読んでもよいし、音声を聴きながらテキストを読むこともできる。
これに対し、副第二言語のデータ形式は、本実施の形態においては、テキストであり、変更できないものとする。つまり、ユーザは、例えば、主第二言語のテキストに加えて、副第二言語のテキストをも読むことができる。
ユーザ情報群格納部113には、例えば、会場識別子に対応付けて、1または2以上のユーザ情報群が格納されてもよい。
受信部12は、各種の情報を受信する。各種の情報とは、例えば、後述する端末装置2の端末受付部22が受け付けた各種の情報などである。
処理部13は、各種の処理を行う。各種の処理とは、例えば、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、および評価取得部139などの処理である。
また、処理部13は、フローチャートで説明する各種の判別も行う。さらに、処理部13は、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、および評価取得部139の各々が取得した情報を、時刻情報に対応付けて、格納部11に蓄積する処理をも行う。
時刻情報とは、時刻を示す情報である。時刻情報は、通常、現在時刻を示す情報である。ただし、時刻情報は、相対的な時間を示す情報でもよい。相対的な時間とは、基準となる時刻に対する時間であり、例えば、講演会等の開始時刻からの経過時間などでもよい。処理部13は、第一言語音声等の情報が取得されたことに応じて、MPUの内蔵時計やNTPサーバ等から現在時刻を示す時刻情報を取得し、第一言語音声取得部131等によって取得された情報を当該時刻情報に対応付けて格納部11に蓄積する。ただし、第一言語音声取得部131等によって取得された情報が時刻情報を含んでいてもよく、その場合、処理部13は、取得された情報の時刻情報への対応付けを行わなくてもよい。
第一言語音声取得部131は、第一言語音声を取得する。第一言語音声とは、一の話者が話した第一の言語の音声のデータである。一の話者とは、唯一の話者(例えば、講演会で話をする講演者)でもよいし、2以上の話者(例えば、討論会で対話をする2以上の討論者)のうち発言中の話者でもよい。取得とは、通常、第一言語音声の受信である。
すなわち、第一言語音声取得部131は、例えば、1以上の話者装置3から送信される1以上の第一言語音声を受信する。例えば、講演者の口元または近傍にマイクロフォンが設けられており、第一言語音声取得部131は、このマイクロフォンを介して、第一言語音声を取得する。
なお、第一言語音声取得部131は、話者情報群を用いて、1以上の話者装置3から1以上の第一言語音声を取得してもよい。例えば、話者が話をする会場が、ユーザの居ないスタジオである場合に、受信部12は、自宅等に居る1以上の各ユーザの端末装置2から、話者識別子を受信する。第一言語音声取得部131は、話者情報群(後述する図5を参照)を構成する1以上の話者情報を用いて、受信部12が受信した話者識別子で識別される話者の話者装置3に、第一言語音声の要求を送信し、当該要求に応じて話者装置3から送信される第一言語音声を受信してもよい。
ただし、第一言語音声は必須ではなく、サーバ装置1は、第一言語音声取得部131を備えていなくてもよい。
第二言語音声取得部132は、1以上の第二言語音声を取得する。第二言語音声とは、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである。第二の言語とは、前述したように、ユーザが聴く又は読む言語であり、第一の言語と異なる言語であれば何語でもよい。
ただし、第二の言語は、ユーザ情報群格納部113に格納されている2以上の言語識別子のいずれかに対応する言語であり、かつ、通訳者情報群格納部112に格納されている1以上の第二言語識別子に対応する1以上の言語以外の言語であることは好適である。または、第二の言語は、ユーザ情報群格納部113に格納されている2以上の言語識別子のいずれかに対応する言語であれば、通訳者情報群格納部112に格納されている1以上の第二言語識別子に対応する1以上の言語のいずれかと重複する言語でもよい。
第二言語音声取得部132は、例えば、1以上の通訳者装置4から送信される1以上の第二言語音声を受信する。
または、第二言語音声取得部132は、通訳者情報群を用いて、1以上の通訳者装置4から1以上の第二言語音声を取得してもよい。詳しくは、第二言語音声取得部132は、通訳者情報群を構成する1以上の通訳者情報を用いて、1以上の通訳者識別子を取得し、取得した1以上の各通訳者識別子で識別される通訳者の通訳者装置4に、第二言語音声の要求を送信する。そして、第二言語音声取得部132は、当該要求に応じて当該通訳者装置4から送信される第二言語音声を受信する。
第一言語テキスト取得部133は、第一言語テキストを取得する。第一言語テキストとは、一の話者が話した第一の言語のテキストのデータである。第一言語テキスト取得部133は、例えば、第一言語音声取得部131が取得した第一言語音声を音声認識することにより、第一言語テキストを取得する。または、第一言語テキスト取得部133は、話者のマイクロフォンからの音声を音声認識することにより、第一言語音声を取得してもよい。または、第一言語テキスト取得部133は、話者情報群を用いて、1以上の各話者の端末装置2からの音声を音声認識することにより、第一言語音声を取得してもよい。
第二言語テキスト取得部134は、1以上の第二言語テキストを取得する。第二言語テキストとは、1以上の各通訳者が通訳した第二言語のテキストのデータである。第二言語テキスト取得部134は、例えば、第二言語音声取得部132が取得した1以上の第二言語音声をそれぞれ音声認識することにより、1以上の第二言語テキストを取得する。
翻訳結果取得部135は、1以上の翻訳結果を取得する。翻訳結果とは、第一言語テキストを翻訳エンジンにより翻訳した結果である。なお、翻訳エンジンによる翻訳は公知技術であり、説明を省略する。翻訳結果は、翻訳テキストまたは翻訳音声のうち1以上のデータを含む。翻訳テキストとは、第一言語テキストを第二の言語に翻訳したテキストである。翻訳音声とは、翻訳テキストを音声変換した音声である。なお、音声変換は、音声合成といってもよい。
翻訳結果取得部135は、例えば、ユーザ情報群が有する2以上の第二言語識別子のうち、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しないことは好適である。
詳しくは、翻訳結果取得部135は、例えば、ユーザ情報群が有する2以上の各第二言語識別子ごとに、当該第二言語識別子が、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なるか否かの判別を行う。そして、翻訳結果取得部135は、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子を取得する一方、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ第二言語識別子を取得しない。
音声特徴量対応情報取得部136は、第一言語音声取得部131が取得した第一言語音声と、第二言語音声取得部132が取得した1以上の第二言語音声とを用いて、1以上の各言語情報ごとに、音声特徴量対応情報を取得する。音声特徴量対応情報とは、第一言語音声および第二言語音声の組における特徴量の対応を示す情報である。
言語情報とは、言語に関する情報である。言語情報は、例えば、第一言語識別子および第二言語識別子の組(例えば、“日英”、“日中”、“日仏”等)であるが、そのデータ構造は問わない。第一言語音声および第二言語音声の対応は、例えば、要素を単位とする対応であってもよい。ここでいう要素とは、文を構成する要素である。文を構成する要素とは、例えば、形態素である。形態素とは、自然言語の文を構成する1以上の各要素である。形態素は、例えば、単語であるが、文節などでもよい。または、要素は、一の文全体でもよく、文の要素であれば何でもよい。
特徴量とは、例えば、要素の特徴を定量的に示す情報である、といってもよい。特徴量は、例えば、形態素を構成する音素の配列(以下、音素列)である。または、特徴量は、音素列におけるアクセントの位置などでもよい。
音声特徴量対応情報取得部136は、例えば、2以上の各言語情報ごとに、第一言語音声および第二言語音声に対して形態素解析を行い、第一言語音声および第二言語音声の間の対応する2つの形態素を特定し、当該2つの各形態素の特徴量を取得してもよい。なお、形態素解析は公知技術であり、説明を省略する。
または、音声特徴量対応情報取得部136は、2以上の各言語情報ごとに、第一言語音声および第二言語音声に対して、1以上の無音期間の検知、および1以上の無音期間を挟んで音声を2以上の区間に区切る分節を行ってもよい。なお、無音期間とは、音声のレベルが閾値以下である状態が、予め決められた時間以上、継続している期間である。音声特徴量対応情報取得部136は、第一言語音声および第二言語音声の間の対応する2つの区間を特定し、当該2つの区間の特徴量を取得してもよい。例えば、第一言語音声の2以上の各区間に“1”,“2”,“3”等の番号を対応付ける一方、第二言語音声の2以上の各区間にも“1”,“2”,“3”等の番号を対応付け、同じ番号に対応付いている2つの区間を、対応する区間とみなしても構わない。
反応取得部137は、2以上の反応情報を取得する。反応情報とは、通訳者の通訳に対するユーザの反応に関する情報である。反応情報は、例えば、ユーザ識別子と、反応種類とを有する。反応種類とは、反応の種類を示す情報である。反応種類は、例えば、“頷く”、“首を傾げる”、“笑う”等であるが、“無反応”でもよく、その種類や表現形式は問わない。
ただし、反応情報は、ユーザ識別子を有していなくてもよい。すなわち、一の通訳者の通訳に反応した個々のユーザが特定されなくてもよく、例えば、かかるユーザの主第二言語が特定できればよい。従って、反応情報は、例えば、ユーザ識別子に代えて、第二言語識別子を有していてもよい。さらに、例えば、通訳者がただ一人の場合、反応情報は、単に反応種別を示す情報であっても構わない。
通訳者が2人以上の場合、例えば、会場内は、当該2以上の通訳者に対応する2以上の各第二言語の区画(例えば、英語の区画、中国語の区画等)に区分けされる。そして、これら2以上の各言語の区画の前方側に、当該区画内の1以上のユーザの顔を撮影可能なカメラが設置される。
反応取得部137は、2以上の各言語の区画ごとのカメラから画像を受信し、当該画像に対して顔検出を行うことにより、当該区画内に居る1以上の顔画像を取得する。なお、顔検出は公知技術であり、説明を省略する。格納部11には、顔画像の特徴量と反応種別(例えば、“頷く”,“首を傾げる”,“笑う”等)との対の集合が格納されており、反応取得部137は、1以上の各顔画像ごとに、当該顔画像からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の1以上のユーザの各々または集団の視覚的な反応に関する1以上の反応情報を取得する。
なお、会場内の左右に、2以上の各言語の区画内で発生する音(例えば、拍手音、笑い声等)を検出可能な、一対のマイクロフォンが設置されてもよい。格納部11には、音の特徴量と反応種別(例えば、“拍手する”,“笑う”等)との対の集合が格納されており、反応取得部137は、一対のマイクロフォンからの左右の音を用いて、音の発生を検知し、かつその音源の位置を特定する。そして、2以上の各言語の区画ごとに、左右の少なくとも一方のマイクロフォンの音からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の1以上のユーザの集団の聴覚的な反応に関する1以上の反応情報を取得してもよい。
または、反応取得部137は、例えば、ユーザ情報群を用いて、2以上の各ユーザごとに、後述する端末装置2の再生部251が再生した第二言語音声に対する反応情報を取得してもよい。
詳しくは、例えば、処理部13が、事前に、2以上の各ユーザから、当該ユーザの端末装置2を介して、当該ユーザの顔画像を受け付け、ユーザ識別子と顔画像との対の集合を格納部11に蓄積しておく。会場には、1または2以上のカメラが設置されており、反応取得部137は、当該1以上の各カメラからのカメラ画像を用いて顔認識を行い、2以上の各ユーザの顔画像を検出する。次に、反応取得部137は、カメラ画像中の2以上の各顔画像を用いて、2以上の各ユーザ識別子ごとに反応情報を取得する。処理部13は、2以上の各ユーザ識別子ごとに取得された反応情報を、時刻情報に対応付けて格納部11に蓄積する。
または、反応取得部137は、2以上の各ユーザごとに、当該ユーザの端末装置2の内蔵カメラを介して、当該ユーザの顔画像を取得し、当該顔画像を用いて反応情報を取得してもよい。
学習器構成部138は、1以上の各言語情報ごとに、2以上の音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。学習器とは、2以上の音声特徴量対応情報を教師データとして、第一言語音声の特徴量と第二言語音声の特徴量との対応を機械学習することにより、第一言語音声の入力に対し、対応する第二言語音声を出力するための情報である、といってもよい。機械学習は、例えば、ディープラーニング、ランダムフォレスト、決定木等であるが、種類は問わない。ディープラーニング等の機械学習は公知技術であり、説明を省略する。
学習器構成部138は、反応情報を用いて選別された、2以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。
選別とは、高い精度の学習器の構成に好適な組を選択すること又は不適な組を捨てることである、といってもよい。好適な組か否かは、例えば、第二言語音声に対する反応情報が予め決められた条件を満たすか否かで判断される。第二言語音声に対する反応情報とは、第二言語音声の直後の反応情報である。予め決められた条件は、例えば、“拍手の音または頷く動作のうち1以上が検出される”等であってもよい。なお、選別は、例えば、好適な組または当該好適な組を構成する第二言語音声の格納部11への蓄積、または不適な組または当該不適な組を構成する第二言語音声の格納部11からの削除によって実現されてもよい。または、選別は、ある部が取得した好適な組に関する情報を他の部に引き渡す一方、不適な組に関する情報は引き渡さずに捨てることでもよい。
選別は、サーバ装置1のどの部が行ってもよい。例えば、最も前段階の音声特徴量対応情報取得部136が選別を行うことは好適である。すなわち、音声特徴量対応情報取得部136は、例えば、2以上の各組を構成する第二言語音声に対応する反応情報が予め決められた条件を満たすか否かを判断し、当該条件を満たすと判断した反応情報に対応する第二言語音声を含む組から、音声特徴量対応情報を取得する。なお、条件を満たすと判断した反応情報に対応する第二言語音声とは、当該反応情報の直前の第二言語音声である。
なお、学習器構成部138が選別を行ってもよい。詳しくは、学習器構成部138は、例えば、反応取得部137が取得した2以上の反応情報を用いて、1以上の各第二言語識別子ごとに、教師データとなる2以上の音声特徴量対応情報のうち、予め決められた条件を満たした音声特徴量対応情報を捨ててもよい。
予め決められた条件は、例えば、一の第二言語音声を聴いている2以上のユーザのうち、同じ時刻に、首を傾げたユーザの数または割合が閾値以上又は閾値より多い、という条件である。学習器構成部138は、かかる条件を満たした音声特徴量対応情報として、教師データとなる2以上の音声特徴量対応情報のうち、当該第二言語音声に対応する音声特徴量対応情報であり、かつ当該時刻に対応する音声特徴量対応情報を捨てる。
評価取得部139は、1以上の各通訳者ごとに、当該通訳者に対応する2以上の反応情報を用いて、評価情報を取得する。評価情報とは、ユーザによる通訳者の評価に関する情報である。評価情報は、例えば、通訳者識別子と、評価値とを有する。評価値とは、評価を示す値である。評価値は、例えば、5,4,3等の数値であるが、A,B,C等の文字で表現されてもよい。
評価取得部139は、例えば、反応情報をパラメータとする関数を用いて評価値を取得する。具体的には、評価取得部139は、例えば、首を傾げた回数をパラメータとする減少関数を用いて評価値を取得してもよい。または、評価取得部139は、頷いた回数または笑った回数のうち1以上をパラメータとする増加関数を用いて評価値を取得してもよい。
配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、第二言語音声取得部132が取得した1以上の第二言語音声のうち、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声を配信する。
また、配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、第二言語テキスト取得部134が取得した1以上の第二言語テキストのうち、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストを配信することもできる。
さらに、配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、翻訳結果取得部135が取得した1以上の翻訳結果のうち、端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する翻訳結果をも配信することもできる。
詳しくは、配信部14は、例えば、ユーザ情報群を構成する1以上の各ユーザ情報を用いて、ユーザ識別子、主第二言語識別子、およびデータ形式情報を取得し、取得したユーザ識別子で識別されるユーザの端末装置2に、取得した主第二言語識別子で識別される主第二言語の音声およびテキストのうち、取得したデータ形式情報に対応する1以上の情報を送信する。
従って、あるユーザ情報(例えば、後述する図7の1番目のユーザ情報を参照)が、ユーザ識別子“a”、主第二言語識別子“英”、およびデータ形式情報“音声”を有する場合は、ユーザ識別子“a”で識別されるユーザaの端末装置2に、主第二言語識別子“英”で識別される英語の音声が配信される。
また、他のユーザ情報(例えば、図7の2番目のユーザ情報)が、ユーザ識別子“b”、主第二言語識別子“中”、およびデータ形式情報“音声&テキスト”を有する場合は、ユーザ識別子“b”で識別されるユーザbの端末装置2に、主第二言語識別子“中”で識別される中国語の音声が中国語のテキストと共に配信される。
また、その他のユーザ情報(例えば、図7の3番目のユーザ情報)が、ユーザ識別子“c”、主第二言語識別子“独”、およびデータ形式情報“テキスト”を有する場合は、ユーザ識別子“c”で識別されるユーザcの端末装置2に、主第二言語識別子“独”で識別されるドイツ語の翻訳テキストが配信される。
加えて、配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、第二言語テキスト取得部134が取得した1以上の第二言語テキストのうち、端末装置2に対応するユーザ情報が有する副第二言語識別子群に対応する1以上の第二言語テキストをも配信することもできる。
詳しくは、さらにその他のユーザ情報(例えば、図7の4番目のユーザ情報)が、ユーザ識別子“d”、主第二言語識別子“仏”、副言語識別子群“英”、およびデータ形式情報“音声&テキスト”を有する場合は、ユーザ識別子“d”で識別されるユーザdの端末装置2に、主第二言語識別子“仏”で識別されるフランス語の音声が、フランス語および英語の2種類のテキストと共に配信される。
なお、配信部14は、第二言語音声または第二言語テキストのうち1以上を、例えば、第二言語識別子と対に配信してもよい。または、配信部14は、第二言語音声または第二言語テキストのうち1以上を、通訳者識別子および第二言語識別子と対に配信してもよい。
また、配信部14は、第一言語音声または第一言語テキストのうち1以上を、例えば、第一言語識別子と対に配信してもよい。または、配信部14は、第一言語音声または第一言語テキストのうち1以上を、話者識別子および第一言語識別子と対に配信してもよい。
さらに、配信部14は、1以上の翻訳結果を、例えば、第二言語識別子と対に配信してもよい。または、配信部14は、1以上の翻訳結果を、第二言語識別子、および翻訳エンジンによる翻訳である旨の情報と対に配信してもよい。
ただし、第二言語識別子等の言語識別子の配信は必須ではなく、配信部14は、第二言語音声等の音声または第二言語テキスト等のテキストのうち1種類以上の情報のみを配信すればよい。
端末装置2を構成する端末格納部21は、各種の情報を格納し得る。各種の情報とは、例えば、ユーザ情報である。また、端末格納部21には、後述する端末受信部24が受信した各種の情報も格納される。
ユーザ情報格納部211には、当該端末装置2のユーザに関するユーザ情報が格納される。ユーザ情報は、前述したように、例えば、ユーザ識別子、および言語情報を有する。言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。
ただし、端末装置2にユーザ情報が記憶されることは必須ではなく、端末格納部21は、ユーザ情報格納部211を備えていなくてもよい。
端末受付部22は、例えば、タッチパネルやキーボード等の入力デバイスを介して、各種の操作を受け付け得る。各種の操作とは、例えば、主第二言語を選択する操作である。端末受付部22は、かかる操作を受け付け、主第二言語識別子を取得する。
また、端末受付部22は、主第二言語に関し、音声またはテキストのうち1以上のデータ形式を選択する操作をさらに受け付け得る。端末受付部22は、かかる操作を受け付け、データ形式情報を取得する。
さらに、端末受付部22は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する2以上の第二言語識別子のうち、当該端末装置2のユーザに関するユーザ情報が有する第二言語識別子とは異なる1以上の第二言語識別子をさらに選択する操作をも受け付け得る。端末受付部22は、かかる操作を受け付け、副第二言語識別子群を取得する。
端末送信部23は、端末受付部22が受け付けた各種の情報(例えば、主第二言語識別子、副第二言語識別子群、データ形式情報など)をサーバ装置1に送信する。
端末受信部24は、サーバ装置1から配信される各種の情報(例えば、第二言語音声、1以上の第二言語テキスト、翻訳結果など)を受信する。
端末受信部24は、サーバ装置1から配信される第二言語音声を受信する。なお、サーバ装置1から当該端末装置2に配信される第二言語音声は、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声である。
また、端末受信部24は、サーバ装置1から配信される1以上の第二言語テキストをも受信する。なお、サーバ装置1から当該端末装置2に配信される1以上の第二言語テキストとは、例えば、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストである。または、サーバ装置1から当該端末装置2に配信される1以上の第二言語テキストとは、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキスト、および当該ユーザ情報が有する副第二言語識別子群に対応する1以上の第二言語テキストであってもよい。
すなわち、端末受信部24は、例えば、上記第二言語音声を音声認識した第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信する。
端末処理部25は、各種の処理を行う。各種の処理とは、例えば、再生部251の処理である。また、端末処理部25は、例えば、フローチャートで説明する各種の判別や蓄積をも行う。蓄積とは、端末受信部24が受信した情報を、時刻情報に対応付けて、端末格納部21に蓄積する処理である。
再生部251は、端末受信部24が受信した第二言語音声を再生する。第二言語音声を再生することは、通常、スピーカを介した音声出力も含むが、含まないと考えてもよい。
再生部251は、1以上の第二言語テキストをも出力する。第二言語テキストを出力することは、通常、ディスプレイへの表示であるが、例えば、記録媒体への蓄積、プリンタでのプリントアウト、外部の装置への送信、他のプログラムへの引渡しなどをも含むと考えてもよい。
再生部251は、端末受信部24が受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。
再生部251は、第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生する。追っかけ再生とは、再生を中断した後に、サーバ装置1から受信した第二言語音声を格納部11に蓄積する動作(例えば、バッファリング、キューイングといってもよい)を行いながら、格納部11に格納されている未再生部分の先頭から再生を行うことである。追っかけ再生の再生速度が通常の再生速度と同じであれば、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に対して、一定時間だけ遅延した状態が継続する。一定時間とは、再生再開の時点での遅延時間である。遅延時間とは、例えば、当該未再生部分が再生されるべきであった時刻に対して遅れている時間である、といってもよい。
これに対して、追っかけ再生の再生速度が通常の再生速度よりも早ければ、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に徐々に追いついていく。追いつくまでの時間は、再生再開時点での遅延時間と、追っかけ再生の再生速度とに依存する。
詳しくは、例えば、一の端末装置2において、第二言語音声の再生中に、端末格納部21に格納されている当該第二言語音声の未再生部分に欠落部(例えば、ロストパケット)がある場合、端末送信部23は、当該欠落部の再送要求(例えば、第二言語識別子、時刻情報などを有する)を端末識別子(ユーザ識別子と兼用でよい)と対にサーバ装置1に送信する。
サーバ装置1の配信部14は、当該欠落部を当該端末装置2に再送する。当該端末装置2の端末受信部24は、当該欠落部分を受信し、端末処理部25は、当該欠落部を端末格納部21に蓄積し、それによって、端末格納部21に格納されている未再生部分が再生可能となる。しかし、再生再開後の第二言語音声は、話者の話または通訳者の音声に対して遅延するため、再生部251は、端末格納部21に格納されている第二言語音声を早送りで追っかけ再生する。
再生部251は、未再生部分の追っかけ再生を、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に応じた速度の早送りで行う。
なお、未再生部分の遅延時間は、第二言語音声がストリームである場合は、例えば、未再生部分の先頭のパケット(最も古いパケット)のタイムスタンプと、内蔵時計等が示す現在時刻との差分を用いて取得できる。すなわち、再生部251は、例えば、再生再開時、未再生部分の先頭のパケットからタイムスタンプを、内蔵時計等からは現在時刻をそれぞれ取得し、タイムスタンプの時刻と現在時刻との差分を算出することにより、遅延時間を取得する。例えば、端末格納部21に、差分と遅延時間との対の集合が格納されており、再生部251は、算出した差分と対になる遅延時間を取得してもよい。
また、当該未再生部分のデータ量は、例えば、端末格納部21の音声用のバッファの残量を用いて取得できる。すなわち、再生部251は、例えば、再生再開時、音声用のバッファの残量を取得し、当該バッファの容量から当該残量を減算することにより、未再生部分のデータ量を取得する。または、当該未再生部分のデータ量は、キューイングされているパケット数でもよい。すなわち、再生部251は、再生再開時、端末格納部21の音声用のキューにキューイングされているパケット数をカウントし、そのパケット数、またはパケット数に応じたデータ量を取得してもよい。
さらに、早送りは、第二言語音声がストリームである場合は、例えば、ストリームを構成する一連のパケットのうち一部のパケットを一定の割合で間引くことで実現される。例えば、2個のうち1個の割合で間引けば2倍速、3個のうち1個の割合で間引けば1.5倍速となる。
例えば、端末格納部21に、遅延時間またはデータ量のうち1以上の情報と再生速度との対の集合が格納されており、再生部251は、再生再開時、前述のようにして取得した遅延時間またはデータ量のうち1以上の情報と対になる再生速度を取得し、取得した再生速度に応じた割合で間引きを行うことで、未再生部分を当該再生速度の早送りで追っかけ再生できる。
例えば、格納部11に、遅延時間またはデータ量のうち1以上と、速度との対応に関する対応情報が格納されており、再生部251は、対応情報を用いて、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に対応する速度を取得し、取得した速度の早送り再生を行う。
または、格納部11に、上記対応情報に対応する関数が格納されており、再生部251は、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上を関数に代入することにより、速度を算出し、算出した速度の早送り再生を行ってもよい。
再生部251は、例えば、未再生部分の追っかけ再生を、当該未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する。
再生部251は、翻訳結果をも出力する。翻訳結果を出力することは、スピーカを介した翻訳音声の出力を含むと考えても、含まないと考えてもよいし、ディスプレイへの翻訳テキストの表示を含むと考えても、含まないと考えてもよい。
格納部11、話者情報群格納部111、通訳者情報群格納部112、ユーザ情報群格納部113、端末格納部21、およびユーザ情報格納部211は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でもよい。
受信部12、および端末受信部24は、通常、有線または無線の通信手段(例えば、NIC(Network interface controller)やモデム等の通信モジュール)で実現されるが、放送を受信する手段(例えば、放送受信モジュール)で実現されてもよい。
処理部13、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、評価取得部139、端末処理部25、および再生部251は、通常、MPUやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現してもよい。
配信部14、および端末送信部23は、通常、有線または無線の通信手段で実現されるが、放送手段(例えば、放送モジュール)で実現されてもよい。
端末受付部22は、入力デバイスを含むと考えても、含まないと考えてもよい。端末受付部22は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
次に、通訳システムの動作について、図2~図4のフローチャートを用いて説明する。図2および図3は、サーバ装置1の動作例を説明するためのフローチャートである。
(ステップS201)処理部13は、第一言語音声取得部131が第一言語音声を取得したか否かを判別する。第一言語音声取得部131が第一言語音声を取得した場合はステップS202に進み、取得していない場合はステップS203に進む。
(ステップS202)処理部13は、ステップS201で取得された第一言語音声を第一言語識別子に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
(ステップS203)処理部13は、ステップS201で取得された第一言語音声に対応する第二言語音声を第二言語音声取得部132が取得したか否かを判別する。対応する第二言語音声を第二言語音声取得部132が取得した場合はステップSに進み、取得していない場合はステップS207に進む。
(ステップS204)処理部13は、ステップS203で取得された第二言語音声を当該第一言語識別子、第二言語識別子、および通訳者識別子に対応付けて格納部11に蓄積する。
(ステップS205)音声特徴量対応情報取得部136は、ステップS201で取得された第一言語音声と、ステップS203で取得された第二言語音声とを用いて、音声特徴量対応情報を取得する。
(ステップS206)処理部13は、ステップS205で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
(ステップS207)配信部14は、配信を行うか否かを判断する。例えば、ステップS203で第二言語音声が取得されたことに応じて、配信部14は配信を行うと判断する。
または、格納部11に格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信部14は配信を行うと判断してもよい。または、格納部11に配信のタイミングを示す配信タイミング情報が格納されており、配信部14は、内蔵時計等から取得された現在時刻が配信タイミング情報の示すタイミングに対応し、かつ、格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信を行うと判断してもよい。配信を行う場合はステップS208に進み、配信を行わない場合はステップS209に進む。
(ステップS208)配信部14は、ユーザ情報群を用いて、当該第二言語識別子を有するユーザ情報に対応する1以上の各端末装置2に、ステップS203で取得された第二言語音声または格納部11に格納されている第二言語音声を配信する。その後、ステップS201に戻る。
(ステップS209)処理部13は、ステップS208で配信された第二言語音声に対する反応情報を反応取得部137が取得したか否かを判断する。配信された第二言語音声に対する反応情報を反応取得部137が取得した場合はステップS210に進み、取得していない場合はステップS211に進む。
(ステップS210)処理部13は、ステップS209で取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
(ステップS211)処理部13は、格納部11に格納されている2以上の音声特徴量対応情報のうち、条件を満たす音声特徴量対応情報があるか否かを判別する。条件を満たす音声特徴量対応情報がある場合はステップS212に進み、ない場合はステップS213に進む。
(ステップS212)処理部13は、条件を満たす音声特徴量対応情報を格納部11から削除する。その後、ステップS201に戻る。
(ステップS213)学習器構成部138は、学習器の構成を行うか否かを判断する。例えば、格納部11に、学習器の構成を行うタイミングを示す構成タイミング情報が格納されており、学習器構成部138は、現在時刻が構成タイミング情報の示すタイミングに対応し、かつ、格納部11内の当該言語情報に対応する音声特徴量対応情報の数が閾値以上または閾値より多い場合に、学習器の構成を行うと判断する。学習器の構成を行う場合はステップS214に進み、行わない場合はステップS201に戻る。
(ステップS214)学習器構成部138は、当該言語情報に対応する2以上の音声特徴量対応情報を用いて、学習器を構成する。その後、ステップS201に戻る。
(ステップS215)評価取得部139は、通訳者の評価を行うか否かを判断する。例えば、格納部11に、通訳者の評価を行うタイミングを示す評価タイミング情報が格納されており、評価取得部139は、現在時刻が評価タイミング情報の示すタイミングに対応する場合に、通訳者の評価を行うと判断する。通訳者の評価を行う場合はステップS216に進み、行わない場合はステップS201に戻る。
(ステップS216)評価取得部139は、1以上の各通訳者識別子ごとに、当該通訳者識別子に対応する2以上の反応情報を用いて、評価情報を取得する。
(ステップS217)処理部13は、ステップS216で取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部112に蓄積する。その後、ステップS201に戻る。
なお、図2および図3のフローチャートでは省略しているが、処理部13は、例えば、端末装置2からの欠落部の再送要求の受信、および再送要求に応じた再送制御などの処理も行っている。
また、図2および図3のフローチャートにおいて、サーバ装置1の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
図4は、端末装置2の動作例を説明するためのフローチャートである。
(ステップS401)端末処理部25は、端末受信部24が第二言語音声を受信したか否かを判別する。端末受信部24が第二言語音声を受信した場合はステップS402に進み、受信していない場合はステップS403に進む。
(ステップS402)端末処理部25は、第二言語音声を端末格納部21に蓄積する。その後、ステップS401に戻る。
(ステップS403)端末処理部25は、第二言語音声の再生が中断しているか否かを判別する。第二言語音声の再生が中断している場合はステップS404に進み、中断していない場合はステップS407に進む。
(ステップS404)端末処理部25は、端末格納部21に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。格納されている第二言語音声の未再生部分のデータ量が、閾値以上である場合はステップS405に進み、閾値以上でない場合はステップS401に戻る。
(ステップS405)端末処理部25は、当該未再生部分のデータ量および遅延時間に応じた早送り速度を取得する。
(ステップS406)再生部251は、第二言語音声を、ステップS405で取得した早送り速度で追っかけ再生する処理を開始する。その後、ステップS401に戻る。
(ステップS407)端末処理部25は、追っかけ再生中か否かを判別する。追っかけ再生中である場合はステップS408に進み、追っかけ再生中でない場合はステップS410に進む。
(ステップS408)端末処理部25は、遅延時間が閾値以下であるか否かを判別する。遅延時間が閾値以下である場合はステップS409に進み、遅延時間が閾値以下でない場合はステップS401に戻る。
(ステップS409)再生部251は、第二言語音声の追っかけ再生を終了する。
(ステップS410)再生部251は、第二言語音声を通常再生する。なお、通常再生とは、通常の速度でリアルタイムに再生を行うことである。その後、ステップS401に戻る。
なお、図4のフローチャートでは省略しているが、端末処理部25は、例えば、欠落部の再送要求のサーバ装置1への送信、および欠落部の受信などの処理も行っている。
また、図4のフローチャートにおいて、端末装置2の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
以下、本実施の形態における通訳システムの具体的な動作例について説明する。本来の通訳システムは、サーバ装置1、2以上の端末装置2、および2以上の話者装置3を備える。サーバ装置1は、ネットワークまたは通信回線を介して、2以上の端末装置2および2以上の話者装置3の各々と通信可能に接続される。サーバ装置1は、運営企業のサーバであり、端末装置2は、ユーザの携帯端末である。話者装置3および通訳者装置4は、会場に設置された端末である。
本日、ある会場Xで、唯一の話者である講演者αが日本語で話をする。会場Xには、3人の通訳者A~Cが居り、講演者αが話す日本語を、通訳者Aが英語に、通訳者Bが中国語に、通訳者Cがフランス語に、それぞれ通訳する。
また、別の会場Yでは、二人の話者による討論会が行われる。一方の話者である討論者βは、日本語で話をし、他方の話者である討論者γは、英語で話をする。会場Yには、3人の通訳E~Gが居り、討論者βが話す日本語を、通訳者E,Fが英語,中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者E,Gが日,中にそれぞれ通訳する。
会場Xには、2以上のユーザa~d等が居り、会場Yには、2以上のユーザf~h等が居る。各ユーザは、自分の端末装置2で、通訳音声を聴いたり、通訳テキストを読んだりすることができる。
サーバ装置1の話者情報群格納部111には、例えば、図5に示すような2以上の話者情報群が、会場識別子に対応付けて格納され得る。図5は、話者情報のデータ構造図である。話者情報は、話者識別子、および第一言語識別子を有する。
会場識別子“X”に対応付いた1番目の話者情報群は、一の話者情報のみで構成され、会場識別子“Y”に対応付いた2番目の話者情報群は、2つの話者情報で構成される。
一の話者情報群を構成する1以上の各話者情報には、ID(例えば、“1”,“2”等)が対応付いている。例えば、1番目の話者情報群を構成する唯一の話者情報には、ID“1”が対応付いている。また、2番目の話者情報群を構成する2つの話者情報のうち、1番目の話者情報には、ID“1”が対応付き、2番目の話者情報には、ID“2”が対応付いている。なお、以下では、ID“k”が対応付いた話者情報を「話者情報k」と記す。また、かかる事項は、図6に示す通訳者情報、および図7に示すユーザ情報にも共通する。
会場識別子Xに対応付いた話者情報1は、話者識別子“α”、および第一言語識別子“日”を有する。同様に、会場識別子Yに対応付いた話者情報1は、話者識別子“β”、および第一言語識別子“日”を有する。また、会場識別子Yに対応付いた話者情報2は、話者識別子“γ”、および第一言語識別子“英”を有する。
また、通訳者情報群格納部112には、例えば、図6に示すような2以上の通訳者情報群が、会場識別子に対応付けて格納され得る。図6は、通訳者情報のデータ構造図である。通訳者情報は、通訳者識別子、および通訳者言語情報を有する。通訳者言語情報は、第一言語識別子、第二言語識別子、および評価値を有する。
会場識別子Xに対応付いた通訳者情報1は、通訳者識別子“A”、および通訳者言語情報“日,英,4”を有する。同様に、会場識別子Xに対応付いた通訳者情報2は、通訳者識別子“B”、および通訳者言語情報“日,中,5”を有する。また、会場識別子Xに対応付いた通訳者情報3は、通訳者識別子“C”、および通訳者言語情報“日,仏,4”を有する。さらに、会場識別子Xに対応付いた通訳者情報4は、通訳者識別子“翻訳エンジン”、および通訳者言語情報“日,独,Null”を有する。
会場識別子Yに対応付いた通訳者情報1は、通訳者識別子“E”、および通訳者言語情報“日,英,5”を有する。同様に、会場識別子Yに対応付いた通訳者情報2は、通訳者識別子“F”、および通訳者言語情報“日,中,5”を有する。また、会場識別子Yに対応付いた通訳者情報3は、通訳者識別子“E”、および通訳者言語情報“英,日,3”を有する。さらに、会場識別子Yに対応付いた通訳者情報4は、通訳者識別子“G”、および通訳者言語情報“英,中,4”を有する。
さらに、ユーザ情報群格納部113には、例えば、図7に示すような2以上のユーザ情報群が、会場識別子に対応付けて格納され得る。図7は、ユーザ情報のデータ構造図である。ユーザ情報は、ユーザ識別子、およびユーザ言語情報を有する。ユーザ言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。
会場識別子Xに対応付いたユーザ情報1は、ユーザ識別子“a”、およびユーザ言語情報“英,Null,音声”を有する。同様に、会場識別子Xに対応付いたユーザ情報2は、ユーザ識別子“b”、およびユーザ言語情報“中,Null,音声&テキスト”を有する。また、会場識別子Xに対応付いたユーザ情報3は、ユーザ識別子“c”、およびユーザ言語情報“毒,Null,テキスト”を有する。さらに、会場識別子Xに対応付いたユーザ情報4は、ユーザ識別子“d”、およびユーザ言語情報“仏,英,音声&テキスト”を有する。
会場識別子Yに対応付いたユーザ情報1は、ユーザ識別子“f”、およびユーザ言語情報“英,Null,音声”を有する。同様に、会場識別子Yに対応付いたユーザ情報2は、ユーザ識別子“g”、およびユーザ言語情報“中,Null,音声”を有する。また、会場識別子Yに対応付いたユーザ情報3は、ユーザ識別子“h”、およびユーザ言語情報“日,英,テキスト”を有する。
会場Xでの講演会および会場Yでの討論会の開始前、通訳システムのオペレータが、キーボード等の入力デバイスを介して、会場ごとに、話者情報群および通訳者情報群の入力を行う。サーバ装置1の処理部13は、入力された話者情報群を会場識別子に対応付けて話者情報群格納部111に蓄積し、入力された通訳者情報群を会場識別子に対応付けて通訳者情報群格納部112に蓄積する。その結果、話者情報群格納部111には、図5に示したような2以上の話者情報が格納され、通訳者情報群格納部112には、図6に示したような2以上の通訳者情報が格納される。ただし、この時点では、各通訳者情報が有する評価値は、いずれも“Null”である。
2以上の各ユーザは、端末装置2の入力デバイスを介して、会場識別子およびユーザ情報等の情報を入力する。入力された情報は、端末装置2の端末受付部22によって受け付けられ、ユーザ情報格納部211に蓄積されると共に、端末送信部23によってサーバ装置1に送信される。
サーバ装置1の受信部12は、2以上の端末装置2の各々から上記のような情報を受信し、ユーザ情報群格納部113に蓄積する。その結果、ユーザ情報群格納部113には、図7に示したような2以上のユーザ情報が格納される。
2以上の話者装置3の各々には、当該話者装置3を識別する識別子も兼ねる話者識別子が格納されている。2以上の通訳者装置4の各々には、当該通訳者装置4を識別する識別子も兼ねる通訳者識別子が格納されている。
会場Xで講演会が開催されている期間、通訳システムは、以下のような処理を行う。
話者αが発話すると、当該話者αに対応する話者装置3から第一言語音声が話者識別子“α”と対に、サーバ装置1に送信される。
サーバ装置1において、第一言語音声取得部131が上記第一言語音声を話者識別子“α”と対に受信し、処理部13は、当該話者識別子“α”に対応する第一言語識別子“日”を話者情報群格納部111から取得する。そして、処理部13は、受信された第一言語音声を当該第一言語識別子“日”に対応付けて格納部11に蓄積する。
また、第一言語テキスト取得部133は、上記第一言語音声を音声認識し、第一言語テキストを取得する。処理部13は、取得された第一言語テキストを上記第一言語音声に対応付けて格納部11に蓄積する。
さらに、翻訳結果取得部135は、上記第一言語テキストを翻訳エンジンを用いてドイツ語に翻訳し、翻訳テキストおよび翻訳音声を含む翻訳結果を取得する。処理部13は、取得された翻訳結果を上記第一言語音声に対応付けて格納部11に蓄積する。
通訳者Aが話者αの話を英語に通訳すると、通訳者Aに対応する通訳者装置4から、第二言語音声が通訳者識別子“A”と対に送信される。
サーバ装置1において、第二言語音声取得部132が上記第二言語音声を通訳者識別子“A”と対に受信し、処理部13は、当該通訳者識別子“A”に対応する第一および第二の2つの言語識別子“日”および“英”を通訳者情報群格納部112から取得する。そして、処理部13は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“英”、および当該通訳者識別子“A”に対応付けて格納部11に蓄積する。他方、音声特徴量対応情報取得部136は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部13は、取得された音声特徴量対応情報を、当該第一言語識別子“日”および当該第二言語識別子“英”の組である言語情報“日英”に対応付けて格納部11に蓄積する。
通訳者Bが話者αの話を中国語に通訳すると、通訳者Bに対応する通訳者装置4から、第二言語音声が通訳者識別子“B”と対に送信される。
サーバ装置1において、第二言語音声取得部132が上記第二言語音声を通訳者識別子“B”と対に受信し、処理部13は、当該通訳者識別子“B”に対応する第一および第二の2つの言語識別子“日”および“中”を通訳者情報群格納部112から取得する。そして、処理部13は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“中”、および当該通訳者識別子“B”に対応付けて格納部11に蓄積する。他方、音声特徴量対応情報取得部136は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部13は、取得された音声特徴量対応情報を言語情報“日中”に対応付けて格納部11に蓄積する。
通訳者Cが話者αの話をフランス語に通訳すると、通訳者Cに対応する通訳者装置4から、第二言語音声が通訳者識別子“C”と対に送信される。
サーバ装置1において、第二言語音声取得部132が上記第二言語音声を通訳者識別子“C”と対に受信し、処理部13は、当該通訳者識別子“C”に対応する第一および第二の2つの言語識別子“日”および“仏”を通訳者情報群格納部112から取得する。そして、処理部13は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“仏”、および当該通訳者識別子“C”に対応付けて格納部11に蓄積する。他方、音声特徴量対応情報取得部136は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部13は、取得された音声特徴量対応情報を言語情報“日仏”に対応付けて格納部11に蓄積する。
現在時刻が配信タイミング情報の示すタイミングである場合、配信部14は、会場識別子Xに対応するユーザ情報群を用いて、第二言語音声、第二言語テキスト、および翻訳結果の配信を行う。
詳しくは、配信部14は、会場識別子Xに対応するユーザ情報1を用いて、主第二言語識別子“英”に対応する第二言語音声をユーザaの端末装置2に送信する。また、配信部14は、会場識別子Xに対応するユーザ情報2を用いて、主第二言語識別子“中”に対応する第二言語音声と、主第二言語識別子“中”に対応する第二言語テキストとを、ユーザbの端末装置2に送信する。また、配信部14は、会場識別子Xに対応するユーザ情報3を用いて、主第二言語識別子“独”に対応する翻訳テキストをユーザcの端末装置2に送信する。さらに、配信部14は、会場識別子Xに対応するユーザ情報4を用いて、主第二言語識別子“仏”に対応する第二言語音声と、主第二言語識別子“仏”に対応する第二言語テキストと、副第二言語識別子群“英”に対応する第二言語テキストとを、ユーザdの端末装置2に送信する。
第二言語音声の送信先となった端末装置2において、端末受信部24が第二言語音声を受信し、端末処理部25は、受信された第二言語音声を端末格納部21に蓄積する。再生部251は、端末格納部21に格納されている第二言語音声を再生する。
ただし、第二言語音声の再生が中断している場合、端末処理部25は、端末格納部21に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。そして、当該未再生部分のデータ量が閾値以上である場合、端末処理部25は、当該未再生部分のデータ量および当該未再生部分の遅延時間に応じた早送り速度を取得する。
例えば、通常再生の速度を10パケット/秒として、当該未再生部分のデータ量が50パケット、当該未再生部分の遅延時間が5秒である場合、端末処理部25は、早送り速度Vを“10+(50/5)=20パケット/秒”のように計算してもよい。再生部251は、こうして取得された早送り速度で、当該未再生部分の追っかけ再生を行う。
第二言語テキストまたは翻訳テキストのうち1以上のテキストの送信先となった端末装置2において、端末受信部24が当該1以上のテキストを受信し、再生部251は、受信された1以上のテキストを出力する。
サーバ装置1において、反応取得部137は、会場X内に設置されたカメラで撮影された画像、または会場X内に居る2以上の各ユーザa~dが保持している端末装置2の内蔵マイクで捉えられた当該ユーザの声のうち、1種類以上の情報を用いて、上記のようにして配信された第二言語音声に対する反応情報を取得する。処理部13は、取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部11に蓄積する。格納部11に格納されている2以上の反応情報は、例えば、評価取得部139が1以上の各通訳者の評価を行うのに用いられる。
また、格納されている2以上の反応情報は、処理部13が、格納部11に格納されている2以上の音声特徴量対応情報のうち、予め決められた条件を満たす音声特徴量対応情報の削除を行う際にも用いられる。なお、予め決められた条件については、前述したので繰り返さない。これによって、学習器構成部138が構成する学習器の精度を高めることができる。
格納部11には、構成タイミング情報が格納されており、学習器構成部138は、内蔵時計等から取得される現在時刻が、構成タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が構成タイミング情報の示すタイミングである場合、学習器構成部138は、2以上の各言語情報ごとに、当該言語情報に対応付けて格納部11に格納されている2以上の音声特徴量対応情報を用いて、学習器を構成する。なお、学習器については、前述したので繰り返さない。
こうして、2以上の各言語情報ごとに学習器を構成することで、例えば、ある言語情報に対応する通訳者が不在の場合でも、当該言語情報に対応する学習器を用いた通訳を行うことができる。
また、格納部11には、評価タイミング情報が格納されており、評価取得部139は、内蔵時計等から取得される現在時刻が、評価タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が評価タイミング情報の示すタイミングである場合、評価取得部139は、1以上の各通訳者識別子ごとに、当該通訳者識別子に対応する2以上の反応情報を用いて、評価情報を取得する。なお、評価情報については、前述したので繰り返さない。処理部13は、取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部112に蓄積する。
これによって、会場識別子“X”に対応する通訳者情報群を構成する通訳者情報1~4のうち、通訳者識別子“翻訳エンジン”を有する通訳者情報4を除く3つの通訳者情報1~3における評価値“Null”が、それぞれ“4”,“5”,“4”に更新される。
なお、会場Yで討論会が開催されている期間における通訳システムの処理も、上記と同様であり、説明を省略する。また、講演会および討論会が同時に開催されている期間における通訳システムの処理も、上記と同様であり、説明を省略する。
以上、本実施の形態によれば、通訳システムは、サーバ装置1と1または2以上の端末装置2とで実現される通訳システムであって、通訳者情報群格納部112には、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、第一の言語を識別する第一言語識別子と、第二の言語を識別する第二言語識別子と、通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納され、ユーザ情報群格納部113には、1以上の各端末装置2のユーザに関する情報であり、ユーザを識別するユーザ識別子と、ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納される。
サーバ装置1は、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得し、ユーザ情報群を用いて、1以上の各端末装置2に、取得した1以上の第二言語音声のうち、当該端末装置2に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信する。
1以上の各端末装置2は、サーバ装置1から配信される第二言語音声を受信し、受信した第二言語音声を再生する。
これにより、サーバ装置1と1以上の端末装置2とで実現され、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を1以上のユーザに配信する通訳システムであって、サーバ装置1が1以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。
その結果、1以上の各通訳者を活用した各種の通訳サービスの提供が可能になる。例えば、一人の話者が話す講演会において、1以上の各端末装置2に、当該端末装置2のユーザが聴く又は読む言語に対応する通訳者の音声を配信できるのみならず、2以上の話者が討論する国際会議において、2以上の各端末装置2に、当該端末装置2のユーザが聴く又は読む言語に対応する1以上の各通訳者の音声を配信できる。
また、本第二の発明の通訳システムは、第一の発明に対して、サーバ装置1は、取得した1以上の第二言語音声をそれぞれ音声認識したテキストのデータである1以上の第二言語テキストを取得し、取得した1以上の第二言語テキストを1以上の各端末装置2に配信し、端末装置2は、サーバ装置1から配信される1以上の第二言語テキストをも受信し、1以上の第二言語テキストをも出力する。
これにより、1以上の各通訳者の音声に加えて、当該音声を音声認識した1以上のテキストの配信も行える。
また、端末装置2は、第二言語音声の再生を中断後に再開する場合、第二言語音声の未再生部分を、早送りで追っかけ再生する。
これにより、1以上の各端末装置2において、通訳者の音声の再生が途切れても、ユーザは、その未再生部分を漏れなく、かつ遅れを取り戻すように聴くことができる。
また、端末装置2は、未再生部分の追っかけ再生を、未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に応じた速度の早送りで行う。これにより、的確な速度の早送りで、遅れを無理なく取り戻すことができる。
また、端末装置2は、未再生部分の追っかけ再生を、未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始することにより、再度の途切れを回避しつつ、遅れを取り戻すことができる。
また、サーバ装置1は、一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得し、第一言語テキストを翻訳エンジンを用いて第二の言語に翻訳した翻訳テキスト、または翻訳テキストを音声変換した翻訳音声のうち1以上のデータを含む1以上の翻訳結果を取得し、ユーザ情報群を用いて、1以上の各端末装置2に、取得した1以上の翻訳結果のうち、当該端末装置2に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信し、端末装置2は、サーバ装置1から配信される翻訳結果をも受信し、再生する。これにより、ユーザは、翻訳エンジンによる翻訳結果も利用できる。
なお、上記構成において、話者情報群格納部111に、話者を識別する話者識別子と、話者が話す第一の言語を識別する第一言語識別子とを有する1以上の話者情報が格納されており、サーバ装置1は、話者情報群を用いて、1以上の各話者に対応する第一言語テキストを取得してもよい。
また、サーバ装置1は、ユーザ情報群が有する1以上の第二言語識別子のうち、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しないことにより、必要な翻訳のみを効率よく行える。
また、端末装置2は、音声またはテキストのうち1以上のデータ形式を選択する操作を受け付け、当該端末装置2のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または第二言語音声を音声認識した第二言語テキストのうち、選択された1以上のデータ形式に対応する1以上のデータを再生する。これにより、ユーザは、自分の言語に対応する翻訳者の音声またはテキストのうち1以上を利用できる。
また、端末装置2は、第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。
これにより、ユーザは、自分の言語に対応する通訳者以外の通訳者のテキストも利用できる。
なお、上記構成において、端末装置2は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する2以上の第二言語識別子のうち、当該端末装置2のユーザに関するユーザ情報が有する第二言語識別子である主第二言語識別子とは異なる1以上の第二言語識別子の集合である副第二言語識別子群をさらに選択する操作をも受け付け可能であり、副第二言語識別子群が選択された場合に、サーバ装置1から副第二言語識別子群に対応する1以上の第二言語テキストをも受信し、副第二言語識別子群に対応する1以上の第二言語テキストを、主第二言語識別子に対応する第二言語テキストと共に出力してもよい。
また、通訳者情報群格納部112およびユーザ情報群格納部113には、会場を識別する会場識別子に対応付けて、1以上の通訳者情報群および1以上のユーザ情報群がそれぞれ格納されており、ユーザ情報は、会場識別子をさらに有し、第二言語音声取得部132および配信部14は、2以上の各会場識別子ごとに、1以上の第二言語音声の取得および配信を行う。これにより、2以上の各会場ごとに、1以上の第二言語音声の取得および配信を行える。
また、サーバ装置1は、一の話者が話した第一の言語の音声のデータである第一言語音声を取得し、取得した第一言語音声と、取得した1以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である1以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得し、1以上の各言語情報ごとに、音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。
従って、学習器による第一言語から1以上の第二言語への通訳も行える。
また、サーバ装置1は、再生部251が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、反応情報を用いて選別された、2以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。
こうして、ユーザの反応を利用して、音声特徴量対応情報の選別を行うことで、精度の高い学習器を構成できる。
また、サーバ装置1は、端末装置2が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、1以上の各通訳者ごとに、通訳者に対応する反応情報を用いて、通訳者の評価に関する評価情報を取得する。
これにより、ユーザの反応を利用して、1以上の各通訳者を評価できる。
なお、本実施の形態において、処理部13は、格納部11に格納されている2以上の反応情報を用いて、予め決められた条件を満たす音声特徴量対応情報が有るか否かを判別し(S211)、当該条件を満たす音声特徴量対応情報が有る場合に、当該音声特徴量対応情報を削除した(S212)が、これに代えて、反応取得部137が取得した反応情報が、例えば、“拍手の音または頷く動作のうち1以上が検出される”等の予め決められた条件を満たすか否かを判別し、当該条件を満たす反応情報に対応する第二言語音声のみを格納部11に蓄積し、当該条件を満たさない反応情報に対応する第二言語音声の蓄積を行わないようにしてもよい。
この場合、図2のフローチャートは、例えば、以下のように変更される。
2つのステップS205およびS206を削除し、ステップS204の後、ステップS201に戻るように変更する。また、ステップS211およびS212を、次のように変更する。
(ステップS211)処理部13は、ステップS209で取得された反応情報が予め決められた条件を満たすか否かを判断する。取得された反応情報が予め決められた条件を満たす場合はステップS212に進み、満たさない場合ステップS213に進む。
(ステップS212)音声特徴量対応情報取得部136は、ステップS201で取得された第一言語音声と、ステップS211で当該条件を満たすと判断された反応情報に対応する第二言語音声とを用いて、音声特徴量対応情報を取得する。
さらに、ステップS212の後に、削除した上記ステップS206に対応する新たなステップS213を追加する。
(ステップS213)処理部13は、ステップS112で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布してもよい。
なお、本実施の形態におけるサーバ装置1を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部112と、1または2以上の各端末装置2のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部113とを具備し、このプログラムは、前記コンピュータを、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部132と、前記ユーザ情報群を用いて、前記1以上の各端末装置2に、前記第二言語音声取得部132が取得した1以上の第二言語音声のうち、当該端末装置2に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部14として機能させるためのプログラムである。
また、本実施の形態における端末装置2を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、上記配信部14によって配信される第二言語音声を受信する端末受信部24と、前記端末受信部24が受信した第二言語音声を再生する再生部251として機能させるためのプログラムである。
(実施の形態2)
以下では、本実施の形態における通訳システムについて説明するが、実施の形態1と相違する事項のみ詳しく説明し、重複する事項の説明は省略または簡略化する。
図8は、本実施の形態における通訳システムのブロック図である。通訳システムは、サーバ装置10、1または2以上の端末装置2a、および1または2以上の第二端末装置4aを備える。なお、通訳システムは、通常、1または2以上の話者装置3も備える。
サーバ装置10は、例えば、ネットワークや通信回線を介して、1以上の端末装置2aおよび1以上の第二端末装置4a等の各々と通信可能に接続される。また、サーバ装置10には、会場を撮影するカメラが、ネットワーク等を介して、または有線または無線で直接、接続されている。なお、カメラの数は、1台でも、2台以上でもよい。以下では、カメラの数を、通常、1台として説明する。
なお、実施の形態1と同様、サーバ装置10は、例えば、通訳システムを運営する運営企業のサーバであり、端末装置2aは、例えば、通訳システムを利用するユーザの携帯端末である。第二端末装置4aは、例えば、通訳者の携帯端末であるが、据え置き型の端末でもよい。
図9は、サーバ装置10のブロック図である。サーバ装置10は、格納部101、受付部100、受信部102、処理部103、および送信部104を備える。格納部101は、話者情報群格納部111、通訳者情報群格納部112a、およびユーザ情報群格納部113を備える。つまり、格納部101は、実施の形態1の格納部11において、通訳者情報群格納部112を通訳者情報群格納部112aに置き換えたものである。
受付部100は、映像受付部1001を備える。受信部102は、チャット受信部1021、およびファイル受信部1022を備える。処理部103は、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、評価取得部139、画面情報構成部1031、および表出部1032を備える。送信部104は、配信部14a、および画面情報送信部1041を備える。
端末装置2aは、端末格納部21a、端末受付部22a、端末送信部23a、端末受信部24a、および端末処理部25aを備える。端末処理部25aは、再生部251を備える。
第二端末装置4aは、第二端末格納部41、第二端末受付部42、第二端末送信部43、第二端末受信部44、第二端末処理部45、および第二端末出力部46を備える。
サーバ装置10を構成する格納部101は、各種の情報を格納し得る。各種の情報とは、実施の形態1において格納部11に格納された各種の情報である。加えて、格納部101には、例えば、1または2以上のユーザインターフェイス部品、およびレイアウト情報なども格納される。なお、ユーザインターフェイス部品、およびレイアウト情報については後述する。
通訳者情報群格納部112aには、通訳者情報群が格納される。格納される通訳者情報群は、実施の形態1において通訳者情報群格納部112に格納された通訳者情報群と基本的には同様の情報である。ただし、本実施の形態における通訳者情報群を構成する1以上の各通訳者情報は、通訳者画像をさらに有する。ただし、全ての通訳者情報が通訳者画像を有していなくてもよい。
なお、通訳者画像は、例えば、後述する受信部102によって受信され、処理部103によって通訳者情報群格納部112aに蓄積される。ただし、通訳者画像は、通者情報群格納部112aに予め格納されていてもよい。
通訳者画像とは、通訳者の画像である。通訳者画像は、例えば、第二端末装置4aのカメラでリアルタイムに撮影されている画像(つまり動画像)が好適であるが、かかるカメラまたは他のカメラで予め撮影された画像でもよい。または、通訳者画像は、通訳者を描いたイラストの画像などでもよく、その種類は問わない。
また、通訳者情報は、例えば、状態情報も有する。状態情報とは、通訳者の状態に関する情報である。状態情報は、例えば、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する情報であってもよい。かかる状態情報は、具体的には、例えば、“通訳中”,“非通訳中”等であるが、その形式は問わない。
または、状態情報は、例えば、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないこと、の少なくとも3つの状態のうちのいずれかの状態を示してもよい。かかる状態情報は、具体的には、例えば、“通訳中”,“待機中”、“準備中”等であるが、その形式は問わない。
なお、状態情報は、例えば、後述する受信部102によって受信され、処理部103によって通訳者情報群格納部112aに蓄積される。
さらに、通訳者情報は、例えば、ボリューム情報も有していてもよい。ボリューム情報とは、通訳者が設定したボリュームを特定する情報である。通訳者は、2以上の各言語ごとにボリュームを設定可能であり、通訳者情報は、例えば、2以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有していてもよい。
なお、ボリューム情報等は、例えば、後述する受信部102によって受信され、処理部103によって通訳者情報群格納部112aに蓄積される。
受付部100は、各種の情報を受け付ける。各種の情報とは、例えば、後述する映像である。なお、受付部100は、例えば、前述したユーザインファーフェイス部品を介して、またはキーボードやマウス等の入力デバイスを介して、通訳者の指示も受け付けてもよい。なお、通訳者の指示については後述する。また、受け付けは、例えば、第二端末装置4aが受け付けた通訳者画像等の情報の受信でもよい。
また、受付部100は、例えば、ディスクや半導体メモリ等の記録媒体から読み出された情報を受け付けてもよく、その受け付けの態様は問わない。また、受け付けられる情報の種類も問わない。
映像受付部1001は、映像を受け付ける。映像とは、会場を撮影した映像である。映像は、通常、話者が話をしている会場内の様子を撮影した映像であり、例えば、会場のライブ映像といってもよい。
具体的には、例えば、会場に設置されたカメラが会場内の様子を撮影しており、受付部100は、撮影された映像を受け付ける。カメラは、例えば、有線または無線で直接、サーバ装置1に接続されていてもよいし、ネットワークや通信回線等を介してサーバ装置1に接続されてもよい。後者の場合、受付部100は、カメラから送信された情報を受信する。
受信部102は、各種の情報を受信する。各種の情報とは、例えば、後述する端末装置2aの端末受付部42が受け付けた各種の情報(例えば、チャットの情報、ファイル識別子を選択する操作など)である。加えて、受信部102は、例えば、後述する第二端末受付部42が受け付けた各種の情報(例えば、通訳者画像、状態情報、ユーザへのチャットの情報、チャット領域にファイル識別子を入力する操作など)も受信する。
チャット受信部1021は、チャットの情報を端末装置2aまたは第二端末装置4aから受信する。チャットとは、2以上の端末の間でネットワークや通信回線等を介して行われるコミュニケーションである。チャットは、例えば、一の第二端末装置4aと1または2以上の端末装置2a(つまり、一の通訳者と1または2以上のユーザ)の間のコミュニケーションでもよいし、2以上の第二端末装置4a(つまり、通訳者同士、または、通訳者と通訳者以外のスタッフ)の間のコミュニケーションでもよい。なお、通訳者以外のスタッフとは、例えば、通訳システムの管理者であるが、会場に居るスタッフなどでもよく、同時通訳サービスに携わる者であれば誰でもよい。
チャットの情報は、通常、チャットでやり取りされる文字列であるが、画像でもよい。文字列は、例えば、会話文であるが、ファイル識別子等でもよく、その種類は問わない。
端末装置2aからは、通常、言語識別子と対にチャットの情報が送信されるのに対し、第二端末装置4aからは、通常、チャットの情報のみが送信され、言語識別子は送信されない。従って、チャット受信部1021は、例えば、1以上の第二端末装置4aからチャットの情報を受信し、2以上の端末装置2aからは、言語識別子と対にチャットの情報を受信する。
ファイル受信部1022は、ファイルを端末装置2aまたは第二端末装置4aから受信する。ファイルとは、端末装置2aと第二端末装置4aの間で又は2以上の第二端末装置4aの間で転送されるテキストや画像等の情報である、といってもよい。ファイルは、通常、ファイル識別子を有する。ファイル識別子とは、ファイルを識別する情報である。ファイル識別子は、例えば、ファイル名等の文字列であるが、かかる文字列に対応付いたアイコン等の画像でもよく、その構造は問わない。
ファイル受信部1022は、通常、一の第二端末装置4aから、1以上の端末装置2aに転送し得るファイルを受信する。詳しくは、例えば、一の第二端末装置4aにおいて、表示されている画面に含まれる2以上の第一チャット領域のうち一の第一チャット領域にファイル識別子が入力されたことに応じて、当該ファイル識別子で識別されるファイルが、当該一の第一チャット領域に対応する言語識別子と対に、当該一の第二端末装置4aからサーバ装置10に送信される。ファイル受信部1022は、こうして一の第二端末装置4aから送信されたファイルを、言語識別子と対に受信する。
なお、ファイル受信部1022によって受信されたファイルは、例えば、後述する処理部103によって格納部101に蓄積され、後述する画面情報構成部1031が、画面のチャット領域に、当該ファイルのファイル識別子が表出した画面の画面情報を構成する。そして、例えば、当該画面情報を受信した端末装置2aまたは第二端末装置4aにおいて、チャット領域に表出されたファイル識別子が選択されると、後述する送信部104が、当該ファイル識別子で識別されるファイルを、当該端末装置2aまたは当該第二端末装置4aに送信してもよい。ただし、こうしたファイル転送の技術は、公知であり、詳しい説明を省略する。
処理部103は、各種の処理を行う。各種の処理とは、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、評価取得部139、画面情報構成部1031、および表出部1032などの処理である。
なお、処理部103は、例えば、受信部102を介して、2以上の各第二端末装置4aから、当該第二端末装置4aのカメラで撮影された通訳者画像を通訳者識別子と対に取得し、当該取得した通訳者画像を通訳者識別子に対応付けて通訳者情報群格納部112aに蓄積する処理も行う。ただし、通訳者画像が通訳者情報群格納部112aに予め格納されている場合、処理部103は、かかる処理を行わなくてもよい。
また、処理部103は、例えば、受信部102を介して、2以上の各第二端末装置4aから状態情報を通訳者識別子と対に取得し、当該取得した状態情報を通訳者識別子に対応付けて通訳者情報群格納部112aに蓄積する処理も行う。
さらに、処理部103は、例えば、受信部102を介して、2以上の各第二端末装置4aからボリューム情報等を通訳者識別子と対に取得し、当該取得したボリューム情報等を通訳者識別子に対応付けて通訳者情報群格納部112aに蓄積する処理も行う。
なお、処理部103は、例えば、チャット受信部1021が受信したチャットの情報を格納部101に蓄積する処理、およびファイル受信部1022が受信したファイルを格納部101に蓄積する処理なども行う。端末装置2aまたは第二端末装置4aから送信されるチャットの情報やファイル等の情報には、通常、端末識別子または通訳者識別子が対応付いており、処理部103は、受信されたチャットの情報やファイル等の情報を、通常、端末識別子または通訳者識別子に対応付けて格納部101に蓄積する。特に、チャットの情報には、言語識別子も対応付いており、処理部103は、受信されたチャットの情報を、端末識別子または通訳者識別子と言語識別子との組に対応付けて格納部101に蓄積してもよい。
画面情報構成部1031は、画面情報を構成する。画面情報構成部1031は、通常、2以上の通訳者ごとに、画面情報を構成する。ただし、画面情報構成部1031は、一の画面情報を構成し、2以上の第二端末装置4aにおいて、当該一の画面情報が、2以上の通訳者ごとにカスタマイズされてもよい。
画面情報とは、画面を構成するための情報である。画面情報は、例えば、HTML、XML等で実現されるが、その実現手段は問わない。本実施の形態でいう画面とは、第二端末装置4aの画面である。画面は、例えば、会場を撮影した映像と、2以上の通訳者画像を含む。画面情報は、かかる映像、および2以上の通訳者画像に加えて、例えば、1または2以上のユーザインターフェイス部品、および当該1以上のユーザインターフェイス部品の画面内での配置に関するレイアウト情報などを有する。なお、レイアウト情報は、例えば、画面の雛形と考えてもよい。
ユーザインターフェイス部品とは、ユーザインターフェイスを実現する部品である。ユーザインターフェイスとは、通訳者の指示を第二端末装置4aのコンピュータに伝達したり、第二端末装置4aのコンピュータからの出力を通訳者に伝達したりするためのソフトウェアである、といってもよい。
部品とは、第二端末装置4aの画面に表示される要素(以下、オブジェクトと記す場合がある)であり、通訳者の指示を受け付けたり、コンピュータからの出力を表示したりするためのオブジェクトの画像データである、といってもよい。部品は、例えば、通訳者の指示を受け付けるボタンや、1または2以上のメニュー項目を有するメニュー、コンピュータからの出力を表示する領域などであるが、画面に表示される要素であれば、その種類は問わない。
通訳者の指示とは、例えば、言語の指定、ミュート指示、ボリューム操作などであるが、通訳を開始する旨の指示、待機を開始する旨の指示等でもよく、その種類は問わない。言語の指定とは、第二端末装置4aの画面に表示されるテキストの言語を指定することである。言語の指定は、例えば、第一言語テキストまたは1以上の第二言語のうち一のテキストの指定である。
ミュート指示とは、通訳者の音声をミュートする指示である。ミュートすることは、通訳者の音声を消すこと又はその音量を0に近づけることである、といってもよい。ミュートは、例えば、第二端末装置4aのマイクをオフすることによって実現される。ただし、ミュートは、例えば、マイクからの出力のサーバ装置10への送信を停止することによっても実現可能であり、結果として、通訳者の音声を消すことができれば、その実現手法は問わない。
ボリューム操作とは、出力または入力される音声のボリュームを設定する操作である。出力される音声とは、第二端末装置4aのスピーカを介して出力される音声である。なお、スピーカは、ヘッドフォンでもよい。第二端末装置4aのスピーカを介して出力される音声は、通常、話者が発声した第一言語音声であるが、会場内の雑音なども含み得る。
入力される音声とは、第二端末装置4aのマイクを介して入力される音声である。第二端末装置4aのマイクを介して入力される音声は、通常、通訳者が発声する第二言語音声であるが、通訳者が発する咳の音などの雑音も含み得る。
ボリューム操作は、例えば、スピーカを介して出力される第一言語音声に対するボリューム操作(例えば、スピーカに接続されたアンプの増幅率の調整など)でもよいし、マイクを介して入力される第二言語音声に対するボリューム操作(例えば、マイクの感度の調整など)でもよい。
ユーザインターフェイス部品は、具体的には、例えば、ミュートボタン、ボリューム操作部品、テキスト表示領域等であるが、その種類は問わない。
ミュートボタンとは、通訳者の音声をミュートするボタンである。例えば、通訳者が、第二端末装置4aの画面に表示されたミュートボタンを操作すると、第二端末装置4aにおいて、第二端末受付部42が当該操作を受け付け、第二端末処理部45はマイクをオフする。これによって、マイクを介して入力される通訳者の音声はミュートされる。従って、通訳中の通訳者は、例えば、咳をする直前にミュートボタンを操作することで、咳の音の入力を回避できる。
なお、ミュートボタンは、例えば、ミュートを解除するボタンを兼ねていてもよい。つまり、ミュートボタンの操作によって通訳者の音声がミュートされている状態で、再びミュートボタンが操作されると、第二端末処理部45は、ミュートを解除することは好適である。ただし、ミュートを解除するボタンは、ミュートボタンとは別のボタンでもよい。
ボリューム操作部品とは、出力または入力される音声のボリューム操作のための部品である。ボリューム操作部品は、例えば、スライドバー、言語指定ボタン、音量インジケーター等を有するが、その構成は問わない。スライドバーは、バー、および当該バーに沿ってスライドするつまみ等で構成され、バーに対するつまみの位置によって、ボリュームの設定が行える部品である。
言語指定ボタンとは、第一言語または1以上の第二言語のうち一の言語を指定するためのボタンである。言語指定ボタンは、例えば、第一言語および1以上の第二言語に対応する3以上のボタンを含む。第一言語に対応するボタンは、第一言語を特定する文字列を含む。第一言語を特定する文字列とは、例えば、“英語”等の言語名でもよいし、“Floor”等の第一言語が話されている場所を示す文字列でもよいし、“original”等の話者が話す言語である旨の文字列でもよく、その形式は問わない。
言語指定ボタンは、通常、ボリューム操作部品によるボリューム操作の対象となる言語を指定する。ただし、言語指定ボタンは、テキスト表示領域に表示されるテキストの言語をも指定してもよい。つまり、言語指定ボタンに対する1回の操作によって、ボリューム操作の対象となる言語と、テキスト表示領域に表示されるテキストの言語とが共に変更されてもよい。
すなわち、例えば、受付部100が、第二端末装置4aの画面が有する言語指定ボタンに対する操作を受け付けたことに応じて、画面情報構成部1031は、ボリューム操作部品によるボリューム操作の対象となる言語と、テキスト表示領域に表示されるテキストの言語とが共に変更された画面の画面情報を構成してもよい。
または、例えば、テキスト表示領域にも言語指定ボタンが設けられており、受付部100が、ボリューム操作部品を構成する言語指定ボタン、またはテキスト表示領域に設けられた言語指定ボタンのいずれかの言語指定ボタンによって一の言語を指定する操作を受け付けると、画面情報構成部1031は、ボリューム操作の対象となる言語、およびテキスト表示領域に表示されるテキストの言語が、当該指定された一の言語に変更された画面の画面情報を構成してもよい。
従って、例えば、通訳者が、第二端末装置4aの画面上の言語指定ボタンによって第一言語を指定した後、スライドバーを操作すると、第二端末装置4aのスピーカを介して出力される第一言語音声の音量が変更される。これにより、通訳者は、例えば、出力されている第一言語音声が聴き取り難い場合に、言語指定ボタンで第一言語を指定し、スライドバーを操作することで、第一言語音声の音量を大きくすることができる。
または、通訳者が、言語指定ボタンによって、例えば、1以上の第二言語のうち一の第二言語(通常、当該通訳者が話す第二言語)を指定した後、スライドバーを操作すると、第二端末装置4aのマイクを介して入力される当該一の第二言語音声の音量が変更される。従って、通訳中の通訳者は、例えば、後述する第一チャット領域に第二言語音声が聴き取り難い旨の文字列が表示された場合に、言語指定ボタンで当該通訳者が話している第二言語を指定し、スライドバーを操作することで、当該第二言語音声の音量を大きくすることができる。
また、上記のような言語指定ボタンの操作の受け付けに応じて、画面情報構成部1031は、例えば、後述するテキスト表示領域に表示されているテキストの言語も、指定された言語に切り替わった画面の画面情報を構成してもよい。それによって、通訳者は、指定した言語のテキストを容易に確認できる。
テキスト表示領域とは、画面内のテキストが表示される領域またはそれを規定する枠等の部品である。表示されるテキストは、通訳用または通訳結果のテキストである。通訳用のテキストは、通常、第一言語テキストであるが、例えば、第一言語テキスト中の指定された単語の意味を示す第二言語の文字列等でもよく、通訳に用いるテキストであれば何でもよい。なお、指定された単語とは、例えば、カーソルが当たった単語であるが、その指定方法は問わない。
通訳結果のテキストは、通常、第二言語テキストであるが、例えば、第二言語テキスト中の指定された単語に対応する第一言語の文字列(つまり、通訳された単語の原語表記)などでもよく、通訳の結果に関するテキストであれば何でもよい。
詳しくは、例えば、格納部101に、映像表示領域、通訳者画像表示領域、テキスト表示領域、2以上の第一チャット領域、第二チャット領域、および操作領域等のユーザインターフェイス部品群と、当該ユーザインターフェイス部品群に関するレイアウト情報とが格納されている。
映像表示領域とは、会場を撮影した映像が表示される領域である。通訳者画像表示領域とは、2以上の通訳者画像が表示される領域である。
操作領域とは、通訳者の操作を受け付ける1以上の操作対象の領域である。操作対象とは、例えば、ミュートボタン、およびボリューム操作部品などである。操作領域には、例えば、2つのミュートボタン、およびボリューム操作部品等が配置される。
なお、上記ユーザインターフェイス部品群のうち、2以上の第一チャット領域、テキスト表示領域、およびボリューム操作部品の各々には、通常、言語識別子が対応付いている。その他のユーザインターフェイス部品には、通常、言語識別子は対応付いていないが、対応付いていてもよい。また、言語識別子が対応付くことは、例えば、ユーザインターフェイス部品が、言語名等の言語識別子を有する場合も含む。
映像表示領域は、画面の上部に位置し、操作領域は、画面の下部に位置する。レイアウト情報には、例えば、映像表示領域を識別する部品識別子と映像表示領域の画面内における位置に関する位置情報との組である組情報1、および操作領域を識別する部品識別子と操作領域の画面内における位置に関する位置情報との組である組情報2が含まれており、画面情報構成部1031は、当該2つの組情報1および2を用いて、例えば、操作領域が画面の下部に位置し、映像表示領域が画面の上部に位置するような画面の画面情報を構成する。
また、2つのミュートボタンは、それぞれ画面の左下側、および画面の右下側に位置する。レイアウト情報には、一方のミュートボタンを識別する部品識別子と当該一方のミュートボタンの画面内における位置に関する位置情報との組である組情報3、および他方のミュートボタンを識別する部品識別子と当該他方にミュートボタンの画面内における位置に関する位置情報との組である組情報4が含まれており、画面情報構成部1031は、例えば、当該2つの位置情報1および2を用いて、2つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するような画面の画面情報を構成する。
さらに、画面情報構成部1031は、例えば、言語識別子に対応する2種類以上のユーザインターフェイス部品を有する画面情報を構成してもよい。すなわち、画面情報構成部1031は、例えば、格納部101に格納されている2以上のインターフェイス部品のうち2以上のインターフェイス部品と、格納部101に格納されているレイアウト情報とを用いて、2以上のインターフェイス部品がレイアウト情報で特定される位置に配置された初期の画面を構成する。
そして、画面情報構成部1031は、かかる初期画面が有する1以上のインターフェイス部品のうち、テキスト表示領域に、第一言語テキスト取得部133が取得した第一言語テキストを表示し、また、言語識別子が対応付いた2以上の各第一チャット領域には、チャット受信部1021が2以上の端末装置2aから言語識別子と対に受信したチャットの情報を表示し、さらに、第二チャット領域には、チャット受信部1021が1以上の第二端末装置4aから受信したチャットの情報を表示する。これにより、上述したような画面が構成される。
ただし、画面情報は、画面を構成するための映像、2以上の通訳者画像、1以上のインターフェイス部品、およびレイアウト情報等の集合でもよい。すなわち、画面情報構成部1031は、例えば、映像受付部1001が受け付けた映像、通訳者情報群格納部112aに格納されている通訳者情報群を構成する2以上の通訳者情報が有する2以上の通訳者画像、格納部101に格納されている2以上のインターフェイス部品のうち1以上のインターフェイス部品、格納部101に格納されているレイアウト情報を含む画面情報を構成してもよい。この場合、第二端末装置4aにおいて、第二端末処理部45が画面情報を用いて画面を構成する。
また、画面情報構成部1031は、例えば、予め決められた条件を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成してもよい。
明瞭性が低い画像とは、細部の見分けが困難な画像であり、例えば、粗い画像といってもよい。明瞭性が低い画像は、通常、解像度が低い画像である。なお、解像度は、例えば、画素数と考えてもよい。ただし、画像が暗いと、同じ解像度でも細部の見分けは困難となることから、明瞭性が低い画像は、例えば、暗い画像であってもよい。または、明瞭性が低い画像とは、例えば、圧縮率が高い画像でもよく、細部の見分けが困難な画像であればその種類は問わない。
予め決められた条件は、例えば、“解像度が閾値以下”という条件である。または、予め決められた条件は、例えば、“輝度が閾値以下”、“圧縮率が閾値以上”などでもよく、明瞭性の低さに関する条件であれば何でもよい。
詳しくは、画面情報構成部1031は、格納されている2以上の通訳者画像に対し、明瞭性を低くする処理を施すことによって、予め決められた条件を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成する。明瞭性を低くする処理とは、通常、解像度を下げる処理(例えば、より少ない画素数へのリサイズ)であるが、例えば、輝度を下げる処理でもよいし、圧縮率を上げる処理でもよく、結果として明瞭性が低くなる処理であれば何でもよい。
すなわち、画面情報構成部1031は、例えば、格納されている2以上の通訳者画像に対し、解像度を下げる処理を施すことによって、予め決められた条件“解像度が閾値以下”を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成する。
または、画面情報構成部1031は、例えば、格納されている2以上の通訳者画像に対し、解像度を下げる処理、輝度を下げる処理、または圧縮率を上げる処理のうち1以上の処理を施すことによって、予め決められた3つの条件“解像度が閾値以下”,“輝度が閾値以下”,または“圧縮率が閾値以上”のうち1以上の条件を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成してもよい。
ただし、元々、予め決められた条件を満たすほど明瞭性が低い通訳者画像に対しては、明瞭性を低くする処理は不要である。すなわち、画面情報構成部1031は、格納されている2以上の各通訳者画像の明瞭性が予め決められた条件を満たすほど低いか否かを判断し、当該判断の結果が否定的である通訳者画像に対してのみ、明瞭性を低くする処理を施し、当該判断の結果が肯定的である通訳者画像に対しては、明瞭性を低くする処理を行わなくてもよい。
また、画面情報構成部1031は、例えば、通訳者情報群を構成する2以上の各通訳者情報が有する状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像受付部1001が受け付けた映像と2以上の通訳者画像を含む画面を構成してもよい。
視覚的に区別可能な態様とは、通訳中の通訳者の通訳者画像と、通訳を行っていない通訳者の通訳者画像との間に、視覚的な差異が存在することで、通訳者が当該2種類の画像を見分けることができる態様である。視覚的な差異とは、例えば、強調の有無である。強調とは、例えば、拡大であるが、枠の付加、変形、着色、背景の変更等でもよく、その種類は問わない。強調の有無とは、通常、通訳中の通訳者画像のみを強調し、通訳中でない通訳者画像を強調しないことであるが、通訳中でない通訳者画像のみを強調し、通訳中の通訳者画像を強調しないことでもよい。
または、視覚的な差異は、画質の相違でもよい。画質の相違とは、例えば、通訳中でない通訳者画像の画質のみを低下させ、通訳中の通訳者画像の画質を低下させないことであるが、通訳中の通訳者画像の画質のみを高くし、通訳中でない通訳者画像の画質を高くしないことでもよい。画質を低下させることは、例えば、グレーアウトすることであるが、輝度を下げること等でもよい。また、画質を高くすることは、例えば、輝度を上げることであるが、コントラストを高めること等でもよい。
詳しくは、画面情報構成部1031は、例えば、状態情報“通訳中”に対応する通訳者画像に対してのみ強調を付加する処理を施し、状態情報“非通訳中”に対応する通訳者画像に対しては強調を付加する処理を施さないことによって、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像と2以上の通訳者画像を含む画面を構成する。
または、画面情報構成部1031は、例えば、状態情報“非通訳中”に対応する通訳者画像に対してのみ画質を低下させる処理を施し、状態情報“通訳中”に対応する通訳者画像に対しては画質を低下させる処理を施さないことによって、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像と2以上の通訳者画像を含む画面を構成してもよい。
なお、上述したような、通訳中の通訳者と、通訳を行っていない通訳者のうち、後者の通訳者は、例えば、通訳を行う準備ができている通訳者(つまり、待機中の通訳者)と、通訳を行う準備ができていない通訳者(つまり、準備中の通訳者)とに区別されてもよい。
この場合、画面情報構成部1031は、例えば、状態情報“通訳中”に対応する通訳者画像に対して拡大する処理を施し、状態情報“待機中”に対応する通訳者画像に対して枠を付加する処理を施し、状態情報“待機中”に対応する通訳者画像に対しては拡大または枠の付加のいずれの処理も施さないことによって、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行う準備ができている通訳者の通訳者画像と、現在、通訳を行う準備ができていない通訳者の通訳者画像とを視覚的に区別可能な態様で、映像と2以上の通訳者画像を含む画面を構成してもよい。ただし、3つの状態を区別可能であれば、各通訳者画像に対する処理の有無や処理の種類は問わない。
また、画面情報構成部1031は、例えば、第一チャット領域、第二チャット領域のいずれか1以上のチャット領域を含む画面であり、チャット領域にチャット受信部1021が受信したチャットの情報が表出した画面の画面情報を構成してもよい。第一チャット領域とは、ユーザの端末装置2aとチャットを行う領域である。第二チャット領域とは、スタッフの第二端末装置4aとチャットを行う領域である。
詳しくは、画面情報構成部1031は、例えば、第一チャット領域、第二チャット領域のいずれか1以上のチャット領域を含む初期の画面を構成する。かかる初期画面のチャット領域に、後述する表出部1032が、チャット受信部1021が受信したチャットの情報を表出させることによって、チャット領域にチャット受信部1021が受信したチャットの情報が表出した画面の画面情報が構成される。
また、画面情報構成部1031は、例えば、後述する表出部1032が、画面のチャット領域に、ファイル受信部1022によって受信されたフィルが有するファイル識別子を表出させることによって、チャット領域にファイル識別子が表出した画面の画面情報を構成してもよい。
なお、ユーザとのチャットは、2以上の言語で行われてもよい。すなわち、画面情報構成部1031は、例えば、2以上の各言語識別子に対応するチャットの領域である2以上の第一チャット領域を有する画面の画面情報を構成してもよい。構成される画面情報は、例えば、2以上の第一チャット領域を有する画面、および2以上の対情報を有する。対情報とは、第一チャット領域を識別する部品識別子と言語識別子との対である。
詳しくは、例えば、格納部101に、2以上の第一チャット領域、当該2以上の第一チャット領域に関するレイアウト情報、および上記のような2以上の対情報等の情報が格納されており、画面情報構成部1031は、例えば、当該格納されている情報を用いて、言語識別子に対応付いた2以上の第一チャット領域を含む初期の画面を構成する。かかる初期画面の2以上の各チャット領域に、後述する表出部1032が、チャット受信部1021が言語識別子と対に受信したチャットの情報を表させることによって、画面情報構成部1031は、チャット領域にチャット受信部1021が受信したチャットの情報が表出した画面の画面情報を構成できる。
同様に、画面情報構成部1031は、例えば、テキスト表示領域を含む初期の画面を構成し、かかる初期画面のテキスト表示領域に、第一言語テキスト取得部133が取得した第一言語テキストを表示することによって、第一言語テキストを含む画面の画面情報を構成してもよい。
また、例えば、上記のようにして構成された第一言語テキストを含む画面が表示されている状態で、受付部100が、言語指定ボタンによって1または2以上の第二言語のうち一の第二言語を指定する操作を受け付けたことに応じて、画面情報構成部1031は、テキスト表示領域表示されているテキストの言語が第一言語から指定された一の第二言語に変更された画面の画面情報を構成してもよい。
さらに、画面情報構成部1031は、言語識別子に対応する2種類以上のユーザインターフェイス部品を有する画面情報を構成し、第二端末装置4aから、2種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、2種類以上のすべてのユーザインターフェイス部品のカレントの言語を指示に対応する言語識別子で識別される言語とするように、画面情報を構成してもよい。
2種類以上のユーザインターフェイス部品とは、ボリューム操作のためのユーザインターフェイス部品(例えば、前述したボリューム操作部品など)と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品(例えば、前述したテキスト表示領域など)である。テキスト表示領域およびボリューム操作部品には、例えば、“英語”や“日本語”等の言語識別子が各々記された2以上のタブが設けられていてもよい。
カレントの言語とは、現時点で選択されている言語である。カレントの言語は、例えば、テキスト表示領域に現在表示されているテキストの言語であってもよいし、ボリューム操作部品の操作対象となっている音声の言語であってもよい。または、カレントの言語は、例えば、一のユーザインターフェイス部品に設けられている2以上のタブのうち、選択されているタブに記された言語である、と考えてもよい。選択されているタブとは、例えば、最前面にあるタブでもよいし、着色されたタブでもよく、その態様は問わない。
例えば、ボリューム操作部品側の2以上のタブのうち、言語識別子“英語”が記された方のタブが通訳者によって選択されると、テキスト表示領域側の2以上のタブのうち、言語識別子“英語”が記された方のタブも自動的に選択される。
これにより、第二端末装置4aにおいて、2種類以上のいずれかのユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、2種類以上の全てのユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。
表出部1032は、チャット受信部1021が受信したチャットの情報を、画面が有するチャット領域に表出させる。なお、表出は、追記でもよい。
表出部1032は、例えば、チャット受信部1021が言語識別子と対に受信したチャットの情報を、画面が有する2以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させる。または、表出部1032は、チャット受信部1021が、言語識別子と対にではなく単独で受信したチャットの情報を、画面が有する第二チャット領域に表出してもよい。
また、表出部1032は、例えば、ファイル受信部1022が受信したファイルが有するファイル識別子をも、画面が有するチャット領域に表出してもよい。
表出部1032は、例えば、ファイル受信部1022が言語識別子と対に受信したファイルのファイル識別子を、画面が有する2以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させる。または、表出部1032は、ファイル受信部1022が、言語識別子と対にではなく単独で受信したファイルのファイル識別子を、画面が有する第二チャット領域に表出してもよい。
詳しくは、例えば、格納部101に、言語識別子と端末識別子との対の集合である対応情報と、チャット領域情報とが格納されている。言語識別子とは、ユーザの言語を識別する情報である。ユーザの言語は、例えば、日本語、英語等、何語でもよい。言語識別子は、例えば、“日本語”や“英語”等の言語名であるが、IDなどでもよく、言語を識別できる情報であれば何でもよい。
端末識別子とは、ユーザの端末装置2aを識別する情報である。端末識別子は、例えば、MACアドレス、IPアドレス等であるが、IDでもよいし、前述したユーザ識別子でもよく、ユーザの端末装置2aを識別し得る情報であれば何でもよい。
チャット領域情報とは、画面内のチャット領域を特定する情報である。チャット領域情報は、例えば、IDであるが、座標でもよく、チャット領域を特定し得る情報であれば何でもよい。座標は、例えば、矩形のチャット領域の始点および終点を特定する“(x1,y1),(x2,y2)”等であるが、その形式は問わない。
表出部1032は、例えば、格納されている対応情報を用いて、チャット受信部1021が言語識別子と対に受信したチャットの情報を、画面が有する2以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させることができる。また、表出部1032は、格納されている対応情報を用いて、ファイル受信部1022が言語識別子と対に受信したファイルのファイル識別子を、画面が有する2以上の第一チャット領域のうち、当該言語識別子に対応する第一チャット領域に表出させることもできる。
また、表出部1032は、例えば、言語識別子と対に受信されたチャットの情報、または言語識別子と対に受信されたファイルが有するファイル識別子を、当該言語識別子に対応する1以上の端末装置2aの画面にも表出させる。
送信部104は、各種の情報を送信する。各種の情報とは、例えば、第一言語音声、第一言語テキスト、第二言語音声、第二言語テキスト、翻訳結果、画面情報、ユーザ画面情報、およびファイルなどである。
なお、送信部104は、例えば、一の端末装置2aにおいて、画面に表出されたファイル識別子が選択されたことに応じて、当該ファイル識別子で識別されるファイルを格納部101から取得し、当該一の端末装置2aに送信してもよい。また、送信部104は、例えば、ファイルを送信した一の第二端末装置4aとは別の一の第二端末装置4aにおいて、画面に表出されたファイル識別子が選択されたことに応じて、当該ファイルを当該別の一の第二端末装置4aに送信してもよい。
配信部14aは、実施の形態1において配信部14が行ったものと同様の動作を行う。すなわち、配信部14aは、ユーザ情報群格納部113に格納されているユーザ情報群を用いて、1以上の端末装置2aに、第二言語音声取得部132が取得した第二言語音声等を配信する。
また、配信部14aは、通訳者情報群格納部112aに格納されている通訳者情報群を用いて、1以上の第二端末装置4aに、第一言語音声取得部131が取得した第一言語音声を配信する動作も行う。すなわち、配信部14aは、例えば、格納されている格納されている通訳者情報群が有する1または2以上の通訳者識別子に対応する1または2以上の第二端末装置4aに、第一言語音声取得部131が取得した一言語音声を配信する。
画面情報送信部1041は、画面情報構成部1031が構成した画面情報を、通訳者情報群格納部112aに格納されている通訳者情報群を用いて、1または2以上の第二端末装置4aに送信する。
すなわち、画面情報送信部1041は、例えば、格納されている通訳者情報群が有する1または2以上の通訳者識別子に対応する1または2以上の第二端末装置4aに、画面情報構成部1031が構成した画面情報を送信する。
ユーザの端末装置である端末装置2aを構成する端末格納部21aには、例えば、実施の形態1において端末格納部21に格納されたものと同様の情報(例えば、ユーザ識別子、主第二言語識別子等を含むユーザ情報)が格納される。なお、主第二言語識別子は、本実施の形態では、通常、単に言語識別子と称する。
端末受付部22aは、例えば、実施の形態1において端末受付部22が受け付けたものと同様の指示や情報を受け付ける。また、端末受付部22aは、例えば、当該ユーザから通訳者へのチャットの情報(例えば、“もう少し大きな声で話して頂けますか”等)や、ファイル識別子を選択する操作も受け付ける。
端末送信部23aは、例えば、実施の形態1において端末送信部23が送信したものと同様の指示や情報を送信する。また、端末受信部24aは、例えば、端末受付部22aが受け付けたチャットの情報や、ファイル識別子が選択された旨の情報も送信する。
端末受信部24aは、チャットの情報等の情報を、端末格納部21aに格納されている端末識別子と対に送信する。また、端末受信部24aは、チャットの情報に言語識別子を対応付けて送信する。
端末受信部24aは、例えば、実施の形態1において端末受信部24が受信したものと同様の情報を受信する。また、端末受信部24aは、例えば、通訳者から当該ユーザへのチャットの情報やファイル識別子も受信する。チャットの情報に、言語識別子を対応付けて送信する。
端末処理部25aは、例えば、実施の形態1において端末処理部25が行ったものと同様の処理を行う。また、端末処理部25aは、端末受信部24aが受信したチャットの情報やファイル識別子を画面に表示する処理も行う。
通訳者の端末装置である第二端末装置4aを構成する第二端末格納部41には、例えば、第二端末識別子などが格納される。第二端末識別子とは、第二端末装置4aを識別する情報である。第二端末識別子は、例えば、MACアドレス、IPアドレス、ID等であるが、通訳者識別子でもよい。なお、本実施の形態では、第二端末格納部41には、通訳者識別子が格納されているものとする。
第二端末受付部42は、各種の情報を受け付ける。各種の情報とは、例えば、通訳者画像、ミュート指示、ボリューム操作、当該通訳者からユーザへのチャットの情報、当該通訳者から他の通訳者ユーザへのチャットの情報、チャット領域にファイル識別子を入力する操作などである。また、第二端末受付部42は、例えば、通訳を開始する旨の指示、待機を開始する旨の指示も受け付けてもよい。
第二端末送信部43は、第二端末受付部42が受け付けた情報を、第二端末格納部41に格納されている第二端末識別子と対にサーバ装置10に送信する。なお、送信される情報は、受け付けられた情報と同じでなくてもよい。例えば、第二端末受付部42が通訳を開始する旨の指示を受け付けた場合に、処理部103が“通訳中”を示す状態情報を生成し、第二端末送信部43は、当該生成された状態情報を送信してもよい。
第二端末受信部44は、サーバ装置10から各種の情報を受信する。各種の情報とは、例えば、第一言語音声、画面情報、ユーザから当該通訳者へのチャットの情報、他の通訳者から当該通訳者へのチャットの情報(例えば、“資料を送って頂いても良いですか”等)、ファイル識別子などである。なお、チャットの情報、ファイル識別子のうち1以上は、画面情報の一部であってもよい。
第二端末処理部45は、各種の処理を行う。各種の処理とは、例えば、受け付けられた情報の形式を、送信される情報の形式に変換する処理などである。
なお、第二端末処理部45は、例えば、当該第二端末装置4aのカメラで撮影した通訳者画像を、第二端末格納部41に格納されている通訳者識別子と対に、第二端末送信部43を介してサーバ装置10に送信する処理も行う。
また、第二端末処理部45は、例えば、第二端末受付部42が通訳を開始する旨の指示または待機を開始する旨の指示を受け付けたことに応じて、“通訳中”または“待機中”を示す状態情報を取得し、当該取得した状態情報を通訳者識別子と対に、第二端末送信部43を介してサーバ装置10に送信する処理も行ってもよい。なお、例えば、当該第二端末装置4aの電源オンに応じて、“準備中”を示す状態情報が取得され、通訳者識別子と対にサーバ装置10に送信されてもよい。
さらに、第二端末処理部45は、例えば、言語指定ボタンとボリューム操作部品を介して、言語識別子とボリューム情報の対である1または2以上の言語ボリューム情報を受け付け、当該受け付けた1以上の言語ボリューム情報を、受信部102を介してサーバ装置10に送信する処理も行う。
第二端末出力部46は、各種の情報を出力する。各種の情報とは、例えば、第二端末受信部44が受信した情報である。
第二端末出力部46は、例えば、受信された第一言語音声をスピーカを介して出力し、受信された画面情報をディスプレイを介して出力する。これにより、第二端末受付部42において、スピーカから話者の音声が出力され、ディスプレイには、前述したような画面が表示される。
なお、受信された画面情報が、例えば、2以上のユーザインターフェイス部品、およびレイアウト情報等を含む場合、第二端末出力部46は、2以上のユーザインターフェイス部品を、画面内のレイアウト情報が示す位置に配置することによって画面を構成し、当該画面をディスプレイに表示してもよい。
格納部101、話者情報群格納部111、通訳者情報群格納部112a、ユーザ情報群格納部113、端末格納部21a、および第二端末格納部41は、例えば、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。格納部101等に情報が記憶される過程は問わない。
受付部100、映像受付部1001、端末受付部22a、および第二端末受付部42は、入力デバイスを含むと考えても、含まないと考えてもよい。受付部100等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
受信部102、チャット受信部1021、およびファイル受信部1022、端末受信部24a、および第二端末受信部44は、通常、有線または無線の通信手段で実現されるが、放送を受信する手段で実現されてもよい。
処理部103、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、評価取得部139、画面情報構成部1031、表出部1032、端末処理部25a、再生部251、および第二端末処理部45は、通常、MPUやメモリ等から実現され得る。処理部103等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。ただし、処理手順は、ハードウェアで実現してもよい。
送信部104、配信部14a、画面情報送信部1041、端末送信部23a、および第二端末送信部43は、通常、有線または無線の通信手段で実現されるが、放送手段で実現されてもよい。
第二端末出力部46は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。第二端末出力部46は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。
次に、本実施の形態における通訳システムの動作について図10および図11のフローチャートを用いて説明する。
図10は、サーバ装置10の動作例を説明するフローチャートである。なお、このフローチャートの処理は、端末装置2aからのチャットの情報には言語識別子が対応付いており、第二端末装置4aからのチャットの情報には言語識別子が対応付いていないことを前提としている。
(ステップS1001)処理部103は、映像受付部1001等が映像および2以上の通訳者画像を受信したか否かを判別する。映像受付部1001等が映像および2以上の通訳者画像を受信したと判別される場合はステップS1002に進み、受信していないと判別される場合はステップS1011に進む。
(ステップS1002)処理部103は、変数iに初期値“1”をセットする。変数iとは、2以上の第二端末装置4aのうち未選択の第二端末装置4aを順番に選択するための変数である。変数iは、例えば、通訳者情報群格納部112aに格納されている2以上の通訳者情報を順番に選択する変数である、と考えてもよい。
(ステップS1003)画面情報構成部1031は、通訳者情報群格納部112aに格納されている2以上の通訳者情報を参照して、i番目の第二端末装置4aがあるか否かを判別する。i番目の第二端末装置4aがあると判別された場合はステップS1004に進み、ないと判別された場合はステップS1001に戻る。
(ステップS1004)画面情報構成部1031は、格納部101に格納されているユーザインターフェイス部品群とそれに関するレイアウト情報、および格納部101に格納されているチャットの情報等とを用いて、ステップS1001で受信された映像および2以上の通訳者画像と、2以上の第一チャット領域および第二チャット領域ならびに各チャット領域に表出されたチャットの情報等とを含む画面の画面情報を構成する。
(ステップS1005)処理部103は、チャット受信部1021がチャットの情報を受信したか否かを判別する。チャット受信部1021がチャットの情報を受信したと判別される場合はステップS1006に進み、受信していないと判別される場合はステップS1009に進む。なお、図示は省略しているが、処理部103は、受信されたチャットの情報を格納部101に蓄積する処理を行っている。
(ステップS1006)処理部103は、ステップS1005で受信されたチャットの情報に言語識別子が対応付いているか否かを判別する。受信されたチャットの情報に言語識別子が対応付いていると判別される場合はステップS1007に進み、対応付いていないと判別される場合はステップS1008に進む。
(ステップS1007)表出部1032は、ステップS1005で受信されたチャットの情報に対応付いている言語識別子に対応する第一チャット領域に、ステップS1005で受信されたチャットの情報を追記する。
(ステップS1008)表出部1032は、ステップS1005で受信されたチャットの情報を第二チャット領域に追記する。
(ステップS1009)画面情報送信部1041は、ステップS1004で構成された画面情報、または、当該画面情報の第一または第二のチャット領域にステップS1007またはステップS1008でチャットの情報が表出された画面情報を、i番目の第二端末装置4aに送信する。
(ステップS1010)処理部103は、変数iをインクリメントする。その後、ステップS1003に戻る。
(ステップS1011)処理部103は、受信部102が通訳者識別子と対に状態情報または言語ボリューム情報等を受信したか否かを判別する。受信部102が通訳者識別子と対に状態情報または言語ボリューム情報等を受信したと判別された場合はステップS1012に進み、受信していないと判別された場合はステップS1001に戻る。
(ステップS1012)処理部103は、ステップS1011で受信された状態情報または言語ボリューム情報等を、当該状態情報等と対に受信された通訳者識別子に対応する通訳者情報にセットする。これによって、当該通訳者情報が有していたカレントの状態情報または言語ボリューム情報等は、ステップS1011で受信された新たな状態情報または言語ボリューム情報等に更新される。その後、ステップS1003に戻る。
なお、図10のフローチャートにおいて、画面情報構成部1031は、ステップS1004で画面情報を構成する際に、通訳者情報群格納部112aに格納されている通訳者情報群を用いて、例えば、通訳中の通訳者の通訳者画像と、待機中の通訳者の通訳者画像と、準備中の通訳者の通訳者画像とが視覚的に区別可能な態様となるように、画面情報を構成してもよい。
また、図10のフローチャートにおいて、画面情報構成部1031は、ステップS1004で画面情報を構成する際に、通訳者情報群格納部112aに格納されている通訳者情報群を構成する以上の通訳者情報のうち、i番目の第二端末装置4aに対応する通訳者情報が有する1以上の言語ボリューム情報(図12参照:後述)を用いて、例えば、ボリューム操作部品を、i番目の第二端末装置4aに対応する通訳者が設定した言語ボリューム情報に応じた態様となるように、画面情報を構成してもよい。
従って、ステップ1012において、状態情報または言語ボリューム情報等が更新された結果、画面内の2以上の通訳者画像またはボリューム操作部品等のユーザインターフェイス部品の態様が視覚的に変化する。
さらに、図10のフローチャートにおいて、サーバ装置10の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
図11は、第二端末装置4aの動作例を説明するフローチャートである。
(ステップS1101)第二端末処理部45は、第二端末受信部44が画面情報を受信したか否かを判別する。第二端末受信部44が画面情報を受信したと判別された場合はステップS1102に進み、受信していないと判別された場合はステップS1104に進む。
(ステップS1102)第二端末処理部45は、ステップS1101で受信された画面情報を用いて画面を構成する。
(ステップS1103)第二端末出力部46は、ステップS1101で構成された画面を出力する。その後、ステップS1101に戻る。
(ステップS1104)第二端末処理部45は、第二端末受付部42が指示を受け付けたか否かを判別する。なお、指示は、例えば、言語の指定、ミュート指示、ボリューム操作等であるが、通訳を開始する旨の指示、待機を開始する旨の指示でもよい。第二端末受信部44が画面情報を受信したと判別された場合はステップS1102に進み、受信していないと判別された場合はステップS1104に進む。
(ステップS1105)第二端末処理部45は、ステップS1104で受信された指示に応じた処理を実行する。なお、指示に応じた処理は、例えば、言語の指定に応じてカレントの言語を切り替える処理、ミュート指示に応じて通訳者の音声をミュートする処理、ボリューム操作に応じてボリュームを設定する処理などである。または、指示に応じた処理は、例えば、通訳を開始する旨の指示に応じて、“待機中”または“準備中”を示す状態情報を“通訳中”に変更する処理、待機を開始する旨の指示に応じて、“準備中”または“通訳中”を示す状態情報を“待機中”に変更する処理などでもよい。
(ステップS1106)第二端末送信部43は、ステップS1104で受信された指示に対応する情報をサーバ装置10に送信する。なお、指示に対応する情報は、例えば、指定された言語を識別する言語識別子、ミュート中である旨の情報、言語ボリューム情報等であるが、“通訳中”、“待機中”、または“準備中”を示す状態情報でもよく、その種類は問わない。その後、ステップS1101に戻る。
ただし、ステップS1106での情報の送信は、必須ではない。
また、図11のフローチャートにおいて、第二端末装置4aの電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
以下、本実施の形態における通訳システムの具体的な動作例について説明する。本例における通訳システムは、サーバ装置10、2以上の端末装置2a、話者装置3、および2以上の第二端末装置4aを備える。サーバ装置10は、ネットワーク等を介して、2以上の端末装置2a、話者装置3、および2以上の第二端末装置4aの各々と通信可能である。また、サーバ装置10には、会場を撮影するカメラが、ネットワーク等を介して、または有線または無線で直接、接続されている。
サーバ装置10の通訳者情報群格納部112aには、例えば、図12に示すような2以上の通訳者情報が格納され得る。通訳者情報は、例えば、通訳者識別子、通訳者画像、状態情報、および1または2以上の言語ボリューム情報などを有する。言語ボリューム情報は、言語識別子およびボリューム情報を有する。
なお、通訳者情報は、例えば、実施の形態1で説明した評価値なども有していてもよい。また、一の通訳者情報が1つの言語ボリューム情報のみを有する場合において、当該言語ボリューム情報を構成する言語識別子は、例えば、実施の形態1における第二言語識別子であってもよい。さらに、一の通訳者情報が2つの言語ボリューム情報を有する場合において、1つ目の言語ボリューム情報を構成する言語識別子は、例えば、実施の形態1における第二言語識別子であり、2つ目の言語ボリューム情報を構成する言語識別子は、例えば、実施の形態1における第一言語識別子であってもよい。
格納される通訳者情報には、ID(例えば、“1”,“2”等)が対応付いている。例えば、ID“1”に対応付いた通訳者情報(以下、通訳者情報1と記す場合がある)は、通訳者識別子“ITO”、通訳者画像“aa.mpg”、状態情報“通訳中”、および2つの言語ボリューム情報“(日本語,9)”および“(英語,0)”などを有する。また、ID“2”に対応付いた通訳者情報(通訳者情報2)は、通訳者識別子“Cathy”、通訳者画像“bb.mpg”、状態情報“待機中”、および2つの言語ボリューム情報“(英語本語,5)”および“(日本語,0)”などを有する。同様に、通訳者情報3は、通訳者識別子“Brenda”、通訳者画像“cc.mpg”、状態情報“準備中”、および言語ボリューム情報“(英語本語,5)”などを有する。
ただし、上記3つの通訳者情報1~3において、状態情報は、当初、いずれも“準備中”である。また、通訳者情報1が有する2つの言語ボリューム情報は、当初、“(日本語,5)”および“(英語,0)”である。
格納部101には、映像表示領域、通訳者画像表示領域、テキスト表示領域、2つの第一チャット領域、2つの第二チャット領域、および操作領域等のユーザインターフェイス部品群と、当該ユーザインターフェイス部品群に関するレイアウト情報とが格納されている。
なお、2つの第二チャット領域のうち、1つ目の第チャット領域は、通訳中の通訳者と待機中の通訳者とのチャット用であり、以下では、この1つ目のチャット領域を、単に「第二チャット領域」と称する。
2以上の端末装置2aのうち、1以上では、第二言語音声が選択されており、第二端末装置4aとの間で第二言語のチャットも行える。また、2以上の端末装置2aのうち、他の1以上では、第一言語音声が選択されており、第二端末装置4aとの間で第一言語のチャットも行える。
2以上の第二端末装置4aのうち、1つ(以下、第二端末装置4aX)は、一人目の通訳者“ITO”の端末装置であり、他の1つ(第二端末装置4aY)は、二人目の通訳者“Cathy”の端末装置であり、その他の1つ(第二端末装置4aZ)は、三人目の通訳者“Brenda”の端末装置である。
第二端末装置4aXの第二端末格納部41には、通訳者識別子“ITO”が格納され、第二端末装置4aYの第二端末格納部41には、通訳者識別子“Cathy”が格納され、第二端末装置4aZの第二端末格納部41には、通訳者識別子“Brenda”が格納されている。
いま、最初に通訳を行う“ITO”さんが、第二端末装置4aXが有するタッチパネル等の入力デバイスを介して、通訳を開始する旨の指示を入力したとする。第二端末装置4aXにおいて、第二端末受信部44が上記指示を受け付け、第二端末処理部45は、“通訳中”を示す状態情報を生成し、第二端末送信部43は、生成された状態情報を通訳者識別子“ITO”と対にサーバ装置10に送信する。
サーバ装置10において、受信部102が上記状態情報を通訳者識別子“ITO”と対に受信し、処理部103は、受信された状態情報を、通訳者識別子“ITO”に対応する状態情報1にセットする。これによって、通訳者情報1が有する状態情報は、“準備中”から“通訳中”に更新される。
また、2番目に通訳を行う“Cathy”さんが、第二端末装置4aYの入力デバイスを介して、待機を開始する旨の指示を入力したとする。第二端末装置4aYにおいて、第二端末受信部44が上記指示を受け付け、第二端末処理部45は、“待機中”を示す状態情報を生成し、第二端末送信部43は、生成された状態情報を通訳者識別子“Cathy”と対にサーバ装置10に送信する。
サーバ装置10において、受信部102が上記状態情報を通訳者識別子“Cathy”と対に受信し、処理部103は、受信された状態情報を、通訳者識別子“Cathy”に対応する状態情報2にセットする。これによって、通訳者情報2が有する状態情報は、“準備中”から“待機中”に更新される。
その後、カメラの電源がオンされ、映像受付部1001が、カメラから会場を撮影した映像を受け付けると、画面情報構成部1031は、格納部101に格納されているユーザインターフェイス部品群とレイアウト情報を用いて、ユーザインターフェイス部品群がレイアウト情報の示す位置に配置された初期画面の画面情報を構成する。
次に、画面情報構成部1031は、構成した初期画面が有する映像表示領域に、受け付けられた映像を表示する。また、画面情報構成部1031は、通訳者情報群格納部112aに格納されている2以上の通訳者情報1~3等を用いて、2以上の通訳者画像“aa.jpg”,“bb.jpg”,および“cc.jpg”等を取得し、当該取得した2以上の通訳者画像を、当該初期画面が有する通訳者画像表示領域に表示する。これにより、会場を撮影した映像が映像表示領域に表示され、2以上の通訳者画像が通訳者領域に表示された画面の画面情報が構成される。
その際、画面情報構成部1031は、格納されている通訳者情報1~3を参照して、通訳者識別子“ITO”に対応する状態情報が“通訳中”であり、通訳者識別子“Cathy”に対応する状態情報が“待機中”であり、通訳者識別子“Brenda”に対応する状態情報が“準備中”であることから、通訳者識別子“ITO”に対応する通訳者画像“aa.mpg”が拡大され、通訳者識別子“ITO”に対応する通訳者画像“bb.mpg”に枠が付された画面情報を構成する。これにより、現在、通訳を行っている通訳者と、現在、通訳を行っていない通訳者とを、視覚的に区別可能な画面の画面構成情報が構成される。また、現在、通訳を行っていない通訳者のうち、通訳を行う準備ができている通訳者と、通訳を行う準備が未だできていない通訳者とを、視覚的に区別可能な画面の画面構成情報が構成される。
会場内において、話者は、英語でスピーチし、会場の内外に居る2以上の通訳者が、英語で話された内容を日本語に通訳する。つまり、本例において、第一言語は英語であり、第二言語は日本語である。また、本例において、2以上の通訳者は、例えば、15分交代で、順番に、英語から日本語への通訳を担当する。
話者が話を開始すると、発話された音声は、話者装置3のマイクで捉えられ、マイクから出力される音声信号がサーバ装置10に送信される。サーバ装置10において、受信部102が上記音声信号を受信し、第一言語音声取得部131は、受信された音声信号から第一言語音声を取得する。配信部14aは、取得された第一言語音声を、2以上の第二端末装置4aに配信する。
第二端末装置4aXにおいて、第二端末受信部44が上記第一言語音声を受信し、第二端末出力部46は、受信された第一言語音声を出力する。“ITO”さんは、出力された第一言語音声を聴き取り、第二言語に通訳する。第二端末受付部42は、通訳者“ITO”による第二言語音声を受け付け、第二端末送信部43は、受け付けられた第二言語音声をサーバ装置10に送信する。
サーバ装置10において、第二言語音声取得部132が、受信部102を介して上記第二言語音声を受信し、配信部14aは、当該第二言語音声を、2以上の端末装置2aに配信する。
2以上の各端末装置2aにおいて、端末受信部24aが、上記第一言語音声および上記第二言語音声を受信する。2以上の端末装置2aのうち、第二言語音声が選択されている1以上の各端末装置2aにおいては、受信された第一言語音声と第二言語音声のうち第二言語音声が出力され、第一言語音声が選択されている1以上の各端末装置2aにおいては、受信された受信された第一言語音声と第二言語音声のうち第一言語音声が出力される。
いま、第二言語音声が選択されている1以上の端末装置2aのうち一の端末装置2aのユーザが、チャットの情報“もう少し大きな声で話して頂けますか”を入力したとする。当該一の端末装置2aにおいて、端末受付部22aが当該チャットの情報を受け付け、端末送信部23aは、受け付けられたチャットの情報を、選択されている第二言語を識別する言語識別子“日本語”および端末識別子と対に、サーバ装置10に送信する。
サーバ装置10において、チャット受信部1021が上記チャットの情報を言語識別子“日本語”および端末識別子と対に受信し、表出部1032は、当該言語識別子“日本語”に対応する1番目の第一チャット領域に、受信されたチャットの情報を表出させ、画面情報構成部1031は、第一チャット領域に、受信されたチャットの情報が表出された画面の画面情報を構成する。
こうして、例えば、図13に示すような画面の画面情報が構成される。画面情報送信部1041は、構成された画面情報を第二端末装置4aXに送信する。
なお、図13の画面には、他の1以上のカメラからの1以上の映像も、上記カメラからの映像の横に表示されているが、2以上のカメラからの映像を一の画面内に表示する技術は、公知であり、説明を省略する。また、画面内の2つの第二チャット領域のうち、2つ目(つまり、右端)の第二チャット領域は、通訳者を含む全てのスタッフがチャットを行う領域であるが、三人以上でチャットを行う技術は公知であり、説明を省略する。また、画面内のその他のインターフェイス部品(例えば、左右2つのミュートボタン等)については、前述したので繰り返さない。
第二端末装置4aXにおいて、第二端末受信部44が上記画面情報を受信し、第二端末出力部46は、受信された画面情報をディスプレイに表示する。第二端末装置4aXのディスプレイには、2つの第一チャット領域のうち、言語識別子“日本語”に対応する第一チャット領域に、チャットの情報“もう少し大きな声で話して頂けますか”が表出された画面が表示される。
“ITO”さんは、言語識別子“日本語”に対応するボリューム情報を現状の“5”から“9”に変更するボリューム操作を、第二端末装置4aXのディスプレイに表示されている画面内のボリューム操作部品を介して入力したとする。
第二端末装置4aXにおいて、第二端末受付部42が上記ボリューム操作を受け付け、第二端末処理部45は、言語識別子“日本語”とボリューム情報“9”の組を有する言語ボリューム情報“(日本語,9)”を生成し、第二端末送信部43は、生成された言語ボリューム情報を通訳者識別子“ITO”と対にサーバ装置10に送信する。
サーバ装置10において、受信部102が上記言語ボリューム情報を通訳者識別子“ITO”と対に受信し、処理部103は、通訳者識別子“ITO”に対応する2つの言語ボリューム情報のうち、言語識別子“日本語”を有する1番目の言語ボリューム情報“(日本語,5)”を、受信された言語ボリューム情報“(日本語,9)”に更新する。
配信部14aは、言語識別子“日本語”に対応する第二言語音声のボリュームを“5”から“9”に上げ、ボリューム“9”の第一言語音声を2以上の端末装置2aに配信する。
ユーザがチャットの情報“もう少し大きな声で話して頂けますか”を入力した上記一の端末装置2aにおいて、端末受信部24aが、上記ボリューム“9”の第一言語音声を受信し、再生部251は、受信された第一言語音声を再生する。これにより、当該一の端末装置2aのスピーカから、ボリューム“9”の第一言語音声が出力される。
なお、待機中の通訳者である“Cathy”が、第二端末装置4aYの入力デバイスを介して、例えば、チャットの情報“資料を送って頂いても良いですか”を入力した場合の動作は、次のようになる。
第二端末装置4aYにおいて、第二端末受付部42aが当該チャットの情報を受け付け、第二端末送信部43は、受け付けられたチャットの情報を通訳者識別子と対に、サーバ装置10に送信する。
サーバ装置10において、チャット受信部1021が上記チャットの情報を端末識別子と対に受信し、表出部1032が、第二チャット領域に、受信されたチャットの情報を表出させることにより、画面情報構成部1031は、第二チャット領域に、受信されたチャットの情報が表出された画面の画面情報を構成する。画面情報送信部1041は、構成された画面情報を第二端末装置4aXに送信する。
第二端末装置4aXにおいて、第二端末受信部44が上記画面情報を受信し、第二端末出力部46は、受信された画面情報をディスプレイに表示する。第二端末装置4aXのディスプレイには、第二チャット領域に、チャットの情報“資料を送って頂いても良いですか”が表出された画面が表示される。
“ITO”さんは、第二端末装置4aXの入力デバイスを介して、ファイル識別子“パワポデータ.ppt”を第二チャット領域に入力したとする。
第二端末装置4aXにおいて、第二端末受付部42が上記ファイル識別子を受け付け、第二端末送信部43は、受け付けられたファイル識別子を有するファイルを通訳者識別子“ITO”と対にサーバ装置10に送信する。
サーバ装置10において、受信部102が上記ファイルを通訳者識別子“ITO”と対に受信し、処理部103は、受信されたファイルを通訳者識別子“ITO”に対応付けて格納部101に蓄積する。
次に、表出部1032が、第二チャット領域に、上記ファイル識別子“パワポデータ.ppt”を表出させることにより、画面情報構成部1031は、第二チャット領域に、受信されたチャットの情報が表出された画面の画面情報を構成する。画面情報送信部1041は、構成された画面情報を第二端末装置4aYに送信する。
第二端末装置4aYにおいて、第二端末受信部44が上記画面情報を受信し、第二端末出力部46は、受信された画面情報をディスプレイに表示する。第二端末装置4aYのディスプレイには、第二チャット領域にファイル識別子“パワポデータ.ppt”が表出された画面が表示される。
“Cathy”さんは、第二端末装置4aYの入力デバイスを介して、ファイル識別子“パワポデータ.ppt”を選択したとする。
第二端末装置4aYにおいて、第二端末受付部42が上記ファイル識別子の選択を受け付け、第二端末送信部43は、当該ファイル識別子が選択された旨の情報を通訳者識別子“Cathy”と対にサーバ装置10に送信する。
サーバ装置10において、受信部102が上記情報を通訳者識別子“Cathy”と対に受信し、処理部103は、当該情報が有するファイル識別子“パワポデータ.ppt”で識別されるファイルを格納部101から取得し、第二端末装置4aYに送信する。
第二端末装置4aYにおいて、第二端末受信部44が上記ファイルを受信する。これにより、通訳者間でのファイルの転送が実現される。
以上、本実施の形態によれば、通訳者情報群格納部112aに、通訳者の画像である通訳者画像を含む2以上の通訳者情報を有する通訳者情報群が格納され、サーバ装置10は、会場を撮影した映像を受け付け、受け付けた映像と2以上の通訳者画像を含む画面を構成する画面情報を構成し、構成した画面情報を2以上の通訳者の第二端末装置4aに送信することにより、2以上の各通訳者の端末に、会場を撮影した映像と2以上の通訳者画像を含む画面を表示する仕組みを提供できる。
また、サーバ装置10は、予め決められた条件を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成することにより、各通訳者を識別できるが、その細部(例えば、化粧の有無等)までは分からない画面を表示できる。
また、通訳者情報は、通訳者識別子を有し、2以上の通訳者情報の中の1以上の通訳者情報は、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する状態情報を有し、サーバ装置10は、状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、受け付けた映像と2以上の通訳者画像を含む画面を構成することにより、2以上の通訳者のうち、どの通訳者が通訳中であるかが分かる画面を表示できる。
また、通訳者情報は、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないことの少なくとも3つの状態のうちのいずれかの状態を示す状態情報を有し、サーバ装置10は、状態情報を用いて、各通訳者の状態を視覚的に区別可能な態様で、受け付けた映像と2以上の通訳者画像を含む画面を構成することにより、2以上の通訳者のうち、どの通訳者が通訳中であり、どの通訳者が次に通訳を行うかがわかる画面を表示できる。
また、サーバ装置10は、チャットの情報を端末装置2aまたは第二端末装置4aから受信し、ユーザの端末装置2aとチャットを行う第一チャット領域、スタッフの第二端末装置4aとチャットを行う第二チャット領域のいずれか1以上のチャット領域を含む画面であり、チャット領域に受信したチャットの情報が表出した画面の画面情報を構成することにより、通訳者がユーザまたはスタッフのうち1以上とチャットを行える画面を表示できる。
また、通訳者情報は、通訳可能な2以上の言語を識別する2以上の言語識別子を有し、サーバ装置10は、2以上の各言語識別子に対応するチャットの領域である2以上の第一チャット領域を有する画面の画面情報を構成することにより、通訳者が2以上の言語でユーザとチャットを行える画面を表示できる。
また、サーバ装置10は、通訳者の操作を受け付ける1以上の操作対象の領域である操作領域が画面の下部に位置し、受け付けた映像が画面の上部に位置するように画面情報を構成することにより、視認性および操作性に優れた画面を表示できる。
また、サーバ装置10は、通訳者の音声をミュートする2つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するように画面情報を構成することにより、通訳者がその利き腕によらず音声を容易にミュートし得る画面を表示できる。
また、通訳者情報は、通訳者が設定したボリュームであり、2以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有し、通訳者の第二端末装置4aにおいて、言語識別子で識別される言語の音声が、言語識別子と対になるボリューム情報により特定されるボリュームで入力されることにより、サーバ装置10は、通訳者が2以上の各言語ごとにボリュームの設定を行える画面を表示できる。
また、サーバ装置10は、言語識別子に対応する2種類以上のユーザインターフェイス部品を有する画面情報を構成し、第二端末装置4aから、2種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、2種類以上のすべてのユーザインターフェイス部品のカレントの言語を指示に対応する言語識別子で識別される言語とするように、第二端末装置4aにおいて画面が変更されることにより、サーバ装置10は、2種類以上のいずれかのユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、2種類以上の全てのユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。
また、2種類以上のユーザインターフェイス部品は、ボリューム操作のためのユーザインターフェイス部品と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品であることにより、サーバ装置10は、ボリューム操作用またはテキスト表示用のいずれか一方のユーザインターフェイス部品に対する言語識別子の決定の指示に応じて、ボリューム操作用およびテキスト表示用の両方のユーザインターフェイス部品のカレントの言語が変更される画面を表示できる。
なお、本実施の形態におけるサーバ装置10を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、通訳者の画像である通訳者画像を含む2以上の通訳者情報を有する通訳者情報群が格納される通訳者情報群格納部にアクセス可能なコンピュータを、会場を撮影した映像を受け付ける映像受付部と、前記映像受付部が受け付けた映像と2以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、前記画面情報構成部が構成した画面情報を2以上の通訳者の第二端末装置に送信する画面情報送信部として機能させるためのプログラムである。
図14は、各実施の形態におけるプログラムを実行して、サーバ装置1等を実現するコンピュータシステム900の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図14において、コンピュータシステム900は、ディスクドライブ905を含むコンピュータ901と、キーボード902と、マウス903と、ディスプレイ904と、マイクロフォン917と、スピーカ918とを備える。なお、キーボード902やマウス903やディスプレイ904やマイクロフォン917スピーカ918をも含むシステム全体をコンピュータと呼んでもよい。
図15は、コンピュータシステム900の内部構成の一例を示す図である。図15において、コンピュータ901は、ディスクドライブ905に加えて、MPU911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM913と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ914と、MPU911、ROM912等を相互に接続するバス915と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード916と、マイクロフォン917と、スピーカ918と、を備える。ストレージ914は、例えば、ハードディスク、SSD、フラッシュメモリなどである。
コンピュータシステム900に、サーバ装置1等の機能を実行させるプログラムは、例えば、DVD、CD-ROM等のディスク921に記憶されて、ディスクドライブ905に挿入され、ストレージ914に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータ901に送信され、ストレージ914に記憶されてもよい。プログラムは、実行の際にRAM913にロードされる。なお、プログラムは、ディスク921、またはネットワークから直接、ロードされてもよい。また、ディスク921に代えて他の着脱可能な記録媒体(例えば、DVDやメモリカード等)を介して、プログラムがコンピュータシステム900に読み込まれてもよい。
プログラムは、コンピュータの詳細を示す901に、サーバ装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
なお、上述したコンピュータシステム900は、サーバまたは据え置き型のPCであるが、端末装置2は、例えば、タブレット端末やスマートフォンやノートPCといった、携帯端末で実現されてもよい。この場合、例えば、キーボード902およびマウス903はタッチパネルに、ディスクドライブ905はメモリカードスロットに、ディスク921はメモリカードに、それぞれ置き換えられることが望ましい。話者装置3や通訳者装置4も、基本的なハードウェア構成は、PCや携帯端末と同様でよい。ただし、以上は例示であり、サーバ装置1等を実現するコンピュータのハードウェア構成は問わない。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、一のコンピュータが集中処理を行ってもよく、あるいは複数のコンピュータが分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(端末情報送信部23、端末受信部24など)は、物理的に一の媒体で実現されてもよいことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる通訳システムは、サーバ装置と2以上の端末装置とで実現される通訳システムであって、サーバ装置が1以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できるという効果を有し、通訳システム等として有用である。また、本発明にかかるサーバ装置は、2以上の各通訳者の端末に、会場を撮影した映像と2以上の通訳者画像を含む画面を表示できるという効果を有し、サーバ装置等として有用である。

Claims (30)

  1. サーバ装置と1または2以上の端末装置とで実現される通訳システムを構成する端末装置であって、
    前記サーバ装置は、
    第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    前記1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
    端末装置は、
    前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
    前記端末受信部が受信した第二言語音声を再生する再生部とを具備し、
    前記再生部は、
    第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生する、端末装置
  2. 前記再生部は、
    前記未再生部分の追っかけ再生を、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に応じた速度の早送りで行う請求項記載の端末装置
  3. 前記再生部は、
    前記未再生部分の追っかけ再生を、当該未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する請求項記載の端末装置
  4. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信する配信部と、
    前記一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得部と、
    前記ユーザ情報群が有する2以上の第二言語識別子のうち、前記通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、前記通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しない翻訳結果取得部と具備し、
    前記配信部は、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記翻訳結果取得部が取得した1以上の翻訳結果のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信するサーバ装置
  5. サーバ装置と1または2以上の端末装置とで実現される通訳システムを構成する端末装置であって、
    前記サーバ装置は、
    第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    前記端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
    前記端末装置は、
    前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
    前記端末受信部が受信した第二言語音声を再生する再生部とを具備し、、
    前記サーバ装置は、
    前記第二言語音声取得部が取得した1以上の第二言語音声をそれぞれ音声認識したテキストのデータである1以上の第二言語テキストを取得する第二言語テキスト取得部をさらに具備し、
    前記配信部は、
    前記第二言語テキスト取得部が取得した1以上の第二言語テキストを前記端末装置に配信し、
    前記端末受信部は、
    前記サーバ装置から配信される1以上の第二言語テキストをも受信し、
    前記再生部は、
    前記1以上の第二言語テキストをも出力し、
    前記端末装置は、
    音声またはテキストのうち1以上のデータ形式を選択する操作を受け付け得る端末受付部をさらに具備し、
    前記再生部は、
    当該端末装置のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または当該第二言語音声を音声認識した第二言語テキストのうち、選択された1以上のデータ形式に対応する1以上のデータを出力し、
    前記端末受信部は、
    前記第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し
    前記再生部は、
    前記端末受信部が受信した前記第二言語テキストと前記副第二言語の第二言語テキストとを出力する通訳システムを構成する端末装置
  6. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
    前記通訳者情報群格納部および前記ユーザ情報群格納部には、
    会場を識別する会場識別子に対応付けて、1以上の通訳者情報群および1以上のユーザ情報群がそれぞれ格納され、
    前記ユーザ情報は、会場識別子をさらに有し、
    前記第二言語音声取得部および前記配信部は、2以上の各会場識別子ごとに、1以上の第二言語音声の取得および配信を行うサーバ装置
  7. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
    前記一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得部と、
    前記第一言語音声取得部が取得した第一言語音声と、前記第二言語音声取得部が取得した1以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である1以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得部と、
    前記1以上の各言語情報ごとに、前記音声特徴量対応情報を用いて、前記第一言語音声を入力とし、前記第二言語音声を出力とする学習器を構成する学習器構成部と具備するサーバ装置
  8. 端末装置で再生された第二言語音声に対する前記ユーザの反応に関する情報である反応情報を取得する反応取得部をさらに具備し、
    前記学習器構成部は、
    前記反応情報を用いて選別された、2以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する請求項記載のサーバ装置
  9. 端末装置で再生された第二言語音声に対する前記ユーザの反応に関する情報である反応情報を取得する反応取得部と、
    1以上の各通訳者ごとに、当該通訳者に対応する反応情報を用いて、当該通訳者の評価に関する評価情報を取得する評価取得部とをさらに具備する請求項記載のサーバ装置
  10. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子と、通訳者の画像である通訳者画像とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
    会場を撮影した映像を受け付ける映像受付部と、
    前記映像受付部が受け付けた映像と前記2以上の通訳者情報が有する2以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、
    前記画面情報構成部が構成した画面情報を2以上の通訳者の第二端末装置に送信する画面情報送信部と具備するサーバ装置。
  11. 前記画面情報構成部は、予め決められた条件を満たすほど明瞭性が低い2以上の通訳者画像を含む画面を構成する請求項10記載のサーバ装置。
  12. 前記2以上の通訳者情報の中の1以上の通訳者情報は、現在、通訳を行っている通訳者、または現在、通訳を行っていない通訳者を特定する状態情報をさらに有し、
    前記画面情報構成部は、
    前記状態情報を用いて、現在、通訳中の通訳者の通訳者画像と、現在、通訳を行っていない通訳者の通訳者画像とを視覚的に区別可能な態様で、前記映像受付部が受け付けた映像と前記2以上の通訳者画像を含む画面を構成する請求項10記載のサーバ装置。
  13. 前記通訳者情報は、現在、通訳を行っていること、通訳を行う準備ができていること、または通訳を行う準備ができていないことの少なくとも3つの状態のうちのいずれかの状態を示す状態情報を有し、
    前記画面情報構成部は、
    前記状態情報を用いて、各通訳者の状態を視覚的に区別可能な態様で、前記映像受付部が受け付けた映像と前記2以上の通訳者画像を含む画面を構成する請求項12記載のサーバ装置。
  14. チャットの情報を端末装置または第二端末装置から受信するチャット受信部をさらに具備し、
    前記画面情報構成部は、
    ユーザの端末装置とチャットを行う第一チャット領域、スタッフの第二端末装置とチャットを行う第二チャット領域のいずれか1以上のチャット領域を含む画面であり、前記チャット領域に前記チャット受信部が受信したチャットの情報が表出した画面の画面情報を構成する請求項10記載のサーバ装置。
  15. 前記通訳者情報は、通訳可能な2以上の言語を識別する2以上の言語識別子を有し、
    前記画面情報構成部は、
    前記2以上の各言語識別子に対応するチャットの領域である2以上の第一チャット領域を有する画面の画面情報を構成する請求項14記載のサーバ装置。
  16. 前記画面情報構成部は、
    通訳者の操作を受け付ける1以上の操作対象の領域である操作領域が画面の下部に位置し、前記映像受付部が受け付けた映像が画面の上部に位置するように画面情報を構成する請求項10記載のサーバ装置。
  17. 前記画面情報構成部は、
    通訳者の音声をミュートする2つのミュートボタンが、それぞれ画面の左下側、および画面の右下側に位置するように画面情報を構成する請求項16記載のサーバ装置。
  18. 前記通訳者情報は、通訳者が設定したボリュームであり、2以上の各言語に対応するボリュームを特定するボリューム情報を言語識別子に対応付けて有し、
    前記通訳者の第二端末装置において、前記言語識別子で識別される言語の音声を、前記言語識別子と対になるボリューム情報により特定されるボリュームで出力される請求項10記載のサーバ装置。
  19. 前記画面情報構成部は、
    言語識別子に対応する2種類以上のユーザインターフェイス部品を有する画面情報を構成し、
    前記第二端末装置から、前記2種類以上のユーザインターフェイス部品のうちのいずれかの種類のユーザインターフェイス部品に対して、言語識別子を決定する指示が受け付けられた場合に、前記2種類以上のすべてのユーザインターフェイス部品のカレントの言語を前記指示に対応する言語識別子で識別される言語とするように、前記第二端末装置において画面が変更される請求項10記載のサーバ装置。
  20. 前記2種類以上のユーザインターフェイス部品は、ボリューム操作のためのユーザインターフェイス部品と、通訳用または通訳結果のテキストの表示領域のユーザインターフェイス部品である請求項19記載のサーバ装置。
  21. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部、1または2以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部、第二言語音声取得部、第一言語テキスト取得部、翻訳結果取得部、および配信部によって実現される配信方法であって、
    前記第二言語音声取得部が、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得ステップと、
    前記第一言語テキスト取得部が、前記一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得ステップと、
    前記翻訳結果取得部が、前記ユーザ情報群が有する2以上の第二言語識別子のうち、前記通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、前記通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しない翻訳結果取得ステップと、
    前記配信部が、前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信し、前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記翻訳結果取得部が取得した1以上の翻訳結果のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信する配信方法。
  22. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、第二言語音声取得部と、配信部とによって実現される配信方法であって、
    前記第二言語音声取得部が、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得ステップと、
    前記配信部が、前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信ステップとを具備し、
    前記通訳者情報群格納部および前記ユーザ情報群格納部には、
    会場を識別する会場識別子に対応付けて、1以上の通訳者情報群および1以上のユーザ情報群がそれぞれ格納され、
    前記ユーザ情報は、会場識別子をさらに有し、
    前記第二言語音声取得部および前記配信部は、2以上の各会場識別子ごとに、1以上の第二言語音声の取得および配信を行う、配信方法。
  23. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、第二言語音声取得部と、配信部と、第一言語音声取得部と、音声特徴量対応情報取得部と、学習器構成部とにより実現される学習器取得方法であって、
    前記第二言語音声取得部が、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得ステップと、
    前記配信部が、前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信ステップと、
    前記第一言語音声取得部が、前記一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得ステップと、
    前記音声特徴量対応情報取得部が、前記第一言語音声取得部が取得した第一言語音声と、前記第二言語音声取得部が取得した1以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である1以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得ステップと、
    前記学習器構成部が、前記1以上の各言語情報ごとに、前記音声特徴量対応情報を用いて、前記第一言語音声を入力とし、前記第二言語音声を出力とする学習器を構成する学習器構成ステップと具備する学習器取得方法。
  24. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子と、通訳者の画像である通訳者画像とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、第二言語音声取得部と、配信部と、映像受付部と、画面情報構成部と、画面情報送信部とにより実現される配信方法であって、
    前記第二言語音声取得部が、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得ステップと、
    前記配信部が、前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信ステップと、
    前記映像受付部が、会場を撮影した映像を受け付ける映像受付ステップと、
    前記画面情報構成部が、前記映像受付部が受け付けた映像と前記2以上の通訳者情報が有する2以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成ステップと、
    前記画面情報送信部が、前記画面情報構成部が構成した画面情報を2以上の通訳者の第二端末装置に送信する画面情報送信ステップとを具備する配信方法。
  25. サーバ装置と1または2以上の端末装置とで実現される通訳システムを構成する端末装置において動作するプログラムであって、
    前記サーバ装置は、
    第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    前記1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部とを具備し、
    前記端末装置を、
    前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
    前記端末受信部が受信した第二言語音声を再生する再生部として機能させるためのプログラムであって、
    前記再生部は、
    第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生するものとして、前記端末装置を機能させるためのプログラム。
  26. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部、およ1または2以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部にアクセス可能なコンピュータを、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と
    前記一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得する第一言語テキスト取得部と、
    前記ユーザ情報群が有する2以上の第二言語識別子のうち、前記通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、前記通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しない翻訳結果取得部として機能させるためのプログラムであって、
    前記配信部は、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記翻訳結果取得部が取得した1以上の翻訳結果のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信するものとして、前記コンピュータを機能させるためのプログラム
  27. サーバ装置と1または2以上の端末装置とで実現される通訳システムを構成する端末装置において動作するプログラムであって、
    前記サーバ装置は、
    第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、
    前記端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部と、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
    前記第二言語音声取得部が取得した1以上の第二言語音声をそれぞれ音声認識したテキストのデータである1以上の第二言語テキストを取得する第二言語テキスト取得部とを具備し、
    前記配信部は、
    前記第二言語テキスト取得部が取得した1以上の第二言語テキストを前記端末装置に配信し、
    前記端末装置を、
    前記サーバ装置から配信される第二言語音声を受信する端末受信部と、
    前記端末受信部が受信した第二言語音声を再生する再生部として機能させるためのプログラムであって、
    前記端末受信部は、
    前記サーバ装置から配信される1以上の第二言語テキストをも受信し、
    前記再生部は、
    前記1以上の第二言語テキストをも出力し、
    前記端末装置を、
    音声またはテキストのうち1以上のデータ形式を選択する操作を受け付け得る端末受付部として機能させるためのプログラムであって、
    前記再生部は、
    当該端末装置のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または当該第二言語音声を音声認識した第二言語テキストのうち、選択された1以上のデータ形式に対応する1以上のデータを出力し、
    前記端末受信部は、
    前記第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、
    前記再生部は、
    前記端末受信部が受信した前記第二言語テキストと前記副第二言語の第二言語テキストとを出力するものとして、前記端末装置を機能させるためのプログラム。
  28. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部とにアクセス可能なコンピュータを、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部として機能させるためのプログラムであって、
    前記通訳者情報群格納部および前記ユーザ情報群格納部には、
    会場を識別する会場識別子に対応付けて、1以上の通訳者情報群および1以上のユーザ情報群がそれぞれ格納され、
    前記ユーザ情報は、会場識別子をさらに有し、
    前記第二言語音声取得部および前記配信部は、2以上の各会場識別子ごとに、1以上の第二言語音声の取得および配信を行うものとして、前記コンピュータを機能させるためのプログラム。
  29. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部とにアクセス可能なコンピュータを、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、前記1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
    前記一の話者が話した第一の言語の音声のデータである第一言語音声を取得する第一言語音声取得部と、
    前記第一言語音声取得部が取得した第一言語音声と、前記第二言語音声取得部が取得した1以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である1以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得する音声特徴量対応情報取得部と、
    前記1以上の各言語情報ごとに、前記音声特徴量対応情報を用いて、前記第一言語音声を入力とし、前記第二言語音声を出力とする学習器を構成する学習器構成部として機能させるためのプログラム。
  30. 第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子と、通訳者の画像である通訳者画像とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部と、1以上の各端末装置のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部とにアクセス可能なコンピュータを、
    一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部と、
    前記ユーザ情報群を用いて、1以上の各端末装置に、前記第二言語音声取得部が取得した1以上の第二言語音声のうち、当該端末装置に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部と、
    会場を撮影した映像を受け付ける映像受付部と、
    前記映像受付部が受け付けた映像と前記2以上の通訳者情報が有する2以上の通訳者画像を含む画面を構成する画面情報を構成する画面情報構成部と、
    前記画面情報構成部が構成した画面情報を2以上の通訳者の第二端末装置に送信する画面情報送信部として機能させるためのプログラム。
JP2020549982A 2018-10-05 2019-07-25 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム Active JP7417272B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018190131 2018-10-05
JP2018190131 2018-10-05
PCT/JP2019/029236 WO2020070959A1 (ja) 2018-10-05 2019-07-25 通訳システム、サーバ装置、配信方法、および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2020070959A1 JPWO2020070959A1 (ja) 2021-09-02
JP7417272B2 true JP7417272B2 (ja) 2024-01-18

Family

ID=70055485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020549982A Active JP7417272B2 (ja) 2018-10-05 2019-07-25 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム

Country Status (4)

Country Link
US (1) US20210358475A1 (ja)
EP (1) EP3862963A4 (ja)
JP (1) JP7417272B2 (ja)
WO (1) WO2020070959A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240028842A1 (en) * 2022-07-25 2024-01-25 Xiang Sheng Yan Secure language interpreting service
WO2024075179A1 (ja) * 2022-10-04 2024-04-11 ポケトーク株式会社 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002010138A (ja) 2000-06-20 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報処理方法及び情報処理装置
JP2016149588A (ja) 2015-02-10 2016-08-18 株式会社日立システムズ 通訳サービス提供システムおよび通訳者選定方法ならびに通訳サービス提供プログラム
JP2016200764A (ja) 2015-04-14 2016-12-01 シントレーディング株式会社 通訳配信装置、制御装置、端末装置、通訳配信方法、制御方法、情報処理方法、およびプログラム
JP2017143322A (ja) 2016-02-08 2017-08-17 日本Did株式会社 通訳システム及び通訳管理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100593589B1 (ko) * 2004-06-17 2006-06-30 윤병원 음성인식을 이용한 다국어 통역/학습 장치 및 방법
US8244222B2 (en) * 2005-05-02 2012-08-14 Stephen William Anthony Sanders Professional translation and interpretation facilitator system and method
US8270606B2 (en) * 2008-05-01 2012-09-18 International Business Machines Corporation Open architecture based domain dependent real time multi-lingual communication service
US20100250763A1 (en) * 2009-03-31 2010-09-30 Nokia Corporation Method and Apparatus for Transmitting Information on Operation Points
TWI501209B (zh) * 2009-07-24 2015-09-21 Cheng Ta Yang 網路互動式教學管理系統
US8279861B2 (en) * 2009-12-08 2012-10-02 International Business Machines Corporation Real-time VoIP communications using n-Way selective language processing
US10270915B2 (en) * 2013-10-09 2019-04-23 SWN Communications, Inc. System and method to improve management during a conference call
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US20160170970A1 (en) * 2014-12-12 2016-06-16 Microsoft Technology Licensing, Llc Translation Control
BE1022378B1 (nl) * 2014-12-23 2016-03-18 Televic Conference Nv Centrale Eenheid voor een Conferentiesysteem

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002010138A (ja) 2000-06-20 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報処理方法及び情報処理装置
JP2016149588A (ja) 2015-02-10 2016-08-18 株式会社日立システムズ 通訳サービス提供システムおよび通訳者選定方法ならびに通訳サービス提供プログラム
JP2016200764A (ja) 2015-04-14 2016-12-01 シントレーディング株式会社 通訳配信装置、制御装置、端末装置、通訳配信方法、制御方法、情報処理方法、およびプログラム
JP2017143322A (ja) 2016-02-08 2017-08-17 日本Did株式会社 通訳システム及び通訳管理装置

Also Published As

Publication number Publication date
EP3862963A4 (en) 2021-12-08
EP3862963A1 (en) 2021-08-11
US20210358475A1 (en) 2021-11-18
WO2020070959A1 (ja) 2020-04-09
JPWO2020070959A1 (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
CN108028042B (zh) 口头通信的转录
US10019989B2 (en) Text transcript generation from a communication session
JP2020529032A (ja) 音声認識翻訳方法及び翻訳装置
EP2274870B1 (en) Open architecture based domain dependent real time multi-lingual communication service
JP2023539820A (ja) インタラクティブ情報処理方法、装置、機器、及び媒体
TW201926079A (zh) 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品
US10741172B2 (en) Conference system, conference system control method, and program
US20220286310A1 (en) Systems, methods, and apparatus for notifying a transcribing and translating system of switching between spoken languages
CN108847214A (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
US20220414349A1 (en) Systems, methods, and apparatus for determining an official transcription and speaker language from a plurality of transcripts of text in different languages
WO2019071808A1 (zh) 视频画面显示的方法、装置、系统、终端设备及存储介质
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
CN112653902A (zh) 说话人识别方法、装置及电子设备
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
JP2021067830A (ja) 議事録作成システム
US20180286388A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
US20180288110A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
WO2021244159A1 (zh) 一种翻译方法、装置、耳机和耳机收纳装置
JP2000207170A (ja) 情報処理装置および情報処理方法
KR20120126649A (ko) 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체
WO2024008047A1 (zh) 数字人手语播报方法、装置、设备及存储介质
CN114341866A (zh) 同声传译方法、装置、服务器和存储介质
US11086592B1 (en) Distribution of audio recording for social networks
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R150 Certificate of patent or registration of utility model

Ref document number: 7417272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150