JP2005513619A - リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法 - Google Patents

リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法 Download PDF

Info

Publication number
JP2005513619A
JP2005513619A JP2003553443A JP2003553443A JP2005513619A JP 2005513619 A JP2005513619 A JP 2005513619A JP 2003553443 A JP2003553443 A JP 2003553443A JP 2003553443 A JP2003553443 A JP 2003553443A JP 2005513619 A JP2005513619 A JP 2005513619A
Authority
JP
Japan
Prior art keywords
text
speech
real
language
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003553443A
Other languages
English (en)
Inventor
ジャヤラトゥヌ,ネヴィル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AUPR9569A external-priority patent/AUPR956901A0/en
Application filed by Individual filed Critical Individual
Publication of JP2005513619A publication Critical patent/JP2005513619A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

リアルタイム翻訳機(101)は、音声レシーバつまりマイクロフォン(101)と、音声からテキストへの変換器(102)と、第一の言語を受信して第二の選択言語に翻訳するためのテキスト/テキスト話し言葉翻訳機(103)と、翻訳された第二の選択言語を音声出力に変換するためのテキストから発話への変換器(105)と、音声出力を発声するための音声エミッタつまりスピーカ(211)とを有する。また、第二の音声レシーバつまりマイクロフォン(201)と、音声からテキストへの変換器(202)と、第二の言語を受信して、第一の選択言語に翻訳するためのテキスト/テキスト話し言葉翻訳機(203)と、翻訳された第一の選択言語を音声出力に変換するためのテキストから発話への変換器(105)と、音声出力を発声するための音声エミッタつまりスピーカ(111)とを備える。音声からテキストへの変換および/またはテキスト翻訳および/またはテキストから音声への変換が、並列処理で行われる。二枚のサウンドカード(151、152)または一枚のサウンドカード(151)上で別途に動作する二つのチャンネル(151A、151B)が、第一および第二の音声レシーバ(101、201)ならびに第一および第二の音声エミッタ(111、211)にインターフェイス接続されている。並列処理は、中央演算処理装置(CPU)の並列処理技術、あるいは、ソフトウェア制御されたスイッチング技術により行う。

Description

本発明は、多言語の「口語」によるコミュニケーション、会話および/または対話、会議、公的講演を行うシステムを提供するためのリアルタイム翻訳機に関する。本発明は、特に、旅行者、ビジネス、専門家用の翻訳を行うための多言語会話翻訳機に関するが、そのような用途に限定されるものではない。
おそらく、人類がもつ最大の能力は、時代を越えて発展してきた高度な言語を介したコミュニケーション能力であろう。しかしながら、それは人間が現在直面する最大の障壁でもある。世界中の異なる民族間の交流における多くの他の分野と同様に、取引やビジネスの分野において、「グローバル化」という言葉が頻繁に使われる今日であっても、グローバル化の達成に対する主な「障害」は言語障壁である。このことは、多数の異なる言語の一つを介して会話する民族の間で、一対一でコミュニケーションや会話をする能力を制限する。
翻訳は、以下を含む様々な状況で必要とされる。
・その国の言葉を話せない外国における旅行者が、道を尋ねたり、買い物をする等の最も基本的な要求のために、相手に自分の言葉を人にわからせるのに苦しむ場合。
・電話をかけようとしているビジネスマンが、相手の国の言語を知らないが、外国の潜在的な顧客や同僚と会話しようとする場合。
・会議中や放送中における話し手が、異なる言語を話す聴衆に講演や意見交換を行おうとする場合。
けれども、翻訳機は、典型的な話し言葉翻訳の、またはアナログ/デジタル変換器を使ってデジタル形式に変換することによって話し手が生み出した音を処理する自然言語処理システムの基本的なアーキテクチャに関して作成されねばならない。その信号には、周波数の異なる音の強弱や強弱の経時変化等の多様な特徴を抽出するための処理が行われる。それらの特徴は、その発話信号を生産し得たものとして、最も適当な単語列を識別するため、一般的にヒドンマルコフモデル(HMM)技術を利用する発話認識システムへの入力として作用する。発話認識システムは、自然言語処理システムへの入力として作用するため、最も適当な単語列を出力する。自然言語処理システムが発言を生成する必要がある場合には、自然言語処理システムからの文は、単語列を音素の列に翻訳してイントネーションの輪郭を判断するモジュールへ送られ、その情報が発話合成システムへ送られて口語出力が作成されるのである。
多くの翻訳機において、話し言葉の翻訳は困難とみられ、まず、文語に翻訳された後、多数の翻訳の規則や分類に基づいて文語を詳細に分析する方法がとられている。
自然言語処理システムでは、単語が何であるか、文を構成するために単語がどのように結合するか、単語の意味、単語の意味がどのように文に寄与するか、等を含む言語構造に関する重要な知識が利用される。しかしながら、一般的な世間的知識や推論能力等の、人間を知的たらしめる別の側面を考慮することなく、言語の働きを完全に説明することはできない。例えば、質問に答えたり、会話に参加するには、使われる言語の構造に関しての知識だけでなく、世間一般についてや、会話の背景についての知識も必要となる。
自然言語処理に関係する知識の種々の構成は、音声学や音韻論的知識、形態学的な知識、統語論的な知識、意味論的な知識、語用論的な知識からなる。音声学や音韻論的知識とは、単語が、その単語を具現する音とどのような関連があるかに関わるものである。そのような知識は、発話ベースのシステムにとってはきわめて重要ある。形態学的な知識とは、形態素と呼ばれる基本単位からどのように単語を構成するかにかかわるものである。形態素は言語における基本単位であって、例えば、「friendly」という単語は、名詞である「friend」の意味と、名詞を形容詞に変換する接尾辞「ly」とから導き出せる。
統語論的な知識とは、正しい文を形成するために単語をどのように組み合わせるかに関わるものであり、文における各単語が何の構造上の役割を果たすかを、および、他のフレーズに対してどのフレーズが関与するかを決定する。言語の典型的な統語論的表現は、どのフレーズが他のフレーズの一部であるかに関して文の構造を表現するような、文脈自由文法に基づいている。その統語論的情報は、しばしばツリー形式で表現される。
意味論的な知識とは、単語が何を意味するか、および、文の意味を形成するために文においてどのようにこれらの意味が結合するかに関わるものである。つまり、使われている文脈に関係なく文がもつ意味である、文脈独立な意味の研究である。文の文脈独立な意味の表現は、論理形と呼ばれている。論理形により、考えられる単語の意味が符号化され、単語の集まりとフレーズとの意味論的関係が特定される。
自然言語処理システムは、さらに、一つの表現から別の表現へのマッピングを行う解釈プロセスも備える。例えば、文をその統語構造や論理形にマッピングするプロセスは、構文解析と呼ばれ、パーサと呼ばれるコンポーネントで実行される。パーサは、入力された文に統語構造や論理形を割当てるため、単語や単語の意味に関する知識、辞書、および、法構造を定義する規則の集合即ち文法を使用する。正式には、一言語の文脈自由文法は、非終端語彙、終端語彙、生成規則の有限集合、全ての生成のための開始記号の四つの部分からなる。非終端語彙と終端語彙とは互いに共通の要素をもたない。終端記号の集合は言語の語彙と呼ばれる。語用論的な知識とは、種々の状況で文がどのように使用されるか、および、使用がどのように文の解釈に影響するかに関わるものである。
しかしながら、典型的な自然言語処理装置は、狭い枠組み内でのみ動作するため、限定的な運用に留まる。自然言語処理装置は、入力の文を受け取り、その文の単語を辞書的に分離し、単語のタイプを統語的に決定し、単語を意味論的に理解し、応答を生成するための応答のタイプを語用論的に決定し、応答を生成する。自然言語処理装置では、多くの種類の知識を使用し、そして知識の種々のタイプを、知識を系統立てられたタイプに分類するような種々の知識構造によって保管する。また、典型的な自然言語処理装置は、非常に複雑な機能を使用することもある。典型的な自然言語処理装置の知識や機能は、入力される文に対する適度に正しい応答以上のものをもたねばならないため、複雑性を低減して、操作性や有用性を向上できるよう改善する必要がある。
自然言語処理への従来のアプローチにおける、確認されている問題点は多く、典型的な発話翻訳システムのコンポーネントが多いことも問題である。話し言葉翻訳システムに関する従来のアプローチの一つに、分析のための統語論的規則と、移転パターンすなわち移転規則との合成技術がある。その結果、統語論的規則と移転規則とが相互依存しあうこととなり、システムは、新規の翻訳領域にあてはまるため、また、新規の翻訳領域に範囲を拡大するために、モジュール性が低下し、難解なものとなる。
米国特許第6266642号明細書に、ソニー社による話し言葉を実行する方法および携帯装置が開示されている。しかしながら、これは少なくとも一つのソース言語の少なくとも一つのソース表現を認識するステップを必要とし、該少なくとも一つのソース表現を認識するステップは、中間のソース言語データ構造を作成するために少なくとも一つの発話入力をオペレートするステップと、一つのモデルを使ってその中間データ構造から少なくとも一つのソース認識仮説を作成するステップと、該少なくとも一つののソース認識仮説から最良のソース認識仮説を特定するステップと、該最良のソース認識仮説から少なくとも一つのソース表現を生成するステップとからなる。明らかに、これには詳細なコンピュータ分析が必要であり、携帯機器や会話翻訳機に直ちに利用できるものではない。
また、米国特許第6278968号明細書にも、詳細な大型コンピュータ翻訳機が開示されている。その発明は、一つの言語の別の言語への翻訳に関する。より詳しく言えば、その発明は、翻訳の焦点となっている特定のトピックをユーザが選択することに少なくとも部分的に基づいた、言語間の翻訳を提供することに関する発明である。このように、その翻訳機には制限があり、本来の会話翻訳機を提供することができない。
携帯可能なリアルタイムの会話翻訳機を提供するための物理的ハードウェアとそのフローパスに注目している翻訳機はほとんどない。
米国特許第6266642号では、携帯型装置を提供することが、話し言葉の翻訳方法を実行する携帯型ユニットからなる発明の実施例を伴って主張されている。その例としてノートパソコンが、別の例として、携帯電話が取り上げられている。携帯式の実施例は、内蔵式でもよいし、そうでなくてもよい。内蔵式の携帯型の実施例の場合、自然な話し言葉の入力を受け取り、翻訳を行い、その翻訳の発話合成を行い、翻訳された自然な話し言葉を出力するためのハードウェアとソフトウェアを含む。内蔵式でない実施例の場合は、自然な話し言葉の入力を受け取り、入力をデジタル化し、そのデジタル信号を、翻訳を実行する遠隔のハードウェアとソフトウェアにさまざまな通信方法を介して伝送するためのハードウェアとソフトウェアを含む。そして、遠隔のハードウェアとソフトウェアから翻訳されたものが携帯型ユニットへ送り返されて、自然な話し言葉言語としてユーザに提示できるよう合成されるのである。
しかしながら、そのような翻訳機の構成では、一方向のコミュニケーションしかできないため、双方向の会話に適した携帯型翻訳機にはならない。
米国特許第6266642号明細書 米国特許第6278968号明細書
本発明の目的は、口語のための言語間の言語障壁に対する電子的解決策を提供することである。
本発明が提供する多言語会話翻訳機は、一つの口語言語を話す第一の人物の会話が翻訳されて、第二の口語言語を話す第二の人物が受け取ると同時あるいは実質的に同時に、第二の口語言語を話す第二の人物の会話が翻訳されて、第一の人物が受け取るように、一つまたはそれ以上のサウンドカードとソフトウェアにより操作される二つの音声経路を備え、それゆえ、二人の人物が通常の時間内で異なる口語言語を使って通常の会話を行うことができるのである。
翻訳機は、ビルトインの、または添付されたヘッドセット等を伴って、携帯が可能、又はハンドヘルドが可能である。また、本システムの別形態例として、電話システムに取り付けたり、パーソナルアドレスシステム等に取り付けたりすることもできる。
本発明によるリアルタイム翻訳機は、
(a)一つの音声レシーバ、
(b)一つの音声からテキストへの変換器、
(c)第一の言語を受信して第二の選択言語に翻訳するための一つのテキストからテキストへの話し言葉変換器、
(d)翻訳された第二の選択言語を音声出力に変換するための一つのテキストから音声への変換器、および、
(e)音声出力を発声するための一つの音声エミッタ
を含む。
本発明の一つの形態として、リアルタイム翻訳機は、
(a)少なくとも一つの音声レシーバ、
(b)少なくとも一つの、音声からテキストへの変換器、
(c)第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳するための、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
(d)翻訳された第一および/または第二の選択言語を音声出力に変換するための、少なくとも一つのテキストから音声への変換器、および、
(e)音声出力を発声するための、少なくとも一つの音声エミッタ
を含む。
リアルタイム翻訳機は、関連するソフトウェアを伴った第二の別個の電子サウンドマニピュレータにより第二の選択言語に翻訳されたテキストを音声に変換している一方で、受信した第一の言語の第一の音声の音をテキストに変換できるよう、関連するソフトウェアを伴った二つの別個の電子サウンドマニピュレータにより形成された二つの音経路を含んでもよい。別個の電子サウンドマニピュレータは二枚のパーソナルコンピュータ用サウンドカード等であってもよく、または、別個のソフトウェア制御を伴う一枚のパーソナルコンピュータ用サウンドカードの二つの左右別個のチャンネル等であってもよい。
本発明の特に好ましい形態として、携帯型リアルタイム翻訳機は、
(a)第一および第二の選択言語の音声を受信するための第一および第二の音声レシーバ、
(b)第一および第二の、音声からテキストへの変換器、
(c)第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳するための、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
(d)翻訳された第一および第二の選択言語を第一および第二の音声出力に変換するための、第一および第二の音声変換器、および、
(e)音声出力を発声するための、第一および第二の音声エミッタ
を含む。
音声を受信してから翻訳された音声を発声するまでの時間差が妥当な会話時間内に収まるよう、第一および第二の音声の、テキストへの、またはテキストからの変換、および/または、テキストからテキストへの音声言語翻訳を伴った変換をする処理において、「応答時間」を設ける。その時間は、一秒未満、最大でも二秒ほどとすることができる。さらに、会話をシミュレートするためには、区切られた音声フレーズの断続的な流れが会話をシミュレートするよう、音声の翻訳および発声は、入力音声の音声フレージングに、音声フレーズの点で実質的に一致している。一般的に、そのような音声フレーズは、一つの文または文の一部である。
さらにまた、第一の言語の第一の音声を受信し、翻訳し、翻訳された音声を出力すると同時に、または一見すると同時に、第二の言語の第二の音声を受信し、翻訳し、翻訳された第二の音声を出力するよう、処理において「オーバーラップ」があってもよい。この処理は、別個のパーソナルコンピュータ用サウンドカード等もしくはサウンドカード上の別個のチャンネル等を含んだ別個の処理経路によって、または、両方の経路の妥当なリアルタイム処理を同時に維持できる速度で二つの処理経路を切り替えるためのスイッチングシステムによって可能である。
また、本発明による、音声のリアルタイム翻訳を提供する方法は、
(a)第一および第二の選択言語の音声を受信するための第一および第二の音声レシーバを準備すること、
(b)第一および第二の音声レシーバとそれぞれ関連づけられた、音声出力を発声するための第一および第二の音声エミッタを準備すること、
(c)前記第一および第二の音声レシーバからの前記第一および第二の選択言語の音声をテキストに変換すること、
(d)前記第一の音声レシーバからの第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳し、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するためのテキスト/テキスト話し言葉変換器を準備すること、
(e)翻訳された第一および第二の選択言語を第一および第二の音声出力に変換するための音声変換器を準備すること、および、
(f)前記翻訳され変換された第一および第二の音声出力を発声すること
を含む。
音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換は、並列処理できる。二枚のサウンドカードまたは一枚のサウンドカード上で動作する二つのチャンネルで、第一および第二の音声レシーバ、ならびに、第一および第二の音声エミッタを提供できる。また、音声からテキストへの変換の処理、および/またはテキストの翻訳の処理、および/またはテキストから音声への変換の処理は、一枚または複数枚のサウンドカードのソフトウェア制御を伴う中央演算処理装置(CPU)等により実行可能となる。それらの並列処理を、中央演算処理装置(CPU)の並列処理技術、しかし主としてソフトウェア制御されたスイッチング技術を介した並列処理により実行してもよい。従って、両方の経路は常に、会話を提供するための双方向性の両方の道を動かしている。
ソフトウェアは、あとからインストールされた別のサウンドカードが、通常使用で一枚のサウンドカードの動作環境を一般的に上書きしてしまう困難を克服しなければならない。該ソフトウェアにより、この所定の意図が克服され、一秒未満から最大二秒間の音声フレーズの速度と、中央演算処理装置(CPU)のメガヘルツ速度との、ソフトウェア制御されたスイッチングの並列処理における、二枚のサウンドカードの異常な並列動作が克服される。
本発明により、以下のことを可能にするような、実用的な解決策が提供される。
(1)直接対面して、あるいは電話回線(または同様のもの)越しに、二つの異なる言語で会話することによるコミュニケーションを望む二人の人物間または二つのグループ間の、(比較的即時の、瞬時の、その場での)会話および/または対話、
(2)演説者が、聴衆の話す言語と違う言語を使って聴衆に演説を行うこと、
(3)聴衆が、演説者に対してコメントや質問をすること。
前記の開示された翻訳機を利用できる主な適用例として、三つのシナリオが挙げられる。
(1)二つの異なる言語を話す話し手間の直接対面の会話または対話(型のコミュニケーション方法)を可能にするような任意の事例においての、二つの異なる言語による個人対個人の会話および/または対話。
(2)二つの異なる言語を話す話し手間の遠隔の会話または対話(型のコミュニケーション)を可能にするような任意の事例においての、二つの異なる言語による電話回線(または同様のもの)を介した個人対個人の、またはグループ対グループの、会話および/または対話。
(3)二つの異なる言語による、演説者と聴衆間における一対多コミュニケーションを可能にするような任意の事例においての、ある言語から別の言語への、講義、会議、または公共放送における個人対多数のシステム。
上記のシナリオに対する本発明の斬新で実用的な解決策とは、言語Aで伝えて(話して)、直ちに、瞬時に、そして「その場」で、言語Bで理解させる(聞かせる)機能を与えることである。同時に、言語Bで伝えて(返事をして)、言語Aで理解させる(聞かせる)逆の機能も与える。最初の二つのシナリオでは、二つの異なる言語によるリアルタイムの会話/対話を可能にする。第三のシナリオでは、一つの言語による「演説」や「伝達」を行って、別の言語により理解させる(聞かせる)およびコメントや質問の形式の返答を聴衆から受け取ることを可能にする。
本発明のシステムはまた、様々な入力形態やリアルタイム翻訳を可能にするため、教育ツールとしても特に有効と考えられる。また、キーボード入力によっても、リアルタイムのことばの翻訳を可能にできる。
本発明をさらに容易に理解するために、付随する図面を参照しつつ実施例を説明する。
図1は、本発明の第一の実施例によるリアルタイム翻訳機のフローチャートである。
図2は、図1のリアルタイム翻訳機の説明図である。
図3は、本発明のリアルタイム翻訳機の第一の使用例を示す説明図である。
図4は、本発明のリアルタイム翻訳機の第二の使用例を示す説明図である。
図4Aは、電話会社または電気通信サービスプロバイダのサーバで利用される、本発明のリアルタイム翻訳機のさらに別の使用例を示す説明図である。
図5は、本発明のリアルタイム翻訳機の第三の使用例を示す説明図である。
付随図面、特に、図1と図2に図示されている、本発明に係るリアルタイム翻訳機(101)は、音声レシーバであるマイクロフォン(101)と、音声/テキスト変換器(102)と、第一の言語を受信して第二の選択言語へ翻訳するためのテキスト/テキスト話し言葉翻訳機(103)と、翻訳された第二の選択言語を音声出力に変換するためのテキスト/発話変換器(105)と、音声出力を発声する音声エミッタであるスピーカ(211)とを備える。
さらに、図示の本発明に係るリアルタイム翻訳機(101)は、第二の音声レシーバであるマイクロフォン(201)と、音声/テキスト変換器(202)と、第二の言語を受信して第一の選択言語へ翻訳するためのテキスト/テキスト話し言葉翻訳機(203)と、翻訳された第一の選択言語を音声出力に変換するためのテキスト/発話変換器(105)と、音声出力を発声する音声エミッタであるスピーカ(111)とを備える。
処理操作中には、音声からテキストへの変換および/またはテキスト翻訳および/またはテキストから音声への変換の並列処理が行われる。二枚のサウンドカード(151、152)または一枚のサウンドカード(151)上で別々に動作する二つのチャンネル(151A、151B)が、第一および第二の音声レシーバ(101、201)ならびに第一および第二の音声エミッタ(111、211)とインターフェイスする。音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の処理は、一枚または複数枚のサウンドカード(151、152)のソフトウェア制御を伴う中央演算処理装置(CPU)等により実行できる。その並列処理は、中央演算処理装置(CPU)による並列処理技術で行ってもよいし、ソフトウェア制御によるスイッチング技術で行ってもよい。
リアルタイム翻訳機(101)は、第二の選択言語に翻訳されたテキストが、関連するソフトウェアを伴う第二の別個の電子サウンドマニピュレータにより音声に変換される一方で、受信された第一言語の第一の音声の音がテキストに変換されうるよう、関連するソフトウェアを伴う二つの別個の電子サウンドマニピュレータにより形成された二つの音経路を含む。この処理は、二枚のパーソナルコンピュータ用サウンドカード(151、152)等の別個の電子サウンドマニピュレータにより、または、一枚のパーソナルコンピュータ用サウンドカード(151)等の、別々のソフトウェア制御を伴い、別々に動作する二つの左右のチャンネル(151A、151B)により行う。
第一および第二の音声の、テキストへの、またはテキストからの変換の処理において、および/または、テキストからテキストへの音声言語翻訳の処理においては、音声を受信してから、翻訳された音声を発声するまでの時間差が、妥当な会話時間内で収まるような「応答時間」を設ける。その時間は、一秒未満、最大でも二秒ほどとすることができる。さらに、会話をシミュレートするためには、区切られた音声フレーズの断続的な流れが会話をシミュレートするよう、音声の翻訳および発声は、入力音声の音声フレージングに、音声フレーズの点で実質的に一致している。一般的に、そのような音声フレーズは、一つの文または文の一部分である。
さらにまた、第一の言語の第一の音声を受信し、翻訳し、翻訳された音声を出力すると同時に、または一見すると同時に、第二の言語の第二の音声を受信し、翻訳し、翻訳された第二の音声を出力するよう、処理において「オーバーラップ」がある。この処理は、別個のパーソナルコンピュータ用サウンドカード等もしくはサウンドカード上の別個のチャンネル等を含んだ別個の処理経路によって、または、両方の経路の妥当なリアルタイム処理を同時に維持できる速度で二つの処理経路を切り替えるためのスイッチングシステムによって可能である。
本発明の本質は、二つの異なる言語間の会話/対話を可能にすることであって、会話や対話が行われる言語の種類には関係なく、本発明は不変である。英語、韓国語、フランス語、簡体字中国語、繁体字中国語、イタリア語、ドイツ語、スペイン語、そして日本語が、本発明でいう異なる言語間の会話に含まれる。
本発明の裏にある技術的方法論には、以下の三つの基本ステップが含まれる。
(1)マイクロフォン等の入力チャンネル(入力源1)や電話回線等を介して口語および/または文の入力源を受信して、文語のテキストに変換する。
(2)テキストを一つの言語から別の言語へ翻訳する。
(3)発話に変換し直された、翻訳されたテキストを、スピーカをはじめとする出力チャンネル(出力源2)を介して、ヘッドフォン、あるいはその他から、出力する。
ステップ1 入力源を介した口語または文の受信
言葉がマイクロフォン(101)に話されると、能動態化され、入力信号として受信される。言語Aで話された言葉はマイクロフォン(101)を介して受信され、テキストに変換される。言語Aの言葉(テキスト形式)は、リアルタイム翻訳機(150)内で言語B(テキスト形式)に翻訳される。リアルタイム翻訳機はフォーカスをスピーカ(211)へ切り替え(104)、言語Bの言葉のテキストが発話に変換されて、スピーカ(211)を通して「発声」される。
返事として話された言葉または言語Bで話された言葉が、マイクロフォン(201)を介して受信され、テキストに変換される。言語Bの言葉(テキスト形式)も、リアルタイム翻訳機(150)内で言語A(テキスト形式)に翻訳される。リアルタイム翻訳機(150)はフォーカスをスピーカ(111)へ切り替え、言語Aの言葉のテキストが発話に変換されて、スピーカ(111)を通して「発声」される。上記のすべての動作は瞬時に、直ちに、「その場で」行われ、二つの異なる言語間のリアルタイムの会話/対話が可能となる。
二つの音声入力源(101、201)の片方からの入力に応答してたち上がったリアルタイム翻訳ソフト(160)は、言語Aを話す人物1によって話された「口語」および/または「文」の入力源を、マイクロクロフォン等の入力チャンネル、もしくは電話回線を介して受信する。
下記で詳細に示すハードウェア構成ように、本発明の処理は、二枚のサウンドカードのソフトウェア制御の動作に基づいて、または、一枚のサウンドカード(151)の「左右の」チャンネル(151A、151B)能力のオペレーティング・システムの側面を活用するようなソフトウェアを通して行われる。
しかしながら、好ましい実施形態では二枚のサウンドカードおよびソフトウェア処理法を使う。これら二つの方法のうちいずれかを使い、本発明のリアルタイム翻訳機(150)は下記のような音声入力装置からの話された言葉を受信する。
(1)(ヘッドセットのまたは単独の)マイクロフォンから。
(2)電話回線から。
(3)会議システムまたはパブリックアナウンスメント/スピーカシステムから。
口語や文は、翻訳のためのテキストに変換される。好適実施例においては、音声認識アプリケーションの開発のため市販されているIBM社(登録商標)のソフトウェアパッケージViaVoice(登録商標)を使うのが望ましい。しかしながら、市場にいくつか出回っている他の同様の音声認識ソフトウェアを使用しても構わないし、類似ソフトウェアを作成することも可能である。いずれにしても、リアルタイム翻訳ソフト(160)自体は変わらない。
ステップ2 テキストの翻訳
ステップ1において受信され、およびテキスト変換された言葉/文の入力源を、一つの言語から別の言語へ翻訳する。同じく、好適実施例においては、この目的のために用いられるソフトウェアパッケージとして、IBM社(登録商標)のソフトウェアパッケージ「Language Translator For Text(登録商標)」を使うことが望ましい。そのソフトウェアパッケージは、テキスト翻訳アプリケーションの開発のためIBM社(登録商標)が市販しているものである。しかしながら、市場にいくつか出回っている他の同様のテキスト翻訳ソフトウェアを使っても構わないし、類似ソフトウェアを作成することも可能である。しかしながら、いずれにしても、リアルタイム翻訳ソフトウェア(160)の全処理の後ろにある、全体のリアルタイム翻訳機(150)の本発明は変わらない。
ステップ3 変換されたテキストの発声
最後のステップでは、テキストから発話への変換を行う。リアルタイム翻訳機(150)によるテキスト翻訳が完了すると、本ステップで発話に変換されて、翻訳された言語の言葉でテキストが「発声」される。
好適実施例においては、この目的のためのソフトウェアパッケージとして、マイクロソフト社のTTS Software Package(登録商標)を使うのが望ましい。このソフトウェアパッケージは、テキストから発話への変換アプリケーションの開発用にマイクロソフト社(登録商標)が市販しているものである。しかしながら、市場にいくつか出回っている他の同様のテキストから音声への変換ソフトウェアを使っても構わないし、類似ソフトウェアを作成することも可能である。いずれにしても、リアルタイム翻訳ソフトウェア(160)の全処理の後ろにある、全体のリアルタイム翻訳機(150)の本発明は変わらない。
図3に、人物から人物への会話/対話によるコミュニケーション例を示す。人物1が人物2に話しかける場合は、下記の通りである。
・リアルタイム翻訳機ハードウェア(151、152、153)(リアルタイム翻訳ソフトウェア(160)用に構成された携帯型ハードウェア)が、リアルタイム翻訳ソフト(160)を動作させる。サウンドカード1には(ヘッドセットまたはその他を介して)マイクロフォン/スピーカが取り付けられる。また、サウンドカード2に取り付けられるのは、(独立の、または同様にヘッドセットを介した)別のマイクロフォン/スピーカである。サウンドカード1および対応するマイクロフォン/スピーカは人物1が使用、サウンドカード2および対応するマイクロフォン/スピーカは相手の人物2が使用する。
・人物1が、サウンドカード1に取り付けられたマイクロフォンに向かって話しかける。その言語で話された言葉(文)は、マイクロフォン(101)入力とテキストへの変換を制御するリアルタイム翻訳ソフトウェア(160)に受信される。
・リアルタイム翻訳ソフトウェア(160)は、マイクロフォン(101)からの入力を制御する。
・リアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Aのテキストが言語Bのテキストに翻訳される。
・リアルタイム翻訳ソフトウェア(160)が、リアルタイム翻訳機(150)内でコントロールをサウンドカード2へ内部的に切り替える。
・リアルタイム翻訳機(150)により翻訳された言語Bの言葉が発話に変換され、「大きく発声」されると、人物2は、サウンドカード2に取り付けられたスピーカを通して聞き取ることができる。
人物2から人物1へ返事するまたは話しかける場合は、下記の通りである。
・サウンドカード2および対応するマイクロフォン/スピーカは、人物2が使用する。
・人物2が、サウンドカード2に取り付けられたマイクロフォンに向かって返事をする(話しかける)。言語Bで話されたそれらの言葉は、マイクロフォン(201)からの入力とテキストへの変換を制御するリアルタイム翻訳ソフト(160)によって受信される。
・リアルタイム翻訳ソフトウェア(160)は、マイクロフォン(201)からの入力を制御する。
・リアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Bのテキストが言語Aのテキストに翻訳される。
・リアルタイム翻訳ソフトウェア(160)が、リアルタイム翻訳機(150)内でコントロールをサウンドカード1へ内部的に切り替える。
・リアルタイム翻訳機(150)により翻訳された言語Aの言葉が発話に変換され、「大きく発声」されると、人物2は、サウンドカード1に取り付けられたスピーカを通して聞き取ることができる。
これにより、それぞれ言語Aと言語Bを話す人物1と人物2との間の双方向会話が可能となる。各話し手は、彼らのそれぞれの言語で相手に話しかけ、相手からは彼ら自身の言語で返事をもらうのである。それは、まるで言語の違いがないかのように行われる。リアルタイム翻訳機(150)の携帯性を通して、リアルタイムで一対一の会話が対面して行える。
図4に図示されているのは、本発明の個人対個人の電話通信における実施例であって、電話回線つまり音声電気通信システムを利用する。人物1が人物2に、電話もしくは同様の電気通信手段を介して話かける方法は、下記の通りである。
・リアルタイム翻訳機ハードウェア(151、152、153)(リアルタイム翻訳ソフトウェア(160)用に構成された携帯型パーソナルコンピュータ)が、リアルタイム翻訳ソフトウェア(160)を動作させる。サウンドカード1には(ヘッドセットまたはその他を介して)マイクロフォン/スピーカが取り付けられる。サウンドカード2は通常の、業界標準音声モデムに取り付けられ、該音声モデムからの出力は、通常の、標準電話ソケットに接続される。人物2側では、特別な接続を必要とせず、他方側のマイクロフォン/スピーカとして動作する普通の電話器でよい。それゆえ、サウンドカード1および対応するマイクロフォン/スピーカは人物1が使用し、サウンドカード2および対応する(電話の)マイクロフォン/スピーカは相手の人物2が(電話を介して)使用する。
・人物1が、音声モデムを通じて電話番号をダイヤルすると、電話回線が接続される。
・人物1が、サウンドカード1に取り付けられたマイクロフォンに向かって話しかける。言語Aのそれらの言葉は、マイクロフォン(101)入力とテキスト変換を制御するリアルタイム翻訳ソフトウェア(160)によって受信される。
・リアルタイム翻訳ソフトウェア(160)は、マイクロフォン(101)からの入力を制御する。
・リアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Aのテキストが言語Bのテキストに翻訳される。
・リアルタイム翻訳ソフトウェア(160)が、リアルタイム翻訳機(150)内でコントロールをサウンドカード2へ内部的に切り替える。
・翻訳された言語Bの言葉が発話に変換され、サウンドカード2に取り付けられた電話を通して「大きく発声」されると、人物2は、普通の電話受話器のスピーカを介して聞き取ることができる。なお、電話音声のパルス/トーン変換は、その通常の機能性の一部として、音声モデムにより実行される。
同じ電話や同様の電気通信手段を介して、人物2が人物1へ返事するまたは話しかける場合は、下記の通りである。
・電話回線(または、同様の電気通信装置)の端で、人物2によって言語Bで話された返事または他の言葉は、電話回線を経由して通常どおり伝送され、サウンドカード2へ入力される。
・リアルタイム翻訳ソフトウェア(160)は、マイクロフォン(201)からの入力を制御する。
・リアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Bのテキストが言語Aのテキストに翻訳される。
・リアルタイム翻訳ソフトウェア(160)が、リアルタイム翻訳機(150)内でコントロールをサウンドカード1へ内部的に切り替える。
・リアルタイム翻訳機(150)により翻訳された言語Aの言葉は、サウンドカード1へ切り替えられ、発話に変換され、「発声」されると、人物1は、サウンドカード1に取り付けられた(ヘッドセットまたはその他の)スピーカを介して聞き取ることができる。
これにより、通常の標準的な電話回線越しの、それぞれ言語Aと言語Bを話す人物1と人物2との間の双方向会話が可能となる。各話し手は、彼らのそれぞれの言語で相手に話しかけ、相手からは彼ら自身の言語で返事をもらうのである。それは、まるで言語の違いがないかのように行われる。リアルタイム翻訳機(150)の携帯性を通して、または、(以下に説明するように)それを電話に繋ぐことによって電話を介して、リアルタイムで一対一の会話が対面して行うことができるだろう。
リアルタイム翻訳機のハードウェア(151、152、153)へ(ゆえにソフトウェアへ)接続するのに、通常の標準音声モデムを使えば、発話と標準的電話パルス/トーン間の変換の簡単な解決策となりえる。また、異なる国々で用いられる場合も、各国の電気通信機関が認可する適切な音声モデムを、それぞれの国で認可が必要な専用の変換器の代わりに、容易かつ効果的に使用できる。
対面会話シナリオについては、電話越しで使われる場合、人物1のリアルタイム翻訳機(150)がすべての役目をはたすため、相手側の人物2はリアルタイム翻訳機(150)やその他特別な機器が不要となる。図4に示す個人対個人の電話通信についての実施例の変形例として、図4Aでは、個人対個人の電話による会話に対する別の使用形態を示す。
図4Aでは、電話システムつまり音声電気通信システムが使われている。しかしながら、二枚のサウンドカードの方法論を伴う、ハードウェアと同様にそのソフトウェアの変形実施例である先のものとの違いは、電気通信会社のコンピュータサーバー(PC)に、または、外部から音声モデムを介さずに、ライセンス下で運用される、それらのシステムのサービスプロバイダに存在する。電話を介した、または、電話会社や電気通信サービスプロバイダから提供される同様の電気通信手段を介した、人物1から人物2への通話の方法は、下記の通りである。
・リアルタイム翻訳機ハードウェア(151、152、153)(リアルタイム翻訳ソフトウェア(160)用に構成された携帯型パーソナルコンピュータ)が、リアルタイム翻訳ソフトウェア(160)を動作させる。電話会社またはサービスプロバイダのサーバ上にあるサウンドカード1には、呼び出し側(人物1)の電話の受話器が、あるいは、(ヘッドセットまたはその他を介して)マイクロフォン/スピーカが取り付けられる。
サウンドカード2もまた、電話会社またはサービスプロバイダのサーバに取り付けられ、外に出て行く電話ネットワークに繋がっており、電話を開始すると、該ネットワークが、この個人対個人の電話による会話ができるよう、相手(人物2)の電話に繋がる。
・特別のサービス用に電話会社またはサービスプロバイダから割り当てられた特別な電話番号を人物1がダイヤルすると、(リアルタイム翻訳ソフト(160)が備わる)サーバに接続される。
・人物1は、電話会社またはサービスプロバイダが指示する音声プロンプト操作をして、相手の電話番号をダイヤルする。そして相手先も、リアルタイム翻訳ソフトウェア(160)が備わる同じサーバに、および、サウンドカード2に接続される。
・人物1が、電話会社またはサービスプロバイダのサーバにおけるサウンドカード1に取り付けられたマイクロフォンに話しかける。そして言語Aのそれらの言葉は、マイクロフォン/電話(101)入力とテキスト変換を制御するリアルタイム翻訳ソフトウェア(160)に受信される。
・電話会社またはサービスプロバイダのサーバにおけるリアルタイム翻訳ソフトウェア(160)は、マイクロフォン/電話(101)からの入力を制御する。
・電話会社またはサービスプロバイダのサーバにおけるリアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Aのテキストが言語Bのテキストに翻訳される。
・電話会社またはサービスプロバイダのサーバにおけるリアルタイム翻訳ソフトウェア(160)が、リアルタイム翻訳機(150)内でコントロールをサウンドカード2へ内部的に切り替える。
・翻訳された言語Bの言葉は発話に変換され、電話会社またはサービスプロバイダのサーバにおけるサウンドカード2に取り付けられた電話回線を経由して「大きく発声」されると、人物2は、通常の電話の受話器のスピーカを介して聞き取ることができる。
同じ電話または同様の電気通信手段を介して、人物2から人物1へ返事をするまたは話しかける場合は、下記の通りである。
・電話回線(または、電話会社またはサービスプロバイダのサーバが提供する同様の電気通信装置)の端での、人物2によって言語Bで話された返事または他の言葉は、電話回線を経由して通常どおり伝送され、電話会社またはサービスプロバイダのサーバにおけるサウンドカード2に入力される。
・リアルタイム翻訳ソフトウェア(160)は、マイクロフォン(201)からの入力を制御する。
・リアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Bのテキストが言語Aのテキストに翻訳される。
・リアルタイム翻訳ソフトウェア(160)がリアルタイム翻訳機(150)内でコントロールをサウンドカード1へ内部的に切り替える。
・リアルタイム翻訳機(150)により翻訳された言語Aの言葉が、サウンドカード1へ切り替えられ、発話に変換され、「発声」されると、人物1は、サウンドカード1に取り付けられたスピーカ(ヘッドセットまたはその他)から聞き取ることができる。
これにより、電話会社またはライセンス下で動作するサービスプロバイダのサーバが供与するサービスとして、それぞれ言語Aと言語Bを話す人物1と人物2との間で、通常の電話回線を介した双方向会話が可能となる。各話し手は、彼らのそれぞれの言語で相手に話しかけ、相手からは彼ら自身の言語で返事をもらうのである。それは、まるで言語の違いがないかのように行われる。電話会社またはサービスプロバイダのサーバによって提供されるリアルタイム翻訳機(150)を使用した電話を介して、リアルタイムで一対一の会話が対面して行える。
図4Aに示す、フランス人から日本人への電話を介した会話のような個人対個人の電話通信の例でいえば、まず、ことによると日本にいる人物2へダイヤルする、ことによるとフランスにいる人物1がいる。人物1はフランス語を話し、相手の人物2は日本語を話す。リアルタイム翻訳機を介した接続により、人物1がフランス語を話すと、直ちにリアルタイム翻訳機は、人物2に日本語で話しかける。日本語での返事は、リアルタイム翻訳機で翻訳され、人物1にフランス語で伝えられる。それゆえ、どちらも相手の言葉を理解できなくとも、会話をするための瞬時の能力が立ち上がるのである。
一人から多数へのさらに別の実施例においては、−つまり話し手から聴衆への、または、公共放送のシナリオにおいては、図5に見られるように、人物1が(人物2と表現される)多数の相手に話しかける。
・リアルタイム翻訳機ハードウェア(151、152、153)(リアルタイム翻訳ソフトウェア(160)用に構成された携帯型パーソナルコンピュータ)が、リアルタイム翻訳ソフトウェア(160)を動作させる。サウンドカード1には(ヘッドセットを介した、またはスタンドアロンの)マイクロフォン/スピーカが取り付けられる。
・サウンドカード2には、もし聴衆の関与が必要な場合は、(独立している、または同様にヘッドセットを介した)別のマイクロフォン/スピーカが、そうでなければ、拡声器やその他のスピーカ/放送システムが取り付けられる。サウンドカード1および対応するマイクロフォン/スピーカは、人物1(本例では、講師/発言者)が使用する。サウンドカード2および対応するマイクロフォン/スピーカは、人物2−このシナリオにおいては聴衆−が使用する。
・人物1が、サウンドカード1に取り付けられたマイクロフォンに話しかける。言語Aのそれらの言葉は、マイクロフォン(101)入力とテキスト変換を制御するリアルタイム翻訳ソフトウェア(160)によって受信される。
・リアルタイム翻訳ソフトウェア(160)は、マイクロフォン(101)からの入力を制御する。
・リアルタイム翻訳ソフトウェア(160)およびそれにより制御されるソフトウェアにより、言語Aのテキストが言語Bのテキストに翻訳される。
・リアルタイム翻訳ソフトウェア(160)がリアルタイム翻訳機(150)内でコントロールをサウンドカード2へ内部的に切り替える。
・リアルタイム翻訳機(150)により翻訳された言語Bの言葉が、サウンドカード2に切り替えられ、発話に変換され、「大きく発声」されると、聴衆(人物2)は、サウンドカード2に取り付けられたラウドスピーカ/スピーカを介して聞き取ることができる。
上記のように、リアルタイム翻訳ソフトウェア(160)およびハードウェアを含む本発明が、二つの異なる言語間の簡単な双方向の会話/対話を単一のインスタンスでまかなうことは、明白である。
・対面の会話(リアルタイム翻訳機(150)の携帯性を通じた)において。
・標準的な電話または電気通信越しに行われる会話において。
・話し手から聴衆へ等の1対多数の対話において。
・ラジオ放送、テレビ放送、パブリックアナウンスメント等の1対多数の状況において。
・会議システム等の多数対多数の対話において。
リアルタイム翻訳機(150)における特別な構成要求事項は、二枚のサウンドカードを追加することだけである。本発明による一枚のサウンドカードでの「左右チャンネル」を利用するためにコーディングを行うことにより同様の効果が得られるが、プロトタイプとして二枚のサウンドカードの解決策が選択された。
本発明の実施例の装置は、携帯式となるように製造することが可能であって、できるかぎり小さなサイズになるよう特別に製造することができ、従って持ち運びが簡単である。そのリアルタイム翻訳ソフトウェア(160)により、言語障壁を効果的に排除できる。また、英語から中国語、ドイツ語から日本語等に関わらず、異なる言語しか話せず、話し手を理解できない相手との会話や対話の能力欠如、および言語の差が、リアルタイム翻訳機(150)により永久に解消できる。リアルタイム翻訳機(150)は、旅行者にとってコンパニオンであり友人であって、完全な自由を可能にする。ユーザは、一つの国から別の国へと自由に簡単に旅行でき、他の言語の習得や周知を全く必要とせずに、瞬時に「その場で」、相手を理解させると同時に、相手の話し言葉も理解することが可能となる。
ビジネスマンにとってもリアルタイム翻訳機(150)は、コミュニケーションのための効果的手段となりえる。また、本発明は、金や時間を浪費する高価で無駄な練習をすることなく、電話越しの簡単なコミュニケーションを行える商業上の道具としても利用できる。つまり、言語障壁や、付随する問題/フラストレーションなく、顧客、供給者、潜在的な商談相手と直接に、話すことが可能となる。リアルタイム翻訳機(150)は、マスコミ分野や、異なる言語でのコミュニケーションが必要となる場合の教育現場や、異なる言語を話す人々との折衝が必要な政府組織においても効果的な道具となりえる。
さらにまた、本発明は、二種類のソフトウェアの変形例も提供できる。第一種類目のソフトウェアは、下記のような設定をもつ。
・リアルタイム翻訳ソフトウェアがパーソナルコンピュータにインストールされ、ユーザガイドのためアプリケーション画面に表示される。
・マイクロフォンがソフトウェアによって制御され、ユーザが話した入力を、マイクロフォンを介して、またはキーボードを介して受信する。
・そして、リアルタイム翻訳ソフトウェアで、言語Aから言語Bに変換、翻訳し、リアルタイムにまたは実質的に瞬時ににパソコンのスピーカから口語出力する。
それゆえに、本発明のソフトウェアは、外国言語を話せるようになるための学習ツール/学習支援として利用することもできる。
・さらに、本発明のソフトウェアを使えば、ユーザが、言語Bの言葉を聞き返して、同等な言葉、正確な発音、適切な話し方をも学ぶことができる。
このことは、フレーズや言葉を予め記録、予め入力できるだけの任意の他の同様なツールに比べて、明らかな優位性をもつ。つまり、ユーザは、それぞれが選択した「自由な形式の」会話を話したり聞いたりして学習することができる。それゆえ、学習プロセスが、非常に簡易化され、より実用的な使い方ができるのである。
本発明のソフトウェアの第二種類目の変形例では、上記の全てに加えて、リアルタイム翻訳機の同じ機能性を使って、並列のアプリケーション画面が提供される。それにより、ユーザは、言語Bの発音や話し方を学習しながら、リアルタイムに、実質的に瞬時に、言語Aに翻訳し戻すことができる。つまり、発音が実質的に正確ならば、言語Aへ戻る翻訳が、元の言葉で発声し返すので、ユーザは発音を正確に学習できるのである。
本発明の第一実施例によるリアルタイム翻訳機のフローチャートである。 図1のリアルタイム翻訳機の説明図である。 本発明のリアルタイム翻訳機の第一の使用例を示す説明図である。 本発明のリアルタイム翻訳機の第二の使用例を示す説明図である。 電話会社または電気通信サービスプロバイダのサーバで利用される、本発明のリアルタイム翻訳機のさらに別の使用例を示す説明図である。 本発明のリアルタイム翻訳機の第三の使用例を示す説明図である。
符号の説明
101 マイクロフォン
102 音声/テキスト変換器
103 テキスト/テキスト話し言葉翻訳機
104 スピーカへの切り替え
105 テキスト/発話変換器
111 スピーカ
150 リアルタイム翻訳機
151 サウンドカード
152 サウンドカード
153 CPU
201 マイクロフォン
202 音声/テキスト変換器
203 テキスト/テキスト話し言葉翻訳機
204 スピーカへの切り替え
205 テキスト/発話変換器
211 スピーカ

Claims (26)

  1. リアルタイム翻訳機であって、
    (a)一つの音声レシーバ、
    (b)一つの音声からテキストへの変換器、
    (c)第一の言語を受信して第二の選択言語に翻訳するための、一つのテキスト/テキスト話し言葉変換器、
    (d)翻訳された第二の選択言語を音声出力に変換するための、一つのテキストから音声への変換器、および、
    (e)音声出力を発声するための、一つの音声エミッタ
    を含み、該リアルタイム翻訳機は、一つの口語言語を話す人物からの会話を翻訳して、第二の口語言語を話す相手に伝え、それと同時あるいは実質的に同時に、第二の口語言語を話す第二の人物からの会話を翻訳して、第一の人物に伝えることができ、それゆえに、両者は異なる口語言語を用いて、通常の時間内に通常の会話を行うことが可能となるように、ひとつまたは複数のサウンドカードおよびソフトウェアによって操作される二つの音声経路を有する多言語変換翻訳機として機能することを特徴とする、リアルタイム翻訳機。
  2. 該翻訳機が携帯型、ハンドヘルドまたは耳掛式等であることを特徴とする、請求項1に記載のリアルタイム翻訳機。
  3. 該翻訳機が電話システムに取り付け可能またはパーソナルアドレスシステム等に取り付け可能であることを特徴とする、請求項1に記載のリアルタイム翻訳機。
  4. リアルタイム翻訳機であって、
    (a)少なくとも一つの音声レシーバ、
    (b)少なくとも一つの、音声からテキストへの変換器、
    (c)第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳し、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
    (d)翻訳された第一および/または第二の選択言語を音声出力に変換するための、少なくとも一つのテキストから音声への変換器、ならびに、
    (e)音声出力を発声するための、少なくとも一つの音声エミッタ
    を含むことを特徴とするリアルタイム翻訳機。
  5. 関連するソフトウェアを伴う第二の別個の電子音声マニピュレータにより、第二の選択言語に翻訳されたテキストを音声に変換する一方で、受信された第一の言語の第一の音声の音をテキストに変換できるよう、リアルタイム翻訳機が、関連するソフトウェアを伴う二つの別個の電子音声マニピュレータにより形成された二つの音声経路を備えることを特徴とする、請求項4に記載のリアルタイム翻訳機。
  6. 別個の電子音声マニピュレータが、二枚のパーソナルコンピュータ用サウンドカード等であるか、もしくは別個のソフトウェア制御を伴う、一枚のパーソナルコンピュータ用サウンドカード等の二つの左右別個のチャンネルであることを特徴とする、請求項4に記載のリアルタイム翻訳機。
  7. 携帯型リアルタイム翻訳機であって、
    (a)第一および第二の選択言語の音声を受信するための第一および第二の音声レシーバ、
    (b)第一および第二の、音声からテキストへの変換器、
    (c)第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳し、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
    (d)翻訳された第一および第二の選択言語を第一および第二の音声出力に変換するための、第一および第二の音声変換器、ならびに、
    (e)音声出力を発声するための、第一および第二の音声エミッタ
    を含むことを特徴とする、携帯型リアルタイム翻訳機。
  8. 携帯型リアルタイム翻訳機が、音声を受信してから翻訳された音声を発声するまでの時間差が、一秒未満、最大でも二秒ほどの妥当な会話時間内に収まるよう、第一および第二の音声の、テキストへの、またはテキストからの変換の変換処理において、および/または、テキストからテキストへの言語翻訳を伴う処理において、「オーバーラップ」で動作することができる構成を備えることを特徴とする、請求項7に記載の携帯型リアルタイム翻訳機。
  9. 構成が、区切られた音声フレーズの断続的な流れが会話をシミュレートし、好ましくは、そのような音声フレーズが、文または文の一部であるよう、音声フレーズの点で入力音声の音声フレージングに実質的に一致する、行われる音声の翻訳と発声によって会話をシミュレートできること特徴とする、請求項8に記載の携帯型リアルタイム翻訳機。
  10. 携帯型リアルタイム翻訳機が、別個の音経路によって、第一の言語の第一の音声を受信し翻訳して、翻訳された音声を発声すると同時にまたは一見すると同時に、第二の言語の第二の音声を受信し翻訳して、翻訳された第二の音声を発声するよう、処理において「オーバーラップ」があり、二つの音経路を備えることを特徴とする、請求項7に記載の携帯型リアルタイム翻訳機。
  11. 二つの音経路が、別個のパーソナルコンピュータ用サウンドカード等もしくは一枚のサウンドカード等上の別個のチャンネルを含むことを特徴とする、請求項10に記載の携帯型リアルタイム翻訳機。
  12. 二つの音経路が、その両方の経路の妥当なリアルタイム処理を同時に維持できる速度で両処理経路間を切り替えるためのスイッチングシステムを含むことを特徴とする、請求項10に記載の携帯型リアルタイム翻訳機。
  13. 音声のリアルタイム翻訳を行う方法であって、該方法が、
    (a)第一および第二の選択音声言語を受信するための第一および第二の音声レシーバを準備するステップ、
    (b)それぞれ第一および第二の音声レシーバと関連付けられた、音声出力を発声するための第一および第二の音声エミッタを準備するステップ、
    (c)前記第一および第二の音声レシーバからの前記第一および第二の選択音声言語をテキストに変換するステップ、
    (d)前記第一の音声レシーバからの第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳し、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するための、テキスト/テキスト話し言葉変換器を準備するステップ、
    (e)翻訳された第一および第二の選択言語を第一および第二の音声出力に変換するための音声変換器を準備するステップ、ならびに、
    (f)翻訳され変換された第一および第二の音声出力を発声するステップを含み、
    音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換を並列処理できることを特徴とする、リアルタイム翻訳を行う方法。
  14. 第一および第二の音声レシーバならびに第一および第二の音声エミッタが、二枚のサウンドカードまたは、一枚のサウンドカード上で個別に動作する二つのチャンネルで構成されることを特徴とする、請求項13に記載のリアルタイム翻訳方法。
  15. 音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の処理が、一枚または複数枚のサウンドカードのソフトウェア制御を伴う中央演算処理装置(CPU)等により、好ましくは、それらの並列処理が中央演算処理装置(CPU)の並列処理技術またはソフトウェア制御によるスイッチング技術により行われることを特徴とする、請求項13に記載のリアルタイム翻訳方法。
  16. 音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の処理が、二秒程度の音声フレーズの速度と、中央演算処理装置(CPU)のメガヘルツスイッチングとのスイッチングにより行われることを特徴とする、請求項13に記載のリアルタイム翻訳方法。
  17. リアルタイム翻訳機であって、
    (a)少なくとも一つの音声レシーバからの音声を入力できる翻訳機入力部、
    (b)少なくとも一つの、音声からテキストへの変換器、
    (c)第一の選択言語のテキストを受信して第二の選択言語のテキストに翻訳し、および/または、第二の選択言語のテキストを受信して第一の選択言語のテキストに翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
    (d)翻訳された第一および/または第二の選択言語を音声出力に変換するための、少なくとも一つのテキストから音声への変換器、ならびに、
    (e)音声出力を発声する一つの音声エミッタへ、少なくとも音声出力を送ることのできる翻訳機出力部
    を含むことを特徴とする、リアルタイム翻訳機。
  18. リアルタイム翻訳機が、音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の並列処理を含むことを特徴とする、請求項17に記載のリアルタイム翻訳機。
  19. リアルタイム翻訳機が、第二のサウンドマニピュレータにより、第二の選択言語に翻訳されたテキストを音声に変換する一方で、第一のサウンドマニピュレータにより、受信された第一の言語の第一の音声の音をテキストに変換できるような、処理手段と、二つの音経路を形成する二つのサウンドマニピュレータとを含むことを特徴とする、請求項17に記載のリアルタイム翻訳機。
  20. 別個の電子サウンドマニピュレータが、二枚のパーソナルコンピュータ用サウンドカード等、もしくは別個のソフトウェア制御を伴う一枚のパーソナルコンピュータ用サウンドカード等の二つの左右別個のチャンネルであり、
    音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換を並列処理でき、そして、音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の処理が、二秒程度の音声フレーズの速度と、中央演算処理装置(CPU)のメガヘルツスイッチングとのスイッチングにより行われることを特徴とする、請求項17に記載のリアルタイム翻訳機。
  21. リアルタイム翻訳機であって、
    (a)少なくとも一つの音声レシーバからの、少なくとも一つの音声からテキストへの変換器による受信のための音声(i)、またはキーボード入力(ii)を受信可能な第一の翻訳機入力部、
    (b)翻訳機入力部から第一の選択言語のテキストを受信して、第二の選択言語のテキストへ翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
    (c)翻訳された第一および/または第二の選択言語を音声出力に変換するための少なくとも一つのテキストから音声への変換器と、
    音声出力を発声するための、もしくは画面上に表示するための一つの音声エミッタへ、少なくとも音声出力を送ることができるような翻訳機出力部、
    (d)少なくとも一つの音声レシーバからの、少なくとも一つの音声からテキストへの変換器による受信のための音声(i)、またはキーボード入力(ii)を受信可能な第二の翻訳機入力部、
    (e)第二の選択言語のテキストを受信して、第一の選択言語のテキストへ翻訳するための、少なくとも一つのテキスト/テキスト話し言葉変換器、
    (f)翻訳された第二の選択言語を音声出力に変換するための、少なくとも一つのテキストから音声への変換器と、
    音声出力を発声するための、もしくは翻訳された第二の選択言語を画面上に表示するための一つの音声エミッタへ、少なくとも音声出力を送ることができるような翻訳機出力部
    を含むことを特徴とする、リアルタイム翻訳機。
  22. リアルタイム翻訳機が、音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の並列処理を含むことを特徴とする、請求項21に記載のリアルタイム翻訳機。
  23. リアルタイム翻訳機が、第二のサウンドマニピュレータにより、第二の選択言語に翻訳されたテキストを音声に変換する一方で、第一のサウンドマニピュレータにより、受信された第一の言語の第一の音声の音をテキストに変換できるよう、処理手段と、二つの音経路を形成する二つのサウンドマニピュレータとを含むことを特徴とする、請求項22に記載のリアルタイム翻訳機。
  24. 別個の電子サウンドマニピュレータが、二枚のパーソナルコンピュータ用サウンドカード等、もしくは別個のソフトウェア制御を伴う一枚のパーソナルコンピュータ用サウンドカード等の二つの左右別個のチャンネルであり、音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換を並列処理でき、音声からテキストへの変換および/またはテキストの翻訳および/またはテキストから音声への変換の処理が、二秒程度の音声フレーズの速度と、中央演算処理装置(CPU)のメガヘルツスイッチングとのスイッチングにより行われることを特徴とする、請求項23に記載のリアルタイム翻訳機。
  25. 付随の図面を参照にして述べた、先に記載したようなリアルタイム翻訳機。
  26. 付随の図面を参照にして述べた、先に記載した音声のリアルタイム翻訳を行う方法。

JP2003553443A 2001-12-17 2002-12-17 リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法 Pending JP2005513619A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AUPR9569A AUPR956901A0 (en) 2001-12-17 2001-12-17 Real time translator
US10/081,773 US20030115059A1 (en) 2001-12-17 2002-02-20 Real time translator and method of performing real time translation of a plurality of spoken languages
PCT/AU2002/001706 WO2003052624A1 (en) 2001-12-17 2002-12-17 A real time translator and method of performing real time translation of a plurality of spoken word languages

Publications (1)

Publication Number Publication Date
JP2005513619A true JP2005513619A (ja) 2005-05-12

Family

ID=25646860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003553443A Pending JP2005513619A (ja) 2001-12-17 2002-12-17 リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法

Country Status (5)

Country Link
EP (1) EP1468376A1 (ja)
JP (1) JP2005513619A (ja)
CN (1) CN1602483A (ja)
CA (1) CA2510663A1 (ja)
WO (1) WO2003052624A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013164515A (ja) * 2012-02-10 2013-08-22 Toshiba Corp 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2016042356A (ja) * 2014-08-18 2016-03-31 英奇達資訊股▲ふん▼有限公司 モバイル装置を結合した講演補助システム
JP2018173910A (ja) * 2017-03-31 2018-11-08 株式会社リクルートライフスタイル 音声翻訳システム及び音声翻訳プログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2921735B1 (fr) 2007-09-28 2017-09-22 Joel Pedre Procede et dispositif de traduction ainsi qu'un casque mis en oeuvre par ledit dispositif
FR2923928B1 (fr) 2007-11-19 2009-12-04 Bonneton William Systeme d'interpretation simultanee automatique.
US8239185B2 (en) * 2008-01-17 2012-08-07 Geacom, Inc. Method and system for situational language translation
CN101739867B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
FR2965136B1 (fr) 2010-09-21 2012-09-21 Joel Pedre Traducteur verbal integre a ërception d'interlocuteur integree
CN103838714A (zh) * 2012-11-22 2014-06-04 北大方正集团有限公司 一种语音信息转换方法及装置
US9818397B2 (en) 2013-08-26 2017-11-14 Google Technology Holdings LLC Method and system for translating speech
US9646626B2 (en) 2013-11-22 2017-05-09 At&T Intellectual Property I, L.P. System and method for network bandwidth management for adjusting audio quality
US9542929B2 (en) * 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
CN104409077A (zh) * 2014-10-17 2015-03-11 广州三星通信技术研究有限公司 获取终端中的对话语音对应的文本的方法和装置
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN104580779B (zh) * 2015-01-19 2018-03-02 刘建芳 一种远程语音翻译终端
CN106156009A (zh) * 2015-04-13 2016-11-23 中兴通讯股份有限公司 语音翻译方法及装置
KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법
CN107230477A (zh) * 2016-03-23 2017-10-03 刘国 自动翻译全球通讯系统
CN105979421A (zh) * 2016-06-24 2016-09-28 陈灿伟 一种基于同声翻译的蓝牙耳机及应用其的同声翻译系统
CN107798386B (zh) * 2016-09-01 2022-02-15 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN107979686A (zh) * 2016-10-25 2018-05-01 北京分音塔科技有限公司 一种实现实时语音互译的系统
CN107993646A (zh) * 2016-10-25 2018-05-04 北京分音塔科技有限公司 一种实现实时语音互译的方法
CN106935240A (zh) * 2017-03-24 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的语音翻译方法、装置、终端设备和云端服务器
CN107708006B (zh) * 2017-08-23 2020-08-28 广东思派康电子科技有限公司 计算机可读存储介质、实时翻译系统
CN107659881A (zh) * 2017-09-30 2018-02-02 夏敬懿 一种定向集音器及定向集音翻译机
CN107885731A (zh) * 2017-11-06 2018-04-06 深圳市沃特沃德股份有限公司 语音翻译方法和装置
WO2019084962A1 (zh) * 2017-11-06 2019-05-09 深圳市沃特沃德股份有限公司 语音翻译方法、装置和翻译机
KR20200125735A (ko) * 2018-04-27 2020-11-04 주식회사 엘솔루 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치
CN109614628A (zh) * 2018-11-16 2019-04-12 广州市讯飞樽鸿信息技术有限公司 一种基于智能硬件的翻译方法与翻译系统
JP7194900B2 (ja) * 2018-11-30 2022-12-23 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
DE102019208742B4 (de) * 2019-06-17 2021-01-14 Audi Ag Sprachübersetzungssystem zum Bereitstellen einer Übersetzung eines Spracheingabesignals eines Sprechers in ein anderssprachiges Sprachausgabesignal für einen Hörer sowie Übersetzungsverfahren für ein derartiges Sprachübersetzungssystem
CN110232919A (zh) * 2019-06-19 2019-09-13 北京智合大方科技有限公司 实时语音流提取与语音识别系统及方法
CN112435690B (zh) * 2019-08-08 2024-06-04 百度在线网络技术(北京)有限公司 双工蓝牙翻译处理方法、装置、计算机设备和存储介质
CN111868732B (zh) * 2020-06-19 2023-07-07 深圳市台电实业有限公司 便携式远程同声传译翻译台
CN112201224A (zh) * 2020-10-09 2021-01-08 北京分音塔科技有限公司 用于即时通话同声翻译的方法、设备及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2713800B1 (fr) * 1993-12-15 1996-03-15 Jean Gachot Procédé et dispositif pour transformer un premier message vocal dans une première langue, en un second message vocal prononcé dans une seconde langue prédéterminée.
US6292769B1 (en) * 1995-02-14 2001-09-18 America Online, Inc. System for automated translation of speech
DE19508017A1 (de) * 1995-03-07 1996-09-12 Siemens Ag Kommunikationsgerät
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
DE20100313U1 (de) * 2001-01-09 2001-03-29 Lich, Willi, 64665 Alsbach-Hähnlein Mobiles System zur Sprachausgabe

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013164515A (ja) * 2012-02-10 2013-08-22 Toshiba Corp 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2016042356A (ja) * 2014-08-18 2016-03-31 英奇達資訊股▲ふん▼有限公司 モバイル装置を結合した講演補助システム
JP2018173910A (ja) * 2017-03-31 2018-11-08 株式会社リクルートライフスタイル 音声翻訳システム及び音声翻訳プログラム

Also Published As

Publication number Publication date
WO2003052624A1 (en) 2003-06-26
CN1602483A (zh) 2005-03-30
EP1468376A1 (en) 2004-10-20
CA2510663A1 (en) 2003-06-26

Similar Documents

Publication Publication Date Title
JP2005513619A (ja) リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法
US20030115059A1 (en) Real time translator and method of performing real time translation of a plurality of spoken languages
Seeber Community sex work: Simultaneous interpreting
Zue et al. Conversational interfaces: Advances and challenges
US5995590A (en) Method and apparatus for a communication device for use by a hearing impaired/mute or deaf person or in silent environments
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US20050226398A1 (en) Closed Captioned Telephone and Computer System
US20090144048A1 (en) Method and device for instant translation
US20190121860A1 (en) Conference And Call Center Speech To Text Machine Translation Engine
JP2000207170A (ja) 情報処理装置および情報処理方法
KR100917552B1 (ko) 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체
JPH10136327A (ja) ディスクトップ会議システム
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
JPH07129594A (ja) 自動通訳システム
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP2009122989A (ja) 翻訳装置
JP2021027430A (ja) 多言語会議システム
Westall et al. Speech technology for telecommunications
TWM556360U (zh) 視訊同步翻譯系統
Rabiner Toward vision 2001: Voice and audio processing considerations
Farangiz Characteristics of Simultaneous Interpretation Activity and Its Importance in the Modern World
AU2002351866A1 (en) A real time translator and method of performing real time translation of a plurality of spoken word languages
KR20200081925A (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
TWI719699B (zh) 人工智慧輔助說好話的方法
KR20240074329A (ko) 청각 장애인을 위한 작업장 음성 지원 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071106