JP2011504624A - 自動同時通訳システム - Google Patents

自動同時通訳システム Download PDF

Info

Publication number
JP2011504624A
JP2011504624A JP2010533647A JP2010533647A JP2011504624A JP 2011504624 A JP2011504624 A JP 2011504624A JP 2010533647 A JP2010533647 A JP 2010533647A JP 2010533647 A JP2010533647 A JP 2010533647A JP 2011504624 A JP2011504624 A JP 2011504624A
Authority
JP
Japan
Prior art keywords
language
sentence
speech
translation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010533647A
Other languages
English (en)
Inventor
グレニエール,ジャン
Original Assignee
ボネトン,ウィリアム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ボネトン,ウィリアム filed Critical ボネトン,ウィリアム
Publication of JP2011504624A publication Critical patent/JP2011504624A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract


本通訳システムは、起点言語で書かれ、または発音された文の視覚的または聴覚的取得手段および音声の変換手段、取得手段で取得した入力信号から、起点言語への文の転写である起点言語文を生成するための認識手段(30)、起点言語文から、目標言語への起点言語文の翻訳である目標言語文を生成するための翻訳手段(32)および目標言語文から、音響変換手段によって再生されることのできる出力音響信号を生成するための音声合成手段 (34)を含む通訳システムである。本発明では、本通訳システムは、リアルタイムで、起点言語での文を目標言語に生成するために、認識手段(30)、翻訳手段(32)および音声合成手段 (35)を呼び出すための平滑化手段(40)を含んでいる。
【選択図】 図3。

Description

本発明は、自動同時通訳システムに関する。言語学では、同時通訳システムとは、起点言語で発音された内容を言っているそばから目標言語に変換することを指す。通訳という用語は、翻訳という用語よりも好ましいのは、後者が、厳密な意味で、もっぱら記述に関するからである。
技術の現状では、音声認識装置が知られている。例えば、SCANSOFT社が「Dragon Naturally Speaking」の名称で市販しているソフトウエアは、口述者が口述する文書をデイスプレー上に書き換えることができる。口述者は、声を出して読むに連れて、あいまいな語尾の書き方や句読点などに関する情報で文書を充実させる。
そのほかに、起点言語の文書を目標言語の文書に翻訳することのできる翻訳ソフトウエアが存在している。例えば、Systranソフトウエアは、同名の企業が市場に出しているが、文法上の法則、文体上の法則および改定されることのある辞書に則って自動翻訳ができる。
なお、やはりそのほかに、例えばコンピュータのデイスプレーに記されている文書を音響変換できる音声合成ソフトウエアが存在している。France TELECOM社の技術に基づく、「Speak Back」の商標で市販されているソフトウエアは、この種の音声合成ソフトウエアの一例である。
WO−2003−052624号文書は、起点言語で発音された文の少なくとも1の取得手段と少なくとも1の音響変換手段、音響取得手段で取得した入力信号から、起点言語で発音された文の転写である起点言語を生成するための音声認識手段、目標言語への起点文の翻訳である目標言語文を生成するための翻訳手段、ならびに目標言語文から、同音響変換手段で変換できた出力音響信号を生成するための音声合成手段を含むタイプの通訳システムを叙述している。
しかし、叙述された通訳システムは、音声認識手段、翻訳手段および音声合成手段の単なる積み重ねの様相を呈しているに過ぎない。とりわけ、叙述された通訳システムは、文の処理プロセスが、取得から変換まで、効果的に実施されるための手段を含んでいない。
WO−2003−052624
したがって、本発明は、文の処理プロセスがリアルタイム、すなわち処理のデッドタイムを最小限にすることを可能にする、改良された通訳システムを提案することによって、この問題の欠陥を排除することにある。
そのために、本発明は、リアルタイムで、起点言語文を目標言語に通訳するための同認識手段、翻訳手段および音声合成手段を逐次呼び出すことのできる平滑化手段を含むことを特徴とする、前記タイプの通訳システムを目的としている。
独自の実施態様によれば、本システムは、単独に、または可能な技術上の組み合わせにしたがって、採用した1または複数の下記特性を含んでいる。すなわち、
− 目標言語への起点言語の辞書を含む同翻訳手段、
− 同音声合成手段は、出力音響信号を生成すべく、単語の綴りと、目標言語の一連の音素と一連の発音の法則とを関連付ける音声辞書を含んでいる。
− 同平滑化手段は、一方では、同認識手段、翻訳手段および音声合成手段、他方では、平滑化手段との間のメッセージの交換を可能にする伝達手段を含んでいる。
− 伝達手段は、認識手段、翻訳手段、音声合成手段 および平滑化手段のそれぞれの入力に関連付けられてある待機列を含んでいる。
− メッセージは、要望と論証を含んでいる。
− 同取得手段は、視覚的取得手段であり、同認識手段は、同視覚的取得手段で取得した、起点言語で書かれた文から起点言語文を生成することのできる視覚的認識手段である。
− 同取得手段は、音響取得手段であり、同認識手段は、同音響取得手段で取得する、起点言語で発音された文から起点言語を生成することのできる音声認識手段である。
− 同音声認識手段に含まれるのは、
入力音響信号を一連の音素に分解することのできる音素認識手段、
一連の音素から一連の音素群を生成するために、音素相互を集合し得る再結集手段、および
一連の音素群から起点言語文を生成するように、単語の綴りを音素群に関連付けることのできる転写手段、同転写手段は、単語の綴り群を音素群に関連付けさせる起点言語のディレクトリーおよび単語の綴り群の中から独自の綴りを選定できる一連の法則を含んでいる。
− 本システムが第1のチャンネルで第1のスピーチを第2の目標言語に通訳し、第2のチャンネルで、第2の起点言語スピーチを第2の目標言語に解釈する双方向の通訳が可能であり、一方では、第1の起点言語と第2の目標言語、他方では、第2の起点言語と第1の目標言語が同一であり、同システムは、更に、第1の音響取得手段と第1の音響変換手段、ならびに第2の音響取得手段と第2の音響変換手段を含んでいる。
− 第1の起点言語に独自の第1の音声認識手段、ならびに第2の起点言語に独自の第2の音声認識手段を含んでおり、翻訳手段と音声合成手段 は、第1と第2のチャンネルのどちらでも機能する。
− 第1のチャンネルに、第1の音声認識手段、第1の翻訳手段および第1の独特な音声合成手段、ならびに第2のチャンネルに、第2の音声認識手段、第2の翻訳手段および第2の独特な音声合成手段を含んでいる。
本発明は、添付図に照らして、作成し、例としてのみ示した記述を読むことによって、よりよく理解されるだろう、すなわち、
携帯用実施態様における通訳システムの芸術的表現図である。 図1の本システムの器材部の図式的表現である。 図1の本システムのソフトウエア部の各種モジュール群の図である。および 図3の認識モジュールの機能組織図である。
図1を参照すると、本発明による同時通訳システムの携帯型実施態様が示してある。ユーザーが紐類で頸に掛けて持てる小型ケース1のことを指す。
本システムは、ユーザーにとって通訳システムのそれぞれ第1の音響変換手段および第1の音響取得手段になるイヤホーン3および第1のマイクロ4を具えている。
本システムは、凹部7の底に格納してある小型のスピーカー5と第2
のマイクロ6を具えており、それは対話者にとって、それぞれ第2の音響変換手段および第2の音響取得手段になる。この第2の手段5と6は、ケース1の同じ前面に配置してある。
対話者とは、ここでは、一般的に、ユーザーが話し合いたい者を指す。この対話者は、各種出所から発生される環境の音響を捕捉するために本システムを利用する場合、不特定であり得ることに留意すべきだろう。
本システムは、言語L2で表現する対話者のスピーチを、ユーザーが理解している言語L1に通訳すること、ならびに言語L1で表現するユーザーのスピーチを対話者の言語L2に通訳することを同時に可能にしているので、双方向的である。したがって、第1の機能チャンネルは、第1のマイクロで捕捉した入力音響信号の処理に対応し、そのとき、言語L1が、第2のスピーカー6から発生する出力音響信号を発生するために起点言語に対応しており、言語L2がそのとき、この第1のチャンネルの目標言語として表われる。
逆に、第2の機能チャンネルは、第2のマイクロ6で捕捉した音響信号の処理に対応し、第1のラウドスピーカー3で発生する信号を生ずるために、ここでは、起点言語に相当するが、言語L1は、このとき、この第2のチャンネルの目標言語として表われる。
ユーザーは、ケース1の上部の中に、情報を視覚化するためのデイスプレー8およびシステムと相互作用するためのボタン9を使用できる。ボタン9は、例えば、デイスプレーに提示される、くり広がるコースの中から要素を選定するために「クリックできる」回転式のホイールであり得る。
図2を参照すると、本システムは、器材部の中に、読み出し専用メモリ11と随時書き込み読み出しメモリ12のようなメモリ手段、プロセッサー13のような演算手段、および第1と第2のマイクロ4と6との計数信号の交換を保証する入力・出力インターフェース10、イヤホーン3とラウドスピーカー5、ならびに例えばデイスプレー8と選択用ホイール9を含んでいる。
図3では、本発明によるシステムのソフトウエア部は、MICROSOFT社が開発したWindows XPソフトウエアのような、器材部の開発システム20と機能するアプリケーション25である。同時通訳ソフトウエアアプリケーション25は、読み出し専用メモリ11にストックされていて、プロセッサ13で実施待機中の一連の命令を含んでいる。
もっと明瞭にするために、第1のチャンネルによるデータの処理に限定すると、アプリケーション25は、図3に図式的に表したソフトウエアモジュール一揃いを含んでいる。
音声認識(英語で「Automated Speech Recognition」)と呼ばれている第1のモジュール30は、入力時に、第1の音響取得手段で生ずる音響信号を取り、リアルタイムで、起点言語文に転写する。起点言語文とは、実際に発音された文の評価に相当する文型の対象である。この第1のモジュール30は、起点言語独特の音素表、起点言語の一群の音素と一群の単語の綴りを関連付けるレパートリー、ならびに例えば文脈に応じて、対象単語に先行し、または後に続く単語などに特有な綴りを選定するための一連の法則を含んでいる。
翻訳(英語で「Translation」)と呼ばれている第2のモジュール32は、入力時に、起点言語文を取り、起点言語から目標言語に翻訳する。翻訳モジュール32は、目標言語文を生成する。目標言語文は、起点言語文の翻訳の評価に相当する文型の対象である。この第2のモジュール32は、起点言語の単語を目標言語の単語群に関連付ける辞書、ならびに例えば対象単語が使用されている文脈をベースにして、この語群の中から独自の単語を選定できる一連の翻訳法則とを関連付ける辞書を含んでいる。
発音または音声合成(英語で「Text to Speech」)と呼ばれている第3のモジュール34は、入力時に、目標言語を取り、出力の音響信号を合成する。第2の音響変換手段に伝達されるこの信号は、目標言語文を音響的に再生する目標言語の音素の要素連続に相当する。この第3のモジュール34は、目標言語の単語を一連の音素に関連付ける音声辞書、ならびに発音の基本的音響信号を音素に関連付ける発音表を含んでいる。
人・機械インターフェースモジュール36は、デイスプレー8上にデータを表示でき、ユーザーは、ホイール9でデータを把握できる。変形態様では、モジュール36は、次の基本的オペレーションのために有効にする前に、ユーザーがこの表示された文章をフィルターに掛け、充実できるために、認識モジュール30から出力される言語L1および/または翻訳モジュール32から提示装置8に出力される言語L2の文書を表示する。
なお、アプリケーション25は、平滑化モジュール40を含んでいる。平滑化モジュール40は、状態関連装置からなる。
設定状態では、モジュール40は、ユーザーの好みに応じて、本システムの設定を引き受ける。変更できる設定の要因は、例えば言語L1、言語L2であり、音声認識手段30が音声とか合成音声の描写などの認識法を「習得」する、ユーザーにとっての識別材である。この諸設定要因は、本システムでメモリーされたプロフィール内に再集合される。
処理状態では、平滑化モジュール40は、各種モジュール30、32、34、36間の低レベルのインターフェースの役割を果たす。同モジュールは、発音された文の通訳プロセスの基本的諸オペレーションの要素連続化を保証する。同モジュールは、リアルタイムで、文の通訳を生成するために、すなわち、異なる2のモジュール30、32または34によって実行された2の基本的オペレーション間の待機時間を無くして通訳するために、モジュール30、32次いで34を秩序正しく活性化することができる。
そのために、平滑化モジュール40は、独立の4のモジュール30−36間の伝達業務を実行する。モジュール間の伝達は、メッセージの交換に基づいている。メッセージは、要望、例えば翻訳の要求を含むか、または例えばある出来事、完成した翻訳を知らせる。場合によって、このメッセージは、ほかに、要望が対象としている1または複数の論拠を含んでいる。
平滑化モジュール40は、モジュール30、32および34からモジュール40に向けてのメッセージの交換メカニズムを含んでいる。モジュール30、32および34から平滑化モジュール40に向けてのメッセージは、それぞれ、モジュール30から、論証としての起点言語文に当る文章付き「認識された文」、モジュール32から、論証としての目標言語文に当る文章付き「完成した翻訳」、ならびにモジュール34から、出力音声信号が完全に発せられたことを示す「合成された音声」である。
平滑化モジュール40は、同平滑化モジュール40からモジュール30、32および34に向かうメッセージの交換メカニズムを含んでいる。この諸メッセージは、それぞれ、論証として、標本抽出された音声信号を表すデイジタル化したデータブロックを有する、モジュール30に向かう「音響信号の指示」、論証として、起点言語文に当る文章付きのモジュール32に向かう「翻訳要求」、ならびに論証として、目標言語文に当る文章の「音声合成要求」である。
なお、平滑化モジュール40は、待機列のメカニズムを含んでいる。待機列は、それぞれのモジュール30、32、34、36および40の入力に関連付けされている。この待機列のメカニズムは、処理の連続の次のモジュールが同結果の処理を開始できるのを待ちながら、処理の基本的オペレーションの結果の一時的記憶を可能にしている。あるモジュールが別のモジュールにメッセージを送信するとき、送信されたメッセージは、入力時に、受信側のモジュールの待機列内に配置される。受信側のモジュールが休止状態にあるとき、その待機列の状態の変更の待機中になり、すなわちメッセージの受信の待機中になる。この種のメッセージが受信されると、受信側のモジュールは、活性状態に転換する。受信側のモジュールは、待機受信列から、受信したメッセージを取り出し、このメッセージの内容から求められている処理を行い、1または複数のモジュールに、1または複数のメッセージを出力して送り出し、それから再び不活性状態に転換する。モジュールが活性状態にあるのに、新たなメッセージが受信側モジュールの待機列に置かれると、このメッセージは、モジュールが不活性状態に変わり、待機列を走査する機会が来るまで、待機列に残る。複数のメッセージが待機列に配置されれば、メッセージは、受信された順序で蓄積され、受信側モジュールが到着順にその処理をする。
本システムが活性状態に置かれると、平滑化目標言語文40は活性状態になり、本システムが活性状態外になるまで、すべてのオペレーションを実行する。
目標言語文40は、2の主要状態である「設定」または「処理」のいずれか1の状態になるのであり、この2の状態は、それぞれ副状態を含んでいる。
設定状態では、本システムは、ユーザーがインターフェースモジュール36を経て、プロフィールを作り出し、または選定する設定ステップにある。例えば、インターフェースモジュール36は、デイスプレー8で、くり広がるメニューの中から起点言語と目標言語を選択できる。関連付けしてある辞書は、初期ステップのとき、翻訳モジュール32と共に機能するために、そのとき、データ媒体が随時書き込み読み出しメモリーとして掛かる。他方では、インターフェースモジュール36の音響ステップの選択手段は、特定の話し手の言葉を翻訳し(高い閾値)、または環境内で捕捉した音響全体を翻訳する(低いまたは限られた閾値)ように外界に向けられた第2のマイクロ6の音響ステップの閾値の選択をすることができる。
ユーザーの要望に基づいて、平滑化モジュール40が設定状態から処理状態に転換するとき、同モジュールは、3のモジュール30、32および34を、選択した要因と共に初期化する。次に、この3のモジュールは実行される。
発音された文の処理の連鎖は、ここで詳細に述べることにする。
実施のとき、認識モジュール30は、音声の最初の取得手段の監視を開始する。認識モジュール30は、起点言語で発音された文を検出するために、入力信号を分析する。このメカニズムは詳細に後述する。認識モジュール30がこの種の文を検出すると、合成起点言語文対象は、認識モジュール30によって、「認識済み文」のメッセージの論拠として、平滑化モジュール40の待機列内に置かれる。
平滑化モジュール40がその待機列中から「認識済み文」を抽出すると、同モジュールは、「翻訳要求」メッセージの論拠として、このメッセージの論拠起点言語文を「翻訳要求」メッセージの論拠として、翻訳モジュール32の入力待機列中に置く。
変形態様として、処理プロセスは、モジュール32から翻訳を要求される前に、ユーザーによって有効と認められるように、モジュール36を介して、デイスプレー8に起点言語文を表示することからなる補足ステップを含んでいる。
翻訳モジュール32は、その実施中、自己の入力列の監視の不活性状態になる。「翻訳要求」メッセージを見つけると、このメッセージの論拠として渡ってきた起点言語文を翻訳する。この基本的オペレーションは、時間がかかることがあり得る。起点言語文の翻訳が終わると、翻訳モジュール32は、論拠として、目標言語文と共に、「翻訳完成」メッセージを平滑化モジュール40に送る。
平滑化モジュール40が使用中でなければ、自己のメッセージの待機列を調べる。「翻訳完成」メッセージが見つかったら、目標言語文を取って、メッセージの論拠として、同目標言語文と共に「音声合成要求」メッセージを音声合成モジュール34に送る。
変形態様として、処理プロセスは、モジュール34から合成を要求する前に、ユーザーから有効と認められるために、モジュール36を介して、目標言語文をデイスプレー8に表示することからなる補足ステップを含む。
開始のとき、音声合成モジュール34は、目標言語文の音声合成要求の待機状態になる。その間、音声合成モジュール34は、チャンネルの音響変換手段宛に、典型的に空白である恒常的な信号を送る。
音声合成モジュール34が前回の目標言語文を合成することに専念していないとき、入力メッセージ列を調べる。「音声合成要求」メッセージを見出すとき、同モジュールは、通された目標言語文を、このメッセージの論拠に合成して、対応する信号を音響変換手段の方向に発信する。そこでもまた、この基本的オペレーションに数秒間掛かることがあり得る。音響信号が完全に送信されると、音声合成モジュール34は、「合成完了」メッセージを平滑化モジュール40に送り、典型的に沈黙に当る音響信号を送る。
インターフェースモジュール36がデイスプレー8上に、そのときの文の処理プロセスの進行状態の象徴的な視覚上の記述を表示できることに留意すべきである。
音声認識モジュール30は、口述者によって表現されている考えに最もよく当る表現の一体性が、翻訳の綴り上で丸や点で終わることから来る困難を克服する必要がある。ところが、口述では、一体的表現の終了要素は存在しない。したがって、文の終了を推定する必要がある。図4の流れ図は、本発明による音声認識モジュール30にしたがって実施される基本的処理オペレーションを図式的に表している。
チャンネルの入力時に捕捉されたスピーチ内の2のブランクを引き離す期間に相当する、長さが一定でない間隔dtの間、入力音声信号101は、音素を認識するために分析される。この認識ステップ102の結果は、間隔dt間の一連の音素103である。
次に、この一連の音素103は、再結集ステップ104中に相互に再結集される。このオペレーションの結果は、一連の音素群105の生成である。次に、この音素群のそれぞれに、独自の綴りが関連付けされる。このことは、音素群に単語の綴り群を関連付けて、次に、単語の綴り群の中から独自の綴りを選定できる法則が適用される。最後に、テキストタイプの変項である間隔dt間の一連の単語107が生成される。記述してきた基本的処理は、発音されたスピーチと同時にリアルタイムでなされる。時間の間隔から次の時間の間隔までの一連の単語は、メモリーにストックされる。
実際には、一連の単語107は、転写オペレーションが、発音された文の塊を実際に再生しているかどうかの適切さを量化する確率に関連付けてあるテキストである。
音声認識モジュール30は、起点言語文の作成を試みるための複数の一連の単語を関連付ける文の終了の推定手段を含んでいる。この推定手段は、図4の流れ図の下部に表してある。そのために、音声認識モジュール30は、最後の一連の単語107を抽出し、dtでの要素連続変数に付与する。ステップ110において、瞬間tにおける要素連続変数の値は、瞬間t−dtにおける要素連続変数とdtにおける要素連続変数のそのときの値の連鎖で得られる。
ステップ111では、tにおける要素連続の対象の確率の値は、t−dtにおける要素連続の対象の確率の値と比較される。
瞬間tにおける要素連続の対象に関連付けてある確率が瞬間t−dtにおける要素連続の対象に関連付けられた確率よりも大きければ、そのとき、瞬間tにおける要素連続の対象は、前記瞬間t−dtにおける要素連続の対象よりも、意味の一体性にもっと近い。処理は、関連性112にしたがって継続され、そして、瞬間tにおける要素連続の対象(ステップ113)は、時と共に、一連の単語107の処理を目指して、前記の瞬間t−dt(ステップ113)における要素連続として記憶される。要素連続30の実行は、関連性114によって、ステップ110で締めくくられる。
それに反して、瞬間tにおける要素連続の対象が瞬間t−dtにおける要素連続の対象に関連付けてある確率以下であれば、そのことは、瞬間t−dtにおける要素連続の対象に比較して、意味の一体性から離れることを意味する。要素連続30の実行は、そのとき、関連性120に従って継続される。前記瞬間の要素連続の値は、この要素連続が意味の一体性をなしていると推定されているので、瞬間t−dtにおける要素連続の対象の値が意味の一体性を形成していると評価されるので、ステップ121における起点言語文の対象に当てられる。次の間隔dtにおける一連の単語の処理では、瞬間t−dtにおける要素連続の対象は、この要素連続が別の起点言語文の始まりになっていると評価されるので、起点言語文として留められなかった、そのときの間隔dtにおいて、一連の単語107と共に初期化される(ステップ122)。したがって、音声認識モジュール30は、起点言語文130を生ずる。このときモジュール30の実行は、関連性114によって、ステップ110で締めくくられる。
第1と第2のチャンネルによる同時通訳を実施するのに適している双方向システムの実行には、幾つもの実施態様が考慮される。
2のバーチャルマシーンを有する実施態様では、本システムは、同一の2の器材部を含んでおり、各器材部は、それぞれ、2の翻訳チャンネルに当てられる。第1の実際の機器は、例えば、第1の音声取得手段と第2の音声復元手段に接続されており、それに対して、第2の実際の機器は、第2の音声取得手段と第1の音声復元手段に接続されている。各器材部分は、開発システム20とアプリケーション25を実行する。したがって、第1のチャンネルによる処理は、第2のチャンネルによる処理から完全に外される。実際の機器は、それぞれ、固有のデイスプレーと固有のインターフェースモジュール36を含んでいるか、共通のインターフェースモジュール36で同一のデイスプレーを共有することができる。
2のバーチャルマシーンを有する第2の実施態様では、本システムは、2の開発システム20が平行して実行される単一の器材部を含んでいる。各開発システム20は、通訳アプリケーション25を実行するバーチャルマシーンを規定している。各バーチャルマシーンは、個別的チャンネルに当てられている。
なお、第3の実施態様では、本システムは、1の器材部と唯一の開発システムを含んでいる。すなわち、本システムは、アプリケーション25の2の審理を平行して実施し、そのおのおのは、それぞれのチャンネルに当てられているために多元化される。そのときアプリケーション25は、通訳システムが第1のチャンネルにおける固有データの処理に当てられる第1のアプリケーションおよび第2のチャンネルにおける固有データの処理に当てられる第2のアプリケーションを含んでいる。したがって、第1のアプリケーションの認識モジュール30は、言語L1のディレクトリーを含んでいるのに対して、第2のアプリケーションの認識モジュールは、言語L2のディレクトリーを含んでいる。同様に、第1のアプリケーションの翻訳モジュール32は、言語L2訳の言語L1の辞書を含むのに対して、第2のアプリケーションの翻訳モジュールは、言語L1訳の言語L2の辞書を含んでいる。なお、第1のアプリケーションの音声合成モジュール34は、言語L1の発音の図式を含んでいるのに対して、第2のアプリケーションの音声合成モジュール34は、言語L2の発音の図式を含んでいる。この実施態様では、2のモジュールは、プロセッサー時間を分け合いながら、「同時に」実施されることができる。
すなわち、同一の翻訳モジュール32と同一の音声合成モジュール34が2のチャンネルに利用されている。したがって、1のこのモジュールは、起点言語と目標言語に関する補完的設定で、平滑化モジュール40に呼び出される。この諸モジュールの逐次呼び出しをコントロールするのは平滑化モジュール40であり、モジュールの実行は、同じまたはもう一つのチャンネルに関連するオペレーションのために再び呼び出される前に終了していなければならない。
その代わりに、この実施態様では、通訳ソフトウエアの適用は、リアルタイムで、それぞれ、関連付けてあるチャンネルの入力部に配置してあるマイクロによって伝達される音響信号の認識に当てられている2の音声認識モジュール30を有利に含んでいる。変形態様では、本システムは、第2のチャンネルに従い、処理チャンネル内で、場合によって対話者が言語L1から言語L2への訳に介入できる別のデイスプレーを含むことができる。
本システムは、スキャナによって読まれる文字の視覚的認識から起点言語文を作成することのできる視覚的認識モジュールの入力時に接続してあるスキャナを含むことができる。
また別の変形態様では、第2の音声取得手段と第2の音声変換手段として、電話機による通訳システムの接続と機能ができるために適合する入力/出力インターフェースを含んでいる。当業者は、音響の取得手段または各取得手段および音響変換手段または各音響変換手段が本システムから離れたところで利用できるように、無線接続で、取得手段の器材部と連絡できることを理解するだろう。
1. 小型ケース
3.イヤホーン
4.第1のマイクロ
5.ラウドスピーカー
6.第2のマイクロ
7.凹部
8.デイスプレー
9.ボタン
10.入力・出力インターフェース
11.読み出し専用メモリ
12.随時書き込み読み出しメモリ
13.プロセッサ
20.開発システム
25.アプリケーション
30.音声認識モジュール
32.翻訳モジュール
34.音声合成モジュール
36.人・機械インターフェースモジュール
40.平滑化モジュール
101.入力音声信号
102.認識ステップ
103.一連の音素
104.再結集ステップ
105.一連の音素群
107.一連の単語
110.ステップ
112.関連性
113.ステップ
114.関連性
dt. 間隔
t. 間隔

Claims (12)

  1. 下記手段である、
    ― 起点言語での文の少なくとも1の取得手段(4、6)および少なくとも1の音響変換手段(3、5)、
    ― 取得手段で取得した入力信号起点言語へ転写である起点言語文を生成するための認識手段(30)、
    ― 目標言語への起点言語文の翻訳である目標言語文を生成するための翻訳手段(32)、および
    ― 目標言語文から、同音響変換手段(3、5)によって変換されることのできる出力音響信号を生成するための音声合成手段(34)を含んでおり、
    ― 起点言語の文を目標言語に通訳するために、同認識手段(30)、同翻訳手段(32)および同音声合成手段 (34)を逐次呼び出すのに適した平滑手段(40)を含むことを特徴とするタイプの通訳システム。
  2. 同平滑化手段(40)が、一方では、同認識手段(30)、同翻訳手段(32)および同音声合成手段 (34)と、他方では、同平滑化手段(40)との間のメッセージの交換を含むことを特徴とする、請求項1によるシステム。
  3. 伝達手段が、認識手段(30)、翻訳手段(32)、音声合成手段 (34)および平滑化手段(40)のそれぞれと入力で関連付けてある待機列を含むことを特徴とする、請求項2によるシステム。
  4. メッセージが要望と論証を含むことを特徴とする、請求項2または請求項3によるシステム。
  5. 同翻訳手段(32)が起点言語から目標言語への辞書を含むことを特徴とする、請求項1〜4のいずれか一項に記載のシステム。
  6. 同音声合成手段(34)が、同出力音響信号を生成するために、単語の綴りを一連の音素および目標言語の音素の発音の法則に関連付けてある辞書を含むことを特徴とする、請求項1〜5のいずれか一項に記載のシステム。
  7. 同取得手段が視覚的取得手段であり、同認識手段が、同視覚的取得手段で取得した、起点言語で書かれた文から、起点言語文を生成することのできる視覚的認識手段であることを特徴とする、請求項1〜6のいずれか一項に記載のシステム。
  8. 同取得手段が音響取得手段(4、6)であり、同認識手段が、同音響取得手段によって取得された起点言語で発音された文から、起点言語文を生成することのできる音声認識手段(30)であることを特徴とする、請求項1〜6のいずれか一項に記載のシステム。
  9. 同音声認識手段(30)が、
    − 入力音響信号を一連の音素に分解できる音素識別手段、
    − 一連の音素から一連の音素群を形成するために音素を相互に集合させることのできる再結集手段、および
    − 一連の音素群から起点言語文を生成するように音素群に単語の綴りを関連付けることのできる転写手段であって、同転写手段は、単語の綴り群を音素群に関連付けるレパートリーおよび単語群の中から独自の綴りを選出することを可能にする一連の法則を含むことを特徴とする、請求項8によるシステム。
  10. 本システムが第1のチャンネルにより、第1の起点言語でのスピーチを第2の目標言語に通訳し、第2のチャンネルにより第2の起点言語でのスピーチを第2の目標言語に通訳し、一方では、第1の起点言語と第2の目標言語、他方では、第2の起点言語と第1の目標言語は同一であり、同システムは更に、第1の音響取得手段(4)と第1の音響変換手段(3)および第2の音響取得手段(6)と第2の音響変換手段(5)を含むことを特徴とする、請求項8または請求項9によるシステム。
  11. 本システムが第1の起点言語に独自の第1の音声認識手段および第2の起点言語に独自の第2の音声認識手段を含んでおり、翻訳手段と音声合成手段が、第1のチャンネルと第2のチャンネルの一方か他方のために機能することを特徴とする、請求項10によるシステム。
  12. 同第1のチャンネルに独自の第1の音声認識手段、第1の音声翻訳手段および第1の音声合成手段、ならびに同第2の通訳チャンネルに独自の第2の音声認識手段、第2の音声翻訳手段および第2の音声合成手段を含むことを特徴とする、請求項10によるシステム。
JP2010533647A 2007-11-19 2008-11-18 自動同時通訳システム Pending JP2011504624A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0759159A FR2923928B1 (fr) 2007-11-19 2007-11-19 Systeme d'interpretation simultanee automatique.
PCT/FR2008/052077 WO2009071795A1 (fr) 2007-11-19 2008-11-18 Systeme d'interpretation simultanee automatique

Publications (1)

Publication Number Publication Date
JP2011504624A true JP2011504624A (ja) 2011-02-10

Family

ID=39666053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010533647A Pending JP2011504624A (ja) 2007-11-19 2008-11-18 自動同時通訳システム

Country Status (6)

Country Link
US (1) US8606560B2 (ja)
EP (1) EP2215626A1 (ja)
JP (1) JP2011504624A (ja)
CN (1) CN101861621A (ja)
FR (1) FR2923928B1 (ja)
WO (1) WO2009071795A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010012622B4 (de) * 2010-03-24 2015-04-30 Siemens Medical Instruments Pte. Ltd. Binaurales Verfahren und binaurale Anordnung zur Sprachsteuerung von Hörgeräten
US10107893B2 (en) * 2011-08-05 2018-10-23 TrackThings LLC Apparatus and method to automatically set a master-slave monitoring system
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
KR20150105075A (ko) * 2014-03-07 2015-09-16 한국전자통신연구원 자동 통역 장치 및 방법
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
CN106506020A (zh) * 2016-12-28 2017-03-15 天津恒达文博科技有限公司 一种双向无线同声传译议员机
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
CN108177785A (zh) * 2017-12-07 2018-06-19 中国航空工业集团公司西安航空计算技术研究所 一种基于状态机的螺旋桨自动顺桨控制方法
CN110706707B (zh) * 2019-11-13 2020-09-18 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
US11810547B2 (en) * 2021-04-08 2023-11-07 Sap Se Machine learning for intelligent dictation of analysis of multidimensional objects

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029779A (ja) * 2001-07-18 2003-01-31 Nec Corp 自動通訳システム及びその方法並びにプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333507B2 (en) * 2001-08-31 2008-02-19 Philip Bravin Multi modal communications system
CA2510663A1 (en) * 2001-12-17 2003-06-26 Neville Jayaratne A real time translator and method of performing real time translation of a plurality of spoken word languages
FR2851352B1 (fr) * 2003-02-18 2005-04-01 France Telecom Systeme de conversion d'un signal audio continu en un signal audiot traduit et synthetise
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP4439431B2 (ja) * 2005-05-25 2010-03-24 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
KR100859532B1 (ko) * 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029779A (ja) * 2001-07-18 2003-01-31 Nec Corp 自動通訳システム及びその方法並びにプログラム

Also Published As

Publication number Publication date
FR2923928A1 (fr) 2009-05-22
WO2009071795A1 (fr) 2009-06-11
EP2215626A1 (fr) 2010-08-11
FR2923928B1 (fr) 2009-12-04
CN101861621A (zh) 2010-10-13
US8606560B2 (en) 2013-12-10
US20100256972A1 (en) 2010-10-07

Similar Documents

Publication Publication Date Title
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JP2011504624A (ja) 自動同時通訳システム
KR101211796B1 (ko) 외국어 학습 장치 및 그 제공 방법
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP3662780B2 (ja) 自然言語を用いた対話システム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4439431B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US11093110B1 (en) Messaging feedback mechanism
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2006146881A (ja) 会話用合理的エージェント、このエージェントを用いるインテリジェント会話システム、インテリジェント会話を制御する方法、及びそれを用いるプログラム
JP4729902B2 (ja) 音声対話システム
GB2423403A (en) Distributed language processing system and method of outputting an intermediary signal
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
KR101959439B1 (ko) 통역방법
JP6397641B2 (ja) 自動通訳装置及び方法
JP2003162524A (ja) 言語処理装置
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
US11176930B1 (en) Storing audio commands for time-delayed execution
JP2008243076A (ja) 翻訳装置、方法及びプログラム
JP2006162782A (ja) 音声認識装置
JP7012935B1 (ja) プログラム、情報処理装置、方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130507

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140311

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150323

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150416

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150619

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151222