JP5628749B2 - 通訳端末及び通訳端末間の相互通信を用いた通訳方法 - Google Patents

通訳端末及び通訳端末間の相互通信を用いた通訳方法 Download PDF

Info

Publication number
JP5628749B2
JP5628749B2 JP2011125040A JP2011125040A JP5628749B2 JP 5628749 B2 JP5628749 B2 JP 5628749B2 JP 2011125040 A JP2011125040 A JP 2011125040A JP 2011125040 A JP2011125040 A JP 2011125040A JP 5628749 B2 JP5628749 B2 JP 5628749B2
Authority
JP
Japan
Prior art keywords
terminal
interpreting
party
speech
interpretation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011125040A
Other languages
English (en)
Other versions
JP2011253543A (ja
Inventor
ユン、スン
キム、サンフン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020100119654A external-priority patent/KR101412657B1/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2011253543A publication Critical patent/JP2011253543A/ja
Application granted granted Critical
Publication of JP5628749B2 publication Critical patent/JP5628749B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は通訳端末に関し、特に、通訳端末及び通訳端末間の相互通信を用いた通訳方法に関する。
通常、自動通訳は主にサーバ及びワークステーション又はPCで行われてきた。これは自動通訳技術が音声認識、機械翻訳、音声合成の3つの細部技術からなるが、これらの技術がいずれも多くの計算量と格納装置を必要としたためである。近年、スマートフォン、PDAなどの携帯用モバイル機器の性能が向上し、これらが自動通訳を行うのに十分なメモリを有することができるようになり、自動通訳技術を携帯型モバイル機器に搭載しようとする多様な試みが行われている。携帯型モバイル機器に自動通訳機能を備えた自動通訳機が搭載される場合、ユーザがいつでもどこでも自動通訳機能を使用できるようになり、ユーザの利便性が非常に高まるという長所がある。
ところで、従来の携帯型モバイル機器に搭載された自動通訳機は、自動通訳の結果を音声合成又は画面ディスプレイを通じて通訳の相手にのみ伝達するだけで、相手が所持している携帯型モバイル機器とはいかなる情報も交換しない。そのため、自動通訳性能の向上に役立つ多様でかつ有用な情報を活用できなくなるという問題を有している。例えば、相手がどの言語を使用するかに関する情報がない場合、ユーザがどの言語を対象に自動通訳を行うべきか分からないという問題がある。
また、自動通訳機の性能によっては、通訳する対象を全分野を対象にするのではなく、通訳する対象の適用場所や適用分野、例えば、レストラン、買い物、医療、交通などのような通訳の範囲を予め設定し、それに応じて範囲を制限して通訳することが有利になり場合もある。しかし、自動通訳機のユーザと相手との間でこのような情報が一致しない状況では相手がユーザに合せてこれを一々修正しなければならないという不便さがある。
自動通訳は人と人との対話であるので、自動通訳過程で音声言語の理解過程を通じて対話を理解し、これと関連した情報を提供すれば、音声認識及び翻訳過程に非常に役立つ。例えば、ユーザが名前を尋ねているならば、次の発話では相手が名前を答えることを予想することもできる。そのため、次の音声認識過程で名前に該当する情報に重きをおくか、別途の人名辞書を検索するなどの処理を行うならば、このような処理が行われなかった場合と比べて、効率のよい対処ができる。また、翻訳過程でも名前のような情報は翻字(transliteration)する際に、又は重義性(disambiguation)がある場合にこれを効率的に解消するのに活用できる補助情報となる。ところが、従来技術では関連する情報を交換しないため、このような情報を活用することができないという問題がある。
そして、従来の音声認識技術は雑音に非常に脆弱である。そのため、雑音が音声信号と共に入力される場合、音声認識性能が非常に低くなるという問題がある。例えば、携帯型モバイル機器において自動通訳が行われるようになると、地下鉄駅、ショッピングセンター、人で込み合うレストランなど多様な騷音源に露出した所で自動通訳機が使用されることが予想される。この場合、雑音による音声認識性能の低下の問題に必然的に露出されることが予想されるが、従来技術ではこれを解消し難い。
また、静かな場合と、それと反対に騷音がひどい場合のように、状況に応じて合成音の大きさを異なるように調節する必要もあり得る。しかし、従来技術ではユーザが手作業で操作しなくては、これに対処できないという問題がある。
そこで、本発明は上記事情に鑑みてなされたものであって、その目的は、2台以上の携帯型自動通訳端末間の通信を通じて自動通訳に活用できる情報を交換することによって、自動通訳の性能を向上させる自動通訳端末及び自動通訳端末間の通信を通じて通訳する方法を提供することにある。
前記目的を達成するための本発明の一態様による通訳端末は、相手の通訳端末と通信を行うネットワークインターフェースと、当事者の発話された音声を認識する音声認識器と、前記音声認識器を通じて認識された音声を設定された言語に翻訳する翻訳モジュールと、前記ネットワークインターフェースを通じて相手と通訳する言語を設定し、前記翻訳モジュールにより翻訳された文章を相手の通訳端末に提供する制御部とを含む。
前記目的を達成するための本発明の他の態様による通訳方法は、少なくとも当事者と相手の通訳端末間の対話を通訳する方法であって、通訳要請に応じて当事者及び相手の通訳端末間通信チャネルを設定する段階と、前記通信チャネルを通じて前記当事者の通訳端末で用いる当事者言語と前記相手の通訳端末で用いる相手言語に関する情報を交換して、それぞれの前記相手及び前記当事者の通訳端末に前記当事者言語及び前記相手言語を設定する段階と、前記当事者の通訳端末で発話した音声を認識する段階と、前記当事者の通訳端末で認識された音声を前記相手言語に翻訳する段階と、前記相手言語に翻訳された文章を前記相手端末に伝達する段階とを含む。
本発明によれば、通訳を行う際に、相互間で通訳言語及び通訳可能な言語に関する情報を交換して両者間の通訳言語と通訳可能な言語を一致させて自動通訳を円滑に行えるようになり、さらに通訳対象の範囲を統一化して通訳の性能を向上させることができるという効果を奏する。
また、相手の雑音信号を用いて音声信号のみ効果的に抽出することによって、音声認識の性能を向上させることができ、雑音信号を用いて周辺状況に合わせて合成音の大きさを自動調節し、便宜性を一層向上させることができるという利点がある。さらに、通訳結果の文章の提供を受けてこれを分析し理解する過程を経て、予測した対話の内容を音声認識及び翻訳に活用することで、通訳の性能を向上させることができるという利点がある。
本発明の実施形態による両当事者間の対話の内容を通訳する2台の通訳端末のダイヤグラムである。 図1に示すいずれか1つの通訳端末の詳細ブロック構成図である。 本発明の実施形態による通訳端末間の通信を通じて通訳するプロセスを説明するフローチャートである。 本発明の実施形態による通訳端末間の通信を通じて通訳するプロセスを説明するフローチャートである。
以下、添付する図面を参照して本発明の動作原理を詳細に説明する。下記に本発明を説明するにおいて公知の機能又は構成に関する具体的な説明が本発明の要旨を不要に曖昧にするおそれがあると判断される場合にはその詳細な説明を省略する。そして、後述する用語は本発明での機能を考慮して定義された用語であって、これはユーザ、運用者の意図又は慣例などによって変わることも可能である。従って、その定義は本明細書全般の内容に基づいて下されるべきである。
図1は、本発明の実施形態による両当事者間の対話の内容を通訳する少なくとも2台の通訳端末のダイヤグラムを示す。第1通訳端末100と第2通訳端末102は両方とも全体的に同一の構成を有し、それぞれ互いに異なる言語を使用する相手間で交わされる対話の内容を通訳するために用いられる。第1及び第2通訳端末100、102は自動通訳専用端末であってもよく、自動通訳プログラムの実行可能なスマートフォン、PDA(Personal Digital Assistant)などのような個人用情報端末であってもよく、又は自動通訳プログラムの実行可能なMID(Mobile Internet Device)、ネットブック、ノートブックなどのようなモバイル端末であってもよい。ただし、これらの端末は容易に携帯でき、相手通訳端末と通信が可能な装置を備えた端末でなければならない。
説明の便宜上、以下において第1通訳端末100は当事者の通訳端末と称し、第2通訳端末102は相手の通訳端末と称する。
当事者通訳端末100と相手通訳端末102との間で通訳が行われるとき、当事者通訳端末100と相手通訳端末102は、まず互いに通信をして通訳を行う言語を設定する。例えば、当事者と相手がそれぞれ韓国人と日本人である場合、当事者の立場から見れば、当事者通訳端末100は韓国語を日本語に通訳するように通訳言語を日本語に設定し、相手通訳端末102は日本語を韓国語に通訳するように通訳言語を韓国語に設定する。同様に、相手の立場から見れば、相手通訳端末100は日本語を韓国語に通訳するように通訳言語を韓国語に設定し、当事者の通訳端末102は韓国語を日本語に通訳するように通訳言語を日本語に設定する。本発明の実施形態は、当事者と相手間の対話を通訳することに関するものであるので、当事者と相手の通訳端末100、102はいずれも日本語と韓国語の両方を通訳するように設定される。
当事者と相手の通訳端末100、102は、それぞれ当事者と相手から発話された対話音声を認識し、認識された対話音声を設定された通訳言語に翻訳し、翻訳された結果を当事者と相手の通訳端末100、102に提供する。
図2は、図1に示す通訳端末のいずれか1つ、例えば、通訳端末100のブロック構成図である。ネットワークインターフェース200は、ブルートゥース(bluetooth)などの近距離通信(Near Field Communications(NFC))又は無線LAN(wirelessLocal Area Network)のようなWi-Fi(Wireless-Fidelity)又はCDMAのような移動通信網を通じて通訳を望む相手の通訳端末102と通信を行う。
音声認識器202は当事者から発話される通訳対象の対話音声を認識する。通訳対象の対話音声には雑音が混じっていることもあり得る。従って、音声認識器202は、通訳端末100の雑音が混じっている通訳対象の対話音声と相手の通訳端末102から伝達を受けた雑音信号とを比較して雑音が混じった通訳対象の音声信号と雑音信号間で一致する部分を雑音として検出する。検出された雑音は雑音が混じっている通話対象音声から除去され、雑音が除去された音声信号のみが音声認識に用いられる。従って、通訳品質を向上させるのに一助となり得る。
翻訳モジュール214は、音声認識器202から提供される認識された音声を相手との通訳のために指定された言語に機械翻訳を行って、翻訳された結果をテキストの文章として生成する。翻訳された結果は、相手通訳端末102に伝達される。
音声合成器204は、本技術分野において広く知られているTTS(Text to Speech)技術を用いて相手通訳端末から伝達された、翻訳された文章のテキストを音声合成して出力する。また、音声合成器204は、通訳端末100で行われた翻訳結果を音声合成して出力することもできる。このとき、音声合成器204から出力される音声合成信号の大きさは音声認識器202から提供された周辺雑音信号の強度を参考にして決定される。
キー入力部208は通訳端末100で用いられる多数の数字キーを備えており、当事者が所定のキーを押すと該当するキーデータを発生して制御部206に出力する。
表示部212は制御部206の制御によって通訳端末100で発生する各種情報を表示し、キー入力部208で発生するキーデータ及び制御部206の各種情報信号の入力を受けてディスプレイする。
制御部206は、メモリ部210に格納された複数の動作プログラムによって通訳端末100の全般的な動作を制御する。前記のような動作プログラムは、通訳端末100の動作に必要な基本的なオペレーティングシステム(operating system)及び自動通訳プログラムだけでなく、表示部212とキー入力部208を連結し、データの入/出力を管理したり、通訳端末100の内部アプリケーション(application)などを動作させるように製造時に予めプログラミングされるソフトウェアを通称する。
また、制御部206は通訳実行時にネットワークインターフェース200を用いた相手通訳端末と通信を通じて通訳言語、通訳対象の範囲を設定し、当事者から入力される音声を認識して設定された通訳言語に翻訳した後、これを音声合成して出力させることで、言語の異なる当事者と相手間で通訳が行われるように制御する。
図3の(a)と(b)は、本発明による2台以上の携帯型自動通訳端末間の相互通信を通じて自動通訳方法を説明するフローチャートを示す。以下、図1及び図2を共に参照して本実施形態の方法を詳細に説明する。
まず、当事者が相手と自動通訳が必要な時、自動通訳を所望する当事者通訳端末100及び相手通訳端末102に搭載された自動通訳プログラムを実行する(S300)。自動通訳プログラムを実行すると、当事者通訳端末100と相手通訳端末102は互いに相手と通信チャネルを開くことを試みる。このとき、通信はのために当事者通釈端末100はブルートゥースなどの近距離通信(NFC)やWiFi、場合によっては移動通信網などを通じて相手に連結を要請する(S302)。
段階(S304)で、相手が連結要請を受諾する場合、当事者の通訳端末100と相手の通訳端末102間で通信チャネルが設定される。場合によって、相手が通信連結を常に許容する環境設定をした場合、受諾過程なしに自動で通信チャネルが設定されることもできる。
しかし、段階(S304)で相手が連結要請を拒絶する場合、段階(S306)に進み、当事者の通訳端末100には相手が自動通訳を拒絶するというメッセージを表示する。この後、通信を解除し、自動通訳プログラムを終了する(S346)。
一旦、当時者及び相手の通訳端末(100及び102)間で通信チャネルが設定されれば、段階(S308)で、当事者及び相手通訳端末(100、102)はまず通訳に使用する当事者及び相手の言語及び通訳に使用する言語のうち通訳可能な言語に関する情報を互いに交換する。
次に、当事者及び相手通訳端末(100、102)は、交換された相手の言語が通訳可能な言語であるかを検査する(S310)。もし相手の言語が自動通訳できない場合には段階(S312)に進み、当事者の通訳端末100は相手の言語を自動通訳できないというメッセージを相手の通訳端末102に伝達する。その後、通信を解除し、自動通訳プログラムを終了する(S346)。
しかし、段階(S310)の判断結果、当事者と相手の言語が通訳プログラムにより通訳可能な言語であれば、段階(S314)に進み、当事者及び相手の通訳端末100、102にそれぞれ通訳言語を設定する。
その後、通訳する対象の適用場所や適用分野、例えば、レストラン、買い物、医療、交通などを示す通訳の範囲を設定するために、当事者の通訳端末100は通訳の範囲に関する情報を相手の通訳端末102に伝送して(段階S316)、相手の通訳端末102と通訳範囲を自動で同期化する(段階S318)。
次に、当事者の通訳端末100で当事者から発話された音声を音声認識器を通じて通訳を始める。このとき、相手の通訳端末102に通訳を始めるという情報が伝達され、当事者通訳端末100と相手通訳端末102間の通訳のための時間的同期を合せる(段階S320)。両者間の同期化後、当事者通訳端末100は相手通訳端末102から周辺雑音信号の入力を受けるようになる(段階S322)。すると、当事者通訳端末100は、音声認識過程中に雑音が混じっている音声信号と相手通訳端末102から伝達された周辺雑音信号とを比較し、両信号間で一致する部分を雑音として認識して雑音が混じっている音声信号から雑音信号を除去した音声信号のみを分離し、分離された音声信号を対象に音声認識を行う(段階S324)。
前述した雑音除去方法は、本技術分野で公知の2チャネル信号処理を通じた雑音除去技術を適用することもできる。このように分離された音声信号の音声認識が終了すると、翻訳モジュール214に伝達し、音声認識された音声を翻訳する(S328)。次に、翻訳された結果は、相手通訳端末102に伝送され、相手通訳端末102で翻訳された結果は翻訳された文章が表示部212にディスプレイされると同時に、音声合成を通じて音声としても出力される(S330)。一方、音声合成器を通じて出力される音声合成音の強度は以前に相手通訳端末102から伝達を受けた雑音信号と当事者の音声信号とのSNR(Signal-to-noise ratio)を計算して適切なレベルで出力されるように設定される(S326)。このような音声合成音の強度を設定する段階は、前述した段階(S326)の次に実行されてもよく、又は段階(S328)の次に実行されてもよい。
一方、相手通訳端末102から前述した音声認識過程を経て回答、即ち、翻訳された文章が当事者通訳端末100に伝達される。すると、当事者の通訳端末100で、音声言語の理解のための対話モデルを通じて翻訳された文章を分析し、この過程で当事者の意図を抽出し、これに基づいて次に発生する対話を予測し、予測された発話情報を音声認識する際に活用する(S332)。発話情報は多様に予測され得る。例えば、「予約された方の名前を教えて下さい」のような文章が伝達されたとすれば、この文章において発話行為(Speech Act)が「要請」であり、要請対象は「名前」であり、その「名前」が属性として「予約者」を有するということが分析できる。これに基づいて既に構築された対話モデルを通じて次の発話は名前が出るはずであるということが予測できる。
対話情報を活用した音声認識において、言語モデルの探索空間を名前が含まれている発話に制約したり、人名の場合、一般に音声認識器の辞書の容量に制約があり、人名全体を認識単語に含むことができないが、分析された「名前」に該当する部分のみを別途に大容量の人名辞書を活用して音声認識の性能を向上させることもできる。
次に、相手通訳端末102は、当事者の通訳端末100から伝達された対話の内容に応答するために音声認識を行う(S334)。
相手の通訳端末102で音声認識を行う場合、時間的同期を合わせる段階(S320)でのように、相手の通訳端末102から当事者の通訳端末102に通訳を試みるという情報が伝達され、それにより、当事者の通訳端末100と相手通訳端末102は時間的に同期が合わせられ、相手の通訳端末102から当事者の通訳端末100に雑音信号が伝達される(S336)。その次の段階(S338)で、相手通訳端末102から伝達を受けた雑音信号と当事者の音声信号とのSNRを計算して音声合成器を通じて出力される音声合成音の強度が設定される。前述したように、このような音声合成音の強度を設定する段階は、前述した段階(S336)の次に実行されてもよく、又は後述される段階(S340)の次に実行されてもよい。
その次の段階(S340)で、当事者通訳端末100は音声認識過程中に雑音が混じっている音声信号と相手通訳端末102から伝達された周辺雑音信号とを比較し、両信号間で一致する部分を雑音として認識して雑音が混じっている音声信号から雑音信号を除去した音声信号のみを分離し、分離された音声信号を対象に音声認識を行い、音声認識された結果は翻訳モジュール214に伝達される。
この過程で、前述したように、対話情報を用いた音声認識を行うようになる。対話情報を用いた音声認識は雑音の除去と同時に、リアルタイムで動作することもできる。又は、対話情報を用いた音声認識は雑音が除去された後に雑音が除去された信号を対象に実行されることもできる。そして、発話情報は翻訳モジュールにも伝達されて対話情報を活用した翻訳を行うことができる。例えば、もし当事者の端末100から発話された対話の内容「予約された方の名前を教えて下さい」に対する応答として、相手端末102から「私の名前はホン・ギルドンです」と発話された場合、該当文章が言語理解モジュールを経ると、発話行為が「情報提供」であり、情報提供の対象は本人の「名前」であり、名前は属性として「ホン・ギルドン」であるということが分析できる。
翻訳モジュールでは分析された情報を用いて、もし「ホン・ギルドン」という単語に重義性があると判断すれば、翻訳辞書に登載されていても、これを利用して翻訳せず、翻字をする。このように翻訳された文章は、相手端末102に伝送されて次回の音声認識及び翻訳過程で再び活用される(S342)。また、翻訳された文章は、当事者の端末100の表示部212にディスプレイされ、これと共に音声合成器を通じて音声としても出力される。
このような過程を通じて音声認識及び翻訳性能を向上させて自動通訳の性能を向上させることができる。ここでは韓国語で発声された例についてのみ記述したが、実際にはいかなる言語で発話がなされても該当言語の音声言語理解モジュールが搭載されている場合、音声言語の理解を通じた自動通訳の性能向上が可能である。
次に、段階(S344)で、相手と自動通訳を進行し続ける場合、段階(S332)に進み、前述した過程を繰り返す。しかし、段階(S344)で自動通訳が終了した場合、段階(S346)に進み、自動通訳プログラムを終了するか、相手との連結を解除する命令を下すことで、連結を中断し、自動通訳過程を終了する。
前述した実施形態では2台の自動通訳端末間の相互通信を用いた自動通訳の性能向上方法及び装置について記述したが、本発明は2台に限定されて適用されず、同じ空間にある複数台の自動通訳端末間にも同じ方法で適用され得る。
また、本発明の詳細な説明では具体的な実施形態について説明したが、具体的な実施形態の他にも通信を通じて自動通訳の性能向上に役立つ多様な種類の情報を交換して自動通訳の性能を向上させることができることは自明な事実である。従って、本発明の範囲は説明された実施形態に限定されず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なもの等により定まるべきである。

Claims (11)

  1. 通訳端末であって、
    相手の通訳端末と通信を行うネットワークインターフェースと、
    当事者の発話された音声を認識する音声認識器と、
    前記音声認識器を通じて認識された音声を設定された言語に翻訳する翻訳モジュールと、
    前記ネットワークインターフェースを通じて相手と通訳する言語を設定し、前記翻訳モジュールにより翻訳された文章を相手の通訳端末に提供する制御部と、
    を含み、
    前記制御部は、
    前記ネットワークインターフェースを通じて前記相手の通訳端末と通信して両者間で通訳の範囲を限定する情報を一致させ、
    前記通訳の範囲を限定する情報は、
    前記通訳が行われる場所及び状況を規定する情報であり、
    前記音声認識器は、前記当事者の雑音が混じっている音声信号と前記相手の通訳端末から伝達された雑音信号とを比較し、前記音声信号のうち前記雑音信号と一致する信号を雑音として検出し、前記音声信号から前記検出された雑音が分離された音声信号に対して音声認識を行うことを特徴とする通訳端末。
  2. 前記ネットワークインターフェースは、
    無線LAN(wireless LAN)、移動通信網(mobile communication network)、又は近距離通信(Near Field Communications(NFC))を通じて相手通訳端末と通信を行うことを特徴とする請求項1に記載の通訳端末。
  3. 前記無線LANは、
    Wi-Fi(wireless-fidelity)であることを特徴とする請求項2に記載の通訳端末。
  4. 前記ネットワークインターフェースは、
    前記相手との通訳が要請される時、前記相手通訳端末と通信チャネルを設定して前記チャネルの設定に必要な情報を相手通訳端末と交換することを特徴とする請求項1に記載の通訳端末。
  5. 前記翻訳モジュールを通じて翻訳された文章を音声として合成して出力させる音声合成部を更に含むことを特徴とする請求項1に記載の通訳端末。
  6. 前記音声合成部から出力される合成音声は、以前に相手の通訳端末から伝達を受けた雑音信号と当事者の音声信号間のSNR(Signal-to-noise ratio)に比例する強度となるように設定されることを特徴とする請求項に記載の通訳端末。
  7. 前記音声認識器は、
    対話モデルを用いて前記翻訳された文章を分析し、分析結果から次に発生する対話を予測し、前記予測された対話情報に基づいて次回に発話される音声の認識に活用することを特徴とする請求項1に記載の通訳端末。
  8. 当事者と相手の通訳端末間の対話を通訳する方法であって、
    通訳要請に応じて当事者及び相手の通訳端末間通信チャネルを設定する段階と、
    前記通信チャネルを通じて前記当事者の通訳端末で使用する当事者言語と前記相手の通訳端末で使用する相手言語に関する情報を交換してそれぞれの前記相手及び前記当事者の通訳端末に前記当事者言語及び前記相手言語を設定する段階と、
    前記当事者の通訳端末で発話した音声を認識する段階と、
    前記当事者の通訳端末で認識された音声を前記相手言語に翻訳する段階と、
    前記相手言語に翻訳された文章を前記相手端末に伝達する段階
    とを含み、
    前記相手の通訳端末と通信して両者間で通訳の範囲を限定する情報を一致させ、
    前記通訳の範囲を限定する情報は、前記通訳が行われる場所及び状況を規定する情報であり、
    前記音声を認識する段階は、
    前記音声認識のために、前記当事者及び前記相手の通訳端末間の同期化を行う段階と、 前記当事者の音声信号から雑音を検出する段階と、
    前記音声信号から雑音が分離された音声信号に対して音声認識を行う段階と、を含み、
    前記雑音を検出する段階は、
    前記当事者の雑音が混じっている音声信号と前記相手の通訳端末から伝達された雑音信号とを比較する段階と、
    前記音声信号のうち、前記雑音信号と一致する信号を雑音として検出する段階と、を含むことを特徴とする記載の通訳方法。
  9. 前記通信チャネルは、
    無線LAN(wireless LAN)、移動通信網(mobile communication network)又は近距離通信(Near Field Communications(NFC))を通じて設定されることを特徴とする請求項に記載の通訳方法。
  10. 前記近距離通信は、
    Wi−Fi(wireless−fidelity)であることを特徴とする請求項に記載の通訳方法。
  11. 前記翻訳された文章を音声として合成して出力する段階を更に含むことを特徴とする請求項に記載の通訳方法。
JP2011125040A 2010-06-03 2011-06-03 通訳端末及び通訳端末間の相互通信を用いた通訳方法 Active JP5628749B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20100052550 2010-06-03
KR10-2010-0052550 2010-06-03
KR1020100119654A KR101412657B1 (ko) 2010-06-03 2010-11-29 두 대 이상의 통역 단말기간 상호 통신을 이용한 통역 방법 및 장치
KR10-2010-0119654 2010-11-29

Publications (2)

Publication Number Publication Date
JP2011253543A JP2011253543A (ja) 2011-12-15
JP5628749B2 true JP5628749B2 (ja) 2014-11-19

Family

ID=45065162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011125040A Active JP5628749B2 (ja) 2010-06-03 2011-06-03 通訳端末及び通訳端末間の相互通信を用いた通訳方法

Country Status (2)

Country Link
US (1) US8798985B2 (ja)
JP (1) JP5628749B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013186228A (ja) * 2012-03-07 2013-09-19 Seiko Epson Corp 音声認識処理装置及び音声認識処理方法
WO2014141639A1 (ja) 2013-03-13 2014-09-18 Necカシオモバイルコミュニケーションズ株式会社 端末装置、翻訳システム、通信制御方法、及びプログラム
KR101834546B1 (ko) * 2013-08-28 2018-04-13 한국전자통신연구원 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
US10489515B2 (en) 2015-05-08 2019-11-26 Electronics And Telecommunications Research Institute Method and apparatus for providing automatic speech translation service in face-to-face situation
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
KR102450823B1 (ko) 2017-10-12 2022-10-05 한국전자통신연구원 사용자 맞춤형 통번역 장치 및 방법
US20190121860A1 (en) * 2017-10-20 2019-04-25 AK Innovations, LLC, a Texas corporation Conference And Call Center Speech To Text Machine Translation Engine
CN110111771A (zh) * 2019-05-15 2019-08-09 东华大学 一种基于个域网的同声翻译纽扣
US20220215857A1 (en) * 2021-01-05 2022-07-07 Electronics And Telecommunications Research Institute System, user terminal, and method for providing automatic interpretation service based on speaker separation

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0769709B2 (ja) 1993-01-08 1995-07-31 株式会社エイ・ティ・アール自動翻訳電話研究所 対話音声認識装置
JP2921472B2 (ja) 1996-03-15 1999-07-19 日本電気株式会社 音声および雑音の除去装置、音声認識装置
JP2001127846A (ja) 1999-10-29 2001-05-11 Nec Telecom Syst Ltd 無線電話機
JP2001251429A (ja) 2000-03-03 2001-09-14 Net Teimento:Kk 携帯電話を使用した音声翻訳システムおよび携帯電話
JP2001306564A (ja) 2000-04-21 2001-11-02 Nec Corp 自動翻訳機能付き携帯端末
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
JP4135307B2 (ja) * 2000-10-17 2008-08-20 株式会社日立製作所 音声通訳サービス方法および音声通訳サーバ
JP3960834B2 (ja) 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法
JP2004015478A (ja) * 2002-06-07 2004-01-15 Nec Corp 音声通信端末装置
US20040111272A1 (en) * 2002-12-10 2004-06-10 International Business Machines Corporation Multimodal speech-to-speech language translation and display
GB2398913B (en) * 2003-02-27 2005-08-17 Motorola Inc Noise estimation in speech recognition
JP2005167500A (ja) * 2003-12-01 2005-06-23 Sharp Corp マルチメディア翻訳機、端末間翻訳システム、マルチメディア翻訳機の制御方法、制御プログラム、および該プログラムを記録した記録媒体
JP2005318346A (ja) 2004-04-30 2005-11-10 Matsushita Electric Ind Co Ltd 携帯端末装置
KR20060044143A (ko) 2004-11-11 2006-05-16 주식회사 팬택 자동 통역을 위한 이동통신 단말기 및 방법
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US7552053B2 (en) * 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation
JP2007207061A (ja) 2006-02-03 2007-08-16 Brother Ind Ltd 翻訳装置
US7752031B2 (en) * 2006-03-23 2010-07-06 International Business Machines Corporation Cadence management of translated multi-speaker conversations using pause marker relationship models
JP2008021058A (ja) * 2006-07-12 2008-01-31 Nec Corp 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体
US20100062713A1 (en) * 2006-11-13 2010-03-11 Peter John Blamey Headset distributed processing
US7742746B2 (en) * 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
US7983428B2 (en) * 2007-05-09 2011-07-19 Motorola Mobility, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone
US8478578B2 (en) * 2008-01-09 2013-07-02 Fluential, Llc Mobile speech-to-speech interpretation system
EP2151821B1 (en) * 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
JP2010245749A (ja) * 2009-04-03 2010-10-28 Panasonic Corp ノイズキャンセル部とこれを用いた高周波受信部

Also Published As

Publication number Publication date
US8798985B2 (en) 2014-08-05
JP2011253543A (ja) 2011-12-15
US20110301936A1 (en) 2011-12-08

Similar Documents

Publication Publication Date Title
JP5628749B2 (ja) 通訳端末及び通訳端末間の相互通信を用いた通訳方法
US9507772B2 (en) Instant translation system
KR102545764B1 (ko) 음성 번역을 위한 장치 및 방법
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
US9864745B2 (en) Universal language translator
US9484017B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
KR101834546B1 (ko) 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
US8527258B2 (en) Simultaneous interpretation system
WO2014010450A1 (ja) 音声処理システム及び端末装置
WO2016165590A1 (zh) 语音翻译方法及装置
KR101412657B1 (ko) 두 대 이상의 통역 단말기간 상호 통신을 이용한 통역 방법 및 장치
KR20180127136A (ko) 양면으로 표시되는 동기 번역 설비, 방법 장치 및 전자설비
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
KR101983310B1 (ko) 다중 화자용 통번역기
JP6514475B2 (ja) 対話装置および対話方法
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
WO2018020828A1 (ja) 翻訳装置および翻訳システム
JP5163682B2 (ja) 通訳通話システム
KR20140049922A (ko) 사용자 정보를 이용한 다국어 자동통역기의 언어인식 장치
JP2007286376A (ja) 音声案内システム
JP2011150657A (ja) 翻訳音声再生装置およびその再生方法
KR20110066622A (ko) 음성인식 기반 국제회의 통역 장치 및 방법
JPH08129476A (ja) 音声データ入力装置
KR20120019011A (ko) 사용자 정보 조합을 이용한 상호작용 서비스 제공 장치

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141002

R150 Certificate of patent or registration of utility model

Ref document number: 5628749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250