JP2015026054A

JP2015026054A - 自動通訳装置及び方法

Info

Publication number: JP2015026054A
Application number: JP2014056505A
Authority: JP
Inventors: スー−ジョンイ; Soo-Jong Lee; サンフンキム; Sanghun Kim; ジョンセキム; Jon Se Kim
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2013-07-29
Filing date: 2014-03-19
Publication date: 2015-02-05
Anticipated expiration: 2034-03-19
Also published as: KR20150014235A; JP6397641B2; KR102069697B1

Abstract

【課題】自動通訳装置及び方法を提供する。
【解決手段】本発明は、ユーザからユーザ命令と、通訳対象となるソース言語基盤音声とが印加され、ソース言語基盤音声が翻訳されたターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、ユーザ命令に応答してソース言語及びターゲット言語に関する情報を設定する設定部と、インターフェース部を介してソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、ソース言語基盤テキストをターゲット言語基盤テキストに翻訳し、翻訳されたターゲット言語基盤テキストに付加してターゲット言語基盤テキストの発声音をソース言語テキストに変換してインターフェース部に伝送する通訳部と、を含むことを特徴とする。
【選択図】図２

Description

本発明は、自動通訳装置及び方法に関し、より詳細には、自動通訳時に出力される音声認識テキスト及び自動翻訳テキストのそれぞれの発声音を相対国言語または発音表記法により表示できる自動通訳装置及び方法に関する。

自動通訳装置は、互いに異なる言語を話す人の間に意思疎通をより円滑に図ることができるようにする装置であって、通常ソース言語のユーザがソース言語で発声すると、発声されたソース言語を音声認識して、相対国言語のユーザが使用するターゲット言語に自動翻訳し、翻訳されたターゲット言語を合成音声で出力する。

すなわち、既存の自動通訳装置では、ソース言語の発声音が音声認識によりソース言語のテキストで表示され、自動翻訳によりターゲット言語のテキストに翻訳される。ターゲット言語のテキストは、ターゲット言語の音声に合成されて出力される。しかし、合成されて出力される音声は直ちに消滅するので、ユーザが相対国言語の発声音を直接再現して意思疎通に活用することは困難であるという問題点があった。

また、既存の大部分の自動通訳装置は、通常使用頻度の低い固有名詞が入力される場合や雑音がひどい環境では、音声認識性能が急激に低下する現象が現われる。このように音声認識性能が低下する場合は、ユーザが自動通訳装置に直接テキストを入力して意思疏通を図るか、自動通訳によらないで相対国言語を直接発声する必要性が発生する。したがって、ユーザの円滑な意思疎通のためには多様なインターフェースが最大限提供されなければならない。

本発明の目的は、ソース言語を音声認識してターゲット言語に自動変換し、音声で出力すると同時にユーザが、翻訳されたターゲット言語を直接発音できるように、ターゲット言語をソース言語の発音表記法により表示することができる自動通訳装置を提供することにある。

本発明の他の目的は、上記目的を達成するための自動通訳装置の自動通訳方法を提供することにある。

上記目的を達成するために、本発明の一例に係る自動通訳装置は、ユーザからユーザ命令及び通訳対象となるソース言語基盤音声が印加され、上記ソース言語基盤音声を翻訳したターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、上記ユーザ命令に応答して上記ソース言語及び上記ターゲット言語に関する情報を設定する設定部と、上記インターフェース部を介して上記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、上記ソース言語基盤テキストを上記ターゲット言語基盤テキストに翻訳し、翻訳された上記ターゲット言語基盤テキストに付加して上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に伝送する通訳部と、を含む。

上記通訳部は、上記ソース言語及び上記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、上記インターフェース部から受信される上記ソース言語基盤音声を上記音響及び言語データベース部の上記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、上記音声認識部から上記ソース言語基盤テキストを受信し、上記ソース言語基盤テキストを上記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、上記テキスト翻訳部から上記ターゲット言語基盤テキストを受信して上記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、上記インターフェース部に伝送する音声合成部と、上記ターゲット言語基盤テキストを受信し、上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に出力する発声音変換部と、を含むことを特徴とする。

上記発声音変換部は、上記音声認識部及び上記テキスト翻訳部のうちの１つから上記ソース言語基盤テキストを受信し、上記言語データベース部の認識ネットワークを利用して、受信された上記ソース言語基盤テキストの発声音を上記ターゲット言語テキストに変換し、上記インターフェース部に出力する第１発声音変換部と、上記テキスト翻訳部及び上記音声合成部のうちの１つから上記ターゲット言語基盤テキストを受信し、上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に出力する第２発声音変換部と、を含むことを特徴とする。

上記第１及び第２発声音変換部のそれぞれは、上記ソース言語基盤テキスト及び上記ターゲット言語基盤テキスト中の文法誤りを分析して修正し、上記ソース言語基盤テキスト及び上記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする。

上記音響及び言語データベース部は、上記ソース言語及び上記ターゲット言語の種類に応じて、上記認識ネットワークが発音変異データベース、文字素−音素（ｇｒａｐｈｅｍｅｔｏｐｈｏｎｅｍｅ：以下、ｇ２ｐという）変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも１つを備えることを特徴とする。

上記の他の目的を達成するために本発明の一例に係る自動通訳方法は、インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、上記自動通訳装置が上記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、上記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、上記ソース言語基盤音声が印加されると、上記通訳部の音響及び言語データベース部に格納されている上記ソース言語及び上記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、上記ソース言語基盤テキストを上記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、上記翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換して出力するステップと、を含む。

上記ソース言語は、韓国語であり、上記ターゲット言語は日本語であることを特徴とする。

上記認識ネットワークは、上記ソース言語及び上記ターゲット言語の種類に応じて発音変異データベース、文字素−音素（ｇｒａｐｈｅｍｅｔｏｐｈｏｎｅｍｅ：以下、ｇ２ｐという）変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも１つを含むことを特徴とする。

上記ターゲット言語テキストに変換して出力するステップは、上記ソース言語基盤テキストに対し、上記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、上記発音変異変換が行われた上記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、上記ｇ２ｐ変換テーブルを用いて分離された上記音素を音素単位の発音記号に変換するステップと、上記変換された音素単位の発音記号を音節単位に結合するステップと、上記結合された音節に対応する上記ターゲット言語の音節に変換するステップと、上記変換された音節を結合して上記語節を復元することにより上記ソース言語基盤テキストの発声音を表示する上記ターゲット言語テキストを生成するステップと、上記ターゲット言語テキストを上記インターフェース部を介して出力するステップと、を含むことを特徴とする。

上記ソース言語テキストに変換して出力するステップは、上記ターゲット言語基盤テキストに、ソース言語で慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、上記対訳語が存在する語彙に対しては、対訳語の発音を適用するステップと、上記対訳語が存在しない語彙に対しては、語節、音節及び音素単位に順次分離するステップと、上記ｇ２ｐ変換テーブルを用いて分離された上記音素を音素単位の発音記号に変換するステップと、上記変換された音素単位の発音記号を音節単位に結合するステップと、上記結合された音節に対応する上記ソース言語の音節に変換するステップと、上記対訳語の発音と変換された音節とを結合して上記語節を復元することにより上記ターゲット言語基盤テキストの発声音を表示する上記ソース言語テキストを生成するステップと、上記ソース言語テキストを上記インターフェース部を介して出力するステップと、を含むことを特徴とする。

本発明の自動通訳装置及び方法は、既存の自動通訳装置と同様に、ユーザのソース言語発声音を受信して音声認識し、自動でターゲット言語に翻訳及び音声で出力するだけでなく音声認識されたテキストに付加してその発声音をターゲット言語で表示し、翻訳されたターゲット言語の発音をソース言語の発音表記法により表示することにより、ユーザが直接音声認識テキストを発音したり、翻訳されたターゲット言語を発音したりすることができる。従って、ユーザが状況によって音声認識対象テキストや通訳されたターゲット言語を直接発声することができるので、対話相手と円滑な疎通を図ることができるだけでなく、相対国の言語を理解し、分かり難い外国語の発音を容易に認識して発音を真似ることができるので、外国語学習の成就度を大きく高めることができる。さらに、ユーザの発声音に対する音声認識結果をソース言語及びターゲット言語で共に表示することにより、自動通訳装置の誤りの可否を迅速で正確に判断して、対処することができる。

本発明の一実施例に係る自動通訳装置の構成を示す図面である。本発明の一実施例に係る自動通訳装置の自動通訳方法を示す図面である。図２の自動通訳方法における第１発声音変換ステップを詳細に示す図面である。図２の自動通訳方法における第２発声音変換ステップを詳細に示す図面である。

本発明と本発明の動作上の利点及び本発明の実施によって達成される目的を十分に理解するためには、本発明の好ましい実施例を例示する添付図面及び添付図面に記載された内容を参照しなければならない。

以下、添付した図面に基づいて本発明の好ましい実施例を説明することにより本発明を詳細に説明する。しかし、本発明は、多様な異なる形態に実現することができ、説明する実施例に限定されるものではない。そして、本発明を明確に説明するために、説明と関係ない部分は省略し、図面において、同一の図面符号は同一の部材であることを示す。

明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特別に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。また、明細書に記載された「・・・部」、「・・・機」、「モジュール」、「ブロック」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはハードウェアとソフトウェアとの結合により実現可能である。

図１は、本発明の一実施例に係る自動通訳装置の構成を示す。

図１を参照すると、本発明の自動通訳装置は、インターフェース部と、設定部２００と、通訳部３００と、を含む。

インターフェース部は、自動通訳装置の入出力部であって、ユーザの命令が印加され、ユーザに通訳結果を出力する。インターフェース部は、音声感知部１１０と、ユーザ入力部１２０と、ディスプレイ部１３０と、音声出力部１４０と、を含む。音声感知部１１０は、マイクのような音声感知センサーを含み、ユーザが入力する音声信号（ｉｎ）を感知して通訳部３００に伝送する。ユーザ入力部１２０は、キーボード、マウス、タッチパッド、タッチスクリーン等のようなユーザ命令の入力手段として実現され、ユーザがユーザ命令またはテキストを自動通訳装置に印加できるようにする。ユーザ入力部１２０は、ユーザ命令が印加されると、設定部２００に伝送し、通訳するためのテキストが入力されると、テキストを通訳部３００に伝送する。

ディスプレイ部１３０は、スクリーン、モニターなどのようなディスプレイ手段により実現可能であり、場合によって、タッチスクリーンやタッチパネルのように、ユーザ入力部１２０と結合された形態に実現されることも可能である。ディスプレイ部１３０は、ユーザが音声で入力したソース言語に対する音声認識結果やユーザが入力したテキスト、通訳されたターゲット言語テキストを表示する。特に、本発明の自動通訳装置におけるディスプレイ部１３０は、ソース言語に対する音声認識結果やユーザが入力したテキストに対する発音をターゲット言語で表示し、通訳されたターゲット言語テキストに対する発音をソース言語で、ともに表示する。これは、直ちに消滅してしまう音声と異なって、ユーザが相手の言語の発音を認知して直接発音できるようにする。そして、通訳されたターゲット言語が音声で出力され、かつターゲット言語テキストに対する発音がソース言語で、ともに表示されると、音声のみに発声される場合に比べて、ユーザが通訳された言語の発音に対して、より理解し易くなり、外国語学習にも大きい成果を得ることができる。

音声出力部１４０は、通訳部３００で通訳されたターゲット言語が合成音に生成されると、生成された合成音を出力する。音声出力部１４０は、スピーカーのような音声出力手段により実現可能である。

設定部２００は、ユーザ入力部１２０を介して印加されるユーザ命令に応答してソース言語情報、ターゲット言語情報、合成音の出力設定などを設定して格納する。ここで、ソース言語情報は、ユーザにより音声またはテキストで入力されて、通訳対象となるソース言語がどんな言語であるのかに関する情報を含む。これと類似に、ターゲット言語情報は、入力されたソース言語をどんな言語に通訳するかに関する情報を含む。例えば、ソース言語情報及びターゲット言語情報として韓国語、英語、日本語、中国語などを設定することができる。

通訳部３００は、ユーザが入力したソース言語基盤の音声またはテキストを翻訳してターゲット言語基盤のテキストに翻訳し、翻訳されたターゲット言語基盤のテキストを合成音に生成して通訳を行う。特に、本発明における通訳部３００は、ソース言語基盤のテキストの発声音をターゲット言語で表示し、翻訳されたターゲット言語基盤のテキストの発声音をソース言語で表示する。すなわち、ソース言語及びターゲット言語のそれぞれに対して、発声音を互いに相対国の言語で表示することにより、互いに異なる言語を使用する複数のユーザが互いに相手の言語を直接発音できるようにする。

通訳部３００は、音声及び言語データベース部３１０と、音声認識部３２０と、テキスト翻訳部３３０と、音声合成部３４０と、第１発声音変換部３５０と、第２発声音変換部３６０と、を含む。

音声及び言語データベース部３１０は、ソース言語及びターゲット言語に関するデータを格納する。音声及び言語データベース部３１０には、一般的に音声認識装置において音声認識をするために使用される言語モデル、発音辞書及び音響モデルが格納される。言語モデルは、自然語において、文法、構文、単語などに対する、ある規則性を見つけ出し、その規則性を利用するために備えられ、音響モデルは、音声を認識単位に分離し、モデリングして認識単位の音声を認識単位の音素に変換するために備えられる。発音辞書は、各言語の発音表記法及び発音特性情報を含み、言語別の言語表記法を提供する。言語モデル、音響モデル及び発音辞書は、ソース言語及びターゲット言語に対してそれぞれ備えられることができ、他の言語に対しても備えられることができる。そして、音声及び言語データベース部３１０は、言語モデル、発音辞書及び音響モデルを統合した認識ネットワークを形成して格納することができる。

特に、本発明に係る自動通訳装置は、従来の通訳装置と異なって、入力されたソース言語をターゲット言語に変換して出力するだけでなく、ターゲット言語に変換されたテキストに対する発声音をソース言語で表示したり、入力されたソース言語のテキストの発声音をターゲット言語で表示したりすることができる。また、それぞれの言語は、固有の文字体系や発音体系を有する場合が多い。このため、本発明の音声及び言語データベース部３１０は、言語モデルの種類に応じて発音辞書、発音変異データベース、文字素−音素（ｇｒａｐｈｅｍｅｔｏｐｈｏｎｅｍｅ：以下、ｇ２ｐという）変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも１つを備えることができる。
一例として、韓国語を日本語に、日本語を韓国語に相互通訳する場合を想定すると、韓国語は、音節及び音素文字体系であるのに対して、日本語は、音節単位の文字体系であるため、互いに発音表記法が異なる。

先ず、韓国語の発声音を日本語で表示する場合を説明すると、発音辞書は、文字を音素単位の発音記号に変換するための規則を格納し、ｇ２ｐ変換テーブルの土台となる。すなわち、文字素が入力されると、入力された文字素を、対応する音素の発音記号に変換して出力することができる。

発音対訳データベースは、韓国語音節に対応する音素の結合構造を格納し、音素の結合に対応する日本語音節を格納して、韓国語音節を日本語音節に変換できるようにする。

そして、韓国語の場合は、子音同化、口蓋音化、縮約などの多様な発音変異現象が存在する。そのため、発音変異データベースは、発音変異情報を格納し、各語彙の実際の発音に対応する発音を抽出できるようにする。例えば、韓国語の標記

を日本語で表示しようとする場合は、実際の発音である

に対応する日本語が表示されるようにでき、

の場合は、実際の発音である

に対応する日本語が表示できるようにする。

一方、日本語の発声音を韓国語で表示する場合を説明すると、ｇ２ｐ変換テーブルは、韓国語の発音を日本語で表示する場合と同様に動作する。発音対訳データベースは、日本語音節の発音記号を韓国語音節に対比して変換できるようにする。しかし、日本語の場合は、韓国語のような発音変異が相対的に少ないため、発音変異データベースが省略できる。代わりに、日本語中には、韓国語の表記が既に慣習化されている語彙がかなり多く存在する。対訳語データベースは、日本語に対して慣習化された対訳語を提供して、慣習化された語彙に対応できるようにする。

音声認識部３２０は、音声感知部１１０を介して音声信号（ｉｎ）を受信し、音声及び言語データベース部３１０に格納された音響モデルと言語モデルとを基盤にして設定された認識ネットワークを利用してテキストに変換する。このとき、変換されたテキストはソース言語基盤テキストである。

テキスト翻訳部３３０は、音声信号（ｉｎ）が変換されたソース言語基盤テキストを音声認識部３２０から受信したり、ユーザがユーザ入力部１２０を用いて入力したりしたソース言語基盤テキストをターゲット言語基盤テキストに翻訳する。仮に、韓国語音声信号（ｉｎ）が韓国語

と音声認識されると、テキスト翻訳部３３０は、

に対応する日本語である「さようなら」に変換することができる。テキスト翻訳部３３０は、音声及び言語データベース部３１０の言語モデルを基盤にして、ソース言語基盤テキストをターゲット言語基盤テキストに翻訳する。テキストを翻訳する技法は公知された様々な技術が存在するので、ここでは詳細な説明を省略する。

そして、テキスト翻訳部３３０は、前処理部（図示せず）を備えることができる。前処理部は、テキスト翻訳の前にアラビア数字のような記号をテキストに変換したり、綴字法誤りをチェックして修正する前処理作業を行うことができる。しかし、数字や記号の場合は、多くの言語では、統合して使用される場合も多いため、テキストに変換する必要がないこともある。しかし、数字や記号に対する発音は各言語別に異なる場合が大部分であるので、前処理部は、テキストを発声音に従って変換する第１及び第２発声音変換部３５０、３６０に含まれ得る。

音声合成部３４０は、翻訳されたターゲット言語基盤テキストを音声合成してユーザが聴取できるように、合成音を生成して音声出力部１４０に出力する。このとき、音声合成部３４０は、設定部２００の設定により合成音を男性の音声または女性の音声や、大人または子供の音声などで多様に合成することができる。

第１発声音変換部３５０は、音声認識部３２０で認識したソース言語基盤テキストを音声及び言語データベースの発音辞書に基づいてターゲット言語に変換する。すなわち音声信号（ｉｎ）が入力されて、音声認識部３２０でソース言語基盤テキストに変換されると、変換されたソース言語基盤テキストの発声音をターゲット言語で表示する。上記の例のように、韓国語を日本語に通訳する場合、音声信号（ｉｎ）は、ソース言語が韓国語である韓国語基盤音声信号で入力される。そして、韓国語基盤音声信号は、音声認識部３２０で韓国語基盤テキストに変換される。ここで、第１発声音変換部３５０は、韓国語基盤テキストの発声音をターゲット言語である日本語テキストに変換する。仮に、入力信号（ｉｎ）が、

で音声認識されると、第１発声音変換部３５０は、

を音声及び言語データベース部３１０のデータを用いて日本語のカタカナ表記「アンニョンヒ・ギェセヨ」に変換する。これは、テキスト翻訳部３３０が行う意味的翻訳である「さようなら」と異なって、韓国語発声音を「アンニョンヒ・ギェセヨ」に変換することにより、相対者である日本人が韓国語発音を、自国語で見て容易に発声できるようにする。

そして、第１発声音変換部３５０は、音声認識部３２０で認識したソース言語基盤テキストとソース言語基盤テキストの発声音を表示したターゲット言語テキストとをディスプレイ部１３０に伝送し、ディスプレイ部１３０が音声認識されたソース言語基盤テキストに付加してソース言語基盤テキストの発声音を表示したターゲット言語テキストを表示できるようにする。ここで、ユーザは、自分が発話した音声を自動通訳装置が正確に認識したか否かを判別することができ、これに対応する発声音のターゲット言語表記も確認することができる。

上記では、第１発声音変換部３５０が音声認識部３２０からソース言語基盤テキストを受信することを説明したが、ソース言語基盤テキストは、テキスト翻訳部から受信することもできる。

第２発声音変換部３６０は、第１発声音変換部３５０とは反対に、テキスト翻訳部３３０で翻訳したターゲット言語基盤テキストの発声音を言語データベースに基づいてソース言語のテキストに変換する。第２発声音変換部３６０は、音声合成部３４０に印加されたターゲット言語に翻訳されたテキストを受信し、翻訳されたターゲット言語テキストの発声音をソース言語に変換する。上記の例で、第２発声音変換部３６０は、韓国語の

が翻訳された日本語である“さようなら”を韓国語発音の

に変換する。ここで「−」は、長音表記記号である。

そして、第１発声音変換部３５０と同様に、第２発声音変換部３６０が、翻訳された日本語の発声音を表示する韓国語を日本語テキストとともにディスプレイ部１３０に伝送して表示されるようにすることで、ユーザはターゲット言語に翻訳されたテキストに対する発音を韓国語で確認することができるので、発音に対する高い理解度を有し、翻訳されたテキストを容易に直接発話することができる。

同時に、ターゲット言語に翻訳されたテキストに対応する合成音が音声出力部１４０を介して出力されるので、発音に対する高い理解度を有することができるので、語学学習の際にも成就度を高めることができる。

上記では説明の便宜のために、第１発声音変換部３５０と第２発声音変換部３６０を別に図示したが、第１発声音変換部３５０と第２発声音変換部３６０は統合して実現されることもできる。また、図１では、第２発声音変換部３６０が、音声合成部３４０から翻訳されたターゲット言語基盤テキストを受信することに図示したが、第２発声音変換部３６０は、テキスト翻訳部３３０からターゲット言語基盤テキストを受信してもよい。

また、図１では、設定部２００を通訳部３００と別途に図示したが、設定部２００は通訳部３００に含まれてもよい。

図１の自動通訳装置は、通訳のための別途の装置として実現されることもできるが、設定部２００及び通訳部３００が、ソフトウェアとして実現可能であるため、インターフェース部を備える様々な装置が自動通訳装置として活用可能である。例えば、スマートフォン、スマートパッド、ＰＤＡ、ＰＣなどのような各種情報通信機器が自動通訳装置として活用されることができる。

図２は、本発明の一実施例に係る自動通訳装置の自動通訳方法を示す。

図２の自動通訳方法も、図１に示したように、韓国語を日本語に通訳する場合を例にあげて説明する。図１を参照して図２の自動通訳方法を説明すると、自動通訳装置は、先ず、ユーザがユーザ入力部１２０を介して印加するユーザ命令により自動通訳設定を受信して格納する（Ｓ１０）。ここで、自動通訳設定は、ソース言語及びターゲット言語情報、合成音の出力設定などを格納する。自動通訳設定は、基本値が予め指定されており、ユーザが設定しなくても、基本設定により通訳が行われることができる。

自動通訳設定が指定されると、自動通訳装置は、音声信号（ｉｎ）であるソース語音声が入力されるか否かを判別する（Ｓ２０）。ソース語音声は、ユーザが使用するソース言語基盤の音声であって、音声感知部１１０を介して入力されることができ、ユーザは、ユーザ入力部１２０を介してユーザ命令として音声入力命令を印加することにより、ソース語音声が入力されるようにすることができ、場合によっては、自動通訳装置が自動で音声入力の可否を感知できるようにすることも可能である。若しソース語音声が入力されたと判別されると、音声認識部３２０は、音声及び言語データベース部３１０で音響モデル、発音辞書及び言語モデルを統合して格納された認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成する（Ｓ３０）。

一方、ソース語音声が入力されないと、ソース語テキストが入力されるか否かを判別する（Ｓ４０）。ユーザは、通訳しようとする文章を音声で自動通訳装置に印加してもよく、雑音が多い場合や、音声に発話し難い環境のような特別な場合は、ユーザ入力部１２０を介して、通訳しようとする文章をテキストで直接入力してもよい。この場合は、音声認識が不要であるので、音声認識ステップＳ３０を省略する。

音声認識またはソーステキスト入力によりソース言語基盤テキストが得られると、第１発声音変換部３５０は、ソース言語基盤テキストの発音をターゲット言語のテキストに変換し、ソース言語基盤テキストとソース言語テキストの発声音を表示するターゲット言語テキストとをディスプレイ部１３０を介して出力する（Ｓ５０）。

そして、ソース言語基盤テキストを自動通訳設定により自動で翻訳してターゲット言語テキストに変換する（Ｓ６０）。

自動翻訳が行われてターゲット言語テキストが得られると、自動通訳装置の第２発声音変換部２６０が、翻訳されたターゲット言語テキストの発音をソース言語テキストに変換し、ターゲット言語テキストとターゲット言語テキストの発声音を表示するソース言語テキストとをディスプレイ部１３０を介して出力する（Ｓ７０）。
一方、音声合成部３４０は、ターゲット言語基盤テキストに対応する音声を合成して合成音を生成する（Ｓ８０）。そして、音声出力部１４０は、合成音を受信して出力する（Ｓ９０）。

合成音を出力した後、自動通訳装置は、逆にターゲット語に対して通訳するか否かを、ユーザ入力部１２０を介して印加されるユーザ命令により判別する（Ｓ１００）。若しターゲット語に対する通訳命令が印加されると、既に設定された自動通訳設定においてソース語とターゲット語とを相互交換する通訳設定転換を行う（Ｓ１１０）。

上記のように、本発明に係る自動通訳装置の自動通訳方法は、ソース語が音声またはテキストで入力されると、入力されたソース語の発音に対応するターゲット言語テキストと、ソース語が翻訳されたターゲット語に付加してその発声音を表記したソース言語テキストとを出力することにより、ユーザが発話した音声に対するターゲット語の発音表記と、通訳されたターゲット語に対するソース語の発音表記とを全て確認することができる。したがって、ユーザが、通訳されたターゲット言語の発音を容易に認知することができるので、直接発話できるようにするだけでなく、語学学習にも役に立つことができる。

上記では、ソース言語基盤テキストの発音をターゲット言語テキストに変換する第１発声音変換ステップＳ５０を説明したが、実際のユーザは、ターゲット言語テキストを必要としない場合もある。この場合、第１発声音変換ステップＳ５０は、省略可能であり、第１発声音変換部３５０も自動通訳装置から除去可能である。

図３は、図２の自動通訳方法での第１発声音変換ステップを詳細に示し、図４は、図２の自動通訳方法での第２発声音変換ステップを詳細に示す。

図３及び図４においても、韓国語から日本語に通訳する場合を一例にして説明し、前処理部がテキスト翻訳部ではなく、第１及び第２発声音変換部３５０、３６０にそれぞれ備えられることを想定して説明する。

図３の第１発声音変換ステップＳ５０は、ソース言語基盤テキストの発声音をターゲット言語テキストに変換するステップであって、先ず、音声認識されたり、ソース語テキストが入力されたりして得られたソース言語基盤テキストに対して、前処理作業を行う（Ｓ５１）。前処理作業は、上述したように、綴字法チェックのように文法的誤りを修正し、数字や記号をソース言語基盤テキストに変換して行われることができる。そして、音声及び言語データベース部３１０の発音変異データベースを用いて発音変異変換を行う（Ｓ５２）。発音変異変換は、上述したように、韓国語の特性である子音同化、口蓋音化、縮約などの様々な発音変異現象がソース言語基盤テキストに適用されるようにする。すなわちソース言語基盤テキストを発音基盤テキストに一部変換する。

発音変異変換を行った後、ソース言語基盤テキストを語節単位に分離する（Ｓ５３）。語節分離は、言語の種類に関係なく、分かち書きが反映されるようにするためである。語節が分離されると、音節分離を行う（Ｓ５４）。そして、音節が分離されると、各音節を初声、中声及び終声に音素分離を行う（Ｓ５５）。音素分離は、韓国語が音素基盤言語であるため行い、音素に分離できない日本語や中国語の場合は、音素分離を省略できる。

音素分離が行われると、音声及び言語データベース部３１０のｇ２ｐ変換テーブルを用いて分離された音素を音素単位の発音記号に変換する（Ｓ５６）。表１は、韓国語を発音記号に変換するためのｇ２ｐ変換テーブルの一例を示す。

そして、音声及び言語データベース部３１０の発音対訳データベースを用いて、変換された音素単位発音記号を音節単位に結合した後、結合された音節に対応するターゲット語（ここでは、日本語）の音節に変換する（Ｓ５７）。表２は、韓国語を日本語の音節に変換するための発音対訳データベースの一例を示す。

分離された音節の全てがターゲット語の音節に変換されると、変換された音節を再び結合して語節を復元する（Ｓ５８）。復元された語節は、ソース言語基盤テキストの発声音がターゲット言語テキストに変換されたものであって、自動通訳装置は、ディスプレイ部１３０を介してターゲット言語テキストを表示する（Ｓ５９）。このとき、ソース言語基盤テキストに付加して、ソース言語基盤テキストの発声音に対するターゲット言語テキストがともに表示されることができる。

一方、図４の第２発声音変換ステップ（Ｓ７０）は、翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換するステップであって、第１発声音変換ステップＳ５０と同様に、先ず前処理ステップを行うことができる（Ｓ７１）。そして、対訳語検索ステップを行う（Ｓ７２）。上述したように、日本語基盤テキストの発声音を韓国語テキストに変換する場合は、既に慣習化された語彙の対訳語がかなり多く数存在するので、これを反映する必要がある。このような対訳語が発音に適用されるように、音声及び言語データベース部３１０に含まれている対訳語データベースを用いて、ターゲット言語基盤テキストにソース言語の対訳語が存在するか否かを判断する。

若し対訳語が存在することに判別されると、音声及び言語データベース部３１０に格納されている対訳語を呼び出して適用する（Ｓ７４）。対訳語を適用する場合は、当該語彙に対しては、別途の変換過程が不要である。

一方、対訳語の存在しない語彙に対しては、図３と同様に、音節分離ステップ（Ｓ７５）と、ｇ２ｐ変換ステップ（Ｓ７６）と、発音対訳変換ステップ（Ｓ７７）とを行う。単に、ｇ２ｐ変換のためのｇ２ｐ変換テーブル及び発音対訳データベースの場合は、韓国語の発音を日本語に変換する場合と、日本語の発音を韓国語に変換する場合とが異なるので、互いに異なるｇ２ｐ変換テーブル及び発音対訳データベースを使用することができる。
表３は、日本語を発音記号に変換するためのｇ２ｐ変換テーブルの一例を示す。

表４は、日本語を韓国語の音節に変換するための発音対訳データベースの一例を示す。

表１から表４において、アルファベット大文字“Ｂ”と“Ｌ”は、日本語の発音特性上、語頭、語中、語尾に応じて異なって発音される発声を反映したものであり、“：”は、長音を示す。

対訳語が存在する語彙に対しては、対訳語が適用され、対訳語が存在しない語彙に対しては、音節分離、ｇ２ｐ変換及び発音対訳変換が行われると、対訳語と、発音対訳が行われた語彙とを再び文章として結合する（Ｓ７８）。

結合された文章は、翻訳されたターゲット言語基盤テキストの発声音がソース言語テキストに変換されたものであって、自動通訳装置は、ディスプレイ部１３０を介してソース言語テキストを表示する（Ｓ７９）。ここで、翻訳されたターゲット言語基盤テキストとともに、その発声音をソース言語で表示したソース言語テキストを表示することができる。

図３及び図４は、韓国語を日本語に通訳する場合を想定して説明したが、日本語を韓国語に通訳する場合は、図３が第２発声音変換ステップとして行われ、図４が第１発声音変換ステップとして行われることができる。

上記では、一例として韓国語と日本語との間の通訳を例にして説明したが、本発明は、これに限定されず、他の種類の言語に対しても適用できることは明らかである。

本発明に係る方法は、コンピューター読み取り可能な記録媒体に、コンピューターで読み取り可能なコードで実現することができる。コンピューターで読み取り可能な記録媒体とは、コンピューターシステムによって読み出されることができるデータが格納されるすべての種類の記録装置を含む。記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ格納装置などがあり、また、キャリアウエーブ（例えばインターネットを介した伝送）などの形態に実現されることも含む。また、コンピューターで読み取り可能な記録媒体は、ネットワークに接続されたコンピューターシステムに分散され、分散方式でコンピューターで読み取り可能なコードとして格納されて行われる。

本発明は、図面に示した実施例に基づいて説明したが、これは例示的に説明したものに過ぎず、本発明が属する技術分野の通常の知識を有する者であれば、これから多様な変形及び均等な他の実施例が可能であることを理解できよう。

したがって、本発明の技術的保護範囲は、本発明の請求範囲の技術的思想によって定められるべきである。

Claims

ユーザからユーザ命令と、通訳対象となるソース言語基盤音声とが印加され、前記ソース言語基盤音声が翻訳されたターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、
前記ユーザ命令に応答して、前記ソース言語と前記ターゲット言語に関する情報を設定する設定部と、
前記インターフェース部を介して前記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳し、翻訳された前記ターゲット言語基盤テキストに付加して前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に伝送する通訳部と、
を含む自動通訳装置。
前記通訳部は、
前記ソース言語及び前記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、
前記インターフェース部から受信される前記ソース言語基盤音声を前記音響及び言語データベース部の前記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、
前記音声認識部から前記ソース言語基盤テキストを受信し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、
前記テキスト翻訳部から前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成して、前記インターフェース部に伝送する音声合成部と、
前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する発声音変換部と、を含むことを特徴とする請求項１に記載の自動通訳装置。
前記発声音変換部は、
前記音声認識部及び前記テキスト翻訳部のうちの１つから前記ソース言語基盤テキストを受信し、前記言語データベース部の認識ネットワークを利用して、受信された前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換して前記インターフェース部に出力する第１発声音変換部と、
前記テキスト翻訳部及び前記音声合成部のうちの１つから前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する第２発声音変換部と、を含むことを特徴とする請求項２に記載の自動通訳装置。
前記第１及び第２発声音変換部のそれぞれは、
前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする請求項３に記載の自動通訳装置。
前記音響及び言語データベース部は、
前記ソース言語及び前記ターゲット言語の種類に応じて前記認識ネットワークが、発音変異データベース、文字素−音素（ｇｒａｐｈｅｍｅｔｏｐｈｏｎｅｍｅ：以下、ｇ２ｐという）変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも１つを備えることを特徴とする請求項３に記載の自動通訳装置。
前記ソース言語が、韓国語であり、前記ターゲット言語が、日本語であることを特徴とする請求項５に記載の自動通訳装置。
前記第１発声音変換部は、
前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行って語節、音節及び音素単位に順次分離し、前記ｇ２ｐ変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ターゲット言語の音節に変換し、変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成することを特徴とする請求項６に記載の自動通訳装置。
前記第２発声音変換部は、
前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別し、対訳語が存在する語彙に対しては、対訳語の発音を適用し、対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離し、前記ｇ２ｐ変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ソース言語の音節に変換し、前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成することを特徴とする請求項７に記載の自動通訳装置。
前記インターフェース部は、
前記ユーザが入力する音声を感知して前記通訳部に伝送する音声感知部と、
ユーザ命令入力手段として実現され、前記ユーザ命令または前記ソース言語基盤テキストが入力されるユーザ入力部と、
ディスプレイ手段として実現され、前記ソース言語基盤テキストと翻訳された前記ターゲット言語基盤テキスト、前記ターゲット言語基盤テキストの発声音をソース言語で表記した前記ソース言語テキスト、及び前記ソース言語基盤テキストの発声音をターゲット言語で表記した前記ターゲット言語テキストのうちの少なくとも１つを表示するディスプレイ部と、
音声出力手段として実現され、前記合成音を出力する音声出力部と、を含むことを特徴とする請求項２に記載の自動通訳装置。
インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、前記自動通訳装置が、
前記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、
前記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、
前記ソース言語基盤音声が印加されると、前記通訳部の音響及び言語データベース部に格納されている前記ソース言語及び前記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、
前記ソース言語基盤テキストを、前記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、
前記翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換して出力するステップと、を含む自動通訳方法。
前記自動通訳方法は、
前記ターゲット言語基盤テキストに翻訳するステップの前に、前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換して出力するステップをさらに含むことを特徴とする請求項１０に記載の自動通訳方法。
前記ソース言語が、韓国語であり、前記ターゲット言語が、日本語であることを特徴とする請求項１１に記載の自動通訳方法。
前記認識ネットワークは、
前記ソース言語及び前記ターゲット言語の種類に応じて発音変異データベース、文字素−音素（ｇｒａｐｈｅｍｅｔｏｐｈｏｎｅｍｅ：以下、ｇ２ｐという）変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも１つを含むことを特徴とする請求項１２に記載の自動通訳方法。
前記ターゲット言語テキストに変換して出力するステップは、
前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、
前記発音変異変換が行われた前記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、
前記ｇ２ｐ変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
前記変換された音素単位の発音記号を音節単位に結合するステップと、
前記結合された音節に対応する前記ターゲット言語の音節に変換するステップと、
前記変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成するステップと、
前記ターゲット言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項１３に記載の自動通訳方法。
前記ソース言語テキストに変換して出力するステップは、
前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、
前記対訳語が存在する語彙に対しては対訳語の発音を適用するステップと、
前記対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離するステップと、
前記ｇ２ｐ変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
前記変換された音素単位発音記号を音節単位に結合するステップと、
前記結合された音節に対応する前記ソース言語の音節に変換するステップと、
前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成するステップと、
前記ソース言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項１４に記載の自動通訳方法。
前記ターゲット言語テキストに変換して出力するステップ及び前記ソース言語テキストに変換して出力するステップのそれぞれは、
前記発音変異変換を行うステップ及び前記対訳語が存在するか否かを判別するステップの前に、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理ステップをさらに含むことを特徴とする請求項１５に記載の自動通訳方法。
前記自動通訳方法は、
前記ターゲット言語基盤テキストに翻訳するステップの前に、前記ソース言語基盤音声が印加されないと、前記インターフェース部を介してソース言語基盤テキストが直接印加されるステップと、
前記ターゲット言語基盤テキストに翻訳するステップの後に、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、前記インターフェース部を介して合成音を出力するステップと、をさらに含むことを特徴とする請求項１０に記載の自動通訳方法。
請求項１０から請求項１７のいずれか1項に記載の自動通訳装置の自動通訳方法を行うためのコンピュータ読み取り可能なプログラムを記録した記録媒体。