JP6397641B2 - 自動通訳装置及び方法 - Google Patents

自動通訳装置及び方法 Download PDF

Info

Publication number
JP6397641B2
JP6397641B2 JP2014056505A JP2014056505A JP6397641B2 JP 6397641 B2 JP6397641 B2 JP 6397641B2 JP 2014056505 A JP2014056505 A JP 2014056505A JP 2014056505 A JP2014056505 A JP 2014056505A JP 6397641 B2 JP6397641 B2 JP 6397641B2
Authority
JP
Japan
Prior art keywords
text
language
source language
unit
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014056505A
Other languages
English (en)
Other versions
JP2015026054A (ja
Inventor
スー−ジョン イ
スー−ジョン イ
サン フン キム
サン フン キム
ジョン セ キム
ジョン セ キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2015026054A publication Critical patent/JP2015026054A/ja
Application granted granted Critical
Publication of JP6397641B2 publication Critical patent/JP6397641B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、自動通訳装置及び方法に関し、より詳細には、自動通訳時に出力される音声認識テキスト及び自動翻訳テキストのそれぞれの発声音を相対国言語または発音表記法により表示できる自動通訳装置及び方法に関する。
自動通訳装置は、互いに異なる言語を話す人の間に意思疎通をより円滑に図ることができるようにする装置であって、通常ソース言語のユーザがソース言語で発声すると、発声されたソース言語を音声認識して、相対国言語のユーザが使用するターゲット言語に自動翻訳し、翻訳されたターゲット言語を合成音声で出力する。
すなわち、既存の自動通訳装置では、ソース言語の発声音が音声認識によりソース言語のテキストで表示され、自動翻訳によりターゲット言語のテキストに翻訳される。ターゲット言語のテキストは、ターゲット言語の音声に合成されて出力される。しかし、合成されて出力される音声は直ちに消滅するので、ユーザが相対国言語の発声音を直接再現して意思疎通に活用することは困難であるという問題点があった。
また、既存の大部分の自動通訳装置は、通常使用頻度の低い固有名詞が入力される場合や雑音がひどい環境では、音声認識性能が急激に低下する現象が現われる。このように音声認識性能が低下する場合は、ユーザが自動通訳装置に直接テキストを入力して意思疏通を図るか、自動通訳によらないで相対国言語を直接発声する必要性が発生する。したがって、ユーザの円滑な意思疎通のためには多様なインターフェースが最大限提供されなければならない。
本発明の目的は、ソース言語を音声認識してターゲット言語に自動変換し、音声で出力すると同時にユーザが、翻訳されたターゲット言語を直接発音できるように、ターゲット言語をソース言語の発音表記法により表示することができる自動通訳装置を提供することにある。
本発明の他の目的は、上記目的を達成するための自動通訳装置の自動通訳方法を提供することにある。
上記目的を達成するために、本発明の一例に係る自動通訳装置は、ユーザからユーザ命令及び通訳対象となるソース言語基盤音声が印加され、上記ソース言語基盤音声を翻訳したターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、上記ユーザ命令に応答して上記ソース言語及び上記ターゲット言語に関する情報を設定する設定部と、上記インターフェース部を介して上記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、上記ソース言語基盤テキストを上記ターゲット言語基盤テキストに翻訳し、翻訳された上記ターゲット言語基盤テキストに付加して上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に伝送する通訳部と、を含む。
上記通訳部は、上記ソース言語及び上記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、上記インターフェース部から受信される上記ソース言語基盤音声を上記音響及び言語データベース部の上記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、上記音声認識部から上記ソース言語基盤テキストを受信し、上記ソース言語基盤テキストを上記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、上記テキスト翻訳部から上記ターゲット言語基盤テキストを受信して上記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、上記インターフェース部に伝送する音声合成部と、上記ターゲット言語基盤テキストを受信し、上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に出力する発声音変換部と、を含むことを特徴とする。
上記発声音変換部は、上記音声認識部及び上記テキスト翻訳部のうちの1つから上記ソース言語基盤テキストを受信し、上記言語データベース部の認識ネットワークを利用して、受信された上記ソース言語基盤テキストの発声音を上記ターゲット言語テキストに変換し、上記インターフェース部に出力する第1発声音変換部と、上記テキスト翻訳部及び上記音声合成部のうちの1つから上記ターゲット言語基盤テキストを受信し、上記ターゲット言語基盤テキストの発声音を上記ソース言語テキストに変換して上記インターフェース部に出力する第2発声音変換部と、を含むことを特徴とする。
上記第1及び第2発声音変換部のそれぞれは、上記ソース言語基盤テキスト及び上記ターゲット言語基盤テキスト中の文法誤りを分析して修正し、上記ソース言語基盤テキスト及び上記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする。
上記音響及び言語データベース部は、上記ソース言語及び上記ターゲット言語の種類に応じて、上記認識ネットワークが発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることを特徴とする。
上記の他の目的を達成するために本発明の一例に係る自動通訳方法は、インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、上記自動通訳装置が上記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、上記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、上記ソース言語基盤音声が印加されると、上記通訳部の音響及び言語データベース部に格納されている上記ソース言語及び上記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、上記ソース言語基盤テキストを上記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、上記翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換して出力するステップと、を含む。
上記ソース言語は、韓国語であり、上記ターゲット言語は日本語であることを特徴とする。
上記認識ネットワークは、上記ソース言語及び上記ターゲット言語の種類に応じて発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを含むことを特徴とする。
上記ターゲット言語テキストに変換して出力するステップは、上記ソース言語基盤テキストに対し、上記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、上記発音変異変換が行われた上記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、上記g2p変換テーブルを用いて分離された上記音素を音素単位の発音記号に変換するステップと、上記変換された音素単位の発音記号を音節単位に結合するステップと、上記結合された音節に対応する上記ターゲット言語の音節に変換するステップと、上記変換された音節を結合して上記語節を復元することにより上記ソース言語基盤テキストの発声音を表示する上記ターゲット言語テキストを生成するステップと、上記ターゲット言語テキストを上記インターフェース部を介して出力するステップと、を含むことを特徴とする。
上記ソース言語テキストに変換して出力するステップは、上記ターゲット言語基盤テキストに、ソース言語で慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、上記対訳語が存在する語彙に対しては、対訳語の発音を適用するステップと、上記対訳語が存在しない語彙に対しては、語節、音節及び音素単位に順次分離するステップと、上記g2p変換テーブルを用いて分離された上記音素を音素単位の発音記号に変換するステップと、上記変換された音素単位の発音記号を音節単位に結合するステップと、上記結合された音節に対応する上記ソース言語の音節に変換するステップと、上記対訳語の発音と変換された音節とを結合して上記語節を復元することにより上記ターゲット言語基盤テキストの発声音を表示する上記ソース言語テキストを生成するステップと、上記ソース言語テキストを上記インターフェース部を介して出力するステップと、を含むことを特徴とする。
本発明の自動通訳装置及び方法は、既存の自動通訳装置と同様に、ユーザのソース言語発声音を受信して音声認識し、自動でターゲット言語に翻訳及び音声で出力するだけでなく音声認識されたテキストに付加してその発声音をターゲット言語で表示し、翻訳されたターゲット言語の発音をソース言語の発音表記法により表示することにより、ユーザが直接音声認識テキストを発音したり、翻訳されたターゲット言語を発音したりすることができる。従って、ユーザが状況によって音声認識対象テキストや通訳されたターゲット言語を直接発声することができるので、対話相手と円滑な疎通を図ることができるだけでなく、相対国の言語を理解し、分かり難い外国語の発音を容易に認識して発音を真似ることができるので、外国語学習の成就度を大きく高めることができる。さらに、ユーザの発声音に対する音声認識結果をソース言語及びターゲット言語で共に表示することにより、自動通訳装置の誤りの可否を迅速で正確に判断して、対処することができる。
本発明の一実施例に係る自動通訳装置の構成を示す図面である。 本発明の一実施例に係る自動通訳装置の自動通訳方法を示す図面である。 図2の自動通訳方法における第1発声音変換ステップを詳細に示す図面である。 図2の自動通訳方法における第2発声音変換ステップを詳細に示す図面である。
本発明と本発明の動作上の利点及び本発明の実施によって達成される目的を十分に理解するためには、本発明の好ましい実施例を例示する添付図面及び添付図面に記載された内容を参照しなければならない。
以下、添付した図面に基づいて本発明の好ましい実施例を説明することにより本発明を詳細に説明する。しかし、本発明は、多様な異なる形態に実現することができ、説明する実施例に限定されるものではない。そして、本発明を明確に説明するために、説明と関係ない部分は省略し、図面において、同一の図面符号は同一の部材であることを示す。
明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特別に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。また、明細書に記載された「・・・部」、「・・・機」、「モジュール」、「ブロック」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはハードウェアとソフトウェアとの結合により実現可能である。
図1は、本発明の一実施例に係る自動通訳装置の構成を示す。
図1を参照すると、本発明の自動通訳装置は、インターフェース部と、設定部200と、通訳部300と、を含む。
インターフェース部は、自動通訳装置の入出力部であって、ユーザの命令が印加され、ユーザに通訳結果を出力する。インターフェース部は、音声感知部110と、ユーザ入力部120と、ディスプレイ部130と、音声出力部140と、を含む。音声感知部110は、マイクのような音声感知センサーを含み、ユーザが入力する音声信号(in)を感知して通訳部300に伝送する。ユーザ入力部120は、キーボード、マウス、タッチパッド、タッチスクリーン等のようなユーザ命令の入力手段として実現され、ユーザがユーザ命令またはテキストを自動通訳装置に印加できるようにする。ユーザ入力部120は、ユーザ命令が印加されると、設定部200に伝送し、通訳するためのテキストが入力されると、テキストを通訳部300に伝送する。
ディスプレイ部130は、スクリーン、モニターなどのようなディスプレイ手段により実現可能であり、場合によって、タッチスクリーンやタッチパネルのように、ユーザ入力部120と結合された形態に実現されることも可能である。ディスプレイ部130は、ユーザが音声で入力したソース言語に対する音声認識結果やユーザが入力したテキスト、通訳されたターゲット言語テキストを表示する。特に、本発明の自動通訳装置におけるディスプレイ部130は、ソース言語に対する音声認識結果やユーザが入力したテキストに対する発音をターゲット言語で表示し、通訳されたターゲット言語テキストに対する発音をソース言語で、ともに表示する。これは、直ちに消滅してしまう音声と異なって、ユーザが相手の言語の発音を認知して直接発音できるようにする。そして、通訳されたターゲット言語が音声で出力され、かつターゲット言語テキストに対する発音がソース言語で、ともに表示されると、音声のみに発声される場合に比べて、ユーザが通訳された言語の発音に対して、より理解し易くなり、外国語学習にも大きい成果を得ることができる。
音声出力部140は、通訳部300で通訳されたターゲット言語が合成音に生成されると、生成された合成音を出力する。音声出力部140は、スピーカーのような音声出力手段により実現可能である。
設定部200は、ユーザ入力部120を介して印加されるユーザ命令に応答してソース言語情報、ターゲット言語情報、合成音の出力設定などを設定して格納する。ここで、ソース言語情報は、ユーザにより音声またはテキストで入力されて、通訳対象となるソース言語がどんな言語であるのかに関する情報を含む。これと類似に、ターゲット言語情報は、入力されたソース言語をどんな言語に通訳するかに関する情報を含む。例えば、ソース言語情報及びターゲット言語情報として韓国語、英語、日本語、中国語などを設定することができる。
通訳部300は、ユーザが入力したソース言語基盤の音声またはテキストを翻訳してターゲット言語基盤のテキストに翻訳し、翻訳されたターゲット言語基盤のテキストを合成音に生成して通訳を行う。特に、本発明における通訳部300は、ソース言語基盤のテキストの発声音をターゲット言語で表示し、翻訳されたターゲット言語基盤のテキストの発声音をソース言語で表示する。すなわち、ソース言語及びターゲット言語のそれぞれに対して、発声音を互いに相対国の言語で表示することにより、互いに異なる言語を使用する複数のユーザが互いに相手の言語を直接発音できるようにする。
通訳部300は、音声及び言語データベース部310と、音声認識部320と、テキスト翻訳部330と、音声合成部340と、第1発声音変換部350と、第2発声音変換部360と、を含む。
音声及び言語データベース部310は、ソース言語及びターゲット言語に関するデータを格納する。音声及び言語データベース部310には、一般的に音声認識装置において音声認識をするために使用される言語モデル、発音辞書及び音響モデルが格納される。言語モデルは、自然語において、文法、構文、単語などに対する、ある規則性を見つけ出し、その規則性を利用するために備えられ、音響モデルは、音声を認識単位に分離し、モデリングして認識単位の音声を認識単位の音素に変換するために備えられる。発音辞書は、各言語の発音表記法及び発音特性情報を含み、言語別の言語表記法を提供する。言語モデル、音響モデル及び発音辞書は、ソース言語及びターゲット言語に対してそれぞれ備えられることができ、他の言語に対しても備えられることができる。そして、音声及び言語データベース部310は、言語モデル、発音辞書及び音響モデルを統合した認識ネットワークを形成して格納することができる。
特に、本発明に係る自動通訳装置は、従来の通訳装置と異なって、入力されたソース言語をターゲット言語に変換して出力するだけでなく、ターゲット言語に変換されたテキストに対する発声音をソース言語で表示したり、入力されたソース言語のテキストの発声音をターゲット言語で表示したりすることができる。また、それぞれの言語は、固有の文字体系や発音体系を有する場合が多い。このため、本発明の音声及び言語データベース部310は、言語モデルの種類に応じて発音辞書、発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることができる。
一例として、韓国語を日本語に、日本語を韓国語に相互通訳する場合を想定すると、韓国語は、音節及び音素文字体系であるのに対して、日本語は、音節単位の文字体系であるため、 互いに発音表記法が異なる。
先ず、韓国語の発声音を日本語で表示する場合を説明すると、発音辞書は、文字を音素単位の発音記号に変換するための規則を格納し、g2p変換テーブルの土台となる。すなわち、文字素が入力されると、入力された文字素を、対応する音素の発音記号に変換して出力することができる。
発音対訳データベースは、韓国語音節に対応する音素の結合構造を格納し、音素の結合に対応する日本語音節を格納して、韓国語音節を日本語音節に変換できるようにする。
そして、韓国語の場合は、子音同化、口蓋音化、縮約などの多様な発音変異現象が存在する。そのため、発音変異データベースは、発音変異情報を格納し、各語彙の実際の発音に対応する発音を抽出できるようにする。例えば、韓国語の標記
Figure 0006397641
を日本語で表示しようとする場合は、実際の発音である
Figure 0006397641
に対応する日本語が表示されるようにでき、
Figure 0006397641
の場合は、実際の発音である
Figure 0006397641
に対応する日本語が表示できるようにする。
一方、日本語の発声音を韓国語で表示する場合を説明すると、g2p変換テーブルは、韓国語の発音を日本語で表示する場合と同様に動作する。発音対訳データベースは、日本語音節の発音記号を韓国語音節に対比して変換できるようにする。しかし、日本語の場合は、韓国語のような発音変異が相対的に少ないため、発音変異データベースが省略できる。代わりに、日本語中には、韓国語の表記が既に慣習化されている語彙がかなり多く存在する。対訳語データベースは、日本語に対して慣習化された対訳語を提供して、慣習化された語彙に対応できるようにする。
音声認識部320は、音声感知部110を介して音声信号(in)を受信し、音声及び言語データベース部310に格納された音響モデルと言語モデルとを基盤にして設定された認識ネットワークを利用してテキストに変換する。このとき、変換されたテキストはソース言語基盤テキストである。
テキスト翻訳部330は、音声信号(in)が変換されたソース言語基盤テキストを音声認識部320から受信したり、ユーザがユーザ入力部120を用いて入力したりしたソース言語基盤テキストをターゲット言語基盤テキストに翻訳する。仮に、韓国語音声信号(in)が韓国語
Figure 0006397641
と音声認識されると、テキスト翻訳部330は、
Figure 0006397641
に対応する日本語である「さようなら」に変換することができる。テキスト翻訳部330は、音声及び言語データベース部310の言語モデルを基盤にして、ソース言語基盤テキストをターゲット言語基盤テキストに翻訳する。テキストを翻訳する技法は公知された様々な技術が存在するので、ここでは詳細な説明を省略する。
そして、テキスト翻訳部330は、前処理部(図示せず)を備えることができる。前処理部は、テキスト翻訳の前にアラビア数字のような記号をテキストに変換したり、綴字法誤りをチェックして修正する前処理作業を行うことができる。しかし、数字や記号の場合は、多くの言語では、統合して使用される場合も多いため、テキストに変換する必要がないこともある。しかし、数字や記号に対する発音は各言語別に異なる場合が大部分であるので、前処理部は、テキストを発声音に従って変換する第1及び第2発声音変換部350、360に含まれ得る。
音声合成部340は、翻訳されたターゲット言語基盤テキストを音声合成してユーザが聴取できるように、合成音を生成して音声出力部140に出力する。このとき、音声合成部340は、設定部200の設定により合成音を男性の音声または女性の音声や、大人または子供の音声などで多様に合成することができる。
第1発声音変換部350は、音声認識部320で認識したソース言語基盤テキストを音声及び言語データベースの発音辞書に基づいてターゲット言語に変換する。すなわち音声信号(in)が入力されて、音声認識部320でソース言語基盤テキストに変換されると、変換されたソース言語基盤テキストの発声音をターゲット言語で表示する。上記の例のように、韓国語を日本語に通訳する場合、音声信号(in)は、ソース言語が韓国語である韓国語基盤音声信号で入力される。そして、韓国語基盤音声信号は、音声認識部320で韓国語基盤テキストに変換される。ここで、第1発声音変換部350は、韓国語基盤テキストの発声音をターゲット言語である日本語テキストに変換する。仮に、入力信号(in)が、
Figure 0006397641
で音声認識されると、第1発声音変換部350は、
Figure 0006397641
を音声及び言語データベース部310のデータを用いて日本語のカタカナ表記「アンニョンヒ・ギェセヨ」に変換する。これは、テキスト翻訳部330が行う意味的翻訳である「さようなら」と異なって、韓国語発声音を「アンニョンヒ・ギェセヨ」に変換することにより、相対者である日本人が韓国語発音を、自国語で見て容易に発声できるようにする。
そして、第1発声音変換部350は、音声認識部320で認識したソース言語基盤テキストとソース言語基盤テキストの発声音を表示したターゲット言語テキストとをディスプレイ部130に伝送し、ディスプレイ部130が音声認識されたソース言語基盤テキストに付加してソース言語基盤テキストの発声音を表示したターゲット言語テキストを表示できるようにする。ここで、ユーザは、自分が発話した音声を自動通訳装置が正確に認識したか否かを判別することができ、これに対応する発声音のターゲット言語表記も確認することができる。
上記では、第1発声音変換部350が音声認識部320からソース言語基盤テキストを受信することを説明したが、ソース言語基盤テキストは、テキスト翻訳部から受信することもできる。
第2発声音変換部360は、第1発声音変換部350とは反対に、テキスト翻訳部330で翻訳したターゲット言語基盤テキストの発声音を言語データベースに基づいてソース言語のテキストに変換する。第2発声音変換部360は、音声合成部340に印加されたターゲット言語に翻訳されたテキストを受信し、翻訳されたターゲット言語テキストの発声音をソース言語に変換する。上記の例で、第2発声音変換部360は、韓国語の
Figure 0006397641
が翻訳された日本語である“さようなら”を韓国語発音の
Figure 0006397641
に変換する。ここで「−」は、長音表記記号である。
そして、第1発声音変換部350と同様に、第2発声音変換部360が、翻訳された日本語の発声音を表示する韓国語を日本語テキストとともにディスプレイ部130に伝送して表示されるようにすることで、ユーザはターゲット言語に翻訳されたテキストに対する発音を韓国語で確認することができるので、発音に対する高い理解度を有し、翻訳されたテキストを容易に直接発話することができる。
同時に、ターゲット言語に翻訳されたテキストに対応する合成音が音声出力部140を介して出力されるので、発音に対する高い理解度を有することができるので、語学学習の際にも成就度を高めることができる。
上記では説明の便宜のために、第1発声音変換部350と第2発声音変換部360を別に図示したが、第1発声音変換部350と第2発声音変換部360は統合して実現されることもできる。また、図1では、第2発声音変換部360が、音声合成部340から翻訳されたターゲット言語基盤テキストを受信することに図示したが、第2発声音変換部360は、テキスト翻訳部330からターゲット言語基盤テキストを受信してもよい。
また、図1では、設定部200を通訳部300と別途に図示したが、設定部200は通訳部300に含まれてもよい。
図1の自動通訳装置は、通訳のための別途の装置として実現されることもできるが、設定部200及び通訳部300が、ソフトウェアとして実現可能であるため、インターフェース部を備える様々な装置が自動通訳装置として活用可能である。例えば、スマートフォン、スマートパッド、PDA、PCなどのような各種情報通信機器が自動通訳装置として活用されることができる。
図2は、本発明の一実施例に係る自動通訳装置の自動通訳方法を示す。
図2の自動通訳方法も、図1に示したように、韓国語を日本語に通訳する場合を例にあげて説明する。図1を参照して図2の自動通訳方法を説明すると、自動通訳装置は、先ず、ユーザがユーザ入力部120を介して印加するユーザ命令により自動通訳設定を受信して格納する(S10)。ここで、自動通訳設定は、ソース言語及びターゲット言語情報、合成音の出力設定などを格納する。自動通訳設定は、基本値が予め指定されており、ユーザが設定しなくても、基本設定により通訳が行われることができる。
自動通訳設定が指定されると、自動通訳装置は、音声信号(in)であるソース語音声が入力されるか否かを判別する(S20)。ソース語音声は、ユーザが使用するソース言語基盤の音声であって、音声感知部110を介して入力されることができ、ユーザは、ユーザ入力部120を介してユーザ命令として音声入力命令を印加することにより、ソース語音声が入力されるようにすることができ、場合によっては、自動通訳装置が自動で音声入力の可否を感知できるようにすることも可能である。若しソース語音声が入力されたと判別されると、音声認識部320は、音声及び言語データベース部310で音響モデル、発音辞書及び言語モデルを統合して格納された認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成する(S30)。
一方、ソース語音声が入力されないと、ソース語テキストが入力されるか否かを判別する(S40)。ユーザは、通訳しようとする文章を音声で自動通訳装置に印加してもよく、雑音が多い場合や、音声に発話し難い環境のような特別な場合は、ユーザ入力部120を介して、通訳しようとする文章をテキストで直接入力してもよい。この場合は、音声認識が不要であるので、音声認識ステップS30を省略する。
音声認識またはソーステキスト入力によりソース言語基盤テキストが得られると、第1発声音変換部350は、ソース言語基盤テキストの発音をターゲット言語のテキストに変換し、ソース言語基盤テキストとソース言語テキストの発声音を表示するターゲット言語テキストとをディスプレイ部130を介して出力する(S50)。
そして、ソース言語基盤テキストを自動通訳設定により自動で翻訳してターゲット言語テキストに変換する(S60)。
自動翻訳が行われてターゲット言語テキストが得られると、自動通訳装置の第2発声音変換部260が、翻訳されたターゲット言語テキストの発音をソース言語テキストに変換し、ターゲット言語テキストとターゲット言語テキストの発声音を表示するソース言語テキストとをディスプレイ部130を介して出力する(S70)。
一方、音声合成部340は、ターゲット言語基盤テキストに対応する音声を合成して合成音を生成する(S80)。そして、音声出力部140は、合成音を受信して出力する(S90)。
合成音を出力した後、自動通訳装置は、逆にターゲット語に対して通訳するか否かを、ユーザ入力部120を介して印加されるユーザ命令により判別する(S100)。若しターゲット語に対する通訳命令が印加されると、既に設定された自動通訳設定においてソース語とターゲット語とを相互交換する通訳設定転換を行う(S110)。
上記のように、本発明に係る自動通訳装置の自動通訳方法は、ソース語が音声またはテキストで入力されると、入力されたソース語の発音に対応するターゲット言語テキストと、ソース語が翻訳されたターゲット語に付加してその発声音を表記したソース言語テキストとを出力することにより、ユーザが発話した音声に対するターゲット語の発音表記と、通訳されたターゲット語に対するソース語の発音表記とを全て確認することができる。したがって、ユーザが、通訳されたターゲット言語の発音を容易に認知することができるので、直接発話できるようにするだけでなく、語学学習にも役に立つことができる。
上記では、ソース言語基盤テキストの発音をターゲット言語テキストに変換する第1発声音変換ステップS50を説明したが、実際のユーザは、ターゲット言語テキストを必要としない場合もある。この場合、第1発声音変換ステップS50は、省略可能であり、第1発声音変換部350も自動通訳装置から除去可能である。
図3は、図2の自動通訳方法での第1発声音変換ステップを詳細に示し、図4は、図2の自動通訳方法での第2発声音変換ステップを詳細に示す。
図3及び図4においても、韓国語から日本語に通訳する場合を一例にして説明し、前処理部がテキスト翻訳部ではなく、第1及び第2発声音変換部350、360にそれぞれ備えられることを想定して説明する。
図3の第1発声音変換ステップS50は、ソース言語基盤テキストの発声音をターゲット言語テキストに変換するステップであって、先ず、音声認識されたり、ソース語テキストが入力されたりして得られたソース言語基盤テキストに対して、前処理作業を行う(S51)。 前処理作業は、上述したように、綴字法チェックのように文法的誤りを修正し、数字や記号をソース言語基盤テキストに変換して行われることができる。そして、音声及び言語データベース部310の発音変異データベースを用いて発音変異変換を行う(S52)。発音変異変換は、上述したように、韓国語の特性である子音同化、口蓋音化、縮約などの様々な発音変異現象がソース言語基盤テキストに適用されるようにする。すなわちソース言語基盤テキストを発音基盤テキストに一部変換する。
発音変異変換を行った後、ソース言語基盤テキストを語節単位に分離する(S53)。語節分離は、言語の種類に関係なく、分かち書きが反映されるようにするためである。語節が分離されると、音節分離を行う(S54)。そして、音節が分離されると、各音節を初声、中声及び終声に音素分離を行う(S55)。音素分離は、韓国語が音素基盤言語であるため行い、音素に分離できない日本語や中国語の場合は、音素分離を省略できる。
音素分離が行われると、音声及び言語データベース部310のg2p変換テーブルを用いて分離された音素を音素単位の発音記号に変換する(S56)。表1は、韓国語を発音記号に変換するためのg2p変換テーブルの一例を示す。
Figure 0006397641
そして、音声及び言語データベース部310の発音対訳データベースを用いて、変換された音素単位発音記号を音節単位に結合した後、結合された音節に対応するターゲット語(ここでは、日本語)の音節に変換する(S57)。表2は、韓国語を日本語の音節に変換するための発音対訳データベースの一例を示す。
Figure 0006397641
分離された音節の全てがターゲット語の音節に変換されると、変換された音節を再び結合して語節を復元する(S58)。復元された語節は、ソース言語基盤テキストの発声音がターゲット言語テキストに変換されたものであって、自動通訳装置は、ディスプレイ部130を介してターゲット言語テキストを表示する(S59)。このとき、ソース言語基盤テキストに付加して、ソース言語基盤テキストの発声音に対するターゲット言語テキストがともに表示されることができる。
一方、図4の第2発声音変換ステップ(S70)は、翻訳されたターゲット言語基盤テキストの発声音をソース言語テキストに変換するステップであって、第1発声音変換ステップS50と同様に、先ず前処理ステップを行うことができる(S71)。そして、対訳語検索ステップを行う(S72)。上述したように、日本語基盤テキストの発声音を韓国語テキストに変換する場合は、既に慣習化された語彙の対訳語がかなり多く数存在するので、これを反映する必要がある。このような対訳語が発音に適用されるように、音声及び言語データベース部310に含まれている対訳語データベースを用いて、ターゲット言語基盤テキストにソース言語の対訳語が存在するか否かを判断する。
若し対訳語が存在することに判別されると、音声及び言語データベース部310に格納されている対訳語を呼び出して適用する(S74)。対訳語を適用する場合は、当該語彙に対しては、別途の変換過程が不要である。
一方、対訳語の存在しない語彙に対しては、図3と同様に、音節分離ステップ(S75)と、g2p変換ステップ(S76)と、発音対訳変換ステップ(S77)とを行う。単に、g2p変換のためのg2p変換テーブル及び発音対訳データベースの場合は、韓国語の発音を日本語に変換する場合と、日本語の発音を韓国語に変換する場合とが異なるので、互いに異なるg2p変換テーブル及び発音対訳データベースを使用することができる。
表3は、日本語を発音記号に変換するためのg2p変換テーブルの一例を示す。
Figure 0006397641
表4は、日本語を韓国語の音節に変換するための発音対訳データベースの一例を示す。
Figure 0006397641
表1から表4において、アルファベット大文字“B”と“L”は、日本語の発音特性上、語頭、語中、語尾に応じて異なって発音される発声を反映したものであり、“:”は、長音を示す。
対訳語が存在する語彙に対しては、対訳語が適用され、対訳語が存在しない語彙に対しては、音節分離、g2p変換及び発音対訳変換が行われると、対訳語と、発音対訳が行われた語彙とを再び文章として結合する(S78)。
結合された文章は、翻訳されたターゲット言語基盤テキストの発声音がソース言語テキストに変換されたものであって、自動通訳装置は、ディスプレイ部130を介してソース言語テキストを表示する(S79)。ここで、翻訳されたターゲット言語基盤テキストとともに、その発声音をソース言語で表示したソース言語テキストを表示することができる。
図3及び図4は、韓国語を日本語に通訳する場合を想定して説明したが、日本語を韓国語に通訳する場合は、図3が第2発声音変換ステップとして行われ、図4が第1発声音変換ステップとして行われることができる。
上記では、一例として韓国語と日本語との間の通訳を例にして説明したが、本発明は、これに限定されず、他の種類の言語に対しても適用できることは明らかである。
本発明に係る方法は、コンピューター読み取り可能な記録媒体に、コンピューターで読み取り可能なコードで実現することができる。コンピューターで読み取り可能な記録媒体とは、コンピューターシステムによって読み出されることができるデータが格納されるすべての種類の記録装置を含む。記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ格納装置などがあり、また、キャリアウエーブ(例えばインターネットを介した伝送)などの形態に実現されることも含む。また、コンピューターで読み取り可能な記録媒体は、ネットワークに接続されたコンピューターシステムに分散され、分散方式でコンピューターで読み取り可能なコードとして格納されて行われる。
本発明は、図面に示した実施例に基づいて説明したが、これは例示的に説明したものに過ぎず、本発明が属する技術分野の通常の知識を有する者であれば、これから多様な変形及び均等な他の実施例が可能であることを理解できよう。
したがって、本発明の技術的保護範囲は、本発明の請求範囲の技術的思想によって定められるべきである。

Claims (17)

  1. ユーザからユーザ命令と、通訳対象となるソース言語基盤音声とが印加され、前記ソース言語基盤音声が翻訳されたターゲット言語基盤テキストの発声音をソース言語で表示するソース言語テキストを出力するインターフェース部と、
    前記ユーザ命令に応答して、前記ソース言語とターゲット言語に関する情報を設定する設定部と、
    前記インターフェース部を介して前記ソース言語基盤音声が印加され、音声認識してソース言語基盤テキストに変換し、変換された前記ソース言語基盤テキストの発声音を前記ターゲット言語で表示するターゲット言語テキストに変換し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳して前記インターフェース部に伝送する通訳部と、
    を含む自動通訳装置。
  2. 前記通訳部は、
    前記ソース言語及び前記ターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを格納する音響及び言語データベース部と、
    前記インターフェース部から受信される前記ソース言語基盤音声を前記音響及び言語データベース部の前記認識ネットワークを基盤にして分析し、ソース言語基盤テキストに変換する音声認識部と、
    前記音声認識部から前記ソース言語基盤テキストを受信し、前記ソース言語基盤テキストを前記ターゲット言語基盤テキストに翻訳するテキスト翻訳部と、
    前記テキスト翻訳部から前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成して、前記インターフェース部に伝送する音声合成部と、
    前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換し、前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する発声音変換部と、を含むことを特徴とする請求項1に記載の自動通訳装置。
  3. 前記発声音変換部は、
    前記音声認識部及び前記テキスト翻訳部のうちの1つから前記ソース言語基盤テキストを受信し、前記言語データベース部の認識ネットワークを利用して、受信された前記ソース言語基盤テキストの発声音を前記ターゲット言語テキストに変換して前記インターフェース部に出力する第1発声音変換部と、
    前記テキスト翻訳部及び前記音声合成部のうちの1つから前記ターゲット言語基盤テキストを受信し、前記ターゲット言語基盤テキストの発声音を前記ソース言語テキストに変換して前記インターフェース部に出力する第2発声音変換部と、を含むことを特徴とする請求項2に記載の自動通訳装置。
  4. 前記第1及び第2発声音変換部のそれぞれは、
    前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理部をさらに含むことを特徴とする請求項3に記載の自動通訳装置。
  5. 前記音響及び言語データベース部は、
    前記ソース言語及び前記ターゲット言語の種類に応じて前記認識ネットワークが、発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを備えることを特徴とする請求項3に記載の自動通訳装置。
  6. 前記ソース言語が、韓国語であり、前記ターゲット言語が、語節を有する言語であることを特徴とする請求項5に記載の自動通訳装置。
  7. 前記第1発声音変換部は、
    前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行って語節、音節及び音素単位に順次分離し、前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ターゲット言語の音節に変換し、変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成することを特徴とする請求項6に記載の自動通訳装置。
  8. 前記第2発声音変換部は、
    前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別し、対訳語が存在する語彙に対しては、対訳語の発音を適用し、対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離し、前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換し、変換された音素単位発音記号を音節単位に結合した後、前記結合された音節に対応する前記ソース言語の音節に変換し、前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成することを特徴とする請求項7に記載の自動通訳装置。
  9. 前記インターフェース部は、
    前記ユーザが入力する音声を感知して前記通訳部に伝送する音声感知部と、
    ユーザ命令入力手段として実現され、前記ユーザ命令または前記ソース言語基盤テキストが入力されるユーザ入力部と、
    ディスプレイ手段として実現され、前記ソース言語基盤テキストと翻訳された前記ターゲット言語基盤テキスト、前記ターゲット言語基盤テキストの発声音をソース言語で表記した前記ソース言語テキスト、及び前記ソース言語基盤テキストの発声音をターゲット言語で表記した前記ターゲット言語テキストのうちの少なくとも1つを表示するディスプレイ部と、
    音声出力手段として実現され、前記合成音を出力する音声出力部と、を含むことを特徴とする請求項2に記載の自動通訳装置。
  10. インターフェース部と設定部と通訳部とを備える自動通訳装置の自動通訳方法において、前記自動通訳装置が、
    前記インターフェース部を介して印加されるユーザ命令に応答して自動通訳設定を格納するステップと、
    前記インターフェース部を介してソース言語基盤音声が印加されるか否かを判別するステップと、
    前記ソース言語基盤音声が印加されると、前記通訳部の音響及び言語データベース部に格納されているソース言語及びターゲット言語に対する言語モデル、音響モデル及び発音辞書を統合した認識ネットワークを利用して音声認識を行い、ソース言語基盤テキストを生成するステップと、
    前記ソース言語基盤テキストの発声音をターゲット言語で表示するターゲット言語テキストに変換して出力するステップと、
    前記ソース言語基盤テキストを、前記認識ネットワークを利用してターゲット言語基盤テキストに翻訳するステップと、
    含む自動通訳方法。
  11. 前記ソース言語および前記ターゲット言語が、語節を有する言語であることを特徴とする請求項10に記載の自動通訳方法。
  12. 前記認識ネットワークは、
    前記ソース言語及び前記ターゲット言語の種類に応じて発音変異データベース、文字素−音素(grapheme to phoneme:以下、g2pという)変換テーブル及び発音対訳データベース、対訳語データベースのうちの少なくとも1つを含むことを特徴とする請求項11に記載の自動通訳方法。
  13. 前記ターゲット言語テキストに変換して出力するステップは、
    前記ソース言語基盤テキストに対して、前記ソース言語の特性による発音変異現象に対応するための発音変異変換を行うステップと、
    前記発音変異変換が行われた前記ソース言語基盤テキストを語節、音節及び音素単位に順次分離するステップと、
    前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
    前記変換された音素単位の発音記号を音節単位に結合するステップと、
    前記結合された音節に対応する前記ターゲット言語の音節に変換するステップと、
    前記変換された音節を結合して前記語節を復元することにより、前記ソース言語基盤テキストの発声音を表示する前記ターゲット言語テキストを生成するステップと、
    前記ターゲット言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項12に記載の自動通訳方法。
  14. 前記翻訳されたターゲット言語基盤テキストの発声音を前記ソース言語で表示するソース言語テキストに変換して出力するステップをさらに含み、
    前記ソース言語テキストに変換して出力するステップは、
    前記ターゲット言語基盤テキストに、ソース言語において慣習的に使用されている語彙の対訳語が存在するか否かを判別するステップと、
    前記対訳語が存在する語彙に対しては対訳語の発音を適用するステップと、
    前記対訳語が存在しない語彙に対しては語節、音節及び音素単位に順次分離するステップと、
    前記g2p変換テーブルを用いて分離された前記音素を音素単位の発音記号に変換するステップと、
    前記変換された音素単位発音記号を音節単位に結合するステップと、
    前記結合された音節に対応する前記ソース言語の音節に変換するステップと、
    前記対訳語の発音と変換された音節とを結合して前記語節を復元することにより、前記ターゲット言語基盤テキストの発声音を表示する前記ソース言語テキストを生成するステップと、
    前記ソース言語テキストを前記インターフェース部を介して出力するステップと、を含むことを特徴とする請求項13に記載の自動通訳方法。
  15. 前記ターゲット言語テキストに変換して出力するステップ及び前記ソース言語テキストに変換して出力するステップのそれぞれは、
    前記発音変異変換を行うステップ及び前記対訳語が存在するか否かを判別するステップの前に、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストでの文法誤りを分析して修正し、前記ソース言語基盤テキスト及び前記ターゲット言語基盤テキストに含まれている記号を、対応する言語基盤テキストに変換する前処理ステップをさらに含むことを特徴とする請求項14に記載の自動通訳方法。
  16. 前記自動通訳方法は、
    前記ターゲット言語基盤テキストに翻訳するステップの前に、前記ソース言語基盤音声が印加されないと、前記インターフェース部を介してソース言語基盤テキストが直接印加されるステップと、
    前記ターゲット言語基盤テキストに翻訳するステップの後に、前記ターゲット言語基盤テキストに対応する音声を合成して合成音を生成し、前記インターフェース部を介して合成音を出力するステップと、をさらに含むことを特徴とする請求項10に記載の自動通訳方法。
  17. 請求項10から請求項16のいずれか1項に記載の自動通訳装置の自動通訳方法を行うためのコンピュータ読み取り可能なプログラムを記録した記録媒体。
JP2014056505A 2013-07-29 2014-03-19 自動通訳装置及び方法 Expired - Fee Related JP6397641B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0089649 2013-07-29
KR1020130089649A KR102069697B1 (ko) 2013-07-29 2013-07-29 자동 통역 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2015026054A JP2015026054A (ja) 2015-02-05
JP6397641B2 true JP6397641B2 (ja) 2018-09-26

Family

ID=52490724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014056505A Expired - Fee Related JP6397641B2 (ja) 2013-07-29 2014-03-19 自動通訳装置及び方法

Country Status (2)

Country Link
JP (1) JP6397641B2 (ja)
KR (1) KR102069697B1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101869016B1 (ko) * 2016-08-08 2018-06-19 단국대학교 산학협력단 등장인물 추출 방법 및 장치
CN107957995A (zh) * 2017-12-07 2018-04-24 赵华杰 一种可方便翻译语音的翻译系统
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置
KR102296405B1 (ko) * 2019-12-11 2021-08-31 김월수 출입국 민원 대행 서비스 제공 방법 및 시스템

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0798709A (ja) * 1993-05-14 1995-04-11 Ricoh Co Ltd 音訳器
JPH08166966A (ja) * 1994-12-15 1996-06-25 Sony Corp 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
JPH11161651A (ja) * 1997-11-28 1999-06-18 Matsushita Electric Ind Co Ltd 発音記号生成装置
JP2002288167A (ja) * 2001-01-18 2002-10-04 Kodensha Co Ltd 翻訳システム
JP2002288170A (ja) * 2001-03-23 2002-10-04 Evidence:Kk 多言語間コミュニケーション支援システム
JP2005149042A (ja) * 2003-11-14 2005-06-09 Toshiba Corp 音声入力翻訳装置、翻訳プログラム
GB0403202D0 (en) * 2004-02-13 2004-03-17 Payn Roger A foreign language communication aid
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
KR20110018717A (ko) * 2009-08-18 2011-02-24 한국전자통신연구원 중국어 구조조사 오류의 자동정정 장치 및 방법
KR101237707B1 (ko) * 2011-03-28 2013-02-27 김정희 영어학습교재
JP5888723B2 (ja) * 2011-09-12 2016-03-22 国立研究開発法人情報通信研究機構 発音辞書作成装置、発音辞書の生産方法、およびプログラム

Also Published As

Publication number Publication date
KR20150014235A (ko) 2015-02-06
JP2015026054A (ja) 2015-02-05
KR102069697B1 (ko) 2020-02-24

Similar Documents

Publication Publication Date Title
Këpuska et al. Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx)
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
Neto et al. Free tools and resources for Brazilian Portuguese speech recognition
KR20170103209A (ko) 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
KR20140121580A (ko) 자동 번역 및 통역 장치 및 그 방법
JP2008076865A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CN104899192B (zh) 用于自动通译的设备和方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP6397641B2 (ja) 自動通訳装置及び方法
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
JPH10504404A (ja) 音声認識のための方法および装置
Badino et al. Language independent phoneme mapping for foreign TTS
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Aida–Zade et al. The main principles of text-to-speech synthesis system
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API
Soman et al. Corpus driven malayalam text-to-speech synthesis for interactive voice response system
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
KR102253015B1 (ko) 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
KR20220065483A (ko) 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170321

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180903

R150 Certificate of patent or registration of utility model

Ref document number: 6397641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees