JP6203083B2 - 未知語抽出装置及び未知語抽出方法 - Google Patents

未知語抽出装置及び未知語抽出方法 Download PDF

Info

Publication number
JP6203083B2
JP6203083B2 JP2014044001A JP2014044001A JP6203083B2 JP 6203083 B2 JP6203083 B2 JP 6203083B2 JP 2014044001 A JP2014044001 A JP 2014044001A JP 2014044001 A JP2014044001 A JP 2014044001A JP 6203083 B2 JP6203083 B2 JP 6203083B2
Authority
JP
Japan
Prior art keywords
translation
language
sentence
dictionary
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014044001A
Other languages
English (en)
Other versions
JP2015170093A (ja
Inventor
武市 真知
真知 武市
憲一朗 足羽
憲一朗 足羽
浩二 山中
浩二 山中
加奈 梅澤
加奈 梅澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014044001A priority Critical patent/JP6203083B2/ja
Publication of JP2015170093A publication Critical patent/JP2015170093A/ja
Application granted granted Critical
Publication of JP6203083B2 publication Critical patent/JP6203083B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、翻訳に用いられる辞書における未知語を抽出する未知語抽出装置及び未知語抽出方法に関する。
文章の機械翻訳を行うシステムにおいて、翻訳対象の文章中に含まれる、翻訳できない単語である未知語を抽出する技術がある。例えば、特許文献1には、ユーザ辞書を有する機械翻訳システムにおいて、翻訳処理で翻訳できなかった未知語を抽出することが記載されている。このシステムでは、具体的には、翻訳時に、翻訳結果の文章中における未知語部分に原言語での表記を挿入しておき、翻訳結果において原言語の文字列を収集することで未知語を抽出する。
特開2002−91963号公報
しかしながら、例えば、日本語から英語への翻訳において、適切に翻訳できない単語であっても、翻訳後の文章において当該単語をローマ字で表記する技術がある。そのように機械翻訳が行われると、適切に翻訳できない単語であっても、翻訳後の文章には原言語での表記がなされないこととなる。この場合、上記の特許文献1に記載された方法では適切に未知語を抽出することができない。
本発明は、上記の問題点に鑑みてなされたものであり、翻訳後の文章から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる未知語抽出装置及び未知語抽出方法を提供することを目的とする。
上記の目的を達成するために、本発明に係る未知語抽出装置は、アルファベット表記ではない第1の言語による文章を入力する入力手段と、入力手段によって入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、予め記憶された第1の辞書における未知語については変換されたアルファベット表記のまま、当該第1の辞書を用いて、入力手段によって入力された文章を第1の言語からアルファベット表記である第2の言語に翻訳する第1翻訳手段と、第1翻訳手段によって翻訳された文章に含まれる単語のうち、予め記憶された第2の辞書における未知語については当該未知語のまま、当該第2の辞書を用いて、第1翻訳手段によって翻訳された文章を第2の言語から第1の言語に翻訳する第2翻訳手段と、第2翻訳手段によって翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、第1の辞書における未知語として抽出する抽出手段と、を備える。
本発明に係る未知語抽出装置では、文章を第1の言語から第2の言語に翻訳し、更に第2の言語から第1の言語に翻訳(再翻訳)して、第1の辞書における未知語が抽出される。このように、本発明に係る未知語抽出装置では、再翻訳後の文章から未知語が抽出されるため、第2の言語への翻訳後の文章から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる。
未知語抽出装置は、抽出手段によって抽出された未知語を翻訳するための情報を、第1及び第2の辞書とは異なる別の辞書から取得して、第1の辞書に登録する登録手段を更に備えることとしてもよい。この構成によれば、今後の第1の辞書を用いた翻訳において、抽出された未知語が含まれている文章を適切に翻訳することができる。
第1翻訳手段は、入力手段によって入力された文章に含まれる単語のうち、第1の辞書における未知語の品詞を、形態素解析によって特定し、登録手段は、未知語の品詞に応じて、当該未知語を翻訳するための情報を登録することとしてもよい。この構成によれば、適切に未知語を翻訳するための情報を第1の辞書に登録することができる。
ところで、本発明は、上記のように未知語抽出装置の発明として記述できる他に、以下のように未知語抽出方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
即ち、本発明に係る未知語抽出方法は、未知語抽出装置の動作方法である未知語抽出方法であって、アルファベット表記ではない第1の言語による文章を入力する入力ステップと、入力ステップにおいて入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、未知語抽出装置に予め記憶された第1の辞書における未知語については変換されたアルファベット表記のまま、当該第1の辞書を用いて、入力ステップにおいて入力された文章を第1の言語からアルファベット表記である第2の言語に翻訳する第1翻訳ステップと、第1翻訳ステップにおいて翻訳された文章に含まれる単語のうち、未知語抽出装置に予め記憶された第2の辞書における未知語については当該未知語のまま、当該第2の辞書を用いて、第1翻訳ステップにおいて翻訳された文章を第2の言語から第1の言語に翻訳する第2翻訳ステップと、第2翻訳ステップにおいて翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、第1の辞書における未知語として抽出する抽出ステップと、を含む。
本発明では、再翻訳後の文章から未知語が抽出されるため、第2の言語への翻訳後の文章から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる。
本発明の実施形態に係る未知語抽出装置である翻訳装置の構成を示す図である。 入力文に対する形態素解析によって得られる情報の例を示す表である。 日本語から英語への機械翻訳の概要を示す図である。 翻訳エンジンによって生成される汎用フォーマットの翻訳結果の情報(ログファイル)を示す図である。 未知語をどのように検出するかを定義した未知語検出パターンファイルを示す図である。 再翻訳文に対する形態素解析によって得られる情報の例を示す表である。 登録部によって生成される汎用未知語登録リストの例を示す図である。 本発明の実施形態に係る未知語抽出装置である翻訳装置のハードウェア構成を示す図である。 本発明の実施形態に係る未知語抽出装置である翻訳装置で実行される処理(未知語抽出方法)全体を示すフローチャートである。
以下、図面と共に本発明に係る未知語抽出装置及び未知語抽出方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る未知語抽出装置である翻訳装置10を示す。翻訳装置10は、翻訳対象となる文章を入力し、当該文章を翻訳(機械翻訳)して、翻訳された文章を出力する装置である。即ち、翻訳装置10は、翻訳サービスを提供する装置である。例えば、翻訳装置10は、ユーザ端末20と移動体通信網あるいはインターネット等の通信網を介して接続されている。翻訳装置10は、ユーザ端末20から翻訳対象となる文章を受信し、ユーザ端末20に対して翻訳された文章を送信する。
後述するように、翻訳装置10による翻訳は、翻訳装置10によって備えられる翻訳辞書が用いられて行われる。翻訳辞書は、翻訳対象となる文章の言語での単語について、どのように翻訳すべきかを示す情報を格納している。従って、翻訳対象の文章に、翻訳辞書に含まれていない単語が含まれていた場合、当該単語については適切な翻訳を行うことができない。本実施形態においては、翻訳辞書に含まれておらず、適切な翻訳を行うことができない単語を未知語と呼ぶ。本実施形態に係る翻訳装置10は、入力した文章に基づき、未知語を抽出する機能を有している。
翻訳装置10は、第1の言語による文章を第2の言語に翻訳すると共に、その逆の第2の言語による文章を第1の言語に翻訳する機能を有している。例えば、翻訳装置10は、日本語による文章を英語に翻訳すると共に、英語による文章を日本語に翻訳する機能を有している。なお、第1の言語及び第2の言語になりえる言語としては、例えば、日本語、英語(米国)、英語(英国)、中国語(北京)、中国語(台湾)、韓国語、フランス語及びイタリア語等がある。
ユーザ端末20は、通信網を介して翻訳装置10と通信を行うことができる装置であり、例えば、スマートフォン、携帯電話機又はPC(Personal Computer)に相当する。ユーザ端末20は、翻訳装置10との間でセッションを確立して、翻訳対象の文章を入力して翻訳装置10に送信する。また、ユーザ端末20は、文章をどの言語からどの言語に翻訳するかを示す翻訳方向情報(例えば、日本語から英語への翻訳であることを示す情報)を入力して、文章の送信と合わせて当該情報を翻訳装置10に送信することとしてもよい。ユーザ端末20と翻訳装置10とのセッションは、セッションID等で一意に識別され、翻訳装置10では、どのユーザ端末20から翻訳対象の文章が送信されたか把握することができる。
ユーザ端末20は、例えば、ユーザからの音声を入力し、音声を音声認識して文章とすることで翻訳対象の文章を入力する。音声認識は、従来から用いられている音声認識技術が用いられて行われる。あるいは、ユーザ端末20は、入力した音声を翻訳装置10に送信し、翻訳装置10側で音声認識が行われてもよい。あるいは、翻訳装置10とは別の音声認識サーバで音声認識が行われてもよい。その場合、ユーザ端末20は、音声認識サーバに音声を送信し、音声認識サーバから音声認識結果である文章を受信する。翻訳対象の文章は、音声による入力以外でも、ユーザがユーザ端末20のボタンを操作すること等によって入力されてもよい。
また、ユーザ端末20は、翻訳方向情報をユーザの操作に基づいて入力する。この入力は、例えば、ユーザ端末20が備えるタッチパネルの表示画面に対するユーザの操作により行われる。また、ユーザ端末20は、翻訳装置10から翻訳結果の文章を受信する。ユーザ端末20は、受信した翻訳結果の文章をユーザ端末20が備えるタッチパネルの表示画面に表示する。これにより、ユーザが翻訳結果を認識することができる。
引き続いて、本実施形態に係る翻訳装置10の機能構成について説明する。図1に示すように翻訳装置10は、翻訳エンジン11と、入力部12と、抽出部13と、登録部14と、出力部15とを備えて構成される。これらの構成要素のうち、抽出部13と、登録部14とは、未知語抽出・翻訳辞書登録プログラムによって実現されることができる。
翻訳エンジン11は、翻訳装置10に入力された文章の翻訳処理を行う翻訳手段である。翻訳エンジン11は、第1の言語による文章を第2の言語に翻訳すると共に、その逆の第2の言語による文章を第1の言語に翻訳する。例えば、第1の言語である日本語の文章を第2の言語である英語の文章に翻訳すると共に、英語の文章を日本語の文章に翻訳する。翻訳エンジン11は、未知語の抽出のため、翻訳装置10に入力された第1の言語による文章を第2の言語に翻訳し、翻訳後の第2の言語による文章を第1の言語に翻訳(再翻訳)する。
翻訳エンジン11は、処理部111と、翻訳辞書112とを備えて構成される。翻訳辞書112は、翻訳に用いられる辞書の情報を保持(記憶)する。翻訳辞書112が保持する辞書の情報は、例えば、翻訳元の言語の単語と翻訳後の言語の単語との対応付けを示す情報であり、従来の機械翻訳で用いられる辞書と同様ものであってもよい。翻訳辞書112には、第1の言語の文章から第2の言語の文章への翻訳を行う際に用いられる第1の辞書と、第2の言語の文章から第1の言語の文章への翻訳を行う際に用いられる第2の辞書とが含まれる。翻訳辞書112は、予め翻訳装置10の管理者等によって予め用意される。
処理部111は、翻訳辞書112に含まれる第1の辞書を用いて、入力部12によって入力された文章を第1の言語から第2の言語に翻訳する第1翻訳手段である。また、処理部111は、翻訳辞書112に含まれる第2の辞書を用いて、第2の言語に翻訳された文章を第2の言語から第1の言語に翻訳(再翻訳)する第2翻訳手段である。処理部111は、例えば、従来の機械翻訳と同様の技術により実現される。
第1の言語を日本語、第2の言語を英語とそれぞれした場合の翻訳エンジン11のよる翻訳処理を説明する。この場合、翻訳エンジン11には、日本語による文章が入力される。日本語からの英語への翻訳を行う場合には、翻訳エンジン11(処理部111の機能)は、翻訳対象の文章である入力文を解析する機能及び第2の言語に変換して翻訳文を生成する機能の組み合わせで構成される。
処理部111は、まず、入力文を形態素解析し、入力文を単語(形態素)に分割すると共にその単語の品詞及びローマ字読み(アルファベット表記)を得る。形態素解析は、汎用の形態素解析エンジンを活用して行うことができる。例えば、入力文が「今から舞妓体験に行きます」というものであった場合、処理部111は、形態素解析により、図2に示すように単語毎の表記、品詞及びローマ字読みを得る。
処理部111は、上記の解析によって得られた単語に該当する第2の言語に該当する対訳単語を翻訳辞書112に含まれる第1の辞書より抽出する。続いて、処理部111は、図3に示すように、抽出した対訳単語を翻訳後の言語構造に適するように単語順序の並び替え、及び必要な単語を補完する処理を行い、翻訳文を生成する。図2及び図3に示す例に対応する情報として、例えば、体験(taiken)との単語の対訳単語としてexperience、今(ima)との単語の対訳単語としてnowが第1の辞書に格納されている。但し、第1の辞書には、舞妓(maiko)の対訳単語は格納(登録)されていない。
上記の翻訳文の生成の際に、翻訳辞書112に含まれる第1の辞書に登録されていない単語(上記の例では舞妓)は未知語となる。しかしながら、処理部111は、第1の辞書に登録されていない単語については、形態素解析によって得られたローマ字読み(上記の例ではmaiko)を翻訳後の単語表記として翻訳文構造の中で活用する。そのため、翻訳辞書112に含まれる第1の辞書に登録されていない単語がアルファベット表記のまま、翻訳表記される。例えば、入力文が「今から舞妓体験に行きます」というものであった場合、「I go for maiko experience now」との翻訳文が生成される。以上が、処理部111の第1の言語から第2の言語に翻訳する第1翻訳手段としての機能である。
また、処理部111は、上記のようにして得られた第2の言語(英語)の翻訳文を第1の言語(日本語)に再翻訳する。処理部111は、当該再翻訳を翻訳辞書112に含まれる第2の辞書を用いて行う。英語から日本語への再翻訳は、従来の機械翻訳と同様の技術により実現される。但し、処理部111は、第2の辞書に含まれていない単語については、第2の言語から第1の言語への翻訳を行わず、第2の言語の表記のままとする。例えば、上記の翻訳文における「maiko」との単語が、第2の辞書に含まれていない場合には、当該単語については再翻訳文では「maiko」の表記のままとなる。例えば、翻訳文が「I go for maiko experience now」というものであった場合、「私は、今、maiko体験に出かけます」との再翻訳文が生成される。以上が、処理部111の第2の言語から第1の言語に再翻訳する第2翻訳手段としての機能である。
なお、第1の辞書と第2の辞書との間で翻訳可能な単語は対応している。従って、第1の辞書と第2の辞書との間で翻訳できない単語である未知語も対応している。即ち、第2の辞書での未知語(第2の言語から第1の言語への翻訳で翻訳できなかった単語)は、第1の辞書での未知語(第2の言語から第1の言語への翻訳で翻訳できなかった単語)でもある。但し、上記の対応は、必ずしも完全なものでなくてもよい。
翻訳エンジン11は、上記の処理を行って、図4に示す汎用フォーマットの翻訳結果の情報(ログファイル)を生成する。図4に示すように翻訳エンジン11によって生成される翻訳結果は、入力文(第1の言語)、翻訳文(第2の言語)、再翻訳文(第1の言語)、入力言語(第1の言語)及び翻訳言語(第2の言語)を示す情報を含む。翻訳エンジン11は、翻訳結果の情報を抽出部13及び出力部15に出力する。
翻訳エンジン11は、例えば、既存のパッケージプログラムを用いて実現することができる。しかしながら、既存のパッケージプログラムを用いた場合等には、第1の言語から第2の言語への翻訳の際に、上述した翻訳処理の中間の結果である、形態素解析の結果等の情報を利用することができない。即ち、処理部111によって把握される入力文のどの単語が未知語であるかを示す情報を利用することができない。本実施形態は、このような場合であっても、適切に未知語を抽出できるようにするものである。
また、翻訳エンジン11は、翻訳元及び翻訳先の言語の種類、並びに翻訳対象の文章のカテゴリ等に応じて複数、設けられていてもよい。その場合、各翻訳エンジン11には翻訳エンジン番号(例えば、A、B、C…)が付与されて、各翻訳エンジン11を識別できるようにしておく。また、この場合、翻訳結果の情報と合わせて翻訳エンジン番号も、翻訳エンジン11から抽出部13に出力されてもよい。
なお、翻訳エンジン11は、例えば、言語の種類や翻訳対象の文章のカテゴリ等に応じた複数の既存のパッケージプログラムを用いた場合に、既存のパッケージプログラム毎に出力の形式が異なる場合には、当該形式の情報を上述した汎用フォーマットの翻訳結果の情報(ログファイル)に変換(集約)してもよい。また、この際に各形式のログの正常性を確認することとしてもよい。
入力部12は、翻訳対象となる文章を入力する入力手段である。当該文章は、未知語の抽出対象となる第1の辞書に対応する第1の言語による文章である。具体的には、入力部12は、ユーザ端末20と翻訳装置10との間のセッションを確立して、当該セッションを介してユーザ端末20から翻訳対象となる文章を受信することで文章を入力する。翻訳装置10では、セッションIDによりセッションを把握することができ、これにより何れのユーザ端末20から情報を入力したかを把握することができる。また、上述したようにユーザ端末20から音声を受信して、当該音声を音声認識して文章を取得することとしてもよい。また、翻訳装置10が複数の翻訳を実行できる場合には、入力部12は、翻訳方向情報を入力することとしてもよい。翻訳方向情報には、翻訳対象の文章の言語(入力言語)を示す情報、及び翻訳後の文章の言語(翻訳言語)を示す情報が含まれる。本実施形態における処理は、入力言語及び翻訳言語に基づいて行われる。入力部12は、当該情報も翻訳対象となる文章と合わせてユーザ端末20から受信する。
入力部12は、入力した情報を翻訳エンジン11に出力する。なお、上述したように翻訳エンジン11が、翻訳元及び翻訳先の言語の種類、並びに翻訳対象の文章のカテゴリ等に応じて複数、設けられている場合は、入力部12は、出力先の翻訳エンジン11を選択して、選択した翻訳エンジンに出力する。入力部12は、選択を行うための情報(例えば、翻訳方向情報と翻訳エンジン番号とを対応付けた情報)を予め記憶しておき、その情報に基づいて選択を行う。
抽出部13は、翻訳エンジン11によって翻訳された翻訳文に基づき、第1の辞書における未知語を抽出する抽出手段である。未知語の抽出に用いられる翻訳文は、第1の言語での入力部12から入力された文章(翻訳対象となる文章)が第2の文章に翻訳され、その翻訳文が更に第1の言語に再翻訳された文章である。即ち、未知語の抽出に用いられる翻訳文は、上記の第2翻訳手段によって翻訳された文章である。
抽出部13は、図5に示す、未知語をどのように検出するかを定義した未知語検出パターンファイルを記憶しておく。本パターンファイルは、翻訳装置10のオペレータ等によって予め翻訳装置10に入力されている。本パターンファイルは、翻訳装置10のオペレータ等によって自由に追加、変更可能であり、翻訳エンジン11の追加及び変更の拡張性を担保する。
図5に示すように未知語検出パターンファイルは、翻訳エンジン番号、入力言語、翻訳言語、未知語パターン1及び未知語パターン2の情報が対応付けられたものである。翻訳エンジン番号は、何れの翻訳エンジン11で翻訳が行われたかを示す情報である。入力言語は、入力部12から入力された文章(翻訳対象となる文章)の言語(第1の言語)である。翻訳言語は、入力部12から入力された文章が翻訳される言語(第2の言語)である。未知語パターン1及び未知語パターン2は、未知語をどのように検出するかを示す情報である。未知語パターン1は、どの文章を用いて未知語を抽出するかを示す情報である(汎用フォーマットのどの列の情報を用いて未知語を抽出するかを指示する情報である)。未知語パターン1が「再翻訳文」であるものが、本実施形態(本発明)における未知語の抽出に対応する。なお、翻訳装置10では、第1の言語である入力文が第2の言語に翻訳された翻訳文が用いられて未知語が抽出されてもよい。この場合、未知語パターン1が「翻訳文」である。
未知語パターン2は、どの文字で表記された文字が未知語であるかを示す情報である。例えば、「ローマ字」とは、未知語パターン1で示される文章において、ローマ字(アルファベット)表記がなされた単語を未知語とすることを示している。
上述したように、抽出部13は、翻訳エンジン11から、図4に示した汎用フォーマットの翻訳結果の情報を入力する。また、翻訳エンジン11が翻訳装置10に複数設けられている場合には、抽出部13は、翻訳エンジン11から翻訳エンジン番号を入力する。抽出部13は、入力した翻訳エンジン番号、並びに汎用フォーマットの翻訳結果に含まれる入力言語及び翻訳言語の組み合わせに対応して、未知語検出パターンファイルに含まれる未知語パターン1及び未知語パターン2の情報を取得する。例えば、翻訳エンジン番号が「A」、入力言語が「日本語」、翻訳言語が「英語」だった場合、未知語パターン1及び未知語パターン2の情報として、「再翻訳文」及び「ローマ字」が取得される。
続いて、抽出部13は、汎用フォーマットの翻訳結果に含まれる入力文の形態素解析を行う。図4の例の場合、例えば、形態素解析を行った結果は図2のようになる。これは、上述したように翻訳エンジン11において行われる形態素解析と同様の結果であってもよい。即ち、抽出部13は、形態素解析により、図2に示すように単語毎の表記、品詞及びローマ字読みを得る(判断する)。また、抽出部13は、汎用フォーマットの翻訳結果に含まれると共に未知語パターン1の「再翻訳文」で示される再翻訳文の形態素解析を行う。形態素解析は、汎用の形態素解析エンジンを活用して行うことができる。例えば、再翻訳文が「私は、今、maiko体験に出かけます」というものであった場合、抽出部13は、形態素解析により、図6に示すように単語毎の表記、品詞及びローマ字読みを得る(判断する)。
抽出部13は、再翻訳文の形態素解析の結果のうち、表記がローマ字表記である単語を、第1の辞書における未知語として抽出する。例えば、再翻訳文の形態素解析の結果が図6に示すものであった場合、「maiko」との単語が、第1の辞書における未知語として抽出される。また、上述したように入力文の形態素解析の結果には、入力文に含まれる単語の表記とローマ字読みとの対応関係が含まれている。抽出部13は、再翻訳文の形態素解析の結果における表記(図6の表における表記欄の情報)と、入力文の形態素解析の結果におけるローマ字読み(図2の表におけるローマ字読み欄の情報)とを比較して、それらが一致している単語を、第1の辞書における未知語として抽出してもよい。また、再翻訳文の形態素解析の結果のみから未知語を抽出した場合にも、抽出部13は、上記の対応関係に基づいて、上記のようにローマ字読みとして抽出された未知語の入力文の言語での表記を得ることとしてもよい。例えば、「maiko」であれば、それに対応する「舞妓」との表記が未知語として抽出される。また、入力文の形態素解析の結果に基づき、未知語の品詞を示す情報も得られる。
上記の通り、抽出部13は、第2翻訳手段によって翻訳された文章(再翻訳文)のうち、第2の言語で記載された単語(アルファベット表記、ローマ字読み、上記の例では「maiko」)に対応する第1の言語の単語(上記の例では「舞妓」)を未知語として抽出する。抽出部13は、抽出した未知語を登録部14に出力する。具体的には例えば、抽出部13は、入力文の形態素解析で得られた情報(図2に示す情報)のうち、未知語として抽出された単語の情報(表記、品詞、ローマ字読み)をリスト形式で登録部14に出力する。
登録部14は、抽出部13によって抽出された未知語を翻訳するための情報(対訳のための情報)を取得して、翻訳エンジン11の第1の辞書に登録する登録手段である。登録部14は、未知語の品詞に応じて、当該未知語を翻訳するための情報を登録してもよい。
具体的には、登録部14は、抽出部13から、未知語として抽出された単語の情報(表記、品詞、ローマ字読み)を入力する。登録部14は、入力された情報に基づき、未知語の品詞が名詞か否かを判定する。上述した形態素解析による品詞が名詞でない場合は、第1の辞書への登録には適さないと判断する。なお、このフィルタリング判定方法は、上記のようにデフォルトの名詞を登録するものと判定するものでもよく、形容詞等についても登録可能であるとしてもよい。このように登録する単語の品詞(品詞の優先度)を任意に変更できるようにしてもよい。また、品詞にかかわらず(品詞に基づく判定を行わず)、一律に未知語を第1の辞書に登録することとしてもよい。
登録部14は、上記の判定の結果、第1の辞書へ登録すると判定された未知語について、未知語を翻訳するための情報を取得する。この情報の取得は、汎用の言語辞書(英日、日英等の辞書)を検索して当該情報を取得することで行われる。汎用の言語辞書は、翻訳装置10に備えられていてもよいし、翻訳装置10以外の装置であってもよい。なお、第1の辞書に汎用の言語辞書に含まれる全ての情報を格納しておくと、翻訳エンジン11の処理負荷が大きくなるため、通常、第1の辞書には汎用の言語辞書に含まれる全ての情報が含まれていない。また、言葉は常に進化している為、従来は単語として認識されていない場合でも、新たな単語として認知される場合、言語辞書登録を追従していく必要がある。これにより、未知語について第1の言語から第2の言語へ翻訳するための情報が得られる。この情報は、例えば、未知語の第2の単語での表記である。具体的には、未知語が「舞妓」というものであった場合、「maiko」という英語表記である。なお、上記の実施例では、「舞妓」のローマ字表記「maiko」と、英語表記の「maiko」とが一致しているが、これらは異なっていてもよい。また、英語表記と合わせて、未知語の第1の言語(例えば、日本語)での読みや品詞の情報を取得してもよい。
登録部14は、これらの取得した情報に基づき、第1の辞書に登録する汎用未知語登録リストを生成する。図7に生成される汎用未知語登録リストの例を示す。登録部14は、この情報を翻訳エンジン11の第1の辞書に登録する。汎用未知語登録リストの登録によって、抽出部13によって未知語とされた単語について、翻訳エンジン11は、形態素解析の結果に基づくものではなく、汎用未知語登録リストの内容に基づく翻訳を行うことができるようになる。また、登録部14は、汎用未知語登録リストを翻訳エンジン11の第2の辞書に登録して、第2の言語から第1の言語への翻訳(例えば、英語から日本語への翻訳)に利用できるようにしてもよい。
また、翻訳エンジンとして既存のパッケージプログラムを用いた場合、この登録の際、登録部14は、既存のパッケージプログラムに合わせたフォーマットの登録のコマンドを発行することとしてもよい。これは、既存のパッケージプログラム毎に新規の単語の登録方法(登録のコマンド等)が異なるためである。
登録部14は、汎用の言語辞書から、未知語の適切な翻訳後の単語が一義に導出できない場合、例えば、翻訳装置10のオペレータ等にその旨(アラート)を通知することとしてもよい。この通知は、例えば、翻訳装置10が備える表示装置に表示することで行われる。登録部14は、翻訳装置10のオペレータ等の操作によって、未知語を翻訳するための情報(例えば、上記の汎用未知語登録リストに含まれる情報)を入力して、入力した情報を翻訳エンジン11の第1の辞書に登録することとしてもよい。即ち、人為的な翻訳に基づく登録が行われてもよい。
また、登録部14は、第1の辞書への情報の登録の前に翻訳装置10のオペレータ等にその旨を通知することとしてもよい。その場合、登録部14は、翻訳装置10のオペレータ等の操作によって、当該登録を行ってよい旨の入力を受け付けた場合に第1の辞書への登録をすることとしてもよい。即ち、翻訳装置10のオペレータ等の判断に基づいて登録が行われてもよい。
また、登録部14による登録は、未知語を検出する度にその都度行われてもよいし、予めスケジューリングして翻訳装置10があまり利用されない時間帯(閑散時間帯。例えば、夜間等)にまとめて実施されてもよい。
また、抽出部13によって未知語が抽出されて、登録部14によって当該未知語を翻訳するための情報が翻訳エンジン11の第1の辞書に登録された場合には、登録後に再度、翻訳エンジン11によって翻訳が行われてもよい。
出力部15は、翻訳エンジン11によって翻訳された文章を出力する出力手段である。具体的には、出力部15は、ユーザ端末20と翻訳装置10との間のセッションを介してユーザ端末20に、翻訳エンジン11から入力された汎用フォーマットの翻訳結果の情報を送信することで文章を出力する。また、出力部15は、汎用フォーマットの翻訳結果の情報に含まれる翻訳後の文章(翻訳文)のみをユーザ端末20に送信することとしてもよい。ユーザ端末20によって受信された文章は、ユーザ端末20において表示等の出力が行われる。以上が、本実施形態に係る翻訳装置10の機能構成である。
図8に本実施形態に係る未知語抽出装置である翻訳装置10のハードウェア構成を示す。図8に示すように翻訳装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した翻訳装置10の機能が発揮される。以上が、本実施形態に係る翻訳装置10の構成である。
引き続いて、図9のフローチャートを用いて、本実施形態に係る未知語抽出装置である翻訳装置10の動作方法(翻訳装置10で実行される処理)である未知語抽出方法を説明する。本処理では、まず、翻訳対象の文章である、第1の言語(例えば、日本語)による入力文が、ユーザ端末20から翻訳装置10に送信される。翻訳装置10では、入力部12によって入力文が受信される(S01、入力ステップ)。入力された文章は、入力部12から翻訳エンジン11に出力される。
続いて、翻訳エンジン11では、処理部111によって、翻訳辞書112に含まれる第1の辞書が用いられて、入力部12から入力された入力文が第1の言語から第2の言語(例えば、日本語から英語)に翻訳される(S02、第1翻訳ステップ)。上述したように、入力文に第1の辞書での未知語が含まれていた場合であっても、上記のように生成される翻訳文は、少なくともその表記上全て第2の言語(英語)で表記される。但し、その表記は、適切に第2の言語に翻訳されたものではなく、例えば、形態素解析の結果によって得られた未知語のローマ字読みである。
続いて、翻訳エンジン11では、処理部111によって、翻訳辞書112に含まれる第2の辞書が用いられて、上記の翻訳によって得られた翻訳文が第2の言語から第1の言語(例えば、英語から日本語)に再翻訳される(S03、第2翻訳ステップ)。上述したように、翻訳文に、第1の言語での未知語に対応する第2の辞書での未知語が含まれていた場合、上記のように生成される再翻訳文は、当該未知語の第2の言語(英語)での表記を含む。入力文、並びに生成された翻訳文、及び再翻訳文等は、図4に示す汎用フォーマットで翻訳エンジン11から抽出部13及び出力部15に出力される。
続いて、抽出部13によって、翻訳エンジン11から入力された汎用フォーマットの翻訳結果の情報に含まれる再翻訳文に基づき、第1の辞書における未知語が抽出される(S04、抽出ステップ)。具体的には、再翻訳文のうち、第2の言語で記載された単語に対応する第1の言語の単語が、未知語として抽出される。抽出された未知語の情報は、抽出部13から登録部14に出力される。
続いて、登録部14によって、抽出部13から入力された情報により示される未知語を翻訳するための情報が取得されて、翻訳エンジン11の第1の辞書に登録される(S05、登録ステップ)。S04及びS05の処理の一方で、出力部15によって、翻訳後の文章がユーザ端末20に対して送信される(S06、出力ステップ)。ユーザ端末20では、翻訳後の文章が受信されて、表示等のユーザが認識できる形式での出力が行われる。以上が、本実施形態に係る翻訳装置10で実行される処理である未知語抽出方法である。
上述したように、本実施形態では、再翻訳後の文章から未知語が抽出されるため、第2の言語への翻訳後の文章(再翻訳前の翻訳文)から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる。また、本実施形態のように再翻訳文のうち、第2の言語で記載された単語に対応する第1の言語の単語を未知語として抽出することとすれば、確実に未知語を抽出することができる。特に上述したように、翻訳エンジンとして既存のパッケージプログラムを用いた場合等、未知語であっても形式的に第1の言語から第2の言語に翻訳を行ってしまう場合であっても、確実に未知語を抽出することができる。
また、上述したようにログファイルの形式を汎用フォーマットとすることで、多種多様な形式のログファイルを解析する場合と比べて、システマチックに、未知語を自動判定することができる。また、翻訳辞書への登録に際して、多大な可動、コストの発生を防止することができる。
また、本実施形態のように、未知語を翻訳するための情報を取得して、第1の辞書に登録することとしてもよい。この構成によれば、今後の第1の辞書を用いた翻訳において、抽出された未知語が含まれている文章を適切に翻訳することができる。即ち、翻訳エンジン11での翻訳における、翻訳精度を向上させることができる。また、その際、未知語の品詞に応じて情報を登録することとしてもよい。例えば、上述したように未知語の品詞が名詞の場合のみに登録を行うこととしてもよい。この構成によれば、適切に未知語を翻訳するための情報を第1の辞書に登録することができる。但し、未知語を翻訳するための情報の第1の辞書への登録は、例えば、翻訳装置10のオペレータ等による翻訳装置10に対する操作によって行われてもよい。登録部14は、必ずしも翻訳装置10に備えられていなくてもよい。
なお、本実施形態では、未知語を抽出することとしたが、抽出した単語を確定された未知語ではなく、未知語の候補としてもよい。その場合、翻訳装置10のオペレータ等が、抽出された未知語の候補を確認した上で未知語を確定することとしてもよい。本明細書においては、未知語の抽出には、未知語の候補を抽出することも含まれる。
また、本実施形態では、ユーザ端末20から翻訳対象の文章を入力して、翻訳後の文章を出力していた。しかしながら、本発明に係る未知語抽出装置は、必ずしも翻訳後の文章を外部の装置に出力する必要はなく、入力された文章に基づき、未知語を抽出する機能を有していればよい。
10…翻訳装置、11…翻訳エンジン、111…処理部、112…翻訳辞書、12…入力部、13…抽出部、14…登録部、15…出力部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、20…ユーザ端末。

Claims (4)

  1. アルファベット表記ではない第1の言語による文章を入力する入力手段と、
    前記入力手段によって入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、予め記憶された第1の辞書における未知語については変換されたアルファベット表記のまま、当該第1の辞書を用いて、前記入力手段によって入力された文章を第1の言語からアルファベット表記である第2の言語に翻訳する第1翻訳手段と、
    前記第1翻訳手段によって翻訳された文章に含まれる単語のうち、予め記憶された第2の辞書における未知語については当該未知語のまま、当該第2の辞書を用いて、前記第1翻訳手段によって翻訳された文章を前記第2の言語から前記第1の言語に翻訳する第2翻訳手段と、
    前記第2翻訳手段によって翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、前記第1の辞書における未知語として抽出する抽出手段と、
    を備える未知語抽出装置。
  2. 前記抽出手段によって抽出された未知語を翻訳するための情報を、第1及び第2の辞書とは異なる別の辞書から取得して、前記第1の辞書に登録する登録手段を更に備える請求項1に記載の未知語抽出装置。
  3. 前記第1翻訳手段は、前記入力手段によって入力された文章に含まれる単語のうち、前記第1の辞書における未知語の品詞を、形態素解析によって特定し、
    前記登録手段は、前記未知語の品詞に応じて、当該未知語を翻訳するための情報を登録する請求項に記載の未知語抽出装置。
  4. 未知語抽出装置の動作方法である未知語抽出方法であって、
    アルファベット表記ではない第1の言語による文章を入力する入力ステップと、
    前記入力ステップにおいて入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、前記未知語抽出装置に予め記憶された第1の辞書における未知語については変換されたアルファベット表記のまま、当該第1の辞書を用いて、前記入力ステップにおいて入力された文章を第1の言語からアルファベット表記である第2の言語に翻訳する第1翻訳ステップと、
    前記第1翻訳ステップにおいて翻訳された文章に含まれる単語のうち、前記未知語抽出装置に予め記憶された第2の辞書における未知語については当該未知語のまま、当該第2の辞書を用いて、前記第1翻訳ステップにおいて翻訳された文章を前記第2の言語から前記第1の言語に翻訳する第2翻訳ステップと、
    前記第2翻訳ステップにおいて翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、前記第1の辞書における未知語として抽出する抽出ステップと、
    を含む未知語抽出方法。
JP2014044001A 2014-03-06 2014-03-06 未知語抽出装置及び未知語抽出方法 Expired - Fee Related JP6203083B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014044001A JP6203083B2 (ja) 2014-03-06 2014-03-06 未知語抽出装置及び未知語抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014044001A JP6203083B2 (ja) 2014-03-06 2014-03-06 未知語抽出装置及び未知語抽出方法

Publications (2)

Publication Number Publication Date
JP2015170093A JP2015170093A (ja) 2015-09-28
JP6203083B2 true JP6203083B2 (ja) 2017-09-27

Family

ID=54202794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014044001A Expired - Fee Related JP6203083B2 (ja) 2014-03-06 2014-03-06 未知語抽出装置及び未知語抽出方法

Country Status (1)

Country Link
JP (1) JP6203083B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019123854A1 (ja) 2017-12-18 2019-06-27 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4017329B2 (ja) * 2000-09-14 2007-12-05 沖電気工業株式会社 機械翻訳システム
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体

Also Published As

Publication number Publication date
JP2015170093A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
CN107025217B (zh) 同义转换文生成方法、装置、记录介质以及机器翻译系统
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US9411801B2 (en) General dictionary for all languages
KR20130018205A (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d&#39;enregistrement, programme et ordinateur
TWI588668B (zh) Foreign language production support facilities and methods
US11227116B2 (en) Translation device, translation method, and program
JP2008083994A (ja) 辞書登録装置、辞書登録方法及び辞書登録プログラム
US9977766B2 (en) Keyboard input corresponding to multiple languages
US9519637B2 (en) Text processing apparatus and text display system
US20150088486A1 (en) Written language learning using an enhanced input method editor (ime)
JP6203083B2 (ja) 未知語抽出装置及び未知語抽出方法
JP2019057137A (ja) 情報処理装置及び情報処理プログラム
KR20130122437A (ko) 영어의 한글 표기 방법 및 시스템
JP6933395B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP2019087233A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6373198B2 (ja) テキスト変換装置、方法、及びプログラム
JP7481999B2 (ja) 辞書編集装置、辞書編集方法及び辞書編集プログラム
JP2018147205A (ja) 情報処理装置及び情報処理プログラム
JP6221339B2 (ja) 翻訳装置及び翻訳方法
KR20070083757A (ko) 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체
JP6598241B2 (ja) 自動翻訳装置及び自動翻訳プログラム
KR20130125912A (ko) 사전 검색 마크업 언어 생성 시스템 및 방법
CN115310458A (zh) 一种人名翻译方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170829

R150 Certificate of patent or registration of utility model

Ref document number: 6203083

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees