JP6203083B2

JP6203083B2 - 未知語抽出装置及び未知語抽出方法

Info

Publication number: JP6203083B2
Application number: JP2014044001A
Authority: JP
Inventors: 武市　真知; 真知武市; 憲一朗足羽; 浩二山中; 加奈梅澤
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2017-09-27
Anticipated expiration: 2034-03-06
Also published as: JP2015170093A

Description

本発明は、翻訳に用いられる辞書における未知語を抽出する未知語抽出装置及び未知語抽出方法に関する。

文章の機械翻訳を行うシステムにおいて、翻訳対象の文章中に含まれる、翻訳できない単語である未知語を抽出する技術がある。例えば、特許文献１には、ユーザ辞書を有する機械翻訳システムにおいて、翻訳処理で翻訳できなかった未知語を抽出することが記載されている。このシステムでは、具体的には、翻訳時に、翻訳結果の文章中における未知語部分に原言語での表記を挿入しておき、翻訳結果において原言語の文字列を収集することで未知語を抽出する。

特開２００２−９１９６３号公報

しかしながら、例えば、日本語から英語への翻訳において、適切に翻訳できない単語であっても、翻訳後の文章において当該単語をローマ字で表記する技術がある。そのように機械翻訳が行われると、適切に翻訳できない単語であっても、翻訳後の文章には原言語での表記がなされないこととなる。この場合、上記の特許文献１に記載された方法では適切に未知語を抽出することができない。

本発明は、上記の問題点に鑑みてなされたものであり、翻訳後の文章から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる未知語抽出装置及び未知語抽出方法を提供することを目的とする。

上記の目的を達成するために、本発明に係る未知語抽出装置は、アルファベット表記ではない第１の言語による文章を入力する入力手段と、入力手段によって入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、予め記憶された第１の辞書における未知語については変換されたアルファベット表記のまま、当該第１の辞書を用いて、入力手段によって入力された文章を第１の言語からアルファベット表記である第２の言語に翻訳する第１翻訳手段と、第１翻訳手段によって翻訳された文章に含まれる単語のうち、予め記憶された第２の辞書における未知語については当該未知語のまま、当該第２の辞書を用いて、第１翻訳手段によって翻訳された文章を第２の言語から第１の言語に翻訳する第２翻訳手段と、第２翻訳手段によって翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、第１の辞書における未知語として抽出する抽出手段と、を備える。

本発明に係る未知語抽出装置では、文章を第１の言語から第２の言語に翻訳し、更に第２の言語から第１の言語に翻訳（再翻訳）して、第１の辞書における未知語が抽出される。このように、本発明に係る未知語抽出装置では、再翻訳後の文章から未知語が抽出されるため、第２の言語への翻訳後の文章から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる。

未知語抽出装置は、抽出手段によって抽出された未知語を翻訳するための情報を、第１及び第２の辞書とは異なる別の辞書から取得して、第１の辞書に登録する登録手段を更に備えることとしてもよい。この構成によれば、今後の第１の辞書を用いた翻訳において、抽出された未知語が含まれている文章を適切に翻訳することができる。

第１翻訳手段は、入力手段によって入力された文章に含まれる単語のうち、第１の辞書における未知語の品詞を、形態素解析によって特定し、登録手段は、未知語の品詞に応じて、当該未知語を翻訳するための情報を登録することとしてもよい。この構成によれば、適切に未知語を翻訳するための情報を第１の辞書に登録することができる。

ところで、本発明は、上記のように未知語抽出装置の発明として記述できる他に、以下のように未知語抽出方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

即ち、本発明に係る未知語抽出方法は、未知語抽出装置の動作方法である未知語抽出方法であって、アルファベット表記ではない第１の言語による文章を入力する入力ステップと、入力ステップにおいて入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、未知語抽出装置に予め記憶された第１の辞書における未知語については変換されたアルファベット表記のまま、当該第１の辞書を用いて、入力ステップにおいて入力された文章を第１の言語からアルファベット表記である第２の言語に翻訳する第１翻訳ステップと、第１翻訳ステップにおいて翻訳された文章に含まれる単語のうち、未知語抽出装置に予め記憶された第２の辞書における未知語については当該未知語のまま、当該第２の辞書を用いて、第１翻訳ステップにおいて翻訳された文章を第２の言語から第１の言語に翻訳する第２翻訳ステップと、第２翻訳ステップにおいて翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、第１の辞書における未知語として抽出する抽出ステップと、を含む。

本発明では、再翻訳後の文章から未知語が抽出されるため、第２の言語への翻訳後の文章から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる。

本発明の実施形態に係る未知語抽出装置である翻訳装置の構成を示す図である。入力文に対する形態素解析によって得られる情報の例を示す表である。日本語から英語への機械翻訳の概要を示す図である。翻訳エンジンによって生成される汎用フォーマットの翻訳結果の情報（ログファイル）を示す図である。未知語をどのように検出するかを定義した未知語検出パターンファイルを示す図である。再翻訳文に対する形態素解析によって得られる情報の例を示す表である。登録部によって生成される汎用未知語登録リストの例を示す図である。本発明の実施形態に係る未知語抽出装置である翻訳装置のハードウェア構成を示す図である。本発明の実施形態に係る未知語抽出装置である翻訳装置で実行される処理（未知語抽出方法）全体を示すフローチャートである。

以下、図面と共に本発明に係る未知語抽出装置及び未知語抽出方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係る未知語抽出装置である翻訳装置１０を示す。翻訳装置１０は、翻訳対象となる文章を入力し、当該文章を翻訳（機械翻訳）して、翻訳された文章を出力する装置である。即ち、翻訳装置１０は、翻訳サービスを提供する装置である。例えば、翻訳装置１０は、ユーザ端末２０と移動体通信網あるいはインターネット等の通信網を介して接続されている。翻訳装置１０は、ユーザ端末２０から翻訳対象となる文章を受信し、ユーザ端末２０に対して翻訳された文章を送信する。

後述するように、翻訳装置１０による翻訳は、翻訳装置１０によって備えられる翻訳辞書が用いられて行われる。翻訳辞書は、翻訳対象となる文章の言語での単語について、どのように翻訳すべきかを示す情報を格納している。従って、翻訳対象の文章に、翻訳辞書に含まれていない単語が含まれていた場合、当該単語については適切な翻訳を行うことができない。本実施形態においては、翻訳辞書に含まれておらず、適切な翻訳を行うことができない単語を未知語と呼ぶ。本実施形態に係る翻訳装置１０は、入力した文章に基づき、未知語を抽出する機能を有している。

翻訳装置１０は、第１の言語による文章を第２の言語に翻訳すると共に、その逆の第２の言語による文章を第１の言語に翻訳する機能を有している。例えば、翻訳装置１０は、日本語による文章を英語に翻訳すると共に、英語による文章を日本語に翻訳する機能を有している。なお、第１の言語及び第２の言語になりえる言語としては、例えば、日本語、英語（米国）、英語（英国）、中国語（北京）、中国語（台湾）、韓国語、フランス語及びイタリア語等がある。

ユーザ端末２０は、通信網を介して翻訳装置１０と通信を行うことができる装置であり、例えば、スマートフォン、携帯電話機又はＰＣ（Personal Computer）に相当する。ユーザ端末２０は、翻訳装置１０との間でセッションを確立して、翻訳対象の文章を入力して翻訳装置１０に送信する。また、ユーザ端末２０は、文章をどの言語からどの言語に翻訳するかを示す翻訳方向情報（例えば、日本語から英語への翻訳であることを示す情報）を入力して、文章の送信と合わせて当該情報を翻訳装置１０に送信することとしてもよい。ユーザ端末２０と翻訳装置１０とのセッションは、セッションＩＤ等で一意に識別され、翻訳装置１０では、どのユーザ端末２０から翻訳対象の文章が送信されたか把握することができる。

ユーザ端末２０は、例えば、ユーザからの音声を入力し、音声を音声認識して文章とすることで翻訳対象の文章を入力する。音声認識は、従来から用いられている音声認識技術が用いられて行われる。あるいは、ユーザ端末２０は、入力した音声を翻訳装置１０に送信し、翻訳装置１０側で音声認識が行われてもよい。あるいは、翻訳装置１０とは別の音声認識サーバで音声認識が行われてもよい。その場合、ユーザ端末２０は、音声認識サーバに音声を送信し、音声認識サーバから音声認識結果である文章を受信する。翻訳対象の文章は、音声による入力以外でも、ユーザがユーザ端末２０のボタンを操作すること等によって入力されてもよい。

また、ユーザ端末２０は、翻訳方向情報をユーザの操作に基づいて入力する。この入力は、例えば、ユーザ端末２０が備えるタッチパネルの表示画面に対するユーザの操作により行われる。また、ユーザ端末２０は、翻訳装置１０から翻訳結果の文章を受信する。ユーザ端末２０は、受信した翻訳結果の文章をユーザ端末２０が備えるタッチパネルの表示画面に表示する。これにより、ユーザが翻訳結果を認識することができる。

引き続いて、本実施形態に係る翻訳装置１０の機能構成について説明する。図１に示すように翻訳装置１０は、翻訳エンジン１１と、入力部１２と、抽出部１３と、登録部１４と、出力部１５とを備えて構成される。これらの構成要素のうち、抽出部１３と、登録部１４とは、未知語抽出・翻訳辞書登録プログラムによって実現されることができる。

翻訳エンジン１１は、翻訳装置１０に入力された文章の翻訳処理を行う翻訳手段である。翻訳エンジン１１は、第１の言語による文章を第２の言語に翻訳すると共に、その逆の第２の言語による文章を第１の言語に翻訳する。例えば、第１の言語である日本語の文章を第２の言語である英語の文章に翻訳すると共に、英語の文章を日本語の文章に翻訳する。翻訳エンジン１１は、未知語の抽出のため、翻訳装置１０に入力された第１の言語による文章を第２の言語に翻訳し、翻訳後の第２の言語による文章を第１の言語に翻訳（再翻訳）する。

翻訳エンジン１１は、処理部１１１と、翻訳辞書１１２とを備えて構成される。翻訳辞書１１２は、翻訳に用いられる辞書の情報を保持（記憶）する。翻訳辞書１１２が保持する辞書の情報は、例えば、翻訳元の言語の単語と翻訳後の言語の単語との対応付けを示す情報であり、従来の機械翻訳で用いられる辞書と同様ものであってもよい。翻訳辞書１１２には、第１の言語の文章から第２の言語の文章への翻訳を行う際に用いられる第１の辞書と、第２の言語の文章から第１の言語の文章への翻訳を行う際に用いられる第２の辞書とが含まれる。翻訳辞書１１２は、予め翻訳装置１０の管理者等によって予め用意される。

処理部１１１は、翻訳辞書１１２に含まれる第１の辞書を用いて、入力部１２によって入力された文章を第１の言語から第２の言語に翻訳する第１翻訳手段である。また、処理部１１１は、翻訳辞書１１２に含まれる第２の辞書を用いて、第２の言語に翻訳された文章を第２の言語から第１の言語に翻訳（再翻訳）する第２翻訳手段である。処理部１１１は、例えば、従来の機械翻訳と同様の技術により実現される。

第１の言語を日本語、第２の言語を英語とそれぞれした場合の翻訳エンジン１１のよる翻訳処理を説明する。この場合、翻訳エンジン１１には、日本語による文章が入力される。日本語からの英語への翻訳を行う場合には、翻訳エンジン１１（処理部１１１の機能）は、翻訳対象の文章である入力文を解析する機能及び第２の言語に変換して翻訳文を生成する機能の組み合わせで構成される。

処理部１１１は、まず、入力文を形態素解析し、入力文を単語（形態素）に分割すると共にその単語の品詞及びローマ字読み（アルファベット表記）を得る。形態素解析は、汎用の形態素解析エンジンを活用して行うことができる。例えば、入力文が「今から舞妓体験に行きます」というものであった場合、処理部１１１は、形態素解析により、図２に示すように単語毎の表記、品詞及びローマ字読みを得る。

処理部１１１は、上記の解析によって得られた単語に該当する第２の言語に該当する対訳単語を翻訳辞書１１２に含まれる第１の辞書より抽出する。続いて、処理部１１１は、図３に示すように、抽出した対訳単語を翻訳後の言語構造に適するように単語順序の並び替え、及び必要な単語を補完する処理を行い、翻訳文を生成する。図２及び図３に示す例に対応する情報として、例えば、体験（ｔａｉｋｅｎ）との単語の対訳単語としてｅｘｐｅｒｉｅｎｃｅ、今（ｉｍａ）との単語の対訳単語としてｎｏｗが第１の辞書に格納されている。但し、第１の辞書には、舞妓（ｍａｉｋｏ）の対訳単語は格納（登録）されていない。

上記の翻訳文の生成の際に、翻訳辞書１１２に含まれる第１の辞書に登録されていない単語（上記の例では舞妓）は未知語となる。しかしながら、処理部１１１は、第１の辞書に登録されていない単語については、形態素解析によって得られたローマ字読み（上記の例ではｍａｉｋｏ）を翻訳後の単語表記として翻訳文構造の中で活用する。そのため、翻訳辞書１１２に含まれる第１の辞書に登録されていない単語がアルファベット表記のまま、翻訳表記される。例えば、入力文が「今から舞妓体験に行きます」というものであった場合、「Ｉｇｏｆｏｒｍａｉｋｏｅｘｐｅｒｉｅｎｃｅｎｏｗ」との翻訳文が生成される。以上が、処理部１１１の第１の言語から第２の言語に翻訳する第１翻訳手段としての機能である。

また、処理部１１１は、上記のようにして得られた第２の言語（英語）の翻訳文を第１の言語（日本語）に再翻訳する。処理部１１１は、当該再翻訳を翻訳辞書１１２に含まれる第２の辞書を用いて行う。英語から日本語への再翻訳は、従来の機械翻訳と同様の技術により実現される。但し、処理部１１１は、第２の辞書に含まれていない単語については、第２の言語から第１の言語への翻訳を行わず、第２の言語の表記のままとする。例えば、上記の翻訳文における「ｍａｉｋｏ」との単語が、第２の辞書に含まれていない場合には、当該単語については再翻訳文では「ｍａｉｋｏ」の表記のままとなる。例えば、翻訳文が「Ｉｇｏｆｏｒｍａｉｋｏｅｘｐｅｒｉｅｎｃｅｎｏｗ」というものであった場合、「私は、今、ｍａｉｋｏ体験に出かけます」との再翻訳文が生成される。以上が、処理部１１１の第２の言語から第１の言語に再翻訳する第２翻訳手段としての機能である。

なお、第１の辞書と第２の辞書との間で翻訳可能な単語は対応している。従って、第１の辞書と第２の辞書との間で翻訳できない単語である未知語も対応している。即ち、第２の辞書での未知語（第２の言語から第１の言語への翻訳で翻訳できなかった単語）は、第１の辞書での未知語（第２の言語から第１の言語への翻訳で翻訳できなかった単語）でもある。但し、上記の対応は、必ずしも完全なものでなくてもよい。

翻訳エンジン１１は、上記の処理を行って、図４に示す汎用フォーマットの翻訳結果の情報（ログファイル）を生成する。図４に示すように翻訳エンジン１１によって生成される翻訳結果は、入力文（第１の言語）、翻訳文（第２の言語）、再翻訳文（第１の言語）、入力言語（第１の言語）及び翻訳言語（第２の言語）を示す情報を含む。翻訳エンジン１１は、翻訳結果の情報を抽出部１３及び出力部１５に出力する。

翻訳エンジン１１は、例えば、既存のパッケージプログラムを用いて実現することができる。しかしながら、既存のパッケージプログラムを用いた場合等には、第１の言語から第２の言語への翻訳の際に、上述した翻訳処理の中間の結果である、形態素解析の結果等の情報を利用することができない。即ち、処理部１１１によって把握される入力文のどの単語が未知語であるかを示す情報を利用することができない。本実施形態は、このような場合であっても、適切に未知語を抽出できるようにするものである。

また、翻訳エンジン１１は、翻訳元及び翻訳先の言語の種類、並びに翻訳対象の文章のカテゴリ等に応じて複数、設けられていてもよい。その場合、各翻訳エンジン１１には翻訳エンジン番号（例えば、Ａ、Ｂ、Ｃ…）が付与されて、各翻訳エンジン１１を識別できるようにしておく。また、この場合、翻訳結果の情報と合わせて翻訳エンジン番号も、翻訳エンジン１１から抽出部１３に出力されてもよい。

なお、翻訳エンジン１１は、例えば、言語の種類や翻訳対象の文章のカテゴリ等に応じた複数の既存のパッケージプログラムを用いた場合に、既存のパッケージプログラム毎に出力の形式が異なる場合には、当該形式の情報を上述した汎用フォーマットの翻訳結果の情報（ログファイル）に変換（集約）してもよい。また、この際に各形式のログの正常性を確認することとしてもよい。

入力部１２は、翻訳対象となる文章を入力する入力手段である。当該文章は、未知語の抽出対象となる第１の辞書に対応する第１の言語による文章である。具体的には、入力部１２は、ユーザ端末２０と翻訳装置１０との間のセッションを確立して、当該セッションを介してユーザ端末２０から翻訳対象となる文章を受信することで文章を入力する。翻訳装置１０では、セッションＩＤによりセッションを把握することができ、これにより何れのユーザ端末２０から情報を入力したかを把握することができる。また、上述したようにユーザ端末２０から音声を受信して、当該音声を音声認識して文章を取得することとしてもよい。また、翻訳装置１０が複数の翻訳を実行できる場合には、入力部１２は、翻訳方向情報を入力することとしてもよい。翻訳方向情報には、翻訳対象の文章の言語（入力言語）を示す情報、及び翻訳後の文章の言語（翻訳言語）を示す情報が含まれる。本実施形態における処理は、入力言語及び翻訳言語に基づいて行われる。入力部１２は、当該情報も翻訳対象となる文章と合わせてユーザ端末２０から受信する。

入力部１２は、入力した情報を翻訳エンジン１１に出力する。なお、上述したように翻訳エンジン１１が、翻訳元及び翻訳先の言語の種類、並びに翻訳対象の文章のカテゴリ等に応じて複数、設けられている場合は、入力部１２は、出力先の翻訳エンジン１１を選択して、選択した翻訳エンジンに出力する。入力部１２は、選択を行うための情報（例えば、翻訳方向情報と翻訳エンジン番号とを対応付けた情報）を予め記憶しておき、その情報に基づいて選択を行う。

抽出部１３は、翻訳エンジン１１によって翻訳された翻訳文に基づき、第１の辞書における未知語を抽出する抽出手段である。未知語の抽出に用いられる翻訳文は、第１の言語での入力部１２から入力された文章（翻訳対象となる文章）が第２の文章に翻訳され、その翻訳文が更に第１の言語に再翻訳された文章である。即ち、未知語の抽出に用いられる翻訳文は、上記の第２翻訳手段によって翻訳された文章である。

抽出部１３は、図５に示す、未知語をどのように検出するかを定義した未知語検出パターンファイルを記憶しておく。本パターンファイルは、翻訳装置１０のオペレータ等によって予め翻訳装置１０に入力されている。本パターンファイルは、翻訳装置１０のオペレータ等によって自由に追加、変更可能であり、翻訳エンジン１１の追加及び変更の拡張性を担保する。

図５に示すように未知語検出パターンファイルは、翻訳エンジン番号、入力言語、翻訳言語、未知語パターン１及び未知語パターン２の情報が対応付けられたものである。翻訳エンジン番号は、何れの翻訳エンジン１１で翻訳が行われたかを示す情報である。入力言語は、入力部１２から入力された文章（翻訳対象となる文章）の言語（第１の言語）である。翻訳言語は、入力部１２から入力された文章が翻訳される言語（第２の言語）である。未知語パターン１及び未知語パターン２は、未知語をどのように検出するかを示す情報である。未知語パターン１は、どの文章を用いて未知語を抽出するかを示す情報である（汎用フォーマットのどの列の情報を用いて未知語を抽出するかを指示する情報である）。未知語パターン１が「再翻訳文」であるものが、本実施形態（本発明）における未知語の抽出に対応する。なお、翻訳装置１０では、第１の言語である入力文が第２の言語に翻訳された翻訳文が用いられて未知語が抽出されてもよい。この場合、未知語パターン１が「翻訳文」である。

未知語パターン２は、どの文字で表記された文字が未知語であるかを示す情報である。例えば、「ローマ字」とは、未知語パターン１で示される文章において、ローマ字（アルファベット）表記がなされた単語を未知語とすることを示している。

上述したように、抽出部１３は、翻訳エンジン１１から、図４に示した汎用フォーマットの翻訳結果の情報を入力する。また、翻訳エンジン１１が翻訳装置１０に複数設けられている場合には、抽出部１３は、翻訳エンジン１１から翻訳エンジン番号を入力する。抽出部１３は、入力した翻訳エンジン番号、並びに汎用フォーマットの翻訳結果に含まれる入力言語及び翻訳言語の組み合わせに対応して、未知語検出パターンファイルに含まれる未知語パターン１及び未知語パターン２の情報を取得する。例えば、翻訳エンジン番号が「Ａ」、入力言語が「日本語」、翻訳言語が「英語」だった場合、未知語パターン１及び未知語パターン２の情報として、「再翻訳文」及び「ローマ字」が取得される。

続いて、抽出部１３は、汎用フォーマットの翻訳結果に含まれる入力文の形態素解析を行う。図４の例の場合、例えば、形態素解析を行った結果は図２のようになる。これは、上述したように翻訳エンジン１１において行われる形態素解析と同様の結果であってもよい。即ち、抽出部１３は、形態素解析により、図２に示すように単語毎の表記、品詞及びローマ字読みを得る（判断する）。また、抽出部１３は、汎用フォーマットの翻訳結果に含まれると共に未知語パターン１の「再翻訳文」で示される再翻訳文の形態素解析を行う。形態素解析は、汎用の形態素解析エンジンを活用して行うことができる。例えば、再翻訳文が「私は、今、ｍａｉｋｏ体験に出かけます」というものであった場合、抽出部１３は、形態素解析により、図６に示すように単語毎の表記、品詞及びローマ字読みを得る（判断する）。

抽出部１３は、再翻訳文の形態素解析の結果のうち、表記がローマ字表記である単語を、第１の辞書における未知語として抽出する。例えば、再翻訳文の形態素解析の結果が図６に示すものであった場合、「ｍａｉｋｏ」との単語が、第１の辞書における未知語として抽出される。また、上述したように入力文の形態素解析の結果には、入力文に含まれる単語の表記とローマ字読みとの対応関係が含まれている。抽出部１３は、再翻訳文の形態素解析の結果における表記（図６の表における表記欄の情報）と、入力文の形態素解析の結果におけるローマ字読み（図２の表におけるローマ字読み欄の情報）とを比較して、それらが一致している単語を、第１の辞書における未知語として抽出してもよい。また、再翻訳文の形態素解析の結果のみから未知語を抽出した場合にも、抽出部１３は、上記の対応関係に基づいて、上記のようにローマ字読みとして抽出された未知語の入力文の言語での表記を得ることとしてもよい。例えば、「ｍａｉｋｏ」であれば、それに対応する「舞妓」との表記が未知語として抽出される。また、入力文の形態素解析の結果に基づき、未知語の品詞を示す情報も得られる。

上記の通り、抽出部１３は、第２翻訳手段によって翻訳された文章（再翻訳文）のうち、第２の言語で記載された単語（アルファベット表記、ローマ字読み、上記の例では「ｍａｉｋｏ」）に対応する第１の言語の単語（上記の例では「舞妓」）を未知語として抽出する。抽出部１３は、抽出した未知語を登録部１４に出力する。具体的には例えば、抽出部１３は、入力文の形態素解析で得られた情報（図２に示す情報）のうち、未知語として抽出された単語の情報（表記、品詞、ローマ字読み）をリスト形式で登録部１４に出力する。

登録部１４は、抽出部１３によって抽出された未知語を翻訳するための情報（対訳のための情報）を取得して、翻訳エンジン１１の第１の辞書に登録する登録手段である。登録部１４は、未知語の品詞に応じて、当該未知語を翻訳するための情報を登録してもよい。

具体的には、登録部１４は、抽出部１３から、未知語として抽出された単語の情報（表記、品詞、ローマ字読み）を入力する。登録部１４は、入力された情報に基づき、未知語の品詞が名詞か否かを判定する。上述した形態素解析による品詞が名詞でない場合は、第１の辞書への登録には適さないと判断する。なお、このフィルタリング判定方法は、上記のようにデフォルトの名詞を登録するものと判定するものでもよく、形容詞等についても登録可能であるとしてもよい。このように登録する単語の品詞（品詞の優先度）を任意に変更できるようにしてもよい。また、品詞にかかわらず（品詞に基づく判定を行わず）、一律に未知語を第１の辞書に登録することとしてもよい。

登録部１４は、上記の判定の結果、第１の辞書へ登録すると判定された未知語について、未知語を翻訳するための情報を取得する。この情報の取得は、汎用の言語辞書（英日、日英等の辞書）を検索して当該情報を取得することで行われる。汎用の言語辞書は、翻訳装置１０に備えられていてもよいし、翻訳装置１０以外の装置であってもよい。なお、第１の辞書に汎用の言語辞書に含まれる全ての情報を格納しておくと、翻訳エンジン１１の処理負荷が大きくなるため、通常、第１の辞書には汎用の言語辞書に含まれる全ての情報が含まれていない。また、言葉は常に進化している為、従来は単語として認識されていない場合でも、新たな単語として認知される場合、言語辞書登録を追従していく必要がある。これにより、未知語について第１の言語から第２の言語へ翻訳するための情報が得られる。この情報は、例えば、未知語の第２の単語での表記である。具体的には、未知語が「舞妓」というものであった場合、「ｍａｉｋｏ」という英語表記である。なお、上記の実施例では、「舞妓」のローマ字表記「ｍａｉｋｏ」と、英語表記の「ｍａｉｋｏ」とが一致しているが、これらは異なっていてもよい。また、英語表記と合わせて、未知語の第１の言語（例えば、日本語）での読みや品詞の情報を取得してもよい。

登録部１４は、これらの取得した情報に基づき、第１の辞書に登録する汎用未知語登録リストを生成する。図７に生成される汎用未知語登録リストの例を示す。登録部１４は、この情報を翻訳エンジン１１の第１の辞書に登録する。汎用未知語登録リストの登録によって、抽出部１３によって未知語とされた単語について、翻訳エンジン１１は、形態素解析の結果に基づくものではなく、汎用未知語登録リストの内容に基づく翻訳を行うことができるようになる。また、登録部１４は、汎用未知語登録リストを翻訳エンジン１１の第２の辞書に登録して、第２の言語から第１の言語への翻訳（例えば、英語から日本語への翻訳）に利用できるようにしてもよい。

また、翻訳エンジンとして既存のパッケージプログラムを用いた場合、この登録の際、登録部１４は、既存のパッケージプログラムに合わせたフォーマットの登録のコマンドを発行することとしてもよい。これは、既存のパッケージプログラム毎に新規の単語の登録方法（登録のコマンド等）が異なるためである。

登録部１４は、汎用の言語辞書から、未知語の適切な翻訳後の単語が一義に導出できない場合、例えば、翻訳装置１０のオペレータ等にその旨（アラート）を通知することとしてもよい。この通知は、例えば、翻訳装置１０が備える表示装置に表示することで行われる。登録部１４は、翻訳装置１０のオペレータ等の操作によって、未知語を翻訳するための情報（例えば、上記の汎用未知語登録リストに含まれる情報）を入力して、入力した情報を翻訳エンジン１１の第１の辞書に登録することとしてもよい。即ち、人為的な翻訳に基づく登録が行われてもよい。

また、登録部１４は、第１の辞書への情報の登録の前に翻訳装置１０のオペレータ等にその旨を通知することとしてもよい。その場合、登録部１４は、翻訳装置１０のオペレータ等の操作によって、当該登録を行ってよい旨の入力を受け付けた場合に第１の辞書への登録をすることとしてもよい。即ち、翻訳装置１０のオペレータ等の判断に基づいて登録が行われてもよい。

また、登録部１４による登録は、未知語を検出する度にその都度行われてもよいし、予めスケジューリングして翻訳装置１０があまり利用されない時間帯（閑散時間帯。例えば、夜間等）にまとめて実施されてもよい。

また、抽出部１３によって未知語が抽出されて、登録部１４によって当該未知語を翻訳するための情報が翻訳エンジン１１の第１の辞書に登録された場合には、登録後に再度、翻訳エンジン１１によって翻訳が行われてもよい。

出力部１５は、翻訳エンジン１１によって翻訳された文章を出力する出力手段である。具体的には、出力部１５は、ユーザ端末２０と翻訳装置１０との間のセッションを介してユーザ端末２０に、翻訳エンジン１１から入力された汎用フォーマットの翻訳結果の情報を送信することで文章を出力する。また、出力部１５は、汎用フォーマットの翻訳結果の情報に含まれる翻訳後の文章（翻訳文）のみをユーザ端末２０に送信することとしてもよい。ユーザ端末２０によって受信された文章は、ユーザ端末２０において表示等の出力が行われる。以上が、本実施形態に係る翻訳装置１０の機能構成である。

図８に本実施形態に係る未知語抽出装置である翻訳装置１０のハードウェア構成を示す。図８に示すように翻訳装置１０は、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置１０５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した翻訳装置１０の機能が発揮される。以上が、本実施形態に係る翻訳装置１０の構成である。

引き続いて、図９のフローチャートを用いて、本実施形態に係る未知語抽出装置である翻訳装置１０の動作方法（翻訳装置１０で実行される処理）である未知語抽出方法を説明する。本処理では、まず、翻訳対象の文章である、第１の言語（例えば、日本語）による入力文が、ユーザ端末２０から翻訳装置１０に送信される。翻訳装置１０では、入力部１２によって入力文が受信される（Ｓ０１、入力ステップ）。入力された文章は、入力部１２から翻訳エンジン１１に出力される。

続いて、翻訳エンジン１１では、処理部１１１によって、翻訳辞書１１２に含まれる第１の辞書が用いられて、入力部１２から入力された入力文が第１の言語から第２の言語（例えば、日本語から英語）に翻訳される（Ｓ０２、第１翻訳ステップ）。上述したように、入力文に第１の辞書での未知語が含まれていた場合であっても、上記のように生成される翻訳文は、少なくともその表記上全て第２の言語（英語）で表記される。但し、その表記は、適切に第２の言語に翻訳されたものではなく、例えば、形態素解析の結果によって得られた未知語のローマ字読みである。

続いて、翻訳エンジン１１では、処理部１１１によって、翻訳辞書１１２に含まれる第２の辞書が用いられて、上記の翻訳によって得られた翻訳文が第２の言語から第１の言語（例えば、英語から日本語）に再翻訳される（Ｓ０３、第２翻訳ステップ）。上述したように、翻訳文に、第１の言語での未知語に対応する第２の辞書での未知語が含まれていた場合、上記のように生成される再翻訳文は、当該未知語の第２の言語（英語）での表記を含む。入力文、並びに生成された翻訳文、及び再翻訳文等は、図４に示す汎用フォーマットで翻訳エンジン１１から抽出部１３及び出力部１５に出力される。

続いて、抽出部１３によって、翻訳エンジン１１から入力された汎用フォーマットの翻訳結果の情報に含まれる再翻訳文に基づき、第１の辞書における未知語が抽出される（Ｓ０４、抽出ステップ）。具体的には、再翻訳文のうち、第２の言語で記載された単語に対応する第１の言語の単語が、未知語として抽出される。抽出された未知語の情報は、抽出部１３から登録部１４に出力される。

続いて、登録部１４によって、抽出部１３から入力された情報により示される未知語を翻訳するための情報が取得されて、翻訳エンジン１１の第１の辞書に登録される（Ｓ０５、登録ステップ）。Ｓ０４及びＳ０５の処理の一方で、出力部１５によって、翻訳後の文章がユーザ端末２０に対して送信される（Ｓ０６、出力ステップ）。ユーザ端末２０では、翻訳後の文章が受信されて、表示等のユーザが認識できる形式での出力が行われる。以上が、本実施形態に係る翻訳装置１０で実行される処理である未知語抽出方法である。

上述したように、本実施形態では、再翻訳後の文章から未知語が抽出されるため、第２の言語への翻訳後の文章（再翻訳前の翻訳文）から適切に未知語を抽出できない場合であっても適切に未知語を抽出することができる。また、本実施形態のように再翻訳文のうち、第２の言語で記載された単語に対応する第１の言語の単語を未知語として抽出することとすれば、確実に未知語を抽出することができる。特に上述したように、翻訳エンジンとして既存のパッケージプログラムを用いた場合等、未知語であっても形式的に第１の言語から第２の言語に翻訳を行ってしまう場合であっても、確実に未知語を抽出することができる。

また、上述したようにログファイルの形式を汎用フォーマットとすることで、多種多様な形式のログファイルを解析する場合と比べて、システマチックに、未知語を自動判定することができる。また、翻訳辞書への登録に際して、多大な可動、コストの発生を防止することができる。

また、本実施形態のように、未知語を翻訳するための情報を取得して、第１の辞書に登録することとしてもよい。この構成によれば、今後の第１の辞書を用いた翻訳において、抽出された未知語が含まれている文章を適切に翻訳することができる。即ち、翻訳エンジン１１での翻訳における、翻訳精度を向上させることができる。また、その際、未知語の品詞に応じて情報を登録することとしてもよい。例えば、上述したように未知語の品詞が名詞の場合のみに登録を行うこととしてもよい。この構成によれば、適切に未知語を翻訳するための情報を第１の辞書に登録することができる。但し、未知語を翻訳するための情報の第１の辞書への登録は、例えば、翻訳装置１０のオペレータ等による翻訳装置１０に対する操作によって行われてもよい。登録部１４は、必ずしも翻訳装置１０に備えられていなくてもよい。

なお、本実施形態では、未知語を抽出することとしたが、抽出した単語を確定された未知語ではなく、未知語の候補としてもよい。その場合、翻訳装置１０のオペレータ等が、抽出された未知語の候補を確認した上で未知語を確定することとしてもよい。本明細書においては、未知語の抽出には、未知語の候補を抽出することも含まれる。

また、本実施形態では、ユーザ端末２０から翻訳対象の文章を入力して、翻訳後の文章を出力していた。しかしながら、本発明に係る未知語抽出装置は、必ずしも翻訳後の文章を外部の装置に出力する必要はなく、入力された文章に基づき、未知語を抽出する機能を有していればよい。

１０…翻訳装置、１１…翻訳エンジン、１１１…処理部、１１２…翻訳辞書、１２…入力部、１３…抽出部、１４…登録部、１５…出力部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…通信モジュール、１０５…補助記憶装置、２０…ユーザ端末。

Claims

アルファベット表記ではない第１の言語による文章を入力する入力手段と、
前記入力手段によって入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、予め記憶された第１の辞書における未知語については変換されたアルファベット表記のまま、当該第１の辞書を用いて、前記入力手段によって入力された文章を第１の言語からアルファベット表記である第２の言語に翻訳する第１翻訳手段と、
前記第１翻訳手段によって翻訳された文章に含まれる単語のうち、予め記憶された第２の辞書における未知語については当該未知語のまま、当該第２の辞書を用いて、前記第１翻訳手段によって翻訳された文章を前記第２の言語から前記第１の言語に翻訳する第２翻訳手段と、
前記第２翻訳手段によって翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、前記第１の辞書における未知語として抽出する抽出手段と、
を備える未知語抽出装置。
前記抽出手段によって抽出された未知語を翻訳するための情報を、第１及び第２の辞書とは異なる別の辞書から取得して、前記第１の辞書に登録する登録手段を更に備える請求項１に記載の未知語抽出装置。
前記第１翻訳手段は、前記入力手段によって入力された文章に含まれる単語のうち、前記第１の辞書における未知語の品詞を、形態素解析によって特定し、
前記登録手段は、前記未知語の品詞に応じて、当該未知語を翻訳するための情報を登録する請求項２に記載の未知語抽出装置。
未知語抽出装置の動作方法である未知語抽出方法であって、
アルファベット表記ではない第１の言語による文章を入力する入力ステップと、
前記入力ステップにおいて入力された文章を、形態素解析によって単語に分割して分割された単語をローマ字読みのアルファベット表記に変換し、当該分割された単語のうち、前記未知語抽出装置に予め記憶された第１の辞書における未知語については変換されたアルファベット表記のまま、当該第１の辞書を用いて、前記入力ステップにおいて入力された文章を第１の言語からアルファベット表記である第２の言語に翻訳する第１翻訳ステップと、
前記第１翻訳ステップにおいて翻訳された文章に含まれる単語のうち、前記未知語抽出装置に予め記憶された第２の辞書における未知語については当該未知語のまま、当該第２の辞書を用いて、前記第１翻訳ステップにおいて翻訳された文章を前記第２の言語から前記第１の言語に翻訳する第２翻訳ステップと、
前記第２翻訳ステップにおいて翻訳された文章に含まれるアルファベット表記の単語に対応する単語を、前記第１の辞書における未知語として抽出する抽出ステップと、
を含む未知語抽出方法。