JP4845921B2 - 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 - Google Patents

機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 Download PDF

Info

Publication number
JP4845921B2
JP4845921B2 JP2008105609A JP2008105609A JP4845921B2 JP 4845921 B2 JP4845921 B2 JP 4845921B2 JP 2008105609 A JP2008105609 A JP 2008105609A JP 2008105609 A JP2008105609 A JP 2008105609A JP 4845921 B2 JP4845921 B2 JP 4845921B2
Authority
JP
Japan
Prior art keywords
translation
language
words
word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008105609A
Other languages
English (en)
Other versions
JP2009258887A (ja
Inventor
陽子 小▲高▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008105609A priority Critical patent/JP4845921B2/ja
Publication of JP2009258887A publication Critical patent/JP2009258887A/ja
Application granted granted Critical
Publication of JP4845921B2 publication Critical patent/JP4845921B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、第1言語の原文を第2言語の訳文に翻訳する、機械翻訳プログラム及び機械翻訳方法に関する。
例えば、中国語を日本語に翻訳する中日翻訳では、第1言語である中国語の原文中のある一塊の言葉を翻訳するとき、その言葉全体で辞書には登録されていなくても、その言葉を短く区切って、より小さい一塊として辞書引きを試み、最終的には漢字一文字ずつになるまでこれを繰り返していく。これは、中国語は表意文字で記述される言語であり、漢字一文字としても辞書の見出し語になり得る場合がほとんどであるためである。
このことから、第1言語の原文が表意文字である場合には、一文字ごとに区切っていけば未知語になることはほとんどあり得ない。従って、ある一塊の言葉が辞書に登録されていない場合には、その言葉を細かく区切って辞書引きをし、辞書引きをした訳語をつなぎ合わせて日本語の文字列を作り、訳文として出力するようにしている。
通常の構文解析では失敗するような慣用表現は、慣用構文として予め翻訳知識に記憶させておき、原文として中国語文が入力されると、まず構文解析を行い、慣用構文に該当するものがあれば置き換えて出力し、構文解析された単語ごとに翻訳辞書を調べて日本語単語に置き換え、品詞を基にした日本語文法の語順ルールに従ってこれらを並べ替え、日本語文を生成し出力するようにしたものがある(例えば、特許文献1参照)。
特開平5−266069号公報
しかし、特許文献1のものでは、辞書引きして得られた日本語の言葉を連結する際に文法的に誤りでなければそれを採用しているので、意味が通じる訳文にはなっていないことがある。
すなわち、翻訳辞書に登録されていない一塊の言葉を含む文を翻訳するとき、原語がより細かく分割されて辞書引きされることから、それらの訳語の組み合わせが無数に上り、その中から一つを選んで訳文としたときに、本来の意味とはかけ離れた訳文が出来上がることが少なからずある。そのような例を例1、2に示す。
(例1)
Figure 0004845921
(例2)
Figure 0004845921
これらの訳文は原文の意味を表現しているとは言えず、翻訳結果としては不十分である。このように、一塊の言葉を含む文を翻訳するとき、表意文字だからといって、より細かく分割して辞書引きし、辞書引きをした訳語をつなぎ合わせて日本語の文字列を作っても、結果として、読み手に原文の意味を正しく伝えることができない場合がある。
本発明の目的は、原文の翻訳の際に原文とは異なる意味を表す訳文が生成されてしまうことを抑制できる機械翻訳装置、機械翻訳プログラム及び機械翻訳方法を提供することである。
本発明の機械翻訳装置は、機械翻訳プログラム、第1言語の語句とそれに対応する第2言語の語句とを対にしてデータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第1言語の語句の訳語候補の点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記記憶装置に予め記憶され第2言語の単語が記載された文書情報を集積した存在検索単語データベースと;入力装置から入力された第1言語の原文の形態素解析を行い、原文を語句ごとに分割し、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在するときは第2言語の訳語に置き換え訳語候補とし、存在しないときは第1言語の原語表記の未知語を訳語候補とした訳文を出力する翻訳辞書検索部と;前記翻訳辞書検索部で得られた訳文中の訳語候補に対して、前記機械翻訳知識データベースを参照して前記訳語候補の点数を求め、前記存在検索単語データベースを参照して前記存在検索単語データベースに存在する訳語候補の個数に応じて予め定められた点数を求め、これら訳語候補の点数の合計点数が予め定めた点数以上のときは合格と判定し、予め定めた点数未満のときは不合格と判定する訳語候補検証部と;前記訳語候補検証部で不合格となった訳文について、原文の分割位置及び分割した語句の訳語を解析情報として第1言語の原文に付加し、既に付加した解析情報と異なる解析情報が更新される限りその解析情報を付加した第1言語の原文を前記翻訳辞書検索部に出力して前記翻訳辞書検索部に再解析を指示する再解析指示部と;前記訳語候補検証部で合格と判断された訳文または前記再解析指示部による前記翻訳辞書検索部への再解析の指示がないときの訳文を出力装置に出力する出力処理部とを備え;前記翻訳辞書検索部は、前記再解析指示部から解析情報が付加された第1言語の原文を取り込んだときは、第1言語の原文を形態素解析する際にその解析情報の分割位置と異なる位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前記翻訳辞書に存在するときは第2言語の訳語に置き換え訳語候補とするとともに存在しないときは第1言語の原語表記の未知語を訳語候補とした訳文を出力することを特徴とする。
本発明によれば、翻訳辞書から得た第2言語の文に含まれる訳語候補を予め定めた点数を基に正しい訳語である確からしさを検証し、その結果がある一定の基準に達しないときには第1言語の原文を解析し直し、再度翻訳し直した第2言語の語句についても確からしさを調べるので、第2言語の言葉としてあまり確からしくないものを訳語から排除することができる。これにより、原文の意味により近い訳文を生成することができる。
図1は本発明の実施の形態に係わる機械翻訳装置の機能ブロック図、図2は本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図である。
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。機械翻訳プログラム15はハードディスクドライブ(HDD)24に記憶するようにしてもよい。
次に、図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
以下の説明では、第1言語は中国語であり第2言語は日本語であり、中国語の原文を日本語の訳文に翻訳する場合について説明する。入力処理部26は、入力装置20から入力された第1言語の原文を取り込むものであり、入力処理部26から取り込まれた中国語の原文は翻訳辞書検索部27に入力される。
翻訳辞書検索部27は、取り込んだ第1言語の原文の形態素解析を行って原文を語句ごとに分割し、記憶装置25の翻訳辞書28または機械翻訳知識データベース29を参照し、分割した語句が翻訳辞書28に存在するときは第2言語の訳語に置き換え訳語候補とし、存在しないときは第1言語の原語表記の未知語を訳語候補とした訳文を出力するものである。翻訳辞書28には、第1言語の語句とそれに対応する第2言語の語句とが対となった原語訳語が記憶されている。第1言語の語句とそれに対応する第2言語の語句との対は、1対1及び1対複数の双方を含む。また、機械翻訳知識データベース29には、翻訳に必要な知識・規則及び第1言語の語句の分野情報並びにその分野情報における第2言語の訳語候補の点数が蓄積されている。また、翻訳に必要な知識・規則として、第2言語の構文規則等も蓄積されている。
翻訳辞書検索部27が行う処理には、原文を語句ごとに分割し、それを訳語に置き換えるまでの処理が含まれる。分割されたこれらの原語を訳語に置き換えるときに原語訳語間の翻訳辞書28が使用される。すなわち、この翻訳辞書28の中に原語と同じものを見出しとする情報があるかどうか検索し、同じものが発見されればその情報を使って翻訳し訳語の候補を得る。
このとき、必要があれば機械翻訳知識データベース29を使用する。機械翻訳知識データベース29には、語句の綴りだけでなく、意味、品詞、分野、共起など、様々な種類の膨大な量の情報が蓄積されており、特に、分野情報についてはその分野で使用される訳語の頻度に基づき訳語候補ごとに点数が蓄積されている。
翻訳辞書検索部27で得られた訳文は訳語候補検証部30に入力される。訳語候補検証部30は翻訳辞書検索部27で辞書引きして得た訳語は適切かどうかを検証するものであり、翻訳辞書検索部27で得られた訳文中の訳語候補に対して、機械翻訳知識データベース29の第1言語の語句の分野情報を参照してその訳語候補の分野情報の点数を求め、また、存在検索単語データベース31を参照して存在検索単語データベース31に存在する訳語候補の個数に応じて予め定められた存在個数の点数を求め、これらの合計点数を演算する。
存在検索単語データベース31には、第2言語の単語が記載された文書情報が集積されている。例えば、原語訳語の対となった翻訳辞書28とは異なる言語対の翻訳辞書、新聞記事や雑誌記事を集積したデータ、辞典、辞書、ブログ等、訳語の単語が多く蓄積されたデータなら何でもよい。語の意味や用法がわからなくてもよく、その綴りの単語が存在するかどうかを調べるためだけに使用するものである。存在検索単語データベース31に存在する各々の単語について、その個数に応じて予め点数を付けておく。例えば、単語の数がn個のときはn点あるいはn/10点というふうに予め単語の個数に応じて点数を付けておく。この点数は点数データ記憶部32に記憶されている。
訳語候補検証部30は訳語候補の存在個数の点数を求める際には、存在検索単語データベース31に存在する訳語候補の個数を調べ、点数データ記憶部32を参照し、その個数に応じた点数を求める。そして、分野情報の点数と存在個数の点数との合計点数を求める。訳語候補の合計点数が予め定めた点数以上のときは、その訳語候補は合格(適切)と判定し、予め定めた点数未満のときは不合格(不適切)と判定する。この判定結果は合否判定結果記憶部33に記憶される。そして、不合格の訳語候補があるときは訳文も不合格と判定する。一方、不合格の訳語候補がないときは、訳文は合格であると判定する。訳語候補検証部30で合格と判定されたときは、その訳文は出力処理部34を介して出力装置17に訳文として出力される。
訳語候補検証部30で不合格と判定されたときは、その訳文は再解析指示部35に入力される。再解析指示部35は、訳文を得るときに原文分を分割したときの分割位置及び分割した語句の訳語を解析情報として第1言語の原文に付加し、異なる解析情報が更新される限り、その解析情報を付加した第1言語の原文を翻訳辞書検索部27に出力して、翻訳辞書検索部27に再解析を指示するものである。
翻訳辞書検索部27は、再解析指示部35から再解析が指示され、再解析指示部35から解析情報が付加された第1言語の原文を取り込んだときは、第1言語の原文を形態素解析する際に、その解析情報の分割位置と異なる位置で原文を語句ごとに分割する。そして、翻訳辞書28または機械翻訳知識データベース29を参照して、分割した語句が翻訳辞書28に存在するときは、第2言語の訳語に置き換え訳語候補とする。一方、存在しないときは第1言語の原語表記の未知語を訳語候補とした訳文を出力する。
訳語候補検証部30は翻訳辞書検索部27で再度辞書引きして得た訳語は適切かどうかを検証する。そして、不合格の訳語候補があるときは、再解析指示部35は解析情報(分割位置及び分割した語句の訳語)を更新し、分割位置が異なるすべての態様まで(異なる解析情報が更新されなくなるまで)繰り返し翻訳辞書検索部27を起動する。つまり、合格とならない場合には、分割位置を変えたすべての態様について再解析する。
このように、訳語候補検証部30において、辞書引きして得た訳語は適切か、あるいは未知語になっていないか検証を行い、合格すれば出力処理部34へ至り訳文として出力される。一方、不合格となれば、現在の(合格にはならなかった)解析情報とともに翻訳辞書検索部27へ戻り、別の位置で分割または別の訳語候補を採用するように、分割位置を変えたすべての態様について最後までやり直す。このとき、語句の分割位置は同じでも、各語の訳語が別の語句になればよい。これは、翻訳辞書28には一つの言語に対して複数の訳語がある場合があるからである。
そして、出力処理部34は、訳語候補検証部30で合格と判断された訳文、または再解析指示部35による翻訳辞書検索部27への再解析の指示がなくなったときの訳文(分割位置を変えたすべての態様について再解析したが不合格の訳文)を出力装置17に出力する。
図3は、図1に示した訳語候補検証部30及び再解析指示部35の処理内容の実施例1を示すフローチャートである。訳語候補検証部30は、翻訳辞書検索部27から訳文を入力すると(S1)、訳文に含まれる訳語候補の総数Nをセットするとともに訳語候補変数nに1をセットする(S2)。そして、n(n=1)番目の訳語候補について機械翻訳知識データベース29の分野情報を参照し、分野情報の点数を取得し(S3)、存在検索単語データベース31を参照し存在個数の点数を取得する(S4)。そして、n(n=1)番目の訳語候補について分野情報の点数と存在個数の点数との合計点数を求め(S5)、n(n=1)番目の訳語候補の合計点数が予め定めた点数以上であるかどうかを判定して合格かどうかを判定する(S6)。
合格と判定されたときは、n(n=1)番目の訳語候補は合格であることを合否判定結果記憶部33に記憶する(S7)。一方、不合格と判定されたときは、n(n=1)番目の訳語候補は不合格であることを合否判定結果記憶部33に記憶し(S8)、その訳語候補の原文における分割位置及び分割した語句の訳語を解析情報として原文に付加する(S9)。
次に、訳語候補変数nに1を加算し(S10)、n(n=2)番目の訳語候補が訳文に含まれる訳語候補の総数Nより大きいかどうかを判定し(S11)、大きくないときは次のn(n=2)番目の訳語候補について、ステップS3〜ステップS9の処理を行う。ステップS11の判定で、n番目の訳語候補が訳文に含まれる訳語候補の総数Nより大きいと判定されたときは、訳文に含まれる訳語候補のすべてについて、ステップS3〜ステップS9の処理を完了したときであるので、訳文に含まれるすべての訳語候補が合格か否かを判定する(S12)。そして、合格と判定されたときは、訳語候補検証部30は出力処理部34を起動し(S13)、これにより、その訳文は出力処理部34を介して出力装置17に訳文として出力される。
一方、合格と判定されたときは、再解析指示部35は不合格と判定された訳文の原文に付加された解析情報が異なる解析情報に更新されているかどうかを判定し(S14)。解析情報が異なる解析情報に更新されているときは翻訳辞書検索部27を再起動し(S15)、新たな分割位置での解析を行う。解析情報が異なる解析情報に更新されていないときは、分割位置が異なるすべての態様について翻訳辞書検索部27が再起動されたことになるので、そのときの訳文(分割位置を変えたすべての態様について再解析したが不合格の訳文)を出力装置17に出力する。
以上の説明では、訳語候補検証部30は、入力された訳文に含まれる訳語の候補が適切かどうかについて点数を付けて検証し、これらを検証するとき、下記のルール(1)、(2)を適用した。
(1)翻訳前原語の分野情報から、その分野の単語がもつ傾向を調べ、訳語として適切かどうかの判断に利用する。例えば、役所の名前やある特定の学問分野で使われる言葉には、ある特徴をもつものが多いので、分野情報に応じて訳語に点数を付けておく。
(2)存在検索単語データベース31を検索し、この中で見つかったものの得点(点数)を上げる。
これに対して、同じ品詞が複数語連続して現れた場合(訳文において、同じ品詞の訳語候補同士が隣り合っている場合)は、各語だけでなく、それらを連結した語も必ず検証の対象にし、検索結果に重み付けをし、連結した語の検索結果の比重を高くするようにしてもよい。例えば、下記のルール(3−1)、(3−2)を適用するようにしてもよい。
(3−1)同じ品詞が複数語連続したとき、同じ品詞が複数語連続した連結語のうち最も長い連結語が存在検索単語データベース31に存在しなければ必ず不合格とする。
(3−2)同じ品詞が複数語連続したとき、存在検索単語データベース31を検索し、この中で訳語が見つかったときは点数を上げる。点数は点数データ記憶部32に予め記憶しておく。
図4は、図1に示した訳語候補検証部30及び再解析指示部35の処理内容の実施例2を示すフローチャートである。この実施例2は、図3に示した実施例1に対し、同じ品詞が複数語連続して現れた場合の処理(ステップS1’〜ステップS8’)を追加したものであり、ルール(3−1)を採用した場合を示している。図3と同一ステップには同一符号を付し重複する説明は省略する。
訳語候補検証部30は、翻訳辞書検索部27から訳文を入力すると(S1)、訳文に含まれる訳語候補の総数N及び訳語候補変数nに1をセットする(S2)。n(n=1)番目以降の訳語候補は同じ品詞の語が連続しているかどうかを判定する(S1’)。同じ品詞の語が連続しているときは、同じ品詞の語が連続する語数mを求め(S2’)、連続する同じ品詞の語を連結する(S3’)。そして、連結語は存在検索単語データベース31に存在するかどうかを判定し(S4’)、存在する場合には、その訳語候補は合格であることを合否判定結果記憶部33に記憶する(S5’)。そして、訳語候補変数nにmを加算し(S6’)、n(n=1+m)番目の訳語候補が訳文に含まれる訳語候補の総数Nより大きいかどうかを判定し(S7’)、大きくないときはステップS1’に戻る。ステップS1’の判定で、同じ品詞の語が連続していないと判定されたときは、訳語候補変数nに2を加算し(S7’)に進む。ステップS1’の判定で同じ品詞の語が連続していないときは、訳語候補変数nに1を加算し(S8’)、ステップS7’に進む。
このステップS1’〜ステップS8’の処理により、同じ品詞が複数語連続して現れた場合に、それらを連結した語も検証の対象にする。そのような例を例3、4に示す。
(例3)
Figure 0004845921
このとき、「画」、「本」、「館」、「画本」、「本館」、「画本館」をキーに存在検索単語データベース31を調べる。いま、「画本館」以外の「画」、「本」、「館」、「画本」、「本館」は存在検索単語データベース31に存在し、「画本館」は存在しないとすると、ルール(3−1)の場合には、最も多くの語が連結された「画本館」が存在しないため、結果的には不合格となる。また、ルール(3−1)の場合には、得点が0となり、図4のステップS5での合計点数が低く抑えられる。
(例4)
Figure 0004845921
このとき、「図書」、「館」、「図書館」をキーに存在検索単語データベース31を調べる。存在検索単語データベース31に、「図書」、「館」、「図書館」のすべてが存在しているとき、ルール(3−1)の場合には、最も多くの語が連結された「図書館」が存在するので合格となる。また、ルール(3−2)の場合には、「図書」、「館」、「図書館」のすべてが存在するので高得点となる。
訳語候補をキーに存在検索単語データベース31を調べるときに、多くの出典の文書に頻繁に出現するものは高い得点を与え、逆に原文と同じ分野の文書を多く調べても一度しか出現しなかったものには低い得点しか与えないなど、確からしさを数値で表す。そして、合格の組合せが複数得られた場合には点数を大きい方を選択するようにする。これにより、最終的にどれを選択すべきか判断する際の助けになる。逆に、全ての解析結果について検証しても一つも合格とならなかった場合には、たとえ不合格でも得点が最高のものを合格とし、これを採用することにしてもよい。
前述の(例1)の場合、翻訳辞書検索部27による形態素解析によって、「斯雷博」、「ターネイ」、「克」が得られた。訳語候補検証部30では、「斯雷博」、「ターネイ」、「克」を連結した「斯雷博ターネイ克」について存在検索単語データベース31を調べる。存在検索単語データベース31に「斯雷博ターネイ克」が存在しないとすると、「斯雷博」、「ターネイ」、「克」の分割情報と訳語情報とを解析情報として、翻訳辞書検索部27に形態素解析をやり直すように指示が出される。
いま、翻訳候補が合格とならない場合には中国語の漢字を表音文字として日本語の仮名に置き換えるという実装になっているとする。この場合、繰り返し翻訳辞書検索部27で解析を行って、いずれの訳語候補も存在検索単語データベース31から検索できないときには、最終的に中国語の漢字を表音文字として日本語の仮名に置き換えられる。
こうして再度、存在検索単語データベース31を調べたとき、もし、ここにテニスに関するニュース記事が登録されており、これに「スレボトニク」が含まれているとすると、「斯雷博特尼克」は人名の「カタリーナ・スレボトニク」であると判断され、高得点が与えられ、結果として正しく訳出されることになる。
以上の説明では、辞書引きして得られた訳語候補が意味的に正しいかどうかを検証する例を示したが、それに加えて、構文上も正しいかどうかを判定するようにしてもよい。図5は、図1に示した訳語候補検証部30及び再解析指示部35の処理内容の実施例3を示すフローチャートである。この実施例3は、図3に示した実施例1に対し、構文上も正しいかどうかを判定する処理(ステップS16、S17)を追加して設けたものである。図3と同一ステップには同一符号を付し重複する説明は省略する。
図5に示すように、訳語候補検証部30は、ステップS12の判定で訳語候補がすべて合格の場合には、構文上も正しいかどうかを判定する(S16)。構文上も正しいかどうかの判定は、訳語候補の品詞の配列を判定し、品詞の配列が構文上あり得ない訳文であるときは不合格とする。例えば、品詞として動詞が続くこと、あるいは連体修飾語の後に接続詞がくることなどは構文上正しくない。
そこで、文を合成した結果、構文上あり得ない訳が得られたときは、再解析指示部35は、その訳文について、訳語の品詞の配列を解析情報として第1言語の原文に付加し(S17)、その解析情報を付加した第1言語の原文を翻訳辞書検索部27に出力して再解析を指示する。翻訳辞書検索部27は、再解析指示部35から解析情報が付加された第1言語の原文を取り込んだときは、第1言語の原文を形態素解析する際に原語を一つずつ翻訳辞書28から辞書引きし、辞書引きした原語を連結して得られた連結語に対して翻訳辞書28または機械翻訳知識データベース29を参照して辞書引きとデータベース検索を行う。そして、連結語が翻訳辞書28に存在するときは第2言語の訳語に置き換えて訳語候補とし、存在しないときは第1言語の原語表記の未知語を訳語候補とした訳文を出力する。
このように、辞書引きした原語を一つずつ連結しながら再度辞書引きとデータベース検索とを行い、合成した訳が構文上許されるかどうかを検証することを繰り返す。こうすることで、翻訳そのものが構文エラーとなることを防ぐことができる。
以上の説明では、中日翻訳について説明したが、他の言語対の翻訳装置にも応用することができる。例えば、原語が表音文字であるハングル文字となる韓日翻訳の場合にも、本発明の実施の形態を適用できる。
図6は、図1に示した訳語候補検証部30及び再解析指示部35の処理内容の実施例4を示すフローチャートである。この実施例4は、図3に示した実施例1に対し、ステップS8、S9、S12、S14、S15に代えて、ステップS18〜S21を設け、表音文字に対して適用できるようにしたものである。図3と同一ステップには同一符号を付し重複する説明は省略する。
表音文字であるハングル文字の第1言語についても、ステップS1〜S5の処理を行い翻訳する。この場合、第1言語の原語表記の未知語の訳語候補はステップS6で不合格となる。不合格となった場合には、その訳語候補を日本語の仮名に置き換える(S18)。そして、存在検索データベース31に存在するかどうかを判定し(S19)、存在する場合は、その訳語候補を採用する(S20)。存在しない場合は仮名をそのまま採用する(S21)。
いま、ハングル文字の
Figure 0004845921
を翻訳する場合を考える。韓日翻訳辞書を引いても登録語が見つからなかったとき、ハングル文字は表音文字であるため機械的に日本語の仮名に置き換えることができる。そうして得た訳語候補は韓国語の発音をそのまま表現したものであり、日本語に同じ発音をもつ言葉が存在するとは限らない。そこで、存在検索単語データベース31を調べる。そしてそれが見つかれば、かなり高い確率で日本語にも存在すると言うことができる。
Figure 0004845921
を機械的に日本語の仮名に置き換えると「メルセデスベンツ」であり、もしデータベースに自動車に関する文書が登録されているとすれば、正しく車種の一つ「メルセデスベンツ」あると判断することができる。
本発明の実施の形態によれば、翻訳辞書検索部27で翻訳辞書28や機械翻訳知識データベース29を参照して第2言語の訳文を求め、訳語候補検証部30でその翻訳辞書28から得た第2言語の文に含まれる訳語候補を予め定めた点数を基に正しい訳語である確からしさを検証するので、第2言語の言葉としてあまり確からしくないものを訳語から排除することができる。訳語候補検証部30での検証の際には、存在検索単語データベース31に蓄積された情報を使用して、訳語候補間の優先度を決めるので、より確かな訳語を選択できる。また、訳語候補検証部30で検証した結果がある一定の基準に達しないときには第1言語の原文を解析し直し、再度翻訳し直した第2言語の語句についても確からしさを調べるので、原文の意味により近い訳文を生成することができる。
本発明の実施の形態に係わる機械翻訳装置の機能ブロック図。 本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図。 図1に示した訳語候補検証部及び再解析指示部の処理内容の実施例1を示すフローチャート。 図1に示した訳語候補検証部及び再解析指示部の処理内容の実施例2を示すフローチャート。 図1に示した訳語候補検証部及び再解析指示部の処理内容の実施例3を示すフローチャート。 図1に示した訳語候補検証部及び再解析指示部の処理内容の実施例4を示すフローチャート。
符号の説明
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…機械翻訳プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…入力処理部、27…翻訳辞書検索部、28…翻訳辞書、29…機械翻訳知識データベース、30…訳語候補検証部、31…存在検索単語データベース、32…点数データ記憶部、33…合否判定結果記憶部、34…出力処理部、35…再解析指示部

Claims (4)

  1. 機械翻訳プログラム、第1言語の語句とそれに対応する第2言語の語句とを対にしてデ
    ータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第1言語の語句の訳語候補の
    点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラ
    ムを演算実行する演算制御装置とを備えた機械翻訳装置において、
    前記記憶装置に予め記憶され第2言語の単語が記載された文書情報を集積した存在検索
    単語データベースと;
    入力装置から入力された第1言語の原文の形態素解析を行い、原文を語句ごとに分割し
    、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在するときは第2言語の訳語
    に置き換え訳語候補とし、存在しないときは第1言語の原語表記の未知語を訳語候補とし
    た訳文を出力する翻訳辞書検索部と;
    前記翻訳辞書検索部で得られた訳文中の訳語候補に対して、前記機械翻訳知識データベ
    ースを参照して前記訳語候補の点数を求め、前記存在検索単語データベースを参照して前
    記存在検索単語データベースに存在する訳語候補の個数に応じて予め定められた点数を求
    め、これら訳語候補の点数の合計点数が予め定めた点数以上のときは合格と判定し、予め
    定めた点数未満のときは不合格と判定する訳語候補検証部と;
    前記訳語候補検証部で不合格となった訳文について、原文の分割位置及び分割した語句
    の訳語を解析情報として第1言語の原文に付加し、既に付加した解析情報と異なる解析情
    報が更新される限りその解析情報を付加した第1言語の原文を前記翻訳辞書検索部に出力
    して前記翻訳辞書検索部に再解析を指示する再解析指示部と;
    前記訳語候補検証部で合格と判断された訳文または前記再解析指示部による前記翻訳辞
    書検索部への再解析の指示がないときの訳文を出力装置に出力する出力処理部とを備え;
    前記翻訳辞書検索部は、前記再解析指示部から解析情報が付加された第1言語の原文を
    取り込んだときは、第1言語の原文を形態素解析する際にその解析情報の分割位置と異な
    る位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前記翻訳辞
    書に存在するときは第2言語の訳語に置き換え訳語候補とするとともに存在しないときは
    第1言語の原語表記の未知語を訳語候補とした訳文を出力することを特徴とする機械翻訳
    装置。
  2. 前記訳語候補検証部は、前記翻訳辞書検索部で得られた訳語候補に対して、同じ品詞が
    複数語連続しているときは連続する語を連結した連結語が前記存在検索単語データベース
    に存在するか否かを判定し、存在するときは合格とし、存在しないときは不合格とするこ
    とを特徴とする請求項1記載の機械翻訳装置。
  3. 機械翻訳プログラム、第1言語の語句とそれに対応する第2言語の語句とを対にしてデ
    ータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第1言語の語句の訳語候補の
    点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラ
    ムを演算実行する演算制御装置とを備えたコンピュータに用いられ、前記記憶装置に予め
    記憶され第2言語の単語が記載された文書情報を集積した存在検索単語データベースを格
    納しておき、
    前記コンピュータに、入力装置から入力された第1言語の原文の形態素解析を行い、原
    文を語句ごとに分割し、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在する
    ときは第2言語の訳語に置き換え訳語候補とし、存在しないときは第1言語の原語表記の
    未知語を訳語候補とした訳文を出力する機能と;
    得られた訳文中の訳語候補に対して、前記機械翻訳知識データベースを参照して前記訳
    語候補の点数を求め、前記存在検索単語データベースを参照して前記存在検索単語データ
    ベースに存在する訳語候補の個数に応じて予め定められた点数を求め、これら訳語候補の
    点数の合計点数が予め定めた点数以上のときは合格と判定し、予め定めた点数未満のとき
    は不合格と判定する機能と、
    不合格となった訳文について、原文の分割位置及び分割した語句の訳語を解析情報とし
    て第1言語の原文に付加し、既に付加した解析情報と異なる解析情報が更新される限りそ
    の解析情報を付加した第1言語の原文再解析を指示する機能と;
    再解析が指示された第1言語の原文を形態素解析する際に付加された解析情報の分割位
    置と異なる位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前
    記翻訳辞書に存在するときは第2言語の訳語に置き換え訳語候補とするとともに存在しな
    いときは第1言語の原語表記の未知語を訳語候補とした訳文を出力する機能と;
    合格と判断された訳文または再解析の指示がないときの訳文を出力装置に出力する機能
    と;を実現させるための機械翻訳プログラム。
  4. 機械翻訳プログラム、第1言語の語句とそれに対応する第2言語の語句とを対にしてデ
    ータとして記録した翻訳辞書、翻訳に必要な知識・規則及び第1言語の語句の訳語候補の
    点数を蓄積した機械翻訳知識データベースを記憶した記憶装置と、前記機械翻訳プログラ
    ムを演算実行する演算制御装置とを備え、機械翻訳を行う機械翻訳方法において、
    前記記憶装置に予め記憶され第2言語の単語が記載された文書情報を集積した存在検索
    単語データベースを格納しておくステップと;
    入力装置から入力された第1言語の原文の形態素解析を行い、原文を語句ごとに分割し
    、前記翻訳辞書を参照し、分割した語句が前記翻訳辞書に存在するときは第2言語の訳語
    に置き換え訳語候補とし、存在しないときは第1言語の原語表記の未知語を訳語候補とし
    た訳文を出力するステップと;
    得られた訳文中の訳語候補に対して、前記機械翻訳知識データベースを参照して前記訳
    語候補の点数を求め、前記存在検索単語データベースを参照して前記存在検索単語データ
    ベースに存在する訳語候補の個数に応じて予め定められた点数を求め、これら訳語候補の
    点数の合計点数が予め定めた点数以上のときは合格と判定し、予め定めた点数未満のとき
    は不合格と判定するステップと;
    不合格となった訳文について、原文の分割位置及び分割した語句の訳語を解析情報とし
    て第1言語の原文に付加し、既に付加した解析情報と異なる解析情報が更新される限りそ
    の解析情報を付加した第1言語の原文再解析を指示するステップと;
    再解析が指示された第1言語の原文を形態素解析する際に付加された解析情報の分割位
    置と異なる位置で原文を語句ごとに分割し、前記翻訳辞書を参照して、分割した語句が前
    記翻訳辞書に存在するときは第2言語の訳語に置き換え訳語候補とするとともに存在しな
    いときは第1言語の原語表記の未知語を訳語候補とした訳文を出力するステップと;
    合格と判断された訳文または再解析の指示がないときの訳文を出力装置に出力するステ
    ップとを備えたことを特徴とする機械翻訳方法。
JP2008105609A 2008-04-15 2008-04-15 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 Expired - Fee Related JP4845921B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008105609A JP4845921B2 (ja) 2008-04-15 2008-04-15 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008105609A JP4845921B2 (ja) 2008-04-15 2008-04-15 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Publications (2)

Publication Number Publication Date
JP2009258887A JP2009258887A (ja) 2009-11-05
JP4845921B2 true JP4845921B2 (ja) 2011-12-28

Family

ID=41386240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008105609A Expired - Fee Related JP4845921B2 (ja) 2008-04-15 2008-04-15 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Country Status (1)

Country Link
JP (1) JP4845921B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101709693B1 (ko) * 2015-07-13 2017-02-27 주식회사 에버트란 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
KR101834436B1 (ko) * 2016-07-13 2018-03-05 김태완 텍스트 생성 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05135094A (ja) * 1991-11-12 1993-06-01 Ricoh Co Ltd 言語解析装置

Also Published As

Publication number Publication date
JP2009258887A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US7584093B2 (en) Method and system for generating spelling suggestions
US9262409B2 (en) Translation of a selected text fragment of a screen
US7630880B2 (en) Japanese virtual dictionary
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20080133444A1 (en) Web-based collocation error proofing
US20060241934A1 (en) Apparatus and method for translating Japanese into Chinese, and computer program product therefor
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP2002517039A (ja) 中国語テキストにおける単語分割
KR101841824B1 (ko) 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법
US20110046940A1 (en) Machine translation device, machine translation method, and program
US10120843B2 (en) Generation of parsable data for deep parsing
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4845921B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
US7983899B2 (en) Apparatus for and method of analyzing chinese
WO2008131509A1 (en) Systems and methods for improving translation systems
JP5185343B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3825645B2 (ja) 表現変換方法及び表現変換装置
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111011

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141021

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4845921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees