JP2007122509A

JP2007122509A - 語句配列の自然度判定装置、方法及びプログラム

Info

Publication number: JP2007122509A
Application number: JP2005315261A
Authority: JP
Inventors: Junichi Goishi; 順一五石
Original assignee: ROZETTA Corp
Current assignee: ROZETTA Corp
Priority date: 2005-10-28
Filing date: 2005-10-28
Publication date: 2007-05-17
Also published as: CN101297288A; US20090292525A1; WO2007049792A1; KR20080066965A; EP1949261A1; TW200805091A; CA2627321A1

Abstract

【課題】任意の語句配列について文章としての自然度を適正に判定する。
【解決手段】翻訳対象の原文全体が辞書に登録されていない場合、最長一致法により分解した原文の各語句毎に対訳を取得して原文全体に対応する対訳パターンを生成し、個々の対訳パターンを含むテキストをウェブで各々検索する(36〜44)。該当テキストが抽出されればヒット件数に基づいて選択した対訳パターンを対訳文候補として出力する(46)が、該当テキストが無ければ原文の一部の語句配列に対応する対訳パターンを生成し、個々の対訳パターンを含むテキストをウェブで各々検索し(59,60)、該当テキスト有りの対訳パターンを対訳候補として記憶する(66)ことを、対訳パターンの生成に用いる原文上の語句数を徐々に少なくしながら繰り返した後に、記憶した対訳候補から対訳文候補を生成し、個々の対訳文候補について語句の共起性を調査して対訳文候補を選択する(70,72)。
【選択図】図２

Description

本発明は語句配列の自然度判定装置、方法及びプログラムに係り、特に、インターネットに接続されたコンピュータによって実現される語句配列の自然度判定装置、該語句配列の自然度判定装置に適用可能な語句配列の自然度判定方法、及び、コンピュータを前記語句配列の自然度判定装置として機能させるための語句配列の自然度判定プログラムに関する。

コンピュータを利用して、或る自然言語（原言語）で記述された文章（原文）を、他の自然言語（目的言語）で記述された文章（対訳文）に翻訳する、所謂自動翻訳の実現はかなり以前より期待されており、自動翻訳に関する様々な改良技術も提案されている。

例えば自動翻訳における代表的な翻訳方式としては、原言語用例と目的言語用例のペアをコーパスに多数登録しておき、このコーパスから原文に最も類似した用例を検索し、最も類似した用例を翻訳に用いるＥＢＭＴ(Example Based Machine Translation)や、構文構造の基本単位である構成素境界パターンを単位としてコーパスから変換知識を学習、学習した変換知識を用いて翻訳を行うＴＤＭＴ(Transfer Driven Machine Translation)が知られているが、特許文献１には、このＥＢＭＴ，ＴＤＭＴによって入力データを各々翻訳し、入力データをＴＤＭＴにより翻訳する際の入力データと用例との類似性を示す構文スコアと、入力データをＥＢＭＴにより翻訳する際の入力データと用例との類似性を示すＤＰ距離を演算し、入力データの翻訳にＥＢＭＴ，ＴＤＭＴが適しているか否かを示す評価データと、構文スコア及びＤＰ距離を用いて入力データの翻訳に適した方式を選択するための選択器を生成する技術が開示されている。
特開２００３−２６３４３４号公報

しかしながら、既存の自動翻訳の技術で得られる対訳文は、対訳文自体に文法的な誤りがなく、単語単位での対訳に誤りがなかったとしても、目的言語の文章として不自然な文章となってしまうことが多々生じており、特許文献１に記載の技術を含め、既存の自動翻訳の技術では実用に耐え得る翻訳精度が得られていないのが実情である。これは、既存の自動翻訳装置には、自動翻訳によって得られた対訳文に対し、目的言語の文章としての自然さを判定・評価する機構が設けられていないことがその理由であると推察される。しかし、文章としての自然度は定量化が困難な感覚的な指標であり、文章として生成された任意の語句配列に対して文章としての自然度を判定可能な判定基準を明確化することも困難であるので、自動翻訳により対訳文として得られた任意の語句配列、或いは人間が文章として作成した任意の語句配列について、文章としての自然度を判定する技術は未だ確立されていない。

本発明は上記事実を考慮して成されたもので、任意の語句配列について文章としての自然度を適正に判定することが可能な語句配列の自然度判定装置、語句配列の自然度判定方法及び語句配列の自然度判定プログラムを得ることが目的である。

上記目的を達成するために請求項１記載の発明に係る語句配列の自然度判定装置は、インターネットに接続されたコンピュータによって実現される語句配列の自然度判定装置であって、検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段と、前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段と、を備えたことを特徴としている。

インターネットを介してアクセス可能なテキストは、まず量自体が非常に膨大で、様々な言語で記述された様々な内容のテキストが含まれており、中には文章としての自然さに欠けるテキストも含まれているものの、基本的には他者にアクセス・参照されることを前提として作成されているので、大部分のテキストは文章としての自然さを備えていると見なすことができる。また、長い期間が経過する間には個々の言語における文章としての自然さの基準自体も変化していくが、インターネットを介してアクセス可能なテキストは更新・削除・追加が日々行われていると共に、更新・追加されるテキストには、対応する言語におけるその時点での文章としての自然さの基準が総じて反映されていると見なすことができる。本願発明者は、インターネットを介してアクセス可能なテキストが総体として上記の特性を備えていることに着目し、インターネットを介してアクセス可能なテキストの総体を基準とすることで、任意の言語配列について文章としての自然度を判定可能であることに想到し、本発明を成すに至った。

上記に基づき請求項１記載の発明に係る語句配列の自然度判定装置は、インターネットに接続されたコンピュータによって実現され、検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段を備えている。そして、請求項１記載の発明に係る判定手段は、検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して検索を行わせ、検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、判定対象の語句配列について文章としての自然度を判定する。

なお、判定対象の語句配列は人間が作成した文章であってもよいし、後述のように、原言語の原文を構成する各語句に対応する目的言語の対訳語句を組み合わせて自動的に生成した対訳語句の配列であってもよく、文章の一部分に相当する語句配列であってもよい。また、検索手段に対し検索対象として指定する語句配列は、判定対象の語句配列の全体であってもよいし、判定対象の語句配列を複数の部分に分け、各々の部分を含むテキストを順次検索するようにしてもよい。また、判定手段による自然度の判定は、具体的には、検索手段による検索によって該当するテキストが抽出された場合は、該当するテキストが抽出されなかった場合よりも「自然度が高い」と判定し、検索手段による検索によって該当するテキストが抽出された場合は、抽出されたテキストの数が多くなるに従って「より自然度が高い」と判定することができる。

このように、請求項１記載の発明では、判定対象の語句配列（の全部又は一部）がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、当該検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、判定対象の語句配列について文章としての自然度を判定するので、任意の語句配列について文章としての自然度を適正に判定することが可能となる。また、任意の言語における文章としての自然度の基準自体の変化すると、インターネットを介してアクセス可能なテキストのうち前記任意の言語で記述されたテキストの総体が表す前記任意の言語における文章としての自然度の基準も上記変化に追随して変化するので、検索手段による検索時に参照されるテキストを記憶手段に予め記憶させておく場合と比較して、任意の言語における文章としての自然度の基準自体の変化を検知し、検知した変化に応じて記憶手段に記憶しているテキストを更新・削除・追加する等のメインテナンス作業も不要となる。

なお、請求項１記載の発明において、判定手段は、例えば請求項２に記載したように、検索手段に対し判定対象の語句配列全体を検索対象として指定して検索を行わせ、当該検索で該当するテキストが抽出されなかった場合に、判定対象の語句配列から判定対象の語句配列全体よりも短い語句部分配列を検索対象として抽出し、検索手段に対し抽出した語句部分配列を検索対象として指定して検索を行わせることを、検索対象として抽出する語句部分配列の長さを徐々に短くしながら繰り返し、検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の語句部分配列の長さに基づいて、判定対象の語句配列について文章としての自然度を判定するように構成することが好ましい。

インターネットを介してアクセス可能なテキストの中に判定対象の語句配列全体を含むテキストが存在していない場合にも、判定対象の語句配列の一部（語句部分配列）を含むテキストは存在している可能性があるが、この語句部分配列の検索を行う場合、該当するテキストが抽出されたときの検索対象の語句部分配列の長さも、対応する判定対象の語句配列についての文章としての自然度と相関があり、該当するテキストが抽出されたときの検索対象の語句部分配列の長さが長くなるに従って「より自然度が高い」とみなすことができる。これに基づき請求項２記載の発明では、判定対象の語句配列全体を検索対象とする検索で該当するテキストが抽出されなかった場合に、判定対象の語句配列から検索対象として抽出する語句部分配列の長さを徐々に短くしながら、抽出した語句部分配列を検索対象とする検索を繰り返し、検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の語句部分配列の長さに基づいて、判定対象の語句配列について文章としての自然度を判定するので、任意の語句配列について文章としての自然度をより適正に判定することができる。

また、請求項１記載の発明において、原言語の原文から目的言語の文章としての自然度が高い対訳文を得ることが目的である場合には、例えば請求項３に記載したように、原言語の原文を構成する各語句について目的言語の対訳語句を各々取得し、判定対象の語句配列として、各語句毎に取得した対訳語句の組み合わせに相当する、目的言語の対訳語句の配列を複数生成する生成手段を設け、判定手段は、検索手段に対し、生成手段によって生成された複数の対訳語句の配列を検索対象として各々指定して検索を行わせ、個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択するように構成することが好ましい。

請求項３記載の発明では、原文を構成する各語句毎に取得した対訳語句の組み合わせに相当する目的言語の対訳語句の配列が生成手段によって複数生成される。請求項３記載の発明において、この複数の対訳語句の配列は、原言語の原文に対応する目的言語の対訳文の候補となり、判定手段は、生成手段によって生成された複数の対訳語句の配列を検索対象として各々指定して検索を行わせ、個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択する。なお判定手段は、目的言語の文章としての自然度が上位の対訳語句の配列として、例えば検索手段による検索によって抽出されたテキストの数が最大の単一の対訳語句の配列を選択するようにしてもよいし、このテキストの最大抽出数を基準とし、検索によって抽出されたテキストの数の割合が所定％以上の対訳語句の配列を選択するようにしてもよい。

このように、請求項３記載の発明では、原文から生成した複数の対訳語句の配列（対訳文の複数の候補）について、インターネットを介してアクセス可能なテキストの中に存在しているか否かを各々検索するので、個々の対訳語句の配列について文章としての自然度を各々適正に判定するための指標（個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数）を得ることができ、この指標に基づいて複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択することで、複数の対訳語句の配列（対訳文の複数の候補）の中から、目的言語の文章としての自然度が高い対訳語句の配列、すなわち原文の対訳文としてより適切な対訳文（に相当する対訳語句の配列）を選択できる。

また、請求項３記載の発明において、判定手段は、例えば請求項４に記載したように、検索手段に対し複数の対訳語句の配列全体を検索対象として指定して検索を行わせ、当該検索で何れも該当するテキストが抽出されなかった場合に、原言語の原文を構成する各語句のうち原文上で連続する所定数の語句の対訳語句の組み合わせに相当する、複数の対訳語句の配列全体よりも短い対訳語句の部分配列を生成手段によって複数生成させ、検索手段に対し生成手段によって生成された複数の対訳語句の部分配列を検索対象として各々指定して検索を行わせることを、対訳語句の部分配列の生成に用いる原文上の語句の数を徐々に少なくしながら繰り返し、検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の対訳語句の部分配列の長さに基づいて、複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択するように構成することが好ましい。これにより、先に説明した請求項２記載の発明と同様に、個々の対訳語句の配列全体を含むテキストが、インターネットを介してアクセス可能なテキストの中に何れも存在していない場合にも、原文の対訳文としてより適切な対訳文（に相当する対訳語句の配列）を選択できる。

更に、請求項４記載の発明において、判定手段は、より詳しくは、例えば請求項５に記載したように、検索手段による検索によって該当するテキストが抽出される毎に、当該検索に用いた対訳語句の部分配列を記憶手段に記憶させると共に、記憶手段に記憶させた対訳語句の部分配列に対応する原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外し、対訳語句の部分配列の生成に使用可能な語句が原文上で連続していない状態となった場合に、記憶手段に記憶させた対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句を含むテキストがインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索手段によって検索させ、全ての対訳語句を含むテキストの有無、検索によって抽出された全ての対訳語句を含むテキストの数に基づいて、記憶手段に記憶させた対訳語句の部分配列の各組み合わせの中から目的言語の文章としての自然度が上位の対訳語句の部分配列の組み合わせを選択するように構成することが好ましい。

上記のように、検索手段による検索によって該当するテキストが抽出される毎に、対訳語句の部分配列に対応する原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外することで、検索手段による検索結果（対応する対訳語句の部分配列がインターネットを介してアクセス可能なテキストの中に存在しているか否か）に基づいて、原文の語句配列が、より確からしい対訳文が得られると推測される分割パターンで分割される（記憶手段には上記分割パターンによる分割後の原文上の個々の語句配列に対応する対訳語句の部分配列が記憶される）。

また請求項５記載の発明では、対訳語句の部分配列の生成に使用可能な語句が原文上で連続していない状態となった場合に、記憶手段に記憶させた対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句を含むテキストがインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索手段によって検索させるので、当該検索結果に基づき、対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句が同一のテキストに出現する可能性（共起性という）を判断することが可能となる。そして、全ての対訳語句を含むテキストの有無、検索によって抽出された全ての対訳語句を含むテキストの数に基づいて、記憶手段に記憶させた対訳語句の部分配列の各組み合わせの中から目的言語の文章としての自然度が上位の対訳語句の部分配列の組み合わせを選択するので、対訳語句の部分配列の各組み合わせにおける対訳語句の共起性に基づいて、原文の対訳文としてより適切な対訳文（に相当する対訳語句の部分配列の組み合わせ）を選択できる。

請求項６記載の発明に係る語句配列の自然度判定方法は、インターネットに接続されたコンピュータによって実現される語句配列の自然度判定方法であって、複数の語句が配列されて成る判定対象の語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、前記検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定することを特徴としているので、請求項１記載の発明と同様に、任意の語句配列について文章としての自然度を適正に判定することが可能となる。

請求項７記載の発明に係る語句配列の自然度判定プログラムは、インターネットに接続されたコンピュータを語句配列の自然度判定装置として機能させるための語句配列の自然度判定プログラムであって、前記コンピュータを、検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段、及び、前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段として機能させることを特徴としている。

請求項７記載の発明に係る語句配列の自然度判定プログラムは、インターネットに接続されたコンピュータを、上記の検索手段及び判定手段として機能させるためのプログラムであるので、コンピュータが請求項７記載の発明に係る語句配列の自然度判定プログラムを実行することで、コンピュータが請求項１に記載の語句配列の自然度判定装置として機能することになり、請求項１記載の発明と同様に、任意の語句配列について文章としての自然度を適正に判定することが可能となる。

以上説明したように本発明は、複数の語句が配列されて成る判定対象の語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、該検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、判定対象の語句配列について文章としての自然度を判定するようにしたので、任意の語句配列について文章としての自然度を適正に判定することが可能となる、という優れた効果を有する。

以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図１には本実施形態に係るコンピュータ・システム１０が示されている。コンピュータ・システム１０は、多数台のウェブサーバ１２が接続されて成るインターネット１４に、多数台のクライアント端末１６が各々接続されて構成されている。

インターネット１４に接続された個々のクライアント端末１６は、例えばパーソナル・コンピュータ（ＰＣ）等から成り、ＣＰＵ１６Ａ、ＲＡＭ等から成るメモリ１６Ｂ、ＯＳ(Operating System)やブラウザ等のプログラムがインストールされたハードディスクドライブ（ＨＤＤ）１６Ｃ、ネットワークインタフェース（Ｉ／Ｆ）部１６Ｄを備え、ネットワークＩ／Ｆ部１６Ｄを介してインターネット１４に接続されている。またクライアント端末１６には、ディスプレイ等の表示手段、マウス・キーボード等の入力手段（何れも図示省略）が各々接続されている。

また、インターネット１４に接続されたクライアント端末１６の中には、本発明に係る語句配列の自然度判定装置として機能するクライアント端末１６が存在しており、当該クライアント端末１６のＨＤＤ１６Ｃには、ＣＰＵ１６Ａが後述する対訳判断処理を行うための対訳判断プログラムが予めインストールされ、対訳辞書データベース（ＤＢ）も記憶されている。なお、上記の対訳判断プログラムは請求項７に記載の語句配列の自然度判定プログラムに対応している。また、対訳辞書ＤＢには、原言語で記述された語句（単語、複数単語から成る文節や連語等）のテキストデータが、目的言語で記述された対訳のテキストデータと対応付けられて多数登録されている。

一方、個々のウェブサーバ１２は、ＣＰＵ１２Ａ、ＲＡＭ等から成るメモリ１２Ｂ、ＯＳ等のプログラムがインストールされたＨＤＤ１２Ｃ、ネットワークインタフェース（Ｉ／Ｆ）部１２Ｄを備えており、ネットワークＩ／Ｆ部１２Ｄを介してインターネット１４に接続されている。各種のウェブサーバ１２のうち、インターネット１４を通じてテキストや画像、音楽等の任意のウェブコンテンツを提供するウェブサーバ１２（ウェブコンテンツ提供サーバ）のＨＤＤ１２Ｃには、テキスト等のウェブコンテンツが記憶されており、インターネット１４を介して任意のコンピュータ（任意のクライアント端末１６、或いは任意のウェブサーバ１２）から任意のウェブコンテンツの配信が要求される毎に、要求されたウェブコンテンツを要求元のコンピュータへ配信するコンテンツ配信処理を行うためのコンテンツ配信プログラムもインストールされている。

また、ウェブサーバ１２の中には、インターネットを介してアクセス可能な膨大なテキスト（ウェブ文書）の中に指定されたキーワードを含むテキストが存在しているか否かを検索して検索結果を提示する検索サービスを提供するウェブサーバ１２（検索サービス提供サーバ）が存在しており、検索サービス提供サーバとして機能するウェブサーバ１２のＨＤＤ１２Ｃには検索用データベース（ＤＢ）が記憶されると共に、検索サービス提供プログラムが予めインストールされている。検索サービス提供サーバとして機能するウェブサーバ１２は、ＣＰＵ１２Ａが検索サービス提供プログラムを実行することで、ウェブ文書のリンクを辿って多数のウェブ文書を順次閲覧し、未収集のウェブ文書や更新されたウェブ文書を発見する毎に、発見したウェブ文書の内容を検索用ＤＢへ保存したり、検索用ＤＢに既に保存されている情報の更新を行うと共に、キーワードが指定されて検索が要求されると、指定されたキーワードで検索用ＤＢを検索して結果を出力する検索サービス提供処理を行う。

次に本実施形態の作用を説明する。本実施形態において、原言語で記述された原文に対応する目的言語の対訳文を知りたい場合、ユーザは、クライアント端末１６に対して翻訳対象の原文及び目的言語を指定する操作を行う。なお、翻訳対象の原文は、クライアント端末１６にテキストデータとして読み込まれているテキストであればよく、例えばユーザがキーボードを介して入力したテキスト、ワープロ・ソフトによって既に作成されてＨＤＤ１６Ｃに記憶されているテキスト、インターネット１４を介してアクセス可能なテキストのうちブラウザを介して閲覧中のウェブ文書内のテキスト、文字原稿をスキャナによって読み取りＯＣＲ（Optical Character Recognition：光学的手法による文字認識）処理を経て得られたテキスト等の何れかを適用することができる。また、翻訳対象の原文は必ずしも文章に限られるものではなく、複数単語から成る文節や連語等であってもよい。

上記のように翻訳対象の原文が指定されると、クライアント端末１６のＣＰＵ１６Ａによって対訳判断プログラムが実行されることで、図２に示す対訳判断処理が行われる。なお、この対訳判断処理は請求項６に記載の語句配列の自然度判定方法が適用された処理であり、この処理を行うことでクライアント端末１６は本発明に係る語句配列の自然度判定装置として機能する。

本実施形態に係る対訳判断処理では、まずステップ３０において、翻訳対象として指定された原文全体が対訳辞書ＤＢに登録されているか否かを検索し、次のステップ３２では、ステップ３０の検索で対訳辞書ＤＢから原文全体が発見されたか否か判定する。ステップ３２の判定が肯定された場合はステップ３４へ移行し、ステップ３０の検索で発見された原文全体と対応付けて対訳辞書ＤＢに登録されている対訳（文）を対訳辞書ＤＢから読み出し、読み出した対訳（文）を原文に対応する対訳文候補として出力し（例えばクライアント端末１６のディスプレイ等に表示させ）、対訳判断処理を終了する。なお、原文全体と対応付けて対訳辞書ＤＢに対訳（文）が複数登録されている場合には、後述するウェブ検索と同様に、検索サービス提供サーバが提供する検索サービスを利用して、個々の対訳（文）を含むテキストを検索し、該当するテキストが存在しかつヒット件数の比率（後述）が閾値以上の対訳（文）を対訳文候補として出力するようにすればよい。

また、ステップ３０の検索で対訳辞書ＤＢから原文全体が発見されなかった場合には、ステップ３２の判定が否定されてステップ３６へ移行し、原文に対して最長一致法を適用し、対訳辞書ＤＢを参照しながら複数の語句（又は語句配列）に原文を分解する。この原文の分解は、後述するステップ４８〜ステップ６８の処理におけるウェブ検索に代えて対訳辞書ＤＢの検索を適用し、原文から所定長さ（構成語句数が所定値）の部分語句配列を抽出し、抽出した部分語句配列が対訳辞書ＤＢに登録されているか否かを検索し、対訳辞書ＤＢに登録されていた場合は当該部分語句配列を分割対象として記憶すると共に、当該部分語句配列を構成する各語句を以降の部分語句配列の抽出対象から除外することを、部分語句配列の長さを徐々に短くしながら（構成語句数を１ずつデクリメントしながら）、部分語句配列として抽出可能な語句が原文上で連続していない状態となる迄繰り返すことにより実現できる。なお、ステップ３６で最長一致法によって原文から分解された語句又は語句配列を以下では単に「語句」と称し、これらの語句の総数（分解語句数）を以下では"ａ"とする。

ステップ３８では、ステップ３６で原文から分解された個々の語句毎に全ての対訳を対訳辞書ＤＢから各々取得し、取得した個々の語句の対訳をＨＤＤ１６Ｃに記憶させる。次のステップ４０では、ステップ３８で取得した各語句毎の対訳の組み合わせパターンを生成する。これにより、例えば分解語句数をａ、個々の語句毎の対訳の数をｎ_１,ｎ_２,…,ｎ_ａとすると、ｎ_１×ｎ_２×…×ｎ_ａ個の対訳の組み合わせパターンが生成される。なお、ステップ４０は請求項３に記載の生成手段に対応している。

次のステップ４２では、検索サービス提供サーバが提供する検索サービスを利用し、インターネット１４を介してアクセス可能なテキストの中に、ステップ４０で生成した個々の対訳組み合わせパターンを含むテキストが存在しているか否かを検索するウェブ検索を順次行う。具体的には、検索サービス提供サーバが運営する検索サービス提供用のウェブサイトにアクセスし、検索のキーワードとして特定の対訳組み合わせパターンを指定（特定の対訳組み合わせパターンを構成する個々の対訳語句が、特定の対訳組み合わせパターンと同一の順序で連続して出現するテキストのみが検索されるように検索条件を指定）して検索の実行を指示し、検索サービス提供サーバから送信された検索結果（指定したキーワードを含むテキストのヒット件数）をＨＤＤ１６Ｃに記憶させることを、先に生成した全ての対訳組み合わせパターンについて順次行う。

なお、ステップ４２は本発明に係る検索手段に対応しており、請求項２に記載の判定手段の「検索手段に対し判定対象の語句配列全体を検索対象として指定して検索を行わせ」るステップ、及び、請求項４に記載の判定手段の「検索手段に対し複数の対訳語句の配列全体を検索対象として指定して検索を行わせ」るステップにも対応している。

ステップ４４ではＨＤＤ１６Ｃに記憶させた検索結果を参照し、ステップ４２のウェブ検索により該当するテキストが抽出された（ヒット件数が１件以上の）対訳組み合わせパターンが存在しているか否か判定する。この判定が肯定された場合はステップ４６へ移行し、まず、ウェブ検索で該当するテキストが抽出された対訳組み合わせパターンの数を認識する。認識した数が１の場合には、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンを、例えばクライアント端末１６のディスプレイ等に表示させる等により原文に対応する対訳文候補として出力し、対訳判断処理を終了する。また、ウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが複数存在している場合には、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンを判断し、当該対訳組み合わせパターンにおけるテキストのヒット件数を基準（100％）として他の対訳組み合わせパターンにおけるテキストのヒット件数の比率を演算し、ヒット件数の比率が閾値以上の対訳組み合わせパターンを、原文に対応する対訳文候補として、クライアント端末１６のディスプレイ等に表示させる等により出力し、対訳判断処理を終了する。

これにより、ステップ４０で生成された原文全体に対応する複数の対訳組み合わせパターンのうち、目的言語の文章としての自然度が最大又は上位の対訳組み合わせパターンが原文に対応する対訳文候補として出力されることになる。なお、ステップ４４，４６は本発明に係る判定手段に対応している。

上述したステップ３６〜ステップ４６の処理について、実例を挙げて更に説明する。例えば翻訳対象の原文として和文の「栄養失調」が、目的言語として英語が指定され、翻訳対象の原文全体(「栄養失調」)が対訳辞書ＤＢに登録されていなかった場合、ステップ３２の判定が否定されると共に、ステップ３６で原文が「栄養」と「失調」の各語句に分解され（分解語句数ａ＝２）、ステップ３８で各語句毎に対訳辞書ＤＢから対訳が取得される。ここで、「栄養」の対訳として"dietary","alimentary","nutritional","nutrition","trophic"の５個の対訳が取得され、「失調」の対訳として"deficiency","disorder","disturbance","disease"の４個の対訳が取得された場合、ステップ４０では、対訳組み合わせパターンとしてｎ_１×ｎ_２＝５×４＝２０個の対訳の組み合わせパターンが生成される（次の表１を参照）

そして、ステップ４２のウェブ検索により、一例として次の表２に示すような検索結果が得られた場合（なお、表２では対訳の組み合わせパターンをヒット件数の降順に示している）、ヒット件数最大の対訳組み合わせパターンが"nutritional deficiency "で、ヒット件数が79600件であるので、ヒット件数の比率は"nutrition disease"が86％、"dietary deficiency"が38％となり、対訳文候補として出力するヒット件数の比率の閾値が例えば70％であるとすると、"nutritional deficiency "及び"nutrition disease"が原文「栄養失調」の対訳文候補として出力される。なお、対訳文候補として出力するヒット件数の比率の閾値が100％であれば、常に単一の対訳組み合わせパターン（この場合は"nutritional deficiency"）のみが対訳文候補として出力される。

なお、ステップ４０で生成する対訳組み合わせパターンは、表１に示すように原文から分解された各語句の対訳を羅列したパターン（例えば原文＝(Ａ,Ｂ)であり（但しＡ,Ｂは各々語句）、語句Ａの対訳を[Ａ]、語句Ｂの対訳を[Ｂ]としたときに、[Ａ][Ｂ]と羅列したパターン）に限られるものではなく、例えば目的言語が英語の場合における[Ｂ]of[Ａ]のように、他のパターンも生成してもよいことは言うまでもない（後述するステップ６０で生成する対訳組み合わせパターンの生成についても同様）。表１，２を用いて説明した例において、パターン[Ａ][Ｂ]に加えてパターン[Ｂ]of[Ａ]も用いた場合に生成される対訳組み合わせパターン及びウェブ検索結果の一例を次の表３に示す。表３に示すように、この例ではパターンの種類数ｐ＝２となるので、ｎ_１×ｎ_２×ｐ＝５×４×２＝４０個の対訳組み合わせパターンが生成され、個々の対訳組み合わせパターンについてウェブ検索が各々行われることになる。

なお、表３に示す例では、ヒット数の比率が上位の対訳組み合わせパターンが表２に示す結果と同一であるので、対訳文候補として出力するヒット件数の比率の閾値が70％であれば、表２の例と同様に原文「栄養失調」の対訳文候補として"nutritional deficiency "及び"nutrition disease"が出力されることになるが、別の原文であればパターン[Ｂ]of[Ａ]に対応する対訳組み合わせパターンが対訳文候補として出力される可能性があり、より適正な対訳文候補が出力される確率が高くなる。

ところで、表１〜表３を用いて説明した例では、説明を簡単にするために翻訳対象の原文として少数の語句から成る原文が指定された場合を説明したが、実際には翻訳対象の原文として文章が指定されることが多く、ステップ４０で生成した個々の対訳組み合わせパターンの何れかを含むテキストが全くヒットしないことも多々生ずる。この場合はステップ４４の判定が否定されてステップ４８へ移行し、ステップ４８〜ステップ７２で原文の一部の語句配列に対応する対訳組み合わせパターンを対象としてウェブ検索を行うことを繰り返して対訳文候補を選択・出力する処理を行う。

なお、ステップ４４の判定が否定される場合は、請求項２に記載の「判定対象の語句配列全体を検索対象とする検索で該当するテキストが抽出されなかった場合」、及び、請求項４に記載の「複数の対訳語句の配列全体を検索対象とする検索で何れも該当するテキストが抽出されなかった場合」に相当している。また、ステップ４８〜ステップ７２は請求項２に記載の判定手段に対応しており、ステップ４８〜ステップ７２のうちステップ５９，６０を除く各ステップは請求項３〜請求項５に記載の判定手段にも対応している。

また、以下のステップ４８〜ステップ７２の説明では、先の最長一致法に基づく分解により15個の語句に分解される原文（分解語句数ａ＝15の原文）が検索対象として指定され、原文を構成する15個の語句に対応する15個の対訳語句から成る対訳語句の配列(ｏ,ｐ,ｑ,ｒ,ｓ,ｔ,ｕ,ｖ,ｗ,ｘ,ｙ,ｚ,ａ,ｂ,ｃ)から対訳文候補を求める場合を例に説明する。但し、上記配列を構成する対訳語句ｏ,ｐ,ｑ,ｒ,ｓ,ｔ,ｕ,ｖ,ｗ,ｘ,ｙ,ｚ,ａ,ｂ,ｃは、それぞれ対訳数ｎ_ｏ,ｎ_ｐ,ｎ_ｑ,ｎ_ｒ,ｎ_ｓ,ｎ_ｔ,ｎ_ｕ,ｎ_ｖ,ｎ_ｗ,ｎ_ｘ,ｎ_ｙ,ｎ_ｚ,ｎ_ａ,ｎ_ｂ,ｎ_ｃの対訳語句全体を表している。

ステップ４８では、分解語句数ａから１を減算した値（この例では"14"）を変数ｉに代入することで変数ｉを初期設定する。なお、この変数ｉは後述するウェブ検索を行う語句配列の長さを表している。次のステップ５０では変数ｉの値が１か否か判定する。判定が否定された場合はステップ５２へ移行し、変数ｊに１を代入する。なお、この変数ｊは後述するウェブ検索を行う語句配列の先頭位置を表している。

ステップ５４では、変数ｊに変数ｉを加算し更に１を減算した値が分解語句数ａよりも大きいか否か判定する。このとき上記値は15であるので、ステップ５４の判定が否定されてステップ５８へ移行し、原文を構成するａ個の語句のうちのｊ番目の語句〜(ｊ＋ｉ−１)番目の語句は、対応する対訳語句が後述のウェブ検索で全て未ヒットか否か判定する。この場合はウェブ検索が未実行であるので、判定が肯定されてステップ５９へ移行し、原文中のｊ番目〜(ｊ＋ｉ−１)番目の語句に対応する対訳語句の組み合わせパターン（対訳組み合わせパターン）を生成する。なお、ステップ５９も請求項３に記載の生成手段に対応しており、請求項４に記載の判定手段の「対訳語句の部分配列を生成手段によって複数生成させ」るステップにも対応している。また、ステップ５９で生成される対訳組み合わせパターンは、請求項４に記載の「原言語の原文を構成する各語句のうち原文上で連続する所定数の語句の対訳語句の組み合わせに相当する、複数の対訳語句の配列全体よりも短い対訳語句の部分配列」に対応していると共に、ステップ５９で生成される対訳組み合わせパターンは、先のステップ４０で生成される対訳組み合わせパターンの一部であるので、請求項２に記載の「語句部分配列」にも対応している。

次のステップ６０では、検索サービス提供サーバが提供する検索サービスを利用し、インターネット１４を介してアクセス可能なテキストの中に、ステップ５９で生成した個々の対訳組み合わせパターンを含むテキスト（検索対象の対訳組み合わせパターンを構成する個々の対訳語句が、検索対象の対訳組み合わせパターンと同一の順序で連続して出現するテキスト）が存在しているか否かを順次検索するウェブ検索を行う。この時点では変数ｊ＝１、(ｊ＋ｉ−１)＝14であるので、ステップ５９では、以下に区切り記号"|"で囲んで示す対訳語句ｏ〜ｂの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｏ×ｎ_ｐ×…×ｎ_ｂ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索されることになる。
|ｏｐｑｒｓｔｕｖｗｘｙｚａｂ|ｃ

次のステップ６２では、ステップ６０のウェブ検索によって該当するテキストが抽出された（ヒット件数が１件以上の）対訳組み合わせパターンが出現したか否か判定する。判定が否定された場合はステップ６４へ移行し、変数ｊを１だけインクリメントしてステップ５４に戻る。この時点で変数ｊ＝２、(ｊ＋ｉ−１)＝15であるので、ステップ５４の判定が再度否定されると共にステップ５８の判定が再度肯定されてステップ５９へ移行し、以下に示すように、前回に対して１語句だけ後にずれた位置から前回と同じ長さの対訳語句ｐ〜ｃの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｐ×ｎ_ｐ×…×ｎ_ｃ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
ｏ|ｐｑｒｓｔｕｖｗｘｙｚａｂｃ|

このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ６２の判定が否定された場合には、ステップ６４で更に変数ｊが１だけインクリメントされてステップ５４に戻る。この時点で変数ｊ＝３、(ｊ＋ｉ−１)＝16であるので、ステップ５４の判定が肯定されてステップ５６へ移行し、変数ｉを１だけデクリメントして（ｉ＝13となる）ステップ５０に戻る。そしてステップ５０の判定を経てステップ５２で変数ｊが１に戻される。この時点で変数ｊ＝１、(ｊ＋ｉ−１)＝13であり、ステップ５４，５８の判定を経て、ステップ５９で以下に示す対訳語句ｏ〜ａの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｏ×ｎ_ｐ×…×ｎ_ａ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
|ｏｐｑｒｓｔｕｖｗｘｙｚａ|ｂｃ

このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ６２の判定が否定された場合には、ステップ６４で更に変数ｊが１だけインクリメントされてステップ５４に戻る。この時点で変数ｊ＝２、(ｊ＋ｉ−１)＝14であるので、ステップ５４、５８の判定を経て、ステップ５９で以下に示すように、前回に対して１語句だけ後にずれた位置から前回と同じ長さの対訳語句ｐ〜ｂの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｐ×ｎ_ｐ×…×ｎ_ｂ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
ｏ|ｐｑｒｓｔｕｖｗｘｙｚａｂ|ｃ

このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ６２の判定が否定された場合には、ステップ６４で更に変数ｊが１だけインクリメントされてステップ５４に戻る。この時点で変数ｊ＝３、(ｊ＋ｉ−１)＝15であるので、ステップ５４、５８の判定を経て、ステップ５９で以下に示すように、前回に対して１語句だけ後にずれた位置から前回と同じ長さの対訳語句ｑ〜ｃの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｑ×ｎ_ｒ×…×ｎ_ｃ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
ｏｐ|ｑｒｓｔｕｖｗｘｙｚａｂｃ|

このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ６２の判定が否定された場合には、ステップ６４で更に変数ｊが１だけインクリメントされてステップ５４に戻る。この時点で変数ｊ＝４、(ｊ＋ｉ−１)＝16であるので、ステップ５４の判定が肯定されてステップ５６へ移行し、変数ｉを１だけデクリメントして（ｉ＝12となる）ステップ５０に戻る。そしてステップ５０の判定を経てステップ５２で変数ｊが１に戻される。この時点で変数ｊ＝１、(ｊ＋ｉ−１)＝12であり、ステップ５４，５８の判定を経て、ステップ５９で以下に示す対訳語句ｏ〜ｚの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｏ×ｎ_ｐ×…×ｎ_ｚ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
|ｏｐｑｒｓｔｕｖｗｘｙｚ|ａｂｃ

以下同様に、ウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現しない間は、対訳組み合わせパターンの生成に用いる原文上の語句配列の先頭を１語句ずつ後にずらしながら対訳組み合わせパターンの生成、ウェブ検索を繰り返し、対訳組み合わせパターンの生成に用いる原文上の語句配列の末尾が原文の末尾に達する毎に（ステップ５４の判定が肯定される毎に）、対訳組み合わせパターンの生成に用いる原文上の語句配列を１語句だけ短くすることが繰り返されることになる。

ここで、変数ｉ（対訳組み合わせパターンの生成に用いる原文上の語句配列の語句数）＝４、変数ｊ（対訳組み合わせパターンの生成に用いる原文上の語句配列の先頭語句）＝４、(ｊ＋ｉ−１)＝７となっている時に、ステップ５４，５８の判定を経て、ステップ５９で以下に示す対訳語句ｒ〜ｕの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｒ×ｎ_ｓ×ｎ_ｔ×ｎ_ｕ）、生成された個々の対訳組み合わせパターンを含むテキストをステップ６０で順次検索したところ、
ｏｐｑ|ｒｓｔｕ|ｖｗｘｙｚａｂｃ
該当するテキストが抽出された対訳組み合わせパターンが出現したものとして、以下の処理を説明する。

この場合、ステップ６２の判定が肯定されてステップ６６へ移行し、まずステップ６０のウェブ検索で該当するテキストが抽出された対訳組み合わせパターンの数を認識する。認識した数が１の場合には、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンを、原文を構成する語句配列のうちｊ番目〜(ｊ＋ｉ−１)番目の語句の配列の対訳候補としてＨＤＤ１６Ｃ（請求項５に記載の記憶手段）に記憶させる。また、ステップ６０のウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが複数存在している場合には、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンを判断し、当該対訳組み合わせパターンにおけるテキストのヒット件数を基準（100％）として他の対訳組み合わせパターンにおけるテキストのヒット件数の比率を演算する。そして、ヒット件数の比率が閾値以上の対訳組み合わせパターンを、原文を構成する語句配列のうちｊ番目〜(ｊ＋ｉ−１)番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶させる。

次のステップ６８では変数ｊを１だけインクリメントしてステップ５４に戻る。この時点で変数ｊ＝５、(ｊ＋ｉ−１)＝８であり、ステップ５４の判定は否定されるものの、原文中の４番目〜７番目の語句は対応する対訳語句がウェブ検索で既にヒットしているので（対訳語句の配列のうちウェブ検索でヒットした対訳語句を英大文字に表記し、括弧記号"[","]"で囲んで以下に示す）、
ｏｐｑ[ＲＳＴＵ]ｖｗｘｙｚａｂｃ
ステップ５８の判定が否定されてステップ６４へ移行し、変数ｊを１だけインクリメントしてステップ５４に戻る。このように、ステップ５８の判定は、請求項５に記載の「記憶手段に記憶させた対訳語句の部分配列に対応する原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外」するステップに対応している。このステップ５４，５８，６４のループは、変数ｊ＝８、(ｊ＋ｉ−１)＝11となり、原文中のｊ番目〜(ｊ＋ｉ−１)番目の語句に対応する対訳語句がウェブ検索で全て未ヒットとなることで、ステップ５８の判定が肯定される迄繰り返される。そして、変数ｊ＝８、(ｊ＋ｉ−１)＝11になるとステップ５８の判定が肯定され、以下に示すように対訳語句ｖ〜ｙの配列に対応する対訳組み合わせパターンがステップ５９で生成され（生成される対訳組み合わせパターン数＝ｎ_ｖ×ｎ_ｗ×ｎ_ｘ×ｎ_ｙ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
ｏｐｑ[ＲＳＴＵ]|ｖｗｘｙ|ｚａｂｃ

このウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ６２の判定が否定された場合には、ステップ６４で更に変数ｊが１だけインクリメントされてステップ５４に戻る。この時点で変数ｊ＝９、(ｊ＋ｉ−１)＝12であるので、ステップ５４、５８の判定を経て、ステップ５９で以下に示すように、前回に対して１語句だけ後にずれた位置から前回と同じ長さの対訳語句ｗ〜ｚの配列に対応する対訳組み合わせパターンが生成され（生成される対訳組み合わせパターン数＝ｎ_ｗ×ｎ_ｘ×ｎ_ｙ×ｎ_ｚ）、生成された個々の対訳組み合わせパターンを含むテキストがステップ６０で順次検索される。
ｏｐｑ[ＲＳＴＵ]ｖ|ｗｘｙｚ|ａｂｃ

このウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現した場合、ステップ６２の判定が肯定されてステップ６６へ移行し、該当するテキストが抽出された対訳組み合わせパターンの数が１であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンを、原文中のｊ番目〜(ｊ＋ｉ−１)番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶させる。該当するテキストが抽出された対訳組み合わせパターンが複数存在している場合は、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンにおけるテキストのヒット件数を基準（100％）として他の対訳組み合わせパターンにおけるテキストのヒット件数の比率を演算し、ヒット件数の比率が閾値以上の対訳組み合わせパターンを、原文中のｊ番目〜(ｊ＋ｉ−１)番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶させる。そしてステップ６８で変数ｊを１だけインクリメントしてステップ５４に戻る。

この時点で変数ｊ＝10、(ｊ＋ｉ−１)＝13であり、ステップ５４の判定は否定されるものの、原文中の４番目〜７番目及び８番目〜11番目の語句は対応する対訳語句がウェブ検索で既にヒットしているので（以下に示す対訳語句の配列も参照）、ステップ５８の判定が否定され、前述のステップ５４，５８，６４のループに入る。
ｏｐｑ[ＲＳＴＵ]ｖ[ＷＸＹＺ]ａｂｃ

但し、このときは原文中の11番目の語句より後に、対応する対訳語句がウェブ検索でヒットしていない語句が３個（＜ｉ）しか連続していないので、変数ｊ＝13、(ｊ＋ｉ−１)＝16となった時点でステップ５４の判定が肯定されることで変数（対訳語句数）ｉ＝４の対訳組み合わせパターンの検索を終了し、ステップ５６で変数ｉが１だけデクリメントされる（ｉ＝３となる）と共に、ステップ５０の判定を経てステップ５２で変数ｊが１に戻される。

続いて変数（対訳語句数）ｉ＝３の対訳組み合わせパターンの検索が行われるが、この時点で対応する対訳語句がウェブ検索でヒットしていない語句が３個以上連続しているのは、原文中の１番目〜３番目及び13番目〜15番目の語句の配列のみであるので、対訳組み合わせパターンの生成（ステップ５９）、生成した個々の対訳組み合わせパターンを含むテキストのウェブ検索（ステップ６０）は、以下に示すように対訳語句ｏ〜ｑの配列及び対訳語句ａ〜ｃの配列に対してのみ順に行われる。
|ｏｐｑ|[ＲＳＴＵ]ｖ[ＷＸＹＺ]ａｂｃ
ｏｐｑ[ＲＳＴＵ]ｖ[ＷＸＹＺ]|ａｂｃ|

ここで、対訳語句ａ〜ｃの配列に対応する対訳組み合わせパターンのウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現した場合は、ステップ６６において、該当するテキストが抽出された対訳組み合わせパターンの数が１であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンが、原文中のｊ番目〜(ｊ＋ｉ−１)番目、すなわち13番目〜15番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶され、該当するテキストが抽出された対訳組み合わせパターンの数が複数であれば、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンにおけるテキストのヒット件数を基準（100％）としたときの他の対訳組み合わせパターンにおけるテキストのヒット件数の比率が演算され、ヒット件数の比率が閾値以上の対訳組み合わせパターンが原文中の13番目〜15番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶される。なお、変数（対訳語句数）ｉ＝３の対訳組み合わせパターンの検索が終了した時点での対訳語句の配列の状態を以下に示す。
ｏｐｑ[ＲＳＴＵ]ｖ[ＷＸＹＺ][ＡＢＣ]

続いて変数（対訳語句数）ｉ＝２の対訳組み合わせパターンの検索が行われるが、この時点で対応する対訳語句がウェブ検索でヒットしていない語句が２個以上連続しているのは、原文中の１番目〜３番目の語句の配列のみであるので、対訳組み合わせパターンの生成（ステップ５９）、生成した個々の対訳組み合わせパターンを含むテキストのウェブ検索（ステップ６０）は、以下に示すように対訳語句ｏ,ｐの配列及び対訳語句ｐ,ｑの配列に対してのみ順に行われる。
|ｏｐ|ｑ[ＲＳＴＵ]ｖ[ＷＸＹＺ][ＡＢＣ]
ｏ|ｐｑ|[ＲＳＴＵ]ｖ[ＷＸＹＺ][ＡＢＣ]

ここで、対訳語句ｐ,ｑの配列に対応する対訳組み合わせパターンのウェブ検索で、該当するテキストが抽出された対訳組み合わせパターンが出現した場合は、ステップ６６において、該当するテキストが抽出された対訳組み合わせパターンの数が１であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンが、原文中のｊ番目〜(ｊ＋ｉ−１)番目、すなわち２番目〜３番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶され、該当するテキストが抽出された対訳組み合わせパターンの数が複数であれば、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンにおけるテキストのヒット件数を基準（100％）としたときの他の対訳組み合わせパターンにおけるテキストのヒット件数の比率が演算され、ヒット件数の比率が閾値以上の対訳組み合わせパターンが、原文中の２番目〜３番目の語句の配列の対訳候補としてＨＤＤ１６Ｃに記憶される。なお、変数（対訳語句数）ｉ＝２の対訳組み合わせパターンの検索が終了した時点での対訳語句の配列の状態を以下に示す。
ｏ[ＰＱ][ＲＳＴＵ]ｖ[ＷＸＹＺ][ＡＢＣ]

変数（対訳語句数）ｉ＝２の対訳組み合わせパターンの検索が終了すると、ステップ５４の判定が肯定されてステップ５６へ移行し、変数ｉが更に１だけインクリメントされてｉ＝１となるので、ステップ５０の判定が肯定されてステップ７０へ移行する。なお、ステップ７０へ移行した時点で、翻訳対象の原文の語句配列は、より確からしい対訳文が得られると推測される分割パターン（上記の例では、ヒット件数の比率が閾値以上の対訳組み合わせパターンが対訳候補としてＨＤＤ１６Ｃに記憶されている語句配列[ＰＱ],[ＲＳＴＵ],[ＷＸＹＺ],[ＡＢＣ]と、それ以外の語句ｏ,ｖ）に分割されていることになる。

ステップ７０では、上記分割パターンによって分割された原文中の個々の要素（語句配列又は語句）のうち、ヒット件数の比率が閾値以上の対訳組み合わせパターンが対訳候補として記憶されている語句配列については上記の対訳候補を、対応する対訳語句がウェブ検索でヒットしなかった語句については対訳辞書ＤＢから取得した対訳語句を各々ＨＤＤ１６Ｃから全て読み出し、読み出した対訳候補・対訳語句の組み合わせ（対訳文候補）を生成する。これにより、例えば上記分割パターンにおける要素数をｂ、個々の要素における対訳候補又は対訳語句毎の数をｎ_１,ｎ_２,…,ｎ_ｂとすると、ｎ_１×ｎ_２×…×ｎ_ｂ個の対訳文候補が生成される。

続いて、検索サービス提供サーバが提供する検索サービスを利用し、インターネット１４を介してアクセス可能なテキストの中に、上記で生成した特定の対訳文候補を構成する対訳語句を全て含むテキスト（特定の対訳文候補を構成する個々の対訳語句を、特定の対訳文候補と語句順序が同一か相違しているかに拘わらず、かつ連続して出現しているかとびとびに出現しているかに拘わらず全て含んでいるテキスト）が存在しているか否かを検索するウェブ検索を、上記で生成した全ての対訳文候補について順次行う。これにより、個々の対訳文候補を構成する対訳語句の共起性が調査される。

そして次のステップ７２では、ステップ７０のウェブ検索で該当するテキストが抽出された対訳文候補の数が１であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳文候補を原文に対応する対訳文候補として出力し、対訳判断処理を終了する。また、ステップ７０のウェブ検索で該当するテキストが抽出された対訳文候補が複数存在している場合は、それぞれの対訳文候補のうちテキストのヒット件数が最大の対訳文候補におけるテキストのヒット件数を基準（100％）として他の対訳文候補におけるテキストのヒット件数の比率を演算し、ヒット件数の比率が閾値以上の対訳文候補を原文に対応する対訳文候補として出力し、対訳判断処理を終了する。この場合も、ウェブ検索の結果に基づきステップ６６でＨＤＤ１６Ｃに記憶された対訳候補を各々含む複数の対訳文候補のうち、共起性に基づいて目的言語の文章としての自然度が最大又は上位と推定される対訳文候補が原文に対応する対訳文候補として出力されることになる。

なお、上記では原文を構成する各語句のうち原文上で連続する所定数の語句の各々の対訳語句の組み合わせに相当する複数の対訳組み合わせパターンを生成し、生成した個々の対訳組み合わせパターンを含むテキストを順次検索することを、対訳組み合わせパターンの生成に用いる原文上の語句の数を徐々に少なくしながら繰り返すと共に、前記検索によって該当するテキストが抽出された対訳組み合わせパターンを対訳候補として採用し、当該対訳組み合わせパターンに対応する原文上の語句配列を、以後の対訳組み合わせパターンの生成に用いる語句から除外する処理を行うことで、上記検索で抽出された該当するテキストのヒット件数よりも、上記検索で該当するテキストが抽出された対訳組み合わせパターンの長さ（語句数）を優先して対訳文候補を判断する態様を説明したが、本発明はこれに限定されるものではなく、長さの長い（語句数の多い）特定の対訳組み合わせパターンが、本来は目的言語としての自然度が低いにも拘わらず、インターネットを介してアクセス可能なテキストの中に上記特定の対訳組み合わせパターンを含むテキストが偶然存在していたために、上記特定の対訳組み合わせパターンが対訳文候補の一部として採用される可能性を排除するために、例えば対訳組み合わせパターンの検索において、該当するテキストのヒット件数が基準値以上の場合にのみ、対応する対訳組み合わせパターンを対訳候補として採用するようにしてもよいし、検索で該当するテキストが抽出された対訳組み合わせパターンに対応する原文上の語句配列も以後の対訳組み合わせパターンの生成に用いる語句から除外せずに、対訳組み合わせパターンの生成・ウェブ検索を行った後に、ウェブ検索で該当するテキストが抽出された全ての対訳組み合わせパターンについて、対訳組み合わせパターンの長さ及びテキストのヒット件数を比較し、対訳候補として採用する対訳組み合わせパターンを選択し対訳文候補を生成するようにしてもよい。

また、上記ではクライアント端末１６のＨＤＤ１６Ｃに対訳辞書ＤＢが記憶されている態様を説明したが、本発明はこれに限定されるものではなく、例として図３(Ａ)に示すように、インターネット１４に接続され対訳サービス提供サーバとして機能するウェブサーバ１２のＨＤＤ１２Ｃに対訳辞書ＤＢを記憶させておき、クライアント端末１６は、翻訳対象として指定された原文の対訳を判断するにあたり、まず原文を構成する各語句の対訳を対訳サービス提供サーバに問い合わせることで取得（同図の(1)〜(3)を参照）した後に、取得した各語句の対訳に基づきウェブ検索を行って原文の対訳文（原文に対応する対訳文候補）を判断するように構成することも可能である。

また、上記では原文の対訳（原文に対応する対訳文候補）の判断をクライアント端末１６が行う態様を説明したが、本発明はこれに限定されるものでもなく、例として図３(Ｂ)に示すように、対訳サービス提供サーバとして機能するウェブサーバ１２のＨＤＤ１２Ｃに対訳辞書ＤＢを記憶させると共に、上記で説明した対訳判断処理と同様の処理を行うプログラムを予めインストールしておき、クライアント端末１６から原文のテキストデータを受信することで対訳文の問い合わせを受ける毎に(同図の(1)参照)、受信した原文を構成する各語句の対訳を対訳辞書ＤＢから取得し、取得した各語句の対訳に基づきウェブ検索を行って原文の対訳文（原文に対応する対訳文候補）を判断し(同図の(2)参照)、判断した対訳文を問い合わせ元のクライアント端末１６へ送信する(同図の(3)参照)ように構成することも可能である。なお、上記態様において、対訳サービス提供サーバとして機能するウェブサーバ１２は請求項７に記載のコンピュータに、上記ウェブサーバ１２に予めインストールされた上記プログラムは請求項７に記載の語句配列の自然度判定プログラムに対応している。

また、上記では翻訳対象として指定された原文に対応する対訳文を判断する際に本発明を適用した態様を説明したが、本発明は対訳文の判断に限定されるものではなく、例えば文章として作成された語句配列が複数存在している場合に、文章としての自然度がより高い語句配列を自動的に判定・評価して選択する等の態様にも適用可能である。

本実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。対訳判断処理の内容を示すフローチャートである。本発明の他の態様を示す概念図である。

符号の説明

１０コンピュータ・システム
１２ウェブサーバ
１４インターネット
１６クライアント端末
１６ＣＨＤＤ

Claims

インターネットに接続されたコンピュータによって実現される語句配列の自然度判定装置であって、
検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段と、
前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段と、
を備えたことを特徴とする語句配列の自然度判定装置。
前記判定手段は、前記検索手段に対し前記判定対象の語句配列全体を検索対象として指定して前記検索を行わせ、当該検索で該当するテキストが抽出されなかった場合に、前記判定対象の語句配列から前記判定対象の語句配列全体よりも短い語句部分配列を検索対象として抽出し、前記検索手段に対し前記抽出した語句部分配列を検索対象として指定して前記検索を行わせることを、前記検索対象として抽出する語句部分配列の長さを徐々に短くしながら繰り返し、前記検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の語句部分配列の長さに基づいて、前記判定対象の語句配列について文章としての自然度を判定することを特徴とする請求項１記載の語句配列の自然度判定装置。
原言語の原文を構成する各語句について目的言語の対訳語句を各々取得し、前記判定対象の語句配列として、前記各語句毎に取得した対訳語句の組み合わせに相当する、前記目的言語の対訳語句の配列を複数生成する生成手段を更に備え、
前記判定手段は、前記検索手段に対し、前記生成手段によって生成された複数の対訳語句の配列を検索対象として各々指定して前記検索を行わせ、個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択することを特徴とする請求項１記載の語句配列の自然度判定装置。
前記判定手段は、前記検索手段に対し前記複数の対訳語句の配列全体を検索対象として指定して前記検索を行わせ、当該検索で何れも該当するテキストが抽出されなかった場合に、原言語の原文を構成する各語句のうち原文上で連続する所定数の語句の対訳語句の組み合わせに相当する、前記複数の対訳語句の配列全体よりも短い対訳語句の部分配列を前記生成手段によって複数生成させ、前記検索手段に対し前記生成手段によって生成された複数の対訳語句の部分配列を検索対象として各々指定して前記検索を行わせることを、前記対訳語句の部分配列の生成に用いる前記原文上の語句の数を徐々に少なくしながら繰り返し、前記検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の対訳語句の部分配列の長さに基づいて、前記複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択することを特徴とする請求項３記載の語句配列の自然度判定装置。
前記判定手段は、前記検索手段による検索によって該当するテキストが抽出される毎に、当該検索に用いた対訳語句の部分配列を記憶手段に記憶させると共に、記憶手段に記憶させた対訳語句の部分配列に対応する前記原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外し、対訳語句の部分配列の生成に使用可能な語句が原文上で連続していない状態となった場合に、前記記憶手段に記憶させた対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句を含むテキストがインターネットを介してアクセス可能なテキストの中に存在しているか否かを前記検索手段によって検索させ、前記全ての対訳語句を含むテキストの有無、前記検索によって抽出された前記全ての対訳語句を含むテキストの数に基づいて、前記記憶手段に記憶させた対訳語句の部分配列の各組み合わせの中から目的言語の文章としての自然度が上位の対訳語句の部分配列の組み合わせを選択することを特徴とする請求項４記載の語句配列の自然度判定装置。
インターネットに接続されたコンピュータによって実現される語句配列の自然度判定方法であって、
複数の語句が配列されて成る判定対象の語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、
前記検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する
ことを特徴とする語句配列の自然度判定方法。
インターネットに接続されたコンピュータを語句配列の自然度判定装置として機能させるための語句配列の自然度判定プログラムであって、
前記コンピュータを、
検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段、
及び、前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段
として機能させることを特徴とする語句配列の自然度判定プログラム。