JP2007122509A - 語句配列の自然度判定装置、方法及びプログラム - Google Patents

語句配列の自然度判定装置、方法及びプログラム Download PDF

Info

Publication number
JP2007122509A
JP2007122509A JP2005315261A JP2005315261A JP2007122509A JP 2007122509 A JP2007122509 A JP 2007122509A JP 2005315261 A JP2005315261 A JP 2005315261A JP 2005315261 A JP2005315261 A JP 2005315261A JP 2007122509 A JP2007122509 A JP 2007122509A
Authority
JP
Japan
Prior art keywords
search
text
phrase
parallel translation
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005315261A
Other languages
English (en)
Inventor
Junichi Goishi
順一 五石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ROZETTA Corp
Original Assignee
ROZETTA Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ROZETTA Corp filed Critical ROZETTA Corp
Priority to JP2005315261A priority Critical patent/JP2007122509A/ja
Priority to PCT/JP2006/321804 priority patent/WO2007049792A1/en
Priority to US12/091,687 priority patent/US20090292525A1/en
Priority to KR1020087012563A priority patent/KR20080066965A/ko
Priority to EP06822733A priority patent/EP1949261A1/en
Priority to CA002627321A priority patent/CA2627321A1/en
Priority to CNA200680039691XA priority patent/CN101297288A/zh
Priority to TW095139901A priority patent/TW200805091A/zh
Publication of JP2007122509A publication Critical patent/JP2007122509A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】任意の語句配列について文章としての自然度を適正に判定する。
【解決手段】翻訳対象の原文全体が辞書に登録されていない場合、最長一致法により分解した原文の各語句毎に対訳を取得して原文全体に対応する対訳パターンを生成し、個々の対訳パターンを含むテキストをウェブで各々検索する(36〜44)。該当テキストが抽出されればヒット件数に基づいて選択した対訳パターンを対訳文候補として出力する(46)が、該当テキストが無ければ原文の一部の語句配列に対応する対訳パターンを生成し、個々の対訳パターンを含むテキストをウェブで各々検索し(59,60)、該当テキスト有りの対訳パターンを対訳候補として記憶する(66)ことを、対訳パターンの生成に用いる原文上の語句数を徐々に少なくしながら繰り返した後に、記憶した対訳候補から対訳文候補を生成し、個々の対訳文候補について語句の共起性を調査して対訳文候補を選択する(70,72)。
【選択図】図2

Description

本発明は語句配列の自然度判定装置、方法及びプログラムに係り、特に、インターネットに接続されたコンピュータによって実現される語句配列の自然度判定装置、該語句配列の自然度判定装置に適用可能な語句配列の自然度判定方法、及び、コンピュータを前記語句配列の自然度判定装置として機能させるための語句配列の自然度判定プログラムに関する。
コンピュータを利用して、或る自然言語(原言語)で記述された文章(原文)を、他の自然言語(目的言語)で記述された文章(対訳文)に翻訳する、所謂自動翻訳の実現はかなり以前より期待されており、自動翻訳に関する様々な改良技術も提案されている。
例えば自動翻訳における代表的な翻訳方式としては、原言語用例と目的言語用例のペアをコーパスに多数登録しておき、このコーパスから原文に最も類似した用例を検索し、最も類似した用例を翻訳に用いるEBMT(Example Based Machine Translation)や、構文構造の基本単位である構成素境界パターンを単位としてコーパスから変換知識を学習、学習した変換知識を用いて翻訳を行うTDMT(Transfer Driven Machine Translation)が知られているが、特許文献1には、このEBMT,TDMTによって入力データを各々翻訳し、入力データをTDMTにより翻訳する際の入力データと用例との類似性を示す構文スコアと、入力データをEBMTにより翻訳する際の入力データと用例との類似性を示すDP距離を演算し、入力データの翻訳にEBMT,TDMTが適しているか否かを示す評価データと、構文スコア及びDP距離を用いて入力データの翻訳に適した方式を選択するための選択器を生成する技術が開示されている。
特開2003−263434号公報
しかしながら、既存の自動翻訳の技術で得られる対訳文は、対訳文自体に文法的な誤りがなく、単語単位での対訳に誤りがなかったとしても、目的言語の文章として不自然な文章となってしまうことが多々生じており、特許文献1に記載の技術を含め、既存の自動翻訳の技術では実用に耐え得る翻訳精度が得られていないのが実情である。これは、既存の自動翻訳装置には、自動翻訳によって得られた対訳文に対し、目的言語の文章としての自然さを判定・評価する機構が設けられていないことがその理由であると推察される。しかし、文章としての自然度は定量化が困難な感覚的な指標であり、文章として生成された任意の語句配列に対して文章としての自然度を判定可能な判定基準を明確化することも困難であるので、自動翻訳により対訳文として得られた任意の語句配列、或いは人間が文章として作成した任意の語句配列について、文章としての自然度を判定する技術は未だ確立されていない。
本発明は上記事実を考慮して成されたもので、任意の語句配列について文章としての自然度を適正に判定することが可能な語句配列の自然度判定装置、語句配列の自然度判定方法及び語句配列の自然度判定プログラムを得ることが目的である。
上記目的を達成するために請求項1記載の発明に係る語句配列の自然度判定装置は、インターネットに接続されたコンピュータによって実現される語句配列の自然度判定装置であって、検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段と、前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段と、を備えたことを特徴としている。
インターネットを介してアクセス可能なテキストは、まず量自体が非常に膨大で、様々な言語で記述された様々な内容のテキストが含まれており、中には文章としての自然さに欠けるテキストも含まれているものの、基本的には他者にアクセス・参照されることを前提として作成されているので、大部分のテキストは文章としての自然さを備えていると見なすことができる。また、長い期間が経過する間には個々の言語における文章としての自然さの基準自体も変化していくが、インターネットを介してアクセス可能なテキストは更新・削除・追加が日々行われていると共に、更新・追加されるテキストには、対応する言語におけるその時点での文章としての自然さの基準が総じて反映されていると見なすことができる。本願発明者は、インターネットを介してアクセス可能なテキストが総体として上記の特性を備えていることに着目し、インターネットを介してアクセス可能なテキストの総体を基準とすることで、任意の言語配列について文章としての自然度を判定可能であることに想到し、本発明を成すに至った。
上記に基づき請求項1記載の発明に係る語句配列の自然度判定装置は、インターネットに接続されたコンピュータによって実現され、検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段を備えている。そして、請求項1記載の発明に係る判定手段は、検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して検索を行わせ、検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、判定対象の語句配列について文章としての自然度を判定する。
なお、判定対象の語句配列は人間が作成した文章であってもよいし、後述のように、原言語の原文を構成する各語句に対応する目的言語の対訳語句を組み合わせて自動的に生成した対訳語句の配列であってもよく、文章の一部分に相当する語句配列であってもよい。また、検索手段に対し検索対象として指定する語句配列は、判定対象の語句配列の全体であってもよいし、判定対象の語句配列を複数の部分に分け、各々の部分を含むテキストを順次検索するようにしてもよい。また、判定手段による自然度の判定は、具体的には、検索手段による検索によって該当するテキストが抽出された場合は、該当するテキストが抽出されなかった場合よりも「自然度が高い」と判定し、検索手段による検索によって該当するテキストが抽出された場合は、抽出されたテキストの数が多くなるに従って「より自然度が高い」と判定することができる。
このように、請求項1記載の発明では、判定対象の語句配列(の全部又は一部)がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、当該検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、判定対象の語句配列について文章としての自然度を判定するので、任意の語句配列について文章としての自然度を適正に判定することが可能となる。また、任意の言語における文章としての自然度の基準自体の変化すると、インターネットを介してアクセス可能なテキストのうち前記任意の言語で記述されたテキストの総体が表す前記任意の言語における文章としての自然度の基準も上記変化に追随して変化するので、検索手段による検索時に参照されるテキストを記憶手段に予め記憶させておく場合と比較して、任意の言語における文章としての自然度の基準自体の変化を検知し、検知した変化に応じて記憶手段に記憶しているテキストを更新・削除・追加する等のメインテナンス作業も不要となる。
なお、請求項1記載の発明において、判定手段は、例えば請求項2に記載したように、検索手段に対し判定対象の語句配列全体を検索対象として指定して検索を行わせ、当該検索で該当するテキストが抽出されなかった場合に、判定対象の語句配列から判定対象の語句配列全体よりも短い語句部分配列を検索対象として抽出し、検索手段に対し抽出した語句部分配列を検索対象として指定して検索を行わせることを、検索対象として抽出する語句部分配列の長さを徐々に短くしながら繰り返し、検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の語句部分配列の長さに基づいて、判定対象の語句配列について文章としての自然度を判定するように構成することが好ましい。
インターネットを介してアクセス可能なテキストの中に判定対象の語句配列全体を含むテキストが存在していない場合にも、判定対象の語句配列の一部(語句部分配列)を含むテキストは存在している可能性があるが、この語句部分配列の検索を行う場合、該当するテキストが抽出されたときの検索対象の語句部分配列の長さも、対応する判定対象の語句配列についての文章としての自然度と相関があり、該当するテキストが抽出されたときの検索対象の語句部分配列の長さが長くなるに従って「より自然度が高い」とみなすことができる。これに基づき請求項2記載の発明では、判定対象の語句配列全体を検索対象とする検索で該当するテキストが抽出されなかった場合に、判定対象の語句配列から検索対象として抽出する語句部分配列の長さを徐々に短くしながら、抽出した語句部分配列を検索対象とする検索を繰り返し、検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の語句部分配列の長さに基づいて、判定対象の語句配列について文章としての自然度を判定するので、任意の語句配列について文章としての自然度をより適正に判定することができる。
また、請求項1記載の発明において、原言語の原文から目的言語の文章としての自然度が高い対訳文を得ることが目的である場合には、例えば請求項3に記載したように、原言語の原文を構成する各語句について目的言語の対訳語句を各々取得し、判定対象の語句配列として、各語句毎に取得した対訳語句の組み合わせに相当する、目的言語の対訳語句の配列を複数生成する生成手段を設け、判定手段は、検索手段に対し、生成手段によって生成された複数の対訳語句の配列を検索対象として各々指定して検索を行わせ、個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択するように構成することが好ましい。
請求項3記載の発明では、原文を構成する各語句毎に取得した対訳語句の組み合わせに相当する目的言語の対訳語句の配列が生成手段によって複数生成される。請求項3記載の発明において、この複数の対訳語句の配列は、原言語の原文に対応する目的言語の対訳文の候補となり、判定手段は、生成手段によって生成された複数の対訳語句の配列を検索対象として各々指定して検索を行わせ、個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択する。なお判定手段は、目的言語の文章としての自然度が上位の対訳語句の配列として、例えば検索手段による検索によって抽出されたテキストの数が最大の単一の対訳語句の配列を選択するようにしてもよいし、このテキストの最大抽出数を基準とし、検索によって抽出されたテキストの数の割合が所定%以上の対訳語句の配列を選択するようにしてもよい。
このように、請求項3記載の発明では、原文から生成した複数の対訳語句の配列(対訳文の複数の候補)について、インターネットを介してアクセス可能なテキストの中に存在しているか否かを各々検索するので、個々の対訳語句の配列について文章としての自然度を各々適正に判定するための指標(個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数)を得ることができ、この指標に基づいて複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択することで、複数の対訳語句の配列(対訳文の複数の候補)の中から、目的言語の文章としての自然度が高い対訳語句の配列、すなわち原文の対訳文としてより適切な対訳文(に相当する対訳語句の配列)を選択できる。
また、請求項3記載の発明において、判定手段は、例えば請求項4に記載したように、検索手段に対し複数の対訳語句の配列全体を検索対象として指定して検索を行わせ、当該検索で何れも該当するテキストが抽出されなかった場合に、原言語の原文を構成する各語句のうち原文上で連続する所定数の語句の対訳語句の組み合わせに相当する、複数の対訳語句の配列全体よりも短い対訳語句の部分配列を生成手段によって複数生成させ、検索手段に対し生成手段によって生成された複数の対訳語句の部分配列を検索対象として各々指定して検索を行わせることを、対訳語句の部分配列の生成に用いる原文上の語句の数を徐々に少なくしながら繰り返し、検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の対訳語句の部分配列の長さに基づいて、複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択するように構成することが好ましい。これにより、先に説明した請求項2記載の発明と同様に、個々の対訳語句の配列全体を含むテキストが、インターネットを介してアクセス可能なテキストの中に何れも存在していない場合にも、原文の対訳文としてより適切な対訳文(に相当する対訳語句の配列)を選択できる。
更に、請求項4記載の発明において、判定手段は、より詳しくは、例えば請求項5に記載したように、検索手段による検索によって該当するテキストが抽出される毎に、当該検索に用いた対訳語句の部分配列を記憶手段に記憶させると共に、記憶手段に記憶させた対訳語句の部分配列に対応する原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外し、対訳語句の部分配列の生成に使用可能な語句が原文上で連続していない状態となった場合に、記憶手段に記憶させた対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句を含むテキストがインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索手段によって検索させ、全ての対訳語句を含むテキストの有無、検索によって抽出された全ての対訳語句を含むテキストの数に基づいて、記憶手段に記憶させた対訳語句の部分配列の各組み合わせの中から目的言語の文章としての自然度が上位の対訳語句の部分配列の組み合わせを選択するように構成することが好ましい。
上記のように、検索手段による検索によって該当するテキストが抽出される毎に、対訳語句の部分配列に対応する原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外することで、検索手段による検索結果(対応する対訳語句の部分配列がインターネットを介してアクセス可能なテキストの中に存在しているか否か)に基づいて、原文の語句配列が、より確からしい対訳文が得られると推測される分割パターンで分割される(記憶手段には上記分割パターンによる分割後の原文上の個々の語句配列に対応する対訳語句の部分配列が記憶される)。
また請求項5記載の発明では、対訳語句の部分配列の生成に使用可能な語句が原文上で連続していない状態となった場合に、記憶手段に記憶させた対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句を含むテキストがインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索手段によって検索させるので、当該検索結果に基づき、対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句が同一のテキストに出現する可能性(共起性という)を判断することが可能となる。そして、全ての対訳語句を含むテキストの有無、検索によって抽出された全ての対訳語句を含むテキストの数に基づいて、記憶手段に記憶させた対訳語句の部分配列の各組み合わせの中から目的言語の文章としての自然度が上位の対訳語句の部分配列の組み合わせを選択するので、対訳語句の部分配列の各組み合わせにおける対訳語句の共起性に基づいて、原文の対訳文としてより適切な対訳文(に相当する対訳語句の部分配列の組み合わせ)を選択できる。
請求項6記載の発明に係る語句配列の自然度判定方法は、インターネットに接続されたコンピュータによって実現される語句配列の自然度判定方法であって、複数の語句が配列されて成る判定対象の語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、前記検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定することを特徴としているので、請求項1記載の発明と同様に、任意の語句配列について文章としての自然度を適正に判定することが可能となる。
請求項7記載の発明に係る語句配列の自然度判定プログラムは、インターネットに接続されたコンピュータを語句配列の自然度判定装置として機能させるための語句配列の自然度判定プログラムであって、前記コンピュータを、検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段、及び、前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段として機能させることを特徴としている。
請求項7記載の発明に係る語句配列の自然度判定プログラムは、インターネットに接続されたコンピュータを、上記の検索手段及び判定手段として機能させるためのプログラムであるので、コンピュータが請求項7記載の発明に係る語句配列の自然度判定プログラムを実行することで、コンピュータが請求項1に記載の語句配列の自然度判定装置として機能することになり、請求項1記載の発明と同様に、任意の語句配列について文章としての自然度を適正に判定することが可能となる。
以上説明したように本発明は、複数の語句が配列されて成る判定対象の語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、該検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、判定対象の語句配列について文章としての自然度を判定するようにしたので、任意の語句配列について文章としての自然度を適正に判定することが可能となる、という優れた効果を有する。
以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1には本実施形態に係るコンピュータ・システム10が示されている。コンピュータ・システム10は、多数台のウェブサーバ12が接続されて成るインターネット14に、多数台のクライアント端末16が各々接続されて構成されている。
インターネット14に接続された個々のクライアント端末16は、例えばパーソナル・コンピュータ(PC)等から成り、CPU16A、RAM等から成るメモリ16B、OS(Operating System)やブラウザ等のプログラムがインストールされたハードディスクドライブ(HDD)16C、ネットワークインタフェース(I/F)部16Dを備え、ネットワークI/F部16Dを介してインターネット14に接続されている。またクライアント端末16には、ディスプレイ等の表示手段、マウス・キーボード等の入力手段(何れも図示省略)が各々接続されている。
また、インターネット14に接続されたクライアント端末16の中には、本発明に係る語句配列の自然度判定装置として機能するクライアント端末16が存在しており、当該クライアント端末16のHDD16Cには、CPU16Aが後述する対訳判断処理を行うための対訳判断プログラムが予めインストールされ、対訳辞書データベース(DB)も記憶されている。なお、上記の対訳判断プログラムは請求項7に記載の語句配列の自然度判定プログラムに対応している。また、対訳辞書DBには、原言語で記述された語句(単語、複数単語から成る文節や連語等)のテキストデータが、目的言語で記述された対訳のテキストデータと対応付けられて多数登録されている。
一方、個々のウェブサーバ12は、CPU12A、RAM等から成るメモリ12B、OS等のプログラムがインストールされたHDD12C、ネットワークインタフェース(I/F)部12Dを備えており、ネットワークI/F部12Dを介してインターネット14に接続されている。各種のウェブサーバ12のうち、インターネット14を通じてテキストや画像、音楽等の任意のウェブコンテンツを提供するウェブサーバ12(ウェブコンテンツ提供サーバ)のHDD12Cには、テキスト等のウェブコンテンツが記憶されており、インターネット14を介して任意のコンピュータ(任意のクライアント端末16、或いは任意のウェブサーバ12)から任意のウェブコンテンツの配信が要求される毎に、要求されたウェブコンテンツを要求元のコンピュータへ配信するコンテンツ配信処理を行うためのコンテンツ配信プログラムもインストールされている。
また、ウェブサーバ12の中には、インターネットを介してアクセス可能な膨大なテキスト(ウェブ文書)の中に指定されたキーワードを含むテキストが存在しているか否かを検索して検索結果を提示する検索サービスを提供するウェブサーバ12(検索サービス提供サーバ)が存在しており、検索サービス提供サーバとして機能するウェブサーバ12のHDD12Cには検索用データベース(DB)が記憶されると共に、検索サービス提供プログラムが予めインストールされている。検索サービス提供サーバとして機能するウェブサーバ12は、CPU12Aが検索サービス提供プログラムを実行することで、ウェブ文書のリンクを辿って多数のウェブ文書を順次閲覧し、未収集のウェブ文書や更新されたウェブ文書を発見する毎に、発見したウェブ文書の内容を検索用DBへ保存したり、検索用DBに既に保存されている情報の更新を行うと共に、キーワードが指定されて検索が要求されると、指定されたキーワードで検索用DBを検索して結果を出力する検索サービス提供処理を行う。
次に本実施形態の作用を説明する。本実施形態において、原言語で記述された原文に対応する目的言語の対訳文を知りたい場合、ユーザは、クライアント端末16に対して翻訳対象の原文及び目的言語を指定する操作を行う。なお、翻訳対象の原文は、クライアント端末16にテキストデータとして読み込まれているテキストであればよく、例えばユーザがキーボードを介して入力したテキスト、ワープロ・ソフトによって既に作成されてHDD16Cに記憶されているテキスト、インターネット14を介してアクセス可能なテキストのうちブラウザを介して閲覧中のウェブ文書内のテキスト、文字原稿をスキャナによって読み取りOCR(Optical Character Recognition:光学的手法による文字認識)処理を経て得られたテキスト等の何れかを適用することができる。また、翻訳対象の原文は必ずしも文章に限られるものではなく、複数単語から成る文節や連語等であってもよい。
上記のように翻訳対象の原文が指定されると、クライアント端末16のCPU16Aによって対訳判断プログラムが実行されることで、図2に示す対訳判断処理が行われる。なお、この対訳判断処理は請求項6に記載の語句配列の自然度判定方法が適用された処理であり、この処理を行うことでクライアント端末16は本発明に係る語句配列の自然度判定装置として機能する。
本実施形態に係る対訳判断処理では、まずステップ30において、翻訳対象として指定された原文全体が対訳辞書DBに登録されているか否かを検索し、次のステップ32では、ステップ30の検索で対訳辞書DBから原文全体が発見されたか否か判定する。ステップ32の判定が肯定された場合はステップ34へ移行し、ステップ30の検索で発見された原文全体と対応付けて対訳辞書DBに登録されている対訳(文)を対訳辞書DBから読み出し、読み出した対訳(文)を原文に対応する対訳文候補として出力し(例えばクライアント端末16のディスプレイ等に表示させ)、対訳判断処理を終了する。なお、原文全体と対応付けて対訳辞書DBに対訳(文)が複数登録されている場合には、後述するウェブ検索と同様に、検索サービス提供サーバが提供する検索サービスを利用して、個々の対訳(文)を含むテキストを検索し、該当するテキストが存在しかつヒット件数の比率(後述)が閾値以上の対訳(文)を対訳文候補として出力するようにすればよい。
また、ステップ30の検索で対訳辞書DBから原文全体が発見されなかった場合には、ステップ32の判定が否定されてステップ36へ移行し、原文に対して最長一致法を適用し、対訳辞書DBを参照しながら複数の語句(又は語句配列)に原文を分解する。この原文の分解は、後述するステップ48〜ステップ68の処理におけるウェブ検索に代えて対訳辞書DBの検索を適用し、原文から所定長さ(構成語句数が所定値)の部分語句配列を抽出し、抽出した部分語句配列が対訳辞書DBに登録されているか否かを検索し、対訳辞書DBに登録されていた場合は当該部分語句配列を分割対象として記憶すると共に、当該部分語句配列を構成する各語句を以降の部分語句配列の抽出対象から除外することを、部分語句配列の長さを徐々に短くしながら(構成語句数を1ずつデクリメントしながら)、部分語句配列として抽出可能な語句が原文上で連続していない状態となる迄繰り返すことにより実現できる。なお、ステップ36で最長一致法によって原文から分解された語句又は語句配列を以下では単に「語句」と称し、これらの語句の総数(分解語句数)を以下では"a"とする。
ステップ38では、ステップ36で原文から分解された個々の語句毎に全ての対訳を対訳辞書DBから各々取得し、取得した個々の語句の対訳をHDD16Cに記憶させる。次のステップ40では、ステップ38で取得した各語句毎の対訳の組み合わせパターンを生成する。これにより、例えば分解語句数をa、個々の語句毎の対訳の数をn,n,…,nとすると、n×n×…×n個の対訳の組み合わせパターンが生成される。なお、ステップ40は請求項3に記載の生成手段に対応している。
次のステップ42では、検索サービス提供サーバが提供する検索サービスを利用し、インターネット14を介してアクセス可能なテキストの中に、ステップ40で生成した個々の対訳組み合わせパターンを含むテキストが存在しているか否かを検索するウェブ検索を順次行う。具体的には、検索サービス提供サーバが運営する検索サービス提供用のウェブサイトにアクセスし、検索のキーワードとして特定の対訳組み合わせパターンを指定(特定の対訳組み合わせパターンを構成する個々の対訳語句が、特定の対訳組み合わせパターンと同一の順序で連続して出現するテキストのみが検索されるように検索条件を指定)して検索の実行を指示し、検索サービス提供サーバから送信された検索結果(指定したキーワードを含むテキストのヒット件数)をHDD16Cに記憶させることを、先に生成した全ての対訳組み合わせパターンについて順次行う。
なお、ステップ42は本発明に係る検索手段に対応しており、請求項2に記載の判定手段の「検索手段に対し判定対象の語句配列全体を検索対象として指定して検索を行わせ」るステップ、及び、請求項4に記載の判定手段の「検索手段に対し複数の対訳語句の配列全体を検索対象として指定して検索を行わせ」るステップにも対応している。
ステップ44ではHDD16Cに記憶させた検索結果を参照し、ステップ42のウェブ検索により該当するテキストが抽出された(ヒット件数が1件以上の)対訳組み合わせパターンが存在しているか否か判定する。この判定が肯定された場合はステップ46へ移行し、まず、ウェブ検索で該当するテキストが抽出された対訳組み合わせパターンの数を認識する。認識した数が1の場合には、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンを、例えばクライアント端末16のディスプレイ等に表示させる等により原文に対応する対訳文候補として出力し、対訳判断処理を終了する。また、ウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが複数存在している場合には、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンを判断し、当該対訳組み合わせパターンにおけるテキストのヒット件数を基準(100%)として他の対訳組み合わせパターンにおけるテキストのヒット件数の比率を演算し、ヒット件数の比率が閾値以上の対訳組み合わせパターンを、原文に対応する対訳文候補として、クライアント端末16のディスプレイ等に表示させる等により出力し、対訳判断処理を終了する。
これにより、ステップ40で生成された原文全体に対応する複数の対訳組み合わせパターンのうち、目的言語の文章としての自然度が最大又は上位の対訳組み合わせパターンが原文に対応する対訳文候補として出力されることになる。なお、ステップ44,46は本発明に係る判定手段に対応している。
上述したステップ36〜ステップ46の処理について、実例を挙げて更に説明する。例えば翻訳対象の原文として和文の「栄養失調」が、目的言語として英語が指定され、翻訳対象の原文全体(「栄養失調」)が対訳辞書DBに登録されていなかった場合、ステップ32の判定が否定されると共に、ステップ36で原文が「栄養」と「失調」の各語句に分解され(分解語句数a=2)、ステップ38で各語句毎に対訳辞書DBから対訳が取得される。ここで、「栄養」の対訳として"dietary","alimentary","nutritional","nutrition","trophic"の5個の対訳が取得され、「失調」の対訳として"deficiency","disorder","disturbance","disease"の4個の対訳が取得された場合、ステップ40では、対訳組み合わせパターンとしてn×n=5×4=20個の対訳の組み合わせパターンが生成される(次の表1を参照)
Figure 2007122509
そして、ステップ42のウェブ検索により、一例として次の表2に示すような検索結果が得られた場合(なお、表2では対訳の組み合わせパターンをヒット件数の降順に示している)、ヒット件数最大の対訳組み合わせパターンが"nutritional deficiency "で、ヒット件数が79600件であるので、ヒット件数の比率は"nutrition disease"が86%、"dietary deficiency"が38%となり、対訳文候補として出力するヒット件数の比率の閾値が例えば70%であるとすると、"nutritional deficiency "及び"nutrition disease"が原文「栄養失調」の対訳文候補として出力される。なお、対訳文候補として出力するヒット件数の比率の閾値が100%であれば、常に単一の対訳組み合わせパターン(この場合は"nutritional deficiency")のみが対訳文候補として出力される。
Figure 2007122509
なお、ステップ40で生成する対訳組み合わせパターンは、表1に示すように原文から分解された各語句の対訳を羅列したパターン(例えば原文=(A,B)であり(但しA,Bは各々語句)、語句Aの対訳を[A]、語句Bの対訳を[B]としたときに、[A][B]と羅列したパターン)に限られるものではなく、例えば目的言語が英語の場合における[B]of[A]のように、他のパターンも生成してもよいことは言うまでもない(後述するステップ60で生成する対訳組み合わせパターンの生成についても同様)。表1,2を用いて説明した例において、パターン[A][B]に加えてパターン[B]of[A]も用いた場合に生成される対訳組み合わせパターン及びウェブ検索結果の一例を次の表3に示す。表3に示すように、この例ではパターンの種類数p=2となるので、n×n×p=5×4×2=40個の対訳組み合わせパターンが生成され、個々の対訳組み合わせパターンについてウェブ検索が各々行われることになる。
Figure 2007122509
なお、表3に示す例では、ヒット数の比率が上位の対訳組み合わせパターンが表2に示す結果と同一であるので、対訳文候補として出力するヒット件数の比率の閾値が70%であれば、表2の例と同様に原文「栄養失調」の対訳文候補として"nutritional deficiency "及び"nutrition disease"が出力されることになるが、別の原文であればパターン[B]of[A]に対応する対訳組み合わせパターンが対訳文候補として出力される可能性があり、より適正な対訳文候補が出力される確率が高くなる。
ところで、表1〜表3を用いて説明した例では、説明を簡単にするために翻訳対象の原文として少数の語句から成る原文が指定された場合を説明したが、実際には翻訳対象の原文として文章が指定されることが多く、ステップ40で生成した個々の対訳組み合わせパターンの何れかを含むテキストが全くヒットしないことも多々生ずる。この場合はステップ44の判定が否定されてステップ48へ移行し、ステップ48〜ステップ72で原文の一部の語句配列に対応する対訳組み合わせパターンを対象としてウェブ検索を行うことを繰り返して対訳文候補を選択・出力する処理を行う。
なお、ステップ44の判定が否定される場合は、請求項2に記載の「判定対象の語句配列全体を検索対象とする検索で該当するテキストが抽出されなかった場合」、及び、請求項4に記載の「複数の対訳語句の配列全体を検索対象とする検索で何れも該当するテキストが抽出されなかった場合」に相当している。また、ステップ48〜ステップ72は請求項2に記載の判定手段に対応しており、ステップ48〜ステップ72のうちステップ59,60を除く各ステップは請求項3〜請求項5に記載の判定手段にも対応している。
また、以下のステップ48〜ステップ72の説明では、先の最長一致法に基づく分解により15個の語句に分解される原文(分解語句数a=15の原文)が検索対象として指定され、原文を構成する15個の語句に対応する15個の対訳語句から成る対訳語句の配列(o,p,q,r,s,t,u,v,w,x,y,z,a,b,c)から対訳文候補を求める場合を例に説明する。但し、上記配列を構成する対訳語句o,p,q,r,s,t,u,v,w,x,y,z,a,b,cは、それぞれ対訳数n,n,n,n,n,n,n,n,n,n,n,n,n,n,nの対訳語句全体を表している。
ステップ48では、分解語句数aから1を減算した値(この例では"14")を変数iに代入することで変数iを初期設定する。なお、この変数iは後述するウェブ検索を行う語句配列の長さを表している。次のステップ50では変数iの値が1か否か判定する。判定が否定された場合はステップ52へ移行し、変数jに1を代入する。なお、この変数jは後述するウェブ検索を行う語句配列の先頭位置を表している。
ステップ54では、変数jに変数iを加算し更に1を減算した値が分解語句数aよりも大きいか否か判定する。このとき上記値は15であるので、ステップ54の判定が否定されてステップ58へ移行し、原文を構成するa個の語句のうちのj番目の語句〜(j+i−1)番目の語句は、対応する対訳語句が後述のウェブ検索で全て未ヒットか否か判定する。この場合はウェブ検索が未実行であるので、判定が肯定されてステップ59へ移行し、原文中のj番目〜(j+i−1)番目の語句に対応する対訳語句の組み合わせパターン(対訳組み合わせパターン)を生成する。なお、ステップ59も請求項3に記載の生成手段に対応しており、請求項4に記載の判定手段の「対訳語句の部分配列を生成手段によって複数生成させ」るステップにも対応している。また、ステップ59で生成される対訳組み合わせパターンは、請求項4に記載の「原言語の原文を構成する各語句のうち原文上で連続する所定数の語句の対訳語句の組み合わせに相当する、複数の対訳語句の配列全体よりも短い対訳語句の部分配列」に対応していると共に、ステップ59で生成される対訳組み合わせパターンは、先のステップ40で生成される対訳組み合わせパターンの一部であるので、請求項2に記載の「語句部分配列」にも対応している。
次のステップ60では、検索サービス提供サーバが提供する検索サービスを利用し、インターネット14を介してアクセス可能なテキストの中に、ステップ59で生成した個々の対訳組み合わせパターンを含むテキスト(検索対象の対訳組み合わせパターンを構成する個々の対訳語句が、検索対象の対訳組み合わせパターンと同一の順序で連続して出現するテキスト)が存在しているか否かを順次検索するウェブ検索を行う。この時点では変数j=1、(j+i−1)=14であるので、ステップ59では、以下に区切り記号"|"で囲んで示す対訳語句o〜bの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×…×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索されることになる。
|o p q r s t u v w x y z a b|c
次のステップ62では、ステップ60のウェブ検索によって該当するテキストが抽出された(ヒット件数が1件以上の)対訳組み合わせパターンが出現したか否か判定する。判定が否定された場合はステップ64へ移行し、変数jを1だけインクリメントしてステップ54に戻る。この時点で変数j=2、(j+i−1)=15であるので、ステップ54の判定が再度否定されると共にステップ58の判定が再度肯定されてステップ59へ移行し、以下に示すように、前回に対して1語句だけ後にずれた位置から前回と同じ長さの対訳語句p〜cの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×…×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
o|p q r s t u v w x y z a b c|
このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ62の判定が否定された場合には、ステップ64で更に変数jが1だけインクリメントされてステップ54に戻る。この時点で変数j=3、(j+i−1)=16であるので、ステップ54の判定が肯定されてステップ56へ移行し、変数iを1だけデクリメントして(i=13となる)ステップ50に戻る。そしてステップ50の判定を経てステップ52で変数jが1に戻される。この時点で変数j=1、(j+i−1)=13であり、ステップ54,58の判定を経て、ステップ59で以下に示す対訳語句o〜aの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×…×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
|o p q r s t u v w x y z a|b c
このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ62の判定が否定された場合には、ステップ64で更に変数jが1だけインクリメントされてステップ54に戻る。この時点で変数j=2、(j+i−1)=14であるので、ステップ54、58の判定を経て、ステップ59で以下に示すように、前回に対して1語句だけ後にずれた位置から前回と同じ長さの対訳語句p〜bの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×…×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
o|p q r s t u v w x y z a b|c
このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ62の判定が否定された場合には、ステップ64で更に変数jが1だけインクリメントされてステップ54に戻る。この時点で変数j=3、(j+i−1)=15であるので、ステップ54、58の判定を経て、ステップ59で以下に示すように、前回に対して1語句だけ後にずれた位置から前回と同じ長さの対訳語句q〜cの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×…×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
o p|q r s t u v w x y z a b c|
このウェブ検索でも該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ62の判定が否定された場合には、ステップ64で更に変数jが1だけインクリメントされてステップ54に戻る。この時点で変数j=4、(j+i−1)=16であるので、ステップ54の判定が肯定されてステップ56へ移行し、変数iを1だけデクリメントして(i=12となる)ステップ50に戻る。そしてステップ50の判定を経てステップ52で変数jが1に戻される。この時点で変数j=1、(j+i−1)=12であり、ステップ54,58の判定を経て、ステップ59で以下に示す対訳語句o〜zの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×…×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
|o p q r s t u v w x y z|a b c
以下同様に、ウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現しない間は、対訳組み合わせパターンの生成に用いる原文上の語句配列の先頭を1語句ずつ後にずらしながら対訳組み合わせパターンの生成、ウェブ検索を繰り返し、対訳組み合わせパターンの生成に用いる原文上の語句配列の末尾が原文の末尾に達する毎に(ステップ54の判定が肯定される毎に)、対訳組み合わせパターンの生成に用いる原文上の語句配列を1語句だけ短くすることが繰り返されることになる。
ここで、変数i(対訳組み合わせパターンの生成に用いる原文上の語句配列の語句数)=4、変数j(対訳組み合わせパターンの生成に用いる原文上の語句配列の先頭語句)=4、(j+i−1)=7となっている時に、ステップ54,58の判定を経て、ステップ59で以下に示す対訳語句r〜uの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×n×n)、生成された個々の対訳組み合わせパターンを含むテキストをステップ60で順次検索したところ、
o p q|r s t u|v w x y z a b c
該当するテキストが抽出された対訳組み合わせパターンが出現したものとして、以下の処理を説明する。
この場合、ステップ62の判定が肯定されてステップ66へ移行し、まずステップ60のウェブ検索で該当するテキストが抽出された対訳組み合わせパターンの数を認識する。認識した数が1の場合には、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンを、原文を構成する語句配列のうちj番目〜(j+i−1)番目の語句の配列の対訳候補としてHDD16C(請求項5に記載の記憶手段)に記憶させる。また、ステップ60のウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが複数存在している場合には、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンを判断し、当該対訳組み合わせパターンにおけるテキストのヒット件数を基準(100%)として他の対訳組み合わせパターンにおけるテキストのヒット件数の比率を演算する。そして、ヒット件数の比率が閾値以上の対訳組み合わせパターンを、原文を構成する語句配列のうちj番目〜(j+i−1)番目の語句の配列の対訳候補としてHDD16Cに記憶させる。
次のステップ68では変数jを1だけインクリメントしてステップ54に戻る。この時点で変数j=5、(j+i−1)=8であり、ステップ54の判定は否定されるものの、原文中の4番目〜7番目の語句は対応する対訳語句がウェブ検索で既にヒットしているので(対訳語句の配列のうちウェブ検索でヒットした対訳語句を英大文字に表記し、括弧記号"[","]"で囲んで以下に示す)、
o p q[R S T U]v w x y z a b c
ステップ58の判定が否定されてステップ64へ移行し、変数jを1だけインクリメントしてステップ54に戻る。このように、ステップ58の判定は、請求項5に記載の「記憶手段に記憶させた対訳語句の部分配列に対応する原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外」するステップに対応している。このステップ54,58,64のループは、変数j=8、(j+i−1)=11となり、原文中のj番目〜(j+i−1)番目の語句に対応する対訳語句がウェブ検索で全て未ヒットとなることで、ステップ58の判定が肯定される迄繰り返される。そして、変数j=8、(j+i−1)=11になるとステップ58の判定が肯定され、以下に示すように対訳語句v〜yの配列に対応する対訳組み合わせパターンがステップ59で生成され(生成される対訳組み合わせパターン数=n×n×n×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
o p q[R S T U]|v w x y|z a b c
このウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現せずにステップ62の判定が否定された場合には、ステップ64で更に変数jが1だけインクリメントされてステップ54に戻る。この時点で変数j=9、(j+i−1)=12であるので、ステップ54、58の判定を経て、ステップ59で以下に示すように、前回に対して1語句だけ後にずれた位置から前回と同じ長さの対訳語句w〜zの配列に対応する対訳組み合わせパターンが生成され(生成される対訳組み合わせパターン数=n×n×n×n)、生成された個々の対訳組み合わせパターンを含むテキストがステップ60で順次検索される。
o p q[R S T U]v|w x y z|a b c
このウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現した場合、ステップ62の判定が肯定されてステップ66へ移行し、該当するテキストが抽出された対訳組み合わせパターンの数が1であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンを、原文中のj番目〜(j+i−1)番目の語句の配列の対訳候補としてHDD16Cに記憶させる。該当するテキストが抽出された対訳組み合わせパターンが複数存在している場合は、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンにおけるテキストのヒット件数を基準(100%)として他の対訳組み合わせパターンにおけるテキストのヒット件数の比率を演算し、ヒット件数の比率が閾値以上の対訳組み合わせパターンを、原文中のj番目〜(j+i−1)番目の語句の配列の対訳候補としてHDD16Cに記憶させる。そしてステップ68で変数jを1だけインクリメントしてステップ54に戻る。
この時点で変数j=10、(j+i−1)=13であり、ステップ54の判定は否定されるものの、原文中の4番目〜7番目及び8番目〜11番目の語句は対応する対訳語句がウェブ検索で既にヒットしているので(以下に示す対訳語句の配列も参照)、ステップ58の判定が否定され、前述のステップ54,58,64のループに入る。
o p q[R S T U]v[W X Y Z]a b c
但し、このときは原文中の11番目の語句より後に、対応する対訳語句がウェブ検索でヒットしていない語句が3個(<i)しか連続していないので、変数j=13、(j+i−1)=16となった時点でステップ54の判定が肯定されることで変数(対訳語句数)i=4の対訳組み合わせパターンの検索を終了し、ステップ56で変数iが1だけデクリメントされる(i=3となる)と共に、ステップ50の判定を経てステップ52で変数jが1に戻される。
続いて変数(対訳語句数)i=3の対訳組み合わせパターンの検索が行われるが、この時点で対応する対訳語句がウェブ検索でヒットしていない語句が3個以上連続しているのは、原文中の1番目〜3番目及び13番目〜15番目の語句の配列のみであるので、対訳組み合わせパターンの生成(ステップ59)、生成した個々の対訳組み合わせパターンを含むテキストのウェブ検索(ステップ60)は、以下に示すように対訳語句o〜qの配列及び対訳語句a〜cの配列に対してのみ順に行われる。
|o p q|[R S T U]v[W X Y Z]a b c
o p q[R S T U]v[W X Y Z]|a b c|
ここで、対訳語句a〜cの配列に対応する対訳組み合わせパターンのウェブ検索で該当するテキストが抽出された対訳組み合わせパターンが出現した場合は、ステップ66において、該当するテキストが抽出された対訳組み合わせパターンの数が1であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンが、原文中のj番目〜(j+i−1)番目、すなわち13番目〜15番目の語句の配列の対訳候補としてHDD16Cに記憶され、該当するテキストが抽出された対訳組み合わせパターンの数が複数であれば、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンにおけるテキストのヒット件数を基準(100%)としたときの他の対訳組み合わせパターンにおけるテキストのヒット件数の比率が演算され、ヒット件数の比率が閾値以上の対訳組み合わせパターンが原文中の13番目〜15番目の語句の配列の対訳候補としてHDD16Cに記憶される。なお、変数(対訳語句数)i=3の対訳組み合わせパターンの検索が終了した時点での対訳語句の配列の状態を以下に示す。
o p q[R S T U]v[W X Y Z][A B C]
続いて変数(対訳語句数)i=2の対訳組み合わせパターンの検索が行われるが、この時点で対応する対訳語句がウェブ検索でヒットしていない語句が2個以上連続しているのは、原文中の1番目〜3番目の語句の配列のみであるので、対訳組み合わせパターンの生成(ステップ59)、生成した個々の対訳組み合わせパターンを含むテキストのウェブ検索(ステップ60)は、以下に示すように対訳語句o,pの配列及び対訳語句p,qの配列に対してのみ順に行われる。
|o p|q[R S T U]v[W X Y Z][A B C]
o|p q|[R S T U]v[W X Y Z][A B C]
ここで、対訳語句p,qの配列に対応する対訳組み合わせパターンのウェブ検索で、該当するテキストが抽出された対訳組み合わせパターンが出現した場合は、ステップ66において、該当するテキストが抽出された対訳組み合わせパターンの数が1であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳組み合わせパターンが、原文中のj番目〜(j+i−1)番目、すなわち2番目〜3番目の語句の配列の対訳候補としてHDD16Cに記憶され、該当するテキストが抽出された対訳組み合わせパターンの数が複数であれば、それぞれの対訳組み合わせパターンのうちテキストのヒット件数が最大の対訳組み合わせパターンにおけるテキストのヒット件数を基準(100%)としたときの他の対訳組み合わせパターンにおけるテキストのヒット件数の比率が演算され、ヒット件数の比率が閾値以上の対訳組み合わせパターンが、原文中の2番目〜3番目の語句の配列の対訳候補としてHDD16Cに記憶される。なお、変数(対訳語句数)i=2の対訳組み合わせパターンの検索が終了した時点での対訳語句の配列の状態を以下に示す。
o[P Q][R S T U]v[W X Y Z][A B C]
変数(対訳語句数)i=2の対訳組み合わせパターンの検索が終了すると、ステップ54の判定が肯定されてステップ56へ移行し、変数iが更に1だけインクリメントされてi=1となるので、ステップ50の判定が肯定されてステップ70へ移行する。なお、ステップ70へ移行した時点で、翻訳対象の原文の語句配列は、より確からしい対訳文が得られると推測される分割パターン(上記の例では、ヒット件数の比率が閾値以上の対訳組み合わせパターンが対訳候補としてHDD16Cに記憶されている語句配列[PQ],[RSTU],[WXYZ],[ABC]と、それ以外の語句o,v)に分割されていることになる。
ステップ70では、上記分割パターンによって分割された原文中の個々の要素(語句配列又は語句)のうち、ヒット件数の比率が閾値以上の対訳組み合わせパターンが対訳候補として記憶されている語句配列については上記の対訳候補を、対応する対訳語句がウェブ検索でヒットしなかった語句については対訳辞書DBから取得した対訳語句を各々HDD16Cから全て読み出し、読み出した対訳候補・対訳語句の組み合わせ(対訳文候補)を生成する。これにより、例えば上記分割パターンにおける要素数をb、個々の要素における対訳候補又は対訳語句毎の数をn,n,…,nとすると、n×n×…×n個の対訳文候補が生成される。
続いて、検索サービス提供サーバが提供する検索サービスを利用し、インターネット14を介してアクセス可能なテキストの中に、上記で生成した特定の対訳文候補を構成する対訳語句を全て含むテキスト(特定の対訳文候補を構成する個々の対訳語句を、特定の対訳文候補と語句順序が同一か相違しているかに拘わらず、かつ連続して出現しているかとびとびに出現しているかに拘わらず全て含んでいるテキスト)が存在しているか否かを検索するウェブ検索を、上記で生成した全ての対訳文候補について順次行う。これにより、個々の対訳文候補を構成する対訳語句の共起性が調査される。
そして次のステップ72では、ステップ70のウェブ検索で該当するテキストが抽出された対訳文候補の数が1であれば、ウェブ検索で該当するテキストが抽出された唯一の対訳文候補を原文に対応する対訳文候補として出力し、対訳判断処理を終了する。また、ステップ70のウェブ検索で該当するテキストが抽出された対訳文候補が複数存在している場合は、それぞれの対訳文候補のうちテキストのヒット件数が最大の対訳文候補におけるテキストのヒット件数を基準(100%)として他の対訳文候補におけるテキストのヒット件数の比率を演算し、ヒット件数の比率が閾値以上の対訳文候補を原文に対応する対訳文候補として出力し、対訳判断処理を終了する。この場合も、ウェブ検索の結果に基づきステップ66でHDD16Cに記憶された対訳候補を各々含む複数の対訳文候補のうち、共起性に基づいて目的言語の文章としての自然度が最大又は上位と推定される対訳文候補が原文に対応する対訳文候補として出力されることになる。
なお、上記では原文を構成する各語句のうち原文上で連続する所定数の語句の各々の対訳語句の組み合わせに相当する複数の対訳組み合わせパターンを生成し、生成した個々の対訳組み合わせパターンを含むテキストを順次検索することを、対訳組み合わせパターンの生成に用いる原文上の語句の数を徐々に少なくしながら繰り返すと共に、前記検索によって該当するテキストが抽出された対訳組み合わせパターンを対訳候補として採用し、当該対訳組み合わせパターンに対応する原文上の語句配列を、以後の対訳組み合わせパターンの生成に用いる語句から除外する処理を行うことで、上記検索で抽出された該当するテキストのヒット件数よりも、上記検索で該当するテキストが抽出された対訳組み合わせパターンの長さ(語句数)を優先して対訳文候補を判断する態様を説明したが、本発明はこれに限定されるものではなく、長さの長い(語句数の多い)特定の対訳組み合わせパターンが、本来は目的言語としての自然度が低いにも拘わらず、インターネットを介してアクセス可能なテキストの中に上記特定の対訳組み合わせパターンを含むテキストが偶然存在していたために、上記特定の対訳組み合わせパターンが対訳文候補の一部として採用される可能性を排除するために、例えば対訳組み合わせパターンの検索において、該当するテキストのヒット件数が基準値以上の場合にのみ、対応する対訳組み合わせパターンを対訳候補として採用するようにしてもよいし、検索で該当するテキストが抽出された対訳組み合わせパターンに対応する原文上の語句配列も以後の対訳組み合わせパターンの生成に用いる語句から除外せずに、対訳組み合わせパターンの生成・ウェブ検索を行った後に、ウェブ検索で該当するテキストが抽出された全ての対訳組み合わせパターンについて、対訳組み合わせパターンの長さ及びテキストのヒット件数を比較し、対訳候補として採用する対訳組み合わせパターンを選択し対訳文候補を生成するようにしてもよい。
また、上記ではクライアント端末16のHDD16Cに対訳辞書DBが記憶されている態様を説明したが、本発明はこれに限定されるものではなく、例として図3(A)に示すように、インターネット14に接続され対訳サービス提供サーバとして機能するウェブサーバ12のHDD12Cに対訳辞書DBを記憶させておき、クライアント端末16は、翻訳対象として指定された原文の対訳を判断するにあたり、まず原文を構成する各語句の対訳を対訳サービス提供サーバに問い合わせることで取得(同図の(1)〜(3)を参照)した後に、取得した各語句の対訳に基づきウェブ検索を行って原文の対訳文(原文に対応する対訳文候補)を判断するように構成することも可能である。
また、上記では原文の対訳(原文に対応する対訳文候補)の判断をクライアント端末16が行う態様を説明したが、本発明はこれに限定されるものでもなく、例として図3(B)に示すように、対訳サービス提供サーバとして機能するウェブサーバ12のHDD12Cに対訳辞書DBを記憶させると共に、上記で説明した対訳判断処理と同様の処理を行うプログラムを予めインストールしておき、クライアント端末16から原文のテキストデータを受信することで対訳文の問い合わせを受ける毎に(同図の(1)参照)、受信した原文を構成する各語句の対訳を対訳辞書DBから取得し、取得した各語句の対訳に基づきウェブ検索を行って原文の対訳文(原文に対応する対訳文候補)を判断し(同図の(2)参照)、判断した対訳文を問い合わせ元のクライアント端末16へ送信する(同図の(3)参照)ように構成することも可能である。なお、上記態様において、対訳サービス提供サーバとして機能するウェブサーバ12は請求項7に記載のコンピュータに、上記ウェブサーバ12に予めインストールされた上記プログラムは請求項7に記載の語句配列の自然度判定プログラムに対応している。
また、上記では翻訳対象として指定された原文に対応する対訳文を判断する際に本発明を適用した態様を説明したが、本発明は対訳文の判断に限定されるものではなく、例えば文章として作成された語句配列が複数存在している場合に、文章としての自然度がより高い語句配列を自動的に判定・評価して選択する等の態様にも適用可能である。
本実施形態に係るコンピュータ・システムの概略構成を示すブロック図である。 対訳判断処理の内容を示すフローチャートである。 本発明の他の態様を示す概念図である。
符号の説明
10 コンピュータ・システム
12 ウェブサーバ
14 インターネット
16 クライアント端末
16C HDD

Claims (7)

  1. インターネットに接続されたコンピュータによって実現される語句配列の自然度判定装置であって、
    検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段と、
    前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段と、
    を備えたことを特徴とする語句配列の自然度判定装置。
  2. 前記判定手段は、前記検索手段に対し前記判定対象の語句配列全体を検索対象として指定して前記検索を行わせ、当該検索で該当するテキストが抽出されなかった場合に、前記判定対象の語句配列から前記判定対象の語句配列全体よりも短い語句部分配列を検索対象として抽出し、前記検索手段に対し前記抽出した語句部分配列を検索対象として指定して前記検索を行わせることを、前記検索対象として抽出する語句部分配列の長さを徐々に短くしながら繰り返し、前記検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の語句部分配列の長さに基づいて、前記判定対象の語句配列について文章としての自然度を判定することを特徴とする請求項1記載の語句配列の自然度判定装置。
  3. 原言語の原文を構成する各語句について目的言語の対訳語句を各々取得し、前記判定対象の語句配列として、前記各語句毎に取得した対訳語句の組み合わせに相当する、前記目的言語の対訳語句の配列を複数生成する生成手段を更に備え、
    前記判定手段は、前記検索手段に対し、前記生成手段によって生成された複数の対訳語句の配列を検索対象として各々指定して前記検索を行わせ、個々の検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択することを特徴とする請求項1記載の語句配列の自然度判定装置。
  4. 前記判定手段は、前記検索手段に対し前記複数の対訳語句の配列全体を検索対象として指定して前記検索を行わせ、当該検索で何れも該当するテキストが抽出されなかった場合に、原言語の原文を構成する各語句のうち原文上で連続する所定数の語句の対訳語句の組み合わせに相当する、前記複数の対訳語句の配列全体よりも短い対訳語句の部分配列を前記生成手段によって複数生成させ、前記検索手段に対し前記生成手段によって生成された複数の対訳語句の部分配列を検索対象として各々指定して前記検索を行わせることを、前記対訳語句の部分配列の生成に用いる前記原文上の語句の数を徐々に少なくしながら繰り返し、前記検索手段による検索によって抽出されたテキストの有無、抽出されたテキストの数及びテキストが抽出されたときの検索対象の対訳語句の部分配列の長さに基づいて、前記複数の対訳語句の配列の中から目的言語の文章としての自然度が上位の対訳語句の配列を選択することを特徴とする請求項3記載の語句配列の自然度判定装置。
  5. 前記判定手段は、前記検索手段による検索によって該当するテキストが抽出される毎に、当該検索に用いた対訳語句の部分配列を記憶手段に記憶させると共に、記憶手段に記憶させた対訳語句の部分配列に対応する前記原文上の所定数の語句を、以後の対訳語句の部分配列の生成に用いる語句から除外し、対訳語句の部分配列の生成に使用可能な語句が原文上で連続していない状態となった場合に、前記記憶手段に記憶させた対訳語句の部分配列の各組み合わせについて、該組み合わせを構成する全ての対訳語句を含むテキストがインターネットを介してアクセス可能なテキストの中に存在しているか否かを前記検索手段によって検索させ、前記全ての対訳語句を含むテキストの有無、前記検索によって抽出された前記全ての対訳語句を含むテキストの数に基づいて、前記記憶手段に記憶させた対訳語句の部分配列の各組み合わせの中から目的言語の文章としての自然度が上位の対訳語句の部分配列の組み合わせを選択することを特徴とする請求項4記載の語句配列の自然度判定装置。
  6. インターネットに接続されたコンピュータによって実現される語句配列の自然度判定方法であって、
    複数の語句が配列されて成る判定対象の語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索し、
    前記検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する
    ことを特徴とする語句配列の自然度判定方法。
  7. インターネットに接続されたコンピュータを語句配列の自然度判定装置として機能させるための語句配列の自然度判定プログラムであって、
    前記コンピュータを、
    検索対象として指定された語句配列がインターネットを介してアクセス可能なテキストの中に存在しているか否かを検索する検索手段、
    及び、前記検索手段に対し、複数の語句が配列されて成る判定対象の語句配列を検索対象として指定して前記検索を行わせ、前記検索手段による検索によって抽出されたテキストの有無及び抽出されたテキストの数に基づいて、前記判定対象の語句配列について文章としての自然度を判定する判定手段
    として機能させることを特徴とする語句配列の自然度判定プログラム。
JP2005315261A 2005-10-28 2005-10-28 語句配列の自然度判定装置、方法及びプログラム Pending JP2007122509A (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2005315261A JP2007122509A (ja) 2005-10-28 2005-10-28 語句配列の自然度判定装置、方法及びプログラム
PCT/JP2006/321804 WO2007049792A1 (en) 2005-10-28 2006-10-25 Apparatus, method, and storage medium storing program for determining naturalness of array of words
US12/091,687 US20090292525A1 (en) 2005-10-28 2006-10-25 Apparatus, method and storage medium storing program for determining naturalness of array of words
KR1020087012563A KR20080066965A (ko) 2005-10-28 2006-10-25 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체
EP06822733A EP1949261A1 (en) 2005-10-28 2006-10-25 Apparatus, method, and storage medium storing program for determining naturalness of array of words
CA002627321A CA2627321A1 (en) 2005-10-28 2006-10-25 Apparatus, method, and storage medium storing program for determining naturalness of array of words
CNA200680039691XA CN101297288A (zh) 2005-10-28 2006-10-25 用于确定字词排列的自然度的装置、方法和程序存储介质
TW095139901A TW200805091A (en) 2005-10-28 2006-10-27 Apparatus, method, and program for determining naturalness of array of words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005315261A JP2007122509A (ja) 2005-10-28 2005-10-28 語句配列の自然度判定装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2007122509A true JP2007122509A (ja) 2007-05-17

Family

ID=37967897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005315261A Pending JP2007122509A (ja) 2005-10-28 2005-10-28 語句配列の自然度判定装置、方法及びプログラム

Country Status (8)

Country Link
US (1) US20090292525A1 (ja)
EP (1) EP1949261A1 (ja)
JP (1) JP2007122509A (ja)
KR (1) KR20080066965A (ja)
CN (1) CN101297288A (ja)
CA (1) CA2627321A1 (ja)
TW (1) TW200805091A (ja)
WO (1) WO2007049792A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010535377A (ja) * 2007-08-01 2010-11-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007129316A2 (en) 2006-05-07 2007-11-15 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
WO2009063464A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US7984034B1 (en) 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US8515729B2 (en) * 2008-03-31 2013-08-20 Microsoft Corporation User translated sites after provisioning
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
EP2313835A4 (en) * 2008-07-31 2012-08-01 Ginger Software Inc GENERATION, CORRECTION AND LANGUAGE ENHANCEMENT SENSITIVE TO THE AUTOMATIC CONTEXT USING AN INTERNET CORPUS
EP2531930A1 (en) 2010-02-01 2012-12-12 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
WO2012066650A1 (ja) * 2010-11-17 2012-05-24 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
KR20130014106A (ko) * 2011-07-29 2013-02-07 한국전자통신연구원 다중 번역 엔진을 사용한 번역 장치 및 방법
US9323736B2 (en) 2012-10-05 2016-04-26 Successfactors, Inc. Natural language metric condition alerts generation
US20140100923A1 (en) * 2012-10-05 2014-04-10 Successfactors, Inc. Natural language metric condition alerts orchestration
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
KR101255979B1 (ko) * 2012-12-17 2013-04-23 학교법인 화신학원 스마트기기를 이용한 영단어 학습 프로그램
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
JP6898298B2 (ja) 2015-07-07 2021-07-07 バーコード リミティド 電子品質表示指標
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251055A (ja) * 1993-02-22 1994-09-09 Nippon Hoso Kyokai <Nhk> 機械翻訳方式
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US6236768B1 (en) * 1997-10-14 2001-05-22 Massachusetts Institute Of Technology Method and apparatus for automated, context-dependent retrieval of information
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
SE517496C2 (sv) * 2000-06-22 2002-06-11 Hapax Information Systems Ab Metod och system för informationsextrahering
US20030101044A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
US7340388B2 (en) * 2002-03-26 2008-03-04 University Of Southern California Statistical translation using a large monolingual corpus
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US7774292B2 (en) * 2003-11-10 2010-08-10 Conversive, Inc. System for conditional answering of requests
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
US20060212426A1 (en) * 2004-12-21 2006-09-21 Udaya Shakara Efficient CAM-based techniques to perform string searches in packet payloads

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010535377A (ja) * 2007-08-01 2010-11-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
JP5497230B1 (ja) * 2013-06-10 2014-05-21 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP2014238772A (ja) * 2013-06-10 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP5586772B1 (ja) * 2013-11-22 2014-09-10 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法
JP2014238808A (ja) * 2013-11-22 2014-12-18 株式会社バイトルヒクマ 翻訳システム及び翻訳プログラム、並びに翻訳方法

Also Published As

Publication number Publication date
CN101297288A (zh) 2008-10-29
US20090292525A1 (en) 2009-11-26
WO2007049792A1 (en) 2007-05-03
KR20080066965A (ko) 2008-07-17
EP1949261A1 (en) 2008-07-30
TW200805091A (en) 2008-01-16
CA2627321A1 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
JP2007122509A (ja) 語句配列の自然度判定装置、方法及びプログラム
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
US7949514B2 (en) Method for building parallel corpora
US20170185581A1 (en) Systems and methods for suggesting emoji
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
CN102385609B (zh) 对于包含非编码字符的查询使用统一资源定位符来增强搜索结果相关性排序
JP2005267638A (ja) 改善されたスペルチェックのためのシステムおよび方法
JP2009543255A (ja) パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること
TR201816343T4 (tr) Farklı bir karakter setinde yazılmış sorguları ve/veya farklı sayfalardan dili kullanarak aramaya yönelik sistemler ve yöntemler.
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2006252380A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP4401269B2 (ja) 対訳判断装置及びプログラム
JP3937741B2 (ja) 文書の標準化
Nghiem et al. Automatic approach to understanding mathematical expressions using mathml parallel markup corpora
JP4155970B2 (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
JP5100460B2 (ja) 対訳表現処理装置およびプログラム
WO2021009972A1 (ja) 自然言語処理方法、自然言語処理システム、及び、自然言語処理プログラム
JP2012243130A (ja) 情報検索装置、方法、及びプログラム
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム