JP2009543255A - パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること - Google Patents
パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること Download PDFInfo
- Publication number
- JP2009543255A JP2009543255A JP2009519452A JP2009519452A JP2009543255A JP 2009543255 A JP2009543255 A JP 2009543255A JP 2009519452 A JP2009519452 A JP 2009519452A JP 2009519452 A JP2009519452 A JP 2009519452A JP 2009543255 A JP2009543255 A JP 2009543255A
- Authority
- JP
- Japan
- Prior art keywords
- parallel
- tree
- tree structure
- page
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000005065 mining Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 13
- 238000013519 translation Methods 0.000 description 9
- 230000014616 translation Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000008531 maintenance mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
所与のネットワーク位置(ウェブ・サイトなど)からダウンロードされた1つまたは複数のページ中のトリガ・ワードに基づいて、1組の候補パラレル・ページが識別される。それらの候補ページのそれぞれを表す1組のドキュメント・ツリーが対応付けられて、翻訳的にパラレルなコンテンツおよびハイパーリンクを特定する。パラレルなコンテンツはさらに、パラレルな文に対する従来の文アライナに送られる。また、このパラレルなハイパーリンクは通常、パラレルな他のドキュメントを参照し、パラレルなドキュメントを再帰的にマイニングすることへと導く。
Description
本明細書で使用されるパラレルな二言語コーパス(Parallel bilingual corpora)とは、第2の言語のテキスト形式データの翻訳として特定される第1の言語のテキスト形式データ(textual data)を指す。例示のために、本明細書で論ずるテキスト形式データはドキュメントであるが、他のテキスト形式のデータも同様に使用することができる。
あるドキュメントが、別のドキュメントの翻訳であるとき、その2つのドキュメントは、パラレルな、二言語のドキュメント(parallel bilingual documents)と呼ばれる。したがって、パラレルな、二言語のコーパス(corpus)とは、第2の言語におけるデータのコーパスの翻訳である第1の言語におけるデータのコーパスを指す。
1組のパラレルなドキュメント内で、互いに対する翻訳であるこれらのドキュメント中の文を特定することがしばしばある。それらは、対応付けられた文(aligned sentences)と呼ばれる。したがって、第1の言語におけるドキュメントが、第2の言語のパラレルなドキュメントと一致する場合、また2つのドキュメント中の文が互いに対応付けられ()ている(第1の言語の文が、第2の言語のその翻訳と対応付けられ(aligned)ているという点で)場合、2つのドキュメントはパラレルであり、文が対応付けられ(aligned)ており、二言語ドキュメントであると呼ばれる。
現在、パラレルな、二言語コーパス(対訳コーパス;bilingual corpora)を求める広範囲な必要性がある。例えば、このようなコーパスは、統計的機械翻訳システム(statistical machine translation systems)を訓練するために、また言語横断情報検索(cross- lingual information retrieval)を行うために、重要な資源であることが多い。さらに、このようないくつかのコーパスは、多義性解消(語意の曖昧性の除去;word sense disambiguation)および言い換えの取得(paraphrase acquisition)など、様々な単一言語の自然言語処理タスクに対しても利用されてきた。
しかし、大規模なパラレル・コーパスは、多くの言語の対に対して、現在、容易に利用することができない。いくつかのこのようなコーパスが利用可能である言語の場合であっても、これらのコーパスにおけるデータは、通常、政府の文書またはニュース・ワイヤ・テキストに限定される。これらのタイプのドキュメントで使用されるものは、特定の文体または領域特化型(分野特有;domain-specific)の言語であるため、これらのコーパスを、データ駆動の機械翻訳システムもしくは情報検索システムの訓練において、あるいはさらに上記で論じた単一言語の自然言語プロセッサにおいても、異なる言語対のある範囲の領域に対して簡単に使用することができない。
広域ネットワークで利用可能な二言語のページの数が、(ウェブ・サイトなどで)最近急増している。したがって、いくつかのウェブ・マイニング・システムが開発され、ワールド・ワイド・ウェブから、パラレルな、二言語コーパスを自動的に取得している。これらのシステムは、URL(uniform resource locators)を使用し、パラレル・ウェブ・ページが、ウェブ・サイトの維持を容易にするための事前定義のパターンで名前が付けられていると仮定する。したがって、これらのシステムに、二言語のウェブ・サイトURLが与えられた場合、このシステムは、そのウェブ・サイト内の候補パラレル・ドキュメントを発見しようとして、事前定義のURLパターンを使用する。次いで、コンテンツ・ベースの機構(content-based features)が使用されて、候補対の翻訳的な等価性(translational equivalents)を検証する。
これらのタイプのシステムが成功するのは限られた場合である。例えば、ウェブ・ページのスタイルおよびウェブ・サイトの維持メカニズムには広範囲な多様性がある。したがって、二言語ウェブ・サイトは、事前定義のパターンに準拠しない様々な名前付けスキームを、パラレル・ドキュメントに対して使用することがしばしばある。
さらに、これらのURLパターン・ベースのマイニング・システムは、帯域幅の点で問題となり得る。これらのタイプのマイニング・プロセスは、パラレルである可能性のあるドキュメントを発見するための事前定義のURLパターンを用いる前に、ホストに十分なクローリングを行ってURLを収集することを要求する。したがって、これらのURLパターン・ベースのシステムは、高帯域幅および高コストを必要とし、その結果、低いダウンロードスピードになることが多い。多くの二言語ウェブ・サイトであっても、非常に限られた数のパラレル・ドキュメントを有するにすぎないので、ネットワーク帯域幅のかなりの部分は、翻訳上の等価物を有していないウェブ・ページのダウンロードに費やされる。
さらに、ウェブ・ドキュメントのノイズの多い性質により、パラレル・ウェブ・ページは、翻訳とは無関係のコンテンツや、および用語(vocabulary words)以外の多くのものを含む可能性がある。これらは共に、2つのパラレル・ドキュメントが特定された後であっても、文の対応付け(alignment)の正確さを低減する。さらに、従来の文アライナ(sentence aligner)は、レイアウトの類似度などの、他のファクタを考慮せずに平凡なテキスト(conventional text)に対して動作するだけである。
上記の議論は、単に、全体的な背景情報を提供するだけであり、特許請求する主題の範囲を決定するための一助として使用されることを意図していない。
1組の候補パラレル・ページが、所与のネットワーク位置(ウェブ・サイトなど)からダウンロードされた1つまたは複数のページにおけるトリガ・ワードに基づいて、特定される。その候補ページのそれぞれを表す1組のドキュメント・ツリーが、パラレルなコンテンツを翻訳上で特定するために対応付けられる(aligned)。
一実施形態では、有効なHTMLドキュメントをナビゲートするための知られたアプリケーション・プログラミング・インターフェースであるドキュメント・オブジェクト・モデル(DOM;Document Object Model)に従って、ドキュメント・ツリーが生成される。ツリー対応付け計算(tree alignment computation)を容易にするために、一実施形態では、DOMツリーに対して、わずかな変更が行われる。他の実施形態では、ツリーが対応付けられ(aligned)た後、パラレルなハイパーリンクが特定される。これらのハイパーリンクに対応するページが、次いで、候補パラレル・ページの新しい組としてダウンロードされる。
この概要は、以下の詳細な説明にさらに記載される概念の選択を簡略化した形で紹介するために提供される。この概要は、特許請求される主題の重要な特徴または本質的な特徴を特定することを意図しておらず、あるいは特許請求される主題の範囲を決定するための一助として使用されることも意図していない。特許請求される主題は、この背景において示された幾つかのまたはすべての欠点を解決する実装形態に限定されない。
図1は、一実施形態によるパラレルなコーパス・マイニング・システム100のブロック図である。システム100は、ネットワーク104を介してドキュメント102に結合されて示されている。ネットワーク104は、例示的に、インターネットなどの広域ネットワークであるが、ローカルエリア・ネットワークまたは異なるタイプのネットワークとすることも同様に可能である。さらに、当然であるが、ドキュメント102は、例示的に、ネットワーク104を介して、システム100によりアクセス可能な1つまたは様々の異なるサイトにおけるデータもしくは他のテキスト形式のコンテンツを表す。
一実施形態では、システム100は、ネットワーク104を介してドキュメント102からデータを取り出して、パラレルな、対応付けられた文(aligned sentences)106を生成し、これは、格納のために、機械翻訳システムで使用するために、単一言語の自然言語処理システムで使用するために、情報検索システムで使用するためになど、様々な異なる理由の1つのために出力される。これらの様々なシステムは、図1のブロック108で示されている。
図1で示す実施形態は、システム100が、ナビゲーション・コンポーネント110、ダウンロード・コンポーネント112、ならびにページ検証およびツリー対応付けシステム114(tree alignment system)を含む。ツリー対応付けシステム114それ自体は、例示的に、パラレル性検査コンポーネント(parallelism checking component)116、パラレル性検証器(verifier)コンポーネント118、ツリー対応付けコンポーネント(tree alignment component)120、および文対応付けコンポーネント122を含む。
図2は、システム100のオペレーションの例示的な一実施形態を、より詳細に示す流れ図である。図2は、ワールド・ワイド・ウェブおよびインターネットに対するシステム100のオペレーションについて述べられている。しかし、上記で述べたように、任意の他のタイプのネットワークも同様に使用することができる。
いずれの場合であっても、ナビゲーション・コンポーネント110は、例示的に、システム100を所与のウェブ・ページにナビゲートできるウェブ・ブラウザなどの従来のネットワーク・ナビゲーション・コンポーネントである。最初のウェブ・サイト・アドレスがナビゲーション・コンポーネント110に提供されると、ナビゲーション・コンポーネント110は、そのアドレスに対応するウェブ・サイトへとナビゲートする。これは、図2のブロック130により示される。例示的な一実施形態では、所与のウェブ・サイトは、ユーザによって、またはクローラなどの自動化されたウェブ・サイト位置特定機構によって、または任意の他の所望の入力装置によって、与えられる。
所与のウェブ・サイトで一度、ダウンロード・コンポーネント112は、例示的に、そのウェブ・サイトからルート・ページおよび第1のレベルのページをダウンロードする。第1のレベルのページとは、ルート・ページにより直接リンクされるページである。これは、図2でブロック132により示されている。ダウンロードされたページは、図1で候補ページ134と呼ばれる。候補ページは、そのウェブ・サイトが二言語であるかどうかを検査するために使用される。そうである場合、候補ページは、システム114により、パラレルな対の識別、検証、およびツリー対応付け(tree alignment)のために処理される。
ウェブ・サイトが二言語であるかどうかを検査し、その候補から、パラレルである可能性のあるページの対をさらに特定するための方法はいくつかある。例示の実施形態では、アンカー・テキストが、このタスクのための事前定義のトリガ・ワードと比較される。候補ページ134が他のページにリンクされている場合、それは、例示的に、ハイパーリンクを介してリンクされることになる。ハイパーリンクに対応するテキストを、本明細書では、アンカー・テキストと呼ぶ。パラレル性検査コンポーネント116は、次いで、トリガ・ワードについて、ダウンロードされたページのすべてに対するアンカー・テキストを検査する。これは、図2でブロック134により示される。
トリガ・ワードは、ウェブ・ページ間の翻訳的な等価性を反映する用語である。事前定義のトリガ・ワード(またはトリガ・ストリング)のいくつかの例は、「英語」または「英語版」など英語の翻訳に対するトリガ・ワードを含む。言い換えると、フランス語のウェブ・ページがダウンロードされ、そのハイパーリンクの1つが「English(英語)」または「English version(英語版)」とラベルが付されていた場合、そのトリガ・テキストは、そのフランス語のウェブ・ページの翻訳的な等価物が存在し、かつそのハイパーリンクを介してアクセスできることを示している可能性が高い。他の言語に対しても同様なトリガ・ワードが存在するが、少し異なるものになり得る。例えば、中国語に対するトリガ・ワードは、「Chinese(中国語)」、「Chinese version(中国語版)」、「simplified Chinese(簡体字中国語)」、「traditional Chinese(繁体字中国語)」などである可能性がある。
一実施形態では、パラレル性検査コンポーネント116は、アンカー・テキストを、ウェブ・ページの間で翻訳的な等価性を反映することが知られている事前定義のストリングのリストと比較することにより、トリガ・ワードについてアンカー・テキストを検査する。図2のブロック136で示すように、アンカー・テキスト中にトリガ・ワードが発見されない場合、現在のウェブ・サイトは二言語のウェブ・サイトではなく、その所与のウェブ・サイトに対する処理は終了する。しかし、ブロック136で、トリガ・ワードの位置が特定された場合、そのトリガ・ワードと関連付けられた2つのページ(例えば、英語版と中国語版)は、図1のパラレルである可能性のあるページ138として識別される。パラレルである可能性のあるページ138は、次いで、ダウンロード・コンポーネント112によってダウンロードされる。これは、図2のブロック140により示される。
処理におけるこの時点で、これらのページは、まだ検証されていない候補のパラレルな対(またはパラレルである可能性がある対)と見なされる。したがって、パラレルである可能性のあるページ138は、パラレル性検証器コンポーネント118に提供される。コンポーネント118は、そのパラレルである可能性のあるページが、翻訳的に等価であると見なされのに十分パラレルであり、したがって、対応付けられた二言語データ(aligned bilingual data)が、それらのものから取得できる可能性があることを検証する。
一実施形態では、パラレル性検証器コンポーネント118は、例示的に、バイナリー最大エントロピー・ベースの分類器(binary maximum entropy classifier)である。しかし、他の分類器または検証コンポーネント(ルール・ベースの、または統計的な)を同様に使用することができる。しかし、例示的な実施形態では、分類器は、そのページが十分にパラレルであるかどうかを決定するために、3つの機能を使用する。図2Aは、これらの機能が、パラレル性検証器コンポーネント118で使用される例示的な一実施形態を示す流れ図である。その3つの機能は、ファイル長さの比、HTMLタグの類似度、および文対応付けのスコア(a sentence alignment score)を含む。したがって、そのページが十分にパラレルであるかどうかを決定するために、コンポーネント118は、まず、パラレルである可能性のあるページ138を受け取る。これは、図2Aのブロック160により示される。
コンポーネント118は、次いで、2つのページに対するファイル長さの比を計算する。これは、ブロック162により示される。ファイル長さの比は、比較的、直截的なものであり、単に、考慮中のウェブ・ページのそれぞれを表すファイルの長さの比である。
コンポーネント118は、次いで、HTMLタグの類似度を計算する。これは、図2Aのブロック164により示される。HTMLタグの類似度は、多種多様な方法の任意のものを用いて計算することができる。しかし、示した例示的な一方法は、図2Aのブロック166、168、および170により示される。その例示の実施形態によれば、HTMLタグの類似度は、各ページに対するHTMLタグのすべてをまず抽出することにより決定される。これは、ブロック166により示される。各ページに対するHTMLタグは、次いで、ストリングへと連結され、したがって、1つの連結されたストリングが2つのページのそれぞれに対して形成される。次いで、そのページと関連付けられた2つのタグ・ストリング間で、最小の編集距離が計算される。一実施形態では、HTMLタグの類似度スコアは、ストリング全体の数に対する、その連結されたストリング中でマッチングするタグ数の比として定義される。類似度を決定する他の技法も同様に使用することができる。
いずれの場合であっても、コンポーネント118はまた、図2Aのブロック172により示されるように、文対応付けのスコア(a sentence alignment score)を計算する。文対応付けのスコアは、多種多様な方法を用いて同様に計算することができる。しかし、例示的な一実施形態では、文対応付けのスコアは、2つのページに対応するファイルの両方における文(sentences)の合計数に対する、2つのページ上で対応付けられた文の数の比である。文が対応付けられているかどうかを決定するための一実施形態では、その2つのページのドキュメント・オブジェクト・モデルのツリーを対応付けることによる。これは、以下でさらに詳細に述べる。
3つの特徴(features)(ファイル長さの比、HTMLタグの類似度、および文対応付けのスコア)が、2つのページに対して計算されると、コンポーネント118は、そのページが十分にパラレルであるかどうかを決定し、その決定についての指示(indication)を出力する。これは、図2Aのブロック174により示される。論じられている例示的な実施形態では、コンポーネント118は、バイナリー最大エントロピー分類器であり、2つのページを、上記で論じた3つの機能に基づいて、単に十分にパラレルであるか、それとも不十分であるかで分類するだけである。分類器は、任意の所望の訓練機構を用いて訓練することができ、このような1つの機構は、知られている繰返しスケーリング・アルゴリズム(iterative scaling algorithm)と呼ばれる。
図1および図2を再度参照すると、コンポーネント118は、パラレルである可能性のあるページが十分にパラレルであることを検証(確認)する。これは、図2のブロック142により示される。
図2のブロック144で、コンポーネント118により示されるように、ページが十分にパラレルではない場合、2つの候補ページの処理は終了する。しかし、ブロック144で、コンポーネント118が、2つのページが十分にパラレルであると決定した場合、コンポーネント118は、そのページは、検証されたパラレルなページ146であること、および現在の処理用として、本当に翻訳的に等価なものであり、したがって、それらは、パラレル文を生成し、さらなるパラレルなウェブ・ページを参照するのに使用できること、を決定する。したがって、コンポーネント118は、検証されたパラレルなページ146を、対応付けのために、ツリー対応付けコンポーネント(tree alignment component)120へサブミットする。
ツリー対応付けコンポーネント120はまず、検証されたパラレルなページ146のそれぞれに対して、ドキュメント・ツリーを取得する。ドキュメント・ツリーの各ノードは、例示的に、2つのフィールドを含み、第1のフィールドが、HTMLタグ・フィールドであり、また第2のフィールドが、ノードと関連付けられたテキストである。例示的な一例では、このドキュメント・ツリーの構造は、わずかな変更を含むドキュメント・オブジェクト・モデル(DOM)に従う。DOMは、ワールド・ワイド・ウェブ・コンソーシアムを介して公開されており、有効なHTMLドキュメントに対する知られたアプリケーション・プログラミング・インターフェース(API)である。現在の例のために、DOMツリーである各ウェブ・ページに関連付けられたドキュメント・ツリー構造に関してこの議論を進めるが、他のこのようなツリー構造も同様に使用できることが理解されよう。
DOMツリーが、検証されたパラレルなページ146のそれぞれに対して取得されると、ツリー対応付けコンポーネント120は、例示的に、そのDOMツリーに対して任意の所望の処理を実施することができ、それらを、さらなる処理のために、所望の形式に配置することができる。これは、図2のブロック147により示される。前処理の一実施形態は、図3Aおよび3Bに関して、以下で述べる。
DOMツリーが所望の形になると、ツリー対応付けコンポーネント120は、例えば、ツリーの対応付けを実施して、ウェブ・ページを表すDOMツリー(複数)を対応付ける。これは、図2のブロック148により示される。例示の実施形態では、ツリー対応付けコンポーネント120は、確率的なDOMツリー対応付けモデル(stochastic DOM tree alignment model)であり、これは、翻訳的に等価なコンテンツを対応付けるために使用され、検証されたパラレルなページ146の対に対するDOMツリー中にテキスト形式のチャンク(textual chunks)およびハイパーリンクを共に含む。ツリー対応付けステップ148は、図4に関して以下でさらに詳細に述べる。DOMツリーが対応付けられ、またパラレルなテキスト・チャンクおよびハイパーリンクが特定されると、パラレルなテキスト・チャンク150が、文対応付けコンポーネント122に提供される。
文対応付けコンポーネント122は、次いで、パラレルなテキスト・チャンク150内の文を対応付けし、それらをパラレルな、対応付けられた文106として格納するために、または他のシステムで使用するために出力する。パラレルなテキスト・チャンクからのこれらの文を対応付けることは、任意の所望の方法で行うことができ、それは、図2のブロック152で示されている。例示的な一実施形態では、パラレルなウェブ・ページ間のHTML構造の類似度が利用され、またその文を対応付けるために、カスケード手法が使用される。まず例示的な実施形態では、DOMツリーのノードと関連付けられたテキスト・チャンクが、上記で論じたように対応付けられる。次いで、パラレルなテキスト・チャンクの対ごとに、知られた文アライナ(sentence aligner)を、その文を対応付けるために使用することができる。1つのこのような文アライナは、用語の順序を考慮せずに、1つの言語から他の言語へと逐語的な変換をモデル化し、最尤基準(a maximum likelihood criterion)に基づいて、その逐語的な変換モデルを、異なる言語の2つの文の長さを表す他のモデルと組み合わせる。当然であるが、他のタイプの文の対応付けも同様に使用することができる。対応付けられた文の出力は、図2のブロック154により示される。
ツリー対応付けコンポーネント120はまた、例示的に、2つのDOMツリーが互いに対応付けられた後、何らかのパラレルなハイパーリンクがあるかどうかを決定する。これは図2のブロック156により示される。2つのDOMツリーに対応付けられたハイパーリンクがない場合、2つのパラレルなページの処理は完了する。しかし、対応付けられたDOMツリー中にパラレルなハイパーリンクがある場合、それは、新しいパラレル・データへのアンカーであると見なすことができる。パラレルなウェブ・ページを参照するために、2つの対応付けられたDOMツリー中のパラレルなハイパーリンクを使用することは、パラレルな、二言語データを特定するための一般的で安定した形態(pattern)であることが見出されている。したがって、図2のブロック156で、たどるべき(付随する;to follow)パラレルなハイパーリンクがある場合、これらのパラレルなハイパーリンク158は、ナビゲーション・コンポーネント110に提供され、処理は、図2のブロック140に戻る。ナビゲーション・コンポーネント110は、パラレルなハイパーリンク158と関連付けられたウェブ・ページへとシステム100をナビゲートし、ダウンロード・コンポーネント112は、パラレルなハイパーリンクと関連付けられたページを、パラレルである可能性のあるページ138としてダウンロードする。これらのページ138は、次いで、検証などのためにパラレル性検証器コンポーネント118にサブミットされる。
図3Aおよび3Bは、図2のブロック147で、DOMツリーを前処理する任意選択のステップを示している。知られているように、ドキュメント・オブジェクト・モデル化を用いてウェブ・ページを表すと、HTMLドキュメントの論理構造は、当然であるが、階層的かつ順次的なツリーであって、各ノードが何らかの事前定義のノード・タイプに属するツリーとして表される。いくつかのこのようなノード・タイプは、「Document」、「DocumentType」、「Element」、「Text」、「Comment」、「ProcessingInstruction」などを含む。ノードのこれらのタイプのすべての中で、本明細書で論ずる一実施形態に最も重要なノードは、ドキュメント中のHTMLタグに対応する「Element」ノード、およびドキュメント中のテキスト・チャンクに対応する「Text」ノードである。
図3Aは、HTMLドキュメントを表す従来のDOMツリー200を示す。HTMLドキュメント中のノードは、ヘッド・ノード202およびボディ・ノード204を含むことが分かる。ヘッド・ノード202は、タイトル206およびそのタイトルに対するテキスト208に対応する子ノードを有する。ボディ・ノード204は、1組の子ノード212および214をそれ自体で有する子DIVノード210である、子ノードを有する。ノード212は、子テキスト・ノード216を有し、ノード214は、下位ノードのストリングを有する。ノード214の第1の下位のものは、イメージ・ノード218であり、その後に代替ノード220、およびテキスト・ノード222が続く。
DOMツリー200を前処理する例示的な一例では、対応付けコンポーネント120は、ドキュメント・モデル・ツリーから、「エレメント」ノードおよび「テキスト」ノード以外のすべてのノードを除外する。さらに、イメージを表示することができないときにテキスト形式の代替を表す「alt」属性は、「テキスト」ノードにより表される。最後に、(ツリー中のリーフ・ノードであるはずの)「テキスト」は、対応付けモデルの表現をさらに簡潔にするために、その親の「エレメント」ノードともとに単一のノードに組み合わされる。
図3Bは、図3Aのツリー200から導かれる前処理されたツリー230を示す。テキスト・ノード208がタイトル・ノード206と組み合わされて、組合せノード232を形成することが分かる。同様に、ツリー200のテキスト・ノード216およびその親ノード212が組み合わされて、ツリー230の組合せノード234になる。さらに、ツリー200のaltノード220は、テキスト・ノードとして表されており、それは、テキスト・ノード222と共に、イメージ・ノード218と組み合わされて、ツリー230の組合せノード236を形成する。これらの小変更にもかかわらず、ツリー230は、なお、本説明でDOMツリーと呼ばれることに留意されたい。さらに、これらの変更は、便宜上、またモデルを簡単化するために行われるにすぎず、本発明によって企図されたものとして行われる必要はない。さらに、他の形のドキュメント・ツリー構造を使用することもできる。
ツリー対応付けを実施する(図2のステップ148のように)際のツリー対応付けコンポーネント120のオペレーションを、次により詳細に述べる。一実施形態によれば、ツリー対応付けコンポーネント120は、階層的に不変のプロセスとして、また連続する順序が不変のプロセスとして対応付けを定義するツリー対応付けモデルを含む。言い換えると、階層的に不変のプロセスとは、ノードAがノードBに対応付けられた場合、ノードAの子は削除されるか、あるいはノードBの子と対応付けられることを意味する。連続する順序が不変のプロセスとは、ノードAがノードBと対応付けられた場合、ノードAに続く兄弟ノードは、削除されるか、あるいはノードBに続く兄弟ノードと対応付けられる必要がある。したがって、ツリーにおけるノードの階層的な順序および連続する順序は変更されないが、ノードを削除することはできる。
図4は、ツリー対応付けコンポーネント120のオペレーションをより詳細に示す。以下で述べるように、ツリーのそれぞれは、例示的に、複数の異なるサブ・ツリーで形成される。複数の異なるサブ・ツリーは、サブ・ツリーのフォレスト(forest)と総称的に呼ばれる。ツリー対応付けコンポーネントは、サブ・ツリーに対する最適な対応付けを見出し、次いで、そのサブ・ツリーを含むフォレストに対する最適な対応付けを見出すことを繰り返すことによって、2つのウェブ・ページを表す2つのツリー全体を対応付ける。
一実施形態では、ボトムアップ手法を使用することができる。したがって、図4では、コンポーネント120は、ツリーの底部におけるサブ・ツリーから開始し、まず、2つのウェブ・ページを表すサブ・ツリーに対する最適な対応付けを見出す。これは、ブロック300により示される。次に、コンポーネント120は、ブロック300でサブ・ツリーの対応付けが見出された場合、順次的なサブ・ツリーのフォレストの最適な対応付けを見出す。これは、ブロック302により示される。任意の所望の「優良さ(goodness)」基準(または最適化基準)に基づいて、コンポーネント120は、次いで、ステップ300および302におけるさらなる繰返しが必要かどうかを決定する。これは、ブロック304により示される。その繰返しは、対応付けについての所望の「優良さ」が達成されるまで、サブ・ツリーおよびそのサブ・ツリーを含むフォレストの対応付けを続ける。その所望される全体の対応付けは、上記で述べたように、パラレルなテキスト・チャンクおよびハイパーリンクを特定することになる。コンポーネント120は、したがって、ブロック306により示されるように、パラレルなテキスト・チャンクおよびハイパーリンクを出力する。
ツリー対応付けモデルのより詳細な提示(presentation)を容易にするために、以下の記号が導入される。HTMLドキュメントDが与えられると、TDは、対応するDOMツリーを指す;
は、TDのi番目のノードを指し(ここで、ノードのインデックスは、幅優先順である)、また
は、
にルートを持つサブ・ツリーを指し、したがって、
は、TDのルートを指し、また
である;
は、
から
までのノードにルートを持つサブ・ツリーからなるフォレストを指す。
は、ノード
のテキストを指す;
は、ノード
のHTMLタグを指す;
は、ノード
のj番目の子を指す;
は、連続する一連の
の
から
までの子ノードを指す;
にルートを持つサブ・ツリーは、
として表され、また
にルートを持つフォレストは
で表される。最後に、NULL(ヌル)は、ノード削除用に導入された空ノードを指す。
DOMツリーの階層的構造に適合させるために、2つの異なる変換確率が定義される(本例は、英語とフランス語を扱うので、Eは英語を意味し、Fはフランス語を意味する)。
これは、サブ・ツリー
を、サブ・ツリー
に変換する確率である;
これは、ノード
を
に変換する確率である。
さらに、
は、対応付けAに基づいて、フォレスト
を
に変換する確率を表す。ツリーの対応付けAは、ターゲット・ノードから、ソース・ノードまたはヌル・ノードへのマッピングとして定義される。したがって、Ai(またはA[i、j])は、サブ・ツリー
(またはフォレスト
)に対するフランス語サブ・ツリー(またはフォレスト)へのマッピング・スキームを指す。
2つのHTMLドキュメントF(フランス語)、およびE(英語)が与えられると、ツリー対応付けタスクは、以下の確率を最大化するAを求めるものとして定義される。
Pr(A|TF、TE)∝Pr(TF|TE、A)Pr(A|TE) 式1
式中、Pr(A|TE)は、TEが与えられた場合の対応付け構成の事前知識(prior knowledge)を表す。
Pr(A|TF、TE)∝Pr(TF|TE、A)Pr(A|TE) 式1
式中、Pr(A|TE)は、TEが与えられた場合の対応付け構成の事前知識(prior knowledge)を表す。
対応付けの構成中に生ずるソース・ノードまたはターゲット・ノードの削除の確率を指すpdを導入することにより、事前のPr(A|TE)の対応付けは、以下の二項分布として仮定することができる。
式中、LはAにおける空ではない対応付けのカウントであり、Mは、AにおけるTEノードの削除のカウントである。
Pr(TF|TE、A)は、以下のように表すことができる。すなわち、
、また
は、以下のように、Aの対応付け構成に応じて再帰的に計算することができる。
が、
と対応付けられ、
の子が
の子と対応付けられる場合、
となる。式中、KおよびK’は、それぞれ、
および
の次数(degree)である。
が削除され、かつ
の子が
と対応付けられる場合、
となる。式中、Kは
の次数である。
が削除され、
が
の子と対応付けられる場合、
となる。式中、Kは
の次数である。
対応付けモデルを完了するために、
を推定する必要がある。上記で述べたように、変更されないノードの連続する順序を有する対応付け構成だけが有効であると見なされる。したがって、
は、Aの以下の3つの対応付け構成に対応して、再帰的に推定することができる。
が
と対応付けられ、また
が
と対応付けられる場合、
である。
が削除され、かつ
の子
が
と組み合わされて、
と対応付けられる場合、
であり、式中、Kは
の次数である。
が削除され、かつ
の子
が、
と組み合わされて
と対応付けられる場合、
であり、式中、Kは
の次数である。
最後に、ノードの変換確率は、例示的に、
としてモデル化され、またテキストの変換確率Pr(tF|tE)は、用語の順序を考慮することなく、英語からフランス語への逐語的な変換をモデリングすることによってモデル化される。当然であるが、他のモデルを同様に使用することもできる。
このように、本モデルを述べてきたが、モデルに対するパラメータを推定する必要がある。例示的な一実施形態では、ツリー対応付けモデルは、3つのカテゴリのパラメータを含み、英語テキストの断片tEを、フランス語テキストの断片tFとして変換する確率であるテキストの変換確率Pr(tF|tE)、互いにマップされた2つのタグの確率であるタグ・マッピング確率Pr(l|lt)、および上記で述べたノード削除確率pdを含む。任意の所望の、また従来のパラメータ推定技法を使用することもできる。
上記の図4に関して述べた繰返し対応付けプロセスを達成するために、ボトムアップ手法を使用できることもまた留意されたい。2つのツリーが最適に対応付けされた場合、そのサブ・ツリーの対応付けも同様に最適でなければならないことが理解されよう。したがって、復号プロセスにおいて、動的計画(dynamic programming)技法を適用して、最適なツリー対応付けを、ボトムアップ式のサブ・ツリーについての最適なツリー対応付けを用いて、見出することができる。表1は、このような復号アルゴリズムに対する疑似コードを設定する。
ここで、|TF|および|TE|は、TFおよびTEにおけるノードの数であり、KiおよびKjは、
および
の次数である。
したがって、(HTMLタグなどの)すべてのレイアウト情報を除去し、従来の文の対応付けを利用するだけである、パラレルなウェブ・コンテンツを特定しようとする従来の方法を改善できることが分かる。まず、ツリー対応付けを適用して、パラレルなテキスト・チャンクを対応付け、次いで、(文の対応付けなどの)より細かな対応付けを用いて、対応付けられたテキスト・チャンクからパラレルな文を抽出することにより、より優れた性能が得られる。
図5は、諸実施形態を実装することのできる適切なコンピューティング・システム環境400の一例を示す。コンピューティング・システム環境400は、適切なコンピューティング環境の一例にすぎず、特許請求される主題の用途または機能性の範囲に関して何らかの限定を示唆することを意図するものではない。コンピューティング環境400は、例示的な動作環境400中で示されたコンポーネントの任意の1つまたは組合せに関して、何らかの依存性、または要件を有するものと解釈されるべきではない。
諸実施形態は、数多くの他の汎用または専用のコンピューティング・システム環境、もしくはコンフィギュレーションで動作可能である。様々な実施形態で使用するのに適切であることができるよく知られたコンピューティング・システム、環境、および/またはコンフィギュレーションの例は、これだけに限らないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドもしくはラップトップ装置、マルチプロセッサ・システム、マイクロ・プロセッサ・ベースのシステム、セットトップボックス、プログラム可能な家庭用電子機器、ネットワークPC、ミニ・コンピュータ、メインフレーム・コンピュータ、電話通信システム、上記のシステムもしくは装置の任意のものを含む分散コンピューティング環境などを含む。
諸実施形態は、コンピュータにより実行されるプログラム・モジュールなど、コンピュータで実行可能な命令の一般的なコンテクストで記述されることができる。概して、プログラム・モジュールは、特定のタスクを行う、または特定の抽象データ型を実施するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。いくつかの実施形態は、通信ネットワークを介してリンクされた遠隔の処理装置によりタスクが実施される分散コンピューティング環境で行われるように設計される。分散コンピューティング環境では、プログラム・モジュールは、メモリ記憶装置を含むローカルと遠隔の両方のコンピュータ記憶媒体中に位置する。
図5を参照すると、いくつかの実施形態を実装するための例示的なシステムは、コンピュータ410の形の汎用コンピューティング装置を含む。コンピュータ410のコンポーネントは、これだけに限らないが、処理装置420と、システム・メモリ430と、システム・メモリを含む様々なシステム・コンポーネントを処理装置420に結合するシステム・バス421とを含むことができる。システム・バス421は、メモリ・バスもしくはメモリ制御装置、周辺バス、および任意の様々なバス・アーキテクチャを用いるローカル・バスを含むいくつかのタイプのバス構造の任意のものとすることができる。例のためであり、限定するものではないが、このようなアーキテクチャは、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカル・バス、およびMezzanineバスとしても知られているPCI(Peripheral Component Interconnect)バスを含む。
コンピュータ410は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ410によりアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性媒体、取外し可能と取外し不能媒体を共に含む。例示のためであり、限定するものではないが、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータなどの情報を格納するための任意の方法または技術で実装された揮発性と不揮発性媒体、取外し可能と取外し不能媒体を共に含む。コンピュータ記憶媒体は、これだけに限らないが、RAM、ROM、EEPROM、フラッシュ・メモリもしくは他のメモリ技術、CD−ROM、DVD(digital versatile disks)もしくは他の光ディスク・ストレージ、磁気カセット、磁気テープ、磁気ディスク・ストレージもしくは他の磁気記憶装置、あるいは所望の情報を格納するのに使用することができ、コンピュータ410によりアクセスできる任意の他の媒体を含む。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラム・モジュール、または他のデータを、搬送波または他の移送機構などの変調されたデータ信号の形で具現化するものであり、また任意の情報送達媒体を含む。用語「変調されたデータ信号」とは、情報を信号中に符号化するような方法で設定または変更された1つまたは複数のその特性を有する信号を意味する。例示のためであり、限定するものではないが、通信媒体は、有線ネットワークや直接有線接続などの有線媒体、および音響、RF、赤外線、他の無線媒体などの無線媒体を含む。上記の任意のものの組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
システム・メモリ430は、ROM(読取り専用メモリ)431やRAM(ランダム・アクセス・メモリ)432などの揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動中などに、コンピュータ410内のエレメント間で情報を転送するのを助ける基本ルーチンを含むBIOS(基本入出力システム)433が、通常、ROM431に格納される。RAM432は、通常、処理装置420が直接的にアクセス可能であり、かつ/または現在処理しているデータおよび/またはプログラム・モジュールを含む。例示のためであり、限定するものではないが、図5は、オペレーティング・システム434、アプリケーション・プログラム435、他のプログラム・モジュール436、およびプログラム・データ437を示す。
コンピュータ410はまた、他の取外し可能/取外し不能、揮発性/不揮発性のコンピュータ記憶媒体を含むことができる。例示のためでだけであるが、図5は、取外し不能な、不揮発性の磁気媒体との間で読取りまたは書込みを行うハードディスク・ドライブ441と、取外し可能な、不揮発性の磁気ディスク452との間で読取りまたは書込みを行う磁気ディスク・ドライブ451と、CD−ROMまたは他の光媒体などの取外し可能な、不揮発性の光ディスク456との間で読取りまたは書込みを行う光ディスク・ドライブ455とを示す。例示的な動作環境で使用され得る他の取外し可能/取外し不能、揮発性/不揮発性のコンピュータ記憶媒体は、これだけに限らないが、磁気テープ・カセット、フラッシュ・メモリ・カード、DVD(digital versatile disks)、デジタル・ビデオ・テープ、固体RAM、固体ROMなどを含む。ハードディスク・ドライブ441は、通常、インターフェース440などの取外し不能なメモリ・インターフェースを介して、システム・バス421に接続され、また磁気ディスク・ドライブ451および光ディスク・ドライブ455は、通常、インターフェース450などの取外し可能なメモリ・インターフェースによりシステム・バス421に接続される。
上記で論じ、また図5に示されたドライブおよびその関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、およびコンピュータ410に対する他のデータのストレージを提供する。図5では、例えば、ハードディスク・ドライブ441は、オペレーティング・システム444、アプリケーション・プログラム445、他のプログラム・モジュール446、およびプログラム・データ447を格納するものとして示されている。これらのコンポーネントは、オペレーティング・システム434、アプリケーション・プログラム435、他のプログラム・モジュール436、およびプログラム・データ437と同一にすることも、異なるものにすることも可能であることに留意されたい。オペレーティング・システム444、アプリケーション・プログラム445、他のプログラム・モジュール446、およびプログラム・データ447は、少なくとも、それが異なるコピーであることを示すために、ここでは異なる数字を与えている。
ユーザは、キーボード462、マイクロフォン463や、マウス、トラックボール、またはタッチ・パッドなどのポインティング装置461などの入力装置を介してコンピュータ410にコマンドおよび情報を入力することができる。他の入力装置(図示せず)は、ジョイスティック、ゲームパッド、サテライト・ディッシュ、スキャナなどを含むことができる。これらのおよび他の入力装置は、システム・バスに結合されたユーザ入力インターフェース460を介して処理装置420に接続されることが多いが、パラレル・ポート、ゲーム・ポート、またはUSB(universal serial bus)などの他のインターフェースおよびバス構造によって接続することもできる。モニタ491または他のタイプの表示装置がまた、ビデオ・インターフェース490などのインターフェースを介してシステム・バス421に接続される。モニタに加えて、コンピュータはまた、出力周辺インターフェース495を介して接続され得る、スピーカ497およびプリンタ496などの他の周辺出力装置を含むことができる。
コンピュータ410は、遠隔コンピュータ480などの1つまたは複数の遠隔コンピュータへの論理接続を用いて、ネットワーク化された環境で動作することができる。遠隔コンピュータ480は、パーソナル・コンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア(peer)装置、または他の共通のネットワーク・ノードとすることができ、通常、コンピュータ410に対して上記で述べたエレメントの多くまたはすべてのものを含む。図5で示す論理接続は、LAN(ローカルエリア・ネットワーク)471、およびWAN(広域ネットワーク)473を含むが、他のネットワークを含むこともできる。このようなネットワーク化環境は、オフィスや事業体規模のコンピュータネットワーク、イントラネット、およびインターネットにおいて普通のものである。
LANネットワーク化環境で使用されるとき、コンピュータ410は、ネットワーク・インターフェースもしくはアダプタ470を介してLAN471に接続される。WANネットワーク化環境で使用されるときは、コンピュータ410は、通常、インターネットなどのWAN473を介して通信を確立するためのモデム472または他の手段を含む。モデム472は、内部または外部のものとすることができるが、ユーザ入力インターフェース460、または他の適切な機構を介して、システム・バス421に接続されることができる。ネットワーク化された環境では、コンピュータ410、またはその部分に関して示されたプログラム・モジュールは、遠隔のメモリ記憶装置に格納してもよい。例のためであり、限定するものではないが、図5は、遠隔コンピュータ480上に常駐するものとして、遠隔のアプリケーション・プログラム485を示している。図示されたネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段も使用できることが理解されよう。
本主題が、構造的な特徴および/または方法論的行為(act)に特有の言語で述べられてきたが、添付の特許請求の範囲で定義される主題は、上記で述べた特定の特徴または行為に必ずしも限定されないことを理解されたい。そうではなくて、上記で述べた特定の特徴および行為は、その特許請求の範囲を実施する例示的な形態として開示されている。
Claims (20)
- ネットワーク(104)を介してアクセス可能な1つまたは複数の大量のコーパス(102)からパラレルな二言語コーパスを特定する方法であって、
第1の言語のデータの第1のサブセット、および第2の言語のデータの第2のサブセットを選択するステップ(140)と、
データの前記第1および第2のサブセットのそれぞれに対応するツリー構造(230)であって、データの前記対応するサブセットを表す階層的かつ順次的に配列されたノード(202〜236)を有する各ツリー構造(230)を取得するステップ(147)と、
階層的かつ順次的に不変の対応付けに従って、データの前記サブセットのそれぞれに対応する前記ツリー構造(230)を対応付けるステップ(148)と、
前記ツリー構造(230)の前記対応付け(148)に基づいて、データの前記サブセットのパラレルなテキスト形式のセグメント(150)を特定するステップ(148)と、
前記パラレルなテキスト形式のセグメント(150)についての指示を出力するステップ(154)と
を備えることを特徴とする方法。 - データの前記第1および第2のサブセットは、他のドキュメントへのハイパーリンクを有する第1および第2のドキュメント(138)を備えており、さらに、
前記ツリー構造(230)の前記対応付け(148)に基づいて、前記第1および第2のドキュメント(138)におけるパラレルなハイパーリンク(158)であって、それぞれ、前記第1の言語の後続するドキュメントに、また前記第2の言語の後続するドキュメントにリンクするパラレルなハイパーリンク(158)を特定するステップ(156)
を備えることを特徴とする請求項1に記載の方法。 - 前記後続するドキュメントのそれぞれに対応するツリー構造(230)を取得するステップと、
前記後続するドキュメントに対応する前記ツリー構造(230)を対応付けるステップ(148)と、
前記後続するドキュメント中で、パラレルなテキスト形式のセグメント(150)を特定するステップ(148)と
をさらに備えることを特徴とする請求項2に記載の方法。 - 前記後続するドキュメント中で、パラレルなハイパーリンク(158)を特定するステップ(156)をさらに備えることを特徴とする請求項3に記載の方法。
- 前記後続するドキュメントのそれぞれに対応するツリー構造(230)を取得するステップ(147)と、
前記後続するドキュメントに対応する前記ツリー構造(230)を対応付けるステップ(148)と、
前記後続するドキュメント中で、パラレルなテキスト形式のセグメント(150)を特定するステップ(148)と、
前記後続するドキュメント中で、パラレルなハイパーリンク(158)を特定するステップ(156)と
を再帰的に繰り返すステップ
をさらに備えることを特徴とする請求項4に記載の方法。 - 前記第1の言語のデータの前記第1のサブセット、および前記第2の言語のデータの前記第2のサブセットを選択するステップは、
所与のウェブ・サイトのページにアクセスするステップ(132)と、
前記ページで、事前定義された1組のトリガ・ワードのうちの1つまたは複数のものを特定するステップ(136)と、
前記トリガ・ワードを特定する前記ステップ(136)に基づいて、前記所与のウェブ・サイトから、第1および第2のページ(134)を選択するステップ(140)と
を備えることを特徴とする請求項1に記載の方法。 - ページにアクセスする前記ステップは、
前記所与のウェブ・サイトに対するルート・ページ、および前記ルート・ページにリンクされた第1のレベルのページをダウンロードするステップ(132)を備えることを特徴とする請求項6に記載の方法。 - データの前記第1のサブセットおよびデータの前記第2のサブセットを選択する前記ステップは、
前記第1と第2のページの間の十分なパラレル性を検証するステップ(142)を備えることを特徴とする請求項6に記載の方法。 - ツリー構造を取得する前記ステップは、
データの前記サブセットのそれぞれに対応するドキュメント・オブジェクト・モデル・ツリー(200)を取得するステップを備えることを特徴とする請求項1に記載の方法。 - 第1の言語の第1のドキュメントおよび第2の言語の第2のドキュメントにおいて、パラレルな二言語データを特定する方法であって、
前記第1および第2のドキュメント(146)のレイアウトを表すドキュメント・ツリー構造(230)であって、前記第1および第2のドキュメント(146)中のテキストに対応するノードを含む前記ドキュメント・ツリー構造(230)を取得するステップと、
前記ドキュメント・ツリー構造(230)におけるノードの順序および階層を保存しながら、前記ツリー構造中の前記ノードを互いに対応付けることにより、前記ドキュメント・ツリー構造(230)を対応付けるステップ(148)と、
前記ドキュメント・ツリー構造(230)中の対応付けられたノードに対応するテキスト・セグメントとして、パラレルな二言語テキスト・セグメント(150)を特定するステップ(148)とを備えることを特徴とする方法。 - 前記第1および第2のドキュメント(146)はそれぞれ、ウェブ・ページを備えており、またテキストを対応付ける前記ステップは、前記特定されたパラレルな二言語のテキスト・セグメント(150)内の文(106)を対応付けるステップ(152)を備えることを特徴とする請求項10に記載の方法。
- 各ドキュメント・ツリー構造(230)は、複数のサブ・ツリー構造を含み、また前記ドキュメント・ツリー構造(230)を対応付ける前記ステップ(148)は、
前記サブ・ツリー構造中のノードを対応付け、サブ・ツリーの対応付けを取得するステップ(300)と、
前記サブ・ツリーの対応付けに基づいて、前記複数のサブ・ツリー構造を対応付け、前記ドキュメント・ツリー構造(230)を対応付けるステップ(302)と
を備えることを特徴とする請求項10に記載の方法。 - 前記サブ・ツリー構造中のノードを対応付け、サブ・ツリーの対応付けを取得する前記ステップ(300)と、前記サブ・ツリーの対応付けに基づいて、前記複数のサブ・ツリー構造を対応付けるステップ(302)とを反復して繰り返すステップ(304)をさらに備えることを特徴とする請求項12に記載の方法。
- 前記複数のサブ・ツリー構造を対応付ける前記ステップ(300)は、
互いに対する前記複数のサブ・ツリー構造の階層および順序を維持しながら、かつ互いに対する前記サブ・ツリー構造中の複数のノードの階層および順序を維持しながら、前記複数のサブ・ツリー構造を対応付けるステップ(300)を備えることを特徴とする請求項12に記載の方法。 - ドキュメント・ツリー構造を取得する前記ステップは、
ドキュメント・オブジェクト・モデル・ツリー構造(200)を取得するステップと、
テキスト・ノードを、前記テキスト・ノードの親ノードと組み合わせることにより、また前記ドキュメント・オブジェクト・モデルにおけるノードの事前定義のサブセット中にないノードを削除することにより、前記ドキュメント・オブジェクト・モデル・ツリー構造(200)を修正するステップ(147)と
を備えることを特徴とする請求項10に記載の方法。 - パラレルなコーパス・マイニング・システムであって、
ウェブ・ページ(134)を受け取り、前記ウェブ・ページに基づいて、パラレルである可能性のあるページ(138)を特定するように構成されたパラレル性検査コンポーネント(116)と、
前記パラレルである可能性のあるページ(138)を受け取り、前記パラレルである可能性のあるページ(138)が、所望レベルのパラレル性を有することを検証し、検証されたページ(146)を取得するように構成された検証コンポーネント(118)と、
前記検証されたページ(146)に対応するツリー構造(230)を対応付け、パラレルなテキスト・セグメント(150)およびパラレルなハイパーリンク(158)を特定するように構成されたツリー対応付けコンポーネント(120)と
を備えることを特徴とするシステム。 - 特定された前記パラレルなテキスト・セグメント(150)における文を対応付けるように構成された文対応付けコンポーネント(122)をさらに備えることを特徴とする請求項16に記載のシステム。
- 前記ツリー構造(230)は、階層的かつ順次的に配置されたノードを有しており、また前記ツリー対応付けコンポーネント(120)は、順次的に不変の対応付け、および階層的に不変の対応付けにより前記ツリー構造(230)を対応付けるように構成されていることを特徴とする請求項16に記載のシステム。
- 前記ツリー構造(230)はそれぞれ、複数のサブ・ツリー依存構造から形成された全体のツリー構造(230)を備えており、また前記ツリー対応付けコンポーネント(120)は、前記全体のツリー構造(230)中の前記サブ・ツリー依存構造を対応付けるための確率を繰り返し計算するように、かつ前記サブ・ツリー依存構造を対応付けるために計算された前記確率に基づいて、前記全体のツリー構造(230)を対応付けるための前記確率を繰り返し計算するように構成されていることを特徴とする請求項18に記載のシステム。
- 前記パラレルなハイパーリンク(158)は、ページにリンクしており、また前記システムは、前記ハイパーリンク(158)によりリンクされた前記ページを、パラレルである可能性のあるページ(138)として再帰的に特定するように、かつ前記パラレルである可能性のあるページ(138)を前記パラレル性の検証コンポーネント(118)にサブミットするように構成されていることを特徴とする請求項16に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/483,941 US7805289B2 (en) | 2006-07-10 | 2006-07-10 | Aligning hierarchal and sequential document trees to identify parallel data |
PCT/US2007/015210 WO2008013650A2 (en) | 2006-07-10 | 2007-06-28 | Aligning hierarchal and sequential document trees to identify parallel data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009543255A true JP2009543255A (ja) | 2009-12-03 |
Family
ID=38920078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009519452A Withdrawn JP2009543255A (ja) | 2006-07-10 | 2007-06-28 | パラレル・データを特定するために階層的かつ順次的なドキュメント・ツリーを対応付けること |
Country Status (6)
Country | Link |
---|---|
US (2) | US7805289B2 (ja) |
EP (1) | EP2038767A4 (ja) |
JP (1) | JP2009543255A (ja) |
CN (1) | CN101490666A (ja) |
CA (1) | CA2654088A1 (ja) |
WO (1) | WO2008013650A2 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168049A1 (en) * | 2007-01-08 | 2008-07-10 | Microsoft Corporation | Automatic acquisition of a parallel corpus from a network |
WO2008083503A1 (en) * | 2007-01-10 | 2008-07-17 | National Research Council Of Canada | Means and method for automatic post-editing of translations |
WO2008111048A2 (en) * | 2007-03-09 | 2008-09-18 | Ghost, Inc. | System and method for browser within a web site and proxy server |
US7765236B2 (en) * | 2007-08-31 | 2010-07-27 | Microsoft Corporation | Extracting data content items using template matching |
US8504354B2 (en) * | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
US8630972B2 (en) * | 2008-06-21 | 2014-01-14 | Microsoft Corporation | Providing context for web articles |
WO2010046782A2 (en) | 2008-10-24 | 2010-04-29 | App Tek | Hybrid machine translation |
US8306806B2 (en) * | 2008-12-02 | 2012-11-06 | Microsoft Corporation | Adaptive web mining of bilingual lexicon |
US8543580B2 (en) * | 2008-12-23 | 2013-09-24 | Microsoft Corporation | Mining translations of web queries from web click-through data |
US8719701B2 (en) | 2009-01-02 | 2014-05-06 | Apple Inc. | Identification of guides and gutters of a document |
EP2211277A1 (en) * | 2009-01-19 | 2010-07-28 | BRITISH TELECOMMUNICATIONS public limited company | Method and apparatus for generating an integrated view of multiple databases |
US8321533B2 (en) * | 2009-08-03 | 2012-11-27 | Limelight Networks, Inc. | Systems and methods thereto for acceleration of web pages access using next page optimization, caching and pre-fetching techniques |
CN101667177B (zh) * | 2009-09-23 | 2011-10-26 | 清华大学 | 双语文本的对齐方法及装置 |
WO2011035455A1 (en) * | 2009-09-25 | 2011-03-31 | Yahoo! Inc. | Acquisition of out-of-vocabulary translations by dynamically learning extraction rules |
US9208249B2 (en) * | 2009-09-30 | 2015-12-08 | Microsoft Technology Licensing, Llc | Profiler for page rendering |
WO2012000185A1 (en) * | 2010-06-30 | 2012-01-05 | Hewlett-Packard Development Company,L.P. | Method and system of determining similarity between elements of electronic document |
US8271869B2 (en) | 2010-10-08 | 2012-09-18 | Microsoft Corporation | Identifying language translations for source documents using links |
US20120101721A1 (en) * | 2010-10-21 | 2012-04-26 | Telenav, Inc. | Navigation system with xpath repetition based field alignment mechanism and method of operation thereof |
US8442998B2 (en) | 2011-01-18 | 2013-05-14 | Apple Inc. | Storage of a document using multiple representations |
US9471565B2 (en) | 2011-07-29 | 2016-10-18 | At&T Intellectual Property I, L.P. | System and method for locating bilingual web sites |
KR101449551B1 (ko) * | 2011-10-19 | 2014-10-14 | 한국전자통신연구원 | 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체 |
US9779087B2 (en) * | 2013-12-13 | 2017-10-03 | Google Inc. | Cross-lingual discriminative learning of sequence models with posterior regularization |
US9530161B2 (en) * | 2014-02-28 | 2016-12-27 | Ebay Inc. | Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data |
US9881006B2 (en) | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
US9940658B2 (en) | 2014-02-28 | 2018-04-10 | Paypal, Inc. | Cross border transaction machine translation |
US9569526B2 (en) | 2014-02-28 | 2017-02-14 | Ebay Inc. | Automatic machine translation using user feedback |
CN104657351A (zh) * | 2015-02-12 | 2015-05-27 | 中国科学院软件研究所 | 双语对齐语料的加工方法及装置 |
US10545920B2 (en) * | 2015-08-04 | 2020-01-28 | International Business Machines Corporation | Deduplication by phrase substitution within chunks of substantially similar content |
US10268684B1 (en) | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US9959271B1 (en) | 2015-09-28 | 2018-05-01 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10185713B1 (en) * | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN105808530B (zh) * | 2016-03-23 | 2019-11-08 | 苏州大学 | 一种统计机器翻译中的翻译方法和装置 |
US20180260389A1 (en) * | 2017-03-08 | 2018-09-13 | Fujitsu Limited | Electronic document segmentation and relation discovery between elements for natural language processing |
CN108829801B (zh) * | 2018-06-06 | 2020-11-20 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN110674082B (zh) * | 2019-09-24 | 2023-03-14 | 北京字节跳动网络技术有限公司 | 移除在线文档的方法、装置、电子设备及计算机可读介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2272091B (en) | 1992-10-30 | 1996-10-23 | Canon Europa Nv | Apparatus for use in aligning bilingual corpora |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
ATE312446T1 (de) | 1999-05-22 | 2005-12-15 | Sc Info & Inno Gmbh & Co | Verfahren zum verifizieren der unversehrtheit und urheberschaft sowie zum ver- und entschlüsseln von texten |
US7757097B2 (en) | 1999-09-03 | 2010-07-13 | Purdue Research Foundation | Method and system for tamperproofing software |
US6812941B1 (en) | 1999-12-09 | 2004-11-02 | International Business Machines Corp. | User interface management through view depth |
CN1174332C (zh) * | 2000-03-10 | 2004-11-03 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
US6519580B1 (en) | 2000-06-08 | 2003-02-11 | International Business Machines Corporation | Decision-tree-based symbolic rule induction system for text categorization |
US7065652B1 (en) | 2000-06-21 | 2006-06-20 | Aladdin Knowledge Systems, Ltd. | System for obfuscating computer code upon disassembly |
US7016829B2 (en) | 2001-05-04 | 2006-03-21 | Microsoft Corporation | Method and apparatus for unsupervised training of natural language processing units |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7146358B1 (en) * | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
US20030233542A1 (en) | 2002-06-18 | 2003-12-18 | Benaloh Josh D. | Selectively disclosable digital certificates |
JP3973549B2 (ja) * | 2002-12-19 | 2007-09-12 | 沖電気工業株式会社 | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 |
US7607086B2 (en) | 2003-11-18 | 2009-10-20 | Microsoft Corporation | System and method for pre-processing input events |
US7233931B2 (en) | 2003-12-26 | 2007-06-19 | Lee Shih-Jong J | Feature regulation for hierarchical decision learning |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US7526805B2 (en) | 2004-06-12 | 2009-04-28 | Microsoft Corporation | Thread protection |
US20060026438A1 (en) | 2004-07-29 | 2006-02-02 | Microsoft Corporation | Anonymous aliases for on-line communications |
US7551572B2 (en) * | 2005-10-21 | 2009-06-23 | Isilon Systems, Inc. | Systems and methods for providing variable protection |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
-
2006
- 2006-07-10 US US11/483,941 patent/US7805289B2/en not_active Expired - Fee Related
-
2007
- 2007-06-28 CA CA002654088A patent/CA2654088A1/en not_active Abandoned
- 2007-06-28 JP JP2009519452A patent/JP2009543255A/ja not_active Withdrawn
- 2007-06-28 CN CNA2007800263594A patent/CN101490666A/zh active Pending
- 2007-06-28 WO PCT/US2007/015210 patent/WO2008013650A2/en active Application Filing
- 2007-06-28 EP EP07835939A patent/EP2038767A4/en not_active Withdrawn
-
2010
- 2010-07-23 US US12/842,177 patent/US8073679B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080010056A1 (en) | 2008-01-10 |
US20100286978A1 (en) | 2010-11-11 |
US7805289B2 (en) | 2010-09-28 |
EP2038767A2 (en) | 2009-03-25 |
EP2038767A4 (en) | 2012-06-13 |
WO2008013650A2 (en) | 2008-01-31 |
US8073679B2 (en) | 2011-12-06 |
CA2654088A1 (en) | 2008-01-31 |
CN101490666A (zh) | 2009-07-22 |
WO2008013650A3 (en) | 2008-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8073679B2 (en) | Aligning hierarchial and sequential document trees to identify parallel data | |
US8249855B2 (en) | Identifying parallel bilingual data over a network | |
US8694303B2 (en) | Systems and methods for tuning parameters in statistical machine translation | |
US9355171B2 (en) | Clustering of near-duplicate documents | |
JP6901816B2 (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
US8364462B2 (en) | Cross lingual location search | |
US7346487B2 (en) | Method and apparatus for identifying translations | |
JP4945086B2 (ja) | 論理形式のための統計的言語モデル | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
CN101918945B (zh) | 用于执行自动扩展的语言搜索的方法和系统 | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
US20080168049A1 (en) | Automatic acquisition of a parallel corpus from a network | |
US11222053B2 (en) | Searching multilingual documents based on document structure extraction | |
JP2006004417A (ja) | 情報ファイルの特定のタイプを認識する方法及び装置 | |
JP2004038976A (ja) | 用例ベースの機械翻訳システム | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
JP2007122509A (ja) | 語句配列の自然度判定装置、方法及びプログラム | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
CN103235775A (zh) | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 | |
US8224642B2 (en) | Automated identification of documents as not belonging to any language | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
Nghiem et al. | Using MathML parallel markup corpora for semantic enrichment of mathematical expressions | |
CN115270777A (zh) | 一种合同文件信息抽取方法、装置、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100907 |