JP2013515977A

JP2013515977A - 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法

Info

Publication number: JP2013515977A
Application number: JP2011542972A
Authority: JP
Inventors: ルバノヴィッチ，ミハイル; バビツキー，ドミトリー
Original assignee: ForNova Ltd
Current assignee: ForNova Ltd
Priority date: 2008-12-31
Filing date: 2009-12-27
Publication date: 2013-05-09
Anticipated expiration: 2029-12-27
Also published as: JP5501373B2; US9430569B2; US8880498B2; CN102317937A; US20100169301A1; EP2380099A1; US20150134636A1; RU2011130218A; WO2010076785A4; WO2010076785A1

Abstract

複数の関連サイトから情報を収集し、情報を分析し、将来の使用のためにデータベースに関連情報を記憶するためのシステム及び方法。本発明の一態様によると、システムは自動的に、あるいは別個に取得した、サイトの提供リストを用いて、それらを照会し、各サイトからの検索結果を分析する。情報は更に、任意かつ好適にランク付けしてもよい。
【選択図】図１

Description

本出願は２００８年１２月３１日付けの米国仮特許出願第６１／１９３，８６２号の優先権を主張し、本明細書中で十分に説明されるがごとく引用によって組み込まれている。

本発明は：ウェブサイトから情報検索すること、特に複数のウェブサイトからの情報の自動集約することと、任意にこのような情報をランク付けすることに関する。

インターネットは情報を探索するための主要なリソースとなっている。複数の対象に関するサービス又は情報を提供するウェブサイトが非常な人気となっている。このようなウェブサイトは例えば、販売用の車を提供するサイト、不動産を提供する不動産サイト、又はユーザがユーザの興味のある人々についての情報と接することが可能なソーシャルネットワークサイトである。

残念なことに、車といった特定の項目に関する情報を探索する人々は、例えば様々なサイトから情報を検索し、かつこれらの情報を手動で組み合わせなければならない。更には、情報の一部は冗長であり、例えば、同一の不動産に関する情報は２以上の不動産のサイトに掲載されうる。

一部のウェブサイトは関連ウェブサイトとの契約を定めて、これらのサイトからの情報を収集して、別のサイトにおけるこれらの情報を提示している。残念なことに、この運用は手動でなされ、契約に基づくため、情報が収集されるサイトの量は限定される。

背景技術は、幾何学的分析及び意味解析に基づいており、関連ウェブサイトから収集された情報に基づいており、あるサイトにおいて収集した関連情報を提供している、完全自動式のプロセスを教示又は示唆していない。

本発明は、本発明の少なくともいくつかの実施形態においては、複数の関連サイトからの情報を収集し、幾何学的及び意味的の双方の情報を分析し、将来の使用のためにデータベースに関連情報を保存するシステム及び方法を提供することによって背景技術の欠陥を克服する。幾何学的分析は意味解析と組み合わせて、意味解析のみと比較してより正確かつ有効な探索を提供する。

本発明の一実施形態によると、本システムは関連サイトを自動的かつ好適には定期的に照会し、各々のサイトから検索した結果を分析する。このような結果はＨＴＭＬ／ＸＭＬページから、あるいはその他のテキストフォーマットのページから検索できる。この実施形態によると、ブラウザはＨＴＭＬドキュメントにあるレンダリングコンポーザエンジンを適用して、例えば任意に、ドキュメントオブジェクトモデル（ＤＯＭ）の木を形成することによって、ドキュメントの１以上の幾何学的特性を判定する。このような木の幾何学的特性は好適には、ドキュメントのレイアウトを判定するために分析される。情報は好適にはその後、ドキュメントのレイアウトに従ってドキュメントから検索される。任意には、意味解析が更に適用される。

本発明の更に別の実施形態によると、このような幾何学的分析を通して取得される情報をランク付けするための方法が提供される。本方法は任意には、完全なドキュメントそのものをランク付けするのみではなく、分析したドキュメント内に含まれる１以上のレコード又は情報のユニットを個別にかつ分離してランク付けすることを特徴とする。「レコード（ｒｅｃｏｒｄ）」によって、ウェブサイトの「バックオフィス（ｂａｃｋｏｆｆｉｃｅ）」と関連づけられるか、あるいはその一部を形成するデータベース又は他の情報の記憶装置から取得又は誘導される任意の情報のユニットが示される。情報のユニットは好適には、データベースに記憶されたデータの領域に対し全体の階層を形成する。限定されない例としては、不動産のデータベースについては、レコードは任意には一覧表にある不動産の記載（例えば、建物、事務所、及び集合住宅等の販売及び賃貸に関する）である。この実施形態によって、関連情報はドキュメント自体及びそのランクに拘らずランク付けできる。このようなランク付けは情報のユニットが関心の対象である場合、及び／又は情報のユニットが「深層ウェブ（ｄｅｅｐｗｅｂ」に存在する場合に有用であり、情報のユニットは動的に形成されるウェブページの一部となる。

前述のように、ウェブページは一般的には複数の情報を含む。関連する広告等といった情報の一部は関連情報を含まない。関連情報の検出は内容及び文脈の関連性の探索に基づく意味解析によって、例えば、キーワードを探索することによってなされうる。関連情報の検出は更に幾何学的分析によってでき、ページのレイアウト、関連情報の位置に関する推定、あるいはその組合せに基づいている。残念なことに、当該技術分野のシステム及び方法は、関連情報の位置の事前に規定された記載に基づき、かつこのような幾何学的分析の意味解析との組合せに基づく幾何学的分析を提供するものはない。本発明の多くの重要な特徴のうち、少なくともいくつかの実施形態においては、既知の技術のこれらの欠点を克服する。

２００８年４月２４日公表の２００６年１０月２４日付出願の米国特許出願公開第２００８／００９８３００号は、レンダリングされたページを幾何学的に分析することによってウェブページから関連情報を取得するためのシステム及び方法を教示する。しかしながら、この出願は特に、ページの幾何学的な分析方法及び意味解析を幾何学的分析と組み合わせる方法を開示又は示唆していない。

２００６年７月２０日公表の２００５年４月２５日付出願の米国特許出願公開第２００６／０１６１５６９号は、文脈の関連性を探索することによって木構造における対象のノードを同定することを教示するが、しかしながら、この特許はページの幾何学的構造を分析することによるウェブページにおけるデータの関連性をチェックする方法を教示又は示唆しない。

他に規定されない限り、本明細書中で用いられる総ての技術的及び科学的用語は本発明が属する当該技術分野において、当業者によって通常理解されるのと同一の意味を有する。本明細書中で提供される材料、方法及び実施例は単なる例示であり、限定することを目的としない。

本発明の方法及びシステムの実装は、特定の選択したタスク又は段階を手動で、自動で、あるいはその組合せで実行又は完了させることを含む。更には、本発明の方法及びシステムの好適な実施形態の実際の装置及び設備について、いくつかの選択した段階は、ハードウェアによって、あるいは任意の基本システム上のソフトウェア若しくはファームウェア、又はその組合せによって、実装されうる。例えばハードウェアとして、本発明の選択した段階はチップ又は回路として実装できる。ソフトウェアとしては、本発明の選択した段階は、任意の好適な基本システムを用いてコンピュータによって実行されうる複数のソフトウェア命令として実装できる。任意の場合においては、本発明の方法及びシステムの選択した段階は、複数の命令を実行するための演算プラットフォームといったデータプロセッサによって実行されるように記載される。

本発明は「コンピュータネットワーク（ｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ）」上の「コンピュータ（ｃｏｍｐｕｔｅｒ）」について記載しているが、任意にはデータプロセッサ及び／又は１以上の命令を実行する能力を特徴とする任意のデバイスはコンピュータとして記載してもよく、限定しないがＰＣ（パーソナルコンピュータ）、サーバ、ミニコンピュータを含むことに留意すべきである。相互に通信するこのようなデバイスの任意の２以上、及び／又は任意の他のコンピュータと通信する任意のコンピュータは、任意に「コンピュータネットワーク」を具えてもよい。

本発明は本明細書中では添付の図面で単なる例示によって記載されている。特に詳細な図面によると、図示した事項は実施例であり、本発明の好適な実施例の例示的な考察のみを目的とするものであり、もっとも有用であると考えられるものと、本発明の原理及び概略的な態様の容易に理解される記載とを提供するために提示される。この観点においては、本発明の基本的な理解のために必要となるものよりも詳細に本発明の構造上の詳細を示すことを企図するものではなく、図面にある記載は、どのように本発明のいくつかの形態が実際に具現化できるかを当該技術分野の当業者に明確にするものである。

図１は、システムの概略図である。図２は、特定のサイトに関するデータベースの構築について記載した概略的なフローチャートである。図３は、ページ分析について記載した高次のフローチャートである。図４は、レンダリングされたページを例示するダイアグラムである。図５は、ページ内部の選択したレコード格納部を例示するダイアグラムである。図６は、レコード格納部内部のグループを例示するダイアグラムである。図７は、レコード格納部を同定するプロセスについて記載した例示的なダイアグラムである。図８は、レコード格納部内部のグループを同定する例示的なプロセスについて記載したダイアグラムである。図９は、本発明の少なくともいくつかの実施形態による、意味解析とドキュメント内部のレコードの更なる幾何学的特性との組合せによってレコードをランク付けするための例示的な実例のプロセスを示す。図１０は、本発明の少なくともいくつかの実施形態による、関連性ランク付けシステム９１０を実行するための例示的な実例のプロセスについて記載する。

本発明は少なくともいくつかの実施形態においては、ウェブサイトからの情報検索のための、特に複数のウェブサイトからの情報の自動集約のためのシステム及び方法である。少なくとも１の実施形態によると、本システム及び方法は複数の関連サイトからの情報を収集し、幾何学的にかつ意味的に情報を分析し、将来の使用のためにデータベースに関連情報を任意に記憶する。幾何学的分析は意味解析と組合わせて、意味解析のみと比較して更に正確かつ有効な探索を提供する。

本発明の一実施形態によると、本システムは自動的かつ定期的に関連サイトを照会し、各々のサイトから検索した結果を分析する。このような結果はＨＴＭＬ／ＸＭＬページから、あるいはその他のテキストフォーマットのページから検索できる。この実施形態によると、ブラウザはＨＴＭＬドキュメント上のレンダリングコンポーザエンジンを利用して、例えば任意にドキュメントオブジェクトモデル（ＤＯＭ）の木を形成することによってドキュメントの１以上の幾何学的特性を判定する。このような木の幾何学的特性は好適には、ドキュメントのレイアウトを判定するために分析される。情報は好適には、次いでドキュメントレイアウトによるドキュメントから検索される。任意に、意味解析が更に利用される。

ドキュメントオブジェクトモデルは、木構造でＨＴＭＬ又はＸＭＬのドキュメントを表わす。ＤＯＭは、単純化した検索用の明確な木構造へのデータ分離及び分類を可能にするデータ構造を提供する。任意にかつ好適には、内側のブラウザフレームから左上方の囲まれた矩形領域の隅部までの距離をピクセルで測定するＸＹ座標位置は、木のノードと関連づけられる。領域の幅、高さ、左縁、上縁部の大きさ、内側左及び上のマージンは更に任意であり、木で特徴づけられる。ＤＯＭの木のノードと関連づけられる総ての幾何学的特性はドキュメントのレイアウトと称される。

ドキュメントのＤＯＭの木が構築された時点で、システムは好適にはレイアウト内部のレコード格納部を探索する。レコード格納部は、幾何学的構造が類似のレイアウト部分を含む、ＤＯＭの木のノードと関連する任意のレイアウト部分である。ノードは更に、更なるレイアウト部分である他のレコードではない構成又は下位領域を任意に含んでもよい。更に、レコード格納部は任意に、レコードと幾何学的に類似ではない１以上のレイアウト部分を特徴としてもよい。

２以上の候補のレコード格納部がある場合、単一のレコード格納部は好適には格納部の領域の大きさと、ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性とをランク付けすることによって選択される。例えば、領域が最大で、中心がページの中心に最も近い格納部は高くランク付けされ、レコード格納部として選択される。

２以上のレイアウトの下位領域（レコード）間の幾何学的な類似性は、レコードを含む要素（形状）の反復頻度によって、任意にかつ好適には、少なくとも部分的に判定される。幾何学的特性は好適には、長さ、幅、及び位置といったパラメータを含む。各々のレコードは関連データの単一ユニットを含むと推定されうるレイアウト部分、例えば車の広告あるいは不動産の販売又は賃貸用の建築物又はその一部の一覧表である。レコードの関連性は更に、本発明の少なくともいくつかの実施形態による意味解析器によって任意かつ好適に規定され、レコード内部に含まれる情報の意味的な関連性は、このような意味的な関連性が更にレコードの関連性を判定する際に好適に考慮されるように好適に判定される。

幾何学的な類似性は好適には、走査線（ＳｃａｎＬｉｎｅ）アルゴリズムの変形物を用いることによって検出される。走査線アルゴリズムは画素ベースではなく、列ベースで動作させるコンピュータグラフィックにおけるアルゴリズムである。総ての形状は最初に現れる頂点のｘ座標によって選別され、次いで画像の各々の列又は走査線は、走査線の幾何学的形状との交差を用いて算出される。

次いでシステムは好適には、選択したレコード格納部内の幾何学的な矩形のレコードをグループに分割する。幾何学的パターンが同一のレコードは好適には同一のグループに属すると同定される。グループ及び幾何学的パターンを規定するプロセスは好適には、レコード格納部内の幾何学的な矩形、又は他の幾何学的に規定された形状を同定することによって、及び好適には走査線アルゴリズムを用いることにより矩形を順序づけることによってなされている。

システムは好適には各々のグループからの代表レコード又はレコードの集合で意味解析を行う。代表レコード（レコードの集合）が関連性があると検出された場合は、総てのグループの要素からの関連データが好適には、グループのパターン（グループを同定する構造）と同時に更なるデータの検索のために記憶される。意味解析は例えばであり、任意の方法で限定することを望むものではないが、キーワード若しくはその組合せを探索することによって、又はセマンティックウェブ技術を用いることによってなされる。例えば、システムがフライトを扱うウェブページからの情報を収集する場合、システムは好適にはフライト数、座席、及び到着等といったキーワードを探索する。このようなキーワードが見つかった場合、幾何学的パターンは好適には関連性があると同定され、このパターンの総ての例からのデータが好適にはデータベースに保存される。

本発明の他の実施形態によると、あるページでパターンが同定された時点で、システムは次のページの同定パターンとともにレコードを同定でき、かつ好適にはこれらのパターンと同一のテキスト構造を推測することによって、更なる分析をせずに関連データが取得される。

本発明の他の実施形態によると、システムはデータベースに検索したデータを保存する。ユーザがデータを照会した時点で、好適には専用のウェブサイトを用いることによって、データベースから検索される。照会結果は好適には、関連サイトから検索した情報ならびにこれらのサイトに対するリンクを含む。

本発明の更に別の実施形態によると、このような幾何学的分析を通して得られた情報をランク付けするための方法が提供される。本方法は任意に、完全なドキュメントそのものをランク付けするのみではなく、分析したドキュメント内に含まれる１以上のレコード又は情報のユニットを個別にかつ分離してランク付けすることを特徴とする。この実施形態によって、関連情報はドキュメント自体及びそのランクに拘らずランク付けできる。このようなランク付けは情報のユニットが関心の対象である場合、及び／又は情報のユニットが「深層ウェブ」に存在する場合に有用であり、情報のユニットは動的に形成されるウェブページの一部となる。

図面を見ると、図１は本発明による例示的な実例のシステムの概略図である。システム１００はサーバ１２０を特徴とし、関連サイトからデータを取得するためにウェブサイトインタフェース１０２を通って外部データベース１０１と通信する。サーバ１２０は提供した関連ウェブサイトのリスト１０９からデータを取得するためのクローラの処理部１０５を特徴とする。このようなリスト１０９はファイルに任意に常駐できるか、あるいは代替的には別のクローラによって収集できる。スケジューラ１０６はクローラ１０５をスケジューリングして、関連データを検索するためにウェブサイトインタフェース１０２を介してデータベース１０１を自動的に照会する。このようなデータは例えば、大学のウェブサイトを照会することにより利用可能な大学教育のプログラムにできる。クローラの処理部１０５は任意かつ好適に、外部データベースと通信し、ページをレンダリングするために、ブラウザ１０４のＡＰＩを用いる。レンダリングは、当該技術領域で既知の、ＤＯＭ（ドキュメントオブジェクトモデル）に常駐する階層及びそれに関連する幾何学的情報に基づいてページのレイアウトを形成するプロセスであり、ウェブサイト１０９から受信されるウェブページのデータによって検索される。階層的情報は特にＤＯＭの木に常駐し、各々のマークアップ言語のタグ（各々のＨＴＭＬ又はＸＭＬのタグといった）はＤＯＭの木におけるノードと関連づけられる。木における各ノードについては、ブラウザ１０４は更に、対応するウェブページをレンダリングするための幾何学的表現を関連づける。幾何学的表現はＸＹ開始点のオフセット、幅、及び高さ等によって示される。

クローラ１０５は、図３に更に詳細に説明されるように、ＤＯＭの木をページの幾何学的表現とともに含むレンダリングされたページを、関連層が意味解析器１０８によってテキストどおりに分析されることを検出する幾何学的分析器の処理部１０７に伝達する。意味解析器の処理部１０７は好適には、パターンが同一のグループを受信し、各々のグループを分析するために幾何学的分析器の処理部１０７と通信する。意味解析器の処理部１０７は更に好適には、クローラ１０５と通信する（クローラ１０５は次の結果のページに対するリンクを、好適にはそのページが関連する結果のページと同一であった場合のみに検索する）。

レコード、データ、及び関連ウェブページに対するリンクを含む分析結果は好適には、結果データベース１１０に記憶される。ユーザが探索ウェブサイト１１１を用いて、例えば総ての大学教育のプログラムのリストといったユーザの領域における情報を照会する場合、情報は結果データベース１１０から検索される。情報は好適には、上述で行われた分析によって、データと更なるデータを検索するための関連サイトに対するリンクとを含む。

図２は、特定のサイトに関するデータベースの構築について記載した概略的なフロー処理の例示的な実例の実施形態のダイアグラムである。このシステムは特定の領域に関する関連サイトのリスト、例えば不動産サイトのリストを処理する。段階１においては、システムは自動的かつ定期的に、所定のサイトのリストから各々の関連サイトを照会する。照会は、サイトのＵＲＬのリストを調査するクローラを好適に用いることによって、好適にはＭｉｃｒｏｓｏｆｔＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ及びＭｏｚｉｌｌａＦｉｒｅｆｏｘのようなウェブブラウザを用いることによってなされる。クローラは好適には、ブラウザによって提供され、ウェブサイトのＵＲＬによって特定されるドキュメントのＤＯＭ（ドキュメントオブジェクトモジュール）に基づいてレンダリングされたページを構築する（任意のこれらの構成は分離でき、クローラの動作用に通信できるが、ウェブブラウザは好適にはクローラに埋込まれる）。

段階２においては、システムはウェブサイトのＵＲＬによって特定したドキュメントにおける関連データを、レンダリングされたページから幾何学的パターンを同定することによって、かつそのパターンからデータを抽出することによって探索する。この方法は図３で更に詳細に説明される。段階３においては、データ及びデータに対するリンクは更なる使用のためにシステムのデータベースに保存される。関連データがホームページで検出される場合、クローラは次のページを取得し、段階２及び３はの次のページの各々で反復される。段階１及び２は好適にはクローラによって検出される各々のウェブサイトで反復される。段階４において、ユーザは好適にはシステムによって提供される専用のウェブサイトを用いることによって、情報（例えば、不動産情報）を照会する。段階５においては、システムはデータベースから関連情報の総て、ならびに関連ウェブサイトに対するリンクを提供する。システムは好適には、ページにおける各々の保存されたレコードの概要の情報を提供し、レコード自体を検証するために、ユーザはレコードが検出された元のウェブページに再誘導される。

図３は、ページ分析について記載した高次のフローチャートである。段階１においては幾何学的分析器は、ウェブページから検索され、好適には上述のようなＤＯＭの木を含む、ＤＯＭ（ドキュメントオブジェクトモジュール）に常駐する情報によって、埋込型のブラウザレンダリングエンジンからページのレイアウトを取得する。段階２においては、レイアウトは幾何学的分析器によって１以上のレコードを配置するように分析される。各々のレコードは情報のユニットを表わす。このようなレコードは任意に、例えば販売代理店のウェブサイトを通して販売された車の広告にできる。

段階３においては、幾何学的分析器は好適には、配置されたレコードによる特定のレコード格納部を探索する。レコードはレコード格納部内部に配置した構造として幾何学的に存在する。

本方法は好適には、このようなレコード格納部に常駐すると推定することによって、関連データが相互に幾何学的に類似するレコードを含むレコード格納部を探索する。２以上の候補の格納部がある場合、レコードは好適にはレコードの１以上の幾何学的特性によって選択され、例えば、幾何学的中心に近い、大きく、かつより中心的のレコードが選択される。例示的な実例のレコード格納部は図５に例示される。

段階４において、幾何学的パターンが同一の矩形（レコード）のグループは、選択したレコード格納部の中で判定される。システムは好適には、その座標によってレコード格納部内の総ての矩形（レコード）を順序づける。次いで矩形は相互に分離される。幾何学的構造が同一の矩形は、固有の幾何学的パターンによって同定される同一のグループに属すると規定される。レコード格納部のグループへの分割は図６に例示される。段階５において、代表レコード又はレコードの集合は段階４に規定される各々のグループから選択され、意味解析される。段階６において、代表レコード又はレコードの集合が意味解析器によって関連性があると検出された場合、総てのグループの要素からの関連データは、グループのパターン（グループを同定する構造）と同様に、更なるデータの検索のために保存される。段階５及び６は各々のグループで反復される。

例えばデータレコードが表で示されている場合、幾何学的分析器は好適には、例えば各々のレコードを表の行と関連づけることによって、この幾何学的構造によるレコードを分析する。意味解析は表のヘッダ行と、各々のヘッダ項目の幾何学的位置（オフセット）を同定する。ヘッダではない行を分析する場合、各々の列は列のオフセットを用いて対応するヘッダ項目と関連づけられる。この技術は表からの正確なレコード抽出を保証する。

図４は、レンダリングされたページを例示するダイアグラムである。レンダリングされたページ４００は好適には、レンダリングエンジン（図示せず）から形成される。レンダリングはＤＯＭから検索された幾何学的及び構造上の情報を組合わせることによってなされる。構造上の情報は階層型の木（ＤＯＭの木４０２として図示される）で、ＤＯＭ（ドキュメントオブジェクトモデル）によって提供されるが、幾何学的な情報は木４０２における各々のノードに座標を割り当てることで、ＤＯＭによって提供される。ＤＯＭの木４０２とレンダリングされたページ４００との対応が示されている。

ＤＯＭの木４０２のルートノードはＨＴＭＬ４０４である。ＨＴＭＬ４０４はページレイアウト４０８に対応する本体部４０６を特徴とする。本体部４０６は複数のＤＩＶノード４１０を特徴とし、その各々がレンダリングされたページ４００内部の分割部４１２を表わす。ＤＩＶノード４１０のうちの１つは表のノード４１４であることを特徴とし、レンダリングされたページ４００内部の表４１６に対応する。表のノード４１４は更に複数のＴＲ（表の行）のノード４１８を特徴とし、表４１６の表の行４１８に対応する。

図５は、レンダリングされたページ５１０内部のレコード格納部５２０を例示する。レコード格納部５２０は、レコードの下位の木（内側の矩形）が相互に類似することによって、レンダリングされたページの内部に最も組織化された内側構造を有するレコードとして同定される。

図６は、レコード格納部内部のグループを例示する。各々のグループはレコード（内部の幾何学的構造が同一）を含む。図面においては、レコード格納部６３０内部のレコード６３１、６３２、及び６３５は１のグループに属するが、レコード６３３、６３４、６３６、及び６３７は別のグループに属する。

図７は、レコード格納部を同定するプロセスについて記載した例示的なダイアグラムである。段階１において、ページのレイアウトはレンダリング処理によって形成される。段階２において、ドキュメントのレイアウトは、レイアウトにおいて類似する領域を検出するために、例えば走査線アルゴリズムを用いることによって幾何学的に走査される。段階３において、類似する領域を含むＤＯＭの木のノードは候補のレコード格納部として同定される。段階４において、レコード格納部は格納部の領域の大きさと、格納部の幾何学的中心のドキュメントのレイアウトの幾何学的中心に対する近接性とをランク付けすることによって選択され、例えば、領域が大きく、中心がページの中心に最も近い格納部は高頻度でランク付けされ、レコード格納部として選択される。

図８は、レコード格納部内部のグループを同定するプロセスについて記載したダイアグラムである。段階１においては、レコード格納部内の各々のレコードに対する幾何学的構造が検出される。段階２においては、レコードはその幾何学的構造に応じて、構造の同一なレコードを同一のグループに配置するようにグループ化される。段階３においては、代表レコード又はレコードの集合は好適には、各々のレコードのグループから選択される。段階４においては、代表レコード又はレコードの集合は、各々の代表レコード又はレコードの集合の内容を判定するために意味解析される。段階５においては、分析結果は好適には、後の検索用、例えば構造が同一又は類似の他のレコードの分析用のシステムデータベースに、構造とともに記憶される。

本発明のいくつかの実施形態によると、レコードは上述のように判定される、ドキュメント内のレコードの意味解析及び更なる幾何学的特性の組合せによって任意にランク付けしてもよい。図９に示すように、プロセス９００は好適には、複数のデータベース９０２からの複数のレコード９０４の分析を特徴とする。データベース９０２は、例えばインターネット、任意に及び更に好ましくはいわゆる「深層ウェブ」を含む、上述のようなコンピュータネットワークを通して利用可能な任意の型の情報を任意に含み、動的に形成されたウェブページから得られるレコードである。

システム９０６は好適にはデータベース９０２からレコード９０４を抽出する。システム９０６は任意にかつ好適には、レコードを抽出し、更にその幾何学的特性を判定するために上述のように動作させ、より好適には更にレコードが配置されるドキュメントのうちドキュメントのレイアウトに対するレコードの幾何学的特性を含む。システム９０６によって判定される情報は好適には、結果データベース９０８に記憶される。

関連性ランク付けシステム９１０は好適には、結果データベース９０８における情報を分析して、上述のように得られたレコードをランク付けする。関連性ランク付けシステム９１０は好適には、図１０で更に詳細に述べた意味的比較と、各々のレコードの幾何学的特性に基づく更なるランク付けとを少なくとも用いて、複数のレコードの関連性のランク付けを判定する。幾何学的特性に関し、好適には元のドキュメントのレコードの顕著性は少なくとも、ドキュメントのレイアウトに関するレコードの幾何学的特性から判定され、ランク付けのために用いられる。このような顕著性はレコードの重要性についての、ウェブサイトのコンストラクタによってなされる１以上の判定に関連し、より顕著なレコードがより重要であると推測される。

顕著性は好適には、前述の幾何学的パターン及び各々のレコードに対する位置情報によって判定される。所定のウェブサイト及びそのレコードについては、関連性ランク付けシステム９１０は、パターンの平均的深さとこのようなパターンを有するレコードの数とを組合わせることによって、各々のパターンの顕著性を評価できる。

例示した限定しない例のように、ウェブサイトＸは毎日走査され、１０００のレコードが抽出される。レコードはこの例では２のグループ：パターンＡを有するレコード；及び、パターンＢを有するレコード；に分割される。９９０のレコードがパターンＡであり、１ないし５０のページから抽出される（パターンＡの平均的深さは２５である）一方、１０のレコードのみが最初のページのみに表れるパターンＢを有する（パターンＢの平均的深さは１である）と仮定する。多数の式をこのデータに適用して、パターン（レコードのグループ）の顕著性を算出できる。パターンＢを有するレコードが、ページのうちの最初のグループのページにのみ表れる場合、より顕著であると推定してもよい。

同様の分析を任意に：ウェブページ内の位置（上及び中央、又は下、ならびに片側であり、上及び中央位置はより顕著であると任意に判定される）；大きなレコードほどより顕著であると見なされるレコードの大きさ；及び、更に選択的には、レコード内に含まれる情報の型；に適用してもよい。情報の型については、顕著性は好適には、レコード内に含まれる情報の領域に対応する情報の型と関連づけられる。例えば、不動産広告及び自動車広告の領域については、任意かつ好適には、写真又は他の型の画像の含有は、ウェブページ上のスペースを消費する場合、一般的にはこのような１以上の画像はより重要な項目で用いられるため、レコードの顕著性を増加させる。しかしながら「求人」広告のような他の領域では、画像の存在はレコードの重要性の増加を必ずしも示さず、この場合においては、この情報の型は好適には、レコードの顕著性を判定するのに用いられない。

任意に、関連性ランク付けシステム９１０は、古い日付で抽出しているレコードは関連性がある可能性が少なく、更にはその推定される関連性が経時的に減少するため、レコードの「新しさ（ｆｒｅｓｈｎｅｓｓ）」を用いてもよい。従って、新しい方のレコードが好適にはこの属性について高い評価を受け取る。

任意に、関連性ランク付けシステム９１０は更に、好適には人気及び信頼度の双方によってランク付けするためにレコードのソースを用いてもよい。例えば、ウェブサイトのメインページのＵＲＬのＧｏｏｇｌｅランキングを用いるか、あるいは人気を判定するためにネットワークトラフィックを評価してもよい。この属性によって更に、多数のウェブサイトで同時に表われるレコードに対し高い優先度を与えるのを可能にし、例えばウェブサイトのＧｏｏｇｌｅランキングを組合わせることによって、高いランクに割り当てるとレコードが表われる。

信頼度については、このようなランク付けを手動で、あるいは関連性ランク付けシステム９１０の外側にある自動分析によって任意に判定してもよく、例えば新規のウェブサイトは時にして、そこに含まれる情報の信頼度に応じて外部機関によってランク付けされる。このような外部の第三者のランク付けはレコード用のソースとして特定のウェブサイトの信頼度を判定するのに任意に含んでもよい。

任意に、関連性ランク付けシステム９１０は更にレコードの完全性を用いてもよく、それは項目がレコードにおいて数値を提供した範囲であり、より多くの項目がレコードにおいて規定されると（レコードはほとんどφ又は零の変数を有さないため）、このパラメータに従ってレコードのランク付けは大きくなる。例えば、レコードが画像を含みうる形式である場合、好適には画像を特徴とするレコードは画像がないレコードよりも大きなランク付けを受ける。

ユーザがユーザコンピュータ９１２を介して照会を呈示し、任意かつ好適に、例えばインターネットといったネットワーク９１４を介して関連性ランク付けシステム９１０と通信する場合に、照会は好適には、関連性ランク付けシステム９１０によってランク付けされるようにレコードと比較される。このようなランク付けは好適には、照会及びレコードの意味解析、ならびに好適には関連性ランク付けシステム９１０によって分析された幾何学的な情報の双方によって実行される。このプロセスは図１０で更に詳細に記載されている。応答は次いで好適には、ユーザに対する表示のためにユーザコンピュータ９１２に戻される。

図１０は、本発明の少なくともいくつかの実施形態による、関連性ランク付けシステム９１０を実行するための例示的な実例のプロセスについて記載する。図示したように、複数のレコード９０４からの情報は類似性比較モジュール１００２によってユーザの照会１０００と比較され、任意の型のコンピュータ又は複数のコンピュータによって任意に操作されうる。類似性比較モジュール１００２は好適には、以下のようにレコード９０４を１以上の関連しないレコード１００４と１以上の関連レコード１００６とに選別する。

好適には、類似性比較モジュール１００２（あるいは類似性比較モジュール１００２の前のアップストリームを別個に、任意に、かつ好適に操作する別のモジュール）はレコード９０４を複数の領域に分離する。各々の領域は項目の集合＜ｉ_１，ｉ_２，．．．，ｉ_ｎ＞によって任意かつ好適に規定される。例えば、不動産のレコードについては、以下の項目を任意に規定してもよい：建物の種類、価格、住所、階、面積等。中古車の領域については、車のモデル、価格、モータの容積、及び走行距離のような項目を任意に規定してもよい。当然ながら１以上の項目が複数の領域に任意に生じうるが、領域が異なると項目は異なりうる。

データベースにおける複数のレコード９０４のうちのあるレコードは好適には、変数のベクトルＲ＝＜ｒ_１，ｒ_２，．．．，ｒ_ｎ＞として表わされる。各々の変数ｒ_ｋは特定の項目ｉ_ｋに対する値を含む。レコードは、領域について記載した一部の項目の情報を含むことができない。この情報が不足しているか無い場合、欠損項目に対応する変数の値はφといった特定の零値（上述したような）で好適に割当てられる。

ユーザの照会は更に好適には類似性比較モジュール１００２によって、特定の領域項目について記載した変数のベクトル：

に変換される。ユーザの照会も同様に、所定の領域に対して規定される項目の一部を含むことができない。この場合は、欠損項目に対応する変数の値はφといった特定の零値（上述したような）で好適に割当てられる。例えば、価格又は特定の建物の面積に拘らずロンドンでの３寝室のマンションを探索でき、価格又は特定の建物の面積の欠損値は好適には零値に変換される。

類似性比較モジュール１００２が照会：

を受信する場合、照会の類似の割合：

は好適には、データベースにおいて複数のレコード９０４の各々のレコードに対して計算される。類似の割合は、項目の変数の各々の照会及びレコードの対に対する類似の割合の積：

である。項目の類似の割合は異なる項目の型について別々に算出される。

任意に、異なる重み付けを様々な項目に割り当ててもよく、この場合においては各々の項目に対して新規の因子（冪乗部分）：

が好適には、このような特異的な重み付けのために用いられる。

一部の項目については、類似の割合は変数の厳格な比較によって規定してもよく、例えば建物の寝室の数又は車の品質といった２進数の値のみを割り当ててもよい。

他の項目においては、堅牢でない比較がなされうる。数値的項目においては、数の単純な比較を用いてもよい。例えば、３００ＫＵＳＤ（米ドル）の価格で建物を探索した場合、ユーザは３０５ＫＵＳＤ又は更に２７０ＫＵＳＤの価格で建物を見つけることに関心がある可能性がある。この場合においては、類似の割合は次式：

を用いて算出できる。非数値的項目については、類似の割合は余弦類似度又は逆ドキュメント頻度（ＩＤＦ）のようなテキスト類似度のアルゴリズムによって算出してもよい。

一般的な領域の場合においては、１の項目のみであることが好ましく、フリーテキストとなる。レコード及び照会の双方が好適には、テキスト類似度のアルゴリズムによって比較される単一の変数によって規定される。

照会変数ｑ_ｋがφである場合、ｓｒ（ｑ_ｋ，ｒ_ｋ）が総てのレコードについて同一であり、関連性の順序に影響を与えないため、ＳＲ（Ｑ，Ｒ）について好適には考慮されない。レコード変数ｒ_ｋがφである場合、ｓｒ（ｑ_ｋ，ｒ_ｋ）は好適には事前に規定された値τ_ｋ：

を受け取る。値０又は１が得られないことは明らかである（この項目に対する照会において同一の値を有するレコードは高くランク付けされるべきであるので、関連性がないとは見なされないが、最大のランク付けは受けられない）。

ＳＲ（Ｑ，Ｒ）の計算後、レコードは好適には、前述したように２のグループにに分割される。ＳＲ（Ｑ，Ｒ）が低い（事前に規定された閾値、例えば−０．１より低い）レコードは関連性がない（関連しないレコード１００４として図示）と見なされ、ユーザに提示されない。類似の割合が高いレコード（関連レコード１００６として図示）は拡張型の関連性のランク付けモジュール１００８によってランク付けされる（類似の割合に加えて、関連性をランク付ける外部パラメータを組合わせる）。

拡張型の関連レコードのランク付けＥＸＲ（Ｑ，Ｒ）は以下の式：

を介して算出される。ここで属性変数をランク付けるベクトルＡ＝＜ａ_１，ａ_２，．．．，ａ_ｍ＞は、相対重み付けベクトルＷ＝＜ｗ_１，ｗ_２，．．．，ｗ_ｍ＞で乗算される。属性変数ａ_ｉは、特定の特性（属性）に従ったレコードのランク付けを表した実数：

である。重み付け因子Ｗ_ｉはランク付けの計算における属性の相対的な重み付けを表わす。重み付け因子は、

といった実数：

である。特定の属性は任意には、類似性比較モジュール１００２によって決定されるような、レコードの幾何学的特性、「新しさ」、信頼度及び／又は人気による情報源のウェブサイトのランク付け、レコードの完全性、ならびにウェブサイト内のレコードの顕著性等のうちの１以上での任意の重み付けを特徴としてもよい。

最終的に選別及びランク付けされたレコード１０１０は、例えばいくつかの最小のランク付けの除外によって、ユーザに任意に提供してもよい。

本発明は限定した数の実施形態について記載してきたが、本発明の多くの変形、変更、及び他の処理がなされうることは理解されよう。

Claims

複数のウェブサイトからデータを自動集約するための方法であって：
ｉ．複数の関連サイトからの前記データについて自動的かつ定期的に照会するステップと；
ｉｉ．該照会ステップによる結果を分析するステップであって、前記結果が少なくとも１のドキュメントを含み、該分析ステップが前記ドキュメントのページレイアウトを幾何学的に分析するステップを具え、該幾何学的な分析ステップが：
前記ドキュメントの１以上の幾何学的特性を特定するステップと；
前記ドキュメントのレイアウトを特定するために前記１以上の幾何学的特性を分析するステップと；
前記レイアウト内にある複数のレコード格納部を探索するステップと；
意味解析によって、及び前記１以上の幾何学的特性によって、少なくとも１のレコード格納部からレコードの関連性を特定するステップと；
を具えるステップと；
ｉｉｉ．データベースに該関連レコードのデータを記憶するステップと；
ｉｖ．ユーザからの要望に応じて、前記データを前記データベースから検索するステップと；
を具えることを特徴とする方法。
請求項１に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが：
各々のレコード格納部から複数のレコードを同定するステップと；
前記レコードをグループに分けるステップであって、各々のグループが同一の幾何学的パターンであるステップと；
を更に具え、前記方法が：
前記各々のグループの代表部の意味解析を行うステップと；
前記意味解析の結果によって関連データが同定される場合にデータベースに前記データと該パターンとを保存するステップと；
を更に具えることを特徴とする方法。
請求項２に記載の方法において、他のページで前記パターンが同一のグループは、当該グループからのデータが更なる意味解析を行わずに取得されるため、意味的特徴が同一であると推測されることを特徴とする方法。
請求項１に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが：
該格納部領域の大きさ；及び前記ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性；のランク付けを行うステップと；
選択したレコード格納部を形成するために、前記関連性を特定する前記ステップが前記選択したレコード格納部で実行されるように、前記ランク付けに応じてレコード格納部を選択するステップと；
を更に具えることを特徴とする方法。
請求項４に記載の方法において、前記レコードの前記関連性を特定する前記ステップが：
前記選択したレコード格納部内で複数のレコードを同定するステップと；
幾何学的パターンの同一なレコードが同一のグループに属することを同定するために、前記複数のレコードをグループに前記幾何学的パターンに応じてグループ化するステップと；
各々のグループの代表レコードで意味解析を行うステップと；
前記代表レコードに関連性がある場合に、該レコードのグループからのデータを保存するステップと；
を具えることを特徴とする方法。
請求項５に記載の方法において、前記幾何学的パターンに応じてグループ化するステップが：前記レコード格納部内で幾何学的な矩形又は他の幾何学的な形状を同定することによって；かつ前記矩形又は他の幾何学的に規定された形状を順序づけすることによって；行われることを特徴とする方法。
請求項６に記載の方法が：
ユーザからの照会を受信し、当該照会を複数のレコードと比較するステップと；
前記照会を比較する前記ステップのために、前記幾何学的パターンに応じて複数のレコードのランク付けを行うステップと；
を更に具えることを特徴とする方法。
請求項７に記載の方法が：「新しさ」、信頼度及び／又は人気による情報源のウェブサイトのランク付け、レコードの完全性、あるいは前記ウェブサイトでの前記レコードの顕著性のうちの１以上に応じて複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。
請求項７に記載の方法が、複数の加重属性に応じて前記複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。
請求項７に記載の方法が：
前記複数のレコードのランク付けを行う前記ステップが１以上の関連レコードのグループに対してのみに行われるように、前記複数のレコードのランク付けを行う前記ステップの前に前記複数のレコードを前記１以上の関連レコードのグループと１以上の非関連レコードのグループとに分けるステップであって、前記複数のレコードを分ける前記ステップが前記照会を複数の項目に分解するために前記ユーザの照会を分析するステップを具えるステップと；
前記レコードを複数の項目に分解するために各々のレコードを分析するステップと；
前記項目の数値を、前記ユーザの照会及び前記レコードと比較するステップと；
を更に具えることを特徴とする方法。
請求項１０に記載の方法において、前記照会を複数のレコードと比較する前記ステップが：
各々のレコード及び前記照会を変数のベクトルとして表わすステップであって、前記変数の加重に差異があるステップと；
その類似性を特定するように前記変数のベクトルを比較するステップと；
を更に具えることを特徴とする方法。
データベースの照会の結果を含むページレイアウトを幾何学的に分析するための方法であって、当該方法が：
ａ．前記レイアウト内にある少なくとも１のレコード格納部を、前記レイアウトに応じて前記レコード格納部を同定することによって特定するステップと；
ｂ．複数のレコード格納部が特定された場合に、前記レイアウトのレコードの大きさを比較するか、あるいはページの最も規則的な領域を推定するかのいずれかによって、レコード格納部を選択するステップと；
ｃ．前記レコード格納部内のレコードをグループに分けるステップであって、各々のグループの幾何学的パターンが同一であるステップと；
ｄ．意味解析によって前記レコードを分析するステップと；
を具え、前記意味解析が複数のキーワードに応じて分析するステップを具えることを特徴とする方法。
請求項１２に記載の方法において、前記選択したレコード格納部内の矩形部が同定されることを特徴とする方法。
請求項１３に記載の方法において、該同定が前記レコード格納部の内部の前記レコードを順序づけすることによって、かつ、境界線を用いて前記レコードを分離することによってなされることを特徴とする方法。
複数のウェブサイトからデータを自動集約するためのシステムであって：
ａ．関連ウェブサイトの提供されたリストからデータを取得するためのクローラの処理部と；
ｂ．前記データを分析するための幾何学的分析器の処理部であって、前記データが少なくとも１のドキュメントを含み、該分析が前記ドキュメントのページレイアウトの幾何学的な分析を含み、該幾何学的な分析が：
前記ドキュメントの１以上の幾何学的特性の特定と；
幾何学的パターンを検出するための前記１以上の幾何学的特性の分析と；
前記レイアウト内の複数のレコード格納部の探索と；
前記幾何学的パターンによる、少なくとも１のレコード格納部からのレコードの関連性の特定と；
を含む、幾何学的分析器の処理部と；
ｃ．前記関連レコードをテキスト通りに分析するための意味層と；
ｄ．前記意味層によって検索される情報を記憶するためのデータベースと；
を具えることを特徴とするシステム。