JP2013515977A - 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 - Google Patents

複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 Download PDF

Info

Publication number
JP2013515977A
JP2013515977A JP2011542972A JP2011542972A JP2013515977A JP 2013515977 A JP2013515977 A JP 2013515977A JP 2011542972 A JP2011542972 A JP 2011542972A JP 2011542972 A JP2011542972 A JP 2011542972A JP 2013515977 A JP2013515977 A JP 2013515977A
Authority
JP
Japan
Prior art keywords
records
record
geometric
layout
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011542972A
Other languages
English (en)
Other versions
JP5501373B2 (ja
Inventor
ルバノヴィッチ,ミハイル
バビツキー,ドミトリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ForNova Ltd
Original Assignee
ForNova Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ForNova Ltd filed Critical ForNova Ltd
Publication of JP2013515977A publication Critical patent/JP2013515977A/ja
Application granted granted Critical
Publication of JP5501373B2 publication Critical patent/JP5501373B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

複数の関連サイトから情報を収集し、情報を分析し、将来の使用のためにデータベースに関連情報を記憶するためのシステム及び方法。本発明の一態様によると、システムは自動的に、あるいは別個に取得した、サイトの提供リストを用いて、それらを照会し、各サイトからの検索結果を分析する。情報は更に、任意かつ好適にランク付けしてもよい。
【選択図】図1

Description

本出願は2008年12月31日付けの米国仮特許出願第61/193,862号の優先権を主張し、本明細書中で十分に説明されるがごとく引用によって組み込まれている。
本発明は:ウェブサイトから情報検索すること、特に複数のウェブサイトからの情報の自動集約することと、任意にこのような情報をランク付けすることに関する。
インターネットは情報を探索するための主要なリソースとなっている。複数の対象に関するサービス又は情報を提供するウェブサイトが非常な人気となっている。このようなウェブサイトは例えば、販売用の車を提供するサイト、不動産を提供する不動産サイト、又はユーザがユーザの興味のある人々についての情報と接することが可能なソーシャルネットワークサイトである。
残念なことに、車といった特定の項目に関する情報を探索する人々は、例えば様々なサイトから情報を検索し、かつこれらの情報を手動で組み合わせなければならない。更には、情報の一部は冗長であり、例えば、同一の不動産に関する情報は2以上の不動産のサイトに掲載されうる。
一部のウェブサイトは関連ウェブサイトとの契約を定めて、これらのサイトからの情報を収集して、別のサイトにおけるこれらの情報を提示している。残念なことに、この運用は手動でなされ、契約に基づくため、情報が収集されるサイトの量は限定される。
背景技術は、幾何学的分析及び意味解析に基づいており、関連ウェブサイトから収集された情報に基づいており、あるサイトにおいて収集した関連情報を提供している、完全自動式のプロセスを教示又は示唆していない。
本発明は、本発明の少なくともいくつかの実施形態においては、複数の関連サイトからの情報を収集し、幾何学的及び意味的の双方の情報を分析し、将来の使用のためにデータベースに関連情報を保存するシステム及び方法を提供することによって背景技術の欠陥を克服する。幾何学的分析は意味解析と組み合わせて、意味解析のみと比較してより正確かつ有効な探索を提供する。
本発明の一実施形態によると、本システムは関連サイトを自動的かつ好適には定期的に照会し、各々のサイトから検索した結果を分析する。このような結果はHTML/XMLページから、あるいはその他のテキストフォーマットのページから検索できる。この実施形態によると、ブラウザはHTMLドキュメントにあるレンダリングコンポーザエンジンを適用して、例えば任意に、ドキュメントオブジェクトモデル(DOM)の木を形成することによって、ドキュメントの1以上の幾何学的特性を判定する。このような木の幾何学的特性は好適には、ドキュメントのレイアウトを判定するために分析される。情報は好適にはその後、ドキュメントのレイアウトに従ってドキュメントから検索される。任意には、意味解析が更に適用される。
本発明の更に別の実施形態によると、このような幾何学的分析を通して取得される情報をランク付けするための方法が提供される。本方法は任意には、完全なドキュメントそのものをランク付けするのみではなく、分析したドキュメント内に含まれる1以上のレコード又は情報のユニットを個別にかつ分離してランク付けすることを特徴とする。「レコード(record)」によって、ウェブサイトの「バックオフィス(back office)」と関連づけられるか、あるいはその一部を形成するデータベース又は他の情報の記憶装置から取得又は誘導される任意の情報のユニットが示される。情報のユニットは好適には、データベースに記憶されたデータの領域に対し全体の階層を形成する。限定されない例としては、不動産のデータベースについては、レコードは任意には一覧表にある不動産の記載(例えば、建物、事務所、及び集合住宅等の販売及び賃貸に関する)である。この実施形態によって、関連情報はドキュメント自体及びそのランクに拘らずランク付けできる。このようなランク付けは情報のユニットが関心の対象である場合、及び/又は情報のユニットが「深層ウェブ(deep web」に存在する場合に有用であり、情報のユニットは動的に形成されるウェブページの一部となる。
前述のように、ウェブページは一般的には複数の情報を含む。関連する広告等といった情報の一部は関連情報を含まない。関連情報の検出は内容及び文脈の関連性の探索に基づく意味解析によって、例えば、キーワードを探索することによってなされうる。関連情報の検出は更に幾何学的分析によってでき、ページのレイアウト、関連情報の位置に関する推定、あるいはその組合せに基づいている。残念なことに、当該技術分野のシステム及び方法は、関連情報の位置の事前に規定された記載に基づき、かつこのような幾何学的分析の意味解析との組合せに基づく幾何学的分析を提供するものはない。本発明の多くの重要な特徴のうち、少なくともいくつかの実施形態においては、既知の技術のこれらの欠点を克服する。
2008年4月24日公表の2006年10月24日付出願の米国特許出願公開第2008/0098300号は、レンダリングされたページを幾何学的に分析することによってウェブページから関連情報を取得するためのシステム及び方法を教示する。しかしながら、この出願は特に、ページの幾何学的な分析方法及び意味解析を幾何学的分析と組み合わせる方法を開示又は示唆していない。
2006年7月20日公表の2005年4月25日付出願の米国特許出願公開第2006/0161569号は、文脈の関連性を探索することによって木構造における対象のノードを同定することを教示するが、しかしながら、この特許はページの幾何学的構造を分析することによるウェブページにおけるデータの関連性をチェックする方法を教示又は示唆しない。
他に規定されない限り、本明細書中で用いられる総ての技術的及び科学的用語は本発明が属する当該技術分野において、当業者によって通常理解されるのと同一の意味を有する。本明細書中で提供される材料、方法及び実施例は単なる例示であり、限定することを目的としない。
本発明の方法及びシステムの実装は、特定の選択したタスク又は段階を手動で、自動で、あるいはその組合せで実行又は完了させることを含む。更には、本発明の方法及びシステムの好適な実施形態の実際の装置及び設備について、いくつかの選択した段階は、ハードウェアによって、あるいは任意の基本システム上のソフトウェア若しくはファームウェア、又はその組合せによって、実装されうる。例えばハードウェアとして、本発明の選択した段階はチップ又は回路として実装できる。ソフトウェアとしては、本発明の選択した段階は、任意の好適な基本システムを用いてコンピュータによって実行されうる複数のソフトウェア命令として実装できる。任意の場合においては、本発明の方法及びシステムの選択した段階は、複数の命令を実行するための演算プラットフォームといったデータプロセッサによって実行されるように記載される。
本発明は「コンピュータネットワーク(computer network)」上の「コンピュータ(computer)」について記載しているが、任意にはデータプロセッサ及び/又は1以上の命令を実行する能力を特徴とする任意のデバイスはコンピュータとして記載してもよく、限定しないがPC(パーソナルコンピュータ)、サーバ、ミニコンピュータを含むことに留意すべきである。相互に通信するこのようなデバイスの任意の2以上、及び/又は任意の他のコンピュータと通信する任意のコンピュータは、任意に「コンピュータネットワーク」を具えてもよい。
本発明は本明細書中では添付の図面で単なる例示によって記載されている。特に詳細な図面によると、図示した事項は実施例であり、本発明の好適な実施例の例示的な考察のみを目的とするものであり、もっとも有用であると考えられるものと、本発明の原理及び概略的な態様の容易に理解される記載とを提供するために提示される。この観点においては、本発明の基本的な理解のために必要となるものよりも詳細に本発明の構造上の詳細を示すことを企図するものではなく、図面にある記載は、どのように本発明のいくつかの形態が実際に具現化できるかを当該技術分野の当業者に明確にするものである。
図1は、システムの概略図である。 図2は、特定のサイトに関するデータベースの構築について記載した概略的なフローチャートである。 図3は、ページ分析について記載した高次のフローチャートである。 図4は、レンダリングされたページを例示するダイアグラムである。 図5は、ページ内部の選択したレコード格納部を例示するダイアグラムである。 図6は、レコード格納部内部のグループを例示するダイアグラムである。 図7は、レコード格納部を同定するプロセスについて記載した例示的なダイアグラムである。 図8は、レコード格納部内部のグループを同定する例示的なプロセスについて記載したダイアグラムである。 図9は、本発明の少なくともいくつかの実施形態による、意味解析とドキュメント内部のレコードの更なる幾何学的特性との組合せによってレコードをランク付けするための例示的な実例のプロセスを示す。 図10は、本発明の少なくともいくつかの実施形態による、関連性ランク付けシステム910を実行するための例示的な実例のプロセスについて記載する。
本発明は少なくともいくつかの実施形態においては、ウェブサイトからの情報検索のための、特に複数のウェブサイトからの情報の自動集約のためのシステム及び方法である。少なくとも1の実施形態によると、本システム及び方法は複数の関連サイトからの情報を収集し、幾何学的にかつ意味的に情報を分析し、将来の使用のためにデータベースに関連情報を任意に記憶する。幾何学的分析は意味解析と組合わせて、意味解析のみと比較して更に正確かつ有効な探索を提供する。
本発明の一実施形態によると、本システムは自動的かつ定期的に関連サイトを照会し、各々のサイトから検索した結果を分析する。このような結果はHTML/XMLページから、あるいはその他のテキストフォーマットのページから検索できる。この実施形態によると、ブラウザはHTMLドキュメント上のレンダリングコンポーザエンジンを利用して、例えば任意にドキュメントオブジェクトモデル(DOM)の木を形成することによってドキュメントの1以上の幾何学的特性を判定する。このような木の幾何学的特性は好適には、ドキュメントのレイアウトを判定するために分析される。情報は好適には、次いでドキュメントレイアウトによるドキュメントから検索される。任意に、意味解析が更に利用される。
ドキュメントオブジェクトモデルは、木構造でHTML又はXMLのドキュメントを表わす。DOMは、単純化した検索用の明確な木構造へのデータ分離及び分類を可能にするデータ構造を提供する。任意にかつ好適には、内側のブラウザフレームから左上方の囲まれた矩形領域の隅部までの距離をピクセルで測定するXY座標位置は、木のノードと関連づけられる。領域の幅、高さ、左縁、上縁部の大きさ、内側左及び上のマージンは更に任意であり、木で特徴づけられる。DOMの木のノードと関連づけられる総ての幾何学的特性はドキュメントのレイアウトと称される。
ドキュメントのDOMの木が構築された時点で、システムは好適にはレイアウト内部のレコード格納部を探索する。レコード格納部は、幾何学的構造が類似のレイアウト部分を含む、DOMの木のノードと関連する任意のレイアウト部分である。ノードは更に、更なるレイアウト部分である他のレコードではない構成又は下位領域を任意に含んでもよい。更に、レコード格納部は任意に、レコードと幾何学的に類似ではない1以上のレイアウト部分を特徴としてもよい。
2以上の候補のレコード格納部がある場合、単一のレコード格納部は好適には格納部の領域の大きさと、ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性とをランク付けすることによって選択される。例えば、領域が最大で、中心がページの中心に最も近い格納部は高くランク付けされ、レコード格納部として選択される。
2以上のレイアウトの下位領域(レコード)間の幾何学的な類似性は、レコードを含む要素(形状)の反復頻度によって、任意にかつ好適には、少なくとも部分的に判定される。幾何学的特性は好適には、長さ、幅、及び位置といったパラメータを含む。各々のレコードは関連データの単一ユニットを含むと推定されうるレイアウト部分、例えば車の広告あるいは不動産の販売又は賃貸用の建築物又はその一部の一覧表である。レコードの関連性は更に、本発明の少なくともいくつかの実施形態による意味解析器によって任意かつ好適に規定され、レコード内部に含まれる情報の意味的な関連性は、このような意味的な関連性が更にレコードの関連性を判定する際に好適に考慮されるように好適に判定される。
幾何学的な類似性は好適には、走査線(Scan Line)アルゴリズムの変形物を用いることによって検出される。走査線アルゴリズムは画素ベースではなく、列ベースで動作させるコンピュータグラフィックにおけるアルゴリズムである。総ての形状は最初に現れる頂点のx座標によって選別され、次いで画像の各々の列又は走査線は、走査線の幾何学的形状との交差を用いて算出される。
次いでシステムは好適には、選択したレコード格納部内の幾何学的な矩形のレコードをグループに分割する。幾何学的パターンが同一のレコードは好適には同一のグループに属すると同定される。グループ及び幾何学的パターンを規定するプロセスは好適には、レコード格納部内の幾何学的な矩形、又は他の幾何学的に規定された形状を同定することによって、及び好適には走査線アルゴリズムを用いることにより矩形を順序づけることによってなされている。
システムは好適には各々のグループからの代表レコード又はレコードの集合で意味解析を行う。代表レコード(レコードの集合)が関連性があると検出された場合は、総てのグループの要素からの関連データが好適には、グループのパターン(グループを同定する構造)と同時に更なるデータの検索のために記憶される。意味解析は例えばであり、任意の方法で限定することを望むものではないが、キーワード若しくはその組合せを探索することによって、又はセマンティックウェブ技術を用いることによってなされる。例えば、システムがフライトを扱うウェブページからの情報を収集する場合、システムは好適にはフライト数、座席、及び到着等といったキーワードを探索する。このようなキーワードが見つかった場合、幾何学的パターンは好適には関連性があると同定され、このパターンの総ての例からのデータが好適にはデータベースに保存される。
本発明の他の実施形態によると、あるページでパターンが同定された時点で、システムは次のページの同定パターンとともにレコードを同定でき、かつ好適にはこれらのパターンと同一のテキスト構造を推測することによって、更なる分析をせずに関連データが取得される。
本発明の他の実施形態によると、システムはデータベースに検索したデータを保存する。ユーザがデータを照会した時点で、好適には専用のウェブサイトを用いることによって、データベースから検索される。照会結果は好適には、関連サイトから検索した情報ならびにこれらのサイトに対するリンクを含む。
本発明の更に別の実施形態によると、このような幾何学的分析を通して得られた情報をランク付けするための方法が提供される。本方法は任意に、完全なドキュメントそのものをランク付けするのみではなく、分析したドキュメント内に含まれる1以上のレコード又は情報のユニットを個別にかつ分離してランク付けすることを特徴とする。この実施形態によって、関連情報はドキュメント自体及びそのランクに拘らずランク付けできる。このようなランク付けは情報のユニットが関心の対象である場合、及び/又は情報のユニットが「深層ウェブ」に存在する場合に有用であり、情報のユニットは動的に形成されるウェブページの一部となる。
図面を見ると、図1は本発明による例示的な実例のシステムの概略図である。システム100はサーバ120を特徴とし、関連サイトからデータを取得するためにウェブサイトインタフェース102を通って外部データベース101と通信する。サーバ120は提供した関連ウェブサイトのリスト109からデータを取得するためのクローラの処理部105を特徴とする。このようなリスト109はファイルに任意に常駐できるか、あるいは代替的には別のクローラによって収集できる。スケジューラ106はクローラ105をスケジューリングして、関連データを検索するためにウェブサイトインタフェース102を介してデータベース101を自動的に照会する。このようなデータは例えば、大学のウェブサイトを照会することにより利用可能な大学教育のプログラムにできる。クローラの処理部105は任意かつ好適に、外部データベースと通信し、ページをレンダリングするために、ブラウザ104のAPIを用いる。レンダリングは、当該技術領域で既知の、DOM(ドキュメントオブジェクトモデル)に常駐する階層及びそれに関連する幾何学的情報に基づいてページのレイアウトを形成するプロセスであり、ウェブサイト109から受信されるウェブページのデータによって検索される。階層的情報は特にDOMの木に常駐し、各々のマークアップ言語のタグ(各々のHTML又はXMLのタグといった)はDOMの木におけるノードと関連づけられる。木における各ノードについては、ブラウザ104は更に、対応するウェブページをレンダリングするための幾何学的表現を関連づける。幾何学的表現はXY開始点のオフセット、幅、及び高さ等によって示される。
クローラ105は、図3に更に詳細に説明されるように、DOMの木をページの幾何学的表現とともに含むレンダリングされたページを、関連層が意味解析器108によってテキストどおりに分析されることを検出する幾何学的分析器の処理部107に伝達する。意味解析器の処理部107は好適には、パターンが同一のグループを受信し、各々のグループを分析するために幾何学的分析器の処理部107と通信する。意味解析器の処理部107は更に好適には、クローラ105と通信する(クローラ105は次の結果のページに対するリンクを、好適にはそのページが関連する結果のページと同一であった場合のみに検索する)。
レコード、データ、及び関連ウェブページに対するリンクを含む分析結果は好適には、結果データベース110に記憶される。ユーザが探索ウェブサイト111を用いて、例えば総ての大学教育のプログラムのリストといったユーザの領域における情報を照会する場合、情報は結果データベース110から検索される。情報は好適には、上述で行われた分析によって、データと更なるデータを検索するための関連サイトに対するリンクとを含む。
図2は、特定のサイトに関するデータベースの構築について記載した概略的なフロー処理の例示的な実例の実施形態のダイアグラムである。このシステムは特定の領域に関する関連サイトのリスト、例えば不動産サイトのリストを処理する。段階1においては、システムは自動的かつ定期的に、所定のサイトのリストから各々の関連サイトを照会する。照会は、サイトのURLのリストを調査するクローラを好適に用いることによって、好適にはMicrosoft Internet Explorer及びMozilla Firefoxのようなウェブブラウザを用いることによってなされる。クローラは好適には、ブラウザによって提供され、ウェブサイトのURLによって特定されるドキュメントのDOM(ドキュメントオブジェクトモジュール)に基づいてレンダリングされたページを構築する(任意のこれらの構成は分離でき、クローラの動作用に通信できるが、ウェブブラウザは好適にはクローラに埋込まれる)。
段階2においては、システムはウェブサイトのURLによって特定したドキュメントにおける関連データを、レンダリングされたページから幾何学的パターンを同定することによって、かつそのパターンからデータを抽出することによって探索する。この方法は図3で更に詳細に説明される。段階3においては、データ及びデータに対するリンクは更なる使用のためにシステムのデータベースに保存される。関連データがホームページで検出される場合、クローラは次のページを取得し、段階2及び3はの次のページの各々で反復される。段階1及び2は好適にはクローラによって検出される各々のウェブサイトで反復される。段階4において、ユーザは好適にはシステムによって提供される専用のウェブサイトを用いることによって、情報(例えば、不動産情報)を照会する。段階5においては、システムはデータベースから関連情報の総て、ならびに関連ウェブサイトに対するリンクを提供する。システムは好適には、ページにおける各々の保存されたレコードの概要の情報を提供し、レコード自体を検証するために、ユーザはレコードが検出された元のウェブページに再誘導される。
図3は、ページ分析について記載した高次のフローチャートである。段階1においては幾何学的分析器は、ウェブページから検索され、好適には上述のようなDOMの木を含む、DOM(ドキュメントオブジェクトモジュール)に常駐する情報によって、埋込型のブラウザレンダリングエンジンからページのレイアウトを取得する。段階2においては、レイアウトは幾何学的分析器によって1以上のレコードを配置するように分析される。各々のレコードは情報のユニットを表わす。このようなレコードは任意に、例えば販売代理店のウェブサイトを通して販売された車の広告にできる。
段階3においては、幾何学的分析器は好適には、配置されたレコードによる特定のレコード格納部を探索する。レコードはレコード格納部内部に配置した構造として幾何学的に存在する。
本方法は好適には、このようなレコード格納部に常駐すると推定することによって、関連データが相互に幾何学的に類似するレコードを含むレコード格納部を探索する。2以上の候補の格納部がある場合、レコードは好適にはレコードの1以上の幾何学的特性によって選択され、例えば、幾何学的中心に近い、大きく、かつより中心的のレコードが選択される。例示的な実例のレコード格納部は図5に例示される。
段階4において、幾何学的パターンが同一の矩形(レコード)のグループは、選択したレコード格納部の中で判定される。システムは好適には、その座標によってレコード格納部内の総ての矩形(レコード)を順序づける。次いで矩形は相互に分離される。幾何学的構造が同一の矩形は、固有の幾何学的パターンによって同定される同一のグループに属すると規定される。レコード格納部のグループへの分割は図6に例示される。段階5において、代表レコード又はレコードの集合は段階4に規定される各々のグループから選択され、意味解析される。段階6において、代表レコード又はレコードの集合が意味解析器によって関連性があると検出された場合、総てのグループの要素からの関連データは、グループのパターン(グループを同定する構造)と同様に、更なるデータの検索のために保存される。段階5及び6は各々のグループで反復される。
例えばデータレコードが表で示されている場合、幾何学的分析器は好適には、例えば各々のレコードを表の行と関連づけることによって、この幾何学的構造によるレコードを分析する。意味解析は表のヘッダ行と、各々のヘッダ項目の幾何学的位置(オフセット)を同定する。ヘッダではない行を分析する場合、各々の列は列のオフセットを用いて対応するヘッダ項目と関連づけられる。この技術は表からの正確なレコード抽出を保証する。
図4は、レンダリングされたページを例示するダイアグラムである。レンダリングされたページ400は好適には、レンダリングエンジン(図示せず)から形成される。レンダリングはDOMから検索された幾何学的及び構造上の情報を組合わせることによってなされる。構造上の情報は階層型の木(DOMの木402として図示される)で、DOM(ドキュメントオブジェクトモデル)によって提供されるが、幾何学的な情報は木402における各々のノードに座標を割り当てることで、DOMによって提供される。DOMの木402とレンダリングされたページ400との対応が示されている。
DOMの木402のルートノードはHTML404である。HTML404はページレイアウト408に対応する本体部406を特徴とする。本体部406は複数のDIVノード410を特徴とし、その各々がレンダリングされたページ400内部の分割部412を表わす。DIVノード410のうちの1つは表のノード414であることを特徴とし、レンダリングされたページ400内部の表416に対応する。表のノード414は更に複数のTR(表の行)のノード418を特徴とし、表416の表の行418に対応する。
図5は、レンダリングされたページ510内部のレコード格納部520を例示する。レコード格納部520は、レコードの下位の木(内側の矩形)が相互に類似することによって、レンダリングされたページの内部に最も組織化された内側構造を有するレコードとして同定される。
図6は、レコード格納部内部のグループを例示する。各々のグループはレコード(内部の幾何学的構造が同一)を含む。図面においては、レコード格納部630内部のレコード631、632、及び635は1のグループに属するが、レコード633、634、636、及び637は別のグループに属する。
図7は、レコード格納部を同定するプロセスについて記載した例示的なダイアグラムである。段階1において、ページのレイアウトはレンダリング処理によって形成される。段階2において、ドキュメントのレイアウトは、レイアウトにおいて類似する領域を検出するために、例えば走査線アルゴリズムを用いることによって幾何学的に走査される。段階3において、類似する領域を含むDOMの木のノードは候補のレコード格納部として同定される。段階4において、レコード格納部は格納部の領域の大きさと、格納部の幾何学的中心のドキュメントのレイアウトの幾何学的中心に対する近接性とをランク付けすることによって選択され、例えば、領域が大きく、中心がページの中心に最も近い格納部は高頻度でランク付けされ、レコード格納部として選択される。
図8は、レコード格納部内部のグループを同定するプロセスについて記載したダイアグラムである。段階1においては、レコード格納部内の各々のレコードに対する幾何学的構造が検出される。段階2においては、レコードはその幾何学的構造に応じて、構造の同一なレコードを同一のグループに配置するようにグループ化される。段階3においては、代表レコード又はレコードの集合は好適には、各々のレコードのグループから選択される。段階4においては、代表レコード又はレコードの集合は、各々の代表レコード又はレコードの集合の内容を判定するために意味解析される。段階5においては、分析結果は好適には、後の検索用、例えば構造が同一又は類似の他のレコードの分析用のシステムデータベースに、構造とともに記憶される。
本発明のいくつかの実施形態によると、レコードは上述のように判定される、ドキュメント内のレコードの意味解析及び更なる幾何学的特性の組合せによって任意にランク付けしてもよい。図9に示すように、プロセス900は好適には、複数のデータベース902からの複数のレコード904の分析を特徴とする。データベース902は、例えばインターネット、任意に及び更に好ましくはいわゆる「深層ウェブ」を含む、上述のようなコンピュータネットワークを通して利用可能な任意の型の情報を任意に含み、動的に形成されたウェブページから得られるレコードである。
システム906は好適にはデータベース902からレコード904を抽出する。システム906は任意にかつ好適には、レコードを抽出し、更にその幾何学的特性を判定するために上述のように動作させ、より好適には更にレコードが配置されるドキュメントのうちドキュメントのレイアウトに対するレコードの幾何学的特性を含む。システム906によって判定される情報は好適には、結果データベース908に記憶される。
関連性ランク付けシステム910は好適には、結果データベース908における情報を分析して、上述のように得られたレコードをランク付けする。関連性ランク付けシステム910は好適には、図10で更に詳細に述べた意味的比較と、各々のレコードの幾何学的特性に基づく更なるランク付けとを少なくとも用いて、複数のレコードの関連性のランク付けを判定する。幾何学的特性に関し、好適には元のドキュメントのレコードの顕著性は少なくとも、ドキュメントのレイアウトに関するレコードの幾何学的特性から判定され、ランク付けのために用いられる。このような顕著性はレコードの重要性についての、ウェブサイトのコンストラクタによってなされる1以上の判定に関連し、より顕著なレコードがより重要であると推測される。
顕著性は好適には、前述の幾何学的パターン及び各々のレコードに対する位置情報によって判定される。所定のウェブサイト及びそのレコードについては、関連性ランク付けシステム910は、パターンの平均的深さとこのようなパターンを有するレコードの数とを組合わせることによって、各々のパターンの顕著性を評価できる。
例示した限定しない例のように、ウェブサイトXは毎日走査され、1000のレコードが抽出される。レコードはこの例では2のグループ:パターンAを有するレコード;及び、パターンBを有するレコード;に分割される。990のレコードがパターンAであり、1ないし50のページから抽出される(パターンAの平均的深さは25である)一方、10のレコードのみが最初のページのみに表れるパターンBを有する(パターンBの平均的深さは1である)と仮定する。多数の式をこのデータに適用して、パターン(レコードのグループ)の顕著性を算出できる。パターンBを有するレコードが、ページのうちの最初のグループのページにのみ表れる場合、より顕著であると推定してもよい。
同様の分析を任意に:ウェブページ内の位置(上及び中央、又は下、ならびに片側であり、上及び中央位置はより顕著であると任意に判定される);大きなレコードほどより顕著であると見なされるレコードの大きさ;及び、更に選択的には、レコード内に含まれる情報の型;に適用してもよい。情報の型については、顕著性は好適には、レコード内に含まれる情報の領域に対応する情報の型と関連づけられる。例えば、不動産広告及び自動車広告の領域については、任意かつ好適には、写真又は他の型の画像の含有は、ウェブページ上のスペースを消費する場合、一般的にはこのような1以上の画像はより重要な項目で用いられるため、レコードの顕著性を増加させる。しかしながら「求人」広告のような他の領域では、画像の存在はレコードの重要性の増加を必ずしも示さず、この場合においては、この情報の型は好適には、レコードの顕著性を判定するのに用いられない。
任意に、関連性ランク付けシステム910は、古い日付で抽出しているレコードは関連性がある可能性が少なく、更にはその推定される関連性が経時的に減少するため、レコードの「新しさ(freshness)」を用いてもよい。従って、新しい方のレコードが好適にはこの属性について高い評価を受け取る。
任意に、関連性ランク付けシステム910は更に、好適には人気及び信頼度の双方によってランク付けするためにレコードのソースを用いてもよい。例えば、ウェブサイトのメインページのURLのGoogleランキングを用いるか、あるいは人気を判定するためにネットワークトラフィックを評価してもよい。この属性によって更に、多数のウェブサイトで同時に表われるレコードに対し高い優先度を与えるのを可能にし、例えばウェブサイトのGoogleランキングを組合わせることによって、高いランクに割り当てるとレコードが表われる。
信頼度については、このようなランク付けを手動で、あるいは関連性ランク付けシステム910の外側にある自動分析によって任意に判定してもよく、例えば新規のウェブサイトは時にして、そこに含まれる情報の信頼度に応じて外部機関によってランク付けされる。このような外部の第三者のランク付けはレコード用のソースとして特定のウェブサイトの信頼度を判定するのに任意に含んでもよい。
任意に、関連性ランク付けシステム910は更にレコードの完全性を用いてもよく、それは項目がレコードにおいて数値を提供した範囲であり、より多くの項目がレコードにおいて規定されると(レコードはほとんどφ又は零の変数を有さないため)、このパラメータに従ってレコードのランク付けは大きくなる。例えば、レコードが画像を含みうる形式である場合、好適には画像を特徴とするレコードは画像がないレコードよりも大きなランク付けを受ける。
ユーザがユーザコンピュータ912を介して照会を呈示し、任意かつ好適に、例えばインターネットといったネットワーク914を介して関連性ランク付けシステム910と通信する場合に、照会は好適には、関連性ランク付けシステム910によってランク付けされるようにレコードと比較される。このようなランク付けは好適には、照会及びレコードの意味解析、ならびに好適には関連性ランク付けシステム910によって分析された幾何学的な情報の双方によって実行される。このプロセスは図10で更に詳細に記載されている。応答は次いで好適には、ユーザに対する表示のためにユーザコンピュータ912に戻される。
図10は、本発明の少なくともいくつかの実施形態による、関連性ランク付けシステム910を実行するための例示的な実例のプロセスについて記載する。図示したように、複数のレコード904からの情報は類似性比較モジュール1002によってユーザの照会1000と比較され、任意の型のコンピュータ又は複数のコンピュータによって任意に操作されうる。類似性比較モジュール1002は好適には、以下のようにレコード904を1以上の関連しないレコード1004と1以上の関連レコード1006とに選別する。
好適には、類似性比較モジュール1002(あるいは類似性比較モジュール1002の前のアップストリームを別個に、任意に、かつ好適に操作する別のモジュール)はレコード904を複数の領域に分離する。各々の領域は項目の集合<i,i,...,i>によって任意かつ好適に規定される。例えば、不動産のレコードについては、以下の項目を任意に規定してもよい:建物の種類、価格、住所、階、面積等。中古車の領域については、車のモデル、価格、モータの容積、及び走行距離のような項目を任意に規定してもよい。当然ながら1以上の項目が複数の領域に任意に生じうるが、領域が異なると項目は異なりうる。
データベースにおける複数のレコード904のうちのあるレコードは好適には、変数のベクトルR=<r,r,...,r>として表わされる。各々の変数rは特定の項目iに対する値を含む。レコードは、領域について記載した一部の項目の情報を含むことができない。この情報が不足しているか無い場合、欠損項目に対応する変数の値はφといった特定の零値(上述したような)で好適に割当てられる。
ユーザの照会は更に好適には類似性比較モジュール1002によって、特定の領域項目について記載した変数のベクトル:
Figure 2013515977
に変換される。ユーザの照会も同様に、所定の領域に対して規定される項目の一部を含むことができない。この場合は、欠損項目に対応する変数の値はφといった特定の零値(上述したような)で好適に割当てられる。例えば、価格又は特定の建物の面積に拘らずロンドンでの3寝室のマンションを探索でき、価格又は特定の建物の面積の欠損値は好適には零値に変換される。
類似性比較モジュール1002が照会:
Figure 2013515977
を受信する場合、照会の類似の割合:
Figure 2013515977
は好適には、データベースにおいて複数のレコード904の各々のレコードに対して計算される。類似の割合は、項目の変数の各々の照会及びレコードの対に対する類似の割合の積:
Figure 2013515977
である。項目の類似の割合は異なる項目の型について別々に算出される。
任意に、異なる重み付けを様々な項目に割り当ててもよく、この場合においては各々の項目に対して新規の因子(冪乗部分):
Figure 2013515977
が好適には、このような特異的な重み付けのために用いられる。
一部の項目については、類似の割合は変数の厳格な比較によって規定してもよく、例えば建物の寝室の数又は車の品質といった2進数の値のみを割り当ててもよい。
他の項目においては、堅牢でない比較がなされうる。数値的項目においては、数の単純な比較を用いてもよい。例えば、300K USD(米ドル)の価格で建物を探索した場合、ユーザは305K USD又は更に270K USDの価格で建物を見つけることに関心がある可能性がある。この場合においては、類似の割合は次式:
Figure 2013515977
を用いて算出できる。非数値的項目については、類似の割合は余弦類似度又は逆ドキュメント頻度(IDF)のようなテキスト類似度のアルゴリズムによって算出してもよい。
一般的な領域の場合においては、1の項目のみであることが好ましく、フリーテキストとなる。レコード及び照会の双方が好適には、テキスト類似度のアルゴリズムによって比較される単一の変数によって規定される。
照会変数qがφである場合、sr(q,r)が総てのレコードについて同一であり、関連性の順序に影響を与えないため、SR(Q,R)について好適には考慮されない。レコード変数rがφである場合、sr(q,r)は好適には事前に規定された値τ
Figure 2013515977
を受け取る。値0又は1が得られないことは明らかである(この項目に対する照会において同一の値を有するレコードは高くランク付けされるべきであるので、関連性がないとは見なされないが、最大のランク付けは受けられない)。
SR(Q,R)の計算後、レコードは好適には、前述したように2のグループにに分割される。SR(Q,R)が低い(事前に規定された閾値、例えば−0.1より低い)レコードは関連性がない(関連しないレコード1004として図示)と見なされ、ユーザに提示されない。類似の割合が高いレコード(関連レコード1006として図示)は拡張型の関連性のランク付けモジュール1008によってランク付けされる(類似の割合に加えて、関連性をランク付ける外部パラメータを組合わせる)。
拡張型の関連レコードのランク付けEXR(Q,R)は以下の式:
Figure 2013515977
を介して算出される。ここで属性変数をランク付けるベクトルA =<a,a,...,a>は、相対重み付けベクトルW=<w,w,...,w>で乗算される。属性変数aは、特定の特性(属性)に従ったレコードのランク付けを表した実数:
Figure 2013515977
である。重み付け因子Wはランク付けの計算における属性の相対的な重み付けを表わす。重み付け因子は、
Figure 2013515977
といった実数:
Figure 2013515977
である。特定の属性は任意には、類似性比較モジュール1002によって決定されるような、レコードの幾何学的特性、「新しさ」、信頼度及び/又は人気による情報源のウェブサイトのランク付け、レコードの完全性、ならびにウェブサイト内のレコードの顕著性等のうちの1以上での任意の重み付けを特徴としてもよい。
最終的に選別及びランク付けされたレコード1010は、例えばいくつかの最小のランク付けの除外によって、ユーザに任意に提供してもよい。
本発明は限定した数の実施形態について記載してきたが、本発明の多くの変形、変更、及び他の処理がなされうることは理解されよう。

Claims (15)

  1. 複数のウェブサイトからデータを自動集約するための方法であって:
    i.複数の関連サイトからの前記データについて自動的かつ定期的に照会するステップと;
    ii.該照会ステップによる結果を分析するステップであって、前記結果が少なくとも1のドキュメントを含み、該分析ステップが前記ドキュメントのページレイアウトを幾何学的に分析するステップを具え、該幾何学的な分析ステップが:
    前記ドキュメントの1以上の幾何学的特性を特定するステップと;
    前記ドキュメントのレイアウトを特定するために前記1以上の幾何学的特性を分析するステップと;
    前記レイアウト内にある複数のレコード格納部を探索するステップと;
    意味解析によって、及び前記1以上の幾何学的特性によって、少なくとも1のレコード格納部からレコードの関連性を特定するステップと;
    を具えるステップと;
    iii.データベースに該関連レコードのデータを記憶するステップと;
    iv.ユーザからの要望に応じて、前記データを前記データベースから検索するステップと;
    を具えることを特徴とする方法。
  2. 請求項1に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが:
    各々のレコード格納部から複数のレコードを同定するステップと;
    前記レコードをグループに分けるステップであって、各々のグループが同一の幾何学的パターンであるステップと;
    を更に具え、前記方法が:
    前記各々のグループの代表部の意味解析を行うステップと;
    前記意味解析の結果によって関連データが同定される場合にデータベースに前記データと該パターンとを保存するステップと;
    を更に具えることを特徴とする方法。
  3. 請求項2に記載の方法において、他のページで前記パターンが同一のグループは、当該グループからのデータが更なる意味解析を行わずに取得されるため、意味的特徴が同一であると推測されることを特徴とする方法。
  4. 請求項1に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが:
    該格納部領域の大きさ;及び前記ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性;のランク付けを行うステップと;
    選択したレコード格納部を形成するために、前記関連性を特定する前記ステップが前記選択したレコード格納部で実行されるように、前記ランク付けに応じてレコード格納部を選択するステップと;
    を更に具えることを特徴とする方法。
  5. 請求項4に記載の方法において、前記レコードの前記関連性を特定する前記ステップが:
    前記選択したレコード格納部内で複数のレコードを同定するステップと;
    幾何学的パターンの同一なレコードが同一のグループに属することを同定するために、前記複数のレコードをグループに前記幾何学的パターンに応じてグループ化するステップと;
    各々のグループの代表レコードで意味解析を行うステップと;
    前記代表レコードに関連性がある場合に、該レコードのグループからのデータを保存するステップと;
    を具えることを特徴とする方法。
  6. 請求項5に記載の方法において、前記幾何学的パターンに応じてグループ化するステップが:前記レコード格納部内で幾何学的な矩形又は他の幾何学的な形状を同定することによって;かつ前記矩形又は他の幾何学的に規定された形状を順序づけすることによって;行われることを特徴とする方法。
  7. 請求項6に記載の方法が:
    ユーザからの照会を受信し、当該照会を複数のレコードと比較するステップと;
    前記照会を比較する前記ステップのために、前記幾何学的パターンに応じて複数のレコードのランク付けを行うステップと;
    を更に具えることを特徴とする方法。
  8. 請求項7に記載の方法が:「新しさ」、信頼度及び/又は人気による情報源のウェブサイトのランク付け、レコードの完全性、あるいは前記ウェブサイトでの前記レコードの顕著性のうちの1以上に応じて複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。
  9. 請求項7に記載の方法が、複数の加重属性に応じて前記複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。
  10. 請求項7に記載の方法が:
    前記複数のレコードのランク付けを行う前記ステップが1以上の関連レコードのグループに対してのみに行われるように、前記複数のレコードのランク付けを行う前記ステップの前に前記複数のレコードを前記1以上の関連レコードのグループと1以上の非関連レコードのグループとに分けるステップであって、前記複数のレコードを分ける前記ステップが前記照会を複数の項目に分解するために前記ユーザの照会を分析するステップを具えるステップと;
    前記レコードを複数の項目に分解するために各々のレコードを分析するステップと;
    前記項目の数値を、前記ユーザの照会及び前記レコードと比較するステップと;
    を更に具えることを特徴とする方法。
  11. 請求項10に記載の方法において、前記照会を複数のレコードと比較する前記ステップが:
    各々のレコード及び前記照会を変数のベクトルとして表わすステップであって、前記変数の加重に差異があるステップと;
    その類似性を特定するように前記変数のベクトルを比較するステップと;
    を更に具えることを特徴とする方法。
  12. データベースの照会の結果を含むページレイアウトを幾何学的に分析するための方法であって、当該方法が:
    a.前記レイアウト内にある少なくとも1のレコード格納部を、前記レイアウトに応じて前記レコード格納部を同定することによって特定するステップと;
    b.複数のレコード格納部が特定された場合に、前記レイアウトのレコードの大きさを比較するか、あるいはページの最も規則的な領域を推定するかのいずれかによって、レコード格納部を選択するステップと;
    c.前記レコード格納部内のレコードをグループに分けるステップであって、各々のグループの幾何学的パターンが同一であるステップと;
    d.意味解析によって前記レコードを分析するステップと;
    を具え、前記意味解析が複数のキーワードに応じて分析するステップを具えることを特徴とする方法。
  13. 請求項12に記載の方法において、前記選択したレコード格納部内の矩形部が同定されることを特徴とする方法。
  14. 請求項13に記載の方法において、該同定が前記レコード格納部の内部の前記レコードを順序づけすることによって、かつ、境界線を用いて前記レコードを分離することによってなされることを特徴とする方法。
  15. 複数のウェブサイトからデータを自動集約するためのシステムであって:
    a.関連ウェブサイトの提供されたリストからデータを取得するためのクローラの処理部と;
    b.前記データを分析するための幾何学的分析器の処理部であって、前記データが少なくとも1のドキュメントを含み、該分析が前記ドキュメントのページレイアウトの幾何学的な分析を含み、該幾何学的な分析が:
    前記ドキュメントの1以上の幾何学的特性の特定と;
    幾何学的パターンを検出するための前記1以上の幾何学的特性の分析と;
    前記レイアウト内の複数のレコード格納部の探索と;
    前記幾何学的パターンによる、少なくとも1のレコード格納部からのレコードの関連性の特定と;
    を含む、幾何学的分析器の処理部と;
    c.前記関連レコードをテキスト通りに分析するための意味層と;
    d.前記意味層によって検索される情報を記憶するためのデータベースと;
    を具えることを特徴とするシステム。
JP2011542972A 2008-12-31 2009-12-27 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 Expired - Fee Related JP5501373B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US19386208P 2008-12-31 2008-12-31
PCT/IL2009/001218 WO2010076785A1 (en) 2008-12-31 2009-12-27 System and method for aggregating data from a plurality of web sites

Publications (2)

Publication Number Publication Date
JP2013515977A true JP2013515977A (ja) 2013-05-09
JP5501373B2 JP5501373B2 (ja) 2014-05-21

Family

ID=42286118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011542972A Expired - Fee Related JP5501373B2 (ja) 2008-12-31 2009-12-27 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法

Country Status (6)

Country Link
US (2) US8880498B2 (ja)
EP (1) EP2380099A1 (ja)
JP (1) JP5501373B2 (ja)
CN (1) CN102317937A (ja)
RU (1) RU2011130218A (ja)
WO (1) WO2010076785A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096802A (ja) * 2019-12-13 2021-06-24 翼 加藤 検索装置、検索アプリケーション及び検索方法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006108069A2 (en) 2005-04-06 2006-10-12 Google, Inc. Searching through content which is accessible through web-based forms
US10380652B1 (en) 2008-10-18 2019-08-13 Clearcapital.Com, Inc. Method and system for providing a home data index model
US8484286B1 (en) * 2009-11-16 2013-07-09 Hydrabyte, Inc Method and system for distributed collecting of information from a network
WO2012006509A1 (en) * 2010-07-09 2012-01-12 Google Inc. Table search using recovered semantic information
US9183573B2 (en) * 2011-06-03 2015-11-10 Facebook, Inc. Überfeed
US20130019195A1 (en) * 2011-07-12 2013-01-17 Oracle International Corporation Aggregating multiple information sources (dashboard4life)
US10083247B2 (en) 2011-10-01 2018-09-25 Oracle International Corporation Generating state-driven role-based landing pages
US10210465B2 (en) * 2011-11-11 2019-02-19 Facebook, Inc. Enabling preference portability for users of a social networking system
DE112012005598T5 (de) * 2012-03-08 2014-10-16 Hewlett-Packard Development Company, L.P. Identifizieren und Einstufen von Lösungen aus mehreren Datenquellen
US20130238972A1 (en) * 2012-03-09 2013-09-12 Nathan Woodman Look-alike website scoring
US8688713B1 (en) 2012-03-22 2014-04-01 Google Inc. Resource identification from organic and structured content
US20130311440A1 (en) * 2012-05-15 2013-11-21 International Business Machines Corporation Comparison search queries
CN102750372A (zh) * 2012-06-15 2012-10-24 翁时锋 自动获取网页结构化信息的分析方法
US9582494B2 (en) 2013-02-22 2017-02-28 Altilia S.R.L. Object extraction from presentation-oriented documents using a semantic and spatial approach
US9733638B2 (en) * 2013-04-05 2017-08-15 Symbotic, LLC Automated storage and retrieval system and control system thereof
US9317873B2 (en) 2014-03-28 2016-04-19 Google Inc. Automatic verification of advertiser identifier in advertisements
US11080777B2 (en) * 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
US11115529B2 (en) 2014-04-07 2021-09-07 Google Llc System and method for providing and managing third party content with call functionality
US20150287099A1 (en) 2014-04-07 2015-10-08 Google Inc. Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads
US10817884B2 (en) * 2014-05-08 2020-10-27 Google Llc Building topic-oriented audiences
JP6386089B2 (ja) 2014-06-26 2018-09-05 グーグル エルエルシー 最適化されたブラウザレンダリングプロセス
CN106662986B (zh) 2014-06-26 2019-06-21 谷歌有限责任公司 优化的浏览器渲染过程
EP3161668B1 (en) 2014-06-26 2020-08-05 Google LLC Batch-optimized render and fetch architecture
US20160048548A1 (en) * 2014-08-13 2016-02-18 Microsoft Corporation Population of graph nodes
US10529031B2 (en) * 2014-09-25 2020-01-07 Sai Suresh Ganesamoorthi Method and systems of implementing a ranked health-content article feed
US20160125081A1 (en) * 2014-10-31 2016-05-05 Yahoo! Inc. Web crawling
US10083295B2 (en) * 2014-12-23 2018-09-25 Mcafee, Llc System and method to combine multiple reputations
US10643258B2 (en) * 2014-12-24 2020-05-05 Keep Holdings, Inc. Determining commerce entity pricing and availability based on stylistic heuristics
US11570188B2 (en) * 2015-12-28 2023-01-31 Sixgill Ltd. Dark web monitoring, analysis and alert system and method
US10469424B2 (en) 2016-10-07 2019-11-05 Google Llc Network based data traffic latency reduction
US11023526B2 (en) * 2017-06-02 2021-06-01 International Business Machines Corporation System and method for graph search enhancement
US11461829B1 (en) 2019-06-27 2022-10-04 Amazon Technologies, Inc. Machine learned system for predicting item package quantity relationship between item descriptions
CN111291155A (zh) * 2020-01-17 2020-06-16 青梧桐有限责任公司 基于文本相似度的同名小区辨别方法及系统
CN112734165A (zh) * 2020-12-18 2021-04-30 中国平安财产保险股份有限公司 智能化的功能展示方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108846A (ja) * 2000-09-27 2002-04-12 Fuji Xerox Co Ltd 文書画像処理装置、文書画像処理方法、および記録媒体
JP2003216647A (ja) * 2002-01-18 2003-07-31 Matsushita Electric Ind Co Ltd 電子店舗における商品検索装置及び電子店舗サービス提供装置、媒体、情報集合体
JP2004086849A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報処理装置および方法
JP2006179003A (ja) * 2004-12-22 2006-07-06 Ricoh Co Ltd 意味論的文書スマートネール
US20080033996A1 (en) * 2006-08-03 2008-02-07 Anandsudhakar Kesari Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
JP2008262506A (ja) * 2007-04-13 2008-10-30 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659732A (en) * 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US6067552A (en) * 1995-08-21 2000-05-23 Cnet, Inc. User interface system and method for browsing a hypertext database
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6275820B1 (en) * 1998-07-16 2001-08-14 Perot Systems Corporation System and method for integrating search results from heterogeneous information resources
WO2001046870A1 (en) * 1999-12-08 2001-06-28 Amazon.Com, Inc. System and method for locating and displaying web-based product offerings
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
EP1269347A1 (en) * 2000-03-31 2003-01-02 Kapow APS Method of retrieving attributes from at least two data sources
US7346858B1 (en) * 2000-07-24 2008-03-18 The Hive Group Computer hierarchical display of multiple data characteristics
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US7246306B2 (en) * 2002-06-21 2007-07-17 Microsoft Corporation Web information presentation structure for web page authoring
US7251648B2 (en) * 2002-06-28 2007-07-31 Microsoft Corporation Automatically ranking answers to database queries
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US7672958B2 (en) * 2005-01-14 2010-03-02 Im2, Inc. Method and system to identify records that relate to a pre-defined context in a data set
US8583632B2 (en) * 2005-03-09 2013-11-12 Medio Systems, Inc. Method and system for active ranking of browser search engine results
WO2006108069A2 (en) * 2005-04-06 2006-10-12 Google, Inc. Searching through content which is accessible through web-based forms
US20060282455A1 (en) * 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US20070078814A1 (en) * 2005-10-04 2007-04-05 Kozoru, Inc. Novel information retrieval systems and methods
US8065286B2 (en) * 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US20070208732A1 (en) * 2006-02-07 2007-09-06 Future Vistas, Inc. Telephonic information retrieval systems and methods
US20070294240A1 (en) * 2006-06-07 2007-12-20 Microsoft Corporation Intent based search
US8510298B2 (en) * 2006-08-04 2013-08-13 Thefind, Inc. Method for relevancy ranking of products in online shopping
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8707167B2 (en) * 2006-11-15 2014-04-22 Ebay Inc. High precision data extraction
US7930302B2 (en) * 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
US8392446B2 (en) 2007-05-31 2013-03-05 Yahoo! Inc. System and method for providing vector terms related to a search query
US20090077180A1 (en) * 2007-09-14 2009-03-19 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US8117208B2 (en) 2007-09-21 2012-02-14 The Board Of Trustees Of The University Of Illinois System for entity search and a method for entity scoring in a linked document database
KR100938830B1 (ko) 2007-12-18 2010-01-26 한국과학기술정보연구원 지식베이스 구축 방법 및 그 서버
US20090265611A1 (en) * 2008-04-18 2009-10-22 Yahoo ! Inc. Web page layout optimization using section importance
US20100169352A1 (en) * 2008-12-31 2010-07-01 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US8874552B2 (en) 2009-11-29 2014-10-28 Rinor Technologies Inc. Automated generation of ontologies

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108846A (ja) * 2000-09-27 2002-04-12 Fuji Xerox Co Ltd 文書画像処理装置、文書画像処理方法、および記録媒体
JP2003216647A (ja) * 2002-01-18 2003-07-31 Matsushita Electric Ind Co Ltd 電子店舗における商品検索装置及び電子店舗サービス提供装置、媒体、情報集合体
JP2004086849A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報処理装置および方法
JP2006179003A (ja) * 2004-12-22 2006-07-06 Ricoh Co Ltd 意味論的文書スマートネール
US20080033996A1 (en) * 2006-08-03 2008-02-07 Anandsudhakar Kesari Techniques for approximating the visual layout of a web page and determining the portion of the page containing the significant content
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
JP2008262506A (ja) * 2007-04-13 2008-10-30 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200600049009; 張建偉、外3名: '例示データに基づく選択的ウェブクローリング手法について' 情報処理学会研究報告(2005-DBS-137(II)) 第2005巻,第68号, 20050715, p.337-344, 社団法人情報処理学会 *
CSNG200900266001; 中根史敬、外3名: 'Webからのスキーマ抽出に関する基礎検討' 電子情報通信学会 第19回データ工学ワークショップ論文集 [online] , 20080407, p.1-7, 電子情報通信学会データ工学研究専門委員会 *
JPN6013050725; 張建偉、外3名: '例示データに基づく選択的ウェブクローリング手法について' 情報処理学会研究報告(2005-DBS-137(II)) 第2005巻,第68号, 20050715, p.337-344, 社団法人情報処理学会 *
JPN6013050726; 中根史敬、外3名: 'Webからのスキーマ抽出に関する基礎検討' 電子情報通信学会 第19回データ工学ワークショップ論文集 [online] , 20080407, p.1-7, 電子情報通信学会データ工学研究専門委員会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096802A (ja) * 2019-12-13 2021-06-24 翼 加藤 検索装置、検索アプリケーション及び検索方法
JP7002804B2 (ja) 2019-12-13 2022-01-20 翼 加藤 検索装置、検索アプリケーション及び検索方法
US11556602B2 (en) 2019-12-13 2023-01-17 Tsubasa KATO Search device, search application, and search method

Also Published As

Publication number Publication date
JP5501373B2 (ja) 2014-05-21
US9430569B2 (en) 2016-08-30
US8880498B2 (en) 2014-11-04
CN102317937A (zh) 2012-01-11
US20100169301A1 (en) 2010-07-01
EP2380099A1 (en) 2011-10-26
US20150134636A1 (en) 2015-05-14
RU2011130218A (ru) 2013-02-10
WO2010076785A4 (en) 2010-10-07
WO2010076785A1 (en) 2010-07-08

Similar Documents

Publication Publication Date Title
JP5501373B2 (ja) 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法
US8473473B2 (en) Object oriented data and metadata based search
JP5572596B2 (ja) 検索結果内におけるプレーストコンテンツの順序付けのパーソナライズ
US8190601B2 (en) Identifying task groups for organizing search results
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US20120047123A1 (en) System and method for document analysis, processing and information extraction
US20070294240A1 (en) Intent based search
US8732165B1 (en) Automatic determination of whether a document includes an image gallery
KR100797232B1 (ko) 계층적 데이터 지향 네비게이션 시스템 및 정보 인출 방법
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
US9977816B1 (en) Link-based ranking of objects that do not include explicitly defined links
US9223897B1 (en) Adjusting ranking of search results based on utility
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
US8121970B1 (en) Method for identifying primary product objects
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
US10585931B1 (en) Dynamic determination of data facets
KR100987330B1 (ko) 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
Li Internet tourism resource retrieval using PageRank search ranking algorithm
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
US8190602B1 (en) Searching a database of selected and associated resources
Rana et al. Analysis of web mining technology and their impact on semantic web
Bo et al. Spatio-temporal visualization system of news events based on GIS
Tripathy et al. Notice of Violation of IEEE Publication Principles: An efficient method of eliminating noisy information in web pages for data mining
Zhuang et al. Web-based image retrieval: A hybrid approach

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131015

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140311

R150 Certificate of patent or registration of utility model

Ref document number: 5501373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees