JP2019536171A - ウェブページのクラスタリング方法及び装置 - Google Patents

ウェブページのクラスタリング方法及び装置 Download PDF

Info

Publication number
JP2019536171A
JP2019536171A JP2019528069A JP2019528069A JP2019536171A JP 2019536171 A JP2019536171 A JP 2019536171A JP 2019528069 A JP2019528069 A JP 2019528069A JP 2019528069 A JP2019528069 A JP 2019528069A JP 2019536171 A JP2019536171 A JP 2019536171A
Authority
JP
Japan
Prior art keywords
url
attribute
tag
urls
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019528069A
Other languages
English (en)
Other versions
JP6827116B2 (ja
Inventor
グゥオ,ヤンヤン
リウ,シャオピン
リ,フェイ
リ,フー
リウ,リジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NSFOCUS Information Technology Co Ltd
Nsfocus Technologies Inc
Original Assignee
NSFOCUS Information Technology Co Ltd
Nsfocus Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Nsfocus Technologies Inc filed Critical NSFOCUS Information Technology Co Ltd
Publication of JP2019536171A publication Critical patent/JP2019536171A/ja
Application granted granted Critical
Publication of JP6827116B2 publication Critical patent/JP6827116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本発明はウェブページのフレームワークによりウェブページに対するクラスタリングを実現することに用いるウェブページのクラスタリング方法及び装置を開示した。前記方法は、複数のクラスタリング待ちページのURL(Uniform Resource Locator)取得することと、各クラスタリング待ちページのURLに対し、前記URLの書き替え規則を確定し且つ前記URLの書き替え規則に従ってURL分類を行うことと、各URLを分類し、前記URL分類中の各URLに対応するページのページフレームワークを確定し、且つ各URLに対応するページのページフレームワークに従って各URLのクラスタリングが可能か否かを確定することと、もし各URLのクラスタリングが可能であれば、前記URLの分類が保留されることとを、を含む。上記方法により、同じページフレームワーク構造を有するウェブページを分類にクラスタリングすることができ、既存のクラスタリング方法がウェブページフレームワークによってクラスタリングできないという問題点を克服し、ページフレームワークのクラスタリング方法を提供した。

Description

本発明は、出願番号201611068233.0であり、出願日2016年11月25日であり、発明の名称が「ウェブページのクラスタリング方法及び装置」の中国特許出願を基礎とする優先権を主張し、その開示の総てをここに取り込む。
本発明はインターネット技術分野に関し、特にウェブページのクラスタリング方法及び装置に関する。
従来のウェブページのクラスタリング方法は主にウェブページのテキスト特徴に基づくクラスタリングによるもので、つまり、キーコンテンツ又は出現頻度の高い語彙を抽出してそれを特徴値としてクラスタリングすることにより、類似したコンテンツを有するページを1つに分類する。このクラスタリング方法はテキスト検索などのテキスト処理にのみ適用し、処理効率を大幅に向上させることができる。
しかし、ウェブページはテキスト特徴を有する以外に、さらにコンテンツ半構造化、膨大な規模、異種フォーマットなどの特徴を持っている。同じウェブページフレームワークを有する同じ種類のウェブページには、そのテキスト特徴に違いが存在する可能性があり、つまりウェブページテキスト特徴に基づいてクラスタリングする方法は、同じフレームワークのウェブページを1種類に分類することができない。従って、ウェブページテキスト特徴に基づいてクラスタリングする方法は、ウェブページフレームワークに関連する処理に適用されるものではない。同じフレームワークのページには、同じビジネスプロセス又はデータ処理フローを有し、同じフレームワークのページを1種類に分類できれば、其の中の1つのページはこの種類のページを代表できる。ウェブページをクラスタリングするこの技術を用いると、大規模なフレームワークベースのウェブサイト、フレームワーク、例えば、クローラ、サイトマップ、バグ検査などにおいて、結果の全面性を確保する前提で、効率を大幅に向上させることができる。現在は依然としてウェブページフレームワークに基づいてウェブページをクラスタリングできる方法は欠けている。
本発明はウェブページのクラスタリング方法及びその装置を提供し、従来技術に存在するウェブページフレームワークに基づいてウェブページをクラスタリングできない問題を解決する。
本発明が提供するウェブページのクラスタリング方法は、複数のクラスタリング待ちページのURL(Uniform Resource Locator)を取得することと、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類することと、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定し、もし各URLがクラスタリングできれば、前記URLの分類を保留することと、を含む。
好ましくは、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類することは、複数のクラスタリング待ちページのURLをURL集合とすることと、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出することと、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、URL集合から信頼できる書き替え規則に合致したURLを検索して同一URL分類とすることと、URL集合から同一URL分類中のURLを削除し、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出するステップに戻ることと、を含む。
好ましくは、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出することは、URL集合から第1URLと第2URLを抽出し、第1URLと第2URLの書き替え規則を確定することを含む。
その方法はさらに、もし第1URLと第2URLの書き替え規則が信頼できない書き替え規則であれば、URL集合から第3URLと第4URLを抽出し、第3URLと第4URLの書き替え規則を確定し、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定するステップに戻り、第3URLと第4URL中にはURL集合中の第1URLと第2URL以外の其の他のURLが少なくとも1つあることを含む。
好ましくは、以下の方法により書き替え規則が信頼できるか否かの判断は、書き換え規則の表現形式は文字のみ又は数字のみであり、且つその文字又は数字のビット数が確定されなければ、書き換え規則が信用できないこと、を含む。
好ましくは、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定することは、各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、HTMLファイルに含まれるタグ情報に従って、HTMLファイルの指紋特徴値を取得することと、各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較することと、もし所定閾値を下回ると各URLがクラスタリングできると判断することと、を含む。
好ましくは、HTMLファイルに含まれるタグ情報に従って、HTMLファイルの指紋特徴値を取得することは、HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応することと、各タグのHTMLファイル中における位置の異なりにより、各タグの位置重み値を確定することと、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、HTMLファイルの指紋特徴値を得ることと、を含む。
好ましくは、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、HTMLファイルの指紋特徴値を得ることは、HTMLファイル中の位置を先端、中部、末端に分割することを含み、先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高いことと、タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、アイデンティティ属性の属性重み値は非代表属性の属性重み値より高く、カテゴリ属性の属性重み値は非代表属性の属性重み値より高い。
本発明の実施例に係るウェブページのクラスタリング装置は、複数のクラスタリング待ちページのURL ( Uniform Resource Locator ) を取得するのに用いるクロールモジュールと、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するのに用いる分類モジュールと、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定し、もし各URLをクラスタリングできれば、前記URL分類を保留するのに用いる判断モジュールと、を備える
好ましくは、分類モジュールは、複数のクラスタリング待ちページのURLをURL集合とすること、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出し、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、URL集合から信頼できる書き替え規則に合致したURLを検索して同一URL分類とし、URL集合から同一URL分類中のURLを削除し、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出するステップに戻るのに用いる。
好ましくは、分類モジュールは、URL集合から第1URLと第2URLを抽出し、第1URLと第2URLの書き替え規則を確定するさらに用い、分類モジュールはさらに、第1URLと第2URLの書き替え規則が信頼できない書き替え規則である際、URL集合から第3URLと第4URLを抽出し、第3URLと第4URLの書き替え規則を確定し、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるか否かを確定するステップに戻るのに用い、第3URLと第4URLのうちの少なくとも1つはnURL集合中の第1URLと第2URL以外の其の他のURLである。
好ましくは、分類モジュールは以下の方法により書き替え規則が信頼できるか否かの判断は、もし書き換え規則の表現形式は文字のみ又は数字のみであり、且つその文字又は数字のビット数が確定されなければ、書き換え規則が信用できないことを含む。
好ましくは、判断モジュールは、各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、HTMLファイルに含まれるタグ情報に従って、HTMLファイルの指紋特徴値を取得すること、各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較すること、もし所定閾値を下回ると各URLがクラスタリングできると判断すること、に用いる。
好ましくは、判断モジュールは、HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応すること、各タグのHTMLファイル中における位置の異なりにより、各タグの位置重み値を確定すること、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、HTMLファイルの指紋特徴値を得ること、に用いる。
好ましくは、判断モジュールは、HTMLファイル中の位置を先端、中部、末端に分割し、先端位置のタグの位置重みを中部位置のタグの位置重みより高くし、末端位置のタグの位置重みを中部位置のタグの位置重みより高くし、タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、そのなか、アイデンティティ属性の属性重み値は非代表属性の属性重み値より高く、カテゴリ属性の属性重み値は非代表属性の属性重み値より高い。
本発明の実施例がコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体はコンピュータで実行可能な指令を記憶しており、前記コンピュータの実行可能な指令は前記コンピュータに上記いずれか1つの方法を実行させるのに用いる。
本発明の実施例がコンピュータ装置を提供し、プログラム指令を記憶するメモリと、前記メモリに記憶されたプログラム指令を呼び出し、取得したプログラムに基づいて、上記いずれか1つ前記方法を実行するプロセッサと、を備える。
本発明の実施例がコンピュータプログラム製品を提供し、該当コンピュータプログラム製品がコンピュータ上において運行される際、コンピュータに上記いずれか1つの前記方法を実行させる。
以上説明したように、本発明の実施例はウェブページのクラスタリング方法及び装置を提供し、複数のクラスタリング待ちページのURL(Uniform Resource Locator)を取得すること、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類すること、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定し、もし各URLがクラスタリングできれば、前記URLの分類を保留すること、を含む。
本発明の実施例におけるURL書き替え規則を分類することによって、クラスタリング待ちの各ページに対してURLの予備的分類を取得し、その後、ページフレームワークを抽出し、且つページフレームワークに基づいてURLの分類に対して検証を行う。
このように分類してから検証するという処理することによって、同じページフレームワークの構造を有するウェブページを1種類に分類することができ、従来のクラスタリング方法でウェブページフレームワークに従ってクラスタリングできない問題を克服でき、ページフレームワークの処理過程におけるより適したクラスタリング方法が提供される。
本発明の実施例における技術解決方式をより明確に説明するために、実施例の説明で使用される図面を以下に簡単に説明する。
明らかに、以下の説明の中にある図面は本発明の実施例であり、本分野の技術者にとっては、創造性労働を払わないことを前提に、これらの図面に基づいて他の図面を得ることができる。
本発明の実施例に係るウェブページのクラスタリング方法を示すフローチャートである。 本発明の実施例に係るサイトツリーの模式図である。 本発明の実施例に係るウェブページクラスタリングを使用してバグをスキャンするプロセスを示すフローチャートである。 本発明の実施例に係るウェブページのクラスタリング装置の構造図である。 本発明の実施例に係るコンピュータ装置の構造図である。
本発明に係る実施形態の目的や技術解決方式及び利点をさらに明確化するため、以下、本発明に係る実施形態の図面を参考にしながら本発明に係る実施形態の技術解決方式を明確かつ詳細に説明し、もちろん、説明された実施形態は、本発明の一部実施形態であり、すべての実施形態ではない。
本発明における実施形態に基づいて、本分野の技術者が創造性労働を払わない前提で得た他の実施形態は、すべて本発明の保護範囲に含まれている。
図1は本発明の実施例に係るウェブページのクラスタリング方法を示すフローチャートであり、図1に示された通り、以下のステップを含む。
S101では、複数のクラスタリング待ちページのURL(Uniform Resource Locator)を取得する。
S102では、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類する。
S103では、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定し、もし各URLがクラスタリングできれば、前記URLの分類を保留する。
具体的な実施過程において、本発明が開示した分類方法はウェブページのバグスキャンに適用するだけでなく、ウェブページの検索解析、サイトデータの集計などの複数処理手順にも適用する。
ステップS101の具体的な実施過程において、クラスタリング待ちページのURL(Uniform Resource Locator)は、クローラアルゴリズムによって取得することができる。
URLはインターネット上から得られたリソースの位置とアクセス方法を簡潔に示すものであり、インターネット上の標準リソースのアドレスでもある。
インターネット上の各ファイルは、唯一のURLを持っており、それにはファイルの位置とブラウザでの処理方法を示す情報が含まれている。
クラスタリング待ちページは、各ページの独自のURLがある。
一般的に、これらのクラスタリング待ちページは同一のルートURLに由来し、ウェブサイトのトップページであることが多く、クローラアルゴリズムを使用してウェブページのコンテンツを読み取り、ウェブページ内の他のリンクアドレスを見つけ出してから、これらのリンクアドレスを介して次のウェブページを探す。
このように、このサイトのすべてのウェブページがクロールされるまで繰り返していく。
好ましくは、ウェブページがクロールされた後、クロールされたウェブページの排除と再配列(web pages redupliction removing)を行い、排除と再配列された後のウェブページはクラスタリング待ちウェブページとして使用される。
好ましくは、サイトツリーの形式でクラスタリング待ちのウェブページURLを記憶しておく。
クラスタリング待ちウェブページのURLレベルはサイトツリーのレベルに対応し、1つのURLはサイトツリー上の1つのリーフノードである。
図2は本発明の実施例に係るサイトツリーの模式図である。
図2に示すように、サイトツリーは3つのレベルを含み、第1レベルはルートURL0であり、第2レベルはURL1、URL2、及びURL3を含み、第3レベルはURL4、URL5、URL6、及びURL7を含む。
ここで、URL4、URL5、及びURL6はURL1のサブレベルであり、URL7はURL3のサブレベルである。
サイトトップページhttp://aを例として、上記8つのURLに対してそれぞれ例を挙げて説明すると、http://aはURL0であり、http://a/bはURL1であり、http://a/cはURL2であり、http://a/dはURL3であり、http://a/b/eはURL4であり、http://a/b/fはURL5であり、http://a/b/gはURL6であり、http://a/b/hはURL7である。
ステップS102の具体的な実施過程において、書き替え規則はリダイレクション処理後の同じレベルのURL、且つ同じディレクトリ特性を持つURLの特徴付け規則を指し、同じディレクトリ特性を持つURLを1種類に分類する。
例えば、図2中における第3レベルの同じレベルURLを、URL4 http://a/b/e、URL5 http://a/b/g、URL7 http://a/b/hとする。
ここで、URL4、URL5、及びURL6はURL1 http://a/bのサブURLとし、これらは同じディレクトリ特性を持つURLであるため、URL4、URL5、及びURL6の中から書き替え規則を抽出する必要がある。
ここでの書き替え規則は具体的にURLの記述規則を指し、例えば、URL http://ent.163.com/photoview/615398.htmlとhttp://ent.163.com/photoview/615409.htmlに対して、この2つのURLに基づいて抽出した書き替え規則はhttp://ent.163.com/photoview/%6d.htmlであり、ここで、%6dはURLのhtmlファイル名が6ビット数であることを示し、http://ent.163.com/photoviewはこの2つURLのディレクトリ特性を示す。
好ましくは、本発明の実施例に係る書き替え規則による分類する方法は、複数のクラスタリング待ちページのURLをURL集合とすること、URL集合中の任意の2つの異なるURLに基づいて2つの異なるURLの書き替え規則を抽出すること、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、URL集合から信頼できる書き替え規則に合致したURLを検索して同一URL分類とすること、URL集合から前記同一URL分類中のURLを削除し、URL集合中の任意の2つの異なるURLに基づいて、2つの異なるURLの書き替え規則を抽出するステップに戻ること、を含む。
具体的な実施過程において、URL集合A、A={URLa、URLb、URLc、URLd、URLe}を例とし、集合Aの中から任意の2つのURL、例えばURLaとURLdを抽出し、この2つURLの表現形式に基づいてその書き替え規則とし、それから、この書き替え規則が信頼できるものであるか否かを判断し、信頼できるものであれば、この書き替え規則に基づいて、集合Aの中から、この書き替え規則に合致したURLを検索して、これらのURLを同一URL分類とする。
例えば、URLeもこの書き替え規則に合致しており、即ち、URLa、URLd、及びURLeは同一URLの分類である。
次に、集合Aの中のURLa、URLd、及びURLeを削除した後、集合Aの中に残ったURLに対して、すべてのURLの分類が完成するまで上記の操作を継続する。
好ましくは、URLaとURLdに従って抽出された書き替え規則は信頼できないものであれば、URLc、URLb、及びURLeの中から再び2つURLを抽出して上記処理を繰り返すか、又はURLaを保留して、URLc、URLb、及びURLeの中から再び1つURLとURLaを抽出して規則抽出を行う。
本発明の実施例に係る書き替え規則が信頼できるか否かを判断する方法は、もし前記書き替え規則の表現形式は文字のみ又は数字のみであり、かつ前記文字のみ又は数字のみのビット数が確定されなければ、書き換え規則が信用できないことを含む。
例えば、Ewafoij.htmlと2323232.htmlが生成した規則である{%d}は、ビット数を確定する規則が得られないため、信頼できるものではない。
好ましくは、さらに不正当ではないURLを信頼できるURLと部分的信頼できるURLに分け、例えば111.htmlと222.htmlが生成した規則%3d.htmlについては、%3dは3ビット数によって形成され、この規則は即ち信頼できる規則である。
一方、例えばabcd_cdf001とabcd_wxyzmが生成した規則abcd_.{%d}については、正確な英文字が含まれているが、{%d}に示されたビット数文字が確定されないため、部分的信頼できるURLである。
好ましくは、部分的信頼できるURLと信頼できないURLを特徴庫に格納し、すべてのクラスタリング待ちURLをエルゴディックにしても信頼できるURLが得られない場合、特徴庫の中から部分的信頼できるURL又は信頼できないURLを取り出してクラスタリングを行う。
表1は本発明の実施例に係る書き替え規則に基づいて分類する分類規則であり、表1に示すように、番号1は第1種の規則であり、最低級URLの書き替え規則に基づいて分類し、番号2は第2種の規則であり、最低級URLと準最低級URLの書き替え規則に基づいて分類し、番号3は番号2より更にレベルアップされた。
好ましくは、ステップS103の具体的な実施過程において、各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定する。
もし各URLをクラスタリングできれば、前記URL分類を保留する。
具体的には、各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HyperText Markup Language、HTML)ファイルを取得する。
HTMLファイルに含まれるタグ情報に従って、HTMLファイルの指紋特徴値を取得する。
各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較する。
もし所定閾値を下回ると各URLがクラスタリングできると判断する。
HTMLファイル中には、リンクや画像、音楽やプログラムなどのテキスト以外の要素が含まれている。
HTMLファイル中からタグ情報を抽出することによってさらに得られた指紋特徴値はウェブページのフレームワーク構造をよりよく特徴づけることができる。
好ましくは、HTMLファイルに含まれるタグ情報に従って、HTMLファイルの指紋特徴値を取得することは、具体的には、HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応する。
各タグのHTMLファイル中における位置の異なりにより、各タグの位置重み値を確定する。
各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、HTMLファイルの指紋特徴値を得る。
HTMLファイル中に複数のタグが含まれており、各タグには複数の属性が含まれている。
これらの属性の属性値が抽出された後、指紋特徴値の計算に使用される。
好ましくは、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、HTMLファイルの指紋特徴値を得ることは、具体的には、HTMLファイル中の位置は先端、中部、末端の各部分を含み、そのなか、先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高いこと、タグの属性はアイデンティティ(Identification、ID)属性、カテゴリ(Class)属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は非代表属性の属性重み値より高いこと。
これらの抽出されたタグの属性値は、HTMLファイル中のタグの位置によって重みづけされ、重みは指紋特徴値への影響の程度を表している。
例えば、HTMLファイルを先端、中部、末端の3つの部分に分け、ビッグデータ解析を行った結果、先端と末端はTMLファイルの指紋特徴値への影響が大きいことが分かったため、先端と末端のタグの属性値の重みづけが大きくする。
好ましくは、ハッシュアルゴリズムを用いてHTMLファイルの指紋特徴値を算出し、算出処理において、単一のタグの各属性値に重みづけを行い、タグ中のid属性とclass属性の属性値はウェブページフレームワークに敏感であるため、id属性とclass属性の属性値は同一タグ下の他の属性値より重みが高い。
各URLの指紋特徴値を取得した後、同一URL分類中における各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、もし所定閾値を下回ると各URLがクラスタリングできると判断する。
好ましくは、同一URL分類中の各URLを所定閾値と比較する際、任意の2つのURLの指紋特徴値の差分値はどちらも所定閾値より小さくする必要がなく、実際の応用状況に従って信頼度の基準を設定することができる。
所定閾値に満たした2URLずつからなる組み合わせが総組み合わせにおける比例が信頼度基準より低くない場合、このURL分類はクラスタリングできると見なされる。
例えば、URL分類{URL1、URL2、URL3、URL4、URL5}に対して、予め設定された信頼度基準は80%であるとする。この5つのURLには全部で10種類の2URLずつからなる組み合わせがある。もし、その中に8種類のURLの2URLずつからなる組み合わせが、所定閾値を満たした場合、この分類の信頼度は80%であり、信頼度基準に満たしており、このURL分類はクラスタリングできる。
もし、その中に6種類のURLの2URLずつからなる組み合わせが、所定閾値を満たした場合、この分類の信頼度は60%であり、信頼度基準が満たされず、このURL分類にはクラスタリングできない。
好ましくは、所定閾値とウェブページパーティション及び各パーティションの重みの割り当ての間に動的なバランスがあり、つまり、所定閾値を取得する際に、一定数量の既知の同じウェブページフレームワークのウェブページパーティション比率とパーティション重みの割り当てを調整することで、所定閾値を所望の値に制御する。
指摘する必要があるのは、上記取得された指紋特徴値は同じフレームワーク構造を持つとは完全に考えられないが、URL分類が正しいか否かの検証に用いることができる。
つまりリダイレクション規則とウェブページフレームワークの比較の両方を同時に満たすURLが同じ分類のURLと見なすことができる。
図3は、本発明の実施例に係るウェブページのクラスタリングを使用してバグをスキャンするプロセスを示すフローチャートであり、図に示すように、以下のステップを含む。
S301では、クローラはサイトすべてのURLをクロールし、サイトツリーの形式で保存する。
S302では、まず、最初のステップでクロールしたURLの結果を書き替え規則によってクラスタリングする。
S303では、1分類にクラスタリングされたURL集合がそれらのページフレームワークに従ってクラスタリングできるか否かを判定し、できると判定されれば、ステップS304に進み、できないと判定されれば、ステップS305に進む。
S304では、そのなかの1つのURLを抽出してウェブページをスキャンし、前記種類URL中の其の他のURLのバグはこのURLのスキャン結果を基準とする。
S305は、このURL分類中のURLのウェブページすべてをスキャンする。
ステップS302においてウェブページをクラスタリング及び分析したことにより、ステップS304において1つのウェブページをスキャンしただけでこのウェブページ前記分類中の其の他のウェブページのバグを知ることができ、よって、ウェブページバグスキャナープラグインのネットワークリソースの消耗を効果的に減らし、ウェブページスキャナーの走査効率を向上させた。
要約すると、本発明の実施例に係るウェブページのクラスタリングの方法は、複数のクラスタリング待ちページのURLを取得すること、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類すること、各URLを分類し、前記URL分類中の各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定し、もし各URLがクラスタリングできれば、前記URLの分類を保留すること、とを含む。
本発明の実施例におけるURL書き替え規則を分類することによってクラスタリング待ちの各ページに対してURLの予備的分類を取得し、その後、ページフレームワークを抽出し、且つページフレームワークに基づいてURLの分類に対して検証を行う。
このように分類してから検証するという処理することによって、同じページフレームワークの構造を有するウェブページを1種類に分類することができ、従来のクラスタリング方法でウェブページフレームワークに従ってクラスタリングできない問題を克服でき、ページフレームワークの処理過程におけるより適したクラスタリング方法が提供される。
同じ技術思想に基づいて、本発明の実施例は上記方法の実施例を実装するウェブページのクラスタリング装置をさらに提供する。
図4は、本発明の実施例に係るウェブページのクラスタリング装置の構造式図であり、図4に示すように、ウェブページのクラスタリング装置400は、クロールモジュール401と、分類モジュール402と、判断モジュール403と、を備える。
前記クロールモジュール401は、複数のクラスタリング待ちページのURL(Uniform Resource Locator)を取得するのに用いる。
前記分類モジュール402は、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するのに用いる。
前記判断モジュール403は、各URLを分類し、前記URL分類中の各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定し、もし各URLをクラスタリングできれば、前記URL分類を保留するのに用いる。
好ましくは、分類モジュール402は具体的には、複数のクラスタリング待ちページのURLをURL集合とし、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出し、2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、URL集合から信頼できる書き替え規則に合致したURLを検索して同一URL分類とし、URL集合から同一URL分類中のURLを削除し、URL集合中の任意の2つの異なるURLに基づき、2つの異なるURLの書き替え規則を抽出するステップに戻るのに用いる。
好ましくは、分類モジュール402は具体的に、URL集合から第1URLと第2URLを抽出し、第1URLと第2URLの書き替え規則を確定するのに用いる。
分類モジュール402は具体的に、第1URLと第2URLの書き替え規則が信頼できない書き替え規則である場合、URL集合から第3URLと第4URLを抽出し、第3URLと第4URLの書き替え規則を確定し、且つ2つの異なるURLの書き替えが信頼できる書き替え規則であるか否かを確定するのステップに戻るのに用いる。
第3URLと第4URLのうちの少なくとも1つは、URL集合中の第1URLと第2URL以外の其の他のURLである。
好ましくは、書き換え規則の表現形式は文字のみ又は数字のみであり、且つその文字又は数字のビット数が確定されなければ、書き換え規則が信用できない。
好ましくは、判断モジュール403は具体的に、各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、HTMLファイルに含まれるタグ情報に従って、HTMLファイルの指紋特徴値を取得し、各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、もし所定閾値を下回ると各URLがクラスタリングできると判断するのに用いる。
好ましくは、判断モジュール403は具体的に、HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応し、各タグのHTMLファイル中における位置の異なりにより、各タグの位置重み値を確定し、各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、HTMLファイルの指紋特徴値を得るのに用いる。
好ましくは、判断モジュール403は具体的に、HTMLファイル中の位置を先端、中部、末端に分割し、先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高くする。
タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、そのなか、アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高い。
要約すると、本発明の実施例に係るウェブページのクラスタリングの方法及び装置は、複数のクラスタリング待ちページのURL(Uniform Resource Locator)取得すること、各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類すること、各URLを分類し、前記URL分類中の各URLに対応するページのページフレームワークを確定し、各URLに対応するページのページフレームワークに従って各URLをクラスタリングできるか否かを確定すること、もし各URLがクラスタリングできれば、前記URLの分類を保留すること、を含む。
本発明の実施例におけるURL書き替え規則を分類することによってクラスタリング待ちの各ページに対してURLの予備的分類を取得し、その後、ページフレームワークを抽出し、且つページフレームワークに基づいてURLの分類を検証する。
このように分類してから検証するという処理することによって、同じページフレームワークの構造を有するウェブページを1分類にクラスタリングすることができ、従来のクラスタリング方法でウェブページフレームワークに従ってクラスタリングできない問題を克服でき、ページフレームワークの処理過程におけるより適したクラスタリング方法が提供される。
同じ技術思想に基づいて、本発明の実施例はコンピュータ装置をさらに提供する。
前記コンピュータ装置は具体的にデスクトップコンピュータ、ポータブルコンピュータ、スマトフォン、タブレットコンピュータ、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)などであってもよい。
図5に示すように、本発明の実施例に係るコンピュータ装置の構造図である。
前記コンピュータ装置は中央プロセッサ501(Center Processing unit 、CPU)、メモリ502、入力装置503、出力装置504などを含む。
入力装置503はキーボード、マウス、タッチスクリーンなどを含む。
出力装置504は液晶ディスプレイ(Liquid Crystal Display、LCD)、陰極線管(Cathode Ray Tube、CRT)などを含む。
メモリ502は、読み取り専用メモリ(ROM)及びランダムアクセスメモリ(RAM)を含むことができ、メモリに格納されたプログラム指令とデータをプロセッサに提供する。
本発明の実施例において、メモリは本発明の任意の実施例によって提供される方法のプログラムを格納に使用し、プロセッサはメモリに格納されたプログラム指令を呼び出すことによって、上記任意の実施例によって公開された方法は、取得されたプログラム指令に従って実行される。
同じ技術思想に基づいて、本発明の実施例は、上記コンピュータ装置に使用されるプログラム指令を格納するためのコンピュータ読み取り可能な記憶媒体をさらに提供する。
それは、上記任意の実施例によって公開された方法を実施するためのプログラムを含む。
前記コンピュータ読み取り可能な記憶媒体はコンピュータのアクセス可能な任意の媒体又はデータ記憶装置とすることができ、磁気メモリ(例えば、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク(MO)など)、光記憶装置(例えばCD、DVD、BD、HVDなど)、及び半導体記憶装置(例えばROM、EPROM、EEPROM、不揮発性記憶装置(NAND FLASH)、ハードディスク(SSD))など、を含むがこれに限定しない。
同じ技術思想に基づいて、本発明の実施例は、コンピュータ上で運行される際、上記任意の実施例によって公開された方法を実行させるコンピュータプログラム製品をさらに提供する。
本発明の好ましい実施例を説明してきたが、本分野の技術者は基本的な発明概念を知ることによってこれらの実施例に追加の変更や修正を加えることができる。
従って、添付の特許請求の範囲は、好ましい実施例及び本発明範囲内のすべての変更と修正を含むと解釈される。
本分野の技術者は本発明の精神や範囲から逸脱することなく本発明に対して様々な変更及び変形を行うことができることは明らかであろう。
従って、これらの変更と変形が本発明の特許請求の範囲及び均等の技術範囲内に属すれば、本発明はこれらの変更と変形を含むものと了解される。

Claims (15)

  1. 複数のクラスタリング待ちの各ページのURL(Uniform Resource Locator)を取得するステップと、
    各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するステップと、
    各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、前記各URLに対応するページのページフレームワークに従って前記各URLをクラスタリングできるか否かを確定するステップと、
    もし前記各URLがクラスタリングできれば、前記URL分類を保留するステップとを含むことを特徴とするウェブページのクラスタリング方法。
  2. 各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するステップは、
    前記複数のクラスタリング待ちページのURLをURL集合とするステップと、
    前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップと、
    前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、前記URL集合から前記信頼できる書き替え規則に合致したURLを検索して同一URL分類とするステップと、
    前記URL集合から前記同一URL分類中のURLを削除し、前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップに戻るステップとを含むことを特徴とする請求項1に記載のウェブページのクラスタリング方法。
  3. 前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップは、
    前記URL集合から第1URLと第2URLを抽出し、前記第1URLと前記第2URLの書き替え規則を確定するステップを含み、
    前記方法はさらに、
    もし前記第1URLと前記第2URLの書き替え規則が信頼できない書き替え規則であれば、前記URL集合から第3URLと第4URLを抽出し、前記第3URLと前記第4URLの書き替え規則を確定し、前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定するステップに戻り、前記第3URLと前記第4URLのうちの少なくとも1つは、前記URL集合中の前記第1URLと前記第2URL以外の其の他のURLであることを含むことを特徴とする請求項2に記載のウェブページのクラスタリング方法。
  4. 各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、前記各URLに対応するページのページフレームワークに従って前記各URLをクラスタリングできるか否かを確定するステップは、
    前記各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、前記HTMLファイルに含まれるタグ情報に従って、前記HTMLファイルの指紋特徴値を取得するステップと、
    前記各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較するステップと、
    もし前記所定閾値を下回ると前記各URLがクラスタリングできると判断するステップとを含むことを特徴とする請求項1ないし請求項3のいずれかに記載のウェブページのクラスタリング方法。
  5. 前記HTMLファイルに含まれるタグ情報に従って、前記HTMLファイルの指紋特徴値を取得するステップは、
    前記HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応するステップと、
    各タグの前記HTMLファイル中における位置の異なりにより、各タグの位置重み値を確定するステップと、
    各タグの位置重み値、各タグ中の異なる属性の指令属性値及び属性重み値に従って、前記HTMLファイルの指紋特徴値を得るステップとを含むことを特徴とする請求項4に記載のウェブページのクラスタリング方法。
  6. 各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記HTMLファイルの指紋特徴値を得る場合、
    前記HTMLファイル中の位置は先端、中部、末端の各部分を含み、前記先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高く、
    タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、前記非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高いことを特徴とする請求項5に記載のウェブページのクラスタリング方法。
  7. 複数のクラスタリング待ちページのURL(Uniform Resource Locator)を取得するのに用いるクロールモジュールと、
    各クラスタリング待ちページのURLに対して、前記URLの書き替え規則を確定してから前記URLの書き替え規則に従ってURLを分類するのに用いる分類モジュールと、
    各URL分類に対し、前記URL分類中における各URLに対応するページのページフレームワークを確定し、前記各URLに対応するページのページフレームワークに従って前記各URLをクラスタリングできるか否かを確定し、もし前記各URLをクラスタリングできれば、前記URL分類を保留するのに用いる判断モジュールと、を備えることを特徴とするウェブページのクラスタリング装置。
  8. 前記分類モジュールは、
    前記複数のクラスタリング待ちページのURLをURL集合とし、
    前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出し、
    前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるかを確定し、もし信頼できる書き替え規則であれば、前記URL集合から前記信頼できる書き替え規則に合致したURLを検索して同一URL分類とし、
    前記URL集合から前記同一URL分類中のURLを削除し、前記URL集合中の任意の2つの異なるURLに基づき、前記2つの異なるURLの書き替え規則を抽出するステップに戻るのに用いることを特徴とする請求項7に記載のウェブページのクラスタリング装置。
  9. 前記分類モジュールはさらに、
    前記URL集合から第1URLと第2URLを抽出し、前記第1URLと前記第2URLの書き替え規則を確定し、
    前記分類モジュールはさらに、
    前記第1URLと前記第2URLの書き替え規則が信頼できない書き替え規則である場合、前記URL集合から第3URLと第4URLを抽出し、前記第3URLと前記第4URLの書き替え規則を確定し、前記2つの異なるURLの書き替え規則が信頼できる書き替え規則であるか否かを確定するステップに戻ることに用い、
    前記第3URLと前記第4URLのうちの少なくとも1つは、前記URL集合中の前記第1URLと前記第2URL以外の其の他のURLであることを特徴とする請求項8に記載のウェブページのクラスタリング装置。
  10. 前記判断モジュールは、
    前記各URL分類中における各URLに対して、前記URLに対応するページのハイパーテキストマークアップ言語(HTML)ファイルを取得し、前記HTMLファイルに含まれるタグ情報に従って、前記HTMLファイルの指紋特徴値を取得し、
    前記各URLの指紋特徴値間の差分値が所定閾値を下回るか否かを比較し、
    もし前記所定閾値を下回ると前記各URLがクラスタリングできると判断するのに用いることを特徴とする請求項7ないし請求項9のいずれかに記載のウェブページのクラスタリング装置。
  11. 前記判断モジュールは、
    前記HTMLファイル中から各タグの属性値を抽出し、異なる属性が各自の属性を持つ重み値に対応し、
    各タグの前記HTMLファイル中における位置の異なりにより、各タグの位置重み値を確定し、
    各タグの位置重み値、各タグ中の異なる属性の属性値及び属性重み値に従って、前記HTMLファイルの指紋特徴値を得るのに用いることを特徴とする請求項10に記載のウェブページのクラスタリング装置。
  12. 前記判断モジュールは、前記HTMLファイル中の位置を先端、中部、末端に分割し、
    先端位置のタグの位置重みは中部位置のタグの位置重みより高く、末端位置のタグの位置重みは中部位置のタグの位置重みより高く、
    タグの属性はアイデンティティ属性、カテゴリ属性と非代表属性を含み、前記非代表属性はアイデンティティ属性とカテゴリ属性以外の属性であり、前記アイデンティティ属性の属性重み値は前記非代表属性の属性重み値より高く、前記カテゴリ属性の属性重み値は前記非代表属性の属性重み値より高いことを特徴とする請求項11に記載のウェブページのクラスタリング装置。
  13. コンピュータ読み取り可能な記憶媒体であって、コンピュータで実行可能な命令を記憶しており、前記コンピュータで実行可能な指令は前記コンピュータに請求項1ないし請求項6のいずれか1項に記載の方法を実行させるのに用いることを特徴とするコンピュータ読み取り可能な記憶媒体。
  14. プログラム指令を記憶するメモリと、
    前記メモリに記憶されたプログラム指令を呼び出し、取得したプログラムに基づいて、請求項1ないし請求項6のいずれか1項に記載の方法を実行するプロセッサとを備えることを特徴とするコンピュータ装置。
  15. コンピュータプログラム製品であって、コンピュータにおいて運行される際、コンピュータに請求項1ないし請求項6のいずれか1項に記載の方法を実行させることを特徴とするコンピュータプログラム製品。
JP2019528069A 2016-11-25 2017-11-24 ウェブページのクラスタリング方法及び装置 Active JP6827116B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201611068233.0 2016-11-25
CN201611068233.0A CN106708952B (zh) 2016-11-25 2016-11-25 一种网页聚类方法及装置
PCT/CN2017/112883 WO2018095411A1 (zh) 2016-11-25 2017-11-24 一种网页聚类方法及装置

Publications (2)

Publication Number Publication Date
JP2019536171A true JP2019536171A (ja) 2019-12-12
JP6827116B2 JP6827116B2 (ja) 2021-02-10

Family

ID=58935063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019528069A Active JP6827116B2 (ja) 2016-11-25 2017-11-24 ウェブページのクラスタリング方法及び装置

Country Status (4)

Country Link
US (1) US11023540B2 (ja)
JP (1) JP6827116B2 (ja)
CN (1) CN106708952B (ja)
WO (1) WO2018095411A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708952B (zh) * 2016-11-25 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置
CN107317892B (zh) * 2017-06-30 2020-08-07 北京知道创宇信息技术股份有限公司 一种网络地址的处理方法、计算设备及可读存储介质
CN109561163B (zh) * 2017-09-27 2022-03-15 阿里巴巴集团控股有限公司 统一资源定位符重写规则的生成方法及装置
US11570238B2 (en) * 2017-12-22 2023-01-31 Telefonaktiebolaget Lm Ericsson (Publ) System and method for predicting the state changes of network nodes
CN110717036B (zh) * 2018-07-11 2023-11-10 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备
CN109213912A (zh) * 2018-08-16 2019-01-15 北京神州泰岳软件股份有限公司 一种抓取网络数据的方法及网络数据抓取调度装置
CN109583211B (zh) * 2018-10-11 2023-03-07 创新先进技术有限公司 网站聚类及漏洞扫描方法、装置、电子设备及存储介质
CN110059272B (zh) * 2018-11-02 2023-08-15 创新先进技术有限公司 一种页面特征识别方法和装置
CN111611503B (zh) * 2020-05-27 2023-07-14 百度在线网络技术(北京)有限公司 页面的处理方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061490A1 (en) * 2001-09-26 2003-03-27 Abajian Aram Christian Method for identifying copyright infringement violations by fingerprint detection
US7680785B2 (en) * 2005-03-25 2010-03-16 Microsoft Corporation Systems and methods for inferring uniform resource locator (URL) normalization rules
US7565350B2 (en) 2006-06-19 2009-07-21 Microsoft Corporation Identifying a web page as belonging to a blog
US7962523B2 (en) * 2008-04-11 2011-06-14 Yahoo! Inc. System and method for detecting templates of a website using hyperlink analysis
US8429110B2 (en) * 2010-06-10 2013-04-23 Microsoft Corporation Pattern tree-based rule learning
CN103136212B (zh) * 2011-11-23 2016-09-07 北京百度网讯科技有限公司 一种类别新词的挖掘方法及装置
CN103631787B (zh) 2012-08-22 2019-01-11 腾讯科技(深圳)有限公司 网页类型识别方法以及网页类型识别装置
CN102902794B (zh) * 2012-09-29 2016-08-03 北京奇虎科技有限公司 网页分类系统及方法
CN102902790B (zh) * 2012-09-29 2017-06-06 北京奇虎科技有限公司 网页分类系统及方法
CN104699835B (zh) * 2015-03-31 2016-09-28 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
WO2017049045A1 (en) * 2015-09-16 2017-03-23 RiskIQ, Inc. Using hash signatures of dom objects to identify website similarity
CN106095979B (zh) * 2016-06-20 2020-05-08 百度在线网络技术(北京)有限公司 Url合并处理方法和装置
CN106708952B (zh) * 2016-11-25 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置

Also Published As

Publication number Publication date
US20190377765A1 (en) 2019-12-12
CN106708952B (zh) 2019-11-19
CN106708952A (zh) 2017-05-24
WO2018095411A1 (zh) 2018-05-31
JP6827116B2 (ja) 2021-02-10
US11023540B2 (en) 2021-06-01

Similar Documents

Publication Publication Date Title
JP6827116B2 (ja) ウェブページのクラスタリング方法及び装置
US8095546B1 (en) Book content item search
US20130339840A1 (en) System and method for logical chunking and restructuring websites
US11256912B2 (en) Electronic form identification using spatial information
US9563611B2 (en) Merging web page style addresses
WO2020253351A1 (zh) 一种点击劫持漏洞检测方法、装置及计算机设备
CN108536745B (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN103942211B (zh) 一种正文页的识别方法及装置
CN110909229A (zh) 一种基于模拟浏览器访问的网页数据获取和存储的系统
US9507693B2 (en) Method, device and computer-readable storage medium for closure testing
US11269959B2 (en) Categorically filtering search results
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112115266A (zh) 恶意网址的分类方法、装置、计算机设备和可读存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN116560661A (zh) 代码优化方法、装置、设备及存储介质
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
JP2024507029A (ja) ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム
CN104750692A (zh) 一种信息处理方法、信息检索方法及其对应的装置
CN113836899A (zh) 一种网页识别方法、装置及电子设备和存储介质
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
WO2014146445A1 (en) Method and system for managing webpage links in a browser
CN113434790B (zh) 重复链接的识别方法、装置及电子设备
US20240232348A9 (en) Method and apparatus for creating a dataset using file creation dates
US20240134977A1 (en) Method and apparatus for creating a dataset using file creation dates

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210118

R150 Certificate of patent or registration of utility model

Ref document number: 6827116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250