JP6749865B2 - 情報収集装置、および、情報収集方法 - Google Patents

情報収集装置、および、情報収集方法 Download PDF

Info

Publication number
JP6749865B2
JP6749865B2 JP2017112629A JP2017112629A JP6749865B2 JP 6749865 B2 JP6749865 B2 JP 6749865B2 JP 2017112629 A JP2017112629 A JP 2017112629A JP 2017112629 A JP2017112629 A JP 2017112629A JP 6749865 B2 JP6749865 B2 JP 6749865B2
Authority
JP
Japan
Prior art keywords
web page
information
keyword
collected
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017112629A
Other languages
English (en)
Other versions
JP2018206189A (ja
Inventor
一凡 張
一凡 張
三好 潤
潤 三好
高明 小山
高明 小山
永渕 幸雄
幸雄 永渕
博 胡
博 胡
拓也 佐伯
拓也 佐伯
泰大 寺本
泰大 寺本
弘樹 長山
弘樹 長山
翔平 荒木
翔平 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017112629A priority Critical patent/JP6749865B2/ja
Publication of JP2018206189A publication Critical patent/JP2018206189A/ja
Application granted granted Critical
Publication of JP6749865B2 publication Critical patent/JP6749865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報収集装置、および、情報収集方法に関する。
マーケティングや技術動向、セキュリティ等の脅威動向等のウェブ上の情報のデータ解析を行う際に、解析対象となる情報を収集するため、クローリングシステムを用いることがある。このクローリングシステムは、指定されたルートページからのリンクをたどり、情報を収集するシステムである。このクローリングシステムにおいて、特定のキーワードに関連する情報を収集するため、ページ間の関連や、ページにおけるリンクの記載等を考慮する技術も提案されている。上記の技術を用いることで、例えば、「セキュリティ」というキーワードに関連の深いニュースやSNSの書き込み等の情報を収集することができる。
Saloni Shah et al, "Focused and Deep Web Crawling-A Review", International Journal of Computer Science and Information Technologies, Vol. 5 (6) , 2014, pp.7488-7492 Web Crawling、[平成29年5月30日検索]、インターネット<URL:http://www.cis.uni-muenchen.de/~yeong/Kurse/ss09/WebDataMining/kap8_rev.pdf>
しかし、上記の技術は、事前に指定されたルートページに記載されたリンクをたどるものなので、指定したキーワードとの関連性の高い情報を幅広く収集できなかった。また、上記の技術は、リンク先に広告ページ等が設定されている場合、指定されたキーワードとの関連性の低い情報を収集してしまうことがあった。そこで、本発明は、前記した問題を解決し、キーワードとの関連性の高い情報を幅広く、かつ、精度よく収集することを課題とする。
前記した課題を解決するため、SNS(Social Networking Service)を含むウェブページ群から、指定されたキーワードに関連するウェブページのURLを収集するURL収集部と、前記収集されたURLのウェブページを収集するウェブページ収集部と、指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行う関連性判定部と、前記関連性判定部は、前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行うことを特徴とする。
本発明によれば、キーワードとの関連性の高い情報を幅広く、かつ、精度よく収集することができる。
図1は、情報収集装置の構成例を示すブロック図である。 図2は、図1のURL収集部を詳細に説明する図である。 図3は、図1の関連性判定部を詳細に説明する図である。 図4は、情報収集プログラムを実行するコンピュータを示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
本実施形態の情報収集装置1は、様々なウェブページを収集する。そして、情報収集装置1は、収集したウェブページについて指定されたキーワード(例えば、「セキュリティ」)と関連するか否かを、収集したウェブページのコンテキスト、リンク記載の文字列、メタ情報等に基づき判定する(関連性判定処理を行う)。ここでの判定には、機械学習の結果を用いる。その後、情報収集装置1は、指定されたキーワードと関連するウェブページのリンク先のウェブページを対象に、再度、上記の関連性判定処理を行う。これにより、情報収集装置1は、キーワードとの関連性のある情報を幅広く、かつ、精度よく収集することができる。
情報収集装置1は、図1に示すように、URL(Uniform Resource Locator)収集部11と、ウェブページ収集部12と、関連性判定部13と、保管処理部14と、情報保管部15とを備える。破線で示す判定ロジック更新部16は、装備される場合と装備されない場合とがあり、装備される場合については後記する。
URL収集部11は、指定されたキーワードを含むウェブページのURLを収集する。例えば、URL収集部11は、ユーザ指定のウェブサイトの他、SNS(Social Networking Service)、ウェブニュース、サーチエンジン等からも、指定されたキーワードを含むウェブページを収集する。このURL収集部11の詳細は図2を用いて後記する。
ウェブページ収集部12は、指定されたURLのウェブページにインターネット経由でアクセスし、当該URLのウェブページを収集する。例えば、ウェブページ収集部12は、URL収集部11により収集されたURLのウェブページにアクセスし、当該URLのウェブページを収集する。このウェブページ収集部12は、例えば、クローラ等により実現される。
関連性判定部13は、ウェブページ収集部12により収集されたウェブページが、指定されたキーワードに関連するウェブページか否かを判定する。具体的には、関連性判定部13は、ウェブページ収集部12により収集されたウェブページについて、当該ウェブページのリンク記載に用いられる文字列、メタ情報、および、当該ウェブページのコンテキスト(本文)と、ウェブページの機械学習の結果とに基づき、収集されたウェブページが、指定されたキーワードに関連するウェブページか否かを判定する。この関連性判定部13の詳細は、図3を用いて後記する。
保管処理部14は、ウェブページ収集部12により収集されたウェブページが、指定されたキーワードに関連するウェブページか否かの判定結果を情報保管部15に保管する。具体的には、ウェブページ収集部12により収集されたウェブページに、関連性判定部13による当該ウェブページの判定結果(指定されたキーワードと関連するか否かの判定結果)を示すラベル情報を付与した情報を情報保管部15に保管する。
情報保管部15は、上記のラベル情報が付与されたウェブページの情報を記憶する。この情報保管部15は、情報収集装置1の備える記憶装置により実現される。
なお、上記のウェブページ収集部12は、情報保管部15に記憶されるウェブページのうち、指定されたキーワードと関連する旨のラベル情報が付与されたウェブページにリンク先があれば、当該リンク先のウェブページを収集する。つまり、ウェブページ収集部12は、ウェブページの再帰収集を行う。そして、関連性判定部13は、収集されたリンク先のウェブページについて、指定されたキーワードに関連するウェブページか否かを判定する。
このように情報収集装置1は、ユーザ指定のウェブサイトの他、SNS、ウェブニュース、サーチエンジン等、様々なウェブサイトから、指定されたキーワードを含むウェブページを収集する。また、情報収集装置1は、機械学習の結果を用いて、キーワードとの関連性の高い情報(ウェブページ)を収集する。したがって、情報収集装置1はキーワードとの関連性の高い情報を幅広く、かつ、精度よく収集することができる。
次に、図2を用いて、URL収集部11を詳細に説明する。URL収集部11は、例えば、ユーザ指定のウェブサイト、SNS、ウェブニュース(RSS)、サーチエンジン等から、指定されたキーワードを含むウェブページのURLを抽出する。なお、SNSでは短縮URLが記載されることが多いため、該当するSNSの記事のURLを取得するため、URL収集部11は、短縮URLのリダイレクト先のURLを取得する。
そして、URL収集部11は、キーワードとの関連性判定済みのURLを機械学習等により学習し、判定モデル(ウェブページのURL文字列により、当該ウェブページとキーワードとの関連性を判定するためのモデル)を作成する。例えば、URL収集部11は、情報保管部15の情報を用いた機械学習により、判定モデルを作成する。なお、ここでの機械学習は、例えば、ニューラルネットワークを用いる。
その後、URL収集部11は、上記の判定モデルを用いて、ウェブページのURL文字列から、指定されたキーワードと当該ウェブページとの関連性を判定する。例えば、URL収集部11は、上記の判定モデルを用いて、ウェブページのURL文字列から、指定されたキーワードと当該ウェブページとの関連度を算出し、算出した関連度が所定値以上であれば、当該ウェブページは、キーワードと関連性ありと判定する。そして、URL収集部11は、キーワードとの関連性ありと判定したウェブページのURLをウェブページ収集部12に出力する。
このように、URL収集部11は、指定されたキーワードと関連する可能性の高いURLをウェブページ収集部12に受け渡す。これにより、ウェブページ収集部12は、指定されたキーワードと関連する可能性の高いウェブページに絞り込んだウェブページの収集を行うことができる。
なお、URL収集部11は、上記の判定モデルの作成あたり、偏った学習データに基づき判定モデルを作成してしまうおそれもある。そこで、URL収集部11は、キーワードとの関連性なしと判定したウェブページのURLであっても、所定の確率でウェブページ収集部12に出力してもよい。
次に、図3を用いて、関連性判定部13を詳細に説明する。
関連性判定部13は、ウェブページ収集部12により収集されたウェブページから各種情報(リンク記載、メタ情報、全ページコンテキスト情報)を抽出する。リンク記載は、例えば、当該ウェブページに記載されたリンクを示すテキスト(単語、文字列等)であり、メタ情報は、例えば、当該ウェブページのURLやタイトルである。全ページコンテキストは、例えば、HTML、PDF等のファイル形式を問わず、当該ウェブページに記載されているテキストである。
次に、関連性判定部13は、リンク記載について単語による類似度算出を行い、リンク記載に関するキーワード類似度情報を作成する。つまり、関連性判定部13は、リンクに記載される単語と、指定されたキーワードとの類似度を算出し、リンク記載に関するキーワード類似度情報を作成する。
例えば、関連性判定部13は、リンクに記載される単語が、キーワードと意味が近い単語である場合、当該単語の類似度の値を0〜1とする。一方、関連性判定部13は、リンクに記載される単語が、「詳細」等のキーワードと意味が近いか否かが不明な単語の場合、当該単語の類似度の値を「0.5」とする。また、関連性判定部13は、リンクに記載される単語が、「PR」、「AD」等の宣伝リンクを示す単語の場合、当該単語の類似度の値を「0」とする。そして、関連性判定部13は、これらの値からなる、リンク記載に関するキーワード類似度情報を作成する。
また、関連性判定部13は、メタ情報についてURL等による類似度算出を行い、メタ情報に関するキーワード類似度情報を作成する。つまり、関連性判定部13は、URLやタイトルに用いられる単語(文字列)を用いて、当該URLやタイトルを持つウェブページと、指定されたキーワードとの関連性(類似度)を算出し、メタ情報に関するキーワード類似度情報を作成する。
例えば、関連性判定部13は、事前学習により得られた類似度算出モデルを用いて、ウェブページのメタ情報(例えば、URLやタイトル)に用いられる単語(文字列)から、当該URLやタイトルが用いられるウェブページと、指定されたキーワードとの類似度を算出する。ここで、算出した類似度が所定値以上であれば、関連性判定部13は、当該メタ情報の評価値を「1」とする。一方、算出した類似度が所定値未満であれば、関連性判定部13は、当該メタ情報の評価値を「0」とする。そして、関連性判定部13は、これらの値からなる、メタ情報に関するキーワード類似度情報を作成する。
また、全ページコンテキスト情報は、同じドメインの複数ページが含まれることがある。ここで、同じドメインのページ間でメニュー等の情報が重複することが多い。よって、関連性判定部13は、同じドメインのページ間で重複する情報を削除し、差分となる情報を抽出することが好ましい。このため、関連性判定部13は、例えば、Diff等を用いて全ページコンテキスト情報の差分を抽出する(コンテキスト差分抽出)。これにより、関連性判定部13は、全ページコンテキスト情報から主な記事(主記事コンテキスト情報)を抽出することができる。
その後、関連性判定部13は、主記事コンテキスト情報の解析を行い、主記事コンテキスト情報に対して関連性の高いキーワードを抽出する。例えば、関連性判定部13は、主記事コンテキスト情報に対して、Doc2vec、Bag of words、TF-IDF、Word2vec等の意味解析や関連性解析処理を行い、主記事コンテキスト情報に対して関連性の高いキーワード(単語)を抽出する。つまり、関連性判定部13は、主記事コンテキスト情報の要約となる単語群を抽出する。そして、関連性判定部13は、抽出した各単語に対する、指定されたキーワードとの距離や類似度を算出する。なお、このとき関連性判定部13は、最新の文章における単語の意味の学習結果から、上記の距離や類似度を補正するようにしてもよい。
次に、関連性判定部13は、各種類似度情報(リンク記載に関するキーワード類似度情報、メタ情報に関するキーワード類似度情報、記事コンテキスト情報の単語に対する距離や類似度)に事前学習で算出した重みをかけ、収集されたウェブページと、指定されたキーワードとの類似度を算出し、関連性の有無を判定する。例えば、関連性判定部13は、収集されたウェブページについて、算出された類似度が所定値以上であれば、当該ウェブページを関連性あり(関連性あり?→Yes)と判定し、算出された類似度が所定値未満であれば、当該ウェブページを関連性なし(関連性あり?→No)と判定する。なお、各種類似度情報に対する重みの事前学習は、例えば、情報保管部15の情報を用いた機械学習により行われる。
関連性判定部13は、収集された各ウェブページの判定結果を保管処理部14に出力する。その後、保管処理部14は、各ウェブページの情報に、上記の判定結果を示すラベル情報を付与して、情報保管部15に保管する。
なお、上記のようにして情報保管部15にウェブページの情報が保管されると、ウェブページ収集部12は、関連性ありのラベル情報が付与されたウェブページの情報を参照し、当該ウェブページのリンク先のウェブページを取得する。そして、関連性判定部13は、当該リンク先のウェブページについて、指定されたキーワードに関連するウェブページか否かを判定する。上記の処理を繰り返すことで、情報収集装置1は、キーワードとの関連性の高い情報(ウェブページ)を幅広く、かつ、精度よく収集することができる。
なお、情報収集装置1は、図1の破線で示す判定ロジック更新部16をさらに備えてもよい。判定ロジック更新部16は、情報収集装置1のユーザから、情報保管部15に保管される各ウェブページのラベル情報の修正を受け付ける。そして、判定ロジック更新部16は、ラベル情報が修正されたウェブページを用いて機械学習を行い、関連性判定部13で用いる重み付け値を更新する。そして、関連性判定部13は、更新された重み付け値を用いて、ウェブページ収集部12により収集されたウェブページに対し、指定されたキーワードとの関連性判定処理を行う。
この判定ロジック更新部16は、情報取得部161と、ラベル修正部162と、重み付け値更新部163とを備える。
情報取得部161は、情報保管部15から各ウェブページの情報を取得する。ラベル修正部162は、ユーザから、ウェブページのラベル情報の修正を受け付ける。例えば、ラベル修正部162は、情報取得部161により取得された各ウェブページの情報(ラベル情報を含む)を画面上に表示する等して、ユーザから、当該ウェブページのラベル情報の修正を受け付ける。そして、ラベル修正部162は、情報管理部15にラベル情報の修正を反映する。重み付け値更新部163は、ラベル情報の修正後の各ウェブページの情報を用いて機械学習を行い、関連性判定部13で用いる重み付け値を更新する。そして、関連性判定部13は更新された重み付け値を用いて、指定されたキーワードとウェブページとの関連性判定処理を行う。
情報収集装置1が上記のような判定ロジック更新部16を備えることで、関連性判定部13は、ウェブページが指定されたキーワードに関連するウェブページか否かをより精度よく判定することができる。
(プログラム)
また、上記の実施形態で述べた情報収集装置1の機能を実現する情報収集プログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される情報収集プログラムを情報処理装置に実行させることにより、情報処理装置を情報収集装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、情報収集装置1を、クラウドサーバに実装してもよい。
図4を用いて、上記の情報収集プログラムを実行するコンピュータの一例を説明する。図4に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図4に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、上記の情報収集プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
1 情報収集装置
11 URL収集部
12 ウェブページ収集部
13 関連性判定部
14 保管処理部
15 情報保管部
16 判定ロジック更新部

Claims (5)

  1. SNS(Social Networking Service)を含むウェブページ群から、指定されたキーワードに関連するウェブページのURLを収集するURL収集部と、
    前記収集されたURLのウェブページを収集するウェブページ収集部と、
    指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行う関連性判定部とを備え、
    前記関連性判定部は、
    前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行う
    ことを特徴とする情報収集装置。
  2. 前記情報収集装置は、さらに、
    前記指定されたキーワードと関連するウェブページのURLのURL文字列の機械学習の結果を用いて、前記収集されたURLの文字列に基づき、前記収集されたURLのうち、前記指定されたキーワードとの関連度が所定値以上のウェブページのURLを選択するURL選択部を備え、
    前記ウェブページ収集部は、
    前記選択されたURLのウェブページを収集する
    ことを特徴とする請求項1に記載の情報収集装置。
  3. 前記関連性判定部は、
    前記関連性判定処理を行う際、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに対し、前記指定されたキーワードと関連するウェブページの機械学習の結果を用いた重み付けを行った上で、前記収集されたウェブページと前記指定されたキーワードとの類似度を算出し、前記算出した類似度が所定値以上の場合、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページであると判定する
    ことを特徴とする請求項1に記載の情報収集装置。
  4. 前記情報収集装置は、さらに、
    前記ウェブページと、当該ウェブページが前記指定されたキーワードに関連するか否かを示すラベル情報とを対応付けた情報を記憶する記憶部と、
    前記ウェブページのラベル情報の修正指示に基づき、前記記憶部における前記ウェブページのラベル情報を修正するラベル修正部と、
    前記ラベル情報の修正後のウェブページに対し、機械学習を行うことにより、前記関連性判定部で用いる重み付けの値を更新する重み付け値更新部と
    を備えることを特徴とする請求項3に記載の情報収集装置。
  5. SNS(Social Networking Service)を含むウェブページ群から、指定されたキーワードに関連するウェブページのURLを収集するURLを収集するステップと、
    前記収集されたURLのウェブページを収集するステップと、
    指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行うステップと、
    前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行うステップと
    を情報収集装置が実行することを特徴とする情報収集方法。
JP2017112629A 2017-06-07 2017-06-07 情報収集装置、および、情報収集方法 Active JP6749865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017112629A JP6749865B2 (ja) 2017-06-07 2017-06-07 情報収集装置、および、情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017112629A JP6749865B2 (ja) 2017-06-07 2017-06-07 情報収集装置、および、情報収集方法

Publications (2)

Publication Number Publication Date
JP2018206189A JP2018206189A (ja) 2018-12-27
JP6749865B2 true JP6749865B2 (ja) 2020-09-02

Family

ID=64958033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017112629A Active JP6749865B2 (ja) 2017-06-07 2017-06-07 情報収集装置、および、情報収集方法

Country Status (1)

Country Link
JP (1) JP6749865B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374334B (zh) * 2022-10-26 2023-01-06 墨责(北京)科技传播有限公司 基于机器学习的网页采集页面的正文页采集方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346598A (ja) * 2004-06-07 2005-12-15 Sangaku Renkei Kiko Kyushu:Kk ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
CN101399818B (zh) * 2007-09-25 2012-08-29 日电(中国)有限公司 基于导航路径信息的主题相关网页过滤方法和系统

Also Published As

Publication number Publication date
JP2018206189A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
US10110658B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
US8799310B2 (en) Method and system for processing a uniform resource locator
KR101315554B1 (ko) 웹 페이지에 키워드를 할당하기 위한 방법 및 장치
US8595204B2 (en) Spam score propagation for web spam detection
CN106844640B (zh) 一种网页数据分析处理方法
JP2017010514A (ja) 検索エンジン及びその実現方法
JP6827116B2 (ja) ウェブページのクラスタリング方法及び装置
US20160140344A1 (en) Security information management system and security information management method
US20090083266A1 (en) Techniques for tokenizing urls
CN102737021B (zh) 搜索引擎及其实现方法
CN110069693B (zh) 用于确定目标页面的方法和装置
US11431749B2 (en) Method and computing device for generating indication of malicious web resources
JP2015144011A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
US20220035870A1 (en) Seed expansion in social network using graph neural network
US9336316B2 (en) Image URL-based junk detection
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
WO2023192130A1 (en) Artificial intelligence engine for generating semantic directions for websites for entity targeting
Moumtzidou et al. Discovery of environmental nodes in the web
KR20200119534A (ko) 유해 콘텐츠 웹 페이지 url 필터링 장치
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
JP4959032B1 (ja) ウェブページ解析装置およびウェブページ解析用プログラム
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
CN104063491B (zh) 一种检测页面篡改的方法及装置
JP2011248500A (ja) Webページ収集装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200812

R150 Certificate of patent or registration of utility model

Ref document number: 6749865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150