JP6749865B2

JP6749865B2 - 情報収集装置、および、情報収集方法

Info

Publication number: JP6749865B2
Application number: JP2017112629A
Authority: JP
Inventors: 一凡張; 三好　潤; 潤三好; 高明小山; 永渕　幸雄; 幸雄永渕; 博胡; 拓也佐伯; 泰大寺本; 弘樹長山; 翔平荒木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2020-09-02
Anticipated expiration: 2037-06-07
Also published as: JP2018206189A

Description

本発明は、情報収集装置、および、情報収集方法に関する。

マーケティングや技術動向、セキュリティ等の脅威動向等のウェブ上の情報のデータ解析を行う際に、解析対象となる情報を収集するため、クローリングシステムを用いることがある。このクローリングシステムは、指定されたルートページからのリンクをたどり、情報を収集するシステムである。このクローリングシステムにおいて、特定のキーワードに関連する情報を収集するため、ページ間の関連や、ページにおけるリンクの記載等を考慮する技術も提案されている。上記の技術を用いることで、例えば、「セキュリティ」というキーワードに関連の深いニュースやＳＮＳの書き込み等の情報を収集することができる。

Saloni Shah et al, "Focused and Deep Web Crawling-A Review", International Journal of Computer Science and Information Technologies, Vol. 5 (6) , 2014, pp.7488-7492 Web Crawling、［平成29年5月30日検索］、インターネット＜URL：http://www.cis.uni-muenchen.de/~yeong/Kurse/ss09/WebDataMining/kap8_rev.pdf＞

しかし、上記の技術は、事前に指定されたルートページに記載されたリンクをたどるものなので、指定したキーワードとの関連性の高い情報を幅広く収集できなかった。また、上記の技術は、リンク先に広告ページ等が設定されている場合、指定されたキーワードとの関連性の低い情報を収集してしまうことがあった。そこで、本発明は、前記した問題を解決し、キーワードとの関連性の高い情報を幅広く、かつ、精度よく収集することを課題とする。

前記した課題を解決するため、ＳＮＳ（Social Networking Service）を含むウェブページ群から、指定されたキーワードに関連するウェブページのＵＲＬを収集するＵＲＬ収集部と、前記収集されたＵＲＬのウェブページを収集するウェブページ収集部と、指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行う関連性判定部と、前記関連性判定部は、前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行うことを特徴とする。

本発明によれば、キーワードとの関連性の高い情報を幅広く、かつ、精度よく収集することができる。

図１は、情報収集装置の構成例を示すブロック図である。図２は、図１のＵＲＬ収集部を詳細に説明する図である。図３は、図１の関連性判定部を詳細に説明する図である。図４は、情報収集プログラムを実行するコンピュータを示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

本実施形態の情報収集装置１は、様々なウェブページを収集する。そして、情報収集装置１は、収集したウェブページについて指定されたキーワード（例えば、「セキュリティ」）と関連するか否かを、収集したウェブページのコンテキスト、リンク記載の文字列、メタ情報等に基づき判定する（関連性判定処理を行う）。ここでの判定には、機械学習の結果を用いる。その後、情報収集装置１は、指定されたキーワードと関連するウェブページのリンク先のウェブページを対象に、再度、上記の関連性判定処理を行う。これにより、情報収集装置１は、キーワードとの関連性のある情報を幅広く、かつ、精度よく収集することができる。

情報収集装置１は、図１に示すように、ＵＲＬ（Uniform Resource Locator）収集部１１と、ウェブページ収集部１２と、関連性判定部１３と、保管処理部１４と、情報保管部１５とを備える。破線で示す判定ロジック更新部１６は、装備される場合と装備されない場合とがあり、装備される場合については後記する。

ＵＲＬ収集部１１は、指定されたキーワードを含むウェブページのＵＲＬを収集する。例えば、ＵＲＬ収集部１１は、ユーザ指定のウェブサイトの他、ＳＮＳ（Social Networking Service）、ウェブニュース、サーチエンジン等からも、指定されたキーワードを含むウェブページを収集する。このＵＲＬ収集部１１の詳細は図２を用いて後記する。

ウェブページ収集部１２は、指定されたＵＲＬのウェブページにインターネット経由でアクセスし、当該ＵＲＬのウェブページを収集する。例えば、ウェブページ収集部１２は、ＵＲＬ収集部１１により収集されたＵＲＬのウェブページにアクセスし、当該ＵＲＬのウェブページを収集する。このウェブページ収集部１２は、例えば、クローラ等により実現される。

関連性判定部１３は、ウェブページ収集部１２により収集されたウェブページが、指定されたキーワードに関連するウェブページか否かを判定する。具体的には、関連性判定部１３は、ウェブページ収集部１２により収集されたウェブページについて、当該ウェブページのリンク記載に用いられる文字列、メタ情報、および、当該ウェブページのコンテキスト（本文）と、ウェブページの機械学習の結果とに基づき、収集されたウェブページが、指定されたキーワードに関連するウェブページか否かを判定する。この関連性判定部１３の詳細は、図３を用いて後記する。

保管処理部１４は、ウェブページ収集部１２により収集されたウェブページが、指定されたキーワードに関連するウェブページか否かの判定結果を情報保管部１５に保管する。具体的には、ウェブページ収集部１２により収集されたウェブページに、関連性判定部１３による当該ウェブページの判定結果（指定されたキーワードと関連するか否かの判定結果）を示すラベル情報を付与した情報を情報保管部１５に保管する。

情報保管部１５は、上記のラベル情報が付与されたウェブページの情報を記憶する。この情報保管部１５は、情報収集装置１の備える記憶装置により実現される。

なお、上記のウェブページ収集部１２は、情報保管部１５に記憶されるウェブページのうち、指定されたキーワードと関連する旨のラベル情報が付与されたウェブページにリンク先があれば、当該リンク先のウェブページを収集する。つまり、ウェブページ収集部１２は、ウェブページの再帰収集を行う。そして、関連性判定部１３は、収集されたリンク先のウェブページについて、指定されたキーワードに関連するウェブページか否かを判定する。

このように情報収集装置１は、ユーザ指定のウェブサイトの他、ＳＮＳ、ウェブニュース、サーチエンジン等、様々なウェブサイトから、指定されたキーワードを含むウェブページを収集する。また、情報収集装置１は、機械学習の結果を用いて、キーワードとの関連性の高い情報（ウェブページ）を収集する。したがって、情報収集装置１はキーワードとの関連性の高い情報を幅広く、かつ、精度よく収集することができる。

次に、図２を用いて、ＵＲＬ収集部１１を詳細に説明する。ＵＲＬ収集部１１は、例えば、ユーザ指定のウェブサイト、ＳＮＳ、ウェブニュース（ＲＳＳ）、サーチエンジン等から、指定されたキーワードを含むウェブページのＵＲＬを抽出する。なお、ＳＮＳでは短縮ＵＲＬが記載されることが多いため、該当するＳＮＳの記事のＵＲＬを取得するため、ＵＲＬ収集部１１は、短縮ＵＲＬのリダイレクト先のＵＲＬを取得する。

そして、ＵＲＬ収集部１１は、キーワードとの関連性判定済みのＵＲＬを機械学習等により学習し、判定モデル（ウェブページのＵＲＬ文字列により、当該ウェブページとキーワードとの関連性を判定するためのモデル）を作成する。例えば、ＵＲＬ収集部１１は、情報保管部１５の情報を用いた機械学習により、判定モデルを作成する。なお、ここでの機械学習は、例えば、ニューラルネットワークを用いる。

その後、ＵＲＬ収集部１１は、上記の判定モデルを用いて、ウェブページのＵＲＬ文字列から、指定されたキーワードと当該ウェブページとの関連性を判定する。例えば、ＵＲＬ収集部１１は、上記の判定モデルを用いて、ウェブページのＵＲＬ文字列から、指定されたキーワードと当該ウェブページとの関連度を算出し、算出した関連度が所定値以上であれば、当該ウェブページは、キーワードと関連性ありと判定する。そして、ＵＲＬ収集部１１は、キーワードとの関連性ありと判定したウェブページのＵＲＬをウェブページ収集部１２に出力する。

このように、ＵＲＬ収集部１１は、指定されたキーワードと関連する可能性の高いＵＲＬをウェブページ収集部１２に受け渡す。これにより、ウェブページ収集部１２は、指定されたキーワードと関連する可能性の高いウェブページに絞り込んだウェブページの収集を行うことができる。

なお、ＵＲＬ収集部１１は、上記の判定モデルの作成あたり、偏った学習データに基づき判定モデルを作成してしまうおそれもある。そこで、ＵＲＬ収集部１１は、キーワードとの関連性なしと判定したウェブページのＵＲＬであっても、所定の確率でウェブページ収集部１２に出力してもよい。

次に、図３を用いて、関連性判定部１３を詳細に説明する。

関連性判定部１３は、ウェブページ収集部１２により収集されたウェブページから各種情報（リンク記載、メタ情報、全ページコンテキスト情報）を抽出する。リンク記載は、例えば、当該ウェブページに記載されたリンクを示すテキスト（単語、文字列等）であり、メタ情報は、例えば、当該ウェブページのＵＲＬやタイトルである。全ページコンテキストは、例えば、ＨＴＭＬ、ＰＤＦ等のファイル形式を問わず、当該ウェブページに記載されているテキストである。

次に、関連性判定部１３は、リンク記載について単語による類似度算出を行い、リンク記載に関するキーワード類似度情報を作成する。つまり、関連性判定部１３は、リンクに記載される単語と、指定されたキーワードとの類似度を算出し、リンク記載に関するキーワード類似度情報を作成する。

例えば、関連性判定部１３は、リンクに記載される単語が、キーワードと意味が近い単語である場合、当該単語の類似度の値を０〜１とする。一方、関連性判定部１３は、リンクに記載される単語が、「詳細」等のキーワードと意味が近いか否かが不明な単語の場合、当該単語の類似度の値を「０．５」とする。また、関連性判定部１３は、リンクに記載される単語が、「ＰＲ」、「ＡＤ」等の宣伝リンクを示す単語の場合、当該単語の類似度の値を「０」とする。そして、関連性判定部１３は、これらの値からなる、リンク記載に関するキーワード類似度情報を作成する。

また、関連性判定部１３は、メタ情報についてＵＲＬ等による類似度算出を行い、メタ情報に関するキーワード類似度情報を作成する。つまり、関連性判定部１３は、ＵＲＬやタイトルに用いられる単語（文字列）を用いて、当該ＵＲＬやタイトルを持つウェブページと、指定されたキーワードとの関連性（類似度）を算出し、メタ情報に関するキーワード類似度情報を作成する。

例えば、関連性判定部１３は、事前学習により得られた類似度算出モデルを用いて、ウェブページのメタ情報（例えば、ＵＲＬやタイトル）に用いられる単語（文字列）から、当該ＵＲＬやタイトルが用いられるウェブページと、指定されたキーワードとの類似度を算出する。ここで、算出した類似度が所定値以上であれば、関連性判定部１３は、当該メタ情報の評価値を「１」とする。一方、算出した類似度が所定値未満であれば、関連性判定部１３は、当該メタ情報の評価値を「０」とする。そして、関連性判定部１３は、これらの値からなる、メタ情報に関するキーワード類似度情報を作成する。

また、全ページコンテキスト情報は、同じドメインの複数ページが含まれることがある。ここで、同じドメインのページ間でメニュー等の情報が重複することが多い。よって、関連性判定部１３は、同じドメインのページ間で重複する情報を削除し、差分となる情報を抽出することが好ましい。このため、関連性判定部１３は、例えば、Diff等を用いて全ページコンテキスト情報の差分を抽出する（コンテキスト差分抽出）。これにより、関連性判定部１３は、全ページコンテキスト情報から主な記事（主記事コンテキスト情報）を抽出することができる。

その後、関連性判定部１３は、主記事コンテキスト情報の解析を行い、主記事コンテキスト情報に対して関連性の高いキーワードを抽出する。例えば、関連性判定部１３は、主記事コンテキスト情報に対して、Doc2vec、Bag of words、TF-IDF、Word2vec等の意味解析や関連性解析処理を行い、主記事コンテキスト情報に対して関連性の高いキーワード（単語）を抽出する。つまり、関連性判定部１３は、主記事コンテキスト情報の要約となる単語群を抽出する。そして、関連性判定部１３は、抽出した各単語に対する、指定されたキーワードとの距離や類似度を算出する。なお、このとき関連性判定部１３は、最新の文章における単語の意味の学習結果から、上記の距離や類似度を補正するようにしてもよい。

次に、関連性判定部１３は、各種類似度情報（リンク記載に関するキーワード類似度情報、メタ情報に関するキーワード類似度情報、記事コンテキスト情報の単語に対する距離や類似度）に事前学習で算出した重みをかけ、収集されたウェブページと、指定されたキーワードとの類似度を算出し、関連性の有無を判定する。例えば、関連性判定部１３は、収集されたウェブページについて、算出された類似度が所定値以上であれば、当該ウェブページを関連性あり（関連性あり？→Ｙｅｓ）と判定し、算出された類似度が所定値未満であれば、当該ウェブページを関連性なし（関連性あり？→Ｎｏ）と判定する。なお、各種類似度情報に対する重みの事前学習は、例えば、情報保管部１５の情報を用いた機械学習により行われる。

関連性判定部１３は、収集された各ウェブページの判定結果を保管処理部１４に出力する。その後、保管処理部１４は、各ウェブページの情報に、上記の判定結果を示すラベル情報を付与して、情報保管部１５に保管する。

なお、上記のようにして情報保管部１５にウェブページの情報が保管されると、ウェブページ収集部１２は、関連性ありのラベル情報が付与されたウェブページの情報を参照し、当該ウェブページのリンク先のウェブページを取得する。そして、関連性判定部１３は、当該リンク先のウェブページについて、指定されたキーワードに関連するウェブページか否かを判定する。上記の処理を繰り返すことで、情報収集装置１は、キーワードとの関連性の高い情報（ウェブページ）を幅広く、かつ、精度よく収集することができる。

なお、情報収集装置１は、図１の破線で示す判定ロジック更新部１６をさらに備えてもよい。判定ロジック更新部１６は、情報収集装置１のユーザから、情報保管部１５に保管される各ウェブページのラベル情報の修正を受け付ける。そして、判定ロジック更新部１６は、ラベル情報が修正されたウェブページを用いて機械学習を行い、関連性判定部１３で用いる重み付け値を更新する。そして、関連性判定部１３は、更新された重み付け値を用いて、ウェブページ収集部１２により収集されたウェブページに対し、指定されたキーワードとの関連性判定処理を行う。

この判定ロジック更新部１６は、情報取得部１６１と、ラベル修正部１６２と、重み付け値更新部１６３とを備える。

情報取得部１６１は、情報保管部１５から各ウェブページの情報を取得する。ラベル修正部１６２は、ユーザから、ウェブページのラベル情報の修正を受け付ける。例えば、ラベル修正部１６２は、情報取得部１６１により取得された各ウェブページの情報（ラベル情報を含む）を画面上に表示する等して、ユーザから、当該ウェブページのラベル情報の修正を受け付ける。そして、ラベル修正部１６２は、情報管理部１５にラベル情報の修正を反映する。重み付け値更新部１６３は、ラベル情報の修正後の各ウェブページの情報を用いて機械学習を行い、関連性判定部１３で用いる重み付け値を更新する。そして、関連性判定部１３は更新された重み付け値を用いて、指定されたキーワードとウェブページとの関連性判定処理を行う。

情報収集装置１が上記のような判定ロジック更新部１６を備えることで、関連性判定部１３は、ウェブページが指定されたキーワードに関連するウェブページか否かをより精度よく判定することができる。

（プログラム）
また、上記の実施形態で述べた情報収集装置１の機能を実現する情報収集プログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される情報収集プログラムを情報処理装置に実行させることにより、情報処理装置を情報収集装置１として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）等がその範疇に含まれる。また、情報収集装置１を、クラウドサーバに実装してもよい。

図４を用いて、上記の情報収集プログラムを実行するコンピュータの一例を説明する。図４に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図４に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の情報収集プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１情報収集装置
１１ＵＲＬ収集部
１２ウェブページ収集部
１３関連性判定部
１４保管処理部
１５情報保管部
１６判定ロジック更新部

Claims

ＳＮＳ（Social Networking Service）を含むウェブページ群から、指定されたキーワードに関連するウェブページのＵＲＬを収集するＵＲＬ収集部と、
前記収集されたＵＲＬのウェブページを収集するウェブページ収集部と、
指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行う関連性判定部とを備え、
前記関連性判定部は、
前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行う
ことを特徴とする情報収集装置。
前記情報収集装置は、さらに、
前記指定されたキーワードと関連するウェブページのＵＲＬのＵＲＬ文字列の機械学習の結果を用いて、前記収集されたＵＲＬの文字列に基づき、前記収集されたＵＲＬのうち、前記指定されたキーワードとの関連度が所定値以上のウェブページのＵＲＬを選択するＵＲＬ選択部を備え、
前記ウェブページ収集部は、
前記選択されたＵＲＬのウェブページを収集する
ことを特徴とする請求項１に記載の情報収集装置。
前記関連性判定部は、
前記関連性判定処理を行う際、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに対し、前記指定されたキーワードと関連するウェブページの機械学習の結果を用いた重み付けを行った上で、前記収集されたウェブページと前記指定されたキーワードとの類似度を算出し、前記算出した類似度が所定値以上の場合、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページであると判定する
ことを特徴とする請求項１に記載の情報収集装置。
前記情報収集装置は、さらに、
前記ウェブページと、当該ウェブページが前記指定されたキーワードに関連するか否かを示すラベル情報とを対応付けた情報を記憶する記憶部と、
前記ウェブページのラベル情報の修正指示に基づき、前記記憶部における前記ウェブページのラベル情報を修正するラベル修正部と、
前記ラベル情報の修正後のウェブページに対し、機械学習を行うことにより、前記関連性判定部で用いる重み付けの値を更新する重み付け値更新部と
を備えることを特徴とする請求項３に記載の情報収集装置。
ＳＮＳ（Social Networking Service）を含むウェブページ群から、指定されたキーワードに関連するウェブページのＵＲＬを収集するＵＲＬを収集するステップと、
前記収集されたＵＲＬのウェブページを収集するステップと、
指定されたキーワードと関連するウェブページの機械学習の結果を用いて、前記収集されたウェブページのリンク記載に用いられる文字列、メタ情報、および、前記ウェブページのコンテキストに基づき、前記収集されたウェブページが、前記指定されたキーワードに関連するウェブページか否かを判定する関連性判定処理を行うステップと、
前記指定されたキーワードと関連すると判定されたウェブページのリンク先のウェブページに対して、前記関連性判定処理を行うステップと
を情報収集装置が実行することを特徴とする情報収集方法。