JP2019003406A

JP2019003406A - 情報収集装置、情報収集方法、および情報収集プログラム

Info

Publication number: JP2019003406A
Application number: JP2017117613A
Authority: JP
Inventors: 慶造秋山; Keizo Akiyama; 聡大谷; Satoshi Otani
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2019-01-10

Abstract

【課題】情報収集の効率化を図ること。【解決手段】情報収集装置１０１は、記憶デバイス２０２に、文書群の各文書の特徴ベクトルに基づく学習モデルＬＭと、単語情報ＤＢ１１２と、を記憶し、文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末１０２から受信し、学習モデルＬＭを用いて、文書群のうち特定の文書から、文書群の特徴を示す単語である特徴語を抽出し、フィードバック情報に基づいて、単語情報ＤＢ１１２における特徴語の単語有用性４０４または単語非有用性４０５を更新して、更新後の特徴語の単語有用性４０４または単語非有用性４０５を用いて、特徴語の単語スコア４０３を算出し、算出後の単語情報ＤＢ１１２における単語スコア４０３に基づいて、検索キーワードとなる単語を単語情報ＤＢ１１２から選択する。【選択図】図６

Description

本発明は、情報を収集する情報収集装置、情報収集方法、および情報収集プログラムに関する。

コンピュータの普及により様々な業種の日常業務において作成される業務文書や、インターネット上のＷｅｂサイトなどを含めた膨大な電子文書を取り扱うことが多くなっている。さらに、これらの文書の保管場所は様々なサーバー上に分散しており、再活用する場合にも、保管場所やアクセス先の把握が大変困難な状態となる。

その解決策として、プログラムが機械的にサーバーやコンピュータから情報を収集（クローリング）し、検索や一覧表示を行えるようにすることで、分散した情報でもまとめて確認することが可能になっている。

クローリング時には、収集したいファイルパスやＷｅｂサイトのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）、キーワード等を設定し、指定した階層分のリンクを辿り、情報収集をする手法がある。また、それらのクローリングした情報提示時には、ＵＲＬ順、情報収集順、情報の作成日順でソートして提示することが可能である。

従来、類似文書を探す場合には、関連するキーワードとマッチした文書を「類似」とみなして探すことが可能だが、キーワード選定が適切ではない場合は文書を探し出せないことがある。上記の解決策として文書全体（および単語）をベクトル表現に置き換えることが可能なＤｏｃ２Ｖｅｃという技術が用いられる（非特許文献１を参照）。Ｄｏｃ２Ｖｅｃは、文書（および単語）をベクトル表現に置き換え、そのベクトル同士を計算することで文書の類似度を数値化する。数値化した結果をソートすることで、類似文書を探すことが可能になる。また、下記特許文献１は、テキストの類似度を求めての文書検索を行う検索システムを開示する。

特開２００４-３３４３３４号公報

Le and Mikolov, "Distributed Representations of Sentences and Documents", Proceedings of the 31st International Conference on Machine Learning, Beijing, China, 2014.

Ｗｅｂサイトやファイルサーバーなどから情報収集を行う場合、上記のクローリング等の手法で機械的に電子ファイルを辿り多方面、大量に情報収集することが可能である。ただし、情報収集自体は機械的に行えるが、ユーザが収集された情報を確認しようとすると、情報が大量であるため確認が困難となってしまうことが発生する。これは、収集する範囲を減らす（例：クローリングする階層を制限する）、表示する情報を減らす（例：新しい情報のみを表示する）などの、ルールに沿って絞り込むことでユーザの負担を軽減することが可能である。しかしながら、上記のような従来方法による絞込を行った場合、あくまでもルールに沿った絞込のため、ユーザが求めている情報を収集し、提示できないことが発生しうる。

本発明は、情報収集の効率化を図ることを目的とする。

本願において開示される発明の一側面となる情報収集装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、ネットワークに接続される通信インタフェースと、を有する情報収集装置であって、前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、前記プロセッサは、前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、情報収集の効率化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、情報収集システムのシステム構成例を示す説明図である。図２は、コンピュータのハードウェア構成例を示すブロック図である。図３は、文書情報ＤＢの記憶内容例を示す説明図である。図４は、単語情報ＤＢの記憶内容例を示す説明図である。図５は、ＵＲＬ情報ＤＢの記憶内容を示す説明図である。図６は、情報収集装置の機能的構成例を示すブロック図である。図７は、情報収集処理装置による情報収集処理手順例１を示すフローチャートである。図８は、情報収集処理装置による情報収集処理手順例２を示すフローチャートである。図９は、学習モデルの学習処理手順例を示すフローチャートである。図１０は、情報閲覧シーケンス例を示すシーケンス図である。図１１は、図１０に示したスコアリング処理（ステップＳ１００９）の詳細な処理手順例を示すフローチャートである。

＜システム構成例＞
図１は、情報収集システムのシステム構成例を示す説明図である。情報収集システム１００は、情報収集装置１０１と、１以上の端末１０２と、を有する。情報収集装置１０１と端末１０２は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク１０３により相互に通信可能に接続される。情報収集装置１０１は、文書情報ＤＢ（データベース）１１１と、単語情報ＤＢ１１２と、ＵＲＬ情報ＤＢ１１３と、を有する。文書情報ＤＢ１１１、単語情報ＤＢ１１２、およびＵＲＬ情報ＤＢ１１３は、情報収集装置１０１がネットワーク１０３を介してアクセス可能な情報収集装置１０１外の他の装置が有してもよい。情報収集装置１０１は、ネットワーク１０３から情報をクローリングして、端末１０２に提供する。端末１０２は、提供された情報について情報収集装置１０１にフィードバックする。

＜コンピュータのハードウェア構成例＞
図２は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ（情報収集装置１０１または端末１０２）２００は、プロセッサ２０１と、記憶デバイス２０２と、入力デバイス２０３と、出力デバイス２０４と、通信インタフェース（通信ＩＦ）２０５と、を有する。プロセッサ２０１、記憶デバイス２０２、入力デバイス２０３、出力デバイス２０４、および通信ＩＦ２０５は、バス２０６により接続される。プロセッサ２０１は、コンピュータ２００を制御する。記憶デバイス２０２は、プロセッサ２０１の作業エリアとなる。また、記憶デバイス２０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス２０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス２０３は、データを入力する。入力デバイス２０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス２０４は、データを出力する。出力デバイス２０４としては、たとえば、ディスプレイ、プリンタがある。通信ＩＦ２０５は、ネットワーク１０３と接続し、データを送受信する。

＜ＤＢの記憶内容例＞
つぎに、図１に示した文書情報ＤＢ１１１、単語情報ＤＢ１１２、およびＵＲＬ情報ＤＢ１１３について説明する。文書情報ＤＢ１１１、単語情報ＤＢ１１２、およびＵＲＬ情報ＤＢ１１３は、具体的には、たとえば、図２に示した記憶デバイス２０２に記憶される。なお、当該ＤＢの説明において、ＡＡフィールドｂｂｂ（ＡＡはフィールド名、ｂｂｂは符号）の値を、ＡＡｂｂｂと表記する場合がある。たとえば、文書ＩＤフィールド３０１の値を、文書ＩＤ３０１と表記する。

図３は、文書情報ＤＢ１１１の記憶内容例を示す説明図である。文書情報ＤＢ１１１は、クローリングにより収集した文書に関する情報（文書情報）を管理するＤＢである。文書情報ＤＢ１１１は、文書ＩＤフィールド３０１と、文書内容フィールド３０２と、文書スコアフィールド３０３と、文書有用性フィールド３０４と、文書非有用性フィールド３０５と、閲覧回数フィールド３０６と、を有する。各フィールドの値の組み合わせにより、文書を特定する文書情報を示すエントリが構成される。文書とは、文章を構成する文字列が記述されたデータであり、たとえば、文書ファイルやＷｅｂページが該当する。

文書ＩＤフィールド３０１は、文書ＩＤを格納する記憶領域である。文書ＩＤ３０１は、文書を一意に特定する識別情報である。文書内容フィールド３０２は、文書内容を格納する記憶領域である。文書内容３０２は、文書に含まれる文字列である。文書スコアフィールド３０３は、文書スコアを格納する記憶領域である。文書スコア３０３は、文書の有用性を示す指標値である。文書有用性フィールド３０４は、文書有用性を格納する記憶領域である。文書有用性３０４は、文書について有用であると判断された計数値である。文書非有用性フィールド３０５は、文書非有用性を格納する記憶領域である。文書非有用性３０５は、文書について有用でないと判断された計数値である。

閲覧回数フィールド３０６は、閲覧回数を格納する記憶領域である。閲覧回数３０６は、その文書を端末１０２が閲覧した回数である。たとえば、端末１０２が閲覧リスト内の文書をファイルオープンまたはそのＷｅｂページにアクセスした場合に、閲覧情報として情報収集装置１０１に返すことで、情報収集装置１０１は、当該文書の閲覧回数３０５を更新する。

図４は、単語情報ＤＢ１１２の記憶内容例を示す説明図である。単語情報ＤＢ１１２は、クローリングにより収集した文書内の単語に関する情報（単語情報）を管理するＤＢである。単語情報ＤＢ１１２は、単語ＩＤフィールド４０１と、単語フィールド４０２と、単語スコアフィールド４０３と、単語有用性フィールド４０４と、単語非有用性フィールド４０５と、を有する。各フィールドの値の組み合わせにより、単語を特定する単語情報を示すエントリが構成される。

単語ＩＤフィールド４０１は、単語ＩＤを格納する記憶領域である。単語ＩＤ４０１は、単語を一意に特定する識別情報である。単語フィールド４０２は、単語を格納する記憶領域である。単語４０２は、非特許文献１に示したＤｏｃ２Ｖｅｃにより文書から抽出された特徴語である。単語スコアフィールド４０３は、単語スコアを格納する記憶領域である。単語スコア４０３は、単語４０２の有用性を示す指標値である。単語有用性フィールド４０４は、単語有用性を格納する記憶領域である。単語有用性４０４は、単語４０３について有用であると判断された計数値である。単語非有用性フィールド４０５は、単語非有用性を格納する記憶領域である。単語非有用性４０５は、単語４０２について有用でないと判断された計数値である。

図５は、ＵＲＬ情報ＤＢ１１３の記憶内容を示す説明図である。ＵＲＬ情報ＤＢ１１３は、クローリングにより収集した文書が存在するＷｅｂサイトのＵＲＬに関する情報（ＵＲＬ情報）を管理するＤＢである。ＵＲＬ情報ＤＢ１１３は、ＵＲＬＩＤフィールド５０１と、ＵＲＬフィールド５０２と、文書ＩＤフィールド３０１と、を有する。各フィールドの値の組み合わせにより、ＵＲＬを特定するＵＲＬ情報を示すエントリが構成される。

ＵＲＬＩＤフィールド５０１は、ＵＲＬＩＤを格納する記憶領域である。ＵＲＬＩＤ５０１は、ＵＲＬを一意に特定する識別情報である。ＵＲＬフィールド５０２は、ＵＲＬを格納する記憶領域である。文書ＩＤフィールド３０１は、ＵＲＬ５０２に存在する文書の文書ＩＤ３０１を格納する記憶領域である。

なお、ユーザから指定された文書（文書内容３０２）、単語４０２、ＵＲＬ５０２が、文書情報ＤＢ１１１、単語情報ＤＢ１１２、およびＵＲＬ情報ＤＢ１１３に登録されてもよい。

＜情報収集装置１０１の機能的構成例＞
図６は、情報収集装置１０１の機能的構成例を示すブロック図である。情報収集装置１０１は、受信部６０１と、抽出部６０２と、算出部６０３と、選択部６０４と、調整部６０５と、収集部６０６と、送信部６０７と、生成部６０８と、更新部６０９と、を有する。受信部６０１〜更新部６０９は、具体的には、たとえば、図２に示した記憶デバイス２０２に記憶されたプログラムをプロセッサ２０１に実行させることにより、または、通信ＩＦ２０５により、実現される機能である。

受信部６０１は、文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末１０２から受信する。特定の文書は、たとえば、情報収集装置１０１が端末１０２に提供した閲覧リスト内の文書群のうち、端末１０２のユーザが閲覧した文書である。フィードバック情報とは、特定の文書の文書有用性または文書非有用性を示す情報である。

また、受信部６０１は、閲覧リスト内の文書を閲覧したことを示す閲覧情報を端末１０２から受信する。閲覧情報は、たとえば、閲覧リストに文書が存在するＷｅｂサイトのＵＲＬが記述されている場合、端末１０２が閲覧リスト内のＵＲＬ５０２にアクセスしたことを示すフラグである。また、閲覧情報は、たとえば、閲覧リストに文書が存在する場合、端末１０２が文書をファイルオープンしたことを示すフラグである。

抽出部６０２は、文書群の各文書の特徴ベクトルに基づく学習モデルＬＭを用いて、文書群のうち特定の文書から、文書群の特徴を示す単語４０２である特徴語を抽出する。学習モデルＬＭは、生成部６０８によって生成され記憶デバイス２０２に格納される。特徴ベクトルは、たとえば、上述したＤｏｃ２Ｖｅｃで得られるｎ次元ベクトル空間における文書の分散表現ベクトルである。抽出部６０２は、学習モデルＬＭの生成に用いられたニューラルネットワークに学習モデルＬＭを設定し、学習モデルＬＭが設定されたニューラルネットワークの入力層に文書を与えることにより、当該文書に含まれる特徴的な単語（特徴語）４０２を出力する。より具体的には、文書内の単語群のうち、ニューラルネットワークにおけるスコアが高い（たとえば、上位Ｎ番目まで、またはしきい値以上のスコア）単語４０２が特徴語として抽出される。

また、抽出部６０２は、学習モデルＬＭを用いて、特定の文書に類似する文書を文書群から抽出する。具体的には、たとえば、抽出部６０２は、学習モデルＬＭが設定されたニューラルネットワークに、特定の文書を与えることにより、当該特定の文書の特徴ベクトルを生成する。そして、抽出部６０２は、ｎ次元ベクトル空間において、文書群の各特徴ベクトルのうち、特定の文書の特徴ベクトルと距離が近い（たとえば、上位Ｍ番目まで、または、しきい値以下の距離）特徴ベクトルの文書を、特定の文書に類似する文書（類似文書）として抽出する。

算出部６０３は、受信部６０１によって受信されたフィードバック情報に基づいて、単語情報ＤＢ１１２における特徴語の有用性または非有用性の値を更新して、更新後の特徴語の有用性または非有用性の値を用いて、特徴語の単語スコアを算出する。具体的には、たとえば、フィードバック情報に、閲覧文書について「有用である」ことを示す情報が含まれている場合、算出部６０３は、単語情報ＤＢ１１２において、閲覧文書の特徴語の単語有用性４０４を１加算する。一方、フィードバック情報に、閲覧文書について「有用でない」ことを示す情報が含まれている場合、算出部６０３は、単語情報ＤＢ１１２において、閲覧文書の特徴語の単語非有用性４０５を１加算する。算出部６０３は、閲覧文書の特徴語の単語有用性４０４または単語非有用性４０５の更新後に、下記式（１）を用いて単語スコア４０３を算出する。

Ｓｗ＝Ａｗ／（Ａｗ＋ＵＡｗ）・・・（１）
ただし、Ｓｗは単語スコア４０３、Ａｗは単語有用性４０４、ＵＡｗは単語非有用性４０５である。

また、算出部６０３は、フィードバック情報に基づいて、文書情報ＤＢ１１１における特定の文書の有用性または非有用性の値を更新して、更新後の特定の文書の有用性または非有用性の値を用いて、特定の文書の文書スコア３０３を算出する。具体的には、たとえば、フィードバック情報に、閲覧文書について「有用である」ことを示す情報が含まれている場合、算出部６０３は、文書情報ＤＢ１１１において、閲覧文書の文書有用性３０４を１加算する。一方、フィードバック情報に、閲覧文書について「有用でない」ことを示す情報が含まれている場合、算出部６０３は、文書情報ＤＢ１１１において、閲覧文書の文書非有用性３０５を１加算する。算出部６０３は、閲覧文書の文書有用性３０４または文書非有用性３０５の更新後に、下記式（２）を用いて文書スコア３０３を算出する。

Ｓｄ＝Ａｄ／（Ａｄ＋ＵＡｄ）・・・（２）
ただし、Ｓｗは文書スコア３０３、Ａｄは文書有用性３０４、ＵＡｄは文書非有用性３０５である。

また、算出部６０３は、閲覧文書の類似文書についても、上記（２）式を用いて文書スコア３０３を算出してもよい。すなわち、フィードバック情報に、閲覧文書について「有用である」ことを示す情報が含まれている場合、算出部６０３は、文書情報ＤＢ１１１において、閲覧文書に類似する類似文書の文書有用性３０４を１加算する。一方、フィードバック情報に、閲覧文書について「有用でない」ことを示す情報が含まれている場合、算出部６０３は、文書情報ＤＢ１１１において、閲覧文書に類似する類似文書の文書非有用性３０５を１加算する。算出部６０３は、類似文書の文書有用性３０４または文書非有用性３０５の更新後に、下記式（２）を用いて文書スコア３０３を算出する。

選択部６０４は、算出部６０３による算出後の単語情報ＤＢ１１２における単語スコア４０３に基づいて、検索キーワードとなる単語を単語情報ＤＢ１１２から選択する。具体的には、たとえば、選択部６０４は、上位Ｋ番目まで、またはしきい値以上の単語スコア４０３の単語４０２を検索キーワードとして単語情報ＤＢ１１２から選択する。

また、選択部６０４は、算出部６０３による算出後の文書情報ＤＢ１１１における文書スコア３０３に基づいて、閲覧対象文書を文書情報ＤＢ１１１から選択する。具体的には、たとえば、選択部６０４は、上位Ｌ番目まで、またはしきい値以上の文書スコア３０３の文書を閲覧対象文書として文書情報ＤＢ１１１から選択する。

調整部６０５は、検索キーワードの単語スコア４０３に応じて収集条件を調整する。収集条件とは、情報の収集量を調整する条件である。たとえば、収集部６０６による収集頻度や、収集部６０６によって辿るリンクの深さである。たとえば、検索キーワードの単語スコア４０３がしきい値以上であれば、調整部６０５は、収集頻度をより多くしたり、辿るべきリンクの深さもより深く設定する（以下、増加調整）。一方、検索キーワードの単語スコア４０３がしきい値未満であれば、調整部６０５は、収集頻度をより少なくしたり、辿るべきリンクの深さもより浅く設定する（以下、減少調整）。なお、調整部６０５は、しきい値未満の場合、減少調整をせず、収集頻度や辿るべきリンクの深さを現状維持としてもよい。

収集部６０６は、選択部６０４によって選択された単語４０２を検索キーワードとして、ネットワーク１０３から検索キーワードに関連する文書を、収集条件にしたがって収集し、収集した文書を文書情報ＤＢ１１１に格納する。収集部６０６は、いわゆるクローリングを実行する。具体的には、たとえば、収集部６０６は、ネットワーク１０３から検索キーワードに関連する文書を、調整部６０５によって調整された収集条件にしたがって収集し、収集した文書を文書情報ＤＢ１１１に格納する。

送信部６０７は、収集部６０６によって収集された文書または当該文書へのアクセス情報を含む閲覧リストを端末１０２に送信する。より具体的には、たとえば、送信部６０７は、選択部６０４によって閲覧対象文書が文書情報ＤＢ１１１から選択された場合、閲覧対象文書またはそのアクセス情報を含む閲覧リストを端末１０２に送信する。アクセス情報とは、当該文書にアクセス可能な情報であり、たとえば、当該文書が存在するＷｅｂページのＵＲＬ５０２である。

送信部６０７から文書を含む閲覧リストが送信された場合、閲覧リストを受信した端末１０２は、閲覧リストから文書を選択することにより、文書をファイルオープンすることで、端末１０２のユーザは、文書を閲覧することができる。また、送信部６０７からアクセス情報を含む閲覧リストが送信された場合、閲覧リストを受信した端末１０２は、閲覧リストからアクセス情報を選択することにより、Ｗｅｂページにアクセスすることで、端末１０２のユーザは、Ｗｅｂページを閲覧することができる。

生成部６０８は、文書群を用いて、各文書の特徴ベクトルに基づく学習モデルＬＭを生成して、記憶デバイス２０２に格納する。具体的には、たとえば、生成部６０８は、各文書を訓練データとしてニューラルネットワークに与えることにより、学習モデルＬＭを生成する。学習モデルＬＭは、ニューラルネットワークを構成するパーセプトロンの重みパラメータである。

更新部６０９は、文書の閲覧回数３０６を更新する。たとえば、受信部６０１は、閲覧リスト内の文書を閲覧（ファイルオープンまたはそのＷｅｂページにアクセス）したことを示す閲覧情報を端末１０２から受信する。そして、更新部６０９は、受信部６０１によって閲覧情報が受信された文書の閲覧回数３０６を更新する。

この場合、生成部６０８は、文書群のうち閲覧回数３０６に応じて学習モデルＬＭの生成対象文書群を選択し、選択した生成対象文書群を用いて、各生成対象文書の特徴ベクトルに基づく学習モデルＬＭを生成して、記憶デバイス２０２に格納する。すなわち、生成部６０８は、閲覧回数３０６が所定回数以下である文書は、学習モデルＬＭの生成対象外文書であるとして、訓練データとしてニューラルネットワークに与えない。また、閲覧回数３０６は、式（２）の文書スコア３０３の重みとして用いてもよい。

＜情報収集処理手順例＞
図７は、情報収集処理装置による情報収集処理手順例１を示すフローチャートである。図７の情報収集処理手順例１は、たとえば、収集条件で規定された収集頻度に従って実行される。情報収集装置１０１は、未選択の取得対象単語が単語情報ＤＢ１１２にあるか否かを判断する（ステップＳ７０１）。取得対象単語とは、単語情報ＤＢ１１２に格納されている単語である。また、単語スコア４０３が所定スコア以上の単語４０２を取得対象単語としてもよい。

未選択の取得対象単語がある場合（ステップＳ７０１：Ｙｅｓ）、情報収集装置１０１は、選択部により、未選択の取得対象単語の単語スコア４０３に基づいて、未選択の取得対象単語およびその単語スコア４０３を単語情報ＤＢ１１２から１つ選択する（ステップＳ７０２）。情報収集装置１０１は、調整部６０５により、選択した単語スコア４０３に応じて収集条件を調整する（ステップＳ７０３）。情報収集装置１０１は、収集部６０６により、選択した取得対象単語に関連する文書を収集する（ステップＳ７０４）。情報収集装置１０１は、収集した文書を文書情報ＤＢ１１１に格納する（ステップＳ７０５）。そして、ステップＳ７０１に戻る。未選択の取得対象文書がない場合（ステップＳ７０１：Ｎｏ）、情報収集装置１０１は、情報収集処理を終了する。

図８は、情報収集処理装置による情報収集処理手順例２を示すフローチャートである。図８の情報収集処理手順例２は、ＵＲＬ５０２を用いて情報収集される。情報収集装置１０１は、ＵＲＬ情報ＤＢ１１３からＵＲＬ５０２を取得し（ステップＳ８０１）、収集部６０６により、取得したＵＲＬ５０２でネットワーク１０３から情報を収集する（ステップＳ８０２）。情報収集装置１０１は、収集した文書を文書情報ＤＢ１１１に格納する（ステップＳ８０３）。また、情報収集装置１０１は、収集した文書の文書情報ＤＢ１１１での文書ＩＤ３０１をＵＲＬ情報ＤＢ１１３の収集元となるＵＲＬ５０２に関連付けて格納する。

＜学習モデルＬＭの学習処理手順例＞
図９は、学習モデルＬＭの学習処理手順例を示すフローチャートである。学習モデルＬＭの学習処理は、所定間隔（１日ごと、１週間ごとなど）で繰り返し実行される。情報収集装置１０１は、未選択の学習対象文書が文書情報ＤＢ１１１にあるか否かを判断する（ステップＳ９０１）。学習対象文書とは、単語情報ＤＢ１１２に格納されている単語である。また、閲覧回数３０６が所定回数以下の文書は学習対象外文書としてもよい。

未選択の学習対象文書がある場合（ステップＳ９０１：Ｙｅｓ）、情報収集装置１０１は、未選択の学習対象文書を文書情報ＤＢ１１１から１つ選択する（ステップＳ９０２）。情報収集装置１０１は、選択した学習対象文書について形態素解析や構文解析などを実行し、学習しやすいデータに加工する（ステップＳ９０３）。そして、情報収集装置１０１は、ステップＳ９０３で解析済みの学習対象文書をＤｏｃ２Ｖｅｃのニューラルネットワークに与えることにより学習し、学習結果として特徴語を出力する（ステップＳ９０４）。

学習（ステップＳ９０４）は、教師なし学習であるため、生成部６０８は、すでに出力された学習結果（たとえば、同一特徴語）との誤差を用いて、誤差逆伝搬によりニューラルネットワークの重みパラメータを調整する。そして、ステップＳ９０１に戻る。未選択の学習対象文書がない場合（ステップＳ９０１：Ｎｏ）、情報収集装置１０１は、ステップＳ９０４で調整された重みパラメータを学習モデルＬＭとして記憶デバイス２０２に保存する（ステップＳ９０５）。

＜情報閲覧シーケンス＞
図１０は、情報閲覧シーケンス例を示すシーケンス図である。端末１０２は、情報閲覧のリクエストを情報収集装置１０１に送信する（ステップＳ１００１）。情報収集装置１０１は、リクエストの受信（ステップＳ１００１）により、文書情報ＤＢ１１１から文書を取得し（ステップＳ１００２）、閲覧リストをリクエスト元の端末１０２に送信する（ステップＳ１００３）。

端末１０２は、閲覧リストを受信すると、閲覧リストを表示する（ステップＳ１００４）。そして、端末１０２は、文書閲覧が実行（ファイルオープンまたはＷｅｂページアクセス）された場合、閲覧情報を情報収集装置１０１に返す（ステップＳ１００５）。情報収集装置１０１は、文書情報ＤＢ１１１における当該文書の閲覧回数３０６を更新する（ステップＳ１００６）。

また、端末１０２は、ユーザ操作により、閲覧リスト内の文書（閲覧文書）のフィードバック情報の入力を受け付ける（ステップＳ１００７）。端末１０２は、フィードバック情報を情報収集装置１０１に送信する（ステップＳ１００８）。情報収集装置１０１は、フィードバック情報を受信すると、スコアリング処理を実行する（ステップＳ１００９）。スコアリング処理（ステップＳ１００９）の詳細については図１１で説明する。

＜スコアリング処理（ステップＳ１００９）＞
図１１は、図１０に示したスコアリング処理（ステップＳ１００９）の詳細な処理手順例を示すフローチャートである。情報収集装置１０１は、算出部６０３により、フィードバックが与えられた閲覧文書の文書有用性３０４および文書スコア３０３を更新する（ステップＳ１１０１）。情報収集装置１０１は、抽出部６０２により、閲覧文書の類似文書を、Ｄｏｃ２Ｖｅｃの学習モデルＬＭを用いて、文書情報ＤＢ１１１から抽出する（ステップＳ１１０２）。

情報収集装置１０１は、未選択の類似文書があるか否かを判断する（ステップＳ１１０３）。未選択の類似文書がある場合（ステップＳ１１０３：Ｙｅｓ）、情報収集装置１０１は、未選択の類似文書を１つ選択する（ステップＳ１１０４）。そして、情報収集装置１０１は、閲覧文書のフィードバックが「有用性あり」であったか否かを判断する（ステップＳ１１０５）。「有用性あり」であった場合（ステップＳ１１０５：Ｙｅｓ）、情報収集装置１０１は、選択類似文書の文書有用性３０４を１つカウントアップして更新し、ステップＳ１１０８に移行する（ステップＳ１１０６）。一方、「有用性なし」であった場合（ステップＳ１１０５：Ｎｏ）、情報収集装置１０１は、選択類似文書の文書非有用性３０５を１つカウントアップして更新し、ステップＳ１１０８に移行する（ステップＳ１１０７）。

情報収集装置１０１は、算出部６０３により、選択類似文書の文書スコア３０３を更新する（ステップＳ１１０８）。情報収集装置１０１は、抽出部６０２により、閲覧文書の特徴語を、学習モデルＬＭを用いて抽出する（ステップＳ１１０９）。

そして、情報収集装置１０１は、閲覧文書のフィードバックが「有用性あり」であったか否かを判断する（ステップＳ１１１０）。「有用性あり」であった場合（ステップＳ１１１０：Ｙｅｓ）、情報収集装置１０１は、抽出特徴語の単語有用性４０４を１つカウントアップして更新し、ステップＳ１１１３に移行する（ステップＳ１１１１）。一方、「有用性なし」であった場合（ステップＳ１１１０：Ｎｏ）、情報収集装置１０１は、抽出特徴語の単語非有用性４０５を１つカウントアップして更新し、ステップＳ１１１３に移行する（ステップＳ１１１２）。

情報収集装置１０１は、算出部６０３により、抽出特徴語の単語スコア４０３を算出して、ステップＳ１１０３に戻る（ステップＳ１１１３）。ステップＳ１１０３において、未選択の類似文書がない場合（ステップＳ１１０３：Ｎｏ）、情報収集装置１０１は、スコアリング処理（ステップＳ１００９）を終了する。

このように、上述した情報収集装置１０１は、記憶デバイス２０２に、文書群の各文書の特徴ベクトルに基づく学習モデルＬＭと、単語情報ＤＢ１１２と、を記憶し、文書群のうち特定の文書（たとえば、閲覧文書）の有用性または非有用性に関するフィードバック情報を端末１０２から受信する受信処理と、学習モデルＬＭを用いて、文書群のうち特定の文書から、文書群の特徴を示す単語である特徴語を抽出する抽出処理と、受信処理によって受信されたフィードバック情報に基づいて、単語情報ＤＢ１１２における特徴語の単語有用性４０４または単語非有用性４０５を更新して、更新後の特徴語の単語有用性４０４または単語非有用性４０５を用いて、特徴語の単語スコア４０３を算出する算出処理と、算出処理による算出後の単語情報ＤＢ１１２における単語スコア４０３に基づいて、検索キーワードとなる単語を単語情報ＤＢ１１２から選択する選択処理と、を実行する。

これにより、情報収集の効率化を図ることができる。すなわち、ユーザからのフィードバックを反映して検索キーワードを更新することができ、クローリングに用いる検索キーワードを、ユーザからの有用性ありまたは有用性なしのフィードバックに応じて決定することができる。したがって、有用性のない文書の特徴語が検索キーワードに選定されやすくなり、検索キーワードに関連する情報を効率的に収集、換言すれば、無駄な情報の収集を抑制することにより、情報収集の効率化を図ることができる。

また、情報収集装置１０１は、記憶デバイス２０２に、文書情報ＤＢ１１１を記憶しており、選択処理によって選択された単語を検索キーワードとして、ネットワーク１０３から検索キーワードに関連する文書を、収集条件にしたがって収集し、収集した文書を文書情報ＤＢ１１１に格納する収集処理と、収集処理によって収集された文書または当該文書へのアクセス情報を含む閲覧リストを端末１０２に送信する送信処理と、を実行する。

これにより、多方面かつ大量に情報収集する際、よりユーザが求めている情報を優先して収集し、ユーザに提示することができる。

また、情報収集装置１０１は、検索キーワードの単語スコア４０３に応じて収集条件を調整する調整処理を実行し、収集処理では、ネットワーク１０３から検索キーワードに関連する文書を、調整処理によって調整された収集条件にしたがって収集し、収集した文書を文書情報ＤＢ１１１に格納する。

これにより、クローリングによる情報収集量を増減調整することができる。たとえば、単語スコア４０３が高いほど、よりクローリング頻度が高く、また、より探索すべきリンクを深くすることで、多方面かつ大量な情報収集を実現することができる。

また、情報収集装置１０１は、算出処理では、フィードバック情報に基づいて、文書情報ＤＢ１１１における特定の文書の文書有用性３０４または文書非有用性３０５を更新して、更新後の特定の文書の文書有用性３０４または文書非有用性３０５を用いて、特定の文書の文書スコア３０３を算出し、選択処理では、算出処理による算出後の文書情報ＤＢ１１１における文書スコア３０３に基づいて、閲覧対象文書を文書情報ＤＢ１１１から選択し、送信処理では、選択処理によって選択された閲覧対象文書またはそのアクセス情報を含む閲覧リストを端末１０２に送信する。

これにより、有用性ありのフィードバックを受けるほど、その文書の文書スコア３０３が高くなるため、閲覧対象文書として選択されやすくなる。したがって、有用な文書であればあるほど、ユーザに提供されることになる。

また、情報収集装置１０１は、抽出処理では、学習モデルＬＭを用いて、特定の文書に類似する類似文書を文書群から抽出し、算出処理では、抽出処理によって抽出された類似文書の有用性または非有用性の値を更新して、更新後の類似文書の文書有用性３０４または文書非有用性３０５を用いて、類似文書の文書スコア３０３を算出する。

これにより、有用性ありのフィードバックを受けるほど、その文書に類似する類似文書の文書スコア３０３が高くなるため、閲覧対象文書として選択されやすくなる。したがって、有用な文書であればあるほど、その類似文書が閲覧対象文書としてユーザに提供されることになる。

また、情報収集装置１０１は、文書群を用いて、各文書の特徴ベクトルに基づく学習モデルＬＭを生成して、記憶デバイス２０２に格納する生成処理を実行する。

これにより、文書を訓練データとして学習モデルＬＭを自動生成することができ、文書群の特徴が反映されたｎ次元ベクトル空間を得ることができる。

また、情報収集装置１０１は、閲覧回数３０６を更新する更新処理と、文書群を用いて、各文書の特徴ベクトルに基づく学習モデルＬＭを生成して、記憶デバイス２０２に格納する生成処理と、を実行し、受信処理では、閲覧リスト内の文書を閲覧したことを示す閲覧情報を端末１０２から受信し、更新処理では、受信処理によって閲覧情報が受信された文書の閲覧回数３０６を更新し、生成処理では、文書群のうち閲覧回数３０６に応じて学習モデルＬＭの生成対象文書群を選択し、選択した生成対象文書群を用いて、各生成対象文書の特徴ベクトルに基づく学習モデルＬＭを生成して、記憶デバイス２０２に格納する。

これにより、閲覧回数３０６が多いほど生成対象文書（訓練データ）として選択され、学習モデルＬＭが生成、更新されることによる。したがって、ユーザが閲覧した回数が多い文書の特徴が反映された学習モデルＬＭとなり、特徴語や類似文書も、ユーザが閲覧した回数が多い文書の特徴を反映しやすくなる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１００情報収集システム
１０１情報収集装置
１０２端末
１０３ネットワーク
１１１文書情報ＤＢ
１１２単語情報ＤＢ
１１３ＵＲＬ情報ＤＢ
６０１受信部
６０２抽出部
６０３算出部
６０４選択部
６０５調整部
６０６収集部
６０７送信部
６０８生成部
６０９更新部
ＬＭ学習モデル

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、ネットワークに接続される通信インタフェースと、を有する情報収集装置であって、
前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、
前記プロセッサは、
前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、
前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、
前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、
前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、
を実行することを特徴とする情報収集装置。
請求項１に記載の情報収集装置であって、
前記プロセッサは、
前記文書群を用いて、前記各文書の特徴ベクトルに基づく学習モデルを生成して、前記記憶デバイスに格納する生成処理を実行することを特徴とする情報収集装置。
請求項１に記載の情報収集装置であって、
前記記憶デバイスは、
前記文書群を管理する文書情報を記憶しており、
前記プロセッサは、
前記選択処理によって選択された単語を前記検索キーワードとして、前記ネットワークから前記検索キーワードに関連する文書を、収集条件にしたがって収集し、収集した文書を前記文書情報に格納する収集処理と、
前記収集処理によって収集された文書または当該文書へのアクセス情報を含む閲覧リストを端末に送信する送信処理と、
を実行することを特徴とする情報収集装置。
請求項３に記載の情報収集装置であって、
前記文書情報は、前記端末による前記文書の閲覧回数を有し、
前記プロセッサは、
前記閲覧回数を更新する更新処理と、
前記文書群を用いて、前記各文書の特徴ベクトルに基づく学習モデルを生成して、前記記憶デバイスに格納する生成処理と、を実行し、
前記受信処理では、前記プロセッサは、前記閲覧リスト内の文書を閲覧したことを示す閲覧情報を前記端末から受信し、
前記更新処理では、前記プロセッサは、前記受信処理によって前記閲覧情報が受信された文書の閲覧回数を更新し、
前記生成処理では、前記プロセッサは、前記文書群のうち前記閲覧回数に応じて前記学習モデルの生成対象文書群を選択し、選択した前記生成対象文書群を用いて、前記各生成対象文書の特徴ベクトルに基づく学習モデルを生成して、前記記憶デバイスに格納する、
ことを特徴とする情報収集装置。
請求項３に記載の情報収集装置であって、
前記プロセッサは、
前記検索キーワードの単語スコアに応じて前記収集条件を調整する調整処理を実行し、
前記収集処理では、前記プロセッサは、前記ネットワークから前記検索キーワードに関連する文書を、前記調整処理によって調整された収集条件にしたがって収集し、収集した文書を前記文書情報に格納する、
ことを特徴とする情報収集装置。
請求項３に記載の情報収集装置であって、
前記文書情報は、前記各文書の有用性および非有用性を示す値と当該値に基づく前記文書の有用性を示す文書スコアとを有し、
前記算出処理では、前記プロセッサは、前記フィードバック情報に基づいて、前記文書情報における前記特定の文書の有用性または非有用性の値を更新して、更新後の前記特定の文書の有用性または非有用性の値を用いて、前記特定の文書の文書スコアを算出し、
前記選択処理では、前記プロセッサは、前記算出処理による算出後の前記文書情報における前記文書スコアに基づいて、閲覧対象文書を前記文書情報から選択し、
前記送信処理では、前記プロセッサは、前記選択処理によって選択された閲覧対象文書またはそのアクセス情報を含む閲覧リストを前記端末に送信する、
ことを特徴とする情報収集装置。
請求項６に記載の情報収集装置であって、
前記抽出処理では、前記プロセッサは、前記学習モデルを用いて、前記特定の文書に類似する類似文書を前記文書群から抽出し、
前記算出処理では、前記プロセッサは、前記抽出処理によって抽出された類似文書の有用性または非有用性の値を更新して、更新後の前記類似文書の有用性または非有用性の値を用いて、前記類似文書の文書スコアを算出する、
ことを特徴とする情報収集装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、ネットワークに接続される通信インタフェースと、を有する情報収集装置による情報収集方法であって、
前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、
前記情報収集方法は、
前記プロセッサが、
前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、
前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、
前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、
前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、
を実行することを特徴とする情報収集方法。
記憶デバイスにアクセス可能なプロセッサに情報収集を実行させる情報収集プログラムであって、
前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、
前記プロセッサに、
前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、
前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、
前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、
前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、
を実行することを特徴とする情報収集プログラム。