JP2019003406A - 情報収集装置、情報収集方法、および情報収集プログラム - Google Patents

情報収集装置、情報収集方法、および情報収集プログラム Download PDF

Info

Publication number
JP2019003406A
JP2019003406A JP2017117613A JP2017117613A JP2019003406A JP 2019003406 A JP2019003406 A JP 2019003406A JP 2017117613 A JP2017117613 A JP 2017117613A JP 2017117613 A JP2017117613 A JP 2017117613A JP 2019003406 A JP2019003406 A JP 2019003406A
Authority
JP
Japan
Prior art keywords
document
information
word
usefulness
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017117613A
Other languages
English (en)
Inventor
慶造 秋山
Keizo Akiyama
慶造 秋山
聡 大谷
Satoshi Otani
聡 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2017117613A priority Critical patent/JP2019003406A/ja
Publication of JP2019003406A publication Critical patent/JP2019003406A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】情報収集の効率化を図ること。【解決手段】情報収集装置101は、記憶デバイス202に、文書群の各文書の特徴ベクトルに基づく学習モデルLMと、単語情報DB112と、を記憶し、文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末102から受信し、学習モデルLMを用いて、文書群のうち特定の文書から、文書群の特徴を示す単語である特徴語を抽出し、フィードバック情報に基づいて、単語情報DB112における特徴語の単語有用性404または単語非有用性405を更新して、更新後の特徴語の単語有用性404または単語非有用性405を用いて、特徴語の単語スコア403を算出し、算出後の単語情報DB112における単語スコア403に基づいて、検索キーワードとなる単語を単語情報DB112から選択する。【選択図】図6

Description

本発明は、情報を収集する情報収集装置、情報収集方法、および情報収集プログラムに関する。
コンピュータの普及により様々な業種の日常業務において作成される業務文書や、インターネット上のWebサイトなどを含めた膨大な電子文書を取り扱うことが多くなっている。さらに、これらの文書の保管場所は様々なサーバー上に分散しており、再活用する場合にも、保管場所やアクセス先の把握が大変困難な状態となる。
その解決策として、プログラムが機械的にサーバーやコンピュータから情報を収集(クローリング)し、検索や一覧表示を行えるようにすることで、分散した情報でもまとめて確認することが可能になっている。
クローリング時には、収集したいファイルパスやWebサイトのURL(Uniform Resource Locator)、キーワード等を設定し、指定した階層分のリンクを辿り、情報収集をする手法がある。また、それらのクローリングした情報提示時には、URL順、情報収集順、情報の作成日順でソートして提示することが可能である。
従来、類似文書を探す場合には、関連するキーワードとマッチした文書を「類似」とみなして探すことが可能だが、キーワード選定が適切ではない場合は文書を探し出せないことがある。上記の解決策として文書全体(および単語)をベクトル表現に置き換えることが可能なDoc2Vecという技術が用いられる(非特許文献1を参照)。Doc2Vecは、文書(および単語)をベクトル表現に置き換え、そのベクトル同士を計算することで文書の類似度を数値化する。数値化した結果をソートすることで、類似文書を探すことが可能になる。また、下記特許文献1は、テキストの類似度を求めての文書検索を行う検索システムを開示する。
特開2004-334334号公報
Le and Mikolov, "Distributed Representations of Sentences and Documents", Proceedings of the 31st International Conference on Machine Learning, Beijing, China, 2014.
Webサイトやファイルサーバーなどから情報収集を行う場合、上記のクローリング等の手法で機械的に電子ファイルを辿り多方面、大量に情報収集することが可能である。ただし、情報収集自体は機械的に行えるが、ユーザが収集された情報を確認しようとすると、情報が大量であるため確認が困難となってしまうことが発生する。これは、収集する範囲を減らす(例:クローリングする階層を制限する)、表示する情報を減らす(例:新しい情報のみを表示する)などの、ルールに沿って絞り込むことでユーザの負担を軽減することが可能である。しかしながら、上記のような従来方法による絞込を行った場合、あくまでもルールに沿った絞込のため、ユーザが求めている情報を収集し、提示できないことが発生しうる。
本発明は、情報収集の効率化を図ることを目的とする。
本願において開示される発明の一側面となる情報収集装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、ネットワークに接続される通信インタフェースと、を有する情報収集装置であって、前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、前記プロセッサは、前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、情報収集の効率化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、情報収集システムのシステム構成例を示す説明図である。 図2は、コンピュータのハードウェア構成例を示すブロック図である。 図3は、文書情報DBの記憶内容例を示す説明図である。 図4は、単語情報DBの記憶内容例を示す説明図である。 図5は、URL情報DBの記憶内容を示す説明図である。 図6は、情報収集装置の機能的構成例を示すブロック図である。 図7は、情報収集処理装置による情報収集処理手順例1を示すフローチャートである。 図8は、情報収集処理装置による情報収集処理手順例2を示すフローチャートである。 図9は、学習モデルの学習処理手順例を示すフローチャートである。 図10は、情報閲覧シーケンス例を示すシーケンス図である。 図11は、図10に示したスコアリング処理(ステップS1009)の詳細な処理手順例を示すフローチャートである。
<システム構成例>
図1は、情報収集システムのシステム構成例を示す説明図である。情報収集システム100は、情報収集装置101と、1以上の端末102と、を有する。情報収集装置101と端末102は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク103により相互に通信可能に接続される。情報収集装置101は、文書情報DB(データベース)111と、単語情報DB112と、URL情報DB113と、を有する。文書情報DB111、単語情報DB112、およびURL情報DB113は、情報収集装置101がネットワーク103を介してアクセス可能な情報収集装置101外の他の装置が有してもよい。情報収集装置101は、ネットワーク103から情報をクローリングして、端末102に提供する。端末102は、提供された情報について情報収集装置101にフィードバックする。
<コンピュータのハードウェア構成例>
図2は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ(情報収集装置101または端末102)200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インタフェース(通信IF)205と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、コンピュータ200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワーク103と接続し、データを送受信する。
<DBの記憶内容例>
つぎに、図1に示した文書情報DB111、単語情報DB112、およびURL情報DB113について説明する。文書情報DB111、単語情報DB112、およびURL情報DB113は、具体的には、たとえば、図2に示した記憶デバイス202に記憶される。なお、当該DBの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、文書IDフィールド301の値を、文書ID301と表記する。
図3は、文書情報DB111の記憶内容例を示す説明図である。文書情報DB111は、クローリングにより収集した文書に関する情報(文書情報)を管理するDBである。文書情報DB111は、文書IDフィールド301と、文書内容フィールド302と、文書スコアフィールド303と、文書有用性フィールド304と、文書非有用性フィールド305と、閲覧回数フィールド306と、を有する。各フィールドの値の組み合わせにより、文書を特定する文書情報を示すエントリが構成される。文書とは、文章を構成する文字列が記述されたデータであり、たとえば、文書ファイルやWebページが該当する。
文書IDフィールド301は、文書IDを格納する記憶領域である。文書ID301は、文書を一意に特定する識別情報である。文書内容フィールド302は、文書内容を格納する記憶領域である。文書内容302は、文書に含まれる文字列である。文書スコアフィールド303は、文書スコアを格納する記憶領域である。文書スコア303は、文書の有用性を示す指標値である。文書有用性フィールド304は、文書有用性を格納する記憶領域である。文書有用性304は、文書について有用であると判断された計数値である。文書非有用性フィールド305は、文書非有用性を格納する記憶領域である。文書非有用性305は、文書について有用でないと判断された計数値である。
閲覧回数フィールド306は、閲覧回数を格納する記憶領域である。閲覧回数306は、その文書を端末102が閲覧した回数である。たとえば、端末102が閲覧リスト内の文書をファイルオープンまたはそのWebページにアクセスした場合に、閲覧情報として情報収集装置101に返すことで、情報収集装置101は、当該文書の閲覧回数305を更新する。
図4は、単語情報DB112の記憶内容例を示す説明図である。単語情報DB112は、クローリングにより収集した文書内の単語に関する情報(単語情報)を管理するDBである。単語情報DB112は、単語IDフィールド401と、単語フィールド402と、単語スコアフィールド403と、単語有用性フィールド404と、単語非有用性フィールド405と、を有する。各フィールドの値の組み合わせにより、単語を特定する単語情報を示すエントリが構成される。
単語IDフィールド401は、単語IDを格納する記憶領域である。単語ID401は、単語を一意に特定する識別情報である。単語フィールド402は、単語を格納する記憶領域である。単語402は、非特許文献1に示したDoc2Vecにより文書から抽出された特徴語である。単語スコアフィールド403は、単語スコアを格納する記憶領域である。単語スコア403は、単語402の有用性を示す指標値である。単語有用性フィールド404は、単語有用性を格納する記憶領域である。単語有用性404は、単語403について有用であると判断された計数値である。単語非有用性フィールド405は、単語非有用性を格納する記憶領域である。単語非有用性405は、単語402について有用でないと判断された計数値である。
図5は、URL情報DB113の記憶内容を示す説明図である。URL情報DB113は、クローリングにより収集した文書が存在するWebサイトのURLに関する情報(URL情報)を管理するDBである。URL情報DB113は、URLIDフィールド501と、URLフィールド502と、文書IDフィールド301と、を有する。各フィールドの値の組み合わせにより、URLを特定するURL情報を示すエントリが構成される。
URLIDフィールド501は、URLIDを格納する記憶領域である。URLID501は、URLを一意に特定する識別情報である。URLフィールド502は、URLを格納する記憶領域である。文書IDフィールド301は、URL502に存在する文書の文書ID301を格納する記憶領域である。
なお、ユーザから指定された文書(文書内容302)、単語402、URL502が、文書情報DB111、単語情報DB112、およびURL情報DB113に登録されてもよい。
<情報収集装置101の機能的構成例>
図6は、情報収集装置101の機能的構成例を示すブロック図である。情報収集装置101は、受信部601と、抽出部602と、算出部603と、選択部604と、調整部605と、収集部606と、送信部607と、生成部608と、更新部609と、を有する。受信部601〜更新部609は、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより、または、通信IF205により、実現される機能である。
受信部601は、文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末102から受信する。特定の文書は、たとえば、情報収集装置101が端末102に提供した閲覧リスト内の文書群のうち、端末102のユーザが閲覧した文書である。フィードバック情報とは、特定の文書の文書有用性または文書非有用性を示す情報である。
また、受信部601は、閲覧リスト内の文書を閲覧したことを示す閲覧情報を端末102から受信する。閲覧情報は、たとえば、閲覧リストに文書が存在するWebサイトのURLが記述されている場合、端末102が閲覧リスト内のURL502にアクセスしたことを示すフラグである。また、閲覧情報は、たとえば、閲覧リストに文書が存在する場合、端末102が文書をファイルオープンしたことを示すフラグである。
抽出部602は、文書群の各文書の特徴ベクトルに基づく学習モデルLMを用いて、文書群のうち特定の文書から、文書群の特徴を示す単語402である特徴語を抽出する。学習モデルLMは、生成部608によって生成され記憶デバイス202に格納される。特徴ベクトルは、たとえば、上述したDoc2Vecで得られるn次元ベクトル空間における文書の分散表現ベクトルである。抽出部602は、学習モデルLMの生成に用いられたニューラルネットワークに学習モデルLMを設定し、学習モデルLMが設定されたニューラルネットワークの入力層に文書を与えることにより、当該文書に含まれる特徴的な単語(特徴語)402を出力する。より具体的には、文書内の単語群のうち、ニューラルネットワークにおけるスコアが高い(たとえば、上位N番目まで、またはしきい値以上のスコア)単語402が特徴語として抽出される。
また、抽出部602は、学習モデルLMを用いて、特定の文書に類似する文書を文書群から抽出する。具体的には、たとえば、抽出部602は、学習モデルLMが設定されたニューラルネットワークに、特定の文書を与えることにより、当該特定の文書の特徴ベクトルを生成する。そして、抽出部602は、n次元ベクトル空間において、文書群の各特徴ベクトルのうち、特定の文書の特徴ベクトルと距離が近い(たとえば、上位M番目まで、または、しきい値以下の距離)特徴ベクトルの文書を、特定の文書に類似する文書(類似文書)として抽出する。
算出部603は、受信部601によって受信されたフィードバック情報に基づいて、単語情報DB112における特徴語の有用性または非有用性の値を更新して、更新後の特徴語の有用性または非有用性の値を用いて、特徴語の単語スコアを算出する。具体的には、たとえば、フィードバック情報に、閲覧文書について「有用である」ことを示す情報が含まれている場合、算出部603は、単語情報DB112において、閲覧文書の特徴語の単語有用性404を1加算する。一方、フィードバック情報に、閲覧文書について「有用でない」ことを示す情報が含まれている場合、算出部603は、単語情報DB112において、閲覧文書の特徴語の単語非有用性405を1加算する。算出部603は、閲覧文書の特徴語の単語有用性404または単語非有用性405の更新後に、下記式(1)を用いて単語スコア403を算出する。
Sw=Aw/(Aw+UAw)・・・(1)
ただし、Swは単語スコア403、Awは単語有用性404、UAwは単語非有用性405である。
また、算出部603は、フィードバック情報に基づいて、文書情報DB111における特定の文書の有用性または非有用性の値を更新して、更新後の特定の文書の有用性または非有用性の値を用いて、特定の文書の文書スコア303を算出する。具体的には、たとえば、フィードバック情報に、閲覧文書について「有用である」ことを示す情報が含まれている場合、算出部603は、文書情報DB111において、閲覧文書の文書有用性304を1加算する。一方、フィードバック情報に、閲覧文書について「有用でない」ことを示す情報が含まれている場合、算出部603は、文書情報DB111において、閲覧文書の文書非有用性305を1加算する。算出部603は、閲覧文書の文書有用性304または文書非有用性305の更新後に、下記式(2)を用いて文書スコア303を算出する。
Sd=Ad/(Ad+UAd)・・・(2)
ただし、Swは文書スコア303、Adは文書有用性304、UAdは文書非有用性305である。
また、算出部603は、閲覧文書の類似文書についても、上記(2)式を用いて文書スコア303を算出してもよい。すなわち、フィードバック情報に、閲覧文書について「有用である」ことを示す情報が含まれている場合、算出部603は、文書情報DB111において、閲覧文書に類似する類似文書の文書有用性304を1加算する。一方、フィードバック情報に、閲覧文書について「有用でない」ことを示す情報が含まれている場合、算出部603は、文書情報DB111において、閲覧文書に類似する類似文書の文書非有用性305を1加算する。算出部603は、類似文書の文書有用性304または文書非有用性305の更新後に、下記式(2)を用いて文書スコア303を算出する。
選択部604は、算出部603による算出後の単語情報DB112における単語スコア403に基づいて、検索キーワードとなる単語を単語情報DB112から選択する。具体的には、たとえば、選択部604は、上位K番目まで、またはしきい値以上の単語スコア403の単語402を検索キーワードとして単語情報DB112から選択する。
また、選択部604は、算出部603による算出後の文書情報DB111における文書スコア303に基づいて、閲覧対象文書を文書情報DB111から選択する。具体的には、たとえば、選択部604は、上位L番目まで、またはしきい値以上の文書スコア303の文書を閲覧対象文書として文書情報DB111から選択する。
調整部605は、検索キーワードの単語スコア403に応じて収集条件を調整する。収集条件とは、情報の収集量を調整する条件である。たとえば、収集部606による収集頻度や、収集部606によって辿るリンクの深さである。たとえば、検索キーワードの単語スコア403がしきい値以上であれば、調整部605は、収集頻度をより多くしたり、辿るべきリンクの深さもより深く設定する(以下、増加調整)。一方、検索キーワードの単語スコア403がしきい値未満であれば、調整部605は、収集頻度をより少なくしたり、辿るべきリンクの深さもより浅く設定する(以下、減少調整)。なお、調整部605は、しきい値未満の場合、減少調整をせず、収集頻度や辿るべきリンクの深さを現状維持としてもよい。
収集部606は、選択部604によって選択された単語402を検索キーワードとして、ネットワーク103から検索キーワードに関連する文書を、収集条件にしたがって収集し、収集した文書を文書情報DB111に格納する。収集部606は、いわゆるクローリングを実行する。具体的には、たとえば、収集部606は、ネットワーク103から検索キーワードに関連する文書を、調整部605によって調整された収集条件にしたがって収集し、収集した文書を文書情報DB111に格納する。
送信部607は、収集部606によって収集された文書または当該文書へのアクセス情報を含む閲覧リストを端末102に送信する。より具体的には、たとえば、送信部607は、選択部604によって閲覧対象文書が文書情報DB111から選択された場合、閲覧対象文書またはそのアクセス情報を含む閲覧リストを端末102に送信する。アクセス情報とは、当該文書にアクセス可能な情報であり、たとえば、当該文書が存在するWebページのURL502である。
送信部607から文書を含む閲覧リストが送信された場合、閲覧リストを受信した端末102は、閲覧リストから文書を選択することにより、文書をファイルオープンすることで、端末102のユーザは、文書を閲覧することができる。また、送信部607からアクセス情報を含む閲覧リストが送信された場合、閲覧リストを受信した端末102は、閲覧リストからアクセス情報を選択することにより、Webページにアクセスすることで、端末102のユーザは、Webページを閲覧することができる。
生成部608は、文書群を用いて、各文書の特徴ベクトルに基づく学習モデルLMを生成して、記憶デバイス202に格納する。具体的には、たとえば、生成部608は、各文書を訓練データとしてニューラルネットワークに与えることにより、学習モデルLMを生成する。学習モデルLMは、ニューラルネットワークを構成するパーセプトロンの重みパラメータである。
更新部609は、文書の閲覧回数306を更新する。たとえば、受信部601は、閲覧リスト内の文書を閲覧(ファイルオープンまたはそのWebページにアクセス)したことを示す閲覧情報を端末102から受信する。そして、更新部609は、受信部601によって閲覧情報が受信された文書の閲覧回数306を更新する。
この場合、生成部608は、文書群のうち閲覧回数306に応じて学習モデルLMの生成対象文書群を選択し、選択した生成対象文書群を用いて、各生成対象文書の特徴ベクトルに基づく学習モデルLMを生成して、記憶デバイス202に格納する。すなわち、生成部608は、閲覧回数306が所定回数以下である文書は、学習モデルLMの生成対象外文書であるとして、訓練データとしてニューラルネットワークに与えない。また、閲覧回数306は、式(2)の文書スコア303の重みとして用いてもよい。
<情報収集処理手順例>
図7は、情報収集処理装置による情報収集処理手順例1を示すフローチャートである。図7の情報収集処理手順例1は、たとえば、収集条件で規定された収集頻度に従って実行される。情報収集装置101は、未選択の取得対象単語が単語情報DB112にあるか否かを判断する(ステップS701)。取得対象単語とは、単語情報DB112に格納されている単語である。また、単語スコア403が所定スコア以上の単語402を取得対象単語としてもよい。
未選択の取得対象単語がある場合(ステップS701:Yes)、情報収集装置101は、選択部により、未選択の取得対象単語の単語スコア403に基づいて、未選択の取得対象単語およびその単語スコア403を単語情報DB112から1つ選択する(ステップS702)。情報収集装置101は、調整部605により、選択した単語スコア403に応じて収集条件を調整する(ステップS703)。情報収集装置101は、収集部606により、選択した取得対象単語に関連する文書を収集する(ステップS704)。情報収集装置101は、収集した文書を文書情報DB111に格納する(ステップS705)。そして、ステップS701に戻る。未選択の取得対象文書がない場合(ステップS701:No)、情報収集装置101は、情報収集処理を終了する。
図8は、情報収集処理装置による情報収集処理手順例2を示すフローチャートである。図8の情報収集処理手順例2は、URL502を用いて情報収集される。情報収集装置101は、URL情報DB113からURL502を取得し(ステップS801)、収集部606により、取得したURL502でネットワーク103から情報を収集する(ステップS802)。情報収集装置101は、収集した文書を文書情報DB111に格納する(ステップS803)。また、情報収集装置101は、収集した文書の文書情報DB111での文書ID301をURL情報DB113の収集元となるURL502に関連付けて格納する。
<学習モデルLMの学習処理手順例>
図9は、学習モデルLMの学習処理手順例を示すフローチャートである。学習モデルLMの学習処理は、所定間隔(1日ごと、1週間ごとなど)で繰り返し実行される。情報収集装置101は、未選択の学習対象文書が文書情報DB111にあるか否かを判断する(ステップS901)。学習対象文書とは、単語情報DB112に格納されている単語である。また、閲覧回数306が所定回数以下の文書は学習対象外文書としてもよい。
未選択の学習対象文書がある場合(ステップS901:Yes)、情報収集装置101は、未選択の学習対象文書を文書情報DB111から1つ選択する(ステップS902)。情報収集装置101は、選択した学習対象文書について形態素解析や構文解析などを実行し、学習しやすいデータに加工する(ステップS903)。そして、情報収集装置101は、ステップS903で解析済みの学習対象文書をDoc2Vecのニューラルネットワークに与えることにより学習し、学習結果として特徴語を出力する(ステップS904)。
学習(ステップS904)は、教師なし学習であるため、生成部608は、すでに出力された学習結果(たとえば、同一特徴語)との誤差を用いて、誤差逆伝搬によりニューラルネットワークの重みパラメータを調整する。そして、ステップS901に戻る。未選択の学習対象文書がない場合(ステップS901:No)、情報収集装置101は、ステップS904で調整された重みパラメータを学習モデルLMとして記憶デバイス202に保存する(ステップS905)。
<情報閲覧シーケンス>
図10は、情報閲覧シーケンス例を示すシーケンス図である。端末102は、情報閲覧のリクエストを情報収集装置101に送信する(ステップS1001)。情報収集装置101は、リクエストの受信(ステップS1001)により、文書情報DB111から文書を取得し(ステップS1002)、閲覧リストをリクエスト元の端末102に送信する(ステップS1003)。
端末102は、閲覧リストを受信すると、閲覧リストを表示する(ステップS1004)。そして、端末102は、文書閲覧が実行(ファイルオープンまたはWebページアクセス)された場合、閲覧情報を情報収集装置101に返す(ステップS1005)。情報収集装置101は、文書情報DB111における当該文書の閲覧回数306を更新する(ステップS1006)。
また、端末102は、ユーザ操作により、閲覧リスト内の文書(閲覧文書)のフィードバック情報の入力を受け付ける(ステップS1007)。端末102は、フィードバック情報を情報収集装置101に送信する(ステップS1008)。情報収集装置101は、フィードバック情報を受信すると、スコアリング処理を実行する(ステップS1009)。スコアリング処理(ステップS1009)の詳細については図11で説明する。
<スコアリング処理(ステップS1009)>
図11は、図10に示したスコアリング処理(ステップS1009)の詳細な処理手順例を示すフローチャートである。情報収集装置101は、算出部603により、フィードバックが与えられた閲覧文書の文書有用性304および文書スコア303を更新する(ステップS1101)。情報収集装置101は、抽出部602により、閲覧文書の類似文書を、Doc2Vecの学習モデルLMを用いて、文書情報DB111から抽出する(ステップS1102)。
情報収集装置101は、未選択の類似文書があるか否かを判断する(ステップS1103)。未選択の類似文書がある場合(ステップS1103:Yes)、情報収集装置101は、未選択の類似文書を1つ選択する(ステップS1104)。そして、情報収集装置101は、閲覧文書のフィードバックが「有用性あり」であったか否かを判断する(ステップS1105)。「有用性あり」であった場合(ステップS1105:Yes)、情報収集装置101は、選択類似文書の文書有用性304を1つカウントアップして更新し、ステップS1108に移行する(ステップS1106)。一方、「有用性なし」であった場合(ステップS1105:No)、情報収集装置101は、選択類似文書の文書非有用性305を1つカウントアップして更新し、ステップS1108に移行する(ステップS1107)。
情報収集装置101は、算出部603により、選択類似文書の文書スコア303を更新する(ステップS1108)。情報収集装置101は、抽出部602により、閲覧文書の特徴語を、学習モデルLMを用いて抽出する(ステップS1109)。
そして、情報収集装置101は、閲覧文書のフィードバックが「有用性あり」であったか否かを判断する(ステップS1110)。「有用性あり」であった場合(ステップS1110:Yes)、情報収集装置101は、抽出特徴語の単語有用性404を1つカウントアップして更新し、ステップS1113に移行する(ステップS1111)。一方、「有用性なし」であった場合(ステップS1110:No)、情報収集装置101は、抽出特徴語の単語非有用性405を1つカウントアップして更新し、ステップS1113に移行する(ステップS1112)。
情報収集装置101は、算出部603により、抽出特徴語の単語スコア403を算出して、ステップS1103に戻る(ステップS1113)。ステップS1103において、未選択の類似文書がない場合(ステップS1103:No)、情報収集装置101は、スコアリング処理(ステップS1009)を終了する。
このように、上述した情報収集装置101は、記憶デバイス202に、文書群の各文書の特徴ベクトルに基づく学習モデルLMと、単語情報DB112と、を記憶し、文書群のうち特定の文書(たとえば、閲覧文書)の有用性または非有用性に関するフィードバック情報を端末102から受信する受信処理と、学習モデルLMを用いて、文書群のうち特定の文書から、文書群の特徴を示す単語である特徴語を抽出する抽出処理と、受信処理によって受信されたフィードバック情報に基づいて、単語情報DB112における特徴語の単語有用性404または単語非有用性405を更新して、更新後の特徴語の単語有用性404または単語非有用性405を用いて、特徴語の単語スコア403を算出する算出処理と、算出処理による算出後の単語情報DB112における単語スコア403に基づいて、検索キーワードとなる単語を単語情報DB112から選択する選択処理と、を実行する。
これにより、情報収集の効率化を図ることができる。すなわち、ユーザからのフィードバックを反映して検索キーワードを更新することができ、クローリングに用いる検索キーワードを、ユーザからの有用性ありまたは有用性なしのフィードバックに応じて決定することができる。したがって、有用性のない文書の特徴語が検索キーワードに選定されやすくなり、検索キーワードに関連する情報を効率的に収集、換言すれば、無駄な情報の収集を抑制することにより、情報収集の効率化を図ることができる。
また、情報収集装置101は、記憶デバイス202に、文書情報DB111を記憶しており、選択処理によって選択された単語を検索キーワードとして、ネットワーク103から検索キーワードに関連する文書を、収集条件にしたがって収集し、収集した文書を文書情報DB111に格納する収集処理と、収集処理によって収集された文書または当該文書へのアクセス情報を含む閲覧リストを端末102に送信する送信処理と、を実行する。
これにより、多方面かつ大量に情報収集する際、よりユーザが求めている情報を優先して収集し、ユーザに提示することができる。
また、情報収集装置101は、検索キーワードの単語スコア403に応じて収集条件を調整する調整処理を実行し、収集処理では、ネットワーク103から検索キーワードに関連する文書を、調整処理によって調整された収集条件にしたがって収集し、収集した文書を文書情報DB111に格納する。
これにより、クローリングによる情報収集量を増減調整することができる。たとえば、単語スコア403が高いほど、よりクローリング頻度が高く、また、より探索すべきリンクを深くすることで、多方面かつ大量な情報収集を実現することができる。
また、情報収集装置101は、算出処理では、フィードバック情報に基づいて、文書情報DB111における特定の文書の文書有用性304または文書非有用性305を更新して、更新後の特定の文書の文書有用性304または文書非有用性305を用いて、特定の文書の文書スコア303を算出し、選択処理では、算出処理による算出後の文書情報DB111における文書スコア303に基づいて、閲覧対象文書を文書情報DB111から選択し、送信処理では、選択処理によって選択された閲覧対象文書またはそのアクセス情報を含む閲覧リストを端末102に送信する。
これにより、有用性ありのフィードバックを受けるほど、その文書の文書スコア303が高くなるため、閲覧対象文書として選択されやすくなる。したがって、有用な文書であればあるほど、ユーザに提供されることになる。
また、情報収集装置101は、抽出処理では、学習モデルLMを用いて、特定の文書に類似する類似文書を文書群から抽出し、算出処理では、抽出処理によって抽出された類似文書の有用性または非有用性の値を更新して、更新後の類似文書の文書有用性304または文書非有用性305を用いて、類似文書の文書スコア303を算出する。
これにより、有用性ありのフィードバックを受けるほど、その文書に類似する類似文書の文書スコア303が高くなるため、閲覧対象文書として選択されやすくなる。したがって、有用な文書であればあるほど、その類似文書が閲覧対象文書としてユーザに提供されることになる。
また、情報収集装置101は、文書群を用いて、各文書の特徴ベクトルに基づく学習モデルLMを生成して、記憶デバイス202に格納する生成処理を実行する。
これにより、文書を訓練データとして学習モデルLMを自動生成することができ、文書群の特徴が反映されたn次元ベクトル空間を得ることができる。
また、情報収集装置101は、閲覧回数306を更新する更新処理と、文書群を用いて、各文書の特徴ベクトルに基づく学習モデルLMを生成して、記憶デバイス202に格納する生成処理と、を実行し、受信処理では、閲覧リスト内の文書を閲覧したことを示す閲覧情報を端末102から受信し、更新処理では、受信処理によって閲覧情報が受信された文書の閲覧回数306を更新し、生成処理では、文書群のうち閲覧回数306に応じて学習モデルLMの生成対象文書群を選択し、選択した生成対象文書群を用いて、各生成対象文書の特徴ベクトルに基づく学習モデルLMを生成して、記憶デバイス202に格納する。
これにより、閲覧回数306が多いほど生成対象文書(訓練データ)として選択され、学習モデルLMが生成、更新されることによる。したがって、ユーザが閲覧した回数が多い文書の特徴が反映された学習モデルLMとなり、特徴語や類似文書も、ユーザが閲覧した回数が多い文書の特徴を反映しやすくなる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
100 情報収集システム
101 情報収集装置
102 端末
103 ネットワーク
111 文書情報DB
112 単語情報DB
113 URL情報DB
601 受信部
602 抽出部
603 算出部
604 選択部
605 調整部
606 収集部
607 送信部
608 生成部
609 更新部
LM 学習モデル

Claims (9)

  1. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、ネットワークに接続される通信インタフェースと、を有する情報収集装置であって、
    前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、
    前記プロセッサは、
    前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、
    前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、
    前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、
    前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、
    を実行することを特徴とする情報収集装置。
  2. 請求項1に記載の情報収集装置であって、
    前記プロセッサは、
    前記文書群を用いて、前記各文書の特徴ベクトルに基づく学習モデルを生成して、前記記憶デバイスに格納する生成処理を実行することを特徴とする情報収集装置。
  3. 請求項1に記載の情報収集装置であって、
    前記記憶デバイスは、
    前記文書群を管理する文書情報を記憶しており、
    前記プロセッサは、
    前記選択処理によって選択された単語を前記検索キーワードとして、前記ネットワークから前記検索キーワードに関連する文書を、収集条件にしたがって収集し、収集した文書を前記文書情報に格納する収集処理と、
    前記収集処理によって収集された文書または当該文書へのアクセス情報を含む閲覧リストを端末に送信する送信処理と、
    を実行することを特徴とする情報収集装置。
  4. 請求項3に記載の情報収集装置であって、
    前記文書情報は、前記端末による前記文書の閲覧回数を有し、
    前記プロセッサは、
    前記閲覧回数を更新する更新処理と、
    前記文書群を用いて、前記各文書の特徴ベクトルに基づく学習モデルを生成して、前記記憶デバイスに格納する生成処理と、を実行し、
    前記受信処理では、前記プロセッサは、前記閲覧リスト内の文書を閲覧したことを示す閲覧情報を前記端末から受信し、
    前記更新処理では、前記プロセッサは、前記受信処理によって前記閲覧情報が受信された文書の閲覧回数を更新し、
    前記生成処理では、前記プロセッサは、前記文書群のうち前記閲覧回数に応じて前記学習モデルの生成対象文書群を選択し、選択した前記生成対象文書群を用いて、前記各生成対象文書の特徴ベクトルに基づく学習モデルを生成して、前記記憶デバイスに格納する、
    ことを特徴とする情報収集装置。
  5. 請求項3に記載の情報収集装置であって、
    前記プロセッサは、
    前記検索キーワードの単語スコアに応じて前記収集条件を調整する調整処理を実行し、
    前記収集処理では、前記プロセッサは、前記ネットワークから前記検索キーワードに関連する文書を、前記調整処理によって調整された収集条件にしたがって収集し、収集した文書を前記文書情報に格納する、
    ことを特徴とする情報収集装置。
  6. 請求項3に記載の情報収集装置であって、
    前記文書情報は、前記各文書の有用性および非有用性を示す値と当該値に基づく前記文書の有用性を示す文書スコアとを有し、
    前記算出処理では、前記プロセッサは、前記フィードバック情報に基づいて、前記文書情報における前記特定の文書の有用性または非有用性の値を更新して、更新後の前記特定の文書の有用性または非有用性の値を用いて、前記特定の文書の文書スコアを算出し、
    前記選択処理では、前記プロセッサは、前記算出処理による算出後の前記文書情報における前記文書スコアに基づいて、閲覧対象文書を前記文書情報から選択し、
    前記送信処理では、前記プロセッサは、前記選択処理によって選択された閲覧対象文書またはそのアクセス情報を含む閲覧リストを前記端末に送信する、
    ことを特徴とする情報収集装置。
  7. 請求項6に記載の情報収集装置であって、
    前記抽出処理では、前記プロセッサは、前記学習モデルを用いて、前記特定の文書に類似する類似文書を前記文書群から抽出し、
    前記算出処理では、前記プロセッサは、前記抽出処理によって抽出された類似文書の有用性または非有用性の値を更新して、更新後の前記類似文書の有用性または非有用性の値を用いて、前記類似文書の文書スコアを算出する、
    ことを特徴とする情報収集装置。
  8. プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、ネットワークに接続される通信インタフェースと、を有する情報収集装置による情報収集方法であって、
    前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、
    前記情報収集方法は、
    前記プロセッサが、
    前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、
    前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、
    前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、
    前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、
    を実行することを特徴とする情報収集方法。
  9. 記憶デバイスにアクセス可能なプロセッサに情報収集を実行させる情報収集プログラムであって、
    前記記憶デバイスは、文書群の各文書の特徴ベクトルに基づく学習モデルと、前記文書群に出現する単語とその有用性および非有用性を示す値と当該値に基づく前記単語の有用性を示す単語スコアとを有する単語情報と、を記憶しており、
    前記プロセッサに、
    前記文書群のうち特定の文書の有用性または非有用性に関するフィードバック情報を端末から受信する受信処理と、
    前記学習モデルを用いて、前記文書群のうち特定の文書から、前記文書群の特徴を示す単語である特徴語を抽出する抽出処理と、
    前記受信処理によって受信されたフィードバック情報に基づいて、前記単語情報における前記特徴語の有用性または非有用性の値を更新して、更新後の前記特徴語の有用性または非有用性の値を用いて、前記特徴語の単語スコアを算出する算出処理と、
    前記算出処理による算出後の前記単語情報における前記単語スコアに基づいて、検索キーワードとなる単語を前記単語情報から選択する選択処理と、
    を実行することを特徴とする情報収集プログラム。
JP2017117613A 2017-06-15 2017-06-15 情報収集装置、情報収集方法、および情報収集プログラム Pending JP2019003406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017117613A JP2019003406A (ja) 2017-06-15 2017-06-15 情報収集装置、情報収集方法、および情報収集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017117613A JP2019003406A (ja) 2017-06-15 2017-06-15 情報収集装置、情報収集方法、および情報収集プログラム

Publications (1)

Publication Number Publication Date
JP2019003406A true JP2019003406A (ja) 2019-01-10

Family

ID=65006163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017117613A Pending JP2019003406A (ja) 2017-06-15 2017-06-15 情報収集装置、情報収集方法、および情報収集プログラム

Country Status (1)

Country Link
JP (1) JP2019003406A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020039730A1 (ja) * 2018-08-23 2020-02-27 株式会社Screenホールディングス 検索装置、検索方法及び検索プログラム
US20220253600A1 (en) * 2021-02-09 2022-08-11 Awoo Intelligence, Inc. Method and System for Extracting Valuable Words and Forming Valuable Word Net

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020039730A1 (ja) * 2018-08-23 2020-02-27 株式会社Screenホールディングス 検索装置、検索方法及び検索プログラム
US20220253600A1 (en) * 2021-02-09 2022-08-11 Awoo Intelligence, Inc. Method and System for Extracting Valuable Words and Forming Valuable Word Net
US11775751B2 (en) * 2021-02-09 2023-10-03 Awoo Intelligence, Inc. Method and system for extracting valuable words and forming valuable word net

Similar Documents

Publication Publication Date Title
JP5340751B2 (ja) 文書処理装置および文書処理方法
US8745039B2 (en) Method and system for user guided search navigation
JP4633162B2 (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
US20230018582A1 (en) Identifying relevant information within a document hosting system
EP2210198B1 (en) System and method for searching for documents
CN107787487B (zh) 将文档解构为成分块以用于在生产力应用中重新使用
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
US20120016857A1 (en) System and method for providing search engine optimization analysis
JP5379978B2 (ja) 検索システム及び検索方法
US20110208715A1 (en) Automatically mining intents of a group of queries
KR20160042896A (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
JP2010257453A (ja) サーチクエリデータを用いて文書にタグ付けするシステム
GB2569858A (en) Constructing content based on multi-sentence compression of source content
JP2019003406A (ja) 情報収集装置、情報収集方法、および情報収集プログラム
JP4850882B2 (ja) Webページにリンクを挿入する方法
JP2008217157A (ja) 操作履歴を利用した自動情報整理装置、方法、およびプログラム
KR101446154B1 (ko) 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법
JP6727097B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6640519B2 (ja) 情報分析装置及び情報分析方法
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP6676699B2 (ja) 予約語及び属性言語間の関連度を用いた情報提供方法及び装置
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP4208402B2 (ja) 文書検索装置、文書検索方法および記録媒体
JP2015103101A (ja) テキスト要約装置、方法、及びプログラム
JP6042162B2 (ja) ウェブ検索装置、ウェブ検索方法及びプログラム