JP5088096B2

JP5088096B2 - 情報抽出プログラムおよび情報抽出装置

Info

Publication number: JP5088096B2
Application number: JP2007286537A
Authority: JP
Inventors: 一成川合
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-11-02
Filing date: 2007-11-02
Publication date: 2012-12-05
Anticipated expiration: 2027-11-02
Also published as: JP2009116469A

Description

この発明は、記事情報を記憶した記憶装置から所定の情報を抽出する情報抽出プログラムおよび情報抽出装置に関するものである。

近年、企業ではネットワーク環境が整備されており、例えば、非特許文献１に開示されているような社内ＳＮＳ（Social Network Service）や、グループウェアなどの情報ツールが日常的に利用されている。そして、利用者（社員等）は、かかる情報ツールを利用することにより、自身が作成した記事（ブログ等も含む）を他の社員に公開すると共に、他の利用者が作成した記事を参照している。

なお、特許文献１では、利用者の記事検索にかかる効率を向上させるべく、複数のブログ記事を解析し、キーワードとなる単語を抽出し、該キーワードの１つが選択されると、選択されたキーワードのブログ記事の最新所定件数から関連キーワードを抽出するという技術が公開されている。

特開２００７−２３３４３８号公報富士通ソフトウェアテクノロジーズ、"ＳＮＳ「知創空間（ちそうくうかん）」"、［online］、平成１９年１０月２６日検索、インターネット＜URL: http://jp.fujitsu.com/group/fst/services/chisokukan/＞

しかしながら、社内ＳＮＳやグループウェアなどの情報ツールが日常的に利用されているが、その情報（例えば、利用者が作成した記事）を効率よく再利用するといった仕組みがないため、貴重な情報があるにもかかわらず、この貴重な情報が利用者に再利用されることなく、他の情報に埋もれてしまうという問題があった。

この問題は、利用者が投稿する記事やブログが、自由に投稿することが可能なため、それらの情報を管理していないことが原因であると考えられる。しかし、従来では、これらの情報をどのように管理したら有効なのかを一意に決めることができず、適切に管理できていないのが現状である。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、各利用者が投稿する情報を適切に管理し、利用者にとって貴重な情報を利用者に提供することができる情報抽出プログラムおよび情報抽出装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この情報抽出プログラムは、コンピュータに、所定の期間内に作成された記事を記憶装置から取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する特徴キーワード抽出手順と、利用者または複数の利用者から構成されるコミュニティによって作成された記事と前記特徴キーワードとを基にして前記利用者または前記コミュニティに対する各特徴キーワードの特徴量を算出する特徴量算出手順と、前記特徴量が閾値以上となる特徴キーワードを前記利用者またはコミュニティの特徴を示すプロファイルキーワードとして抽出するプロファイルキーワード抽出手順と、を実行させることを要件とする。

また、この情報抽出プログラムは、上記の情報抽出プログラムにおいて、前記特徴量算出手順は、前記利用者またはコミュニティによって作成された記事を前記記憶装置から抽出し、抽出した記事に含まれる前記特徴キーワードの数を示す第１の値を計数する第１計数手順と、前記利用者またはコミュニティによって作成された記事の総数を示す第２の値を計数する第２計数手順と、前記利用者またはコミュニティによって作成された記事の内で前記特徴キーワードを含む記事の数を示す第３の値を計数する第３計数手順と、前記第１、２、３の値を基にして特徴量を算出する算出手順とを実行することを要件とする。

また、この情報抽出プログラムは、上記の情報抽出プログラムにおいて、基準となる利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を対応付けた基準プロファイルキーワード群と、他の利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を含んだ他のプロファイルキーワード群とを基にして類似度を算出し、当該類似度に基づいて前記基準となる利用者またはコミュニティに類似する他の利用者またはコミュニティを抽出する類似度算出手順を更にコンピュータに実行させること要件とする。

また、この情報抽出プログラムは、上記の情報抽出プログラムにおいて、前記記憶装置から所定の期間内の記事を抽出し、抽出した記事に含まれる前記特徴キーワードの数を示す第４の値を計数する第４計数手順と、所定の期間内の記事の総数を示す第５の値を計数する第５計数手順と、所定の期間内の記事の内で前記特徴キーワードを含む記事の数を示す第６の値を計数する第６計数手順と、前記第４、５、６の値を基にして各特徴キーワードの第２の特徴量を算出し、算出した第２の特徴量が閾値以上となる特徴キーワードを流行のキーワードとして抽出するトレンドキーワード抽出手順とを更にコンピュータに実行させることを要件とする。

また、この情報抽出装置は、利用者または複数の利用者から構成されるコミュニティによって作成された記事を管理し、前記記事から所定の情報を抽出する情報抽出装置であって、前記利用者またはコミュニティによって作成された記事を記憶する記事記憶手段と、前記記事記憶手段から所定の期間内に作成された記事を取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する特徴キーワード抽出手段と、前記利用者またはコミュニティによって作成された記事と前記特徴キーワードとを基にして前記利用者またはコミュニティに対する各特徴キーワードの特徴量を算出する特徴量算出手段と、前記特徴量が閾値以上となる特徴キーワードを前記利用者またはコミュニティの特徴を示すプロファイルキーワードとして抽出するプロファイルキーワード抽出手段と、を備えたことを要件とする。

この情報抽出プログラムによれば、所定期間内に作成された記事（ブログ等も含む）を記憶装置から取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する。そして、対象となる利用者または複数の利用者から構成されるコミュニティによって作成された記事と特徴キーワードとを基にして利用者またはコミュニティに対する各特徴キーワードの特徴量（第１TF/IDF値）を算出し、算出した特徴量が閾値以上となる特徴キーワードを利用者またはコミュニティの特徴（プロファイル）を示すプロファイルキーワードとして抽出するので、利用者にとって有益な情報を利用者に提供することができる。

また、この情報抽出プログラムによれば、利用者またはコミュニティによって作成された記事を記憶装置から抽出し、抽出した記事に含まれる特徴キーワードの数を示す第１の値、利用者またはコミュニティによって作成された記事の総数を示す第２の値、利用者またはコミュニティによって作成された記事の内で特徴キーワードを含む記事の数を示す第３の値をそれぞれ計数し、第１、２、３の値を基にして特徴量を算出するので、より利用者の特徴をあらわすプロファイルキーワードを効率よく抽出することができる。

また、この情報抽出プログラムによれば、基準となる利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を対応付けた基準プロファイルキーワード群と、他の利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を含んだ他のプロファイルキーワード群とを基にして類似度を算出し、当該類似度に基づいて基準となる利用者またはコミュニティに類似する他の利用者またはコミュニティを抽出するので、基準となる利用者またはコミュニティに類似した利用者またはコミュニティをより正確に抽出することができる。

また、この情報抽出プログラムによれば、記憶装置から所定の期間内の記事を抽出し、抽出した記事に含まれる特徴キーワードの数を示す第４の値、所定の期間内の記事の総数を示す第５の値、所定の期間内の記事の内で特徴キーワードを含む記事の数を示す第６の値をそれぞれ計数し、計数した第４、５、６の値を基にして各特徴キーワードの第２の特徴量を算出し、算出した第２の特徴量が閾値以上となる特徴キーワードを流行のキーワードとして抽出するので、流行のキーワードを効率よく抽出することができる。

以下に添付図面を参照して、この発明に係る情報抽出プログラムおよび情報抽出装置の好適な実施の形態を詳細に説明する。

まず、本実施例にかかる情報共有システムの特徴について説明する。本実施例にかかる情報共有システムは、情報管理サーバが、所定期間内に作成された記事（ブログ等も含む）を記憶装置から取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する。そして、情報管理サーバは、対象となる利用者または複数の利用者から構成されるコミュニティによって作成された記事と特徴キーワードとを基にして利用者またはコミュニティに対する各特徴キーワードの特徴量（第１TF/IDF値）を算出し、算出した特徴量が閾値以上となる特徴キーワードを利用者またはコミュニティの特徴（プロファイル）を示すプロファイルキーワードとして抽出する。

このように、本実施例にかかる情報共有システムでは、情報管理サーバが特徴キーワードを抽出し、抽出した特徴キーワードと対象となる利用者またはコミュニティによって作成された記事を基にして、プロファイルキーワードを抽出するので、利用者にとって有益な情報を利用者に提供することができる。

また、本実施例にかかる情報共有システムでは、各利用者（各コミュニティも含む）の各プロファイル情報を基にして類似度を算出し、算出した類似度に基づいて利用者に類似する他の利用者やコミュニティ（類似プロファイル）を抽出するので、利用者にとって有益な情報を利用者に提供することができる。

また、本実施例にかかる情報システムでは、所定の期間内に作成された記事を抽出し、抽出した記事と特徴キーワードとを基にして特徴量（第２TF/IDF値）を算出し、算出した特徴量が閾値以上となるキーワードを流行のキーワード（トレンドキーワード）として抽出するので、利用者にとって有益な情報を利用者に提供することができる。

次に、本実施例にかかる情報共有システムの構成について説明する。図１は、本実施例にかかる情報共有システムの構成を示すブロック図である。同図に示すように、この情報共有システムは、利用者が使用する利用者端末１０〜３０と、各種の情報を管理する情報管理サーバ１００とを備え、利用者端末１０〜３０および情報管理サーバ１００は、ネットワーク５０を介して相互に接続されている。なお、ここでは説明の便宜上、利用者端末１０〜３０を示すが、この情報共有システムは、その他の利用者端末を有していても良い。

ここで、利用者端末１０〜３０は、情報管理サーバとデータ通信を実行し、利用者によって作成された記事の情報を情報管理サーバ１００に出力する装置である。また、利用者端末１０〜３０は、利用者またはコミュニティによって作成された記事の情報および上記したプロファイルキーワード、トレンドキーワード、類似プロファイルなどを含んだ画面に表示するための情報を情報管理サーバ１００から取得して、モニタに表示する。

図２は、利用者端末１０〜３０のモニタに表示される画面イメージの一例を示す図である。同図に示すように、この画面イメージでは、富士太郎さんのプロファイルキーワード、富士太郎さんの類似プロファイル、トレンドキーワードが表示されている。利用者は、自身でキーワード検索などを実行しなくても、この画面を参照することによって、各種有益な情報を効率よく取得することができ、重要な情報を見逃すことがなくなる。

情報管理サーバ１００は、利用者端末１０から記事の情報を取得して管理すると共に、上記した特徴キーワード、プロファイルキーワード、類似プロファイル、トレンドキーワードを抽出して、画面に表示するための情報を利用者端末１０〜３０に提供する装置である。図３は、本実施例にかかる情報管理サーバ１００の構成を示す機能ブロック図である。同図に示すように、この情報管理サーバ１００は、入力部１１０と、出力部１２０と、通信制御ＩＦ部１３０と、入出力制御ＩＦ部１４０と、記憶部１５０と、制御部１６０とを備えて構成される。

このうち、入力部１１０は、各種の情報を入力する手段であり、キーボードやマウス、マイクなどによって構成され、例えば、後述する記憶部１５０に記憶された各テーブル１５０ａ〜１５０ｌの更新情報等を受け付けて入力する。なお、後述するモニタ（出力部１２０）も、マウスと協働してポインティングデバイス機能を実現する。

出力部１２０は、各種の情報を出力する出力手段であり、モニタ（若しくはディスプレイ、タッチパネル）やスピーカなどによって構成され、例えば、後述する記憶部１５０に記憶された各テーブル１５０ａ〜１５０ｌの情報を出力する。

通信制御ＩＦ部１３０は、主にネットワーク５０を介して利用者端末１０〜３０との間におけるデータ通信を制御する手段である。入出力制御ＩＦ部１４０は、入力部１１０、出力部１２０、通信制御ＩＦ部１３０、記憶部１５０、制御部１６０によるデータの入出力を制御する手段である。

記憶部１５０は、制御部１６０による各種処理に必要なデータおよびプログラムを記憶する記憶手段（格納手段）であり、特に本発明に密接に関連するものとしては、図３に示すように、記事管理テーブル１５０ａと、記事情報テーブル１５０ｂと、実行管理テーブル１５０ｃと、同義語・結合語テーブル１５０ｄと、キーワードテーブル１５０ｅと、記事キーワードテーブル１５０ｆと、不要語テーブル１５０ｇと、記事空間管理テーブル１５０ｈと、プロファイル情報テーブル１５０ｉと、プロファイルキーワードテーブル１５０ｊと、トレンドキーワードテーブル１５０ｋと、類似プロファイルテーブル１５０ｌとを備える。

以下において、記憶部１５０が記憶する各テーブル１５０ａ〜１５０ｌについて順に説明する。記事管理テーブル１５０ａは、記事およびこの記事を作成した利用者あるいはコミュニティの情報等を管理するテーブルである。図４は、記事管理テーブル１５０ａのデータ構造の一例を示す図である。

図４に示すように、この記事管理テーブル１５０ａは、記事を識別する記事ＩＤ（Identification）、投稿者（利用者、コミュニティを含む）、投稿者を識別するプロファイルＩＤ、投稿先、記事本文を更新した日時を示すコンテンツ更新日時、記事本文、記事に対するコメントの数を示す被コメント総数、削除フラグを有する。削除フラグは、該当ラインの情報が有効か否かを示す情報であり、削除フラグが「オン」の場合は該当ラインの情報が有効であることを示し、「オフ」の場合は該当ラインの情報が無効であることを示す（以下に説明するテーブルの削除フラグも同様であるため、以下の削除フラグの説明は省略する）。

記事情報テーブル１５０ｂは、記事ごとに特徴キーワードを抽出したか否かを管理するテーブルである。図５は、記事情報テーブル１５０ｂのデータ構造の一例を示す図である。同図に示すように、この記事情報テーブル１５０ｂは、記事ＩＤ、投稿者（利用者、コミュニティを含む）、投稿先、コンテンツ更新日時、キーワード抽出フラグ、削除フラグを有する。このうち、キーワード抽出フラグは、該当ラインの記事ＩＤによって識別される記事から特徴キーワードを抽出済みか否かを示す情報である。キーワード抽出フラグが「オン」の場合は、記事から特徴キーワードを抽出済みであることを示し、「オフ」の場合は、記事から特徴キーワードを抽出していないことを示す。

実行管理テーブル１５０ｃは、記事から特徴キーワードを抽出する処理（特徴キーワード抽出処理）、利用者およびコミュニティのプロファイルキーワードを抽出する処理（プロファイルキーワード抽出処理）の実行開始日時を記憶するテーブルである。図６は、実行管理テーブル１５０ｃのデータ構造の一例を示す図である。同図に示すように、この実行管理テーブル１５０ｃは、処理種別および実行開始日時を有する。

同義語・結合語テーブル１５０ｄは、各種の同義語・結合語を管理し、置換元となるキーワードと置換後のキーワードとを対応付けて記憶するテーブルである。図７は、同義語・結合語テーブル１５０ｄのデータ構造の一例を示す図である。同図に示すように、この同義語・結合語管理テーブル１５０ｄは、置換元キーワード、置換キーワード、更新日時を有する。図７に示す同義語・結合語テーブル１５０ｄによれば、例えば、記事から抽出されるキーワード「コンピューター」は、「コンピュータ」に置換されることになる。

キーワードテーブル１５０ｅは、記事に含まれるキーワード（特徴キーワード）に関わる各種情報を記憶するテーブルである。図８は、キーワードテーブル１５０ｅのデータ構造の一例を示す図である。同図に示すように、このキーワードテーブル１５０ｅは、キーワードＩＤ、キーワード（特徴キーワード）、正規化済キーワード、キーワード出現総数、含有コンテンツ数、不要語フラグを有する。

このうち、正規化済キーワードは、正規化されたキーワードを示す。例えば、「ａｂｃ本店」は、「ＡＢＣ本店」に正規化される。キーワード出現総数は、記事管理テーブル１５０ａの全記事本文中に所定のキーワードが出現する総数を示す。図８の１段目に示す例では、キーワード「コンピュータ」が、記事本文中に「１００００回」出現することが記憶されている。

含有コンテンツ数は、記事管理テーブル１５０ａの記事のうち、所定のキーワードを含む記事の数を示す。図８の１段目に示す例では、キーワード「コンピュータ」を含む記事が、「５０」であることが記憶されている。

不要語フラグは、該当ラインのキーワードが特徴キーワードの対象となるか否かを示す情報である。不要語フラグが「オン」の場合には、該当ラインのキーワードが特徴キーワードの候補とならないことを示し、「オフ」の場合には、該当ラインのキーワードが特徴キーワードの候補となることを示している。

記事キーワードテーブル１５０ｆは、特徴キーワードのキーワードＩＤとかかる特徴キーワードを含む記事とを対応付けて記憶するテーブルである。図９は、記事キーワードテーブル１５０ｆのデータ構造の一例を示す図である。同図に示すように、この記事キーワードテーブル１５０ｆは、記事ＩＤ、キーワードＩＤ、キーワード出現数、削除フラグを有する。

ここで、図９におけるキーワードＩＤによって識別されるキーワードは、特徴キーワードを示す。また、キーワード出現数は、キーワードＩＤによって識別される特徴キーワードが記事ＩＤによって識別される記事に出現する回数を示す。

不要語テーブル１５０ｇは、特徴キーワードの候補とならないキーワード（不要語）を記憶するテーブルである。図１０は、不要語テーブル１５０ｇのデータ構造の一例を示す図である。同図に示すように、この不要語テーブル１５０ｇは、各種不要語を記憶している。

記事空間管理テーブル１５０ｈは、投稿者（利用者、コミュニティを含む）の個人情報等を管理するテーブルである。図１１は、記事空間管理テーブル１５０ｈのデータ構造の一例を示す図である。同図に示すように、この記事空間管理テーブル１５０ｈは、投稿者を識別するプロファイルＩＤ、記事空間識別情報、名称、該当ラインを更新した日時を示す更新日時、削除フラグを有する。このうち、記事空間識別情報は、プロファイルＩＤに対応する投稿者が個人（単独の利用者）かコミュニティかを示す情報である。

プロファイル情報テーブル１５０ｉは、プロファイルＩＤに対応する各種情報を記憶するテーブルである。図１２は、プロファイル情報テーブル１５０ｉのデータ構造の一例を示す図である。同図に示すように、このプロファイル情報テーブル１５０ｉは、プロファイルＩＤ、記事空間識別情報、キーワード抽出フラグ、類似度算出フラグ、投稿者が作成した記事の総数を示す記事総数、投稿者が作成した記事に対する被コメント総数、削除フラグを有する。

図１２におけるキーワード抽出フラグは、該当ラインの投稿者に対応するプロファイルキーワードを抽出済みか否かを示す情報である。キーワード抽出フラグが「オン」の場合には、プロファイルキーワードを抽出済みであることを示し、「オフ」の場合には、プロファイルキーワードを抽出していないことを示す。

類似度算出フラグは、該当ラインの投稿者に対応する類似度（類似プロファイルを抽出する場合に利用される値であり、詳細は後述する）を算出したか否かを示す情報である。類似度算出フラグが「オン」の場合には、類似度を算出済みであることを示し、「オフ」の場合には、類似度を算出していないことを示す。

プロファイルキーワードテーブル１５０ｊは、投稿者（利用者、コミュニティを含む）のプロファイルキーワードを管理するテーブルである。図１３は、プロファイルキーワードテーブル１５０ｊのデータ構造の一例を示す図である。同図に示すように、このプロファイルキーワードテーブル１５０ｊは、プロファイルＩＤ、記事空間識別情報、キーワードＩＤ、第１TF/IDF値、キーワード出現総数、含有コンテンツ数、不要語フラグ、削除フラグを有する。

図１３に含まれるキーワードＩＤは、投稿者に対するプロファイルキーワードのキーワードＩＤを示す。例えば、プロファイルＩＤ「ｐ０００１」によって識別される投稿者のプロファイルキーワードは、キーワードＩＤ「ｗ０００１」によって識別されるキーワードおよび「ｗ０００２」によって識別されるキーワードとなる。

第１TF/IDF値は、投稿者（利用者、コミュニティを含む）に対する特徴キーワードの特徴量を示し、第１TF/IDF値の値が大きいほど、より該当投稿者の特徴を良く表す特徴キーワードとなる。第１TF/IDF値の算出方法は後述する。なお、キーワード出現総数、含有コンテンツ数は上記と同様である。

トレンドキーワードテーブル１５０ｋは、トレンドキーワードを管理するテーブルである。図１４は、トレンドキーワードテーブル１５０ｋのデータ構造の一例を示す図である。同図に示すように、このトレンドキーワードテーブル１５０ｋは、キーワードＩＤ、第２TF/IDF値、キーワード出現総数、含有コンテンツ数を有する。

図１４に含まれるキーワードＩＤは、トレンドキーワードとなるキーワードのキーワードＩＤを示す。例えば、キーワードＩＤ「ｗ０００１」によって識別されるキーワードは、トレンドキーワードである。第２TF/IDF値は、対応するトレンドキーワードの特徴量を示し、第２TF/IDF値の値が大きいほど、より流行しているキーワードとなる。なお、キーワード出現総数、含有コンテンツ数は上記と同様である。

類似プロファイルテーブル１５０ｌは、投稿者（利用者、コミュニティを含む）に類似する利用者およびコミュニティ（類似プロファイル）を管理するテーブルである。図１５は、類似プロファイルテーブル１５０ｌのデータ構造の一例を示す図である。同図に示すように、この類似プロファイルテーブル１５０ｌは、プロファイルＩＤ、情報の順序を表すシーケンス番号、類似プロファイルＩＤ、類似度を有する。

このうち類似プロファイルＩＤは、プロファイルＩＤによって識別される投稿者に類似する利用者およびコミュニティのプロファイルＩＤを示す。例えば、プロファイルＩＤ「ｐ０００１」によって識別される投稿者の類似プロファイルは、プロファイルＩＤ（類似プロファイルＩＤ）「ｐ００２２」，「ｐ００８７」によって識別される投稿者（利用者あるいはコミュニティ）となる。類似度は、プロファイルＩＤの投稿者に対して類似プロファイルＩＤの投稿者がどれほど類似しているか否かを示す情報であり、数値が大きいほどより類似していることになる。

図３の説明に戻ると、制御部１６０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する制御手段であり、特に本発明に密接に関連するものとしては、図３に示すように、情報管理部１６０ａと、特徴キーワード抽出処理部１６０ｂと、プロファイルキーワード抽出処理部１６０ｃと、類似度算出処理部１６０ｄと、トレンドキーワード抽出処理部１６０ｅと、サービス提供処理部１６０ｆとを備える。

情報管理部１６０ａは、記憶部１５０に記憶された各テーブル１５０ａ〜１５０ｌを管理する手段である。例えば、情報管理部１６０ａは、各テーブル１５０ａ〜１５０ｌに対する更新データを取得した場合に、取得した更新データによって各テーブル１５０ａ〜１５０ｌに記憶された情報を更新する。

特徴キーワード抽出処理部１６０ｂは、記憶部１５０に記憶された各テーブル１５０ａ〜１５０ｌの情報を用いて特徴キーワードを抽出する手段である。図１６および図１７は、特徴キーワード抽出処理部１６０ｂの具体的な処理を示す図である。

まず、図１６から説明すると、特徴キーワード抽出処理部１６０ｂは、実行管理テーブル１５０ｃから処理種別「特徴キーワード抽出処理」に対応する実行開始時間＜Ａ＞を取得し（図１６の（１）参照）、記事管理テーブル１５０ａからコンテンツ更新日時が＜Ａ＞よりも新しい各種記事情報（記事ＩＤ、投稿者、投稿先、削除フラグ、コンテンツ更新日時）を取得する（図１６の（２）参照）。

そして、特徴キーワード抽出処理部１６０ｂは、図１６の（２）で取得した各種記事情報を記事情報テーブル１５０ｂに登録し（図１６の（３）参照）、今回の処理における実行開始日時を、実行管理テーブル１５０ｃに登録する（図１６の（４）参照）。

その後、特徴キーワード抽出処理部１６０ｂは、同義語・結合語テーブル１５０ｄの更新日時と、記事情報テーブル１５０ｂのコンテンツ更新日時とを比較して、コンテンツ更新日時が同義語・結合語テーブル１５０ｄの更新日時以降となる記事ＩＤのキーワード抽出フラグを「オフ」に設定する（図示略）。

続いて、図１７の説明に移ると、特徴キーワード抽出処理部１６０ｂは、記事情報テーブル１５０ｂからキーワード抽出フラグが「オフ」の記事ＩＤ一覧を取得し（図１７の（１）参照）、図１７の（１）で取得した各記事ＩＤに対応する記事本文を取得する（図１７の（２）参照）。

特徴キーワード抽出処理部１６０ｂは、記事本文からキーワードを抽出する（図１７の（３））。なお、記事本文からキーワードを抽出する場合には、周知技術である形態素解析等を実行すればよい。

続いて、特徴キーワード抽出処理部１６０ｂは、同義語・結合語テーブル１５０ｄから、置換元キーワード・置換キーワードの一覧を取得し、取得した一覧と図１７の（３）で抽出したキーワードとを比較することにより、各キーワードを置換する（図１７の（４）参照）。

そして、特徴キーワード抽出処理部１６０ｂは、キーワード（置換したキーワード）に対応する各種情報（正規済キーワード、品詞タグ、キーワード出現総数）を作成する（図１７の（５）参照）。なお、正規済キーワードは、当該正規キーワードとキーワードとを対応付けたテーブル（図示略）を特徴キーワード抽出処理部１６０ｂが保持しており、かかるテーブルを利用して、特徴キーワード抽出処理部１６０ｂは、キーワードを正規化する。また、特徴キーワード抽出処理部１６０ｂがキーワードと、記事管理テーブル１５０ａに記憶された記事本文とを比較することによりキーワード出現総数を計数するものとする。

続いて、特徴キーワード抽出処理部１６０ｂは、図１７の（５）で作成した各種情報をキーワードテーブル１５０ｅに登録する（図１７の（６）参照）。キーワードテーブル１５０ｅに登録される各キーワードが、特徴キーワードとなる。なお、特徴キーワード抽出処理部１６０ｂは、キーワードと記事管理テーブル１５０ａに記憶された記事本文とを比較することにより含有コンテンツ数を計数するものとする。

また、特徴キーワード抽出処理部１６０ｂは、記事ＩＤと、当該記事ＩＤから抽出したキーワード（特徴キーワード）とを対応づけた各種情報（記事ＩＤ、キーワードＩＤ、キーワード出現総数、削除フラグ）を記事キーワードテーブル１５０ｆに登録し（図１７の（７）参照）、処理が終了した記事情報テーブルのキーワード抽出フラグを「オン」に設定する（図１７の（８）参照）。

その後、特徴キーワード抽出処理部１６０ｂは、不要語テーブル１５０ｇに記憶された各不要語と、キーワードテーブル１５０ｅの各キーワード（あるいは正規済キーワード）とを比較し、不要語と一致するキーワードのラインに対応する不要語フラグを「オン」に設定する（図示略）。

図３の説明に戻ると、プロファイルキーワード抽出処理部１６０ｃは、投稿者（利用者、コミュニティ含む）によって作成された記事と特徴キーワードとを基にして、投稿者の特徴を示すプロファイルキーワードを抽出する手段である。図１８および図１９は、プロファイルキーワード抽出処理部１６０ｃの具体的な処理を示す図である。

まず、図１８から説明すると、プロファイルキーワード抽出処理部１６０ｃは、実行管理テーブル１５０ｃから処理種別「プロファイルキーワード抽出処理」に対応する実行開始時間＜Ａ＞を取得し（図１８の（１）参照）、記事空間管理テーブル１５０ｈから更新日時が＜Ａ＞よりも新しい各種プロファイル情報（プロファイルＩＤ、記事空間識別情報、削除フラグ）を取得する（図１８の（２）参照）。

そして、プロファイルキーワード抽出処理部１６０ｃは、図１８の（２）で取得した各種プロファイル情報をプロファイル情報テーブル１５０ｉに登録し（図１８の（３）参照）、今回の処理における実行開始日時を実行管理テーブル１５０ｃに登録する（図１８の（４）参照）。

また、プロファイルキーワード抽出処理部１６０ｃは、実行管理テーブル１５０ｃの「プロファイルキーワード抽出処理」に対応する実行開始時間＜Ａ＞以降に更新されたプロファイルＩＤのキーワード抽出フラグを「オフ」に設定する（図示略）。

続いて、図１９の説明に移ると、プロファイルキーワード抽出処理部１６０ｃは、プロファイル情報テーブル１５０ｉからキーワード抽出フラグが「オフ」のプロファイルＩＤ一覧を取得し（図１９の（１）参照）、記事管理テーブル１５０ａからプロファイルＩＤに対応する記事総数（プロファイルＩＤによって識別される投稿者が作成した記事の総数）および被コメント総数を取得し（図１９の（２）参照）、図１９の（２）で取得した各種情報、すなわち、プロファイルＩＤと記事総数と被コメント総数とを対応付けてプロファイル情報テーブル１５０ｉに登録する（図１９の（３）参照）。

そして、プロファイルキーワード抽出処理部１６０ｃは、図１９の（１）で取得したプロファイルＩＤに紐付く記事（記事ＩＤ）のキーワードを記事キーワードテーブル１５０ｆと記事情報テーブル１５０ｂから取得する（図１９の（４）参照）。なお、プロファイルＩＤに紐付く記事ＩＤは、例えば、記事管理テーブル１５０ａを参照することにより、判定することができる。

続いて、プロファイルキーワード抽出処理部１６０ｃは、図１９の（４）で取得した各キーワード（特徴キーワード）の第１TF/IDF値を算出する（図１９の（５）参照）。第１TF/IDF値の具体的な算出式は、
第１TF/IDF値＝（プロファイルＩＤ（投稿者）の記事のキーワードの出現回数＜キーワード出現総数＞）×ｌｏｇ｛（プロファイルＩＤ（投稿者）によって作成された記事の記事総数）／（プロファイルＩＤ（投稿者）によって作成された記事の内でキーワードを含む記事数＜含有コンテンツ数＞）｝
によって表すことができる。なお、上式の各値は、プロファイルキーワード抽出処理部１６０ｃが各テーブル１５０ａ〜１５０ｌを参照して、予め計数しておくものとする。

そして、プロファイルキーワード抽出処理部１６０ｃは、プロファイルＩＤにかかる各種情報（プロファイルＩＤ、記事空間識別情報、キーワードＩＤ、第１TF/IDF値、キーワード出現総数、含有コンテンツ数、不要語フラグ、削除フラグ）をプロファイルキーワードテーブル１５０ｊに登録し（図１９の（６）参照）、プロファイルキーワードテーブル１５０ｊに登録したプロファイルＩＤのキーワード抽出フラグ（プロファイル情報テーブル１５０ｉのキーワード抽出フラグ）を「オン」に設定する（図１９の（７）参照）。

その後、プロファイルキーワード抽出処理部１６０ｃは、不要語テーブル１５０ｇに記憶された各不要語と、プロファイルキーワードテーブル１５０ｊの各キーワード（キーワードＩＤによって識別されるキーワード）とを比較し、不要語と一致するキーワードのラインに対応する不要語フラグを「オン」に設定する（図示略）。

プロファイルキーワードテーブル１５０ｊに記憶された各キーワード（キーワードＩＤによって識別されるキーワード＜特徴キーワード＞）のうち、第１TF/IDF値が閾値以上となるキーワードが、該当プロファイルＩＤに対応するプロファイルキーワードとして抽出されることになる。

図３の説明に戻ると、類似度算出処理部１６０ｄは、各プロファイルＩＤのプロファイルキーワードを基にして類似度を算出し、算出した類似度に基づいて、類似するプロファイルＩＤを抽出する手段である。図２０は、類似度算出処理部１６０ｄの具体的な処理を示す図である。

図２０に示すように、類似度算出処理部１６０ｄは、プロファイル情報テーブル１５０ｉから類似度算出フラグが「オフ」のプロファイルＩＤ一覧を取得し（図２０の（１）参照）、図２０の（１）で取得したプロファイルＩＤの各プロファイルキーワード一覧（プロファイルＩＤ、キーワードＩＤ、第１TF/IDF値、キーワード出現総数、含有コンテンツ数、不要語フラグ）をプロファイルキーワードテーブル１５０ｊから取得する（図２０の（２）参照）。

続いて、類似度算出処理部１６０ｄは、プロファイル情報テーブル１５０ｉから全てのプロファイルＩＤ一覧を取得し（図２０の（３）参照）、図２０の（３）で取得したプロファルＩＤの各プロファイルキーワード一覧（プロファイルＩＤ、キーワードＩＤ、第１TF/IDF値、キーワード出現総数、含有コンテンツ数、不要語フラグ）をプロファイルキーワードテーブル１５０ｊから取得する（図２０の（４）参照）。

そして、類似度算出処理部１６０ｄは、図２０の（２）、（４）で取得したプロファイルキーワード一覧から各プロファイル間の類似度を算出する（図２０の（５）参照）。ここで、一例として、各プロファイルＩＤによって識別される投稿者Ａさん、Ｂさん、Ｃさんが存在し、Ａさんのプロファイルキーワードが（キーワード１＜１０＞、キーワード２＜５＞、キーワード３＜８＞）、Ｂさんのプロファイルキーワードが（キーワード１＜１８＞、キーワード２＜５６＞、キーワード９＜６＞）、Ｃさんのプロファイルキーワードが（キーワード２＜１２＞、キーワード７＜６＞）であり、かつ、Ａさんに対するＢさん、Ｃさんの類似度を算出する場合について説明する（＜＞内の数値は、キーワード出現総数）。

まず、類似度算出処理部１６０ｄは、Ａさんを基点として、Ａさん、Ｂさん、Ｃさんのベクトルを算出すると、
ＡさんのベクトルＡ＝（１０、５、８）、
ＢさんのベクトルＢ＝（１８、５６、０）、
ＣさんのベクトルＣ＝（０、１２、０）となる。

そして、類似度算出処理部１６０ｄは、ベクトル間の距離を類似度として算出し、算出した類似度が閾値以上である場合には、各ベクトルの投稿者は類似していると判定する。例えば、ベクトルＡとベクトルＢとの距離が閾値以上である場合には、ＡさんとＢさんとは類似していることとなり、Ａさんの類似プロファイルにＢさんのプロファイルＩＤが設定される。この場合、Ｂさんを対象とする類似キーワードは、Ｂさんの持つキーワードのうち最大のキーワード出現総数となるキーワード２となる。

一方、ベクトルＡとベクトルＣとの距離が閾値未満の場合には、ＡさんとＢさんとは類似していないこととなり、Ａさんの類似プロファイルにＣさんのプロファイルＩＤは設定されない。

類似度算出処理部１６０ｄは、算出した類似度（およびそれに付随する情報、すなわち、プロファイルＩＤ、シーケンス番号、類似プロファイルＩＤ、類似度）を類似プロファイルテーブル１５０ｌに設定する（図２０の（６）参照）。ここで、プロファイルＩＤは、基点となった投稿者（上記の例ではＡさん）のプロファイルＩＤであり、類似プロファイルＩＤは、類似度が閾値以上となる投稿者（上記の例ではＢさん）のプロファイルＩＤである。そして、類似度算出処理部１６０ｄは、処理したプロファイルＩＤの類似度算出フラグを「オン」に設定する（図２０の（７）参照）。

図３の説明に戻ると、トレンドキーワード抽出処理部１６０ｅは、記憶部１５０に記憶された各テーブルを用いて流行しているキーワード（すなわち、トレンドキーワード）を抽出する処理部である。図２１は、トレンドキーワード抽出処理部の具体的な処理を示す図である。

図２１に示すように、トレンドキーワード抽出処理部１６０ｅは、記事情報テーブル１５０ｂから登録済みの記事総件数を取得し（図２１の（１）参照）、記事情報テーブル１５０ｂからコンテンツ更新日時が所定範囲内の記事ＩＤを取得する（図２１の（２）参照）。

そして、トレンドキーワード抽出処理部１６０ｅは、図２１の（１）で取得した記事ＩＤに該当する記事のキーワードを記事キーワードテーブル１５０ｆから取得し（図２１の（３）参照）、取得した各キーワードの第２TF/IDF値を算出する（図２１の（４）参照）。

ここで、第２TF/IDF値の具体的な算出式は、
第２TF/IDF値＝（キーワード出現総数）×ｌｏｇ（記事総数／含有コンテンツ数）
によって表すことができる。なお、上式の各値は、トレンドキーワード抽出処理部１６０ｅが各テーブル１５０ａ〜１５０ｌを参照して、予め計数しておくものとする。

トレンドキーワード抽出処理部１６０ｅは、トレンドキーワードに関する各種情報（キーワードＩＤ、第２TF/IDF値、キーワード出現総数、含有コンテンツ数）をトレンドキーワードテーブル１５０ｋに登録する（図２１の（５）参照）。

トレンドキーワードテーブル１５０ｋに記憶された各キーワード（キーワードＩＤによって識別されるキーワード＜特徴キーワード＞）のうち、第２TF/IDF値が閾値以上となるキーワードが、トレンドキーワードとして抽出されることとなる。

図３の説明に戻ると、サービス提供処理部１６０ｆは、利用者端末１０〜３０からのサービス要求に応答して各種のサービスを提供する手段であり、特に、本発明に密接に関連するものとしては、所定の投稿者（利用者、コミュニティを含む）を指定された場合に、指定された投稿者に対応するプロファイルキーワード、類似プロファイルおよびトレンドキーワードを出力する（例えば、図２において説明した画面情報をサービス要求元となる利用者端末に出力する）。

具体的に、サービス提供処理部１６０ｆが、投稿者のプロファイルキーワードを抽出する場合には、指定された投稿者のプロファイルＩＤと、プロファイルキーワードテーブル１５０ｊと、キーワードテーブル１５０ｅとを比較することによって、投稿者のプロファイルキーワードを抽出する。なお、サービス提供処理部１６０ｆは、第１TF/IDF値の値が閾値以上となるキーワードをプロファイルキーワードとして抽出して出力する。

また、サービス提供処理部１６０ｆが、投稿者の類似プロファイルを抽出する場合には、指定された投稿者のプロファイルＩＤと、類似プロファイルテーブル１５０ｌと、記事管理テーブル１５０ａとを比較することによって、投稿者の類似プロファイル（指定された投稿者に類似する他の利用者、コミュニティ）を抽出して出力する。

また、サービス提供処理部１６０ｆが、トレンドキーワードを抽出する場合には、トレンドキーワードテーブル１５０ｋを参照し、第２TF/IDF値が閾値以上となるキーワードをトレンドキーワードとして抽出し、出力する。

次に、本実施例にかかる情報管理サーバ１００の処理手順について説明する。図２２は、本実施例にかかる情報管理サーバ１００の処理手順を示すフローチャートである。同図に示すように、情報管理サーバ１００は、記憶部１５０に記憶された記事が更新されたか否かを判定し（ステップＳ１０１）、更新されていない場合には（ステップＳ１０２，Ｎｏ）、処理を終了する。

一方、記事が更新されている場合には（ステップＳ１０２，Ｙｅｓ）、特徴キーワード抽出処理部１６０ｂが特徴キーワード抽出処理を実行し（ステップＳ１０３）、プロファイルキーワード抽出処理部１６０ｃがプロファイルキーワード抽出処理を実行する（ステップＳ１０４）。

そして、類似度算出処理部１６０ｄが、類似度算出処理を実行し（ステップＳ１０５）、トレンドキーワード抽出処理部１６０ｅがトレンドキーワード抽出処理を実行する（ステップＳ１０６）。

次に、図２２のステップＳ１０３で示した特徴キーワード抽出処理について説明する。図２３は、特徴キーワード抽出処理の処理手順を示すフローチャートである。同図に示すように、特徴キーワード抽出処理部１６０ｂは、更新された記事を取得し（ステップＳ２０１）、記事本文を形態素解析し、「語」の単位に品詞分解する（ステップＳ２０２）。

そして、特徴キーワード抽出処理部１６０ｂは、特徴キーワードの対象となる「語」を抽出し（ステップＳ２０３）、特徴キーワードの対象となる「語」から不要語テーブル１５０ｇに登録されている「語」を除外する（ステップＳ２０４）。

続いて、特徴キーワード抽出処理部１６０ｂは、特徴キーワードの対象となる「語」を同義語・結合語テーブル１５０ｄに登録されている「語」に置換し（ステップＳ２０５）、特徴キーワードをキーワードテーブル１５０ｅに登録し（ステップＳ２０６）、特徴キーワードと記事とを対応付けて記事キーワードテーブル１５０ｆに登録する（ステップＳ２０７）。

次に、図２２のステップＳ１０４で示したプロファイルキーワード抽出処理について説明する。図２４は、プロファイルキーワード抽出処理の処理手順を示すフローチャートである。同図に示すように、プロファイルキーワード抽出処理部１６０ｃは、記事キーワードテーブル１５０ｆから更新された記事を抽出し、記事に対応付けられた特徴キーワードを抽出する（ステップＳ３０１）。

そして、プロファイルキーワード抽出処理部１６０ｃは、対象の人（利用者）・コミュニティ毎の記事内の特徴キーワード出現総数、対象の人・コミュニティ毎の全記事数、対象の人・コミュニティ毎のキーワードを含む記事数を基にして第１TF/IDF値を算出する（ステップＳ３０２）。

プロファイルキーワード抽出処理部１６０ｃは、第１TF/IDF値が閾値以上となるｎ件の特徴キーワードをプロファイルキーワードに設定し（ステップＳ３０３）、プロファイルキーワードをプロファイルキーワードテーブル１５０ｊに登録する（ステップＳ３０４）。

次に、図２２のステップＳ１０５で示した類似度算出処理について説明する。図２５は、類似度算出処理の処理手順を示すフローチャートである。同図に示すように、類似度算出処理部１６０ｄは、類似度算出対象となる利用者（コミュニティを含む）のプロファイルキーワードをプロファイルキーワードテーブル１５０ｊから取得し（ステップＳ４０１）、比較対象となる利用者のプロファイルキーワードをプロファイルキーワードテーブル１５０ｊから取得する（ステップＳ４０２）。なお、比較対象の利用者は、算出対象の利用者以外の全ての利用者に対応する。

そして、類似度算出処理部１６０ｄは、類似度算出対象となる利用者のプロファイルキーワードおよび比較対象となる利用者のプロファイルキーワードを基にして類似度を算出し（ステップＳ４０３）、類似度が閾値以上となる各プロファイルＩＤを類似プロファイルとして抽出する（ステップＳ４０４）。類似度算出処理部１６０ｄは、抽出した類似プロファイルを類似プロファイルテーブル１５０ｌに登録する（ステップＳ４０５）。

なお、ステップ４０３において、算出対象の利用者に対応するプロファイルキーワードの上位ｎ件（第１TF/IDF値が大きい順）を次元とし、算出対象と比較対象の各利用者におけるプロファイルキーワードの出現総数を値とする２つのベクトル間のコサイン距離を類似度として算出する。

次に、図２２のステップＳ１０６で示したトレンドキーワード抽出処理について説明する。図２６は、トレンドキーワード抽出処理の処理手順を示すフローチャートである。同図に示すように、トレンドキーワード抽出処理部１６０ｅは、記事キーワードテーブルから最新ｎ件の記事（あるいは、所定期間内の記事）を抽出し、記事に対応付けられた特徴キーワードを抽出する（ステップＳ５０１）。

そして、トレンドキーワード抽出処理部１６０ｅは、対象期間内の記事内の特徴キーワード出現総数、対象期間内の全記事数、対象範囲内の特徴キーワードを含む記事数を基にして第２TF/IDF値を算出する（ステップＳ５０２）。

トレンドキーワード抽出処理部１６０ｅは、第２TF/IDF値が閾値以上となるｎ件の特徴キーワードをトレンドキーワードに設定し（ステップＳ５０３）、トレンドキーワードをトレンドキーワードテーブル１５０ｋに登録する（ステップＳ５０４）。

このように、特徴キーワード抽出処理部１６０ｂが特徴キーワードを抽出し、抽出した特徴キーワードを利用して、プロファイルキーワード、類似プロファイル、トレンドキーワードを抽出するので、利用者にとって有益な情報を効率よく抽出することがでる。

上述してきたように、本実施例にかかる情報管理サーバ１００は、所定期間内に作成された記事（ブログ等も含む）を記憶部１５０から取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する。そして、情報管理サーバ１００は、対象となる利用者または複数の利用者から構成されるコミュニティによって作成された記事と特徴キーワードとを基にして利用者またはコミュニティに対する各特徴キーワードの特徴量（第１TF/IDF値）を算出し、算出した特徴量が閾値以上となる特徴キーワードを利用者またはコミュニティの特徴（プロファイル）を示すプロファイルキーワードとして抽出するので、利用者にとって有益な情報を利用者に提供することができる。

また、本実施例にかかる情報管理サーバ１００は、各利用者（各コミュニティも含む）の各プロファイルキーワードを基にして類似度を算出し、算出した類似度に基づいて利用者に類似する他の利用者やコミュニティ（類似プロファイル）を抽出するので、利用者にとって有益な情報を利用者に提供することができる。

また、本実施例にかかる情報管理サーバ１００は、所定の期間内に作成された記事を抽出し、抽出した記事と特徴キーワードとを基にして特徴量（第２TF/IDF値）を算出し、算出した特徴量が閾値以上となるキーワードを流行のキーワード（トレンドキーワード）として抽出するので、利用者にとって有益な情報を利用者に提供することができる。

なお、本実施例ではサービス提供処理部１６０ｆが、投稿者（利用者・コミュニティを含む）を指定された場合に、かかる投稿者のプロファイルＩＤに紐付くプロファイルキーワード、類似プロファイルを抽出して利用者端末に出力していたが、これに限定されるものではない。

例えば、サービス提供処理部１６０ｆが、所定のプロファイルキーワードあるいはトレンドキーワードを指定された場合には、かかるプロファイルキーワードあるいはトレンドキーワードに紐付くプロファイルＩＤ、類似プロファイルの情報を抽出して、利用者端末に出力してもよい。

ところで、本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部あるいは一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図３に示した情報管理サーバ１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部がＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

図２７は、実施例にかかる情報管理サーバを構成するコンピュータのハードウェア構成を示す図である。図２７に示すように、このコンピュータ（情報管理サーバ）２００は、入力装置２０１、モニタ２０２、ＲＡＭ（Random Access Memory）２０３、ＲＯＭ（Read Only Memory）２０４、記憶媒体からデータを読み取る媒体読取装置２０５、他の装置（利用者端末）との間でデータの送受信を行うインターフェース２０６、ＣＰＵ（Central Processing Unit）２０７、ＨＤＤ（Hard Disk Drive）２０８をバス２０９で接続して構成される。

そして、ＨＤＤ２０８には、上記した情報管理サーバ１００の機能と同様の機能を発揮する情報管理プログラム２０８ｂが記憶されている。ＣＰＵ２０７が情報管理プログラム２０８ｂを読み出して実行することにより、情報管理プロセス２０７ａが起動される。この情報管理プロセス２０７ａは、図３に示した、情報管理部１６０ａ、特徴キーワード抽出処理部１６０ｂ、プロファイルキーワード抽出処理部１６０ｃ、類似度算出処理部１６０ｄ、トレンドキーワード抽出処理部１６０ｅ、サービス提供処理部１６０ｆに対応する。

また、ＨＤＤ２０８は、図３に示した各テーブル１５０ａ〜１５０ｌに対応する各種データ２０８ａを記憶する。ＣＰＵ２０７は、ＨＤＤ２０８に格納された各種データ２０８ａを読み出してＲＡＭ２０３に格納し、ＲＡＭ２０３に格納された各種データ２０３ａを用いて、特徴キーワード、プロファイルキーワード、類似プロファイル、トレンドキーワードを抽出する。

ところで、図２７に示した情報管理プログラム２０８ｂは、必ずしも最初からＨＤＤ２０８に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータに接続される「他のコンピュータ（またはサーバ）」などに情報管理プログラム２０８ｂを記憶しておき、コンピュータがこれらから情報管理プログラム２０８ｂを読み出して実行するようにしてもよい。

（付記１）コンピュータに、
所定の期間内に作成された記事を記憶装置から取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する特徴キーワード抽出手順と、
利用者または複数の利用者から構成されるコミュニティによって作成された記事と前記特徴キーワードとを基にして前記利用者または前記コミュニティに対する各特徴キーワードの特徴量を算出する特徴量算出手順と、
前記特徴量が閾値以上となる特徴キーワードを前記利用者またはコミュニティの特徴を示すプロファイルキーワードとして抽出するプロファイルキーワード抽出手順と、
を実行させることを特徴とする情報抽出プログラム。

（付記２）前記特徴量算出手順は、前記利用者またはコミュニティによって作成された記事を前記記憶装置から抽出し、抽出した記事に含まれる前記特徴キーワードの数を示す第１の値を計数する第１計数手順と、前記利用者またはコミュニティによって作成された記事の総数を示す第２の値を計数する第２計数手順と、前記利用者またはコミュニティによって作成された記事の内で前記特徴キーワードを含む記事の数を示す第３の値を計数する第３計数手順と、前記第１、２、３の値を基にして特徴量を算出する算出手順とを実行することを特徴とする付記１に記載の情報抽出プログラム。

（付記３）基準となる利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を対応付けた基準プロファイルキーワード群と、他の利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を含んだ他のプロファイルキーワード群とを基にして類似度を算出し、当該類似度に基づいて前記基準となる利用者またはコミュニティに類似する他の利用者またはコミュニティを抽出する類似度算出手順を更にコンピュータに実行させることを特徴とする付記１または２に記載の情報抽出プログラム。

（付記４）前記記憶装置から所定の期間内の記事を抽出し、抽出した記事に含まれる前記特徴キーワードの数を示す第４の値を計数する第４計数手順と、所定の期間内の記事の総数を示す第５の値を計数する第５計数手順と、所定の期間内の記事の内で前記特徴キーワードを含む記事の数を示す第６の値を計数する第６計数手順と、前記第４、５、６の値を基にして各特徴キーワードの第２の特徴量を算出し、算出した第２の特徴量が閾値以上となる特徴キーワードを流行のキーワードとして抽出するトレンドキーワード抽出手順とを更にコンピュータに実行させることを特徴とする付記１、２または３に記載の情報抽出プログラム。

（付記５）前記類似算出手順は、前記基準プロファイルキーワード群を第１のベクトル、前記他のプロファイルキーワード群を第２のベクトルとしたベクトル演算を実行し、前記第１および第２のベクトル間の距離を前記類似度として算出することを特徴とする付記３に記載の情報抽出プログラム。

（付記６）前記記憶装置は、前記特徴キーワードの対象外となる不要キーワードを更に記憶し、前記特徴キーワード抽出手順は、抽出した特徴キーワードのうち、前記不要キーワードと一致する特徴キーワードを取り除くことを特徴とする付記１に記載の情報抽出プログラム。

（付記７）利用者または複数の利用者から構成されるコミュニティによって作成された記事を管理し、前記記事から所定の情報を抽出する情報抽出装置であって、
前記利用者またはコミュニティによって作成された記事を記憶する記事記憶手段と、
前記記事記憶手段から所定の期間内に作成された記事を取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する特徴キーワード抽出手段と、
前記利用者またはコミュニティによって作成された記事と前記特徴キーワードとを基にして前記利用者またはコミュニティに対する各特徴キーワードの特徴量を算出する特徴量算出手段と、
前記特徴量が閾値以上となる特徴キーワードを前記利用者またはコミュニティの特徴を示すプロファイルキーワードとして抽出するプロファイルキーワード抽出手段と、
を備えたことを特徴とする情報抽出装置。

以上のように、本発明にかかる情報抽出プログラムおよび情報抽出装置は、各種の情報を共有するシステムに有用であり、特に、膨大な情報の中から有益な情報を利用者に提供する必要がある場合に適している。

本実施例にかかる情報共有システムの構成を示すブロック図である。利用者端末のモニタに表示される画面イメージの一例を示す図である。本実施例にかかる情報管理サーバの構成を示す機能ブロック図である。記事管理テーブルのデータ構造の一例を示す図である。記事情報テーブルのデータ構造の一例を示す図である。実行管理テーブルのデータ構造の一例を示す図である。同義語・結合語テーブルのデータ構造の一例を示す図である。キーワードテーブルのデータ構造の一例を示す図である。記事キーワードテーブルのデータ構造の一例を示す図である。不要語テーブルのデータ構造の一例を示す図である。記事空間管理テーブルのデータ構造の一例を示す図である。プロファイル情報テーブルのデータ構造の一例を示す図である。プロファイルキーワードテーブルのデータ構造の一例を示す図である。トレンドキーワードテーブルのデータ構造の一例を示す図である。類似プロファイルテーブルのデータ構造の一例を示す図である。特徴キーワード抽出処理部の具体的な処理を示す図（１）である。特徴キーワード抽出処理部の具体的な処理を示す図（２）である。プロファイルキーワード抽出処理部の具体的な処理を示す図（１）である。プロファイルキーワード抽出処理部の具体的な処理を示す図（２）である。類似度算出処理部の具体的な処理を示す図である。トレンドキーワード抽出処理部の具体的な処理を示す図である。本実施例にかかる情報管理サーバの処理手順を示すフローチャートである。特徴キーワード抽出処理の処理手順を示すフローチャートである。プロファイルキーワード抽出処理の処理手順を示すフローチャートである。類似度算出処理の処理手順を示すフローチャートである。トレンドキーワード抽出処理の処理手順を示すフローチャートである。実施例にかかる情報管理サーバを構成するコンピュータのハードウェア構成を示す図である。

符号の説明

１０，２０，３０利用者端末
５０ネットワーク
１００情報管理サーバ
１１０入力部
１２０出力部
１３０通信制御ＩＦ部
１４０入出力制御ＩＦ部
１５０記憶部
１５０ａ記事管理テーブル
１５０ｂ記事情報テーブル
１５０ｃ実行管理テーブル
１５０ｄ同義語・結合語テーブル
１５０ｅキーワードテーブル
１５０ｆ記事キーワードテーブル
１５０ｇ不要語テーブル
１５０ｈ記事空間管理テーブル
１５０ｉプロファイル情報テーブル
１５０ｊプロファイルキーワードテーブル
１５０ｋトレンドキーワードテーブル
１５０ｌ擬似プロファイルテーブル
１６０制御部
１６０ａ情報管理部
１６０ｂ特徴キーワード抽出処理部
１６０ｃプロファイルキーワード抽出処理部
１６０ｄ類似度算出処理部
１６０ｅトレンドキーワード抽出処理部
１６０ｆサービス提供処理部
２００コンピュータ
２０１入力装置
２０２モニタ
２０３ＲＡＭ
２０３ａ，２０８ａ各種データ
２０４ＲＯＭ
２０５媒体読取装置
２０６インターフェース
２０７ＣＰＵ
２０７ａ情報管理プロセス
２０８ＨＤＤ
２０８ｂ情報管理プログラム
２０９バス

Claims

コンピュータに、
所定の期間内に作成された記事を記憶装置から取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する特徴キーワード抽出手順と、
利用者または複数の利用者から構成されるコミュニティによって作成された記事と前記特徴キーワードとを基にして前記利用者または前記コミュニティに対する各特徴キーワードの特徴量を算出する特徴量算出手順と、
前記特徴量が閾値以上となる特徴キーワードを前記利用者またはコミュニティの特徴を示すプロファイルキーワードとして抽出するプロファイルキーワード抽出手順と、
基準となる利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を対応付けた基準プロファイルキーワード群と、他の利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を含んだ他のプロファイルキーワード群とを基にして類似度を算出し、当該類似度に基づいて前記基準となる利用者またはコミュニティに類似する他の利用者またはコミュニティを抽出する類似度算出手順と
を実行させることを特徴とする情報抽出プログラム。
前記特徴量算出手順は、前記利用者またはコミュニティによって作成された記事を前記記憶装置から抽出し、抽出した記事に含まれる前記特徴キーワードの数を示す第１の値を計数する第１計数手順と、前記利用者またはコミュニティによって作成された記事の総数を示す第２の値を計数する第２計数手順と、前記利用者またはコミュニティによって作成された記事の内で前記特徴キーワードを含む記事の数を示す第３の値を計数する第３計数手順と、前記第１、２、３の値を基にして特徴量を算出する算出手順とを実行することを特徴とする請求項１に記載の情報抽出プログラム。
前記記憶装置から所定の期間内の記事を抽出し、抽出した記事に含まれる前記特徴キーワードの数を示す第４の値を計数する第４計数手順と、所定の期間内の記事の総数を示す第５の値を計数する第５計数手順と、所定の期間内の記事の内で前記特徴キーワードを含む記事の数を示す第６の値を計数する第６計数手順と、前記第４、５、６の値を基にして各特徴キーワードの第２の特徴量を算出し、算出した第２の特徴量が閾値以上となる特徴キーワードを流行のキーワードとして抽出するトレンドキーワード抽出手順とを更にコンピュータに実行させることを特徴とする請求項１または２に記載の情報抽出プログラム。
利用者または複数の利用者から構成されるコミュニティによって作成された記事を管理し、前記記事から所定の情報を抽出する情報抽出装置であって、
前記利用者またはコミュニティによって作成された記事を記憶する記事記憶手段と、
前記記事記憶手段から所定の期間内に作成された記事を取得し、取得した記事に含まれるキーワードを特徴キーワードとして抽出する特徴キーワード抽出手段と、
前記利用者またはコミュニティによって作成された記事と前記特徴キーワードとを基にして前記利用者またはコミュニティに対する各特徴キーワードの特徴量を算出する特徴量算出手段と、
前記特徴量が閾値以上となる特徴キーワードを前記利用者またはコミュニティの特徴を示すプロファイルキーワードとして抽出するプロファイルキーワード抽出手段と、
基準となる利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を対応付けた基準プロファイルキーワード群と、他の利用者またはコミュニティの特徴を示す各プロファイルキーワードおよび当該プロファイルキーワードが記事中に出現する数を含んだ他のプロファイルキーワード群とを基にして類似度を算出し、当該類似度に基づいて前記基準となる利用者またはコミュニティに類似する他の利用者またはコミュニティを抽出する類似度算出手段と
を備えたことを特徴とする情報抽出装置。