JP5055202B2 - キーワード比較システム、キーワード比較方法およびキーワード比較プログラム - Google Patents

キーワード比較システム、キーワード比較方法およびキーワード比較プログラム Download PDF

Info

Publication number
JP5055202B2
JP5055202B2 JP2008141863A JP2008141863A JP5055202B2 JP 5055202 B2 JP5055202 B2 JP 5055202B2 JP 2008141863 A JP2008141863 A JP 2008141863A JP 2008141863 A JP2008141863 A JP 2008141863A JP 5055202 B2 JP5055202 B2 JP 5055202B2
Authority
JP
Japan
Prior art keywords
keyword
information
company
electronic file
outside
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008141863A
Other languages
English (en)
Other versions
JP2009289094A (ja
Inventor
忠輔 中川
吉川  裕
真 宮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008141863A priority Critical patent/JP5055202B2/ja
Publication of JP2009289094A publication Critical patent/JP2009289094A/ja
Application granted granted Critical
Publication of JP5055202B2 publication Critical patent/JP5055202B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、キーワード比較システム、キーワード比較方法およびキーワード比較プログラムに関し、特に社内外に出現するキーワード情報から経営者が意思決定する上で注視すべき情報を提示する技術に関する。
従来、イントラネットやインターネット等を通じて得ることのできる多様かつ膨大な情報の中から情報を選別し、提供するための様々な方法が提案されている。
特許文献1には、膨大かつ多種多様な電子情報の中から信頼度が高くかつ企業の経営に役立つ情報等、特定の利用者の利益となる情報のみを選別し、かつ、ただちに適切な対応を指示するような経営情報処理方法およびこのシステムに用いられるキーワード判定方法を提供する経営情報処理技術が記載されている。
特開2004−213660号公報
企業は内外部環境の変化に柔軟に対応しなければ経営が立ち行かなくなるため、その変化を素早く知り、適切に対処し、企業活動を展開することが重要である。
特許文献1によれば、膨大な電子情報から信頼度が高く企業経営に役立つ情報等を選別し、ただちに適切な対応を指示することができる。
しかし、予め設定したキーワードとの比較により情報選別を行っているため、新たに出現したキーワードの取得・記憶・展開ができないという課題がある。
また、新たなキーワードが出現した際に、経営者と社員、社外同業者の三者のうち、把握情報にギャップがあれば、競争環境に乗り遅れる、あるいは先走ってしまう場合があるため、経営者は社内および社外において新たなキーワードに関する情報がどの程度把握されているかを知るべきである。
本発明の目的は、企業内において出現するキーワードと、企業の外部環境において出現するキーワードとの出現回数のギャップの判定を可能とする手段を提供することにある。
また、本発明の他の目的は、外部環境におけるキーワードの発生を察知し、それに関する情報を提示する手段を提供することにある。
また、本発明のもう1つの目的は、複数の記憶装置に格納された電子ファイル中に出現するキーワードについて、それぞれの記憶装置間におけるキーワードの出現回数または出現頻度のギャップの判定を可能とする手段を提供することにある。
本発明は、上記課題の少なくとも一つを解決することを目的として、企業の内部および外部に存在する電子ファイルに含まれるキーワードを抽出して、抽出したキーワードに関する情報を記憶し、記憶したキーワードに関する情報に基づき、キーワードの企業の内部および外部に存在する電子ファイル中の出現回数または出現頻度をそれぞれ算出し、算出した出現回数または出現頻度を用いて、企業の内部および外部に存在する電子ファイル中のキーワードの出現回数または出現頻度のギャップを判定する手段を提供する。
抽出したキーワードのうち、企業の内部および外部に存在する前記電子ファイルの両方に含まれるキーワードを主要キーワードとし、企業の内部および外部に存在する電子ファイル中の主要キーワードの出現回数の比から矯正係数を算出し、キーワードの出現回数に対して矯正係数を用いることにより、キーワードの出現回数を矯正し、矯正した出現回数を用いて出現回数のギャップを判定する形態も考えられる。
あるいは、企業の内部および外部に存在する電子ファイルの両方に含まれるキーワードの、企業の内部に存在する電子ファイル中の出現回数の和に対して各キーワードが占める出現割合と、企業の外部に存在する電子ファイル中の出現回数の和に対して各キーワードが占める出現割合とをそれぞれ算出し、企業の内部に存在する電子ファイル中の出現割合が企業の外部に存在する電子ファイル中の出現割合より高いキーワードを主要キーワードとしてもよい。
また、本発明を複数の記憶装置を対象として適用することも可能である。その場合、複数の記憶装置に格納された電子ファイルに含まれるキーワードを抽出してキーワードに関する情報を記憶し、キーワードに関する情報に基づいて、キーワードの複数の記憶装置における出現回数または出現頻度をそれぞれ算出し、算出した出現回数または出現頻度を用いて、複数の記憶装置に格納された電子ファイル中のキーワードの出現回数または出現頻度のギャップを判定する。
その他、本願が開示する課題、およびその解決方法は、発明の実施の形態の欄、および図面により明らかにされる。
本発明によれば、企業が、外部環境の変化に追随できていない場合あるいは企業内で外部環境に過剰に先行して議論がなされている場合に警告を発することができ、それにより経営者や企業の社員が企業内部および外部の情報の変化を速やかに把握し、適切な対処を行うことが可能になる。
また、本発明によれば、複数の記憶装置に格納された電子ファイル中に出現するキーワードについて、それぞれの記憶装置間におけるキーワードの出現回数または出現頻度のギャップの判定を可能とする手段を提供することができる。
以下、本発明を、図1乃至図11を用いて説明する。なお、以下の実施例において、同一の構造部を持ち、同一の符号を付した部分は、原則として同一の動作を行うため、重複する説明を省略した。
(システム構成)図1は本実施形態のキーワード比較システム100を含むシステム構成図である。キーワード比較システム100(以下、システム100という)は、イントラネット/インターネット130に存在する電子ファイル中のキーワードのうち、企業内において出現するキーワードと、企業の外部において出現するキーワードとの出現回数のギャップを判定するシステムである。システム100の機能構成としては、本発明のキーワード比較方法を実行する機能を実現すべく、ハードディスクドライブなどの記憶装置101にプログラム102を備え、プログラム102をメモリ103に読み出し、演算装置たるCPU104により実行する。またシステム100は、各種ボタン類などの入力インターフェース105や、ディスプレイなどの出力インターフェース106、ならびに外部装置との間のデータ授受を担う通信装置107などを有している。システム100は、通信装置107により、イントラネット/インターネット130と接続されていてもよい。システム100の各種機能部や通信装置107との間では、I/O部108がデータのバッファリングや各種仲介処理を実行している。
続いて、システム100が例えばプログラム102に基づき構成・保持する機能部につき説明を行う。なお、システム100は、内外部情報データベース120と、キーワード情報データベース121と、非キーワード情報データベース122とを備える。各データベース120乃至122は、システム100のハードディスクドライブなどの適切な記憶装置101に備わるものとする。あるいは、これらデータベース120乃至122がシステム100とは別に通信ネットワーク上に存在することとしてもよい。この場合、システム100は例えばDBMS(DataBase Management System)を備え、通信ネットワークを介して各データベース120乃至122にアクセスし、情報登録や情報検索などの処理を実行するものとする。
システム100は、企業の内部および外部に存在する電子ファイルがイントラネット/インターネット130のどこに存在するかを示す情報を入力インターフェース105より受け付ける、内外部情報受信部110を備える。
例えば、企業の社員や経営者など(以下、ユーザという)が、入力インターフェース105から、社内あるいは社外の業務上重要であると考えられる情報リソース元を特定する情報を入力する。情報リソース元を特定する情報は例えばホームページのURL(Uniform Resource Locator)などが該当する。ユーザは、通信ネットワークなどを介してシステム100に接続されたパーソナルコンピュータなどの端末から、情報リソース元を特定する情報を入力することとしてもよい。ここで、ユーザが指定する社内の情報リソース元としては、社内ブログ、営業日報、電子メール、共有ファイルなどが、社外の情報リソース元としては、新聞、雑誌、学術誌、ブログなどがあり得る。ユーザにより入力される情報は、電子ファイルそのものを特定するURLなどではなく、電子ファイルが存在するインターネットのサイトなどを示すものであってよい。情報リソース元は複数指定することが可能である。
内外部情報受信部110は、例えば情報リソース元を特定する情報および情報リソース元名、企業内部あるいは外部の別を関連付けて内外部情報データベース120に格納する。また、企業の内部の任意の部署の部署情報を入力インターフェース105より受け付け、内外部情報データベース120に併せて格納する構成であってもよい。企業の部署情報とは例えば部署名であってもよい。部署情報を本処理で用いる場合、ユーザは当該部署の業務内容に関連する内容を含む情報リソース元を指定し、ギャップの判定は当該部署および企業外部に存在する電子ファイル内のキーワードについて行われる。
また、システム100は、内外部情報受信部110で受信した情報リソース元を特定する情報をもとに企業の内部および外部の電子ファイルを通信装置107を介して取得する内外部文書取得部111を備える。
例えば、ユーザが指定したURLが示すニュースサイトや部署内部の共有フォルダに、HTML(HyperText Markup Language)やPDF(Portable Document Format)などの形式で存在する電子ファイルを、通信装置107を介して取得し、HTML文書などをテキスト形式に変換した上で、変換して得られたテキスト文書情報を、電子ファイルを特定するURLなどの情報、取得日時、電子ファイルの作成者、ユーザが入力したリソース元名、社内あるいは社外の別、部署情報などの情報と共に内外部情報データベース120に格納する。取得日時とはシステム100がその電子ファイルを取得した日を指す。なお、ユーザが入力したURLなどの情報リソース元を特定する情報に誤りがあるなどの原因で、電子ファイルの取得が正常に行えなかった場合は、出力インターフェース106にエラーメッセージを表示し、以降の処理はその他の取得された電子ファイルについて行う。
また、システム100は、テキスト文書情報から、各文書情報内に含まれるキーワードを抽出し、キーワード情報をキーワード情報データベース121に格納する、キーワード抽出部112を備える。
キーワード抽出部112は、内外部情報データベース120に格納されたテキスト文書情報について形態素解析を実施し、得られた各形態素について非キーワード情報データベース122とのマッチングを行い、非キーワード情報データベース122内に存在しない形態素をキーワードとして抽出する。非キーワードとは、ユーザが着目する必要のない形態素を指す。非キーワードには名詞や動詞、助詞などすべての品詞を含み、予め非キーワード情報データベース122に格納されている。キーワードとして認識した形態素は、電子ファイルのURLなど情報リソース元を特定する情報、内部あるいは外部の別、取得日時および作成者、部署情報などの情報と共に、キーワード情報としてキーワード情報データベース121に格納する。
このようなキーワード抽出により、企業の内部および外部の電子ファイル内に存在するキーワードを網羅的に取得することができ、ユーザはキーワード情報データベース121を閲覧することにより社内外の動きを敏感に察知することが可能である。
企業あるいは部署の業務内容に関連せず、情報として不要であると考える形態素については、予め非キーワードとして登録しておくことも可能である。システム100は、ユーザが非キーワードとしたい形態素の情報を入力インターフェース105より受け付けて、非キーワード情報データベース122に格納する。こうすることで、ユーザが社内と社外における議論の活発さのギャップを知ろうとする際に、ユーザが注目する必要のないキーワードの情報を除外するため、社内外の情勢の変化を察知するために有益な業務内容に関連するキーワードのギャップ情報を効率良く示すことが可能である。また、指定した情報リソース元以外の電子ファイルからユーザが発見した任意のキーワード情報を、入力インターフェース105を用いてキーワード情報データベース121に登録できることとしてもよい。
また、システム100は、キーワード情報をもとに各キーワードの出現回数を算出し、メモリ103に格納する、出現回数算出部113を備える。
出現回数算出部113は、キーワード情報データベースに格納されたキーワード毎にキーワード情報データベース121内のレコード数を算出し、キーワードの出現回数として、キーワード情報データベース121に格納する。ここで、キーワードの出現回数は、キーワードを含んだ電子ファイルの取得日時を特定する情報と、本処理を実行する際の日時をもとに、電子ファイル取得からの経過日時に応じて出現回数の減衰処理を行い、処理後の重み付き出現回数をキーワード情報データベース121に格納することとしてもよい。出現回数の減衰処理方法については後述する。
出現回数の算出により、ユーザはキーワード情報データベース121を閲覧することで、各キーワードがどの程度活発に議論されているかを参考にしながら、企業の内部あるいは部署と外部とのギャップ情報を得ることが可能となる。
また、システム100は、各キーワードのうち、企業の内部あるいは部署および外部の両方に存在するキーワードを主要キーワードとし、主要キーワードの企業の内部の出現回数と外部の出現回数の比を示す矯正係数を算出し、メモリ103に格納する、矯正係数算出部114を備える。
例えば、企業あるいは任意の部署と企業の外部で任意のキーワードに関する議論が同程度に活発であったとしても、企業あるいは任意の部署および企業の外部においてキーワード抽出の対象とした情報リソースの量がそれぞれ異なった場合には、企業あるいは企業の内部の部署で出現するキーワードの出現回数と社外で出現するキーワードの出現回数の絶対数には差が生じる可能性がある。企業の内部および外部の情報を同じ尺度で比較するために、矯正係数を用いてキーワードの出現回数を矯正する。
また、主要なキーワードは、企業の内部あるいは任意の部署において、企業の外部に比して頻繁に出現するキーワードを指すこととしてもよい。例えば、企業あるいは企業の任意の部署における業務内容に関連するキーワードは、企業あるいは企業の任意の部署において、活発に議論されるために、出現回数が多くなることが考えられる。キーワードが新しく出現した際に、新出のキーワードが、企業あるいは任意の部署に関連する注目すべきキーワードである場合には、既出の主要キーワードと同様に活発に議論され、出現回数も他のキーワードに比して多くなることが期待される。矯正係数算出部114は、企業の内部および外部の両方に存在するキーワードについて、企業あるいは任意の部署における各キーワードの出現回数と、その合計値より、企業あるいは任意の部署(企業の内部)における各キーワードの出現回数の割合を算出し、さらに企業の外部における各キーワードの出現回数とその合計値より、企業の外部における各キーワードの出現回数の割合を算出し、各キーワードについて、企業の内部におけるキーワードの出現割合が、企業の外部におけるキーワードの出現割合よりも高いキーワードを主要キーワードとして採用し、メモリ103に格納する。主要キーワードは外部と内部の出現割合の差が大きいキーワード3つなどと予め数量を定めておいてもよい。
これにより、ユーザが所属する企業あるいは部署と外部のキーワードの出現回数を同じ尺度で比較することが可能となる。 また、システム100は、各キーワードの出現回数と、矯正係数とをもとに、企業の内部あるいは部署と外部における出現回数のギャップの有無を判定し、各キーワードのギャップ情報をメモリ103に格納する、ギャップ判定部115を備える。
各キーワードの企業の内部あるいは部署と外部の出現回数のギャップは、例えばカイ二乗検定の考え方を用いて判定する。ギャップの判定方法の具体例については後述する。
ギャップの判定には、企業の内部および外部における各キーワードの出現頻度、すなわち電子ファイル中の単位テキスト量あたりの出現回数を用いてもよい。この場合、システム100は出現頻度算出部(図示せず)を備え、企業の内部に存在する各電子ファイルにおける出現頻度の平均を算出し、同様に企業の外部に存在する各電子ファイルにおける出現頻度の平均を算出し、それぞれを企業の内部および外部における出現頻度とする。出現頻度を用いる場合、矯正係数は不要である。
また、システム100は、キーワードのギャップ情報を出力インターフェース106に出力する、ギャップ情報出力部116を備える。
ギャップ情報出力部116は、各キーワードのギャップ情報を、例えば「社内での議論が不足しています」などのメッセージと対応付けて、出力インターフェース106よりユーザに提供する。
(データベース構造)次に、本実施形態のシステム100が利用する、内外部情報データベース120と、キーワード情報データベース121と、非キーワード情報データベース122の各データ構造について説明する。
図2は、本実施形態における内外部情報データベース120のデータ構造200を示す図である。図2に示すように、内外部情報データベース120は、イントラネット/インターネット130に存在する電子ファイルの内容を、情報リソース元を特定する情報などとひも付けて格納するデータベースである。内外部情報データベース120に格納されたデータは、例えば、キーワード抽出部112で利用される。
内外部情報データベース120は、例えば、社内あるいは部署、社外の別、情報リソース元URLやリソース元名、電子ファイルの取得日時および作成者などといった情報を対応付けたレコードの集合体となっている。
また、図3は、本実施形態におけるキーワード情報データベース121のデータ構造300を示す図である。図3に示すように、キーワード情報データベース121は、キーワード抽出部112により抽出されたキーワードの情報を格納するデータベースである。キーワード情報データベース121に格納されたデータは、例えば、ギャップ判定部115により、ギャップの有無を判定するために利用される。
キーワード情報データベース121は、例えば、キーワード名をキーとして、社内あるいは部署、社外の別、キーワードを抽出した電子ファイルの情報リソース元URL、タイトル、取得日時および作成者と、キーワードの出現回数などといった情報を対応付けたレコードの集合体となっている。なお、図3の例においては、キーワードが1つ以上含まれる電子ファイル数を当該キーワードの出現回数としているが、出現回数を各電子ファイル内に存在するキーワードの数の総計として算出してもよい。
また、非キーワード情報データベース122は、非キーワードとする形態素を格納するデータベースである。非キーワード情報データベース122に格納されたデータは、キーワード抽出部112で利用される。
(処理フロー例)以下、本実施形態におけるキーワード比較方法に対応する処理フローの例について、図に基づき説明する。なお、以下で説明するキーワード比較方法に対応する各種動作は、システム100が、適宜メモリ103に読み出して実行するプログラム102によって実現される。プログラム102は、以下に説明される各種の動作を行うためのコードからそれぞれ構成されている。
図4は、本実施形態のキーワード比較方法の実施手順例を示すフロー図である。
まず、システム100の内外部情報受信部では、企業の内部および外部に存在する電子ファイルがイントラネット/インターネット130のどこに存在するかを示す情報を入力インターフェース105より受け付けて、メモリ103に格納する(401)。本実施形態では、図10に示す内外部情報入力画面1000上で、社内あるいは社外の別、関連部署名、情報リソース元名、情報リソース元アドレスを入力する。本実施形態では、ユーザは、企業あるいは部署の業務内容に関係する情報リソース元を社内、社外それぞれ1つ以上指定する。
内外部情報入力画面1000上で内外部の情報リソース元を特定する情報を入力したユーザによって内外部情報入力画面1000の「OK」ボタンが押下されると、内外部文書取得部111は、内外部情報リソース元を特定する情報を内外部情報データベース120に格納し、これに基づいて、企業の内部あるいは部署や外部の電子ファイルを、通信装置107を介して取得し、内外部情報データベース120に格納する(402)。
内外部情報入力画面1000上で、ユーザが部署選択部1001に入力することによって部署の選択を受け付けると、情報リソース元リスト1002に選択された部署名に対応する情報リソース元の情報を内外部情報データベース120から取得し、出力する。また、情報リソース元リスト1002の特定の情報リソース元の選択を受け付け、ユーザによって内外部情報入力画面1000の「削除」ボタンが押下されると、選択された情報リソース元に関する情報および情報リソース元に対応する電子ファイルの情報を内外部情報データベース120から削除する。
図5は、内外部情報取得手段402の詳細を示すフロー図である。内外部情報入力画面1000にて受信した内外部情報リソース元を特定する情報を内外部情報データベース120から読み出し、内外部情報リソース元を特定する情報をもとに、企業の内部あるいは部署や外部の電子ファイルを、通信装置107を介して取得し、メモリ103に格納する(501)。内外部文書取得501でメモリ103に格納された電子ファイルを、テキスト文書情報に変換し、再びメモリ103に格納する(502)。内外部文書取得501でメモリ103に格納された情報と同一のリソース元URLから取得された電子ファイルのテキスト文書情報が内外部情報データベース120に格納されているかを判定し(503)、存在しない場合は、情報テキスト化502でメモリ103に格納された内外部の電子ファイルのテキスト文書情報を、電子ファイルを特定するURLなどの情報、社内外の別、取得日時、電子ファイルの作成者、ユーザが入力したリソース元名、部署情報などの情報とともに内外部情報データベース120に格納する(504)。データベース更新判定503において、内外部文書取得501でメモリ103に格納されたテキスト文書情報と同一のリソース元URLから取得された電子ファイルのテキスト文書情報が内外部情報データベース120に格納されている場合は、情報テキスト化502でメモリ103に格納されたテキスト文書情報と内外部情報データベース120に格納されているテキスト文書情報を比較し、内容が同一である場合は、情報内容記録504は実施せず、前回電子ファイルを取得した後に同名のまま上書きされたなどの理由によりその内容が同一でない場合は情報内容記録504を実施する。この場合の情報内容記録504では、内外部情報データベース120に格納されている当該データを削除し、メモリ103に格納されたテキスト情報を、電子ファイルを特定するURLなどの情報、社内外の別、取得日時、電子ファイルの作成者、ユーザが入力したリソース元名、部署情報などの情報とともに内外部情報データベース120に格納する。取得日時は今回本処理を実行している日時となる。内外部情報データベース120に格納されている情報リソース元を特定する情報すべてについて、501乃至504の処理を繰り返す(505)。
次に、システム100のキーワード抽出部112は、テキスト文書情報から、各テキスト文書情報内に含まれるキーワードを抽出し、キーワード情報をキーワード情報データベース121に格納する(403)。なお、キーワード情報データベース121に、本処理実施より以前に格納されたデータが存在する場合は、キーワード抽出手段403の前にキーワード情報データベース121のデータを全て削除する。
図6は、キーワード抽出手段403の詳細を示すフロー図である。まず、テキスト文書情報1つを内外部情報データベース120から読み込み(601)、テキストを1文だけ切り出し、メモリ103に格納する(602)。1文の切り出し602において切り出した1文をメモリ103から取得し、形態素解析を実施して形態素を抽出し、メモリ103に格納する(603)。形態素解析603において抽出された形態素をメモリ103から取得し、取得した形態素すべてについて、非キーワード判定を行う(604)。具体的には、各形態素が、非キーワード情報データベース122内に存在するかを問い合わせる。非キーワード判定604の結果、非キーワードでない場合は、形態素をキーワードであると認識し(605)、形態素(キーワード)および当該形態素を抽出した電子ファイルの情報リソース元URL、社内あるいは部署、社外の別、タイトル、取得日時および作成者などの情報を1レコード分のキーワード情報とし、キーワードごとに仕分けしてキーワード情報データベース121に格納する(606)。このとき、それぞれのキーワードについて、各レコードを社内と社外に分けて格納する。テキスト文書情報全文について、602乃至606の処理を行う(607)。また、内外部情報データベース120に格納されているテキスト文書情報すべてについて、601乃至607の処理を行う(608)。
次に、システム100の出現回数算出部113は、キーワード情報をもとに、各キーワードの出現回数を算出し、キーワード情報データベース121に格納する(404)。
図7は、出現回数算出手段404の詳細を示すフロー図である。まず、1つのキーワードのキーワード情報を、キーワード情報データベース121からすべて読み込む(701)。企業の内部あるいは部署により取得した各電子ファイルに含まれるキーワードのレコード数の総計を、企業の内部あるいは部署における当該キーワードの出現回数として、キーワード情報データベース121に格納する。また、企業の外部より取得した各電子ファイルに含まれるキーワードのレコード数の総計を、企業の外部における当該キーワードの出現回数として、キーワード情報データベース121に格納する(702)。キーワード情報データベース121に格納されているキーワード情報すべてについて、701および702の処理を行う(703)。
また、情報の価値が時間の経過に従って低下することを考慮し、それぞれの電子ファイルを取得した日時からの経過日時に応じて、キーワードの出現回数の重みを減衰させる処理を行ってもよい。この場合、701乃至703の処理は以下の通りとなる。
まず、1つのキーワードのキーワード情報を、キーワード情報データベース121からすべて読み込む(701)。このとき、キーワード情報には、キーワードが出現する電子ファイルの取得日時を含む。出現回数算出702では、数1のような重み付き出現回数算出式を用いて出現回数の減衰処理を行う。
Figure 0005055202
数1ではキーワードxが出現する電子ファイルの取得日時と現在日時の差を例えば出現時期tヶ月とし、tヶ月前時点での単純な出現回数をx_times(t)としたときの、キーワードx の重み付き出現回数を算出する。
数1によって算出した重み付き出現回数を、キーワード情報データベース121に格納する(702)。キーワード情報データベース121に格納されているキーワード情報すべてについて、701および702の処理を繰り返す(703)。
電子ファイルを取得してからの経過日時に応じて出現回数の重みを減衰させることにより、時間経過による情報の価値の低下を考慮してキーワードのギャップ判定を行うことができる。
次に、システム100の矯正係数算出部114は、各キーワード情報のうち、企業の内部あるいは部署および外部の両方に存在するキーワードの、企業の内部の出現回数と外部の出現回数の比を示す矯正係数を算出し、メモリ103に格納する(405)。
図8は、矯正係数算出手段405の詳細を示すフロー図である。まず、キーワード情報データベース121に格納されている、キーワード情報を読み出し、企業の内部および外部の両方に存在するキーワードについて、企業あるいは任意の部署における当該のキーワードの出現回数とその合計値より、企業あるいは任意の部署(企業の内部)における当該キーワードの出現回数の和に占める各キーワードの出現割合を算出し、メモリ103に格納する。また、企業の外部における当該のキーワードの出現回数とその合計値とより、企業の外部における当該キーワードの出現回数の和に占める各キーワードの出現割合を算出し、メモリ103に格納する(801)。メモリ103に格納された各キーワードとその内外部それぞれにおける出現割合を読み出し、企業の内部のキーワードの出現割合が、企業の外部のキーワードの出現割合と同じかそれより高いキーワードを主要キーワードとし、主要キーワードのキーワード情報をすべてメモリ103に格納する(802)。メモリ103より主要キーワードのキーワード情報を読み出し、主要キーワードの企業の内部の出現回数と外部の出現回数の比を算出し、矯正係数としてメモリ103に格納する(803)。このとき、主要キーワードは、キーワード情報データベース103に格納された、企業の内部および外部の両方に存在するすべてのキーワードとしてもよい。
具体的には数2のような矯正係数算出式を用いて矯正係数を算出する。
Figure 0005055202
数2のうち、1行目の式では、主要キーワードの企業の内部の出現回数と外部の出現回数の比の算出式を示している。各出現回数たるFA(x)およびFB(x)は2行目又は3行目の式で示している。2行目の式は主要キーワードの出現回数FA(x)を示している。集合Aは企業あるいは部署に存在するキーワード情報の集合を示している。3行目の式は主要キーワードの出現回数FB(x)を示している。集合Bは企業の外部に存在するキーワード情報の集合を示している。主要キーワードが複数である場合の出現回数FA(x)およびFB(x)は、すべての主要キーワードの出現回数の合計値である。
また、システム100のギャップ判定部115は、各キーワードの出現回数と、矯正係数とをもとに、企業の内部あるいは部署と外部における出現回数のギャップの有無を判定し、各キーワードのギャップ情報をメモリ103に格納する(406)。
図9は、ギャップ判定手段406の詳細を示すフロー図である。まず、矯正係数をメモリ103から読み出す(901)。また、キーワード情報データベース121に格納されているキーワードを1つ読み出す(902)。次に、読み出した1つのキーワードについて、ユーザの所属する企業あるいは部署と、外部との出現回数のギャップの大きさを算出し、メモリ103に格納する(903)。例えば、数3のようなギャップ算出式を用いる。
Figure 0005055202
上下に2つ並んだ数3のうち、上の式では、企業あるいは部署と、企業の外部におけるキーワードの出現回数のギャップの算出式を示している。キーワードをxとし、キーワードxの企業の内部あるいは部署での出現回数FA(x)、キーワードxの企業の外部での出現回数FB(x)、矯正係数α、および下の式で示される、FA(x)とFB(x)の平均値E(x)とから、カイ二乗を算出する。
ギャップの大きさたるカイ二乗値をメモリ103より読み出し、ギャップの有無の判定を実施し、キーワードのギャップの有無を、メモリ103に格納する(904)。例えば、自由度2、有意水準5%としたとき、カイ二乗値が5.99より大きい値であればギャップが有ると判定し、5.99より小さい値であればギャップが無いと判定する。このような判定基準は、例えばカイ二乗分布表から求めて設定する。ギャップがあると判定した場合は、FA(x)とα*FB(x)の値を比較し、FA(x)の方が大きい場合は企業内部での議論が外部に比べて過剰に先行しており、小さい場合は企業内部での議論が不足している(外部に追随できていない)と判定し、判定結果をギャップ情報としてメモリ103に格納する(905)。キーワード情報データベース121に格納されているキーワード情報すべてについて、902乃至905の処理を繰り返す(906)。
また、システム100のギャップ情報出力部116は、キーワードのギャップ情報を出力インターフェース106に出力する(407)。
図11は、キーワードのギャップ情報の出力例を示す画面図である。ギャップ情報出力表示画面1100は、例えば、キーワード一覧表1101、出現回数出力部1102、キーワード選択部1103、メッセージ部1104を含む。キーワード一覧表1101は各キーワードをキーとして、情報リソース元やギャップの値、出現回数などを示し、ギャップが有ると判定されたキーワードの欄をハイライトする。初出日は、各キーワードを抽出したうちで最も古い電子ファイルの取得日を表している。主要キーワードには◆印がつけられている。なお、図11で表示しているキーワード一覧表1101の内容は、全情報の一部分である。出現回数出力部1102は、選択されたキーワードの出現回数を時系列に並べ、企業の内部および外部に分けて表示する。情報を表示されるキーワードは、例えば、キーワード選択部1103でユーザが入力したキーワードの選択を入力インターフェース105より受け付け、メモリ103に格納するキーワードである。選択されたキーワードのギャップ情報に対応して、例えば、「社内での議論が不足しています」などのメッセージ1104を表示する。ギャップ情報出力画面1100は、出力インターフェース106から、ディスプレイ画面に表示する。内外部情報受信部110において部署情報を受け付ける構成である場合は、ギャップ情報出力画面1100は部署毎のギャップ情報を出力する。
以上で本フローの処理は終了する。
以上説明したように、本発明では矯正係数算出部という構成を持つことにより、ユーザが所属する企業あるいは部署と外部のキーワードの出現回数を同じ尺度で比較できるという効果を奏する。
なお、記載した実施例では、企業の内部あるいは部署、外部に存在する情報リソースにおけるキーワードのギャップを判定するものとしたが、例えば、処理の対象が単なるデータベースである場合や、複数のデータベースを対象とする場合など、データベースのギャップを判定する手段であれば、記載した実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適時変更が可能である。
本実施形態のキーワード比較システムの構成図である。 本実施形態における内外部情報データベースのデータ構造例を示す図である。 本実施形態におけるキーワード情報データベースのデータ構造例を示す図である。 本実施形態のキーワード比較方法に対応する処理フロー例を示す図である。 本実施形態のキーワード比較方法における内外部情報取得フロー例を示す図である。 本実施形態のキーワード比較方法におけるキーワード判定処理フロー例を示す図である。 本実施形態のキーワード比較方法におけるキーワード出現回数算出処理フロー例を示す図である。 本実施形態のキーワード比較方法における矯正係数算出処理フロー例を示す図である。 本実施形態のキーワード比較方法におけるギャップ判定処理フロー例を示す図である。 本実施形態のキーワード比較方法における内外部情報取得処理フロー例において使用されるディスプレイ表示画面の一例を示す図である。 本実施形態のキーワード比較方法におけるギャップ情報出力処理フロー例において使用されるディスプレイ表示画面の一例を示す図である。
符号の説明
100 キーワード比較システム
101 記憶装置、ハードディスクドライブ
102 プログラム
103 メモリ
104 CPU
105 入力インターフェース
106 出力インターフェース
107 通信装置
108 I/O部
110 内外部情報受信部
111 内外部文書取得部
112 キーワード抽出部
113 出現回数算出部
114 矯正係数算出部
115 ギャップ判定部
116 ギャップ情報出力部
117 内外部情報データベース更新部
118 非キーワード情報データベース更新部
119 キーワード情報データベース更新部
120 内外部情報データベース
121 キーワード情報データベース
122 非キーワード情報データベース
130 イントラネット/インターネット

Claims (9)

  1. 企業の内部および外部に存在する電子ファイル中のキーワードの出現回数または出現頻度のギャップを判定するキーワード比較システムであって、
    企業の内部および外部に存在する前記電子ファイルに含まれるキーワードを抽出して前記キーワードに関する情報を記憶するキーワード抽出部と、
    前記キーワードに関する情報に基づき、企業の内部および外部に存在する前記電子ファイル中の前記キーワードの出現回数または出現頻度をそれぞれ算出する出現回数/出現頻度算出部と、
    算出した前記出現回数または出現頻度を用いて、企業の内部および外部に存在する前記電子ファイル中の前記キーワードの出現回数または出現頻度のギャップを判定するギャップ判定部と
    前記キーワードのうち、企業の内部および外部に存在する前記電子ファイルの両方に含まれるキーワードを主要キーワードとし、企業の内部および外部に存在する前記電子ファイル中の前記主要キーワードの出現回数の比から矯正係数を算出する矯正係数算出部とを備え、
    前記ギャップ判定部は、前記キーワードの出現回数に対して前記矯正係数を用いることにより、前記キーワードの出現回数を矯正し、矯正した前記出現回数を用いて、企業の内部および外部に存在する前記電子ファイル中の前記キーワードの出現回数のギャップを判定することを特徴とするキーワード比較システム。
  2. 請求項1記載のキーワード比較システムにおいて、
    前記矯正係数算出部は、企業の内部および外部に存在する前記電子ファイルの両方に含まれる前記キーワードの、企業の内部に存在する前記電子ファイル中の出現回数の和に対して各前記キーワードが占める出現割合と、企業の外部に存在する前記電子ファイル中の出現回数の和に対して各前記キーワードが占める出現割合をそれぞれ算出し、企業の内部に存在する前記電子ファイル中の出現割合が企業の外部に存在する前記電子ファイル中の出現割合より高いキーワードを前記主要キーワードとすることを特徴とするキーワード比較システム。
  3. 請求項2に記載のキーワード比較システムにおいて、
    ネットワークを介して前記電子ファイルを取得し記憶する内外部情報取得部を備え、
    前記内外部情報取得部は、前記電子ファイルをテキスト形式に変換してテキスト文書情報として記憶し、
    前記キーワード抽出部は、記憶した前記テキスト文書情報に対して形態素解析を行うことにより前記キーワードを抽出することを特徴とするキーワード比較システム。
  4. 請求項3記載のキーワード比較システムにおいて、
    形態素を予め記憶する手段を備え、
    前記キーワード抽出部は、予め記憶した前記形態素とは異なる形態素をキーワードとして抽出し、抽出した前記キーワードに関する情報を記憶することを特徴とするキーワード比較システム。
  5. 請求項3または4に記載のキーワード比較システムにおいて、
    前記内外部情報取得部は、取得した前記電子ファイルと同一の場所より取得した、当該電子ファイルとは異なる情報が既に記憶されている場合には、当該電子ファイルの情報を前記異なる情報に上書きして記憶することを特徴とするキーワード比較システム。
  6. 請求項5に記載のキーワード比較システムにおいて、
    前記内外部情報取得部は、取得した前記電子ファイルと同一の情報が既に記憶されている場合には、当該電子ファイルの情報を新たに記憶しないことを特徴とするキーワード比較システム。
  7. 請求項3乃至6のいずれか1つに記載のキーワード比較システムにおいて、
    前記内外部情報取得部は、複数の前記電子ファイルを取得可能であり、
    前記出現回数/出現頻度算出部は、取得した企業の内部に存在する複数の前記電子ファイル中の前記キーワードの出現回数の総和または出現頻度の平均と、取得した企業の外部に存在する複数の前記電子ファイル中の前記キーワードの出現回数の総和または出現頻度の平均をそれぞれ算出し、
    前記ギャップ判定部は、前記出現回数の総和または出現頻度の平均を用いて、企業の内部および外部に存在する複数の前記電子ファイル中の前記キーワードの出現回数または出現頻度のギャップを判定することを特徴とするキーワード比較システム。
  8. 請求項1乃至7のいずれか1つに記載のキーワード比較システムにおいて、
    前記ギャップ判定部は、前記キーワードの出現回数に対して前記矯正係数を用いた値のカイ二乗値を算出し、前記カイ二乗値を用いて企業の内部および外部に存在する前記電子ファイル中の前記キーワードの出現回数のギャップを判定し、判定結果を出力インターフェースに出力することを特徴とするキーワード比較システム。
  9. 請求項1乃至8のいずれか1つに記載のキーワード比較システムにおいて、
    前記出現回数/出現頻度算出部は、前記電子ファイルの取得日時および前記キーワードに関する情報に基づき、前記キーワードの出現回数または出現頻度に対して前記取得日時からの経過時間に応じた重み付けを行うことを特徴とするキーワード比較システム。
JP2008141863A 2008-05-30 2008-05-30 キーワード比較システム、キーワード比較方法およびキーワード比較プログラム Expired - Fee Related JP5055202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008141863A JP5055202B2 (ja) 2008-05-30 2008-05-30 キーワード比較システム、キーワード比較方法およびキーワード比較プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008141863A JP5055202B2 (ja) 2008-05-30 2008-05-30 キーワード比較システム、キーワード比較方法およびキーワード比較プログラム

Publications (2)

Publication Number Publication Date
JP2009289094A JP2009289094A (ja) 2009-12-10
JP5055202B2 true JP5055202B2 (ja) 2012-10-24

Family

ID=41458243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008141863A Expired - Fee Related JP5055202B2 (ja) 2008-05-30 2008-05-30 キーワード比較システム、キーワード比較方法およびキーワード比較プログラム

Country Status (1)

Country Link
JP (1) JP5055202B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5422409B2 (ja) * 2010-01-20 2014-02-19 株式会社東芝 業務分析システム及び業務分析プログラム
CN113407487A (zh) * 2021-06-07 2021-09-17 广东辰宜信息科技有限公司 数据文件管理方法、系统及计算机可读存储介质
KR102418004B1 (ko) * 2021-12-21 2022-07-06 노무법인 더원인사노무컨설팅 인공지능 기반 노무 리스크 자가진단 방법, 장치 및 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3583631B2 (ja) * 1998-12-03 2004-11-04 三菱電機株式会社 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
EP1936520A1 (en) * 2005-10-11 2008-06-25 Intellectual Property Bank Corp. Company technical document group analysis supporting device
JP4837989B2 (ja) * 2005-12-26 2011-12-14 株式会社野村総合研究所 文献情報分析装置及び文献情報分析方法
JP2008003717A (ja) * 2006-06-20 2008-01-10 Fuji Xerox Co Ltd 情報提供拠点評価装置

Also Published As

Publication number Publication date
JP2009289094A (ja) 2009-12-10

Similar Documents

Publication Publication Date Title
US10180980B2 (en) Methods and systems for eliminating duplicate events
JP4772378B2 (ja) Webページから時系列データを生成する方法及び装置
US6782423B1 (en) Hypertext analyzing system and method
JP2011022705A (ja) 証跡管理方法、システム、及びプログラム
US20150066478A1 (en) Synonym relation determination device, synonym relation determination method, and program thereof
JP2008310582A (ja) 保守作業支援装置とシステム並びに保守作業支援方法
JP2008033687A (ja) 検索クエリー作成装置
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
JP2018206361A (ja) ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス
JP5125558B2 (ja) 推薦情報提供装置、推薦情報提供方法、推薦情報提供システムおよび推薦情報提供プログラム
JP2009230663A (ja) ウェブページの異常検知装置、プログラム、および記録媒体
JP4636473B2 (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP5294002B2 (ja) 文書管理システム、文書管理プログラム及び文書管理方法
JP5228584B2 (ja) 興味情報特定システム、興味情報特定方法、および興味情報特定用プログラム
US7853606B1 (en) Alternate methods of displaying search results
JP5055202B2 (ja) キーワード比較システム、キーワード比較方法およびキーワード比較プログラム
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP5954053B2 (ja) 検索支援システム、検索支援方法、およびコンピュータプログラム
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
JP2004295836A (ja) 文書管理方法
JP2009199356A (ja) ファイルイベント相関生成装置、管理装置、及びコンピュータプログラム
JP2009252123A5 (ja)
JP2010224752A (ja) 情報処理装置、データ記憶方法及びプログラム、並びに情報処理システム
JP2010146031A (ja) 情報分析装置、情報分析方法、及び情報分析用プログラム
JP5046634B2 (ja) 情報検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120730

R151 Written notification of patent or utility model registration

Ref document number: 5055202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees