JP4802523B2 - 電子メッセージ分析装置および方法 - Google Patents

電子メッセージ分析装置および方法 Download PDF

Info

Publication number
JP4802523B2
JP4802523B2 JP2005068726A JP2005068726A JP4802523B2 JP 4802523 B2 JP4802523 B2 JP 4802523B2 JP 2005068726 A JP2005068726 A JP 2005068726A JP 2005068726 A JP2005068726 A JP 2005068726A JP 4802523 B2 JP4802523 B2 JP 4802523B2
Authority
JP
Japan
Prior art keywords
electronic message
cluster
user
sender
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005068726A
Other languages
English (en)
Other versions
JP2006252242A (ja
Inventor
則之 倉林
伸宏 山崎
隆志 園田
正和 藤本
正道 高橋
啓一 根本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005068726A priority Critical patent/JP4802523B2/ja
Publication of JP2006252242A publication Critical patent/JP2006252242A/ja
Application granted granted Critical
Publication of JP4802523B2 publication Critical patent/JP4802523B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、組織における情報流通の構造や効率を分析する電子メッセージ分析技術に関し、とくに、分析対象を動的なクラスタに分類してこのクラスタを通じて電子メッセージ分析を行なおうとするものである。
企業等の組織を対象に、アンケートや通信履歴等のデータを用いて人間の関係性に基づいた情報流通の構造や効率を分析するのが本発明の課題である。具体的には、個人間のやり取りのデータを用いて、組織構造を反映した、部門や拠点同士の関係や、そこでのキーパーソンを特定することが特に重要である。従来技術では、ひとつの電子メールのやり取りに関与した人の情報から、関与者の所属部門を特定する技術や、人脈情報をシステム間で共有することによって、広範囲のネットワークから任意の属性を持つ人物を特定する技術等が提案されている。例えば、特許文献1では、電子メールシステムにおいて案件識別子を用いて電子メールを案件というグループで管理し、ユーザが関与するグループやそのグループに関与する組織等を検索表示することを開示している。また、特許文献2では、電子メッセージの流通履歴に基づいてメッセージの送受信者、内容に基づいて人脈情報を構築して利用できるようにすることを開示している。しかしながら、情報流通が組織内でも一様ではなくその構造や活動量も偏在していることに着目するものではなく、その結果、情報流通の状態を反映させて情報流通をクラスタに分類し、このクラスタを通じて流通情報の構造や効率を分析することについては何ら着目するものではない。
特開2002−14903公報 特開2001−175680公報
この発明は、以上の事情を考慮してなされたものであり、対象境界内のメッセージ伝送イベントまたはその状態を反映させてクラスタに分類し、そのクラスタを通じてメッセージ伝送を分析するメッセージ分析技術を提供することを目的としている。
この発明の構成例においては、組織におけるメッセージ例えば電子メールを用いた情報展開の経路を調査し、その結果から組織内の情報の分布や展開の効果および効率を推定する。具体的なメッセージ分析装置は、部門や拠点といった組織に固有の関係データを用いて、メールの送受信ログ(完全なメールデータを含む)から抽出される個人間の関係データから任意の境界を設定する手段と、当該境界内で送受信されたメールのデータからクラスタを作成するクラスタ作成手段と、メール1通あるいは単位時間あたりのクラスタの変化を確認する手段とを備えている。
クラスタを作成することにより、境界内の情報流通を一様に扱うのでなく、より小さな単位で分析することが可能となる。
クラスタを作成する基準には、例えば、メールの題名、本文テキスト、添付文書の情報を用いる。あるいは、クラスタを作成する基準に、各々のメールの送信先としての指定回数に基づく確率データを用いる。さらに、クラスタを作成する基準に、メールの送信時間間隔を用いる。
クラスタ作成時の閾値を設定し、メール1通あるいは単位時間毎に変化分を再計算し提示するようにしてもよい。
さらにこの発明を説明する。
この発明によれば、上述の目的を達成するために、メッセージ分析装置に:所定の分析境界内を流通する電子メッセージを分類する1または複数のクラスタを、作成するクラスタ作成手段と;上記クラスタ作成手段により作成されたクラスタごとに、当該クラスタに含まれる電子メッセージを分析するメッセージ分析手段とを設けるようにしている。
この構成においては、境界内の情報流通を一様に扱うのでなく、より小さな単位で分析することが可能となる。
また、この構成において、上記分析境界を設定する分析境界設定手段をさらに設けても良い。
また、上記クラスタ作成手段は、クラスタを作成する基準に電子メッセージの題名、本文テキスト、および添付文書の少なくとも1つ用いてクラスタ作成を行なってもよいし、上記電子メールの送信先としての指定回数に基づく確率データを用いてクラスタ作成を行なってもよいし、上記電子メールの送信時間間隔を用いてクラスタ作成を行なってもよいし、その他種々の基準でクラスタと作成しても良い。
また、上記クラスタ作成手段は、クラスタ作成時の閾値を設定し、電子メッセージ(メール)1通あるいは単位時間毎に変化分を再計算し提示してもよい。
また、上記分析手段は、上記電子メッセージからキーワードを抽出したり、上記電子メッセージの平均出次数を計算すしたり、上記電子メッセージの平均転送時間間隔を計算するが、これに限定されず、メッセージ転送を分析する種々の指標を計算して用いることができる。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、境界内の情報流通を一様に扱うのでなく、より小さな単位で分析することが可能となる。
以下、この発明の実施例について説明する。
図1は、この発明を電子メール分析システム1000に適用した実施例を全体として示している。この電子メール分析システム1000は電子メールシステム(メールサーバ)の一部として構成されても良いし、電子メールサーバと別個のシステムとして構成されても良い。この例では電子メール分析システム1000を単一のコンピュータ1001に実装しているが、複数のコンピュータを複合的に用いて電子メール分析システムを構築しても良い。例えば、電子メール分析システムをサーバコンピュータおよびクライアント装置を用いて構築しても良い。コンピュータは周知のとおりCPU、メインメモリ、入出力装置等を含んで構成される。なお、電子メール分析システム1000は、例えば電子メール分析用コンピュータプログラムを記録した記録媒体1002を用いてコンピュータ1001にインストールして実現できる。
図1において、電子メール分析システム1000は、メールログデータベース10、名簿データベース11、メールデータ解析部12、送受信者特定部13、メール本文類似性判定部14、添付文書同一性判定部15、流通経路特定部16、閾値設定部17、境界検出部18、境界設定部19、境界内流通情報特定部20、ユーザインタフェース部21等を含んで構成されている。境界内流通情報特定部20はクラスタ作成部22、クラスタ内データ処理部23等を含んで構成されている。
メールログデータベース10は、メールシステム2000が処理する電子メールに関するログ情報をメールシステム2000から取得する。メールシステム2000はRFC(リクエストフォーコメント)2822、RFC2045−2049等の標準的なプロトコルに準拠するものであり、メールログデータベース10に保持されるメールデータは、例えば図2(a)に示すようなものであり、例えば、メールヘッダ、メール本文、添付文書からなる。
名簿データベース11は、ユーザごとにメールアドレス、部門、拠点等の情報を管理するものであり、具体的には図2(b)に示すように、ユーザテーブル、部門テーブル、拠点テーブルを保持管理する。名簿データベース11は他のユーザ管理システム例えばディレクトリサービスシステムのデータベースを用いても良い。
メールデータ解析部12は、電子メールの流通経路等を分析するための情報を抽出するものであり、例えば図3に示すようなメールデータテーブルを生成する。メールデータテーブルは、これに限定されないが、メールID、日時、送信者ID、受信者ID、題名、本文キーワード、添付文書情報等を保持する。メールIDは電子メールごとに一意に割り振られたものである。日時はメールヘッダの「Date:」フィールドに記述されたものである。送信者IDは、メールヘッダの「From:」フィールドに記述されたアドレスを持つユーザのIDを名簿データベース11を参照して取得したものである。受信者IDは、メールヘッダの「To:」フィールドに記述されたアドレスを持つユーザのIDを名簿データベース11を参照して取得したものである。題名はメールヘッダの「Subject:」フィールドに記述されたものである。本文キーワード(重み)は、キーワード集合に含まれる各キーワードのメール本文における重みであり、具体的には図4を参照して後に説明する。添付文書情報は、メールデータの添付文書部分のフィールドから抽出したファイル名、タイプ、サイズ等である。
流通経路特定部16は、送受信者特定部13、メール本文類似性判定部14、添付文書同一性判定部15からの特定データ、判定データに基づいて電子メールの流通経路を特定するものである。ここでは示さないが、電子メールのタイトルを用いても良い。閾値設定部17は流通経路特定部16における流通経路特定に関連する閾値を設定するものである。
送受信者特定部13は名簿データベース11を参照して送信者および受信者のメールアドレスから送受信のIDを取得する。
メール本文類似性判定部14、添付文書同一性判定部15、流通経路特定部16等については後に詳述する。
境界検出部18は、境界設定部19の設定値に基づいて、流通経路を参照して流通経路内で送受信される電子メールを特定する。境界検出部18の詳細についても後述する。
境界内流通情報特定部20は、クラスタ作成部22およびクラスタ内データ処理部23等を含み、クラスタ作成部22は、境界内を流通する電子メールをクラスタリングしてクラスタに分類し、クラスタ内データ処理部23はクラスタごとに電子メールを分析する。これらの詳細についても後に説明する。
つぎにメールデータ解析部12の本文キーワード(重み)の生成処理について説明する。
本文キーワードwm1,wm2,wm3,…,wmn、はメールmに含まれるキーワードTm1,Tm2,Tm3,…,Tmnの重みであり、例えば、次式で計算される(所謂tfidfと呼ばれる重みづけ。詳細は、Salton,G.et al.Automatic Structuring and Retrieval of Large Text Files,CACM,37(2),1994を参照されたい)
である。
図4は、tfを計算する処理を示し、その詳細は以下の通りである。
[ステップS10]:メール本文を形態素解析辞書を用いて周知の手法で形態素解析を行なう。
[ステップS11]:最初の形態素(トークン)をTに代入する。
[ステップS12]:Tが空かどうかを判別し、空であれば、メール本文中の最後の形態素も処理されているので、tfの計算処理を終了する。空でなければステップS13へ進む。
[ステップS13]:キーワード辞書DICTを表引きしてTと一致するキーワードがあるかどうかを判別する。あればステップS14へ進み、なければ、ステップS14をスキップしてステップS15へ進む。
[ステップS14]:該当するキーワードのカウンタを1だけ増分する。
[ステップS15]:つぎの形態素をTに代入してステップS12へ進み処理を繰り返す。
以上のようにして各キーワードの出現数tfを求めることができる。
tfに基づいてidfを求めることができ、最終的にキーワードの重みを算出できる。
つぎにメール本文類似性判定部14の処理について説明する。
ここで、メール本文類似性判定部14は、メールデータ解析部12が出力したメールデータテーブル(図3)に格納される本文キーワードを用いて、任意の2通のメールの本文の類似性を判定する。アルゴリズムは例えば、上述のSalton,G.et al.Automatic Structring and Retrieval of Large Text Files,CACM,37(2),1994等の手法を用いるがこれに限定されない.
本文キーワードのキーワード集合の選定方法は、任意の手法を採用でき、この実施例ではとくに規定しない。この例では、事前に準備した辞書を用いても良いし、蓄積されたメールデータの中から例えば使用頻度の高いものをキーワードとして抽出しても良い。
メールMSの本文キーワードTS1,TS2,…,TStに対する重みwS1,wS2,…,wStを前述の式(1)を用いて計算する。メールMの本文キーワードの重みも同様に計算される。
メールMSおよびMの間の類似性は次式で求められる。
図5はメール本文類似性判定部14の処理例を示しており、この処理例は以下のとおりである。ここで、メールMSの
[ステップS20]:メールMS、Mのキーワード(重みベクトル)をDS、DMに代入する。
[ステップS21]:DSとDMとの類似度(sim)を式(2)で計算する。
[ステップS22]:類似度が閾値より大きければステップS23へ進み、閾値以下であるべステップS24へ進む。
[ステップS23]:イエス(類似)を出力する。
[ステップS24]:ノー(非類似)を出力する。
以上のようにしてメール本文の類似性を判断する。
つぎに添付文書同一性判定部15について説明する。
添付文書の同一性は、添付文書のファイル名、ファイルタイプ、ファイルサイズから判定する。添付文書のファイル名、ファイルタイプは図6に示すように判別されて抽出され、ファイルサイズは正味の添付文書のサイズを計算して求める。
図7は、添付文書のファイル名、ファイルタイプ、ファイルサイズから添付文書の同一性を判定する例を示しており、この例では以下のように処理が行なわれる。なお、複数の添付文書が有る場合には、以下の処理が繰り返し行なわれる。
[ステップS30]:メールiおよびメールjの添付文書のタイプをそれぞれtypeiおよびtypejに代入する。
[ステップS31]:typei=typejであればステップS32に進み、そうでなければステップS36へ進み、同一でないと判別する。
[ステップS32]:メールiおよびメールjの添付文書名をそれぞれnameiおよびnamejに代入する。
[ステップS33]:namei=namejであればステップS34へ進み、そうでなければステップS36へ進み、同一でないと判別する。
[ステップS34]:メールiおよびメールjの添付文書サイズをそれぞれsizeiおよびsizejに代入する。
[ステップS35、S36]:namei=namejであればステップS36に進み同一であると判別し、そうでなければ同一でないと判別する。以上で処理を終了する。複数の添付文書がある場合には処理を繰り返す。
以上のようにして添付文書の同一性を判定する。
つぎに流通経路特定部16について説明する。
流通経路特定部16は、情報がどのように流通したかを特定するものであり、この例では、あるユーザが受け取った電子メールと当該ユーザが送信した電子メールとの間で添付文書が同一な場合、またはメール本文が類似している場合には、当該ユーザを介して情報が流通したと判定していき、情報の流通経路を特定する。
図8は、流通経路特定部16で特定された流通経路を表す経路テーブルの例を示している。図8(a)の例は、メールM1、M2、M5、・・・、M12により情報が流通していく状態を示す。この場合、各メールの受信者が単一となっているが、複数でも良く、この場合、図8(b)に示すようになる。この例は、図8(c)に示すように電子メールが転送された例に対応し、メールM5、M6が異なる2人の受信者にそれぞれ送信され、またメールM9、M18も異なる2人の受信者にそれぞれ送信される。
図9は、流通経路特定部16の経路特定処理の概略例を示しており、この概略的な処理は以下のとおりである。
[ステップS40]:最初のメールをMSに代入する。MID(メールID)は1である。
[ステップS41]:経路増分処理を行なう。経路増分処理は、当該メールの受信者が発信したメールが同一内容の情報を点々と流通させるものかどうかを判別し同一内容の場合には図8の経路テーブルを一マス増分させる処理である。具体的にはメール本文が類似しているか、あるいは添付文書が同一の場合には同一内容が流通していると判別するが、これに限定されない。この経路増分処理の詳細は図10に示す。
[ステップS42]:MIDを1だけ増分してそのメールをMSに代入する。
[ステップS43]:MSが最後であれば処理を終了し、残っていればステップS41に戻って処理を繰り返す。
以上の処理により図8に示すような経路テーブルを取得できる。
つぎに図9のステップS41の経路増分処理について説明する。図10はこの経路増分処理を示しており、この処理は以下のとおりである。
[ステップS50]:出発点のメールデータをMSに代入し、MSの受信者をUに代入する。
[ステップS51]:Uが発信したログ内の次のメールを送受信者特定部13に問い合わせて取得する。
[ステップS52]:Mが最後かどうかを判別し、最後であれば処理を終了する。最後でなければ、ステップS53へ進む。
[ステップS53]:出発点のメールMSと当該メールMSの受信者から発信されたメールMのそれぞれの添付文書の同一性を添付文書同一性判定部15に問い合わせ、同一性が高ければそのままステップS55へ進む。同一性が低ければステップS54へ進んで、メール本文を参照して判断する。
[ステップS54]:出発点のメールMSと当該メールMSの受信者から発信されたメールMのそれぞれの題名・本文の類似性をメール本文類似性判定部14に問い合わせ、類似性がなければステップS56へ進み、類似性が高ければステップS55へ進む。
[ステップS55]:MSの情報の次にMの情報を出力して経路テーブルを増分していく。
[ステップS56]:MをMSに代入する。その後ステップS51に戻り処理を繰り返す。
つぎに境界検出部18について説明する。
境界検出部18は、経路テーブル(図8)を順に辿り、部門や拠点が変化したところを境界として検出するものである。例えば、図11の例では、経路テーブルがM1、M2、M5、・・・、M12のメールからなり、それぞれの送受信者の所属を参照して境界を検出する。図11の例では、M1がセクションA、M2、M5がセクションB等と判別される。境界はシステム設定時に予め定められていても良いし、ユーザが事後的に外部から指定しても良い。境界の設定は境界設定部19により行なわれる。境界は、部門、拠点、アドレスのドメイン、ユーザ群(ユーザを個別に指定してその和集合を得る)またはこれらの論理和、論理積により指定できる。
図12は境界検出部18の経路テーブルごとの動作を示しており、その処理例は以下のとおりである。
[ステップS60]:当該経路テーブルの最初のエントリのメールをM0に代入する。
[ステップS61]:M0の送信者をU0に代入し、U0の部門または拠点をS0に代入する。
[ステップS62]:つぎのエントリのメールをM1に代入する。
[ステップS63]:M1が最後のエントリかどうかを判別し、最後であれば処理を終了し、最後でなければステップS64へ進む。
[ステップS64]:M1の送信者をU1に代入し、U1の部門または拠点をS1に代入する。
[ステップS65]:S0=S1かを判別し、イエスであればステップS62に戻り処理を繰り返し、ノーであればステップS66へ進む。
[ステップS66]:当該エントリと次のエントリとの間を境界として検出する。その後ステップS62に戻り処理を繰り返す。
以上のようにして境界を検出する。
つぎに境界内流通情報特定部20について説明する。
境界内流通情報特定部20は、経路テーブルを境界毎に分割し、境界毎に流通している情報を分析するものである。境界内で送受信されるメールデータの類似度や宛先に基づいてクラスタを作成することにより、境界内の情報分布やメンバ間の紐帯の強さ、流通速度(閾値を変えた場合のクラスタサイズの変化)などを推定するのが容易になる。例えば、閾値を変化させたときにクラスタ同士が併合された場合、この閾値を確認することで、境界内のメール流通の様子を把握できる。ここで閾値は、(1)内容の類似度、(2)内容の類似したメールを転送する確率、(3)受信してから次の送信までの時間(類似内容)などであるが、これに限定されない。図13の例は、閾値を変化させることにともなってクラスタが変化する様子を表している。この例では両矢印で示す部分がなくなってクラスタが併合されている。また、図13の例ではクラスタ内の特徴、例えばネットワーク指標(平均出次数)、平均時間間隔、重要キーワード等をクラスタごとに表示する。例えばクラスタをポインティングすると当該クラスタの特徴が図示のように表示される。また電子メールを表す表示(図では丸であるが、これに限らない)をポインティングすると当該電子メールの送信者、受信者のそれぞれの情報、キーワード等が表示される。なお、ネットワーク指標(平均出次数)、平均時間間隔の計算例については図19および図20を参照して後述する。また図13の例ではクラスタをグラフィカルに表示したが、クラスタのメンバをなす電子メールをクラスタのテーブルごとに表示するものでも良い。要するにクラスタとそのメンバとを関係づけて表示できるものであればどのような態様でも良い。
図14は、境界内流通情報特定部20の動作の概要を示しており、その処理は以下のとおりである。
[ステップS70]:境界検出部18により境界を検出する。
[ステップS71]:最初のメールデータをMに代入する。
[ステップS72]:Mが最後かどうかを判別し、最後であればステップS75へ進む。最後でなければステップS73へ進む。
[ステップS73]:クラスタ作成部22によりクラスタを作成する。その処理例は図15〜図17を用いて後に詳述する。
[ステップS74]:次のメールデータをMに代入する。
[ステップS75]:クラスタ内データ処理部23によりクラスタ内データ処理を行なう。クラスタ内データ処理の例については図18〜図20を参照して後に説明する。
つぎに上述のステップS73のクラスタ作成部22によるクラスタ作成処理の例について図15〜図17を参照して説明する。まず、図15の類似度を基準にしてクラスタを作成する例を説明する。この処理は以下のとおりである。
[ステップS80]:類似度Sにゼロを代入し、クラスタCを空に初期化する。
[ステップS81]:つぎのメールをNに代入する。
[ステップS82]:Nが最後のメールまたは境界外であればステップS86へ進む。そうでなければステップS83へ進む。
[ステップS83]:メールMとNの類似度sim(M,N)をTに代入する。
[ステップS84]:T>Sかどうかを判別し、イエスであればステップS85へ進み、そうでなければステップS81へ戻って処理を繰り返す。
[ステップS85]:TをSに代入し、NをCに代入する。
[ステップS86]:T>TH(閾値)かどうかを判別し、イエスであればステップS87へ進み、そうでなければ処理を終了する。
[ステップS87]:MとCとを1つのクラスタに併合する。
以上のようにしてメールの類似度に基づいてクラスタを作成する。なお、クラスタにはどのような電子メールがメンバとして含まれるかを記述するようにする。例えばクラスタに識別子をわりあてこのクラスタに対して電子メールの識別子(図3のメールID)を1対多で対応づけておく。この対応づけと図3の情報を用いて例えば図13の例においてクラスタやそのメンバである電子メールの情報を処理して表示できる。
図16は宛先関係に基づいてクラスタを作成するものであり、その処理例は以下のとおりである。
[ステップS90]:確率Pにゼロを代入し、クラスタCを空に初期化する。
[ステップS91]:メールMの差出人をUに代入し、Mの宛先をVに代入する。
[ステップS92]:Vが境界内かどうかを判別する。境界内であればステップS93へ進む。境界外であれば処理を終了する。
[ステップS93]:UからVへの送信確率をQに代入する。
[ステップS94]:Q>Pを判別して、イエスであればステップS95へ進み、ノーであればステップS96へ進む。
[ステップS95]:QをPに代入し、MをCに代入する。
[ステップS96]:次のメールをMに代入する。
[ステップS97]:Mが最後かどうかを判別し、最後であれば処理を終了し、最後でなければステップS91へ戻って処理を繰り返す。
以上のようにしてメールの宛先関係に基づいてクラスタを作成する。
図17は送信時間間隔に基づいてクラスタを作成するものであり、その処理例は以下のとおりである。
[ステップS100]:時間間隔Tにゼロを代入し、クラスタCを空に初期化する。
[ステップS101]:メールMの差出人をUに代入し、Mの宛先をVに代入する。
[ステップS102]:Vが境界内かどうかを判別する。境界内であればステップS103へ進む。境界外であれば処理を終了する。
[ステップS103]:UからVへの送信間隔をSに代入する。
[ステップS104]:S<Tを判別してイエスであればステップS105に進み、ノーであればステップS106へ進む。
[ステップS105]:SをTに代入し、MをCに代入する。
[ステップS106]:次のメールをMに代入する。
[ステップS107]:Mが最後かどうかを判別し、最後であれば処理を終了し、最後でなければステップS101へ戻って処理を繰り返す。
以上のようにしてメールの送信間隔に基づいてクラスタを作成する。
つぎに境界内流通情報特定部20のクラスタ内データ処理部23の例について説明する。
図18はクラスタ内データ処理の概要を示しており、その処理は以下のとおりである。
[ステップS110]:重要キーワード抽出処理を行なう。例えばクラスタのメンバの電子メールの本文キーワード(重みベクトル)を足して重みが所定の閾値を越えるキーワードや上位N個までのキーワードを重要キーワードとして出力する。
[ステップS111]:ネットワーク指標計算を行なう。これについては図19を参照して後に詳述する。
[ステップS112]:平均時間間隔を計算する。これについては図20を参照して後に詳述する。
図19はネットワーク指標計算(平均出次数の例)の処理例を示しており、その処理は以下のとおりである。
[ステップS120]:クラスタ内の最初のメールをMに代入する。
[ステップS121]:Mの送信者をUに代入し、Mの受信者数をD(U)に代入し、N(U)を1だけ増分する。
[ステップS122]:クラスタ内の次のメールをMに代入する。
[ステップS123]:Mが最後かどうかを判別し、最後であればステップS123に進み、最後でなければステップS121に戻り処理を繰り返す。
[ステップS124]:各ユーザについてD(U)/N(U)を算出してOD(U)に代入する。
以上のようにして平均出次数OD(U)を算出する。
図20は平均送信時間間隔の計算処理例を示しており、その処理は以下のとおりである。
[ステップS130]:クラスタ内の最初のメールをMに代入する。
[ステップS131]:Mの送信者をUに代入し、次のメールまでの時間間隔をT(U)に代入し、T(U)を1だけ増分する。
[ステップS132]:クラスタ内の次のメールをMに代入する。
[ステップS133]:Mが最後かどうかを判別し、最後であればステップS133に進み、最後でなければステップS131に戻り処理を繰り返す。
[ステップS134]:各ユーザについてT(U)/N(U)を算出してMT(U)に代入する。
以上のようにして平均送信時間間隔MT(U)を算出する。
以上説明したようにこの実施例によれば、境界内のメールを動的なクラスタに分けて分析し、クラスタの変遷やクラスタ内の指標に基づいて境界内の情報流通の特徴を判別することができる。
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では電子メールについて説明したが、送信者と受信者が存在すればどのようなメッセージ伝送でも適用できる。
この発明の実施例の構成を示すブロック図である。 この実施例のメールログデータベースおよび名簿データベースの例を説明する図である。 この実施例のメールデータテーブルの例を説明する図である。 メールデータテーブルの本文キーワードの重みベクトルの抽出動作例を説明するフローチャートである。 上述実施例のメール類似性判定部の動作例を説明するフローチャートである。 上述実施例の添付文書の例を説明する図である。 上述実施例の添付文書同一性判定部の動作例を説明するフローチャートである。 上述実施例の経路特定部が生成する経路テーブルの例を説明する図である。 上述の経路特定部の概略動作例を説明するフローチャートである。 上述の経路特定部の要部動作例を説明するフローチャートである。 上述実施例の境界検出部の検出例を説明する図である。 上述の境界検出部の動作例を説明するフローチャートである。 上述実施例のクラスタの遷移例を説明する図である。 上述実施例の境界内流通情報特定部の動作例を説明するフローチャートである。 上述の境界内流通情報特定部のクラスタ作成部の動作例(類似度に基づくもの)を説明するフローチャートである。 上述の境界内流通情報特定部のクラスタ作成部の他の動作例(宛先関係に基づくもの)を説明するフローチャートである。 上述の境界内流通情報特定部のクラスタ作成部のさらに他の動作例(送信時間間隔に基づくもの)を説明するフローチャートである。 上述実施例のクラスタ内データ処理部の概略動作例を説明するフローチャートである。 上述のクラスタ内データ処理部のネットワーク指標計算例を説明するフローチャートである。 上述のクラスタ内データ処理部の平均時間間隔計算例を説明するフローチャートである。
符号の説明
10 メールログデータベース
11 名簿データベース
12 メールデータ解析部
13 送受信者特定部
14 メール本文類似性判定部
15 添付文書同一性判定部
16 流通経路特定部
17 閾値設定部
18 境界検出部
19 境界設定部
20 境界内流通情報特定部
21 ユーザインタフェース部
22 クラスタ作成部
22 クラスタ内データ処理部
23 クラスタ内データ処理部
1000 電子メール分析システム
1001 コンピュータ
1002 記録媒体
2000 メールシステム

Claims (8)

  1. 電子メッセージのメールアドレスから送受信者を特定する送受信者特定手段と、
    前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の本文の類似性を判定する本文類似性判定手段と、
    前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の添付文書の同一性を判定する添付文書同一性判定手段と、
    前記本文類似性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間に本文の類似性があると判定した場合、または、前記添付文書同一性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間に添付文書の同一性があると判定した場合、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の経路を、電子メッセージによる情報の流通の流通経路の構成要素として特定する流通経路特定手段と、
    所定の分析境界内を流通する電子メッセージを、前記流通経路特定手段で特定された前記構成要素から成る流通経路に含まれる電子メッセージの間の類似度、当該電子メッセージの宛先関係または当該メッセージの間の送信間隔に基づいて、分類して、1または複数のクラスタを、作成するクラスタ作成手段と、
    前記クラスタ作成手段により作成されたクラスタと、当該クラスタの各々に含まれる電子メッセージとを表示する表示手段とを有することを特徴とする電子メッセージ分析装置。
  2. 前記電子メーセージの送信者について、部門、拠点、アドレスのドメイン、予め決められたユーザ群、またはこれらの論理和、または論理積の値により前記分析境界を設定する分析境界設定手段をさらに有し、前記流通特定手段で特定された流通経路に沿う隣接する電子メッセージの上流側の当該電子メッセージの送信者と下流側の当該電子メッセージの送信者が、前記分析境界設定手段により前記分析境界を設定するために用いた値が異なるときに他の分析境界に移ったと判定する請求項1記載の電子メッセージ分析装置。
  3. 前記クラスタ作成手段は、前記電子メッセージの送信先としての指定回数に基づく確率データを用いてクラスタ作成基準となる宛先関係を決定し当該宛先関係の電子メッセージを同一のクラスタに含ませる請求項1または2記載の電子メッセージ分析装置。
  4. 前記クラスタ作成手段は、前記流通経路に沿って流通する第1の電子メッセージの送信時間間隔が当該流通経路に沿って直前に先行して流通する第2の電子メッセージの送信時間間隔より小さい場合に第2の電子メッセージと第1の電子メッセージとを同一のクラスタに含ませる請求項1または2記載の電子メッセージ分析装置。
  5. 前記クラスタ作成手段により作成されたクラスタごとに、当該クラスタに含まれる電子メッセージのキーワード重みベクトルに基づいて、当該クラスタのキーワードを特定する分析手段をさらに有する請求項1〜4のいずれかに記載の電子メッセージ分析装置。
  6. 電子メッセージは電子メールである請求項1〜5のいずれかに記載の電子メッセージ分析装置。
  7. 送受信者特定手段が、電子メッセージのメールアドレスから送受信者を特定するステップと、
    本文類似性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の本文の類似性を判定するステップと、
    添付文書同一性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の添付文書の同一性を判定するステップと、
    前記本文類似性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間に本文の類似性があると判定した場合、または、前記添付文書同一性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間に添付文書の同一性があると判定した場合、流通経路特定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の経路を、電子メッセージによる情報の流通の流通経路の構成要素として特定するステップと、
    クラスタ作成手段が、所定の分析境界内を流通する電子メッセージを、前記流通経路特定手段で特定された前記構成要素から成る流通経路に含まれる電子メッセージの間の類似度、当該電子メッセージの宛先関係または当該メッセージの間の送信間隔に基づいて、分類して、1または複数のクラスタを、作成するステップと、
    表示手段が、前記クラスタ作成手段により作成されたクラスタと、当該クラスタの各々に含まれる電子メッセージとを表示するステップとを有することを特徴とする電子メッセージ分析方法。
  8. コンピュータを、
    電子メッセージのメールアドレスから送受信者を特定する送受信者特定手段、
    前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の本文の類似性を判定する本文類似性判定手段、
    前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の添付文書の同一性を判定する添付文書同一性判定手段、
    前記本文類似性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間に本文の類似性があると判定した場合、または、前記添付文書同一性判定手段が、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間に添付文書の同一性があると判定した場合、前記送受信者特定手段により特定したユーザが送信先の電子メッセージと当該ユーザが送信元の電子メッセージとの間の経路を、電子メッセージによる情報の流通の流通経路の構成要素として特定する流通経路特定手段、
    所定の分析境界内を流通する電子メッセージを、前記流通経路特定手段で特定された前記構成要素から成る流通経路に含まれる電子メッセージの間の類似度、当該電子メッセージの宛先関係または当該メッセージの間の送信間隔に基づいて、分類して、1または複数のクラスタを、作成するクラスタ作成手段、
    前記クラスタ作成手段により作成されたクラスタと、当該クラスタの各々に含まれる電子メッセージとを表示する表示手段
    として機能させることを特徴とする電子メッセージ分析用コンピュータプログラム。
JP2005068726A 2005-03-11 2005-03-11 電子メッセージ分析装置および方法 Expired - Fee Related JP4802523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005068726A JP4802523B2 (ja) 2005-03-11 2005-03-11 電子メッセージ分析装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005068726A JP4802523B2 (ja) 2005-03-11 2005-03-11 電子メッセージ分析装置および方法

Publications (2)

Publication Number Publication Date
JP2006252242A JP2006252242A (ja) 2006-09-21
JP4802523B2 true JP4802523B2 (ja) 2011-10-26

Family

ID=37092666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005068726A Expired - Fee Related JP4802523B2 (ja) 2005-03-11 2005-03-11 電子メッセージ分析装置および方法

Country Status (1)

Country Link
JP (1) JP4802523B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066938A (ja) * 2008-09-10 2010-03-25 Nec Corp コンテンツ情報管理システム、方法、装置、及びプログラム
JP5215160B2 (ja) * 2008-12-17 2013-06-19 キヤノンItソリューションズ株式会社 情報処理装置、その制御方法及びプログラム
JP6432266B2 (ja) * 2014-10-03 2018-12-05 富士通株式会社 グループ化方法、グループ化装置、およびグループ化プログラム
US10447635B2 (en) * 2017-05-17 2019-10-15 Slice Technologies, Inc. Filtering electronic messages

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3914082B2 (ja) * 2002-03-27 2007-05-16 株式会社東芝 情報提示システムと情報提示方法
JP4344922B2 (ja) * 2003-01-27 2009-10-14 富士ゼロックス株式会社 評価装置およびその方法

Also Published As

Publication number Publication date
JP2006252242A (ja) 2006-09-21

Similar Documents

Publication Publication Date Title
US7657603B1 (en) Methods and systems of electronic message derivation
US8725711B2 (en) Systems and methods for information categorization
US9633140B2 (en) Automated contextual information retrieval based on multi-tiered user modeling and dynamic retrieval strategy
JP5208358B2 (ja) ナレッジ交換プロファイルを生成する方法、システム、および装置
CN1716294B (zh) 用于检测外发通信何时包含特定内容的方法和系统
US7222157B1 (en) Identification and filtration of digital communications
US8768940B2 (en) Duplicate document detection
CN100527117C (zh) 在含多个反垃圾邮件模块的系统中确定消息的方法和系统
JP5003271B2 (ja) 電子通信文書のコピーが格納されている電子通信文書を関係者に示す方法及びプログラム、ならびに、電子通信文書が格納されていることを関係者と寄稿者とのうちの少なくとも一方に示す方法、システム、及び機器
US8341232B2 (en) Relationship identification based on email traffic
US8271597B2 (en) Intelligent derivation of email addresses
Mock An experimental framework for email categorization and management
US8600965B2 (en) System and method for observing communication behavior
US20050222890A1 (en) Instant meeting preparation architecture
US20030074409A1 (en) Method and apparatus for generating a user interest profile
JP2006048698A (ja) 人間関係に基づいて通信に優先順位を付与する方法およびシステム
US7720853B1 (en) Flexible rule-based infrastructure for discussion board maintenance
US8856135B2 (en) Intelligent sorting and correlation of email traffic
JP2005063138A (ja) 情報処理装置、情報処理システムおよびデータベースの検索方法並びにプログラム
JP4802523B2 (ja) 電子メッセージ分析装置および方法
US8458224B2 (en) Auditing search requests in a relationship analysis system
Dredze et al. Intelligent email: Reply and attachment prediction
JP2006252223A (ja) コミュニケーション分析装置、およびコミュニケーション分析方法、並びにコンピュータ・プログラム
JP5324824B2 (ja) ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム
JP3804017B2 (ja) 電子メールシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110725

R150 Certificate of patent or registration of utility model

Ref document number: 4802523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees