JP5098631B2 - メール分類システム、メール検索システム - Google Patents

メール分類システム、メール検索システム Download PDF

Info

Publication number
JP5098631B2
JP5098631B2 JP2007332031A JP2007332031A JP5098631B2 JP 5098631 B2 JP5098631 B2 JP 5098631B2 JP 2007332031 A JP2007332031 A JP 2007332031A JP 2007332031 A JP2007332031 A JP 2007332031A JP 5098631 B2 JP5098631 B2 JP 5098631B2
Authority
JP
Japan
Prior art keywords
mail
classification
word
thread
threads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007332031A
Other languages
English (en)
Other versions
JP2009157450A (ja
Inventor
裕一 仁野
潤 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007332031A priority Critical patent/JP5098631B2/ja
Publication of JP2009157450A publication Critical patent/JP2009157450A/ja
Application granted granted Critical
Publication of JP5098631B2 publication Critical patent/JP5098631B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、メール分類システム、メール検索システムメール分類方法、メール検索方法メール分類プログラム、およびメール検索プログラム関する。
現在、受信されたメールをユーザが設定したメールフォルダに分類する機能は、電子情報受信装置に搭載されている多くのメーラなどに備わっている。メールの分類手法として、例えば、メールの属性情報(宛先、発信者メールアドレス、発信時期)や、特定のキーワードがメール本文に含まれることなどを、振り分け条件としてユーザが設定して実施する手法が一般的である(例えば、特許文献1参照)。
ところが、メールを送信する場合には、同じ宛先でも多数のトピックについて送信することが多く、また同じトピックについてのメールを多数の宛先に対して送信することも多い。また、同一の話題を議論していることを発見できる有効なキーワードを絞りきれないこともある。したがって、特許文献1に記載されているようなルールベースの方式では適用範囲に限界があり、ユーザがメール内容を確認してフォルダに格納する方式も併用する必要があり、ユーザの手間がかかる。
このような問題を解決するための1つの手段として、メールデータの中から主要なトピックキーワードを検出し、そのキーワードに関連するメールをクラスタリングにより分類する方式が特許文献2に記されている。図14は、特許文献2に記載されている分類処理の例を示すフローチャートである。
この分類処理では、まず受信したメールに対して形態素解析をかけ、名詞を抽出する(ステップS101)。次に、得られた名詞からトピックキーワードを検出する(ステップS102)。具体的には、得られた名詞の出現回数をカウントするヒストグラム解析を行う(ステップS102a)。そして、ヒストグラム解析結果をもとに、出現回数が多い上位5%の単語をトピックキーワードの候補として検出する(ステップS102b)。それから、得られたトピックキーワード候補のそれぞれについて、ユーザが指定した期間内のメールを時系列で10分割し、トピックキーワードごとに再度ヒストグラムを生成する(ステップS102c)。時系列のヒストグラムが得られると、このヒストグラムのパタンがあらかじめ定めた5種類のパタンのそれぞれに対する適合度、出現頻度、ユーザが指定した期間の3種類の値からファジー推論により、トピックキーワードとしての適正度を算出する。そして、トピックキーワード候補のうち、適正度が上位n個のものをトピックキーワードとして検出する(ステップS102d)。次に、図15に示したように、各メールにおいて、各トピックキーワードの適合度が与えられているものとして(ステップS103)、それらを特徴量としてファジークラスタリングを実施する。図15は、特許文献2記載のステップS103,S104の処理の例を説明するための説明図である。その結果、各分類と各々の記事の分類への帰属度を求める(ステップS104)。最後に、各トピックキーワードとそれに関係するメールのリストを表示する(ステップS105)。
特開平6−250950号公報 特開2000−331018号公報(第6−8頁、図3)
しかし、特許文献2に記載された方式では、メールを高精度に分類することは難しい。特許文献2に記載された方式では、ステップS103において、各メールにおける各トピックキーワードの適合度の計算手法が示されていない。仮に、メールの中に各トピックキーワードが含まれているかどうかに基づき、他の単語と比べた出現率などをもとに適合度を計算したとしても、ステップS102のように高度に絞り込まれたトピックキーワードに関するメールが必ずしもトピックキーワードを含むとは限らないため、高精度な分類は難しいという問題がある。
そこで、本発明は、メールの中にトピックキーワードが含まれていなくても、トピックキーワードと共に出現する頻度の高い単語を多く含むメールを、そのトピックキーワードに関係するメールとして検出することができるメール分類システム、メール検索システム、メール宛先分類システム、メール分類方法、メール検索方法、メール宛先分類方法、メール分類プログラム、メール検索プログラム、およびメール宛先分類プログラムを提供することを目的とする。
本発明によるメール分類システムは、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間のお互いの類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング手段とを備えたことを特徴とする。
本発明によるメール検索システムは、メール検索のためのキーワードを入力するキーワード入力手段と、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、キーワード入力手段から入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出手段とを備えたことを特徴とする。
本発明によるメール分類方法は、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、抽出されたメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をクラスタとして抽出することを特徴とする。
本発明によるメール検索方法は、メール検索のためのキーワードを入力し、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、抽出されたメール分類特徴量に基づいて、入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出することを特徴とする。
本発明によるメール分類プログラムは、コンピュータに、共通のトピックをやりとりしている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、メール分類特徴量導出処理で抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング処理とを実行させることを特徴とする。
本発明によるメール検索プログラムは、コンピュータに、メール検索のためのキーワードを入力するキーワード入力処理と、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、メール分類特徴量導出処理で抽出したメール分類特徴量に基づいて、キーワード入力処理で入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出処理とを実行させることを特徴とする。
本発明によれば、メールの中にトピックキーワードが含まれていなくても、トピックキーワードと共に出現する頻度の高い単語を多く含むメールを、そのトピックキーワードに関係するメールとして検出することができるという効果がある。
実施形態1.
次に、本発明の第1の実施形態を図面を参照して説明する。図1は、本発明によるメール分類システムの第1の実施形態を示すブロック図である。図1を参照すると、本発明の第1の実施形態のメール分類システムは、プログラム制御により動作する中央処理装置100と、通信装置110と、入力装置120と、表示装置130と、主記憶装置140と、二次記憶装置150とを備えている。メール分類システムは、例えば、携帯電話機等の情報端末によって実現される。
二次記憶装置150は、データ解析手段10と、メール表示手段60と、メール送信手段70と、文書編集手段80とを記憶する。二次記憶装置150は、例えば、磁気ディスク装置等によって実現される。
データ解析手段10は、スレッド統合手段11と、品詞解析手段12と、分類ワード導出手段13と、メール分類特徴量導出手段14と、クラスタリング手段15と、トピックキーワード抽出手段16と、分類結果表示手段17とを含む。データ解析手段10、メール表示手段60、メール送信手段70および文書編集手段80は、中央処理装置100に、後述する機能を実現させるためのプログラムとして実現可能である。以下、「データ解析手段10が行う」等の表現を用いるが、具体的には、中央処理装置100が、プログラムであるデータ解析手段10に従って処理を行う。このことは、二次記憶装置150が記憶するプログラムによって実現される他の手段についても同様である。
中央処理装置100は、要求された情報を処理する。
通信装置110は、外部端末(コンピュータ、携帯電話機など)との通信を行う。
表示装置120は、ウィンドウ、図形要素、文字などを表示する。
主記憶装置140は、オペレーティングシステム、ウィンドウシステムなど実行中のプログラムを記憶する。
二次記憶装置150は、電子メールによって配信され、内蔵メモリ(図示せず。)に蓄積された電子情報に対して自動的に統計解析を行って、メールを分野毎に分類するためのデータ解析手段10を記憶する。
データ解析手段10は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、メールを分野毎に分類する。
メール表示手段60は、受信したメールを表示する。
メール送信手段70は、メールを送信する。
文書編集手段80は、メール文書を編集する。
スレッド統合手段11は、共通の話題を議論している可能性が高いメール群を、subject、メール宛先、メール送受信時刻から推定した上でスレッドとして統合する。
品詞解析手段12は、メール中の絵文字を平易な単語で変換したうえで、形態素解析をかけ、あらかじめ指定した品詞の単語を抽出する。
分類ワード導出手段13は、各メールから品詞解析手段12で抽出された単語について、いくつのスレッドに含まれているかなどをヒストグラムで解析するなどの処理を行い、分類に有効な単語を導出する。
メール分類特徴量導出手段14は、分類ワードとして導出された各単語が各スレッドに含まれているかどうかを示す情報を入力して、数量化理論III 類などの識別器にかけることによって、各スレッドのお互いの類似度を示すメール分類特徴量を抽出する。
クラスタリング手段15は、メール分類特徴量導出手段14が抽出したメール分類特徴量をもとにクラスタリングを行い、同じトピックについてやり取りしているメール群を抽出する。
トピックキーワード抽出手段16は、クラスタリングにより形成されたクラスタ(グループ)を適切に表現するトピックキーワードを抽出する。
分類結果表示手段17は、電子情報受信装置に搭載されているメーラなどの画面で、グループ分けされたメールを別々のフォルダに挿入するなどの形で表示する。
次に、図面を参照して第1の実施形態の動作について説明する。図2は、第1の実施形態の動作を示すフローチャートである。
まず、スレッド統合手段11は、共通の話題を議論しているスレッドを統合する(ステップS11)。PC(パーソナルコンピュータ)上でメールを送信する場合、メールトピックをsubjectに記載し、それに返信した場合はsubjectにRe:が付与されるので、スレッド統合手段11は、スレッドを見つけるためにsubjectを手がかりにすることができる。携帯電話機上でメールを送信する場合においては、subjectに何も記載しないことが多いため、スレッド統合手段11は、スレッドの統合についてはsubjectの情報を利用することができない可能性がある。一方で、携帯電話機上で送受信されるメールは、chatのように1つの内容に関して短時間で連続的に特定の相手とやり取りされる傾向が高いため、送受信を含めてそれらをまとめることにより、単語数を増やした固まりとして特徴解析できる。そこで、スレッド統合手段11は、例えば、同一のto−fromアドレスで送受信しているメール(すなわち、特定の相手と送受信しているメール)のうち、前の送受信から一定時間内(例えば、30分など)に送受信したメールを、共通のスレッドで議論しているメールとみなして、統合する。あるいは,別のスレッド統合手段11として、同一のto−fromアドレスで送受信しているメール(すなわち、特定の相手と送受信しているメール)のうち、同じ日にやりとりしているメールを,共通のスレッドで議論しているメールとみなして、統合することもできる。この1日の区切りは、ほとんどの人が睡眠している午前4時ごろを設定すると良い。
次に、品詞解析手段12は、送受信したメールに対して形態素解析(ステップS12a)や絵文字解析(ステップS12b)などの品詞解析をかけ、あらかじめ定めた品詞の単語を抽出する(ステップS12)。以下、品詞解析手段12が抽出する単語を、分類ワード候補と表記する場合がある。分類ワード候補は、メールの分類に用いる単語の候補である。
品詞解析手段12は、単語抽出の手法として、まずステップS12bで絵文字を適当な文字列に変換する。変換のためのテーブルは、あらかじめ二次記憶装置150に格納されている。このテーブルには、S−JISやUNICODEで絵文字を表現したコードと、絵文字に関係する文字列との対応関係が格納されている。例えば、NTTドコモ(登録商標)社の絵文字の場合(http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/index.html参照)、S−JISやUNICODEの値と絵文字タイトルとの対応関係が保存されている。例えば、S−JISコード16進数F89F、UNICODEではE63Eとあらわされたコードは、「晴れ」という文字列と対応付けられて保存されている。
このようにして、すべての絵文字をなんらかの文字列に変換すると、品詞解析手段12は、形態素解析を行う(ステップS12b)。形態素解析は、ChaSen、MeCabなどの既存の手法を用いてもよい。形態素解析の結果、メールの文章を構成する各単語の品詞とその原形のセットが個別に抽出される。
その後、分類ワード導出手段13は、ステップS12で得られた単語(分類ワード候補)のうち、分類に利用する単語を分類ワードとして抽出する(ステップS13)。分類ワード導出手段13は、分類ワードを抽出する方法として、例えば、ステップS12で得られた単語(分類ワード候補)がステップS11で得られたいくつのスレッドに出現するかをカウントするヒストグラム解析を行い(ステップS13a)、ヒストグラム結果をもとに、出現回数に応じたフィルタリングをかける(ステップS13b)。
分類ワード導出手段13は、フィルタリングにおいて、少なくとも2スレッド以上で上位一定数までの単語を抽出し、かつ、ヒストグラム解析して極めて多数のスレッドに登場する単語を除く処理を行う。すなわち、分類ワード導出手段13は、2以上のスレッドにおける登場回数が、所定の上位までの単語を抽出する。そして、分類ワード導出手段13は、抽出した単語のうち、所定の数以上のスレッドに登場する単語以外の単語を、分類ワードとして抽出する。
極めて多数とは、全スレッド数に対して一定割合以上(例えば、70%以上)占めるものを指す。極めて多数のスレッドに登場する単語を除いたのは、これらの単語は、「おはよう」、「元気?」など挨拶に関係するものや、携帯端末保有者が好みでよく利用する絵文字などにあてはまるため、スレッド分類をする上で効果が薄い単語だからである。また、1つのスレッドにしか登場しない単語は、スレッド間の関係を分類するのに不適当なため、これも分類ワードとして利用しないのが適当であるからである。
さらに、分類ワード導出手段13は、このように選んだ単語のうち、特定の種類に関する単語のみを抽出することもできる。例えば、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせが挙げられる。場所を示す名詞は、地名・駅名の辞書とのマッチングを行うことによって抽出することができる。時を示す単語は、年月日、時刻にあたる単語を抽出し、共通の表記に変換した上で抽出する。これは、年月日にあたる表記が単純に○年△月□日のような表記ばかりでなく、明日・明後日・来週の●曜日・◎日後など色々な表記がされることがあり、同じ日付・時刻を指している場合は対応がとれるようにするためである。人を示す単語は、アドレス帳の姓名とのマッチング、メールアドレスとのマッチングにより抽出することができる。
次に、メール分類特徴量導出手段14は、分類ワード導出手段13が抽出した分類ワードをもとに、メールを分類するためのメール分類特徴量を導出する(ステップS14)。メール分類特徴量導出手段14は、メール分類特徴量の導出手法として、例えば、図3に示すように、各メールにおいて、各分類ワードが含まれているかどうかを示す表を作成した上で、数量化理論III 類の処理をかける。
図3は、メール分類特徴量を導出する処理の例を説明するための説明図である。図3に示す左側の表は、縦軸はスレッドを特定するためのID、横軸はステップS13で抽出された分類ワードを示したものであり、○がついているものは、そのスレッドに、当該分類ワードが含まれていることを示す。
例えば、図3には、IDが1004のスレッドは、テニスとコートという分類ワードを含んでいるが、試合と買い物と合コンという分類ワードを含んでいないことが示されている。なお、このスレッドIDは、スレッドを特定するために端末内でユニークに割り振られたIDであるが、ユニークであれば何でもよいため、例えばスレッドの最初のメールの送受信時刻などで代替してもよい。
メール分類特徴量導出手段14は、図3に例示するような表に関するデータを入力して数量化理論III 類の処理をかける。数量化理論III 類は、多変量解析の1つの手法であり、市販されている多変量解析の出版物に記載されている(例えば、長谷川勝也著「Excelで楽に学ぶこれならわかる多変量解析」技術評論社など)ので、詳細な説明は省略するが、数量化理論III 類の処理により、各カテゴリ(横軸の値)の有無の傾向が近いサンプル(縦軸の値)には近いスコアが特徴量として与えられ、各サンプルの有無の傾向が近いカテゴリには近いスコアが特徴量として与えられる(数量化理論III 類では、縦軸の値をサンプルとよび、横軸の値をカテゴリと呼ぶことが多いため、以下、それぞれの値をサンプル、カテゴリと呼ぶこととする)。
この特徴量は、それぞれ多次元ベクトルとして表現される。例えば、各サンプルには(fs1_i,fs2_i,…,fsN_i)(N:正数、i:スレッドID)、各カテゴリには(fc1_j,fc2_j,…,fcN_j)(N:正数、j:分類ワードを特定するためのID)といった特徴量が与えられる。次元数Nは、累積寄与率があらかじめ定められた割合(例えば70%)をはじめて超えた数として設定される。これらの特徴量を空間的に表示したものを図3の右上図、右下図に示す。図3は、説明の便宜上2次元の空間として表現されているが、実際にはN次元空間にマッピングすることができる。図3に示すように、メール分類特徴量導出手段14は、共通の単語を含むスレッド(1004、5038)には、他のスレッドに比べて近い特徴量を与え、同じスレッドで多く見られる分類ワード(テニス、コート、試合)には、他の分類ワードに比べて近い特徴量を与える。すなわち、メール分類特徴量導出手段14は、スレッドに含まれる分類ワードに応じて特徴量を抽出する。例えば、メール分類特徴量導出手段14は、共通の単語を含むスレッドや、同じスレッドで多く見られる分類ワードに対し、距離が近い特徴量を導出する。
メール分類特徴量導出手段14がステップS14の処理を行った後、クラスタリング手段15は、ステップS14で得られたデータをもとに、メールのクラスタリング処理を行う(ステップS15)。すなわち、クラスタリング手段15は、メール分類特徴量導出手段14が導出した各スレッドの特徴量に基づいて、スレッドのクラスタリングを行うことにより、メールを分類する。
クラスタリングには多数の方式があるが、1つの方式として、図4に示す階層的クラスタ分析がある。図4は、階層的クラスタ分析の例を説明するための説明図である。クラスタリング手段15は、例えば、階層的クラスタ分析を行い、クラスタ間の距離があらかじめ定めた閾値以上の場合に、別のクラスタとして分離する(ステップS15a)。
階層的クラスタ分析では、各要素(図4ではスレッドIDを例に挙げて示す)間の距離のうち近いものから順に1つのクラスタに統合される。ここでいう距離には、例えば、ユークリッド平方距離があげられる。このユークリッド距離とは、スレッドIDがp、qの2つのスレッド間の距離を
Figure 0005098631
として算出するものである。階層的クラスタ分析では、ユークリッド平方距離以外に、コサイン類似度、標準化ユークリッド平方距離、マハラノビス距離、ミンコフスキー距離なども使われることがあるが、これらの距離も本発明において利用することができる。
また、階層型クラスタ分析において、複数の要素(クラスタ)を1つのクラスタとして統合する場合、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法、可変法などいくつか方法があるが、本発明では、いずれの方法を利用してもよい。例えば、最短距離法を利用した場合、2つのクラスタを融合してつくられるクラスタ(t)と別の任意のクラスタ(r)との間の距離を、融合する前の段階のクラスタ(p)、クラスタ(q)とクラスタ(r)との距離を用いて、
Figure 0005098631
として距離計算を実施する。クラスタリング手段15は、このようにして得られた階層型クラスタ群から、距離が一定の閾値を下回るクラスタのみを抽出する。図4は、このようにして得られた階層型クラスタ群をデンドログラムで表示したものである。クラスタリング手段15は、一定の閾値(図4に示す例では80)を下回った距離で統合されるクラスタ(スレッドIDが1004や5038で表現されたもの)を1つのクラスタ、またそれ以上の距離ではじめて統合される要素(1035、5389)を、それぞれ別のクラスタとして検出する。
クラスタリング手段15がクラスタリングを実施すると、トピックキーワード抽出手段16は、クラスタリング手段15が形成したクラスタ(グループ)を適切に表現するトピックキーワードを抽出する(ステップS16)。トピックキーワード抽出手段16がトピックキーワードを抽出する方式として、例えば、グループを構成するメールの中でもっとも高頻度に抽出される単語をトピックキーワードとする方式や、またはグループを構成するメールに対し、特許文献2に記載されているステップS102の処理を実施する方式が考えられる。
最後に、分類結果表示手段17は、図5に示すように、分類結果を電子情報受信装置に搭載されているメーラなどに表示する(ステップS17)。分類結果表示手段17は、例えば、クラスタリング手段15が抽出したクラスタを区分として、クラスタに含まれるメールを表示する。
図5は、メールを分類した結果の表示例を示す説明図である。図5に示す例では、上部に各グループに割り当てられたフォルダを示し、そのフォルダが選択されると、下部にそのグループに関係するメールのメール識別情報を表示する。この表示では受信(送信)時刻と受信元(送信先)が示されているが、subject名などその他の要素が表示されてもよい。そして、下部のメール識別情報から特定のメールを選択すると、そのメールの内容が表示される。図5に示す例では、フォルダ名としてステップS16で抽出したトピックキーワードを表示しているが、適切なキーワードが存在しない場合、関連する人物の名称を示したり、トピックキーワード候補を複数並べて表示するなど、違った表示形態でフォルダ名を表示してもよい。
次に、第1の実施形態の効果について説明する。本実施の形態によれば、各メールに洗練された分類用キーワードが含まれていなくても分類できる。その理由は、分類ワード導出手段が、2つ以上のスレッドに出現している単語を判断するという緩やかな制限で多数の単語を分類ワードとして導出し、メール分類特徴量導出手段が、多数の分類ワードの共通の出現性を尺度として、メール分類特徴量を導出するためである。
第1の実施形態では、共通の単語が多く含まれるメールの特徴量を計算し、それをもとにグルーピングすることにより、必ずしも特定のキーワードを含まないメールでも共通のトピックを議論しているメールを精度よく抽出することができるので、高精度にメールをトピックごとに分類することができる。
また、第1の実施形態では、品詞解析手段12が絵文字を文字列に変換するため、絵文字などが多用される、携帯電話機上で送受信されるメールを分類できる。
一般に、携帯電話機では、メール1通あたりの文章が非常に短い傾向があり、1通あたりに検出される単語が少ないものが多い。そのため、携帯電話機ではメール一通あたりを処理したのでは分類は困難である。これに対して、本発明の第1の実施形態では、スレッド統合手段11が複数のメールを1つのスレッドとして統合し、分類ワード導出手段13やメール分類特徴量導出手段14がスレッド単位で処理を行っているため、メール1通あたりの文章が非常に短い傾向がある、携帯電話機上で送受信されるメールを分類できる。
以下、本発明によるメール分類システムの好ましい他の一態様について説明する。本発明によるメール分類システムは、スレッド統合手段と、品詞解析手段と、分類ワード導出手段と、メール分類特徴量導出手段と、クラスタリング手段とを備え、スレッド統合手段は共通の話題を議論している可能性が高いメール群をsubject、メール宛先、メール送受信時刻から推定した上でスレッドとして統合する。品詞解析手段は、メール中の絵文字を平易な単語で変換したうえで、形態素解析をかけ、あらかじめ指定した品詞の単語を抽出する。
分類ワード導出手段は、各メールから品詞解析手段で抽出された単語について、いくつのスレッドに含まれているかなどをヒストグラムで解析するなどの処理を行い、分類に有効な単語を導出する。メール分類特徴量導出手段は、分類ワードとして導出された各単語がどのスレッドに含まれているかどうかを入力して、数量化理論III 類などの識別器にかけることによって、各スレッドのお互いの類似度を示すメール分類特徴量を抽出する。最後に、クラスタリング手段によって、得られたメール分類特徴量をもとにクラスタリングを行い、同じトピックについてやり取りしているメール群を抽出する。このような構成を採用し、共通の単語が多く含まれるスレッドに見られる特徴量を用いてメールを分類することにより、本発明の目的を達成することができる。
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。図6は、本発明によるメール検索システムの第2の実施形態を示すブロック図である。図6を参照すると、本発明の第2の実施形態のメール検索システムは、プログラム制御により動作する中央処理装置100と、通信装置110と、入力装置120と、表示装置130と、主記憶装置140と、二次記憶装置150とを備えている。
二次記憶装置150は、データ解析手段10と、メール表示手段60と、メール送信手段70と、文書編集手段80とを含む。
データ解析手段10は、キーワード入力手段21と、スレッド統合手段11と、品詞解析手段12と、分類ワード導出手段13と、メール分類特徴量導出手段14と、関連メール候補抽出手段22と、検索結果表示手段23とを含む。
以下、第1の実施形態と異なる手段について説明する。第1の実施形態と同様の構成部については、説明を省略する。
二次記憶装置150は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、メールのキーワード検索時に、キーワードを含まなくてもキーワードに関連するメールを検索するデータ解析手段10を記憶する。
データ解析手段10は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、メールのキーワード検索時に、キーワードを含まなくてもキーワードに関連するメールを検索する。
キーワード入力手段21は、携帯電話機の保有者がメールをキーワード検索する際に、保有者によって入力装置120から入力されたキーワードを、データ解析手段10に入力する。
関連メール候補抽出手段22は、所定のメールについてメール分類特徴量導出手段14が導出したメール分類特徴量をもとに、そのメールと、キーワード入力手段21から入力されたキーワードを含むメールとの類似性を判定する。また、関連メール候補抽出手段22は、あらかじめ決められた以上の類似性があると判定したメール群を関連メール候補として抽出する。
検索結果表示手段23は、電子情報受信装置に搭載されているメーラなどの画面で、キーワード入力手段21により入力されたキーワードを含むメール、関連メール候補として抽出されたメールを検索結果として表示する。
次に、図面を参照して第2の実施形態の動作について詳細に説明する。図7は、第2の実施形態の動作を示すフローチャートである。
まず、キーワード入力手段21は、データ解析手段10にキーワードを入力する(ステップS21)。次に、受信しているメールに対してステップS11〜S14までのステップを第1の実施形態と同様の手法で行う。ステップS11〜S14の処理によって、同一スレッドによく現れる単語や、同じ単語がよく現れるスレッドが近い特徴量になるようなメール分類特徴量が導出される。ただし、ステップS13において、分類ワードとして必ずキーワードを含む処理(すなわち、ステップS21で入力されたキーワードを、分類ワードとして抽出する処理)をしておくことが望ましい。
さらに、関連メール候補抽出手段22は、ステップS14で得られた結果(メール分類特徴量)をもとに、関連メール候補を抽出する。関連メール候補抽出手段22は、関連メール候補として、例えば、検索キーワードに特徴量が近い単語を含むメール、または検索キーワードを含むメールから特徴量が近いメール、のどちらかを閾値判定処理により抽出する(ステップS22)。
関連メール候補を抽出する処理について、図8を参照して説明する。図8は、関連メール候補を抽出する処理の例を説明するための説明図である。図8は、第1の実施形態の図3と同じものである。図3に例示するようなメール群に対して「テニス」をキーワードとして検索した場合について、説明する。
ステップS14の処理において、共通の単語「コート」を含むスレッド1004とスレッド5038とには、近い特徴量が与えられている。また、分類ワード「テニス」、「コート」、「試合」は同じスレッドに多く登場するので近い特徴量が与えられている。このとき、「テニス」に関係するメールを抽出する際には、「テニス」というキーワードを含むスレッド1004と特徴量が近いスレッドを探索する。探索の際には、存在する全てのスレッドに対し、コサイン類似度を計算し、そのコサイン類似度が一定の閾値(例えば、0.9)以上あり、かつユークリッド平方距離が特定の値以下であるスレッドのみ類似するものとして検出することができる。例えば、各スレッドの特徴量をfi=(fs1_i,fs2_i,…,fsN_i)(N:正数,i:スレッドID)のように表せたとすると、IDがp,qのスレッドIDのコサイン類似度は以下のように算出される。
Figure 0005098631
もう1つの方法として、「テニス」と特徴量の近い分類ワードを検出して、その分類ワードを含むスレッドを抽出する方法もある。この場合も上記と同様に、コサイン類似度が一定の閾値以上あり、かつユークリッド平方距離が特定の値以下のスレッドのみを類似するものとして検出することができる。なお、類似度の表現方法として、コサイン類似度やユークリッド平方距離以外に、標準化ユークリッド平方距離、マハラノビス距離、ミンコフスキー距離なども使われることがあり、これらの類似度やこれらの類似度の複数の組み合わせも本発明において利用することができる。
また、上記の例において「テニス」というキーワードを含むスレッドが複数存在する場合もある。このような場合においては、類似度を判定する尺度として、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法、可変法などを利用することができる。例えば、最短距離法を採用する場合、「テニス」というキーワードを含むスレッドの少なくとも1つが、判定の対象となるスレッドと類似度が閾値以上あると判定されると、関連メール候補として抽出される。また、最長距離法を採用する場合、「テニス」というキーワードを含むスレッドの全てが、判定の対象となるスレッドと類似度が閾値以上あると判定されると関連メール候補として抽出される。本発明においては、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法、可変法のいずれか、またはいずれかの組み合わせで、類似度を判定することによって、関連メール候補を抽出する。
最後に、検索結果表示手段23は、関連メール候補を含む検索結果を、電子情報受信装置に搭載されているメーラなどの画面に表示する(ステップS23)。例えば、図8に示す例では、「テニス」というキーワードで検索された場合、スレッドIDが1004と5038のスレッドに含まれるメール群が検索結果として表示される。
なお、第2の実施形態においては、ステップS11〜S14のいずれか、もしくはステップS11〜S14のすべてが前処理として実施され、結果が不揮発記憶装置(図示せず。)に保存されており、検索時には保存された結果を読み出すのみであってもよい。
次に、第2の実施形態の効果について説明する。第2の実施形態では、関連メール候補抽出手段22において、検索キーワードに特徴量が近い単語を含むメール、もしくは検索キーワードを含むメールから特徴量が近いメールのどちらかを閾値処理により抽出することができるため、検索キーワードを含まないメールでも検索キーワードに関連性の高いメールを精度よく抽出することができる。
実施形態3.
次に、本発明の第3の実施形態について図面を参照して説明する。図9は、本発明によるメール宛先分類システムの第3の実施形態を示すブロック図である。図9を参照すると、本発明の第3の実施形態のメール宛先分類システムは、プログラム制御により動作する中央処理装置100と、通信装置110と、入力装置120と、表示装置130と、主記憶装置140と、二次記憶装置150とを備えている。
二次記憶装置150は、データ解析手段10と、メール表示手段60と、メール送信手段70と、文書編集手段80とを記憶する。
データ解析手段10は、宛先毎統合手段31と、品詞解析手段12と、分類ワード導出手段32と、メール分類特徴量導出手段33と、人物分類特徴量抽出手段34と、人物分類結果表示手段35とを含む。
以下、第1、第2の実施形態と異なる手段について説明する。第1、第2の実施形態と同様の構成部については、説明を省略する。
二次記憶装置150は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、過去にメールの送受信があった宛先間の関係性を算出し、グルーピングを行うデータ解析手段10を有する。
データ解析手段10は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、過去にメールの送受信があった宛先間の関係性を算出し、グルーピングを行う。以下、送信メールにおける送信先と、受信メールにおける送信元とを、あわせてメール宛先と表現する場合がある。
宛先毎統合手段31は、同じ宛先に送信したメールや同じ宛先から送信されてきたメール群(すなわち、特定の相手との送受信メール)を解析対象として統合する。
分類ワード導出手段32は、各メールから品詞解析手段12で抽出された単語について、いくつのメール宛先に含まれているかなどをヒストグラムで解析するなどの処理を行い、分類に有効な単語を分類ワードとして導出する。
メール分類特徴量導出手段33は、分類ワードとして導出された各単語が各メール宛先に含まれているかどうかを示す情報を入力して、数量化理論III 類などの識別器にかけることによって、各宛先との送受信メールのお互いの類似度を示すメール分類特徴量を抽出する。
人物分類特徴量導出手段34は、メール分類特徴量導出手段33が抽出した特徴量をもとに、人物(メールの宛先)を分類するための1次元の特徴量を抽出する。
人物分類結果表示手段35は、電子情報受信装置に搭載されているメーラなどの画面で、グループ分けされたメール宛先を関係性が近いものを近隣に配置する形で表示する。
次に、図面を参照して第3の実施形態の動作について詳細に説明する。図10は、第3の実施形態の動作を示すフローチャートである。
まず、宛先毎統合手段31は、同じ宛先に送信したメールや同じ宛先から送信されてきたメール群(特定の相手との送受信メール)を解析対象として統合する(ステップS31)。
次に、品詞解析手段12は、第1、第2の実施形態と同様に、送受信したメールに対して形態素解析や絵文字解析などの品詞解析をかけ、あらかじめ定めた品詞の単語を抽出する(ステップS12)。
その後、分類ワード導出手段32は、ステップS12で得られた単語のうち、分類に利用する単語を分類ワードとして抽出する(ステップS32)。分類ワード導出手段13は、分類ワードを抽出する方法として、例えば、ステップS12で得られた単語がステップS31で得られたいくつのメール宛先に出現するかをカウントするヒストグラム解析を行い(ステップS32a)、ヒストグラム結果をもとに、出現回数に応じたフィルタリングをかける(ステップS32b)。
分類ワード導出手段32は、フィルタリングにおいて、少なくとも2人以上で上位一定数までの単語かつ、ヒストグラム解析して極めて多数の宛先に登場する単語を除く処理を行う。極めて多数とは、全宛先数に対して一定割合以上(例えば、70%以上)占めるものを指す。極めて多数の宛先に登場する単語を除くのは、これらの単語は、「おはよう」、「元気?」など挨拶に関係するものや、携帯端末保有者が好みでよく利用する絵文字などにあてはまるため、スレッド分類をする上で効果が薄い単語だからである。また、1つの宛先しか登場しない単語は、宛先間の関係を分類するのに不適当なため、これも分類ワードとして利用しないのが適当であるからである。
さらに、分類ワード導出手段32は、このように選んだ単語のうち、特定の種類に関する単語のみを抽出することもできる。例えば、場所を示す名詞、時を示す単語、人を示す単語が挙げられる。場所を示す名詞は、地名・駅名の辞書とのマッチングを行うことによって抽出することができる。時を示す単語は、年月日、時刻にあたる単語を抽出し、共通の表記に変換した上で抽出する。これは、年月日にあたる表記が単純に○年△月□日のような表記ばかりでなく、明日・明後日・来週の●曜日・◎日後など色々な表記がされることがあり、同じ日付・時刻を指している場合は対応がとれるようにするためである。人を示す単語は、アドレス帳の姓名とのマッチング、メールアドレスとのマッチングにより抽出することができる。
次に、メール分類特徴量導出手段33は、分類ワード導出手段32が抽出した分類ワードをもとに、メール宛先を分類するためのメール分類特徴量を導出する(ステップS33)。メール分類特徴量導出手段33は、メール分類特徴量の導出手法として、例えば、図11に示すように、各宛先との送受信メールにおいて、各分類ワードが含まれているかどうかを示す表を作成した上で、数量化理論III 類の処理をかける方法を用いる。
図11は、メール分類特徴量を導出する処理の例を説明するための説明図である。図11に示す左側の表は、縦軸はメール宛先、横軸はステップS32で抽出された分類ワードを示したものであり、○がついているものは、そのメール宛先に、当該分類ワードを含んだメールを送受信したことを示す。
例えば、図11には、Aさんは、テニスとコートという分類ワードを含んだメールを送受信しているが、試合と買い物と合コンという分類ワードを含んだメールを送受信していないことが示されている。
メール分類特徴量導出手段33が、図11に例示するような表を入力して数量化理論III 類の処理をかけると、第1の実施形態で説明したように、各分類ワードの有無の傾向が近いメール宛先には近いスコアが特徴量として与えられる。
この特徴量は、それぞれ多次元ベクトルとして表現される。例えば、各メール宛先には(fs1_i,fs2_i,…,fsN_i)(N:正数、i:メール宛先を特定するID)といった特徴量が与えられる。次元数Nは、累積寄与率があらかじめ定められた割合(例えば70%)をはじめて超えた数として設定される。これらの特徴量を空間的に表示したものを図11の右図に示す。図11は、説明の便宜上2次元の空間として表現されているが、実際にはN次元空間にマッピングすることができる。図11に示すように、メール分類特徴量導出手段33は、共通の単語を含むメールを送受信した宛先(Aさん、Dさん、Iさん)には、他の宛先に比べて近い特徴量を与えるため、図11では、Aさん、Dさん、Iさんは近い場所で表示されている。
メール分類特徴量導出手段33がステップS33の処理を行った後、人物分類特徴量導出手段34は、ステップS33で得られたデータをもとに、メール宛先をグルーピングする1次元の特徴量を抽出する(ステップS34)。
人物分類特徴量導出手段34は、例えば、メール送受信数がもっとも多いメール宛先を基準に、所定の宛先との送受信メールのコサイン類似度(第2の実施形態の数式3参照。)を計算し、コサイン類似度が大きい順に並べる。あるいは、メール送受信数がもっとも多いメール宛先を基準に、所定の宛先との送受信メールのユークリッド平方距離の小さい順に並べてもよい。また、ユークリッド平方距離以外に、標準化ユークリッド平方距離、マハラノビス距離、ミンコフスキー距離などを使ってもよい。この順序が得られると、各メール宛先に対し、メール送受信数がもっとも多いメール宛先から順に、0,1,2,3,…,N−1(N:メール宛先の総数、正数)という数値が与えられる。
最後に、人物分類結果表示手段35は、図12に示すように、メール宛先(人物)分類結果をメーラやアドレス帳アプリケーションなどで表示する(ステップS35)。図12は、人物分類結果の表示例を示す説明図である。図12には、特開2002−27085号公報(文献1)や特開2007−129609号公報(文献2)に記載されているように、本人を中心に、同心円上にメール宛先を表示するユーザインタフェースを改良する例を示す。図12に示す例でも、文献1の記載と同様に、メール送受信回数(頻度)の高いメール宛先は、原点に近づけて表示する。逆に、メール送受信回数(頻度)の低いメール宛先は、原点から遠ざけて表示する。
人物分類結果表示手段35は、図12に示すように、文献1,2に開示されている技術に加えて以下に述べる表示上の工夫を行う。図12に示す同心円の周辺に表した数字は、ステップS34で得られた特徴量0,1,2,3,…,N−1(図12ではN=10)であり、Ann、Bob,Kate、Alex、Laura、…の特徴量が0,1,2,3,4,5,…であることを示している。このとき、特徴量が0のメール宛先(Ann)の方向を時計の12時の位置に表示したとすると、特徴量iのメール宛先は、12時から時計周りに、(数式4)で示される向きに表示する。
Figure 0005098631
図12に示す例では、12時から時計回りに表示しているが、12時から反時計回りに表示してもよい。また、特徴量0の方向が12時以外の方向であってもよい。
さらに、上記の例では、各メール宛先に対して均等にばらして表示しているが、ステップS34において、コサイン類似度やユークリッド平方距離の大きさに応じて人物間の角度を調整してもよい。例えば、コサイン類似度で得られた値のarccosをとり、その正の角度の2倍の角度を上記θiとすることもできる。また、メール宛先間のユークリッド平行距離の最大の値を基準にその値との比で角度を割り当てることもできる。
次に、第3の実施形態の効果について説明する。第3の実施形態では、メール分類特徴量導出手段33が共通の単語が多く含まれるメールを送受信する人物について近い特徴量を導出し、人物分類特徴量抽出手段34が、各メール宛先の特徴量に基づき、順序づけを行うように構成されているので、メール宛先の関係性を表示する上で関係性の強い人物を近い角度で表示することができ,ユーザの視認性を増すことができる。
次に、本発明の最小構成について図面を参照して説明する。図13は、本発明によるメール分類システムの最小の構成例を示すブロック図である。図13に例示するメール分類システムは、スレッド統合手段11と、分類ワード候補抽出手段112と、分類ワード導出手段13と、メール分類特徴量導出手段14と、クラスタリング手段15とを備える。
スレッド統合手段11は、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合する。
分類ワード候補抽出手段112は、スレッド統合手段11が統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する。
分類ワード導出手段13は、分類ワード候補抽出手段112が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する。
メール分類特徴量導出手段14は、分類ワードがスレッドに含まれているか否かに基づいて、各スレッドのお互いの類似度を示すメール分類特徴量を抽出する。
クラスタリング手段15は、メール分類特徴量導出手段14が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出する。
図13に示すように構成すれば、特定のキーワードを含まないメールであっても、共通のトピックについて議論しているメールを精度よく抽出することができるので、メールをトピックごとに高精度に分類することができる。
なお、上記に示した実施形態では、以下の(1)〜(9)に示すような特徴的構成を備えたメール分類システムが示されている。
(1)共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段(例えば、スレッド統合手段11で実現される)と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段(例えば、品詞解析手段12で実現される)と、分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段(例えば、分類ワード導出手段13で実現される)と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段(例えば、メール分類特徴量導出手段14で実現される)と、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング手段(例えば、クラスタリング手段15で実現される)とを備えたことを特徴とするメール分類システム。
(2)クラスタリング手段がグループ化したメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出するトピックキーワード抽出手段(例えば、トピックキーワード抽出手段16で実現される)を備えたメール分類システム。そのように構成されたメール分類システムは、クラスタリングにより形成されたクラスタを適切に表現することができる。
(3)クラスタリング手段がグループ化してクラスタとして抽出したメールを、別々の区分で表示する分類結果表示手段(例えば、分類結果表示手段17で実現される)を備えたメール分類システム。そのように構成されたメール分類システムは、クラスタとして抽出したメールを、フォルダ等の区分毎に表示させることができる。
(4)分類結果表示手段は、トピックキーワード抽出手段が抽出したトピックキーワードを区分名称として表示するメール分類システム。
(5)スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合するメール分類システム。もしくは、同じ日(ただし,1日の区切りを午前4時ごろとする)にやりとりしているメールを1つのスレッドとして統合するメール分類システム。そのように構成されたメール分類システムは、1つの内容に関して連続的に特定の相手と送受信するメールを統合することができる。
(6)分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行うメール分類システム。そのように構成されたメール分類システムは、絵文字が多用される、携帯電話機上で送受信されるメールを分類することができる。
(7)分類ワード導出手段は、少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出するメール分類システム。あるいは、これらの単語のうち、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出するメール分類システム。そのように構成されたメール分類システムは、所定の割合以上のスレッドに含まれる単語や、1つのスレッドにしか含まれない単語などの、分類に不適当な単語を除いて、分類ワードを導出することができる。
(8)分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出するメール分類システム。そのように構成されたメール分類システムは、スレッドにおける登場回数が所定の上位までの単語を抽出することができる。
(9)メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出するメール分類システム。
上記に示した実施形態では、以下の(1)〜(8)に示すような特徴的構成を備えたメール検索システムが示されている。
(1)メール検索のためのキーワードを入力するキーワード入力手段(例えば、キーワード入力手段21で実現される)と、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、前記分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、前記キーワード入力手段から入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出手段(例えば、関連メール候補抽出手段22で実現される)とを備えたことを特徴とするメール検索システム。
(2)キーワード入力手段が入力したキーワードを含むメールおよび関連メール候補抽出手段が関連メール候補として抽出したメールを、検索結果として表示する検索結果表示手段(例えば、検索結果表示手段23で実現される)を備えたメール検索システム。そのように構成されたメール検索システムは、キーワードを含むメールおよび関連メール候補として抽出したメールを表示させることができる。
(3)スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合するメール検索システム。もしくは、同じ日(ただし,1日の区切りを午前4時ごろとする)にやりとりしているメールを1つのスレッドとして統合するメール検索システム。そのように構成されたメール検索システムは、1つの内容に関して短時間で連続的に特定の相手と送受信するメールを統合することができる。
(4)分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行うメール検索システム。そのように構成されたメール検索システムは、絵文字が多用される、携帯電話機上で送受信されるメールを検索することができる。
(5)分類ワード導出手段は、少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出するメール検索システム。あるいは、これらの単語のうち、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出するメール検索システム。そのように構成されたメール検索システムは、所定の割合以上のスレッドに含まれる単語や、1つのスレッドにしか含まれない単語などの、分類に不適当な単語を除いて、分類ワードを導出することができる。
(6)分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出するメール検索システム。そのように構成されたメール検索システムは、スレッドにおける登場回数が所定の上位までの単語を抽出することができる。
(7)メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出するメール検索システム。
(8)スレッド統合手段、分類ワード導出手段およびメール分類特徴量導出手段に検索前処理としてあらかじめ処理を実行させ、実行結果を保存し、キーワード入力手段がキーワードを入力すると、保存した実行結果を関連メール候補抽出手段に入力する制御部を備え、関連メール候補抽出手段は、前記制御部が入力した実行結果に基づいて処理を実行するメール検索システム。
上記に示した実施形態では、以下の(1)〜(8)に示すような特徴的構成を備えたメール宛先分類システムが示されている。
(1)特定の宛先との送受信メールを解析対象として統合する宛先毎統合手段(例えば、宛先毎統合手段31で実現される)と、各メールの文章に形態素解析を行い、特定の品詞の単語を抽出する品詞解析手段と、各メールから前記品詞解析手段が抽出した単語が含まれるメールの宛先数をヒストグラムで解析し、分類に有効な単語を分類ワードとして導出する分類ワード導出手段(例えば、分類ワード導出手段32で実現される)と、前記分類ワード導出手段が分類ワードとして導出した各単語がメールに含まれているか否かに基づいて、各宛先との送受信メールのお互いの類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段(例えば、メール分類特徴量導出手段33で実現される)と、前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、人物を分類するための人物分類特徴量を抽出する人物分類特徴量導出手段(例えば、人物分類特徴量抽出手段34で実現される)とを備えたことを特徴とするメール宛先分類システム。
(2)人物分類特徴量導出手段が抽出したメール分類特徴量に基づいて、グループ分けされたメール宛先を関係性が近いものを近隣に配置して表示する人物分類結果表示手段(例えば、人物分類結果表示手段35で実現される)を備えたメール宛先分類システム。そのように構成されたメール宛先分類システムは、ユーザの視認性を良くすることができる。
(3)人物分類結果表示手段は、同心円上に、人物分類特徴量導出手段が抽出した特徴量の順序に基づいて、時計回りまたは反時計回りに、宛先を表示するメール宛先分類システム。そのように構成されたメール宛先分類システムは、ユーザの視認性をさらに良くすることができる。
(4)品詞解析手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行うメール宛先分類システム。そのように構成されたメール宛先分類システムは、絵文字が多用される、携帯電話機上で送受信されるメールに基づいて、宛先を分類することができる。
(5)分類ワード導出手段は、少なくとも2つ以上の宛先に登場し、かつ全宛先数に対して一定割合以下で登場する単語を導出するメール宛先分類システム。あるいは、これらの単語のうち、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出するメール宛先分類システム。そのように構成されたメール宛先分類システムは、所定の割合以上の宛先に含まれる単語や、1つの宛先との送受信メールにしか含まれない単語などの、分類に不適当な単語を除いて、分類ワードを導出することができる。
(6)分類ワード導出手段は、宛先登場数の上位順に一定数の単語を導出するメール宛先分類システム。そのように構成されたメール宛先分類システムは、スレッドにおける登場回数が所定の上位までの単語を抽出することができる。
(7)メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出するメール宛先分類システム。
(8)人物分類特徴量導出手段は、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、最もメール送受信数の多い宛先と各宛先との送受信メールの類似度を求め、人物を分類するための人物分類特徴量として、類似度が近い順に宛先を抽出するメール宛先分類システム。そのように構成されたメール宛先分類システムは、関係性の強い順に宛先を抽出することができる。
本発明は、携帯電話機上で送受信されるメールを分類し、関連フォルダに自動転送する用途に適用できる。また、携帯電話機上で送受信されるメールをキーワード検索した際に、そのキーワードを含まないものの、キーワードに関係するメールを検索結果として表示するといった用途にも適用可能である。また、携帯電話機のアドレス帳における自動グループ登録、グループごとに整理した形での表示といった用途にも適用可能である。
本発明によるメール分類システムの第1の実施形態を示すブロック図である。 第1の実施形態の動作を示すフローチャートである。 メール分類特徴量を導出する処理の例を説明するための説明図である。 階層的クラスタ分析の例を説明するための説明図である。 メールを分類した結果の表示例を示す説明図である。 本発明によるメール分類システムの第2の実施形態を示すブロック図である。 第2の実施形態の動作を示すフローチャートである。 関連メール候補を抽出する処理の例を説明するための説明図である。 本発明によるメール分類システムの第3の実施形態を示すブロック図である。 第3の実施形態の動作を示すフローチャートである。 メール分類特徴量を導出する処理の例を説明するための説明図である。 人物分類結果の表示例を示す説明図である。 本発明によるメール分類システムの最小の構成例を示すブロック図である。 特許文献2に記載されている分類処理の例を示すフローチャートである。 特許文献2記載のステップS103,S104の処理の例を説明するための説明図である。
符号の説明
10 データ解析手段
11 スレッド統合手段
12 品詞解析手段
13 分類ワード導出手段
14 メール分類特徴量導出手段
15 クラスタリング手段
16 トピックキーワード抽出手段
17 分類結果表示手段
60 メール表示手段
70 メール送信手段
80 文書編集手段
100 中央処理装置
110 通信装置
120 入力装置
130 表示装置
140 主記憶装置
150 二次記憶装置

Claims (69)

  1. 共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、
    各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、
    前記分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、
    分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、
    前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング手段と
    を備えたことを特徴とするメール分類システム。
  2. クラスタリング手段がグループ化したメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出するトピックキーワード抽出手段を備えた請求項1記載のメール分類システム。
  3. クラスタリング手段がグループ化してクラスタとして抽出したメールを、別々の区分で表示する分類結果表示手段を備えた請求項1または請求項2記載のメール分類システム。
  4. 分類結果表示手段は、トピックキーワード抽出手段が抽出したトピックキーワードを区分名称として表示する請求項3記載のメール分類システム。
  5. スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合する請求項1から請求項4のうちのいずれか1項に記載のメール分類システム。
  6. スレッド統合手段は、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを1つのスレッドとして統合する請求項1から請求項4のうちのいずれか1項に記載のメール分類システム。
  7. スレッド統合手段は、1日の区切りを深夜または早朝の時刻に定めた請求項6に記載のメール分類システム。
  8. 分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項1から請求項7のうちのいずれか1項に記載のメール分類システム。
  9. 分類ワード導出手段は、少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項1から請求項8のうちのいずれか1項に記載のメール分類システム。
  10. 分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出する請求項9記載のメール分類システム。
  11. 分類ワード導出手段は、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項9または請求項10記載のメール分類システム。
  12. メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出する請求項1から請求項11のうちのいずれか1項に記載のメール分類システム。
  13. メール検索のためのキーワードを入力するキーワード入力手段と、
    共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、
    各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、
    前記分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、
    分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、
    前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、前記キーワード入力手段から入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出手段と
    を備えたことを特徴とするメール検索システム。
  14. キーワード入力手段が入力したキーワードを含むメールおよび関連メール候補抽出手段が関連メール候補として抽出したメールを、検索結果として表示する検索結果表示手段を備えた請求項13記載のメール検索システム。
  15. スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合する請求項13または請求項14記載のメール検索システム。
  16. スレッド統合手段は、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを1つのスレッドとして統合する請求項13または請求項14記載のメール検索システム。
  17. スレッド統合手段は、1日の区切りを深夜または早朝の時刻に定めた請求項16記載のメール検索システム。
  18. 分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項13から請求項17のうちのいずれか1項に記載のメール検索システム。
  19. 分類ワード導出手段は、少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項13から請求項18のうちのいずれか1項に記載のメール検索システム。
  20. 分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出する請求項19記載のメール検索システム。
  21. 分類ワード導出手段は、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項19または請求項20記載のメール検索システム。
  22. メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出する請求項13から請求項21のうちのいずれか1項に記載のメール検索システム。
  23. スレッド統合手段、分類ワード導出手段およびメール分類特徴量導出手段に検索前処理としてあらかじめ処理を実行させ、実行結果を保存し、キーワード入力手段がキーワードを入力すると、保存した実行結果を関連メール候補抽出手段に入力する制御部を備え、
    関連メール候補抽出手段は、前記制御部が入力した実行結果に基づいて処理を実行する
    請求項13から請求項22のうちのいずれか1項に記載のメール検索システム。
  24. 共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、
    統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、
    抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、
    分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、
    抽出されたメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をクラスタとして抽出する
    ことを特徴とするメール分類方法。
  25. グループ化されたメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出する請求項24記載のメール分類方法。
  26. 抽出されたトピックキーワードを区分名称として表示する請求項25記載のメール分類方法。
  27. グループ化してクラスタとして抽出したメールを別々の区分で表示する請求項24から請求項26のうちのいずれか1項に記載のメール分類方法。
  28. 特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合する請求項24から請求項27のうちのいずれか1項に記載のメール分類方法。
  29. 特定の相手と送受信しているメールのうち、同じ日に送受信したメールを1つのスレッドとして統合する請求項24から請求項27のうちのいずれか1項に記載のメール分類方法。
  30. 1日の区切りを深夜または早朝の時刻に定めた請求項29に記載のメール分類方法。
  31. スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項24から請求項30のうちのいずれか1項に記載のメール分類方法。
  32. 少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項24から請求項31のうちのいずれか1項に記載のメール分類方法。
  33. スレッド登場数の上位順に一定数の単語を導出する請求項32記載のメール分類方法。
  34. 場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項32または請求項33記載のメール分類システム。
  35. 数量化理論III 類を用いてメール分類特徴量を抽出する請求項24から請求項34のうちのいずれか1項に記載のメール分類方法。
  36. メール検索のためのキーワードを入力し、
    共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、
    統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、
    抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、
    分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、
    抽出されたメール分類特徴量に基づいて、入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する
    ことを特徴とするメール検索方法。
  37. 入力されたキーワードを含むメールおよび関連メール候補として抽出されたメールを検索結果として表示する請求項36記載のメール検索方法。
  38. 特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合する請求項36または請求項37記載のメール検索方法。
  39. 特定の相手と送受信しているメールのうち、同じ日に送受信したメールを1つのスレッドとして統合する請求項36または請求項37記載のメール検索方法。
  40. 1日の区切りを深夜または早朝の時刻に定めた請求項39に記載のメール検索方法。
  41. スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項36から請求項40のうちのいずれか1項に記載のメール検索方法。
  42. 少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項36から請求項41のうちのいずれか1項に記載のメール検索方法。
  43. スレッド登場数の上位順に一定数の単語を導出する請求項42記載のメール検索方法。
  44. 分類ワード導出手段は、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項42または請求項43記載のメール検索方法。
  45. 数量化理論III 類を用いてメール分類特徴量を抽出する請求項36から請求項44のうちのいずれか1項に記載のメール検索方法。
  46. 事前処理として、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、
    事前処理として、統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、
    事前処理として、抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、
    事前処理として、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、結果を保存しておいた上で、
    メール検索のためのキーワードを入力し、
    保存しておいたメール分類特徴量に基づいて、入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する
    請求項36から請求項45のうちのいずれか1項に記載のメール検索方法。
  47. コンピュータに、
    共通のトピックをやりとりしている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、
    各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、
    前記分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、
    分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、
    前記メール分類特徴量導出処理で抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング処理と
    を実行させるためのメール分類プログラム。
  48. コンピュータに、
    クラスタリング処理でグループ化したメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出するトピックキーワード抽出処理を実行させるための
    請求項47記載のメール分類プログラム。
  49. コンピュータに、
    クラスタリング処理でグループ化してクラスタとして抽出したメールを別々の区分で表示する分類結果表示処理を実行させるための
    請求項47または請求項48記載のメール分類プログラム。
  50. コンピュータに、
    分類結果表示処理で、トピックキーワード抽出処理で抽出したトピックキーワードを区分名称として表示する処理を実行させるための
    請求項49記載のメール分類プログラム。
  51. コンピュータに、
    スレッド統合処理で、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合する処理を実行させるための
    請求項47から請求項50のうちのいずれか1項に記載のメール分類プログラム。
  52. コンピュータに、
    スレッド統合処理で、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを1つのスレッドとして統合する処理を実行させるための
    請求項47から請求項50のうちのいずれか1項に記載のメール分類プログラム。
  53. コンピュータに、
    スレッド統合処理で、1日の区切りを深夜または早朝の時刻として統合処理を実行させるための
    請求項52に記載のメール分類プログラム。
  54. コンピュータに、
    分類ワード候補抽出処理で、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う処理を実行させるための
    請求項47から請求項53のうちのいずれか1項に記載のメール分類プログラム。
  55. コンピュータに、
    分類ワード導出処理で、少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する処理を実行させるための
    請求項47から請求項54のうちのいずれか1項に記載のメール分類プログラム。
  56. コンピュータに、
    分類ワード導出処理で、スレッド登場数の上位順に一定数の単語を導出する処理を実行させるための
    請求項55記載のメール分類プログラム。
  57. コンピュータに、
    分類ワード導出処理で、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する処理を実行させるための
    請求項55または請求項56記載のメール分類プログラム。
  58. コンピュータに、
    メール分類特徴量導出処理で、数量化理論III 類を用いてメール分類特徴量を抽出する処理を実行させるための
    請求項47から請求項57のうちのいずれか1項に記載のメール分類プログラム。
  59. コンピュータに、
    メール検索のためのキーワードを入力するキーワード入力処理と、
    共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、
    各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、
    前記分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、
    分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、
    前記メール分類特徴量導出処理で抽出したメール分類特徴量に基づいて、前記キーワード入力処理で入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出処理と
    を実行させるためのメール検索プログラム。
  60. コンピュータに、
    キーワード入力処理で入力したキーワードを含むメールおよび関連メール候補抽出処理で関連メール候補として抽出したメールを、検索結果として表示する検索結果表示処理を実行させるための
    請求項59記載のメール検索プログラム。
  61. コンピュータに、
    スレッド統合処理で、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを1つのスレッドとして統合する処理を実行させるための
    請求項59または請求項60記載のメール検索プログラム。
  62. コンピュータに、
    スレッド統合処理で、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを1つのスレッドとして統合する処理を実行させるための
    請求項59または請求項60記載のメール検索プログラム。
  63. コンピュータに、
    スレッド統合処理で、1日の区切りを深夜または早朝の時刻として統合処理を実行させるための
    請求項62に記載のメール検索プログラム。
  64. コンピュータに、
    分類ワード候補抽出処理で、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う処理を実行させるための
    請求項59から請求項63のうちのいずれか1項に記載のメール検索プログラム。
  65. コンピュータに、
    分類ワード導出処理で、少なくとも2スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する処理を実行させるための
    請求項59から請求項64のうちのいずれか1項に記載のメール検索プログラム。
  66. コンピュータに、
    分類ワード導出処理で、スレッド登場数の上位順に一定数の単語を導出する処理を実行させるための
    請求項65記載のメール検索プログラム。
  67. コンピュータに、
    分類ワード導出処理で、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する処理を実行させるための
    請求項65または請求項66記載のメール検索プログラム。
  68. コンピュータに、
    メール分類特徴量導出処理で、数量化理論III 類を用いてメール分類特徴量を抽出する処理を実行させるための
    請求項59から請求項67のうちのいずれか1項に記載のメール検索プログラム。
  69. コンピュータに、
    スレッド統合処理、分類ワード候補抽出処理、分類ワード導出処理およびメール分類特徴量導出処理を検索前処理としてあらかじめ実行させ、実行結果を保存する処理を実行させ、
    キーワード入力処理で、キーワードを入力すると、関連メール候補抽出処理で、保存した実行結果を入力し、処理を実行させるための
    請求項59から請求項68のうちのいずれか1項に記載のメール検索プログラム。
JP2007332031A 2007-12-25 2007-12-25 メール分類システム、メール検索システム Expired - Fee Related JP5098631B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007332031A JP5098631B2 (ja) 2007-12-25 2007-12-25 メール分類システム、メール検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007332031A JP5098631B2 (ja) 2007-12-25 2007-12-25 メール分類システム、メール検索システム

Publications (2)

Publication Number Publication Date
JP2009157450A JP2009157450A (ja) 2009-07-16
JP5098631B2 true JP5098631B2 (ja) 2012-12-12

Family

ID=40961447

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007332031A Expired - Fee Related JP5098631B2 (ja) 2007-12-25 2007-12-25 メール分類システム、メール検索システム

Country Status (1)

Country Link
JP (1) JP5098631B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5986926B2 (ja) * 2009-09-28 2016-09-06 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 協力目的でのピアのストリームライン検索への知的ピアリコメンダの使用及びその表示
JP5798506B2 (ja) * 2011-02-10 2015-10-21 Kddi株式会社 優先度通知装置及び優先度通知プログラム
US9110983B2 (en) * 2012-08-17 2015-08-18 Intel Corporation Traversing data utilizing data relationships
JP5827206B2 (ja) * 2012-11-30 2015-12-02 株式会社Ubic 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5435151B2 (ja) * 2013-02-05 2014-03-05 キヤノンマーケティングジャパン株式会社 電子メール監査装置、その制御方法及びプログラム
JP6466867B2 (ja) * 2016-02-25 2019-02-06 日本電信電話株式会社 情報管理装置、情報管理方法および情報管理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250950A (ja) * 1993-02-24 1994-09-09 Hitachi Ltd メールボックス管理方法
JP2000331018A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 電子情報受信装置および電子情報処理方法
US8001184B2 (en) * 2006-01-27 2011-08-16 International Business Machines Corporation System and method for managing an instant messaging conversation

Also Published As

Publication number Publication date
JP2009157450A (ja) 2009-07-16

Similar Documents

Publication Publication Date Title
Ahmed et al. Detection of online fake news using n-gram analysis and machine learning techniques
US10891699B2 (en) System and method in support of digital document analysis
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
Kestemont et al. Cross-genre authorship verification using unmasking
CN107038178A (zh) 舆情分析方法和装置
JP5711674B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
Cerón-Guzmán et al. A sentiment analysis system of Spanish tweets and its application in Colombia 2014 presidential election
Gao et al. The application and comparison of web services for sentiment analysis in tourism
KR20110115542A (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
CN110096575B (zh) 面向微博用户的心理画像方法
JP5098631B2 (ja) メール分類システム、メール検索システム
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
Colhon et al. Relating the opinion holder and the review accuracy in sentiment analysis of tourist reviews
KR101838573B1 (ko) 공간 감성어 사전을 이용한 감성분석 기반의 장소 선호도 분석방법
Smailović Sentiment analysis in streams of microblogging posts
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Van Toledo et al. Dutch Named Entity Recognition and De-Identification Methods for the Human Resource Domain
CN109660621A (zh) 一种内容推送方法及服务设备
Hussain et al. A technique for perceiving abusive bangla comments
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
CN110019829A (zh) 数据属性确定方法、装置
Narang et al. Twitter Sentiment Analysis on Citizenship Amendment Act in India

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees