JP5098631B2

JP5098631B2 - メール分類システム、メール検索システム

Info

Publication number: JP5098631B2
Application number: JP2007332031A
Authority: JP
Inventors: 裕一仁野; 潤野田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-12-25
Filing date: 2007-12-25
Publication date: 2012-12-12
Anticipated expiration: 2027-12-25
Also published as: JP2009157450A

Description

本発明は、メール分類システム、メール検索システム、メール分類方法、メール検索方法、メール分類プログラム、およびメール検索プログラムに関する。

現在、受信されたメールをユーザが設定したメールフォルダに分類する機能は、電子情報受信装置に搭載されている多くのメーラなどに備わっている。メールの分類手法として、例えば、メールの属性情報（宛先、発信者メールアドレス、発信時期）や、特定のキーワードがメール本文に含まれることなどを、振り分け条件としてユーザが設定して実施する手法が一般的である（例えば、特許文献１参照）。

ところが、メールを送信する場合には、同じ宛先でも多数のトピックについて送信することが多く、また同じトピックについてのメールを多数の宛先に対して送信することも多い。また、同一の話題を議論していることを発見できる有効なキーワードを絞りきれないこともある。したがって、特許文献１に記載されているようなルールベースの方式では適用範囲に限界があり、ユーザがメール内容を確認してフォルダに格納する方式も併用する必要があり、ユーザの手間がかかる。

このような問題を解決するための１つの手段として、メールデータの中から主要なトピックキーワードを検出し、そのキーワードに関連するメールをクラスタリングにより分類する方式が特許文献２に記されている。図１４は、特許文献２に記載されている分類処理の例を示すフローチャートである。

この分類処理では、まず受信したメールに対して形態素解析をかけ、名詞を抽出する（ステップＳ１０１）。次に、得られた名詞からトピックキーワードを検出する（ステップＳ１０２）。具体的には、得られた名詞の出現回数をカウントするヒストグラム解析を行う（ステップＳ１０２ａ）。そして、ヒストグラム解析結果をもとに、出現回数が多い上位５％の単語をトピックキーワードの候補として検出する（ステップＳ１０２ｂ）。それから、得られたトピックキーワード候補のそれぞれについて、ユーザが指定した期間内のメールを時系列で１０分割し、トピックキーワードごとに再度ヒストグラムを生成する（ステップＳ１０２ｃ）。時系列のヒストグラムが得られると、このヒストグラムのパタンがあらかじめ定めた５種類のパタンのそれぞれに対する適合度、出現頻度、ユーザが指定した期間の３種類の値からファジー推論により、トピックキーワードとしての適正度を算出する。そして、トピックキーワード候補のうち、適正度が上位ｎ個のものをトピックキーワードとして検出する（ステップＳ１０２ｄ）。次に、図１５に示したように、各メールにおいて、各トピックキーワードの適合度が与えられているものとして（ステップＳ１０３）、それらを特徴量としてファジークラスタリングを実施する。図１５は、特許文献２記載のステップＳ１０３，Ｓ１０４の処理の例を説明するための説明図である。その結果、各分類と各々の記事の分類への帰属度を求める（ステップＳ１０４）。最後に、各トピックキーワードとそれに関係するメールのリストを表示する（ステップＳ１０５）。

特開平６−２５０９５０号公報特開２０００−３３１０１８号公報（第６−８頁、図３）

しかし、特許文献２に記載された方式では、メールを高精度に分類することは難しい。特許文献２に記載された方式では、ステップＳ１０３において、各メールにおける各トピックキーワードの適合度の計算手法が示されていない。仮に、メールの中に各トピックキーワードが含まれているかどうかに基づき、他の単語と比べた出現率などをもとに適合度を計算したとしても、ステップＳ１０２のように高度に絞り込まれたトピックキーワードに関するメールが必ずしもトピックキーワードを含むとは限らないため、高精度な分類は難しいという問題がある。

そこで、本発明は、メールの中にトピックキーワードが含まれていなくても、トピックキーワードと共に出現する頻度の高い単語を多く含むメールを、そのトピックキーワードに関係するメールとして検出することができるメール分類システム、メール検索システム、メール宛先分類システム、メール分類方法、メール検索方法、メール宛先分類方法、メール分類プログラム、メール検索プログラム、およびメール宛先分類プログラムを提供することを目的とする。

本発明によるメール分類システムは、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間のお互いの類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング手段とを備えたことを特徴とする。

本発明によるメール検索システムは、メール検索のためのキーワードを入力するキーワード入力手段と、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、キーワード入力手段から入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出手段とを備えたことを特徴とする。

本発明によるメール分類方法は、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、抽出されたメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をクラスタとして抽出することを特徴とする。

本発明によるメール検索方法は、メール検索のためのキーワードを入力し、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、抽出されたメール分類特徴量に基づいて、入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出することを特徴とする。

本発明によるメール分類プログラムは、コンピュータに、共通のトピックをやりとりしている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、メール分類特徴量導出処理で抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング処理とを実行させることを特徴とする。

本発明によるメール検索プログラムは、コンピュータに、メール検索のためのキーワードを入力するキーワード入力処理と、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、メール分類特徴量導出処理で抽出したメール分類特徴量に基づいて、キーワード入力処理で入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出処理とを実行させることを特徴とする。

本発明によれば、メールの中にトピックキーワードが含まれていなくても、トピックキーワードと共に出現する頻度の高い単語を多く含むメールを、そのトピックキーワードに関係するメールとして検出することができるという効果がある。

実施形態１．
次に、本発明の第１の実施形態を図面を参照して説明する。図１は、本発明によるメール分類システムの第１の実施形態を示すブロック図である。図１を参照すると、本発明の第１の実施形態のメール分類システムは、プログラム制御により動作する中央処理装置１００と、通信装置１１０と、入力装置１２０と、表示装置１３０と、主記憶装置１４０と、二次記憶装置１５０とを備えている。メール分類システムは、例えば、携帯電話機等の情報端末によって実現される。

二次記憶装置１５０は、データ解析手段１０と、メール表示手段６０と、メール送信手段７０と、文書編集手段８０とを記憶する。二次記憶装置１５０は、例えば、磁気ディスク装置等によって実現される。

データ解析手段１０は、スレッド統合手段１１と、品詞解析手段１２と、分類ワード導出手段１３と、メール分類特徴量導出手段１４と、クラスタリング手段１５と、トピックキーワード抽出手段１６と、分類結果表示手段１７とを含む。データ解析手段１０、メール表示手段６０、メール送信手段７０および文書編集手段８０は、中央処理装置１００に、後述する機能を実現させるためのプログラムとして実現可能である。以下、「データ解析手段１０が行う」等の表現を用いるが、具体的には、中央処理装置１００が、プログラムであるデータ解析手段１０に従って処理を行う。このことは、二次記憶装置１５０が記憶するプログラムによって実現される他の手段についても同様である。

中央処理装置１００は、要求された情報を処理する。

通信装置１１０は、外部端末（コンピュータ、携帯電話機など）との通信を行う。

表示装置１２０は、ウィンドウ、図形要素、文字などを表示する。

主記憶装置１４０は、オペレーティングシステム、ウィンドウシステムなど実行中のプログラムを記憶する。

二次記憶装置１５０は、電子メールによって配信され、内蔵メモリ（図示せず。）に蓄積された電子情報に対して自動的に統計解析を行って、メールを分野毎に分類するためのデータ解析手段１０を記憶する。

データ解析手段１０は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、メールを分野毎に分類する。

メール表示手段６０は、受信したメールを表示する。

メール送信手段７０は、メールを送信する。

文書編集手段８０は、メール文書を編集する。

スレッド統合手段１１は、共通の話題を議論している可能性が高いメール群を、ｓｕｂｊｅｃｔ、メール宛先、メール送受信時刻から推定した上でスレッドとして統合する。

品詞解析手段１２は、メール中の絵文字を平易な単語で変換したうえで、形態素解析をかけ、あらかじめ指定した品詞の単語を抽出する。

分類ワード導出手段１３は、各メールから品詞解析手段１２で抽出された単語について、いくつのスレッドに含まれているかなどをヒストグラムで解析するなどの処理を行い、分類に有効な単語を導出する。

メール分類特徴量導出手段１４は、分類ワードとして導出された各単語が各スレッドに含まれているかどうかを示す情報を入力して、数量化理論III 類などの識別器にかけることによって、各スレッドのお互いの類似度を示すメール分類特徴量を抽出する。

クラスタリング手段１５は、メール分類特徴量導出手段１４が抽出したメール分類特徴量をもとにクラスタリングを行い、同じトピックについてやり取りしているメール群を抽出する。

トピックキーワード抽出手段１６は、クラスタリングにより形成されたクラスタ（グループ）を適切に表現するトピックキーワードを抽出する。

分類結果表示手段１７は、電子情報受信装置に搭載されているメーラなどの画面で、グループ分けされたメールを別々のフォルダに挿入するなどの形で表示する。

次に、図面を参照して第１の実施形態の動作について説明する。図２は、第１の実施形態の動作を示すフローチャートである。

まず、スレッド統合手段１１は、共通の話題を議論しているスレッドを統合する（ステップＳ１１）。ＰＣ（パーソナルコンピュータ）上でメールを送信する場合、メールトピックをｓｕｂｊｅｃｔに記載し、それに返信した場合はｓｕｂｊｅｃｔにＲｅ：が付与されるので、スレッド統合手段１１は、スレッドを見つけるためにｓｕｂｊｅｃｔを手がかりにすることができる。携帯電話機上でメールを送信する場合においては、ｓｕｂｊｅｃｔに何も記載しないことが多いため、スレッド統合手段１１は、スレッドの統合についてはｓｕｂｊｅｃｔの情報を利用することができない可能性がある。一方で、携帯電話機上で送受信されるメールは、ｃｈａｔのように１つの内容に関して短時間で連続的に特定の相手とやり取りされる傾向が高いため、送受信を含めてそれらをまとめることにより、単語数を増やした固まりとして特徴解析できる。そこで、スレッド統合手段１１は、例えば、同一のｔｏ−ｆｒｏｍアドレスで送受信しているメール（すなわち、特定の相手と送受信しているメール）のうち、前の送受信から一定時間内（例えば、３０分など）に送受信したメールを、共通のスレッドで議論しているメールとみなして、統合する。あるいは，別のスレッド統合手段１１として、同一のｔｏ−ｆｒｏｍアドレスで送受信しているメール（すなわち、特定の相手と送受信しているメール）のうち、同じ日にやりとりしているメールを，共通のスレッドで議論しているメールとみなして、統合することもできる。この１日の区切りは、ほとんどの人が睡眠している午前４時ごろを設定すると良い。

次に、品詞解析手段１２は、送受信したメールに対して形態素解析（ステップＳ１２ａ）や絵文字解析（ステップＳ１２ｂ）などの品詞解析をかけ、あらかじめ定めた品詞の単語を抽出する（ステップＳ１２）。以下、品詞解析手段１２が抽出する単語を、分類ワード候補と表記する場合がある。分類ワード候補は、メールの分類に用いる単語の候補である。

品詞解析手段１２は、単語抽出の手法として、まずステップＳ１２ｂで絵文字を適当な文字列に変換する。変換のためのテーブルは、あらかじめ二次記憶装置１５０に格納されている。このテーブルには、Ｓ−ＪＩＳやＵＮＩＣＯＤＥで絵文字を表現したコードと、絵文字に関係する文字列との対応関係が格納されている。例えば、ＮＴＴドコモ（登録商標）社の絵文字の場合（http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/index.html参照）、Ｓ−ＪＩＳやＵＮＩＣＯＤＥの値と絵文字タイトルとの対応関係が保存されている。例えば、Ｓ−ＪＩＳコード１６進数Ｆ８９Ｆ、ＵＮＩＣＯＤＥではＥ６３Ｅとあらわされたコードは、「晴れ」という文字列と対応付けられて保存されている。

このようにして、すべての絵文字をなんらかの文字列に変換すると、品詞解析手段１２は、形態素解析を行う（ステップＳ１２ｂ）。形態素解析は、ＣｈａＳｅｎ、ＭｅＣａｂなどの既存の手法を用いてもよい。形態素解析の結果、メールの文章を構成する各単語の品詞とその原形のセットが個別に抽出される。

その後、分類ワード導出手段１３は、ステップＳ１２で得られた単語（分類ワード候補）のうち、分類に利用する単語を分類ワードとして抽出する（ステップＳ１３）。分類ワード導出手段１３は、分類ワードを抽出する方法として、例えば、ステップＳ１２で得られた単語（分類ワード候補）がステップＳ１１で得られたいくつのスレッドに出現するかをカウントするヒストグラム解析を行い（ステップＳ１３ａ）、ヒストグラム結果をもとに、出現回数に応じたフィルタリングをかける（ステップＳ１３ｂ）。

分類ワード導出手段１３は、フィルタリングにおいて、少なくとも２スレッド以上で上位一定数までの単語を抽出し、かつ、ヒストグラム解析して極めて多数のスレッドに登場する単語を除く処理を行う。すなわち、分類ワード導出手段１３は、２以上のスレッドにおける登場回数が、所定の上位までの単語を抽出する。そして、分類ワード導出手段１３は、抽出した単語のうち、所定の数以上のスレッドに登場する単語以外の単語を、分類ワードとして抽出する。

極めて多数とは、全スレッド数に対して一定割合以上（例えば、７０％以上）占めるものを指す。極めて多数のスレッドに登場する単語を除いたのは、これらの単語は、「おはよう」、「元気？」など挨拶に関係するものや、携帯端末保有者が好みでよく利用する絵文字などにあてはまるため、スレッド分類をする上で効果が薄い単語だからである。また、１つのスレッドにしか登場しない単語は、スレッド間の関係を分類するのに不適当なため、これも分類ワードとして利用しないのが適当であるからである。

さらに、分類ワード導出手段１３は、このように選んだ単語のうち、特定の種類に関する単語のみを抽出することもできる。例えば、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせが挙げられる。場所を示す名詞は、地名・駅名の辞書とのマッチングを行うことによって抽出することができる。時を示す単語は、年月日、時刻にあたる単語を抽出し、共通の表記に変換した上で抽出する。これは、年月日にあたる表記が単純に○年△月□日のような表記ばかりでなく、明日・明後日・来週の●曜日・◎日後など色々な表記がされることがあり、同じ日付・時刻を指している場合は対応がとれるようにするためである。人を示す単語は、アドレス帳の姓名とのマッチング、メールアドレスとのマッチングにより抽出することができる。

次に、メール分類特徴量導出手段１４は、分類ワード導出手段１３が抽出した分類ワードをもとに、メールを分類するためのメール分類特徴量を導出する（ステップＳ１４）。メール分類特徴量導出手段１４は、メール分類特徴量の導出手法として、例えば、図３に示すように、各メールにおいて、各分類ワードが含まれているかどうかを示す表を作成した上で、数量化理論III 類の処理をかける。

図３は、メール分類特徴量を導出する処理の例を説明するための説明図である。図３に示す左側の表は、縦軸はスレッドを特定するためのＩＤ、横軸はステップＳ１３で抽出された分類ワードを示したものであり、○がついているものは、そのスレッドに、当該分類ワードが含まれていることを示す。

例えば、図３には、ＩＤが１００４のスレッドは、テニスとコートという分類ワードを含んでいるが、試合と買い物と合コンという分類ワードを含んでいないことが示されている。なお、このスレッドＩＤは、スレッドを特定するために端末内でユニークに割り振られたＩＤであるが、ユニークであれば何でもよいため、例えばスレッドの最初のメールの送受信時刻などで代替してもよい。

メール分類特徴量導出手段１４は、図３に例示するような表に関するデータを入力して数量化理論III 類の処理をかける。数量化理論III 類は、多変量解析の１つの手法であり、市販されている多変量解析の出版物に記載されている（例えば、長谷川勝也著「Excelで楽に学ぶこれならわかる多変量解析」技術評論社など）ので、詳細な説明は省略するが、数量化理論III 類の処理により、各カテゴリ（横軸の値）の有無の傾向が近いサンプル（縦軸の値）には近いスコアが特徴量として与えられ、各サンプルの有無の傾向が近いカテゴリには近いスコアが特徴量として与えられる（数量化理論III 類では、縦軸の値をサンプルとよび、横軸の値をカテゴリと呼ぶことが多いため、以下、それぞれの値をサンプル、カテゴリと呼ぶこととする）。

この特徴量は、それぞれ多次元ベクトルとして表現される。例えば、各サンプルには（fs1_i,fs2_i,…,fsN_i）（Ｎ：正数、ｉ：スレッドＩＤ）、各カテゴリには（fc1_j,fc2_j,…,fcN_j）（Ｎ：正数、ｊ：分類ワードを特定するためのＩＤ）といった特徴量が与えられる。次元数Ｎは、累積寄与率があらかじめ定められた割合（例えば７０％）をはじめて超えた数として設定される。これらの特徴量を空間的に表示したものを図３の右上図、右下図に示す。図３は、説明の便宜上２次元の空間として表現されているが、実際にはＮ次元空間にマッピングすることができる。図３に示すように、メール分類特徴量導出手段１４は、共通の単語を含むスレッド（１００４、５０３８）には、他のスレッドに比べて近い特徴量を与え、同じスレッドで多く見られる分類ワード（テニス、コート、試合）には、他の分類ワードに比べて近い特徴量を与える。すなわち、メール分類特徴量導出手段１４は、スレッドに含まれる分類ワードに応じて特徴量を抽出する。例えば、メール分類特徴量導出手段１４は、共通の単語を含むスレッドや、同じスレッドで多く見られる分類ワードに対し、距離が近い特徴量を導出する。

メール分類特徴量導出手段１４がステップＳ１４の処理を行った後、クラスタリング手段１５は、ステップＳ１４で得られたデータをもとに、メールのクラスタリング処理を行う（ステップＳ１５）。すなわち、クラスタリング手段１５は、メール分類特徴量導出手段１４が導出した各スレッドの特徴量に基づいて、スレッドのクラスタリングを行うことにより、メールを分類する。

クラスタリングには多数の方式があるが、１つの方式として、図４に示す階層的クラスタ分析がある。図４は、階層的クラスタ分析の例を説明するための説明図である。クラスタリング手段１５は、例えば、階層的クラスタ分析を行い、クラスタ間の距離があらかじめ定めた閾値以上の場合に、別のクラスタとして分離する（ステップＳ１５ａ）。

階層的クラスタ分析では、各要素（図４ではスレッドＩＤを例に挙げて示す）間の距離のうち近いものから順に１つのクラスタに統合される。ここでいう距離には、例えば、ユークリッド平方距離があげられる。このユークリッド距離とは、スレッドＩＤがp、qの２つのスレッド間の距離を

として算出するものである。階層的クラスタ分析では、ユークリッド平方距離以外に、コサイン類似度、標準化ユークリッド平方距離、マハラノビス距離、ミンコフスキー距離なども使われることがあるが、これらの距離も本発明において利用することができる。

また、階層型クラスタ分析において、複数の要素（クラスタ）を１つのクラスタとして統合する場合、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法、可変法などいくつか方法があるが、本発明では、いずれの方法を利用してもよい。例えば、最短距離法を利用した場合、2つのクラスタを融合してつくられるクラスタ（ｔ）と別の任意のクラスタ（ｒ）との間の距離を、融合する前の段階のクラスタ（ｐ）、クラスタ（ｑ）とクラスタ（ｒ）との距離を用いて、

として距離計算を実施する。クラスタリング手段１５は、このようにして得られた階層型クラスタ群から、距離が一定の閾値を下回るクラスタのみを抽出する。図４は、このようにして得られた階層型クラスタ群をデンドログラムで表示したものである。クラスタリング手段１５は、一定の閾値（図４に示す例では８０）を下回った距離で統合されるクラスタ（スレッドＩＤが１００４や５０３８で表現されたもの）を１つのクラスタ、またそれ以上の距離ではじめて統合される要素（１０３５、５３８９）を、それぞれ別のクラスタとして検出する。

クラスタリング手段１５がクラスタリングを実施すると、トピックキーワード抽出手段１６は、クラスタリング手段１５が形成したクラスタ（グループ）を適切に表現するトピックキーワードを抽出する（ステップＳ１６）。トピックキーワード抽出手段１６がトピックキーワードを抽出する方式として、例えば、グループを構成するメールの中でもっとも高頻度に抽出される単語をトピックキーワードとする方式や、またはグループを構成するメールに対し、特許文献２に記載されているステップＳ１０２の処理を実施する方式が考えられる。

最後に、分類結果表示手段１７は、図５に示すように、分類結果を電子情報受信装置に搭載されているメーラなどに表示する（ステップＳ１７）。分類結果表示手段１７は、例えば、クラスタリング手段１５が抽出したクラスタを区分として、クラスタに含まれるメールを表示する。

図５は、メールを分類した結果の表示例を示す説明図である。図５に示す例では、上部に各グループに割り当てられたフォルダを示し、そのフォルダが選択されると、下部にそのグループに関係するメールのメール識別情報を表示する。この表示では受信（送信）時刻と受信元（送信先）が示されているが、ｓｕｂｊｅｃｔ名などその他の要素が表示されてもよい。そして、下部のメール識別情報から特定のメールを選択すると、そのメールの内容が表示される。図５に示す例では、フォルダ名としてステップＳ１６で抽出したトピックキーワードを表示しているが、適切なキーワードが存在しない場合、関連する人物の名称を示したり、トピックキーワード候補を複数並べて表示するなど、違った表示形態でフォルダ名を表示してもよい。

次に、第１の実施形態の効果について説明する。本実施の形態によれば、各メールに洗練された分類用キーワードが含まれていなくても分類できる。その理由は、分類ワード導出手段が、２つ以上のスレッドに出現している単語を判断するという緩やかな制限で多数の単語を分類ワードとして導出し、メール分類特徴量導出手段が、多数の分類ワードの共通の出現性を尺度として、メール分類特徴量を導出するためである。

第１の実施形態では、共通の単語が多く含まれるメールの特徴量を計算し、それをもとにグルーピングすることにより、必ずしも特定のキーワードを含まないメールでも共通のトピックを議論しているメールを精度よく抽出することができるので、高精度にメールをトピックごとに分類することができる。

また、第１の実施形態では、品詞解析手段１２が絵文字を文字列に変換するため、絵文字などが多用される、携帯電話機上で送受信されるメールを分類できる。

一般に、携帯電話機では、メール１通あたりの文章が非常に短い傾向があり、１通あたりに検出される単語が少ないものが多い。そのため、携帯電話機ではメール一通あたりを処理したのでは分類は困難である。これに対して、本発明の第１の実施形態では、スレッド統合手段１１が複数のメールを１つのスレッドとして統合し、分類ワード導出手段１３やメール分類特徴量導出手段１４がスレッド単位で処理を行っているため、メール１通あたりの文章が非常に短い傾向がある、携帯電話機上で送受信されるメールを分類できる。

以下、本発明によるメール分類システムの好ましい他の一態様について説明する。本発明によるメール分類システムは、スレッド統合手段と、品詞解析手段と、分類ワード導出手段と、メール分類特徴量導出手段と、クラスタリング手段とを備え、スレッド統合手段は共通の話題を議論している可能性が高いメール群をｓｕｂｊｅｃｔ、メール宛先、メール送受信時刻から推定した上でスレッドとして統合する。品詞解析手段は、メール中の絵文字を平易な単語で変換したうえで、形態素解析をかけ、あらかじめ指定した品詞の単語を抽出する。

分類ワード導出手段は、各メールから品詞解析手段で抽出された単語について、いくつのスレッドに含まれているかなどをヒストグラムで解析するなどの処理を行い、分類に有効な単語を導出する。メール分類特徴量導出手段は、分類ワードとして導出された各単語がどのスレッドに含まれているかどうかを入力して、数量化理論III 類などの識別器にかけることによって、各スレッドのお互いの類似度を示すメール分類特徴量を抽出する。最後に、クラスタリング手段によって、得られたメール分類特徴量をもとにクラスタリングを行い、同じトピックについてやり取りしているメール群を抽出する。このような構成を採用し、共通の単語が多く含まれるスレッドに見られる特徴量を用いてメールを分類することにより、本発明の目的を達成することができる。

実施形態２．
次に、本発明の第２の実施形態について図面を参照して説明する。図６は、本発明によるメール検索システムの第２の実施形態を示すブロック図である。図６を参照すると、本発明の第２の実施形態のメール検索システムは、プログラム制御により動作する中央処理装置１００と、通信装置１１０と、入力装置１２０と、表示装置１３０と、主記憶装置１４０と、二次記憶装置１５０とを備えている。

二次記憶装置１５０は、データ解析手段１０と、メール表示手段６０と、メール送信手段７０と、文書編集手段８０とを含む。

データ解析手段１０は、キーワード入力手段２１と、スレッド統合手段１１と、品詞解析手段１２と、分類ワード導出手段１３と、メール分類特徴量導出手段１４と、関連メール候補抽出手段２２と、検索結果表示手段２３とを含む。

以下、第１の実施形態と異なる手段について説明する。第１の実施形態と同様の構成部については、説明を省略する。

二次記憶装置１５０は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、メールのキーワード検索時に、キーワードを含まなくてもキーワードに関連するメールを検索するデータ解析手段１０を記憶する。

データ解析手段１０は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、メールのキーワード検索時に、キーワードを含まなくてもキーワードに関連するメールを検索する。

キーワード入力手段２１は、携帯電話機の保有者がメールをキーワード検索する際に、保有者によって入力装置１２０から入力されたキーワードを、データ解析手段１０に入力する。

関連メール候補抽出手段２２は、所定のメールについてメール分類特徴量導出手段１４が導出したメール分類特徴量をもとに、そのメールと、キーワード入力手段２１から入力されたキーワードを含むメールとの類似性を判定する。また、関連メール候補抽出手段２２は、あらかじめ決められた以上の類似性があると判定したメール群を関連メール候補として抽出する。

検索結果表示手段２３は、電子情報受信装置に搭載されているメーラなどの画面で、キーワード入力手段２１により入力されたキーワードを含むメール、関連メール候補として抽出されたメールを検索結果として表示する。

次に、図面を参照して第２の実施形態の動作について詳細に説明する。図７は、第２の実施形態の動作を示すフローチャートである。

まず、キーワード入力手段２１は、データ解析手段１０にキーワードを入力する（ステップＳ２１）。次に、受信しているメールに対してステップＳ１１〜Ｓ１４までのステップを第１の実施形態と同様の手法で行う。ステップＳ１１〜Ｓ１４の処理によって、同一スレッドによく現れる単語や、同じ単語がよく現れるスレッドが近い特徴量になるようなメール分類特徴量が導出される。ただし、ステップＳ１３において、分類ワードとして必ずキーワードを含む処理（すなわち、ステップＳ２１で入力されたキーワードを、分類ワードとして抽出する処理）をしておくことが望ましい。

さらに、関連メール候補抽出手段２２は、ステップＳ１４で得られた結果（メール分類特徴量）をもとに、関連メール候補を抽出する。関連メール候補抽出手段２２は、関連メール候補として、例えば、検索キーワードに特徴量が近い単語を含むメール、または検索キーワードを含むメールから特徴量が近いメール、のどちらかを閾値判定処理により抽出する（ステップＳ２２）。

関連メール候補を抽出する処理について、図８を参照して説明する。図８は、関連メール候補を抽出する処理の例を説明するための説明図である。図８は、第１の実施形態の図３と同じものである。図３に例示するようなメール群に対して「テニス」をキーワードとして検索した場合について、説明する。

ステップＳ１４の処理において、共通の単語「コート」を含むスレッド１００４とスレッド５０３８とには、近い特徴量が与えられている。また、分類ワード「テニス」、「コート」、「試合」は同じスレッドに多く登場するので近い特徴量が与えられている。このとき、「テニス」に関係するメールを抽出する際には、「テニス」というキーワードを含むスレッド１００４と特徴量が近いスレッドを探索する。探索の際には、存在する全てのスレッドに対し、コサイン類似度を計算し、そのコサイン類似度が一定の閾値（例えば、０．９）以上あり、かつユークリッド平方距離が特定の値以下であるスレッドのみ類似するものとして検出することができる。例えば、各スレッドの特徴量をfi=（fs1_i,fs2_i,…,fsN_i）（Ｎ：正数，ｉ：スレッドＩＤ）のように表せたとすると、ＩＤがｐ，ｑのスレッドＩＤのコサイン類似度は以下のように算出される。

もう１つの方法として、「テニス」と特徴量の近い分類ワードを検出して、その分類ワードを含むスレッドを抽出する方法もある。この場合も上記と同様に、コサイン類似度が一定の閾値以上あり、かつユークリッド平方距離が特定の値以下のスレッドのみを類似するものとして検出することができる。なお、類似度の表現方法として、コサイン類似度やユークリッド平方距離以外に、標準化ユークリッド平方距離、マハラノビス距離、ミンコフスキー距離なども使われることがあり、これらの類似度やこれらの類似度の複数の組み合わせも本発明において利用することができる。

また、上記の例において「テニス」というキーワードを含むスレッドが複数存在する場合もある。このような場合においては、類似度を判定する尺度として、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法、可変法などを利用することができる。例えば、最短距離法を採用する場合、「テニス」というキーワードを含むスレッドの少なくとも１つが、判定の対象となるスレッドと類似度が閾値以上あると判定されると、関連メール候補として抽出される。また、最長距離法を採用する場合、「テニス」というキーワードを含むスレッドの全てが、判定の対象となるスレッドと類似度が閾値以上あると判定されると関連メール候補として抽出される。本発明においては、最短距離法、最長距離法、群平均法、重心法、メジアン法、ウォード法、可変法のいずれか、またはいずれかの組み合わせで、類似度を判定することによって、関連メール候補を抽出する。

最後に、検索結果表示手段２３は、関連メール候補を含む検索結果を、電子情報受信装置に搭載されているメーラなどの画面に表示する（ステップＳ２３）。例えば、図８に示す例では、「テニス」というキーワードで検索された場合、スレッドＩＤが１００４と５０３８のスレッドに含まれるメール群が検索結果として表示される。

なお、第２の実施形態においては、ステップＳ１１〜Ｓ１４のいずれか、もしくはステップＳ１１〜Ｓ１４のすべてが前処理として実施され、結果が不揮発記憶装置（図示せず。）に保存されており、検索時には保存された結果を読み出すのみであってもよい。

次に、第２の実施形態の効果について説明する。第２の実施形態では、関連メール候補抽出手段２２において、検索キーワードに特徴量が近い単語を含むメール、もしくは検索キーワードを含むメールから特徴量が近いメールのどちらかを閾値処理により抽出することができるため、検索キーワードを含まないメールでも検索キーワードに関連性の高いメールを精度よく抽出することができる。

実施形態３．
次に、本発明の第３の実施形態について図面を参照して説明する。図９は、本発明によるメール宛先分類システムの第３の実施形態を示すブロック図である。図９を参照すると、本発明の第３の実施形態のメール宛先分類システムは、プログラム制御により動作する中央処理装置１００と、通信装置１１０と、入力装置１２０と、表示装置１３０と、主記憶装置１４０と、二次記憶装置１５０とを備えている。

二次記憶装置１５０は、データ解析手段１０と、メール表示手段６０と、メール送信手段７０と、文書編集手段８０とを記憶する。

データ解析手段１０は、宛先毎統合手段３１と、品詞解析手段１２と、分類ワード導出手段３２と、メール分類特徴量導出手段３３と、人物分類特徴量抽出手段３４と、人物分類結果表示手段３５とを含む。

以下、第１、第２の実施形態と異なる手段について説明する。第１、第２の実施形態と同様の構成部については、説明を省略する。

二次記憶装置１５０は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、過去にメールの送受信があった宛先間の関係性を算出し、グルーピングを行うデータ解析手段１０を有する。

データ解析手段１０は、電子メールによって配信され、内蔵メモリに蓄積された電子情報に対して自動的に統計解析を行って、過去にメールの送受信があった宛先間の関係性を算出し、グルーピングを行う。以下、送信メールにおける送信先と、受信メールにおける送信元とを、あわせてメール宛先と表現する場合がある。

宛先毎統合手段３１は、同じ宛先に送信したメールや同じ宛先から送信されてきたメール群（すなわち、特定の相手との送受信メール）を解析対象として統合する。

分類ワード導出手段３２は、各メールから品詞解析手段１２で抽出された単語について、いくつのメール宛先に含まれているかなどをヒストグラムで解析するなどの処理を行い、分類に有効な単語を分類ワードとして導出する。

メール分類特徴量導出手段３３は、分類ワードとして導出された各単語が各メール宛先に含まれているかどうかを示す情報を入力して、数量化理論III 類などの識別器にかけることによって、各宛先との送受信メールのお互いの類似度を示すメール分類特徴量を抽出する。

人物分類特徴量導出手段３４は、メール分類特徴量導出手段３３が抽出した特徴量をもとに、人物（メールの宛先）を分類するための１次元の特徴量を抽出する。

人物分類結果表示手段３５は、電子情報受信装置に搭載されているメーラなどの画面で、グループ分けされたメール宛先を関係性が近いものを近隣に配置する形で表示する。

次に、図面を参照して第３の実施形態の動作について詳細に説明する。図１０は、第３の実施形態の動作を示すフローチャートである。

まず、宛先毎統合手段３１は、同じ宛先に送信したメールや同じ宛先から送信されてきたメール群（特定の相手との送受信メール）を解析対象として統合する（ステップＳ３１）。

次に、品詞解析手段１２は、第１、第２の実施形態と同様に、送受信したメールに対して形態素解析や絵文字解析などの品詞解析をかけ、あらかじめ定めた品詞の単語を抽出する（ステップＳ１２）。

その後、分類ワード導出手段３２は、ステップＳ１２で得られた単語のうち、分類に利用する単語を分類ワードとして抽出する（ステップＳ３２）。分類ワード導出手段１３は、分類ワードを抽出する方法として、例えば、ステップＳ１２で得られた単語がステップＳ３１で得られたいくつのメール宛先に出現するかをカウントするヒストグラム解析を行い（ステップＳ３２ａ）、ヒストグラム結果をもとに、出現回数に応じたフィルタリングをかける（ステップＳ３２ｂ）。

分類ワード導出手段３２は、フィルタリングにおいて、少なくとも２人以上で上位一定数までの単語かつ、ヒストグラム解析して極めて多数の宛先に登場する単語を除く処理を行う。極めて多数とは、全宛先数に対して一定割合以上（例えば、７０％以上）占めるものを指す。極めて多数の宛先に登場する単語を除くのは、これらの単語は、「おはよう」、「元気？」など挨拶に関係するものや、携帯端末保有者が好みでよく利用する絵文字などにあてはまるため、スレッド分類をする上で効果が薄い単語だからである。また、１つの宛先しか登場しない単語は、宛先間の関係を分類するのに不適当なため、これも分類ワードとして利用しないのが適当であるからである。

さらに、分類ワード導出手段３２は、このように選んだ単語のうち、特定の種類に関する単語のみを抽出することもできる。例えば、場所を示す名詞、時を示す単語、人を示す単語が挙げられる。場所を示す名詞は、地名・駅名の辞書とのマッチングを行うことによって抽出することができる。時を示す単語は、年月日、時刻にあたる単語を抽出し、共通の表記に変換した上で抽出する。これは、年月日にあたる表記が単純に○年△月□日のような表記ばかりでなく、明日・明後日・来週の●曜日・◎日後など色々な表記がされることがあり、同じ日付・時刻を指している場合は対応がとれるようにするためである。人を示す単語は、アドレス帳の姓名とのマッチング、メールアドレスとのマッチングにより抽出することができる。

次に、メール分類特徴量導出手段３３は、分類ワード導出手段３２が抽出した分類ワードをもとに、メール宛先を分類するためのメール分類特徴量を導出する（ステップＳ３３）。メール分類特徴量導出手段３３は、メール分類特徴量の導出手法として、例えば、図１１に示すように、各宛先との送受信メールにおいて、各分類ワードが含まれているかどうかを示す表を作成した上で、数量化理論III 類の処理をかける方法を用いる。

図１１は、メール分類特徴量を導出する処理の例を説明するための説明図である。図１１に示す左側の表は、縦軸はメール宛先、横軸はステップＳ３２で抽出された分類ワードを示したものであり、○がついているものは、そのメール宛先に、当該分類ワードを含んだメールを送受信したことを示す。

例えば、図１１には、Ａさんは、テニスとコートという分類ワードを含んだメールを送受信しているが、試合と買い物と合コンという分類ワードを含んだメールを送受信していないことが示されている。

メール分類特徴量導出手段３３が、図１１に例示するような表を入力して数量化理論III 類の処理をかけると、第１の実施形態で説明したように、各分類ワードの有無の傾向が近いメール宛先には近いスコアが特徴量として与えられる。

この特徴量は、それぞれ多次元ベクトルとして表現される。例えば、各メール宛先には（fs1_i,fs2_i,…,fsN_i）（Ｎ：正数、ｉ：メール宛先を特定するＩＤ）といった特徴量が与えられる。次元数Ｎは、累積寄与率があらかじめ定められた割合（例えば７０％）をはじめて超えた数として設定される。これらの特徴量を空間的に表示したものを図１１の右図に示す。図１１は、説明の便宜上２次元の空間として表現されているが、実際にはＮ次元空間にマッピングすることができる。図１１に示すように、メール分類特徴量導出手段３３は、共通の単語を含むメールを送受信した宛先（Ａさん、Ｄさん、Ｉさん）には、他の宛先に比べて近い特徴量を与えるため、図１１では、Ａさん、Ｄさん、Ｉさんは近い場所で表示されている。

メール分類特徴量導出手段３３がステップＳ３３の処理を行った後、人物分類特徴量導出手段３４は、ステップＳ３３で得られたデータをもとに、メール宛先をグルーピングする１次元の特徴量を抽出する（ステップＳ３４）。

人物分類特徴量導出手段３４は、例えば、メール送受信数がもっとも多いメール宛先を基準に、所定の宛先との送受信メールのコサイン類似度（第２の実施形態の数式３参照。）を計算し、コサイン類似度が大きい順に並べる。あるいは、メール送受信数がもっとも多いメール宛先を基準に、所定の宛先との送受信メールのユークリッド平方距離の小さい順に並べてもよい。また、ユークリッド平方距離以外に、標準化ユークリッド平方距離、マハラノビス距離、ミンコフスキー距離などを使ってもよい。この順序が得られると、各メール宛先に対し、メール送受信数がもっとも多いメール宛先から順に、０，１，２，３，…，Ｎ−１（Ｎ：メール宛先の総数、正数）という数値が与えられる。

最後に、人物分類結果表示手段３５は、図１２に示すように、メール宛先（人物）分類結果をメーラやアドレス帳アプリケーションなどで表示する（ステップＳ３５）。図１２は、人物分類結果の表示例を示す説明図である。図１２には、特開２００２−２７０８５号公報（文献１）や特開２００７−１２９６０９号公報（文献２）に記載されているように、本人を中心に、同心円上にメール宛先を表示するユーザインタフェースを改良する例を示す。図１２に示す例でも、文献１の記載と同様に、メール送受信回数（頻度）の高いメール宛先は、原点に近づけて表示する。逆に、メール送受信回数（頻度）の低いメール宛先は、原点から遠ざけて表示する。

人物分類結果表示手段３５は、図１２に示すように、文献１，２に開示されている技術に加えて以下に述べる表示上の工夫を行う。図１２に示す同心円の周辺に表した数字は、ステップＳ３４で得られた特徴量０，１，２，３，…，Ｎ−１（図１２ではＮ＝１０）であり、Ａｎｎ、Ｂｏｂ，Ｋａｔｅ、Ａｌｅｘ、Ｌａｕｒａ、…の特徴量が０，１，２，３，４，５，…であることを示している。このとき、特徴量が０のメール宛先（Ａｎｎ）の方向を時計の１２時の位置に表示したとすると、特徴量ｉのメール宛先は、１２時から時計周りに、（数式４）で示される向きに表示する。

図１２に示す例では、１２時から時計回りに表示しているが、１２時から反時計回りに表示してもよい。また、特徴量０の方向が１２時以外の方向であってもよい。

さらに、上記の例では、各メール宛先に対して均等にばらして表示しているが、ステップＳ３４において、コサイン類似度やユークリッド平方距離の大きさに応じて人物間の角度を調整してもよい。例えば、コサイン類似度で得られた値のａｒｃｃｏｓをとり、その正の角度の２倍の角度を上記θ_iとすることもできる。また、メール宛先間のユークリッド平行距離の最大の値を基準にその値との比で角度を割り当てることもできる。

次に、第３の実施形態の効果について説明する。第３の実施形態では、メール分類特徴量導出手段３３が共通の単語が多く含まれるメールを送受信する人物について近い特徴量を導出し、人物分類特徴量抽出手段３４が、各メール宛先の特徴量に基づき、順序づけを行うように構成されているので、メール宛先の関係性を表示する上で関係性の強い人物を近い角度で表示することができ，ユーザの視認性を増すことができる。

次に、本発明の最小構成について図面を参照して説明する。図１３は、本発明によるメール分類システムの最小の構成例を示すブロック図である。図１３に例示するメール分類システムは、スレッド統合手段１１と、分類ワード候補抽出手段１１２と、分類ワード導出手段１３と、メール分類特徴量導出手段１４と、クラスタリング手段１５とを備える。

スレッド統合手段１１は、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合する。

分類ワード候補抽出手段１１２は、スレッド統合手段１１が統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する。

分類ワード導出手段１３は、分類ワード候補抽出手段１１２が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する。

メール分類特徴量導出手段１４は、分類ワードがスレッドに含まれているか否かに基づいて、各スレッドのお互いの類似度を示すメール分類特徴量を抽出する。

クラスタリング手段１５は、メール分類特徴量導出手段１４が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出する。

図１３に示すように構成すれば、特定のキーワードを含まないメールであっても、共通のトピックについて議論しているメールを精度よく抽出することができるので、メールをトピックごとに高精度に分類することができる。

なお、上記に示した実施形態では、以下の（１）〜（９）に示すような特徴的構成を備えたメール分類システムが示されている。

（１）共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段（例えば、スレッド統合手段１１で実現される）と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段（例えば、品詞解析手段１２で実現される）と、分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段（例えば、分類ワード導出手段１３で実現される）と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段（例えば、メール分類特徴量導出手段１４で実現される）と、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング手段（例えば、クラスタリング手段１５で実現される）とを備えたことを特徴とするメール分類システム。

（２）クラスタリング手段がグループ化したメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出するトピックキーワード抽出手段（例えば、トピックキーワード抽出手段１６で実現される）を備えたメール分類システム。そのように構成されたメール分類システムは、クラスタリングにより形成されたクラスタを適切に表現することができる。

（３）クラスタリング手段がグループ化してクラスタとして抽出したメールを、別々の区分で表示する分類結果表示手段（例えば、分類結果表示手段１７で実現される）を備えたメール分類システム。そのように構成されたメール分類システムは、クラスタとして抽出したメールを、フォルダ等の区分毎に表示させることができる。

（４）分類結果表示手段は、トピックキーワード抽出手段が抽出したトピックキーワードを区分名称として表示するメール分類システム。

（５）スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合するメール分類システム。もしくは、同じ日（ただし，１日の区切りを午前４時ごろとする）にやりとりしているメールを１つのスレッドとして統合するメール分類システム。そのように構成されたメール分類システムは、１つの内容に関して連続的に特定の相手と送受信するメールを統合することができる。

（６）分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行うメール分類システム。そのように構成されたメール分類システムは、絵文字が多用される、携帯電話機上で送受信されるメールを分類することができる。

（７）分類ワード導出手段は、少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出するメール分類システム。あるいは、これらの単語のうち、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出するメール分類システム。そのように構成されたメール分類システムは、所定の割合以上のスレッドに含まれる単語や、１つのスレッドにしか含まれない単語などの、分類に不適当な単語を除いて、分類ワードを導出することができる。

（８）分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出するメール分類システム。そのように構成されたメール分類システムは、スレッドにおける登場回数が所定の上位までの単語を抽出することができる。

（９）メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出するメール分類システム。

上記に示した実施形態では、以下の（１）〜（８）に示すような特徴的構成を備えたメール検索システムが示されている。

（１）メール検索のためのキーワードを入力するキーワード入力手段（例えば、キーワード入力手段２１で実現される）と、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、前記分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、前記キーワード入力手段から入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出手段（例えば、関連メール候補抽出手段２２で実現される）とを備えたことを特徴とするメール検索システム。

（２）キーワード入力手段が入力したキーワードを含むメールおよび関連メール候補抽出手段が関連メール候補として抽出したメールを、検索結果として表示する検索結果表示手段（例えば、検索結果表示手段２３で実現される）を備えたメール検索システム。そのように構成されたメール検索システムは、キーワードを含むメールおよび関連メール候補として抽出したメールを表示させることができる。

（３）スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合するメール検索システム。もしくは、同じ日（ただし，１日の区切りを午前４時ごろとする）にやりとりしているメールを１つのスレッドとして統合するメール検索システム。そのように構成されたメール検索システムは、１つの内容に関して短時間で連続的に特定の相手と送受信するメールを統合することができる。

（４）分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行うメール検索システム。そのように構成されたメール検索システムは、絵文字が多用される、携帯電話機上で送受信されるメールを検索することができる。

（５）分類ワード導出手段は、少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出するメール検索システム。あるいは、これらの単語のうち、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出するメール検索システム。そのように構成されたメール検索システムは、所定の割合以上のスレッドに含まれる単語や、１つのスレッドにしか含まれない単語などの、分類に不適当な単語を除いて、分類ワードを導出することができる。

（６）分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出するメール検索システム。そのように構成されたメール検索システムは、スレッドにおける登場回数が所定の上位までの単語を抽出することができる。

（７）メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出するメール検索システム。

（８）スレッド統合手段、分類ワード導出手段およびメール分類特徴量導出手段に検索前処理としてあらかじめ処理を実行させ、実行結果を保存し、キーワード入力手段がキーワードを入力すると、保存した実行結果を関連メール候補抽出手段に入力する制御部を備え、関連メール候補抽出手段は、前記制御部が入力した実行結果に基づいて処理を実行するメール検索システム。

上記に示した実施形態では、以下の（１）〜（８）に示すような特徴的構成を備えたメール宛先分類システムが示されている。

（１）特定の宛先との送受信メールを解析対象として統合する宛先毎統合手段（例えば、宛先毎統合手段３１で実現される）と、各メールの文章に形態素解析を行い、特定の品詞の単語を抽出する品詞解析手段と、各メールから前記品詞解析手段が抽出した単語が含まれるメールの宛先数をヒストグラムで解析し、分類に有効な単語を分類ワードとして導出する分類ワード導出手段（例えば、分類ワード導出手段３２で実現される）と、前記分類ワード導出手段が分類ワードとして導出した各単語がメールに含まれているか否かに基づいて、各宛先との送受信メールのお互いの類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段（例えば、メール分類特徴量導出手段３３で実現される）と、前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、人物を分類するための人物分類特徴量を抽出する人物分類特徴量導出手段（例えば、人物分類特徴量抽出手段３４で実現される）とを備えたことを特徴とするメール宛先分類システム。

（２）人物分類特徴量導出手段が抽出したメール分類特徴量に基づいて、グループ分けされたメール宛先を関係性が近いものを近隣に配置して表示する人物分類結果表示手段（例えば、人物分類結果表示手段３５で実現される）を備えたメール宛先分類システム。そのように構成されたメール宛先分類システムは、ユーザの視認性を良くすることができる。

（３）人物分類結果表示手段は、同心円上に、人物分類特徴量導出手段が抽出した特徴量の順序に基づいて、時計回りまたは反時計回りに、宛先を表示するメール宛先分類システム。そのように構成されたメール宛先分類システムは、ユーザの視認性をさらに良くすることができる。

（４）品詞解析手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行うメール宛先分類システム。そのように構成されたメール宛先分類システムは、絵文字が多用される、携帯電話機上で送受信されるメールに基づいて、宛先を分類することができる。

（５）分類ワード導出手段は、少なくとも２つ以上の宛先に登場し、かつ全宛先数に対して一定割合以下で登場する単語を導出するメール宛先分類システム。あるいは、これらの単語のうち、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出するメール宛先分類システム。そのように構成されたメール宛先分類システムは、所定の割合以上の宛先に含まれる単語や、１つの宛先との送受信メールにしか含まれない単語などの、分類に不適当な単語を除いて、分類ワードを導出することができる。

（６）分類ワード導出手段は、宛先登場数の上位順に一定数の単語を導出するメール宛先分類システム。そのように構成されたメール宛先分類システムは、スレッドにおける登場回数が所定の上位までの単語を抽出することができる。

（７）メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出するメール宛先分類システム。

（８）人物分類特徴量導出手段は、メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、最もメール送受信数の多い宛先と各宛先との送受信メールの類似度を求め、人物を分類するための人物分類特徴量として、類似度が近い順に宛先を抽出するメール宛先分類システム。そのように構成されたメール宛先分類システムは、関係性の強い順に宛先を抽出することができる。

本発明は、携帯電話機上で送受信されるメールを分類し、関連フォルダに自動転送する用途に適用できる。また、携帯電話機上で送受信されるメールをキーワード検索した際に、そのキーワードを含まないものの、キーワードに関係するメールを検索結果として表示するといった用途にも適用可能である。また、携帯電話機のアドレス帳における自動グループ登録、グループごとに整理した形での表示といった用途にも適用可能である。

本発明によるメール分類システムの第１の実施形態を示すブロック図である。第１の実施形態の動作を示すフローチャートである。メール分類特徴量を導出する処理の例を説明するための説明図である。階層的クラスタ分析の例を説明するための説明図である。メールを分類した結果の表示例を示す説明図である。本発明によるメール分類システムの第２の実施形態を示すブロック図である。第２の実施形態の動作を示すフローチャートである。関連メール候補を抽出する処理の例を説明するための説明図である。本発明によるメール分類システムの第３の実施形態を示すブロック図である。第３の実施形態の動作を示すフローチャートである。メール分類特徴量を導出する処理の例を説明するための説明図である。人物分類結果の表示例を示す説明図である。本発明によるメール分類システムの最小の構成例を示すブロック図である。特許文献２に記載されている分類処理の例を示すフローチャートである。特許文献２記載のステップＳ１０３，Ｓ１０４の処理の例を説明するための説明図である。

符号の説明

１０データ解析手段
１１スレッド統合手段
１２品詞解析手段
１３分類ワード導出手段
１４メール分類特徴量導出手段
１５クラスタリング手段
１６トピックキーワード抽出手段
１７分類結果表示手段
６０メール表示手段
７０メール送信手段
８０文書編集手段
１００中央処理装置
１１０通信装置
１２０入力装置
１３０表示装置
１４０主記憶装置
１５０二次記憶装置

Claims

共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、
各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、
前記分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、
分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、
前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング手段と
を備えたことを特徴とするメール分類システム。
クラスタリング手段がグループ化したメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出するトピックキーワード抽出手段を備えた請求項１記載のメール分類システム。
クラスタリング手段がグループ化してクラスタとして抽出したメールを、別々の区分で表示する分類結果表示手段を備えた請求項１または請求項２記載のメール分類システム。
分類結果表示手段は、トピックキーワード抽出手段が抽出したトピックキーワードを区分名称として表示する請求項３記載のメール分類システム。
スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合する請求項１から請求項４のうちのいずれか１項に記載のメール分類システム。
スレッド統合手段は、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを１つのスレッドとして統合する請求項１から請求項４のうちのいずれか１項に記載のメール分類システム。
スレッド統合手段は、１日の区切りを深夜または早朝の時刻に定めた請求項６に記載のメール分類システム。
分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項１から請求項７のうちのいずれか１項に記載のメール分類システム。
分類ワード導出手段は、少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項１から請求項８のうちのいずれか１項に記載のメール分類システム。
分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出する請求項９記載のメール分類システム。
分類ワード導出手段は、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項９または請求項１０記載のメール分類システム。
メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出する請求項１から請求項１１のうちのいずれか１項に記載のメール分類システム。
メール検索のためのキーワードを入力するキーワード入力手段と、
共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合手段と、
各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出手段と、
前記分類ワード候補抽出手段が抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出手段と、
分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出手段と、
前記メール分類特徴量導出手段が抽出したメール分類特徴量に基づいて、前記キーワード入力手段から入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出手段と
を備えたことを特徴とするメール検索システム。
キーワード入力手段が入力したキーワードを含むメールおよび関連メール候補抽出手段が関連メール候補として抽出したメールを、検索結果として表示する検索結果表示手段を備えた請求項１３記載のメール検索システム。
スレッド統合手段は、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合する請求項１３または請求項１４記載のメール検索システム。
スレッド統合手段は、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを１つのスレッドとして統合する請求項１３または請求項１４記載のメール検索システム。
スレッド統合手段は、１日の区切りを深夜または早朝の時刻に定めた請求項１６記載のメール検索システム。
分類ワード候補抽出手段は、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項１３から請求項１７のうちのいずれか１項に記載のメール検索システム。
分類ワード導出手段は、少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項１３から請求項１８のうちのいずれか１項に記載のメール検索システム。
分類ワード導出手段は、スレッド登場数の上位順に一定数の単語を導出する請求項１９記載のメール検索システム。
分類ワード導出手段は、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項１９または請求項２０記載のメール検索システム。
メール分類特徴量導出手段は、数量化理論III 類を用いてメール分類特徴量を抽出する請求項１３から請求項２１のうちのいずれか１項に記載のメール検索システム。
スレッド統合手段、分類ワード導出手段およびメール分類特徴量導出手段に検索前処理としてあらかじめ処理を実行させ、実行結果を保存し、キーワード入力手段がキーワードを入力すると、保存した実行結果を関連メール候補抽出手段に入力する制御部を備え、
関連メール候補抽出手段は、前記制御部が入力した実行結果に基づいて処理を実行する
請求項１３から請求項２２のうちのいずれか１項に記載のメール検索システム。
共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、
統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、
抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、
分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、
抽出されたメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をクラスタとして抽出する
ことを特徴とするメール分類方法。
グループ化されたメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出する請求項２４記載のメール分類方法。
抽出されたトピックキーワードを区分名称として表示する請求項２５記載のメール分類方法。
グループ化してクラスタとして抽出したメールを別々の区分で表示する請求項２４から請求項２６のうちのいずれか１項に記載のメール分類方法。
特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合する請求項２４から請求項２７のうちのいずれか１項に記載のメール分類方法。
特定の相手と送受信しているメールのうち、同じ日に送受信したメールを１つのスレッドとして統合する請求項２４から請求項２７のうちのいずれか１項に記載のメール分類方法。
１日の区切りを深夜または早朝の時刻に定めた請求項２９に記載のメール分類方法。
スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項２４から請求項３０のうちのいずれか１項に記載のメール分類方法。
少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項２４から請求項３１のうちのいずれか１項に記載のメール分類方法。
スレッド登場数の上位順に一定数の単語を導出する請求項３２記載のメール分類方法。
場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項３２または請求項３３記載のメール分類システム。
数量化理論III 類を用いてメール分類特徴量を抽出する請求項２４から請求項３４のうちのいずれか１項に記載のメール分類方法。
メール検索のためのキーワードを入力し、
共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、
統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、
抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、
分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、
抽出されたメール分類特徴量に基づいて、入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する
ことを特徴とするメール検索方法。
入力されたキーワードを含むメールおよび関連メール候補として抽出されたメールを検索結果として表示する請求項３６記載のメール検索方法。
特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合する請求項３６または請求項３７記載のメール検索方法。
特定の相手と送受信しているメールのうち、同じ日に送受信したメールを１つのスレッドとして統合する請求項３６または請求項３７記載のメール検索方法。
１日の区切りを深夜または早朝の時刻に定めた請求項３９に記載のメール検索方法。
スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う請求項３６から請求項４０のうちのいずれか１項に記載のメール検索方法。
少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する請求項３６から請求項４１のうちのいずれか１項に記載のメール検索方法。
スレッド登場数の上位順に一定数の単語を導出する請求項４２記載のメール検索方法。
分類ワード導出手段は、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する請求項４２または請求項４３記載のメール検索方法。
数量化理論III 類を用いてメール分類特徴量を抽出する請求項３６から請求項４４のうちのいずれか１項に記載のメール検索方法。
事前処理として、共通のトピックが含まれている可能性が高いメール群をスレッドとして統合し、
事前処理として、統合した各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出し、
事前処理として、抽出された分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出し、
事前処理として、分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出し、結果を保存しておいた上で、
メール検索のためのキーワードを入力し、
保存しておいたメール分類特徴量に基づいて、入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する
請求項３６から請求項４５のうちのいずれか１項に記載のメール検索方法。
コンピュータに、
共通のトピックをやりとりしている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、
各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、
前記分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、
分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、
前記メール分類特徴量導出処理で抽出したメール分類特徴量に基づいてクラスタリングを行い、同じトピックが含まれているスレッドおよびメール群をグループ化してクラスタとして抽出するクラスタリング処理と
を実行させるためのメール分類プログラム。
コンピュータに、
クラスタリング処理でグループ化したメール群の中でもっとも高頻度に抽出される単語を、クラスタリングにより形成されたクラスタを適切に表現するトピックキーワードとして抽出するトピックキーワード抽出処理を実行させるための
請求項４７記載のメール分類プログラム。
コンピュータに、
クラスタリング処理でグループ化してクラスタとして抽出したメールを別々の区分で表示する分類結果表示処理を実行させるための
請求項４７または請求項４８記載のメール分類プログラム。
コンピュータに、
分類結果表示処理で、トピックキーワード抽出処理で抽出したトピックキーワードを区分名称として表示する処理を実行させるための
請求項４９記載のメール分類プログラム。
コンピュータに、
スレッド統合処理で、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合する処理を実行させるための
請求項４７から請求項５０のうちのいずれか１項に記載のメール分類プログラム。
コンピュータに、
スレッド統合処理で、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを１つのスレッドとして統合する処理を実行させるための
請求項４７から請求項５０のうちのいずれか１項に記載のメール分類プログラム。
コンピュータに、
スレッド統合処理で、１日の区切りを深夜または早朝の時刻として統合処理を実行させるための
請求項５２に記載のメール分類プログラム。
コンピュータに、
分類ワード候補抽出処理で、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う処理を実行させるための
請求項４７から請求項５３のうちのいずれか１項に記載のメール分類プログラム。
コンピュータに、
分類ワード導出処理で、少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する処理を実行させるための
請求項４７から請求項５４のうちのいずれか１項に記載のメール分類プログラム。
コンピュータに、
分類ワード導出処理で、スレッド登場数の上位順に一定数の単語を導出する処理を実行させるための
請求項５５記載のメール分類プログラム。
コンピュータに、
分類ワード導出処理で、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する処理を実行させるための
請求項５５または請求項５６記載のメール分類プログラム。
コンピュータに、
メール分類特徴量導出処理で、数量化理論III 類を用いてメール分類特徴量を抽出する処理を実行させるための
請求項４７から請求項５７のうちのいずれか１項に記載のメール分類プログラム。
コンピュータに、
メール検索のためのキーワードを入力するキーワード入力処理と、
共通のトピックが含まれている可能性が高いメール群をスレッドとして統合するスレッド統合処理と、
各スレッドのメール本文から、メールの分類に用いる単語の候補を示す分類ワード候補を抽出する分類ワード候補抽出処理と、
前記分類ワード候補抽出処理で抽出した分類ワード候補が含まれるスレッド数をヒストグラムで解析し、解析したスレッド数に基づいて、メール分類に有効な分類ワードを導出する分類ワード導出処理と、
分類ワードがスレッドに含まれているか否かに基づいて、スレッド間の類似度を示すメール分類特徴量を抽出するメール分類特徴量導出処理と、
前記メール分類特徴量導出処理で抽出したメール分類特徴量に基づいて、前記キーワード入力処理で入力されたキーワードを含むスレッドとの類似性を算出し、一定以上の類似性があると判定したスレッドを構成するメール群を関連メール候補として抽出する関連メール候補抽出処理と
を実行させるためのメール検索プログラム。
コンピュータに、
キーワード入力処理で入力したキーワードを含むメールおよび関連メール候補抽出処理で関連メール候補として抽出したメールを、検索結果として表示する検索結果表示処理を実行させるための
請求項５９記載のメール検索プログラム。
コンピュータに、
スレッド統合処理で、特定の相手と送受信しているメールのうち、所定の送受信時刻から一定時間内に送受信したメールを１つのスレッドとして統合する処理を実行させるための
請求項５９または請求項６０記載のメール検索プログラム。
コンピュータに、
スレッド統合処理で、特定の相手と送受信しているメールのうち、同じ日に送受信したメールを１つのスレッドとして統合する処理を実行させるための
請求項５９または請求項６０記載のメール検索プログラム。
コンピュータに、
スレッド統合処理で、１日の区切りを深夜または早朝の時刻として統合処理を実行させるための
請求項６２に記載のメール検索プログラム。
コンピュータに、
分類ワード候補抽出処理で、スレッドの文章に含まれる絵文字を適当な文字列に変換し、形態素解析を行う処理を実行させるための
請求項５９から請求項６３のうちのいずれか１項に記載のメール検索プログラム。
コンピュータに、
分類ワード導出処理で、少なくとも２スレッド以上に登場し、かつ全スレッド数に対して一定割合以下の数のスレッドに登場する単語を導出する処理を実行させるための
請求項５９から請求項６４のうちのいずれか１項に記載のメール検索プログラム。
コンピュータに、
分類ワード導出処理で、スレッド登場数の上位順に一定数の単語を導出する処理を実行させるための
請求項６５記載のメール検索プログラム。
コンピュータに、
分類ワード導出処理で、場所を示す名詞、時を示す単語、人を示す単語のいずれかおよびその組み合わせを導出する処理を実行させるための
請求項６５または請求項６６記載のメール検索プログラム。
コンピュータに、
メール分類特徴量導出処理で、数量化理論III 類を用いてメール分類特徴量を抽出する処理を実行させるための
請求項５９から請求項６７のうちのいずれか１項に記載のメール検索プログラム。
コンピュータに、
スレッド統合処理、分類ワード候補抽出処理、分類ワード導出処理およびメール分類特徴量導出処理を検索前処理としてあらかじめ実行させ、実行結果を保存する処理を実行させ、
キーワード入力処理で、キーワードを入力すると、関連メール候補抽出処理で、保存した実行結果を入力し、処理を実行させるための
請求項５９から請求項６８のうちのいずれか１項に記載のメール検索プログラム。