JP2011227889A

JP2011227889A - 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法

Info

Publication number: JP2011227889A
Application number: JP2011081760A
Authority: JP
Inventors: Brdiczka Oliver; オリヴァー・ブルディクスカ; Isaev Petro; ペトロ・イザレフ
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2010-04-15
Filing date: 2011-04-01
Publication date: 2011-11-10
Anticipated expiration: 2031-04-01
Also published as: JP5759228B2; US20110258181A1; US8688690B2; KR20110115542A; KR101708508B1; EP2378475A1

Abstract

【課題】メッセージ及び会話の分析において、文書間の類似性レベルを推定するためのシステムを提供する。
【解決手段】幾つかの文書を受信し、これらの文書から幾つかの意味的エンティティを抽出し、抽出された意味的エンティティを基礎として文書間の類似性レベルを計算し、かつ計算された類似性レベルを基礎として類似文書を示す結果を生成する。
【選択図】図３

Description

本開示は概して、メッセージ及び会話の分析に関する。より具体的には、本開示はメッセージ及び会話間の意味的類似性を計算することに関する。

本発明の一実施形態は、文書間の類似性レベルを推定するためのシステムを提供する。動作の間、本システムは幾つかの文書を受信し、これらの文書から幾つかの意味的エンティティを抽出し、抽出された意味的エンティティを基礎として文書間の類似性レベルを計算し、かつ計算された類似性レベルを基礎として類似文書を示す結果を生成する。

この実施形態の一変形例において、意味的エンティティを抽出することは、幾つかの予め規定されたグループのうちの少なくとも１つに属する１つのワード及び／またはワードシーケンスを認識するように構成される幾つかの有限状態マシンを適用することと、少なくとも１つの外部リソースを検索しかつ比較して、認識されたワード及び／またはワードシーケンスが外部リソース内部のエントリに一致するかどうかを決定することと、一致の発見に応答してそのワード及び／またはワードシーケンスを意味的エンティティとして抽出することを含む。

さらなる変形例において、意味的エンティティを抽出することは、意味的エンティティの逆文書頻度（ＩＤＦ）値を計算することと、このＩＤＦ値が既定値の範囲内であるかどうかを決定することと、ＩＤＦ値がこの範囲内であるということに応答して意味的エンティティを抽出することを含む。

さらなる変形例において、予め規定されたグループは、人名、企業名、業界固有用語、日時、住所、メールアドレス、ユニフォームリソースロケータ（ＵＲＬ）及び電話番号のうちの少なくとも１つを含む。

この実施形態の一変形例において、類似性レベルを計算することは、抽出された意味的エンティティの重み付けされたＩＤＦ値を基礎として幾つかの類似度を計算することを含む。

さらなる変形例において、本システムは、抽出された意味的エンティティが属する予め規定されたグループを基礎として、抽出された意味的エンティティのＩＤＦ値の重みを割り当てる。

さらなる変形例において、類似度は、文書の共通部分に含まれる意味的エンティティの重み付けされたＩＤＦ値の合計の、個々の文書に含まれる重み付けされたＩＤＦ値の合計に対する割合を基礎とする類似度、文書の共通部分に含まれる意味的エンティティの重み付けされたＩＤＦ値の合計の、これらの文書の和集合に含まれる重み付けされたＩＤＦ値の合計に対する割合を基礎とする類似度及びコサイン類似度のうちの少なくとも１つを含む。

この実施形態の一変形例において、本システムはさらに、文書を選択し、選択された文書に対する他の文書の類似性レベルを計算し、かつ選択された文書に対する他の文書の計算された類似性を基礎として他の文書を順番に表示する。

この実施形態の一変形例において、文書は電子メールメッセージ及び／または電子メールによる会話を含む。

さらなる変形例において、類似性レベルを計算することはさらに、電子メールメッセージの送信者及び／または受信者を基礎として類似性を計算することを含む。

さらなる変形例において、類似性レベルを計算することはさらに、電子メールメッセージの送信及び／または受信時間を基礎として類似性を計算することを含む。

この実施形態の一変形例において、類似性レベルを計算することは、文書の重みを決定することを含む。

図１は、本発明の一実施形態によるエンティティ抽出システムを示す図である。図２は、本発明の一実施形態によるエンティティ抽出のプロセスを示すフローチャートである。図３は、本発明の一実施形態による、所定の文書に対する類似性レベルを基礎として文書を順番に配置するプロセスを示すフローチャートである。図４は、本発明の一実施形態による、類似性を基礎として文書を編成するためのシステムの構成を示す図である。図５は、本発明の一実施形態による、文書の類似性を推定するための例示的なコンピュータシステムを示す。

諸図を通じて、類似の参照数字は同じ図要素を指す。

本発明の実施形態は、文書間の類似性を識別するためのシステムを提供する。動作の間、本システムは、文書コレクションから意味的エンティティを抽出し、かつその逆文書頻度（ＩＤＦ）値を基礎として、抽出された意味的エンティティが重要なエンティティであるかどうかを決定する。本システムは、エンティティの発生及び共起性及びその重みを基礎とする様々な基準を使用して文書間の類似性を計算する。また、文書間の最終的類似性の決定に際しては、送信者及び受信者を基礎とする類似性を含む他の基準も使用される。

電子メールユーザによるその保存された電子メールメッセージの効率的編成を手助けするために、またはユーザにメッセージをより良いローカルコンテキストを有する方法で提示するために、電子メールをそれが属する会話を基礎としてグルーピングすることを含む様々なソリューションが実装されてきた。電子メールによる会話は、電子メールユーザが実際に会話しているのと同様に互いに往復式に通信する際に確立される。ほとんどの場合、ユーザは、関連の話題を論じる際に互いの電子メールに対して実際に会話しているかのように応える。しかしながら、特に１つの関連事項に関して幾つかの異なる会話が行われている場合には、会話ベースのグルーピングでは不十分である可能性がある。例えば、タスクオーガナイザは、異なるタスクメンバと異なるタスクに関する会話を行なうことがある。これらの会話、またはこれらの会話内の電子メールは類似する話題を共有することが多く、または同じタスクに関連し、よってこれらを纏めてグルーピングして表示することが望ましい。

これらの会話及びメッセージは関連していることから、類似するワードまたはワードコンビネーションを共有することが多い。例えば、各地の気象について論じる会話は全て、雨、雪または風といったワードを含む場合がある。故に、テキストを比較すれば、２つのメッセージ間の類似性を推定することができる。

文書間類似性の従来的な計算は、典型的には、ワードの発生を計数しかつ比較することによる関連文書のテキストのマッチングに依存する。しかしながら、このようなアプローチは不十分である可能性があり、かつ間違った結果を発生する場合がある。例えば、ボイラープレートテキストを含む電子メールでは、２つのメッセージ間のボイラープレートの共起性は高い場合があるのに対して、２つのメッセージ間の類似性は事実上低い場合がある。このような問題を克服するために、本発明の一実施形態では、システムは、各ワードの発生を計数する代わりに、「エンティティ」として定義される意味のあるワードの発生数を比較することに依存してメッセージまたは会話間の類似性を導出する。

図１は、本発明の一実施形態によるエンティティ抽出システムを示す図である。エンティティ抽出システム１００は、受信機構１０２と、幾つかの有限状態マシン（ＦＳＭ）１０６−１１０と、任意選択である検索比較機構１１２と、ＩＤＦ計算器１１４とを含む。

動作の間、受信機構１０２は、エンティティ抽出用の入力文書１０４を受信する。入力文書１０４は、テキスト、シンボル、図及び／またはこれらの任意の組合せを含む任意タイプの文書であることが可能である。また入力文書１０４は、プレーンテキスト、Ｍｉｃｒｏｓｏｆｔ（登録商標）のＷｏｒｄ（ワシントン州レドモンド所在のマイクロソフト社の登録商標）、ハイパーテキストマークアップ言語（ＨＴＭＬ）、ポータブルドキュメントフォーマット（ＰＤＦ）、他等の任意タイプのファイルフォーマットであることも可能である。ある実施形態では、入力文書１０４は電子メールメッセージを含む。また入力文書１０４は、コーパスに含まれる全文書を含む可能性もある。例えば、入力文書１０４は、ユーザの電子メールフォルダ内の全メッセージを含むことが可能である。

受信された文書のテキストは、次に、ＦＳＭ１０６−１１０を含む幾つかのＦＳＭへ送られる。これらのＦＳＭは、予め規定された異なるグループに属する意味的エンティティを認識するように異なって設計されている。意味的エンティティは、特有の意味を有するワード、ワードコンビネーションまたはシーケンスであることが可能である。ワードまたはワードシーケンスは、これが人名、企業名、日時、住所、業界固有用語、メールアドレス、ユニフォームリソースロケータ（ＵＲＬ）及び電話番号等の特有のワードグループに属していれば、意味的エンティティであることが可能である。ＦＳＭ１０６−１１０は、受信された文書のテキストにおけるこれらの特有のグループのワードを文章及びワード構成を考慮しながら認識することができる。標準的な注釈及び構文解析技術は、意味的エンティティを認識するために使用されることが可能である。ある実施形態では、ＦＳＭ１０６−１１０は、上述のワードグループに属する意味的エンティティを認識するように構成される。さらに、意味的エンティティが特定のグループの何れにも属さない、または何れのディクショナリでも発見され得ない場合、ＦＳＭ１０６−１１０は、このような新たなエンティティをその大文字表記の慣例またはこの新たなエンティティを識別する他の基準を基礎として認識するように構成されることも可能である。ある実施形態では、この追加的な意味的エンティティ抽出機能は、追加的な抽出モジュール１１１によって実行されることが可能である。受信された文書におけるワードまたはワードシーケンスが、常態または全発生数の高率での何れであっても一貫して大文字表記されていれば、これは意味的エンティティとして認識されることが可能である。例えば、ユーザが定義する頭字語は、特定された何れのグループにも属さないことが多く、またはどのディクショナリでも発見され得ないが、意味のある意味的エンティティである。

英語に加えて、ＦＳＭ１０６−１１０は、他の言語の意味的エンティティを認識するように構成されることも可能である。より良い抽出結果を達成するために、ユーザは、言語タイプまたはコンテンツタイプを含む受信された文書のタイプを基礎としてＦＳＭ１０６−１１０を構成することができる。図１では、ＦＳＭ１０６−１１０はテキストがこれらのＦＳＭによって同時に処理される並列式に実装されているが、ＦＳＭ１０６−１１０を直列に実装することも可能である点に留意されたい。受信された文書において意味的エンティティを認識するためには、ＦＳＭの適用に加えて、マシン学習等の他の技術も可能である。

意味のないワードがＦＳＭ１０６−１１０により意味的エンティティとして間違って認識されることを回避するために、受信された文書のテキストから識別される所定のタイプのエンティティは任意選択の検索比較機構１１２へ送られて検索され、かつ外部リソースと比較される。検索及び比較動作は全てのエンティティタイプに適用されるわけではないことから、このオペレーションは任意選択であることに留意されたい。ある実施形態では、外部リソースはＷｉｋｉｐｅｄｉａ（登録商標）（カリフォルニア州サンフランシスコ所在のウィキメディア財団の登録商標）等のウェブリソース及びオンライン辞書を含む。ある実施形態では、外部リソースはエンティティデータベースを含むことも可能である。標準的なウェブ検索またはデータベース検索方法は、任意選択の検索比較機構１１２によって実行されることが可能である。任意選択の検索比較機構１１２の出力は、抽出用に考慮されるべき幾つかのエンティティ候補である。

続いて、エンティティ候補はＩＤＦ計算器１１４へ送られ、ＩＤＦ計算器１１４はこれらのＩＤＦ値を計算する。エンティティ候補ｅのＩＤＦ値は、

として定義される。但し、│Ｔ│は文書（または電子メールメッセージ）の総数であり、│Ｔ_ｅ│はエンティティ候補ｅが観測されている文書（または電子メールメッセージ）の数である。ＩＤＦ値は、エンティティ候補の重大さを測定するために使用されることが可能である。低いＩＤＦ値は、そのエンティティ候補がコーパスで広く使用されていることを示す場合が多く、よってボイラープレート、統計的異常値または検出違いである可能性が高い。これに対して、高いＩＤＦ値は、このようなエンティティ候補が真に意味のあるもの、または重大な意味的エンティティであって、文書から抽出されるに値することを示す。ある実施形態では、予め決められた値の範囲内にあるＩＤＦ値を有するエンティティ候補は抽出されるのに対して、この範囲外のＩＤＦ値を有するエンティティ候補は無視される。さらなる実施形態では、ユーザは、抽出されるエンティティに関するその知識を基礎としてこの抽出範囲及び対応するしきい値を調整することを許容される。

図２は、本発明の一実施形態によるエンティティ抽出のプロセスを示すフローチャートである。動作の間、システムは、予め規定されたコーパスから全文書を受信する（オペレーション２０２）。ある実施形態では、予め規定されるコーパスはユーザの電子メールフォルダからの全文書を含む。システムは次に、これらの文書内の意味的エンティティを認識する（オペレーション２０４）。ある実施形態では、システムは幾つかのＦＳＭを用いて意味的エンティティを検出する。システムは次に、検出された意味的エンティティを外部リソースにおける既知のエンティティと比較するために、任意選択として１つまたは複数の外部リソースを検索することができる（オペレーション２０６）。ポジティブサーチ結果を有する意味的エンティティは、エンティティ候補とされる。続いて、システムはエンティティ候補のＩＤＦ値を計算する（オペレーション２０８）。予め決められた範囲内のＩＤＦ値を有するエンティティ候補は、意味のある意味的エンティティとして抽出される（オペレーション２１０）。

重大なエンティティとされる抽出された意味的エンティティは、次に、メッセージ間の類似性計算に使用されることが可能である。２つの文書が多数の重複する重大なエンティティを有していれば、システムは、これらの２文書が類似し、よって高値の類似性を有するという高い尤度を有すると決定することができる。文書内の重大なエンティティの発生を計数することに加えて、本発明の実施形態は、文書／メッセージの類似性の計算に際してエンティティの発生学的な重みも考慮する。異なるグループに属するエンティティは、異なる重みを割り当てられる。例えば、人名グループに属するエンティティは、住所グループに属するエンティティとは異なる重みを割り当てられる。異なるエンティティグループ及びコーパスのコンテキストの重要性に依存して、重みは適宜調整されることが可能である。例えば、人事担当職員の場合、人名の重みは技術用語より多いのに対して、技術者の場合は逆である可能性がある。ある実施形態では、エンティティの重みはユーザによって構成可能である。

メッセージ間の類似性の決定に関しては、幾つかの異なる尺度を計算することができる。第１の尺度は、２つのメッセージ間で重複するエンティティの、各メッセージにおけるエンティティの合計に対する割合を計算する。メッセージＡ及びＢ間の第１の類似度は、

）（１）
として計算することができる。但し、ｉｄｆ_ｅはエンティティｅのＩＤＦ値であり、ｗｅはその重みである。上式の分子は、双方の文書に出現するエンティティのＩＤＦ値の加重和を含み、分母は、別々の各文書内のエンティティのＩＤＦ値の加重和を含む。

第２の尺度は第１の尺度に類似しているが、各文書内の重み付けされたＩＤＦ値を別々に合計する代わりに、第２の尺度の分母は２文書の和集合におけるエンティティの重み付けされたＩＤＦ値を合計する点が異なる。メッセージＡ及びＢ間の第２の類似度は、

（２）
として計算することができる。

類似性の第３の尺度は標準的なコサイン尺度であり、この場合、重み付けされたＩＤＦ値の二乗が合計される。第３の（またはコサイン）類似度は、

（３）
として計算することができる。

重大なエンティティの発生を基礎とする上述の３つの尺度に加えて、本システムは、電子メールメッセージの送信者及び受信者及び電子メールメッセージが送信または受信される時間等の他の情報も考慮する。ある実施形態では、電子メールメッセージの受信者と送信者との間の類似性は、より細かく細分された類似値を提供するために上述の３つの尺度を用いて計算される。このようなより細かく細分された類似性測定値は、類似性レベルを基礎として電子メールを編成する際に有益である可能性がある。例えば、電子メールユーザは、その保存された電子メールメッセージを、所定の電子メールメッセージＡに対する他の電子メールの類似性レベルを基礎として編成することを望む場合がある。そうするために、システムはまず、他の全電子メールの電子メールＡに対するエンティティ発生ベースの類似性レベルを計算し、次いでこの類似性レベルを基礎としてこれらの電子メールを順番に表示する。電子メールＡに対して最も高い類似性レベルを有する電子メールメッセージは、最も関連のあるものとして先頭に表示される場合が多い。しかしながら、２つの電子メールＢ及びＣのエンティティ発生ベースの類似性レベルが互いに近ければ（差が予め決められたしきい値より少ない）、システムはさらに、メッセージＢ及びＣのメッセージＡに対する送信者−受信者ベースの類似性レベルを計算する必要がある。メッセージＢがメッセージＡに対するより高いレベルの送信者−受信者ベースの類似性を有していれば、システムは、メッセージＣよりもメッセージＢの方がメッセージＡとの関連性が高いと決定し、かつ類似性の最終的な順序づけリストにおいてメッセージＢをより高位に置くことができる。

同様に、電子メールメッセージの送信及び受信時間は、より細かく細分された類似性をも提供するために用いられることが可能である。ある実施形態では、新たに発生されたメッセージ（即ち、このメッセージが送信または受信されてからの経過時間は比較的短い）は、他のより古いメッセージよりも高い時間ベースの類似性レベルを有する。先の例において、メッセージＢ及びＣのメッセージＡに対する送信者−受信者ベースの類似性レベルも互いに近ければ（しきい値より少ない）、システムは次に時間ベースの類似性を計算する。メッセージＢがメッセージＣよりも新しく受信されたメッセージであれば、システムは、メッセージＣよりもメッセージＢの方がメッセージＡとの関連性が高いと決定し、かつ類似性の最終的な順序づけリストにおいてメッセージＢをより高位に置くことができる。

図３は、本発明の一実施形態による、所定の文書に対する類似性レベルを基礎として文書を順番に配置するプロセスを示すフローチャートである。動作の間、本システムは、ユーザの電子メール等のコーパス内の文書から意味のある意味的エンティティを抽出し（オペレーション３０２）、かつそれが属するグループを基礎として各エンティティのＩＤＦ値へ重みを付加する（オペレーション３０４）。ある実施形態において、グループとして可能なものには、人名、企業名、日時、住所、業界固有用語、メールアドレス、ユニフォームリソースロケータ（ＵＲＬ）及び電話番号が含まれるが、この限りではない。このエンティティ抽出プロセスは、図２に示すものに類似している。システムは、所定の文書に関して、コーパス内の幾つかの他の文書のエンティティ発生ベースの類似性レベルを計算する（オペレーション３０６）。類似性レベルの３つの異なる尺度は、そのうちの１つまたはそれ以上を計算することができる。エンティティ発生ベースの類似性は、３つの異なる尺度全ての集計であることが可能である。ユーザは、類似性計算用に幾つかの文書を選択することもできる。例えば、ユーザはある特定のフォルダから電子メールメッセージを選ぶことができ、またはユーザは全ての電子メールを選ぶことができる。

続いて、システムは文書を、所定の文書に対するそのエンティティ発生ベースの類似性を基礎として順番に配置する（オペレーション３０８）。システムは次に、２つ以上の文書が似通った類似性レベルを有するかどうかを決定する（オペレーション３１０）。ある実施形態において、２つの文書のエンティティ発生ベース類似性レベルの差が予め決められたしきい値より低ければ、システムはこれらの文書が似通った類似性レベルを有するものと考える。そうであれば、システムは、似通ったエンティティ発生ベースの類似性を有する文書について送信者−受信者ベースの類似性を計算し（オペレーション３１２）、適宜これらを順番に配置する（オペレーション３１４）。続いて、システムは、２つ以上の文書が似通ったレベルの送信者−受信者ベースの類似性を有するかどうかを決定する（オペレーション３１６）。ある実施形態において、２つの文書の送信者−受信者ベース類似性レベルの差が予め決められたしきい値より低ければ、システムはこれらの文書が似通った類似性レベルを有するものと考える。そうであれば、システムは、これらの文書の送信または受信時間を似通った送信者−受信者ベースの類似性と比較してこれらの文書の時間ベースの類似性を発生し（オペレーション３１８）、かつこの時間ベースの類似性を基礎としてこれらを順番に配置する（オペレーション３２０）。ある実施形態では、システムは、送信及び受信時間をミリ秒の順序で比較する。

図４は、本発明の一実施形態による、類似性を基礎として文書を編成するためのシステムの構成を示す図である。文書編成システム４００は、受信機構４０２と、エンティティ抽出機構４０４と、一次類似性計算器４０６と、一次類似性順序づけ機構４０８と、二次類似性計算器４１０と、二次類似性順序づけ機構４１２と、三次類似性計算器４１４と、三次類似性順序づけ機構４１６と、ディスプレイ機構４１８とを含む。

動作の間、受信機構４０２はコーパスから幾つかの文書を受信する。コーパスはユーザの電子メールフォルダのコンテンツである可能性があり、かつ文書は電子メールメッセージである。受信された文書はエンティティ抽出機構４０４へ送られ、意味のある意味的エンティティが抽出される。エンティティ抽出機構４０４の詳細な構造は、図１に示されている。抽出されたエンティティのＩＤＦ値は、エンティティ抽出プロセスの間に計算されている点に留意されたい。文書及び抽出されたエンティティは、次に一次類似性計算器４０６へ送られ、所定の文書に対する一次類似性が計算される。所定の文書はユーザによって選択されることが可能であり、または所定の文書は、フォーカスされているウィンドウに現行表示されている文書であることが可能である。ある実施形態において、一次類似性は、抽出されたエンティティの所定の文書及び他の文書内での発生を基礎とする。さらなる実施形態では、幾つかの異なる類似度が計算され、一次類似性は異なる尺度の集計を基礎とする。他の文書及び所定の文書に対するその計算された一次類似性は、次に一次順序づけ機構４０８へ送られる。一次順序づけ機構４０８は、他の文書を、所定の文書に対する計算された一次類似性を基礎として順番に配置するように構成される。しきい値より低い一次類似性レベルを有する文書は所定の文書に関連しないものとされ、無視されることに留意されたい。

２つ以上の文書が近い類似性を有していれば（即ち、これらの文書間の計算された一次類似性の差がしきい値より少ない）、これらの文書は二次類似性計算器４１０へ送られ、二次類似性が計算される。ある実施形態において、二次類似性は、電子メールメッセージの送信者−受信者情報を基礎としている。同様に、幾つかの異なる類似度は集計された二次類似性を発生するために計算されることが可能である。二次類似性計算器４１０の出力は、二次順序づけ機構４１２へ送られる。二次順序づけ機構４１２は、似通った一次類似性を有する文書をその二次類似性を基礎として順番に配置するように構成されている。

文書をそれらの二次類似性を基礎として順序づけた後にも、まだ似通った類似性を有する２つ以上の文書が存在すれば、システムはこれらの文書を三次類似性計算器４１４へ送ることができる。三次類似性計算器４１４は、三次の文書類似性を計算する。ある実施形態において、三次類似性は、電子メールメッセージの送信及び受信時間を基礎として計算される。三次類似性計算器の出力は、次に三次順序づけ機構４１６へ送られる。三次順序づけ機構４１６は、計算された三次類似性を基礎として文書をさらにソートするように構成されている。３つの順序づけ機構４０８、４１２及び４１６全てのソート結果は、文書を所定の文書に対するその関係性順に表示するように構成されるディスプレイ機構４１８へ送られる。ある実施形態において、所定の文書に対して最も深い関係性を有する（最も高い類似性レベルを有する）文書はリストの最初に配置される。

ユーザにとっては、全てのメッセージが等しく重要であるとされるわけではない。故に、メッセージ間の類似性を計算する場合は、メッセージの重要性のレベルを考慮すべきである。言い替えれば、異なる電子メールメッセージは異なる重みを有し、ある電子メールの他の電子メールに対する類似性は他の電子メールのメッセージの重みに依存する。

メッセージの重みには、幾つかの要素が影響する可能性がある。これらの要素には、メッセージのタイプ、送信者及び受信者に関連づけられる情報、タイミング情報及びエンティティ密度が含まれるが、この限りではない。メッセージのタイプは、そのメッセージが情報／行動の要求であるか、ステータス更新であるか、スケジューリング要求であるか、注意喚起であるか、または社会的メッセージであるかを示す。異なるタイプのメッセージは、ユーザにとって異なる重要性を呈する。例えば、労働環境においては、社会的メッセージは会合スケジューリングのメッセージほど重要ではない可能性が高い。電子メールの重要性は、電子メールの受信者数と逆相関される可能性もある。言い替えれば、受信者が膨大である電子メールの重要性は低い。

電子メールの送信者及び受信者に関連づけられる他の情報も、ユーザに対するその重要性を計るために使用されることが可能である。例えば、システムは、電子メールがそのユーザと所定の送信者との間でどの程度頻繁に交換されているか、及び交換のバランスはどうか、を決定することができる。そうすることにより、システムはメーリングリストの電子メール送信者を識別し、かつこのような情報を用いてこのような送信者により送信されるメッセージの重要性を適合化する、または減らすことができる。さらに、システムは、電子メールメッセージにおける「ＴＯ」フィールドを調べ、ユーザがメッセージの直接的な受信者であるかどうかを決定することができる。そうであれば、メッセージにより高い重みを与えることができる。またシステムは、メッセージがユーザによって送信されたメッセージの１つに対する直接的な応答であるかどうかを決定することもできる。そうであれば、メッセージにはより高い重みが与えられる。

また電子メールの期間も、その重要性を決定する際に役割を果たす。概して、より古い電子メール（かなり前に送信または受信されている電子メール）は、ユーザにとって重要性が低い。さらに、電子メール内の抽出されたエンティティの数またはエンティティ密度もその重要性を測定するために使用されることが可能である。このようなエンティティ密度は、メッセージの情報コンテンツ及び密度に対応することが多い。故に、より多くの抽出されたエンティティを含むより情報量の多いメッセージは、ユーザにとってより重要なものとして見なされることが可能である。

メッセージの重みに影響するこれらの異なる要素は、役割ベースのアプローチ（送信者及び受信者に関連づけられる情報が重要性の計測に使用される）または直接的なマッピング機能（受信者数がメッセージの重みの計算に使用される場合）の何れかを使用して、０．０から１．０までの間の値にマップされる。最終的なメッセージの重みは、個々の要素値の加重和である。メッセージｊの場合、このメッセージの合計重さは、

によって与えられる。但し、ｗ_ｉ，ｊはメッセージｊの要素ｉの値を表し、かつα_ｉは要素ｉの重みを表す。ここで、

であることに留意されたい。メッセージの重みを考慮した後は、３つの尺度全てについて、メッセージの類似性を、

（４）
として計算することができる。

方程式４において、類似性はメッセージＢのメッセージの重みを基礎として重み付けされ、よってシステムはメッセージＡから離脱する類似性の値及び格付けを得ようとしていることを示している。言い替えれば、システムはメッセージＡに類似するメッセージを発見しようとしていて、これらのメッセージはそのメッセージの重みで重み付けされる。

電子メールメッセージに加えて、本発明の実施形態によっては、システムはさらに電子メールによる会話間の類似性を計算するように構成されることが可能である。ある実施形態では、電子メールメッセージのグループは、メッセージの主題と受信者／送信者とをマッチングすることにより、電子メールによる会話へと互いにマージされることが可能である。故に、先に述べたエンティティ抽出方法及び類似性計算方法は、メッセージクラスタによって形成される会話へ適用されることが可能である。この場合、方程式１から方程式４までにおける表記Ａ及びＢは会話Ａ及びＢを指すことに留意されたい。ある実施形態では、エンティティのＩＤＦ値は、会話全体におけるその発生を基礎として計算されることが可能である。

図５は、本発明の一実施形態による、文書の類似性を推定するための例示的なコンピュータシステム示す。ある実施形態において、コンピュータ及び通信システム５００は、プロセッサ５０２と、メモリ５０４と、格納デバイス５０６とを含む。格納デバイス５０６は、文書−類似性−推定アプリケーション５０８並びにアプリケーション５１０及び５１２等の他のアプリケーションを格納する。動作の間、文書−類似性−推定アプリケーション５０８は格納デバイス５０６からメモリ５０４へロードされ、次いでプロセッサ５０２によって実行される。プロセッサ５０２は、プログラムを実行しながら先に述べた機能を実行する。コンピュータ及び通信システム５００は、任意選択のディスプレイ５１４、キーボード５１６及びポインティングデバイス５１８へ結合される。

Claims

文書間の類似性レベルを推定するためのコンピュータ実行可能方法であって、
幾つかの文書を受信することと、
前記文書から幾つかの意味的エンティティを抽出することと、
前記抽出された意味的エンティティを基礎として、前記文書間の前記類似性レベルを計算することと、
前記計算された類似性レベルを基礎として、類似する文書を示す結果を生成することを含む方法。
前記意味的エンティティを抽出することは、
幾つかの予め規定されたグループのうちの少なくとも１つに属する１つのワード及び／またはワードシーケンスを認識するように構成される幾つかの有限状態マシンを適用することと、
少なくとも１つの外部リソースを検索しかつ比較して、前記認識されたワード及び／またはワードシーケンスが前記外部リソース内部のエントリに一致するかどうかを決定することと、
一致の発見に応答して前記ワード及び／またはワードシーケンスを意味的エンティティとして抽出することを含む、請求項１に記載の方法。
前記意味的エンティティを抽出することは、さらに、
前記意味的エンティティの逆文書頻度（ＩＤＦ）値を計算することと、
前記ＩＤＦ値が予め決められた範囲内であるかどうかを決定することと、
前記ＩＤＦ値が前記予め決められた範囲内であるということに応答して前記意味的エンティティを抽出することを含む、請求項２に記載の方法。
前記予め規定されたグループは、
人名、
企業名、
業界固有用語、
日時、
住所、
メールアドレス、
ユニフォームリソースロケータ（ＵＲＬ）及び
電話番号のうちの少なくとも１つを含む、請求項２に記載の方法。