JP2011227890A

JP2011227890A - エンティティ類似度の算出方法

Info

Publication number: JP2011227890A
Application number: JP2011081761A
Authority: JP
Inventors: Brdiczka Oliver; オリヴァー・ブルディクスカ; Isaev Petro; ペトロ・イザレフ
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2010-04-15
Filing date: 2011-04-01
Publication date: 2011-11-10
Anticipated expiration: 2031-04-01
Also published as: KR20110115543A; US8762375B2; EP2378476A1; KR101716905B1; JP5775348B2; US20110258193A1

Abstract

【課題】意味論的エンティティ間の類似度レベルを推定するシステムを提供する。
【解決手段】処理期間中、システムは幾つかの文書に関連する２以上の意味論的エンティティを選択する。このシステムは、続いて文書を下位部分に分解し、文書の下位部分内の意味論的エンティティの出現率に基づき、意味論的エンティティ間の類似度レベルを算出する。人名に関する意味論的エンティティについては、さらに類似度を推定すべく電子メールの送信者および／または受信者内の共起頻度を判定する。
【選択図】図４

Description

本開示は、概ねコンテンツ分析に関する。より具体的には、本開示は意味論的エンティティ間の類似度の算出に関する。

本発明の一実施形態は、意味論的エンティティ間の類似度レベルを推定するシステムを提供するものである。処理期間中、本システムは幾つかの文書に関連する２以上の意味論的エンティティを選択する。本システムは文書を下位部分に分解し、文書の下位部分内の意味論的エンティティの出現率に基づき意味論的エンティティ間の類似度レベルを算出する。

本実施形態の変形例では、文書の下位部分は個々の文章および／または個々の段落を含む。

さらなる変形例では、類似度レベルの算出に、意味論的エンティティの文章準拠および／または段落準拠の共起頻度の特定が含まれる。

さらなる変形例では、意味論的エンティティの文章準拠共起頻度は意味論的エンティティがその中で共起する文章の総数に基づいて算出され、意味論的エンティティの段落準拠共起頻度は意味論的エンティティがその中で共起する段落の総数に基づいて算出される。

さらなる変形例では、第２の意味論的エンティティに関する第１の意味論的エンティティの類似度レベルの算出には、第２の意味論的エンティティの出現頻度に対する第１と第２の意味論的エンティティの共起頻度の比の算出が含まれる。

さらなる変形例では、第２の意味論的エンティティに関する第１の意味論的エンティティの類似度レベルの算出には、第１の意味論的エンティティの加重付き逆文書頻度（ＩＤＦ；ｉｎｖｅｒｓｅ−ｄｏｃｕｍｅｎｔ−ｆｒｅｑｕｅｎｃｙ）値に対する第２の意味論的エンティティの加重付きＩＤＦ値の比の算出がさらに含まれる。

本実施形態の変形例では、文書には電子メールメッセージおよび／または電子メール会話が含まれる。

さらなる変形例では、意味論的エンティティには人名が含まれ、人名間の類似度レベルの算出には、電子メールメッセージの送信者および／または受信者リスト内の人名の共起頻度の特定が含まれる。

本実施形態の変形例では、意味論的エンティティには、人名、会社名、工業専門用語、日時、所番地、電子メールアドレス、ユニフォーム・リソース・ロケータ（ＵＲＬ）および電話番号のうちの少なくとも一つが含まれる。

本実施形態の変形例では、類似度レベルの算出には、少なくとも１つの文書に関する加重関数の特定が含まれる。

本発明の一実施形態によるエンティティ抽出システムを示す線図を表わす。本発明の一実施形態によるエンティティの抽出工程を示すフローチャートを表わす。本発明の一実施形態によるエンティティ間類似度を推定する例示システムを示す線図を表わす。本発明の一実施形態によるエンティティ間類似度を推定する工程を示すフローチャートを表わす。本発明の一実施形態によるエンティティ類似度推定用の例示コンピュータシステムを示す。

図面中、同様の参照符号は同一の図面要素を指す。

本発明の実施形態は、文書内の意味論的エンティティ間の類似度を識別するシステムを提供する。処理期間中、本システムは収集文書から意味論的エンティティを選択し、文書の文章および／または段落内の意味論的エンティティの出現頻度と共起頻度とに基づき意味論的エンティティ間の類似度を算出する。人名に関する意味論的エンティティについて、本システムはさらに類似度を推定すべく電子メールメッセージの送信者および／または受信者リスト内の共起頻度を判定する。

意味論的エンティティの抽出

電子メールユーザがその保存された電子メールメッセージを効率的に編成し、あるいはより良質の局所文脈を有する仕方でユーザにメッセージを提示するのを手助けすべく、電子メールをそれが属する会話に基づきグループ化することを含め様々な解決策が実施されてきた。電子メールによる会話は、電子メールユーザが互いに往復通信する際に、実生活の会話をするのと同様に確立される。ほとんどの場合、ユーザが関連する話題を論ずるときに、彼等は恰も実生活の会話をするかの如く、他人の各電子メールに応答する。しかしながら、会話準拠のグループ分けは、特に関連事項に関して幾つかの異なる会話が行われる場合に不十分となることがある。例えば、タスク幹事は異なるタスク要員と異なるタスク関連会話をすることがある。これらの会話あるいは会話中の電子メールは、しばしば類似の話題を共有するか同一のタスクに関連付けられ、それらを併せグループ化して表示することが望ましい。

これらの会話とメッセージは関連しているため、それらはしばしば類似の言葉あるいは言葉の組み合わせを共有する。例えば、局地気象を論ずる会話には全て雨や雪あるいは風などの言葉が含まれよう。これ故、文字を比較することで、２つのメッセージ間の類似度を推定することができる。

従来の文書間の類似度算出は通常、言葉の出現を計数して比較することによる関連文書の文字の照合に依拠する。しかしながら、この種の手法は非効率的で誤った結果を生むことがある。例えば、定型常用文の文字を含む電子メールについては、定型常用文の文字の共起率は２つのメッセージ間で高いことがあるのに対し、２つのメッセージ間の類似度は実際には低いこともある。この種の問題を打開すべく、本発明の一実施形態では、各言葉の出現を計数するのではなく、システムはメッセージあるいは会話間の類似度を導出すべく「エンティティ」として定義される有意味な言葉の出現率の比較に依拠する。

図１は、本発明の実施形態によるエンティティ抽出システムを示す線図を表わす。エンティティ抽出システム１００は、受け取り装置１０２と、幾つかの有限状態マシン（ＦＳＭ：ｆｉｎｉｔｅｓｔａｔｅｍａｃｈｉｎｅ）１０６〜１１０と、随意選択的な検索および比較装置１１２と、ＩＤＦ算出器１１４とを含む。

処理期間中に、受け取り装置１０２はエンティティ抽出用に入力文書１０４を受け取る。入力文書１０４は、文字、記号、図、および／またはそれらの任意の組み合わせを含む任意種の文書とすることができる。入力文書１０４は、プレーンテキストや、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｏｒｄ（ワシントン州レドモンド市のマイクロソフト社の登録商標）や、ハイパー・テキスト・マークアップ・ランゲージ（ＨＴＭＬ）や、ポータブル・ドキュメント・フォーマット（ＰＤＦ）等の任意種のファイルフォーマットとすることもできる。一実施形態では、入力文書１０４には電子メールメッセージが含まれる。入力文書１０４には、コーパスに含まれる全ての文書も含めることができる。例えば、入力文書１０４にはユーザの電子メールフォルダ内の全てのメッセージを含めることができる。

受け取った文書の文字は、その後ＦＳＭ１０６〜１１０を含む幾つかのＦＳＭへ送られる。これらＦＳＭは、異なる所定のグループに属する意味論的エンティティが認識できるよう異ならしめて設計されてきた。意味論的エンティティは、言葉や言葉の組み合わせや特定の意味を有する列とすることができる。言葉や一連の言葉は、それが人名、会社名、日時、所番地、工業専門用語、電子メールアドレス、ユニフォーム・リソース・ロケーター（ＵＲＬ）および電話番号等の特定の言葉のグループに属する場合、意味論的エンティティとなりうる。ＦＳＭ１０６〜１１０は、文章と言葉の構造を考慮しつつ、受け取った文書の文字におけるこれらの特定のグループの言葉を認識することができる。意味論的エンティティを認識するのに、標準的な注釈および構文解析術を用いることができる。一実施形態では、ＦＳＭ１０６〜１１０は上述した語群に属する意味論的エンティティを認識するよう構成してある。さらに、意味論的エンティティがいずれの特定のグループにも属さず、あるいはいずれの辞書にも見いだせない場合、ＦＳＭ１０６〜１１０は、その大文字使用慣例あるいは新規エンティティを識別するその他の規範に基づき、この種の新規エンティティを認識するよう設計することもできる。一実施形態では、この追加の意味論的エンティティ抽出機能を追加の抽出モジュール１１１により実行することができる。受け取った文書内の言葉あるいは一連の言葉が常にもしくは全出現のうちの高分率のいずれかでもって一貫して大文字化される場合、これを意味論的エンティティとして認識することができる。例えば、ユーザ定義頭字語は往々にしていずれの特定のグループにも属さず、あるいはどの辞書にも見いだすことはできない。しかしながら、それらは有意味の意味論的エンティティである。

英語に加え、ＦＳＭ１０６〜１１０は他の言語の意味論的エンティティを認識するよう設計することもできる。より良好な抽出結果を獲得するため、ユーザは言語種別あるいはコンテンツ種別を含む受け取った文書の種別に基づきＦＳＭ１０６〜１１０を設定することができる。図１において、ＦＳＭ１０６〜１１０は、これらＦＳＭにより文字が同時に処理される並列態様にて実装してあることに留意されたい。しかしながら、ＦＳＭ１０６〜１１０を直列に実装することも可能である。ＦＳＭの適用に加え、受け取った文書内の意味論的エンティティの識別にマシン学習等の他の技法もまた可能である。

無意味な言葉がＦＳＭ１０６〜１１０により意味論的エンティティとして誤って認識されるのを避けるべく、受け取った文書の文字から識別されるエンティティのしかるべき種別を随意選択的な検索および比較装置１１２へ送り、外部資源を用いて検索比較する。検索および比較処理が全てのエンティティ種に適用されないが故に、この処理は随意選択的であることに留意されたい。一実施形態では、外部資源にはＷｉｋｉｐｅｄｉａ（登録商標）（カルフォニア州サンフランシスコ市のＷｉｋｉｍｅｄｉａＦｏｕｎｄａｔｉｏｎＩｎｃ．社の登録商標）やオンライン辞書等のウェブ資源が含まれる。一実施形態では、外部資源にエンティティ・データベースもまた含めることができる。標準的なウェブ検索あるいはデータベース検索方法は、随意選択的な検索および比較装置１１２により行なうことができる。随意選択的な検索および比較装置１１２の出力は、抽出用に検討する幾つかのエンティティ候補となる。

続いて、エンティティ候補はＩＤＦ算出器１１４へ送られ、これがそのＩＤＦ値を算出する。エンティティ候補ｅのＩＤＦ値は、下記の如く定義される。すなわち、

であり、ここで｜Ｔ｜は文書（あるいは電子メールメッセージ）の総数、｜Ｔｅ｜はエンティティ候補ｅが観察された場合の文書（あるいは電子メールメッセージ）の数である。ＩＤＦ値は、エンティティ候補の有意性の計測に用いることができる。低ＩＤＦ値はしばしば、エンティティ候補がコーパス全体で広範に使用されていて、定型常用文か統計的異常値かあるいは誤検出である可能性があることを示す。対照的に、高ＩＤＦ値はこの種のエンティティ候補が真に有意味かまたは有意の意味論的エンティティであって文書から抽出するのに相応しいことを示す。一実施形態では、所定範囲の値に含まれるＩＤＦ値を有するエンティティ候補は抽出するのに対し、この範囲外のＩＤＦ値を有するエンティティ候補は無視する。さらなる実施形態では、ユーザが抽出エンティティに関する自らの知識に基づき抽出範囲と対応する閾値とを調整できるようにする。

図２は、本発明の一実施形態によるエンティティ抽出工程を示すフローチャートを表わす。処理期間中に、システムは定義済みコーパスから全ての文書を受け取る（処理２０２）。一実施形態では、定義済みコーパスはユーザの電子メールフォルダからの全ての文書を含む。システムは、続いて文書内の意味論的エンティティを識別する（処理２０４）。一実施形態では、システムは意味論的エンティティの検出に幾つかのＦＳＭを使用する。システムは、そこで検出された意味論的エンティティを外部資源内の既知のエンティティと比較すべく１以上の外部資源を随意選択的に検索することができる（処理２０６）。肯定的な検索結果を有する意味論的エンティティは、エンティティ候補とみなされる。その後、システムはエンティティ候補のＩＤＦ値を算出する（処理２０８）。所定範囲内のＩＤＦ値を有するエンティティ候補が、有意味な意味論的エンティティとして抽出される（処理２１０）。

有意なエンティティとみなされた抽出された意味論的エンティティは、続いてメッセージ間の類似度算出に用いることができる。メッセージの類似度算出に加え、このシステムは抽出されたエンティティ間の類似度を算出することもできる。２人の人物の名前等の２つのエンティティは互いに高度に関連付けることができ、かくして高い類似度値を有する。例えば、タスク幹事は自らのタスク要員の名前が高い類似度を共有することを見いだすことができる。あるいは、生産管理者は２つの関連製品の名前が高い類似度を共有することを見いだすことができる。エンティティ類似度が算出可能であることで、類似のあるいは関連するエンティティを識別し、かくしてユーザによる受信電子メールメッセージの文脈の理解を容易にすることができる。

エンティティ間類似度は、メッセージの文章や段落等のメッセージあるいは下位部分内のエンティティの出現率および共起率から導出される。エンティティの文章準拠出現率はエンティティが出現する文章の数として定義され、２つのエンティティの文章準拠共起率は２つのエンティティが共起する文章の数として定義される。同様に、エンティティの段落準拠出現率はエンティティが出現する段落の数として定義され、２つのエンティティの段落準拠共起率は２つのエンティティが共起する段落の数として定義される。エンティティの出現率と共起率はコーパス全体にわたって計数されることに、留意されたい。一実施形態では、コーパスは電子メールの会話全体を含む。一実施形態では、コーパスはユーザの電子メールフォルダ内の全ての電子メールメッセージを含む。

文章もしくは段落準拠出現率および共起率に加え、エンティティ間類似度もエンティティのＩＤＦ値に依存する。一実施形態では、エンティティＩＤＦ値を個別エンティティの加重値により修正する。異なるグループに属するエンティティには、異なる加重値が割り当てられる。例えば、人名グループに属するエンティティには所番地グループに属するエンティティとは異なる加重値が割り当てられる。異なるエンティティグループとコーパスの文脈の重要度に基づき、加重値はしかるべく調整することができる。例えば、人事部の従業員にとって、人名は技術用語よりも大きな加重値を抱えているのに対し、エンジニアにとってはその逆が当てはまる。一実施形態では、エンティティの加重値はユーザ設定が可能である。

ａに対するエンティティｂの文章準拠類似度は，下式により算出される。すなわち、

（１）
であり、ここでｉｄｆ_ａとｉｄｆ_ｂはそれぞれエンティティａとｂのＩＤＦ値であり、ｗ_ａとｗ_ｂはそれぞれエンティティａとｂの加重関数である。ｃｏ_{ｓｅｎｔｅｎｃｅ}（ａ，ｂ）はエンティティａとｂの文章準拠共起率を表わし、ｏｃｃ_{ｓｅｎｔｅｎｃｅ}（ａ）はエンティティａの文章準拠出現率である。一実施形態では、エンティティＩＤＦ値を会話全体に対し算出する。さらなる実施形態では、エンティティＩＤＦ値を全ての電子メールメッセージについて算出する。エンティティ間類似度には方向性があり、すなわちｂに対するａの類似度はａに対するｂの類似度とは異なることに留意されたい。

ａに対するエンティティｂの段落準拠類似度は，下式により算出される。すなわち、

（２）
であり、ここでｉｄｆ_ａとｉｄｆ_ｂはそれぞれエンティティａとｂのＩＤＦ値であり、ｗ_ａとｗ_ｂはそれぞれエンティティａとｂの加重関数である。ｃｏ_{ｐａｒａｇｒａｐｈ}（ａ，ｂ）は、エンティティａとｂの段落準拠共起率を表わし、ｏｃｃ_{ｐａｒａｇｒａｐｈ}（ａ）はエンティティａの段落準拠出現率である。

一実施形態では、システムは文章と段落の両方でエンティティの共起率を考慮する。そうするため、システムは合成されたエンティティ間類似度を演繹すべく、文章準拠類似度と段落準拠類似度とを合成することができる。合成されたエンティティ間類似度は、下式にて算出することができる。すなわち、

（３）
であり、ここでα_{ｓｅｎｔｅｎｃｅ}は段落準拠類似度と比較した文章準拠類似度の加重値を特定し、０から１の間の値を割り当てられる。エンティティの文章準拠共起率はしばしば段落準拠共起率を上回る重要な役割を果たすため、α_{ｓｅｎｔｅｎｃｅ}はしばしば１に近い値を割り当てられる。一実施形態では、α_{ｓｅｎｔｅｎｃｅ}の値はユーザ設定が可能である。

ユーザにとって、全てのメッセージが等しく重要であるとは限らない。これ故、エンティティ間類似度を算出する際に、メッセージの重要度のレベルを考慮しなければならない。換言すれば、異なる電子メールメッセージは異なる加重値を有しており、エンティティの出現率または共起率を算出する際に、システムはメッセージ加重値に基づき出現数を修正する。例えば、より重要な電子メール中のエンティティの出現率は、より重要度の劣る電子メール中のその出現率よりも多くエンティティの総出現率に貢献する。

幾つかの要因が、メッセージ加重値に影響を及ぼすことがある。これらの要因には、これらに限定はされないが、メッセージ種や送信者と受信者に関連する情報やタイミング情報やエンティティ密度が含まれる。メッセージ種は、メッセージが情報／行動の要求、喫緊の状態、予定作成要求、リマインダ、または社会的メッセージかどうかを示すものである。異なる種別のメッセージは、ユーザに対し異なる重要度を呈する。例えば、職場環境では、社会的メッセージは会合を日程調整するメッセージよりも重要度が劣るようである。電子メールの重要度は、電子メールの受信者の数と逆相関処理することもできる。換言すれば、膨大な数の受信者を有する電子メールは重要度が乏しい。

電子メールの送信者と受信者に関連する他の情報は、ユーザにとっての重要度を測るのに用いることもできる。例えば、システムはユーザとしかるべき送信者との間でどの程度頻繁に電子メールがやり取りされたか、そのやり取りの差引件数を特定することができる。そうすることで、システムはメール送信リストの電子メール送信者を識別し、この種の情報を用いてこの種の送信者が送信したメッセージの重要度を適合あるいは低減することができる。加えて、システムは電子メールメッセージ内の「宛先」欄を検査し、ユーザがメッセージの直接の受信者であるかどうかを判別することができる。そうである場合、そのメッセージにより大きな加重値を与えることができる。このシステムは、あるメッセージが、ユーザが送信したメッセージの一つに直接応答するものであるかどうかを判定することもできる。そうである場合、メッセージにはより大きな加重値が与えられる。

電子メールの経過時間もまた、その重要性の判定に役割を果たす。一般に、より時間の経過した電子メール（ずっと前に送信され受信された電子メール）は、ユーザにとって重要度が少ないものである。さらに、電子メール内の抽出されたエンティティの数あるいはエンティティ密度は、その重要度を測るのに用いることもできる。この種のエンティティ密度は、しばしばメッセージの情報コンテンツと密度とに対応する。これ故、より多数の抽出エンティティを含むより情報性のあるメッセージをユーザにとってより重要なものと見なすことができる。

メッセージ加重値に影響を及ぼすこれらの異なる要因は、規則準拠手法（送信者と受信者に関連する情報を重要度測定に用いるとき）または直接マッピング関数（受信者の数をメッセージ加重値の算出に用いるとき）を用いるかのいずれかにより、０．０と１．０の間の値にマッピングされる。最終的なメッセージ加重値は、個別要因値の加重和となる。メッセージｊについては、メッセージの総加重値は下式で与えられ、

となり、ここでｗ_ｉｊはメッセージｊに関する要因ｉの値を表わし、α_ｉは要因ｉの加重値を表わす。

であることに、留意されたい。

エンティティ間類似度算出用にメッセージ加重値を考慮する場合、メッセージ加重値は文章と段落とに影響を及ぼす。これ故、文章加重値ｓは、下式の如く算出され、

となり、ここでｍはメッセージｍを指し、ｗ_{ｔｏｔａｌ，ｍ}はメッセージｍの総加重値である。同様に、段落加重値ｐは、下式の如く算出され、

となる。

その結果、エンティティａの文章準拠出現率とエンティティａとｂの共起率は、下式の如く算出される。すなわち、それぞれ

と、

である。同様に、エンティティａの段落準拠出現率とエンティティａとｂの共起率は、下式の如く算出される。すなわち、それぞれ

と、

である。

エンティティ間類似度は、特定のグループに属するエンティティについてさらに向上させることができる。より具体的には、人物エンティティ（人名等）は電子メールの受信者と送信者に一致させることができる。例えば、２つの人名が電子メール受信者リスト内にしばしば併せ見受けられる場合、これら２つの人名は高い類似度を有する可能性が非常に高いとされる。同様に、２つの人名がしばしば電子メール会話に併せ参加（送信者と受信者のいずれかとして）しているよう見受けられるとシステムが判定できる場合、システムはこれら２つの人名が高い類似度を有すると判定することができる。

電子メール参加者準拠類似度の算出は、エンティティの出現率と共起率がここでは電子メールメッセージの送信者／受信者リスト内のそれらの出現率に基づくものとなる点を除き、文章準拠類似度の算出と同様である。電子メール参加者準拠類似度と、文章準拠類似度と段落準拠類似度とを合成する既に算出済みの類似度を合わせ融合し、人物エンティティに関する最終的な類似度算出値を得る。人物エンティティ間の最終的な類似度は、下式の如く算出される。すなわち、

（４）
となり、ここでｓｉｍ_{ｅｍａｉｌ−ｐａｒｔｉｃｉｐａｎｔｓ}は電子メール参加者の出現率／共起率に基づくエンティティ間類似度を表わし、α_{ｅｍａｉｌ−ｐａｒｔｉｃｉｐａｎｔｓ}は合成（文章準拠と段落準拠）類似度と対比した電子メール参加者準拠類似度の加重値を特定するものであり、α_{ｅｍａｉｌ−ｐａｒｔｉｃｉｐａｎｔｓ}は０と１の間の値を割り当てられる。一実施形態では、本システムは電子メール参加者準拠類似度に対しより多くの加重値を与え、α_{ｅｍａｉｌ−ｐａｒｔｉｃｉｐａｎｔｓ}には０．６を上回る値が与えられる。電子メール参加者準拠類似度を算出する際に、個別電子メールメッセージの加重値も考慮できることに留意されたい。

図３は、本発明の一実施形態によるエンティティ間類似度を推定する例示システムを示す線図を表わす。エンティティ間類似度推定システム３００は、受け取り装置３０２と、エンティティ抽出装置３０４と、文書分解装置３０６と、文章準拠類似度算出器３０８と、段落準拠類似度算出器３１０と、電子メール参加者準拠類似度算出器３１２と、類似度合成器３１４とを含む。

処理期間中、受け取り装置３０２はコーパスから幾つかの文書を受信し、それらはユーザの電子メールフォルダのコンテンツであることがあり、文書は電子メールメッセージである。受け取った文書は、有意味な意味論的エンティティを抽出するエンティティ抽出装置３０４へ送られる。エンティティ抽出装置３０４の詳細な構造が、図１に示される。抽出されたエンティティのＩＤＦ値がエンティティ抽出工程期間中に算出されていることに、留意されたい。

文書分解装置３０６が、受け取った文書を文章や段落等の下位部分に分解する。受け取った文書が電子メールメッセージである場合、文書下位部分は送信者／受信者リストを含む。文章準拠類似度算出器３０８は、文章内のエンティティの共起率に基づき文章準拠エンティティ間類似度を算出する。同様に、段落準拠類似度算出器３１０は段落内のエンティティの共起率に基づき段落準拠エンティティ間類似度を算出する。受け取った文書が電子メールメッセージであり、検討対象エンティティが人名等の人物エンティティである場合、これら人名もまた電子メール参加者準拠類似度算出器３１２へ送られ、電子メール参加者準拠類似度を算出する。全ての類似度算出器３０８〜３１２の出力はそこで類似度合成器３１４へ送られ、最終的な類似度を算出する。一実施形態では、異なる加重関数はそれらが合成される前に異種の類似度に割り当てられる。

図４は、本発明の実施形態によるエンティティ間類似度の推定方法を示すフローチャートを表わす。処理期間中、システムはコーパス内の文書からユーザの電子メール等の有意味な意味論的エンティティを抽出（処理４０２）し、それが属するグループに基づき各エンティティのＩＤＦ値に対し加重値を適用する（処理４０４）。一実施形態では、予想されるグループには、これらに限定はされないが、人名、会社名、日時、所番地、工業専門用語、電子メールアドレス、ユニフォーム・リソース・ロケーター（ＵＲＬ）および電話番号が含まれる。エンティティ抽出工程は、図２に示したものと同様である。

システムはそこで、所与のエンティティと異なるエンティティとを選択する（処理４０６）。続くエンティティ間類似度計算が所与のエンティティに向けた異なるエンティティの類似度を算出することに、留意されたい。システムは、文書を文章と段落とに分解する（処理４０８）。続いて、システムは所与のエンティティが出現する文章の数を計数（処理４１０）し、所与のエンティティと他のエンティティとが併せ出現する文章の数を計数（処理４１２）し、文章準拠類似度を算出（処理４１４）する。加えて、システムは所与のエンティティが出現する段落の数を計数（処理４１６）し、所与のエンティティと他のエンティティとが併せ出現する段落の数を計数（処理４１８）し、段落準拠類似度を算出（処理４２０）する。

このシステムは、そこで両エンティティが人物エンティティであるかどうか判定する（処理４２２）。そうである場合、このシステムはさらに電子メール参加者準拠類似度を算出する（処理４２４）。一実施形態では、全ての類似度計算が文書／メッセージの加重値を考慮する。その後、本システムは、それらの個々の加重値に基づき全ての算出された類似度を合成し、合成エンティティ間類似度を算出する（処理４２６）。

図５は、本発明の一実施形態によるエンティティ類似度推定用の例示コンピュータを示す。一実施形態では、コンピュータおよび通信システム５００はプロセッサ５０２とメモリ５０４と記憶装置５０６とを含む。記憶装置５０６は、エンティティ類似度推定アプリケーション５０８と、これに加えアプリケーション５１０や５１２等の他のアプリケーションも記憶する。処理期間中、エンティティ類似度推定アプリケーション５０８は記憶装置５０６からメモリ５０４内へロードされ、続いてプロセッサ５０２により実行される。プログラムの実行中、プロセッサ５０２は前述の機能を遂行する。コンピュータおよび通信システム５００は、随意選択的なディスプレイ５１４とキーボード５１６とポインティングデバイス５１８とに結合される。

Claims

意味論的エンティティ間の類似度レベルを推定するためのコンピュータで実行可能な方法であって、
幾つかの文書に関連する２以上の意味論的エンティティを選択する工程と、
文書を下位部分に分解する工程と、
文書の下位部分内の意味論的エンティティの出現率に基づき、意味論的エンティティ間の類似度レベルを算出する工程とを含む、方法。
文書の下位部分は、個別文章および／または個別段落を含む、請求項１に記載の方法。
類似度レベルの算出工程は、意味論的エンティティの文章準拠および／または段落準拠の共起頻度の特定を含む、請求項２に記載の方法。
意味論的エンティティの文章準拠共起頻度は意味論的エンティティがその中で共起する文章の総数に基づき算出し、意味論的エンティティの段落準拠共起頻度は意味論的エンティティがその中で共起する段落の総数に基づき算出する、請求項３に記載の方法。