JP2011227890A - エンティティ類似度の算出方法 - Google Patents

エンティティ類似度の算出方法 Download PDF

Info

Publication number
JP2011227890A
JP2011227890A JP2011081761A JP2011081761A JP2011227890A JP 2011227890 A JP2011227890 A JP 2011227890A JP 2011081761 A JP2011081761 A JP 2011081761A JP 2011081761 A JP2011081761 A JP 2011081761A JP 2011227890 A JP2011227890 A JP 2011227890A
Authority
JP
Japan
Prior art keywords
entity
similarity
entities
semantic
email
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011081761A
Other languages
English (en)
Other versions
JP5775348B2 (ja
Inventor
Brdiczka Oliver
オリヴァー・ブルディクスカ
Isaev Petro
ペトロ・イザレフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2011227890A publication Critical patent/JP2011227890A/ja
Application granted granted Critical
Publication of JP5775348B2 publication Critical patent/JP5775348B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Abstract

【課題】意味論的エンティティ間の類似度レベルを推定するシステムを提供する。
【解決手段】処理期間中、システムは幾つかの文書に関連する2以上の意味論的エンティティを選択する。このシステムは、続いて文書を下位部分に分解し、文書の下位部分内の意味論的エンティティの出現率に基づき、意味論的エンティティ間の類似度レベルを算出する。人名に関する意味論的エンティティについては、さらに類似度を推定すべく電子メールの送信者および/または受信者内の共起頻度を判定する。
【選択図】図4

Description

本開示は、概ねコンテンツ分析に関する。より具体的には、本開示は意味論的エンティティ間の類似度の算出に関する。
本発明の一実施形態は、意味論的エンティティ間の類似度レベルを推定するシステムを提供するものである。処理期間中、本システムは幾つかの文書に関連する2以上の意味論的エンティティを選択する。本システムは文書を下位部分に分解し、文書の下位部分内の意味論的エンティティの出現率に基づき意味論的エンティティ間の類似度レベルを算出する。
本実施形態の変形例では、文書の下位部分は個々の文章および/または個々の段落を含む。
さらなる変形例では、類似度レベルの算出に、意味論的エンティティの文章準拠および/または段落準拠の共起頻度の特定が含まれる。
さらなる変形例では、意味論的エンティティの文章準拠共起頻度は意味論的エンティティがその中で共起する文章の総数に基づいて算出され、意味論的エンティティの段落準拠共起頻度は意味論的エンティティがその中で共起する段落の総数に基づいて算出される。
さらなる変形例では、第2の意味論的エンティティに関する第1の意味論的エンティティの類似度レベルの算出には、第2の意味論的エンティティの出現頻度に対する第1と第2の意味論的エンティティの共起頻度の比の算出が含まれる。
さらなる変形例では、第2の意味論的エンティティに関する第1の意味論的エンティティの類似度レベルの算出には、第1の意味論的エンティティの加重付き逆文書頻度(IDF;inverse−document−frequency)値に対する第2の意味論的エンティティの加重付きIDF値の比の算出がさらに含まれる。
本実施形態の変形例では、文書には電子メールメッセージおよび/または電子メール会話が含まれる。
さらなる変形例では、意味論的エンティティには人名が含まれ、人名間の類似度レベルの算出には、電子メールメッセージの送信者および/または受信者リスト内の人名の共起頻度の特定が含まれる。
本実施形態の変形例では、意味論的エンティティには、人名、会社名、工業専門用語、日時、所番地、電子メールアドレス、ユニフォーム・リソース・ロケータ(URL)および電話番号のうちの少なくとも一つが含まれる。
本実施形態の変形例では、類似度レベルの算出には、少なくとも1つの文書に関する加重関数の特定が含まれる。
本発明の一実施形態によるエンティティ抽出システムを示す線図を表わす。 本発明の一実施形態によるエンティティの抽出工程を示すフローチャートを表わす。 本発明の一実施形態によるエンティティ間類似度を推定する例示システムを示す線図を表わす。 本発明の一実施形態によるエンティティ間類似度を推定する工程を示すフローチャートを表わす。 本発明の一実施形態によるエンティティ類似度推定用の例示コンピュータシステムを示す。
図面中、同様の参照符号は同一の図面要素を指す。
本発明の実施形態は、文書内の意味論的エンティティ間の類似度を識別するシステムを提供する。処理期間中、本システムは収集文書から意味論的エンティティを選択し、文書の文章および/または段落内の意味論的エンティティの出現頻度と共起頻度とに基づき意味論的エンティティ間の類似度を算出する。人名に関する意味論的エンティティについて、本システムはさらに類似度を推定すべく電子メールメッセージの送信者および/または受信者リスト内の共起頻度を判定する。
意味論的エンティティの抽出
電子メールユーザがその保存された電子メールメッセージを効率的に編成し、あるいはより良質の局所文脈を有する仕方でユーザにメッセージを提示するのを手助けすべく、電子メールをそれが属する会話に基づきグループ化することを含め様々な解決策が実施されてきた。電子メールによる会話は、電子メールユーザが互いに往復通信する際に、実生活の会話をするのと同様に確立される。ほとんどの場合、ユーザが関連する話題を論ずるときに、彼等は恰も実生活の会話をするかの如く、他人の各電子メールに応答する。しかしながら、会話準拠のグループ分けは、特に関連事項に関して幾つかの異なる会話が行われる場合に不十分となることがある。例えば、タスク幹事は異なるタスク要員と異なるタスク関連会話をすることがある。これらの会話あるいは会話中の電子メールは、しばしば類似の話題を共有するか同一のタスクに関連付けられ、それらを併せグループ化して表示することが望ましい。
これらの会話とメッセージは関連しているため、それらはしばしば類似の言葉あるいは言葉の組み合わせを共有する。例えば、局地気象を論ずる会話には全て雨や雪あるいは風などの言葉が含まれよう。これ故、文字を比較することで、2つのメッセージ間の類似度を推定することができる。
従来の文書間の類似度算出は通常、言葉の出現を計数して比較することによる関連文書の文字の照合に依拠する。しかしながら、この種の手法は非効率的で誤った結果を生むことがある。例えば、定型常用文の文字を含む電子メールについては、定型常用文の文字の共起率は2つのメッセージ間で高いことがあるのに対し、2つのメッセージ間の類似度は実際には低いこともある。この種の問題を打開すべく、本発明の一実施形態では、各言葉の出現を計数するのではなく、システムはメッセージあるいは会話間の類似度を導出すべく「エンティティ」として定義される有意味な言葉の出現率の比較に依拠する。
図1は、本発明の実施形態によるエンティティ抽出システムを示す線図を表わす。エンティティ抽出システム100は、受け取り装置102と、幾つかの有限状態マシン(FSM:finite state machine)106〜110と、随意選択的な検索および比較装置112と、IDF算出器114とを含む。
処理期間中に、受け取り装置102はエンティティ抽出用に入力文書104を受け取る。入力文書104は、文字、記号、図、および/またはそれらの任意の組み合わせを含む任意種の文書とすることができる。入力文書104は、プレーンテキストや、Microsoft(登録商標)Word(ワシントン州レドモンド市のマイクロソフト社の登録商標)や、ハイパー・テキスト・マークアップ・ランゲージ(HTML)や、ポータブル・ドキュメント・フォーマット(PDF)等の任意種のファイルフォーマットとすることもできる。一実施形態では、入力文書104には電子メールメッセージが含まれる。入力文書104には、コーパスに含まれる全ての文書も含めることができる。例えば、入力文書104にはユーザの電子メールフォルダ内の全てのメッセージを含めることができる。
受け取った文書の文字は、その後FSM106〜110を含む幾つかのFSMへ送られる。これらFSMは、異なる所定のグループに属する意味論的エンティティが認識できるよう異ならしめて設計されてきた。意味論的エンティティは、言葉や言葉の組み合わせや特定の意味を有する列とすることができる。言葉や一連の言葉は、それが人名、会社名、日時、所番地、工業専門用語、電子メールアドレス、ユニフォーム・リソース・ロケーター(URL)および電話番号等の特定の言葉のグループに属する場合、意味論的エンティティとなりうる。FSM106〜110は、文章と言葉の構造を考慮しつつ、受け取った文書の文字におけるこれらの特定のグループの言葉を認識することができる。意味論的エンティティを認識するのに、標準的な注釈および構文解析術を用いることができる。一実施形態では、FSM106〜110は上述した語群に属する意味論的エンティティを認識するよう構成してある。さらに、意味論的エンティティがいずれの特定のグループにも属さず、あるいはいずれの辞書にも見いだせない場合、FSM106〜110は、その大文字使用慣例あるいは新規エンティティを識別するその他の規範に基づき、この種の新規エンティティを認識するよう設計することもできる。一実施形態では、この追加の意味論的エンティティ抽出機能を追加の抽出モジュール111により実行することができる。受け取った文書内の言葉あるいは一連の言葉が常にもしくは全出現のうちの高分率のいずれかでもって一貫して大文字化される場合、これを意味論的エンティティとして認識することができる。例えば、ユーザ定義頭字語は往々にしていずれの特定のグループにも属さず、あるいはどの辞書にも見いだすことはできない。しかしながら、それらは有意味の意味論的エンティティである。
英語に加え、FSM106〜110は他の言語の意味論的エンティティを認識するよう設計することもできる。より良好な抽出結果を獲得するため、ユーザは言語種別あるいはコンテンツ種別を含む受け取った文書の種別に基づきFSM106〜110を設定することができる。図1において、FSM106〜110は、これらFSMにより文字が同時に処理される並列態様にて実装してあることに留意されたい。しかしながら、FSM106〜110を直列に実装することも可能である。FSMの適用に加え、受け取った文書内の意味論的エンティティの識別にマシン学習等の他の技法もまた可能である。
無意味な言葉がFSM106〜110により意味論的エンティティとして誤って認識されるのを避けるべく、受け取った文書の文字から識別されるエンティティのしかるべき種別を随意選択的な検索および比較装置112へ送り、外部資源を用いて検索比較する。検索および比較処理が全てのエンティティ種に適用されないが故に、この処理は随意選択的であることに留意されたい。一実施形態では、外部資源にはWikipedia(登録商標)(カルフォニア州サンフランシスコ市のWikimedia Foundation Inc.社の登録商標)やオンライン辞書等のウェブ資源が含まれる。一実施形態では、外部資源にエンティティ・データベースもまた含めることができる。標準的なウェブ検索あるいはデータベース検索方法は、随意選択的な検索および比較装置112により行なうことができる。随意選択的な検索および比較装置112の出力は、抽出用に検討する幾つかのエンティティ候補となる。
続いて、エンティティ候補はIDF算出器114へ送られ、これがそのIDF値を算出する。エンティティ候補eのIDF値は、下記の如く定義される。すなわち、
Figure 2011227890

であり、ここで|T|は文書(あるいは電子メールメッセージ)の総数、|Te|はエンティティ候補eが観察された場合の文書(あるいは電子メールメッセージ)の数である。IDF値は、エンティティ候補の有意性の計測に用いることができる。低IDF値はしばしば、エンティティ候補がコーパス全体で広範に使用されていて、定型常用文か統計的異常値かあるいは誤検出である可能性があることを示す。対照的に、高IDF値はこの種のエンティティ候補が真に有意味かまたは有意の意味論的エンティティであって文書から抽出するのに相応しいことを示す。一実施形態では、所定範囲の値に含まれるIDF値を有するエンティティ候補は抽出するのに対し、この範囲外のIDF値を有するエンティティ候補は無視する。さらなる実施形態では、ユーザが抽出エンティティに関する自らの知識に基づき抽出範囲と対応する閾値とを調整できるようにする。
図2は、本発明の一実施形態によるエンティティ抽出工程を示すフローチャートを表わす。処理期間中に、システムは定義済みコーパスから全ての文書を受け取る(処理202)。一実施形態では、定義済みコーパスはユーザの電子メールフォルダからの全ての文書を含む。システムは、続いて文書内の意味論的エンティティを識別する(処理204)。一実施形態では、システムは意味論的エンティティの検出に幾つかのFSMを使用する。システムは、そこで検出された意味論的エンティティを外部資源内の既知のエンティティと比較すべく1以上の外部資源を随意選択的に検索することができる(処理206)。肯定的な検索結果を有する意味論的エンティティは、エンティティ候補とみなされる。その後、システムはエンティティ候補のIDF値を算出する(処理208)。所定範囲内のIDF値を有するエンティティ候補が、有意味な意味論的エンティティとして抽出される(処理210)。
有意なエンティティとみなされた抽出された意味論的エンティティは、続いてメッセージ間の類似度算出に用いることができる。メッセージの類似度算出に加え、このシステムは抽出されたエンティティ間の類似度を算出することもできる。2人の人物の名前等の2つのエンティティは互いに高度に関連付けることができ、かくして高い類似度値を有する。例えば、タスク幹事は自らのタスク要員の名前が高い類似度を共有することを見いだすことができる。あるいは、生産管理者は2つの関連製品の名前が高い類似度を共有することを見いだすことができる。エンティティ類似度が算出可能であることで、類似のあるいは関連するエンティティを識別し、かくしてユーザによる受信電子メールメッセージの文脈の理解を容易にすることができる。
エンティティ間類似度は、メッセージの文章や段落等のメッセージあるいは下位部分内のエンティティの出現率および共起率から導出される。エンティティの文章準拠出現率はエンティティが出現する文章の数として定義され、2つのエンティティの文章準拠共起率は2つのエンティティが共起する文章の数として定義される。同様に、エンティティの段落準拠出現率はエンティティが出現する段落の数として定義され、2つのエンティティの段落準拠共起率は2つのエンティティが共起する段落の数として定義される。エンティティの出現率と共起率はコーパス全体にわたって計数されることに、留意されたい。一実施形態では、コーパスは電子メールの会話全体を含む。一実施形態では、コーパスはユーザの電子メールフォルダ内の全ての電子メールメッセージを含む。
文章もしくは段落準拠出現率および共起率に加え、エンティティ間類似度もエンティティのIDF値に依存する。一実施形態では、エンティティIDF値を個別エンティティの加重値により修正する。異なるグループに属するエンティティには、異なる加重値が割り当てられる。例えば、人名グループに属するエンティティには所番地グループに属するエンティティとは異なる加重値が割り当てられる。異なるエンティティグループとコーパスの文脈の重要度に基づき、加重値はしかるべく調整することができる。例えば、人事部の従業員にとって、人名は技術用語よりも大きな加重値を抱えているのに対し、エンジニアにとってはその逆が当てはまる。一実施形態では、エンティティの加重値はユーザ設定が可能である。
aに対するエンティティbの文章準拠類似度は,下式により算出される。すなわち、
Figure 2011227890
(1)
であり、ここでidfとidfはそれぞれエンティティaとbのIDF値であり、wとwはそれぞれエンティティaとbの加重関数である。cosentence(a,b)はエンティティaとbの文章準拠共起率を表わし、occsentence(a)はエンティティaの文章準拠出現率である。一実施形態では、エンティティIDF値を会話全体に対し算出する。さらなる実施形態では、エンティティIDF値を全ての電子メールメッセージについて算出する。エンティティ間類似度には方向性があり、すなわちbに対するaの類似度はaに対するbの類似度とは異なることに留意されたい。
aに対するエンティティbの段落準拠類似度は,下式により算出される。すなわち、
Figure 2011227890
(2)
であり、ここでidfとidfはそれぞれエンティティaとbのIDF値であり、wとwはそれぞれエンティティaとbの加重関数である。coparagraph(a,b)は、エンティティaとbの段落準拠共起率を表わし、occparagraph(a)はエンティティaの段落準拠出現率である。
一実施形態では、システムは文章と段落の両方でエンティティの共起率を考慮する。そうするため、システムは合成されたエンティティ間類似度を演繹すべく、文章準拠類似度と段落準拠類似度とを合成することができる。合成されたエンティティ間類似度は、下式にて算出することができる。すなわち、
Figure 2011227890
(3)
であり、ここでαsentenceは段落準拠類似度と比較した文章準拠類似度の加重値を特定し、0から1の間の値を割り当てられる。エンティティの文章準拠共起率はしばしば段落準拠共起率を上回る重要な役割を果たすため、αsentenceはしばしば1に近い値を割り当てられる。一実施形態では、αsentenceの値はユーザ設定が可能である。
ユーザにとって、全てのメッセージが等しく重要であるとは限らない。これ故、エンティティ間類似度を算出する際に、メッセージの重要度のレベルを考慮しなければならない。換言すれば、異なる電子メールメッセージは異なる加重値を有しており、エンティティの出現率または共起率を算出する際に、システムはメッセージ加重値に基づき出現数を修正する。例えば、より重要な電子メール中のエンティティの出現率は、より重要度の劣る電子メール中のその出現率よりも多くエンティティの総出現率に貢献する。
幾つかの要因が、メッセージ加重値に影響を及ぼすことがある。これらの要因には、これらに限定はされないが、メッセージ種や送信者と受信者に関連する情報やタイミング情報やエンティティ密度が含まれる。メッセージ種は、メッセージが情報/行動の要求、喫緊の状態、予定作成要求、リマインダ、または社会的メッセージかどうかを示すものである。異なる種別のメッセージは、ユーザに対し異なる重要度を呈する。例えば、職場環境では、社会的メッセージは会合を日程調整するメッセージよりも重要度が劣るようである。電子メールの重要度は、電子メールの受信者の数と逆相関処理することもできる。換言すれば、膨大な数の受信者を有する電子メールは重要度が乏しい。
電子メールの送信者と受信者に関連する他の情報は、ユーザにとっての重要度を測るのに用いることもできる。例えば、システムはユーザとしかるべき送信者との間でどの程度頻繁に電子メールがやり取りされたか、そのやり取りの差引件数を特定することができる。そうすることで、システムはメール送信リストの電子メール送信者を識別し、この種の情報を用いてこの種の送信者が送信したメッセージの重要度を適合あるいは低減することができる。加えて、システムは電子メールメッセージ内の「宛先」欄を検査し、ユーザがメッセージの直接の受信者であるかどうかを判別することができる。そうである場合、そのメッセージにより大きな加重値を与えることができる。このシステムは、あるメッセージが、ユーザが送信したメッセージの一つに直接応答するものであるかどうかを判定することもできる。そうである場合、メッセージにはより大きな加重値が与えられる。
電子メールの経過時間もまた、その重要性の判定に役割を果たす。一般に、より時間の経過した電子メール(ずっと前に送信され受信された電子メール)は、ユーザにとって重要度が少ないものである。さらに、電子メール内の抽出されたエンティティの数あるいはエンティティ密度は、その重要度を測るのに用いることもできる。この種のエンティティ密度は、しばしばメッセージの情報コンテンツと密度とに対応する。これ故、より多数の抽出エンティティを含むより情報性のあるメッセージをユーザにとってより重要なものと見なすことができる。
メッセージ加重値に影響を及ぼすこれらの異なる要因は、規則準拠手法(送信者と受信者に関連する情報を重要度測定に用いるとき)または直接マッピング関数(受信者の数をメッセージ加重値の算出に用いるとき)を用いるかのいずれかにより、0.0と1.0の間の値にマッピングされる。最終的なメッセージ加重値は、個別要因値の加重和となる。メッセージjについては、メッセージの総加重値は下式で与えられ、
Figure 2011227890

となり、ここでwijはメッセージjに関する要因iの値を表わし、αは要因iの加重値を表わす。
Figure 2011227890

であることに、留意されたい。
エンティティ間類似度算出用にメッセージ加重値を考慮する場合、メッセージ加重値は文章と段落とに影響を及ぼす。これ故、文章加重値sは、下式の如く算出され、
Figure 2011227890

となり、ここでmはメッセージmを指し、wtotal,mはメッセージmの総加重値である。同様に、段落加重値pは、下式の如く算出され、
Figure 2011227890

となる。
その結果、エンティティaの文章準拠出現率とエンティティaとbの共起率は、下式の如く算出される。すなわち、それぞれ
Figure 2011227890

と、
Figure 2011227890

である。同様に、エンティティaの段落準拠出現率とエンティティaとbの共起率は、下式の如く算出される。すなわち、それぞれ
Figure 2011227890

と、
Figure 2011227890

である。
エンティティ間類似度は、特定のグループに属するエンティティについてさらに向上させることができる。より具体的には、人物エンティティ(人名等)は電子メールの受信者と送信者に一致させることができる。例えば、2つの人名が電子メール受信者リスト内にしばしば併せ見受けられる場合、これら2つの人名は高い類似度を有する可能性が非常に高いとされる。同様に、2つの人名がしばしば電子メール会話に併せ参加(送信者と受信者のいずれかとして)しているよう見受けられるとシステムが判定できる場合、システムはこれら2つの人名が高い類似度を有すると判定することができる。
電子メール参加者準拠類似度の算出は、エンティティの出現率と共起率がここでは電子メールメッセージの送信者/受信者リスト内のそれらの出現率に基づくものとなる点を除き、文章準拠類似度の算出と同様である。電子メール参加者準拠類似度と、文章準拠類似度と段落準拠類似度とを合成する既に算出済みの類似度を合わせ融合し、人物エンティティに関する最終的な類似度算出値を得る。人物エンティティ間の最終的な類似度は、下式の如く算出される。すなわち、
Figure 2011227890
(4)
となり、ここでsimemail−participantsは電子メール参加者の出現率/共起率に基づくエンティティ間類似度を表わし、αemail−participantsは合成(文章準拠と段落準拠)類似度と対比した電子メール参加者準拠類似度の加重値を特定するものであり、αemail−participantsは0と1の間の値を割り当てられる。一実施形態では、本システムは電子メール参加者準拠類似度に対しより多くの加重値を与え、αemail−participantsには0.6を上回る値が与えられる。電子メール参加者準拠類似度を算出する際に、個別電子メールメッセージの加重値も考慮できることに留意されたい。
図3は、本発明の一実施形態によるエンティティ間類似度を推定する例示システムを示す線図を表わす。エンティティ間類似度推定システム300は、受け取り装置302と、エンティティ抽出装置304と、文書分解装置306と、文章準拠類似度算出器308と、段落準拠類似度算出器310と、電子メール参加者準拠類似度算出器312と、類似度合成器314とを含む。
処理期間中、受け取り装置302はコーパスから幾つかの文書を受信し、それらはユーザの電子メールフォルダのコンテンツであることがあり、文書は電子メールメッセージである。受け取った文書は、有意味な意味論的エンティティを抽出するエンティティ抽出装置304へ送られる。エンティティ抽出装置304の詳細な構造が、図1に示される。抽出されたエンティティのIDF値がエンティティ抽出工程期間中に算出されていることに、留意されたい。
文書分解装置306が、受け取った文書を文章や段落等の下位部分に分解する。受け取った文書が電子メールメッセージである場合、文書下位部分は送信者/受信者リストを含む。文章準拠類似度算出器308は、文章内のエンティティの共起率に基づき文章準拠エンティティ間類似度を算出する。同様に、段落準拠類似度算出器310は段落内のエンティティの共起率に基づき段落準拠エンティティ間類似度を算出する。受け取った文書が電子メールメッセージであり、検討対象エンティティが人名等の人物エンティティである場合、これら人名もまた電子メール参加者準拠類似度算出器312へ送られ、電子メール参加者準拠類似度を算出する。全ての類似度算出器308〜312の出力はそこで類似度合成器314へ送られ、最終的な類似度を算出する。一実施形態では、異なる加重関数はそれらが合成される前に異種の類似度に割り当てられる。
図4は、本発明の実施形態によるエンティティ間類似度の推定方法を示すフローチャートを表わす。処理期間中、システムはコーパス内の文書からユーザの電子メール等の有意味な意味論的エンティティを抽出(処理402)し、それが属するグループに基づき各エンティティのIDF値に対し加重値を適用する(処理404)。一実施形態では、予想されるグループには、これらに限定はされないが、人名、会社名、日時、所番地、工業専門用語、電子メールアドレス、ユニフォーム・リソース・ロケーター(URL)および電話番号が含まれる。エンティティ抽出工程は、図2に示したものと同様である。
システムはそこで、所与のエンティティと異なるエンティティとを選択する(処理406)。続くエンティティ間類似度計算が所与のエンティティに向けた異なるエンティティの類似度を算出することに、留意されたい。システムは、文書を文章と段落とに分解する(処理408)。続いて、システムは所与のエンティティが出現する文章の数を計数(処理410)し、所与のエンティティと他のエンティティとが併せ出現する文章の数を計数(処理412)し、文章準拠類似度を算出(処理414)する。加えて、システムは所与のエンティティが出現する段落の数を計数(処理416)し、所与のエンティティと他のエンティティとが併せ出現する段落の数を計数(処理418)し、段落準拠類似度を算出(処理420)する。
このシステムは、そこで両エンティティが人物エンティティであるかどうか判定する(処理422)。そうである場合、このシステムはさらに電子メール参加者準拠類似度を算出する(処理424)。一実施形態では、全ての類似度計算が文書/メッセージの加重値を考慮する。その後、本システムは、それらの個々の加重値に基づき全ての算出された類似度を合成し、合成エンティティ間類似度を算出する(処理426)。
図5は、本発明の一実施形態によるエンティティ類似度推定用の例示コンピュータを示す。一実施形態では、コンピュータおよび通信システム500はプロセッサ502とメモリ504と記憶装置506とを含む。記憶装置506は、エンティティ類似度推定アプリケーション508と、これに加えアプリケーション510や512等の他のアプリケーションも記憶する。処理期間中、エンティティ類似度推定アプリケーション508は記憶装置506からメモリ504内へロードされ、続いてプロセッサ502により実行される。プログラムの実行中、プロセッサ502は前述の機能を遂行する。コンピュータおよび通信システム500は、随意選択的なディスプレイ514とキーボード516とポインティングデバイス518とに結合される。

Claims (4)

  1. 意味論的エンティティ間の類似度レベルを推定するためのコンピュータで実行可能な方法であって、
    幾つかの文書に関連する2以上の意味論的エンティティを選択する工程と、
    文書を下位部分に分解する工程と、
    文書の下位部分内の意味論的エンティティの出現率に基づき、意味論的エンティティ間の類似度レベルを算出する工程とを含む、方法。
  2. 文書の下位部分は、個別文章および/または個別段落を含む、請求項1に記載の方法。
  3. 類似度レベルの算出工程は、意味論的エンティティの文章準拠および/または段落準拠の共起頻度の特定を含む、請求項2に記載の方法。
  4. 意味論的エンティティの文章準拠共起頻度は意味論的エンティティがその中で共起する文章の総数に基づき算出し、意味論的エンティティの段落準拠共起頻度は意味論的エンティティがその中で共起する段落の総数に基づき算出する、請求項3に記載の方法。
JP2011081761A 2010-04-15 2011-04-01 エンティティ類似度の算出方法 Expired - Fee Related JP5775348B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/760,949 US8762375B2 (en) 2010-04-15 2010-04-15 Method for calculating entity similarities
US12/760,949 2010-04-15

Publications (2)

Publication Number Publication Date
JP2011227890A true JP2011227890A (ja) 2011-11-10
JP5775348B2 JP5775348B2 (ja) 2015-09-09

Family

ID=44202053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011081761A Expired - Fee Related JP5775348B2 (ja) 2010-04-15 2011-04-01 エンティティ類似度の算出方法

Country Status (4)

Country Link
US (1) US8762375B2 (ja)
EP (1) EP2378476A1 (ja)
JP (1) JP5775348B2 (ja)
KR (1) KR101716905B1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489350B2 (en) * 2010-04-30 2016-11-08 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
US8880530B2 (en) * 2011-04-18 2014-11-04 Palo Alto Research Center Incorporated Method for searching related documents based on and guided by meaningful entities
US9135291B2 (en) * 2011-12-14 2015-09-15 Megathread, Ltd. System and method for determining similarities between online entities
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US9424233B2 (en) * 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
US9317565B2 (en) * 2013-12-02 2016-04-19 Qbase, LLC Alerting system based on newly disambiguated features
US9336280B2 (en) 2013-12-02 2016-05-10 Qbase, LLC Method for entity-driven alerts based on disambiguated features
EP3215944B1 (en) 2014-11-03 2021-07-07 Vectra AI, Inc. A system for implementing threat detection using daily network traffic community outliers
EP3215943B1 (en) 2014-11-03 2021-04-21 Vectra AI, Inc. A system for implementing threat detection using threat and risk assessment of asset-actor interactions
US10608972B1 (en) 2016-08-23 2020-03-31 Microsoft Technology Licensing, Llc Messaging service integration with deduplicator
JP2018132841A (ja) * 2017-02-13 2018-08-23 富士通株式会社 プログラム、情報処理装置および情報処理装置の制御方法
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US11163960B2 (en) * 2019-04-18 2021-11-02 International Business Machines Corporation Automatic semantic analysis and comparison of chatbot capabilities
US11165730B2 (en) * 2019-08-05 2021-11-02 ManyCore Corporation Message deliverability monitoring
CN113535967B (zh) * 2020-04-17 2022-02-22 复旦大学 中文通用概念图谱纠错装置
CN115329742B (zh) * 2022-10-13 2023-02-03 深圳市大数据研究院 基于文本分析的科研项目产出评价验收方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110513A (ja) * 2007-10-05 2009-05-21 Fujitsu Ltd ワードの類似性を用いたオントロジーの自動生成

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6820075B2 (en) 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
AU2003207856A1 (en) * 2002-02-04 2003-09-02 Cataphora, Inc A method and apparatus to visually present discussions for data mining purposes
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US8290962B1 (en) * 2005-09-28 2012-10-16 Google Inc. Determining the relationship between source code bases
US7765212B2 (en) 2005-12-29 2010-07-27 Microsoft Corporation Automatic organization of documents through email clustering
JP2010539589A (ja) * 2007-09-12 2010-12-16 レピュテーションディフェンダー, インコーポレーテッド 電子的情報源からの特定のエンティティに関連する情報の特定
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US7693940B2 (en) 2007-10-23 2010-04-06 International Business Machines Corporation Method and system for conversation detection in email systems
US8392443B1 (en) * 2009-03-17 2013-03-05 Google Inc. Refining search queries
US20110060796A1 (en) * 2009-09-04 2011-03-10 International Business Machines Corporation E-mail address verification system
US8645125B2 (en) * 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110513A (ja) * 2007-10-05 2009-05-21 Fujitsu Ltd ワードの類似性を用いたオントロジーの自動生成

Also Published As

Publication number Publication date
KR20110115543A (ko) 2011-10-21
US8762375B2 (en) 2014-06-24
EP2378476A1 (en) 2011-10-19
KR101716905B1 (ko) 2017-03-15
JP5775348B2 (ja) 2015-09-09
US20110258193A1 (en) 2011-10-20

Similar Documents

Publication Publication Date Title
JP5775348B2 (ja) エンティティ類似度の算出方法
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
EP1397768B1 (en) Method and apparatus for filtering email
JP4742618B2 (ja) 情報処理システム、プログラム及び情報処理方法
US10516638B2 (en) Techniques to select and prioritize application of junk email filtering rules
US9402576B2 (en) Electronic communication warning and modification
CN103473218A (zh) 一种电子邮件分类方法及其装置
CN104182549A (zh) 一种电子邮件摘要生成方法及装置
CN109614464B (zh) 用于业务问题识别的方法及装置
Bogawar et al. Email mining: a review
CN112559672A (zh) 信息检测方法、电子设备及计算机存储介质
US20170329763A1 (en) System and method for detecting meaningless lexical units in a text of a message
Liubchenko et al. Research Application of the Spam Filtering and Spammer Detection Algorithms on Social Media.
US10216393B2 (en) Efficiently sharing user selected information with a set of determined recipients
RU2583713C2 (ru) Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
US20120110094A1 (en) Electronic messaging systems supporting provision of entire forwarding history regarding the sending, receiving, and time zone information, of an email after the email is forwarded by a number of users
Sagar et al. An Effective Spam Classification Filter As A Web Application Using Naïve Bayes Classifier
TWI287720B (en) Junk mail filtering systems and methods based on abnormal features in e-mails
Gentile et al. Does Size Matter? When Small is Good Enough.
JP4334210B2 (ja) メッセージ提供システム
WO2023017308A1 (en) System and method for preventing cyberbullying
JP2022187856A (ja) 管理サーバー、情報処理装置、情報処理プログラム、及び情報処理方法
Dredze et al. Feature design for transfer learning
CN109840320A (zh) 文本的定制化处理
Sun et al. A clustering based fast detection algorithm for large scale duplicate emails

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150703

R150 Certificate of patent or registration of utility model

Ref document number: 5775348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees