JP2011227889A - 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 - Google Patents

拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 Download PDF

Info

Publication number
JP2011227889A
JP2011227889A JP2011081760A JP2011081760A JP2011227889A JP 2011227889 A JP2011227889 A JP 2011227889A JP 2011081760 A JP2011081760 A JP 2011081760A JP 2011081760 A JP2011081760 A JP 2011081760A JP 2011227889 A JP2011227889 A JP 2011227889A
Authority
JP
Japan
Prior art keywords
similarity
documents
message
entity
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011081760A
Other languages
English (en)
Other versions
JP5759228B2 (ja
Inventor
Brdiczka Oliver
オリヴァー・ブルディクスカ
Isaev Petro
ペトロ・イザレフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2011227889A publication Critical patent/JP2011227889A/ja
Application granted granted Critical
Publication of JP5759228B2 publication Critical patent/JP5759228B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】メッセージ及び会話の分析において、文書間の類似性レベルを推定するためのシステムを提供する。
【解決手段】幾つかの文書を受信し、これらの文書から幾つかの意味的エンティティを抽出し、抽出された意味的エンティティを基礎として文書間の類似性レベルを計算し、かつ計算された類似性レベルを基礎として類似文書を示す結果を生成する。
【選択図】図3

Description

本開示は概して、メッセージ及び会話の分析に関する。より具体的には、本開示はメッセージ及び会話間の意味的類似性を計算することに関する。
本発明の一実施形態は、文書間の類似性レベルを推定するためのシステムを提供する。動作の間、本システムは幾つかの文書を受信し、これらの文書から幾つかの意味的エンティティを抽出し、抽出された意味的エンティティを基礎として文書間の類似性レベルを計算し、かつ計算された類似性レベルを基礎として類似文書を示す結果を生成する。
この実施形態の一変形例において、意味的エンティティを抽出することは、幾つかの予め規定されたグループのうちの少なくとも1つに属する1つのワード及び/またはワードシーケンスを認識するように構成される幾つかの有限状態マシンを適用することと、少なくとも1つの外部リソースを検索しかつ比較して、認識されたワード及び/またはワードシーケンスが外部リソース内部のエントリに一致するかどうかを決定することと、一致の発見に応答してそのワード及び/またはワードシーケンスを意味的エンティティとして抽出することを含む。
さらなる変形例において、意味的エンティティを抽出することは、意味的エンティティの逆文書頻度(IDF)値を計算することと、このIDF値が既定値の範囲内であるかどうかを決定することと、IDF値がこの範囲内であるということに応答して意味的エンティティを抽出することを含む。
さらなる変形例において、予め規定されたグループは、人名、企業名、業界固有用語、日時、住所、メールアドレス、ユニフォームリソースロケータ(URL)及び電話番号のうちの少なくとも1つを含む。
この実施形態の一変形例において、類似性レベルを計算することは、抽出された意味的エンティティの重み付けされたIDF値を基礎として幾つかの類似度を計算することを含む。
さらなる変形例において、本システムは、抽出された意味的エンティティが属する予め規定されたグループを基礎として、抽出された意味的エンティティのIDF値の重みを割り当てる。
さらなる変形例において、類似度は、文書の共通部分に含まれる意味的エンティティの重み付けされたIDF値の合計の、個々の文書に含まれる重み付けされたIDF値の合計に対する割合を基礎とする類似度、文書の共通部分に含まれる意味的エンティティの重み付けされたIDF値の合計の、これらの文書の和集合に含まれる重み付けされたIDF値の合計に対する割合を基礎とする類似度及びコサイン類似度のうちの少なくとも1つを含む。
この実施形態の一変形例において、本システムはさらに、文書を選択し、選択された文書に対する他の文書の類似性レベルを計算し、かつ選択された文書に対する他の文書の計算された類似性を基礎として他の文書を順番に表示する。
この実施形態の一変形例において、文書は電子メールメッセージ及び/または電子メールによる会話を含む。
さらなる変形例において、類似性レベルを計算することはさらに、電子メールメッセージの送信者及び/または受信者を基礎として類似性を計算することを含む。
さらなる変形例において、類似性レベルを計算することはさらに、電子メールメッセージの送信及び/または受信時間を基礎として類似性を計算することを含む。
この実施形態の一変形例において、類似性レベルを計算することは、文書の重みを決定することを含む。
図1は、本発明の一実施形態によるエンティティ抽出システムを示す図である。 図2は、本発明の一実施形態によるエンティティ抽出のプロセスを示すフローチャートである。 図3は、本発明の一実施形態による、所定の文書に対する類似性レベルを基礎として文書を順番に配置するプロセスを示すフローチャートである。 図4は、本発明の一実施形態による、類似性を基礎として文書を編成するためのシステムの構成を示す図である。 図5は、本発明の一実施形態による、文書の類似性を推定するための例示的なコンピュータシステムを示す。
諸図を通じて、類似の参照数字は同じ図要素を指す。
本発明の実施形態は、文書間の類似性を識別するためのシステムを提供する。動作の間、本システムは、文書コレクションから意味的エンティティを抽出し、かつその逆文書頻度(IDF)値を基礎として、抽出された意味的エンティティが重要なエンティティであるかどうかを決定する。本システムは、エンティティの発生及び共起性及びその重みを基礎とする様々な基準を使用して文書間の類似性を計算する。また、文書間の最終的類似性の決定に際しては、送信者及び受信者を基礎とする類似性を含む他の基準も使用される。
電子メールユーザによるその保存された電子メールメッセージの効率的編成を手助けするために、またはユーザにメッセージをより良いローカルコンテキストを有する方法で提示するために、電子メールをそれが属する会話を基礎としてグルーピングすることを含む様々なソリューションが実装されてきた。電子メールによる会話は、電子メールユーザが実際に会話しているのと同様に互いに往復式に通信する際に確立される。ほとんどの場合、ユーザは、関連の話題を論じる際に互いの電子メールに対して実際に会話しているかのように応える。しかしながら、特に1つの関連事項に関して幾つかの異なる会話が行われている場合には、会話ベースのグルーピングでは不十分である可能性がある。例えば、タスクオーガナイザは、異なるタスクメンバと異なるタスクに関する会話を行なうことがある。これらの会話、またはこれらの会話内の電子メールは類似する話題を共有することが多く、または同じタスクに関連し、よってこれらを纏めてグルーピングして表示することが望ましい。
これらの会話及びメッセージは関連していることから、類似するワードまたはワードコンビネーションを共有することが多い。例えば、各地の気象について論じる会話は全て、雨、雪または風といったワードを含む場合がある。故に、テキストを比較すれば、2つのメッセージ間の類似性を推定することができる。
文書間類似性の従来的な計算は、典型的には、ワードの発生を計数しかつ比較することによる関連文書のテキストのマッチングに依存する。しかしながら、このようなアプローチは不十分である可能性があり、かつ間違った結果を発生する場合がある。例えば、ボイラープレートテキストを含む電子メールでは、2つのメッセージ間のボイラープレートの共起性は高い場合があるのに対して、2つのメッセージ間の類似性は事実上低い場合がある。このような問題を克服するために、本発明の一実施形態では、システムは、各ワードの発生を計数する代わりに、「エンティティ」として定義される意味のあるワードの発生数を比較することに依存してメッセージまたは会話間の類似性を導出する。
図1は、本発明の一実施形態によるエンティティ抽出システムを示す図である。エンティティ抽出システム100は、受信機構102と、幾つかの有限状態マシン(FSM)106−110と、任意選択である検索比較機構112と、IDF計算器114とを含む。
動作の間、受信機構102は、エンティティ抽出用の入力文書104を受信する。入力文書104は、テキスト、シンボル、図及び/またはこれらの任意の組合せを含む任意タイプの文書であることが可能である。また入力文書104は、プレーンテキスト、Microsoft(登録商標)のWord(ワシントン州レドモンド所在のマイクロソフト社の登録商標)、ハイパーテキストマークアップ言語(HTML)、ポータブルドキュメントフォーマット(PDF)、他等の任意タイプのファイルフォーマットであることも可能である。ある実施形態では、入力文書104は電子メールメッセージを含む。また入力文書104は、コーパスに含まれる全文書を含む可能性もある。例えば、入力文書104は、ユーザの電子メールフォルダ内の全メッセージを含むことが可能である。
受信された文書のテキストは、次に、FSM106−110を含む幾つかのFSMへ送られる。これらのFSMは、予め規定された異なるグループに属する意味的エンティティを認識するように異なって設計されている。意味的エンティティは、特有の意味を有するワード、ワードコンビネーションまたはシーケンスであることが可能である。ワードまたはワードシーケンスは、これが人名、企業名、日時、住所、業界固有用語、メールアドレス、ユニフォームリソースロケータ(URL)及び電話番号等の特有のワードグループに属していれば、意味的エンティティであることが可能である。FSM106−110は、受信された文書のテキストにおけるこれらの特有のグループのワードを文章及びワード構成を考慮しながら認識することができる。標準的な注釈及び構文解析技術は、意味的エンティティを認識するために使用されることが可能である。ある実施形態では、FSM106−110は、上述のワードグループに属する意味的エンティティを認識するように構成される。さらに、意味的エンティティが特定のグループの何れにも属さない、または何れのディクショナリでも発見され得ない場合、FSM106−110は、このような新たなエンティティをその大文字表記の慣例またはこの新たなエンティティを識別する他の基準を基礎として認識するように構成されることも可能である。ある実施形態では、この追加的な意味的エンティティ抽出機能は、追加的な抽出モジュール111によって実行されることが可能である。受信された文書におけるワードまたはワードシーケンスが、常態または全発生数の高率での何れであっても一貫して大文字表記されていれば、これは意味的エンティティとして認識されることが可能である。例えば、ユーザが定義する頭字語は、特定された何れのグループにも属さないことが多く、またはどのディクショナリでも発見され得ないが、意味のある意味的エンティティである。
英語に加えて、FSM106−110は、他の言語の意味的エンティティを認識するように構成されることも可能である。より良い抽出結果を達成するために、ユーザは、言語タイプまたはコンテンツタイプを含む受信された文書のタイプを基礎としてFSM106−110を構成することができる。図1では、FSM106−110はテキストがこれらのFSMによって同時に処理される並列式に実装されているが、FSM106−110を直列に実装することも可能である点に留意されたい。受信された文書において意味的エンティティを認識するためには、FSMの適用に加えて、マシン学習等の他の技術も可能である。
意味のないワードがFSM106−110により意味的エンティティとして間違って認識されることを回避するために、受信された文書のテキストから識別される所定のタイプのエンティティは任意選択の検索比較機構112へ送られて検索され、かつ外部リソースと比較される。検索及び比較動作は全てのエンティティタイプに適用されるわけではないことから、このオペレーションは任意選択であることに留意されたい。ある実施形態では、外部リソースはWikipedia(登録商標)(カリフォルニア州サンフランシスコ所在のウィキメディア財団の登録商標)等のウェブリソース及びオンライン辞書を含む。ある実施形態では、外部リソースはエンティティデータベースを含むことも可能である。標準的なウェブ検索またはデータベース検索方法は、任意選択の検索比較機構112によって実行されることが可能である。任意選択の検索比較機構112の出力は、抽出用に考慮されるべき幾つかのエンティティ候補である。
続いて、エンティティ候補はIDF計算器114へ送られ、IDF計算器114はこれらのIDF値を計算する。エンティティ候補eのIDF値は、
Figure 2011227889
として定義される。但し、│T│は文書(または電子メールメッセージ)の総数であり、│T│はエンティティ候補eが観測されている文書(または電子メールメッセージ)の数である。IDF値は、エンティティ候補の重大さを測定するために使用されることが可能である。低いIDF値は、そのエンティティ候補がコーパスで広く使用されていることを示す場合が多く、よってボイラープレート、統計的異常値または検出違いである可能性が高い。これに対して、高いIDF値は、このようなエンティティ候補が真に意味のあるもの、または重大な意味的エンティティであって、文書から抽出されるに値することを示す。ある実施形態では、予め決められた値の範囲内にあるIDF値を有するエンティティ候補は抽出されるのに対して、この範囲外のIDF値を有するエンティティ候補は無視される。さらなる実施形態では、ユーザは、抽出されるエンティティに関するその知識を基礎としてこの抽出範囲及び対応するしきい値を調整することを許容される。
図2は、本発明の一実施形態によるエンティティ抽出のプロセスを示すフローチャートである。動作の間、システムは、予め規定されたコーパスから全文書を受信する(オペレーション202)。ある実施形態では、予め規定されるコーパスはユーザの電子メールフォルダからの全文書を含む。システムは次に、これらの文書内の意味的エンティティを認識する(オペレーション204)。ある実施形態では、システムは幾つかのFSMを用いて意味的エンティティを検出する。システムは次に、検出された意味的エンティティを外部リソースにおける既知のエンティティと比較するために、任意選択として1つまたは複数の外部リソースを検索することができる(オペレーション206)。ポジティブサーチ結果を有する意味的エンティティは、エンティティ候補とされる。続いて、システムはエンティティ候補のIDF値を計算する(オペレーション208)。予め決められた範囲内のIDF値を有するエンティティ候補は、意味のある意味的エンティティとして抽出される(オペレーション210)。
重大なエンティティとされる抽出された意味的エンティティは、次に、メッセージ間の類似性計算に使用されることが可能である。2つの文書が多数の重複する重大なエンティティを有していれば、システムは、これらの2文書が類似し、よって高値の類似性を有するという高い尤度を有すると決定することができる。文書内の重大なエンティティの発生を計数することに加えて、本発明の実施形態は、文書/メッセージの類似性の計算に際してエンティティの発生学的な重みも考慮する。異なるグループに属するエンティティは、異なる重みを割り当てられる。例えば、人名グループに属するエンティティは、住所グループに属するエンティティとは異なる重みを割り当てられる。異なるエンティティグループ及びコーパスのコンテキストの重要性に依存して、重みは適宜調整されることが可能である。例えば、人事担当職員の場合、人名の重みは技術用語より多いのに対して、技術者の場合は逆である可能性がある。ある実施形態では、エンティティの重みはユーザによって構成可能である。
メッセージ間の類似性の決定に関しては、幾つかの異なる尺度を計算することができる。第1の尺度は、2つのメッセージ間で重複するエンティティの、各メッセージにおけるエンティティの合計に対する割合を計算する。メッセージA及びB間の第1の類似度は、
Figure 2011227889
) (1)
として計算することができる。但し、idfはエンティティeのIDF値であり、weはその重みである。上式の分子は、双方の文書に出現するエンティティのIDF値の加重和を含み、分母は、別々の各文書内のエンティティのIDF値の加重和を含む。
第2の尺度は第1の尺度に類似しているが、各文書内の重み付けされたIDF値を別々に合計する代わりに、第2の尺度の分母は2文書の和集合におけるエンティティの重み付けされたIDF値を合計する点が異なる。メッセージA及びB間の第2の類似度は、
Figure 2011227889
(2)
として計算することができる。
類似性の第3の尺度は標準的なコサイン尺度であり、この場合、重み付けされたIDF値の二乗が合計される。第3の(またはコサイン)類似度は、
Figure 2011227889
(3)
として計算することができる。
重大なエンティティの発生を基礎とする上述の3つの尺度に加えて、本システムは、電子メールメッセージの送信者及び受信者及び電子メールメッセージが送信または受信される時間等の他の情報も考慮する。ある実施形態では、電子メールメッセージの受信者と送信者との間の類似性は、より細かく細分された類似値を提供するために上述の3つの尺度を用いて計算される。このようなより細かく細分された類似性測定値は、類似性レベルを基礎として電子メールを編成する際に有益である可能性がある。例えば、電子メールユーザは、その保存された電子メールメッセージを、所定の電子メールメッセージAに対する他の電子メールの類似性レベルを基礎として編成することを望む場合がある。そうするために、システムはまず、他の全電子メールの電子メールAに対するエンティティ発生ベースの類似性レベルを計算し、次いでこの類似性レベルを基礎としてこれらの電子メールを順番に表示する。電子メールAに対して最も高い類似性レベルを有する電子メールメッセージは、最も関連のあるものとして先頭に表示される場合が多い。しかしながら、2つの電子メールB及びCのエンティティ発生ベースの類似性レベルが互いに近ければ(差が予め決められたしきい値より少ない)、システムはさらに、メッセージB及びCのメッセージAに対する送信者−受信者ベースの類似性レベルを計算する必要がある。メッセージBがメッセージAに対するより高いレベルの送信者−受信者ベースの類似性を有していれば、システムは、メッセージCよりもメッセージBの方がメッセージAとの関連性が高いと決定し、かつ類似性の最終的な順序づけリストにおいてメッセージBをより高位に置くことができる。
同様に、電子メールメッセージの送信及び受信時間は、より細かく細分された類似性をも提供するために用いられることが可能である。ある実施形態では、新たに発生されたメッセージ(即ち、このメッセージが送信または受信されてからの経過時間は比較的短い)は、他のより古いメッセージよりも高い時間ベースの類似性レベルを有する。先の例において、メッセージB及びCのメッセージAに対する送信者−受信者ベースの類似性レベルも互いに近ければ(しきい値より少ない)、システムは次に時間ベースの類似性を計算する。メッセージBがメッセージCよりも新しく受信されたメッセージであれば、システムは、メッセージCよりもメッセージBの方がメッセージAとの関連性が高いと決定し、かつ類似性の最終的な順序づけリストにおいてメッセージBをより高位に置くことができる。
図3は、本発明の一実施形態による、所定の文書に対する類似性レベルを基礎として文書を順番に配置するプロセスを示すフローチャートである。動作の間、本システムは、ユーザの電子メール等のコーパス内の文書から意味のある意味的エンティティを抽出し(オペレーション302)、かつそれが属するグループを基礎として各エンティティのIDF値へ重みを付加する(オペレーション304)。ある実施形態において、グループとして可能なものには、人名、企業名、日時、住所、業界固有用語、メールアドレス、ユニフォームリソースロケータ(URL)及び電話番号が含まれるが、この限りではない。このエンティティ抽出プロセスは、図2に示すものに類似している。システムは、所定の文書に関して、コーパス内の幾つかの他の文書のエンティティ発生ベースの類似性レベルを計算する(オペレーション306)。類似性レベルの3つの異なる尺度は、そのうちの1つまたはそれ以上を計算することができる。エンティティ発生ベースの類似性は、3つの異なる尺度全ての集計であることが可能である。ユーザは、類似性計算用に幾つかの文書を選択することもできる。例えば、ユーザはある特定のフォルダから電子メールメッセージを選ぶことができ、またはユーザは全ての電子メールを選ぶことができる。
続いて、システムは文書を、所定の文書に対するそのエンティティ発生ベースの類似性を基礎として順番に配置する(オペレーション308)。システムは次に、2つ以上の文書が似通った類似性レベルを有するかどうかを決定する(オペレーション310)。ある実施形態において、2つの文書のエンティティ発生ベース類似性レベルの差が予め決められたしきい値より低ければ、システムはこれらの文書が似通った類似性レベルを有するものと考える。そうであれば、システムは、似通ったエンティティ発生ベースの類似性を有する文書について送信者−受信者ベースの類似性を計算し(オペレーション312)、適宜これらを順番に配置する(オペレーション314)。続いて、システムは、2つ以上の文書が似通ったレベルの送信者−受信者ベースの類似性を有するかどうかを決定する(オペレーション316)。ある実施形態において、2つの文書の送信者−受信者ベース類似性レベルの差が予め決められたしきい値より低ければ、システムはこれらの文書が似通った類似性レベルを有するものと考える。そうであれば、システムは、これらの文書の送信または受信時間を似通った送信者−受信者ベースの類似性と比較してこれらの文書の時間ベースの類似性を発生し(オペレーション318)、かつこの時間ベースの類似性を基礎としてこれらを順番に配置する(オペレーション320)。ある実施形態では、システムは、送信及び受信時間をミリ秒の順序で比較する。
図4は、本発明の一実施形態による、類似性を基礎として文書を編成するためのシステムの構成を示す図である。文書編成システム400は、受信機構402と、エンティティ抽出機構404と、一次類似性計算器406と、一次類似性順序づけ機構408と、二次類似性計算器410と、二次類似性順序づけ機構412と、三次類似性計算器414と、三次類似性順序づけ機構416と、ディスプレイ機構418とを含む。
動作の間、受信機構402はコーパスから幾つかの文書を受信する。コーパスはユーザの電子メールフォルダのコンテンツである可能性があり、かつ文書は電子メールメッセージである。受信された文書はエンティティ抽出機構404へ送られ、意味のある意味的エンティティが抽出される。エンティティ抽出機構404の詳細な構造は、図1に示されている。抽出されたエンティティのIDF値は、エンティティ抽出プロセスの間に計算されている点に留意されたい。文書及び抽出されたエンティティは、次に一次類似性計算器406へ送られ、所定の文書に対する一次類似性が計算される。所定の文書はユーザによって選択されることが可能であり、または所定の文書は、フォーカスされているウィンドウに現行表示されている文書であることが可能である。ある実施形態において、一次類似性は、抽出されたエンティティの所定の文書及び他の文書内での発生を基礎とする。さらなる実施形態では、幾つかの異なる類似度が計算され、一次類似性は異なる尺度の集計を基礎とする。他の文書及び所定の文書に対するその計算された一次類似性は、次に一次順序づけ機構408へ送られる。一次順序づけ機構408は、他の文書を、所定の文書に対する計算された一次類似性を基礎として順番に配置するように構成される。しきい値より低い一次類似性レベルを有する文書は所定の文書に関連しないものとされ、無視されることに留意されたい。
2つ以上の文書が近い類似性を有していれば(即ち、これらの文書間の計算された一次類似性の差がしきい値より少ない)、これらの文書は二次類似性計算器410へ送られ、二次類似性が計算される。ある実施形態において、二次類似性は、電子メールメッセージの送信者−受信者情報を基礎としている。同様に、幾つかの異なる類似度は集計された二次類似性を発生するために計算されることが可能である。二次類似性計算器410の出力は、二次順序づけ機構412へ送られる。二次順序づけ機構412は、似通った一次類似性を有する文書をその二次類似性を基礎として順番に配置するように構成されている。
文書をそれらの二次類似性を基礎として順序づけた後にも、まだ似通った類似性を有する2つ以上の文書が存在すれば、システムはこれらの文書を三次類似性計算器414へ送ることができる。三次類似性計算器414は、三次の文書類似性を計算する。ある実施形態において、三次類似性は、電子メールメッセージの送信及び受信時間を基礎として計算される。三次類似性計算器の出力は、次に三次順序づけ機構416へ送られる。三次順序づけ機構416は、計算された三次類似性を基礎として文書をさらにソートするように構成されている。3つの順序づけ機構408、412及び416全てのソート結果は、文書を所定の文書に対するその関係性順に表示するように構成されるディスプレイ機構418へ送られる。ある実施形態において、所定の文書に対して最も深い関係性を有する(最も高い類似性レベルを有する)文書はリストの最初に配置される。
ユーザにとっては、全てのメッセージが等しく重要であるとされるわけではない。故に、メッセージ間の類似性を計算する場合は、メッセージの重要性のレベルを考慮すべきである。言い替えれば、異なる電子メールメッセージは異なる重みを有し、ある電子メールの他の電子メールに対する類似性は他の電子メールのメッセージの重みに依存する。
メッセージの重みには、幾つかの要素が影響する可能性がある。これらの要素には、メッセージのタイプ、送信者及び受信者に関連づけられる情報、タイミング情報及びエンティティ密度が含まれるが、この限りではない。メッセージのタイプは、そのメッセージが情報/行動の要求であるか、ステータス更新であるか、スケジューリング要求であるか、注意喚起であるか、または社会的メッセージであるかを示す。異なるタイプのメッセージは、ユーザにとって異なる重要性を呈する。例えば、労働環境においては、社会的メッセージは会合スケジューリングのメッセージほど重要ではない可能性が高い。電子メールの重要性は、電子メールの受信者数と逆相関される可能性もある。言い替えれば、受信者が膨大である電子メールの重要性は低い。
電子メールの送信者及び受信者に関連づけられる他の情報も、ユーザに対するその重要性を計るために使用されることが可能である。例えば、システムは、電子メールがそのユーザと所定の送信者との間でどの程度頻繁に交換されているか、及び交換のバランスはどうか、を決定することができる。そうすることにより、システムはメーリングリストの電子メール送信者を識別し、かつこのような情報を用いてこのような送信者により送信されるメッセージの重要性を適合化する、または減らすことができる。さらに、システムは、電子メールメッセージにおける「TO」フィールドを調べ、ユーザがメッセージの直接的な受信者であるかどうかを決定することができる。そうであれば、メッセージにより高い重みを与えることができる。またシステムは、メッセージがユーザによって送信されたメッセージの1つに対する直接的な応答であるかどうかを決定することもできる。そうであれば、メッセージにはより高い重みが与えられる。
また電子メールの期間も、その重要性を決定する際に役割を果たす。概して、より古い電子メール(かなり前に送信または受信されている電子メール)は、ユーザにとって重要性が低い。さらに、電子メール内の抽出されたエンティティの数またはエンティティ密度もその重要性を測定するために使用されることが可能である。このようなエンティティ密度は、メッセージの情報コンテンツ及び密度に対応することが多い。故に、より多くの抽出されたエンティティを含むより情報量の多いメッセージは、ユーザにとってより重要なものとして見なされることが可能である。
メッセージの重みに影響するこれらの異なる要素は、役割ベースのアプローチ(送信者及び受信者に関連づけられる情報が重要性の計測に使用される)または直接的なマッピング機能(受信者数がメッセージの重みの計算に使用される場合)の何れかを使用して、0.0から1.0までの間の値にマップされる。最終的なメッセージの重みは、個々の要素値の加重和である。メッセージjの場合、このメッセージの合計重さは、
Figure 2011227889
によって与えられる。但し、wi,jはメッセージjの要素iの値を表し、かつαは要素iの重みを表す。ここで、
Figure 2011227889
であることに留意されたい。メッセージの重みを考慮した後は、3つの尺度全てについて、メッセージの類似性を、
Figure 2011227889
(4)
として計算することができる。
方程式4において、類似性はメッセージBのメッセージの重みを基礎として重み付けされ、よってシステムはメッセージAから離脱する類似性の値及び格付けを得ようとしていることを示している。言い替えれば、システムはメッセージAに類似するメッセージを発見しようとしていて、これらのメッセージはそのメッセージの重みで重み付けされる。
電子メールメッセージに加えて、本発明の実施形態によっては、システムはさらに電子メールによる会話間の類似性を計算するように構成されることが可能である。ある実施形態では、電子メールメッセージのグループは、メッセージの主題と受信者/送信者とをマッチングすることにより、電子メールによる会話へと互いにマージされることが可能である。故に、先に述べたエンティティ抽出方法及び類似性計算方法は、メッセージクラスタによって形成される会話へ適用されることが可能である。この場合、方程式1から方程式4までにおける表記A及びBは会話A及びBを指すことに留意されたい。ある実施形態では、エンティティのIDF値は、会話全体におけるその発生を基礎として計算されることが可能である。
図5は、本発明の一実施形態による、文書の類似性を推定するための例示的なコンピュータシステム示す。ある実施形態において、コンピュータ及び通信システム500は、プロセッサ502と、メモリ504と、格納デバイス506とを含む。格納デバイス506は、文書−類似性−推定アプリケーション508並びにアプリケーション510及び512等の他のアプリケーションを格納する。動作の間、文書−類似性−推定アプリケーション508は格納デバイス506からメモリ504へロードされ、次いでプロセッサ502によって実行される。プロセッサ502は、プログラムを実行しながら先に述べた機能を実行する。コンピュータ及び通信システム500は、任意選択のディスプレイ514、キーボード516及びポインティングデバイス518へ結合される。

Claims (4)

  1. 文書間の類似性レベルを推定するためのコンピュータ実行可能方法であって、
    幾つかの文書を受信することと、
    前記文書から幾つかの意味的エンティティを抽出することと、
    前記抽出された意味的エンティティを基礎として、前記文書間の前記類似性レベルを計算することと、
    前記計算された類似性レベルを基礎として、類似する文書を示す結果を生成することを含む方法。
  2. 前記意味的エンティティを抽出することは、
    幾つかの予め規定されたグループのうちの少なくとも1つに属する1つのワード及び/またはワードシーケンスを認識するように構成される幾つかの有限状態マシンを適用することと、
    少なくとも1つの外部リソースを検索しかつ比較して、前記認識されたワード及び/またはワードシーケンスが前記外部リソース内部のエントリに一致するかどうかを決定することと、
    一致の発見に応答して前記ワード及び/またはワードシーケンスを意味的エンティティとして抽出することを含む、請求項1に記載の方法。
  3. 前記意味的エンティティを抽出することは、さらに、
    前記意味的エンティティの逆文書頻度(IDF)値を計算することと、
    前記IDF値が予め決められた範囲内であるかどうかを決定することと、
    前記IDF値が前記予め決められた範囲内であるということに応答して前記意味的エンティティを抽出することを含む、請求項2に記載の方法。
  4. 前記予め規定されたグループは、
    人名、
    企業名、
    業界固有用語、
    日時、
    住所、
    メールアドレス、
    ユニフォームリソースロケータ(URL)及び
    電話番号のうちの少なくとも1つを含む、請求項2に記載の方法。
JP2011081760A 2010-04-15 2011-04-01 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 Expired - Fee Related JP5759228B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/760,900 US8688690B2 (en) 2010-04-15 2010-04-15 Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
US12/760,900 2010-04-15

Publications (2)

Publication Number Publication Date
JP2011227889A true JP2011227889A (ja) 2011-11-10
JP5759228B2 JP5759228B2 (ja) 2015-08-05

Family

ID=44168990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011081760A Expired - Fee Related JP5759228B2 (ja) 2010-04-15 2011-04-01 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法

Country Status (4)

Country Link
US (1) US8688690B2 (ja)
EP (1) EP2378475A1 (ja)
JP (1) JP5759228B2 (ja)
KR (1) KR101708508B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016076020A (ja) * 2014-10-03 2016-05-12 富士通株式会社 グループ化方法、グループ化装置、およびグループ化プログラム

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9189482B2 (en) * 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9235573B2 (en) * 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US20130117257A1 (en) * 2011-11-03 2013-05-09 Microsoft Corporation Query result estimation
CN103729359B (zh) * 2012-10-12 2017-03-01 阿里巴巴集团控股有限公司 一种推荐搜索词的方法及系统
EP3028243A1 (en) * 2013-07-30 2016-06-08 Hewlett Packard Enterprise Development LP Determining topic relevance of an email thread
US9830325B1 (en) * 2013-09-11 2017-11-28 Intuit Inc. Determining a likelihood that two entities are the same
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
EP3215943B1 (en) 2014-11-03 2021-04-21 Vectra AI, Inc. A system for implementing threat detection using threat and risk assessment of asset-actor interactions
EP3215944B1 (en) 2014-11-03 2021-07-07 Vectra AI, Inc. A system for implementing threat detection using daily network traffic community outliers
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
RU2580424C1 (ru) * 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
RU2014147904A (ru) * 2014-11-28 2016-06-20 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
US10089389B1 (en) * 2015-09-30 2018-10-02 EMC IP Holding Company LLC Translation of unstructured text into semantic models
RU2682002C2 (ru) 2016-09-20 2019-03-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка
CN107015964B (zh) * 2017-03-22 2021-10-19 北京光年无限科技有限公司 面向智能机器人开发的自定义意图实现方法及装置
US11170177B2 (en) * 2017-07-28 2021-11-09 Nia Marcia Maria Dowell Computational linguistic analysis of learners' discourse in computer-mediated group learning environments
US11410130B2 (en) 2017-12-27 2022-08-09 International Business Machines Corporation Creating and using triplet representations to assess similarity between job description documents
US11580129B2 (en) * 2018-04-20 2023-02-14 Microsoft Technology Licensing, Llc Quality-aware data interfaces
US10659635B1 (en) 2019-02-11 2020-05-19 Xerox Corporation Proxy enhanced protocol semantics recognition
US11163960B2 (en) * 2019-04-18 2021-11-02 International Business Machines Corporation Automatic semantic analysis and comparison of chatbot capabilities
CN110427436B (zh) * 2019-07-31 2022-03-22 北京百度网讯科技有限公司 实体相似度计算的方法及装置
WO2022025750A1 (en) * 2020-07-30 2022-02-03 Mimos Berhad Person profile finder using semantic similarity measurement of object based on internet source and related keywords
CN111797247B (zh) * 2020-09-10 2020-12-22 平安国际智慧城市科技股份有限公司 基于人工智能的案件推送方法、装置、电子设备及介质
CN113158686A (zh) * 2021-04-27 2021-07-23 中国科学院计算机网络信息中心 网络文化经营合规检测方法、装置、可读介质及电子设备
CN113592428A (zh) * 2021-06-25 2021-11-02 安徽云路交通信息技术有限公司 一种用于电子公章的用印申请管理系统
US11823666B2 (en) * 2021-10-04 2023-11-21 International Business Machines Corporation Automatic measurement of semantic similarity of conversations
CN115659945B (zh) * 2022-12-22 2023-05-02 南方电网科学研究院有限责任公司 一种标准文档相似度检测方法、装置及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US6816175B1 (en) * 1998-12-19 2004-11-09 International Business Machines Corporation Orthogonal browsing in object hierarchies
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US7765212B2 (en) 2005-12-29 2010-07-27 Microsoft Corporation Automatic organization of documents through email clustering
JP2010539589A (ja) * 2007-09-12 2010-12-16 レピュテーションディフェンダー, インコーポレーテッド 電子的情報源からの特定のエンティティに関連する情報の特定
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US7693940B2 (en) 2007-10-23 2010-04-06 International Business Machines Corporation Method and system for conversation detection in email systems
US20110060796A1 (en) * 2009-09-04 2011-03-10 International Business Machines Corporation E-mail address verification system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014055596; Tru H. Cao et al.: 'Fuzzy Named Entity-Based Document Clustering' IEEE International Conference on Fuzzy Systems 2008 , 20080606, pp.2028-2034, IEEE *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016076020A (ja) * 2014-10-03 2016-05-12 富士通株式会社 グループ化方法、グループ化装置、およびグループ化プログラム

Also Published As

Publication number Publication date
JP5759228B2 (ja) 2015-08-05
US20110258181A1 (en) 2011-10-20
US8688690B2 (en) 2014-04-01
KR20110115542A (ko) 2011-10-21
KR101708508B1 (ko) 2017-02-20
EP2378475A1 (en) 2011-10-19

Similar Documents

Publication Publication Date Title
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
JP5775348B2 (ja) エンティティ類似度の算出方法
US11663411B2 (en) Ontology expansion using entity-association rules and abstract relations
US10387559B1 (en) Template-based identification of user interest
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
Bouazizi et al. Opinion mining in twitter how to make use of sarcasm to enhance sentiment analysis
US20100030715A1 (en) Social Network Model for Semantic Processing
US20180349489A1 (en) Event extraction systems and methods
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
US9483462B2 (en) Generating training data for disambiguation
US20160226811A1 (en) System and method for priority email management
Ning et al. Spam message classification based on the Naïve Bayes classification algorithm
US10949418B2 (en) Method and system for retrieval of data
US20140279803A1 (en) Disambiguating data using contextual and historical information
CN102279890A (zh) 基于微博的情感词提取收集方法
US20150186455A1 (en) Systems and methods for automatic electronic message annotation
CN103473218A (zh) 一种电子邮件分类方法及其装置
CN115688727A (zh) 生成和应用传出通信模板
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN112199588A (zh) 舆情文本筛选方法及装置
US8620918B1 (en) Contextual text interpretation
CN107533574A (zh) 基于随机索引模式匹配的电子邮件关系查找器系统
US10216393B2 (en) Efficiently sharing user selected information with a set of determined recipients
CN111555960A (zh) 信息生成的方法
JP2012043286A (ja) 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150605

R150 Certificate of patent or registration of utility model

Ref document number: 5759228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees