JP2011227890A - エンティティ類似度の算出方法 - Google Patents
エンティティ類似度の算出方法 Download PDFInfo
- Publication number
- JP2011227890A JP2011227890A JP2011081761A JP2011081761A JP2011227890A JP 2011227890 A JP2011227890 A JP 2011227890A JP 2011081761 A JP2011081761 A JP 2011081761A JP 2011081761 A JP2011081761 A JP 2011081761A JP 2011227890 A JP2011227890 A JP 2011227890A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- similarity
- entities
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Abstract
【解決手段】処理期間中、システムは幾つかの文書に関連する2以上の意味論的エンティティを選択する。このシステムは、続いて文書を下位部分に分解し、文書の下位部分内の意味論的エンティティの出現率に基づき、意味論的エンティティ間の類似度レベルを算出する。人名に関する意味論的エンティティについては、さらに類似度を推定すべく電子メールの送信者および/または受信者内の共起頻度を判定する。
【選択図】図4
Description
であり、ここで|T|は文書(あるいは電子メールメッセージ)の総数、|Te|はエンティティ候補eが観察された場合の文書(あるいは電子メールメッセージ)の数である。IDF値は、エンティティ候補の有意性の計測に用いることができる。低IDF値はしばしば、エンティティ候補がコーパス全体で広範に使用されていて、定型常用文か統計的異常値かあるいは誤検出である可能性があることを示す。対照的に、高IDF値はこの種のエンティティ候補が真に有意味かまたは有意の意味論的エンティティであって文書から抽出するのに相応しいことを示す。一実施形態では、所定範囲の値に含まれるIDF値を有するエンティティ候補は抽出するのに対し、この範囲外のIDF値を有するエンティティ候補は無視する。さらなる実施形態では、ユーザが抽出エンティティに関する自らの知識に基づき抽出範囲と対応する閾値とを調整できるようにする。
(1)
であり、ここでidfaとidfbはそれぞれエンティティaとbのIDF値であり、waとwbはそれぞれエンティティaとbの加重関数である。cosentence(a,b)はエンティティaとbの文章準拠共起率を表わし、occsentence(a)はエンティティaの文章準拠出現率である。一実施形態では、エンティティIDF値を会話全体に対し算出する。さらなる実施形態では、エンティティIDF値を全ての電子メールメッセージについて算出する。エンティティ間類似度には方向性があり、すなわちbに対するaの類似度はaに対するbの類似度とは異なることに留意されたい。
(2)
であり、ここでidfaとidfbはそれぞれエンティティaとbのIDF値であり、waとwbはそれぞれエンティティaとbの加重関数である。coparagraph(a,b)は、エンティティaとbの段落準拠共起率を表わし、occparagraph(a)はエンティティaの段落準拠出現率である。
(3)
であり、ここでαsentenceは段落準拠類似度と比較した文章準拠類似度の加重値を特定し、0から1の間の値を割り当てられる。エンティティの文章準拠共起率はしばしば段落準拠共起率を上回る重要な役割を果たすため、αsentenceはしばしば1に近い値を割り当てられる。一実施形態では、αsentenceの値はユーザ設定が可能である。
となり、ここでwijはメッセージjに関する要因iの値を表わし、αiは要因iの加重値を表わす。
であることに、留意されたい。
となり、ここでmはメッセージmを指し、wtotal,mはメッセージmの総加重値である。同様に、段落加重値pは、下式の如く算出され、
となる。
と、
である。同様に、エンティティaの段落準拠出現率とエンティティaとbの共起率は、下式の如く算出される。すなわち、それぞれ
と、
である。
(4)
となり、ここでsimemail−participantsは電子メール参加者の出現率/共起率に基づくエンティティ間類似度を表わし、αemail−participantsは合成(文章準拠と段落準拠)類似度と対比した電子メール参加者準拠類似度の加重値を特定するものであり、αemail−participantsは0と1の間の値を割り当てられる。一実施形態では、本システムは電子メール参加者準拠類似度に対しより多くの加重値を与え、αemail−participantsには0.6を上回る値が与えられる。電子メール参加者準拠類似度を算出する際に、個別電子メールメッセージの加重値も考慮できることに留意されたい。
Claims (4)
- 意味論的エンティティ間の類似度レベルを推定するためのコンピュータで実行可能な方法であって、
幾つかの文書に関連する2以上の意味論的エンティティを選択する工程と、
文書を下位部分に分解する工程と、
文書の下位部分内の意味論的エンティティの出現率に基づき、意味論的エンティティ間の類似度レベルを算出する工程とを含む、方法。 - 文書の下位部分は、個別文章および/または個別段落を含む、請求項1に記載の方法。
- 類似度レベルの算出工程は、意味論的エンティティの文章準拠および/または段落準拠の共起頻度の特定を含む、請求項2に記載の方法。
- 意味論的エンティティの文章準拠共起頻度は意味論的エンティティがその中で共起する文章の総数に基づき算出し、意味論的エンティティの段落準拠共起頻度は意味論的エンティティがその中で共起する段落の総数に基づき算出する、請求項3に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/760,949 US8762375B2 (en) | 2010-04-15 | 2010-04-15 | Method for calculating entity similarities |
US12/760,949 | 2010-04-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011227890A true JP2011227890A (ja) | 2011-11-10 |
JP5775348B2 JP5775348B2 (ja) | 2015-09-09 |
Family
ID=44202053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011081761A Expired - Fee Related JP5775348B2 (ja) | 2010-04-15 | 2011-04-01 | エンティティ類似度の算出方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8762375B2 (ja) |
EP (1) | EP2378476A1 (ja) |
JP (1) | JP5775348B2 (ja) |
KR (1) | KR101716905B1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9489350B2 (en) * | 2010-04-30 | 2016-11-08 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US8626682B2 (en) * | 2011-02-22 | 2014-01-07 | Thomson Reuters Global Resources | Automatic data cleaning for machine learning classifiers |
US8880530B2 (en) * | 2011-04-18 | 2014-11-04 | Palo Alto Research Center Incorporated | Method for searching related documents based on and guided by meaningful entities |
US9135291B2 (en) * | 2011-12-14 | 2015-09-15 | Megathread, Ltd. | System and method for determining similarities between online entities |
US9721039B2 (en) * | 2011-12-16 | 2017-08-01 | Palo Alto Research Center Incorporated | Generating a relationship visualization for nonhomogeneous entities |
US9015080B2 (en) | 2012-03-16 | 2015-04-21 | Orbis Technologies, Inc. | Systems and methods for semantic inference and reasoning |
US9424233B2 (en) * | 2012-07-20 | 2016-08-23 | Veveo, Inc. | Method of and system for inferring user intent in search input in a conversational interaction system |
US9189531B2 (en) | 2012-11-30 | 2015-11-17 | Orbis Technologies, Inc. | Ontology harmonization and mediation systems and methods |
US9317565B2 (en) * | 2013-12-02 | 2016-04-19 | Qbase, LLC | Alerting system based on newly disambiguated features |
US9336280B2 (en) | 2013-12-02 | 2016-05-10 | Qbase, LLC | Method for entity-driven alerts based on disambiguated features |
EP3215944B1 (en) | 2014-11-03 | 2021-07-07 | Vectra AI, Inc. | A system for implementing threat detection using daily network traffic community outliers |
EP3215943B1 (en) | 2014-11-03 | 2021-04-21 | Vectra AI, Inc. | A system for implementing threat detection using threat and risk assessment of asset-actor interactions |
US10608972B1 (en) | 2016-08-23 | 2020-03-31 | Microsoft Technology Licensing, Llc | Messaging service integration with deduplicator |
JP2018132841A (ja) * | 2017-02-13 | 2018-08-23 | 富士通株式会社 | プログラム、情報処理装置および情報処理装置の制御方法 |
US11574287B2 (en) | 2017-10-10 | 2023-02-07 | Text IQ, Inc. | Automatic document classification |
US11163960B2 (en) * | 2019-04-18 | 2021-11-02 | International Business Machines Corporation | Automatic semantic analysis and comparison of chatbot capabilities |
US11165730B2 (en) * | 2019-08-05 | 2021-11-02 | ManyCore Corporation | Message deliverability monitoring |
CN113535967B (zh) * | 2020-04-17 | 2022-02-22 | 复旦大学 | 中文通用概念图谱纠错装置 |
CN115329742B (zh) * | 2022-10-13 | 2023-02-03 | 深圳市大数据研究院 | 基于文本分析的科研项目产出评价验收方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009110513A (ja) * | 2007-10-05 | 2009-05-21 | Fujitsu Ltd | ワードの類似性を用いたオントロジーの自動生成 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6820075B2 (en) | 2001-08-13 | 2004-11-16 | Xerox Corporation | Document-centric system with auto-completion |
AU2003207856A1 (en) * | 2002-02-04 | 2003-09-02 | Cataphora, Inc | A method and apparatus to visually present discussions for data mining purposes |
US7584221B2 (en) * | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
US20060167930A1 (en) * | 2004-10-08 | 2006-07-27 | George Witwer | Self-organized concept search and data storage method |
US8290962B1 (en) * | 2005-09-28 | 2012-10-16 | Google Inc. | Determining the relationship between source code bases |
US7765212B2 (en) | 2005-12-29 | 2010-07-27 | Microsoft Corporation | Automatic organization of documents through email clustering |
JP2010539589A (ja) * | 2007-09-12 | 2010-12-16 | レピュテーションディフェンダー, インコーポレーテッド | 電子的情報源からの特定のエンティティに関連する情報の特定 |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US7693940B2 (en) | 2007-10-23 | 2010-04-06 | International Business Machines Corporation | Method and system for conversation detection in email systems |
US8392443B1 (en) * | 2009-03-17 | 2013-03-05 | Google Inc. | Refining search queries |
US20110060796A1 (en) * | 2009-09-04 | 2011-03-10 | International Business Machines Corporation | E-mail address verification system |
US8645125B2 (en) * | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
-
2010
- 2010-04-15 US US12/760,949 patent/US8762375B2/en active Active
-
2011
- 2011-04-01 JP JP2011081761A patent/JP5775348B2/ja not_active Expired - Fee Related
- 2011-04-08 EP EP11161651A patent/EP2378476A1/en not_active Ceased
- 2011-04-14 KR KR1020110034815A patent/KR101716905B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009110513A (ja) * | 2007-10-05 | 2009-05-21 | Fujitsu Ltd | ワードの類似性を用いたオントロジーの自動生成 |
Also Published As
Publication number | Publication date |
---|---|
KR20110115543A (ko) | 2011-10-21 |
US8762375B2 (en) | 2014-06-24 |
EP2378476A1 (en) | 2011-10-19 |
KR101716905B1 (ko) | 2017-03-15 |
JP5775348B2 (ja) | 2015-09-09 |
US20110258193A1 (en) | 2011-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5775348B2 (ja) | エンティティ類似度の算出方法 | |
JP5759228B2 (ja) | 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 | |
EP1397768B1 (en) | Method and apparatus for filtering email | |
JP4742618B2 (ja) | 情報処理システム、プログラム及び情報処理方法 | |
US10516638B2 (en) | Techniques to select and prioritize application of junk email filtering rules | |
US9402576B2 (en) | Electronic communication warning and modification | |
CN103473218A (zh) | 一种电子邮件分类方法及其装置 | |
CN104182549A (zh) | 一种电子邮件摘要生成方法及装置 | |
CN109614464B (zh) | 用于业务问题识别的方法及装置 | |
Bogawar et al. | Email mining: a review | |
CN112559672A (zh) | 信息检测方法、电子设备及计算机存储介质 | |
US20170329763A1 (en) | System and method for detecting meaningless lexical units in a text of a message | |
Liubchenko et al. | Research Application of the Spam Filtering and Spammer Detection Algorithms on Social Media. | |
US10216393B2 (en) | Efficiently sharing user selected information with a set of determined recipients | |
RU2583713C2 (ru) | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама | |
US20120110094A1 (en) | Electronic messaging systems supporting provision of entire forwarding history regarding the sending, receiving, and time zone information, of an email after the email is forwarded by a number of users | |
Sagar et al. | An Effective Spam Classification Filter As A Web Application Using Naïve Bayes Classifier | |
TWI287720B (en) | Junk mail filtering systems and methods based on abnormal features in e-mails | |
Gentile et al. | Does Size Matter? When Small is Good Enough. | |
JP4334210B2 (ja) | メッセージ提供システム | |
WO2023017308A1 (en) | System and method for preventing cyberbullying | |
JP2022187856A (ja) | 管理サーバー、情報処理装置、情報処理プログラム、及び情報処理方法 | |
Dredze et al. | Feature design for transfer learning | |
CN109840320A (zh) | 文本的定制化处理 | |
Sun et al. | A clustering based fast detection algorithm for large scale duplicate emails |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5775348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |