JP5759228B2 - 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 - Google Patents
拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 Download PDFInfo
- Publication number
- JP5759228B2 JP5759228B2 JP2011081760A JP2011081760A JP5759228B2 JP 5759228 B2 JP5759228 B2 JP 5759228B2 JP 2011081760 A JP2011081760 A JP 2011081760A JP 2011081760 A JP2011081760 A JP 2011081760A JP 5759228 B2 JP5759228 B2 JP 5759228B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- computer
- entity
- documents
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
として定義される。但し、│T│は文書(または電子メールメッセージ)の総数であり、│Te│はエンティティ候補eが観測されている文書(または電子メールメッセージ)の数である。IDF値は、エンティティ候補の重大さを測定するために使用されることが可能である。低いIDF値は、そのエンティティ候補がコーパスで広く使用されていることを示す場合が多く、よってボイラープレート、統計的異常値または検出違いである可能性が高い。これに対して、高いIDF値は、このようなエンティティ候補が真に意味のあるもの、または重大な意味的エンティティであって、文書から抽出されるに値することを示す。ある実施形態では、予め決められた値の範囲内にあるIDF値を有するエンティティ候補は抽出されるのに対して、この範囲外のIDF値を有するエンティティ候補は無視される。さらなる実施形態では、ユーザは、抽出されるエンティティに関するその知識を基礎としてこの抽出範囲及び対応するしきい値を調整することを許容される。
) (1)
として計算することができる。但し、idfeはエンティティeのIDF値であり、weはその重みである。上式の分子は、双方の文書に出現するエンティティのIDF値の加重和を含み、分母は、別々の各文書内のエンティティのIDF値の加重和を含む。
(2)
として計算することができる。
によって与えられる。但し、wi,jはメッセージjの要素iの値を表し、かつαiは要素iの重みを表す。ここで、
であることに留意されたい。メッセージの重みを考慮した後は、3つの尺度全てについて、メッセージの類似性を、
(4)
として計算することができる。
Claims (3)
- 文書間の類似性レベルを推定するためのコンピュータ実行可能方法であって、
コンピュータが、幾つかの文書を受信することと、
前記コンピュータが、前記文書から幾つかの意味的エンティティを抽出することと、
前記コンピュータが、前記抽出された意味的エンティティを基礎として、前記文書間の前記類似性レベルを計算することと、
前記コンピュータが、前記計算された類似性レベルを基礎として、類似する文書を示す結果を生成すること、
を含み、
前記コンピュータが、前記意味的エンティティを抽出することは、
前記コンピュータが、幾つかの予め規定されたグループのうちの少なくとも1つに属する1つのワード及び1つのワードシーケンスの少なくとも一方を認識するように構成される幾つかの有限状態マシンを適用することと、
前記コンピュータが、少なくとも1つの外部リソースを検索しかつ比較して、前記認識されたワード及びワードシーケンスの少なくとも一方が前記外部リソースの内部のエントリに一致するかどうかを決定することと、
前記コンピュータが、前記一致するとの決定に応答して前記ワード及びワードシーケンスの少なくとも一方を意味的エンティティとして抽出することを含む、
方法。 - 前記コンピュータが、前記意味的エンティティを抽出することは、さらに、
前記コンピュータが、前記意味的エンティティの逆文書頻度(IDF)値を計算することと、
前記コンピュータが、前記逆文書頻度(IDF)値が予め決められた範囲内であるかどうかを決定することと、
前記コンピュータが、前記逆文書頻度(IDF)値が前記予め決められた範囲内であるということに応答して前記意味的エンティティを抽出することを含む、請求項1に記載の方法。 - 前記予め規定されたグループは、
人名、
企業名、
業界固有用語、
日時、
住所、
メールアドレス、
ユニフォームリソースロケータ(URL)及び
電話番号のうちの少なくとも1つを含む、請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/760,900 US8688690B2 (en) | 2010-04-15 | 2010-04-15 | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction |
US12/760,900 | 2010-04-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011227889A JP2011227889A (ja) | 2011-11-10 |
JP5759228B2 true JP5759228B2 (ja) | 2015-08-05 |
Family
ID=44168990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011081760A Expired - Fee Related JP5759228B2 (ja) | 2010-04-15 | 2011-04-01 | 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8688690B2 (ja) |
EP (1) | EP2378475A1 (ja) |
JP (1) | JP5759228B2 (ja) |
KR (1) | KR101708508B1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189482B2 (en) * | 2012-10-10 | 2015-11-17 | Abbyy Infopoisk Llc | Similar document search |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9235573B2 (en) * | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US20130117257A1 (en) * | 2011-11-03 | 2013-05-09 | Microsoft Corporation | Query result estimation |
CN103729359B (zh) * | 2012-10-12 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种推荐搜索词的方法及系统 |
CN105339978A (zh) * | 2013-07-30 | 2016-02-17 | 惠普发展公司,有限责任合伙企业 | 确定电子邮件线程的话题相关性 |
US9830325B1 (en) * | 2013-09-11 | 2017-11-28 | Intuit Inc. | Determining a likelihood that two entities are the same |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
JP6432266B2 (ja) * | 2014-10-03 | 2018-12-05 | 富士通株式会社 | グループ化方法、グループ化装置、およびグループ化プログラム |
US10033752B2 (en) | 2014-11-03 | 2018-07-24 | Vectra Networks, Inc. | System for implementing threat detection using daily network traffic community outliers |
EP3215943B1 (en) | 2014-11-03 | 2021-04-21 | Vectra AI, Inc. | A system for implementing threat detection using threat and risk assessment of asset-actor interactions |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
RU2014147904A (ru) * | 2014-11-28 | 2016-06-20 | Общество С Ограниченной Ответственностью "Яндекс" | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
RU2580424C1 (ru) | 2014-11-28 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер |
US10089389B1 (en) * | 2015-09-30 | 2018-10-02 | EMC IP Holding Company LLC | Translation of unstructured text into semantic models |
RU2682002C2 (ru) | 2016-09-20 | 2019-03-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка |
CN107015964B (zh) * | 2017-03-22 | 2021-10-19 | 北京光年无限科技有限公司 | 面向智能机器人开发的自定义意图实现方法及装置 |
US11170177B2 (en) * | 2017-07-28 | 2021-11-09 | Nia Marcia Maria Dowell | Computational linguistic analysis of learners' discourse in computer-mediated group learning environments |
US11410130B2 (en) | 2017-12-27 | 2022-08-09 | International Business Machines Corporation | Creating and using triplet representations to assess similarity between job description documents |
US11580129B2 (en) * | 2018-04-20 | 2023-02-14 | Microsoft Technology Licensing, Llc | Quality-aware data interfaces |
US10659635B1 (en) | 2019-02-11 | 2020-05-19 | Xerox Corporation | Proxy enhanced protocol semantics recognition |
US11163960B2 (en) * | 2019-04-18 | 2021-11-02 | International Business Machines Corporation | Automatic semantic analysis and comparison of chatbot capabilities |
CN110427436B (zh) * | 2019-07-31 | 2022-03-22 | 北京百度网讯科技有限公司 | 实体相似度计算的方法及装置 |
WO2022025750A1 (en) * | 2020-07-30 | 2022-02-03 | Mimos Berhad | Person profile finder using semantic similarity measurement of object based on internet source and related keywords |
CN111797247B (zh) * | 2020-09-10 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的案件推送方法、装置、电子设备及介质 |
CN113158686A (zh) * | 2021-04-27 | 2021-07-23 | 中国科学院计算机网络信息中心 | 网络文化经营合规检测方法、装置、可读介质及电子设备 |
CN113592428A (zh) * | 2021-06-25 | 2021-11-02 | 安徽云路交通信息技术有限公司 | 一种用于电子公章的用印申请管理系统 |
US11823666B2 (en) * | 2021-10-04 | 2023-11-21 | International Business Machines Corporation | Automatic measurement of semantic similarity of conversations |
CN115659945B (zh) * | 2022-12-22 | 2023-05-02 | 南方电网科学研究院有限责任公司 | 一种标准文档相似度检测方法、装置及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
US7447626B2 (en) * | 1998-09-28 | 2008-11-04 | Udico Holdings | Method and apparatus for generating a language independent document abstract |
US6816175B1 (en) * | 1998-12-19 | 2004-11-09 | International Business Machines Corporation | Orthogonal browsing in object hierarchies |
US6820075B2 (en) * | 2001-08-13 | 2004-11-16 | Xerox Corporation | Document-centric system with auto-completion |
US7765212B2 (en) | 2005-12-29 | 2010-07-27 | Microsoft Corporation | Automatic organization of documents through email clustering |
US20090070325A1 (en) * | 2007-09-12 | 2009-03-12 | Raefer Christopher Gabriel | Identifying Information Related to a Particular Entity from Electronic Sources |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US7693940B2 (en) | 2007-10-23 | 2010-04-06 | International Business Machines Corporation | Method and system for conversation detection in email systems |
US20110060796A1 (en) * | 2009-09-04 | 2011-03-10 | International Business Machines Corporation | E-mail address verification system |
-
2010
- 2010-04-15 US US12/760,900 patent/US8688690B2/en not_active Expired - Fee Related
-
2011
- 2011-04-01 JP JP2011081760A patent/JP5759228B2/ja not_active Expired - Fee Related
- 2011-04-08 EP EP11161650A patent/EP2378475A1/en not_active Ceased
- 2011-04-14 KR KR1020110034814A patent/KR101708508B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20110115542A (ko) | 2011-10-21 |
KR101708508B1 (ko) | 2017-02-20 |
EP2378475A1 (en) | 2011-10-19 |
US8688690B2 (en) | 2014-04-01 |
US20110258181A1 (en) | 2011-10-20 |
JP2011227889A (ja) | 2011-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5759228B2 (ja) | 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法 | |
JP5775348B2 (ja) | エンティティ類似度の算出方法 | |
US9183535B2 (en) | Social network model for semantic processing | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN103294778B (zh) | 一种推送资讯信息的方法及系统 | |
US9720904B2 (en) | Generating training data for disambiguation | |
US20180349489A1 (en) | Event extraction systems and methods | |
WO2015185019A1 (zh) | 一种基于语义理解的表情输入方法和装置 | |
US20120136812A1 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
US10949418B2 (en) | Method and system for retrieval of data | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
US20150186455A1 (en) | Systems and methods for automatic electronic message annotation | |
WO2015032124A1 (zh) | 一种电子邮件分类方法及其装置 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
US8620918B1 (en) | Contextual text interpretation | |
CN107533574A (zh) | 基于随机索引模式匹配的电子邮件关系查找器系统 | |
JP2009157450A (ja) | メール分類システム、メール検索システム、メール宛先分類システム | |
CN117216275A (zh) | 一种文本处理方法、装置、设备以及存储介质 | |
JP5477910B2 (ja) | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 | |
KR20120058417A (ko) | 문서 유사도 산출의 맞춤화 및 최적화에 기초한 기계 학습 방법 및 시스템 | |
EP3318987B1 (en) | Method and system for retrieval of data | |
Teraguchi et al. | Detection method of blog spam based on categorization and time series information | |
JP7222026B2 (ja) | 管理サーバー、情報処理装置、情報処理プログラム、及び情報処理方法 | |
JP2013084216A (ja) | 定型文判別装置及び定型文判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150512 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150605 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5759228 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |