CN113157861B - 一种融合Wikipedia的实体对齐方法 - Google Patents

一种融合Wikipedia的实体对齐方法 Download PDF

Info

Publication number
CN113157861B
CN113157861B CN202110386571.3A CN202110386571A CN113157861B CN 113157861 B CN113157861 B CN 113157861B CN 202110386571 A CN202110386571 A CN 202110386571A CN 113157861 B CN113157861 B CN 113157861B
Authority
CN
China
Prior art keywords
entity
wikipedia
candidate
constructing
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110386571.3A
Other languages
English (en)
Other versions
CN113157861A (zh
Inventor
陈其宾
朱翔宇
李锐
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN202110386571.3A priority Critical patent/CN113157861B/zh
Publication of CN113157861A publication Critical patent/CN113157861A/zh
Application granted granted Critical
Publication of CN113157861B publication Critical patent/CN113157861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种融合Wikipedia的实体对齐方法,属于实体对齐、Wikipedia、自然语言处理技术领域,本发明包括:1)首先构建Wikipedia每个实体的统计量,并使用ElasticSearch存储;2)针对用户聊天内容,利用分词和Ngram构建问句的候选实体集;3)检索出候选Wikipedia实体集;4)计算评价候选实体s和Wikipedia实体E匹配指标;5)最后,利用规则和阈值确认最终对齐结果。为闲聊机器人提供丰富的知识,进而改善用户体验效果。

Description

一种融合Wikipedia的实体对齐方法
技术领域
本发明涉及实体对齐、Wikipedia、自然语言处理技术领域,尤其涉及一种融合Wikipedia数据的实体对齐方法。
背景技术
如今,基于智能问答的闲聊机器人应用越来越普遍,具备较好的应用前景。但是,目前的闲聊机器人往往仅支持部分领域的知识问答,知识覆盖率较低,降低了用户的体验度。
Wikipedia作为大型百科知识库,可以为闲聊机器人提供丰富的知识,但一个难点就是如何检测用户的问句中提到实体(本文中,实体指Wikipedia中实体),并和Wikipedia中实体进行对齐。目前常用的方法是利用ElasticSearch进行检索,找到Wikipedia中最相关的片段,并直接以答案的方式返回给用户,实质上是一种检索方法。如果用这种方式获取相关百科页面对应的实体,实体对齐的精准率较低,因为与问句相关的是百科页面的部分内容,而该部分内容不能指代该百科页面对应的实体。另外一种方法是直接和Wikidata的实体进行对齐,这种方式不能有效利用Wikipedia页面内容,存在召回率不高的问题。
发明内容
基于以上问题,本发明提供了一种融合Wikipedia数据的实体对齐方法,可以有效解决Wikipedia数据对齐的问题。
本发明的技术方案是:
一种融合Wikipedia数据的实体对齐方法,步骤如下:
首先构建Wikipedia每个实体的统计量,并使用ElasticSearch存储。
针对用户聊天内容,利用分词和Ngram构建问句的候选实体集。
使用ElasticSearch检索出维基页面中包含至少一个候选实体的 Wikipedia实体,作为候选Wikipedia实体集。
计算评价候选实体s和Wikipedia实体E匹配指标,包括基于统计量的匹配得分、Wikipedia实体E所在的Wikidata类别和用户意图的匹配度,以及候选实体s是否是其他候选实体的一部分。
最后,利用规则和阈值确认最终对齐结果。
进一步的,
实体的统计量包括页面每月点击量以及链接分布P(a|E)。
再进一步的,
P(a|E)指所有链接到实体E的链接页面的概率分布,
Figure BDA0003015267320000021
其中A(E)是链接到实体E的链接页面的集合,将每个实体以及它对应的维基页面、每月点击量、链接分布、Wikidata类别存放到ElasticSearch。
进一步的,
构建问句的候选实体集,对问句进行分词,并采用Ngram(n<=3)的方式构建所有候选实体,并采取规则去除部分实体,如停用词等。
再进一步的,
检索候选实体可能对应的Wikipedia实体,使用ElasticSearch检索出维基页面中包含至少一个候选实体的Wikipedia实体。
再进一步的,
计算候选实体s和Wikipedia实体E匹配得分score(s,E),首先计算候选实体s指代Wikipedia实体E的概率P(E|s),利用贝叶斯规则,可知
P(E|s)=P(E)*P(S|E)
设P(E)与实体E月点击量成正比,用V(E)表示实体E月点击量,而P(s|E) 指候选实体s链接到实体E的概率,得到:
score(s,E)=V(E)*P(s|E)
作为评判候选实体s指代Wikipedia实体E的重要指标;计算其他评判指标,包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度,以及候选实体s是否是其他候选实体的一部分,优先选择长的候选实体。
本发明的有益效果是
目前的闲聊机器人知识覆盖率较低,降低了用户的体验度,通过和Wikipedia 数据融合,可以为闲聊机器人提供丰富的知识,进而改善用户体验效果。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种融合Wikipedia数据的实体对齐方法,
实施步骤包括:
构建Wikipedia每个实体的统计量,包括页面每月点击量以及链接分布 P(a|E);
构建问句的候选实体集;
检索候选实体可能对应的Wikipedia实体;
计算候选实体s和Wikipedia实体E匹配得分score(s,E);计算其他评判指标,包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度,以及候选实体s是否是其他候选实体的一部分;
利用规则和阈值确认最终对齐结果。
具体步骤如下:
1、构建Wikipedia每个实体的统计量,包括页面每月点击量以及链接分布 P(a|E)。
2、构建问句的候选实体集,对问句进行分词,并采用n-gram(n<=3)的方式构建所有候选实体,并采取规则去除部分实体,如停用词等。
3、检索候选实体可能对应的Wikipedia实体,使用ElasticSearch检索出维基页面中包含至少一个候选实体的Wikipedia实体。
4、计算候选实体s和Wikipedia实体E匹配得分score(s,E),根据候选实体s链接到实体E的概率P(s|E)以及实体E月点击量V(E)计算,P(s|E)和V(E) 由步骤1获得。
5、计算其他评判指标,包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度,以及候选实体s是否是其他候选实体的一部分。
6、利用规则和阈值确认最终对齐结果,通过规则整合步骤4和5的指标,并根据经验确定候选实体s确实指向Wikipedia实体E的阈值,基于规则和阈值去推理最终对齐结果。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (2)

1.一种融合Wikipedia的实体对齐方法,其特征在于,
包括:
1)首先构建Wikipedia每个实体的统计量,并使用ElasticSearch存储;
2)针对用户聊天内容,利用分词和Ngram构建问句的候选实体集;
3)使用ElasticSearch检索出维基页面中包含至少一个候选实体的Wikipedia实体,作为候选Wikipedia实体集;
4)计算评价候选实体s和候选Wikipedia实体E匹配指标;
5)最后,利用规则和阈值确认最终对齐结果;
实体的统计量包括页面每月点击量以及链接分布P(a|E);
P(a|E)指所有链接到实体E的链接页面的概率分布,
Figure DEST_PATH_IMAGE002
其中A(E)是链接到实体E的链接页面的集合,将每个实体以及它对应的维基页面、每月点击量、链接分布、Wikidata类别存放到ElasticSearch;
构建问句的候选实体集,对问句进行分词,并采用Ngram(n<=3)的方式构建所有候选实体,并采取规则去除部分实体;
候选实体s和Wikipedia实体E匹配指标包括基于统计量的匹配得分;
还包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度,以及候选实体s是否是其他候选实体的一部分;
计算候选实体s和Wikipedia实体E匹配得分score(s, E),利用贝叶斯规则,可知
Figure DEST_PATH_IMAGE004
设P(E)与实体E月点击量成正比,用V(E)表示实体E月点击量,而P(s|E)指候选实体s链接到实体E的概率,得到:
Figure DEST_PATH_IMAGE006
作为评判候选实体s指向Wikipedia实体E的重要指标。
2.根据权利要求1所述的方法,其特征在于,
通过整合的指标,确定候选实体s确实指向Wikipedia实体E的阈值,基于规则和阈值去推理最终对齐结果。
CN202110386571.3A 2021-04-12 2021-04-12 一种融合Wikipedia的实体对齐方法 Active CN113157861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110386571.3A CN113157861B (zh) 2021-04-12 2021-04-12 一种融合Wikipedia的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110386571.3A CN113157861B (zh) 2021-04-12 2021-04-12 一种融合Wikipedia的实体对齐方法

Publications (2)

Publication Number Publication Date
CN113157861A CN113157861A (zh) 2021-07-23
CN113157861B true CN113157861B (zh) 2022-05-24

Family

ID=76889909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110386571.3A Active CN113157861B (zh) 2021-04-12 2021-04-12 一种融合Wikipedia的实体对齐方法

Country Status (1)

Country Link
CN (1) CN113157861B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN108363688A (zh) * 2018-02-01 2018-08-03 浙江大学 一种融合先验信息的命名实体链接方法
CN110147401A (zh) * 2019-05-22 2019-08-20 苏州大学 融合先验知识和上下文相关度的知识库抽取方法
CN111061840A (zh) * 2019-12-18 2020-04-24 腾讯音乐娱乐科技(深圳)有限公司 数据识别方法、装置及计算机可读存储介质
CN111191044A (zh) * 2019-12-25 2020-05-22 湖北大学 一种基于大数据的知识抽取与融合方法
CN111414465A (zh) * 2020-03-16 2020-07-14 北京明略软件系统有限公司 基于知识图谱的问答系统中的处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408148B (zh) * 2014-12-03 2017-12-01 复旦大学 一种基于通用百科网站的领域百科构建系统
CN109783624A (zh) * 2018-12-27 2019-05-21 联想(北京)有限公司 基于知识库的答案生成方法、装置和智能会话系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
CN108304552A (zh) * 2018-02-01 2018-07-20 浙江大学 一种基于知识库特征抽取的命名实体链接方法
CN108363688A (zh) * 2018-02-01 2018-08-03 浙江大学 一种融合先验信息的命名实体链接方法
CN110147401A (zh) * 2019-05-22 2019-08-20 苏州大学 融合先验知识和上下文相关度的知识库抽取方法
CN111061840A (zh) * 2019-12-18 2020-04-24 腾讯音乐娱乐科技(深圳)有限公司 数据识别方法、装置及计算机可读存储介质
CN111191044A (zh) * 2019-12-25 2020-05-22 湖北大学 一种基于大数据的知识抽取与融合方法
CN111414465A (zh) * 2020-03-16 2020-07-14 北京明略软件系统有限公司 基于知识图谱的问答系统中的处理方法和装置

Also Published As

Publication number Publication date
CN113157861A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN107391486B (zh) 一种基于统计信息和序列标注的领域新词识别方法
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN109994215A (zh) 疾病自动编码系统、方法、设备和存储介质
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN114723528A (zh) 基于知识图谱的商品个性化推荐方法及系统
WO2017091985A1 (zh) 停用词识别方法与装置
CN112364165A (zh) 一种基于中文隐私政策条款的自动分类方法
CN107679075B (zh) 网络监控方法和设备
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN110889024A (zh) 一种用于计算资讯关联股票的方法和装置
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN111767476A (zh) 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
CN111143508B (zh) 一种基于通信类短文本的事件检测与跟踪方法及系统
JP5098631B2 (ja) メール分類システム、メール検索システム
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
US7895206B2 (en) Search query categrization into verticals
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN110674313A (zh) 一种基于用户日志动态更新知识图谱的方法
CN108462624A (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN113688633A (zh) 一种提纲确定方法及装置
CN113157861B (zh) 一种融合Wikipedia的实体对齐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220421

Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 11-12 / F, building 3, future venture Plaza, north section of Gangxing Third Road, high tech Zone, Jinan City, Shandong Province, 250100

Applicant before: Shandong new generation Information Industry Technology Research Institute Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant