CN106874378B - 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 - Google Patents

基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 Download PDF

Info

Publication number
CN106874378B
CN106874378B CN201710006826.2A CN201710006826A CN106874378B CN 106874378 B CN106874378 B CN 106874378B CN 201710006826 A CN201710006826 A CN 201710006826A CN 106874378 B CN106874378 B CN 106874378B
Authority
CN
China
Prior art keywords
entity
word
relation
document
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710006826.2A
Other languages
English (en)
Other versions
CN106874378A (zh
Inventor
段大高
赵宁
韩忠明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201710006826.2A priority Critical patent/CN106874378B/zh
Publication of CN106874378A publication Critical patent/CN106874378A/zh
Application granted granted Critical
Publication of CN106874378B publication Critical patent/CN106874378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明涉及一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;步骤四:对事件的获取以及图谱关系建立。本发明将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,为用户展现出该领域的核心知识库,并提高优化搜索质量,实现了从简单字符串到实体理解的过程。

Description

基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
技术领域
本发明涉及一种知识图谱构建方法,具体涉及一种基于规则模型的实体提取与关系挖掘构建知识图谱的方法,属于自然语言处理中的数据挖掘的技术领域。
背景技术
近两年来,随着Linking Open Data1等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(DataWeb)。
在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。知识图谱旨在描述真实世界中存在的各种实体或概念。
其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-value pair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。
正是由于巨大的数据量,无法知道这些数据之间的关系,以及主要是做什么的,知识图谱得以快速发展,最主要的是简化搜索问答,领域知识图谱能够快速带入你了解该领域,知识图谱上的推理,预测等,可以挖掘出潜在的信息价值。
现有技术的实体识别以及关系抽取主要针对时间、地点、人物、机构等七大类抽取效果较好,准确率不是很高,构建图谱周期较长。对特定领域的实体抽取与关系挖掘起不到好的效果,本发明为了解决现有技术缺陷提出了基于规则模型的实体抽取与关系挖掘构建知识图谱的方法。能够快速构建特定领域的知识图谱,准确率高。
发明内容
本发明目的是提供一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,在拥有大量的文本信息后,通过构建一定规则能够快速、有效地建立该领域的知识图谱,进而有助于其它部门的下一步工作,如在图谱上的潜在信息挖掘。
本发明的原理:构建知识图谱的过程分为四个阶段:
第一个阶段:目标领域知识库获取。
第二个阶段:对目标领域的实体进行定义,实体识别,实体抽取。具体步骤包括:对于第一阶段的知识库,进行实体识别,具体就是定义几种实体,目前大众的实体识别都是识别出文本的人名、地名、机构名等,本发明采用自定义字典规则的方法进行实体识别,并获取相应词向量,效果明显。
第三个阶段:实体事件的获取,实体事件获取难度大,采用实体关系词对相关新闻进行抽取,进而提取事件名称,对识别出的实体进行特定关系的抽取,需要结合领域知识。对实体的属性打标签,进而获取目标实体的属性,目的是构建实体之间的关系网络形成图谱。
第四步:实体融合主要就是简称与全称的融合,以及知识图谱的融合。
本发明的一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,如图1所示,包括下列步骤:
步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类等字典,便于规则挖掘;
步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理。
具体步骤如下:
2.1.将文档转化成UTF-8编码;
2.2.去除文档中的标点符号并正则解析,记录URL数;
2.3.对文档进行分词处理;
2.4.获得文档词的词向量;
2.5.对获取的词向量进行相似计算,并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值,取TOP3在通过word2vec的向量运算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文档实体,wi表示向量所在维数的值,进而计算目标词与目标词文档中的其他词的相似度,该相似度用来表示目标词与目标词文档中的其他词具有相关性,并作为图谱中的连接关系,取TOP3,其中相似度的计算采用常用的N维向量相似度计算:
Figure GDA0001256699430000031
公式说明:
Distance(A,B):表示函数处理A,B两者之间的余弦夹角,返回夹角值,便于排序;
A:表示当前文档的实体名,如处理西瓜文档时,当前A就表示西瓜的词向量;
B:表示当前文档的其他词向量;
Ai,Bi:表示对应词的词向量;
步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息,具体步骤如下:
3.1.定义可能的关系信息,可能的关系信息越多则获取的属性信息有可能更多;
3.2.关联过后进行部分人工较对;
步骤四:对事件的获取以及图谱关系建立,具体步骤如下:
4.1.假设实体词有{E1,E2,...,En},接下来进行相关事件的爬取工作,采用关键词爬取相关事件HTML,进行解析,获取事件。
4.2对于实体属性图谱获取,以及事件获取,需要实体间的消岐以及融合,说明如下:
4.2.1目前所做的是简称以及全称的实体融合(即实体名称的简称与全称建立映射关系)。在图谱中只存在一种实体名称(简称或全称),根据映射关系对图谱数据融合时,进行实体的消岐(即图谱中实体名称的统一)。外部访问时,通过关系映射,获取实体的图谱信息(意思就是外部不论输入简称还是全称,其返回的图谱是不变的,因为有映射关系的存在)例如:如西瓜的喷洒农药有:甲草胺,灭草胺,拉索,通过百科数据可知,灭草胺,拉索也是甲草胺,只是存在名称不一样;建立灭草胺,拉索、甲草胺的映射关系,图谱中只存在甲草胺,但外部即使访问到灭草胺,也能获得甲草胺的图谱信息。
本发明的一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,其优点及功效在于:本发明旨在构造特定领域的知识图谱,将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,为用户展现出该领域的核心知识库,并提高优化搜索质量,实现了从简单字符串到实体理解的过程。
附图说明
图1所示为本发明方法的整体流程图。
图2所示为本发明实施例步骤2.2中网页的文本信息存入到指定文档中的示意图。
图3所示为本发明实施例步骤2.3中文档分词结果示意图。
图4所示为本发明实施例步骤2.4中将训练文档中词的词向量保存成文本文件的示意图。
图5所示为本发明实施例步骤2.5计算与西瓜实体词向量最相似的词作为西瓜的外链接的计算结果。
图6所示为本发明实施例步骤三处理结果。
图7所示为本发明实施例步骤4.1对进行实体与事件的抽取结果。
图8所示为本发明实施例步骤4.2对获取与目标实体更近的实体的处理结果。
图9所示为本发明实施例步骤4.3对实体的简称与全称的映射关系抽取结果。
具体实施方式
下面结合附图和具体实施例,对本发明的技术方案做进一步的说明。
本发明一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,具体实施步骤如下(以食品安全知识图谱构建为例):
步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类等字典,便于规则挖掘:
(1)根据国家食品标准分类,农药分类、以及营养物质、果蔬所可能的病虫害,爬取相关百科数据以及人工参与来构建字典,并建立部分简称与全称的映射关系。
(2)根据目标字典,定向爬取食品的实体百科数据,提供知识图谱数据支撑。
步骤二:对百科类数据处理,获取中文文本信息并计算URL的个数,便于后续处理。具体步骤如下:
2.1对选取的网页进行URL个数统计,采用正则表达式进行匹配URL,并写入到文本中,旨在展示该实体的外链接数,建立更多链接信息;
2.2统计完URL后,对网页源代码标签进行过滤,即网页的文本信息保留下来,就像我们浏览网页时看到的网页信息,存入到指定文档中,如图2所示;
2.3对文档采用分词工具进行分词,分词工具采用开源的解霸工具以及加入特定领域字典(食品、农药、营养、病虫害)的方式进行分词,文档分词结果如图3所示;
2.4对于分好词的文档,采用word2vec词向量训练工具,训练文档中词的词向量,并保存成文本文件,结果如图4所示;
2.5根据所训练出来的词向量,计算与西瓜实体词向量最相似的词作为西瓜的外链接,以丰富知识图谱,计算结果如图5所示;
步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息,本发明主要考虑食品安全问题,故对食品(主要指植物如:水果、蔬菜)所存在的病虫害、食品(主要指植物如:水果、蔬菜)所喷洒的农药、食品中含有的营养物质,进行人工加入字典,便于分词以及正则匹配,以获取更多的实体间属性关系。
处理后结果如图6所示;
步骤四:对事件的获取以及图谱关系建立:
4.1对于食品事件的获取采用爬取最近食品安全新闻,结合步骤一的食品字典,进行实体与事件的抽取,抽取结果如图7所示;
4.2对于前期获取的URL数据,进行处理,获取与目标实体更近的实体,处理结果如图8所示;
说明:对于每个事物只提取排序后的前三个按从大到小,举例说明:西瓜(143)表示西瓜网页中有143个链接,木瓜(105)表示木瓜网页中有105个链接,而15表示西瓜与木瓜共有15个链接相同的URL。
4.3根据定义的关系进行实体与属性的关联,实体的简称与全称的映射关系抽取结果如图9所示:
实体之间的联系是通过属性进行相关的,通过以上步骤的处理,即可构建知识图谱,本发明所定义:食品与食品之间有营养物质属性,以及所发生病虫害属性,食品与安全事件之间是发生关系,食品与农药之间是喷洒关系。具体三元组关系(实体,关系,实体)定义如下:
(食品,营养,营养元素)
(食品,病虫害,病虫害)
(食品,安全事件,事件)
(食品(部分食品),喷洒,农药)
(食品,所属,食品分类)
(农药,所属,农药分类)
本发明的优点是算法具有高效性,计算成本相对较低,准确性非常高,并且能够提高使用者快速了解特定领域的知识库,减少用户的信息负担,在知识图谱建立的基础上进行相关信息的挖掘,将有助于我们对事件的发生进行相关控制,也更容易获取知识(通过问答)。

Claims (1)

1.一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法,特征在于:该方法包括下列步骤:
步骤一:爬取目标领域的百科知识库数据,并定义食品类、农药类、营养类、病虫害类字典,便于规则挖掘;
步骤二:对百科类数据进行去HTML标签化,获取中文文本并获取URL链接,便于后续处理;其中所述步骤二具体如下:
2.1.将文档转化成UTF-8编码;
2.2.去除文档中的标点符号并正则解析,记录URL数;
2.3.对文档进行分词处理;
2.4.获得文档词的词向量;
2.5.对获取的词向量进行相似计算,并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值,取TOP3在通过word2vec的向量运算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文档实体,wi表示向量所在维数的值,进而计算目标词与目标词文档中的其他词的相似度,该相似度用来表示目标词与目标词文档中的其他词具有相关性,并作为图谱中的连接关系,取TOP3,其中相似度的计算采用常用的N维向量相似度计算:
Figure FDA0002316370390000011
公式说明:
Distance(A,B):表示函数处理A,B两者之间的余弦夹角,返回夹角值,便于排序;
A:表示当前文档的实体名,如处理西瓜文档时,当前A就表示西瓜的词向量;
B:表示当前文档的其他词向量;
Ai,Bi:表示对应词的词向量;
步骤三:通过加入人工标注的关系属性信息,来获取更全的实体属性信息;其中所述步骤三具体如下:
3.1.定义可能的关系信息,可能的关系信息越多则获取的属性信息有可能更多;
3.2.关联过后进行部分人工较对;
步骤四:对事件的获取以及图谱关系建立;其中所述步骤四具体如下:
4.1.假设实体词有{E1,E2,...,En},接下来进行相关事件的爬取工作,采用关键词爬取相关事件HTML,进行解析,获取事件;
4.2对于实体属性图谱获取,以及事件获取,需要实体间的消岐以及融合,说明如下:
4.2.1目前所做的是简称以及全称的实体融合,即实体名称的简称与全称建立映射关系;在图谱中只存在一种实体名称,即简称或全称;根据映射关系对图谱数据融合时,进行实体的消岐,即图谱中实体名称的统一;外部访问时,通过关系映射,获取实体的图谱信息。
CN201710006826.2A 2017-01-05 2017-01-05 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 Active CN106874378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710006826.2A CN106874378B (zh) 2017-01-05 2017-01-05 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710006826.2A CN106874378B (zh) 2017-01-05 2017-01-05 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Publications (2)

Publication Number Publication Date
CN106874378A CN106874378A (zh) 2017-06-20
CN106874378B true CN106874378B (zh) 2020-06-02

Family

ID=59165278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710006826.2A Active CN106874378B (zh) 2017-01-05 2017-01-05 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Country Status (1)

Country Link
CN (1) CN106874378B (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368470A (zh) * 2017-06-27 2017-11-21 北京神州泰岳软件股份有限公司 一种提取企业内部组织架构信息的方法和装置
CN108009402A (zh) * 2017-07-25 2018-05-08 北京工商大学 一种基于动态卷积网络的微生物基因序列分类模型的方法
CN107562822A (zh) * 2017-08-18 2018-01-09 武汉红茶数据技术有限公司 一种舆情事件挖掘方法和系统
CN108595449A (zh) * 2017-11-23 2018-09-28 北京科东电力控制系统有限责任公司 调度自动化系统知识图谱的构建与应用方法
CN108021682A (zh) * 2017-12-11 2018-05-11 西安交通大学 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN108073711B (zh) * 2017-12-21 2022-01-11 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN113641707B (zh) * 2018-01-25 2023-07-21 北京百度网讯科技有限公司 知识图谱消歧方法、装置、设备及存储介质
CN110310721B (zh) * 2018-03-27 2023-05-02 九阳股份有限公司 一种基于知识图谱构建食谱推荐策略的方法及装置
CN108563766A (zh) * 2018-04-19 2018-09-21 天津科技大学 食品检索的方法及装置
CN108710612A (zh) * 2018-05-22 2018-10-26 腾讯科技(深圳)有限公司 语义标注的方法、装置、计算机设备、可读存储介质
CN110633409B (zh) * 2018-06-20 2023-06-09 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置
CN110970112B (zh) * 2018-09-29 2024-03-12 九阳股份有限公司 一种面向营养健康的知识图谱构建方法和系统
CN111144123B (zh) * 2018-10-16 2024-02-02 工业互联网创新中心(上海)有限公司 一种工业互联网标识解析数据字典构建方法
CN111160923A (zh) * 2018-11-06 2020-05-15 上海仪电(集团)有限公司中央研究院 一种用于食品溯源和分析的图数据库构建系统
CN109284342A (zh) * 2018-11-22 2019-01-29 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN109710701B (zh) * 2018-12-14 2022-11-01 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN109558502B (zh) * 2018-12-18 2021-11-30 福州大学 一种基于知识图谱的城市安全数据检索方法
CN110263226A (zh) * 2019-05-10 2019-09-20 平安科技(深圳)有限公司 针对药品的数据库更新方法、装置及电子装置
CN112052311A (zh) * 2019-05-20 2020-12-08 天津科技大学 一种基于词向量技术和知识图谱检索的短文本问答方法及装置
CN110532370A (zh) * 2019-06-11 2019-12-03 福建奇点时空数字科技有限公司 一种基于属性标注的专业数据实体属性抽取方法
CN110349650A (zh) * 2019-07-23 2019-10-18 珠海格力电器股份有限公司 食材推荐方法、装置及系统
CN110413790B (zh) * 2019-08-02 2020-04-28 上海云绅智能科技有限公司 一种场景分类方法及装置
CN110648172B (zh) * 2019-09-04 2023-07-14 北京益商慧评网络科技有限公司 一种融合多种移动设备的身份识别方法和系统
CN110633364A (zh) * 2019-09-23 2019-12-31 中国农业大学 基于图数据库的食品安全知识图谱构建方法和展示模式
CN110781315B (zh) * 2019-10-16 2022-11-08 华中农业大学 一种食品安全知识图谱及相关智能问答系统的构建方法
CN110879824A (zh) * 2019-10-23 2020-03-13 中广核工程有限公司 一种基于物理数据库的核电工程业务数据挖掘系统及方法
CN110750995B (zh) * 2019-10-29 2023-06-02 上海德拓信息技术股份有限公司 一种基于自定义图谱的文件管理方法
CN111091003B (zh) * 2019-12-05 2023-10-10 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN113127527B (zh) * 2019-12-30 2022-09-30 海信集团有限公司 一种知识图谱的实体关系挖掘方法及装置
CN111339214B (zh) * 2020-02-18 2023-09-15 北京航空航天大学 一种知识库自动构建方法与系统
CN111723215B (zh) * 2020-06-19 2022-10-04 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN111930793A (zh) * 2020-06-26 2020-11-13 西安电子科技大学 目标行为挖掘与检索分析方法、系统、计算机设备及应用
CN111782907B (zh) * 2020-07-01 2024-03-01 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN111930893A (zh) * 2020-08-12 2020-11-13 桂林电子科技大学 一种面向景区异常事件的知识图谱构建方法
CN112100324B (zh) * 2020-08-28 2023-05-05 广州探迹科技有限公司 一种知识图谱的扩展方法、装置、存储介质和计算设备
CN112487205B (zh) * 2020-12-03 2022-04-29 湖北大学 一种支持危害鉴别的食品安全风险知识图谱、构建方法
CN112650855B (zh) * 2020-12-26 2022-09-13 曙光信息产业股份有限公司 知识图谱工程化构建方法、装置、计算机设备和存储介质
US11669680B2 (en) 2021-02-02 2023-06-06 International Business Machines Corporation Automated graph based information extraction
CN112883192B (zh) * 2021-02-09 2023-09-05 江苏名通信息科技有限公司 一种异构领域用户与资源关联挖掘方法及系统
CN113434658A (zh) * 2021-08-25 2021-09-24 西安热工研究院有限公司 火电机组运行问答生成方法、系统、设备及可读存储介质
CN114595344B (zh) * 2022-05-09 2022-07-19 北京市农林科学院信息技术研究中心 面向农作物品种管理的知识图谱构建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于多种数据源的中文知识图谱构建方法研究";胡芳槐;《中国博士学位论文全文数据库信息科技辑》;20150531;第12-13、31、40页 *
胡芳槐."基于多种数据源的中文知识图谱构建方法研究".《中国博士学位论文全文数据库信息科技辑》.2015,第12-13、31、40页. *

Also Published As

Publication number Publication date
CN106874378A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN107480125B (zh) 一种基于知识图谱的关系链接方法
CN110598000A (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
TWI695277B (zh) 自動化網站資料蒐集方法
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN107247739B (zh) 一种基于因子图的金融公报文本知识提取方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN112100394A (zh) 一种用于推荐医疗专家的知识图谱构建方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
Bhardwaj et al. Web scraping using summarization and named entity recognition (ner)
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
Yaman et al. Address entities extraction using named entity recognition
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和系统
Pu et al. A vision-based approach for deep web form extraction
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211221

Address after: 410023 Room 101, building 3, wisdom Park, country garden, Xuehua village, bachelor street, Yuelu District, Changsha City, Hunan Province

Patentee after: HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.

Address before: 100048, Fu Cheng Road, Beijing, Haidian District, No. 33

Patentee before: BEIJING TECHNOLOGY AND BUSINESS University

TR01 Transfer of patent right