CN110222199A - 一种基于本体和多种神经网络集成的人物关系图谱构建方法 - Google Patents
一种基于本体和多种神经网络集成的人物关系图谱构建方法 Download PDFInfo
- Publication number
- CN110222199A CN110222199A CN201910534969.XA CN201910534969A CN110222199A CN 110222199 A CN110222199 A CN 110222199A CN 201910534969 A CN201910534969 A CN 201910534969A CN 110222199 A CN110222199 A CN 110222199A
- Authority
- CN
- China
- Prior art keywords
- entity
- ontology
- data
- relation
- personage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 43
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 12
- 230000000306 recurrent effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 22
- 238000012800 visualization Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 206010028916 Neologism Diseases 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 239000007787 solid Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract 2
- 241000270322 Lepidosauria Species 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000035606 childbirth Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种基于本体和多种神经网络集成的人物关系图谱构建方法,包括以下步骤:爬取互联网中某领域与人物有关的数据;建立领域人物本体;从含多类实体且有重复实体的结构化数据表中,抽取数据构建规范化实体表;通过语义映射算法将人物本体模型两个类名与两个实体表名匹配,自动获得所有实体关系,并以图结构存储在Neo4j数据库;针对结构化表中的文本数据,利用滑动窗口、实体位置特征和双向门控循环神经网络进行人物实体识别和关系抽取;将新增关系更新当前图结构,形成领域人物关系知识图谱。本发明可以在原始关系型数据和文本数据上提取人物关系高级特征,不用依赖人工设计,提高识别效果,提升复杂网页文本构建人物关系图谱的效率。
Description
技术领域
本发明属于互联网大数据处理领域,特别涉及一种基于本体和多种神经网络集成的人物关系图谱构建方法。
背景技术
随着互联网技术的蓬勃发展和数据的爆炸式增长,人们已经能够通过搜索引擎获取到很多相关知识,大量知识隐藏于网页中的非结构化文本和半结构化表格内。面对海量的网页文本信息,人们需自己从互联网上提取出自己所需的知识,但随着知识的不断增长,这种知识获取的方式已经无法满足人们需求。人们期望以更智能的方式组织互联网上的资源,可以更加快速、准确、智能地获取到自己需要的信息。
为了满足这种需求,知识图谱应运而生。
在知识的存储方面,使用最广泛的是关系型数据库,但面对知识图谱中大量存在的知识,关系型数据库局限于固定的表结构,不易进行扩展,查询效率易受影响。考虑到知识图谱中知识是图的连接形式,本项目采用强大的图形数据库Neo4j,相对于传统关系型数据库,对于数据的格式十分灵活没有固定的表结构,不易受到数据形式的影响,并且擅长于对关系的查询,提升查询效率。
目前,虽然通过知识图谱可以建立起知识之间的关联,但用户却无法直观的看到知识图谱中所蕴含的知识内容,需通过可视化将大量的知识转化为一种视觉表现形式,加强人类认知,增加人们的理解。人物关系图谱可视化能够从多角度展现数据内容,帮助政府、企业从海量数据中找到线索,帮助政府、企业制定政策方案、客户策略,实现更有效的管理。
因此,如何“以人为中心”的构建面向政府、企业领域的人物关系图谱,将政府和互联网中的大数据高效的利用起来,将孤立的数据节点融合到统一的知识库中,为用户提供一个友好、人性化的信息决策服务平台尤为重要。
发明内容
本发明是在原始关系型数据和文本数据上提取人物关系高级特征,不用依赖人工设计,从而达到实体识别的目的,提升查询效率,提高识别效果和准确率的基于本体和多种神经网络集成的人物关系图谱构建方法。
为实现上述目的,本发明的技术方案是:一种基于本体和多种神经网络集成的人物关系图谱构建方法,包括以下步骤:
步骤1:爬取互联网中某个领域与人物有关的文本信息;
步骤2:分析领域中的概念和属性,根据所述与人物有关的文本信息和结构化数据进行领域人物本体建模;
步骤3:针对结构化数据,对有重复实体的数据表进行规范化;将包含直接关系的两个实体数据表,分别通过表名和主键,根据领域人物本体模型,进行各表与本体类和关系的对应;将包含间接关系的关系表与两个实体数据表根据关键字段进行关联,根据领域人物本体模型,进行本体类关系的自动语义映射,获得本体中人物规范的关系名称;
步骤4:针对非结构化的文本数据,基于滑动窗口的深度神经网络实体识别方法进行人名实体识别;基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类;形成不同人物实体之间的三元组;
步骤5:根据步骤3和步骤4的实体关系抽取结果,组合构建人物关系知识图谱;
步骤6:使用HTML5和Echarts相关技术,结合Neo4j数据库和MySQL数据库,实现人物关系图谱存储和可视化。
进一步的,步骤1中所述获取互联网中与人物有关的文本信息,
包括:获取互联网中与人物有关的各类数据,并将获取的互联网中的与人物有关的各类数据进行融合形成知识库;所述获取互联网中某个领域的人物相关表格、文本信息,包括:采用scrapy框架分布式爬取方式获取该领域人物的各类数据,人物关系为所述人物与所述关联人物之间的人际关系,对数据进行结构化存储。
进一步的,步骤2所述本体建模采用自顶向下与自底向上相结合的构建方式,包括以下步骤:
步骤2.1:采用自顶向下的构建方式进行类以及类层次的构建:根据具体领域的概念体系,采用“人、事、物、点、组织”基本要素作为基础类。从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度。对于关系型数据源直接从数据表字段中抽取人物本体类的属性;对于非关系型数据源,则通过特征词抽取人物本体类的属性;
步骤2.2:采用自底向上相结合的方式进行本体类的关系构建:根据结构化的表格文件或关系型数据库中的多表之间的关系,构建本体中的抽象类关系;以人物关系为主,进一步构建不同角色类的交叉关系,包括互斥、交集、并集、补集以及继承关系;且每个属性至少对应一个实体,每个实体至少属于一个类;形成人物本体模型owl文件。
4、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤3所述针对结构化数据,对有重复实体的数据表进行规范化;将包含直接关系的两个实体数据表,分别通过表名和主键,根据领域人物本体模型,进行各表与本体类和关系的对应;将包含间接关系的关系表与两个实体数据表根据关键字段进行关联,根据领域人物本体模型,进行本体类关系的自动语义映射,获得本体中人物规范的关系名称,包括以下步骤;
步骤3.1:对存在实体关系的数据表进行重复实体筛选,若表有重复实体,则单独建立主键唯一的规范化的该类实体数据表;
步骤3.2:采用图数据库Neo4j的Cypher语言的Load语句,将外部整理好的结构化表,包括CSV等格式的文件,作为一类实体信息添加到图数据库;例如,LOAD CSV WITHHEADERS FROM"file:///tablea.csv"AS row CREATE(n:HelpPerson)SET n=row;
步骤3.3:根据包含直接关系的两个表名称和主键名称,确定源数据表、目的数据表,确定本体中对应的两个类名,自动根据本体模型,匹配两个类的关系,并通过Cypher语言的Match语句,建立图数据库中每个实体节点之间的关系;例如,MATCH(a:tablea),(f:tablef)WHERE b.id=f.fid CREATE(a)-:tablef{relation:f.guanxi}]->(f)
步骤3.4:确定包含间接关系的中间关系表名称,以及规范化后的两个实体数据表名称;基于领域人物本体模型,将源数据表、目的数据表的实体名称与本体中的类名称自动匹配,且根据主键自动关联中间关系表,根据本体类名称自动语义映射获得两个人物之间的规范化关系名称;通过Match语句,建立图数据库中每个实体节点之间的关系;例如,MATCH(b:tableb),(b1:tableb1),(h:tableh)WHERE b.id=h.hid AND h.name=b1.nameCREATE(b1)-[:relation{time:h.time}]->(b);
5、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤4所述针对非结构化的文本数据,基于滑动窗口的深度神经网络实体识别方法进行人名实体识别;基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类;形成不同人物实体之间的三元组,包括以下步骤:
步骤4.1:对非结构化的文本数据,采用jieba中文分词工具,将句子划分为细粒度的词,在自定义词典中加入新词,确保专有名词和新词的正确分词;分词后结构如下所示:
分词前:樊明本人残疾,女儿樊小平残疾,妻子任丽容在家务农;
分词后:樊明\本人\残疾\,\女儿\樊小平\残疾\,\妻子\任丽容\在家\务农\;
步骤4.2:将预处理分词后的所有文本当做语料,输入词向量训练工具Word2Vec,通过Skip-Gram方法将分词后的词语映射到同一坐标系,获得词语的数值向量表示。例如,将词语映射为50维度的向量表示,形式如下:
父母:0.172414-0.091063 0.255125-0.837163 0.434872-0.499848……
祖孙:-0.972818-0.236247-0.652281 0.406852 0.849602-0.685552……
设置输出的词向量维度大小以及需要训练词语的最小出现次数,将产生的词向量保存到文本与中文词汇形成一一对应的形式,在后续神经网络训练时可对句子中词语的词向量进行查找。
步骤4.3:将数据整理成每行一个词语,每行词语与词向量一一对应,词语所属实体类别为输出标签,标签采用One-hot编码,将该数据作为神经网络的训练数据,形式如下:T={(x1,y1),(x2,y2),…,(xn,yn)};x代表需要进行实体标注的词语序列,y代表的是输入词语序列对应的实体类别标签;识别的类型包括人名、地名、机构名;
步骤4.4:实体识别深度神经网络由输入层、隐藏层、输出层构成;将上下文定义为一个“窗口”,输入词语采用滑动窗口方式,窗口大小为2n+1,即获取当前词以及其前n个和后n个词的向量拼接为:
X(t)=[Xt-1,X,Xt+1];
随机初始化神经网络权值,计算输出,通过反向传播算法和Adam优化迭代器,循环学习,得到最优权值参数,即人物实体识别模型;例如,窗口为3,每个词向量50维,则输入为150维向量,隐藏层设置神经元个数为100个;根据隐层值和softmax函数,计算:
输出为1和0,分别表示人名实体和非人名实体两类:
步骤4.5:对每个新文本中句子通过神经网络模型识别人名实体后,利用Word2Vec将每个词映射为100维度的词向量;计算句子中两个实体的偏移位;根据实体1的位置x,选取左右边界长度length的词语;将人名实体所在句子标注为如下格式:{实体1,实体2,实体1位置,实体2位置,关系类别};
步骤4.6:采用双向门控循环神经网络进行实体关系抽取;双向门控循环神经网络BiGRU模型结构有四层,包括输入层、BiGRU层、注意层和输出层;计算GRU单元正向输出zt=sigmoid(wzhht-1+wzxxt+bz)和反向输出
rt=sigmoid(wrhht-1+wrxxt+br),计算总输出gt=tanh(wgh(rt·ht-1)+wgxxt+bg);计算注意力层输出γ=HαT和α=softmax(wTM),将正反双向句子级别的特征向量结合起来作为Softmax层的输入,计算出yi类别的概率,得到最后的关系类型为:p(yi|S)=softmax(W(S)h*+b(S));设置正则化系数和BiGRU层、注意层的过拟合dropout参数,计算输出的交叉熵和均方误差,根据adamoptimizer方法,更新权重和偏差,得到人物实体关系抽取模型;
步骤4.7:当循环次数达到最大值时停止循环,将结果保存为三元组格式的Neo4j数据库:{实体1,实体2,关系}。
6、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤5所述根据步骤4的实体关系抽取结果,构建人物关系知识图谱,包括:
根据实体关系抽取结果确定节点和边,根据度大小给节点赋权值,根据共现次数给边赋权值,将如上节点和边以及节点的权值和边的权值作为输入,使用网络构建工具读取输入文档并构建出特定行为共现网,由此得到所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息;
定义一个人名类,该类包含与人名相关联的属性信息,只保留特定行为共现网中的人名节点以及人名节点之间的共现关系,每个人名节点都存储各自的属性信息,从而构建出特定行为共现网中的人物共现关系图谱。
7、根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤6所述使用HTML5和Echarts相关技术,结合Neo4j数据库和MySQL数据库,实现人物关系知识图谱可视化,包括:系统整体采用B/S结构,后端采用Spring Boot框架构建微服务,提供RESTful接口,前端采用HTML5和Echarts
相关技术构建可视化界面,采用Neo4j数据库和MySQL数据库,通过构建解释器将RDF数据导入Neo4j图数据库,实现RDF数据的存储和可视化。
采用本发明,能够解决政府、企业从互联网中查找线索数据难的问题,解决政府和互联网中的大数据存在孤立的数据节点无法融合到统一的知识库中,帮助政府、企业制定政策方案、客户策略,实现更有效的管理,“以人为中心”的构建面向政府、企业领域的人物关系图谱,将政府和互联网中的大数据高效的利用起来,不用依赖人工设计,从而达到实体识别的目的,提升查询效率,提高识别效果和准确率。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图实施例,对本发明做进一步描述:
实施例1
本发明的简要步骤参见图1,包括:
(1)获取互联网中与人物有关的文本信息;
获取互联网中与人物有关的各类数据,并将获取的互联网中的与人物有关的各类数据进行融合形成知识库;
通过自然语言技术从所述知识库中获取关联人物有关的各类数据;
将所述人物与所述关联人物进行匹配形成关联关系;采用分布式爬虫爬取方式获取互联网各类数据;对所述获取的互联网中的各类数据进行细化类别,然后进行标签自动归并,并将类别进行统一。
具体的,互联网中与人物有关的文本信息可以是用户的固有属性,也可以是用户的动态属性,还可以是两者的结合,可以根据不同的业务场景获取不同的标签信息。其中,固有属性包括用户的年龄、性别、职业、收入水平、婚育状况等属性。
获取互联网各类数据时采用分布式爬虫爬取方式,所述分布式爬虫采用主从模式部署,主控节点将用户设置的统一资源定位符(URL)抓取任务分发到各爬虫节点,爬虫节点负责具体的网页下载解析任务,主控节点根据各工作节点的负载情况进行负载均衡。同时,此种方式具有良好的可伸缩性,当系统过载时,通过增加爬虫节点来分担爬取任务。爬虫通过执行定时任务来实现所爬内容的不断自动更新。
获取的各种互联网数据包括以下几大类:政府大数据平台、门户网站,视频网站,电商网站,旅游网站,论坛,微博、微信等。此时由于数据量巨大,为便于构建用户标签,将互联网数据融合打通时,首先对互联网数据细化类别,然后进行标签自动归并,将类别进行统一。
(2)根据所述与人物有关的文本信息进行本体建模;
根据互联网大数据领域所涵盖的数据来源以及业务特征进行本体建模。建模内容包括:类以及类层次构建、关系以及关系关联构建、属性以及属性与类关联关系的构建。构建方式采用自顶向下与自底向上相结合的方式。包括:
步骤2.1:采用自顶向下的构建方式进行类以及类层次的构建:
采用具体领域“人、事、物、点、组织”基本要素作为基础类,再根据数据源特征以及实际业务,从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度;类以及类层次关系构建完毕后,进一步的构建类的交叉关系。本体构建中类以及类层级的构建方式,如下:
针对具体领域“人”这一要素进行类以及类层级构建。“人”这一类作为基础类。根据实际的查询业务,对“人”这一类继续进行展开,分为“亲属”与“非亲属”。对“亲属”以及“非亲属”继续进行展开,“亲属”划分为“父母”、“祖孙”等,“非亲属”划分为“帮扶人”与“同事”等。
步骤2.2:采用自顶向下的构建方式进行类以及类层次的构建:根据具体领域的概念体系,采用“人、事、物、点、组织”基本要素作为基础类。从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度。对于关系型数据源直接从数据表字段中抽取人物本体类的属性;对于非关系型数据源,则通过特征词抽取人物本体类的属性;
步骤2.3:采用自底向上相结合的方式进行本体类的关系构建:根据结构化的表格文件或关系型数据库中的多表之间的关系,构建本体中的抽象类关系;以人物关系为主,进一步构建不同角色类的交叉关系,包括互斥、交集、并集、补集以及继承关系;且每个属性至少对应一个实体,每个实体至少属于一个类;形成人物本体模型owl文件。
每个类均包含一套本类的属性以及属性层级,且子类可以继承父类的属性以及属性层级。所述类的属性划分为“唯一属性”与“非唯一属性”,所述“唯一属性”为属性值为唯一值的属性。其中“唯一属性”与“非唯一属性”又根据实际公共安全业务的需要,划分为“基础属性”、“社会属性”,“物品属性”等。示例中,“唯一属性”中“基础属性”又继续划分为“身份证号”以及“护照号”等。
(3)针对结构化数据,对有重复实体的数据表进行规范化;将包含直接关系的两个实体数据表,分别通过表名和主键,根据领域人物本体模型,进行各表与本体类和关系的对应;将包含间接关系的关系表与两个实体数据表根据关键字段进行关联,根据领域人物本体模型,进行本体类关系的自动语义映射,获得本体中人物规范的关系名称;
对存在实体关系的数据表进行重复实体筛选,若表有重复实体,则单独建立主键唯一的规范化的该类实体数据表;
采用图数据库Neo4j的Cypher语言的Load语句,将外部整理好的结构化表,包括CSV等格式的文件,作为一类实体信息添加到图数据库;例如,LOAD CSV WITH HEADERSFROM"file:///tablea.csv"AS row CREATE(n:HelpPerson)SET n=row;
根据包含直接关系的两个表名称和主键名称,确定源数据表、目的数据表,确定本体中对应的两个类名,自动根据本体模型,匹配两个类的关系,并通过Cypher语言的Match语句,建立图数据库中每个实体节点之间的关系;例如,MATCH(a:tablea),(f:tablef)WHERE b.id=f.fid CREATE(a)-:tablef{relation:f.guanxi}]->(f)
确定包含间接关系的中间关系表名称,以及规范化后的两个实体数据表名称;基于领域人物本体模型,将源数据表、目的数据表的实体名称与本体中的类名称自动匹配,且根据主键自动关联中间关系表,根据本体类名称自动语义映射获得两个人物之间的规范化关系名称;通过Match语句,建立图数据库中每个实体节点之间的关系;例如,MATCH(b:tableb),(b1:tableb1),(h:tableh)WHERE b.id=h.hid AND h.name=b1.name CREATE(b1)-[:relation{time:h.time}]->(b);
(4)针对非结构化的文本数据,基于深度神经网络和双向门控循环神经网络集成的人物实体识别和关系抽取方法,形成多个人物实体之间的三元组数据;
对非结构化的文本数据,采用jieba中文分词工具,将句子划分为细粒度的词,在自定义词典中加入新词,确保专有名词和新词的正确分词;分词后结构如下所示:
分词前:樊明本人残疾,女儿樊小平残疾,妻子任丽容在家务农;
分词后:樊明\本人\残疾\,\女儿\樊小平\残疾\,\妻子\任丽容\在家\务农\;将预处理分词后的所有文本当做语料,输入词向量训练工具Word2Vec,通过Skip-Gram方法将分词后的词语映射到同一坐标系,获得词语的数值向量表示。例如,将词语映射为50维度的向量表示,形式如下:
父母:0.172414-0.091063 0.255125-0.837163 0.434872-0.499848……
祖孙:-0.972818-0.236247-0.652281 0.406852 0.849602-0.685552……
设置输出的词向量维度大小以及需要训练词语的最小出现次数,将产生的词向量保存到文本与中文词汇形成一一对应的形式,在后续神经网络训练时可对句子中词语的词向量进行查找。
将数据整理成每行一个词语,每行词语与词向量一一对应,词语所属实体类别为输出标签,标签采用One-hot编码,将该数据作为神经网络的训练数据,形式如下:T={(x1,y1),(x2,y2),…,(xn,yn)};x代表需要进行实体标注的词语序列,y代表的是输入词语序列对应的实体类别标签;识别的类型包括人名、地名、机构名;
实体识别深度神经网络由输入层、隐藏层、输出层构成;将上下文定义为一个“窗口”,输入词语采用滑动窗口方式,窗口大小为2n+1,即获取当前词以及其前n个和后n个词的向量拼接为:
X(t)=[Xt-1,X,Xt+1];
随机初始化神经网络权值,计算输出,通过反向传播算法和Adam优化迭代器,循环学习,得到最优权值参数,即人物实体识别模型;例如,窗口为3,每个词向量50维,则输入为150维向量,隐藏层设置神经元个数为100个;根据隐层值和softmax函数,计算:
输出为1和0,分别表示人名实体和非人名实体两类:
对每个新文本中句子通过神经网络模型识别人名实体后,利用Word2Vec将每个词映射为100维度的词向量;计算句子中两个实体的偏移位;根据实体1的位置x,选取左右边界长度length的词语;将人名实体所在句子标注为如下格式:{实体1,实体2,实体1位置,实体2位置,关系类别};
采用双向门控循环神经网络进行实体关系抽取;双向门控循环神经网络BiGRU模型结构有四层,包括输入层、BiGRU层、注意层和输出层;计算GRU单元正向输出zt=sigmoid(wzhht-1+wzxxt+bz)和反向输出
rt=sigmoid(wrhht-1+wrxxt+br),计算总输出gt=tanh(wgh(rt·ht-1)+wgxxt+bg);计算注意力层输出γ=HαT和α=softmax(wTM),将正反双向句子级别的特征向量结合起来作为Softmax层的输入,计算出yi类别的概率,得到最后的关系类型为:p(yi|S)=softmax(W(S)h*+b(S));设置正则化系数和BiGRU层、注意层的过拟合dropout参数,计算输出的交叉熵和均方误差,根据adamoptimizer方法,更新权重和偏差,得到人物实体关系抽取模型;
当循环次数达到最大值时停止循环,将结果保存为三元组格式的Neo4j数据库:{实体1,实体2,关系}。
(5)根据步骤4的实体关系抽取结果,构建人物关系知识图谱;根据上一步实体识别的结果,执行关系抽取模型,抽取实体与实体之间的关系,读取实体识别的结果,调用后台基于深度学习的自然语言处理的关系抽取方法,将各个实体之间的关系从文本数据中抽取出来显示在显示区域。
根据实体关系抽取的结果,确定了节点和边之后,可以根据度大小给节点赋权值,根据共现次数给边赋权值;将如上节点和边以及节点的权值和边的权值作为输入,使用网络构建工具读取输入文档并构建出特定行为共现网,由此就可以直观的显示出所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息。
首先定义一个人名类,该类包含与人名相关联的属性信息,如地理位置信息、组织机构信息和节点权值。将特定行为共现网中的地名和组织名作为与其相连的人名的属性信息,只保留特定行为共现网中的人名节点及人名节点之间的共现关系,每个人名节点都存储各自的地理位置、组织机构和节点权值等属性信息,从而构建出特定行为共现网中的人物共现关系图谱。另外,根据社会网络中的度中心性原理,
一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要,利用节点的权值,可以过滤出人物共现关系图谱中的关键人物和关键人物之间的共现关系,提高网络中信息的可信度。
(6)使用HTML5和Echarts相关技术,结合Neo4j数据库和MySQL数据库,实现人物关系知识图谱可视化,包括:系统整体采用B/S结构,后端采用Spring Boot框架构建微服务,提供RESTful接口,前端采用HTML5和Echarts相关技术构建可视化界面,采用Neo4j数据库和MySQL数据库,通过构建解释器将RDF数据导入Neo4j图数据库,实现RDF数据的存储和可视化。
人物关系查询是通过接口向Neo4j图数据库查询,返回以此人物为中心的图结构,包括人物基本信息,与该人物直接相关的其他人物及关系名称。从Neo4j图数据库中获取数据,通过组织json数据传到前端,前端使用echarts组件进行渲染,显示在前端提供给用户查看。
包括人物之间的多个关联关系、人物基本属性,以及相关实体的基本属性,为用户提供一种能够表达原始数据中隐含关联关系的直观可视化呈现。
关系路径查询是向Neo4j图数据库查询他们之间的关系,并返回图结果。若两个人物没有关系,则返回两个孤立的结点。用户可以选择一个节点,拖动该节点,通过节点之间的边缘标签查看字符与其他字符之间的关系,并使用多深度关系查询方法挖掘更深的关系。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (7)
1.一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:包括以下步骤:
步骤1:爬取互联网中某个领域与人物有关的文本信息;
步骤2:分析领域中的概念和属性,根据所述与人物有关的文本信息和结构化数据进行领域人物本体建模;
步骤3:针对结构化数据,对有重复实体的数据表进行规范化;将包含直接关系的两个实体数据表,分别通过表名和主键,根据领域人物本体模型,进行各表与本体类和关系的对应;将包含间接关系的关系表与两个实体数据表根据关键字段进行关联,根据领域人物本体模型,进行本体类关系的自动语义映射,获得本体中人物规范的关系名称;
步骤4:针对非结构化的文本数据,基于滑动窗口的深度神经网络实体识别方法进行人名实体识别;基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类;形成不同人物实体之间的三元组;
步骤5:根据步骤3和步骤4的实体关系抽取结果,组合构建人物关系知识图谱;
步骤6:使用HTML5和Echarts相关技术,结合Neo4j数据库和MySQL数据库,实现人物关系图谱存储和可视化。
2.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤1中所述获取互联网中某个领域的人物相关表格、文本信息,包括:采用scrapy框架分布式爬取方式获取该领域人物的各类数据,人物关系为所述人物与所述关联人物之间的人际关系,对数据进行结构化存储。
3.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤2中所述采用自顶向下与自底向上相结合的构建方式构建领域人物本体,包括以下步骤:
步骤2.1:采用自顶向下的构建方式进行类以及类层次的构建:根据具体领域的概念体系,采用“人、事、物、点、组织”基本要素作为基础类。从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度。对于关系型数据源直接从数据表字段中抽取人物本体类的属性;对于非关系型数据源,则通过特征词抽取人物本体类的属性;
步骤2.2:采用自底向上相结合的方式进行本体类的关系构建:根据结构化的表格文件或关系型数据库中的多表之间的关系,构建本体中的抽象类关系;以人物关系为主,进一步构建不同角色类的交叉关系,包括互斥、交集、并集、补集以及继承关系;且每个属性至少对应一个实体,每个实体至少属于一个类;形成人物本体模型owl文件。
4.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤3所述针对结构化数据,对有重复实体的数据表进行规范化;将包含直接关系的两个实体数据表,分别通过表名和主键,根据领域人物本体模型,进行各表与本体类和关系的对应;将包含间接关系的关系表与两个实体数据表根据关键字段进行关联,根据领域人物本体模型,进行本体类关系的自动语义映射,获得本体中人物规范的关系名称,包括以下步骤;
步骤3.1:对存在实体关系的数据表进行重复实体筛选,若表有重复实体,则单独建立主键唯一的规范化的该类实体数据表;
步骤3.2:采用图数据库Neo4j的Cypher语言的Load语句,将外部整理好的结构化表,包括CSV等格式的文件,作为一类实体信息添加到图数据库;例如,LOAD CSV WITH HEADERSFROM"file:///tablea.csv"AS row CREATE(n:HelpPerson)SET n=row;
步骤3.3:根据包含直接关系的两个表名称和主键名称,确定源数据表、目的数据表,确定本体中对应的两个类名,自动根据本体模型,匹配两个类的关系,并通过Cypher语言的Match语句,建立图数据库中每个实体节点之间的关系;例如,MATCH(a:tablea),(f:tablef)WHERE b.id=f.fid CREATE(a)-:tablef{relation:f.guanxi}]->(f)
步骤3.4:确定包含间接关系的中间关系表名称,以及规范化后的两个实体数据表名称;基于领域人物本体模型,将源数据表、目的数据表的实体名称与本体中的类名称自动匹配,且根据主键自动关联中间关系表,根据本体类名称自动语义映射获得两个人物之间的规范化关系名称;通过Match语句,建立图数据库中每个实体节点之间的关系;例如,MATCH(b:tableb),(b1:tableb1),(h:tableh)WHERE b.id=h.hid AND h.name=b1.nameCREATE(b1)-[:relation{time:h.time}]->(b)。
5.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤4所述针对非结构化的文本数据,基于滑动窗口的深度神经网络实体识别方法进行人名实体识别;基于实体位置特征的双向门控循环神经网络关系抽取方法进行人名实体间的关系分类;形成不同人物实体之间的三元组,包括以下步骤:
步骤4.1:对非结构化的文本数据,采用jieba中文分词工具,将句子划分为细粒度的词,在自定义词典中加入新词,确保专有名词和新词的正确分词;分词后结构如下所示:
分词前:樊明本人残疾,女儿樊小平残疾,妻子任丽容在家务农;
分词后:樊明\本人\残疾\,\女儿\樊小平\残疾\,\妻子\任丽容\在家\务农\;
步骤4.2:将预处理分词后的所有文本当做语料,输入词向量训练工具Word2Vec,通过Skip-Gram方法将分词后的词语映射到同一坐标系,获得词语的数值向量表示。例如,将词语映射为50维度的向量表示,形式如下:
父母:0.172414-0.091063 0.255125-0.837163 0.434872-0.499848……
祖孙:-0.972818-0.236247-0.652281 0.406852 0.849602-0.685552……
设置输出的词向量维度大小以及需要训练词语的最小出现次数,将产生的词向量保存到文本与中文词汇形成一一对应的形式,在后续神经网络训练时可对句子中词语的词向量进行查找。
步骤4.3:将数据整理成每行一个词语,每行词语与词向量一一对应,词语所属实体类别为输出标签,标签采用One-hot编码,将该数据作为神经网络的训练数据,形式如下:T={(x1,y1),(x2,y2),…,(xn,yn)};x代表需要进行实体标注的词语序列,y代表的是输入词语序列对应的实体类别标签;识别的类型包括人名、地名、机构名;
步骤4.4:实体识别深度神经网络由输入层、隐藏层、输出层构成;将上下文定义为一个“窗口”,输入词语采用滑动窗口方式,窗口大小为2n+1,即获取当前词以及其前n个和后n个词的向量拼接为:
X(t)=[Xt-1,X,Xt+1];
随机初始化神经网络权值,计算输出,通过反向传播算法和Adam优化迭代器,循环学习,得到最优权值参数,即人物实体识别模型;例如,窗口为3,每个词向量50维,则输入为150维向量,隐藏层设置神经元个数为100个;根据隐层值和softmax函数,计算:
输出为1和0,分别表示人名实体和非人名实体两类:
步骤4.5:对每个新文本中句子通过神经网络模型识别人名实体后,利用Word2Vec将每个词映射为100维度的词向量;计算句子中两个实体的偏移位;根据实体1的位置x,选取左右边界长度length的词语;将人名实体所在句子标注为如下格式:{实体1,实体2,实体1位置,实体2位置,关系类别};
步骤4.6:采用双向门控循环神经网络进行实体关系抽取;双向门控循环神经网络BiGRU模型结构有四层,包括输入层、BiGRU层、注意层和输出层;计算GRU单元正向输出zt=sigmoid(wzhht-1+wzxxt+bz)和反向输出rt=sigmoid(wrhht-1+wrxxt+br),计算总输出gt=tanh(wgh(rt·ht-1)+wgxxt+bg);计算注意力层输出γ=HαT和α=softmax(wTM),将正反双向句子级别的特征向量结合起来作为Softmax层的输入,计算出yi类别的概率,得到最后的关系类型为:p(yi|S)=softmax(W(S)h*+b(S));设置正则化系数和BiGRU层、注意层的过拟合dropout参数,计算输出的交叉熵和均方误差,根据adamoptimizer方法,更新权重和偏差,得到人物实体关系抽取模型;
步骤4.7:当循环次数达到最大值时停止循环,将结果保存为三元组格式的Neo4j数据库:{实体1,实体2,关系}。
6.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤5所述根据步骤4的实体关系抽取结果,构建人物关系知识图谱,包括:
根据实体关系抽取结果确定节点和边,根据度大小给节点赋权值,根据共现次数给边赋权值,将如上节点和边以及节点的权值和边的权值作为输入,使用网络构建工具读取输入文档并构建出特定行为共现网,由此得到所关注的某些人物、人物所在的地理位置信息以及与人物相关联的组织机构信息;
定义一个人名类,该类包含与人名相关联的属性信息,只保留特定行为共现网中的人名节点以及人名节点之间的共现关系,每个人名节点都存储各自的属性信息,从而构建出特定行为共现网中的人物共现关系图谱。
7.根据权利要求1所述的一种基于本体和多种神经网络集成的人物关系图谱构建方法,其特征在于:步骤6所述使用HTML5和Echarts相关技术,结合Neo4j数据库和MySQL数据库,实现人物关系知识图谱可视化,包括:系统整体采用B/S结构,后端采用Spring Boot框架构建微服务,提供RESTful接口,前端采用HTML5和Echarts
相关技术构建可视化界面,采用Neo4j数据库和MySQL数据库,通过构建解释器将RDF数据导入Neo4j图数据库,实现RDF数据的存储和可视化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534969.XA CN110222199A (zh) | 2019-06-20 | 2019-06-20 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534969.XA CN110222199A (zh) | 2019-06-20 | 2019-06-20 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110222199A true CN110222199A (zh) | 2019-09-10 |
Family
ID=67814273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910534969.XA Pending CN110222199A (zh) | 2019-06-20 | 2019-06-20 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222199A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750599A (zh) * | 2019-09-20 | 2020-02-04 | 中国电子科技集团公司第二十八研究所 | 一种基于实体建模的关联信息抽取和显示方法 |
CN110765135A (zh) * | 2019-10-28 | 2020-02-07 | 深圳市元征科技股份有限公司 | 汽修资料结构标准化方法、装置及电子设备和存储介质 |
CN110795568A (zh) * | 2019-09-30 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 基于用户信息知识图谱的风险评估方法、装置和电子设备 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110955659A (zh) * | 2019-11-28 | 2020-04-03 | 第四范式(北京)技术有限公司 | 处理数据表的方法及系统 |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN111104525A (zh) * | 2019-12-31 | 2020-05-05 | 西安理工大学 | 一种基于图数据库的建筑设计规范知识图谱构建方法 |
CN111198852A (zh) * | 2019-12-30 | 2020-05-26 | 浪潮通用软件有限公司 | 微服务架构下知识图谱驱动的元数据关系推理方法 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN111488405A (zh) * | 2020-04-16 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 一种信息更新方法及装置 |
CN111506706A (zh) * | 2020-04-15 | 2020-08-07 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111858784A (zh) * | 2020-07-21 | 2020-10-30 | 广东科杰通信息科技有限公司 | 一种基于transH的人员亲属关系预测方法 |
CN111915010A (zh) * | 2020-06-19 | 2020-11-10 | 西安理工大学 | 一种基于组合结构的规范知识存储方法 |
CN112052343A (zh) * | 2020-09-11 | 2020-12-08 | 北京中亦安图科技股份有限公司 | 知识图谱展示方法、装置、电子设备及存储介质 |
CN112100451A (zh) * | 2020-09-14 | 2020-12-18 | 上海飞机制造有限公司 | 基于图数据库搭建工业神经网络的方法 |
CN112100292A (zh) * | 2020-09-22 | 2020-12-18 | 山东旗帜信息有限公司 | 一种人员关系图谱测定方法和装置 |
CN112101009A (zh) * | 2020-09-23 | 2020-12-18 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112256939A (zh) * | 2020-09-17 | 2021-01-22 | 青岛科技大学 | 一种针对化工领域的文本实体关系抽取方法 |
CN112270173A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 文本中的人物挖掘方法、装置、电子设备及存储介质 |
CN112287674A (zh) * | 2020-12-17 | 2021-01-29 | 成都数联铭品科技有限公司 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
CN112364091A (zh) * | 2020-11-09 | 2021-02-12 | 北京工商大学 | 一种基于知识图谱的人物关系可视化查询方法及系统 |
WO2021051909A1 (zh) * | 2019-09-18 | 2021-03-25 | 北京国双科技有限公司 | 油气数据处理方法及装置 |
CN112800175A (zh) * | 2020-11-03 | 2021-05-14 | 广东电网有限责任公司 | 一种电力系统知识实体跨文档搜索方法 |
CN113032585A (zh) * | 2021-05-31 | 2021-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于文档结构和外部知识的文档级实体关系抽取方法 |
CN113051929A (zh) * | 2021-03-23 | 2021-06-29 | 电子科技大学 | 一种基于细粒度语义信息增强的实体关系抽取的方法 |
CN113065657A (zh) * | 2021-04-09 | 2021-07-02 | 顶象科技有限公司 | 一种基于银行对公数据的知识图谱构建方法和装置 |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113220871A (zh) * | 2021-05-31 | 2021-08-06 | 北京语言大学 | 一种基于深度学习的文学人物关系识别方法 |
CN113361979A (zh) * | 2021-08-10 | 2021-09-07 | 湖南高至科技有限公司 | 面向剖面本体建模方法、装置、计算机设备和存储介质 |
CN113392223A (zh) * | 2021-05-12 | 2021-09-14 | 同方知网数字出版技术股份有限公司 | 一种基于气象领域的知识图谱构建方法 |
CN113407725A (zh) * | 2020-03-17 | 2021-09-17 | 复旦大学 | 基于知识图谱构建规章的本体模型的方法 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
CN113722434A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
CN113806549A (zh) * | 2021-02-09 | 2021-12-17 | 京东科技控股股份有限公司 | 人员关系图谱的构建方法、装置及电子设备 |
CN114610819A (zh) * | 2022-03-17 | 2022-06-10 | 中科世通亨奇(北京)科技有限公司 | 长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库 |
CN115114932A (zh) * | 2022-06-24 | 2022-09-27 | 重庆邮电大学 | 一种基于关键词的多粒度中文短文本匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760439A (zh) * | 2016-02-02 | 2016-07-13 | 西安交通大学 | 一种基于特定行为共现网络的人物共现关系图谱构建方法 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106909662A (zh) * | 2017-02-27 | 2017-06-30 | 腾讯科技(上海)有限公司 | 知识图谱构建方法及装置 |
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
CN109446343A (zh) * | 2018-11-05 | 2019-03-08 | 上海德拓信息技术股份有限公司 | 一种公共安全知识图谱构建的方法 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
-
2019
- 2019-06-20 CN CN201910534969.XA patent/CN110222199A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760439A (zh) * | 2016-02-02 | 2016-07-13 | 西安交通大学 | 一种基于特定行为共现网络的人物共现关系图谱构建方法 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106909662A (zh) * | 2017-02-27 | 2017-06-30 | 腾讯科技(上海)有限公司 | 知识图谱构建方法及装置 |
CN108519890A (zh) * | 2018-04-08 | 2018-09-11 | 武汉大学 | 一种基于自注意力机制的鲁棒性代码摘要生成方法 |
CN109446343A (zh) * | 2018-11-05 | 2019-03-08 | 上海德拓信息技术股份有限公司 | 一种公共安全知识图谱构建的方法 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051909A1 (zh) * | 2019-09-18 | 2021-03-25 | 北京国双科技有限公司 | 油气数据处理方法及装置 |
CN110750599A (zh) * | 2019-09-20 | 2020-02-04 | 中国电子科技集团公司第二十八研究所 | 一种基于实体建模的关联信息抽取和显示方法 |
CN110750599B (zh) * | 2019-09-20 | 2022-06-28 | 中国电子科技集团公司第二十八研究所 | 一种基于实体建模的关联信息抽取和显示方法 |
CN110795568A (zh) * | 2019-09-30 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 基于用户信息知识图谱的风险评估方法、装置和电子设备 |
CN110765135A (zh) * | 2019-10-28 | 2020-02-07 | 深圳市元征科技股份有限公司 | 汽修资料结构标准化方法、装置及电子设备和存储介质 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110826316B (zh) * | 2019-11-06 | 2021-08-10 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110955659A (zh) * | 2019-11-28 | 2020-04-03 | 第四范式(北京)技术有限公司 | 处理数据表的方法及系统 |
CN110955659B (zh) * | 2019-11-28 | 2023-02-21 | 第四范式(北京)技术有限公司 | 处理数据表的方法及系统 |
CN110991165A (zh) * | 2019-12-12 | 2020-04-10 | 智器云南京信息科技有限公司 | 文本中人物关系提取方法及装置、计算机设备和存储介质 |
CN111198852A (zh) * | 2019-12-30 | 2020-05-26 | 浪潮通用软件有限公司 | 微服务架构下知识图谱驱动的元数据关系推理方法 |
CN111104525B (zh) * | 2019-12-31 | 2022-03-25 | 西安理工大学 | 一种基于图数据库的建筑设计规范知识图谱构建方法 |
CN111104525A (zh) * | 2019-12-31 | 2020-05-05 | 西安理工大学 | 一种基于图数据库的建筑设计规范知识图谱构建方法 |
CN113407725B (zh) * | 2020-03-17 | 2022-03-18 | 复旦大学 | 基于知识图谱构建规章的本体模型的方法 |
CN113407725A (zh) * | 2020-03-17 | 2021-09-17 | 复旦大学 | 基于知识图谱构建规章的本体模型的方法 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN111444351B (zh) * | 2020-03-24 | 2023-09-12 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN111506706B (zh) * | 2020-04-15 | 2022-06-17 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111506706A (zh) * | 2020-04-15 | 2020-08-07 | 重庆邮电大学 | 一种基于关系相似度的上下义关系森林构建方法 |
CN111488405A (zh) * | 2020-04-16 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 一种信息更新方法及装置 |
CN111915010A (zh) * | 2020-06-19 | 2020-11-10 | 西安理工大学 | 一种基于组合结构的规范知识存储方法 |
CN111915010B (zh) * | 2020-06-19 | 2024-02-02 | 西安理工大学 | 一种基于组合结构的规范知识存储方法 |
CN111858784A (zh) * | 2020-07-21 | 2020-10-30 | 广东科杰通信息科技有限公司 | 一种基于transH的人员亲属关系预测方法 |
CN112052343A (zh) * | 2020-09-11 | 2020-12-08 | 北京中亦安图科技股份有限公司 | 知识图谱展示方法、装置、电子设备及存储介质 |
CN112100451B (zh) * | 2020-09-14 | 2023-11-17 | 上海飞机制造有限公司 | 基于图数据库搭建工业神经网络的方法 |
CN112100451A (zh) * | 2020-09-14 | 2020-12-18 | 上海飞机制造有限公司 | 基于图数据库搭建工业神经网络的方法 |
CN112256939A (zh) * | 2020-09-17 | 2021-01-22 | 青岛科技大学 | 一种针对化工领域的文本实体关系抽取方法 |
CN112256939B (zh) * | 2020-09-17 | 2022-09-16 | 青岛科技大学 | 一种针对化工领域的文本实体关系抽取方法 |
CN112100292A (zh) * | 2020-09-22 | 2020-12-18 | 山东旗帜信息有限公司 | 一种人员关系图谱测定方法和装置 |
CN112101009A (zh) * | 2020-09-23 | 2020-12-18 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112101009B (zh) * | 2020-09-23 | 2024-03-26 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN112270173A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 文本中的人物挖掘方法、装置、电子设备及存储介质 |
CN112800175A (zh) * | 2020-11-03 | 2021-05-14 | 广东电网有限责任公司 | 一种电力系统知识实体跨文档搜索方法 |
CN112364091A (zh) * | 2020-11-09 | 2021-02-12 | 北京工商大学 | 一种基于知识图谱的人物关系可视化查询方法及系统 |
CN112287674B (zh) * | 2020-12-17 | 2021-03-26 | 成都数联铭品科技有限公司 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
CN112287674A (zh) * | 2020-12-17 | 2021-01-29 | 成都数联铭品科技有限公司 | 企业间同名大节点识别方法、系统、电子设备及存储介质 |
CN113806549A (zh) * | 2021-02-09 | 2021-12-17 | 京东科技控股股份有限公司 | 人员关系图谱的构建方法、装置及电子设备 |
CN113051929A (zh) * | 2021-03-23 | 2021-06-29 | 电子科技大学 | 一种基于细粒度语义信息增强的实体关系抽取的方法 |
CN113065657A (zh) * | 2021-04-09 | 2021-07-02 | 顶象科技有限公司 | 一种基于银行对公数据的知识图谱构建方法和装置 |
CN113392223A (zh) * | 2021-05-12 | 2021-09-14 | 同方知网数字出版技术股份有限公司 | 一种基于气象领域的知识图谱构建方法 |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113220871B (zh) * | 2021-05-31 | 2023-10-20 | 山东外国语职业技术大学 | 一种基于深度学习的文学人物关系识别方法 |
CN113032585B (zh) * | 2021-05-31 | 2021-08-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于文档结构和外部知识的文档级实体关系抽取方法 |
CN113220871A (zh) * | 2021-05-31 | 2021-08-06 | 北京语言大学 | 一种基于深度学习的文学人物关系识别方法 |
CN113032585A (zh) * | 2021-05-31 | 2021-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于文档结构和外部知识的文档级实体关系抽取方法 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
CN113361979A (zh) * | 2021-08-10 | 2021-09-07 | 湖南高至科技有限公司 | 面向剖面本体建模方法、装置、计算机设备和存储介质 |
CN113722434A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
CN113722434B (zh) * | 2021-08-30 | 2024-05-03 | 平安科技(深圳)有限公司 | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
CN114610819A (zh) * | 2022-03-17 | 2022-06-10 | 中科世通亨奇(北京)科技有限公司 | 长文本中人物属性关系抽取数据库的建立方法、实体抽取方法,装置及数据库 |
CN115114932A (zh) * | 2022-06-24 | 2022-09-27 | 重庆邮电大学 | 一种基于关键词的多粒度中文短文本匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222199A (zh) | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 | |
JP7468929B2 (ja) | 地理知識取得方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
US10496749B2 (en) | Unified semantics-focused language processing and zero base knowledge building system | |
CN104318340B (zh) | 基于文本履历信息的信息可视化方法及智能可视分析系统 | |
CN110765117B (zh) | 欺诈识别方法、装置、电子设备及计算机可读存储介质 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN100524317C (zh) | 一种关联关系搜索结果的排序方法及装置 | |
CN109284396A (zh) | 医学知识图谱构建方法、装置、服务器及存储介质 | |
CN105893349A (zh) | 类目标签匹配映射方法及装置 | |
CN111625658A (zh) | 基于知识图谱的语音交互方法、装置、设备及存储介质 | |
Benslimane et al. | Contextual ontologies: Motivations, challenges, and solutions | |
Patel et al. | Data of semantic web as unit of knowledge | |
Xue et al. | Generative adversarial learning for optimizing ontology alignment | |
CN112988917A (zh) | 一种基于多种实体上下文的实体对齐方法 | |
Ra et al. | The mixed ontology building methodology using database information | |
CN113672599A (zh) | 通过创建领域知识图谱实现政务信息化项目建设管理的可视化辅助决策方法 | |
Pavlić et al. | Graph-based formalisms for knowledge representation | |
CN113946686A (zh) | 电力营销知识图谱构建方法及系统 | |
Liu et al. | Identifying experts in community question answering website based on graph convolutional neural network | |
CN105205075B (zh) | 基于协同自扩展的命名实体集合扩展方法及查询推荐方法 | |
Burov et al. | The Basic Ontology Development Process Automation Based on Text Resources Analysis | |
Terziev et al. | D. 1.8. 1 Base upper-level ontology (BULO) Guidance | |
Rao et al. | Enhancing multi-document summarization using concepts | |
Liu | DKG-PIPD: A Novel Method About Building Deep Knowledge Graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190910 |
|
WD01 | Invention patent application deemed withdrawn after publication |