CN108875051A - 面向海量非结构化文本的知识图谱自动构建方法及系统 - Google Patents

面向海量非结构化文本的知识图谱自动构建方法及系统 Download PDF

Info

Publication number
CN108875051A
CN108875051A CN201810687745.8A CN201810687745A CN108875051A CN 108875051 A CN108875051 A CN 108875051A CN 201810687745 A CN201810687745 A CN 201810687745A CN 108875051 A CN108875051 A CN 108875051A
Authority
CN
China
Prior art keywords
entity
knowledge
sentence
knowledge mapping
structured text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810687745.8A
Other languages
English (en)
Other versions
CN108875051B (zh
Inventor
李世奇
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810687745.8A priority Critical patent/CN108875051B/zh
Priority to PCT/CN2018/114011 priority patent/WO2020000848A1/zh
Publication of CN108875051A publication Critical patent/CN108875051A/zh
Application granted granted Critical
Publication of CN108875051B publication Critical patent/CN108875051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机软件技术领域,公开了一种面向海量非结构化文本的知识图谱自动构建方法及系统,将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。本发明能够大幅提高知识图谱的构建速度,提高时间效率,降低人力资源成本30%以上。同时,本发明具有较好的领域移植性,在构建知识图谱时,仅需对本发明中的实体和关系抽取算法进行优化,即可迅速实现。

Description

面向海量非结构化文本的知识图谱自动构建方法及系统
技术领域
本发明属于计算机软件技术领域,尤其涉及一种面向海量非结构化文本的知识图谱自动构建方法及系统。
背景技术
目前,业内常用的现有技术是这样的:知识图谱(Knowledge Graph)旨在描述客观世界的实体及其之间的关系,是图状具有关联性的知识集合,由一些相互连接的实体和他们的属性构成。2012年,谷歌公司首先推出了知识图谱,并利用其在搜索引擎中增强搜索结果,也标志着大规模知识图谱在互联网语义搜索中的成功应用。换言之,知识图谱是由海量的知识组成,每条知识用一个三元组来表示,例如:(中国,首都,北京)。目前,知识图谱大都从百科类结构化数据中抽取和构建;知识图谱可以服务不同行业和应用场景的客户,如金融、公共安全、法律、企业、出版、医疗等,每个领域都对知识图谱有巨大的需求,都需要从开放的指定领域的新闻文本提取知识实体、属性和关系等,利用实体识别、关系抽取和实体链接的智能处理技术,构建知识图谱。
综上所述,现有技术存在的问题是:目前,面向海量非结构化文本的知识图谱自动构建方法较少,技术难度较大。现有方法主要以人工方式为主,自动化程度较低,需要繁重的人工劳动对图谱进行构造、修剪、去重、加工和对齐,整个过程专业程度高,工作量大,不易维护。
解决上述技术问题的难度和意义:本发明提出的面向海量非结构化文本的知识图谱自动构建方法较少,能够借助知识图谱技术在互联网基础上构建起深层概念知识网络,将海量信息以更接近人类认知的形式有效组织、呈现和可视化分析。通过知识图谱计算推理预测实体之间的隐含关系,获得更丰富的信息。
发明内容
针对现有技术存在的问题,本发明提供了一种面向海量非结构化文本的知识图谱自动构建方法及系统。
本发明是这样实现的,一种面向海量非结构化文本的知识图谱自动构建方法,所述面向海量非结构化文本的知识图谱自动构建方法将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。
所述将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注具体包括:将命名实体识别问题视为一个序列标注问题,使用序列标注问题中通用的BIO标注集,B-PER、I-PER分别代表人名首字、人名非首字,B-LOC、I-LOC分别代表地名首字、地名非首字,B-ORG、I-ORG分别代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
进一步包括:
(1)利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量xi∈Rd,d是embedding的维度,在输入下一层之前,设置dropout以缓解过拟合;
(2)自动提取句子特征,将一个句子的各个字的char embedding序列(x1,x2......xn)作为双向LSTM的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM的(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列:
(h1,h2......hn)∈Rn×m;
(3)将隐状态向量从m维映射到k维,k是标注集的标签数,得到自动提取的句子特征,记作矩阵=(p1,p2......pn)∈Rn×k;把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,再对P进行Softmax,相当于对各个位置独立进行k类分类;
(4)进行句子级的序列标注,CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候可以利用此前已经标注过的标签;一个长度等于句子长度的标签序列y=(y1,y2......yn),模型对于句子x的标签等于y的打分为:
其中,表示将yi分类到第i个标签的打分值,表示从第yi-1个标签到第yi个标签的转移得分;
利用Softmax得到归一化后的概率:
P(y|x)=exp(score(x,y))∑y′exp(score(x,y′));
模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
y*=argmaxy′score(x,y′)。
所述根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系进一步包括:找到具有确定关系的实体对,再去获取该实体对共同出现的语句作为正样本;负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。
所述链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合进一步包括:
(1)根据字典选择k个两两不指向同一物理对象的实体作为初始簇中心;
(2)计算图谱内各实体与簇中心之间的距离;
(3)将各实体划分到与它们距离最近的实体;
(4)比较聚类前各个簇与聚类后簇内情况,若各个簇发生变化,重复步骤(2)-步骤(4);
(5)设置阈值t,计算簇内各个实体与簇中心的距离,若距离小于阈值,将实体从簇内排除。簇内剩余实体为对齐至同一物理对象的实体,算法结束。
本发明的另一目的在于提供一种应用所述面向海量非结构化文本的知识图谱自动构建方法的面向海量非结构化文本的知识图谱自动构建系统,所述面向海量非结构化文本的知识图谱自动构建系统包括:数据源模块、知识抽取模块、知识融合模块、知识存储模块、知识图谱模块。
进一步,所述数据源模块还包括:大数据平台新闻文本单元、用户上传新闻文本单元;
所述知识抽取模块还包括:实体抽取单元、属性抽取单元、关系抽取单元、知识规则表示、抽取与发现单元;
所述知识融合模块还包括:知识更新单元、实体对齐单元、知识加工单元;
所述知识存储模块还包括:知识链接单元、RDF存储单元、关系/图数据库存储单元;
所述知识图谱模块还包括:新闻知识图谱构建单元。
本发明的另一目的在于提供一种实现所述面向海量非结构化文本的知识图谱自动构建方法的计算机程序。
本发明的另一目的在于提供一种实现所述面向海量非结构化文本的知识图谱自动构建方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的面向海量非结构化文本的知识图谱自动构建方法。
综上所述,本发明的优点及积极效果为:通过实体识别、关系抽取和实体链接方法快速、准确自动提取实体关系三元组,实现知识图谱的自动构建,支持对知识图谱的可视化查询和溯源查看能力。本发明解决了知识图谱构建过程中需要繁重的人工劳动对图谱进行构造、修剪、去重、加工和对齐,整个过程专业程度高,工作量大,不易维护等问题;能够大幅提高知识图谱的构建速度,提高时间效率,降低人力资源成本30%以上。同时,本发明具有较好的领域移植性,在构建金融、法律、企业、军事和医疗等垂直领域知识图谱时,仅需对本发明中的实体和关系抽取算法进行优化,即可迅速实现。
本发明功能主要包括数据源引接、实体抽取、关系抽取、实体对齐、实体链接、跨语言链接、RDF存储;能够从海量非结构化的互联网语料中,完成命名实体提取和识别,包括组织名、人名、地名等实体类型的抽取,并建立实体之间的关系,形成完整的新闻知识图谱平台。
附图说明
图1是本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法流程图。
图2是本发明实施例提供的面向海量非结构化文本的知识图谱自动构建系统结构示意图;
图中:1、数据源模块;2、知识抽取模块;3、知识融合模块;4、知识存储模块;5、知识图谱模块。
图3是本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法实现流程图。
图4是本发明实施例提供的基于biLSTM的命名实体识别结构示意图。
图5是本发明实施例提供的双向GRU加字级别注意力模型示意图。
图6是本发明实施例提供的双向GRU加Dual Attention模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的面向非结构化的互联网文本的知识图谱自动构建方法,更加具有普适性,可以迅速构建起规模较大的知识图谱。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法包括以下步骤:
S101:将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;
S102:根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;
S103:链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。
如图2所示,本发明实施例提供的面向海量非结构化文本的知识图谱自动构建系统包括:数据源模块1、知识抽取模块2、知识融合模块3、知识存储模块4、知识图谱模块5。
数据源模块1还包括:大数据平台新闻文本单元、用户上传新闻文本单元。
知识抽取模块2还包括:实体抽取单元、属性抽取单元、关系抽取单元、知识规则表示、抽取与发现单元。
知识融合模块3还包括:知识更新单元、实体对齐单元、知识加工单元。
知识存储模块4还包括:知识链接单元、RDF存储单元、关系/图数据库存储单元。
知识图谱模块5还包括:新闻知识图谱构建单元。
下面结合附图对本发明的应用原理作进一步的描述。
如图3所示,本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法包括以下步骤:
步骤一,实体抽取是指识别文本中具有特定意义的命名实体,命名实体是文本中承载信息的重要语言单位,具有数量众多、构成规律复杂以及组合嵌套等特点,主要包括人名、地名、机构名、专有名词等。通常来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本发明中将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注。同时,命名实体存在一些歧义,需要将不同的待消歧命名实体指称区分开,显示出待消歧命名实体指称的确切含义。
本发明采用一种双向长短期记忆(Bidirectional Long Short-Term Memory,简称BiLSTM)网络与条件随机场(Conditional Random Field,简称CRF)模型相结合的方法,简称BiLSTM-CRF方法。将命名实体识别问题视为一个序列标注问题。使用序列标注问题中通用的BIO标注集,B-PER、I-PER分别代表人名首字、人名非首字,B-LOC、I-LOC分别代表地名首字、地名非首字,B-ORG、I-ORG分别代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。例如:
阿里巴巴董事局主席马云到访泰国。
B-ORG I-ORG I-ORG I-ORG O O O O O B-PER I-PER O O B-LOC I-LOC O。
模型结构如图4所示,模型第一层是embedding层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量(characterembedding)xi∈Rd,d是embedding的维度。在输入下一层之前,设置dropout以缓解过拟合。
模型的第二层是BiLSTM层,自动提取句子特征。将一个句子的各个字的charembedding序列(x1,x2......xn)作为双向LSTM的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM的(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列:
(h1,h2......hn)∈Rn×m;
在设置dropout后,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵=(p1,p2,...,pn)∈Rn×k。可以把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,如果再对P进行Softmax的话,就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息,所以接下来将接入一个CRF层来进行标注。
模型的第三层是CRF层,进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候可以利用此前已经标注过的标签;一个长度等于句子长度的标签序列y=(y1,y2......yn),模型对于句子x的标签等于y的打分为:
其中,表示将yi分类到第i个标签的打分值,表示从第yi-1个标签到第yi个标签的转移得分;
可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
P(y|x)=exp(score(x,y))∑y′exp(score(x,y′));
模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
y*=argmaxy′score(x,y′);
关系抽取从文本中识别实体并抽取实体之间的语义关系,有监督的学习方法:将关系抽取任务当做分类问题。根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。关系抽取主要关注实体之间的关系,实体关系可以是多元的,也可以二元的。其中最常见也最普遍的关系就是二元关系,二元关系指的是两个实体之间的关系。关系抽取是给定两个实体以及对应的上下文语料,判定其关系类别。属性抽取是给定一个实体和几种属性,通过一个由非结构化文本组成的文本集合,抽取出该实体的这几种属性的值。两种方法机制都是在于填补缺失三元组信息,即关系类别或者属性值。与实体抽取类似,关系(属性)抽取主要有基于规则的方法,基于机器学习的方法及目前相对流行的基于深度学习的方法。面向于从开放域新闻文本中实现关系(属性)抽取,本发明主要采用深度学习方法,从而综合利用提取的特征。系统平台具备从非结构化文本中抽取给定实体的属性及属性值,得到(实体,属性,属性值)三元组,同时判定实体对之间的关联关系,计算高层的语义信息,得到(实体,关系,实体)三元组,从而形成网状的知识结构。
本发明使用卷积神经网络或者双向循环神经网络加注意力(Attention)的深度学习方法被认为是现在关系抽取较为成熟的解决方案。已有的模型大都是针对英文语料,使用词向量作为输入进行训练。但是面向于中文语料,考虑到分词的效果,准确率仍然需要大幅度提升。本发明实现用双向GRU、字与句子的双重注意力模型,以天然适配中文特性的字向量(character embedding)作为输入,网络爬取数据作为训练语料构建的中文关系抽取模型。
如图5所示,面向于双向GRU加字级别注意力的模型,本发明对句子中的每一个中文字符输入进行字向量嵌入表示,并对每一个句子输入做训练,加入对应字级别的注意力。
进一步,如图6所示,面向于双向GRU加句级别注意力的模型,对每一种类别的句子输入做共同训练,加入句子级别的注意力。
步骤二,中文关系抽取的公开语料比较少。本发明基于远程监督算法,首先找到具有确定关系的实体对,然后再去获取该实体对共同出现的语句作为正样本。负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。远程监督方法基于这样的假设:任何包含已知的外部知识库中的关系涉及的两个实体的句子,都可能表达了这种关系。这里,本发明把关系中涉及的两个实体称为关系实例。远程监督需要借助于外部知识库,但是外部知识库中的关系与目标关系可能不一致,因此获取知识库有映射成目标关系的过程。此外,还需要包含句子的文本。由此可这个因素为出发点,从互联网上捜集相关文本。由于实体的描述不止一种,为了获得更多的样本应该尽量扩展实体的描述。获得比较丰富的实体描述后,由于文本数量非常大,需要建立快速而有效的索引,用来检索包含实体的句子。初步获得样本后,进行样本的过滤和采样,获得训练语料。同理,本发明可以采用类似的深度学习模型结构,利用远程监督方法收集训练语料,从而得到属性抽取器,从多个句子中判定出最有可能的实体属性值,得到(实体,属性,属性值)三元组。
步骤三,实体对齐的目标是能够高质量链接多个现有知识,并从顶层创建一个大规模的统一的知识网络,从而帮助机器理解底层数据。实体对齐主要是从三大在线百科(维基百度互动)、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合的过程。
(1)实体对齐旨在发现具有不同ID但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。
(2)虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上的Web规模的实体对齐,这还是第一次尝试。参照各大搜索引擎公司,本发明采用的方法是相似度计算和聚类。本发明采用k-均值聚类算法实现图谱内海量数据的批量对齐。算法的关键在于定义合适的相似度度量。本发明相似度度量遵循如下观察:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性-值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。
(3)算法实现
实体对齐聚类算法步骤如下:
1)根据字典选择k个两两不指向同一物理对象的实体作为初始簇中心;
2)计算图谱内各实体与簇中心之间的距离;
3)将各实体划分到与它们距离最近的实体;
4)比较聚类前各个簇与聚类后簇内情况,若各个簇发生变化,重复步骤2)-4);
5)设置阈值t,计算簇内各个实体与簇中心的距离,若距离小于阈值,将实体从簇内排除。簇内剩余实体为对齐至同一物理对象的实体,算法结束。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述面向海量非结构化文本的知识图谱自动构建方法为:
(1)给定一个句子,为句子序列中的每一个字做标注;
(2)根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;
(3)链接多个现有知识,从顶层创建一个大规模的统一的知识网络;
(4)从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。
2.如权利要求1所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述为句子序列中的每一个字做标注具体包括:将命名实体识别问题视为一个序列标注问题,使用BIO标注集,用B-PER、I-PER分别代表人名首字、人名非首字,用B-LOC、I-LOC分别代表地名首字、地名非首字,用B-ORG、I-ORG分别代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
3.如权利要求2所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,进一步包括:
(1)利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量xi∈Rd,d是embedding的维度,在输入下一层之前,设置dropout以缓解过拟合;
(2)自动提取句子特征,将一个句子的各个字的char embedding序列(x1,x2......xn)作为双向LSTM的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM的(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列:
(h1,h2......hn)∈Rn×m;
(3)将隐状态向量从m维映射到k维,k是标注集的标签数,得到自动提取的句子特征,记作矩阵=(p1,p2......pn)∈Rn×k;把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,再对P进行Softmax,相当于对各个位置独立进行k类分类;
(4)进行句子级的序列标注,CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候可以利用此前已经标注过的标签;一个长度等于句子长度的标签序列y=(y1,y2......yn),模型对于句子x的标签等于y的打分为:
其中,表示将yi分类到第i个标签的打分值,表示从第yi-1个标签到第yi个标签的转移得分;
利用Softmax得到归一化后的概率:
P(y|x)=exp(score(x,y))∑y′exp(score(x,y′));
模型在预测过程时使用动态规划的Viterbi算法来求解最优路径y*:
y*=argmax(y′score(x,y′))。
4.如权利要求1所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系进一步包括:找到具有确定关系的实体对,再去获取该实体对共同出现的语句作为正样本;负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。
5.如权利要求1所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合进一步包括:
(1)根据字典选择k个两两不指向同一物理对象的实体作为初始簇中心;
(2)计算图谱内各实体与簇中心之间的距离;
(3)将各实体划分到与它们距离最近的实体;
(4)比较聚类前各个簇与聚类后簇内情况,若各个簇发生变化,重复步骤(2)-步骤(4);
(5)设置阈值t,计算簇内各个实体与簇中心的距离,若距离小于阈值,将实体从簇内排除;簇内剩余实体为对齐至同一物理对象的实体,算法结束。
6.一种应用权利要求1所述面向海量非结构化文本的知识图谱自动构建方法的面向海量非结构化文本的知识图谱自动构建系统,其特征在于,所述面向海量非结构化文本的知识图谱自动构建系统包括:数据源模块、知识抽取模块、知识融合模块、知识存储模块、知识图谱模块。
7.如权利要求6所述的面向海量非结构化文本的知识图谱自动构建系统,其特征在于,所述数据源模块还包括:大数据平台新闻文本单元、用户上传新闻文本单元;
所述知识抽取模块还包括:实体抽取单元、属性抽取单元、关系抽取单元、知识规则表示、抽取与发现单元;
所述知识融合模块还包括:知识更新单元、实体对齐单元、知识加工单元;
所述知识存储模块还包括:知识链接单元、RDF存储单元、关系/图数据库存储单元;
所述知识图谱模块还包括:新闻知识图谱构建单元。
8.一种实现权利要求1~5任意一项所述面向海量非结构化文本的知识图谱自动构建方法的计算机程序。
9.一种实现权利要求1~5任意一项所述面向海量非结构化文本的知识图谱自动构建方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的面向海量非结构化文本的知识图谱自动构建方法。
CN201810687745.8A 2018-06-28 2018-06-28 面向海量非结构化文本的知识图谱自动构建方法及系统 Active CN108875051B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810687745.8A CN108875051B (zh) 2018-06-28 2018-06-28 面向海量非结构化文本的知识图谱自动构建方法及系统
PCT/CN2018/114011 WO2020000848A1 (zh) 2018-06-28 2018-11-05 面向海量非结构化文本的知识图谱自动构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810687745.8A CN108875051B (zh) 2018-06-28 2018-06-28 面向海量非结构化文本的知识图谱自动构建方法及系统

Publications (2)

Publication Number Publication Date
CN108875051A true CN108875051A (zh) 2018-11-23
CN108875051B CN108875051B (zh) 2020-04-28

Family

ID=64296256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810687745.8A Active CN108875051B (zh) 2018-06-28 2018-06-28 面向海量非结构化文本的知识图谱自动构建方法及系统

Country Status (2)

Country Link
CN (1) CN108875051B (zh)
WO (1) WO2020000848A1 (zh)

Cited By (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109885691A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质
CN109918475A (zh) * 2019-01-24 2019-06-21 西安交通大学 一种基于医疗知识图谱的可视查询方法及查询系统
CN109933784A (zh) * 2019-01-31 2019-06-25 北京明略软件系统有限公司 一种文本识别方法和装置
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及系统
CN110032649A (zh) * 2019-04-12 2019-07-19 北京科技大学 一种中医文献的实体间关系抽取方法及装置
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110134969A (zh) * 2019-05-27 2019-08-16 北京奇艺世纪科技有限公司 一种实体识别方法和装置
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110188191A (zh) * 2019-04-08 2019-08-30 北京邮电大学 一种用于网络社区文本的实体关系图谱构建方法和系统
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110210025A (zh) * 2019-05-29 2019-09-06 广州伟宏智能科技有限公司 一种基于文本提取的转换方法
CN110275938A (zh) * 2019-05-29 2019-09-24 广州伟宏智能科技有限公司 基于非结构化文档的知识提取方法及系统
CN110347821A (zh) * 2019-05-29 2019-10-18 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN110377690A (zh) * 2019-06-27 2019-10-25 北京信息科技大学 一种基于远程关系抽取的信息获取方法和系统
CN110377759A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 事件关系图谱构建方法及装置
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110444259A (zh) * 2019-06-06 2019-11-12 昆明理工大学 基于实体关系标注策略的中医电子病历实体关系提取方法
CN110457487A (zh) * 2019-07-10 2019-11-15 北京邮电大学 专利知识图谱的构建方法及装置
CN110457502A (zh) * 2019-08-21 2019-11-15 京东方科技集团股份有限公司 构建知识图谱方法、人机交互方法、电子设备及存储介质
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN110489565A (zh) * 2019-08-15 2019-11-22 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110555753A (zh) * 2019-08-14 2019-12-10 中国平安人寿保险股份有限公司 基于推荐的排序控制方法、装置、计算机设备及存储介质
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110750651A (zh) * 2019-10-16 2020-02-04 同方知网(北京)技术有限公司 一种基于科技成果的知识图谱构建方法及生成装置
CN110795941A (zh) * 2019-10-26 2020-02-14 创新工场(广州)人工智能研究有限公司 一种基于外部知识的命名实体识别方法、系统及电子设备
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110826316A (zh) * 2019-11-06 2020-02-21 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN110909174A (zh) * 2019-11-19 2020-03-24 南京航空航天大学 一种基于知识图谱的简单问答中实体链接的改进方法
CN110910243A (zh) * 2019-09-26 2020-03-24 山东佳联电子商务有限公司 一种基于可重构大数据知识图谱技术的产权交易方法
CN110941716A (zh) * 2019-11-05 2020-03-31 北京航空航天大学 一种基于深度学习的信息安全知识图谱的自动构建方法
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111026880A (zh) * 2019-12-08 2020-04-17 大连理工大学 基于联合学习的司法知识图谱构建方法
CN111160847A (zh) * 2019-12-09 2020-05-15 中国建设银行股份有限公司 一种处理流程信息的方法和装置
CN111159411A (zh) * 2019-12-31 2020-05-15 哈尔滨工业大学(深圳) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN111177411A (zh) * 2019-12-27 2020-05-19 赣州市智能产业创新研究院 一种基于nlp的知识图谱构建方法
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111382277A (zh) * 2018-12-28 2020-07-07 上海汽车集团股份有限公司 面向汽车领域的知识图谱构建方法及装置
CN111414393A (zh) * 2020-03-26 2020-07-14 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111475629A (zh) * 2020-03-31 2020-07-31 渤海大学 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN111522927A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 基于知识图谱的实体查询方法和装置
CN111666374A (zh) * 2020-05-15 2020-09-15 华东师范大学 一种在深度语言模型中融入额外知识信息的方法
CN111680170A (zh) * 2020-06-11 2020-09-18 南京星火技术有限公司 周期结构的物理特性预测方法、装置及相关产品
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111753024A (zh) * 2020-06-24 2020-10-09 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111831829A (zh) * 2020-06-12 2020-10-27 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111898852A (zh) * 2020-06-15 2020-11-06 广州智能科技发展有限公司 企业隐患和事故知识图谱构建方法、电子设备、存储介质
CN111917861A (zh) * 2020-07-28 2020-11-10 广东工业大学 基于区块链和知识图谱的知识存储方法、系统及其应用
CN111914092A (zh) * 2019-05-09 2020-11-10 富士通株式会社 针对作者消歧的信息处理装置、方法和介质
CN111930518A (zh) * 2020-09-22 2020-11-13 北京东方通科技股份有限公司 面向知识图谱表示学习的分布式框架构建方法
CN111966836A (zh) * 2020-08-29 2020-11-20 深圳呗佬智能有限公司 知识图谱向量表示方法、装置、计算机设备及存储介质
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112182243A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112256889A (zh) * 2020-11-06 2021-01-22 奇安信科技集团股份有限公司 一种安全实体的知识图谱构建方法、装置、设备和介质
CN112307767A (zh) * 2020-11-09 2021-02-02 国网福建省电力有限公司 一种基于Bi-LSTM技术的调控知识建模方法
CN112347263A (zh) * 2019-08-06 2021-02-09 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112463986A (zh) * 2020-12-08 2021-03-09 北京明略软件系统有限公司 信息存储的方法及装置
CN112541339A (zh) * 2020-08-20 2021-03-23 同济大学 一种基于随机森林和序列标注模型的知识抽取方法
CN112559737A (zh) * 2020-11-20 2021-03-26 和美(深圳)信息技术股份有限公司 知识图谱的节点分类方法及系统
CN112599214A (zh) * 2021-03-04 2021-04-02 中译语通科技股份有限公司 从电子病历中提取出icd编码的方法及系统
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN112800239A (zh) * 2021-01-22 2021-05-14 中信银行股份有限公司 意图识别模型训练方法、意图识别方法及装置
CN112836019A (zh) * 2021-02-19 2021-05-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN112861515A (zh) * 2021-02-08 2021-05-28 上海天壤智能科技有限公司 交互式知识定义与处理方法、系统、装置和可读介质
CN112906367A (zh) * 2021-02-08 2021-06-04 上海宏原信息科技有限公司 消费者文本的信息提取结构,标注方法和识别方法
CN112966099A (zh) * 2021-02-26 2021-06-15 北京金堤征信服务有限公司 关系图谱展示方法、装置及计算机可读存储介质
CN112991032A (zh) * 2021-05-12 2021-06-18 江苏电力信息技术有限公司 一种基于层级注意力网络的电力预算评估方法
CN112988996A (zh) * 2021-03-10 2021-06-18 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113360678A (zh) * 2021-07-08 2021-09-07 电子科技大学 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN113377916A (zh) * 2021-06-22 2021-09-10 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113393084A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 作业票流程管理系统
CN113449113A (zh) * 2020-03-27 2021-09-28 京东数字科技控股有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN113486189A (zh) * 2021-06-08 2021-10-08 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统
CN113505231A (zh) * 2021-05-06 2021-10-15 清华大学 开放层次结构关系的发现方法、装置和电子设备
CN113656556A (zh) * 2021-08-20 2021-11-16 上海大参林医疗健康科技有限公司 一种文本特征抽取方法及知识图谱构建方法
WO2022043782A1 (en) * 2020-08-28 2022-03-03 International Business Machines Corpofiation Automatic knowledge graph construction
CN114647734A (zh) * 2020-12-18 2022-06-21 同方威视科技江苏有限公司 舆情文本的事件图谱生成方法、装置、电子设备和介质
CN114722823A (zh) * 2022-03-24 2022-07-08 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质
CN114818712A (zh) * 2022-05-10 2022-07-29 深延科技(北京)有限公司 知识图谱构建方法、装置、电子设备及存储介质
CN115309789A (zh) * 2022-10-11 2022-11-08 浩鲸云计算科技股份有限公司 一种基于业务对象智能动态化实时生成关联数据图的方法
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统
WO2023024129A1 (en) * 2021-08-27 2023-03-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for automatic generation and update of knowledge graph from multi-modal sources
CN115795056A (zh) * 2023-01-04 2023-03-14 中国电子科技集团公司第十五研究所 非结构化信息构建知识图谱的方法、服务器及存储介质
CN116484770A (zh) * 2023-06-19 2023-07-25 天津市金晶气体压缩机制造有限公司 一种基于知识图谱的空气压缩机数据采集方法和系统
CN117521792A (zh) * 2023-11-22 2024-02-06 北京交通大学 基于人机协作式信息提取标注工具的知识图谱构建方法
CN117667890A (zh) * 2023-12-01 2024-03-08 中国标准化研究院 一种用于标准数字化的知识库构建方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580831B (zh) * 2020-11-19 2024-03-29 国网江苏省电力有限公司信息通信分公司 一种基于知识图谱的电力通信网智能辅助运维方法及系统
CN113254668B (zh) * 2021-06-11 2022-02-18 云南大学 一种基于场景纬度的知识图谱构建方法及系统
CN115630172A (zh) * 2022-12-23 2023-01-20 中国航空油料集团有限公司 针对流程行业的数字主线构建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324346A1 (en) * 2011-06-15 2012-12-20 Terrence Monroe Method for relational analysis of parsed input for visual mapping of knowledge information
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622050B (zh) * 2017-09-14 2021-02-26 武汉烽火普天信息技术有限公司 基于Bi-LSTM和CRF的文本序列标注系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324346A1 (en) * 2011-06-15 2012-12-20 Terrence Monroe Method for relational analysis of parsed input for visual mapping of knowledge information
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统

Cited By (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109145120B (zh) * 2018-07-02 2021-11-02 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109697233B (zh) * 2018-12-03 2023-06-20 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109800411B (zh) * 2018-12-03 2023-07-18 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN109710701B (zh) * 2018-12-14 2022-11-01 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN111382277B (zh) * 2018-12-28 2023-08-01 上海汽车集团股份有限公司 面向汽车领域的知识图谱构建方法及装置
CN111382277A (zh) * 2018-12-28 2020-07-07 上海汽车集团股份有限公司 面向汽车领域的知识图谱构建方法及装置
CN109885691A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质
CN109918475B (zh) * 2019-01-24 2021-01-19 西安交通大学 一种基于医疗知识图谱的可视查询方法及查询系统
CN109918475A (zh) * 2019-01-24 2019-06-21 西安交通大学 一种基于医疗知识图谱的可视查询方法及查询系统
CN109933784B (zh) * 2019-01-31 2022-12-20 北京明略软件系统有限公司 一种文本识别方法和装置
CN109933784A (zh) * 2019-01-31 2019-06-25 北京明略软件系统有限公司 一种文本识别方法和装置
CN109960728A (zh) * 2019-03-11 2019-07-02 北京市科学技术情报研究所(北京市科学技术信息中心) 一种开放域会议信息命名实体识别方法及系统
CN110046252B (zh) * 2019-03-29 2021-07-30 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110188191A (zh) * 2019-04-08 2019-08-30 北京邮电大学 一种用于网络社区文本的实体关系图谱构建方法和系统
CN110032649B (zh) * 2019-04-12 2021-10-01 北京科技大学 一种中医文献的实体间关系抽取方法及装置
CN110032649A (zh) * 2019-04-12 2019-07-19 北京科技大学 一种中医文献的实体间关系抽取方法及装置
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110162786B (zh) * 2019-04-23 2024-02-27 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110188346B (zh) * 2019-04-29 2023-09-29 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN111914092A (zh) * 2019-05-09 2020-11-10 富士通株式会社 针对作者消歧的信息处理装置、方法和介质
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110197280B (zh) * 2019-05-20 2021-08-06 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110134969A (zh) * 2019-05-27 2019-08-16 北京奇艺世纪科技有限公司 一种实体识别方法和装置
CN110134969B (zh) * 2019-05-27 2023-07-14 北京奇艺世纪科技有限公司 一种实体识别方法和装置
CN110347821A (zh) * 2019-05-29 2019-10-18 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN110210025A (zh) * 2019-05-29 2019-09-06 广州伟宏智能科技有限公司 一种基于文本提取的转换方法
CN110275938A (zh) * 2019-05-29 2019-09-24 广州伟宏智能科技有限公司 基于非结构化文档的知识提取方法及系统
CN110347821B (zh) * 2019-05-29 2023-08-25 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN110444259B (zh) * 2019-06-06 2022-09-23 昆明理工大学 基于实体关系标注策略的中医电子病历实体关系提取方法
CN110444259A (zh) * 2019-06-06 2019-11-12 昆明理工大学 基于实体关系标注策略的中医电子病历实体关系提取方法
CN110377690A (zh) * 2019-06-27 2019-10-25 北京信息科技大学 一种基于远程关系抽取的信息获取方法和系统
CN110377690B (zh) * 2019-06-27 2021-03-16 北京信息科技大学 一种基于远程关系抽取的信息获取方法和系统
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110457487B (zh) * 2019-07-10 2022-03-29 北京邮电大学 专利知识图谱的构建方法及装置
CN110457487A (zh) * 2019-07-10 2019-11-15 北京邮电大学 专利知识图谱的构建方法及装置
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110598203B (zh) * 2019-07-19 2023-08-01 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110377759A (zh) * 2019-07-22 2019-10-25 中国工商银行股份有限公司 事件关系图谱构建方法及装置
CN110427623B (zh) * 2019-07-24 2021-09-21 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110472065B (zh) * 2019-07-25 2022-03-25 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN110502749B (zh) * 2019-08-02 2023-10-03 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN112347263A (zh) * 2019-08-06 2021-02-09 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN112347263B (zh) * 2019-08-06 2023-04-14 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN110555753A (zh) * 2019-08-14 2019-12-10 中国平安人寿保险股份有限公司 基于推荐的排序控制方法、装置、计算机设备及存储介质
CN110489565B (zh) * 2019-08-15 2023-05-16 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110489565A (zh) * 2019-08-15 2019-11-22 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110457502A (zh) * 2019-08-21 2019-11-15 京东方科技集团股份有限公司 构建知识图谱方法、人机交互方法、电子设备及存储介质
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110910243A (zh) * 2019-09-26 2020-03-24 山东佳联电子商务有限公司 一种基于可重构大数据知识图谱技术的产权交易方法
CN110825881B (zh) * 2019-09-26 2024-04-12 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110955780B (zh) * 2019-10-12 2022-10-14 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN110750651A (zh) * 2019-10-16 2020-02-04 同方知网(北京)技术有限公司 一种基于科技成果的知识图谱构建方法及生成装置
CN110750651B (zh) * 2019-10-16 2023-05-26 同方知网数字出版技术股份有限公司 一种基于科技成果的知识图谱构建方法
CN110795941A (zh) * 2019-10-26 2020-02-14 创新工场(广州)人工智能研究有限公司 一种基于外部知识的命名实体识别方法、系统及电子设备
CN110795941B (zh) * 2019-10-26 2024-04-05 创新工场(广州)人工智能研究有限公司 一种基于外部知识的命名实体识别方法、系统及电子设备
CN110941716A (zh) * 2019-11-05 2020-03-31 北京航空航天大学 一种基于深度学习的信息安全知识图谱的自动构建方法
CN110826316A (zh) * 2019-11-06 2020-02-21 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN110825827B (zh) * 2019-11-13 2022-10-25 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN110909174A (zh) * 2019-11-19 2020-03-24 南京航空航天大学 一种基于知识图谱的简单问答中实体链接的改进方法
CN110909174B (zh) * 2019-11-19 2022-01-04 南京航空航天大学 一种基于知识图谱的简单问答中实体链接的改进方法
CN111026880A (zh) * 2019-12-08 2020-04-17 大连理工大学 基于联合学习的司法知识图谱构建方法
CN111160847B (zh) * 2019-12-09 2023-08-25 中国建设银行股份有限公司 一种处理流程信息的方法和装置
CN111160847A (zh) * 2019-12-09 2020-05-15 中国建设银行股份有限公司 一种处理流程信息的方法和装置
CN111177411A (zh) * 2019-12-27 2020-05-19 赣州市智能产业创新研究院 一种基于nlp的知识图谱构建方法
CN111159411A (zh) * 2019-12-31 2020-05-15 哈尔滨工业大学(深圳) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN111159411B (zh) * 2019-12-31 2023-04-14 哈尔滨工业大学(深圳) 一种融合知识图谱的文本立场分析方法、系统及存储介质
CN111324742B (zh) * 2020-02-10 2024-01-23 同方知网数字出版技术股份有限公司 一种数字人文知识图谱的构建方法
CN111324742A (zh) * 2020-02-10 2020-06-23 同方知网(北京)技术有限公司 一种数字人文知识图谱的构建方法
CN111414393A (zh) * 2020-03-26 2020-07-14 湖南科创信息技术股份有限公司 一种基于医学知识图谱的语义相似病例检索方法及设备
CN113449113A (zh) * 2020-03-27 2021-09-28 京东数字科技控股有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN111475629A (zh) * 2020-03-31 2020-07-31 渤海大学 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN111522927B (zh) * 2020-04-15 2023-07-14 北京百度网讯科技有限公司 基于知识图谱的实体查询方法和装置
CN111522927A (zh) * 2020-04-15 2020-08-11 北京百度网讯科技有限公司 基于知识图谱的实体查询方法和装置
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN111666374A (zh) * 2020-05-15 2020-09-15 华东师范大学 一种在深度语言模型中融入额外知识信息的方法
CN111680170A (zh) * 2020-06-11 2020-09-18 南京星火技术有限公司 周期结构的物理特性预测方法、装置及相关产品
CN111831829A (zh) * 2020-06-12 2020-10-27 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111831829B (zh) * 2020-06-12 2024-04-09 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111898852A (zh) * 2020-06-15 2020-11-06 广州智能科技发展有限公司 企业隐患和事故知识图谱构建方法、电子设备、存储介质
CN111723215B (zh) * 2020-06-19 2022-10-04 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN111753024A (zh) * 2020-06-24 2020-10-09 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111753099B (zh) * 2020-06-28 2023-11-21 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111917861A (zh) * 2020-07-28 2020-11-10 广东工业大学 基于区块链和知识图谱的知识存储方法、系统及其应用
CN112541339A (zh) * 2020-08-20 2021-03-23 同济大学 一种基于随机森林和序列标注模型的知识抽取方法
WO2022043782A1 (en) * 2020-08-28 2022-03-03 International Business Machines Corpofiation Automatic knowledge graph construction
GB2612225A (en) * 2020-08-28 2023-04-26 Ibm Automatic knowledge graph construction
CN111966836A (zh) * 2020-08-29 2020-11-20 深圳呗佬智能有限公司 知识图谱向量表示方法、装置、计算机设备及存储介质
CN111930518B (zh) * 2020-09-22 2021-01-22 北京东方通科技股份有限公司 面向知识图谱表示学习的分布式框架构建方法
CN111930518A (zh) * 2020-09-22 2020-11-13 北京东方通科技股份有限公司 面向知识图谱表示学习的分布式框架构建方法
CN112101009B (zh) * 2020-09-23 2024-03-26 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112101009A (zh) * 2020-09-23 2020-12-18 中国农业大学 一种基于知识图谱的红楼梦人物关系框架相似度评判方法
CN112182243A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112182243B (zh) * 2020-09-27 2023-11-28 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112256889B (zh) * 2020-11-06 2024-04-12 奇安信科技集团股份有限公司 一种安全实体的知识图谱构建方法、装置、设备和介质
CN112256889A (zh) * 2020-11-06 2021-01-22 奇安信科技集团股份有限公司 一种安全实体的知识图谱构建方法、装置、设备和介质
CN112307767A (zh) * 2020-11-09 2021-02-02 国网福建省电力有限公司 一种基于Bi-LSTM技术的调控知识建模方法
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112559737A (zh) * 2020-11-20 2021-03-26 和美(深圳)信息技术股份有限公司 知识图谱的节点分类方法及系统
CN112463986A (zh) * 2020-12-08 2021-03-09 北京明略软件系统有限公司 信息存储的方法及装置
CN114647734A (zh) * 2020-12-18 2022-06-21 同方威视科技江苏有限公司 舆情文本的事件图谱生成方法、装置、电子设备和介质
CN112800239A (zh) * 2021-01-22 2021-05-14 中信银行股份有限公司 意图识别模型训练方法、意图识别方法及装置
CN112800239B (zh) * 2021-01-22 2024-04-12 中信银行股份有限公司 意图识别模型训练方法、意图识别方法及装置
CN112784061A (zh) * 2021-01-27 2021-05-11 数贸科技(北京)有限公司 知识图谱的构建方法、装置、计算设备及存储介质
CN113033203A (zh) * 2021-02-05 2021-06-25 浙江大学 一种面向医药说明书文本的结构化信息抽取方法
CN112906367A (zh) * 2021-02-08 2021-06-04 上海宏原信息科技有限公司 消费者文本的信息提取结构,标注方法和识别方法
CN112861515B (zh) * 2021-02-08 2022-11-11 上海天壤智能科技有限公司 交互式知识定义与处理方法、系统、装置和可读介质
CN112861515A (zh) * 2021-02-08 2021-05-28 上海天壤智能科技有限公司 交互式知识定义与处理方法、系统、装置和可读介质
CN112836019A (zh) * 2021-02-19 2021-05-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN112966099A (zh) * 2021-02-26 2021-06-15 北京金堤征信服务有限公司 关系图谱展示方法、装置及计算机可读存储介质
CN112599214A (zh) * 2021-03-04 2021-04-02 中译语通科技股份有限公司 从电子病历中提取出icd编码的方法及系统
CN112988996A (zh) * 2021-03-10 2021-06-18 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN112988996B (zh) * 2021-03-10 2024-03-08 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN113127503A (zh) * 2021-03-18 2021-07-16 中国科学院国家空间科学中心 一种面向航天情报的自动信息提取方法及系统
CN113505231A (zh) * 2021-05-06 2021-10-15 清华大学 开放层次结构关系的发现方法、装置和电子设备
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN112991032A (zh) * 2021-05-12 2021-06-18 江苏电力信息技术有限公司 一种基于层级注意力网络的电力预算评估方法
CN113393084B (zh) * 2021-05-13 2024-06-11 上海湃道智能科技有限公司 作业票流程管理系统
CN113393084A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 作业票流程管理系统
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN113486189A (zh) * 2021-06-08 2021-10-08 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统
CN113377916A (zh) * 2021-06-22 2021-09-10 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113360678A (zh) * 2021-07-08 2021-09-07 电子科技大学 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN113360678B (zh) * 2021-07-08 2022-07-15 电子科技大学 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN113656556B (zh) * 2021-08-20 2023-08-15 广州天宸健康科技有限公司 一种文本特征抽取方法及知识图谱构建方法
CN113656556A (zh) * 2021-08-20 2021-11-16 上海大参林医疗健康科技有限公司 一种文本特征抽取方法及知识图谱构建方法
US11869484B2 (en) 2021-08-27 2024-01-09 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for automatic generation and update of knowledge graph from multi-modal sources
WO2023024129A1 (en) * 2021-08-27 2023-03-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for automatic generation and update of knowledge graph from multi-modal sources
CN114722823A (zh) * 2022-03-24 2022-07-08 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质
CN114818712A (zh) * 2022-05-10 2022-07-29 深延科技(北京)有限公司 知识图谱构建方法、装置、电子设备及存储介质
CN115309789A (zh) * 2022-10-11 2022-11-08 浩鲸云计算科技股份有限公司 一种基于业务对象智能动态化实时生成关联数据图的方法
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统
CN115795056A (zh) * 2023-01-04 2023-03-14 中国电子科技集团公司第十五研究所 非结构化信息构建知识图谱的方法、服务器及存储介质
CN116484770A (zh) * 2023-06-19 2023-07-25 天津市金晶气体压缩机制造有限公司 一种基于知识图谱的空气压缩机数据采集方法和系统
CN117521792A (zh) * 2023-11-22 2024-02-06 北京交通大学 基于人机协作式信息提取标注工具的知识图谱构建方法
CN117667890A (zh) * 2023-12-01 2024-03-08 中国标准化研究院 一种用于标准数字化的知识库构建方法及系统

Also Published As

Publication number Publication date
CN108875051B (zh) 2020-04-28
WO2020000848A1 (zh) 2020-01-02

Similar Documents

Publication Publication Date Title
CN108875051A (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
Aggarwal et al. Classification of fake news by fine-tuning deep bidirectional transformers based language model
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
Liu et al. FastTagRec: fast tag recommendation for software information sites
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
Jiang et al. An LSTM-CNN attention approach for aspect-level sentiment classification
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Başarslan et al. Sentiment analysis on social media reviews datasets with deep learning approach
Sanoussi et al. Detection of hate speech texts using machine learning algorithm
Leskinen et al. Reconciling and using historical person registers as linked open data in the AcademySampo portal and data service
Hossain et al. Automatic Bengali document categorization based on word embedding and statistical learning approaches
Farooqui et al. Sentiment analysis of twitter accounts using natural language processing
Galende et al. Conspiracy or not? A deep learning approach to spot it on Twitter
US20210089971A1 (en) Systems and methods for performing a computer-implemented and feature based prior art search
Bugueño et al. An empirical analysis of rumor detection on microblogs with recurrent neural networks
He et al. Sentiment classification technology based on Markov logic networks
Zhang et al. Topics extraction in incremental short texts based on LSTM
Meng et al. Regional bullying text recognition based on two-branch parallel neural networks
Constantin et al. Hateful meme detection with multimodal deep neural networks
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Wen et al. Blockchain-based reviewer selection
Alharithi Performance analysis of machine learning approaches in automatic classification of Arabic language
Fu et al. A study on recursive neural network based sentiment classification of Sina Weibo

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant