CN109614495B - 一种结合知识图谱和文本信息的相关公司挖掘方法 - Google Patents
一种结合知识图谱和文本信息的相关公司挖掘方法 Download PDFInfo
- Publication number
- CN109614495B CN109614495B CN201810898419.1A CN201810898419A CN109614495B CN 109614495 B CN109614495 B CN 109614495B CN 201810898419 A CN201810898419 A CN 201810898419A CN 109614495 B CN109614495 B CN 109614495B
- Authority
- CN
- China
- Prior art keywords
- model
- pra
- company
- relation
- companies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005065 mining Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 238000013135 deep learning Methods 0.000 claims abstract description 39
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000013136 deep learning model Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000010485 coping Effects 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 abstract 1
- 238000011160 research Methods 0.000 description 6
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005295 random walk Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种结合知识图谱和文本信息的相关公司挖掘方法。结合知识图谱和文本信息的相关公司挖掘系统包括:深度学习关系抽取模块、知识库关系提取模块、PRA训练模块、PRA预测模块、模型库管理模块、用户反馈模块。用户可以从样本库中提取数据训练PRA模型,并存入模型库,还可以通过提取end‑to‑end模型和存储训练的PRA模型,以此预测公司的相关公司及公司之间的关系,作为公司知识图谱的一种发现和补充。本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。
Description
技术领域
本发明属于网络信息处理技术领域,具体涉及一种结合知识图谱和文本信息的相关公司挖掘方法。
背景技术
在人工智能兴起的大背景下,知识图谱作为一种全面的表达方式已经得到越来越多的关注,越来越多的研究者投入到了知识图谱的研究中。
福尔摩斯说过:“一个逻辑学家,不需要亲眼见过,或听过大西洋和尼亚加拉大瀑布,他从一滴水中就能推测出它们。知识图谱就像福尔摩斯破案一样,首先需要采集散布在各个角落的碎片化信息和数据,然后把它按标准化思考方式整理,再将各个看似不相关但背后有着共同联系的信息关联起来挖掘背后的规律,据此做深入的推理。
2012年,Google率先在自己的搜索引擎中加入了知识图谱,当用户查询关键词的时候,不仅能够得到相关网页,还可以得到更多与查询词相关的其他信息。从技术的角度来说,知识图谱是一个由数据到信息再到知识,最后转化为智慧的过程。
知识图谱技术包括以下三个方面的研究内容:
1)知识表示:研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算;
2)知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;
3)知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。在关注到知识图谱在自然语言处理、人工智能等领域展现巨大潜力的同时,也不难发现知识图谱中的知识获取、知识表示、知识推理等技术依然面临着一些困难与挑战,很多重要的开放问题急待学术界与工业界协力来解决。知识图谱的主要挑战问题主要包括:1.知识的自动获取;2.多源知识的自动融合;3.面向知识的表示学习;4.知识推理与应用等。在开放源的文本中,如何提取实体和实体之间的关系,一直是知识图谱领域中一个比较棘手的问题。围绕这方面研究主要是entity和relation extraction。虽然NLP领域也对这个问题研究了很多年,但是在开放信息源中的效果并不是很理想。在未来的几年时间内,知识图谱仍将是大数据智能的前沿研究问题。其中,知识图谱和文本信息的结合将是其中一个重要的方向。
现如今,公司之间的竞争越来越激烈,因此,研究竞争对手,寻找合作伙伴等都变得越来越重要,研究竞争对手可以让公司明白自己与对手相比之下的优势或劣势,有便于差异化竞争或针对性的补强,在与同级别同领域的竞争中确立优势。寻找合作伙伴,确立合作关系,公司之间的信息共享,资源共享等更能直接的让公司具备更强的竞争力,因此,公司之间的关系挖掘是十分具有价值的。
发明内容
为了解决上述问题,本发明提出了一种结合知识图谱和文本信息的相关公司挖掘的方法。本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。
本发明的结合知识图谱和文本信息的相关公司挖掘方法,结合知识图谱和文本信息的相关公司挖掘包括有:
深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;
PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块:输入公司A和公司B通过PRA模型后通过计算score得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;
用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;
结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
本发明用样本库接口在样本库中提取公司的文本,在模型库中导入end-to-end深度学习模型进行文本中重要属性及公司关系的抽取。将抽取的公司间的重要属性作为知识图谱中特殊的边参与PRA的计算,如公司间相似的经营范围,相似的用户群体等。将这些相似的属性作为PRA计算的限定集。在PRA进行随机游走时,匹配限定集中的属性,若存在关系则设为1,不存在则设为0。为了区分不同实体及路径的权重,需要设定权重参数θ。将对应的路径与权重θ相乘即可得到区分实体重要性的效果。对权重参数θ的估计,即是训练model的目标。有许多方法可以使用,最常用的如逻辑回归分类模型、BLMVM、L-BFGS等。我们可以用关系R和(起点si,终点ti)的集合来构造所需的训练集,最终通过分类器得到所需的权重。这样,在公司之间会产生许多条连接公司的路径,其由公司间相似的实体关系组成。推理这条路径,即可得到最终公司间的关系。那么怎么推理呢?将通过深度学习抽取公司间的关系作为label,对通过PRA随机游走得到的score最高的路径进行类别划分。模型训练结束后,就输入模型库中,在新文本进入deep-learning和KB,得到限定集后进入PRA随机游走,得到score最高的path后再从模型库导出之前训练的关系推理规则进行预测。预测的结果即最终得到的公司之间的关系。值得一提的是,公司间的关系是复杂多样的,本发明主要探讨一下四种公司关系:竞争对手,合作伙伴,上下游,持股,控股。因此,在深度学习进行关系抽取时,对每种关系进行单独抽取,另外,每种关系都对应一个独立的权重分布的PRA模型,并将各个关系的模型单独训练,将公司间的关系作为参数传递给模型,以便预测端进行预测。同时,预测的结果接受用户的反馈,在用户反馈模块中,会将用户反馈做批量处理,然后加入模型二次训练,进一步提高算法的准确性。本发明具有如下优点:
1)本发明将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。
2)本发明在深度学习模型中抽取的实体关系对PRA路径做了一层加强,使得PRA的预测结果更有说服力。
3)本发明将深度学习模型中抽取的公司关系作为PRA训练的label,然后对路径分类,解决了根据路径关系推理的问题。
4)本发明基本涵盖了各个类型的常见的公司关系,不会出现重大关系的遗漏或缺失的情况。模型的预测会接受用户的反馈,能够及时的更新数据并重新训练模型。
附图说明
图1为本发明的训练模型流程图。
图2为本发明的预测公司关系流程图。
图3为本发明的系统结构图。
具体实施方式:
下面结合附图对本发明做进一步的说明。本发明针对一种结合知识图谱和文本信息的相关公司挖掘方法,包括:
深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;
PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强。然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块:输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型。训练的PRA模型也需要及时更新;
用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;
上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
上述end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好,end-to-end不需对文本做其他的处理即可得到实体关系三元组,有利于知识图谱的快速构建。
本发明结合知识图谱和文本信息的分析方法,任务是相关公司的挖掘,而深度学习抽取了公司文本中所有的实体关系三元组,其中公司间的各种关系可以分别作为PRA模型训练的label,每种关系对应一个PRA模型训练一个路径的权重分布,其他比较重要能体现公司间联系的实体关系,如公司间相似的经营范围,用户群体等当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性。
本发明在用PRA计算两个公司的之间的关系时,在联系两个公司的实体之间也会有相关关系,这些相关关系连接起来形成一条A公司通往B公司的路径,同时,A’和B’之间的路径可能不止一条,此时需要将所有出现的路径综合考虑。对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep-learning抽取出来;因此,将DL抽取出来的各个关系作为各个权重分布的label,将各个路径所对应的短路径作为特征,训练特征的权重分布,即可得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布,并将关系种类放入列表中作为参数供预测时提取;
另外,输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生一定数量的游走路径,将每一段路径其乘以对应的θ,可得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。
对新输入的公司A’和B’,要预测它们之间的关系,只需把其对应在知识图谱中的限定集及文本输入训练好的PRA模型,得到最终的path,将其与PRA训练模块中学到的规则进行比较,找到其对应的关系类别,即为公司A’和B’的关系。当输入公司A和关系类型预测与A存在这种关系的公司B时,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱。从某种角度来说,输入公司A和关系来预测任何可能的B公司的概率和输入公司A,B来预测潜在关系,本质上是一样的。
模型库需要有一系列的深度学习模型,用于应对不同领域,不同要求的关系抽取;同时也需要保存训练的PRA模型;如果用户反馈模块有更新,需要重新训练模型,则要将后来训练的模型覆盖之前训练的PRA模型。
对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练;这样形成一个model迭代的过程,能进一步提高预测的准确率。
本发明深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;其中,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分的利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好;LSTM-RC联合模型可由论文《Multivariate LSTM-FCNs for Time SeriesClassification》实现,也可从开源网站下载代码。
本发明知识库关系提取模块:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等。将其当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强。增强了预测的可靠性。PRA的计算方法参见具体实施方式如下:
本发明PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1。若不存在,则标记为0。这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依此类推,得到不同终点对应的所有路径的score。最高的score代表的路径则表达了公司间的关系最强。然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型。而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股。每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型。简言之,通过PRA计算得到PRA路径,利用PRA路径及标签的训练得到PRA模型。
本发明PRA预测模块:由PRA训练模块得到PRA模型,并依据此模型进行PRA预测。输入公司A和公司B通过PRA模型后通过计算score会得到一条路径。将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型。由于PRA训练模块中的PRA模型已经完成了根据路径进行关系推理的过程,因此在预测时可以直接输出推理结果。若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高。
本发明模型库管理模块:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型。PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取。模型库中有针对不同领域训练好的深度学习模型集合,可根据需要调取不同的end-to-end模型。训练的PRA模型也需要及时更新。其中,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分的利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好。LSTM-RC联合模型可由论文《Multivariate LSTM-FCNs for Time SeriesClassification》实现,也可从开源网站下载代码。
本发明用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。这样形成一个model迭代的过程,能进一步提高预测的准确率。
下面分别叙述各模块的具体内容:
1.深度学习实体关系抽取
深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组。
知识库关系提取模块:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等。将其当作知识图谱特殊的边参与到PRA的计算中。这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强。增强了预测的可靠性。
PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1。若不存在,则标记为0。这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依此类推,得到不同终点对应的所有路径的score。最高的score代表的路径则表达了公司间的关系最强。然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型。而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股。每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型。
PRA预测模块:输入公司A和公司B通过PRA模型后通过计算score会得到一条路径。将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型。由于PRA训练模块中的PRA模型已经完成了根据路径进行关系推理的过程,因此在预测时可以直接输出推理结果。若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高。
模型库管理模块:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型。PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取。模型库中有针对不同领域训练好的深度学习模型集合,可根据需要调取不同的end-to-end模型。训练的PRA模型也需要及时更新。
用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。这样形成一个model迭代的过程,能进一步提高预测的准确率。
上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测。预测的结果进入用户反馈模块进行用户纠错反馈。
图1为本发明的训练模型流程,具体步骤如下:
1.从模型库中导入预训练的end-to-end神经网络模型,通过样本接口从样本库中提取公司的相关文本输入模型,输出文本中所有实体及相关关系的三元组。
2.提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体等,将其当作知识图谱特殊的边参与到PRA的计算中。即在从知识图谱中得到的限定集中加入deep-learning提取的实体。
3.在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1。若不存在,则标记为0。这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依次类推,得到不同起点不同终点对应的所有路径。score代表的路径则表达了公司间的关系,而score的高低则代表了关系的紧密程度。用梯度上升算法训练每条路径的权重θ,然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,最终得到一个公司关系的分类模型。而公司间的关系不止一种,如竞争对手,合作伙伴,上下游,持股,控股。每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型。
4.输入公司A和公司B通过PRA模型后通过计算会得到一条的路径。将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型。由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果。若已知公司A和关系,则可根据公司知识图谱找到所有可能和公司A存在这种关系的公司B,通过PRA计算score,score越高表面关系越强,然后按照score的排序输出公司B。
5.对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。训练后的模型存储到模型库中并覆盖之前的模型。这样形成一个model迭代的过程,能进一步提高预测的准确率。
下面分别叙述各步骤的具体内容:
1.深度学习实体关系抽取
深度学习关系抽取模块需要完成公司之间的关系抽取及其他公司重要属性关系的抽取。导入预训练的端对端深度学习模型直接预测实体间的关系。将公司之间的关系作为PRA模型训练的label,将文本中重要的实体关系当作知识图谱特殊的边,加入到PRA的计算中。关系抽取可提供使用的预训练的深度学习模型,比如联合学习LSTM-RC模型进行训练。其将实体识别和关系抽取放在一个算法中,能够有效利用实体识别和关系抽取间的联系,减少了分开计算造成的信息损失。
1.1深度学习训练部分
深度学习通过反馈模块得到的数据加入原有数据库中一起训练,可进一步提高模型的准确率。本发明从模型库中导入预训练的端对端神经网络进行实体关系的直接预测。由此得到的实体关系一方面作为金融知识图谱的构造元素,另一方面回到Deep-Lasso中进行重新学习,下一次训练的模型会覆盖原有的预训练模型。如此产生一个模型迭代的过程。
1.2深度学习预测部分
在1.1中导入训练好的模型,当文本输入进来时,可直接进入该模块,输出实体间的关系。输出的结果需要通过LSTM解码和Softmax层,得到最终的实体关系。
预训练end-to-end模型伪代码如下:
gettexts\\在样本库中获取公司相关文章
wordembedding\\对输入的文本通过共用的word embedding
encodinginputbyBiLSTM\\接双向的LSTM层来对输入进行分编码
NERbyLSTM\\用LSTM进行命名实体识别
relationsclassifierbyCNN\\用CNN进行关系分类
该模型主要是通过底层的模型参数共享,在训练时两个任务都会通过后向传播算法来更新共享参数来实现两个子任务之间的依赖。
2.限定集提取
2.1从知识库中导入公司的知识图谱,将知识图谱中与公司连接的实体作为限定集。
2.2将通过deep-learning得到的实体关系补充到知识图谱的限定集中,作为PRA随机游走的节点参与PRA计算。
3.PRA训练
3.1在起始点公司A处,遍历限定集中的每一个实体,作为随机游走的节点。节点与公司B若存在关系,则标记为1。若不存在,则标记为0。
3.2从A开始,产生了与实体个数等同的关系路径,计算当前路径与节点相关的概率值,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score。依次类推,得到不同公司间对应的不同路径,每条路径都有其权重。
3.3用深度学习抽取的公司间的一个关系作为PRA训练时的标签,对路径进行人工划分,最终得到一个公司关系的PRA权重分布。
3.4重复以上三步,得到由所有的关系为label单独训练的PRA模型。
PRA计算路径过程的伪代码如下所示:
对于任意的P=R1,R2,…RL和查询实体集合:
其中的θi即为每个关系路径对应的权重,用梯度上升训练出权重,即可直接计算公司间得分最高的路径。训练θ的伪代码如下:
4.公司关系预测
4.1输入公司A和公司B,通过PRA模型后得到A与B之间的路径。
4.2将这条路径与训练时学习到的路径-关系类型进行映射,看这条路径属于哪一种关系类型。
4.3输入公司A和关系类型,通过知识图谱得到所有有可能和A公司存在这种关系的公司B。将此类关系作为参数调取对应的PRA权重分布,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱。
5.对于预测的公司关系通过用户反馈接口接受用户的反馈。如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练。训练后的模型存储到模型库中并覆盖之前的模型。这样形成一个model迭代的过程,能进一步提高预测的准确率。
Claims (9)
1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:
深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块:提取公司间特殊实体的相关关系,当作知识图谱特殊的边参与到PRA的计算中;
PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score,最终得到不同终点对应的所有路径的score;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;每种关系单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块:输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习的规则进行比对,判断这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块:在deep-learning抽取实体及实体关系三元组时,从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,调取不同的end-to-end模型;训练的PRA模型也及时更新;
用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程;
结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
2.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,采用参数共享,命名实体识别和关系抽取之间的联系信息,end-to-end即得到实体关系三元组。
3.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,在用PRA计算两个公司的之间的关系时,两个公司的实体之间也有关系,这些关系连接起来形成一条A公司通往B公司的路径,此时将所有出现的路径综合考虑;对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep-learning抽取出来;因此,将deep-learning抽取出来的各个关系作为各个权重分布的label,将各个路径所对应的短路径作为特征,训练特征的权重分布,即得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布;
输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生游走路径,将每一段路径其乘以对应的θ,得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。
4.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对新输入的公司A’和B’,要预测它们之间的关系,把其对应在知识图谱中的限定集及文本输入训练好的PRA模型,得到最终的path,将其与PRA训练模块中学到的规则进行比较,找到其对应的关系类别,即为公司A’和B’的关系;当输入公司A和关系类型预测与A存在关系的公司B时,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱。
5.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,模型库有深度学习模型,用于应对不同领域,不同要求的关系抽取;同时也保存训练的PRA模型;如果用户反馈模块有更新,重新训练模型,则要将后来训练的模型覆盖之前训练的PRA模型。
6.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后进行纠错,再将纠错后的公司关系重新输入model进行训练;这样形成一个model迭代的过程,能进一步提高预测的准确率。
7.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;其中,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,采用了参数共享,命名实体识别和关系抽取之间的联系信息。
8.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于知识库关系提取模块:提取公司间特殊实体的关系,当作知识图谱特殊的边参与到PRA的计算中。
9.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1,若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score,最终得到不同终点对应的所有路径的score;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;简言之,通过PRA计算得到PRA路径,利用PRA路径及标签的训练得到PRA模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810898419.1A CN109614495B (zh) | 2018-08-08 | 2018-08-08 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810898419.1A CN109614495B (zh) | 2018-08-08 | 2018-08-08 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614495A CN109614495A (zh) | 2019-04-12 |
CN109614495B true CN109614495B (zh) | 2023-11-28 |
Family
ID=66001931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810898419.1A Active CN109614495B (zh) | 2018-08-08 | 2018-08-08 | 一种结合知识图谱和文本信息的相关公司挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614495B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378126B (zh) * | 2019-07-26 | 2021-03-26 | 北京中科微澜科技有限公司 | 一种漏洞检测方法及系统 |
CN111210233B (zh) * | 2020-01-02 | 2023-12-26 | 联想(北京)有限公司 | 用户特征确定方法、装置和电子设备 |
CN111414486B (zh) * | 2020-03-20 | 2022-11-11 | 厦门渊亭信息科技有限公司 | 一种基于路径排序算法的知识推理系统 |
CN111626517B (zh) * | 2020-05-29 | 2024-02-27 | 中国科学技术大学 | 一种公司竞争合作策略分析方法及系统 |
CN113781076B (zh) * | 2020-06-29 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 提示方法、装置、设备及可读存储介质 |
CN112417171B (zh) * | 2020-11-23 | 2023-10-03 | 南京大学 | 面向知识图谱表示学习的数据增广方法 |
CN116136866B (zh) * | 2023-04-19 | 2023-06-27 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN117114739B (zh) * | 2023-09-27 | 2024-05-03 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528610A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种基于路径张量分解的知识图谱表示学习方法 |
CN107491500A (zh) * | 2017-07-28 | 2017-12-19 | 中国人民大学 | 一种强适应性的知识库补全方法 |
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108228877A (zh) * | 2018-01-22 | 2018-06-29 | 北京师范大学 | 基于学习排序算法的知识库补全方法及装置 |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303999B2 (en) * | 2011-02-22 | 2019-05-28 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and search engines |
-
2018
- 2018-08-08 CN CN201810898419.1A patent/CN109614495B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN106528610A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种基于路径张量分解的知识图谱表示学习方法 |
CN107491500A (zh) * | 2017-07-28 | 2017-12-19 | 中国人民大学 | 一种强适应性的知识库补全方法 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108228877A (zh) * | 2018-01-22 | 2018-06-29 | 北京师范大学 | 基于学习排序算法的知识库补全方法及装置 |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
Non-Patent Citations (1)
Title |
---|
面向企业知识图谱构建的中文实体关系抽取;孙晨等;《华东师范大学学报(自然科学版)》;20180525(第03期);第55-66页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109614495A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614495B (zh) | 一种结合知识图谱和文本信息的相关公司挖掘方法 | |
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
Bang et al. | Explaining a black-box by using a deep variational information bottleneck approach | |
Sanz et al. | IVTURS: A linguistic fuzzy rule-based classification system based on a new interval-valued fuzzy reasoning method with tuning and rule selection | |
CN110837602B (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
US20180240043A1 (en) | Model and pattern structure online unital learning: mapsoul | |
CN101093559B (zh) | 一种基于知识发现的专家系统构造方法 | |
CN112528676A (zh) | 文档级别的事件论元抽取方法 | |
CN102231151B (zh) | 一种农业领域本体自适应学习建模方法 | |
CN106991161A (zh) | 一种自动生成开放式问题答案的方法 | |
CN113779264B (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN113326377A (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN111339249B (zh) | 一种联合多角度特征的深度智能文本匹配方法和装置 | |
CN114186076A (zh) | 知识图谱构建方法、装置、设备和计算机可读存储介质 | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
CN116361438A (zh) | 基于文本-知识扩展图协同推理网络的问答方法及系统 | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
CN117171428B (zh) | 一种提升搜索和推荐结果准确性的方法 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
Elwakil | Knowledge discovery based simulation system in construction | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
CN115577696A (zh) | 一种基于wbs树的项目相似度评估及分析方法 | |
CN113722477B (zh) | 基于多任务学习的网民情绪识别方法、系统及电子设备 | |
CN104657429A (zh) | 基于复杂网络的技术驱动型产品创新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231024 Address after: Building 3, Block ABCD, Phase 1, Tian'an Yungu Industrial Park, Gangtou Community, Bantian Street, Longgang District, Shenzhen City, Guangdong Province, 518000, D1302 Applicant after: Shenzhen Hongjun Big Data Service Co.,Ltd. Address before: Room A438, Building 13, No. 232, Waihuan East Road, Xiaoguwei Street, Panyu District, Guangzhou City, Guangdong Province, 511400 Applicant before: GUANGZHOU CHUXING TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |