CN115965085A - 一种基于知识图谱技术的船舶静态属性推理方法及系统 - Google Patents
一种基于知识图谱技术的船舶静态属性推理方法及系统 Download PDFInfo
- Publication number
- CN115965085A CN115965085A CN202211490518.9A CN202211490518A CN115965085A CN 115965085 A CN115965085 A CN 115965085A CN 202211490518 A CN202211490518 A CN 202211490518A CN 115965085 A CN115965085 A CN 115965085A
- Authority
- CN
- China
- Prior art keywords
- entity
- ship
- knowledge
- triple
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于知识图谱技术的船舶静态属性推理方法及系统,包括以下步骤:获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型;通过所述BERT模型确定所述三元组文本中各个标志的语义特征向量;确定命中的先验三元组,并提取所述命中的先验三元组的特征向量;根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性;本发明的有益效果为:通过将待推理有关船舶的三元组文本输入BERT模型,然后通过BERT模型得出三元组文本中各个标志的语义特征向量,再提取命中的先验三元组的特征向量,最后根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性,能够对船舶的时间属性和空间属性进行推理。
Description
技术领域
本发明涉及海上交通运输技术领域,特别是涉及一种基于知识图谱技术的船舶静态属性推理方法及系统。
背景技术
实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系,对句子语义理解及实体语义知识库构建有着重要的作用,知识图谱的成功应用引起了业界的广泛关注,并迅速的成为了各行各业的研究热点,基于知识图谱的关系抽取、基于知识图谱的知识推理和基于知识图谱的问答系统的相关论文迅速占据了顶会和顶刊的版面,知识图谱的表示学习通常将实体表示为空间向量,通过定义的打分函数进行实体和关系的表示学习,目前主要的模型有距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等,隐性关系挖掘即知识推理,指的是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库,在推理的过程中,往往需要关联规则的支持,由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往都是手动总结的,对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富同现情况,知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等,知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。
自谷歌在2012年推出知识图谱后,知识图谱技术已迅速成为数据挖掘、数据库和人工智能等领域的研究热点,知识图谱(knowledge graph,KG)采用图结构来描述知识和建模事物及事物间关系,它将信息表达成更接近人类认知的形式,提供了一种组织、管理和认知理解海量信息的能力,目前知识图谱相关的知识自动获取、知识推理、知识表示、知识融合已成为搜索问答、大数据分析、智能推荐和数据集成的强大资产,被广泛应用于多个行业领域,知识图谱在其他领域已经相对成熟,可以将其采用到海上交通事故领域,首先是需要收集整理三种类型船舶数据,其次进行实体关系梳理和本体设计,最终构建出三种典型类型的船舶知识图谱,在该图谱中可构建受益国的关系、船舶管理公司的关系、船舶所有公司的关系,根据图谱显示找出事故高度相似特征的船舶,并进行重点监测,但是在建造的过程中遇到两个问题:1.现有的企业数据不全,知识图谱三元组构建需要耗费大量人力物力,2.无法通过船舶的相互关联(同一种类或者同一管理公司)关系对隐藏数据进行推理。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于知识图谱技术的船舶静态属性推理方法及系统,用于解决现有技术中无法通过船舶的相互关联关系对船舶的隐藏数据也就是船舶静态属性进行推理的问题。
本发明的实施方式提供了一种基于知识图谱技术的船舶静态属性推理方法,包括以下步骤:获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型;通过所述BERT模型确定所述三元组文本中各个标志的语义特征向量;确定命中的先验三元组,并提取所述命中的先验三元组的特征向量;根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性。
本发明的实施方式还提供了一种基于知识图谱技术的船舶静态属性推理系统,包括:三元组文本获取模块,用于获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型;特征向量确定模块,用于通过所述BERT模型确定所述三元组文本中各个标志的语义特征向量;确定命中的先验三元组,并提取所述命中的先验三元组的特征向量;船舶静态属性推理模块,用于根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性。
本发明的实施方式还提供了一种服务器,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的基于知识图谱技术的船舶静态属性推理方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于知识图谱技术的船舶静态属性推理方法。
本发明实施方式相对于现有技术而言,主要区别及其效果在于:通过将待推理有关船舶的三元组文本输入BERT模型,然后通过BERT模型得出三元组文本中各个标志的语义特征向量,再然后提取命中的先验三元组的特征向量,最后根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性,从而可以利用有关船舶的三元组文本推理出隐藏于海量历史融合数据的船舶经营行为模式的语义表征和构建方法,从而能够对船舶的时间属性和空间属性进行推理。
作为进一步改进,在所述获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型之前,包括:在知识图谱库内构建包含目标实体的标准实体知识库;确定所述标准实体知识库中待推理有关船舶的三元组文本。
作为进一步改进,所述在知识图谱库内构建包含目标实体的标准实体知识库,包括:在知识图谱库中构建包含目标实体的候选实体知识库;对包含目标实体的候选实体知识库内候选实体进行筛选和排序;根据筛选排序后的候选实体知识库构建包含目标实体的标准实体知识库。
作为进一步改进,所述在知识图谱库中构建包含目标实体的候选实体知识库,包括:根据所述目标实体的相似度确定部分候选实体知识库、根据预先设置的词覆盖度确定部分候选实体知识库和根据预先设置的编辑距离确定部分候选实体知识库。
上述方案根据目标实体的相似度确定部分候选实体知识库、根据预先设置的词覆盖度确定部分候选实体知识库和根据预先设置的编辑距离确定部分候选实体知识库,从三个方面将知识图谱库中与目标实体有关联关系的实体作为候选实体加入到候选实体知识库内,从而可以能够得到包含目标实体的候选实体知识库,也是为了可以得出正确的目标实体。
作为进一步改进,所述确定命中的先验三元组,包括:获取船舶数据集和从互联网爬取的结构化与半结构的数据;根据所述船舶数据集和结构化与半结构的数据构成关系先验知识库;根据待推理有关船舶的三元组文本在关系先验知识库内确定命中的先验三元组。
上述方案根据结构化与半结构的数据和船舶数据集构成关系先验知识库,然后根据待推理有关船舶的三元组文本在关系先验知识库内确定命中的先验三元组,再将命中的先验三元组的特征向量编码进各个标志的语义特征向量内,从而可以提升对于实体关系的抽取效果。
作为进一步改进,所述根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性,包括:根据各个标志的语义特征向量和命中的先验三元组的特征向量确定第一融合数;根据所述第一融合数推理出头实体的首尾位置;根据所述第一融合数和头实体的首尾位置推理出关系类型和尾实体的首尾位置;根据所述第一融合数和实体的首尾位置、关系类型和尾实体的首尾位置推理出关系发生的时间属性和空间属性,也就是船舶静态属性。
上述方案根据各个标志的语义特征向量和命中的先验三元组的特征向量确定第一融合数,然后根据第一融合数推理出头实体的首尾位置,再根据第一融合数和头实体的首尾位置推理出关系类型和尾实体的首尾位置,然后再根据第一融合数和实体的首尾位置、关系类型和尾实体的首尾位置推理出关系发生的时间属性和空间属性,也就是船舶静态属性,从而解决复杂问题下实体关系抽取,先抽取头实体,然后抽取关系和尾实体,可以有效解决实体重叠、同一对实体对应多种关系等问题。
附图说明
图1是本发明第一实施方式中的基于知识图谱技术的船舶静态属性推理方法流程图;
图2是本发明第二实施方式中的基于知识图谱技术的船舶静态属性推理方法流程图;
图3是本发明第三实施方式中的基于知识图谱技术的船舶静态属性推理方法流程图;
图4是本发明第四实施方式中的基于知识图谱技术的船舶静态属性推理系统示意图;
图5是本发明第五实施方式中的电子设备示意图;
图6是本发明中融合实体类别的实体匹配模型的示意图;
图7是本发明中融合搜索引擎特征的实体匹配模型的示意图;
图8是本发明中融合注意力机制的实体匹配模型的示意图;
图9是本发明中对待推理有关船舶的三元组文本推理的流程图;
图10是本发明中最终构建船舶知识图谱的示意图;
图11是本发明中三类实体以及实体之间的五种关系的示意图;
图12是本发明中原油船舶知识图谱的示意图;
图13是本发明中集装箱船舶知识图谱的示意图;
图14是本发明中普通干散货船舶知识图谱的示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的第一实施方式涉及一种基于知识图谱技术的船舶静态属性推理方法。流程如图1所示,具体如下:
步骤101,获取待推理有关船舶的三元组文本,并将该三元组文本输入BERT模型;
具体的说,在获取待推理有关船舶的三元组文本,并将三元组文本输入BERT模型之前,还需要在知识图谱库中构建包含目标实体的候选实体知识库,然后对包含目标实体的候选实体知识库内候选实体进行筛选和排序,然后再根据筛选排序后的候选实体知识库构建包含目标实体的标准实体知识库,最后确定标准实体知识库中待推理有关船舶的三元组文本。
步骤102,通过BERT模型确定三元组文本中各个标志的语义特征向量。
具体的说,BERT的全称是Bidirectional Encoder Representation fromTransformers,即双向Transformer的Encoder,BERT模型基于transformer网络结构,特征提取能力强大,能很好的提取文本的语义信息,作为本申请中关系抽取的特征抽取模块。
步骤103,确定命中的先验三元组,并提取命中的先验三元组的特征向量。
具体的说,先获取船舶数据集和从互联网爬取的结构化与半结构的数据,然后根据船舶数据集和结构化与半结构的数据构成关系先验知识库,最后根据待推理有关船舶的三元组文本在关系先验知识库内确定命中的先验三元组。
步骤104,根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性。
具体的说,先根据各个标志的语义特征向量和命中的先验三元组的特征向量确定第一融合数,然后根据第一融合数推理出头实体的首尾位置,再根据第一融合数和头实体的首尾位置推理出关系类型和尾实体的首尾位置,最后根据第一融合数和实体的首尾位置、关系类型和尾实体的首尾位置推理出关系发生的时间属性和空间属性,也就是船舶静态属性。
本实施方式可以通过将待推理有关船舶的三元组文本输入BERT模型,然后通过BERT模型得出三元组文本中各个标志的语义特征向量,再然后提取命中的先验三元组的特征向量,最后根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性,从而可以利用有关船舶的三元组文本推理出隐藏于海量历史融合数据的船舶经营行为模式的语义表征和构建方法,从而能够对船舶的时间属性和空间属性进行推理。
本发明的第二实施方式涉及一种基于知识图谱技术的船舶静态属性推理方法,第二实施方式是对第一实施方式整体的详细论述,主要详细的论述在于:在本发明的第二实施方式中,明确了一种实施方式,此实施方式论述了在知识图谱库内构建包含目标实体的标准实体知识库的具体过程。
本实施方式请参阅图2,包括以下步骤,进行如下说明:
步骤201,在知识图谱库中构建包含目标实体的候选实体知识库。
具体的说,候选实体知识库的构建可以根据目标实体的相似度确定部分候选实体知识库、根据预先设置的词覆盖度确定部分候选实体知识库和根据预先设置的编辑距离确定部分候选实体知识库,通过这三种方式来构建出的候选实体知识库。
实际应用中,候选实体知识库内的候选实体生成的主要目标是在候选实体集合尽可能小的情况下包含目标实体,候选实体集合生成的好坏,关系到实体标准化的准确率,如果候选实体集合没有包含目标实体,那么则不可能得到正确的标准实体,为了候选实体集合中能够包含目标实体,则需要把更多的知识图谱库中的实体作为候选实体加入到候选实体知识库中,而候选实体知识库规模的大小也影响着本申请的性能,当候选实体知识库中只有目标实体,则不需要进行排序,当候选实体知识库太大,还会严重影响本申请的性能,所以需要在保证候选实体知识库召回率的情况下减小候选实体知识库中的候选实体的数目;
候选实体知识库的生成方式如下:
(1)根据目标实体的相似度确定部分候选实体知识库:计算目标实体内各个字的频率,然后在知识图谱库中获取包含各个字的实体词,然后计算包含各个字的实体词和目标实体的相似度,通过各个实体词的向量相似度,召回与目标实体相似度排名前10的实体词加入到候选实体知识库中,相似度的计算具体如下公式所示,由于组成实体词的每个字都非常重要,所以实体词的TF-IDF向量仅由字频TF表示,实体词的向量由每个字的字频TFw拼接而成的,nw拼接表示字w在实体词中出现的次数,nE表示实体词的总数,TFw表示当前字在知识库中出现的频率,sin(A,B)为两个实体词A、B的相似度,由余弦相似度cosθ进行计算而得;
(2)根据预先设置的词覆盖度确定部分候选实体知识库:通过计算知识图谱库中各个实体词的词覆盖度,预先设置词覆盖度的阈值,将高于词覆盖度阈值的实体词加入到候选实体知识库中,词覆盖度的计算具体如下公式所示:其中,count(mw∩sw)表示实体词的词覆盖数,count(sw)表示实体词的词数。
(3)根据预先设置的编辑距离确定部分候选实体知识库:通过计算知识图谱中各个实体词的编辑距离,预先设置编辑距离的阈值,将小于编辑距离阈值的实体词加入到候选实体知识库中,编辑距离具体如下公式所示,d=Levenshtein(mw,sw),d表示实体提及与标准实体词的编辑距离,编辑距离是指由实体提及转成标准实体词所需的最少编辑操作次数,编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
步骤202,对包含目标实体的候选实体知识库内候选实体进行筛选和排序。
具体的说,生成候选实体知识库后,需要从候选实体知识库中筛选出最符合目标实体的候选实体,即需要对候选实体知识库内候选实体进行排序,通过构建实体匹配模型,使用实体的匹配概率来对候选实体知识库中的候选实体进行排序操作,根据本申请的知识库的特征,存在实体描述信息不全或缺失的问题,因此需要构建其它特征来表示知识库的实体,实体标准化的任务中,实体类型是比较有力的一项特征,它表示的是实体的类型信息,可以从特定角度描述知识库中的实体,根据前面提到知识库的特点,实体的地域信息也是比较重要的特征,可以通过地域信息特征,就可大致判断两个实体词是否匹配,由于知识库中缺少实体的描述信息,使用实体在搜索引擎中的结果,作为实体的补充信息,为了描述实体词每个字的重要程度,引入了注意力机制,构建了文本匹配的神经网络注意力机制模型;
更具体的说,实体类别指的是实体所属的类型,实体的类型不同,那两个实体必定不属于同一实体,本申请利用实体类别信息作为候选实体排序的辅助信息,构建一种融合实体类别的实体匹配模型,该实体匹配模型的特点是将BERT模型引入到实体标准化任务中,通过BERT模型来获取实体词的向量表示,从而进行候选实体的匹配度分析,同时使用一个实体分类模型来获得实体提及的实体类型,作为实体的辅助信息,输入到BERT模型中,从而增强实体提及的综合描述,实体匹配模型整体结构如图6所示,由图6所示,实体匹配模型输入由两部分组成,第一部分是实体提及和实体提及类型,第二部分是候选实体和候选实体类型,第一部分和第二部分用[SEP]分隔符隔开,作为BERT模型的输入,实体提及的类型由实体分类模型给出,本方法采用TextCNN分类模型,候选实体的实体类型从知识库中直接获取,然后取BERT模型输出中对应的向量作为池化层的输入,再连接一层全连接层,使用激活函数进行激活,把候选实体排序问题抽象为一个实体匹配的二分类问题,根据每个候选实体的匹配概率进行候选实体排序。
步骤203,根据筛选排序后的候选实体知识库构建包含目标实体的标准实体知识库。
具体的说,首先需要建立一个较为完整的含有目标实体的标准实体知识库,候选实体生成的召回率与标准实体知识库的规模具有相关性,标准实体知识库中的实体越多和越全面,在候选实体生成的时候召回率就越高。
步骤204,确定标准实体知识库中待推理有关船舶的三元组文本。
实际应用中,在知识图谱库中已经构建出了含有目标实体的标准实体知识库,那么在标准实体知识库内可以对目标实体进行搜索,搜索引擎特征:由于实体提及以及知识库中,缺少对实体词的描述信息以及实体属性,本申请通过搜索引擎扩充实体的描述信息来增加实体描述特征,本申请通过实体在搜索引擎上的搜索结果,抽取了当前实体首页的搜索结果,搜索结果的标题作为实体的描述信息,用来增加实体的背景知识,辅助完成候选实体排序任务。模型整体结构如图7所示,如图7所示,将实体提及和候选实体以及它们的搜索结果文本进行拼接,用[SEP]分隔符隔开实体提及和候选实体作为BERT模型的输入,实体搜索结果标题为在搜索引擎首页结果中的标题作为实体的额外信息,然后取BERT模型输出中对应的向量作为池化层的输入,再连接一层全连接层,使用激活函数进行激活,完成融合搜索引擎特征的实体匹配模型的构建;
更进一步的说,还有注意力机制,研究表明仅仅采用注意力机制就能在NLP领域就能取得很好的效果,因此也成为了大家的研究热点,利用注意力机制有利于模型更有效地发现和构建特征,使模型在训练时有选择地进行特征提取,采用注意力机制计算各个词与实体匹配任务的相关程度,体现了每个字对于实体匹配的重要性程度,本申请在模型中增加了字注意力层,从而确定字对实体词的贡献程度,再对BERT层的输出向量进行注意力加权,得到加权后的特征向量,再通过池化层、全连接层进行输出,模型整体结构如图8所示,如图8所示,将实体提及和候选目标实体,用[SEP]分隔符隔开作为BERT模型的输入,然后取BERT模型输出中对应的向量与字注意力层进行加权,作为池化层的输入,再连接一层全连接层,完成模型的构建,词注意力层的作用是对输入文本进行筛选,决定哪些字较为重要,使模型在训练过程中重点关注;
还需进一步说明的是,本申请提出的融合辅助信息的实体标准化方法,通过构建实体知识库,候选实体召回,候选实体排序等过程,在候选实体排序过程中,利用实体类型特征、实体位置特征、实体搜索引擎特征以及注意力机制,来完成实体标准化任务,通过融合实体类型特征以及注意力机制,在构建的测试集下,实体标准化任务准确率达到0.81。
步骤205至步骤208与第一实施方式中的步骤101至步骤104相类似,在此不再赘述。
本实施方式根据目标实体的相似度确定部分候选实体知识库、根据预先设置的词覆盖度确定部分候选实体知识库和根据预先设置的编辑距离确定部分候选实体知识库,从三个方面将知识图谱库中与目标实体有关联关系的实体作为候选实体加入到候选实体知识库内,从而可以能够得到包含目标实体的候选实体知识库,也是为了可以得出正确的目标实体。
本发明的第三实施方式涉及一种基于知识图谱技术的船舶静态属性推理方法,第三实施方式是对第二实施方式整体的详细论述,主要详细的论述在于:在本发明的第三实施方式中,明确了一种实施方式,此实施方式论述了确定命中的先验三元组和根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性的具体过程。
本实施方式请参阅图3,包括以下步骤,进行如下说明:
步骤301至步骤306与第一实施方式中的步骤201至步骤206相类似,在此不再赘述。
步骤307,获取船舶数据集和从互联网爬取的结构化与半结构的数据。
具体的说,船舶数据集包括船舶知识、船舶所属国、船舶所属船公司和港口知识,有研究表明互联网文本数据正以每年EB级别增长,而其中有一大部分是以表格、XML等半结构化形式呈现,对比非结构化数据,半结构化数据以键-值对的形式包含非常丰富的实体属性信息,是本申请知识库构建的重要知识来源。
步骤308,根据船舶数据集和结构化与半结构的数据构成关系先验知识库。
步骤309,根据待推理有关船舶的三元组文本在关系先验知识库内确定命中的先验三元组。
具体的说,采用AC自动机算法在构建的关系先验知识库内根据待推理有关船舶的三元组文本进行知识关键词搜索,找出命中待推理有关船舶的三元组文本的先验三元组。
步骤310,根据各个标志的语义特征向量和命中的先验三元组的特征向量确定第一融合数。
具体的说,将命中的先验三元组特征向量编码进BERT模型抽取的各个标志的语义特征向量中,然后传入后续流程进行预测。
步骤311,根据第一融合数推理出头实体的首尾位置。
步骤312,根据第一融合数和头实体的首尾位置推理出关系类型和尾实体的首尾位置。
步骤313,根据第一融合数和实体的首尾位置、关系类型和尾实体的首尾位置推理出关系发生的时间属性和空间属性,也就是船舶静态属性。
具体的说,本申请基于概率图的联合式关系抽取:在seq2seq任务中,解码器实际上在建模如该公式所示:P(y1,y2,…,yn|x)=P(y1|x)P(y2|y1,x),…,P(yn|x,y1,y2,…,yn-1),在实际解码的过程中,首先通过x来预测第一个标志(token),然后假设第一个标志(token)已知来预测第二个标志(token),以此递推,直到出现结束标记,受此启发在五元组的关系抽取中也可以基于这个概率图的方法进行抽取,具体地,P(s,p,o,t,l)=P(s)P(o|s)P(p|s,o)P(t|s,p,o)P(l|s,p,o,t),公式中,s表示头实体(subject),p表示关系类型,o表示尾实体(object),t表示关系发生的时间属性(time),l表示关系发生的空间属性(location),也就是说,先预测s,然后传入s来预测s对应的o,依次递推,最终传入s、p、o、t来预测对应的l,实际实施时,可以将o、p的预测合并成一步,将t、l的预测合并成一步,所以总结起来就是,先预测s,然后根据s预测p、o,最后根据s、p、o来预测对应的t、l。
实际应用中,将待推理有关船舶的三元组文本传入BERT模型得到文本中每个标志(token)的语义特征向量h,然后将命中的先验三元组的特征向量编码进每个标志(token)的特征向量h中,得到h+pre;(2)后接一个“半指针-半标注”结构用来预测s的首尾位置;(3)然后将h+pre与预测的s进行融合,得到h+pre+s,后面接多个“半指针-半标注”结构来同时预测p的类型与o的首尾位置;(4)最后将h+pre与预测的s、p、o进行融合,得到h+pre+s+p+o,后面接两个“半指针-半标注”结构来同时预测t和l的首尾位置,最终得到关系五元组,也就是本申请中船舶静态属性,具体请参阅图9;
更进一步的说,对于每个标志(token),新增两维特征,分别表示是否是命中头实体(subject)的开始位置与结尾位置,如果是命中的头实体(subject)中的开始位置,则其中一维特征值为1,否则为0,如果是命中头实体(subject)中的结尾位置,则另一维特征值为1,否则为0,最后将BERT模型得到的768维特征与关系先验知识库得到的2维特征进行拼接融合,对于命中的尾实体(object)、时间属性(time)、空间属性(location)实体,采用与以上类似的方法将其编码进各个标志(token)语义特征向量h中,得到786维特征向量h+pre,标志(token)序列的特征矩阵维度为len*786;
还需进一步说明的是,将上一步得到的融合特征传入一个“半指针-半标注”结构用来预测头实体(subject)的首尾位置,具体地,将传入的融合特征接上两个带sigmoid激活函数的全连接层,分别用于预测头实体(subject)的开始位置与结尾位置,并称这两个带sigmoid激活函数的全连接层为“半指针-半标注”结构,采用sigmoid代替softmax激活函数是为了解决文本序列中含有多个头实体(subject),这种结构相比序列标注,很好的解决了实体重叠问题,例如:船舶育德轮,要抽取{育德轮,所属公司,厦门诚毅有限公司},头实体(subject)和尾实体(object)实体重叠,“半指针-半标注”结构通过两个全连接层分别标注实体的首尾指针,很好的解决了实体重叠的问题;
还需进一步说明的是,在训练时,随机选取一个从待推理有关船舶的三元组文本内推理出的头实体(subject),取其首尾标志(token)的特征向量,进行向量平均操作后,与标志(token)序列文本进行相加操作,对于每一个标志(token)得到h+pre+s特征向量;后面接多个“半指针-半标注”结构来同时预测predicate的类型与尾实体(object)的首尾位置,一个“半指针-半标注”结构对应预测一种predicate关系类型的尾实体(object),设predicate关系类型有n种,则需要n个这样的结构去预测对应的尾实体(object),最终得到关系五元组。
更具体的说,针对以上提出了基于概率图的融合BERT模型与先验知识特征的实体关系抽取的方法,本申请设计了相关实验进行了验证,实验表明基于概率图的实体关系联合抽取框架有效的解决了实体重叠与同一对实体对应多种关系的问题,提升了抽取效果,融合先验知识特征进一步提升了模型抽取效果。
实际应用中,本申请收集整理三种类型船舶数据,进行实体关系梳理和本体设计,最终构建船舶知识图谱,具体请参阅图10;根据需求与数据特点,进行图谱本体设计,得到三类实体(ship、company、country)以及实体之间的五种关系,具体请参阅图11;收集整理得到结构化、半结构化、非结构化等多源异构数据,通过知识获取技术,将其抽取为知识图谱三元组结构<head,relation,tail>,其中,原油船舶知识图谱:实体数量:1105,关系数量:3665,请参阅图12;集装箱船舶知识图谱:实体数量:2483,关系数量:12080,请参阅图13;普通干散货船舶知识图谱:实体数量:1466,关系数量:6319,请参阅图14;为了实现预测效果,本申请采用图谱的链路预测方法,实验对比方法包括TransH,TransR,TransD,DistMult和ComplEx针对图谱的静态分析,对于所在尾节点进行分析,对尾实体(object)进行预测,并且基于预测结果进行排序,得到的最终指标如下:
表1知识图谱预测指标
Type | MR | MRR | HITS@1 | HTIS@3 | HITS@10 |
TransE | 199 | 0.55 | 0.476 | 0.598 | 0.694 |
TransR | 271 | 0.507 | 0.443 | 0.548 | 0.615 |
TransD | 250 | 0.516 | 0.436 | 0.572 | 0.648 |
DisMult | 254 | 0.347 | 0.254 | 0.383 | 0.509 |
Complex | 251 | 0.398 | 0.309 | 0.422 | 0.606 |
TransH | 274 | 0.513 | 0.430 | 0.571 | 0.657 |
本实施方式根据结构化与半结构的数据和船舶数据集构成关系先验知识库,然后根据待推理有关船舶的三元组文本在关系先验知识库内确定命中的先验三元组,再将命中的先验三元组的特征向量编码进各个标志的语义特征向量内,从而可以提升对于实体关系的抽取效果;还根据各个标志的语义特征向量和命中的先验三元组的特征向量确定第一融合数,然后根据第一融合数推理出头实体的首尾位置,再根据第一融合数和头实体的首尾位置推理出关系类型和尾实体的首尾位置,然后再根据第一融合数和实体的首尾位置、关系类型和尾实体的首尾位置推理出关系发生的时间属性和空间属性,也就是船舶静态属性,从而解决复杂问题下实体关系抽取,先抽取头实体,然后抽取关系和尾实体,可以有效解决实体重叠、同一对实体对应多种关系等问题。
本发明的第四实施方式涉及一种基于知识图谱技术的船舶静态属性推理系统,请参阅图4,包括:
三元组文本获取模块,用于获取待推理有关船舶的三元组文本,并将三元组文本输入BERT模型;
特征向量确定模块,用于通过BERT模型确定三元组文本中各个标志的语义特征向量;确定命中的先验三元组,并提取命中的先验三元组的特征向量;
船舶静态属性推理模块,用于根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第五实施方式涉及一种服务器,请参阅图5,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的基于知识图谱技术的船舶静态属性推理方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第六实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明通过将待推理有关船舶的三元组文本输入BERT模型,然后通过BERT模型得出三元组文本中各个标志的语义特征向量,再然后提取命中的先验三元组的特征向量,最后根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性,从而可以利用有关船舶的三元组文本推理出隐藏于海量历史融合数据的船舶经营行为模式的语义表征和构建方法,从而能够对船舶的时间属性和空间属性进行推理。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种基于知识图谱技术的船舶静态属性推理方法,其特征在于,包括以下步骤:
获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型;
通过所述BERT模型确定所述三元组文本中各个标志的语义特征向量;
确定命中的先验三元组,并提取所述命中的先验三元组的特征向量;
根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性。
2.根据权利要求1所述的一种基于知识图谱技术的船舶静态属性推理方法,其特征在于:在所述获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型之前,包括:
在知识图谱库内构建包含目标实体的标准实体知识库;
确定所述标准实体知识库中待推理有关船舶的三元组文本。
3.根据权利要求2所述的一种基于知识图谱技术的船舶静态属性推理方法,其特征在于:所述在知识图谱库内构建包含目标实体的标准实体知识库,包括:
在知识图谱库中构建包含目标实体的候选实体知识库;
对包含目标实体的候选实体知识库内候选实体进行筛选和排序;
根据筛选排序后的候选实体知识库构建包含目标实体的标准实体知识库。
4.根据权利要求3所述的一种基于知识图谱技术的船舶静态属性推理方法,其特征在于:所述在知识图谱库中构建包含目标实体的候选实体知识库,包括:
根据所述目标实体的相似度确定部分候选实体知识库、根据预先设置的词覆盖度确定部分候选实体知识库和根据预先设置的编辑距离确定部分候选实体知识库。
5.根据权利要求1所述的一种基于知识图谱技术的船舶静态属性推理方法,其特征在于:所述确定命中的先验三元组,包括:
获取船舶数据集和从互联网爬取的结构化与半结构的数据;
根据所述船舶数据集和结构化与半结构的数据构成关系先验知识库;
根据待推理有关船舶的三元组文本在关系先验知识库内确定命中的先验三元组。
6.根据权利要求1所述的一种基于知识图谱技术的船舶静态属性推理方法,其特征在于:所述根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性,包括:
根据各个标志的语义特征向量和命中的先验三元组的特征向量确定第一融合数;
根据所述第一融合数推理出头实体的首尾位置;
根据所述第一融合数和头实体的首尾位置推理出关系类型和尾实体的首尾位置;
根据所述第一融合数和实体的首尾位置、关系类型和尾实体的首尾位置推理出关系发生的时间属性和空间属性,也就是船舶静态属性。
7.一种基于知识图谱技术的船舶静态属性推理系统,其特征在于:包括:
三元组文本获取模块,用于获取待推理有关船舶的三元组文本,并将所述三元组文本输入BERT模型;
特征向量确定模块,用于通过所述BERT模型确定所述三元组文本中各个标志的语义特征向量;确定命中的先验三元组,并提取所述命中的先验三元组的特征向量;
船舶静态属性推理模块,用于根据各个标志的语义特征向量和命中的先验三元组的特征向量推理出船舶静态属性。
8.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的一种基于知识图谱技术的船舶静态属性推理方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一所述的一种基于知识图谱技术的船舶静态属性推理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490518.9A CN115965085A (zh) | 2022-11-25 | 2022-11-25 | 一种基于知识图谱技术的船舶静态属性推理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490518.9A CN115965085A (zh) | 2022-11-25 | 2022-11-25 | 一种基于知识图谱技术的船舶静态属性推理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115965085A true CN115965085A (zh) | 2023-04-14 |
Family
ID=87363646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211490518.9A Pending CN115965085A (zh) | 2022-11-25 | 2022-11-25 | 一种基于知识图谱技术的船舶静态属性推理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965085A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521904A (zh) * | 2023-06-29 | 2023-08-01 | 湖南大学 | 一种基于5g边缘计算的船舶制造数据云融合方法及系统 |
-
2022
- 2022-11-25 CN CN202211490518.9A patent/CN115965085A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521904A (zh) * | 2023-06-29 | 2023-08-01 | 湖南大学 | 一种基于5g边缘计算的船舶制造数据云融合方法及系统 |
CN116521904B (zh) * | 2023-06-29 | 2023-09-22 | 湖南大学 | 一种基于5g边缘计算的船舶制造数据云融合方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Natural language processing for smart construction: Current status and future directions | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN114564966A (zh) | 一种基于知识图谱的空间关系语义分析的方法 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN109241199B (zh) | 一种面向金融知识图谱发现的方法 | |
Cornia et al. | Explaining transformer-based image captioning models: An empirical analysis | |
CN112463981A (zh) | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 | |
CN114661914A (zh) | 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质 | |
CN113779264A (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115269899A (zh) | 基于遥感知识图谱的遥感影像统筹系统 | |
CN115965085A (zh) | 一种基于知识图谱技术的船舶静态属性推理方法及系统 | |
CN111104492B (zh) | 一种基于层次化Attention机制的民航领域自动问答方法 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN117273134A (zh) | 一种基于预训练语言模型的零样本知识图谱补全方法 | |
CN111950646A (zh) | 电磁图像的层次化知识模型构建方法及目标识别方法 | |
CN115982338A (zh) | 一种基于查询路径排序的领域知识图谱问答方法及系统 | |
CN116258204A (zh) | 基于知识图谱的工业安全生产违规处罚管理方法及系统 | |
CN115859963A (zh) | 一种面向新词义原推荐的相似性判别方法及系统 | |
Chen | English translation template retrieval based on semantic distance ontology knowledge recognition algorithm | |
Mohemad et al. | Ontological-based information extraction of construction tender documents | |
CN102436472B (zh) | 一种基于关系机制的多类别web对象抽取方法 | |
Liu | IntelliExtract: An End-to-End Framework for Chinese Resume Information Extraction from Document Images | |
CN117808923B (zh) | 一种图像生成方法、系统、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |