CN115905563A - 船舶现场监督知识图谱的构建方法、装置及电子设备 - Google Patents

船舶现场监督知识图谱的构建方法、装置及电子设备 Download PDF

Info

Publication number
CN115905563A
CN115905563A CN202211427336.7A CN202211427336A CN115905563A CN 115905563 A CN115905563 A CN 115905563A CN 202211427336 A CN202211427336 A CN 202211427336A CN 115905563 A CN115905563 A CN 115905563A
Authority
CN
China
Prior art keywords
entity
fused
knowledge
ship
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211427336.7A
Other languages
English (en)
Inventor
刘�东
程欣
项邦豪
甘浪雄
邓巍
李克丁
陈淦轩
束亚清
周春辉
邓正州
安甫君
陈晨
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Xinhai Yuanhang Technology R&d Co ltd
Yancheng Maritime Safety Bureau Of People's Republic Of China
Original Assignee
Wuhan Xinhai Yuanhang Technology R&d Co ltd
Yancheng Maritime Safety Bureau Of People's Republic Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Xinhai Yuanhang Technology R&d Co ltd, Yancheng Maritime Safety Bureau Of People's Republic Of China filed Critical Wuhan Xinhai Yuanhang Technology R&d Co ltd
Priority to CN202211427336.7A priority Critical patent/CN115905563A/zh
Publication of CN115905563A publication Critical patent/CN115905563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种船舶现场监督知识图谱的构建方法、装置及电子设备,该方法包括:构建船舶现场监督知识图谱的本体模型和知识库,并从知识库中抽取目标项目类实体;确定目标项目类实体中的待融合实体,以及对应的Jaccard系数相似度、Jaro‑Winkler相似度和uSIF相似度;将相似度输入至知识融合模型,得到是否融合的结果;知识融合模型是基于XGBoosT模型训练得到;在需融合的情况下,对待融合实体进行实体属性补全和关联对齐,得到知识融合数据;将本体模型映射到知识融合数据,得到船舶现场监督知识图谱。本发明可以辅助海事执法人员在船舶现场检查中的决策,使船舶安全监督工作信息化、智慧化和专家化。

Description

船舶现场监督知识图谱的构建方法、装置及电子设备
技术领域
本发明涉及知识图谱技术领域,具体涉及一种船舶现场监督知识图谱的构建方法、装置及电子设备。
背景技术
船舶现场监督是指海事管理机构依法对辖区内船舶及其从事的相关活动实施的日常安全监督抽查活动,也称之为船舶现场检查或船舶现场监督检查,是船舶安全监督的基础性工作之一。知识图谱是由一些互相连接的实体和它们的属性构成的,本质上是一种语义网络(semantic network),通常以结构化三元组的形式存在,具有丰富的语义信息。在某种程度上,知识图谱使用图(graph)作为媒介来组织与利用不同类型的大规模数据,能够表达明确的通用或领域知识。
目前针对船舶现场监督知识图谱的构建方法研究还处在空白期,其他垂直领域的构建方法在适用性上并不符合船舶现场监督领域。在船舶现场监督过程中,目前还停留在传统的人力阶段。海事行政执法人员对船舶进行检查期间,需要依据经验并翻阅大量资料对船舶安全做出决策处理。在对船舶检查前往往会查询多个数据库以掌握被检船舶信息,而这些传统的数据库存在数据冗余、查询及分析效率低等缺点。因此,充分利用多源异构的船舶现场监督业务知识构建知识图谱,将弥补传统数据库的不足,辅助海事执法人员在船舶现场检查中的决策,使船舶安全监督工作信息化、智慧化和专家化。
发明内容
有鉴于此,有必要提供一种船舶现场监督知识图谱的构建方法、装置及电子设备,用以构建船舶现场监督知识图谱,弥补传统数据库的不足,辅助海事执法人员在船舶现场检查中的决策,使船舶安全监督工作信息化、智慧化和专家化。
为了实现上述目的,本发明提供了一种船舶现场监督知识图谱的构建方法,包括:
构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
进一步的,所述构建船舶现场监督知识图谱的本体模型和知识库,包括:
从目标网站爬取船舶现场监督相关的航运网站数据,以及获取船舶现场监督相关的法律法规数据和历史检查数据;
对所述航运网站数据进行数据清洗,形成航运网站数据表,对所述法律法规数据进行数字化处理和格式化处理,形成法律法规数据表,对所述历史检查数据进行数据清洗,形成历史检查数据表;
基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,确定船舶现场监督知识图谱的领域范围,在所述领域范围内确定实体层级结构以及实体关系属性,基于所述实体层级结构和所述实体关系属性,得到所述本体模型。
进一步的,所述构建船舶现场监督知识图谱的本体模型和知识库,还包括:
对所述航运网站数据表、所述法律法规数据表和所述历史检查数据表进行知识抽取,得到所述知识库。
进一步的,所述基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,确定船舶现场监督知识图谱的领域范围,在所述领域范围内确定实体层级结构以及实体关系属性,基于所述实体层级结构和所述实体关系属性,得到所述本体模型,包括:
基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,以及预设的船舶现场监督概念和业务需求,确定船舶现场监督领域范围;
在所述船舶现场监督领域范围内,确定本体概念类及其属性、本体概念类之间的关系及其属性;
对所述本体概念类及其属性、所述本体概念类之间的关系及其属性进行可视化处理,得到所述本体模型。
进一步的,所述从所述知识库中抽取目标项目类实体,包括:
基于所述法律法规数据表和所述历史检查数据表,得到船舶现场监督文本;所述船舶现场监督文本包括:所述法律法规数据表中的条款内容以及所述历史检查数据表中的缺陷内容;
对所述船舶现场监督文本对应的实体进行分类和细粒度知识抽取,得到目标实体;
将所述船舶现场监督文本和所述目标实体输入至预设的实体识别模型,以提取所述船舶现场监督文本的语义特征,并基于所述语义特征和所述目标实体确定全局最优的实体标签序列,基于所述全局最优的实体标签序列得到所述目标项目类实体。
进一步的,所述实体识别模型,包括:
所述RoBERTa-wwm-ext嵌入层,用于确定所述船舶现场监督文本对应的语义特征,并输出语义特征对应的低维特征向量;
所述BiLSTM层,用于基于所述低维特征向量,得到每一字符的标签序列概率矩阵,并基于所述标签序列概率矩阵对所述目标实体进行推断标注;
所述CRF层,用于从标注后的目标实体中确定全局最优的实体标签序列,基于所述全局最优的实体标签序列得到所述目标项目类实体。
进一步的,所述在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据,包括:
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合,且所述待融合实体均为第一类别实体的情况下,基于所述待融合实体对应的所有属性,对所述待融合实体中的每个实体进行属性补全,以得到知识融合数据;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合,且所述待融合实体包含有第二类别实体和第三类别实体的情况下,在所述第二类别识别和所述第三类别实体之间添加关联关系,以得到知识融合数据。
本发明还提供一种船舶现场监督知识图谱的构建装置,包括:
构建模块,用于构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
相似度计算模块,用于确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
融合判断模块,用于将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
融合模块,用于在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
图谱生产模块,用于将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
本发明还提供一种电子设备,包括存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任意一项所述的船舶现场监督知识图谱的构建方法中的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的船舶现场监督知识图谱的构建方法。
采用上述实现方式的有益效果是:本发明提供的船舶现场监督知识图谱的构建方法、装置及电子设备,通过构建船舶现场监督知识图谱的本体模型和知识库,并从知识库中抽取目标项目类实体,再将待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度输入至预设的知识融合模型,判断是否可以融合,若可以融合,则对待融合实体进行实体属性补全和关联对齐,得到知识融合数据;将本体模型映射到知识融合数据,得到船舶现场监督知识图谱,弥补传统数据库的不足,辅助海事执法人员在船舶现场检查中的决策,使船舶安全监督工作信息化、智慧化和专家化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的船舶现场监督知识图谱的构建方法一实施例的流程示意图;
图2为本发明提供的船舶现场监督实体间关系一实施例的示意图;
图3为本发明提供的细粒度知识抽取方法一实施例的示意图;
图4为本发明构建本体模型一实施例的流程示意图;
图5是本发明提供的船舶现场监督知识图谱的构建方法另一实施例的流程示意图;
图6是本发明提供的实体识别模型一实施例的识别效果示意图;
图7是本发明提供的船舶现场监督知识图谱的构建方法一实施例对应的知识融合效果示意图;
图8是本发明提供的船舶现场监督知识图谱的构建装置一实施例的结构示意图;
图9为本发明提供的电子设备一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本发明实施例中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明提供了一种船舶现场监督知识图谱的构建方法、装置及电子设备,以下分别进行说明。
如图1所示,本发明提供的一种船舶现场监督知识图谱的构建方法,包括:
步骤110、构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值。
可以理解的是,本发明针对船舶现场监督业务中多源异构信息,包括航运网站数据、海事行政执法的大量法律法规、以及在执法过程中生成的历史检查记录,利用信息抽取技术分别抽取多源数据,对大数据进行知识抽取,通过知识融合模型实现知识关联,构建知识图谱。在构建知识图谱前,需要构建知识图谱的本体模型和知识库。
针对航运网站、法律法规、历史检查数据三类知识来源,利用信息抽取技术进行数据抽取,基于正则表达式进行数据清洗,提取船舶现场监督概念,构建本体模型。
对上述得到的数据进行知识抽取,得到包含有实体名称、实体间关系、实体属性名称与属性值的知识库。
目标项目类实体可以是在船舶现场监督检查中需要检查的项目类实体,目标项目类实体可以根据用户的需求进行定义。
步骤120、确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度。
可以理解的是,本实施例中需要通过神经网络模型判断待融合实体之间是否可以融合,需要结合待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度进行判断。
Jaccard系数相似度(JS)作为知识融合模型的第一个特征输入,体现实体间的分词结构特征。Jaccard系数是指两个集合中相交元素的个数与并元素的比值,而各实体多为领域词汇构成,故JS表示两个实体e1、e2去除停用词后相同数目的词占词总数的比例,如公式(1)所示。
Figure BDA0003944885080000081
Jaro-Winkler相似度(JWS)更多体现了实体前缀的特征,作为模型的第二个特征输入。Jaro-Winkler算法作为Jaro算法的变种,更多关注实体对的前缀部分匹配的长度l(0~4),并通过常量p(0~0.25)来调整前缀匹配的权重。JWS如公式(2)所示。
Figure BDA0003944885080000082
式中:m为匹配的字符数;t为换位数目的一半;dj为Jaro distance最后得分。
uSIF相似度(US)通过将实体映射为低维空间向量体现实体的语义特征,作为模型的第三个特征输入。uSIF提出基于角距离的随机游走模型,即令词生成的概率与词和句向量之间的角距离成反比,其对于词向量长度对句子生成概率的混杂作用具有鲁棒性,见公式(3)。如公式(4)所示通过uSIF模型生成两实体的向量vec1、vec2,并计算向量间的余弦相似度,得到US
Figure BDA0003944885080000091
Figure BDA0003944885080000092
US=cos(vec1,vec2)   (4)
式中:ct为t时刻下的句向量;w为各个词;vw为词向量;p(w)为每一词生成概率。
步骤130、将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT(eXtreme Gradient Boosting,极端梯度提升)模型训练得到。
可以理解的是,XGBoost模型的目标函数见公式(5):
Figure BDA0003944885080000093
式中:
Figure BDA0003944885080000094
为损失函数,通过实际值与拟合值之差计量预测准确度;Ω(fi)为正则项函数,可以控制复杂度,提高模型泛化能力。
将知识融合转化为二分类问题,分为属性补全与关联对齐两种任务,提出一种基于实体相似度计算的知识融合模型。在知识融合中只存在积极(positive)或消极(negative)两类结果,将其视为二元分类问题,即知识融合或不融合二分类。
选择XGBoost模型为二分类模型,是因为XGBoost是高效、灵活的主流决策树算法,其思想是将多棵决策树模型集成,组成一个强分类器。
步骤140、在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据。
可以理解的是,对上述得到的知识库进行融合,采用基于机器学习的方法,将融合问题转化为二分类问题,并将知识融合拆分为实体属性补全与关联对齐两个任务,知识融合后以三元组的形式作为知识表示,作为船舶现场监督知识图谱的数据。
步骤150、将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
可以理解的是,将船舶现场监督知识图谱的数据以三元组的方式存储,三元组中的实体存储为对应节点,关系存储为对应边,属性及属性值存储为对应节点及边的属性、属性值,构建船舶现场监督知识图谱,并将船舶现场监督知识图谱储存于图数据库中。
具体地,将本体模型映射到知识融合后得到的结构化三元组数据,采用图数据库Neo4j对通过知识抽取及知识融合步骤得到的结构化三元组数据进行存储,将三元组中的实体存储为对应节点,关系存储为对应边,属性及属性值存储为对应节点及边的属性、属性值。
在一些实施例中,所述构建船舶现场监督知识图谱的本体模型和知识库,包括:
从目标网站爬取船舶现场监督相关的航运网站数据,以及获取船舶现场监督相关的法律法规数据和历史检查数据;
对所述航运网站数据进行数据清洗,形成航运网站数据表,对所述法律法规数据进行数字化处理和格式化处理,形成法律法规数据表,对所述历史检查数据进行数据清洗,形成历史检查数据表;
基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,确定船舶现场监督知识图谱的领域范围,在所述领域范围内确定实体层级结构以及实体关系属性,基于所述实体层级结构和所述实体关系属性,得到所述本体模型。
可以理解的是,本实施例具体如下,利用爬虫技术收集航运网站数据,包括船舶、船东、港口、检查机构数据,所述网站包括各海事局官网、船讯网、船问网;
收集海事法律法规,包括国家法律、行政法规、地方法规和部门规章;
收集船舶现场监督历史检查数据,包括检查地点、日期、机构、缺陷、处理决定;
将四类海事法律法规文本文件进行数字化、规范化、格式化处理包括:将法律法规文本做数字化、格式化处理,形成法律法规数据表,具体的格式包括法律法规基本信息、适用范围、具体条款及详细内容;将航运网站半结构化数据进行数据清理,具体格式包括船舶船名、船长、船宽、MMSI号、IMO号、船籍港、呼号、船型和船东名称、电话、邮箱、法人和港口名称、地址、电话和检查机构名称、地址、电话、邮编和检查员姓名、执法证编号、工作单位,形成航运网站数据表;将船舶现场监督历史检查数据进行数据清洗,具体格式包括检查地点、时间、类型、机构、检查员、被检船舶、缺陷、处理决定,形成船舶现场监督历史检查记录数据表。
船舶现场监督知识以RDF(resource description framework)结构进行知识表示,以三元组〈s,p,o〉来描述船舶现场监督实体、属性及其关系。其中,s(subject)是主语,用实体或关系作为取值;p(predicate)是谓语,用关系或属性作为取值;o(object)是宾语,其取值通常为实体或是普通的值;〈s,p,o〉可表示s与o之间具有联系p,或表示s具有属性p且其取值为o。船舶现场监督本体作为知识图谱模式层,是对实体及其关系的抽象性表达,能梳理知识图谱层级关系和种类,船舶现场监督本体模型表示为O=(C,A,R),其中C表示概念合集对应实体,A表示属性合集对应属性,R表示关系合集对应关系。
在一些实施例中,所述构建船舶现场监督知识图谱的本体模型和知识库,还包括:
对所述航运网站数据表、所述法律法规数据表和所述历史检查数据表进行知识抽取,得到所述知识库。
可以理解的是,将上述法律法规数据表、航运网站数据表、船舶现场监督历史检查记录数据表进行知识抽取,映射为实体、关系、属性、属性值。船舶现场监督实体间关系如图2所示。
具体地,将法律法规数据表中的条款映射为实体,条文内容、适用范围、基本信息映射为实体属性与属性值,定义法律法规与具体条款之间的关系为条款;将航运网站数据表中的船舶名称、船东名称、港口名称、检查机构名称、检查员姓名映射为实体,船长、船宽、MMSI号、IMO号、船籍港、呼号、船型为船舶名称属性与属性值,船东名称实体的属性包括电话、邮箱、法人,港口名称实体的属性包括地址、电话;检查机构名称实体的属性包括地址、电话、邮编,检查员姓名实体的属性包括执法证编号、工作单位;将船舶现场监督历史检查记录数据表中机构、检查员、被检船舶、缺陷、处理映射为实体。上述实体间关系如下图所示,并将检查时间、地点、类型映射为关系检查、发现、存在、决定、做出的属性。
对船舶现场监督文本(包括法律法规中的条款内容和历史检查记录中的缺陷)中的各实体类别进行分类进行细粒度的知识抽取,将检查项目实体分为自查情况、证书文书、船员配备、船舶外观、进出港报告、航行停泊作业、费税缴纳、客货载运、船舶防污染9种类别,非实体1种标签,共10种标签。使用BIO标注法进行标注,B表示实体开始,I表示实体其余部分,O表示非实体部分。其中,细粒度知识抽取的示例如图3所示。
在一些实施例中,所述基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,确定船舶现场监督知识图谱的领域范围,在所述领域范围内确定实体层级结构以及实体关系属性,基于所述实体层级结构和所述实体关系属性,得到所述本体模型,包括:
基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,以及预设的船舶现场监督概念和业务需求,确定船舶现场监督领域范围;
在所述船舶现场监督领域范围内,确定本体概念类及其属性、本体概念类之间的关系及其属性;
对所述本体概念类及其属性、所述本体概念类之间的关系及其属性进行可视化处理,得到所述本体模型。
可以理解的是,构建本体模型如图4所示,包括以下步骤:
搜集船舶现场监督领域知识,包括历史检查记录、法律法规、航运网站数据,构建航运网站数据表、法律法规数据表和历史检查数据表;
梳理船舶现场监督概念和业务需求,确定船舶现场监督领域范围;
确定本体概念类,类包括检查场景、检查程序和检查活动,确定类与类之间的关系,如表1所示;
确定类与关系的属性,如表2所示,并对本体模型进行专家评估;
使用软件Protégé对本体进行管理与可视化。
Figure BDA0003944885080000131
Figure BDA0003944885080000141
表1
Figure BDA0003944885080000142
表2
在一些实施例中,所述从所述知识库中抽取目标项目类实体,包括:
基于所述法律法规数据表和所述历史检查数据表,得到船舶现场监督文本;所述船舶现场监督文本包括:所述法律法规数据表中的条款内容以及所述历史检查数据表中的缺陷内容;
对所述船舶现场监督文本对应的实体进行分类和细粒度知识抽取,得到目标实体;
将所述船舶现场监督文本和所述目标实体输入至预设的实体识别模型,以提取所述船舶现场监督文本的语义特征,并基于所述语义特征和所述目标实体确定全局最优的实体标签序列,基于所述全局最优的实体标签序列得到所述目标项目类实体。
可以理解的是,采用“RoBERT-wwm-ext(A Robustly Optimized BERT Pre-training Approach-Whole Word Masking)预训练语言模型为基础的双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场模型(ConditionalRandom Field,CRF)的RoBERT-wwm-ext-BiLSTM-CRF实体识别模型,对检查项目类实体(即:目标项目类实体)进行识别抽取。
具体地,RoBERTa-wwm-ext嵌入层通过大规模预训练的语言模型来获取输入文本的语义特征,并输出低维特征向量来增强实体识别效果,这里的输出的特征向量可以是一维特征向量。BiLSTM层通过获取的特征向量,输出每一字符的标签序列概率矩阵,对实体序列进行推断标注。CRF层通过概率模型找出全局最优的标签序列并输出,从而实现对船舶现场监督业务知识语料的自动序列标注。
在一些实施例中,所述实体识别模型,包括:
所述RoBERTa-wwm-ext嵌入层,用于确定所述船舶现场监督文本对应的语义特征,并输出语义特征对应的低维特征向量;
所述BiLSTM层,用于基于所述低维特征向量,得到每一字符的标签序列概率矩阵,并基于所述标签序列概率矩阵对所述目标实体进行推断标注;
所述CRF层,用于从标注后的目标实体中确定全局最优的实体标签序列,基于所述全局最优的实体标签序列得到所述目标项目类实体。
可以理解的是,相比于BERT网络只能获取字符级的语义知识,由双向Transformer组成的RoBERTa-wwm-ext在预训练阶段通过全词覆盖与动态掩码策略来预测被遮掩的词以学习词的边界,并在每一Epoch中改变遮掩的词,从而获取更为丰富的词级别语义知识。此外,RoBERTa-wwm-ext的参数在命名实体识别模型训练时,将根据训练集进行微调,以学习船舶现场监督领域的语义知识,最终输出输入字符序列的向量序列。
在BiLSTM层中,将上一层输出的向量序列(x1,x2,...,xn)作为每一时刻的初始输入值xt。其中,前向LSTM层的输入为字向量序列的顺序序列,后向LSTM层的输入为字向量序列的逆序序列。模型按位置将两者在t时刻输出的隐状态序列
Figure BDA0003944885080000161
Figure BDA0003944885080000162
进行拼接得到隐状态序列
Figure BDA0003944885080000163
并通过线性变换把隐状态序列ht从m维映射到k维,m是隐状态向量维度,k代表语料标注中所有的实体类型数,最终输出为yt时的概率p,计算方法如公式(6)所示。
p(yt|xt)=softmax(Wht+by)   (6)
其中W为权重矩阵,by为yt的偏执概念属性。
在CRF层中,把求解t个n分类问题转化为从nt个序列中寻找概率最大的预测序列问题,以得到全局最优的标签序列。模型首先对上一层对应字向量序列输出的标签序列(y1,y2,...,yn)进行打分,并定义其概率p(y|x),计算方法如公式(7)(8)所示。
Figure BDA0003944885080000164
Figure BDA0003944885080000165
其中,M为转移矩阵,n为序列长度,YX为输入序列X对应的所有可能的标签序列。
在训练过程中,p(y|x)的最大化似然概率log(p(y|x))见如公式(9)所示。
Figure BDA0003944885080000166
模型最后使用维特比算法计算出全局概率最大的一组标签序列,计算结果记为y^*,见公式(10)。
Figure BDA0003944885080000167
在一些实施例中,所述在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据,包括:
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合,且所述待融合实体均为第一类别实体的情况下,基于所述待融合实体对应的所有属性,对所述待融合实体中的每个实体进行属性补全,以得到知识融合数据;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合,且所述待融合实体包含有第二类别实体和第三类别实体的情况下,在所述第二类别识别和所述第三类别实体之间添加关联关系,以得到知识融合数据。
可以理解的是,对待融合知识分别计算Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度,将上述三种计算结果作为XGBoost模型的输入,模型输出结果为知识融合与否。
第一类别实体可以是“检查场景”类实体,第二类别实体可以是“检查项目”或者“主要缺陷”类实体,第三类别实体可以是“缺陷”类实体。其中,“主要缺陷”类实体是预设的可能存在缺陷的实体,“缺陷”类实体,是实际监督中存在缺陷的实体。对“检查场景”类实体补全属性,对“检查项目”、“主要缺陷”类实体与“缺陷”类实体添加关联关系。
在另一些实施例中,本发明所提供的船舶现场监督知识图谱的构建方法的流程图如图5所示,本发明最终能有效关联多源异构的领域知识,有力支持海事执法人员对检查事件的回溯及利用,为实现智慧海事提供了新的方法。
本发明所提实体识别模型RoBERTa-wwm-ext-BiLSTM-CRF,通过与其他模型对比,包括双向门控循环单元(Bi-directional Gated Recurrent Units,BiGRU)、卷积神经网络(Convolutional Neural Networks,CNN)结合长短时记忆网络(Long Short-Term Memory,LSTM)、BiGRU-CRF、BiLSTM、BiLSTM-CRF,其在在epoch增加下F1值表现最佳,高于其他模型,如图6所示。
本发明所提知识融合模型,通过选取对比模型包括线性回归(LinearRegression)、逻辑回归(Logistic Regression)、决策树(Decision Tree)、随机森林(Random Forest),且为得到特征值的重要度,对XGBoost模型设置了四组不同的特征值输入。其中XGBoost1表示JS、JWS特征值输入;XGBoost2表示JS、US特征值输入;XGBoost3表示JWS、US特征值输入;XGBoost4表示所有特征值输入。在知识融合模型中所有特征值输入下的XGBoost4在P、R及F1值上均优于其他分类模型,超过了88%。其中特征值JS对模型的影响最大,其次是JWS,而US则对模型的性能起到了微调的作用,如图7所示。
综上所述所示,本发明提供的船舶现场监督知识图谱的构建方法,包括:构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
在本发明提供的船舶现场监督知识图谱的构建方法中,通过构建船舶现场监督知识图谱的本体模型和知识库,并从知识库中抽取目标项目类实体,再将待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度输入至预设的知识融合模型,判断是否可以融合,若可以融合,则对待融合实体进行实体属性补全和关联对齐,得到知识融合数据;将本体模型映射到知识融合数据,得到船舶现场监督知识图谱,弥补传统数据库的不足,辅助海事执法人员在船舶现场检查中的决策,使船舶安全监督工作信息化、智慧化和专家化。
如图8所示,本发明还提供船舶现场监督知识图谱的构建装置800,包括:
构建模块810,用于构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
相似度计算模块820,用于确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
融合判断模块830,用于将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
融合模块840,用于在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
图谱生产模块850,用于将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
上述实施例提供的船舶现场监督知识图谱的构建装置可实现上述船舶现场监督知识图谱的构建方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述船舶现场监督知识图谱的构建方法实施例中的相应内容,此处不再赘述。
如图9所示,本发明还相应提供了一种电子设备900。该电子设备900包括处理器901、存储器902及显示器903。图9仅示出了电子设备900的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器902在一些实施例中可以是电子设备900的内部存储单元,例如电子设备900的硬盘或内存。存储器902在另一些实施例中也可以是电子设备900的外部存储设备,例如电子设备900上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器902还可既包括电子设备900的内部储存单元也包括外部存储设备。存储器902用于存储安装电子设备900的应用软件及各类数据。
处理器901在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器902中存储的程序代码或处理数据,例如本发明中的船舶现场监督知识图谱的构建方法。
显示器903在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器903用于显示在电子设备900的信息以及用于显示可视化的用户界面。电子设备900的部件901-903通过系统总线相互通信。
在本发明的一些实施例中,当处理器901执行存储器902中的船舶现场监督知识图谱的构建程序时,可实现以下步骤:
构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
应当理解的是:处理器901在执行存储器902中的船舶现场监督知识图谱的构建程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面相应方法实施例的描述。
进一步地,本发明实施例对提及的电子设备900的类型不做具体限定,电子设备900可以为手机、平板电脑、个人数字助理(personal digitalassistant,PDA)、可穿戴设备、膝上型计算机(laptop)等便携式电子设备。便携式电子设备的示例性实施例包括但不限于搭载IOS、android、microsoft或者其他操作系统的便携式电子设备。上述便携式电子设备也可以是其他便携式电子设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。还应当理解的是,在本发明其他一些实施例中,电子设备900也可以不是便携式电子设备,而是具有触敏表面(例如触控面板)的台式计算机。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的船舶现场监督知识图谱的构建方法,该方法包括:
构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读存储介质中。其中,计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上对本发明所提供的船舶现场监督知识图谱的构建方法、装置及电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种船舶现场监督知识图谱的构建方法,其特征在于,包括:
构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
2.根据权利要求1所述的船舶现场监督知识图谱的构建方法,其特征在于,所述构建船舶现场监督知识图谱的本体模型和知识库,包括:
从目标网站爬取船舶现场监督相关的航运网站数据,以及获取船舶现场监督相关的法律法规数据和历史检查数据;
对所述航运网站数据进行数据清洗,形成航运网站数据表,对所述法律法规数据进行数字化处理和格式化处理,形成法律法规数据表,对所述历史检查数据进行数据清洗,形成历史检查数据表;
基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,确定船舶现场监督知识图谱的领域范围,在所述领域范围内确定实体层级结构以及实体关系属性,基于所述实体层级结构和所述实体关系属性,得到所述本体模型。
3.根据权利要求2所述的船舶现场监督知识图谱的构建方法,其特征在于,所述构建船舶现场监督知识图谱的本体模型和知识库,还包括:
对所述航运网站数据表、所述法律法规数据表和所述历史检查数据表进行知识抽取,得到所述知识库。
4.根据权利要求2所述的船舶现场监督知识图谱的构建方法,其特征在于,所述基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,确定船舶现场监督知识图谱的领域范围,在所述领域范围内确定实体层级结构以及实体关系属性,基于所述实体层级结构和所述实体关系属性,得到所述本体模型,包括:
基于所述航运网站数据表、所述法律法规数据表和所述历史检查数据表,以及预设的船舶现场监督概念和业务需求,确定船舶现场监督领域范围;
在所述船舶现场监督领域范围内,确定本体概念类及其属性、本体概念类之间的关系及其属性;
对所述本体概念类及其属性、所述本体概念类之间的关系及其属性进行可视化处理,得到所述本体模型。
5.根据权利要求2所述的船舶现场监督知识图谱的构建方法,其特征在于,所述从所述知识库中抽取目标项目类实体,包括:
基于所述法律法规数据表和所述历史检查数据表,得到船舶现场监督文本;所述船舶现场监督文本包括:所述法律法规数据表中的条款内容以及所述历史检查数据表中的缺陷内容;
对所述船舶现场监督文本对应的实体进行分类和细粒度知识抽取,得到目标实体;
将所述船舶现场监督文本和所述目标实体输入至预设的实体识别模型,以提取所述船舶现场监督文本的语义特征,并基于所述语义特征和所述目标实体确定全局最优的实体标签序列,基于所述全局最优的实体标签序列得到所述目标项目类实体。
6.根据权利要求5所述的船舶现场监督知识图谱的构建方法,其特征在于,所述实体识别模型,包括:
所述RoBERTa-wwm-ext嵌入层,用于确定所述船舶现场监督文本对应的语义特征,并输出语义特征对应的低维特征向量;
所述BiLSTM层,用于基于所述低维特征向量,得到每一字符的标签序列概率矩阵,并基于所述标签序列概率矩阵对所述目标实体进行推断标注;
所述CRF层,用于从标注后的目标实体中确定全局最优的实体标签序列,基于所述全局最优的实体标签序列得到所述目标项目类实体。
7.根据权利要求1-6任一项所述的船舶现场监督知识图谱的构建方法,其特征在于,所述在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据,包括:
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合,且所述待融合实体均为第一类别实体的情况下,基于所述待融合实体对应的所有属性,对所述待融合实体中的每个实体进行属性补全,以得到知识融合数据;
在基于所述待融合实体是否融合的结果确定所述待融合实体需融合,且所述待融合实体包含有第二类别实体和第三类别实体的情况下,在所述第二类别识别和所述第三类别实体之间添加关联关系,以得到知识融合数据。
8.一种船舶现场监督知识图谱的构建装置,其特征在于,包括:
构建模块,用于构建船舶现场监督知识图谱的本体模型和知识库,并从所述知识库中抽取目标项目类实体;所述知识库包括实体名称、实体间关系、实体属性名称与属性值;
相似度计算模块,用于确定所述目标项目类实体中的待融合实体,并确定所述待融合实体对应的Jaccard系数相似度、Jaro-Winkler相似度和uSIF相似度;
融合判断模块,用于将所述Jaccard系数相似度、所述Jaro-Winkler相似度和所述uSIF相似度输入至预设的知识融合模型,得到待融合实体是否融合的结果;所述知识融合模型是基于XGBoosT模型训练得到;
融合模块,用于在基于所述待融合实体是否融合的结果确定所述待融合实体需融合的情况下,对所述待融合实体进行实体属性补全和关联对齐,得到知识融合数据;
图谱生产模块,用于将所述本体模型映射到所述知识融合数据,得到船舶现场监督知识图谱。
9.一种电子设备,其特征在于,包括存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述权利要求1至7中任意一项所述的船舶现场监督知识图谱的构建方法中的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的船舶现场监督知识图谱的构建方法。
CN202211427336.7A 2022-11-15 2022-11-15 船舶现场监督知识图谱的构建方法、装置及电子设备 Pending CN115905563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211427336.7A CN115905563A (zh) 2022-11-15 2022-11-15 船舶现场监督知识图谱的构建方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211427336.7A CN115905563A (zh) 2022-11-15 2022-11-15 船舶现场监督知识图谱的构建方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115905563A true CN115905563A (zh) 2023-04-04

Family

ID=86492789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211427336.7A Pending CN115905563A (zh) 2022-11-15 2022-11-15 船舶现场监督知识图谱的构建方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115905563A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521904A (zh) * 2023-06-29 2023-08-01 湖南大学 一种基于5g边缘计算的船舶制造数据云融合方法及系统
CN117009589A (zh) * 2023-08-03 2023-11-07 上海南洋宏优智能科技有限公司 一种基于多模态智能服务的安全检查管理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521904A (zh) * 2023-06-29 2023-08-01 湖南大学 一种基于5g边缘计算的船舶制造数据云融合方法及系统
CN116521904B (zh) * 2023-06-29 2023-09-22 湖南大学 一种基于5g边缘计算的船舶制造数据云融合方法及系统
CN117009589A (zh) * 2023-08-03 2023-11-07 上海南洋宏优智能科技有限公司 一种基于多模态智能服务的安全检查管理方法及系统
CN117009589B (zh) * 2023-08-03 2024-05-03 上海南洋宏优智能科技有限公司 一种基于多模态智能服务的安全检查管理方法及系统

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
US20150309990A1 (en) Producing Insight Information from Tables Using Natural Language Processing
CN115905563A (zh) 船舶现场监督知识图谱的构建方法、装置及电子设备
US20170262433A1 (en) Language translation based on search results and user interaction data
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN103886020B (zh) 一种房地产信息快速搜索方法
US20130232147A1 (en) Generating a taxonomy from unstructured information
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN116795973A (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN114186567A (zh) 敏感词检测方法及其装置、设备、介质、产品
CN116595195A (zh) 一种知识图谱构建方法、装置及介质
CN114997288A (zh) 一种设计资源关联方法
Leskinen et al. Reconciling and using historical person registers as linked open data in the AcademySampo portal and data service
CN115329765A (zh) 识别上市企业风险的方法、装置、电子设备及存储介质
Alothman et al. Managing and Retrieving Bilingual Documents Using Artificial Intelligence‐Based Ontological Framework
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
CN111815108A (zh) 一种电网工程设计变更与现场签证审批单的评价方法
CN113468890B (zh) 基于nlp信息萃取与词性规则的沉积学文献挖掘方法
Korayem et al. Query sense disambiguation leveraging large scale user behavioral data
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination