CN114707005B - 一种舰船装备的知识图谱构建方法和系统 - Google Patents

一种舰船装备的知识图谱构建方法和系统 Download PDF

Info

Publication number
CN114707005B
CN114707005B CN202210621367.XA CN202210621367A CN114707005B CN 114707005 B CN114707005 B CN 114707005B CN 202210621367 A CN202210621367 A CN 202210621367A CN 114707005 B CN114707005 B CN 114707005B
Authority
CN
China
Prior art keywords
ship equipment
data
entity
entry
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210621367.XA
Other languages
English (en)
Other versions
CN114707005A (zh
Inventor
张一帆
张巍
张博雅
雷富强
任海英
杨朝晖
王艺铮
景民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Jianmu Intelligent System Co ltd
Original Assignee
Zhejiang Jianmu Intelligent System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Jianmu Intelligent System Co ltd filed Critical Zhejiang Jianmu Intelligent System Co ltd
Priority to CN202210621367.XA priority Critical patent/CN114707005B/zh
Publication of CN114707005A publication Critical patent/CN114707005A/zh
Application granted granted Critical
Publication of CN114707005B publication Critical patent/CN114707005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种舰船装备的知识图谱构建方法和系统,其中,该方法包括:通过获取多来源的初始舰船装备数据,其中,初始舰船装备数据包括文本信息和图像信息;根据文本信息,得到舰船装备词条数据集,根据图像信息,得到舰船装备特征数据集;由舰船装备词条数据集与舰船装备特征数据集得到舰船装备数据集,对舰船装备数据集进行标注得到词条标注训练集,利用词条标注训练集完成舰船装备数据集的实体识别;根据实体识别结果进行实体关系抽取,进而得到三元组数据,构建舰船装备的知识图谱。通过本申请,解决了面向舰船装备的知识信息存在着碎片化和整合度低的问题,实现了将碎片化的舰船装备知识结构化呈现,使其得到高效和便捷地使用。

Description

一种舰船装备的知识图谱构建方法和系统
技术领域
本申请涉及数据处理技术领域,特别是涉及一种舰船装备的知识图谱构建方法和系统。
背景技术
随着智能技术的高速发展,基于互联网获取的开源数据包含的信息知识对于舰船装备领域具有重要支撑作用。然而,在面对如此大量的舰船装备知识信息时,传统数据库存储形式存在数据量大、聚合能力差、呈现方式不直观等问题,无法准确高效地抽取有价值的信息。知识图谱基于图结构的存储管理模式,具有层次清晰、结构灵活的优势,构建面向舰船装备领域档案与特征知识图谱有利于形成更加高效的信息管理体系,提升开源知识信息在舰船装备领域的应用价值。
目前针对相关技术中面向舰船装备的知识信息存在着碎片化和整合度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种舰船装备的知识图谱构建方法和系统,以至少解决相关技术中面向舰船装备的知识信息存在着碎片化和整合度低的问题。
第一方面,本申请实施例提供了一种舰船装备的知识图谱构建方法,所述方法包括:
获取多来源的初始舰船装备数据,其中,所述初始舰船装备数据包括文本信息和图像信息;
根据所述文本信息,得到舰船装备词条数据集,根据所述图像信息,得到舰船装备特征数据集;
建立所述舰船装备词条数据集与所述舰船装备特征数据集的初步映射,得到舰船装备数据集;
通过预设序列标注法对所述舰船装备数据集进行标注,得到词条标注训练集,将所述词条标注训练集输入预设实体识别模型,完成所述舰船装备数据集的实体识别;
通过预设实体关系抽取模型,对所述实体识别后的舰船装备数据集进行实体关系抽取,从而得到三元组数据,构建舰船装备的知识图谱。
在其中一些实施例中,获取多来源的初始舰船装备数据包括:
获取多来源的舰船装备下的类别信息建立类别url集合;
依次遍历所述类别url集合中的类别url,获取所述类别url下的词条信息建立词条url集合;
依次遍历所述词条url集合中的词条url,解析所述词条url的页面结构提取初始舰船装备数据。
在其中一些实施例中,根据所述文本信息,得到舰船装备词条数据集包括:
采用预设分词工具,对所述文本信息进行分词得到分词词条,根据所述分词词条再次进行数据获取,得到初始词条;
合并所述分词词条和所述初始词条,得到舰船装备词条数据集。
在其中一些实施例中,根据所述图像信息,得到舰船装备特征数据集包括:
通过VGG16卷积神经网络对所述图像信息进行深层次特征提取,得到高维图像特征信息;
通过PCA主成分分析法对所述高维图像特征信息进行降维处理,得到低维图像特征信息,其中,所述低维图像特征信息包含低维特征值和低维特征图;
对所述低维特征图进行base64编码转换,得到低维特征图字符串;
合并所述低维特征值和所述低维特征图字符串,得到舰船装备特征数据集。
在其中一些实施例中,通过预设实体关系抽取模型,对所述实体识别后的舰船装备数据集进行实体关系抽取,得到三元组数据包括:
通过结合远程监督算法、分段卷积神经网络和Softmax分类器的实体关系抽取模型,对所述实体识别后的舰船装备数据集进行实体关系抽取;
根据实体识别结果和实体关系抽取结果,构建三元组数据,其中所述三元组数据的类型包括<实体,关系,实体>和<实体,属性,属性值>。
在其中一些实施例中,在构建舰船装备的知识图谱之后,所述方法包括:
将知识图谱中的三元组数据存储到Neo4j图数据库中;
在舰船装备知识展示阶段,通过查询语句获取所述Neo4j图数据库中对应的三元组数据,
将所述三元组数据转换成json格式文件,采用D3.js库对所述json格式文件进行数据渲染,并对低维特征图字符串进行base64解码得到特征图像数据;
通过所述数据渲染后的json格式文件和特征图像数据,完成舰船知识图谱的可视化展示。
在其中一些实施例中,通过预设序列标注法对所述舰船装备数据集进行标注,得到词条标注训练集包括:
通过基于BIOES标注体系的序列标注法,对所述舰船装备数据集进行标注,得到词条标注训练集。
在其中一些实施例中,将所述词条标注训练集输入预设实体识别模型,完成所述舰船装备数据集的实体识别包括:
将所述词条标注训练集输入BiLSTM-CRF模型中,完成所述舰船装备数据集的实体识别。
在其中一些实施例中,所述方法包括:
通过Requests和Xpath数据采集工具获取多来源的初始舰船装备数据。
第二方面,本申请实施例提供了一种舰船装备的知识图谱构建系统,所述系统包括数据采集模块、数据处理模块、实体识别模块、关系抽取模块和知识表示模块;
所述数据采集模块,用于获取多来源的初始舰船装备数据,其中,所述初始舰船装备数据包括文本信息和图像信息;
所述数据处理模块,用于根据所述文本信息,得到舰船装备词条数据集,根据所述图像信息,得到舰船装备特征数据集;建立所述舰船装备词条数据集与所述舰船装备特征数据集的初步映射,得到舰船装备数据集;
所述实体识别模块,用于通过预设序列标注法对所述舰船装备数据集进行标注,得到词条标注训练集,将所述词条标注训练集输入预设实体识别模型,完成所述舰船装备数据集的实体识别;
所述关系抽取模块,用于通过预设实体关系抽取模型,对所述实体识别后的舰船装备数据集进行实体关系抽取;
所述知识表示模块,用于根据实体识别结果和实体关系抽取结果,从而得到三元组数据,构建舰船装备的知识图谱。
相比于相关技术,本申请实施例提供的一种舰船装备的知识图谱构建方法和系统,通过获取多来源的初始舰船装备数据,其中,初始舰船装备数据包括文本信息和图像信息;根据文本信息,得到舰船装备词条数据集,根据图像信息,得到舰船装备特征数据集;建立舰船装备词条数据集与舰船装备特征数据集的初步映射,得到舰船装备数据集,通过预设序列标注法对舰船装备数据集进行标注,得到词条标注训练集,将词条标注训练集输入预设实体识别模型,完成舰船装备数据集的实体识别;通过预设实体关系抽取模型,对实体识别后的舰船装备数据集进行实体关系抽取,得到三元组数据,从而构建舰船装备的知识图谱,解决了面向舰船装备的知识信息存在着碎片化和整合度低的问题,实现了对舰船装备领域知识的结构化呈现,使碎片化的舰船装备知识得以集中、高效和便捷地使用。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是构建舰船知识图谱所需数据的数据类型的示意图;
图2是根据本申请实施例的舰船装备的知识图谱构建方法的步骤流程图;
图3是根据本申请实施例的获取初始舰船装备数据的流程示意图;
图4是根据本申请实施例的舰船数据处理的流程示意图;
图5是根据本申请实施例实体识别和关系抽取模型构建的流程示意图;
图6是根据本申请实施例的舰船装备的知识图谱构建系统的结构框图;
图7是根据本申请实施例的电子设备的内部结构示意图。
附图说明:61、数据采集模块;62、数据处理模块;63、实体识别模块;64、关系抽取模块;65、知识表示模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
发明人经研究发现,目前的中文知识图谱通常基于开放领域进行构建,对于舰船装备领域知识图谱的构建还没有进行深层次的研究,需要结合应用需求进行设计开发。
在舰船装备领域知识图谱的构建研究进程中面临以下几点难题:
(1)中文知识图谱通常是基于开放领域进行构建,对于舰船装备领域还没有进行深层次的研究,尚无可考究的资料和经验;
(2)舰船装备领域的数据较为敏感,图1是构建舰船知识图谱所需数据的数据类型的示意图,如图1所示,易于处理的结构化数据大多并不对外公开,而半结构化数据和非结构化数据在处理方面存在一定难度,增加了构建高质量的舰船装备领域知识图谱的难度与复杂性;
(3)现有的关系型数据存储模式缺乏紧凑有效的组织结构与直观形象的可视化查询方式,难以形成舰船装备档案知识体系,难以进行深层次的数据挖掘与应用;
(4)现有的知识图谱构建方法仅存储实体文本信息,不能直接存储舰船图像分类任务涉及的图像特征等非结构化多维度信息。
本发明针对现有技术的缺陷,提供一种舰船装备的知识图谱构建方法。针对舰船装备数据与图像特征的特点,围绕互联网开源装备数据信息,解决舰船装备领域知识图谱构建涉及到的数据获取、实体识别、关系抽取和知识存储等关键技术问题。
本申请实施例提供了一种舰船装备的知识图谱构建方法,图2是根据本申请实施例的舰船装备的知识图谱构建方法的步骤流程图,如图2所示,该方法包括以下步骤:
步骤S202,获取多来源的初始舰船装备数据,其中,初始舰船装备数据包括文本信息和图像信息;
具体地,图3是根据本申请实施例的获取初始舰船装备数据的流程示意图,如图3所示,通过Requests和Xpath等数据采集工具获取多来源的舰船装备下的类别信息建立类别url集合;依次遍历类别url集合中的类别url,获取类别url下的词条信息建立词条url集合;依次遍历词条url集合中的词条url,解析词条url的页面结构提取初始舰船装备数据,其中,初始舰船装备数据包括文本信息和图像信息。
需要说明的是,该多来源可主要分成结构化数据的来源、半结构化数据的来源和非结构化数据的来源,其中,结构化数据主要以关系型数据库为载体,存在于特定行业、特定单位内现有数据库中,由于保密性等原因,现有结构化数据十分稀少,收集较为困难;半结构化数据主要以百科网站(百度百科、维基百科)、军事在线刊物(简氏防务周刊)形式为载体,其中的词条大多经过人工编辑与审核,具有词条图片、词条属性、信息框等包含了具有一定的时效性、权威性与准确性,是一种高质量的数据,以此作为战斗舰船知识图谱的数据源具有较高价值;非结构化数据主要以新闻报道、军事网站为载体,以自由文本的形式存在,包含大段文本、图片甚至视频信息,数据类型较为复杂,且知识权威性较低,抽取准确率有限,难以达到可用性标准。因此,本实施例优选选取可信度较高的半结构化百科数据(如百度百科、维基百科、武器百科、简氏防务周刊等)作为构建知识图谱的重要数据来源。
步骤S204,根据文本信息,得到舰船装备词条数据集,根据图像信息,得到舰船装备特征数据集;
具体地,采用预设分词工具,对文本信息进行分词得到分词词条,根据分词词条再次进行数据获取,得到初始词条;合并分词词条和初始词条,得到舰船装备词条数据集。
需要说明的是,步骤S202获取到的文本信息中存在一部分隐藏关系关系无法得到呈现。如:百科词条的文本信息,虽然词条里有固定形式的特征信息,比如国家、研制时间、排水量等,但词条间的关系或词条与现实世界中其他实体之间的关系仅依靠爬取到的数据无法得到呈现,因此利用中文分词手段对词条文本信息进行分词,可得到与舰船装备词条具有紧密关系的补充词条。通过对初始词条文本信息的分词处理后,经过去重等数据清洗手段,再对分词词条进行基于百科数据的爬取,将初始词条与分词词条合并,构建舰船装备领域词条数据集。
具体地,通过VGG16卷积神经网络对图像信息进行深层次特征提取,得到高维图像特征信息;通过PCA主成分分析法对高维图像特征信息进行降维处理,得到低维图像特征信息,其中,低维图像特征信息包含低维特征值和低维特征图;对低维特征图进行base64编码转换,得到低维特征图字符串;合并低维特征值和低维特征图字符串,得到舰船装备特征数据集。
需要说明的是,VGG16卷积神经网络包括13个卷积层、5个池化层和3个全连接层,结构简洁,没有繁多复杂的超参数,能够很好的提取图像更深层次特征,具有良好的非线性特性,同时多层非线性层增加了网络深度,可以提取更多的特征信息,堆积的小卷积核提高了网络模型的表达能力,有利于图片的特征提取与分类。但是,通过VGG16获取了高维图像特征信息,不仅带来较大的计算开销,会产生维数灾难问题,还会存在信息冗余现象。
因此,后续利用PCA方法对高维图像特征信息进行降维处理,在尽可能减少图像特征信息损失的同时降低特征维度,将高维特征映射到低维空间,获得低维图像特征数据,减少计算时间和存储空间开销。
与此同时,高维图像特征信息是包含高维图像特征值和高维图像特征图的,在经过PCA降维后得到的低维图像特征信息,其包含了低维特征值和低维特征图。对于低维特征图,需进行base64编码转换,将特征图编码成字符串,把图片格式转换为文本格式存储,进一步降低存储消耗,展示时再将查询到的舰船特征 图像字符串解码,显示完整特征图像内容,用于舰船图像分类任务。
步骤S206,建立舰船装备词条数据集与舰船装备特征数据集的初步映射,得到舰船装备数据集;
图4是根据本申请实施例的舰船数据处理的流程示意图,如图4所示,将舰船装备词条数据集和舰船装备特征数据集类比关联处理,建立初步映射,进而得到舰船装备数据集。
步骤S208,通过预设序列标注法对舰船装备数据集进行标注,得到词条标注训练集,将词条标注训练集输入预设实体识别模型,完成舰船装备数据集的实体识别;
具体地,通过基于BIOES标注体系的序列标注法,对舰船装备数据集进行标注,得到词条标注训练集;将词条标注训练集输入BiLSTM-CRF模型中,完成舰船装备数据集的实体识别。
需要说明的是,实体识别,也称为命名实体识别,需要先从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别即本体概念中。例如,对于预设句子“辽宁号航空母舰,是中国人民解放军海军隶下的一艘可以搭载固定翼飞机的航空母舰,也是中国第一艘服役的航空母舰。”例句中的“辽宁号航空母舰”是固定翼航母本体的实体,“中国人民解放军海军”是组织本体的实体,“中国”是国家本体的实体。进一步地,业内通常将循环神经网络RNN及其变体模型应用于实体识别任务中,RNN能够捕获文本语义间的上下文关系,但往往会出现梯度消失或梯度爆炸导致识别失效。为了解决长序列训练过程中的梯度消失和梯度爆炸问题,长短期记忆网络LSTM引入了门机制用于控制特征的流通和损失,学习长时间的依赖关系,传递有用信息,丢弃无用信息,但是LSTM只能学习到文本序列中的前向信息,而双向长短期记忆网络BiLSTM同时捕获过去和未来的信息。
步骤S208中首先将实体识别问题转变为序列标注问题,即对于输入的字符序列,输出对应的标签序列。标签通常由两部分组成,第一部分是实体所属的类别,在舰船装备领域,实体类别有航空母舰实体(ACC)、驱逐舰实体(DES)、组织机构实体(ORG)、地名实体(LOC)等。第二部分是该字符在实体的位置信息。采用BIOES标注体系,对语句文本的标签分为实体开头(B)、实体内部(I)、实体结尾(E)、单个实体(S)、非实体(O)五种标注类型。因此在训练实体识别模型前,利用BIOES标注体系,将经过KNN分类后的每个类别下的各词条的详细文本信息作为标注语料,构建词条标注训练集。
进一步地,步骤S208中后续基于词条标注训练集,采用BiLSTM-CRF模型进行实体 识别。BiLSTM网络结构分为输入层、前向LSTM层、后向LSTM层、输出层。输入层将各词条详细 文本句子语料向量化,生成能够充分捕捉文本语义信息的词向量,提供给BiLSTM网络使用。 前向LSTM层提取从前向后传播的前向特征信息,后向LSTM层提取从后向前的后向特征信 息,输入层分别与前向LSTM层和后向LSTM层相连,前向LSTM层与后向LSTM层与输出层相连。 将前向LSTM和后向LSTM进行拼接,两个LSTM分别从前、后方向提取输入文本的语义特征,产 生前向的隐藏层状态和后向的隐藏层状态,从而获得更丰富的上下文信息。输出层表示输 入文本信息最终的语义特征向量
Figure 948928DEST_PATH_IMAGE001
,输出公示如下:
Figure 859115DEST_PATH_IMAGE002
其中,
Figure 581083DEST_PATH_IMAGE003
,n为语句长度,
Figure 355791DEST_PATH_IMAGE004
表示前向LSTM层的输出,
Figure 948446DEST_PATH_IMAGE005
表示后向LSTM 层的输出,
Figure 763956DEST_PATH_IMAGE006
表示特定加运算。BiLSTM模型会输出每个字符对应每个标签类的分数,将最大 值作为该字符对应的预测标签类别,但是BiLSTM的输出只是将前向LSTM和后向LSTM相加, 前向LSTM和后向LSTM的输出之间互不影像,最终输出是通过概率值确定。这只能预测文本 序列与标签的关系,忽略了标签顺序与实际的语法关系,可能会存在连续的语法错误。而条 件随机场CRF包含了特征之间的转移概率,可以确保输出之间存在顺序关系,因此采用CRF 作为BiLSTM的输出层,可对BiLSTM的输出进行优化,减少语法错误。
CRF中具有转移特征,BiLSTM将每个字符表示的K维特征向量(K为标签类别数)进 行拼接得到CRF的输入特征P,P是一个
Figure 723953DEST_PATH_IMAGE007
维的矩阵,那么每个文本语句的得分如下:
Figure 283110DEST_PATH_IMAGE008
其中,X是输入的语句序列,Y是输出的预测标注序列,
Figure 261430DEST_PATH_IMAGE009
表示对于输入序列X 的预测标注序列Y的得分,等于BiLSTM的输出P矩阵与CRF转移矩阵A之和。
Figure 982262DEST_PATH_IMAGE010
表示标 注序列上一个
Figure 163975DEST_PATH_IMAGE011
标签转移到下一个
Figure 526824DEST_PATH_IMAGE012
标签的概率。BiLSTM-CRF模型的结构:由前向LSTM 层、后向LSTM层、CRF层组合而成。BiLSTM-CRF模型将文本句子中的字向量作为BiLSTM的输 入,提取句子特征。然后CRF层对两层LSTM的输出
Figure 625230DEST_PATH_IMAGE004
Figure 267695DEST_PATH_IMAGE013
进行处理,通过标签类别与概率共 同决定最终的输出,进行句子级的序列标注,确保语法的正确性,从而完成实体识别。
步骤S210,通过预设实体关系抽取模型,对实体识别后的舰船装备数据集进行实体关系抽取,得到三元组数据,从而构建舰船装备的知识图谱。
需要说明的是,图5是根据本申请实施例实体识别和关系抽取模型构建的流程示意图,如图5所示,通过BiLSTM-CRF从舰船装备数据中提取到的实体信息是互相独立的,需要结合句子信息从中提取实体间相应的关系。关系抽取指抽取出一段文本中两个实体或多个实体间的关系,依据已经从词条文本内容中提取到的舰船装备领域实体,利用神经网络模型抽取实体关系,然后将实体和关系组成<实体,关系,实体>或<实体,属性,属性值>三元组。实体抽取与关系抽取结合起来形成完整的知识抽取,从而构建完整的舰船装备领域知识图谱。
具体地,通过结合远程监督算法、分段卷积神经网络和Softmax分类器的实体关系抽取模型,对实体识别后的舰船装备数据集进行实体关系抽取;根据实体识别结果和实体关系抽取结果,构建三元组数据,其中,三元组数据的类型包括<实体,关系,实体>和<实体,属性,属性值>。
步骤S210中使用远程监督算法对数据标注,该算法的核心基于一个假设:如果实体 A和实体B的存在关系R,那么只要当实体A和实体B共同出现在一个句子中时,远程监督算法都会对该句子的实体对打上关系标签R。远程监督算法的假设性过强,不可避免地带来一定的错误标签,为了消除数据标注错误带来的误差影响,利用分段卷积神经网络PCNN进行关系抽取。
进一步地,步骤S210中使用的PCNN(分段卷积神经网络)的输入包含词向量和位置向量两部分,通过引入实体的位置特征可以凸显文本中语义关系的特征,实体的位置特征指句子中词语与第一个实体和第二个实体之间的 相对距离。每个句子可以转换为一个 维度为句子长度×(词向量+位置向量长度)的矩阵,即按字符拼接词向量特征和位置向量特征,得到句子的向量表示。然后对其进行卷积运算,公式如下:
Figure 451551DEST_PATH_IMAGE014
其中,
Figure 352511DEST_PATH_IMAGE015
指将语句中第i个字符与第j个字符的向量整合,代表字符与字符之间 的语义联系,j的长度为1到s+w-1。为了获取更多特征,使用n个卷积核
Figure 787647DEST_PATH_IMAGE016
,卷积运算如下:
Figure 115860DEST_PATH_IMAGE017
Figure 521434DEST_PATH_IMAGE018
分段式的池化操作 对一维卷积的结构进行三段式划分,即头实体左边、头尾实体之间和尾巴实体之后,各部分采取最大池化操作,提取句子内部不同 位置的特征信息,分段池化公式如下:
Figure 976817DEST_PATH_IMAGE019
Figure 518657DEST_PATH_IMAGE020
经过分段池化处理后 得到一个维度为3的向量,n个卷积核经池化后的向量
Figure 283351DEST_PATH_IMAGE021
再 拼接就是一个
Figure 910641DEST_PATH_IMAGE022
的向量
Figure 904136DEST_PATH_IMAGE023
,然后 通过非线性激活函数tanh计算,得到分段池 化的最终输出:
Figure 300482DEST_PATH_IMAGE024
通过卷积和分段池化,可以充分学习到句子中的局部特征信息,利用Softmax分类器计算每个关系标签的置信度,实现对实体关系类型的预测,公式如下:
Figure 236077DEST_PATH_IMAGE025
其中,
Figure 101396DEST_PATH_IMAGE026
表示转移矩阵,b表示偏差向量,
Figure 882270DEST_PATH_IMAGE027
表示关系类 别个数。
更进一步地,在步骤S210中,根据步骤S208的实体识别结果和步骤S210上述的实体关系抽取结果,构建三元组数据,其中,三元组数据的类型包括<实体,关系,实体>和<实体,属性,属性值>。
步骤S210抽取出来的实体关系包括上下关系、同义关系、属性关系和概念与实例关系等,其中,①上下关系,根据舰船所属类别确定父级本体概念与子级本体概念,上下关系的数量是有限的,构建时可依据权威百科和军事刊物所描述的上下层次关系,比如潜艇与常规潜艇为上下关系,即父级本体概念与子级本体概念的关系;②同义关系,指概念上相同或相似的表达,从不同的字面表示指向同一个本体概念,比如辽宁号航空母舰和001型航空母舰都是指相同的本体;③属性关系,指舰船装备与其属性之间的关系,属性包括国家、舰级、研制时间、服役时间、吨位、舰长、舰宽、吃水、航速、武器、特征值、特征编码等;④概念与实例关系,指上层本体概念与下层具体实例之间的关系,即本体是抽象概念,实体是本体的具体实例,比如辽宁号航空母舰是航空母舰本体概念的一个具体实例。
由上述实体关系和步骤S208得到的实体,构建得到的三元组数据,如<国家,拥有,舰船>,<建造单位,研制,舰船>,<建造单位,属于,国家>,<舰船,属于,舰船类型>,<舰船,搭载,武器>,<舰船,参与,战争>,<舰船,参与,演习>,<国家,参与,演习>,<舰船,研制时间,时间值>,<舰船,服役时间,时间值>,<舰船,吨位,吨位值>,<舰船,长度,长度值>,<舰船,宽度,宽度值>,<舰船,吃水,吃水值>,<舰船,航速,航速值>,<舰船,人员,人数值>,<舰船,航程,航程值>,<舰船,特征,特征值>,<舰船,特征,特征图编码>等。
通过本申请实施例中的步骤S202至步骤S210,爬取百科网址等开源舰船装备词条内容,经过数据处理,一方面对词条内容进行分词,再次爬取分词后的词条,获取舰船档案信息;另一方面利用VGG16网络结构提取词条图片特征,经过PCA方法获得低维特征向量值,并将特征图片转换为base64编码,获取舰船图片特征值和特征编码信息,以此来补充舰船装备词条数据集。采用BiLSTM-CRF模型对舰船装备实体进行抽取,利用PCNN模型抽取实体关系得到三元组数据,构建舰船装备领域知识图谱。针对舰船装备领域,围绕互联网开源数据信息,构建舰艇装备领域知识图谱,解决涉及到的数据获取、特征提取、实体识别、关系抽取和知识表示等关键技术问题;形成对舰船装备领域知识的结构化呈现,使碎片化的舰船装备知识得以集中、高效和便捷地使用;将用于舰船分类任务所需的舰船图像特征向量、特征图像等特征信息,作为舰船实体属性融入三元组结构中,并存储于图数据库中,直观展现舰船图像的特征信息。
需要说明的是,本实施例中的步骤S206中得到的舰船装备数据集里包含了各类舰船装备词条以及与之紧密相关的补充词条的详细文本信息,然而这些信息是各自分散的、杂乱无章的,难以体现舰船装备数据中的价值,因此步骤S208中的实体识别和步骤S210中的关系抽取,通过在这些数据中进行知识抽取是构建知识图谱的关键步骤。知识抽取是从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本地化的知识表达。
在其中一些实施例中,在构建舰船装备的知识图谱之后还包括:
将知识图谱中的三元组数据存储到Neo4j图数据库中;
在舰船装备知识展示阶段,通过查询语句获取Neo4j图数据库中对应的三元组数据,
将三元组数据转换成json格式文件,采用D3.js库对json格式文件进行数据渲染,并对低维特征图字符串进行base64解码得到特征图像数据;
通过数据渲染后的json格式文件和特征图像数据,完成舰船知识图谱的可视化展示。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种舰船装备的知识图谱构建系统,图6是根据本申请实施例的舰船装备的知识图谱构建系统的结构框图,如图6所示,该系统包括数据采集模块61、数据处理模块62、实体识别模块63、关系抽取模块64和知识表示模块65;
数据采集模块61,用于获取多来源的初始舰船装备数据,其中,初始舰船装备数据包括文本信息和图像信息;
数据处理模块62,用于根据文本信息,得到舰船装备词条数据集,根据图像信息,得到舰船装备特征数据集;建立舰船装备词条数据集与舰船装备特征数据集的初步映射,得到舰船装备数据集;
实体识别模块63,用于通过预设序列标注法对舰船装备数据集进行标注,得到词条标注训练集,将词条标注训练集输入预设实体识别模型,完成舰船装备数据集的实体识别;
关系抽取模块64,用于通过预设实体关系抽取模型,对实体识别后的舰船装备数据集进行实体关系抽取;
知识表示模块65,用于根据实体识别结果和实体关系抽取结果,得到三元组数据,从而构建舰船装备的知识图谱。
通过本申请实施例中的数据采集模块61、数据处理模块62、实体识别模块63、关系抽取模块64和知识表示模块65,解决了面向舰船装备的知识信息存在着碎片化和整合度低的问题,实现了对舰船装备领域知识的结构化呈现,使碎片化的舰船装备知识得以集中、高效和便捷地使用。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的舰船装备的知识图谱构建方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种舰船装备的知识图谱构建方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舰船装备的知识图谱构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图7是根据本申请实施例的电子设备的内部结构示意图,如图7所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图7所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种舰船装备的知识图谱构建方法,数据库用于存储数据。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种舰船装备的知识图谱构建方法,其特征在于,所述方法包括:
获取多来源的舰船装备下的类别信息建立类别url集合;依次遍历所述类别url集合中的类别url,获取所述类别url下的词条信息建立词条url集合;依次遍历所述词条url集合中的词条url,解析所述词条url的页面结构提取初始舰船装备数据,其中,所述初始舰船装备数据包括文本信息和图像信息;
采用预设分词工具,对所述文本信息进行分词得到分词词条,根据所述分词词条再次进行数据获取,得到初始词条,合并所述分词词条和所述初始词条,得到舰船装备词条数据集;
通过VGG16卷积神经网络对所述图像信息进行深层次特征提取,得到高维图像特征信息,再采用PCA主成分分析法对所述高维图像特征信息进行降维处理,得到低维图像特征信息,其中,所述低维图像特征信息包含低维特征值和低维特征图;对所述低维特征图进行base64编码转换,得到低维特征图字符串,合并所述低维特征值和所述低维特征图字符串,得到舰船装备特征数据集;
建立所述舰船装备词条数据集与所述舰船装备特征数据集的初步映射,得到舰船装备数据集;
通过预设序列标注法对所述舰船装备数据集进行标注,得到词条标注训练集,将所述词条标注训练集输入预设实体识别模型,完成所述舰船装备数据集的实体识别;
通过结合远程监督算法、分段卷积神经网络和Softmax分类器的实体关系抽取模型,对所述实体识别后的舰船装备数据集进行实体关系抽取;
根据实体识别结果和实体关系抽取结果,得到三元组数据,从而构建舰船装备的知识图谱,其中,所述三元组数据的类型包括<实体,关系,实体>和<实体,属性,属性值>。
2.根据权利要求1所述的方法,其特征在于,在构建舰船装备的知识图谱之后,所述方法包括:
将知识图谱中的三元组数据存储到Neo4j图数据库中;
在舰船装备知识展示阶段,通过查询语句获取所述Neo4j图数据库中对应的三元组数据,
将所述三元组数据转换成json格式文件,采用D3.js库对所述json格式文件进行数据渲染,并对低维特征图字符串进行base64解码得到特征图像数据;
通过所述数据渲染后的json格式文件和特征图像数据,完成舰船知识图谱的可视化展示。
3.根据权利要求1所述的方法,其特征在于,通过预设序列标注法对所述舰船装备数据集进行标注,得到词条标注训练集包括:
通过基于BIOES标注体系的序列标注法,对所述舰船装备数据集进行标注,得到词条标注训练集。
4.根据权利要求1所述的方法,其特征在于,将所述词条标注训练集输入预设实体识别模型,完成所述舰船装备数据集的实体识别包括:
将所述词条标注训练集输入BiLSTM-CRF模型中,完成所述舰船装备数据集的实体识别。
5.根据权利要求1所述的方法,其特征在于,所述方法包括:
通过Requests和Xpath数据采集工具获取多来源的初始舰船装备数据。
6.一种舰船装备的知识图谱构建系统,其特征在于,所述系统包括数据采集模块、数据处理模块、实体识别模块、关系抽取模块和知识表示模块;
所述数据采集模块,用于获取多来源的舰船装备下的类别信息建立类别url集合;依次遍历所述类别url集合中的类别url,获取所述类别url下的词条信息建立词条url集合;依次遍历所述词条url集合中的词条url,解析所述词条url的页面结构提取初始舰船装备数据,其中,所述初始舰船装备数据包括文本信息和图像信息;
所述数据处理模块,用于采用预设分词工具,对所述文本信息进行分词得到分词词条,根据所述分词词条再次进行数据获取,得到初始词条,合并所述分词词条和所述初始词条,得到舰船装备词条数据集;
所述数据处理模块,还用于通过VGG16卷积神经网络对所述图像信息进行深层次特征提取,得到高维图像特征信息,再采用PCA主成分分析法对所述高维图像特征信息进行降维处理,得到低维图像特征信息,其中,所述低维图像特征信息包含低维特征值和低维特征图;对所述低维特征图进行base64编码转换,得到低维特征图字符串,合并所述低维特征值和所述低维特征图字符串,得到舰船装备特征数据集;
所述数据处理模块,还用于建立所述舰船装备词条数据集与所述舰船装备特征数据集的初步映射,得到舰船装备数据集;
所述实体识别模块,用于通过预设序列标注法对所述舰船装备数据集进行标注,得到词条标注训练集,将所述词条标注训练集输入预设实体识别模型,完成所述舰船装备数据集的实体识别;
所述关系抽取模块,用于通过结合远程监督算法、分段卷积神经网络和Softmax分类器的实体关系抽取模型,对所述实体识别后的舰船装备数据集进行实体关系抽取;
所述知识表示模块,用于根据实体识别结果和实体关系抽取结果,得到三元组数据,从而构建舰船装备的知识图谱,其中,所述三元组数据的类型包括<实体,关系,实体>和<实体,属性,属性值>。
CN202210621367.XA 2022-06-02 2022-06-02 一种舰船装备的知识图谱构建方法和系统 Active CN114707005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210621367.XA CN114707005B (zh) 2022-06-02 2022-06-02 一种舰船装备的知识图谱构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210621367.XA CN114707005B (zh) 2022-06-02 2022-06-02 一种舰船装备的知识图谱构建方法和系统

Publications (2)

Publication Number Publication Date
CN114707005A CN114707005A (zh) 2022-07-05
CN114707005B true CN114707005B (zh) 2022-10-25

Family

ID=82177682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210621367.XA Active CN114707005B (zh) 2022-06-02 2022-06-02 一种舰船装备的知识图谱构建方法和系统

Country Status (1)

Country Link
CN (1) CN114707005B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304115B (zh) * 2023-05-19 2023-08-11 中央军委后勤保障部信息中心 一种基于知识图谱的物资匹配替换方法和装置

Citations (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN111046187A (zh) * 2019-11-13 2020-04-21 山东财经大学 基于对抗式注意力机制的一样本知识图谱关系学习方法及系统
CN111078868A (zh) * 2019-06-04 2020-04-28 中国人民解放军92493部队参谋部 基于知识图谱分析的装备试验体系规划决策的方法及系统
CN112148888A (zh) * 2020-09-18 2020-12-29 南京邮电大学 基于图神经网络的知识图谱构建方法
CN112163097A (zh) * 2020-09-23 2021-01-01 中国电子科技集团公司第十五研究所 一种军事知识图谱构建方法及系统
CN112527915A (zh) * 2020-11-17 2021-03-19 北京科技大学 线性文化遗产知识图谱构建方法、系统、计算设备和介质
CN112580439A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 小样本条件下的大幅面遥感图像舰船目标检测方法及系统
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN112732124A (zh) * 2021-03-31 2021-04-30 上海艾为微电子技术有限公司 压感式按键自动识别系统、电子产品及压力事件检测方法
CN113139623A (zh) * 2021-05-14 2021-07-20 中国人民解放军91977部队 舰船目标识别方法及装置
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN113254683A (zh) * 2020-02-07 2021-08-13 阿里巴巴集团控股有限公司 数据处理方法及装置、标签识别方法及装置
WO2021189971A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN113486190A (zh) * 2021-06-21 2021-10-08 北京邮电大学 一种融合实体图像信息和实体类别信息的多模态知识表示方法
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN113609892A (zh) * 2021-06-16 2021-11-05 北京工业大学 深度学习与景区知识图谱融合的手写诗词识别方法
CN113821702A (zh) * 2021-11-24 2021-12-21 中国电子科技集团公司第二十八研究所 一种城市多维空间多元异构信息数据处理方法
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN114111764A (zh) * 2021-08-21 2022-03-01 西北工业大学 一种导航知识图谱构建及推理应用方法
CN114201622A (zh) * 2021-12-13 2022-03-18 北京百度网讯科技有限公司 获取事件信息的方法、装置、电子设备和存储介质
CN114328756A (zh) * 2021-12-20 2022-04-12 郑州信大先进技术研究院 一种武器实体关系图谱构建方法、装置及计算设备
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN114398491A (zh) * 2021-12-21 2022-04-26 成都量子矩阵科技有限公司 一种基于知识图谱的语义分割图像实体关系推理方法
CN114444507A (zh) * 2022-01-11 2022-05-06 北京工业大学 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN114491071A (zh) * 2022-01-27 2022-05-13 北京工商大学 一种基于跨媒体数据的食品安全知识图谱构建方法及系统
CN114510610A (zh) * 2022-02-28 2022-05-17 复旦大学 面向多模态知识图谱构建的识别视觉概念的方法
CN114528417A (zh) * 2022-04-12 2022-05-24 北京中科闻歌科技股份有限公司 知识图谱本体构建方法、装置、设备及可读存储介质

Patent Citations (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN111078868A (zh) * 2019-06-04 2020-04-28 中国人民解放军92493部队参谋部 基于知识图谱分析的装备试验体系规划决策的方法及系统
CN111046187A (zh) * 2019-11-13 2020-04-21 山东财经大学 基于对抗式注意力机制的一样本知识图谱关系学习方法及系统
CN113254683A (zh) * 2020-02-07 2021-08-13 阿里巴巴集团控股有限公司 数据处理方法及装置、标签识别方法及装置
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN112148888A (zh) * 2020-09-18 2020-12-29 南京邮电大学 基于图神经网络的知识图谱构建方法
CN112163097A (zh) * 2020-09-23 2021-01-01 中国电子科技集团公司第十五研究所 一种军事知识图谱构建方法及系统
WO2022078102A1 (zh) * 2020-10-14 2022-04-21 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
WO2021189971A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112527915A (zh) * 2020-11-17 2021-03-19 北京科技大学 线性文化遗产知识图谱构建方法、系统、计算设备和介质
CN112580439A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 小样本条件下的大幅面遥感图像舰船目标检测方法及系统
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN112732124A (zh) * 2021-03-31 2021-04-30 上海艾为微电子技术有限公司 压感式按键自动识别系统、电子产品及压力事件检测方法
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统
CN113139623A (zh) * 2021-05-14 2021-07-20 中国人民解放军91977部队 舰船目标识别方法及装置
CN113609892A (zh) * 2021-06-16 2021-11-05 北京工业大学 深度学习与景区知识图谱融合的手写诗词识别方法
CN113486190A (zh) * 2021-06-21 2021-10-08 北京邮电大学 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN114111764A (zh) * 2021-08-21 2022-03-01 西北工业大学 一种导航知识图谱构建及推理应用方法
CN113821702A (zh) * 2021-11-24 2021-12-21 中国电子科技集团公司第二十八研究所 一种城市多维空间多元异构信息数据处理方法
CN114201622A (zh) * 2021-12-13 2022-03-18 北京百度网讯科技有限公司 获取事件信息的方法、装置、电子设备和存储介质
CN114328756A (zh) * 2021-12-20 2022-04-12 郑州信大先进技术研究院 一种武器实体关系图谱构建方法、装置及计算设备
CN114398491A (zh) * 2021-12-21 2022-04-26 成都量子矩阵科技有限公司 一种基于知识图谱的语义分割图像实体关系推理方法
CN114444507A (zh) * 2022-01-11 2022-05-06 北京工业大学 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN114491071A (zh) * 2022-01-27 2022-05-13 北京工商大学 一种基于跨媒体数据的食品安全知识图谱构建方法及系统
CN114510610A (zh) * 2022-02-28 2022-05-17 复旦大学 面向多模态知识图谱构建的识别视觉概念的方法
CN114528417A (zh) * 2022-04-12 2022-05-24 北京中科闻歌科技股份有限公司 知识图谱本体构建方法、装置、设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PaintKG: the painting knowledge graph using bilstm-crf;Han Wu 等;《2020 International Conference on Information Science and Education (ICISE-IE)》;20201231;全文 *
面向碳交易领域的知识图谱构建方法;王良萸;《计算机与现代化》;20180815(第08期);全文 *

Also Published As

Publication number Publication date
CN114707005A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
CN109871955B (zh) 一种航空安全事故因果关系抽取方法
CN111062215B (zh) 基于半监督学习训练的命名实体识别方法和装置
CN111488739A (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
Zhang et al. Learning Chinese word embeddings from stroke, structure and pinyin of characters
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
CN114722069A (zh) 语言转换方法和装置、电子设备及存储介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
Cornia et al. A unified cycle-consistent neural model for text and image retrieval
CN113743119A (zh) 中文命名实体识别模块、方法、装置及电子设备
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN114707005B (zh) 一种舰船装备的知识图谱构建方法和系统
CN116595195A (zh) 一种知识图谱构建方法、装置及介质
CN116910307A (zh) 一种跨模态视频文本检索方法、系统、设备及介质
CN115130613A (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
WO2021129411A1 (zh) 文本处理方法及装置
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Yifan

Inventor after: Zhang Wei

Inventor after: Zhang Boya

Inventor after: Lei Fuqiang

Inventor after: Ren Haiying

Inventor after: Yang Chaohui

Inventor after: Wang Yizheng

Inventor after: Jing Min

Inventor before: Zhang Yifan

Inventor before: Zhang Boya

Inventor before: Zhang Wei

Inventor before: Lei Fuqiang

Inventor before: Ren Haiying

Inventor before: Yang Chaohui

Inventor before: Wang Yizheng

Inventor before: Jing Min

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant