CN115408532A - 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质 - Google Patents

一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN115408532A
CN115408532A CN202210790201.0A CN202210790201A CN115408532A CN 115408532 A CN115408532 A CN 115408532A CN 202210790201 A CN202210790201 A CN 202210790201A CN 115408532 A CN115408532 A CN 115408532A
Authority
CN
China
Prior art keywords
data set
entity
weapon equipment
trained
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210790201.0A
Other languages
English (en)
Inventor
岳一峰
张昊
李若晨
任祥辉
谢世超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202210790201.0A priority Critical patent/CN115408532A/zh
Publication of CN115408532A publication Critical patent/CN115408532A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基面向开源情报的武器装备知识图谱构建方法,通过从开源资源获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据,将标准化的军事文本数据进行标注处理,得到训练集(待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集),通过对模型的训练改善模型,并基于改善后的模型对武器装备进行识别和属性提取,最后构建知识图谱,解决了目前开源军事信息因散乱、质量参差不齐、数据量大等原因造成的对军事开源信息利用率不高、查询费时费力、不方便的问题。

Description

一种面向开源情报的武器装备知识图谱构建方法、系统、装置 及存储介质
技术领域
本申请属于知识图谱构建的研究领域,特别涉及一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质。
背景技术
大数据和人工智能技术正广泛地应用于全社会的各个行业,是推动全社会智能化变革的一股重要力量。相关技术在军事领域的深度应用正在成为一种不可逆转的趋势。与其在民用领域的应用相比,在军事领域的应用对相关技术的复杂性、安全性和对抗性提出了更高的要求。
在军事领域,智能化作战的实现依赖于对数据更加深入的挖掘、分析、分发和利用。而知识图谱技术凭借其知识整合关联的强大能力,正是军事战略分析所需要的。军事文本作为军事情报的一种重要载体,对其的整理、挖掘和应用则是开展后续工作的基石。在实践中,由于情报数据量的规模庞大、数据源的离散式分布和数据格式的非一致性,使得在进行数据挖掘应用时呈现出诸多问题,严重阻碍了人工智能技术的发展,尤其是严重阻碍了知识图谱技术在军事领域的大规模应用落地。
总体来说,知识图谱的相关技术已逐渐成熟,国内外企业、研究机构、大学已将知识图谱的应用真实落地在各行业中并且带来了显著的收益。国外在该领域的应用起步较早、研究相对深入,以将知识图谱技术成功应用于搜索技术、推荐系统、用户画像、情报分析等众多领域。我国在继续深入研究知识图谱在信息检索、教育、出行、金融、医疗等领域应用的同时,应继续研究知识图谱在军事上的应用模式,同时集中力量解决当前知识图谱暴露出来的多元数据结构复杂、数据选择困难等问题。通用领域以百度为代表从2017年世界大会推出知识图谱开始,到今天已经构建了世界上规模最大的知识图谱包括超50亿实体、5500亿事件。知识图谱不仅影响了人们在PC和移动端信息检索获取答案的方式,还在各个产品线如地图、教育、学术搜索上不断带来需求体验上的优化。在垂直领域如医疗上,平安好医生推出包含3000多种疾病的医疗知识图谱,给智能问诊提供了理论依据。
Google、IBM、Microsoft等国外大型公司都投入了大量精力开展知识图谱相关技术的研究。其中,Microsoft提出的MAKG包含80亿三元组的RDF数据集为超过200万论文提供实体嵌入,Google开源知识图谱提供千亿级网页结构化知识表示,让搜索直接通往答案。同时,近5年来,美军和主要军事强国机构如美国国防高级研究计划局(DARPA)开展与支持了大批大数据研发项目,包括文本深度挖掘、大型多维数据集分析、大数据集采集和分析等,同时俄军从2016年启动研制战斗指挥信息系统,攻关战场态势大数据且取得了很大进展。对于大数据的分析挖掘,各国都踊跃尝试且进展显著。在军事领域,南京摄星智能推出百万量级实体的防务知识图谱,但是知识类型、应用点较为单一,同时针对应用的高度定制化使得推广应用较为困难。总而言之,目前国内军事领域的知识图谱研究仍处于较前期的阶段。
综上,军事数据相比传统的民用大数据,往往对数据质量的要求更高。实践中,还存在散落在网络中的数据往往质量参差不齐、真假难辨等问题,且由于保密的要求,大量准确的军事装备信息不能公开。仅能从公开途径,如百科、新闻、论坛类网站获取军事装备的相关技术参数和关联事件。如何从海量低质量数据和缺乏数据样本的情况下,通过数据分析技术,筛选出高质量数据,如何提高模型在数据数量和质量都缺乏的真实场景下的适用性,是提高智能化数据分析能力的关键。
对于军事装备动态信息知识图谱,如何挖掘根据散乱、质量参差不齐的开源信息获取有价值的信息,是该技术能否成功应用在军事领域中的关键。而,在军事应用领域,尚缺乏一个具备快速获取、处理军事装备动态数据,精准查询及多样化展现数据的一体化方法或者平台。
发明内容
为了解决所述现有技术的不足,本申请提供了一种面向开源情报的武器装备知识图谱构建方法,以解决目前开源军事信息因散乱、质量参差不齐、数据量大等原因造成的对军事开源信息利用率不高、查询费时费力、不方便的问题。
基于上述目的,本说明书一个或多个实施例提供了一种面向开源情报的武器装备知识图谱构建方法,所述方法包括:
获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;
基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
可选的,所述基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集的步骤包括:
通过Bert预训练语言模型获得输入的所述标准化的军事文本数据的语义表示数据集,通过CRF层输出概率最大的实体标签序列,基于所述实体标签序列确定武器装备实体数据集;基于所述关系抽取模型对所述标准化的军事文本数据进行武器装备属性提取操作,得到武器装备属性数据集。
可选的,所述将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型的步骤包括:
通过Bert Embedding将所述待训练的武器装备属性提取数据集转换成属性向量序列,将所述属性向量序列输入DGCNN中进行编码,得到编码后的属性向量序列;
将所述码后的向量序列输入Self-Attention后,将输出结果与先验特征进行拼接,得到拼接后的属性向量序列,将所述拼接后的属性向量序列输入CNN和 Dense层,预测武器装备的首、尾位置,得到中间关系抽取模型;
根据所述中间关系抽取模型输入任一所述武器装备进行训练得到所述训练后的关系抽取模型。
可选的,所述根据所述中间关系抽取模型输入任一所述武器装备进行训练得到所述训练后的关系抽取模型的步骤方包括:
采样任一所述武器装备,将编码后的属性向量序列对应所述任一所述武器装备的子属性向量序列输入至LSTM中,得到所述任一所述武器装备的属性编码向量序列;
将编码后的属性向量序列输入另一层Self-Attention中,将输出结果与所述任一所述武器装备的属性编码向量序列进行拼接,得到目标属性向量序列;
将所述目标属性向量序列输入CNN和Dense,预测所述所述武器装备的首、尾位置,从而得到训练后的关系抽取模型。
可选的,所述基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集的步骤包括:
根据所述标准化的军事文本数据基于百度百科和维基百科爬取,得到候选实体链接数据集,所述候选实体链接数据集;
对所述候选实体链接数据集和其对应的实体指称进行拼接处理,得到拼接后的候选实体链接数据集,所述候选实体和所述实体指称之间以分隔符隔开;
将所述拼接后的候选实体链接数据集输入每个BERT预训练模型中,所述拼接后的候选实体链接数据集经过Dropout层进入一个二分类Dence层后,将输出结果拼接后输入Dence层,得到多次拼接后的候选实体链接数据集;
所述多次拼接后的候选实体链接数据集输入Softmax,将得分最高的候选实体数据集作为目标候选实体数据集。
可选的,所述方法还包括:
基于所述目标候选实体数据集的实体名称在知识图谱数据库中进行查找,并返回第一查询结果;
若所述第一查询结果为NIL,则目标候选实体数据集及对应的所述目标属性数据集存入知识图谱数据库。
可选的,所述方法还包括:
基于目标属性数据集的属性名称在知识图谱数据库中进行查找,并返回第二查询结果,若所述第二查询结果为无,将该属性存入至所述知识图谱对应实体的属性数据库中;否则,将该属性与对应实体的属性进行合并处理,并存入至所述知识图谱对应实体的属性数据库中。
本说明书一个或多个实施例提供了一种面向开源情报的武器装备知识图谱构建系统,其特征在于,所述系统包括:
获取模块,用于获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
标注模块,用于根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
计算模块,用于将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
确定模块,用于基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
本说明书一个或多个实施例提供了一种面向开源情报的武器装备知识图谱构建装置,其特征在于,所述装置包括:
获取单元,用于获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
标注单元,用于根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
计算单元,用于将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
确定单元,用于基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
本说明书一个或多个实施例提供了一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行上述任一所述的面向开源情报的武器装备知识图谱构建方法的步骤。
从上面所述可以看出,本说明书一个或多个实施例提供的一种基面向开源情报的武器装备知识图谱构建方法,通过从开源资源获取获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据,将杂乱的数据处理后变成标准的、统一的可用数据;并根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集,处理好模型训练所需的数据;将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;然后基于训练好的模型,进行识别和属性提取,即基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;最后,基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。本方法通过,将标准化后的开源数据进行标注处理,得到训练集(待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集),通过对模型的训练改善模型,并基于改善后的模型对武器装备进行识别和属性提取,最后构建知识图谱,解决了目前开源军事信息因散乱、质量参差不齐、数据量大等原因造成的对军事开源信息利用率不高、查询费时费力、不方便的问题。
附图说明
为了更清楚地说明本申请实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例中一种面向开源情报的武器装备知识图谱构建方法的流程图;
图2为本申请一实施例中另一种面向开源情报的武器装备知识图谱构建方法的示例流程图;
图3为本申请一实施例中开源情报获取工作流程图;
图4为本申请一实施例中属性提取数据示例图;
图5为本申请一实施例中基于BERT的实体链接模型图;
图6为本申请一实施例提供的一种面向开源情报的武器装备知识图谱构建装置的结构示意图
图7为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
知识图谱:知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
实体识别:实体识别是一种信息提取技术。该技术可通过深度学习相关方法从文本数据中获取人名、地名、组织机构等实体相关数据。
实体关系抽取:实体关系识别是指在自然语言处理过程中抽取文本中实体间所隐含关系的任务。抽取的实体间关系可以通过不同形式的语言或形式表达,比如关系数据库、XML等等。
实体链接:实体链接是指将一段文本中的包含特定含义的字符串映射到知识库中对应实体的任务。该技术是知识图谱构建与知识更新的关键技术之一,实现了把具有歧义的命名性指称项映射到它所指的实体上的功能,解决知识图谱构建中的一词多义问题。
实体属性对齐:实体属性对齐旨在判断多个来源的属性是否指代的是同一个属性,将不同来源且含义相同的信息进行知识统合,从而起到丰富知识库的作用。
发明人发现,由于情报数据量的规模庞大、数据源的离散式分布和数据格式的非一致性,使得在进行数据挖掘应用时呈现出诸多问题,严重阻碍了知识图谱技术在军事领域的大规模应用落地。目前开源军事信息因散乱、质量参差不齐、数据量大等原因造成的对军事开源信息利用率不高、查询费时费力、不方便等问题。故,发明人提供一种面向开源情报的武器装备知识图谱构建方法,通过从开源资源获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据,将杂乱的数据处理后变成标准的、统一的可用数据;并根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集,处理好模型训练所需的数据;将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;然后基于训练好的模型,进行识别和属性提取,即基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;最后,基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。本方法通过,将标准化后的开源数据进行标注处理,得到训练集(待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集),通过对模型的训练改善模型,并基于改善后的模型对武器装备进行识别和属性提取,最后构建知识图谱,解决了目前开源军事信息因散乱、质量参差不齐、数据量大等原因造成的对军事开源信息利用率不高、查询费时费力、不方便的问题,并从非结构化文本中挖掘信息,整合相关数据和资源,扩展军事文本数据集,实现了传统的科技/军事情报工作的信息化、智能化,并为科技情报工作者的情报分析工作提供辅助决策能力。
下面结合附图,详细说明本申请的各种非限制性实施方式。
参见图1,示出了本发明实施例中的面向开源情报的武器装备知识图谱构建方法,所述方法包括:
S301:获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集。
具体的,获取军事文本数据,获取方式可以为自动获取方式,具体可通过网络爬虫、计时器、多线程、资源池等技术,从开源获取渠道获取,如从各新闻网站、政府网站中获取开源的军事文本数据。
为更为准确的获取军事文本数据,一实施例中提供一种开源情报获取工作流程,具体参见图3。获取的军事文本数据包括但不限于表格、库表类数据,并对这些数据进行机构化分析;在获取渠道上可以是网站数据、访问历史数据、亿获取数据,或者利用爬虫的方式获取数据,数据获取也可以处于实时获取的状态,并提供实时数据,支持数据订阅、机器自动流程化获取等功能。
基于数据获取,为后面并从中自动识别武器装备及其性能相关信息,从而以此实现构建武器装备知识图谱的功能提供支撑。
举例性的,所涉及的新闻、政府网站可以为60多家,网站举行性的如下表 1所示,但开源获取渠道并不局限于下述网站,只要是处于公开,能访问的网站均可以为本发明所说的获取渠道。开源情报获取为本发明提供军事文本数据支撑,为武器装备知识图谱的数据来源。
表1网站列表示例
Figure RE-GDA0003918923480000101
数据预处理将开源情报中的军事文本初步处理成知识图谱各模型所需的数据形式,为本发明提供数据集。
数据预处理主要包括原数据预处理与训练集标注两部分,原始数据(军事文本数据)预处理实现了对原始情报数据的标准化处理,主要包括数据清洗、分词、分句等操作,对军事文本数据进行预处理,得到标准化的军事文本数据。根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集。
可通过本发明提供的数据标注工具,在标准化的军事文本数据上标注出需要识别实体、实体类别以及实体之间的关系,构建待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集,再结合维基百科、百度百科的搜索结果,构建待训练的武器装备实体链接数据集。
其中实体类别主要包括:武器装备、组织机构、人物、国家等。
实体关系(属性)主要包括:编号、装备别称、北约代号、舷号、使用国家、所属国家、前型、改型、宽度、高度、直径、吃水、翼展、重量、生产时间、研制时间、服役时间、研制者、研制单位、生产单位、速度、装载、编制人数、载员、射程、衍生型、枪口初速、最大飞行速度、最大航程、有效载荷、作战半径、首飞时间、发射模式、续航力、锅炉、燃料、类型、排水量、满载排水量、潜航排水量、潜航深度、命中精度、制导系统、长宽比、载弹量、自持力、水线宽、经济航速、战斗部重量、作用距离、巡航高度、弹径等多条关系。实体链接数据集中,每条数据包括多条候选实体以及该条的真实结果,多条候选实体可以指20条、30条等。
可选的,对军事文本数据进行数据扩展,由于开源情报相关数据中,含有可用信息的军事文本数据比较有限,且现阶段没有成熟的数据量较大的数据集,因此如何和对数据集进行扩展,从而提升模型的准确率一直是一个待解决的问题。而本发明的数据扩展为本发明提供了更加充足的数据量。
本发明采用同词性不同意义词替换的方式来扩展数据集。即通过先标注一部分真实的军事文本数据,然后将文本中的实体替换成已知的该类型的其他实体。例如:句子“B型大型反潜护卫艇是在某国转让的部分A型艇的图纸基础上,由K研究所设计。”中,包含“某”国家实体,以及“B型大型反潜护卫艇”武器装备实体,我们可通过将“某国”替换成“某某国”,将“B型大型反潜护卫艇”替换成“C舰”,以此构建一条新的数据。虽然该数据在句子表达的意义没有真实性,但可以通过句子的结构以及上下文语义方面为模型参数的训练提供帮助。
S302:将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型。
具体的,本发明采用了Bert-BiLSTM-CRF模型来识别军事文本中的武器装备以及武器装备相关信息。通过Bert预训练语言模型获得输入的所述标准化的军事文本数据的语义表示数据集,通过CRF层输出概率最大的实体标签序列,基于所述实体标签序列确定武器装备实体数据集;基于所述关系抽取模型对所述标准化的军事文本数据进行武器装备属性提取操作,得到武器装备属性数据集。武器装备相关实体包括:日期(DATE)、国家(COUNTRY)、人物(PER)、武器装备(WEAPON)、组织机构(ORG)等。
表2武器装备实体识别数据示例
Figure RE-GDA0003918923480000111
Figure RE-GDA0003918923480000121
本发明的数据集中,武器装备与相关属性信息可以以三元组的形式来进行展示,示例数据参见图4。该关系抽取模型的输入为一句军事情报文本,输出该句子包含的所有关系三元组。三元组是[“s”,“p”,“o”]的形式,其中s代表subject,即关系主体,o代表object,即关系的属性或目标实体,p代表predicate,即两个实体之间的关系类型。在进行关系抽取时,会事先约定好所有的predicate。
为训练关系抽取模型,需对真实数据进行标注,可选的,真实数据的标引量可以为2w条的已标注的数据,属性抽取的准确与否与这些已标注的数据的质量相关。关系抽取采用Bert-CNN-Attention模型,先识别主体s,然后传入s来同时识别属性o和关系类型p。将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型的步骤中,具体的,通过Bert Embedding将所述待训练的武器装备属性提取数据集转换成属性向量序列,将所述属性向量序列输入DGCNN中进行编码,得到编码后的属性向量序列。
将所述码后的向量序列输入Self-Attention后,将输出结果与先验特征进行拼接,得到拼接后的属性向量序列,将所述拼接后的属性向量序列输入CNN和Dense层,预测武器装备的首、尾位置,得到中间关系抽取模型。根据所述中间关系抽取模型输入任一所述武器装备进行训练得到所述训练后的关系抽取模型。
具体的,采样任一所述武器装备,将编码后的属性向量序列对应所述任一所述武器装备的子属性向量序列输入至LSTM中,得到所述任一所述武器装备的属性编码向量序列;将编码后的属性向量序列输入另一层Self-Attention中,将输出结果与所述任一所述武器装备的属性编码向量序列进行拼接,得到目标属性向量序列;将所述目标属性向量序列输入CNN和Dense,预测所述所述武器装备的首、尾位置,从而得到训练后的关系抽取模型。对于每一种关系类型 (p),都构建一个“半指针-半标注”结构来预测对应的o的首、尾位置,至此o, p都预测完成。
关系抽取模型训练完成后,即可采用该模型进行武器装备属性提取,从而构建武器装备知识图谱。
S303:基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集。
标准化的军事文本数据分别输入已训练好的实体识别模型与所述关系抽取模型,进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集。此时已形成武器装备知识图谱的雏形数据,后面进行实体链接及属性对齐后即为标准化武器装备知识图谱。
S304:基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
实体链接为本发明解决多词一义或者一词多义问题,为新装备发现和属性补全功能提供基础。模型构建过程主要包括候选实体生成、候选实体排序两部分。
候选实体生成:本申请通过结合百度百科和维基百科,将mention(在实体链接任务中我们将探测到的待链接词(或词组)称作mention。)作为百度百科 (维基百科)的输入,爬取搜索结果中的前n条类别为武器装备的数据(初筛删去广告和其他无关项)作为候选实体构建实体链接数据集,其中,n选自任一整数,如n=20或30等。
候选实体排序:本发明通过BERT预训练模型进行特征提取,从而完成候选实体排序。本申请中采用的基于BERT(Bidirectional Encoder Representations fromTransformers)实体链接模型的模型结构参见图5。
具体的,根据所述标准化的军事文本数据基于百度百科和维基百科爬取,得到候选实体链接数据集,所述候选实体链接数据集;
对所述候选实体链接数据集和其对应的实体指称进行拼接处理,得到拼接后的候选实体链接数据集,所述候选实体和所述实体指称之间以分隔符隔开;
将所述拼接后的候选实体链接数据集输入每个BERT预训练模型中,所述拼接后的候选实体链接数据集经过Dropout层进入一个二分类Dense层后,将输出结果拼接后输入Dense层,得到多次拼接后的候选实体链接数据集;
所述多次拼接后的候选实体链接数据集输入Softmax,将得分最高的候选实体数据集作为目标候选实体数据集。
实体属性对齐为本发明提供找到军事文本中的实体属性信息所对应的知识图谱中对应属性的功能,为武器装备属性补全提供支撑。
在属性对齐的过程中,由于实体关系抽取的schema已经确定,因此本发明的实体属性对齐过程如下:
可选的,对抽取到的实体关系通过一些规则进行标准化,例如,日期类标准化为“YYYY年MM月DD日”,将“YYYY年初”标准化为“YYYY年01月01 日”;将“YYYY年1月中旬”标准化为“YYYY年01月15日”等。
可选的,所述面向开源情报的武器装备知识图谱构建方法还包括:基于所述目标候选实体数据集的实体名称在知识图谱数据库中进行查找,并返回第一查询结果;若所述第一查询结果为NIL,说明原知识图谱数据库中没有关于该实体的记录,需要补充作为新记录补充到知识图谱数据库,则目标候选实体数据集及对应的所述目标属性数据集存入知识图谱数据库。
可选的,所述面向开源情报的武器装备知识图谱构建方法还包括:基于目标属性数据集的属性名称在知识图谱数据库中进行查找,并返回第二查询结果,若所述第二查询结果为无,将该属性存入至所述知识图谱对应实体的属性数据库中;否则,将该属性与对应实体的属性进行合并处理,并存入至所述知识图谱对应实体的属性数据库中。最终完成实体属性的补全与更新,实现武器装备知识图谱的自动构建。
本发明的一实施例中,参见图2,详细的绘制出了一种面向开源情报的武器装备知识图谱构建方法的示例流程图,开源情报获取模块通过网络爬虫访问情报网站(网络资源池),得到原始情报文本(军事文本数据),并将原始情报文本存入军事文本情报资源池,随后对原始文本进行预处理、标注处理,得到标注后的待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;通过将训练后的数据输入对应的模型进行训练,得到训练后的实体识别模型、关系抽取模型及实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。本实施例的武器装备实体识别、属性提取、实体链接、属性对齐与前述一致。
相应于上述的一种面向开源情报的武器装备知识图谱构建方法,本发明实施例提供一种面向开源情报的武器装备知识图谱构建系统,所述系统包括:
获取模块,用于:
获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
标注模块,用于:
根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
计算模块,用于:
将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
确定模块,用于:
基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
可选的,所述计算模块还用于:
通过Bert预训练语言模型获得输入的所述标准化的军事文本数据的语义表示数据集,通过CRF层输出概率最大的实体标签序列,基于所述实体标签序列确定武器装备实体数据集;基于所述关系抽取模型对所述标准化的军事文本数据进行武器装备属性提取操作,得到武器装备属性数据集。
进一步的,所述计算模块还用于:
通过Bert Embedding将所述待训练的武器装备属性提取数据集转换成属性向量序列,将所述属性向量序列输入DGCNN中进行编码,得到编码后的属性向量序列;
将所述码后的向量序列输入Self-Attention后,将输出结果与先验特征进行拼接,得到拼接后的属性向量序列,将所述拼接后的属性向量序列输入CNN和 Dense层,预测武器装备的首、尾位置,得到中间关系抽取模型;
根据所述中间关系抽取模型输入任一所述武器装备进行训练得到所述训练后的关系抽取模型。
进一步的,所述计算模块还用于:
采样任一所述武器装备,将编码后的属性向量序列对应所述任一所述武器装备的子属性向量序列输入至LSTM中,得到所述任一所述武器装备的属性编码向量序列;
将编码后的属性向量序列输入另一层Self-Attention中,将输出结果与所述任一所述武器装备的属性编码向量序列进行拼接,得到目标属性向量序列;
将所述目标属性向量序列输入CNN和Dense,预测所述所述武器装备的首、尾位置,从而得到训练后的关系抽取模型。
可选的,所述确定模块,还用于:
根据所述标准化的军事文本数据基于百度百科和维基百科爬取,得到候选实体链接数据集,所述候选实体链接数据集;
对所述候选实体链接数据集和其对应的实体指称进行拼接处理,得到拼接后的候选实体链接数据集,所述候选实体和所述实体指称之间以分隔符隔开;
将所述拼接后的候选实体链接数据集输入每个BERT预训练模型中,所述拼接后的候选实体链接数据集经过Dropout层进入一个二分类Dence层后,将输出结果拼接后输入Dence层,得到多次拼接后的候选实体链接数据集;
所述多次拼接后的候选实体链接数据集输入Softmax,将得分最高的候选实体数据集作为目标候选实体数据集。
可选的,所述确定模块还用于:
基于所述目标候选实体数据集的实体名称在知识图谱数据库中进行查找,并返回第一查询结果;
若所述第一查询结果为NIL,则目标候选实体数据集及对应的所述目标属性数据集存入知识图谱数据库。
可选的,所述确定模块还用于:
基于目标属性数据集的属性名称在知识图谱数据库中进行查找,并返回第二查询结果,若所述第二查询结果为无,将该属性存入至所述知识图谱对应实体的属性数据库中;否则,将该属性与对应实体的属性进行合并处理,并存入至所述知识图谱对应实体的属性数据库中。
相应于上述的一种面向开源情报的武器装备知识图谱构建方法,本发明实施例提供一种面向开源情报的武器装备知识图谱构建装置,所述装置包括:
获取单元601,用于:
获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
标注单元602,用于:
根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
计算单元603,用于:
将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
确定单元604,用于:
基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
相应于上述的一种面向开源情报的武器装备知识图谱构建方法,本发明实施例提供一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行上述任一所述的面向开源情报的武器装备知识图谱构建方法的步骤。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图7示出了本实施例所提供的一种具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040 和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口 1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/ 输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种面向开源情报的武器装备知识图谱构建方法,其特征在于,所述方法包括:
获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;
基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
2.如权利要求1所述的面向开源情报的武器装备知识图谱构建方法,其特征在于,所述基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集的步骤包括:
通过Bert预训练语言模型获得输入的所述标准化的军事文本数据的语义表示数据集,通过CRF层输出概率最大的实体标签序列,基于所述实体标签序列确定武器装备实体数据集;基于所述关系抽取模型对所述标准化的军事文本数据进行武器装备属性提取操作,得到武器装备属性数据集。
3.如权利要求2所述的面向开源情报的武器装备知识图谱构建方法,其特征在于,所述将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型的步骤包括:
通过Bert Embedding将所述待训练的武器装备属性提取数据集转换成属性向量序列,将所述属性向量序列输入DGCNN中进行编码,得到编码后的属性向量序列;
将所述码后的向量序列输入Self-Attention后,将输出结果与先验特征进行拼接,得到拼接后的属性向量序列,将所述拼接后的属性向量序列输入CNN和Dense层,预测武器装备的首、尾位置,得到中间关系抽取模型;
根据所述中间关系抽取模型输入任一所述武器装备进行训练得到所述训练后的关系抽取模型。
4.如权利要求3所述的面向开源情报的武器装备知识图谱构建方法,其特征在于,所述根据所述中间关系抽取模型输入任一所述武器装备进行训练得到所述训练后的关系抽取模型的步骤方包括:
采样任一所述武器装备,将编码后的属性向量序列对应所述任一所述武器装备的子属性向量序列输入至LSTM中,得到所述任一所述武器装备的属性编码向量序列;
将编码后的属性向量序列输入另一层Self-Attention中,将输出结果与所述任一所述武器装备的属性编码向量序列进行拼接,得到目标属性向量序列;
将所述目标属性向量序列输入CNN和Dense,预测所述武器装备的首、尾位置,从而得到训练后的关系抽取模型。
5.如权利要求1所述的面向开源情报的武器装备知识图谱构建方法,其特征在于,所述基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集的步骤包括:
根据所述标准化的军事文本数据基于百度百科和维基百科爬取,得到候选实体链接数据集,所述候选实体链接数据集;
对所述候选实体链接数据集和其对应的实体指称进行拼接处理,得到拼接后的候选实体链接数据集,所述候选实体和所述实体指称之间以分隔符隔开;
将所述拼接后的候选实体链接数据集输入每个BERT预训练模型中,所述拼接后的候选实体链接数据集经过Dropout层进入一个二分类Dence层后,将输出结果拼接后输入Dence层,得到多次拼接后的候选实体链接数据集;
所述多次拼接后的候选实体链接数据集输入Softmax,将得分最高的候选实体数据集作为目标候选实体数据集。
6.如权利要求1所述的面向开源情报的武器装备知识图谱构建方法,其特征在于,所述方法还包括:
基于所述目标候选实体数据集的实体名称在知识图谱数据库中进行查找,并返回第一查询结果;
若所述第一查询结果为NIL,则目标候选实体数据集及对应的所述目标属性数据集存入知识图谱数据库。
7.如权利要求1所述的面向开源情报的武器装备知识图谱构建方法,其特征在于,所述方法还包括:
基于目标属性数据集的属性名称在知识图谱数据库中进行查找,并返回第二查询结果,若所述第二查询结果为无,将该属性存入至所述知识图谱对应实体的属性数据库中;否则,将该属性与对应实体的属性进行合并处理,并存入至所述知识图谱对应实体的属性数据库中。
8.一种面向开源情报的武器装备知识图谱构建系统,其特征在于,所述系统包括:
获取模块,用于获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
标注模块,用于根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
计算模块,用于将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
确定模块,用于基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
9.一种面向开源情报的武器装备知识图谱构建装置,其特征在于,所述装置包括:
获取单元,用于获取军事文本数据,对所述军事文本数据进行预处理,得到标准化的军事文本数据;
标注单元,用于根据所述标准化的军事文本数据确定待训练的军事文本数据,对所述待训练的军事文本数据进行标注处理,分别得到待训练的武器装备实体识别数据集、待训练的武器装备属性提取数据集及待训练的武器装备实体链接数据集;
计算单元,用于将所述待训练武器装备实体识别数据集输入至对应的模型进行训练处理,得到训练后的实体识别模型;将所述待训练的武器装备属性提取数据集输入至对应的模型进行训练处理,得到训练后的关系抽取模型;将所述待训练的武器装备实体链接数据集输入至对应的模型进行训练处理,得到训练后的实体链接模型;基于所述实体识别模型与所述关系抽取模型对所述标准化的军事文本数据分别进行武器装备识别及武器装备属性提取操作,得到武器装备实体数据集及对应的武器装备属性数据集;
确定单元,用于基于实体链接模型,将所述武器装备实体数据集与武器装备知识图谱中已有的实体进行实体链接,得到目标候选实体数据集,根据所述目标候选实体数据集及所述武器装备属性数据集确定武器装备的目标属性数据集,将所述目标属性数据集存入数据库,得到武器装备知识图谱。
10.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1至7中任一项所述的面向开源情报的武器装备知识图谱构建方法的步骤。
CN202210790201.0A 2022-07-06 2022-07-06 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质 Pending CN115408532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210790201.0A CN115408532A (zh) 2022-07-06 2022-07-06 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210790201.0A CN115408532A (zh) 2022-07-06 2022-07-06 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115408532A true CN115408532A (zh) 2022-11-29

Family

ID=84158244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210790201.0A Pending CN115408532A (zh) 2022-07-06 2022-07-06 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115408532A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795056A (zh) * 2023-01-04 2023-03-14 中国电子科技集团公司第十五研究所 非结构化信息构建知识图谱的方法、服务器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795056A (zh) * 2023-01-04 2023-03-14 中国电子科技集团公司第十五研究所 非结构化信息构建知识图谱的方法、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
US11520812B2 (en) Method, apparatus, device and medium for determining text relevance
US11062095B1 (en) Language translation of text input using an embedded set for images and for multilanguage text strings
US20220004714A1 (en) Event extraction method and apparatus, and storage medium
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
WO2021093308A1 (zh) 提取poi名称的方法、装置、设备和计算机存储介质
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN112749265B (zh) 一种基于多信息源的智能问答系统
CN106708929B (zh) 视频节目的搜索方法和装置
WO2014179634A2 (en) Hand-drawn sketch recognition
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN105868177A (zh) 一种通用公式搜索方法
EP4075303A1 (en) Method and apparatus for obtaining poi state information
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN111930793A (zh) 目标行为挖掘与检索分析方法、系统、计算机设备及应用
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN112163097A (zh) 一种军事知识图谱构建方法及系统
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN115905553A (zh) 面向施工图审查规范知识抽取与知识图谱构建方法及系统
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
CN115408532A (zh) 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination