CN115099504A - 基于知识图谱补全模型的文物安防风险要素识别方法 - Google Patents

基于知识图谱补全模型的文物安防风险要素识别方法 Download PDF

Info

Publication number
CN115099504A
CN115099504A CN202210756876.3A CN202210756876A CN115099504A CN 115099504 A CN115099504 A CN 115099504A CN 202210756876 A CN202210756876 A CN 202210756876A CN 115099504 A CN115099504 A CN 115099504A
Authority
CN
China
Prior art keywords
cultural relic
vector
cultural
security risk
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210756876.3A
Other languages
English (en)
Inventor
江小平
王雅琦
王奎
卢治勇
李成华
石鸿凌
丁昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Technology Group Corp Chongqing Acoustic Optic Electronic Co ltd
South Central Minzu University
Original Assignee
China Electronics Technology Group Corp Chongqing Acoustic Optic Electronic Co ltd
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Technology Group Corp Chongqing Acoustic Optic Electronic Co ltd, South Central University for Nationalities filed Critical China Electronics Technology Group Corp Chongqing Acoustic Optic Electronic Co ltd
Priority to CN202210756876.3A priority Critical patent/CN115099504A/zh
Publication of CN115099504A publication Critical patent/CN115099504A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱补全模型的文物安防风险要素识别方法,包括:获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l,基于得到的该文物的嵌入向量表示l获取链接预测的结果,将链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。本发明能够解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的技术问题。

Description

基于知识图谱补全模型的文物安防风险要素识别方法
技术领域
本发明属于属于文物安防风险评估领域,更具体地,涉及一种基于知识图谱补全模型的文物安防风险要素识别方法。
背景技术
我国不可移动文物资源总量大、地域广、分布散,价值丰富,因此为了维护文物本体及其环境的真实性和完整性,对文物的安全防范系统进行风险评估至关重要,风险评估的结果将指导我们对该文物的安防系统进行优化,以避免其受到入侵对象的损坏。根据标准《GBT 27921风险管理-风险评估技术》,风险识别是发现、列举和描述风险要素的过程,是风险评估的基础工作。而在文物安防领域,确定文物的风险要素,并用指标项来描述,进而建立指标体系,才能为之后的风险分析和风险评估做好基础工作。因此构建适用于文物的风险评估指标体系尤为重要。
对文物进行风险要素识别,构建文物安防风险评估指标体系,需要文物安防专家在对文物的风险源和风险因素进行识别和分析后,建立层次化的递阶式的指标体系。
然而,现有的文物安防风险要素识别方法均具有一些不可忽略的缺陷:第一,由于文物种类多地域分布广,现有的文物安防风险要素识别和构造风险评估指标体系的过程往往需要耗费不少的人力、物力,需要邀请文物专家对文物单位进行非常详细的了解,极大地增加了专家的工作量;第二,现有的指标体系针对差异较大的不同的文物种类时,重合度较高且不够全面,这是因为专家在对新的文物单位进行评估时,往往只考虑当前的文物单位,而之前已有的典型的文物安防风险评估指标体系的相关资源和知识无法充分利用,这会使得新构建的指标体系不全面、不精确,从而使得风险要素识别的结果不精确,从而影响之后的风险评估结果。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,其目的在于,解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的技术问题,以及由于无法充分利用之前已有的文物安防风险评估指标体系的相关资源和知识,使得新构建的指标体系不全面、不精确,从而使得风险要素识别的结果不精确,从而影响之后的风险评估结果的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,包括以下步骤:
(1)获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n],n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
(2)将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
(3)基于步骤(2)得到的该文物的嵌入向量表示l获取链接预测的结果。
(4)将步骤(3)得到的链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
优选地,步骤(1)中的文本描述是从与该文物相关的各种资料获取,该文物的文本描述对应的相关特征包括文物的种类、朝代、以及地理位置等。
优选地,知识图谱补全模型是通过以下步骤构建的:
(2-1)获取多个文物的安防风险评估指标体系,每一个安防风险评估指标体系中均包括文物及其对应的多个指标项;
(2-2)根据步骤(2-1)得到的每个安防风险评估指标体系确定对应的头实体、关系和尾实体,并根据这些头实体、关系和尾实体生成该安防风险评估指标体系对应的多个三元组{(hi1,ti1,ri1),(hi2,ti2,ri2),...,(hin, tin,rin)},其中i∈[1,安防风险评估指标体系总数],n表示第i个安防风险评估指标体系对应的三元组总数,him表示第i个安防风险评估指标体系对应的第m个三元组中的头实体,tim表示第i个安防风险评估指标体系对应的第m个三元中组的尾实体,rim表示第i个安防风险评估指标体系对应的第m个三元组中的关系,m∈[1,n];
(2-3)将步骤(2-2)得到的所有文物的所有安防风险评估指标体系对应的所有三元组中的所有头实体和尾实体组合成实体集E,将所有文物的所有安防风险评估指标体系对应的所有三元组中的所有关系组合成关系集R,将所有文物的所有安防风险评估指标体系对应的所有三元组组合成三元组集T,将实体集E、关系集R和三元组集T组合成第一数据集,将所有文物的文本描述构成的文本描述矩阵作为第二数据集;
(2-4)将步骤(2-3)构建的第一数据集划分为第一训练集、第一验证集和第一测试集;
(2-5)将步骤(2-4)得到的第一训练集输入基于翻译的TransH模型,以得到该第一训练集中实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵;
(2-6)将步骤(2-3)构建的第二数据集划分为第二训练集、第二验证集和第二测试集;
(2-7)将步骤(2-6)中的第二训练集输入自然语言处理模型Word2Vec 中,以得到与第二训练集中每个文物的文本描述对应的、该文物的每个特征i对应的嵌入向量vwi,第二训练集中每个文物的所有特征对应的所有嵌入向量构成该文物对应的嵌入矩阵Vw=(vw1,vw2,...,vwn),其中i∈[1,n], n表示与第二训练集中每个文物的文本描述对应的、该文物的所有特征的总数;
(2-8)针对步骤(2-7)获得的每个文物对应的嵌入矩阵而言,对该嵌入矩阵做平均,以获得该文物对应的单个代表嵌入向量v;
(2-9)将步骤(2-5)获得的实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵、以及步骤(2-8)获得的每个文物对应的单个代表嵌入向量 Vh输入转换函数Ψmap中,并使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap,使得其损失值最小,从而得到每个文物在同一个向量空间的嵌入向量表示,并得到训练好的知识图谱补全模型。
优选地,步骤(2-1)中的文物的安防风险评估指标体系是从已经被专家做过风险评估的文物单位的风险评估报告中获取的;
每个安防风险评估指标体系中仅包括一个文物、以及该文物对应的多个指标项;
安防风险评估指标体系对应的头实体就是该安防风险评估指标体系中的文物,尾实体就是该文物对应的多个指标项,关系就是该文物与每个指标项之间的包含关系;
优选地,转换函数Ψmap用于将每一个文物的单个代表嵌入向量Vh从基于文本的嵌入空间转换到实体集E和关系集R的向量嵌入所在的嵌入空间;
步骤(2-9)是使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap;
转换函数Ψmap的损失函数为:
Figure BDA0003719811410000041
其中·表示转换函数Ψmap的参数,J表示第二训练集中的文本描述的总数,vk表示第二数据集中第k个文本描述对应的文物所对应的单个代表嵌入向量。
优选地,步骤(3)包括以下子步骤:
(3-1)设置计数器cnt=1;
(3-2)判断计数器cnt是否等于第一训练集中实体集E中的向量总数,如果是则过程结束,否则转入步骤(3-3);
(3-3)计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D;
(3-4)判断步骤(3-1)计算所得的L2范数距离D是否小于等于预设阈值,如果是则进入步骤(3-5),否则过程结束;
(3-5)将该L2范数距离D所对应的实体集E中的第cnt个实体作为链接预测的结果;
(3-6)设置计数器cnt=cnt+1,并返回步骤(3-2)。
优选地,步骤(3-3)中计算L2范数距离D的过程具体为:
首先,对于步骤(2-5)中得到的第一训练集中关系集R的向量嵌入矩阵中每一个关系的向量嵌入r,都引入一个超平面W来表示该关系,具体的,每一个超平面W都由其平面的单位法向量wr以及平面上的平移向量dr来表示;
然后,对于步骤(2-5)中得到的第一训练集中实体集E中第cnt个向量的向量嵌入e,利用投影公式将向量嵌入e投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该向量嵌入e在该超平面上的投影向量e,投影公式为:
Figure BDA0003719811410000051
其中,
Figure BDA0003719811410000052
表示单位法向量wr的转置矩阵;
接着,对于步骤(2)得到的文物的嵌入向量表示l,利用投影公式将嵌入向量表示l投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该文物的嵌入向量表示l在该超平面上的投影向量l,投影公式为:
Figure BDA0003719811410000061
最后,根据以上得到的向量嵌入e在该超平面上的投影向量e、以及文物的嵌入向量表示l在该超平面上的投影向量l,并利用L2范数距离公式计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D,具体的计算公式为:
Figure BDA0003719811410000062
按照本发明的另一方面,提供了一种基于知识图谱补全模型的文物安防风险要素识别系统,包括:
第一模块,用于获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中 pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n], n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
第二模块,用于将第一模块得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
第三模块,用于基于第二模块得到的该文物的嵌入向量表示l获取链接预测的结果。
第四模块,用于将第三模块得到的链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、由于本发明采用了步骤(1)到步骤(4),其只需要对应于某文物的相关特征的一些文本描述,就可以通过知识图谱补全模型预测出其安防风险评估的指标项,完成安防风险要素识别。因此,能够解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的问题。
2、由于本发明采用了步骤(2),其可以通过自己构建的知识图谱中的头实体、尾实体和关系,充分利用之前已有的文物安防风险评估指标体系的相关资源和知识。因此,能够解决针对不同种类的文物时,指标体系重合度较高且不够全面的问题。
3、由于本发明采用了步骤(1)步骤(2)和步骤(3),其学习了一种转换,将向量从基于本文的嵌入空间映射到基于图的嵌入空间,因此即使出现了不在已构建的知识图谱中的新实体,也可以实现链接预测任务,是动态知识图谱补全在该领域的创新性引入。
附图说明
图1是本发明基于知识图谱补全模型的文物安防风险要素识别方法的步骤示意图;
图2是本发明中使用的知识图谱补全模型的训练过程示意图;
图3是本发明中文物的安防风险评估指标体系的示意图;
图4是本发明使用的Word2vec模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
针对现有文物安防风险要素识别的方法的不足或改进需求,本发明提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,其不仅能够通过知识图谱充分利用之前已有的文物安防风险评估指标体系的相关资源和知识,而且只需要新的文物单位的一些文本描述,就可以通过知识图谱补全模型预测出其风险评估指标体系,完成风险要素识别。
如图1所示,本发明提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,包括以下步骤:
(1)获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n],n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
具体而言,本步骤中的文本描述是从与该文物相关的各种资料(包括但不限于该文物的现场勘察报告、百度资料等)获取,该文物的文本描述对应的相关特征包括但不限于文物的种类、朝代、地理位置等。
(2)将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
如图2所示,本发明的知识图谱补全模型是通过以下步骤构建的:
(2-1)获取多个文物的安防风险评估指标体系,每一个安防风险评估指标体系中均包括文物及其对应的多个指标项;
具体而言,本步骤中文物的安防风险评估指标体系,是从已经被专家做过风险评估的文物单位的风险评估报告中获取的。
每个安防风险评估指标体系中仅包括一个文物、以及该文物对应的多个指标项,指标项是例如文物本体价值、植被覆盖程度、摄像头覆盖率、安保人员的巡逻时间等;
具体的,某文物的安防风险评估指标体系如图3,磨盘山表示该文物的名称为磨盘山,本体价值、环境、安防和人员为二级指标项,年代、封土堆、植被覆盖程度、土壤土质、摄像头清晰度、摄像头覆盖率、安保人员巡查时间和游客破坏属于三级指标,也是最后一级指标项,本发明只考虑每一个文物的安防风险评估指标体系的文物名称和其对应的最后一级的所有指标项;
(2-2)根据步骤(2-1)得到的每个安防风险评估指标体系确定对应的头实体、关系和尾实体,并根据这些头实体、关系和尾实体生成该安防风险评估指标体系对应的多个三元组{(hi1,ti1,ri1),(hi2,ti2,ri2),...,(hin, tin,rin)},其中i∈[1,安防风险评估指标体系总数],n表示第i个安防风险评估指标体系对应的三元组总数,him表示第i个安防风险评估指标体系对应的第m个三元组中的头实体,tim表示第i个安防风险评估指标体系对应的第m个三元中组的尾实体,rim表示第i个安防风险评估指标体系对应的第m个三元组中的关系,m∈[1,n];
具体而言,安防风险评估指标体系对应的头实体就是该安防风险评估指标体系中的文物,尾实体就是该文物对应的多个指标项,关系就是该文物与每个指标项之间的包含关系;
(2-3)将步骤(2-2)得到的所有文物的所有安防风险评估指标体系对应的所有三元组中的所有头实体和尾实体组合成实体集E,将所有文物的所有安防风险评估指标体系对应的所有三元组中的所有关系组合成关系集R,将所有文物的所有安防风险评估指标体系对应的所有三元组组合成三元组集T,将实体集E、关系集R和三元组集T组合成第一数据集,将所有文物的文本描述构成的文本描述矩阵作为第二数据集;
具体而言,本步骤中文物的文本描述和步骤(1)中的完全相同,在此不再赘述。
(2-4)将步骤(2-3)构建的第一数据集划分为第一训练集、第一验证集和第一测试集;
在本步骤中,划分第一数据集的比例为:训练集80%、验证集10%、测试集10%。
(2-5)将步骤(2-4)得到的第一训练集输入基于翻译的TransH模型,以得到该第一训练集中实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵;
具体的,本步骤中基于翻译的TransH模型的训练过程可见论文《Knowledge GraphEmbedding by Translating on Hyperplanes》;
(2-6)将步骤(2-3)构建的第二数据集划分为第二训练集、第二验证集和第二测试集;
在本步骤中,划分第二数据集的比例为:训练集80%、验证集10%、测试集10%。
(2-7)将步骤(2-6)中的第二训练集输入自然语言处理模型Word2Vec 中,以得到与第二训练集中每个文物的文本描述对应的、该文物的每个特征i对应的嵌入向量vwi,第二训练集中每个文物的所有特征对应的所有嵌入向量构成该文物对应的嵌入矩阵Vw=(vw1,vw2,...,vwn),其中i∈[1,n], n表示与第二训练集中每个文物的文本描述对应的、该文物的所有特征的总数;
具体的,本步骤中的Word2Vec模型是利用了神经网络的词向量嵌入模型,其是只有一个隐层的全连接神经网络,其具体网络结构图如图4所示,其训练过程可见论文《Efficient Estimation ofWord Representations in Vector Space》;
(2-8)针对步骤(2-7)获得的每个文物对应的嵌入矩阵而言,对该嵌入矩阵做平均,以获得该文物对应的单个代表嵌入向量v;
具体而言,本步骤中对嵌入矩阵做平均是做行平均处理;
(2-9)将步骤(2-5)获得的实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵、以及步骤(2-8)获得的每个文物对应的单个代表嵌入向量 Vh输入转换函数Ψmap中,并使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap,使得其损失值最小,从而得到每个文物在同一个向量空间的嵌入向量表示,并得到训练好的知识图谱补全模型;
本步骤中的转换函数Ψmap用于将每一个文物的单个代表嵌入向量Vh从基于文本的嵌入空间转换到实体集E和关系集R的向量嵌入所在的嵌入空间,本发明使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap。
具体地,转换函数Ψmap的损失函数为:
Figure BDA0003719811410000111
其中·表示转换函数Ψmap的参数,J表示第二训练集中的文本描述的总数, vk表示第二数据集中第k个文本描述对应的文物所对应的单个代表嵌入向量。
本步骤的优点在于,第一:可以通过自己构建的知识图谱中的头实体、尾实体和关系,充分利用之前已有的文物安防风险评估指标体系的相关资源和知识,可以解决针对不同种类的文物时,指标体系重合度较高且不够全面的问题。第二:学习了一种转换,可以将向量从基于本文的嵌入空间映射到基于图的嵌入空间,方便向量之间的计算。
(3)基于步骤(2)得到的该文物的嵌入向量表示l获得链接预测的结果;
具体而言,链接预测子步骤如下:
(3-1)设置计数器cnt=1;
(3-2)判断计数器cnt是否等于第一训练集中实体集E中的向量总数,如果是则过程结束,否则转入步骤(3-3);
(3-3)计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D;
具体而言,本步骤计算L2范数距离D的过程具体为:
首先,对于步骤(2-5)中得到的第一训练集中关系集R的向量嵌入矩阵中每一个关系的向量嵌入r,都引入一个超平面W来表示该关系,具体的,每一个超平面W都由其平面的单位法向量wr以及平面上的平移向量dr来表示;
然后,对于步骤(2-5)中得到的第一训练集中实体集E中第cnt个向量的向量嵌入e,利用投影公式将向量嵌入e投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该向量嵌入e在该超平面上的投影向量e,投影公式为:
Figure BDA0003719811410000121
其中,
Figure BDA0003719811410000122
表示单位法向量wr的转置矩阵;
接着,对于步骤(2)得到的文物的嵌入向量表示l,利用投影公式将嵌入向量表示l投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该文物的嵌入向量表示l在该超平面上的投影向量l,投影公式为:
Figure BDA0003719811410000123
最后,根据以上得到的向量嵌入e在该超平面上的投影向量e、以及文物的嵌入向量表示l在该超平面上的投影向量l,并利用L2范数距离公式计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D,具体的计算公式为:
Figure BDA0003719811410000124
(3-4)判断步骤(3-1)计算所得的L2范数距离D是否小于等于预设阈值,如果是则进入步骤(3-5),否则过程结束;
具体的,预设阈值范围为0到0.3之间,优选0.2。
(3-5)将该L2范数距离D所对应的实体集E中的第cnt个实体作为链接预测的结果;
(3-6)设置计数器cnt=cnt+1,并返回步骤(3-2)。
上述步骤(1)到步骤(3)的优点在于,训练好的知识图谱补全模型使得即使出现了不在已构建的知识图谱中的新实体,也可以实现链接预测任务,是动态知识图谱补全在该领域的创新性引入。
(4)将步骤(3)中链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
上述步骤(1)到步骤(4)的优点在于,只需要对应于某文物的相关特征的一些文本描述,就可以通过知识图谱补全模型预测出其安防风险评估的指标项,完成安防风险要素识别,能够解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的问题。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,包括以下步骤:
(1)获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n],n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
(2)将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
(3)基于步骤(2)得到的该文物的嵌入向量表示l获取链接预测的结果。
(4)将步骤(3)得到的链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
2.根据权利要求1所述的基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,
步骤(1)中的文本描述是从与该文物相关的各种资料获取,该文物的文本描述对应的相关特征包括文物的种类、朝代、以及地理位置等。
3.根据权利要求1或2所述的基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,知识图谱补全模型是通过以下步骤构建的:
(2-1)获取多个文物的安防风险评估指标体系,每一个安防风险评估指标体系中均包括文物及其对应的多个指标项;
(2-2)根据步骤(2-1)得到的每个安防风险评估指标体系确定对应的头实体、关系和尾实体,并根据这些头实体、关系和尾实体生成该安防风险评估指标体系对应的多个三元组{(hi1,ti1,ri1),(hi2,ti2,ri2),...,(hin,tin,rin)},其中i∈[1,安防风险评估指标体系总数],n表示第i个安防风险评估指标体系对应的三元组总数,him表示第i个安防风险评估指标体系对应的第m个三元组中的头实体,tim表示第i个安防风险评估指标体系对应的第m个三元中组的尾实体,rim表示第i个安防风险评估指标体系对应的第m个三元组中的关系,m∈[1,n];
(2-3)将步骤(2-2)得到的所有文物的所有安防风险评估指标体系对应的所有三元组中的所有头实体和尾实体组合成实体集E,将所有文物的所有安防风险评估指标体系对应的所有三元组中的所有关系组合成关系集R,将所有文物的所有安防风险评估指标体系对应的所有三元组组合成三元组集T,将实体集E、关系集R和三元组集T组合成第一数据集,将所有文物的文本描述构成的文本描述矩阵作为第二数据集;
(2-4)将步骤(2-3)构建的第一数据集划分为第一训练集、第一验证集和第一测试集;
(2-5)将步骤(2-4)得到的第一训练集输入基于翻译的TransH模型,以得到该第一训练集中实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵;
(2-6)将步骤(2-3)构建的第二数据集划分为第二训练集、第二验证集和第二测试集;
(2-7)将步骤(2-6)中的第二训练集输入自然语言处理模型Word2Vec中,以得到与第二训练集中每个文物的文本描述对应的、该文物的每个特征i对应的嵌入向量vwi,第二训练集中每个文物的所有特征对应的所有嵌入向量构成该文物对应的嵌入矩阵Vw=(vw1,vw2,...,vwn),其中i∈[1,n],n表示与第二训练集中每个文物的文本描述对应的、该文物的所有特征的总数;
(2-8)针对步骤(2-7)获得的每个文物对应的嵌入矩阵而言,对该嵌入矩阵做平均,以获得该文物对应的单个代表嵌入向量v;
(2-9)将步骤(2-5)获得的实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵、以及步骤(2-8)获得的每个文物对应的单个代表嵌入向量Vh输入转换函数Ψmap中,并使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap,使得其损失值最小,从而得到每个文物在同一个向量空间的嵌入向量表示,并得到训练好的知识图谱补全模型。
4.根据权利要求1至3中任意一项所述的基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,
步骤(2-1)中的文物的安防风险评估指标体系是从已经被专家做过风险评估的文物单位的风险评估报告中获取的;
每个安防风险评估指标体系中仅包括一个文物、以及该文物对应的多个指标项;
安防风险评估指标体系对应的头实体就是该安防风险评估指标体系中的文物,尾实体就是该文物对应的多个指标项,关系就是该文物与每个指标项之间的包含关系。
5.根据权利要求1所述的基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,
转换函数Ψmap用于将每一个文物的单个代表嵌入向量Vh从基于文本的嵌入空间转换到实体集E和关系集R的向量嵌入所在的嵌入空间;
步骤(2-9)是使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap;
转换函数Ψmap的损失函数为:
Figure FDA0003719811400000031
其中·表示转换函数Ψmap的参数,J表示第二训练集中的文本描述的总数,vk表示第二数据集中第k个文本描述对应的文物所对应的单个代表嵌入向量。
6.根据权利要求5所述的基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,步骤(3)包括以下子步骤:
(3-1)设置计数器cnt=1;
(3-2)判断计数器cnt是否等于第一训练集中实体集E中的向量总数,如果是则过程结束,否则转入步骤(3-3);
(3-3)计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D;
(3-4)判断步骤(3-1)计算所得的L2范数距离D是否小于等于预设阈值,如果是则进入步骤(3-5),否则过程结束;
(3-5)将该L2范数距离D所对应的实体集E中的第cnt个实体作为链接预测的结果;
(3-6)设置计数器cnt=cnt+1,并返回步骤(3-2)。
7.根据权利要求6所述的基于知识图谱补全模型的文物安防风险要素识别方法,其特征在于,步骤(3-3)中计算L2范数距离D的过程具体为:
首先,对于步骤(2-5)中得到的第一训练集中关系集R的向量嵌入矩阵中每一个关系的向量嵌入r,都引入一个超平面W来表示该关系,具体的,每一个超平面W都由其平面的单位法向量wr以及平面上的平移向量dr来表示;
然后,对于步骤(2-5)中得到的第一训练集中实体集E中第cnt个向量的向量嵌入e,利用投影公式将向量嵌入e投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该向量嵌入e在该超平面上的投影向量e,投影公式为:
Figure FDA0003719811400000041
其中,
Figure FDA0003719811400000042
表示单位法向量wr的转置矩阵;
接着,对于步骤(2)得到的文物的嵌入向量表示l,利用投影公式将嵌入向量表示l投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该文物的嵌入向量表示l在该超平面上的投影向量l,投影公式为:
Figure FDA0003719811400000051
最后,根据以上得到的向量嵌入e在该超平面上的投影向量e、以及文物的嵌入向量表示l在该超平面上的投影向量l,并利用L2范数距离公式计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D,具体的计算公式为:
Figure FDA0003719811400000052
8.一种基于知识图谱补全模型的文物安防风险要素识别系统,其特征在于,包括:
第一模块,用于获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n],n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
第二模块,用于将第一模块得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
第三模块,用于基于第二模块得到的该文物的嵌入向量表示l获取链接预测的结果。
第四模块,用于将第三模块得到的链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
CN202210756876.3A 2022-06-29 2022-06-29 基于知识图谱补全模型的文物安防风险要素识别方法 Pending CN115099504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210756876.3A CN115099504A (zh) 2022-06-29 2022-06-29 基于知识图谱补全模型的文物安防风险要素识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210756876.3A CN115099504A (zh) 2022-06-29 2022-06-29 基于知识图谱补全模型的文物安防风险要素识别方法

Publications (1)

Publication Number Publication Date
CN115099504A true CN115099504A (zh) 2022-09-23

Family

ID=83294843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210756876.3A Pending CN115099504A (zh) 2022-06-29 2022-06-29 基于知识图谱补全模型的文物安防风险要素识别方法

Country Status (1)

Country Link
CN (1) CN115099504A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432953A (zh) * 2023-03-24 2023-07-14 武汉旗云高科工程技术有限公司 基于泛化生成模式的文物保护应急响应决策方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299284A (zh) * 2018-08-31 2019-02-01 中国地质大学(武汉) 一种基于结构信息与文本描述的知识图谱表示学习方法
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN110378489A (zh) * 2019-07-30 2019-10-25 哈尔滨工程大学 基于实体超平面投影的知识表示学习模型
CN111753101A (zh) * 2020-06-30 2020-10-09 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
CN113642826A (zh) * 2021-06-02 2021-11-12 中国海洋大学 一种供应商违约风险预测方法
CN114005507A (zh) * 2021-09-23 2022-02-01 厦门大学 一种基于知识图谱的临床用药风险评估方法和系统
CN114003734A (zh) * 2021-11-22 2022-02-01 四川大学华西医院 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN109299284A (zh) * 2018-08-31 2019-02-01 中国地质大学(武汉) 一种基于结构信息与文本描述的知识图谱表示学习方法
CN110378489A (zh) * 2019-07-30 2019-10-25 哈尔滨工程大学 基于实体超平面投影的知识表示学习模型
CN111753101A (zh) * 2020-06-30 2020-10-09 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法
CN113642826A (zh) * 2021-06-02 2021-11-12 中国海洋大学 一种供应商违约风险预测方法
CN114005507A (zh) * 2021-09-23 2022-02-01 厦门大学 一种基于知识图谱的临床用药风险评估方法和系统
CN114003734A (zh) * 2021-11-22 2022-02-01 四川大学华西医院 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜文倩等: "融合实体描述及类型的知识图谱表示学习方法", 中文信息学报, vol. 34, no. 7, 31 July 2020 (2020-07-31), pages 50 - 59 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432953A (zh) * 2023-03-24 2023-07-14 武汉旗云高科工程技术有限公司 基于泛化生成模式的文物保护应急响应决策方法和系统
CN116432953B (zh) * 2023-03-24 2023-09-15 武汉旗云高科工程技术有限公司 基于泛化生成模式的文物保护应急响应决策方法和系统

Similar Documents

Publication Publication Date Title
Feng et al. Modeling urban growth with GIS based cellular automata and least squares SVM rules: a case study in Qingpu–Songjiang area of Shanghai, China
CN110634080B (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
CN106572493A (zh) Lte网络中的异常值检测方法及系统
CN112054943B (zh) 一种移动网络基站流量预测方法
CN114021168B (zh) 基于联邦学习的地铁基坑开挖风险识别方法及装置
CN104732279A (zh) 基于地理信息系统的改进元胞自动机交通流模拟分析方法
CN111797188B (zh) 一种基于开源地理空间矢量数据的城市功能区定量识别方法
CN114283285A (zh) 交叉一致性自训练遥感图像语义分割网络训练方法及装置
CN110909881A (zh) 一种面向跨媒体知识推理任务的知识表示方法
CN115099504A (zh) 基于知识图谱补全模型的文物安防风险要素识别方法
CN114372693B (zh) 一种基于云模型和改进ds证据理论的变压器故障诊断方法
CN111951104A (zh) 一种基于关联图谱的风险传导预警方法
CN106097094A (zh) 一种面向中小企业的人机结合信贷评估新模型
CN110544047A (zh) 一种不良数据辨识方法
CN114022058A (zh) 基于时序知识图谱的中小企业失信风险预测方法
US20240060605A1 (en) Method, internet of things (iot) system, and storage medium for smart gas abnormal data analysis
CN109636194B (zh) 一种输变电项目重大变动多源协同检测方法与系统
CN116896452A (zh) 基于数据处理的计算机网络信息安全管理方法
CN115308705A (zh) 一种基于生成对抗网络的多姿态极窄脉冲回波生成方法
Liang et al. A statistical analysis model of big data for precise poverty alleviation based on multisource data fusion
CN114154617A (zh) 一种基于vfl的低压居民用户异常用电识别方法及系统
CN115065556B (zh) 一种基于图对比学习的日志恶意行为检测方法及系统
Danlin et al. China's place attractivity, population mobility and its mechanisms: Perspectives from a full spectrum of spatial analyses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 430074 no.708, 823, Minzu Avenue, Hongshan District, Wuhan City, Hubei Province

Applicant after: SOUTH CENTRAL University FOR NATIONALITIES

Applicant after: CETC Chip Technology (Group) Co.,Ltd.

Address before: 430074 no.708, 823, Minzu Avenue, Hongshan District, Wuhan City, Hubei Province

Applicant before: SOUTH CENTRAL University FOR NATIONALITIES

Country or region before: China

Applicant before: CHINA ELECTRONICS TECHNOLOGY GROUP CORPORATION CHONGQING ACOUSTIC-OPTIC-ELECTRONIC CO.,LTD.