基于知识图谱补全模型的文物安防风险要素识别方法
技术领域
本发明属于属于文物安防风险评估领域,更具体地,涉及一种基于知识图谱补全模型的文物安防风险要素识别方法。
背景技术
我国不可移动文物资源总量大、地域广、分布散,价值丰富,因此为了维护文物本体及其环境的真实性和完整性,对文物的安全防范系统进行风险评估至关重要,风险评估的结果将指导我们对该文物的安防系统进行优化,以避免其受到入侵对象的损坏。根据标准《GBT 27921风险管理-风险评估技术》,风险识别是发现、列举和描述风险要素的过程,是风险评估的基础工作。而在文物安防领域,确定文物的风险要素,并用指标项来描述,进而建立指标体系,才能为之后的风险分析和风险评估做好基础工作。因此构建适用于文物的风险评估指标体系尤为重要。
对文物进行风险要素识别,构建文物安防风险评估指标体系,需要文物安防专家在对文物的风险源和风险因素进行识别和分析后,建立层次化的递阶式的指标体系。
然而,现有的文物安防风险要素识别方法均具有一些不可忽略的缺陷:第一,由于文物种类多地域分布广,现有的文物安防风险要素识别和构造风险评估指标体系的过程往往需要耗费不少的人力、物力,需要邀请文物专家对文物单位进行非常详细的了解,极大地增加了专家的工作量;第二,现有的指标体系针对差异较大的不同的文物种类时,重合度较高且不够全面,这是因为专家在对新的文物单位进行评估时,往往只考虑当前的文物单位,而之前已有的典型的文物安防风险评估指标体系的相关资源和知识无法充分利用,这会使得新构建的指标体系不全面、不精确,从而使得风险要素识别的结果不精确,从而影响之后的风险评估结果。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,其目的在于,解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的技术问题,以及由于无法充分利用之前已有的文物安防风险评估指标体系的相关资源和知识,使得新构建的指标体系不全面、不精确,从而使得风险要素识别的结果不精确,从而影响之后的风险评估结果的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,包括以下步骤:
(1)获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n],n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
(2)将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
(3)基于步骤(2)得到的该文物的嵌入向量表示l获取链接预测的结果。
(4)将步骤(3)得到的链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
优选地,步骤(1)中的文本描述是从与该文物相关的各种资料获取,该文物的文本描述对应的相关特征包括文物的种类、朝代、以及地理位置等。
优选地,知识图谱补全模型是通过以下步骤构建的:
(2-1)获取多个文物的安防风险评估指标体系,每一个安防风险评估指标体系中均包括文物及其对应的多个指标项;
(2-2)根据步骤(2-1)得到的每个安防风险评估指标体系确定对应的头实体、关系和尾实体,并根据这些头实体、关系和尾实体生成该安防风险评估指标体系对应的多个三元组{(hi1,ti1,ri1),(hi2,ti2,ri2),...,(hin, tin,rin)},其中i∈[1,安防风险评估指标体系总数],n表示第i个安防风险评估指标体系对应的三元组总数,him表示第i个安防风险评估指标体系对应的第m个三元组中的头实体,tim表示第i个安防风险评估指标体系对应的第m个三元中组的尾实体,rim表示第i个安防风险评估指标体系对应的第m个三元组中的关系,m∈[1,n];
(2-3)将步骤(2-2)得到的所有文物的所有安防风险评估指标体系对应的所有三元组中的所有头实体和尾实体组合成实体集E,将所有文物的所有安防风险评估指标体系对应的所有三元组中的所有关系组合成关系集R,将所有文物的所有安防风险评估指标体系对应的所有三元组组合成三元组集T,将实体集E、关系集R和三元组集T组合成第一数据集,将所有文物的文本描述构成的文本描述矩阵作为第二数据集;
(2-4)将步骤(2-3)构建的第一数据集划分为第一训练集、第一验证集和第一测试集;
(2-5)将步骤(2-4)得到的第一训练集输入基于翻译的TransH模型,以得到该第一训练集中实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵;
(2-6)将步骤(2-3)构建的第二数据集划分为第二训练集、第二验证集和第二测试集;
(2-7)将步骤(2-6)中的第二训练集输入自然语言处理模型Word2Vec 中,以得到与第二训练集中每个文物的文本描述对应的、该文物的每个特征i对应的嵌入向量vwi,第二训练集中每个文物的所有特征对应的所有嵌入向量构成该文物对应的嵌入矩阵Vw=(vw1,vw2,...,vwn),其中i∈[1,n], n表示与第二训练集中每个文物的文本描述对应的、该文物的所有特征的总数;
(2-8)针对步骤(2-7)获得的每个文物对应的嵌入矩阵而言,对该嵌入矩阵做平均,以获得该文物对应的单个代表嵌入向量v;
(2-9)将步骤(2-5)获得的实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵、以及步骤(2-8)获得的每个文物对应的单个代表嵌入向量 Vh输入转换函数Ψmap中,并使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap,使得其损失值最小,从而得到每个文物在同一个向量空间的嵌入向量表示,并得到训练好的知识图谱补全模型。
优选地,步骤(2-1)中的文物的安防风险评估指标体系是从已经被专家做过风险评估的文物单位的风险评估报告中获取的;
每个安防风险评估指标体系中仅包括一个文物、以及该文物对应的多个指标项;
安防风险评估指标体系对应的头实体就是该安防风险评估指标体系中的文物,尾实体就是该文物对应的多个指标项,关系就是该文物与每个指标项之间的包含关系;
优选地,转换函数Ψmap用于将每一个文物的单个代表嵌入向量Vh从基于文本的嵌入空间转换到实体集E和关系集R的向量嵌入所在的嵌入空间;
步骤(2-9)是使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap;
转换函数Ψmap的损失函数为:
其中·表示转换函数Ψmap的参数,J表示第二训练集中的文本描述的总数,vk表示第二数据集中第k个文本描述对应的文物所对应的单个代表嵌入向量。
优选地,步骤(3)包括以下子步骤:
(3-1)设置计数器cnt=1;
(3-2)判断计数器cnt是否等于第一训练集中实体集E中的向量总数,如果是则过程结束,否则转入步骤(3-3);
(3-3)计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D;
(3-4)判断步骤(3-1)计算所得的L2范数距离D是否小于等于预设阈值,如果是则进入步骤(3-5),否则过程结束;
(3-5)将该L2范数距离D所对应的实体集E中的第cnt个实体作为链接预测的结果;
(3-6)设置计数器cnt=cnt+1,并返回步骤(3-2)。
优选地,步骤(3-3)中计算L2范数距离D的过程具体为:
首先,对于步骤(2-5)中得到的第一训练集中关系集R的向量嵌入矩阵中每一个关系的向量嵌入r,都引入一个超平面W来表示该关系,具体的,每一个超平面W都由其平面的单位法向量wr以及平面上的平移向量dr来表示;
然后,对于步骤(2-5)中得到的第一训练集中实体集E中第cnt个向量的向量嵌入e,利用投影公式将向量嵌入e投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该向量嵌入e在该超平面上的投影向量e⊥,投影公式为:
接着,对于步骤(2)得到的文物的嵌入向量表示l,利用投影公式将嵌入向量表示l投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该文物的嵌入向量表示l在该超平面上的投影向量l⊥,投影公式为:
最后,根据以上得到的向量嵌入e在该超平面上的投影向量e⊥、以及文物的嵌入向量表示l在该超平面上的投影向量l⊥,并利用L2范数距离公式计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D,具体的计算公式为:
按照本发明的另一方面,提供了一种基于知识图谱补全模型的文物安防风险要素识别系统,包括:
第一模块,用于获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中 pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n], n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
第二模块,用于将第一模块得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
第三模块,用于基于第二模块得到的该文物的嵌入向量表示l获取链接预测的结果。
第四模块,用于将第三模块得到的链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、由于本发明采用了步骤(1)到步骤(4),其只需要对应于某文物的相关特征的一些文本描述,就可以通过知识图谱补全模型预测出其安防风险评估的指标项,完成安防风险要素识别。因此,能够解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的问题。
2、由于本发明采用了步骤(2),其可以通过自己构建的知识图谱中的头实体、尾实体和关系,充分利用之前已有的文物安防风险评估指标体系的相关资源和知识。因此,能够解决针对不同种类的文物时,指标体系重合度较高且不够全面的问题。
3、由于本发明采用了步骤(1)步骤(2)和步骤(3),其学习了一种转换,将向量从基于本文的嵌入空间映射到基于图的嵌入空间,因此即使出现了不在已构建的知识图谱中的新实体,也可以实现链接预测任务,是动态知识图谱补全在该领域的创新性引入。
附图说明
图1是本发明基于知识图谱补全模型的文物安防风险要素识别方法的步骤示意图;
图2是本发明中使用的知识图谱补全模型的训练过程示意图;
图3是本发明中文物的安防风险评估指标体系的示意图;
图4是本发明使用的Word2vec模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
针对现有文物安防风险要素识别的方法的不足或改进需求,本发明提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,其不仅能够通过知识图谱充分利用之前已有的文物安防风险评估指标体系的相关资源和知识,而且只需要新的文物单位的一些文本描述,就可以通过知识图谱补全模型预测出其风险评估指标体系,完成风险要素识别。
如图1所示,本发明提供了一种基于知识图谱补全模型的文物安防风险要素识别方法,包括以下步骤:
(1)获取文物的文本描述,将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1,p2,...,pn),其中pi表示与该文物的文本描述对应的、该文物的第i个特征,且有i∈[1,n],n表示与该文物的文本描述对应的、该文物的所有相关特征的总数;
具体而言,本步骤中的文本描述是从与该文物相关的各种资料(包括但不限于该文物的现场勘察报告、百度资料等)获取,该文物的文本描述对应的相关特征包括但不限于文物的种类、朝代、地理位置等。
(2)将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中,以得到该文物的嵌入向量表示l;
如图2所示,本发明的知识图谱补全模型是通过以下步骤构建的:
(2-1)获取多个文物的安防风险评估指标体系,每一个安防风险评估指标体系中均包括文物及其对应的多个指标项;
具体而言,本步骤中文物的安防风险评估指标体系,是从已经被专家做过风险评估的文物单位的风险评估报告中获取的。
每个安防风险评估指标体系中仅包括一个文物、以及该文物对应的多个指标项,指标项是例如文物本体价值、植被覆盖程度、摄像头覆盖率、安保人员的巡逻时间等;
具体的,某文物的安防风险评估指标体系如图3,磨盘山表示该文物的名称为磨盘山,本体价值、环境、安防和人员为二级指标项,年代、封土堆、植被覆盖程度、土壤土质、摄像头清晰度、摄像头覆盖率、安保人员巡查时间和游客破坏属于三级指标,也是最后一级指标项,本发明只考虑每一个文物的安防风险评估指标体系的文物名称和其对应的最后一级的所有指标项;
(2-2)根据步骤(2-1)得到的每个安防风险评估指标体系确定对应的头实体、关系和尾实体,并根据这些头实体、关系和尾实体生成该安防风险评估指标体系对应的多个三元组{(hi1,ti1,ri1),(hi2,ti2,ri2),...,(hin, tin,rin)},其中i∈[1,安防风险评估指标体系总数],n表示第i个安防风险评估指标体系对应的三元组总数,him表示第i个安防风险评估指标体系对应的第m个三元组中的头实体,tim表示第i个安防风险评估指标体系对应的第m个三元中组的尾实体,rim表示第i个安防风险评估指标体系对应的第m个三元组中的关系,m∈[1,n];
具体而言,安防风险评估指标体系对应的头实体就是该安防风险评估指标体系中的文物,尾实体就是该文物对应的多个指标项,关系就是该文物与每个指标项之间的包含关系;
(2-3)将步骤(2-2)得到的所有文物的所有安防风险评估指标体系对应的所有三元组中的所有头实体和尾实体组合成实体集E,将所有文物的所有安防风险评估指标体系对应的所有三元组中的所有关系组合成关系集R,将所有文物的所有安防风险评估指标体系对应的所有三元组组合成三元组集T,将实体集E、关系集R和三元组集T组合成第一数据集,将所有文物的文本描述构成的文本描述矩阵作为第二数据集;
具体而言,本步骤中文物的文本描述和步骤(1)中的完全相同,在此不再赘述。
(2-4)将步骤(2-3)构建的第一数据集划分为第一训练集、第一验证集和第一测试集;
在本步骤中,划分第一数据集的比例为:训练集80%、验证集10%、测试集10%。
(2-5)将步骤(2-4)得到的第一训练集输入基于翻译的TransH模型,以得到该第一训练集中实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵;
具体的,本步骤中基于翻译的TransH模型的训练过程可见论文《Knowledge GraphEmbedding by Translating on Hyperplanes》;
(2-6)将步骤(2-3)构建的第二数据集划分为第二训练集、第二验证集和第二测试集;
在本步骤中,划分第二数据集的比例为:训练集80%、验证集10%、测试集10%。
(2-7)将步骤(2-6)中的第二训练集输入自然语言处理模型Word2Vec 中,以得到与第二训练集中每个文物的文本描述对应的、该文物的每个特征i对应的嵌入向量vwi,第二训练集中每个文物的所有特征对应的所有嵌入向量构成该文物对应的嵌入矩阵Vw=(vw1,vw2,...,vwn),其中i∈[1,n], n表示与第二训练集中每个文物的文本描述对应的、该文物的所有特征的总数;
具体的,本步骤中的Word2Vec模型是利用了神经网络的词向量嵌入模型,其是只有一个隐层的全连接神经网络,其具体网络结构图如图4所示,其训练过程可见论文《Efficient Estimation ofWord Representations in Vector Space》;
(2-8)针对步骤(2-7)获得的每个文物对应的嵌入矩阵而言,对该嵌入矩阵做平均,以获得该文物对应的单个代表嵌入向量v;
具体而言,本步骤中对嵌入矩阵做平均是做行平均处理;
(2-9)将步骤(2-5)获得的实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵、以及步骤(2-8)获得的每个文物对应的单个代表嵌入向量 Vh输入转换函数Ψmap中,并使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap,使得其损失值最小,从而得到每个文物在同一个向量空间的嵌入向量表示,并得到训练好的知识图谱补全模型;
本步骤中的转换函数Ψmap用于将每一个文物的单个代表嵌入向量Vh从基于文本的嵌入空间转换到实体集E和关系集R的向量嵌入所在的嵌入空间,本发明使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap。
具体地,转换函数Ψmap的损失函数为:
其中·表示转换函数Ψmap的参数,J表示第二训练集中的文本描述的总数, vk表示第二数据集中第k个文本描述对应的文物所对应的单个代表嵌入向量。
本步骤的优点在于,第一:可以通过自己构建的知识图谱中的头实体、尾实体和关系,充分利用之前已有的文物安防风险评估指标体系的相关资源和知识,可以解决针对不同种类的文物时,指标体系重合度较高且不够全面的问题。第二:学习了一种转换,可以将向量从基于本文的嵌入空间映射到基于图的嵌入空间,方便向量之间的计算。
(3)基于步骤(2)得到的该文物的嵌入向量表示l获得链接预测的结果;
具体而言,链接预测子步骤如下:
(3-1)设置计数器cnt=1;
(3-2)判断计数器cnt是否等于第一训练集中实体集E中的向量总数,如果是则过程结束,否则转入步骤(3-3);
(3-3)计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D;
具体而言,本步骤计算L2范数距离D的过程具体为:
首先,对于步骤(2-5)中得到的第一训练集中关系集R的向量嵌入矩阵中每一个关系的向量嵌入r,都引入一个超平面W来表示该关系,具体的,每一个超平面W都由其平面的单位法向量wr以及平面上的平移向量dr来表示;
然后,对于步骤(2-5)中得到的第一训练集中实体集E中第cnt个向量的向量嵌入e,利用投影公式将向量嵌入e投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该向量嵌入e在该超平面上的投影向量e⊥,投影公式为:
接着,对于步骤(2)得到的文物的嵌入向量表示l,利用投影公式将嵌入向量表示l投影到上述每一个关系的向量嵌入r所在的超平面中,以得到该文物的嵌入向量表示l在该超平面上的投影向量l⊥,投影公式为:
最后,根据以上得到的向量嵌入e在该超平面上的投影向量e⊥、以及文物的嵌入向量表示l在该超平面上的投影向量l⊥,并利用L2范数距离公式计算步骤(2)得到的文物的嵌入向量表示l与步骤(2-5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D,具体的计算公式为:
(3-4)判断步骤(3-1)计算所得的L2范数距离D是否小于等于预设阈值,如果是则进入步骤(3-5),否则过程结束;
具体的,预设阈值范围为0到0.3之间,优选0.2。
(3-5)将该L2范数距离D所对应的实体集E中的第cnt个实体作为链接预测的结果;
(3-6)设置计数器cnt=cnt+1,并返回步骤(3-2)。
上述步骤(1)到步骤(3)的优点在于,训练好的知识图谱补全模型使得即使出现了不在已构建的知识图谱中的新实体,也可以实现链接预测任务,是动态知识图谱补全在该领域的创新性引入。
(4)将步骤(3)中链接预测的结果作为该文物安防风险评估的指标项,并将该指标项作为识别到的该文物的安防风险要素。
上述步骤(1)到步骤(4)的优点在于,只需要对应于某文物的相关特征的一些文本描述,就可以通过知识图谱补全模型预测出其安防风险评估的指标项,完成安防风险要素识别,能够解决现有风险要素识别和构建风险评估指标体系过程中,专家工作量大的问题。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。