CN113032580A

CN113032580A - 关联档案推荐方法、系统及电子设备

Info

Publication number: CN113032580A
Application number: CN202110336993.XA
Authority: CN
Inventors: 夏磊; 袁学群; 朱志辉; 赵锡锋; 陈平刚
Original assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Current assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-25
Anticipated expiration: 2041-03-29
Also published as: CN113032580B

Abstract

本发明提供了一种关联档案推荐方法、系统及电子设备，涉及档案管理技术领域，该方法首先确定待推荐的档案文本中的各个数据元；然后根据各个数据元之间的语义关系，构建档案文本的知识图谱；再利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量；最后根据嵌入向量，确定档案文本的关联档案。该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱，进而使用知识图谱的嵌入方法嵌入图谱中的实体。与传统的知识图谱嵌入方法相比，该方法可提高档案关联推荐时的效率，还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力，能够在大数据的场景下快速进行相近时间段的关联档案推荐。

Description

关联档案推荐方法、系统及电子设备

技术领域

本发明涉及档案管理技术领域，尤其是涉及一种关联档案推荐方法、系统及电子设备。

背景技术

传统的档案管理主要都是以手工管理或以电子档案的形式存在数据库中，以这种形式存在的档案的粒度都是按照传统的“卷”和“件”进行，档案之间的关联度低下及无法有效利用档案中的结构化知识。随着大数据的蓬勃发展，档案的数字化管理的需求也越来越大，但在现有大数据的应用场景下，通常仅通过查询数据库来进行档案关联的分析。

可见，现有技术中进行档案关联推荐时存在效率低下的问题。

发明内容

有鉴于此，本发明的目的在于提供一种关联档案推荐方法、系统及电子设备，可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱，进而使用知识图谱的嵌入方法嵌入图谱中的实体，提高了档案关联推荐时的效率，还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力，能够在大数据的场景下快速进行相近时间段的关联档案推荐。

第一方面，本发明实施例提供了一种关联档案推荐方法，该方法包括：

确定待推荐的档案文本中的各个数据元；

根据各个数据元之间的语义关系，构建档案文本的知识图谱；

利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量；

根据嵌入向量，确定档案文本的关联档案。

在一些实施方式中，上述根据各个数据元之间的语义关系，构建档案文本的知识图谱的步骤，包括：

根据预先获取的初始化图谱，获取初始化图谱中已完成定义的实体和关系；

根据档案文本中的数据元，确定实体的实例数据；

根据实体之间的关系构建知识图谱；知识图谱中的知识为包含时间参数的四元组(h,r,t[τ_s,τ_e])，其中，h为头实体、r为关系、t为尾实体，τ_s为知识成立时间段的起始时间；τ_e为知识成立时间段的截止时间。

在一些实施方式中，上述利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量的步骤，包括：

根据知识图谱中的时间参数，将该档案知识图谱进行切片得到多个子知识图谱；

计算实体和关系在子知识图谱中的表示向量；

根据表示向量，对实体以及关系进行嵌入计算，得到知识图谱中的实体与关系的嵌入向量。

在一些实施方式中，上述利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量的步骤之后，方法还包括：

将实体的嵌入向量记为第一嵌入向量，并将第一嵌入向量输入至已完成训练的图神经网络模型中；

图神经网络模型根据第一嵌入向量对应的特征矩阵以及邻接矩阵，确定实体的第二嵌入向量；其中，第二嵌入向量对应的档案关联值不低于第一嵌入向量对应的档案关联值。

在一些实施方式中，上述根据表示向量，对实体以及关系进行嵌入计算，包括：

根据表示向量，利用得分函数对实体以及关系进行嵌入计算；

得分函数为：

f_τ(h,r,t)＝||P_τ(e_h)+P_τ(e_r)-P_τ(e_t)||，

其中，f_τ(h,r,t)为嵌入计算结果；τ表示时间；e_h、e_t、e_r分别表示头实体、尾实体以及关系所对应的表示向量；P_τ(e_h)、P_τ(e_t)、P_τ(e_r)分别表示头实体、尾实体以及关系所对应的嵌入向量；

KG为切片向量；T为时间点的数量。

在一些实施方式中，上述图神经网络模型根据第一嵌入向量对应的特征矩阵以及邻接矩阵，确定实体的第二嵌入向量的步骤，包括：

利用嵌入向量计算算式，确定实体的第二嵌入向量；其中，嵌入向量计算算式如下：

其中，P为档案文本的知识图谱的邻接矩阵；

I为单位矩阵；

为

的对角节度矩阵；H(l)为输入至图神经网络模型中第l层的特征矩阵；为图神经网络模型中第l层的权重矩阵；σ为非线性激活函数。

在一些实施方式中，上述图神经网络模型的训练过程，包括：

将预先完成标注的相似档案实体对输入至图神经网络模型中，并利用第一损失函数进行模型训练；第一损失函数为：

其中，[x]₊＝max{0,x}；f(x,y)＝||x-y||₁；

为通过随机替换已对齐实体对(D_a,D_b)中的一个实体构造的负样本集；γ_gcn为用于控制正负对齐实体对程度的超参数；L_GCN为第一损失函数；

根据第一损失函数，确定第二损失函数；所示第二损失函数为：

其中，h为头实体、r为关系、t为尾实体，τ_s为知识成立时间段的起始时间；τ_e为知识成立时间段的截止时间；L为第二损失函数。

第二方面，本发明实施例提供了一种关联档案推荐系统，该系统包括：

档案数据元获取模块，用于确定待推荐的档案文本中的各个数据元；

知识图谱构建模块，用于根据各个数据元之间的语义关系，构建档案文本的知识图谱；

嵌入向量获取模块，用于利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量；

关联结果计算模块，用于根据嵌入向量，确定档案文本的关联档案。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述第一方面的关联档案推荐方法的步骤。

第四方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，程序代码使处理器执行上述第一方面的关联档案推荐方法的步骤。

本发明实施例带来了以下有益效果：

本发明提供了一种关联档案推荐方法、系统及电子设备，该方法首先确定待推荐的档案文本中的各个数据元；然后根据各个数据元之间的语义关系，构建档案文本的知识图谱；再利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量；最后根据嵌入向量，确定档案文本的关联档案。该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱，进而使用知识图谱的嵌入方法嵌入图谱中的实体。与传统的知识图谱嵌入方法相比，该方法可提高档案关联推荐时的效率，还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力，能够在大数据的场景下快速进行相近时间段的关联档案推荐。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种关联档案推荐方法的流程图；

图2为本发明实施例提供的关联档案推荐方法中步骤S102的流程图；

图3为本发明实施例提供的关联档案推荐方法中步骤S103的流程图；

图4为本发明实施例提供的关联档案推荐方法中，利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量的步骤之后的流程图；

图5为本发明实施例提供的一种关联档案推荐系统的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

图标：

510-档案数据元获取模块；520-知识图谱构建模块；530-嵌入向量获取模块；540-关联结果计算模块；101-处理器；102-存储器；103-总线；104-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的档案管理主要都是以手工管理或以电子档案的形式存在数据库中，以这种形式存在的档案的粒度都是按照传统的“卷”和“件”进行，档案之间的关联度低下及无法有效利用档案中的结构化知识。随着大数据的蓬勃发展，档案的数字化管理的需求也越来越大，但在现有大数据的应用场景下，通常仅通过查询数据库来进行档案关联的分析。综上所示现有技术中进行档案关联推荐时存在效率低下的问题。

基于此，本发明实施例提供的一种关联档案推荐方法、系统及电子设备，可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱，进而使用知识图谱的嵌入方法嵌入图谱中的实体，提高了档案关联推荐时的效率，还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力，能够在大数据的场景下快速进行相近时间段的关联档案推荐。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种关联档案推荐方法进行详细介绍。

参见图1所示的一种关联档案推荐方法的流程图，其中，该方法具体步骤包括：

步骤S101，确定待推荐的档案文本中的各个数据元。

待推荐的档案文本为计算机可读格式，或者通过相关工具转化为计算机可读格式。档案文本中的数据元为文本中包含的各类词语元素，具体的说，数据源在一定语境下通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元，可通过相关识别算法进行获取。

步骤S102，根据各个数据元之间的语义关系，构建档案文本的知识图谱。

知识图谱作为语义网络的知识库，是具有有向图结构的知识库，其中图的结点代表实体，而图的边代表实体之间的各种语义关系，对于档案文本而言即为两个实体之间的相似关系。

知识图谱一般以三元组的形式保存到知识库中，以三元组集合的形式描述事物和关系。三元组是知识图谱中知识表示的基本单位，三元组被用来表示实体与实体之间的关系，或者实体的某个属性的属性值是什么。具体的说，知识图谱是将档案文本的数据元作为节点，各数据元的关系作为边的有向图。在该图中，每个有向边的关系以及它的头实体、尾实体组成了一个三元组。由于关联档案推荐具有较强的时效性，因此可在三元组的基础上加入时间参数得到四元组，并通过四元组构建档案文本的知识图谱。

步骤S103，利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量。

广义上的知识图谱的嵌入方法，是嵌入知识图谱的组件，包括将实体和关系转化为连续的向量空间从而简化操作，同时保留知识图谱的原有的结构。实体和关系嵌入能进一步应用于各种任务中，如知识图谱补全、关系提取、实体分类和实体解析。

通过计算档案文本知识图谱的嵌入关系得到嵌入向量，并由嵌入向量表征档案的关联程度。计算后的嵌入向量可通过进一步优化来提高档案关联的效果，例如可使用相关卷积神经网络模型来进行优化，该卷积神经网络模型一般为图卷积神经网络模型，通过图卷积神经网络模型来对知识图谱中的实体进行优化，进一步提升发现相似档案的能力。

步骤S104，根据嵌入向量，确定档案文本的关联档案。

计算获取的嵌入向量的头实体、关系以及尾实体之间满足相应关系，例如，头实体向量与关系向量之和约等于尾实体向量。此时的档案知识图谱中会拥有更多的相似三元组，对应的档案实体的嵌入向量会越相似，因此可通过计算档案嵌入实体之间的距离，并将计算结果进行排名来进行关联档案的推荐。

通过上述实施例中的关联档案推荐方法可知，该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱，进而使用知识图谱的嵌入方法嵌入图谱中的实体，提高了档案关联推荐时的效率，还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力，能够在大数据的场景下快速进行相近时间段的关联档案推荐。

在一些实施方式中，上述根据各个数据元之间的语义关系，构建档案文本的知识图谱的步骤S102，如图2所示，包括：

步骤S201，根据预先获取的初始化图谱，获取初始化图谱中已完成定义的实体和关系。

该步骤为初始化步骤，具体实施过程中，可预先根据档案的特定数据元获得一个简易图谱，并将该图谱作为初始化图谱，用于后续知识图谱的构建。

步骤S202，根据档案文本中的数据元，确定实体的实例数据。

步骤S203，根据实体之间的关系构建知识图谱；知识图谱中的知识为包含时间参数的四元组。

具体的，四元组的表示式为(h,r,t[τ_s,τ_e])，h为头实体、r为关系、t为尾实体，τ_s为知识成立时间段的起始时间；τ_e为知识成立时间段的截止时间。

在完成四元组的定义后，上述利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量的步骤S103，如图3所示，包括：

步骤S301,根据知识图谱中的时间参数，将该档案知识图谱进行切片得到多个子知识图谱。

根据时间戳将该动态档案知识图谱切片为多个子知识图谱，每个子图谱代表不同的时间段，因此其包含的知识也会存在差异。具体的，将时间分为T个时间步。对于T个时间点的知识图谱，用T个不同向量(KG_t1,KG_t2,...,KG_tT)表示该切片。在该切片对应时间步中有效的三元组的平移距离会被最小化。

步骤S302，计算实体和关系在子知识图谱中的表示向量。

例如，e_h、e_t、e_r分别表示头实体、尾实体以及关系所对应的表示向量；P_τ(e_h)、P_t(e_t)、P_r(e_r)分别表示头实体、尾实体以及关系所对应的嵌入向量，此时的实体和关系在子知识图谱中的表示向量分别如下表示：

步骤S303，根据表示向量，对实体以及关系进行嵌入计算，得到知识图谱中的实体与关系的嵌入向量。

对于在时间τ有效的正样本，希望满足以下关系：P_τ(e_h)+P_τ(e_r)≈P_τ(e_t)，因而使用以下的得分函数：

f_τ(h,r,t)＝||P_τ(e_h)+P_τ(e_r)-P_τ(e_t)||

在实体和关系嵌入过程中，同时学习每个档案知识图谱切片的表示向量。具体的，根据表示向量对实体以及关系进行嵌入计算的过程，可根据表示向量，利用得分函数对实体以及关系进行嵌入计算。

计算过程所用的得分函数为：

f_τ(h,r,t)＝||P_τ(e_h)+P_r(e_r)-P_t(e_t)||，

其中，f_τ(h,r,t)为嵌入计算结果；τ表示时间；e_h、e_t、e_r分别表示头实体、尾实体以及关系所对应的表示向量；P_τ(e_h)、P_t(e_t)、P_r(e_r)分别表示头实体、尾实体以及关系所对应的嵌入向量；

KG为切片向量；T为时间点的数量。

为了增强翻译模型的泛化能力，即发现相似档案的能力，可使用图卷积神经网络(GCN)学习每个实体的嵌入向量作为翻译模型的初始化向量。在一些实施方式中，上述利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量的步骤之后，该方法如图4所示，包括：

步骤S401，将实体的嵌入向量记为第一嵌入向量，并将第一嵌入向量输入至已完成训练的图神经网络模型中。

该步骤中的第一嵌入向量为输入参数，输入至已完成训练的图神经网络模型中，通过图神经网络模型对第一嵌入向量进行计算，可提高嵌入向量中关联档案推荐的泛化能力。

步骤S402，图神经网络模型根据第一嵌入向量对应的特征矩阵以及邻接矩阵，确定实体的第二嵌入向量。

其中，第二嵌入向量对应的档案关联值不低于第一嵌入向量对应的档案关联值。在确定第二嵌入向量的实现过程中，可利用嵌入向量计算算式，确定实体的第二嵌入向量；其中，嵌入向量计算算式如下：

其中，P为档案文本的知识图谱的邻接矩阵；

I为单位矩阵；

为

上述图神经网络模型的训练过程，包括：

将预先完成标注的相似档案实体对输入至图神经网络模型中，并利用第一损失函数进行模型训练；其中的第一损失函数为：

其中，[x]₊＝max{0,x}；f(x,y)＝||x-y||₁；

为通过随机替换已对齐实体对(D_a,D_b)中的一个实体构造的负样本集，替换后的实体从两个图谱中随机选择；γ_gcn为用于控制正负对齐实体对程度的超参数，该参数大于0；L_GCN为第一损失函数；

其中，h为头实体、r为关系、t为尾实体，τ_s为知识成立时间段的起始时间；τ_e为知识成立时间段的截止时间；L为第二损失函数。其中的父样本通过随机替换四元组中的头实体h，关系r，尾实体t或者时间τ生成。

通过上述实施例中的关联档案推荐方法可知，该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱，进而使用知识图谱的嵌入方法嵌入图谱中的实体，提高了档案关联推荐时的效率，还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力，能够在大数据的场景下快速进行相近时间段的关联档案推荐。该方法还考虑了知识图谱中三元组的成立有效期，可以在进行关联档案推荐时有效利用档案的时间维度信息。

对应于上述方法实施例，本发明实施例还提供了一种关联档案推荐系统，其结构示意图如图5所示，其中，该系统包括：

档案数据元获取模块510，用于确定待推荐的档案文本中的各个数据元；

知识图谱构建模块520，用于根据各个数据元之间的语义关系，构建档案文本的知识图谱；

嵌入向量获取模块530，用于利用档案文本的知识图谱的嵌入关系，获取知识图谱中的实体与关系的嵌入向量；

关联结果计算模块540，用于根据嵌入向量，确定档案文本的关联档案。

本发明实施例提供的关联档案推荐系统，与上述实施例提供的关联档案推荐方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。为简要描述，实施例部分未提及之处，可参考前述关联档案推荐方法实施例中相应内容。

本实施例还提供一种电子设备，为该电子设备的结构示意图如图6所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述关联档案推荐方法。

图6所示的电子设备还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。