CN113032580A - 关联档案推荐方法、系统及电子设备 - Google Patents

关联档案推荐方法、系统及电子设备 Download PDF

Info

Publication number
CN113032580A
CN113032580A CN202110336993.XA CN202110336993A CN113032580A CN 113032580 A CN113032580 A CN 113032580A CN 202110336993 A CN202110336993 A CN 202110336993A CN 113032580 A CN113032580 A CN 113032580A
Authority
CN
China
Prior art keywords
knowledge
entity
archive
graph
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110336993.XA
Other languages
English (en)
Other versions
CN113032580B (zh
Inventor
夏磊
袁学群
朱志辉
赵锡锋
陈平刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Original Assignee
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xinghan Information Technology Ltd By Share Ltd filed Critical Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority to CN202110336993.XA priority Critical patent/CN113032580B/zh
Publication of CN113032580A publication Critical patent/CN113032580A/zh
Application granted granted Critical
Publication of CN113032580B publication Critical patent/CN113032580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种关联档案推荐方法、系统及电子设备,涉及档案管理技术领域,该方法首先确定待推荐的档案文本中的各个数据元;然后根据各个数据元之间的语义关系,构建档案文本的知识图谱;再利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量;最后根据嵌入向量,确定档案文本的关联档案。该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱,进而使用知识图谱的嵌入方法嵌入图谱中的实体。与传统的知识图谱嵌入方法相比,该方法可提高档案关联推荐时的效率,还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力,能够在大数据的场景下快速进行相近时间段的关联档案推荐。

Description

关联档案推荐方法、系统及电子设备
技术领域
本发明涉及档案管理技术领域,尤其是涉及一种关联档案推荐方法、系统及电子设备。
背景技术
传统的档案管理主要都是以手工管理或以电子档案的形式存在数据库中,以这种形式存在的档案的粒度都是按照传统的“卷”和“件”进行,档案之间的关联度低下及无法有效利用档案中的结构化知识。随着大数据的蓬勃发展,档案的数字化管理的需求也越来越大,但在现有大数据的应用场景下,通常仅通过查询数据库来进行档案关联的分析。
可见,现有技术中进行档案关联推荐时存在效率低下的问题。
发明内容
有鉴于此,本发明的目的在于提供一种关联档案推荐方法、系统及电子设备,可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱,进而使用知识图谱的嵌入方法嵌入图谱中的实体,提高了档案关联推荐时的效率,还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力,能够在大数据的场景下快速进行相近时间段的关联档案推荐。
第一方面,本发明实施例提供了一种关联档案推荐方法,该方法包括:
确定待推荐的档案文本中的各个数据元;
根据各个数据元之间的语义关系,构建档案文本的知识图谱;
利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量;
根据嵌入向量,确定档案文本的关联档案。
在一些实施方式中,上述根据各个数据元之间的语义关系,构建档案文本的知识图谱的步骤,包括:
根据预先获取的初始化图谱,获取初始化图谱中已完成定义的实体和关系;
根据档案文本中的数据元,确定实体的实例数据;
根据实体之间的关系构建知识图谱;知识图谱中的知识为包含时间参数的四元组(h,r,t[τse]),其中,h为头实体、r为关系、t为尾实体,τs为知识成立时间段的起始时间;τe为知识成立时间段的截止时间。
在一些实施方式中,上述利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量的步骤,包括:
根据知识图谱中的时间参数,将该档案知识图谱进行切片得到多个子知识图谱;
计算实体和关系在子知识图谱中的表示向量;
根据表示向量,对实体以及关系进行嵌入计算,得到知识图谱中的实体与关系的嵌入向量。
在一些实施方式中,上述利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量的步骤之后,方法还包括:
将实体的嵌入向量记为第一嵌入向量,并将第一嵌入向量输入至已完成训练的图神经网络模型中;
图神经网络模型根据第一嵌入向量对应的特征矩阵以及邻接矩阵,确定实体的第二嵌入向量;其中,第二嵌入向量对应的档案关联值不低于第一嵌入向量对应的档案关联值。
在一些实施方式中,上述根据表示向量,对实体以及关系进行嵌入计算,包括:
根据表示向量,利用得分函数对实体以及关系进行嵌入计算;
得分函数为:
fτ(h,r,t)=||Pτ(eh)+Pτ(er)-Pτ(et)||,
其中,fτ(h,r,t)为嵌入计算结果;τ表示时间;eh、et、er分别表示头实体、尾实体以及关系所对应的表示向量;Pτ(eh)、Pτ(et)、Pτ(er)分别表示头实体、尾实体以及关系所对应的嵌入向量;
Figure BDA0002996397760000031
Figure BDA0002996397760000032
Figure BDA0002996397760000033
KG为切片向量;T为时间点的数量。
在一些实施方式中,上述图神经网络模型根据第一嵌入向量对应的特征矩阵以及邻接矩阵,确定实体的第二嵌入向量的步骤,包括:
利用嵌入向量计算算式,确定实体的第二嵌入向量;其中,嵌入向量计算算式如下:
Figure BDA0002996397760000034
其中,P为档案文本的知识图谱的邻接矩阵;
Figure BDA0002996397760000035
I为单位矩阵;
Figure BDA0002996397760000036
Figure BDA0002996397760000037
的对角节度矩阵;H(l)为输入至图神经网络模型中第l层的特征矩阵;为图神经网络模型中第l层的权重矩阵;σ为非线性激活函数。
在一些实施方式中,上述图神经网络模型的训练过程,包括:
将预先完成标注的相似档案实体对输入至图神经网络模型中,并利用第一损失函数进行模型训练;第一损失函数为:
Figure BDA0002996397760000038
其中,[x]+=max{0,x};f(x,y)=||x-y||1
Figure BDA0002996397760000041
为通过随机替换已对齐实体对(Da,Db)中的一个实体构造的负样本集;γgcn为用于控制正负对齐实体对程度的超参数;LGCN为第一损失函数;
根据第一损失函数,确定第二损失函数;所示第二损失函数为:
Figure BDA0002996397760000042
其中,h为头实体、r为关系、t为尾实体,τs为知识成立时间段的起始时间;τe为知识成立时间段的截止时间;L为第二损失函数。
第二方面,本发明实施例提供了一种关联档案推荐系统,该系统包括:
档案数据元获取模块,用于确定待推荐的档案文本中的各个数据元;
知识图谱构建模块,用于根据各个数据元之间的语义关系,构建档案文本的知识图谱;
嵌入向量获取模块,用于利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量;
关联结果计算模块,用于根据嵌入向量,确定档案文本的关联档案。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述第一方面的关联档案推荐方法的步骤。
第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,其中,程序代码使处理器执行上述第一方面的关联档案推荐方法的步骤。
本发明实施例带来了以下有益效果:
本发明提供了一种关联档案推荐方法、系统及电子设备,该方法首先确定待推荐的档案文本中的各个数据元;然后根据各个数据元之间的语义关系,构建档案文本的知识图谱;再利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量;最后根据嵌入向量,确定档案文本的关联档案。该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱,进而使用知识图谱的嵌入方法嵌入图谱中的实体。与传统的知识图谱嵌入方法相比,该方法可提高档案关联推荐时的效率,还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力,能够在大数据的场景下快速进行相近时间段的关联档案推荐。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种关联档案推荐方法的流程图;
图2为本发明实施例提供的关联档案推荐方法中步骤S102的流程图;
图3为本发明实施例提供的关联档案推荐方法中步骤S103的流程图;
图4为本发明实施例提供的关联档案推荐方法中,利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量的步骤之后的流程图;
图5为本发明实施例提供的一种关联档案推荐系统的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
图标:
510-档案数据元获取模块;520-知识图谱构建模块;530-嵌入向量获取模块;540-关联结果计算模块;101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的档案管理主要都是以手工管理或以电子档案的形式存在数据库中,以这种形式存在的档案的粒度都是按照传统的“卷”和“件”进行,档案之间的关联度低下及无法有效利用档案中的结构化知识。随着大数据的蓬勃发展,档案的数字化管理的需求也越来越大,但在现有大数据的应用场景下,通常仅通过查询数据库来进行档案关联的分析。综上所示现有技术中进行档案关联推荐时存在效率低下的问题。
基于此,本发明实施例提供的一种关联档案推荐方法、系统及电子设备,可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱,进而使用知识图谱的嵌入方法嵌入图谱中的实体,提高了档案关联推荐时的效率,还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力,能够在大数据的场景下快速进行相近时间段的关联档案推荐。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种关联档案推荐方法进行详细介绍。
参见图1所示的一种关联档案推荐方法的流程图,其中,该方法具体步骤包括:
步骤S101,确定待推荐的档案文本中的各个数据元。
待推荐的档案文本为计算机可读格式,或者通过相关工具转化为计算机可读格式。档案文本中的数据元为文本中包含的各类词语元素,具体的说,数据源在一定语境下通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元,可通过相关识别算法进行获取。
步骤S102,根据各个数据元之间的语义关系,构建档案文本的知识图谱。
知识图谱作为语义网络的知识库,是具有有向图结构的知识库,其中图的结点代表实体,而图的边代表实体之间的各种语义关系,对于档案文本而言即为两个实体之间的相似关系。
知识图谱一般以三元组的形式保存到知识库中,以三元组集合的形式描述事物和关系。三元组是知识图谱中知识表示的基本单位,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。具体的说,知识图谱是将档案文本的数据元作为节点,各数据元的关系作为边的有向图。在该图中,每个有向边的关系以及它的头实体、尾实体组成了一个三元组。由于关联档案推荐具有较强的时效性,因此可在三元组的基础上加入时间参数得到四元组,并通过四元组构建档案文本的知识图谱。
步骤S103,利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量。
广义上的知识图谱的嵌入方法,是嵌入知识图谱的组件,包括将实体和关系转化为连续的向量空间从而简化操作,同时保留知识图谱的原有的结构。实体和关系嵌入能进一步应用于各种任务中,如知识图谱补全、关系提取、实体分类和实体解析。
通过计算档案文本知识图谱的嵌入关系得到嵌入向量,并由嵌入向量表征档案的关联程度。计算后的嵌入向量可通过进一步优化来提高档案关联的效果,例如可使用相关卷积神经网络模型来进行优化,该卷积神经网络模型一般为图卷积神经网络模型,通过图卷积神经网络模型来对知识图谱中的实体进行优化,进一步提升发现相似档案的能力。
步骤S104,根据嵌入向量,确定档案文本的关联档案。
计算获取的嵌入向量的头实体、关系以及尾实体之间满足相应关系,例如,头实体向量与关系向量之和约等于尾实体向量。此时的档案知识图谱中会拥有更多的相似三元组,对应的档案实体的嵌入向量会越相似,因此可通过计算档案嵌入实体之间的距离,并将计算结果进行排名来进行关联档案的推荐。
通过上述实施例中的关联档案推荐方法可知,该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱,进而使用知识图谱的嵌入方法嵌入图谱中的实体,提高了档案关联推荐时的效率,还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力,能够在大数据的场景下快速进行相近时间段的关联档案推荐。
在一些实施方式中,上述根据各个数据元之间的语义关系,构建档案文本的知识图谱的步骤S102,如图2所示,包括:
步骤S201,根据预先获取的初始化图谱,获取初始化图谱中已完成定义的实体和关系。
该步骤为初始化步骤,具体实施过程中,可预先根据档案的特定数据元获得一个简易图谱,并将该图谱作为初始化图谱,用于后续知识图谱的构建。
步骤S202,根据档案文本中的数据元,确定实体的实例数据。
步骤S203,根据实体之间的关系构建知识图谱;知识图谱中的知识为包含时间参数的四元组。
具体的,四元组的表示式为(h,r,t[τse]),h为头实体、r为关系、t为尾实体,τs为知识成立时间段的起始时间;τe为知识成立时间段的截止时间。
在完成四元组的定义后,上述利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量的步骤S103,如图3所示,包括:
步骤S301,根据知识图谱中的时间参数,将该档案知识图谱进行切片得到多个子知识图谱。
根据时间戳将该动态档案知识图谱切片为多个子知识图谱,每个子图谱代表不同的时间段,因此其包含的知识也会存在差异。具体的,将时间分为T个时间步。对于T个时间点的知识图谱,用T个不同向量(KGt1,KGt2,...,KGtT)表示该切片。在该切片对应时间步中有效的三元组的平移距离会被最小化。
步骤S302,计算实体和关系在子知识图谱中的表示向量。
例如,eh、et、er分别表示头实体、尾实体以及关系所对应的表示向量;Pτ(eh)、Pt(et)、Pr(er)分别表示头实体、尾实体以及关系所对应的嵌入向量,此时的实体和关系在子知识图谱中的表示向量分别如下表示:
Figure BDA0002996397760000091
Figure BDA0002996397760000092
Figure BDA0002996397760000093
步骤S303,根据表示向量,对实体以及关系进行嵌入计算,得到知识图谱中的实体与关系的嵌入向量。
对于在时间τ有效的正样本,希望满足以下关系:Pτ(eh)+Pτ(er)≈Pτ(et),因而使用以下的得分函数:
fτ(h,r,t)=||Pτ(eh)+Pτ(er)-Pτ(et)||
在实体和关系嵌入过程中,同时学习每个档案知识图谱切片的表示向量。具体的,根据表示向量对实体以及关系进行嵌入计算的过程,可根据表示向量,利用得分函数对实体以及关系进行嵌入计算。
计算过程所用的得分函数为:
fτ(h,r,t)=||Pτ(eh)+Pr(er)-Pt(et)||,
其中,fτ(h,r,t)为嵌入计算结果;τ表示时间;eh、et、er分别表示头实体、尾实体以及关系所对应的表示向量;Pτ(eh)、Pt(et)、Pr(er)分别表示头实体、尾实体以及关系所对应的嵌入向量;
Figure BDA0002996397760000101
Figure BDA0002996397760000102
Figure BDA0002996397760000103
KG为切片向量;T为时间点的数量。
为了增强翻译模型的泛化能力,即发现相似档案的能力,可使用图卷积神经网络(GCN)学习每个实体的嵌入向量作为翻译模型的初始化向量。在一些实施方式中,上述利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量的步骤之后,该方法如图4所示,包括:
步骤S401,将实体的嵌入向量记为第一嵌入向量,并将第一嵌入向量输入至已完成训练的图神经网络模型中。
该步骤中的第一嵌入向量为输入参数,输入至已完成训练的图神经网络模型中,通过图神经网络模型对第一嵌入向量进行计算,可提高嵌入向量中关联档案推荐的泛化能力。
步骤S402,图神经网络模型根据第一嵌入向量对应的特征矩阵以及邻接矩阵,确定实体的第二嵌入向量。
其中,第二嵌入向量对应的档案关联值不低于第一嵌入向量对应的档案关联值。在确定第二嵌入向量的实现过程中,可利用嵌入向量计算算式,确定实体的第二嵌入向量;其中,嵌入向量计算算式如下:
Figure BDA0002996397760000111
其中,P为档案文本的知识图谱的邻接矩阵;
Figure BDA0002996397760000112
I为单位矩阵;
Figure BDA0002996397760000113
Figure BDA0002996397760000114
的对角节度矩阵;H(l)为输入至图神经网络模型中第l层的特征矩阵;为图神经网络模型中第l层的权重矩阵;σ为非线性激活函数。
上述图神经网络模型的训练过程,包括:
将预先完成标注的相似档案实体对输入至图神经网络模型中,并利用第一损失函数进行模型训练;其中的第一损失函数为:
Figure BDA0002996397760000115
其中,[x]+=max{0,x};f(x,y)=||x-y||1
Figure BDA0002996397760000116
为通过随机替换已对齐实体对(Da,Db)中的一个实体构造的负样本集,替换后的实体从两个图谱中随机选择;γgcn为用于控制正负对齐实体对程度的超参数,该参数大于0;LGCN为第一损失函数;
根据第一损失函数,确定第二损失函数;所示第二损失函数为:
Figure BDA0002996397760000117
其中,h为头实体、r为关系、t为尾实体,τs为知识成立时间段的起始时间;τe为知识成立时间段的截止时间;L为第二损失函数。其中的父样本通过随机替换四元组中的头实体h,关系r,尾实体t或者时间τ生成。
通过上述实施例中的关联档案推荐方法可知,该方法可将传统的纸质档案和电子档案转化为结构化的知识构建知识图谱,进而使用知识图谱的嵌入方法嵌入图谱中的实体,提高了档案关联推荐时的效率,还可使用图卷积神经网络模型进一步提高关联档案推荐的泛化能力,能够在大数据的场景下快速进行相近时间段的关联档案推荐。该方法还考虑了知识图谱中三元组的成立有效期,可以在进行关联档案推荐时有效利用档案的时间维度信息。
对应于上述方法实施例,本发明实施例还提供了一种关联档案推荐系统,其结构示意图如图5所示,其中,该系统包括:
档案数据元获取模块510,用于确定待推荐的档案文本中的各个数据元;
知识图谱构建模块520,用于根据各个数据元之间的语义关系,构建档案文本的知识图谱;
嵌入向量获取模块530,用于利用档案文本的知识图谱的嵌入关系,获取知识图谱中的实体与关系的嵌入向量;
关联结果计算模块540,用于根据嵌入向量,确定档案文本的关联档案。
本发明实施例提供的关联档案推荐系统,与上述实施例提供的关联档案推荐方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。为简要描述,实施例部分未提及之处,可参考前述关联档案推荐方法实施例中相应内容。
本实施例还提供一种电子设备,为该电子设备的结构示意图如图6所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述关联档案推荐方法。
图6所示的电子设备还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
其中,存储器102可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种关联档案推荐方法,其特征在于,所述方法包括:
确定待推荐的档案文本中的各个数据元;
根据各个所述数据元之间的语义关系,构建所述档案文本的知识图谱;
利用所述档案文本的知识图谱的嵌入关系,获取所述知识图谱中的实体与关系的嵌入向量;
根据所述嵌入向量,确定所述档案文本的关联档案。
2.根据权利要求1所述的关联档案推荐方法,其特征在于,根据各个所述数据元之间的语义关系,构建所述档案文本的知识图谱的步骤,包括:
根据预先获取的初始化图谱,获取所述初始化图谱中已完成定义的实体和关系;
根据所述档案文本中的数据元,确定所述实体的实例数据;
根据所述实体之间的所述关系构建所述知识图谱;所述知识图谱中的知识为包含时间参数的四元组(h,r,t[τse]),其中,h为头实体、r为关系、t为尾实体,τs为所述知识成立时间段的起始时间;τe为所述知识成立时间段的截止时间。
3.根据权利要求2所述的关联档案推荐方法,其特征在于,利用所述档案文本的知识图谱的嵌入关系,获取所述知识图谱中的实体与关系的嵌入向量的步骤,包括:
根据所述知识图谱中的所述时间参数,将该所述档案知识图谱进行切片得到多个子知识图谱;
计算所述实体和所述关系在所述子知识图谱中的表示向量;
根据所述表示向量,对所述实体以及所述关系进行嵌入计算,得到所述知识图谱中的实体与关系的嵌入向量。
4.根据权利要求3所述的关联档案推荐方法,其特征在于,利用所述档案文本的知识图谱的嵌入关系,获取所述知识图谱中的实体与关系的嵌入向量的步骤之后,所述方法还包括:
将所述实体的嵌入向量记为第一嵌入向量,并将所述第一嵌入向量输入至已完成训练的图神经网络模型中;
所述图神经网络模型根据所述第一嵌入向量对应的特征矩阵以及邻接矩阵,确定所述实体的第二嵌入向量;其中,所述第二嵌入向量对应的档案关联值不低于所述第一嵌入向量对应的档案关联值。
5.根据权利要求3所述的关联档案推荐方法,其特征在于,根据所述表示向量,对所述实体以及所述关系进行嵌入计算,包括:
根据所述表示向量,利用得分函数对所述实体以及所述关系进行嵌入计算;
所述得分函数为:
fτ(h,r,t)=||Pτ(eh)+Pτ(er)-Pτ(et)||,
其中,fτ(h,r,t)为嵌入计算结果;τ表示时间;eh、et、er分别表示头实体、尾实体以及关系所对应的表示向量;Pτ(eh)、Pτ(et)、Pτ(er)分别表示头实体、尾实体以及关系所对应的嵌入向量;
Figure FDA0002996397750000021
Figure FDA0002996397750000022
Figure FDA0002996397750000023
KG为切片向量;T为时间点的数量。
6.根据权利要求4所述的关联档案推荐方法,其特征在于,所述图神经网络模型根据所述第一嵌入向量对应的特征矩阵以及邻接矩阵,确定所述实体的第二嵌入向量的步骤,包括:
利用嵌入向量计算算式,确定所述实体的第二嵌入向量;其中,所述嵌入向量计算算式如下:
Figure FDA0002996397750000031
其中,P为所述档案文本的知识图谱的邻接矩阵;
Figure FDA0002996397750000032
I为单位矩阵;
Figure FDA0002996397750000033
Figure FDA0002996397750000034
的对角节度矩阵;H(l)为输入至所述图神经网络模型中第l层的特征矩阵;为所述图神经网络模型中第l层的权重矩阵;σ为非线性激活函数。
7.根据权利要求4所述的关联档案推荐方法,其特征在于,所述图神经网络模型的训练过程,包括:
将预先完成标注的相似档案实体对输入至所述图神经网络模型中,并利用第一损失函数进行模型训练;所述第一损失函数为:
Figure FDA0002996397750000035
其中,[x]+=max{0,x};f(x,y)=||x-y||1
Figure FDA0002996397750000037
为通过随机替换已对齐实体对(Da,Db)中的一个实体构造的负样本集;γgcn为用于控制正负对齐实体对程度的超参数;LGCN为所述第一损失函数;
根据所述第一损失函数,确定第二损失函数;所示第二损失函数为:
Figure FDA0002996397750000036
其中,h为头实体、r为关系、t为尾实体,τs为所述知识成立时间段的起始时间;τe为所述知识成立时间段的截止时间;L为所述第二损失函数。
8.一种关联档案推荐系统,其特征在于,所述系统包括:
档案数据元获取模块,用于确定待推荐的档案文本中的各个数据元;
知识图谱构建模块,用于根据各个所述数据元之间的语义关系,构建所述档案文本的知识图谱;
嵌入向量获取模块,用于利用所述档案文本的知识图谱的嵌入关系,获取所述知识图谱中的实体与关系的嵌入向量;
关联结果计算模块,用于根据所述嵌入向量,确定所述档案文本的关联档案。
9.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时实现如权利要求1至7任一项所述的关联档案推荐方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现上述权利要求1至7任一项所述的关联档案推荐方法的步骤。
CN202110336993.XA 2021-03-29 2021-03-29 关联档案推荐方法、系统及电子设备 Active CN113032580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336993.XA CN113032580B (zh) 2021-03-29 2021-03-29 关联档案推荐方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110336993.XA CN113032580B (zh) 2021-03-29 2021-03-29 关联档案推荐方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN113032580A true CN113032580A (zh) 2021-06-25
CN113032580B CN113032580B (zh) 2023-07-25

Family

ID=76452675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110336993.XA Active CN113032580B (zh) 2021-03-29 2021-03-29 关联档案推荐方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113032580B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806555A (zh) * 2021-09-14 2021-12-17 国网北京市电力公司 用于app的运营异常识别方法、系统、装置及存储介质
CN115098700A (zh) * 2022-06-27 2022-09-23 深圳集智数字科技有限公司 知识图谱嵌入表示方法及装置
CN116089628A (zh) * 2023-02-14 2023-05-09 成都市城市建设和自然资源档案馆 一种城市建设和自然资源档案知识图谱构建方法
CN117910980A (zh) * 2024-03-19 2024-04-19 国网山东省电力公司信息通信公司 一种电力档案数据治理方法、系统、设备及介质
CN118035440A (zh) * 2024-01-31 2024-05-14 北京极致车网科技有限公司 一种企业关联档案管理目标知识特征推荐方法
CN118194990A (zh) * 2024-05-17 2024-06-14 中南大学 一种论文推荐方法、设备及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN110275960A (zh) * 2019-06-11 2019-09-24 中国电子科技集团公司电子科学研究院 基于指称句的知识图谱和文本信息的表示方法及系统
CN110598006A (zh) * 2019-09-17 2019-12-20 南京医渡云医学技术有限公司 模型的训练方法、三元组的嵌入方法、装置、介质及设备
CN110781316A (zh) * 2019-10-25 2020-02-11 南京航空航天大学 一种融合超平面和持续时间建模的时间感知知识表示学习方法
CN111259085A (zh) * 2019-12-30 2020-06-09 福州大学 基于关系超平面的时间感知翻译模型的关系预测方法
CN111553163A (zh) * 2020-04-28 2020-08-18 腾讯科技(武汉)有限公司 文本相关度的确定方法、装置、存储介质及电子设备
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111598710A (zh) * 2020-05-11 2020-08-28 北京邮电大学 社交网络事件的检测方法和装置
CN111930932A (zh) * 2020-09-25 2020-11-13 中国人民解放军国防科技大学 网络空间安全领域知识图谱表示学习方法和装置
WO2020258487A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112256884A (zh) * 2020-10-23 2021-01-22 国网辽宁省电力有限公司信息通信分公司 一种基于知识图谱的数据资产库访问方法和装置
US20210027178A1 (en) * 2019-07-26 2021-01-28 Ricoh Company, Ltd. Recommendation method and recommendation apparatus based on deep reinforcement learning, and non-transitory computer-readable recording medium

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN110275960A (zh) * 2019-06-11 2019-09-24 中国电子科技集团公司电子科学研究院 基于指称句的知识图谱和文本信息的表示方法及系统
WO2020258487A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 一种问答关系排序方法、装置、计算机设备及存储介质
US20210027178A1 (en) * 2019-07-26 2021-01-28 Ricoh Company, Ltd. Recommendation method and recommendation apparatus based on deep reinforcement learning, and non-transitory computer-readable recording medium
CN110598006A (zh) * 2019-09-17 2019-12-20 南京医渡云医学技术有限公司 模型的训练方法、三元组的嵌入方法、装置、介质及设备
CN110781316A (zh) * 2019-10-25 2020-02-11 南京航空航天大学 一种融合超平面和持续时间建模的时间感知知识表示学习方法
CN111259085A (zh) * 2019-12-30 2020-06-09 福州大学 基于关系超平面的时间感知翻译模型的关系预测方法
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111553163A (zh) * 2020-04-28 2020-08-18 腾讯科技(武汉)有限公司 文本相关度的确定方法、装置、存储介质及电子设备
CN111598710A (zh) * 2020-05-11 2020-08-28 北京邮电大学 社交网络事件的检测方法和装置
CN111930932A (zh) * 2020-09-25 2020-11-13 中国人民解放军国防科技大学 网络空间安全领域知识图谱表示学习方法和装置
CN112214685A (zh) * 2020-09-27 2021-01-12 电子科技大学 一种基于知识图谱的个性化推荐方法
CN112256884A (zh) * 2020-10-23 2021-01-22 国网辽宁省电力有限公司信息通信分公司 一种基于知识图谱的数据资产库访问方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐浩等: "基于协同知识图谱特征学习的论文推荐方法", 《计算机工程》 *
唐浩等: "基于协同知识图谱特征学习的论文推荐方法", 《计算机工程》, vol. 46, no. 9, 19 January 2020 (2020-01-19) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806555A (zh) * 2021-09-14 2021-12-17 国网北京市电力公司 用于app的运营异常识别方法、系统、装置及存储介质
CN113806555B (zh) * 2021-09-14 2023-08-08 国网北京市电力公司 用于app的运营异常识别方法、系统、装置及存储介质
CN115098700A (zh) * 2022-06-27 2022-09-23 深圳集智数字科技有限公司 知识图谱嵌入表示方法及装置
CN116089628A (zh) * 2023-02-14 2023-05-09 成都市城市建设和自然资源档案馆 一种城市建设和自然资源档案知识图谱构建方法
CN118035440A (zh) * 2024-01-31 2024-05-14 北京极致车网科技有限公司 一种企业关联档案管理目标知识特征推荐方法
CN117910980A (zh) * 2024-03-19 2024-04-19 国网山东省电力公司信息通信公司 一种电力档案数据治理方法、系统、设备及介质
CN117910980B (zh) * 2024-03-19 2024-06-11 国网山东省电力公司信息通信公司 一种电力档案数据治理方法、系统、设备及介质
CN118194990A (zh) * 2024-05-17 2024-06-14 中南大学 一种论文推荐方法、设备及介质
CN118194990B (zh) * 2024-05-17 2024-08-06 中南大学 一种论文推荐方法、设备及介质

Also Published As

Publication number Publication date
CN113032580B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN113032580A (zh) 关联档案推荐方法、系统及电子设备
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
JP2017224184A (ja) 機械学習装置
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN109710224B (zh) 页面处理方法、装置、设备及存储介质
CN111652658A (zh) 画像融合方法、装置、电子设备及计算机可读存储介质
US10296635B2 (en) Auditing and augmenting user-generated tags for digital content
CN111782946A (zh) 书友推荐方法、计算设备及计算机存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN114781007A (zh) 基于树的文档批量签名及验签方法、系统
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN112069304A (zh) 一种保险业务的问答方法、装置、服务器以及存储介质
CN111611781A (zh) 数据标注方法、问答方法、装置及电子设备
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN115797955A (zh) 基于单元格约束的表格结构识别方法及其应用
CN114840743A (zh) 一种模型推荐方法、装置、电子设备及可读存储介质
CN109492023B (zh) 一种汽车信息处理方法及其设备、计算机存储介质
CN112732681A (zh) 数据平台迁移方法及系统
CN110807118A (zh) 图像评论的生成方法、装置及电子设备
CN117390292B (zh) 基于机器学习的应用程序信息推荐方法、系统及设备
WO2022204845A1 (zh) 实体热度生成方法、装置、存储介质及电子设备
CN118332095A (zh) 基于预训练模型的智能问答方法、计算机设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant