CN113449066B

CN113449066B - 利用知识图谱来存储文物数据的方法、处理器及存储介质

Info

Publication number: CN113449066B
Application number: CN202111008153.7A
Authority: CN
Inventors: 刘俊中
Original assignee: Beijing Zeyun Ruihong Information Technology Co ltd
Current assignee: Yin Yi
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-07
Anticipated expiration: 2041-08-31
Also published as: CN113449066A

Abstract

本申请涉及数字化领域，具体涉及一种利用知识图谱来存储文物数据的方法、处理器及存储介质。方法包括获取多个文物数据，根据文物数据组成对应的文物数据集；对文物数据集进行清洗和预处理；对处理后的文物数据集进行实体和实体关系的抽取；根据实体和实体关系构建文物数据对应的文物知识图谱。该技术方案可以通过对获取的海量多源异构的文物数据进行处理，并通过对处理后的数据进行操作以构建与文物数据对应的文物知识图谱，使得可以基于文物知识图谱对文物数据进行操作和使用，在对文物知识进行检索时，基于文物知识图谱可以得到更高的准确率并且使得对目标知识的查询以及相关知识的查询更加便捷迅速。

Description

利用知识图谱来存储文物数据的方法、处理器及存储介质

技术领域

本申请涉及数字化领域，具体涉及一种利用知识图谱来存储文物数据的方法、处理器及存储介质。

背景技术

知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

目前的文物数字化工作已经取得了一定的进展,但主要局限于文物基本信息存储、数量统计及传统的关键词检索方式，而且传统检索方式的结果只是多条信息链接的罗列, 尚未构建文物的全景知识图谱。

在传统方法中，难以做到将海量、多源、异构的文物领域数据，通过自然语言处理、知识图谱等技术进行解析和组织，构建文物领域的知识图谱。

发明内容

本申请的目的是为了克服现有技术存在的尚未构建文物的全景知识图谱问题，提供一种利用知识图谱来存储文物数据的方法、处理器及存储介质。该技术方案可以通过对获取的海量多源异构的文物数据进行处理，并通过对处理后的数据进行操作以构建与文物数据对应的文物知识图谱。

为了实现上述目的，本申请一方面提供一种利用知识图谱来存储文物数据的方法，包括：

获取多个文物数据，根据文物数据组成对应的文物数据集；

对文物数据集进行清洗和预处理；

对处理后的文物数据集进行实体和实体关系的抽取；

根据实体和实体关系构建文物数据对应的文物知识图谱。

在本申请实施例中，对文物数据集进行清洗和预处理包括：对文物数据集进行检测；利用Spark的重复数据分析方法对文物数据集中的重复数据进行删除；利用相关性检测对文物数据集中的无关数据进行删除；根据数据处理规则对文物数据集中的缺失数据进行删除和/或插补；利用数据平滑处理方法对文物数据集中的噪声数据进行处理。

在本申请实施例中，对处理后的文物数据集进行实体和实体关系的抽取包括：将清洗和预处理完成的文物数据集确定为文物数据模型；识别文物数据模型中的实体和实体关系；对符合预设规则的实体进行抽取。

在本申请实施例中，方法还包括：对文物数据模型中的文物数据进行检测，确定符合预设模式的文物数据；通过建立分词词典和使用正则匹配法识别预设模式的文物数据中的实体；通过正则匹配法对实体进行过滤，以抽取符合预设规则的实体。

在本申请实施例中，方法还包括：确定文物知识图谱中文物数据的数据来源；根据数据来源确定文物知识图谱的图谱数据；根据图谱数据对文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者；对实体的属性和关系进行增加、删除、更改操作中至少一者。

在本申请实施例中，方法还包括：利用TransE方法确定文物知识图谱中每个实体对，实体对包括主体和客体，以及主体与客体之间的关系；确定每个实体对的置信度；按照置信度从大至小的顺序对实体对进行排序；选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例；对实体关系实例进行分析与推理，确定存在隐藏关系的实体对。

在本申请实施例中，方法还包括：基于文物知识图谱生成文物知识图谱的可视化关联图。

在本申请实施例中，方法还包括：基于文物知识图谱生成文物知识图谱的可视化关联图。在本申请实施例中，方法还包括：获取关键词，在文物知识图谱中查找与关键词对应的目标实体；通过关联节点显示可视化关联图中目标实体与其他相关实体的关联关系；在文物知识图谱中通过关联节点查找与关联节点对应的实体。

本申请第二方面提供了一种处理器，被配置成执行上述任意实施例汇总的利用知识图谱来存储文物数据的方法。

本申请第三方面提供了一种存储介质，该机器可读存储介质上存储有指令，该指令在被上述处理器执行时使得上述处理器执行上述任意一个实施例中的利用知识图谱来存储文物数据的方法。

通过上述技术方案，可以通过对海量多源异构的文物数据进行清洗和预处理，并对处理后的文物数据进行实体和实体关系的抽取，以建立与文物数据对应的文物知识图谱，使得可以基于文物知识图谱对文物数据进行操作和使用，在对文物知识进行检索时，基于文物知识图谱可以得到更高的准确率并且使得对目标知识的查询以及相关知识的查询更加便捷迅速。

附图说明

图1示意性示出了根据本申请一实施例的利用知识图谱来存储文物数据的方法的流程示意图；

图2示意性示出了根据本申请一实施例的文物知识图谱系统的结构框图；

图3示意性示出了根据本申请实施例的计算机设备的内部结构图。

具体实施方式

以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请，并不用于限制本申请。

需要说明，若本申请实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

如图1示意性示出了根据本申请实施例的利用知识图谱来存储文物数据的方法的流程示意图，如图1所示，在本申请一实施例中，提供了一种利用知识图谱来存储文物数据的方法，包括以下步骤：

步骤101，获取多个文物数据，根据文物数据组成对应的文物数据集；

文物知识图谱需要基于海量、多源、异构文物数据进行构建，多源主要指数据来源多样化，异构主要指数据结构上的差异性。处理器可以获取多个多源异构的文物数据，例如，结构化数据、半结构化数据、非结构化数据以及时空数据。其中结构化数据可以是以人或者机构的ID为锚点来聚合不同的信息数据，非结构化数据可以是以视频、图像、语音和文本为代表，后续大多需要经过分析处理变成结构化数据才能被使用的数据，时空数据是同时具有时间和空间维度的以地理信息数据为代表的数据。处理器在通过多种数据来源获得海量的不同结构的数据后，可以将文物数据组成对应的文物数据集。

步骤102，对文物数据集进行清洗和预处理。

由于此时文物数据集中收集的文物数据来源广泛、数据结构杂乱。处理器在获得文物数据集后，可以对文物数据集中的数据进行清洗和预处理，提取出文物数据集中的有效数据。

在一个实施例中，对文物数据集进行清洗和预处理包括：对文物数据集进行检测；利用Spark的重复数据分析方法对文物数据集中的重复数据进行删除；利用相关性检测对文物数据集中的无关数据进行删除；根据数据处理规则对文物数据集中的缺失数据进行删除和/或插补；利用数据平滑处理方法对文物数据集中的噪声数据进行处理。

处理器可以对文物数据集中的数据进行检测，可以检测出重复数据、无关数据、缺失数据、噪声数据等无效数据，处理器可以对文物数据集中的无效数据进行处理以得到有效文物数据集。

对于重复数据，处理器可以使用基于Spark的重复数据分析法去除文物数据集中的重复数据；通过相关性检测对于文物数据集中的无关数据进行删除；对于文物数据集合中的缺失数据，处理器可以根据数据处理法则对缺失数据进行删除，或者，处理器可以使用拉格朗日插值法、牛顿插值法等方法对缺失数据进行插补，以实现对缺失数据的清洗或补全；对于文物数据集合中的噪声数据，处理器可以采用数据平滑方法对噪声数据进行处理，以此来降低噪声数据对整个文物数据集的影响。

由于文物数据集中的数据来源广泛、结构多样性，处理器可以设置针对不同结构数据的存储模型，例如，设置针对结构化数据、半结构化数据和非结构化数据的存储模型。对于完成了清洗和预处理操作的数据，处理器可以将数据存储在基于Hadoop的分布式文件系统或者非关系型数据库中。处理器可以基于动态本体技术为处理完成的数据提供一个数据模型，由于是基于动态本体技术，所以提供的数据模型灵活多变，方便文物数据的管理和多源数据的集成和灵活扩展。

步骤103，对处理后的文物数据集进行实体和实体关系的抽取。

处理器在对文物数据集中的无效数据进行处理后，可以得到有效的文物数据集。处理器可以对处理后的文物数据集进行实体和实体关系的抽取。实体指的可以是现实世界中的事物，比如人、地名、公司、电话、动物等；关系则用来表达不同实体之间的某种联系。

在一个实施例中，将清洗和预处理完成的文物数据集确定为文物数据模型；识别文物数据模型中的实体和实体关系；对符合预设规则的实体进行抽取。

处理器对文物数据集中的数据进行清洗和预处理后，处理器可以基于动态本体技术将完成清洗和预处理操作的文物数据集确定为文物数据模型，文物数据模型灵活多变，方便文物数据的管理和多源文物数据的集成和灵活扩展。对于文物数据模型中的实体与实体之间的关系进行识别，实体指的可以是显示世界中的事物。例如，文物作品、文物作者、文物展览会等实体，再对实体之间的关系进行识别，例如文物作者与文物作品之间的关系为创作关系，文物作品与文物展览会之间的关系为展出关系。处理器可以对数据模型中的实体与实体之间的关系进行识别，并按照预设规则对实体进行抽取。

在一个实施例中，对文物数据模型中的文物数据进行检测，确定符合预设模式的文物数据；通过建立分词词典和使用正则匹配法识别预设模式的文物数据中的实体；通过正则匹配法对实体进行过滤，以抽取符合预设规则的实体。

处理器首先可以对文物数据模型中的文物数据进行检测，确定文物数据模型中符合预设模式的文物数据，预设模式可以是特定模式或特定规律。处理器可以构建分词词典，分词词典常用机制有基于整词二分、基于TRIE索引树和基于逐字二分。对于符合预设模式的文物数据，处理器可以通过构建的分词词典和使用正则匹配的方法对文物数据中的实体进行识别，并通过正则匹配过滤方法，将文物数据中符合预设规则的实体抽取出来。

对于文物数据模型中不符合预设模式的文物数据，处理器可以结合Seq2Seq机制与Attention机制。其中，Seq2Seq机制即为Sequence to Sequence机制，与Attention机制均为循环神经网络RNN结构的变种，Seq2Seq 是自然语言处理中的一种重要模型，可以用于机器翻译、对话系统、自动文摘等。处理器可以结合Seq2Seq机制与Attention机制然后结合迁移学习的技术，将在已有领域数据上训练得到的模型能力迁移到文物领域数据上，减轻领域数据缺少标记数据的困难。Seq2Seq机制与Attention机制结合分为Encoder 阶段、Attention 阶段与Decoder 阶段。处理器使用该方法，将Seq2Seq机制与Attention机制融入文物领域知识图谱的实体关系识别中。

步骤104，根据实体和实体关系构建文物数据对应的文物知识图谱。

在处理器将文物数据模型中的实体与实体之间的关系进行抽取后，可以根据文物数据中的实体与实体之间的关系构建与文物数据对应的文物知识图谱。

在一个实施例中，确定文物知识图谱中文物数据的数据来源；根据数据来源确定文物知识图谱的图谱数据；根据图谱数据对文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者；对实体的属性和关系进行增加、删除、更改操作中至少一者。

在处理器建立了与文物数据对应的文物知识图谱后，还需要对文物知识图谱进行运营维护。处理器可以确定文物知识图谱中的文物数据的来源，根据数据来源确定文物知识图谱中的图谱数据，使得文物知识图谱与数据源保持同步以保证文物知识图谱的质量。处理器可以根据文物知识图谱中的图谱数据对文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者；对于文物知识图谱中的实体的属性和实体关系进行增加、删除、更改操作中至少一者。

在一个实施例中，利用TransE方法确定文物知识图谱中每个实体对，实体对包括主体和客体，以及主体与客体之间的关系；确定每个实体对的置信度；按照置信度从大至小的顺序对实体对进行排序；选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例；对实体关系实例进行分析与推理，确定存在隐藏关系的实体对。

TransE方法即TransE算法，是为了解决多关系数据（multi-relational data）的处理问题。将每个三元组实例（head，relation，tail）中的关系relation看作从实体head到实体tail 的翻译，通过不断调整h、r 和t（head、relation 和tail 的向量），使（h + r）尽可能与 t 相等，即 h + r = t。TransE 定义了一个距离函数 d(h +r, t)，它用来衡量h + r 和 t 之间的距离，在实际应用中可以使用 L1 或 L2 范数。在模型的训练过程中，TransE 采用最大间隔方法。在关系推理中，首先利用TransE学习到实体和关系的表示，为可能存在这两个逻辑规则的实体关系计算置信度，然后进行排序，进而选择符合逻辑规则的实体关系实例。在基于混合规则与分布式表示的隐含语义推理中，分布式表示辅助规则发现方面拟采用上下文敏感的推理规则发现方法。规则辅助基于分布式表示的推理方面，无缝嵌入逻辑规则和物理规则，并形式化推理为整型线性规划问题(ILP)。

处理器可以利用TransE方法确定文物知识图谱中每个实体对，实体对由主体实体和客体实体以及主体实体与客体实体之间的实体关系组成。处理器对每一个实体对的置信度进行确认，并按照置信度从大到小的顺序对实体对进行排序。处理器可以设置预设数量，选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例。处理器可以从置信度最大的实体对开始向下选取预设数量个实体对作为符合预设逻辑规则的实体关系实例。处理器可以对选取出来实体关系实例进行分析与推理，确定存在隐藏关系的实体对。

知识推理的目标是从知识图谱构建的语义数据结构中挖掘、发现、推演出相关的隐藏知识或新知识。在科技领域知识图谱构建过程中，需要利用已有的基本数据、题材、衍生数据等实体，进一步推理出诸如创作、传承、展陈等关系。在本申请的技术方案中研究大规模知识实体的网络关系分析方法，研究基于深度表示学习的文物知识图谱三元组编码技术，将文物相关人员及基本数据、题材、衍生数据的语义信息映射到低维的浅层特征表示空间（语法、语义空间），以推测文物知识图谱中存在的传承、展陈等隐式知识，从而丰富、扩展文物领域知识库。

处理器可以基于知识图谱进行智能语义搜索。基于知识图谱的智能语义搜索，可以提供复杂的语义理解和关联信息展示两种技术能力。文物知识图谱的语义检索支持文物的实体属性问答和部分实体关系问答，复杂的语义检索支持基于业务模板的定制，例如，可以回答“后母戊鼎参加的展览有哪些”之类的检索。文物实体关联信息的展示支持实体识别和实体链接，同时将实体属性和关联实体进行集成展示。

在一个实施例中，基于文物知识图谱生成文物知识图谱的可视化关联图。

处理器在获得文物知识图谱后，可以根据文物知识图谱生成文物知识图谱的可视化关联图。关联图可以时文物实体的关联图，关联图可以将文物知识图谱中实体之间的关联关系进行展示。例如文物作品与文物创作者之间的关联关系，文物作品与文物展览之间的关联关系等等，都可以通过可视化关联图进行展示。

在一个实施例中，方法还包括：获取关键词，在文物知识图谱中查找与关键词对应的目标实体；通过关联节点显示可视化关联图中目标实体与其他相关实体的关联关系；在文物知识图谱中通过关联节点查找与关联节点对应的实体。

处理器在基于文物知识图谱生成文物知识图谱的可视化关联图后，可以获取接收到的关键词，在获取到关键词后，处理器可以根据关键词对文物实体的关联图进行实体检索，从而查找到与接收到的关键词对应的目标实体。关联图还可以包括关联节点，关联节点可以显示文物实体关联图中目标实体与其他相关实体的关联关系。例如，处理器接受到的关键词为具体的文物作品名称，处理器可以根据接收到的关键词查找到与该文物作品相关的关联图，关联图可以包括若干个关联节点，例如关联节点包括由“创作”“拥有”“展出”等，通过这些关联节点可以显示关联图中目标实体和其他相关实体的关联关系，例如，可以根据“创作”关联节点显示目标实体即该文物作品，与相关实体例如文物作者之间的关联关系。

关联图中的关联节点可以进行逐层伸展和收缩，可以交互式对文物知识图谱进行可视化浏览和分析。处理器可以在文物知识图谱中通过关联节点查找与关联节点对应的实体。例如，通过关键词搜索到目标实体的关联图后，根据关联节点可以找到与目标实体相关的实体，对于相关的实体可以继续通过相关实体的关联节点对下一步需要浏览的实体进行查找。例如，假设根据关键词查找到了“文物作品”的关联图，此时可以根据“文物作品”的关联节点找到相关实体，假设根据“文物作品”的“创作”关联点获取到了相关实体即“文物作者”，此时可以继续通过“文物作者”的关联节点进行浏览，例如，此时可以根据“文物作者”的“作品”关联节点查找该文物作者的其他文物作品实体。

处理器在确定了文物知识图谱后，可以通过提供的文物知识图谱API接口，方便第三方系统进行对接调用，可以充分发挥出系统灵活调用、多远集成和跨平台交互的能力。可以基于API开发各种文物相关的智能应用。

在一个实施例中，提供一种处理器，被配置成执行上述任意一项的利用知识图谱来存储文物数据的方法。

在一个实施例中，如图2所示，处理器可以根据文物知识图谱构建文物知识图谱系统200，文物知识图谱系统200可以包括数据采集模块201；数据处理模块202；数据应用模块203。数据采集模块201是为了收集文物知识图谱源数据并进行初步清洗，可以包括文物数据自动抽取模块201-1；文物半结构数据采集模块201-2；文物文本数据抽取模块201-3。数据处理模块202是为了构建和使用文物知识图谱的核心，包括文物知识图谱存储模块202-1，可以对文件进行分布式存储，对大规模知识图谱进行存储，图片进行存储以及进行分布式索引；文物数据分析模块202-2，可以对离线数据进行分析，对在线数据进行查询，可以包含有图算法处理引擎以及规则推理引擎；数据安全管理模块202-3可以进行配置管理、权限管理以及数据访问监控；数据融合模块202-4可以进行语义映射、实体链接以及实体匹配。数据应用模块203还可以包括文物全景画像可视分析模块203-1，可以进行关联视图、子图搜索以及路径搜索；文物知识语义搜索模块203-2可以进行知识问答以及确定复杂问题模板；开发模块203-3可以进行应用开发。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现利用知识图谱来存储文物数据的方法。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述利用知识图谱来存储文物数据的方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器（图中未示出）和数据库（图中未示出）。其中，该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库（图中未示出）。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的数据库用于存储获取的海量的多源异构的文物数据。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种利用知识图谱来存储文物数据的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取多个文物数据，根据文物数据组成对应的文物数据集；对文物数据集进行清洗和预处理；对处理后的文物数据集进行实体和实体关系的抽取；根据实体和实体关系构建文物数据对应的文物知识图谱。

在一个实施例中，对处理后的文物数据集进行实体和实体关系的抽取包括：将清洗和预处理完成的文物数据集确定为文物数据模型；识别文物数据模型中的实体和实体关系；对符合预设规则的实体进行抽取。

在一个实施例中，方法还包括：对文物数据模型中的文物数据进行检测，确定符合预设模式的文物数据；通过建立分词词典和使用正则匹配法识别预设模式的文物数据中的实体；通过正则匹配法对实体进行过滤，以抽取符合预设规则的实体。

在一个实施例中，方法还包括：确定文物知识图谱中文物数据的数据来源；根据数据来源确定文物知识图谱的图谱数据；根据图谱数据对文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者；对实体的属性和关系进行增加、删除、更改操作中至少一者。

在一个实施例中，方法还包括：利用TransE方法确定文物知识图谱中每个实体对，实体对包括主体和客体，以及主体与客体之间的关系；确定每个实体对的置信度；按照置信度从大至小的顺序对实体对进行排序；选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例；对实体关系实例进行分析与推理，确定存在隐藏关系的实体对。

在一个实施例中，方法还包括：基于文物知识图谱生成文物知识图谱的可视化关联图。

在一个实施例中，方法还包括：基于文物知识图谱生成文物知识图谱的可视化关联图。在本申请实施例中，方法还包括：获取关键词，在文物知识图谱中查找与关键词对应的目标实体；通过关联节点显示可视化关联图中目标实体与其他相关实体的关联关系；在文物知识图谱中通过关联节点查找与关联节点对应的实体。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。

此外，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

Claims

1.一种利用知识图谱来存储文物数据的方法，其特征在于，所述方法包括：

获取多个文物数据，根据所述文物数据组成对应的文物数据集；

对所述文物数据集进行检测；

利用Spark的重复数据分析方法对所述文物数据集中的重复数据进行删除；

利用相关性检测对所述文物数据集中的无关数据进行删除；

根据数据处理规则对所述文物数据集中的缺失数据进行删除和/或插补；

利用数据平滑处理方法对所述文物数据集中的噪声数据进行处理；

设置针对结构化数据、半结构化数据和非结构化数据的存储模型，基于动态本体技术为处理完成的所述文物数据提供数据模型；

对处理后的文物数据集进行实体和实体关系的抽取，并对所述处理后的文物数据进行检测，以确定文物数据模型中符合预设模式的文物数据，预设模式是特定模式或特定规律；

对于符合预设模式的文物数据，通过构建的分词词典和使用正则匹配的方法对文物数据中的实体进行识别，并通过正则匹配过滤方法，将文物数据中符合预设规则的实体抽取出来；

对于不符合预设模式的文物数据，结合Seq2Seq机制、Attention机制与迁移学习，将在已有领域数据上训练得到的模型能力迁移到文物领域数据上，以将文物数据中的实体抽取出来，以减轻领域数据缺少标记数据的困难；根据所述实体和所述实体关系构建所述文物数据对应的文物知识图谱；

确定所述文物知识图谱中所述文物数据的数据来源；

根据所述数据来源确定所述文物知识图谱的图谱数据；

根据所述图谱数据对所述文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者；

对所述实体的属性和关系进行增加、删除、更改操作中至少一者；

利用TransE方法确定所述文物知识图谱中每个实体对，所述实体对包括主体和客体，以及所述主体与客体之间的关系；

确定每个实体对的置信度；

按照置信度从大至小的顺序对实体对进行排序；

选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例；

对所述实体关系实例进行分析与知识推理，确定存在隐藏关系的实体对。

2.根据权利要求1所述的方法，其特征在于，所述对处理后的文物数据集进行实体和实体关系的抽取包括：

将清洗和预处理完成的文物数据集确定为文物数据模型；

识别所述文物数据模型中的实体和实体关系；

对符合预设规则的实体进行抽取。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述文物数据模型中的文物数据进行检测，确定符合预设模式的文物数据；

通过建立分词词典和使用正则匹配法识别所述预设模式的文物数据中的实体；

通过所述正则匹配法对所述实体进行过滤，以抽取符合所述预设规则的实体。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述文物知识图谱生成所述文物知识图谱的可视化关联图。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取关键词，在所述文物知识图谱中查找与所述关键词对应的目标实体；

通过关联节点显示所述可视化关联图中所述目标实体与其他相关实体的关联关系；

在所述文物知识图谱中通过所述关联节点查找与所述关联节点对应的实体。

6.一种处理器，其特征在于，被配置成执行根据权利要求1至5中任意一项所述的利用知识图谱来存储文物数据的方法。

7.一种机器可读存储介质，该机器可读存储介质上存储有指令，其特征在于，该指令在被处理器执行时使得所述处理器执行根据权利要求1至5中任意一项所述的利用知识图谱来存储文物数据的方法。