CN115658919A

CN115658919A - 一种文化信息数字化存储方法

Info

Publication number: CN115658919A
Application number: CN202211345692.4A
Authority: CN
Inventors: 张以文; 刘名远; 颜登程
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-31

Abstract

本发明公开了一种文化信息数字化存储方法，所述方法包括：获取某地区商人在网络上多平台、多结构、多模态的数据；针对不同结构的数据采用不同的预处理方法；对不同知识图谱的实体序列的嵌入表示进行相似度计算，相似度超过相似度阈值的两个实体进行对齐处理，将对齐处理的实体及其他实体均存储在MongoDB数据库；将MongoDB数据库中存储的实体和关系的三元组信息进行整合，导入到图数据库Neo4j中，得到某地区商人知识图谱；本发明的优点在于：准确建立实体链接，获得的知识图谱信息准确，存储的商人文化信息的可靠性强，实现文化信息的数字化存储。

Description

一种文化信息数字化存储方法

技术领域

本发明涉及知识图谱领域，更具体涉及一种文化信息数字化存储方法。

背景技术

自20世纪以来，国内外学者对各地文化也开展了一系列的研究，在文化形态和现象方面，发表了大量的学术论文和学术专著；在文化保护方面，采取多种措施科学保护物质和非物质文化遗产，同时设立各地文化生态保护实验区。其中，徽文化是徽州文化的缩写，名列于中国三大文化之一。徽文化是以徽州为核心发源地，同时也在徽州境外繁衍；徽州商人资源源远流长，起源最早可追溯至东晋时代，繁盛于嘉庆、万历之际，从海上贸易到大举移资盐商，经营规模和资本额也达到了传统商业的巅峰，因此徽商是徽文化中的核心组成部分之一。

上述工作虽然取得了较大的成就，以徽州商人文化为例，在徽州商人文化的保护、传承和创新等方面仍存在一些问题和挑战。目前的一些徽州商人文化的物质和非物质文化遗产处于散乱状态，在保护与传承中缺乏有效的科技手段，徽州商人文化面临消亡的危险。收集、挖掘多时期、多维度、多模态的徽州商人信息，进而构建徽州商人文化知识图谱，实现徽州商人文化信息的数字化存储，不但能对徽州商人文化遗产进行系统地梳理、挖掘与整合，而且能服务于下游新媒体文化传播。

近几年，通过知识图谱构建的方式展示相关文化信息，帮助人们更充分更直观的了解相关文化信息，逐渐成为行业研究热点。中国专利公开号CN109657068A，公开了一种面向智慧博物馆的文物知识图谱生成与可视化方法，包括：步骤1：针对文物导览的应用需求，设计文物知识图谱本体模型；步骤2：获取文物数据；步骤3：利用知识抽取工具抽取实体、属性、关系等信息。步骤4：将步骤3中的数据用知识图谱描述语言进行表示；步骤5：完成文物知识存储；步骤6：生成可视化的知识图谱以及交互界面。基于此方法，将现有的博物馆文物数据整理并生成动态且相互关联的文物知识图谱，并实现文物知识图谱的可视化展现与交互式浏览。

虽然上述专利文献给出了知识图谱生成和可视化方法，但是在知识抽取过程中结构化数据由于其结构固定，可以直接使用，而半结构化和非结构化数据具有的数量大，信息密度低，难以有效利用，导致知识抽取并不准确，从而最终形成的知识图谱信息不全。中国专利公开号CN113806563A，公开了面向多源异构建筑人文史料的建筑师知识图谱构建方法，采用词法分析、规则抽取和深度学习的方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识，并将抽取得到的多源异构知识进行融合。最后，得到由知识三元组构成的近现代建筑师知识图谱，并将其存储于图数据库中。其解决了半结构化和非结构化数据的抽取问题，使得最终形成的知识图谱信息较全。但是通过知识抽取获得的知识表达信息存在矛盾和歧义，例如同一实体在文本中会有不同的指称，或相同的实体名称在不同的上下文中可以指不同的实体，因此需要对其整合，准确建立实体链接，但是该专利申请并没有考虑到知识抽取获得的知识表达信息存在矛盾和歧义的问题，从而无法建立准确的实体链接，最终获得的知识图谱信息不够准确，从而导致存储的文化信息的可靠性不强。

发明内容

本发明所要解决的技术问题在于现有技术知识图谱构建方法无法建立准确的实体链接，最终获得的知识图谱信息不够准确，从而导致存储的文化信息的可靠性不强。

本发明通过以下技术手段实现解决上述技术问题的：一种文化信息数字化存储方法，所述方法包括：

步骤一：获取某地区商人在网络上多平台、多结构、多模态的数据；

步骤二：根据数据结构的类型将数据分为结构化、半结构化和非结构化数据，针对不同结构的数据采用不同的预处理方法；

步骤三：针对预处理后的数据，基于TransE模型设计损失函数，对不同知识图谱中的实体的嵌入表示进行训练，得到实体的嵌入表示，对不同知识图谱的实体序列的嵌入表示进行相似度计算，相似度超过相似度阈值的两个实体进行对齐处理，将对齐处理的实体及其他实体均存储在MongoDB数据库；

步骤四：将MongoDB数据库中存储的实体和关系的三元组信息进行整合，导入到图数据库Neo4j中，得到某地区商人知识图谱。

本发明考虑到知识抽取获得的知识表达信息存在矛盾和歧义的问题，基于TransE模型设计损失函数，对不同知识图谱中的实体的嵌入表示进行训练，得到实体的嵌入表示，对不同知识图谱的实体序列的嵌入表示进行相似度计算，相似度超过相似度阈值的两个实体进行对齐处理，准确建立实体链接，获得的知识图谱信息准确，存储的商人文化信息的可靠性强，实现文化信息的数字化存储。

进一步地，所述步骤一包括：

步骤101：通过聚焦网络爬虫爬取某地区商人有关的多模态数据；

步骤102：采用MongoDB数据库进行数据的组织与存储。

进一步地，所述步骤二包括：

步骤201：针对结构固定的结构化数据，通过D2RQ将关系数据库公开为资源描述框架；

步骤202：针对半结构化和无结构化数据，进行预处理，过滤掉其中的无效文本，并对长文本进行分句处理；

步骤203：将预处理后的句子作为BERT模型的输入，对整个句子进行编码，获取每个词的隐层嵌入；

步骤204：对每个词的隐层嵌入解码，构建两个二分类分类器预测实体的开始和结束的索引位置，对每一个词，计算其作为一个实体的开始位置和结束位置的概率；

步骤205：利用对象标记器对每个识别到的实体识别相应的对象，对每一个词，计算其作为对象的开始位置和结束位置的概率；

步骤206：将从半结构化和无结构化数据提取得到的三元组及其上下文信息保存，共同存储在MongoDB数据库中，和基于结构化数据提取的信息构成了初步的知识图谱数据集。

更进一步地，所述步骤203包括：

通过公式

e₀＝SW_s+W_p

e_α＝Trans(e_α-1),α∈[1,N]

获取每个词的隐层嵌入；

其中，S是输入句子中子词索引的独热向量矩阵，W_s是子词的嵌入矩阵，W_p是位置嵌入矩阵，p代表输入序列中的位置指数，e_α是隐式状态矢量，即输入句子在第α层的上下文表示，Trans表示Transformer模块，N是Transformer模块的数量。

更进一步地，所述步骤204包括：

对每一个词，通过公式

计算其作为一个实体的开始位置的概率；

对每一个词，通过公式

计算其作为一个实体的结束位置的概率；

其中，

和

分别代表将输入序列中的第i个标记识别为一个实体的开始和结束位置的概率；x_i是输入序列中第i个标记的编码表示，即x_i＝e_N[i]，W_st、W_ed表示权重，b_st、b_ed是偏置，σ是Sigmoid激活函数。

更进一步地，所述步骤205包括：

对每一个词，通过公式

计算其作为对象的开始位置的概率；

对每一个词，通过公式

计算其作为对象的结束位置的概率；

其中，

和

分别代表将输入序列中的第i个标记识别为对象的开始和结束位置的概率，

代表检测到的第k个对象的编码表示向量，

均为权重，

均为偏置。

进一步地，所述步骤三包括：

步骤301：初始化设定相似度阈值为0.95；

步骤302：计算针对实体的结构嵌入信息的损失函数J_SE；

步骤303：计算针对实体的属性字符嵌入的损失函数J_CE；

步骤304：计算属性字符嵌入帮助结构嵌入在同一向量空间进行训练的损失函数J_SIM，叠加损失函数J_SE、损失函数J_CE以及损失函数J_SIM得到总体目标函数J，通过联合学习损失函数J对实体的嵌入表示进行训练，得到实体最终的嵌入表示；

步骤305：计算不同知识图谱的实体序列的余弦相似度，相似度超过相似度阈值的两个实体进行对齐处理，将对齐处理的实体及其他实体均存储在MongoDB数据库。

更进一步地，所述步骤302包括：

对于一个知识图谱G，定义关系三元组为<h,r,t>，属性三元组为<h,r,a>其中h表示头实体，t表示尾实体，r表示头实体和尾实体之间的关系，a是头实体相对于关系的属性值，h,r,t,a分别表示对应元素的矢量表示；

通过公式

计算损失函数J_SE；

其中，

count(r)为关系r出现的次数，T为合并后的知识图谱中三元组总数目，f(t_r)＝||h+r-t||，t_r是有效关系的三元组，t′_r是通过随机替换关系三元组中头实体h或者关系r形成的损坏样本，即负样本；T_r表示来自训练集的有效关系三元组的集合，T_r′表示损坏样本的关系三元组的集合，γ是用来控制正负样本间距的超参数。

更进一步地，所述步骤303包括：

将三元组中每个元素的关系定义为h+r＝f_a(a)，其中，f_a(a)是组合函数，a是属性值a＝{c₁,c₂,c₃,...,c_t}的字符序列，组合函数将属性值编码为单个向量，并将类似的属性值映射到类似的向量表示，组合函数计算公式为

其中，N表示N-gram组合中使用的组合的最大值，t为属性值的长度；

通过公式

计算损失函数J_CE，其中，T_a是有效属性三元组的集合，T_a′是损坏的属性三元组的集合，t_a表示T_a中的元素，t′_a表示T_a′中的元素，f(t_a)是基于头实体h的嵌入h、关系r的嵌入r以及使用组合函数f_a(a)计算的属性值的向量表示的可信度分数，且f(t_a)＝||h+r-f_a(a)||。

更进一步地，所述步骤304包括：

通过公式

计算损失函数J_SIM，其中，G₁,G₂表示两个需要对齐的知识图谱，h_se表示结构嵌入矢量，h_ce表示属性字符嵌入矢量；

使用联合学习方法，对损失函数J_SE、损失函数J_CE以及损失函数J_SIM求和得到总体目标函数J＝J_SE+J_CE+J_SIM，对实体的嵌入表示进行训练，当总体目标函数J最小时停止训练，得到实体最终嵌入表示。

更进一步地，所述步骤305包括：

通过公式

计算不同知识图谱的实体序列的相似度，其中h₁为知识图谱G₁的某一指定实体的嵌入表示，h₂∈G₂为知识图谱G₂的所有实体的嵌入表示，cos为余弦相似度。相似度超过相似度阈值的两个实体进行对齐处理，得到实体对齐对<h₁,h_sim>，将对齐处理的实体及其他实体均存储在MongoDB数据库。

本发明的优点在于：

(1)本发明考虑到知识抽取获得的知识表达信息存在矛盾和歧义的问题，基于TransE模型设计损失函数，对不同知识图谱中的实体的嵌入表示进行训练，得到实体的嵌入表示，对不同知识图谱的实体序列的嵌入表示进行相似度计算，相似度超过相似度阈值的两个实体进行对齐处理，准确建立实体链接，获得的知识图谱信息准确，存储的商人文化信息的可靠性强，实现文化信息的数字化存储。

(2)本发明采用聚焦网络爬虫来获取特定主题的相关数据，面对互联网中多模态的徽商数据，根据数据结构的类型分类进行数据收集、清洗、挖掘等过程。

(3)本发明通过基于BERT的实体关系联合抽取方法自动提取三元组信息，提高实体和关系识别的准确率，同时降低工作量的大小和对相关技术人员的依赖。

(4)本发明通过建立徽商知识图谱，收集、挖掘多时期、多维度、多模态的商人信息，进而实现商人文化信息的数字化存储，有利于对商人文化的挖掘和保护。

附图说明

图1为本发明实施例所公开的一种文化信息数字化存储方法的流程图；

图2为本发明实施例所公开的一种文化信息数字化存储方法的算法原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，一种文化信息数字化存储方法，以徽州商人文化信息为例，所述方法包括：

S1：知识感知。徽州商人数据处于散乱状态，具有碎片化、覆盖范围广等特点，因此徽州商人数据主要从网络平台以及古籍文献等信息源获取。获取的数据具有多模态的特点，其中文本数据是最主要的数据类型，此外还有音频、图片和视频等文件数据。通过爬虫来获取徽州商人在网络上多平台、多结构、多模态的数据，并对于获取到的数据采用MongoDB数据库进行存储。根据数据结构的类型将收集到的数据分为结构化、半结构化和非结构化数据，针对不同结构的数据采用不同的预处理方法和存储方法。

具体过程为：

步骤101：通过聚焦网络爬虫来选择性爬取于徽州商人有关的多模态数据。具体的，基于互联网中大量的公开数据，以徽州商人为主题，采用聚焦网络爬虫收集与徽州商人有关的多模态多结构化数据信息。结构化数据包括现有的公开关系数据库：如中国历史人物传记资料库(CBDB)；半结构化数据包括百科、XML、JSON等；非结构化数据包括图片、音频、视频、文本等。

步骤102：针对收集到的数据规模大、模态多的特点，采用MongoDB数据库进行异构数据的组织于存储。具体来说，徽州商人数据包含文本、图片、音频、视频、空间位置信息等。其中对于占大多数的文本信息，可直接使用MongoDB中文档格式进行存储，对于图片、音视频、等使用MongoDB中的GridFS进行存储，并以数组形式添加到父类型文件的文档中，既有利于数据库的横向拓展，又减少了查询数据库的时间开销。

S2：知识抽取。结构化数据由于其结构固定，可以直接使用，因此只需要通过D2RQ将其转化为相应的三元组形式。针对半结构化和非结构化数据具有的数量大，信息密度低，难以有效利用的特点，可以采用基于BERT的实体关系联合抽取方法，利用海量的数据进行模型训练，获得包含实体及其关系的三元组信息，进而更好地抽取数据中的实体与关系。具体过程为：

步骤201：针对结构固定的结构化数据，通过D2RQ将关系数据库(RDB)公开为资源描述框架(RDF)。具体地，首先根据特定的关系数据库生成相应的映射文件，说明数据库的表和列并与输出本体中的类和属性进行映射。之后建立一个由映射文件设定的D2RQ实例，并且将该实例包装为一个Jena模型，以虚拟RDF图的方式访问关系数据库，将得到的三元组存储在MongoDB数据库中。

步骤202：针对半结构化和无结构化数据，使用正则表达式进行预处理，过滤掉其中的无效文本，同时对长文本进行分句处理，以进行高效的关系抽取，并将预处理后的数据暂存于数据库中，作为实体关系联合抽取模型的输入。

步骤203：使用基于转换的双向编码器表示(Bidirectional EncoderRepresentations from Transformers，BERT)语言框架，将预处理后的句子作为BERT模型输入，对整个句子进行编码，获取每个词的隐层嵌入。

e₀＝SW_s+W_p

e_α＝Trans(e_α-1),α∈[1,N]

步骤204：对BERT编码器获得的词的隐式嵌入解码，构建两个二分类分类器预测实体的开始(Start)和结束(End)的索引位置，对每一个词，计算其作为Start和End的概率：

其中，

和

分别代表将输入序列中的第i个标记识别为一个实体的开始和结束位置的概率；x_i是输入序列中第i个标记的编码表示，即x_i＝e_N[i]，W_st、W_ed表示权重，b_st、b_ed是偏置，σ是Sigmoid激活函数。将每个索引位置的词的概率与某个阈值进行比较，大于则标记为1，否则标记为0。

步骤205：针对实体关系的抽取则利用高层标签模块，识别对象同时与低层获得的实体有关的特点，将所有的对象标记器同时为每个检测到的主体识别相应的对象。具体操作为：

其中，

和

代表检测到的第k个对象的编码表示向量，

均为权重，

均为偏置。对于每个实体，对其迭代应用相同的解码过程。

S3：知识融合。由于通过知识抽取获得的知识表达信息存在矛盾和歧义，例如同一实体在文本中会有不同的指称，或相同的实体名称在不同的上下文中可以指不同的实体，因此需要对其整合，采用基于自监督的实体对齐方法，有效挖掘实体名称项信息，计算实体名称项和实体概念之间的相似度,根据实体上下文语境，准确建立实体链接。具体过程为：

步骤301：为了使关系嵌入具有统一的向量空间，从而实现结构嵌入和属性特征嵌入的联合学习，通过计算关系的最后部分的编辑距离(Levenshtein Distance)并将0.95设置为相似度阈值，将相似的关系进行合并。

步骤302：对于一个知识图谱G，定义关系三元组为<h,r,t>，属性三元组为<h,r,a>其中h表示头实体，t表示尾实体，r表示头实体和尾实体之间的关系，a是头实体相对于关系的属性值，h,r,t,a分别表示对应元素的矢量表示。

针对实体的结构嵌入信息，采用TransE模型来学习对于实体的结构嵌入，计算：

其中，count(r)为关系r出现的次数，T为合并后的知识图谱中三元组总数目，f(t_r)＝||h+r-t||，t_r是有效关系的三元组，t′_r是通过随机替换关系三元组中头实体h或者关系r形成的损坏样本，即负样本；T_r表示来自训练集的有效关系三元组的集合，T_r′表示损坏样本的关系三元组的集合，γ是用来控制正负样本间距的超参数。

步骤303：针对属性字符嵌入，参考TransE的思想，将关系r解释为从头部实体h到属性a的转换，使用组合函数对属性值进行编码，并将属性三元组中每个元素的关系定义为：

h+r＝f_a(a)

其中，f_a(a)是组合函数，a是属性值a＝{c₁,c₂,c₃,…,c_t}的字符序列。组合函数将属性值编码为单个向量，并将类似的属性值映射到类似的向量表示，计算基于N-gram的组合函数：

其中，N表示N-gram组合中使用的N的最大值N＝10，t为属性值的长度，并计算:

其中，T_a是有效属性三元组的集合，T_a′是损坏的属性三元组的集合，t_a表示T_a中的元素，t′_a表示T′_a中的元素，f(t_a)是基于头实体h的嵌入h、关系r的嵌入r以及使用组合函数f_a(a)计算的属性值的向量表示的可信度分数，且f(t_a)＝||h+r-f_a(a)||。

步骤304：通过属性字符嵌入h_ce来帮助结构嵌入h_se在同一向量空间进行训练，计算：

其中，G₁,G₂表示两个需要对齐的知识图谱，h_se表示结构嵌入矢量，h_ce表示属性字符嵌入矢量，cos(h_se,h_ce)是向量h_se和h_ce的余弦相似度。

计算结构嵌入和属性特征嵌入联合学习的总体目标函数:

J＝J_SE+J_CE+J_SIM

使用联合学习方法，对实体的嵌入表示进行训练，当总体目标函数J最小时停止训练，得到实体最终嵌入表示。

在经过上述目标函数的优化过程后，相似的实体将会有相似的向量表示，计算潜在的需要对齐的不同知识图谱的实体的相似度：

其中，h₁为知识图谱G₁的某一指定实体的嵌入表示，h₂∈G₂为知识图谱G₂的所有实体的嵌入表示，cos为余弦相似度。相似度超过相似度阈值的两个实体进行对齐处理，得到实体对齐对<h₁,h_sim>，将对齐处理的实体及其他实体均存储在MongoDB数据库。

S4：知识计算。基于整合后的知识信息，进行知识图谱本体构建，将获取到的三元组存入图数据库Neo4j中，实现知识图谱的初始化。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文化信息数字化存储方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种文化信息数字化存储方法，其特征在于，所述步骤一包括：

步骤101：通过聚焦网络爬虫爬取商人有关的多模态数据；

步骤102：采用MongoDB数据库进行数据的组织与存储。

3.根据权利要求1所述的一种文化信息数字化存储方法，其特征在于，所述步骤二包括：

4.根据权利要求3所述的一种文化信息数字化存储方法，其特征在于，所述步骤203包括：

通过公式

e₀＝SW_s+W_p

e_α＝Trans(e_α-1),α∈[1,N]

获取每个词的隐层嵌入；

5.根据权利要求3所述的一种文化信息数字化存储方法，其特征在于，所述步骤204包括：

对每一个词，通过公式

计算其作为一个实体的开始位置的概率；

对每一个词，通过公式

计算其作为一个实体的结束位置的概率；

其中，

和

6.根据权利要求5所述的一种文化信息数字化存储方法，其特征在于，所述步骤205包括：

对每一个词，通过公式

计算其作为对象的开始位置的概率；

对每一个词，通过公式

计算其作为对象的结束位置的概率；

其中，

和

代表检测到的第k个对象的编码表示向量，

均为权重，

均为偏置。

7.根据权利要求1所述的一种文化信息数字化存储方法，其特征在于，所述步骤三包括：

步骤301：初始化设定相似度阈值为0.95；

步骤302：计算针对实体的结构嵌入信息的损失函数J_SE；

步骤303：计算针对实体的属性字符嵌入的损失函数J_CE；

8.根据权利要求7所述的一种文化信息数字化存储方法，其特征在于，所述步骤302包括：

通过公式

计算损失函数J_SE；

其中，

count(r)为关系r出现的次数，T为合并后的知识图谱中三元组总数目，f(t_r)＝||h+r-t||，t_r是有效关系的三元组，t′_r是通过随机替换关系三元组中头实体h或者关系r形成的损坏样本，即负样本；T_r表示来自训练集的有效关系三元组的集合，T′_r表示损坏样本的关系三元组的集合，γ是用来控制正负样本间距的超参数。

9.根据权利要求8所述的一种文化信息数字化存储方法，其特征在于，所述步骤303包括：

通过公式

计算损失函数J_CE，其中，T_a是有效属性三元组的集合，T_a′是损坏的属性三元组的集合，t_a表示T_a中的元素，t′_a表示T′_a中的元素，f(t_a)是基于头实体h的嵌入h、关系r的嵌入r以及使用组合函数f_a(a)计算的属性值的向量表示的可信度分数，且f(t_a)＝||h+r-f_a(a)||。

10.根据权利要求7所述的一种文化信息数字化存储方法，其特征在于，所述步骤304和步骤305包括：

通过公式

使用联合学习方法，对损失函数J_SE、损失函数J_CE以及损失函数J_SIM求和得到总体目标函数J＝J_SE+J_CE+J_SIM，对实体的嵌入表示进行训练，当总体目标函数J最小时停止训练，得到实体最终嵌入表示；

通过公式