CN113961528A - 基于知识图谱的文件语义关联存储系统及方法 - Google Patents

基于知识图谱的文件语义关联存储系统及方法 Download PDF

Info

Publication number
CN113961528A
CN113961528A CN202111255086.9A CN202111255086A CN113961528A CN 113961528 A CN113961528 A CN 113961528A CN 202111255086 A CN202111255086 A CN 202111255086A CN 113961528 A CN113961528 A CN 113961528A
Authority
CN
China
Prior art keywords
file
semantic
files
association
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111255086.9A
Other languages
English (en)
Inventor
蔡鸿明
潘子奕
于晗
姜丽红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111255086.9A priority Critical patent/CN113961528A/zh
Publication of CN113961528A publication Critical patent/CN113961528A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

一种基于知识图谱的文件语义关联存储系统及方法,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,本发明以工业生产领域过程中产生的多类型文件集为输入,结合领域知识图谱完成文件语义关联与分区,最后基于文件分块以及链式哈希完成文件分区安全存储,并形成相应的存储元数据。

Description

基于知识图谱的文件语义关联存储系统及方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种基于知识图谱的文件语义关联存储系统及方法。
背景技术
针对工业生产领域过程中产生的多类型文件的存储与归档是工业界数字化建设中必不可少的一步,然而目前工业界对于多类型文件的存储与归档仍然面临着以下几个方面的难题:首先,对于文件的处理分析方式单一,针对XML类型文件、图纸类型文件及文档类型文件等不同类型的文件都仅仅采用单一的通用元数据抽取方式,如何对于多类型文件针对性地进行文件特征抽取是一个重要的问题;另外,文件本身在文件系统中的存储极其孤立,除让文件管理者手动建立关联之外,如何智能化、自动化使得海量新旧文件之间关联起来并保证文件关联的完整性也是一个值得考虑的问题;最后,文件的存储往往简单地通过明文的方式存在文件系统中且也没有备份,如何在文件存储归档的同时提高文件的保密性、安全性以及防篡改性同样值得探索。
针对上述问题,当前业界已经存在一部分相关的技术,例如:对于文件关联对象进行查询和其他处理的实现方法、基于文件标题的关联性进行文件的自动关联方法、通过区块链来保证文件存储安全性的系统,但是这些技术大体上都关联维度单一、可扩展性差、效率低下,尚未出现较为完整、成熟的解决方案。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于知识图谱的文件语义关联存储系统及方法,以工业生产领域过程中产生的多类型文件集为输入,结合领域知识图谱完成文件语义关联与分区,最后基于文件分块以及链式哈希完成文件分区安全存储,并形成相应的存储元数据。
本发明是通过以下技术方案实现的:
本发明涉及一种基于知识图谱的文件语义关联存储系统,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,其中:多模态特征抽取模块对输入的多类型文件集进行多模态分析及特征抽取进一步转化为包含特征信息的语义抽象文件集;结构化知识抽取模块借助从XML类型文件抽取出的元结构再从输入的XML原文件中抽取出对应的实体从而转化为结构化知识集;多层次语义补全模块将结构化知识集自顶向下地融合到领域知识图谱中实现知识图谱的动态演化;自动语义关联模块以领域知识图谱为支撑对包含特征信息的语义抽象文件集进行实体链接并建立语义关联从而转化为关联文件集,从而借助于语义维度的关联进一步提升了文件关联的完整性;柔性动态分区模块通过语义聚类分区将文件动态划分到与其最关联的分区中,从而指导建立语义关联目录来完成新旧文件增量式动态关联从而增强了系统的可扩展性;哈希安全存储模块基于语义分区文件集的分区信息,结合文件分块以及链式哈希对文件进行分布式安全存储。
所述的多模态文件特征抽取包括:XML类型文件特征抽取、图纸类型文件特征抽取以及文档类型文件特征抽取。
所述的XML类型文件特征抽取是指:通过SAX文件解析库将XML文件中每个属性对应的相对路径转化为基于XPATH表述的静态绝对路径结构并识别出具体的属性原子类型,然后将每条绝对路径合并封装成为XML文件的元结构,最后提取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征。
所述的图纸类型文件特征抽取是指:首先将平面图纸文件通过PNG导出的方式生成对应的图像文件从而方便后续的图像处理,再针对导出的PNG图像使用在对应领域下预训练的CNN卷积神经网络来对图像中的每一个像素点进行分类,并划分为背景、噪音、造型对象三大类别区域,最后针对造型对象对应的类别区域采用对象识别结合分类器的方式识别出造型对象的具体类别,如:发动机、甲板等,并视作对应的文件语义特征。
所述的文档类型文件特征抽取是指:首先采用PDF解析库解析结合OCR文本识别扫描的综合方式对于文档文件进行文档解析和文本提取,之后基于一定的分词算法针对提取出的文本进行分词处理,并提取出带有名词特性的关键作为语义特征候选集,最后对于预处理得到的单词集进行关键词挖掘来获得真正能够表征文档类型文件语义特性的关键词集。
所述的关键词挖掘具体是指:首先基于Word2Vec词聚类算法,将单词集转化为低位稠密向量并由优化的聚类算法得到候选关键词词组,之后以候选关键词词组为粒度针对其中每一个单词分别运行TF-IDF算法以及Text Rank算法生成对应的得分,再针对得分经由合并算法产生新的单词的得分,最后选取每一个关键词词组中的Top-K作为关键词词组。
所述的优化的聚类算法是指:基于公式
Figure BDA0003323617930000021
动态生成实际聚类的个数,其中
Figure BDA0003323617930000022
为平均文件大小,s为原始文件大小,
Figure BDA0003323617930000023
为平均候选关键词数量,n为候选关键词数量,
Figure BDA0003323617930000024
为平均关键词数量,为θ动态配置的常量代入公式。
所述的合并算法是指:首先针对两个算法得到的分数基于公式
Figure BDA0003323617930000025
来进行归一化,其中scoremax、scoremin分别代表当前已统计分数中的最大值与最小值,score代表当前分数,S代表归一化后的最终得分,然后基于加权平均Sfinal=αSTF-IDF+(1-α)SText Rank得到最终的分数,其中STF-IDF、SText Rank分别代表TF-IDF和Text Rank算法得到的归一化的公式,α为动态配置的权重常量。
所述的结构化知识抽取是指:首先将从XML类型文件抽取出的嵌套一维静态结构转化为二维图结构,再结合XPATH对应的静态绝对路径通过SAX解析库的XPATH查询方法读取XML类型文件的数据内容从而抽取出与二维图结构对应的实体
所述的嵌套一维静态结构转化为二维图结构具体是指:遍历每一条基于XPATH表述的静态绝对路径结构并从根开始读取每一层属性对应的字段,如果该字段尚未被建成节点则创建对应的节点并连接到上层字段对应的节点上去,反之则继续遍历直到将静态结构转换为相应的二维图结构
所述的多层次语义补全包括:语义本体补全以及语义实体补全,其中:
所述的语义本体补全是指:遍历结构化知识集中的每个具有领域类型的本体作为待融合本体,并遍历知识图谱的本体层中具有领域类型的本体作为目标本体,接着基于相似度计算获得每个目标本体与待融合本体的相似度,其中相似度计算首先将本体代入词向量文件获得对应的低位稠密向量,再结合余弦相似度公式计算目标本体与待融合本体之间的相似度,之后再对于目标本体的属性本体与待融合本体的属性本体进行相似度计算并选择相似度最高的属性本体作为匹配属性本体,最后将类型本体相似度以及属性本体相似度进行加权平均与归一化即得到最终相似度,若所有的本体与待融合本体计算出的相似度都低于动态配置的阈值δ,则将待融合本体作为新的本体直接加入知识图谱的本体层,反之则选择所有候选者中相似度最高的本体作为待融合本体的主体,并一并融合扩充对应的属性本体。
所述的语义实体补全是指:将待融合的数据集中存在领域类型的实体和已有的实体进行与比本体类似的相似度计算,若相似度高于阈值δ,则将该实体融合到已有实体上并扩充一些原本为空的属性实体,反之则作为一个新的实体赋予UUID新增到实体层中。
所述的实体链接是指:通过遍历语义特征中的每个关键词来与知识图谱中的某一确定实体进行链接,首先基于名称字典的生成方式生成对应的候选实体,其中包含待连接关键词的各种变化信息,如缩写名、混淆名等,然后将各类变化信息与领域知识图谱中的实体进行匹配并计算得分,匹配规则主要基于上下文独立特征,如:待链实体与知识图谱实体的匹配信息,待链实体类型及实体流行度等,之后选择得分最高的实体作为链接实体。
所述的语义维度的关联,通过以下方式建立:以知识图谱为支撑基于最小最短路径思想来建立最小宽度图,对于任意两个文件中任意一对具有领域类型的关键词语义特征,基于宽度优先搜索结合优先队列的方式并通过领域知识图谱在本体层以及实体层的图状关联计算出两两之间的最短路径,计算完成后如果两个文件之间所有的关键词都没有路径关联则说明文件之间没有关联关系因此无需建立语义关联,反之则在对应两个文件之间建立语义关联并设置两个文件的关联的权重为最小最短路径长度除以对应路径数量,同时记录对应的关键词特征,由于在该算法中应用了最小最短路径的思想,因此该算法构成的整个文件语义关联网络在解空间中为最小宽度图,从而保证了文件间语义关联的紧密性,因此也在语义的维度上进一步加强了文件关联的完整性。
所述的语义聚类分区是指:首先基于具体的应用场景指定对应的分区数为n,然后任意选择语义关联文件集中n个文件为分区中心节点,并计算其他文件到分区中心节点的距离,其中距离计算基于公式:Distance(s,t)=Min{Weight(s,si)+Distance(si,t),si∈NeighborOf(s)}递归计算完成,其中s代表除分区中心节点之外的其他文件,t代表分区中心节点对应的文件,si代表s的所有邻居文件,由于在语义关联网络图中权重越小代表两个文件之间的关联越紧密,因此计算得到距离越小则代表文件之间在语义上越关联从而更应该被划分在同一个分区中,所以在完成距离计算后将节点分配到距离最近的分区中心节点对应的分区中,同时针对每个分区计算出使得距离和最小的节点作为新的分区中心节点,之后重复上述过程直到收敛。
所述的收敛是指:对于任意一个文件F及其所在的语义分区中心点Pcentral都使得公式Distance(F,Pcentral)与公式
Figure BDA0003323617930000041
满足全局最小化特征,其中Fi为分配到分区P中的任意一个文件。
所述的语义关联目录,通过以下方式建立:对于每个分区计算出其中心与其他文件关联性最强的关键词特征作为分区内文件的主特征,而其他关键词特征则作为副特征,再遍历所有文件关键词特征并在本地文件系统中建立与实体链接对应的层级嵌套关键词目录,最后将文件引用存储到与其关键词特征相应的目录中,并根据关键词特征的主副性将对应目录划分为主副目录。
所述的增量式动态关联是指:通过语义关联目录的建立将新旧文件划分到主副目录之中,每个文件仅能通过主特征在主目录中主动查找得到,但是查找到对应文件的同时该目录中的其他文件,无论是新旧文件都将作为关联文件一并返回,因此每个文件既存在于主目录中主动地关联了其他新旧文件,也存在于副目录中被动地被其他新旧文件关联。
所述的文件分块是指:将每个原始文件进行均匀切片得到大小一致的文件分块集,来避免用户直接看到文件原文的不安全场景,从而取代加密来降低明文存储原始文件的风险,同时为每个文件分块建立其在原始文件中的相对索引值从而方便后续原始文件的复原。
所述的链式哈希是指:对于每个文件分块基于哈希算法获取其内容对应的哈希值并记录在文件分块的头记录上,然后在头记录上同时记录上一个文件分块的头记录的哈希值,该哈希值采用多重哈希公式:HASHi=hash(hash(Contenti)+HASHi-1)进行计算,其中HASHi与HASHi-1分别代表当前文件分块的头记录哈希值与上一个文件分块的头记录哈希值,Contenti代表当前文件分块的内容,hash代表对应的哈希算法。另外针对每个文件的第一个文件分块,则基于文件之间的关联性使其指向在同一分区中与其关联的上一个文件的最后一个文件分块,当自身为分区中的第一个文件时,则将该分块中上一个分块的头记录哈希值设为0000…000再进行多重哈希计算。
所述的哈希算法具体为:输入为一个文件分块的二进制数组,输出是一个8个Byte大小的二进制数,过程是将二进制数组中的每8个bit也即1个Byte转化为对应的十进制值p,如果不满1个Byte则自动补零,同时令初始的哈希值为Long类型也即8个Byte大小的十进制值h等于0,最后针对每个十进制p根据公式:h=31*h+p迭代计算得到哈希值,其中h为迭代的哈希值,p为每个Byte对应的十进制数,在公式中选择31作为乘数一方面是由于31是一个大小适当的质数,不容易产生哈希碰撞,另外一方面31*h可以被优化为(h<<5)-h从而提高计算效率。
所述的分布式安全存储是指:将文件存储到分布式数据节点中并进行多副本备份,其中分配算法主要通过文件的分区关键词主特征结合数据节点个数通过取模的方式来计算得到主数据节点Id,从而保证了同一个分区下的文件可以存储到同一个物理数据节点中,进而提升文件存储的空间局部性。
所述的文件块记录头包括:相对索引值、内容哈希值、文件分块名、上一个文件分块名及记录头哈希值、主数据节点和备份数据节点列表
所述的建库数据存储信息包括:语义关联目录、文件记录头列表、文件索引表、元数据等。
技术效果
本发明整体解决了现有文件在关联存储过程中的多个问题,包括:1.由于文件处理分析方式单一而导致挖掘出的文件特征不具有代表性;2.由于文件之间关联维度单一而导致整体关联完整性不足的问题;3.由于新旧文件之间无法动态建立增量式关联而导致可扩展性差的问题;4.由于文件简单地通过明文方式进行单机存储而导致安全性不足的问题。
与现有技术相比,本发明实现的技术效果包括:1.对于多类型文件进行多模态特征抽取,提升了特征提取的全面性以及针对性并通过关键词挖掘步骤将三类关键词挖掘算法整合在一起进一步提高了挖掘出的关键词在文本中的特征代表性;2.以领域知识图谱为底层支撑结合相应的关联构建算法建立文件之间的自动语义关联,其中通过最小最短路径来建立宽度最小图,保证了构成的整个文件语义关联网络在解空间范围内宽度最小、关联最紧密,从而在语义层面上提高了文件间关联的完整性;3.结合语义聚类分区算法将文件划分到与其最关联的分区中并指导建立语义关联目录从而完成新旧文件的增量式动态关联,实现了柔性动态分区,并增强了系统的可扩展性;4.对于原始文件基于文件分块划分成多个文件块再结合链式哈希防止文件被篡改或直接读取,最后通过分布式存储整体提高了文件存储的安全性。
附图说明
图1为本发明的方法流程图;
图2为本发明系统结构图。
具体实施方式
如图1所示,为本实施例涉及一种基于知识图谱的文件语义关联存储系统,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块。
所述的多模态特征抽取模块包括:XML文件特征抽取、图纸文件特征抽取以及文档文件特征抽取。
所述的XML文件特征抽取包括:静态结构解析单元与语义提取单元,其中:静态结构解析单元根据XML文件的原文件,通过SAX文件解析库将XML文件中每个属性对应的相对路径转化为基于XPATH表述的静态绝对路径结构并识别出具体的属性原子类型,并后将每条绝对路径合并封装成为XML文件的元结构,语义提取单元根据XML文件的原结构提取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征。
所述的图纸文件特征抽取包括:图像语义分割单元与对象识别单元,其中图像语义分割单元根据图纸文件的原文件通过PNG导出的方式生成对应的PNG图像并使用在对应领域下预训练的CNN卷积神经网络来对图像中的每一个像素点进行分类,并划分为背景、噪音、造型对象三大类别区域,对象识别单元根据造型对象对应的类别区域结合预训练的分类器识别出造型对象的具体类别,如:发动机、甲板等,并视作对应的文件语义特征。
所述的文档文件特征抽取包括:文档文本提取单元与关键词挖掘单元,其中文档文本提取单元根据文档文件的原文件通过PDF解析库解析结合OCR文本识别扫描的综合方式对于文档文件进行文档解析和文本提取并基于特定的分词算法进行分词处理从而提取出带有名词特性的关键作为语义特征候选集,关键词挖掘单元根据预处理得到的单词集通过将TF-IDF算法、Text Rank算法以及Word2Vec词聚类算法三类算法整合在一起挖掘出具有代表性的关键词并视作对应的文件语义特征。
所述的结构化知识抽取模块包括结构化知识抽取单元,其中:结构化知识抽取单元根据XML类型文件抽取出的元结构,先将对应的一维静态元结构转化为二维图结构,再结合XPATH对应的静态绝对路径通过SAX解析库的XPATH查询方法读取XML类型文件的数据内容从而抽取出与二维图结构对应的实体并转换为结构化知识集。
所述的多层次语义补全模块包括:语义本体补全单元以及语义实体补全单元,其中:语义本体补全单元根据文件实体抽取模块得到的结构化知识集中的具有领域类型的本体通过与知识图谱的本体层中具有领域类型的本体进行相似度计算与比较并选择相似度最高的本体从而将结构化知识集中的本体补全到领域知识图谱中,语义实体补全单元根据文件实体抽取模块得到的结构化知识集中的具有领域类型的实体和知识图谱中已有的实体进行相似度计算与比较再结合对应的本体信息从而补全到领域知识图谱中。
所述的自动语义关联模块包括:实体链接单元以及语义关联建立单元,其中:实体链接单元根据文件特征抽取模块输出的语义抽象文件集通过遍历语义特征中的每个关键词来与知识图谱中的某一确定实体进行链接,语义关联建立单元根据链接后的实体再以知识图谱为支撑基于最小最短路径思想来建立最小宽度图从而得到语义关联文件集。由于在语义关联算法中应用了最小最短路径的算法,因此该算法构成的整个文件语义关联网络在解空间中为最小宽度图,从而保证了文件间语义关联的紧密性,因此也在语义的维度上进一步加强了文件关联的完整性。
所述的柔性动态分区模块包括:语义聚类分区单元以及语义关联目录建立单元,其中:语义聚类分区单元根据文件语义关联模块输出的语义关联文件集进行语义聚类算法从而得到对应的文件分区。语义关联目录建立单元基于文件分区,对于每个分区计算出其中心与其他文件关联性最强的关键词特征作为分区内文件的主特征,而其他关键词特征则作为副特征,再遍历所有文件关键词特征并在本地文件系统中建立与实体链接对应的层级嵌套关键词目录,最后将文件引用存储到与其关键词特征相应的目录中,并根据关键词特征的主副性将对应目录划分为主副目录,如果关键词目录中已有旧文件引用,则动态地建立起新旧文件之间基于主副目录定义的增量式关联。
所述的主副目录的实际应用如下:每个文件仅能通过主特征在主目录中主动查找得到,但是查找到对应文件的同时该目录中的其他文件,无论是新旧文件都将作为关联文件一并返回,因此每个文件既存在于主目录中主动地关联了其他文件,也存在于副目录中被动地被其他文件关联,进一步增强了系统的可扩展性。
所述的哈希安全存储模块包括:文件分块单元、链式哈希单元以及数据节点分配单元,其中:文件分块单元基于输入文件的原文件将每个原始文件进行均匀切片得到大小一致的文件分块集,来避免用户直接看到文件原文的不安全场景,从而取代加密来降低明文存储原始文件的风险,同时为每个文件分块建立其在原始文件中的相对索引值从而方便后续原始文件的复原,链式哈希单元基于每个文件分块计算对应的哈希值并存储到文件分块头记录中同时在头记录中记录上一个文件分块的头记录的哈希值,通过链式哈希哪怕文件分块被篡改了部分信息以及对应的哈希值,由于在后续文件分块的记录头中还记录着其原来的头记录哈希值,因此会导致哈希验证失败,除非将所有后续文件分块的记录头进行篡改才可篡改成功,同时随着时间的推移,文件分块也会不断地增多,因此同样一个文件分块篡改它的难度也会随着时间的推移而不断增加,这进一步保证了文件数据的安全性。数据节点分配单元基于文件语义分区模块的文件分区主特征结合数据节点个数通过取模的方式来计算得到主数据节点Id,从而保证了同一个分区下的文件可以存储到同一个物理数据节点中,进而提升文件存储的空间局部性。
如图2所示。在系统运行之前,用户需要基于领域知识图谱生成对应的词向量文件以及离线字典从而更充分地利用领域知识,同时用户需要基于相应领域的已有语料与知识训练对应的对象识别模型以及OCR工具作为系统运行的前置条件。在系统的使用过程中,用户通过REST API上传多类型文件集并交给多模态特征抽取模块进行处理,多模态特征抽取模块结合预先准备的文件分析辅助工具:文件解析库、对象识别模型以及OCR工具对于多类型文件集中的各类文件进行多模态处理分析并生成对应的文件特征,其中图纸类型文件首先基于对象识别模型进行背景-噪音-造型识别,然后针对造型对象通过预先训练的分类模型进行分区,文档类型文件首先进行Word2Vec词聚类获得对应的关键词特征聚类,然后基于TF-IDF以及Text Rank关键词挖掘算法结合归一化模型从聚类中选取出Top K的关键词特征,XML类型文件则通过SAX读取XPATH静态结构,然后抽取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征的。针对XML类型文件生成的文件特征会进一步通过结构化知识抽取模块获得对应的结构化知识集再通过多层次语义补全模块结合领域知识图谱生成的词向量文件对于知识集进行相似度计算,并融合补全到存储于Neo4j图数据库的领域知识图谱中。而对于各个类型文件抽取出的文件特征将转化为包含特征信息的语义抽象文件集,并由后续的模块进行语义关联与语义分区最后安全存储落地。在自动语义关联中,基于存储在Neo4j图数据库中的领域知识图谱以及由其派生的离线字典将文件的关键词特征进行实体链接,再通过领域知识图谱的图状关联结构结合最小最短路径算法与最小宽度图生成来建立文件之间的语义关联。之后通过柔性动态分区模块对于语义关联模块生成的语义关联网络图进行聚类分区,并生成语义关联目录来建立新旧文件之间的增量式动态关联,再记录到本地文件系统Ext4中。最后由哈希安全存储模块对于原文件进行哈希安全存储,在实施过程中首先将原始文件进行文件分块取代加密来降低明文存储原始文件的风险,再基于链式哈希算法将同一个分区中的原始文件分块哈希链接起来从而防止恶意篡改,除此之外结合分区结果以及数据节点分配算法将同一分区的文件基于空间局部性分布式存储到底层基于HDFS的分布式文件系统的同一个数据节点之上,最后对于文件进行反向索引建立来提高全文检索性能,同时也将系统生成的元数据集合,包括:文件索引表、元数据表以及文件记录头列表存储到采用副本集集群架构部署的MongoDB集群依次保证元数据的容灾性,另外在MongoDB集群与工具中间添加基于Redis的缓存实现从而提高元数据的查询性能。在完成文件语义关联存储之后,上层的企业应用如:ERP、DMS等需要文件查询应用的系统可以通过对应的文件查询引擎进行模糊关联查询、关键词全文检索、关联文件下载等功能来读取文件元数据,并通过文件记录头从基于HDFS的分布式文件系统中获取对应的原始文件然后进行链式哈希校验最后返回对应的文件。
表1技术特性对比
Figure BDA0003323617930000091
Figure BDA0003323617930000101
从系统功能来看,本发明针对工业生产过程中生成的多类型文件进行多模态特征抽取,并基于抽取出的知识对于作为支撑平台的领域知识图谱进行反向多层次语义补全,同时也结合领域知识图谱对于输入的文件进行自动语义关联,另外通过聚类分区将具有强关联关系的文件分配到同一分区中,并指导建立语义关联目录从而实现新旧文件的增量式动态关联,最后基于文件分块与链式哈希使得文件存储可以安全落地。
从系统的完整性方面看,本发明对于不同类型的文件多模态抽取出对应的语义特征,再通过自动语义关联模块,以领域知识图谱本身的知识信息为指导,结合最小宽度图的生成,从而建立起文件之间在语义层面上紧密的关联,进而保证文件间关联的完整性。因此本发明相较于其他已有技术具有更全面的完整性。
从系统可扩展性方面看,本发明通过聚类分区的方式对于关联文件进行动态分区并结合主、副目录的定义指导创建语义关联目录从而建立起新旧文件之间的增量式动态关联,进而提升了系统的可扩展性,同时系统设置一系列可随情景动态调整的关键参数,如:聚类个数,文件分块大小,相似度阈值等,从而使得系统可以配置不同的参数来更好地适应不同的应用场景进一步增强了系统的可扩展性。因此本发明相较于其他已有技术具有更好的可扩展性。
从系统的安全性方面看,本发明通过文件分块的方式,来避免用户直接看到文件原文的不安全场景,从而取代加密来增加文件存储的安全性,同时通过链式哈希保证文件分块落盘存储之后的不可篡改性,如果要篡改文件则需要同时篡改对应的哈希值以及所有后续链在该文件分块上的其他文件分块的哈希值,且同一个分块的篡改难度会随着分块数量增加而增加。因此本发明相较于其他已有技术具有更强的安全性。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种基于知识图谱的文件语义关联存储系统,其特征在于,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,其中:多模态特征抽取模块对输入的多类型文件集进行多模态分析及特征抽取进一步转化为包含特征信息的语义抽象文件集;结构化知识抽取模块借助从XML类型文件抽取出的元结构再从输入的多类型文件集中抽取出对应的实体从而转化为结构化知识集;多层次语义补全模块将结构化知识集自顶向下地融合到领域知识图谱中实现知识图谱的动态演化;自动语义关联模块以领域知识图谱为支撑对包含特征信息的语义抽象文件集进行实体链接并建立语义关联从而转化为关联文件集;柔性动态分区模块通过语义聚类分区将文件动态划分到与其最关联的分区中;哈希安全存储模块基于语义分区文件集的分区信息,结合文件分块以及链式哈希对文件进行分布式安全存储;
所述的多模态文件特征抽取包括:XML类型文件特征抽取、图纸类型文件特征抽取以及文档类型文件特征抽取。
2.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的XML类型文件特征抽取是指:通过SAX文件解析库将XML文件中每个属性对应的相对路径转化为基于XPATH表述的静态绝对路径结构并识别出具体的属性原子类型,然后将每条绝对路径合并封装成为XML文件的元结构,最后提取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征;
所述的图纸类型文件特征抽取是指:首先将平面图纸文件通过PNG导出的方式生成对应的图像文件从而方便后续的图像处理,再针对导出的PNG图像使用在对应领域下预训练的CNN卷积神经网络来对图像中的每一个像素点进行分类,并划分为背景、噪音、造型对象三大类别区域,最后针对造型对象对应的类别区域采用对象识别结合分类器的方式识别出造型对象的具体类别,并视作对应的文件语义特征;
所述的文档类型文件特征抽取是指:首先采用PDF解析库解析结合OCR文本识别扫描的综合方式对于文档文件进行文档解析和文本提取,之后基于一定的分词算法针对提取出的文本进行分词处理,并提取出带有名词特性的关键作为语义特征候选集,最后对于预处理得到的单词集进行关键词挖掘来获得真正能够表征文档类型文件语义特性的关键词集。
3.根据权利要求2所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的关键词挖掘具体是指:首先基于Word2Vec词聚类算法,将单词集转化为低位稠密向量并由优化的聚类算法得到候选关键词词组,之后以候选关键词词组为粒度针对其中每一个单词分别运行TF-IDF算法以及Text Rank算法生成对应的得分,再针对得分经由合并算法产生新的单词的得分,最后选取每一个关键词词组中的Top-K作为关键词词组。
4.根据权利要求3所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的优化的聚类算法是指:基于公式
Figure FDA0003323617920000021
动态生成实际聚类的个数,其中
Figure FDA0003323617920000022
为平均文件大小,s为原始文件大小,
Figure FDA0003323617920000023
为平均候选关键词数量,n为候选关键词数量,
Figure FDA0003323617920000024
为平均关键词数量,为θ动态配置的常量代入公式;
所述的合并算法是指:首先针对两个算法得到的分数基于公式
Figure FDA0003323617920000025
来进行归一化,其中scoremax、scoremin分别代表当前已统计分数中的最大值与最小值,score代表当前分数,S代表归一化后的最终得分,然后基于加权平均Sfinal=αSTF-IDF+(1-α)STextRank得到最终的分数,其中STF-IDF、STextRank分别代表TF-IDF和Text Rank算法得到的归一化的公式,α为动态配置的权重常量。
5.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的结构化知识抽取是指:首先将从XML类型文件抽取出的嵌套一维静态结构转化为二维图结构,再结合XPATH对应的静态绝对路径通过SAX解析库的XPATH查询方法读取XML类型文件的数据内容从而抽取出与二维图结构对应的实体,其中:
所述的嵌套一维静态结构转化为二维图结构具体是指:遍历每一条基于XPATH表述的静态绝对路径结构并从根开始读取每一层属性对应的字段,如果该字段尚未被建成节点则创建对应的节点并连接到上层字段对应的节点上去,反之则继续遍历直到将静态结构转换为相应的二维图结构。
6.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的多层次语义补全包括:语义本体补全以及语义实体补全,其中:
所述的语义本体补全是指:遍历结构化知识集中的每个具有领域类型的本体作为待融合本体,并遍历知识图谱的本体层中具有领域类型的本体作为目标本体,接着基于相似度计算获得每个目标本体与待融合本体的相似度,其中相似度计算首先将本体代入词向量文件获得对应的低位稠密向量,再结合余弦相似度公式计算目标本体与待融合本体之间的相似度,之后再对于目标本体的属性本体与待融合本体的属性本体进行相似度计算并选择相似度最高的属性本体作为匹配属性本体,最后将类型本体相似度以及属性本体相似度进行加权平均与归一化即得到最终相似度,若所有的本体与待融合本体计算出的相似度都低于动态配置的阈值δ,则将待融合本体作为新的本体直接加入知识图谱的本体层,反之则选择所有候选者中相似度最高的本体作为待融合本体的主体,并一并融合扩充对应的属性本体;
所述的语义实体补全是指:将待融合的数据集中存在领域类型的实体和已有的实体进行与比本体类似的相似度计算,若相似度高于阈值δ,则将该实体融合到已有实体上并扩充一些原本为空的属性实体,反之则作为一个新的实体赋予UUID新增到实体层中。
7.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的实体链接是指:通过遍历语义特征中的每个关键词来与知识图谱中的某一确定实体进行链接,首先基于名称字典的生成方式生成对应的候选实体,其中包含待连接关键词的各种变化信息,如缩写名、混淆名等,然后将各类变化信息与领域知识图谱中的实体进行匹配并计算得分,匹配规则主要基于上下文独立特征,如:待链实体与知识图谱实体的匹配信息,待链实体类型及实体流行度等,之后选择得分最高的实体作为链接实体。
8.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的建立语义关联是指:以知识图谱为支撑基于最小最短路径思想来建立最小宽度图,对于任意两个文件中任意一对具有领域类型的关键词语义特征,基于宽度优先搜索结合优先队列的方式并通过领域知识图谱在本体层以及实体层的图状关联计算出两两之间的最短路径,计算完成后如果两个文件之间所有的关键词都没有路径关联则说明文件之间没有关联关系因此无需建立语义关联,反之则在对应两个文件之间建立语义关联并设置两个文件的关联的权重为最小最短路径长度除以对应路径数量,同时记录对应的关键词特征,由于在该算法中应用了最小最短路径的思想,因此该算法构成的整个文件语义关联网络在解空间中为最小宽度图,从而保证了文件间语义关联的紧密性,因此也在语义的维度上进一步加强了文件关联的完整性。
9.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的语义聚类分区是指:首先基于具体的应用场景指定对应的分区数为n,然后任意选择语义关联文件集中n个文件为分区中心节点,并计算其他文件到分区中心节点的距离,其中距离计算基于公式:Distance(s,t)=Min{Weight(s,si)+Distance(si,t),si∈NeighborOf(s)}递归计算完成,其中s代表除分区中心节点之外的其他文件,t代表分区中心节点对应的文件,si代表s的所有邻居文件,由于在语义关联网络图中权重越小代表两个文件之间的关联越紧密,因此计算得到距离越小则代表文件之间在语义上越关联从而更应该被划分在同一个分区中,所以在完成距离计算后将节点分配到距离最近的分区中心节点对应的分区中,同时针对每个分区计算出使得距离和最小的节点作为新的分区中心节点,之后重复上述过程直到收敛;
所述的收敛是指:对于任意一个文件F及其所在的语义分区中心点Pcentral都使得公式Distance(F,Pcentral)与公式
Figure FDA0003323617920000041
满足全局最小化特征,其中Fi为分配到分区P中的任意一个文件。
10.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的文件分块是指:将每个原始文件进行均匀切片得到大小一致的文件分块集,来避免用户直接看到文件原文的不安全场景,从而取代加密来降低明文存储原始文件的风险,同时为每个文件分块建立其在原始文件中的相对索引值从而方便后续原始文件的复原;
所述的链式哈希是指:对于每个文件分块基于哈希算法获取其内容对应的哈希值并记录在文件分块的头记录上,然后在头记录上同时记录上一个文件分块的头记录的哈希值,该哈希值采用多重哈希公式:HASHi=hash(hash(Contenti)+HASHi-1)进行计算,其中HASHi与HASHi-1分别代表当前文件分块的头记录哈希值与上一个文件分块的头记录哈希值,Contenti代表当前文件分块的内容,hash代表对应的哈希算法,并针对每个文件的第一个文件分块,则基于文件之间的关联性使其指向在同一分区中与其关联的上一个文件的最后一个文件分块,当自身为分区中的第一个文件时,则将该分块中上一个分块的头记录哈希值设为0000…000再进行多重哈希计算;
所述的分布式安全存储是指:将文件存储到分布式数据节点中并进行多副本备份,其中分配算法主要通过文件的分区关键词主特征结合数据节点个数通过取模的方式来计算得到主数据节点Id,从而保证了同一个分区下的文件可以存储到同一个物理数据节点中,进而提升文件存储的空间局部性。
CN202111255086.9A 2021-10-27 2021-10-27 基于知识图谱的文件语义关联存储系统及方法 Pending CN113961528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111255086.9A CN113961528A (zh) 2021-10-27 2021-10-27 基于知识图谱的文件语义关联存储系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255086.9A CN113961528A (zh) 2021-10-27 2021-10-27 基于知识图谱的文件语义关联存储系统及方法

Publications (1)

Publication Number Publication Date
CN113961528A true CN113961528A (zh) 2022-01-21

Family

ID=79467450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255086.9A Pending CN113961528A (zh) 2021-10-27 2021-10-27 基于知识图谱的文件语义关联存储系统及方法

Country Status (1)

Country Link
CN (1) CN113961528A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254132A (zh) * 2022-03-01 2022-03-29 北京理工大学 一种材料数据的检索方法
CN114415975A (zh) * 2022-03-28 2022-04-29 支付宝(杭州)信息技术有限公司 针对知识图谱进行划分分区的方法及装置
CN114491085A (zh) * 2022-04-15 2022-05-13 支付宝(杭州)信息技术有限公司 一种图数据存储方法和分布式图数据计算方法
CN115271683A (zh) * 2022-09-26 2022-11-01 西南交通大学 基于标准知识图谱元结构的bim自动标准审查系统
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统
CN117076495A (zh) * 2023-10-16 2023-11-17 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254132A (zh) * 2022-03-01 2022-03-29 北京理工大学 一种材料数据的检索方法
CN114415975A (zh) * 2022-03-28 2022-04-29 支付宝(杭州)信息技术有限公司 针对知识图谱进行划分分区的方法及装置
CN114491085A (zh) * 2022-04-15 2022-05-13 支付宝(杭州)信息技术有限公司 一种图数据存储方法和分布式图数据计算方法
CN114491085B (zh) * 2022-04-15 2022-08-09 支付宝(杭州)信息技术有限公司 一种图数据存储方法和分布式图数据计算方法
CN115271683A (zh) * 2022-09-26 2022-11-01 西南交通大学 基于标准知识图谱元结构的bim自动标准审查系统
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统
CN117076495A (zh) * 2023-10-16 2023-11-17 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备
CN117076495B (zh) * 2023-10-16 2024-02-13 之江实验室 面向多模态文献数据的分布式存储方法、装置和设备

Similar Documents

Publication Publication Date Title
CN113961528A (zh) 基于知识图谱的文件语义关联存储系统及方法
US9355171B2 (en) Clustering of near-duplicate documents
US11036808B2 (en) System and method for indexing electronic discovery data
US20190236102A1 (en) System and method for differential document analysis and storage
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
US8171029B2 (en) Automatic generation of ontologies using word affinities
US20220261427A1 (en) Methods and system for semantic search in large databases
US8244767B2 (en) Composite locality sensitive hash based processing of documents
WO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
US20120041955A1 (en) Enhanced identification of document types
JP5594145B2 (ja) 検索装置、検索方法、及びプログラム
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US9298757B1 (en) Determining similarity of linguistic objects
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN113971210B (zh) 一种数据字典生成方法、装置、电子设备及存储介质
CN110413807A (zh) 一种基于内容语义元数据的图像查询方法与系统
Drakopoulos et al. A semantically annotated JSON metadata structure for open linked cultural data in Neo4j
Yuan et al. Discovering latent topics by Gaussian latent Dirichlet allocation and spectral clustering
Pilaluisa et al. Contextual word embeddings for tabular data search and integration
Kolle et al. Extractive Summarization of Text from Images
Garg et al. On-Device Document Classification using multimodal features
Jo et al. Data encoding
Sebastine et al. Semantic web for content based video retrieval
CN115688771B (zh) 一种文书内容比对性能提升方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination