CN114925764B - 基于大数据的工程管理文件分类识别方法及系统 - Google Patents

基于大数据的工程管理文件分类识别方法及系统 Download PDF

Info

Publication number
CN114925764B
CN114925764B CN202210530880.8A CN202210530880A CN114925764B CN 114925764 B CN114925764 B CN 114925764B CN 202210530880 A CN202210530880 A CN 202210530880A CN 114925764 B CN114925764 B CN 114925764B
Authority
CN
China
Prior art keywords
tree
node
nodes
directory
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210530880.8A
Other languages
English (en)
Other versions
CN114925764A (zh
Inventor
徐斌
孙新文
谢明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Economic Construction Engineering Management Co ltd
Original Assignee
Zhejiang Economic Construction Engineering Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Economic Construction Engineering Management Co ltd filed Critical Zhejiang Economic Construction Engineering Management Co ltd
Priority to CN202210530880.8A priority Critical patent/CN114925764B/zh
Publication of CN114925764A publication Critical patent/CN114925764A/zh
Application granted granted Critical
Publication of CN114925764B publication Critical patent/CN114925764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理领域,具体涉及一种基于大数据的工程管理文件分类识别方法及系统,获取待分类工程管理文件构成待分类文件集,根据每个文件的目录数据构建每个文件的树状目录,获取每个节点对应的关键词集合,根据每类关键词在每个树状目录上和每个节点对应的级别上的分布概率得到每类关键词的置信度,根据每个树状目录上的节点数量和每个节点的目录级别得到每个节点的关注权重,获取两两树状目录之间的已匹配节点集合并计算两两节点之间的相似性,根据相似性和每个节点的关注权重两两树状目录的相似性,构建相似矩阵,利用相似矩阵和最大树聚类算法对分类工程管理文件进行分类,方法智能、高效。

Description

基于大数据的工程管理文件分类识别方法及系统
技术领域
本申请涉及数据处理领域,具体涉及一种基于大数据的工程管理文件分类识别方法及系统。
背景技术
随着计算机以及互联网的飞速发展,数字化文件已经逐渐替代传统纸质文档,成为各个生产领域主要的文件存储形式。在文件的管理方面,分类是最常见的文件管理方式。而文件的分类存在着多种分类方式,各个文件的类别可能会因为个人的分类偏好而改变,而不同的分类方式对于新文件汇入也会存在适应性的不同,这些文件分类问题普遍存在于文件的分类管理中并亟待解决。
工程管理文件作为建筑施工过程中最主要的文件,对其进行分类管理有助于提高存储以及调取效率,进而提升工程各项指标的评价效率。工程文件的主要特征即为文件的格式较为固定,其分类特征大多隐含在各级目录以及标题中,而现有技术对于工程文件的分类方式一般为将文本内容形式化地描述为多维空间中一点。进而基于现有的如支持向量机、K近邻分类器对多维空间内的文本数据点进行分类。但其假设标记的关键词是相互独立的,其不符合实际应用自然语言本身存在比如同义词、近义词和多义词等复杂的语义现象,所以其应用存在着分类缺陷。这就需要一种可利用工程文件本身分类特征所处文件位置结合关键词大数据实现工程管理文件的无监督分类。
发明内容
本发明提供一种基于大数据的工程管理文件分类识别方法,解决分类效率低且繁琐复杂的问题,采用如下技术方案:
一种基于大数据的工程管理文件分类识别方法,包括:
获取每个待分类工程管理文件的树状目录,所述树状目录包括节点和节点所在级别;
获取每个树状目录中每一个节点包含的关键词集合,将每个树状目录获取的所有关键词中的相同关键词归为一类,完成对每个树状目录的关键词分类;
根据每类关键词在每个树状目录上的分布概率,及每类关键词在每个节点对应级别上的分布概率得到每类关键词的置信度;
根据每个树状目录上每个节点对应的级别和所有级别之和得到每个节点的关注权重;
根据两两树状目录同一级别上的节点所包含的关键词的置信度得到两两树状目录在同一级别上节点之间的相似性,利用得到的相似性对两两树状目录在同一级别上节点进行配对,得到配对成功的多对匹配节点对;
根据两两树状目录中所有级别中配对成功的匹配节点对中两节点之间的相似性及配对成功的所有节点的关注权重得到两两树状目录的相似性;
根据两两树状目录之间的相似性对待分类工程管理文件进行分类。
所述每类关键词的置信度的计算方法为:
Figure GDA0003888343640000021
式中,Zk为第k类关键词的置信度,
Figure GDA0003888343640000022
为第k类关键词在每个树状目录上出现的普遍性,
Figure GDA0003888343640000023
为第k类关键词在每个节点对应级别上出现的普遍性。
所述每类关键词在每个树状目录上出现的普遍性
Figure GDA0003888343640000024
和每类关键词在每个节点对应级别上出现的普遍性
Figure GDA0003888343640000025
的计算方法如下:
Figure GDA0003888343640000026
式中,i的范围为1到N,N为树状目录集中的树状目录个数,Pk(i)为第k类关键词分布在第i个树状目录集上的概率;
Figure GDA0003888343640000027
式中,j的范围为0到M,M为树状目录集中,节点级别最大值,即最细分的节点所在级别,Pk(j)为第k类关键词分布在第j个节点对应级别上的概率。
所述每个节点的关注权重的计算方法为:
Figure GDA0003888343640000031
式中,
Figure GDA0003888343640000032
为第i个树状目录Si上第d个节点的关注权重,
Figure GDA0003888343640000033
为Si上第d个节点的级别,Di为Si上所有节点的个数,Σ为所有节点的级别总和。
所述节点之间的相似性的获取方法为:
获取两两节点对应的关键词集合的交集与并集;
将两两节点对应的关键词集合交集中每个关键词的置信度累加之和与两两节点对应的关键词集合并集中每个关键词的置信度累加之和的比值作为两两节点之间的相似性。
所述多对匹配节点对的获取方法如下:
获取每个树状目录中节点的集合;
将两两树状目录中节点级别最小的根节点作为初始匹配节点;
获取两个初始匹配节点各自的下一级节点集合,计算一个节点集合中每个节点与另一个节点集合中每个节点的相似性的最大相似性期望值,根据最大相似性期望值进行两两匹配;
重复上述操作对两两树状目录中所有级别的节点进行匹配,得到多对匹配节点对。
所述两两树状目录的相似性的计算方法为:
Figure GDA0003888343640000034
式中,X(α,β)为树状目录Sα和树状目录Sβ之间的相似性,r范围为1到R,R为X(α,β)为树状目录Sα和树状目录Sβ之间已匹配节点对的数量,
Figure GDA0003888343640000035
为树状目录Sα、Sβ中第r对已匹配节点的两个节点关注权重的均值,ηr为第r对已匹配节点的两个节点之间的相似性。
所述根据两两树状目录之间的相似性对待分类工程管理文件进行分类的方法为:
根据两两树状目录之间的相似性构建相似矩阵;
根据相似矩阵得到最大树,利用最大树聚类算法,将待分类工程管理文件分为不同的类别。
本技术方案还提供一种基于大数据的工程管理文件分类识别系统,包括获取数据模块、计算模块、分类模块:
所述获取数据模块:获取每个待分类工程管理文件的树状目录,包括节点和节点所在级别;获取每个节点对应的关键词集合,将相同关键词归为一类得到关键词种类个数;
所述计算模块:
根据每类关键词在每个树状目录上的分布概率和每类关键词在每个节点对应的级别上的分布概率得到每类关键词的置信度;
根据每个树状目录上的节点数量和每个节点的目录级别得到每个节点的关注权重;
对两两树状目录进行升序同级别目录匹配得到两两树状目录之间的已匹配节点集合;
获取已匹配节点集合中两两两节点对应的关键词集合的交集与并集,根据交集和并集中每类关键词的置信度得到两两节点之间的相似性;
根据已匹配节点集合中两两节点之间的相似性和每个节点的关注权重两两树状目录的相似性;
所述分类模块:
根据两两树状目录之间的相似性对待分类工程管理文件进行分类。
本发明的有益效果是:获取待分类工程管理文件构成待分类文件集,根据每个文件的目录数据构建每个文件的树状目录,获取每个节点对应的关键词集合,根据每类关键词在每个树状目录上和每个节点对应的级别上的分布概率得到每类关键词的置信度;根据每个树状目录上的节点数量和每个节点的目录级别得到每个节点的关注权重;获取两两树状目录之间的已匹配节点集合并计算两两节点之间的相似性,根据相似性和每个节点的关注权重两两树状目录的相似性,构建相似矩阵,利用相似矩阵和最大树聚类算法对分类工程管理文件进行分类,方法智能、高效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于大数据的工程管理文件分类识别方法的流程图;
图2是本发明的一种基于大数据的工程管理文件分类识别方法中节点匹配示意图;
图3是本发明的一种基于大数据的工程管理文件分类识别系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种基于大数据的工程管理文件分类识别方法的实施例,如图1所示:
步骤一:获取每个待分类工程管理文件的树状目录,所述树状目录包括节点和节点所在级别;
该步骤的目的是,构建每个待分类工程管理文件数据的树状目录。
其中,构建待分类数据集中每个数据的树状目录,树状目录即以文件标题为根节点,根节点级别为0,一级标题为由根节点延伸的子节点,一级标题对应节点的级别为1,二级标题是由一级标题对应的树状图节点为父节点的子节点,二级标题对应节点的级别为2,以此类推,可构建每个工程管理文件的树状目录。则所构建的树状目录集与原始的待分类的工程管理文件数据集是一一对应的,即通过将原工程管理文件简化为树状目录使原始待分类数据集简化为树状目录集。
步骤二:获取每个树状目录中每一个节点包含的关键词集合,将每个树状目录获取的所有关键词中的相同关键词归为一类,完成对每个树状目录的关键词分类;
该步骤的目的是,工程管理文件的关键词大数据库识别各级目录中的关键词。获取每个待分类工程管理文件数据的各级目录对应的关键词集合。
其中,关键词种类个数获取方法为:
将树状目录集中的数据按照关键词大数据库中的数据进行对比识别。获取树状目录的各级目录对应的关键词集合。每个树状目录中的一个节点对应着一个关键词集合(种类集合)。即所述关键词种类个数即为整个树状目录集中所有出现过的关键词种类个数K。这个K可由所有树状目录的各级别目录对应的关键词集合进行合并后,其集合内元素个数就是K。
步骤三:根据每类关键词在每个树状目录上的分布概率,及每类关键词在每个节点对应级别上的分布概率得到每类关键词的置信度;
该步骤的目的是,根据不同种类关键词在树状目录中的分布情况计算各个种类关键词的置信度。
其中,每类关键词的置信度的计算方法为:
Figure GDA0003888343640000061
式中,Zk为第k类关键词的置信度,
Figure GDA0003888343640000062
为第k类关键词在每个树状目录上出现的普遍性,
Figure GDA0003888343640000063
为第k类关键词在每个节点对应的级别上出现的普遍性,Zk为0-1之间的数,越趋近于1,越说明置信度越大。以此方式计算所有种类关键词的置信度,一共可获得K个置信度。即Zk(k=1,2,…,K)。
其中,每类关键词在每个树状目录上出现的普遍性
Figure GDA0003888343640000064
和每类关键词在每个节点对应的级别上出现的普遍性
Figure GDA0003888343640000065
的计算方法如下:
Figure GDA0003888343640000066
式中,i的范围为1到N,N为树状目录集中的树状目录个数,Pk(i)为第k类关键词分布在第i个树状目录集上的概率;
Figure GDA0003888343640000067
式中,j的范围为0到M,M为树状目录集中,目录级别值最大的目录级别,即最细分的目录级别,Pk(j)为第k类关键词分布在第j个目录级别的概率。
Figure GDA0003888343640000068
为0-1之间的数,其越趋近于1越说明其分布越普遍,越不可信。
需要说明的是,对于一个树状目录,其各个节点均对应一个关键词集合,每个节点按照距离根节点的路径距离(直接相连的两个节点即为距离1,节点与自己距离0。)分为0级节点(根节点,对应原工程管理文件的大标题),1级节点(与根节点直接相连的节点,对应工程管理文件的一级标题。)2级节点(与1级结点直接相连的非0级节点,对应工程管理文件的2级标题)。以此类推。且每个节点对应一个关键词集合。
对于一个种类的关键词,其可能出现在不同树状目录上不同级别节点的关键词集合中。若这个关键词出现在所有的树状目录中,即在所有树状目录中均有分布,说明其可用来区分两个树状目录的可信性小,即置信度小。同样的,若一个关键词出现在所有树状目录的各级别节点关键词集合中,其也说明该关键词可用来区分两个树状目录各级别节点的可信性小,即置信度小。
步骤四:根据每个树状目录上每个节点对应的级别和所有级别之和得到每个节点的关注权重;
该步骤的目的是根据树状目录结构设定各级目录的关注权重。
其中,每个节点的关注权重的计算方法为:
Figure GDA0003888343640000071
式中,
Figure GDA0003888343640000072
为第i个树状目录Si上第d个节点的关注权重,
Figure GDA0003888343640000073
为Si上第d个节点的级别,Di为Si上所有节点的个数,Σ为所有节点的级别总和,则
Figure GDA0003888343640000074
即对于一个Si,其上所有节点的关注权重和为1,以此方式计算所有树状目录上各个节点的关注权重。
步骤五:根据两两树状目录同一级别上的节点所包含的关键词的置信度得到两两树状目录在同一级别上节点之间的相似性,利用得到的相似性对两两树状目录在同一级别上节点进行配对,得到配对成功的多对匹配节点对;
该步骤的目的是,根据每个待分类工程管理文件数据目录的级别对两个待分类工程管理文件数据进行升序同级目录匹配,得到匹配节点集合,并计算匹配节点之间的相似性。
其中,多对匹配节点对的获取方法如下:
对两两树状目录进行升序同级别目录匹配:
(1)获取每个树状目录中节点的集合;
(2)将两两树状目录中节点级别最小的根节点作为初始匹配节点;
(3)获取两个初始匹配节点各自的下一级节点集合,计算一个节点集合中每个节点与另一个节点集合中每个节点的相似性的最大相似性期望值,根据最大相似性期望值进行两两匹配;
(4)重复上述操作对两两树状目录中所有级别的节点进行匹配,得到多对匹配节点对。
其中,节点之间的相似性的计算方法为:
(1)获取匹配节点中两两节点对应的关键词集合的交集与并集;
(2)将两两节点对应的关键词集合交集中每个关键词的置信度累加之和与两两节点对应的关键词集合并集中每个关键词的置信度累加之和的比值作为两两节点之间的相似性η。这个相似性是一个0-1之间的归一化数据,越趋近于1,越相似。
在本实施例中,对于Si1、Si2来说即是将Si1的根节点(0级节点)与Si2的根节点进行配对。然后将Si1、Si2的一级节点各看成一个集合,配对过程就是在Si1的一级节点集合中寻找一个节点,与Si2的一级节点集合中的一个节点进行配对。配对完成后,已配对的一级节点对下属的二级节点再次进行上述配对。直到两个树状目录的节点配对完,未匹配节点保留。
如图2所示,对于两个树状目录,左侧树状目录的根节点与右侧的根节点均仅有一个(所有树状目录均只有一个根节点)因此根节点的匹配直接为O-o匹配。当根节点匹配完成后。对两个根节点的下属一级节点进行匹配。即在集合{A,B}、集合{a,b,c}中寻找匹配结果,通过获取{A,B}和{a,b,c}中两两节点之间的最大相似性期望值,将{A,B}中每个节点与{a,b,c}中最大相似性期望值的节点进行配对。在进行匹配后,可获得匹配结果A-a、B-b。其中节点c未能匹配成对。将已经匹配好的一级节点的下属二级节点进行匹配,即将匹配结果A-a下属的二级节点集合{C,D}、{d}进行匹配;将匹配结果B-b下属的二级节点集合{E,F}、{e,f}进行匹配。获得二级节点匹配结果D-d、E-e、F-f。未匹配的一级节点c的下属二级节点集合{g,h}仍为未匹配,二级节点中本身未配对的节点为C。
步骤六:根据两两树状目录中所有级别中配对成功的匹配节点对中两节点之间的相似性及配对成功的所有节点的关注权重得到两两树状目录的相似性;
该步骤的目的是,计算两两树状目录的相似性。
其中,两两树状目录的相似性的计算方法为:
Figure GDA0003888343640000081
式中,X(α,β)为树状目录Sα和树状目录Sβ之间的相似性,r范围为1到R,R为X(α,β)为树状目录Sα和树状目录Sβ之间已匹配节点对的数量,
Figure GDA0003888343640000082
为树状目录Sα、Sβ中第r对已匹配节点的两个节点关注权重的均值,ηr为第r对已匹配节点的两个节点之间的相似性,X(α,β)越趋近于1,说明树状目录Sα、Sβ越相似。也即说明树状目录Sα、Sβ对应的最原始数据集中的两个工程管理文件越相似。
步骤七:根据两两树状目录之间的相似性对待分类工程管理文件进行分类。
该步骤的目的是,根据两两树状目录之间的相似度构建相似矩阵并进行基于最大树的模糊聚类,实现工程管理文件数据集的无监督分类。
其中,根据相似性对待分类工程管理文件进行分类的方法为:
根据获取的两两树状目录的相似度构建相似矩阵。根据相似度矩阵为一个(N*N)的矩阵,其主对角线上的元素值均为1。获取相似矩阵的最大树,进行基于最大树的模糊聚类,取最大树模糊聚类参数λ=0.7(推荐值为0.7,此参数为0-1之间,越大分类越细,越小分类越粗糙。)获取C类树状目录结果。由于每个树状目录结果对应一个工程管理文件,因此工程管理文件的分类结果与其相同,至此,实现无监督分类。
本技术方案的另一种实施例如图3所示:一种基于大数据的工程管理文件分类识别系统,包括获取数据模块S100、计算模块S101、分类模块S102:
获取数据模块S100:获取每个待分类工程管理文件的树状目录,包括节点和节点所在级别;获取每个节点对应的关键词集合,将相同关键词归为一类得到关键词种类个数;
计算模块S101:
根据每类关键词在每个树状目录上的分布概率和每类关键词在每个节点对应的级别上的分布概率得到每类关键词的置信度;
根据每个树状目录上的节点数量和每个节点的目录级别得到每个节点的关注权重;
对两两树状目录进行升序同级别目录匹配得到两两树状目录之间的已匹配节点集合;
获取已匹配节点集合中两两两节点对应的关键词集合的交集与并集,根据交集和并集中每类关键词的置信度得到两两节点之间的相似性;
根据已匹配节点集合中两两节点之间的相似性和每个节点的关注权重两两树状目录的相似性;
分类模块S102:
根据两两树状目录之间的相似性对待分类工程管理文件进行分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于大数据的工程管理文件分类识别方法,其特征在于:
获取每个待分类工程管理文件的树状目录,所述树状目录包括节点和节点所在级别;
获取每个树状目录中每一个节点包含的关键词集合,将每个树状目录获取的所有关键词中的相同关键词归为一类,完成对每个树状目录的关键词分类;
根据每类关键词在每个树状目录上的分布概率,及每类关键词在每个节点对应级别上的分布概率得到每类关键词的置信度;
所述每类关键词的置信度的计算方法为:
Figure FDA0003888343630000011
式中,Zk为第k类关键词的置信度,
Figure FDA0003888343630000012
为第k类关键词在每个树状目录上出现的普遍性,
Figure FDA0003888343630000013
为第k类关键词在每个节点对应级别上出现的普遍性;
所述每类关键词在每个树状目录上出现的普遍性
Figure FDA0003888343630000014
和每类关键词在每个节点对应级别上出现的普遍性
Figure FDA0003888343630000015
的计算方法如下:
Figure FDA0003888343630000016
式中,i的范围为1到N,N为树状目录集中的树状目录个数,Pk(i)为第k类关键词分布在第i个树状目录集上的概率;
Figure FDA0003888343630000017
式中,j的范围为0到M,M为树状目录集中,节点级别最大值,即最细分的节点所在级别,Pk(j)为第k类关键词分布在第j个节点对应级别上的概率;
根据每个树状目录上每个节点对应的级别和所有级别之和得到每个节点的关注权重;
所述每个节点的关注权重的计算方法为:
Figure FDA0003888343630000018
式中,
Figure FDA0003888343630000019
为第i个树状目录Si上第d个节点的关注权重,
Figure FDA00038883436300000110
为Si上第d个节点的级别,Di为Si上所有节点的个数,∑为所有节点的级别总和;
根据两两树状目录同一级别上的节点所包含的关键词的置信度得到两两树状目录在同一级别上节点之间的相似性,利用得到的相似性对两两树状目录在同一级别上节点进行配对,得到配对成功的多对匹配节点对;
根据两两树状目录中所有级别中配对成功的匹配节点对中两节点之间的相似性及配对成功的所有节点的关注权重得到两两树状目录的相似性;
所述节点之间的相似性的获取方法为:
获取两两节点对应的关键词集合的交集与并集;
将两两节点对应的关键词集合交集中每个关键词的置信度累加之和与两两节点对应的关键词集合并集中每个关键词的置信度累加之和的比值作为两两节点之间的相似性;
根据两两树状目录之间的相似性对待分类工程管理文件进行分类。
2.根据权利要求1所述的一种基于大数据的工程管理文件分类识别方法,其特征在于,所述多对匹配节点对的获取方法如下:
获取每个树状目录中节点的集合;
将两两树状目录中节点级别最小的根节点作为初始匹配节点;
获取两个初始匹配节点各自的下一级节点集合,计算一个节点集合中每个节点与另一个节点集合中每个节点的相似性的最大相似性期望值,根据最大相似性期望值进行两两匹配;
对两两树状目录中所有级别的节点进行匹配,得到多对匹配节点对。
3.根据权利要求1所述的一种基于大数据的工程管理文件分类识别方法,其特征在于,所述两两树状目录的相似性的计算方法为:
Figure FDA0003888343630000021
式中,X(α,β)为树状目录Sα和树状目录Sβ之间的相似性,r范围为1到R,R为X(α,β)为树状目录Sα和树状目录Sβ之间已匹配节点对的数量,
Figure FDA0003888343630000022
为树状目录Sα、Sβ中第r对已匹配节点的两个节点关注权重的均值,ηr为第r对已匹配节点的两个节点之间的相似性。
4.根据权利要求1所述的一种基于大数据的工程管理文件分类识别方法,其特征在于,所述根据两两树状目录之间的相似性对待分类工程管理文件进行分类的方法为:
根据两两树状目录之间的相似性构建相似矩阵;
根据相似矩阵得到最大树,利用最大树聚类算法,将待分类工程管理文件分为不同的类别。
5.一种基于大数据的工程管理文件分类识别系统,包括获取数据模块、计算模块、分类模块:
所述获取数据模块:获取每个待分类工程管理文件的树状目录,包括节点和节点所在级别;获取每个节点对应的关键词集合,将相同关键词归为一类得到关键词种类个数;
所述计算模块:
根据每类关键词在每个树状目录上的分布概率和每类关键词在每个节点对应的级别上的分布概率得到每类关键词的置信度;
所述每类关键词的置信度的计算方法为:
Figure FDA0003888343630000031
式中,Zk为第k类关键词的置信度,
Figure FDA0003888343630000032
为第k类关键词在每个树状目录上出现的普遍性,
Figure FDA0003888343630000033
为第k类关键词在每个节点对应级别上出现的普遍性;
所述每类关键词在每个树状目录上出现的普遍性
Figure FDA0003888343630000034
和每类关键词在每个节点对应级别上出现的普遍性
Figure FDA0003888343630000035
的计算方法如下:
Figure FDA0003888343630000036
式中,i的范围为1到N,N为树状目录集中的树状目录个数,Pk(i)为第k类关键词分布在第i个树状目录集上的概率;
Figure FDA0003888343630000037
式中,j的范围为0到M,M为树状目录集中,节点级别最大值,即最细分的节点所在级别,Pk(j)为第k类关键词分布在第j个节点对应级别上的概率;
根据每个树状目录上的节点数量和每个节点的目录级别得到每个节点的关注权重;
所述每个节点的关注权重的计算方法为:
Figure FDA0003888343630000041
式中,
Figure FDA0003888343630000042
为第i个树状目录Si上第d个节点的关注权重,
Figure FDA0003888343630000043
为Si上第d个节点的级别,Di为Si上所有节点的个数,∑为所有节点的级别总和;
对两两树状目录进行升序同级别目录匹配得到两两树状目录之间的已匹配节点集合;
获取已匹配节点集合中两两节点对应的关键词集合的交集与并集,根据交集和并集中每类关键词的置信度得到两两节点之间的相似性;
所述节点之间的相似性的获取方法为:
获取两两节点对应的关键词集合的交集与并集;
将两两节点对应的关键词集合交集中每个关键词的置信度累加之和与两两节点对应的关键词集合并集中每个关键词的置信度累加之和的比值作为两两节点之间的相似性;
根据已匹配节点集合中两两节点之间的相似性和每个节点的关注权重两两树状目录的相似性;
所述分类模块:
根据两两树状目录之间的相似性对待分类工程管理文件进行分类。
CN202210530880.8A 2022-05-16 2022-05-16 基于大数据的工程管理文件分类识别方法及系统 Active CN114925764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210530880.8A CN114925764B (zh) 2022-05-16 2022-05-16 基于大数据的工程管理文件分类识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210530880.8A CN114925764B (zh) 2022-05-16 2022-05-16 基于大数据的工程管理文件分类识别方法及系统

Publications (2)

Publication Number Publication Date
CN114925764A CN114925764A (zh) 2022-08-19
CN114925764B true CN114925764B (zh) 2022-12-09

Family

ID=82809017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210530880.8A Active CN114925764B (zh) 2022-05-16 2022-05-16 基于大数据的工程管理文件分类识别方法及系统

Country Status (1)

Country Link
CN (1) CN114925764B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151775B (zh) * 2023-04-18 2023-07-07 苏州开普岩土工程有限公司 用于施工过程的数字化管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN103294780A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置
CN110069669A (zh) * 2017-12-01 2019-07-30 北京搜狗科技发展有限公司 一种关键词标记方法和装置
CN113792188A (zh) * 2021-09-30 2021-12-14 中国人民解放军国防科技大学 一种目录数据比对方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233678A1 (en) * 2006-04-04 2007-10-04 Bigelow David H System and method for a visual catalog
CN110597988B (zh) * 2019-08-28 2024-03-19 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN103294780A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置
CN110069669A (zh) * 2017-12-01 2019-07-30 北京搜狗科技发展有限公司 一种关键词标记方法和装置
CN113792188A (zh) * 2021-09-30 2021-12-14 中国人民解放军国防科技大学 一种目录数据比对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于TF-IDF和余弦相似度的文本分类方法;武永亮等;《中文信息学报》;20170915(第05期);全文 *

Also Published As

Publication number Publication date
CN114925764A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
US6360227B1 (en) System and method for generating taxonomies with applications to content-based recommendations
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Kejriwal et al. An unsupervised instance matcher for schema-free RDF data
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN106815362A (zh) 一种基于kpca多表索引图像哈希检索方法
Angelova et al. A neighborhood-based approach for clustering of linked document collections
CN114925764B (zh) 基于大数据的工程管理文件分类识别方法及系统
Zhang et al. Doccit2vec: Citation recommendation via embedding of content and structural contexts
Meng et al. Online multimodal co-indexing and retrieval of weakly labeled web image collections
Gao et al. Star-structured high-order heterogeneous data co-clustering based on consistent information theory
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Arockiam et al. Reclust: an efficient clustering algorithm for mixed data based on reclustering and cluster validation
KR102158049B1 (ko) Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
CN114168733B (zh) 一种基于复杂网络的法规检索方法及系统
Tirilly et al. A review of weighting schemes for bag of visual words image retrieval
Buckley et al. Processing noisy structured textual data using a fuzzy matching approach: application to postal address errors
Zheng et al. A comparative study on text clustering methods
CN113254688A (zh) 一种基于深度哈希的商标检索方法
Bellandi et al. A Comparative Study of Clustering Techniques Applied on Covid-19 Scientific Literature
Suganthi et al. Spectral clustering based classification algorithm for text classification
CN104166672A (zh) 一种xml关键字查询方法
CN116680418B (zh) 一种基于知识图谱的大数据检索方法和系统
CN112612870B (zh) 一种非结构化数据管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant