CN117556289A - 一种基于数据挖掘的企业数字化智能运营方法及系统 - Google Patents
一种基于数据挖掘的企业数字化智能运营方法及系统 Download PDFInfo
- Publication number
- CN117556289A CN117556289A CN202410045441.7A CN202410045441A CN117556289A CN 117556289 A CN117556289 A CN 117556289A CN 202410045441 A CN202410045441 A CN 202410045441A CN 117556289 A CN117556289 A CN 117556289A
- Authority
- CN
- China
- Prior art keywords
- data
- transmission line
- data set
- enterprise
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000007418 data mining Methods 0.000 title claims abstract description 45
- 230000005540 biological transmission Effects 0.000 claims abstract description 103
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000009467 reduction Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000007726 management method Methods 0.000 claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000000513 principal component analysis Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 2
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000000299 nuclear matrix Anatomy 0.000 description 2
- 230000003245 working effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据挖掘的企业数字化智能运营方法及系统,具体包括以下步骤:S1:依据企业部门工作内容建立若干部门系统;S2:使用数据挖掘算法挖掘企业系统数据;S3:对业务数据进行预处理,去除重复并对数据进行排序;S4:对数据进行多线程并行处理;S5:创建哈希表处理业务数据;S6:采用近似计算方式来优化处理效率;S7:依据权限使用主传输线路和空闲传输线路传输数据;本发明涉及企业数据计算技术领域。采用数据挖掘技术深层次挖掘并分配管理,并对其进行去重排序等操作,实用并行计算、哈希表、降维近似计算等方式处理,配合双线路传输,多方面结合,大大提高了企业运营中的大数据计算管理效率,降低了人工操作的工作量和错误率。
Description
技术领域
本发明涉及企业数据计算技术领域,具体为一种基于数据挖掘的企业数字化智能运营方法及系统。
背景技术
随着互联网发展,现有的一些企业在运营过程中,都会使用系统进行工作,可会更好的处理各种繁琐的数据,便于管理和追溯。
中国专利CN117196525A公开了一种基于大数据的企业信息化智能管理系统,包括管理中心,所述管理中心连接企业数据采集模块、企业数据整合模块以及企业数据共享模块;所述企业数据采集单元用于对企业信息数据进行采集,并将企业信息数据通过企业数据传输单元发送至企业数据整合模块,生成正常企业部门信息数据;所述企业数据整合模块设置有企业数据处理单元、企业数据分析单元以及企业数据集成单元;用于对正常企业部门信息数据进行整合,获取企业信息数据,对企业信息数据进行集成,获得可共享企业信息数据库;所述企业数据共享模块用于对可共享企业信息数据库进行验证以及共享;实现了数据共享。
如上所述,现有的企业内部门信息需要进行整合和数据共享,但是对于一些大企业在工作中,会需要处理各种类型的大数据,尤其是部门种类众多,处理的数据种类也比较杂乱,很多数据并不会共享,而是储存在每个终端中,数据之间的重复和数据资源的分配等,存在较多的问题,如何全面的挖掘管理企业繁杂的数据是个难点,较为麻烦,并且一些大数据在处理过程中,由于容量大、计算量大,在进行数据处理和传输时,处理的效率较慢,影响工作效率,大企业共用一个系统并进行共享,可能还存在线路拥挤导致卡顿甚至崩溃的问题。
发明内容
针对现有技术的不足,本发明提供了一种基于数据挖掘的企业数字化智能运营方法及系统,解决了现有大企业工作过程中,对于数据处理管理的缺陷,以及较多人员共用一个系统存在的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于数据挖掘的企业数字化智能运营方法,具体包括以下步骤:
S1:依据企业部门工作内容建立若干部门系统,同时搭载一主一空闲两套数据传输线路,分别标记为主传输线路和空闲传输线路,用于传输数据时标记线路进行分配;
S2:使用数据挖掘算法挖掘企业系统数据,并按照不同部门系统进行分类管理,具体包括:采用K均值聚类算法选择K个初始的聚类中心点,然后根据数据点与这些聚类中心点的距离来将数据点分配到K个不同的类别中,接着重新计算每个类别的中心点,直到达到收敛条件为止;
S3:在不同部门系统之间数据传输时,首先对业务数据进行预处理,去除重复并对数据进行排序,以减少后续的计算量;
S4:使用并行计算将需要转换的原始数据集分割成大小为N的子集,并且确定并行计算的线程数为M,对数据进行多线程并行处理;
S5:创建哈希表处理业务数据,具体包括:创建一个哈希表数据结构,然后选择一个哈希函数,将每个数据项的键值通过哈希函数转换成哈希值,并将数据项存储在哈希表中对应的位置;
S6:采用近似计算方式来优化处理效率,具体为:采用主成分分析算法对线性数据进行降维近似计算,并采用核主成分分析算法进行非线性扩展,处理非线性数据;
S7:在使用主传输线路和空闲传输线路传输数据时,依据账户权限、线路传输实际情况和正常数据传输通过主传输线路传输,对于享有高权限的系统账户传输线路使用空闲传输线路传输,在主传输线路堵塞时,账户权限越高和数据容量越小的优先分配到空闲传输线路传输。
优选的,所述S2的数据挖掘算法具体包括:
(1)选择K个初始的聚类中心点:{μ1,μ2,...,μK};
(2)根据数据点与聚类中心点的距离将数据点分配到不同的类别中:对于每个数据点x,计算它与每个聚类中心点的距离,然后将x分配到距离最近的聚类中心点所对应的类别中;
(3)重新计算每个类别的中心点:对于每个类别i,计算该类别中所有数据点的平均值作为新的聚类中心点μi;
(4)重复步骤2和步骤3,直到达到收敛条件为止。
优选的,所述收敛条件指当聚类中心点不再发生显著变化时,数据挖掘算法达到收敛,具体为,定义一个阈值L,当每个聚类中心点的移动距离小于该阈值L时,数据挖掘算法即认为已经收敛,表示聚类中心点已经稳定下来,不再发生显著的变化,结束迭代。
优选的,所述距离最近的聚类中心点的计算方法是,通过最小化目标函数最小化每个数据点与其所属类别的聚类中心点之间的距离的总和,具体为:
J(μ1,μ2,...,μK)=Σi=1-N Σk=1-K||x(i)-μk||^2;
其中,N表示数据集中的数据点数量,K表示聚类中心点的数量,x(i)表示第i个数据点,μk表示第k个聚类中心点,||a - b||表示向量a和向量b之间的欧氏距离,通过不断迭代更新聚类中心点的位置,最终得到K个不同类型的业务数据分组。
优选的,所述S3中的去除重复数据和排序操作具体包括:
(1)去除重复数据:
D={x|x∈Y,C(x)=1};
其中Y为原始数据集,C(x)表示x在数据集中出现的次数,D为去除重复数据后的数据集;
(2)排序操作:
S=P(Y);
其中P(Y)表示对原始数据集Y进行排序操作,S表示排序后的数据集。
优选的,所述S5中在发生哈希冲突时,即两个不同的键值通过哈希函数得到相同的哈希值,使用开放寻址法或者链地址法来解决冲突;
当需要查找、插入或删除数据时,通过哈希函数计算出数据项的哈希值,然后在哈希表中对应的位置进行操作;
需要根据实际情况来调整哈希表的大小和哈希函数,以提高哈希表的性能和效率。
优选的,所述S6中,假设原始数据集为Y,目标降维后的数据集为Z,采用主成分分析进行降维近似算法计算时方式为:
假设原始数据集Y的维度为m×n,其中m表示样本数,n表示特征数,目标降维后的数据集Z的维度为m×k,其中k表示降维后的特征数;
首先,计算原始数据集Y的均值向量μ,表示为:
μ=(Y1,Y2,...,Yn);
其中Yi表示第i个特征的均值;
然后,计算原始数据集Y的协方差矩阵C,表示为:
C=1/m×(Y-μ)T×(Y-μ);
其中(Y-μ)表示原始数据集Y每个样本减去均值向量μ后的矩阵,T表示转置;
接下来,对协方差矩阵C进行特征值分解,并对分解后的特征值进行降序排序,得到特征值λ1,λ2,...,λn和对应的特征向量v1,v2,...,vn,选择前f个特征值和对应的特征向量,构成特征值矩阵Λ和特征向量矩阵V,将原始数据集Y投影到特征向量矩阵V上,得到降维后的数据集Z,表示为:
Z=Y×V;
其中×表示矩阵乘法;通过上述计算公式,可以得到原始数据集Y经过主成分分析降维后的数据集Z。
优选的,所述S6中核主成分分析算法,首先将原始数据集Y映射到高维特征空间,得到映射后的数据集Φ(Y),然后,对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z,具体的计算公式如下:
计算核矩阵F:
;
其中f(Yi, Yj)表示样本Yi和Yj在高维特征空间中的内积;
然后对核矩阵F进行中心化,首先计算中心化矩阵H:
H=I-1/m×1×1T;
其中1是全1向量,I是单位矩阵;
然后计算中心化的核矩阵:
F_H=H×F×H;
对中心化的核矩阵F_H进行特征值分解,得到特征值β1, t2, ..., tm和对应的特征向量u1,u2,...,um;
从大到小排序后选择前f个特征值和对应的特征向量,构成特征值矩阵T和特征向量矩阵U;
将原始数据集Y映射到高维特征空间中,得到映射后的数据集Φ(Y):
;
对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z:
Z=Φ(Y)×V;
其中V是由从大到小排序后的前f个特征值对应的特征向量构成的矩阵。
优选的,所述S7中,设空闲传输线路传输优先级为C,设权限等级为Q,待传输的数据容量为S,则:
C= S/Q;
C值越大的数据优先通过空闲传输线路传输。
本发明还公开了一种企业数字化智能运营系统,包括若干部门系统,还包括主系统,所述主系统拥有所有部门系统的系统功能,并拥有完整管理权限,所述系统还包括数据挖掘分配单元、数据传输处理单元和数据传输线路,所述数据传输线路还包括主传输线路和空闲传输线路,主系统与数据传输线路连接以传输数据,所述数据挖掘分配单元用于挖掘部门系统数据并分配于部门系统,所述数据传输处理用于处理数据并在部门系统之间以及主系统与部门系统之间传输数据。
本发明提供了一种基于数据挖掘的企业数字化智能运营方法及系统。与现有技术相比具备以下有益效果:
1、该基于数据挖掘的企业数字化智能运营方法及系统,将企业的工作系统划分成不同部门系统,针对性更强,操作更方便,而对于不同系统之间的数据管理,采用数据挖掘技术深层次挖掘并分配管理,对于系统之间的数据流通,对其进行去重排序等操作,实用并行计算、哈希表、降维近似计算等方式处理,极大的优化了复杂数据的计算,提升了数据处理效率,配合双线路传输方式,提升了数据传输效率,多方面结合,大大提高了企业运营中的大数据计算管理效率,降低了人工操作的工作量和错误率。
2、该基于数据挖掘的企业数字化智能运营方法及系统,通过依据部门工作性质,建立不同的工作系统,界面更简洁,操作更匹配,进一步的还可延伸至集团的不同子公司使用,同时针对于不同系统之间的数据流通,采用数据挖掘算法挖掘数据并进行分配,采用K均值聚类算法根据数据的特征将数据分成不同的簇,可处理大规模的数据集,并且可以有效地识别出不同部门系统的业务数据之间的相似性和差异性,帮助企业更好地理解和利用这些数据,同时,也比较容易实现和调整,适合用于企业的实际应用场景。
3、该基于数据挖掘的企业数字化智能运营方法及系统,通过建立哈希表来处理业务数据,将数据按照特定的哈希函数映射到不同的位置,从而可以实现快速的查找和访问,大大减少数据的查找时间,提高数据处理的效率,同时还可以减少数据的冗余存储,进而减少数据的存储空间。
4、该基于数据挖掘的企业数字化智能运营方法及系统,采用降维近似算法来处理需要进行复杂计算的业务数据的数据转换,可有效降低计算量,提高数据处理的效率,而采用主成分分析算法结合核主成分分析算法的方式,对线性和非线性数据,均可较好的进行适配计算。
5、该基于数据挖掘的企业数字化智能运营方法及系统,通过设置一主一空闲两条线路对数据进行传输,并设置相关的条件,一方面保证权限高的账户传输重要数据,可以享用较快较通畅的线路,对于权限低的账户,在传输数据时若出现主传输线路拥挤,也可以暂时性的享用空闲传输线路,不影响工作,设置算法进行控制,可自动进行调配,使用方便。
附图说明
图1为本发明的系统原理框图;
图2为本发明的方法流程图;
图3为本发明的数据挖掘算法的逻辑图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明图2-图3公开了一种基于数据挖掘的企业数字化智能运营方法,具体包括以下步骤:
S1:依据企业部门工作内容建立若干部门系统,同时搭载一主一空闲两套数据传输线路,分别标记为主传输线路和空闲传输线路,用于传输数据时标记线路进行分配;
S2:使用数据挖掘算法挖掘企业系统数据,并按照不同部门系统进行分类管理,具体包括:采用K均值聚类算法选择K个初始的聚类中心点,然后根据数据点与这些聚类中心点的距离来将数据点分配到K个不同的类别中,接着重新计算每个类别的中心点,直到达到收敛条件为止;
所述S2的数据挖掘算法具体包括:
(1)选择K个初始的聚类中心点:{μ1,μ2,...,μK};
(2)根据数据点与聚类中心点的距离将数据点分配到不同的类别中:对于每个数据点x,计算它与每个聚类中心点的距离,然后将x分配到距离最近的聚类中心点所对应的类别中;
(3)重新计算每个类别的中心点:对于每个类别i,计算该类别中所有数据点的平均值作为新的聚类中心点μi;
(4)重复步骤2和步骤3,直到达到收敛条件为止。
所述收敛条件指当聚类中心点不再发生显著变化时,数据挖掘算法达到收敛,具体为,定义一个阈值L,当每个聚类中心点的移动距离小于该阈值L时,数据挖掘算法即认为已经收敛,表示聚类中心点已经稳定下来,不再发生显著的变化,结束迭代。
所述距离最近的聚类中心点的计算方法是,通过最小化目标函数最小化每个数据点与其所属类别的聚类中心点之间的距离的总和,具体为:
J(μ1,μ2,...,μK)=Σi=1-N Σk=1-K||x(i)-μk||^2;
其中,N表示数据集中的数据点数量,K表示聚类中心点的数量,x(i)表示第i个数据点,μk表示第k个聚类中心点,||a - b||表示向量a和向量b之间的欧氏距离,通过不断迭代更新聚类中心点的位置,最终得到K个不同类型的业务数据分组。
通过依据部门工作性质,建立不同的工作系统,界面更简洁,操作更匹配,进一步的还可延伸至集团的不同子公司使用,同时针对于不同系统之间的数据流通,采用数据挖掘算法挖掘数据并进行分配,采用K均值聚类算法根据数据的特征将数据分成不同的簇,可处理大规模的数据集,并且可以有效地识别出不同部门系统的业务数据之间的相似性和差异性,帮助企业更好地理解和利用这些数据,同时,也比较容易实现和调整,适合用于企业的实际应用场景。
S3:在不同部门系统之间数据传输时,首先对业务数据进行预处理,去除重复并对数据进行排序,以减少后续的计算量;
所述S3中的去除重复数据和排序操作具体包括:
(1)去除重复数据:
D={x|x∈Y,C(x)=1};
其中Y为原始数据集,C(x)表示x在数据集中出现的次数,D为去除重复数据后的数据集;
(2)排序操作:
S=P(Y);
其中P(Y)表示对原始数据集Y进行排序操作,S表示排序后的数据集。
假设某企业需要将不同部门的运营数据进行汇总分析,需要将数据从各个部门的系统中传输到中央数据仓库。在数据传输之前,需要对业务数据进行预处理,以减少后续的计算量;
首先,对于每个部门的数据集,需要进行去重操作。假设部门A的数据集为Y_A,部门B的数据集为Y_B,部门C的数据集为Y_C,则去重后的数据集分别为D_A、D_B和D_C。具体地,对于每个原始数据集Y,可以通过计算每个数据在数据集中出现的次数C(x),将出现次数为1的数据加入到去重后的数据集D中,即D={x|x∈Y,C(x)=1};
接着,对于去重后的数据集D_A、D_B和D_C,需要进行排序操作,以便后续的数据分析。可以使用排序算法对原始数据集Y进行排序操作,例如快速排序、归并排序等。假设对于每个数据集D,使用快速排序算法进行排序,则排序后的数据集分别为S_A、S_B和S_C;
最后,将排序后的数据集S_A、S_B和S_C传输到中央数据仓库,并进行进一步的数据分析。通过对各部门的运营数据进行汇总分析,企业可以更好地了解自身的运营情况,为未来的业务决策提供支持。
S4:使用并行计算将需要转换的原始数据集分割成大小为N的子集,并且确定并行计算的线程数为M,对数据进行多线程并行处理;多线程同时处理数据分割后的子集,也可有效提高数据处理效率。
设一个企业有一份包含100000条数据的客户信息表需要进行并行计算,该企业决定使用上述算法来确定子集大小和线程数。
首先,根据公式N=total_size/ M,可以计算出子集大小N为10000条数据,如果将原始数据集分割成10000条数据的子集进行计算,可以保证每个子集的大小相同;
接着,根据公式M=total_size/N,可以计算出并行计算的线程数M为10个线程。这意味着该企业需要使用10个线程来并行计算10个大小为10000的子集,以提高计算效率;total_size表示某个对象或数据结构的总大小;
通过这些计算公式,该企业可以确定并行计算所需的子集大小和线程数,以便进行高效的并行计算。
S5:创建哈希表处理业务数据,具体包括:创建一个哈希表数据结构,可以是数组、链表或者树等数据结构,然后选择一个哈希函数,将每个数据项的键值通过哈希函数转换成哈希值,并将数据项存储在哈希表中对应的位置;
哈希表是一种数据结构,它使用哈希函数将键映射到哈希表中的位置,以便快速定位和访问数据。哈希表通常由数组实现,每个数组元素称为一个桶,每个桶可以存储一个或多个键值对。当需要存储一个键值对时,哈希函数会计算出该键对应的桶的索引,并将键值对存储在该桶中。在查询时,哈希函数会再次计算出键对应的桶的索引,并直接访问该桶,从而实现快速的查找和访问。
哈希表的时间复杂度通常为O(1),因此可以实现高效的插入、删除和查找操作。然而,哈希表的性能也受到哈希函数的质量、哈希冲突的处理以及哈希表的负载因子等因素的影响。
所述S5中在发生哈希冲突时,即两个不同的键值通过哈希函数得到相同的哈希值,使用开放寻址法或者链地址法来解决冲突;
开放寻址法是一种解决哈希冲突的方法,它使用哈希表中的空槽来存储冲突的元素。当发生冲突时,开放寻址法会通过一定的探测序列来寻找下一个可用的空槽,直到找到一个空槽或者遍历整个哈希表,开放寻址法的优点是可以避免链表等数据结构的额外空间开销。
常见的探测序列包括线性探测、二次探测和双重散列等。线性探测是最简单的方法,它会依次检查哈希表中的下一个槽,直到找到一个空槽。而二次探测则是通过一个二次函数来计算下一个探测位置,以减少线性探测的聚集现象。双重散列则是使用第二个哈希函数来计算下一个探测位置,以增加散列的随机性。
链地址法是一种解决哈希冲突的方法,它将哈希表的每个位置都设置为一个链表的头节点。当发生哈希冲突时,新的键值对将被插入到对应位置的链表中,而不是直接覆盖原有的键值对。这样就可以在同一个位置存储多个键值对,从而解决了哈希冲突的问题;链地址法在实现上比较简单,适用于存储大量数据的哈希表。
在链地址法中,查找一个键对应的值时,首先计算出键的哈希值,然后根据哈希值找到对应位置的链表头节点,最后在链表中顺序查找键对应的值。如果链表很长,查找效率可能会下降,因此在实际应用中需要对链表长度进行控制,例如当链表长度超过一定阈值时,可以重新调整哈希表的大小,或者使用其他方法来解决冲突。
当需要查找、插入或删除数据时,通过哈希函数计算出数据项的哈希值,然后在哈希表中对应的位置进行操作;
需要根据实际情况来调整哈希表的大小和哈希函数,以提高哈希表的性能和效率。
通过建立哈希表来处理业务数据,将数据按照特定的哈希函数映射到不同的位置,从而可以实现快速的查找和访问,大大减少数据的查找时间,提高数据处理的效率,同时还可以减少数据的冗余存储,进而减少数据的存储空间。
S6:采用近似计算方式来优化处理效率,具体为:采用主成分分析算法对线性数据进行降维近似计算,并采用核主成分分析算法进行非线性扩展,处理非线性数据;
所述S6中,假设原始数据集为Y,目标降维后的数据集为Z,采用主成分分析进行降维近似算法计算时方式为:
假设原始数据集Y的维度为m×n,其中m表示样本数,n表示特征数,目标降维后的数据集Z的维度为m×k,其中k表示降维后的特征数;
首先,计算原始数据集Y的均值向量μ,表示为:
μ=(Y1,Y2,...,Yn);
其中Yi表示第i个特征的均值;
然后,计算原始数据集Y的协方差矩阵C,表示为:
C=1/m×(Y-μ)T×(Y-μ);
其中(Y-μ)表示原始数据集Y每个样本减去均值向量μ后的矩阵,T表示转置;
接下来,对协方差矩阵C进行特征值分解,并对分解后的特征值进行降序排序,得到特征值λ1,λ2,...,λn和对应的特征向量v1,v2,...,vn,选择前f个特征值和对应的特征向量,构成特征值矩阵Λ和特征向量矩阵V,将原始数据集Y投影到特征向量矩阵V上,得到降维后的数据集Z,表示为:
Z=Y×V;
其中×表示矩阵乘法;通过上述计算公式,可以得到原始数据集Y经过主成分分析降维后的数据集Z。
假设一个企业有一个包含销售额、利润、成本、市场份额等多个特征的原始数据集Y,其中每行代表一个月的数据,共有m个月的数据,n个特征。现在企业需要通过主成分分析进行降维,将这些特征进行压缩,以便更好地理解和分析数据:
首先,计算原始数据集Y的均值向量μ,表示为:μ=(销售额均值、利润均值、成本均值、市场份额均值);
然后,计算原始数据集Y的协方差矩阵C,表示为:
C=1/m×(Y-μ)T×(Y-μ);
接下来,对协方差矩阵C进行特征值分解,并对分解后的特征值进行降序排序,得到特征值λ1,λ2,...,λn和对应的特征向量v1,v2,...,vn,选择前f个特征值和对应的特征向量,构成特征值矩阵Λ和特征向量矩阵V。
将原始数据集Y投影到特征向量矩阵V上,得到降维后的数据集Z,表示为:
Z=Y×V;
通过这个过程,企业可以将原始的多个特征压缩成较少的特征,从而更好地理解和分析数据。例如,可以将销售额、利润、成本、市场份额等多个特征压缩成销售额和利润两个主成分,以便更好地理解销售业绩的变化趋势和影响因素。这样可以帮助企业更好地进行经营决策和业绩分析。
所述S6中核主成分分析算法,首先将原始数据集Y映射到高维特征空间,得到映射后的数据集Φ(Y),然后,对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z,具体的计算公式如下:
计算核矩阵F:
;
其中f(Yi, Yj)表示样本Yi和Yj在高维特征空间中的内积;
然后对核矩阵F进行中心化,首先计算中心化矩阵H:
H=I-1/m×1×1T;
其中1是全1向量,I是单位矩阵;
然后计算中心化的核矩阵:
F_H=H×F×H;
对中心化的核矩阵F_H进行特征值分解,得到特征值β1, t2, ..., tm和对应的特征向量u1,u2,...,um;
从大到小排序后选择前f个特征值和对应的特征向量,构成特征值矩阵T和特征向量矩阵U;
将原始数据集Y映射到高维特征空间中,得到映射后的数据集Φ(Y):
;
对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z:
Z=Φ(Y)×V。
假设有一个企业的运营原始数据集Y,其中包含了各种指标如销售额、利润、成本、员工数量等。首先将这个数据集映射到高维特征空间,得到映射后的数据集Φ(Y)。这个映射可以通过计算数据集中每个样本之间的内积来实现。
然后,对映射后的数据集Φ(Y)进行线性PCA。首先计算核矩阵K,其中每个元素K(Yi, Yj)表示样本Yi和Yj在高维特征空间中的内积。然后对核矩阵K进行中心化,得到中心化的核矩阵K_H。接着对K_H进行特征值分解,得到特征值和对应的特征向量。从大到小排序后选择前f个特征值和对应的特征向量,构成特征值矩阵Λ和特征向量矩阵U。
接下来,将原始数据集Y映射到高维特征空间中,得到映射后的数据集Φ(Y)。这个映射可以通过将原始数据集Y的核矩阵K与特征向量矩阵U相乘来实现。
最后,对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z。这个降维可以通过将映射后的数据集Φ(Y)与由前f个最大特征值对应的特征向量构成的矩阵V相乘来实现。
通过以上步骤,可以将企业运营数据进行高维特征空间的映射和降维处理,从而得到更加简洁和有效的数据表示,有助于分析和理解企业运营情况。
采用降维近似算法来处理需要进行复杂计算的业务数据的数据转换,可有效降低计算量,提高数据处理的效率,而采用主成分分析算法结合核主成分分析算法的方式,对线性和非线性数据,均可较好的进行适配计算。
S7:在使用主传输线路和空闲传输线路传输数据时,依据账户权限、线路传输实际情况和正常数据传输通过主传输线路传输,对于享有高权限的系统账户传输线路使用空闲传输线路传输,在主传输线路堵塞时,账户权限越高和数据容量越小的优先分配到空闲传输线路传输。
所述S7中,设空闲传输线路传输优先级为C,设权限等级为Q,待传输的数据容量为S,则:
C= S/Q;
C值越大的数据优先通过空闲传输线路传输。
假设某企业拥有三个不同权限等级的系统账户,分别为高级账户、中级账户和普通账户,对应的数据容量分别为100MB、50MB和20MB。根据上述算法,可以计算出它们在主传输线路堵塞时优先通过空闲传输线路传输的优先级。
高级账户:C=100MB/3=33.33;中级账户:C=50MB/2=25;普通账户:C=20MB/1=20;
根据计算结果,高级账户的数据优先级最高,其次是中级账户,最后是普通账户。因此,在主传输线路堵塞时,高级账户的数据将优先通过空闲传输线路传输,而普通账户的数据将被最后传输,这样可以保证企业重要数据的及时传输和处理。
通过设置一主一空闲两条线路对数据进行传输,并设置相关的条件,一方面保证权限高的账户传输重要数据,可以享用较快较通畅的线路,对于权限低的账户,在传输数据时若出现主传输线路拥挤,也可以暂时性的享用空闲传输线路,不影响工作,设置算法进行控制,可自动进行调配,使用方便。
综上所述,本方法将企业的工作系统划分成不同部门系统,针对性更强,操作更方便,而对于不同系统之间的数据管理,采用数据挖掘技术深层次挖掘并分配管理,对于系统之间的数据流通,对其进行去重排序等操作,实用并行计算、哈希表、降维近似计算等方式处理,极大的优化了复杂数据的计算,提升了数据处理效率,配合双线路传输方式,提升了数据传输效率,多方面结合,大大提高了企业运营中的大数据计算管理效率,降低了人工操作的工作量和错误率。
本发明图1公开了一种企业数字化智能运营系统,包括若干部门系统,还包括主系统,所述主系统拥有所有部门系统的系统功能,并拥有完整管理权限,所述系统还包括数据挖掘分配单元、数据传输处理单元和数据传输线路,所述数据传输线路还包括主传输线路和空闲传输线路,所述主系统与数据传输线路连接以传输数据,所述数据挖掘分配单元用于挖掘部门系统数据并分配于部门系统,所述数据传输处理用于处理数据并在部门系统之间以及主系统与部门系统之间传输数据。
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于数据挖掘的企业数字化智能运营方法,其特征在于:具体包括以下步骤:
S1:依据企业部门工作内容建立若干部门系统,同时搭载一主一空闲两套数据传输线路,分别标记为主传输线路和空闲传输线路,用于传输数据时标记线路进行分配;
S2:使用数据挖掘算法挖掘企业系统数据,并按照不同部门系统进行分类管理,具体包括:采用K均值聚类算法选择K个初始的聚类中心点,然后根据数据点与这些聚类中心点的距离来将数据点分配到K个不同的类别中,接着重新计算每个类别的中心点,直到达到收敛条件为止;
S3:在不同部门系统之间数据传输时,首先对业务数据进行预处理,去除重复并对数据进行排序;
S4:使用并行计算将需要转换的原始数据集分割成大小为N的子集,并且确定并行计算的线程数为M,对数据进行多线程并行处理;
S5:创建哈希表处理业务数据,具体包括:创建一个哈希表数据结构,然后选择一个哈希函数,将每个数据项的键值通过哈希函数转换成哈希值,并将数据项存储在哈希表中对应的位置;
S6:采用近似计算方式来优化处理效率,具体为:采用主成分分析算法对线性数据进行降维近似计算,并采用核主成分分析算法进行非线性扩展,处理非线性数据;
S7:在使用主传输线路和空闲传输线路传输数据时,依据账户权限、线路传输实际情况和正常数据传输通过主传输线路传输,对于享有高权限的系统账户传输线路使用空闲传输线路传输,在主传输线路堵塞时,账户权限越高和数据容量越小的优先分配到空闲传输线路传输。
2.根据权利要求1所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述S2的数据挖掘算法具体包括:
(1)选择K个初始的聚类中心点:{μ1,μ2,...,μK};
(2)根据数据点与聚类中心点的距离将数据点分配到不同的类别中:对于每个数据点x,计算它与每个聚类中心点的距离,然后将x分配到距离最近的聚类中心点所对应的类别中;
(3)重新计算每个类别的中心点:对于每个类别i,计算该类别中所有数据点的平均值作为新的聚类中心点μi;
(4)重复步骤2和步骤3,直到达到收敛条件为止。
3.根据权利要求2所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述收敛条件指当聚类中心点不再发生显著变化时,数据挖掘算法达到收敛,具体为,定义一个阈值L,当每个聚类中心点的移动距离小于该阈值L时,数据挖掘算法即认为已经收敛,表示聚类中心点已经稳定下来,不再发生显著的变化,结束迭代。
4.根据权利要求2所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述距离最近的聚类中心点的计算方法是,通过最小化目标函数最小化每个数据点与其所属类别的聚类中心点之间的距离的总和,具体为:
J(μ1,μ2,...,μK)=Σi=1-N Σk=1-K||x(i)-μk||^2;
其中,N表示数据集中的数据点数量,K表示聚类中心点的数量,x(i)表示第i个数据点,μk表示第k个聚类中心点,||a - b||表示向量a和向量b之间的欧氏距离,通过不断迭代更新聚类中心点的位置,最终得到K个不同类型的业务数据分组。
5.根据权利要求1所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述S3中的去除重复数据和排序操作具体包括:
(1)去除重复数据:
D={x|x∈Y,C(x)=1};
其中Y为原始数据集,C(x)表示x在数据集中出现的次数,D为去除重复数据后的数据集;
(2)排序操作:
S=P(Y);
其中P(Y)表示对原始数据集Y进行排序操作,S表示排序后的数据集。
6.根据权利要求1所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述S5中在发生哈希冲突时,即两个不同的键值通过哈希函数得到相同的哈希值,使用开放寻址法或者链地址法来解决冲突;
当需要查找、插入或删除数据时,通过哈希函数计算出数据项的哈希值,然后在哈希表中对应的位置进行操作;
需要根据实际情况来调整哈希表的大小和哈希函数。
7.根据权利要求1所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述S6中,假设原始数据集为Y,目标降维后的数据集为Z,采用主成分分析进行降维近似算法计算时方式为:
假设原始数据集Y的维度为m×n,其中m表示样本数,n表示特征数,目标降维后的数据集Z的维度为m×k,其中k表示降维后的特征数;
首先,计算原始数据集Y的均值向量μ,表示为:
μ=(Y1,Y2,...,Yn);
其中Yi表示第i个特征的均值;
然后,计算原始数据集Y的协方差矩阵C,表示为:
C=1/m×(Y-μ)T×(Y-μ);
其中(Y-μ)表示原始数据集Y每个样本减去均值向量μ后的矩阵,T表示转置;
接下来,对协方差矩阵C进行特征值分解,并对分解后的特征值进行降序排序,得到特征值λ1,λ2,...,λn和对应的特征向量v1,v2,...,vn,选择前f个特征值和对应的特征向量,构成特征值矩阵Λ和特征向量矩阵V,将原始数据集Y投影到特征向量矩阵V上,得到降维后的数据集Z,表示为:
Z=Y×V;
其中×表示矩阵乘法;通过上述计算公式,可以得到原始数据集Y经过主成分分析降维后的数据集Z。
8.根据权利要求7所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述S6中核主成分分析算法,首先将原始数据集Y映射到高维特征空间,得到映射后的数据集Φ(Y),然后,对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z,具体的计算公式如下:
计算核矩阵F:
;
其中f(Yi, Yj)表示样本Yi和Yj在高维特征空间中的内积;
然后对核矩阵F进行中心化,首先计算中心化矩阵H:
H=I-1/m×1×1T;
其中1是全1向量,I是单位矩阵;
然后计算中心化的核矩阵:
F_H=H×F×H;
对中心化的核矩阵F_H进行特征值分解,得到特征值β1, t2, ..., tm和对应的特征向量u1,u2,...,um;
从大到小排序后选择前f个特征值和对应的特征向量,构成特征值矩阵T和特征向量矩阵U;
将原始数据集Y映射到高维特征空间中,得到映射后的数据集Φ(Y):
;
对映射后的数据集Φ(Y)进行线性PCA,得到降维后的数据集Z:
Z=Φ(Y)×V。
9.根据权利要求1所述的一种基于数据挖掘的企业数字化智能运营方法,其特征在于:所述S7中,设空闲传输线路传输优先级为C,设权限等级为Q,待传输的数据容量为S,则:
C= S/Q;
C值越大的数据优先通过空闲传输线路传输。
10.一种企业数字化智能运营系统,包括权利要求1所述方法中的若干部门系统,还包括主系统,其特征在于:所述主系统拥有所有部门系统的系统功能,并拥有完整管理权限,还包括数据挖掘分配单元、数据传输处理单元和数据传输线路,所述数据传输线路还包括主传输线路和空闲传输线路,所述主系统与数据传输线路连接以传输数据,所述数据挖掘分配单元用于挖掘部门系统数据并分配于部门系统,所述数据传输处理用于处理数据并在部门系统之间以及主系统与部门系统之间传输数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410045441.7A CN117556289B (zh) | 2024-01-12 | 2024-01-12 | 一种基于数据挖掘的企业数字化智能运营方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410045441.7A CN117556289B (zh) | 2024-01-12 | 2024-01-12 | 一种基于数据挖掘的企业数字化智能运营方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556289A true CN117556289A (zh) | 2024-02-13 |
CN117556289B CN117556289B (zh) | 2024-04-16 |
Family
ID=89823698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410045441.7A Active CN117556289B (zh) | 2024-01-12 | 2024-01-12 | 一种基于数据挖掘的企业数字化智能运营方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556289B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1681348A (zh) * | 2004-04-08 | 2005-10-12 | 大唐移动通信设备有限公司 | 控制移动终端非实时业务数据传输的方法 |
CN103678500A (zh) * | 2013-11-18 | 2014-03-26 | 南京邮电大学 | 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 |
CN104427623A (zh) * | 2013-08-30 | 2015-03-18 | 中国移动通信集团设计院有限公司 | 一种业务调度方法及装置 |
US20150302433A1 (en) * | 2014-04-17 | 2015-10-22 | Sas Institute Inc. | Automatic Generation of Custom Intervals |
CN107113183A (zh) * | 2014-11-14 | 2017-08-29 | 马林·利佐尤 | 大数据的受控共享的系统和方法 |
CN109919208A (zh) * | 2019-02-25 | 2019-06-21 | 中电海康集团有限公司 | 一种外观图像相似度比对方法和系统 |
CN112925821A (zh) * | 2021-02-07 | 2021-06-08 | 江西理工大学 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN114328663A (zh) * | 2021-12-27 | 2022-04-12 | 浙江工业大学 | 一种基于数据挖掘的高维剧场数据降维可视化处理方法 |
CN115665487A (zh) * | 2022-10-17 | 2023-01-31 | 中国工商银行股份有限公司 | 一种影像数据传输方法、装置、计算机设备 |
CN116055403A (zh) * | 2023-02-06 | 2023-05-02 | 银清科技有限公司 | 报文数据的传输方法、装置和服务器 |
CN117271137A (zh) * | 2023-10-26 | 2023-12-22 | 江苏苏云信息科技有限公司 | 一种多线程的数据分片并行方法 |
CN117272215A (zh) * | 2023-11-21 | 2023-12-22 | 江苏达海智能系统股份有限公司 | 一种基于数据挖掘的智慧小区安全管理方法及系统 |
-
2024
- 2024-01-12 CN CN202410045441.7A patent/CN117556289B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1681348A (zh) * | 2004-04-08 | 2005-10-12 | 大唐移动通信设备有限公司 | 控制移动终端非实时业务数据传输的方法 |
CN104427623A (zh) * | 2013-08-30 | 2015-03-18 | 中国移动通信集团设计院有限公司 | 一种业务调度方法及装置 |
CN103678500A (zh) * | 2013-11-18 | 2014-03-26 | 南京邮电大学 | 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法 |
US20150302433A1 (en) * | 2014-04-17 | 2015-10-22 | Sas Institute Inc. | Automatic Generation of Custom Intervals |
CN107113183A (zh) * | 2014-11-14 | 2017-08-29 | 马林·利佐尤 | 大数据的受控共享的系统和方法 |
CN109919208A (zh) * | 2019-02-25 | 2019-06-21 | 中电海康集团有限公司 | 一种外观图像相似度比对方法和系统 |
CN112925821A (zh) * | 2021-02-07 | 2021-06-08 | 江西理工大学 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN114328663A (zh) * | 2021-12-27 | 2022-04-12 | 浙江工业大学 | 一种基于数据挖掘的高维剧场数据降维可视化处理方法 |
CN115665487A (zh) * | 2022-10-17 | 2023-01-31 | 中国工商银行股份有限公司 | 一种影像数据传输方法、装置、计算机设备 |
CN116055403A (zh) * | 2023-02-06 | 2023-05-02 | 银清科技有限公司 | 报文数据的传输方法、装置和服务器 |
CN117271137A (zh) * | 2023-10-26 | 2023-12-22 | 江苏苏云信息科技有限公司 | 一种多线程的数据分片并行方法 |
CN117272215A (zh) * | 2023-11-21 | 2023-12-22 | 江苏达海智能系统股份有限公司 | 一种基于数据挖掘的智慧小区安全管理方法及系统 |
Non-Patent Citations (3)
Title |
---|
WEN-YEN CHEN 等: "Parallel Spectral Clustering in Distributed Systems", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 33, no. 3, 31 March 2011 (2011-03-31), pages 568, XP011373508, DOI: 10.1109/TPAMI.2010.88 * |
关雪峰 等: "时空大数据背景下并行数据处理分析挖掘的进展及趋势", 《地理科学进展》, vol. 37, no. 10, 31 October 2018 (2018-10-31), pages 1314 - 1327 * |
孙天伟: "智慧城市大数据系统设计及实现", 《广东通信技术》, 31 December 2020 (2020-12-31), pages 49 - 53 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556289B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9442929B2 (en) | Determining documents that match a query | |
Zhang et al. | Efficient parallel kNN joins for large data in MapReduce | |
US20070005556A1 (en) | Probabilistic techniques for detecting duplicate tuples | |
Köhler et al. | Efficient parallel skyline processing using hyperplane projections | |
Yagoubi et al. | Dpisax: Massively distributed partitioned isax | |
US9256665B2 (en) | Creation of inverted index system, and data processing method and apparatus | |
Hua et al. | Locality-sensitive bloom filter for approximate membership query | |
EP1585073A1 (en) | Method for duplicate detection and suppression | |
CN109189995B (zh) | 基于mpi的云存储中数据消冗方法 | |
Zhang et al. | TARDIS: Distributed indexing framework for big time series data | |
WO2014210218A1 (en) | Incremental maintenance of range-partitioned statistics for query optimization | |
JP2002342136A (ja) | ブロック・レベル・サンプリングを使用してデータベースのクラスタ化係数を判定する装置および方法 | |
US20190163795A1 (en) | Data allocating system and data allocating method | |
US10713592B2 (en) | Jaccard similarity estimation of weighted samples: circular smearing with scaling and randomized rounding sample selection | |
US7890705B2 (en) | Shared-memory multiprocessor system and information processing method | |
Beyer et al. | Distinct-value synopses for multiset operations | |
CN107066328A (zh) | 大规模数据处理平台的构建方法 | |
Elmeiligy et al. | An efficient parallel indexing structure for multi-dimensional big data using spark | |
Bante et al. | Big data analytics using hadoop map reduce framework and data migration process | |
CN117556289B (zh) | 一种基于数据挖掘的企业数字化智能运营方法及系统 | |
Xiang et al. | GAIPS: Accelerating maximum inner product search with GPU | |
Heo et al. | Shortlist selection with residual-aware distance estimator for k-nearest neighbor search | |
Long et al. | A similarity clustering-based deduplication strategy in cloud storage systems | |
Narang et al. | Real-time approximate range motif discovery & data redundancy removal algorithm | |
Romero-Gainza et al. | Memory mapping and parallelizing random forests for speed and cache efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |