CN117216022B - 一种数字化工程咨询数据管理系统 - Google Patents

一种数字化工程咨询数据管理系统 Download PDF

Info

Publication number
CN117216022B
CN117216022B CN202311465620.8A CN202311465620A CN117216022B CN 117216022 B CN117216022 B CN 117216022B CN 202311465620 A CN202311465620 A CN 202311465620A CN 117216022 B CN117216022 B CN 117216022B
Authority
CN
China
Prior art keywords
sub
data
block
sequence
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311465620.8A
Other languages
English (en)
Other versions
CN117216022A (zh
Inventor
袁千皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhicheng Engineering Consulting Co ltd
Original Assignee
Hunan Zhicheng Engineering Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhicheng Engineering Consulting Co ltd filed Critical Hunan Zhicheng Engineering Consulting Co ltd
Priority to CN202311465620.8A priority Critical patent/CN117216022B/zh
Publication of CN117216022A publication Critical patent/CN117216022A/zh
Application granted granted Critical
Publication of CN117216022B publication Critical patent/CN117216022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种数字化工程咨询数据管理系统,该系统采集工程咨询数据的一维文本序列,并将其划分为若干个数据子块,根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度,由此获取最优长度,从而得到重组序列和重组顺序序列,根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小,使用LZ77压缩算法对重组序列进行压缩处理,得到压缩数据,将压缩数据、最优长度、重组顺序序列存储到数字化工程咨询数据管理系统中。本发明通过数据重组、滑动字典窗口大小的自适应,提高数据的压缩效果,从而提高数字化工程咨询数据管理系统中数据的存储和传输效率。

Description

一种数字化工程咨询数据管理系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种数字化工程咨询数据管理系统。
背景技术
数字化工程咨询领域中,大量的数据需要进行存储和传输。这些数据包括工程设计图纸、技术规范、项目进度计划等。由于数据量庞大,传输和存储成本较高,因此需要一种高效的数据管理系统。
由于数字化工程咨询数据的精度要求较高,故在进行压缩时通常采用无损压缩算法中的LZ77压缩算法,无损压缩算法是一种能够将数据压缩至较小尺寸同时保持数据的完整性的技术。这种算法通过寻找数据中的冗余和重复模式,并利用这些模式来减少数据的存储空间。与有损压缩算法不同,无损压缩算法不会丢失数据的任何信息。在数字化工程咨询数据中,存在大量的冗余和重复模式。例如,不同项目中可能存在相似的数据结构、变量命名规则、代码段等。利用无损压缩算法,可以将这些重复的模式进行识别并进行压缩,从而减少数据的存储空间。
现有的问题:LZ77压缩算法对于全局较为均匀分布的冗余数据的压缩效果较差,而数字化工程咨询数据更符合全局较为均匀分布的情况,由此会导致数字化工程咨询数据的压缩效率较低,需要较大的存储空间,增加了数据的传输时长,从而导致数字化工程咨询数据管理系统的空间利用率降低、运行速度减小。
发明内容
本发明提供一种数字化工程咨询数据管理系统,以解决现有的问题。
本发明的一种数字化工程咨询数据管理系统采用如下技术方案:
本发明一个实施例提供了一种数字化工程咨询数据管理系统,该系统包括以下模块:
数据采集模块:用于采集工程咨询数据的文本文件,使用Z字扫描法对所述文本文件进行扫描,得到一维文本序列;
数据分块模块:用于将预设的窗口长度序列中的任意一个数据,记为初始窗口长度;根据初始窗口长度,得到一维文本序列划分的若干个数据子块;
根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度;根据所有数据子块的相似度,得到所有数据子块划分的若干类子块;根据每类子块中所有数据子块的相似度,得到每类子块对应的数据子块序列;
根据每个数据子块序列中所有相邻数据子块的相似度,得到每个数据子块序列的相似度;根据所有数据子块序列的相似度,得到初始窗口长度的优选程度;在预设的窗口长度序列中,统计所有数据的优选程度中的最大值,将所述最大值对应的数据,记为最优长度;
数据重组模块:用于根据最优长度对应的一维文本序列划分的数据子块、数据子块序列、数据子块序列的相似度,得到重组序列和重组顺序序列;
数据压缩存储模块:用于根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小;
根据滑动字典窗口的最优大小,使用LZ77压缩算法对重组序列进行压缩处理,得到压缩数据;将压缩数据、最优长度、重组顺序序列存储到数字化工程咨询数据管理系统中。
进一步地,所述根据初始窗口长度,得到一维文本序列划分的若干个数据子块包括:
根据初始窗口长度、预设的窗口宽度,构建初始窗口;
使用初始窗口,将一维文本序列依次划分为若干个不重复的数据子块。
进一步地,所述根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度包括:
在一维文本序列中,将任意两个数据子块,分别记为第一序列段与第二序列段;
根据第一序列段与第二序列段中每个数据的数据值,得到第一序列段与第二序列段中的每个数据的相似度;
将第一序列段与第二序列段中的所有数据的相似度之和,记为第一序列段与第二序列段的相似度。
进一步地,所述根据第一序列段与第二序列段中每个数据的数据值,得到第一序列段与第二序列段中的每个数据的相似度对应的具体计算公式为:
其中为第一序列段与第二序列段中的第i个数据的相似度,/>为预设的最大相似度,/>为预设的最小相似度,/>为第一序列段中第i个数据的数据值,/>为第二序列段中第i个数据的数据值。
进一步地,所述根据所有数据子块的相似度,得到所有数据子块划分的若干类子块包括:
在一维文本序列中,将任意一个数据子块,记为目标子块;将不是目标子块的数据子块,记为对照子块;
统计目标子块分别与所有对照子块的相似度,将所述对照子块的相似度中的最大值对应的对照子块,记为参考子块;将目标子块与所有参考子块,记为第一类子块;
将任意一个不是第一类子块的数据子块,记为新目标子块;将不是新目标子块的数据子块,记为新对照子块;
统计新目标子块分别与所有新对照子块的相似度,将所述新对照子块的相似度中的最大值对应的新对照子块,记为新参考子块;
若新参考子块中存在第一类子块,则将新目标子块记为第一类子块;若新参考子块中不存在第一类子块,则将新目标子块与所有新参考子块,记为第二类子块;
将任意一个不是第一类子块、也不是第二类子块的数据子块,记为更新目标子块;将不是更新目标子块的数据子块,记为更新对照子块;
统计更新目标子块分别与所有更新对照子块的相似度,将所述更新对照子块的相似度中的最大值对应的更新对照子块,记为更新参考子块;
若更新参考子块中存在第一类子块,则将更新目标子块记为第一类子块;若更新参考子块中存在第二类子块,则将更新目标子块记为第二类子块;若更新参考子块中不存在第一类子块、也不存在第二类子块,则将更新目标子块与所有更新参考子块,记为第三类子块;
以此类推,将一维文本序列中的所有数据子块划分为若干类子块。
进一步地,所述根据每类子块中所有数据子块的相似度,得到每类子块对应的数据子块序列包括:
在所有数据子块划分的若干类子块中,将任意一类子块,记为目标类;
将目标类中任意一个数据子块,记为主子块;
在目标类中,将主子块分别与其它所有的数据子块的相似度的均值,记为主子块的可信度;
根据目标类中数据子块的可信度,由大到小对所有数据子块进行排序,得到目标类对应的数据子块序列。
进一步地,所述根据每个数据子块序列中所有相邻数据子块的相似度,得到每个数据子块序列的相似度对应的具体计算公式为:
其中为第v个数据子块序列的相似度,/>为第v个数据子块序列中的数据数量,为第v个数据子块序列中第k个和第k+1个数据子块的相似度。
进一步地,所述根据所有数据子块序列的相似度,得到初始窗口长度的优选程度包括:
将所有数据子块序列的相似度的均值,记为初始窗口长度的优选程度。
进一步地,所述根据最优长度对应的一维文本序列划分的数据子块、数据子块序列、数据子块序列的相似度,得到重组序列和重组顺序序列包括:
在最优长度对应的所有数据子块中,根据一维文本序列,依次统计所有数据子块,得到子块序列;
在最优长度对应的所有数据子块序列中,根据数据子块序列的相似度,由大到小对所有数据子块序列进行排序,得到顺序序列;
在顺序序列中,将所有数据子块序列依次构成的一维数据序列,记为重组序列;
统计子块序列中每个数据子块的序数值,在重组序列中,依次统计每个数据子块的序数值,得到重组顺序序列。
进一步地,所述根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小包括:
统计最优长度对应的所有数据子块的相似度中的最大值,将所述最大值与最优长度的乘积,记为滑动字典窗口的最优大小。
本发明的技术方案的有益效果是:
本发明实施例中,采集工程咨询数据的一维文本序列,并将其划分为若干个数据子块,根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度,由此获取最优长度,其根据数字化工程咨询数据的相似度获取相似的数据块,根据相似数据块的长度与位置对数字化工程咨询数据进行自适应分块处理。从而得到重组序列和重组顺序序列,其将分块后的数据进行相似度判断,根据相似度对数字化工程咨询数据进行重组,从而令相似数据在局部出现,提高压缩效果。再根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小,使用LZ77压缩算法对重组序列进行压缩处理,得到压缩数据。将压缩数据、最优长度、重组顺序序列存储到数字化工程咨询数据管理系统中。至此本发明通过数据重组、滑动字典窗口大小的自适应,提高数据的压缩效果,从而提高数字化工程咨询数据管理系统中数据的存储和传输效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数字化工程咨询数据管理系统的模块框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数字化工程咨询数据管理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种数字化工程咨询数据管理系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种数字化工程咨询数据管理系统的模块框图,该系统包括以下模块:
数据采集模块101:数据采集模块。
采集工程咨询数据的文本文件,使用Z字扫描法对所述文本文件进行扫描,扫描完成后得到一维文本序列。其中,Z字扫描法为公知技术,具体方法在此不做介绍。
所需说明的是:数字化工程咨询数据涵盖了多个方面的信息,包括项目管理、设计、施工、监测等。这些数据对于项目的成功执行和决策非常重要。以下是一些常见的数字化工程咨询数据以及如何采集它们的方式:
项目进度数据:项目进度数据可以通过项目管理软件、工程计划表、任务列表和日志来采集。现代项目管理工具通常提供实时进度跟踪和报告功能。
成本数据:成本数据可以通过财务软件、成本估算工具、发票记录和项目预算来采集。这些数据应该精确记录项目的支出和预算情况。
设计和工程数据:设计和工程数据可以从计算机辅助设计软件、建筑信息建模工具、绘图和设计文档中获取。这些数据包括设计图纸、规格、材料清单等。
施工数据:施工数据可以通过监视施工现场的摄像头、传感器和监测设备来采集。这些数据包括施工进度、工程质量和安全性数据。
质量控制数据:质量控制数据可以通过检查、测试、验收记录和质量报告来采集。这些数据用于确保项目符合质量标准和规范。
环境数据:环境数据可以通过环境监测设备来采集,包括大气质量监测、水质监测、噪音水平监测等。这些数据用于确保项目对环境的影响得到控制。
采集获取的数据以文本信息为主,且采集的数据为分类完成后的数据,故相同类型的数据中数据的冗余程度会更大。
数据分块模块102:数据分块模块。
已知文本信息通常存在较大程度的冗余性,但冗余信息的分布较为离散,因此在采用LZ77压缩算法进行压缩处理时难以达到较好的压缩效果,故通过对获取的文本信息进行分析,获取存在冗余的文本部分,通过冗余文本的分布以及冗余长度对文本信息进行自适应分块处理,令存在冗余的数据子块中数据的冗余程度尽可能大,再通过冗余情况对数据子块进行重组,令重组后的冗余信息存在明显的局部相似性,再利用LZ77压缩算法对重组后的文本信息进行压缩处理,在保证数据无损的同时大大提高文本数据的压缩效果,达到高效压缩存储的目的。
由于一维文本序列中字符的类型是多种多样的,文本之间存在语义关系,例如不同时间下某种材料的计费账单,某种材料名称会在不同时间下重复出现,故通过语义关系获取重复出现的语义段,需要根据语义段的分布对一维文本序列进行自适应分段处理。
本实施例设定的窗口长度序列为,窗口宽度为1,以此为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。
所需说明的是:窗口长度序列可根据不同类型的数字化工程咨询数据的语义情况进行选择,若数字化工程咨询数据中的冗余语句较长,则在选择窗口经验最大值时可选择较大的窗口经验值。
将窗口长度序列中的任意一个数据,记为初始窗口长度a。根据初始窗口长度a、窗口宽度1,构建大小为的初始窗口。根据初始窗口,将一维文本序列依次划分为若干个不重复的数据子块。
所需说明的是:每个数据子块应为长度为a的序列段,当一维文本序列中的数据数量不是a的整数倍时,一维文本序列依次划分的最后一个数据子块内的数据数量不满足a个。
在一维文本序列中,将任意两个数据子块,分别记为第一序列段与第二序列段。由此可知第一序列段与第二序列段的相似度F的计算公式为:
其中F为第一序列段与第二序列段的相似度,为第一序列段与第二序列段中的第i个数据的相似度,a为初始窗口长度,a也为数据子块中的数据数量,/>为最大相似度,/>为最小相似度,/>为第一序列段中第i个数据的数据值,/>为第二序列段中第i个数据的数据值。本实施例设定的/>,/>,以此为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。
所需说明的是:当第一序列段中第i个数据的数据值与第二序列段中第i个数据的数据值/>相等时,令/>的取值为1,否则取0,第一序列段与第二序列段相同位置的数据值取值相同的位数越多,则第一序列段与第二序列段的相似度越大,因此用/>表示第一序列段与第二序列段的相似度。
按照上述方式,得到一维文本序列中任意两个数据子块的相似度,即得到所有数据子块的相似度。
所需说明的是:若一维文本序列依次划分的最后一个数据子块内的数据数量不满足a个时,最后一个数据子块与其他数据子块进行匹配时不是等长匹配,此时对最后一个数据子块进行空格补位处理,令其长度达到a,在进行匹配时可以进行等长匹配,且令最后一个数据子块中填补的空格位与其对应数据的相似度为0。
在一维文本序列中,将任意一个数据子块,记为目标子块;将不是目标子块的数据子块,记为对照子块;统计目标子块分别与所有对照子块的相似度中的最大值,将所述最大值对应的对照子块,记为参考子块;将目标子块与所有参考子块,记为第一类子块。
在一维文本序列中,将任意一个不是第一类子块的数据子块,记为新目标子块;将不是新目标子块的数据子块,记为新对照子块;统计新目标子块分别与所有新对照子块的相似度中的最大值,将所述最大值对应的新对照子块,记为新参考子块;若新参考子块中存在第一类子块,则将新目标子块记为第一类子块;若新参考子块中不存在第一类子块,则将新目标子块与所有新参考子块,记为第二类子块。
在一维文本序列中,将任意一个不是第一类子块、也不是第二类子块的数据子块,记为更新目标子块;将不是更新目标子块的数据子块,记为更新对照子块;统计更新目标子块分别与所有更新对照子块的相似度中的最大值,将所述最大值对应的更新对照子块,记为更新参考子块;若更新参考子块中存在第一类子块,则将更新目标子块记为第一类子块;若更新参考子块中存在第二类子块,则将更新目标子块记为第二类子块;若更新参考子块中不存在第一类子块、也不存在第二类子块,则将更新目标子块与所有更新参考子块,记为第三类子块。
所需说明的是:更新参考子块是依次判断是否存在第一类子块、第二类子块,当更新参考子块存在第一类子块,将更新目标子块记为第一类子块,后续不再继续进行判断。即当更新参考子块同时存在第一类子块、第二类子块时,更新目标子块会被记为第一类子块。
以此类推,将一维文本序列中的所有数据子块划分为若干类子块。
将任意一类子块,记为目标类。将目标类中任意一个数据子块,记为主子块。
在目标类中,将主子块分别与其它所有的数据子块的相似度的均值,记为主子块的可信度。
按照上述方式,得到目标类中每个数据子块的可信度。
在目标类中,根据数据子块的可信度,由大到小对所有数据子块进行排序,得到目标类对应的数据子块序列。
按照上述方式,得到每一类子块对应的数据子块序列。
所需说明的是:窗口长度可变,使用可变的窗口长度将文本数据分割成为若干个数据子块,此时数据子块中数据子块与数据子块之前存在相似性,相似的子块越多,相似性越大,则可变的窗口长度的优选程度越大。若冗余部分大于可变的窗口长度时,会导致子块的冗余程度均较低,例如在数据序列:中,当a为3时,数据序列划分的5个数据子块分别为:/>,/>,/>,/>,/>,此时5个数据子块的冗余程度均很低。当a为5时,数据序列划分的3个数据子块分别为:/>,/>,此时数据子块的冗余程度非常高。
故可以通过改变窗口长度,获取不同窗口长度下的数据子块的相似类别,根据子块相似类别获取子块长度的优选程度,子块的平均相似度越高,则对应子块的窗口长度的优选程度越高。
由此可知初始窗口长度的优选程度Q的计算公式:
其中Q为初始窗口长度的优选程度,t为数据子块序列的数量,为第v个数据子块序列中的数据数量,/>为第v个数据子块序列中第k个和第k+1个数据子块的相似度,/>为第v个数据子块序列的相似度。
所需说明的是:为第v个数据子块序列所有相邻数据子块的相似度的均值,表示第v个数据子块序列的相似度,即为第v类的相似度。为所有数据子块序列的相似度的均值,表示初始窗口长度的优选程度,Q值越大,说明初始窗口长度下一维文本序列划分的数据子块的效果越好,即初始窗口长度的优选程度越大。
按照上述方式,得到窗口长度序列中每一个数据对应的优选程度。
统计窗口长度序列中所有数据对应的优选程度中的最大值,将所述最大值对应的数据,记为最优长度。
所需说明的是:当所述优选程度中存在多个最大值时,则取多个最大值对应的窗口长度中的最大窗口长度,为最优长度。这是因为,当最优长度较大时,一维文本序列划分的数据子块较少,会减少后续数据重组的复杂程度。
数据重组模块103:数据重组模块。
已知通过重组将相似度大的子块放置在一起,从而达到局部相似度的目的,以便于在使用LZ77压缩算法进行压缩处理时,达到更好的压缩效果。
按照上述方式,得到最优长度对应的一维文本序列划分的数据子块、任意两个数据子块的相似度、数据子块序列、每个数据子块序列的相似度。
根据一维文本序列,将最优长度对应的所有数据子块依次排序,得到子块序列,并得到每个数据子块的序数值。
在最优长度对应的所有数据子块序列中,根据数据子块序列的相似度,由大到小对所有数据子块序列进行排序,得到顺序序列。
在顺序序列中,将所有数据子块序列依次构成的一维数据序列,记为重组序列。
在重组序列中,依次统计每个数据子块的序数值,得到重组顺序序列。
所需说明的是:在最优长度下,将一维文本序列依次划分为若干个数据子块,即每个数据子块会对应一个唯一的序数值。重组序列是根据数据子块序列构成,而数据子块序列是根据数据子块构成,因此重组序列会存在一个由所有数据子块的序数值构成的序列。
数据压缩存储模块104:数据压缩存储模块。
LZ77压缩算法的运行原理如下:确定滑动窗口字典大小,将缓存区的数据与滑动窗口字典之间进行短语匹配,若找不到匹配字符时,将未匹配的符号编码为标记符号,若匹配时,将最长的匹配编码成短语标记,其中短语包括滑动窗口字典中的偏移量、匹配中符号的个数与匹配结束后的缓存区的第一个符号。
LZ77压缩算法的运行速度与滑动窗口字典大小有关,滑动窗口字典太长,会导致搜索时间长,压缩速度慢,滑动窗口字典太小,会导致压缩效果差。
由此可知滑动字典窗口的最优大小L的计算公式为:
其中L为滑动字典窗口的最优大小,为最优长度对应的所有数据子块的相似度中的最大值,/>为最优长度。
至此,根据滑动字典窗口的最优大小,使用LZ77压缩算法对重组序列进行压缩处理,得到压缩数据。其中,LZ77压缩算法为公知技术,具体方法在此不做介绍。
将压缩数据、最优长度、重组顺序序列存储到数字化工程咨询数据管理系统中。
所需说明的是:对压缩数据进行解码时,使用LZ77解码算法得到重组序列,再根据最优长度、重组顺序序列,将重组序列划分为若干个数据子块,并对所有数据子块进行重新排序,得到原始的一维文本序列。
至此,本发明完成。
综上所述,在本发明实施例中,采集工程咨询数据的一维文本序列,在窗口长度序列中,将任意一个数据,记为初始窗口长度,从而得到一维文本序列划分的若干个数据子块。根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度,根据所有数据子块的相似度,得到最优长度,从而得到重组序列和重组顺序序列。根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小,使用LZ77压缩算法对重组序列进行压缩处理,得到压缩数据。将压缩数据、最优长度、重组顺序序列存储到数字化工程咨询数据管理系统中。本发明通过数据重组、滑动字典窗口大小的自适应,提高数据的压缩效果,从而提高数字化工程咨询数据管理系统中数据的存储和传输效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种数字化工程咨询数据管理系统,其特征在于,该系统包括以下模块:
数据采集模块:用于采集工程咨询数据的文本文件,使用Z字扫描法对所述文本文件进行扫描,得到一维文本序列;
数据分块模块:用于将预设的窗口长度序列中的任意一个数据,记为初始窗口长度;根据初始窗口长度,得到一维文本序列划分的若干个数据子块;
根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度;根据所有数据子块的相似度,得到所有数据子块划分的若干类子块;根据每类子块中所有数据子块的相似度,得到每类子块对应的数据子块序列;
根据每个数据子块序列中所有相邻数据子块的相似度,得到每个数据子块序列的相似度;根据所有数据子块序列的相似度,得到初始窗口长度的优选程度;在预设的窗口长度序列中,统计所有数据的优选程度中的最大值,将所述最大值对应的数据,记为最优长度;
数据重组模块:用于根据最优长度对应的一维文本序列划分的数据子块、数据子块序列、数据子块序列的相似度,得到重组序列和重组顺序序列;
数据压缩存储模块:用于根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小;
根据滑动字典窗口的最优大小,使用LZ77压缩算法对重组序列进行压缩处理,得到压缩数据;将压缩数据、最优长度、重组顺序序列存储到数字化工程咨询数据管理系统中;
所述根据任意两个数据子块之间的数据差异,得到所述两个数据子块的相似度包括:
在一维文本序列中,将任意两个数据子块,分别记为第一序列段与第二序列段;
根据第一序列段与第二序列段中每个数据的数据值,得到第一序列段与第二序列段中的每个数据的相似度;
将第一序列段与第二序列段中的所有数据的相似度之和,记为第一序列段与第二序列段的相似度;
所述根据第一序列段与第二序列段中每个数据的数据值,得到第一序列段与第二序列段中的每个数据的相似度对应的具体计算公式为:
其中为第一序列段与第二序列段中的第i个数据的相似度,/>为预设的最大相似度,为预设的最小相似度,/>为第一序列段中第i个数据的数据值,/>为第二序列段中第i个数据的数据值;
所述根据所有数据子块的相似度,得到所有数据子块划分的若干类子块包括:
在一维文本序列中,将任意一个数据子块,记为目标子块;将不是目标子块的数据子块,记为对照子块;
统计目标子块分别与所有对照子块的相似度,将所述对照子块的相似度中的最大值对应的对照子块,记为参考子块;将目标子块与所有参考子块,记为第一类子块;
将任意一个不是第一类子块的数据子块,记为新目标子块;将不是新目标子块的数据子块,记为新对照子块;
统计新目标子块分别与所有新对照子块的相似度,将所述新对照子块的相似度中的最大值对应的新对照子块,记为新参考子块;
若新参考子块中存在第一类子块,则将新目标子块记为第一类子块;若新参考子块中不存在第一类子块,则将新目标子块与所有新参考子块,记为第二类子块;
将任意一个不是第一类子块、也不是第二类子块的数据子块,记为更新目标子块;将不是更新目标子块的数据子块,记为更新对照子块;
统计更新目标子块分别与所有更新对照子块的相似度,将所述更新对照子块的相似度中的最大值对应的更新对照子块,记为更新参考子块;
若更新参考子块中存在第一类子块,则将更新目标子块记为第一类子块;若更新参考子块中存在第二类子块,则将更新目标子块记为第二类子块;若更新参考子块中不存在第一类子块、也不存在第二类子块,则将更新目标子块与所有更新参考子块,记为第三类子块;
以此类推,将一维文本序列中的所有数据子块划分为若干类子块;
所述根据每类子块中所有数据子块的相似度,得到每类子块对应的数据子块序列包括:
在所有数据子块划分的若干类子块中,将任意一类子块,记为目标类;
将目标类中任意一个数据子块,记为主子块;
在目标类中,将主子块分别与其它所有的数据子块的相似度的均值,记为主子块的可信度;
根据目标类中数据子块的可信度,由大到小对所有数据子块进行排序,得到目标类对应的数据子块序列;
初始窗口长度的优选程度Q的计算公式:
其中Q为初始窗口长度的优选程度,t为数据子块序列的数量,为第v个数据子块序列中的数据数量,/>为第v个数据子块序列中第k个和第k+1个数据子块的相似度,/>为第v个数据子块序列的相似度;
所述根据最优长度对应的一维文本序列划分的数据子块、数据子块序列、数据子块序列的相似度,得到重组序列和重组顺序序列包括:
在最优长度对应的所有数据子块中,根据一维文本序列,依次统计所有数据子块,得到子块序列;
在最优长度对应的所有数据子块序列中,根据数据子块序列的相似度,由大到小对所有数据子块序列进行排序,得到顺序序列;
在顺序序列中,将所有数据子块序列依次构成的一维数据序列,记为重组序列;
统计子块序列中每个数据子块的序数值,在重组序列中,依次统计每个数据子块的序数值,得到重组顺序序列;
所述根据最优长度、最优长度对应的所有数据子块的相似度,得到滑动字典窗口的最优大小包括:
统计最优长度对应的所有数据子块的相似度中的最大值,将所述最大值与最优长度的乘积,记为滑动字典窗口的最优大小。
2.根据权利要求1所述一种数字化工程咨询数据管理系统,其特征在于,所述根据初始窗口长度,得到一维文本序列划分的若干个数据子块包括:
根据初始窗口长度、预设的窗口宽度,构建初始窗口;
使用初始窗口,将一维文本序列依次划分为若干个不重复的数据子块。
CN202311465620.8A 2023-11-07 2023-11-07 一种数字化工程咨询数据管理系统 Active CN117216022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311465620.8A CN117216022B (zh) 2023-11-07 2023-11-07 一种数字化工程咨询数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311465620.8A CN117216022B (zh) 2023-11-07 2023-11-07 一种数字化工程咨询数据管理系统

Publications (2)

Publication Number Publication Date
CN117216022A CN117216022A (zh) 2023-12-12
CN117216022B true CN117216022B (zh) 2024-02-02

Family

ID=89046510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311465620.8A Active CN117216022B (zh) 2023-11-07 2023-11-07 一种数字化工程咨询数据管理系统

Country Status (1)

Country Link
CN (1) CN117216022B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506153A (zh) * 2017-09-26 2017-12-22 深信服科技股份有限公司 一种数据压缩方法、数据解压方法及相关系统
CN114026555A (zh) * 2020-03-25 2022-02-08 华为技术有限公司 差分压缩的方法和系统
CN115940959A (zh) * 2023-02-16 2023-04-07 国网山东省电力公司营销服务中心(计量中心) 一种低功耗的电能数据采集管理系统
CN116013488A (zh) * 2023-03-27 2023-04-25 中国人民解放军总医院第六医学中心 具有自适应数据重排功能的病案数据智能安全管理系统
CN116051156A (zh) * 2023-04-03 2023-05-02 北京智蚁杨帆科技有限公司 一种基于数字孪生的新能源动态电价数据管理系统
CN116820352A (zh) * 2023-08-23 2023-09-29 湖南奔普智能科技有限公司 一种具有数据容灾功能的病区自助结算系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170038978A1 (en) * 2015-08-05 2017-02-09 HGST Netherlands B.V. Delta Compression Engine for Similarity Based Data Deduplication

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506153A (zh) * 2017-09-26 2017-12-22 深信服科技股份有限公司 一种数据压缩方法、数据解压方法及相关系统
CN114026555A (zh) * 2020-03-25 2022-02-08 华为技术有限公司 差分压缩的方法和系统
CN115940959A (zh) * 2023-02-16 2023-04-07 国网山东省电力公司营销服务中心(计量中心) 一种低功耗的电能数据采集管理系统
CN116013488A (zh) * 2023-03-27 2023-04-25 中国人民解放军总医院第六医学中心 具有自适应数据重排功能的病案数据智能安全管理系统
CN116051156A (zh) * 2023-04-03 2023-05-02 北京智蚁杨帆科技有限公司 一种基于数字孪生的新能源动态电价数据管理系统
CN116820352A (zh) * 2023-08-23 2023-09-29 湖南奔普智能科技有限公司 一种具有数据容灾功能的病区自助结算系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Textual data compression in computational biology: Algorithmic techniques;R. Giancarlo, D. Scaturro, F. Utro;Computer Science Review;第6卷(第1期);第1-25页 *
低熵图像序列无损压缩;汤颖;刘晓哲;张宏鑫;;计算机科学(第12期);第238-244+259页 *

Also Published As

Publication number Publication date
CN117216022A (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN115204754B (zh) 一种基于大数据的热力供需信息管理平台
CN116681036B (zh) 基于数字孪生的工业数据存储方法
US5177622A (en) Method and apparatus for detecting run length of two successive pixels and subjecting run length to universal coding
CN111104398B (zh) 针对智能船舶近似重复记录的检测方法、消除方法
CN101046858B (zh) 电子信息比较系统和方法以及反垃圾邮件系统
CN116702708B (zh) 一种道路路面施工数据管理系统
CN112035586A (zh) 基于可扩展学习索引的空间范围查询方法
CN115543946A (zh) 一种金融大数据优化存储方法
CN113328755A (zh) 一种面向边缘计算的压缩数据传输方法
CN117743870B (zh) 一种基于大数据的水利数据管理系统
CN117216022B (zh) 一种数字化工程咨询数据管理系统
CN117290364B (zh) 一种市场调查数据智能存储方法
CN116011403B (zh) 一种用于计算机数据存储的重复数据识别方法
CN117040542A (zh) 一种智能综合配电箱能耗数据处理方法
CN115865099B (zh) 基于霍夫曼编码的多类型数据分段压缩方法及系统
Zhao et al. CLEAN: frequent pattern-based trajectory spatial-temporal compression on road networks
JP2003264703A (ja) データ符号化装置、データ符号化方法、及びそのプログラム
CN115567058A (zh) 一种结合预测与编码的时序数据有损压缩方法
CN112948639B (zh) 一种高速公路数据中台数据统一存储管理方法及系统
CN110362580B (zh) 一种bim建筑工程数据检索优化归类方法及其系统
CN115203290A (zh) 一种基于多维prefixspan算法的故障诊断方法
CN115600913A (zh) 一种用于智能矿山的主数据识别方法
US20230053844A1 (en) Improved Quality Value Compression Framework in Aligned Sequencing Data Based on Novel Contexts
CN104714953A (zh) 时序数据的模体识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant