CN116304056B

CN116304056B - 一种用于计算机软件开发数据的管理方法

Info

Publication number: CN116304056B
Application number: CN202310375618.5A
Authority: CN
Inventors: 刘凤桐
Original assignee: Shanxi Jiubang Technology Co ltd
Current assignee: Shanxi Jiubang Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2024-01-30
Anticipated expiration: 2043-04-11
Also published as: CN116304056A

Abstract

本发明涉及数据压缩技术领域，具体涉及一种用于计算机软件开发数据的管理方法，该方法包括：将软件开发数据构成的字符串记为待处理字符串，根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标；根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标；根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标；利用分类度量指标对所有待处理字符串进行分类，得到每个类别对应的字符串数据集。本发明能够获得较为准确的数据分类结果。

Description

一种用于计算机软件开发数据的管理方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种用于计算机软件开发数据的管理方法。

背景技术

随着生产生活需求的增加，开发软件的种类也越来越多，软件开发涉及的数据种类和数据量逐渐增大，关于大量数据的采集问题也随之带来了管理困难和存储安全性低等相应的问题。对采集的大量数据进行分类处理是常用于分类管理数据、以便高效使用的有效方法。现有对采集到的大量数据进行分类的算法，仅考虑了数据之间的重复数据的情况，考虑因素较为单一，导致数据分类结果较不准确。

发明内容

为了解决数据分类结果较不准确的技术问题，本发明的目的在于提供一种用于计算机软件开发数据的管理方法，所采用的技术方案具体如下：

将软件开发数据构成的字符串记为待处理字符串，根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标；

根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标；根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标；

利用分类度量指标对所有待处理字符串进行分类，得到每个类别对应的字符串数据集。

优选地，所述根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标具体为：

对于任意两个待处理字符串，将其分别记为第一字符串和第二字符串，获取第一字符串和第二字符串对应的重复字符串，计算该重复字符串的长度与第一字符串的长度的比值得到第一比值，同时计算该重复字符串的长度与第二字符串的长度的比值得到第二比值；

基于重复字符串中每相邻两个字符构成的组合在第一字符串中出现的频率，计算第一字符串的信息熵得到第一信息熵；基于重复字符串中每相邻两个字符构成的组合在第二字符串中出现的频率，计算第二字符串的信息熵得到第二信息熵；以第一比值与第一信息熵的乘积作为第一乘积，以第二比值与第二信息熵的乘积作为第二乘积，获取第二乘积与第三预设值的和值记为第一和值，以第一乘积与第一和值的比值作为第一字符串和第二字符串对应的第一特征指标。

优选地，所述根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标具体为：

在第一字符串中获取任意相邻两个重复字符之间的距离，计算第一字符串中所有相邻两个重复字符之间的距离的方差；在第二字符串中获取任意相邻两个重复字符之间的距离，计算第二字符串中所有相邻两个重复字符之间的距离的方差，以两个方差的均值作为第一字符串和第二字符串对应的第二特征指标。

优选地，所述根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标具体为：

对于任意两个待处理字符串，获取第一预设值与第一特征指标之间的差值的绝对值，计算第二预设值与第二特征指标之间的和值，以所述差值的绝对值与所述和值之间的乘积的负相关映射值作为任意两个待处理字符串之间的分类度量指标。

优选地，在得到每个类别对应的字符串数据集之后，所述方法还包括：

根据每个字符串数据集中字符的分布情况与移动特征，计算字符串数据集中字符的压缩必要性；利用字符的压缩必要性确定待压缩字符；

将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集，根据每个字符串数据集中所有发生移动的待压缩字符的移动距离，得到字符串数据集对应的平均移动长度；

根据平均移动长度获得对优选数据集进行压缩时的优选窗口长度，利用LZ77压缩算法根据优选窗口长度对每个优选数据集进行压缩，得到待压缩字符的压缩数据；将待压缩字符的压缩数据进行存储。

优选地，所述根据每个字符串数据集中字符的分布情况与移动特征，计算字符串数据集中字符的压缩必要性，具体包括：

根据每个字符串数据集中字符的分布情况得到字符串数据集中字符的孤立度，根据每个字符串数据集中字符的移动特征得到字符串数据集中字符的移动代价指标，计算所述孤立度与移动代价指标之间的乘积，对所述乘积进行负相关映射得到字符串数据集中字符的压缩必要性。

优选地，所述孤立度的获取方法具体为：

对于任意一个字符串数据集，将该字符串数据集中的任意一个字符记为选定字符；

获取字符串数据集中每任意两个待处理字符串之间重复的字符构成重复字符串，获取选定字符在字符串数据集中对应的所有重复字符串中出现的次数；

对于选定字符存在的任意一个待处理字符串，将该待处理字符串中的选定字符进行删除得到待处理字符串的特征字符串，计算待处理字符串的信息熵与特征字符串的信息熵之间的比值；将字符串数据集中所有待处理字符串对应的比值的和值与所述次数的比值作为字符串数据集的选定字符的孤立度。

优选地，所述移动代价指标的获取方法具体为：

将字符串数据集中的选定字符所在的任意一个待处理字符串记为目标字符串，获取字符串数据集中存在的所有重复字符串的平均长度；

利用LZ77算法对目标字符串进行预编码，将选定字符按照设定步长向前向缓冲区进行移动，直至移动后选定字符所在位置与选定字符未移动前所在位置之间的字符长度与所述平均长度相等时，或者移动后选定字符为第一个待编码字符时停止；

每移动一次获取前向缓冲区包含选定字符的字符串与字典区域的字符串重复的长度，将所述重复的长度与预设的窗口长度之间的比值记为特征系数，计算选定字符所有次移动后对应的特征系数的和值得到选定字符在目标字符串中的移动特征值；

计算选定字符在字符串数据集中所有待处理字符串的移动特征值的和值，对移动特征值的和值进行负相关映射得到选定字符在字符串数据集中的移动代价指标。

优选地，所述第二设定规则具体为：

利用LZ77算法对字符串数据集中的字符串进行预编码，基于字典窗口中的字符串获取理想字符串，将前向缓冲区中待压缩字符向设定方向移动后，前向缓冲区中的字符串与理想字符串完全相同；

所述将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集具体为：将字符串数据集中能够满足第二设定规则的待压缩字符进行移动，将移动后得到的所有待压缩字符构成的数据集记为优选数据集。

优选地，所述利用字符的压缩必要性确定待压缩字符具体为：

将压缩必要性大于预设阈值的字符记为待压缩字符；相应地，将压缩必要性小于或等于预设阈值的字符记为非压缩字符；

所述一种用于计算机软件开发数据的管理方法还包括：对所述非压缩字符按照第一设定规则进行标记得到非压缩字符的压缩数据；将所述非压缩字符的压缩数据进行存储；所述第一设定规则与所述第二设定规则不同。

本发明实施例至少具有如下有益效果：

本发明首先获取软件开发数据对应的待处理字符串，考虑了两个待处理字符串中重复字符的分布情况，并根据两个待处理字符串中的重复字符的分布情况计算任意两个待处理字符串的第一特征指标，利用第一特征评价指标表征字符串的重复字符的分布情况之间的相似情况，即从两个待处理字符串中重复字符分布的方面获取到了两个待处理字符串的关联关系；进一步的，考虑了两个待处理字符串中重复字符的位置信息的分布情况，并根据两个待处理字符串中的重复字符的位置计算任意两个待处理字符串的第二特征指标，利用第二特征指标综合反映两个待处理字符串中重复字符位置分布的紧密程度的均衡情况，即从两个待处理字符串中重复字符位置信息的方面获取到了两个待处理字符串的关联关系；最终结合这两个方面的特征获得任意两个待处理字符串的分类度量指标，利用分类度量指标对待处理字符串进行分类，能够获得较为准确的数据分类结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的一种用于计算机软件开发数据的管理方法的方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于计算机软件开发数据的管理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于计算机软件开发数据的管理方法的具体方案。

实施例：

本发明所针对的具体场景为：利用软件管理系统获取软件开发数据后，获取的软件开发数据中涉及大量的用户数据，并且需要对大量的用户数据进行存储，因此，对软件开发数据进行有效的压缩处理就显得尤为重要。

请参阅图1，其示出了本发明一个实施例提供的一种用于计算机软件开发数据的管理方法的方法流程图，该方法包括以下步骤：

步骤S100，将软件开发数据构成的字符串记为待处理字符串，根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标。

首先，获取软件开发数据，由于一个软件的开发涉及到多方面的内容，例如服务推送、功能应用和用户登录等，这些功能的实现都离不开大量的用户数据。通常情况下，软件开发数据的管理系统会将采集到的所有数据全部存放到软件管理系统的数据库中，因此，在本实施例中，将软件开发数据中的用户数据作为被压缩的对象。其中，用户数据是指用户的个人信息，包含姓名、年龄、身高、体重和联系方式等多种不同类型的数据，实施者可根据具体实施场景进行设置。

由于每个用户的用户数据中包含多种数据类型的个人信息数据，例如姓名是汉字，身高和体重是数字，因此需要将所有用户的用户数据转换为相同的数据模式，在本实施例中，将用户数据转换为字符串的形式，则每个用户的用户数据均对应一个字符串数据，将用户数据对应的字符串记为待处理字符串。

每个用户的用户数据包含多种个人信息，大量用户中可能存在具有相同的个人信息数据，例如，两个姓名不同的用户，但是身高和体重可能相同，进而可以看出这两个用户的用户数据是具有一定相似性，相同的个人信息数据越多，相似性就越大。因此，可以对不同用户数据之间的相似性进行分析，判断不同用户数据之间是否存在重复的数据。

在本实施例中，采用KMP匹配算法获取不同字符串数据之间的相似性，KMP匹配算法输入的是两个待处理字符串，KMP匹配算法输出的是匹配数量和匹配点位置，匹配数量越多，说明两个待处理字符串中重复字符的数量越多，两个待处理字符串的相似性越高，匹配点位置越集中，说明两个待处理字符串中重复数据出现的位置越接近。同时，实施者也可根据具体实施场景选择其他方法获取两个待处理字符串中的重复字符。

在对采集到的用户数据对应的待处理字符串进行压缩前，将具有一定相似性的待处理字符串划分到一个数据集中，进而根据重复字符的数量和出现的位置，可以更加精准的设置符合该数据集中待处理数据串数据压缩时的窗口长度，基于此窗口长度利用LZ77算法进行压缩能够得到更好的压缩效果。

基于此，根据任意两个待处理字符串中的字符的相似情况，对所有待处理字符串进行分类，得到每个类别对应的字符串数据集。在本实施例中，根据任意两个待处理字符串中的字符的相似情况，获得任意两个待处理字符串之间的分类度量指标。

首先，根据任意两个待处理字符串中的重复字符的分布情况得到第一特征指标，具体地，对于任意两个待处理字符串，将其分别记为第一字符串和第二字符串，获取两个待处理字符串对应的重复字符串，计算该重复字符串的长度与第一字符串的长度的比值得到第一比值，同时计算该重复字符串的长度与第二字符串的长度的比值得到第二比值；基于重复字符串中相邻两个字符构成的组合在第一字符串中出现的频率，计算第一字符串的信息熵得到第一信息熵；基于重复字符串中相邻两个字符构成的组合在第二字符串中出现的频率，计算第二字符串的信息熵得到第二信息熵；以第一比值与第一信息熵的乘积作为第一乘积，以第二比值与第二信息熵的乘积作为第二乘积，获取第二乘积与第三预设值的和值记为第一和值，以第一乘积与第一和值的比值作为第一字符串和第二字符串对应的第一特征指标。

在本实施例中，将待处理字符串A记为第一字符串，将待处理字符串B记为第二字符串，则第一特征指标的计算方法具体为：

其中，L_AB表示第一字符串与第二字符串对应的第一特征指标，β_A表示第一比值，β_B表示第二比值，H_A表示第一信息熵，P_A(b,b+1)表示第一字符串和第二字符串的重复字符串中第b个字符和第b+1个字符构成的组合，在第一字符串中出现的频率；H_B表示第二信息熵，P_B(b,b+1)表示第一字符串和第二字符串的重复字符串中第b个字符和第b+1个字符构成的组合，在第二字符串中出现的频率；log()表示以常数2为底的对数函数，N_AB表示第一字符串和第二字符串的重复字符串中包含的字符数；β_A*H_A表示第一乘积，β_B*H_B表示第二乘积，β_B*H_B+ε₃表示第一和值；ε₃为第三预设值，在本实施例中的取值为0.01，其是为了防止分母为0。

第一字符串对应的第一信息熵反映了重复字符组合在第一字符串中的信息量，第二字符串对应的第二信息熵反映了重复字符组合在第二字符串中的信息量；第一比值反映了重复字符在第一字符串中的占比情况，第二比值反映了重复字符在第二字符串中的占比情况；通过占比情况与信息量的乘积，第一乘积反映了第一字符串的重复字符的分布情况，第二乘积反映了第二字符串的重复字符的分布情况，利用第一特征评价指标表征第一字符串和第二字符串重复字符的分布情况之间的相似情况。

步骤S200，根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标；根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标。

具体地，在第一字符串中获取任意相邻两个重复字符之间的距离，计算第一字符串中所有相邻两个重复字符之间的距离的方差；在第二字符串中获取任意相邻两个重复字符之间的距离，计算第二字符串中所有相邻两个重复字符之间的距离的方差，以两个方差的均值作为第一字符串和第二字符串对应的第二特征指标。

在本实施例中，在待处理字符串A中，获取第i个重复字符和第i+1个重复字符之间的数据长度，作为第一字符串中相邻两个重复字符之间的距离。同理，在待处理字符串B中，获取第j个重复字符和第j+1个重复字符之间的数据长度，作为第二字符串中相邻两个重复字符之间的距离，实施者可根据具体实施场景利用其他方法获取待处理字符串中重复字符之间的距离。

第一字符串中所有相邻两个重复字符之间的距离的方差，反映了第一字符串中重复字符位置分布的紧密程度；第二字符串中所有相邻两个重复字符之间的距离的方差反映了第一字符串中重复字符位置分布的紧密程度，进而第二特征指标综合反映了第一字符串和第二字符串中重复字符位置分布的紧密程度的均衡情况。

进一步的，获取第一预设值与第一特征指标之间的差值的绝对值，计算第二预设值与第二特征指标之间的和值，以所述差值的绝对值与所述和值之间的乘积的负相关映射值作为任意两个待处理字符串之间的分类度量指标，用公式表示为：

D_AB＝exp[-|ε₁-L_AB|*(d_AB+ε₂)]

其中，D_AB表示待处理字符串A和待处理字符串B之间的分类度量指标，即第一字符串和第二字符串之间的分类度量指标；L_AB表示待处理字符串A和待处理字符串B对应的第一特征指标，即第一字符串与第二字符串对应的第一特征指标；d_AB表示待处理字符串A和待处理字符串B对应的第二特征指标，即第一字符串与第二字符串对应的第二特征指标；ε₁为第一预设值，ε₂为第二预设值，exp()表示以自然常数e为底的指数函数。

第一特征评价指标表征了第一字符串和第二字符串重复字符的分布情况之间的相似情况，L_AB的取值越接近1时，表示第一字符串和第二字符串重复字符的分布情况越相似，进而在本实施例中第一预设值ε₁的取值为1，|ε₁-L_AB|的取值越大，说明第一字符串和第二字符串重复字符的分布情况之间的差异越大，对应的分类度量指标越小。|ε₁-L_AB|的取值越小，直至取值为0时，说明第一字符串和第二字符串重复字符的分布情况较为相似，对应的分类度量指标取值越大。

第二特征指标综合反映了第一字符串和第二字符串中重复字符位置分布的紧密程度，d_AB的取值越大，说明第一字符串和第二字符串中重复字符位置分布较为离散，对应的分类度量指标的取值越小。d_AB的取值越小，说明第一字符串和第二字符串中重复字符位置分布较为紧密，对应的分类度量指标的取值越大，进而在本实施例中第二预设值ε₂的取值为0.01，为了防止第二特征指标的取值为0时，影响分布情况相似性的判断。

分类度量指标的取值越大，说明两个待处理字符串之间较为相似，重复字符位置分布也较为紧密，越可能分为一个簇类。分类度量指标的取值越小，说明两个待处理字符串之间的差异较大，重复字符位置分布也较为离散，越不可能分为一个簇类。

步骤S300，利用分类度量指标对所有待处理字符串进行分类，得到每个类别对应的字符串数据集。

在本实施例中，基于所有任意两个待处理字符串对应的分类度量指标，利用DBSCAN聚类算法对所有待处理字符串进行分类得到多个类别，每个类别中所有待处理字符串构成一个字符串数据集。实施者也可根据具体实施场景选择其他合适的方法对待处理字符串进行分类。

在得到每个类别对应的字符串数据集之后，本发明实施例的方法还包括：

步骤S301，根据每个字符串数据集中字符的分布情况与移动特征，计算字符串数据集中字符的压缩必要性；利用字符的压缩必要性确定待压缩字符。

对于传统的LZ77压缩算法，其是以一个固定的三元组的形式对数据进行编码的，即(偏移距离，匹配长度，当前字符)，其中，当前字符表示的是待编码区第一个等待编码的字符。需要说明的是，利用LZ77压缩算法对字符串进行编码的过程中使用的滑动窗口包括字典区域和待编码区域，在本实施例中，前向缓冲区即为待编码区。

而并不是所有字符通过三元组的数据形式都能过实现压缩的目的，尤其是前向缓冲区中的某个字符在字典区域或者前向缓冲区中均没有与其重复的字符时，通过三元组的数据形式反而增大了数据长度。

例如，一个字符串为abbcdabcdebdx，对于字符x，字符串数据中仅有一个x，随着滑动窗口逐渐滑动更新，字符x的压缩结果始终是一个三元组(0，0，x)，压缩后的数据长度比未压缩之前的字符数据长度较长，因此，字符x经过编码后反而增大了数据长度。

对于每个字符串数据集中的待处理字符串，如果任意两个待处理字符串之间的重复字符的位置分布较为离散，即在待处理字符串中相邻两个重复字符之间的距离较远，经过滑动窗口多次滑动或者经过多个不同长度的滑动窗口进行编码的结果仍对应一个三元组，或者待处理字符串中相同字符的数量较少时，这些字符利用LZ77压缩算法进行压缩的必要性就越低，进而可以将不必要进行压缩的字符本身作为压缩结果即可，对重复占比较大的字符利用LZ77压缩算法进行压缩处理。

基于此，根据每个字符串数据集中字符的分布情况与移动特征，计算字符串数据集中字符的压缩必要性。

首先，根据每个字符串数据集中字符的分布情况得到字符串数据集中字符的孤立度，具体地，对于任意一个字符串数据集，将该字符串数据集中的任意一个字符记为选定字符；字符串数据集中任意两个待处理字符串之间均存在对应的重复字符串，获取选定字符在字符串数据集中对应的所有重复字符串中出现的次数；对于选定字符存在的任意一个待处理字符串，将该待处理字符串中的选定字符进行删除得到待处理字符串的特征字符串，计算待处理字符串的信息熵与特征字符串的信息熵之间的比值；将字符串数据集中所有待处理字符串对应的比值的和值与所述次数的比值作为字符串数据集的选定字符的孤立度。

在本实施例中，将字符k记为选定字符，在每个字符串数据集中均存在多个重复字符串，进而对字符k即选定字符所在的字符串数据集进行分析，获取字符k即选定字符的特征信息，本实施例以字符k所在的任意一个字符串数据集为例进行说明。所述孤立度的计算方法具体为：

其中，f_k表示字符k的孤立度，即选定字符的孤立度；n_k表示字符k在字符串数据集中对应的所有重复字符串中出现的次数，H_R,k表示字符串数据集中字符k所在的第R个待处理字符串的信息熵；H^′ _R,k表示字符串数据集中字符k所在的第R个待处理字符串对应的特征字符串的信息熵，即将字符串数据集中字符k所在的第R个待处理字符串中字符k删除后得到的字符串对应的信息熵。N₀表示字符串数据集中包含字符k的待处理字符串的数量。

反映了字符k所在待处理字符串删除前后的信息量的变化，该比值取值越小，说明字符k所在的待处理字符串将字符k删除后的信息量减少，进而说明字符k在该待处理字符串中的重复性较高，则对应的字符k的孤立度取值就越小。比值的取值越大，说明字符k所在的待处理字符串将字符k删除后的信息量变化较小，进而说明字符k在该待处理字符串中的重复性较低，则对应的字符k的孤立度取值越大。

n_k反映了字符k作为重复字符的占比情况，其取值越大，说明字符k在字符串数据集中的重复占比越大，对应的孤立度取值越小。其取值越小，说明字符k在字符串数据集中的重复占比越小，对应的孤立度取值越大。

然后，根据每个字符串数据集中字符的移动特征得到字符串数据集中字符的移动代价指标，具体地，将字符串数据集中的选定字符所在的任意一个待处理字符串记为目标字符串，字符串数据集中存在的所有重复字符串的平均长度；利用LZ77算法对目标字符串进行预编码，将选定字符按照设定步长向前向缓冲区进行移动，直至移动后选定字符所在位置与选定字符未移动前所在位置之间的字符长度与所述平均长度相等时，或者移动后选定字符为第一个待编码字符时停止；每移动一次获取前向缓冲区包含选定字符的字符串与字典区域的字符串重复的长度，将所述重复的长度与预设的窗口长度之间的比值记为特征系数，计算选定字符所有次移动后对应的特征系数的和值得到选定字符在目标字符串中的移动特征值；计算选定字符在字符串数据集中所有待处理字符串的移动特征值的和值，对移动特征值的和值进行负相关映射得到选定字符在字符串数据集中的移动代价指标。

例如，目标字符串为aabcbbabcacck，将字符k记为选定字符，将字典区域长度设置为10，待编码区域的长度设置为5，即前向缓冲区的长度设置为5，则此时预设的窗口长度为15，并将设定步长设置为1。利用LZ77算法对目标字符串进行预编码，此时待编码区域构成的长度为5的字符串为aabcb，将字符k按照步长1向前向缓冲区进行移动，即将字符k按照步长1向左移动，移动的最长的长度为字符串数据集中字符k存在的所有重复字符串的平均长度。

将字符k进行第一次移动后，目标字符串变为aabcbbabcackc，此时待编码区域构成的长度为5的字符串仍为aabcb，此时前向缓冲区不存在包含字符k即选定字符的字符串，进而前向缓冲区包含选定字符的字符串与字典区域的字符串重复的长度为0，则第一次移动后字符k对应的特征系数的取值为0。

将字符k进行第二次移动后，目标字符串为aabcbbabcakcc，此时预设长度的滑动窗口也发生移动，待编码区域构成的长度为5的字符串为abcbb，则此时前向缓冲区包含选定字符的字符串与字典区域的字符串重复的长度仍为0，第二次移动后字符l对应的特征系数的取值为0。

以此类推，将字符k移动四次后目标字符串为aabcbbabkcacc，此时待编码区域构成的长度为5的字符串为bbabk，假设此时字典区域的字符串也为bbabkdaabc，则此时前向缓冲区域包含选定字符的字符串与字典区域的字符串重复的长度为5，则此次移动后字符k对应的特征系数的取值为

需要说明的是，利用LZ77算法对字符串数据集中的待处理字符串进行预编码时，是将一个字符串数据集中所有待处理字符串组合成一个长字符串进行处理，例如，将每个待处理字符串按照设定规则或者随机排序，将后一个待处理字符串添加到前一个待处理字符串的后面，中间不留空格，组合成一个长字符串，实施者可根据具体实施场景选择合适的方法进行处理。基于此，在对字符k所在的待处理字符串进行预编码时，除对字符串数据集中第一个待处理字符串进行编码时字典区域为空之外，对其他待处理字符串进行编码时，字典区域均存在相应的字符。

进一步的，将字符串数据集中字符k所在的第R个待处理字符串记为目标字符串，移动代价指标的计算方法具体为：

其中，g_k表示字符k在字符串数据集中的移动代价指标，即选定字符在字符串数据集中的移动代价指标；p_v(R,k)表示字符串数据集中字符k所在的第R个待处理字符串中移动第v次对应的特征系数，N_R表示字符k在第R个待处理字符串中移动的总次数，N₀表示字符串数据集中包含字符k的待处理字符串的数量，表示字符k在第R个待处理字符串中的移动特征值，ε₄为第四预设值，在本实施例中的取值为0.01，其是为了防止分母为0，实施者可根据具体实施场景进行设置。

特征系数p_v(R,k)反映了字符k在目标字符串中移动时，字符k与其相邻的字符组成的字符串在字典区域中存在重复字符的分布情况，特征系数的取值越大，说明字符k与其相邻的字符组成的字符串在字典区域中存在重复字符的数量越多，进而说明增大字典区域的长度将字符k进行有效压缩的概率较高，相应的字符k的压缩代价较小，对应的移动代价指标取值越小。特征系数的取值越小，说明字符k与其相邻的字符组成的字符串在字典区域中存在重复字符的数量越少，进而说明增大字典区域的长度将字符k进行有效压缩的概率较低，可能需要更多种字典区域长度变化的可能性，相应的字符k的压缩代价较大，对应的压缩代价值取值越大。

移动特征值反映了字符k在第R个待处理字符串中每次移动后的综合分布情况，/>反映了字符k在一个字符串数据集中每次移动后的综合分布情况，其取值越大，对应的移动代价指标越小，其取值越小，对应的移动代价指标越大。

进一步的，计算孤立度与移动代价指标之间的乘积，对所述乘积进行负相关映射得到字符串数据集中字符的压缩必要性，用公式表示为：

ρ_k＝exp(-μ*f_k*g_k)

其中，ρ_k表示字符串数据集中字符k的压缩必要性，f_k表示字符k在字符串数据集中的孤立度，g_k表示字符k在字符串数据集中的移动代价指标，μ为调参因子，在本实施例中的取值为0.1，实施者可根据具体实施场景进行设置，exp()表示以自然常数e为底的指数函数。

字符对应的孤立度的取值越小，说明字符k在字符串数据集中的重复占比越大，对应的压缩必要性的取值越大，说明字符在字符串数据集中进行编码的必要程度越大。字符对应的移动代价指标取值越小，说明字符k与其相邻的字符组成的字符串在字典区域中存在重复字符的数量越多，相应的字符k的压缩代价较小，对应的压缩必要性的取值越大，说明字符在字符串数据集中进行编码的必要程度越大。

压缩必要性为在字符串数据集中字符k出现在重复字符串中的频率高低，一方面字符k出现在重复字符串中的频率越高，压缩的必要性越大。另一方面，若改变编码时预设的窗口长度或者字符k的位置后，字符k能被有效压缩，对应字符k压缩的必要性越大。

字符的压缩必要性表征了字符串数据集中字符k以三元组的数据形式进行编码的必要性大小，压缩必要性的取值越小，说明字符k在重复字符串中出现的次数较少，同时在待处理字符串中的占比也较少，对应的孤立度越大，进而说明利用LZ77压缩算法对该字符进行压缩的必要越小，更适合将该字符本身作为压缩结果。压缩必要性的取值越小，说明将字符k简单移动移动后的压缩效果越好，代价越小，对应的移动代价指标越小，进而说明利用LZ77压缩算法对该字符进行压缩的必要越大。

最后，利用字符的压缩必要性确定待压缩字符和非压缩字符，具体地，将压缩必要性大于预设阈值的字符记为待压缩字符，将压缩必要性小于或等于预设阈值的字符记为非压缩字符。在本实施例中，预设阈值的取值为0.2，实施者可根据具体实施场景进行设置。当字符的压缩必要性小于或等于预设阈值时，说明该字符以三元组的数据形式进行编码的必要性越小。

在本实施例中，将非压缩字符自身作为压缩结果，避免了数据长度增加，在后续解压过程中也更加高效。但是需要对非压缩字符进行标记，以便区分非压缩字符与待压缩字符，即对非压缩字符按照第一设定规则进行标记得到非压缩字符的压缩数据。在本实施例中，第一设定规则为在非压缩字符之前和之后均添加标记符号“\”，例如，按照第一设定规则，字符串abbcdabcdebdx中的字符x的压缩结果为\x\，实施者可根据具体实施场景设置其他第一设定规则对非压缩字符进行标记，能够达到对非压缩字符进行标记的效果，同时使得标记后的压缩结果与原始的三元组相比具有较小的数据长度。应当理解，第一设定规则与下述的第二设定规则是不同的规则，而且，第一设定规则还可以为现有其他数据标记规则，比如在非压缩字符之前和之后均添加标记符号“*”或者其他的特殊符号。

步骤S302，将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集，根据每个字符串数据集中所有发生移动的待压缩字符的移动距离，得到字符串数据集对应的平均移动长度。

对于字符串数据集中的压缩字符，利用LZ77压缩算法对压缩字符进行处理的过程中字典区域窗口的长度是固定的，进而字典区域内的字符数量也是一定，可能会导致前向缓冲区即待编码区内距离字典区域不同长度的字符匹配结果具有较大的差异，因此考虑根据每个字符串数据集中字符进行简单移动的分布情况，进行自适应的确定压缩过程中的滑动窗口长度。

压缩效率较低的原因在于，与字典区域中字符串重复的字符分布在待编码区的不同位置，如果能将单个或者长度较短的字符进行简单的移动，形成尽可能与字典区域中所有字符完全相同的字符串，那么压缩效率将会有较大的提升。

基于此，将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集，实施者需按照一定的规则对字符串数据集中的待压缩字符进行移动，使得移动后的字符串数据集相较于原始的字符串数据集具有更快的压缩效率。具体地，所述第二设定规则具体为：利用LZ77算法对字符串数据集中的字符串进行预编码，基于字典窗口中的字符串获取理想字符串，将前向缓冲区中待压缩字符向设定方向移动后，使得前向缓冲区中的字符串与理想字符串完全相同。同时，根据每个字符串数据集中所有发生移动的待压缩字符的移动距离，得到字符串数据集对应的平均移动长度。

其中，需要说明的是，理想字符串表征的是与字典窗口中的字符串重复较多的字符串，即字符串数据集中发生较少的移动，能够获得与字典窗口中重复较多的字符串或者与字典窗口中完全重复的字符串，实施者可根据具体实施场景进行设置理想字符串。

例如，对于任意一个字符串数据集，一个待处理字符串为abbcabcddebx，其中字符x为非压缩字符，故不需要对非压缩字符进行移动。假设字典区域的字符串为abbcd，待编码区为abbcabcdde，将此时理想字符串设置为abbcd，如果将字符d向左移动三个字符长度，此时待编码区的字符能够出现与理想字符串完全相同的字符串，故移动后的待处理字符串为abbcdabcdebx。利用LZ77算法对移动后的字符串进行预编码，滑动窗口进行滑动，字典区域的字符串为abbcd，将此时的理想字符串设置为abbcd，待编码区为abcdebx，如果将字符b向左移动三个字符长度，此时待编码区的字符能够出现与理想字符串完全相同的字符串，故移动后的待处理字符串为abbcdabbcdex。按照该设定规则对字符串数据集中的待处理字符串中的压缩字符进行移动，能够获得优选字符串，构成优选数据集，对优选数据集中的优选字符串进行压缩处理时的压缩效率能够有较大的提升。

需要说明的是，按照第二设定规则对字符串数据集中待压缩字符进行移动时，需记录发生移动的待压缩字符未移动前所在位置、移动的长度以及移动的方向，例如任意一个字符串数据集中第二个待处理字符串中第八个字符向左移动三个字符长度，实施者可根据具体实施场景对该字符的移动情况进行记录，例如，将其记为－(2，8，3)，－表示字符的移动方向，向左为－，向右为+，数字2表示字符串数据集中待处理字符串的位置，数字8表示待处理字符串中发生移动的字符未移动前所在位置，数字3表示待处理字符串中发生移动的字符进行移动的长度。将字符串数据集中待压缩字符对应的移动记录按照待压缩字符的移动顺序构成移动记录数据集，以便解压缩时进行参考。

进一步的，获取字符串数据集中每次发生移动的待压缩字符的移动距离，在本实施例中，将待压缩字符发生移动的字符长度作为待压缩字符的移动距离，进而计算字符串数据集中所有次发生移动的待压缩字符的移动距离的均值，作为字符串数据集对应的平均移动长度。

平均移动长度反映了字符串数据集中待压缩字符可移动距离的均值大小，在窗口进行滑窗的过程中，重复字符串长度逐渐变化，对于不同长度的重复字符串，待压缩字符的移动距离均值越小，说明待压缩字符在待处理字符串中重复分布越密集，待处理字符串中重复字符形成理想字符串的移动距离越小，进而利用较小的代价获取较大的压缩效率以及较好的压缩效果。

步骤S303，根据平均移动长度获得对优选数据集进行压缩时的优选窗口长度，利用LZ77压缩算法根据优选窗口长度对每个优选数据集进行压缩，得到待压缩字符的压缩数据；将待压缩字符的压缩数据进行存储。

具体地，根据平均移动长度获得对优选数据集进行压缩时的优选窗口长度，在待处理字符串中重复字符分布密集程度自适应的获取窗口长度，将平均移动长度与预设的窗口长度之间的和值作为对优选数据集进行压缩时的优选窗口长度。其中，预设的窗口长度包括字典窗口的长度与前向缓冲区即待压缩区域的长度之和，在本实施例中预设的窗口长度为15，实施者可根据具体实施场景进行设置。

在本实施例中，优选窗口长度为字典窗口长度和前向缓冲区的长度之和，其中可以根据字符串数据集中待压缩字符移动后，待压缩区域的字符串与字典窗口的字符串重复的字符串确定字典窗口长度。具体地，对于任意一个字符串数据集，获取每次待压缩字符发生移动后的前向缓冲区中字符串与字典窗口中字符串之间重复字符串的长度，将所有次移动后对应的重复字符串的长度的均值作为字符串数据集对应的平均重复长度。将平均重复长度作为优选窗口中的优选字典窗口长度，平均重复长度反映了字符串数据集中移动后的待压缩字符与字典窗口中重复字符长度的均值大小。

对于不同的字符串数据集中不同的待压缩字符存在不同的移动情况，进而对应不同的移动距离，基于移动距离自适应的获取每个字符串数据集中不同长度的滑动窗口，避免固定窗口对不同类型的软件开发数据集中不同长度的待处理字符串进行压缩时造成的重复字符遗漏的现象出现。

进一步的，根据优选窗口长度，利用LZ77压缩算法，对每个优选数据集中的字符串进行压缩，得到待压缩字符串的压缩数据，将非压缩字符的压缩数据和待压缩字符的压缩数据进行存储，压缩数据具有较好的压缩效果，提高了软件开发数据的管理效率和安全性。

综上所述，本发明首先获取软件开发数据对应的待处理字符串，基于待处理字符串中字符的相似情况，对软件开发数据进行初步筛选，将较为相似的软件开发数据分为一类，以便后续对不同类型的软件开发数据获取不同长度的滑动窗口进行压缩的效果更好；然后对每个字符串数据集中字符的分布情况与移动特征进行分析，获得每个字符是否需要进行压缩的必要性大小，进而能够基于压缩必要性对字符串数据集中的字符进行筛选，将不必要进行压缩的字符即非压缩字符进行标记得到对应的压缩数据，能够在一定程度上使得软件开发数据的压缩效果更好；进一步的，对必要进行压缩的字符进行较优的移动，获取优选数据集，对优选数据集进行压缩时在一定程度上能够使得压缩效率较高，根据每个字符串数据集中所有发生移动的待压缩字符的移动距离得到平均移动长度，进而获得对优选数据集进行压缩时的优选窗口长度，避免固定窗口对不同软件开发数据进行压缩时造成的压缩效果较差的问题，相应地，后续在将非压缩字符的压缩数据和待压缩字符的压缩数据进行存储时，能够提高软件开发数据存储的安全性。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种用于计算机软件开发数据的管理方法，其特征在于，该方法包括以下步骤：

利用分类度量指标对所有待处理字符串进行分类，得到每个类别对应的字符串数据集；

所述根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标具体为：

基于重复字符串中每相邻两个字符构成的组合在第一字符串中出现的频率，计算第一字符串的信息熵得到第一信息熵；基于重复字符串中每相邻两个字符构成的组合在第二字符串中出现的频率，计算第二字符串的信息熵得到第二信息熵；以第一比值与第一信息熵的乘积作为第一乘积，以第二比值与第二信息熵的乘积作为第二乘积，获取第二乘积与第三预设值的和值记为第一和值，以第一乘积与第一和值的比值作为第一字符串和第二字符串对应的第一特征指标；

所述根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标具体为：

2.根据权利要求1所述的一种用于计算机软件开发数据的管理方法，其特征在于，所述根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标具体为：

3.根据权利要求1所述的一种用于计算机软件开发数据的管理方法，其特征在于，在得到每个类别对应的字符串数据集之后，所述方法还包括：

4.根据权利要求3所述的一种用于计算机软件开发数据的管理方法，其特征在于，所述根据每个字符串数据集中字符的分布情况与移动特征，计算字符串数据集中字符的压缩必要性，具体包括：

5.根据权利要求4所述的一种用于计算机软件开发数据的管理方法，其特征在于，所述孤立度的获取方法具体为：

6.根据权利要求5所述的一种用于计算机软件开发数据的管理方法，其特征在于，所述移动代价指标的获取方法具体为：

7.根据权利要求3所述的一种用于计算机软件开发数据的管理方法，其特征在于，所述第二设定规则具体为：

所述将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集具体为：

将字符串数据集中能够满足第二设定规则的待压缩字符进行移动，将移动后得到的所有待压缩字符构成的数据集记为优选数据集。

8.根据权利要求3所述的一种用于计算机软件开发数据的管理方法，其特征在于，所述利用字符的压缩必要性确定待压缩字符具体为：