CN117880765B

CN117880765B - 用于短信数据的智能化管理系统

Info

Publication number: CN117880765B
Application number: CN202410281499.1A
Authority: CN
Inventors: 周颖; 蓝丹丹; 黄瑞先; 曾永明
Original assignee: Shenzhen Chengliye Technology Development Co ltd
Current assignee: Shenzhen Chengliye Technology Development Co ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-05-28
Anticipated expiration: 2044-03-13
Also published as: CN117880765A

Abstract

本发明涉及数据压缩处理技术领域，具体涉及用于短信数据的智能化管理系统，所述系统包括：短信数据采集模块：采集短信管理平台的每条短信；短信的分类及压缩模块：基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离获取每条短信的最优选字典长度；根据任意两条短信之间的长度、距离差异以及最优选字典长度构建任意两条短信之间的聚类距离，得到优化后的各聚类簇；根据各聚类簇内短信的最优选字典长度差异、相似性构建任意两个聚类簇合并的必要性；结合预设合并阈值以及合并的必要性完成聚类簇的合并，实现短信数据的压缩处理本发明提高了不同类型短信的压缩效率，降低压缩成本。

Description

用于短信数据的智能化管理系统

技术领域

本申请涉及数据压缩处理技术领域，具体涉及用于短信数据的智能化管理系统。

背景技术

短信平台目前是企业营销中不可或缺的工具，除了群发和营销的基本功能外，还有多渠道接入、多功能可定制、数据分析实时监测、智能筛选防骚扰、安全保密等实用性功能。短信管理平台通常需要处理大量的短信数据，这可能会对实时监测功能的性能和存储需求提出挑战。在实时监测过程中，如果数据量过大或存储容量不足，可能会导致系统响应变慢或无法正常运行。

传统的短信服务本身并不支持大数据量的传输，平台需要具备足够的计算和存储资源来支持实时监测功能的高效运行。同时，为了更好的存储用户信息，短信数据平台通常对用户短信进行压缩存储，但是现有的LZ77算法存在人为定义的字典长度，使得在存储不同用户信息时，使用相同字典长度进行压缩可能达不到较好的数据压缩效果。

发明内容

为了解决上述技术问题，本发明的目的在于提供用于短信数据的智能化管理系统，所采用的技术方案具体如下：

本发明提出了用于短信数据的智能化管理系统，所述系统包括：

短信数据采集模块：采集短信管理平台的每条短信；

短信的分类及压缩模块：对于每条短信，基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度；基于短信内容重复度获取每条短信的最优字典长度；根据任意两条短信之间的距离、距离差异以及最优字典长度构建任意两条短信之间的相似度；根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离；将聚类距离作为聚类算法的度量距离对所有短信进行聚类，得到优化后的各聚类簇；

根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异；根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度；根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性；结合预设合并阈值以及合并的必要性完成聚类簇的合并，实现短信数据的压缩处理。

优选的，所述基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度，包括：

采用排列熵算法获取短信内容在各时间延迟下的排列熵；

对于各时间延迟，分别以短信的前时间延迟数值个数据为起始点，分别以时间延迟大小对短信进行分段，将所有分段方式下的所有相邻短信段之间的编辑距离进行求和，将各时间延迟下的求和结果与排列熵的乘积的相反数，作为以自然常数为底数的指数函数的指数，将指数函数的计算结果作为各时间延迟下的短信内容重复度。

优选的，所述基于短信内容重复度获取每条短信的最优字典长度具体为：将每条短信中最大的短信内容重复度对应的时间延迟记为每条短信的最优字典长度。

优选的，所述根据任意两条短信之间的距离、距离差异以及最优字典长度构建任意两条短信之间的相似度，包括：

分别获取任意两条短信之间汉字字符数量的差值绝对值、除汉字字符的其他字符数量的差值绝对值；获取任意两条短信之间的最优字典长度的差值绝对值；将1与三个差值绝对值进行求和；

获取任意两条短信之间的文本编辑距离；将求和结果与所述文本编辑距离的乘积的相反数作为以自然常数为底数的指数函数的指数，将1与指数函数的计算结果的差值作为任意两条短信之间的相似度。

优选的，所述根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离，包括：

从采集的所有短信中随机选择一条短信作为锚定短信；任意两条短信之间的聚类距离表达式为：

其中，D表示第a条短信与第b条短信之间的聚类距离，表示第a条短信与锚定短信之间的相似度和第b条短信与锚定短信之间的相似度的差值平方，/>表示第a条短信与第b条短信的最优字典长度的差值平方。

优选的，所述根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异，包括：

计算各聚类簇内所有短信的最优字典长度均值，将任意两个聚类簇之间的所述最优字典长度均值的差值绝对值作为任意两个聚类簇之间的初始字典长度差异。

优选的，所述根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度，包括：

根据各聚类簇内任意两条短信之间的相似度获取各聚类簇内短信之间的相似性；计算各聚类簇与剩余所有聚类簇之间的初始字典长度差异的差值绝对值的和值；获取各聚类簇内短信的数量；

将所述数量、所述和值与所述各聚类簇内短信之间的相似性的乘积的归一化值作为各聚类簇内短信的重要程度。

优选的，所述获取各聚类簇内短信之间的相似性，包括：

将各聚类簇内所有任意两个短信之间的相似度的和值，作为各聚类簇内短信之间的相似性。

优选的，所述根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性，包括：

获取任意两个聚类簇之间的初始字典长度差异；计算任意两个聚类簇内短信的重要程度的乘积；将所述乘积与所述初始字典长度差异相乘结果的倒数的归一化值作为任意两个聚类簇合并的必要性。

优选的，所述结合预设合并阈值以及合并的必要性完成聚类簇的合并，实现短信数据的压缩处理，包括：

选择所有任意两个聚类簇之间合并的必要性中的最大值；当最大值大于预设合并阈值时，将最大值所在的两个聚类簇进行合并，作为一个新的聚类簇；直到所述最大值小于等于预设合并阈值时，则停止合并；

将合并后各聚类簇内所有短信的最优字典长度的均值记为合并后各聚类簇的最终字典长度，将具有相同最终字典长度的聚类簇进行拼接，基于拼接结果完成短信数据的压缩。

本发明至少具有如下有益效果：

本发明通过对所得用户短信数据进行分析，获取用户短信内容重复度，通过分析在不同时间延迟下的分段方式下相邻段落之间的距离，挖掘短信内容的复杂度，基于复杂度初步确定短信压缩时的最优字典长度，便于后续对压缩时最优字典长度的进一步修正；并且进一步根据所得的最优字典大小、短信长度以及距离等参数，计算任意两条短信之间的相似度，结合相似度以及最优字典长度优化传统聚类算法中的聚类距离，从而得到优化后的聚类效果，进而对用户短信进行初步分类，减少存储空间的使用，增加平台存储用户信息的效率。

本发明通过对不同聚类簇内的短信内容进行分析，基于聚类簇内短信数量、相似度以及最优字典长度，挖掘聚类簇内短信的重要程度，针对簇内重要性以及簇间差异性两个角度进行全方位的分析，计算不同聚类簇内短信的合并必要性，从而有利于实现聚类簇合并的精准性，做好数据压缩前的短信分类准备，降低压缩成本；最终，根据合并结果对拼接后的用户短信进行分段压缩存储，大大提高了应对不同长度不同类型短信进行压缩的压缩效率，大大的节省了短信平台的存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的用于短信数据的智能化管理系统的流程图；

图2为短信数据分类压缩过程的指标构建流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的用于短信数据的智能化管理系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的用于短信数据的智能化管理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的用于短信数据的智能化管理系统的流程图，该系统包括：短信数据采集模块101、短信的分类及压缩模块102。

短信数据采集模块101，本实施例通过短信管理平台获取用户接收到的短信的数据信息，用户短信数据信息包括发送号码、发送时间以及发送内容等。其中，本实施例将用户短信数据信息记为短信。

至此，完成用户短信数据的采集。

短信的分类及压缩模块102，通过将短信进行分段，分别计算不同分段大小下各个分段信息与其它分段信息的相似度，根据所得分段相似度，获取该分段大小为优选字典长度大小的优选度，其中短信分段方法如下：

对得到的数据使用排列熵算法进行分析，分析在固定嵌入维度为1时，不同时间延迟t的情况下，短信内容字符序列所得排列熵的大小，即当所得排列熵越小，则说明在该时间延迟下，该短信内容的复杂度越小，也就是短信内容在以该长度划分时，短信段的内容重复程度就可能越高，那么以该嵌入维度为字典长度进行压缩，其压缩效率就越好。

则其中短信内容重复度的计算方法为：

其中，表示当前短信内容在时间延迟为t时的短信内容重复度，/>表示以自然常数e为底数的指数函数，/>表示当前短信内容在时间延迟为t时的排列熵，/>表示在时间延迟为t时的短信分段数量，/>表示当前短信第i种分段方式分段下第j段短信与其相邻下一段短信的编辑距离。其中编辑距离为公知技术，本实施例不再赘述。

需要说明的是，分段方式为根据短信起始点开始分段、第二个字符开始分段、第三个字符开始分段，以此类推在分段长度为t时，共有t种短信分段方法。即当所求短信中分段后短信与其相邻短信的编辑距离越小，即越小，同时短信内容所得排列熵/>也越小，则说明当前分段大小下所得短信内容重复程度/>越大。

同时通过在可选区间内变换使用不同的时间延迟，从而获取不同时间延迟下对应短信字典长度的优选度，通过比较所有时间延迟下的结果，从而选择出短信内容重复性最大时对应的时间延迟作为该短信进行压缩时的最优字典长度。其中参数t的取值范围为[2,20]，具体可根据实际情况自行设定。通过改变参数t的值，选择所得短信内容重复度最大时对应的参数t记为最优字典长度。

其中，基于每条短信优选字典长度获取短信存储时进行压缩对应的字典优选长度的方法如下：

由于各个短信中均存在相似内容，故可以根据相似短信内容结合每条短信重复内容，从而获取短信的相似度。

则对于任意两条短信之间的相似度计算方法如下：

其中，表示任意两条短信之间的相似度，exp()表示以自然常数e为底的指数函数，/>表示任意两条短信之间的文本编辑距离，/>表示任意两条短信之间汉字字符数量的差值绝对值，/>表示任意两条短信之间除了汉字字符其它字符数量的差值绝对值，/>表示任意两条短信之间的最优字典长度的差值绝对值。

需要说明的是，当所求两条短信的文本编辑距离越小，且对应的两条短信之间汉字字符数量差异/>越小，且其它字符的数量的差异/>也越小，则说明两条短信之间的相似度越大。短信的相似性越大，说明这些短信在进行存储时，其存储到一起可以大大减少存储空间。

故本实施例使用聚类的方式对用户的所有短信进行聚类分析，从而将用户短信进行分类，减少存储空间的使用，增加平台存储用户信息的效率。同时由于短信相似度仅为两个短信之间的关系，而在进行聚类时，仅依靠相似度进行聚类并不能较好的完成聚类，故本实施例在所有短信中随机选择一条短信作为锚定短信，通过计算每条短信与锚定短信的相似度以及每条短信与锚定短信之间数据参数的相关性构成聚类距离，对所有短信进行聚类。

其中聚类算法使用DBSCAN聚类算法，其中聚类距离的计算方法获取如下：

其中，表示第a条短信与锚定短信之间的相似度和第b条短信与锚定短信之间的相似度的差值平方，/>表示第a条短信与第b条短信的最优字典长度的差值平方。

需要说明的是，当所求两条短信与锚定短信之间的相似度越相近，即越小，且对应两条短信的最优字典长度/>也相近，则聚类距离/>越近，说明当前两条短信越可能为同一类别的短信。

将聚类距离作为传统聚类算法中的距离，对所有的短信进行聚类，得到优化后的各聚类簇。

对所得的各聚类簇进行进一步分析，将各聚类簇内的短信按照内容的长度从短到长进行排列，然后再将聚类簇按照簇内短信数量从小到大进行排序，从而完成短信的重新排列，排列后的短信更有助于数据的存储压缩。通过对所得短信分类后，获取每个类别短信的压缩字典优选长度，其中压缩字典长度的优选度的获取方法如下：

由于上述聚类所得聚类簇是根据短信内容的相似度以及对应短信的最优字典长度差异获取，而对于不同类别的聚类簇，其对应的最优字典长度的差异也可能与其他聚类簇的最优字典长度的差异相近，同时由于可能存在聚类簇内元素过少，如果单独给予该聚类簇进行压缩，可能导致变相增加压缩成本，与本实施例目的相悖，故本实施例通过基于短信聚类簇分析其聚类簇内的短信合并必要程度，根据聚类簇短信合并必要程度分析其是否需要与其它聚类簇进行合并。

其中聚类簇短信合并必要程度的计算方法如下：

其中，表示聚类簇内短信之间的相似性，g表示聚类簇内短信的数量，/>表示聚类簇内第e条短信与第r条短信之间的相似度，/>表示聚类簇内短信的重要程度， />表示归一化函数，K表示聚类簇的数量，/>表示当前聚类簇与剩余聚类簇中第c个聚类簇内的最优字典长度均值之间的差值绝对值，记为当前聚类簇与剩余聚类簇中第c个聚类簇之间的初始字典长度差异。

需要说明的是，当所求该聚类簇内短信的数量g越多，且短信之间的相似性越大，即/>越大，从而影响当前聚类簇内短信的重要程度/>也越大；并且当前聚类簇与其它聚类簇所得初始字典长度差异越大，即/>越大，则说明当前聚类簇内短信与其他聚类簇短信合并必要性就越小，即当前聚类簇内短信的重要程度/>也越高。

则对应的任意两个聚类簇合并的必要性的计算方法如下：

其中，表示第q个聚类簇与第p个聚类簇合并的必要性，/>、/>分别表示第q个聚类簇与第p个聚类簇内短信的重要程度，/>表示第p个聚类簇与第q个聚类簇之间的初始字典长度差异。

需要说明的是，当所求两个聚类簇对应的重要程度越大，即越大，则说明两个聚类簇本身就具有压缩存储价值，越不需要合并，/>越小；且两个聚类簇之间的初始字典长度差异越大，则两个聚类簇内的短信越不相似，/>越小，说明两个聚类簇的合并必要性越小。

本实施例设置预设合并阈值δ=0.8，将所有聚类簇之间合并的必要性中的最大值与预设合并阈值进行比较，当最大值大于预设合并阈值时则将最大值所在的两个聚类簇进行合并，合并后记为一个新的聚类簇，同时更新其与其它聚类簇之间合并的必要性，直至最大值小于等于预设合并阈值的合并的必要性，此时停止合并，从而完成聚类簇的合并。

根据上述方法，将合并后各聚类簇内所有短信的最优字典长度的均值记为合并后聚类簇的最终字典长度，将所有具有相同最终字典长度的聚类簇按顺序进行拼接，完成最终的用户短信的排列，并基于短信分段结果进行分段压缩。其中，短信数据分类压缩过程的指标构建流程图如图2所示。

至此，完成对用户短信的分类及压缩。

综上所述，本发明实施例通过对所得用户短信数据进行分析，获取用户短信内容重复度，通过分析在不同时间延迟下的分段方式下相邻段落之间的距离，挖掘短信内容的复杂度，基于复杂度初步确定短信压缩时的最优字典长度，便于后续对压缩时最优字典长度的进一步修正；并且进一步根据所得的最优字典大小、短信长度以及距离等参数，计算任意两条短信之间的相似度，结合相似度以及最优字典长度优化传统聚类算法中的聚类距离，从而得到优化后的聚类效果，进而对用户短信进行初步分类，减少存储空间的使用，增加平台存储用户信息的效率。

本发明实施例通过对不同聚类簇内的短信内容进行分析，基于聚类簇内短信数量、相似度以及最优字典长度，挖掘聚类簇内短信的重要程度，针对簇内重要性以及簇间差异性两个角度进行全方位的分析，计算不同聚类簇内短信的合并必要性，从而有利于实现聚类簇合并的精准性，做好数据压缩前的短信分类准备，降低压缩成本；最终，根据合并结果对拼接后的用户短信进行分段压缩存储，大大提高了应对不同长度不同类型短信进行压缩的压缩效率，大大的节省了短信平台的存储空间。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.用于短信数据的智能化管理系统，其特征在于，所述系统包括：

短信数据采集模块：采集短信管理平台的每条短信；

根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异；根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度；根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性；结合预设合并阈值以及合并的必要性完成聚类簇的合并，实现短信数据的压缩处理；

所述基于排列熵算法在各时间延迟下分段后相邻短信段之间的距离以及排列熵构建各时间延迟下的短信内容重复度，包括：

采用排列熵算法获取短信内容在各时间延迟下的排列熵；

对于各时间延迟，分别以短信的前时间延迟数值个数据为起始点，分别以时间延迟大小对短信进行分段，将所有分段方式下的所有相邻短信段之间的编辑距离进行求和，将各时间延迟下的求和结果与排列熵的乘积的相反数，作为以自然常数为底数的指数函数的指数，将指数函数的计算结果作为各时间延迟下的短信内容重复度；

所述基于短信内容重复度获取每条短信的最优字典长度具体为：将每条短信中最大的短信内容重复度对应的时间延迟记为每条短信的最优字典长度；

所述根据各聚类簇内任意两条短信之间的相似度以及与其他聚类簇之间的初始字典长度差异构建各聚类簇内短信的重要程度，包括：

将所述数量、所述和值与所述各聚类簇内短信之间的相似性的乘积的归一化值作为各聚类簇内短信的重要程度；

所述根据任意两个聚类簇内短信的重要程度以及初始字典长度差异构建任意两个聚类簇合并的必要性，包括：

2.如权利要求1所述的用于短信数据的智能化管理系统，其特征在于，所述根据任意两条短信之间的距离、距离差异以及最优字典长度构建任意两条短信之间的相似度，包括：

3.如权利要求1所述的用于短信数据的智能化管理系统，其特征在于，所述根据任意两条短信之间的相似度、最优字典长度差异构建任意两条短信之间的聚类距离，包括：

4.如权利要求1所述的用于短信数据的智能化管理系统，其特征在于，所述根据各聚类簇内短信的最优字典长度差异构建任意两个聚类簇之间的初始字典长度差异，包括：

5.如权利要求1所述的用于短信数据的智能化管理系统，其特征在于，所述获取各聚类簇内短信之间的相似性，包括：

6.如权利要求1所述的用于短信数据的智能化管理系统，其特征在于，所述结合预设合并阈值以及合并的必要性完成聚类簇的合并，实现短信数据的压缩处理，包括：