CN116112434A - 一种路由器数据智能缓存方法及系统 - Google Patents
一种路由器数据智能缓存方法及系统 Download PDFInfo
- Publication number
- CN116112434A CN116112434A CN202310382212.XA CN202310382212A CN116112434A CN 116112434 A CN116112434 A CN 116112434A CN 202310382212 A CN202310382212 A CN 202310382212A CN 116112434 A CN116112434 A CN 116112434A
- Authority
- CN
- China
- Prior art keywords
- character
- character string
- data set
- strings
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 abstract description 8
- 238000007906 compression Methods 0.000 abstract description 8
- 230000005540 biological transmission Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/74—Address processing for routing
- H04L45/742—Route cache; Operation thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/54—Organization of routing tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理领域,具体涉及一种路由器数据智能缓存方法及系统,包括:获取单日缓存数据集以及历史缓存数据集;根据各个维度的相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度;根据各个字符分串与包含对应字符分串的所有字符组合之间的相似度,得到各个字符分串的各个待选组合;根据各个待选组合之间的相似度得到各个字符分串的各个最终待选组合,进而得到各个字符分串的代表性程度;根据所有维度上所有字符分串的代表性程度得到各个字典条目,并构建初始字典,根据初始字典对单日缓存数据集进行存储。本发明有效增加了路由器数据的压缩效率。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种路由器数据智能缓存方法及系统。
背景技术
路由器是连接多个网络,且拥有可以处理网络数据传输功能的CPU的网络硬件设备,根据传来的不同类型网络的数据包,再根据路由算法把各数据包以最佳路线传输到指定位置。路由器往往具有数据缓存功能,其中路由器的主要缓存内容包括路由器固件的运算信息、路由表信息、MAC地址表及转发的数据等,其中路由表存储着关于传输路径的拓扑信息以及路径参数,因此除了转发的数据外,路由表数据占用着较多的路由器存储空间,然而由于连接路由器的设备不断增加,则对应的路由表中的网络路径信息也越来越多,因此会导致缓存的数据越来越多,如果路由器的内存较小,缓存较多,就会导致数据丢包以及对应的在进行路由表路径匹配过程中造成错误的查表转发等情况。
网络设备中的使用的为无损压缩算法,其中最常用的算法LZ系列的LZW算法,通过编码字典中的代码来替换连续的字符串,该算法对数据的迅速响应对路由器缓存数据的存储更加适合。然而LZW算法的压缩效率取决于字典的构成,为了有效地增加路由表的压缩效率,构建一个具有代表性的字典的非常重要的。
发明内容
本发明提供一种路由器数据智能缓存方法及系统,以解决现有的问题。
本发明的一种路由器数据智能缓存方法及系统采用如下技术方案:
本发明一个实施例提供了一种路由器数据智能缓存方法,该方法包括以下步骤:
获取单日缓存数据集以及历史缓存数据集;
对于任意一个维度,根据单日缓存数据集以及历史缓存数据集中,不同字符串的个数得到类型丰富度;根据单日缓存数据集以及历史缓存数据集中,不同字符串的出现次数得到不同字符串对应的次数差异;根据类型丰富度以及所有字符串对应的次数差异得到相似性程度;根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符窗口;根据各个字符窗口中字符串之间的距离对各个字符串进行合并,得到各个字符串对应的各个字符分串;根据相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度;
根据各个字符分串与包含对应字符分串的所有字符组合之间的相似度以及第一相似度阈值,得到各个字符分串的各个待选组合;根据各个待选组合之间的相似度以及第二相似度阈值对各个待选组合进行剔除或保留,得到各个字符分串的各个最终待选组合;根据相似性程度、各个最终待选组合在历史缓存数据集对应维度中的出现次数以及历史缓存数据集的对应维度中不同字符串的数量得到各个字符分串的代表性程度;
根据所有维度上所有字符分串的代表性程度得到各个字典条目,根据各个字典条目构建初始字典,根据初始字典对单日缓存数据集进行存储。
优选的,所述类型丰富度的获取表达式为:
其中,表示第i个维度的类型丰富度,表示单日缓存数据集中第个维度对应不同字符串的数量;表示历史缓存数据集中第个维度对应不同字符串的数量;和分别表示以一天为分析单位时,第个维度对应不同字符串在历史缓存数据集的第i个维度中的最大数量值和最小数量值。
优选的,所述相似性程度的获取表达式为:
式中,为第i个维度的相似性程度;表示第i个维度的类型丰富度;为第i个维度的第n个字符串的次数差异;表示单日缓存数据集中第个维度中对应不同字符串的数量;为以自然常数为底数的指数函数。
优选的,所述各个字符窗口的获取方法为:
依次遍历各个字符串中的各个字符,将每个标点符号与相邻标点符号之间的所有字符作为一个字符窗口,得到各个字符窗口。
优选的,所述各个字符串对应的各个字符分串的获取方法为:
对于一个字符串对应的各个字符窗口,计算相邻两个字符窗口中包含的字符串之间的距离,当距离为0时,将两个字符窗口进行合并;对各个字符窗口进行处理,将处理完成后各个字符窗口内包含的字符记为各个字符分串;
对各个字符串对应的字符窗口进行处理,得到各个字符串对应的各个字符分串。
优选的,所述不同字符串的代表性程度的获取表达式为:
式中,为第i个维度的第j个字符串的代表性程度;为第i个维度的第j个字符串;为第个维度中第个字符串的第个字符分串;表示第个维度的相似性程度,表示第个维度中第个字符串在单日缓存数据集中的出现次数,表示第个维度中第个字符串的第个字符分串在单日缓存数据集中的出现次数;为第个维度中第个字符串对应字符分串的个数;表示单日缓存数据集中第i个维度对应的所有字符串的数量。
优选的,所述各个字符分串的各个待选组合的获取步骤包括:
对于一个字符分串以及包含对应字符分串的任意一个字符组合,将字符分串以及字符组合分别转化为字符向量,当字符分串与字符组合对应的字符向量之间的相似度小于第一相似度阈值时,将字符组合记为字符分串的一个待选组合,否则字符组合不为字符分串的一个待选组合,对各个字符分串以及包含对应字符分串的各个字符组合进行处理,得到各个字符分串的各个待选组合。
优选的,所述各个字符分串的各个最终待选组合的获取步骤为:
将一个字符分串对应的任意一个待选组合记为待选组合E,将剩余待选组合中的任意一个待选组合记为待选组合I;计算待选组合E与待选组合I对应的字符向量之间的相似度,当相似度大于第二相似度阈值时,对待选组合I进行剔除,否则对待选组合I进行保留;
对各个待选组合进行处理,直到不存在相似度大于第二相似度阈值的待选组合时停止,将处理完成后的各个待选组合称为各个最终待选组合;对各个字符分串对应的各个待选组合进行处理,得到各个字符分串的各个最终待选组合。
优选的,所述各个字符分串的代表性程度的获取表达式为:
式中,表示第维度中的第个字符串的第个字符分串的代表性程度;为第i个维度的第j个字符串的代表性程度;表示第i个维度中第个字符串的第个字符分串的最终待选组合的数量,表示第i个维度中第个字符串的第个字符分串对应第个最终待选组合在历史缓存数据集对应维度中的出现次数,表示历史缓存数据集的第i个维度对应的不同字符串的数量。
本发明的另一个实施例提供了一种路由器数据智能缓存系统,该系统包括数据集获取模块、字符串代表性程度获取模块、字符分串代表性程度获取模块以及初始字典构建模块,其中:
数据集获取模块,获取单日缓存数据集以及历史缓存数据集;
字符串代表性程度获取模块,对于任意一个维度,根据单日缓存数据集以及历史缓存数据集中,不同字符串的个数得到类型丰富度;根据单日缓存数据集以及历史缓存数据集中,不同字符串的出现次数得到不同字符串对应的次数差异;根据类型丰富度以及所有字符串对应的次数差异得到相似性程度;根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符窗口;根据各个字符窗口中字符串之间的距离对各个字符串进行合并,得到各个字符串对应的各个字符分串;根据相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度;
字符分串代表性程度获取模块,根据各个字符分串与包含对应字符分串的所有字符组合之间的相似度以及第一相似度阈值,得到各个字符分串的各个待选组合;根据各个待选组合之间的相似度以及第二相似度阈值对各个待选组合进行剔除或保留,得到各个字符分串的各个最终待选组合;根据相似性程度、各个最终待选组合在历史缓存数据集对应维度中的出现次数以及历史缓存数据集的对应维度中不同字符串的数量得到各个字符分串的代表性程度;
初始字典构建模块,根据所有维度上所有字符分串的代表性程度得到各个字典条目,根据各个字典条目构建初始字典,根据初始字典对单日缓存数据集进行存储。
本发明的有益效果是:对于任意一个路由器,首先根据各个维度上的数据在单日缓存数据集与历史缓存数据集中字符串种类以及不同字符串的出现次数之间的差异得到各个维度的相似性程度,从而判断各个维度对应字符串规律性的强弱特点;然后根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符分串;根据各个维度的相似性程度、各个字符串以及对应字符分串在单日缓存数据集中的出现次数得到各个字符串的代表性程度;根据各个字符分串的各个最终待选组合在历史缓存数据集中的出现次数得到各个字符分串的代表性程度,根据单日缓存数据集获取各个字符串的局部特征,结合历史缓存数据集得到各个字符串对应字符分串的整体特征,通过结合局部特征与整体特征对各个字符分串的代表性程度进行综合判断,从而得到更加可靠的代表性程度值;根据各个字符分串的代表性程度进行初始字典的构建,使出现次数具有较强规律性或者格式变化具有较强规律性的字符分串作为初始字典的字典条目,从而避免传统的LZW算法中初始字典构建不完备导致的压缩效率较低的缺点,增大了路由器缓存数据的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种路由器数据智能缓存方法的步骤流程图;
图2为本发明的一种路由器数据智能缓存系统的结构框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种路由器数据智能缓存方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种路由器数据智能缓存方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种路由器数据智能缓存方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取单日缓存数据集以及历史缓存数据集。
在路由器中获取路由器中缓存数据,其中路由器缓存数据包括路由器固件的运算信息、路由表信息、MAC地址表及转发的数据,其中路由表存储着关于传输路径的拓扑信息以及路径参数,因此除了转发的数据外,路由表数据占用着较多的路由器存储空间,本实施例以路由器缓存数据中的路由表信息为需要压缩的缓存数据,即以路由器缓存数据中的路由表信息为待压缩数据,根据该待压缩数据的特征获取初始的字典。
本实施例将单个路由器在当天的缓存数据称为该路由器的单日缓存数据集;将单个路由器在当天之前的固定时间段内的缓存数据称为该路由器的历史缓存数据集,其中,本实施例中的固定时间段为1个月。
步骤S002:对于任意一个维度,根据相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度。
由于路由器缓存数据中存在不同维度的数据,例如路由表中的掩码、传输协议类型、优先级、花销、标志、下一跳和出接口等不同的表项,此时不同的表项即为路由表中不同的维度,而不同维度的数据在计算代表性程度时是不同的,例如对于传输协议类型来说,传输协议类型为固定的几类,不会发生随机的变化,则其传输协议类型的不同类别对应的字符组合都具有较强的代表性特征,因此计算路由器缓存数据中不同数据的相似性特征,相似性特征越大,表明单日缓存数据集中对应维度上的字符串越是固定字符组合,则在计算不同维度对应字符串的代表性程度时,越需要考虑该字符串在所有数据中的分布;而对于相似性特征较小,则表明单日缓存数据集中对应维度上的字符串较为随机,但是具有一定的规律性特征,例如掩码、下一跳等具有规律性的格式变化,则在计算这些维度上对应字符串的代表性程度时,越需要考虑该字符串的规律性分布。
对于任意一个路由器,其在当天产生的单日缓存数据集得到的分布特征属于局部分布特征,通过历史缓存数据集可以获取不同维度的整体数据分布特征;对于某一个维度,如果其在历史缓存数据集中,该维度上的数据的分布表现为不规则性,则该维度上数据的相似性较弱。
假设当前维度为第i个维度,通过分析该路由器在当前第i个维度上的字符串在历史缓存数据集中的分布变化,即统计该路由器的历史缓存数据集在第i个维度上各个字符串的分布情况,得到当前维度上不同字符串的分布情况,例如对于传输协议类型而言,Direct直连路由为数据类型1,Static静态路由为数据类型2,动态路由中的基于距离矢量的RIP和BGP分别为数据类型3和数据类型4,动态路由中的基于链路状态的OSPF和ISI分别为数据类型5和数据类型6,其中一种数据类型对应着一种字符串,即此时一个维度对应多种字符串,本实施例将多个具有相同字符组合的字符串称为一种字符串;
当前维度对应的不同字符串在历史缓存数据集的分布特征表征着路由器在使用过程中当前维度的数据分布特征,则对于任意一个路由器,根据当天对应的单日缓存数据集与历史缓存数据集计算其在第个维度的相似性程度的计算表达式为:
式中,表示第i个维度的类型丰富度,为第i个维度的第n个字符串的次数差异,该值为第i个维度的第n个字符串在单日缓存数据集与历史缓存数据集对应维度中出现次数之间的差异;为第i个维度的相似性程度;表示单日缓存数据集中第个维度对应不同字符串的数量;表示历史缓存数据集中第个维度对应不同字符串的数量;和分别表示以一天为分析单位时,第个维度对应不同字符串在历史缓存数据集的第i个维度中的最大数量值和最小数量值;表示第个维度的第个字符串在单日缓存数据集的第i个维度中的出现次数;表示第个维度的第个字符串出现的次数均值,该值为以一天为分析单位时,第i个维度的第n个字符串在历史缓存数据集的第i个维度中出现次数的平均值;为以自然常数为底数的指数函数。
为第i个维度对应字符串的类型丰富度,用以表征在单日缓存数据集与历史缓存数据集中,第个维度对应不同字符串的数量之间的差异,差异越大,表示单日缓存数据集中第i个维度对应数据类型的种类越少,类型丰富度越低,此时其与历史缓存数据集中相同字符串的出现次数之间的差异越不具有参考性,因此本实施例将类型丰富度作为第i个维度中同一字符串在单日缓存数据集与历史缓存数据集之间次数差异的参考权重;
根据第i个维度的类型丰富度以及第i个维度的不同字符串对应的次数差异得到第i个维度的相似性程度,相似程度越大,该维度上的数据变化较小,对应该维度的数据分布具有较强规则性,此时该维度的数据更容易呈现固定的字符串特征,反之,则该维度的数据分布具有的规则性较弱。
同理,对于任意一个路由器,根据当天对应的单日缓存数据集与历史缓存数据集得到各个维度的相似性程度,而后根据各个维度的相似性程度对各个维度对应的各种字符串的代表性程度进行量化。
对于相似性程度较大的维度,其在该维度上对应的字符串具有较强的规律性且较为固定,如路由表中的传输协议类型,标志等,此时计算该维度中不同字符串在单日缓存数据集中的分布特征即可表征对应字符串的代表性程度,当一种字符串的出现次数越多,则表明该字符串越在单日缓存数据集中越具有代表性,而对于相似性程度较小的维度,其字符串的出现次数不呈现规律性,此时一种字符串的出现次数表征不了该字符串的代表性,因此需要根据字符串的格式对应的规律性特征,例如网络掩码、下一跳等具有规律性的格式变化,来获取该字符串的代表性程度。
由于路由表中不同维度的数据包含有不同的标点符号,例如符号“.”和符号“/”,本实施例根据当前第i个维度中数据的标点符号对各个字符串进行分窗处理,其中每个标点符号包含在前一个字符窗口中,例如,当第i个维度上的字符串“20.0.0.1/32”,根据该字符串中的标点符号对其进行分窗处理后,各个字符窗口中的结果为“20.”、“0.”、“0.”“1/”和“32”,然后计算相邻字符窗口中包含的字符串之间的欧氏距离,其中计算字符串之间的欧氏距离为公知技术,在本实施例中不再赘述;当两个字符窗口之间的欧氏距离为0时,表示这两个字符窗口中包含的是相同的字符,将这两个字符窗口进行合并,对各个字符窗口进行处理,将处理完成后,各个字符窗口内的字符组合称为各个字符分串,则对于字符串“20.0.0.1/32”,其对应的字符分串依次为“20.”、“0.0.”、“1/”和“32”。
获取单日缓存数据集中第i个维度的每个字符串对应的各个字符分串,则对于第i个维度对应的第j个字符串中的第个字符分串,统计第个字符分串在单日缓存数据集的第i个维度对应的所有字符分串中出现的概率,当一个字符分串出现的概率越大,对应该字符分串越具有代表性特征;记第i个维度的第j个字符串为,该字符串的第个字符分串为,则第i个维度的第j个字符串的代表性程度的计算表达式为:
式中,为第i个维度的第j个字符串的代表性程度,表示第个维度的相似性程度,表示第个维度中第个字符串在单日缓存数据集中的出现次数,表示第个维度中第个字符串的第个字符分串在单日缓存数据集中的出现次数;为第个维度中第个字符串对应字符分串的个数;表示单日缓存数据集中第i个维度对应的所有字符串的数量。
步骤S003:获取各个字符分串的各个待选组合;根据各个待选组合得到各个字符分串的各个最终待选组合,进而得到各个字符分串的代表性程度。
根据上述计算步骤得到每个字符串的代表性程度,但是由于该代表性程度是基于单日缓存数据集得到的,每个字符串对应的各个字符分串的代表性程度存在局部时间区域的偶然性,因此本实施例根据单个路由器的历史缓存数据集,通过计算不同字符分串的相关性来对各个字符分串的代表性程度进行校正,具体过程如下:
以第i个维度中的第个字符串的第个字符分串为例,不断增加少量的其他字符来获取不同字符串组合在历史缓存数据集中的分布特征,进而根据分布特征的变化来获取校正值。为了减少计算量,本实施例从历史缓存数据集中获取存在第个字符分串的各种字符组合,计算各个字符组合与之间的差异性,本实施例通过选取差异性较大的字符组合来统计的分布特征,其有益效果在于:与差异性较小的字符组合可以在的基础上增加较少部分字符得到,而对于与差异性较大的字符组合,需要在的基础上增加较多的字符得到,当该差异性较大的字符组合的出现次数较大时,对应的相关性值较大,即需要增加较多字符的字符组合,也就是差异性越大的字符组合的出现次数都较大时,差异性越小的字符组合的出现次数也会较大。
其中在历史缓存数据集中获取包含字符分串的各个字符组合,并将各个字符组合转换为字符向量,即以所有字符组合中包含字符的最大数量值为字符向量的最大维数,当一个字符组合的维数低于该最大维数时,对大于该字符组合本身维数的其他维度进行补0操作;其中将字符组合转化为字符向量的方法为公知技术,在本实施例中不再赘述;
首先计算包含字符分串的各个字符组合对应的字符向量与字符分串对应的字符向量之间的余弦相似度,并选取余弦相似度较小的字符组合作为字符分串的待选组合,此处设置第一相似度阈值,当一个包含字符分串的字符组合对应的字符向量与字符分串对应的字符向量之间的余弦相似度小于第一相似度阈值时,将该字符组合记为字符分串的一个待选组合,对包含字符分串的各个字符组合进行处理,得到字符分串的各个待选组合。
然后对任意一个待选组合进行分析,计算其他待选组合与该待选组合对应字符向量之间的余弦相似度,设定第二相似度阈值,当其他待选组合中的某一个待选组合与该待选组合之间的余弦相似度大于第二相似度阈值时,对前者进行剔除,例如,将一个字符分串对应的任意一个待选组合记为待选组合E,将剩余待选组合中的任意一个待选组合记为待选组合I;对待选组合E进行分析时,需要计算该待选组合与其他待选组合之间的余弦相似度,即计算待选组合E与待选组合I对应的字符向量之间的余弦相似度,当相似度大于第二相似度阈值时,对待选组合I进行剔除,否则对待选组合I进行保留;依次对各个待选组合进行处理,直到处理完后任意两个待选组合之间的余弦相似度均低于第二相似度阈值,以保证待选组合中各个字符组合与之间的关联性较小的同时,不同待选组合之间的关联性也较小,本实施例将此时的各个待选组合称为字符分串的各个最终待选组合。
则对于第维度中的第个字符串的第个字符分串,该字符分串的代表性程度的计算表达式为:
式中,表示第维度中的第个字符串的第个字符分串的代表性程度;为第i个维度的第j个字符串的代表性程度;表示第i个维度中第个字符串的第个字符分串的最终待选组合的数量,表示第i个维度中第个字符串的第个字符分串对应第个最终待选组合在历史缓存数据集对应维度中的出现次数,表示历史缓存数据集的第i个维度对应的不同字符串的数量。
若最终待选组合在历史缓存数据集第i个维度上的出现次数越大,表明与有关的字符串在整个历史缓存数据集中的出现次数较多,对应在整个历史缓存数据集中越重要,由此获取的单个字符分串对应的代表性程度相对于字符串的代表性程度的调整幅度也越大。
步骤S004:根据所有维度上所有字符分串的代表性程度得到各个字典条目,根据各个字典条目构建初始字典,根据初始字典对单日缓存数据集进行存储。
对第i个维度上的所有字符分串的代表性程度值进行线性归一化,设置代表性程度阈值,该值可根据实施者具体实施情况而定,本实施例给出的为经验参考值,对所有维度上的所有字符分串进行处理,将代表性程度大于代表性程度阈值的字符分串为字典条目,用于LZW算法初始字典的构建,其中用于构建初始字典的每个字符分串用一个编码进行替代;根据初始字典对单日缓存数据集进行存储。
通过以上步骤,完成路由器数据的智能缓存。
本发明的另一个实施例提供了一种路由器数据智能缓存系统,如图2所示,该系统包括以下模块:
数据集获取模块,获取单日缓存数据集以及历史缓存数据集;
字符串代表性程度获取模块,对于任意一个维度,根据单日缓存数据集以及历史缓存数据集中,不同字符串的个数得到类型丰富度;根据单日缓存数据集以及历史缓存数据集中,不同字符串的出现次数得到不同字符串对应的次数差异;根据类型丰富度以及所有字符串对应的次数差异得到相似性程度;根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符窗口;根据各个字符窗口中字符串之间的距离对各个字符串进行合并,得到各个字符串对应的各个字符分串;根据相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度;
字符分串代表性程度获取模块,根据各个字符分串与包含对应字符分串的所有字符组合之间的相似度以及第一相似度阈值,得到各个字符分串的各个待选组合;根据各个待选组合之间的相似度以及第二相似度阈值对各个待选组合进行剔除或保留,得到各个字符分串的各个最终待选组合;根据相似性程度、各个最终待选组合在历史缓存数据集对应维度中的出现次数以及历史缓存数据集的对应维度中不同字符串的数量得到各个字符分串的代表性程度;
初始字典构建模块,根据所有维度上所有字符分串的代表性程度得到各个字典条目,根据各个字典条目构建初始字典,根据初始字典对单日缓存数据集进行存储。
对于任意一个路由器,本实施例首先根据各个维度上的数据在单日缓存数据集与历史缓存数据集中字符串种类以及不同字符串的出现次数之间的差异得到各个维度的相似性程度,从而判断各个维度对应字符串规律性的强弱特点;然后根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符分串;根据各个维度的相似性程度、各个字符串以及对应字符分串在单日缓存数据集中的出现次数得到各个字符串的代表性程度;根据各个字符分串的各个最终待选组合在历史缓存数据集中的出现次数得到各个字符分串的代表性程度,根据单日缓存数据集获取各个字符串的局部特征,结合历史缓存数据集得到各个字符串对应字符分串的整体特征,通过结合局部特征与整体特征对各个字符分串的代表性程度进行综合判断,从而得到更加可靠的代表性程度值;根据各个字符分串的代表性程度进行初始字典的构建,使出现次数具有较强规律性或者格式变化具有较强规律性的字符分串作为初始字典的字典条目,从而避免传统的LZW算法中初始字典构建不完备导致的压缩效率较低的缺点,增大了路由器缓存数据的压缩效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种路由器数据智能缓存方法,其特征在于,该方法包括以下步骤:
获取单日缓存数据集以及历史缓存数据集;
对于任意一个维度,根据单日缓存数据集以及历史缓存数据集中,不同字符串的个数得到类型丰富度;根据单日缓存数据集以及历史缓存数据集中,不同字符串的出现次数得到不同字符串对应的次数差异;根据类型丰富度以及所有字符串对应的次数差异得到相似性程度;根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符窗口;根据各个字符窗口中字符串之间的距离对各个字符串进行合并,得到各个字符串对应的各个字符分串;根据相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度;
根据各个字符分串与包含对应字符分串的所有字符组合之间的相似度以及第一相似度阈值,得到各个字符分串的各个待选组合;根据各个待选组合之间的相似度以及第二相似度阈值对各个待选组合进行剔除或保留,得到各个字符分串的各个最终待选组合;根据相似性程度、各个最终待选组合在历史缓存数据集对应维度中的出现次数以及历史缓存数据集的对应维度中不同字符串的数量得到各个字符分串的代表性程度;
根据所有维度上所有字符分串的代表性程度得到各个字典条目,根据各个字典条目构建初始字典,根据初始字典对单日缓存数据集进行存储。
2.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述类型丰富度的获取表达式为:
其中,表示第i个维度的类型丰富度,表示单日缓存数据集中第个维度对应不同字符串的数量;表示历史缓存数据集中第个维度对应不同字符串的数量;和分别表示以一天为分析单位时,第个维度对应不同字符串在历史缓存数据集的第i个维度中的最大数量值和最小数量值。
3.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述相似性程度的获取表达式为:
式中,为第i个维度的相似性程度;表示第i个维度的类型丰富度;为第i个维度的第n个字符串的次数差异;表示单日缓存数据集中第个维度中对应不同字符串的数量;为以自然常数为底数的指数函数。
4.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述各个字符窗口的获取方法为:
依次遍历各个字符串中的各个字符,将每个标点符号与相邻标点符号之间的所有字符作为一个字符窗口,得到各个字符窗口。
5.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述各个字符串对应的各个字符分串的获取方法为:
对于一个字符串对应的各个字符窗口,计算相邻两个字符窗口中包含的字符串之间的距离,当距离为0时,将两个字符窗口进行合并;对各个字符窗口进行处理,将处理完成后各个字符窗口内包含的字符记为各个字符分串;
对各个字符串对应的字符窗口进行处理,得到各个字符串对应的各个字符分串。
6.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述不同字符串的代表性程度的获取表达式为:
式中,为第i个维度的第j个字符串的代表性程度;为第i个维度的第j个字符串;为第个维度中第个字符串的第个字符分串;表示第个维度的相似性程度,表示第个维度中第个字符串在单日缓存数据集中的出现次数,表示第个维度中第个字符串的第个字符分串在单日缓存数据集中的出现次数;为第个维度中第个字符串对应字符分串的个数;表示单日缓存数据集中第i个维度对应的所有字符串的数量。
7.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述各个字符分串的各个待选组合的获取步骤包括:
对于一个字符分串以及包含对应字符分串的任意一个字符组合,将字符分串以及字符组合分别转化为字符向量,当字符分串与字符组合对应的字符向量之间的相似度小于第一相似度阈值时,将字符组合记为字符分串的一个待选组合,否则字符组合不为字符分串的一个待选组合,对各个字符分串以及包含对应字符分串的各个字符组合进行处理,得到各个字符分串的各个待选组合。
8.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述各个字符分串的各个最终待选组合的获取步骤为:
将一个字符分串对应的任意一个待选组合记为待选组合E,将剩余待选组合中的任意一个待选组合记为待选组合I;计算待选组合E与待选组合I对应的字符向量之间的相似度,当相似度大于第二相似度阈值时,对待选组合I进行剔除,否则对待选组合I进行保留;
对各个待选组合进行处理,直到不存在相似度大于第二相似度阈值的待选组合时停止,将处理完成后的各个待选组合称为各个最终待选组合;对各个字符分串对应的各个待选组合进行处理,得到各个字符分串的各个最终待选组合。
9.根据权利要求1所述的一种路由器数据智能缓存方法,其特征在于,所述各个字符分串的代表性程度的获取表达式为:
式中,表示第维度中的第个字符串的第个字符分串的代表性程度;为第i个维度的第j个字符串的代表性程度;表示第i个维度中第个字符串的第个字符分串的最终待选组合的数量,表示第i个维度中第个字符串的第个字符分串对应第个最终待选组合在历史缓存数据集对应维度中的出现次数,表示历史缓存数据集的第i个维度对应的不同字符串的数量。
10.一种路由器数据智能缓存系统,其特征在于,该系统包括以下模块:
数据集获取模块,获取单日缓存数据集以及历史缓存数据集;
字符串代表性程度获取模块,对于任意一个维度,根据单日缓存数据集以及历史缓存数据集中,不同字符串的个数得到类型丰富度;根据单日缓存数据集以及历史缓存数据集中,不同字符串的出现次数得到不同字符串对应的次数差异;根据类型丰富度以及所有字符串对应的次数差异得到相似性程度;根据各个字符串中的标点符号对各个字符串进行分窗处理,得到各个字符窗口;根据各个字符窗口中字符串之间的距离对各个字符串进行合并,得到各个字符串对应的各个字符分串;根据相似性程度、单日缓存数据集中不同字符串的出现次数以及不同字符串对应的各个字符分串的出现次数得到不同字符串的代表性程度;
字符分串代表性程度获取模块,根据各个字符分串与包含对应字符分串的所有字符组合之间的相似度以及第一相似度阈值,得到各个字符分串的各个待选组合;根据各个待选组合之间的相似度以及第二相似度阈值对各个待选组合进行剔除或保留,得到各个字符分串的各个最终待选组合;根据相似性程度、各个最终待选组合在历史缓存数据集对应维度中的出现次数以及历史缓存数据集的对应维度中不同字符串的数量得到各个字符分串的代表性程度;
初始字典构建模块,根据所有维度上所有字符分串的代表性程度得到各个字典条目,根据各个字典条目构建初始字典,根据初始字典对单日缓存数据集进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382212.XA CN116112434B (zh) | 2023-04-12 | 2023-04-12 | 一种路由器数据智能缓存方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382212.XA CN116112434B (zh) | 2023-04-12 | 2023-04-12 | 一种路由器数据智能缓存方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116112434A true CN116112434A (zh) | 2023-05-12 |
CN116112434B CN116112434B (zh) | 2023-06-09 |
Family
ID=86256512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310382212.XA Active CN116112434B (zh) | 2023-04-12 | 2023-04-12 | 一种路由器数据智能缓存方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116112434B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631550A (zh) * | 2023-07-26 | 2023-08-22 | 深圳爱递医药科技有限公司 | 一种临床试验的数据管理及逻辑核查方法及其医疗系统 |
CN116915260A (zh) * | 2023-09-13 | 2023-10-20 | 无锡市明通动力工业有限公司 | 一种风电电机冷却风机故障数据优化采集方法 |
CN117081602A (zh) * | 2023-10-13 | 2023-11-17 | 青岛场外市场清算中心有限公司 | 基于区块链的资金结算数据优化处理方法 |
CN117134777A (zh) * | 2023-10-27 | 2023-11-28 | 苏州英孚思科技有限公司 | 一种定位数据的智能压缩方法 |
CN117708513A (zh) * | 2024-02-05 | 2024-03-15 | 贵州省畜牧兽医研究所 | 一种用于缬草特征研究的种植数据管理方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011192222A (ja) * | 2010-03-17 | 2011-09-29 | Yahoo Japan Corp | 情報処理装置、データ抽出方法、及びプログラム |
CN104253855A (zh) * | 2014-08-07 | 2014-12-31 | 哈尔滨工程大学 | 一种面向内容中心网络中基于内容分类的类别流行度缓存替换方法 |
US20170116189A1 (en) * | 2014-05-30 | 2017-04-27 | Hitachi, Ltd. | Search method and apparatus and storage medium |
CN111027189A (zh) * | 2019-11-28 | 2020-04-17 | 武汉理工大学 | 基于设计信息模型的工作流模型推荐方法 |
CN111079043A (zh) * | 2019-12-05 | 2020-04-28 | 北京数立得科技有限公司 | 一种关键内容定位方法 |
CN112307153A (zh) * | 2020-09-30 | 2021-02-02 | 杭州量知数据科技有限公司 | 一种产业知识库自动构建方法、装置及存储介质 |
US20210157577A1 (en) * | 2019-11-25 | 2021-05-27 | International Business Machines Corporation | Vector embedding of relational code sets |
US20210191658A1 (en) * | 2019-12-20 | 2021-06-24 | Hitachi, Ltd. | Storage system and data compression method for storage system |
CN113553398A (zh) * | 2021-07-15 | 2021-10-26 | 杭州网易云音乐科技有限公司 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
CN113704569A (zh) * | 2021-04-13 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 信息的处理方法、装置及电子设备 |
CN115276665A (zh) * | 2022-09-28 | 2022-11-01 | 江苏森信达生物科技有限公司 | 一种原料药的智能管理方法和系统 |
CN115801902A (zh) * | 2023-02-09 | 2023-03-14 | 北京特立信电子技术股份有限公司 | 一种网络访问请求数据的压缩方法 |
CN115858476A (zh) * | 2022-12-27 | 2023-03-28 | 广东南方电力通信有限公司 | 用于web开发系统中自定义表单获取数据的高效存储方法 |
-
2023
- 2023-04-12 CN CN202310382212.XA patent/CN116112434B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011192222A (ja) * | 2010-03-17 | 2011-09-29 | Yahoo Japan Corp | 情報処理装置、データ抽出方法、及びプログラム |
US20170116189A1 (en) * | 2014-05-30 | 2017-04-27 | Hitachi, Ltd. | Search method and apparatus and storage medium |
CN104253855A (zh) * | 2014-08-07 | 2014-12-31 | 哈尔滨工程大学 | 一种面向内容中心网络中基于内容分类的类别流行度缓存替换方法 |
US20210157577A1 (en) * | 2019-11-25 | 2021-05-27 | International Business Machines Corporation | Vector embedding of relational code sets |
CN111027189A (zh) * | 2019-11-28 | 2020-04-17 | 武汉理工大学 | 基于设计信息模型的工作流模型推荐方法 |
CN111079043A (zh) * | 2019-12-05 | 2020-04-28 | 北京数立得科技有限公司 | 一种关键内容定位方法 |
US20210191658A1 (en) * | 2019-12-20 | 2021-06-24 | Hitachi, Ltd. | Storage system and data compression method for storage system |
CN112307153A (zh) * | 2020-09-30 | 2021-02-02 | 杭州量知数据科技有限公司 | 一种产业知识库自动构建方法、装置及存储介质 |
CN113704569A (zh) * | 2021-04-13 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 信息的处理方法、装置及电子设备 |
CN113553398A (zh) * | 2021-07-15 | 2021-10-26 | 杭州网易云音乐科技有限公司 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
CN115276665A (zh) * | 2022-09-28 | 2022-11-01 | 江苏森信达生物科技有限公司 | 一种原料药的智能管理方法和系统 |
CN115858476A (zh) * | 2022-12-27 | 2023-03-28 | 广东南方电力通信有限公司 | 用于web开发系统中自定义表单获取数据的高效存储方法 |
CN115801902A (zh) * | 2023-02-09 | 2023-03-14 | 北京特立信电子技术股份有限公司 | 一种网络访问请求数据的压缩方法 |
Non-Patent Citations (3)
Title |
---|
R.ANGRISH, D.GARY: "Efficient String Sorting Algorithms: Cache-aware and Cache-Oblivious", INTERNATIONAL JOURNAL OF SOFT COMPUTING AND ENGINEERING * |
冉孟超: "内容中心网络的缓存优化问题研究", 中国优秀硕士学位论文全文数据库 * |
潘恬;黄韬;张雪贝;: "基于局部性原理跳表的内容路由器缓存快速查找机制", 计算机学报, no. 09 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631550A (zh) * | 2023-07-26 | 2023-08-22 | 深圳爱递医药科技有限公司 | 一种临床试验的数据管理及逻辑核查方法及其医疗系统 |
CN116631550B (zh) * | 2023-07-26 | 2023-11-28 | 深圳爱递医药科技有限公司 | 一种临床试验的数据管理及逻辑核查方法及其医疗系统 |
CN116915260A (zh) * | 2023-09-13 | 2023-10-20 | 无锡市明通动力工业有限公司 | 一种风电电机冷却风机故障数据优化采集方法 |
CN116915260B (zh) * | 2023-09-13 | 2023-11-24 | 无锡市明通动力工业有限公司 | 一种风电电机冷却风机故障数据优化采集方法 |
CN117081602A (zh) * | 2023-10-13 | 2023-11-17 | 青岛场外市场清算中心有限公司 | 基于区块链的资金结算数据优化处理方法 |
CN117081602B (zh) * | 2023-10-13 | 2024-01-26 | 青岛场外市场清算中心有限公司 | 基于区块链的资金结算数据优化处理方法 |
CN117134777A (zh) * | 2023-10-27 | 2023-11-28 | 苏州英孚思科技有限公司 | 一种定位数据的智能压缩方法 |
CN117134777B (zh) * | 2023-10-27 | 2024-01-26 | 苏州英孚思科技有限公司 | 一种定位数据的智能压缩方法 |
CN117708513A (zh) * | 2024-02-05 | 2024-03-15 | 贵州省畜牧兽医研究所 | 一种用于缬草特征研究的种植数据管理方法 |
CN117708513B (zh) * | 2024-02-05 | 2024-04-19 | 贵州省畜牧兽医研究所 | 一种用于缬草特征研究的种植数据管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116112434B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116112434B (zh) | 一种路由器数据智能缓存方法及系统 | |
US11811660B2 (en) | Flow classification apparatus, methods, and systems | |
CN109271390B (zh) | 一种基于神经网络的索引数据结构及其数据检索方法 | |
US9584155B1 (en) | Look-ahead hash chain matching for data compression | |
US20120102055A1 (en) | Regular expression matching method and system, and searching device | |
US20080313132A1 (en) | High accuracy bloom filter using partitioned hashing | |
CN113326377B (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
US8350732B2 (en) | Compression with adjustable quality/bandwidth capability | |
CN110175273B (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
US11888703B1 (en) | Machine learning algorithms for quality of service assurance in network traffic | |
JP2002223240A (ja) | 重み付きランダムアーリディテクションバッファアドミッタンスアルゴリズムの近似方法 | |
CN104009984A (zh) | 基于倒排列表的网流索引检索与压缩的方法 | |
US20140184431A1 (en) | Methods for simplified mmi vq based harq buffer reduction for lte | |
WO2022268138A1 (zh) | 一种报文匹配方法、装置、存储介质及电子装置 | |
CN111026917B (zh) | 一种基于卷积神经网络的数据包分类方法及系统 | |
CN111651660B (zh) | 一种跨媒体检索困难样本的方法 | |
CN111291078B (zh) | 一种域名匹配检测方法及装置 | |
US20050114393A1 (en) | Dynamic forwarding method using binary search | |
CN110598057B (zh) | 一种面向遥测数据的数据搜索方法及装置 | |
CN112087813A (zh) | 一种改进的天牛须搜索算法求解非正交随机接入最优吞吐量的方法 | |
CN109743362B (zh) | 一种应用于全格式数据结构的数据存储方法 | |
CN107832341B (zh) | Agnss用户去重统计方法 | |
US20210334647A1 (en) | Method, electronic device, and computer program product for determining output of neural network | |
CN113225227A (zh) | 一种兼顾简单性与准确性的基于简图的网络测量方法和装置 | |
CN113992208B (zh) | 一种优化流数据处理性能的半解压数据压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |