CN113691352A - 数据分割方法 - Google Patents

数据分割方法 Download PDF

Info

Publication number
CN113691352A
CN113691352A CN202110956156.7A CN202110956156A CN113691352A CN 113691352 A CN113691352 A CN 113691352A CN 202110956156 A CN202110956156 A CN 202110956156A CN 113691352 A CN113691352 A CN 113691352A
Authority
CN
China
Prior art keywords
data
bits
length
point
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110956156.7A
Other languages
English (en)
Inventor
白杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110956156.7A priority Critical patent/CN113691352A/zh
Publication of CN113691352A publication Critical patent/CN113691352A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0078Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
    • H04L1/0084Formats for payload data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种数据分割方法,从输入数据S的一个起点位置按序增量取得索引数据串Ck,使用该索引数据串Ck扫描输入数据S的剩余位,记录与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数和Ck,最后得到最佳重复数据的位置的集合,将所述集合中的数据确定为数据分割点。

Description

数据分割方法
技术领域
本发明涉及一种数据处理技术领域,尤其是数据分割方法。
背景技术
在数据传输的各个层次,减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键,在于如何获知哪些数据是重复的,以及在数据接收端迅速且无瑕疵地的恢复数据发送端的原始数据。对于静态数据,即内容确定的数据集合,如果能够获知需要重复传输的数据或数据集合,为重复的数据分配一个标签或标识,就可以用所述标签替代重复的数据进行传输,从而减少数据的重传以及在数据接收端恢复原始数据。而且,标签的长度和重复数据长度的比值越小,数据传输效率就越高。而对于动态数据,即内容不确定的数据集合,则需要恰当地分割数据以获得重复数据,以及为所述重复数据分配一个标签。
在一个数据集合中找到标签能够替代的数据段的过程,就是在数据传输前对其实施的一种预处理过程。现有的基于标签技术的数据预处理方法通常采用滑动窗口技术从一个方向顺序扫描所述数据集合,如果找到一个标签能够代替的数据段,就用所述数据段的标签代替所述数据段,然后继续扫描,直到数据集合扫描完毕。公知的常识是,扫描操作的起点不同,最后得到的扫描结果或数据预处理结果也有很大不同,也就是说,现有的数据预处理方法难以得到最佳的数据预处理结果。
所述数据预处理结果如何,本质上看取决于对待处理数据的分割过程,也受标签数据库中与标签绑定的数据段的重复性的影响,而数据库的生成过程是通过对大量特定领域的数据分析预先完成的,即尽可能多地确定多个重复概率较高的数据段,因此,所述数据段的重复性,本质上也受数据分析过程中数据分割方法的影响。因此,迫切需要一种有效的数据分割方法,来提高标签数据库中数据段的重复性和待处理数据分割过程的有效性。
发明内容
本发明解决的问题是,提供一种能够有效分割数据的数据分割方法。
为解决上述问题,本发明实施例提供的数据分割方法,包括:
A、对输入数据S,从一个方向确定一个起点位置i;
B、判断位置i是否为输入数据S的尾部,如果是,输出失败信息,结束;否则转步骤C;
C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;
D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;
E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;
F、使用Ck从Si大于k位的Lm位置起扫描k位数据,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,转步骤E;
G、根据扫描得到的数据长度、重复次数和Ck得到最佳重复数据,将所述最佳重复数据的Lm位置确定为数据分割点。
本发明实施例提供的另一个数据分割方法,包括:
A、对输入数据S,从一个方向确定一个起点位置i;
B、判断位置i是否为输入数据S的尾部,如果是,转步骤H;否则转步骤C;
C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;
D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;
E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;
F、使用Ck从Si大于k位的Lm位置起扫描k位数据,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,转步骤E;
G、根据扫描得到的数据长度、重复次数和Ck得到最佳重复数据,将所述最佳重复数据的Lm位置确定为数据分割点,保存所述数据长度、重复次数、Ck和对应的所述最佳数据分割点Lm,i=i+1,转步骤B;
H、从保存的所述数据长度、重复次数、Ck和对应的所述最佳数据分割点Lm中,找到最优值的数据分割点Lm。
本发明实施例的优点在于:采用了一种简单的方式实现了要求较高的复杂操作,能够找到最优的数据分割点,使得数据的分割更加精确有效。本发明实施例的其它优点参考具体实施方式部分。
附图说明
图1是本发明提供的数据分割方法第一实施例流程图;
图2是本发明提供的数据分割方法第二实施例流程图;
图3-1、图3-2是说明图1所述实施例的数据分割示意图。
具体实施方式
图1是本发明提供的数据分割方法第一实施例流程图。
图1所述实施例的作用是在一个数据序列中找到最大长度的重复数据段,以便实现基于标签的数据压缩。按照图1,在步骤11将待处理的数据序列,即数据S读入到计算机内存,数据S可以是一个静态的数据序列,也可以是稳定输入的数据流序列。对于输入的数据S,从一个方向确定一个起点i。通常以数据S的流入方向为首部,从首部起确定一个起点i,起点i的位置原则上可以是输入数据尾部位置以外的任意位置,通常,所述起点i通常靠近首部,越偏离首部或靠近尾部越失去实际的意义,所以起点i最好是首部的第一个位置,即i=1,即从首部第一个数据为起点。
在步骤12,判断位置i是否为输入数据S的尾部,如果是,说明起点i的位置被设置在了数据S的尾部,这时已经完全没有了分割数据S的意义,通常在步骤13输出一个失败信息,结束分割过程;否则在步骤14,使用位置i到数据S尾部的数据生成待处理数据串Si。为了方便重复数据的定位查找,令j等于Si的长度,定位索引数据串Ck取Si的前k位。通常1≤k≤[j/2];其中,[]为取小数点前面整数部分的取整计算符号。所述K的最佳位数为2,k越小,定位重复数据段越有效但是速度慢,k越大,定位重复数据段越快,但是定位重复数据段越无效。
在步骤15,以Ck为索引,从Si的k+1位起扫描剩余位,查找与Ck相同的数据段,如果找到这样的数据段,则记录与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数和Ck,首次重复次数为1,然后将k增加1位,即令k=k+1,建立新的索引数据串,使其增加1位数据,即令Ck=Si的前k位,其中,m为大于1的整数,然后进行步骤16。如果没有找到这样的数据段,则要结束扫描操作,考虑到程序的连续性,本例中令k=[j/2],然后进行步骤16执行终止操作。此处也可以直接终止程序。
在步骤16,判断k是否小于[j/2],如果是,说明索引数据串Ck的长度小于Si的剩余位,Si的剩余位还有可能存在与Ck相同的数据段,此时转步骤17;否则已经没有必要继续查询,需要结束本次操作,因此转步骤18继续操作。
在步骤17,使用Ck从Si大于k位的Lm位置起扫描k位数据。也就是说,继续的扫描起点只有可能是上次扫描是发现的重复数据段的起点,不可能是其它的起点。因此,以Ck为索引,从Si大于k位的Lm位置起,查找与Ck相同的数据段,如果找到这样的数据段,则记录与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数和Ck,令k=k+1,建立新的索引数据串,即令Ck=Si的前k位,生成新的索引数据串Ck,最后转步骤16继续后续操作;其中,m为大于1的整数。如果没有找到这样的数据段,继续的扫描也不可能找到重复的数据段,此时结束操作,具体可以通过令k=[j/2],然后进行步骤16的方式直接终止程序。
在步骤18,根据扫描得到的数据长度、重复次数和Ck得到最佳重复数据,将所述最佳重复数据的Lm位置确定为数据分割点。将最高压缩率的数据段的起点作为确定最佳分割点,所述最高压缩率为数据长度和重复次数之积的最大值。当然,也可以采用其它标准确定最佳分割点,如以数据段的大小为标准,或者数据段的大小以及重复次数都大于预先设定的值,等等。
如果起始的k值过大,可能导致重复数据段的查找失败,即没有找到过重复的数据段,此时,在步骤18将输出空集作为数据分割点。
图3-1是说明图1所述实施例的数据分割示意图。
按照图3-1,i=1,即从首部第一个数据为起点,k=2,即Ck=“01”,此时,S1=数据S,即S1的内容与S的内容完全相同。
用Ck,即“01”作为索引,扫描S1,得到的相同数据段的起点分别为:i、a、b、c、d、e、f,,即长度为2的数据段“01”在S1中重复6次,出现7次,可认为总重复次数为7;此时,令k=k+1=3,Ck=Si的前k位,即Ck=“101”。此时,使用Ck从Si大于3位的Lm位置起扫描3位数据,m=1。用新的Ck,即“101”作为索引,扫描S1的剩余位,得到的相同数据段的起点分别为:i、a、b、c、e,,即长度为3的数据段“101”在S1中重复4次,出现5次,可认为总重复次数为5;以此类推,最后得到的结果如下表1:
最后将所述最佳重复数据的Lm位置确定为数据分割点。如果将最高压缩率的数据段的起点作为确定最佳分割点,所述最高压缩率为数据长度和重复次数之积的最大值,则表中的第四行,起点i、b、c、e为最佳的数据分割点。如果以最大数据段为标准,则表
表1:
Figure BDA0003220515130000041
1中的第五行,起点i、c、e为最佳的数据分割点。
说明:图3-1和图3-2中,箭头的个数,表示该起点的数据段重复的次数。例如图3-1中位置b的数据“1”上面有三个箭头,表示位置b为起点的数据段重复3次。
图2是本发明提供的数据分割方法第二实施例流程图。
按照图2,在步骤31将待处理的数据序列,即数据S读入到计算机内存,对于输入的数据S,从一个方向确定一个起点i。通常以数据S的流入方向为首部,从首部起确定一个起点i,本例中,起点i是首部的第一个位置,即i=1。
在步骤32,判断位置i是否为输入数据S的尾部,如果是,说明起点i的位置被设置在了数据S的尾部,这是已经完全没有了分割数据S的意义,经步骤33提示,是扫描完毕还是设置i失误,然后转步骤39结束分割过程;否则在步骤34,使用位置i到数据S尾部的数据生成待处理数据串Si。令j等于Si的长度,定位索引数据串Ck取Si的前k位。本例中,所述K的最佳位数为2。
在步骤35,以Ck为索引,从Si的k+1位起扫描剩余位,查找与Ck相同的数据段,如果找到这样的数据段,则记录与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数和Ck,首次的重复次数记为1,然后将k增加1位,即令k=k+1,建立新的索引数据串,使其增加1位数据,即令Ck=Si的前k位,其中,m为大于1的整数,然后进行步骤36。如果没有找到这样的数据段,则要结束扫描操作,考虑到程序的连续性,本例中令k=[j/2],然后进行步骤36,此处也可以直接终止程序。
在步骤36,判断k是否小于[j/2],如果是,说明索引数据串Ck的长度小于Si的剩余位,Si的剩余位还有可能存在与Ck相同的数据段,此时转步骤37;否则已经没有必要继续查询,需要结束本次操作,因此转步骤18继续操作。
在步骤37,使用Ck从Si大于k位的Lm位置起扫描k位数据。也就是说,继续的扫描起点只有可能是上次扫描是发现的重复数据段的起点,不可能是其它的起点。因此,以Ck为索引,从Si大于k位的Lm位置起的剩余位,查找与Ck相同的数据段,如果找到这样的数据段,则记录与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数和Ck,令k=k+1,建立新的索引数据串,即令Ck=Si的前k位,生成新的索引数据串Ck,最后转步骤36继续后续操作;其中,m为大于1的整数。如果没有找到这样的数据段,继续的扫描也不可能找到重复的数据段,此时结束操作,具体可以通过令k=[j/2],然后进行步骤36的方式直接终止程序。
在步骤38,根据扫描得到的数据长度、重复次数和Ck得到最佳重复数据,将所述最佳重复数据的Lm位置确定为数据分割点。保存所述数据长度、重复次数、Ck和对应的所述最佳数据分割点Lm,令i=i+1,转步骤32.
将最高压缩率的数据段的起点作为确定最佳分割点,所述最高压缩率为数据长度和重复次数之积的最大值。当然,也可以采用其它标准确定最佳分割点,如以数据段的大小为标准,或者数据段的大小以及重复次数都大于预先设定的值,等等。
如果起始的k值过大,可能导致重复数据段的查找失败,即没有找到过重复的数据段,此时,在步骤38将输出空集作为数据分割点。
在步骤39,从保存的所述数据长度、重复次数、Ck和对应的所述最佳数据分割点Lm中,找到最优值的数据分割点Lm。
在另外的实施例中,步骤35、37等的k的增值操作也可以根据需求一次产生较大的增值,以提高扫描速度,但是,这要以精度和遗漏为代价。
在一个优化的实施例中,在步骤34中,增加一个子步骤,在数据S中,取其首部到Ck尾部的数据形成一个子串S’,循环判断Si的前k位数据是否为S’的前位子串,如果是,令k=k+1;否则,定位索引数据串Ck取Si的前k位,继续后操作。这样,步骤34变为:
“步骤341,使用位置i到数据S尾部的数据生成待处理数据串Si;
步骤342,在数据S中,取其首部到Ck尾部的数据形成一个子串S’;
步骤343,判断Si的前k位数据是否为S’的前位子串,如果是,令k=k+1;转步骤342,否则,定位索引数据串Ck取Si的前k位,令j等于Si的长度。”
所述前位子串,是指判断Si的前k位数据,与从S’第n位开始的任何一组n位数据相同,n为正整数。例如,设k=3,Si的前3位数据为“101”,而S’为“101010001010”,则“101”与S’第2位,即S’右侧第2位开始的3位数据相同,因此,Si的前3位数据为“101”是S’的前位子串。
如果Si的前k位数据是否为S’的前位子串,说明该k位数据已经经过扫描,需要增加一位数据继续判断,这样就能极大优化本实施例,提高本实施例的运行效率。
下面结合图3-2,对图2所示实施例进一步说明。
图3-2与图3-1相比,i的值后移一位,即i=2,从第2位起取2位开始扫描。假设k=2,此时,Ck=“10”,S2=数据S去除最右一位剩余的部分,即去除数据S第1位“1”后剩余的部分。
用Ck,即“10”作为索引,扫描S2,得到的相同数据段的起点分别为:i、a、b、c、d、e,即长度为2的数据段“01”在S2中重复5次,出现6次,可认为总重复次数为6;此时,令k=k+1=3,Ck=S2的前3位,即Ck=“101”。此时,使用Ck从S2大于3位的Lm位置起扫描3位数据,m=1。用新的Ck,即“101”作为索引,扫描S1的剩余位,得到的相同数据段的起点分别为:i、b、c、e,,即长度为3的数据段“101”在S1中重复3次,出现4次,可认为总重复次数为4;以此类推,最后得到的结果如下表2:
最后将所述最佳重复数据的Lm位置确定为数据分割点。如果将最高压缩率的数据段的起点作为确定最佳分割点,所述最高压缩率为数据长度和重复次数之积的最大值,则表2中的第二、三行,起点为“i、b、c、e”和“i、c、e”二组分割点为最佳的数据分割点。如果以最大数据段为标准,则表中的第三行,起点“i、c、e”为最佳的数据分割点。本例中,当有两个以上的数据长度和重复次数之积相同时,以数据段最长者为优。
表2:
Figure BDA0003220515130000061
综合参考表1和表2,表1的最佳分割点数据为:
Figure BDA0003220515130000062
表2的最佳分割点数据为:
Figure BDA0003220515130000063
如果仅考虑表1、表2的结果,则最终的最优数据分割点为:
Figure BDA0003220515130000064

Claims (5)

1.数据分割方法,其特征在于包括:
A、对输入数据S,从一个方向确定一个起点位置i;
B、判断位置i是否为输入数据S的尾部,如果是,输出失败信息,结束;否则转步骤C;
C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;
D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;
E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;
F、使用Ck从Si大于k位的Lm位置起扫描k位数据,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,转步骤E;
G、根据扫描得到的数据长度、重复次数和Ck得到最佳重复数据,将所述最佳重复数据的Lm位置确定为数据分割点。
2.如权利要求1所述的数据分割方法,其特征在于:将最高压缩率的数据段的起点作为确定最佳分割点,所述最高压缩率为数据长度和重复次数之积的最大值。
3.数据分割方法,其特征在于包括:
A、对输入数据S,从一个方向确定一个起点位置i;
B、判断位置i是否为输入数据S的尾部,如果是,转步骤H;否则转步骤C;
C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;
D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;
E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;
F、使用Ck从Si大于k位的Lm位置起扫描k位数据,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,转步骤E;
G、根据扫描得到的数据长度、重复次数和Ck得到最佳重复数据,将所述最佳重复数据的Lm位置确定为数据分割点,保存所述数据长度、重复次数、Ck和对应的所述最佳数据分割点Lm,i=i+1,转步骤B;
H、从保存的所述数据长度、重复次数、Ck和对应的所述最佳数据分割点Lm中,找到最优值的数据分割点Lm。
4.如权利要求3所述的数据分割方法,其特征在于:将最高压缩率的数据段的起点作为确定最佳分割点,所述最高压缩率为数据长度和重复次数之积的最大值。
5.如权利要求3或4所述的数据分割方法,其特征在于还包括:在步骤C中,对于数据S,取其首部到Ck尾部的数据形成一个子串S’,循环判断Si的前k位数据是否为S’的前位子串,如果是,令k=k+1;否则,继续后操作。
CN202110956156.7A 2021-08-19 2021-08-19 数据分割方法 Withdrawn CN113691352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110956156.7A CN113691352A (zh) 2021-08-19 2021-08-19 数据分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110956156.7A CN113691352A (zh) 2021-08-19 2021-08-19 数据分割方法

Publications (1)

Publication Number Publication Date
CN113691352A true CN113691352A (zh) 2021-11-23

Family

ID=78580738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110956156.7A Withdrawn CN113691352A (zh) 2021-08-19 2021-08-19 数据分割方法

Country Status (1)

Country Link
CN (1) CN113691352A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1901549A (zh) * 2006-07-26 2007-01-24 白杰 数据传输方法、装置、数据处理方法和数据传输系统
CN102033924A (zh) * 2010-12-08 2011-04-27 浪潮(北京)电子信息产业有限公司 一种数据存储方法和系统
CN103347047A (zh) * 2013-06-07 2013-10-09 吴昊 一种基于网络字典的无损数据压缩方法
CN108768656A (zh) * 2018-04-17 2018-11-06 无锡科技职业学院 一种应用于数据校验的哈希算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1901549A (zh) * 2006-07-26 2007-01-24 白杰 数据传输方法、装置、数据处理方法和数据传输系统
CN102033924A (zh) * 2010-12-08 2011-04-27 浪潮(北京)电子信息产业有限公司 一种数据存储方法和系统
CN103347047A (zh) * 2013-06-07 2013-10-09 吴昊 一种基于网络字典的无损数据压缩方法
CN108768656A (zh) * 2018-04-17 2018-11-06 无锡科技职业学院 一种应用于数据校验的哈希算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一禅的师兄: "在字符串中找出重复字符串", Retrieved from the Internet <URL:https://blog.csdn.net/weixin_42145502/article/details/108230965?ops_request_misc.html> *

Similar Documents

Publication Publication Date Title
CN107947918B (zh) 一种基于字符特征的无载体文本隐写方法
US5649023A (en) Method and apparatus for indexing a plurality of handwritten objects
US20050192994A1 (en) Data compression method and apparatus
CN110570346A (zh) 一种基于循环生成对抗网络对书法进行风格迁移的方法
CN103955539B (zh) 一种获取二进制协议数据中控制字段划分点的方法及装置
EP0127815A2 (en) Data compression method
US8947272B2 (en) Decoding encoded data
CN111104398A (zh) 针对智能船舶近似重复记录的检测方法、消除方法
JPH10198809A (ja) 輪郭線トレーシング方法
CN112035701A (zh) 一种互联网短视频溯源的方法及系统
CN115758415A (zh) 一种基于汉字部件组合的文本无载体信息隐藏方法
CN108563795B (zh) 一种加速压缩流量正则表达式匹配的Pairs方法
CN114461816A (zh) 基于知识图谱的信息补充语义通信系统的实现方法
CN113691352A (zh) 数据分割方法
Ji et al. Text-to-image generation via semi-supervised training
CN110007955B (zh) 一种指令集模拟器译码模块代码的压缩方法
CN113609341A (zh) 数据字典的生成方法
CN111814009B (zh) 一种基于搜索引擎检索信息的模式匹配方法
CN104751459B (zh) 多维特征的相似性度量优化方法及图像匹配方法
CN108573069B (zh) 一种加速压缩流量正则表达式匹配的Twins方法
US6338061B1 (en) Search method search apparatus, and recording medium recording program
CN113065419B (zh) 一种基于流量高频内容的模式匹配算法及系统
CN113609342A (zh) 数据存储方法
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
US6734813B2 (en) Data receiving device for receiving serial data according to over-sampling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211123

WW01 Invention patent application withdrawn after publication