CN117112632B - 一种防止数据冲击的隔离方法、装置及存储介质 - Google Patents

一种防止数据冲击的隔离方法、装置及存储介质 Download PDF

Info

Publication number
CN117112632B
CN117112632B CN202311371291.0A CN202311371291A CN117112632B CN 117112632 B CN117112632 B CN 117112632B CN 202311371291 A CN202311371291 A CN 202311371291A CN 117112632 B CN117112632 B CN 117112632B
Authority
CN
China
Prior art keywords
data
processing
data record
speed
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311371291.0A
Other languages
English (en)
Other versions
CN117112632A (zh
Inventor
郭远东
冯院华
谢嘉裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fenyang Technology Co ltd
Original Assignee
Beijing Fenyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fenyang Technology Co ltd filed Critical Beijing Fenyang Technology Co ltd
Priority to CN202311371291.0A priority Critical patent/CN117112632B/zh
Publication of CN117112632A publication Critical patent/CN117112632A/zh
Application granted granted Critical
Publication of CN117112632B publication Critical patent/CN117112632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种防止数据冲击的隔离方法、装置及存储介质,涉及计算机数据处理技术领域,该方法包括:从外部数据源端获取要发送至目标数据处理端的数据集合;判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,然后对数据进行过滤、精简处理;对经过数据处理后的数据记录基于类别信息与唯一标识将其存储在缓存数据库中。本发明防止了大数据量对目标数据处理端造成数据冲击,导致系统宕机的风险。

Description

一种防止数据冲击的隔离方法、装置及存储介质
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种防止数据冲击的隔离方法、装置及存储介质。
背景技术
计算机系统处理外部系统数据往往会有如下问题:
1)突发流量,比如某一时刻来了内部处理速度的100倍的数量;
2)无用数据,从外部来的大量数据,其实不需要传递到内部处理;
3)单条数据超大,包含很多无用字段信息;
4)优先级不一样的数据同时过来,导致优先级高的数据被其他低优先级数据阻塞;
5)相同数据短时间多次流入,导致需要多次处理相同数据。
这些数据问题导致数据处理端处理压力过大,导致系统宕机,影响系统性能。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种防止数据冲击的隔离方法,该方法包括:
数据获取步骤,从外部数据源端获取要发送至目标数据处理端的数据集合;
识别步骤,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;
数据隔离处理步骤,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;
缓存步骤,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。
更进一步地,所述缓存数据库具有数据访问接口,所述目标数据处理端通过所述数据访问接口从所述缓存数据库获取数据进行处理。
更进一步地,从外部数据源端获取到要发送至目标数据处理端的数据集合后,判断所述数据集合中的数据记录是否属于突发流量数据、无用数据、单条超大数据或重复数据,如果是,则在所述数据记录上设置隔离字段。
更进一步地,在数据隔离处理过程中,使用动态处理策略进行数据处理,所述动态处理策略为:
设Ti为时间窗口,Ni为时间窗口Ti内数据记录的数量;
平均时间窗口速度Vn公式1为:,m为参与平均计算的时间窗口个数,n为当前时间窗口的编号,其中,n-m>1,
计算平均加速度An公式2为:
当-SH≤An≤SH表示速度稳定,|An|越趋向与0时,代表速度越稳定,其中,SH为稳定系数;
当An<-SH,表示处理速度减少;
当SH<An,表示处理速度增加;
平均资源速度Pn公式3为:,其中,Kn为第n个时间窗口正在使用的资源数量;
计算出数据处理的进入速度IN_Vn,出去速度OUT_Vn,以及数据出去速度的加速度OUT_An
对所述OUT_Vn进行动态调速;
当OUT_Vn<IN_Vn且-SH≤OUT_Vn≤SH,表明出去速度达到了瓶颈,出去资源使用是Kn,计算平均资源速度Pn,此时Pn为单位资源最高处理速度PH,当Kn未达到最高可使用资源KH时,使用资源加1:Kn+1=Kn+1,如此反复直到达到资源限制阈值;
时,当Kn>0时,使用资源减1:Kn+1=Kn-1,如此反复直到达到最低资源配置值。
更进一步地,所述资源为线程。
更进一步地,所述稳定系数SH的计算方式为:
其中,为常数。
更进一步地,所述数据记录是否为重复数据的判断方式为:
整体判断方式:将所述整个数据记录序列化成文本,记录上一次md5值,当前md5与上一次对比,如果相同,是重复数据,如果不同,则为非重复数据;
字段判断方式:
将需要判断的数据记录的字段记为f1,f2…fi
j为数据记录第几次出现,f11,f12…f1j为f1字段第1-j次出现时的md5值;
fij为字段fi第j次的md5值;
第j次数据是否重复公式为:
其中,j>1,eq为等于操作符。
本发明还提出了一种防止数据冲击的隔离装置,该装置包括:
数据获取单元,从外部数据源端获取要发送至目标数据处理端的数据集合;
识别单元,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;
数据隔离处理单元,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;
缓存单元,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。
更进一步地,所述缓存数据库具有数据访问接口,所述目标数据处理端通过所述数据访问接口从所述缓存数据库获取数据进行处理。
更进一步地,从外部数据源端获取到要发送至目标数据处理端的数据集合后,判断所述数据集合中的数据记录是否属于突发流量数据、无用数据、单条超大数据或重复数据,如果是,则在所述数据记录上设置隔离字段。
更进一步地,在数据隔离处理过程中,使用动态处理策略进行数据处理,所述动态处理策略为:
设Ti为时间窗口,Ni为时间窗口Ti内数据记录的数量;
平均时间窗口速度Vn公式1为:,m为参与平均计算的时间窗口个数,n为当前时间窗口的编号,其中,n-m>1,
计算平均加速度An公式2为:
当-SH≤An≤SH表示速度稳定,|An|越趋向与0时,代表速度越稳定,其中,SH为稳定系数;
当An<-SH,表示处理速度减少;
当SH<An,表示处理速度增加;
平均资源速度Pn公式3为:,其中,Kn为第n个时间窗口正在使用的资源数量;
计算出数据处理的进入速度IN_Vn,出去速度OUT_Vn,以及数据出去速度的加速度OUT_An
对所述OUT_Vn进行动态调速;
当OUT_Vn<IN_Vn且-SH≤OUT_Vn≤SH,表明出去速度达到了瓶颈,出去资源使用是Kn,计算平均资源速度Pn,此时Pn为单位资源最高处理速度PH,当Kn未达到最高可使用资源KH时,使用资源加1:Kn+1=Kn+1,如此反复直到达到资源限制阈值;
时,当Kn>0时,使用资源减1:Kn+1=Kn-1,如此反复直到达到最低资源配置值。
更进一步地,所述稳定系数SH的计算方式为:
其中,为常数。
更进一步地,所述数据记录是否为重复数据的判断方式为:
整体判断方式:将所述整个数据记录序列化成文本,记录上一次md5值,当前md5与上一次对比,如果相同,是重复数据,如果不同,则为非重复数据;
字段判断方式:
将需要判断的数据记录的字段记为f1,f2…fi
j为数据记录第几次出现,f11,f12…f1j为f1字段第1-j次出现时的md5值;
fij为字段fi第j次的md5值;
第j次数据是否重复公式为:
其中,j>1,eq为等于操作符。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种防止数据冲击的隔离方法、装置及存储介质,该方法包括:数据获取步骤S101,从外部数据源端获取要发送至目标数据处理端的数据集合;识别步骤S102,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;数据隔离处理步骤S103,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;缓存步骤S104,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。本发明中,逐步的对待处理的数据记录进行数据体删除、字段精简等一系列操作,降低数据的大小,提高后续数据处理的效率,并在插入内存数据库时,根据数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录,确保了数据库存储的数据为最新数据,这是本发明的重要发明点,从而防止大数据量对目标数据处理端造成数据冲击,导致系统宕机的风险;本发明中,提出了在数据隔离处理过程的动态处理策略,使用该动态处理策略进行数据处理,可以将大流量、积压、等等的数据进行快速处理后存入数据库,本发明中研究出了数据处理速度计算方式、加速度处理方式、平均资源速度、稳定系数SH,通过该些具体的计算方式,可以将大流量数据进行平稳处理,避免对目标数据处理端造成冲击,并可以根据数据量动态调度资源,避免资源浪费及资源不够的确定,本发明中提出了数据是否重复的两种判断方式,一个全部数据判断,另一个是字段判断,字段数据判断适应的情况是仅判断一些数据记录的字段对应的数据是否相同进行判断,即抽样判断,该种判断方式速度快,适用大量数据的判断,并提出了是否重复的具体计算方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种防止数据冲击的隔离方法的流程图。
图2是根据本发明的实施例的一种防止数据冲击的隔离装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种防止数据冲击的隔离方法,该方法包括:
数据获取步骤S101,从外部数据源端获取要发送至目标数据处理端的数据集合;外部数据源可以是通过推送接口、mq队列、定时轮询http接口、定时查询数据库等等获得的数据源;
识别步骤S102,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;
数据隔离处理步骤S103,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;
缓存步骤S104,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。
本发明中,首选判断数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,然后根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;然后再对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。即逐步的对待处理的数据记录进行数据体删除、字段精简等一系列操作,降低数据的大小,提高后续数据处理的效率,并在插入内存数据库时,根据数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录,确保了数据库存储的数据为最新数据,这是本发明的重要发明点,从而防止大数据量对目标数据处理端造成数据冲击,导致系统宕机的风险,这是本发明的重要发明构思。
本发明中的所述缓存数据库具有数据访问接口,所述目标数据处理端通过所述数据访问接口从所述缓存数据库获取数据进行处理。
在一个实施例中,从外部数据源端获取到要发送至目标数据处理端的数据集合后,判断所述数据集合中的数据记录是否属于突发流量数据、无用数据、单条超大数据或重复数据,如果是,则在所述数据记录上设置隔离字段。本步骤可以称为预处理,即根据数据源的数据的情况,确定该数据是否进行隔离处理,这是本发明的重要发明构思之所在。
在一个实施例中,在数据隔离处理过程中,使用动态处理策略进行数据处理,所述动态处理策略为:
设Ti为时间窗口,Ni为时间窗口Ti内数据记录的数量;
平均时间窗口速度Vn公式1为:,m为参与平均计算的时间窗口个数,n为当前时间窗口的编号,其中,n-m>1,
计算平均加速度An公式2为:
当-SH≤An≤SH表示速度稳定,|An|越趋向与0时,代表速度越稳定,其中,SH为稳定系数;
当An<-SH,表示处理速度减少;
当SH<An,表示处理速度增加;
平均资源速度Pn公式3为:,其中,Kn为第n个时间窗口正在使用的资源数量;
计算出数据处理的进入速度IN_Vn,出去速度OUT_Vn,以及数据出去速度的加速度OUT_An
对所述OUT_Vn进行动态调速;
当OUT_Vn<IN_Vn且-SH≤OUT_Vn≤SH,表明出去速度达到了瓶颈,出去资源使用是Kn,计算平均资源速度Pn,此时Pn为单位资源最高处理速度PH,当Kn未达到最高可使用资源KH时,使用资源加1:Kn+1=Kn+1,如此反复直到达到资源限制阈值;
时,当Kn>0时,使用资源减1:Kn+1=Kn-1,如此反复直到达到最低资源配置值。所述资源为线程。
所述稳定系数SH的计算方式为:;其中,/>为常数。
本发明中,提出了在数据隔离处理过程的动态处理策略,使用该动态处理策略进行数据处理,可以将大流量、积压、等等的数据进行快速处理后存入数据库,本发明中研究出了数据处理速度计算方式、加速度处理方式、平均资源速度、稳定系数SH,通过该些具体的计算方式,可以将大流量数据进行平稳处理,避免对目标数据处理端造成冲击,并可以根据数据量动态调度资源,避免资源浪费及资源不够的确定,这是本发明的重要发明构思之一。
在一个实施例中,所述数据记录是否为重复数据的判断方式为:
整体判断方式:将所述整个数据记录序列化成文本,记录上一次md5值,当前md5与上一次对比,如果相同,是重复数据,如果不同,则为非重复数据;
字段判断方式:
将需要判断的数据记录的字段记为f1,f2…fi
j为数据记录第几次出现,f11,f12…f1j为f1字段第1-j次出现时的md5值;
fij为字段fi第j次的md5值;
第j次数据是否重复公式为:
其中,j>1,eq为等于操作符。
本发明中提出了数据是否重复的两种判断方式,一个全部数据判断,另一个是字段判断,字段数据判断适应的情况是仅判断一些数据记录的字段对应的数据是否相同进行判断,即抽样判断,该种判断方式速度快,适用大量数据的判断,并提出了是否重复的具体计算方式,这是本发明的重要发明点之一。
图2示出了本发明的一种防止数据冲击的隔离装置,该装置包括:
数据获取单元201,从外部数据源端获取要发送至目标数据处理端的数据集合;外部数据源可以是通过推送接口、mq队列、定时轮询http接口、定时查询数据库等等获得的数据源。
识别单元202,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;
数据隔离处理单元203,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;
缓存单元204,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。
本发明中,首选判断数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,然后根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;然后再对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。即逐步的对待处理的数据记录进行数据体删除、字段精简等一系列操作,降低数据的大小,提高后续数据处理的效率,并在插入内存数据库时,根据数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录,确保了数据库存储的数据为最新数据,这是本发明的重要发明点,从而防止大数据量对目标数据处理端造成数据冲击,导致系统宕机的风险。
本发明中的所述缓存数据库具有数据访问接口,所述目标数据处理端通过所述数据访问接口从所述缓存数据库获取数据进行处理。
在一个实施例中,从外部数据源端获取到要发送至目标数据处理端的数据集合后,判断所述数据集合中的数据记录是否属于突发流量数据、无用数据、单条超大数据或重复数据,如果是,则在所述数据记录上设置隔离字段。本步骤可以称为预处理,即根据数据源的数据的情况,确定该数据是否进行隔离处理,这是本发明的重要发明构思之所在。
在一个实施例中,在数据隔离处理过程中,使用动态处理策略进行数据处理,所述动态处理策略为:
设Ti为时间窗口,Ni为时间窗口Ti内数据记录的数量;
平均时间窗口速度Vn公式1为:,m为参与平均计算的时间窗口个数,n为当前时间窗口的编号,其中,n-m>1,
计算平均加速度An公式2为:
当-SH≤An≤SH表示速度稳定,|An|越趋向与0时,代表速度越稳定,其中,SH为稳定系数;
当An<-SH,表示处理速度减少;
当SH<An,表示处理速度增加;
平均资源速度Pn公式3为:,其中,Kn为第n个时间窗口正在使用的资源数量;
计算出数据处理的进入速度IN_Vn,出去速度OUT_Vn,以及数据出去速度的加速度OUT_An
对所述OUT_Vn进行动态调速;
当OUT_Vn<IN_Vn且-SH≤OUT_Vn≤SH,表明出去速度达到了瓶颈,出去资源使用是Kn,计算平均资源速度Pn,此时Pn为单位资源最高处理速度PH,当Kn未达到最高可使用资源KH时,使用资源加1:Kn+1=Kn+1,如此反复直到达到资源限制阈值;
时,当Kn>0时,使用资源减1:Kn+1=Kn-1,如此反复直到达到最低资源配置值。所述资源为线程。
所述稳定系数SH的计算方式为:;其中,/>为常数。
本发明中,提出了在数据隔离处理过程的动态处理策略,使用该动态处理策略进行数据处理,可以将大流量、积压、等等的数据进行快速处理后存入数据库,本发明中研究出了数据处理速度计算方式、加速度处理方式、平均资源速度、稳定系数SH,通过该些具体的计算方式,可以将大流量数据进行平稳处理,避免对目标数据处理端造成冲击,并可以根据数据量动态调度资源,避免资源浪费及资源不够的确定,这是本发明的重要发明构思之一。
在一个实施例中,所述数据记录是否为重复数据的判断方式为:
整体判断方式:将所述整个数据记录序列化成文本,记录上一次md5值,当前md5与上一次对比,如果相同,是重复数据,如果不同,则为非重复数据;
字段判断方式:
将需要判断的数据记录的字段记为f1,f2…fi
j为数据记录第几次出现,f11,f12…f1j为f1字段第1-j次出现时的md5值;
fij为字段fi第j次的md5值;
第j次数据是否重复公式为:
其中,j>1,eq为等于操作符。
本发明中提出了数据是否重复的两种判断方式,一个全部数据判断,另一个是字段判断,字段数据判断适应的情况是仅判断一些数据记录的字段对应的数据是否相同进行判断,即抽样判断,该种判断方式速度快,适用大量数据的判断,并提出了是否重复的具体计算方式,这是本发明的重要发明点之一。
本发明一个实施例中提出了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法,该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种防止数据冲击的隔离方法,其特征在于,该方法包括:
数据获取步骤,从外部数据源端获取要发送至目标数据处理端的数据集合;
识别步骤,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;
数据隔离处理步骤,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;
在所述数据隔离处理步骤中,使用动态处理策略进行数据处理,所述动态处理策略为:
设Ti为时间窗口,Ni为时间窗口Ti内数据记录的数量;
平均时间窗口速度Vn公式1为:,m为参与平均计算的时间窗口个数,n为当前时间窗口的编号,其中,n-m>1,
计算平均加速度An公式2为:
当-SH≤An≤SH表示速度稳定,|An|越趋向与0时,代表速度越稳定,其中,SH为稳定系数;
当An<-SH,表示处理速度减少;
当SH<An,表示处理速度增加;
平均资源速度Pn公式3为:,其中,Kn为第n个时间窗口正在使用的资源数量;
计算出数据处理的进入速度IN_Vn,出去速度OUT_Vn,以及数据出去速度的加速度OUT_An
对所述OUT_Vn进行动态调速;
当OUT_Vn<IN_Vn且-SH≤OUT_Vn≤SH,表明出去速度达到了瓶颈,出去资源使用是Kn,计算平均资源速度Pn,此时Pn为单位资源最高处理速度PH,当Kn未达到最高可使用资源KH时,使用资源加1:Kn+1=Kn+1,如此反复直到达到资源限制阈值;
时,当Kn>0时,使用资源减1:Kn+1=Kn-1,如此反复直到达到最低资源配置值;
所述稳定系数SH的计算方式为:;其中,/>为常数;
缓存步骤,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据记录是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。
2.根据权利要求1所述的方法,其特征在于,所述缓存数据库具有数据访问接口,所述目标数据处理端通过所述数据访问接口从所述缓存数据库获取数据记录进行处理。
3.根据权利要求2所述的方法,其特征在于,从外部数据源端获取到要发送至目标数据处理端的数据集合后,判断所述数据集合中的数据记录是否属于突发流量数据、无用数据、单条超大数据或重复数据,如果是,则在所述数据记录上设置隔离字段。
4.根据权利要求3所述的方法,其特征在于,所述资源为线程。
5.种防止数据冲击的隔离装置,其特征在于,该装置包括:
数据获取单元,从外部数据源端获取要发送至目标数据处理端的数据集合;
识别单元,判断所述数据集合中的每条数据记录中是否具有隔离字段,如果是,则进行数据隔离处理,如果否,则从将该数据记录从所述数据集合中删除;
数据隔离处理单元,根据预先设置的数据分类规则及标识规则对具有隔离字段的每条数据记录进行分类得到类别信息,并设置该数据记录的唯一标识,读取数据过滤规则,基于所述过滤规则判断所述数据记录是否需要过滤数据,如果是,则在所述数据记录中插入或者更新数据标识为过滤数据,并将所述数据记录中的数据体舍弃,如果所述数据记录不是过滤数据,则读取字段精简规则,基于所述字段精简规则对所述数据记录的字段进行精简;
所述数据隔离处理单元使用动态处理策略进行数据隔离处理,所述动态处理策略为:
设Ti为时间窗口,Ni为时间窗口Ti内数据记录的数量;
平均时间窗口速度Vn公式1为:,m为参与平均计算的时间窗口个数,n为当前时间窗口的编号,其中,n-m>1,
计算平均加速度An公式2为:
当-SH≤An≤SH表示速度稳定,|An|越趋向与0时,代表速度越稳定,其中,SH为稳定系数;
当An<-SH,表示处理速度减少;
当SH<An,表示处理速度增加;
平均资源速度Pn公式3为:,其中,Kn为第n个时间窗口正在使用的资源数量;
计算出数据处理的进入速度IN_Vn,出去速度OUT_Vn,以及数据出去速度的加速度OUT_An
对所述OUT_Vn进行动态调速;
当OUT_Vn<IN_Vn且-SH≤OUT_Vn≤SH,表明出去速度达到了瓶颈,出去资源使用是Kn,计算平均资源速度Pn,此时Pn为单位资源最高处理速度PH,当Kn未达到最高可使用资源KH时,使用资源加1:Kn+1=Kn+1,如此反复直到达到资源限制阈值;
时,当Kn>0时,使用资源减1:Kn+1=Kn-1,如此反复直到达到最低资源配置值;
所述稳定系数SH的计算方式为:;其中,/>为常数;
缓存单元,对经过数据处理后的数据记录使用类别信息与唯一标识查询所述数据记录是否已存在缓存数据库中,如果否,则将所述数据记录插入所述缓存数据库中,如果是,则读取数据变化字段设置规则,基于所述数据变化字段设置规则识别所述数据记录是否发生变化,如果是,则在所述缓存数据库中更新所述数据记录。
6.根据权利要求5所述的装置,其特征在于,所述缓存数据库具有数据访问接口,所述目标数据处理端通过所述数据访问接口从所述缓存数据库获取数据记录进行处理。
7.根据权利要求6所述的装置,其特征在于,从外部数据源端获取到要发送至目标数据处理端的数据集合后,判断所述数据集合中的数据记录是否属于突发流量数据、无用数据、单条超大数据或重复数据,如果是,则在所述数据记录上设置隔离字段。
8.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现权利要求1-4任一项所述的方法。
CN202311371291.0A 2023-10-23 2023-10-23 一种防止数据冲击的隔离方法、装置及存储介质 Active CN117112632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311371291.0A CN117112632B (zh) 2023-10-23 2023-10-23 一种防止数据冲击的隔离方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311371291.0A CN117112632B (zh) 2023-10-23 2023-10-23 一种防止数据冲击的隔离方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN117112632A CN117112632A (zh) 2023-11-24
CN117112632B true CN117112632B (zh) 2024-01-12

Family

ID=88795080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311371291.0A Active CN117112632B (zh) 2023-10-23 2023-10-23 一种防止数据冲击的隔离方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117112632B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820449A (zh) * 2010-04-20 2010-09-01 江苏电力调度通信中心 跨安全区应用服务隔离平台
CN110276002A (zh) * 2019-06-26 2019-09-24 浙江大搜车软件技术有限公司 搜索应用数据处理方法、装置、计算机设备和存储介质
CN111339560A (zh) * 2020-02-26 2020-06-26 中国邮政储蓄银行股份有限公司 一种数据隔离方法、装置及系统
CN111506479A (zh) * 2020-04-20 2020-08-07 深圳前海微众银行股份有限公司 一种日志数据处理方法及装置
CN112948410A (zh) * 2021-03-31 2021-06-11 中国建设银行股份有限公司 数据处理方法、装置、设备及介质
US11196627B1 (en) * 2019-06-26 2021-12-07 Amazon Technologies, Inc. Managed remediation of non-compliant resources
CN116032614A (zh) * 2022-12-29 2023-04-28 上海浦东发展银行股份有限公司 容器网络微隔离方法、装置、设备和介质
CN116257223A (zh) * 2023-02-27 2023-06-13 中国建设银行股份有限公司 数据隔离开发方法、装置、设备、可读存储介质及产品
CN116663043A (zh) * 2022-02-17 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、存储介质及程序产品

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11500874B2 (en) * 2019-01-23 2022-11-15 Servicenow, Inc. Systems and methods for linking metric data to resources
US20230139783A1 (en) * 2021-11-03 2023-05-04 Capital One Services, Llc Schema-adaptable data enrichment and retrieval

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820449A (zh) * 2010-04-20 2010-09-01 江苏电力调度通信中心 跨安全区应用服务隔离平台
CN110276002A (zh) * 2019-06-26 2019-09-24 浙江大搜车软件技术有限公司 搜索应用数据处理方法、装置、计算机设备和存储介质
US11196627B1 (en) * 2019-06-26 2021-12-07 Amazon Technologies, Inc. Managed remediation of non-compliant resources
CN111339560A (zh) * 2020-02-26 2020-06-26 中国邮政储蓄银行股份有限公司 一种数据隔离方法、装置及系统
CN111506479A (zh) * 2020-04-20 2020-08-07 深圳前海微众银行股份有限公司 一种日志数据处理方法及装置
CN112948410A (zh) * 2021-03-31 2021-06-11 中国建设银行股份有限公司 数据处理方法、装置、设备及介质
CN116663043A (zh) * 2022-02-17 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN116032614A (zh) * 2022-12-29 2023-04-28 上海浦东发展银行股份有限公司 容器网络微隔离方法、装置、设备和介质
CN116257223A (zh) * 2023-02-27 2023-06-13 中国建设银行股份有限公司 数据隔离开发方法、装置、设备、可读存储介质及产品

Also Published As

Publication number Publication date
CN117112632A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
US11616840B2 (en) Method, apparatus and system for processing unmanned vehicle data, and storage medium
CN111159243B (zh) 用户类型识别方法、装置、设备及存储介质
CN111176565B (zh) 确定应用的存储负载的方法和设备
CN110781336A (zh) 基于全局建档的人像数据与手机特征数据融合方法及系统
WO2010015145A1 (zh) 过滤以及监控程序行为的方法和系统
CN117112632B (zh) 一种防止数据冲击的隔离方法、装置及存储介质
CN111400597A (zh) 基于k-means算法的信息归类方法及相关设备
US20160124841A1 (en) Information processing system and data processing method
CN111898559B (zh) 一种提升人脸识别速度的方法、装置及电子设备
CN114510474A (zh) 基于时间衰减的样本删除方法及其装置、存储介质
CN111539206B (zh) 一种确定敏感信息的方法、装置、设备及存储介质
CN111611821B (zh) 二维码识别方法、装置、计算机设备和可读存储介质
CN113923002A (zh) 计算机网络入侵防御方法、装置、存储介质及处理器
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
CN109165305B (zh) 一种特征值存储、检索方法及装置
CN111198972A (zh) 用户职住地识别方法、装置、控制设备及存储介质
CN112994924B (zh) 一种网络业务日志在线归并方法
CN116204328B (zh) 离库的负荷分担处理方法和系统
CN112560457B (zh) 基于非监督的文本去噪方法、系统、电子设备及存储介质
CN112836827A (zh) 模型训练方法、装置以及计算机设备
CN114513558B (zh) 用户请求的处理方法和装置
CN111800446A (zh) 调度处理方法、装置、设备和存储介质
CN113625959B (zh) 一种数据处理方法和装置
CN114500261B (zh) 一种网络资产识别方法、装置及电子设备和存储介质
CN116860761B (zh) 一种数据获取方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant