CN114722081B - 一种基于中转库模式的流式数据时间序列传输方法及系统 - Google Patents

一种基于中转库模式的流式数据时间序列传输方法及系统 Download PDF

Info

Publication number
CN114722081B
CN114722081B CN202210646150.4A CN202210646150A CN114722081B CN 114722081 B CN114722081 B CN 114722081B CN 202210646150 A CN202210646150 A CN 202210646150A CN 114722081 B CN114722081 B CN 114722081B
Authority
CN
China
Prior art keywords
data
initial
streaming data
clusters
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210646150.4A
Other languages
English (en)
Other versions
CN114722081A (zh
Inventor
石杰
廖家林
伍星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202210646150.4A priority Critical patent/CN114722081B/zh
Publication of CN114722081A publication Critical patent/CN114722081A/zh
Application granted granted Critical
Publication of CN114722081B publication Critical patent/CN114722081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于中转库模式的流式数据时间序列传输方法及系统,该方法通过对日志流式数据进行初始聚类并进行异常离散数据分析,获得多个包含数据区间且用于存储初始聚类簇的存储服务器和用于存储异常离散数据的特殊数据存储服务器。利用实时日志流式数据与数据库中的日志流式数据的匹配差异判断是否进行更新存储服务器。利用检索服务器的检索式对不同存储服务器进行数据提取并整合,获得调取日志流式数据并传输。本发明通过构建由检索服务器、多个存储服务器、特殊数据存储服务器和备用服务器构成的中转库,实现了对流式数据的完整安全的存储及传输,保证了传输效率。

Description

一种基于中转库模式的流式数据时间序列传输方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于中转库模式的流式数据时间序列传输方法及系统。
背景技术
日志文件是用来记录系统执行中发生的事件,以便提供可用于理解系统的活动和诊断问题的跟踪,它们对理解复杂系统的活动至关重要,特别是在用户交互较少的应用程序中。通俗来讲,日志是一种记事本之类的文件,对于技术人员来说这些日志具备很大的参考价值,通过查看日志就可以对系统问题进行一定程度的诊断、追溯和修复。
日志属于动态的实时数据文件,这类数据称为流式数据,一旦数据集发生动态变化,需要系统即刻做出反应,进行高效的分析处理,但单个数据不具备分析价值,多个数据同时调取又存在传输速度慢、效率低的问题。在现有技术中,流式数据量较大,对于海量的流式数据,会将数据切分为多个数据块,然后将数据块并行方式存储并传输。这种存储传输的方法中,每次调取的流式数据仅在当下时间内有效,随着新数据的产生,旧的数据就作废,再想查看又得从新的时间节点重新调取一遍;并且并行传输更容易发生数据丢失,若存在一个数据块的存储服务器宕机等情况,会导致调取数据失败,影响数据传输效率。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于中转库模式的流式数据时间序列传输方法及系统,所采用的技术方案具体如下:
本发明提出了一种基于中转库模式的流式数据时间序列传输方法,所述方法包括:
统计存储器内的所有初始日志流式数据,并规范所有所述初始日志流式数据的存储格式,使得所述初始流式数据为一个包含多个维度且每个维度为一个特征的多维数据;对所述初始日志流式数据进行预处理,消除维度之间量纲的影响,获得日志流式数据;
获得所述日志流式数据中每个维度的数据与预设标准数据的差异;根据每个维度对应的所述差异对不同所述日志流式数据进行初始聚类,获得多个初始聚类簇;识别出所述初始聚类簇中的异常离散聚类簇,并将所述异常离散聚类簇移入特殊数据存储服务器;所述异常离散聚类簇中的样本数量少且与其他所述初始聚类簇的差异大于预设第一差异阈值;根据剩余所述初始聚类簇的数量和每个所述初始聚类簇中的数据区间构建多个存储服务器并将对应所述初始聚类簇的数据存储进去;每个所述存储服务器对应一个所述数据区间;
将获取的实时日志流式数据经过相同所述预处理后存储至备用存储服务器;将所述实时日志流式数据与所有所述存储服务器中所述初始聚类簇进行匹配,并获得所述实时日志流式数据与最匹配的所述初始聚类簇的聚类中心的匹配差异;若所述匹配差异小于预设第二差异阈值,则将所有所述存储服务器中的数据传输至所述备用服务器并重新进行聚类,根据重新聚类的结果更新所述存储服务器的数量及对应的所述数据区间;若所述匹配差异不小于所述第二差异阈值,则将所述实时日志流式数据存储至所述特殊数据存储服务器;若所述特殊数据存储服务器中存在预设数量个互相相似的数据,则在存储服务器集合中为所述互相相似数据添加一个对应的所述存储服务器并存储;
需要数据调取时,利用检索服务器获得检索式,利用所述检索式提取不同所述存储服务器中的数据并整合,获得调取日志流式数据并传输。
进一步地,所述对所述初始日志流式数据进行预处理包括:
利用关键词检测神经网络处理所述初始日志流式数据,检测出包含预设关键词数据的多个关键维度,将其他维度的数据作为噪声数据进行剔除,将每个所述关键维度的数据量纲统一后进行归一化处理,获得所述日志流式数据。
进一步地,所述根据每个维度对应的所述差异对不同所述日志流式数据进行初始聚类包括:
根据每个维度对应的所述差异将不同所述日志流式数据映射至样本空间中,利用K均值聚类算法对所述样本空间中的样本进行聚类,获得多个所述初始聚类簇。
进一步地,所述识别出所述初始聚类簇中的异常离散聚类簇包括:
获得每个所述初始聚类簇与所有其他所述初始聚类簇的聚类中之间的差异累加和;
根据所述初始聚类簇中的样本数量和样本方差获得异常离散判断系数;所述离散判断系数与所述样本数量呈正相关关系,与所述样本方差呈负相关关系;
若所述差异累加和大于所述第一差异阈值且所述异常离散判断系数小于预设判断系数阈值,则对应的所述初始聚类簇为所述异常离散聚类簇。
进一步地,所述获得每个所述初始聚类簇与所有其他所述初始聚类簇的聚类中之间的差异累加和后还包括:
统计所有所述初始聚类簇的所述差异累加和,并将所述差异累加和由小到大排序,获得差异累加和序列,获得所述差异累加和序列中相邻元素之间后一个元素与前一个元素的差值,若所述差值与前一个元素的比值大于等于一,则认为所述前一个元素为分割元素,所述差异累加和序列中所述分割元素以后的所有元素均认为满足所述差异累加和大于所述第一差异阈值的条件。
进一步地,所述根据所述初始聚类簇中的样本数量和样本方差获得异常离散判断系数包括:
根据异常离散判断系数公式获得所述异常离散判断系数,所述异常离散判断系数公式包括:
Figure DEST_PATH_IMAGE001
其中,
Figure 368277DEST_PATH_IMAGE002
为第
Figure DEST_PATH_IMAGE003
个所述初始聚类簇的所述异常离散判断系数,
Figure 768166DEST_PATH_IMAGE004
为第
Figure 240604DEST_PATH_IMAGE003
个所述初始聚类簇的所述样本数量,
Figure DEST_PATH_IMAGE005
为第
Figure 649720DEST_PATH_IMAGE003
个所述初始聚类簇的所述样本方差,
Figure 438684DEST_PATH_IMAGE006
为自然常数。
进一步地,所述将所述实时日志流式数据与所有所述存储服务器中所述初始聚类簇进行匹配包括:
获得所述实时日志流式数据与所有所述初始聚类簇的聚类中心在所述样本空间中的欧氏距离;以最小欧氏距离对应的所述初始聚类簇作为所述实时日志流式数据的最匹配的所述初始聚类簇,以所述最小欧氏距离作为所述匹配差异。
本发明还提出了一种基于中转库模式的流式数据时间序列传输系统,所述系统包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种基于中转库模式的流式数据时间序列传输方法的步骤。
本发明具有如下有益效果:
本发明实施例对日志流式数据进行初始聚类,并筛选出异常离散聚类簇,利用剩余的初始聚类簇构建由多个存储服务器组成的中转库。通过中转库实现流式数据的调用,能够使得调用过程稳定有序高效的传输,如果存在服务器宕机等异常情况,则可利用对应存储服务器代表的数据区间对丢失数据进行预测评估,能够在一定程度上还原出丢失的数据,使得调用的数据更加有效完整。且根据数据库的存储能够对中转库中的存储服务器的数量和数据区间进行更新,使得中转库中的存储服务器会趋近稳定,直接通过检索式即可调用出对应的日志流式数据,提高了日志流式数据的传输效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于中转库模式的流式数据时间序列传输方法流程图;
图2为本发明一个实施例所提供的一种花费日志流式数据存储表示意图;
图3为本发明一个实施例所提供的一种数据区间划分示意图;
图4为本发明一个实施例所提供的一种中转库示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于中转库模式的流式数据时间序列传输方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于中转库模式的流式数据时间序列传输方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于中转库模式的流式数据时间序列传输方法流程图,该方法包括:
步骤S1:统计存储器内的所有初始日志流式数据,并规范所有初始日志流式数据的存储格式,使得初始流式数据为一个包含多个维度且每个维度为一个特征的多维数据;对初始日志流式数据进行预处理,消除维度之间量纲的影响,获得日志流式数据。
在常规的分割数据库存储流式数据的方法中,一个30G的流式数据需要将其切割为三份,并由服务器B、服务器C和服务器D分别进行保存,且需要服务器A用于管理其他服务器并记录数据的切分方法和存储位置,在进行数据传输过程中,服务器B、服务器C和服务器D中的数据并行进行传送,容易发生数据丢失导致数据传输失败。因此对于流式数据而言,需要进行相应的数据处理并提出一种新的存储传输方法。
日志文件的应用极其广泛,对于计算机下的大数据时代,日志文件在无线的时间维度的基础上,连续记录了一件或者多件事物的演变历史。日志文件的核心意义不在于在某个时间下某某做了什么,更重要意义在于某某做了什么导致了什么结果,因此为了明确日志文件所代表的含义,必须对于要规范日志流式数据的存储格式,使其具有可度量性,才会具备回溯查看的价值。
因此在统计存储器内所有初始日志流式数据后,需要规范记录格式,使其包含一些基本的度量属性,例如时间、活动量、结果量、影响量等,使得初始流式数据为一个包含多个维度且每个维度代表为一个特征的多维数据。请参阅图2,其示出了本发明一个实施例所提供的一种花费日志流式数据存储表示意图,图2中每一行代表一个事件,每行的事件信息组成一个花费日志流式数据,由图2可知,一个初始日志流式数据每列代表一个维度的信息,例如第一行的数据代表事件ID为35654423是属于流程实例1中活动A的一个事件,由彼得作为执行人,在2017-9-10-8:30执行完成,并花费了50等等。因此针对不同领域、维度的事件属性,需要制定一个可识别、可度量、可分析的存储描述。
在分析日志流式数据时,因为存在多个维度的信息,不同数据的不同维度之间拥有不同的量纲,例如时间单位可为秒、分等,温度单位可为华氏度、摄氏度等,不同数据的不同维度使得分析时出现障碍,因此为了便于数据分析且便于后续对日志数据的回溯,需要对初始日志流式数据进行预处理,消除维度之间量纲的影响,获得日志流式数据。
优选地,考虑到日志流式数据的记录是多维度的描述,其中有可能包括数据分析时不需要的维度信息,因此利用关键词检测神经网络处理所述初始日志流式数据,检测出包含预设关键词数据的多个关键维度,将其他维度的数据作为噪声数据进行剔除。将每个所述关键维度的数据进行量纲统一后分别进行归一化,获得所述日志流式数据。需要说明的是,因为不同维度的量纲不同,在归一化消除量纲的影响过程中,不同维度的数据应当分层进行,例如利用最大最小值归一化算法处理数据时,需要针对时间的最大最小值对时间数据进行归一化操作,利用温度的最大最小值对温度数据进行归一化,避免不同数据之间的错误影响。
需要说明的是,关键词检测神经网络的本质为分类任务,实现分类任务的神经网络包含多种结构,实施者可根据具体实施场景选用最适合的网络结构及训练方法,在此不做赘述。
需要说明的是,上述步骤中所使用的日志流式数据集合为一个系统中产生的数据,对于不同系统而言需要对每个系统进行针对性分析。
步骤S2:获得日志流式数据中每个维度的数据与预设标准数据的差异;根据每个维度对应的差异对不同日志流式数据进行初始聚类,获得多个初始聚类簇;识别出初始聚类簇中的异常离散聚类簇,并将异常离散聚类簇移入特殊数据存储服务器;异常离散聚类簇中的样本数量少且与其他初始聚类簇存在较大的匹配差异;根据剩余初始聚类簇的数量和每个初始聚类簇中的数据区间构建多个存储服务器并将对应初始聚类簇的数据存储进去;每个存储服务器对应一个数据区间。
连续的日志流式数据表示一个随着时间变化反映操作和结果的数据,例如某个人的花费日志,其上包括了这个人每日的花费金额和具体操作内容,如果某天存在较大的花费金额,该花费金额就为异常数据,是值得进行分析的,可用于分析该日的具体消费情况。因此无论对于系统日志还是客户活动日志,其中突出的异常部分更具有回溯价值,因此对于某个维度下的日志流式数据,在数据分析时需要考虑其数据大小,根据数据的大小选出感兴趣数据进行回溯分析。
为了使后续日志数据分析时体现出数据大小及异常性,获得日志流式数据中每个维度的数据与预设标准数据的差异,在本发明实施例后续描述中,仅以一个维度进行举例,需要说明的是,其他维度也拥有相同的处理方法。以花费金额对应的维度为例,根据对应的差异对不同日志流式数据中花费金额数据进行初始聚类,获得多个初始聚类簇,具体包括:
根据每个维度对应的差异将不同日志流式数据映射至样本空间中,利用K均值聚类算法对样本空间中的样本进行聚类,获得多个初始聚类簇。
需要说明的是,K均值聚类算法为本领域技术人员熟知的现有技术,具体操作不再赘述。
在初始聚类过程中,如果日志流式数据集合中存在感兴趣的异常数据,则在初始聚类过程中会被聚为一个包含少量数据且簇内数据波动不大的异常离散聚类簇。需要将对应的异常离散聚类簇提取出来并分开存储,以便于后续回溯分析,具体识别出异常离散聚类簇的方法包括:
获得每个初始聚类簇与所有其他初始聚类簇的聚类中之间的差异累加和。差异累加和越大,则说明该初始聚类簇中的数据与其他初始聚类簇中的数据存在较大差异,越可能为异常数据。
根据初始聚类簇中的样本数量和样本方差获得异常离散判断系数。离散判断系数与样本数量呈正相关关系,与样本方差呈负相关关系,具体获得异常离散判断系数的方法包括:
根据异常离散判断系数公式获得异常离散判断系数,异常离散判断系数公式包括:
Figure DEST_PATH_IMAGE007
其中,
Figure 337370DEST_PATH_IMAGE002
为第
Figure 798570DEST_PATH_IMAGE003
个初始聚类簇的异常离散判断系数,
Figure 276956DEST_PATH_IMAGE004
为第
Figure 389268DEST_PATH_IMAGE003
个初始聚类簇的样本数量,
Figure 990014DEST_PATH_IMAGE005
为第
Figure 922198DEST_PATH_IMAGE003
个初始聚类簇的样本方差,
Figure 266591DEST_PATH_IMAGE006
为自然常数。
由异常离散判断系数公式可知,离散判断系数与样本数量呈正相关关系,与样本方差呈负相关关系,当某个初始聚类簇仅包含一个样本时,方差为0,样本数量为1,则异常离散判断系数为1;当某个初始聚类簇包含多个样本时,方差越大,说明数据越离散,则异常离散判断系数越小;若某个初始聚类簇包含多个样本且比较聚集,则对应的异常离散判断系数就会较大,且远大于1。
若差异累加和大于预设第一差异阈值且异常离散判断系数小于预设判断系数阈值,则对应的初始聚类簇为异常离散聚类簇。其中判断差异累加和大于第一差异阈值条件的具体方法包括:
统计所有初始聚类簇的差异累加和,并将差异累加和由小到大排序,获得差异累加和序列,获得差异累加和序列中相邻元素之间后一个元素与前一个元素的差值,若差值与前一个元素的比值大于等于一,则认为前一个元素为分割元素,差异累加和序列中分割元素以后的所有元素均认为满足差异累加和大于第一差异阈值的条件。
需要说明的是,判断系数阈值与标准数据相似,均需要根据具体系统的具体维度代表的特征进行设置,在此不做限定。
将异常离散聚类簇移入特殊数据存储服务器内,其他的初始聚类簇可认为是存在周期性的性质的数据,且每个初始聚类簇中存在数据的最大和最小值,构成数据区间,根据剔除掉异常离散聚类簇后的初始聚类簇的数量和每个初始聚类簇的数据区间构建多个存储服务器并将对应初始聚类簇的数据存储进去,即每个所述存储服务器对应一个数据区间。请参阅图3,其示出了本发明一个实施例所提供的一种数据区间划分示意图,在图3中,横轴T代表时间轴,纵轴ω代表数据大小,图3中每一个黑点表示一个数据,通过聚类进行分簇并获得数据区间可将图3中的数据点分为abcd四个数据区间,图3中a区间作为包含标准数据的区间,由图3可知,a区间中数据点的频率较大,随着数据逐渐变大,数据也越来越异常,则每个区间中数据点的频率越小,根据每个数据区间中的数据点构成的波形图可看出,波形度的波动性越小且对应的区间大小越大,则说明越为异常离散数据。在进行数据存储过程中,将每个数据区间对应的数据存储至对应的存储服务器内。利用这种存储方法进行存储,使得原始数据仍包含对应的时间信息,仅是在空间中进行了分别存储,保证了数据的完整性。
步骤S3:将获取的实时日志流式数据经过相同预处理后存储至备用存储服务器;将实时日志流式数据与所有存储服务器中初始聚类簇进行匹配,并获得实时日志流式数据与最匹配的初始聚类簇的聚类中心的匹配差异;若匹配差异小于预设第二差异阈值,则将所有存储服务器中的数据传输至备用服务器并重新进行聚类,根据重新聚类的结果更新存储服务器的数量及对应的数据区间;若匹配差异不小于第二差异阈值,则将实时日志流式数据存储至特殊数据存储服务器;若特殊数据存储服务器中存在预设数量个互相相似的数据,则在存储服务器集合中为互相相似数据添加一个对应的存储服务器并存储。
当有新的日志流式数据产生时,需要对当前存储服务器的数量和数据区间进行更新。首先将获取的实时日志流式数据经过相同预处理后存储至备用存储服务器,将实时日志流式数据与所有存储服务器中初始聚类簇进行匹配,并获得实时日志流式数据与最匹配的初始聚类簇的聚类中心的匹配差异,具体包括:
获得实时日志流式数据与所有初始聚类簇的聚类中心在样本空间中的欧氏距离。以最小欧氏距离对应的初始聚类簇作为实时日志流式数据的最匹配的初始聚类簇,以最小欧氏距离作为匹配差异。
若匹配差异小于预设第二差异阈值,则说明实时日志流式数据与当前数据库中的日志流式数据不存在较大差异,仍可认为是周期性的数据,则将所有存储服务器中的数据传输至备用服务器并重新进行聚类,根据重新聚类的结果更新存储服务器的数量及对应的数据区间。需要说明的是,因为实时日志流式数据与数据库中的日志流式数据相似较大,经过重新聚类后存储服务器的数量及数据区间可能并不存在变化。
若匹配差异不小于第二差异阈值,则说明对应的实时日志流式数据也为异常离散数据,将实时日志流式数据存储至特殊数据存储服务器。
虽然特殊数据存储服务器中存储的都为认定为异常数据的异常离散数据,但是随着大量数据的存储,特殊数据存储服务器内也可能存在一定的周期性。例如,租客首月刚开始租房,则在租金缴纳日会存在较大的消费记录,则在存储过程中会将其存储至特殊数据存储服务器,随着每月消费日志流式数据的存储,会发现租金形成的较大的消费记录为一个周期性的数据,此时该类数据的感兴趣程度就会下降,认为是正常的消费记录,需要将其移出特殊数据存储服务器,将其存储至包含数据区间的存储服务器。即若特殊数据存储服务器中存在预设数量个互相相似的数据,则在存储服务器集合中为互相相似数据添加一个对应的存储服务器并存储。
需要说明的是,互相相似数据之间的相似度可仍选用欧氏距离的方法,即欧氏距离越小,相似度越大。
随着时间的增加,更多的数据的录入,存储服务器的数量及数据区间均可趋近与一个稳定值,不再需要更新。每次出现真正的异常数据,可直接根据特殊存储服务器中的数据进行特征分析。
步骤S4:需要数据调取时,利用检索服务器获得检索式,利用检索式提取不同存储服务器中的数据并整合,获得调取日志流式数据并传输。
其他维度的数据也经过同样方法将其存储至对应的存储服务器中,需要说明的是,其他维度的数据都经过了归一化处理,则数据大小为[0,1],因此不同维度之间所形成的区间大小均相同。可将每个区间以标准数据作为基础进行理解,每个区间代表数据正常等级。因此可不同维度之间的数据可存储至同一个服务器中,保证了数据的完整性。
需要调取数据时,利用检索服务器获得检索式,例如需要分析某个时段内消费者的异常消费情况,则可根据特殊数据存储服务器中的数据对应的ID构建检索式,从而调取其他存储服务器中其他维度的数据,经过整合后可获得完整的调取日志流式数据,并通过编码向连接端口进行数据传输。如果某个存储服务器发生了宕机,无法传输数据,则可根据该存储服务器对应的数据区间进行预测还原出对应数据,保证了数据的完整性和传输效率。
需要说明的是,对调取日志流式数据进行传输编码时,可根据具体实施场景选用最合适的编码方式,在此不做限定。
至此获得由检索服务器、多个存储服务器、特殊数据存储服务器和备用服务器构成的中转库。请参阅图4,其示出了本发明一个实施例所提供的一种中转库示意图,中转库由包含多个存储服务器的存储服务器集合101、特殊数据存储服务器102、备用存储服务器103和检索服务器104构成。在数据调取过程中通过对中转库发起调取命令,利用检索服务器104获得检索式调取存储服务器101或者特殊数据存储服务器102中的数据,并进行编码输出。备用存储服务器103用于获取实时的日志流式数据并判断是否需要更新存储服务器101和特殊数据存储服务器102。
本发明还提出了一种基于中转库模式的流式数据时间序列传输系统,系统包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现一种基于中转库模式的流式数据时间序列传输方法的步骤。
综上所述,本发明实施例通过对日志流式数据进行初始聚类并进行异常离散数据分析,获得多个包含数据区间且用于存储初始聚类簇的存储服务器和用于存储异常离散数据的特殊数据存储服务器。利用实时日志流式数据与数据库中的日志流式数据的匹配差异判断是否进行更新存储服务器。利用检索服务器的检索式对不同存储服务器进行数据提取并整合,获得调取日志流式数据并传输。本发明实施例通过构建由检索服务器、多个存储服务器、特殊数据存储服务器和备用服务器构成的中转库,实现了对流式数据的完整安全的存储及传输,保证了传输效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于中转库模式的流式数据时间序列传输方法,其特征在于,所述方法包括:
统计存储器内的所有初始日志流式数据,并规范所有所述初始日志流式数据的存储格式,使得所述初始日志流式数据为一个包含多个维度且每个维度为一个特征的多维数据;对所述初始日志流式数据进行预处理,消除维度之间量纲的影响,获得日志流式数据;
获得所述日志流式数据中每个维度的数据与预设标准数据的差异;根据每个维度对应的所述差异对不同所述日志流式数据进行初始聚类,获得多个初始聚类簇;识别出所述初始聚类簇中的异常离散聚类簇,并将所述异常离散聚类簇移入特殊数据存储服务器;所述异常离散聚类簇中的样本数量少且与其他所述初始聚类簇的差异大于预设第一差异阈值;所述异常离散聚类簇的识别方法包括:
获得每个所述初始聚类簇与所有其他所述初始聚类簇的聚类中之间的差异累加和;根据所述初始聚类簇中的样本数量和样本方差获得异常离散判断系数;所述离散判断系数与所述样本数量呈正相关关系,与所述样本方差呈负相关关系;若所述差异累加和大于所述第一差异阈值且所述异常离散判断系数小于预设判断系数阈值,则对应的所述初始聚类簇为所述异常离散聚类簇;
根据剩余所述初始聚类簇的数量和每个所述初始聚类簇中的数据区间构建多个存储服务器并将对应所述初始聚类簇的数据存储进去;每个所述存储服务器对应一个所述数据区间;
将获取的实时日志流式数据经过相同所述预处理后存储至备用存储服务器;将所述实时日志流式数据与所有所述存储服务器中所述初始聚类簇进行匹配,并获得所述实时日志流式数据与最匹配的所述初始聚类簇的聚类中心的匹配差异;若所述匹配差异小于预设第二差异阈值,则将所有所述存储服务器中的数据传输至备用服务器并重新进行聚类,根据重新聚类的结果更新所述存储服务器的数量及对应的所述数据区间;若所述匹配差异不小于所述第二差异阈值,则将所述实时日志流式数据存储至所述特殊数据存储服务器;若所述特殊数据存储服务器中存在预设数量个互相相似数据,则在存储服务器集合中为所述互相相似数据添加一个对应的所述存储服务器并存储;
需要数据调取时,利用检索服务器获得检索式,利用所述检索式提取不同所述存储服务器中的数据并整合,获得调取日志流式数据并传输。
2.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法,其特征在于,所述对所述初始日志流式数据进行预处理包括:
利用关键词检测神经网络处理所述初始日志流式数据,检测出包含预设关键词数据的多个关键维度,将其他维度的数据作为噪声数据进行剔除,将每个所述关键维度的数据量纲统一后进行归一化处理,获得所述日志流式数据。
3.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法,其特征在于,所述根据每个维度对应的所述差异对不同所述日志流式数据进行初始聚类包括:
根据每个维度对应的所述差异将不同所述日志流式数据映射至样本空间中,利用K均值聚类算法对所述样本空间中的样本进行聚类,获得多个所述初始聚类簇。
4.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法,其特征在于,所述获得每个所述初始聚类簇与所有其他所述初始聚类簇的聚类中之间的差异累加和后还包括:
统计所有所述初始聚类簇的所述差异累加和,并将所述差异累加和由小到大排序,获得差异累加和序列,获得所述差异累加和序列中相邻元素之间后一个元素与前一个元素的差值,若所述差值与前一个元素的比值大于等于一,则认为所述前一个元素为分割元素,所述差异累加和序列中所述分割元素以后的所有元素均认为满足所述差异累加和大于所述第一差异阈值的条件。
5.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法,其特征在于,所述根据所述初始聚类簇中的样本数量和样本方差获得异常离散判断系数包括:
根据异常离散判断系数公式获得所述异常离散判断系数,所述异常离散判断系数公式包括:
Figure 860729DEST_PATH_IMAGE001
其中,
Figure 246711DEST_PATH_IMAGE002
为第
Figure 993825DEST_PATH_IMAGE003
个所述初始聚类簇的所述异常离散判断系数,
Figure 654614DEST_PATH_IMAGE004
为第
Figure 672248DEST_PATH_IMAGE003
个所述初始聚类簇的所述样本数量,
Figure 963552DEST_PATH_IMAGE005
为第
Figure 699427DEST_PATH_IMAGE003
个所述初始聚类簇的所述样本方差,
Figure 163907DEST_PATH_IMAGE006
为自然常数。
6.根据权利要求3所述的一种基于中转库模式的流式数据时间序列传输方法,其特征在于,所述将所述实时日志流式数据与所有所述存储服务器中所述初始聚类簇进行匹配包括:
获得所述实时日志流式数据与所有所述初始聚类簇的聚类中心在所述样本空间中的欧氏距离;以最小欧氏距离对应的所述初始聚类簇作为所述实时日志流式数据的最匹配的所述初始聚类簇,以所述最小欧氏距离作为所述匹配差异。
7.一种基于中转库模式的流式数据时间序列传输系统,其特征在于,所述系统包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述方法的步骤。
CN202210646150.4A 2022-06-09 2022-06-09 一种基于中转库模式的流式数据时间序列传输方法及系统 Active CN114722081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210646150.4A CN114722081B (zh) 2022-06-09 2022-06-09 一种基于中转库模式的流式数据时间序列传输方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210646150.4A CN114722081B (zh) 2022-06-09 2022-06-09 一种基于中转库模式的流式数据时间序列传输方法及系统

Publications (2)

Publication Number Publication Date
CN114722081A CN114722081A (zh) 2022-07-08
CN114722081B true CN114722081B (zh) 2022-09-02

Family

ID=82233070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210646150.4A Active CN114722081B (zh) 2022-06-09 2022-06-09 一种基于中转库模式的流式数据时间序列传输方法及系统

Country Status (1)

Country Link
CN (1) CN114722081B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292393B (zh) * 2022-10-10 2023-01-17 宁波高盛电气有限公司 一种用于智慧网关的数据管理系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663065A (zh) * 2012-03-30 2012-09-12 浙江盘石信息技术有限公司 一种广告位异常数据识别和筛选方法
CN102724063A (zh) * 2012-05-11 2012-10-10 北京邮电大学 日志采集服务器及数据包分发、日志聚类方法及网络
CN108108625A (zh) * 2017-12-29 2018-06-01 哈尔滨安天科技股份有限公司 基于格式异构的溢出漏洞检测方法、系统及存储介质
CN109121093A (zh) * 2018-07-12 2019-01-01 福州大学 一种基于被动式WiFi与深度聚类的用户画像构建方法及系统
CN111259985A (zh) * 2020-02-19 2020-06-09 腾讯科技(深圳)有限公司 基于业务安全的分类模型训练方法、装置和存储介质
CN111310843A (zh) * 2020-02-25 2020-06-19 苏州浪潮智能科技有限公司 一种基于K-means的海量流式数据的聚类方法及系统
CN111783875A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111782477A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 异常日志监控方法、装置、计算机设备及存储介质
CN111930821A (zh) * 2020-09-08 2020-11-13 平安国际智慧城市科技股份有限公司 一种一步式数据交换方法、装置、设备及存储介质
WO2021052177A1 (zh) * 2019-09-20 2021-03-25 中兴通讯股份有限公司 日志解析方法、装置、服务器和存储介质
CN112711757A (zh) * 2020-12-23 2021-04-27 光大兴陇信托有限责任公司 一种基于大数据平台的数据安全集中管控方法及系统
CN113704008A (zh) * 2021-03-09 2021-11-26 腾讯科技(深圳)有限公司 一种异常检测方法、问题诊断方法和相关产品
CN114168557A (zh) * 2021-12-06 2022-03-11 广东飞翔云计算有限公司 一种访问日志的处理方法、装置、计算机设备和存储介质
CN114265927A (zh) * 2021-12-21 2022-04-01 中国电信股份有限公司 数据查询方法及装置、存储介质及电子装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344913B (zh) * 2018-10-31 2022-03-08 中国刑事警察学院 一种基于改进MajorClust聚类的网络入侵行为检测方法
JP7207009B2 (ja) * 2019-02-26 2023-01-18 日本電信電話株式会社 異常検知装置、異常検知方法および異常検知プログラム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663065A (zh) * 2012-03-30 2012-09-12 浙江盘石信息技术有限公司 一种广告位异常数据识别和筛选方法
CN102724063A (zh) * 2012-05-11 2012-10-10 北京邮电大学 日志采集服务器及数据包分发、日志聚类方法及网络
CN108108625A (zh) * 2017-12-29 2018-06-01 哈尔滨安天科技股份有限公司 基于格式异构的溢出漏洞检测方法、系统及存储介质
CN109121093A (zh) * 2018-07-12 2019-01-01 福州大学 一种基于被动式WiFi与深度聚类的用户画像构建方法及系统
WO2021052177A1 (zh) * 2019-09-20 2021-03-25 中兴通讯股份有限公司 日志解析方法、装置、服务器和存储介质
CN111259985A (zh) * 2020-02-19 2020-06-09 腾讯科技(深圳)有限公司 基于业务安全的分类模型训练方法、装置和存储介质
CN111310843A (zh) * 2020-02-25 2020-06-19 苏州浪潮智能科技有限公司 一种基于K-means的海量流式数据的聚类方法及系统
CN111783875A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111782477A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 异常日志监控方法、装置、计算机设备及存储介质
CN111930821A (zh) * 2020-09-08 2020-11-13 平安国际智慧城市科技股份有限公司 一种一步式数据交换方法、装置、设备及存储介质
CN112711757A (zh) * 2020-12-23 2021-04-27 光大兴陇信托有限责任公司 一种基于大数据平台的数据安全集中管控方法及系统
CN113704008A (zh) * 2021-03-09 2021-11-26 腾讯科技(深圳)有限公司 一种异常检测方法、问题诊断方法和相关产品
CN114168557A (zh) * 2021-12-06 2022-03-11 广东飞翔云计算有限公司 一种访问日志的处理方法、装置、计算机设备和存储介质
CN114265927A (zh) * 2021-12-21 2022-04-01 中国电信股份有限公司 数据查询方法及装置、存储介质及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种大规模流式数据聚类方法在交通热点分析中的应用;牟向伟等;《科学技术与工程》;20170528(第15期);第260-264页 *

Also Published As

Publication number Publication date
CN114722081A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
US7089250B2 (en) Method and system for associating events
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
US20110078106A1 (en) Method and system for it resources performance analysis
WO2004053659A2 (en) Method and system for analyzing data and creating predictive models
CN105518656A (zh) 用于多传感器数据融合的认知神经语言学行为辨识系统
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
US5802254A (en) Data analysis apparatus
CN112491872A (zh) 一种基于设备画像的异常网络访问行为检测方法和系统
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
CN112800061B (zh) 一种数据存储方法、装置、服务器及存储介质
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN111427974A (zh) 数据质量评估管理方法和装置
CN114722081B (zh) 一种基于中转库模式的流式数据时间序列传输方法及系统
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN115174231A (zh) 一种基于AI Knowledge Base的网络欺诈分析方法及服务器
Egri et al. Cross-correlation based clustering and dimension reduction of multivariate time series
CN113901037A (zh) 数据管理方法、装置及存储介质
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
CN113393169B (zh) 基于大数据技术的金融行业交易系统性能指标分析方法
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质
CN115409104A (zh) 用于识别对象类型的方法、装置、设备、介质和程序产品
CN114066636A (zh) 一种基于大数据的金融信息系统与操作方法
CN112860652B (zh) 作业状态预测方法、装置和电子设备
Kılıç et al. Data mining and statistics in data science
CN114661779A (zh) 特定人员的计算和分析方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant