CN114647636B - 大数据异常检测方法及系统 - Google Patents

大数据异常检测方法及系统 Download PDF

Info

Publication number
CN114647636B
CN114647636B CN202210517709.3A CN202210517709A CN114647636B CN 114647636 B CN114647636 B CN 114647636B CN 202210517709 A CN202210517709 A CN 202210517709A CN 114647636 B CN114647636 B CN 114647636B
Authority
CN
China
Prior art keywords
data table
query request
historical data
output
request instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210517709.3A
Other languages
English (en)
Other versions
CN114647636A (zh
Inventor
毛倜
鲁裕
贝立瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202210517709.3A priority Critical patent/CN114647636B/zh
Publication of CN114647636A publication Critical patent/CN114647636A/zh
Application granted granted Critical
Publication of CN114647636B publication Critical patent/CN114647636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的大数据异常检测方法及系统,涉及大数据技术领域。在本发明中,在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,查询异常识别结果用于表征数据表查询请求指令对应的查询请求的异常程度。基于上述方法,可以改善现有技术中异常检测的可靠度不高的问题。

Description

大数据异常检测方法及系统
技术领域
本发明涉及大数据技术领域,具体而言,涉及大数据异常检测方法及系统。
背景技术
在大数据技术领域中,对于存在的海量的数据,保障其数据安全是尤为重要的一个环节,例如,可以在接收到用于对数据进行查询的指令时,对指令进行分析以确定是否属于异常查询或确定异常查询的程度。但是,在现有技术中,一般仅依靠指令中携带的设备信息或者密码进行验证,使得存在对于异常检测的可靠度不高的问题。
发明内容
有鉴于此,本发明的目的在于提供大数据异常检测方法及系统,以改善现有技术中异常检测的可靠度不高的问题。
为实现上述目的,本发明实施例采用如下技术方案:
一种大数据异常检测方法,包括:
在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表;
依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令;
依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
在一些优选的实施例中,在上述大数据异常检测方法中,所述在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表的步骤,包括:
在接收到任意一条数据表查询请求指令的状态下,对所述数据表查询请求指令进行解析处理,以输出对应的指令解析结果;
在所述指令解析结果表征所述数据表查询请求指令中携带有查询对象的数据标识信息时,依据所述数据标识信息确定出对应的目标数据表;
在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象额数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表。
在一些优选的实施例中,在上述大数据异常检测方法中,所述在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象额数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表的步骤,包括:
在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的数据标识信息时,对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息;
从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表。
在一些优选的实施例中,在上述大数据异常检测方法中,所述从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表的步骤,包括:
对于存储的多个数据表中的每一个数据表,对该数据表与所述数据表描述信息进行匹配度计算处理,以输出该数据表对应的数据匹配度;
从所述多个数据表中的每一个数据表对应的数据匹配度中,提取出具有最大值的数据匹配度,再将所述具有最大值的数据匹配度标记为目标数据匹配度,再将所述目标数据匹配度对应的数据表标记为所述数据表查询请求指令对应的目标数据表。
在一些优选的实施例中,在上述大数据异常检测方法中,所述依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:
查找到在历史上对所述目标数据表进行查询形成的查询记录日志;
对所述查询记录日志进行解析处理,以输出在历史上对所述目标数据表进行查询的每一条原始历史数据表查询请求指令;
在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
在一些优选的实施例中,在上述大数据异常检测方法中,所述在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:
在查询到多条原始历史数据表查询请求指令的状态下,对于所述多条原始历史数据表查询请求指令中的每一条原始历史数据表查询请求指令,对该原始历史数据表查询请求指令进行查询时间确定处理,以输出该原始历史数据表查询请求指令对应的历史查询时间,再对该原始历史数据表查询请求指令进行查询标签确定处理,以输出该原始历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的原始历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据每一条所述原始历史数据表查询请求指令对应的历史查询时间,对所述多条原始历史数据表查询请求指令进行排序处理,以输出所述多条原始历史数据表查询请求指令对应的历史请求指令排序序列,所述历史请求指令排序序列中的原始历史数据表查询请求指令依据对应的历史查询时间从晚到早的先后顺序进行排序;
依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
在一些优选的实施例中,在上述大数据异常检测方法中,所述依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:
依次对所述历史请求指令排序序列中的每一条原始历史数据表查询请求指令进行遍历,直到满足以下条件停止进行遍历,再将已经遍历到的每一条原始历史数据表查询请求指令标记为历史数据表查询请求指令:
已经遍历到的原始历史数据表查询请求指令的总数量大于预设数量;
已经遍历到的原始历史数据表查询请求指令中第一原始历史数据表查询请求指令的总数量大于或等于目标数量,所述第一原始历史数据表查询请求指令对应的查询标签信息表征该第一原始历史数据表查询请求指令对应的查询请求属于异常查询;
以及遍历到的原始历史数据表查询请求指令中第二原始历史数据表查询请求指令的总数量大于或等于预设数量阈值,所述第二原始历史数据表查询请求指令对应的查询标签信息表征该第二原始历史数据表查询请求指令对应的查询请求不属于异常查询,所述预设数量阈值大于所述目标数量。
在一些优选的实施例中,在上述大数据异常检测方法中,所述依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果的步骤,包括:
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度;
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令进行查询标签确定处理,以输出该历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令对应的指令关联度和对应的查询标签信息,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
在一些优选的实施例中,在上述大数据异常检测方法中,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,包括:
对所述数据表查询请求指令进行内容识别处理,以输出对应的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出对应的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出对应的第二分词集合;
对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词集合,再依据所述第一分词集合中所述第一关键词集合以外的第一分词词语进行集合构建处理,以输出对应的第一非关键词集合;
对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词集合,再依据所述第二分词集合中所述第二关键词集合以外的第二分词词语进行集合构建处理,以输出对应的第二非关键词集合;
对于所述第一关键词集合中的每两个相邻的第一关键词语,从所述数据表描述信息中确定出该两个相邻的第一关键词语之间的间隔字数,以输出该两个相邻的第一关键词语之间的第一关键间隔字数,对于所述第一非关键词集合中的每两个相邻的第一非关键词语,从所述数据表描述信息中确定出该两个相邻的第一非关键词语之间的间隔字数,以输出该两个相邻的第一非关键词语之间的第一非关键间隔字数;
对于所述第二关键词集合中的每两个相邻的第二关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二关键词语之间的间隔字数,以输出该两个相邻的第二关键词语之间的第二关键间隔字数,对于所述第二非关键词集合中的每两个相邻的第二非关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二非关键词语之间的间隔字数,以输出该两个相邻的第二非关键词语之间的第二非关键间隔字数;
依据每两个相邻的第一关键词语之间的第一关键间隔字数,对所述第一关键词集合包括的多个第一关键词语进行分组处理,以输出对应的至少两个第一关键词组合,每两个第一关键词组合之间关于包括的相邻的第一关键词语之间的第一关键间隔字数的平均值之间的差值,小于或等于预先配置的第一字数阈值;依据每两个相邻的第二关键词语之间的第二关键间隔字数,对所述第二关键词集合包括的多个第二关键词语进行分组处理,以输出对应的至少两个第二关键词组合,每两个第二关键词组合之间关于包括的相邻的第二关键词语之间的第二关键间隔字数的平均值之间的差值,小于或等于所述第一字数阈值;
依据每两个相邻的第一非关键词语之间的第一非关键间隔字数,对所述第一非关键词集合包括的多个第一非关键词语进行分组处理,以输出对应的至少两个第一非关键词组合,每两个第一非关键词组合之间关于包括的相邻的第一非关键词语之间的第一非关键间隔字数的平均值之间的差值,小于或等于预先配置的第二字数阈值;依据每两个相邻的第二非关键词语之间的第二非关键间隔字数,对所述第二非关键词集合包括的多个第二非关键词语进行分组处理,以输出对应的至少两个第二非关键词组合,每两个第二非关键词组合之间关于包括的相邻的第二非关键词语之间的第二非关键间隔字数的平均值之间的差值,小于或等于所述第二字数阈值;
对于每一个所述第一关键词组合,分别对该第一关键词组合和每一个所述第二关键词组合进行关键词重合度计算处理,以输出该第一关键词组合对应的每一个关键词重合度,再从该第一关键词组合对应的每一个关键词重合度中,提取出具有最大值的关键词重合度作为对应的目标关键词重合度,再融合每一个所述第一关键词组合对应的目标关键词重合度,以输出第一关联度;对于每一个所述第一非关键词组合,分别对该第一非关键词组合和每一个所述第二非关键词组合进行关键词重合度计算处理,以输出该第一非关键词组合对应的每一个非关键词重合度,再从该第一非关键词组合对应的每一个非关键词重合度中,提取出具有最大值的非关键词重合度作为对应的目标非关键词重合度,再融合每一个所述第一非关键词组合对应的目标非关键词重合度,以输出对应的第二关联度;
依据所述第一关联度和所述第二关联度进行加权求和计算,以输出所述数据表查询请求指令和所述历史数据表查询请求指令之间的指令关联度,所述第一关联度对应的加权系数大于所述第二关联度对应的加权系数。
本发明实施例还提供一种大数据异常检测系统,包括:
查询对象确定模块,用于在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表;
请求指令确定模块,用于依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令;
查询异常识别模块,用于依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
本发明实施例提供的大数据异常检测方法及系统,可以在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。然后,依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。最后,依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。通过在进行查询异常识别处理时,参考查询的目标数据表对应的多条历史数据表查询请求指令,识别依据更充分,从而改善现有技术中异常检测的可靠度不高的问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的大数据管理服务器的结构框图。
图2为本发明实施例提供的大数据异常检测方法包括的各步骤的流程示意图。
图3为本发明实施例提供的大数据异常检测系统的模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明实施例提供了一种大数据管理服务器。其中,所述大数据管理服务器可以包括存储器和处理器。
详细地,在一些实施方式中,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本发明实施例提供的大数据异常检测方法。
详细地,在一些实施方式中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。所述处理器可以是一种通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、片上系统(System on Chip,SoC)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
参照图2,本发明实施例还提供一种大数据异常检测方法,可应用于上述大数据管理服务器。其中,所述大数据异常检测方法有关的流程所定义的方法步骤,可以由所述大数据管理服务器实现。
下面将对图2所示的具体流程,进行详细阐述。
步骤S110,在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。
在本发明实施例中,所述大数据管理服务器可以执行步骤S110,即在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。
步骤S120,依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令。
在本发明实施例中,所述大数据管理服务器可以执行步骤S120,即依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令。
步骤S130,依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
在本发明实施例中,所述大数据管理服务器可以执行步骤S130,即依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
基于上述的大数据异常检测方法,可以在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。然后,依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。最后,依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。通过在进行查询异常识别处理时,参考查询的目标数据表对应的多条历史数据表查询请求指令,识别依据更充分,从而改善现有技术中异常检测的可靠度不高的问题。
详细地,在一些实施方式中,步骤S110可以进一步包括以下的各步骤:
在接收到任意一条数据表查询请求指令的状态下,对所述数据表查询请求指令进行解析处理,以输出对应的指令解析结果;
在所述指令解析结果表征所述数据表查询请求指令中携带有查询对象的数据标识信息时,依据所述数据标识信息确定出对应的目标数据表;
在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的 数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表。
详细地,在一些实施方式中,所述在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的 数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表的步骤,可以进一步包括以下的各步骤:
在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的数据标识信息时,对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息;
从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表。
详细地,在一些实施方式中,所述从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表的步骤,可以进一步包括以下的各步骤:
对于存储的多个数据表中的每一个数据表,对该数据表与所述数据表描述信息进行匹配度计算处理(例如,可以参考现有技术中关于文本相似度的计算方式),以输出该数据表对应的数据匹配度;
从所述多个数据表中的每一个数据表对应的数据匹配度中,提取出具有最大值的数据匹配度,再将所述具有最大值的数据匹配度标记为目标数据匹配度,再将所述目标数据匹配度对应的数据表标记为所述数据表查询请求指令对应的目标数据表。
详细地,在一些实施方式中,步骤S120可以进一步包括以下的各步骤:
查找到在历史上对所述目标数据表进行查询形成的查询记录日志;
对所述查询记录日志进行解析处理,以输出在历史上对所述目标数据表进行查询的每一条原始历史数据表查询请求指令;
在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
详细地,在一些实施方式中,所述在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,可以进一步包括以下的各步骤:
在查询到多条原始历史数据表查询请求指令的状态下,对于所述多条原始历史数据表查询请求指令中的每一条原始历史数据表查询请求指令,对该原始历史数据表查询请求指令进行查询时间确定处理,以输出该原始历史数据表查询请求指令对应的历史查询时间,再对该原始历史数据表查询请求指令进行查询标签确定处理,以输出该原始历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的原始历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据每一条所述原始历史数据表查询请求指令对应的历史查询时间,对所述多条原始历史数据表查询请求指令进行排序处理,以输出所述多条原始历史数据表查询请求指令对应的历史请求指令排序序列,所述历史请求指令排序序列中的原始历史数据表查询请求指令依据对应的历史查询时间从晚到早的先后顺序进行排序;
依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
详细地,在一些实施方式中,所述依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,可以进一步包括以下的各步骤:
依次对所述历史请求指令排序序列中的每一条原始历史数据表查询请求指令进行遍历,直到满足以下条件停止进行遍历,再将已经遍历到的每一条原始历史数据表查询请求指令标记为历史数据表查询请求指令:
已经遍历到的原始历史数据表查询请求指令的总数量大于预设数量;
已经遍历到的原始历史数据表查询请求指令中第一原始历史数据表查询请求指令的总数量大于或等于目标数量,所述第一原始历史数据表查询请求指令对应的查询标签信息表征该第一原始历史数据表查询请求指令对应的查询请求属于异常查询;
以及遍历到的原始历史数据表查询请求指令中第二原始历史数据表查询请求指令的总数量大于或等于预设数量阈值,所述第二原始历史数据表查询请求指令对应的查询标签信息表征该第二原始历史数据表查询请求指令对应的查询请求不属于异常查询,所述预设数量阈值大于所述目标数量。
详细地,在一些实施方式中,步骤S130可以进一步包括以下的各步骤:
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度;
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令进行查询标签确定处理,以输出该历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令对应的指令关联度和对应的查询标签信息(例如,在一种实施方式中,可以先确定出指令关联度大于预设阈值的每一条历史数据表查询请求指令,再从该历史数据表查询请求指令中确定出对应的查询标签信息表征存在异常的历史数据表查询请求指令的数量占比,再依据该数量占比输出对应的查询异常识别结果,所述查询异常识别结果表征的异常程度与该数量占比之间具有正相关的关系),对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
详细地,在一些实施方式中,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,可以进一步包括以下的各步骤:
对所述数据表查询请求指令进行内容识别处理,以输出对应的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出对应的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出对应的第二分词集合;
对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词集合,再依据所述第一分词集合中所述第一关键词集合以外的第一分词词语进行集合构建处理,以输出对应的第一非关键词集合;
对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词集合,再依据所述第二分词集合中所述第二关键词集合以外的第二分词词语进行集合构建处理,以输出对应的第二非关键词集合;
对于所述第一关键词集合中的每两个相邻的第一关键词语,从所述数据表描述信息中确定出该两个相邻的第一关键词语之间的间隔字数,以输出该两个相邻的第一关键词语之间的第一关键间隔字数,对于所述第一非关键词集合中的每两个相邻的第一非关键词语,从所述数据表描述信息中确定出该两个相邻的第一非关键词语之间的间隔字数(经研究发现,间隔字数可以在一定程度上表征描述习惯,从而确定出两次不同的描述是否来自同一用户,即通过不同描述之间的相似度确定出对应的关联度),以输出该两个相邻的第一非关键词语之间的第一非关键间隔字数;
对于所述第二关键词集合中的每两个相邻的第二关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二关键词语之间的间隔字数,以输出该两个相邻的第二关键词语之间的第二关键间隔字数,对于所述第二非关键词集合中的每两个相邻的第二非关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二非关键词语之间的间隔字数,以输出该两个相邻的第二非关键词语之间的第二非关键间隔字数;
依据每两个相邻的第一关键词语之间的第一关键间隔字数,对所述第一关键词集合包括的多个第一关键词语进行分组处理,以输出对应的至少两个第一关键词组合,每两个第一关键词组合之间关于包括的相邻的第一关键词语之间的第一关键间隔字数的平均值之间的差值,小于或等于预先配置的第一字数阈值;依据每两个相邻的第二关键词语之间的第二关键间隔字数,对所述第二关键词集合包括的多个第二关键词语进行分组处理,以输出对应的至少两个第二关键词组合,每两个第二关键词组合之间关于包括的相邻的第二关键词语之间的第二关键间隔字数的平均值之间的差值,小于或等于所述第一字数阈值;
依据每两个相邻的第一非关键词语之间的第一非关键间隔字数,对所述第一非关键词集合包括的多个第一非关键词语进行分组处理,以输出对应的至少两个第一非关键词组合,每两个第一非关键词组合之间关于包括的相邻的第一非关键词语之间的第一非关键间隔字数的平均值之间的差值,小于或等于预先配置的第二字数阈值;依据每两个相邻的第二非关键词语之间的第二非关键间隔字数,对所述第二非关键词集合包括的多个第二非关键词语进行分组处理,以输出对应的至少两个第二非关键词组合,每两个第二非关键词组合之间关于包括的相邻的第二非关键词语之间的第二非关键间隔字数的平均值之间的差值,小于或等于所述第二字数阈值;
对于每一个所述第一关键词组合,分别对该第一关键词组合和每一个所述第二关键词组合进行关键词重合度计算处理,以输出该第一关键词组合对应的每一个关键词重合度,再从该第一关键词组合对应的每一个关键词重合度中,提取出具有最大值的关键词重合度作为对应的目标关键词重合度,再融合每一个所述第一关键词组合对应的目标关键词重合度,以输出第一关联度;对于每一个所述第一非关键词组合,分别对该第一非关键词组合和每一个所述第二非关键词组合进行关键词重合度计算处理,以输出该第一非关键词组合对应的每一个非关键词重合度,再从该第一非关键词组合对应的每一个非关键词重合度中,提取出具有最大值的非关键词重合度作为对应的目标非关键词重合度,再融合每一个所述第一非关键词组合对应的目标非关键词重合度(如计算均值或者依据所述第一非关键词组合包括的词语数量进行加权求和计算等),以输出对应的第二关联度;
依据所述第一关联度和所述第二关联度进行加权求和计算,以输出所述数据表查询请求指令和所述历史数据表查询请求指令之间的指令关联度,所述第一关联度对应的加权系数大于所述第二关联度对应的加权系数。
详细地,在另一些实施方式中,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,可以进一步包括以下的各步骤:
对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出所述历史数据表查询请求指令中携带的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出所述数据表描述信息对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出所述历史数据表描述信息对应的第二分词集合;
对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词有序集合,对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词有序集合,对所述第一关键词有序集合和所述第二关键词有序集合进行取交集处理,以输出对应的关键词交集集合;
对于所述关键词交集集合中的每一个关键词语,确定该关键词语分别在所述第一关键词有序集合和所述第二关键词有序集合中的第一集合位置和第二集合位置,再对该第一集合位置和该第二集合位置进行位置距离计算处理,以输出该关键词语对应的位置距离信息,再依据所述关键词交集集合中的每一个关键词语对应的位置距离信息之间的平均值进行相关系数确定处理,以输出负相关的相关系数;
依据所述关键词交集集合中的每一个关键词语在所述第一关键词有序集合中的集合位置,对所述第二关键词有序集合中的第二关键词语的排序进行调整,以输出对应的调整第二关键词有序集合,所述关键词交集集合中的每一个关键词语在所述调整第二关键词有序集合中的先后关系和在所述第一关键词有序集合中的先后关系相同;再依据所述第二关键词有序集合和所述调整第二关键词有序集合之间关于第二关键词语的集合位置的变化关系,对所述历史数据表描述信息中第二关键词语所在的描述语句(分句处理形成)的位置进行调整,以输出对应的调整历史数据表描述信息;
对于所述第一分词集合中的每两个相邻的第一关键词语,对该两个相邻的第一关键词语之间在所述数据表描述信息中的间隔字数进行统计处理,以输出该两个相邻的第一关键词语之间的第一统计字数,对于所述调整第二分词集合中的每两个相邻的第二关键词语,对该两个相邻的第二关键词语之间在所述调整历史数据表描述信息中的间隔字数进行统计处理,以输出该两个相邻的第二关键词语之间的第二统计字数;
依据每两个相邻的第一关键词语之间的第一统计字数进行序列构建处理,以输出对应的第一字数序列,再依据每两个相邻的第二关键词语之间的第二统计字数进行序列构建处理,以输出对应的第二字数序列,再对该第一字数序列和该第二字数序列进行序列相似度计算处理(可以参照现有技术中关于序列相似度的计算方式),以输出对应的序列相似度;
对所述关键词交集集合包括的关键词语的数量进行统计处理,以输出对应的交集数量,再分别对所述第一关键词有序集合和所述第二关键词有序集合中包括的关键词语的数量进行统计处理,以输出对应的第一词语数量和第二词语数量,再依据所述第一词语数量和所述第二词语数量之间的较大值与所述交集数量进行比值计算(例如,可以时后者除以前者,得到对应的数量比值),以输出对应的数量比值;
依据所述相关系数和所述序列相似度和所述数量比值进行加权求和计算(具体的加权系数可以参照实际应用需求进行配置),以输出所述数据表查询请求指令和所述历史数据表查询请求指令之间的指令关联度。
参照图3,本发明实施例还提供一种大数据异常检测系统,可应用于上述大数据管理服务器。其中,所述大数据异常检测系统可以包括查询对象确定模块、请求指令确定模块和查询异常识别模块。
详细地,在一些实施方式中,所述查询对象确定模块,用于在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。所述请求指令确定模块,用于依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令。所述查询异常识别模块,用于依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
综上所述,本发明提供的大数据异常检测方法及系统,可以在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。然后,依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。最后,依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。通过在进行查询异常识别处理时,参考查询的目标数据表对应的多条历史数据表查询请求指令,识别依据更充分,从而改善现有技术中异常检测的可靠度不高的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种大数据异常检测方法,其特征在于,包括:
在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表;
依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令;
依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度;
其中,所述依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果的步骤,包括:
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度;
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令进行查询标签确定处理,以输出该历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令对应的指令关联度和对应的查询标签信息,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
2.如权利要求1所述的大数据异常检测方法,其特征在于,所述在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表的步骤,包括:
在接收到任意一条数据表查询请求指令的状态下,对所述数据表查询请求指令进行解析处理,以输出对应的指令解析结果;
在所述指令解析结果表征所述数据表查询请求指令中携带有查询对象的数据标识信息时,依据所述数据标识信息确定出对应的目标数据表;
在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的 数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表。
3.如权利要求2所述的大数据异常检测方法,其特征在于,所述在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的 数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表的步骤,包括:
在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的数据标识信息时,对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息;
从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表。
4.如权利要求3所述的大数据异常检测方法,其特征在于,所述从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表的步骤,包括:
对于存储的多个数据表中的每一个数据表,对该数据表与所述数据表描述信息进行匹配度计算处理,以输出该数据表对应的数据匹配度;
从所述多个数据表中的每一个数据表对应的数据匹配度中,提取出具有最大值的数据匹配度,再将所述具有最大值的数据匹配度标记为目标数据匹配度,再将所述目标数据匹配度对应的数据表标记为所述数据表查询请求指令对应的目标数据表。
5.如权利要求1所述的大数据异常检测方法,其特征在于,所述依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:
查找到在历史上对所述目标数据表进行查询形成的查询记录日志;
对所述查询记录日志进行解析处理,以输出在历史上对所述目标数据表进行查询的每一条原始历史数据表查询请求指令;
在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
6.如权利要求5所述的大数据异常检测方法,其特征在于,所述在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:
在查询到多条原始历史数据表查询请求指令的状态下,对于所述多条原始历史数据表查询请求指令中的每一条原始历史数据表查询请求指令,对该原始历史数据表查询请求指令进行查询时间确定处理,以输出该原始历史数据表查询请求指令对应的历史查询时间,再对该原始历史数据表查询请求指令进行查询标签确定处理,以输出该原始历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的原始历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据每一条所述原始历史数据表查询请求指令对应的历史查询时间,对所述多条原始历史数据表查询请求指令进行排序处理,以输出所述多条原始历史数据表查询请求指令对应的历史请求指令排序序列,所述历史请求指令排序序列中的原始历史数据表查询请求指令依据对应的历史查询时间从晚到早的先后顺序进行排序;
依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
7.如权利要求6所述的大数据异常检测方法,其特征在于,所述依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:
依次对所述历史请求指令排序序列中的每一条原始历史数据表查询请求指令进行遍历,直到满足以下条件停止进行遍历,再将已经遍历到的每一条原始历史数据表查询请求指令标记为历史数据表查询请求指令:
已经遍历到的原始历史数据表查询请求指令的总数量大于预设数量;
已经遍历到的原始历史数据表查询请求指令中第一原始历史数据表查询请求指令的总数量大于或等于目标数量,所述第一原始历史数据表查询请求指令对应的查询标签信息表征该第一原始历史数据表查询请求指令对应的查询请求属于异常查询;
以及遍历到的原始历史数据表查询请求指令中第二原始历史数据表查询请求指令的总数量大于或等于预设数量阈值,所述第二原始历史数据表查询请求指令对应的查询标签信息表征该第二原始历史数据表查询请求指令对应的查询请求不属于异常查询,所述预设数量阈值大于所述目标数量。
8.如权利要求1所述的大数据异常检测方法,其特征在于,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,包括:
对所述数据表查询请求指令进行内容识别处理,以输出对应的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出对应的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出对应的第二分词集合;
对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词集合,再依据所述第一分词集合中所述第一关键词集合以外的第一分词词语进行集合构建处理,以输出对应的第一非关键词集合;
对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词集合,再依据所述第二分词集合中所述第二关键词集合以外的第二分词词语进行集合构建处理,以输出对应的第二非关键词集合;
对于所述第一关键词集合中的每两个相邻的第一关键词语,从所述数据表描述信息中确定出该两个相邻的第一关键词语之间的间隔字数,以输出该两个相邻的第一关键词语之间的第一关键间隔字数,对于所述第一非关键词集合中的每两个相邻的第一非关键词语,从所述数据表描述信息中确定出该两个相邻的第一非关键词语之间的间隔字数,以输出该两个相邻的第一非关键词语之间的第一非关键间隔字数;
对于所述第二关键词集合中的每两个相邻的第二关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二关键词语之间的间隔字数,以输出该两个相邻的第二关键词语之间的第二关键间隔字数,对于所述第二非关键词集合中的每两个相邻的第二非关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二非关键词语之间的间隔字数,以输出该两个相邻的第二非关键词语之间的第二非关键间隔字数;
依据每两个相邻的第一关键词语之间的第一关键间隔字数,对所述第一关键词集合包括的多个第一关键词语进行分组处理,以输出对应的至少两个第一关键词组合,每两个第一关键词组合之间关于包括的相邻的第一关键词语之间的第一关键间隔字数的平均值之间的差值,小于或等于预先配置的第一字数阈值;依据每两个相邻的第二关键词语之间的第二关键间隔字数,对所述第二关键词集合包括的多个第二关键词语进行分组处理,以输出对应的至少两个第二关键词组合,每两个第二关键词组合之间关于包括的相邻的第二关键词语之间的第二关键间隔字数的平均值之间的差值,小于或等于所述第一字数阈值;
依据每两个相邻的第一非关键词语之间的第一非关键间隔字数,对所述第一非关键词集合包括的多个第一非关键词语进行分组处理,以输出对应的至少两个第一非关键词组合,每两个第一非关键词组合之间关于包括的相邻的第一非关键词语之间的第一非关键间隔字数的平均值之间的差值,小于或等于预先配置的第二字数阈值;依据每两个相邻的第二非关键词语之间的第二非关键间隔字数,对所述第二非关键词集合包括的多个第二非关键词语进行分组处理,以输出对应的至少两个第二非关键词组合,每两个第二非关键词组合之间关于包括的相邻的第二非关键词语之间的第二非关键间隔字数的平均值之间的差值,小于或等于所述第二字数阈值;
对于每一个所述第一关键词组合,分别对该第一关键词组合和每一个所述第二关键词组合进行关键词重合度计算处理,以输出该第一关键词组合对应的每一个关键词重合度,再从该第一关键词组合对应的每一个关键词重合度中,提取出具有最大值的关键词重合度作为对应的目标关键词重合度,再融合每一个所述第一关键词组合对应的目标关键词重合度,以输出第一关联度;对于每一个所述第一非关键词组合,分别对该第一非关键词组合和每一个所述第二非关键词组合进行关键词重合度计算处理,以输出该第一非关键词组合对应的每一个非关键词重合度,再从该第一非关键词组合对应的每一个非关键词重合度中,提取出具有最大值的非关键词重合度作为对应的目标非关键词重合度,再融合每一个所述第一非关键词组合对应的目标非关键词重合度,以输出对应的第二关联度;
依据所述第一关联度和所述第二关联度进行加权求和计算,以输出所述数据表查询请求指令和所述历史数据表查询请求指令之间的指令关联度,所述第一关联度对应的加权系数大于所述第二关联度对应的加权系数。
9.一种大数据异常检测系统,其特征在于,包括:
查询对象确定模块,用于在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表;
请求指令确定模块,用于依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令;
查询异常识别模块,用于依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度;
其中,所述查询异常识别模块具体用于:
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度;
对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令进行查询标签确定处理,以输出该历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的历史数据表查询请求指令对应的查询请求是否属于异常查询;
依据所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令对应的指令关联度和对应的查询标签信息,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
CN202210517709.3A 2022-05-13 2022-05-13 大数据异常检测方法及系统 Active CN114647636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210517709.3A CN114647636B (zh) 2022-05-13 2022-05-13 大数据异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210517709.3A CN114647636B (zh) 2022-05-13 2022-05-13 大数据异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN114647636A CN114647636A (zh) 2022-06-21
CN114647636B true CN114647636B (zh) 2022-08-12

Family

ID=81997143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210517709.3A Active CN114647636B (zh) 2022-05-13 2022-05-13 大数据异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN114647636B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098548B (zh) * 2022-07-21 2023-01-03 中咨数据有限公司 一种数据决策方法、系统及云平台
CN115617608B (zh) * 2022-10-10 2024-03-29 深圳市泰通新智信息技术有限公司 一种erp协同处理方法及其系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398239A (zh) * 2022-01-18 2022-04-26 平安国际智慧城市科技股份有限公司 日志监控方法、装置、计算机设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699725B (zh) * 2013-12-10 2018-10-09 阿里巴巴集团控股有限公司 数据搜索处理方法及系统
CN107784003B (zh) * 2016-08-26 2021-09-21 菜鸟智能物流控股有限公司 数据查询异常检测方法、装置、设备及系统
US11003641B2 (en) * 2017-09-22 2021-05-11 Microsoft Technology Licensing, Llc Automatic database troubleshooting
US11586972B2 (en) * 2018-11-19 2023-02-21 International Business Machines Corporation Tool-specific alerting rules based on abnormal and normal patterns obtained from history logs
CN109299135B (zh) * 2018-11-26 2024-05-14 平安科技(深圳)有限公司 基于识别模型的异常查询识别方法、识别设备及介质
CN110674014A (zh) * 2019-09-16 2020-01-10 中国银联股份有限公司 一种确定异常查询请求的方法及装置
CN111949857B (zh) * 2020-08-13 2024-06-11 中国民航信息网络股份有限公司 一种航班查询请求的处理方法、装置及电子设备
CN114328159A (zh) * 2020-09-29 2022-04-12 腾讯科技(深圳)有限公司 异常语句的确定方法、装置、设备及计算机可读存储介质
CN113486342A (zh) * 2021-07-07 2021-10-08 李军利 一种基于用户行为分析的信息安全处理方法及系统
CN113535773B (zh) * 2021-07-27 2022-08-12 工银科技有限公司 数据库优化方法、数据库优化装置、电子设备和存储介质
CN113722370A (zh) * 2021-08-30 2021-11-30 康键信息技术(深圳)有限公司 基于指标分析的数据管理方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398239A (zh) * 2022-01-18 2022-04-26 平安国际智慧城市科技股份有限公司 日志监控方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114647636A (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN114647636B (zh) 大数据异常检测方法及系统
US8768914B2 (en) System and method for searching and matching databases
WO2017091985A1 (zh) 停用词识别方法与装置
CN111291070A (zh) 一种异常sql检测方法、设备及介质
CN115188485A (zh) 基于智慧医疗大数据的用户需求分析方法及系统
CN115879017A (zh) 一种电力敏感数据自动化分类分级方法、装置及存储介质
CN109933502A (zh) 电子装置、用户操作记录的处理方法和存储介质
CN114726571A (zh) 一种网络安全预警管理平台和方法
CN116664335B (zh) 基于智能监控的半导体生产系统运行分析方法及系统
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN115098548B (zh) 一种数据决策方法、系统及云平台
CN115203758B (zh) 一种数据安全存储方法、系统及云平台
WO2023093017A1 (zh) 一种Web服务设备的识别方法及装置
CN115484044A (zh) 一种数据状态的监控方法及系统
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN112073360B (zh) 超文本传输数据的检测方法、装置、终端设备及介质
CN113626387A (zh) 一种任务数据的导出方法、装置、电子设备及存储介质
CN114553473A (zh) 一种基于登录ip和登陆时间的异常登陆行为检测系统和方法
CN114625747B (zh) 基于信息安全的风控更新方法及系统
CN115187153B (zh) 应用于业务风险溯源的数据处理方法及系统
CN111258788A (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN115314550B (zh) 基于数字化的智慧医疗信息推送方法及系统
CN111507397A (zh) 一种异常数据的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant