CN117034315A - 数据检测方法、装置、电子设备及可读存储介质 - Google Patents

数据检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN117034315A
CN117034315A CN202311002135.7A CN202311002135A CN117034315A CN 117034315 A CN117034315 A CN 117034315A CN 202311002135 A CN202311002135 A CN 202311002135A CN 117034315 A CN117034315 A CN 117034315A
Authority
CN
China
Prior art keywords
data
detected
feature
index
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311002135.7A
Other languages
English (en)
Inventor
林育民
余燕
邓巧华
代维
黄路光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
River Security Inc
Original Assignee
River Security Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by River Security Inc filed Critical River Security Inc
Priority to CN202311002135.7A priority Critical patent/CN117034315A/zh
Publication of CN117034315A publication Critical patent/CN117034315A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据检测方法、装置、电子设备及可读存储介质,涉及计算机技术领域,具体涉及网络安全、深度学习等技术领域。具体实现方案为:利用数据库中的数据内容,构造待检测数据;对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标;基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。通过采用专家知识,并结合机器学习和大模型优势实现对数据库中被各种恶意加密的数据内容进行准确检测,从而能够有效提升数据检测的效率和可靠性。

Description

数据检测方法、装置、电子设备及可读存储介质
技术领域
涉及计算机技术领域,具体涉及网络安全、深度学习等技术领域。
背景技术
随着网络勒索的不断增加,数据作为企业最重要的资产,常常被恶意者利用从而实施恶心行为,例如,索取金钱等。数据库作为用户最重要的数据资产之一,在恶意攻击者的攻击过程中经常被恶意加密,加密后的数据库将会严重影响企业的正常运营和管理。而准确快速地检测数据库中的加密数据,能帮助企业快速启动应急管理,恢复数据库并检测系统漏洞,防止系统遭受进一步攻击,减少攻击带来的损失,确保系统安全和业务正常运营。
发明内容
本公开提供了一种数据检测方法、装置、电子设备及可读存储介质。
根据本公开的一方面,提供了一种数据检测方法,包括:
利用数据库中的数据内容,构造待检测数据;
对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标;
基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。
根据本公开的另一方面,提供了一种数据检测装置,包括:
数据构造单元,用于利用数据库中的数据内容,构造待检测数据;
特征提取单元,用于对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标;
结果确定单元,用于基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。
根据本公开的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
由上述技术方案可知,本公开实施例通过利用数据库中的数据内容,构造待检测数据,进而对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标,使得能够基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理,由于利用大模型的优势,通过采用机器学习方式实现对数据库中被各种恶意加密的数据内容进行准确检测,从而能够有效提升数据检测的效率和可靠性。
另外,采用本公开所提供的技术方案,通过采用聚类处理的方式,针对数据库中数据内容的异常加密数据,采用非监督的学习方式,增加新的样本数据,对数据检测模型不断地优化,从而增加了数据检测模型检测的有效性。
另外,采用本公开所提供的技术方案,采用机器学习方式,结合监督算法和非监督算法,在数据库中的数据内容中获取数据特征,构建数据监测模型自动检测数据库中被恶意加密的数据内容,同时根据在实际场景中的待检测数据,采用非监督的学习方式,不断更新完善加密数据类别,优化数据特征,不断提升数据检测模型的模型效果和检测效率。
另外,采用本公开所提供的技术方案,无需人工进行任何操作,就能够快速实现数据库中被各种恶意加密的数据内容的检测,能够有效地提高用户的体验。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是用来实现本公开实施例的数据检测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
勒索病毒,是一种新型电脑病毒,主要以邮件、程序木马、网页挂马的形式进行传播。该病毒性质恶劣、危害极大,一旦感染将给用户带来无法估量的损失。这种病毒利用各种加密算法对文件进行加密,被感染者一般无法解密,必须拿到解密的私钥才有可能破解译。
数据库中的数据内容的加密存在多种加密算法,不同加密算法都有各自的特点。传统的检测方法主要通过规则方式(即检测规则)进行检测,只能针对特定的加密算法进行检测。而要处理多种加密算法则需要大量不同的检测规则进行融合,这样严重影响到检测效率,同时检测规则的维护也相当繁琐和复杂。
因此,亟需提供一种数据检测方法,能够准确快速地检测数据库中的异常加密数据,能帮助企业快速启动应急管理,恢复数据库并检测系统漏洞,防止系统遭受进一步攻击,减少攻击带来的损失,确保系统安全和业务正常运营。
本公开可以提供一种数据检测方法,采用机器学习方式,结合监督算法和非监督算法,在数据库中的数据内容中获取数据特征,构建数据监测模型自动检测数据库中被恶意加密的数据内容(即异常加密数据),同时还可以根据在实际场景中的待检测数据,采用非监督的学习方式,不断更新完善加密数据类别,优化数据特征,不断提升数据检测模型的模型效果和检测效率。
图1是根据本公开第一实施例的示意图,如图1所示。
101、利用数据库中的数据内容,构造待检测数据。
102、对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标。
103、基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。
需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的安全防御处理平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
这样,通过利用数据库中的数据内容,构造待检测数据,进而对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标,使得能够基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理,由于利用大模型的优势,通过采用机器学习方式实现对数据库中被各种恶意加密的数据内容进行准确检测,从而能够有效提升数据检测的效率和可靠性。
本申请中,可以采用监督的学习方式进行数据检测模型的模型训练。样本数据的预处理主要可以包括数据收集和数据处理。
数据收集包括实际场景中存在的加密数据、加密算法构造的加密数据、非监督算法获取的异常加密数据。数据收集中除了直接获取的加密数据外,可以采用多种加密方式对正常数据进行加密处理,对于非监督分类获得的异常加密数据,随机抽取部分数据进行判断,筛选出加密数据。
数据处理主要是样本数据构建方式,数据库存在的加密形式主要是对数据行的加密、数据列的加密和混合方式加密,在构造待检测数据时,数据处理主要包括按照行进行拼接、按照列进行拼接或者随机抽取进行数据拼接。
样本数据的预处理之后为一段字符串的形式,对预处理之后的待检测样本数据进行特征提取,例如,可以采用专家知识,确定所提取的各特征指标。所提取的特征数据中的各特征指标即内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标,详细说明可以如下所示。
本申请中,所构造的样本数据,为一段字符串的形式,特征提取则是在一段需要检测的字符串上进行。所提取的特征数据中的各特征指标即内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标,详细说明可以如下:
可读性指标可以是用于指示字符串内容的理解难易程度和复杂程度高低,可以包括音节数量、易读性指数(Flesch Reading Ease,FRE)、自动可读性指数(AutomatedReadability Index,ARI)等多种可读性相关指标参数。
音节数量,主要统计字符串中音节的个数。
FRE主要是指字符串内容复杂程度的一个指标,计算结果主要分布在0-100的区间,分数越高表示文本内容越简单容易读懂,分数越低则表示文本内容越复杂难理解。其计算公式可以采用如下形式:
其中,total words表示单词的总个数,total sentenses表示句子的总个数,total syllables表示音节的总个数。
ARI主要是指判定文本被理解的难易程度指标,计算结果如果不是整数进行向上取整,例如,计算结果为10.1或者10.6都会向上取整转化为11,分数越高代表文本内容越难理解,分数越低代表文本内容越容易理解。其计算公式可以采用如下形式:
其中,characters表示字符和数字的个数,words表示单词的个数、sentence表示句子的个数。
混淆指标可以是用于指示字符串中字符随机分布情况和混淆情况,可以是对字符串中字符随机分布情况的度量和混淆情况的量化,可以包括字符信息熵、信息熵方差等指标参数。信息熵是用来衡量内容随机性即不确定性,文本内容越是随机则文本内容的信息熵值越大,通过信息熵值来量化字符串中文本内容的无序性。具体可以对字符串中每个字符进行统计,计算每个字符出现的概率值,从而计算出文本内容的信息熵值,其计算公式可以采用如下形式:
其中,H(x)表示文本内容的信息熵值,P(xi)表示每个字符出现的概率值。
对于单个字符串的信息熵值计算出整个字符串的信息熵,由于待检测数据中通常存在多个栏位内容,计算每个栏位的信息熵值,将所有栏位的信息熵值进行整合,得到不同栏位间字符串的信息熵方差,这样,可以多角度获取样本的混淆指标。
长度指标可以是用于指示字符串中内容的长度特征,包括字符串中单词长度、字符长度、字符串中字符长度是4的倍数的个数等相关指标参数。某些特定加密算法的内容具有比较明显的长度特征。对字符串内容长度为2的N次方的倍数进行统计作为一类长度指标,提取比较规整的加密方式特征,N的取值范围根据实际情况进行设定,可以取一个值,也可同时取多个值,取值范围大致在1到3,这样可以计算多个长度指标。
在文本内容中可能由于加密导致大量较长的文本内容或者长度分布比较均衡的内容,通过计算栏位字符长度方差和栏位中单词的平均长度来分析存在加密的可能性,栏位字符长度方差可以反映不同栏位间字符的分布情况,正常情况下字符长度分布较为分散,如果采用特定加密手段,可能导致不同栏位间字符长度分布较为一致;同时单词的平均长度在正常数据情况下较小且分布比较集中,部分加密情况下单词长度也会出现比较明显的变化。
上述几个相关指标参数,可以先基于每个字段进行计算,然后再根据拼接的各字段中数据内容进行相关统计,得到字符串的特征值。
分布指标可以是用于指示字符串内容中各种不同类别数据的分布特征,可以包括各种特征统计的均值和方差等相关指标参数,例如,字母频率方差、数字频率方差、字节数方差等相关指标参数。针对于不同字段内的数据,由于字段属性的不同,其内容存在有着较大的差别,即不同字段内各种数据的分布比较分散,因此,这里可以采集各种不同数据的统计分布,作为分布指标。
上述几个相关指标参数,可以先基于每个字段进行计算,然后再根据拼接的各字段中数据内容进行相关统计,得到字符串的特征值。
例如,针对每个字段内字母的分布,可以计算字段内字母的频率分布(或者频数分布),然后统计待测数据的字母分布方差。
或者,再例如,针对每个字段内数字的分布,可以计算字段内数字的的频率分布(或者频数分布),然后统计待测数据内数字分布方差。
或者,再例如,除了数字和字母,还有特殊字符。由于数据库中存在不同语言,对于字段内容计算每个字段内的字节数,计算不同字段的字节数均值和方差。
字符指标可以是用于指示字符串中特定内容的出现情况,可以是字符串中特定字符或组合的个数或占比等相关指标参数,可以包括大写字符占比、小写字符占比、元音字符占比、辅音字符占比、数字字符占比、特殊字符(如!、@、#、$等)占比、单词数量、单词数量与长度的比例、全部字母组合的字段占比、全是数字组合的字段占比、汉字占比等。
元音字符占比主要针对英文字母中a、e、i、o、u五个字符的个数在字符串中所有英文字符中的占比,辅音字符占比则是其他英文字母在字符串中所有英文字符中的占比,数字字符占比即0-9这10个数字的个数在字符串中所有字符中的占比统计,汉字占比是每个汉字在字符串中所有字符中的占比,这些都是比较常规的关于基本字符的统计。
特殊字符占比主要针对非字母和数字的相关统计,同时对某些加密方式有针对性的字符统计。针对非字母和数字,和比较常见的比如’+’、’/’、’=’这几种特殊字符,计算这些特殊字符在字符串中所有字符中的占比。针对某些加密中存在的大部分以某些字符结尾的情况比如’=’,计算这种特征字符在字符串中所有字符中的占比。还有计算某些特定字符在字符串中所有字符中的占比,比如换行符、标点符号等特定字符。
基于一些特定组合的统计特征,比如在栏位中是否全是字母或者数字的组合,计算对应组合的栏位数。同时针对字符串中存在的单词组合,对单词数量进行统计。
特征向量指标可以是用于指示字符串内容的语义特征,可以是指通过其他预训练模型将自然语言数据编码成特定长度的向量,其中可采用多种预训练模型进行向量化处理。随着大语言模型(Large Language Model,LLM)的不断发展,模型对于自然语言的理解也在不断增强,采用预训练模型对自然语言进行向量化处理,能很好的提取数据特征,基于微调(fine-tuning)的模型训练也能更好的实现下游任务。
具体地,可以首先对字符串进行分词(token)化处理,例如,可以采用词片(WordPiece)算法、字节对编码(Byte Pair Encoding,BPE)等分词算法,将待检测的字符串进行token化生成序列,然后,再采用预训练模型例如来自转换器(Transformers)模型的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型等,将token序列转化成特定长度的特征向量,该向量每个维度值即为特征值,例如,向量长度即为特征长度作为字符串的特征值,这个特征值可以与前述的其他特征值进行组合,完成后续的检测任务。
经过如上所述的不同特征指标的特征提取之后,可以将所获得的上述不同特征指标进行拼接组合成样本数据完整的特征数据。
针对所提取的特征数据,可以采用监督的学习方式或者非监督的学习方式,进行模型训练,模型训练主要包括特征数据的标准化处理、模型参数和模型结构的选取。
特征数据的标准化处理,可以包含离散化处理和标准化处理。针对于不同的特征数据需要进行一定的预处理,对于某些分布跨度较大的特征数据,可以采用分桶的方式,将特征数据划分为多个区间,将其特征值进行离散化处理;对于一些连续性特征,可以采用标准化的方式,对特征数据进行最大最小值标准化、z分数(z-score)标准化等标准化处理,将其特征值压缩到一个固定范围内。
例如,针对于类似ARI这类具有连续特征计算结果,采用离散化处理,比如计算特征在某个范围值以内,都归并在一个特定值上,进行离散化处理。
或者,再例如,对于连续特征值,将训练数据集中对于特征值进行标准化处理,其处理方式包括最大最小值标准化、z-score标准化。
经过预处理之后,将预处理之后的特征数据作为模型输入开始进行模型训练,可以采用监督的学习方式进行模型训练,采用的模型结构主要可以包括但不限于逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机、极端梯度提升(XGBoost)等传统的机器学习算法结构。对于模型超参数选取,可以采用网络搜索(GridSearch)等自动化调参方法进行模型训练,选择最优的超参数。
根据模型在测试集的效果,评估模型优劣,将评分最高的模型作为最优模型,选择最优训练模型作为最终的数据检测模型,对新的样本数据进行预测,新的样本数据首先需要根据数据预处理方式,从数据库抽取样本数据后拼接成需要检测的字符串数据,并根据模型训练时采用的特征进行特征提取,对于提取的特征数据做对应的标准化处理或者离散化处理,最后将标准化处理或者离散化处理之后的特征数据作为数据检测模型的输入进行预测,预测结果判断该字符串中是否存在加密。
对于非监督的学习方式,数据库中数据内容的拼接处理、特征提取和特征数据处理都与上述监督的学习方式一样,区别在于给定的数据集中是没有标签数据,将样本数据转化成对应的特征数据后,采用非监督的学习方式对特征数据进行挖掘,检测数据中是否存在异常,或者通过聚类的方式,检测数据中是否存在大量异常的类别,然后分析异常加密数据,基于新的特征组合进行新模型评估,检测模型效果,最后将新模型融合到之前的监督学习模型中,不断更新迭代模型,使模型更稳定更准确。
聚类模型可以采用K-均值聚类(K-means)、基于密度的有噪应用中的空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、层次聚类等多种聚类方式。其中,K-means基于对K值的设定,划分成粗细不同粒度的群组,对于某一特定K值中的群组,在各个群组随机选择特定的样本数据,查看样本数据中加密情况,对于存在加密的群组,将数据做为新的加密样本进行模型训练。对于DBSCAN、层次聚类等方式,由于这类聚类模型不用指定类别数量,模型会根据数据特征值进行特定聚类,同时对于数据中存在的异常加密数据,模型会计算出对应的异常分数,判定异常加密数据。除了采用聚类方式获取异常加密数据外,通过孤立森林(iForest)异常检测算法也能获取数据中的异常值,针对于异常加密数据,抽取异常数据查看是否为加密数据,并将异常加密数据做为新的样本数据,进行后续新的模型训练。
对于新的样本数据集,采用随机森林等算法,对各特征值进行重要性判断,通过计算特征重要性,去除一些冗余的特征,测试在不同特征下的模型效果,选择最重要的特征同时不影响模型效果,进行新一轮的模型训练,部署新模型进行预测。
至此,模型训练完成,可以将训练完成的数据检测模型应用在各种实际场景中,对数据库中的数据内容进行预测。
本申请所提供的数据检测方法,可以适应各种不同数据库中各种加密数据的检测,针对数据库中要检测的数据内容,需要构造待检测数据。可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取所述数据库中的数据内容,进而,则可以根据所述数据内容中的字段类型,对所述数据内容中的字段内容进行拼接处理,以获得拼接字符串作为所述待检测数据;其中,不同字段类型的字段内容采用特定标识进行分隔处理。
具体地,具体可以采用特定形式,对所述数据内容中的字段内容进行拼接处理,其中,所述特定形式可以包括但不限于行形式和列形式中的至少一项。
具体来说,构造待检测数据主要是进行数据拼接,采用按行或按列的形式进行拼接处理,拼接主要将需要检测的数据内容组成一个长字符串,对不同字段的内容用特定标识符进行分割,在计算特征时自动忽略相关标识符。
针对字符串数据进行特征提取,获得由一个或者多个特征指标组成的特征数据,所获得的特征数据中的各特征指标可以包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项,详细描述可以参加模型训练部分的相关内容。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以对所述待检测数据进行特征提取,以获得至少一项特征指标,进而,则可以根据所述至少一项特征指标中各特征指标的重要程度,对所述至少一项特征指标进行组合处理,以获得所述特征数据。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以对所述特征数据进行标准化处理或者离散化处理,以获得标准数据,进而,则可以将所述标准数据输入所述数据检测模型,根据所述数据检测模型所输出的检测结果,确定所述待检测数据是否被恶意加密处理。
可选地,在本实施例的一个可能的实现方式中,本申请所提供的数据检测方法还可以进一步对所述特征数据进行聚类处理,以获得至少两个聚类结果,并对各聚类结果进行处理分析,以确定是否存在异常加密数据。或者采用异常检测算法,对所述特征数据进行异常检测处理,以确定是否存在异常加密数据。或者结合上述两种方法,确定是否存在异常加密数据。
若存在异常加密数据,则可以将所述异常加密数据或者所述异常加密数据所属聚类中的全部数据作为新增加的样本数据,以供更新所述数据检测模型。
在对实际真实的数据库中内容数据进行预测中,针对所获得的特征数据进行聚类处理和异常检测处理。其中,聚类处理可以主要采用k-means、DBSCAN和层次聚类等多种聚类方式进行聚类处理,异常检测处理主要采用iForest算法检测特征数据中的异常加密数据,通过聚类处理和异常检测处理,获取异常加密数据和相对异常加密数据所属的类别,通过分析各类别,确定是否存在异常加密数据。
针对k-means聚类方法,根据选取的K值,对特征数据进行聚类,从得到的K类数据中,抽取每个类别中的特征数据,查看特征数据中是否存在加密数据,并将包含新的加密数据的类别数据作为新样本数据。采用DBSCAN和层次聚类等方式,在获取不同聚类数据的同时,可以检测特征数据中的异常加密数据,对于不同聚类中的特征数据确定是否存在异常加密数据,查看异常数据是否为加密数据,如果存在,则可以增加新的加密数据作为新样本数据进行模型更新训练。
除了聚类算法中采用的异常检测处理,还可以采用iForest等异常检测算法,对特征数据进行异常检测处理,查看异常数据,以检测异常数据中存在的新加密数据。
本实施例中,通过利用数据库中的数据内容,构造待检测数据,进而对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标,使得能够基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理,由于利用大模型的优势,通过采用机器学习方式实现对数据库中被各种恶意加密的数据内容进行准确检测,从而能够有效提升数据检测的效率和可靠性。
另外,采用本公开所提供的技术方案,通过采用聚类处理的方式,针对数据库中数据内容的异常加密数据,采用非监督的学习方式,增加新的样本数据,对数据检测模型不断地优化,从而增加了数据检测模型检测的有效性。
另外,采用本公开所提供的技术方案,采用机器学习方式,结合监督算法和非监督算法,在数据库中的数据内容中获取数据特征,构建数据监测模型自动检测数据库中被恶意加密的数据内容,同时根据在实际场景中的待检测数据,采用非监督的学习方式,不断更新完善加密数据类别,优化数据特征,不断提升数据检测模型的模型效果和检测效率。
另外,采用本公开所提供的技术方案,无需人工进行任何操作,就能够快速实现数据库中被各种恶意加密的数据内容的检测,能够有效地提高用户的体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2是根据本公开第二实施例的示意图,如图2所示。本实施例的数据检测装置200可以包括数据构造单元201、特征提取单元202和结果确定单元203。其中,数据构造单元201,用于利用数据库中的数据内容,构造待检测数据;特征提取单元202,用于对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标;结果确定单元203,用于基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。
需要说明的是,本实施例的数据检测装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,例如,网络侧的安全防御处理平台中的处理引擎或者分布式系统等,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在本地终端上的本地程序(nativeApp),或者还可以是本地终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述数据构造单元201,具体可以用于获取所述数据库中的数据内容;以及根据所述数据内容中的字段类型,对所述数据内容中的字段内容进行拼接处理,以获得拼接字符串作为所述待检测数据;其中,不同字段类型的字段内容采用特定标识进行分隔处理。
具体地,所述数据构造单元201,具体可以用于采用特定形式,对所述数据内容中的字段内容进行拼接处理;其中,所述特定形式包括行形式和列形式中的至少一项。
可选地,在本实施例的一个可能的实现方式中,所述特征提取单元202,具体可以用于对所述待检测数据进行特征提取,以获得至少一项特征指标;以及根据所述至少一项特征指标中各特征指标的重要程度,对所述至少一项特征指标进行组合处理,以获得所述特征数据。
可选地,在本实施例的一个可能的实现方式中,所述结果确定单元203,具体可以用于对所述特征数据进行标准化处理或者离散化处理,以获得标准数据;以及将所述标准数据输入所述数据检测模型,根据所述数据检测模型所输出的检测结果,确定所述待检测数据是否被恶意加密处理。
可选地,在本实施例的一个可能的实现方式中,所述结果确定单元203,还可以进一步用于对所述特征数据进行聚类处理,以获得多个聚类结果,并对各聚类结果进行处理分析,以确定是否存在异常加密数据;和/或,采用异常检测算法,对所述特征数据进行异常检测处理,以确定是否存在异常加密数据;以及若存在异常加密数据,将所述异常加密数据或者所述异常加密数据所属聚类中的全部数据作为新增加的样本数据,以供更新所述数据检测模型。
本实施例中,通过数据构造单元利用数据库中的数据内容,构造待检测数据,进而由特征提取单元对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标,使得结果确定单元能够基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理,由于利用大模型的优势,通过采用机器学习方式实现对数据库中被各种恶意加密的数据内容进行准确检测,从而能够有效提升数据检测的效率和可靠性。
另外,采用本公开所提供的技术方案,通过采用聚类处理的方式,针对数据库中数据内容的异常加密数据,采用非监督的学习方式,增加新的样本数据,对数据检测模型不断地优化,从而增加了数据检测模型检测的有效性。
另外,采用本公开所提供的技术方案,采用机器学习方式,结合监督算法和非监督算法,在数据库中的数据内容中获取数据特征,构建数据监测模型自动检测数据库中被恶意加密的数据内容,同时根据在实际场景中的待检测数据,采用非监督的学习方式,不断更新完善加密数据类别,优化数据特征,不断提升数据检测模型的模型效果和检测效率。
另外,采用本公开所提供的技术方案,无需人工进行任何操作,就能够快速实现数据库中被各种恶意加密的数据内容的检测,能够有效地提高用户的体验。
图3示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图3所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储电子设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
电子设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理,例如数据检测方法。例如,在一些实施例中,数据检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。当计算机程序加载到RAM 303并由计算单元301执行时,可以执行上文描述的数据检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种数据检测方法,其特征在于,包括:
利用数据库中的数据内容,构造待检测数据;
对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标;
基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。
2.根据权利要求1所述的方法,其特征在于,所述利用数据库中的数据内容,构造待检测数据,包括:
获取所述数据库中的数据内容;
根据所述数据内容中的字段类型,对所述数据内容中的字段内容进行拼接处理,以获得拼接字符串作为所述待检测数据;其中,
不同字段类型的字段内容采用特定标识进行分隔处理。
3.根据权利要求2所述的方法,其特征在于,所述对所述数据内容中的字段内容进行拼接处理,包括:
采用特定形式,对所述数据内容中的字段内容进行拼接处理;其中,
所述特定形式包括行形式和列形式中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述对所述待检测数据进行特征提取,以获得特征数据,包括:
对所述待检测数据进行特征提取,以获得至少一项特征指标;
根据所述至少一项特征指标中各特征指标的重要程度,对所述至少一项特征指标进行组合处理,以获得所述特征数据。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,包括:
对所述特征数据进行标准化处理或者离散化处理,以获得标准数据;
将所述标准数据输入所述数据检测模型,根据所述数据检测模型所输出的检测结果,确定所述待检测数据是否被恶意加密处理。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
对所述特征数据进行聚类处理,以获得多个聚类结果,并对各聚类结果进行处理分析,以确定是否存在异常加密数据;和/或,采用异常检测算法,对所述特征数据进行异常检测处理,以确定是否存在异常加密数据;
若存在异常加密数据,将所述异常加密数据或者所述异常加密数据所属聚类中的全部数据作为新增加的样本数据,以供更新所述数据检测模型。
7.一种数据检测装置,其特征在于,包括:
数据构造单元,用于利用数据库中的数据内容,构造待检测数据;
特征提取单元,用于对所述待检测数据进行特征提取,以获得特征数据,所述特征数据包括内容可读性指标、混淆指标、长度指标、分布指标、字符指标和特征向量指标中的至少一项特征指标;
结果确定单元,用于基于所述特征数据,利用预先训练的数据检测模型,输出所述待检测数据的检测结果,以确定所述待检测数据是否被恶意加密处理。
8.根据权利要求7所述的装置,其特征在于,所述数据构造单元,具体用于
获取所述数据库中的数据内容;以及
根据所述数据内容中的字段类型,对所述数据内容中的字段内容进行拼接处理,以获得拼接字符串作为所述待检测数据;其中,
不同字段类型的字段内容采用特定标识进行分隔处理。
9.根据权利要求8所述的装置,其特征在于,所述数据构造单元,具体用于
采用特定形式,对所述数据内容中的字段内容进行拼接处理;其中,
所述特定形式包括行形式和列形式中的至少一项。
10.根据权利要求7所述的装置,其特征在于,所述特征提取单元,具体用于
对所述待检测数据进行特征提取,以获得至少一项特征指标;以及
根据所述至少一项特征指标中各特征指标的重要程度,对所述至少一项特征指标进行组合处理,以获得所述特征数据。
11.根据权利要求7所述的装置,其特征在于,所述结果确定单元,具体用于
对所述特征数据进行标准化处理或者离散化处理,以获得标准数据;以及
将所述标准数据输入所述数据检测模型,根据所述数据检测模型所输出的检测结果,确定所述待检测数据是否被恶意加密处理。
12.根据权利要求7-11中任一项所述的装置,其特征在于,所述结果确定单元,还用于
对所述特征数据进行聚类处理,以获得多个聚类结果,并对各聚类结果进行处理分析,以确定是否存在异常加密数据;和/或,采用异常检测算法,对所述特征数据进行异常检测处理,以确定是否存在异常加密数据;以及
若存在异常加密数据,将所述异常加密数据或者所述异常加密数据所属聚类中的全部数据作为新增加的样本数据,以供更新所述数据检测模型。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
CN202311002135.7A 2023-08-09 2023-08-09 数据检测方法、装置、电子设备及可读存储介质 Pending CN117034315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311002135.7A CN117034315A (zh) 2023-08-09 2023-08-09 数据检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311002135.7A CN117034315A (zh) 2023-08-09 2023-08-09 数据检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117034315A true CN117034315A (zh) 2023-11-10

Family

ID=88623933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311002135.7A Pending CN117034315A (zh) 2023-08-09 2023-08-09 数据检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117034315A (zh)

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
KR101752251B1 (ko) 파일 식별 방법 및 장치
US20220279045A1 (en) Global iterative clustering algorithm to model entities' behaviors and detect anomalies
CN113360580A (zh) 基于知识图谱的异常事件检测方法、装置、设备及介质
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN115146282A (zh) 基于ast的源代码异常检测方法及其装置
CN113221104A (zh) 用户异常行为的检测方法及用户行为重构模型的训练方法
CN114328106A (zh) 日志数据处理方法、装置、设备及存储介质
CN115913710A (zh) 异常检测方法、装置、设备及存储介质
CN114692778B (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN114553591A (zh) 随机森林模型的训练方法、异常流量检测方法及装置
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
US20230052623A1 (en) Word mining method and apparatus, electronic device and readable storage medium
WO2023011093A1 (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
CN108021595A (zh) 检验知识库三元组的方法及装置
CN115589339A (zh) 网络攻击类型识别方法、装置、设备以及存储介质
CN114722389A (zh) Webshell文件的检测方法、装置、电子设备及可读存储介质
CN117034315A (zh) 数据检测方法、装置、电子设备及可读存储介质
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN114492364A (zh) 相同漏洞的判断方法、装置、设备和存储介质
CN113869904A (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN116226673B (zh) 缓冲区漏洞识别模型的训练方法、漏洞检测方法及装置
CN116305171B (zh) 一种组件漏洞分析方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination