CN114398887A - 一种文本分类方法、装置及电子设备 - Google Patents
一种文本分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114398887A CN114398887A CN202111620184.8A CN202111620184A CN114398887A CN 114398887 A CN114398887 A CN 114398887A CN 202111620184 A CN202111620184 A CN 202111620184A CN 114398887 A CN114398887 A CN 114398887A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- node name
- cluster
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本分类方法、装置及电子设备,涉及网络安全技术领域。本申请中,基于目标文本的目标存储路径信息,以及日志文件中记录的各个历史文本各自对应的历史存储路径信息,在确定目标存储路径信息中,存在至少一个特有节点名称时,分别确定相应特有节点名称各自的字符转移概率所归属的字符转移概率区间,从而完成对目标文本进行文本分类。采用本申请,根据目标存储路径信息中,特有节点名称各自的字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类,提高了文本分类的准确性。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种文本分类方法、装置及电子设备。
背景技术
近年来,随着物联网技术的飞速发展,终端、服务器与物联网实体组成的办公局域网,面临着大量来自外部的攻击以及内部病毒的威胁。为了有效地避免未知威胁带来的破坏,需要预先准确地检测到未知威胁。
目前,网络侧检测使用的现有特征匹配,无法有效地识别未知威胁,且会因特征库中特征数量的增长,需要占用更多的运算资源,以及特征数据存在加密等问题,从而导致难以发现具备超强对抗性的高级持续性威胁(Advanced Persistent Threat,APT)攻击。
可见,如果只使用传统的网络侧检测,一旦网络侧检测未检测到未知威胁,防御系统便会被未知威胁突破。因此,作为有效检测未知威胁的方式之一,终端检测必不可少。
例如,在日常生活中,终端检测通过收集并分析终端日志中出现的相似行为,再根据行为判定恶意性,以此综合性地判断威胁事件,并最终进行威胁的鉴定和识别,比如,识别出恶意样本的家族及攻击组织信息。
然而,采用上述的终端检测,根据终端日志分析,检测出未知威胁,会因终端日志中存在大量的垃圾文本、干扰信息,导致有效信息被淹没,难以及时捕获未知威胁。因此,采用上述方式,会降低终端未知威胁的检出精度以及检测效率。
发明内容
本申请提供一种文本分类方法、装置及电子设备,用以提高文本分类的准确性。
第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
获取业务数据方发送的目标文本,以及记录目标文本的目标存储路径信息;其中,目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称。
获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称;
若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定至少一个特有节点名称各自的字符转移概率;其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的。
基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类。
第二方面,本申请实施例还提供了一种文本分类装置,所述装置包括:
记录模块,用于获取业务数据方发送的目标文本,以及记录目标文本的目标存储路径信息;其中,目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称。
获取模块,用于获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称。
处理模块,用于若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定至少一个特有节点名称各自的字符转移概率;其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的。
分类模块,用于基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类。
一种可选的实施例中,在获取业务数据方发送的目标文本之前:获取至少一个目标簇;其中,每个目标簇是对设定的未知样本集合二次聚类获得的,未知样本集合中包含的各个未知样本是业务数据方发送的。
针对获得的至少一个目标簇,分别执行以下操作:分别确定一个目标簇内包含的各个未知样本各自对应的特征行为,与其他未知样本的特征行为之间的特征相似度,挑选出特征相似度满足预设相似度条件的未知样本,作为候选文本进行保存。
在获取业务数据方发送的目标文本时,获取模块具体用于:
从保存的各个候选文本中,选取一个候选文本作为目标文本。
一种可选的实施例中,在获取至少一个目标簇时,获取模块具体用于:
基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇;其中,每个临时簇是通过对未知样本集合初步聚类得到的。
针对至少一个候选簇,分别执行以下步骤:
若一个候选簇包含的各个未知样本均未关联相应标签,则将一个候选簇作为目标簇。
若一个候选簇包含的各个未知样本关联至少一个标签,则确定至少一个标签对应的标签种类数量,并在确定标签种类数量归属于设定的标签种类数量区间时,将一个候选簇作为目标簇。
一种可选的实施例中,在基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇时,获取模块具体用于:
分别获取各个临时簇各自对应的初始特征行为数量,选取出属于设定特征数量区间的至少一个候选特征行为数量。
对至少一个候选特征行为数量各自对应的临时簇,各自包含的各个未知样本添加标签,并将每个候选特征行为数量对应的临时簇作为一个候选簇。
一种可选的实施例中,在选取出与各个历史节点名称不同的至少一个特有节点名称时,处理模块具体用于:
获取日志文件中的白样本数据集以及黑样本数据集;其中,白样本数据集包括:至少一个正常样本及其各自对应的正常存储路径信息,每个正常存储路径信息包括:至少一个正常路径节点及其各自的历史节点名称,以及黑样本数据集包括:至少一个异常样本及其各自对应的异常存储路径信息,每个异常存储路径信息包括:至少一个异常路径节点及其各自的历史节点名称。
基于至少一个目标节点名称各自对应的黑白样本相似度评估值,从至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称;其中,黑白样本相似度评估值表征:相应目标节点名称同属于黑样本数据集和所述白样本数据集的概率。
一种可选的实施例中,在基于至少一个目标节点名称各自对应的黑白样本相似度评估值,从所述至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称时,处理模块具体用于:
针对至少一个目标节点名称,分别执行以下操作:
基于一个目标节点名称与各个历史节点名称之间的名称相似度,挑选出满足预设第一概率条件的名称相似度作为一个目标节点名称归属于白样本数据集的第一概率,以及挑选出满足预设第二概率条件的名称相似度作为一个目标节点名称归属于黑样本数据集的第二概率。
基于第一概率与第二概率,确定一个目标节点名称的黑白样本相似度评估值。
在确定黑白样本相似度评估值不属于设定的相似度评估值区间时,将一个目标节点名称作为特有节点名称。
一种可选的实施例中,在基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类时,分类模块具体用于:
若至少一个字符转移概率中,存在不大于设定的第一字符转移概率阈值的字符转移概率,则将目标文本确定为垃圾文本。
若至少一个字符转移概率均大于第一字符转移概率阈值,且存在小于设定的第二字符转移概率阈值的字符转移概率,则通过无意词判别模型,确定目标文本的文本类型。
若至少一个字符转移概率均大于第二字符转移概率阈值,则将目标文本确定为正常文本。
一种可选的实施例中,在基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类之后,分类模块还用于:
针对获得的各个正常文本,分别执行以下操作:
获取一个正常文本的特征行为及其标签。
在确定一个正常文本的特征行为属于恶意行为时,确定与一个正常文本的标签相同的至少一个未知样本均为恶意样本。
第三方面,提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机指令。
处理器,用于读取计算机指令,执行如第一方面所述的文本分类方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的文本分类方法。
第五方面,提供一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的文本分类方法。
本申请实施例提供的文本分类方法,基于目标文本的目标存储路径信息,以及日志文件中记录的各个历史文本各自对应的历史存储路径信息,在确定目标存储路径信息中,存在至少一个特有节点名称时,分别确定相应特有节点名称各自的字符转移概率所归属的字符转移概率区间,从而完成对目标文本进行文本分类。采用这种方式,根据目标存储路径信息中,特有节点名称各自的字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类,避免了根据终端日志分析,检测未知威胁时,终端日志中存在大量的垃圾文本、干扰信息的技术缺陷,提高了文本分类的准确性。
附图说明
图1示例性示出了本申请实施例所适用的一种文本分类系统;
图2示例性出了本申请实施例提供的一种获取业务数据方发送的目标文本的方法流程示意图;
图3示例性出了本申请实施例提供的一种获取目标簇的方法流程示意图;
图4示例性出了本申请实施例提供的一种选取候选簇的逻辑示意图;
图5示例性出了本申请实施例提供的一种选取候选文本的逻辑示意图;
图6示例性出了本申请实施例提供的一种基于图2的逻辑示意图;
图7示例性出了本申请实施例提供的一种针对目标文本的文本分类方法流程示意图;
图8示例性出了本申请实施例提供的一种文本分类的逻辑示意图;
图9示例性出了本申请实施例提供的一种基于图7的逻辑示意图;
图10示例性示出了本申请实施例提供的一种模型训练的逻辑示意图;
图11示例性示出了本申请实施例提供的一种文本分类装置的结构示意图;
图12示例性出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了提高文本分类的准确性,本申请实施例中,基于目标存储路径信息,以及日志文件中记录的各个历史文本各自对应的历史存储路径信息,在确定目标存储路径信息中,存在至少一个特有节点名称时,分别确定相应特有节点名称各自的字符转移概率所归属的字符转移概率区间,从而完成对目标文本进行文本分类。
为了更好地理解本申请实施例,下面首先对本申请实施例中涉及的技术术语进行说明。
(1)APT攻击:是指某组织对特定对象展开的持续有效的攻击活动。这种攻击活动具有极强的隐蔽性和针对性,通常会运用受感染的各种介质、供应链和社会工程学等多种手段实施先进的、持久的且有效的威胁和攻击。
(2)Wazuh平台:是一个免费的,开源的,可用于企业的安全监视解决方案,用于威胁检测,完整性监视,事件响应和合规性。Wazuh服务器解码并使用分析引擎对接收到的事件进行规则检查,通过使用规则可以识别解码后的日志记录中的特定模式,这些模式可能触发警报,甚至可能调用自动对策(主动响应),比如,防火墙上的网际互连协议(InternetProtocol,IP)禁令,其中,触发规则的事件会被添加警告数据,比如,规则ID和规则名称。
(3)N-gram:是一种语言模型,语言模型是一个基于概率的判别模型,它的输入是一句话(即单词的排列序列),输出是这句话的概率,即这些单词的联合概率。
(4)词频-逆文件频率(Term Frequency-Inverse Document Frequency,TFIDF):是一种用于信息检索与文本挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
(5)Spark Streaming:可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume或者是TCP Socket。
(6)Kafka:是为处理实时数据提供一个统一、高吞吐、低延迟的平台,可以高效地处理实时流式日志数据,并实现与Storm、HBase和Spark的集成。
(7)VT:全称为Virus Total,是一个世界级的病毒扫描以及查询平台,用于提供免费的可疑文件分析服务,使用多种反病毒引擎对所上传的文件进行检测,以判断文件是否被病毒,蠕虫,木马,以及各类恶意软件感染。
需要说明的是,上述技术术语命名方式仅为一种示例,本申请实施例对上述技术术语的命名方式不做限制。
下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
图1示例性示出了本申请实施例所适用的系统架构图,如图1所示,该系统架构包括:服务器101、终端设备(102a,102b)。其中,服务器101与终端设备(102a,102b)之间可通过无线通信方式或有线通信方式进行信息交互。
示例性的,服务器101可通过蜂窝移动通信技术接入网络,从而与终端设备(102a,102b)进行通信,所述蜂窝移动通信技术,比如,包括第五代移动通信(5th GenerationMobile Networks,5G)技术。
可选的,服务器101可通过短距离无线通信方式接入网络,从而与终端设备(102a,102b)进行通信,所述短距离无线通信方式,比如,包括无线保真(Wireless Fidelity,Wi-Fi)技术。
本申请实施例对服务器以及上述其他设备的数量不做限制,图1仅以一个服务器为例进行描述。
服务器101,用于获取业务数据方发送的目标文本,以及记录目标文本的目标存储路径信息;获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定至少一个特有节点名称各自的字符转移概率;基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类。
需要说明的是,本申请实施例中,为了提高文本分类的准确性,在服务器中,引入了Wazuh监控系统以及机器学习实时检测方案,收集真实终端设备环境下的终端日志,使用基于规则和基于机器学习的日志分析这两种方法并行,从而进行终端威胁的捕获。
具体的,Wazuh监控系统应用基于串联规则的方法,将收集到的主机日志,与建立的Wazuh规则库进行分组式匹配,将命中部分进行实时报告;机器学习实时检测方案由日志的收集、过滤、标注、模型分析以及实时分析五个步骤组成,首先对必要的终端行为日志进行收集,随后进行原生日志文本的事件区分处理,日志过滤分为三个模块:通用路径筛选、乱码识别模型、乱码分类模型。针对收集到的日志,进行三道流程的日志过滤,将日志中的冗余信息、垃圾信息去除。其中,标注首先使用N-Gram和TF-IDF的方法,联列分词与不分词的文本特征,然后将联列文本数据向量化,再对未知家族的日志进行自动化处理,经过聚类、筛选、专家验证这三个流程后,获取到样本日志与样本标签之间的一对一关系,并最终对数据进行家族标签标注;模型分析分为三个模块:数据聚簇、二分类模型训练与部署、多分类模型训练与部署,数据聚簇用于处理未知家族样本,包括集成聚类和共性行为提取模块,模型的训练和部署应用经过文本向量化后的数据集;实时分析时通过应用SparkStreaming,实时接收Kafka发送的日志数据用于窗口匹配。
终端设备(102a,102b),是一种可以向用户提供语音和/或数据连通性的设备,包括具有无线连接功能的手持式终端设备、车载终端设备等。
示例性的,终端设备可以是:手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(Mobile Internet Device,MID)、可穿戴设备,虚拟现实(Virtual Reality,VR)设备、增强现实(Augmented Reality,AR)设备、工业控制中的无线终端设备、无人驾驶中的无线终端设备、智能电网中的无线终端设备、运输安全中的无线终端设备、智慧城市中的无线终端设备,或智慧家庭中的无线终端设备等。
进一步地,基于上述系统架构,获取用于文本分类的目标文本,参阅图2所示,本申请实施例中,获取业务数据方发送的目标文本的方法流程,具体步骤如下:
S201:获取至少一个目标簇。
一种可能的实现方式中,在执行步骤S201时,服务器首先基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,确定至少一个候选簇,再根据各个候选簇各自对应的标签种类数量的情况,筛选出满足设定的标签种类数量区间的候选簇,并最终将满足设定的标签种类数量区间的候选簇作为目标簇,参阅图3所示,本申请实施例中,获取目标簇的方法流程,具体步骤如下:
S2011:基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇。
具体的,在执行步骤S2011时,服务器分别获取各个临时簇各自对应的初始特征行为数量,选取出属于设定特征数量区间的至少一个候选特征行为数量,对至少一个候选特征行为数量各自对应的临时簇,各自包含的各个未知样本添加标签,并将每个候选特征行为数量对应的临时簇作为一个候选簇,其中,每个临时簇是通过对未知样本集合初步聚类得到的。
示例性的,参阅图4所示,服务器获取到未知样本集合之后,对未知样本集合进行初步聚类,得到由多个临时簇组成的初步聚类结果,再根据各个临时簇各自对应的初始特征行为数量,以及设定特征数量区间,选取出属于设定特征数量区间的至少一个候选特征行为数量,并将每个候选特征行为数量对应的临时簇作为一个候选簇,其中,第一特征数量阈值为设定特征数量区间的上限值,第二特征数量阈值为设定特征数量区间的下限值。
需要说明的是,若一个临时簇对应的初始特征行为数量不属于设定特征数量区间,且该临时簇的临时特征行为数量大于第一特征数量阈值,则该临时簇需重新聚类;若该临时簇包含的特征行为数量小于第二特征数量阈值,则需舍弃该临时簇。可选的,该临时簇包含的未知样本仍需再次聚类,以避免该临时簇内存在恶意样本,无法被检测。
例如,假定设定特征数量区间为[2,20],未知样本集合的特征行为总数量为200。若一个临时簇的初始特征行为数量8,属于设定特征数量区间,则可直接将该临时簇作为一个候选簇;若一个临时簇的初始特征行为数量25,不属于设定特征数量区间,但大于第一特征数量阈值,则需要将该临时簇进行重新聚类,减少该临时簇的初始特征行为数量,进而再次判断是否可作为候选簇;若一个临时簇的初始特征行为数量1,不属于设定特征数量区间,且小于第一特征数量阈值,则可舍弃该临时簇。
进一步地,在获得至少一个候选簇之后,服务器使用来自VT的、非黄金标准的家族软标签对各个候选簇各自包含的未知样本添加标签,值得注意的是,即使对各个候选簇各自包含的未知样本执行了添加标签的操作,并非每个未知样本都能添加上标签。
S2012:若一个候选簇包含的各个未知样本均未关联相应标签,则将一个候选簇作为目标簇;若一个候选簇包含的各个未知样本关联至少一个标签,则确定至少一个标签对应的标签种类数量,并在确定标签种类数量归属于设定的标签种类数量区间时,将一个候选簇作为目标簇。
示例性的,在执行步骤S2012时,假定设定的标签种类数量区间为[1,5],服务器获得至少一个候选簇之后,针对至少一个候选簇,分别执行以下步骤:可基于各个候选簇各自对应的标签情况,来判断相应的候选簇是否可作为目标簇,其中,标签情况包括是否存在标签以及标签种类数量。以5个候选簇,每个候选簇均包含100个未知样本为例,则各个候选簇各自对应的标签情况如表1所示:
表1
候选簇 | Cad.Clu.1 | Cad.Clu.2 | Cad.Clu.3 | Cad.Clu.4 | Cad.Clu.5 |
是否存在标签 | 否 | 是 | 是 | 否 | 是 |
标签种类数量 | 0 | 2 | 5 | 0 | 8 |
由上述表格可知,服务器可基于各个候选簇各自对应的标签情况,来判定相应的候选簇是否可作为一个目标簇。例如,以候选簇Cad.Clu.1为例,候选簇Cad.Clu.1包含的100个未知样本均未添加上标签,则可直接将该候选簇作为一个目标簇;再以候选簇Cad.Clu.2为例,候选簇Cad.Clu.2包含的100个未知样本,对应的标签种类数量为2,属于设定的标签种类数量区间,则可将该候选簇作为目标簇,可选的,若该候选簇包含的100个未知样本中,存在未关联有标签的未知样本,则可根据未关联有标签的未知样本与关联有标签的未知样本之间的相似度,添加相应的标签;再以候选簇Cad.Clu.2包含的100个未知样本,对应的标签种类数量为8,可知该候选簇包含的100个未知样本存在标签,且标签种类数量不属于设定的标签种类数量区间,则可将该候选簇舍弃,可选的,该候选簇包含的位置样本仍需再次聚类,以避免该候选簇内存在恶意样本,无法被检测。
S202:分别确定一个目标簇内包含的各个未知样本各自对应的特征行为,与其他未知样本的特征行为之间的特征相似度,挑选出特征相似度满足预设相似度条件的未知样本,作为候选文本进行保存。
具体的,参阅图5所示,在执行步骤S202时,服务器在获取至少一个目标簇之后,针对获得的至少一个目标簇,分别执行以下操作:可根据一个目标簇内包含的各个未知样本各自对应的特征行为的行为特征值,分别确定相应未知样本的特征行为与其他未知样本的特征行为之间的特征相似度,筛选出特征相似度满足预设相似度条件的未知样本,并将其作为候选文本进行保存。
示例性的,以一个目标簇中包含3个未知样本,即,未知样本A、未知样本B以及未知样本C为例,服务器根据3个未知样本各自对应的特征行为的行为特征值,可获得未知样本A与未知样本B的特征行为之间的相似度为85%、未知样本A未知样本C的特征行为之间的相似度为93%、未知样本B与未知样本C的特征行为之间的相似度为87%,易知未知样本C与未知样本A、未知样本B的相似度都比较高,故而可将未知样本C作为该目标簇对应的候选文件,并将其保存在候选文本库中。
需要说明的是,目标簇内存在至少一个未知样本,与该目标簇内60%以上的其他未知样本的相似度大于80%,若不满足此条件,则舍弃不可将对于的候选簇作为目标簇;进一步地,目标簇内存在至少一个未知样本,与该目标簇内其他未知样本的相似度总和大于某一阈值,该阈值=0.8×目标簇内未知样本数量,并将与其他未知样本的相似度总和最高对应的未知样本作为该目标簇的Hash,即,候选文本。
图6示例性示出了本申请实施例提供的一种获取业务数据方发送的目标文本的逻辑示意图,如图6所示,服务器可从获得各个目标簇中,任意选择一个目标簇,并依次得到目标簇内每个未知样本与其他未知样本之间的特征相似度,再结合预设的相似度条件,从目标簇内的各个未知样本中,挑选出满足预设相似度条件的未知样本作为候选文本。
进一步地,基于上述的预操作处理,获得了多个候选文本,并从保存的各个候选文本中,选任一个候选文本作为目标文本,参阅图7所示,本申请实施例中,针对目标文本的文本分类方法流程,具体步骤如下:
S701:获取业务数据方发送的目标文本,以及记录目标文本的目标存储路径信息。
具体的,在执行步骤S701时,服务器可获取业务数据方发送的目标文本,并基于存储路径信息的特征提取算法,从原始数据库中,获取到目标文本的目标存储路径信息,其中,目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称。
示例性的,原始数据库中包含多个存储路径信息,服务器基于目标文本的文本标识,分别对原始数据库中的多个存储路径信息各自对应的文本标识进行特征匹配,筛选出目标文本对应的目标存储路径信息,以4个存储路径信息为例,则各个存储路径信息及其各自对应的文本标识如表2所示:
表2
存储路径信息 | CR.M1 | CR.M2 | CR.M3 | CR.M4 |
文本标识 | W.B1 | W.B2 | W.B3 | W.B4 |
由上述表格可知,服务器可根据各个存储路径信息各自对应的文本标识,分别确定相应的存储路径信息。例如,若目标文本的文本标识为W.B2,则服务器根据文本标识W.B2,确定目标文本对应的目标存储路径信息为存储路径信息CR.M2,以此类推。
进一步地,服务器可获得目标文本对应的目标存储路径信息中,包含的至少一个目标路径节点及其各自的目标节点名称。例如,假定目标文本的目标存储路径信息:“C:\\Windows\\System32”,其中,各个目标路径节点各自的节点名称依次为:“C”、“Windows”、“System32”。
S702:获取日志文件中记录的各个历史文本各自对应的历史存储路径信息。
具体的,在执行步骤S702时,服务器在获取业务数据方发送的目标文本,以及记录目标文本的目标存储路径信息之后,可获取日志文件中记录的各个历史文本,并基于存储路径信息的数据类型,从原始数据库中,获取到各个历史文本各自对应的历史存储路径信息,其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称。
示例性的,服务器可根据存储路径信息的数据类型,获得日志文件中记录的各个历史文本各自对应的历史存储路径信息,进而确定每个历史存储路径信息包含的历史路径节点及其各自的历史节点名称。例如,服务器可基于存储路径信息的数据类型,从原始数据库中,获得历史文本1的历史存储路径信息:“C:\\Windows\\System32\\HKLM\\SOFTWARE\\SpeedRun”,以及历史文本2的历史路径信息:“C:\\Windows\\System32\\HKLM\\SOFTWARE\\TrickBot”。
进一步地,服务器可获得历史文件1各个历史路径节点各自的节点名称依次为:“C”、“Windows”、“System32”、“HKLM”、“SOFTWARE”、“SpeedRun”,以及历史文件2各个历史路径节点各自的节点名称依次为:“C”、“Windows”、“System32”、“HKLM”、“SOFTWARE”、“TrickBot”。
需要说明的是,路径信息“C:\\Windows\\System32\\HKLM\\SOFTWARE”均为历史文本1的历史存储信息与历史文本2的历史存储信息的一部分,服务器可将路径信息“C:\\Windows\\System32\\HKLM\\SOFTWARE”作为通用路径信息,从而着重针对特有节点名称“TrickBot”与“SpeedRun”使用N-Gram和TFIDF分词与不分词文本特征联列的方法,将日志内容转化为数值向量(字-字向量),进而获得“TrickBot”与“SpeedRun”各自对应的字符转移概率。
S703:若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定至少一个特有节点名称各自的字符转移概率。
一种可能的实现方式中,在执行步骤S703时,服务器在获取日志文件中记录的各个历史文本各自对应的历史存储路径信息之后,以及至少一个目标节点名称之后,基于日志文件中的白样本数据集以及黑样本数据集,以及各个目标节点名称各自对应的黑白样本相似度评估值,从各个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称。
需要说明的是,白样本数据集包括:至少一个正常样本及其各自对应的正常存储路径信息,每个正常存储路径信息包括:至少一个正常路径节点及其各自的历史节点名称,以及黑样本数据集包括:至少一个异常样本及其各自对应的异常存储路径信息,每个异常存储路径信息包括:至少一个异常路径节点及其各自的历史节点名称;黑白样本相似度评估值表征:相应目标节点名称同属于黑样本数据集和白样本数据集的概率。
示例性的,以1个目标节点名称、5个白样本数据集中的历史节点名称以及5个黑样本数据集中的历史节点名称为例,各个历史节点名称与目标节点名称各自对应的名称相似度如表3所示,其中,历史节点名称1~5属于白样本数据集,历史节点名称6~10属于黑样本数据集。
表3
基于上述表格,服务器基于目标节点名称,分别与各个历史节点名称之间的名称相似度,挑选出满足预设第一概率条件的名称相似度作为目标节点名称归属于白样本数据集的第一概率,以及挑选出满足预设第二概率条件的名称相似度作为目标节点名称归属于黑样本数据集的第二概率。
例如,假定第一概率条件为白样本数据集中各个历史节点名称与目标节点名称之间的名称相似度的最大值,则服务器可将目标名称与历史节点名称5的名称相似度93%,作为目标节点名称归属于白样本数据集的第一概率,并记作a,同理,假定第二概率条件为黑样本数据集中各个历史节点名称与目标节点名称之间的名称相似度的最大值,则服务器可将目标名称与历史节点名称7的名称相似度94%,作为目标节点名称归属于黑样本数据集的第二概率,并记作b。
进一步地,服务器可基于黑白样本相似度评估值计算公式,获得相应目标节点名称对应的黑白样本相似度评估值,具体计算公式如下:
其中,Score表示黑白样本相似度评估值;a表示目标节点名称归属于白样本数据集的第一概率;b表示目标节点名称归属于黑样本数据集的第二概率;并选定Score属于[0.01,1]为设定的相似度评估值区间。
例如,假定目标名称根据其属于白样本数据集的第一概率a以及属于黑样本数据集的第二概率b,基于上述黑白样本相似度评估值计算公式,得到目标名称的黑白样本相似度评估值。若目标名称的黑白样本相似度评估值为0.004,不属于相似度评估值区间[0.01,1],则可判断目标节点名称可作为一个特有节点名称;若目标名称的黑白样本相似度评估值为0.52,属于相似度评估值区间[0.01,1],则可判断目标节点名称可作为一个通用节点名称,不需要进行进一步处理。
进一步地,服务器在获得至少一个特有节点名称之后,可基于字符转移概率计算公式,分别确定各个特有节点名称各自的字符转移概率,其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的。
可选的,本申请实施例中,服务器可应用字符级别的三元词袋文本特征,针对单个单词,进行二分类预测,并积结合Cybersecurity相关的语料库,计算特有节点名称字符串中字母间转移的概率分布,马尔科夫矩阵上i行j列的字符转移概率计算如下:
其中,Pij表示马尔科夫矩阵上i行j列的字符转移概率;Countij表示由第i个字符转移到第j个字符的次数;Counti表示字符转移中出现字符i的次数。
由上述公式可知,字符长度为n的单词M的字符转移概率为:
P(M)=P(M3|M1M2)*P(M4|M2M3)*…*P(Mi+2|M(i+1)Mi)*…
*P(Mn|Mn-2Mn-1)
其中,P(M)表示字符长度为n的单词M的字符转移概率,其中Mi表示单词M中的第i个字符;P(Mi+2|M(i+1)Mi)表示由单词M中第i个和第i+1个字符,转移到第i+2个字符的字符转移概率。
S704:基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类。
具体的,参阅图8所示,在执行步骤S704时,服务器在分别确定至少一个特有节点名称各自的字符转移概率之后,若各个字符转移概率中,存在不大于设定的第一字符转移概率阈值的字符转移概率,则将目标文本确定为垃圾文本;若各个字符转移概率均大于第一字符转移概率阈值,且存在小于设定的第二字符转移概率阈值的字符转移概率,则通过无意词判别模型,确定目标文本的文本类型;若各个字符转移概率均大于第二字符转移概率阈值,则将目标文本确定为正常文本。
示例性的,假定第一字符转移概率阈值为60%,第二字符转移概率阈值为90%,目标存储路径信息中包含两个特有节点名称:Un.Node.Na1、Un.Node.Na2,其各自对应的字符转移概率依次为:92%、95%,易知两个字符转移概率均大于第二字符转移概率阈值,则可将该目标存储路径信息对应的目标文本作为正常文本。
同理,若两个特有节点名称:Un.Node.Na1、Un.Node.Na2,其各自对应的字符转移概率依次为:68%、95%,易知两个字符转移概率均大于第一字符转移概率阈值,且存在小于设定的第二字符转移概率阈值的字符转移概率,则通过无意词判别模型,确定目标文本的文本类型;若各自对应的字符转移概率依次为:46%、27%,易知两个字符转移概率均小于第一字符转移概率阈值,则可将该目标存储路径信息对应的目标文本作为垃圾文本。
可选的,本申请实施例中,服务器在获得各个特有节点名称各自的字符转移概率时,可添加多个状态转移惩罚项,即对于不常见的状态转移现象,需要适当降低其概率值:
情形1:字母→数字,或者,数字→字母的字符转移超过2次,则每超出一次,P’=P*k(k<1),其中,k为转移惩罚因子;
情形2:Trigram平移时,连续3个字符都是数字的情况出现超过3次,则每超出一次,P’=P*k(k<1),其中,k为转移惩罚因子。
图9示例性示出了本申请实施例提供的一种针对目标文本的文本分类的逻辑示意图,如图9所示,服务器基于目标文本的目标存储路径信息,以及日志文本中的各个历史文本各自对应的历史存储路径信息,确定目标存储路径信息中,至少一个特有节点名称,再获得各个特有节点名称各自对应的字符转移概率,从而进行目标文本的文本分类。
进一步地,基于上述方法步骤,服务器基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类,在进行文本分类之后,针对获得的各个正常文本,分别执行以下操作:获取一个正常文本的特征行为及其标签;在确定一个正常文本的特征行为属于恶意行为时,确定与一个正常文本的标签相同的至少一个未知样本均为恶意样本。
可选的,若正常文本没有标签,则可根据与设定的特征相似度阈值,将与正常文本特征相似度大于该设定的特征相似度阈值的未知样本,归为与正常文本一类,在确定一个正常文本的特征行为属于恶意行为时,则将该类未知样本均作为恶意样本。
图10示例性示出了本申请实施例提供的一种模型训练的逻辑示意图,如图10所示,服务器使用轻量级系统层的日志工具以记录真实环境下的终端行为,将日志通过Kafka流传输到Spark Streaming数据处理管道,再将经过多层处理处理得到的样本对应的联列特征向量,先后输入二分类模型以及多分类模型,目标文本的文本类型及标签;进一步地,可根据目标文本的特征行为或者标签,判定目标文本是否为终端威胁或恶意样本,以及归属于那种恶意样本。
本申请实施例提供的文本分类方法,基于目标文本的目标存储路径信息,以及日志文件中记录的各个历史文本各自对应的历史存储路径信息,在确定目标存储路径信息中,存在至少一个特有节点名称时,分别确定相应特有节点名称各自的字符转移概率所归属的字符转移概率区间,从而完成对目标文本进行文本分类。采用这种方式,根据目标存储路径信息中,特有节点名称各自的字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类,避免了根据终端日志分析,检测未知威胁时,终端日志中存在大量的垃圾文本、干扰信息的技术缺陷,提高了文本分类的准确性。
基于相同的技术构思,本申请实施例还提供了一种文本分类装置,该文本分类装置可以实现本申请实施例的上述方法流程。
图11示例性示出了本申请实施例提供的一种文本分类装置的结构示意图。如图11所示,该文本分类装置包括:记录模块1101、获取模块1102、处理模块1103以及分类模块1104,其中:
记录模块1101,用于获取业务数据方发送的目标文本,以及记录目标文本的目标存储路径信息;其中,目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称。
获取模块1102,用于获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称。
处理模块1103,用于若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定至少一个特有节点名称各自的字符转移概率;其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的。
分类模块1104,用于基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类。
一种可选的实施例中,在获取业务数据方发送的目标文本之前:获取至少一个目标簇;其中,每个目标簇是对设定的未知样本集合二次聚类获得的,未知样本集合中包含的各个未知样本是业务数据方发送的。
针对获得的至少一个目标簇,分别执行以下操作:分别确定一个目标簇内包含的各个未知样本各自对应的特征行为,与其他未知样本的特征行为之间的特征相似度,挑选出特征相似度满足预设相似度条件的未知样本,作为候选文本进行保存。
在获取业务数据方发送的目标文本时,获取模块1102具体用于:
从保存的各个候选文本中,选取一个候选文本作为目标文本。
一种可选的实施例中,在获取至少一个目标簇时,获取模块1102具体用于:
基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇;其中,每个临时簇是通过对未知样本集合初步聚类得到的。
针对至少一个候选簇,分别执行以下步骤:
若一个候选簇包含的各个未知样本均未关联相应标签,则将一个候选簇作为目标簇。
若一个候选簇包含的各个未知样本关联至少一个标签,则确定至少一个标签对应的标签种类数量,并在确定标签种类数量归属于设定的标签种类数量区间时,将一个候选簇作为目标簇。
一种可选的实施例中,在基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇时,获取模块1102具体用于:
分别获取各个临时簇各自对应的初始特征行为数量,选取出属于设定特征数量区间的至少一个候选特征行为数量。
对至少一个候选特征行为数量各自对应的临时簇,各自包含的各个未知样本添加标签,并将每个候选特征行为数量对应的临时簇作为一个候选簇。
一种可选的实施例中,在选取出与各个历史节点名称不同的至少一个特有节点名称时,处理模块1103具体用于:
获取日志文件中的白样本数据集以及黑样本数据集;其中,白样本数据集包括:至少一个正常样本及其各自对应的正常存储路径信息,每个正常存储路径信息包括:至少一个正常路径节点及其各自的历史节点名称,以及黑样本数据集包括:至少一个异常样本及其各自对应的异常存储路径信息,每个异常存储路径信息包括:至少一个异常路径节点及其各自的历史节点名称。
基于至少一个目标节点名称各自对应的黑白样本相似度评估值,从至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称;其中,黑白样本相似度评估值表征:相应目标节点名称同属于黑样本数据集和所述白样本数据集的概率。
一种可选的实施例中,在基于至少一个目标节点名称各自对应的黑白样本相似度评估值,从所述至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称时,处理模块1103具体用于:
针对至少一个目标节点名称,分别执行以下操作:
基于一个目标节点名称与各个历史节点名称之间的名称相似度,挑选出满足预设第一概率条件的名称相似度作为一个目标节点名称归属于白样本数据集的第一概率,以及挑选出满足预设第二概率条件的名称相似度作为一个目标节点名称归属于黑样本数据集的第二概率。
基于第一概率与第二概率,确定一个目标节点名称的黑白样本相似度评估值。
在确定黑白样本相似度评估值不属于设定的相似度评估值区间时,将一个目标节点名称作为特有节点名称。
一种可选的实施例中,在基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类时,分类模块1104具体用于:
若至少一个字符转移概率中,存在不大于设定的第一字符转移概率阈值的字符转移概率,则将目标文本确定为垃圾文本。
若至少一个字符转移概率均大于第一字符转移概率阈值,且存在小于设定的第二字符转移概率阈值的字符转移概率,则通过无意词判别模型,确定目标文本的文本类型。
若至少一个字符转移概率均大于第二字符转移概率阈值,则将目标文本确定为正常文本。
一种可选的实施例中,在基于获得的至少一个字符转移概率所归属的字符转移概率区间,对目标文本进行文本分类之后,分类模块1104还用于:
针对获得的各个正常文本,分别执行以下操作:
获取一个正常文本的特征行为及其标签。
在确定一个正常文本的特征行为属于恶意行为时,确定与一个正常文本的标签相同的至少一个未知样本均为恶意样本。
基于相同的技术构思,本申请实施例还提供了一种电子设备,该电子设备可实现本申请上述实施例提供的方法流程。在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。
图12示例性示出了本申请实施例提供的一种电子设备的结构示意图。如图12所示,该电子设备可包括:
至少一个处理器1201,以及与至少一个处理器1201连接的存储器1202,本申请实施例中不限定处理器1201与存储器1202之间的具体连接介质,图12中是以处理器1201和存储器1202之间通过总线1200连接为例。总线1200在图12中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1200可以分为地址总线、数据总线、控制总线等,为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器1201也可以称为控制器,对于名称不做限制。
在本申请实施例中,存储器1202存储有可被至少一个处理器1201执行的指令,至少一个处理器1201通过执行存储器1202存储的指令,可以执行前文论述的一种文本分类方法。处理器1201可以实现图11所示的装置中各个模块的功能。
其中,处理器1201是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器1202内的指令以及调用存储在存储器1202内的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。
在一种可能的设计中,处理器1201可包括一个或多个处理单元,处理器1201可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1201中。在一些实施例中,处理器1201和存储器1202可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1201可以是通用处理器,例如CPU(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的一种文本分类方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1202作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1202可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器1201进行设计编程,可以将前述实施例中介绍的一种文本分类方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图7所示的实施例的一种文本分类方法的步骤。如何对处理器1201进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述的一种文本分类方法。
在一些可能的实施方式中,本申请提供一种文本分类方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种文本分类方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
获取业务数据方发送的目标文本,以及记录所述目标文本的目标存储路径信息;其中,所述目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称;
获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称;
若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定所述至少一个特有节点名称各自的字符转移概率;其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的;
基于获得的至少一个字符转移概率所归属的字符转移概率区间,对所述目标文本进行文本分类。
2.如权利要求1所述的方法,其特征在于,所述获取业务数据方发送的目标文本之前:
获取至少一个目标簇;其中,每个目标簇是对设定的未知样本集合二次聚类获得的,所述未知样本集合中包含的各个未知样本是业务数据方发送的;
针对获得的至少一个目标簇,分别执行以下操作:分别确定一个目标簇内包含的各个未知样本各自对应的特征行为,与其他未知样本的特征行为之间的特征相似度,挑选出特征相似度满足预设相似度条件的未知样本,作为候选文本进行保存;
所述获取业务数据方发送的目标文本,包括:
从保存的各个候选文本中,选取一个候选文本作为所述目标文本。
3.如权利要求2所述的方法,其特征在于,所述获取至少一个目标簇,包括:
基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇;其中,每个临时簇是通过对所述未知样本集合初步聚类得到的;
针对所述至少一个候选簇,分别执行以下步骤:
若一个候选簇包含的各个未知样本均未关联相应标签,则将所述一个候选簇作为目标簇;
若所述一个候选簇包含的各个未知样本关联至少一个标签,则确定所述至少一个标签对应的标签种类数量,并在确定所述标签种类数量归属于设定的标签种类数量区间时,将所述一个候选簇作为目标簇。
4.如权利要求3所述的方法,其特征在于,所述基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇,包括:
分别获取各个临时簇各自对应的初始特征行为数量,选取出属于设定特征数量区间的至少一个候选特征行为数量;
对所述至少一个候选特征行为数量各自对应的临时簇,各自包含的各个未知样本添加标签,并将每个候选特征行为数量对应的临时簇作为一个候选簇。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述选取出与各个历史节点名称不同的至少一个特有节点名称,包括:
获取日志文件中的白样本数据集以及黑样本数据集;其中,所述白样本数据集包括:至少一个正常样本及其各自对应的正常存储路径信息,每个正常存储路径信息包括:至少一个正常路径节点及其各自的历史节点名称,以及所述黑样本数据集包括:至少一个异常样本及其各自对应的异常存储路径信息,每个异常存储路径信息包括:至少一个异常路径节点及其各自的历史节点名称;
基于所述至少一个目标节点名称各自对应的黑白样本相似度评估值,从所述至少一个目标节点名称中,选取出与所述各个历史节点名称不同的至少一个特有节点名称;其中,所述黑白样本相似度评估值表征:相应目标节点名称同属于所述黑样本数据集和所述白样本数据集的概率。
6.如权利要求5所述的方法,其特征在于,所述基于所述至少一个目标节点名称各自对应的黑白样本相似度评估值,从所述至少一个目标节点名称中,选取出与所述各个历史节点名称不同的至少一个特有节点名称,包括:
针对所述至少一个目标节点名称,分别执行以下操作:
基于所述一个目标节点名称与所述各个历史节点名称之间的名称相似度,挑选出满足预设第一概率条件的名称相似度作为所述一个目标节点名称归属于白样本数据集的第一概率,以及挑选出满足预设第二概率条件的名称相似度作为所述一个目标节点名称归属于黑样本数据集的第二概率;
基于所述第一概率与所述第二概率,确定所述一个目标节点名称的黑白样本相似度评估值;
在确定所述黑白样本相似度评估值不属于设定的相似度评估值区间时,将所述一个目标节点名称作为特有节点名称。
7.如权利要求1-4中任一项所述的方法,其特征在于,所述基于获得的至少一个字符转移概率所归属的字符转移概率区间,对所述目标文本进行文本分类,包括:
若所述至少一个字符转移概率中,存在不大于设定的第一字符转移概率阈值的字符转移概率,则将所述目标文本确定为垃圾文本;
若所述至少一个字符转移概率均大于所述第一字符转移概率阈值,且存在小于设定的第二字符转移概率阈值的字符转移概率,则通过无意词判别模型,确定所述目标文本的文本类型;
若所述至少一个字符转移概率均大于所述第二字符转移概率阈值,则将所述目标文本确定为正常文本。
8.如权利要求1-4中任一项所述的方法,其特征在于,所述基于获得的至少一个字符转移概率所归属的字符转移概率区间,对所述目标文本进行文本分类之后,还包括:
针对获得的各个正常文本,分别执行以下操作:
获取一个正常文本的特征行为及其标签;
在确定所述一个正常文本的特征行为属于恶意行为时,确定与所述一个正常文本的标签相同的至少一个未知样本均为恶意样本。
9.一种文本分类装置,其特征在于,包括:
记录模块,用于获取业务数据方发送的目标文本,以及记录所述目标文本的目标存储路径信息;其中,所述目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称;
获取模块,用于获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称;
处理模块,用于若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定所述至少一个特有节点名称各自的字符转移概率;其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的;
分类模块,用于基于获得的至少一个字符转移概率所归属的字符转移概率区间,对所述目标文本进行文本分类。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111620184.8A CN114398887A (zh) | 2021-12-28 | 2021-12-28 | 一种文本分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111620184.8A CN114398887A (zh) | 2021-12-28 | 2021-12-28 | 一种文本分类方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398887A true CN114398887A (zh) | 2022-04-26 |
Family
ID=81228091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111620184.8A Pending CN114398887A (zh) | 2021-12-28 | 2021-12-28 | 一种文本分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398887A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240760A (zh) * | 2023-11-13 | 2023-12-15 | 国网天津市电力公司信息通信公司 | 一种工业物联网协议字段智能检测方法及系统 |
-
2021
- 2021-12-28 CN CN202111620184.8A patent/CN114398887A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240760A (zh) * | 2023-11-13 | 2023-12-15 | 国网天津市电力公司信息通信公司 | 一种工业物联网协议字段智能检测方法及系统 |
CN117240760B (zh) * | 2023-11-13 | 2024-01-16 | 国网天津市电力公司信息通信公司 | 一种工业物联网协议字段智能检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | A distributed network intrusion detection system for distributed denial of service attacks in vehicular ad hoc network | |
CN111797394B (zh) | 基于stacking集成的APT组织识别方法、系统及存储介质 | |
CN109359439B (zh) | 软件检测方法、装置、设备及存储介质 | |
Namanya et al. | Similarity hash based scoring of portable executable files for efficient malware detection in IoT | |
US9398034B2 (en) | Matrix factorization for automated malware detection | |
CN110659486B (zh) | 用于使用两级文件分类来检测恶意文件的系统和方法 | |
CN112866023B (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
CN111090807B (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN109614795B (zh) | 一种事件感知的安卓恶意软件检测方法 | |
CN111523588B (zh) | 基于改进的lstm对apt攻击恶意软件流量进行分类的方法 | |
CN110363003B (zh) | 一种基于深度学习的Android病毒静态检测方法 | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
CN107180190A (zh) | 一种基于混合特征的Android恶意软件检测方法及系统 | |
CN114244611B (zh) | 异常攻击检测方法、装置、设备及存储介质 | |
CN112925805A (zh) | 基于网络安全的大数据智能分析应用方法 | |
CN114398887A (zh) | 一种文本分类方法、装置及电子设备 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN105095752B (zh) | 病毒数据包的识别方法、装置及系统 | |
CN116668054A (zh) | 一种安全事件协同监测预警方法、系统、设备及介质 | |
CN110740111A (zh) | 一种数据防漏方法、装置及计算机可读存储介质 | |
Wu et al. | Intrusion Detection System Using a Distributed Ensemble Design Based Convolutional Neural Network in Fog Computing | |
EP3588349B1 (en) | System and method for detecting malicious files using two-stage file classification | |
Rayala et al. | Malicious URL Detection using Logistic Regression | |
CN114978674B (zh) | 一种爬虫识别增强的方法及装置、存储介质及电子设备 | |
CN110110177B (zh) | 一种基于图的恶意软件家族聚类评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |