CN115529147A - 数据外泄检测方法与装置 - Google Patents
数据外泄检测方法与装置 Download PDFInfo
- Publication number
- CN115529147A CN115529147A CN202110714805.2A CN202110714805A CN115529147A CN 115529147 A CN115529147 A CN 115529147A CN 202110714805 A CN202110714805 A CN 202110714805A CN 115529147 A CN115529147 A CN 115529147A
- Authority
- CN
- China
- Prior art keywords
- domain name
- system request
- name system
- data
- malicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000010801 machine learning Methods 0.000 claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000005574 cross-species transmission Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种数据外泄检测方法与装置。所述方法包括:获得电子装置的网络连线数据;从所述网络连线数据中获取与域名系统(Domain NameSystem,DNS)有关的日志数据;分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其反映所述域名系统请求中的域名在不同分类规则下的字元分布状态;以及由机器学习模型根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求,其用以夹带外泄数据至远端主机。藉此,可提高对骇客或恶意程序所使用以执行数据外泄的域名系统请求和/或域名的检测效率。
Description
技术领域
本发明涉及一种数据外泄检测技术,且尤其涉及一种数据外泄检测方法与装置。
背景技术
网域名称(亦称为域名)系统(Domain Name System,DNS)是互联网(Internet)的一项服务,其可作为将域名与互联网协议(Internet Protocol,IP)地址相互对映的一个分散式数据库,使人们更方便地存取互联网。例如,当终端装置需要开启某一个域名的网页时,终端装置可发送域名系统请求(DNS request)给负责的域名系统服务器(DNS server)。域名系统服务器接收到此域名系统请求后,可解析此域名系统请求并发送域名系统回应(DNS response)给终端装置,以通过此域名系统回应告知终端装置此域名所对应的IP地址。
一般来说,域名系统请求与域名系统回应并不会被多数的网络安全系统(例如防火墙)阻挡,以避免影响终端装置执行正常的网络连线。然而,也是因为如此,一旦骇客或恶意程序通过发送此域名系统请求来进行数据外泄,例如将终端装置的机敏数据夹带于域名系统请求而传送给远端主机,则大多数的网络安全系统恐难以检测或防范。
发明内容
本发明提供一种数据外泄检测方法与装置,可提高对骇客或恶意程序所使用以执行数据外泄的域名系统请求和/或域名的检测效率。
本发明的实施例提供一种数据外泄检测方法,其包括:获得电子装置的网络连线数据;从所述网络连线数据中获取与域名系统有关的日志数据;分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其中所述多个字元分布特征值反映所述域名系统请求中的域名在不同分类规则下的字元分布状态;以及由机器学习模型根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求,其中所述恶意域名系统请求用以夹带外泄数据至远端主机。
本发明的实施例另提供一种数据外泄检测装置,其包括存储电路与处理器。所述存储电路用以存储电子装置的网络连线数据与机器学习模型。所述处理器连接至所述存储电路并用以:从所述网络连线数据中获取与域名系统有关的日志数据;分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其中所述多个字元分布特征值反映所述域名系统请求中的域名在不同分类规则下的字元分布状态;以及经由所述机器学习模型根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求,其中所述恶意域名系统请求用以夹带外泄数据至远端主机。
基于上述,在获得电子装置的网络连线数据后,可从所述网络连线数据中获取与域名系统有关的日志数据。接着,可分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其中所述多个字元分布特征值反映所述域名系统请求中的域名在不同分类规则下的字元分布状态。然后,由机器学习模型根据所述多个字元分布特征值来判断所述域名系统请求是否属于恶意域名系统请求,其中所述恶意域名系统请求用以夹带外泄数据至远端主机。藉此,可有效提高对骇客或恶意程序所使用以执行数据外泄的域名系统请求和/或域名的检测效率。
附图说明
图1是根据本发明的一实施例所示出的域名分析系统的示意图;
图2是根据本发明的一实施例所示出的网络流量分析装置的示意图;
图3是根据本发明的一实施例所示出的分析域名系统请求以获得多个字元分布特征值的示意图;
图4是根据本发明的一实施例所示出的根据多个字元分布特征值判断域名系统请求是否属于恶意域名系统请求的示意图;
图5是根据本发明的一实施例所示出的恶意域名系统请求对应于不同时间范围的发生频率的示意图;
图6是根据本发明的一实施例所示出的数据外泄检测方法的流程图。
具体实施方式
现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同元件符号在附图和描述中用来表示相同或相似部分。
图1是根据本发明的一实施例所示出的域名分析系统的示意图。请参照图1,域名分析系统包括网络流量分析装置(亦称为数据外泄检测装置)11与电子装置12。电子装置12可经由互联网101连接至远端主机13。特别是,电子装置12可通过一或多个域名来连接至远端主机13。一个域名可以是一串用一或多个点所分隔的字元组成(例如www.google.com)。
在一实施例中,电子装置12为终端装置。例如,电子装置12可包括智慧型手机、笔记本计算机、桌上型计算机、工业计算机、服务器、游戏机或各类具有连网功能的电子装置。此外,远端主机13可为域名服务器。例如,由骇客所架设的域名服务器。
在一实施例中,当电子装置12被骇客或恶意程序控制时,骇客或恶意程序可存取电子装置12的机敏数据,例如使用者帐号、密码和/或指纹信息等。骇客或恶意程序可对此机敏数据进行编码以产生一串类似乱码的无意义数据。然后,骇客或恶意程序可根据此无意义数据产生相应的域名系统请求。例如,此无意义数据可被挟带于此域名系统请求的域名中。例如,假设经编码产生的无意义数据为“fd12f3d1f23ds1f23sd1fsdf1”,则所产生的域名系统请求可为“fd12f3d1f23ds1f23sd1fsdf1.XXXX.XX”。然后,骇客或恶意程序可控制电子装置12将此域名系统请求传送给远端主机13。例如,经由电子装置12的第53号通信端口(port 53)将此域名系统请求传送给远端主机13。在收到此域名系统请求后,远端主机13可将此域名系统请求的域名解码以还原出原先电子装置12中的机敏数据。藉此,即可达到数据外泄的目的。
在一实施例中,网络流量分析装置11可对电子装置12的网络流量进行监控。网络流量分析装置11可由机器学习模型来检测电子装置12是否通过将机敏数据夹带于域名系统请求中的方式来执行数据外泄。
图2是根据本发明的一实施例所示出的网络流量分析装置的示意图。请参照图2,网络流量分析装置11可包括处理器21、存储电路22及输入/输出接口23。处理器21用以负责网络流量分析装置11的整体或部分运作。例如,处理器21可包括中央处理单元(CPU)或是其他可编程的一般用途或特殊用途的微处理器、数字信号处理器(Digital SignalProcessor,DSP)、可编程控制器、专用集成电路(Application Specific IntegratedCircuits,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)或其他类似装置或这些装置的组合。
存储电路22连接至处理器21并用以存储数据。例如,存储电路22可包括易失性存储电路与非易失性存储电路。易失性存储电路用以易失性地存储数据。例如,易失性存储电路可包括随机存取存储器(Random Access Memory,RAM)或类似的易失性存储媒体。非易失性存储电路用以非易失性地存储数据。例如,非易失性存储电路可包括只读存储器(ReadOnly Memory,ROM)、固态硬盘(solid state disk,SSD)和/或传统硬盘(Hard disk drive,HDD)或类似的非易失性存储媒体。
输入/输出接口23连接至处理器21并用以执行信号的输入与输出。例如,输入/输出接口23可包括网络接口卡、显示器、滑鼠、键盘、触控板、触控屏幕、扬声器、麦克风、和/或电源供应电路等各式输入/输出装置。本发明不限制所述输入/输出装置的类型。
在一实施例中,存储电路22中存储有特征获取模块201与机器学习模型202。例如,特征获取模块201与机器学习模型202皆可以程序码的形式存储于存储电路22中。处理器21可运行特征获取模块201以执行特征值运算等逻辑操作。机器学习模型202可包括XGBoost模型等多决策树模型或其他类型的机器学习模型。
在一实施例中,处理器21可获得电子装置12的网络连线数据。处理器21可将所述网络连线数据存储于电路22中。例如,电子装置12的网络连线数据可通过监控电子装置12的网络流量或读取电子装置12的网络连线记录等方式获得。
在一实施例中,处理器21可从所述网络连线数据中获取与域名系统有关的日志(log)数据。处理器21可通过特征获取模块201分析所述日志数据中的某一个域名系统请求并根据分析结果获得多个字元分布特征值。所述多个字元分布特征值可反映所述域名系统请求中的域名在不同分类规则下的字元分布状态。接着,处理器21可运行机器学习模型202以根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求。特别是,所述恶意域名系统请求可用以夹带外泄数据至远端主机(例如图1的远端主机13)。
图3是根据本发明的一实施例所示出的分析域名系统请求以获得多个字元分布特征值的示意图。请参照图3,处理器21可从网络连线数据中获取与域名系统有关的日志数据(即DNS日志301)。处理器21将DNS日志301中的某一域名系统请求(亦称为目标域名系统请求)输入至特征获取模块201中进行特征值运算。特征获取模块201可根据运算结果输出多个特征值V(1)~V(n)(即字元分布特征值)。n可为任意大于1的正整数。
在一实施例中,所述多个字元分布特征值包括多种类型的特征值。以第一类特征值与第二类特征值为例,第一类特征值可反映目标域名系统请求中的域名(亦称为目标域名)在某一分类规则(亦称为第一分类规则)下的字元分布状态(亦称为第一字元分布状态),第二类特征值可反映同一目标域名在另一分类规则(亦称为第二分类规则)下的字元分布状态(亦称为第二字元分布状态),且第一分类规则不同于第二分类规则。在一实施例中,所述分类规则亦可视为统计规则或逻辑规则。在一实施例中,透过同时(或平行)分析目标域名系统请求中的目标域名在不同分类规则下的字元分布状态,可有效提高对所述恶意域名系统请求的检测效率(例如检测准确度)。
在一实施例中,特征获取模块201可分析目标域名系统请求以获得多个评估参数。例如,所述多个评估参数可反映目标域名中包含于有意义的字串中的字元的总数、目标域名中的所有字元的总数、目标域名中的数字的总数、目标域名中的第三级域名中的不重复字元的总数、目标域名中的第一级域名与第二级域名以外的所有字元的总数、目标域名中的第三级域名中重复出现最多次的字元的出现次数、目标域名中的第三级域名中的数字与字母相邻的发生次数、目标域名中的第三级域名中符合特定条件的字元的总数、目标域名中的第三级域名中不符合该特定条件的字元的总数及目标域名中的第三级域名的熵(entropy)值的至少其中之二。然后,特征获取模块201可根据所述多个评估参数获得所述多个字元分布特征值(即图3的特征值V(1)~V(n))。
在一实施例中,特征获取模块201可根据目标域名中包含于有意义的字串中的字元的总数以及目标域名中的所有字元的总数来获得特征值V(1)。例如,特征获取模块201可根据线上平台(例如google)所提供的字典来查询目标域名中是否存在有意义的字串。例如,特征获取模块201可根据目标域名中包含于有意义的字串中的字元的总数占目标域名中的所有字元的总数的比例来获得特征值V(1)。以“google.com”为例,由于其中的“google”属于有意义的字串且其包含6个字元,故特征获取模块201可获得特征值V(1)为0.67(即6/9)。换言之,特征值V(1)可反映目标域名中包含于有意义的字串中的字元在整个目标域名中的占比。
在一实施例中,特征获取模块201可根据目标域名中的数字的总数以及目标域名中的所有字元的总数来获得特征值V(2)。例如,特征获取模块201可根据目标域名中的数字的总数占目标域名中的所有字元的总数的比例来获得特征值V(2)。以“x123.com”为例,其中属于数字的字元有3个,且目标域名的总长度为4(相较于“x123”而言)或7(相较于“x123.com”而言),故特征获取模块201可获得特征值V(2)为0.75(即3/4)或0.43(即3/7)。换言之,特征值V(2)可反映目标域名中出现数字的比例。
在一实施例中,特征获取模块201可根据目标域名中的所有字元的总数来获得特征值V(3)。例如,假设目标域名中的所有字元的总数为9,则特征获取模块201可获得特征值V(3)为9。换言之,特征值V(3)可反映目标域名的长度。
在一实施例中,特征获取模块201可根据目标域名中的第三级域名中的不重复字元的总数来获得特征值V(4)。以“aabbcd11.google.com”为例,其中的第三级域名为“aabbcd11”且“aabbcd11”中的不重复字元有“a”、“b”、“c”、“d”及“1”。特征获取模块201可根据“aabbcd11”中的不重复字元的总数(即5)获得特征值V(4)为5。换言之,特征值V(4)可反映目标域名中的第三级域名中的不重复字元的总数。
在一实施例中,特征获取模块201可根据目标域名中的第一级域名与第二级域名以外的所有字元的总数来获得特征值V(5)。以“x111.google.com”为例,其中的第一级域名为“com”、第二级域名为“google”、且第三级域名为“x111”。因此,特征获取模块201可根据目标域名中的第一级域名与第二级域名以外的所有字元的总数(即目标域名中的第三级域名以后的所有字元的总数,例如“x111”的长度为4)获得特征值V(5)为4。换言之,特征值V(5)可反映目标域名中的第一级域名与第二级域名以外的所有字元的总数。
在一实施例中,特征获取模块201可根据目标域名中重复出现最多次的字元的出现次数来获得特征值V(6)。以“ababaa.google.com”为例,其中的第三级域名为“ababaa”。在“ababaa”中,字元“a”重复出现4次,且字元“b”重复出现2次,故特征获取模块201可根据目标域名中重复出现4次的字元“a”获得特征值V(6)为4。换言之,特征值V(6)可反映目标域名中重复出现最多次的字元的出现次数。
在一实施例中,特征获取模块201可根据目标域名中的第三级域名中的数字与字母相邻的发生次数来获得特征值V(7)。以“c7e86e62.google.com”为例,其中的第三级域名为“c7e86e62”。在“c7e86e62”中,数字与字母相邻的字元包括“c7”、“e8”及“6e”,故特征获取模块201可根据目标域名中3次的数字与字母相邻的发生次数获得特征值V(7)为3。换言之,特征值V(7)可反映目标域名中的第三级域名中的数字与字母相邻的发生次数。
在一实施例中,特征获取模块201可根据目标域名中的第三级域名中符合特定条件的字元的总数来获得特征值V(8)。在一实施例中,符合特定条件的字元可包括预设出现频率最高的多个字母及预设出现频率最低的多个字母。以线上平台所统计的常见字母的出现频率为例,以字母“e”、“t”、“a”、“o”及“i”的出现频率最高,而字母“z”、“q”、“x”、“j”及“k”的出现频率最低。特征获取模块201可根据目标域名中属于上述出现频率最高的字母的总数与属于上述出现频率最低的字母的总数来获得特征值V(8)。以“knowledge.google.com”为例,其中的第三级域名为“knowledge”。在“knowledge”中,属于上述出现频率最高的字母包括“o”、“e”及“e”,其总数为3,且属于上述出现频率最低的字母包括k”,其总数为1。因此,特征获取模块201可根据两者总数的比例获得特征值V(8)为3(即3/1)。换言之,特征值V(8)可反映目标域名中的第三级域名中较常出现的字元与较不常出现的字元的比例。
在一实施例中,特征获取模块201可根据目标域名中的第三级域名的熵值来获得特征值V(9)。以“a1f5b6hds.google.com”为例,其中的第三级域名为“a1f5b6hds”。特征获取模块201可根据“a1f5b6hds”的熵值(例如3.17)获得特征值V(9)为3.17。换言之,特征值V(9)可反映目标域名中的第三级域名的熵值。在一实施例中,熵值也可以是以其他可反映目标域名中的第三级域名中的多个字元的复杂度或分散度的其他数值来取代。
须注意的是,上述特征值V(1)~V(9)仅为范例。在一实施例中,特征值V(1)~V(n)中更多其他类型的特征值还可以根据不同的分类规则、统计规则或逻辑规则而通过分析目标域名而获得,本发明不加以限制。
图4是根据本发明的一实施例所示出的根据多个字元分布特征值判断域名系统请求是否属于恶意域名系统请求的示意图。请参照图4,在一实施例中,处理器21可将特征值V(1)~V(n)输入至机器学习模型202中进行分析。机器学习模型202可根据特征值V(1)~V(n)产生一个判断结果。此判断结果可反映目标域名系统请求是属于恶意的域名系统请求401或正常的域名系统请求402。须注意的是,由于特征值V(1)~V(n)涵盖了目标域名在不同分类规则下的多种字元分布状态,故机器学习模型202针对目标域名系统请求是否属于恶意域名系统请求的检测效率(例如检测准确度)可被提高。例如,假设目标域名为“www.cht.com.tw”,则机器学习模型202有很高的机率会判定此目标域名属于正常的域名系统请求402。然而,若目标域名为“er41d6s7f89rtr2s.com.tw”,则机器学习模型202有很高的机率会判定此目标域名属于恶意域名系统请求401。其中,外泄的机敏数据可能就通过目标域名中的第三级域名(例如“er41d6s7f89rtr2s”)来夹带至远端主机。此外,在训练阶段,亦可通过持续使用训练数据来训练机器学习模型202,以提高机器学习模型202对恶意域名系统请求的检测效率(例如检测准确度)。
在一实施例中,图2的存储电路22中还存储有验证模块203。例如,验证模块203可以程序码的形式存储于存储电路22中。处理器21可通过验证模块203验证机器学习模型202的判断结果。例如,在机器学习模型202判定目标域名系统请求属于恶意域名系统请求401后,验证模块203可根据恶意域名系统请求401的发生频率(亦称为第一发生频率),验证机器学习模型202的判断结果。
在一实施例中,验证模块203可根据恶意域名系统请求401在某一时间范围(亦称为第一时间范围)内的发生次数,决定恶意域名系统请求401的第一发生频率。第一时间范围包含当前检测到恶意域名系统请求401的时间点。
在一实施例中,验证模块203可判断第一发生频率是否高于一临界值。若第一发生频率高于所述临界值,验证模块203可判定当前机器学习模型202判定目标域名系统请求属于恶意域名系统请求401的判断结果是正确的。然而,若第一发生频率不高于所述临界值,验证模块203可判定当前机器学习模型202判定目标域名系统请求属于恶意域名系统请求401的判断结果不是正确的。因此,验证模块203可将目标域名系统请求标记为机器学习模型202针对恶意域名系统请求401的一个误判。此外,验证模块203可根据此误判来调整机器学习模型202的决策逻辑。例如,验证模块203可根据此误判来调整机器学习模型202的某些权重参数的设定,以尝试减少机器学习模型202往后发生类似误判的机率。
在一实施例中,验证模块203可获得恶意域名系统请求402对应于另一时间范围(亦称为第二时间范围)的发生频率(亦称为第二发生频率)。例如,验证模块203可根据恶意域名系统请求401在第二时间范围内的发生次数,决定恶意域名系统请求401的第二发生频率。第二时间范围不同于第一时间范围,且第二时间范围不包含当前检测到恶意域名系统请求401的时间点。验证模块203可根据第二发生频率决定所述临界值。
图5是根据本发明的一实施例所示出的恶意域名系统请求对应于不同时间范围的发生频率的示意图。请参照图5,假设时间点T(0)~T(1)之间属于第二时间范围,且时间点T(2)~T(3)之间属于第一时间范围。其中,第一时间范围包含当前检测到新的恶意域名系统请求的时间点。第一时间范围的时间长度(即T(D))等于第二时间范围的时间长度(即T(D))。
在一实施例中,第二时间范围是对应于离峰时段。也就是说,在第二时间范围内,所检测到的恶意域名系统请求的发生次数较少(例如3次)。然而,第一时间范围是对应于当前时段。在第一时间范围内,所检测到的恶意域名系统请求的发生次数明显较多(例如200次)。在一实施例中,验证模块203可根据第二时间范围内检测到的恶意域名系统请求的发生次数(例如3次)(或所述第二发生频率)决定所述临界值。尔后,验证模块203可判断第一发生频率是否高于所述临界值(或第二发生频率)。若第一发生频率高于所述临界值(例如当前时段内检测到的200次恶意域名系统请求高于3次),则验证模块203可判定目标域名系统请求属于恶意域名系统请求的判断结果是正确的。反之,若第一发生频率不高于所述临界值,则验证模块203可判定目标域名系统请求属于恶意域名系统请求的判断结果不是正确并据以调整机器学习模型202。
图6是根据本发明的一实施例所示出的数据外泄检测方法的流程图。请参照图6,在步骤S601中,获得电子装置的网络连线数据。在步骤S602中,从所述网络连线数据中获取与域名系统有关的日志数据。在步骤S603中,分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其中所述多个字元分布特征值反映所述域名系统请求中的域名在不同分类规则下的字元分布状态。在步骤S604中,由机器学习模型根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求,其中所述恶意域名系统请求用以夹带外泄数据至远端主机。
然而,图6中各步骤已详细说明如上,在此便不再赘述。值得注意的是,图6中各步骤可以实作为多个程序码或是电路,本发明不加以限制。此外,图6的方法可以搭配以上范例实施例使用,也可以单独使用,本发明不加以限制。
综上所述,本发明所提出的范例实施例可根据域名系统请求中的域名在不同分类规则下的字元分布状态获得多种字元分布特征值,然后由机器学习模型根据所述多种字元分布特征值检测可能夹带外泄数据的恶意域名系统请求。此外,本发明所提出的范例实施例还可通过不同检测时段(例如离峰与尖峰时段)对于恶意域名系统请求的检测频率,来对机器学习模型的判断结果进行验证。藉此,可有效提高对骇客或恶意程序所使用以执行数据外泄的域名系统请求和/或域名的检测效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种数据外泄检测方法,其特征在于,包括:
获得电子装置的网络连线数据;
从所述网络连线数据中获取与域名系统有关的日志数据;
分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其中所述多个字元分布特征值反映所述域名系统请求中的域名在不同分类规则下的字元分布状态;以及
由机器学习模型根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求,其中所述恶意域名系统请求用以夹带外泄数据至远端主机。
2.根据权利要求1所述的数据外泄检测方法,其中所述多个字元分布特征值包括第一类特征值与第二类特征值,
所述第一类特征值反映所述域名在第一分类规则下的第一字元分布状态,所述第二类特征值反映所述域名在第二分类规则下的第二字元分布状态,且所述第一分类规则不同于所述第二分类规则。
3.根据权利要求1所述的数据外泄检测方法,其中分析所述日志数据中的所述域名系统请求并根据所述分析结果获得所述多个字元分布特征值的步骤包括:
分析所述域名系统请求以获得多个评估参数;以及
根据所述多个评估参数获得所述多个字元分布特征值,
其中所述多个评估参数反映所述域名中包含于有意义的字串中的字元的总数、所述域名中的所有字元的总数、所述域名中的数字的总数、所述域名中的第三级域名中的不重复字元的总数、所述域名中的第一级域名与第二级域名以外的所有字元的总数、所述域名中的所述第三级域名中重复出现最多次的字元的出现次数、所述域名中的所述第三级域名中的数字与字母相邻的发生次数、所述域名中的所述第三级域名中符合特定条件的字元的总数、及所述域名中的所述第三级域名的熵(entropy)值的至少其中之二。
4.根据权利要求1所述的数据外泄检测方法,还包括:
在所述机器学习模型判定所述域名系统请求属于所述恶意域名系统请求后,根据所述恶意域名系统请求的第一发生频率,验证所述机器学习模型的判断结果。
5.根据权利要求4所述的数据外泄检测方法,还包括:
根据所述恶意域名系统请求在第一时间范围内的发生次数,决定所述恶意域名系统请求的所述第一发生频率。
6.根据权利要求4所述的数据外泄检测方法,其中根据所述恶意域名系统请求的所述发生频率,验证所述机器学习模型的所述判断结果的步骤包括:
若所述发生频率不高于临界值,将所述域名系统请求标记为所述恶意域名系统请求的误判;以及
根据所述误判调整所述机器学习模型的决策逻辑。
7.根据权利要求6所述的数据外泄检测方法,还包括:
获得所述恶意域名系统请求的第二发生频率;以及
根据所述第二发生频率决定所述临界值。
8.一种数据外泄检测装置,其特征在于,包括:
存储电路,用以存储电子装置的网络连线数据与机器学习模型;以及
处理器,连接至所述存储电路并用以:
从所述网络连线数据中获取与域名系统有关的日志数据;
分析所述日志数据中的域名系统请求并根据分析结果获得多个字元分布特征值,其中所述多个字元分布特征值反映所述域名系统请求中的域名在不同分类规则下的字元分布状态;以及
经由所述机器学习模型根据所述多个字元分布特征值判断所述域名系统请求是否属于恶意域名系统请求,其中所述恶意域名系统请求用以夹带外泄数据至远端主机。
9.根据权利要求8所述的数据外泄检测装置,其中所述多个字元分布特征值包括第一类特征值与第二类特征值,
所述第一类特征值反映所述域名在第一分类规则下的第一字元分布状态,所述第二类特征值反映所述域名在第二分类规则下的第二字元分布状态,且所述第一分类规则不同于所述第二分类规则。
10.根据权利要求8所述的数据外泄检测装置,其中分析所述日志数据中的所述域名系统请求并根据所述分析结果获得所述多个字元分布特征值的操作包括:
分析所述域名系统请求以获得多个评估参数;以及
根据所述多个评估参数获得所述多个字元分布特征值,
其中所述多个评估参数反映所述域名中包含于有意义的字串中的字元的总数、所述域名中的所有字元的总数、所述域名中的数字的总数、所述域名中的第三级域名中的不重复字元的总数、所述域名中的第一级域名与第二级域名以外的所有字元的总数、所述域名中的所述第三级域名中重复出现最多次的字元的出现次数、所述域名中的所述第三级域名中的数字与字母相邻的发生次数、所述域名中的所述第三级域名中符合特定条件的字元的总数、及所述域名中的所述第三级域名的熵值的至少其中之二。
11.根据权利要求8所述的数据外泄检测装置,其中所述处理器还用以:
在所述机器学习模型判定所述域名系统请求属于所述恶意域名系统请求后,根据所述恶意域名系统请求的第一发生频率,验证所述机器学习模型的判断结果。
12.根据权利要求11所述的数据外泄检测装置,其中所述处理器还用以:
根据所述恶意域名系统请求在第一时间范围内的发生次数,决定所述恶意域名系统请求的所述第一发生频率。
13.根据权利要求11所述的数据外泄检测装置,其中根据所述恶意域名系统请求的所述发生频率,验证所述机器学习模型的所述判断结果的操作包括:
若所述发生频率不高于临界值,将所述域名系统请求标记为所述恶意域名系统请求的误判;以及
根据所述误判调整所述机器学习模型的决策逻辑。
14.根据权利要求13所述的数据外泄检测装置,其中所述处理器还用以:
获得所述恶意域名系统请求的第二发生频率;以及
根据所述第二发生频率决定所述临界值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714805.2A CN115529147A (zh) | 2021-06-25 | 2021-06-25 | 数据外泄检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714805.2A CN115529147A (zh) | 2021-06-25 | 2021-06-25 | 数据外泄检测方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115529147A true CN115529147A (zh) | 2022-12-27 |
Family
ID=84693417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110714805.2A Pending CN115529147A (zh) | 2021-06-25 | 2021-06-25 | 数据外泄检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115529147A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107786575A (zh) * | 2017-11-11 | 2018-03-09 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
CN107835149A (zh) * | 2017-09-13 | 2018-03-23 | 杭州安恒信息技术有限公司 | 基于dns流量分析的网络窃密行为检测方法以及装置 |
CN108206814A (zh) * | 2016-12-20 | 2018-06-26 | 腾讯科技(深圳)有限公司 | 一种防御dns攻击的方法、装置及系统 |
US20190012456A1 (en) * | 2017-07-10 | 2019-01-10 | Centripetal Networks, Inc. | Cyberanalysis Workflow Acceleration |
US20190222589A1 (en) * | 2018-01-17 | 2019-07-18 | Group IB TDS, Ltd | Method computing device for detecting malicious domain names in network traffic |
CN110324273A (zh) * | 2018-03-28 | 2019-10-11 | 蓝盾信息安全技术有限公司 | 一种基于dns请求行为与域名构成特征相结合的僵尸网络检测法 |
CN110581850A (zh) * | 2019-09-09 | 2019-12-17 | 河南戎磐网络科技有限公司 | 一种基于网络流量基因检测方法 |
CN112134829A (zh) * | 2019-06-25 | 2020-12-25 | 北京观成科技有限公司 | 生成加密流量特征集的方法及装置 |
-
2021
- 2021-06-25 CN CN202110714805.2A patent/CN115529147A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108206814A (zh) * | 2016-12-20 | 2018-06-26 | 腾讯科技(深圳)有限公司 | 一种防御dns攻击的方法、装置及系统 |
US20190012456A1 (en) * | 2017-07-10 | 2019-01-10 | Centripetal Networks, Inc. | Cyberanalysis Workflow Acceleration |
CN107835149A (zh) * | 2017-09-13 | 2018-03-23 | 杭州安恒信息技术有限公司 | 基于dns流量分析的网络窃密行为检测方法以及装置 |
CN107786575A (zh) * | 2017-11-11 | 2018-03-09 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
US20190222589A1 (en) * | 2018-01-17 | 2019-07-18 | Group IB TDS, Ltd | Method computing device for detecting malicious domain names in network traffic |
CN110324273A (zh) * | 2018-03-28 | 2019-10-11 | 蓝盾信息安全技术有限公司 | 一种基于dns请求行为与域名构成特征相结合的僵尸网络检测法 |
CN112134829A (zh) * | 2019-06-25 | 2020-12-25 | 北京观成科技有限公司 | 生成加密流量特征集的方法及装置 |
CN110581850A (zh) * | 2019-09-09 | 2019-12-17 | 河南戎磐网络科技有限公司 | 一种基于网络流量基因检测方法 |
Non-Patent Citations (2)
Title |
---|
于光喜等: "基于机器学习的僵尸网络DGA域名检测系统设计与实现", 信息安全学报, no. 03, 15 May 2020 (2020-05-15) * |
李建飞;成卫青;: "基于文本和DNS查询的非常规域名检测研究", 计算机技术与发展, no. 02, 7 November 2019 (2019-11-07) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220400133A1 (en) | Information leakage detection method and device using the same | |
CN112866023B (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
CN110830445B (zh) | 一种异常访问对象的识别方法及设备 | |
US20120317644A1 (en) | Applying Antimalware Logic without Revealing the Antimalware Logic to Adversaries | |
Lifshits et al. | Power to peep-all: Inference attacks by malicious batteries on mobile devices | |
CN112437062B (zh) | 一种icmp隧道的检测方法、装置、存储介质和电子设备 | |
CN114003903A (zh) | 一种网络攻击追踪溯源方法及装置 | |
US10965697B2 (en) | Indicating malware generated domain names using digits | |
Spooren et al. | Leveraging battery usage from mobile devices for active authentication | |
CN107231383B (zh) | Cc攻击的检测方法及装置 | |
CN113157542B (zh) | 基于应用日志的趋同行为用户识别方法及系统 | |
CN110535821A (zh) | 一种基于dns多特征的失陷主机检测方法 | |
CN111431884B (zh) | 一种基于dns分析的主机失陷检测方法及装置 | |
CN112583827A (zh) | 一种数据泄露检测方法及装置 | |
CN115529147A (zh) | 数据外泄检测方法与装置 | |
KR101526500B1 (ko) | 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템 | |
CN117391214A (zh) | 模型训练方法、装置及相关设备 | |
CN115001724B (zh) | 网络威胁情报管理方法、装置、计算设备及计算机可读存储介质 | |
CN112995218A (zh) | 域名的异常检测方法、装置及设备 | |
CN110784469B (zh) | 一种通过识别伪造mac地址识别异常登录的方法及系统 | |
Dalvi et al. | Tuning the false positive rate/false negative rate with phishing detection models | |
US20210006565A1 (en) | Access analysis system and access analysis method | |
CN111832030A (zh) | 一种基于国产密码数据标识的数据安全审计装置及方法 | |
Wu et al. | Key stroke profiling for data loss prevention | |
WO2024070153A1 (ja) | 機密情報処理装置、その作動方法、及びデータ送受信システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |