CN110717189A - 数据泄露识别方法、装置及设备 - Google Patents
数据泄露识别方法、装置及设备 Download PDFInfo
- Publication number
- CN110717189A CN110717189A CN201910935293.5A CN201910935293A CN110717189A CN 110717189 A CN110717189 A CN 110717189A CN 201910935293 A CN201910935293 A CN 201910935293A CN 110717189 A CN110717189 A CN 110717189A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- leakage
- identification model
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种数据泄露识别方法、装置及设备,该方案获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
Description
技术领域
本说明书实施例涉及数据安全技术领域,尤其涉及数据泄露识别方法、装置及设备。
背景技术
目前,数据安全防护成为各行各业关注的重点,特别是一些大型企业对企业内部文件具有较大安全防护需求,重要数据的泄露可能给企业的生存和发展带来严重危害。基于此,需要提供数据泄露识别方案。
发明内容
为克服相关技术中存在的问题,本说明书实施例提供了数据泄露识别方法、装置及设备。
根据本说明书实施例的第一方面,提供一种数据泄露识别方法,包括:
获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;
通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;
利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
根据本说明书实施例的第二方面,提供一种数据泄露识别方法,包括:
获取被监控对象在使用电子设备过程中产生的设备使用数据;
获取所述设备使用数据的目标特征;
将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
根据本说明书实施例的第三方面,提供一种数据泄露识别装置,所述装置包括:
获取模块,用于:获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;
特征工程模块,用于:通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;
训练模块,用于:利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
根据本说明书实施例的第四方面,提供一种数据泄露识别装置,所述装置包括:
数据获取模块,用于:获取被监控对象在使用电子设备过程中产生的设备使用数据;
特征获取模块,用于:获取所述设备使用数据的目标特征;
模型识别模块,用于:将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现前述数据泄露识别方法实施例。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中,利用机器学习的相关手段对数据泄露进行识别,使得识别结果更加准确及通用化。其中,原始数据集中数据的特征采用特征工程提取,其中由于数据的标签是通过与敏感数据进行相似度匹配而确定,因此实现了数据标签的自动配置、训练数据集的自动获取,能够显著地减少人力物力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1A是本说明书根据一示例性实施例示出的一种数据泄露识别方法的应用场景图。
图1B是本说明书根据一示例性实施例示出的一种数据泄露识别方法的流程图。
图2是本说明书根据一示例性实施例示出的一种数据泄露识别方法的流程图。
图3是本说明书数据泄露识别装置所在计算机设备的一种硬件结构图。
图4是本说明书根据一示例性实施例示出的一种数据泄露识别装置的框图。
图5是本说明书根据一示例性实施例示出的另一种数据泄露识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
企业竞争中数据是各个公司的重要财产之一,只有拥有相应的数据资产才能更好地取得相对竞争优势。但在实际情况中,数据往往会有意或者无意地出现泄露情况,比如订单信息泄露,这可能侵犯了用户的隐私,也可能会使得相关用户被欺诈。另外,数据泄露给竞争对手也可能造成严重的问题,比如让竞争对手进行有针对性的攻击或者进行相应的内部系统的模仿,这样可能会给企业造成不可估量的损失。
本说明书实施例提供一种数据泄露识别方案,该方案利用机器学习的相关手段对数据泄露进行监控,使得监控结果更加准确及通用化。一方面,原始数据集中数据的特征采用特征工程提取,另一方面由于数据的标签是通过与敏感数据进行相似度匹配而确定,因此实现了数据标签的自动配置、训练数据集的自动获取,能够显著地减少人力物力。
接下来对本说明书实施例进行详细说明。
随着电子设备技术的发展,电子设备的使用已成为日常办公、通讯交流和协作互动的必备工具和途径。个人计算机、平板电脑及智能手机等具备网络通讯功能的设备能够为用户提供通讯交流服务,数据大多数情况下也是在用户使用电子设备的过程中通过网络进行泄露。
如图1A所示,图1A是本说明书根据一示例性实施例示出的一种数据泄露识别方法的应用场景图,图1A中包括:
一消息发送方(即发送消息的一方),以及该消息发送方所配置的用于发送消息的设备,该设备中安装有提供通讯交流服务的通讯客户端。
一消息接收方(即接收消息的一方),以及该消息接收方所持有的电子设备,该电子设备在图1A中以智能手机为例进行示意;该电子设备中安装有提供通讯交流服务的通讯客户端。
一业务服务方,以及该服务方所配置服务端。
可以理解,图1A中的所涉及的用户、电子设备和服务端的数量仅仅是示意性的,实际应用中可以具有任意数量的用户、电子设备和服务端。
在图1A所示实施例中,消息发送方有可能泄露数据给消息接收方,业务服务方希望对消息发送方进行数据泄露识别,本实施例将其称为被监控对象。业务服务方的服务端可以应用本实施例的数据泄露识别方案,利用机器学习方式训练出数据泄露识别模型以进行数据泄露识别。
如图1B所示,图1B是本说明书根据一示例性实施例示出的一种数据泄露识别方法的流程图,包括以下步骤:
在步骤102、获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集。
在步骤104、通过特征工程提取所述原始数据集中数据的特征,获得训练数据集。其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
在步骤106、利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
本说明书实施例的方案可应用于业务方,使业务方可通过实施该方案获得数据泄露识别模型,以用于对被监控对象进行数据泄露识别。在对数据泄露识别模型的训练过程中,业务方可以预先准备用于训练模型的训练数据集。可选的,为了监控被监控对象在使用电子设备过程中是否泄露数据,本说明书实施例可以收集样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集。作为例子,在一些业务场景中,业务方可以是企业,样本监控对象可以是企业员工,业务方可以收集员工使用个人计算机、智能手机等电子设备时产生的设备使用数据作为上述样本设备使用数据。
可选的,可以在电子设备中通过安装特定软件收集该电子设备在使用过程中产生的样本设备使用数据,在一些例子中,所述样本设备使用数据可以包括指示样本监控对象将电子设备本地文件传输至其他存储位置的数据,例如,对于业务方来说,一些内部文件是不希望员工从本地传输至其他位置的,因此可以通过获取这类数据来监控是否发生数据泄露。作为例子,这些数据可以包括:表征将本地文件上传至云盘存储的数据、表征将本地文件传输给其他用户的数据、表征将本地文件传输至可移动存储设备等其他设备的数据等。针对这些数据的收集可以有多种方式实现,在一些例子中,可以在用户使用的电子设备中安装可用于收集数据的软件,通过软件收集数据并传输至服务端。在另一些例子中,在局域网环境下,可以通过路由器等网络侧设备获取到电子设备通过网络传输文件的数据等;例如,在局域网环境下电子设备通过网络传输的文件都需要经过路由器,通过在路由器侧进行监控,可以获取到这些数据。
可选的,文件可能各种各样,有些文件可能不是需要保密的文件,而需要保密的文件也可能是具有指定属性的文件,该指定属性可以包括指定的格式,例如pkl,csv,xlsx等格式的文件;或者也可以包括指定的存储位置或指定的名称等,还可以是文件中包含有指定的敏感内容,例如可以打开这些文件,通过识别文件内容判断是否包含有指定的敏感内容等。实际应用中可以通过配置指定属性的文件作为需要监控的本地文件,从而收集这些指定属性的本地文件是否从本地被传输至其他存储位置的数据,进而可以提高收集效率。
在一些业务场景中,业务方可能限制用户使用某些软件,本实施例称为指定软件,例如竞争对手的软件产品、一些可能存在安全隐患的软件产品、一些可能会自动将本地文件上传至云盘的软件等,本实施例将这些业务方限制用户使用的软件称为指定软件,具体是哪种软件可以根据实际业务需要灵活配置。用户若私自使用这种软件,可能会造成数据泄露,因此样本设备使用数据还可以包括指示样本监控对象使用指定软件的数据,通过收集用户对这些指定软件的使用数据可以作为评判用户是否泄露数据的基础。可选的,可以通过监控这些指定软件是否在样本监控对象的电子设备中运行而收集到这类数据。例如,可以获取这些指定软件运行后产生的一个或多个进程的进程名称,若软件运行,设备的进程管理器通过记录有各个正在运行的进程,可以通过将这些正在运行的进程的名称与指定软件的进程名称进行匹配,从而识别用户是否运行了这些敏感的软件,基于此可以收集到这些指示样本监控对象使用指定软件的数据。
可以理解,实际应用中也可以根据需要收集其他类型的样本设备使用数据,本实施例对此不作限定。通过收集的样本设备使用数据可以获得原始数据集。本实施例的原始数据集,可以是指经过预处理和清洗的数据集,实际应用中可以根据需要灵活配置该预处理和清洗的过程。
其中,原始数据集中包括有大量的样本设备使用数据,这些数据可能属于敏感数据,也可能不属于敏感数据。本实施例的敏感数据,是指表征发生数据泄露的数据。实际应用中,可能能够获取到已知是否属于敏感数据的样本设备使用数据,例如在已知发生数据泄露事件下获取的数据,可以知道这些数据属于敏感数据。然而,数据泄露事件可能也不多,因此实际应用中也可能收集到大量的并不清楚是否属于敏感数据的样本设备使用数据。而本实施例中需要为原始数据集中的数据配置标签,以表征该条数据是否属于敏感数据,使得模型后续能够在标签指示下得到较好的训练。模型的训练需要大量的训练数据,若对每条数据都手动配置标签需要耗费大量的人力物力,如何快速准确地为数据配置标签,将影响到模型的训练效率和效果。
本实施例中,可以预先准备表征发生数据泄露的数据作为敏感数据,可选的,这些敏感数据可以是已知发生数据泄露事件的数据,也可以由技术人员根据数据泄露事件的特征预先构建的。样本设备使用数据可以与这些已知的敏感数据进行相似度匹配,若相似度较高,可以认为两条数据基本相同,也即是该条数据属于敏感数据的可能性较大,可以将该样本设备使用数据配置属于敏感数据的标签;若相似度较低,可以认为两条数据基本不同,也即是可以认为该条数据属于敏感数据的可能性较小,可以将该样本设备使用数据配置上属于非敏感数据的标签。其中相似度可以是指数据内容的相似度,还可以是时序的相似度、金额方差的相似度或统计值等相似度。
实际应用中可以根据需要灵活配置样本设备使用数据与敏感数据的相似度匹配方式,可选的,可以采用word2vec等词向量方法进行相似度匹配,例如分别对所述原始数据集中数据和所述敏感数据提取词向量,利用提取的词向量对所述原始数据集中数据和所述敏感数据进行相似度匹配;针对一些离散型数据,也可以对数据采用独热编码(one hot)后,利用树模型等机器学习模型进行相似度匹配,例如分别对所述原始数据集中数据和所述敏感数据进行独热编码,根据所述所述原始数据集中数据的编码以及所述敏感数据的编码进行相似度匹配。
训练过程的另一方面,是需要确定合适的特征。在原始数据集中的数据配置有标签、以及确定特征后,才可获得能够用于训练模型的训练数据集。本说明书的一个实施例中,可以通过特征工程提取所述原始数据集中数据的特征,例如可以由由业务方人员自行选取和配置具体的特征类型,还可以利用自动特征工具实现特征的自动提取,也可以是两者相结合的方式。
作为例子,上述方式是由自动特征工程是通用场景的方式,适用于一些通用的敏感特征,例如数据中包含的用户的银行卡、用户的身份证或住址等个人隐私信息。实际应用中也可能面临多种业务场景,不同业务场景中对于敏感数据的定义可能不同。基于此,本实施例中还可以对样本设备使用数据按照业务场景进行分类,使得最终获得的训练数据集可以针对不同业务场景进行区分,每种类型的训练数据集对应一种业务场景,并且不同业务场景可以配置不同的机器学习模型进行训练。作为例子,在某些特定的业务场景可能有一些特定数据,比如商户营销场景中涉及商户的交易金额等敏感信息,在该商户营销业务场景中,这些商户的交易金额等敏感信息也是机密数据不允许外泄的,因此可以针对该业务场景进行相应的特征工程,并可根据前述方案自动配置数据的标签,从而获得相应的训练数据集。
本实施例中,可以通过特征工程提取所述原始数据集中数据的特征,同时所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定。基于此,本实施例实现了特征的自动提取,也实现了标签的自动配置,从而可以减少大量的人力物力投入。
在准备有上述训练数据集后,数据泄露识别模型可以利用训练数据集对机器学习模型训练得到。本实施例的机器学习模型可以包括树模型、逻辑回归模型、随机森林模型、贝叶斯方法模型、支持向量机模型或神经网络模型等等,模型的选择影响最终所训练得到的识别模型的精确度,因此,实际应用中可以选择多种模型进行训练,而训练过程较为耗时,需要复杂、迭代,经常不断地去试错和重复。
通过上述方式,业务方准备好训练数据集,选取好目标特征和模型,即可预先训练出数据泄露识别模型,在数据泄露识别模型训练完成后,该数据泄露识别模型可以设置于被监控对象的电子设备中也可以设置于服务端中,在需要时,通过采集被监控对象在使用电子设备过程中产生的设备使用数据,利用该设备使用数据进行数据泄露识别。
如图2所示,是本说明书根据一示例性实施例示出的另一种数据泄露识别方法,包括如下步骤:
步骤202中,获取被监控对象在使用电子设备过程中产生的设备使用数据。
步骤204中,获取所述设备使用数据的目标特征。
步骤206中,将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
本说明书实施例中数据泄露识别模型的训练过程可参考前述图1A和图1B所示实施例的说明,在此不再赘述。可选的,本实施例的数据泄露识别模型可以有一个,也可以有多个。作为例子,所述数据泄露识别模型包括有一通用数据泄露识别模型,训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的;上述方式是由自动特征工程是通用场景的方式,适用于一些通用的敏感特征,例如数据中包含的用户的银行卡、用户的身份证或住址等个人隐私信息。基于此,所述将所述设备使用数据的目标特征输入至数据泄露识别模型,可以包括:将所述设备使用数据的目标特征输入至所述通用数据泄露识别模型。在另一些例子中,实际应用中也可能面临多种业务场景,不同业务场景中对于敏感数据的定义可能不同。基于此,本实施例中还可以对样本设备使用数据按照业务场景进行分类,使得最终获得的训练数据集可以针对不同业务场景进行区分,所述数据泄露识别模型有多个,所述数据泄露识别模型与业务场景相对应,所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到;所述将所述设备使用数据的目标特征输入至数据泄露识别模型,包括:根据所述设备使用数据所属的业务场景,将所述设备使用数据的目标特征输入至与其所属的业务场景相对应的数据泄露识别模型。在包括有多个模型的情况下,例如上述包括通用数据泄露识别模型和对应业务场景的数据泄露识别模型,可以将设备使用数据的目标特征分别输入至通用数据泄露识别模型和对应业务场景的数据泄露识别模型中,根据通用数据泄露识别模型的识别结果以及对应业务场景的数据泄露识别模型的识别结果,确定最终的数据泄露识别结果。
与前述数据泄露识别方法的实施例相对应,本说明书还提供了数据泄露识别装置及其所应用的终端的实施例。
本说明书数据泄露识别装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书数据泄露识别装置所在计算机设备的一种硬件结构图,除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外,实施例中装置331所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图4所示,图4是本说明书根据一示例性实施例示出的一种数据泄露识别装置的框图,所述装置包括:
获取模块41,用于:获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;
特征工程模块42,用于:通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;
训练模块43,用于:利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
可选的,所述样本设备使用数据包括如下一种或多种:指示样本监控对象将电子设备本地文件传输至其他存储位置的数据、指示样本监控对象使用指定软件的数据。
可选的,所述敏感数据是根据数据泄露事件的特征预先构建的。
可选的,所述相似度匹配的方式包括如下一种或多种:
分别对所述原始数据集中数据和所述敏感数据提取词向量,利用提取的词向量对所述原始数据集中数据和所述敏感数据进行相似度匹配;
分别对所述原始数据集中数据和所述敏感数据进行独热编码,根据所述所述原始数据集中数据的编码以及所述敏感数据的编码进行相似度匹配。
可选的,所述数据泄露识别模型有多个,所述数据泄露识别模型与业务场景相对应,所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到。
可选的,所述数据泄露识别模型包括有一通用数据泄露识别模型,训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的。
如图5所示,图5是本说明书根据一示例性实施例示出的另一种数据泄露识别装置的框图,包括:
数据获取模块51,用于:获取被监控对象在使用电子设备过程中产生的设备使用数据;
特征获取模块52,用于:获取所述设备使用数据的目标特征;
模型识别模块53,用于:将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
可选的,所述敏感数据是根据数据泄露事件的特征预先构建的。
可选的,所述数据泄露识别模型有多个,所述数据泄露识别模型与业务场景相对应,所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到;
所述模型识别模块,还用于:
根据所述设备使用数据所属的业务场景,将所述设备使用数据的目标特征输入至与其所属的业务场景相对应的数据泄露识别模型。
可选的,所述数据泄露识别模型包括有一通用数据泄露识别模型,训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的;
所述模型识别模块,还用于:
将所述设备使用数据的目标特征输入至所述通用数据泄露识别模型。
所述模型识别模块,还用于:
根据所述与其所属的业务场景相对应的数据泄露识别模型的识别结果以及所述通用数据泄露识别模型的识别结果,对被监控对象进行数据泄露识别。
相应的,本说明书还提供提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现前述数据泄露识别方法实施例。
上述数据泄露识别装置中各个模块的功能和作用的实现过程具体详见上述数据泄露识别方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里实施例的方案后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (14)
1.一种数据泄露识别方法,包括:
获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;
通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;
利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
2.根据权利要求1所述的方法,所述样本设备使用数据包括如下一种或多种:指示样本监控对象将电子设备本地文件传输至其他存储位置的数据、指示样本监控对象使用指定软件的数据。
3.根据权利要求1所述的方法,所述敏感数据是根据数据泄露事件的特征预先构建的。
4.根据权利要求1所述的方法,所述相似度匹配的方式包括如下一种或多种:
分别对所述原始数据集中数据和所述敏感数据提取词向量,利用提取的词向量对所述原始数据集中数据和所述敏感数据进行相似度匹配;
分别对所述原始数据集中数据和所述敏感数据进行独热编码,根据所述所述原始数据集中数据的编码以及所述敏感数据的编码进行相似度匹配。
5.根据权利要求1所述的方法,所述数据泄露识别模型有多个,所述数据泄露识别模型与业务场景相对应,所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到。
6.根据权利要求1或5所述的方法,所述数据泄露识别模型包括有一通用数据泄露识别模型,训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的。
7.一种数据泄露识别方法,包括:
获取被监控对象在使用电子设备过程中产生的设备使用数据;
获取所述设备使用数据的目标特征;
将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
8.根据权利要求7所述的方法,所述敏感数据是根据数据泄露事件的特征预先构建的。
9.根据权利要求7所述的方法,所述数据泄露识别模型有多个,所述数据泄露识别模型与业务场景相对应,所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到;
所述将所述设备使用数据的目标特征输入至数据泄露识别模型,包括:
根据所述设备使用数据所属的业务场景,将所述设备使用数据的目标特征输入至与其所属的业务场景相对应的数据泄露识别模型。
10.根据权利要求7或9所述的方法,所述数据泄露识别模型包括有一通用数据泄露识别模型,训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的;
所述将所述设备使用数据的目标特征输入至数据泄露识别模型,包括:
将所述设备使用数据的目标特征输入至所述通用数据泄露识别模型。
11.根据权利要求9所述的方法,所述利用所述数据泄露识别模型对被监控对象进行数据泄露识别,包括:
根据所述与其所属的业务场景相对应的数据泄露识别模型的识别结果以及所述通用数据泄露识别模型的识别结果,对被监控对象进行数据泄露识别。
12.一种数据泄露识别装置,所述装置包括:
获取模块,用于:获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;
特征工程模块,用于:通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;
训练模块,用于:利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。
13.一种数据泄露识别装置,所述装置包括:
数据获取模块,用于:获取被监控对象在使用电子设备过程中产生的设备使用数据;
特征获取模块,用于:获取所述设备使用数据的目标特征;
模型识别模块,用于:将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至11任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910935293.5A CN110717189A (zh) | 2019-09-29 | 2019-09-29 | 数据泄露识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910935293.5A CN110717189A (zh) | 2019-09-29 | 2019-09-29 | 数据泄露识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717189A true CN110717189A (zh) | 2020-01-21 |
Family
ID=69211133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910935293.5A Pending CN110717189A (zh) | 2019-09-29 | 2019-09-29 | 数据泄露识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717189A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353174A (zh) * | 2020-03-16 | 2020-06-30 | 刘琴 | 一种医疗机构的私密客户信息管理系统及方法 |
CN112069046A (zh) * | 2020-08-28 | 2020-12-11 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112463603A (zh) * | 2020-11-25 | 2021-03-09 | 北京达佳互联信息技术有限公司 | 内存泄漏的检测方法、装置、终端及存储介质 |
CN112685775A (zh) * | 2020-12-29 | 2021-04-20 | 北京八分量信息科技有限公司 | 区块链系统中数据防泄漏的监测方法、装置及相关产品 |
CN112702339A (zh) * | 2020-12-23 | 2021-04-23 | 中移(杭州)信息技术有限公司 | 基于深度迁移学习的异常流量监测与分析方法和装置 |
CN116108491A (zh) * | 2023-04-04 | 2023-05-12 | 杭州海康威视数字技术股份有限公司 | 基于半监督联邦学习的数据泄露预警方法、装置及系统 |
CN117896136A (zh) * | 2024-01-09 | 2024-04-16 | 北京中睿天下信息技术有限公司 | 一种敏感文件明文传输风险预警处置方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107196844A (zh) * | 2016-11-28 | 2017-09-22 | 北京神州泰岳信息安全技术有限公司 | 异常邮件识别方法及装置 |
CN107292193A (zh) * | 2017-05-25 | 2017-10-24 | 北京北信源软件股份有限公司 | 一种实现数据泄露防护的方法和系统 |
KR101867299B1 (ko) * | 2016-08-10 | 2018-06-14 | 숭실대학교산학협력단 | 정보 유출 위험도 판단 방법 및 장치 |
CN110222880A (zh) * | 2019-05-20 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 业务风险的确定方法、模型训练方法和数据处理方法 |
-
2019
- 2019-09-29 CN CN201910935293.5A patent/CN110717189A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101867299B1 (ko) * | 2016-08-10 | 2018-06-14 | 숭실대학교산학협력단 | 정보 유출 위험도 판단 방법 및 장치 |
CN107196844A (zh) * | 2016-11-28 | 2017-09-22 | 北京神州泰岳信息安全技术有限公司 | 异常邮件识别方法及装置 |
CN107292193A (zh) * | 2017-05-25 | 2017-10-24 | 北京北信源软件股份有限公司 | 一种实现数据泄露防护的方法和系统 |
CN110222880A (zh) * | 2019-05-20 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 业务风险的确定方法、模型训练方法和数据处理方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353174A (zh) * | 2020-03-16 | 2020-06-30 | 刘琴 | 一种医疗机构的私密客户信息管理系统及方法 |
CN111353174B (zh) * | 2020-03-16 | 2021-06-11 | 杭州康晟健康管理咨询有限公司 | 一种医疗机构的私密客户信息管理系统及方法 |
CN112069046A (zh) * | 2020-08-28 | 2020-12-11 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112069046B (zh) * | 2020-08-28 | 2022-03-29 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112463603A (zh) * | 2020-11-25 | 2021-03-09 | 北京达佳互联信息技术有限公司 | 内存泄漏的检测方法、装置、终端及存储介质 |
CN112702339A (zh) * | 2020-12-23 | 2021-04-23 | 中移(杭州)信息技术有限公司 | 基于深度迁移学习的异常流量监测与分析方法和装置 |
CN112685775A (zh) * | 2020-12-29 | 2021-04-20 | 北京八分量信息科技有限公司 | 区块链系统中数据防泄漏的监测方法、装置及相关产品 |
CN116108491A (zh) * | 2023-04-04 | 2023-05-12 | 杭州海康威视数字技术股份有限公司 | 基于半监督联邦学习的数据泄露预警方法、装置及系统 |
CN116108491B (zh) * | 2023-04-04 | 2024-03-22 | 杭州海康威视数字技术股份有限公司 | 基于半监督联邦学习的数据泄露预警方法、装置及系统 |
CN117896136A (zh) * | 2024-01-09 | 2024-04-16 | 北京中睿天下信息技术有限公司 | 一种敏感文件明文传输风险预警处置方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717189A (zh) | 数据泄露识别方法、装置及设备 | |
CN108009915B (zh) | 一种欺诈用户社区的标记方法及相关装置 | |
CN106874134B (zh) | 工单类型的处理方法、装置及系统 | |
CN109120429B (zh) | 一种风险识别方法及系统 | |
CN109345417B (zh) | 基于身份认证的业务人员的在线考核方法及终端设备 | |
CN111340558B (zh) | 基于联邦学习的线上信息处理方法、装置、设备及介质 | |
CN107733967A (zh) | 推送信息的处理方法、装置、计算机设备和存储介质 | |
JP5933085B1 (ja) | 情報収集システム及び情報管理システム | |
CN112348005A (zh) | 双录审核方法、装置、客户端设备及存储介质 | |
CN108520045B (zh) | 数据的服务响应方法及装置 | |
CN111931189A (zh) | Api接口转用风险检测方法、装置和api服务系统 | |
WO2020019489A1 (zh) | 员工离职原因的预测方法及相关装置 | |
CN113553583A (zh) | 信息系统资产安全风险评估方法与装置 | |
CN110310028B (zh) | 用于众包的方法和装置 | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
CN113205130B (zh) | 一种数据审核方法、装置、电子设备及存储介质 | |
CN112699264A (zh) | 一种基于聊天记录的风控管理方法及系统 | |
CN111340062A (zh) | 一种映射关系确定方法及装置 | |
CN112817816B (zh) | 埋点处理方法、装置、计算机设备和存储介质 | |
CN115291762A (zh) | 业务项目的触发方法及装置、存储介质、计算机设备 | |
CN115048302A (zh) | 前端的兼容性测试方法及装置、存储介质、电子设备 | |
CN113806555A (zh) | 用于app的运营异常识别方法、系统、装置及存储介质 | |
CN113077288A (zh) | 消息推送方法、装置、计算机设备及计算机可读存储介质 | |
CN113569879A (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200121 |
|
RJ01 | Rejection of invention patent application after publication |