CN110866700B

CN110866700B - 确定企业员工信息泄露源的方法及装置

Info

Publication number: CN110866700B
Application number: CN201911136034.2A
Authority: CN
Inventors: 金波
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2022-04-12
Anticipated expiration: 2039-11-19
Also published as: CN110866700A

Abstract

本说明书实施例提供了确定企业员工信息泄露源的方法和装置。根据一个实施方式，首先从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据，然后，对候选数据进行预定处理，以从中获取员工信息访问记录，接着基于当前泄露员工信息的信息类型，通过员工信息访问记录确定至少一个可疑泄露源；进一步地，利用对各个可疑泄露源的风险分析，从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。该实施方式用于个人数据保护，在对被泄露的隐私信息溯源时，对于繁杂的流量数据进行多重筛选过滤，从而大大减少数据处理量，同时结合机器学习方法，可以提高信息泄露溯源的有效性。

Description

确定企业员工信息泄露源的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及确定企业员工信息泄露源的方法及装置。

背景技术

随着互联网的发展，各种办公平台为企业提供了越来越多的便利。例如，方便对员工统一管理、员工信息透明等等。然而，伴随着便利，也可能产生新的问题，例如员工信息泄露的风险大大增加。员工为了私利，采用技术手段或非技术手段获取其他员工信息，或者办公系统受到攻击，都可能造成员工信息的泄露。

由于办公平台涉及大量员工隐私信息，企业员工信息泄露属于典型的个人隐私信息泄露案件。企业员工信息泄露，对于被泄露者正常生活等，可能造成较大不良影响，如：频繁被第三方骚扰(中介、猎头、恶意骚扰等)；不法黑产利用已泄露信息挖掘深层个人信息，用于非法交易，导致资金类损失；被第三方数据公司利用，支撑个性化推荐营销，俗称大数据杀熟；企业骨干员工、高层员工信息泄露，严重时也会对企业组织稳定性造成不利影响；等等。因此，企业员工信息泄露后，如何快速定位泄露渠道，及时止损，对于企业信息的数据安全控制至关重要。

然而，企业平台的数据流量巨大，而且往往包含非结构化数据，对信息梳理和泄露源定位造成困扰。

发明内容

本说明书一个或多个实施例描述的确定企业员工信息泄露源的方法及装置，可以用于解决背景技术部分提到的一个或多个问题。

根据第一方面，提供了一种确定企业员工信息泄露源的方法，所述方法包括：从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据；对所述候选数据进行预定处理，以从中获取员工信息访问记录，其中，所述预定处理包括以下至少一项：命名体识别、正则过滤；基于当前泄露员工信息的信息类型，通过所述员工信息访问记录确定至少一个可疑泄露源；利用对各个可疑泄露源的风险分析，从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。

在一个实施例中，所述从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据包括：将预定目标信息作为关键字段，对流量服务器的办公日志数据进行检索，其中，所述预定目标信息包括，目标办公系统域名、目标服务器名称、目标办公系统IP中的至少一项；将所检索出的数据作为候选数据。

在一个实施例中，所述候选数据包括第一访问数据，在所述预定处理包括命名体识别的情况下，所述对所述候选数据进行预定处理，以从中获取员工信息访问记录包括：将所述第一访问数据经过分词处理后的词汇序列输入预先训练的命名体识别模型；根据所述命名体识别模型输出的词汇序列，确定所述第一访问数据是否为员工信息访问记录。

在一个实施例中，在所述预定处理包括正则过滤的情况下，所述对所述候选数据进行预定处理，以从中获取员工信息访问记录包括：依次将各种信息类型的员工信息分别对应的描述信息作为检索条件，对所述候选数据中的各条访问记录分别进行检索；将满足检索条件的访问记录确定为员工信息访问记录。

在一个实施例中，所述利用对各个可疑泄露源的风险分析，从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源包括：利用预先训练的风险模型对各个可疑泄露源分别预测各个风险分数；基于各个风险分数的排序确定目标泄露源。

在一个实施例中，所述基于各个风险分数的排序确定目标泄露源包括以下中的一项：将风险分数最大的可疑泄露源确定为目标泄露源；按照各个分析按分数由大到小的排列顺序，逐个检测相应的可疑泄露源，直至检测到目标泄露源。

在一个实施例中，所述可疑泄露源包括可疑员工；所述风险模型通过以下方式训练：将多条员工数据作为各个训练样本，各个训练样本分别对应从相应员工的历史行为数据和/或人际关系数据中提取的样本特征，以及预先标注的样本风险标签；利用各个训练样本训练所述风险模型。

在一个实施例中，所述可疑泄露源包括可疑系统；所述风险模型通过以下方式训练：将多条系统数据作为各个训练样本，各个训练样本分别对应从相应系统的风险评估项中提取的样本特征，以及预先标注的样本风险标签；利用各个训练样本训练所述风险模型。

根据第二方面，提供了一种确定企业员工信息泄露源的装置，所述装置包括：

第一筛选单元，配置为从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据；

第二筛选单元，配置为对所述候选数据进行预定处理，以从中获取员工信息访问记录，其中，所述预定处理包括以下至少一项：命名体识别、正则过滤；

第三筛选单元，配置为基于当前泄露员工信息的信息类型，通过所述员工信息访问记录确定至少一个可疑泄露源；

确定单元，配置为利用对各个可疑泄露源的风险分析，从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述第一方面的方法。

本说明书实施例提供了确定企业员工信息泄露源的方法和装置，可以首先从流量服务器经过初步筛选，得到候选数据，在对候选数据逐步筛选，确定可疑泄露源，大大减少对流量数据的数据处理量，从繁杂的流量数据中过滤出少量有效数据，从而有助于快速对被泄露员工信息的泄露主体进行溯源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书实施例的一个实施场景示意图；

图2示出根据一个实施例的确定企业员工信息泄露源的流程示意图；

图3示出根据一个实施例的确定企业员工信息泄露源的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

首先，结合图1示出一个具体实施场景进行说明。如图1所示，在该实施场景中，企业办公系统可以是企业内部局域网系统，例如Spanner办公网、钉钉办公系统等等，企业员工可以通过自己的计算机访问使用。流量服务器可以用于记录企业局域网的流量数据，例如局域网内不同地址之间或企业局域网与外网之间的请求(request body)数据包、响应(response body)数据包，等等。也就是说，企业局域网内，或者企业局域网与外网的数据流通，都可以经由流量服务器进行。可选地，流量服务器可以通过企业网关实现。

办公系统可以记录有员工的个人信息、工作信息等。例如企业内员工姓名、手机号码、邮箱、岗位、职级、地址、年龄等。有相应权限的员工可以通过办公系统访问不同类型的员工信息并进行相应操作。例如，人事部员工ID可以浏览和/或下载全体员工的员工信息，实习生ID只能浏览同级别员工的电话号码，等等。流量服务器可以记录企业内部的各种访问操作的流量数据，例如，员工A请求访问了办公系统的公司通讯录、员工B请求访问了外网的微博页面，等等。

该实施场景中还可以包括计算平台，计算平台用于为泄露的员工信息确定泄露源。事件中，泄露的员工信息可以是通过员工投诉获知，也可以通过对办公系统的访问数据的监控信息(如某个员工对某类信息集中访问条数是否超过设定阈值)获知，在此不做限定。假设计算平台获取的泄露的员工信息为当前员工信息，其可以从流量服务器的数据中获取各种流量数据，并从中筛选出与员工信息相关的数据作为候选数据。然后，再对候选信息进一步筛选，进一步地，根据当前泄露员工信息的信息类型确定可疑泄露源。可疑泄露源可以是员工，也可以是某个与办公系统相关的某个系统(如办公系统的子系统)。然后，针对各个可疑泄露源进行风险评估，从可疑泄露源中确定出目标泄露源。这种构思下，可以对流量服务器记录的流量数据进行多层过滤，使得提炼出的用于风险分析的可疑泄露源的数据流量大大减少。

下面详细描述确定企业员工信息泄露源的具体过程。

图2示出根据一个实施例的确定企业员工信息泄露源的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。例如图1示出的计算平台。图2示出的方法可以用于确定企业员工信息泄露源，尤其适用于针对日志数据为非结构化数据时的信息泄露源的确定。可以理解，结构化数据是按照一定结构规则记录的数据，例如按照表格形式记录的格式化数据。这种数据通常可以按照字段查询出相应情况。而非结构化数据包括半结构化数据和完全没有结构规则的数据。非结构化数据考虑各条数据之间的差异，可以是记录在备注里的数据，也可以是利用XML记录数据，等等。

如图2所示，确定企业员工信息泄露源的方法包括以下步骤：步骤201，从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据；步骤202，对候选数据进行预定处理，以从中获取包含预定信息类型的员工信息访问记录，其中，预定处理包括以下至少一项：命名体识别、正则过滤；步骤203，基于当前泄露员工信息的信息类型，从员工信息访问记录中确定至少一个可疑泄露源；步骤204，利用对各个可疑泄露源的风险分析，从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。

首先，通过步骤201，从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据。可以理解，流量服务器可以记载企业局域网，以及企业局域网与外网之间的各种访问数据，数据量庞大，需要对其进行初步过滤。而员工信息往往是企业内部办公系统上的信息，因此，可以将对办公系统的访问数据，作为候选数据。

通常，一次成功的数据访问可以包括访问请求数据以及相应的响应数据，这些数据都可以被流量服务器记录下来。访问请求可以包括发起访问者的员工号、姓名等信息，响应数据可以包含针对访问请求反馈的所有信息，例如页面的域名、服务器名、页面信息等等。同一网站或系统往往具有固定的服务器名，或者域名具有相同的前缀，或者具有相同的IP地址(网站IP和域名往往一一对应)。因此，根据一个可能的实施例，可以先对流量服务器的各条访问数据按照请求或响应数据中的目标办公系统域名、目标服务器名称、目标IP地址等信息，初步筛选出办公日志数据，作为候选数据。

其中，可以从流量服务器获取全部办公日志数据进行过滤筛选出候选数据，也可以对一定时间段内(如1个月)的办公日志数据进行过滤筛选出候选数据，本说明书实施例对此不做限定。

接着，在步骤202中，对候选数据进行预定处理，以从中获取员工信息访问记录。可以理解，办公系统的数据可以包括诸如员工信息、企业文化、通知、企业新闻之类的各种数据。而在本说明书实施例中，关注的是员工信息数据，因此，还需要对候选数据进一步筛选，挑选出针对员工信息的访问记录。

由于访问的多样性，流量服务器记载的数据里包括许多非结构化数据，例如，半结构化数据。如下表1所示：

在表1中，各列数据看起来是结构化数据，然而，第三列中，访问页面内容字段下记载的内容，其实包含着很多繁杂信息，这些信息都是没有经过梳理的非结构化信息。

在非结构化数据中，由于被访问数据不通过字段记录或不完全通过字段记录信息，例如记载了，“员工入职登记表电话号码岗位职称张三183********技术总监高级工程师……”，这样的情况下不能按照普通的字段检索来确定访问的是员工信息。因此，还需要对候选数据进行预定处理，从而进一步过滤出有效的员工信息访问记录。

在一个可能的实施方式中，预定处理包括命名体识别(named entityrecognition，NER)。命名体识别是信息抽取的一种，信息抽取就是从非结构化的文本中(例如，新闻)抽取结构化的数据和特定的关系。在定义信息抽取任务的过程中人们注意到识别信息单元的名称，像人名、机构名、地名、时间等是必不可少的，识别这种类别实体的名称，就叫做命名体识别。命名体识别可以通过机器学习模型实现，例如Bert(BidirectionalEncoder Representation from Transformers，双向编码译码算法)、BILSTM-CRF(双向循环神经网络+条件随机场)等等。

以Bert为例，可以将语料库中的多段非结构化数据作为训练样本，用从中标注出的命名体为标签(如岗位、姓名、地址等)，依次针对各个训练样本，将各段非结构化数据经过分词处理后，按顺序输入Bert模型，并输出命名体词汇序列，将输出的命名体序列与标注的命名体标签相对比，调整模型参数，从而对Bert模型进行训练。在本步骤202中，可以将各条访问记录中的非结构化数据，经过分词处理后按顺序输入预先训练的Bert模型，经Bert模型输出识别到的命名体词汇序列。值得说明的是，Bert模型输出的识别到的命名体词汇，通常和在训练Bert模型的过程中的标签类型一致，例如都是岗位名称、姓名、住址等类别的命名体。经过实验，使用Bert模型在岗位、住址等命名体识别中具有显著效果。

在另一种实施方式中，预定处理可以包括正则过滤。正则过滤就是通过设置的规则过滤出包含员工信息的访问记录。正则过滤处理方式中，预先设置的规则可以用于从不同维度描述员工信息，例如，数字+11位，用于描述电话号码，数字+18位用于描述身份证号。这些信息可以称为相应信息类型的员工信息对应的描述信息。每个信息类型的员工信息都可以对应有描述信息。具体地，可以将这些描述信息作为检索条件，对候选数据中的各条访问记录分别进行检索。如果发现满足相应规则的内容，就确定为疑似员工信息。相应的访问记录就确定为员工信息访问记录。本领域技术人员应当理解，这里仅仅给出了一个示例，实践中的正则过滤规则可能要复杂得多，例如手机号码还需要添加“130”、“150”、“186”等等数字开头的条件，在此不做详述。

在正则过滤方式中，针对某一个检索条件，可以按照各条访问记录，依次使用各个维度(例如上述例子中“数字”和“11位”是两个维度)的描述信息进行检索，直至判断出相应访问记录是员工信息访问记录，将其确定为员工信息访问记录，或者判断出相应访问记录不涉及员工信息。在正则过滤方式中，还可以按照员工信息的描述信息的各个维度，依次对各条访问记录进行检索，将检索到的访问记录确定为员工信息访问记录，其余的访问记录再利用下一维度的描述信息进行检索。

在一些实施例中，还可以将命名体识别与正则过滤相结合，例如，对识别到命名体的非结构化数据，在进一步按照正则过滤确定是否包含员工信息，大大减少正则过滤的数据处理量。

如此，可以对步骤201中获取的候选数据进一步过滤，进一步减少数据处理量。

在可选的实施方式中，针对步骤202中过滤的数据，还可以按照结构化数据进行记录。例如，按照所访问的信息类型(如身份证号、电话号码等)作为字段进行结构化数据记录，在此再赘述。

另外，从表1也可以看出，从非结构化数据中检索第二列“访问域名”对应的信息，相比直接从第三列的繁杂信息中检索员工信息，所要处理的数据量小的多。

接着，通过步骤203，基于当前泄露员工信息的信息类型，从员工信息访问记录中确定至少一个可疑泄露源。可以理解，员工信息可以包含各种信息类型，例如身份证号、电话号码、姓名、地址等等。在步骤202中过滤出了员工信息访问记录，这些访问记录所涉及的访问信息类型中，如果包含当前泄露员工信息的信息类型，那么访问者或者信息输出接口，就可以是可疑泄露源，或称为候选泄露源。

具体地，可以按照当前泄露员工信息的信息类型，例如身份证号等，直接从步骤202中的员工信息访问记录中检索，如果某条访问数据中被访问员工信息包含了当前泄露员工信息的信息类型的信息，那么访问请求的发起者，也就是访问者，可以作为可疑泄露源。在被访问信息被输出(例如被下载、被发送至其他网站、被通过电子邮件分享等等)的情况下，相应的输出接口(如下载接口、网址接口、电子邮件接口等等)，也可以作为可疑泄露源。

可以理解，步骤203相当于通过当前泄露员工信息的信息类型，被步骤202中的数据又进一步进行了一次更精准的过滤。

进一步地，在步骤204，利用对各个可疑泄露源的风险分析，从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。可以理解，可以泄露源包含了所有可能泄露员工信息的可疑员工或可疑系统，还需要对各个可疑泄露源逐个分析，才能确定出最终的目标泄露源。

通常，风险性越大的可以泄露源，泄露当前泄露员工信息的可能性越大。因此，在本步骤204中，可以先对各个可疑泄露源进行风险分析，以确定其风险性。

在一个实施例中，可疑泄露源为可疑员工，可以根据员工的历史行为数据和/或人际关系数据进行风险分析。员工的历史行为数据例如是，是否曾经泄露员工信息、累计访问员工信息条数、预定时间段内访问员工信息条数等等。容易理解，如果一个员工曾经泄露过员工信息，那么其风险度相应较高，如果一个员工累计访问员工信息条数超过预定条数，或者短时间内集中访问员工信息条数超过预定数量，那么其风险度也可能较高。人际关系数据可以用于描述员工的人脉关系状态，例如是否处于与被泄露员工信息的员工的竞争中(如竞选某个职位)、是否上级管理者处于与被泄露员工信息的员工的竞争中(如竞选某个职位)、是否与风险员工交互频繁，等等。

在一个可选的实现方式中，可以使用诸如GBDT(梯度提升决策树)、回归算法之类的模型对员工的风险性进行预测。其中，以GBDT作为预测模型为例，可以将多个员工的相关数据作为训练样本，每个训练样本对应一个员工，从该员工的历史行为信息和/或当前关系状态数据中提取样本特征，并对应预先标注的“风险员工”或“非风险员工”作为样本风险标签，依次将各个训练样本的样本特征输入GBDT模型，根据相应样本风险标签调整模型参数，以训练预测模型。其中，样本标签可以用预定数值范围的两个端点表示，例如0和1，这样，预测模型的输出结果可以是对应到具体类别的端点值，也可以是两个端点值之间的值(该值可以换算成对应到某个类别的概率)。

获取作为可疑泄露源的员工的历史行为数据后，可以从中提取其行为特征，然后将行为特征输入预测模型，根据预测模型的输出结果确定其风险分数。

在另一个实施例中，对于系统可疑泄露源为可疑系统，可以利用系统风险评估项对其进行分析。系统风险评估项例如可以包括但不限于以下至少一项：是否存在系统漏洞、是否向办公系统之外的地址输出数据、是否在不包含用户信息的输出页面包含了员工信息、请求IP是否业务IP之外的IP，等等。可选地，系统风险性的分析也可以使用诸如GBDT(梯度提升决策树)、回归算法之类的预测模型进行。预测模型的输出结果为可疑系统的风险分数。针对系统的预测模型在训练时利用多条系统数据作为各个训练样本，各个训练样本分别对应从相应系统的风险评估项中提取的样本特征，以及预先标注的样本风险标签，其训练和预测方式与针对员工的风险模型的训练和预测方式一致，在此不再赘述。

值得说明的是，针对系统的风险模型与针对员工的风险模型可以是同一个风险模型，也可以相互独立的风险模型，本说明书对此不做限定。

根据一个可能的设计，可以将风险分数最高的可疑泄露源确定为目标泄露源。这种情况下可以直接确定出泄露用户信息的业务方，无需人工参与。

然而，实践中，风险分数最高的可疑泄露源可能存在较大风险，但本次不一样是泄露用户信息的业务方。因此，在另一个可能的实施例中，可以按照风险分数从大到小的方式对各个可疑泄露源进行排序，并按顺序依次人工排查各个可疑泄露源，直至查到泄露员工信息的证据，将相应的可疑泄露源确定为目标泄露源。由于对可疑泄露源逐个进行排查求证，直到确定出泄露员工信息的目标泄露源为止，这种方式最终确定的目标泄露源更加精准，并且将可疑泄露源按照风险分数由高到低进行排序，可以尽可能地减轻排查工作量。

回顾以上过程，本说明书实施例所提供的确定企业员工信息泄露源的方法，可以利用不同的方法递进式过滤企业网管的流量数据，减少数据处理量，极大地降低数据处理量。在一个具体的实验案例中，使用本说明书描述的实施架构前，每小时处理的流量数据可达到TB(万亿字节)级别，每天处理的流量数据在百TB左右，使用本说明书描述的实施架构之后，一年处理的流量数据仅为2TB左右，与原来1小时处理的流量数据在相同量级，数据量极大降低。

根据另一方面的实施例，还提供一种确定企业员工信息泄露源的装置。图3示出根据一个实施例的确定企业员工信息泄露源的装置的示意性框图。如图3所示，确定企业员工信息泄露源的装置300包括：

第一筛选单元31，配置为从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据；

第二筛选单元32，配置为对候选数据进行预定处理，以从中获取员工信息访问记录，其中，预定处理包括以下至少一项：命名体识别、正则过滤；

第三筛选单元33，配置为基于当前泄露员工信息的信息类型，通过员工信息访问记录确定至少一个可疑泄露源；

确定单元34，配置为利用对各个可疑泄露源的风险分析，从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。

根据一个实施方式，第一筛选单元31进一步配置为：

将预定目标信息作为关键字段，对流量服务器的办公日志数据进行检索，其中，预定目标信息包括，目标办公系统域名、目标服务器名称、目标办公系统IP中的至少一项；

将所检索出的数据作为候选数据。

根据一个实施方式，候选数据包括第一访问数据，在预定处理包括命名体识别的情况下，第二筛选单元32还配置为：

将第一访问数据经过分词处理后的词汇序列输入预先训练的命名体识别模型；

根据命名体识别模型输出的词汇序列，确定第一访问数据是否为员工信息访问记录。

根据一个实施方式，在预定处理包括正则过滤的情况下，第二筛选单元32还配置为：

依次将各种信息类型的员工信息分别对应的描述信息作为检索条件，对候选数据中的各条访问记录分别进行检索；

将满足检索条件的访问记录确定为员工信息访问记录。

根据一个实施方式，确定单元34还配置为：

利用预先训练的风险模型对各个可疑泄露源分别预测各个风险分数；

基于各个风险分数的排序确定目标泄露源。

根据一个进一步的实施方式，确定单元34还配置为，通过以下中的一项基于各个风险分数的排序确定目标泄露源：

将风险分数最大的可疑泄露源确定为目标泄露源；

按照各个分析按分数由大到小的排列顺序，逐个检测相应的可疑泄露源，直至检测到目标泄露源。

值得说明的是，以上对图3所示的确定企业员工信息泄露源的装置300，与图2示出的方法实施例相对应，图2对应的方法实施例中的相应描述也适用于图3所示的确定企业员工信息泄露源的装置，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序在计算机中执行时，令计算机执行相应描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现相应描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所描述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所描述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书的技术构思的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种确定企业员工信息泄露源的方法，所述方法包括：

从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据；

对所述候选数据进行预定处理，以从中获取员工信息访问记录，其中，所述预定处理包括以下至少一项：命名体识别、正则过滤；

基于当前泄露员工信息的信息类型，通过所述员工信息访问记录确定至少一个可疑泄露源，可疑泄露源为访问者或者信息输出接口；

利用对各个可疑泄露源的风险分析，从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。

2.根据权利要求1所述的方法，其中，所述从流量服务器的办公日志数据中获取针对办公系统的访问数据，作为候选数据包括：

将预定目标信息作为关键字段，对流量服务器的办公日志数据进行检索，其中，所述预定目标信息包括，目标办公系统域名、目标办公系统IP、目标服务器名称中的至少一项；

将所检索出的数据作为候选数据。

3.根据权利要求1所述的方法，其中，所述候选数据包括第一访问数据，在所述预定处理包括命名体识别的情况下，所述对所述候选数据进行预定处理，以从中获取员工信息访问记录包括：

将所述第一访问数据经过分词处理后的词汇序列输入预先训练的命名体识别模型；

根据所述命名体识别模型输出的词汇序列，确定所述第一访问数据是否为员工信息访问记录。

4.根据权利要求1所述的方法，其中，在所述预定处理包括正则过滤的情况下，所述对所述候选数据进行预定处理，以从中获取员工信息访问记录包括：

依次将各种信息类型的员工信息分别对应的描述信息作为检索条件，对所述候选数据中的各条访问记录分别进行检索；

将满足所述检索条件的访问记录确定为员工信息访问记录。

5.根据权利要求1所述的方法，其中，所述利用对各个可疑泄露源的风险分析，从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源包括：

基于各个风险分数的排序确定目标泄露源。

6.根据权利要求5所述的方法，其中，所述基于各个风险分数的排序确定目标泄露源包括以下中的一项：

将风险分数最大的可疑泄露源确定为目标泄露源；

按照各个风险分数由大到小的排列顺序，逐个检测相应的可疑泄露源，直至检测到目标泄露源。

7.根据权利要求5所述的方法，其中，所述可疑泄露源包括可疑员工；所述风险模型通过以下方式训练：

将多条员工数据作为各个训练样本，各个训练样本分别对应从相应员工的历史行为数据和/或人际关系数据中提取的样本特征，以及预先标注的样本风险标签；

利用各个训练样本训练所述风险模型。

8.根据权利要求5所述的方法，其中，所述可疑泄露源包括可疑系统；所述风险模型通过以下方式训练：

将多条系统数据作为各个训练样本，各个训练样本分别对应从相应系统的风险评估项中提取的样本特征，以及预先标注的样本风险标签；

利用各个训练样本训练所述风险模型。

9.一种确定企业员工信息泄露源的装置，所述装置包括：

第三筛选单元，配置为基于当前泄露员工信息的信息类型，通过所述员工信息访问记录确定至少一个可疑泄露源，可疑泄露源为访问者或者信息输出接口；

10.根据权利要求9所述的装置，其中，所述第一筛选单元进一步配置为：

将所检索出的数据作为候选数据。

11.根据权利要求9所述的装置，其中，所述候选数据包括第一访问数据，在所述预定处理包括命名体识别的情况下，所述第二筛选单元还配置为：

12.根据权利要求9所述的装置，其中，在所述预定处理包括正则过滤的情况下，所述第二筛选单元还配置为：

将满足所述检索条件的访问记录确定为员工信息访问记录。

13.根据权利要求9所述的装置，其中，所述确定单元还配置为：

基于各个风险分数的排序确定目标泄露源。

14.根据权利要求13所述的装置，其中，所述确定单元进一步配置为，通过以下中的一项基于各个风险分数的排序确定目标泄露源：

将风险分数最大的可疑泄露源确定为目标泄露源；

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。