发明内容
本说明书实施例提供一种数据处理的方法、装置及设备,用于解决现有通过人工维护权限字典,来管理维护业务系统中各权限的方法效率较低的问题。
本说明书实施例采用下述技术方案:
一种数据处理的方法,包括:
根据对各权限的文本内容进行分词的结果,确定词汇集;
根据预设类型,确定所述词汇集中各词汇的类型;
针对每个权限,根据该权限中属于各类型的词汇的词频,确定该权限的属性;
将确定属性的各权限作为训练样本,训练得到分类模型,以根据所述分类模型对业务系统中的权限进行分类。
一种数据处理的方法,包括:
确定若干权限对;
针对每个权限对,根据预设的权限与业务部门的对应关系,以及上述方法确定出的权限类型,确定该权限对是否互斥;
计算该权限对中的两个权限在各维度的文本内容上的相似度,作为该权限对的属性;
将互斥的权限对作为正例训练样本,将非互斥的权限对作为负例训练样本,训练互斥权限对识别模型,以根据所述互斥权限对识别模型对业务系统中的权限互斥对进行识别。
一种数据处理的方法,包括:
确定权限使用日志;
根据所述权限使用日志,确定各权限获取指定类型信息的数量,以及各权限的敏感级;
针对每个权限,根据上述方法确定该权限类型,以及该权限的特征,确定该权限的属性,其中,该权限对应特征至少包括:权限对应的业务页面特征;
根据对各权限的敏感级以及各权限的属性,生成训练样本,训练权限敏感级预测模型,以对待确定敏感级的权限进行敏感级预测。
一种数据处理的装置,包括:
词汇确定模块,根据对各权限的文本内容进行分词的结果,确定词汇集;
类型确定模块,根据预设类型,确定所述词汇集中各词汇的类型;
属性确定模块,针对每个权限,根据该权限中属于各类型的词汇的词频,确定该权限的属性;
训练处理模块,将确定属性的各权限作为训练样本,训练得到分类模型,以根据所述分类模型对业务系统中的权限进行分类。
一种数据处理的装置,包括:
权限对确定模块,确定若干权限对;
关系确定模块,针对每个权限对,根据预设的权限与业务部门的对应关系,以及上述方法确定出的权限类型,确定该权限对是否互斥;
属性确定模块,计算该权限对中的两个权限在各维度的文本内容上的相似度,作为该权限对的属性;
训练处理模块,将互斥的权限对作为正例训练样本,将非互斥的权限对作为负例训练样本,训练互斥权限对识别模型,以根据所述互斥权限对识别模型对业务系统中的权限互斥对进行识别。
一种数据处理的装置,包括:
日志确定模块,确定权限使用日志;
信息确定模块,根据所述权限使用日志,确定各权限获取指定类型信息的数量,以及各权限的敏感级;
属性确定模块,针对每个权限,根据上述方法确定该权限类型,以及该权限的特征,确定该权限的属性,其中,该权限对应特征至少包括:权限对应的业务页面特征;
训练处理模块,根据对各权限的敏感级以及各权限的属性,生成训练样本,训练权限敏感级预测模型,以对待确定敏感级的权限进行敏感级预测。
一种服务器,其中,所述服务器包括:一个或多个处理器及存储器,存储器存储有程序,并且被配置成由一个或多个处理器执行以下步骤:
根据对各权限的文本内容进行分词的结果,确定词汇集;
根据预设类型,确定所述词汇集中各词汇的类型;
针对每个权限,根据该权限中属于各类型的词汇的词频,确定该权限的属性;
将确定属性的各权限作为训练样本,训练得到分类模型,以根据所述分类模型对业务系统中的权限进行分类。
一种服务器,其中,所述服务器包括:一个或多个处理器及存储器,存储器存储有程序,并且被配置成由一个或多个处理器执行以下步骤:
确定若干权限对;
针对每个权限对,根据预设的权限与业务部门的对应关系,以及上述方法确定出的权限类型,确定该权限对是否互斥;
计算该权限对中的两个权限在各维度的文本内容上的相似度,作为该权限对的属性;
将互斥的权限对作为正例训练样本,将非互斥的权限对作为负例训练样本,训练互斥权限对识别模型,以根据所述互斥权限对识别模型对业务系统中的权限互斥对进行识别。
一种服务器,其中,所述服务器包括:一个或多个处理器及存储器,存储器存储有程序,并且被配置成由一个或多个处理器执行以下步骤:
确定权限使用日志;
根据所述权限使用日志,确定各权限获取指定类型信息的数量,以及各权限的敏感级;
针对每个权限,根据上述方法确定该权限类型,以及该权限的特征,确定该权限的属性,其中,该权限对应特征至少包括:权限对应的业务页面特征;
根据对各权限的敏感级以及各权限的属性,生成训练样本,训练权限敏感级预测模型,以对待确定敏感级的权限进行敏感级预测。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过本说明书提供的方法、装置以及设备,通过对权限中文本内容进行分词的结果,确定业务系统中权限对应的词汇集。之后通过对各词汇进行分类,以及确定各权限中各类型词汇的词频,确定权限的属性。最后,将确定属性的权限,作为训练样本,训练得到分类模型,以根据该分类模型确定业务系统中各权限的类型。通过本说明书提供的方法,通过训练得到的分类模型确定权限的类型,避免了人工管理权限的缺陷,提高了权限管理效率以及准确率。附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种数据处理过程;
图2为本说明书实施例提供的一种业务系统以及权限隶属的示意图;
图3为本说明书实施例提供的另一种数据处理过程;
图4为本说明书实施例提供的另一种数据处理过程;
图5为本说明书实施例提供的一种数据处理装置的结构示意图;
图6为本说明书实施例提供的另一种数据处理装置的结构示意图;
图7为本说明书实施例提供的另一种数据处理装置的结构示意图;
图8为本说明书实施例提供的一种服务器的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为说明书实施例提供的一种数据处理的过程,具体可包括以下步骤:
S100:根据对各权限的文本内容进行分词的结果,确定词汇集。
在本说明书一个或多个实施例中,所述数据处理过程,具体为对权限进行管理以及维护的过程,为了方便描述以业务系统为例进行说明。其中,该业务系统内可包含若干业务部门,每个业务部门可以创建、下发以及使用权限。因此,业务系统中可包含若干不同隶属关系,不同功能的权限。本说明书对于该业务系统具体执行何种业务,以及对于权限的内容不做限定。
图2为本说明书实施例提供一种业务系统以及权限隶属的示意图,该业务系统中包括不同的部门,如风控部、A业务部、B业务部、登录管理部门等等,并且,不同部门之间存在上下级关系,权限a~e由不完全相同的业务部门创建,并且可下发给其他部门使用,或者自己使用。
具体的,在本说明书中可由该业务系统的服务器执行该数据处理过程,该服务器可以是单独的一台设备,或者也可以是多台设备组成的系统(如,分布式服务器)本说明书对此不做限定。同时,由于该服务器需要对权限进行分类处理,因此该服务器可获取该业务系统中的各权限。当然,为了提高业务系统的安全性,该服务器可以仅获取权限用于数据处理,而限制该服务器通过获取的权限执行业务。
于是,在本说明书一个或多个实施例中,该服务器可先确定各权限的文本内容,权限的文本内容至少包括:权限码、权限名称、权限定义、权限描述中的一种。其中,权限码为权限在生成时赋予的编码,通常具有一定的规律,权限名称通常为方便人工理解权限含义的名称(如,登录权限,交易权限等等),权限定义为权限的具体内容(如可包括权限是调用数据的,还是执行业务的,具体可调用数据的范围,以及具体可执行的业务有哪些等等),权限描述通常为对权限定义的补充说明,通常为避免人工理解权限出现歧义而设置的(如,假设某个权限的描述为:该权限使用期限为2018年1月1日(不含)至2019年1月1日(含),用于使工作人员可准确确定权限有效期,而不产生歧义)。当然,本说明书对于权限的文本内容还有哪些不做限定,具体可根据需要设置。
之后,服务器可针对每个权限,对该权限包含的各文本内容分别进行分词处理,确定若干词汇。如上所述,由于每个权限包含多种不同的文本内容,所以服务器可对每种文本内容分别进行分词处理,具体可采用Word2vec工具对文本内容进行分词。例如,“我是中国人”通过Word2vec工具分词之后,可生成词汇“我”、“是”以及“中国人”三个词汇。
假设,某个权限的文本内容分别如表1所示。
表1
则在对表1所示的权限a进行分词时,服务器可以分别对“业务x的数据调用”进行分词确定词汇:“业务x”、“的”、“数据”、“调用”,对“调用数据y”分词确定词汇:“调用”、“数据y”,对“用于业务x执行时,调用数据y,为z”分词确定词汇:“用于”、“业务x”、“执行时”、“调用”、“数据y”、“有效期”、“为”、“z”,等等若干词汇。当然,本说明书并不限定采用其他分词方法将文本内容分词为若干词汇,具体可根据需要设置。
然后,服务器可对得到的若干词汇进行去重处理,以及去停用词处理。其中,去重处理已经是较为成熟的现有技术,本说明书对此不再赘述。对于停用词,可以根据需要设置,例如将连词作为停用词,或者,也可以通过Word2vec工具去除无意义的词汇,例如,将上例中得到的词汇:“的”、“为”、“用于”等,作为停用词去除。当然,由于Word2vec工具已经具备停用词表,因此通过Word2vec工具分词时也可直接去除各停用词。
最后,服务器可根据去重以及去停用词处理后剩余的词汇,确定词汇集。
S102:根据预设类型,确定所述词汇集中各词汇的类型。
在本说明书中,当服务器确定词汇集之后,进一步便可确定各词汇的类型。以便后续确定各权限的属性。
具体的,针对每个预设的类型,服务器中可存储有对应该类型的至少一个标准词。例如,服务器中可针对每个类型,设置一个该类型的标准词库。假设,下载为预设的类型,其对应标准词库中可包含:“down”、“获取”、“下载”、“load”等等标准词。
于是,服务器可针对词汇集中的每个词汇,计算该词汇与各标准词的相似度,最后按照该词汇与各标准词相似度从高到低的顺序,确定该词汇的类型。具体的,服务器可确定与该词汇相似度最高的标准词所述类型,为该词汇的类型。或者,服务器也可确定与该词汇相似度高于预设值的若干标准词,确定该若干标准词中每个类型所占比例,并以所占比例最多的类型作为该词汇的类型。例如,假设预设值为90%,则服务器可与某个词汇相似度高于90%的标准词,假设有10个标准词与该词汇相似度高于90%,其中5个标准词属于类型1,2个标准词属于类型2,3个标准词属于类型3,其中类型1的标准词占比最多,则服务器可确定该词汇的类型为类型1。
S104:针对每个权限,根据该权限中属于各类型的词汇的词频,确定该权限的属性。
在本说明书中,当服务器确定各个词汇的类型之后,便可确定用于训练分类模型所用的权限的属性,以便后续将确定属性的各权限作为训练样本,用于训练模型。
具体的,服务器可先确定用于后续作为训练样本的各权限,当然,如何选择权限本说明书不做限定,可根据需要设置。例如,服务器可将所有权限都作为训练样本,则可确定所有权限的属性,或者服务器可选择指定数量的权限,或者按比例选择权限等等。
其次,对于选择出的每个权限,服务器可确定该权限中,每个类型的词汇出现在该权限中的词频,例如,根据下载类型的词汇在该权限中出现的次数,以及该权限中词汇总量,确定下载类型的词汇的词频。
最后,针对每个权限,服务器可确定该权限包含的各词汇类型的词频作为该权限的属性,例如,权限a{下载(20),业务x(50),……}。其中,不同类型词汇的词频作为该权限的属性,用于表征该权限的类型。
S106:将确定属性的各权限作为训练样本,训练得到分类模型,以根据所述分类模型对业务系统中的权限进行分类。
在本说明书中,服务器在确定用于作为训练样本的各权限的属性之后,便可训练分类模型,从而后续对业务系统中原有的权限,进行重新分类,或者当业务系统中的权限出现变动时,确定权限的类型。
具体的,服务器可先确定各训练样本的分类,即对各训练样本打标。该过程可根据权限字典中记录的权限类型确定,或者,由工作人员进行打标。之后,服务器可采用Adaboost算法,基于各训练样本,训练得到该分类模型。其中,在采用Adaboost算法时,服务器可从训练样本中选择部分训练样本,作为第一次训练用的训练样本,训练得到第一个弱分类模型。然后,再将该分类模型分类结果与打标结果不一致的训练样本,以及重新从剩余训练样本中选择的部分训练样本组成第二次训练用的训练样本,悬链的到第二个弱分类模型。以此类推,将训练得到的若干弱分类模型,融合得到最终的分类模型。
当然,本说明书中服务器也可采用其他机器学习方法,训练该分类模型,由于各训练样本已经打标,因此可以采用有监督学习算法进行训练并得到分类模型,对于具体采用的训练方法以及过程,本说明书不做限定,并且由于现有机器学习方法已经较为成熟,因此也不再赘述。
另外,需要说明的是,训练结束条件可以根据需要设置,例如训练次数达到预设次数,或者正确率达到预设的数值等等,本说明书也不做具体限定。
进一步地,在本说明书中,当训练得到该分类模型之后,服务器便可通过该分类模型对业务系统中任意权限进行分类,例如,重新确定未选做训练样本的权限的类型,或者当业务系统中新添加权限,或者对已有权限的内容进行更新后,确定权限的类型等等。
基于图1所述的数据处理过程,通过对权限的文本内容进行分词处理,以及对分词后得到的词汇进行分类,确定用于训练分类模型的权限(即,训练样本)的属性,从而可以基于训练样本训练对权限进行分类的分类模型,从而使得对权限的分类管理,可通过训练得到的分类模型进行,避免了人工通过权限字典维护权限的弊端,提高了权限管理的效率。
需要说明的是,本说明书实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S100和步骤S102的执行主体可以为设备1,步骤S102的执行主体可以为设备2;或者,步骤S100的执行主体可以为设备1,步骤S102和步骤S104的执行主体可以为设备2;等等。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于图1所述的选择方法,本说明书实施例还提供另一种数据处理过程,如图3所示。
图3为本说明书实施例提供另一种数据处理过程,具体可包括以下步骤:
S200:确定若干权限对。
基于图1所述的数据处理过程,在本说明书一个或多个实施例中,仍然以业务系统中用于管理权限的服务器执行该数据处理过程为例进行说明。该数据处理过程为,训练用于识别互斥权限对的模型,以通过互斥权限对识别模型对存在互斥关系的权限对进行识别。
具体的,在本说明书中,对于数据处理的主体不再赘述,可参考步骤S100中的描述。该服务器可先确定若干权限对,其中,权限对可以是随机获取若干权限后,两两组合确定的。也就是说,在本说明书中,服务器确定的权限对中,并不是所有权限对都是存在互斥关系的,确定出的权限对的两个权限之间也可能是没有关系的。例如,假设业务系统中有100个权限,服务器可从中选择50个权限,则可确定出1275对权限对,其中每个权限对所包含的权限不完全相同。
S202:针对每个权限对,根据预设的权限与业务部门的对应关系,以及上述方法确定出的权限类型,确定该权限对是否互斥。
在本说明书中,服务器可针对确定出的每个权限对,根据预先设置的权限对于业务部门的对应关系,以及通过图1所述的数据处理方法,确定出的权限类型,确定该权限对是否是互斥权限。
具体的,在本说明书中,权限与业务部门的对应关系至少包括:发放权限的业务部门与权限之间的对应关系,以及使用权限的业务部门与权限之间的对应关系中的一种。也就是说,对于每个权限,可确定发放该权限的业务部门与该权限存在对应关系,或者也可确定获取以及使用该权限的业务部门与该权限存在对应关系,或者只要存在上述发放或使用关系中的一种,便确定该权限与业务部门存在对应关系,本说明书不做限定。
例如,假设业务部门A创建了权限a,并下发给业务部门B使用,则权限a与该业务部门A以及业务部门B都存在对应关系。进一步假设,还存在业务部门C,在执行业务时仅使用权限b,则确定权限a与业务部门C不存在对应关系。
并且,通常在业务系统中的业务部门,可能业务部门之间存在业务范围的重叠,或者获取数据上的冲突,而这种业务部门在业务范围上的重叠或者冲突,通常认为是业务部门之间存在互斥关系(例如,用户体验部门可能就与风险控制部门存在业务上的冲突)。于是,服务器可预先获取,在该业务系统中各业务部门之间的互斥关系,以便于根据权限与业务部门的对应关系,进一步确定权限之间的互斥关系。当然,该业务部门之间的互斥关系具体如何确定,本说明书不做限定。
同理,由于不同权限类型之间也存在互斥的情况,因此服务器还可确定预设的权限类型之间的互斥关系。例如,初审与复审由于通常不能由同一业务执行方执行,因此初审权限与复审权限之间存在互斥关系。当然,由于通常权限与业务之间是紧密结合的(如,限制业务执行方的操作),因此权限类型之间的互斥关系通常是基于业务逻辑确定出的。可见,当业务系统内的业务不同时,权限的互斥关系也可能不同,而由于不同业务系统的业务通常不完全相同,因此该权限的互斥关系通常需要依赖实际业务系统中业务情况来确定,本说明书对于如何确定权限类型之间的互斥关系不做限定。例如,可以由工作人员根据需要设置权限类型之间的互斥关系。
于是,针对每个权限对,服务器可根据预先确定的业务部门之间的互斥关系、权限类型之间的互斥关系,以及该权限对中两个权限的类型以及两个权限对应的业务部门,确定该权限对是否为互斥权限对。
具体的,服务器可当确定该权限对的两个权限类型之间存在互斥关系,且该权限对中的两个权限分别对应的业务部门之间也存在互斥关系时,确定该权限对为互斥权限对。或者,上述两种互斥关系存在一种时,便确定中该权限对为互斥权限对。
其中,该服务器确定权限对是否为互斥权限对,可以在后续将权限对作为训练样本时,根据权限对是否为互斥权限对,对权限对进行打标以训练识别模型。
S204:计算该权限对中的两个权限在各维度的文本内容上的相似度,作为该权限对的属性。
在本说明书中,服务器还可以针对每个权限对,确定该权限对中的两个权限在各维度的文本内容上的相似度,以作为该权限对的属性。由于该权限对中权限的文本内容,反应了该权限的具体功能等信息,因此通过计算不同纬度的文本内容的相似度,再根据前述步骤确定出的权限对是否为互斥权限对,可训练出根据文本内容来识别权限是否互斥的识别模型。
具体的,在本说明书中文本内容的维度至少包括:权限码、权限名称、权限定义、权限描述中的一种。服务器可针对每个维度,计算权限对的两个权限的文本内容在该维度上的相似度。本说明书对于服务器具体采用何种算法计算文本内容的相似度不做限定,由于现有技术中存在多种较为成熟的计算文本相似度的算法,因此本说明书对此计算过程不再赘述。
之后,针对每个权限对,服务器可根据各维度上文本内容相似度,确定该权限对的属性。例如,假设某个权限对的两个权限的文本内容相似度如表2所示。
文本内容 |
权限1 |
权限2 |
相似度 |
权限名称 |
业务x初审 |
业务x复审 |
50% |
权限定义 |
对执行方是否可执行业务x进行初审 |
对执行方是否可执行业务x进行复审 |
90% |
权限描述 |
对执行方类型、执行方条件进行判断,是否满足基本需要 |
根据风控结果,确定是否可执行方是否可执行业务x |
10% |
…… |
…… |
…… |
…… |
表2
于是服务器可确定该权限对的属性为{权限名称(0.5)权限定义(0.9)全线描述(0.1)……}。后续步骤则可将该权限对作为训练样本,根据步骤S202确定出的权限对是否互斥训练识别模型。
S206:将互斥的权限对作为正例训练样本,将非互斥的权限对作为负例训练样本,训练互斥权限对识别模型,以根据所述互斥权限对识别模型对业务系统中的权限互斥对进行识别。
在本说明书中,服务器通过上述步骤S202以及步骤S204可确定步骤S200获得的各权限对的属性以及是否存在互斥关系,之后便可将互斥权限对作为正例训练样本,将非互斥权限对作为负例训练样本,训练二分类模型。将训练完成的二分类模型作为互斥权限识别模型,用于识别业务系统中的互斥权限对。
具体的,由于存在正例以及负例,因此训练该二分模型的过程也是监督学习的过程,仍可采用步骤S106中所属的Adaboost算法,进行训练。过程与步骤S106中所述的训练过程类似,训练结束条件同样可设置为识别准确率或者训练次数满足预设值。当然,具体采用的训练方法以及训练结束条件,可根据需要设置,本说明书不做限定。
基于图1所述的选择方法,本说明书实施例还提供另一种数据处理过程,如图4所示。
图4为本说明书实施例提供另一种数据处理过程,具体可包括以下步骤:
S300:确定权限使用日志。
在本说明书一个或多个实施例中,如图1以及图3所示的数据处理过程,仍然以业务系统中用于管理权限的服务器执行该数据处理过程为例进行说明。该数据处理过程为,训练用于预测权限敏感级的模型,以通过该权限敏感级预测模型对业务系统中权限的敏感级进行预测。
权限的敏感级通常与该权限可获取的数据的重要程度相关,例如,获取通用业务数据的权限的敏感级,通常就要低于需要获取用户隐私数据的权限的敏感级。通常,业务系统中每个权限在生成时,会由人工根据权限涉及到的隐私数据等因素,根据经验标定该权限的敏感级。
在本说明书中,服务器为了可训练用于预测权限敏感级的模型,可先确定训练样本。具体的,由于权限在实际使用过程中是否涉及隐私数据,以及涉及隐私数据的程度,可以用于确定权限是否敏感,因此在本说明书中服务器可先获取权限的使用日志。以便从使用日志中确定权限在敏感级上的属性。
另外,由于通常业务系统内部使用的权限敏感程度不高,敏感级的设置主要是针对用户而言(如,防止向高危用户发放敏感级较高的权限),因此服务器可确定用户使用权限的使用日志。
进一步地,由于权限的使用日志,通常在业务系统启动后就开始记录,因此为了保证使用记录的有效期,服务器可确定预设时间段内的使用日志。例如,最近半年内的权限的使用日志。当然,对于该预设时间段的具体时长、开始时间点、结束时间点等等,都可根据需要进行设置,本说明书不做限定。
更进一步地,由于后续需要根据使用日志涉及的权限,确定训练样本,因此训练样本的打标(在本说明书实施例中为权限的敏感级)关系到模型训练的效果。于是,服务器在确定使用日志时,由于人工设置较极端的敏感级,通常准确率更高,因此服务器也可仅确定敏感级较极端的权限的使用日志。例如,假设人工设置敏感级有0~10级,由于对于涉及敏感信息较少的权限以及涉及敏感信息较多的权限,人工判断的准确率通常较高,因此则服务器可获取人工设置的敏感级为0级、1级、9级和10级的权限的使用日志。
S302:根据所述权限使用日志,确定各权限获取指定类型信息的数量,以及各权限的敏感级。
在本说明书中,当服务器确定使用日志后,便可根据使用日志,确定该使用日志中涉及的各权限,在该预设时间段内,获取指定类型信息的次数,以及人工对各权限设置的敏感级。基于前述,该指定类型的信息可包括涉及用户隐私数据,或者涉及业务系统隐私数据等敏感信息,当然,对于敏感信息的定义也可根据需要设置,不同业务系统中敏感信息可能不完全相同,本说明书不对敏感信息(即,指定类型的信息)具体为何种信息不做限定。
S304:针对每个权限,根据上述方法确定该权限类型,以及该权限的特征,确定该权限的属性,其中,该权限对应特征至少包括:权限对应的业务页面特征。
在本说明书中,服务器可针对每个权限(即,步骤S300中使用日志包含的各权限),确定该权限的属性,以便将各权限作为训练样本,在后续步骤中训练预测模型。
具体的,在本说明书中,服务器可分别将权限对应的业务页面特征、权限的违规次数、权限的预设敏感级中的至少一种,以及权限的类型作为权限的属性。权限的类型可通过图1所示的数据处理方法确定。
而权限对应的业务页面特征至少可包括:通过该权限可访问的页面数量、通过该权限可访问的页面是否包含指定类型的统一资源定位符(Uniform Resource Locator,URL),等信息确定。其中,权限可访问的页面数量实在生成权限时便可确定的,例如,某个用于执行业务的权限,该业务在执行过程中需要跳转至3个页面,则通过该权限可访问的页面数量可确定为3。而通过该权限可访问的页面是否包含指定类型的URL,也可通过实际业务页面中包含的URL确定。其中,由于后续需要训练预测敏感级的模型,因此指定类型可如步骤S300中指定类型的信息类型,为涉及敏感信息或者隐私信息的URL。例如,交易业务中收银台为敏感URL,则授权可执行交易业务的权限对应的页面特征便包含指定类型的URL。当然,该指定类型的URL也可根据需要设置,本说明书不做限定。
权限使用方的违规次数,为在该预设时间段内,获取该权限的用户的操作超过该权限范围的次数。例如,某个权限为用户仅可下载交易记录数据,而用户在获得该权限后,试图下载个人信息,则可确定该权限出现一次违规。也就是,用户当获取到该权限后,试图做出超过权限范围的操作的次数。若该次数较多,则可视为该权限的发放对象风险较高。
权限的预设敏感级,为人工根据经验设置的该权限的敏感级。
S306:根据对各权限的敏感级以及各权限的属性,生成训练样本,训练权限敏感级预测模型。
在本说明书中,服务器在确定出各权限的属性之后,将各权限作为训练样本,将已经设置的敏感级作为对训练样本的打标,训练预测模型。其中,服务器可采用逻辑回归方法训练该预测模型,该预测模型也可视为一种多分类模型。
具体对于该模型的训练过,由于逻辑回归方法已经较为成熟,因此本说明书不再赘述。
需要说明的是,在本说明书图1~图4的各实施例中,涉及到各类分类算法也可采用其它分类算法替代,例如,梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法、随机森林、线性支持向量机等等,本说明书对此不做限定。
基于图1所述的数据处理方法,本说明书实施例还提供一种数据处理装置,如图5所示。
图5为本说明书实施例提供的一种数据处理装置的结构示意图,包括:
词汇确定模块400,根据对各权限的文本内容进行分词的结果,确定词汇集;
类型确定模块402,根据预设类型,确定所述词汇集中各词汇的类型;
属性确定模块404,针对每个权限,根据该权限中属于各类型的词汇的词频,确定该权限的属性;
训练处理模块406,将确定属性的各权限作为训练样本,训练得到分类模型,以根据所述分类模型对业务系统中的权限进行分类。
词汇确定模块400,针对每个权限,对该权限包含的各文本内容分别进行分词处理,确定若干词汇,将得到的各词汇进行去重处理以及去停用词处理后,确定词汇集,其中,文本内容至少包括:权限码、权限名称、权限定义、权限描述中的一种。
每个预设的类型对应至少一个标准词,类型确定模块402,针对每个词汇,计算该词汇与各类型分别对应的标准词的相似度,按照该词汇与各标准词相似度从高到低的顺序,确定该词汇的类型。
属性确定模块404,针对每个类型,根据该权限中包含的该类型的词汇数量,以及该权限包含的词汇总量,确定该类型的词汇的词频,将确定出的该权限中每个类型词汇的词频,作为该权限的属性。
训练处理模块406,对各确定属性的权限打标后,作为训练样本,根据各训练样板对分类模型进行训练,直至所述分类模型的准确率达到预设阈值为止,确定得到训练完成的分类模型。
基于图3所述的数据处理方法,本说明书实施例还提供一种数据处理装置,如图6所示。
图6为本说明书实施例提供的一种数据处理装置的结构示意图,包括:
权限对确定模块500,确定若干权限对;
关系确定模块502,针对每个权限对,根据预设的权限与业务部门的对应关系,以及确定出的权限类型,确定该权限对是否互斥;
属性确定模块504,计算该权限对中的两个权限在各维度的文本内容上的相似度,作为该权限对的属性;
训练处理模块506,将互斥的权限对作为正例训练样本,将非互斥的权限对作为负例训练样本,训练互斥权限对识别模型,以根据所述互斥权限对识别模型对业务系统中的权限互斥对进行识别。
所述权限与业务部门的对应关系至少包括:发放权限的业务部门与权限之间的对应关系,以及使用权限的业务部门与权限之间的对应关系中的一种。
关系确定模块502,根据上述方法确定该权限对中各权限的类型、该权限对中各权限分别与业务部门的对应关系、预设的业务部门之间的互斥关系以及预设的权限类型之间的互斥关系,确定该权限对包含的两个权限之间是否互斥。
属性确定模块504,针对每个文本内容的维度,计算该权限对中的两个权限在该维度上的文本内容的相似度,作为该维度上该权限对的属性,其中,所述文本内容的维度至少包括:权限码、权限名称、权限定义、权限描述中的一种。
基于图4所述的数据处理方法,本说明书实施例还提供一种数据处理装置,如图7所示。
图7为本说明书实施例提供的一种数据处理装置的结构示意图,包括:
日志确定模块600,确定权限使用日志;
信息确定模块602,根据所述权限使用日志,确定各权限获取指定类型信息的数量,以及各权限的敏感级;
属性确定模块604,针对每个权限,根据上述方法确定该权限类型,以及该权限的特征,确定该权限的属性,其中,该权限对应特征至少包括:权限对应的业务页面特征;
训练处理模块606,根据对各权限的敏感级以及各权限的属性,生成训练样本,训练权限敏感级预测模型,以对待确定敏感级的权限进行敏感级预测。
日志确定模块600,确定预设时间段内,用户使用的各权限的使用日志。
信息确定模块602,针对每个权限,确定用户使用该权限获取敏感信息的次数,根据该权限获取敏感信息的次数,确定该权限的敏感级。
权限对应的业务页面特征至少包括:通过该权限可访问的页面数量、通过该权限可访问的页面是否包含指定类型的统一资源定位符URL。
该权限对应特征还包括:权限使用方的违规次数、权限的预设敏感级中的至少一种。
基于图1、图3以及图4所示的数据处理方法,本说明书实施例还提供一种服务器,如图8所示,其中,所述服务器包括:一个或多个处理器及存储器,存储器存储有程序,并且被配置成由一个或多个处理器执行以下步骤:
根据对各权限的文本内容进行分词的结果,确定词汇集;
根据预设类型,确定所述词汇集中各词汇的类型;
针对每个权限,根据该权限中属于各类型的词汇的词频,确定该权限的属性;
将确定属性的各权限作为训练样本,训练得到分类模型,以根据所述分类模型对业务系统中的权限进行分类。
或者,由该服务器执行以下步骤:
确定若干权限对;
针对每个权限对,根据预设的权限与业务部门的对应关系,以及上述方法确定出的权限类型,确定该权限对是否互斥;
计算该权限对中的两个权限在各维度的文本内容上的相似度,作为该权限对的属性;
将互斥的权限对作为正例训练样本,将非互斥的权限对作为负例训练样本,训练互斥权限对识别模型,以根据所述互斥权限对识别模型对业务系统中的权限互斥对进行识别。
或者,由该服务器执行以下步骤:
确定权限使用日志;
根据所述权限使用日志,确定各权限获取指定类型信息的数量,以及各权限的敏感级;
针对每个权限,根据上述方法确定该权限类型,以及该权限的特征,确定该权限的属性,其中,该权限对应特征至少包括:权限对应的业务页面特征;
根据对各权限的敏感级以及各权限的属性,生成训练样本,训练权限敏感级预测模型,以对待确定敏感级的权限进行敏感级预测。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。