CN113849760B

CN113849760B - 敏感信息风险评估方法、系统和存储介质

Info

Publication number: CN113849760B
Application number: CN202111454761.0A
Authority: CN
Inventors: 邹永强; 曹兵; 杨晖; 王煜; 刘宏达; 胡清华; 杨宜
Original assignee: Tianjin University; Accumulus Technologies Tianjin Co Ltd
Current assignee: Tianjin University; Accumulus Technologies Tianjin Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-07-22
Anticipated expiration: 2041-12-02
Also published as: CN113849760A

Abstract

本申请公开了一种敏感信息风险评估方法、系统和存储介质，属于互联网领域。本申请实施例提供的敏感信息风险评估方法包括获取目标应用或网页的页面信息集，所述页面信息集包括有若干个待评估图像的图像集，分别对所述图像集进行图像风险评估与文本风险评估，获取图像集中每个待评估图像的图像风险评估结果和文本风险评估结果，将两个评估结果融合，获得每个待评估图像的敏感信息风险评估结果，最后根据所述图像集中所有待评估图像的敏感信息风险评估结果获得所述获取目标应用或网页的敏感信息风险评估结果；充分考虑了图像敏感元素和文字敏感元素的差异，结合多模态融合将两种方法获取的评估结果融合，得到一个更准确的更具有可信度的评估结果。

Description

敏感信息风险评估方法、系统和存储介质

技术领域

本申请涉及互联网领域，尤其涉及一种敏感信息风险评估方法、系统和存储介质。

背景技术

随着互联网业务的蓬勃发展，网络平台商户（APP/Web端）提供了各种网站、应用，这些网站、应用提供了各种服务的同时安全风险也层出不穷，如诈骗、色情、赌博等敏感信息。

出于对用户的隐私安全、账户安全、平台方的安全风险以及国家法律的考虑，必须对这些敏感信息进行管控。当前业界对网站/应用的内容风险防控，往往需要通过对目标网站/应用进行交互及结构分析来采集到诸如目标应用、网页的文本、图片、音频、视频等内容，之后通过识别应用从而发现异常应用，或者交由审核人员来进行全方位人工审核。

但是，由于网站页面、应用界面的复杂性、交互丰富性，导致获取有效的页面要素的难度提高，极大的影响了风险评估的准确性。并且需要进行风险评估的网页数量庞大，采取人工审核也会耗费极大的人力资源。

发明内容

本申请提出了一种敏感信息风险评估方法、系统和存储介质，以解决现有技术存在的问题，提高对网站、应用的敏感信息风险评估的效率和准确率。

为了实现上述目的，本申请采用了如下方案：

一方面，本申请实施例提供了一种敏感信息风险评估方法，所述方法包括：

获取目标应用或网页的页面信息集，所述页面信息集中至少包括所述目标应用或网页的图像集，所述图像集中包括若干个待评估图像；

根据所述图像集，对所述目标应用或网页进行图像风险评估与文本风险评估；所述图像风险评估包括：对每个所述待评估图像进行图像敏感元素检测，获取图像检测结果；根据所述图像检测结果对每个所述待评估图像进行图像风险评估，获取图像风险评估结果；所述文本风险评估包括：对每个所述待评估图像进行文字敏感元素检测获取文字检测结果，根据文字检测结果，对每个所述待评估图像进行文本风险评估，获取文本风险评估结果；

将所述每个所述待评估图像的所述图像风险评估结果与所述文本风险评估结果融合，获取每个所述待评估图像的敏感信息风险评估结果；

根据所有所述待评估图像的敏感信息风险评估结果，确定所述目标应用或网页的风险评估结果。

可选的，所述敏感信息风险评估结果包括敏感信息风险等级和敏感信息风险置信度；

所述图像风险评估结果包括所述每个所述待评估图像的图像风险等级和图像风险置信度；

所述文本风险评估结果包括所述每个所述待评估图像的文本风险等级和文本风险置信度；

目标待评估图像的敏感信息风险等级根据所述目标待评估图像的图像风险等级与所述目标待评估图像的文本风险等级获得；

所述目标待评估图像的敏感信息风险置信度根据所述目标待评估图像的图像风险置信度和所述目标待评估图像的文本风险置信度加权融合获得。

可选的，所述确定所述目标应用或网页的风险评估结果包括：

根据所有所述待评估图像的敏感信息风险置信度中的最大值，确定所述目标应用或网页的风险置信度；

根据所有所述待评估图像的敏感信息风险等级中的最大值，确定所述目标应用或网页的风险等级。

可选的，所述图像风险评估还包括确定每个所述待评估图像的图像风险置信度：

若所述目标待评估图像的尺寸为s，根据所述尺寸s确定述目标待评估图像属于图像尺寸阶梯i；

根据所述目标待评估图像的尺寸s，图像尺寸阶梯i的基础置信度β[i]，图像尺寸阶梯i的置信度增长系数λ[i]，图像尺寸阶梯i的图像最大尺寸μ[i]，图像尺寸阶梯i-1的图像最大尺寸μ[i-1]，确定所述目标待评估图像的置信度为C1。

可选的，所述图像风险评估还包括确定每个所述待评估图像的图像风险等级：

若目标待评估图像中所述图像敏感元素数量为m，所述目标待评估图像属于元素数量阶梯p，基础风险分数为score₀，图像高风险阈值为T1，元素数量阶梯p的风险增长速率为α[p]，所述目标待评估图像的敏感信息风险等级为Score_m，根据公式

Score_m= Score_m-1+α[p]*(T1 - Score_m-1) ；

确定所述目标待评估图像的敏感信息风险等级。

可选的，所述对每个所述待评估图像进行文字敏感元素检测之前还包括，对每个所述待评估图像中的文字进行识别，获取每个所述待评估图像中的文本集，所述文本集中包括若干个待评估语句；

所述对每个所述待评估图像进行文本风险评估包括：

根据每个文字敏感元素在目标待评估语句中出现的频率，确定所述目标待评估语句中所述每个文字敏感元素的风险置信度，以所述目标待评估语句中所有文字敏感元素的风险置信度中的最大值作为目标语句的风险置信度；

以目标待评估图像中的所有目标语句的风险置信度中的最大值作为所述目标待评估图像的文本风险置信度。

可选的，所述敏感信息风险评估方法还包括：

根据语句阈值高风险阈值K确定目标语句是否为有效语句；

根据目标待评估图像中的有效语句数量，确定目标待评估图像属于语句数量阶梯r，语句数量第r阶梯的文字风险阈值为T2，语句数量第r阶梯的下降速率为γ[r]，

所述目标待评估图像的文本风险等级为D2根据公式：

D2 = D2 –γ[r]*(D2-(1/T2))；

确定所述目标待评估图像的文本风险等级。

可选的，所述获取目标应用或网页的页面信息集包括：

获取所述目标应用的应用信息；

根据所述应用信息对所述目标应用进行遍历；

根据预设时间间隔获取截图，当所述截图的数量到达第一阈值时，将所述截图作为所述目标应用的图像信息。

可选的，所述根据预设时间间隔获取截图包括：

每次截图n张后对获取到的截图进行图片处理，所述图片处理至少包括去重；

待图片处理完成后，重新开始截图，直到截图的总数到达第一阈值。

可选的，所述获取目标网页的页面信息集还包括：

根据敏感元素数据库进行敏感元素检索获取目标网页；所述敏感元素包括图像敏感元素和文字敏感元素；访问所述目标网页；

通过html页面解析识别所述目标网页中的图像及文本并进行存储；

根据所述目标网页的网页快照与所述目标网页中的图像生成所述目标网页的图像集；

根据所述目标网页中的文本生成所述目标网页的文本集，所述文本集中包括若干个待评估语句。

可选的，若所述页面信息集包括目标网页的文本信息；

所述敏感信息风险评估方法还包括，根据所述文本集，对所述目标网页进行文本风险评估：根据所述目标网页的文本集，对每个待评估语句进行文字敏感元素检测获取文字检测结果，根据文字检测结果，对所述每个待评估语句进行风险评估，获取文本风险评估结果。

可选的，所述敏感信息风险评估方法还包括以下至少之一：

基于用户的第一输入，展示所述目标应用或网页的敏感信息风险评估进度；

基于用户的第二输入，调整敏感元素；

基于用户的第三输入，展示所述目标应用或网页的敏感信息风险评估结果。

另一方面，本申请实施例提供了一种敏感信息风险评估系统，包括：

信息获取模块，用于获取目标应用或网页的页面信息集，所述页面信息集中至少包括所述目标应用或网页的图像集，所述图像集中包括若干个待评估图像；

风险识别评估模块，用于根据所述图像集，对所述目标应用或网页进行图像风险评估与文本风险评估；所述图像风险评估包括：对每个所述待评估图像进行图像敏感元素检测，获取图像检测结果；根据所述图像检测结果对每个所述待评估图像进行图像风险评估，获取图像风险评估结果；所述文本风险评估包括：对每个所述待评估图像进行文字敏感元素检测获取文字检测结果，根据文字检测结果，对每个所述待评估图像进行文本风险评估，获取文本风险评估结果；

结果融合模块，用于将所述每个所述待评估图像的所述图像风险评估结果与所述文本风险评估结果融合，获取每个所述待评估图像的敏感信息风险评估结果；

结果融合模块，还用于根据所有所述待评估图像的敏感信息风险评估结果，确定所述目标应用或网页的风险评估结果。

另一方面，本申请实施例提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如本申请实施例提供的任一项所述的敏感信息风险评估方法的步骤。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例提供的任一项所述的敏感信息风险评估方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：本申请实施例提供的敏感信息风险评估方法包括获取目标应用或网页的页面信息集，所述页面信息集包括有若干个待评估图像的图像集，分别对所述图像集进行图像风险评估与文本风险评估，获取图像集中每个待评估图像的图像风险评估结果和文本风险评估结果，将两个评估结果融合，获得每个待评估图像的敏感信息风险评估结果，最后根据所述图像集中所有待评估图像的敏感信息风险评估结果获得所述获取目标应用或网页的敏感信息风险评估结果；充分考虑了图像敏感元素和文字敏感元素的差异，结合多模态融合将两种方法获取的评估结果融合，得到一个更准确的更具有可信度的评估结果。

附图说明

图1 为本申请实施例提供的一种敏感信息风险评估方法的流程图；

图2 为本申请实施例提供的一种敏感信息风险评估结果组成示意图；

图3 为本申请实施例提供的一种对目标应用图像获取流程示意图；

图4 为本申请实施例提供的一种敏感信息风险评估系统结构示意图；

图5为本申请实施例提供的一种电子设备结构示意图；

图6为本申请实施例提供的一种敏感信息风险评估结果展示示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。此外，说明书以及权利要求中出现的公式中的“*”代表乘，“/”代表除以。

此外，下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的敏感信息风险评估方法进行详细地说明。

请参考图1示出了本申请实施例提供的敏感信息风险评估方法的流程图示意，所述敏感信息风险评估方法包括：

步骤101，获取目标应用或网页的页面信息集，所述页面信息集中至少包括所述目标应用或网页的图像集，所述图像集中包括若干个待评估图像。

具体的，获取到所述目标应用或网页的页面信息集后，通过页面信息集中的信息来对所述目标应用或网页进行敏感信息风险评估，如通过图像集中的所有图像来对所述目标应用或网页进行敏感信息风险评估，

具体的，所述图像集中可包括目标应用在各个状态下的截图、或者目标网页的快照、目标网页的截图、目标网页的中的图像元素等。

具体的，所述页面信息集除了包括图像集以外，还可以包括文本集，或其他信息组成的集合。

步骤102，根据所述图像集，对所述目标应用或网页进行图像风险评估与文本风险评估。

具体的，步骤102分为102a和102b，分别通过图像集中的待评估图像，对所述目标应用或网页进行图像风险评估、文本风险评估；充分考虑了图像敏感元素与文本敏感元素的差异，针对性的进行两次风险评估，使得图像、文本风险的单项评估结果更准确。

步骤102a：所述图像风险评估包括：对每个所述待评估图像进行图像敏感元素检测，获取图像检测结果；根据所述图像检测结果对每个所述待评估图像进行图像风险评估，获取图像风险评估结果。

具体的，在进行图像敏感元素检测时，以若干预设的图像敏感元素作为待检测目标，使用所述图像集中的若干个待评估图像作为模型的训练集，通过训练目标检测模型来进行图像敏感元素检测，具体的目标检测模型不做限定，根据实际需求进行调整，任何一种先进的目标检测模型均可以通过图像集进行训练后来实现图像敏感元素功能。

示例性的，以涉赌元素作为敏感信息为例，将扑克、麻将、骰子、金币、金元宝等涉赌元素视为待检测目标，设计一种多模型预测结果集成的方法，该方法步骤为：首先训练了多个目标检测模型，然后令每个模型分别对目标图片进行检测，最后通过结果融合策略，对多个模型的检测结果进行汇总处理，得到经过多模型融合后的涉赌元素检测结果。模型训练方法为：以N张人工标注的敏感元素图像与N张非敏感元素图像作为模型训练集，训练目标检测模型。其中涉赌图片中人工标注了扑克、麻将、骰子、金币、金元宝等多种涉赌元素，非敏感元素图像（主要包含常见APP截图）未做处理。

步骤102b：所述文本风险评估包括：对每个所述待评估图像进行文字敏感元素检测获取文字检测结果，根据文字检测结果，对每个所述待评估图像进行文本风险评估，获取文本风险评估结果。

具体的，对每个所述待评估图像进行文字敏感元素检测之前包括：通过文字检测模型检测出待评估图像中文本的位置，可以使用当前行业内任意一款高精度的文本检测方法来进行实现，对该模型的要求主要是中间过程冗余少、检测时间短、检测精度高；之后，通过文字识别模型主要对所述文字检测模型检测到的文字区域内的文字内容进行识别，可以使用当前行业内任意一款高精度的文本识别算法。

通过上述操作可以得到待评估图像中包含的文本信息，接下来对这些文本信息中是否包含文字敏感元素进行检测，将每个待评估图像的文字敏感元素检测结果进行存储。

步骤103，将所述每个所述待评估图像的所述图像风险评估结果与所述文本风险评估结果融合，获取每个所述待评估图像的敏感信息风险评估结果。

通过步骤103，使用多模态融合的方式将所述每个所述待评估图像的所述图像风险评估结果与所述文本风险评估结果融合，获取每个所述待评估图像的敏感信息风险评估结果，充分考虑了图像风险评估结果与所述文本风险评估结果的差异性，通过多模态融合的方式获取每个所述待评估图像的敏感信息风险评估结果，可获取到更精准、更具有可信度的评估结果。

步骤104，根据所有所述待评估图像的敏感信息风险评估结果，确定所述目标应用或网页的风险评估结果。

具体的，步骤104充分考虑了所述待评估图像的敏感信息风险评估结果，来确定所述目标应用或网页的风险评估结果，能够更真实的反应出所述目标应用或网页的敏感信息风险情况。

具体的，参考图2，示出了本申请实施例提供的敏感信息风险评估结果组成示意图，所述敏感信息风险评估结果反映了待评估图像的敏感信息风险评估结果，图像集中的每一个待评估图像都有一个敏感信息风险评估结果，所述敏感信息风险评估结果由待评估图像的敏感信息风险等级D3和敏感信息风险置信度C3组成，其中敏感信息风险等级D3由待评估图像的图像风险等级D1和文本风险等级D2获得，敏感信息风险置信度C3由待评估图像的图像风险置信度C1和文本风险置信度C2加权融合获得。

示例性的，图像集中有n张待评估图像，第k个待评估图像的：

敏感信息风险等级D3_k = max{D1_k，D2_k}；

敏感信息风险置信度C3_k =θ* C2_k +（1-θ）* C1_k；

其中，θ为多模态融合加权系数。

通过上述方法获得的待评估图像的敏感信息风险评估结果充分结合了待评估图像的图像风险评估结果和文本风险评估结果，通过敏感信息风险等级和敏感信息风险置信度反应目标待评估图像的敏感信息风险情况。

示例性的，目标应用或网页的风险置信度为Ct、待评估图像的敏感信息风险等级Dt、待评估图像的敏感信息风险等级D3、待评估图像的敏感信息风险置信度C3、待评估图像的图像风险等级D1、待评估图像的文字风险等级D2、待评估图像的图像风险置信度C1、待评估图像的文字风险置信度C2；图像集中有n张待评估图像；

Ct = max{C3₁ ，……，C3_n}；

Dt = max{D3₁ ，……，D3_n }。

示例性的，依据图像检测的结果，对待评估图像的置信度的计算方法如下：

C1=β[i] +λ[i]*（s-μ[i -1]）/（μ[i]-μ[i -1]）；

其中，s为待评估图像的尺寸，i为待评估图像的尺寸属于的图像尺寸阶梯。

值得注意的是，本申请文件公式中出现的“/”均表示除以。

示例性的，将图像按尺寸不同划分为若干个图像尺寸阶梯，这里的图像尺寸指的是图像的像素面积（长×宽），如：

图像尺寸阶梯1：0-100；

图像尺寸阶梯2：101-300；

图像尺寸阶梯3：大于300。

若待评估图像的尺寸为200，则所述待评估图像属于图像尺寸阶梯2，i=2，此时C1=β[2] +λ[2]*（200-μ[1]）/（μ[2]-μ[1]）；

其中，μ[1]=100，μ[2]=300。

Score_m= Score_m-1+α[p]*(T1-Score_m-1) ；

确定所述目标待评估图像的敏感信息风险等级。

示例性的，将图像按敏感元素数量不同划分为若干个元素数量阶梯，如：

元素数量阶梯1：＜2；

元素数量阶梯2：2-5；

元素数量阶梯3：＞5。

若目标待评估图像中的敏感元素数量为3，则所述待评估图像属于元素数量阶梯2，元素数量阶梯2的风险增长速率为α[2]，所述目标待评估图像的敏感信息风险等级为Score₃，此时目标待评估图像的敏感信息风险等级：

Score₃= Score₂+α[2]*(T1-Score₂)。

通过上述目标待评估图像的敏感信息风险等级公式可以根据当前检测到的图像敏感元素数量来动态调整风险增长速率为α[p]，从而调整目标待评估图像风险等级得分。

所述对每个所述待评估图像进行文本风险评估包括：

具体的，对每个所述待评估图像中的文字进行识别，获取每个所述待评估图像中的文本集，包括：通过文字检测模型检测出待评估图像中文本的位置，可以使用当前行业内任意一款高精度的文本检测方法来进行实现，对该模型的要求主要是中间过程冗余少、检测时间短、检测精度高；之后，通过文字识别模型主要对所述文字检测模型检测到的文字区域内的文字内容进行识别，可以使用当前行业内任意一款高精度的文本识别算法。

通过上述操作可以得到待评估图像中包含的文本集，所述文本集中包括所述待评估图像中的若干个待评估语句。

目标语句的风险置信度C_j= max{ C₁，……，C_w}，其中w为目标语句中的文字敏感元素数量；

目标待评估图像的文本风险置信度C2 = max{ C₁，……，C_j }，j为所述目标待评估图像中的待评估语句数量。

可选的，所述敏感信息风险评估方法还包括：

根据语句阈值高风险阈值K确定目标语句是否为有效语句；

所述目标待评估图像的文本风险等级为D2根据公式：

D2 = D2 –γ[r]*(D2-(1/T2))；

确定所述目标待评估图像的文本风险等级。

文本风险等级D2有一个基础值，目标待评估图像检测到的有效语句，每有一个语句不符合文字风险阈值T2，就会让D2减少，γ[r]是其速率，对于当前检测到有效语句数量γ[r]动进行态调整。

示例性的，检测出目标待评估图像中有13个待评估语句，根据C2 = max{C₁，……，C_j }获得每个待评估语句的置信度，其中符合语句阈值高风险阈值K的语句有12个，即所述目标待评估图像中有12个有效语句；

若D2初始值为25/30，若其中2个为含有风险词汇的语句块，10个为无风险语句块，那么就用十次文本风险等级D2公式，前5次下降速率为γ[r]是0.08，5到10次下降速率为γ[r]是0.045。

可选的，所述获取目标应用或网页的页面信息集包括：

获取所述目标应用的应用信息；

根据所述应用信息对所述目标应用进行遍历；

示例性的，首先进行应用自动安装，具体来说，就是首先将所有待测应用程序APK安装包，放到指定PC端指定文件路径指定文件夹中。然后针对文件夹中APK进行解析，获取APP所需要的包名（APPPackage）、启动页（APPActivity）和应用名称（APPlication-label）。

其次，进行对目标应用的遍历，这里可以通过设置monkey线程对目标应用进行随机操作，然后通过screencap线程进行截图，如每隔1秒截图一次，截图数量达到阈值后，将这些截图作为目标应用的图像信息存入图像集。

可选的，所述根据预设时间间隔获取截图包括：

请参考图3，对APP进行遍历，具体步骤如下：首先获取应用信息；然后按照应用信息进行遍历，分别执行monkey与screencap两个线程。随后在每次截图20张后停止monkey线程，进行图片处理（包括删除非法图片并进行图片去重）。输出处理后的图片后重新启动monkey与screencap线程，共执行若干次，直到获取满200张图，从而将处理后的图片保留到输出结果文件夹中（如存入图像集）。

具体的，涉及到一种图片去重的技术，其主要功能是对APP遍历时自动截取的图像通过图像处理手段进行去重处理。具体来说，图像去重主要包含两个阶段，其中第一阶段为提取图片特征，（通过任何一种图像特征提取的已知方法），这里以提取每张图片的直方图特征为例，完成特征提取后，将直方图特征数值记录下来。第二阶段主要进行遍历去重操作，遍历其他图片，提取其对应的直方图特征，并记录特征数据，然后将这些数值与待比对图片的特征数值进行对比。若对比结果达到预设的阈值，则认为这两种图片的相似度极高，于是对其执行删除操作。在循环完单张图片的比对后，生成去重后的图像库，开始比对下一张图片。

可选的，所述获取目标网页的页面信息集还包括：

示例性的，针对PC客户端的网页通过敏感元素检索等爬取相应的存在风险的图片、文字数据。网页爬虫采用selenium、scrapy spider技术，首先设计数据库，定义待风险巡检相关字段，为获取Web端平台风险巡检信息整理作准备。对于非法网站网址，通过使用selenium技术，自动化运行google浏览器，依次完成下述操作：访问网址；加载网页；采取对html页面解析的方法来识别网页图像及其描述文本，并对网页图像和对应的描述文本进行保存，同时保存网页快照。主要实现功能包括两部分：一是对非法网站的全站信息爬取；二是对需要进行风险评估的网页进行信息爬取，将获取的信息作为图像集和文本集中的内容，用于目标网页的敏感信息风险评估。

可选的，若所述页面信息集包括目标网页的文本信息；

可选的，所述敏感信息风险评估方法还包括以下至少之一：

基于用户的第二输入，调整敏感元素；

具体的，通过结合图形、表格、文字等展示目标应用或网页的敏感信息风险评估进度、结果以及实现敏感元素的调整，利用人机交互界面，实现便捷的系统控制、数据立体查询和在线分析结果的查看。

示例性的，参考图6，示出了一种敏感信息风险评估结果展示界面，包含目标应用或者目标网页的敏感信息风险评估结果，以及其图像风险评估结果和文字风险评估结果，并提供了搜索功能，通过此界面中的查询键，可以查询输入的某个目标应用或者目标网页的敏感信息评估结果。

示例性的，可以网页服务的形式进行部署。具体的有五大部分：搜索模块、网页结果展示模块、应用结果展示模块、敏感元素展示模块和多模态融合结果展示模块。其中搜索模块分为应用搜索、网页搜索、实时搜索进度展示、应用后台一键运行和敏感元素增添删减模块，应用和网页可以选其一或者全选进行查询，实时搜索进度展示包含报错信息和搜索进度信息，应用后台一键运行可以控制应用后台的自动风险检测，提高搜索效率，相当于应用搜索的缓存部分，敏感元素增添删减可以通过敏感元素的自定义来定制化地指定风险评判标准；

应用结果展示和网页结果展示模块类似，两个模块都可以展示出风险等级排名前9的图像搜索结果，对于每一张图像都有一个单独的风险等级和置信度，并且单击图片可以进行放大，方便看清图片细节；敏感元素展示模块含有网页端爬虫爬下来的文字和所有图像文字识别的风险敏感元素检测结果，并且对此有风险等级评估，还有词云来进行敏感元素的图形化展示；多模态融合结果展示模块是对网页、应用端的文字、图片信息进行识别后综合给出的结果，包含整体的风险等级评估和置信度。

参考图4，本申请实施例提供了一种敏感信息风险评估系统40，包括：

信息获取模块41，用于获取目标应用或网页的页面信息集，所述页面信息集中至少包括所述目标应用或网页的图像集，所述图像集中包括若干个待评估图像；

风险识别评估模块42，用于根据所述图像集，对所述目标应用或网页进行图像风险评估与文本风险评估；所述图像风险评估包括：对每个所述待评估图像进行图像敏感元素检测，获取图像检测结果；根据所述图像检测结果对每个所述待评估图像进行图像风险评估，获取图像风险评估结果；所述文本风险评估包括：对每个所述待评估图像进行文字敏感元素检测获取文字检测结果，根据文字检测结果，对每个所述待评估图像进行文本风险评估，获取文本风险评估结果；

结果融合模块43，用于将所述每个所述待评估图像的所述图像风险评估结果与所述文本风险评估结果融合，获取每个所述待评估图像的敏感信息风险评估结果；

结果融合模块43，还用于根据所有所述待评估图像的敏感信息风险评估结果，确定所述目标应用或网页的风险评估结果。

可选的，所述结果融合模块43还用于：

可选的，所述风险识别评估模块42还用于确定每个所述待评估图像的图像风险置信度：

可选的，所述风险识别评估模块42还用于确定每个所述待评估图像的图像风险等级：

Score_m= Score_m-1+α[p]*(T1 - Score_m-1) ；

确定所述目标待评估图像的敏感信息风险等级。

可选的，所述风险识别评估模块42还用于在对每个所述待评估图像进行文字敏感元素检测之前，对每个所述待评估图像中的文字进行识别，获取每个所述待评估图像中的文本集，所述文本集中包括若干个待评估语句；

所述对每个所述待评估图像进行文本风险评估包括：

可选的，所述风险识别评估模块42还用于：

根据语句阈值高风险阈值K确定目标语句是否为有效语句；

所述目标待评估图像的文本风险等级为D2根据公式：

D2 = D2 –γ[r]*(D2-(1/T2))；

确定所述目标待评估图像的文本风险等级。

可选的，所述信息获取模块41还用于：

获取所述目标应用的应用信息；

根据所述应用信息对所述目标应用进行遍历；

可选的，所述信息获取模块41还用于根据预设时间间隔获取截图包括：

可选的，所述信息获取模块41还用于：

可选的，若所述页面信息集包括目标网页的文本信息；

所述信息获取模块41还用于根据所述文本集，对所述目标网页进行文本风险评估：根据所述目标网页的文本集，对每个待评估语句进行文字敏感元素检测获取文字检测结果，根据文字检测结果，对所述每个待评估语句进行风险评估，获取文本风险评估结果。

可选的，所述敏感信息风险评估系统还包括展示模块44用于：

基于用户的第二输入，调整敏感元素；

请参考图5，本发明实施例还提供一种电子设备50，包括处理器51，存储器52，存储在存储器52上并可在所述处理器51上运行的计算机程序，该计算机程序被处理器51执行时实现上述敏感信息风险评估方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述敏感信息风险评估方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请创造的保护范围之中。

Claims

1.一种敏感信息风险评估方法，其特征在于，包括：

根据所述图像集，对所述目标应用或网页进行图像风险评估与文本风险评估；所述图像风险评估包括：对每个所述待评估图像进行图像敏感元素检测，获取图像检测结果；根据所述图像检测结果对每个所述待评估图像进行图像风险评估，获取图像风险评估结果；所述文本风险评估包括：对每个所述待评估图像进行文字敏感元素检测获取文字检测结果，根据所述文字检测结果，对每个所述待评估图像进行文本风险评估，获取文本风险评估结果；

根据所有所述待评估图像的敏感信息风险评估结果，确定所述目标应用或网页的风险评估结果；

所述图像风险评估还包括确定每个所述待评估图像的图像风险置信度：

若目标待评估图像的尺寸为s，根据所述尺寸s确定述目标待评估图像属于图像尺寸阶梯i；

根据所述目标待评估图像的尺寸s，图像尺寸阶梯i的基础置信度β[i]，图像尺寸阶梯i的置信度增长系数λ[i]，图像尺寸阶梯i的图像最大尺寸μ[i]，图像尺寸阶梯i-1的图像最大尺寸μ[i-1]，确定所述目标待评估图像的置信度为C1；

C1＝β[i]+λ[i]*(s-μ[i-1])/(μ[i]-μ[i-1])。

2.根据权利要求1所述的敏感信息风险评估方法，其特征在于，所述敏感信息风险评估结果包括敏感信息风险等级和敏感信息风险置信度；

3.根据权利要求2所述的敏感信息风险评估方法，其特征在于，所述确定所述目标应用或网页的风险评估结果包括：

4.根据权利要求2所述的敏感信息风险评估方法，其特征在于，所述图像风险评估还包括确定每个所述待评估图像的图像风险等级：

Score_m＝Score_m-1+α[p]*(T1-Score_m-1)；

确定所述目标待评估图像的敏感信息风险等级。

5.根据权利要求2所述的敏感信息风险评估方法，其特征在于，所述对每个所述待评估图像进行文字敏感元素检测之前还包括，对每个所述待评估图像中的文字进行识别，获取每个所述待评估图像中的文本集，所述文本集中包括若干个待评估语句；

所述对每个所述待评估图像进行文本风险评估包括：

6.根据权利要求5所述的敏感信息风险评估方法，其特征在于，所述敏感信息评估方法还包括：

根据语句阈值高风险阈值K确定目标语句是否为有效语句；

根据所述目标待评估图像中的有效语句数量，确定所述目标待评估图像属于语句数量阶梯r，语句数量第r阶梯的文字风险阈值为T2，语句数量第r阶梯的下降速率为γ[r]，

所述目标待评估图像的文本风险等级为D2根据公式：

D2＝D2–γ[r]*(D2-(1/T2))；

确定所述目标待评估图像的文本风险等级。

7.根据权利要求1所述的敏感信息风险评估方法，其特征在于，所述获取目标应用或网页的页面信息集包括：

获取所述目标应用的应用信息；

根据所述应用信息对所述目标应用进行遍历；

8.根据权利要求7所述的敏感信息风险评估方法，其特征在于，所述根据预设时间间隔获取截图包括：

9.根据权利要求1所述的敏感信息风险评估方法，其特征在于，获取目标网页的页面信息集还包括：

10.根据权利要求9所述的敏感信息风险评估方法，其特征在于，若所述页面信息集包括目标网页的文本信息；

所述敏感信息风险评估方法还包括，根据所述文本集，对所述目标网页进行文本风险评估：根据所述目标网页的文本集，对每个待评估语句进行文字敏感元素检测获取文字检测结果，根据所述文字检测结果，对所述每个待评估语句进行风险评估，获取文本风险评估结果。

11.根据权利要求9所述的敏感信息风险评估方法，其特征在于，所述敏感信息风险评估方法还包括以下至少之一：

基于用户的第二输入，调整敏感元素；

12.一种敏感信息风险评估系统，其特征在于，包括：

风险识别评估模块，用于根据所述图像集，对所述目标应用或网页进行图像风险评估与文本风险评估；所述图像风险评估包括：对每个所述待评估图像进行图像敏感元素检测，获取图像检测结果；根据所述图像检测结果对每个所述待评估图像进行图像风险评估，获取图像风险评估结果；所述文本风险评估包括：对每个所述待评估图像进行文字敏感元素检测获取文字检测结果，根据所述文字检测结果，对每个所述待评估图像进行文本风险评估，获取文本风险评估结果；

13.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至11中任一项所述的敏感信息风险评估方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的敏感信息风险评估方法的步骤。