CN115828023A - 一种通过机器模型识别网络内容敏感度的方法及系统 - Google Patents
一种通过机器模型识别网络内容敏感度的方法及系统 Download PDFInfo
- Publication number
- CN115828023A CN115828023A CN202310146595.0A CN202310146595A CN115828023A CN 115828023 A CN115828023 A CN 115828023A CN 202310146595 A CN202310146595 A CN 202310146595A CN 115828023 A CN115828023 A CN 115828023A
- Authority
- CN
- China
- Prior art keywords
- data
- sensitivity
- webpage
- model
- machine model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及信息处理技术领域,具体涉及一种通过机器模型识别网络内容敏感度的方法及系统。该方法获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。本发明由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及通过机器模型识别网络内容敏感度的方法及系统。
背景技术
互联网(internet),又称国际网络,指的是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。
网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。
在互联网企业的数据资产管理中,随着业务的发展和用户活跃度的提升,大量有价值的数据会沉淀在数据库表或文本中。数据敏感度作为元数据中的一部分,从泄露风险归类数据,便于开发人员使用和保密。然而,若一些有价值的数据缺少具体的数据敏感度或风险等级,并且没有被开发人员管理维护起来,那么这部分数据在使用时就有可能被泄露出去,这将对业务造成很大的影响。
现有技术在对网页内容进行识别过程中,往往直接将全部网页数据复制到数据库中,然后对其进行敏感内容识别,其造成识别效率低下,为了解决该技术问题,现提出一种通过机器模型识别网络内容敏感度的方法。
发明内容
为了解决上述现有技术中存在的技术问题,本发明提供了一种通过机器模型识别网络内容敏感度的方法及系统。
为实现上述目的,本发明实施例提供了如下的技术方案:
第一方面,在本发明提供的一个实施例中,提供了通过机器模型识别网络内容敏感度的方法,该方法包括以下步骤:
获取待识别的网页数据;
基于所述网页数据,对所述网页数据进行抽样;
基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;
将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
本方案通过获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
作为本发明的进一步方案,所述预训练的识别模型依次对结构化数据进行敏感度识别,包括,
获取所述结构化数据的数据特征,根据所述数据特征进行敏感度识别。
作为本发明的进一步方案,所述识别模型通过样本库进行预训练;包括:
获取样品集,所述样品集包括敏感数据或者非敏感数据;
基于所述样品集对所述识别模型进行训练。
作为本发明的进一步方案,所述基于所述样品集对所述识别模型进行训练,包括对所述识别模型进行参数调整。
作为本发明的进一步方案,所述所述识别模型为Doc2Vec模型。
作为本发明的进一步方案,所述基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据,包括:
获取网页数据的网页元素与结构的源码;
获取所述源码的第一条数据的标签链,判断所述标签链是否含有表格相关的元素;
若所述标签链含有表格相关元素,则以所述标签链的层级为根节点,获取该层级下所有子标签,构成标签集;提取所述标签集中包括表格文字标签的文本,构成组织列结构化数据;
若所述标签链不含有表格相关元素,则获取公共开头标签;基于所述公共开头标签获取子节点合集;基于子节点合集,构成组织列结构化数据;
所述网页数据对应的组织列结构化数据构成网页结构化数据。
作为本发明的进一步方案,所述基于所述公共开头标签获取子节点合集,包括:
获取网页数据中具有公共开头标签的各数据;且各数据的标签链组成子节点合集;
提取所述子节点合集中全部文本标签,构成组织列结构化数据。
作为本发明的进一步方案,所述识别模型识别的内容包括显敏感数据和隐敏感数据。
作为本发明的进一步方案,所述识别模型识别隐敏感数据时,采用的模糊识别进行识别。
第二方面,在本发明提供的又一个实施例中,提供了通过机器模型识别网络内容敏感度的系统,该系统包括:包括数据获取模块、抽样模块、数据结构化模块和数据识别模块。
所述数据获取模块,获取待识别的网页数据。
所述抽样模块,用于基于所述网页数据,对所述网页数据进行抽样。
所述数据结构化模块,用于基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据。
所述数据识别模块,用于将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
第三方面,在本发明提供的又一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现通过机器模型识别网络内容敏感度的方法的步骤。
第四方面,在本发明提供的再一个实施例中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述通过机器模型识别网络内容敏感度的方法的步骤。
本发明提供的技术方案,具有如下有益效果:
本发明提供的通过机器模型识别网络内容敏感度的方法、系统、计算机设备及存储介质,本发明获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例的通过机器模型识别网络内容敏感度的方法的流程图。
图2为本发明一个实施例的通过机器模型识别网络内容敏感度的方法中图像数据划分示意图。
图3为本发明一个实施例的通过机器模型识别网络内容敏感度的方法中步骤S30的具体流程图。
图4为本发明一个实施例的通过机器模型识别网络内容敏感度的系统的结构框图。
图5为本发明一个实施例的一种计算机设备的结构图。
图中:数据获取模块-100、抽样模块-200、数据结构化模块-300、数据识别模块-400、处理器-501、通信接口-502、存储器-503、通信总线-504。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
本发明提供一种通过机器模型识别网络内容敏感度的方法,获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
具体地,下面结合附图,对本发明实施例作进一步阐述。
请参阅图1,图1是本发明实施例提供的一种通过机器模型识别网络内容敏感度的方法的流程图,如图1所示,该通过机器模型识别网络内容敏感度的方法包括步骤S10至步骤S40。
S10、获取待识别的网页数据。
在本发明的实施例中,获取待识别的网页数据,包括复制所述网页内容。如此能够全面的获取网页数据。需要说明的是,待识别的网页数据包括图像数据以及文本数据。对于嵌入到图片中的文本,在获取图片数据时,需要首先对图片数据进行提取,判断图片中是否包括文本数据,如果包括,则需要将图片中的文本识别为文本数据,将不包括文本的图片识别为图像数据,对于该文本数据或者图像数据,需要进行源图像标记,如果该文本数据或者图像数据被识别为敏感数据,则根据该源图像标记将包括该文本数据或者图像数据的内容整体识别为敏感数据进行删除。本实施例的文本数据不仅包括常规的文本,还包括网络链接,对于识别到的网络链接,需要进入到该链接中,继续对链接中的内容进行识别,链接有可能是一个新的网页,也可能是图片或者视频。
若文本数据为网络链接,则将该文本数据进行标记,并对该网络链接对应的内容继续进行识别,如果该网络链接为网页数据,则需要对识别后的数据进行源地址标记,对于标记后的数据,如果后续判定为敏感数据,则需要对该源地址进行删除。如果该网络链接为图片或者视频数据,则直接归类为图像数据,同样的,需要判断是否包括嵌入到图片中的文本,如果该网络链接下的图片或者视频数据后续判定为敏感数据,则将该图片或者视频数据进行删除。
S20、基于所述网页数据,对所述网页数据进行抽样。可以根据选择进行抽样,提高网页识别的效率。
在进行抽样时,对于图像数据和文本数据需要设置不同的抽样率,由于文本数据识别效率较高,并且文本数据通过语义难以划分,因此文本数据的抽样率设置为较高的,例如80%-100%。如果抽样后的文本数据为敏感数据,则认为该文本数据整体为敏感数据。
对于图像数据,需要判断相邻图像的相似度来进行抽样,如果每张图像的相似度均较低,则说明这些图像之间不存在关联性,不能进行抽样,否则可能误删除敏感图像,如果图像之间存在关联性,则可以进行抽样,对于相似度较高的图像仅保留一张识别即可,从而提高识别率,如果该保留的图像被识别为敏感图像,则其余图像自动被识别为敏感图像,如果该保留的图像未被识别为敏感图像,则其余图像也不会被认为是敏感图像。
在进行抽样时,将所述图像数据划分为相同大小的九宫格区域,请参见图2,将第一行区域标记为Z00,Z01,Z02,将第二行区域标记为Z10,Z11,Z12,将第三行区域标记为Z20,Z21,Z22。分别计算每个区域内所有像素点的R、G、B通道像素之和,对每块像素区域分别赋予不同的权重因子,将区域Z00、Z02、Z20、Z22赋予第一权重α,将区域Z01、Z10、Z12、Z21赋予第二权重β,将区域Z11赋予第三权重γ,其中,α为0.2,β为0.3,γ为0.5,该图像的像素比重计算公式为:
在具体实施中,比较相邻两张图像的像素比重T,若相邻像素比重T的差异度小于10%,则认为是关联图像,保留之后的一张即可,对于另一张未被抽样抽取的图像,则只进行标记,便于后续进行处理。
S30、基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据。现有的识别方案,都是直接复制内容或者网页到本地。虽然都得到了数据,但这个数据并不能为后续操作所使用,仍需要进一步的加工。
请参阅图3,在本发明的实施例中,所述基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据,包括:
S301、获取网页数据的网页元素与结构的源码;
S302、获取所述源码的第一条数据的标签链,判断所述标签链是否含有表格相关的元素;
S303、若所述标签链含有表格相关元素,则以所述标签链的层级为根节点,获取该层级下所有子标签,构成标签集;提取所述标签集中包括表格文字标签的文本,构成组织列结构化数据;
S304、若所述标签链不含有表格相关元素,则获取公共开头标签;基于所述公共开头标签获取子节点合集;基于子节点合集,构成组织列结构化数据;
S305、所述网页数据对应的组织列结构化数据构成网页结构化数据。
如此实现了对网页结构化数据的获取,最大化地保留了数据源原本的结构,从而能够组织成结构化数据,方便后续的存储、查看和使用,免去了数据使用者对数据再加工的工作,节省时间和精力。
在本发明的实施例中,所述基于所述公共开头标签获取子节点合集,包括:
S3041、获取网页数据中具有公共开头标签的各数据;且各数据的标签链组成子节点合集。
S3042、提取所述子节点合集中全部文本标签,构成组织列结构化数据。
S40、将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
在本发明的实施例中,所述预训练的识别模型依次对结构化数据进行敏感度识别,包括,
获取所述结构化数据的数据特征,根据所述数据特征进行敏感度识别。
在本发明的实施例中,所述识别模型通过样本库进行预训练;包括:
S401、获取样品集,所述样品集包括敏感数据和非敏感数据;
S402、基于所述样品集对所述识别模型进行训练。
在本发明的实施例中,其中,所述基于所述样品集对所述识别模型进行训练,包括对所述识别模型进行参数调整。
在本发明的实施例中,所述所述识别模型为Doc2Vec模型。该模型能够同时进行图片和文字的识别,不需要进行模型切换,便于实现。
在本发明的实施例中,所述识别模型识别的内容包括显敏感数据和隐敏感数据。隐敏感数据例如包括不能直接识别的模糊数据。
在本发明的实施例中,所述识别模型识别隐敏感数据时,采用的模糊识别进行识别。
本发明获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,参见图4所示,在本发明的实施例中还提供了通过机器模型识别网络内容敏感度的系统,该系统包括数据获取模块100、抽样模块200、数据结构化模块300和数据识别模块400。
所述数据获取模块100,用于获取待识别的网页数据。
所述抽样模块200,用于基于所述网页数据,对所述网页数据进行抽样。
所述数据结构化模块300,用于基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据。
在本发明的实施例中,所述基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据,包括:
S301、获取网页数据的网页元素与结构的源码;
S302、获取所述源码的第一条数据的标签链,判断所述标签链是否含有表格相关的元素;
S303、若所述标签链含有表格相关元素,则以所述标签链的层级为根节点,获取该层级下所有子标签,构成标签集;提取所述标签集中包括表格文字标签的文本,构成组织列结构化数据;
S304、若所述标签链不含有表格相关元素,则获取公共开头标签;基于所述公共开头标签获取子节点合集;基于子节点合集,构成组织列结构化数据;
S305、所述网页数据对应的组织列结构化数据构成网页结构化数据。
如此实现了对网页结构化数据的获取,最大化地保留了数据源原本的结构,从而能够组织成结构化数据,方便后续的存储、查看和使用,免去了数据使用者对数据再加工的工作,节省时间和精力。
在本发明的实施例中,所述基于所述公共开头标签获取子节点合集,包括:
S3041、获取网页数据中具有公共开头标签的各数据;且各数据的标签链组成子节点合集。
S3042、提取所述子节点合集中全部文本标签,构成组织列结构化数据。
所述数据识别模块400,用于将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
本发明获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
在一个实施例中,参见图5所示,在本发明的实施例中还提供了一种计算机设备,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的计算机程序时,执行所述的通过机器模型识别网络内容敏感度的方法,该处理器执行指令时实现上述方法实施例中的步骤:
获取待识别的网页数据;
基于所述网页数据,对所述网页数据进行抽样;
基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;
将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
本发明获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
上述终端提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
还应当进理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本发明的一个实施例中还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤:
获取待识别的网页数据;
基于所述网页数据,对所述网页数据进行抽样;
基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;
将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RA可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(步骤SDRAM)、双数据速率步骤SDRAM(DDR 步骤SDRAM)、增强步骤SDRAM(E步骤SDRAM)、同步链路DRAM(步骤SLDRAM)、以及直接Rambu步骤S RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(D步骤SP)、专用集成电路(A步骤SIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,D步骤SP和微处理器的组合、多个微处理器、一个或多个微处理器结合D步骤SP和/或任何其它这种配置。
综上所述,本发明提供了一种通过机器模型识别网络内容敏感度的方法,本申请获取待识别的网页数据;基于所述网页数据,对所述网页数据进行抽样;基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果;由于采用抽样的策略,已经通过获取结构化的网页数据,能够准确快速的对网页数据中的敏感内容进行识别。
需要说明的是,对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可能采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,涉及的动作和模块并不一定是本发明所必须的。
本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或通信连接可以是通过一些接口,装置或单元之间的间接耦合或通信连接,可以是电信或者其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。
Claims (10)
1.一种通过机器模型识别网络内容敏感度的方法,其特征在于,该方法包括:
获取待识别的网页数据;
基于所述网页数据,对所述网页数据进行抽样;
基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;
将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
2.如权利要求1所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述预训练的识别模型依次对结构化数据进行敏感度识别,包括,
获取所述结构化数据的数据特征,根据所述数据特征进行敏感度识别。
3.如权利要求1所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述识别模型通过样本库进行预训练;包括:
获取样品集,所述样品集包括敏感数据或者非敏感数据;
基于所述样品集对所述识别模型进行训练。
4.如权利要求3所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述基于所述样品集对所述识别模型进行训练,包括对所述识别模型进行参数调整。
5.如权利要求1所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述所述识别模型为Doc2Vec模型。
6.如权利要求1-5任一所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据,包括:
获取网页数据的网页元素与结构的源码;
获取所述源码的第一条数据的标签链,判断所述标签链是否含有表格相关的元素;
若所述标签链含有表格相关元素,则以所述标签链的层级为根节点,获取该层级下所有子标签,构成标签集;提取所述标签集中包括表格文字标签的文本,构成组织列结构化数据;
若所述标签链不含有表格相关元素,则获取公共开头标签;基于所述公共开头标签获取子节点合集;基于子节点合集,构成组织列结构化数据;
所述网页数据对应的组织列结构化数据构成网页结构化数据。
7.如权利要求6所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述基于所述公共开头标签获取子节点合集,包括:
获取网页数据中具有公共开头标签的各数据;且各数据的标签链组成子节点合集;
提取所述子节点合集中全部文本标签,构成组织列结构化数据。
8.如权利要求1所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述识别模型识别的内容包括显敏感数据和隐敏感数据。
9.如权利要求1所述的一种通过机器模型识别网络内容敏感度的方法,其特征在于,所述识别模型识别隐敏感数据时,采用的模糊识别进行识别。
10.一种通过机器模型识别网络内容敏感度的系统,其特征在于,包括数据获取模块、抽样模块、数据结构化模块和数据识别模块;
所述数据获取模块,用于获取待识别的网页数据;
所述抽样模块,用于基于所述网页数据,对所述网页数据进行抽样;
所述数据结构化模块,用于基于抽样后的网页数据进行结构化,得到对应的待识别的结构化数据;
所述数据识别模块,用于将所述待识别的结构化数据输入至机器模型中,其中所述机器模型包括识别模型,预训练的识别模型对结构化数据进行敏感度识别;获得敏感内容识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146595.0A CN115828023B (zh) | 2023-02-22 | 2023-02-22 | 一种通过机器模型识别网络内容敏感度的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146595.0A CN115828023B (zh) | 2023-02-22 | 2023-02-22 | 一种通过机器模型识别网络内容敏感度的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115828023A true CN115828023A (zh) | 2023-03-21 |
CN115828023B CN115828023B (zh) | 2023-05-09 |
Family
ID=85522045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310146595.0A Active CN115828023B (zh) | 2023-02-22 | 2023-02-22 | 一种通过机器模型识别网络内容敏感度的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115828023B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092566A1 (en) * | 2014-09-29 | 2016-03-31 | International Business Machines Corporation | Clustering repetitive structure of asynchronous web application content |
CN109005145A (zh) * | 2018-06-04 | 2018-12-14 | 上海交通大学 | 一种基于自动特征抽取的恶意url检测系统及其方法 |
CN112541476A (zh) * | 2020-12-24 | 2021-03-23 | 西安交通大学 | 一种基于语义特征提取的恶意网页识别方法 |
CN113742785A (zh) * | 2020-05-28 | 2021-12-03 | 深信服科技股份有限公司 | 一种网页分类方法、装置、电子设备及存储介质 |
CN113901376A (zh) * | 2021-12-09 | 2022-01-07 | 中国电子科技集团公司信息科学研究院 | 恶意网站检测方法、装置、电子设备和计算机存储介质 |
-
2023
- 2023-02-22 CN CN202310146595.0A patent/CN115828023B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092566A1 (en) * | 2014-09-29 | 2016-03-31 | International Business Machines Corporation | Clustering repetitive structure of asynchronous web application content |
CN109005145A (zh) * | 2018-06-04 | 2018-12-14 | 上海交通大学 | 一种基于自动特征抽取的恶意url检测系统及其方法 |
CN113742785A (zh) * | 2020-05-28 | 2021-12-03 | 深信服科技股份有限公司 | 一种网页分类方法、装置、电子设备及存储介质 |
CN112541476A (zh) * | 2020-12-24 | 2021-03-23 | 西安交通大学 | 一种基于语义特征提取的恶意网页识别方法 |
CN113901376A (zh) * | 2021-12-09 | 2022-01-07 | 中国电子科技集团公司信息科学研究院 | 恶意网站检测方法、装置、电子设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115828023B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
US8381094B1 (en) | Incremental visual comparison of web browser screens | |
CN115618371B (zh) | 一种非文本数据的脱敏方法、装置及存储介质 | |
CN110909229A (zh) | 一种基于模拟浏览器访问的网页数据获取和存储的系统 | |
US20140337326A1 (en) | Topical Mapping | |
CN109710224B (zh) | 页面处理方法、装置、设备及存储介质 | |
CN109558123B (zh) | 网页转化电子书的方法、电子设备、存储介质 | |
CN112417899A (zh) | 文字翻译方法、装置、计算机设备和存储介质 | |
CN110851136A (zh) | 数据获取方法、装置、电子设备及存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN113139033B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115859964B (zh) | 基于教育云平台的教育资源共享方法及系统 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN115828023B (zh) | 一种通过机器模型识别网络内容敏感度的方法及系统 | |
CN112579947A (zh) | 网页元素图的截取方法、装置及电子设备 | |
CN110781310A (zh) | 目标概念图谱的构建方法、装置、计算机设备和存储介质 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114818627A (zh) | 一种表格信息抽取方法、装置、设备及介质 | |
CN115145674A (zh) | 基于动态锚点的页面跳转方法、装置、设备及介质 | |
CN114443622A (zh) | 一种基于纵向联邦学习的树模型的预测方法及装置 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
CN114637505A (zh) | 一种页面内容提取方法和装置 | |
CN109582850B (zh) | 一种网页爬取的方法、装置、存储介质及电子设备 | |
CN113779438B (zh) | 一种网页的文本信息处理方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |