CN110619075B

CN110619075B - 一种网页识别方法与设备

Info

Publication number: CN110619075B
Application number: CN201810564315.7A
Authority: CN
Inventors: 肖建冰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2023-04-18
Anticipated expiration: 2038-06-04
Also published as: CN110619075A

Abstract

本申请提供的网页识别方案，可以先获取第一网页对应的用户访问记录，其中，该第一网页为已知的具有第一属性的网页，进而基于所述用户访问记录确定一个或多个用户，并根据所述用户的特征信息获得所述用户访问的第二网页，然后从所述第二网页中识别出具有所述第一属性的目标网页。本申请的方案可以有效降低识别目标网页的检测成本，提高检测效率。

Description

一种网页识别方法与设备

技术领域

本申请涉及网络安全处理领域，尤其涉及一种网页识别的技术。

背景技术

随着云平台服务的广泛应用，网页内容提供方均可以通过使用云平台服务向其用户提供网页，由此云平台上会存储海量的网页内容。实际场景中，一些网页内容提供方可能会违规提供一些包含不良内容的网页，，对于这些网页的信息传播的危害性若是不予重视、放任不管，将会造成极坏的社会影响。现有技术中，通常是采用对云平台上所有的网页都进行筛选检查的方法来检测违法违规网页。例如，拦截云平台上所有网页的用户请求，并读取用户请求得到的网页内容，再使用算法分析获取违法违规网页，具体地，当用户访问云平台上的网站时，当用户收到网站响应请求的数据时，检测系统会通过关键词匹配的方式从响应数据中找到违法信息，并根据用户请求信息追溯到违法信息所属的网页。又如，直接使用爬虫爬取云平台上所有网页，并对网页内容使用算法分析获取违法违规网页。

上述现有技术的检测方法，因为都需要对几乎所有网页进行筛选检查，操作成本极高，特别是当云平台上待检测网页数量极大时，这种检测操作几乎是无法有效实现的；同时，关键词匹配检测方法只能通过关键词比对的方式查找文本信息，效果较差，且网站可能使用混淆关键词的方式来规避检测手段；此外，现有的检测方法，如上述关键词匹配检测方法，通常只能处理文本信息，无法识别图片、音频等信息，功能扩展性较差。

发明内容

本申请的目的是提供一种网页识别方法与设备，以解决现有技术中无法高效地从用户访问的网页中筛选目标网页的技术问题。

根据本申请的一个方面，提供了一种网页识别的方法，包括：

获取第一网页对应的用户访问记录，其中，所述第一网页为已知的具有第一属性的网页；

基于所述用户访问记录确定一个或多个目标用户；

根据所述目标用户的特征信息获得所述目标用户访问的第二网页，所述第二网页包括一个或多个网页；

从所述第二网页中识别出具有所述第一属性的目标网页。

基于本申请的另一方面，还提供了一种网页识别设备，包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行前述的网页识别方法。

此外，本申请还提供了一种网页识别设备，包括：

用户识别装置，用于获取第一网页对应的用户访问记录，基于所述用户访问记录确定一个或多个目标用户，其中，所述第一网页为已知的具有第一属性的网页；

候选网页获取装置，用于根据所述目标用户的特征信息获得所述目标用户访问的第二网页，所述第二网页包括一个或多个网页；

网页识别装置，用于从所述第二网页中识别出具有所述第一属性的目标网页。

本申请提供的网页识别方案中，可以先获取第一网页对应的用户访问记录，其中，该第一网页为已知的具有第一属性的网页，进而基于所述用户访问记录确定一个或多个用户，并根据所述用户的特征信息获得所述用户访问的第二网页，然后从所述第二网页中识别出具有所述第一属性的目标网页。由于本申请的方案中从一批已知第一网页的用户访问记录入手，通过访问用户的特征信息来确定作为目标网页检测候选集合的第二网页，而不再是无差别检测所有网页信息的方式，因此可以有效降低识别目标网页时的检测成本，提高检测效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例提供的一种网页识别方法的处理流程图；

图2为本申请实施例提供的一种网页识别设备的结构示意图；

图3为本申请实施例提供的另一种网页识别设备的结构示意图；

图4为利用本申请实施例提供的方案对云平台服务器中包含违法内容的网页进行识别时的处理流程图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例提供了一种网页识别方法，该方法能够从一批已知第一网页的用户访问记录入手，通过访问用户的特征信息来确定作为目标网页检测候选集合的第二网页，进而在第二网页中识别出具有第一属性的目标网页，从而降低识别目标网页时的检测成本，提高检测效率。在实际场景中，该方法可以由相应的设备执行以实现目标网页的识别，所述设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或云服务器，其中，所述云服务器是运行在分布式系统中的、由一群松散耦合的计算机集组成的一个虚拟超级计算机，其用以实现简单高效、安全可靠、处理能力可弹性伸缩的计算服务。

在本申请的一些实施例中，所述设备可以是能够向用户提供网页内容的服务器，例如可以是云平台的服务器或者其它未采用云计算技术的信息提供平台的服务器。这些服务器所提供的网页可以是由网页内容提供商来上传，例如各类门户网站上网页，也可以是由个人用户上传，例如各类论坛、博客等网站上的网页。所述设备需要获得用户访问网页时的用户访问记录以及相关网页的内容，从而实现本申请实施例提供的网页识别方案。

图1示出了本申请实施例提供的一种网页识别方法的处理流程，可以包括如下的处理步骤：

步骤S101，获取第一网页对应的用户访问记录。其中，所述第一网页为已知的具有第一属性的网页，其作为识别的样本，与需要识别得到的目标网页均具有同样的第一属性，例如，若需要识别的目标网页是包含赌博内容的网页，则作为样本的第一网页也是包含赌博内容的网页。所述第一属性可以是网页所包含的内容的一种特征表述，具体可以是网页中包含的文本内容的特征信息、网页中包含的图像内容的特征信息或者其它网页内容所对应的特征信息等。

用户访问记录可以是提供网页内容的服务器所获取、记录、保存的用户对云平台的访问记录。在本申请的一些实施例中，所述设备可以获取用户发送的网页访问请求，进而根据所述网页访问请求生成用户访问记录。以云平台服务器为例，当用户使用户设备中浏览器请求网页时，浏览器会自动发送所述请求至对应的云平台服务器，云平台服务器会保留相应的访问记录日志，所述访问记录日志中包含的内容即为用户访问记录。

在实际场景中，用户访问记录的内容至少包含用户的特征信息以及用户请求访问的网页的标识信息。其中，用户的特征信息为用于识别第一网页的访问用户对应的用户，例如，访问用户对应的用户设备的IP地址、MAC地址等，用户设备的操作系统及版本，用户设备的cpu类型、用户设备的浏览器及版本、浏览器语言等。而用户请求访问的网页的标识信息用于识别所述第一网页，例如，访问用户请求访问的第一网页的URL、IP、端口等信息。根据协议的不同，用户访问记录中包含具体内容也不相同，可以根据实际场景进行设定。在此，本领域技术人员应该能够理解，上述的各种用户访问记录仅为举例，现有或今后出现的其他用户访问记录如果能够适用于本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

步骤S102，基于所述用户访问记录确定一个或多个目标用户。

在确定目标用户时，可以获取第一网页对应的用户访问记录中包含的用户的特征信息，基于所述用户的特征信息确定一个或多个目标用户。对于每一个向服务器请求过第一网页的用户，均会保存相应的用户访问记录，因此通过用户访问记录中包含的用户的的特征信息，可以确定访问过第一网页的用户，这些访问过第一网页的用户可以直接作为本步骤所需确定的一个或多个目标用户。例如第一网页的URL为ur1，则包含该ur1的所有用户访问记录有N条，该N条用户访问记录中记载的访问用户的IP地址有ip1、ip2和ip3，则本步骤中确定的目标用户为3个，分别为IP地址为ip1、ip2和ip3的用户。

此外，用户的特征信息的内容还可以包含用户访问网页时的访问事件相关信息，该访问事件相关信息用于描述用户访问第一网页时所涉及的其它维度的信息，例如，用户对第一网页的访问时间、与其它访问行为之间的时间间隔等。由此，在确定目标用户时，可以设置相应的筛选条件，基于筛选条件对访问过第一网页的所有用户进行筛选，例如，设置访问时长阈值，排除对第一网页的访问时长为超过该访问时长阈值的用户，又如，设置访问次数阈值，排除对第一网页的访问次数未超过访问次数阈用户等，仅将筛选后的、访问过第一网页的用户作为目标用户。

此外，由于基于用户访问记录中用户的特征信息，可以反映出访问第一网页的用户所具备的一些特点，基于这些特点可以将所有符合这些特点的用户确定为本步骤中的一个或多个目标用户，而非仅从访问过第一网页的用户中确定。例如，第一网页对应的用户访问记录中包含了用户设备所使用的浏览器信息、IP地址、操作系统信息等，由此进行分析，可以确定访问第一网页的用户习惯使用何种浏览器、习惯使用哪一类的操作系统、经常使用哪些IP地址段等特点，进而形成相应的用户画像，将符合该用户画像的用户确定为本步骤所需的一个或多个目标用户。

步骤S103，根据所述目标用户的特征信息获得所述目标用户访问的第二网页。其中，所述第二网页是识别目标网页的备选网页集合，包括一个或多个网页，在本申请的一些实施例中，可以采用如下方式获取：首先根据所述目标用户的特征信息获取与所述特征信息匹配的用户访问记录，然后根据所述用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页。

其中，目标用户的特征信息是指能够用于识别出符合要求的目标用户的标识信息，例如目标用户访问网页时的IP地址、用户设备的操作系统及版本、用户设备的cpu类型、用户设备的浏览器及版本、浏览器语言等。根据所述目标用户的特征信息在服务器保存的用户访问记录中进行搜索，能够获取与所述特征信息匹配的用户访问记录，例如在服务器保存的用户访问记录中搜索包含IP地址为ip1的用户访问记录，由此查找到N条用户访问记录之后，该N条用户访问记录即为与所述特征信息匹配的用户访问记录。

然后，根据该N用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页。例如，网页的标识信息以URL为例，可以确定该N用户访问记录中了url1、url2、url3、url4等四种URL，由此可知，第二网页即为URL为url1、url2、url3、url4的四个网页。在此，本领域技术人员应该能够理解，上述的获取第二网页的方式仅为举例，实际场景中涉及的用户特征信息、网页标识信息以及处理方式可能更加复杂，并非仅涉及IP地址及URL，但是在处理原理类似的情况下，现有或今后出现的其他用户访问记录如果能够适用于本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

此外，由于第二网页是基于所述目标用户的特征信息确定，而目标用户是基于第一网页的用户访问记录获得，因此在实际场景中，由此获得的第二网页，可能会与第一网页存在重复。由于第一网页是已知具有第一属性的网页，无需重复进行识别，为避免重复处理，可以对第二网页先进行一次筛选，使得所述第二网页不包含第一网页。例如，在根据用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页时，可以基于网页的标识信息与第一网页的标识信息进行比较，若相同，则无需归入第二网页进行后续处理。

步骤S104，从所述第二网页中识别出具有所述第一属性的目标网页。由于本申请实施例提供的方法能够从一批已知第一网页的用户访问记录入手，通过访问用户的特征信息来确定作为目标网页检测候选集合的第二网页，进而在第二网页中识别出具有第一属性的目标网页，从而降低识别目标网页时的检测成本，提高检测效率。

为了提高识别目标网页时的检测效率，在本申请的一些实施例中根据识别模型对第二网页的属性进行识别，确定所述第二网页中具有所述第一属性的目标网页。其中，所述识别模型基于训练集进行训练，所述训练集包括已标注第一属性的网页。

在对识别模型进行训练时，提取所述训练集中网页的特征信息，根据所述特征信息对进行识别模型的训练，使得所述识别模型可以用于识别网页的特征信息与网页的属性之间的对应关系。而根据识别模型对第二网页的属性进行识别，确定所述第二网页中具有所述第一属性的目标网页时，也需要先提取所述第二网页的特征信息，然后根据所述识别模型，识别第二网页的特征信息所对应的属性，确定所述第二网页中具有所述第一属性的目标网页。

由于第一属性可以是网页所包含的内容的一种特征表述，具体可以是网页中包含的文本内容的特征信息、网页中包含的图像内容的特征信息或者其它网页内容所对应的特征信息等。以文本内容的特征信息为例，此时识别模型的训练以及识别过程均涉及到NLP(Natural Language Processing，自然语言处理)，例如识别模型的训练以及识别过程中，若涉及到提取网页的特征信息，则先对网页包含的文本内容进行分词操作，获取包含多个词组的分词结果，然后将所述分词结果中多个词组的组合信息，确定为网页的特征信息。

例如，第一属性为包含某类不良信息A，在实际场景中不良信息可以采用色情、暴力、恐怖等标签进行描述。在需要识别具有该第一属性的目标网页时，首先可以准备一批网页作为训练集，该训练集中包含的网页中一部分包含了该类不良信息A，而另一部分则不包含该类不良信息A，且已经预先对网页是否包含该类不良信息A进行了标注。由此，包含该类不良信息A的网页为黑样本，而不包含该类不良信息A的网页为白样本。在进行识别模型训练时，对训练集中的每个网页进行处理，对其包含的文本内容进行分词，一个网页中文本内容会被分成大量的词句组合，这些词句组合的方式能够表达文本内容的特征信息，此时会依据预先标注好的黑白样本，归类黑白样本下出现词组组合的概率，由此得到识别模型。

基于训练好的识别模型，对于待识别的第二网页，同样对第二网页中包含的文本内容进行分词处理，得到每个网页的中关于特定词句组合的信息。在识别过程中，可以根据所述识别模型，确定第二网页的特征信息具有第一属性的概率，该概率可以是词句组合的形式、频率所表达的特征信息是否与第一属性对应的特征信息的相似程度，若相似度高，则表示第二网页的特征信息同样具有第一属性，因此可以设定一个预设值，若第二网页的特征信息具有第一属性的概率超过预设值，将所述第一网页确定为具有所述第一属性的目标网页。

在本申请的一些实施例中，识别模型在进行识别时所对应的识别分类算法可以是朴素贝叶斯算法。该算法思想是：训练公式为网页D属于某类不良信息C的概率＝网页集合随机抽取一个网页D属于某类C的概率*文档中的单词与总单词的比例：

公式P(Category|Document)＝(P(Document|Category)*P(Category))/P(Document)

对应到文本分类，则根据贝叶斯公式可以将识别模型抽象为如下的分类判断公式：

在此基础上，结合本申请的应用场景，假设存在一训练集，包含训练样本网页，基于所述样本进行识别模型的训练：假设网页为(D1,D2,D3...Dn)，该组网页已经打好对应的不良信息的标记(D1[色情],D2[暴力],D3[恐怖]...Dn[正常])，通过对网页的文本内容进行分词操作，我们能够得到如下单词出现频率数据:

D1:P(色情word1):0.7％,P(色情word2):0.09％,P(色情word3):0.03％.......P(色情wordN):0.0004％

D2:P(暴力word3):0.04％,P(暴力word7):0.008％.......P(色情wordK):0.0000007％

...

Dn:P(色情wordM):0.00000006％,P(暴力wordN):0.000000008％.....P(恐怖wordZ):0.000000005％

通过上述训练公式P(Category|Document)＝(P(Document|Category)*P(Category))/P(Document)对训练集的处理，推导出分类训练数据集:

色情分类:P(色情word1):0.45％,P(色情word2):0.034％......P(色情wordN):0.0057％

暴力分类:P(暴力word1):0.45％,P(暴力word2):0.034％......P(暴力wordN):0.0057％

恐怖主义分类:P(恐怖主义word1):0.45％,P(恐怖主义word2):0.034％......P(恐怖主义wordN):0.0057％

……

识别模型训练完成后，即可以采用该识别模型进行网页识别，例如需要对一个网页Dx进行识别，那么我们会先对Dx进行分词操作并计算单词出现的概率：

Dx:P(色情word1):0.005％,P(暴力word4):0.73％,P(恐怖主义word3):0.000004％.....P(色情word3):0.0007％

之后，将分词后得到的数据代入前述分类判断公式，能够得到该网页Dx包含哪一类不良信息的概率：

色情分类:11.23％

暴力分类:92.88％

恐怖主义分类:1.45％

………………

此时，若概率判断设定了一个预设值为80％，则暴力分类的概率大于该预设值，则可以将该网页识别为包含暴力不良信息的目标网页。

此外，本申请实施例还可以支持基于其它形式的特征信息的网页识别，例如网页中包含的图片、视频等所对应的图像特征信息等，将其与文本内容的特征信息结合，可以实现更加准确、扩展性更好的网页识别方案。

对于识别到的目标网页，尤其是一些包含不良信息的目标网页，可以采取一些特定的措施，以减少这些网页的传播，例如，可以将这些目标网页屏蔽，通知不良内容的发布者、网页的提供方，对访问用户进行警告等方式。

在本申请的一些实施例中，在确定了目标网页之后，可以基于所述目标网页对所述第一网页的集合进行更新，由于目标网页会有其它的用户访问，因此再一次执行本申请提供网页识别方法时，基于第一网页的用户访问记录所确定的目标用户的范围将会扩大，进而每一次执行都可以识别到更多的目标网页。

基于同一发明构思，本申请实施例中还提供了一种网页识别设备，所述设备对应的方法是前述实施例中网页识别方法，并且其解决问题的原理与该方法相似。

本申请实施例提供的一种网页识别设备，可以能够从一批已知第一网页的用户访问记录入手，通过访问用户的特征信息来确定作为目标网页检测候选集合的第二网页，进而在第二网页中识别出具有第一属性的目标网页，从而降低识别目标网页时的检测成本，提高检测效率。在实际场景中，所述设备的实现方式可以包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或云服务器等，其中，所述云服务器是运行在分布式系统中的、由一群松散耦合的计算机集组成的一个虚拟超级计算机，其用以实现简单高效、安全可靠、处理能力可弹性伸缩的计算服务。

图2示出了本申请实施例提供的一种网页识别设备的结构，至少包括用户识别装置210、候选网页获取装置220以及网页识别装置230。其中，用户识别装置210用于获取第一网页对应的用户访问记录。其中，所述第一网页为已知的具有第一属性的网页，其作为识别的样本，与需要识别得到的目标网页均具有同样的第一属性，例如，若需要识别的目标网页是包含赌博内容的网页，则作为样本的第一网页也是包含赌博内容的网页。所述第一属性可以是网页所包含的内容的一种特征表述，具体可以是网页中包含的文本内容的特征信息、网页中包含的图像内容的特征信息或者其它网页内容所对应的特征信息等。

用户访问记录可以是提供网页内容的服务器所获取、记录、保存的用户对云平台的访问记录。在本申请的一些实施例中，所述设备还可以包括一日志记录装置，该日志记录装置用于获取用户发送的网页访问请求，进而根据所述网页访问请求生成用户访问记录。以云平台服务器为例，当用户使用户设备中浏览器请求网页时，浏览器会自动发送所述请求至对应的云平台服务器，云平台服务器会保留相应的访问记录日志，所述访问记录日志中包含的内容即为用户访问记录。

用户识别装置210还用于基于所述用户访问记录确定一个或多个目标用户。在确定目标用户时，用户识别装置可以获取第一网页对应的用户访问记录中包含的用户的特征信息，基于所述用户的特征信息确定一个或多个目标用户。对于每一个向服务器请求过第一网页的用户，均会保存相应的用户访问记录，因此通过用户访问记录中包含的用户的的特征信息，可以确定访问过第一网页的用户，这些访问过第一网页的用户可以直接作为本步骤所需确定的一个或多个目标用户。例如第一网页的URL为ur1，则包含该ur1的所有用户访问记录有N条，该N条用户访问记录中记载的访问用户的IP地址有ip1、ip2和ip3，则本步骤中确定的目标用户为3个，分别为IP地址为ip1、ip2和ip3的用户。

候选网页获取装置220用于根据所述目标用户的特征信息获得所述目标用户访问的第二网页。其中，所述第二网页是识别目标网页的备选网页集合，包括一个或多个网页，在本申请的一些实施例中，可以采用如下方式获取：首先根据所述目标用户的特征信息获取与所述特征信息匹配的用户访问记录，然后根据所述用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页。

其中，目标用户的特征信息是指能够用于识别出符合要求的目标用户的标识信息，例如目标用户访问网页时的IP地址、用户设备的操作系统及版本、用户设备的cpu类型、用户设备的浏览器及版本、浏览器语言等。根据所述目标用户的特征信息在服务器保存的用户访问记录中进行搜索，能够获取与所述特征信息匹配的用户访问记录，例如网页识别装置在服务器保存的用户访问记录中搜索包含IP地址为ip1的用户访问记录，由此查找到N条用户访问记录之后，该N条用户访问记录即为与所述特征信息匹配的用户访问记录。

然后，网页识别装置根据该N用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页。例如，网页的标识信息以URL为例，可以确定该N用户访问记录中了url1、url2、url3、url4等四种URL，由此可知，第二网页即为URL为url1、url2、url3、url4的四个网页。在此，本领域技术人员应该能够理解，上述的获取第二网页的方式仅为举例，实际场景中涉及的用户特征信息、网页标识信息以及处理方式可能更加复杂，并非仅涉及IP地址及URL，但是在处理原理类似的情况下，现有或今后出现的其他用户访问记录如果能够适用于本申请，也应该包含在本申请的保护范围内，并以引用的形式包含于此。

此外，由于第二网页是基于所述目标用户的特征信息确定，而目标用户是基于第一网页的用户访问记录获得，因此在实际场景中，由此获得的第二网页，可能会与第一网页存在重复。由于第一网页是已知具有第一属性的网页，无需重复进行识别，为避免重复处理，网页识别装置可以对第二网页先进行一次筛选，使得所述第二网页不包含第一网页。例如，在根据用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页时，可以基于网页的标识信息与第一网页的标识信息进行比较，若相同，则无需归入第二网页进行后续处理。

网页识别装置230从所述第二网页中识别出具有所述第一属性的目标网页。由于本申请实施例提供的方法能够从一批已知第一网页的用户访问记录入手，通过访问用户的特征信息来确定作为目标网页检测候选集合的第二网页，进而在第二网页中识别出具有第一属性的目标网页，从而降低识别目标网页时的检测成本，提高检测效率。

由此，本申请实施例提供的网页识别设备中，还可以包括一模型训练装置，用于对基于训练集进行识别模型的训练。模型训练装置在对识别模型进行训练时，可以提取所述训练集中网页的特征信息，根据所述特征信息对进行识别模型的训练，使得所述识别模型可以用于识别网页的特征信息与网页的属性之间的对应关系。而所述网页识别装置可以根据识别模型对第二网页的属性进行识别，确定所述第二网页中具有所述第一属性的目标网页时，也需要先提取所述第二网页的特征信息，然后根据所述识别模型，识别第二网页的特征信息所对应的属性，确定所述第二网页中具有所述第一属性的目标网页。

由于第一属性可以是网页所包含的内容的一种特征表述，具体可以是网页中包含的文本内容的特征信息、网页中包含的图像内容的特征信息或者其它网页内容所对应的特征信息等。以文本内容的特征信息为例，此时识别模型的训练以及识别过程均涉及到NLP(Natural Language Processing，自然语言处理)，例如识别模型的训练以及识别过程中，若涉及到提取网页的特征信息，则模型训练装置或者网页识别装置可以先对网页包含的文本内容进行分词操作，获取包含多个词组的分词结果，然后将所述分词结果中多个词组的组合信息，确定为网页的特征信息。

基于训练好的识别模型，对于待识别的第二网页，网页识别装置同样对第二网页中包含的文本内容进行分词处理，得到每个网页的中关于特定词句组合的信息。在识别过程中，网页识别装置可以根据所述识别模型，确定第二网页的特征信息具有第一属性的概率，该概率可以是词句组合的形式、频率所表达的特征信息是否与第一属性对应的特征信息的相似程度，若相似度高，则表示第二网页的特征信息同样具有第一属性，因此可以设定一个预设值，若第二网页的特征信息具有第一属性的概率超过预设值，网页识别装置将所述第一网页确定为具有所述第一属性的目标网页。

公式P(Category|Document)＝(P(Document|Category)*P(Category))/P(Document)

...

……

色情分类:11.23％

暴力分类:92.88％

恐怖主义分类:1.45％

………………

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此，本申请实施例还提供了如图3所示的网页识别设备，该设备包括存储有计算机可读指令的一个或多个存储器310和用于执行计算机可读指令的处理器320，其中，当该计算机可读指令被该处理器执行时，使得所述设备执行如图1所示的网页识别方法，所述设备执行网页识别方法时，包括以下处理步骤：

步骤S102，基于所述用户访问记录确定一个或多个目标用户。

此外，本申请的一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。

图4示出了利用本申请实施例提供的方案对云平台服务器中包含违法内容的网页进行识别时的处理流程，可以由云平台服务器实现对其所提供的网页进行识别，该云平台服务器至少需要维护两个数据集：用户访问记录集以及违法信息记录集，其中，所述用户访问记录集中包含了用户访问网页时所产生的用户访问记录，用户访问记录所包含的内容已在前述部分说明，此处不再赘述。违法信息记录集中存储了包含违法内容的网页的所有信息，即关于第一网页的信息。实现识别时的处理流程包括如下步骤：

步骤S401，集合用户访问记录集以及违法信息记录集中的内容，获取访问包含违法内容的网页的目标用户。

步骤S402，获取目标用户的特征信息。

步骤S403，通过目标用户的特征信息获取目标用户访问的所有网页，用户访问这些网页时所产生的用户访问记录则可以用于更新用户访问记录集。

步骤S404，对目标用户访问的所有网页进行处理，识别出其中包含违法内容的网页。

步骤S405，将新识别出的包含违法内容的网页，加入到违法信息记录集中，以更新违法信息记录集，下次识别时即可以采用更新后的数据集，以识别出更多的包含违法内容的网页。

由于本申请的方案中从一批已知网页的用户访问记录入手，通过访问用户的特征信息来确定目标网页检测候选集合，而不再是无差别检测所有网页信息的方式，因此可以有效降低识别目标网页时的检测成本，提高检测效率。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种网页识别方法，包括：

基于所述用户访问记录确定一个或多个目标用户；

从所述第二网页中识别出具有所述第一属性的目标网页；

其中，基于所述用户访问记录确定一个或多个目标用户，包括：

获取第一网页对应的用户访问记录中包含的用户的特征信息，基于所述用户的特征信息确定一个或多个目标用户；所述用户的特征信息包括用户的访问设备信息。

2.根据权利要求1所述的方法，其中，根据所述目标用户的特征信息获得所述目标用户访问的第二网页，包括：

根据所述目标用户的特征信息获取与所述特征信息匹配的用户访问记录；

根据所述用户访问记录中包含的网页的标识信息，确定所述目标用户访问的第二网页。

3.根据权利要求2所述的方法，其中，该方法还包括：

获取用户发送的网页访问请求；

根据所述网页访问请求生成用户访问记录，其中，所述用户访问记录包含用户的特征信息以及用户请求访问的网页的标识信息。

4.根据权利要求1至3中任一项所述的方法，其中，所述第二网页不包含第一网页。

5.根据权利要求1所述的方法，其中，该方法还包括：

基于所述目标网页对所述第一网页的集合进行更新。

6.根据权利要求1所述的方法，其中，从所述第二网页中识别出具有所述第一属性的目标网页，包括：

根据识别模型对第二网页的属性进行识别，确定所述第二网页中具有所述第一属性的目标网页，其中，所述识别模型基于训练集进行训练，所述训练集包括已标注第一属性的网页。

7.根据权利要求6所述的方法，其中，该方法还包括：

提取所述训练集中网页的特征信息；

根据所述特征信息对进行识别模型的训练，其中，所述识别模型用于识别网页的特征信息与网页的属性之间的对应关系；

根据识别模型对第二网页的属性进行识别，确定所述第二网页中具有所述第一属性的目标网页，包括：

提取所述第二网页的特征信息；

根据所述识别模型，识别第二网页的特征信息所对应的属性，确定所述第二网页中具有所述第一属性的目标网页。

8.根据权利要求7所述的方法，其中，提取网页的特征信息，包括：

对网页包含的文本内容进行分词操作，获取包含多个词组的分词结果；

将所述分词结果中多个词组的组合信息，确定为网页的特征信息。

9.根据权利要求7所述的方法，其中，根据所述识别模型，识别第二网页的特征信息所对应的属性，确定所述第二网页中具有所述第一属性的目标网页，包括：

根据所述识别模型，确定第二网页的特征信息具有第一属性的概率；

若第二网页的特征信息具有第一属性的概率超过预设值，将所述第二网页确定为具有所述第一属性的目标网页。

10.一种网页识别设备，包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行权利要求1至9中任一项所述的方法。

11.一种网页识别设备，包括：

网页识别装置，用于从所述第二网页中识别出具有所述第一属性的目标网页；

其中，所述用户识别装置还用于：