CN112650910A

CN112650910A - 确定网站更新信息的方法、装置、设备和存储介质

Info

Publication number: CN112650910A
Application number: CN202011625737.4A
Authority: CN
Inventors: 徐军; 杨光; 许海洋; 王艺
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-13
Anticipated expiration: 2040-12-30
Also published as: CN112650910B

Abstract

公开了一种确定网站更新信息的方法，涉及深度学习领域，具体的，涉及网络信息采集领域。该方法包括：抓取目标网站的多个网页，多个网页包括列表页和内容页；从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页；针对每个识别的列表页，确定与所识别的列表页关联的内容页的地址的正则表达式；以及根据正则表达式来确定与所识别的列表页关联的内容页的更新。本公开还公开了一种确定网站更新信息的装置、设备、存储介质和计算机程序产品。

Description

确定网站更新信息的方法、装置、设备和存储介质

技术领域

本公开涉及深度学习领域，具体的，涉及网络信息采集领域，更具体的，涉及一种确定网站更新信息的方法、装置、设备、存储介质和一种计算机程序产品。

背景技术

随着互联网技术的发展，越来越多的企业和职能部门通过网站来发布各种信息。为了及时获取这些信息，需要对网站的更新进行实时监控。可以通过人工的方式对网站的网页进行筛选，但需要耗费较高的人力成本，且容易遗漏链接层级较深的网页。也可以针对网站的类型、样式等设计定制化的自动监控程序进行筛选，但这种方式不易扩展且筛选准确率较低。

发明内容

有鉴于此，本公开提供了一种确定网站更新信息的方法、装置、设备、存储介质和计算机程序产品。

根据第一方面，提供了一种确定网站更新信息的方法，包括：

抓取目标网站的多个网页，所述多个网页包括列表页和内容页；

从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页；

针对每个识别的列表页，确定与所识别的列表页关联的内容页的地址的正则表达式；以及

根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。

根据第二方面，还提供了一种确定网站更新信息的装置，包括：

抓取模块，配置为抓取目标网站的多个网页，所述多个网页包括列表页和内容页；

识别模块，配置为从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页；

表达式确定模块，配置为针对每个识别的列表页，确定与所识别的列表页关联的内容页的地址的正则表达式；以及

更新确定模块，配置为根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。

根据第三方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据第一方面所述的方法。

根据第四方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面所述的方法。

根据第五方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

根据本公开的实施例，通过识别网页中的列表页以及与所识别的列表页关联的内容页，并确定与所识别的列表页关联的内容页的地址的正则表达式，实现了基于正则表达式的对网站更新信息的实时监控，提高了网页筛选的准确率，有利于准确定位到所需的网页，并且能够实现对链接层级较深的网页的筛选，降低了监控成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了根据本公开的实施例的确定网站更新信息的方法的流程图；

图2示出了根据本公开的实施例的列表页和内容页的示例；

图3示出了根据本公开的实施例的从获取目标网站的网址到确定正则表达式的示例过程；

图4示出了根据本公开的实施例的识别网页所包括的列表页和内容页的示例过程；

图5示出了根据本公开的另一实施例的确定网站更新信息的装置的框图；以及

图6示出了可以用来实施本公开的实施例的确定网站更新信息的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了根据本公开的实施例的确定网站更新信息的方法100的流程图。如图1所示，根据本公开实施例的确定网站更新信息的方法100包括以下步骤：

在步骤S110中，抓取目标网站的多个网页。

在步骤S120中，从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页。

在步骤S130中，针对每个识别的列表页，确定与所识别的列表页关联的内容页的地址的正则表达式。

在步骤S140中，根据正则表达式来确定与所识别的列表页关联的内容页的更新。

具体的，在步骤S110中，目标网站可以是为了获取其数据信息而要对其进行监控的指定网站。例如，如果要获取关于企业的行政处罚的相关信息，以对企业进行实时风险告警，则可以将发布行政处罚信息的相关行政部门的门户网站作为目标网站。根据实施例，指定的目标网站可以是一个或多个，如果指定了多个目标网站，则分别从每个目标网站抓取多个网页。

根据实施例，对目标网站的网页进行全站抓取。例如，可以设置网页的抓取阈值，并在抓取阈值所指定的范围内对网页进行抓取。在一个实施例中，可以根据链接层级的深度来设置抓取阈值。例如，将抓取阈值设置为5，则可以对链接层级在5级以内的目标网站的网页进行抓取。在另一个实施例中，可以根据要抓取的网页的数量来设置抓取阈值。例如，将抓取阈值设置为500，则可以抓取500个目标网站的网页。

根据本公开的实施例，能够对目标网站的网页抓取数量和抓取方式进行控制，有利于根据设备的处理能力调整抓取网页的数量，并且有利于获取到链接层级较深的网页，从而避免在网页抓取过程中由于网页的链接层级较深而不能有效抓取的问题。

此外，本公开实施例对所采用的网页抓取方法不做限定，可以采用任何合适的网页抓取方法。例如，在具体的实施例中，可以调用网络爬虫服务来对网页进行抓取。

根据实施例，多个网页包括列表页和内容页，在列表页上包括跳转到内容页的地址。在步骤S120中，从抓取的多个网页中识别列表页和内容页，每个目标网站可以包括多个列表页和多个内容页，具体的，如果指定了一个目标网站，则可以获取该目标网站的多个列表页，在每个列表页上可以包括跳转到多个不同内容页的多个地址。如果指定了多个目标网站，则针对多个目标网站中的每个目标网站，对网站所包括的列表页和内容页进行分类识别。根据本公开的实施例，基于海量网页数据建立神经网络模型来对列表页和内容页进行分类，可以显著地提高网页分类的准确率。

接下来，在步骤S130中，为了实现自动地从识别得到的列表页中提取内容页的地址的集合，基于识别得到的与列表页关联的内容页的地址生成正则表达式。在具体的实施例中，获取与所识别的列表页关联的内容页的地址的集合(第一集合)，通过对集合中所包括的地址进行聚合来确定集合中所包括的地址的字符串的公共部分，以及基于所确定的公共部分来确定正则表达式。

接下来，在步骤S140中，根据所确定的正则表达式对所识别的列表页进行实时监控，以及时获取列表页的更新信息。在具体的实施例中，针对列表页的实时监控过程包括：基于所确定的正则表达式，通过爬虫服务周期地爬取所识别的列表页来得到与所识别的列表页关联的内容页的地址的集合(第二集合)，以及通过将当前周期爬取得到的内容页的地址的集合与前一周期爬取得到的内容页的地址的集合相比较，来确定集合中新增的内容页，即确定网站的更新信息。

根据本公开的实施例，通过识别网页中的列表页以及与所识别的列表页关联的内容页，并确定与所识别的列表页关联的内容页的地址的正则表达式，实现了基于正则表达式的对网站更新信息的实时监控。基于正则表达式匹配得到的内容页地址，能够明确地限定要进行监控的内容页的范围，因此，提高了网页筛选的准确率，有利于准确定位到所需的网页。

此外，通过基于链接层级来抓取网页，并通过列表页中的内容页地址来对内容页进行监控，能够实现对链接层级较深的网页的筛选，降低了监控成本。

此外，即使监控的列表页的设计风格或渲染方式发生了变化，只需根据新的网页信息重新训练神经网络模型，以使神经网络模型的参数适配于更新的列表页即可，因此，根据本公开实施例的确定网站更新信息的方法能够容易进行扩展。

图2示出了根据本公开的实施例的列表页和内容页的示例。如图2所示，从目标网站抓取的网页包括列表页21和与列表页21关联的多个内容页22。如图2所示，在列表页21上可以包括多种形式的地址(即链接)。例如，如图2所示，位于列表页顶部的地址集合211，通过该地址集合211跳转到的页面可能仍为列表页，也可能是内容页。该地址集合211例如可以是网页顶部设置的页面或栏目切换标签，即通过该地址集合211跳转到的网页不是所需的内容页。因此，地址集合211不是要提取的地址集合。如图2所示，在列表页21的下部还包括地址集合212，该地址集合212例如可以是到其他网站的连接。在列表页21的页面两侧还包括地址集合213，该地址集合213例如可以是嵌入到页面中的广告。容易理解，也不能通过地址集合212和213跳转到所需的内容页。因此，列表页21上的地址集合211、212和213均不是要提取的地址集合。

如图2所示，在列表页21的页面中央还包括地址集合214，通过该地址集合214中所包括的每个地址可以跳转到不同的内容页22。如图2所示，通过地址“XXXDXXX”可以跳转到内容页224，内容页224呈现的是文书的具体内容，是根据本公开实施例的要进行监控的内容页。当要增加新的内容页时，例如当有新的文书发布时，可以通过更新地址集合214中所包括的地址来将新的内容页链接到列表页21。如图2所示，新增加的内容页的地址呈现在地址“XXXDXXX”的上方，依次为“XXXCXXX”、“XXXBXXX”和“XXXAXXX”，通过地址“XXXCXXX”、“XXXBXXX”和“XXXAXXX”可以分别链接到内容页223、222和221。因此，通过对列表页21中的地址集合214中所包括的内容页的地址进行监控，可以及时地获知新增内容页的情况，从而可以简化对更新的内容页进行监控的过程。

进一步地，为了从列表页21上的地址集合211、212、213和214中可靠地提取到地址集合214中所包括的地址，在本公开的实施例中，采用了正则表达式对地址集合214进行提取的方法。具体的，在基于正则表达式来对列表页21进行监控的过程中，可以通过所确定的正则表达式来匹配地址集合214中的地址，而不对地址集合211、212和213中的地址进行匹配，这可以避免由于提取到错误的信息而产生的干扰，可以提高监控的可靠性。

在一个具体的示例中，假设通过对某行政部分的门户网站的网页数据进行抓取和分类，得到列表页21的地址为：

https://www.cbirc.gov.cn/cn/view/pages/ItemList.html？itemPId＝923&itemId＝4113&itemUrl＝ItemListRightList.html&itemName＝％E9％93％B6％E4％BF％9D％E7％9B％91％E4％BC％9A％E6％9C％BA％E5％85％B3&itemsubPId＝931&itemsubPName＝％E8％A1％8C％E6％94％BF％E5％A4％84％E7％BD％9A。

得到内容页221、222和223的地址分别为：

https://www.cbirc.gov.cn/cn/view/pages/ItemDetail.html？docId＝949266&itemId＝4113&generaltype＝9，

https://www.cbirc.gov.cn/cn/view/pages/ItemDetail.html？docId＝949220&itemId＝4113&generaltype＝9和

https://www.cbirc.gov.cn/cn/view/pages/ItemDetail.html？docId＝947270&itemId＝4113&generaltype＝9。

则可以根据内容页221、222和223的地址聚合得到正则表达式：

^(((http)|(https))://www.cbirc.gov.cn/cn/view/pages/ItemDetail.[a-z]+[？]+[a-zA-Z0-9-_＝#？％&\\.\/:,；]*)$。

该正则表达式可以用于从列表页21的页面上准确匹配地址集合214中的地址。

图3示出了根据本公开的实施例的从获取目标网站的网址到确定正则表达式的示例过程。如图3所示，首先获取到目标网站的网址，具体的，可以根据发布所需数据信息的行政机构或部门的名称检索到网站的信息。接下来，利用网络爬虫服务对目标网站的每个网页页面的内容和地址进行爬取。如图3所示，可以爬取到N个地址url-1、url-2、……url-N。如果N的数值较大，则对N个地址所对应的各个网页进行监控是困难的。因此，在本公开的实施例中，对网页进行分类识别以获取列表页，并通过对列表页进行监控来获取新增内容页的信息。这样可以大大缩减需要进行监控的网页的数量，从而简化监控方法，提高监控的可靠性。

如图3所示，基于训练好的分类识别模型对N个地址url-1、url-2、……url-N对应的网页进行分类识别。图3中的分类识别模型被示出为深度神经网络DNN(Deep NeuralNetworks)，且该深度神经网络仅为示例。如图3所示，向分类识别模型DNN中输入N个地址url-1、url-2、……url-N，同时将N个地址url-1、url-2、……url-N对应的网页的内容也输入到分类识别模型DNN中，N个地址url-1、url-2、……url-N对应的网页的内容可以同样适用爬虫服务获取。利用DNN对网页进行分类识别的结果是得到网页列表页以及与列表页关联的内容页。如图3所示，通过对N个地址url-1、url-2、……url-N对应的网页进行分类识别，得到3个列表页，分别为listurl-1、listurl-2和listurl-3。并且得到分别与这3个列表页关联的多个内容页。如图3所示，可以识别得到与列表页listurl-1关联的3个内容页list1-suburl-1、list1-suburl-2和list1-suburl-3。类似的，列表页listurl-2和listurl-3也有各自的关联的内容页。在提取正则表达式时，针对每个列表页关联的内容页分别提取。如图3所示，根据内容页list1-suburl-1、list1-suburl-2和list1-suburl-3聚合得到正则表达式list1-pattern，该正则表达式可以用于在对列表页listurl-1进行监控时，与所调用的网络爬虫服务相结合来提取列表页listurl-1关联的内容页集合。例如，如果通过基于正则表达式爬取到列表页listurl-1关联的内容页包括list1-suburl-1、list1-suburl-2、list1-suburl-3和list1-suburl-4，其中list1-suburl-4为新增加的内容页，则可以确定列表页listurl-1有更新，并且可以通过对list1-suburl-4的进一步识别来确定新增内容页是否与当前监控有关，即是否涉及所需的数据。

需要说明的是，图3中所示网页地址的数量、识别得到的列表页的数量、与识别得到的列表页关联的内容页的数量均为示例，在其他的实施例中可以为其他数量。

在本公开的实施例中，针对每个列表页所关联的内容页的地址分别生成对应的正则表达式，能够准确地捕捉到列表页上新增的内容页，以及时发现新发布的数据，并准确定位到该新发布的数据。

在本公开的实施例中，基于海量网页数据建立神经网络模型来对列表页和内容页进行分类，可以显著地提高网页分类的准确率。根据实施例，在从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页的过程中，分别针对网页的不同区域和属性提取特征向量，以获得关于网页的更加完备的信息。在具体的实施例中，针对多个网页的网页标题进行特征提取，由此获得第一特征向量；针对多个网页的除标题以外的网页其他文本进行特征提取，由此获得第二特征向量；以及针对多个网页的网页地址进行特征提取，由此获得第三特征向量。然后利用神经网络模型对第一特征向量、第二特征向量和第三特征向量进行分类处理，以从多个网页中识别列表页以及与所识别的列表页关联的内容页。

图4示出了根据本公开的实施例的识别网页所包括的列表页和内容页的示例过程。如图4所示，通过调用网络爬虫服务，可以获取关于网页的页面的内容信息(如图4中的html内容所示)和网页的地址信息(如图4中的url所示)。

如图4所示，从html内容中获取网页的网页标题，网页标题一般是关于下面文本信息的概要，从标题中可以大致获得下面文本信息的主要内容。在本公开的实施例中，针对网页标题，利用词典来提取网页标题的特征，并对特征进行编码，然后基于Embedding词向量转换将编码的特征转换为第一特征向量。

如图4所示，从html内容中抽取除网页标题以外的网页其他文本。根据实施例，此处所说的除网页标题以外的网页其他文本主要指一些具有表征意义的网页内容的特征，从这些具有表征意义的网页内容的特征中可以挖掘处与网页有关的重要信息。根据实施例，除网页标题以外的网页其他文本包括例如发表时间、出版单位、正文段落、文章来源等。容易理解，本公开实施例中所说除网页标题以外的网页其他文本不限于此。接下来，以枚举的方式提取除标题以外的网页其他文本的特征，并对提取的特征出现的次数进行统计，以及基于提取的特征和统计的次数形成序列，即形成第二特征向量。

如图4所示，从网页地址中提取其中的关键字符串。在本公开的实施例中，关键字符串例如是地址中的特殊字符或特定英文字符，这些特殊字符或特定英文字符在某些网站设计中可以保证网页的属性。例如，如果网页渲染为图片的形式，则在对网页内容进行提取的过程中无法提取到任何文本信息，那么将不能基于html内容来对网页进行分类识别。进一步地，考察该网页的地址：

https://www.cbirc.gov.cn/cn/view/pages/ItemDetail.html？docId＝949266&itemId＝4113&generaltype＝9，发现在该地址中包含特定英文字符“docId”，结合网站的设计可知，该特定英文字符“docId”表示网页是包含文本内容的内容页。根据实施例，在提取得到网页地址中的关键字符串之后，基于One-Hot词向量转换将关键字符串转换为第三特征向量。

根据本公开的实施例，通过分别使用不同的方法来针对网页的内容和网页地址分别提取特征向量，实现了多维度的特征提取，有利于提升网页分类识别的准确率。

接下来，如图4所示，将得到的第一特征向量、第二特征向量和第三特征向量一起输入到神经网络模型41中。根据本公开实施例的神经网络模型41包括第一子模型411、第二子模型412、第三子模型413和第四子模型414。如图4所示，使用第一子模型411接收第一特征向量，该第一子模型411可以对第一特征向量中的深层语义信息进行挖掘，构件能够表征全句(即网页标题)信息的隐向量。在具体的实施例中，第一子模型411可以是双向长短记忆网络(Bi-directional Long Short Term Memory，BILSTM)。如图4所示，使用第二子模型412接收第二特征向量，该第二子模型412可以对第二特征向量的维度进行线性调整，以使调整后的第二特征向量的维度与第一特征向量的维度相同。在具体的实施例中，第二子模型412可以是全连接神经网络(Dense)。如图4所示，使用第三子模型413接收第三特征向量，该第三子模型413可以对第三特征向量进行压缩和降维，以使调整后的第三特征向量的维度与第一特征向量和第二特征向量的维度相同。在具体的实施例中，第三子模型413可以是卷积神经网络(Convolutional Neural Networks，CNN)。

接下来，如图4所示，将经调整的维度相同的第一特征向量、第二特征向量和第三特征向量合并为输入向量矩阵。例如，如果经调整的第一特征向量为[a₁,a₂,……,a_n]^T，第二特征向量为[b₁,b₂,……,b_n]^T，第三特征向量为[c₁,c₂,……,c_n]^T，则通过合并可以得到输入向量矩阵

接下来，如图4所示，将输入向量矩阵输入到第四子模型中，利用第四子模型对其进行分类处理。在第四子模型414可以是全连接神经网络(Dense)。

需要说明的是，上述第一子模型411、第二子模型412、第三子模型413和第四子模型414所采用的具体神经网络模型均为示例，可以采用其他神经网络模型来实现各子模型的功能。

在本公开的实施例中，通过针对网页的多组特征分别构建特征向量，以及通过合并各特征向量来得到输入向量矩阵，并利用神经网络模型对输入向量矩阵进行处理，显著地提高了网页分别识别的准确率。

图5示出了根据本公开的另一实施例的确定网站更新信息的装置500的框图。如图5所示，该确定网站更新信息的装置500包括抓取模块510、识别模块520、表达式确定模块530和更新确定模块540。

根据实施例，抓取模块510被配置为抓取目标网站的多个网页，多个网页包括列表页和内容页。识别模块520被配置为从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页。表达式确定模块530被配置为针对每个识别的列表页，确定与所识别的列表页关联的内容页的地址的正则表达式。更新确定模块540被配置为根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。

根据实施例，识别模块520包括第一特征向量提取单元、第二特征向量提取单元、第三特征向量提取单元和分类识别单元。根据实施例，第一特征向量提取单元配置为针对多个网页的网页标题进行特征提取，获得第一特征向量。第二特征向量提取单元配置为针对多个网页的除标题以外的网页其他文本进行特征提取，获得第二特征向量。第三特征向量提取单元配置为针对多个网页的网页地址进行特征提取，获得第三特征向量。分类识别单元配置为利用神经网络模型对第一特征向量、第二特征向量和第三特征向量进行分类处理，从多个网页中识别列表页以及与所识别的列表页关联的内容页。

根据实施例，第一特征向量提取单元包括第一提取子单元和第一转换子单元。根据实施例，第一提取子单元配置为利用词典提取网页标题的特征。第一转换子单元配置为基于Embedding词向量转换将提取的特征转换为第一特征向量。

根据实施例，第二特征向量提取单元包括第二提取子单元和第二转换子单元。根据实施例，第二提取子单元配置为以枚举的方式提取除标题以外的网页其他文本的特征，并对提取的特征出现的次数进行统计。第二转换子单元配置为基于提取的特征和统计的次数形成第二特征向量。

根据实施例，第三特征向量提取单元包括第三提取子单元和第三转换子单元。根据实施例，第三提取子单元配置为提取网页地址中的关键字符串。第三转换子单元配置为基于One-Hot词向量转换将关键字符串转换为第三特征向量。

根据实施例，神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型。根据实施例，第一子模型包括双向长短记忆网络，第二子模型包括全连接神经网络，第三子模型包括卷积神经网络，第四子模型包括全连接神经网络。

根据实施例，分类识别单元包括维度调整子单元、合并子单元和处理子单元。根据实施例，维度调整子单元配置为分别使用第一子模型、第二子模型和第三子模型对第一特征向量、第二特征向量和第三特征向量的维度进行调整，以使第一特征向量、第二特征向量和第三特征向量的维度相同。合并子单元配置为将经调整的第一特征向量、第二特征向量和第三特征向量合并为输入向量矩阵。处理子单元配置为使用第四子模型对输入向量矩阵进行分类处理。

根据实施例，表达式确定模块530包括第一集合获取单元、聚合单元和第一确定单元。根据实施例，第一集合获取单元配置为获取与所识别的列表页关联的内容页的地址的第一集合。聚合单元配置为通过对第一集合中所包括的地址进行聚合，确定第一集合中所包括的地址的字符串的公共部分。第一确定单元配置为基于所确定的公共部分来确定正则表达式。

根据实施例，更新确定模块540包括第二集合获取单元和第二确定单元。根据实施例，第二集合获取单元配置为基于正则表达式，通过爬虫服务周期地爬取所识别的列表页来得到与所识别的列表页关联的内容页的地址的第二集合。第二确定单元，配置为通过将当前周期爬取得到的第二集合与前一周期爬取得到的第二集合相比较，来确定第二集合中新增的内容页。

根据实施例，抓取模块510还被配置为抓取目标网站的在预设的链接层级以内的网页或抓取预设数量的网页。

以上各功能模块的具体操作可以参考前述实施例中的确定网站更新信息的方法100的操作步骤来获取，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6是可以用来实施本公开实施例的确定网站更新信息的方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如确定网站更新信息的方法。例如，在一些实施例中，确定网站更新信息的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的确定网站更新信息的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定网站更新信息的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定网站更新信息的方法，包括：

2.根据权利要求1所述的方法，其中，从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页包括：

针对所述多个网页的网页标题进行特征提取，获得第一特征向量；

针对所述多个网页的除标题以外的网页其他文本进行特征提取，获得第二特征向量；

针对所述多个网页的网页地址进行特征提取，获得第三特征向量；以及

利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理，从所述多个网页中识别列表页以及与所识别的列表页关联的内容页。

3.根据权利要求2所述的方法，其中，针对所述多个网页的网页标题进行特征提取，获得第一特征向量包括：

利用词典提取所述网页标题的特征；以及

基于Embedding词向量转换将提取的特征转换为所述第一特征向量。

4.根据权利要求2所述的方法，其中，针对所述多个网页的除标题以外的网页其他文本进行特征提取，获得第二特征向量包括：

以枚举的方式提取除标题以外的网页其他文本的特征，并对提取的特征出现的次数进行统计；以及

基于提取的特征和统计的次数形成所述第二特征向量。

5.根据权利要求2所述的方法，其中，针对所述多个网页的网页地址进行特征提取，获得第三特征向量包括：

提取所述网页地址中的关键字符串；以及

基于One-Hot词向量转换将所述关键字符串转换为所述第三特征向量。

6.根据权利要求2至5中任一项所述的方法，其中，所述神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型，所述利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理包括：

分别使用所述第一子模型、所述第二子模型和所述第三子模型对所述第一特征向量、所述第二特征向量和所述第三特征向量的维度进行调整，以使所述第一特征向量、所述第二特征向量和所述第三特征向量的维度相同；

将经调整的所述第一特征向量、所述第二特征向量和所述第三特征向量合并为输入向量矩阵；以及

使用第四子模型对所述输入向量矩阵进行分类处理。

7.根据权利要求6所述的方法，其中，所述第一子模型包括双向长短记忆网络，所述第二子模型包括全连接神经网络，所述第三子模型包括卷积神经网络，所述第四子模型包括全连接神经网络。

8.根据权利要求1所述的方法，其中，确定与所识别的列表页关联的内容页的地址的正则表达式包括：

获取与所识别的列表页关联的内容页的地址的第一集合；

通过对所述第一集合中所包括的地址进行聚合，确定所述第一集合中所包括的地址的字符串的公共部分；以及

基于所确定的公共部分来确定所述正则表达式。

9.根据权利要求1所述的方法，其中，根据所述正则表达式来确定与所识别的列表页关联的内容页的更新包括：

基于所述正则表达式，通过爬虫服务周期地爬取所识别的列表页来得到与所识别的列表页关联的内容页的地址的第二集合；以及

通过将当前周期爬取得到的第二集合与前一周期爬取得到的第二集合相比较，来确定所述第二集合中新增的内容页。

10.根据权利要求1所述的方法，其中，抓取目标网站的多个网页包括：

抓取目标网站的在预设的链接层级以内的网页或抓取预设数量的网页。

11.一种确定网站更新信息的装置，包括：

12.根据权利要求11所述的装置，其中，所述识别模块包括：

第一特征向量提取单元，配置为针对所述多个网页的网页标题进行特征提取，获得第一特征向量；

第二特征向量提取单元，配置为针对所述多个网页的除标题以外的网页其他文本进行特征提取，获得第二特征向量；

第三特征向量提取单元，配置为针对所述多个网页的网页地址进行特征提取，获得第三特征向量；以及

分类识别单元，配置为利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理，从所述多个网页中识别列表页以及与所识别的列表页关联的内容页。

13.根据权利要求12所述的装置，其中，所述第一特征向量提取单元包括：

第一提取子单元，配置为利用词典提取所述网页标题的特征；以及

第一转换子单元，配置为基于Embedding词向量转换将提取的特征转换为所述第一特征向量。

14.根据权利要求12所述的装置，其中，所述第二特征向量提取单元包括：

第二提取子单元，配置为以枚举的方式提取除标题以外的网页其他文本的特征，并对提取的特征出现的次数进行统计；以及

第二转换子单元，配置为基于提取的特征和统计的次数形成所述第二特征向量。

15.根据权利要求12所述的装置，其中，所述第三特征向量提取单元包括：

第三提取子单元，配置为提取所述网页地址中的关键字符串；以及

第三转换子单元，配置为基于One-Hot词向量转换将所述关键字符串转换为所述第三特征向量。

16.根据权利要求12至15中任一项所述的装置，其中，所述神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型，所述分类识别单元包括：

维度调整子单元，配置为分别使用所述第一子模型、所述第二子模型和所述第三子模型对所述第一特征向量、所述第二特征向量和所述第三特征向量的维度进行调整，以使所述第一特征向量、所述第二特征向量和所述第三特征向量的维度相同；

合并子单元，配置为将经调整的所述第一特征向量、所述第二特征向量和所述第三特征向量合并为输入向量矩阵；以及

处理子单元，配置为使用第四子模型对所述输入向量矩阵进行分类处理。

17.根据权利要求16所述的装置，其中，所述第一子模型包括双向长短记忆网络，所述第二子模型包括全连接神经网络，所述第三子模型包括卷积神经网络，所述第四子模型包括全连接神经网络。

18.根据权利要求11所述的装置，其中，所述表达式确定模块包括：

第一集合获取单元，配置为获取与所识别的列表页关联的内容页的地址的第一集合；

聚合单元，配置为通过对所述第一集合中所包括的地址进行聚合，确定所述第一集合中所包括的地址的字符串的公共部分；以及

第一确定单元，配置为基于所确定的公共部分来确定所述正则表达式。

19.根据权利要求11所述的装置，其中，所述更新确定模块包括：

第二集合获取单元，配置为基于所述正则表达式，通过爬虫服务周期地爬取所识别的列表页来得到与所识别的列表页关联的内容页的地址的第二集合；以及

第二确定单元，配置为通过将当前周期爬取得到的第二集合与前一周期爬取得到的第二集合相比较，来确定所述第二集合中新增的内容页。

20.根据权利要求11所述的装置，其中，所述抓取模块还被配置为：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至10中任一项权利要求所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项权利要求所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项权利要求所述的方法。