CN110390044B

CN110390044B - 一种相似网络页面的搜索方法及设备

Info

Publication number: CN110390044B
Application number: CN201910502242.3A
Authority: CN
Inventors: 杨祎; 王炜
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2024-03-19
Anticipated expiration: 2039-06-11
Also published as: WO2020248379A1; CN110390044A

Abstract

本发明适用于互联网技术领域，提供了一种相似网络页面的搜索方法及设备，包括：获取目标页面的文本信息，并基于文本信息构建目标页面的页面语料库；对所有网络页面进行遍历搜索，确定包含页面关键词的网络页面为目标页面的候选页面；基于候选页面预设的各个页面标签在候选页面中的出现次数，确定各个页面标签的标签权重；根据候选页面包含的页面内容，生成候选页面的内容特征信息；根据候选页面的各个页面标签的标签权重以及内容特征信息，计算候选页面与目标页面的页面相关度；将页面相关度大于相关阈值的候选页面确定为目标页面的相似页面。本发明通过网路页面的页面类型以及内容特征，进行多维度的相似度筛选，提高了页面搜索的准确性。

Description

一种相似网络页面的搜索方法及设备

技术领域

本发明属于应用程序技术领域，尤其涉及一种相似网络页面的搜索方法及设备。

背景技术

随着互联网的发展，用户可以通过输入关键词进行网页搜索，随着网页数量的不断增加，通过匹配的搜索结果也随之增加，因此如何能够提高搜索的准确性，则直接影响用户查询目标网页的效率。

现有的相似网络页面的搜索技术，主要是通过获取所需的关键词对应的模糊关键词，并基于关键词以及模糊关键词进行网页搜索，当需要检测目标网页在网络平台上是否存在相似的网页，可以从目标网页中提取关键词以及模糊关键词进行网页搜索，从而确定出是否有网站恶意抄袭或侵犯著作权等非法情况，但当关键词是常用词组时，通过上述方式搜索出来的网络页面数量较多，并非各个包含关键词的网络页面均为与网络页面的内容相似的页面，导致了搜索得到大量无效页面，需要用户在大量的页面中进行筛选，降低了目标网络页面搜索的效率。

发明内容

有鉴于此，本发明实施例提供了一种相似网络页面的搜索编译方法及设备，以解决现有的相似网络页面的搜索技术，主要通过关键词以及模糊关键词进行网页搜索，容易导致搜索得到大量无效页面，需要用户在大量的页面中进行筛选，降低了目标网络页面搜索的效率的问题。

本发明实施例的第一方面提供了一种相似网络页面的搜索方法，包括：

获取目标页面的文本信息，并基于所述文本信息构建所述目标页面的页面语料库；所述页面语料库包含多个页面关键词；

对所有网络页面进行遍历搜索，确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面；

基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数，确定各个所述页面标签的标签权重；

根据候选页面包含的页面内容，生成所述候选页面的内容特征信息；

根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息，计算所述候选页面与所述目标页面的页面相关度；

将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。

本发明实施例的第二方面提供了一种相似网络页面的搜索设备，包括：

页面语料库创建单元，用于获取目标页面的文本信息，并基于所述文本信息构建所述目标页面的页面语料库；所述页面语料库包含多个页面关键词；

候选页面搜索单元，用于对所有网络页面进行遍历搜索，确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面；

标签权重计算单元，用于基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数，确定各个所述页面标签的标签权重；

内容特征信息生成单元，用于根据候选页面包含的页面内容，生成所述候选页面的内容特征信息；

页面相关度计算单元，用于根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息，计算所述候选页面与所述目标页面的页面相关度；

相似页面搜索单元，用于将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本发明实施例提供的一种相似网络页面的搜索方法及设备具有以下有益效果：

本发明实施例通过从目标页面中提取页面关键词，并提取包含页面关键词的网络页面作为候选页面，并分别根据各个候选页面预设的页面标签的出现次数，确定各个页面标签的标签权重，由于页面标签具体用于对网络页面进行分类，因此可以通过页面标签确定候选页面的页面类型，从而判断与目标页面的页面类型是否相同，继而对候选页面的页面内容进行特征提取，生成内容特征信息，确定该候选页面的具体页面内容特征，继而根据页面标签、页面标签的标签权重以及内容特征信息，计算候选页面与目标页面的页面相关度，从而根据页面相关度确定相似页面，实现网络页面的精准搜索的目的。与现有的相似网络页面的搜索方法相比，本发明通过网路页面的页面类型以及内容特征，进行多维度的相似度筛选，从而搜索得到的相似页面不仅包含目标页面的页面关键词，还与目标页面的页面类型相似以及内容相似，提高了页面搜索的准确性，无需用户进行无效页面的筛选操作。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种相似网络页面的搜索方法的实现流程图；

图2是本发明第二实施例提供的一种相似网络页面的搜索方法S105具体实现流程图；

图3是本发明第三实施例提供的一种相似网络页面的搜索方法S104具体实现流程图；

图4是本发明第四实施例提供的一种相似网络页面的搜索方法具体实现流程图；

图5是本发明第五实施例提供的一种相似网络页面的搜索方法S103具体实现流程图；

图6是本发明一实施例提供的一种相似网络页面的搜索设备的结构框图；

图7是本发明另一实施例提供的一种终端设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过从目标页面中提取页面关键词，并提取包含页面关键词的网络页面作为候选页面，并分别根据各个候选页面预设的页面标签的出现次数，确定各个页面标签的标签权重，由于页面标签具体用于对网络页面进行分类，因此可以通过页面标签确定候选页面的页面类型，从而判断与目标页面的页面类型是否相同，继而对候选页面的页面内容进行特征提取，生成内容特征信息，确定该候选页面的具体页面内容特征，继而根据页面标签、页面标签的标签权重以及内容特征信息，计算候选页面与目标页面的页面相关度，从而根据页面相关度确定相似页面，实现网络页面的精准搜索的目的，解决了现有的相似网络页面的搜索技术，主要通过关键词以及模糊关键词进行网页搜索，容易导致搜索得到大量无效页面，需要用户在大量的页面中进行筛选，网络页面搜索的效率较低的问题。

在本发明实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行相似网络页面的搜索操作的设备。图1示出了本发明第一实施例提供的相似网络页面的搜索方法的实现流程图，详述如下：

在S101中，获取目标页面的文本信息，并基于所述文本信息构建所述目标页面的页面语料库；所述页面语料库包含多个页面关键词。

在本实施例中，用户在需要查找某一网络页面在网络平台上是否存在相似页面时，可以向终端设备发送一个相似页面查询请求，该相似页面查询请求携带有网络页面的页面标识，终端设备会将该页面标识所对应的网络页面识别为目标页面，并执行后续的相似网络页面的搜索操作。其中，该页面标识可以为网络页面的域名、网络地址或网页名称等可以用于标示网络页面身份的信息。可选地，终端设备在响应该相似页面查询请求之前，可以根据页面标识跳转至目标页面，并判断本次跳转操作是否成功，从而可以判断该目标页面是否为有效的网络页面。

在本实施例中，终端设备在确定了目标页面后，可以跳转至该目标页面，并根据目标页面的显示界面上显示的文本数据，生成目标页面的文本信息。该文本信息可以根据目标页面的显示界面的分区情况，划分为多个不同文本区域，例如标题区域、正文区域、超链接区域等，并分别采集不同文本区域中包含的页面关键词，从而生成关于该文本区域的关键词库，终端设备将各个文本区域的关键词库进行整理，生成网络页面的页面语料库。

可选地，在本实施例中，终端设备在对多个文本区域的关键词进行整体的具体操作可以为：统计页面关键词在不同文本区域的出现次数，基于所述出现次数确定各个页面关键词的词语权重，具体地，出现次数越高，则对应的词语权重值越大，则表示该页面关键词在目标页面的出现频率较高，从而对于目标页面的内容特征的代表性越强。终端设备可以关联各个页面关键词与对应的词语权重值，从而构建得到网络页面的页面关键词。优选地，词语权重值越大的页面关键词在页面语料库中的词语排序越高；反之，若词语权重值越小的页面关键词，对应的词语排序越低，基于词语权重值，可以确定各个页面关键词在页面语料库中的词编号。

在S102中，对所有网络页面进行遍历搜索，确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面。

在本实施例中，终端设备对网络平台中的所有网络页面进行初步的筛选，即将包含有目标页面的页面关键词的网络页面均识别为目标页面的候选页面。由于候选页面与目标页面之间存在相同的页面关键词，则表示两个网络页面之间的页面内容存在一定的相似性，从而可以进一步执行相似识别。

可选地，在本实施例中，终端设备可以设置一关键词个数阈值，即网络页面中包含的页面关键词的个数要大于预设的关键词个数阈值，才识别该网络页面为目标页面的候选页面，从而可以减少大量无效的候选页面，减少后续的相似度计算次数，从而提高了相似页面的搜索效率。

在S103中，基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数，确定各个所述页面标签的标签权重。

在本实施例中，每个网络页面会根据其页面内容预先配置有对应的页面标签，例如，若某一网络页面主要用于产品信息，包含产品列表以及各个产品的收费情况，则该网络页面可以配置有“产品(或具体的产品类型，例如保险产品、投资产品)、费用”等对网络页面的内容进行概括、总结的关键词，即上述的页面标签。其中，生成页面标签的方式除了可以由页面管理员手动配置外，还可以根据网络页面内的内容进行确定，具体的过程可以为：从候选页面的页面内容中提取页面关键词，根据各个页面关键词在候选页面中的出现区域以及出现次数，计算该页面关键词的特征系数。其中，不同出现区域对于特征系数的权重不同，例如在标题区域的页面关键词，其对应的权重值较高，正文次之，在附加信息则最低，根据各个权重值以及出现次数进行加权求和，计算得到页面关键词的特征系数。选取特征系数大于预设的特征阈值的页面关键词作为该候选页面的页面标签。页面标签的个数可以为一个，也可以为多个，具体根据网络页面的页面内容所决定。

在本实施例中，为了确定各个页面标签对于页面内容的关联度进行优先级排序，终端设备会识别各个页面标签在候选页面的页面内容中出现的次数，若某一页面标签的出现次数越大，则表示该页面标签对于页面内容的关联度越高，则对应的标签权重也越高；反之，若某一页面标签的出现次数越少，则表示该页面标签与页面内容的关联度较低，从而标签权重也越低，从而能够对各个页面标签进行排序，确定该网络页面的主体内容以及次要内容，提高后续的相似页面的搜索操作。

在S104中，根据候选页面包含的页面内容，生成所述候选页面的内容特征信息。

在本实施例中，页面标签用于确定候选页面的页面类型，而为了确定候选页面的页面内容特征，终端设备还需要提取内容特质信息。具体的实现过程可以为：终端设备对页面内容进行解析，确定该候选页面包含的页面关键词，并根据各个页面关键词的出现次数，提取出现次数大于预设的出现阈值的页面关键词作为候选页面的特征关键词，并根据各个特征关键词生成候选页面的内容特征信息。

在S105中，根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息，计算所述候选页面与所述目标页面的页面相关度。

在本实施例中，终端设备在确定了候选页面的页面标签以及各个页面标签的标签权重后，可以计算候选页面与目标页面的预设标签之间的第一相关因子，并将内容特征信息与目标页面预设的标准内容信息进行匹配，计算第二相关因子，并根据第一相关因子与第二相关因子之间的权重值，确定候选页面与目标页面之间的页面相关度。

可选地，在本实施例中，第一相关因子的计算方式可以为，终端设备识别候选页面的页面标签与目标页面的预设标签是否存在相同的标签，并根据两个相同标签之间的权重差值，确定两个页面标签之间的匹配度，根据各个相同页面标签之间的匹配度确定第一相关因子。而第二相关因子的计算过程可以为：终端设备识别候选页面的内容特质信息与目标页面的标准内容信息中相同的页面关键词的个数，基于该关键词个数计算第二相关因子。

在S106中，将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。

在本实施例中，终端设备会分别对各个候选页面执行S103与S105的操作，计算各个候选页面对应的页面相关度，终端设备可以创建多条相似度识别进程，同步计算各个候选页面的页面相关度，并在计算得到页面相关度后与相关阈值进行比对，从候选页面中识别出相似页面。

以上可以看出，本发明实施例提供的一种相似网络页面的搜索方法通过从目标页面中提取页面关键词，并提取包含页面关键词的网络页面作为候选页面，并分别根据各个候选页面预设的页面标签的出现次数，确定各个页面标签的标签权重，由于页面标签具体用于对网络页面进行分类，因此可以通过页面标签确定候选页面的页面类型，从而判断与目标页面的页面类型是否相同，继而对候选页面的页面内容进行特征提取，生成内容特征信息，确定该候选页面的具体页面内容特征，继而根据页面标签、页面标签的标签权重以及内容特征信息，计算候选页面与目标页面的页面相关度，从而根据页面相关度确定相似页面，实现网络页面的精准搜索的目的。与现有的相似网络页面的搜索方法相比，本发明通过网路页面的页面类型以及内容特征，进行多维度的相似度筛选，从而搜索得到的相似页面不仅包含目标页面的页面关键词，还与目标页面的页面类型相似以及内容相似，提高了页面搜索的准确性，无需用户进行无效页面的筛选操作。

图2示出了本发明第二实施例提供的一种相似网络页面的搜索方法S105的具体实现流程图。参见图2，相对于图1所述实施例，本实施例提供的一种相似网络页面的搜索方法S105包括：S1051～S1054，具体详述如下：

进一步地，所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息，计算所述候选页面与所述目标页面的页面相关度，包括：

在S1051中，基于所述页面关键词在所述页面语料库内的关键词编号，构建关于所述目标页面的基准数组；所述基准数组包含N个元素，所述N为所述页面关键词的个数。

在本实施例中，终端设备在建立目标页面的页面语料库后，可以为页面语料库内的所有页面关键词进行编号，其中编号的大小可以根据页面关键词的出现次数的大小确定，例如出现次数越多，则对应的关键词编号越大，还可以根据各个页面关键词在目标页面内的出现次序确定，例如页面关键词首次出现的位置越靠前，则对应的关键词编号越小。

在本实施例中，终端设备可以根据各个页面关键词的关键词编号，确定该页面关键词在基准数组的元素编号，即基准数组中每个元素对应一个页面关键词。例如，某一页面关键词的关键词编号为5，则基准数组中的第五个元素的参数值则与关键词编号为5的页面关键词相关。其中，基准素组中元素的参数值可以与页面关键词在目标页面中的关键词权重相关，也可以各个页面关键词对应的参数值一致，例如用“1”进行标识。

在1052中，根据所述基准组数以及所述目标页面的目标标签与目标内容信息，生成所述目标页面的第一标签向量以及第一内容向量。

在本实施例中，终端设备在创建了目标页面的基准数组后，可以根据该基准数组将目标页面的目标标签以及目标内容信息进行向量化，从而将字符信息转换为可以直接计算的数字化。其中，生成第一标签向量的方式可以为：终端设备查询目标标签在页面语料库中关联的页面关键词，并调整该页面关键词在基准数组中对应元素的参数值，在确定了各个页面标签在基准数组的参数值后，则将调整后的基准数组识别为目标页面的第一标签向量。同样地，第一内容向量也可以通过上述方式进行构建。

举例性地，例如某一页面语料库具体为：[人寿、年龄、性别、姓名、金额、年限、购买]，而每个页面关键词的权重一致，则基准数组为[1,1,1,1,1,1,1]。而目标页面的目标标签为{人寿，购买}，则对应第一标签向量为[1,0,0,0,0,0,1]。即若目标标签中包含页面语料库中的某一页面关键词，则保持基准数组中与该页面关键词的关键词编号一致的元素的参数值，而对不包含的页面关键词对应的元素的参数值进行归零操作，从而能够基于基准数组将所有文字信息通过同一量纲进行表示，方便了后续相关度的计算。

在S1053中，根据所述基准组数以及所述候选页面的页面标签与内容特征信息，生成所述目标页面的第二标签向量以及第二内容向量。

在本实施例中，与S1052相同，终端设备可以根据基准数组，将页面标签以及内容特征信息转换为统一量纲标示的第二标签向量以及第二内容向量。具体阐述可以参见S1052的相关描述，在此不再赘述。

在S1054中，将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型，确定所述候选页面与所述目标页面的所述页面相关度；所述相关度计算模型具体为：

其中，Matchpoint为所述页面相关度；为所述第一标签向量；为所述第一内容向量；/>为所述第二内容向量；[TapWeight]_N为基于所述标签权重构成的权重数组；/>为所述第二标签向量；α和β为预设的常数。

在本实施例中，由于第二标签向量中各个元素的参量值是与目标页面的页面关键词相关，为了提高第二标签向量与候选页面的关联性，终端设备可以根据各个页面标签的标签权重，对第二标签向量中的各个元素进行加权。具体地，终端设备同样可以根据基准数组以及各个页面标签的标签权重，生成一个包含N个元素的标签数组。生成标签数组的方式与上述生成第一标签向量的方式相同，在此不在赘述。举例性地，若标签数组为[0.8,0,0,0,0,0,2]，而第二标签向量为[1,0,0,0,0,0,1]，则为[0.8,0,0,0,0,0,2]。

在本实施例中，终端设备可以通过分别计算第一标签向量与第二标签向量之间的相似度，并计算第一内容向量与第二内容向量之间的相似度，基于上述两个相似度确定两个网络页面之间的页面相似度。

在本发明实施例中，通过建立基准数组，并将多个文字信息转换为向量形式进行标识，从而方便计算标签以及内容特征信息之间的相似度，从而能够生成两个页面标签之间的页面相似度，提高了页面相似度计算准确性。

图3示出了本发明第三实施例提供的一种相似网络页面的搜索方法S104的具体实现流程图。参见图3，相对于图1所述的实施例，本实施例提供的一种相似网络页面的搜索方法S104包括：S1041～S1045，具体详述如下：

进一步地，所述根据候选页面包含的页面内容，生成所述候选页面的内容特征信息，包括：

在S1041中，对所述候选页面的所述页面内容进行语义分析，提取所述候选页面包含的候选关键词。

在本实施例中，终端设备根据候选页面的页面标识，跳转到该候选页面的页面界面，从页面界面中提取该候选页面包含的页面内容，并对该页面内容进行语义分析，过滤该页面内容中不存在实际意义的字符，例如连接词以及助词，从而能够提取得到候选页面中的候选关键词。终端设备在确定了该候选页面中包含的候选关键词后，可以对候选关键词进行整合，即相同的候选关键词则识别为同一关键词，不再对出现多次的候选关键词重复进行特征系数的计算，减少重复计算的过程。

在S1042中，统计所述候选关键词在所述页面内容的第一出现次数，并基于所述第一出现次数确定所述候选关键词的词频参量。

在本实施例中，终端设备会对候选关键词在页面内容中进行全文查找，确定该候选关键词在页面内容中的第一出现次数，若该第一出现次数数值越大，则表示该候选关键词对于候选页面的内容代表性越大，则对应的特征系数越高。其中，终端设备可以将第一出现次数直接作为该候选关键词的词频参数，也可以对该第一出现次数进行归一化处理，例如获取该页面内容中包含的词组总数，基于第一出现次数与词组总数之间的比值，作为该候选关键词的词频参量。

在S1043中，统计所述候选关键词在所有所述候选页面内的第二出现次数，并基于所述第二出现次数确定所述候选关键词的逆文本参量。

在本实施例中，终端设备在确定了候选关键词在本地的词频外，还可以确定该候选关键词的差异性，即该候选关键词是否为常用词语抑或是可以与表征页面内容的具有差异性的关键词。若某一词语在所有页面中均经常出现，则可以判断该词语为常用词，并不能标识该候选页面的页面内容；而某一词语只在候选页面的出现次数较多，而在其他候选页面的出现频率较低，则表示该词语具有特异性，可以用于表征该候选页面的页面内容，因此可以通过统计候选关键词在所有候选页面的第二出现次数，从而确定该候选关键词的特异性程度，即上述的逆文本参量。其中，逆文本参量计算的方式可以为：根据第二出现次数与第一出现次数之间的差值，确定该候选关键词在其他候选页面中的出现次数，并将该差值作为候选关键词的逆文本参量。

在S1044中，基于所述词频参量以及所述逆文本参量，确定所述候选关键词的特征系数，并提取所述特征系数大于预设特征阈值的候选关键词作为内容关键词。

在本实施例中，终端设备可以根据词频参量以及逆文本参量计算出候选关键词的特征系数，其中，若该词频参量越大，则特征系数越大；而逆文本参量越小，则特征系数越大。终端设备将各个候选关键词的特征系数与特征阈值进行比对，将特征系数大于特征阈值的候选关键词识别为内容关键词。

在S1045中，根据所有所述内容关键词生成所述候选页面的内容特征信息。

在本实施例中，终端设备将各个内容关键词进行集合，生成候选页面的内容特征信息。其中，该内容特征信息除了记录有内容关键词外，还可以关联有该内容关键词的特征系数，基于特征系数作为内容关键词的内容权重，在后续第二内容向量是可以根据内容权重对内容向量内相关的元素进行加权。

在本发明实施例中，通过对页面内容进行语义分析，提取该页面内容中包含的候选关键词，并根据词频参数以及逆文本，计算出候选关键词的特征系数，提取出特征系数较大的候选关键词作为内容关键词，实现了内容特征信息的提取，提高了内容特征信息的准确性。

图4示出了本发明第四实施例提供的一种相似网络页面的搜索方法的具体实现流程图。参见图4，相对于图1至3所述实施例，本实施例提供的一种相似网络页面的搜索方法在所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后，还包括：S401～S403，具体详述如下：

在S401中，获取所述目标页面的第一发布时间，以及获取所述相似页面的第二发布时间。

在本实施例中，终端设备在搜索了相似页面后，可以对各个相似页面的显示次序进行排序，从而能够将抄袭概率较大的相似页面优先显示。基于此，终端设备会获取目标页面的第一发布时间以及相似页面的第二发布时间。

在S402中，将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型，确定所述候选页面的显示优先级；所述优先级计算模型具体为：

其中，Pro(i)为所述显示优先级；TargetTime为所述第一发布时间；SimTime(i)为第i个所述相似页面的所述第二发布时间；CurrentTime为确定显示排序时刻的时间。

在本实施例中，终端设备会计算确定显示排序时刻的时间与第一发布时间以及第二发布时间之间的差值，从而能够基于该两个差值之间的差异程度，确定两个发布时间之间的发布时间差，并基于发布时间差确定该相似页面的显示优先级越高，从而对于发布时间差越小相似页面的显示优先级越高，由于发布时间差越小，则抄袭的概率则越大，因此会优先进行显示。

在S403中，基于各个所述相似页面的所述显示优先级，生成关于目标页面的相似页面列表。

在本实施例中，终端设备根据各个相似网页的显示优先级的大小，对各个相似网页进行排序，并基于各个相似网页的显示次数，生成目标页面关联的相似页面列表。

在本发明实施例中，通过获取目标页面以及相似页面的发布时间，从而确定两者之间的关联程度，将关联度较大的相似页面优先进行显示，从而方便用户快速确定存在抄袭情况的相似页面。

图5示出了本发明第五实施例提供的一种相似网络页面的搜索方法S102的具体实现流程图。参见图5，相对于图1至图3所述实施例，本实施例提供的一种相似网络页面的搜索方法S103包括：S1031～S1032，具体详述如下：

进一步地，所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数，确定各个所述页面标签的标签权重，包括：

在S1031中，统计所述候选页面的所述页面内容包含词语总数。

在本实施例中，终端设备会在获取了候选页面的页面内容后，会对该页面内容进行语义分析，确定该页面内容中包含的词语总数。需要说明的是，在统计词语总数的过程中，并不会过滤的重复出现的词语，则若一个词语出现N次，则对于词语总数的贡献值为N。

在S1032中，计算所述出现次数以及所述词语总数之间的比值，将所述比值作为所述页面标签的所述标签权重。

在本实施例中，终端设备会计算该页面标签的出现次数与词语总数之间的比值，从而能够实现对出现次数进行归一化处理，并将归一化后的比值作为标签权重，从而提高了不同网络页面之间的标签权重的统一性。

在本发明实施例中，通过统计候选页面中的词语总数，对出现次数进行归一化处理，提高了标签权重的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图6示出了本发明一实施例提供的一种相似网络页面的搜索设备的结构框图，该相似网络页面的搜索设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图6，所述相似网络页面的搜索设备包括：

页面语料库创建单元61，用于获取目标页面的文本信息，并基于所述文本信息构建所述目标页面的页面语料库；所述页面语料库包含多个页面关键词；

候选页面搜索单元62，用于对所有网络页面进行遍历搜索，确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面；

标签权重计算单元63，用于基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数，确定各个所述页面标签的标签权重；

内容特征信息生成单元64，用于根据候选页面包含的页面内容，生成所述候选页面的内容特征信息；

页面相关度计算单元65，用于根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息，计算所述候选页面与所述目标页面的页面相关度；

相似页面搜索单元66，用于将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。

可选地，所述页面相关度计算单元65，包括：

基准数组构建单元，用于基于所述页面关键词在所述页面语料库内的关键词编号，构建关于所述目标页面的基准数组；所述基准数组包含N个元素，所述N为所述页面关键词的个数；

目标页面向量生成单元，用于根据所述基准组数以及所述目标页面的目标标签与目标内容信息，生成所述目标页面的第一标签向量以及第一内容向量；

候选页面向量生成单元，用于根据所述基准组数以及所述候选页面的页面标签与内容特征信息，生成所述目标页面的第二标签向量以及第二内容向量；

页面相关度转换单元，用于将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型，确定所述候选页面与所述目标页面的所述页面相关度；所述相关度计算模型具体为：

可选地，所述内容特征信息生成单元64，包括：

候选关键词提取单元，用于对所述候选页面的所述页面内容进行语义分析，提取所述候选页面包含的候选关键词；

词频参数计算单元，用于统计所述候选关键词在所述页面内容的第一出现次数，并基于所述第一出现次数确定所述候选关键词的词频参量；

逆文本参量计算单元，用于统计所述候选关键词在所有所述候选页面内的第二出现次数，并基于所述第二出现次数确定所述候选关键词的逆文本参量；

内容关键词提取单元，用于基于所述词频参量以及所述逆文本参量，确定所述候选关键词的特征系数，并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词；

内容关键词封装单元，用于根据所有所述内容关键词生成所述候选页面的内容特征信息。

可选地，所述相似网络页面的搜索设备，还包括：

发布时间获取单元，用于获取所述目标页面的第一发布时间，以及获取所述相似页面的第二发布时间；

显示优先级确定单元，用于将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型，确定所述候选页面的显示优先级；所述优先级计算模型具体为：

其中，Pro(i)为所述显示优先级；TargetTime为所述第一发布时间；SimTime(i)为第i个所述相似页面的所述第二发布时间；CurrentTime为确定显示排序时刻的时间；

相似页面列表生成单元，用于基于各个所述相似页面的所述显示优先级，生成关于目标页面的相似页面列表。

可选地，所述标签权重计算单元63包括：

词语总数统计单元，用于统计所述候选页面的所述页面内容包含词语总数；

标签权重确定单元，用于计算所述出现次数以及所述词语总数之间的比值，将所述比值作为所述页面标签的所述标签权重。

因此，本发明实施例提供的相似网络页面的搜索设备同样可以通过网路页面的页面类型以及内容特征，进行多维度的相似度筛选，从而搜索得到的相似页面不仅包含目标页面的页面关键词，还与目标页面的页面类型相似以及内容相似，提高了页面搜索的准确性，无需用户进行无效页面的筛选操作。

图7是本发明另一实施例提供的一种终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如相似网络页面的搜索程序。所述处理器70执行所述计算机程序72时实现上述各个相似网络页面的搜索方法实施例中的步骤，例如图1所示的S101至S105。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各单元的功能，例如图6所示模块61至66功能。

示例性的，所述计算机程序72可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如，所述计算机程序72可以被分割成页面语料库创建单元、候选页面搜索单元、标签权重计算单元、内容特征信息生成单元、页面相关度计算单元以及相似页面搜索单元，各单元具体功能如上所述。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种相似网络页面的搜索方法，其特征在于，包括：

将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面；

所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息，计算所述候选页面与所述目标页面的页面相关度，包括：

基于所述页面关键词在所述页面语料库内的关键词编号，构建关于所述目标页面的基准数组；所述基准数组包含N个元素，所述N为所述页面关键词的个数；

根据所述基准数组以及所述目标页面的目标标签与目标内容信息，生成所述目标页面的第一标签向量以及第一内容向量；生成第一标签向量的方式为：终端设备查询目标标签在页面语料库中关联的页面关键词，并调整该页面关键词在基准数组中对应元素的参数值，在确定了各个目标标签在基准数组的参数值后，则将调整后的基准数组识别为目标页面的第一标签向量；

根据所述基准数组以及所述候选页面的页面标签与内容特征信息，生成所述目标页面的第二标签向量以及第二内容向量；

将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型，确定所述候选页面与所述目标页面的所述页面相关度；所述相关度计算模型具体为：

其中，Matchpoint为所述页面相关度；为所述第一标签向量；/>为所述第一内容向量；/>为所述第二内容向量；[TapWeight]_N为基于所述标签权重构成的权重数组；/>为所述第二标签向量；α和β为预设的常数；

所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数，确定各个所述页面标签的标签权重，包括：

统计所述候选页面的所述页面内容包含词语总数；

计算所述出现次数以及所述词语总数之间的比值，将所述比值作为所述页面标签的所述标签权重。

2.根据权利要求1所述的搜索方法，其特征在于，所述根据候选页面包含的页面内容，生成所述候选页面的内容特征信息，包括：

对所述候选页面的所述页面内容进行语义分析，提取所述候选页面包含的候选关键词；

统计所述候选关键词在所述页面内容的第一出现次数，并基于所述第一出现次数确定所述候选关键词的词频参量；

统计所述候选关键词在所有所述候选页面内的第二出现次数，并基于所述第二出现次数确定所述候选关键词的逆文本参量；

基于所述词频参量以及所述逆文本参量，确定所述候选关键词的特征系数，并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词；

根据所有所述内容关键词生成所述候选页面的内容特征信息。

3.根据权利要求1-2任一项所述的搜索方法，其特征在于，在所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后，还包括：

获取所述目标页面的第一发布时间，以及获取所述相似页面的第二发布时间；

将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型，确定所述候选页面的显示优先级；所述优先级计算模型具体为：

基于各个所述相似页面的所述显示优先级，生成关于目标页面的相似页面列表。

4.一种相似网络页面的搜索设备，其特征在于，包括：

相似页面搜索单元，用于将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面；

所述页面相关度计算单元，包括：

目标页面向量生成单元，用于根据所述基准数组以及所述目标页面的目标标签与目标内容信息，生成所述目标页面的第一标签向量以及第一内容向量；生成第一标签向量的方式为：终端设备查询目标标签在页面语料库中关联的页面关键词，并调整该页面关键词在基准数组中对应元素的参数值，在确定了各个目标标签在基准数组的参数值后，则将调整后的基准数组识别为目标页面的第一标签向量；

候选页面向量生成单元，用于根据所述基准数组以及所述候选页面的页面标签与内容特征信息，生成所述目标页面的第二标签向量以及第二内容向量；

所述标签权重计算单元包括：

5.根据权利要求4所述的搜索设备，其特征在于，所述内容特征信息生成单元，包括：

6.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。