CN111078962A

CN111078962A - 一种发现相似网站版块的方法、系统、介质及设备

Info

Publication number: CN111078962A
Application number: CN201911350444.7A
Authority: CN
Inventors: 张军
Original assignee: Beijing Haizhi Xingtu Technology Co ltd
Current assignee: Beijing Haizhi Xingtu Technology Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-04-28

Abstract

本发明涉及一种发现相似网站版块的方法、系统、介质及设备，该方法包括：获取已知站点和对比站点的版块的网页内容；分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。本发明在某站点版块采集程序开发完成的基础上，可用于相似结构网站批量发现和规模性复用，达到开发一个，覆盖多个的效果，最终提高开发整体效率。

Description

一种发现相似网站版块的方法、系统、介质及设备

技术领域

本发明涉及网络技术领域，具体涉及一种发现相似网站版块的方法、系统、介质及设备。

背景技术

大数据公司通常对外部数据需求非常强烈，而互联网数据非常分散。常规一个站点一个站点的开发模式效率低，难以满足大数据场景下的海量需求。

发明内容

针对上述技术问题，本发明提供一种发现相似网站版块的方法、系统、介质及设备。

本发明解决上述技术问题的技术方案如下：一种发现相似网站版块的方法，包括：

获取已知站点和对比站点的版块的网页内容；

分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；

对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。

本发明的有益效果是：在某站点版块采集程序开发完成的基础上，可用于相似结构网站批量发现和规模性复用，达到开发一个，覆盖多个的效果，最终提高开发整体效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，生成第一摘要字符串组或第二摘要字符串组的具体过程包括：

根据内容区段判断信息从所述网页内容中抽取内容区段；

对抽取的内容区段进行如下处理：将各个html tag的内容部分全部清除；根据html属性知识库将各个html tag中的应去除属性清除；将连续tr缩减，只保留第一条tr；所有连续空格缩减为1个空格，回车换行符全部删除，全部转换为小写，在摘要字符串组中记录下得到的字符串；根据html属性知识库，循环将可去除属性清除，在所述摘要字符串组中记录下得到的字符串；

输出所述摘要字符串组。

进一步，所述对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值的具体过程包括：

循环读取所述第一摘要字符串组和第二摘要字符串组；

取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串，进行相似度计算；

如果相似度达到预指定阈值，则返回并记录该相似度值，否则继续，直到计算结束。

进一步，还包括：

按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。

为实现上述发明目的，本发明还提供一种发现相似网站版块的系统，包括：

获取模块，用于获取已知站点和对比站点的版块的网页内容；

生成模块，用于分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；

计算模块，用于对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。

进一步,所述生成模块具体包括：

抽取单元，用于根据内容区段判断信息从所述网页内容中抽取内容区段；

处理单元，用于对抽取的内容区段进行如下处理：将各个html tag的内容部分全部清除；根据html属性知识库将各个html tag中的应去除属性清除；将连续tr缩减，只保留第一条tr；所有连续空格缩减为1个空格，回车换行符全部删除，全部转换为小写，在摘要字符串组中记录下得到的字符串；根据html属性知识库，循环将可去除属性清除，在所述摘要字符串组中记录下得到的字符串；

输出单元，用于输出所述摘要字符串组。

进一步，所述计算模块具体包括：

读取单元，用于循环读取所述第一摘要字符串组和第二摘要字符串组；

计算单元，用于取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串，进行相似度计算；

记录单元，用于如果相似度达到预指定阈值，则返回并记录该相似度值，否则继续，直到计算结束。

进一步，还包括：

排序模块，用于按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。

本发明还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述方法。

本发明还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

附图说明

图1为本发明实施例提供的一种发现相似网站版块的方法的流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种发现相似网站版块的方法的流程图，如图1所示，该方法包括：

S1、获取已知站点和对比站点的版块的网页内容；

S2、分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；

S3、对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。

具体的，在执行该方法前，需要满足以下几个前提假定条件：

1、假定已构建有网站资源的知识库，该知识库包括网站名称、版块名称、所属数据主题、首页访问地址、内容区段判断信息等。采集程序一般处理页面包括：搜索页、列表页、详情页。因为本质上都是html页面，故下述过程不做区分。

2、假定已构建html属性知识库，包括tag名称、应去除属性、可去除属性等。

3、假定已开发A站点某版块，当前对B、C、D站点版块进行判断。基本判断逻辑如下：

1、获取A站点该版块的网页内容

2、生成该页面的摘要字符串组AbstractAList

3、获取B站点该版块的网页内容

4、生成该页面的摘要字符串组AbstractBList

5、对AbstractAList和AbstractBList进行对应性相似度计算，如果达到指定阈值，则记录到ResultList中。

6、循环步骤3、4、5，对C、D版块进行判断，生成AbstractCList、AbstractDList

7、对ResultList结果进行排序，相似度最高的排在最前面

8、输出ResultList。

其中，摘要字符串组的生成过程如下：

1、根据“内容区段判断信息”抽取内容区段；

2、将各htmltag的内容部分全部清除；

3、根据html属性知识库将各html tag应去除属性清除；

4、将连续tr缩减，只保留第一条tr；

5、所有连续空格缩减为1个空格，回车换行符全部删除，全部转换为小写；

6、记录下该字符串；

7、根据html属性知识库，循环将可去除属性清除，记录下各字符串；

8、输出摘要字符串组。

对应性相似度计算过程如下：

1、循环读取AbstractAList和AbstractBList；

2、取出AbstractAList[N]和AbstractBList[N]进行相似度比较；

3、如果相似度达到预指定阈值，则返回该相似度值；

4、否则继续，直到结束。

相似度算法常见的有：欧式距离(EuclideanDistance)、余弦相似度(Cosine)、汉明距离(HammingDistance)、曼哈顿距离(ManhattanDistance)等。具体可视实际业务需要来定，用法都是相似的。

本发明实施例提供的一种发现相似网站版块的方法，在某站点版块采集程序开发完成的基础上，可用于相似结构网站批量发现和规模性复用，达到开发一个，覆盖多个的效果，最终提高开发整体效率。

可选地，在该实施例中，步骤S2的具体过程包括：

S2.1、根据内容区段判断信息从所述网页内容中抽取内容区段；

S2.2、对抽取的内容区段进行如下处理：将各个html tag的内容部分全部清除；根据html属性知识库将各个html tag中的应去除属性清除；将连续tr缩减，只保留第一条tr；所有连续空格缩减为1个空格，回车换行符全部删除，全部转换为小写，在摘要字符串组中记录下得到的字符串；根据html属性知识库，循环将可去除属性清除，在所述摘要字符串组中记录下得到的字符串；

S2.3、输出所述摘要字符串组。

可选地，在该实施例中，步骤S3的具体过程包括：

S3.1、循环读取所述第一摘要字符串组和第二摘要字符串组；

S3.2、取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串，进行相似度计算；

S3.3、如果相似度达到预指定阈值，则返回并记录该相似度值，否则继续，直到计算结束。

可选地，在该实施例中，如图1所示，该方法还包括：

S4、按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。

本发明实施例提供一种发现相似网站版块的系统，包括：

可选地，在该实施例中,所述生成模块具体包括：

输出单元，用于输出所述摘要字符串组。

可选地，在该实施例中，所述计算模块具体包括：

可选地，在该实施例中，该系统还包括：

本发明实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述方法实施例中的方法步骤；或者存储上述系统实施例的各个软件模块对应的指令。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法实施例中的方法步骤。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述系统实施例中的模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种发现相似网站版块的方法，其特征在于，包括：

获取已知站点和对比站点的版块的网页内容；

2.根据权利要求1所述的一种发现相似网站版块的方法，其特征在于，生成第一摘要字符串组或第二摘要字符串组的具体过程包括：

根据内容区段判断信息从所述网页内容中抽取内容区段；

输出所述摘要字符串组。

3.根据权利要求1所述的一种发现相似网站版块的方法，其特征在于，所述对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值的具体过程包括：

循环读取所述第一摘要字符串组和第二摘要字符串组；

4.根据权利要求1至3任一项所述的一种发现相似网站版块的方法，其特征在于，还包括：

5.一种发现相似网站版块的系统，其特征在于，包括：

6.根据权利要求5所述的一种发现相似网站版块的系统，其特征在于，所述生成模块具体包括：

输出单元，用于输出所述摘要字符串组。

7.根据权利要求5所述的一种发现相似网站版块的系统，其特征在于，所述计算模块具体包括：

8.根据权利要求5至7任一项所述的一种发现相似网站版块的系统，其特征在于，还包括：

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使所述计算机执行根据权利要求1至4任一项所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。