CN117874319A

CN117874319A - 基于搜索引擎的信息挖掘方法、装置及计算机设备

Info

Publication number: CN117874319A
Application number: CN202410268836.3A
Authority: CN
Inventors: 陈景宏; 孙斌
Original assignee: Jiangxi Dingyi Technology Development Co ltd
Current assignee: Jiangxi Dingyi Technology Development Co ltd
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-04-12
Anticipated expiration: 2044-03-11
Also published as: CN117874319B

Abstract

本发明公开了一种基于搜索引擎的信息挖掘方法、装置及计算机设备，属于计算机技术领域。本发明根据主题词利用引擎搜索确定种子链接，根据种子链接进行用户信息挖掘。通过第一拓展词调整子链接的继承权重，进而调整第二队列的顺序，通过第二拓展词调整目标URL的引用权重，进而调整第一队列的顺序，增加关联页面的聚集程度，提高爬虫效率。通过链接索引表避免子链接被重复解析。通过计算网页下载数，能够清楚地了解信息挖掘的进度。通过设置最大下载数避免无限挖掘。

Description

基于搜索引擎的信息挖掘方法、装置及计算机设备

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种基于搜索引擎的信息挖掘方法、装置及计算机设备。

背景技术

互联网存在海量的数据，可以为销售推广提供潜在客户信息。信息挖掘方法的优劣很大程度上取决于输入关键词的精确程度。给定关键词，依靠关键词匹配的技术来筛选有用信息，会导致挖掘不充分。现有技术披露了借助搜索引擎提供的链接匹配方法提供可观的扩展网页。例如公开号为CN106156055A的专利申请公开了一种搜索引擎爬虫的识别、处理方法及装置。该方法根据搜索词的循环标注和搜索提供扩展的网页。经搜索引擎的扩展，网页数量呈几何倍数增加，而且部分网页存在外部链接，外部链接又指向其他网页。同时搜索引擎又提供一些非关联网页链接，庞大的网页基数降低检索效率。中国专利申请CN202111348896.9公开了一种分布式动态可配置的爬虫平台及爬虫方法，该方法对爬虫任务的执行过程进行实时反馈及预警，优化爬虫方法，提高爬虫效率。根据已完成挖掘的网页的爬虫结果调节后续同类网页的挖掘方法，页面的排列顺序影响反馈和预警信息的质量。所以有必要提出一种基于搜索引擎的信息挖掘方法，通过更优化的页面挖掘顺序提高信息挖掘效率。

发明内容

为了解决上述现有技术存在的缺陷，本发明提出了一种基于搜索引擎的信息挖掘方法、装置及计算机设备。本发明通过搜索引擎获取种子链接，再根据种子链接的网页内容查找子链接。在下载链接对应目标URL的过程中，不断修正链接队列和URL队列的顺序，增加关联URL的聚集程度，提高挖掘效率。

本发明的技术方案是这样实现的：

一种基于搜索引擎的信息挖掘方法，包括以下步骤：

步骤1：从字库中提取基于主题词的多项第一拓展词和第二拓展词，根据主题词从搜索引擎中提取种子链接，将种子链接存储为第一队列的目标URL；

步骤2：将第一队列的目标URL逐一发送给下载器和链接索引表，下载器获取目标URL相应的网页内容，将网页内容发送给解析器；

步骤3：解析器将解析出的HTML数据发送给处理器，处理器将HTML数据转化为DOM树，遍历DOM树的多个标签路径，抽取至少一个标签路径的文本内容，从文本内容中提取目标文本与子链接；

步骤4：将目标文本存入第一存储器，匹配文本内容与第一拓展词，生成子链接的继承权重，将具有继承权重的子链接存储至第二队列；

步骤5：若网页下载数小于最大下载数，进入步骤6，否则结束任务；

步骤6：若第一队列为空集，进入步骤7，否则基于第二拓展词生成第一队列中剩余目标URL的引用权重，根据引用权重排列剩余目标URL，返回步骤2；

步骤7：根据链接索引表删除第二队列的至少一个子链接，若第二队列为空集，结束任务，否则进入步骤8；

步骤8：提取第二队列中子链接的修改时间，根据继承权重和修改时间计算第二队列中子链接的主题相关度，根据主题相关度排列第二队列的子链接；

步骤9：将第二队列的子链接存储为第一队列的目标URL，同时清空第二队列，返回步骤2。

在本发明中，在步骤1中，从字库中提取主题词的近义词与关联词，得到第一拓展词，从字库中提取主题词的属性词、类别词、领域词，得到第二拓展词。

在本发明中，在步骤2中，解析器采用基于动态代理的网页解析策略、基于图像验证码的网页解析策略、基于异步加载机制的网页解析策略的一种或几种解析网页内容。

在本发明中，在步骤4中，子链接的继承权重，其中，I为文本内容中第一拓展词的数量，W_i为第i个第一拓展词的权重，F_i为第i个第一拓展词在文本内容中出现的次数。

在本发明中，在步骤6中，从文本内容中提取子链接的锚文本，匹配锚文本与第二拓展词，根据锚文本中每一第二拓展词的访问频率计算该子链接对应目标URL的引用权重，根据引用权重排列目标URL。

在本发明中，在步骤6中，根据任意第二拓展词的匹配次数，调整该第二拓展词的访问频率。

在本发明中，在步骤7中，将链接索引表的目标URL匹配至第二队列的子链接，删除第二队列中匹配成功的子链接。

在本发明中，在步骤8中，根据子链接的修改时间生成时间影响因子G(t)，主题相关度R= G(t)×P₁。

一种基于搜索引擎的信息挖掘装置，该信息挖掘装置采用所述基于搜索引擎的信息挖掘方法，该信息挖掘装置包括：搜索引擎、第一存储器、第二存储器、下载器、解析器、处理器、调度器，其中，

搜索引擎用于提取种子链接；

第一存储器用于存储目标文本；

第二存储器用于存储第一队列和第二队列；

下载器用于获取目标URL相应的网页内容；

解析器用于从网页内容中解析HTML数据；

处理器用于从HTML数据提取目标文本与子链接；

调度器用于将子链接与种子链接发送至第二存储器。

一种计算机设备，该计算机设备包括电源、外设、网络接口以及所述信息挖掘装置。

实施本发明的这种基于搜索引擎的信息挖掘方法、装置及计算机设备，具有以下有益效果：本发明通过搜索引擎获取种子链接，根据种子链接的网页内容查找子链接。种子链接和子链接共同组成扩展后的目标URL集合。针对搜索引擎可能提供非关联链接，本发明通过第一拓展词调整子链接的继承权重，进而调整第二队列的顺序。通过第二拓展词调整目标URL的引用权重，进而调整第一队列的顺序。调整顺序后，关联链接和URL的聚集程度增加，提高爬虫效率。进一步的，通过链接索引表避免子链接被重复解析。

附图说明

图1为本发明基于搜索引擎的信息挖掘方法的流程图；

图2为本发明第一队列的示意图；

图3为本发明优选DOM树的结构示意图；

图4为本发明的目标URL引用权重的计算过程示意图；

图5为本发明义原组织结构树的示意图；

图6为本发明基于搜索引擎的信息挖掘装置的框图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

搜索引擎可以为用户信息挖掘提供海量的资源。为了提高挖掘的效率，现有技术提出在挖掘过程中不断学习迭代，优化挖掘方法。搜索引擎提供的链接资源的关联程度不同，提高关联资源的聚集程度，可以尽早发现目标文本，提高迭代效率。本发明通过语义相似度对关键词进行拓展得到第一拓展词。根据第一拓展词计算主题相关度，根据主题相关度对第二队列的子链接排序，优先挖掘更相关的页面内容。从字库中提取主题词的第二拓展词，通过第二拓展词调整第一队列中目标URL的引用权重，进而调整第一队列的挖掘顺序，增加关联URL的聚集程度。

实施例一

如图1至图4所示，本发明的基于搜索引擎的信息挖掘方法包括以下步骤。

步骤1：从字库中提取基于主题词的多项第一拓展词和第二拓展词，根据主题词从搜索引擎中提取种子链接，将种子链接存储为第一队列的目标URL。从字库中提取主题词的近义词与关联词，得到第一拓展词，具体步骤在实施例二中说明。从字库中提取主题词的属性词、类别词、领域词，得到第二拓展词。属性词例如表明音频、视频、文档等资源属性。类别词例如水果、计算机等。领域词例如农业、工业、商业等。第二拓展词的获取过程参照第一拓展词，通过第二拓展词能够改变子链接对应目标URL的引用权重，提高URL的聚集程度。本发明将种子链接按照统一资源定位系统（URL）的语法格式存储在第一队列中，形成目标URL。每一种子链接对应一条目标URL。第一队列采用先进先出法的数据结构。

步骤2：将第一队列的目标URL逐一发送给下载器和链接索引表，下载器获取目标URL相应的网页内容，将网页内容发送给解析器。解析器采用基于动态代理的网页解析策略、基于图像验证码的网页解析策略、基于异步加载机制的网页解析策略的一种或几种解析网页内容。通过上述网页解析策略能够提高信息解析效率。下载器根据第一队列中目标URL的资源位置下载相应的网页内容，下载器按照第一队列的顺序每次仅下载一个目标URL，避免同时下载的网页内容过多导致线程拥挤，提高系统的稳定性。

步骤3：解析器将解析出的HTML数据发送给处理器，处理器将HTML数据转化为DOM树，遍历DOM树的多个标签路径，抽取至少一项标签路径的文本内容，从文本内容中提取目标文本与子链接。DOM树是由各种类型的节点组成的树状结构。图3公开了一种简化的DOM树，包含了文档根节点、超文本标记节点、目录节点、主体节点、元数据节点、题录节点、字符集节点、超链接引用节点、文本内容节点等节点。节点之间的引用关系与节点共同组成标签路径。根据正则表达式从标签路径的文本内容中提取目标文本与子链接。正则表达式又称规则表达式，通常被用来检索某个模式的文本，例如，邮箱的命名规则保证邮箱的字符串有着严格的格式，而邮箱字符串的格式即为一种正则表达式。

步骤4：将目标文本存入第一存储器，匹配文本内容与第一拓展词，生成子链接的继承权重，将具有继承权重的子链接存储至第二队列。子链接的继承权重，其中，I为文本内容中第一拓展词的数量，W_i为第i个第一拓展词的权重，F_i为第i个第一拓展词在文本内容中出现的次数。在优选的实施例中，在词库中定义每一第一拓展词的权重，例如主题词为“杯子”时，“水杯”的权重大于“瓶子”的权重。通过继承权重可以将上一层的目标URL与主题词的关联程度继承给下一层的子链接。

文本内容以字符串的形式存储，文本内容与第一拓展词的匹配是指相应字符串的匹配。本发明的匹配算法可以采用BF算法、KMP算法、BM算法等。在本实施例中，文本内容的字符串为目标串，第一拓展词的字符串为模式串。根据BF算法将目标串的第一个字符与模式串的第一个字符进行匹配，若相等则继续比较目标串的第二个字符和模式串的第二个字符，若不相等则比较目标串的第二个字符和模式串的第一个字符，直到得出最后的匹配结果。在另一实施例中，KMP算法利用已经匹配过的信息来跳过尽可能多的字符，从而达到快速匹配的目的，具有时间复杂度低、实现简单等优点。

步骤5：若网页下载数小于最大下载数，进入步骤6，否则结束任务。搜索引擎可以提供海量的资源，最大下载数可以限制数据挖掘的循环次数。网页下载数可以通过链接索引表的目标URL的数量确定，不必增设计数器。进一步的，由于最大下载数的限制，本发明将关联度较高的子链接对应的目标URL排在第一队列的数据前端，提高发现目标文本的效率。

步骤6：若第一队列为空集，进入步骤7，否则基于第二拓展词生成第一队列中剩余目标URL的引用权重，根据引用权重排列剩余目标URL，返回步骤2。从文本内容中提取子链接的锚文本，即提取子链接两侧的文本内容。匹配锚文本与第二拓展词，根据锚文本中每一第二拓展词的访问频率计算该子链接对应目标URL的引用权重。引用权重，其中，J为锚文本中的第二拓展词的数量，E_j为第j个第二拓展词的访问频率。

进一步的，本实施例可以根据任意第二拓展词的匹配次数，调整该第二拓展词的访问频率。如图4所示，目标URL1对应锚文本1，在该锚文本1中匹配出第二拓展词1、第二拓展词3、第二拓展词J。增加第二拓展词队列中第二拓展词1、第二拓展词3、第二拓展词J的访问频率E₁、E₃、E_J。再根据修改后的访问频率计算剩余目标URL的引用权重，根据引用权重从大到小排列目标URL。引用权重较大的目标URL优先被提取。

步骤7：根据链接索引表删除第二队列的至少一个子链接，若第二队列为空集，结束任务，否则进入步骤8。将链接索引表的目标URL匹配至第二队列的子链接，删除第二队列中匹配成功的子链接。链接索引表存储已经完成匹配的链接，该步骤可以避免同一目标URL被重复匹配。

步骤8：提取第二队列中子链接的修改时间，根据继承权重和修改时间计算第二队列中子链接的主题相关度，根据主题相关度排列第二队列中子链接的顺序。根据子链接的修改时间生成时间影响因子，t为子链接被抓取的时间与上一次修改时间之差，以周为单位。网页越旧，t越大，最终的时间影响因子就越小。λ为时间阈值，通常取自然数e。主题相关度R=G(t)×P₁。

步骤9：将第二队列的子链接存储为第一队列的目标URL，同时清空第二队列，返回步骤2。第二队列排列完毕后，按照顺序存入第一队列，新的第一队列返回步骤2开始下一循环周期的信息挖掘。清空后的第二队列用于下一循环周期子链接的存储。在本实施例中，第一队列的目标URL与上一循环周期的第二队列的子链接存在唯一映射关系。借助该映射关系可以关联目标URL与对应的锚文本。

实施例二

本实施例进一步公开了步骤1中基于主题词从字库中提取第一拓展词的方法。首先根据语义相似度从初始字库中查找主题词的近义词与关联词得到第一拓展词，然后根据第一拓展词从更新的字库中查找第一拓展词的近义词、关联词。不断迭代，直到第一拓展词的数量收敛为止。其中，语义相似度为两个词语在不同的上下文中可以互相替换而不改变句法语义的程度。两个词语如果在不同的上下文中可以互相替换且不改变句法语义的可能性越大，二者的语义相似度就越高，否则语义相似度就越低。通过计算语义相似度判断两个词语是否相关、相近。

如图5所示，本实施例根据基本义原的上下层次关系，构建一棵包含了所有基本义原的义原组织结构树。通过义原组织结构树计算出基本义原相似度，根据基本义原相似度计算语义相似度。基本义原为描述单个概念的语义特征，在语言学中是指最小的不可再分的语义单位。例如主题词Q₀有N组基本义原C₀₁,C₀₂,…,C_0N。字库中有K个词语，第k个词语Q_k有M组基本义原C_k1,C_k2,…,C_kM，主题词Q₀与词语Q_k的语义相似度sim(Q₀, Q_k)=max|sim(C_0n,C_km)|，n=1,2,…, N，m=1,2,…, M。基本义原相似度sim(C_0n,C_km)=ε/(d+ε)，d为两组基本义原在义原组织结构树中的路径长度。ε是调节因子，ε等于基本义原相似度为0.5时的路径长度。路径长度是指一组基本义原从义原组织结构树到另一基本义原所经历的层数。

实施例三

在步骤3中，遍历DOM树的多个标签路径，抽取至少一个标签路径的文本内容。现有的网页内容的标签路径数量较多，部分标签路径无可用文本，可以进一步筛选待抽取的标签路径，提高数据挖掘效率，减少无效匹配。本实施例公开了根据标签路径的核心文本从多个标签路径中选择待抽取的标签路径的方法。首先确定标签路径的节点数量H，计算任意节点h的文本长度L_h，h≤H。该标签路径的核心文本比为。再计算全部标签路径的核心文本比的均值/>和标准差β，核心文本阈值=/>+β。最后将核心文本比大于核心文本阈值的标签路径作为待抽取的标签路径。

实施例一的步骤6根据子链接的锚文本中第二拓展词的访问频率，修改该子链接对应目标URL的引用权重。本实施例进一步公开了步骤6中提取锚文本的方法。首先确定子链接在文本内容的位置。设置基准文本间距，根据该基准文本间距查找子链接前后的两个文本段，再查找文本段的首个标点符号。以该标点符号为基准截取文本内容，从而获得锚文本。在通常语义环境中，目标URL的文本内容引用子链接时，该子链接的锚文本表示该子链接的属性和内容。本实施例通过锚文本的识别与匹配，聚集相似锚文本的目标URL，提高挖掘效率。

实施例四

如图6所示，本实施例公开了一种基于搜索引擎的信息挖掘装置。该信息挖掘装置采用所述基于搜索引擎的信息挖掘方法，该信息挖掘装置包括：搜索引擎、第一存储器、第二存储器、下载器、解析器、处理器、调度器。搜索引擎用于获取种子链接。第一存储器用于存储目标文本。第二存储器用于存储第一队列和第二队列。下载器用于获取目标URL相应的网页内容。解析器用于从网页内容中解析HTML数据。处理器用于从HTML数据提取目标文本与子链接。调度器用于将子链接与种子链接发送至第二存储器。在该信息挖掘装置中载入实施例一所述的基于搜索引擎的信息挖掘方法。

实施例五

本实施例公开了一种计算机设备。该计算机设备包括电源、外设、网络接口以及实施例四所述信息挖掘装置。通过网络接口或外设载入实施例一所述的基于搜索引擎的信息挖掘方法，用于实现用户信息的挖掘。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于搜索引擎的信息挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤1中，从字库中提取主题词的近义词与关联词，得到第一拓展词，从字库中提取主题词的属性词、类别词、领域词，得到第二拓展词。

3.根据权利要求1所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤2中，解析器采用基于动态代理的网页解析策略、基于图像验证码的网页解析策略、基于异步加载机制的网页解析策略的一种或几种解析网页内容。

4.根据权利要求1所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤4中，子链接的继承权重，其中，I为文本内容中第一拓展词的数量，W_i为第i个第一拓展词的权重，F_i为第i个第一拓展词在文本内容中出现的次数。

5.根据权利要求1所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤6中，从文本内容中提取子链接的锚文本，匹配锚文本与第二拓展词，根据锚文本中每一第二拓展词的访问频率计算该子链接对应目标URL的引用权重，根据引用权重排列目标URL。

6.根据权利要求1所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤6中，根据任意第二拓展词的匹配次数，调整该第二拓展词的访问频率。

7.根据权利要求1所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤7中，将链接索引表的目标URL匹配至第二队列的子链接，删除第二队列中匹配成功的子链接。

8.根据权利要求4所述的基于搜索引擎的信息挖掘方法，其特征在于，在步骤8中，根据子链接的修改时间生成时间影响因子G(t)，主题相关度R= G(t)×P₁。

9.一种基于搜索引擎的信息挖掘装置，其特征在于，该信息挖掘装置采用权利要求1所述基于搜索引擎的信息挖掘方法，该信息挖掘装置包括：搜索引擎、第一存储器、第二存储器、下载器、解析器、处理器、调度器，其中，