CN116361362B

CN116361362B - 一种基于网页内容识别的用户信息挖掘方法与系统

Info

Publication number: CN116361362B
Application number: CN202310617728.8A
Authority: CN
Inventors: 陈景宏; 孙斌
Original assignee: Jiangxi Dingyi Technology Development Co ltd
Current assignee: Jiangxi Dingyi Technology Development Co ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-11
Anticipated expiration: 2043-05-30
Also published as: CN116361362A

Abstract

本发明公开了一种基于网页内容识别的用户信息挖掘方法与系统。该用户信息挖掘方法周期性提取社交媒体网页中页面数据，根据第一文本数据挖掘页面源码，再挖掘页面源码中的第二文本数据，输入第二参考信息提取域名信息中的账号信息，再基于二级超链接网址提取用户信息。本发明可以根据使用者提供的第一参考信息和第二参考信息，挖掘有效的用户信息。本发明以第一参考信息建立索引权重，优先识别相似度较高的图像数据，可以提高挖掘用户信息的效率。

Description

一种基于网页内容识别的用户信息挖掘方法与系统

技术领域

本发明涉及网页数据处理技术，尤其涉及一种基于网页内容识别的用户信息挖掘方法与系统。

背景技术

大数据时代下信息传播速度更快，尤其是在社交媒体网页中，具有商业价值的用户信息处于公开状态。获取用户信息对于优化网络营销渠道具有重要的商业价值，能够大大提高商业行为的精确度。现有技术中，CN114385709A公开了一种用户信息挖掘方法及装置，通过不同维度权重评分挖掘决策人，该方案仅适用于通话业务。另外，CN112667702A公开了一种基于大数据的数据挖掘系统，通过单独建立分布式的大数据分析和挖掘平台，用于数据分析挖掘、模型部署以及平台集成的管理，用于泛化大数据信息的挖掘和信息处理。但是该方案没有涉及从页面内容识别实现用户信息挖掘的方法。因此，现有技术希望能够具有一种通过页面内容提取用户信息的技术手段，用于解决社交媒体网页用户信息获取难的技术问题。

发明内容

针对上述问题，本发明提供了一种基于网页内容识别的用户信息挖掘方法与系统。该方法通过获取社交媒体网页的页面数据，根据第一文本数据挖掘页面源码，挖掘页面源码中的第二文本数据，输入第二参考信息提取域名信息中的账号信息，再基于二级超链接网址提取用户信息。

进一步的，本发明基于标签建立图像数据的索引表，并按照用户信息的准确性修正索引权重，优先识别记载用户信息频率较高的图像数据。再进一步的，本发明将社交媒体网页更新时的数据请求项作为挖掘对象，扩大了数据范围，可以提高数据提取的成功率。

本申请的发明目的可通过以下技术手段实现：

一种基于网页内容识别的用户信息挖掘方法，包括以下步骤：

步骤1：输入社交媒体网页的地址，根据该地址获取社交媒体网页中的页面数据，基于页面生成规则提取第一文本数据和多组图像数据；

步骤2：根据第一文本数据提取社交媒体网页的页面源码，并挖掘所述页面源码中的第二文本数据；

步骤3：输入第一参考信息，基于第一参考信息提取第二文本数据的域名信息；

步骤4：判断域名信息是否有效，若域名信息有效，则进入步骤5，若域名信息无效，则进入步骤7；

步骤5：输入第二参考信息，提取域名信息的账号信息，再获取账号信息的二级超链接网址，基于第二参考信息抓取二级超链接网址中的用户信息；

步骤6：判断用户信息是否有效，若用户信息有效，则进入步骤9，若用户信息无效，则进入步骤7；

步骤7：根据图像数据的标签建立图像数据的索引表，根据预设的索引权重排列所述索引表的图像数据；

步骤8：按照索引表顺序逐一调用图像数据，识别图像数据中的用户信息，若用户信息有效，调整该图像数据的索引权重，否则继续调用图像数据；

步骤9：存储所述用户信息。

在本发明中，在步骤1中，页面生成规则包括页面结构与页面内各个数据项的位置，将页面数据的HTML文档转换为XHTML文档，提取所述XHTML文档中的标签，保留指向第一文本数据和图像数据的至少一个标签，构成所述页面结构。

在本发明中，在步骤1中，建立Ajax异步数据加载模块，监听社交媒体网页的数据请求项，查找数据请求项的缓存文本与缓存图像，将缓存文本纳入所述第一文本数据，将缓存图像纳入所述图像数据。

在本发明中，在步骤2中，记录解析页面源码后返回的cookie，写入多个cookie后构建cookie池，根据cookie池的脚本提取第二文本数据。

在本发明中，第一参考信息为用户身份编码，第二参考信息为基于域名信息确定的URL链接。

在本发明中，在步骤4中，对域名信息进行DNS解析，若解析成功则返回IP地址，该域名信息有效，若未返回IP地址，域名信息无效。

在本发明中，在步骤6中，若所述用户信息缺失属性字段或包含无效字段，则用户信息无效，否则用户信息有效。

在本发明中，在步骤7中，提取图像数据的二值特征与第一参考信息的文本特征，图像数据的索引权重为，/>为文本特征i与二值特征d的相似度，f₁为第一参考信息的所有文本特征，f₂为图像数据的所有二值特征。

在本发明中，在步骤8中，调整后的索引权重，A为调整系数，t_a为从该图像数据提取有效用户信息的次数，t_max为提取有效用户信息的总次数。

一种实现所述基于网页内容识别的用户信息挖掘方法的用户信息挖掘系统，包括第一数据识别模块、第二数据识别模块、第三数据识别模块、文本分析模块、图像分析模块、判别模块、第一数据库、第二数据库，其中，

第一数据识别模块用于提取页面数据的第一文本数据和多组图像数据；

第二数据识别模块用于提取社交媒体网页的页面源码并挖掘第二文本数据；

第三数据识别模块用于提取第二文本数据的域名信息；

文本分析模块用于抓取二级超链接网址中的用户信息；

图像分析模块用于识别图像数据中的用户信息；

判别模块用于判断域名信息和用户信息是否有效；

第一数据库用于根据索引表并存储图像数据；

第二数据库用于存储用户信息。

实施本发明的基于网页内容识别的用户信息挖掘方法与系统，具有以下有益效果：本发明通过周期性提取社交媒体网页中页面数据，可以按照使用者提供的第一参考信息和第二参考信息精确抓取社交媒体网页中的相关数据。鉴于图像数据识别速度慢，本发明以第一参考信息建立索引权重，优先识别相似度较高的图像数据，可以提高挖掘用户信息的效率。当社交媒体网页数量较多时，本发明将社交媒体网页更新时的数据请求项作为挖掘对象，可以提高数据提取的成功率。

附图说明

图1为本发明的基于网页内容识别的用户信息挖掘方法的流程图；

图2为本发明的社交媒体网页的示意图；

图3为本发明的拼接URL链接的示例图；

图4为本发明的基于第一参考信息提取域名信息的原理图；

图5为本发明优选的提取社交媒体网页数据的方法的示意图；

图6为本发明优选的通过二级超链接网址内生成用户信息的方法的示意图；

图7为本发明的用户信息挖掘系统的硬件框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

商业用户信息广泛存在于各类社交媒体网页中，社交媒体网页中账号信息和域名信息可以作为查找商业用户信息的主要方法。大部分社交媒体网页中，域名信息由公司名称、账号信息、域名主体构成。而账号信息、域名信息在社交媒体网页中可以作为挖掘用户信息的条件。本发明的这种基于网页内容识别的用户信息挖掘方法与系统，可以按照使用者提供的第一参考信息和第二参考信息精确抓取社交媒体网页中的相关数据。同时以第一参考信息建立索引权重，优先识别相似度较高的图像数据，可以提高挖掘用户信息的效率。

实施例一

本实施例的的基于网页内容识别的用户信息挖掘方法，基于账号信息、域名信息访问社交媒体网页主页后，基于分布式爬虫架构获取网页源码及二级超级链接，在二级超级链接中获取用户信息。参照图1，该用户信息挖掘方法包括以下步骤：

步骤1：输入社交媒体网页的地址，根据该地址获取社交媒体网页中的页面数据，基于页面生成规则提取第一文本数据和多组图像数据。使用者根据待获取目标商业信息的需求指定任意一包含用户信息的社交媒体网页。社交媒体网页包括互联网信息发布平台、社交书签、博客与论坛。如图2，在本实施例的社交媒体网页泛指所有的互联网信息发布平台、社交书签、博客与论坛等所有包含个人职员信息、联系方式的社交平台。所以第一文本数据至少包括社交媒体网页的残缺账号信息与残缺域名信息。

页面生成规则包括页面结构与页面内各个数据项的位置，将页面数据的HTML文档转换为XHTML文档，提取所述XHTML文档中的标签，删除与文本数据以及图像数据无关的标签，保留指向第一文本数据和图像数据的至少一个标签，构成所述页面结构。

步骤2：根据第一文本数据提取社交媒体网页的页面源码，并挖掘所述页面源码中的第二文本数据。在本实施例中，在web服务器内设定一脚本，提取内置的多条URL链接，过滤得到与该社交媒体网页相关的URL链接，将URL链接置入待挖掘队列中。针对URL链接不完整，根据预设的拼接参数拼接URL链接。参照图3，拼接完成后的URL链接例如为：company=XXX&timescope=custom：XXX&typeall=1&suball=1&page=2。

在对社交媒体网页的页面源码挖掘的第一个周期内，记录web服务器解析页面源码后返回的cookie，写入多个cookie后构建cookie池，根据cookie池的脚本提取第二文本数据。所述第二文本数据至少包括社交媒体网页中所有的残缺网页链接与残缺邮箱信息。

步骤3：输入第一参考信息，基于第一参考信息提取第二文本数据的域名信息。在本实施例中，所述第一参考信息为用户身份编码。用户身份编码转换为HTML文档，经过浏览器进行lxml解析后得到规范化的HTML文件，通过id_class以及xpath方法识别第二文本数据的域名信息，基于第一参考信息提取域名信息的原理参照图4。

步骤4：判断域名信息是否有效，若域名信息有效，则进入步骤5，若域名信息无效，则进入步骤7。在本实施例中，域名信息是否有效根据域名信息的完整度进行评价，具体包括标准域名结构、账号域名结构、缓存域名结构，在判断模块识别域名信息是否完整的阶段。首先，识别是否为标准域名结构，若是，则进行账号域名结构的判断，若否，则认定域名信息无效；其次，识别账号域名结构的完整性，若是，则进行缓存域名结构的判断，若否，则认定域名信息无效；最后，识别缓存域名结构的完整性，若是，则输出该域名信息，若否，则认定域名信息无效。在另一个具体实施例中，可以对域名信息进行DNS解析，若解析成功则返回IP地址，该域名信息有效，若未返回IP地址，则域名信息无效。

步骤5：输入第二参考信息，提取域名信息的账号信息，再获取账号信息的二级超链接网址，基于第二参考信息抓取二级超链接网址中的用户信息。在本实施例中，基于域名信息确定的使用者账号及使用者账号的URL链接，将使用者账号的URL链接转换为HTML文档，下载对应的首页源码，将包含About,Contus 字符串的网址排列在最前面，获取前10个二级超链接网址。将第二参考信息进行分类，打开二级超链接网址，输入查找条件后通过支持向量机提取二级超链接网址内的用户信息。查找条件为包含用户信息的特征，用户信息至少包括完整的职员信息、联系方式。

步骤6：判断用户信息是否有效，若用户信息有效，则进入步骤9，若用户信息无效，则进入步骤7。本实施例例如通过所述用户信息缺失属性字段或包含无效字段判断用户信息是否有效。

步骤7：根据图像数据的标签建立图像数据的索引表，根据预设的索引权重排列所述索引表的图像数据。提取图像数据的二值特征与第一参考信息的文本特征，图像数据的索引权重为，/>为文本特征i与二值特征d的相似度，f₁为第一参考信息的所有文本特征，f₂为图像数据的所有二值特征。

步骤8：按照索引表顺序逐一调用图像数据，识别图像数据中的用户信息，若用户信息有效，调整该图像数据的索引权重，否则继续调用图像数据。在相同的网页结构中，同类图像数据的标签固定。在下一次数据挖掘中，由于部分标签对应的图像数据的索引权重发生改变，根据标签建立图像数据的索引表的顺序发生调整。优先调取多次提取到有效用户信息的图像数据。调整后的索引权重，A为调整系数，t_a为从该图像数据提取有效用户信息的次数，t_max为提取有效用户信息的总次数。

步骤9：存储所述用户信息。在本实施例中，若步骤1至步骤6未能够获得完整的用户信息，实施的步骤7至步骤8为基于图像数据获取用户信息的方法。若全部图像数据均无法获得用户信息，则确认该社交媒体网页挖掘失败，开始挖掘下一社交媒体网页。

实施例二

在提取社交媒体网页的页面数据的过程中，社交媒体网页可能在不断更新。作为步骤1的进一步改进，本实施例公开了优选的提取社交媒体网页数据的方法，该方法将浏览器的数据请求项纳入数据挖掘的范围。如图5，该方法包括以下步骤：

步骤101：浏览器发送请求至web服务器，web服务器响应并对社交媒体网页进行再次渲染，得到经过更新后的社交媒体网页。

步骤102：建立Ajax异步数据加载模块，在浏览器中建立XML HttpRequest对象，监听社交媒体网页的数据请求项。

步骤103：Ajax异步数据加载模块抓取数据请求项，通过param参数分析数据请求项，确定文本查找范围。

步骤104：通过find()函数查找缓存标签，并通过find_all()函数查找缓存文本与缓存图像，将缓存文本纳入所述第一文本数据，将缓存图像纳入所述第一文本数据。

实施例三

作为步骤5的进一步改进，本实施例进一步公开了通过二级超链接网址内的用户信息的方法。如图6，该包括如下步骤：

步骤501：获取二级超链接网址的网页源码中的纯文本数据。

步骤502：将纯文本数据按行划分，每一行分配唯一的行序列，不同的行为独立的文本块。

步骤503：以行序列为横坐标，以行间文本块密度为纵坐标，构造行块分布函数，选取6个以上的连续行块为正文评估区间。

步骤504：基于聚类算法匹配正文评估区间中各个连续文本块与用户信息的特征相似度。

步骤505：选取最高的文本块作为用户信息的提取结果，或者依次选取不同相似度的文本块，通过支持向量机再次确定提取结果。

实施例四

参照图7，本实施例的实现所述基于网页内容识别的用户信息挖掘方法的用户信息挖掘系统，包括第一数据识别模块、第二数据识别模块、第三数据识别模块、文本分析模块、图像分析模块、判别模块、第一数据库、第二数据库，其中，第一数据识别模块用于提取页面数据的第一文本数据和多组图像数据。第二数据识别模块用于提取社交媒体网页的页面源码并挖掘第二文本数据。第三数据识别模块用于提取第二文本数据的域名信息。文本分析模块用于抓取二级超链接网址中的用户信息。图像分析模块用于识别图像数据中的用户信息。判别模块用于判断域名信息和用户信息是否有效。第一数据库用于根据索引表并存储图像数据。第二数据库用于存储用户信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网页内容识别的用户信息挖掘方法，其特征在于，包括以下步骤：

步骤9：存储所述用户信息，

其中，第一文本数据至少包括社交媒体网页的残缺账号信息与残缺域名信息，第二文本数据至少包括社交媒体网页中所有的残缺网页链接与残缺邮箱信息；

第一参考信息为用户身份编码，第二参考信息为基于域名信息确定的URL链接，

步骤5中，获取二级超链接网址的网页源码中的纯文本数据；

将纯文本数据按行划分，每一行分配唯一的行序列，不同的行为独立的文本块；

以行序列为横坐标，以行间文本块密度为纵坐标，构造行块分布函数，选取6个以上的连续行块为正文评估区间；

基于聚类算法匹配正文评估区间中各个连续文本块与用户信息的特征相似度；

选取最高的文本块作为用户信息的提取结果，通过支持向量机再次确定提取用户信息，

步骤7中，索引权重为，其中，/>为文本特征i与二值特征d的相似度，f₁为第一参考信息的所有文本特征，f₂为图像数据的所有二值特征。

2.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法，其特征在于，在步骤1中，页面生成规则包括页面结构与页面内各个数据项的位置，将页面数据的HTML文档转换为XHTML文档，提取所述XHTML文档中的标签，保留指向第一文本数据和图像数据的至少一个标签，构成所述页面结构。

3.根据权利要求2所述的基于网页内容识别的用户信息挖掘方法，其特征在于，在步骤1中，建立Ajax异步数据加载模块，监听社交媒体网页的数据请求项，查找数据请求项的缓存文本与缓存图像，将缓存文本纳入所述第一文本数据，将缓存图像纳入所述图像数据。

4.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法，其特征在于，在步骤2中，记录解析页面源码后返回的cookie，写入多个cookie后构建cookie池，根据cookie池的脚本提取第二文本数据。

5.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法，其特征在于，在步骤4中，对域名信息进行DNS解析，若解析成功则返回IP地址，该域名信息有效，若未返回IP地址，域名信息无效。

6.根据权利要求1所述的基于网页内容识别的用户信息挖掘方法，其特征在于，步骤6中，若所述用户信息缺失属性字段或包含无效字段，则用户信息无效，否则用户信息有效。