CN114201971A

CN114201971A - 一种从网页中提取人物属性的方法及系统

Info

Publication number: CN114201971A
Application number: CN202111514629.4A
Authority: CN
Inventors: 王善和; 武博; 李秀梅
Original assignee: Hainan Port And Shipping Holding Co ltd
Current assignee: Hainan Port And Shipping Holding Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-18
Anticipated expiration: 2041-12-13
Also published as: CN114201971B

Abstract

本发明公开了一种从网页中提取人物属性的方法及系统，其中，提取人物属性的方法包括：源代码获取步骤、网站服务器地址获取步骤、页面节点信息获取步骤和人物属性值获取步骤。本发明使用页面解析算法获取页面节点信息，使用文本文件解析算法提取人物属性，而文本文件解析算法不需要对文本语义进行解析，因此本发明不需要执行复杂的文本语言解析操作，从而能快速定位并获取人物属性；本发明使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记，而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关，因此本发明提取的人物属性的精确度较高。

Description

一种从网页中提取人物属性的方法及系统

技术领域

本发明属于信息挖掘领域，更具体地，涉及一种从网页中提取人物属性的方法及系统。

背景技术

各个网页的源代码中包含大量的人物属性，这些信息对于企业的信息化建设有着重要的意义。但是由于各个网站的网页结构和源代码均不相同，如何从不同的网页结构和源代码中获取人物属性是信息挖掘领域的一大难题。

现有技术通常使用文本分析算法解析网页源代码的语义信息，从而获取人物属性的属性名称和对应的属性值，如识别出“张三”是一个姓名，“29岁”是一个年龄。但是文本分析算法的精确度不高，且计算速度较慢，严重影响了人物属性提取的效率和效果。当前的信息挖掘领域迫切需要一种精确度较高且计算速度较快的从网页中提取人物属性的方法。

为了便于理解本发明，以下对有关术语和相关概念进行解释：

爬虫算法：现有的网络算法中用于抓取网页内容的一类的算法，常用的有Python爬虫算法等；

页面解析算法：现有的网络算法中用于解析网页文本结构的一类的算法，常用的有jsoup页面解析算法；

文本文件解析算法：现有的网络算法中用于获取网页文本内容的一类的算法，该算法不需要对文本语义进行解析。常用的有text算法；

人物属性：人物实体相关的属性，一个人物属性通常用一个属性名称及其对应的属性值来表示，例如：属性名称为姓名；属性值为小明。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种从网页中提取人物属性的方法及系统，旨在解决提高从网页中提取人物属性的精确度和速度的问题。

为实现上述目的，本发明提供了一种从网页中提取人物属性的方法，其特征在于，包括以下步骤：

(1)源代码获取步骤：

对于包含分页的网页，获取各个分页的源代码；对于不包含分页的网页，获取网页的源代码；所述各个分页的源代码和网页的源代码均包含若干个页面节点信息；

(2)网站服务器地址获取步骤：

通过爬虫算法，从所述各个分页的源代码或网页的源代码中获取网站服务器地址；

(3)页面节点信息获取步骤：

通过页面解析算法，在所述各个分页的源代码或网页的源代码中提取所述网站服务器地址对应的若干个页面节点信息；所述页面节点信息由一个表头及其对应的表头内容组成；

(4)人物属性获取步骤：

通过文本文件解析算法，分别解析所述各个分页的源代码或网页的源代码中每段代码的代码头以及所述若干个页面节点信息，对应得到若干个人物属性的属性名称，以及其对应的属性值。

优选地，所述源代码获取步骤中获取各个分页的源代码的过程为：

在所述包含分页的网页的浏览器上执行抓包操作，分别获取各个分页对应的请求地址和请求方式；

根据所述请求方式，发送请求指令到对应的请求地址，获得各个分页的源代码。

优选地，若所述请求方式为get请求方式，则发送get请求指令到所述请求地址；若所述请求方式为post请求方式，则发送post请求指令到所述请求地址。

优选地，所述各个分页按预先设定的方式进行排序，根据排序的次序，依次发送请求指令到对应的请求地址，获得对应的分页的源代码；

当获取到的分页的源代码中出现“您请求的内容不存在”的短句时，结束；否则继续获取下一个分页的源代码。

本发明提供了一种从网页中提取人物属性的系统，其特征在于，包括以下模块：

源代码获取模块：

用于对包含分页的网页，获取各个分页的源代码；对不包含分页的网页，获取网页的源代码；所述各个分页的源代码和网页的源代码均包含若干个页面节点信息；

网站服务器地址获取模块：

用于通过爬虫算法，从所述各个分页的源代码或网页的源代码中获取网站服务器地址；

页面节点信息获取模块：

用于通过页面解析算法，在所述各个分页的源代码或网页的源代码中提取所述网站服务器地址对应的若干个页面节点信息；所述页面节点信息由一个表头及其对应的表头内容组成；

人物属性获取模块：

用于通过文本文件解析算法，分别解析所述各个分页的源代码或网页的源代码中每段代码的代码头以及所述若干个页面节点信息，对应得到若干个人物属性的属性名称，以及其对应的属性值。

优选地，所述源代码获取模块中获取各个分页的源代码的操作为：

本发明提供了一种从网页中提取人物属性的装置，其特征在于，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如上所述的从网页中提取人物属性的方法。

本发明提供了一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的从网页中提取人物属性的方法。

通过本发明所构思的以上技术方案，与现有技术相比，由于本发明使用页面解析算法获取页面节点信息，使用文本文件解析算法提取人物属性，而文本文件解析算法不需要对文本语义进行解析，因此本发明不需要执行复杂的文本语言解析操作，从而能快速定位并获取人物属性；本发明使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记，而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关，因此本发明提取的人物属性的精确度较高。

本发明对于有分页的网页，设计了获取各个分页的源代码的方法，确保从有分页的网页中也能提取到人物属性。

附图说明

图1是本发明实施例提供的从网页中提取人物属性的方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例提供了一种从网页中提取人物属性的方法，包括以下步骤：

(1)源代码获取步骤：

对于包含分页的网页，获取各个分页的源代码；对于不包含分页的网页，获取网页的源代码；各个分页的源代码和网页的源代码均包含若干个页面节点信息；

其中，获取各个分页的源代码的过程为：

在包含分页的网页的浏览器上执行抓包操作，分别获取各个分页对应的请求地址和请求方式；

根据请求方式，发送请求指令到对应的请求地址，获得各个分页的源代码；若请求方式为get请求方式，则发送get请求指令到请求地址；若请求方式为post请求方式，则发送post请求指令到请求地址。

此外，各个分页可按预先设定的方式进行排序，根据排序的次序，依次发送请求指令到对应的请求地址，获得对应的分页的源代码；当获取到的分页的源代码中出现“您请求的内容不存在”的短句时，结束；否则继续获取下一个分页的源代码；

本实施例对于有分页的网页，设计了获取各个分页的源代码的方法，确保从有分页的网页中也能提取到人物属性。

(2)网站服务器地址获取步骤：

通过爬虫算法，从各个分页的源代码或网页的源代码中获取网站服务器地址；其中，爬虫算法为Python爬虫算法；

(3)页面节点信息获取步骤：

通过页面解析算法，在各个分页的源代码或网页的源代码中提取网站服务器地址对应的若干个页面节点信息；页面节点信息由一个表头及其对应的表头内容组成；其中，页面解析算法为jsoup页面解析算法；

(4)人物属性获取步骤：

通过文本文件解析算法，分别解析各个分页的源代码或网页的源代码中每段代码的代码头以及若干个页面节点信息，对应得到若干个人物属性的属性名称，以及其对应的属性值。其中，文本文件解析算法为text算法。

由于本实施例使用页面解析算法获取页面节点信息，使用文本文件解析算法提取人物属性，而文本文件解析算法不需要对文本语义进行解析，因此本实施例不需要执行复杂的文本语言解析操作，从而能快速定位并获取人物属性；本实施例使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记，而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关，因此本实施例提取的人物属性的精确度较高。

本实施例提供一种从网页中提取人物属性的系统包括以下模块：

源代码获取模块：

用于对包含分页的网页，获取各个分页的源代码；对不包含分页的网页，获取网页的源代码；各个分页的源代码和网页的源代码均包含若干个页面节点信息；

其中，获取各个分页的源代码的操作为：

各个分页可按预先设定的方式进行排序，根据排序的次序，依次发送请求指令到对应的请求地址，获得对应的分页的源代码；当获取到的分页的源代码中出现“您请求的内容不存在”的短句时，结束；否则继续获取下一个分页的源代码。

网站服务器地址获取模块：

用于通过爬虫算法，从各个分页的源代码或网页的源代码中获取网站服务器地址；

页面节点信息获取模块：

用于通过页面解析算法，在各个分页的源代码或网页的源代码中提取网站服务器地址对应的若干个页面节点信息；页面节点信息由一个表头及其对应的表头内容组成；

人物属性获取模块：

用于通过文本文件解析算法，分别解析各个分页的源代码或网页的源代码中每段代码的代码头以及若干个页面节点信息，对应得到若干个人物属性的属性名称，以及其对应的属性值。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种从网页中提取人物属性的方法，其特征在于，包括以下步骤：

(1)源代码获取步骤：

(2)网站服务器地址获取步骤：

(3)页面节点信息获取步骤：

(4)人物属性获取步骤：

2.如权利要求1所述的从网页中提取人物属性方法，其特征在于，所述源代码获取步骤中获取各个分页的源代码的过程为：

3.如权利要求2所述的从网页中提取人物属性方法，其特征在于，若所述请求方式为get请求方式，则发送get请求指令到所述请求地址；若所述请求方式为post请求方式，则发送post请求指令到所述请求地址。

4.如权利要求2所述的从网页中提取人物属性方法，其特征在于，

所述各个分页按预先设定的方式进行排序，根据排序的次序，依次发送请求指令到对应的请求地址，获得对应的分页的源代码；

5.一种从网页中提取人物属性的系统，其特征在于，包括以下模块：

源代码获取模块：

网站服务器地址获取模块：

页面节点信息获取模块：

人物属性获取模块：

6.如权利要求5所述的从网页中提取人物属性系统，其特征在于，所述源代码获取模块中获取各个分页的源代码的操作为：

7.如权利要求6所述的从网页中提取人物属性系统，其特征在于，若所述请求方式为get请求方式，则发送get请求指令到所述请求地址；若所述请求方式为post请求方式，则发送post请求指令到所述请求地址。

8.如权利要求6所述的从网页中提取人物属性系统，其特征在于，

9.一种从网页中提取人物属性的装置，其特征在于，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如权利要求1-4任一项所述的从网页中提取人物属性的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-4任一项所述的从网页中提取人物属性的方法。