CN110347896A

CN110347896A - 一种基于PageRank算法的医疗数据爬取方法及系统

Info

Publication number: CN110347896A
Application number: CN201910507881.9A
Authority: CN
Inventors: 王刘旺; 戴彦; 韩嘉佳; 颜拥; 姚影; 杨杨; 喻鹏; 郝茂杰
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-10-18
Anticipated expiration: 2039-06-12
Also published as: CN110347896B

Abstract

本发明公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明的医疗数据爬取方法，包括步骤：用户根据需要输入要爬取的医疗关键词；计算网页时间因子及潜在相关性因子；计算得到第一轮PR值，并临时存入数据库中；对各网页中的超链接进行权重计算；计算得到第二轮PR值，并更新数据库；比较PR值大小，获取PR值最大的N个网页；输出PR值最大的N个网页。本发明能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷，可以高效、准确的爬取医疗数据网页。

Description

一种基于PageRank算法的医疗数据爬取方法及系统

技术领域

本发明属于医疗数据获取领域，具体地说是一种基于PageRank算法的医疗数据爬取方法及系统。

背景技术

随着人工智能技术的发展，医学领域的智能化过程也得到了推广。目前已经出现了构建基于深度学习的远程健康辅助诊断模型的想法。因此，如何快速准确地获取医疗数据成为首要问题。

医疗数据的主要来源包括互联网和医疗信息数据库。互联网是一个超文本组织，拥有约3亿页。它包含许多医生和患者之间在线交流的网站。该网站包含大量有关患者病情和医生诊断结果的信息。然而，互联网具有复杂网页和混乱信息的特征，已有的通用爬取算法存在着旧网页干扰严重、主题漂移、偏向于综合性网页等问题。

为了解现有技术的发展状况，对已有的专利和文献进行了检索、比较和分析，筛选出如下与本发明相关度比较高的技术信息：

现有专利1：201510342671.0基于Berkeley DB数据库的主题爬虫系统

此发明实现了基于Berkeley DB数据库的主题爬虫系统，该系统的目标是为用户提供一个领域信息采集工具，并且只采集与特定主题相关的网页，从而能节省软硬件资源和较快地更新页面。技术方案是：首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足系统终止条件。在网页下载的过程中将其URL和概要信息插入到Berkeley数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁盘，提高了系统性能。在主题爬虫的参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数，在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数。

上述现有专利1技术方案存在的缺陷：在第一步对网页进行过滤时过滤的结果很大程度上依赖于主题相关性算法，如果相关性算法性能不好的话会过滤掉部分有效网页而保留无效网页，对最终的爬取结果产生较大的负面影响。

现有专利2：201210360608.6一种实现网络爬虫任务的方法

本发明公开了一种实现网络爬虫任务的方法，采用的技术方案为：1.初始给所述客户端待爬网页的链接地址；2.客户端将待爬网页的链接地址封装成任务请求发送到服务器；3.服务器向待爬取页面发送HTTP请求，并把请求到的多信息返回客户端；4.客户端接收信息，并对信息进行处理：5.重复上述过程，依次完成待爬列表中的网页爬取。本发明为爬取不同的网站内容提供了一个通用的网络爬虫框架，使用本方法可以快速完成编写用于爬取某个特定网站的爬虫。这种方法极大降低了开发人员的开发难度，缩短了开发周期。由于这种方法是建立在分布式网络爬虫框架的基础之上，因此爬取网站的速度也可以得到保证。本发明的方法可用于医疗信息系统。

上述现有专利2技术方案存在的缺陷：该方案只适合于用户特定的某个网站的数据爬取，并不适用于跨网站的大规模数据爬取工作，人工参与程度较大，自动化程度低。

现有专利3：201110230220.X基于锚文本的聚焦网络爬虫搜索方法及其系统

本发明公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统，所述方法主要包括：从URL优先级队列中获取URL，并依据URL从Internet下载得到Web页面；对下载的Web页面进行解析，提取URL及其锚文本；对提取出的URL及其锚文本进行筛选；采用TF-IDF与LSI相结合的算法来计算URL的主题相关度，并将符合条件的URL放入优先级队列中；所述系统包括：URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统，本发明提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。

上述现有专利3技术方案存在的缺陷：该方案爬取网页的准确性很大程度依赖于URL优先级队列的构建，因此计算主题相关度的方法选取十分重要，方案中并未对这部分方法进行明显的有针对性的改进。

医疗数据爬取算法，旨在能够根据种子网页及关键词快速、准确的查询出互联网中与关键词相关的医疗数据网页，目前存在的通用的网页爬取算法在爬取医疗数据过程中主要存在以下问题：(1)互联网中存在着大量的医疗相关数据，其时间跨度较大，随着医疗事业的发展部分陈旧的网页信息已经失去参考价值，然而通用的爬取算法并不能过滤掉这类无用数据；(2)医疗数据中存在大量的专业名词，通用爬取算法易产生主题漂移问题，降低爬取结果的准确性和效率；(3)通用爬取算法偏向于爬取通用知识网页，不适合于医疗数据爬取。

发明内容

针对上述现有技术中存在的问题，本发明提供一种基于PageRank算法的医疗数据爬取方法，该方法改进传统PageRank算法的评分机制，对于爬取到的网页进行2次评分，最终获得爬取结果。

为此，本发明采用如下的技术方案：一种基于PageRank算法的医疗数据爬取方法，其包括步骤：

S1、用户根据需要输入要爬取的医疗关键词；

S2、计算网页时间因子及潜在相关性因子；

S3、计算得到第一轮PR值，并临时存入数据库中；

S4、对各网页中的超链接进行权重计算；

S5、计算得到第二轮PR值，并更新数据库；

S6、比较PR值大小，用户根据需要获取PR值最大的N个网页；

S7、输出PR值(页面排序分数)最大的N个网页。

针对医疗数据陈旧网页的干扰问题，本发明增加了时间因子，综合网站的时间因素，影响网页的评分结果。针对医疗数据主题漂移的问题，本发明引入并改进了潜在相关性因子，主要考虑网页链接的上下文信息与医疗数据的契合程度，进而影响评分结果。针对通用算法偏向于通用网页的问题，本发明增加了超链接权重因子，针对网页中不同位置的链接赋予不同的权重。本发明旨在能够高效准确的爬取到符合关键词主题的医疗数据网页。

进一步的，步骤S1具体包括：S11、用户根据爬取需要，自行设定关键词C。

进一步的，步骤S2具体包括：

S21、计算网页的时间因子T_u，计算公式如下：

其中，δ为(0，1]之间的限定系数，保证分母在正常范围内；T_time为距离最近一次网页更新的时间间隔；T_number为最近一次下载的网页文件的数量；T_download为最近一次网页被下载的时间间隔；

S22、计算潜在相关性因子P_u，计算公式如下：

P_u＝α*inherited(current_url)+(1-α)*neighborhood(current_url)

其中，α为小于1的衰减因子，current_url表示当前链接，inherited(current_url)表示当前网页从父链接继承得到的分数，计算公式如下：

其中，β为小于1的衰减因子，parent_url为current_url的父链接；score(C，parent_url)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分；inherited(parent_url)表示parent_url从其父节点继承得到的分数，，μ为相关性阈值；neiborhood(current_url)代表当前链接周围的文本与关键词之间的相关性，其计算公式如下：

neiborhood(current_url)

＝γ*ln(score(C，anchor)+1)+(1-γ)*ln(score(C，anchor_text)+1)

其中，γ为小于1的衰减因子，anchor代表当前链接中的文本信息，anchor_text代表当前链接周围的文本信息，即链接上下文；score(C，anchor)表示关键词与当前链接中文本信息的相关性得分，score(C，anchor_text)表示关键词与当前链接周围文本信息的相关性得分。

进一步的，步骤S3具体包括：

S31、根据PageRank算法计算原始PR值，将时间因子和潜在相关性因子作为系数求得网页的第一轮PR值，计算公式如下：

其中，PR_old为第一次计算得到的网页PR值；d为阻尼系数；PR(M_i)表示网页M_i的原始PageRank分数；S(M_i)表示网页M_i的链出页面数目；n表示链入当前网页的网页数目；将计算结果存储到数据库中。

进一步的，步骤S4具体包括：

S41、对于每个的网页Q_u都定义一个链接权重C_u，u＝1，2，3...n，假设每个链接的位置信息定义为D_i，根据D_i计算得到每个链接的权重C_i，计算公式如下：

式中，N表示当前网页中的链接数目；

根据每个链接的权重C_i计算得到网页的链接权重系数C_u，计算公式如下：

式中，N表示当前网页中的链接数目。

进一步的，步骤S5具体包括：

S51、计算第二轮PR值大小，计算公式如下：

PR_new＝C_u*PR_old

其中，PR_old为第一次计算得到的网页PR值；PR_new为第二次计算得到的网页PR值；

S52、将数据库中的PR值更新。

进一步的，步骤S6具体包括：

S61、将每个网页的PR值由大到小排序；

S62、根据用户需要，得到PR值最大的N个网页。

进一步的，步骤S7具体包括：输出S62得到的得分最高的前N个网页信息。

本发明还提供另一种技术方案：一种基于PageRank算法的医疗数据爬取系统，其包括：

关键词输入单元：用户根据需要输入要爬取的医疗关键词；

因子计算单元：计算网页时间因子及潜在相关性因子；

第一轮PR值计算单元：计算得到第一轮PR值，并临时存入数据库中；

权重计算单元：对各网页中的超链接进行权重计算；

第二轮PR值计算单元：计算得到第二轮PR值，并更新数据库；

PR值大小比较单元：比较PR值大小，用户根据需要获取PR值最大的N个网页；

网页输出单元：输出PR值最大的N个网页。

作为上述医疗数据爬取系统的补充，所述的权重计算单元中，

对于每个的网页Q_u都定义一个链接权重C_u，u＝1，2，3...n，假设每个链接的位置信息定义为D_i，根据D_i计算得到每个链接的权重C_i，计算公式如下：

式中，N表示当前网页中的链接数目；

式中，N表示当前网页中的链接数目。

医疗数据爬取算法，旨在能够根据种子网页及关键词快速、准确的查询出互联网中与关键词相关的医疗数据网页。本发明提供一种基于PageRank医疗数据爬取方法。与已有工作相比，本发明具有的有益效果主要在于以下几个方面：

(1)计算PR值过程中增加了时间因子，利用了网页的时效信息，有效的解决了传统算法偏重旧网页的缺点，可以更准确的爬取时效性较好的网页数据；

(2)本发明增加了潜在相关性因子，利用了网页中链接及其上下文的文本信息，可以有效解决传统算法易产生主题漂移的现象；

(3)本发明增加了网页超链接权重，根据网页中链接的位置判断是否为综合性网页，并降低综合性网页的PR值，解决传统算法偏重综合性网页的缺点，更准确的爬取医疗数据相关网页。

本发明是基于传统PageRank算法实现的，并根据医疗数据网页专业性强、主题鲜明、数据时间跨度大等特点增加了时间因子、潜在相关性因子和网页超链接权重三项影响因素，对PR值进行修正。本发明能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷，可以高效、准确的爬取医疗数据网页。

附图说明

图1为本发明基于PageRank算法的医疗数据爬取方法的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

实施例1

本实施例提供一种基于PageRank算法的医疗数据爬取方法，主要对传统PageRank算法中PR值的计算方式进行了改进，考虑了网页中更多的信息，使得网页评分更加准确，并且适用于医疗数据的爬取。

首先，本发明需要对基于PageRank算法的医疗数据爬取方法中使用的变量作出说明。使用的变量如下：

T_u：时间因子；

T_time：距离最近网页更新的时间间隔；

T_number：最近下载的网页文件的数量；

T_download：最近下载网页的时间间隔；

current_url：当前链接；

inherited(current_url)：current_url从父链接继承得到的分数；

neighborhood(current_url)：current_url周围的文本与关键字之间的相关性；

α，β，γ：小于1的衰减因子；

parent_url：current_url的父链接；

anchor_text：链接上下文；

C：关键词；

PR_old：第一次计算得到的网页PR值；

d：阻尼系数；

μ：相关性阈值；

C_i：第i个链接的权重；

D_i：第i个链接在网页中的位置；

C_u：第u个网页的权重；

PR_new：第二次计算得到的网页PR值。

依据上述定义的变量，下面结合图1详细阐述本发明的技术方案。

如图1所示，一种基于PageRank算法的医疗数据爬取方法，各步骤描述如下：

S1、用户根据需要输入要爬取的医疗关键词；

S2、计算网页时间因子及潜在相关性因子；

S3、计算得到第一轮PR值，并临时存入数据库中；

S4、对各网页中的超链接进行权重计算；

S5、计算得到第二轮PR值，并更新数据库；

S6、比较PR值大小，用户根据需要获取PR值最大的N个网页；

S7、输出PR值最大的N个网页。

步骤S1具体包括：S11、用户根据爬取需要，自行设定关键词C。

步骤S2具体包括：

S21、计算网页的时间因子T_u，计算公式如下：

S22、计算潜在相关性因子P_u，计算公式如下：

P_u＝α*inherited(current_url)+(1-α)*neighborhood(current_url)

其中，β为小于1的衰减因子，parent_url为current_url的父链接；score(C，parent_url)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分；inherited(parent_url)表示parent_url从其父节点继承得到的分数，，μ为相关性阈值；

neiborhood(current_url)代表当前链接周围的文本与关键词之间的相关性，其计算公式如下：

neiborhood(current_url)

＝γ*ln(score(C，anchor)+1)+(1-γ)*ln(score(C，anchor_text)+1)

步骤S3具体包括：

步骤S4具体包括：

式中，N表示当前网页中的链接数目；

式中，N表示当前网页中的链接数目。

步骤S5具体包括：

S51、计算第二轮PR值大小，计算公式如下：

PR_new＝C_u*PR_old

S52、将数据库中的PR值更新。

步骤S6具体包括：

S61、将每个网页的PR值由大到小排序；

S62、根据用户需要，得到PR值最大的N个网页。

步骤S7具体包括：输出S62得到的得分最高的前N个网页信息。

实施例2

本实施例提供一种基于PageRank算法的医疗数据爬取系统，其包括：

关键词输入单元：用户根据需要输入要爬取的医疗关键词；

因子计算单元：计算网页时间因子及潜在相关性因子；

权重计算单元：对各网页中的超链接进行权重计算；

第二轮PR值计算单元：计算得到第二轮PR值，并更新数据库；

网页输出单元：输出PR值最大的N个网页。

所述的关键词输入单元中，用户根据爬取需要，自行设定关键词C。

所述的因子计算单元包括：

1)时间因子计算单元，计算网页的时间因子T_u，计算公式如下：

2)相关性因子计算单元，计算潜在相关性因子P_u，计算公式如下：

P_u＝α*inherited(current_url)+(1-α)*neighborhood(current_url)

其中，β为小于1的衰减因子，parent_url为current_url的父链接；score(C，parent_url)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分；inherited(parent_url)表示parent_url从其父节点继承得到的分数，μ为相关性阈值；

neiborhood(current_url)

＝γ*ln(score(C，anchor)+1)+(1-γ)*ln(score(C，anchor_text)+1)

所述的第一轮PR值计算单元中，根据PageRank算法计算原始PR值，将时间因子和潜在相关性因子作为系数求得网页的第一轮PR值，计算公式如下：

所述的权重计算单元中，

式中，N表示当前网页中的链接数目；

式中，N表示当前网页中的链接数目。

所述的第二轮PR值计算单元，计算第二轮PR值大小，计算公式如下：

PR_new＝C_u*PR_old

其中，PR_old为第一次计算得到的网页PR值；PR_new为第二次计算得到的网页PR值；将数据库中的PR值更新。

所述的PR值大小比较单元中，将每个网页的PR值由大到小排序；根据用户需要，得到PR值最大的N个网页。

所述的网页输出单元，输出PR值大小比较单元中得到的网页信息，即PR值最大的N个网页。

实施例3

本发明设定4个搜索关键词c₁，c₂，c₃，c₄，作为输入传入算法中，查看两轮计算的PR值和返回的url集合。

S11、设定4个搜索关键词c₁，c₂，c₃，c₄。

S21、根据搜索关键词爬取到4个url集合U₁，U₂，U₃，U₄，对每个集合中的url链接U_ij，i＝{1，2，3，4}，j＝{1，2，...，n}根据时间因子计算公式计算时间因子

S22、对于url集合中的某个链接U_ij，其父节点为计算当前链接父链接继承的潜在分数inherited(U_ij)，计算父链接文本与关键词c的相关性分数计算url链接文本与上下文之间的相关性分数neiborhood(U_ij)，最后计算得到U_ij的潜在相关性因子

S31、计算得到每个网页的第一轮PR值，计算公式如下：

将结果存入数据库中。

S41、对于每个的网页U_ij，i＝{1，2，3，4}，j＝{1，2，...，n}都定义一个链接权重C_u，可根据网页中链接位置信息D_x计算得到每个链接的权重计算公式如下：

根据每个链接的权重可以计算得到网页的链接权重系数C_u，计算公式如下：

S51、计算第二轮PR值，

S52、将数据库中的PR值更新。

S61、针对每个集合U₁，U₂，U₃，U₄，对其中每个网页的PR值由大到小排序

S62、根据用户需要，得到每个关键词C条件下PR值最大的10个网页得到结果集合：

对于关键词c₁，结果为Q₁＝{U_1，3，U_1,6，U_1，10，U_1,14，U_1，23，U_1，25，U_1,26，U_1,31，U_1，45，U_1,55}，

对于关键词c₂，结果为Q₂＝{U_2，1，U_2，6，U_2，14，U_2，16，U_2，19，U_2，22，U_2,29，U_2，45，U_2，66，U_2，72}，

对于关键词c₃，结果为Q₃＝{U_3,7，U_3，16，U_3,22，U_3,37，U_3，38，U_3，55，U_3，58，U_3,64，U_3,66，U_3，78}，

对于关键词c₄，结果为Q₄＝{U_4，2，U_4，5，U_4，12，U_4，29，U_4，33，U_4，44，U_4，53，U_4，57，U_4，68，U_4，80}。

S71、返回S62得到的得分最高的前N个网页信息。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.一种基于PageRank算法的医疗数据爬取方法，其特征在于，包括步骤：

S1、用户根据需要输入要爬取的医疗关键词；

S2、计算网页时间因子及潜在相关性因子；

S3、计算得到第一轮PR值，并临时存入数据库中；

S4、对各网页中的超链接进行权重计算；

S5、计算得到第二轮PR值，并更新数据库；

S6、比较PR值大小，用户根据需要获取PR值最大的N个网页；

S7、输出PR值最大的N个网页。

2.根据权利要求1所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S1具体包括：S11、用户根据爬取需要，自行设定关键词C。

3.根据权利要求2所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S2具体包括：

S21、计算网页的时间因子T_u，计算公式如下：

S22、计算潜在相关性因子P_u，计算公式如下：

P_u＝α*inherited(current_url)+(1-α)*neighborhood(current_url)

neiborhood(current_url)＝γ*ln(score(C，anchor)+1)+(1-γ)*ln(score(C，anchor_text)+1)

4.根据权利要求3所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S3具体包括：

其中，PR_old为第一次计算得到的网页PR值；d为阻尼系数；PR(M_i)表示网页M_i的原始页面排序分数；S(M_i)表示网页M_i的链出页面数目；n表示链入当前网页的网页数目；将计算结果存储到数据库中。

5.根据权利要求1-4任一项所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S4具体包括：

式中，N表示当前网页中的链接数目；

式中，N表示当前网页中的链接数目。

6.根据权利要求5所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S5具体包括：

S51、计算第二轮PR值大小，计算公式如下：

PR_new＝C_u*PR_old

S52、将数据库中的PR值更新。

7.根据权利要求6所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S6具体包括：

S61、将每个网页的PR值由大到小排序；

S62、根据用户需要，得到PR值最大的N个网页。

8.根据权利要求7述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S7具体包括：输出S62得到的得分最高的前N个网页信息。

9.一种基于PageRank算法的医疗数据爬取系统，其特征在于，包括：

关键词输入单元：用户根据需要输入要爬取的医疗关键词；

因子计算单元：计算网页时间因子及潜在相关性因子；

权重计算单元：对各网页中的超链接进行权重计算；

第二轮PR值计算单元：计算得到第二轮PR值，并更新数据库；

网页输出单元：输出PR值最大的N个网页。

10.根据权利要求9所述的一种基于PageRank算法的医疗数据爬取系统，其特征在于，所述的权重计算单元中，

式中，N表示当前网页中的链接数目；

式中，N表示当前网页中的链接数目。