CN103226578A

CN103226578A - 面向医学领域的网站识别和网页细分类的方法

Info

Publication number: CN103226578A
Application number: CN2013101134545A
Authority: CN
Inventors: 陈德人; 林臻; 郑小林; 郭华; 邓志豪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-04-02
Filing date: 2013-04-02
Publication date: 2013-07-31
Anticipated expiration: 2033-04-02
Also published as: CN103226578B

Abstract

本发明涉及互联网搜索技术，旨在提供一种面向医学领域的网站识别和网页细分类的方法。该方法是从现有网站中提取医学分类主题词库的算法，以及将网站及网页根据分类主题词库进行打分，并根据打分结果进行分类的算法。打分算法根据网页的内容特征，不过分依赖词频。这种训练医学数据得到词库、并使用训练好的数据打分的分类算法也是关键点。本发明先从全网中提取医药相关的网站，然后将这些网站中的网页进行分类，从中提取出包括各类网页。本发明能够快速的判断医药相关网站属于某一个分类，具有计算简单，计算速度快，准确度高等优点。相较于同类的方明，本发明的算法不会受到网页中高频词的影响，也不会受限于特定的网页html写法。

Description

面向医学领域的网站识别和网页细分类的方法

技术领域

本发明涉及互联网搜索技术，特别涉及一种面向医学领域的网站识别和网页细分类的方法。

背景技术

通用搜索引擎功能越来越丰富，它给人们提供了很多便利，但是当用户需要某一特定领域的答案时，搜索结果常常看似相关度高实际上不能满足用户需求。于是垂直搜索引擎应运而生，相比通用搜索引擎的海量信息，垂直搜索引擎显得更加专注、具体和深入。不同领域的网页数据是有着千差万别的，互联网中不同领域的数据结构存在很大的不同，要针对各个不同领域的网页设计统一的垂直搜索引擎是很复杂的。

很多用户需要查询某些疾病的特征以及治疗方法、某些药物的治疗功能以及特性、某些医生的名望以及信息等，医学垂直搜索引擎在这些方面返回的结果应该比通用搜索更加合理和深入，为了实现这个目标，就需要在网页抓取和建立索引的过程中识别出医学类的网站，并且能够进一步把网页分类为医生页面，疾病页面，药品页面等等。本发明要解决的技术问题是如何从全网中提取出医药相关的网页，并且进一步细分出具体的医生、疾病、药品以及新闻领域的网页，这样可以极大地提高搜索引擎在医学领域方面检索的精确性与实用性。

一个通用的搜索引擎系统一般由网络爬虫、分词模块、索引模块、查询模块几部分组成，它的主要工作流程是：首先从网络爬虫开始抓取URL服务器指定的网页，将其存入文档数据库，并将当前页上的所含超链接存入到URL服务器中。在进行抓取的同时，分词模块和索引模块将已经抓取的网页文档进行分词处理，计算词的权值，然后将分词结果存入索引数据库。用户提交查询时，查询模块首先对用户输入的信息进行分词处理，并检索出所有包含检索词的记录，通过计算网页权重和级别对查询结果进行排序，最后从文档数据库中提取各网页的摘要信息反馈给查询用户。

由于整个网络的规模太大，通用搜索引擎开始暴露出了一些问题，比如覆盖率低，时效性差，结果不准确，过于死板等等，于是出现了一些更加智能化、个性化和专业化的搜索，垂直搜索引擎就是其中的一种。

垂直搜索引擎面向特定领域，专注于自己的特长，保证了对该领域信息的完全收录与及时更新。与通用搜索引擎不同，垂直搜索的目标是尽可能多的搜集与该主题相关的网页。专业网络爬虫抓取到的网页如果与预定义主题相关，就做进一步的处理；如果不相关，则抛弃该网页。这样处理的结果是，系统最终只索引了Web上所有网页中的一部分，也就是与预定义主题相关的网页。这样处理的好处是可以节省大量的存储空间和具有较高的更新频率，而且对用户而言，如果用户对该主题感兴趣，那么系统在该领域的信息应该是最详尽、最专业的。

面向医学领域的垂直搜索引擎的主要目标是满足用户对医学知识、资讯等方面的检索，比如查询疾病症状，治疗手段，药品以及具有此方面优势的医院等等。为了完成这一功能，我们就需要在网页采集时区分网页所属的类别是否属于医学领域，进一步的，属于医学中的哪个子领域，在建立索引及显示时按照其所属的医院、医生、疾病、药品等等类别进行个性化的操作。所以网页分类是垂直搜索中的一个关键性的技术。

目前的网页分类技术大多是围绕词频、分析网页地址、根据摘要信息等方法做一些变化来进行研究的。以词频为基础来进行网页相关性的判别有很多不足，比如很多普通词语出现的频率很高但其实并不重要，而有一些很少出现的词语往往是文章内容的重点；分析网页地址的方法更是很有局限性，因为网页的网址主要用来标示网页的位置，并不直接反应网页的内容，虽然存在一些内容相似并且网页网址也很相似的网页，但互联网海量的网页中，内容相近网址不相似的例子太多了；而根据摘要的方法大多是依靠网页编辑者在网页meta信息中填的类别等关键词信息来网页分类，这主要依靠良好的网页，但很多缺乏此类信息的网页也需要分类，那这类方法就没有办法解决了。

同时，现有的技术虽然很多都是有关于一般化的网页分类的，虽然一般化的方法照顾的比较全面，但其实不同领域的网页内容有很大差距，根据这些内容上的差距我们可以开发一些启发式的方法。比如医药类的网页可能很多是介绍药物、医生、疾病的，而体育类的网页大多数是新闻，经贸方面的网页大多数是广告，要针对这些不同的领域提取出一个统一的网页分类方法略有牵强。所以现有的网页分类技术在不同领域下的分类效果不尽相同。就算分类出医学领域相关的网站，也不能细分到具体的医生、疾病、药品和新闻的类别。

目前关于网页分类的研究成果很多，采用的方法也很广泛。传统的网页分类方法有支持向量机SVM（support vector machine）方法、朴素贝叶斯NB（Naive Bayesian）方法、神经网络NN（Neural Network）方法、K近邻KNN（k-Nearest Neighbor algorithm）方法、决策树（Decision Tree）方法等，这些都是机器学习领域的技术，广泛适用于一般的网页分类。更一般化的分类方法有基于关键词词频的网页分类算法、根据网页摘要分类算法、基于网址进行网页分类算法等。但是要实现医学类网站中如医生，药品，疾病和新闻的详细分类，上述方案均不能很好的完成。

与本发明最相近似的实现方案有下面几种，中国发明专利申请：“基于关键词频度分析的中文网页分类方法”（申请号：200910031625.3）、中国发明专利申请“一种基于云语义库的网页审计方法”（201010000496.4）、“基于垂直搜索和聚焦爬虫的网页分类计数”（200910025724.0）。

发明1（基于关键词频度分析的中文网页分类方法）提出了一种基于关键词频度分析的中文网页分类方法。其特点是根据所分析出的中文网页的关键词，依照中文分类主题词库进行中文网页分类模糊匹配。通过提取、过滤和去噪音步骤的网页中文文本，再通过关键词频度分析器对文本关键词进行提取，并按照关键词权重对关键词进行排序录入分类主题词库数据表。通过对比网页关键词表与分类主题词库的相关性，分析出该网页的分类。如果网页中出现高频的非关键词，比如某个人名或者某个地点，将会大大影响网页分类的结果。并且它的初始分类是根据中图分类法得到，缺乏灵活性，并不适合医学领域的分类。

发明2（基于云语义库的网页审计方法）在实现网页审计这一目的的过程中，提出了一种以云语义库衡量标准的网页分类方法。其思路首先是按要求分类，建立每一分类的核心词库、非核心词库、停用词库以及出错词库，将已分类网页进行语义分析，通过一系列判定将特定比例的词放入对应分类的词库里，从而建立云语义库。在进行网页分类时，将网页内容进行词频统计，取高频词以及其词频发送到云平台下遍历分类语义库，匹配词频统计之和最大的分类语义库即为对应的网页分类。它的不足同样在于过分依赖词频，如果网页中出现某些主题不相关的高频词，那么很影响分类结果。

发明3（基于垂直搜索和聚焦爬虫的网页分类技术）通过研究发现同一个导航网站上各个分类的子目录页面有着很相似的结构，可以用正则表达式来概括页面的结构化信息，通过模式学习找到这些正则表达式指导聚焦爬虫抓取与分类相关的网页，即实现网页与分类的对应——网页分类。它的方法更加不适用于医学领域，首先，它针对网页结构使用某一类结构的正则表达式，但是网页内容和网页结构并不存在一种对应关系，网页内容通常是编辑书写，网页结构通常是程序员书写，并且在网页设计领域并不存在一种什么结构对应什么内容的约定，网页结构千差万别，而每种结构的网页的正则表达式都需要人手工去编写，耗时耗力，并且这些正则表达式限制了爬虫的规模；其次，它在抽取链接的时候也使用了正则表达式，但是单从链接的角度很难分辨出网页的内容，比如，“cncn”是旅游网站，可单从字面看“cncn”和“旅游”并无关系，再比如“baidu”是搜索网站，它在字面上与“search”或者“sousuo”也无关系。

上面三个专利虽然都能在一定程度上对网页进行分类，但是要适用到医学领域，它们存在如下的不足：

1、过分依赖词频。但在医学领域词频不一定起了决定性作用，比如一篇介绍感冒的文章，可能只在标题处写了感冒一词；介绍医生的文章，大量出现的可能是这个医生的名字而不是医生领域的描述词汇；

2、依赖于网页结构。网页结构和网页内容之间并无明显的对应关系，并且在医学领域不同的分类主要是内容上的不同。比如都是标题，内容结构的网页，可能用来介绍疾病，也可能用来介绍医生。

发明内容

本发明要解决的问题是，克服现有技术中的不足，提一种面向医学领域的网站识别和网页细分类的方法。为解决技术问题，本发明的解决方案是：

提供一种面向医学领域的网站识别方法，是从全网提取医药相关的网站，具体包括以下步骤：

（一）获得综合类网站的词语集合

（1）从全网中抓取非医药相关的综合类网页；

随机选取五个综合类门户网站，使用爬虫抓取每个网站的网页；抓取网页的总个数在四十至五十万，设定从单个网站抓取的网页数量上限为30万；

（2）对提取到的网页内容进行分词，记录分词结果以及对应词频，归纳出综合类网站的词语集合，记为T_all；

（二）获得医药类网站的词语集合

（1）从全网中抓取医药相关的网页；

选取五个医药类专业门户网站，使用爬虫抓取每个网站的网页；抓取网页的总个数在四十至五十万，设定从单个网站抓取的网页数量上限为30万；

（2）对提取到的网页内容进行分词，记录分词结果以及对应词频，归纳出医药类网站的词语集合，记为T_medical-all；

（三）获得医药特征主题词库

（1）医药类网站的词语集合里包含医药类特征主题词和非特征主题词，即

T_medical-all=T_medical∪T_not

其中T_medical表示医药类的主题词库，T_not表示在医药类网站词语集合中的不属于医药类词语的集合

（2）提取医药类主题词库T_medical

词库中词的关系满足下面的公式：

T_not＝T_all∩T_medical-all

T_medical=T_medical-all-T_not

T_medical=T_medical-all-T_all∩T_medical-all

根据上边的公式，整个算法首先遍历医药类网站的词语集合T_medical-all，然后从中剔除同时存在于综合类特征词库T_all的词，剩余的词汇便是医药特征主题词库T_medical ；

（四）根据特征主题词集合判定网站是否与医药相关

（1）假定一个网站，用S表示，其所有页面表示为{P₁,P₂,P₃,…,P_n}；其中P₁表示抓取到的第一个页面，P₂表示抓取到的第二个页面,P_i表示抓取到的第i个页面，n是网页的个数；

（2）使用下面的公式计算任意页面P_i的医药相关度分值，用Score_pi表示：

{Score}_{P_{i}} = \frac{T_{P_{i}} \cap T_{medical}}{T_{P_{i}}}

式中，T_pi是页面P_i的分词集合；

（3）使用下面的公式计算该网站的医药相关度分值，用Score_s表示

{Score}_{S} = \frac{Σ_{i = 1}^{n} {Score}_{P_{i}}}{n}

；

（4）判定该网站S是否医药相关

（a）确定医药类网站的阈值，记为F_{medical-website}；

首先从医学导航网http://www.meddir.cn/的链接网址中随机的找一个网站，记为ms1，按照（四）中步骤（1）至（3）计算出此网站的医药相关度分值，记为Score-ms1；重复这个过程50次，得到分值数组{Score-ms1,Score-ms2,…,Score-ms50}；计算平均值，并记为Score-ms；

然后从好123网站http://www.hao123.com/的链接网址中中随机的找一个网站，记为gs1，按照（四）中步骤（1）至（3）计算出此网站的医药相关度分值，记为Score-gs1；重复这个过程50次，得到分值数组{Score-gs1,Score-gs2,…,Score-gs50}；计算平均值，并记为Score-gs；

阈值F_{medical-website}= (Score-ms – Score-gs)/2，即两者的中间值；

（b）若Score_s高于相关度阈值F_{medical-website}，则网站S为医药相关网站；反之，则网站S不是医药相关网站。

本发明中，在获得综合类网站词语集合或医药类网站词语集合时，其具体步骤为：

a、首先过滤HTML网页中的代码，即把网页中的所有<script>标签以及<style>标签中的部分删除；然后过滤HTML标签，即过滤所有能够匹配正则表达式<.*?>的内容；

b、过滤所有的非中文字母和符号，然后使用ICTCLAS分词器对剩余的部分进行分词，记录所有词的词频；

c、计算出词频的平均值μ和标准差σ，词频的分布满足正态分布N（μ，σ）；取词频在（μ-σ，μ+σ）区间内的词作为网站的词语集合。

本发明中，在从全网中抓取非医药相关的综合类网页时，其步骤（1）中所选取的五个综合类门户网站为：新浪网www.sina.com.cn、网易www.163.com、腾讯www.qq.com、搜狐www.sohu.com和凤凰网 www.ifeng.com 。

本发明中，在获得医药类网站的词语集合时，其步骤（1）中所选取的五个医药专业门户网站为：丁香园www.dxy.cn、医学论坛网www.cmt.com.cn、中国医学健康网www.sosyao.com、医学教育网www.med66.com和中华医学会网www.cma.org.cn 。

本发明进一步提供了基于前述方法的面向医学领域的网页细分类的方法，是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页，其具体步骤为：

（一）获得各分类网站的词语集合

（1）列举出医生、疾病、药品、新闻四种类别的网站集合，其中：

医生类包括：

http://ysk.39.net/39健康网好医生、http://haodf.health.sohu.com/搜狐健康、http://ysk.99.com.cn/99健康网医生、http://www.120.net/yisheng/120健康网医生；

疾病类包括：

http://dise.health.sohu.com/搜狐疾病、http://jbk.39.net/39健康网查疾病、http://jbk.99.com.cn/99健康网疾病、http://www.haodf.com/jibing/neike/list.htm好大夫在线疾病库；

药品类包括：

http://ypk.39.net/39健康网找药品、http://ypk.familydoctor.com.cn/家庭医生在线药品、http://drug.health.sohu.com/搜狐药品、http://yaopin.qqyy.com/全球医药网药品；

新闻类包括：

http://news.39.net/39健康网新闻、http://news.99.com.cn/99健康网新闻、http://news.familydoctor.com.cn/家庭医生在线新闻、http://health.sohu.com/jiankangxinwen.shtml搜狐健康的新闻频道；

（2）对于不同分类网站，分别提取其中所有网页的内容，并进行分词，整理出各自的词库，分别记为T_doctor-all(医生类词库)、T_disease-all(疾病类词库)、T_drug-all(药品类词库)、T_news-all(新闻类词库)；

（二）获得各分类特征词集合；

（1）各分类网站的词语集合里包含各分类特征主题词和非特征主题词，以医生类为例，即医生类网站的词语集合满足下面的公式约束条件：

T_doctor-all=T_doctor+T_not-doctor

T_not-doctor=∪(T_doctor-all∩T_i)

i∈{disease-all,drug-all,news-all} (含义为Ti可以取T_disease-all，T_drug-all，T_news-all，即上述4个词库中，除去T_doctor的三个词库。后文直接使用，不再说明。)

上式中，_，T_doctor为医生类的特征主题词_， T_{not_doctor,}为非医生类的特征主题词；

（2）获得非特征主题词集合和特征主题词集合T_doctor

遍历医生类词库，针对每个词查看其是否在疾病或者药品或者新闻的词库中出现，如果出现则属于非特征主题词，就移除这个词；执行完这个遍历过程之后剩下的词就是医生类的特征主题词的集合，即仅仅出现在医生类中的词，记为T_doctor；

（3）分别用疾病类、药品类、新闻类网站替换步骤（2）中的医生类网站，重复这个过程，分别获得疾病类、药品类、新闻类的分类特征词集合，分别记为T_disease、T_drug、T_news；

（三）根据各分类特征词集合识别医生、疾病、药品、新闻四类网页

（1）给定一个医学类的网站S，对于其中的任意网页P_i，获得其关于各分类的相关度分值；

（a）计算网页P_i与医生类的相关度值：

过滤网页P_i中的HTML代码、HTML标签、所有的非中文字母和符号，之后使用中科院的ICTCLAS分词器对剩余的部分进行分词，分词结果就是该网页的词集合，记为T_pi；

那么该网页关于医生类的相关度分值就是这个网页中的所有属于医生类词库的词占所有词的比例，记为Score_pi，doctor，用公式表示为：

{Score}_{P_{i}, doctor} = \frac{T_{P_{i}} \cap T_{doctor}}{T_{P_{i}}}

计算过程：遍历T_pi，找到所有存在于医生类中的词的个数，用这个数除以当前网页的词的数量，商的结果就是该网页关于医生类的分值；

（b）依次类推，分别得到Score_pi,doctor、Score_pi，disease、Score_pi，drug、Score_pi，news,分别代表该网页中所有属于医生、疾病、药品、新闻四类词占所有词的得分；

（2）识别该网页的分类；

（a）经计算后网页P_i相关度分值最高的分类就是该网页的分类；

（b）若各相关度值相同，则标记该网页为默认的新闻类。

本发明中，在获得各分类网站的词语集合时，所述步骤（2）包括：

与现有技术相比，本发明的有益效果是：

本发明能够快速的判断医药相关网站属于某一个分类，具有计算简单，计算速度快，准确度高等有点，相较于同类的方明，本发明的算法不会受到网页中高频词的影响，也不会受限于特定的网页html写法。

附图说明

图1为本发明算法整体流程；

图2为医药类网站判断算法示意图；

图3为网页细分类算法示意图。

具体实施方式

本发明的关键点在于：

本发明解决方案的整体框架包括先对网站进行粗分，再进行小类细分的整体流程，只有这一整套流程才能够保证分类的实现，流程中的每一步都不可以改变。

本发明的整体框架中，从现有网站中提取医学分类主题词库的算法，以及将网站及网页根据分类主题词库进行打分，并根据打分结果进行分类的算法。打分算法根据网页的内容特征，不过分依赖词频。这种训练医学数据得到词库、并使用训练好的数据打分的分类算法也是关键点。

本发明主要是分两步，如图1所示，先从全网中提取医药相关的网站，然后将这些网站中的网页进行分类，从中提取出包括但不限于医生、疾病、药品、新闻等四类网页。

面向医学领域的网站识别方法，是从全网提取医药相关的网站，具体包括以下步骤：

（一）获得综合类网站的词语集合

（1）从全网中采集非医药相关的综合类网页；

这一步使用web采集器，也就是网络蜘蛛下载网页的内容。

随机选取的网站为国内比较大的五个门户网站：新浪（www.sina.com.cn），网易（www.163.com），腾讯（www.qq.com），搜狐（www.sohu.com）和凤凰网（ www.ifeng.com），使用爬虫抓取每个网站的网页（设定从单个网站抓取的网页数量上限为30w）。

这一步是准备工作，目的是获取一些综合类的网页，所以在网站的选取方面自由度比较大，只要是综合类的网站均可，但为了保证效果，网页的总个数应该在四五十万左右。

（2）提取其中所有网页的内容，并进行分词，记录分词结果以及对应词频，归纳出综合类网站特征词集合，记为T_all；

在这一步中，首先过滤HTML网页中的代码，即把网页中的所有<script>标签以及<style>标签中的部分删除，然后过滤HTML标签（即所有能够匹配正则表达式<.*?>的内容）。

过滤所有的非中文字母和符号，之后使用ICTCLAS分词器（Instituteof Computing Technology, Chinese Lexical Analysis System，中科院汉语分词器，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典等）对剩余的部分进行分词，记录所有词的词频。

计算出词频的平均值μ和标准差σ，词频的分布满足正态分布N（μ，σ），因为词频太高的词汇可能是停用词（也就是没有什么实际意义的词汇），词频太低可能是在报道某一领域中偶然涉及的词汇，所以取词频在（μ-σ，μ+σ）区间内的词作为综合类网站的特征词库，根据统计学理论可知这部分词占了全部词汇的大部分（68.268949%）。此特征词库记为T_all。

（二）获得医药类网站的词语集合

（1）从全网中抓取医药相关的网页；

选取的网站为：丁香园（www.dxy.cn），医学论坛网（www.cmt.com.cn），中国医学健康网（www.sosyao.com），医学教育网（www.med66.com），中华医学会网（ www.cma.org.cn），使用爬虫抓取每个网站的网页（设定从单个网站抓取的网页数量上限为30w）。这一步也是准备工作，目的是获取一些医药类的网页，所以在网站的选取方面自由度也比较大，只要是医药类的网站均可，但为了保证效果，网页的总个数应该在四五十万左右。

（2）提取其中所有网页的内容，并进行分词，记录分词结果以及对应词频，归纳出综合类网站特征词集合T_medical-all，和前边的步骤类似，先过滤HTML网页中的代码，然后过滤HTML标签，过滤所有的非中文字母和符号，之后使用中科院的ICTCLAS分词器对剩余的部分进行分词，记录所有词的词频。计算出词频的平均值μ和标准差σ，词频的分布满足正态分布N（μ，σ），取词频在（μ-σ，μ+σ）区间内的词作为综合类网站的特征词库。此特征词库记为T_medical-all。

（三）获得医药特征主题词库

(1)医药类网站的词语集合里包含医药类特征主题词和非特征主题词，即

T_medical-all=T_medical∪T_not

(2)提取医药类主题词库T_medical

词库中词的关系满足下面的公式：

T_not＝T_all∩T_medical-all

T_medical=T_medical-all-T_not

T_medical=T_medical-all-T_all∩T_medical-all

根据上边的公式，整个算法首先遍历医学类特征词库T_medical-all，然后从中剔除同时存在于综合类特征词库T_all的词，剩余的词汇便是医学类的特征词库T_medical。

（四）根据特征主题词集合判定网站是否医药相关

（1）给定一个网站S，其所有页面表示为{P₁,P₂,P₃,…,P_n}

其中P₁表示抓取到的第一个页面，P₂表示抓取到的第二个页面,P_i表示抓取到的第i个页面，n表示网页的总数目

（2）计算出任意页面P_i的医药相关度分值，记为Score_pi，其中，T_pi是该页面的分词集合；

{Score}_{P_{i}} = \frac{T_{P_{i}} \cap T_{medical}}{T_{P_{i}}}

即首先找出网页分词集合中的存在于医学类词库T_medical的词集合，然后用这个集合的词的数目除以这个网页中所有词的数目，商就是当前网页的医药相关度分值，用Score_pi表示。

（3）根据如下公式计算该网站的医药相关度分值，用Score_s表示

{Score}_{S} = \frac{Σ_{i = 1}^{n} {Score}_{P_{i}}}{n}

由公式可知，整个网站的分值就是所有页面分值的平均值。

（4）判定该网站S是否医药相关

（a）确定阈值，记为F_{medical-website}；

首先从医学导航网（www.meddir.cn/）中随机的找一个网站，记为ms1，按照（四）中（1）（2）（3）的算法，计算出此网站的医药相关度分值，记为Score-ms1。

重复这个过程50次，这样我们就有了一个大小为50的分值数组{Score-ms1,Score-ms2,…,Score-ms50}。计算这些值的平均值，记为Score-ms；

然后从好123（www.hao123.com/）中随机的找一个网站，记为gs1，按照（四）中（1）（2）（3）的算法，计算出此网站的医药相关度分值，记为Score-gs1。

重复这个过程50次，这样我们就有了一个大小为50的分值数组{Score-gs1,Score-gs2,…,Score-gs50}。计算这些值的平均值，记为Score-gs；

F_{medical-website}= (Score-ms – Score-gs)/2，即两者的中间值。

（b）若Score_s高于相关度阈值F_{medical-website}，则网站S为医药相关网站；

（c）反之，则S不是医药相关网站。

作为面向医学领域的网页细分类的方法，是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页，其具体步骤为：

（一）获得各分类网站的词语集合

（1）从全网中人工找出各分类（医生类、疾病类、药品类、新闻类）网站；

选取的各类结果列表如下：

（2）对于不同分类网站，分别提取其中所有网页的内容，并进行分词，整理出各自的词库，记为T_doctor-all(医生类词库)、T_disease-all(疾病类词库)、T_drug-all(药品类词库)、T_news-all(新闻类词库)；

这一过程使用的算法和前面提取综合类网站词库以及医学类网站词库的算法一样，所以不做赘述。

（二）获得各分类特征词集合，下面以医生类举例，其余各类的方法和此方法一致：

（1）跟综合类网站、医院类网站的初步提取结果一样，各分类网站的词语集合里包含各分类特征主题词和非特征主题词，以医生类为例，即医生类网站的词语集合满足下面的公式约束条件：

T_doctor-all=T_doctor+T_not-doctor

T_not-doctor=∪(T_doctor-all∩T_i)

i∈{disease-all,drug-all,news-all}

(含义为Ti可以取T_disease-all，T_drug-all，T_news-all，即上述4个词库中，除去T_doctor的三个词库。后文直接使用，不再说明。)

（2）获得非特征主题词集合和特征主题词集合T_doctor。

所谓非特征主题词，是指不单单在某一个主题中出现的词，具体来说，就是同时出现在其他任意一个分类中的词。遍历医生类词库，针对每个词查看其是否在疾病或者药品或者新闻的词库中出现，如果出现则属于非特征主题词，就移除这个词，执行完这个遍历过程之后剩下的词就是医生类的特征主题词的集合，即仅仅出现在医生类中的词，记为T_doctor。

（3）分别用疾病类、药品类、新闻类替换上边步骤（2）中的医生类，重复这个过程，分别获得疾病类、药品类、新闻类的分类特征词集合，分别记为T_disease、T_drug、T_news；

（1）给定一个判断为医学类的网站，用S表示，对于其中的任意网页，用P_i表示，获得其关于各分类的相关度分值；

还是以医生类为例子说明这个过程，其余的各类所使用的方法均一致。

（a）计算网页P_i与医生类的相关度值：

在这一步中，首先过滤此网页中的HTML代码，即把网页中的所有<script>标签以及<style>标签中的部分删除，然后过滤html标签（即所有能够匹配正则表达式<.*?>的内容）。

过滤所有的非中文字母和符号，之后使用中科院的ICTCLAS分词器对剩余的部分进行分词，分词结果就是这个网页的词集合，记为T_pi。

那么这个网页关于医生类的相关度分值就是这个网页中的所有属于医生类词库的词占所有词的比例，记为Score_pi，doctor，用公式表示为：

{Score}_{P_{i}, doctor} = \frac{T_{P_{i}} \cap T_{doctor}}{T_{P_{i}}}

计算过程即遍历T_pi，找到所有存在于医生类中的词的个数，用这个数除以当前网页的词的数量，商的结果就是关于医生类的分值。

（b）依次类推，分别得到Score_pi,，doctor、Score_pi，disease、Score_pi，drug、Score_pi，news；分别代表该网页中所有属于医生、疾病、药品、新闻四类词占所有词的得分；

（2）识别该网页的分类；

（a）相关度分值最高的分类就是该网页的分类；

（b）若各相关度值相同，则标记该网页为默认的新闻类，这里仅仅表示属于医学类网页。

Claims

1.一种面向医学领域的网站识别方法，其特征在于，是从全网提取医药相关的网站，具体包括以下步骤：

（一）获得综合类网站的词语集合

（1）从全网中抓取非医药相关的综合类网页；

（二）获得医药类网站的词语集合

（1）从全网中抓取医药相关的网页；

（三）获得医药特征主题词库

T_medical-all=T_medical∪T_not

其中T_medical表示医药类的主题词库，T_not表示在医药类网站词语集合中的不属于医药类词语的集合；

（2）提取医药类主题词库T_medical

词库中词的关系满足下面的公式：

T_not=T_all∩T_medical-all

T_medical=T_medical-all-T_not

T_medical=T_medical-all-T_all∩T_medical-all

（四）根据特征主题词集合判定网站是否与医药相关

{Score}_{P_{i}} = \frac{T_{P_{i}} \cap T_{medical}}{T_{P_{i}}}

式中，T_pi是页面P_i的分词集合；

{Score}_{S} = \frac{Σ_{i = 1}^{n} {Score}_{P_{i}}}{n}

；

（4）判定该网站S是否医药相关

（a）确定医药类网站的阈值，记为F_{medical-website}；

阈值F_{medical-website}= (Score-ms – Score-gs)/2，即两者的中间值；

2.根据权利要求1所述的方法，其特征在于，在获得综合类网站词语集合或医药类网站词语集合时，其具体步骤为：

3.根据权利要求1所述的方法，其特征在于，在从全网中抓取非医药相关的综合类网页时，其步骤（1）中所选取的五个综合类门户网站为：新浪网www.sina.com.cn、网易www.163.com、腾讯www.qq.com、搜狐www.sohu.com和凤凰网 www.ifeng.com 。

4.根据权利要求1所述的方法，其特征在于，在获得医药类网站的词语集合时，其步骤（1）中所选取的五个医药专业门户网站为：丁香园www.dxy.cn、医学论坛网www.cmt.com.cn、中国医学健康网www.sosyao.com、医学教育网www.med66.com和中华医学会网www.cma.org.cn 。

5.基于权利要求1所述方法的面向医学领域的网页细分类的方法，其特征在于，是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页，其具体步骤为：

（一）获得各分类网站的词语集合

医生类包括：

疾病类包括：

药品类包括：

新闻类包括：

（2）对于不同分类网站，分别提取其中所有网页的内容，并进行分词，整理出各自的词库，分别记为T_doctor-all(医生类词库)、T_disease-all(疾病类词库)、T_drug-all(药品类词库)、T_news-all(新闻类词库)；；

（二）获得各分类特征词集合；

T_doctor-all=T_doctor+T_not-doctor

T_not-doctor=∪(T_doctor-all∩T_i)

i∈{disease-all,drug-all,news-all}

（2）获得非特征主题词集合和特征主题词集合T_doctor

（a）计算网页P_i与医生类的相关度值：

{Score}_{P_{i}, doctor} = \frac{T_{P_{i}} \cap T_{doctor}}{T_{P_{i}}}

（b）依次类推，分别得到Score_pi,doctor、Score_pi，disease、Score_pi，drug、Score_pi，news；,分别代表该网页中所有属于医生、疾病、药品、新闻四类词占所有词的得分；

（2）识别该网页的分类；

（b）若各相关度值相同，则标记该网页为默认的新闻类。

6.根据权利要求5所述的方法，其特征在于，在获得各分类网站的词语集合时，所述步骤（2）包括：