CN103226578A - 面向医学领域的网站识别和网页细分类的方法 - Google Patents

面向医学领域的网站识别和网页细分类的方法 Download PDF

Info

Publication number
CN103226578A
CN103226578A CN2013101134545A CN201310113454A CN103226578A CN 103226578 A CN103226578 A CN 103226578A CN 2013101134545 A CN2013101134545 A CN 2013101134545A CN 201310113454 A CN201310113454 A CN 201310113454A CN 103226578 A CN103226578 A CN 103226578A
Authority
CN
China
Prior art keywords
website
doctor
medical
webpage
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101134545A
Other languages
English (en)
Other versions
CN103226578B (zh
Inventor
陈德人
林臻
郑小林
郭华
邓志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310113454.5A priority Critical patent/CN103226578B/zh
Publication of CN103226578A publication Critical patent/CN103226578A/zh
Application granted granted Critical
Publication of CN103226578B publication Critical patent/CN103226578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网搜索技术,旨在提供一种面向医学领域的网站识别和网页细分类的方法。该方法是从现有网站中提取医学分类主题词库的算法,以及将网站及网页根据分类主题词库进行打分,并根据打分结果进行分类的算法。打分算法根据网页的内容特征,不过分依赖词频。这种训练医学数据得到词库、并使用训练好的数据打分的分类算法也是关键点。本发明先从全网中提取医药相关的网站,然后将这些网站中的网页进行分类,从中提取出包括各类网页。本发明能够快速的判断医药相关网站属于某一个分类,具有计算简单,计算速度快,准确度高等优点。相较于同类的方明,本发明的算法不会受到网页中高频词的影响,也不会受限于特定的网页html写法。

Description

面向医学领域的网站识别和网页细分类的方法
技术领域
本发明涉及互联网搜索技术,特别涉及一种面向医学领域的网站识别和网页细分类的方法。
背景技术
通用搜索引擎功能越来越丰富,它给人们提供了很多便利,但是当用户需要某一特定领域的答案时,搜索结果常常看似相关度高实际上不能满足用户需求。于是垂直搜索引擎应运而生,相比通用搜索引擎的海量信息,垂直搜索引擎显得更加专注、具体和深入。不同领域的网页数据是有着千差万别的,互联网中不同领域的数据结构存在很大的不同,要针对各个不同领域的网页设计统一的垂直搜索引擎是很复杂的。
很多用户需要查询某些疾病的特征以及治疗方法、某些药物的治疗功能以及特性、某些医生的名望以及信息等,医学垂直搜索引擎在这些方面返回的结果应该比通用搜索更加合理和深入,为了实现这个目标,就需要在网页抓取和建立索引的过程中识别出医学类的网站,并且能够进一步把网页分类为医生页面,疾病页面,药品页面等等。本发明要解决的技术问题是如何从全网中提取出医药相关的网页,并且进一步细分出具体的医生、疾病、药品以及新闻领域的网页,这样可以极大地提高搜索引擎在医学领域方面检索的精确性与实用性。
一个通用的搜索引擎系统一般由网络爬虫、分词模块、索引模块、查询模块几部分组成,它的主要工作流程是:首先从网络爬虫开始抓取URL服务器指定的网页,将其存入文档数据库,并将当前页上的所含超链接存入到URL服务器中。在进行抓取的同时,分词模块和索引模块将已经抓取的网页文档进行分词处理,计算词的权值,然后将分词结果存入索引数据库。用户提交查询时,查询模块首先对用户输入的信息进行分词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询结果进行排序,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。
由于整个网络的规模太大,通用搜索引擎开始暴露出了一些问题,比如覆盖率低,时效性差,结果不准确,过于死板等等,于是出现了一些更加智能化、个性化和专业化的搜索,垂直搜索引擎就是其中的一种。
垂直搜索引擎面向特定领域,专注于自己的特长,保证了对该领域信息的完全收录与及时更新。与通用搜索引擎不同,垂直搜索的目标是尽可能多的搜集与该主题相关的网页。专业网络爬虫抓取到的网页如果与预定义主题相关,就做进一步的处理;如果不相关,则抛弃该网页。这样处理的结果是,系统最终只索引了Web上所有网页中的一部分,也就是与预定义主题相关的网页。这样处理的好处是可以节省大量的存储空间和具有较高的更新频率,而且对用户而言,如果用户对该主题感兴趣,那么系统在该领域的信息应该是最详尽、最专业的。
面向医学领域的垂直搜索引擎的主要目标是满足用户对医学知识、资讯等方面的检索,比如查询疾病症状,治疗手段,药品以及具有此方面优势的医院等等。为了完成这一功能,我们就需要在网页采集时区分网页所属的类别是否属于医学领域,进一步的,属于医学中的哪个子领域,在建立索引及显示时按照其所属的医院、医生、疾病、药品等等类别进行个性化的操作。所以网页分类是垂直搜索中的一个关键性的技术。
目前的网页分类技术大多是围绕词频、分析网页地址、根据摘要信息等方法做一些变化来进行研究的。以词频为基础来进行网页相关性的判别有很多不足,比如很多普通词语出现的频率很高但其实并不重要,而有一些很少出现的词语往往是文章内容的重点;分析网页地址的方法更是很有局限性,因为网页的网址主要用来标示网页的位置,并不直接反应网页的内容,虽然存在一些内容相似并且网页网址也很相似的网页,但互联网海量的网页中,内容相近网址不相似的例子太多了;而根据摘要的方法大多是依靠网页编辑者在网页meta信息中填的类别等关键词信息来网页分类,这主要依靠良好的网页,但很多缺乏此类信息的网页也需要分类,那这类方法就没有办法解决了。
同时,现有的技术虽然很多都是有关于一般化的网页分类的,虽然一般化的方法照顾的比较全面,但其实不同领域的网页内容有很大差距,根据这些内容上的差距我们可以开发一些启发式的方法。比如医药类的网页可能很多是介绍药物、医生、疾病的,而体育类的网页大多数是新闻,经贸方面的网页大多数是广告,要针对这些不同的领域提取出一个统一的网页分类方法略有牵强。所以现有的网页分类技术在不同领域下的分类效果不尽相同。就算分类出医学领域相关的网站,也不能细分到具体的医生、疾病、药品和新闻的类别。
目前关于网页分类的研究成果很多,采用的方法也很广泛。传统的网页分类方法有支持向量机SVM(support vector machine)方法、朴素贝叶斯NB(Naive Bayesian)方法、神经网络NN(Neural Network)方法、K近邻KNN(k-Nearest Neighbor algorithm)方法、决策树(Decision Tree)方法等,这些都是机器学习领域的技术,广泛适用于一般的网页分类。更一般化的分类方法有基于关键词词频的网页分类算法、根据网页摘要分类算法、基于网址进行网页分类算法等。但是要实现医学类网站中如医生,药品,疾病和新闻的详细分类,上述方案均不能很好的完成。
与本发明最相近似的实现方案有下面几种,中国发明专利申请:“基于关键词频度分析的中文网页分类方法”(申请号:200910031625.3)、中国发明专利申请“一种基于云语义库的网页审计方法”(201010000496.4)、“基于垂直搜索和聚焦爬虫的网页分类计数”(200910025724.0)。
发明1(基于关键词频度分析的中文网页分类方法)提出了一种基于关键词频度分析的中文网页分类方法。其特点是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配。通过提取、过滤和去噪音步骤的网页中文文本,再通过关键词频度分析器对文本关键词进行提取,并按照关键词权重对关键词进行排序录入分类主题词库数据表。通过对比网页关键词表与分类主题词库的相关性,分析出该网页的分类。如果网页中出现高频的非关键词,比如某个人名或者某个地点,将会大大影响网页分类的结果。并且它的初始分类是根据中图分类法得到,缺乏灵活性,并不适合医学领域的分类。
发明2(基于云语义库的网页审计方法)在实现网页审计这一目的的过程中,提出了一种以云语义库衡量标准的网页分类方法。其思路首先是按要求分类,建立每一分类的核心词库、非核心词库、停用词库以及出错词库,将已分类网页进行语义分析,通过一系列判定将特定比例的词放入对应分类的词库里,从而建立云语义库。在进行网页分类时,将网页内容进行词频统计,取高频词以及其词频发送到云平台下遍历分类语义库,匹配词频统计之和最大的分类语义库即为对应的网页分类。它的不足同样在于过分依赖词频,如果网页中出现某些主题不相关的高频词,那么很影响分类结果。
发明3(基于垂直搜索和聚焦爬虫的网页分类技术)通过研究发现同一个导航网站上各个分类的子目录页面有着很相似的结构,可以用正则表达式来概括页面的结构化信息,通过模式学习找到这些正则表达式指导聚焦爬虫抓取与分类相关的网页,即实现网页与分类的对应——网页分类。它的方法更加不适用于医学领域,首先,它针对网页结构使用某一类结构的正则表达式,但是网页内容和网页结构并不存在一种对应关系,网页内容通常是编辑书写,网页结构通常是程序员书写,并且在网页设计领域并不存在一种什么结构对应什么内容的约定,网页结构千差万别,而每种结构的网页的正则表达式都需要人手工去编写,耗时耗力,并且这些正则表达式限制了爬虫的规模;其次,它在抽取链接的时候也使用了正则表达式,但是单从链接的角度很难分辨出网页的内容,比如,“cncn”是旅游网站,可单从字面看“cncn”和“旅游”并无关系,再比如“baidu”是搜索网站,它在字面上与“search”或者“sousuo”也无关系。
上面三个专利虽然都能在一定程度上对网页进行分类,但是要适用到医学领域,它们存在如下的不足:
1、过分依赖词频。但在医学领域词频不一定起了决定性作用,比如一篇介绍感冒的文章,可能只在标题处写了感冒一词;介绍医生的文章,大量出现的可能是这个医生的名字而不是医生领域的描述词汇;
2、依赖于网页结构。网页结构和网页内容之间并无明显的对应关系,并且在医学领域不同的分类主要是内容上的不同。比如都是标题,内容结构的网页,可能用来介绍疾病,也可能用来介绍医生。
发明内容
本发明要解决的问题是,克服现有技术中的不足,提一种面向医学领域的网站识别和网页细分类的方法。为解决技术问题,本发明的解决方案是:
提供一种面向医学领域的网站识别方法,是从全网提取医药相关的网站,具体包括以下步骤:
(一)获得综合类网站的词语集合
(1)从全网中抓取非医药相关的综合类网页;
随机选取五个综合类门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万;
(2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出综合类网站的词语集合,记为Tall 
(二)获得医药类网站的词语集合
(1)从全网中抓取医药相关的网页;
选取五个医药类专业门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万;
(2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出医药类网站的词语集合,记为Tmedical-all 
(三)获得医药特征主题词库
(1)医药类网站的词语集合里包含医药类特征主题词和非特征主题词,即
Tmedical-all=Tmedical∪Tnot
其中Tmedical表示医药类的主题词库,Tnot表示在医药类网站词语集合中的不属于医药类词语的集合
(2)提取医药类主题词库Tmedical
词库中词的关系满足下面的公式:
Tnot=Tall∩Tmedical-all
Tmedical=Tmedical-all-Tnot
Tmedical=Tmedical-all-Tall∩Tmedical-all
根据上边的公式,整个算法首先遍历医药类网站的词语集合Tmedical-all,然后从中剔除同时存在于综合类特征词库Tall的词,剩余的词汇便是医药特征主题词库Tmedical ;
(四)根据特征主题词集合判定网站是否与医药相关
(1)假定一个网站,用S表示,其所有页面表示为{P1,P2,P3,…,Pn};其中P1表示抓取到的第一个页面,P2表示抓取到的第二个页面,Pi表示抓取到的第i个页面,n是网页的个数;
(2)使用下面的公式计算任意页面Pi的医药相关度分值,用Scorepi表示:
Score P i = T P i ∩ T medical T P i
式中,Tpi是页面Pi的分词集合;
(3)使用下面的公式计算该网站的医药相关度分值,用Scores表示
Score S = Σ i = 1 n Score P i n
(4)判定该网站S是否医药相关
(a)确定医药类网站的阈值,记为Fmedical-website
首先从医学导航网http://www.meddir.cn/的链接网址中随机的找一个网站,记为ms1,按照(四)中步骤(1)至(3)计算出此网站的医药相关度分值,记为Score-ms1;重复这个过程50次,得到分值数组{Score-ms1,Score-ms2,…,Score-ms50};计算平均值,并记为Score-ms;
然后从好123网站http://www.hao123.com/的链接网址中中随机的找一个网站,记为gs1,按照(四)中步骤(1)至(3)计算出此网站的医药相关度分值,记为Score-gs1;重复这个过程50次,得到分值数组{Score-gs1,Score-gs2,…,Score-gs50};计算平均值,并记为Score-gs;
阈值Fmedical-website = (Score-ms – Score-gs)/2,即两者的中间值;
(b)若Scores高于相关度阈值Fmedical-website,则网站S为医药相关网站;反之,则网站S不是医药相关网站。
本发明中,在获得综合类网站词语集合或医药类网站词语集合时,其具体步骤为:
a、首先过滤HTML网页中的代码,即把网页中的所有<script>标签以及<style>标签中的部分删除;然后过滤HTML标签,即过滤所有能够匹配正则表达式<.*?>的内容;
b、过滤所有的非中文字母和符号,然后使用ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频;
c、计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N(μ,σ);取词频在(μ-σ,μ+σ)区间内的词作为网站的词语集合。
本发明中,在从全网中抓取非医药相关的综合类网页时,其步骤(1)中所选取的五个综合类门户网站为:新浪网www.sina.com.cn、网易www.163.com、腾讯www.qq.com、搜狐www.sohu.com和凤凰网 www.ifeng.com 。
本发明中,在获得医药类网站的词语集合时,其步骤(1)中所选取的五个医药专业门户网站为:丁香园www.dxy.cn、医学论坛网www.cmt.com.cn、中国医学健康网www.sosyao.com、医学教育网www.med66.com和中华医学会网www.cma.org.cn 。
本发明进一步提供了基于前述方法的面向医学领域的网页细分类的方法,是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页,其具体步骤为:
(一)获得各分类网站的词语集合
(1)列举出医生、疾病、药品、新闻四种类别的网站集合,其中:
医生类包括:
http://ysk.39.net/39健康网好医生、http://haodf.health.sohu.com/搜狐健康、http://ysk.99.com.cn/99健康网医生、http://www.120.net/yisheng/120健康网医生;
疾病类包括:
http://dise.health.sohu.com/搜狐疾病、http://jbk.39.net/39健康网查疾病、http://jbk.99.com.cn/99健康网疾病、http://www.haodf.com/jibing/neike/list.htm好大夫在线疾病库;
药品类包括:
http://ypk.39.net/39健康网 找药品、http://ypk.familydoctor.com.cn/家庭医生在线药品、http://drug.health.sohu.com/搜狐药品、http://yaopin.qqyy.com/全球医药网 药品;
新闻类包括:
http://news.39.net/39健康网 新闻、http://news.99.com.cn/99健康网 新闻、http://news.familydoctor.com.cn/家庭医生在线 新闻、http://health.sohu.com/jiankangxinwen.shtml搜狐健康的新闻频道;
(2)对于不同分类网站,分别提取其中所有网页的内容,并进行分词,整理出各自的词库,分别记为Tdoctor-all(医生类词库)、Tdisease-all(疾病类词库)、Tdrug-all(药品类词库)、Tnews-all (新闻类词库);
(二)获得各分类特征词集合;
(1)各分类网站的词语集合里包含各分类特征主题词和非特征主题词,以医生类为例,即医生类网站的词语集合满足下面的公式约束条件:
Tdoctor-all=Tdoctor+Tnot-doctor
Tnot-doctor=∪(Tdoctor-all∩Ti)
i∈{disease-all,drug-all,news-all}  (含义为Ti可以取Tdisease-all,Tdrug-all,Tnews-all,即上述4个词库中,除去Tdoctor 的三个词库。后文直接使用,不再说明。)
上式中,Tdoctor为医生类的特征主题词 T not_doctor, 为非医生类的特征主题词;
(2)获得非特征主题词集合和特征主题词集合Tdoctor
遍历医生类词库,针对每个词查看其是否在疾病或者药品或者新闻的词库中出现,如果出现则属于非特征主题词,就移除这个词;执行完这个遍历过程之后剩下的词就是医生类的特征主题词的集合,即仅仅出现在医生类中的词,记为Tdoctor
(3)分别用疾病类、药品类、新闻类网站替换步骤(2)中的医生类网站,重复这个过程,分别获得疾病类、药品类、新闻类的分类特征词集合,分别记为Tdisease、Tdrug、Tnews
(三)根据各分类特征词集合识别医生、疾病、药品、新闻四类网页
(1)给定一个医学类的网站S,对于其中的任意网页Pi,获得其关于各分类的相关度分值;
(a)计算网页Pi与医生类的相关度值:
过滤网页Pi中的HTML代码、HTML标签、所有的非中文字母和符号,之后使用中科院的ICTCLAS分词器对剩余的部分进行分词,分词结果就是该网页的词集合,记为Tpi
那么该网页关于医生类的相关度分值就是这个网页中的所有属于医生类词库的词占所有词的比例,记为Scorepi,doctor,用公式表示为:
Score P i , doctor = T P i &cap; T doctor T P i
计算过程:遍历Tpi,找到所有存在于医生类中的词的个数,用这个数除以当前网页的词的数量,商的结果就是该网页关于医生类的分值;
(b)依次类推,分别得到Scorepi,doctor、Scorepi,disease、Scorepi,drug、Scorepi,news ,分别代表该网页中所有属于医生、疾病、药品、新闻四类词占所有词的得分;
(2)识别该网页的分类;
(a)经计算后网页Pi相关度分值最高的分类就是该网页的分类;
(b)若各相关度值相同,则标记该网页为默认的新闻类。
本发明中,在获得各分类网站的词语集合时,所述步骤(2)包括:
a、首先过滤HTML网页中的代码,即把网页中的所有<script>标签以及<style>标签中的部分删除;然后过滤HTML标签,即过滤所有能够匹配正则表达式<.*?>的内容;
b、过滤所有的非中文字母和符号,然后使用ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频;
c、计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N(μ,σ);取词频在(μ-σ,μ+σ)区间内的词作为网站的词语集合。
与现有技术相比,本发明的有益效果是:
本发明能够快速的判断医药相关网站属于某一个分类,具有计算简单,计算速度快,准确度高等有点,相较于同类的方明,本发明的算法不会受到网页中高频词的影响,也不会受限于特定的网页html写法。
附图说明
图1为本发明算法整体流程;
图2为医药类网站判断算法示意图;
图3为网页细分类算法示意图。
具体实施方式
本发明的关键点在于:
本发明解决方案的整体框架包括先对网站进行粗分,再进行小类细分的整体流程,只有这一整套流程才能够保证分类的实现,流程中的每一步都不可以改变。
本发明的整体框架中,从现有网站中提取医学分类主题词库的算法,以及将网站及网页根据分类主题词库进行打分,并根据打分结果进行分类的算法。打分算法根据网页的内容特征,不过分依赖词频。这种训练医学数据得到词库、并使用训练好的数据打分的分类算法也是关键点。
本发明主要是分两步,如图1所示,先从全网中提取医药相关的网站,然后将这些网站中的网页进行分类,从中提取出包括但不限于医生、疾病、药品、新闻等四类网页。
面向医学领域的网站识别方法,是从全网提取医药相关的网站,具体包括以下步骤:
(一)获得综合类网站的词语集合
(1)从全网中采集非医药相关的综合类网页;
这一步使用web采集器,也就是网络蜘蛛下载网页的内容。
随机选取的网站为国内比较大的五个门户网站:新浪(www.sina.com.cn),网易(www.163.com),腾讯(www.qq.com),搜狐(www.sohu.com)和凤凰网( www.ifeng.com),使用爬虫抓取每个网站的网页(设定从单个网站抓取的网页数量上限为30w)。
这一步是准备工作,目的是获取一些综合类的网页,所以在网站的选取方面自由度比较大,只要是综合类的网站均可,但为了保证效果,网页的总个数应该在四五十万左右。
(2)提取其中所有网页的内容,并进行分词,记录分词结果以及对应词频,归纳出综合类网站特征词集合,记为Tall
在这一步中,首先过滤HTML网页中的代码,即把网页中的所有<script>标签以及<style>标签中的部分删除,然后过滤HTML标签(即所有能够匹配正则表达式<.*?>的内容)。
过滤所有的非中文字母和符号,之后使用ICTCLAS分词器(Instituteof Computing Technology, Chinese Lexical Analysis System,中科院汉语分词器,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典等)对剩余的部分进行分词,记录所有词的词频。
计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N(μ,σ),因为词频太高的词汇可能是停用词(也就是没有什么实际意义的词汇),词频太低可能是在报道某一领域中偶然涉及的词汇,所以取词频在(μ-σ,μ+σ)区间内的词作为综合类网站的特征词库,根据统计学理论可知这部分词占了全部词汇的大部分(68.268949%)。此特征词库记为Tall
(二)获得医药类网站的词语集合
(1)从全网中抓取医药相关的网页;
选取的网站为:丁香园(www.dxy.cn),医学论坛网(www.cmt.com.cn),中国医学健康网(www.sosyao.com),医学教育网(www.med66.com),中华医学会网( www.cma.org.cn),使用爬虫抓取每个网站的网页(设定从单个网站抓取的网页数量上限为30w)。这一步也是准备工作,目的是获取一些医药类的网页,所以在网站的选取方面自由度也比较大,只要是医药类的网站均可,但为了保证效果,网页的总个数应该在四五十万左右。
(2)提取其中所有网页的内容,并进行分词,记录分词结果以及对应词频,归纳出综合类网站特征词集合Tmedical-all,和前边的步骤类似,先过滤HTML网页中的代码,然后过滤HTML标签,过滤所有的非中文字母和符号,之后使用中科院的ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频。计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N(μ,σ),取词频在(μ-σ,μ+σ)区间内的词作为综合类网站的特征词库。此特征词库记为Tmedical-all
(三)获得医药特征主题词库
(1)医药类网站的词语集合里包含医药类特征主题词和非特征主题词,即
Tmedical-all=Tmedical∪Tnot
其中Tmedical表示医药类的主题词库,Tnot表示在医药类网站词语集合中的不属于医药类词语的集合
(2)提取医药类主题词库Tmedical
词库中词的关系满足下面的公式:
Tnot=Tall∩Tmedical-all
Tmedical=Tmedical-all-Tnot
Tmedical=Tmedical-all-Tall∩Tmedical-all
根据上边的公式,整个算法首先遍历医学类特征词库Tmedical-all,然后从中剔除同时存在于综合类特征词库Tall的词,剩余的词汇便是医学类的特征词库Tmedical
(四)根据特征主题词集合判定网站是否医药相关
(1)给定一个网站S,其所有页面表示为{P1,P2,P3,…,Pn}
其中P1表示抓取到的第一个页面,P2表示抓取到的第二个页面,Pi表示抓取到的第i个页面,n表示网页的总数目
(2)计算出任意页面Pi的医药相关度分值,记为Scorepi,其中,Tpi是该页面的分词集合;
Score P i = T P i &cap; T medical T P i
即首先找出网页分词集合中的存在于医学类词库Tmedical的词集合,然后用这个集合的词的数目除以这个网页中所有词的数目,商就是当前网页的医药相关度分值,用Scorepi表示。
(3)根据如下公式计算该网站的医药相关度分值,用Scores表示
Score S = &Sigma; i = 1 n Score P i n
由公式可知,整个网站的分值就是所有页面分值的平均值。
(4)判定该网站S是否医药相关
(a)确定阈值,记为Fmedical-website
首先从医学导航网(www.meddir.cn/)中随机的找一个网站,记为ms1,按照(四)中(1)(2)(3)的算法,计算出此网站的医药相关度分值,记为Score-ms1。
重复这个过程50次,这样我们就有了一个大小为50的分值数组{Score-ms1,Score-ms2,…,Score-ms50}。计算这些值的平均值,记为Score-ms;
然后从好123(www.hao123.com/)中随机的找一个网站,记为gs1,按照(四)中(1)(2)(3)的算法,计算出此网站的医药相关度分值,记为Score-gs1。
重复这个过程50次,这样我们就有了一个大小为50的分值数组{Score-gs1,Score-gs2,…,Score-gs50}。计算这些值的平均值,记为Score-gs;
Fmedical-website = (Score-ms – Score-gs)/2,即两者的中间值。
(b)若Scores高于相关度阈值Fmedical-website,则网站S为医药相关网站;
(c)反之,则S不是医药相关网站。
作为面向医学领域的网页细分类的方法,是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页,其具体步骤为:
(一)获得各分类网站的词语集合
(1)从全网中人工找出各分类(医生类、疾病类、药品类、新闻类)网站;
选取的各类结果列表如下:
Figure BDA0000300145746
(2)对于不同分类网站,分别提取其中所有网页的内容,并进行分词,整理出各自的词库,记为Tdoctor-all(医生类词库)、Tdisease-all(疾病类词库)、Tdrug-all(药品类词库)、Tnews-all (新闻类词库);
这一过程使用的算法和前面提取综合类网站词库以及医学类网站词库的算法一样,所以不做赘述。
(二)获得各分类特征词集合,下面以医生类举例,其余各类的方法和此方法一致:
(1)跟综合类网站、医院类网站的初步提取结果一样,各分类网站的词语集合里包含各分类特征主题词和非特征主题词,以医生类为例,即医生类网站的词语集合满足下面的公式约束条件:
Tdoctor-all=Tdoctor+Tnot-doctor
Tnot-doctor=∪(Tdoctor-all∩Ti)
i∈{disease-all,drug-all,news-all}
 (含义为Ti可以取Tdisease-all,Tdrug-all,Tnews-all,即上述4个词库中,除去Tdoctor 的三个词库。后文直接使用,不再说明。)
上式中,Tdoctor为医生类的特征主题词 T not_doctor, 为非医生类的特征主题词;
(2)获得非特征主题词集合和特征主题词集合Tdoctor
所谓非特征主题词,是指不单单在某一个主题中出现的词,具体来说,就是同时出现在其他任意一个分类中的词。遍历医生类词库,针对每个词查看其是否在疾病或者药品或者新闻的词库中出现,如果出现则属于非特征主题词,就移除这个词,执行完这个遍历过程之后剩下的词就是医生类的特征主题词的集合,即仅仅出现在医生类中的词,记为Tdoctor
(3)分别用疾病类、药品类、新闻类替换上边步骤(2)中的医生类,重复这个过程,分别获得疾病类、药品类、新闻类的分类特征词集合,分别记为Tdisease、Tdrug、Tnews
(三)根据各分类特征词集合识别医生、疾病、药品、新闻四类网页
(1)给定一个判断为医学类的网站,用S表示,对于其中的任意网页,用Pi表示,获得其关于各分类的相关度分值;
还是以医生类为例子说明这个过程,其余的各类所使用的方法均一致。
(a)计算网页Pi与医生类的相关度值:
在这一步中,首先过滤此网页中的HTML代码,即把网页中的所有<script>标签以及<style>标签中的部分删除,然后过滤html标签(即所有能够匹配正则表达式<.*?>的内容)。
过滤所有的非中文字母和符号,之后使用中科院的ICTCLAS分词器对剩余的部分进行分词,分词结果就是这个网页的词集合,记为Tpi
那么这个网页关于医生类的相关度分值就是这个网页中的所有属于医生类词库的词占所有词的比例,记为Scorepi,doctor,用公式表示为:
Score P i , doctor = T P i &cap; T doctor T P i
计算过程即遍历Tpi,找到所有存在于医生类中的词的个数,用这个数除以当前网页的词的数量,商的结果就是关于医生类的分值。
(b)依次类推,分别得到Scorepi,,doctor、Scorepi,disease、Scorepi,drug、Scorepi,news;分别代表该网页中所有属于医生、疾病、药品、新闻四类词占所有词的得分;
(2)识别该网页的分类;
(a)相关度分值最高的分类就是该网页的分类;
(b)若各相关度值相同,则标记该网页为默认的新闻类,这里仅仅表示属于医学类网页。

Claims (6)

1.一种面向医学领域的网站识别方法,其特征在于,是从全网提取医药相关的网站,具体包括以下步骤:
(一)获得综合类网站的词语集合
(1)从全网中抓取非医药相关的综合类网页;
随机选取五个综合类门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万;
(2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出综合类网站的词语集合,记为Tall 
(二)获得医药类网站的词语集合
(1)从全网中抓取医药相关的网页;
选取五个医药类专业门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万;
(2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出医药类网站的词语集合,记为Tmedical-all 
(三)获得医药特征主题词库
(1)医药类网站的词语集合里包含医药类特征主题词和非特征主题词,即
Tmedical-all=Tmedical∪Tnot
其中Tmedical表示医药类的主题词库,Tnot表示在医药类网站词语集合中的不属于医药类词语的集合;
(2)提取医药类主题词库Tmedical
词库中词的关系满足下面的公式:
Tnot=Tall∩Tmedical-all
Tmedical=Tmedical-all-Tnot
Tmedical=Tmedical-all-Tall∩Tmedical-all
根据上边的公式,整个算法首先遍历医药类网站的词语集合Tmedical-all,然后从中剔除同时存在于综合类特征词库Tall的词,剩余的词汇便是医药特征主题词库Tmedical ;
(四)根据特征主题词集合判定网站是否与医药相关
(1)假定一个网站,用S表示,其所有页面表示为{P1,P2,P3,…,Pn};其中P1表示抓取到的第一个页面,P2表示抓取到的第二个页面,Pi表示抓取到的第i个页面,n是网页的个数;
(2)使用下面的公式计算任意页面Pi的医药相关度分值,用Scorepi表示:
Score P i = T P i &cap; T medical T P i
式中,Tpi是页面Pi的分词集合;
(3)使用下面的公式计算该网站的医药相关度分值,用Scores表示
Score S = &Sigma; i = 1 n Score P i n
(4)判定该网站S是否医药相关
(a)确定医药类网站的阈值,记为Fmedical-website
首先从医学导航网http://www.meddir.cn/的链接网址中随机的找一个网站,记为ms1,按照(四)中步骤(1)至(3)计算出此网站的医药相关度分值,记为Score-ms1;重复这个过程50次,得到分值数组{Score-ms1,Score-ms2,…,Score-ms50};计算平均值,并记为Score-ms;
然后从好123网站http://www.hao123.com/的链接网址中中随机的找一个网站,记为gs1,按照(四)中步骤(1)至(3)计算出此网站的医药相关度分值,记为Score-gs1;重复这个过程50次,得到分值数组{Score-gs1,Score-gs2,…,Score-gs50};计算平均值,并记为Score-gs;
阈值Fmedical-website = (Score-ms – Score-gs)/2,即两者的中间值;
(b)若Scores高于相关度阈值Fmedical-website,则网站S为医药相关网站;反之,则网站S不是医药相关网站。
2.根据权利要求1所述的方法,其特征在于,在获得综合类网站词语集合或医药类网站词语集合时,其具体步骤为:
a、首先过滤HTML网页中的代码,即把网页中的所有<script>标签以及<style>标签中的部分删除;然后过滤HTML标签,即过滤所有能够匹配正则表达式<.*?>的内容;
b、过滤所有的非中文字母和符号,然后使用ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频;
c、计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N(μ,σ);取词频在(μ-σ,μ+σ)区间内的词作为网站的词语集合。
3.根据权利要求1所述的方法,其特征在于,在从全网中抓取非医药相关的综合类网页时,其步骤(1)中所选取的五个综合类门户网站为:新浪网www.sina.com.cn、网易www.163.com、腾讯www.qq.com、搜狐www.sohu.com和凤凰网 www.ifeng.com 。
4.根据权利要求1所述的方法,其特征在于,在获得医药类网站的词语集合时,其步骤(1)中所选取的五个医药专业门户网站为:丁香园www.dxy.cn、医学论坛网www.cmt.com.cn、中国医学健康网www.sosyao.com、医学教育网www.med66.com和中华医学会网www.cma.org.cn 。
5.基于权利要求1所述方法的面向医学领域的网页细分类的方法,其特征在于,是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页,其具体步骤为:
(一)获得各分类网站的词语集合
(1)列举出医生、疾病、药品、新闻四种类别的网站集合,其中:
医生类包括:
http://ysk.39.net/39健康网好医生、http://haodf.health.sohu.com/搜狐健康、http://ysk.99.com.cn/99健康网医生、http://www.120.net/yisheng/120健康网医生;
疾病类包括:
http://dise.health.sohu.com/搜狐疾病、http://jbk.39.net/39健康网查疾病、http://jbk.99.com.cn/99健康网疾病、http://www.haodf.com/jibing/neike/list.htm好大夫在线疾病库;
药品类包括:
http://ypk.39.net/39健康网 找药品、http://ypk.familydoctor.com.cn/家庭医生在线药品、http://drug.health.sohu.com/搜狐药品、http://yaopin.qqyy.com/全球医药网 药品;
新闻类包括:
http://news.39.net/39健康网 新闻、http://news.99.com.cn/99健康网 新闻、http://news.familydoctor.com.cn/家庭医生在线 新闻、http://health.sohu.com/jiankangxinwen.shtml搜狐健康的新闻频道;
(2)对于不同分类网站,分别提取其中所有网页的内容,并进行分词,整理出各自的词库,分别记为Tdoctor-all(医生类词库)、Tdisease-all(疾病类词库)、Tdrug-all(药品类词库)、Tnews-all (新闻类词库);;
(二)获得各分类特征词集合;
(1)各分类网站的词语集合里包含各分类特征主题词和非特征主题词,以医生类为例,即医生类网站的词语集合满足下面的公式约束条件:
Tdoctor-all=Tdoctor+Tnot-doctor
Tnot-doctor=∪(Tdoctor-all∩Ti)
i∈{disease-all,drug-all,news-all}
上式中,Tdoctor为医生类的特征主题词 T not_doctor, 为非医生类的特征主题词;
(2)获得非特征主题词集合和特征主题词集合Tdoctor
遍历医生类词库,针对每个词查看其是否在疾病或者药品或者新闻的词库中出现,如果出现则属于非特征主题词,就移除这个词;执行完这个遍历过程之后剩下的词就是医生类的特征主题词的集合,即仅仅出现在医生类中的词,记为Tdoctor
(3)分别用疾病类、药品类、新闻类网站替换步骤(2)中的医生类网站,重复这个过程,分别获得疾病类、药品类、新闻类的分类特征词集合,分别记为Tdisease、Tdrug、Tnews
(三)根据各分类特征词集合识别医生、疾病、药品、新闻四类网页
(1)给定一个医学类的网站S,对于其中的任意网页Pi,获得其关于各分类的相关度分值;
(a)计算网页Pi与医生类的相关度值:
过滤网页Pi中的HTML代码、HTML标签、所有的非中文字母和符号,之后使用中科院的ICTCLAS分词器对剩余的部分进行分词,分词结果就是该网页的词集合,记为Tpi
那么该网页关于医生类的相关度分值就是这个网页中的所有属于医生类词库的词占所有词的比例,记为Scorepi,doctor,用公式表示为:
Score P i , doctor = T P i &cap; T doctor T P i
计算过程:遍历Tpi,找到所有存在于医生类中的词的个数,用这个数除以当前网页的词的数量,商的结果就是该网页关于医生类的分值;
(b)依次类推,分别得到Scorepi,doctor、Scorepi,disease、Scorepi,drug、Scorepi,news;,分别代表该网页中所有属于医生、疾病、药品、新闻四类词占所有词的得分;
(2)识别该网页的分类;
(a)经计算后网页Pi相关度分值最高的分类就是该网页的分类;
(b)若各相关度值相同,则标记该网页为默认的新闻类。
6.根据权利要求5所述的方法,其特征在于,在获得各分类网站的词语集合时,所述步骤(2)包括:
a、首先过滤HTML网页中的代码,即把网页中的所有<script>标签以及<style>标签中的部分删除;然后过滤HTML标签,即过滤所有能够匹配正则表达式<.*?>的内容;
b、过滤所有的非中文字母和符号,然后使用ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频;
c、计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N(μ,σ);取词频在(μ-σ,μ+σ)区间内的词作为网站的词语集合。
CN201310113454.5A 2013-04-02 2013-04-02 面向医学领域的网站识别和网页细分类的方法 Active CN103226578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310113454.5A CN103226578B (zh) 2013-04-02 2013-04-02 面向医学领域的网站识别和网页细分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310113454.5A CN103226578B (zh) 2013-04-02 2013-04-02 面向医学领域的网站识别和网页细分类的方法

Publications (2)

Publication Number Publication Date
CN103226578A true CN103226578A (zh) 2013-07-31
CN103226578B CN103226578B (zh) 2015-11-04

Family

ID=48837024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310113454.5A Active CN103226578B (zh) 2013-04-02 2013-04-02 面向医学领域的网站识别和网页细分类的方法

Country Status (1)

Country Link
CN (1) CN103226578B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063455A (zh) * 2014-06-24 2014-09-24 北京奇虎科技有限公司 一种基于搜索获取疾病咨询信息的方法和装置
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN104915406A (zh) * 2015-06-02 2015-09-16 华东师范大学 一种面向大众医疗决策的用户搜索方法
CN105653651A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN105894183A (zh) * 2016-03-30 2016-08-24 腾讯科技(深圳)有限公司 项目评价方法及装置
CN106131242A (zh) * 2016-08-17 2016-11-16 郑州埃文计算机科技有限公司 一种ip应用场景的分类方法
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN103914538B (zh) * 2014-04-01 2017-02-15 浙江大学 基于锚文本上下文和链接分析的主题抓取方法
CN106503119A (zh) * 2016-10-17 2017-03-15 广州薏生网络科技有限公司 一种移动问诊平台垂直搜索结果的排序方法
CN106709824A (zh) * 2016-12-15 2017-05-24 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN106776645A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107577713A (zh) * 2017-08-03 2018-01-12 国网信通亿力科技有限责任公司 基于电力词典的文本处理方法
CN108228555A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 基于栏目主题的文章处理方法和装置
CN109408587A (zh) * 2018-09-03 2019-03-01 中国平安人寿保险股份有限公司 数据的同步方法及终端设备
WO2020000717A1 (zh) * 2018-06-29 2020-01-02 平安科技(深圳)有限公司 网页分类方法、装置及计算机可读存储介质
US10672048B2 (en) 2017-06-07 2020-06-02 The Penn State Research Foundation System and method for determining the legitimacy of online pharmacies
CN111259664A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112115269A (zh) * 2020-08-07 2020-12-22 国家计算机网络与信息安全管理中心河南分中心 一种基于爬虫的网页自动分类方法
CN112948739A (zh) * 2021-04-14 2021-06-11 杭州安恒信息技术股份有限公司 一种医疗网站的识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216826A (zh) * 2007-01-05 2008-07-09 鸿富锦精密工业(深圳)有限公司 信息搜索系统及方法
CN101271459A (zh) * 2007-03-22 2008-09-24 北京搜狗科技发展有限公司 一种生成词库的方法、一种输入的方法和一种输入法系统
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
US20120254152A1 (en) * 2011-03-03 2012-10-04 Brightedge Technologies, Inc. Optimization of social media engagement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216826A (zh) * 2007-01-05 2008-07-09 鸿富锦精密工业(深圳)有限公司 信息搜索系统及方法
CN101271459A (zh) * 2007-03-22 2008-09-24 北京搜狗科技发展有限公司 一种生成词库的方法、一种输入的方法和一种输入法系统
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
US20120254152A1 (en) * 2011-03-03 2012-10-04 Brightedge Technologies, Inc. Optimization of social media engagement

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何维: "《行业网站分类方法研究与应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2006, no. 12, 15 December 2006 (2006-12-15), pages 139 - 433 *
李永可等: "《中文农业网站多元线性回归识别研究》", 《新疆农业大学学报》, vol. 34, no. 5, 31 May 2011 (2011-05-31), pages 442 - 446 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750754A (zh) * 2013-12-31 2015-07-01 北龙中网(北京)科技有限责任公司 网站所属行业的分类方法和服务器
CN103914538B (zh) * 2014-04-01 2017-02-15 浙江大学 基于锚文本上下文和链接分析的主题抓取方法
CN104063455A (zh) * 2014-06-24 2014-09-24 北京奇虎科技有限公司 一种基于搜索获取疾病咨询信息的方法和装置
CN104063455B (zh) * 2014-06-24 2017-04-12 北京奇虎科技有限公司 一种基于搜索获取疾病咨询信息的方法和装置
CN104915406A (zh) * 2015-06-02 2015-09-16 华东师范大学 一种面向大众医疗决策的用户搜索方法
CN104915406B (zh) * 2015-06-02 2018-10-23 华东师范大学 一种面向大众医疗决策的用户搜索方法
CN106776645A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 数据处理方法及装置
CN106776645B (zh) * 2015-11-24 2020-08-21 北京国双科技有限公司 数据处理方法及装置
CN105653651A (zh) * 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN105653651B (zh) * 2015-12-29 2019-04-02 云南电网有限责任公司电力科学研究院 一种行业网站的发现整理方法及装置
CN105894183A (zh) * 2016-03-30 2016-08-24 腾讯科技(深圳)有限公司 项目评价方法及装置
CN105894183B (zh) * 2016-03-30 2020-11-10 腾讯科技(深圳)有限公司 项目评价方法及装置
CN106131242A (zh) * 2016-08-17 2016-11-16 郑州埃文计算机科技有限公司 一种ip应用场景的分类方法
CN106156372B (zh) * 2016-08-31 2019-07-30 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106503119A (zh) * 2016-10-17 2017-03-15 广州薏生网络科技有限公司 一种移动问诊平台垂直搜索结果的排序方法
CN108228555A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 基于栏目主题的文章处理方法和装置
CN106709824A (zh) * 2016-12-15 2017-05-24 华南理工大学 一种基于网络文本语义分析的建筑评价方法
CN106709824B (zh) * 2016-12-15 2020-07-28 华南理工大学 一种基于网络文本语义分析的建筑评价方法
US10672048B2 (en) 2017-06-07 2020-06-02 The Penn State Research Foundation System and method for determining the legitimacy of online pharmacies
CN107463616B (zh) * 2017-07-03 2020-04-10 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107577713A (zh) * 2017-08-03 2018-01-12 国网信通亿力科技有限责任公司 基于电力词典的文本处理方法
WO2020000717A1 (zh) * 2018-06-29 2020-01-02 平安科技(深圳)有限公司 网页分类方法、装置及计算机可读存储介质
CN109408587A (zh) * 2018-09-03 2019-03-01 中国平安人寿保险股份有限公司 数据的同步方法及终端设备
CN111259664A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN111259664B (zh) * 2020-01-14 2023-03-24 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN112115269A (zh) * 2020-08-07 2020-12-22 国家计算机网络与信息安全管理中心河南分中心 一种基于爬虫的网页自动分类方法
CN111985246A (zh) * 2020-08-27 2020-11-24 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN111985246B (zh) * 2020-08-27 2023-08-15 武汉东湖大数据交易中心股份有限公司 一种基于主要症状与伴随症状词的疾病认知系统
CN112948739A (zh) * 2021-04-14 2021-06-11 杭州安恒信息技术股份有限公司 一种医疗网站的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103226578B (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN105930469A (zh) 基于Hadoop的个性化旅游推荐系统及方法
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN110705288A (zh) 一种基于大数据的舆情分析系统
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN106776672A (zh) 技术发展脉络图确定方法
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
WO2016040304A1 (en) A method for detection and characterization of technical emergence and associated methods
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
Deitrick et al. Enhancing sentiment analysis on twitter using community detection
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
Xu et al. Research on Tibetan hot words, sensitive words tracking and public opinion classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant