CN101441636A

CN101441636A - 一种基于知识库的医院信息搜索引擎及系统

Info

Publication number: CN101441636A
Application number: CNA2007101777987A
Authority: CN
Inventors: 戴汝为; 缪庆亮; 李秋丹; 耿光刚; 王春恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2007-11-21
Filing date: 2007-11-21
Publication date: 2009-05-27

Abstract

本发明基于知识库的医疗搜索引擎及系统，抓取中文医疗健康目录构建原始医疗网页库；对原始医疗网页库中的网页进行相关信息抽取，提取对医院、科室、医生的评论信息，构建医疗评论信息库；使用词频统计和调查问卷，对抽取的相关信息进行医疗评论属性字段提取，提取观点短语，观点短语倾向性分析，给出评论评论信息是正面或是反面的分析结果，确定医院、科室、医生的排名；根据医疗知识库对搜索结果进行排序，将高度结构化和高度相关的信息提供给用户。本发明针对通用搜索引擎结果信息是非结构化、相关度和准确度低等缺点，构建医疗知识库，为用户提供高度结构化的医疗信息，提高用户查询医疗信息相关度和准确率，能有效提高搜索结果的准确率和召回率。

Description

一种基于知识库的医院信息搜索引擎及系统

技术领域

本发明涉及信息检索和搜索引擎技术领域，是一种基于知识库的医院垂直搜索引擎的实现。

背景技术

2007年7月，中国互联网络信息中心(CNNIC)在北京发布《第二十次中国互联网络发展状况统计报告》，调查结果显示，浏览新闻、搜索引擎、即时通信是网民经常使用的三大网络服务，三者的选择比例分别为浏览新闻77.3％，搜索引擎74.8％，收发邮件69.8％，这三大网络服务的选择比例领先其后的第二阵营20个百分点以上。该中心2007年9月份发布了2007年中国搜索引擎市场调查报告，报告显示搜索引擎用户对搜索引擎的依赖性很高，每次上网都要用到多次搜索的用户数接近一半。

搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。但是，互联网的信息量呈爆炸趋势增长，几年前全球式搜索引擎收录的网页量只有几千万页，而现在已经达到几十亿页。数量增加带来的是搜索服务的火热。另一方面，也使传统的综合性搜索，如百度和Google的品质下降，搜索引擎在搜集网络信息上远赶不上网络信息的增长速度，同时查询的结果集是海量的，经常是几十万笔的资料，看上去很好，想找到合适的结果，却比较难，搜索结果里存在大量的重复信息和垃圾信息，用户很难在短时间内准确地筛选出需要的内容。

国内领先的IT服务集成商——赛迪网(ccidnet.com)，曾就搜索引擎使用习惯及IT搜索引擎市场前景进行了调查，其分析显示：网民在使用搜索引擎时，考虑的主要因素是“搜索速度快，其次是搜索信息准确，第三是信息量大”。但“搜索速度慢，死链接太多、重复信息或不相关信息较多”是目前网民对搜索引擎最不满意的地方。传统的搜索引擎多属于横向的水平型搜索，在现有的技术水平基础上，它在满足搜索信息量大的同时却难以兼顾搜索的准确度与相关度。

针对以上问题，专为搜索某一学科或主题的信息而产生的搜索工具，专门收录某一方面、某一行业或某一主题的信息，对解决实际查询问题要比搜索引擎门户有效得多。如果用户想获得某一专业的信息，就可使用专业搜索引擎，如North Carolina大学计算机科学系和法学院联合开发研制的LIBClient-IRISWeb系统可以用自然语言对网上的法律信息进行全文检索，使得用户获得全面高质的法律专业信息的效率大大提高。

目前中文专业搜索引擎有旅游搜索，数码产品搜索，酒店搜索，房屋租赁搜索等，但是目前还没有基于知识库的医疗信息的搜索引擎。

发明内容

为了解决现有通用搜索引擎对于查询医疗信息非结构化，准确率和相关性低等问题，本发明的目的是为搜索医疗信息的用户提供一种新的搜索平台，该平台能够为用户提供高度结构化，高度相关性和高度准确性的医疗信息服务，为此本发明提供一种基于知识库的医疗信息搜索引擎及系统。

为了实现所述的目的，本发明的第一方面，提供基于知识库的医疗信息搜索引擎系统，技术方案如下所述：

用户端，与搜索引擎用户端接口连接，用于将疾病名称送入搜索引擎用户端接口；

搜索引擎用户端接口，与查询分解模块连接，用于将疾病名称信息送入查询分解模块；用于接收排序模块的医院排序结果和医生信息；

查询分解模块，与索引模块连接，用于将分解后的疾病名称信息送入索引模块；

索引模块，分别与排序模块和索引器连接，用于排序模块输入原始网页库中与疾病匹配的网页内容信息；用于接收索引器建立的索引信息；

排序模块，分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接，用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息，用于输出最后医院排名信息和医生信息；

索引器，分别与原始医疗网页库和索引模块连接，用于接收原始医疗网页库的网页信息，用于输出原始网页库中网页的索引信息；

医疗信息知识库，分别与排序模块和医疗评论信息库连接，用于接收医疗评论信息库中的评论信息，用于输出医院排名信息；

医疗评论信息库，分别与原始医疗网页库和医疗信息知识库连接，用于接收原始医疗网页库的网页信息，用于输出医疗评论信息；

原始医疗网页库，分别与医疗评论信息库、爬虫和索引器连接，用于存储爬虫抓取的原始医疗网页，用于输出原始医疗网页信息；

爬虫，分别与万维网和原始医疗网页库，用于接收需要抓取的网页URL网址信息，用于输出原始医疗网页源代码信息。

优选地，所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取，构建原始医疗网页库。

优选地，所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取，构建医疗评论信息库。

优选地，所述医疗知识库是使用基于AHP的评价方法，以医疗评论属性字段为评价标准，构建医疗知识库。

为了实现所述的目的，本发明的第二方面，提供基于知识库的医疗信息搜索引擎，步骤如下：

步骤S1：对中文医疗健康论坛网站进行目录式抓取，构建原始医疗网页库；

步骤S2：基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取，主要提取对医院、科室、医生的评论信息，构建医疗评论信息库；

步骤S3：使用词频统计和调查问卷的方法，对抽取的相关信息进行医疗评论属性字段提取，然后根据医疗评论的语义结构特征提取观点短语，最后进行观点短语倾向性分析，给出医疗评论是正面或是反面的分析结果；

步骤S4：使用基于AHP的评价方法，以医疗评论属性字段为评价标准，确定医院、科室、医生的排名，构建医疗知识库；

步骤S5：根据知识库对搜索结果进行排序，并将高度结构化和高度相关的最终结果信息提供给用户。

优选地，所述信息抽取方法是基于相似页面的中文医疗健康论坛网页信息抽取算法。

优选地，所述基于相似页面的信息抽取算法，通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则，所述规则用正则表达式的形式表示：

匹配医疗网页中医院名称，科室名称，疾病名称，匹配医疗网页中URL网址信息。

优选地，所述词频统计和调查问卷的方法，从医疗评论信息中抽取医疗评论属性字段。

优选地，所述观点短语的提取是基于医疗评论的语义结构特征，利用知网对观点短语进行分析，从而判断观点短语的倾向性。

优选地，所述的对搜索结果进行排序，根据知识库中医院、科室、医生的排名结合基于相似度的排序结果，给出最终的排序结果。

本发明的整体设计中有效的利用了医疗健康论坛中丰富的用户对医院、科室、医生的评论信息，通过对这些评论信息的搜集、抽取、分析建立医疗信息知识库，以医疗知识库为指导，对搜索引擎基于相似度的排序结果进行重排序，最后对最终的高度准确和相关的排序结果以高度结构化的形式提供给用户，克服了通用搜索引擎的搜索结果非结构化，相关度低，准确度低的缺点。本发明巧妙的利用了用户医疗评论信息，为用户提供高度结构化的医疗信息，提高了用户查询医疗信息相关度和准确率。利用实验表明这一方法能有效的提高搜索结果的准确率和相关性。

附图说明

图1是本发明基于知识库的医疗信息搜索引擎总体流程图；

图2是本发明医疗信息抽取步骤流程图；

图3是本发明医疗知识库构建步骤流程图；

图4本发明基于知识库的医疗信息搜索引擎总体框架图；

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

为了实现本发明的方法，如果在单机实现，最好保证处理器主频不小于2GHz，内存不小于1G，可采用任何常用编程语言编写。

如图1本发明基于知识库的医疗信息搜索引擎系统总体框架图所示：

用户端1、搜索引擎用户端接口2、查询分解模块3、索引模块4、排序模块5、索引器6、医疗信息知识库7、医疗评论信息库8、原始医疗网页库9、爬虫10、万维网11，其中：

用户端1，与搜索引擎用户端接口2连接，用于将疾病名称送入搜索引擎用户端接口2；

搜索引擎用户端接口2，与查询分解模块连3接，用于将疾病名称信息送入查询分解模块3；用于接收排序模块5的医院排序结果和医生信息；

查询分解模块3，与索引模块4连接，用于将分解后的疾病名称信息送入索引模块4；

索引模块4，分别与排序模块5和索引器6连接，用于对排序模块5输入原始医疗网页库9中与疾病匹配的网页内容信息；用于接收索引器6建立的索引信息；

排序模块5，分别与医疗信息知识库7、索引模块4和搜索引擎用户端接口2连接，用于接收医疗信息知识库7的医院排名信息和索引模块4文件中与查询词相关的索引信息，用于输出最后医院排名信息和医生信息；

索引器6，分别与原始医疗网页库9和索引模块4连接，用于接收原始医疗网页库9的网页信息，用于输出原始医疗网页库9中网页的索引信息；

医疗信息知识库7，分别与排序模块5和医疗评论信息库8连接，用于接收医疗评论信息库8中的评论信息，用于输出医院排名信息；所述医疗信息知识库7是使用基于AHP的评价方法，以医疗评论属性字段为评价标准，构建医疗知识库。

医疗评论信息库8，分别与原始医疗网页库9和医疗信息知识库8连接，用于接收原始医疗网页库9的网页信息，用于输出医疗评论信息信息；所述医疗评论信息库8基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取，构建医疗评论信息库。

原始医疗网页库9，分别与医疗评论信息库8、爬虫10和索引器6连接，用于存储爬虫10抓取的原始医疗网页，用于输出原始医疗网页信息；所述原始医疗网页库9是对中文医疗健康论坛网站进行目录式抓取，构建原始医疗网页库。

爬虫10，分别与万维网11和原始医疗网页库9，用于接收需要抓取的网页URL网址信息，用于输出原始医疗网页源代码信息。

本发明提出的基于知识库的医疗搜索引擎，总体流程如图2所示，具体各步骤流程如图3、4给出。

1、对中文医疗健康论坛网站进行目录式抓取，构建原始医疗网页库9，因为本发明是针对医疗信息的搜索引擎，所以要抓取的目标网页主要来自医疗健康论坛，比如三九健康社区、好大夫在线等等。首先人为获得这些网站的URL网址，用自己编写的抓取工具对这些医疗健康论坛进行抓取，将抓取的网页存储到原始医疗网页9信息库中。由于这些网站绝大多数都是医疗健康主题的信息，而且层次较少，所以采用宽度优先抓取的策略。见图3中步骤S1。由于网页抓取已经有许多成熟的方法，所以不属于本发明强调的内容。

2、基于RoadRunner算法对原始医疗网页库9中的网页进行相关信息抽取，主要提取对医院、科室、医生的评论信息，构建医疗评论信息库8。我们发现对于同一个医疗健康论坛的不同网页的结构信息和网页内部标记有很多相似之处，所以我们采用RoadRunner算法对原始网页进行信息抽取。如图3中本发明医疗信息抽取步骤流程图所示，具体的方法是

步骤S21：首先从原始医疗网页库9中选择同一论坛中有代表性的两个网页；请将下面内容调整正确，因为我将字号放大为四号

网页源代码1

风湿免疫科</a>(29)</td>

内分泌科</a>(45)</td>

</tr>

网页源代码2

肾病内科</a>(22)</td>

<a

href＝＂/faculty/DE4r08xQdKSLPwWxb52Duj49TpEn.htm＂class＝＂blue＂>

风湿科</a>(4)</td>

</tr>

步骤S22：网页源代码1作为样本；

步骤S23：网页源代码2作为页面包装器；

步骤S24：RoadRunner先把两个输入的页面符号化，然后对两个页面的字符串和标记进行比较，通过字符串和标记的不匹配来归纳规则，因为是相似页面，字符串不匹配将表示这个字符串对应于数据库的某个字段；如果标记不匹配，则先判断是否存在迭代项，然后再判断是否是可选项。内容为网页源代码1和网页源代码2中深黑色字体部分，结构部分为网页源代码1和网页源代码2中剩余部分。基于相似页面的信息抽取算法，通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则，所述规则用现有技术的正则表达式的形式表示：匹配医疗网页中医院名称，科室名称，疾病名称，匹配医疗网页中URL网址信息。

步骤S25：由于人工选择的两个有代表性的样本作为输入，所以最后生成的规则有较好的健壮性，规则是用正则表达式的形式表示。

步骤S26：得到用正则表达式表示的规则后，对原始医疗网页库9中剩下的网页进行信息抽取。

步骤S27：抽取结果构成医疗评论信息库8。

RoadRunner算法可以参照文章RoadRunner：Towards Automatic DataExtraction from Large Web Sites。

3、使用词频统计和调查问卷的方法，如图4中本发明医疗信息知识库7构建步骤流程图所示：

步骤S31：对医疗评论信息库8进行预处理；

主要包括停用词去除处理，预处理后的文档，进行词性标注，标注结果如下：

医术/n 水平/n：/w 8.0/m 分/q(/w 较/d 好/a)/w服务/vn 态度/n：/w 1.0/m 分/q(/w 较/d 差/a)/w 价格/n 满意度/n：/w 3.0/m 分/q(/w 较/d 差/a)/w

水平/n 不错/a，/w 价格/n 昂贵/an，/w 态度/n 极/q 差/a，/w 完全/ad 没有/v 医德/n 医风/n(/w 主/ag 指/v 住院部/n)/w 根本/d 没有/v 毛/j 主席/n 时代/n 的/u 救死扶伤/i精神/n，/w 一切/r 向钱看/v；

其中“/n”代表名词，“/a”代表形容词，如“态度/n”说明“态度”是一个名词，“好/a”说明“好”是一个形容词。

步骤S32：对抽取的相关信息进行医疗评论属性字段提取；

评论属性字段提取，如图4中步骤S32，使用中科院计算所汉语词法分析系统，对标记后的名词和名词词组进行词频统计，这样做的原因是用户医疗评论信息库8中医疗评论属性字段基本上是名词或名词短语，而且很多人都会从医院的治疗水平、服务质量、价格满意度等方面进行评论，所以使用词频统计的方法可以从医疗评论信息库8中提取出用户医疗评论属性字段。对提取出的用户医疗评论属性字段，结合调查问卷的结果从中选取有代表性的用户医疗评论属性字段，这些字段是治疗水平、服务质量、价格满意度、环境满意度。

步骤S33：提取观点短语；

下面进行观点词的抽取，如图4中步骤S33，由于评论一般由医疗评论属性字段和观点词组成，所以我们抽取的模式是Adjective+Noun/Nouns，即形容词加名词活名词词组。下面是我们抽取观点词的伪代码：

INPUT

医疗评论信息库

FOR用户评论库的每条评论信息

IF(评论信息包括用户医疗评论属性字段)

{

提取用户医疗评论属性字段附近的形容词作为观点词

}

OUTPUT

观点词+用户医疗评论属性字段

观点词的提取方式和Minqing Hu，Bing Liu观点类似，具体文献见Mining and Summarizing Customer Reviews.

步骤S34：最后进行观点短语倾向性分析；

观点倾向性分析，给出评论是正面或是反面的分析结果。如图4中步骤S34，分析的方法主要基于知网(HowNet)，从网站http://www.keenage.com/html/c index.html下载HowNetSystem，使用这个系统可以确定观点词的倾向性，使用方法可以参考该系统自带的帮助文档。

步骤S35：基于AHP算法的排名；

对评论倾向性分析后的结果使用基于Thomas L Satty的AHP算法来确定医院排名，如图4中步骤S35。

参考文献为图书What is the analytic hierarchy process？，该书ISBN为0-387-50084-7，具体方法如下所述：

首先建立两两比较值表，见表1：

表1

标度	含义
标度	含义	1	两个元素相比，同等重要
3	两个元素相比，一个比另一个稍微重要	1	两个元素相比，同等重要
3	两个元素相比，一个比另一个稍微重要	5	两个元素相比，一个比另一个明显重要
7	两个元素相比，一个比另一个强烈重要	5	两个元素相比，一个比另一个明显重要
7	两个元素相比，一个比另一个强烈重要	9	两个元素相比。一个比另一个极端重要
2、4、6、8	上述相邻标度的中间值	9	两个元素相比。一个比另一个极端重要
2、4、6、8	上述相邻标度的中间值	倒数值	若元素i与j比较得a_i，j，则元素j与1比较得1/a_i，j

然后根据调查问卷对治疗水平、服务质量、价格满意度、环境满意度四个指标相对重要性进行打分得到表2：

表2

	治疗水平	服务质量	价格满意度	环境满意度	权重
	治疗水平	服务质量	价格满意度	环境满意度	权重	治疗水平	1	3	2	5	0.4918
服务质量	1/3	1	2/3	5/3	0.1639	治疗水平	1	3	2	5	0.4918
服务质量	1/3	1	2/3	5/3	0.1639	价格满意度	1/2	3/2	1	5/2	0.2459
环境满意度	1/5	3/5	2/5	1	0.0984	价格满意度	1/2	3/2	1	5/2	0.2459

接着对医院的治疗水平、服务质量、价格满意度、环境满意度进行两两比较得到表3到表6。为了简化，这里取甲、乙、丙三个医院作为例子。

表3

治疗水平	甲	乙	丙	权重
治疗水平	甲	乙	丙	权重	甲	1	2	5	0.5882
乙	1/2	1	5/2	0.2941	甲	1	2	5	0.5882
乙	1/2	1	5/2	0.2941	丙	1/5	2/5	1	0.1177

表4

服务质量	甲	乙	丙	权重
服务质量	甲	乙	丙	权重	甲	1	2	5	0.5882
乙	1/2	1	5/2	0.2941	甲	1	2	5	0.5882
乙	1/2	1	5/2	0.2941	丙	1/5	2/5	1	0.1177

表5

价格满意度	甲	乙	丙	权重
价格满意度	甲	乙	丙	权重	甲	1	4	5	0.6896
乙	1/4	1	5/4	0.1724	甲	1	4	5	0.6896
乙	1/4	1	5/4	0.1724	丙	1/5	4/5	1	0.1380

表6

环境满意度	甲	乙	丙	权重
环境满意度	甲	乙	丙	权重	甲	1	5	4	0.6896
乙	1/5	1	4/5	0.1380	甲	1	5	4	0.6896
乙	1/5	1	4/5	0.1380	丙	1/4	5/4	1	0.1724

最后得到甲、乙、丙三个医院总体排名见表7。计算公式是

医院排名＝a^*治疗水平+b^*服务质量+c^*价格满意度+d^*环境满意度公式1

表7

从表7中我们可以得到排名，根据综合排名信息构建医疗信息知识库7，如图4中步骤S36。

最后将原始医疗网页库9的原始医疗网页建立倒排序索引，设计用户端1与搜索引擎用户端接口2，当用户查询某一种疾病时，首先把疾病映射到某一科室，根据科室信息，将科室信息提交到搜索引擎，搜索引擎会返回相关结果，该结果按相似度排序，将搜索引擎返回的结果结合医疗信息知识库7的信息，为用户提供高准确度、高相关性、高度结构化的医疗信息。

上面描述是用于实现本发明的实施例，本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1、一种基于知识库的医疗信息搜索引擎系统，其特征在于，包括：

2、根据权利要求1所述基于知识库的医疗信息搜索引擎系统，其特征在于，所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取，构建原始医疗网页库。

3、根据权利要求1所述基于知识库的医疗信息搜索引擎系统，其特征在于，所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取，构建医疗评论信息库。

4、根据权利要求1所述基于知识库的医疗信息搜索引擎系统，其特征在于，所述医疗知识库是使用基于AHP的评价方法，以医疗评论属性字段为评价标准，构建医疗知识库。

5、一种基于知识库的医疗信息搜索引擎，其特征在于，步骤如下：

6、如权利要求5所述基于知识库的医疗信息搜索引擎，其特征在于，所述信息抽取方法是基于相似页面的中文医疗健康论坛网页信息抽取算法。

7、如权利要求6所述基于知识库的医疗搜索引擎，其特征在于，所述基于相似页面的信息抽取算法，通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则。

8、如权利要求5所述基于知识库的医疗搜索信息引擎，其特征在于，所述词频统计和调查问卷的方法，从医疗评论信息中抽取医疗评论属性字段。

9、如权利要求5所述基于知识库的医疗信息搜索引擎，其特征在于，所述观点短语的提取是基于医疗评论的语义结构特征，利用知网对观点短语进行分析，从而判断观点短语的倾向性。

10、如权利要求5所述基于知识库的医疗信息搜索引擎，其特征在于，所述的对搜索结果进行排序，根据知识库中医院、科室、医生的排名结合基于相似度的排序结果，给出最终的排序结果。