CN101441636A - 一种基于知识库的医院信息搜索引擎及系统 - Google Patents
一种基于知识库的医院信息搜索引擎及系统 Download PDFInfo
- Publication number
- CN101441636A CN101441636A CNA2007101777987A CN200710177798A CN101441636A CN 101441636 A CN101441636 A CN 101441636A CN A2007101777987 A CNA2007101777987 A CN A2007101777987A CN 200710177798 A CN200710177798 A CN 200710177798A CN 101441636 A CN101441636 A CN 101441636A
- Authority
- CN
- China
- Prior art keywords
- medical
- information
- search engine
- knowledge base
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000036541 health Effects 0.000 claims abstract description 20
- 238000012552 review Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 17
- 201000010099 disease Diseases 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 16
- 241000272183 Geococcyx californianus Species 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 10
- 241000270322 Lepidosauria Species 0.000 claims description 8
- 239000003814 drug Substances 0.000 claims description 7
- 230000006698 induction Effects 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- UGDGKPDPIXAUJL-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(4-ethylphenyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C(NC(=O)OCC)=CC=2NC(C=3C=CC(CC)=CC=3)=NC=2C=1N(CC=1C=CC=CC=1)CCC1=CC=CC=C1 UGDGKPDPIXAUJL-UHFFFAOYSA-N 0.000 description 15
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Abstract
本发明基于知识库的医疗搜索引擎及系统,抓取中文医疗健康目录构建原始医疗网页库;对原始医疗网页库中的网页进行相关信息抽取,提取对医院、科室、医生的评论信息,构建医疗评论信息库;使用词频统计和调查问卷,对抽取的相关信息进行医疗评论属性字段提取,提取观点短语,观点短语倾向性分析,给出评论评论信息是正面或是反面的分析结果,确定医院、科室、医生的排名;根据医疗知识库对搜索结果进行排序,将高度结构化和高度相关的信息提供给用户。本发明针对通用搜索引擎结果信息是非结构化、相关度和准确度低等缺点,构建医疗知识库,为用户提供高度结构化的医疗信息,提高用户查询医疗信息相关度和准确率,能有效提高搜索结果的准确率和召回率。
Description
技术领域
本发明涉及信息检索和搜索引擎技术领域,是一种基于知识库的医院垂直搜索引擎的实现。
背景技术
2007年7月,中国互联网络信息中心(CNNIC)在北京发布《第二十次中国互联网络发展状况统计报告》,调查结果显示,浏览新闻、搜索引擎、即时通信是网民经常使用的三大网络服务,三者的选择比例分别为浏览新闻77.3%,搜索引擎74.8%,收发邮件69.8%,这三大网络服务的选择比例领先其后的第二阵营20个百分点以上。该中心2007年9月份发布了2007年中国搜索引擎市场调查报告,报告显示搜索引擎用户对搜索引擎的依赖性很高,每次上网都要用到多次搜索的用户数接近一半。
搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。但是,互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页。数量增加带来的是搜索服务的火热。另一方面,也使传统的综合性搜索,如百度和Google的品质下降,搜索引擎在搜集网络信息上远赶不上网络信息的增长速度,同时查询的结果集是海量的,经常是几十万笔的资料,看上去很好,想找到合适的结果,却比较难,搜索结果里存在大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内容。
国内领先的IT服务集成商——赛迪网(ccidnet.com),曾就搜索引擎使用习惯及IT搜索引擎市场前景进行了调查,其分析显示:网民在使用搜索引擎时,考虑的主要因素是“搜索速度快,其次是搜索信息准确,第三是信息量大”。但“搜索速度慢,死链接太多、重复信息或不相关信息较多”是目前网民对搜索引擎最不满意的地方。传统的搜索引擎多属于横向的水平型搜索,在现有的技术水平基础上,它在满足搜索信息量大的同时却难以兼顾搜索的准确度与相关度。
针对以上问题,专为搜索某一学科或主题的信息而产生的搜索工具,专门收录某一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引擎门户有效得多。如果用户想获得某一专业的信息,就可使用专业搜索引擎,如North Carolina大学计算机科学系和法学院联合开发研制的LIBClient-IRISWeb系统可以用自然语言对网上的法律信息进行全文检索,使得用户获得全面高质的法律专业信息的效率大大提高。
目前中文专业搜索引擎有旅游搜索,数码产品搜索,酒店搜索,房屋租赁搜索等,但是目前还没有基于知识库的医疗信息的搜索引擎。
发明内容
为了解决现有通用搜索引擎对于查询医疗信息非结构化,准确率和相关性低等问题,本发明的目的是为搜索医疗信息的用户提供一种新的搜索平台,该平台能够为用户提供高度结构化,高度相关性和高度准确性的医疗信息服务,为此本发明提供一种基于知识库的医疗信息搜索引擎及系统。
为了实现所述的目的,本发明的第一方面,提供基于知识库的医疗信息搜索引擎系统,技术方案如下所述:
用户端,与搜索引擎用户端接口连接,用于将疾病名称送入搜索引擎用户端接口;
搜索引擎用户端接口,与查询分解模块连接,用于将疾病名称信息送入查询分解模块;用于接收排序模块的医院排序结果和医生信息;
查询分解模块,与索引模块连接,用于将分解后的疾病名称信息送入索引模块;
索引模块,分别与排序模块和索引器连接,用于排序模块输入原始网页库中与疾病匹配的网页内容信息;用于接收索引器建立的索引信息;
排序模块,分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接,用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息,用于输出最后医院排名信息和医生信息;
索引器,分别与原始医疗网页库和索引模块连接,用于接收原始医疗网页库的网页信息,用于输出原始网页库中网页的索引信息;
医疗信息知识库,分别与排序模块和医疗评论信息库连接,用于接收医疗评论信息库中的评论信息,用于输出医院排名信息;
医疗评论信息库,分别与原始医疗网页库和医疗信息知识库连接,用于接收原始医疗网页库的网页信息,用于输出医疗评论信息;
原始医疗网页库,分别与医疗评论信息库、爬虫和索引器连接,用于存储爬虫抓取的原始医疗网页,用于输出原始医疗网页信息;
爬虫,分别与万维网和原始医疗网页库,用于接收需要抓取的网页URL网址信息,用于输出原始医疗网页源代码信息。
优选地,所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库。
优选地,所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,构建医疗评论信息库。
优选地,所述医疗知识库是使用基于AHP的评价方法,以医疗评论属性字段为评价标准,构建医疗知识库。
为了实现所述的目的,本发明的第二方面,提供基于知识库的医疗信息搜索引擎,步骤如下:
步骤S1:对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库;
步骤S2:基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,主要提取对医院、科室、医生的评论信息,构建医疗评论信息库;
步骤S3:使用词频统计和调查问卷的方法,对抽取的相关信息进行医疗评论属性字段提取,然后根据医疗评论的语义结构特征提取观点短语,最后进行观点短语倾向性分析,给出医疗评论是正面或是反面的分析结果;
步骤S4:使用基于AHP的评价方法,以医疗评论属性字段为评价标准,确定医院、科室、医生的排名,构建医疗知识库;
步骤S5:根据知识库对搜索结果进行排序,并将高度结构化和高度相关的最终结果信息提供给用户。
优选地,所述信息抽取方法是基于相似页面的中文医疗健康论坛网页信息抽取算法。
优选地,所述基于相似页面的信息抽取算法,通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则,所述规则用正则表达式的形式表示:
匹配医疗网页中医院名称,科室名称,疾病名称,匹配医疗网页中URL网址信息。
优选地,所述词频统计和调查问卷的方法,从医疗评论信息中抽取医疗评论属性字段。
优选地,所述观点短语的提取是基于医疗评论的语义结构特征,利用知网对观点短语进行分析,从而判断观点短语的倾向性。
优选地,所述的对搜索结果进行排序,根据知识库中医院、科室、医生的排名结合基于相似度的排序结果,给出最终的排序结果。
本发明的整体设计中有效的利用了医疗健康论坛中丰富的用户对医院、科室、医生的评论信息,通过对这些评论信息的搜集、抽取、分析建立医疗信息知识库,以医疗知识库为指导,对搜索引擎基于相似度的排序结果进行重排序,最后对最终的高度准确和相关的排序结果以高度结构化的形式提供给用户,克服了通用搜索引擎的搜索结果非结构化,相关度低,准确度低的缺点。本发明巧妙的利用了用户医疗评论信息,为用户提供高度结构化的医疗信息,提高了用户查询医疗信息相关度和准确率。利用实验表明这一方法能有效的提高搜索结果的准确率和相关性。
附图说明
图1是本发明基于知识库的医疗信息搜索引擎总体流程图;
图2是本发明医疗信息抽取步骤流程图;
图3是本发明医疗知识库构建步骤流程图;
图4本发明基于知识库的医疗信息搜索引擎总体框架图;
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
为了实现本发明的方法,如果在单机实现,最好保证处理器主频不小于2GHz,内存不小于1G,可采用任何常用编程语言编写。
如图1本发明基于知识库的医疗信息搜索引擎系统总体框架图所示:
用户端1、搜索引擎用户端接口2、查询分解模块3、索引模块4、排序模块5、索引器6、医疗信息知识库7、医疗评论信息库8、原始医疗网页库9、爬虫10、万维网11,其中:
用户端1,与搜索引擎用户端接口2连接,用于将疾病名称送入搜索引擎用户端接口2;
搜索引擎用户端接口2,与查询分解模块连3接,用于将疾病名称信息送入查询分解模块3;用于接收排序模块5的医院排序结果和医生信息;
查询分解模块3,与索引模块4连接,用于将分解后的疾病名称信息送入索引模块4;
索引模块4,分别与排序模块5和索引器6连接,用于对排序模块5输入原始医疗网页库9中与疾病匹配的网页内容信息;用于接收索引器6建立的索引信息;
排序模块5,分别与医疗信息知识库7、索引模块4和搜索引擎用户端接口2连接,用于接收医疗信息知识库7的医院排名信息和索引模块4文件中与查询词相关的索引信息,用于输出最后医院排名信息和医生信息;
索引器6,分别与原始医疗网页库9和索引模块4连接,用于接收原始医疗网页库9的网页信息,用于输出原始医疗网页库9中网页的索引信息;
医疗信息知识库7,分别与排序模块5和医疗评论信息库8连接,用于接收医疗评论信息库8中的评论信息,用于输出医院排名信息;所述医疗信息知识库7是使用基于AHP的评价方法,以医疗评论属性字段为评价标准,构建医疗知识库。
医疗评论信息库8,分别与原始医疗网页库9和医疗信息知识库8连接,用于接收原始医疗网页库9的网页信息,用于输出医疗评论信息信息;所述医疗评论信息库8基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,构建医疗评论信息库。
原始医疗网页库9,分别与医疗评论信息库8、爬虫10和索引器6连接,用于存储爬虫10抓取的原始医疗网页,用于输出原始医疗网页信息;所述原始医疗网页库9是对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库。
爬虫10,分别与万维网11和原始医疗网页库9,用于接收需要抓取的网页URL网址信息,用于输出原始医疗网页源代码信息。
本发明提出的基于知识库的医疗搜索引擎,总体流程如图2所示,具体各步骤流程如图3、4给出。
1、对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库9,因为本发明是针对医疗信息的搜索引擎,所以要抓取的目标网页主要来自医疗健康论坛,比如三九健康社区、好大夫在线等等。首先人为获得这些网站的URL网址,用自己编写的抓取工具对这些医疗健康论坛进行抓取,将抓取的网页存储到原始医疗网页9信息库中。由于这些网站绝大多数都是医疗健康主题的信息,而且层次较少,所以采用宽度优先抓取的策略。见图3中步骤S1。由于网页抓取已经有许多成熟的方法,所以不属于本发明强调的内容。
2、基于RoadRunner算法对原始医疗网页库9中的网页进行相关信息抽取,主要提取对医院、科室、医生的评论信息,构建医疗评论信息库8。我们发现对于同一个医疗健康论坛的不同网页的结构信息和网页内部标记有很多相似之处,所以我们采用RoadRunner算法对原始网页进行信息抽取。如图3中本发明医疗信息抽取步骤流程图所示,具体的方法是
步骤S21:首先从原始医疗网页库9中选择同一论坛中有代表性的两个网页;请将下面内容调整正确,因为我将字号放大为四号
网页源代码1
<td width="8%"align="center">内科</td>
<td width="23%">
<a ref="/faculty/DE4roiYGYZw0GIaCFVHDuJVht.htm"class="blue">
风湿免疫科</a><span class="gray"title="共有29位大夫">(29)</span></td>
<td width="23%">
<a href="/faculty/DE4roiYGYZw0Gao-DwIIFQwlR.htm"class="blue">
内分泌科</a><span class="gray"title="共有45位大夫">(45)</span></td>
</tr>
网页源代码2
<td width="8%"align="center">内科</td>
<td width="23%">
<a href="/faculty/DE4roiYGYZw0imOyZJ9SvRJb8.htm"class="blue">
肾病内科</a><span class="gray"title="共有22位大夫">(22)</span></td>
<td width="23%">
<a
href="/faculty/DE4r08xQdKSLPwWxb52Duj49TpEn.htm"class="blue">
风湿科</a><span class="gray"title="共有4位大夫">(4)</span></td>
</tr>
步骤S22:网页源代码1作为样本;
步骤S23:网页源代码2作为页面包装器;
步骤S24:RoadRunner先把两个输入的页面符号化,然后对两个页面的字符串和标记进行比较,通过字符串和标记的不匹配来归纳规则,因为是相似页面,字符串不匹配将表示这个字符串对应于数据库的某个字段;如果标记不匹配,则先判断是否存在迭代项,然后再判断是否是可选项。内容为网页源代码1和网页源代码2中深黑色字体部分,结构部分为网页源代码1和网页源代码2中剩余部分。基于相似页面的信息抽取算法,通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则,所述规则用现有技术的正则表达式的形式表示:匹配医疗网页中医院名称,科室名称,疾病名称,匹配医疗网页中URL网址信息。
步骤S25:由于人工选择的两个有代表性的样本作为输入,所以最后生成的规则有较好的健壮性,规则是用正则表达式的形式表示。
步骤S26:得到用正则表达式表示的规则后,对原始医疗网页库9中剩下的网页进行信息抽取。
步骤S27:抽取结果构成医疗评论信息库8。
RoadRunner算法可以参照文章RoadRunner:Towards Automatic DataExtraction from Large Web Sites。
3、使用词频统计和调查问卷的方法,如图4中本发明医疗信息知识库7构建步骤流程图所示:
步骤S31:对医疗评论信息库8进行预处理;
主要包括停用词去除处理,预处理后的文档,进行词性标注,标注结果如下:
医术/n 水平/n:/w 8.0/m 分/q(/w 较/d 好/a)/w服务/vn 态度/n:/w 1.0/m 分/q(/w 较/d 差/a)/w 价格/n 满意度/n:/w 3.0/m 分/q(/w 较/d 差/a)/w
水平/n 不错/a,/w 价格/n 昂贵/an,/w 态度/n 极/q 差/a,/w 完全/ad 没有/v 医德/n 医风/n(/w 主/ag 指/v 住院部/n)/w 根本/d 没有/v 毛/j 主席/n 时代/n 的/u 救死扶伤/i精神/n,/w 一切/r 向钱看/v;
其中“/n”代表名词,“/a”代表形容词,如“态度/n”说明“态度”是一个名词,“好/a”说明“好”是一个形容词。
步骤S32:对抽取的相关信息进行医疗评论属性字段提取;
评论属性字段提取,如图4中步骤S32,使用中科院计算所汉语词法分析系统,对标记后的名词和名词词组进行词频统计,这样做的原因是用户医疗评论信息库8中医疗评论属性字段基本上是名词或名词短语,而且很多人都会从医院的治疗水平、服务质量、价格满意度等方面进行评论,所以使用词频统计的方法可以从医疗评论信息库8中提取出用户医疗评论属性字段。对提取出的用户医疗评论属性字段,结合调查问卷的结果从中选取有代表性的用户医疗评论属性字段,这些字段是治疗水平、服务质量、价格满意度、环境满意度。
步骤S33:提取观点短语;
下面进行观点词的抽取,如图4中步骤S33,由于评论一般由医疗评论属性字段和观点词组成,所以我们抽取的模式是Adjective+Noun/Nouns,即形容词加名词活名词词组。下面是我们抽取观点词的伪代码:
INPUT
医疗评论信息库
FOR用户评论库的每条评论信息
IF(评论信息包括用户医疗评论属性字段)
{
提取用户医疗评论属性字段附近的形容词作为观点词
}
OUTPUT
观点词+用户医疗评论属性字段
观点词的提取方式和Minqing Hu,Bing Liu观点类似,具体文献见Mining and Summarizing Customer Reviews.
步骤S34:最后进行观点短语倾向性分析;
观点倾向性分析,给出评论是正面或是反面的分析结果。如图4中步骤S34,分析的方法主要基于知网(HowNet),从网站http://www.keenage.com/html/c index.html下载HowNetSystem,使用这个系统可以确定观点词的倾向性,使用方法可以参考该系统自带的帮助文档。
步骤S35:基于AHP算法的排名;
对评论倾向性分析后的结果使用基于Thomas L Satty的AHP算法来确定医院排名,如图4中步骤S35。
参考文献为图书What is the analytic hierarchy process?,该书ISBN为0-387-50084-7,具体方法如下所述:
首先建立两两比较值表,见表1:
表1
标度 | 含义 |
1 | 两个元素相比,同等重要 |
3 | 两个元素相比,一个比另一个稍微重要 |
5 | 两个元素相比,一个比另一个明显重要 |
7 | 两个元素相比,一个比另一个强烈重要 |
9 | 两个元素相比。一个比另一个极端重要 |
2、4、6、8 | 上述相邻标度的中间值 |
倒数值 | 若元素i与j比较得ai,j,则元素j与1比较得1/ai,j |
然后根据调查问卷对治疗水平、服务质量、价格满意度、环境满意度四个指标相对重要性进行打分得到表2:
表2
治疗水平 | 服务质量 | 价格满意度 | 环境满意度 | 权重 | |
治疗水平 | 1 | 3 | 2 | 5 | 0.4918 |
服务质量 | 1/3 | 1 | 2/3 | 5/3 | 0.1639 |
价格满意度 | 1/2 | 3/2 | 1 | 5/2 | 0.2459 |
环境满意度 | 1/5 | 3/5 | 2/5 | 1 | 0.0984 |
接着对医院的治疗水平、服务质量、价格满意度、环境满意度进行两两比较得到表3到表6。为了简化,这里取甲、乙、丙三个医院作为例子。
表3
治疗水平 | 甲 | 乙 | 丙 | 权重 |
甲 | 1 | 2 | 5 | 0.5882 |
乙 | 1/2 | 1 | 5/2 | 0.2941 |
丙 | 1/5 | 2/5 | 1 | 0.1177 |
表4
服务质量 | 甲 | 乙 | 丙 | 权重 |
甲 | 1 | 2 | 5 | 0.5882 |
乙 | 1/2 | 1 | 5/2 | 0.2941 |
丙 | 1/5 | 2/5 | 1 | 0.1177 |
表5
价格满意度 | 甲 | 乙 | 丙 | 权重 |
甲 | 1 | 4 | 5 | 0.6896 |
乙 | 1/4 | 1 | 5/4 | 0.1724 |
丙 | 1/5 | 4/5 | 1 | 0.1380 |
表6
环境满意度 | 甲 | 乙 | 丙 | 权重 |
甲 | 1 | 5 | 4 | 0.6896 |
乙 | 1/5 | 1 | 4/5 | 0.1380 |
丙 | 1/4 | 5/4 | 1 | 0.1724 |
最后得到甲、乙、丙三个医院总体排名见表7。计算公式是
医院排名=a*治疗水平+b*服务质量+c*价格满意度+d*环境满意度公式1
表7
从表7中我们可以得到排名,根据综合排名信息构建医疗信息知识库7,如图4中步骤S36。
最后将原始医疗网页库9的原始医疗网页建立倒排序索引,设计用户端1与搜索引擎用户端接口2,当用户查询某一种疾病时,首先把疾病映射到某一科室,根据科室信息,将科室信息提交到搜索引擎,搜索引擎会返回相关结果,该结果按相似度排序,将搜索引擎返回的结果结合医疗信息知识库7的信息,为用户提供高准确度、高相关性、高度结构化的医疗信息。
上面描述是用于实现本发明的实施例,本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
Claims (10)
1、一种基于知识库的医疗信息搜索引擎系统,其特征在于,包括:
用户端,与搜索引擎用户端接口连接,用于将疾病名称送入搜索引擎用户端接口;
搜索引擎用户端接口,与查询分解模块连接,用于将疾病名称信息送入查询分解模块;用于接收排序模块的医院排序结果和医生信息;
查询分解模块,与索引模块连接,用于将分解后的疾病名称信息送入索引模块;
索引模块,分别与排序模块和索引器连接,用于排序模块输入原始网页库中与疾病匹配的网页内容信息;用于接收索引器建立的索引信息;
排序模块,分别与医疗信息知识库、索引模块和搜索引擎用户端接口连接,用于接收医疗信息知识库的医院排名信息和索引文件中与查询词相关的索引信息,用于输出最后医院排名信息和医生信息;
索引器,分别与原始医疗网页库和索引模块连接,用于接收原始医疗网页库的网页信息,用于输出原始网页库中网页的索引信息;
医疗信息知识库,分别与排序模块和医疗评论信息库连接,用于接收医疗评论信息库中的评论信息,用于输出医院排名信息;
医疗评论信息库,分别与原始医疗网页库和医疗信息知识库连接,用于接收原始医疗网页库的网页信息,用于输出医疗评论信息;
原始医疗网页库,分别与医疗评论信息库、爬虫和索引器连接,用于存储爬虫抓取的原始医疗网页,用于输出原始医疗网页信息;
爬虫,分别与万维网和原始医疗网页库,用于接收需要抓取的网页URL网址信息,用于输出原始医疗网页源代码信息。
2、根据权利要求1所述基于知识库的医疗信息搜索引擎系统,其特征在于,所述原始医疗网页库是对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库。
3、根据权利要求1所述基于知识库的医疗信息搜索引擎系统,其特征在于,所述医疗评论信息库基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,构建医疗评论信息库。
4、根据权利要求1所述基于知识库的医疗信息搜索引擎系统,其特征在于,所述医疗知识库是使用基于AHP的评价方法,以医疗评论属性字段为评价标准,构建医疗知识库。
5、一种基于知识库的医疗信息搜索引擎,其特征在于,步骤如下:
步骤S1:对中文医疗健康论坛网站进行目录式抓取,构建原始医疗网页库;
步骤S2:基于RoadRunner算法对原始医疗网页库中的网页进行相关信息抽取,主要提取对医院、科室、医生的评论信息,构建医疗评论信息库;
步骤S3:使用词频统计和调查问卷的方法,对抽取的相关信息进行医疗评论属性字段提取,然后根据医疗评论的语义结构特征提取观点短语,最后进行观点短语倾向性分析,给出医疗评论是正面或是反面的分析结果;
步骤S4:使用基于AHP的评价方法,以医疗评论属性字段为评价标准,确定医院、科室、医生的排名,构建医疗知识库;
步骤S5:根据知识库对搜索结果进行排序,并将高度结构化和高度相关的最终结果信息提供给用户。
6、如权利要求5所述基于知识库的医疗信息搜索引擎,其特征在于,所述信息抽取方法是基于相似页面的中文医疗健康论坛网页信息抽取算法。
7、如权利要求6所述基于知识库的医疗搜索引擎,其特征在于,所述基于相似页面的信息抽取算法,通过比较中文医疗健康论坛网页中字符串的不匹配和标记的不匹配来归纳规则。
8、如权利要求5所述基于知识库的医疗搜索信息引擎,其特征在于,所述词频统计和调查问卷的方法,从医疗评论信息中抽取医疗评论属性字段。
9、如权利要求5所述基于知识库的医疗信息搜索引擎,其特征在于,所述观点短语的提取是基于医疗评论的语义结构特征,利用知网对观点短语进行分析,从而判断观点短语的倾向性。
10、如权利要求5所述基于知识库的医疗信息搜索引擎,其特征在于,所述的对搜索结果进行排序,根据知识库中医院、科室、医生的排名结合基于相似度的排序结果,给出最终的排序结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101777987A CN101441636A (zh) | 2007-11-21 | 2007-11-21 | 一种基于知识库的医院信息搜索引擎及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101777987A CN101441636A (zh) | 2007-11-21 | 2007-11-21 | 一种基于知识库的医院信息搜索引擎及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101441636A true CN101441636A (zh) | 2009-05-27 |
Family
ID=40726074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101777987A Pending CN101441636A (zh) | 2007-11-21 | 2007-11-21 | 一种基于知识库的医院信息搜索引擎及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101441636A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819593A (zh) * | 2010-04-21 | 2010-09-01 | 苏州市奥杰汽车技术有限公司 | 汽车知识数字化抽象方法 |
CN102054015A (zh) * | 2009-10-28 | 2011-05-11 | 财团法人工业技术研究院 | 使用有机物件数据模型来组织社群智能信息的系统及方法 |
CN102054016A (zh) * | 2009-10-28 | 2011-05-11 | 财团法人工业技术研究院 | 用于撷取及管理社群智能信息的系统及方法 |
CN102110160A (zh) * | 2011-02-24 | 2011-06-29 | 上海莱希信息科技有限公司 | 根据倾向性值进行网页搜索的方法和装置 |
CN102314435A (zh) * | 2010-06-30 | 2012-01-11 | 腾讯科技(深圳)有限公司 | 搜索网页内容的方法及系统 |
CN102576367A (zh) * | 2009-10-23 | 2012-07-11 | 浦项工科大学校产学协力团 | 用于提取短语及说明的文档处理装置及方法 |
CN102567313A (zh) * | 2010-12-07 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 递进式网页库去重系统及其实现方法 |
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
CN103093315A (zh) * | 2013-01-18 | 2013-05-08 | 余飞 | 基于多元评价主体的医德档案量化评价系统 |
CN103235874A (zh) * | 2013-04-08 | 2013-08-07 | 浙江大学医学院附属第二医院 | 医院抗菌药物临床使用知识库智能控制系统 |
CN104281619A (zh) * | 2013-07-11 | 2015-01-14 | 鸿富锦精密工业(深圳)有限公司 | 搜索结果排序系统及方法 |
CN104598642A (zh) * | 2015-02-13 | 2015-05-06 | 杜雨阳 | 一种标准疾病名称查找方法和系统 |
CN104899279A (zh) * | 2015-05-29 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 用于数据处理的系统以及数据处理的方法 |
CN104915413A (zh) * | 2015-06-05 | 2015-09-16 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种健康检测方法及系统 |
CN105069036A (zh) * | 2015-07-22 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法及装置 |
CN105335488A (zh) * | 2015-10-16 | 2016-02-17 | 中国南方电网有限责任公司电网技术研究中心 | 一种知识库构建方法 |
CN105608091A (zh) * | 2014-11-21 | 2016-05-25 | 中国移动通信集团公司 | 一种动态医疗知识库的构建方法及装置 |
CN105912693A (zh) * | 2016-04-22 | 2016-08-31 | 北京搜狗科技发展有限公司 | 网络请求处理方法、网络数据获取方法、装置及服务器 |
CN106845058A (zh) * | 2015-12-04 | 2017-06-13 | 北大医疗信息技术有限公司 | 疾病数据的标准化方法及标准化装置 |
CN107066556A (zh) * | 2017-03-27 | 2017-08-18 | 竹间智能科技(上海)有限公司 | 用于人工智能对话系统的备选答案排序方法及装置 |
CN107241429A (zh) * | 2017-06-30 | 2017-10-10 | 江西博瑞彤芸科技有限公司 | 信息交互处理方法和系统 |
CN108491206A (zh) * | 2018-04-12 | 2018-09-04 | 江南大学 | 一种spa单页面实现方法及系统 |
CN108717411A (zh) * | 2018-05-23 | 2018-10-30 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN108877921A (zh) * | 2017-05-12 | 2018-11-23 | 京东方科技集团股份有限公司 | 医疗智能分诊方法和医疗智能分诊系统 |
CN109065149A (zh) * | 2018-06-29 | 2018-12-21 | 康美药业股份有限公司 | 一种用于健康咨询平台的积分方法和系统 |
CN109119170A (zh) * | 2018-06-29 | 2019-01-01 | 康美药业股份有限公司 | 一种用于健康咨询平台的评价方法和系统 |
CN110083758A (zh) * | 2019-04-30 | 2019-08-02 | 闻康集团股份有限公司 | 一种医疗搜索引擎数据平台系统 |
CN111105854A (zh) * | 2019-12-12 | 2020-05-05 | 和宇健康科技股份有限公司 | 健康信息系统知识库的搜索引擎系统 |
CN111241834A (zh) * | 2020-01-20 | 2020-06-05 | 和宇健康科技股份有限公司 | 一种医护质量评价获取方法、装置、介质及终端设备 |
CN115618835A (zh) * | 2022-12-12 | 2023-01-17 | 苏州阿基米德网络科技有限公司 | 一种医院效益分析数据报表的获取方法、系统及电子设备 |
-
2007
- 2007-11-21 CN CNA2007101777987A patent/CN101441636A/zh active Pending
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102576367B (zh) * | 2009-10-23 | 2014-09-10 | 浦项工科大学校产学协力团 | 用于提取短语及说明的文档处理装置及方法 |
CN102576367A (zh) * | 2009-10-23 | 2012-07-11 | 浦项工科大学校产学协力团 | 用于提取短语及说明的文档处理装置及方法 |
US8666987B2 (en) | 2009-10-23 | 2014-03-04 | Postech Academy—Industry Foundation | Apparatus and method for processing documents to extract expressions and descriptions |
CN102054015A (zh) * | 2009-10-28 | 2011-05-11 | 财团法人工业技术研究院 | 使用有机物件数据模型来组织社群智能信息的系统及方法 |
CN102054016A (zh) * | 2009-10-28 | 2011-05-11 | 财团法人工业技术研究院 | 用于撷取及管理社群智能信息的系统及方法 |
CN102054016B (zh) * | 2009-10-28 | 2016-01-20 | 财团法人工业技术研究院 | 用于撷取及管理社群智能信息的系统及方法 |
CN102054015B (zh) * | 2009-10-28 | 2014-05-07 | 财团法人工业技术研究院 | 使用有机物件数据模型来组织社群智能信息的系统及方法 |
CN101819593A (zh) * | 2010-04-21 | 2010-09-01 | 苏州市奥杰汽车技术有限公司 | 汽车知识数字化抽象方法 |
CN102314435A (zh) * | 2010-06-30 | 2012-01-11 | 腾讯科技(深圳)有限公司 | 搜索网页内容的方法及系统 |
CN102567313A (zh) * | 2010-12-07 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 递进式网页库去重系统及其实现方法 |
CN102110160A (zh) * | 2011-02-24 | 2011-06-29 | 上海莱希信息科技有限公司 | 根据倾向性值进行网页搜索的方法和装置 |
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
CN103093315A (zh) * | 2013-01-18 | 2013-05-08 | 余飞 | 基于多元评价主体的医德档案量化评价系统 |
CN103235874A (zh) * | 2013-04-08 | 2013-08-07 | 浙江大学医学院附属第二医院 | 医院抗菌药物临床使用知识库智能控制系统 |
CN104281619A (zh) * | 2013-07-11 | 2015-01-14 | 鸿富锦精密工业(深圳)有限公司 | 搜索结果排序系统及方法 |
CN105608091A (zh) * | 2014-11-21 | 2016-05-25 | 中国移动通信集团公司 | 一种动态医疗知识库的构建方法及装置 |
CN105608091B (zh) * | 2014-11-21 | 2019-02-05 | 中国移动通信集团公司 | 一种动态医疗知识库的构建方法及装置 |
CN104598642A (zh) * | 2015-02-13 | 2015-05-06 | 杜雨阳 | 一种标准疾病名称查找方法和系统 |
CN104899279A (zh) * | 2015-05-29 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 用于数据处理的系统以及数据处理的方法 |
CN104915413B (zh) * | 2015-06-05 | 2018-09-07 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种健康检测方法及系统 |
CN104915413A (zh) * | 2015-06-05 | 2015-09-16 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种健康检测方法及系统 |
CN105069036A (zh) * | 2015-07-22 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法及装置 |
CN105335488A (zh) * | 2015-10-16 | 2016-02-17 | 中国南方电网有限责任公司电网技术研究中心 | 一种知识库构建方法 |
CN106845058A (zh) * | 2015-12-04 | 2017-06-13 | 北大医疗信息技术有限公司 | 疾病数据的标准化方法及标准化装置 |
CN105912693A (zh) * | 2016-04-22 | 2016-08-31 | 北京搜狗科技发展有限公司 | 网络请求处理方法、网络数据获取方法、装置及服务器 |
CN105912693B (zh) * | 2016-04-22 | 2020-05-19 | 北京搜狗科技发展有限公司 | 网络请求处理方法、网络数据获取方法、装置及服务器 |
CN107066556A (zh) * | 2017-03-27 | 2017-08-18 | 竹间智能科技(上海)有限公司 | 用于人工智能对话系统的备选答案排序方法及装置 |
CN108877921A (zh) * | 2017-05-12 | 2018-11-23 | 京东方科技集团股份有限公司 | 医疗智能分诊方法和医疗智能分诊系统 |
CN107241429A (zh) * | 2017-06-30 | 2017-10-10 | 江西博瑞彤芸科技有限公司 | 信息交互处理方法和系统 |
CN108491206A (zh) * | 2018-04-12 | 2018-09-04 | 江南大学 | 一种spa单页面实现方法及系统 |
CN108717411A (zh) * | 2018-05-23 | 2018-10-30 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN108717411B (zh) * | 2018-05-23 | 2022-04-08 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN109065149A (zh) * | 2018-06-29 | 2018-12-21 | 康美药业股份有限公司 | 一种用于健康咨询平台的积分方法和系统 |
CN109119170A (zh) * | 2018-06-29 | 2019-01-01 | 康美药业股份有限公司 | 一种用于健康咨询平台的评价方法和系统 |
CN110083758A (zh) * | 2019-04-30 | 2019-08-02 | 闻康集团股份有限公司 | 一种医疗搜索引擎数据平台系统 |
CN111105854A (zh) * | 2019-12-12 | 2020-05-05 | 和宇健康科技股份有限公司 | 健康信息系统知识库的搜索引擎系统 |
CN111241834A (zh) * | 2020-01-20 | 2020-06-05 | 和宇健康科技股份有限公司 | 一种医护质量评价获取方法、装置、介质及终端设备 |
CN115618835A (zh) * | 2022-12-12 | 2023-01-17 | 苏州阿基米德网络科技有限公司 | 一种医院效益分析数据报表的获取方法、系统及电子设备 |
CN115618835B (zh) * | 2022-12-12 | 2023-03-10 | 苏州阿基米德网络科技有限公司 | 一种医院效益分析数据报表的获取方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101441636A (zh) | 一种基于知识库的医院信息搜索引擎及系统 | |
JP6416150B2 (ja) | 検索方法、検索システム及びコンピュータプログラム | |
CN102521337B (zh) | 一种基于海量知识网络的学术社区系统 | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
CN103136360B (zh) | 一种互联网行为标注引擎及对应该引擎的行为标注方法 | |
Binh Tran et al. | Predicting relevant news events for timeline summaries | |
CN101201838A (zh) | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
JP2006048686A (ja) | フレーズに基づく文書説明の生成方法 | |
CN102004782A (zh) | 一种搜索结果排序方法和搜索结果排序器 | |
JP2006048684A (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
CN102651011B (zh) | 一种确定文档特征和用户特征的方法和系统 | |
US20070271228A1 (en) | Documentary search procedure in a distributed system | |
Balipa et al. | Search engine using apache lucene | |
TWI605353B (zh) | File classification system, method and computer program product based on lexical statistics | |
Meng et al. | Data extraction from the web based on pre-defined schema | |
Fletcher | Implementing a BNC-compare-able web corpus | |
Mfenyana et al. | Development of a Facebook crawler for opinion trend monitoring and analysis purposes: case study of government service delivery in Dwesa | |
CN106326353A (zh) | 一种用于提供呈现信息的方法与设备 | |
TWI423053B (zh) | Domain Interpretation Data Retrieval Method and Its System | |
Bădărînză et al. | A dataset for evaluating query suggestion algorithms in information retrieval | |
CN103995849B (zh) | 一种事件跟踪方法及系统 | |
Ritharson et al. | Multi-Document Summarization Made Easy: An Abstractive Query-Focused System Using Web Scraping and Transformer Models | |
CN102622454B (zh) | 一种基于文本分析的面向视频网站的互联网视频搜索方法 | |
Zeng et al. | Supporting range queries in XML keyword search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090527 |