CN104915406B - 一种面向大众医疗决策的用户搜索方法 - Google Patents

一种面向大众医疗决策的用户搜索方法 Download PDF

Info

Publication number
CN104915406B
CN104915406B CN201510295494.5A CN201510295494A CN104915406B CN 104915406 B CN104915406 B CN 104915406B CN 201510295494 A CN201510295494 A CN 201510295494A CN 104915406 B CN104915406 B CN 104915406B
Authority
CN
China
Prior art keywords
user
medical
medicine
crawl
query statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510295494.5A
Other languages
English (en)
Other versions
CN104915406A (zh
Inventor
胡琴敏
宋扬
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510295494.5A priority Critical patent/CN104915406B/zh
Publication of CN104915406A publication Critical patent/CN104915406A/zh
Application granted granted Critical
Publication of CN104915406B publication Critical patent/CN104915406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向大众医疗决策的用户搜索方法,其特点是利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策。本发明与现有技术相比查询结果结合了客观事实和主管诊断,具有很强的可靠性,有效解决了用户查询语句短的问题,方法简便,准确性好。

Description

一种面向大众医疗决策的用户搜索方法
技术领域
本发明涉及互联网信息搜索技术领域,尤其是一种基于Google和百度文本挖掘的面向大众医疗决策的用户搜索方法。
背景技术
目前,互联网技术的迅猛发展,互联网上的信息资源繁多,数字信息开始呈指数型增长。随着社会的平稳进步和经济的快速发展,各种污染和辐射也日益加剧,各种稀奇古怪的疾病层出不穷,生病的人群也越来越多。所谓术业有专攻,全球六十多亿人口中,医生(护士)所占的比重远远小于万分之一,甚至十万分之一,而医学专家更是少之又少,因此,医院里面总是人满为患。如何将医学知识大众化,成为把医学工作者从繁重的临床诊断工作中解放出来的关键。互联网的兴起和大众化的使用,使得信息的扩散速度和面积大大加快。互联网上有很多医学相关的网站,如:维基百科、百度百科等,这些网站中对各种医学疾病做了汇总,同时,也记录了疾病的发病时的症状、检测手段、治疗方法等很多有用的信息。由于这些信息具有权威性的,因此,普通大众可以通过这些信息来了解所患的疾病,同时找到一些疾病的预防和急救方法。互联网上的医学信息确实会给人们带来很多便利,但是科技的发展也带来了信息的爆炸,在现在这样一个大数据时代,如何从包罗万象的互联网上寻找到有用的信息成为了亟待解决的问题,医学信息的检索也同样如此。在百度等搜索引擎中检索医学名词,一般会检索出很多广告网站,由于算法的原因,这些广告网站的排名还比较靠前,一般会出现的首页中,但这些并不是用户想要获取的信息。如何解析用户有关临床医学的查询语句,从而进行再搜索以返回用户需要的信息,是我们要重点研究的问题。
现有技术的搜索引擎查询还没有通过文本来为用户进行诊断和医疗检测推荐或提供治疗方案等临床医学决策。其主要难点在于,普通大众对疾病的描述方式与专家的描述方式不同,一般不包含医学专有名词,这就增加了检索出精确有用结果的难度。另外,疾病的治疗方式因人而异,如何根据不同体质自动给出治疗方案,以获得用户预期的目的和效果,也是一个亟待解决的问题。发明内容
本发明的目的是针对现有技术的不足而设计的一种面向大众医疗决策的用户搜索方法,利用维基百科的开源数据建立医学词典,同时,通过百度对用户查询语句进行扩展,利用扩展后的查询语句进行检索,从而得到用户需要的信息,能够为用户实时的提供医疗信息,并且为用户返回的信息可靠实用,使用户能随时了解疾病护理知识,在一定程度上降低发病死亡率,提高了国家医疗水平。
本发明的目的是这样实现的:一种面向大众医疗决策的用户搜索方法,其特点是利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解病情和疾病治疗,具体操作按下述步骤进行:
(一)、网页的抓取
从维基百科的分类索引入口抓取“医学”和“药学”分类下的所有网页建立医学分类索引。
(二)、医学词典的建立
对上述抓取的网页进行解析处理,抽取带有医学标签的名词,建立按疾病名称为索引的医学词典。
(三)、查询语句的扩展
将用户有关临床医学的查询语句在百度或Google中搜索,抓取前十个检索结果的网页,对抓取的百度网页去停用词后找出频率最高的五个词,作为用扩展词加入到用户查询语句中进行扩展。
(四)、医疗信息的推荐
将上述扩展后的查询语句在已建立的医学词典中,利用DFR模型进行检索,将搜索到的文档按下式(a)计分排名,筛选出排名前三的文档推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策;
其中:q=1-p;
TF为查询词在整个字典中出现的频率;
tf为查询词在文档d中出现的频率;
N为文档总数。
本发明与现有技术相比具有以下优点:
⑴、易行性:维基百科的数据为开源数据,不需要额外成本。
⑵、简单性:只要掌握一定的网页抓取和解析技术,以及信息检索技术即
可自行实现。
⑶、实时性:根据用户的查询,可以及时给用户提供相关信息。
⑷、主客观相结合:维基百科中数据时经过科学和经验论证的,具有权威性和有效性,在百度网页中的查询扩展具有一般经验性,因此,最后的查询结果结合了客观事实和主管诊断,具有很强的可靠性。
附图说明
图1为本发明操作流程图。
具体实施方式
参阅附图1,本发明利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解病情和疾病治疗,具体操作按下述步骤进行:
(一)、医学词典的建立
第一步:抓取维基百科医学数据,从维基百科分类索引入口找到“医学”和“药学”两个分类,进入并抓取这两个主类下的所有页面。
第二步:按照维基百科的分类索引建立医学分类索引。
第三步:对抓取的网页进行解析处理,抽取包括病名、症状、治疗、种类、预防和传播等带有医学标签的信息。
第四步:对抽取的医学信息按疾病名称为索引建立医学词典。
(二)、查询语句的扩展
第一步:将用户有关临床医学的查询语句在百度或Google中搜索,并抓取前十个检索结果的网页。
第二步:对抓取的百度网页进行解析,去停用词后找到出现频率最高的五个词,作为用户查询语句的扩展,并加入到用户查询语句中。
(三)、医疗信息的推荐
将用户有关临床医学的查询语句在百度或Google中搜索,抓取前十个检索结果的网页,对抓取的百度网页去停用词后找出频率最高的五个词,作为用扩展词加入到用户查询语句中进行扩展;
(四)、医疗信息的推荐
将上述扩展后的查询语句在已建立的医学词典中,利用DFR模型进行检索,将搜索到的文档按下式(a)计分排名,筛选出排名前三的文档推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策;
其中,q=1-p;
TF为查询词在整个字典中出现的频率;
tf为查询词在文档d中出现的频率;
N为文档总数。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。

Claims (1)

1.一种面向大众医疗决策的用户搜索方法,其特征在于利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解病情和疾病治疗,具体操作按下述步骤进行:
(一)、网页的抓取
从维基百科的分类索引入口抓取“医学”和“药学”分类下的所有网页建立医学分类索引;
(二)、医学词典的建立
对上述抓取的网页进行解析处理,抽取带有医学标签的名词,建立按疾病名称为索引的医学词典;
(三)、查询语句的扩展
将用户有关临床医学的查询语句在百度或Google中搜索,抓取前十个检索结果的网页,对抓取的百度网页去停用词后找出频率最高的五个词,作为用扩展词加入到用户查询语句中进行扩展;
(四)、医疗信息的推荐
将上述扩展后的查询语句在已建立的医学词典中,利用DFR模型进行检索,将搜索到的文档按下式(a)计分排名,筛选出排名前三的文档推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策;
其中,q=1-p;
TF为查询词在整个字典中出现的频率;
tf为查询词在文档d中出现的频率;
N为文档总数。
CN201510295494.5A 2015-06-02 2015-06-02 一种面向大众医疗决策的用户搜索方法 Active CN104915406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510295494.5A CN104915406B (zh) 2015-06-02 2015-06-02 一种面向大众医疗决策的用户搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510295494.5A CN104915406B (zh) 2015-06-02 2015-06-02 一种面向大众医疗决策的用户搜索方法

Publications (2)

Publication Number Publication Date
CN104915406A CN104915406A (zh) 2015-09-16
CN104915406B true CN104915406B (zh) 2018-10-23

Family

ID=54084469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510295494.5A Active CN104915406B (zh) 2015-06-02 2015-06-02 一种面向大众医疗决策的用户搜索方法

Country Status (1)

Country Link
CN (1) CN104915406B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205337B (zh) * 2015-10-15 2018-08-21 上海楚腾信息技术有限公司 基于自然语言词汇分析的辅助生殖专家治疗方案推荐系统
CN106156482B (zh) * 2016-01-18 2019-07-02 袁洪 基于文献数据的药物推荐方法、装置及服务器
CN105825044A (zh) * 2016-03-10 2016-08-03 深圳市前海安测信息技术有限公司 基于网页浏览的医疗大数据分析及处理系统及方法
CN106096273A (zh) * 2016-06-08 2016-11-09 江苏华康信息技术有限公司 一种基于tf‑idf改进算法的疾病症状推导方法
CN110211682A (zh) * 2019-04-30 2019-09-06 河南中医药大学第一附属医院 基于Android系统的肝癌中医临床辅助系统的构建及应用
CN112185544B (zh) * 2020-09-10 2023-09-19 浙江传媒学院 基于语义的家庭医疗咨询决策支持方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882187A (zh) * 2010-06-29 2010-11-10 杭州动意科技有限公司 一种计算机实现的用于提供医疗参考信息的方法
CN102331999A (zh) * 2011-07-22 2012-01-25 大连亿创天地科技发展有限公司 一种用于医疗行业搜索框检索方法及系统
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5939141B2 (ja) * 2012-11-21 2016-06-22 富士ゼロックス株式会社 プログラム及び診療記録検索装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882187A (zh) * 2010-06-29 2010-11-10 杭州动意科技有限公司 一种计算机实现的用于提供医疗参考信息的方法
CN102331999A (zh) * 2011-07-22 2012-01-25 大连亿创天地科技发展有限公司 一种用于医疗行业搜索框检索方法及系统
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于医疗领域本体的搜索引擎的研究与设计";吴迪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515;论文第5章 *
"基于网页查询结果的广告查询扩展研究";刘文飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130815;论文第3-5章 *

Also Published As

Publication number Publication date
CN104915406A (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
CN104915406B (zh) 一种面向大众医疗决策的用户搜索方法
Lehmberg et al. The mannheim search join engine
US9817908B2 (en) Systems and methods for news event organization
Mohammadi et al. Which health and biomedical topics generate the most Facebook interest and the strongest citation relationships?
Lossio Ventura et al. Biomedical terminology extraction: A new combination of statistical and web mining approaches
Ong et al. Text mining in mosquito-borne disease: A systematic review
Noruzi et al. Google Patents: The global patent search engine
Movshovitz-Attias et al. Discovering subsumption relationships for web-based ontologies
Gkoufas et al. Suppl 1: Combining textual and visual information for image retrieval in the medical domain
Abrigo et al. A comparative analysis of N-Gram deep neural network approach to classifying human perception on Dengvaxia
Gu et al. Chemical-induced disease relation extraction with lexical features
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Wu et al. Clustering results of image searches by annotations and visual features
Kushima et al. Text data mining of the electronic medical record of the chronic hepatitis patient
Niebler et al. FolkTrails: Interpreting navigation behavior in a social tagging system
JP2008257511A (ja) 専門用語抽出装置、方法及びプログラム
Ernst et al. Bionex: A system for biomedical news event exploration
Flores et al. Tracking researcher mobility on the web using snippet semantic analysis
Dinh et al. Sense-based biomedical indexing and retrieval
Xing et al. Mixture model based contextual image retrieval
Badache Users' Traces for Enhancing Arabic Facebook Search
Xu et al. Building large collections of Chinese and English medical terms from semi-structured and encyclopedia websites
Guezouli et al. CAS-based information retrieval in semi-structured documents: CASISS model
Hajjem et al. Twitter as a multilingual source of comparable corpora
Srinivasarao et al. Effective term weighting in ALT text prediction for web image retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant