CN104915406A - 一种面向大众医疗决策的用户搜索方法 - Google Patents
一种面向大众医疗决策的用户搜索方法 Download PDFInfo
- Publication number
- CN104915406A CN104915406A CN201510295494.5A CN201510295494A CN104915406A CN 104915406 A CN104915406 A CN 104915406A CN 201510295494 A CN201510295494 A CN 201510295494A CN 104915406 A CN104915406 A CN 104915406A
- Authority
- CN
- China
- Prior art keywords
- medical
- user
- query
- dictionary
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 201000010099 disease Diseases 0.000 claims abstract description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 25
- 238000011282 treatment Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000003745 diagnosis Methods 0.000 claims abstract description 7
- 208000024891 symptom Diseases 0.000 claims abstract description 6
- 239000003814 drug Substances 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向大众医疗决策的用户搜索方法,其特点是利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策。本发明与现有技术相比查询结果结合了客观事实和主管诊断,具有很强的可靠性,有效解决了用户查询语句短的问题,方法简便,准确性好。
Description
技术领域
本发明涉及互联网信息搜索技术领域,尤其是一种基于Google和百度文本挖掘的面向大众医疗决策的用户搜索方法。
背景技术
目前,互联网技术的迅猛发展,互联网上的信息资源繁多,数字信息开始呈指数型增长。随着社会的平稳进步和经济的快速发展,各种污染和辐射也日益加剧,各种稀奇古怪的疾病层出不穷,生病的人群也越来越多。所谓术业有专攻,全球六十多亿人口中,医生(护士)所占的比重远远小于万分之一,甚至十万分之一,而医学专家更是少之又少,因此,医院里面总是人满为患。如何将医学知识大众化,成为把医学工作者从繁重的临床诊断工作中解放出来的关键。互联网的兴起和大众化的使用,使得信息的扩散速度和面积大大加快。互联网上有很多医学相关的网站,如:维基百科、百度百科等,这些网站中对各种医学疾病做了汇总,同时,也记录了疾病的发病时的症状、检测手段、治疗方法等很多有用的信息。由于这些信息具有权威性的,因此,普通大众可以通过这些信息来了解所患的疾病,同时找到一些疾病的预防和急救方法。互联网上的医学信息确实会给人们带来很多便利,但是科技的发展也带来了信息的爆炸,在现在这样一个大数据时代,如何从包罗万象的互联网上寻找到有用的信息成为了亟待解决的问题,医学信息的检索也同样如此。在百度等搜索引擎中检索医学名词,一般会检索出很多广告网站,由于算法的原因,这些广告网站的排名还比较靠前,一般会出现的首页中,但这些并不是用户想要获取的信息。如何解析用户有关临床医学的查询语句,从而进行再搜索以返回用户需要的信息,是我们要重点研究的问题。
现有技术的搜索引擎查询还没有通过文本来为用户进行诊断和医疗检测推荐或提供治疗方案等临床医学决策。其主要难点在于,普通大众对疾病的描述方式与专家的描述方式不同,一般不包含医学专有名词,这就增加了检索出精确有用结果的难度。另外,疾病的治疗方式因人而异,如何根据不同体质自动给出治疗方案,以获得用户预期的目的和效果,也是一个亟待解决的问题。发明内容
本发明的目的是针对现有技术的不足而设计的一种面向大众医疗决策的用户搜索方法,利用维基百科的开源数据建立医学词典,同时,通过百度对用户查询语句进行扩展,利用扩展后的查询语句进行检索,从而得到用户需要的信息,能够为用户实时的提供医疗信息,并且为用户返回的信息可靠实用,使用户能随时了解疾病护理知识,在一定程度上降低发病死亡率,提高了国家医疗水平。
本发明的目的是这样实现的:一种面向大众医疗决策的用户搜索方法,其特点是利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解病情和疾病治疗,具体操作按下述步骤进行:
(一)、网页的抓取
从维基百科的分类索引入口抓取“医学”和“药学”分类下的所有网页建立医学分类索引。
(二)、医学词典的建立
对上述抓取的网页进行解析处理,抽取带有医学标签的名词,建立按疾病名称为索引的医学词典。
(三)、查询语句的扩展
将用户有关临床医学的查询语句在百度或Google中搜索,抓取前十个检索结果的网页,对抓取的百度网页去停用词后找出频率最高的五个词,作为用扩展词加入到用户查询语句中进行扩展。
(四)、医疗信息的推荐
将上述扩展后的查询语句在已建立的医学词典中,利用DFR模型进行检索,将搜索到的文档按下式(a)计分排名,筛选出排名前三的文档推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策;
其中:q=1-p;
TF为查询词在整个字典中出现的频率;
tf为查询词在文档d中出现的频率;
N为文档总数。
本发明与现有技术相比具有以下优点:
⑴、易行性:维基百科的数据为开源数据,不需要额外成本。
⑵、简单性:只要掌握一定的网页抓取和解析技术,以及信息检索技术即
可自行实现。
⑶、实时性:根据用户的查询,可以及时给用户提供相关信息。
⑷、主客观相结合:维基百科中数据时经过科学和经验论证的,具有权威性和有效性,在百度网页中的查询扩展具有一般经验性,因此,最后的查询结果结合了客观事实和主管诊断,具有很强的可靠性。
附图说明
图1为本发明操作流程图。
具体实施方式
参阅附图1,本发明利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解病情和疾病治疗,具体操作按下述步骤进行:
(一)、医学词典的建立
第一步:抓取维基百科医学数据,从维基百科分类索引入口找到“医学”和“药学”两个分类,进入并抓取这两个主类下的所有页面。
第二步:按照维基百科的分类索引建立医学分类索引。
第三步:对抓取的网页进行解析处理,抽取包括病名、症状、治疗、种类、预防和传播等带有医学标签的信息。
第四步:对抽取的医学信息按疾病名称为索引建立医学词典。
(二)、查询语句的扩展
第一步:将用户有关临床医学的查询语句在百度或Google中搜索,并抓取前十个检索结果的网页。
第二步:对抓取的百度网页进行解析,去停用词后找到出现频率最高的五个词,作为用户查询语句的扩展,并加入到用户查询语句中。
(三)、医疗信息的推荐
将用户有关临床医学的查询语句在百度或Google中搜索,抓取前十个检索结果的网页,对抓取的百度网页去停用词后找出频率最高的五个词,作为用扩展词加入到用户查询语句中进行扩展;
(四)、医疗信息的推荐
将上述扩展后的查询语句在已建立的医学词典中,利用DFR模型进行检索,将搜索到的文档按下式(a)计分排名,筛选出排名前三的文档推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策;
其中,q=1-p;
TF为查询词在整个字典中出现的频率;
tf为查询词在文档d中出现的频率;
N为文档总数。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (1)
1.一种面向大众医疗决策的用户搜索方法,其特征在于利用维基百科抓取的医学数据,建立包括病状、病症以及相关的检测手段和治疗方案的医学词典,将扩展后的查询语句在医学词典里搜索出相关的医疗信息推荐给用户,以帮助用户了解病情和疾病治疗,具体操作按下述步骤进行:
(一)、网页的抓取
从维基百科的分类索引入口抓取“医学”和“药学”分类下的所有网页建立医学分类索引;
(二)、医学词典的建立
对上述抓取的网页进行解析处理,抽取带有医学标签的名词,建立按疾病名称为索引的医学词典;
(三)、查询语句的扩展
将用户有关临床医学的查询语句在百度或Google中搜索,抓取前十个检索结果的网页,对抓取的百度网页去停用词后找出频率最高的五个词,作为用扩展词加入到用户查询语句中进行扩展;
(四)、医疗信息的推荐
将上述扩展后的查询语句在已建立的医学词典中,利用DFR模型进行检索,将搜索到的文档按下式(a)计分排名,筛选出排名前三的文档推荐给用户,以帮助用户了解疾病的检测和诊断以及治疗的临床医学决策;
其中,q=1-p;
TF为查询词在整个字典中出现的频率;
tf为查询词在文档d中出现的频率;
N为文档总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510295494.5A CN104915406B (zh) | 2015-06-02 | 2015-06-02 | 一种面向大众医疗决策的用户搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510295494.5A CN104915406B (zh) | 2015-06-02 | 2015-06-02 | 一种面向大众医疗决策的用户搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915406A true CN104915406A (zh) | 2015-09-16 |
CN104915406B CN104915406B (zh) | 2018-10-23 |
Family
ID=54084469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510295494.5A Active CN104915406B (zh) | 2015-06-02 | 2015-06-02 | 一种面向大众医疗决策的用户搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915406B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205337A (zh) * | 2015-10-15 | 2015-12-30 | 上海楚腾信息技术有限公司 | 基于自然语言词汇分析的辅助生殖专家治疗方案推荐系统 |
CN106096273A (zh) * | 2016-06-08 | 2016-11-09 | 江苏华康信息技术有限公司 | 一种基于tf‑idf改进算法的疾病症状推导方法 |
CN106156482A (zh) * | 2016-01-18 | 2016-11-23 | 袁洪 | 基于文献数据的药物推荐方法、装置及服务器 |
WO2017152638A1 (zh) * | 2016-03-10 | 2017-09-14 | 深圳市前海安测信息技术有限公司 | 基于网页浏览的医疗大数据分析及处理系统及方法 |
CN110211682A (zh) * | 2019-04-30 | 2019-09-06 | 河南中医药大学第一附属医院 | 基于Android系统的肝癌中医临床辅助系统的构建及应用 |
CN111241844A (zh) * | 2018-11-29 | 2020-06-05 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
CN112185544A (zh) * | 2020-09-10 | 2021-01-05 | 浙江传媒学院 | 基于语义的家庭医疗咨询决策支持方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882187A (zh) * | 2010-06-29 | 2010-11-10 | 杭州动意科技有限公司 | 一种计算机实现的用于提供医疗参考信息的方法 |
CN102331999A (zh) * | 2011-07-22 | 2012-01-25 | 大连亿创天地科技发展有限公司 | 一种用于医疗行业搜索框检索方法及系统 |
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
US20140143232A1 (en) * | 2012-11-21 | 2014-05-22 | Fuji Xerox Co., Ltd. | Non-transitory computer readable medium, medical record search apparatus, and medical record search method |
-
2015
- 2015-06-02 CN CN201510295494.5A patent/CN104915406B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882187A (zh) * | 2010-06-29 | 2010-11-10 | 杭州动意科技有限公司 | 一种计算机实现的用于提供医疗参考信息的方法 |
CN102331999A (zh) * | 2011-07-22 | 2012-01-25 | 大连亿创天地科技发展有限公司 | 一种用于医疗行业搜索框检索方法及系统 |
US20140143232A1 (en) * | 2012-11-21 | 2014-05-22 | Fuji Xerox Co., Ltd. | Non-transitory computer readable medium, medical record search apparatus, and medical record search method |
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
Non-Patent Citations (2)
Title |
---|
刘文飞: ""基于网页查询结果的广告查询扩展研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
吴迪: ""基于医疗领域本体的搜索引擎的研究与设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205337A (zh) * | 2015-10-15 | 2015-12-30 | 上海楚腾信息技术有限公司 | 基于自然语言词汇分析的辅助生殖专家治疗方案推荐系统 |
CN105205337B (zh) * | 2015-10-15 | 2018-08-21 | 上海楚腾信息技术有限公司 | 基于自然语言词汇分析的辅助生殖专家治疗方案推荐系统 |
CN106156482A (zh) * | 2016-01-18 | 2016-11-23 | 袁洪 | 基于文献数据的药物推荐方法、装置及服务器 |
CN106156482B (zh) * | 2016-01-18 | 2019-07-02 | 袁洪 | 基于文献数据的药物推荐方法、装置及服务器 |
WO2017152638A1 (zh) * | 2016-03-10 | 2017-09-14 | 深圳市前海安测信息技术有限公司 | 基于网页浏览的医疗大数据分析及处理系统及方法 |
CN106096273A (zh) * | 2016-06-08 | 2016-11-09 | 江苏华康信息技术有限公司 | 一种基于tf‑idf改进算法的疾病症状推导方法 |
CN111241844A (zh) * | 2018-11-29 | 2020-06-05 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
CN110211682A (zh) * | 2019-04-30 | 2019-09-06 | 河南中医药大学第一附属医院 | 基于Android系统的肝癌中医临床辅助系统的构建及应用 |
CN112185544A (zh) * | 2020-09-10 | 2021-01-05 | 浙江传媒学院 | 基于语义的家庭医疗咨询决策支持方法 |
CN112185544B (zh) * | 2020-09-10 | 2023-09-19 | 浙江传媒学院 | 基于语义的家庭医疗咨询决策支持方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104915406B (zh) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915406B (zh) | 一种面向大众医疗决策的用户搜索方法 | |
Hassan et al. | Claimbuster: The first-ever end-to-end fact-checking system | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
US10503828B2 (en) | System and method for answering natural language question | |
Lehmberg et al. | The mannheim search join engine | |
US8819047B2 (en) | Fact verification engine | |
US9817908B2 (en) | Systems and methods for news event organization | |
Hienert et al. | Digital library research in action–supporting information retrieval in sowiport | |
EP1793318A2 (en) | Answer determination for natural language questionning | |
Lossio Ventura et al. | Biomedical terminology extraction: A new combination of statistical and web mining approaches | |
Armentano et al. | NLP-based faceted search: Experience in the development of a science and technology search engine | |
Sasikumar et al. | A survey of natural language question answering system | |
Derici et al. | A closed-domain question answering framework using reliable resources to assist students | |
RU2473119C1 (ru) | Способ и система семантического поиска электронных документов | |
Choi | A complete assessment of tagging quality: A consolidated methodology | |
Oard et al. | TREC 2006 at Maryland: Blog, Enterprise, Legal and QA Tracks. | |
Perea-Ortega et al. | Applying NLP techniques for query reformulation to information retrieval with geographical references | |
Fu et al. | Mining newsworthy events in the traffic accident domain from Chinese microblog | |
JP2006164086A (ja) | オンライン知識検索支援装置、およびオンライン知識検索支援方法 | |
Ernst et al. | Bionex: A system for biomedical news event exploration | |
Tran et al. | A model of vietnamese person named entity question answering system | |
Fang et al. | Related entity finding by unified probabilistic models | |
Flores et al. | Tracking researcher mobility on the web using snippet semantic analysis | |
Gao et al. | Enhancing knowledge sharing in stack overflow via automatic external web resources linking | |
Bar-Ilan | Bibliometrics of" Information Retrieval"-A Tale of Three Databases. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |