CN109448857A - 医疗咨询信息聚合分析方法 - Google Patents
医疗咨询信息聚合分析方法 Download PDFInfo
- Publication number
- CN109448857A CN109448857A CN201811211126.8A CN201811211126A CN109448857A CN 109448857 A CN109448857 A CN 109448857A CN 201811211126 A CN201811211126 A CN 201811211126A CN 109448857 A CN109448857 A CN 109448857A
- Authority
- CN
- China
- Prior art keywords
- answer
- doctor
- medical
- confidence level
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗咨询信息聚合分析方法,包括以下步骤:步骤1:利用网络爬虫技术手段获取现有的医疗健康咨询网站上的“问题‑答案‑医生”三元组形式的医疗信息;步骤2:将文本格式的医疗信息转化为基于实体的结构化数据;步骤3:计算结构化的问题之间的相似度,合并相似度高的问题以扩大问题的答案集;步骤4:利用迭代的方式计算答案的可信度,得到“问题‑答案‑可信度”形式的医疗知识。本发明以无监督的方式计算出医生的医疗知识水平和答案的可靠程度,节省了大量资金和时间成本,从而得到宝贵的医疗知识。
Description
技术领域
本发明涉及医疗咨询领域,具体地说,是一种医疗咨询信息聚合分析方法。
背景技术
随着社会经济的发展,人们的生活水平越来越高,对身体健康也更加关注,对权威健康信息的需求迫切增长。近年来,互联网、移动互联网等技术发展迅速、人们深度参与网络知识生产和在线社交,涌现出一大批在线问答咨询应用系统。其中,医疗众包问答网站因为可以方便的对病患进行及时初诊而受到广大用户的欢迎。在国外,如美国的medhelp.org,国内有寻医问药(xywy.com)、百度拇指医生(muzhi.baidu.com)等。在这些中,有数百万注册用户和数十万名注册医生,用户在线向网站输入自己的医疗问题,医生收到问题,根据患者情况给出诊断或治疗建议。这些医疗问答网站提供的多是多对多服务,即一名用户提出的问题会由多名医生来回答,而一名医生又对多个问题进行回答,所以这种服务模式下,医疗信息的增长速度非常快,例如,寻医问药网站中,每分钟就会有上百条问题提出,而每个问题都会产生多个答案,可见其信息产生速度之快。
在线医疗数据巨量增长,但是隐含在这些数据背后的医疗知识却无法有效甄别和提取,主要体现在医生的水平参差不齐,一条咨询问题的答案质量也有差别。如果能够更好地发现和利用这些知识将是一笔宝贵的财富。
计算对答案的可信度以及医生的知识水平有几个问题需要解决。第一,真值发现方法,为了计算答案的可信度以及医生的知识水平,一种可能的办法是标注答案的质量,然后学习分类或回归模型,但是,这是一个专业度比较高的领域,一般的工人无法对样本进行有效的标注,需要有一定医疗知识的工人去标注样本,这样就加大了标注的成本,所以,人工标注的监督学习方式在此问题上成本太高,甚至无法实现;第二,噪声输入的净化问题,医疗咨询网站上的医疗问答都是非结构化且嘈杂的文本数据,这给计算对答案的可信度以及医生的知识水平带来了不便,为了获得更好的效果,就需要更好地表达问题和答案;第三,长尾现象,大多数问题仅仅收到了两三个甚至只有一个答案,这就给筛选答案带来了麻烦,因为答案太少筛选也就没有意义了,而且这些仅有的几个答案甚至没有合理的,这就需要想办法扩大答案集;第四,同一个问题的答案之间的相关性,医疗咨询问题的答案不是唯一确定的,一个问题可能有多个合理可靠的答案,这些答案之间可能有比较高的相似性,这也可以成为计算答案可信度的一个重要依据。
目前,对于医疗问答信息的文本挖掘大多专注于医疗命名实体的识别以及实体之间的关系的发现,最终可以获取医疗问答对中潜在的医疗知识,但是未考虑医疗问答的质量问题。而现实中医疗问答网站中确实存在一些水平不高的医生,甚至一些医生仅仅是为了赚钱而未对患者的提问认真回答,那么得到的医疗知识的质量就难以保证。
发明内容
本发明的目的在于提供一种获取医疗众包问答网站上的问答信息,计算答案可信度及医生水平,从而得到医疗知识的方法。
实现本发明目的的技术解决方案为:一种医疗咨询信息聚合分析方法,包括以下步骤:
(1)利用网络爬虫技术获取医疗健康咨询网站上问答网页,通过网页解析获取文本格式的“问题-答案-医生”三元组形式的医疗信息;
(2)将文本格式的医疗信息转化为基于实体的结构化数据;
(3)计算结构化的问题之间的相似度,合并相似度超过特定阈值的问题以扩大问题的答案集;
(4)利用迭代的方式计算答案的可信度以及医生的知识水平评分,得到“问题-答案-可信度”形式的医疗知识;如果一名医生的水平高,则认为该医生所提供的答案可靠,如果一条答案可靠,则认为提供该答案的医生水平高。
本发明与现有技术相比,其显著优点:(1)本发明以无监督的方式,用迭代计算的思想计算出答案的可信度和医生的医疗知识水平,相比于有监督学习中大量标注医疗问答数据的方式,节省了大量资金和时间成本,从而得到宝贵的医疗知识。(2)针对“问题-答案”以及“医生-答案”上的长尾现象,本方法根据问题相似度来合并相似度高的问题,扩大答案集以便选出更可靠的答案;伪计数Cpseudo可以降低那些只回答了少量问题的医生的水平评分,避免回答少量问题的低水平医生由于偶然性而获得较高的评分。(3)相比专注于问答数据中医疗实体之间关系来挖掘医疗知识的方法,本方法从质量评估的角度去挖掘医疗问答信息中潜在的医疗知识,即利用迭代的方式从计算答案可信度及医生知识水平的角度来挖掘医疗问答信息中潜在的医疗知识,如此获取的医疗知识具有较高的质量保证。
附图说明
图1是本发明医疗咨询信息聚合分析方法的流程图。
图2是从网站的到文本格式的医疗问答数据的方式示意图。
图3是数据结构化过程中,提取关键词作为结构化数据的实体示意图。
图4是表示两个医疗咨询问题有较高的相似度,将它们合并为一个问题以扩大答案集的示意图。
图5是迭代计算答案可信度和医生水平的流程图。
图6表示同一个答案集中,相似度较高的答案之间提供支持,彼此提高可信度。
具体实施方式
本发明提出一种提取医疗知识的方法。其基本思想是,利用自动信息抽取的技术手段将网站上的“问题-答案”对以及医生的相关信息提取出来,通过计算对答案的可信度以及医生的知识水平进行评估,为医疗咨询问题筛选出质量较高的答案,形成宝贵的医疗知识。这些医疗知识有十分重要的现实意义,可用于构建智能医疗诊断系统的知识库。
下面结合说明书附图对本发明作进一步说明。
结合图1,包括以下步骤:
数据获取。选取特定的医疗健康咨询网站,利用现有的网络爬虫技术爬取网站上的医疗问答信息和对应医生的信息,包括患者性别、年龄、咨询问题和医生的回答,医生的信息包括科室和职称等级。将这些数据保存到数据库中。如图2所示,一条医疗咨询问题一般是一个网页,问题之后会有一条至多条答案并带有对应医生的资料链接,这些答案来至不同的医生。利用爬虫工具获取这些网页后,再用已有的网页解析工具解析这些网页以获取文本格式的{问题,答案,医生}三元组数据。
文本数据的结构化处理。从医疗健康咨询网站上获取的数据都是文本格式的,不便计算答案可信度和医生水平,所以要对这些数据进行结构化处理。目标数据结构是基于实体的,其形式为{问题,答案,医生}三元组的形式,其中“问题”的形式为{性别,年龄,科室,[几个关键词]},“答案”的形式为{几个关键词},“医生”的形式为{科室,职称等级}。如图3,这里使用一个非常大的医疗词汇库,首先对文本进行分词,然后遍历分词结果,存在于词库中的词将被选出作为关键词。由此得到的结构化数据将作为真值发现算法的输入。
相似问题合并。大多咨询问题收到的答案只有两三个甚至只有一个,这就是长尾现象,给答案的评估带来麻烦,答案太少评估也就没有太大意义了,甚至仅有的一两个答案本身可能不合理,那就无法选出合理的答案了。在患者提出的问题中,很多都是相似甚至完全相同的,把相似度高的咨询问题合并,只留下其中的一个问题,合并它们的答案集,就会明显扩大答案集。相似度的计算采用自然语言处理中的余弦相似度。如图4,假设有两个相似度极高的答案,问题Q1收到了3个答案,问题Q2收到了2个答案,单独地给这两个咨询问题计算答案可信度没有太大意义,因为有可能找不到比较可信的答案。有必要将这两个问题合并,那么问题的答案就变成了5个,从而扩大了答案集。
迭代计算答案可信度和医生水平。流程图如图5,其基本思想是,如果一名医生的水平比较高,就认为该医生所提供的答案比较可靠,如果一条答案比较可靠,就认为提供该答案的医生水平比较高。首先根据医生职称等级对医生在各个科室上的评分初始化,等级较高的医生获得的初始分数也较高。根据公式:
计算答案的可信度,xq表示问题q的一个可能答案,表示医生d对问题q提供的答案,是指示函数,xq和相同时为1,否则为0,表示医生d在科室t上的水平评分;表示问题q的两个不同答案之间的相似度,如图6所示,相似度越高两者之间相互提供的支持就越高,相互支持的答案可以提高彼此的可信度,如果一个答案与其他的答案差异比较大,那么这个答案得不到支持,可信度就比较低;adopted(xq)表示是否被患者采纳,若xq被采纳,那么它就应该具有更高的可信度。
以上对答案可信度的计算是在各个问题的答案集内分别计算的,公式(1)中,由于相似答案之间的相互支持机制,答案集的大小会影响到可信度数值的大小,这会对医生的水平评分计算产生影响。所以利用如下公式对同一问题中答案可信度进行归一化处理:
T(xq)=T(xq)/max
其中,max是问题q的答案集中可信度的最大值。
根据公式:
计算医生的水平评分,表示医生d在科室t上的答案集的模,如果比较小,那么式子中,伪计数Cpseudo会有绝对的影响力使变小,医生的分数也随之变低,从而避免长尾现象带来的偶然性。当比较大时,Cpseudo的影响就非常小甚至可以忽略。rank(d)是医生的职称等级,rankmax是等级机制中等级的最大值,就可以根据医生的职称等级给医生的评分打一个小幅度的加成分,既考虑到等级的加成又不让等级优势对医生评分有绝对的主导力。
通过以上计算就可以得到{问题,答案,可信度}形式的医疗知识,还可以得到医生的专业水平,这些医疗知识有很多用途,比如可用于智能诊断软件的知识。
Claims (5)
1.一种医疗咨询信息聚合分析方法,其特征在于,包括以下步骤:
(1)利用网络爬虫技术获取医疗健康咨询网站上问答网页,通过网页解析获取文本格式的“问题-答案-医生”三元组形式的医疗信息;
(2)将文本格式的医疗信息转化为基于实体的结构化数据;
(3)计算结构化的问题之间的相似度,合并相似度超过特定阈值的问题以扩大问题的答案集;
(4)利用迭代的方式计算答案的可信度以及医生的知识水平评分,得到“问题-答案-可信度”形式的医疗知识;如果一名医生的水平高,则认为该医生所提供的答案可靠,如果一条答案可靠,则认为提供该答案的医生水平高。
2.根据权利要求1所述的医疗咨询信息聚合分析方法,其特征在于:步骤(1)中,利用爬虫工具获取医疗健康咨询网站上的问答网页后,分析这些网页的结构,找出所需信息对应标签的特征,再利用网页解析工具提取出文本格式的{问题,答案,医生}三元组数据。
3.根据权利要求1所述的医疗咨询信息聚合分析方法,其特征在于:步骤(2)中,结构化数据是基于实体的,其形式为{问题,答案,医生}三元组的形式,其中“问题”的形式为{性别,年龄,科室,[关键词集合]},“答案”的形式为{关键词集合},“医生”的形式为{科室,职称等级};关键词的提取的方式是,使用一个医疗词汇库,首先对文本进行分词,然后遍历分词结果,存在于词库中的词将被选出作为关键词;由此得到的结构化数据将作为真值发现算法的输入。
4.根据权利要求1所述的医疗咨询信息聚合分析方法,其特征在于:步骤(3)中,将相似度超过特定阈值的咨询问题合并,只留下其中的一个问题,合并它们的答案集。
5.根据权利要求1所述的医疗咨询信息聚合分析方法,其特征在于:步骤(4)中,首先根据医生职称等级对医生在各个科室上的评分初始化;
根据公式:
计算答案的可信度,xq表示问题q的一个可能答案,表示医生d对问题q提供的答案,是指示函数,xq和相同时为1,否则为0,表示医生d在科室t上的水平评分;Sim(xq,x′q)表示问题q的两个不同答案之间的相似度;adopted(xq)表示是否被患者采纳,若xq被采纳,那么它就具有更高的可信度,则给其可信度一个加分;
利用下式:
T(xq)=T(xq)/max
对答案可信度进行归一化处理,其中,max是问题q的答案集中可信度的最大值;
根据公式:
计算医生的水平评分,表示医生d在科室t上的答案集的模,Cpseudo是伪计数,rank(d)是医生的职称等级,rankmax是等级机制中等级的最大值,根据医生的职称等级给医生的评分打一个加成分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811211126.8A CN109448857B (zh) | 2018-10-17 | 2018-10-17 | 医疗咨询信息聚合分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811211126.8A CN109448857B (zh) | 2018-10-17 | 2018-10-17 | 医疗咨询信息聚合分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448857A true CN109448857A (zh) | 2019-03-08 |
CN109448857B CN109448857B (zh) | 2021-10-26 |
Family
ID=65547305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811211126.8A Active CN109448857B (zh) | 2018-10-17 | 2018-10-17 | 医疗咨询信息聚合分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448857B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146065A (zh) * | 2022-09-02 | 2022-10-04 | 安徽商信政通信息技术股份有限公司 | 一种智能的信息上报相似内容合并方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
CN104965992A (zh) * | 2015-07-13 | 2015-10-07 | 南开大学 | 一种基于在线医疗问答信息的文本挖掘方法 |
CN106845061A (zh) * | 2016-11-02 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 智能问诊系统和方法 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
-
2018
- 2018-10-17 CN CN201811211126.8A patent/CN109448857B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
CN104965992A (zh) * | 2015-07-13 | 2015-10-07 | 南开大学 | 一种基于在线医疗问答信息的文本挖掘方法 |
CN106845061A (zh) * | 2016-11-02 | 2017-06-13 | 百度在线网络技术(北京)有限公司 | 智能问诊系统和方法 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
Non-Patent Citations (1)
Title |
---|
王静: ""在线问诊平台相似病例推荐"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146065A (zh) * | 2022-09-02 | 2022-10-04 | 安徽商信政通信息技术股份有限公司 | 一种智能的信息上报相似内容合并方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109448857B (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dalpiaz et al. | Detecting terminological ambiguity in user stories: Tool and experimentation | |
Kruschke et al. | The Bayesian New Statistics: Hypothesis testing, estimation, meta-analysis, and power analysis from a Bayesian perspective | |
CN104965992B (zh) | 一种基于在线医疗问答信息的文本挖掘方法 | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN106844658A (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN108182262A (zh) | 基于深度学习和知识图谱的智能问答系统构建方法和系统 | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN112650848A (zh) | 基于文本语义相关乘客评价的城铁舆情信息分析方法 | |
DE102021004157A1 (de) | Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten | |
CN107885857B (zh) | 一种搜索结果页用户行为模式挖掘方法、装置及系统 | |
CN107688583A (zh) | 创建用于自然语言处理装置的训练数据的方法和设备 | |
Wang et al. | Data acquisition model for online learning activity in distance English teaching based on xAPI | |
Geise et al. | Computational communication science: Lessons from working group sessions with experts of an emerging research field | |
Sun et al. | Intelligent oil well identification modelling based on deep learning and neural network | |
Baranowski et al. | Social welfare in the light of topic modelling | |
CN113254609B (zh) | 一种基于负样本多样性的问答模型集成方法 | |
CN109448857A (zh) | 医疗咨询信息聚合分析方法 | |
Cheng et al. | Exploring public sentiment and vaccination uptake of COVID-19 vaccines in England: a spatiotemporal and sociodemographic analysis of Twitter data | |
CN107798137A (zh) | 一种基于可加模型的多源异构数据融合架构系统 | |
CN116612843A (zh) | 一种心理测评掩饰性行为识别方法及系统 | |
Arianto et al. | Mining Unstructured Data in Social Media for Natural Disaster Management in Indonesia | |
CN109063485A (zh) | 一种基于漏洞平台的漏洞分类统计系统及方法 | |
KR101092165B1 (ko) | 웹 문서의 분류 및 분석 정확도를 향상시키는 문서 전처리 장치 | |
Shuey et al. | The life course perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |