CN108461127A - 医疗数据关系图像获取方法、装置、终端设备及存储介质 - Google Patents

医疗数据关系图像获取方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN108461127A
CN108461127A CN201810031265.6A CN201810031265A CN108461127A CN 108461127 A CN108461127 A CN 108461127A CN 201810031265 A CN201810031265 A CN 201810031265A CN 108461127 A CN108461127 A CN 108461127A
Authority
CN
China
Prior art keywords
medical data
data relationship
chart
target
newer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810031265.6A
Other languages
English (en)
Other versions
CN108461127B (zh
Inventor
鲁宁
薛振坤
梅健健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810031265.6A priority Critical patent/CN108461127B/zh
Priority to PCT/CN2018/077476 priority patent/WO2019136807A1/zh
Publication of CN108461127A publication Critical patent/CN108461127A/zh
Application granted granted Critical
Publication of CN108461127B publication Critical patent/CN108461127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开一种医疗数据关系图像获取方法、装置、终端设备及存储介质。该医疗数据关系图像获取方法包括:获取至少一个目标医疗数据;采用Apriori算法对所述目标医疗数据进行关联性分析,获取医疗数据关系度;采用E‑charts工具对所述医疗数据关系度进行图表转换,获取医疗数据关系图像。该医疗数据关系图像获取方法可使用户能够直观看到疾病特征和症状特征之间的关系,有利于用户根据自身症状了解其可能的患病情况。

Description

医疗数据关系图像获取方法、装置、终端设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种医疗数据关系图像获取方法、装置、终端设备及存储介质。
背景技术
当前疾病的识别通常由医生根据病人的症状确定,需依赖于医生的专业和经验,无法使用户根据自身的症状情况及时了解自身的健康情况。用户在查询医疗网站时,医疗网站中提供的症状、疾病和治疗等医疗数据都是独立展示,没有提供各种医疗数据之间的关联关系(即关系度),使得用户根据无法根据这些医疗数据及时了解自己的健康状态。
发明内容
本发明实施例提供一种医疗数据关系图像获取方法、装置、终端设备及存储介质,以解决传统医疗数据独立展示的问题。
第一方面,本发明实施例提供一种医疗数据关系图像获取方法,包括:
获取至少一个目标医疗数据;
采用Apriori算法对所述目标医疗数据进行关联性分析,获取医疗数据关系度;
采用E-charts工具对所述医疗数据关系度进行图表转换,获取医疗数据关系图像。
第二方面,本发明实施例提供一种医疗数据关系图像获取装置,包括:
目标医疗数据获取模块,用于获取至少一个目标医疗数据;
医疗数据关系度获取模块,用于采用Apriori算法对所述目标医疗数据进行关联性分析,获取医疗数据关系度;
医疗数据关系图像获取模块,用于采用E-charts工具对所述医疗数据关系度进行图表转换,获取医疗数据关系图像。
第三方面,本发明实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述医疗数据关系图像获取方法的步骤。
第四方面,本发明实施例提供一种计算机可读介质,所述计算机可读介质存储有计算机程序,所述计算机程序被处理器执行时实现所述医疗数据关系图像获取方法的步骤。
本发明实施例提供的医疗数据关系图像获取方法、装置、终端设备及存储介质中,先获取至少一个目标医疗数据,然后,采用Apriori算法对目标医疗数据进行关联性分析,获取医疗数据关系度,以辅助用户判断患病概率,及时预防。最后,采用E-charts工具对医疗数据关系度进行图表转换,获取医疗数据关系图像,以使用户能够直观看到疾病特征和症状特征之间的关系,有利于用户根据自身症状了解其可能的患病情况。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中提供的医疗数据关系图像获取方法的一流程图。
图2是图1中步骤S10的一具体示意图。
图3是图2中步骤S12的一具体示意图。
图4是图1中步骤S20的一具体示意图。
图5是图1中步骤S30的一具体示意图。
图6是本发明实施例2中提供的医疗数据关系图像获取装置的一原理框图。
图7是本发明实施例4中提供的终端设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1示出本实施例中医疗数据关系图像获取方法的流程图。该医疗数据关系图像获取方法可快速从网络中采集到大量的医疗数据,以便基于采集到的医疗数据进行关系度分析。该医疗数据关系图像获取方法可具体应用在医疗知识库管理系统这一数据管理系统中,用于对用户所输入的症状特征进行关系度分析,为用户推荐疑似疾病特征列表,能够有效辅助用户了解自身健康状况。如图1所示,该医疗数据关系图像获取方法包括如下步骤:
S10:获取至少一个目标医疗数据。
其中,目标医疗数据是用于进行模型训练的数据。该目标医疗数据包括但不限于本实施例中的症状特征、疾病特征等医疗数据。本实施例中,通过获取目标医疗数据,以便后续进行模型训练。
S20:采用Apriori算法对目标医疗数据进行关联性分析,获取医疗数据关系度。
其中,Apriori算法是一种用于关联规则挖掘(Association rule mining)的代表性算法。Apriori算法广泛应用在各大行业中,计算量少,容易理解,能够有效挖掘数据间的潜在规则。医疗数据关系度是用于反映疾病特征和症状特征间的关联程度。具体地,采用Apriori算法对目标医疗数据进行关联性分析,通过不断循环产生N项频繁集(N>1)直到没有频繁集出现,以来获取医疗数据关系度,辅助用户能够快速了解到自身的健康情况,及时预防。
S30:采用E-charts工具对医疗数据关系度进行图表转换,获取医疗数据关系图像。
其中,医疗数据关系图像是指对医疗数据关系度进行图表转换所得到的图像。ECharts(Enterprise Charts,商业级数据图表)是一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的Canvas类库ZRender,能够给用户提供直观,生动,可高度个性化定制的数据可视化图表。采用Echarts工具可有效提高数据的可视化程度,交互性更高。
本实施例中,先获取至少一个目标医疗数据,然后,采用Apriori算法对目标医疗数据进行关联性分析,获取医疗数据关系度,以辅助用户判断患病概率,及时预防。最后,采用E-charts工具对医疗数据关系度进行图表转换,获取医疗数据关系图像,以使用户能够直观看到各数据间的关系,辅助用户分析和咨询等工作,提高工作效率。
在一具体实施方式中,如图2所示,步骤S10中,即获取至少一个目标医疗数据,具体包括如下步骤:
S11:获取目标网页地址。
其中,目标网页地址是预先定义好所要获取目标医疗数据对应的网页地址。例如:39健康网站。通过获取到目标网页地址,以使后续采用网络爬虫技术爬取目标医疗数据时,为基于目标网页地址获取目标医疗数据提供支持。
S12:采用爬虫工具爬取目标网页地址对应的网页,获取至少一个原始医疗数据。
其中,爬虫工具是按照一定的规则自动爬取网页地址所对应的网页内容的工具,例如Python爬虫工具。具体地,采用爬虫工具爬取目标网页地址所对应的网页内容,以获取至少一个原始医疗数据,每一原始医疗数据都包含实际疾病特征和对应的至少一个症状特征,例如感冒(实际疾病特征)对应流鼻涕、头疼和发烧等症状特征。本实施例中,采用爬虫工具爬取目标网页地址对应的网页,无需人工搜索,有利于提高数据采集的效率。
本实施例中,爬虫工具会采取周期性爬取的方式对目标网页地址进行爬取数据,以使原始医疗数据具有时序性,以使后续模型训练获取到的目标医疗特征也具有时序性。
S13:对至少一个原始医疗数据进行数据清洗,获取至少一个目标医疗数据。
其中,数据清洗是指对原始医疗数据按照一定规则进行处理,获取纯净的目标医疗数据的方法。目标医疗数据是指按照数据清洗规则进行处理得到的纯净的数据。该数据清洗规则包括但不限于去除重复的数据。由于每一原始医疗数据均包含实际疾病特征和对应的至少一个症状特征,依据数据清洗规则进行清洗时,可将实际疾病特征和症状特征均相同的两个或两个以上原始医疗数据合并为一原始医疗数据。本实施例中,通过对原始医疗数据进行数据清洗,以获取目标医疗数据,能够有效提升目标医疗数据的质量,并且,去除重复的原始医疗数据,以使后续采用目标医疗数据进行训练时,无需对重复的原始医疗数据进行再次训练,能够有效减少训练时长,节省时间,提高训练效率。
本实施例中,先获取目标网页地址,然后采用爬虫工具爬取目标网页地址对应的网页,以获取至少一个原始医疗数据,无需人工搜索,有利于提高数据采集的效率。最后对至少一个原始医疗数据进行数据清洗,获取至少一个目标医疗数据,以使后续采用目标医疗数据进行训练时,无需对重复的数据进行再次训练,能够有效减少训练时长,节省时间,提高训练效率。
在一具体实施方式中,如图3所示,步骤S12中,即采用爬虫工具爬取目标网页地址对应的网页,获取至少一个原始医疗数据,原始医疗数据包括一个疾病特征和对应的至少一个症状特征,具体包括如下步骤:
S121:采用爬虫工具,依据广度优先算法或深度优先算法爬取所述目标网页地址所链接的至少一个访问地址,每一所述访问地址对应一网页。
本实施例中,可以采用深度优先算法从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续追踪链接。目标网页地址对应一目标网页,该目标网页包括起始页和至少一个起始页所链接的至少一个访问地址,每一访问地址对应一访问网页。爬虫工具包括网页提取工具和网页下载工具。网页提取工具是用于提取访问地址的工具,步骤S121具体是采用网页提取工具爬取目标网页地址所链接的至少一个访问地址。网页下载工具是用于下载访问地址对应的网页的工具。
本实施例中,还可以采用广度优先算法不断从当前页面上爬取新的网页地址放入待下载消息队列中,直到预设停止条件满足时停止执行爬虫任务。其中,广度优先算法是指将新下载网页发现的链接直接插入到待抓取消息队列的末尾,也就是指网络爬虫会先抓取起始页中的所有网页,然后在选择其中的一个链接的网页,继续抓取在此网页中链接的所有网页。
S122:将至少一个访问地址存储在待处理消息队列中。
具体地,将步骤S121中爬取到的每一访问地址依据爬取到的时间先后顺序存储在待下载消息队列中,以便在执行步骤S123时,可基于待下载消息队列中的网页地址进行爬取数据。待下载消息队列依据先进先入的方式对访问地址进行处理,可使爬取访问地址和基于访问地址爬取原始医疗数据异步处理,有利于提高获取原始医疗数据效率。
具体地,爬虫工具中的网页提取工具会先抓取起始页中的所有网页内容,然后再选择起始页所链接的至少一个访问地址,继续抓取此访问地址链接的网页。本实施例中,起始页为目标网页地址。
S123:采用爬虫工具对待处理消息队列中的每一访问地址对应的网页进行数据提取,获取原始医疗数据。
具体地,采用网页下载工具根据待下载消息队列的每一访问地址自动下载该访问地址对应的网页中所有医疗数据。本实施例中,待下载消息队列中存储有多个包含原始医疗数据的网页地址,爬虫工具的网页下载工具依序从待下载消息队列中逐一获取访问地址并下载该访问地址对应的网页中的原始医疗数据。具体地,爬虫工具从待下载消息队列的队头获取到一访问地址并对该访问地址对应的网页进行下载,将下载的原始医疗数据存储在数据库后,注销待下载消息队列中相应的网页地址,重复上述步骤直至待下载消息队列中不存在访问地址,以获取爬虫工具爬取的所有网页中的原始医疗数据。本实施例中,爬虫工具中的网页下载工具根据用户设置的爬虫任务自动从互联网上爬取包含原始医疗数据的网页地址,无需人工搜索,有利于提高数据采集效率。
原始医疗数据包括但不限于症状特征和疾病特征,还可以包括就诊科室。本实施例中,在获取原始医疗数据之后,还会按照原始医疗数据的标识字段(即症状、疾病和就诊科室)进行存储得到症状表、疾病表和科室表。然后,再对各表中的数据进行标注,例如A1(标注代码)代表症状库中的第一个症状即A1=流鼻涕,A2代表症状库中的第二个症状即A2=发烧,B2代表疾病库第二个疾病即B2=感冒。最后,将每一就诊记录对照上述的标注代码进行标注,例如(流鼻涕,发烧,感冒)=(A1,A2,B2)。
本实施例中,采用爬虫工具,依据广度优先算法或深度优先算法爬取所述目标网页地址所链接的至少一个访问地址,并将获取到的访问地址存储在待下载消息队列中,再采用爬虫工具基于待下载消息队列中获取的访问地址下载原始医疗数据,使得访问地址下载的原始医疗数据异步处理,有利于提高原始医疗数据的获取效率。本实施例中,通过采用网页提取工具和网页下载工具异步处理获取原始医疗数据,有利于提高获取原始医疗数据的效率。
如图4所示,步骤S20中,即采用Apriori算法对目标医疗数据进行关联性分析,获取医疗数据关系度,具体包括如下步骤:
S21:基于目标医疗数据,获取至少一个第一候选集,根据每一第一候选集出现的次数确定对应的第一支持度。
其中,第一候选集是指在算法的第1次循环中基于目标医疗数据生成的一项集。第一支持度是指每一第一候选集在目标医疗数据中出现的次数。具体地,将对照标注代码进行标注后的就诊记录中的症状特征和疾病特征,输入到Apriori算法中进行分析,获取第一候选集,根据每一第一候选集出现的次数确定对应的第一支持度。例如:获取到的就诊记录如下:(流鼻涕,发烧,感冒)=(A1,A2,B2)、(流鼻涕,发烧,头疼,感冒)=(A1,A2,A3,B2),则获取的第一候选集为{A1},{A2},{A3},{B2},则{A1},{A2},{A3},{B2}这四个第一候选集对应的第一支持度分别为2,2,1,2。其中,流鼻涕,发烧,头疼,感冒即为本实施例中的目标医疗数据。
S22:选取第一支持度大于或等于预设支持度的第一候选集作为第一频繁集。
其中,预设支持度可以是用户预先设定好的,也可以是通过选取每一轮循环中产生的第一支持度中最小的第一支持度作为预设支持度。第一频繁集是指第一候选集对应的第一支持度大于预设支持度的项集。具体地,选取选取第一支持度大于或等于预设支持度的第一候选集作为第一频繁集,如步骤S21示例中,若预设支持度为1,则第一频繁集为{A1},{A2},{A3},{B2};若预设支持度为2,则第一频繁集为{A1},{A2},{B2}。
S23:根据自然连接定理和剪枝算法对第一频繁集和第一候选集进行迭代处理,获取更新的第一候选集、更新的第一支持度和更新的第一频繁集,直至更新的第一频繁集为空集时,则基于上一次更新的第一频繁集确定医疗数据关系度。
其中,更新的第一候选集是指第K次迭代中用于生成更新的第一频繁集的项集。更新的第一支持度是指每一更新的第一候选集在目标医疗数据中出现的次数。自然连接定理为生成的N项集中,若有两个N项集,当两个N项集中有N-1项个元素相同时,则可进行自然连接。例如有两个3项集:{A1,A2,B2}和{A1,A2,A3},这两个3项集由于有2项元素相同,因此是可进行自然连接。它们可以连接生成4项集{A1,A2,A3,B2}。又如两个3项集{A1,A2,B2}和{A1,A4,B1},这两个3项集由于没有2项相同的元素,因此是不可连接的。本实施例中,参数K的值与参数N的值相同。
如步骤S21示例中,若第一候选集为{A1},{A2},{A3},{B2},第一频繁集为{A1},{A2},{A3},{B2},则根据自然连接定理得到的更新的第一候选集为{A1,A2},{A1,A3},{A2,A3},{A2,B2},{A3,B2},其对应的更新的第一支持度为2,1,1,2,1。
剪枝算法是指通过判断支持度是否大于预设支持度而获得频繁集的算法。具体地,假设预设的支持度为2,根据剪枝算法,若此时更新的第一支持度大于或等于预设支持度,则将更新的第一支持度对应的第一候选集作为更新的第一频繁集。例如,根据自然连接定理得到的更新的第一候选集为{A1,A2},{A1,A3},{A2,A3},{A2,B2},{A3,B2},其对应的更新的第一支持度为2,1,1,2,1,则根据剪枝算法,此时更新的第一频繁集为{A1,A2},{A2,B2}。
继续根据自然连接定理和剪枝定理对更新的第一候选集和更新的第一频繁集进行迭代处理,直至更新的第一频繁集为空集。
其中,更新的第一频繁集为空集是指更新的第一支持度都小于预设支持度,则没有更新的第一候选集可以作为更新的第一频繁集,即更新的第一频繁集为空集,此时中止迭代处理。
计算上一次更新的第一频繁集对应的子集的置信度,并与预设置信度进行比较,以获取最终的强关联规则,将强关联规则对应的支持度作为医疗数据关系度。其中,一个概率样本的置信区间(Confidence interval)即为其置信度,是对这个样本的某个总体参数的区间估计,support为支持度。如步骤S21的实例中,设上一次获取到的更新的第一频繁集为{A1,A2},{A2,B2},基于该第一频繁集可以得到他们的子集为{A1},{A2},{A1,A2},{B2},{A2,B2},则得到的规则如下:A1->A2^B2(表示由症状A1,可以推出症状A2和疾病B2),A2->A1^B2(表示由症状A2,可以推出症状A1和疾病B2),A1^A2->B2(表示由症状A1,A2可推出疾病B2),B2->A1^A2(表示由疾病B2,可以推出症状A1,A2),A2^B2->A1(表示由症状A2和疾病B2,可推出症状A1)。然后,再根据公式support(A∪B)/suport(A)分别求出每条规则的置信度。本实施例中,则每条规则的置信度分别为support(A1,A2,B2)/support(A1)=1,support(A1,A2,B2)/support(A2)=1,support(A1,A2,B2)/support(A1,A2)=1,support(A1,A2,B2)/support(B2)=1,support(A1,A2,B2)/support(A2,B2)=1。将每条规则对应的置信度与预设置信度进行比较,选取大于或等于预设置信度的规则作为强关联规则,该强关联规则对应的置信度即为医疗数据关系度。其中,预设置信度为开发人员预先自定义的。
本实施例中,先基于疾病特征和症状特征,获取对应的第一候选集,以便根据每一第一候选集出现的次数确定对应的第一支持度,然后选取第一支持度大于或等于预设支持度的第一候选集作为第一频繁集,根据自然连接定理和剪枝定理对所述第一频繁集和所述第一候选集进行迭代处理,获取更新的第一候选集、更新的第一支持度和更新的第一频繁集,直至更新的第一频繁集为空集时,则基于上一次更新的第一频繁集确定所述医疗数据关系度。通过自然连接定理和剪枝定理来获取更新的第一频繁集,以减少计算量,提高医疗数据关系度的获取效率。
在一具体实施方式中,如图5所示,步骤S30中,即采用E-charts工具对医疗数据关系度进行图表转换,获取医疗数据关系图像,具体包括如下步骤:
S31:获取图表配置请求,图表配置请求包括图表ID。
其中,图表ID是能够唯一识别E-charts工具中所存储的不同图表类型所对应的图表转换函数的标识。图表配置请求是用户选择制作关系图像的请求。具体地,用户在选择关系图像制作之后,会在图表类型配置界面显示所有图表类型,用户可通过图表类型配置请求确定所要选择的关系图像的类型,操作过程简单方便,有利于提升用户体验。
S32:获取E-charts工具中与图表ID相对应的图表转换函数。
具体地,图表转换工具中存储有不同类型图表所对应的转换函数,每个转换函数都对应一转换函数标识,通过转换函数标识,可调用对应的转换函数方法。本实施例中,E-charts工具中包括但不限于饼图、柱状图和折线图、,条形图、柱状联动饼图、line折线图、scatter散点图、pie饼图、pie2嵌套环形、map地图、parallel平行坐标、graph关系图和graphLes圆圈型关系图等图表类型所对应的转换函数方法。
S33:调用图表转换函数对医疗数据关系度进行图表转换,获取医疗数据关系图像。
具体地,调用E-charts工具中的图表转换函数对医疗数据关系度进行转换,加载对应的医疗数据关系图像,并在可视化区域中显示该医疗数据关系图像。本实施例中,该E-charts工具会实时获取医疗数据关系度并更新关系图像,以使医疗数据关系图像具有时序性强,可靠性高的优点。
本实施例中,获取图表配置请求,图表配置请求包括图表ID,以便基于图表ID,获取E-charts工具中与图表ID相对应的图表转换函数,最后,调用图表转换函数对医疗数据关系度进行图表转换,获取医疗数据关系图像,以使用户能够更加直观的看到医疗数据间的关系度,辅助坐席分析和咨询等工作,提高工作效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
图6示出与实施例1中医疗数据关系图像获取方法一一对应的医疗数据关系图像获取装置的原理框图。如图6所示,该医疗数据关系图像获取装置包括目标医疗数据获取模块10、医疗数据关系度获取模块20和医疗数据关系图像获取模块30。其中,目标医疗数据获取模块10、医疗数据关系度获取模块20和医疗数据关系图像获取模块30的实现功能与实施例中医疗数据关系图像获取方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
目标医疗数据获取模块10,用于获取至少一个目标医疗数据。
医疗数据关系度获取模块20,用于采用Apriori算法对目标医疗数据进行关联性分析,获取医疗数据关系度。
医疗数据关系图像获取模块30,用于采用E-charts工具对医疗数据关系度进行图表转换,获取医疗数据关系图像。
优选地,目标医疗数据获取模块10包括目标网页地址获取单元11、原始医疗数据获取单元12和目标医疗数据获取单元13。
目标网页地址获取单元11,用于获取目标网页地址。
原始医疗数据获取单元12,用于采用爬虫工具爬取目标网页地址对应的网页,获取至少一个原始医疗数据。
目标医疗数据获取单元13,用于对至少一个原始医疗数据进行数据清洗,获取至少一个目标医疗数据。
优选地,原始医疗数据获取单元12包括访问地址获取子单元121、访问地址存储子单元122和原始医疗数据获取子单元123。
访问地址获取子单元121,用于采用爬虫工具,依据广度优先算法或深度优先算法爬取所述目标网页地址所链接的至少一个访问地址,每一所述访问地址对应一网页。
访问地址存储子单元122,将至少一个访问地址存储在待下载消息队列中。
原始医疗数据获取子单元123,采用爬虫工具对待下载消息队列中的每一访问地址对应的网页进行数据提取,获取原始医疗数据。
优选地,医疗数据关系度获取模块20包括第一候选集和第一支持度获取单元21、第一频繁集获取单元22和医疗数据关系度获取单元23。
第一候选集和第一支持度获取单元21,用于基于目标医疗数据,获取至少一个第一候选集,根据每一第一候选集出现的次数确定对应的第一支持度。
第一频繁集获取单元22,用于选取第一支持度大于或等于预设支持度的第一候选集作为第一频繁集。
医疗数据关系度获取单元23,用于根据自然连接定理和剪枝算法对第一频繁集和第一候选集进行迭代处理,获取更新的第一候选集、更新的第一支持度和更新的第一频繁集,直至更新的第一频繁集为空集时,则基于上一次更新的第一频繁集确定医疗数据关系度。
优选地,医疗数据关系图像获取模块30包括图表配置请求获取单元31、图表转换函数获取单元32和医疗数据关系图像获取单元33。
图表配置请求获取单元31,用于获取图表配置请求,图表配置请求包括图表ID。
图表转换函数获取单元32,用于获取E-charts工具中与图表ID相对应的图表转换函数。
医疗数据关系图像获取单元33,用于调用图表转换函数对医疗数据关系度进行图表转换,获取医疗数据关系图像。
实施例3
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中医疗数据关系图像获取方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中医疗数据关系图像获取装置中各模块/单元的功能,为避免重复,这里不再赘述。
实施例4
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备70包括:处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机程序73。处理器71执行计算机程序73时实现上述实施例1中医疗数据关系图像获取方法的步骤,例如图1所示的步骤S10至S30。或者,处理器71执行计算机程序73时实现上述实施例2中医疗数据关系图像获取装置的各模块/单元的功能,例如图6所示目标医疗数据获取模块10、医疗数据关系度获取模块20和医疗数据关系图像获取模块30的功能。
示例性的,计算机程序73可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器72中,并由处理器71执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序73在终端设备70中的执行过程。例如,计算机程序73可以被分割成目标医疗数据获取模块10、医疗数据关系度获取模块20和医疗数据关系图像获取模块30,各模块具体功能如如实施例2所述,在此不一一赘述。
终端设备70可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理解,图7仅仅是终端设备70的示例,并不构成对终端设备70的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器71可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器72可以是终端设备70的内部存储单元,例如终端设备70的硬盘或内存。存储器72也可以是终端设备70的外部存储设备,例如终端设备70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器72还可以既包括终端设备70的内部存储单元也包括外部存储设备。存储器72用于存储计算机程序以及终端设备所需的其他程序和数据。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种医疗数据关系图像获取方法,其特征在于,包括:
获取至少一个目标医疗数据;
采用Apriori算法对所述目标医疗数据进行关联性分析,获取医疗数据关系度;
采用E-charts工具对所述医疗数据关系度进行图表转换,获取医疗数据关系图像。
2.如权利要求1所述的医疗数据关系图像获取方法,其特征在于,所述获取至少一个目标医疗数据,包括:
获取目标网页地址;
采用爬虫工具爬取所述目标网页地址对应的网页,获取至少一个原始医疗数据;
对至少一个所述原始医疗数据进行数据清洗,获取至少一个目标医疗数据。
3.如权利要求2所述的医疗数据关系图像获取方法,其特征在于,所述采用爬虫工具爬取所述目标网页地址对应的网页,获取至少一个原始医疗数据,包括:
采用爬虫工具,依据广度优先算法或深度优先算法爬取所述目标网页地址所链接的至少一个访问地址,每一所述访问地址对应一网页;
将至少一个所述访问地址存储在待处理消息队列中;
采用爬虫工具对所述待处理消息队列中的每一所述访问地址对应的网页进行数据提取,获取所述原始医疗数据。
4.如权利要求1所述的医疗数据关系图像获取方法,其特征在于,所述采用Apriori算法对所述目标医疗数据进行关联性分析,获取医疗数据关系度,包括:
基于所述目标医疗数据,获取至少一个第一候选集,根据每一所述第一候选集出现的次数确定对应的第一支持度;
选取第一支持度大于或等于预设支持度的所述第一候选集作为第一频繁集;
根据自然连接定理和剪枝算法对所述第一频繁集和所述第一候选集进行迭代处理,获取更新的第一候选集、更新的第一支持度和更新的第一频繁集,直至更新的第一频繁集为空集时,则基于上一次更新的第一频繁集确定所述医疗数据关系度。
5.如权利要求1所述的医疗数据关系图像获取方法,其特征在于,采用E-charts工具对所述医疗数据关系度进行图表转换,获取医疗数据关系图像,包括:
获取图表配置请求;所述图表配置请求包括图表ID;
获取所述E-charts工具中与所述图表ID相对应的图表转换函数;
调用所述图表转换函数对所述医疗数据关系度进行图表转换,获取所述医疗数据关系图像。
6.一种医疗数据关系图像获取装置,其特征在于,包括:
目标医疗数据获取模块,用于获取至少一个目标医疗数据;
医疗数据关系度获取模块,用于采用Apriori算法对所述目标医疗数据进行关联性分析,获取医疗数据关系度;
医疗数据关系图像获取模块,用于采用E-charts工具对所述医疗数据关系度进行图表转换,获取医疗数据关系图像。
7.如权利要求6所述的医疗数据关系图像获取装置,其特征在于,所述医疗数据关系度获取模块,包括
第一候选集和第一支持度获取单元,用于基于所述目标医疗数据,获取至少一个第一候选集,根据每一所述第一候选集出现的次数确定对应的第一支持度;
第一频繁集获取单元,用于选取第一支持度大于或等于预设支持度的所述第一候选集作为第一频繁集;
医疗数据关系度获取单元,用于根据自然连接定理和剪枝算法对所述第一频繁集和所述第一候选集进行迭代处理,获取更新的第一候选集、更新的第一支持度和更新的第一频繁集,直至更新的第一频繁集为空集时,则基于上一次更新的第一频繁集确定所述医疗数据关系度。
8.如权利要求6所述的医疗数据关系图像获取装置,其特征在于,所述医疗数据关系图像获取模块,包括:
图表配置请求获取单元,用于获取图表配置请求;所述图表配置请求包括图表ID;
图表转换函数获取单元,用于获取所述E-charts工具中与所述图表ID相对应的图表转换函数;
医疗数据关系图像获取单元,用于调用所述图表转换函数对所述医疗数据关系度进行图表转换,获取所述医疗数据关系图像。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述医疗数据关系图像获取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述医疗数据关系图像获取方法的步骤。
CN201810031265.6A 2018-01-12 2018-01-12 医疗数据关系图像获取方法、装置、终端设备及存储介质 Active CN108461127B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810031265.6A CN108461127B (zh) 2018-01-12 2018-01-12 医疗数据关系图像获取方法、装置、终端设备及存储介质
PCT/CN2018/077476 WO2019136807A1 (zh) 2018-01-12 2018-02-28 医疗数据关系图像获取方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810031265.6A CN108461127B (zh) 2018-01-12 2018-01-12 医疗数据关系图像获取方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN108461127A true CN108461127A (zh) 2018-08-28
CN108461127B CN108461127B (zh) 2020-10-20

Family

ID=63221426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810031265.6A Active CN108461127B (zh) 2018-01-12 2018-01-12 医疗数据关系图像获取方法、装置、终端设备及存储介质

Country Status (2)

Country Link
CN (1) CN108461127B (zh)
WO (1) WO2019136807A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备
CN112349399A (zh) * 2020-11-12 2021-02-09 杭州火树科技有限公司 基于关联算法的手术缺漏自动检测方法
CN112908484A (zh) * 2021-01-18 2021-06-04 吾征智能技术(北京)有限公司 一种跨模态融合分析疾病的系统、设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715013A (zh) * 2015-01-26 2015-06-17 南京邮电大学 一种基于Hadoop的用户健康数据分析方法和系统
CN104794234A (zh) * 2015-05-06 2015-07-22 华北电力大学 用于同业对标的数据处理方法和装置
CN105022783A (zh) * 2015-06-03 2015-11-04 南京邮电大学 一种基于Hadoop的用户服务安全系统和方法
CN105893765A (zh) * 2016-04-06 2016-08-24 成都数联易康科技有限公司 一种基于Echarts的分级诊疗分析及数据可视化系统
US20170310733A1 (en) * 2012-10-01 2017-10-26 Dexcom, Inc. Analyte data retriever
CN107563857A (zh) * 2017-08-31 2018-01-09 齐鲁工业大学 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055908B (zh) * 2016-06-13 2019-01-04 武汉理工大学 基于云计算的个人医疗信息推荐方法及系统
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170310733A1 (en) * 2012-10-01 2017-10-26 Dexcom, Inc. Analyte data retriever
CN104715013A (zh) * 2015-01-26 2015-06-17 南京邮电大学 一种基于Hadoop的用户健康数据分析方法和系统
CN104794234A (zh) * 2015-05-06 2015-07-22 华北电力大学 用于同业对标的数据处理方法和装置
CN105022783A (zh) * 2015-06-03 2015-11-04 南京邮电大学 一种基于Hadoop的用户服务安全系统和方法
CN105893765A (zh) * 2016-04-06 2016-08-24 成都数联易康科技有限公司 一种基于Echarts的分级诊疗分析及数据可视化系统
CN107563857A (zh) * 2017-08-31 2018-01-09 齐鲁工业大学 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备
CN112349399A (zh) * 2020-11-12 2021-02-09 杭州火树科技有限公司 基于关联算法的手术缺漏自动检测方法
CN112349399B (zh) * 2020-11-12 2022-05-24 杭州火树科技有限公司 基于关联算法的手术缺漏自动检测方法
CN112908484A (zh) * 2021-01-18 2021-06-04 吾征智能技术(北京)有限公司 一种跨模态融合分析疾病的系统、设备、存储介质

Also Published As

Publication number Publication date
WO2019136807A1 (zh) 2019-07-18
CN108461127B (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
US9760990B2 (en) Cloud-based infrastructure for feedback-driven training and image recognition
CN107896175A (zh) 数据采集方法和装置
CN108461152A (zh) 医疗模型训练方法、医疗识别方法、装置、设备及介质
CN107330238A (zh) 医疗信息采集、处理、存储与显示方法与装置
CN108461127A (zh) 医疗数据关系图像获取方法、装置、终端设备及存储介质
CN108459962A (zh) 代码规范性检测方法、装置、终端设备及存储介质
Beheshti et al. Enabling the analysis of cross-cutting aspects in ad-hoc processes
Harrison et al. Estimating evolution of temporal sequence changes: a practical approach to inferring ancestral developmental sequences and sequence heterochrony
CN103714133A (zh) 数据运维管理方法及装置
US20220392585A1 (en) Method for training compound property prediction model, device and storage medium
Bauer et al. Fast event-based epidemiological simulations on national scales
CN109063144A (zh) 可视化网络爬虫方法及装置
CN111492344A (zh) 用于监测结构化查询语言(sql)查询的执行的系统和方法
CN113656558A (zh) 基于机器学习对关联规则进行评估的方法及装置
CN110275903A (zh) 提高机器学习样本的特征生成效率的方法及系统
CN114270313A (zh) 一种计算机实现的方法、计算机程序以及物理计算环境
US20180144002A1 (en) Methods and apparatuses for interpreter-based utilization of measure logic
Huson et al. Autumn algorithm—computation of hybridization networks for realistic phylogenetic trees
JP6822220B2 (ja) 推論結果可視化装置、推論結果可視化方法、及びプログラム
Greenberg Protecting virtual things: patentability of artificial intelligence technology for the internet of things
Gordon et al. TSI-GNN: extending graph neural networks to handle missing data in temporal settings
CN110119784A (zh) 一种订单推荐方法及装置
Li et al. An agnostic and efficient approach to identifying features from execution traces
CN109344145B (zh) 一种基于数据标准规范的数据清洗方法、装置和系统
US11263230B2 (en) Method and system of intelligent numeric categorization of noisy data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant