CN112347055A - 一种基于云计算的医疗数据处理方法及系统 - Google Patents
一种基于云计算的医疗数据处理方法及系统 Download PDFInfo
- Publication number
- CN112347055A CN112347055A CN202011255366.5A CN202011255366A CN112347055A CN 112347055 A CN112347055 A CN 112347055A CN 202011255366 A CN202011255366 A CN 202011255366A CN 112347055 A CN112347055 A CN 112347055A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- files
- cloud computing
- small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种云计算的技术领域,揭露了一种基于云计算的医疗数据处理方法,包括:获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分;利用文件合并算法进行小数据文件的合并,并将合并结果与大数据文件存储到云计算平台;利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,并将匿名处理的医疗数据文件发送到云计算平台中;利用缓存替换算法将云计算平台中的数据存入缓存区。本发明还提供了一种基于云计算的医疗数据处理系统。本发明实现了基于云计算的数据处理。
Description
技术领域
本发明涉及云计算的技术领域,尤其涉及一种基于云计算的医疗数据处理方法及系统。
背景技术
在数据呈井喷式增长的时代,云计算技术成为研究热点之一。云计算平台凭借其近乎无尽的存储空间和计算能力,为用户提供更为便捷的数据访问,通过结合云计算对医疗数据进行处理,成为当前研究领域的热门话题。
而在现有云环境下,随着海量小文件的增长会导致NameNode内存不足,从而导致文件读取效率急速下降的问题。
鉴于此,如何在云环境下实现更为高效的数据存储,并进行数据计算,成为本领域技术人员亟待解决的问题。
发明内容
针对医疗数据中存在海量小文件数据的问题,利用一种小文件合并算法实现小文件的有效存储,并结合最近最少使用算法、最不经常使用算法,在某段时间内对频率较高的文件合并进行读取,有效提高数据文件的读取效率,同时利用基于匿名元组的数据匿名算法对所存储的医疗数据进行匿名处理。
为实现上述目的,本发明提供的一种基于云计算的医疗数据处理方法,包括:
获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分;
利用文件合并算法进行小数据文件的合并,并将合并结果与大数据文件存储到云计算平台;
利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,并将匿名处理的医疗数据文件发送到云计算平台中;
利用缓存替换算法将云计算平台中的数据存入缓存区。
可选地,所述将医疗数据文件进行小数据文件和大数据文件的划分,包括:
(1)初始化参数,建立并且初始化集合M和T;所述M为小数据文件的集合,T为文件标签集合;具体地,所述医疗数据小数据文件为医疗患者以及医护人员的数据信息文件,文件条目标签包括姓名、年龄等个人信息,文件标签为医疗患者数据文件标签、医护人员数据文件标签以及医院信息数据文件标签;
(2)遍历全部的医疗数据文件,获取到文件的句柄,得到医疗数据文件文件的具体信息;
(3)提取到文件后,进文件的大小进行判断,如果该文件是大文件,那么跳转到第(6)步,如果该文件是小文件,那么接着运行;具体地,所述医疗数据大文件为某个医院的全部医疗数据信息,包括医院的所有科室数据信息,医院中所有医护人员以及医疗患者的数据信息;
(4)获取文件的文件大小以及文件类型,根据这两个信息获得该文件的文件标签tag;
(5)向文件设置tag标签,对tag上的文件数量计算,并判断是否运行完全部文件,如果执行没有完成,那么返回至(2)运行,如果执行完成,那么继续下一步;
(6)终止文件划分算法。
可选地,所述利用文件合并算法进行小数据文件的合并,包括:
(1)利用文件判别模块对写入的数据文件进行判断,如果数据文件是大数据文件则不需要进行合并文件,直接发送至云计算端进行存储;如果为小数据文件,则进行小数据文件的合并;
(2)依据小数据文件的文件标签对小数据文件分类,并将分类结果发送至合并模块,调用合并模块对小文件进行合并;所述小数据文件的分类类别包括医疗患者小数据文件、医护人员小数据文件以及医院信息小数据文件;
(3)文件合并模块检查与文件标签相应的关联的队列上的临时数据存储大小:如果该数据量大小与设置的文件合并阈值相比较大,则在队列中加入队尾队列,形成一个全新的队列,并合并前一个队列,反之还需要在队列中重新插入数据,直到存储文件队列长度高于阈值;
(4)高于合并阈值队列的文件需要合并小数据文件,合并后删除所有的小数据文件;
(5)基于合并文件元数据多级索引上的需求进行映射文件,映射成两级映射文件结构;
(6)用户发送读取文件内容后,按照文件扩展名在小文件元数据文件集合中查找与条件相符的文件信息,按照小文件名称获取相应小文件的全部的映射数据;
(7)向云计算平台传输所有映射记录,并对存储与映射上是否具有本文件信息进行判断,假如存在该信息可以向用户返回,假如无信息则要发送读取请求至云计算平台的NameNode,读取本文件信息后向用户发送。
可选地,所述利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,包括:
1)对于所存储的每个文件,将其转换为数据表格T,其中数据条数n,属性值m,并创建初始簇阵列C={c1,c2,...,cm},同时将每个簇代表向量初始化;将数据表格存储到簇阵列中;
2)计算数据表T的相异度矩阵DM(T):
d(i,j)为第i个簇和第j个簇的相异度;
dij为第i个簇和第j个簇之间的欧式距离;
δij为第i簇和第j个簇之间的标准差;
3)将数据表T中的所有点标记为False,选择点ti作为簇Ci的质心,并标记为True;选择一个跟质心距离最近的False点并设为敏感词s;将该点加入簇Ci后,若簇Ci中敏感词s的数量大于αk,则舍弃该点,否则将该点加入簇Ci中并调整质心位置,其中α,k为匿名参数,本发明将α设置为0.1,k设置为30;
4)将未分组的点加入到距离最近的簇中,并重复3),直到所有簇中的敏感词数量均大于αk;
5)在相异度矩阵DM(T)中找出最小的簇间距d(s,t),并将簇s和簇t聚合为一个簇u;同时将簇t和簇s包含的元组加入到簇u中;
6)重新计算簇中的敏感词数量,将满足敏感词s的数量大于αk的簇以数据文件的形式发送给云计算平台,未满足敏感词s的数量大于αk的簇返回3),直到所有的簇均以数据文件的形式发送给云计算平台。
可选地,所述利用缓存替换算法将云计算平台中的数据存入缓存区的流程为:
(1)缓存区上保存一个新的数据文件F后,查询该缓存区中所有文件的近期访问时间戳,获取时间戳最小的文件,将这个文件称作为M;
(2)对访问文件M的频率采集,假如访问文件M的频率与平均访问频率相比较低时,需要跳转至(6)中,反之按照下一流程执行;
(3)查询该缓存区中所有文件的近期访问时间戳,获取时间戳第二小的文件,将时间戳仅小于M文件的文件作为文件N,并对最近访问文件M与N的时间戳间隔进行对比,假如该值与系统设置的间隔阈值相比要更高,则跳转至(6),反之执行下个流程;
(4)获取文件N的访问频率,如果访问文件N的频率高于平均频率,那么跳转至(6),否则执行下个流程;
(5)删除在缓存区保存的数据文件N,然后跳转至(7);
(6)删除在缓存区保存的数据文件M;
(7)在缓存区上添加数据文件F。
可选地,所述进行缓存区数据文件判断的流程为:
(1)缓存区中保存小文件后系统会自动对小文件请求判断,假如发送的为写入文件请求,那么进入下一流程,假如发出的想修改文件请求,那么可以跳转至(3),假如发送的请求是读取文件,那么跳转至(4);
(2)对于请求是写文件请求,系统首先要对小文件进行预处理,再合并小文件,完成后在云计算平台后端系统上保存已合并文件,执行本次写请求,写文件期间,要在缓存文件中写入信息,且客户端无法对其读取,这时写文件对缓存区的统一性不会造成严重影响;
(3)对于请求是修改文件请求,由于需要在缓存区记录中保存修改请求信息,所以首先对是否要更新缓存进行判断。假如要更新,那么使用修改记录中的数据对缓存数据进行更新,并对云计算平台中保存的文件信息更新,确保所保存文件与缓存区文件相互统一,从而完成本次操作;
(4)对于请求是读取文件请求,直接在缓存中进行数据的查询,如果查询到该数据,直接返回该数据;假如未找到信息需要读取云计算平台上已合并的文件,再向缓存区更新,结束后将需要的文件返回。
此外,为实现上述目的,本发明还提供一种基于云计算的医疗数据处理系统,所述系统包括:
医疗数据获取装置,用于获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分;
医疗数据处理器,用于利用文件合并算法进行小数据文件的合并,并利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,同时将匿名处理的医疗数据文件发送到云计算平台中;
医疗数据存储装置,用于利用缓存替换算法将云计算平台中的数据存入缓存区。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有医疗数据处理程序指令,所述医疗数据处理程序指令可被一个或者多个处理器执行,以实现如上所述的基于云计算的医疗数据处理的实现方法的步骤。
相对于现有技术,本发明提出一种基于云计算的医疗数据处理方法,该技术具有以下优势:
首先,本发明提出一种小数据文件的合并算法,在将大量文件写入后,由数据处理层自动对大文件全部过滤,将它们直接保存到云计算平台中,然后缓存剩下的小文件,缓存小文件到达一定数量后对其分组处理,处理原则为根据小文件的类型、小文件的大小等特征不同而分组,并在各分组的小文件上设置标签;文件合并模块检查与文件标签相应的关联的队列上的临时数据存储大小:如果该数据量大小与设置的文件合并阈值相比较大,这时要在队列中加入队尾队列,形成一个全新的队列,并合并前一个队列,反之还需要在队列中重新插入数据,直到存储文件队列长度高于阈值,而高于合并阈值队列的文件需要合并小数据文件,合并后删除所有的小数据文件;本发明所述小数据文件合并算法通过合并医疗数据中海量存在的小文件,有效缓解了由于文件过多导致NameNode内存不足,从而导致文件读取效率急速下降的问题,同时对合并文件进行多级索引,可以大大提升小文件的检索效率,使得读取文件效率也大幅提高。
本发明提出一种基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,在初始化阶段,为每个输入向量创建一个新的集群,将数据表中的所有点标记为False,选择点ti作为簇Ci的质心,并标记为True;选择一个跟质心距离最近的False点并设为敏感词s;将该点加入簇Ci后,若簇Ci中敏感词s的数量大于αk,则舍弃该点,否则将该点加入簇Ci中并调整质心位置,其中α,k为匿名参数,本发明将α设置为0.1,k设置为30,最后将满足敏感词s的数量大于αk的簇以数据文件的形式发送给云计算平台;本发明通过利用聚类算法将数据文件中的数据记录进行聚类处理,使用相异度表示两个数据记录向量的不相似性,从而得到数据文件的相异度矩阵DM(T):
d(i,j)为第i个数据记录和第j个数据记录的相异度;dij为第i个数据记录和第j个数据记录之间的欧式距离;δij为第i数据记录和第j个数据记录之间的标准差;通过选择将数据记录相异度更小的数据记录聚类在一起,从而将数据文件中的数据记录聚类成k类进行存储,保证了云计算平台中聚类后的数据记录不能区分其他k-1类数据记录;同时在聚类过程中对每条数据记录中所包含的隐私数据记录的比例进行限制,并遍历数据记录中所存在的敏感词,使得k类数据记录中所包含的隐私数据记录所占比例小于等于α,对聚类后的每类数据记录中隐私数据记录比例进行制约,从而对数据文件中的数据记录排布进行更新;由于更新后数据文件中的数据记录是聚类后的数据记录,有效降低了数据文件中数据记录的数量,从而降低了数据文件的通信成本,同时每类数据记录中隐私数据记录的比例受到了限制,并通过该限制对数据文件进行匿名处理,避免了一条数据记录的泄露,导致大量用户的隐私数据泄露的问题。
同时本发明提出一种缓存替换算法,将需要进行处理的医疗数据存储到缓存区中,通过设置一个较大的阈值,访问本文件时间高于本阈值后,需要在缓存空间上将本文件删除,假如在内存中较长周期的间隔并未被访问的文件,这时要删除该文件,释放的空间用于存储其他新文件;本算法在运行时将文件上的访问频率、访问次数及时间局限性等问题考虑在内,对访问频率设置一个最高值,用户在访问时超过该值要对文件的平均访问次数计算。缓存区保存一个新文件后,本算法要对缓存文件上近期访问的文件、文件访问次数及频率等综合评价,假如缓存区中具有将要进行缓存的文件,则直接修改缓存区中对应文件内容即可,改完后对修改信息进行记录,更为高效地实现医疗数据的检索。
附图说明
图1为本发明一实施例提供的一种基于云计算的医疗数据处理方法的流程示意图;
图2为本发明一实施例提供的一种基于云计算的医疗数据处理系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对医疗数据中存在海量小文件数据的问题,利用一种小文件合并算法实现小文件的有效存储,并结合最近最少使用算法、最不经常使用算法,在某段时间内对频率较高的文件合并进行读取,有效提高数据文件的读取效率,同时利用基于匿名元组的数据匿名算法对所存储的医疗数据进行匿名处理。参照图1所示,为本发明一实施例提供的基于云计算的医疗数据处理方法示意图。
在本实施例中,基于云计算的医疗数据处理方法包括:
S1、获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分。
首先,本发明获取医疗数据文件,并利用文件划分算法对医疗数据文件进行划分,划分结果为小数据文件和大数据文件,所述文件划分算法的流程为:
(1)初始化参数,建立并且初始化集合M和T;所述M为小数据文件的集合,T为文件标签集合;具体地,所述医疗数据小数据文件为医疗患者以及医护人员的数据信息文件,文件条目标签包括姓名、年龄等个人信息,文件标签为医疗患者数据文件标签、医护人员数据文件标签以及医院信息数据文件标签;
(2)遍历全部的医疗数据文件,获取到文件的句柄,得到医疗数据文件文件的具体信息;
(3)提取到文件后,进文件的大小进行判断,如果该文件是大文件,那么跳转到第(6)步,如果该文件是小文件,那么接着运行;具体地,所述医疗数据大文件为某个医院的全部医疗数据信息,包括医院的所有科室数据信息,医院中所有医护人员以及医疗患者的数据信息;
(4)获取文件的文件大小以及文件类型,根据这两个信息获得该文件的文件标签tag;
(5)向文件设置tag标签,对tag上的文件数量计算,并判断是否运行完全部文件,如果执行没有完成,那么返回至(2)运行,如果执行完成,那么继续下一步;
(6)终止文件划分算法。
S2、利用文件合并算法进行小数据文件的合并,并将合并结果与大数据文件存储到云计算平台。
进一步地,本发明利用文件合并算法进行小数据文件的合并,所述文件合并算法的流程为:
(1)利用文件判别模块对写入的数据文件进行判断,如果数据文件是大数据文件则不需要进行合并文件,直接发送至云计算端进行存储;如果为小数据文件,则进行小数据文件的合并;
(2)依据小数据文件的文件标签对小数据文件分类,并将分类结果发送至合并模块,调用合并模块对小文件进行合并;所述小数据文件的分类类别包括医疗患者小数据文件、医护人员小数据文件以及医院信息小数据文件;
(3)文件合并模块检查与文件标签相应的关联的队列上的临时数据存储大小:如果该数据量大小与设置的文件合并阈值相比较大,这时要在队列中加入队尾队列,形成一个全新的队列,并合并前一个队列,反之还需要在队列中重新插入数据,直到存储文件队列长度高于阈值;
(4)高于合并阈值队列的文件需要合并小数据文件,合并后删除所有的小数据文件;
(5)基于合并文件元数据多级索引上的需求进行映射文件,映射成两级映射文件结构;
(6)用户发送读取文件内容后,按照文件扩展名在小文件元数据文件集合中查找与条件相符的文件信息,按照小文件名称获取相应小文件的全部的映射数据;
(7)向云计算平台传输所有映射记录,并对存储与映射上是否具有本文件信息进行判断,假如存在该信息可以向用户返回,假如无信息则要发送读取请求至云计算平台的NameNode,读取本文件信息后向用户发送。
S3、利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,并将匿名处理的医疗数据文件发送到云计算平台中。
进一步地,本发明利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,所述基于匿名元组的数据匿名算法流程为:
1)对于所存储的每个文件,将其转换为数据表格T,其中数据条数n,属性值m,并创建初始簇阵列C={c1,c2,...,cm},同时将每个簇代表向量初始化;将数据表格存储到簇阵列中;
2)计算数据表T的相异度矩阵DM(T):
d(i,j)为第i个簇和第j个簇的相异度;
dij为第i个簇和第j个簇之间的欧式距离;
δij为第i簇和第j个簇之间的标准差;
3)将数据表T中的所有点标记为False,选择点ti作为簇Ci的质心,并标记为True;选择一个跟质心距离最近的False点并设为敏感词s;将该点加入簇Ci后,若簇Ci中敏感词s的数量大于αk,则舍弃该点,否则将该点加入簇Ci中并调整质心位置,其中α,k为匿名参数,本发明将α设置为0.1,k设置为30;
4)将未分组的点加入到距离最近的簇中,并重复3),直到所有簇中的敏感词数量均大于αk;
5)在相异度矩阵DM(T)中找出最小的簇间距d(s,t),并将簇s和簇t聚合为一个簇u;同时将簇t和簇s包含的元组加入到簇u中;
6)重新计算簇中的敏感词数量,将满足敏感词s的数量大于αk的簇以数据文件的形式发送给云计算平台,未满足敏感词s的数量大于αk的簇返回3),直到所有的簇均以数据文件的形式发送给云计算平台。
S4、利用缓存替换算法将云计算平台中的数据存入缓存区。
进一步地,本发明利用缓存替换算法将云计算平台中的数据存入缓存区,所述缓存替换算法的流程为:
(1)缓存区上保存一个新的数据文件F后,查询该缓存区中所有文件的近期访问时间戳,获取时间戳最小的文件,将这个文件称作为M;
(2)对访问文件M的频率采集,假如访问文件M的频率与平均访问频率相比较低时,需要跳转至(6)中,反之按照下一流程执行;
(3)查询该缓存区中所有文件的近期访问时间戳,获取时间戳第二小的文件,将这个文件称作为N,并对最近访问文件M与N的时间戳间隔进行对比,假如该值与系统设置的间隔阈值相比要更高,则跳转至(6),反之执行下个流程;
(4)获取文件N的访问频率,如果访问文件N的频率高于平均频率,那么跳转至(6),否则执行下个流程;
(5)删除在缓存区保存的数据文件N,然后跳转至(7);
(6)删除在缓存区保存的数据文件M;
(7)在缓存区上添加数据文件F。
对于不同的文件类型,缓存区进行一次判断,从而采用对应的处理方式,以保障缓存区上存储的文件与云计算平台后端保存的文件相同,以下为具体操作流程:
(1)缓存区中保存小文件后系统会自动对小文件请求判断,假如发送的为写入文件请求,那么进入下一流程,假如发出的想修改文件请求,那么可以跳转至(3),假如发送的请求是读取文件,那么跳转至(4);
(2)对于请求是写文件请求,系统首先要对小文件进行预处理,再合并小文件,完成后在云计算平台后端系统上保存已合并文件,执行本次写请求,写文件期间,要在缓存文件中写入信息,且客户端无法对其读取,这时写文件对缓存区的统一性不会造成严重影响;
(3)对于请求是修改文件请求,由于需要在缓存区记录中保存修改请求信息,所以首先对是否要更新缓存进行判断。假如要更新,那么使用修改记录中的数据对缓存数据进行更新,并对云计算平台中保存的文件信息更新,确保所保存文件与缓存区文件相互统一,从而完成本次操作;
(4)对于请求是读取文件请求,直接在缓存中进行数据的查询,如果查询到该数据,直接返回该数据;假如未找到信息需要读取云计算平台上已合并的文件,再向缓存区更新,结束后将需要的文件返回。
下面通过一个算法实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境为:实验的开发环境为Intel(R)Core(TM)i5-3470S CPU@2.90GHz 2.89GHz和8GB内存的PC机上,系统为windows10系统。对比方法为基于哈希索引的数据存储方法以及基于倒索引的数据存储方法。
在本发明所述算法实验中,本实验通过5T的医疗数据,分别使用本发明所述方法以及对比方法进行医疗数据的检索,将数据检索的时间作为数据处理方法的评价指标。
根据实验结果,基于哈希索引的数据存储方法的数据检索时间为0.78s,基于倒索引的数据存储方法的数据检索时间为0.85s,本发明所述算法的数据检索时间为0.68s,相较于对比算法,本发明所提出的基于云计算的医疗数据处理方法能更为高效地完成医疗数据的存储和检索。
发明还提供一种基于云计算的医疗数据处理系统。参照图2所示,为本发明一实施例提供的基于云计算的医疗数据处理系统的内部结构示意图。
在本实施例中,所述基于云计算的医疗数据处理系统1至少包括医疗数据获取装置11、医疗数据处理器12、医疗数据存储装置13,通信总线14,以及网络接口15。
其中,医疗数据获取装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
医疗数据处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。医疗数据处理器12在一些实施例中可以是基于云计算的医疗数据处理系统1的内部存储单元,例如该基于云计算的医疗数据处理系统1的硬盘。医疗数据处理器12在另一些实施例中也可以是基于云计算的医疗数据处理系统1的外部存储设备,例如基于云计算的医疗数据处理系统1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,医疗数据处理器12还可以既包括基于云计算的医疗数据处理系统1的内部存储单元也包括外部存储设备。医疗数据处理器12不仅可以用于存储安装于基于云计算的医疗数据处理系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
医疗数据存储装置13在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行医疗数据处理器12中存储的程序代码或处理数据,例如医疗数据处理程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于云计算的医疗数据处理系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及基于云计算的医疗数据处理系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于云计算的医疗数据处理系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,医疗数据处理器12中存储有医疗数据处理程序指令;医疗数据存储装置13执行医疗数据处理器12中存储的医疗数据处理程序指令的步骤,与基于云计算的医疗数据处理方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有医疗数据处理程序指令,所述医疗数据处理程序指令可被一个或多个处理器执行,以实现如下操作:
获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分;
利用文件合并算法进行小数据文件的合并,并将合并结果与大数据文件存储到云计算平台;
利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,并将匿名处理的医疗数据文件发送到云计算平台中;
利用缓存替换算法将云计算平台中的数据存入缓存区。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于云计算的医疗数据处理方法,其特征在于,所述方法包括:
获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分;
利用文件合并算法进行小数据文件的合并,并将合并结果与大数据文件存储到云计算平台;
利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,并将匿名处理的医疗数据文件发送到云计算平台中;
利用缓存替换算法将云计算平台中的数据存入缓存区。
2.如权利要求1所述的一种基于云计算的医疗数据处理方法,其特征在于,所述将医疗数据文件进行小数据文件和大数据文件的划分,包括:
(1)初始化参数,建立并且初始化集合M和T;所述M为小数据文件的集合,T为文件标签集合;
(2)遍历全部的医疗数据文件,获取到文件的句柄,得到医疗数据文件文件的具体信息;
(3)提取到文件后,进文件的大小进行判断,如果该文件是大文件,那么跳转到第(6)步,如果该文件是小文件,那么接着运行;
(4)获取文件的文件大小以及文件类型,根据这两个信息获得该文件的文件标签tag;
(5)向文件设置tag标签,对tag上的文件数量计算,并判断是否运行完全部文件,如果执行没有完成,那么返回至(2)运行,如果执行完成,那么继续下一步;
(6)终止文件划分算法。
3.如权利要求2所述的一种基于云计算的医疗数据处理方法,其特征在于,所述利用文件合并算法进行小数据文件的合并,包括:
(1)利用文件判别模块对写入的数据文件进行判断,如果数据文件是大数据文件则不需要进行合并文件,直接发送至云计算端进行存储;如果为小数据文件,则进行小数据文件的合并;
(2)依据小数据文件的文件标签对小数据文件分类,并将分类结果发送至合并模块,调用合并模块对小文件进行合并;
(3)文件合并模块检查与文件标签相应的关联的队列上的临时数据存储大小:如果该数据量大小与设置的文件合并阈值相比较大,在队列中加入队尾队列,形成一个全新的队列,并合并前一个队列,反之则需要在队列中重新插入数据,直到存储文件队列长度高于阈值;
(4)高于合并阈值队列的文件需要合并小数据文件,合并后删除所有的小数据文件;
(5)基于合并文件元数据多级索引上的需求进行映射文件,映射成两级映射文件结构;
(6)用户发送读取文件内容后,按照文件扩展名在小文件元数据文件集合中查找与条件相符的文件信息,按照小文件名称获取相应小文件的全部映射数据;
(7)向云计算平台传输所有映射记录,并对存储与映射上是否具有所述文件信息进行判断,假如存在该文件信息则向用户返回,假如无文件信息则要发送读取请求至云计算平台的NameNode,读取本文件信息后向用户发送。
4.如权利要求3所述的一种基于云计算的医疗数据处理方法,其特征在于,所述利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,包括:
1)对于所存储的每个文件,将其转换为数据表格T,其中数据条数n,属性值m,并创建初始簇阵列C={c1,c2,…,cm},同时将每个簇代表向量初始化;将数据表格存储到簇阵列中;
2)计算数据表T的相异度矩阵DM(T):
d(i,j)为第i个簇和第j个簇的相异度;
dij为第i个簇和第j个簇之间的欧式距离;
δij为第i簇和第j个簇之间的标准差;
3)将数据表T中的所有点标记为False,选择点ti作为簇Ci的质心,并标记为True;选择一个跟质心距离最近的False点并设为敏感词s;将该点加入簇Ci后,若簇Ci中敏感词s的数量大于αk,则舍弃该点,否则将该点加入簇Ci中并调整质心位置,其中α,k为匿名参数,本发明将α设置为0.1,k设置为30;
4)将未分组的点加入到距离最近的簇中,并重复3),直到所有簇中的敏感词数量均大于αk;
5)在相异度矩阵DM(T)中找出最小的簇间距d(s,t),并将簇s和簇t聚合为一个簇u;同时将簇t和簇s包含的元组加入到簇u中;
6)重新计算簇中的敏感词数量,将满足敏感词s的数量大于αk的簇以数据文件的形式发送给云计算平台,未满足敏感词s的数量大于αk的簇返回3),直到所有的簇均以数据文件的形式发送给云计算平台。
5.如权利要求4所述的一种基于云计算的医疗数据处理方法,其特征在于,所述利用缓存替换算法将云计算平台中的数据存入缓存区的流程为:
(1)缓存区上保存一个新的数据文件F后,查询该缓存区中所有文件的近期访问时间戳,获取时间戳最小的文件,将这个文件称作为M;
(2)对访问文件M的频率采集,假如访问文件M的频率与平均访问频率相比较低时,需要跳转至(6)中,反之按照下一流程执行;
(3)查询该缓存区中所有文件的近期访问时间戳,将时间戳仅小于M文件的文件作为文件N,并对最近访问文件M与N的时间戳间隔进行对比,假如该值与系统设置的间隔阈值相比要更高,则跳转至(6),反之执行下个流程;
(4)获取文件N的访问频率,如果访问文件N的频率高于平均频率,那么跳转至(6),否则执行下个流程;
(5)删除在缓存区保存的数据文件N,然后跳转至(7);
(6)删除在缓存区保存的数据文件M;
(7)在缓存区上添加数据文件F。
6.如权利要求5所述的一种基于云计算的医疗数据处理方法,其特征在于,所述进行缓存区数据文件判断的流程为:
(1)缓存区中保存小文件后系统会自动对小文件请求判断,假如发送的请求为写入文件请求,那么进入下一流程,假如发出的请求是想修改文件请求,那么跳转至(3),假如发送的请求是读取文件,那么跳转至(4);
(2)对于请求是写文件请求,系统首先要对小文件进行预处理,再合并小文件,完成后在云计算平台后端系统上保存已合并文件,执行本次写请求,写文件期间,要在缓存文件中写入信息,且客户端无法对其读取,这时写文件对缓存区的统一性不会造成严重影响;
(3)对于请求是修改文件请求,由于需要在缓存区记录中保存修改请求信息,所以首先对是否要更新缓存进行判断;假如要更新,那么使用修改记录中的数据对缓存数据进行更新,并对云计算平台中保存的文件信息更新,确保所保存文件与缓存区文件相互统一,从而完成本次操作;
(4)对于请求是读取文件请求,直接在缓存中进行数据的查询,如果查询到该数据,直接返回该数据;假如未找到信息需要读取云计算平台上已合并的文件,再向缓存区更新,结束后将需要的文件返回。
7.一种基于云计算的医疗数据处理系统,其特征在于,所述系统包括:
医疗数据获取装置,用于获取医疗数据文件,并将医疗数据文件进行小数据文件和大数据文件的划分;
医疗数据处理器,用于利用文件合并算法进行小数据文件的合并,并利用基于匿名元组的数据匿名算法对所存储的医疗数据文件进行匿名处理,同时将匿名处理的医疗数据文件发送到云计算平台中;
医疗数据存储装置,用于利用缓存替换算法将云计算平台中的数据存入缓存区。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有医疗数据处理程序指令,所述医疗数据处理程序指令可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的一种基于云计算的医疗数据处理的实现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011255366.5A CN112347055A (zh) | 2020-11-11 | 2020-11-11 | 一种基于云计算的医疗数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011255366.5A CN112347055A (zh) | 2020-11-11 | 2020-11-11 | 一种基于云计算的医疗数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347055A true CN112347055A (zh) | 2021-02-09 |
Family
ID=74363420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011255366.5A Withdrawn CN112347055A (zh) | 2020-11-11 | 2020-11-11 | 一种基于云计算的医疗数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347055A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157697A (zh) * | 2021-04-19 | 2021-07-23 | 山东艺术学院 | 一种明清俗曲古代乐谱数据库系统 |
CN115269524A (zh) * | 2022-09-26 | 2022-11-01 | 创云融达信息技术(天津)股份有限公司 | 一种端到端小文件归集传输和存储的一体化系统及方法 |
-
2020
- 2020-11-11 CN CN202011255366.5A patent/CN112347055A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157697A (zh) * | 2021-04-19 | 2021-07-23 | 山东艺术学院 | 一种明清俗曲古代乐谱数据库系统 |
CN115269524A (zh) * | 2022-09-26 | 2022-11-01 | 创云融达信息技术(天津)股份有限公司 | 一种端到端小文件归集传输和存储的一体化系统及方法 |
CN115269524B (zh) * | 2022-09-26 | 2023-03-24 | 创云融达信息技术(天津)股份有限公司 | 一种端到端小文件归集传输和存储的一体化系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US10114908B2 (en) | Hybrid table implementation by using buffer pool as permanent in-memory storage for memory-resident data | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
US9043310B2 (en) | Accessing a dimensional data model when processing a query | |
US20160012061A1 (en) | Similar document detection and electronic discovery | |
US8468146B2 (en) | System and method for creating search index on cloud database | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
US20230259563A1 (en) | System, Method and Computer Program Product for Protecting Derived Metadata When Updating Records within a Search Engine | |
MX2013014800A (es) | Recomendacion de enriquecimientos de datos. | |
US11977581B2 (en) | System and method for searching chains of regions and associated search operators | |
WO2017161540A1 (zh) | 数据查询的方法、数据对象的存储方法和数据系统 | |
US8161051B2 (en) | Method and apparatus for data processing with index search | |
CN113407785B (zh) | 一种基于分布式储存系统的数据处理方法和系统 | |
CN112347055A (zh) | 一种基于云计算的医疗数据处理方法及系统 | |
US9390111B2 (en) | Database insert with deferred materialization | |
CN105760418B (zh) | 用于对关系数据库表进行交叉列搜索的方法和系统 | |
Jalili et al. | Next generation indexing for genomic intervals | |
US10007692B2 (en) | Partition filtering using smart index in memory | |
Zhao et al. | Monochromatic and bichromatic ranked reverse boolean spatial keyword nearest neighbors search | |
CN113544683B (zh) | 数据一般化装置、数据一般化方法、程序 | |
CN113761185A (zh) | 主键提取方法、设备及存储介质 | |
Gayathiri et al. | Big data retrieval using locality-sensitive hashing with document-based NoSQL database | |
Li et al. | A locality-aware similar information searching scheme | |
Kimura et al. | Upi: A primary index for uncertain databases | |
CN115408491B (zh) | 一种历史数据的文本检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210209 |
|
WW01 | Invention patent application withdrawn after publication |