CN107958087A

CN107958087A - 移动医疗的倒排泰森多边形的分布式时空索引的代表点获取方法

Info

Publication number: CN107958087A
Application number: CN201711372229.8A
Authority: CN
Inventors: 季长清; 刘飞; 高杨; 吴锐; 刘畅; 汪祖民
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2018-04-24
Also published as: CN107679216A

Abstract

本分案申请公开了一种移动医疗的倒排泰森多边形的分布式时空索引的代表点获取方法，属于数据索引领域，用于解决提高现有数据查询方法索引效率的问题，并将索引方法适用于移动医疗领域，技术要点是：确定内部聚类点与相邻点，将内部聚类点的数据聚类，聚类后选出聚类中心进行索引，所需数据为与内部聚类点连接的相邻点，以这个内部聚类点为圆心，包含相邻的聚类中心点建立圆，以这个圆为外接圆的三角形作为Delaunay三角形。

Description

移动医疗的倒排泰森多边形的分布式时空索引的代表点获取方法

本申请为申请号2017109759923、申请日2017-10-19、发明名称“移动医疗的倒排泰森多边形的分布式时空索引方法及应用”的分案申请。

技术领域

本发明属于数据索引领域，涉及大数据处理与空间查询算法应用。

背景技术

随着移动通信和基于位置服务相关技术的快速发展，云计算、大数据、物联网、移动计算以及空间定位等技术也逐步成熟，而GPS、摄像头、蓝牙数据等也在不断的增加，涌现了大量的空间数据，这使得各种空间数据或对象的存储与处理中面临着巨大的挑战。

数据进行大数据处理时，经常会遇到运算时间长、时空数据查询效率低的问题。而传统计算机的运算体系因为只支持有限的线程，所以并行与分布式性能差，单机的计算资源常常有限(如受限于硬盘或内存的大小，CPU单元计算能力不强等)而无法直接应用。

索引对大规模数据访问效率有着重要的影响。新的空间索引方法需要引入到传统的数据库处理引擎中，从而出现了R-tree结构。R-tree相当于二维B+树索引在多维数据环境下的扩展。目前基于R-tree索引的来进行最近邻(Nearest Neighbor,NN)查询的算法有很多，但这些方法都集中在单独的计算机上单线程执行任务。当数据规模迅速增长时，就要应用分布式数据库系统来进行索引与数据查询等处理了。

发明内容

为了提高现有数据查询方法索引效率，本发明提供如下方案：一种移动医疗的倒排泰森多边形的分布式时空索引方法，其步骤如下：

使用Spark来构建基于倒排Voronoi图索引，3维空间中给定两个医疗相关数据集R和S，R是医疗资源数据集，其包括位置数据集，S为患者数据集，其包括位置数据，把这两个数据集上传到HDFS中，Spark按默认机制进行分片，部分mappers同时并行运行，在Spark任务中使用默认的reducer，在启动map函数之前，使用预聚类算法得到一个区域的医疗资源的代表点p，并加载到每个map的主存中；

在每一个map处理进程中，它将依次利用TextInputFormat来读取输入的分片，TextInputFormat以流的方式将文件读取数据到Mapper的实例中；

计算每一个医疗资源数据r对象，患者数据s对象与代表点p之间的距离，并将r，s分配给最接近的代表点P，在算法中，每个对象的医疗资源最接近的代表点都被聚集在一个Voronoi单元格中，它将产成m个Voronoi单元格，程序在执行时输出<VCm，List(P_i)>对，mapper输出原始数据集到最靠近的分区的每一个对象r、s及其分区VC_m的id；将mapper输出到Spark的文件系统。

Voronoi图将一个空间划分为多个不相交的多边形，在每个多边形中的某一个点的最近邻均位于该点所在的Voronoi单元格内，图中的每个多边形称为与点p相关联的Voronoi单元格，点p所在的单元格内的任何点都是p的最近邻。

倒排Voronoi索引包含两个部分：主索引，包括所有的聚类中心；第二索引，包括储存在每个分区VC的对像队列。

代表点的获取方法，确定内部聚类点与相邻点，将内部聚类点的数据聚类，聚类后选出聚类中心进行索引，所需数据为与内部聚类点连接的相邻点，以这个内部聚类点为圆心，包含相邻的聚类中心点建立圆，以这个圆为外接圆的三角形作为Delaunay三角形，本方法中将两个不同的内部聚类点分别建立Delaunay三角形，这两个Delaunay三角形以相邻点为共同点建立Delaunay三角网，将数据对象分割为几个大分区，选择其中一聚类代表点成为代表点，被划分的每个对象以被聚类在一个Voronoi单元中，每个Voronoi网格中含有对象id。

Voronoi图由VD(p)＝{V(p₁),V(p₂),...,V(p_m)}，其中：VD(p)是关于P的Voronoi图合集，V(p₁)是p1的Voronoi图，给出的与所有的点相关联的集合，被称为p产生的遵循距离函数Dist()的Voronoi图，这里每个p点的Voronoi图一定包括比其他任何点更接近q的所有点，因而一个查询点q的近邻是闭合的Voronoi图；

Voronoi单元在空间R上，从D维空间中划分出一个包含n个点的区域，即P:{p₁,p₂,…,p_n}，分区VC给出的区域，即VC分区关于点p_i的区域VC(p_i)，若满足VC(p_i)＝p|d(p,p_i)≤(p,p_j)，则该区域被称为与p相关联的Voronoi单元；

其中：其中p是指定点或查询点，d(p,p_i)是p和p_i之间的最小欧氏距离，i、j是变量，n≥2，p₁≠p₂，i≠j，i,j∈I_n＝1,..,n，且i取遍1,..,n中的所有值，每取一值时，j取遍1,..,n中除了此时的i取值的所有值。

有益效果：本发明是一种使用Voronoi图的索引方法，由于使用了多维Voronoi索引，该索引支持空间数据划分，适合于索引多维度的数据集，能支持海量数据集和多维度，并且由于理想中空间对象存储需要一个非常小的空间，因为我们只需要存储每一个对象的代表点信息，所以大大降低了空间成本，使得空间效率十分高，采用倒排泰多边形对分布式医疗时空区域进行索引，这一解决方案对大规模数据访问效率有着重要的影响。

附图说明

图1.Voronoi图

图2.倒排Voronoi图索引示意图；

图3本发明的实例解说图；

图4.Delaunay三角网的建立示意图；

具体实施方

实施例1：一种基于Voronoi图的分布式时空索引方法，该方法由基于Voronoi图的分布式时空索引系统执行，所述的系统其中存储有多条指令，所述指令适于有处理器加载并执行，使用Spark构建造倒排Voronoi索引，给定d维空间中两个数据集R和S，Spark是现有的一种计算引擎，其按默认机制进行分片，部分mappers同时并行运行，在Spark任务中使用默认的reducer，在启动map函数之前，使用预聚类算法得到代表点p,并将其加载到每个map的主存中；

在每一个map处理进程中，依次利用TextInputFormat来读取输入的分片，TextInputFormat从文件读取数据到Mapper的实例中，分别计算数据集R中的每一个对象r，数据集S中的每一个对象s对象与代表点p点之间的距离，并将对象r，s分配给最接近的代表点P；R中具有m个对象r，一个对象r与任意对象s的最接近的代表点都被聚集在一个Voronoi单元格中，由此产成m个Voronoi单元格作为分区，输出<VCm，List(P_i)>对，P_i即是得到的一系列最接近的代表点，给定查询点p，判别其最邻近的分区或最一些邻近的分区集，mapper输出原始数据集中的到最邻近的分区或最邻近的分区集的每一个对象r、s及其分区VC_m的id；将mapper输出到Spark的文件系统。

其中所述的Voronoi图，是将一个空间划分为多个不相交的多边形，在每个多边形中的某一个点的最近邻均位于该点所在的Voronoi单元格内，图中的每个多边形称为与点p相关联的Voronoi单元格，点p所在的单元格内的任何点都是p的最近邻。

Voronoi图由VD(p)＝{V(p₁),V(p₂),...,V(p_m)}其中：VD(p)是关于P的Voronoi图合集，V(p₁)是p1的Voronoi图，给出的与所有的点相关联的集合，被称为p产生的遵循距离函数Dist()的Voronoi图，这里每个p点的Voronoi图一定包括比其他任何点更接近q的所有点，因而一个查询点q的近邻是闭合的Voronoi图；

实施例2：本实施例作为实施例1的进一步方案补充或说明，如附图1所示，Voronoi图将一个空间划分为多个不相交的多边形。在每个多边形中的某一个点的最近邻均位于该点所在的Voronoi单元格内。图中的每个多边形称为与点p相关联的Voronoi单元格。这样点p所在的单元格内的任何点都是p的最近邻。这样在基于Voronoi的最近邻查询中，每一个Voronoi单元格的数据点p都可以用来被验证其是否是某些查询点q的近邻。而倒排索引通常用于文本相似性的搜索，由属性值来确定记录的位置。

Voronoi图(Voronoi Diagram,VD):由VD(p)＝{V(p₁),V(p₂),...,V(p_m)}给出的与所有的点相关联的集合，被称为p产生的遵循距离函数Dist()的Voronoi图。这里每个p点的Voronoi图一定包括比其他任何点更接近q的所有点。因此一个查询点q的近邻是闭合的Voronoi图。附图1显示了Voronoi图的二维欧氏空间中的8个近邻点。

Voronoi单元(Voronoi Cell，VC):在空间R上，从D维空间中划分出一个包含n个点的区域，即P:{p₁,p₂,…,p_n}，其中n≥2，p₁≠p₂，i≠j,i,j∈I_n＝1,..,n.VC给出的区域VC(p_i)＝p|d(p,p_i)≤(p,p_j),其中d(p,p_i)是p和p_i之间的最小欧氏距离，则该区域被称为与p_i相关联的Voronoi单元。

我们的倒排Voronoi索引是将倒排索引和Vornoi索引进行结合，产生新的索引，兼具两者优点。具体的倒排的Voronoi索引是存储映射数据点的大规模空间数据结构。给定一个大数据集P，其包括欧氏空间中的数据对象集，为了索引数据集，每个对象以被聚类在一个Voronoi单元中，Voronoi图可以表示为VC(p)＝{VC₁,VC₂,…,VC_m}。我们将VC(p)作为倒排索引的关键值。所有数据对象{P_i}∈VC_m的id存储在队列中作为值。也就是说，每个Voronoi网格中含有大量的对象id。

在此系统中，面临以下几点：

S1.处理的数据非常大；

S2.查询点是随机出现的，并没有被包括在数据集中，同时数据集可能是分布倾斜的；

S3.在多维欧式空间和距离下建立的数据模型。

倒排Voronoi索引(Inverted Voronoi Index,IVI)包含两个部分：S1.主索引，包括所有的聚类中心；

S2.第二索引，包括储存在每个VC的对像队列。倒排索引是为了有效地索引位置与查询对象相邻的队列中的数据对象。当给定一个查询，我们就可以判别最邻近的VC或最一些邻近的VC集。然后将这些VC相对应的队列元素列举出来，从而得到kNN查询结果集。

如附图2所示，例举了一个包含二维空间对象的IVI，基于Voronoi划分，我们将对象分割为6个分区。为简单起见，我们选择P成为代表点，因此，每个对象与它最接近的代表点均被分配到了同一个Voronoi单元格。直观地说，倒排Voronoi图索引分区的方法是将多维空间分成多个倒排形式的Voronoi单元。

因此，我们的IVI具有以下优点：

S1.支持海量数据集：因为倒排Voronoi图索引结构继承了倒排索引的形式，所以很直观就可以知道，此索引方案适用于分布式处理。

S2.支持多维度：利用了多维Voronoi索引，该索引支持空间数据划分，适合于索引多维度的数据集。

S3.空间效率：理想中空间对象存储需要一个非常小的空间。因为我们只需要存储每一个对象的代表点信息，所以大大降低了空间成本。

构建Spark倒排Voronoi图索引

我们介绍如何使用Spark来构建IVI。由于Voronoi图可以通过拆分与合并多个Voronoi图(VP)来获得，所以构造倒排Voronoi索引适用于Spark模型。特别是将每个子VP合并得到最后的Voronoi。

如算法1所示：给定d维空间中给定两个数据集R和S。Spark安默认机制进行分片。一些mappers同时并行运行。在Spark任务中，我们使用默认的reducer。在启动map函数之前，我们使用快速预聚类算法得到代表点p,并加载到每个map的主存中。

然后，在每一个map处理进程中，它将依次利用TextInputFormat来读取输入的分片(按在分布式文件系统的输入格式)，TextInputFormat可以从文件读取数据到Mapper的实例中。计算每一个r，s对象与p点之间的距离，并将r，s分配给最接近的代表点P.在算法的2－3行中，每个点都被聚集在一个Voronoi单元格中，它将产成m个Voronoi单元格，在算法4-6行中会输出<VCm，List(P_i)>对，mapper输出原始数据集(R或S)到最靠近的分区的每一个对象r、s及其分区VC_m的id。

最终，在算法8－10行中，我们需要根据自已的需要通过自定义的MultipleOutputFormat函数将mapper输出到Spark的文件系统。它决定了如何将任务结果写回到底层的持久存储中。在算法1中我们详细描述了构建基于Spark的Voronoi索引结构的算法伪码。利用IVI，如果给定一个代表点，我们就可以启动Spark任务来进行数据分区并收集每个分区的一些数据信息。

实施例3：在医疗社会保障服务高速飞速发展的今天，随着人们的物质生活水平日益提高，对于医疗服务的需求也变得更加人性化和个性化。同时也有着越来越多的人们需要更加便捷和完善的医疗服务。同时随着移动通信和基于位置服务相关技术的快速发展，云计算、大数据、物联网、移动计算以及空间定位等技术也逐步成熟，而GPS、摄像头、蓝牙数据等也在不断的增加，涌现了大量的空间数据，这使得各种空间数据或对象的存储与处理中面临着巨大的挑战。在医疗服务行业中电子病历、护理呼叫中心系统、大规模医疗数据库等应用也在快速发展，移动医疗相关技术在提高工作效率、完善医疗服务、节约医疗成本等方面发挥了越来越多作用。

但是我国地理环境差异巨大、经济发展不平衡、医疗资源分布不均衡，尤其是发达地区与边远地区相比,医疗水平也存在很大的区别，同时随着农村向城市迁移、旅游等产业的飞速发展，使得在原本人口流动性大的基础上呈指数型增长，患者经常会遇到当初到一个地方时，患疾病后不知道要到哪里去看病，排队挂号更可能是需要提前几个月预约医院，乘车辗转多家医院，最终将大量人力财力都浪费在了交通等方面，而疾病却没有得到及时治疗的问题。日常我们也经常会遇到需要急诊时，却不知道周围都有什么医院，哪家医院能处理这种病情，哪家医院位置离病人更近、服务更好，从而因为延误时间、导致救治不及时，甚至会发生因延误治疗而致死的悲剧。

虽然目前更多医院都有自己的网站，可以提前挂号、查询、网上问诊也变得很容易，但是我国医院众多，大小医疗网站难辨真假，网上医生资质得不到认证，同时PC端设备不易于携带，当需要复杂的查询和家庭紧急呼救时，使得相关的看病问诊变得难上加难。

近年来，随着医疗大数据时代的到来，出现了更多的医疗资源相关的数据。移动医疗的概念应运而生，所谓移动医疗是指运用移动通信技术与设备，在任何时间任何地点提供适用于大众的医疗服务和医疗信息。在近年来的发展中,互联网、移动通讯、多媒体等技术的飞速发展,尤其是3G、4G技术的飞速发展,使移动医疗技术取得了长足的进步。但近年来，我们发现针对这类移动医疗数据进行大数据处理时，经常会遇到运算时间长、时空数据查询效率低的问题。而传统计算机的运算体系因为只支持有限的线程，所以并行与分布式性能差，单机的计算资源常常有限(如受限于硬盘或内存的大小，CPU单元计算能力不强等)而无法直接应用于大规模移动医疗数据处理。这给移动医疗系统中的大数据查询与处理带来了一系列的与挑战。

众所周知，索引对大规模数据访问效率有着重要的影响。新的空间索引方法需要引入到传统的数据库处理引擎中，从而出现了R-tree结构。R-tree相当于二维B+树索引在多维数据环境下的扩展。目前基于R-tree索引的来进行最近邻(Nearest Neighbor,NN)查询的算法有很多，但这些方法都集中在单独的计算机上单线程执行任务。当数据规模迅速增长时，就要应用分布式数据库系统来进行索引与数据查询等处理了。

本实施例将实施例1或2中的基于Voronoi图的分布式时空索引方法应用于移动医疗呼叫领域，目前现有的医疗呼叫系统有三种，有总线制医护对讲系统、IP网络半数字医护对讲系统、IP网络医护信息对讲系统。而这些医疗呼叫系统具有很大的局限性，他们都只能近距离传输信息，若病人不在信息传输范围内，则无法执行。而用于执行所述基于Voronoi图的分布式时空索引方法的医疗呼叫系统则不受这些影响，其在分布式环境下可以有效提高大规模范围内的近邻查询效率。这就使此发明尤为重要，特别是对于突发性的疾病或者需要多多关注的病人，就需要提供更好的服务，同时也需要有一种设备可以更好的相应病人需要的服务和医护人员之间的沟通，提供一个良好的医疗环境。

能够执行基于Voronoi图的分布式时空索引方法的系统，将病人的信息按照属性进行分类后，建立成为内部聚类点，当病人使用医疗呼叫系统时，系统按照病人信息分析属性，分析病人此时最需要哪种帮助，是极具医疗知识的帮助还是生活不便的帮助。这时，在以病人信息作为离散点数据找出离它最近的泰森多边形内的点，从而得到病人此时最需要的帮助，以便使病人得到最好的帮助。

本发明，能够执行基于Voronoi图的分布式时空索引方法的系统，由于使用了多维Voronoi索引，该索引支持空间数据划分，适合于索引多维度的数据集，能支持海量数据集和多维度，并且由于理想中空间对象存储需要一个非常小的空间，因为我们只需要存储每一个对象的代表点信息，所以大大降低了空间成本，使得空间效率十分高，能使病人及时的得到帮助。

在另一个实施例方案中，使用Spark来构建基于倒排Voronoi图索引，3维空间中给定两个医疗相关数据集R和S，R是医疗资源数据集，包括如医生，医疗设备，位置等反应医疗资源信息的数据集。S为患者数据集，包括病人病例信息、位置等反应患者病情的数据集，把这两个数据集上传到HDFS中，由于Spark安默认机制进行分片。一些mappers同时并行运行。在Spark任务中，我们使用默认的reducer。在启动map函数之前，我们使用快速预聚类算法得到一个区域的医疗资源的代表点p,并加载到每个map的主存中。

然后，在每一个map处理进程中，它将依次利用TextInputFormat来读取输入的分片(按在分布式文件系统的输入格式)，TextInputFormat可以以流的方式将文件读取数据到Mapper的实例中。计算每一个医疗资源数据r对象，患者数据s对象与p点之间的距离，并将r，s分配给最接近的代表点P，在算法中，每个医疗资源代表点都被聚集在一个Voronoi单元格中，它将产成m个Voronoi单元格(实际场景中，就是一个大规模医疗资源集中，分为m个同一性质的医疗区域，比如一个城市医疗中心，每个区域有一个代表医疗资源的代表点，比如说一个三甲医院)，这样程序在执行时会输出<VCm，List(P_i)>对，mapper输出原始数据集(R或S)到最靠近的分区的每一个对象r、s及其分区VC_m的id。我们需要根据自已的需要通过自定义的MultipleOutputFormat函数将mapper输出到Spark的文件系统。它决定了如何将任务结果写回到底层的持久存储中。利用倒排医疗索引IVI，如果给定一个患者用户的查询请求，比如说要从全国的医疗数据中，找到一个满足病例诊治需要的医院，我们就可以启动Spark任务来进行数据分区并收集每个分区的一些数据信息。通过倒排索引的key找到医疗资源代表点即一个代表性医院，再通过医院的具体数据找到相关需要医疗资源，并反馈给患者。这样就可以快速利用Spark的数据处理系统Spark利用数以千记的计算机，分布式地从大规模医疗资源中分布式找到相关的数据。

Claims

1.一种移动医疗的倒排泰森多边形的分布式时空索引的代表点获取方法，其特征步骤如下：使用Spark来构建基于倒排Voronoi图索引，3维空间中给定两个医疗相关数据集R和S，R是医疗资源数据集，其包括位置数据集，S为患者数据集，其包括位置数据，把这两个数据集上传到HDFS中，Spark按默认机制进行分片，部分mappers同时并行运行，在Spark任务中使用默认的reducer，在启动map函数之前，使用预聚类算法得到一个区域的医疗资源的代表点p，并加载到每个map的主存中；代表点的获取方法是，确定内部聚类点与相邻点，将内部聚类点的数据聚类，聚类后选出聚类中心进行索引，所需数据为与内部聚类点连接的相邻点，以这个内部聚类点为圆心，包含相邻的聚类中心点建立圆，以这个圆为外接圆的三角形作为Delaunay三角形，本方法中将两个不同的内部聚类点分别建立Delaunay三角形，这两个Delaunay三角形以相邻点为共同点建立Delaunay三角网，将数据对象分割为几个大分区，选择其中一聚类代表点成为代表点，被划分的每个对象以被聚类在一个Voronoi单元中，每个Voronoi网格中含有对象id。