CN111899855A

CN111899855A - 一种个体健康与公共卫生数据时空聚集可视化构建方法及平台

Info

Publication number: CN111899855A
Application number: CN202010686882.7A
Authority: CN
Inventors: 李文海; 魏骁勇; 庞磊; 陶坤; 江佳翼
Original assignee: Wuhan University WHU; Peng Cheng Laboratory
Current assignee: Wuhan University WHU; Peng Cheng Laboratory
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-06
Anticipated expiration: 2040-07-16
Also published as: CN111899855B

Abstract

本发明针对个体健康数据与公共卫生数据的关联可视化，提供一种个体健康与公共卫生数据时空聚集可视化构建方法及平台。引入半结构化建模方法构建个体健康数据的可扩展描述框架，基于通用POI的地名和空间字段构建不同粒度和不同质量的地址映射信息，并基于个人健康设备采集的位置信息周期性地更新用户的地址信息，采用文本相似匹配实现个体健康和公共卫生数据的空间信息标准化，使得不同来源的个体健康和公共卫生数据能够统一呈现于主流三维GIS平台上。本发明能根据普通的地址文本对健康医疗数据进行空间化转换、能够对不同类型、不同级别的健康医疗数据进行统一时空关联和时空聚集可视化。

Description

一种个体健康与公共卫生数据时空聚集可视化构建方法及平台

技术领域

本发明针对个体健康数据与公共卫生数据的关联可视化，给出一套面向时空聚集问题的可视化方法。引入半结构化建模方法构建个体健康数据的可扩展描述框架，基于通用POI的地名和空间字段构建不同粒度和不同质量的地址映射信息，并基于个人健康设备采集的位置信息周期性地更新用户的地址信息，采用文本相似匹配实现个体健康和公共卫生数据的空间信息标准化，使得不同来源的个体健康和公共卫生数据能够统一呈现于主流三维GIS平台上。

背景技术

1)随着移动应用、人工智能和卫生信息化的快速发展，涵盖个体健康和公共卫生的健康医疗大数据来源越来越多样化、数据用途日益广泛、异构数据关联模式日渐复杂。为推动这类健康医疗大数据的有效应用，国内外正逐渐建立与具体应用相适配的规范和标准。为促进基本公共卫生服务逐步均等化，我国正逐步完善和推广《国家基本公共卫生服务规范》，指导乡镇卫生院、村卫生室和社区卫生服务中心(站)等城乡基层医疗卫生机构为居民免费提供基本公共卫生服务。健康医疗大数据标准研究院通过设于OMAHA联盟的秘书处、专注于健康医疗大数据领域的标准研究和推广，正逐步构建健康医疗大数据标准服务平台，力图实现一站式标准申请、指定和推广。该平台于2018年启动了四项标准制定工作：《个人健康档案的归档格式规范》、《常用医疗健康监测设备类数据元格式规范》、《基于本体的医学术语模型》和《将康体检的基本内容和格式规范》。深圳鹏程实验室依托我国《健康中国2030》战略框架，正与国际ISO组织联合推动制定数字化健康设备及服务标准。这些规范和标准的逐步完善必将经过一个长期的迭代完善的过程，而如何构建一套与该过程适配的、可扩展的信息系统模式设计方法对保障个体健康与公共卫生服务质量和降低健康医疗信息化成本具有重要作用。

2)公共健康卫生中能够支撑个人健康的资源和实体众多、分布于各自相对独立的医疗应用系统和资源管理平台中，其中与疾控相关的重要实体(集)中有四个大类目前有相对独立的编码和标准体系。《国际疾病分类》是确定全球卫生趋势和统计数据的基础，其中含有约5.5万个与损伤、疾病以及死因有关的独特代码，使卫生从业人员能够通过一种通用语言来交换世界各地的卫生信息。新版本将交给2019年5月举行的世界卫生大会批准，计划于2022年1月1日生效，对于标识患者患病类型和药物和器械的调配有重要的参考价值。国家药品编码包括本位码、监管码和分类码。本位码由药品国别码、药品类别码、药品本体码、校验码依次连接而成，能够唯一标识一定范围内存跨单位的药物资源。2019年2月18日，中检院发布《2018年医疗器械产品分类界定结果汇总》，其中涉及573个产品共分七大类，用于描述不同医疗器械的分类和标识，为不同机构的医疗器械管理提供了基本的参考依据。与此同时，诸如医疗人员和医疗设施，我国也有不同的分类标识方法。鉴于上述分类和编码的逐步实用均在不断中，如何灵活的在统一数据视图下对其进行有效关联和特性描述至关重要。这需要为不同类别的实体提供公共关联属性，同时也需要针对不同类别的特性字段进行动态扩充。

3)提升公共卫生数据的应用价值，一个重要的手段是将个体健康数据与公共卫生数据构建在统一模式的基础上，并通过不同实体集的字段之间的映射关系形成实体集之间的关联视图。典型的字段映射关系可以是空间范围关系、时间交叠关系或普适字段比较关系。其中，时间交叠关系和一般数值字段的比较关系可以沿用数据库已有查询方法，而空间范围关系的计算需要在统一坐标系统下进行。然而，健康医疗大数据中涉及到个人信息的地址字段(如家庭住址等)无法直接导出对象的位置坐标、为医疗数据的空间统计分析和就医指导带来了困难。面向文本地址进行坐标提取，一种可行的方法是将文本地址转换成一系列关键词(如可采用IKAnalyzer或Jieba分词工具提取中文分词)，并基于分词在已有POI(Points Of Interest，兴趣点)集合上进行关键词匹配、找到包涵个人地址关键词的POI坐标作为个人位置坐标。这种方法在高德和百度导航中被广泛采用，但当多个候选地址存在时难以直接确定最有匹配对象。由于个人健康信息中的地址文本以城市小区为主，因此城市级健康医疗应当重点考虑POI中的小区信息，同时也要兼顾其他POI信息(如街道和工作单位等子分类)。此外，考虑到带有位置功能的移动设备的逐步普及，如何基于实时获取的位置信息分析得到用户家庭住址的准确坐标对提高数据的可用性意义重大。

综上，针对不断变化的卫生相关实体分类和编码，如何进行高层次的描述和统一的建模工作具有重要意义，而如何基于地址文本得到空间化的位置坐标信息能够有效支持健康卫生数据的空间关联。针对这两个核心问题，本本发明提供相关核心技术，使得用户可基于统一的数据模型对个体健康和公共卫生的不同主题数据进行关联查询、同时又可以通过可扩展的模式框架描述不同主题的特性字段，在此基础上通过标准化的空间坐标信息将不同健康主题、不同群体特征和不同时间分布的查询结果分类分层呈现于主流GIS上。

发明内容

本发明在健康医疗数据可视化的三个核心步骤上引入新技术，分别对统一数据模式描述、地址文本空间信息提取和地址库的高效维护给出解决方法。通过医疗数据编码建分类分层的疾病类型，涵盖国际疾病分类编码、药物ATC(Anatomical TherapeuticChemical，解剖学治疗学及化学分类系统)编码系统、医疗器械分类目录等国际国内标准规范；基于文本相似匹配技术提取地址信息的空间位置，并对位置信息构建市→区(县)→街道或小区(镇)的前缀编码。通过上述两种编码技术，力图将不同主题、不同类别的健康医疗信息和用户位置信息构建于统一的数据模式上，以提升医疗数据关联查询效率和有效支撑时空聚集可视化。

具体采用如下技术方案：

一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，包括：

客户端:用于根据健康卫生分类构建分析业务，所述健康卫生分类数据包括个体就医信息(SP)、医疗设施信息(PF)、医疗器械信息(PD)、药物配备信息(PM)和医疗人员信息(PP)；

移动端：用于存储一类个体健康信息(SH)以及个人位置信息；

服务器端：将健康卫生分类数据和一类个体健康信息(SH)进行六类信息建模，通过分层编码将健康卫生分类数据进行标识后存储在服务器，然后与个体健康信息通过健康医疗实体标识码进行统一前缀编码，得到分类信息；并提取个人位置信息中的地址部分，通过地址映射坐标库进行相似匹配得到标准化坐标，得到空间信息；然后将得到的分类信息、获取时刻、空间信息和信息生成人(即附图2核心部分的“主体信息”)作为每条数据的基础信息，并根据信息所属的类别填充每条数据除基础信息外的其他字段；最后，尽管字段构成显著不同，但不同类别的数据由于均具有同构的基础信息，因而可以在常见的NoSQL数据库的同一记录集中并存。

在上述的一种个体健康与公共卫生数据时空聚集可视化平台，健康医疗实体标识码是基于统一模式和健康医疗实体标识码对不同公共卫生和个体健康数据进行统一管理：通过信息来源找到每条记录所属的医疗实体类别，通过前缀+医疗码的方式构建记录实体在设定的分析标识码，即实体码，具体步骤是：

步骤2.1、考虑全局码采用64字节ASCII字符构成，前缀部分8个字符用来区分记录的分类(已有两个字符的分配见上述六种分类，剩余8个字符填充符号“#”待未来扩展)；

步骤2.2、针对医疗要素的子类标准形成全局码的后续56个字符内容，不足56字符的采用前缀补充“#”的方式补齐全局码。

a.药品编码前缀为“PM######”；后续药品类别标识采用14位构成，由药品国别码、药品类别码、药品本体码和校验码依次连接构成；这里前缀42个字符使用“#”保留对其他药品分类体系或国家药品分类方法的扩展。

b.对于医疗器械编码，采用前缀“PD######”，其中一级产品类别和二级产品类别之间采用“-”分割，依次类推。

c.针对医疗人员和医疗设施，分别采用前缀“PP######”和“PF######”随后跟随医疗人员或设施标识部分采用48字节构成，其中前16字节用于标识人员或设施所在医疗实体的组织机构代码；48字节人员或设施标识的后32字节用于标识给定医疗结构内部的人员或设施编码。

d.个体信息中个体就医和个体健康分别采用SP######和SH######作为前缀标识，身份证作为个体标识，以后缀方式填充个体就医和个体健康码。

在上述的一种个体健康与公共卫生数据时空聚集可视化平台，标准化坐标的具体获取方式是：给定个人健康记录，提取其中的家庭住址字段。通过城市小区POI和其他地址信息构建二级地址库，并基于地址映射坐标库进行地址字段的匹配，得到个人的空间坐标信息，具体步骤是：

步骤3.1、构建城市住宅小区一级地址→坐标库和其他POI二级地址→坐标库。

步骤3.2、分别在一级库和二级库上建立2-gram索引。

步骤3.3、当地址请求到达时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称。基于小区名称在一级库中以2-gram进行关键词检索；

步骤3.4、若一级库中无法匹配到记录，依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录。按照2-gram的匹配个数，对所有候选记录排序，并将匹配数量最高的候选记录作为最终的住宅地址，将该候选记录的坐标作为被查询地址的坐标。4.根据权利要求1所述的一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，服务器端还能够实时更新个人位置，具体是：

步骤4.1、个人位置获取，对于通过移动端提供个人位置信息的用户，维护一个用户位置的列表、并以追加方式不断追加用户的位置信息和获取时间。具体流程如下：

a.创建一个用户位置哈希结构，主键为用户ID，键值为一个位置和获取时间的列表；

b.当在某一时刻获取到用户的位置信息后，基于用户的ID寻址到用户的位置列表，追加一个<当前位置，当前时间>元组；

c.迭代执行b完成对用户位置的时空记录。

步骤4.2、历史位置信息。针对增量追加的个人位置信息，周期分析得到注册用户的家庭住址，基本原理是统计夜晚用户的坐标信息，并按坐标范围的频率排序得到精确的地址坐标。具体步骤如下：

a.以日为周期，在每日12:00时刻遍历步骤1中a创建的位置列表；

b.获取当天0:00时刻至6:00的用户位置信息；若位置信息超过一个，则以设定矩形范围进行分组计数；

c.针对每天每个用户在b中的统计计数，挑选频度最高的矩形作为当日用户的居住区域；若仅有一条记录则以记录的位置点为中心，以b中给定的矩形范围对中心进行扩展得到居住区域；

d.以月为单位对c中得到的用户每日居住区域进行扫描得到月居住地，扫描确定月居住区域的细节参加H8。

步骤3、基于经过分析的住址，对地址映射坐标库进行更新，向小区库中插入当前用户的住址文本,分析得到的坐标信息，以便于后续其他临近用户的坐标提取。

在上述的一种个体健康与公共卫生数据时空聚集可视化平台，统一模式描述是得到的分类信息和空间信息，构建全局统一的模式描述，统一描述所有记录的公共字段并根据分类不同追加特性字段，形成健康医疗记录，公共字段含分类信息、空间信息、时间信息、主体信息。具体步骤是：

步骤1、根据得到任意记录所在实体的编码及其分类信息、人员住址或根据组织机构所在的地址得到器械或药品的地址；以及当前产生记录的操作人员标识和获取时间，形成基础信息；

步骤2、以字段名+字段值的方式将不同子类的特殊属性信息附着于步骤1的基础信息上，形成一条Key-Value描述的健康医疗记录；

步骤3、可视化平台可以基于空间信息对任意类别或指定的子类对所有数据集进行查询，对结果中的空间字段可以完成空间统计、通过分割不同粒度的时间字段可以看到空间统计的时态变化态势。

一种个体健康与公共卫生数据时空聚集可视化构建方法，其特征在于，包括

步骤1、基于统一模式和健康医疗实体标识码实体码对不同公共卫生和个体健康数据进行统一管理：通过信息来源找到每条记录所属的医疗实体类别，通过前缀+医疗码的方式构建记录实体的实体码。

步骤2、给定个人健康记录，如监控得到的个人健康信息或移动端注册就医信息等，提取其中的家庭住址字段。通过城市小区POI和其他地址信息构建二级地址库，并基于地址映射坐标库进行地址字段的匹配，得到个人的空间坐标信息。

步骤3、个人位置获取，该步骤为可选项。对于通过移动端提供个人位置信息的用户，维护一个用户位置的列表、并以追加方式不断追加用户的位置信息和获取时间。

步骤4、历史位置信息。针对增量追加的个人位置信息，周期分析得到注册用户的家庭住址，基本原理是统计夜晚用户的坐标信息，并按坐标范围的频率排序得到精确的地址坐标。

步骤5、基于经过分析的住址，对地址→坐标库进行更新，向小区库中插入当前用户的<住址文本,分析得到的坐标信息>，以便于后续其他临近用户的坐标提取。

步骤6、基于步骤1和2得到的分类信息和空间信息，构建全局统一的模式描述，统一描述所有记录的公共字段并根据分类不同追加特性字段，形成健康医疗记录，其中，公共字段包括分类信息、空间信息、时间信息、主体信息。

在上的一种个体健康与公共卫生数据时空聚集可视化构建方法，步骤1中健康医疗标识码的具体构建方法是：

步骤1、构建健康医疗数据库，采用NoSQL方式定义记录格式为可扩展的，并预定义五个基础字段：主键、分类编码、空间编码、创建时间和用户ID。

步骤2、根据到来记录的业务系统，生成记录的分类编码：采用预设前缀个体就医:SP、个体健康信息:SH、医疗设施:PF、医疗器械：PD、药物配备：PM和医疗人员：PP六个大类；为不同类型的业务记录生成健康医疗标识码；

步骤3、以分类为基础，提取记录的其他基础字段形成统一描述记录的基础字段，其中，其他基础字段包括空间编码、时间信息、主体信息和记录ID。

步骤4、将不同分类记录的特性字段(如个体传感信息中的心跳血压传感信息或个人食物摄入信息)作为记录的扩展字段追加到记录中。

步骤5、将记录统一存放于NoSQL大数据平台中。

在上的一种个体健康与公共卫生数据时空聚集可视化构建方法，步骤2中得到个人的空间坐标信息的具体方法是：

步骤1、构建城市住宅小区一级(地址→坐标)库和其他POI二级(地址→坐标)库。

步骤2、分别在一级库和二级库上建立2-gram索引。

步骤3、当地址请求到达时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称。基于小区名称在一级库中以2-gram进行关键词检索；

步骤4、若一级库中无法匹配到记录，依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录。按照2-gram的匹配个数，对所有候选记录排序，并将匹配数量最高的候选记录作为最终的住宅地址，将该候选记录的坐标作为被查询地址的坐标。

在上的一种个体健康与公共卫生数据时空聚集可视化构建方法，步骤3至步骤5对提供位置坐标的用户(如通过公众号登录并提供位置访问权限的用户),可以定期基于移动设备坐标将一定范围内出现频率最高的位置作为用户家庭住址。如下：

步骤1、将每个坐标在经纬两个方向上扩展100米，形成若干MBR，并构建<用户ID,MBR集合>的映射结构。

步骤2、依次扫描每个MBR(记录MBR-Q)，并在队列结构中扫描每个元素中的MBR集合，若MBR-Q与某元素中某MBR有交叠区域，则将MBR-R加入该元素的MBR集合中；否则向队列结构中插入一个新元素，并将MBR-Q置于其MBR集合中。

步骤3、扫描队列结构，得到MBR集合元素最多的坐标ID，将这些坐标的均值作为用户的家庭住址坐标。

在上的一种个体健康与公共卫生数据时空聚集可视化构建方法，为个体健康数据提供便捷的空间位置信息(如住址)提取方法并基于统一的时空建模方法将个体健康和公共卫生数据进行一体化描述、支持时空聚集可视化，步骤6的具体构建方法是：

步骤1、针对不同类别的数据来源(个体就医信息(SP)、医疗设施信息(PF)、医疗器械信息(PD)、药物配备信息(PM)和医疗人员信息(PP))构建全局唯一的健康医疗实体标识码用于标识每条记录。其中，不同类型的字段采用前缀编码方式区分，已纳入专利范围的数据类型及其编码方式如下：

a.药品编码前缀为“PM######”；后续药品类别标识采用14位构成，由药品国别码、药品类别码、药品本体码和校验码依次连接构成：国家药品编码本位码国别码为“86”，代表在我国境内生产、销售的所有药品；国家药品编码本位码类别码为“9”，代表药品；国家药品编码本位码本体码的前5位为药品企业标识，根据《企业法人营业执照》、《药品生产许可证》，遵循一照一证的原则，按照流水的方式编制；国家药品编码本位码本体码的后5位为药品产品标识，是指前5位确定的企业所拥有的所有药品产品。药品产品标识根据药品批准文号，依据药品名称、剂型、规格，遵循一物一码的原则，按照流水的方式编制；这里前缀42个字符使用“#”保留对其他药品分类体系或国家药品分类方法的扩展。

b.对于医疗器械编码，采用前缀“PD######”，器械类别参照国家药品监督管理局2017年104号文件颁布的《医疗器械分类目录》进行分层编码，其中一级产品类别和二级产品类别之间采用“-”分割，依次类推。

c.针对医疗人员和医疗设施，分别采用前缀“PP######”和“PF######”随后跟随医疗人员或设施标识部分采用48字节构成，其中前16字节用于标识人员或设施所在医院、门诊部、诊所、卫生所(室)等医疗实体的“组织机构代码”，代码构成参照卫统发[2002]117号文件给出的《卫生机构(组织)分类代码证》进行定义：该文件给出医疗机构代码由10位构成，其被作为本本发明标识的16位设施码的尾缀；48字节人员(设施)标识的后32字节用于标识给定医疗结构内部的人员或设施编码。

个体信息中个体就医和个体健康分别采用“SP######”和“SH######”作为前缀标识，身份证作为个体标识，以后缀方式填充个体就医和个体健康码。

步骤2、提取上述类型数据的空间位置信息，其中医疗人员和器械所在的位置以医疗机构所在的位置为准(可以根据医疗器械数据本身提供的位置信息将更为精确的位置纳入到本专利的方法中)，个人位置信息以其所在的小区为准，具体转换方法为：给定个人健康记录，提取其中的家庭住址字段。通过城市小区POI和其他地址信息构建二级地址库，并基于地址映射坐标库进行地址字段的匹配，得到个人的空间坐标信息，具体步骤是：

a.构建城市住宅小区一级(地址→坐标)库和其他POI二级(地址→坐标)库。

b.分别在一级库和二级库上建立2-gram索引。

c.当地址请求到达时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称。基于小区名称在一级库中以2-gram进行关键词检索；

d.若一级库中无法匹配到记录，依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录。按照2-gram的匹配个数，对所有候选记录排序，并将匹配数量最高的候选记录作为最终的住宅地址，将该候选记录的坐标作为被查询地址的坐标。

步骤3、对于地址坐标映射库中没有提供的家庭住址信息，可以根据用户睡眠时的位置信息分析得到用户的住址信息。具体步骤如下：

a.创建一个用户位置哈希结构，主键为用户ID(可以采用要求2中定义的个体健康或个体就医的实体码)，键值为一个位置和获取时间的列表；

c.迭代执行b完成对用户位置的时空记录。

步骤4、基于上述健康医疗实体标识码和位置信息，加上记录产生时间和记录产生的用户信息形成统一记录的基础字段。针对不同类型的记录，在上述基础字段的基础上已Key-Value方式增加记录的特性字段，如用户健康记录可以增加记录的运动步长、ECG信息、心跳信息；药物信息可以增加药物的主治范围等。由于本专利采用NoSQL方式描述记录，因而专利保护的六类数据(及其它数据)可以在统一的模式(参见附图2)下任意扩展。

步骤5、基于NoSQL大数据平台加载步骤4产生的数据集。本专利以AsterixDB为例描述，加载过程如下：

a.创建一个AsterixDB的数据模式及其表，表中定义了前面描述的健康医疗记录标识码、空间位置坐标、记录产生时间、记录产生的用户标识。

b.将步骤4中涉及到的所有记录依据基础模式+特性字段方式形成统一的记录，并插入到AsterixDB中。为了提高空间聚集和时间分段的执行效率，可以在插入前在空间位置字段和记录产生时间字段上分别创建二级索引。

c.增量向数据库的NoSQL记录集中增加记录，记录处理方式与b中一致。

步骤6、创建查询分析语句，对步骤4创建的数据进行检索。不同类型的分析条件可按如下方式执行：

a.针对空间聚集，可以根据用户需要获取的空间区域转换成MBR(最小外包矩形)，对步骤5的NoSQL数据集的空间位置坐标字段进行选择；然后根据聚集函数(如计数)聚集得到查询范围内的记录数量；若用户需要得到多个空间区域，则依次执行，或进行空间连接、记录每个区域的记录数量。

b.针对时间分段查询，基于步骤5的记录产生时间和查询的时间上界和下界，对NoSQL数据集查询利用BTree二级索引得到查询结果。

c.针对时空混合查询，可以分别在空间位置坐标上施加空间范围条件并在时间上施加时间范围条件，得到查询结果。

d.针对态势查询，可以将态势涉及的时间范围进行分割，依次查询每个时间范围的空间统计(查询方法见上面c)，然后依次将不同时间分割查询的结果依次串联起来返回给用户。

步骤7、基于步骤6的查询返回结果，将统计值以不同粒度和不同方式呈现于可视化平台上(附图3～附图13基于Cesium给出了不同类型的查询的不同可视化呈现方式)。典型呈现方式的展示步骤如下：

a.针对用户给定的一个行政规划的空间统计，基于行政规划的空间范围，调用步骤6.a得到规划区域内的对象统计信息(例如深圳市南山区的儿童疫苗总接种数量)，然后根据统计信息以不同的颜色的栅格或不同大小的圆圈叠加于Cesium底图上。

b.针对所有范围内一个主题上的时间查询展示方法，基于时间范围调用6.b进行查询，将得到某个主题(如新冠的总感染确诊人数)已一定的颜色栅格叠加于底图上。基于颜色，用户可清晰地区分给定时间范围内，主题涉及的全局统计数量。

c.针对时空范围查询，根据给定的空间范围和时间范围，通过选定某一个(或若干个)分类的数据集(给定数据的前缀，如PH,PM等)，调用6.c的时空查询条件进行查询，然后基于查询结果的统计值生成不同颜色的栅格或不同大小的圆圈，我们可以在Cesium的底图上叠加展示主题的值大小。

d.针对态势查询，根据时间分段和空间范围，调用6.d依次执行每个时间分割的查询条件，然后得到一个查询结果序列，依次对每个序列产生栅格数据，按照先后次序依次展示栅格。这样，同一个空间范围的数据将按照时间先后次序依次展示空间范围内的主题统计值、完成态势的呈现。

至此，数据的一体化建模和时空可视化过程可简要概括为：1)将得到的分类信息、获取时刻、空间坐标和信息生成人(主体信息)作为每条数据的基础信息；2)根据信息所属的类别填充每条数据除基础信息外的其他字段；3)尽管字段构成显著不同，但不同类别的数据由于均具有同构的基础信息，在常见的NoSQL数据库的同一存储所有记录并创建索引；4)针对给定的空间范围、时间范围和主题条件对记录进行查询，并返回聚集统计结果；5)在常用的GIS平台上，将结果给出的统计值按照一定的可视化方式呈现给用户。

本发明具有如下优点：1、基于公共信息和扩展字段的划分可以提取不同类型、不同格式的健康医疗数据进行统一关联查询，同时又基于NoSQL技术保证了异构数据的特性字段可以在查询结果中一并展示。2、基于2-gram的匹配排序方法可以保证在地址文本不完全匹配时、能够找到与被查询地址文本距离最小的地址坐标。3、当用户能提供移动设备位置时，本发明能够经过长效统计分析、精确地获取系统用户的家庭住址坐标。本发明能根据普通的地址文本对健康医疗数据进行空间化转换、能够对不同类型、不同级别的健康医疗数据进行统一时空关联和时空聚集可视化。

附图说明

图1为公共卫生数据与个体健康数据汇聚处理核心流程。

图2为健康医疗可扩展元数据分层描述示意图。

图3基于小区和其他POI二级地址库的家庭住址匹配流程。

图4深圳市儿童疫苗接种点与矢量底图叠加效果图。

图5深圳市儿童疫苗接种点与影像底图叠加效果图。

图6深圳市疫苗注射站点与适龄儿童(随机采样1/10000)家庭住址坐标化后的标注结果。

图7深圳市疫苗适龄儿童家庭住址坐标化后产生的热力图(红色边界值为每千人/10000平方米)。

图8深圳市疫苗注射适龄儿童热力图及其地址标注与影像底图叠加后的效果。

图9深圳市疫苗注射适龄儿童热力图及其地址标注与矢量底图叠加后的细节效果图。

图10深圳市疫苗注射儿童热力图及其地址标注与影像底图叠加后的浏览效果。

图11为深圳市疫苗注射适龄儿童热力图和市内疫苗注射服务站在影像底图上叠加(城市分布图)。

图12为深圳市疫苗注射适龄儿童热力图和市内疫苗注射服务站在影像底图上叠加(放大效果图)。

图13为深圳市疫苗注射适龄儿童热力图和市内疫苗注射服务站在影像底图上叠加(街道级视图)。

图14a为：行存框架(Avro)连接的效率与基于本专利方法建模后的嵌套表扫描方法的性能对比。该实验运行于SSD磁盘之上。可以看到，由于本专利的单表建模方法使得原本的连接可以通过扫描完成，基于扫描的执行方式在执行时间上比Avro上的选择更为高效。

图14b为：图14a对应的内存中的执行结果。由于这类分析操作在SSD上属于计算机密集型负责，因而图14a的试验结果在14b的内存环境下通用适用：经过专利给出的模式支持，选择操作比连接更高效。

图15为：分布式大数据环境下执行多个查询(1-4)的执行效率，其中Spark-avro采用两表连接，其他平台采用扫描。结果可以看到采用记录扫描的三种平台比Spark-avro执行查询显著更快。

图16为图15试验相同数据和查询在16节点上的执行结果。从中可以看到，所有平台的执行时间均对应比图14更少，而Spark-avro比其他三个平台的扫描执行效率显著更低。

具体实施方式

以下结合附图和具体实施例来对本发明做进一步的说明。

一、首先介绍本发明的发明要点：

(1)基于NoSQL的健康医疗数据统一管理。

健康医疗扩展元数据描述。

任意公共卫生数据或个人数据一旦进入健康医疗数据平台，首先需要根据数据来源系统不同区分和提取公共信息和特性信息。图2给出了四类公共信息(中心处加粗字体标识)和六个健康医疗数据分类(斜体部分)及其特性字段。采用公共处理流程处理不同来源的数据记录，以该图为例描述如下。处理过程：

a.构建健康医疗数据库，采用NoSQL方式定义记录格式为可扩展的，并预定义五个基础字段：主键、分类编码、空间编码、创建时间和用户ID。

b.任意时刻、任意系统中到来一条记录时，根据来源不同生成记录的分类编码：

I.若来源为医疗结构所含的公共卫生实体，则根据数据所属应用系统不同、参考健康医疗分类码生成记录分类编码(以后缀方式包含业务子分类)。

II.若来源为个体健康信息，则基于信息获取的途径形成子分类编码。

c.对于不同记录中实体的空间位置信息分类做如下处理

I.若来源为医疗结构所含的公共卫生实体，通过实体所属的机构位置坐标构建实体的空间位置信息。

II.若来源为个体信息(含个体健康信息和个体就医信息)，则通过POI基础信息进行地质分层匹配，得到个体用户住址所对应的空间位置信息。

d.基于b和c得到的分类信息和空间信息、以及实体产生的时间信息和关联的主体(医护人员ID或用户ID)，可以得到每个记录的四项核心基础信息。

e.通过将记录中的其他属性字段叠加于基础信息，可以得到扩展信息(扩展信息的内容如图1中最外围的属性字段所示)，形成不同专题记录后导入到健康医疗数据平台中。

注：对c和d中基础信息和扩展信息的叠加，现有NoSQL数据库(如MongoDB和AsterixDB等)提供open类型记录定义，可以将基础信息以模式方式进行显示定义，而扩展信息可以在插入时以open字段方式隐式加入。

(2)POI基础信息分层匹配方法。

给定没有空间坐标的地址文本信息，可依据地址质量进行分层匹配。考虑到个体家庭住址多数与小区信息关联，我们可以优先采用文本匹配算法(基于gram的编辑距离计算)得到与家庭住址编辑距离最小的一个小区，并将改小区地址绑定到用户上；对于小区信息上无法匹配的家庭住址，可以通过关键字查询所有POI地址。可以基于组织地址→坐标库，并地址上构建倒排索引以支持高效的地址匹配过程。

匹配流程如图3所示可分为四部：地址分段提取(下述步骤c)、一级库关键字查询(下述步骤d)、二级库编辑距离查询(下述步骤e)和(逆向)排序编辑距离取top1(下述步骤f)。

结合地址库的过程，地址匹配处理过程如下：

b.分别在一级库和二级库上建立2-gram索引

I.地址的2-gram集合采用轮转法对地址进行遍历构建。如“田心小区”可以依次通过2个中文单词形成3个2-gram的集合：{“田心”，“心小”，“小区”}。II.倒排索引采用2-gram作为索引项，反向将所有包含某个2-gram的地址包含在索引数据块中。如“田心小区”和“田心居委会”均包含2-gram“田心”，因此通过扫描“田心”的索引数据库，我们可以快速得到两个地址及其所对应的记录。

c.当地址请求到底时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称。

d.基于小区名称在一级库中以2-gram进行关键词检索，若匹配成功跳转e。

e.依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录。

f.按照2-gram的匹配个数，对所有候选记录进行排序，并将匹配数量最高的候选记录作为最终的住宅地址记录，将该候选记录的坐标作为被查询地址的坐标，退出。

(3)家庭住址坐标分析方法

对于能够提供位置坐标的移动用户(如通过公众号登录并提供位置访问权限的用户),可以定期获取用户移动设备的坐标，并统计一定范围内出现频率最高的位置作为用户的家庭住址。处理流程：

a.定义用户ID、家庭住址、空间坐标序列三元组。

b.定期在凌晨2:00至6:00获取用户ID所对应移动设备坐标。

c.按月聚集每个用户的坐标集合，做如下处理：

I.将每个坐标在经纬两个方向上扩展100米，形成若干MBR

II.构建坐标ID→MBR集合的队列结构

III.依次扫描I中每个MBR(记录MBR-Q)，并在II中队列结构中扫描每个元素中的MBR集合，若MBR-Q与某个元素中的某个MBR有交叠区域，则将MBR-R加入该元素的MBR集合中；否则项队列结构中插入一个新的元素，并将MBR-Q置于其MBR集合中。

d.扫描c中维护的队列结构，得到MBR集合元素最多的坐标ID，将这些坐标的均值作为用户的家庭住址坐标。

上述三项核心技术方法依次可用于解决异构数据的统一管理和统一关联、文本地址信息的空间化和基于移动设备的地址坐标获取问题。

二、下面介绍采用上述三个核心发明点的具体实施方法。

本发明给出的方案适用于客户端(或移动端)/服务器划分的应用场景，如图1所示。为尽量简化用户操作，通过后台统一模式描述和地址→坐标库对健康医疗数据进行一体化管理。用户可以通过客户端(如一台连接健康医疗Web内部应用的电脑或连接健康医疗内部大数据平台的电脑)或手机(通过公众号向健康医疗大数据平台提供个人数据源)将个人信息实时汇聚到健康医疗服务器。本发明假定个人或公共卫生记录的核心字段包含位置信息(可以是统一经纬度的坐标信息或模糊的地址信息，从地址文本到坐标信息的转换为本本发明的核心技术之一)、时间信息和专题业务信息。

根据健康医疗分类码可以将汇聚数据进行分类，我们重点对六类信息建模：个体就医信息(SP)、医疗设施信息(PF)、医疗器械信息(PD)、药物配备信息(PM)和医疗人员信息(PP)，以及一类个体健康信息(SH)。通过医疗结构的业务系统，公共卫生数据可以通过分层编码进行标识后进入系统，然后与个体健康信息通过“健康医疗分类码”系统进行统一前缀编码。然后通过区分公共信息和私有信息形成统一的数据记录表达。个人信息(如通过健康手环或手机客户端生成的健康监控数据、或登记的紧急传染病信息)中的地址部分在经过提取后，通过地址→坐标库进行相似匹配得到标准化坐标、可与其他医疗资源进行时空关联。若用户的移动端能够提供空间坐标，我们可以采用家庭住址历史数据分析更新地址→坐标库中用户的家庭地址文本与坐标之间的对应关系。

(1)个体健康和公共卫生时空聚集可视化方法

包含6个关键步骤，如下：

步骤1、基于统一模式和健康医疗分类码对不同公共卫生和个体健康数据进行统一管理：通过信息来源找到每条记录所属的医疗实体类别，通过前缀+医疗码的方式构建记录实体的分类码。

步骤2、给定个人健康记录，如监控得到的个人健康信息或移动端注册就医信息等，提取其中的家庭住址字段。通过城市小区POI和其他地址信息构建二级地址库，并基于地址→坐标库进行地址字段的匹配，得到个人的空间坐标信息。

步骤6、基于步骤1和2得到的分类信息和空间信息，构建全局统一的模式描述，统一描述所有记录的公共字段(含分类信息、空间信息、时间信息、主体信息)并根据分类不同追加特性字段，形成健康医疗记录。

(2)基于NoSQL的健康医疗记录统一管理

在(1)个体健康和公共卫生时空聚集可视化方法中，步骤1形成分类分级的统一编码，若每条记录均有空间坐标字段，步骤1和步骤6构成健康医疗NoSQL数据管理方法，具体步骤包括：

步骤2、根据到来记录的业务系统，生成记录的分类编码：采用前缀(预设个体就医:SP、个体健康信:SH、医疗设施:PF、医疗器械：PD、药物配备：PM和医疗人员：PP六个大类)。

步骤3、以分类为基础，提取记录的其他基础字段(含空间编码、时间信息、主体信息和记录ID)形成统一描述记录的基础字段。

步骤5、将记录统一存放于NoSQL大数据平台(典型的NoSQL大数据平台如MongoDB和AsterixDB等)中。

(3)个体家庭住址空间坐标转换

在(1)个体健康和公共卫生时空聚集可视化方法中，步骤2，提取个人地址需要对已有POI地址→坐标信息进行有效组织，并在此基础上基于地址文本的相似性匹配得到待查地址文本的坐标信息。具体实施如下：

步骤2、分别在一级库和二级库上建立2-gram索引。

(4)个体家庭住址位置坐标更新维护

在(1)个体健康和公共卫生时空聚集可视化方法中，步骤3至步骤5对提供位置坐标的用户(如通过公众号登录并提供位置访问权限的用户),可以定期基于移动设备坐标将一定范围内出现频率最高的位置作为用户家庭住址。如下：

三、下面结合附图进行具体案例阐述。

案例描述：已知某个城市(以深圳为例)疾控中心需要调配若干防疫站候选点并控制某种传染性疾病的病情发展。为了有效设置防疫站及其调配每个防疫站的工作人员，疾控中心需要知道不同程度病情的人群的空间分布情况、以利于有效利用有限的医护资源。一般情况下，多数(疑似)患者注册信息时仅仅提供简单的文本格式的家庭住址。而为了保护患者隐私，医疗信息普遍不能上网，从而使得不规范的医(如临时设立的紧急救护站地址信息)患难以直接转换成空间坐标。在准确知道每个病人的空间位置信息后，相关疾病的串(并)发症信息和医疗资源的记录格式不尽相同，需要进行统一查询，以快速准确掌控病情发展。

请见图1，利用前缀码置于不同医疗要素分类之前，用以区分医疗设备(前缀PF)、医疗器械(前缀PD)、药物配备(前缀PM)和医疗人员(前缀PP)。如医疗器械中“基础外科手术器械”的编码器械编码为6801，则其对应的健康医疗分类编码为PD6801。当查询条件为“基础外科手术器械”时，可在NoSQL库实例中置查询条件为“MedCode＝“PD6801””得到所有该类器械的记录；若需要查询所有器械时，置查询条件为“beginWith(MedCode，“PD”)”得到所有器械类的记录。图中同时给出了个人信息空间坐标的提取方法，基于“2、提取个人地址”可以将待查地址文本作为查询条件，在地址→坐标库中查询与该文本匹配度最高的记录的空间坐标。对于提供位置坐标的用户，图中3-5给出了位置坐标的计算流程。

请见图2，模型涵盖五类公共卫生信息：个体就医信息(SP)、医疗设施信息(PF)、医疗器械信息(PD)、药物配备信息(PM)和医疗人员信息(PP)，以及一类个体健康信息(SH)。通过医疗结构的业务系统，公共卫生数据可以通过分层编码进行标识后进入系统，然后与个体健康信息通过“健康医疗分类码”系统进行统一前缀编码。然后通过区分公共信息和私有信息形成统一的数据记录。个人信息(如通过健康手环或手机客户端生成的健康监控数据、或登记的紧急传染病信息)中的地址部分在经过提取后，通过地址→坐标库进行相似匹配得到标准化坐标、可与其他医疗资源进行时空关联。对图中基础信息和扩展信息的叠加，现有NoSQL数据库(如MongoDB和AsterixDB等)提供open类型记录定义，可以将基础信息以模式方式进行显示定义，而扩展信息可以在插入时以open字段方式隐式加入。

请见图3，给定没有空间坐标的地址文本信息，可依据地址质量进行分层匹配。考虑到个体家庭住址多数与小区信息关联，我们可以优先采用文本匹配算法(基于2-gram计算编辑距离)得到与家庭住址编辑距离最小的一个小区，并将改小区地址绑定到用户上；对于小区信息上无法匹配的家庭住址，可以通过关键字查询所有POI地址：基于其他POI二级库→坐标库进行相似匹配、得到库中2-gram与被查询文本的2-gram有交集的候选记录，然后基于排序编辑距离得到被查询地址文本的空间坐标。

请见图4，给定深圳市所有儿童疫苗接种点信息，我们可以方便地将所有接种点(图中从红色到蓝色表示接种点覆盖的接种儿童数量分段值)展示在地图上。

请见图5，基于统一的空间坐标信息，我们也可以方便地将所有接种点和影像(图中不同深度绿色的地图)与矢量(图中深红色细线给出了深圳市的区级行政区划)进行叠加。

请见图6，个人信息与上述公共卫生信息进行空间叠加存在一定的困难，利用本发明通过的空间位置提取方法，我们可以将地址信息转换为空间坐标。图中给出了采样的儿童家庭住址(显示采样率为1/10000)经过坐标化(空间位置为经过本本发明提供的技术分析得到的坐标信息)后叠加到地图上的效果。

请见图7，通过对经过坐标化之后的儿童疫苗注射记录进行空间分析、得到儿童分布的热力图(2014年-2015年深圳市适龄儿童分布)，并将热力图连同统一查询得到的站点信息进行统一展示(绘制于空白底图，未与地图叠加)。

请见图8，图7中的所有数据均包含坐标信息，因此可以与影像数据进行较好叠加(图中我们也采样给出了经过分析的部分住址信息)。

请见图9，图7中的所有数据包含坐标信息，可以与矢量地图较好叠加，可以看到从下至上的不同图层：矢量地图、热力图(红色和黄色标识的不规则区域)和卫生站点标定点(不同颜色的正圆)。

请见图10，图9向右下角拉动视图，可以看到深圳市疫苗注射儿童热力图及其地址标注与影像底图叠加后的浏览效果。

请见图11-13，深圳市疫苗注射适龄儿童热力图和市内疫苗注射服务站在影像底图上叠加之后，通过缩放视图依次可以看到：城市分布图、区域分布图和街道分布图。

图14是采用行存框架(Avro)进行两表连接和基于嵌套结构扫描Key-Value格式的统一大表的执行时间对比(1.Avro中试验数据为1.2亿条记录的事实表和2500万条记录的维表进行连接，2.Parquet、Trevni和Group框架下这两组数据并合并成2500万条嵌套记录的大表；1和2的总数据量均为60GB，查询在投影前对两组数据均进行1:10000的过滤)

图15是给定的四组查询(横轴1-4)在4节点并发执行时的执行时间对比，其中Spark-avro采用两表连接(事实表3.6亿记录，维表9千万记录)，其他几组均采用9千万条嵌套记录扫描方式(3.6亿条事实记录嵌套存储于各自所属的记录中)，每组数据量160GB；四个平台下等价执行查询1-4，依次验证选择、连接、选择+连接和选择+连接+投影。

以上仅为本发明的部分实施示例，并非用于限定本发明的保护范围。因此，凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，包括：

移动端：用于存储一类个体健康信息(SH)以及个人位置信息；

服务器端：将健康卫生分类数据和一类个体健康信息(SH)进行六类信息建模，通过分层编码将健康卫生分类数据进行标识后存储在服务器，然后与个体健康信息通过健康医疗实体标识码进行统一前缀编码，得到分类信息；并提取个人位置信息中的地址部分，通过地址映射坐标库进行相似匹配得到标准化坐标，得到空间信息；然后将得到的分类信息、获取时刻、空间信息和信息生成人作为每条数据的基础信息，并根据信息所属的类别填充每条数据除基础信息外的其他字段；最后，尽管字段构成显著不同，但不同类别的数据由于均具有同构的基础信息，因而在常见的NoSQL数据库的同一记录集中并存。

2.根据权利要求1所述的一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，健康医疗实体标识码是基于统一模式和健康医疗实体标识码对不同公共卫生和个体健康数据进行统一管理：通过信息来源找到每条记录所属的医疗实体类别，通过前缀+医疗码的方式构建记录实体在设定的分析标识码，即实体码，具体步骤是：

步骤2.1、考虑全局码采用64字节ASCII字符构成，前缀部分8个字符用来区分记录的分类(已有两个字符的分配见上面权利要求1中六种分类，剩余8个字符填充符号“#”待未来扩展)；

步骤2.2、针对医疗要素的子类标准形成全局码的后续56个字符内容，不足56字符的采用前缀补充“#”的方式补齐全局码；

a.药品编码前缀为“PM######”；后续药品类别标识采用14位构成，由药品国别码、药品类别码、药品本体码和校验码依次连接构成；这里前缀42个字符使用“#”保留对其他药品分类体系或国家药品分类方法的扩展；

b.对于医疗器械编码，采用前缀“PD######”，其中一级产品类别和二级产品类别之间采用“-”分割，依次类推；

c.针对医疗人员和医疗设施，分别采用前缀“PP######”和“PF######”随后跟随医疗人员或设施标识部分采用48字节构成，其中前16字节用于标识人员或设施所在医疗实体的组织机构代码；48字节人员或设施标识的后32字节用于标识给定医疗结构内部的人员或设施编码；

3.根据权利要求1所述的一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，标准化坐标的具体获取方式是：给定个人健康记录，提取其中的家庭住址字段；通过城市小区POI和其他地址信息构建二级地址库，并基于地址映射坐标库进行地址字段的匹配，得到个人的空间坐标信息，具体步骤是：

步骤3.1、构建城市住宅小区一级地址→坐标库和其他POI二级地址→坐标库；

步骤3.2、分别在一级库和二级库上建立2-gram索引；

步骤3.3、当地址请求到达时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称；基于小区名称在一级库中以2-gram进行关键词检索；

步骤3.4、若一级库中无法匹配到记录，依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录；按照2-gram的匹配个数，对所有候选记录排序，并将匹配数量最高的候选记录作为最终的住宅地址，将该候选记录的坐标作为被查询地址的坐标。

4.根据权利要求1所述的一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，服务器端还能够实时更新个人位置，具体是：

步骤4.1、个人位置获取，对于通过移动端提供个人位置信息的用户，维护一个用户位置的列表、并以追加方式不断追加用户的位置信息和获取时间；具体流程如下：

c.迭代执行b完成对用户位置的时空记录；

步骤4.2、历史位置信息；针对增量追加的个人位置信息，周期分析得到注册用户的家庭住址，基本原理是统计夜晚用户的坐标信息，并按坐标范围的频率排序得到精确的地址坐标；具体步骤如下：

d.以月为单位对c中得到的用户每日居住区域进行扫描得到月居住地，扫描确定月居住区域的细节参加H8；

5.根据权利要求1所述的一种个体健康与公共卫生数据时空聚集可视化平台，其特征在于，统一模式描述是得到的分类信息和空间信息，构建全局统一的模式描述，统一描述所有记录的公共字段并根据分类不同追加特性字段，形成健康医疗记录，公共字段含分类信息、空间信息、时间信息、主体信息；具体步骤是：

6.一种个体健康与公共卫生数据时空聚集可视化构建方法，其特征在于，包括

步骤1、基于统一模式和健康医疗实体标识码实体码对不同公共卫生和个体健康数据进行统一管理：通过信息来源找到每条记录所属的医疗实体类别，通过前缀+医疗码的方式构建记录实体的实体码；

步骤2、给定个人健康记录，如监控得到的个人健康信息或移动端注册就医信息等，提取其中的家庭住址字段；通过城市小区POI和其他地址信息构建二级地址库，并基于地址映射坐标库进行地址字段的匹配，得到个人的空间坐标信息；

步骤3、个人位置获取，该步骤为可选项；对于通过移动端提供个人位置信息的用户，维护一个用户位置的列表、并以追加方式不断追加用户的位置信息和获取时间；

步骤4、历史位置信息；针对增量追加的个人位置信息，周期分析得到注册用户的家庭住址，基本原理是统计夜晚用户的坐标信息，并按坐标范围的频率排序得到精确的地址坐标；

步骤5、基于经过分析的住址，对地址→坐标库进行更新，向小区库中插入当前用户的<住址文本,分析得到的坐标信息>，以便于后续其他临近用户的坐标提取；

步骤6、基于步骤1和2得到的分类信息和空间信息，构建全局统一的模式描述，统一描述所有记录的公共字段并根据分类不同追加特性字段，形成健康医疗记录，其中，公共字段包括分类信息、空间信息、时间信息、主体信息,具体是:

1)将得到的分类信息、获取时刻、空间坐标和信息生成人作为每条数据的基础信息；

2)根据信息所属的类别填充每条数据除基础信息外的其他字段；

3)尽管字段构成显著不同，但不同类别的数据由于均具有同构的基础信息，在常见的NoSQL数据库的同一存储所有记录并创建索引；

4)针对给定的空间范围、时间范围和主题条件对记录进行查询，并返回聚集统计结果；

5)在GIS平台上，将结果给出的统计值按照一定的可视化方式呈现给用户。

7.根据权利要求6所述的一种个体健康与公共卫生数据时空聚集可视化构建方法，其特征在于，步骤1中健康医疗标识码的具体构建方法是：

步骤1、构建健康医疗数据库，采用NoSQL方式定义记录格式为可扩展的，并预定义五个基础字段：主键、分类编码、空间编码、创建时间和用户ID；

步骤3、以分类为基础，提取记录的其他基础字段形成统一描述记录的基础字段，其中，其他基础字段包括空间编码、时间信息、主体信息和记录ID；

步骤4、将不同分类记录的特性字段作为记录的扩展字段追加到记录中；

步骤5、将记录统一存放于NoSQL大数据平台中。

8.根据权利要求6所述的一种个体健康与公共卫生数据时空聚集可视化构建方法，其特征在于，步骤2中得到个人的空间坐标信息的具体方法是：

步骤1、构建城市住宅小区一级(地址→坐标)库和其他POI二级(地址→坐标)库；

步骤2、分别在一级库和二级库上建立2-gram索引；

步骤3、当地址请求到达时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称；基于小区名称在一级库中以2-gram进行关键词检索；

步骤4、若一级库中无法匹配到记录，依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录；按照2-gram的匹配个数，对所有候选记录排序，并将匹配数量最高的候选记录作为最终的住宅地址，将该候选记录的坐标作为被查询地址的坐标。

9.根据权利要求6所述的一种个体健康与公共卫生数据时空聚集可视化构建方法，其特征在于，步骤3至步骤5对提供位置坐标的用户,可以定期基于移动设备坐标将一定范围内出现频率最高的位置作为用户家庭住址；如下：

步骤1、将每个坐标在经纬两个方向上扩展100米，形成若干MBR，并构建<用户ID,MBR集合>的映射结构；

步骤2、依次扫描每个MBR，并在队列结构中扫描每个元素中的MBR集合，若MBR-Q与某元素中某MBR有交叠区域，则将MBR-R加入该元素的MBR集合中；否则向队列结构中插入一个新元素，并将MBR-Q置于其MBR集合中；

10.根据权利要求6所述的一种个体健康与公共卫生数据时空聚集可视化构建方法，其特征在于,为个体健康数据提供便捷的空间位置信息提取方法并基于统一的时空建模方法将个体健康和公共卫生数据进行一体化描述、支持时空聚集可视化，步骤6的具体构建方法是：

步骤1、针对不同类别的数据来源构建全局唯一的健康医疗实体标识码用于标识每条记录；其中，数据来源包括个体就医信息(SP)、医疗设施信息(PF)、医疗器械信息(PD)、药物配备信息(PM)和医疗人员信息(PP),不同类型的字段采用前缀编码方式区分，已纳入专利范围的数据类型及其编码方式如下：

a.药品编码前缀为“PM######”；后续药品类别标识采用14位构成，由药品国别码、药品类别码、药品本体码和校验码依次连接构成：国家药品编码本位码国别码为“86”，代表在我国境内生产、销售的所有药品；国家药品编码本位码类别码为“9”，代表药品；国家药品编码本位码本体码的前5位为药品企业标识，根据《企业法人营业执照》、《药品生产许可证》，遵循一照一证的原则，按照流水的方式编制；国家药品编码本位码本体码的后5位为药品产品标识，是指前5位确定的企业所拥有的所有药品产品；药品产品标识根据药品批准文号，依据药品名称、剂型、规格，遵循一物一码的原则，按照流水的方式编制；这里前缀42个字符使用“#”保留对其他药品分类体系或国家药品分类方法的扩展；

b.对于医疗器械编码，采用前缀“PD######”，器械类别参照国家药品监督管理局2017年104号文件颁布的《医疗器械分类目录》进行分层编码，其中一级产品类别和二级产品类别之间采用“-”分割，依次类推；

c.针对医疗人员和医疗设施，分别采用前缀“PP######”和“PF######”随后跟随医疗人员或设施标识部分采用48字节构成，其中前16字节用于标识人员或设施所在医院、门诊部、诊所、卫生所(室)医疗实体的“组织机构代码”，：该文件给出医疗机构代码由10位构成，其被作为本本发明标识的16位设施码的尾缀；48字节人员或设施标识的后32字节用于标识给定医疗结构内部的人员或设施编码；

个体信息中个体就医和个体健康分别采用“SP######”和“SH######”作为前缀标识，身份证作为个体标识，以后缀方式填充个体就医和个体健康码；

步骤2、提取上述类型数据的空间位置信息，其中医疗人员和器械所在的位置以医疗机构所在的位置为准，个人位置信息以其所在的小区为准，具体转换方法为：给定个人健康记录，提取其中的家庭住址字段；通过城市小区POI和其他地址信息构建二级地址库，并基于地址映射坐标库进行地址字段的匹配，得到个人的空间坐标信息，具体步骤是：

a.构建城市住宅小区一级(地址→坐标)库和其他POI二级(地址→坐标)库；

b.分别在一级库和二级库上建立2-gram索引；

c.当地址请求到达时，首先去除地址库中城市名称，然后尝试提取区、街道、小区关键词，对于有道路信息和机构名称的提取道路名称和机构名称；基于小区名称在一级库中以2-gram进行关键词检索；

d.若一级库中无法匹配到记录，依次查询给定组织的所有2-gram，并将每个2-gram所包含的候选记录进行合并，得到每个候选记录与被查询记录的2-gram匹配数量，若匹配数量不小于被查询数量的2-gram的2/3、则保留该候选记录；按照2-gram的匹配个数，对所有候选记录排序，并将匹配数量最高的候选记录作为最终的住宅地址，将该候选记录的坐标作为被查询地址的坐标；

步骤3、对于地址坐标映射库中没有提供的家庭住址信息，可以根据用户睡眠时的位置信息分析得到用户的住址信息；具体步骤如下：

c.迭代执行b完成对用户位置的时空记录；

步骤4、基于上述健康医疗实体标识码和位置信息，加上记录产生时间和记录产生的用户信息形成统一记录的基础字段；针对不同类型的记录，在上述基础字段的基础上已Key-Value方式增加记录的特性字段，如用户健康记录可以增加记录的运动步长、ECG信息、心跳信息；药物信息可以增加药物的主治范围等；由于本专利采用NoSQL方式描述记录，因而专利保护的六类数据(及其它数据)可以在统一的模式(参见附图2)下任意扩展；

步骤5、基于NoSQL大数据平台加载步骤4产生的数据集；本专利以AsterixDB为例描述，加载过程如下：

a.创建一个AsterixDB的数据模式及其表，表中定义了前面描述的健康医疗记录标识码、空间位置坐标、记录产生时间、记录产生的用户标识；

b.将步骤4中涉及到的所有记录依据基础模式+特性字段方式形成统一的记录，并插入到AsterixDB中；为了提高空间聚集和时间分段的执行效率，可以在插入前在空间位置字段和记录产生时间字段上分别创建二级索引；

c.增量向数据库的NoSQL记录集中增加记录，记录处理方式与b中一致；

步骤6、创建查询分析语句，对步骤4创建的数据进行检索；不同类型的分析条件可按如下方式执行：

a.针对空间聚集，可以根据用户需要获取的空间区域转换成MBR，对步骤5的NoSQL数据集的空间位置坐标字段进行选择；然后根据聚集函数聚集得到查询范围内的记录数量；若用户需要得到多个空间区域，则依次执行，或进行空间连接、记录每个区域的记录数量；

b.针对时间分段查询，基于步骤5的记录产生时间和查询的时间上界和下界，对NoSQL数据集查询利用BTree二级索引得到查询结果；

c.针对时空混合查询，可以分别在空间位置坐标上施加空间范围条件并在时间上施加时间范围条件，得到查询结果；

d.针对态势查询，可以将态势涉及的时间范围进行分割，依次查询每个时间范围的空间统计，然后依次将不同时间分割查询的结果依次串联起来返回给用户；

步骤7、基于步骤6的查询返回结果，将统计值以不同粒度和不同方式呈现于可视化平台上(附图3～附图13基于Cesium给出了不同类型的查询的不同可视化呈现方式)；典型呈现方式的展示步骤如下：

a.针对用户给定的一个行政规划的空间统计，基于行政规划的空间范围，调用步骤6.a得到规划区域内的对象统计信息(例如深圳市南山区的儿童疫苗总接种数量)，然后根据统计信息以不同的颜色的栅格或不同大小的圆圈叠加于Cesium底图上；

b.针对所有范围内一个主题上的时间查询展示方法，基于时间范围调用6.b进行查询，将得到某个主题(如新冠的总感染确诊人数)已一定的颜色栅格叠加于底图上；基于颜色，用户可清晰地区分给定时间范围内，主题涉及的全局统计数量；

c.针对时空范围查询，根据给定的空间范围和时间范围，通过选定某一个或若干个分类的数据集，调用6.c的时空查询条件进行查询，然后基于查询结果的统计值生成不同颜色的栅格或不同大小的圆圈，我们可以在Cesium的底图上叠加展示主题的值大小；

d.针对态势查询，根据时间分段和空间范围，调用6.d依次执行每个时间分割的查询条件，然后得到一个查询结果序列，依次对每个序列产生栅格数据，按照先后次序依次展示栅格；这样，同一个空间范围的数据将按照时间先后次序依次展示空间范围内的主题统计值、完成态势的呈现。