CN114830079A

CN114830079A - 用于识别信息和重新格式化数据文件的高效数据处理及其应用

Info

Publication number: CN114830079A
Application number: CN202080076168.4A
Authority: CN
Inventors: 卡洛斯·韦拉-奇罗; 罗伯特·雷蒙德·林德内尔
Original assignee: Vader Data Solutions
Current assignee: Vader Data Solutions
Priority date: 2019-10-30
Filing date: 2020-10-30
Publication date: 2022-07-29
Also published as: US20210174380A1; EP4052119A1; WO2021087254A1; US20210133769A1; EP4052119A4

Abstract

本公开涉及用于识别数据文件中的人口统计信息的系统和方法。该方法可以包括：从第三方接收数据文件，数据文件包含人口统计信息的多个字段，该数据文件具有多个字段中的一个或多个字段的不一致的或误标的术语或虚假的人口统计信息；使用根据其它数据文件训练的机器学习模型来分析该数据文件，以在人口统计信息的多个字段中的每一个字段之间进行区分，该机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息；生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数；以及基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。

Description

用于识别信息和重新格式化数据文件的高效数据处理及其应用

技术领域

此领域总体上涉及处理信息。

背景技术

随着技术的进步，越来越多的人口统计信息被数字化。例如，对于医疗保健提供者，人口统计信息可以包括但不限于他们的姓名、地址、专业、学历、认证等。该人口统计信息可以从各种公共数据源(例如网站)获得。这些网站可以从存储数据的基础数据库(例如州、县、城市或自治市数据库)中检索人口统计信息。例如，州可能有许可委员会，该许可委员会维护所有许可的医疗保健提供者的列表，以及它们相关联的人口统计信息。在另一个示例中，健康保险公司可以在其网络中具有列出医疗保健提供者和相关联人口统计信息的公共网站。在另一个示例中，医疗保健提供者可以自己建立公共网站，列出关于他们的诊所的这种人口统计信息。

实体可能需要维护人口统计信息。例如，健康保险公司可能需要维护对所理赔的服务进行赔偿所需的医疗保健提供者的人口统计信息。为了维护人口统计信息，这些实体经常试图从提供者、医院、团体诊所等收集和整合人口统计信息。对这种信息的请求的响应通常具有低的响应率、差的格式，并且可能包括不准确的信息。例如，响应可能以未知的格式结构化，可能包括不一致或误标的标题，或者可能包括虚假信息。因此，应对响应进行审查，以验证所提供数据的内容，并将其重新格式化为一致的结构。然而，响应经常包括数百个(如果不是数千个的话)具有任何数量的不同类型的人口统计数据的条目。因此，从这些响应中手动审查和重新格式化数据可能是困难的、耗时的和昂贵的，并且通常每个文件需要数周才能完成。这些成本和时间延迟极大地增加了行政开销费用，占美国医疗保险费的三分之一。

因此，需要通过使昂贵的行政任务自动化从而消除手动数据格式化并减少浪费的支出，改进审查和将这些响应重新格式化为有效格式的系统和方法。

发明内容

在一个实施例中，本公开涉及一种识别数据文件中人口统计信息的方法。该方法可以包括从第三方接收数据文件，数据文件包含人口统计信息的多个字段。数据文件可能包括多个字段中的一个或多个字段的不一致或误标的术语或虚假的人口统计信息。该方法还可以包括使用根据其它数据文件训练的机器学习模型来分析数据文件，以在人口统计信息的多个字段中的每一个字段之间进行区分。机器学习模型可以基于多种机器学习算法来识别不同类型的人口统计信息。该方法还可以包括生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数。该方法还可以包括基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。

还公开了系统和计算机程序产品实施例。

下文参照附图详细描述了本发明的其它实施例、特征和优点，以及各种实施例的结构和操作。

附图说明

并入本文中并构成说明书一部分的附图示出了本公开，并与说明书一起进一步用于解释本公开的原理，并使相关领域的技术人员能够做出和使用本公开。

图1示出了根据本公开的方面的一个或多个数据源与系统之间的通信网络图。

图2示出了根据本公开的方面用于审查和重新格式化来自一个或多个数据源的数据文件的系统的图。

图3-5B示出了根据本公开的方面，从一个或多个数据源接收的示例数据文件。

图6示出了根据本公开的方面的示例修订的数据文件。

图7示出了根据本公开的方面，对来自数据源的数据进行重新格式化的方法。

图8为用于实施各种实施例的示例计算机系统。

元件首次出现的附图通常由相对应附图标记中最左边的一个或多个数字表示。在附图中，相似的附图标记可以表示相同或功能相似的元件。

具体实施方式

实施例提供了检查和重新格式化数据文件的方法，数据文件包括对于人口统计信息的多个字段中的一个或多个字段不一致或误标的术语或虚假人口统计信息，这将需要对每个文件进行数周的手动审查和重新格式化。例如，实施例可以使用根据其它数据文件训练的机器学习模型来分析数据文件，以在人口统计信息的多个字段中的每一个字段之间进行区分。机器学习模型可以基于多种机器学习算法来识别不同类型的人口统计信息。例如，分析数据文件可以基于人口统计信息的语义内容、人口统计信息的形状或元数据中的一个或多个的组合。这样，实施例提供了识别不同类型的人口统计数据的能力。实施例还可以生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数。实施例还可以基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。例如，可以基于提供原始数据文件的第三方的要求来格式化修订的数据文件。换句话说，修订的数据文件可以基于对重新结构化的数据的个别请求而可完全定制。因此，实施例提供了有效且高效地生成对第三方最有用的格式的数据文件的能力。

此外，本公开可实施多种机器学习算法与规则的组合，从而改进计算设备的功能。即，机器学习算法与规则的组合避免了机器学习模型的过度训练和过度复杂化，从而减少了生成重新格式化的数据文件所需的资源量，例如处理消耗和存储器资源。此外，在一些方面，本公开可以基于数据文件的采样部分而不是整个数据文件智能地识别不同类型的人口统计信息，整个数据文件可能包括数百个(如果不是数千个的话)条目。通过基于采样部分识别不同类型的人口统计信息，本公开可以进一步减少生成重新格式化的数据文件所需的资源量。

在以下详细说明中，对“一个实施例”、“实施例”、“示例实施例”等的提及指示所描述的实施例可以包括特定的特征、结构或特性，但是每个实施例不一定包括特定的特征、结构或特性。此外，这些短语不一定指同一实施例。此外，当结合实施例描述特定特征、结构或特性时，认为结合其它实施例实现这种特征、结构或特性在本领域技术人员的知识范围内，无论是否明确描述。

图1是一个或多个数据源105与系统115之间通过网络110进行通信的网络100的示意图。在一些实施例中，一个或多个数据源105可以是维护一个或多个个人的人口统计信息的数据库的任何数据源，个人例如是医疗保健提供者，包括但不限于医生、牙医、医师助理、执业护士、护士等。尽管本公开将个人描述为医疗保健提供者，但是本领域普通技术人员应该理解，本公开可以从任何数据源累积数据来实施。在一些实施例中，数据源105可以被托管在能够经由网络110通信的服务器(例如主机服务器、web服务器、应用服务器等)，数据中心设备或类似设备上。

在某些情况下，一个或多个数据源105可包括医疗补助和医疗保险中心(CMS)服务数据源、目录数据源、药品执行机构(DEA)数据源、公共数据源、国家提供者标识符(NPI)数据源、注册数据源和/或理赔数据源。CMS数据源可以是由政府机构提供的数据服务。数据库可能是分布式的，不同的机构组织可能负责CMS数据源中存储的不同数据。CMS数据源还可以包括关于医疗保健提供者的数据，例如合法可用的人口统计信息和理赔信息。CMS数据源也可允许提供者在医疗保险提供者登记系统中登记和更新其信息，并注册和协助医疗保险和医疗补助电子健康记录(EHR)激励计划。

目录数据源可以是医疗保健提供者的目录。在一个示例中，目录数据源可以是专有目录，其将医疗保健提供者与特定客户端认为真实的人口统计和行为属性相匹配。例如，目录数据源可能属于保险公司或健康系统，并且只有在公司同意的情况下才能安全地访问和使用。

DEA数据源可以是由政府机构如DEA维护的注册数据库。DEA可以维护医疗保健提供者的数据库，医疗保健提供者包括医师、验光师、药剂师、牙医或兽医，他们被允许开处方或配药。DEA数据源可以将医疗保健提供者与DEA编号相匹配。此外，DEA数据源可能包括关于医疗保健提供者的人口统计信息。

公共数据源可以是公共数据源，可能是基于web的数据源，例如在线审查系统。这些数据源可能包括医疗保健提供者的人口统计信息、专业领域和行为信息，如众包审查。

NPI数据源可以是将医疗保健提供者与NPI相匹配的数据源。NPI是健康保险可携性和责任法案(Health Insurance Portability and Accountability Act，HIPAA)的行政简化标准。NPI是承保医疗保健提供者的唯一识别号。承保医疗保健提供者和所有医疗保健计划和医疗保健票据交换所必须在HIPAA下通过的行政和金融交易中使用NPI。NPI是10位、无智能的数字标识符(10位数)。这意味着这些数字不携带医疗保健提供者的其它信息，如他们居住的州或他们的医学专业。NPI数据源还可以包括关于医疗保健提供者的人口统计信息。

注册数据源可包括州许可信息。例如，医疗保健提供者(如医师)可能需要向州许可委员会注册。州许可委员会可以提供关于医疗保健提供者的注册数据源信息，例如人口统计信息和专业领域，包括委员会认证。

理赔数据源可以是具有保险理赔信息的数据源。像目录数据源一样，理赔数据源可以是专有数据库。保险理赔可以规定保险赔偿所需的信息。例如，理赔信息可以包括关于医疗保健提供者、所执行的服务以及可能的理赔金额的信息。所执行的服务可以使用标准化代码系统例如ICD-9来描述。医疗保健提供者的信息可以包括人口统计信息。

一个或多个数据源105可从任意数量的来源接收数据文件，来源是例如多个执业团体、多个数据源105中的其它数据源等。例如，一个或多个数据源105可以从例如医疗执业团体、医院等接收对人口统计信息请求的响应。该信息可以由管理员输入，因此，数据文件可以包括人口统计信息的多个字段中的一个或多个字段的不一致或误标的术语，或者它可以包括虚假的人口统计信息。作为另一个示例，一个或多个数据源105可以获取对多个字段中的一个或多个字段使用不同术语的另一个实体。在一些实现方式中，多个数据源105中的一个或多个可以向服务器115发送包含人口统计信息的多个字段的数据文件。

在一些实施例中，数据文件可包括信息表，信息表具有标记人口统计信息的多个字段的任意数量的标题。例如，如图3所示，数据文件可以包括具有标题“名称”、“地址”、“PH#”、“FX#”、“专业”、“许可证号”和“到期日期”的表格。然而，如图3所示，在标题“FX#”下提供的人口统计信息是多个电子邮件地址。此外，如图3所示，标题“地址”下的条目之一包括邮政编码中的排字错误。如图3进一步所示，数据文件可以包括无关的元数据和/或多余的信息。也就是说，如图3所示，数据文件可以包括例如“作者姓名”和“生成日期”，指示谁创作了数据文件及其创建日期。

在进一步的实施例中，数据文件可包括具有标题和副标题的信息表。例如，如图4A所示，数据文件可以具有标记为“团体”的标题，带有标记为“名称”、“地址#1”、“地址#2”、“电话号码”和“Fx#”的副标题。在另一个示例中，如图4B所示，数据文件可以具有标记为“团体”的标题，具有标记为“名称”、“记账”和“服务”的副标题。在又一个示例中，如图5A所示，数据文件可以具有标记为“团体名”的标题，具有标记为“名称”、“地址”、“名称”和“地址”的副标题。因此，如图3-5B所示的示例所示，数据文件可能具有不一致的或误标的术语或虚假的人口统计信息。在一些情况下，具有人口统计信息的每个数据文件的格式可能在源之间是不一致的。

网络110可包括一个或多个有线和/或无线网络。例如，网络110可以包括蜂窝网络(例如，长期演进(LTE)网络、码分多址(CDMA)网络、3G网络、4G网络、5G网络、另一种类型的下一代网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公共交换电话网(PSTN))、专用网络、自组织(ad hoc)网络、内联网、互联网、基于光纤的网络、云计算网络等，和/或这些或其它类型网络的组合。

为了审查和重新格式化来自数据源105的数据文件，服务器115可包括摄取器205、储存库210、显示器215和模型训练器220，如图2所示。在一些实施例中，摄取器205可以使用根据其它数据文件训练的机器学习模型来分析数据文件，以在人口统计信息的多个字段中的每一个字段之间进行区分。例如，在一些实施例中，模型训练器220可以使用具有样本数据文件的多个蒙特卡洛(Monte Carlo)训练集来训练机器学习模型。也就是说，模型训练器220可以使用由人类识别数据文件中的人口统计信息生成的样本集。在一些实施例中，机器学习模型可以基于多种机器学习算法来识别不同类型的人口统计信息。在一些实施例中，多种机器学习算法可以是监督机器学习算法，包括但不限于支持向量机、线性回归、逻辑回归、朴素贝叶斯、线性判别分析、决策树、k-最近邻算法、神经网络和相似性学习。本领域普通技术人员应当理解，这些仅仅是示例监督机器学习算法，并且根据本公开的方面，可以使用其它监督机器学习算法。

作为一个示例，摄取器205可通过分析人口统计信息的多个字段中的每一个字段的语义内容来分析数据文件，以识别不同类型的人口统计信息。例如，摄取器205可以识别语义内容，例如州名或州缩写，其指示人口统计信息可能是地址，而不是例如电话号码或传真号码。类似地，摄取器205可以识别语义内容，例如街道名称(例如，大道(Avenue)、道路(Road)、街道(Street)、小巷(Lane)等)和/或它们相关联的缩写(例如，Ave.,Rd.St.Ln.等)，这同样也指示人口统计信息是地址。更进一步，摄取器205可以识别语义内容，例如州名(或国名)和/或它们相关联的缩写，这同样也指示人口统计信息是地址。在一些实施例中，摄取器205还能够基于语义内容来识别账单地址。例如，语义内容可以包括例如邮政信箱号码，这将指示该内容是账单地址，而不是服务地址。在又一个示例中，摄取器205可以识别语义内容，例如超链接，其可以指示人口统计信息是电子邮件地址。本领域的普通技术人员应该理解，这些仅仅是可以识别的语义内容的示例，并且根据本公开的方面，可以设想其它类型的语义内容。

作为另一个示例，摄取器205可通过分析人口统计信息的多个字段中的每一个字段的形状来分析数据文件，以识别不同类型的人口统计信息。例如，摄取器205可以分析人口统计信息以识别字符的数量、字符的类型(例如，数字与字母字符)、非字母数字字符(例如，空格、逗号、句号等)的数量，以及字母数字字符和非字母数字字符的总体布置。例如，人口统计信息的形状可以是“XXX[comma][space]XXX(XXX[逗号][空格]XXX)”或“XXX[comma][space]XXX[space]X[period](XXX[逗号][空格]XXX[空格]X[句号])”，每个X代表字母字符，这是标识姓名的常见格式。在另一个示例中，人口统计信息的形状可以是###XXX[space]XXX[space]XXX[comma]XX[space]#####(###XXX[空格]XXX[空格]XXX[逗号]XX[空格]#####)(或者#####＝####)，每个#表示数字字符，每个X表示字母字符，这是地址的常见格式。然而，一些数据文件可以使用完整的州名，而不是该州的两个字母缩写，这样，如这里所讨论的，摄取器205可以基于语义内容来识别地址内的州。在又一个示例中，摄取器205可以识别人口统计信息的形状，例如XXX@XXX[period]XXXX(XXX@XXX[句号]XXXX)，其指示人口统计信息是电子邮件地址。本领域普通技术人员应该理解，这些仅仅是可以识别的人口统计内容的形状的示例，并且根据本公开的方面，可以设想其它类型的人口统计内容的形状。

作为另一个示例，摄取器205可通过分析人口统计信息的多个字段中每一个字段的元数据来分析数据文件，以识别不同类型的人口统计信息。例如，元数据可以包括标题的每个术语。在一些情况下，人口统计信息的语义内容和形状可能相似。例如，电话号码和传真号码可能具有相似的语义内容和形状。在另一个示例中，服务地址和账单地址可以具有相似的语义内容和形状。为了区分具有相似语义内容和形状的人口统计信息，摄取器205可以分析标题(或副标题)的元数据。例如，摄取器205可以识别用于不同类型的人口统计信息的通用术语。例如，电话号码的通用术语可以包括但不限于“Phone No.”、“Phone Number”、“P:”、“PH No.”等，而传真号码的通用术语可以包括但不限于“Fax No.”、“Fax Number”、“F:”、“FX No.”等。同样，服务地址的通用术语可以包括例如“Service”、“Serv.”等术语，或者服务地址可以仅被列为“Address”或其一些变形，而账单地址可以被明确地如此标识。此外，如在图3和4A-B中所示的示例中所示，摄取器205可以分析分层标题。使用图3中所示的数据文件，摄取器205可以分析标题“作者姓名”和“生成日期”，并且确定这些字段仅仅是无关的元数据和/或多余的信息，当重新格式化数据文件时，应当移除这些字段。作为另一个示例，使用图4A所示的数据文件，摄取器205可以分析主标题和副标题，并且确定在主标题下方提供的人口统计信息与执业团体相关，即，团体名、团体服务地址、团体帐单地址、团体电话号码和团体传真号码。在又一个示例中，使用图4B所示的数据文件，摄取器205可以分析主标题和副标题，并且确定在主标题下提供的人口统计信息与执业团体相关，即团体名，然而其余的副标题是“服务”和“账单”，并且摄取器205可以确定在这些副标题下提供的人口统计信息分别是账单地址、账单电话号码、服务地址和服务电话。

在一些实施例中，机器学习模型也可关于人口统计信息的常见类型的相应规则加以训练。例如，规则可以包括五位数或五位数后跟连字符和另一个四位数是邮政编码的规则，因为这是邮政编码仅有的可用格式。作为另一个示例，NPI可以被格式化为第一个数字是“1”的十位数，这样，规则可以包括指示以“1”开始的任何十位数都是NPI的规则。在另一个示例中，规则可以包括用于确定对人口统计信息的二进制片段的响应的规则，例如，医疗保健提供者是否正在接受新患者-“是”/“Y”或“否”/“N”。通过使用人口统计信息的常见类型的规则，本公开避免了机器学习模型的过度训练和因此的过度复杂化，并且还提高了机器学习模型的效率。在一些实施例中，这些规则可以被定义为正则表达式，然而，本领域普通技术人员应该理解，可以使用其它类型的规则。

在一些实施例中，摄取器205可分析多列之间的列间关系。例如，如图5A所示，数据文件包括“姓名”和“地址”的交替标题。在审查了每列下的行的语义内容、形状和元数据之后，摄取器205可以确定相应类型的人口统计信息是姓名和地址。此外，通过分析多个列之间的列间关系，摄取器205可以确定交替的标题应该成对分组，例如，医疗保健提供者姓名和他们的相关联地址。作为图5B所示的另一个示例，数据文件可以包括单个医疗保健提供者的多个地址，即“地址1(Addrs.1)”“城市1(City 1)”、“州1(State 1)”以及“地址2(Addrs.2)”、“城市2(City 2)”、“州2(State 2)”。在这种情况下，摄取器205可以确定每个地址与相同的医疗保健提供者相关联，并且将每个地址分成修数据文件中的单独条目，例如单独的信息行，同时仍然将地址与相同的医疗保健提供者相关联。

摄取器205还可生成分数，该分数指示人口统计信息的多个字段中的每一个字段被正确识别的概率。例如，摄取器205可以为人口统计信息的多个字段中的每一个字段生成基线分数，然后可以调整该基线分数。例如，摄取器205可以增加具有众所周知的语义内容和/或形状的人口统计信息例如邮政编码和NPI的分数。此外，摄取器205可以基于标题是否正确地标识了相关联的人口统计信息，例如标题是否正确地标识了“NPI”，来增加或减少分数。例如，当标题与内容不匹配时，分数可以降低，而当标题与内容匹配时，分数可以增加。在一些实施例中，摄取器205可以基于是否已经检测到具有相似语义内容和/或形状的人口统计信息来增加分数。例如，如果仅识别出具有给定语义内容和/或形状的单条人口统计信息，则摄取器205增加电话号码或地址的分数。然而，如果识别出具有相同语义内容和/或形状的人口统计信息的两个或更多个识别字段(例如，电话号码和传真号码或服务地址和账单地址)，则摄取器205可以降低人口统计信息的两个或更多个识别字段的分数，并且这些识别字段可以具有相同的分数。此外，在一些情况下，摄取器205可以生成警报，通知管理员具有相同语义内容和/或形状的人口统计信息的两个或更多个已识别字段，使得管理员可以提供输入来解决冲突。

为解决这一问题，摄取器205可采用额外处理，以在人口统计信息的两个或更多个已识别字段之间进行区分。例如，在一些实施例中，摄取器205可以对照存储在例如储存库210中的已知人口统计信息，交叉检查人口统计信息的多个字段中的至少一个。例如，摄取器205可以对照已知的电话号码和传真号码交叉检查识别的电话号码和识别的传真号码，以验证哪个是电话号码，哪个是传真号码。在一些实施例中，摄取器205可以顺序地检查电话和传真号码的数字，直到摄取器205确定两者之一是电话号码。在一些情况下，可能只知道人口统计信息的两个识别字段中的一个，例如电话号码，并且摄取器205可以识别两个或更多个识别的人口统计信息字段中的一个，相应地，人口统计信息的其余字段被识别为最合理的替代(例如传真号码)。类似地，摄取器205可以交叉检查人口统计信息的其它片段，例如NPI、服务地址和账单地址。本领域普通技术人员应该理解，这些仅仅是可以交叉检查的人口统计信息类型的示例，并且根据本公开的方面，可以交叉检查其它类型的人口统计信息。

此外，摄取器205可识别不正确的信息，在某些情况下，更新不正确的信息。例如，如图3所示，与“Jane Doe”相关联的地址中的邮政编码包括排字错误，并且为了修复该错误，摄取器205可以查询储存库210以识别正确的邮政编码。附加地或替代地，摄取器205可以将不正确的邮政编码与数据文件的其它邮政编码，例如与“John Doe”相关联的邮政编码进行比较，如图3所示。由于“Jane Doe”和“John Doe”的地址具有相同的街道地址、城市和州，因此，摄取器205可以确定与“John Doe”相关联的邮政编码是正确的邮政编码，并相应地更新“Jane Doe”的邮政编码。另外，摄取器205可以通过对照已知的电话号码交叉检查例如已识别的电话号码来确定已识别的信息是否正确。在某些情况下，交叉检查可以确认所识别的号码确实是电话号码。在其它情况下，交叉检查可以确定所识别的电话号码在数据文件中被错误地标记，并且实际上是传真号码，而不是电话号码。

在一些实施例中，摄取器205可分析数据文件中人口统计信息的有限数量的行(即，少于数据文件中的全部行数)，以提高摄取器205的整体效率。例如，在分析了许多行的语义内容、形状和元数据之后，摄取器205能够识别人口统计信息的多个字段中的每一个的人口统计信息的类型，并且假设所有未被分析的其余行是所识别的人口统计信息的类型。此外，摄取器205可以以较小的行的段而不是整个数据文件来生成修数据文件，这可能需要大量的资源，例如处理消耗和存储器资源。通过假定其余行的人口统计信息的类型，摄取器205减少了所使用的资源总量，并提高了服务器115的效率。

一旦人口统计信息的多个字段已被识别并根据需要进行了校正，摄取器205可基于所识别的类型生成标记人口统计信息的多个字段中的每一个字段的修订的数据文件。在一些实施例中，摄取器205可以从数据源105生成根据请求定制的格式的修订的数据文件。例如，所请求的格式可以是与数据源105的预先存在的数据文件一致的格式。作为另一个示例，所请求的格式可以是全新的格式。例如，如图6所示，数据源105可以请求将人口统计信息分成“F_Name(名)”、“L_Name(姓)”、“街道地址”、“城市”、“州”和“邮政编码”。为了实现这一点，摄取器205可以识别所请求格式的字段，并解析所识别类型的人口统计信息，以确定哪个人口统计信息属于所请求格式的哪个字段。也就是说，例如，当摄取器205将人口统计信息识别为“姓、名”或“全名”时，摄取器205可以解析人口统计信息并将它们分成修订的数据文件中的不同字段，即“名”和“姓”。也就是说，通过将单一类型的人口统计信息的列(例如，“全名”)分成不同的单独的列，将单一类型的人口统计信息解析成单独的子成分(例如，“名”和“姓”作为单独的列)，摄取器可以生成新的列。同样地，通过将单独的信息列(例如，“名”和“姓”)组合成单个列(例如，“全名”)，摄取器205可以生成新的列。本领域普通技术人员应该理解，这仅仅是示例，并且根据本公开的方面，摄取器205可以解析人口统计信息的其它类型。在进一步的实施例中，摄取器205可以将单个传入数据文件分成任意数量的修订的数据文件。

在某些情况下，人口统计信息的给定的片段可能与摄取器205识别的人口统计信息的类型的那些不匹配。例如，摄取器205可以将人口统计信息的多个字段之一识别为NPI，但是一个条目可能与NPI的已知格式不匹配。在这种情况下，摄取器205可以原封不动地跳过不匹配的人口统计信息，使该值为空，或者插入标志特定条目的特殊字符。替代地，摄取器205可以生成警报，通知管理员不匹配的人口统计信息，使得管理员可以提供输入来解决差异。

在一些实施例中，摄取器205可根据识别的人口统计信息确定附加信息。例如，使用所识别地址的地址，摄取器205可以确定医疗保健提供者的地理位置或坐标。作为另一个示例，摄取器205可以基于已知的街道地址、城市和州来补充缺失的邮政编码。根据请求，摄取器205可以在修数据文件中包括这样的附加信息。摄取器205可以将修数据文件存储在储存库210中，并且服务器115可以通过网络110将修数据文件发送到数据源105。

图7示出了识别数据文件中人口统计信息的方法。

在705，计算设备，例如，服务器115，可从第三方接收包含人口统计信息的多个字段的数据文件。数据文件可能具有多个字段中的一个或多个字段的不一致的或误标的术语或虚假的人口统计信息。

在710，计算设备，例如，服务器115，可使用根据其它数据文件训练的机器学习模型分析数据文件，以在人口统计信息的多个字段中的每一个之间进行区分。机器学习模型可以基于多种机器学习算法来识别不同类型的人口统计信息。

在715，计算设备，例如，服务器115，可生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数。

在720，计算设备，例如，服务器115，可基于识别的类型，生成标记人口统计信息的多个字段中的每一个字段的修订的数据文件。

上述服务器和模块中每一个可在计算设备的软件、固件或硬件中实施。计算设备可以包括但不限于：个人计算机、诸如移动电话的移动设备、工作站、嵌入式系统、游戏控制台、电视、机顶盒或任何其它计算设备。此外，计算设备可以包括但不限于用于执行和存储指令的具有处理器和存储器(包括非暂时性存储器)的设备。存储器可以以非暂时的方式有形地包含数据和程序指令。软件可以包括一个或多个应用程序和操作系统。硬件可以包括但不限于处理器、存储器和图形用户界面显示器。计算设备还可以具有多个处理器和多个共享或单独的存储器组件。例如，计算设备可以是集群或分布式计算环境或服务器群的一部分或全部。

可实施各种实施例，例如，使用一个或多个众所周知的计算机系统，如图8所示的计算机系统800。例如，可以使用一个或多个计算机系统800来实施这里讨论的实施例中的任何实施例及其组合和子组合。

计算机系统800可包括一个或多个处理器(也称为中央处理单元或CPU)，如处理器804。处理器804可以连接到通信基础设施或总线806。

计算机系统800还可包括(多个)用户输入/输出设备803，如监视器、键盘、定点设备等，其可以通过(多个)用户输入/输出接口802与通信基础设施806通信。

一个或多个处理器804可为图形处理单元(GPU)。在一个实施例中，GPU可以是处理器，该处理器是被设计成处理数学密集型应用的专用电子电路。GPU可以具有并行结构，该并行结构对于并行处理大数据块是高效的，例如计算机图形应用、图像、视频等常见的数学密集型数据。

计算机系统800还可包括主存储器或主要存储器808，如随机存取存储器(RAM)。主存储器808可以包括一级或多级高速缓存。主存储器808可以在其中存储控制逻辑(即，计算机软件)和/或数据。

计算机系统800还可包括一个或多个辅助存储设备或存储器810。辅助存储器810可以包括例如硬盘驱动器812和/或可移动存储设备或驱动器814。可移动存储驱动器814可以是软盘驱动器、磁带驱动器、致密盘驱动器、光存储设备、磁带备份设备和/或任何其它存储设备/驱动器。

可移动存储驱动器814可与可移动存储单元818交互。可移动存储单元818可以包括计算机可用或可读存储设备，在计算机可用或可读存储设备上存储有计算机软件(控制逻辑)和/或数据。可移动存储单元818可以是软盘、磁带、致密盘、DVD、光存储盘和/或任何其它计算机数据存储设备。可移动存储驱动器814可以从可移动存储单元818读取和/或向可移动存储单元818写入。

辅助存储器810可包括允许计算机系统800访问计算机程序和/或其它指令和/或数据的其它装置、设备、组件、工具或其它方法。这种装置、设备、组件、工具或其它方法可以包括例如可移动存储单元822和接口820。可移动存储单元822和接口820的示例可以包括程序盒式存储器和盒式存储器接口(例如在视频游戏设备中发现的)、可移动存储器芯片(例如EPROM或PROM)和相关联插座、记忆棒和USB端口、存储器卡和相关联的存储器卡插槽、和/或任何其它可移动存储单元和相关联的接口。

计算机系统800可进一步包括通信或网络接口824。通信接口824可以使计算机系统800能够与外部设备、外部网络、外部实体等(个别地和共同由附图标记828标出)的任意组合进行通信和交互。例如，通信接口824可以允许计算机系统800通过通信路径826与外部或远程设备828通信，通信路径826可以是有线和/或无线的(或其组合)，并且可以包括LAN、WAN、互联网等的任何组合。控制逻辑和/或数据可以经由通信路径826发送到计算机系统800和从计算机系统800发送。

计算机系统800还可以是个人数字助理(PDA)、台式工作站、膝上型或笔记本计算机、上网本、平板计算机、智能手机、智能手表或其它可穿戴设备、电器、物联网的一部分和/或嵌入式系统中的任何一种，仅举几个非限制性示例，或其任何组合。

计算机系统800可为客户端或服务器，通过任何交付范例访问或托管任何应用和/或数据，包括但不限于远程或分布式云计算解决方案；本地或内部部署软件(“内部部署”基于云的解决方案)；“即服务”模型(例如，内容即服务(CaaS)、数字内容即服务(DCaaS)、软件即服务(SaaS)、托管软件即服务(MSaaS)、平台即服务(PaaS)、桌面即服务(DaaS)、框架即服务(FaaS)、后端即服务(BaaS)、移动后端即服务(MBaaS)、基础设施即服务(IaaS)等)；和/或包括前述示例或其它服务或交付范例的任何组合的混合模型。

计算机系统800中任何适用的数据结构、文件格式和模式(schemas)可从标准中获得，标准包括但不限于JavaScript对象符号(JSON)、可扩展标记语言(XML)、另一种标记语言(YAML)、可扩展超文本标记语言(XHTML)、无线标记语言(WML)、MessagePack、XML用户接口语言(XUL)、逗号分隔值(CSV)或任何其它单独或组合的功能相似的表示。替代地，可以使用专有的数据结构、格式或模式，要么专门使用，要么与已知的或开放的标准结合使用。

在一些实施例中，包括其上存储有控制逻辑(软件)的有形、非暂时性计算机可用或可读介质的有形、非暂时性装置或制品在本文中也可称为计算机程序产品或程序存储设备。这包括但不限于计算机系统800、主存储器808、辅助存储器810和可移动存储单元818和822，以及体现前述任意组合的有形制品。当由一个或多个数据处理设备(例如计算机系统800)执行时，这种控制逻辑可以使这种数据处理设备如本文所描述进行操作。

基于本公开中包含的教导，(多个)相关领域的技术人员将清楚如何使用除图8所示之外的数据处理设备、计算机系统和/或计算机架构做出和使用本公开的实施例。特别地，实施例可以用除了这里描述的那些之外的软件、硬件和/或操作系统实施例来操作。

结论

本发明已在上文借助功能构建块进行了描述，功能构建块说明了规定功能及其关系的实现方式。为了描述的方便，这些功能构建块的边界在这里被任意定义。只要适当地执行规定的功能及其关系，就可以定义替代边界。

特定实施例的前述说明充分揭示了本发明的一般性质，其它人可通过应用本技术领域内的知识，在不脱离本发明的一般概念的情况下，无需过多实验，针对各种应用轻松修改和/或调适此类特定实施例。因此，基于本文给出的教导和指导，这种调适和修改旨在处于所公开的实施例的等同物的含义和范围内。应当理解，这里的措辞或术语是为了描述的目的，而不是为了限制，因此本说明书的术语或措辞将由技术人员根据教导和指导来解释。

本发明的广度和范围不应受任何上述示例性实施例的限制，而应仅根据以下权利要求及其等同物进行限定。

Claims

1.一种识别在数据文件中的人口统计信息的计算机实施的方法，包括：

从第三方接收数据文件，所述数据文件包含人口统计信息的多个字段，所述数据文件具有对于所述多个字段中的一个或多个字段的不一致的或误标的术语或者虚假的人口统计信息；

使用根据其它数据文件训练的机器学习模型来分析所述数据文件，以在所述人口统计信息的多个字段中的每一个字段之间进行区分，所述机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息；

生成指示出对所述人口统计信息的多个字段中的每一个字段进行了正确识别的概率的分数；以及

基于所识别的类型，生成被修订的数据文件，所述被修订的数据文件标记所述人口统计信息的多个字段中的每一个字段。

2.根据权利要求1所述的方法，其中，

分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的语义内容，以识别所述不同类型的所述人口统计信息。

3.根据权利要求1所述的方法，其中，

分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的形状，以识别所述不同类型的人口统计信息。

4.根据权利要求1所述的方法，其中，

分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的元数据，以识别所述不同类型的人口统计信息。

5.根据权利要求4所述的方法，其中，

所述元数据包括所述人口统计信息的多个字段中的每一个字段的每个术语。

6.根据权利要求1所述的方法，其中，响应于识别出所述人口统计信息的多个字段中的不同字段，所述方法还包括：

对照已知的人口统计信息，交叉检查所述人口统计信息的多个字段中的至少一个字段。

7.根据权利要求1所述的方法，还包括：

将所述被修订的数据文件发送给所述第三方。

8.一种用于识别数据文件中的人口统计信息的系统，包括：

存储器，所述存储器存储有用于识别所述数据文件中的所述人口统计信息的指令；以及

处理器，所述处理器被配置为执行所述指令，所述指令使得所述处理器：

使用根据其它数据文件所训练的机器学习模型来分析所述数据文件，以在所述人口统计信息的多个字段中的每一个字段之间进行区分，所述机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息；

基于所识别的类型，生成被修订的数据文件，所述被修订的数据文件标记所述人口统计信息的多个字段中的每一个。

9.根据权利要求8所述的系统，其中，

分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的语义内容，以识别所述不同类型的人口统计信息。

10.根据权利要求8所述的系统，其中，

11.根据权利要求10所述的系统，其中，

12.根据权利要求8所述的系统，其中，

分析所述数据文件包括：分析每个术语，以识别所述不同类型的人口统计信息。

13.根据权利要求8所述的系统，其中，响应于识别出所述人口统计信息的多个字段中的不同字段，所述指令进一步使所述处理器：

对照已知的人口统计信息，来交叉检查所述人口统计信息的多个字段中的至少一个字段。

14.根据权利要求8所述的系统，其中，

所述指令还使所述处理器将所述被修订的数据文件发送给所述第三方。

15.一种非暂时性程序存储设备，在所述非暂时性程序存储设备上存储有指令，当所述指令被至少一个计算设备执行时，使得所述至少一个计算设备执行以下方法，所述方法包括：

16.根据权利要求15所述的方法，其中，

所述分析数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的语义内容，以识别所述不同类型的人口统计信息。

17.根据权利要求15所述的方法，其中，

18.根据权利要求15所述的方法，其中，

19.根据权利要求18所述的方法，其中，

20.根据权利要求15所述的方法，其中，响应于识别出所述人口统计信息的多个字段中的不同字段，所述方法还包括：