CN105830073A - 基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统 - Google Patents

基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统 Download PDF

Info

Publication number
CN105830073A
CN105830073A CN201480068453.6A CN201480068453A CN105830073A CN 105830073 A CN105830073 A CN 105830073A CN 201480068453 A CN201480068453 A CN 201480068453A CN 105830073 A CN105830073 A CN 105830073A
Authority
CN
China
Prior art keywords
entity
medical
patient
data
submitted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480068453.6A
Other languages
English (en)
Inventor
G·古普塔
W·科恩
R·佩尼
A·桑克拉
M·桑达吾
D·泰百
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Atiqiao company
Original Assignee
Atigeo LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Atigeo LLC filed Critical Atigeo LLC
Publication of CN105830073A publication Critical patent/CN105830073A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)

Abstract

本文档针对当大数据集可用时,从可用的较小数据集计算出的值估计可能从大数据集得出的值的方法和系统。当前描述的方法和系统的具体例子是从假想的数据集估计各种医疗记录相关的统计和值的方法和系统。为了从观察到的较小数据集外推期望的统计和计算值,多个模型被当前公开的方法和系统采用。这些模型可以按顺序被采用,以通过各种多维度数据集体量生成相对细粒度的估计。

Description

基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统
对相关申请的交叉引用
本申请要求于2013年12月17日提交的临时申请No.61/916,909的权益。
技术领域
本文档针对用于当大数据集可用时,从可用的较小数据集计算出的值估计可能从大数据集得到的值的方法和系统,并且在具体的例子中,针对基于较小的医疗索赔相关的数据集,为大的、假想的医疗索赔相关的数据集估计汇总计算结果的方法和系统。
背景技术
医疗索赔的处理是由包括保险公司、索赔处理机构、索赔付款人机构、各种类型的医疗服务提供者以及患者的许多不同实体合作执行的大且复杂的努力。每年在美国处理体量(volume)巨大的医疗索赔。在索赔处理中涉及的各种实体,包括索赔处理机构,通常希望监视和跟踪在全国范围内由各种患者段生成的索赔类型和索赔体量的趋势,以便预测对增加的索赔处理能力和基础设施的需要、在服务不足领域的市场服务、促进流行病学的研究和其它类型的医学研究、用于计划员工雇用和福利、以及用于许多其它原因。但是,当前在医疗索赔处理中涉及的各种机构只可以直接观察到在特定时间段在某个地理区域内发生的医疗索赔事务的总体量的小的子体量。因此,这些机构继续寻求将允许只基于由机构观察到的医疗索赔事务的子集精确估计医疗索赔相关的统计以及其它计算值的系统和方法。
发明内容
本文档针对用于当大数据集可用时,根据从可用的较小数据集计算出的值估计可能从大数据集得到的值的方法和系统。当前描述的方法和系统的具体例子是估计从假想的数据集计算出的各种医疗记录相关的统计和值的方法和系统,包括对于各种患者段每单位时间量每患者的索赔数量和对于各种患者段每单位时间量每患者的特定类型索赔的数量。通常,即使只能直接观察到理论数据集的较小子集的数据,也期望估计用于整个国家范围或者国家内的大的地理区域。为了从观察到的较小数据集外推期望的统计和计算值,多个模型被当前公开的方法和系统采用。这些模型可以按顺序被采用,以通过各种多维度数据集体量(multi-dimensionaldata-setvolume)生成相对细粒度的估计。
附图说明
图1示出了医疗索赔处理环境。
图2示出了医疗索赔相关的估计问题领域。
图3A-G示出了将使简单缩放统计和计算值受挫的一些现象,这种简单缩放统计(scalingofstatistics)和计算值是基于由特定医疗索赔处理机构观察到的医疗索赔事务,以便估计用于大地理区域或用于特定患者段内的大部分患者的统计和计算值。
图4示出由特定索赔处理者处理的医疗索赔的子集。
图5示出了在诸如一年的单位时间段提交索赔的所有患者集合,并且该集合的各种子集与特定的索赔处理机构相关。
图6A-B示出了一个相对于每患者统计的索赔观察到的现象。
图7示出了第二个相对于每患者统计的索赔观察到的现象。
图8示出了在第一估计模型下层的状态转换模型。
图9示出了其中参数a的值相对于垂直轴绘制并且f的值相对于水平轴绘制的用于大量模拟的示例结果集合。
图10示出了多维度每患者索赔体量。
图11提供了用于各种类型的计算机的一般体系架构示图。
具体实施方式
图1示出了医疗索赔处理环境。如在图1中所示,患者从医疗服务提供者接收医疗服务,其中每个患者由小圆盘表示,诸如圆盘102,医疗服务提供者由较大的圆盘表示,诸如圆盘104。服务提供关系由从患者102到医疗服务提供者104的有向边或箭头106表示。如在图1中所示,特定患者,诸如患者108,可以从多个医疗服务提供者接收医疗服务,如由箭头110-112所示。医疗服务提供者向医疗索赔付款人机构提交用于补偿提供给患者的服务的索赔。索赔的提交也在图1中通过箭头表示,诸如箭头114,其表示由医疗服务提供者104向医疗索赔付款人机构116提交医疗索赔。医疗索赔付款人机构又将索赔提交到索赔处理机构,诸如索赔处理机构118。在图1中,诸如箭头120的箭头表示由医疗索赔付款人机构向索赔处理机构提交索赔。索赔处理机构又将索赔提交到保险公司,如由从索赔处理机构发出的箭头所指示的,诸如从索赔处理机构118发出的箭头122-124。
作为由当前描述的方法和系统解决的问题领域的一个例子,索赔处理机构可能希望推断平均上为特定段的普通患者—诸如年龄在21和40岁之间、生活在美国大都市区的成年人—提交的各种统计和假设的计算值,诸如索赔的数量。通常,他们希望基于其中它们直接参与的医疗索赔事务估计这些参数和统计。但是,其中特定机构参与的医疗索赔事务可能是在时间单位段内针对感兴趣的患者段执行的医疗索赔事务的总数中相对小的子集。此外,从小数据集计算出的统计和值会由于特定机构对全部医疗索赔有关事务的非均匀采样的影响而显著地偏斜和偏差。图2示出了医疗索赔相关的估计问题领域。如由围绕索赔处理机构204的虚线框202所示,索赔处理机构204会希望估计将从完整的医疗索赔数据集计算出的各种类型的全国范围的医疗索赔相关的统计和值,但是只直接观察那些由医疗索赔付款人机构116和206转发给索赔处理机构的医疗索赔。这些医疗索赔付款人机构又接收仅来自全部数量的医疗服务提供者和患者中的子集的索赔。
第一印象,可能会假定特定的索赔处理机构将只需要准确估计由特定索赔处理机构处理的患者的部分以及由特定索赔处理机构处理的索赔的部分,以便能够缩放从由特定索赔处理机构观察到的医疗索赔事务计算出的统计和值,从而为大得多的医疗索赔事务集精确地估计对应的统计和计算值,包括在一年的时间段期间在国家内或国家的大区域内执行的全部医疗索赔事务。但是,情况并非如此。存在许多不同类型的现象使得这种简单的估算方法不准确和不充分。
图3A-F示出了将使基于由特定医疗索赔处理机构观察到的医疗索赔事务简单缩放统计和计算值,以便估计用于大地理区域或用于特定患者段内的大部分患者的统计和计算值受挫的一些现象。图3A-F使用如在图1和2中使用的相同的图示约定。此外,用字母“t”标记的有向箭头指示时间的流逝。
在图3A中,多个患者301-306从医疗服务提供者307接受医疗服务。医疗提供者307通过付款人机构308向索赔处理机构309提交索赔。但是,在流逝一定时间310之后,患者302不再从医疗服务提供者307接收服务,如由小虚线圆圈311所指示的,并且最初没有从医疗服务提供者307接收医疗服务的两个新患者312和313现在开始从医疗服务提供者307接收医疗服务。作为结果,如果索赔提供机构309试图在包括由箭头310表示的时间间隔的较大时间间隔上估计某些索赔相关的统计和计算值,则索赔处理机构会由于以下的事实而低估每患者索赔的统计和计算值,即,只有代表患者——诸如由于在该时间间隔期间迁移进或迁移出索赔提供机构的患者302和312-313——提交的全部索赔的一部分被索赔提供机构处理。类似地,如在图3B中所示,从医疗服务提供者316接收医疗服务的特定患者315会生成被初始地发送到第一索赔支付机构317的索赔,第一索赔支付机构317又将该索赔转发到第一索赔处理机构318。但是,在时间流逝之后,医疗服务提供者316会改变为将索赔提交到第二索赔付款人机构319,其中第二索赔付款人机构319将索赔转发到第二个、不同的索赔处理机构320。因此,索赔处理机构318和320两者都只在诸如一年的时间单位的一部分期间观察到来自医疗服务提供者316的索赔。如果他们基于他们处理的观察到的医疗索赔事务为整个年估计索赔相关的统计和值,则他们将可能显著低估对特定患者段的每患者索赔的统计和值。
如在图3C中所示,特定患者322可以从两个不同的医疗服务提供者324-325接收医疗服务,其中每个医疗服务提供者分别将索赔提交给不同的付款人机构326和327。付款人机构326和327每个又分别使用不同的索赔处理机构328和329。如果索赔处理机构328或329中任一个基于从患者322观察到的索赔估计统计和其它值,则这些估计会显著地低于那个患者的实际值,这是由于每个索赔处理机构只观察由该患者生成的索赔的一部分的事实。如在图3D中所示,在图3C中示出的情况可以会由于以下事实额外地复杂化,即,付款人机构327中的一个可以将索赔提交到多个索赔处理机构,如由箭头330-331所表示的。
如在图3E中所示,特定付款人机构332可以在单位时间期间从把索赔转发到第一索赔处理机构334切换为把索赔转发到第二索赔处理机构336。如在图3F中所示,特定医疗服务提供者338可以将用于特定患者340的索赔转发到多个付款人机构342和344,其中每个机构将索赔分别转发到不同的索赔处理机构346和348。如在图3G中所示,最初使用将索赔通过第一付款人机构354转发到第一索赔处理机构356的第一医疗服务提供者352的特定患者350会随着时间的推移移动或迁移到将索赔通过不同的付款人机构360转发到不同索赔处理机构362的不同医疗服务提供者358。
图4示出了由特定索赔处理者处理的医疗索赔的子集。在图4中,外部圆圈或较大的圆盘402表示在诸如一年的单位时间段内、在诸如国家的大地理区域内生成的所有索赔。内部的阴影圆盘404表示由特定索赔处理者处理的那些索赔。由于各种不同的原因,随着时间的推移,索赔的总数和由特定索赔处理者处理的索赔数量都不是稳定的。其中一个原因是,如由双箭头406所指示的,患者可能在一年期间迁移到特定的地理区域中和从特定的地理区域中迁移出。要考虑的另一个因素是,如以上所讨论的,患者、医疗服务提供者和付款人机构可能在一年期间在索赔处理者之间迁移,如由双箭头408所指示的。
图5示出了在诸如一年的单位时间段提交索赔的所有患者集合,并且该集合的各种子集与特定的索赔处理机构相关。图5使用与在图4中使用和如在后续的图6A-7中使用的类似的图示约定。在单位时间对一些地理区域生成医疗索赔的全部患者集合由外部圆盘502表示。由这些患者的小子集生成的全部索赔可以由特定的索赔处理机构504来处理。但是,由于以上参考图3A-F和图4讨论的许多现象,这些患者通常只表示特定的索赔处理机构在该年或其它时间单位506期间为其处理索赔的患者的子集。作为结果,特定的索赔处理机构不能只基于在一年期间观察到的索赔或基于在一年期间观察到的患者做出对与医疗索赔有关的各种统计和值的准确估计,这既是因为由索赔处理机构处理的索赔会随着时间推移由于迁移而不稳定,如参考图4所讨论的,又因为索赔处理机构为其处理索赔的许多患者可能已生成由另一个索赔处理机构处理的其它索赔。
图6A-B示出了一个相对于每患者统计的索赔观察到的现象。如在图6A中所示,特定的索赔处理机构处理在单位时间段期间在地理区域中处理的全部索赔的特定子集602。由于以上讨论的未观察到索赔的现象,相对于在单位时间期间每患者608生成的索赔的实际数量,特定的索赔处理机构会观察到每患者生成的索赔的一部分606。但是,由于由特定索赔处理者处理的索赔的数量的部分相对于总的索赔增加,如由图6B中子集610和全部索赔集合612的尺寸之比与图6A中子集602和全部索赔集合604的尺寸之比的相对大小所指示的,由特定索赔处理者614观察到的每患者索赔的数量是每患者616生成的全部索赔的大得多的部分。显然,随着由特定索赔处理者处理的总处理索赔部分增加,特定患者或医疗服务提供者将迁移出或迁移到索赔处理机构的可能性降低,并且由索赔处理机构看到的患者的全部索赔中未被索赔处理机构观察到的部分显著降低。由特定索赔处理机构处理的索赔部分通常与将索赔提交到特定索赔处理机构的付款人部分有关,使得在图6A-B中示出的趋势也可以相对于将索赔提交到特定索赔处理机构的付款人机构的总数量的部分被观察到。
图7示出了另一个相对于索赔处理观察到的现象。如在图7中所示,随着时间702的推移,由特定索赔处理机构704观察到的每患者的索赔相对于每患者生成的全部索赔减少,如由子集708与集合706以及子集704与集合703的相对面积所示出的。这种现象是由于以下事实,即,随着时间的推移,一些数量的患者、医疗服务提供者和付款人机构迁移出或迁移到索赔处理机构的概率增加,其结果是由特定索赔处理机构处理的每患者未观察到的索赔的平均数量也增加。
由于以上参考图3A-7讨论的各种现象,本文档公开了使用三个估计模型来从由索赔处理机构处理的索赔估计各种索赔相关的统计和计算值的方法和系统。换句话说,由索赔处理机构处理的索赔是全部数量索赔的子集,并且由索赔处理机构观察到已提交索赔的患者是全部数量患者的子集。利用这些模型,在以下讨论,索赔处理机构可以为样本大小和偏差调整计算的统计,诸如每患者段每患者生成的索赔的数量。
图8示出了第一估计模型下层的状态转换模型。在单位时间段期间,当初始索赔代表患者被提交给索赔处理机构时,患者变为由索赔处理机构观察。代表患者的索赔的初始提交由第一或开始状态802表示。此后,在单位时间段内的剩余时间段期间,附加的索赔可以代表患者提交到特定的索赔处理机构,如由状态804所表示的。此外,索赔可以代表患者被提交到另一个索赔处理机构,并且因此表示该患者的未观察到的索赔,如由状态806所表示的。这些状态之间的可能转换由弯曲箭头表示,诸如弯曲箭头808。当患者的初始索赔被特定的索赔处理机构接收到时,附加的索赔也可能已被提交给其它索赔处理机构。在初始状态下代表患者提交的索赔的总数量因此是未知的,并且由参数α表示。
第一估计模型通过以下表达式进行描述:
n t r u e ′ = a + ( n o b s - a ) ( 1 + 1 - f f p t )
其中n′true=真实的平均索赔数量;
nobs=观察到的索赔数量;
f=用于其索赔被提交给将索赔提交给特定索赔处理机构的付款人的患者的部分;
a=由每个患者在初始访问时生成的索赔的平均数量;及
pt=由每个患者做出的付款人转换的平均数量。
在这个模型中,假定将索赔提交到特定索赔处理机构的付款人将其全部索赔提交到索赔处理机构。本质上,该模型试图向上调整观察到的索赔的数量,以反映以下事实,即,患者可能迁移到不将索赔提交到该特定索赔处理机构的付款人,如由图8中的状态806所表示的。值nobs是由特定索赔处理机构观察到的每患者的索赔数量。这个数是已知的。如nobs一样是每患者的值的参数a和pt的值一般是未知的。但是,有可能通过由特定索赔处理机构处理的索赔的基于采样的分析得出这些参数的值。将索赔提交给索赔处理机构的某些支付机构可以是已知将其全部索赔提交给索赔处理机构。因此,可以选择可利用人口普查数据为其计算f的由索赔处理机构处理的索赔的子集。然后,利用已知的f,可以为这些子集执行模拟,其中参数a和pt的值在合理的范围内变化。作为这些模拟的结果,用于参数a和pt的值的分布被获得。图9示出了其中参数a的值相对于垂直轴绘制并且f的值相对于水平轴绘制的用于大量模拟的示例结果集合。可以采用各种类型的多变量回归,或者可以采用其它统计方法来从这些分布估计参数a和pt的值。利用用于参数a和pt的这些估计值并且基于付款人机构的知识和由索赔处理机构服务的付款人机构的相对比例估计值f,观察到的索赔的校正数量n′true可以从多个观察到的索赔计算出。
第二个模型校正从第一个模型获得的n′true以考虑以下事实,即,只有一部分将索赔提交给特定索赔处理机构的付款人机构事实上将索赔专门发送到特定的索赔处理机构:
n t r u e = N o b s N ′ o b s n t r u e ′
其中,ntrue=真实的索赔数量;
n′true=从模型1捕获的索赔数量;
Nobs=从专门付款人观察到的索赔数量;及
N′obs=根据模型1从专门付款人观察到的索赔数量。
如同利用第一个模型,在第二个模型中使用的值是每患者的值。在专门付款人信息不可用的情况下,ntrue可以被设置为n′true
ntrue=n′true
其中
N o b s N ′ o b s = 1
第三个模型允许用于大数据集的统计和参数估计以相对高的粒度在多维度每患者索赔数据体量内执行。图10示出了多维度每患者索赔体量。在图10中,每患者索赔体量由三个维度来描述。对应于体量的笛卡尔x轴的第一维度1002表示地理区域。该维度随着邮政编码递增。对应于笛卡尔y轴的第二维度1004表示患者的性别。对应于笛卡尔z轴的第三维度1006表示患者的年龄范围。因此,每患者索赔数据集体量1000被划分为许多单元,诸如单元1008,其中每个单元的特征在于特定的邮政编码、特定的性别和特定的年龄范围。第三个模型将用于由单元表示的患者的每患者观察到的索赔的数量建模为如下:
n c = ( n c _ o b s + kn t r u e ) ( βp c _ o b s + k )
其中,nc=在单元中观察到的真实索赔数量;
nc_obs=在单元中观察到的索赔数量;
pc_obs=在单元中的患者数量;
k=平滑常量;及
β=确定的迁移常量。
用于该模型的全局约束通过以下表达式提供:
n t r u e = Σ i ∈ c e l l s ( n c _ o b s , i βp c _ o b s , i ) m i
其中,ntrue=从第二模型获得的每患者索赔的观察到的数量;及
mi=在由单元表示的地理区域内总人口的部分。
迁移常量β的值可以从以下表达式获得:
β = Σ i ∈ c e l l s ( n c _ o b s , i ) ( m i ) ( p c _ o b s , i ) ( n t r u e )
当前描述的方法有必要在计算机系统上计算执行。他们不能用手或通过非计算的方法来执行,这是因为它们涉及基于非常大数量的索赔和患者,其通常包括几十万、上百万或更多的患者和索赔,的计算估计。人工计算将导致大量的误差并且甚至对于专门的人类计算者团队将花费数十年或更长的时间,由于准确的结果在索赔被处理或者在其后相对短的时间段期间需要,这将使得最终的结果是没有用的。此外,患者索赔在大的数据中心通过自动化方法进行处理,并且当前描述的方法有必要合并到这些自动化系统中。虽然上述方法利用数学符号进行总结,但是数学符号描述了由一个或多个计算机系统执行的计算过程。数学符号正如实现方法的计算机程序是方法的完整和具体描述。此外,上述方法决不是在当前实践的自动化索赔处理系统中所固有的,并且不是在一般的统计实践和理论或当前可用的数据处理系统中所固有的。它们表示新的和有用的数据方法,其可以被结合到自动化索赔处理计算系统中,以便生成由于由任何特定索赔处理系统处理的索赔一般只表示为患者和患者段处理的索赔的子集的事实而不能被直接计算的各种类型的值的更准确估计,诸如每患者段每患者生成的索赔的数量。
图11提供了用于各种类型的计算机的一般体系架构示图。例如,处理医疗索赔的计算机可以通过在图11中示出的一般体系架构示图来描述。计算机系统包含一个或多个中央处理单元(“CPU”)1102-1105、通过CPU/存储器子系统总线1110或多条总线与CPU互连的一个或多个电子存储器1108、将CPU/存储器子系统总线1110与附加总线1114和1116互连的第一桥1112、或其它类型的高速互连介质,包括多个高速串行互连。这些总线或串行互连又将CPU和存储器与诸如图形处理器1118的专用处理器,以及与一个或多个附加桥1120连接,其中附加桥1120与高速串行链路或与诸如控制器1127的多个控制器1122-1127互连,其中控制器提供对各种不同类型的大容量存储设备1128、电子显示器、输入设备以及其它此类组件、子组件和计算资源的访问。应当指出,计算机可读数据存储设备包括光和电磁盘、电子存储器和其它物理数据存储设备。那些熟悉现代科学和技术的人可以认识到,电磁辐射和传播信号不存储用于随后检索的数据,并且可以瞬间“存储”每英里仅一字节或更少的信息,远少于即使编码最简单的例程所需要的信息。
虽然本发明已就特定的实施例进行了描述,但这并不意味着本发明局限于这些实施例。在本发明的精神之内的修改对本领域技术人员将是显而易见的。例如,通过改变许多不同的设计和实现参数,包括硬件平台、操作系统、虚拟化系统、数据结构、控制结构、模块化组织、编程语言以及许多其它此类参数,中的任意个可以获得大量所描述方法和系统的可替代实现。当前描述的估计模型代表可以用来从数据子集估计统计和其它计算数据值的相关参数化估计模型的较大集合。外推技术可容易地扩展到涉及明确定义的实体及其消费或跨大的人口和地理位置扩散的行为模式的若干个问题领域。一个这种问题领域涉及估算用于消费产品跨连锁店扩散的消耗度量。在这个问题领域中,各个商店的ID代替以上讨论例子中的付款人ID、各个客户ID代替患者ID、并且产品或产品段代替索赔类型。当通过商店和通过区域测量时,度量上客户迁移和分化的影响等效于患者度量跨付款人的影响。当在没有外推校正的情况下测量时,观察到较小的产品消费原始度量。在通过以上讨论的方法校正之后,估计的产品消费数字更接近地表示真实的消费。这对于试图通过区域为不同的产品和产品种类估计消费数量以便将资源引导到具有最大消耗的产品的公司会是非常有用的。使用原始的、未校正的产品-消耗数量会导致下游模型中严重的错误以及资源的不当分配。
可以认识到,提供前面对所公开的实施例的描述是为了使本领域任何技术人员能够制作或使用本公开内容。对这些实施例的各种修改将是本领域技术人员容易认识到的,并且在不背离本公开内容的精神或范围的情况下,在本文中定义的一般原理可以应用到其它实施例。因此,本公开内容并非意在局限于本文中所示的实施例,而是要符合与本文所公开的原理和新颖特征一致的最广范围。
权利要求书(按照条约第19条的修改)
1.一种结合到自动化系统中的方法,用于当大数据集可用时,根据从较小数据集计算出的每提交实体数字值为大数据集估计每提交实体数字值,其中大数据集包括由多个提交实体提交到多个自动化数据-实体处理系统的多个数据实体,并且较小数据集包括由多个提交实体提交到单个自动化数据-实体处理系统的多个数据实体,所述方法在包括一个或多个处理器、一个或多个存储器以及一个或多个大容量存储设备的计算机系统中执行,所述方法包括:
从较小数据集计算每提交实体数字值;
对于提交实体在自动化数据-实体处理系统之间的迁移,利用第一估计模型校正计算出的每提交实体数字值,以产生校正后的每提交实体数字值;及
对于由提交实体到自动化数据-实体处理系统的非专门性提交,利用第二估计模型校正校正后的每提交实体数字值,以产生当大数据集可用时将从该大数据集中得出的每提交实体数字值的估计。
2.如权利要求1所述的方法,其中第一估计模型将每提交实体的校正后的提交数量计算为初始提交的平均数量与第一项之和,其中第一项被计算为第一因子和第二因子的积,第一因子被计算为每提交实体的观察到的提交数量和每提交实体的初始提交的平均数量之间的差,并且第二因子被计算为1和第二项之和,其中第二项通过将每时间段由提交实体在自动化数据-实体处理系统之间做出的转换的平均数量乘以不将数据实体提交到单个自动化数据-实体处理系统的提交实体的部分与将数据实体提交到单个自动化数据-实体处理系统的提交实体的部分之比来计算。
3.如权利要求1所述的方法,其中提交实体是医疗服务提供者的患者;
其中所述数据实体是医疗索赔;并且
其中数据-实体处理系统是医疗索赔处理机构。
4.一种数据处理系统,包括:
一个或多个处理器;
一个或多个存储器;
一个或多个大容量存储设备;以及
编码在物理计算机指令存储设备中的计算机指令,该计算机指令控制数据处理系统:
估计在由每个患者对通过医疗索赔支付机构向医疗索赔处理机构提交索赔的医疗服务的初始访问中产生的索赔的平均数量a,
估计在时间间隔期间患者从一个医疗索赔支付机构改变到另一个医疗索赔支付机构的时间的平均数量pt
观察并在物理数据存储设备中记录在特定时间间隔期间递交给特定医疗索赔处理机构的观察到的医疗索赔的数量nobs,以及
基于观察到的医疗索赔的数量nobs,其表示在特定时间间隔期间递交的医疗索赔的总数量的一部分,估计在特定时间间隔期间递交的医疗索赔的平均总数n'true
5.如权利要求4所述的数据处理系统,其中索赔的平均数量a和患者从一个医疗索赔支付机构改变到另一个医疗索赔支付机构的时间的平均数量pt是从以下估计的:由一个或多个医疗索赔支付机构提交的由特定索赔处理机构处理的索赔的子集,该一个或多个医疗索赔支付机构向该特定索赔处理机构提交了其接收到的全部医疗索赔。
6.如权利要求5所述的数据处理系统,其中索赔的平均数量a和患者从一个医疗索赔支付机构改变到另一个医疗索赔支付机构的时间的平均数量pt是从以下估计的:
从人口普查数据确定其医疗索赔被提交给一个或多个医疗索赔支付机构的患者的一部分,该一个或多个医疗索赔支付机构将其接收到的全部医疗索赔提交给该特定索赔处理机构;
利用a和pt的各种值模拟医疗索赔向一个或多个医疗索赔支付机构的提交以获得a和pt的值的分布,该一个或多个医疗索赔支付机构将其接收到的全部医疗索赔提交给特定索赔处理机构;以及
从所获得的分布估计a和pt
7.如权利要求4所述的数据处理系统,其中基于观察到的医疗索赔的数量nobs的医疗索赔的平均总数n'true是通过以下估计的:
利用a和pt的估计值来估计其索赔被提交给医疗索赔支付机构的一部分患者f,该医疗索赔支付机构基于由特定索赔处理机构提供服务的医疗索赔支付机构的相对比例,将医疗索赔提交给特定索赔处理机构;以及
确定n'true作为a和第一项nobs–a与第二项之积的和。
8.如权利要求4所述的数据处理系统,还包括:
校正医疗索赔的平均总数n'true以考虑到以下事实:仅一部分向特定索赔处理机构提交医疗索赔的医疗索赔支付机构专门向特定索赔处理机构提交医疗索赔。
9.一种在数据处理系统中执行的方法,该数据处理系统具有一个或多个处理器,一个或多个存储器,一个或多个大容量存储设备以及编码在物理计算机指令存储设备中的计算机指令,该计算机指令控制数据处理系统执行所述方法,所述方法包括:
估计在由每个患者对通过医疗索赔支付机构向医疗索赔处理机构提交索赔的医疗服务的初始访问中产生的索赔的平均数量a,
估计在时间间隔期间患者从一个医疗索赔支付机构改变到另一医疗索赔支付机构的时间的平均数量pt
观察并在物理数据存储设备中记录在特定时间间隔期间递交给特定医疗索赔处理机构的观察到的医疗索赔的数量nobs
基于观察到的医疗索赔的数量nobs,其表示在特定时间间隔期间递交的医疗索赔的总数量的一部分,估计在特定时间间隔期间递交的医疗索赔的平均总数n'true,以及
存储所估计的医疗索赔的平均总数n'true
10.如权利要求9所述的方法,其中索赔的平均数量a和患者从一个医疗索赔支付机构改变到另一个医疗索赔支付机构的时间的平均数量pt是从以下估计的:由一个或多个医疗索赔支付机构提交的由特定索赔处理机构处理的索赔的子集,该一个或多个医疗索赔支付机构向该特定索赔处理机构提交了其接收到的全部医疗索赔。
11.如权利要求10所述的方法,其中索赔的平均数量a和患者从一个医疗索赔支付机构改变到另一个医疗索赔支付机构的时间的平均数量pt是从以下估计的:
从人口普查数据确定其医疗索赔被提交给一个或多个医疗索赔支付机构的患者的一部分,该一个或多个医疗索赔支付机构将其接收到的全部医疗索赔提交给该特定索赔处理机构;
利用a和pt的各种值模拟医疗索赔向一个或多个医疗索赔支付机构的提交以获得a和pt的值的分布,该一个或多个医疗索赔支付机构将其接收到的全部医疗索赔提交给特定索赔处理机构;以及
从所获得的分布估计a和pt
12.如权利要求9所述的方法,其中基于观察到的医疗索赔的数量nobs的医疗索赔的平均总数n'true是通过以下估计的:
利用a和pt的估计值来估计其索赔被提交给医疗索赔支付机构的一部分患者f,该医疗索赔支付机构基于由特定索赔处理机构提供服务的医疗索赔支付机构的相对比例,将医疗索赔提交给特定索赔处理机构;以及
确定n'true作为a和第一项nobs–a与第二项之积的和。
13.如权利要求9所述的方法,还包括:
校正医疗索赔的平均总数n'true以考虑到以下事实:仅一部分向特定索赔处理机构提交医疗索赔的医疗索赔支付机构专门向特定索赔处理机构提交医疗索赔。
14.一种数据处理系统,包括:
一个或多个处理器;
一个或多个存储器;
一个或多个大容量存储设备;以及
编码在物理计算机指令存储设备中的计算机指令,该计算机指令控制数据处理系统:
将医疗患者的总的多维度体量分割成单元;以及
基于针对在特定时间间隔期间递交的每个单元c的观察到的医疗索赔的数量nc_obs,其表示在特定时间间隔期间递交的医疗索赔的总数的一部分,为在特定时间间隔期间递交的每个单元c估计医疗索赔的平均总数nc
15.如权利要求14所述的数据处理系统,其中维度是从包括以下的医疗患者属性中选择的医疗患者属性:
地理位置;
性别;
年龄;
收入;
种族;
教育程度;
国籍;及
职业。
16.如权利要求14所述的数据处理系统,其中nc被估计为
n c = ( n c _ o b s + kn t r u e ) ( βp c _ o b s + k )
其中,pc_obs=在单元中的患者数量;
ntrue=每患者索赔的平均数量;及
k=平滑常量;及
β=确定的迁移常量。
17.如权利要求16所述的数据处理系统,其中该模型的全局约束为:
n t r u e = Σ i ∈ c e l l s ( n c _ o b s , i βp c _ o b s , i ) m i
其中,mi=在由单元i表示的区域内总人口的部分;
pc_obs,i=在单元i中的患者数量;
nc_obs,i=在单元i中的索赔数量。
18.如权利要求17所述的数据处理系统,其中迁移常数β是通过以下获得的:
β = Σ i ∈ c e l l s ( n c _ o b s , i ) ( m i ) ( p c _ o b s , i ) ( n t r u e )
19.一种在数据处理系统中执行的方法,该数据处理系统具有一个或多个处理器,一个或多个存储器,一个或多个大容量存储设备以及编码在物理计算机指令存储设备中的计算机指令,该计算机指令控制数据处理系统执行所述方法,所述方法包括:
将医疗患者的总的多维度体量分割成单元;以及
基于针对在特定时间间隔期间递交的每个单元c的观察到的医疗索赔的数量nc_obs,其表示在特定时间间隔期间递交的医疗索赔的总数的一部分,为在特定时间间隔期间递交的每个单元c估计医疗索赔的平均总数nc
20.如权利要求19所述的方法,其中nc被估计为
n c = ( n c _ o b s + kn t r u e ) ( βp c _ o b s + k )
其中,pc_obs=在单元中的患者数量;
ntrue=每患者索赔的平均数量;及
k=平滑常量;及
β=确定的迁移常量。
21.如权利要求19所述的方法,其中该模型的全局约束为:
n t r u e = Σ i ∈ c e l l s ( n c _ o b s , i βp c _ o b s , i ) m i
其中,mi=在由单元i表示的区域内总人口的部分;
pc_obs,i=在单元i中的患者数量;及
nc_obs,i=在单元i中的索赔数量。
22.如权利要求20所述的方法,其中迁移常数β是通过以下获得的:
β = Σ i ∈ c e l l s ( n c _ o b s , i ) ( m i ) ( p c _ o b s , i ) ( n t r u e )

Claims (2)

1.一种结合到自动化系统中的方法,用于当大数据集可用时,根据从较小数据集计算出的每提交实体数字值为大数据集估计每提交实体数字值,其中大数据集包括由多个提交实体提交到多个自动化数据-实体处理系统的多个数据实体,并且较小数据集包括由多个提交实体提交到单个自动化数据-实体处理系统的多个数据实体,所述方法在包括一个或多个处理器、一个或多个存储器以及一个或多个大容量存储设备的计算机系统中执行,所述方法包括:
从较小数据集计算每提交实体数字值;
对于提交实体在自动化数据-实体处理系统之间的迁移,利用第一估计模型校正计算出的每提交实体数字值,以产生校正后的每提交实体数字值;及
对于由提交实体到自动化数据-实体处理系统的非专门性提交,利用第二估计模型校正校正后的每提交实体数字值,以产生当大数据集可用时将从该大数据集中得出的每提交实体数字值的估计。
2.如权利要求1所述的方法,其中第一估计模型将每提交实体的校正后的提交数量计算为初始提交的平均数量与第一项之和,其中第一项被计算为第一因子和第二因子的积,第一因子被计算为每提交实体的观察到的提交数量和每提交实体的初始提交的平均数量之间的差,并且第二因子被计算为1和第二项之和,其中第二项通过将每时间段由提交实体在自动化数据-实体处理系统之间做出的转换的平均数量乘以不将数据实体提交到单个自动化数据-实体处理系统的提交实体的部分与将数据实体提交到单个自动化数据-实体处理系统的提交实体的部分之比来计算。
CN201480068453.6A 2013-12-17 2014-12-17 基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统 Pending CN105830073A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361916909P 2013-12-17 2013-12-17
US61/916,909 2013-12-17
PCT/US2014/070975 WO2015095405A1 (en) 2013-12-17 2014-12-17 Method and system for estimating values derived from large data sets based on values calculated from smaller data sets

Publications (1)

Publication Number Publication Date
CN105830073A true CN105830073A (zh) 2016-08-03

Family

ID=53403656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480068453.6A Pending CN105830073A (zh) 2013-12-17 2014-12-17 基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统

Country Status (6)

Country Link
US (1) US20150269335A1 (zh)
EP (1) EP3084659A4 (zh)
JP (1) JP2017505474A (zh)
CN (1) CN105830073A (zh)
CA (1) CA2929568A1 (zh)
WO (1) WO2015095405A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613072A (en) * 1991-02-06 1997-03-18 Risk Data Corporation System for funding future workers compensation losses
US20060129428A1 (en) * 2004-11-16 2006-06-15 Health Dialog Services Corporation Systems and methods for predicting healthcare related financial risk
US20100293000A1 (en) * 2009-05-14 2010-11-18 Wangyang Hu System for evaluating potential claim outcomes using related historical data
CN101996385A (zh) * 2009-08-25 2011-03-30 埃森哲环球服务有限公司 索赔分析引擎
US20120173468A1 (en) * 2010-12-30 2012-07-05 Microsoft Corporation Medical data prediction method using genetic algorithms

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879959B1 (en) * 2000-01-21 2005-04-12 Quality Care Solutions, Inc. Method of adjudicating medical claims based on scores that determine medical procedure monetary values
JP2001236411A (ja) * 2000-02-24 2001-08-31 Words:Kk データベースを利用した立地診断方法
JP2003108662A (ja) * 2001-09-28 2003-04-11 Nippon Keiei:Kk 診療報酬評価システム、診療報酬評価プログラム
JP4847605B1 (ja) * 2010-12-06 2011-12-28 社団法人国民健康保険中央会 外来電子レセプトの画面処理システム、および画面表示方法
JP4990410B1 (ja) * 2011-12-06 2012-08-01 国立大学法人北海道大学 医療費解析システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613072A (en) * 1991-02-06 1997-03-18 Risk Data Corporation System for funding future workers compensation losses
US20060129428A1 (en) * 2004-11-16 2006-06-15 Health Dialog Services Corporation Systems and methods for predicting healthcare related financial risk
US20100293000A1 (en) * 2009-05-14 2010-11-18 Wangyang Hu System for evaluating potential claim outcomes using related historical data
CN101996385A (zh) * 2009-08-25 2011-03-30 埃森哲环球服务有限公司 索赔分析引擎
US20120173468A1 (en) * 2010-12-30 2012-07-05 Microsoft Corporation Medical data prediction method using genetic algorithms

Also Published As

Publication number Publication date
WO2015095405A4 (en) 2015-08-13
JP2017505474A (ja) 2017-02-16
US20150269335A1 (en) 2015-09-24
EP3084659A1 (en) 2016-10-26
EP3084659A4 (en) 2017-04-26
WO2015095405A1 (en) 2015-06-25
CA2929568A1 (en) 2015-06-25

Similar Documents

Publication Publication Date Title
Mitropoulos et al. Combining stochastic DEA with Bayesian analysis to obtain statistical properties of the efficiency scores: An application to Greek public hospitals
Diaby et al. How to use multi-criteria decision analysis methods for reimbursement decision-making in healthcare: a step-by-step guide
Bahamonde-Birke et al. On the variability of hybrid discrete choice models
Aguilar et al. Accuracy assessment of digital elevation models using a non‐parametric approach
Willekens Evidence-based monitoring of international migration flows in Europe
Ensor et al. Statistical approaches for evaluating surrogate outcomes in clinical trials: a systematic review
Gruber et al. Targeted learning: toward a future informed by real-world evidence
Mittman et al. A hierarchical model for heterogenous reliability field data
Chao Estimating project overheads rate in bidding: DSS approach using neural networks
He et al. Multiple imputation using multivariate gh transformations
Deng et al. Estimating construction project duration and costs upon completion using Monte Carlo simulations and improved earned value management
Hamzah et al. Multiple imputations by chained equations for recovering missing daily streamflow observations: A case study of Langat River basin in Malaysia
CN111582394B (zh) 一种群体评估方法、装置、设备及介质
Dai et al. Minimum distance quantile regression for spatial autoregressive panel data models with fixed effects
Dong et al. Recalculating the agricultural labor force in china
Small et al. Model complexity and accuracy: A COVID-19 case study
Moses et al. Learning how to improve effort estimation in small software development companies
Creedy et al. Confidence intervals for policy reforms in behavioural tax microsimulation modelling
WO2022222230A1 (zh) 基于机器学习的指标预测方法、装置、设备及存储介质
Özdilek The role of thermodynamic and informational entropy in improving real estate valuation methods
Mavros et al. Stochastic mortality modeling: Key drivers and dependent residuals
Plunus et al. Measuring operational risk in financial institutions
CN105830073A (zh) 基于从较小数据集计算出的值估计从大数据集得出的值的方法和系统
Kunst et al. Computing the expected value of sample information efficiently: expertise and skills required for four model-based methods
Park et al. Bayesian approach to multivariate component-based logistic regression: analyzing correlated multivariate ordinal data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170612

Address after: Washington, USA

Applicant after: Atiqiao company

Address before: Washington, USA

Applicant before: AGFA HEALTHCARE

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160803

WD01 Invention patent application deemed withdrawn after publication