CN111418024A

CN111418024A - 康复状况评估与管理系统及相关方法

Info

Publication number: CN111418024A
Application number: CN201880075686.7A
Authority: CN
Inventors: 张志宏; 安德鲁·博丁; 詹姆斯·A·斯利瓦
Original assignee: Chicago Institute Of Rehabilitation
Current assignee: Chicago Institute Of Rehabilitation; Rehabilitation Institute of Chicago
Priority date: 2017-09-27
Filing date: 2018-09-26
Publication date: 2020-07-14
Also published as: JP7423514B2; AU2022200808A1; US20190096513A1; CA3076219A1; US11380425B2; EP3688764A1; JP2020535526A; AU2018342443A1; AU2024202389A1; EP3688764A4; JP2022125154A; US20220336069A1; MX2020003572A; WO2019067554A1

Abstract

公开了用于在康复环境中测量患者结果的系统和方法。在一个示例性方法中，提供与自理有关的评估，提供与活动性有关的评估，并且提供与认知有关的评估，其中，该评估已经使用项目反应理论进行了预选。

Description

康复状况评估与管理系统及相关方法

相关申请的交叉引用

本申请要求于2017年9月27日提交的美国临时专利申请第62/563,960号的优先权，其全部内容通过引用并入此文。

技术领域

本公开群体上涉及康复技术，并且更具体地，涉及用于评估患者的计算机辅助方法。

背景技术

“结果测量”，也称为“结果评估工具”，是用于确定患者的各种医学状况或功能状态的一系列项目。一种结果测量是功能独立性测量(Functional Independence Measure，

)，其提供了测量功能状态的方法。该评估包含由运动任务(13个项目)和认知任务(5个项目)组成的18个项目。临床医生按照从群体协助到完全独立的七点顺序对任务进行评分。运动技能的分数从7(最低)到91(最高)，认知技能的分数从7到35。项目包括饮食、梳理、洗澡、上半身穿衣、下半身穿衣、上厕所、膀胱管理、排便管理、从床转移到椅子，转移到厕所，转移到淋浴，运动(活动或轮椅水平)、楼梯、认知理解、表情、社交互动、解决问题和记忆。

FIM测量使用评分标准，该评分标准的范围从1分(反完全辅助)到7分(反映完全独立)。分数7旨在反映患者完全独立。分数1旨在反映患者只能完成少于25％的任务或需要至少一个人辅助。由于这种评分系统，许多在独立式住院康复设施或医院内住院康复单位中获得改善的患者在康复过程中不一定会在结果评分方面获得提高。例如，脊髓损伤患者可以在康复期间显著改善精细手指运动技能，从而允许患者使用计算机或智能手机。但是，在这种情况下，他或她的FIM得分不会提高。

需要可以更准确地捕获对患者的医疗状况或功能状态的评估的结果测量。另外，需要可以帮助更好地确定患者(例如，康复患者)可以改善的域的结果测量。

“项目”是在结果测量中使用的问题或其他类型的评估。例如，结果测量中的一项被称为“伯格平衡量表”(Berg Balance Scale)指示患者如下：“请站起来。尽量不要动手寻求支持。”“评级”是对项目评估的评分结果或其他评估。例如，伯格平衡量表项目的等级如下：等级4表示患者无需用手即可站立并独立稳定；等级3表示患者能够用双手独立站立；等级2表示患者经过几次尝试即可站立；等级1表示患者需要他人的最少帮助以站立或稳定下来；等级0表示患者需要其他人的中度或最大帮助才能站起来。

古典测试理论是一组相关的心理测试理论，其预测教育评估和心理测试的结果，诸如，项目的难度或应试者的能力。这是一种测试理论，基于人们在测试中观察或获得的分数是真实分数(无错误分数)与错误分数之和的理念。经典测试理论假设每个人都有一真实分数T，如果测量中没有错误，就会获得该分数。一个人的真实分数定义为在无数次独立测试中预期的正确数字分数。不幸的是，测试用户从不会观察到一个人的真实分数，而只会观察到分数X。假定观察者分数＝真实分数加上一些误差，或者X＝T+E，其中X是观察分数，T是真实分数，并且E是误差。所观察的测试分数X的可靠性，即测量的整体一致性，被定义为真实分数方差与所观察的分数方差之比。因为观察到的分数的方差可以显示为等于真实分数的方差和误差分数的方差的总和，所以这形成了信噪比，其中测试分数的可靠性随着测试分数中误差方差的比例变低而变高，反之亦然。可靠性等于测试分数中方差的比例，如果知道真实分数，则可以解释该比例。可靠性的平方根是真实分数与观察分数之间的相关性。可以通过多种方法来获得可靠性的估计值，诸如，并行测试或称为克伦巴赫(Cronbach)系数α的内部一致性测量。可以证明克伦巴赫系数α为可靠性提供了一个下限，因此，群体中测试分数的可靠性始终高于该群体中克伦巴赫系数α的值。

发明内容

通过开发结合了因素分析和项目反应理论的结果评估解决了准确测量康复患者的改善的问题。

通过向患者询问一系列问题并返回特定域和/或综合评分来解决测量康复患者的改善的问题。

通过在患者的结果测量中预测特定域和/或综合评分，并在特定域和/或综合评分低于预期水平时提供临床干预，解决了改善康复患者的护理问题。

附图说明

尽管所附权利要求书特别地阐述了本发明技术的特征，但是根据以下结合附图的详细描述，可以最好地理解这些技术及其目的和优点。

图1示出用于准备初步结果测量的某些示例性方法的流程图。

图2示出用于以电子方式收集初步结果测量中的项目的等级的流程图。

图3示出IRT的示例性评分系统，将其与现有技术中已知的

分数进行比较。

图4示出与自理、认知和移动域中的患者评分有关的某些数据的示例性图表。

图5进一步示出患者在自理域中每个项目/任务上的当前和预期功能状态。

图6A和图6B是“FIM探测”部分，具有允许临床医生为每个特定于FIM的任务选择和/或设置目标的特征。

图7示出比较图。

图8示出与患者FIM得分相比较的自理域的各种图表。

具体实施方式

“双因素模型(bifactor model)”是一种结构模型，其中项目聚类到特定因素上，同时加载到一般因素上。

术语“类别的(categorical)”用于描述没有明确或暗示的顺序或等级的响应选项。

“比较拟合指数”(Comparative Fit Index，CFI)将构造的结构模型的性能与假定变量之间没有关系的模型的性能进行比较。拟合良好的模型的CFI通常大于0.95。

“复杂结构(complex structure)”是CFA结构模型，其中至少一个项目加载到一个以上的因素上。

“确定性因素分析”(Confirmatory factor analysis，CFA)是一种因素分析，其中心理测量师了解如何将潜在特征和项目进行分组和关联。开发了适合数据的结构模型。该模型的目标是使数据很好地拟合。

“约束(constraint)”是出于数学稳定性或内容区域理论的应用而施加于模型的限制。例如，如果预计验证性因素分析中的两个因素之间不存在任何关系，则可以将对该关联性的约束(要求等于0.00)添加到模型中。

“连续(continuous)”变量是不分类别(例如，时间、身高、体重等)测量的变量。

“协变量(covariate)”是模型中的变量，该变量未进行测量，但可能仍具有一定的解释力。例如，在康复研究中，偶尔包括年龄、性别、住院时间、诊断组等的协变量可能是有用的。

“二分法(Dichotomous)”描述了具有两个类别(例如，低与高)的顺序的响应选项。或者，它可以指被正确或不正确打分的项目，这些项目在概念上也是具有两个类别的序数响应。

在项目响应理论中，“差异项目功能”(Differential item functioning，DIF)是参数估计如何可能在不同组之间(在不同中)或在观察之间(随时间变化)表现不同的测量。

项目响应理论中的“难度(Difficulty)”是必需以某种方式做出响应所需的潜在特征的最低水平。在具有二分法响应的测量上，存在单一难度(例如，潜在特征的最低水平将使回答正确的可能性提高到50％或更高)。在具有多反应性的测量上，“难度”最好描述为“严重程度”，因为通常没有正确或错误的答案。在具有多响应的测量上，估计的难度数量为k-1，其中k是响应选项的数量。这些难度描述了认可下一个最高类别所必需的潜在特征水平。有时也称为阈值。

“维度(Dimension)”是指测量解决的潜在特征的数量。记录一个特征的测量被认为是一维的，而记录一个以上特征的测量称为多维。

“识别(Discrimination)”是一种测试能力，用于区分具有高潜在特征和低潜在特征的人的能力。同样，它描述了项目与潜在特征之间关系的大小。从概念上讲，它与因素负载非常相似，从数学上讲，它可以转换为因素负载。

“认可(Endorse)”意味着选择响应选项。

项目响应理论和验证性因素分析中的“平等约束”是一种数学要求，以当只有两个项目加载到一个因素上时，限制识别或加载为相等的因素。

“等同”是指使用项目反应理论来在记录相同潜在特征水平的不同测量上得出分数之间的相似性。等同还可以用于比较同一测量的替代形式。

“误差”是指描述围绕模型的不确定性量的术语。参数估计值非常接近观察到的数据的模型将具有较低的误差，而参数截然不同的模型将具有较大的误差。误差还可能表明围绕特定参数估计本身的不确定性的数量。

“估计”是指从数据中导出参数估计的统计过程。可以使用本域中已知的专用心理测量软件来执行这些过程。

“探索性因素分析”是一种因素分析的形式，其根据项目的相关性对项目进行聚类。除应提取多少因素外，通常无需分析师的任何指示即可完成此操作。然后将分组“旋转”。旋转方法尝试通过确保将因素负载推向-1.00、0.00或1.00来查找指示简单结构的因素载荷。

因素分析中的“因素”描述了潜在特征。与项目响应理论中的潜在特征不同，因素通常没有与之相关的分数。

“因素分析”是用于确定因素与项目之间关系的力量和方向的统计方法。因素分析所基于的数据是项目之间的相关性。因素分析可以容纳有序数据或连续数据，但不能容纳无序分类数据。可以通过因素分析来计算分数，但是IRT分数更可靠。可以是探索性的也可以是确认性的。

“因素相关性”是指两个因素之间的相关性。具有相关因素的CFA模型称为“斜度”。

在因素分析中的“因素加载”描述了项目与因素之间的关系的大小。尽管它的规模和解释相似，但它在数学上与相关性并不相同。也就是说，值(通常)的范围是-1.00至1.00。较强的负因素负载表示项目与潜在特征之间的强反比关系，而较强的正负载具有相反的解释。因素负载0.00表示没有任何关系。

“拟合统计量”或“拟合指数”是指用于量化模型表现的测量。流行的拟合测量确认因素分析和结构方程模型包括近似均方根误差(root mean square error ofapproximation，RMSEA)、比较拟合指数(the comparative fit index，CFI)、塔克-刘易斯指数(Tucker-Lewis Index，TLI)和加权均方根残差/标准化根均方差(weighted rootmean-square residual/standardized root mean-square residual，WRMR/SRMR)。

在双因素模型中，“一般因素”是指所有项目加载到的因素。

“渐变响应模型”(Graded response model，GRM)是允许顺序响应的两参数逻辑模型的扩展。分级响应模型不仅产生一个难度，还产生k-1个难度，其中k是响应类别的数量。

“分层模型”是一种结构模型，其中潜在特征加载到其他潜在特征上，形成一个层级。

在分层模型中，“高/低阶因素”是高阶因素，是低阶因素加载到其上的一种潜在变量。

“指数”是用于指代拟合指数/统计(例如，比较拟合指数)或作为“测量”的同义词的术语。

“项目”是指由调查者或被调查者的代表(例如，临床医生)所解决的问题、任务或评分。

“项目特征曲线(Item characteristic curve，ICC)”是描绘在给定潜在特征水平的情况下选择不同响应选项的概率的图。有时也称为“追踪线”。

“项目响应理论”(Item response theory，IRT)是用于根据结构模型获得分数并确定项目行为的统计模型的集合。在一种使用的形式中，IRT使用中每个人的响应模式来获得这些项目和分数估计。IRT使用序数或分类数据。从数学上讲，项目响应理论使用项目和人员特征来预测人员在给定项目上选择某个响应选项的可能性。

“IRT分数”是在标准化规模上给出的特定于IRT分析的分数。它类似于z得分。在一个IRT评分系统中，得分为0.00表示某人具有潜在特征的平均水平，较大的负得分表示该潜在特征的水平较低，而较大的正得分表示该潜在特征的水平较高。

“潜在特征”类似于因素分析中的因素，但在项目响应理论中使用更多。潜在特征是一组相关项目所要衡量的。它可以与因素、域或维度互换使用。

“潜在变量”是未直接测量的变量的术语。它包括潜在特征。

“链接”类似于等同，但是用于项目参数估计而不是分数。

“负载”是动词，用于描述项目对因素的作用。例如：“项目4在该模型中同时加载了局部依赖因素和一般因素。”

“局部依赖”(Local dependence，LD)违反了局部独立性假设，在该假设中，项目由于某种原因而不是潜在特性而相关。如果数据中似乎存在局部依赖性，则可以通过对项目之间的相关性进行建模或创建局部依赖性因素来解释。这可能是由于多种原因造成的，诸如，措辞相似、内容几乎相同以及测量中项目的位置(最后一个示例经常出现在长测量的最后一个项目上)。

“局部独立性”是指心理计量学中的一个假设，该假设指出项目的行为归因于模型中的潜在特征和特定项目的误差，而没有其他原因。当项目违反此假设时，它们被称为局部依赖。

“显变量”是直接测量的变量的通用术语，包括项目、协变量和其他此类变量。

“测量”是指试图测量某些潜在特征水平的项目的集合。它可以与评估、测试、问卷、索引或量表互换使用。

心理计量学中的“模型”是响应模型和结构模型的组合。一般而言，它描述了数据的格式以及模型变量中记录的数据应如何关联。

“模型拟合”是用于描述模型如何很好地描述数据的术语。这可以通过多种方式来完成，诸如，将观察到的数据与模型所做的预测进行比较，或者将所选模型与空模型(其中没有任何变量相关的模型)进行比较。用于评估模型拟合的测量称为拟合统计。

“多维”是用于描述记录多个潜在特征的测量的术语。

IRT中的“多组分析”是指可以将样本分成不同组的过程，并且可以估计每个组特有的参数估计。

“标称模型”类似于分级响应模型，但是对于具有响应选项是分类而非有序的项目。

“斜度”是用于描述相关的因素形容词。

“序数”描述了项目记录数据的方式。例如，对项目的可能响应是从低到高或从高到低排序的一系列类别。

“正交”描述了被限制为零相关的因素。

“参数估计”是由心理测量软件估计的统计得出的值。它是一个通用术语，可能包含诸如项目识别、因素负载或因素相关性之类的东西。

“路径图”是旨在说明项目、潜在特征和协变量之间的关系的图。在路径图中，矩形/正方形代表观察到的变量(即，有明确记录的信息的项、协变量或任何建模变量)，椭圆/圆形代表没有明确记录的信息的潜在特征或变量，单箭头反映了一种单向关系(如在回归图中)，双箭头反映了建模变量之间的相关性/协方差。

“多态的”是具有多个响应选项的项目的术语，并且可以是有序的或分类的。

“伪双因素模型”是双因素模型，其中并非所有项目都聚集到特定因素上。相反，某些项目可能只会加载到一般因素上。

“心理计量师”是专门从事测量的统计学家。

“心理计量学”描述了用于创建或描述测量的统计。

“Rasch模型”是一种响应模型，其假设所有项目识别率均等于1.00。除非这个假设是正确的或几乎是正确的，否则通常不使用它。这种假设简化了对得分和难度的解释，并允许在(相对)较小的量上使用项目响应理论，但是很少见的是所有项目的识别行为都相同。这是两参数逻辑模型的简化案例，它使项目识别有所不同。因此，有时将Rasch模型称为单参数逻辑模型(1PL)。当响应是二分时，可以使用它。

“响应者”是在测量中回答项目的人。

“响应”是响应者对项目的回答。

“响应类别”是响应者可以选择作为对项目的响应的不同选项。如果项目产生二分响应，则数据记录为正确(1)或错误(0)。

项目响应理论中的“响应模型”是指测量模型处理响应格式的方式。流行的响应模型包括Rasch模型、两参数对数模型、三参数对数模型、分级响应模型和标称模型。

“响应模式”是一系列数字，代表回答者对测量中每个问题的回答。

“近似均方根误差”(Root mean square error of approximation，RMSEA)是应用心理测试中的拟合统计量。它测量预期数据(模型将产生的数据)与观察到的数据的接近程度。尽管本域普通技术人员希望RMSEA低于0.05，但是通常期望RMSEA低于0.08。

“分数”是旨在表示响应者具有的潜在特征的水平或数量的数值。古典测试理论将分数计算为项目响应的总和，而项目响应理论则使用响应模式和项目品质来估计分数。

“Sigmoid”(直译为“S形”)是形容词，有时用于描述2PL项目的TCC或ICC的形状。

“简单结构”是一种结构模型，其中所有项目一次加载到一个因素上。

在双因素模型中，“特定因素”是一组项目加载到其上的因素。

“结构方程模型”(Structural equation modeling，SEM)是确认因素分析(confirmatory factor analysis，CFA)的扩展，其允许潜在变量之间的关系(例如，潜在特征)。如果模型中的所有潜在变量都是潜在特征，则结构方程模型(SEM)和CFA通常可以互换使用。

“结构模型”是数学描述，其代表关于潜在特征和项之间的关系的假设系统。它被描述为路径图。

“总分”是通过对测量所有响应的数值求和而得到的分数。

“总分转换”(SSC)是示出总分和IRT分数之间的关系的表。

“测试特性曲线”(TCC)是绘制总分与IRT得分之间的关系的图。

“Testlet”是测量群体潜在特征的某些部分的少量项目的集合。如果预先明确定义了潜在特征，则创建由Testlet组成的测量可以使得分更容易理解。

“阈值”：参见“难度”。

“塔克-刘易斯指数”(TLI)是拟合指数，其将构造的模型的性能与假定变量之间没有关系的模型的性能进行比较。一个好的拟合模型通常具有的TLI大于0.95。

“三参数逻辑模型”(3PL)是两参数逻辑模型的扩展，该模型还包括“猜测”参数。例如，在具有4个选择的多项选择项目中，即使随机猜测也会产生25％回答正确的机会。3PL允许这种回答正确的机会为非零。当响应是二分时使用该模型。

“追踪线”：参见“项目特征曲线”。

“两参数逻辑模型”(2PL)类似于Rasch模型，但是允许项目识别发生变化。当项目响应是二分时，可以使用它。

“一维的”是用于描述仅记录一个潜在特征的测量的术语。

“变量”是一个通用词，用于描述测量单个事物的一组直接(显示)或间接(潜在)记录数据。

“加权均方根误差/标准化均方根误差”(Weighted root mean-square error/standardized root mean-square error，WRMR/SRMR)是用于测量模型残差大小的拟合统计量。残差是观察到的数据与模型预测的数据之间的差异。尽管此建议可能会根据的大小或模型的复杂性而变化，但典型的建议WRMR值低于1.00。当模型中至少有一个类别变量时，使用WRMR；而当所有变量都是连续时，则使用SRMR。

图1示出用于准备初步结果测量100以包括在电子病历中的某些示例性方法的流程图。

在101中，标识项目集200。在实施例中，可以询问临床医生基于他们的训练、教育和经验来提供他们在适当项目上的输入，以包括在项目集200中。临床医生的示例可以包括医师、理疗师、职业治疗师、言语病理学家、护士和PCT。来自项目集200的项目可以来自本域已知的各种结果测量。

在102中，可以将来自项目集200的项目分组为与治疗或临床结果相关的多个区域中的一个或多个，称为“域”。临床医生可以识别这些域。在实施例中，来自项目集200的项目可以被分组为三个域，标题为“自理”、“活动性”和“认知”。应当理解，附加和/或替代域的其他分组是可能的。

在103中，可能发生相关的分析步骤。例如，可以分析在传统实践中使用项目集200中的项目来评估医疗环境中的患者的频率。或者，可以评估执行该项目的设备成本。可以回顾临床文献以用心理上可接受的和临床上有用的项目集200中的项目来识别结果测量。例如，可以检查在项目集200中具有一个或多个项目的结果测量的可靠性和有效性，以确保其在心理上是可接受的。作为另一示例，可以审查每个结果测量和/或项目以确保其在临床上有用。例如，尽管文献中提供了许多用于测试人的平衡的项目，但并非所有这些项目都适合康复环境中的患者。基于这些因素和类似因素，可以缩小项目的初始集合以减轻患者、临床医生和其他医疗保健提供者的负担。

在104中，收集修订的多个项目。可以对多个项目进行试点研究。可以通过让临床医生以标准化方式评估修订项目上的患者来进行试点研究，以便每个临床医师使用所有修订项目来评估每个患者。在另一实施例中，临床医生可以基于患者的特定临床特征来选择应使用哪些项目来评估患者。可以基于患者在康复期间的信息确定特定项目的选择，例如，在入院时的住院评估时做出的。为了确定患者的病情进展，可以在患者住院期间至少两次使用该项目。可以使用电子病历系统来促进试点研究，以便临床医生将项目评分输入电子病历中。

在105中，可以进行试点研究分析。例如，可以去除临床医生与患者进行花费太多时间的项目。

在106中，初步结果测量100的原始纸质项目实现在电子病历中。单个项目级别的评分可以电子方式记录。例如，要实施的项目可以是在105中的初步研究分析的结果的项目。但是，不需要初步研究分析。或者，可以在电子病历外部的电子系统(诸如，数据库)中实施初步结果测量100中的项目。在一个实施例中，外部电子系统可以使用本域已知的方法(诸如，数据库连接技术)与电子病历交流。在107中，使用已知方法将用于初步结果测量的项目100编程到EMR中，从而允许临床医生将其等级输入电子病历中。在实施例中，EMR可以提供提示警告、提醒和/或要求临床医生针对初步结果测量100的某些项目输入某些等级。这种提示可以提高临床医生向EMR中输入数据的可靠性和完整性。

尽管以上参考附图1讨论的是从各种结果测量中选择某些项目，但应当理解，可以以类似的方法进行关于结果测量本身的选择。例如，在104中，代替选择要用于评估患者的项目，可以选择或忽略整个结果测量。

图2示出用于以电子方式收集初步结果测量100中的项目的评级的流程图。在201中，临床医生对患者进行评估。在一个实施例中，临床医生可以使用初步结果测量100中的每个项目进行评估。在另一个实施例中，临床医生可以在初步结果测量100中进行特定于该临床医生的实践范围的那些测试或项目。例如，物理治疗师在初步结果测量100中可以做针对物理治疗的那些测试或项目。在又一个实施例中，临床医生可以基于她的教育、训练和经验使用她的临床判断来识别初步结果测量100中与患者最相关的测试。如果患者病重或功能非常有限，则临床医生将知道不进行某些项目。例如，临床医生不会要求新近四肢瘫痪的患者做要求患者走路的测试。

评估可以是患者入院时或入院后不久进行的初步评估。在一实施例中，评估在诸如一个月或一年的时间段内接受护理的每个患者。在另一实施例中，评估一段时间内接受护理的大多数患者。在又一实施例中，评估多个患者。在其他实施例中，患者群体可以被细化为仅包括住院患者、仅门诊患者或其组合。

在各种实施方式中，初步结果测量100中的某些测试可以在入院时或入院后不久进行，并且在出院前或出院前不久进行。在各种实施例中，初步结果测量100中的某些测试可以每周进行。在各种实施例中，初步结果测量100中的某些测试可以每周进行一次以上，例如，每周两次。

在实施例中，可以在特定于进行评估的集中位置中进行评估。评估可以由一组特定的临床医生进行，他们的特定职能是进行评估。可以通过标准化流程在可控且安全的环境中，对具有合格人员和适当设备以客观评估患者功能表现的集中位置进行管理。在实施例中，临床医生提供用于实验室技术人员评估的命令。例如，临床医生(诸如，生理学家、治疗师、护士或心理学家)会下达特定的测试(诸如，步态和平衡测试)或一组测试。可以通过电子方式将测试订单发送给评估部门(“AAL”)，并可以为患者打印一份印刷本。准备好AAL后，患者可以在需要的情况下前往AAL。员工(诸如，技术人员)执行预定的测试。测试结果可以被记录并输入/传输到电子病历中。如果需要，临床医生可以检查测试结果以修改护理计划。此过程可以减少临床医生学习如何进行测试所需的时间。AAL的一个好处是，每次引入新的测试时，其他临床医生都无需学习如何进行各种测试。临床医生将只需要学习如何读取测试结果，而无需学习如何进行测试。经过培训的合格人员可以进行测试。临床人员可以专注于治疗而不是评估。可以提供更多的治疗时间或更多的时间来改善疗效。集中维护测试设备，以减少对多个单元的需求和维护成本。测试可以在良好控制、标准化和安全的环境中进行。技术人员可以利用标准化程序来避免潜在的评分者引起的偏见(倾向较高的评分，以显示随时间的推移而改善)，从而提高数据质量。

来自每个评估的评级可以保存在EMR中。例如，它们可以保存在初步评级数据集150中。在202中，可以对初步评级数据集150执行数据分析和清理以改善数据质量。例如，可以从初步评估数据集150中去除超出范围的评估。可以使用本域已知的方法来检查和清理来自同一临床医生的初步评估数据集150中的数据模式。来自患者的初步分级数据集150中显示出从“依赖”到“独立”的大大增加的分级也可以去掉。来自特定评估的可疑数据可以去掉。

在203中，可以使用本域中已知的方法进一步提取、清理和准备评级数据，从而以可以获得一种可以被查询和分析的数据形式。可以检查数据的质量，并且可以针对初步评级数据集150执行各种数据选项，诸如，数据旋转、数据合并和数据字典的创建。来自初步评级数据集150的数据可以存储在EMR或以其他形式(诸如，在数据仓库中)进行进一步分析。本域普通技术人员将理解，存在许多方式来构造初步评级数据集150中的数据以进行分析。在一个实施例中，初步评级数据集150被构造成使得项目评级可用于跨多个维度(诸如，时间段和患者识别)的分析。

一旦准备好初步评估数据集150用于分析，就可以在初步评估数据集150上进行心理评估。心理测量评估评估结果测量实际测量的其打算测量的项目的好坏。心理测量评估可以包括经典测试理论分析、因素分析和项目响应理论的组合，并且针对各个方面评估初步评级数据集150，其可以包括可靠性、有效性、响应度、维度、项目/测试信息、差异项目功能、以及均等(得分通道(score crosswalk))。在一个实施例中，可以使用经典测试理论分析来回顾初步结果测量100中的项目的可靠性，以及初步结果测量100如何与域一起工作。

项目减少。项目减少步骤152帮助从初步结果测量100中减少未按预期工作的项目。因素可以包括可靠性、有效性和响应能力(也称为对变化的敏感性)。项目减少步骤152的目的是在不牺牲数据集的心理测量特性的情况下，从初步结果测量100中的项目到IRT结果测量180中的项目的最小子集消除潜在的项目内容冗余。可以使用计算机或其他计算装置(例如，使用计算机程序125)来执行项目减少步骤152。可以用R编程语言或另一种适当的编程语言来编写计算机程序125。计算机程序125提供选项，以允许指定所需项目(以及包括特定项目的选项)的数量，并为这些用户定义的约束内的每个可能的项目组合计算Cronbach系数α可靠性估计。Cronbach系数α的可接受范围也可以在计算机程序125中定义。另外，计算机程序125可以构造并运行用于统计建模程序的语法，诸如，Mplus(Muthén&Muthén，Los Angeles，CA，http：//www.statmodel.com)，以确定1-因素确认因素分析(CFA)模型与项目的每个简化子集155的拟合度。

计算机程序125可以用于分析包括在初步结果测量100中的一些结果测量(诸如，FIST、BBS、FGA、ARAT和MASA)，并且搜索在四个和八个项目之间的Cronbachα可靠性在0.70至0.95之间的一维子集。使用这些约束，可以大大减少许多测量中的项目数量。例如，可以将测量减少掉原始长度的至少一半，同时保持良好的心理测量特性。生成的项目子集用作确认因素分析(CFA)的基础。在实施例中，某些项目可能不包括在项目减少过程中，诸如，来自

的项目。在实施例中，项目减少步骤152可以执行多次。例如，可以对包括在初步结果测量100中的每个结果测量执行。

在项目减少步骤152中，计算机程序125确定项目彼此相关的程度。计算机程序125可以确定初步结果测量100中的结果测量内的项目彼此相关的程度。在一个实施例中，如果项目具有高度相关的响应，则它们在结果测量内彼此相关。可以基于项目对之间的相关性，通过提供初始的核心项目集来开始分析，其中，核心项目集的数量可以由临床医生的输入来确定。例如，计算机程序125可以确定项目A如何与项目B相关，其中项目A和项目B都处于相同的结果测量中。如果相关性很高，则核心集中将同时包含项目A和项目B。然后，计算机程序125可以确定新项目C如何与项目{A，B}的集合相关。如果相关性较高，则将C项包含在核心集中。可以使用其他项目D、E、F等重复该方法。如上所述，程序会评估项目的每个可能子集的可靠性(克伦巴赫系数α)。该程序将一组项目的响应与第二组项目的响应相关联。克伦巴赫系数α是本域已知的，但在此提供一简单的示例。用于计算克伦巴赫系数α的信息是项目子集中每个可能的对分之间的相关性。例如，使用3个项目{A，B，C}，克伦巴赫系数α对A与BC、B与AC和C与AB的相关性进行平均。换言之，在集合的每对唯一子集之间计算相关性。相关性分析的目的是帮助确保项目正在测量相同的基础结构并提高可靠性。

表1列出了用于伯格平衡量表(“BBS”)结果测量的项目减少步骤152的示例性输出，将大小设置为等于五个项目。“项目”列中每个单元格中的数字反映了BBS上的问题编号(1：无支撑的坐姿；2：位置改变-从坐到站；3：位置改变-从站到坐；4：转移；5：无支撑站立；6：闭眼站立；7：双脚并拢站立；8：前后站立；9：单腿站立；10：转身(固定脚))。示出了每个减少的子集155及其关联的克伦巴赫系数α值。表1中的减少的子集中，第一减少的子集具有最高的克伦巴赫系数α。在一个实施例中，具有最高的克伦巴赫系数α的减少的子集用作CFA步骤160的初始减少的子集，这将在下面进一步详细描述。

表1

确认性因素分析。因素分析是一种统计方法，用于确定一组观察变量中包含的基础维度的数量，并识别与每个基础维度相对应的变量子集。基本维度可以称为连续潜在变量或因素。观察到的变量(也称为项目)称为指标。由于先前的研究，在已知给定总数的一组变量的维数的情况下，可以使用验证性因素分析(CFA)。CFA可用于调查已建立的维数和因素加载模式是否适合来自同一人群的新样本。这是分析的“确认”方面。CFA还可以用于调查已建立的维数和因素加载模式是否适合新人群。此外，因素模型可用于通过检查因素方差和协方差/相关性来研究个体的特征。因素方差显示因素的异质性程度。因素相关性示出因素之间关联的强度。

可以使用Mplus或其他统计软件执行确认性因素分析(CFA)，以验证预定因素结构内的项目组成在统计上的保持程度。CFA的特征在于对因素加载、因素方差和因素协方差/相关性的限制。CFA至少需要m^2个限制，其中m是因素的数量。CFA可以包含相关的残差，可用于表示次要因素对变量的影响。一组背景变量可以包含为CFA的一部分。

Mplus可以估计CFA模型和具有单个或多个组的背景变量的CFA模型。CFA模型的因素指标可以是连续的、删失的、二进制的、有序分类(标准)的、计数或这些变量类型的组合。当因素指标都连续时，Mplus有七个估计器选择：最大似然(maximum likelihood，ML)估计器、具有鲁棒标准误差和卡方(maximum likelihood with robust standard errors andchi-square，MLR、MLF、MLM、MLMV)的最大似然估计器、广义最小二乘(generalized leastsquares，GLS)和加权最小二乘(weighted least squares，WLS)也称为ADF估计器。当至少一个因素指标为二元或有序分类时，Mplus具有七个估计器选择：加权最小二乘(WLS)估计器、鲁棒加权最小二乘(WLSM、WLSMV)估计器、最大似然(ML)估计器、具有鲁棒标准误差的最大似然和平方(MLR、MLF)和未加权最小二乘(ULS)估计器。当至少一个因素指标是审查、无序分类或计数时，Mplus具有六个估计器选择：加权最小二乘法(WLS)估计器、鲁棒加权最小二乘(robust weighted least squares，WLSM、WLSMV)估计器、最大似然(ML)估计器和具有鲁棒标准误差的最大似然和平方(MLR、MLF)估计器。

使用来自测量减少步骤的项目的高度可靠的子集，可以在诸如Mplus之类的统计软件中定义一个模型，该模型假设域内的所有项目都是相互关联的。该模型还可以根据该域的观点来衡量特定的构造。例如，可以假设从“自理”测量中获取的所有项目子集都可以测量“自理”，但同时还可以测量“平衡”、“上肢功能”和“吞咽”之一。通过这种方式构建模型，可以测量整个域(例如，自理)以及构成该域的一组相互关联的构造(例如，平衡、UE功能和吞咽(构成自理的功能))。如果给定数据，则模型的结构意味着每对项目之间有一组预期的相关性。但是，可以直接从数据计算这些(多分格)相关性。这些是观察到的相关性。可以使用近似均方根误差(RMSEA)来确定所构建模型的适当性(在统计中称为“模型拟合”)，该均方根误差是对观察到的相关性和预期相关性之间的差异进行测量。在优选实施例中，如果该差的值低(例如，小于0.08)，则该模型具有可接受的拟合。

在缩减的子集155上应用CFA步骤160之后，CFA步骤160的输出可以包含因素负载，其包括通用因素负载。一般因素负载可以在-1和1之间，而一般因素负载的值在0.2-0.7之间，指示因素是否能够很好地评估相关项目。CFA步骤160的输出可以为每个项目提供额外的因素负载。在实施例中，每个项目可以具有用于每个子域的因素负载。例如，每个项目可具有用于平衡的因素负载值、用于上肢的因素负载值、用于吞咽的因素负载值以及每个其他子域的因素负载值。在实施例中，在项目与子域相关的情况下，因素负载值将为非零。

在某些情况下，在缩减的子集155上应用CFA步骤160会产生需要选择新的缩减子集155的问题。例如，一般因素负载值大于0.7，或者特别是接近1.0的值，表示冗余。例如，在行动研究武器测试(Action Research Arms Test，ARAT)结果中对项目进行评分的方式必然会迫使部队的可靠性过高。在第一个(最困难的)项目上获得最高分的患者在该等级的所有后续项目中获得3分。如果患者在第一项上的得分低于3，则评估第二项。这是最简单的项目，如果患者得分为0，则他们不太可能在其余项目上获得高于0的得分，而其他项目则得分为零。这种评分方法迫使可靠性过高。在其他情况下，如果因素负载值大于1，则表明一对项目具有负方差(这是不可能的)，因此CFA步骤160必须在新的缩减子集155上运行。缩减子集155可以从由项目缩减步骤152生成的缩减子集的组中选择。例如，可以选择具有次高的克伦巴赫系数α的新的缩减子集，然后将CFA步骤160应用于新的缩减子集。

另外，在运行CFA步骤160的过程中，很明显，临床医生指定为属于一个子域的项目应移至其他子域，以提高所用模型的拟合度，以生成IRT结果测量180(在下面进一步讨论)。例如，在本文描述的实施例的开发期间，临床医生识别为与“力量”有关的项目最初被放置在“自理”域中。但是，在运行CFA步骤160时，确定这些项目不适合模型。将这些项目移至“上肢功能”子域可改善模型的拟合度。

下表2示出包含表1中所列分组1-10的1-因素CFA的拟合统计量。在CFA步骤160中，可以评估表B中列出的拟合统计量是否符合通常“合适”标准。在实施例中，这些标准是RMSEA＜0.08，CFI＞0.95，TLI＞0.95和WRMR＜1.00。本领域普通技术人员将理解，可以使用其他良好拟合标准。

表2

尽管上面的示例仅针对一个结果测量(伯格平衡量表)给出，但是应该理解，CFA步骤160应用于初步结果测量100中的每个结果测量。

项目响应理论。在实施例中，IRT结果测量180可以被构造为包含多个高级域。例如，IRT结果测量180可以被构造成包括“自理”域(其包括被确定为反映患者执行自理的能力的项目)、“活动性”域(其被确定为反映出患者的活动性能力的项目)和“认知”域(包括确定为反映患者认知能力的项目)。在每个更高级别的域中，可以确定特定的评估区域，也称为“因素”或“集群”。表3反映了与每个更高级别域相关联的示例评估区域。

因为IRT结果测量180的测量目标涉及测量一般域(即自理、活动性和认知)以及那些域内的特定评估区域，所以可将每个域的双因素结构作为目标(一般因素和特定域因素)。特定因素的组成可以由每个项目集的内容确定。例如，可以将来自FIST、BBS和FGA的项目组合起来，以形成“自理”域内的“平衡”评估区域。使用RMSEA＜0.08(Browne&Cudeck，1992)的标准评估了双因素模型对数据的可接受拟合(Browne&Cudeck，1992)，还计算了修正指数以检查局部项目依赖性和模型的潜在改进，诸如，额外的交叉负载(换言之，一个项目会影响多个因素)。

项目响应理论反映了一种数学模型，该数学模型描述了一个人的能力与项目特征(例如，难度)之间的关系。例如，能力更强的人更有可能执行更艰巨的任务，并且可以基于一系列问题进行更具针对性的干预。其他项目特征也可能是相关的，例如，项目的“辨别”，即区分具有高或低特征水平的人的能力。

在为每个域构建CFA模型之后，可以对最终结构进行编码，以在项目响应理论软件包中运行，诸如，flexMIRT(Vector Psychometric Group、美国北卡罗来纳州查珀尔希尔的Vector Psychometric Group)。flexMIRT是用于项目分析和测试评分的多层、多维和多组项目响应理论(IRT)软件包。可以选择多维分级响应模型(M-GRM)，以说明来自临床医生评估的性能等级的项目响应的有序分类性质。例如，维度可以是“自理”、“活动性”和“认知”。“自理”的子域可以是“平衡”、“上肢功能”、“力量”、“改变身体姿势”和“吞咽”。“活动性”的子域可能是平衡、轮椅(“W/C”)技能、身体位置改变、床活动以及活动性。“认知”的子域可以是“意识”、“激动”、“记忆”、“语音”和“交流”。

然而，在优选实施例中，可以减少子域，以便集中于能力的关键子域。例如，对于“自理”，这些可以是“平衡”、“UE功能”和“吞咽”。对于“认知”，这些可能是认知、记忆和交流。对于“活动性”，可能没有子域，换言之，子域可能全部聚集在一起。

该分析本质上也可以是多组的。例如，可以将自理和活动性分为几组，这些组由平衡水平(坐着、站立或步行)确定。作为另一个示例，认知可以分为广泛的诊断类别(中风、脑损伤、神经系统疾病或不相关)。在实施例中，为了适应模型的复杂性，可以将大都市-哈丁斯罗宾斯-蒙罗(Metropolis-Hastings Robbins-Monro，MH-RM)算法(Cai，2010)用于更有效的参数估计。MH-RM反复循环执行以下三个步骤，直到两个连续循环之间的差小于所选标准。在步骤1(算出)中，从前一周期的项目参数估计值隐含的分布中推算出潜在特征的随机样本。如果是第一个循环，则使用算法起始值隐含的分布。可以使用MH采样器执行此估算。在步骤2(近似值)中，评估估算数据的对数似然性。在步骤3(Robbins-Monro更新)中，通过对步骤2中的对数似然使用Robbins-Monro滤波器计算下一个周期的新参数估计值。然后，使用步骤3中的信息重复步骤1。项目的识别和拦截可以反映项目的难度。

除了项目的斜率和截距之外，可以为每个患者计算反映患者能力水平的最大后验(maximum a posteriori，MAP)法潜在特征评分。

IRT的主要编码集中于将在CFA之后选择的数学结构转换成可以使用IRT评估的数学结构。例如，用于分析的数据可能只是对患者评估的项目的评分。为了保持一致性，可以使用所管理的每个患者在每个项目上的最新可用数据。这样可以方便地将患者评分放入特定的参考系：典型的出院水平。可以使用MAP(最大后验)评分，但其他可以替代的评分方法也是已知的，诸如，ML(最大似然，maximum likelihood)法、EAP(预期后验，expected aposteriori)法或MI(多重插补，multiple imputation)法。另外，可以采用不同的估计方法。例如，可以使用期望最大化算法(expectation-maximization algorithm，MML-EM)的边际最大似然法。但是，这种方法在处理多个维度时会受到影响。在优选实施例中，使用大都市-哈丁斯罗宾斯-蒙罗(MH-RM)估计法。

最大后验(MAP)评分需要两个输入：群体的评分密度(通常被认为是每个维度的标准正态)和为患者评分的每个项目的IRT参数。将每个项目的群体密度乘以IRT函数可得出所谓的可能性，换言之，就是根据已知的项目以及如何对每个项目的患者进行评分的各种得分的概率的数学表示。该函数最大值的位置是患者的MAP得分。

有时，很少选择项目上的响应选项，这可能导致估计该项目的IRT参数时出现问题(并且还暗示该响应选项可能是不必要的)。在这种情况下，这些响应可以叠加为相邻类别。例如，如果某个项目的响应为{1、2、3、4}，而在数据中很少看到响应2，则我们可以重新编码数据{1、2、2、3}。应该理解，在IRT分析中，数字的实际值并不重要，相反，序数很重要。

群组组成：此处使用的IRT分析本质上可以是多群组的，以允许进行更有针对性的评估。对于自理和运动性，可以根据患者的平衡水平(无、坐、站立和行走)将患者分组。类似地，可根据其认知诊断(中风、脑损伤、神经病或无)在认知域中形成组。这种方法可以产生多个测试表格，其中仅包含适合每个患者的项目。例如，它们可能包含以下测试表格：对于“自理”和“活动性”，没有平衡、固定平衡、(最多)常设平衡，并且没有平衡限制；用于“认知”、中风、脑损伤、神经系统疾病或无障碍。可以根据组成员而不是评估区域来定制表格。例如，患者的平衡水平可能会影响哪些平衡测量项目出现在“自理”和“活动性”域中，而患者的认知诊断(如果有)可能会影响哪些测量可能出现在表格中。例如，ABS仅用于认知测量的脑损伤形式，而KFNAP仅用于中风测量。

项目响应理论导致每个域的得分不同。例如，患者可以在“自理”域中得分1.2，在“活动性”域中得分1.4，在“认知”域中得分3。在实施例中，这些分数可以分别报告给临床医生、患者和其他人。在其他实施例中，这些分数可以被组合成单个分数。在实施例中，得分+1表示患者比平均水平高1logit。得分为-1表示患者比平均水平低1logit。低于-3和高于3的值极不可能，因为IRT的数学假设是分数遵循平均分布。本域的普通技术人员应该认识到，也可以采用其他反映标准偏差和对数的数字。例如，得分3可能意味着该患者是平均水平，因此得分在0到6之间。另一个示例，得分50可能意味着该患者是平均水平，而得分+10则意味着该患者比平均水平高1logit，因此分数范围为20到80。

现在提供关于自理域的运行IRT步骤170的示例。七个因素提供给IRT步骤170：自理因素、平衡因素、UE功能因素、吞咽因素、ARAT的隐藏因素、克服FIST和FGA结果指标之间负相关的隐藏因素以及FIST特有的隐藏因素，因此在结果中不会过重。IRT步骤170(例如，使用MH-RM估计)返回识别矩阵172和难度矩阵174。例如，这些矩阵可以按斜率/截距公式表示，其中斜率反映项目识别，截距反映项目难度。

表4示出示例性IRT结果测量180的自理域的示例性识别矩阵172。表4中的列标题a1-a7表示以下内容，括号中列出了“隐藏”因素：(a1：自理；a2：(ARAT局部依赖性)；a3：上肢功能；a4：吞咽；a5：平衡；a6：(减少FIST影响)；a7：(BBS和FGA的负相关)。表4列出了每个因素a1-a7的每个项目的斜率值。表4中的项目命名也反映在附录1的表6中，列出了示例性IRT结果测量180中的项目。

表4

表5示出用于IRT结果测量180的示例性难度矩阵174。表5示出针对每个因素d1-d6的每个项目的截距值。表5中的列标题d1-d6表示以下内容，括号中列出了“隐藏”因素：(d1：自理；d2：(ARAT局部依赖性)；d3：上肢功能；d4：吞咽；d5：平衡；d6：(减少FIST的影响)。

表5

应当理解，可以为IRT结果测量180中的每个域准备识别矩阵172和难度矩阵174。

可绘制示例性得分/概率响应，其中X轴反映得分，而Y轴反映响应概率。曲线的乘积导致似然曲线有些像钟形曲线。曲线的峰值可用作患者的分数。

治疗师的输入以确保临床相关性。每个项目都可以用最能描述其在IRT结果测量180中的作用的类进行标记。临床医生可以根据他们的教育、培训和经验来完成此标记。例如，临床医生可以将测量平衡的项目(例如，测试坐姿的项目)标记为属于表1的“活动性”域和“平衡”因素之内。

因为分析的项目减少步骤中的项目选择(保留或移除)是基于心理测量和统计评估，所以在实施例中，临床专家可以查看减少的项目集中所覆盖的项目内容，以获得进一步的反馈。例如，可以对大量临床医生进行调查，以获取是否应从每个完整结果测量的子集中添加或删除项目的信息。他们的输入可用于构建每个域的最终模型，以帮助确保保留的项目在心理测量学上是合理的，并且在临床学上具有相关性。

重新建模以得出最终的项目集。在商定项目集之后，同时考虑心理测量评估和临床判断，可以执行CFA和IRT步骤。可以将具有较大临床认可度的遗漏项目重新添加到模型中，而可以将包含低认可度的遗漏项目删除。然后可以使用在CFA期间计算出的近似均方根误差(RMSEA)来评估模型对数据的拟合度，并在IRT分析期间计算出新的项目参数估计值和潜在特征得分。本说明书附录1中的表6列出了优选示例性IRT结果测量180中的项目。

显示

可以为临床医生和/或患者显示与单个患者的分数有关的数据的各个方面。

图3示出IRT的示例性评分系统，将其与现有技术中已知的

分数进行比较。IRT分数反映了一个人(例如，患者)所具有的能力。IRT分数可以是所有功能类别的连续缩放分数。分数恰好为0意味着该人具有平均的能力。分数高于0表示该人具有高于平均水平的能力。分数低于0表示该人的能力低于平均水平。图3显示FIM上穿衣项目的FIM得分以及可达到的自理IRT分数的连续性。FIM分数由每个图案部分的长度反映出来。例如，标记为“1”的图案部分反映了FIM得分1；反之亦然。标为“2”的部分表示FIM得分为2等。分数和难度以相同的测量标准表示，这意味着如果某人的IRT分数为1.50，则他们将有望在该项目的第六类中得分。

通过对图3的分析，IRT分数的值变得显而易见。假设患者被送进住院康复设施，其IRT评分从-1.00提高到0.00。FIM级别的等效变化为+3。结果，这将被视为对患者的良好结局，因为患者表现出功能增强。

然而，当在FIM水平内取得进展时，FIM分数不足以显示益处。假设另一个患者的得分为-2.00，并且一直上升到-1.00。即使该患者的进步与先前的患者一样多(+1.00)，但看起来该患者在上半身穿衣方面的能力水平并未得到改善，因为该项目的FIM改变为0。结果，IRT分数的优点之一是它可以检测到FIM无法检测到的改进。根据我们的经验，使用IRT时，非创伤性脊髓损伤和神经系统损伤患者的自理预期会有很大变化。

图4示出与自理、认知和活动性域中的患者评分有关的某些数据的示例性图。百分比值25％、50％、75％和100％反映了每个域中分数的百分比。例如，“自理”域的100％得分反映出在该域获得最高得分的患者。实线三角形反映了患者的初始评分，可以根据入院时或入院后的评估结果将其制成表格。黑色三角形反映了患者当前的得分。虚线三角形反映了患者的预期得分。通过以这种方式查看分数，临床医生能够轻松确定患者已有改善的域，并且还容易确定可能需要其他治疗或其他护理的域。例如，在查看图4之后，临床医生可以确定进一步的护理应集中在自理和活动域，因为这些得分低于这些域的预测得分。

预测估计可以以多种方式导出。在一个实施例中，可以使用分层线性建模(Hierarchical Linear Modeling，HLM)，并结合关于过去患者的诊断、那些诊断的严重性(“病例混合组”，诊断中患者状况严重性的测量)、对患者采取了哪些措施以及当日的评分。该模型可为每次住院最多50天的诊断输出每种严重程度的预测曲线。在绘制信息时，x轴可以是自入院以来的天数，y轴可以是IRT(MAP)得分。

可以使用其他预测方法，包括诸如神经网络和随机森林模型之类的数据科学方法。此外，可以在预测过程中合并其他患者信息。

在实施例中，可以在多天内使用IRT结果测量180来评估患者。例如，可以在第一天对来自IRT结果测量180的第一问题子集进行评估，然后在第二天对第二问题子集进行评估。可以将数据反馈设置为收集最新的项目值。

可以采用自适应测试，以便根据已评估项目的得分选择IRT结果度量中的项目进行评估。例如，临床医生可以使用FIST测试中的IRT结果测量180中的项目评估患者；根据结果计算初始IRT得分；然后根据初始IRT得分选择最合适的下一项(或多个下一项)。可以迭代应用此过程，直到可以确定患者的分数在预定的不确定度范围内是准确的为止。例如，一旦不确定性等于或低于0.3，自适应测试方法就可以停止提供其他项目进行评估，并为患者、临床医生或其他人员提供最终的IRT评分。

图5示出与自理域中的患者评分有关的某些数据的示例性图表。图表的每一行都涉及一个项目。例如，第一行涉及抓握木块的测试。图表的每一行被分成不同的阴影，如关于图3所讨论的。每个部分的长度反映了该项目的得分与AQ得分的关系。例如，部分b1反映了抓取项目的1分与AQ得分之间的关系。

图5进一步示出患者在自理域中每个项目/任务上的当前和预期功能状态。应该理解，该图表可以显示来自活动性、认知或其他域的数据。通过“选择住院时间”滚动条，临床医生可以比较各种住院时间下每个项目的能力水平(例如，当前与预期)。这可以使临床医生确定住院的额外天数是否可能使患者受益，如果是，可以受益多少。

临床医生可以将IRT分数与患者在特定FIM项目上的分数一起进行检查，以确定是否需要其他干预措施。例如，如果患者的AQ得分为1，则FIM盥洗测量的得分为4。但是，如果FIM的盥洗测量分数较低，则临床医生可以将其用作调整疗法的指标，以专门针对改善盥洗能力。

图6A和图6B是“FIM探测”部分，具有允许临床医生选择和/或设置每个FIM特定任务的目标的功能。例如，在图6A中选择了“4-最小协助”作为饮食任务的治疗目标。一旦选择了特定任务的目标，就在图7中示出比较图。当与图表上的垂直线进行比较时，该图表可以使治疗师或其他临床医生比较目标是否设定得过高或过低。垂直线从选定的目标评分中得出，并转换为IRT分数。

图8示出与患者FIM得分相比较的自理域的各种图表。如图8所示，自理域中的评估区域包括“平衡”、“上肢功能”和“吞咽”。在一个实施例中，可以从图中省略不完整的FIM管理，以避免混淆分数是否低或仅仅是不完整。

预测

AQ得分的预测可以基于各种因素，诸如，医疗服务组、病例组合组(case mixgroup，CMG)/或停留时间。在CMG中，年龄可能是用于辅助预测的因素。

由预测模型产生的数据可以各种方式使用。例如，可以通过患者的医疗状况、损伤程度以及其他人口统计学和临床特征来预测患者的住院时间。作为另一个示例，如果患者低于给定域的预测，则临床医生可以针对那些域进行更集中的治疗。再举一个示例，如果患者在某个域的进展开始逐渐减弱，则临床医生可以注意到这一点，并优先考虑该域的均衡治疗。再举一个例子，给定一些金融信息的情况下，有可能评估一段时间内预期改善的美元价值，并将其与同一时间范围内的住院治疗费用进行比较。可以用护理价值与护理成本之比来决定出院情况。另外，可以预测其他治疗设置的成功。假设在其他级别和护理位置(例如，门诊、SNF等)进行了类似的评估，则可以确定对这些环境改善过程的前瞻性观察。在这些情况下，可能会做出更好的护理决定。

附录1