CN112447288B

CN112447288B - 基于不完全的或错误的数据执行医疗任务

Info

Publication number: CN112447288B
Application number: CN202010885192.4A
Authority: CN
Inventors: 托马斯·伯特格尔; 乌尔里克·哈通; 贝内迪克特·克鲁格; 多米尼克·纽曼; 马克西米利安·维斯特勒
Original assignee: Siemens Healthineers AG
Current assignee: Siemens Medical Ag
Priority date: 2019-08-29
Filing date: 2020-08-28
Publication date: 2024-05-17
Anticipated expiration: 2040-08-28
Also published as: DE102019213000A1; CN112447288A; US20210065904A1

Abstract

本发明提供一种计算机实施的用于执行或辅助医疗任务的方法以及系统。所述方法包括：获得医疗任务；获得用于大量可用的数据区中的数据区的值；确定：是否在此之后存在不充分的数据区，即数据区不具有值或具有根据质量标准不充分的值，并且如果存在这种数据区，那么对于医疗任务，确定用于所述不充分的数据区的和/或其值的相关性度量；通过估计函数，提供用于不充分的数据区的至少两个不同的值；计算用于待执行的医疗任务的至少两个结果，所述至少两个结果基于所提供的至少两个不同的值；确定：所确定的相关性度量是否达到或超过相关性阈值，并且如果是所述情况，那么基于所计算的至少两个结果，输出输出信号。

Description

基于不完全的或错误的数据执行医疗任务

技术领域

医疗任务(替选地“医疗问题”，英文“medical tasks”)、例如诊断任务越来越多地由软件系统执行或至少由软件系统辅助。所述软件系统极大地基于所提供的关于个体患者(例如，在电子健康数据中，英文“electronic health records”EHR中)、关于患者群体(Kohorten von Patienten)或也关于一般人口的数据。

背景技术

在许多情况下，并非所有医疗任务中的决定所基于的或者作为医疗目的所基于的事实对于做出决定的医生或对于辅助医生的决定的软件系统都是可访问的。

例如，这可能具有以下原因：

-要么未检测数据，要么仅未充分地检测数据(例如，由于错误或因为患者是不合作的或失去知觉的)

-数据处于不可访问的系统上(例如，因为医生或软件不具有对于系统的所需要的访问权限)

-数据存在，但是是不可信的(数据输入错误、在光学字符识别(英文“opticalcharacter recognition”，OCR)时的错误、在自然语言处理(英文“natural languageprocessing”，NLP)时的错误、翻译错误、解释错误，过时的数据，...)

这可能中断和/或延迟决定过程，例如，因为(再次)检测数据，或者必须手动地从档案中或其他数据存储介质中读取数据。例如可能需要的是，医生打电话来获得缺少的值，或者甚至安排患者的附加的或重复的检查。

即便如此，现有的软件系统通常不允许手动输入数据，这可能导致附加的复杂化或延迟。此外，对于至少一个数据区(对应于例如特定变量)为空的情况，已知的软件系统不继续执行既定任务。这可能导致如下不期望的情况：医生必须自己做出决定，而无法获得软件系统的辅助。

现有技术中的专利US 7650321B2描述用于在医疗决策支持系统中处理缺少的数据的方法。描述以下情况：使用“全局值”替代缺少的值，或者使用最有可能的值表示缺少的值。此外，所述专利描述了用于确定最有可能的值的选择方法。然而，所述专利中的方法完全没有给出关于存在于医疗任务中的不确定性的指示，所述不确定性由于人工选择所缺少的参数的值引起。

发明内容

因此，本发明的技术目的是，提供一种计算机实施的用于执行和辅助医疗任务的方法，以及提供一种计算机系统，所述计算机系统用于在改进地处理所缺少的或不充分的(或：错误的)输入值的情况下执行或辅助医疗任务。

所述目的通过计算机实施的用于执行或辅助医疗任务的根据本发明的方法、用于执行或支持医疗任务的根据本发明的计算机系统、根据本发明的计算机程序产品和根据本发明的非易失性计算机可读数据存储介质来实现。

与此对应地，提供一种计算机实施的用于执行或辅助医疗任务的方法，所述方法包括至少以下步骤：

-获得待执行的医疗任务；

-获得表示与医疗数据相关的大量可用的数据区(例如患者数据、病史数据、研究数据、关于所允许的方法和/或可接受的标准值的数据等)中的多个数据区的多个值；

-(尤其自动地)确定：是否在获得多个值之后存在至少一个不充分的数据区，其中，不充分的数据区是以下数据区，对于所述数据区未获得值，或者对于所述数据区获得以下值，所述值根据至少一个质量标准是不充分的，并且如果存在至少一个不充分的数据区，那么

-针对医疗任务为所述至少一个不充分的数据区中的至少一个数据区和/或其值确定相关性度量；

-通过估计函数提供(尤其计算)用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值；

-计算待执行的医疗任务的至少两个结果，所述至少两个结果基于所提供的至少两个不同的值；

-确定：所确定的相关性度量是否达到或超过相关性阈值，如果是这种情况，那么

-基于所计算的至少两个结果，输出输出信号。

如果不存在不充分的数据区，那么能够基于所有所提供的用于数据区的值以通常方式执行医疗任务。

本发明的基本构思是，仅一定的被评估为相关的缺少的或不充分的值导致：执行附加的步骤(例如查询或信息输出)，而其他的值不以任何方式或仅在很小程度上改变用于辅助医生或用于执行医疗任务的方法。这意味着，如果在最终效果中不充分的数据区(或其缺少的或不充分的值)不显著(或不以相关的方式)影响待执行的任务，那么医生不会不必要地面对警告通知或弹出式问题。

通常例如可能需要的是，使描述患者年龄、患者体重或患者血型的数据区完整，并且如果未获得(例如接收)用于所述数据区的这种值，那么这可能导致通过计算机系统要求医生给予该值。然而，如果根据本发明确定：对于特别的待执行的任务，例如为了确定患者患一定疾病的风险，年龄、体重或血型是完全(或者根据相关性阈值是充分地)不相关的，那么能够有利地例如不对医生生成要求，因为这只会妨碍工作流程，而不带来足够的优点。

此外有利的是，利用估计函数f_θ所提供的值来计算待执行的医疗任务的两个结果，其中，θ是至少一个可选的参数。例如能够将由估计函数f_θ所提供的两个值馈入到代表待执行的医疗任务的任务函数g中，并且为所述值中的每一个计算医疗任务的结果(即任务函数g的输出)。

这实现：比较这两个结果，以便确定：至少两个不同的值是否和/或以什么程度(即多少)影响医疗任务。以这种方式，能够给医生提供附加的对结果和其不确定性的了解，并且医生能够获得关于以下情况的信息：有多必要改进不充分的数据区。

估计函数f_θ能够是任意类型的学习函数，例如从机器学习方法中推导出的学习函数。估计函数f_θ例如能够基于线性回归或逻辑回归、基于机器学习、基于支持向量机(英语是“support vector machines”SVM)等。估计函数f_θ能够在总人口或子群体上训练。估计函数f_θ能够被训练用于输出单个值(替代至少两个值)或者表示多个值，如这在上文中所描述的那样。特定患者的子群体描述一定量的与特定的患者共同具有一个或多个特征性的特征(例如年龄、性别、已有疾病)的人。所述特征性特征能够特别地涉及特定的医疗任务。

因此，根据另一方面，本发明也提供一种用于训练估计函数f_θ的方法，所述估计函数用于在根据本发明的第一方面的方法中使用。作为训练样本，能够在用于所有数据区的值的初始时完整的组中，人工地歪曲或忽略用于特别的数据区的值，并且于是能够将相应的训练样本本身的初始存在的和现在缺少的值用作为这些样本的标签。

方法步骤并非必须以提及所述方法步骤的顺序执行，而是能够在许多变型形式中以不同的顺序和/或部分地或完全地同时或以重叠的方式执行。

计算所述至少两个结果的步骤已经能够作为确定相关性度量的一部分来执行。例如，如果——假设地或实际上——用于不充分的数据区的相对低的和相对高的值(例如最小值和最大值)导致彼此相差了大于相关性阈值的百分比的结果，所述相关性阈值例如通过特定量的百分点形成(例如，大于10％、大于20％、大于30％等)，那么这会导致在所述方法中将不充分的数据区确定为是相关的。于是，例如会输出警告信号(作为一类输出信号)，所述警告信号向医生表明百分点中的所述差。因此，医生能够决定如何解释结果、采取什么措施等。

如果所确定的相关性度量不超过相关性阈值，那么尽管如此仍然会输出输出信号，其中，所述输出信号优选具有其他特性。然而仍能够继续医疗任务的执行(或辅助)。然而，在所述情况下，能够自动提供用于不充分的数据区的单个值，并且将其用于任务函数g的单个结果的自动计算。这能够如在US 7650321B2中所描述的那样执行。输出信号能够控制显示器或其他类型的输出设备以描述或以其他方式显示用于任务函数g的所计算的结果，即对所获得的医疗任务的响应，由此执行或辅助医疗任务或能够执行或辅助医疗任务。

用于任务函数g的单个值能够基于由估计函数f_θ或由另一估计函数提供的单个值。用于提供单个值的这种估计函数f_θ能够构成用于，提供已经从人口统计数据中推导出的恒定值。如果人口表示为P，那么能够将估计函数f_θ的结果计算为f_θ＝avg(p：p∈P)，即作为用于不充分的数据区的平均值，其中，对人口P的所有人p取平均，或者能够计算为在人口上的中位数f_θ＝median(p：p∈P)等。例如，如果所获得的用于体重指数BMI的值是不充分的，那么能够将总人口的平均的体重指数BMI或体重指数BMI的中位数用作为估计函数f_θ的结果。

此外，用于提供单个值的估计函数f_θ能够构成用于，提供从人口P的子群体中推导出的恒定值，所述子群体通过非不充分的数据区中的信息表征。在这种情况下，例如能够将与患者所具有的相比相同性别、类似年龄、相同吸烟状况和类似身高的子群体的平均的体重指数BMI或体重指数BMI的中位数用作为估计函数f_θ。

单个值也能够被计算用于确定：用于数据区的特定的、所获得的值是否是充分还是不充分的。例如，如果值与所述单个值的差大于阈值(所述阈值又能够设定为绝对值阈值或相对值阈值)，那么能够将所述值标记为是不充分的。

例如，如果所获得用于数据区“体重指数BMI”的值为350，那么能够将所述值(或获得所述值的数据区)视为是不充分的(更具体地说：是不可信的)，因为用于所述数据区的患者的子群体的中位数例如为37，并且350与27之间的差大于例如为差异20％的相对值阈值，或因为所述差大于例如为10的绝对值阈值。能够为每个数据区设置自己的绝对值阈值和/或相对值阈值。

这在数据区不可靠的情况下能够是特别有帮助的，所述数据区不可靠已知是由于所述数据源类型例如是光学字符识别OCR、或自然语言处理NLP，或者由于以下事实：所述数据区通常由手输入到患者的档案中(换言之：对于数据区，其中书写错误或转换错误比由不确定性、例如测量不确定性引起的错误更常见)。

医疗(尤其诊断)任务例如能够是，确定：患者是否或以何种概率具有特定的疾病。医疗预测任务例如能够是，确定：直至以预定的概率发生特定的医疗事件经过了多少时间，所述特定的医疗事件例如是患者从疾病的第一阶段变为疾病的第二阶段；直至患者发展出特别的症状经过了多少时间，直至患者治愈经过了多少时间等。特别地，任务能够是：“患者在下一个五年内患冠心病的风险是多高？”或者：“对于患者而言[特定的治疗或诊断程序]意味着何种风险？”。

这些任务通常与至少一个变量(对应于数据区)相关，所述变量描述患者的状态或特性、例如患者的体重、身高或体重指数BMI。用于这些变量的值能够被输入到对应的数据区中或者能够针对相应的数据区获得用于这些变量的值。

根据至少一个质量标准的不充分的值例如能够是标记为不可靠的或不可信的值，例如根据可信性分析，或者因为其数据源在不可靠的数据源的列表上。

可信性分析能够包括：将针对特定的患者所获得的值与用于总人口和/或患者的子群体的平均值等进行比较，并且确定：所获得的值是否是指示所述值不可信的异常值。

不可靠的数据源例如能够是以下数据源，所述数据源包括信息从一类介质或载波信号到另一类中的转换，例如自然语言处理NLP(将信息从声音转换到书写的文本中)或光学字符识别OCR(从模拟文本转换到数字文本中)或从非结构化的文本转换到结构化文本中等。

如果任务函数g(x，y)代表医疗任务，其中，x和y是一个或多个数据区(变量)，其中，x表示充分的数据区而y表示不充分的数据区，那么g(x，y)的结果能够是用于待执行的医疗任务的所期望的结果。

然而，因为在所述实例中y是不充分的(即具有缺少的值或不可信的或不可靠的值)，所以实际的结果可能是不可计算的或不可用的。可能存在附加的数据区(变量)x'，所述数据区对于任务函数g所代表的医疗任务并非是直接相关的。根据本说明书的基本构思之一，估计函数f_θ为此能够通过y_est＝f_θ(x，x')充分地逼近或估计y。因此，能够通过以下方式执行医疗任务：计算g(x，f_θ(x，x'))。

输出信号能够包括警告信号或由警告信号构成，例如可视化的、声学的和/或触觉的警告信号。警告信号能够警告或告知医生：存在不充分的数据区、不充分的数据区和/或其值的相关性，基于用于不充分的数据区的至少两个值的结果之间的差(在绝对值中和/或百分点中)等等。

附加地或替选地，输出信号能够包括控制信号或由控制信号构成，所述控制信号使用于检测和/或改进用于至少一个先前不充分的数据区的值的自动的过程进入运行。控制信号例如能够使临床项目管理系统中的工作流程进入运行，所述工作流程执行对患者的检查，允许由手输入特定的数据，允许呼叫患者并且提出特定的问题，要求其他数据源(例如另一实体，例如另一医院或研究机构)的数据等等。

控制信号也能够自动控制整个工作流程。控制信号也能够停止计算机系统，所述计算机系统执行用于执行或辅助医疗任务的方法(例如，以便强制医生提供自己的诊断，而不是使用或考虑如下诊断，所述诊断由计算机系统基于至少一个相关的并且不充分的数据区创建)。

输出信号或警告信号尤其能够构成用于，利用显示设备向用户/医生显示用于医疗任务的至少两个经计算的结果。由于至少一个不充分的数据区，警告信号例如能够通过以下方式显示在用于待执行的医疗任务的结果中的不确定性：显示中央值和至少一个对应的误差条(使得例如示出两个或三个结果)。

在一些优选的实施方式、实施方式的变型方案或改进方案中，计算用于待执行的医疗任务的至少两个结果包括：计算用于所述至少一个不充分的数据区中的至少一个数据区的至少两个所提供的不同的值中的每一个值的结果。

在一些有利的实施方式、实施方式的变型方案或改进方案中，所述至少两个不同的值是用于不充分的数据区的最小值y_min和最大值y_max。这允许深入地估计不充分的数据区和/或其实际值(所述值可能是未知的，要么因为根本没有获得所述值，要么因为所述值以不充分的状态或不充分的方式获得)以什么程度影响医疗任务。即使确定数据区或值是相关的，但是医生始终能够得出结论：总体上影响是足够小的，以便继续使用用于执行或至少辅助待执行的医疗任务的所述方法或计算机系统。

在一些优选的实施方式、实施方式的变型方案或改进方案中，至少一个不充分的数据区是以下数据区，所述数据区具有二进制值，或者所述数据区具有对待执行的医疗任务具有线性影响的值(即，在所述医疗任务中，任务函数g与至少一个不充分的数据区线性相关)。对于这种值特别简单的是，计算所述值与待执行的医疗任务的相关性(或对其的影响)，使得特定的相关性度量以及用于医疗任务的结果基于用于不充分的数据区的不同的值是特别精确的。

特别在所述情况下，在其他条件不便时，能够容易地将任务函数g的最小值和最大值gmin和gmax计算为至少一个不充分的数据区中的至少一个数据区的函数，其方式为，将最小值y_min和最大值y_max用于至少一个不充分的数据区。

在一些有利的实施方式、实施方式的变型方案或改进方案中，通过估计函数f_θ提供的至少两个不同的值是不同的分位数。所述两个不同的值例如能够是不同的百分位数。百分位数是特别的分位数，通过所述分位数将分布分解为100个范围相同的部分。因此，例如“0.5分位数”、“50％百分位数”和“中位数”表示相同的变量。

所述两个不同的值例如能够选择为至少一个超过50％的百分位数(优选大于或等于75％、更优选大于或等于85％、还更优选大于或等于95％、始终还更优选地大于或等于99％)和至少一个小于50％的百分位数(优选小于或等于25％、更优选小于或等于15％、还更优选小于或等于5％、始终还更优选小于或等于1％)。计算和示出分位数或百分位数(替代例如最小值和最大值)具有以下优点：异常值(所述异常值例如可能因数据组内的显著的错误而存在)对估计函数的结果的影响要小于例如在平均值计算时的影响。

在一些有利的实施方式、实施方式的变型方案或改进方案中，用于待执行的医疗任务的至少两个结果和/或通过估计函数提供的至少两个不同的值基于一般人口或基于子群体，所述子群体包括要对其执行医疗任务的患者。这能够使结果更精确。能够有利地自动基于非不充分的数据区来确定患者的子群体。

在一些有利的实施方式、实施方式的变型方案或改进方案中，基于用于所述至少一个不充分的数据区中的至少一个数据区的概率分布来执行用于待执行的医疗任务的至少两个结果的计算。概率分布能够基于人口统计和/或医疗任务所针对的患者的子群体。这还允许更切合实际地评估不充分的数据区对于待执行的医疗任务的结果的相关性。

在一些有利的实施方式、实施方式的变型方案或改进方案中，如果至少两个所计算的结果中的至少一个结果或从所述结果中推导出的大小满足预定的条件，那么自动输出警告信号和/或控制信号，所述警告信号和/或控制信号指示：应获得(例如接收、取回、输入等)用于至少一个不充分的数据区的改进的值，和/或所述警告信号和/或控制信号执行如下控制：获得这种改进的值。如在上文中已经提及的那样，这种输出信号能够执行如下控制：向用户(例如医生)展示或示出如下消息：将工作流程置于运行中；自动访问数据库；终止检查等等。

在一些实施方式中，在确定特定的相关性度量小于相关性阈值(或在其他的变型方案中大于或等于相关性阈值)的情况下，能够发送这种或类似的信号。以这种方式，如果确定至少一个数据区是不充分的，那么采取措施来消除这种情况，即使所述不充分的数据区对于当前要实现的医疗任务而言是不相关的。

在一些有利的实施方式、实施方式的变型方案或改进方案中，用于至少一个不充分的数据区中的至少一个数据区的至少两个不同的值由对应的主值和其对应的误差条产生。在这种情况下，在值为5±3时，例如将值5称为主值或中央值。以所述方式，简单的是，利用关于通过所述误差条或多个误差条编码的值的准确性的固有信息来估计特定的、针对数据区所获得的值的作用范围或有效范围。在变型方案中，能够提供至少三个(或恰好三个)不同的值，所述值包括给出的值(主值)和通过其误差条显示的极端值，或者所述值由给出的值(主值)和通过其误差条显示的极端值构成。例如，如果给出11±2作为值，那么要么能够基于其使用最小值9和13，要么能够使用值9、11和13。

在一些有利的实施方式、实施方式的变型方案或改进方案中，至少一个质量标准的中一个质量标准在于，是通过光学字符识别OCR还是通过自然语言处理NLP产生值。以这种方式，特定的数据源原则上能够经受更大程度的监控，所述数据源对于偶尔产生小的但是难以注意到的错误(例如，在OCR的情况下缺少的逗号)是已知的。

所述标准以及作为质量标准一部分的任何其他可选的标准能够通过逻辑连接符(和、或等)与任何其他标准连接。每个标准能够是必要标准和/或充分标准。

在一些有利的实施方式、实施方式的变型方案或改进方案中，输出信号指明如下源(不那么优选为整个源)的至少一个如下部分，所述源已经用于OCR或NLP，并且所述部分必须检查，以便改进所获得的用于至少一个不充分的数据区的一个或多个值。在OCR的情况下，例如能够向用户、例如医生示出页面的包括相应文本的句子或部段，所述文本已经由OCR处理，以便产生用于不充分的数据区的值(例如，判定为缺少的、不可信的或以其他方式不充分的值)，使得用户或医生能够基于文本通过手确定正确的值。以类似的方式，在NLP的情况下，能够播放(或者在用户的授意下准备进行播放)音频片段，所述音频片段包括已经由NLP处理的自然语言，以便产生用于不充分的数据区的值。

在一些有利的实施方式、实施方式的变型方案或改进方案中，至少一个质量标准中的一个质量标准在于，光学字符识别OCR和/或自然语言处理NLP的可靠性信息作为值的来源是否超过预设的阈值。据此，如果值来自OCR或NLP，并且(逻辑上：和)如果附加地，用于所述值的可靠性信息低于(或等于)预设的阈值，那么(根据充分条件)能够将所述值归为不充分的。NLP和OCR算法部分地配置成，所述其本身输出可靠性信息(或：置信度)，借助所述可靠性信息说明：所实行的转换被评估为是多可靠的(或忠于原始数据的)。NLP算法例如能够输出，特别的NLP结果被归为“95％正确”。替选地，算法本身也能够配备有可靠性判定(作为一类可靠性信息)，例如“所述算法平均95％正确”。

预设的阈值优选超过50％、更优选超过75％、还更优选超过90％、特别优选超过95％或更高。也能够根据相应的数据区设置个体的阈值。与针对出自一组容易区分的字的多个字相比，例如能够为通常仅包括单个字和/或包括出自一组容易彼此混淆的字的多个字的数据区设置更高的阈值。

此外，根据本发明的第二方面，提供一种计算机系统，所述计算机系统用于执行或辅助医疗任务，所述计算机系统包括：

输出接口；

输入接口，其构成用于：

-获得待执行的医疗任务；

-获得用于与医疗数据相关的大量可用的数据区中的多个数据区的多个值；

计算设备，其构成用于：

-确定：是否在获得多个值之后存在至少一个不充分的数据区，其中，不充分的数据区是以下数据区，对于所述数据区未获得值，或者对于所述数据区获得以下值，所述值根据至少一个质量标准是不充分的，并且，(至少)如果存在至少一个不充分的数据区，那么

-为医疗任务确定所述至少一个不充分的数据区中的至少一个数据区的和/或其值的相关性度量；

-利用估计函数提供用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值；

-基于所提供的用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值，计算用于待执行的医疗任务的至少两个结果；

-确定：所确定的相关性度量是否大于或等于相关性阈值，并且如果是所述情况，那么

-控制输出接口以输出基于所计算的至少两个结果的输出信号。

如果不存在不充分的数据区，那么计算机系统、尤其计算设备能够设立用于，基于所提供的用于数据区的值以通常方式执行医疗任务。

输入接口和/或输出接口能够构成为硬件、例如开关电路或印刷电路板、现场可编程门阵列FPGA和/或专用集成电路ASIC，和/或利用晶体管、逻辑门或其他电路构成。附加地，输入接口和/或输出接口也能够至少部分地实现为软件。输入接口和/或输出接口能够构成用于，经由线缆或以无线方式获得数据，并且经由任何已知的通信协议获得所述数据。尤其地，输入接口和/或输出接口能够配置用于，与多个数据源通信，例如与本地用户接口、远程数据存储地点和/或云计算系统通信。

待执行的医疗任务和表示特殊的患者或特殊的子群体的信息例如能够经由输入接口的本地用户接口一起输入到系统中，并且所述系统能够利用输出接口从远程的数据存储地点请求关于患者或子群体的相关数据，于是输入接口从所述数据存储地点获得用于多个数据区的所述数据。

根据本发明的第三方面，提供一种计算机程序产品，所述计算机程序产品包括程序代码，当执行所述程序代码时(例如通过计算机系统)，所述程序代码执行根据本发明的第一方面的实施方式所述的方法。

根据本发明的第四方面，提供一种计算机可读的非易失性数据存储介质，所述数据存储介质包括程序代码，所述程序代码构成用于，当执行所述程序代码时(例如通过计算机系统)，执行根据本发明的第一方面的实施方式所述的方法。数据存储介质能够是DVD、CD-ROM、固态硬盘(SSD)、记忆棒等。

根据本发明的第五方面，提供一种数据流，所述数据流包括程序代码，或所述数据流构成用于，生成所述程序代码，当执行所述程序代码时(例如通过计算机系统)，所述程序代码执行根据本发明的第一方面的实施方式所述的方法。

附图说明

参照在附图中所示出的示例性的实施方式详细阐述本发明。

附上附图，以便实现更好地理解本发明，并且是本公开的一部分。附图说明本发明的实施方式，并且应与说明书一起详细描述本发明的原理。在参照附图详细描述本发明的其他实施方式和本发明的许多致力于实现的优点期间，可以看到所述实施方式和优点。在此，相同的附图标记表示相同或相似的部分。

方法步骤的编号应该简化理解，并且不应理解为，必须对应于所提及的方法步骤的附图标记的编号执行所述步骤，除非另有明确说明或隐含地显而易见。尤其地，能够同时执行、以重叠的方式执行或依次执行所述方法步骤的一些方法步骤或甚至所有方法步骤。

图1示出用于图解说明根据本发明的第一方面的实施方式的计算机实施的方法的示意性流程图；

图2示出用于图解说明根据本发明的第二方面的实施方式的计算机系统的示意性流程图；

图3示意性图解说明根据图1的方法的可能的中间结果和最终结果；

图4示出用于说明根据本发明的第三方面的实施方式的计算机程序产品的示意性框图；以及

图5示出用于图解说明根据本发明的第四方面的实施方式的数据存储介质的示意性框图。

尽管在此图解说明和描述特定的实施方式，但是应该理解，交换任何所描述的实施方式和/或所述实施方式的一部分，而不脱离本发明的主题。尤其地，本说明书应该包括在此所描述的特殊的实施例的任何改型方案或变型方案。

具体实施方式

图1示出用于图解说明根据本发明的第一方面的实施方式的计算机实施的方法，即用于执行或辅助医疗任务的计算机实施的方法的示意性流程图。

在下文中，同样部分地参照图2描述根据图1的方法。图2示出用于图解说明根据本发明第二方面的实施方式的计算机系统100，即用于执行或辅助医疗任务的计算机系统100的示意性框图。计算机系统100包括输入接口110、用于输出输出信号71的输出接口190以及计算设备150。

在描述根据图1的方法期间，参照计算机系统100仅仅用于图解说明。尽管能够有利地借助计算机系统100执行根据图1的方法及其变型方案或改型方案中的每一个，但是应该理解的是，即使没有计算机系统100也能够明确地执行根据图1的方法。

在下文中，作为一个实例，讨论以下情况，在所述情况下，通过任务函数g代表的用于特殊患者的待执行的医疗任务连同其他数据区(即变量)与患者的体重指数BMI相关。通过以下方式计算体重指数BMI：患者的以公斤为单位的体重(质量)除以患者的以米为单位的身高的平方。应该理解，通过本方法能够执行和/或辅助多个其他类型的医疗任务，并且如在上文中已经详述的那样，能够将多个变型方案、改型和改进方案应用到所述方法上。

在步骤S10中，获得(或开始或提供)待执行的医疗任务，例如通过计算机系统100经由计算机系统100的输入接口110接收。例如能够通过以下方式将医疗任务输入到本地用户接口中：在医生的终端上选择待执行的医疗任务以及要为其执行医疗任务的患者。作为在此使用的一个实例，医疗任务大约会是：“对于患者而言，在下一个五年中患冠心病的风险是多高？”。

在步骤S20中，获得(或提供)用于与医疗数据相关的大量可用的数据区中的多个数据区的多个值。可用的数据区能够是通常在电子健康数据("electronic healthrecords"，EHR)中检测到的和存储的任何数据区，例如性别、年龄、血型、现有疾病等。能够自动地从数据库中读取值，所述数据库能够设置在同一场地上(即与本地终端在同一实体的相同的位置处)，或者所述数据库能够远程地设置，例如研究机构的数据存储器、云计算系统等等。

在步骤S30中，确定：是否存在至少一个不充分的数据区，即是否任一数据区保持为空(在此：缺少体重指数BMI)，以及每个所获得的值是否满足至少一个质量标准。

如在上文中已经描述的那样，质量标准能够是根据数据区的值的自动的可信性分析对特殊的可信性评价的要求，和/或对特殊的、在获得值时附加于所述值上的可靠性评价的要求，和/或对用于值的特殊类型的数据源的要求等等。

质量标准也能够是与所获得的值相关联的误差条的大小的阈值。例如，在误差条阈值的情况下，能够在良好的结果的情况下使用主值(中央值)，使得能够利用主值(中央值)来计算任务函数g。另一方面，如果误差条太大，那么仅仅使用主值(中央值)可能是不充分的。替代于此，于是能够将对应的数据区判定为是不充分的。

如已经提及的那样，在下文中描述以下情况：仅仅缺少用于数据区“体重指数BMI”的值。通常，以上提及的医疗任务可能考虑患者的体重指数BMI。如果缺少所述值，现有技术的决策支持系统可能无法基于所获得的值给医生提供对所述医疗任务的响应。

然而，在本实施方式中，在步骤S40中使用估计函数f_θ，以便提供(例如计算)用于至少一个不充分的数据区中的至少一个数据区的至少两个不同的值。如果用y表示不充分的数据区，那么至少两个不同的值能够表示为y₁、y₂、....。其他数据区(所述其他数据区在此假定为是非不充分的)表示为x。因此，为了执行医疗任务，如果用于g表示任务函数，那么必须确定g(x，y)。

估计函数f_θ例如能够提供两个值y₁、y₂，所述值对应于y的最小值和最大值。在本实例中，y₁可能是用于体重指数BMI的最小值(用于总人口或患者所属于的子群体)，并且y₂是用于体重指数BMI的最大值。

以类似的方式，替代与此，也能够使用分位数(例如百分位数)，其中优选地，至少一个百分位数大于50％(优选大于或等于75％、更优选大于或等于85％、还更优选大于或等于95％、始终还更优选地大于或等于99％)，而一个百分位数优选小于50％(优选小于或等于25％、更优选小于或等于15％、还更优选小于或等于5％、始终还更优选小于或等于1％)。

例如，在步骤S40中，通过估计函数f_θ能够确定，基于患者的子群体，体重指数BMI的可能的值处在16与35之间。

于是，在步骤S50中，为估计函数f_θ的至少两个值y₁、y₂中的每个值计算用于任务函数g的结果，g₁＝g(x，y₁)和g₂＝g(x，y₂)。尤其在g是y的非线性函数的情况下，能够利用蒙特卡罗模拟计算g的概率分布或概率分布的至少一个特性(例如，平均值、标准差或特定的分位数)。

在其他变型方案中，优选基于人口统计和/或子群体(或子群体统计)，估计函数f_θ能够输出用于不充分的数据区的值的概率分布y_est。在本实例中，因此能够提供用于体重指数BMI的概率分布。

图3示意性说明所述变型方案。在图3的左侧，示出用于一般人口的体重指数BMI的概率分布51以及用于患者的子群体的概率分布52。竖轴线表示概率(在此：患冠心病)，而水平轴线表示体重指数BMI。

估计函数f_θ也能够是例如从机器学习方法中推导出的任何类型的学习函数。因此，估计函数f_θ能够基于线性回归或逻辑回归、机器学习、支持向量机等等。能够在整个总人口或在子群体上训练估计函数f_θ。估计函数f_θ能够被训练用于输出单个值(替代至少两个值)或为此输出多个值，如在上文中所描述的那样。

在步骤S50中，在估计函数f_θ输出用符号y_est表示的、如在图3中左侧所说明的那样的概率分布51、52的情况下，能够如在图3中右侧所说明的那样计算用于任务函数g的概率分布53、54，即g(x，y_est)。换言之，在本实例中，概率分布53、54说明患者在下一个五年中患冠心病的风险。

概率分布53基于用于一般人口的概率分布51，而概率分布54基于用于子群体的概率分布52。

图3图解说明，在位于水平轴上的概率分布51、52中的在用于一般人口的值与子群体的值之间的移动如何例如基本上在用于子群体的概率分布54相对于用于一般人口的概率分布53的变窄部和逐渐变细部中产生。在所示出的实例中，用于任务函数的多个值g₁、g₂、...即概率分布54在10.5％与21.6％之间运动。

在步骤S60中，为医疗任务计算用于所述至少一个不充分的数据区中的至少一个数据区的和/或其值的相关性度量。例如能够将整个宽度，或半峰全宽(英文“full widthat half maximum”，FWHM)，或零点距概率分布54的中央的距离等计算为相关性度量。

在步骤S70中，将相关性度量与相关性阈值进行比较，或者换言之，确定：所确定的相关性度量是否大于或等于相关性阈值(或者在其他变型方案中，大于相关性阈值)。

如果已经确定：相关性度量大于或等于相关阈值，那么在步骤S80中输出基于至少两个所计算的结果的输出信号71。如在上文中所描述的那样，如果已经确定这不是所述情况，那么也能够输出(不同的)输出信号71。

例如，在当前情况下，相关性阈值能够是大小为概率分布54的零点之间的间距的1％的阈值。因为在图3的实例中，所述距离为21.6％-10.5％＝11.1％，并且11.1％>1％，所以在所述情况下确定：相关性度量大于相关性阈值。

在所述实例中，相当低地选择相关性阈值，以便仅仅滤出只会使医生困惑的小得无意义的变化。

输出信号71能够包括任意数量的信号、例如警告信号、信息信号、控制信号等，或由所述信号构成。

输出信号71例如能够控制显示器向医生显示图3的概率分布52、54或者甚至图3的所有概率分布51、52、53、54，使得医生能够确定：用于不充分的数据区的值中的改变和/或用于任务函数g的结果中的改变是可接受的还是不可接受的。

附加地或替选地，能够基于用于任务函数g的结果的概率分布51、52，例如利用蒙特卡罗模拟，能够计算风险的平均值和标准差。所述结果、例如为18.3％±2.7％的平均风险，也能够通过输出信号71作为显示器的控制的结果示出。如在图3中所示出的那样，对于估计函数f_θ的结果和/或对于任务函数g的结果，不仅能够分别显示在用于一般人口的概率分布51、53和用于子群体的概率分布52、54之间的比较视图，而且可选地也能够自动分析。

输出信号71也能够包括警告信号或控制信号或由所述信号构成，如在上文中所阐述的那样。例如，输出信号71能够包括警告信号(或由警告信号构成)，所述警告信号向医生显示任务函数g的结果被判定为过于不可靠。输出信号71也能够停止执行根据本发明的第一方面的方法。在一些变型方案中，输出信号71能够自动执行用于获得用于不充分的数据区的改进的值(或在缺少的值的情况下，任一值)的过程。

在一些变型方案中，能够提供多个相关性阈值，并且能够根据与相关性阈值中的每个相关性阈值相比如何设置所计算的相关性度量来输出不同的输出信号71(或多个不同的输出信号)。

例如，如果相关性度量超过第一相关性阈值，那么能够输出输出信号71，使得向医生显示在图3中的概率分布53、54中的一个或两个，即用于对应于待执行的医疗任务的任务函数g的结果的概率分布。

如果相关性度量超过大于第一相关性阈值的可选的第二阈值，那么能够输出输出信号71，使得向医生显示警告，所述警告显示：由于超大的不确定性不应该继续所述方法，和/或自动停止所述方法。

如果相关性度量超过可选的第三相关性阈值(所述第三相关性阈值关于第一相关性阈值和可选的第二相关性阈值能够处于任意位置，并且所述第三相关性阈值也能够与所述相关性阈值中的一个或两个相关性阈值相等)，于是能够产生输出信号71，使得所述输出信号包括要求信号，所述要求信号使用于获得用于不充分的数据区的改进的值的工作流程进入运行。

优选地，至少设置第一相关性阈值和第三相关性阈值，并且第三相关性阈值小于第一相关性阈值。这意味着，对于第一相关性阈值与第三相关性阈值之间的相关性阈值，医生不需要为概率分布费心，而是能够被提供有单个值(例如，基于用于不充分的数据区的中位数、平均值或特殊的分位数或百分位数)。然而，在所述实例中，由于超过第一相关性阈值，所以仍然采取措施，以便获得改进的值。这是基于如下考虑：虽然用于当前特殊的目的的相关性可能是小的，但是一般地期望，获得用于所有数据区的尽可能好的值。

在所述方法或计算机系统100的同一实施方案中，不同的任务能够设有不同的相关性阈值。对于通过如下任务函数代表的医疗任务例如能够更高地设置相关性阈值，所述任务函数已知(或甚至必须地)产生具有大的不确定性的结果，因为由所述医疗任务反正也仅预期粗略的估计。

参考在图2中的计算机系统100，输入接口110能够配置用于，执行步骤S10和S20，如其在上文中所描述的那样，并且计算设备150能够配置用于，执行步骤S30至S70。计算设备150能够控制输出接口190，如果所确定的相关性度量大于或等于阈值，那么基于所计算的用于待执行的医疗任务的至少两个结果输出S80输出信号71。能够通过计算设备150和/或输出接口190产生输出信号71。

计算设备150能够构成为用于计算数据、尤其用于执行软件、应用程序或算法的任何设备或任何机构。计算设备150例如能够具有至少一个处理器单元，例如至少一个中央处理单元(英文“central processing unit”，CPU)和/或至少一个图形处理单元(“graphicsprocessing unit”，GPU)和/或至少一个现场可编程的门阵列FPGA和/或至少一个专用集成电路ASIC和/或所述计算设备能够包括上述部件的任何组合或由其构成。

此外，计算设备150能够具有在操作上与至少一个处理器单元耦合的工作存储器和/或能够具有在操作上与至少一个处理器单元和/或工作存储器耦合的非易失性存储介质。计算设备150能够实现为本地设备、远程设备(例如，借助用户接口远程地与本地客户端或终端连接的服务器)，或能够构成为所述设备的组合。计算设备150的一部分或整个计算设备150也能够通过云计算系统实施。输入接口110和/或输出接口190也能够集成到计算设备150中。

此外，计算机系统100能够具有至少一个输出设备，例如显示器、扬声器、耳机等。输出信号71能够基于所计算的用于医疗任务的至少两个结果控制输出设备以将信息输出给用户(通常医生)，优选控制显示设备(例如计算机屏幕、触摸屏等)以图形地示出信息。

对于方法步骤S30至S70中的每个方法步骤，能够提供存储在计算设备150中并且通过计算设备150执行的对应的软件模块，例如用于确定是否存在不充分的数据区不充分性计算模块、相关性度量确定模块、估计函数计算模块、相关性度量比较模块和/或输出接口控制模块。计算设备150的所述模块中一些模块或所有模块能够通过云计算系统来实施。

图4示出根据本发明的第三方面的实施方式所述的计算机程序产品200的示意性框图，即包括可执行的程序代码250的计算机程序产品200，所述程序代码构成用于，当执行所述程序代码时，当通过计算设备150执行所述程序代码时，执行根据图1的方法。

图5图解说明根据本发明的第四方面的实施方式所述的非易失性计算机可读的数据存储介质300，即包括可执行的程序代码350的数据存储介质300，所述程序代码构成用于，当通过计算设备150执行所述程序代码时，执行根据图1的方法。

在以上进行的详细的描述中，为了保持描述简洁，已经组合不同的特征。应该理解，以上进行的描述旨在图解说明的并且并非是限制性的。所有替选方案、改型和等效方案应该包括在其中。本领域技术人员在领会以上进行的说明时也隐含地读到许多其他实例，并且将考虑不同的变型方案、改型和选择，如其在上文中所描述的那样。

Claims

1.一种计算机实施的用于执行或辅助医疗任务的方法，所述方法包括至少以下步骤：

- 获得（S10）待执行的医疗任务；

- 获得（S20）用于与医疗数据相关的大量可用的数据区中的多个数据区的多个值；

- 确定（S30）：是否在获得（S20）所述多个值之后存在至少一个不充分的数据区，其中，不充分的数据区是以下数据区，对于所述数据区未获得值，或者对于所述数据区已经获得根据至少一个质量标准不充分的值，

- 通过估计函数，提供（S40）用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值；

- 计算（S50）用于所述待执行的医疗任务的至少两个结果，所述至少两个结果基于所提供的至少两个不同的值；

- 对于所述待执行的医疗任务，确定（S60）用于所述至少一个不充分的数据区中的至少一个数据区的和/或其值的相关性度量，其中所述相关性度量基于用于所述待执行的医疗任务的至少两个结果，其中比较所述两个结果，以便确定：所述至少两个不同的值是否和/或以什么程度影响所述医疗任务；

- 确定（S70）所述相关性度量是否低于相关性阈值，并且如果是这种情况，那么执行所述医疗任务。

2.根据权利要求1所述的方法，

其中，计算（S50）所述待执行的医疗任务的至少两个结果包括：计算用于所述至少一个不充分的数据区中的至少一个数据区的所述至少两个不同的值中的每个值的结果。

3.根据权利要求1或2所述的方法，

其中，所提供的用于所述至少一个不充分的数据区中的至少一个数据区的至少两个值是最小值和最大值。

4.根据权利要求1或2所述的方法，

其中，所提供的用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值是至少两个不同的分位数。

5.根据权利要求1至4中任一项所述的方法，

其中，用于所述待执行的医疗任务的所述至少两个结果和/或通过所述估计函数提供的所述至少两个不同的值基于一般人口或基于对其执行所述医疗任务的患者的子群体。

6.根据权利要求1至5中任一项所述的方法，

其中，所述至少一个不充分的数据区是以下数据区，所述数据区具有二进制值，或者所述数据区具有对所述待执行的医疗任务具有线性影响的值。

7.根据权利要求1至6中任一项所述的方法，

其中，计算（S50）用于所述待执行的医疗任务的所述至少两个结果基于概率分布来执行，所述概率分布通过用于所述至少一个不充分的数据区中的至少一个数据区的所述估计函数来提供（S40）。

8.根据权利要求1至7中任一项所述的方法，

其中，如果所计算的至少两个结果中的至少一个结果或从其中推导出的大小满足预定的条件，那么自动地输出（S80）警告信号和/或控制信号，所述警告信号和/或控制信号说明：应该获得用于所述至少一个不充分的数据区的改进的值，和/或所述警告信号和/或控制信号执行控制以便获得这种改进的值。

9.根据权利要求1至8中任一项所述的方法，

其中，所述至少一个质量标准中的一个质量标准在于，值是否已经通过光学字符识别和/或通过自然语言处理产生。

10.根据权利要求9所述的方法，

其中，所述至少一个质量标准中的一个质量标准在于，所述光学字符识别和/或所述自然语言处理的可靠性信息是否超过预设的阈值。

11.一种用于执行或辅助医疗任务的计算机系统（100），所述计算机系统包括：

输出接口（190）；

输入接口（110），所述输入接口配置用于：

- 获得（S10）待执行的医疗任务；以及

- 获得（S20）与医疗数据相关的大量可用的数据区中的多个数据区的多个值；

计算设备（150），所述计算设备配置用于：

- 确定（S30）：是否在获得（S20）所述多个值之后存在至少一个不充分的数据区，其中，不充分的数据区是以下数据区，对于所述数据区未获得值，或者对于所述数据区获得根据至少一个质量标准不充分的值；

- 利用估计函数提供（S40）用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值；

- 基于所提供的用于所述至少一个不充分的数据区中的至少一个数据区的至少两个不同的值，计算（S50）用于所述待执行的医疗任务的至少两个结果；

- 对于所述医疗任务，确定（S70）所述至少一个不充分的数据区中的至少一个数据区的和/或其值的相关性度量，其中所述相关性度量基于用于所述待执行的医疗任务的至少两个结果，其中比较所述两个结果，以便确定：所述至少两个不同的值是否和/或以什么程度影响所述医疗任务；

- 确定（S60）：所述相关性度量是否低于相关性阈值，并且如果是这种情况，那么

- 控制所述输出接口（190）以执行所述医疗任务。

12.一种计算机程序产品（200），其包括可执行的程序代码（250），所述程序代码构成用于，当执行所述程序代码时，执行根据权利要求1至10中任一项所述的方法。

13.一种计算机可读的非易失性数据存储介质（300），其包括可执行的程序代码（350），所述程序代码构成用于，当执行所述程序代码时，执行根据权利要求1至10中任一项所述的方法。