CN113196314B - 适配预测模型 - Google Patents

适配预测模型 Download PDF

Info

Publication number
CN113196314B
CN113196314B CN201980082535.9A CN201980082535A CN113196314B CN 113196314 B CN113196314 B CN 113196314B CN 201980082535 A CN201980082535 A CN 201980082535A CN 113196314 B CN113196314 B CN 113196314B
Authority
CN
China
Prior art keywords
predictive model
data
training data
inaccuracy
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980082535.9A
Other languages
English (en)
Other versions
CN113196314A (zh
Inventor
A·S·海尔梅
A·波利亚科夫
I·费杜洛瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN113196314A publication Critical patent/CN113196314A/zh
Application granted granted Critical
Publication of CN113196314B publication Critical patent/CN113196314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用于修改预测模型的方法和系统。特别地,所述预测模型的不准确度被归类为至少三个类别之一。根据不准确度的类别对所述预测模型做出不同的修改。在特定范例中,不准确度类别定义什么训练数据被用于修改所述预测模型。

Description

适配预测模型
技术领域
本发明涉及预测模型,并且特别地涉及用于适配预测模型的方法和系统。
背景技术
预测模型(诸如深度学习模型)日益使用在数据分析任务中,诸如图像分析和语音识别。通常,预测模型被应用于输入数据以预测对期望任务或问题的回答,即生成“预测的回答数据”。
典型的预测模型由一系列分析步骤形成,所述分析步骤顺序地应用于输入数据,从而生成预测的回答数据,其指示期望任务或问题的预测的结果。每个分析步骤通常被称为预测模型的“层”。
预测模型通常被调谐以执行特定任务,即被训练为使用训练数据回答特定问题。该过程涉及收集训练数据,其由输入数据和指示对期望任务/问题的实际/已知回答的对应的实际/已知回答数据形成。一般预测模型然后被应用于训练数据的输入数据以生成预测的回答数据(即,是预测模型的实际回答数据的预测)。该一般预测模型的参数然后基于预测的回答数据与实际回答数据(从训练数据获得的)之间的比较来修改,以便改进预测模型的性能。可以迭代地重复该训练过程。经修改的预测模型可以然后应用于输入数据的新实例以准确地预测回答数据。
然而,预测模型的一个问题在于,(一旦被训练)假定预测模型将继续准确地预测回答数据,该假定不总是适用。特别地,输入数据的性质和/或预测模型的准确度可以随时间改变,被称为“漂移”的现象。特别地,输入数据与实际回答数据之间的关系可以随时间改变,例如如果输入数据的性质/格式改变。
为了检测漂移的发生,可以提供新/经更新的训练数据。预测模型然后可以应用于新训练数据的输入数据,以生成适当的预测的回答数据,其然后与由新训练数据所提供的已知回答数据比较。以这种方式,预测模型的准确度可以被评估,并且漂移被检测。
通常,如果确定现有预测模型是不准确的,则新预测模型使用新训练数据从头开始建立,以确保预测模型准确地被带到为最新的。然而,预测模型的生成要求大量的(训练)数据、时间和处理能力。因此,期望一种生成预测模型的经改进的方法。
Khamassi,Imen等人的“Self-adaptive windowing approach for handlingcomplex concept drift.”(Cognitive Computation 7.6(2015):772-790)描述了一种用于检测数据流中的改变并且更新学习模型的方法。
Jadhav,Aditee和Leena Deshpande.的“An efficient approach to detectconcept drifts in data streams.”(2017IEEE 7th International Advance ComputingConference(IACC).IEEE,2017)描述了一种用于检测概念漂移的方法。
发明内容
本发明由权利要求书定义。
根据依据本发明的方面的范例,提供了一种修改预测模型的方法,其中,所述预测模型是基于现有训练数据来生成的并且适于处理输入数据以生成指示对涉及所述输入数据的预定问题的预测回答的预测回答数据。所述方法包括执行差异确定步骤,所述差异确定步骤包括:接收基准数据,所述基准数据包括范例输入数据和指示对涉及对应的范例输入数据的所述预定问题的实际或已知回答的对应的实际回答数据;使用所述预测模型来处理所述范例输入数据以基于所述范例输入数据来生成指示对所述预定问题的预测回答的预测回答数据;并且确定所述实际回答数据与所述预测回答数据之间的差异。所述方法还包括至少基于所述实际回答数据与所述预测回答数据之间的所述差异将所述预测模型的不准确度归类为至少三个类别中的一个;并且基于所述预测模型的不准确度的所述类别来修改所述预测模型。
本发明的实施例认识到,预测模型可以由于改变数据条件(即,由于漂移)随时间失去准确度。因此,预定问题或任务的预测回答与实际回答之间的差异可以改变,使得所述预测模型的预测开始从实际回答“漂移”。换句话说,输入数据与(基于该输入数据的)问题的实际回答之间的关系能够改变或者漂移。这意指预测模型(其可能已经初始地高度准确)能够随时间变得更不准确。
本发明的实施例还有利地认识到,存在针对输入数据与实际回答数据之间的关系中的该改变的不同原因或者理由。特别地,本发明的实施例认识到,如果确定预测模型不再是足够准确的,则将单个修改技术应用于预测模型将是不适合的。因此,不同的模型修改技术可以被用于基于差异的类别或所识别的原因来修改所述预测模型。
以这种方式,所述预测模型的修改可以准确地反映所述预测模型的准确度中的改变的原因。这避免当所述预测模型的准确度的改变被识别时完全重新建立预测模型的需要。
存在对于改进预测模型的强技术动机,因为其常常被用于执行技术任务(例如,推荐患者的处置或者计算用于制造设备的控制参数)。因此,改进一般预测模型对使用所述预测模型的处理元件的处理性能和准确度具有直接效应。
优选地,针对所述预测模型的不准确度的至少一个类别包括指示无预测模型准确度中的漂移或显著改变已经发生的类别。因此,修改所述预测模型的步骤可以包括响应于确定无预测模型准确度中的漂移或显著改变已经发生而对所述预测模型不执行修改。
差异确定步骤迭代地重复以生成实际回答数据与对应的预测回答数据之间的多个差异;并且归类所述预测模型的不准确度的步骤包括:识别所述多个差异中的模式;并且基于所述多个差异中的所识别的模式来归类所述不准确度。
换句话说,本发明提出识别实际数据/值与对应的预测数据/值之间的差异中的模式。所识别的模式可以被用于归类或以其他方式识别预测模型的准确度。
已经认识到,实际数据与预测数据之间的差异的模式可以被用于接近地表示所述预测模型的不准确度;而边远差异可以忽视(即,其不落在模式之内)。因此,使用模式使得漂移能够更准确地表征。
识别所述多个差异中的模式的步骤包括:确定是否存在所述差异中的阶跃改变;并且响应于确定存在随时间的差异中的阶跃改变,归类所述不准确度的步骤包括将所述不准确度归类为突然漂移。
因此,可以识别所述差异中的阶跃或“突然”改变。预测数据与实际数据之间的差异中的突然改变可以指示已经存在所述预测模型的准确度中的突然漂移或改变。因此,当修改所述预测模型时,所述模型的准确度中的突然改变可以被识别和说明。
在其他实施例中,响应于将所述不准确度归类为突然漂移,修改所述预测模型的步骤包括:基于针对所述预测模型的新训练数据来重新建立新预测模型。特别地,丢弃被用于训练所述预测模型的现有或旧训练数据,并且准备基于新训练数据的新预测模型(即,在不使用现有训练数据的情况下)。
换句话说,已经认识到,如果突然漂移已经发生,则现有训练数据是过时的,使得现有预测模型被认为是完全地不准确的(即,不能够利用适合的确定性准确地识别预定问题的回答)。现有训练数据可以丢弃,并且新预测模型可以基于新训练数据来生成。这确保所述预测模型被更新为新训练数据,并且其是适合的准确的。
当突然漂移已经发生时,旧训练数据可能不再准确地表示输入数据与实际回答数据之间的关系-即,所述数据的特性已经改变。因此,生成新预测模型以确保输入数据与实际回答数据之间的关系的准确确定被提供将是重要的。
通过仅当突然漂移被检测时重新建立新预测模型,做出修改/校正训练模型所要求的(训练)数据量、时间和处理能力的降低。
所述方法可以包括:确定是否存在随时间的差异中的阶跃改变包括确定时间窗口期间的差异的标准偏差是否大于第一预定值。
这提供了识别何时所述预测模型的不准确度的突然漂移(即,阶跃改变)已经发生从而使识别何时突然漂移已经发生所要求的处理能力最小化的简单但是准确的方法。
识别所述多个差异中的模式的步骤包括确定是否存在所述差异中随时间的逐渐改变;并且响应于确定存在所述差异中随时间的逐渐改变,将所述不准确度进行归类的步骤包括将所述不准确度归类为逐渐漂移。
随时间的差异中的逐渐改变可以指示所述预测模型的准确度正在缓慢改变。因此,现有训练数据可能不是完全过时的,并且所述预测模型可以继续利用适合地高的准确度预测回答数据而不需要大量的校正或修改。
任选地,响应于将所述不准确度归类为逐渐漂移,修改所述预测模型的步骤包括将新训练数据附加到现有训练数据,并且基于所述附加的训练数据来重新建立新预测模型。
换句话说,所述预测模型可以使用新训练数据细化,然而,现有训练数据也可以在细化所述预测模型时被采用(因为现有训练数据可以继续表示输入数据与回答数据之间的关系的适合的范例)。通过继续使用现有训练数据,修改所述预测模型所要求的(训练)数据量、时间和处理能力降低。这是因为(使用所述现有训练数据训练的)未修改的预测模型将比比如说用于从头开始建立预测模型的一般预测模型更接近地类似经修改的预测模型。因此,用于适合地修改预测模型(例如,具有最低准确度水平)的更少的迭代需要被采取。
修改所述预测模型的步骤还可以包括:丢弃所述现有训练数据的时间上最早的部分,优选地,其中,所丢弃的时间上最早的部分的大小与附加到所述现有训练数据的新训练数据具有相同大小。
因此,被用于修改所述预测模型的训练数据可以时间跟踪新可用的训练数据,从而反映输入数据与实际回答数据之间的关系中的改变的趋势。这改进所述预测模型的准确度。
确定是否存在所述差异中的逐渐改变的步骤优选地包括确定时间窗口期间的差异的标准偏差是否在第二预定值与第三预定值之间。这提供了识别何时所述预测模型的不准确度的逐渐或增量漂移(即,逐渐改变)已经发生的简单但是准确的方法。这降低确定逐渐/增量漂移是否发生所要求的处理能力。
在一些实施例中,识别所述多个差异中的模式的步骤包括确定是否存在所述差异中的周期性改变。优选地,响应于确定存在所述差异中的周期性改变,将所述不准确度进行归类的步骤包括将所述不准确度归类为周期性漂移;并且任选地响应于将所述不准确度归类为周期性漂移,修改所述预测模型的步骤包括:获得新训练数据并且通过迭代地执行以下操作来迭代地修改所述预测模型:获得由所述现有训练数据的部分和所述新训练数据的部分形成的集成训练数据;并且基于所述集成训练数据来修改所述预测模型,其中,针对修改所述预测模型的每次迭代来修改所述集成训练数据中的所述新训练数据的所述部分的大小和所述现有训练数据的所述部分的大小。
周期性移动使得输入数据与实际输出数据之间的关系随时间周期性改变。因此,(静态或不变的)预测模型可以初始地是准确的,然后变得不准确并且然后再一次变得准确-因为输入数据与实际输出数据之间的关系随时间变化。
因此,提出了识别对所述预测模型的准确度的周期性改变(例如,在一段时间的过程期间,诸如一天、一周、一月或一年)。
如果周期性漂移被识别,则提出迭代地改变用于形成集成训练数据(随后地用于修改所述预测模型)的新训练数据与现有训练数据之间的比率。特别地,新训练数据与现有训练数据的比例可以跟踪所述差异中的周期性改变-即,使得所述预测模型迭代地修改以跟踪所述差异中的改变。
因此,所述预测模型可以迭代地修改,使得其跟随输入数据与实际回答数据之间的关系的改变。迭代修改的速度可以取决于所述周期性漂移的周期。通过识别周期性漂移并且适当地修改所述周期性模型以与所述周期性漂移对准,所述预测模型的准确度可以随时间维持。
此外,通过在新训练数据与现有训练数据的比率之间周期性地切换,不需要丢弃或者删除旧训练数据。这导致减少的数据量(例如,过往范例)损失。
还提出了一种修改预测模型的方法,其中,所述预测模型适于处理输入数据以基于所述输入数据来生成指示预定问题的预测回答的预测回答数据。所述方法此处包括:确定针对所述预测模型的新输入数据与用于训练所述预测模型的现有训练数据之间的相似度;确定是否基于所确定的所述新输入数据与所述现有训练数据之间的相似度来修改所述预测模型;并且响应于确定修改所述预测模型,执行任何先前所描述的方法。
为了避免对预测模型的不必要的重新建立或修改,方法可以包括确定(要由所述预测模型处理的)输入数据是否与用于训练所述预测模型的范例输入数据在统计上不同。可以假定如果在输入数据与范例输入数据之间不存在统计差异(即,存在相似度),那么无漂移已经发生-并且所述预测模型继续准确地定义输入数据与回答数据之间的关系。
这通过避免对所述预测模型的不必要的修改来降低处理能力。
确定新输入数据与现有训练数据之间的相似度的步骤可以包括:确定所述新输入数据与所述现有训练数据的统计分布之间的相似度。
根据依据本发明的方面的范例,提供了一种计算机程序,包括用于当所述程序在计算机上运行时的任何先前描述的方法的代码模块。
根据依据本发明的另一方面的范例,提供了一种适于修改预测模型的系统,其中,所述预测模型是基于现有训练数据来生成的并且适于处理输入数据以生成指示对涉及所述输入数据的预定问题的预测回答的预测回答数据。所述系统包括差异确定模块,其适于通过以下操作来执行差异确定步骤:接收基准数据,所述基准数据包括范例输入数据和指示对涉及对应的范例输入数据的所述预定问题的实际或已知回答的对应的实际回答数据;使用所述预测模型来处理所述范例输入数据以基于所述范例输入数据来生成指示对所述预定问题的预测回答的预测回答数据;并且确定所述实际回答数据与所述预测回答数据之间的差异。所述系统还包括归类单元,其适于至少基于所述实际回答数据与所述预测回答数据之间的所述差异将所述预测模型的不准确度归类为至少三个类别中的一个;以及修改单元,其适于基于所述预测模型的不准确度的所述类别来修改所述预测模型。
所述差异确定模块适于迭代地重复所述差异确定步骤从而生成实际回答数据与对应的预测回答数据之间的多个差异;并且所述归类单元适于通过以下各项归类所述预测模型的不准确度:识别所述多个差异中的模式;并且基于所述多个差异中的所识别的模式来归类所述不准确度。
发明人已经认识到,所述输入数据的特性的改变或漂移(也被称为“概念漂移”)可以指示存在所述输入数据与所述实际回答数据之间的关系中的改变或漂移,即,所述预测模型中的漂移。因此,一种方法可以包括:确定针对所述预测模型的新输入数据与由所述预测模型处理的先前输入数据之间的差异;确定是否基于所确定的所述新输入数据与所述先前输入数据之间的差异来修改所述预测模型;并且响应于确定要修改所述预测模型而执行任何先前描述的方法。这可以通过在不存在所述输入数据中的漂移的情况下防止或避免所述预测模型的准确度的不必要的评估来降低所述处理能力。
所述输入数据中的改变或漂移的检测是复杂的任务,特别地如果所述输入数据由文本数据或本体(例如,知识图)形成。还认识到,存在检测输入数据中的改变的额外益处,例如,以使得用户能够识别输入数据的趋势中的改变以用于改进研究方向或理解历史趋势的目的。因此,期望提供一种确定输入数据的改变或者漂移的准确方法。确定输入数据的改变或漂移的第一步骤是确定或识别输入数据的两个实例之间的概念的改变或转换。
因此,需要检测文本输入数据内的概念漂移,其是计算复杂的任务。已知文本输入数据可以被处理以识别在文本输入数据内描述或包括的主题。
提出了一种通过利用“注意力流模型”的新概念表征文本输入数据内的概念漂移的方法。所述注意力流模型指示对多个话题的注意力如何随时间改变和文本输入数据的不同实例。
因此,提出了生成第一文本输入数据与第二不同文本输入数据之间的一组预定主题内的注意力流的多个量度的概念。
所述方法包括:获得多个主题向量,每个主题向量数字地表示预定主题或概念,使得一组预定主题由所述多个主题向量表示;测量每个主题向量与每个其他主题向量之间的相似度从而提供多个相似度量度;获得第一文本输入数据和第二不同文本输入数据;获得第一组权重,每个权重指示所述第一文本输入数据内的该组预定主题的相应主题的加权;获得第二组权重,每个权重指示所述第二文本输入数据内的该组预定主题的相应主题的加权,其中,第一和第二组中的权重的数目与预定主题的数目是相同或者同样的;确定多个注意力流量度,每个注意力流量度表示从所述第一文本输入数据内的相应预定主题到所述第二文本输入数据内的相应预定主题的注意力流,其中,所述确定基于与所述相应预定主题相关联的相似度量度和与所述第一文本输入数据内的相应预定主题相关联的第一组权重的权重和与所述第二文本输入数据内的相应预定主题相关联的第二组权重的权重。
测量每个主题向量之间的相似度的步骤可以包括确定每个主题向量之间的余弦相似度。
确定多个注意力流量度的步骤可以包括处理相似度量度,第一组权重和第二组权重使用线性优化算法。
本发明的这些和其他方面将根据在下文中所描述的(一个或多个)实施例而显而易见并且参考在下文中所描述的(一个或多个)实施例得到阐述。
附图说明
为了更好地理解本发明并且更清楚地示出其可以如何实现,现在将仅通过范例对附图进行参考,其中:
图1是图示根据实施例的修改预测模型的方法的框图;
图2是图示使用训练数据生成统计分析结果的方法的框图;
图3是图示根据另一实施例的修改预测模型的方法的框图;
图4图示了用于使用在归类预测模型的不准确度中的差异的不同模式;
图5至图7图示了基于预测模型的不准确度的类别来修改预测模型的不同方法;
图8是图示根据另一实施例的修改预测模型的方法的框图;
图9图示了用于通过利用注意力流模型表征文本输入数据内的概念漂移的方法;并且
图10是图示根据实施例的用于修改预测模型的系统的框图。
具体实施方式
将参考附图来描述本发明的实施例。
应该理解,详细描述和特定范例在指示装置、系统和方法的示范性实施例时旨在仅出于图示的目的并且不旨在限制本发明的范围。本发明的装置、系统和方法的这些和其他特征、方面和优点将从以下描述、权利要求书和附图变得更好理解。应当理解,附图仅仅是示意性的而未按比例绘制。还应当理解,相同附图标记贯穿附图被用于指示相同或者相似的部分。
根据本发明的构思,提出了一种用于修改预测模型的方法和系统。特别地,预测模型的(不)准确度被归类为至少三个类别之一。根据(不)准确度的类别对预测模型做出不同的修改。在特定范例中,(不)准确度类别定义什么训练数据被用于修改预测模型。
实施例至少部分地基于预测模型的准确度可以以不同方法或方式改变的认识。因此,通过基于预测模型的(不)准确度的类别修改预测模型,可以存在改进的效率。
说明性实施例可以例如采用在患者风险预测系统中以确保患者的风险被准确地计算。
通过基于预测模型的不准确度的分类来修改预测模型,可以获得更准确的预测模型。这导致回答数据的更准确的预测。
因此,在其中预测模型在医院转移期间预测患者的健康的风险(“医院转移风险”)的情形中,根据提出的概念修改预测模型能够导致医院转移风险的更准确的识别。由于医院转移风险的更准确的预测,因此这能够导致更高效的医院资源计划。
另一可能情形是其中预测模型被用于监测用户偏好基于其社交网络活动来监测以基于检测到的偏好来建议内容(即,回答数据是建议的内容)。通过采用本文所提出的概念,内容建议将是更高效的,从而导致更好的广告点击率。
在其中预测模型可以被用于实现的其他情形对于技术人员而言将是容易地明显的。
如本文所使用的,术语“预测模型”指代被应用于输入数据以便基于输入数据来预测对预定问题的回答的过程或者算法。因此,预测模型对输入数据执行指定任务以生成预测回答数据。
仅通过范例,输入数据可以包括对象的医学图像,并且预测模型可以被调谐以确定医学图像是否包含任何肿瘤-即,预测模型回答医学图像是否包含肿瘤的问题。
图1是图示根据实施例的修改预测模型2的方法1的框图。
方法1包括获得基准数据4的步骤11。基准数据4包含范例输入数据4a(针对预测模型)及与范例输入数据4a相关联的实际回答数据4b。因此,实际回答数据4b表示预测模型2旨在回答的问题的正确或实际回答。实际回答数据4b可以以其他方式被称为“真值数据”。
方法1还包括使用预测模型2处理基准数据4的范例输入数据4a以生成预测回答数据5的步骤12。因此,预测模型试图基于输入数据来回答预定问题。
基准数据4可以包括各自与相应范例输入数据条目和实际回答数据条目相关联的多个不同数据条目。步骤12可以包括生成针对每个范例输入数据条目的相应预测回答数据。基准数据4优选地对应于针对特定时间段(例如,一小时、一天、一周、一月或一年)的范例输入和实际回答数据。
方法1然后包括将预测回答数据5与实际回答数据4b比较以确定实际回答数据与预测回答数据之间的差异6的步骤13。差异6优选地是表示预测模型相对于基准数据4的准确度或不准确度的单个值。
步骤13可以包括例如对包含在预测回答数据和实际回答数据中的对应值执行均方差根计算。另一可能方法是计算指示实际回答数据与预测回答数据之间的对应性的曲线下面积(AUC)值。如将由技术人员公知的,AUC值基本上是受试者工作特征曲线(ROC)上的积分,其表示不同工作点的预测的灵敏度和特异性。
因此,步骤13可以包括确定预测模型的不准确度量度-不准确度量度指示预测回答数据与实际回答数据相比较多么不准确(即,预测模型多么正确地回答预定问题)。
换句话说,步骤13包括评价机器学习模型的性能,从而测量预测模型的不准确度。该度量可以使用任何已知学习分类度量获得,诸如准确度、精确度、召回率、ROC(受试者工作特征)曲线和AUC(曲线下面积)。使用对偏斜度不敏感的度量将是优选的,诸如AUC。
前述步骤11、12、13可以被认为是一起形成差异确定步骤。
方法1然后包括基于差异6将预测模型的不准确度归类为至少三个不同类别之一的步骤14。特别地,步骤14可以包括表征差异6从而确定或者归类预测模型多么准确地预测回答数据。
方法1的步骤15然后基于预测模型2的不准确度的归类来修改预测模型2。换句话说,预测模型基于预测模型的不准确度的分类来修改或者适配。
步骤14可以确定例如预测模型是足够准确的(例如,不准确度量度低于预定值)。步骤14从而可以将预测模型分类为“准确的”。在这种情况下,步骤15可以包括不修改预测模型。
在另一范例中,步骤14可以确定预测模型是完全不准确的,例如,不准确度量度高于第二预定值。步骤14从而可以将预测模型分类为“非常不准确的”。在这种情况下,步骤15可以包括根据新训练数据(即,与被用于产生现有预测模型2的现有训练数据不同)重新建立预测模型。
在又一范例中,步骤14可以确定预测模型是稍微不准确的,例如,不准确度量度在第一预定值与第二预定值之间。步骤14从而可以将预测模型分类为“稍微不准确的”。在这种情况下,步骤14可以包括使用现有训练数据和新训练数据两者来细化现有预测模型。例如,步骤14可以包括将新训练数据附加到现有训练数据并且基于附加的训练数据来重新训练预测模型。新训练数据可以例如包括基准数据4。优选地,删除或者丢弃现有训练数据(例如,在大小方面等于新训练数据)的部分,该部分优选地是现有训练数据的最早获得部分。
以这种方式,对预测模型2做出的修改取决于预测模型的不准确度的分类。这意指可以提供反映改变的数据趋势的预测模型2的更适当的适配。
因此,在一个情形中,归类预测模型的不准确度的步骤14包括将差异归类为对应于三个类别之一。
步骤14可以例如通过使用最近邻域算法处理不准确度量度来执行(以与已知不准确度量度和其类别相比较)。因此,步骤14包括分类或者归类预测模型的不准确度。在其他优选实施例中,归类使用机器学习模型来执行,如稍后将解释的。在一些实施例中,归类基于预测模型的范例输出的统计分析输出来执行。
如先前所解释的,差异6优选地是预测模型相对于基准数据的准确度的数值或量度。在一个范例中,差异通过确定预测回答数据5的值与实际回答数据4b的对应值之间的均方根误差来计算。通过另一范例,差异6可以包括从0到1的范围内的准确度值A,这指示预测回答数据5多么接近地匹配实际回答数据4b。
上文所使用的第一和第二预定值可以由被用于生成预测模型的训练数据的统计分析生成,特别地,在预测模型的训练期间建立的一个或多个差异(或者使用被用于训练预测模型的训练数据),如下文将解释的。
图2图示了生成训练数据的适合的统计分析结果的方法。此后提供了如何训练预测模型的简要描述,以帮助将训练数据的统计分析置于上下文中理解。
经训练的预测模型2旨在建立一般输入数据与一般回答数据之间的关系,使得预测模型可以处理新输入数据并且准确地预测相关联的回答数据。这样做,训练数据25被提供以训练或者修改预测方法2。训练数据25包括由样本输入数据25a和对应的实际样本回答数据25b形成的多个条目25’。实际样本回答数据25b表示基于样本输入数据25a的对预定问题的回答。
在训练期间,一般预测模型被应用于每个样本输入数据以生成相应数目的预测样本回答数据(即,各自与相应实际样本回答数据相关联)。预测模型然后以降低每个预测样本回答数据与相关联的实际样本回答数据之间的总体/平均差异(例如,准确度值)为目标来修改。可以迭代地重复该过程(例如,预定次数或者直到差异低于预定值)。
经训练的预测模型2可以然后相对于训练数据再一次被处理,以生成经训练的预测模型2与训练数据25之间的多个差异28’。因此,差异确定过程20可以迭代地执行以生成预测回答数据(从将预测模型应用于训练数据)和实际回答数据(从训练数据获得的)之间的多个差异28’。
差异确定过程20包括获得训练数据25的条目25’的步骤21,该条目25’由样本输入数据25a和实际样本回答数据25b形成。在步骤22中,预测模型2’被应用于样本输入数据25a以生成预测样本回答数据27。在步骤23中,计算预测样本回答数据27与实际样本回答数据25b之间的差异28(例如,确定误差值)。在步骤24中,该差异被存储从而贡献于与预测模型和训练数据相关联的多个差异28’。差异确定过程20在训练数据的每个数据条目上重复,从而形成多个差异28’.
经训练的预测模型2(其可以随后被使用在新输入数据上)可以从而与多个差异28’相关联-表示实际样本回答数据的范例与预测样本回答数据之间的差异。
预测样本回答数据与实际样本回答数据之间的这些差异28’(即,与用于生成预测模型的训练数据相关联的)可以被用于评估预测模型2相对于(如在图1中使用的)基准数据的当前准确度。
特别地,与(被用于生成预测模型的)训练数据相关联的差异的统计分析结果被用于确定预测回答数据5与(基准数据4的)实际回答数据4b之间的差异多么无关,并且从而如何归类预测模型的不准确度。
因此,可以存在使用一个或多个统计分析方法处理与经训练的预测模型2相关联的差异28’以生成统计分析输出29a、29b的步骤26。这些统计分析输出29a、29b可以被使用在归类预测回答数据与(基准数据的)实际回答数据之间的差异的步骤14中。
例如,与训练数据25相关联的差异28’的均值(μ)29a和标准偏差(σ)29b可以被用于基于基准数据4来归类预测模型2的不准确度。
在一个范例中,如果差异6减去与训练数据相关联的差异的均值(μ)超过三个标准偏差(3σ),则预测模型被归类为经受“突然漂移”-即,预测的不准确度被分类为“由于突然漂移不准确的”。如果差异6减去与训练数据相关联的差异的均值(μ)在两个标准偏差(2σ)与三个标准偏差(3σ)之间,则预测模型被归类为经受“增量漂移”-即,预测的不准确度被分类为“由于增量漂移不准确的”。如果差异6减去与训练数据相关联的差异的均值(μ)小于(2σ),则预测模型的准确度被归类为是“准确的”-即,预测的不准确度被分类为是“不准确的”。
因此,上文讨论的第一预定值可以等于与训练数据相关联的差异的标准偏差(σ)的三倍,并且第二预定值可以等于与训练数据相关联的差异的标准偏差的两倍。
在步骤14中确定特定不准确度类别之后,步骤15基于所确定的类别来修改预测模型2。稍后将描述适合的修改方法。
图3是图示用于修改预测模型2的方法30的另一实施例的框图。
方法30与先前所描述的方法1不同之处在于,差异确定步骤11、12、13被迭代地重复以生成实际回答数据与对应的预测回答数据之间的多个差异。
换句话说,基准数据4的多个实例被处理以便确定不同的实际回答数据与预测回答数据之间的多个差异。
因此,差异确定步骤11、12、13可以包括额外步骤31:存储实际回答数据与对应的预测回答数据之间的所确定的差异,从而建立多个差异35。在存储差异之后,方法可以移动到步骤11:获得新基准数据4,并且重复实际回答数据与对应的预测回答数据之间的差异的确定。
多个差异35可以对应于预定时间窗口和/或包含最大数目的差异。例如,多个差异35可以具有30个差异的最大容量,其中,时间上最旧的差异被丢弃。备选地,多个差异35可以仅与在预定时间窗口(例如,前一小时、一天、一周或一月)中获得的基准数据4相关联。
方法30还包括识别多个差异35中的模式36的步骤32。例如,步骤32可以包括识别跨多个差异的趋势或者识别多个差异内的特征。
特别地,步骤32可以包括识别随时间的多个差异中的模式-即,在差异如何随时间改变中。这样的模式指示在差内发生的漂移的类型,并且可以指示针对预测模型的输入数据内的漂移。
通过范例,步骤32可以包括:使用基于神经网络的分类器来识别多个已知模式38中的任何是否存在于多个差异35中。
步骤14可以包括:基于多个差异35中的所识别的模式来归类预测模型的不准确度。即,所识别的模式可以定义预测模型的不准确度的类别。
例如,多个已知模式38中的每个可以与不同类别相关联。因此,步骤14可以包括确定哪个类别与所识别的模式36相关联(其中,所识别的模式是已知模式38之一)。
与不同类别相关联的多个差异35的(已知)模式38的范例将此后参考图4描述,图4图示了多个差异中的不同的可能的已知模式41-45。
在图4中,每个差异被建模为单个值(例如,准确度/不准确度量度)并且多个差异随时间或者顺序地绘制(即,差异以获得其对应的基准数据的次序来描绘)。
第一模式41示出了随时间的差异的值中的突然或阶跃改变41a,其中,存在随时间的差异中的突然下降。这样的模式指示预测模型的准确度中的“突然漂移”,其可以指示输入数据与实际回答数据之间的关系中的“突然漂移”或突然改变。例如,突然漂移可以在一些事物已经在到来的基准数据中显著改变并且该改变持续一段时间时发生。
第二模式42示出了随时间的差异的值中的逐渐改变42a,使得差异的值随时间逐渐地但是稳定地减小。这样的模式指示存在预测模型的准确度中的“增量漂移”,这指示存在输入数据与基准数据的实际回答数据之间的关系中的增量改变。例如,患者的年龄、室外温度、或当地人口的大小可以在人口健康管理方案中逐渐地改变。
第三模式43图示了随时间的差异的值中的逐渐或犹豫移动43a,使得差异的值在随时间从第一值移动到第二值时扫描残迹。这样的模式指示预测模型的准确度中的“逐渐漂移”。
第四模式44图示了随时间的差异的值中的再发生或周期性改变44a,使得差异的值周期性地改变。这样的模式指示存在预测模型的准确度中的“周期性移动”。这样的周期性移动可以例如表示在一天、一月或一年的过程(例如,季节的变化)内的预测模型的准确度的改变。通过范例,群体水平的呼吸道感染的流行可以具有增加在一年的寒冷部分期间的GP访问的数目的季节性波动。
第五模式35图示了差异的值中的边远改变35a。换句话说,在差异数据内存在异常值。这样的模式指示预测工作是大体准确的。
因此,通过使用多个差异内的模式识别,预测模型的不准确度的类别可以更准确地识别,并且边远值可以有利地忽略以避免对预测模型的不必要的修改。
其他可能模式对于技术人员将是显而易见的。将清楚的是,每个模式可以从而对应于用于表征预测模型的不准确度的不同类别。
图5至图7图示了用于基于预测模型的不准确度的归类来修改预测模型的不同方法。因此,不同的方法被用于基于所识别的类别来修改预测模型。
所图示的修改预测模型的方法共享相同下层概念,潜在,预测模型使用经修改的(或新的)训练数据重新训练。所图示的方法不同之处在于,被用于修改预测模型的训练数据针对每个类别不同。
图5图示了当预测模型被归类为经受“突然漂移”时修改预测模型的方法,即,在存在预测回答数据与实际回答数据之间的差异的幅度的(预测的)突然/阶跃改变的情况下。
特别地,在步骤15中,(用于生成初始预测模型2的)现有训练数据25被丢弃并且新训练数据52被使用,以修改预测模型以生成经修改的预测模型2’。换句话说,预测模型使用新训练数据52重新训练,即,不包含用于生成现有预测模型2的现有训练数据25。可以使用任何适合的训练方法,诸如先前所描述的那些训练方法。
这是因为突然漂移指示现有训练数据不再准确地反映输入数据与回答数据之间的关系,并且因此是不可靠的。因此,新训练数据25应当被用于校正预测模型2’。
新训练数据52可以例如通过存储基准数据4获得。因此,新训练数据52可以包含各自包括不同基准数据4的数据条目。
图6图示了在预测模型被归类为经受“增量漂移”时修改预测模型的方法,即,在存在预测回答数据与实际回答数据之间的差异的幅度的(预测的)逐渐改变的情况下。
当增量漂移被识别时,现有训练数据25的一部分组合新训练数据4被用于修改预测模型2。因此,现有训练数据和新训练数据的混合物61被用于修改预测模型。特别地,现有训练数据25的最旧条目(即,时间最早)可以被丢弃并且由被用于生成差异6的基准数据替换(如参考图1或2所解释的)。
步骤15包括:基于混合训练数据61来修改预测模型2以生成经修改的预测模型2’。这可以使用任何先前所描述的方法执行。
修改预测模型的过程可以在每次新基准数据可用时重复。因此,经修改的预测模型2’还可以在步骤15中使用新混合训练数据62来修改,以生成进一步修改的预测模型2”。因此,混合训练数据61被认为是后续迭代中的现有训练数据。
以这种方式,修改所述预测模型包括将新训练数据附加到现有训练数据,并且基于附加的训练数据来重新建立新预测模型。优选地,修改还包括:丢弃现有训练数据的时间上最早的部分,优选地,其中,所丢弃的时间上最早的部分的大小与被附加到现有训练数据的新训练数据具有相同的大小。
图7图示了当预测模型被归类为经受“周期性漂移”时修改预测模型的方法。
滑动窗口71被用于例如根据先前所描述的方法来修改被用于修改预测模型的训练数据。滑动窗口能够从现有训练数据(即,被用于生成原始预测模型)或新训练数据(例如,由不同的基准数据4范例形成的)选择数据条目。
滑动窗口71在从现有训练数据25和新训练数据52选择条目之间来回移动。以这种方式,被用于进一步训练预测模型的训练数据从使用现有训练数据周期性地移动到使用新训练数据,并且再次返回。
移动的周期性优选地对应于漂移的周期性。修改预测模型可以因此包括:确定(基准数据的)实际回答数据与对应的预测回答数据之间的差异交替的速度,例如,图4中的周期性改变44a的周期,来确定移动滑动窗口的速度。
以这种方式,修改预测模型的步骤可以包括:基于(对应于基准数据的)差异中所识别的周期性模式的周期性来选择(从基准数据获得的)现有训练数据和新训练数据的一部分。
因此,修改预测模型的步骤包括:将新训练数据布置在现有训练数据内从而提供在现有训练数据与新训练数据之间周期性地切换的集成训练数据,并且基于集成训练数据来重新建立新预测模型。
图8图示了根据本发明的实施例的方法80,其采用先前所描述的修改预测模型的任何方法。特别地,方法80包括:确定(要由预测模型处理的)新输入数据88和现有训练数据25之间的相似度89的步骤81。这可以包括例如在关于现有训练数据25的输入数据的新输入数据88上执行统计分析测试,诸如Z测试或t测试。
方法80还包括:基于相似度89来确定是否要修改预测模型的步骤82。例如,这可以包括:确定相似度值(诸如,Z评分)是否高于或者低于预定阈值-诸如现有训练数据25的输入数据的标准偏差的两倍(2σ)或者三倍(3σ)。
响应于确定要修改预测模型,任何先前所描述的预测模型修改方法1、30可以发生。否则,方法80恢复到确定(另外的)新输入数据88之间的相似度89的步骤81。
在一些范例中,新输入数据88可以由新基准数据替换。步骤81可以包括:确定基准数据的输入数据与训练数据25的输入数据之间的相似度和/或基准测试的已知回答数据与训练数据的已知回答数据之间的相似度。该一个或多个相似度可以在步骤89中用于确定是否要执行修改预测模型的方法(如先前所描述的)。
使用对新输入数据(或者新基准数据)的分析来确定是否要修改预测模型避免了修改预测模型的步骤的不必要的执行-从而降低了处理能力和能量。
上文所提出的方法可以采用在许多应用中,其中,回答数据的准确预测是期望或要求的。
通过范例,针对预测模型的使用的一个领域是再入院或送入医院的风险的预测。通常,这样的评估在出院时执行或者作为家庭医疗保健或监测服务的一部分执行。例如,风险(预测回答数据)的预测可以基于患者的历史医学数据和/或监测信息(输入数据)。数据监测信息可以例如从用于监测患者/对象(例如,经由日常电话呼叫)的呼叫中心获得,并且通常包含关于患者/对象是否已经需要或要求辅助的信息。
在一个范例中,风险预测基于时间t处的患者/对象的当前健康状态sd(t),以及在其中对象/患者已经要求辅助或临床注意力的事件/场合的历史序列sck)。
当前健康状态通常包括对象/患者的年龄、性别和自己报告的健康状况。其还可以包含来自由临床主体(诸如护理组织或医院)维护的电子病历(EMR)的关于对象/患者的数据。
事件的历史序列可以包含例如入院、与护理提供者的联系和自动或手动跟踪的健康相关事件。事件的序列由时间τk处的情况sck)的集合表示。通过Ct={sck)},k=0,..,K-1指代时间t处的K个历史事件的集合是可能的。
在时间t处的风险(ps)可以计算如下:
ps(t)=CM(sd(t),Ct),, (1)
其基于预测模型CM。预测模型CM可以是例如逻辑回归算法或深度神经网络。
本发明可以用作用于收集/存储健康信息sd(t)的方法或软件或事件信息(即,改变事件/场合sck)的序列)可以改变或更新,从而导致预测模型中的漂移。
例如,获得监测信息的方式的改变将导致输入数据与实际回答数据之间的关系的突然漂移。这是因为监测信息可以针对每个已知对象/患者定期更新(例如,由于针对每个对象/患者的日常电话呼叫),使得输入数据的性质突然改变-导致输入数据与实际回答数据之间的关系的改变。
在另一范例中,可以存在每个用户的个人健康数据如何被存储在系统中的方式的改变。这样的信息通常仅在新事件或者医院访问发生的情况下被更新。因此,在群体的水平处,存在增量漂移-并非所有对象/患者将同时具有事件和/或医院访问。以这种方式,仅存在输入数据与实际回答数据之间的关系的缓慢漂移或改变。
因此,将清楚的是,存在可能发生的不同类型的漂移。因此,这些不同类型的漂移可能影响预测模型的准确度。本发明的使用使得这样的改变和这样的改变的表征能够自动检测并且针对模型重新校准以改进预测的准确度。
所提出的本发明不需要仅限于对数值数据起作用的经典预测模型,而且可以应用于其他领域或用于数据类型,诸如图像或自然语言文本。例如,随着深度学习的进步,图像分析(诸如语义分割或者分类)的自动方法正在被采用用于使用在临床决策支持系统中。通常,预测模型在标记的(即,范例实际回答数据)图像数据集(即,范例输入数据)上训练,例如MRI或CT扫描或数字病理学图像。在语义分割的情况下,标签表示感兴趣物体的轮廓或形状(“掩模”),诸如肿瘤或细胞核。预测模型被训练为预测针对给定图像的掩模,即,以检测肿瘤是否存在,并且如果这样的话,则确定其形状(即,预测预定问题的答案:“肿瘤存在吗?如果这样的话,它是什么形状?”)。
模型通常在特定解剖结构和肿瘤类型上训练,因为正确地一般化到其他解剖结构/肿瘤类型的能力是有限的。然而,即使模型被训练为检测脑中的肿瘤,其将仍然试图识别其被给出作为输入的任何图像中的肿瘤。因此,如果关于纤维化的肝扫描将被呈现给这样的预测模型,则其将预测一些事物,但是该预测的准确度将显著地降低(即,与脑扫描相比较)。
为了确保模型预测是有意义的,期望监测传入输入(图像)数据的性质、标记当该输入(图像)数据与训练数据显著不同时的情况,并且最终,选择针对输入图像数据的适当的模型适配策略。
本发明中所描述的策略也可以应用于这样的图像分析情况。当实际回答数据(例如,真值数据标签)是可用的时,监测预测模型的准确度和标记显著偏差是可能的。如先前所解释的,要么使用训练数据的统计性质要么实施基于深度神经网络的异常检测系统是可能的。
例如,神经网络可以学习训练数据的表示(编码),并且使用它来检测与训练数据显著不同的输入数据。基于神经网络的无监督的异常检测系统还可以提供关于漂移的严重性(或漂移类型)的信息,并且该信息可以被用于引导模型适配。取决于漂移严重性,要么从头开始重新训练要么部分训练(“微调”)可以被要求用于预测模型。因此,可以采用根据先前所描述的实施例的方法。
类似于图像数据,本发明中所描述的概念漂移检测和适配策略也可以应用在自然语言文本分析领域中。
医学笔记可以包含各种术语细微差别、缩写和其他不确定性。为了确保预测模型在其看到来自不同医生、诊所和疾病的数据时仍然给定准确预测,监测预测值的传入数据性质和分布并且将预测模型适配到新数据。因此,为了处理传入数据中的漂移,可以使用无监督的基于神经网络的异常检测方法(如先前所描述的)。此外,取决于漂移的严重性和类型,可以选择不同的模型适配策略。
先前已经描述传入/输入数据的(概念)漂移可以如何引起预测模型的准确度的漂移或改变,因为预测模型将不能够在输入数据与正确回答数据之间有效地映射。因此,存在准确识别输入数据的漂移的期望,其可以被用于控制预测模型是否需要被修改。
然而,输入数据中的漂移的检测是复杂任务,尤其是如果输入数据包括文本数据。确定输入数据的改变或漂移中的第一步骤是确定或识别文本输入数据的两个实例之间的概念的改变或转换。
提出了一种通过利用“注意力流模型”的新概念表征文本输入数据内的概念漂移的方法。注意力流模型指示对多个话题的注意力如何随时间改变和文本输入数据的不同实例。
图9图示了根据本发明的实施例的方法900。
方法900包括步骤901:获得多个主题向量,每个主题向量数字地表示预定主题或概念,使得一组预定主题由多个主题向量表示。
方法900还包括步骤902:测量每个主题向量与每个其他主题向量之间的相似度从而提供多个相似度量度。
方法900还包括步骤903:获得第一文本输入数据和第二不同文本输入数据。
方法900还包括:获得第一组权重(每个权重指示第一文本输入数据内的一组预定主题的相应主题的加权)的步骤904a,以及获得第二组权重(每个权重指示第二文本输入数据内的一组预定主题的相应主题的加权)的步骤904。第一和第二组中的权重的数目是与预定主题的数目相同或同样的。
方法900还包括:确定多个注意力流量度的步骤905,每个注意力流量度表示从第一文本输入数据内的相应预定主题到第二文本输入数据内的相应预定主题的注意力流。确定基于与相应预定主题相关联的相似度量度和与第一文本输入数据内的相应预定主题相关联的第一组权重的权重和与第二文本输入数据内的相应预定主题相关联的第二组权重的权重。
此后描述了方法900的特定工作范例,但是技术人员将容易能够适当地适配所描述的概念。
在范例中,(在步骤903中获得的)第一和第二文本输入数据中的每个可以各自包括与相应时间点或时间段相关联的文本文档的语料库。例如,第一文本输入数据可以包括在第一月中公开的文本文档的语料库,并且第二文本输入数据可以包括在第二不同月(例如,紧接地在第一月之后的月)中公开的文本文档的语料库。
文本文档的每个时间戳记的语料库可以被获得并且预处理,例如通过文档预处理器。预处理至少包括提取文本文档的元数据的步骤,并且还可以包括以下中的一个或多个步骤:删除停止字;词干化,提供词形还原;以及提供令牌化。(文档预处理器的)输出是连同对应的元数据一起的经处理的文本语料库。预处理可以形成获得第一和第二文本输入数据的步骤903的一部分。
在一个范例中,预处理包括处理使用由spacy 2中的Matthew Honnibal和InesMontani提出的spaCy管线处理文本文档的语料库:关于布鲁姆嵌入、卷积神经网络和增量分析的自然语言理解。spaCy管线提供标准化、令牌化、成分分析、部分语音标记、电子邮件和网址过滤。
预处理还可以包括使用Arc-Eager依存分析,诸如由Yoav Goldberg和JoakimNivre在“Adynamic oracle for arc-eager dependency parsing”(Proceedings ofCOLING 2012、第959-976页(2012年))中建议的Arc-Eage依存分析。该过程将名词短语合并为单个令牌(例如,“大熊星座”)。
预处理步骤可以通过建立词典编码多个文档,其中,键是令牌并且值是整数数值识别符,其中,每个文档被表示为令牌识别符的序列。
(预处理的)第一和第二文本输入然后在步骤904a和904b中被处理以确定针对每个文本输入的一组权重,每个权重指示文本输入内的(由主题向量表示的)相应主题的相对量度。
该步骤可以使用任何主题提取器方法执行,其能够确定文本输入数据内的预定主题的相对权重。主题可以由主题向量表示,使得可以存在各自表示预定主题(例如,要在步骤910中获得的)的多个主题向量。
为了建立预定主题,第一和第二文本输入数据可以利用能够输出一组主题的主题提取器方法一起处理。这可以定义多个预定主题,例如,在步骤901中。
适合的主题提取器方法的一个范例是由Christopher Moody在“Mixingdirichlet topic models and word embeddings to make lda2vec”(Eprint arXiv:1605.02019(2016))中的所描述的lda2vec方法。该方法结合word2vec和主题模型的想法,特别地潜在狄利克雷分布并且被设计用于同时字和文档可解释的建模。
lda2vec算法基于主题驱动的建模假设,并且引入三个参数:词向量、主题向量和文档主题分布向量。词向量是表示文档的词的向量,使得两个词向量的余弦指示两个词之间的相似度。主题向量是表示主题的向量,使得两个主题向量的余弦指示两个主题之间的相似度。文档主题分布向量指示特定文档内的(与主题向量相关联的)预定的一组主题中的每一个的加权或权重向量。
将意识到,词汇表中的每个词/条目(即,表示文档或文本输入的任何可能词)具有对应的词向量。
lda2vec算法适于将主题分布向量分配给每个文本输入(例如,文档),并且具有t个分量或权重向量(其中,t是主题的数目)并且指示哪些主题在所述文档中讨论。因此,存在t个主题向量。
为了计算词向量、主题向量和主题分布,LDA2Vec用公式表示“预测上下文假设”。应断言,针对文档中的任何词,其对应的词向量应当类似于(具有高余弦相似度)表示先前词的词向量和文档向量的和(是针对文档中讨论的主题的主题向量的加权和)。共同地,该和被称为上下文向量。随机梯度下降然后被用于计算最佳词向量、主题向量和文档-主题分布,但是可以可交换地应用任何其他优化方法。
作为结果,当第一和第二文本输入使用lda2vec方法处理时,存在(针对每个文本输入“i”)被编码为一组权重或权重向量“wi”的有限主题组上的离散主题分布。权重向量“wi”的每个分量“wt,i”从而表示文本输入i内的主题“t”的普及。
本发明提出确定第一文本输入和第二文本输入(的主题)之间的注意力流的量度。换句话说,存在确定如何聚焦于第一文本输入与第二文本输入之间的特定主题改变的期望。
此后,第一文本输入可以由参数“i”提及,并且第二文本输入可以由参数“i+1”提及。这可以指示第一文本输入与第二文本输入之间的时间差。
注意力流表示(与权重ws,i相关联的)第一文本输入i的源主题s和(与权重wt,i+1相关联的)第二文本输入i+1的目标主题t之间的注意力的流。
注意力流可以被建模为非负参数ws,t,i。注意力流是非负的,因为其对于负注意力流发生是概念上不可能的。发明人已经认识到,在概念上更可能的是,注意力更可能在相似主题而不是不同主题之间流动。
主题之间的相似度可以使用余弦相似度计算如下:
相似度=cos(Rs,Rt) (2)
其中,Rs是与“源”主题s相关联的主题向量,并且Rt是与“目标”主题t相关联的主题向量。给定主题与自己的余弦相似度cos(Rs;Rs)=1,因此注意力更可能保持在相同主题上而不是移动。设想测量两个主题(或主题向量)之间的相似度的其他方法。
我们使用该假设来定义以下等式:
类比电流(表示ωs,t,i),cos(Rs,Rt)的倒数有效地表示某个转换(即,注意力流)的“电阻”,并且表示其“电压”。在另一类比中,cos(Rs,Rt)是从主题s到主题t的注意力流的潜力,并且/>表示该潜力被使用多少。“源”主题s与第一文本输入相关联,其中,目标主题s与第二文本输入相关联。
还可能的是,假设一些主题可以仅一些主题可以合并“突然冒出来”,而其他主题可以在没有对一个或若干不同主题的任何移动的情况下自然“死亡”。这些假设分别由出生转换表示:
和死亡转换:
其中,β和δ是定义自发出生和死亡是多么可能的超参数。将其设定为0意指注意力可以仅从一个主题移动到另一个主题,但是绝不逃离循环。将其设定为1或更多意指时间i+1处的主题分布独立于时间i处的主题分布。
使用这些定义等式,可能的是,创建注意力流模型如下:
假设注意力遵循最小阻力路径。因此,注意力流模型可以使用线性编程(或任何其他凸优化或参数最小化方法)处理以找到产生目标函数的最小值的变量的值:
在注意力流模型的约束内(在(6)中阐述的)。该过程使得我们能够在第一文本输入中的每个主题与第二文本输入中的每个主题之间计算注意力流的量度ws,i
线性编程的使用有效地执行方法900的步骤902和905,因为相似度量度在线性优化程序的执行期间计算(当由注意力流模型约束时)。
出生和死亡转换是任选的,并且可以从注意力流模型省略,但是这将提供主题之间的注意力的改变的较少代表性或现实解释。
尽管实施例已经仅参考第一和第二文本输入描述,但是实施例可以扩展为确定第二文本输入与第三文本输入之间的进一步的注意力流并且任选地确定第三文本输入与第四文本输入之间的更进一步的注意力流(等等)。因此,方法可以扩展以确定第N个文本输入与第(N+1)个文本输入之间的注意力流。换句话说,给定可以生成针对i个输入文本输入的适当的加权向量或主题分布w1…wi,那么可以做出任何数目的注意力流计算。
注意力流模型还允许未来主题趋势和注意力流的预测。特别地,给定主题分布(加权向量)w1…wi,估计针对假设文本输入的下一主题分布wi+1可能是什么。以这种方式,可以预测哪些主题可能在未来更重地加权。
根据(6)中所示的注意力流模型,可能的是,重新调用:
wt,i+1=bt,i+∑sωs,t,i (8)
因此,人们可以通过预测和/>预测未来加权向量/>如果我们将注意力流模型应用于已知主题分布w1…wi并且使函数(7)最小化,我们获得注意力流值/>和自发出生值/>(针对/>)。
预测模型可以基于该值具有惯性并且从时刻i到时刻i+1不显著地改变太多的假定。为了使该假定公式化,我们使用指数移动平均(ema),其递归地定义为:
其中,θ是指示其记忆多么长期的预测模型的超参数。
迭代地应用这些模式(9),直到i=0向我们给定针对注意力流的朴素预测和时刻i+1处的自发出生,其中,并且/>
然而,朴素预测不考虑在我们试图预测的时刻之前的时刻处的主题的分布并且可能因此违反流出约束ds,i=wt,i-∑tws,t,i≥0(即,其可以不期望地预测比主题实际上具有的更多的注意力流动远离主题)。
被标记“调节的平均注意力流”的经修改的版本可以用于避免该问题。
在该模型中,预测注意力流表示考虑自时刻i=1起的所有活动的长期记忆。ωs,i表示仅包括最后迭代的短期记忆。
由于注意力流ωs,t,1…ωs,t,i-1来自约束优化,因此其满足流出约束wt,i-∑tws,t,i。因此:
/>
因此,可以确认(一个或多个)预测注意力流也满足流出约束。
图10图示了适于修改预测模型2的系统100。如前所述,预测模型基于现有训练数据来生成并且适于处理输入数据以生成指示涉及输入数据的预定问题的预测回答的预测回答数据。
系统100包括适于执行差异确定步骤的差异确定模块91。该步骤通过差异确定模块101执行:接收基准数据4,该基准数据包括范例输入数据和指示涉及对应的范例输入数据的预定问题的实际或已知回答的对应的实际回答数据;使用预测模型2来处理范例输入数据以基于范例输入数据来生成指示预定问题的预测回答的预测回答数据;并且确定实际回答数据与预测回答数据之间的差异。
系统100还包括归类单元102,归类单元102适于至少基于实际回答数据与预测回答数据之间的差异将预测模型的不准确度归类为至少三个类别之一。
系统100还包括修改单元103,修改单元103适于基于预测模型的不准确度的类别来修改预测模型2,从而生成经修改的预测模型2’。
在一些实施例中,差异确定模块101适于迭代地重复差异确定步骤从而生成实际回答数据与对应的预测回答数据之间的多个差异。因此,归类单元102可以适于通过识别多个差异中的模式并且基于多个差异中的所识别的模式来归类不准确度,归类预测模型的不准确度。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上有用于使处理器执行本发明的各个方面的计算机可读程序指令。因此,计算机可读存储介质可以是可以保持并且存储用于由指令执行设备(诸如控制器、处理器或处理系统)使用以执行根据本发明的方法的指令的有形设备。因此,所公开的方法可以是计算机实施的方法。
在本文中参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。流程图和/或框图中的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令实施。
附图中的流程图和框图图示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实施方式的体系架构、功能和操作。流程图或框图中的每个框可以表示模块、分段或指令的一部分,包括用于实施(一个或多个)逻辑功能的一个或多个可执行指令。
在一些备选实施方式中,框中指出的功能可以脱离附图中指出的次序。例如,两个连续的方框实际上可以基本并行地执行,或者它们有时可以按相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合可以由执行指定功能或动作的专用的基于硬件的系统来实施,或者可以执行专用硬件与计算机指令的组合。
通过研究附图、说明书和随附的权利要求书,本领域的技术人员在实践请求保护的本发明时可以理解和对实现所公开的实施例的变型。在权利要求中,词语“包括”不排除其他元件或者步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以履行权利要求中记载的若干项的功能。尽管在互不相同的从属权利要求中记载了特定措施,但是这并不指示不能有利地使用这些措施的组合。计算机程序可以存储/分布在适合的介质上,诸如与其他硬件一起或作为其他硬件的部分提供的光学存储介质或固态介质,但是计算机程序也可以以其他形式分布,诸如经由因特网或其他有线或无线电信系统分布。权利要求中的任何附图标记不应被解释为对范围的限制。

Claims (13)

1.一种修改预测模型的计算机实施的方法,其中,所述预测模型是基于现有训练数据来生成的并且适于处理输入数据以生成指示对涉及所述输入数据的预定问题的预测回答的预测回答数据,其中,所述方法包括:
执行差异确定步骤,所述差异确定步骤包括:
接收基准数据,所述基准数据包括范例输入数据和指示对涉及对应的范例输入数据的所述预定问题的实际或已知回答的对应的实际回答数据;
使用所述预测模型来处理所述范例输入数据以基于所述范例输入数据来生成指示对所述预定问题的预测回答的预测回答数据;并且
确定所述实际回答数据与所述预测回答数据之间的差异,
至少基于所述实际回答数据与所述预测回答数据之间的所述差异将所述预测模型的不准确度归类为至少三个类别中的一个;并且
基于所述预测模型的不准确度的所述类别来修改所述预测模型,其中:
所述差异确定步骤被迭代地重复以生成实际回答数据与对应的预测回答数据之间的多个差异;并且
将所述预测模型的所述不准确度进行归类的步骤包括:
识别所述多个差异中的模式,包括:识别是否存在所述差异中的阶跃改变并且识别是否存在所述差异中的逐渐改变,其中,每个模式对应于用于表征所述预测模型的所述不准确度的不同类别;并且
基于所识别的所述多个差异中的模式将所述预测模型的所述不准确度归类为所述至少三个类别中的一个,其中,所述不准确度在存在所述差异中的阶跃改变的情况下被归类为突然漂移并且在存在所述差异中的逐渐改变的情况下被归类为逐渐漂移。
2.根据权利要求1所述的计算机实施的方法,其中,响应于将所述不准确度归类为突然漂移,修改所述预测模型的步骤包括基于针对所述预测模型的新训练数据来重新建立新预测模型。
3.根据权利要求1或2所述的计算机实施的方法,其中,确定是否存在所述差异中随时间的阶跃改变包括确定时间窗口期间的所述差异的标准偏差是否大于第一预定值。
4.根据权利要求1或2所述的计算机实施的方法,其中,响应于将所述不准确度归类为逐渐漂移,修改所述预测模型的步骤包括:将新训练数据附加到现有训练数据,并且基于所附加的训练数据来重新建立新预测模型。
5.根据权利要求4所述的计算机实施的方法,其中,修改所述预测模型的步骤还包括丢弃所述现有训练数据的时间上最早的部分。
6.根据权利要求5所述的计算机实施的方法,其中,所丢弃的时间上最早的部分的大小与被附加到所述现有训练数据的所述新训练数据具有相同大小。
7.根据权利要求1或2所述的计算机实施的方法,其中,确定是否存在所述差异中的逐渐改变包括确定时间窗口期间的所述差异的标准偏差是否在第二预定值与第三预定值之间。
8.根据权利要求1或2所述的计算机实施的方法,其中,
识别所述多个差异中的模式的步骤包括确定是否存在所述差异中的周期性改变;
响应于确定存在所述差异中的周期性改变,将所述不准确度进行归类的步骤包括将所述不准确度归类为周期性漂移。
9.根据权利要求8所述的计算机实施的方法,其中,响应于将所述不准确度归类为周期性漂移,修改所述预测模型的步骤包括:获得新训练数据并且通过迭代地执行以下操作来迭代地修改所述预测模型:
获得由所述现有训练数据的部分和所述新训练数据的部分形成的集成训练数据;
基于所述集成训练数据来修改所述预测模型,
其中,针对修改所述预测模型的每次迭代来修改所述集成训练数据中的所述新训练数据的所述部分的大小和所述现有训练数据的所述部分的大小。
10.一种修改预测模型的计算机实施的方法,其中,所述预测模型适于处理输入数据以基于所述输入数据来生成指示对预定问题的预测回答的预测回答数据,所述方法包括:
确定针对所述预测模型的新输入数据与被用于训练所述预测模型的现有训练数据之间的相似度;
基于所确定的所述新输入数据与所述现有训练数据之间的相似度来确定是否修改所述预测模型;并且
响应于确定修改所述预测模型而执行根据权利要求1至9中的任一项所述的方法。
11.根据权利要求10所述的计算机实施的方法,其中,确定新输入数据与现有训练数据之间的相似度的步骤包括确定所述新输入数据与所述现有训练数据的统计分布之间的相似度。
12.一种存储有计算机程序的计算机可读介质,所述计算机程序包括代码模块,所述代码模块用于当所述计算机程序在计算机上运行时实施根据权利要求1至11中的任一项所述的方法。
13.一种适于修改预测模型的系统,其中,所述预测模型是基于现有训练数据来生成的并且适于处理输入数据以生成指示对涉及所述输入数据的预定问题的预测回答的预测回答数据,其中,所述系统包括:
差异确定模块,其适于通过以下操作来执行差异确定步骤:
接收基准数据,所述基准数据包括范例输入数据和指示对涉及对应的范例输入数据的所述预定问题的实际或已知回答的对应的实际回答数据;
使用所述预测模型来处理所述范例输入数据以基于所述范例输入数据来生成指示对所述预定问题的预测回答的预测回答数据;并且
确定所述实际回答数据与所述预测回答数据之间的差异,
归类单元,其适于至少基于所述实际回答数据与所述预测回答数据之间的所述差异将所述预测模型的不准确度归类为至少三个类别中的一个;以及
修改单元,其适于基于所述预测模型的不准确度的所述类别来修改所述预测模型,
其中,所述差异确定模块适于迭代地重复所述差异确定步骤,从而生成实际回答数据与对应的预测回答数据之间的多个差异;并且
所述归类单元适于通过以下操作将所述预测模型的所述不准确度进行归类:
识别所述多个差异中的模式,包括:识别是否存在所述差异中的阶跃改变并且识别是否存在所述差异中的逐渐改变,其中,每个模式对应于用于表征所述预测模型的所述不准确度的不同类别;并且
基于所识别的所述多个差异中的模式将所述预测模型的所述不准确度归类为所述至少三个类别中的一个,其中,所述不准确度在存在所述差异中的阶跃改变的情况下被归类为突然漂移并且在存在所述差异中的逐渐改变的情况下被归类为逐渐漂移。
CN201980082535.9A 2018-10-15 2019-10-10 适配预测模型 Active CN113196314B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
RU2018136281 2018-10-15
RU2018136281 2018-10-15
PCT/EP2019/077465 WO2020078818A1 (en) 2018-10-15 2019-10-10 Adapting prediction models

Publications (2)

Publication Number Publication Date
CN113196314A CN113196314A (zh) 2021-07-30
CN113196314B true CN113196314B (zh) 2023-09-01

Family

ID=68234000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980082535.9A Active CN113196314B (zh) 2018-10-15 2019-10-10 适配预测模型

Country Status (4)

Country Link
US (1) US20220044148A1 (zh)
EP (1) EP3867830A1 (zh)
CN (1) CN113196314B (zh)
WO (1) WO2020078818A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464965B (zh) * 2019-09-06 2024-06-21 富士通株式会社 估计模型的准确性和鲁棒性的方法及其装置
DE102020200356A1 (de) * 2020-01-14 2021-07-15 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und computerimplementiertes Verfahren für dateneffizientes aktives maschinelles Lernen
JP2021174387A (ja) * 2020-04-28 2021-11-01 三菱重工業株式会社 モデル評価装置、モデル評価方法、及びプログラム
JP2021174385A (ja) * 2020-04-28 2021-11-01 三菱重工業株式会社 モデル最適化装置、モデル最適化方法、及びプログラム
EP4133431A1 (en) * 2020-06-30 2023-02-15 Siemens Aktiengesellschaft Providing an alarm relating to an accuracy of a trained function method and system
US20220051114A1 (en) * 2020-08-11 2022-02-17 Enlitic, Inc. Inference process visualization system for medical scans
JP7481956B2 (ja) * 2020-08-26 2024-05-13 株式会社東芝 推論装置、方法、プログラムおよび学習装置
CN116324826A (zh) * 2020-09-18 2023-06-23 日本电信电话株式会社 判定装置、判定方法以及判定程序
US11816432B2 (en) * 2021-02-09 2023-11-14 Capital One Services, Llc Systems and methods for increasing accuracy in categorizing characters in text string
US20220300712A1 (en) * 2021-03-22 2022-09-22 Hewlett Packard Enterprise Development Lp Artificial intelligence-based question-answer natural language processing traces
US11989506B2 (en) * 2022-07-27 2024-05-21 Capital One Services, Llc Systems for database searching and database schemas management and methods of use thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107077463A (zh) * 2014-10-02 2017-08-18 微软技术许可有限责任公司 远程监督关系提取器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872187B2 (en) * 2013-10-11 2020-12-22 Carnegie Mellon University Verified runtime validation of verified cyber-physical system models
EP3459022A4 (en) * 2016-05-16 2020-02-19 Purepredictive, Inc. PREDICTIVE DRIFT DETECTION AND CORRECTION

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077463A (zh) * 2014-10-02 2017-08-18 微软技术许可有限责任公司 远程监督关系提取器
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Self-Adaptive Windowing Approach for Handling Complex Concept Drift";Imen Khamassi etal.;《Springer》;20151231;第772-790页 *

Also Published As

Publication number Publication date
EP3867830A1 (en) 2021-08-25
US20220044148A1 (en) 2022-02-10
CN113196314A (zh) 2021-07-30
WO2020078818A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
CN113196314B (zh) 适配预测模型
US11810671B2 (en) System and method for providing health information
US11651163B2 (en) Multi-turn dialogue response generation with persona modeling
Barbieri et al. Benchmarking deep learning architectures for predicting readmission to the ICU and describing patients-at-risk
US20190354810A1 (en) Active learning to reduce noise in labels
US8996428B2 (en) Predicting diagnosis of a patient
CN109326353B (zh) 预测疾病终点事件的方法、装置及电子设备
Zheng et al. Resolving the bias in electronic medical records
Li et al. Deep Bayesian Gaussian processes for uncertainty estimation in electronic health records
US20180285969A1 (en) Predictive model training and selection for consumer evaluation
US10452961B2 (en) Learning temporal patterns from electronic health records
EP3832485A1 (en) Question answering systems
CA3117833A1 (en) Regularization of recurrent machine-learned architectures
Hamdy et al. Deep mining of open source software bug repositories
US11646116B2 (en) Intelligent identification of appropriate sections of clinical practical guideline
CN113722507A (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
US20230351121A1 (en) Method and system for generating conversation flows
Zaghir et al. Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts
Hasan et al. Predicting the outcome of patient-provider communication sequences using recurrent neural networks and probabilistic models
Cao et al. Discovery of medical pathways considering complications
Theodorou et al. Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model
Khalafi et al. A hybrid deep learning approach for phenotype prediction from clinical notes
Paigude et al. Deep Learning Model for Work-Life Balance Prediction for Working Women in IT Industry
El-Bashbishy et al. Pediatric diabetes prediction using deep learning
Ruma et al. Outdoor patient classification in hospitals based on symptoms in Bengali language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant