CN111742332A - 经由多预测模型架构进行异常检测的系统和方法 - Google Patents
经由多预测模型架构进行异常检测的系统和方法 Download PDFInfo
- Publication number
- CN111742332A CN111742332A CN201880085835.8A CN201880085835A CN111742332A CN 111742332 A CN111742332 A CN 111742332A CN 201880085835 A CN201880085835 A CN 201880085835A CN 111742332 A CN111742332 A CN 111742332A
- Authority
- CN
- China
- Prior art keywords
- data item
- reconstruction
- model
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims description 69
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims description 90
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 description 90
- 238000012549 training Methods 0.000 description 87
- 210000004556 brain Anatomy 0.000 description 39
- 239000013598 vector Substances 0.000 description 30
- 238000012545 processing Methods 0.000 description 23
- 206010028980 Neoplasm Diseases 0.000 description 10
- 230000007170 pathology Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241000282472 Canis lupus familiaris Species 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002604 ultrasonography Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 238000002582 magnetoencephalography Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000004286 retinal pathology Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 241000283086 Equidae Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000003050 axon Anatomy 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000537 electroencephalography Methods 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
在一些实施例中,可以经由多模型架构来利于异常检测。在一些实施例中,第一模型可以被配置成生成与概念相对应的数据项的隐藏表示。第二模型可以被配置成根据隐藏表示生成数据项的重构。第一模型可以被配置成针对数据项评估重构并且基于重构的评估更新第一模型的配置。在第一模型的更新之后,第一模型可以根据第一数据项生成第一数据项的隐藏表示。第二模型可以根据隐藏表示生成第一数据项的重构。可以基于第一数据项与重构之间的差异来检测第一数据项中的异常。
Description
相关申请
本申请要求以下优先权:(i)2018年7月9日提交的标题为《经由多预测模型架构进行异常检测的系统和方法(System and Method for Anomaly Detection via a Multi-Prediction-Model Architecture)》的美国专利申请第16/029,747号,(ii)2018年6月18日提交的标题为《经由多预测模型架构进行异常检测的系统和方法(System and Method forAnomaly Detection via a Multi-Prediction-Model Architecture)》的美国专利申请第16/011,136号,以及(iii)2017年11月17日提交的标题为《用于异常检测的系统和方法(System and Method for Detection of Anomaly)》的美国临时申请第62/587,738号,将该三者中的每一个整体以引用方式并入本文中。
技术领域
本发明涉及概念或异常的识别或检测,包括例如经由一个或多个神经网络或其它预测模型的异常检测。
背景技术
近年来,由于计算机硬件的性能、训练集的大小、对人工智能的理论理解的进步以及其它进步,人工智能和机器学习领域经历了复兴。这种复兴在其它技术领域取得了许多进步,包括识别或其它预测系统。现有的机器学习系统可以对数据进行分类,诸如x射线图像、磁共振图像、体积扫描(例如,CT扫描)或用于诊断目的的其它数据。这类机器学习系统通常依赖于通过标签呈现已知异常。例如,视网膜病理学的分类取决于向学习系统呈现与已知病理学相对应的数百万个图像,并帮助学习系统将每个图像分类为与已知病理学中的一个相对应。然而,当呈现与未知病理学相对应的图像时,即使在图像与任何已知病理学都不匹配的情况下,学习系统也会将该图像分类为与已知病理学中的一个相对应。存在这些和其它缺点。
发明内容
本发明各方面涉及用于经由神经网络或其它预测模型来利于对概念或异常的识别或检测的方法、装置和/或系统。
在一些实施例中,可以训练一个预测模型以将训练数据集(例如,相对于给定概念的“正常”数据集)的数据项映射到随机分布的潜在矢量空间中,并且可以训练另一预测模型以生成类似于训练数据集的数据项的输出数据(例如,根据矢量空间的潜在矢量的输入)。在一些实施例中,可以将两个预测模型布置在预测模型架构中,其中(i)将数据项作为输入提供给将数据项转换为潜在矢量的预测模型,(ii)将潜在矢量作为输入提供给预测模型,该预测模型基于潜在矢量生成数据项的重构,使得该重构类似于原始数据项。应注意,预测模型的前述架构布置并不是典型的自动编码器,它会生成具有输入数据项每个细节的重构。作为示例,前述架构被配置成在训练过程期间根据与输入数据紧密匹配的“正常”集产生数据项。
在一些实施例中,第一预测模型可以被配置成生成数据项的隐藏表示,并且第二预测模型可以被配置成基于数据项的隐藏表示生成数据项的重构。在一些实施例中,第一预测模型被配置成基于由第二预测模型生成的数据项的重构更新其配置,目标是生成数据项的隐藏表示,第二预测模型可以用该隐藏表示来生成与数据项更相似的更好重构。当针对与同一概念(例如,健康的大脑、患有肿瘤的大脑、健康的心脏、患有某种疾病的患病心脏、猫、狗或其它概念)相对应的数据项集合进行适当训练时,第一和第二预测模型的组合被配置成生成与对应的输入数据项非常相似的重构。当提供的数据项与概念不对应(对其训练了第一和第二预测模型的组合)时,模型组合可能会尝试生成数据项的重构,但是该重构会在模型组合偏向于生成与对应于已知训练集概念的数据项相似的重构的情况下,可能与数据项具有足够的差异。这类差异可以用于检测数据项中是否存在异常。
在一些实施例中,第三预测模型可以被配置成指示(i)两个或更多个数据项(例如,输入数据项及其对应的重构)之间的相似性或差异,(ii)两个数据项是相似还是不同(例如,两个数据项的某些特性是否在一个或多个阈值范围内,诸如经由训练学习的阈值或手动预定义的阈值),(iii)数据项中是否存在异常(例如,基于第三预测模型对数据项的评估以及它们之间的重构),(iv)数据项是否具有与训练集的“正常”相对应的分类(或概念),或(v)其它信息。
在一些实施例中,可以训练第三预测模型以最小化网络偏差以优化对异常(例如,包括小的异常)的检测。在一些实施例中,可以获得与同一概念相对应的数据项的集合(例如,对其训练了第一和第二预测模型)并将其提供给第一和第二预测模型的组合以使该组合生成相应输入数据项的重构。可以将每个数据项及其对应的重构提供给第三预测模型,以训练第三预测模型以将对应对的数据项及其重构识别为相似(例如,指示相对于训练后的“正常”)。作为示例,对于每个对应对,可以将反馈提供给第三预测模型,第三预测模型将其用作参考以评估其关于数据输入及其重构是否相似或如何不同的预测。基于其评估,第三预测模型可以更新其配置中的一个或多个。反馈可以例如指示集合的每个数据项及其重构是相似的或不存在异常。在一些实施例中,与常规统计技术(例如,需要程序员手动调整相似性阈值)相比,第三预测模型被配置成自动调整对某些相似性和差异给予多少权重(如果有的情况下)。以此方式,例如,第三预测模型产生更准确的结果(例如,经由前述训练考虑网络偏差)。
通过本发明的具体实施方式和所附的附图,本发明的各种其它方面、特征和优点将变得显而易见。还应该理解,前面的一般描述和下面的具体实施方式都是示例性的,并不限制本发明的范围。如说明书和权利要求书中所使用,单数形式的“一”、“一个”和“该”包括复数个指示,除非上下文另外明确指出。另外,如说明书和权利要求书中所使用,术语“或”表示“和/或”,除非上下文另外明确指出。
附图说明
图1A至图1B示出了根据一个或多个实施例的用于经由神经网络或其它预测模型来利于概念或异常的识别或检测的系统。
图2示出了根据一个或多个实施例的包括用于异常或概念检测的两个机器学习模型的架构。
图3A至图3B示出了根据一个或多个实施例的关于图2的架构的输入和输出。
图4示出了根据一个或多个实施例的包括用于异常或概念检测的三个机器学习模型的架构。
图5A至图5B示出了根据一个或多个实施例的关于图4的架构的输入和输出。
图6A至图6C示出了根据一个或多个实施例的关于识别异常的多模型架构随时间的进展。
图7示出了根据一个或多个实施例的包括用于概念或异常的识别或检测的机器学习模型的多个子系统的架构。
图8示出了根据一个或多个实施例的经由多ML模型架构来利于异常检测的方法的流程图。
图9示出了根据一个或多个实施例的经由机器学习模型来利于异常检测的方法的流程图,该机器学习模型被训练为评估数据项与其ML模型衍生的重构之间的差异。
具体实施方式
在下面的描述中,出于解释的目的,阐述了许多具体细节以便提供对本发明的实施例的透彻理解。然而,本领域技术人员将认识到,可以在没有这些具体细节或具有等效布置的情况下实践本发明的实施例。在其它实例中,以方框图形式示出了公知的结构和设备,以避免不必要地模糊本发明的实施例。
图1示出了根据一个或多个实施例的用于经由神经网络或其它预测模型来利于概念或异常的识别或检测的系统100。如图1中所示,系统100可以包括架构102,其中机器学习模型(例如,ML模型104a)将数据106作为输入,机器学习模型(例如,ML模型104b)将数据108作为输出来提供,并且将第一机器学习模型的输出(例如,数据110)作为输入提供给第二机器学习模型。如图1A中所示,在一些实施例中,可以将第二机器学习模型(例如,ML模型104b)的输出作为输入提供给第一机器学习模型(例如,ML模型104a)。作为示例,可以将由ML模型104b生成的数据108作为参考反馈自动地提供给ML模型104a,并且ML模型104a可以使用该反馈更新其配置中的一个或多个(例如,ML模型104a的一层或多层、ML模型104a的一个或多个权重或其它参数等)。因此,在一些实施例中,可以根据前述方式自动地训练架构102的一个或多个机器学习模型,而无需人工干预。应注意,虽然本文针对多个模型(例如,多个神经网络、机器学习模型等)描述了实施例,但是在一些实施例中,这类多个模型可以是较大模型/网络内的子模型/网络(例如,包括多个神经网络的网络,包括多个子模型的模型等)。在一些实施例中,当架构102接收到由一个或多个传感器(例如,摄像头、麦克风、加速度计或其它传感器)捕获的数据项(例如,音频、图像、视频、传感器数据记录或其它数据项)时,架构102的组件处理数据项以(i)利于对数据项的概念或异常的识别或检测,(ii)重构数据项的版本,(iii)确定相似性或差异(例如,数据项与其对应的重构之间)或有关该数据项的其它信息,或(iv)执行其它操作。
如图1B中所示,系统100可以包括服务器112、客户端设备114(或客户端设备114a-114n)或其它组件。服务器112可以包括模型子系统116、反馈子系统118、检测子系统120或其它组件。每个客户端设备114可以包括任何类型的移动终端、固定终端或其它设备。举例来说,客户端设备114可以包括台式计算机、笔记本计算机、平板计算机、智能电话、可穿戴设备或其它客户端设备。用户可以例如利用一个或多个客户端设备114彼此交互,与一个或多个服务器或系统100的其它组件交互。应注意,虽然本文将一个或多个操作描述为由服务器112的特定组件执行,但在一些实施例中,那些操作可以由服务器112的其它组件或系统100的其它组件来执行。作为示例,虽然本文将一个或多个操作描述为由服务器112的组件执行,但在一些实施例中,那些操作可以由客户端设备114的组件执行。应注意,虽然本文关于机器学习模型描述了一些实施例,但在其它实施例中,其它预测模型(例如,统计模型或其它分析模型)可以代替机器学习模型或除机器学习模型之外使用(例如,在一个或多个实施例中,统计模型代替机器学习模型,非统计模型代替非机器学习模型)。
如所讨论,现有的机器学习系统可以将数据分类以用于诊断目的。这类机器学习系统通常依赖于通过标签呈现已知异常。例如,视网膜病理学的分类取决于向学习系统呈现与已知病理学相对应的数百万个图像,并帮助学习系统将每个图像分类为与已知病理学中的一个相对应。然而,当呈现与未知病理对应的图像时,即使在图像与任何已知病理学都不匹配的情况下,学习系统也会将该图像分类为与已知病理学中的一个相对应。例如,这类学习系统将概率几率作为输出来提供,以估计所呈现的图像属于一个或多个已知分类的可能性。然而,这假定所有可能的结果都是已知的。例如,在一个用例中,训练为识别狗和猫的网络会大约60%将斑马识别为狗以及40%识别为猫,但不会输出未知类别。在另一个用例中,由于肺癌会在肺部任何地方发生,并且不受任何特定大小、位置或形状的影响,因此肺癌的检测是具有挑战性的问题。因此,实际上不可能针对全面涵盖肺癌所有可能情况的训练集列举和训练学习系统。
在一些实施例中,系统100可以使用一个或多个预测模型来利于概念和异常的识别或检测或执行其它操作。预测模型可以包括神经网络、其它机器学习模型或其它预测模型。作为示例,神经网络可以基于大量的神经单元(或人工神经元)。神经网络可以粗略地模拟生物大脑的工作方式(例如,经由轴突连接的大量生物神经元簇)。神经网络的每个神经单元可以与神经网络的许多其它神经单元连接。这类连接可以增强或抑制它们对连接的神经单元的激活状态的影响。在一些实施例中,每个单独的神经单元可以具有求和函数,该求和函数将其所有输入的值组合在一起。在一些实施例中,每个连接(或神经单元本身)可以具有阈值函数,使得信号在被允许传播到其它神经单元之前必须超过阈值。与传统的计算机程序相比,这些神经网络系统可能是自学和训练的,而不是经过明确编程的,并且在某些问题解决领域中的表现要好得多。在一些实施例中,神经网络可以包括多层(例如,信号路径从前层贯穿到后层)。在一些实施例中,神经网络可以利用反向传播技术,其中使用正向刺激来重置“前”神经单元上的权重。在一些实施例中,对神经网络的刺激和抑制可以更加自由流动,其中连接以更加混乱和复杂的方式相互作用。
在一些实施例中,可以训练一个预测模型以将训练数据集(例如,相对于给定概念的“正常”数据集)的数据项映射到随机分布的潜在矢量空间中,并且可以训练另一预测模型以生成类似于训练数据集的数据项的输出数据(例如,根据矢量空间的潜在矢量的输入)。在一些实施例中,可以将两个预测模型布置在预测模型架构中,其中(i)将数据项作为输入提供给将数据项转换为潜在矢量的预测模型,(ii)将潜在矢量作为输入提供给预测模型,该预测模型基于潜在矢量生成数据项的重构,使得该重构类似于原始数据项。应注意,预测模型的前述架构的布置并不是典型的自动编码器,它会生成具有输入数据项每个细节的重构。作为示例,前述架构被配置成在训练过程期间根据与输入数据紧密匹配的“正常”集产生数据项。
在一些实施例中,第一预测模型(例如,ML模型104a)可以被配置成生成数据项的隐藏表示,并且第二预测模型可以被配置成基于数据项的隐藏表示生成数据项的重构。作为示例,数据项可以包括文档、音频(例如,超声或其它音频记录)、图像(例如,体积扫描、超声图像、磁共振图像(MRI)、x射线图像等)、视频(例如,超声视频、MRI视频等)、传感器数据记录或其它数据项。传感器数据记录例如可以包括医学传感器信号的记录,诸如磁场信号、射频(RF)信号、脑电图(EEG)信号、心电图(ECG)信号、肌电图(EMG)信号、机械机能图(MMG)信号、眼电图(EOG)信号、脑磁图(MEGA)信号或其它信号。数据项的隐藏表示可以包括数据项的压缩表示(例如,有损、无损等)、资源大小比数据项减小的其它表示或其它隐藏表示。
在一些实施例中,第一预测模型被配置成基于由第二预测模型生成的数据项的重构更新其配置,目标是生成数据项的隐藏表示,第二预测模型可以用该隐藏表示来生成与数据项更相似的更好重构。当针对与同一概念(例如,健康的大脑、患有肿瘤的大脑、健康的心脏、患有某种状况的患病心脏、猫、狗或其它概念)相对应的数据项集合进行适当训练时,第一和第二预测模型的组合被配置成生成与对应的输入数据项非常相似的重构。当提供的数据项与概念不对应(对其训练了第一和第二预测模型的组合)时,模型组合可能会尝试生成数据项的重构,但是该重构会在模型组合偏向于生成与对应于已知训练集概念的数据项相似的重构的情况下,可能与数据项具有足够的差异。系统100(例如,系统100的预测模型或其它组件)可以使用这类差异来检测数据项中是否存在异常。
在一些实施例中,关于前述第一预测模型和第二预测模型,系统100可以使用第一和第二预测模型来针对一个或多个数据项检测存在异常(例如,在已知概念之外)。在一些实施例中,系统100可以获得与概念相对应的数据项的集合,并将这些数据项提供给第一预测模型。基于提供的数据项,第一预测模型可以生成数据项的隐藏表示,并且系统100可以将隐藏表示提供给第二预测模型。基于所提供的隐藏表示,第二预测模型可以根据数据项的隐藏表示生成数据项的重构。系统100可以将数据项的重构作为参考反馈提供给第一预测模型,以使第一预测模型评估数据项的重构(例如,通过针对数据项评估重构)。基于评估,第一预测模型可以更新第一预测模型的一个或多个配置(例如,与表示生成相关的配置)。作为示例,第一预测模型可以基于重构的评估来调整第一预测模型的权重或其它参数。更新/调整可以例如以使第二预测模型生成与对应于隐藏表示的数据项更相似的重构的方式来配置第一预测模型以改善其隐藏表示的生成。作为示例,第一预测模型可以学习(或继续学习)一个或多个生成算法以改善其隐藏表示的生成(例如,通过更新/调整生成算法或用于这类算法的参数)。
在一些实施例中,第一预测模型可以将数据项编码为表示数据项的矢量(例如,表示潜在空间中的数据项的潜在矢量),并产生该矢量作为数据项的隐藏表示。作为示例,第一机器学习模型可以学习一个或多个生成算法以生成数据项的隐藏表示(例如,表示潜在空间中的数据项的潜在矢量)。可以由第一机器学习模型基于对数据项集合的训练,来自另一机器学习模型(例如,如本文所述)或其它来源的反馈(例如,用户提供的反馈)或其它数据来学习生成算法。在一些实施例中,第二机器学习模型可以“解码”数据项的隐藏表示以重构数据项的版本。作为示例,第二机器学习模型可以学习一个或多个生成算法以生成数据项的重构。可以由第二机器学习模型基于对隐藏的训练、来自另一机器学习模型(例如,经由生成对抗网络技术)或其它来源的反馈(例如,用户提供的反馈)或其它数据来学习生成算法。
在一些实施例中,第二预测模型可以被训练为(例如,与第一预测模型分开)作为生成对抗网络的一部分的生成模型,其中生成模型和判别模型在零和游戏框架中彼此“竞争”。在一个用例中,生成模型根据潜在矢量生成候选对象,而判别模型评估候选对象,其中生成模型学习从潜在空间映射到受关注的特定数据分布(例如,与给定的一个或多个概念相对应),并且其中判别网络在数据分发实例与生成模型产生的候选对象之间进行判别。可以将生成模型配置成训练目标为提高判别模型错误率(例如,“诱骗”判别模型以猜测所生成的候选对象是数据分布的实例),而判别模型可以配置成训练目标为降低错误率。
在另一用例中,可以将已知数据集作为判别模型的初始训练数据来提供,并且可以向判别模型提供来自训练数据集的样本,直到判别模型达到阈值准确度水平为止。可以用从预定义的潜在空间中采样的随机输入来植入生成模型,然后由判别模型评估由生成模型生成的样本。可以在两个模型中应用反向传播,以便(i)生成模型产生的数据项与训练数据集更相似(例如,训练数据集的图像或其它数据项),并且(ii)判别模型在从训练数据中的实际数据项中识别“伪造”复制品方面变得更好。在一些用例中,生成模型可以是反卷积神经网络,而判别模型可以是卷积神经网络。
在一些实施例中,模型子系统116可以获得数据项的集合并且将数据项提供给第一预测模型(例如,多模型架构的预测模型,来自模型数据库136的预测模型等)。作为响应,对于每个数据项,第一预测模型可以基于数据项生成隐藏表示。作为示例,数据项可以包括文档、音频、图像、视频、传感器数据记录或与一个或多个给定概念(例如,健康的大脑、患有肿瘤的大脑、健康的心脏、患有某种疾病的患病心脏、猫、狗或其它概念)相对应的其它数据项。这类数据项可以包括来自一个或多个数据库的训练数据、实时流数据(例如,来自一个或多个传感器)或其它数据。隐藏表示可以包括数据项的压缩表示,资源大小比其对应的数据项减小的其它表示或其它隐藏表示。在一些实施例中,第一预测模型可以基于由第一预测模型(例如,经由对数据项、来自另一预测模型或其它来源的反馈或其它数据的训练)学习的一个或多个生成算法,将输入数据(例如,数据项)编码为表示数据项的矢量(例如,表示潜在空间中的数据项的潜在矢量)。在一些实施例中,关于每个隐藏表示,反馈子系统118可以将数据项的重构(例如,根据隐藏表示生成的)作为反馈提供给第一预测模型。基于重构,第一预测模型可以更新其一个或多个配置并生成数据项的附加隐藏表示。对于数据项的每个附加隐藏表示,可以重复前述操作,直到从附加隐藏表示衍生的重构与原始数据足够相似(例如,基于数据项与重构之间的相似性满足一个或多个相似性阈值)。作为示例,第一预测模型可以学习(或继续学习)一个或多个生成算法以改善其隐藏表示的生成(例如,通过更新/调整生成算法或这类算法的参数),使得当另一个给定预测模型提供了数据项的隐藏表示时,另一个预测模型生成与数据项足够相似的数据项重构(例如,与原始输入图像非常相似的图像重构,听起来与原始输入音频文件类似的音频文件的重构等)。
在一些实施例中,模型子系统116可以获得数据项的隐藏表示(例如,由第一预测模型生成的隐藏表示),并将隐藏表示提供给第二预测模型。作为响应,第二预测模型可以根据隐藏表示生成数据项的重构。在一些实施例中,第二预测模型可以将隐藏表示转换为数据项的重构。在一个用例中,其中由第一预测模型生成数据项的隐藏表示,可以将该隐藏表示提供给第二预测模型,并且第二预测模型可以基于该隐藏表示生成数据项的重构(例如,使用第二预测模型学习的一个或多鄂生成算法以根据隐藏表示生成重构)。在一些实施例中,基于数据项的重构,检测子系统120可以确定关于数据项的信息,诸如(i)数据项的分类(例如,数据项中给定概念的识别),(ii)数据项中存在异常(例如,识别出该数据项的分类未知),(iii)数据项的哪些部分对应于异常(或未知的分类/概念)或异常的位置,或(iv)其它信息。
在一个用例中,关于图2,架构200可以包括对0和1的图像(例如,计算机生成的0和1的图像,手写的0和1的图像等)训练的ML模型104a和104b。如图2中所示,架构200被配置成使得输入202(例如,图像“0”)被提供给ML模型104a,ML模型104a的输出以潜在矢量204(例如,表示潜在矢量空间中的“0”图像的潜在矢量)的形式被提供给ML模型104b,并由ML模型104b提供输出206(例如,“0”的重构)。基于识别图像中的0或1(或将图像分类为0或1)的训练,架构200将产生与这类输入图像非常相似的0和1的输入图像的重构。在另一用例中,可以使用来自MNIST数据库的简单标准数据集(例如,通常用于训练各种图像处理系统的大型手写数字数据库)来训练架构200。作为示例,架构200最初可以进行训练,以正常考虑大约12,000个手写的0和1(或其它数量的0和1)。作为输入提供给ML模型104b的任何随机潜在矢量将生成0或1作为ML模型104b的输出。同时(或在其它时间),ML模型104a在训练阶段将任何输入映射到潜在矢量空间,其目标是尽可能使输入和输出数据匹配。
这样,关于图3A,屏幕截图302、304、306、308和310(提供给受过训练的架构200)顶部的输入图像(例如,分别为0、0、0、1、1)非常类似于相应屏幕截图的底部的重构图像。然而,当将不同数量的图像作为输入提供给架构200时,将产生极大地偏向于已知训练集的图像的重构。这样,虽然除了0和1以外的数字输入图像与架构200产生的重构之间可能存在一些相似的特性(例如,方向、位置、阴影、厚度等),但这种情况下的差异可能是独特地可识别。例如,关于图3B,屏幕截图312、314和316顶部的输入图像(例如,分别为2、2、9、9)与重构图像(例如,分别类似于0、0、1)完全不同。即,当呈现诸如数字2之类的异常(例如,先前未被架构200看到)时,网络继续生成0和1,从而导致输入图像与重构之间的较大差异。输入图像与重构之间的这类不同特性(或在这种情况下,差异较大)可用于确定相对于已知训练集的“正常”,每个输入图像中都存在异常(例如,其中0和1是“正常”,而0和1以外的任何数字或字符都是异常)。
在一些实施例中,关于图1A,ML模型104b可以保持“控制”作为架构102的一部分,而ML模型104a在训练过程期间不断学习。如所指示,可以将ML模型104b的输出(例如,数据项的重构)作为反馈提供给ML模型104a,ML模型104a可以使用该反馈更新ML模型104的一个或多个配置(例如,权重、其它参数或其它配置)。在一些实施例中,虽然可以将ML模型104a的输出作为输入提供给ML模型104b(例如,要转换为重构的隐藏表示),但是ML模型104a的输出都不作为反馈提供给ML模型104b。作为示例,可以与ML模型104a分开/独立地训练ML模型104b。如本文所指示,在一些实施例中,ML模型104b可以被训练为作为生成对抗网络的一部分的生成模型(例如,其中生成模型和判别模型在零和游戏框架中彼此“竞争”)。在一些实施例中,虽然ML模型104b可以是生成模型,但是不需要实现对抗网络来训练ML模型104b,并且可以使用其它技术来训练ML模型104b。
在一些实施例中,多模型架构可以包括第一、第二和第三预测模型(或其它预测模型)。作为示例,第一预测模型可以具有图1A的ML模型104a的配置(或本文描述的其它图的ML模型A),而第二预测模型可以具有图1A的ML模型104b的配置(或本文描述的其它图的ML模型B)。第三预测模型可以被配置成指示(i)两个或更多个数据项(例如,输入数据项及其对应的重构)之间的相似性或差异,(ii)两个数据项是相似还是不同(例如,两个数据项的某些特性是均在一个或多个阈值范围内,诸如经由训练或手动预定义的阈值),(iii)数据项中是否存在异常(例如,基于第三预测模型对数据项的评估及其相互之间的重构),(iv)数据项是否具有与训练集的“正常”相对应的分类(或概念),或(v)其它信息。作为示例,关于图4,架构400可以包括ML模型A、B和C,其中将数据106(例如,输入数据项)提供给ML模型A和ML模型C,将ML模型A的输出110(例如,数据项的隐藏表示)提供给ML模型B,并由ML模型B将ML模型B的输出108提供给ML模型C(例如,数据项的重构)。基于数据项和重构,ML模型C可以以从数据项与重构之间的相似性或差异衍生的一个或多个前述指示的形式生成输出402。
在一些实施例中,可以训练第三预测模型以最小化网络偏差以优化异常(例如,包括小的异常)的检测。在一些实施例中,可以获得与同一概念相对应的数据项的集合(例如,对其训练了第一和第二预测模型)并将其提供给第一和第二预测模型的组合以使该组合生成对应输入数据项的重构。模型子系统116可以将每个数据项及其对应的重构提供给第三预测模型,以训练第三预测模型以将每个对应的数据项对及其重构识别为相似(例如,指示相对于受过训练的“正常”无异常)。作为示例,对于每个对应对,模型子系统116可以向第三预测模型提供反馈,第三预测模型将该反馈用作参考以评估其关于数据输入及其重构是否相似或如何不同的预测。基于其评估,第三预测模型可以更新其配置中的一个或多个(例如,ML模型C的一层或多层、ML模型C的一个或多个权重或其它参数等)。反馈可以例如指示集合的每个数据项及其重构是相似的或不存在异常(例如,由于对数据项及其重构进行比较的结果,因此不应检测到异常)。这样,关于训练集,在处理其它数据项及其重构(例如,不属于训练集的数据项)时,第三预测模型从数据项的处理(通过第一和第二预测模型的组合以生成重构)得出的数据项与其重构之间的差异(例如,频繁偏差)将被忽略或给予较小的权重。与常规统计技术(例如,需要程序员手动调整相似性阈值)相比,第三预测模型被配置成自动调整对某些相似性和差异给予的权重(例如,对训练集及其重构的数据项所显示的共同差异给予低权重或没有权重)。以此方式,例如,第三预测模型产生更准确的结果(例如,通过前述训练考虑网络偏差)。
在一些实施例中,可以将来自数据项集合的数据项(例如,对应于训练第一和第二预测模型的同一概念)或数据项的重构作为比较集(例如,成对,三个一组等)提供给第三预测模型,其中第三预测模型可以相互评估数据项或比较集的重构。基于其评估,第三预测模型可以更新其配置中的一个或多个。在一些实施例中,模型子系统116可以将数据项集合的两个数据项作为比较集提供给第三预测模型,以训练第三预测模型以将数据项识别为不同(或不相似)。在一些实施例中,模型子系统116可以将数据项集合的数据项和(数据项集合的)另一数据项的重构作为比较集提供给第三预测模型,以训练第三预测模型以识别数据项与其它数据项的重构不相似。作为示例,关于两个数据项或该对(包括数据项和另一数据项的重构),模型子系统116可以向第三预测模型提供反馈,第三预测模型将该反馈用作参考以评估其对两个数据输入是相似还是不同的预测。例如,反馈可以指示两个数据输入是不同的(或不相似)。这样,对于(i)对应于同一概念的不同数据项或(ii)数据项以及与同一概念对应的另一数据项的重构,第三预测模型学习每个对应的数据输入对之间的微小差异。
在一个用例中,关于图4,将第一数据项(例如,来自与架构400的“正常”相对应的训练集)及其重构(例如,由架构400的ML模型B生成)连同指示两个输入相似的反馈一起提供给架构400的ML模型C。作为响应,ML模型C可以针对反馈评估其预测,并随着时间学习,以在其它两个数据输入之间再次出现这类差异时忽略或减少第一数据项与其重构之间的差异的权重(例如,通过ML模型C对其配置进行更新期间不再强调这类差异)。另外,可以将第一数据项和第二数据项(例如,来自相同的训练集)连同指示两个输入不同或不相似的反馈一起提供给ML模型C。作为响应,ML模型C可以针对反馈评估其预测,并随着时间学习,以在其它两个数据输入之间再次出现这类差异时对第一数据项与第二数据项之间的某些差异给予更大的权重(例如,通过在ML模型C对其配置进行更新期间在一定程度上强调这类差异,这类差异不包括两个相似数据输入之间的共同差异)。以此方式,例如,可以对ML模型C训练出由ML模型对数据项的处理(例如,数据项的隐藏表示的生成与根据隐藏表示的重构的生成的组合)产生的网络偏差,但是ML模型C仍然可以训练以识别异常,而不必要求使用异常数据(例如,不与训练了架构400的ML模型A和B的训练集相同的概念相对应的数据项)。
如所讨论,在一些实施例中,当数据项被提供并且不对应于训练了第一和第二预测模型的组合的概念时,第一和第二预测模型的组合可以试图生成数据项的重构,但是鉴于模型组合偏向于生成与对应于已知训练集的概念的数据项相似的重构,该重构可能与数据项具有足够的差异。作为示例,关于图5A,当将输入图像“0”(例如,屏幕截图502的顶部图像)提供给架构400(图4)的ML模型A时,架构400的ML模型B生成非常相似的重构(例如,屏幕截图502的底部图像),因为ML模型A和B是对0和1的图像数据集训练的。基于其训练,架构400的ML模型C输出不存在异常的指示。同样,当将输入图像“1”(例如,屏幕截图504的顶部图像)提供给ML模型A时,ML模型B会生成非常相似的重构(例如,屏幕截图504的底部图像),并且ML模型C输出不存在异常的指示。
另一方面,关于图5B,当将输入图像“2”(例如,屏幕截图602的顶部图像)提供给架构400(例如,图4)的ML模型A时,架构400的ML模型B生成类似于“0”的重构,而不是“2”,因为ML模型A和B仅对0和1图像数据集训练(例如,重构的“0”是ML模型B尝试从其隐藏表示中重画输入图像)。基于其训练,架构400的ML模型C输出在输入图像“2”中存在异常的指示。同样,当将输入图像“9”(例如,屏幕截图604的顶部图像)提供给ML模型A时,ML模型B生成类似于“1”的重构,而不是“9”,因为ML模型A和B仅对0和1图像数据集训练(例如,重构“1”是ML模型B尝试从其隐藏表示中重画输入图像)。这样,架构400的ML模型C输出在输入图像“9”中存在异常的指示。
在一些实施例中,多模型架构包括第一、第二和第三预测模型,第一和第二预测模型分别具有图1A的ML模型104a和104b的配置,而第三预测模型具有本文所描述的附图的ML模型C的配置。在一个用例中,可以对与同一概念相对应的数据项训练第三预测模型(例如,对其训练第一和第二预测模型)。另外地或可替代地,可以对不对应于这类概念的其它数据项训练第三预测模型。作为示例,模型子系统116可以将这类其它数据项(不与训练相关的概念相对应)及其相应的重构提供给第三预测模型,以将每个对应的数据项对及其重构识别为不同(或不相似)(例如,指示相对于受过训练的“正常”异常)。作为示例,对于每个对应对,模型子系统116可以向第三预测模型提供反馈,第三预测模型将该反馈用作参考以评估其对数据输入及其重构是否相似或如何不同的预测,其中反馈指示集合的每个数据项及其重构都是不同的(或不相似)或存在异常(例如,应通过比较数据项及其重构来检测异常)。在一种情况下,关于图4,将第一数据项(例如,来自与架构400的“正常”相对应的训练集)及其重构(例如,由架构400的ML模型B生成)连同其指示两个输入相似的反馈一起被提供给架构400的ML模型C。作为响应,ML模型C可以针对反馈评估其预测,并随着时间学习,以在其它两个数据输入之间再次出现这类差异时忽略或减少第一数据项与其重构之间的差异的权重(例如,通过ML模型C对其配置进行更新期间不再强调这类差异)。另外,可以将第二数据项(不与训练了ML模型A和B的训练集的相同概念相对应)及其重构与指示两个输入不同或不相似的反馈一起提供给ML模型C。作为响应,ML模型C可以针对反馈评估其预测,并随着时间学习,以在其它两个数据输入之间再次出现这类差异时对第二数据项与其重构之间的某些差异给予更大的权重。
在一些实施例中,检测子系统120可以确定与异常(或未知的分类/概念)相对应的数据项的一个或多个部分,并且经由用户界面得以呈现与异常相对应的部分。在一些实施例中,关于由多模型架构生成的数据项及其重构,检测子系统120可以确定数据项与重构之间的一个或多个差异是在对应于训练多模型架构的同一概念的数据项/重构对之间的公共差异。作为示例,基于这样的确定,检测子系统120可以不再强调这类差异。作为另一示例,在与训练相关的概念相对应的数据项/重构对之间出现共同差异的频率越高,检测子系统120对该差异的不再强调作用就越大(例如,这种差异出现在与训练相关概念相对应的数据项/重构对之间的频率越高,就给予该差异越小的权重)。
另外且可替代地,检测子系统120可以确定数据项与重构之间的一个或多个差异是与训练多模型架构的同一概念相对应的数据项/重构对之间不常见的差异。作为示例,基于这样的确定,检测子系统120可以强调这类差异。作为另一示例,在与训练相关概念相对应的数据项/重构对之间出现不常见差异的频率越低,检测子系统120可以对该差异进行更大的强调(例如,在与训练相关概念相对应的数据项/重构对之间出现这种差异的频率较低,就给予该差异越大的权重)。在一些实施例中,检测子系统120可以基于(i)不再强调的差异,(ii)强调的差异,(iii)对差异进行的不再强调或强调的量,或(iv)其它信息来检测数据项中的异常。在一些实施例中,检测子系统120可以基于(i)不再强调的差异,(ii)强调的差异,(iii)对差异进行的不再强调或强调的量,或(iv)其它信息来修改数据项的表示。作为示例,检测子系统120可以使数据项的一个或多个部分不再被强调(例如,以与不再强调的量相对应的量来不再强调这些部分,诸如增加或减小这些部分的亮度、清晰度、对比度或其它属性)。作为另一示例,检测子系统120可以使数据项的一个或多个部分被强调(例如,以与强调量相对应的量来强调这些部分)。
在一些实施例中,其中多模型架构包括第一、第二和第三预测模型(并且第一、第二和第三预测模型分别具有本文描述的附图的ML模型A、B和C的配置),第三预测模型可以输出对应于异常(或未知分类/概念)的数据项的一个或多个部分的指示。在一些实施例中,关于由多模型架构生成的数据项及其重构,第三预测模型可以学习以忽略或对数据项/重构对之间的共同差异(与对其训练了多模型架构的同一概念相对应)给予更少权重(例如,基于本文针对第三预测模型所述的训练)。在一个用例中,第三预测模型可以在与训练相关概念相对应的数据项/重构对之间出现共同差异的频率越高的情况下,自动将其用于共同差异的权重减小。另外地且可替代地,第三预测模型可以学习以对数据项/重构对(对应于对其训练了多模型架构的同一概念)之间不常见的差异给予更大的权重(例如,基于本文关于第三预测模型描述的训练)。在一种情况下,第三预测模型可以在与训练相关概念相对应的数据项/重构对之间出现差异的频率越小的情况下,自动地将其用于差异的权重增加。
在一些实施例中,第三预测模型可以强调或不再强调数据项的一个或多个部分。在一些实施例中,第三预测模型可以基于与对应于这些部分的差异相关联的权重(例如,第三预测模型自动用于诸如数据项及其重构之类的两个数据项之间的差异,来自对其训练了第一和第二预测的同一训练集的不同数据项之间的差异等的权重)来强调或不再强调数据项的这些部分。作为示例,第三预测模型可以基于与满足一个或多个权重阈值(例如,超过强调阈值)的这些部分(或与这些部分相对应的差异)相关联的权重来强调数据项的一个或多个部分。作为另一示例,第三预测模型可以对更大的权重施加更大的强调,而对于更低的权重(例如,仍然满足权重阈值)施加更少的强调。作为另一示例,第三预测模型可以基于与这些部分(或与这些部分相对应的差异)相关联的满足一个或多个权重阈值(例如,小于不再强调阈值)的权重而不再强调数据项的一个或多个部分。作为另一示例,第三预测模型可以对较低的权重施加更大的不再强调,而对较大的权重施加更少的不再强调。在一些实施例中,第三预测模型可以输出强调/不再强调的部分的指示(例如,以文档、图像、视频或其它数据项的形式),其中强调的部分对应于异常(或未知分类/概念),从而指示存在异常。
在一个用例中,关于图6A至图6C,架构400(例如,图4的)的ML模型C可以输出64个脑部扫描图像的一个或多个强调/不强调部分的指示。图6A至图6C示出了与测试集的输入脑部扫描图像相对应的ML模型C的输出的屏幕截图。图6A的屏幕截图602示出了当架构400的ML模型关于数据项的集合(例如,对应于给定概念)很少或没有训练时的ML模型C的输出。图6B的屏幕截图604示出了当架构400的ML模型已经针对数据项收集进行了一些训练时(与屏幕截图602相比,训练量更大时)的ML模型C的输出。图6C的屏幕截图606示出了当架构400的ML模型具有最大训练量时(相对于对应于图6A和图6B的ML模型C的实例)的ML模型C的输出。如图6C的图像输出608和610所指示,与图像输出608和610相对应的每个输入脑部扫描图像在该脑部扫描图像的一部分中具有异常特性(例如,与图像输出608中所示的与脑后部相对应的增亮/白色部分,以及如图像输出610中所示的与脑前部相对应的增亮/白色部分)。如图6C的其它图像输出所示,ML模型C已经预测其它脑部扫描图像没有示出异常的迹象(例如,相对于与给定一个或多个概念相对应的训练集的“正常”)。
作为另一示例,关于图6A,当架构400的ML模型尚未被训练或几乎没有关于训练集的数据项的训练(例如,对应于给定的一个或多个概念)时,ML模型尚未被充分训练为“正常”。这样,将难以观察(从图6A的屏幕截图602观察)哪个脑部扫描图像具有相对于训练组的“正常”而异常的分类(例如,中风的大脑)。虽然ML模型C可能已经强调或不再强调脑部扫描图像的某些部分,但是与图6C的屏幕截图606中所示的强调和不再强调相比,这类强调或不再强调并不那么清晰。作为另一示例,关于图6B,随着继续对训练集的数据项训练架构400的ML模型,变得更清楚哪些脑部扫描图像具有相对于训练集的“正常”而异常的分类。与图6A的屏幕截图602相比,很清楚ML模型C已经在脑部扫描图像的大部分上施加了更多的强调或更多的不再强调。随着架构400的ML模型继续对训练集合训练,ML模型C的输出(对应于脑部扫描图像的测试集)最终变成如图6C的屏幕截图606所示,其中从输出清楚地看出,测试集的哪些脑部扫描图像被预测为具有异常或被预测为相对于训练组的“正常”不具有异常。
在一些实施例中,第一预测模型(例如,图4的ML模型A)可以被配置成生成数据项的隐藏表示,而第二预测模型(例如,图4的ML模型B)可以被配置成基于数据项的隐藏表示生成数据项的重构,其中可以使用判别模型来训练第二预测模型。在一些实施例中,第三预测模型(例如,图4的ML模型C)可以用作判别模型以训练第二预测模型,其中第三预测模型可以被配置成指示(i)两个或更多个数据项(例如,输入数据项及其对应的重构)之间的相似性或差异,(ii)两个数据项是相似还是不同,(iii)数据项中是否存在异常,(iv)数据项是否具有对应于训练集“正常”的分类(或概念),或(v)其它信息。因此,在一些实施例中,可以同时“端对端”训练第一、第二和第三预测模型。作为示例,关于图4,可以训练ML模型A以基于重构(例如,由ML模型B生成的数据108)生成更好的隐藏表示(例如,数据110),可以训练ML模型B以基于ML模型C的输出(例如,指示数据输入为相似或不同的数据402)生成更好的重构(例如,相对于训练集的“正常”,其目标是“区分”有区别的ML模型C),并且可以基于ML模型C对架构400的输入数据项(例如,数据106)的评估和输入数据项的重构(例如,由ML模型B生成的数据108)来训练ML模型C。
在一些实施例中,可以将多个预测模型集一起布置以形成预测模型集的网络,以利于概念/异常的识别/检测或执行数据项的分类。在一些实施例中,每个预测模型集可以包括两个或更多个预测模型(例如,本文所描述的图的ML模型A和B)、三个或更多个预测模型(例如,本文所描述的图的ML模型A、B和C)或其它数量的预测模型。每个预测模型集可以将数据项(例如,输入到其ML模型A的输入)作为输入,并提供数据项的重构(例如,其ML模型B的输出)或以下指示:(i)两个或多个数据项(例如,输入数据项及其对应的重构)之间的相似性或差异,(ii)两个数据项是相似还是不同,(iii)数据项中是否存在异常,(iv)数据项目是否具有与训练集的“正常”相对应的分类(或概念),或(v)其它信息。在一些实施例中,每个预测模型集可以是其自身的预测模型网络,该预测模型网络被配置成将数据项识别为属于一个或多个分类子集(或具有一个或多个概念子集)或被识别为或具有异常(例如,不属于分类或概念子集的分类或概念),而预测模型集的整个网络被配置成将数据项识别为属于或具有整个分类/概念集中的一个或多个(例如,包括所有分类/概念子集)或相对于整个集合的所有已知分类/概念而言是异常或具有异常。此外,假定仅需要对仅与分类/概念子集相对应的训练集训练每个预测模型网络,则可以减少所需的训练总量(例如,与尝试训练一个预测网络模型相比以准确识别整个/总体分类/概念集)。例如,在许多情况下,随着分类/概念(需要对其训练预测模型)的数量增加,预测模型所需的训练量可以呈指数增长,以保持相同水平的预测准确性。
作为示例,关于图7,架构700包括架构400a-400n,每个架构具有其自身的一组ML模型A、B和C。虽然架构400a-400n中的每一个可以被提供有相同的输入(例如,数据106),但是它们各自可以提供不同的输出(例如,输出402a-402n)。在一个用例中,可以对一组已知为健康大脑(例如,先前被分类并确认为健康大脑)的脑部扫描图像训练集训练一个架构(例如,架构400a),可以对已知具有一种或多种类型的肿瘤(例如,先前已分类并确认具有某种类型的肿瘤)的脑部扫描图像的训练集训练另一种架构,可以对已知具有中风实例(例如,先前已分类并确认患有中风)的一组脑部扫描图像训练集训练另一个架构等等。当将一组脑部扫描图像作为输入提供给整个架构700时,每个脑部扫描图像都由每个架构400处理。如果脑部扫描图像是健康大脑,则对健康大脑训练架构400将表明脑部扫描图像应被分类为健康大脑。然而,因为对患病的大脑(例如,肿瘤、中风等)训练其它架构400,所以每个其它架构400将指示相对于脑部扫描图像存在异常。同样,如果脑部扫描图像是患有某种类型肿瘤的大脑,则对具有该种类型肿瘤的大脑进行训练的架构400将指示应将脑部扫描图像分类为患有肿瘤(或具有某种类型的肿瘤)。因为对其它分类/概念训练其它架构400,所以每个其它架构400将指示相对于脑部扫描图像存在异常。以此方式,即使当输入数据项不对应于训练一个或多个单独架构400的任何分类/概念时,总体架构700可以(i)在对应于输入数据项的分类/概念训练至少一个架构400的情况下,仍然准确地识别适当的分类,或者(ii)累积地指示相对于输入数据项存在异常。
在另一用例中,可以对已知反映个体躺下的加速度计或其它传感器数据的训练集训练一个架构(例如,架构400a),可以对已知反映个体步行的加速度计或其它传感器数据的训练集训练另一个架构,可以对已知的反映个体跳跃的加速度计或其它传感器数据的训练集训练另一个架构,可以对已知反映个体跌倒的加速度计或其它传感器数据的训练集训练另一个架构等等。当将一组加速度计或其它传感器数据作为输入提供给整个架构700时,每个加速度计/传感器数据输入由每个架构400处理。如果加速度计/传感器数据输入(例如,来自由患者或其它个体穿戴的可穿戴设备)反映了个体躺下(例如,其它训练方面均没有),对反映个体躺下的数据训练的架构400将指示输入应该被分类以反映个体躺下。因为其它架构400被训练为不反映躺下的其它方面,所以每个其它架构400将指示相对于输入存在异常。同样地,如果加速度计/传感器数据输入(例如,来自患者或其它个体所穿戴的可穿戴设备)反映了个体跌倒(例如,其它训练方面均未发生),则对反映个体跌倒的数据训练的架构400将指示该输入应被分类以反映跌倒。因为对不反映跌倒的其它方面训练其它架构400,所以每个其它架构400将指示相对于输入存在异常。
流程图示例
图8和图9是实现如上所述的系统的各种特征和功能的方法的处理操作的示例流程图。以下呈现的每种方法的处理操作旨在是说明性的而非限制性的。例如,在一些实施例中,可以利用未描述的一个或多个附加操作和/或没有所讨论的一个或多个操作来实现所述方法。另外,示出(并在下面描述)方法的处理操作的顺序并不旨在是限制性的。
在一些实施例中,可以在一个或多个处理设备(例如,数字处理器、模拟处理器、设计为处理信息的数字电路、设计为处理信息的模拟电路、状态机和/或其它以电子方式处理信息的机制)。处理设备可以包括一个或多个设备,以响应于电子存储在电子存储介质上的指令来执行方法的一些或全部操作。处理设备可以包括通过硬件、固件和/或软件配置的一个或多个设备,这些设备被专门设计用于执行方法中的一个或多个操作。
图8示出了根据一个或多个实施例的经由多ML模型架构利于异常检测的方法的流程图。在操作802中,可以获得与概念相对应的数据项。作为示例,数据项可以包括文档、音频、图像、视频、传感器数据记录或其它数据项。这类数据项可以包括来自一个或多个数据库(例如,训练数据数据库134)的训练数据、实时流数据或其它数据。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作802。
在操作804中,可以将数据项提供给第一机器学习模型,以使第一机器学习模型根据数据项生成数据项的隐藏表示。作为示例,隐藏表示可以包括数据项的压缩表示(例如,有损、无损等)、资源大小比其对应数据项减小的其它表示,或其它隐藏表示。在一个用例中,第一机器学习模型可以将输入数据(例如,数据项)编码为表示数据项的矢量(例如,在潜在空间中表示数据项的潜在矢量)。在另一个用例中,第一机器学习模型可以学习一个或多个生成算法以生成隐藏表示。可以由第一机器学习模型基于对数据项的训练,来自另一机器学习模型(例如,如本文所述)或其它来源的反馈(例如,用户提供的反馈)或其它数据来学习生成算法。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作804。
在操作806中,可以将数据项的隐藏表示提供给第二机器学习模型,以使第二机器学习模型根据数据项的隐藏表示来生成数据项的重构。在一个用例中,第二机器学习模型可以“解码”输入数据(例如,隐藏表示)以重构数据项的版本。在另一用例中,第二机器学习模型可以学习一个或多个生成算法以生成重构。可以由第二机器学习模型基于对隐藏的训练,来自另一机器学习模型(例如,经由生成对抗网络技术)或其它来源的反馈(例如,用户提供的反馈)或其它数据来学习生成算法。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作806。
在操作808中,可以将数据项的重构提供给第一机器学习模型,以使第一机器学习模型针对数据项评估数据项的重构。基于该评估,第一机器学习模型可以更新第一机器学习模型的一个或多个配置(例如,与表示生成相关的配置)。作为示例,第一机器学习模型可以基于重构的评估来调整第一机器学习模型的权重。例如,更新/调整可以使第二机器学习模型生成与隐藏表示相对应的数据项的更相似的重构的方式来配置第一机器学习模型以改善其隐藏表示的生成。作为示例,第一机器学习模型可以学习(或继续学习)一个或多个生成算法以改善其隐藏表示的生成(例如,通过更新/调整生成算法或这类算法的参数)。根据一个或多个实施例,可以由与反馈子系统118相同或相似的反馈子系统来执行操作808。
在操作810中,可以将第一数据项提供给第一机器学习模型,以使第一机器学习模型根据第一数据项生成第一数据项的隐藏表示。第一数据项可以包括文档、音频、图像、视频或其它数据项。第一数据项可以包括来自一个或多个数据库(例如,训练数据数据库134)的训练数据、实时流数据或其它数据。作为示例,第一机器学习模型可以将输入数据(例如,第一数据项)编码为表示第一数据项的一个或多个潜在矢量(例如,表示潜在空间中的第一数据项的潜在矢量)。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作810。
在操作812中,可以将第一数据项的隐藏表示提供给第二机器学习模型,以使第二机器学习模型根据第一数据项的隐藏表示来生成第一数据项的重构。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作812。
在操作814中,可以基于第一数据项与第一数据项的重构之间的差异来检测第一数据项中的异常。根据一个或多个实施例,可以由与检测子系统120相同或相似的检测子系统来执行操作814。
图9示出了根据一个或多个实施例的,经由机器学习模型来利于异常检测的方法的流程图,该机器学习模型被训练为评估数据项与其ML模型衍生的重构之间的差异。如以上关于图8所讨论,第一机器学习模型可以根据数据项生成数据项的隐藏表示(例如,与概念相对应),而第二机器学习模型可以根据数据项的隐藏表示生成数据项的重构。第一机器学习模型可以针对数据项评估重构,并且基于该评估,第一机器学习模型可以更新第一机器学习模型的一个或多个配置(例如,与表示生成相关的配置)。这样的更新可以例如以使第二机器学习模型生成与隐藏表示相对应的数据项的更相似的重构的方式来配置第一机器学习模型以改善其隐藏表示的生成。
在操作902中,在这样的更新之后,可以获得由第一机器学习模型生成的(数据项的)附加隐藏表示。作为示例,附加隐藏表示可以包括数据项的压缩表示,资源大小比其对应数据项减小的其它表示或其它隐藏表示。在一个用例中,第一机器学习模型可以基于一个或多个生成算法,将输入数据(例如,数据项)编码为表示数据项的矢量(例如,表示潜在空间中的数据项的潜在矢量),该算法是从数据项(或其它数据项)的先前处理及其与这类处理结果或这类处理的其它方面相关的反馈评估中学习到的。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作904。
在操作904中,可以将数据项的附加隐藏表示提供给第二机器学习模型,以使第二机器学习模型根据数据项的附加隐藏表示来生成数据项的附加重构。在一个用例中,第二机器学习模型可以基于一个或多个生成算法,对输入数据(例如,隐藏表示)进行“解码”以重构数据项的版本,该算法是从隐藏表示的先前处理及其对与这类处理结果或这类处理其它方面有关的反馈的评估中学习到的。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作904。
在操作906中,可以将数据项的附加重构提供给第一机器学习模型,以使第一机器学习模型针对数据项评估数据项的附加重构。基于该评估,第一机器学习模型可以更新第一机器学习模型的一个或多个配置(例如,与表示生成相关的配置)。作为示例,第一机器学习模型可以基于对附加重构的评估来调整第一机器学习模型的权重。更新/调整可以例如配置第一机器学习模型以改善其隐藏表示的生成(例如,以使得第二机器学习模型生成与隐藏表示相对应的数据项的更相似的重构的方式)。根据一个或多个实施例,可以由与反馈子系统118相同或相似的反馈子系统来执行操作906。
在操作908中,可以将数据项、数据项的附加重构以及给定参考反馈提供给第三机器学习模型,以使第三机器学习模型基于数据项、数据项的其它重构以及给定参考反馈进行训练以生成以下指示:数据项的每个数据项和与该数据项相对应的其它重构是相似的。作为示例,提供给第三机器学习模型的给定参考反馈可以包括数据项和附加重构相似的指示。基于相似性指示反馈,第三机器学习模型可以处理和重新处理给定的数据项及其对应的重构,并且至少(例如,在周期性或其它连续基础上)更新第三机器学习模型的一个或多个配置,直到第三机器学习模型自己生成以下指示:给定数据项与其对应的重构是相似的(或充分相似)。该更新可以例如配置第三机器学习模型以改善其检测数据项与其重构何时相似(从而指示在该数据项中未检测到异常)的准确性(例如,相对于一个或多个与用于训练第三种机器学习模型的数据项相对应的更多特定概念)。根据一个或多个实施例,可以由与反馈子系统118相同或相似的反馈子系统来执行操作908。
在操作910中,第一数据项和第一数据项的重构用于第三机器学习模型,以使第三机器学习模型评估数据项与数据项的重构之间的差异。在一个用例中,作为其训练的结果,例如,如果在数据项中相对于给定概念存在异常,则第三机器学习模型生成以下指示:数据项与该数据项的重构不相似。另一方面,作为其训练的结果,例如,如果在数据项中相对于给定概念不存在异常,则第三机器学习模型会生成以下指示:数据项和重构是相似的。根据一个或多个实施例,可以由与模型子系统116相同或相似的模型子系统来执行操作910。
在一些实施例中,图1中所示的各种计算机和子系统可以被配置成包括被编程为执行本文描述的功能的一个或多个计算设备。计算设备可以包括一个或多个电子存储装置(例如,一个或多个预测数据库132,其可以包括一个或多个训练数据数据库134、一个或多个模型数据库136等,或其它电存储装置)、用一个或多个计算机程序指令编程的物理处理器和/或其它组件。计算设备可以包括通信线路或端口,以使得能够经由有线或无线技术(例如,以太网、光纤、同轴电缆、WiFi、蓝牙、近场通信或其它技术)与网络(例如,网络150)或其它计算平台交换信息。计算设备可以包括一起操作的多个硬件、软件和/或固件组件。例如,计算设备可以由作为计算设备一起操作的计算平台的云来实现。
电子存储装置可以包括以电子方式存储信息的非暂时性存储介质。电子存储装置的电子存储介质可以包括(i)与服务器或客户端设备一体式设置(例如,基本上不可移动)的系统存储装置或(ii)经由例如端口(例如,USB端口、火线端口等)或驱动器(例如,磁盘驱动器等)可移动地连接到服务器或客户端设备的可移动存储装置中的一个或两个。电子存储装置可以包括光学可读存储介质(例如,光盘等)、磁性可读存储介质(例如,磁带、磁性硬盘驱动器、软盘驱动器等)、基于电荷的存储介质中(例如,EEPROM、RAM等)、固态存储介质(例如,闪存等)和/或其它电子可读存储介质中的一种或多种。电子存储装置可以包括一个或多个虚拟存储资源(例如,云存储、虚拟专用网络和/或其它虚拟存储资源)。电子存储装置可以存储软件算法、由处理器确定的信息、从服务器获得的信息、从客户端设备获得的信息或实现本文所述功能的其它信息。
处理器可以被编程为在计算设备中提供信息处理能力。这样,处理器可包括数字处理器、模拟处理器、设计为处理信息的数字电路、设计为处理信息的模拟电路、状态机和/或其它用于电子处理信息的机制中的一个或多个。在一些实施例中,处理器可以包括多个处理单元。这些处理单元可以物理上位于同一设备内,或者处理器可以表示协同操作的多个设备的处理功能。处理器可以被编程为执行计算机程序指令以执行本文描述的子系统116-120或其它子系统的功能。处理器可以被编程为通过软件;硬件;固件;软件、硬件或固件的某种组合;和/或用于在处理器上配置处理能力的其它机制来执行计算机程序指令。
应该意识到,本文所述的由不同子系统116-120提供的功能的描述是出于说明性目的,而不是限制性的,因为任何子系统116-120都可以提供比以下描述更多或更少的功能。例如,可以去除子系统116-120中的一个或多个,并且可以由子系统116-120中的其它子系统提供其功能的一些或全部。作为另一示例,可以对附加子系统进行编程,以执行本文中用于子系统116-120中的一个的一些或全部功能。
虽然出于说明的目的,基于当前认为是最实用和优选的实施例对本发明进行了详细描述,但是应当理解,这种细节仅用于该目的,并且本发明是并不限于所公开的实施例,相反,其旨在覆盖所附权利要求的范围内的修改和等效布置。例如,应当理解,本发明设想了在可能的范围内,任何实施例的一个或多个特征可以与任何其它实施例的一个或多个特征组合。
参考以下列举的实施例将更好地理解本技术:
1.一种方法,包括:获得与概念相对应的数据项;将数据项提供给第一模型,以使第一模型根据数据项生成数据项的隐藏表示;将数据项的隐藏表示提供给第二模型,以使第二模型根据数据项的隐藏表示生成数据项的重构;并且将数据项的重构提供给第一模型,第一模型基于数据项的重构更新第一模型的一个或多个配置。
2.一种方法,包括:将数据项提供给第一模型,以使第一模型根据数据项生成数据项的隐藏表示;将数据项的隐藏表示提供给第二模型,以使第二模型根据数据项的隐藏表示生成数据项的重构;以及基于数据项与数据项的重构之间的差异来检测数据项中的异常。
3.根据实施例2所述的方法,其中实施例2中的第一模型为实施例1中的第一模型,并且实施例2中的第二模型为实施例1中的第二模型,所述方法还包括:在提供实施例1中的数据项的重构之后,执行实施例2中的操作。
4.根据实施例1至3中任一项所述的方法,其中没有将第一模型的输出作为反馈提供给第二模型。
5.根据实施例1至4中任一项所述的方法,还包括,在提供数据项的重构之后:获得与概念相对应的附加数据项;将附加数据项提供给第一模型,以使第一模型根据附加数据项生成附加数据项的隐藏表示;将附加数据项的隐藏表示提供给第二模型,以使第二模型根据附加数据项的隐藏表示生成附加数据项的重构;将附加数据项、附加数据项的重构以及参考反馈提供给第三模型,以使第三模型基于附加数据项、附加数据项的重构和参考反馈进行训练以生成以下指示:附加数据项中的每个附加数据项和与附加数据项相对应的重构是相似的;以及将数据项和数据项的重构提供给第三模型,以使第三模型评估数据项与数据项的重构之间的差异,第三模型基于数据项与数据项的重构之间的差异生成以下指示:数据项与数据项的重构不相似,其中检测异常包括基于由第三模型生成的指示来检测数据项中的异常。
6.根据实施例1至5中任一项所述的方法,其中所述第一模型被配置成在更新第一模型之后,根据数据项生成数据项的附加隐藏表示,所述方法还包括:将数据项的附加隐藏表示提供给第二模型,以使第二模型根据数据项的附加隐藏表示生成数据项的附加重构;以及将数据项的附加重构提供给第一模型,以使第一模型针对数据项评估数据项的附加重构,第一模型基于第一模型对数据项的附加重构的评估进一步更新第一模型的一个或多个配置。
7.根据实施例6所述的方法,还包括:将数据项、数据项的附加重构以及参考反馈提供给第三模型,以使第三模型基于数据项、数据项的附加重构以及参考反馈来训练所述第三模型以生成以下指示:数据项中的每个数据项以及与数据项相对应的附加重构是相似的;以及将数据项和数据项的重构提供给第三模型,以使第三模型评估数据项与数据项的重构之间的差异,第三模型基于数据项与数据项的重构之间的差异生成以下指示:数据项和数据项的重构异常不相似,其中检测异常包括基于由第三模型生成的指示来检测数据项中的异常。
8.根据实施例7所述的方法,其中第三模型生成一个或多个以下指示:数据项的哪些部分与数据项的重构不相似,并且其中检测异常包括基于由第三模型生成的一个或多个指示来检测数据项中的异常。
9.根据实施例7至8中任一项所述的方法,其中第三模型生成一个或多个以下指示:数据项的哪些部分与数据项的重构是相似的,并且其中检测异常包括基于由第三模型生成的一个或多个指示来检测数据项中的异常。
10.根据实施例6至9中任一项所述的方法,还包括:确定对,使得所述对中的每对包括数据项中的一个数据项和数据项中的另一个数据项的附加重构;将所述对提供给第三模型,以使第三模型针对所述对中的每对生成以下指示:所述对的对应数据项和附加重构是否相似;将给定参考反馈提供给第三模型,以使第三模型针对给定参考反馈来评估生成的指示,给定参考反馈指示每对的对应数据项和附加重构不相似,第三模型基于第三模型对生成的指示的评估更新第三模型的一个或多个配置;以及将第一数据项和第一数据项的重构提供给第三模型,以使第三模型评估第一数据项与第一数据项的重构之间的差异,第三模型基于第一数据项与第一数据项的重构之间的差异生成以下指示:数据项和第一数据项的重构不相似,其中检测异常包括基于由第三模型生成的指示来检测第一数据项中的异常。
11.根据实施例1至10中任一项所述的方法,还包括:确定数据项的子集,使得数据项子集中的每一个包括数据项的至少两个数据项;将数据项子集提供给第三模型,以使第三模型针对数据项子集中的每一个生成以下指示:数据项子集的两个数据项是否相似;将给定参考反馈提供给向第三模型,以使第三模型针对给定参考反馈评估生成的指示,给定参考反馈指示数据项子集中的每一个的两个数据项都不相似,第三模型基于第三模型对生成的指示的评估更新第三模型的一个或多个配置;以及将第一数据项和第一数据项的重构提供给第三模型,以使第三模型评估第一数据项与第一数据项的重构之间的差异,第三模型基于第一数据项与第一数据项的重构之间的差异生成以下指示:第一数据项与第一数据项的重构不相似,其中检测异常包括基于由第三模型生成的指示来检测第一数据项中的异常。
12.根据实施例2至11中任一项所述的方法,还包括:不再强调数据项与数据项的重构之间的一个或多个差异,其中检测异常包括基于数据项与数据项重构之间的一个或多个不再强调的差异以及一个或多个其它差异来检测数据项中的异常。
13.根据实施例2至12中任一项所述的方法,还包括:强调数据项与数据项的重构之间的一个或多个差异,其中检测异常包括基于数据项与数据项的重构之间的一个或多个强调的差异以及一个或多个其它差异来检测数据项中的异常。
14.根据实施例2至13所述的方法,还包括,在提供数据项的重构之后:将第二数据项提供给第一模型,以使第一模型根据第二数据项生成第二数据项的隐藏表示;将第二数据项的隐藏表示提供给第二模型,以使第二模型根据第二数据项的隐藏表示生成第二数据项的重构,其中基于第二数据项与第二数据项的重构之间的差异未在第二数据项中检测到异常。
15.根据实施例1至14中任一项所述的方法,其中数据项包括文档、音频、图像、视频或传感器数据记录。
16.根据实施例1至15中任一项所述的方法,其中数据项包括体积扫描、超声图像、MRI图像或x射线图像。
17.根据实施例1至16中任一项所述的方法,其中第一模型或第二模型中的至少一个包括机器学习模型。
18.根据实施例1至17中任一项所述的方法,其中第一模型或第二模型中的至少一个包括神经网络。
19.一种系统,包括:第一模型,被配置成根据数据项生成数据项的隐藏表示,数据项与概念相对应;第二模型,配置成根据数据项的隐藏表示生成数据项的重构;其中第一模型被配置成:针对数据项评估数据项的重构;以及基于对数据项重构的评估更新第一模型的一个或多个配置;并且其中在第一模型的更新之后,第一模型被配置成根据数据项生成数据项的隐藏表示;并且其中第二模型被配置成根据数据项的隐藏表示生成数据项的重构;以及至少一个处理器,其被配置成基于数据项与数据项的重构之间的差异来检测数据项中的异常。
20.根据实施例19所述的系统,其中在第一模型的更新之后,第一模型被配置成:根据数据项生成数据项的附加隐藏表示;其中第二模型被配置成根据数据项的附加隐藏表示生成数据项的附加重构;并且其中第一模型被配置成:针对数据项评估数据项的附加重构;并且基于对数据项的附加重构的评估,进一步更新第一模型的一个或多个配置。
21.根据实施例20所述的系统,还包括:第三模型,其被配置成:基于(i)数据项,(ii)数据项的附加重构,以及(iii)参考反馈更新第三模型的一个或多个配置,参考反馈指示数据项中的每个数据项和与数据项相对应的附加重构是相似的;并且基于数据项与数据项的重构之间的差异生成以下指示:数据项与数据项的重构不相似;并且其中检测异常包括基于第三模型生成的指示来检测数据项中的异常。
22.根据实施例21所述的系统,其中第三模型被配置成生成一个或多个以下指示:数据项的哪些部分和数据项的重构不相似,并且其中检测异常包括基于由第三模型生成的一个或多个指示来检测数据项中的异常。
23.根据实施例21所述的系统,其中第三模型生成一个或多个以下指示:数据项的哪些部分数据项的重构是相似的,并且其中检测异常包括基于由第三模型生成的一个或多个指示来检测数据项中的异常。
24.根据实施例19-23中任一项所述的系统,其中第一模型或第二模型中的至少一个包括机器学习模型。
25.根据实施例19-24中任一项所述的系统,其中第一模型或第二模型中的至少一个包括神经网络。
26.一种有形的非暂时性的机器可读介质,其存储指令,该指令在由数据处理装置执行时使数据处理装置执行包括实施例1-18中任一项所述那些的操作。
27.一种系统,包括:一个或多个处理器;以及存储指令的存储器,该指令在由处理器执行时使处理器实现包括实施例1-18中任一项所述那些的操作。
Claims (20)
1.一种经由多神经网络架构来利于异常检测的方法,所述方法由计算机系统实现,所述计算机系统包括一个或多个执行计算机程序指令的处理器,所述计算机程序指令在被执行时执行所述方法,所述方法包括:
获得与概念相对应的数据项;
将所述数据项提供给第一神经网络,以使所述第一神经网络根据所述数据项来生成所述数据项的隐藏表示;
将所述数据项的隐藏表示提供给第二神经网络,以使所述第二神经网络根据所述数据项的隐藏表示来生成所述数据项的重构;
将所述数据项的重构作为参考反馈提供给所述第一神经网络,以使所述第一神经网络针对所述数据项来评估所述数据项的重构,所述第一神经网络基于所述第一神经网络对所述数据项的重构的评估来更新所述第一神经网络的一个或多个与表示生成相关的配置;
在提供所述数据项的重构之后,执行以下操作:
将第一数据项提供给所述第一神经网络,以使所述第一神经网络根据所述第一数据项来生成所述第一数据项的隐藏表示;
将所述第一数据项的隐藏表示提供给所述第二神经网络,以使所述第二神经网络根据所述第一数据项的隐藏表示来生成所述第一数据项的重构;以及
基于所述第一数据项与所述第一数据项的重构之间的差异来检测所述第一数据项中的异常。
2.根据权利要求1所述的方法,还包括:
在提供所述数据项的重构之后,执行以下操作:
将第二数据项提供给所述第一神经网络,以使所述第一神经网络根据所述第二数据项生成所述第二数据项的隐藏表示;以及
将所述第二数据项的隐藏表示提供给所述第二神经网络,以使所述第二神经网络根据所述第二数据项的隐藏表示生成所述第二数据项的重构,
其中基于所述第二数据项与所述第二数据项的重构之间的差异,在所述第二数据项中未检测到异常。
3.根据权利要求1所述的方法,其中没有将所述第一神经网络的输出作为参考反馈提供给所述第二神经网络。
4.根据权利要求1所述的方法,还包括:
在提供所述数据项的重构之后,执行以下操作:
获得与所述概念相对应的附加数据项;
将所述附加数据项提供给所述第一神经网络,以使所述第一神经网络根据所述附加数据项来生成所述附加数据项的隐藏表示;
将所述附加数据项的隐藏表示提供给所述第二神经网络,以使所述第二神经网络根据所述附加数据项的隐藏表示来生成所述附加数据项的重构;
将所述附加数据项、所述附加数据项的重构、以及给定参考反馈提供给第三神经网络,以使所述第三神经网络基于所述附加数据项、所述附加数据项的重构以及所述给定参考反馈进行训练以生成以下指示:所述附加数据项中的每个附加数据项和与所述附加数据项相对应的重构是相似的;以及
将所述第一数据项和所述第一数据项的重构提供给所述第三神经网络,以使所述第三神经网络评估所述第一数据项与所述第一数据项的重构之间的差异,所述第三神经网络基于所述第一数据项与所述第一数据项的重构之间的差异生成以下指示:所述第一数据项和所述第一数据项的重构不相似,
其中
检测所述异常包括基于由所述第三神经网络生成的所述指示来检测所述第一数据项中的异常。
5.根据权利要求1所述的方法,其中所述第一神经网络被配置成在更新所述第一神经网络之后,根据所述数据项来生成所述数据项的附加隐藏表示,所述方法还包括:
将所述数据项的附加隐藏表示提供给所述第二神经网络,以使所述第二神经网络根据所述数据项的附加隐藏表示来生成所述数据项的附加重构;以及
将所述数据项的附加重构作为参考反馈提供给所述第一神经网络,以使所述第一神经网络针对所述数据项来评估所述数据项的附加重构,所述第一神经网络基于所述第一神经网络对所述数据项的附加重构的评估进一步更新所述第一神经网络的一个或多个与表示生成相关的配置。
6.根据权利要求5所述的方法,还包括:
将所述数据项、所述数据项的附加重构、以及给定参考反馈提供给第三神经网络,以使所述第三神经网络基于所述数据项、所述数据项的附加重构以及所述给定参考反馈进行训练以生成以下指示:所述数据项中的每个数据项以及与所述数据项相对应的附加重构是相似的;以及
将所述第一数据项和所述第一数据项的重构提供给所述第三神经网络,以使所述第三神经网络评估所述第一数据项与所述第一数据项的重构之间的差异,所述第三神经网络基于所述第一数据项与所述第一数据项的重构之间的差异生成以下指示:所述第一数据项和所述第一数据项的重构不相似,
其中检测所述异常包括基于由所述第三神经网络生成的所述指示来检测所述第一数据项中的异常。
7.根据权利要求6所述的方法,
其中所述第三神经网络生成一个或多个以下指示:所述第一数据项的哪些部分与所述第一数据项的重构不相似,并且
其中检测所述异常包括基于由所述第三神经网络生成的所述一个或多个指示来检测所述第一数据项中的异常。
8.根据权利要求7所述的方法,
其中所述第三神经网络生成一个或多个以下附加指示:所述第一数据项的哪些部分与所述第一数据项的重构是相似的,并且
其中检测所述异常包括基于由所述第三神经网络生成的所述一个或多个指示以及所述一个或多个附加指示来检测所述第一数据项中的异常。
9.根据权利要求5所述的方法,还包括:
确定对,使得所述对中的每对包括所述数据项中的一个数据项、和所述数据项中的另一个数据项的附加重构;
将所述对提供给第三神经网络,以使所述第三神经网络针对所述对中的每对生成以下指示:所述对的所述对应数据项和附加重构是否相似;
将给定参考反馈提供给所述第三神经网络,以使所述第三神经网络针对所述给定参考反馈来评估所述生成的指示,所述给定参考反馈指示所述对中的每对的所述对应数据项和附加重构不相似,所述第三神经网络基于所述第三神经网络对所述生成的指示的评估更新所述第三神经网络的一个或多个配置;以及
将所述第一数据项和所述第一数据项的重构提供给所述第三神经网络,以使所述第三神经网络评估所述第一数据项与所述第一数据项的重构之间的差异,所述第三神经网络基于所述第一数据项与所述第一数据项的重构之间的差异生成以下指示:所述第一数据项和所述第一数据项的重构不相似,
其中检测所述异常包括基于由所述第三神经网络生成的所述指示来检测所述第一数据项中的异常。
10.根据权利要求1所述的方法,还包括:
确定数据项子集,使得所述数据项子集中的每一个包括所述数据项中的至少两个数据项;
将所述数据项子集提供给第三神经网络,以使所述第三神经网络针对所述数据项子集中的每一个生成以下指示:所述数据项子集的两个数据项是否相似;
将给定参考反馈提供给所述第三神经网络,以使所述第三神经网络针对所述给定参考反馈评估所述生成的指示,所述给定参考反馈指示所述数据项子集中每一个的所述两个数据项都不相似,所述第三神经网络基于所述第三神经网络对所述生成的指示的评估更新所述第三神经网络的一个或多个配置;以及
将所述第一数据项和所述第一数据项的重构提供给所述第三神经网络,以使所述第三神经网络评估所述第一数据项与所述第一数据项的重构之间的差异,所述第三神经网络基于所述第一数据项与所述第一数据项的重构之间的差异生成以下指示:所述第一数据项和所述第一数据项的重构不相似,
其中检测所述异常包括基于由所述第三神经网络生成的所述指示来检测所述第一数据项中的异常。
11.根据权利要求1所述的方法,还包括:
不再强调所述第一数据项与所述第一数据项的所述重构之间的一个或多个差异,
其中检测所述异常包括基于所述第一数据项与所述第一数据项的重构之间的所述一个或多个不再强调的差异以及一个或多个其它差异来检测所述第一数据项中的异常。
12.根据权利要求1所述的方法,还包括:
强调所述第一数据项与所述第一数据项的重构之间的一个或多个差异,
其中检测所述异常包括基于所述第一数据项与所述第一数据项的重构之间的所述一个或多个强调的差异以及一个或多个其它差异来检测所述第一数据项中的异常。
13.根据权利要求1所述的方法,还包括:
不再强调所述第一数据项与所述第一数据项的重构之间的一个或多个差异;并且
强调所述第一数据项与所述第一数据项的重构之间的一个或多个其它差异,
其中检测所述异常包括基于所述一个或多个不再强调的差异和所述一个或多个强调的差异来检测所述第一数据项中的异常。
14.一种系统,包括:
计算机系统,包括一个或多个执行计算机程序指令的处理器,所述计算机程序指令在被执行时使所述计算机系统执行以下操作:
获得与概念相对应的数据项;
将所述数据项提供给第一模型,以使所述第一模型根据所述数据项生成所述数据项的隐藏表示;
将所述数据项的隐藏表示提供给第二模型,以使所述第二模型根据所述数据项的隐藏表示生成所述数据项的重构;
将所述数据项的重构作为参考反馈提供给所述第一模型,以使所述第一模型针对所述数据项评估所述数据项的重构,所述第一模型基于所述第一模型对所述数据项的重构的评估更新所述第一模型的一个或多个与表示生成相关的配置;
在提供所述数据项的重构之后,执行以下操作:
将第一数据项提供给所述第一模型,以使第一模型根据所述第一数据项生成所述第一数据项的隐藏表示;
将所述第一数据项的隐藏表示提供给所述第二模型,以使所述第二模型根据所述第一数据项的隐藏表示生成所述第一数据项的重构;以及
基于所述第一数据项与所述第一数据项的重构之间的差异来检测所述第一数据项中的异常。
15.根据权利要求14所述的系统,其中所述第一模型被配置成在所述第一模型的更新之后,根据所述数据项生成所述数据项的附加隐藏表示,其中使所述计算机系统:
将所述数据项的附加隐藏表示提供给所述第二模型,以使所述第二模型根据所述数据项的附加隐藏表示生成所述数据项的附加重构;以及
将所述数据项的附加重构作为参考反馈提供给所述第一模型,以使所述第一模型针对所述数据项评估所述数据项的附加重构,所述第一模型基于所述第一模型对所述数据项的附加重构的评估进一步更新所述第一模型的一个或多个与表示生成相关的配置。
16.根据权利要求15所述的系统,其中使所述计算机系统:
将所述数据项、所述数据项的附加重构、以及给定参考反馈提供给第三模型,以使所述第三模型基于所述数据项、所述数据项的附加重构以及所述给定参考反馈进行训练以生成以下指示:所述数据项中的每个数据项和与所述数据项相对应的附加重构是相似的;以及
将所述第一数据项和所述第一数据项的重构提供给所述第三模型,以使所述第三模型评估所述第一数据项与所述第一数据项的重构之间的差异,所述第三模型基于所述第一数据项与所述第一数据项的重构之间的差异生成以下指示:所述第一数据项和所述第一数据项的重构不相似,
其中检测所述异常包括基于由所述第三模型生成的所述指示来检测所述第一数据项中的异常。
17.一种系统,包括:
第一模型,被配置成根据所述数据项生成数据项的隐藏表示,所述数据项与概念相对应;
第二模型,被配置成根据所述数据项的隐藏表示生成所述数据项的重构;
其中所述第一模型被配置成:
针对所述数据项评估所述数据项的重构;以及
基于对所述数据项的重构的所述评估,更新所述第一模型的一个或多个与表示生成相关的配置;并且
其中在所述第一模型的更新之后,所述第一模型被配置成根据所述第一数据项生成所述第一数据项的隐藏表示;并且
其中所述第二模型被配置成根据所述第一数据项的隐藏表示生成所述第一数据项的重构;以及
至少一个处理器,被配置成基于所述第一数据项与所述第一数据项的重构之间的差异来检测所述第一数据项中的异常。
18.根据权利要求17所述的系统,
其中在所述第一模型的更新之后,所述第一模型被配置成:根据所述数据项生成所述数据项的附加隐藏表示;
其中所述第二模型被配置成根据所述数据项的附加隐藏表示生成所述数据项的附加重构;并且
其中所述第一模型被配置成:
针对所述数据项评估所述数据项的附加重构;以及
基于对所述数据项的附加重构的评估,进一步更新所述第一模型的一个或多个与表示生成相关的配置。
19.根据权利要求18所述的系统,还包括:
第三模型,被配置成:
基于(i)所述数据项、(ii)所述数据项的附加重构和(iii)所述参考反馈更新所述第三模型的一个或多个配置,所述参考反馈指示所述数据项的每个数据项和与所述数据项相对应的附加重构是相似的;并且
基于所述第一数据项与所述第一数据项的重构之间的差异,生成以下指示:所述第一数据项与所述第一数据项的重构不相似;并且
其中检测所述异常包括基于由所述第三模型生成的所述指示来检测所述第一数据项中的异常。
20.根据权利要求19所述的系统,
其中所述第三模型被配置成生成一个或多个以下指示:所述第一数据项的哪些部分与所述第一数据项的重构不相似,并且
其中检测所述异常包括基于由所述第三模型生成的所述一个或多个指示来检测所述第一数据项中的异常。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762587738P | 2017-11-17 | 2017-11-17 | |
US62/587,738 | 2017-11-17 | ||
US16/011,136 US20190156200A1 (en) | 2017-11-17 | 2018-06-18 | System and method for anomaly detection via a multi-prediction-model architecture |
US16/011,136 | 2018-06-18 | ||
US16/029,747 US10121104B1 (en) | 2017-11-17 | 2018-07-09 | System and method for anomaly detection via a multi-prediction-model architecture |
US16/029,747 | 2018-07-09 | ||
PCT/US2018/061520 WO2019099828A1 (en) | 2017-11-17 | 2018-11-16 | System and method for anomaly detection via a multi-prediction-model architecture |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111742332A true CN111742332A (zh) | 2020-10-02 |
Family
ID=63964051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880085835.8A Pending CN111742332A (zh) | 2017-11-17 | 2018-11-16 | 经由多预测模型架构进行异常检测的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20190156200A1 (zh) |
EP (1) | EP3710999A4 (zh) |
CN (1) | CN111742332A (zh) |
TW (1) | TWI709852B (zh) |
WO (1) | WO2019099828A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163834B (zh) * | 2018-05-14 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置及存储介质 |
US10748430B2 (en) * | 2018-07-23 | 2020-08-18 | Honeywell International Inc. | Systems and methods for selective terrain deemphasis |
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
CN111861967B (zh) * | 2019-04-18 | 2024-03-15 | 同方威视技术股份有限公司 | 用于检测辐射图像中的局部异常的网络、方法和装置 |
US11657269B2 (en) * | 2019-05-23 | 2023-05-23 | Salesforce.Com, Inc. | Systems and methods for verification of discriminative models |
US11165954B1 (en) * | 2019-06-19 | 2021-11-02 | Objectvideo Labs, Llc | Scene-aware custom tuned video surveillance detection system |
US11374952B1 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Detecting anomalous events using autoencoders |
US20210133594A1 (en) * | 2019-10-30 | 2021-05-06 | Dell Products L.P. | Augmenting End-to-End Transaction Visibility Using Artificial Intelligence |
US10733325B1 (en) | 2019-11-15 | 2020-08-04 | Capital One Services, Llc | Securing user-entered text in-transit |
TWI793391B (zh) * | 2019-12-27 | 2023-02-21 | 廣達電腦股份有限公司 | 醫療影像辨識系統及醫療影像辨識方法 |
US11468294B2 (en) | 2020-02-21 | 2022-10-11 | Adobe Inc. | Projecting images to a generative model based on gradient-free latent vector determination |
TW202223834A (zh) * | 2020-08-28 | 2022-06-16 | 加拿大商光譜優化股份有限公司 | 神經嵌入之攝影機影像視訊處理管道及神經網路訓練系統 |
EP3936877B1 (en) * | 2021-01-22 | 2022-12-21 | Rohde & Schwarz GmbH & Co. KG | Measurement instrument, measurement system, and signal processing method |
WO2022195657A1 (ja) * | 2021-03-15 | 2022-09-22 | 日本電信電話株式会社 | 筋音抽出方法、筋音抽出装置及びプログラム |
WO2023287921A1 (en) * | 2021-07-13 | 2023-01-19 | The Penn State Research Foundation | Characterizing network scanners by clustering scanning profiles |
US20240065609A1 (en) * | 2022-08-24 | 2024-02-29 | Taipei Medical University | Methods and devices of generating predicted brain images |
CN115834453B (zh) * | 2023-02-14 | 2023-06-02 | 浙江德塔森特数据技术有限公司 | 手持协议检测终端的协议检测方法和手持协议检测终端 |
TWI823783B (zh) * | 2023-02-22 | 2023-11-21 | 國立成功大學 | 視網膜狀態預測模型的建立方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160155049A1 (en) * | 2014-11-27 | 2016-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for extending neural network |
CN105868829A (zh) * | 2015-02-06 | 2016-08-17 | 谷歌公司 | 用于数据项生成的循环神经网络 |
US20170076224A1 (en) * | 2015-09-15 | 2017-03-16 | International Business Machines Corporation | Learning of classification model |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020183984A1 (en) * | 2001-06-05 | 2002-12-05 | Yining Deng | Modular intelligent multimedia analysis system |
US7027953B2 (en) * | 2002-12-30 | 2006-04-11 | Rsl Electronics Ltd. | Method and system for diagnostics and prognostics of a mechanical system |
TWI452477B (zh) * | 2011-04-22 | 2014-09-11 | Univ Nat Sun Yat Sen | 以模糊相似度與k最近鄰居法為基礎之多標籤文件分類方法 |
US10740358B2 (en) * | 2013-04-11 | 2020-08-11 | Oracle International Corporation | Knowledge-intensive data processing system |
EP3061063A4 (en) * | 2013-10-22 | 2017-10-11 | Eyenuk, Inc. | Systems and methods for automated analysis of retinal images |
WO2015134665A1 (en) * | 2014-03-04 | 2015-09-11 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
WO2015188275A1 (en) * | 2014-06-10 | 2015-12-17 | Sightline Innovation Inc. | System and method for network based application development and implementation |
TWI655587B (zh) * | 2015-01-22 | 2019-04-01 | 美商前進公司 | 神經網路及神經網路訓練的方法 |
US10552727B2 (en) * | 2015-12-15 | 2020-02-04 | Deep Instinct Ltd. | Methods and systems for data traffic analysis |
US10891541B2 (en) * | 2016-05-16 | 2021-01-12 | Canon Kabushiki Kaisha | Devices, systems, and methods for feature encoding |
US20180197317A1 (en) * | 2017-01-06 | 2018-07-12 | General Electric Company | Deep learning based acceleration for iterative tomographic reconstruction |
-
2018
- 2018-06-18 US US16/011,136 patent/US20190156200A1/en active Pending
- 2018-07-09 US US16/029,747 patent/US10121104B1/en active Active
- 2018-11-16 CN CN201880085835.8A patent/CN111742332A/zh active Pending
- 2018-11-16 WO PCT/US2018/061520 patent/WO2019099828A1/en unknown
- 2018-11-16 EP EP18879502.5A patent/EP3710999A4/en active Pending
- 2018-11-16 TW TW107140790A patent/TWI709852B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160155049A1 (en) * | 2014-11-27 | 2016-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for extending neural network |
CN105868829A (zh) * | 2015-02-06 | 2016-08-17 | 谷歌公司 | 用于数据项生成的循环神经网络 |
US20170076224A1 (en) * | 2015-09-15 | 2017-03-16 | International Business Machines Corporation | Learning of classification model |
Non-Patent Citations (1)
Title |
---|
JINWON AN等: ""Variational Autoencoder based Anomaly Detection using Reconstruction Probability"", 《SNU DATA MINING CENTER》, 31 December 2015 (2015-12-31), pages 1 - 18 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019099828A1 (en) | 2019-05-23 |
US10121104B1 (en) | 2018-11-06 |
TWI709852B (zh) | 2020-11-11 |
EP3710999A4 (en) | 2021-09-08 |
US20190156200A1 (en) | 2019-05-23 |
TW201923582A (zh) | 2019-06-16 |
EP3710999A1 (en) | 2020-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10121104B1 (en) | System and method for anomaly detection via a multi-prediction-model architecture | |
Yin et al. | Diagnosis of autism spectrum disorder based on functional brain networks with deep learning | |
Pires et al. | A data-driven approach to referable diabetic retinopathy detection | |
Singh et al. | A comprehensive review on critical issues and possible solutions of motor imagery based electroencephalography brain-computer interface | |
Roy et al. | ChronoNet: A deep recurrent neural network for abnormal EEG identification | |
CN111728609B (zh) | 脑电信号的分类方法、分类模型的训练方法、装置及介质 | |
Martínez et al. | Deep multimodal fusion: Combining discrete events and continuous signals | |
Raizada et al. | Pattern‐information fMRI: New questions which it opens up and challenges which face it | |
Nayak et al. | Firefly algorithm in biomedical and health care: advances, issues and challenges | |
Buccino et al. | Spike sorting: new trends and challenges of the era of high-density probes | |
Posani et al. | Functional connectivity models for decoding of spatial representations from hippocampal CA1 recordings | |
Valeriani et al. | Cyborg groups enhance face recognition in crowded environments | |
Kramer et al. | Reconstructing nonlinear dynamical systems from multi-modal time series | |
Xu et al. | Two-stage temporal modelling framework for video-based depression recognition using graph representation | |
JP2023139296A (ja) | 信号処理方法,信号処理装置および信号処理プログラム | |
KR102589471B1 (ko) | 데이터 증강 장치 및 방법 | |
US20220391760A1 (en) | Combining model outputs into a combined model output | |
Mahmoud et al. | Classifying a type of brain disorder in children: an effective fMRI based deep attempt | |
Vasant Bidwe et al. | Attention-Focused Eye Gaze Analysis to Predict Autistic Traits Using Transfer Learning | |
Said et al. | Spectral analysis and Bi-LSTM deep network-based approach in detection of mild cognitive impairment from electroencephalography signals | |
KR20200004939A (ko) | 스마트 폰 기반의 홍채를 통한 건강 관리 방법 및 장치 | |
Nhu | Deep Learning For Physiological Monitoring And Epilepsy Diagnosis | |
WO2023108711A1 (zh) | 行为与瞳孔信息同步分析方法、装置、设备及介质 | |
US20240070440A1 (en) | Multimodal representation learning | |
Hu et al. | Personalized Heart Disease Detection via ECG Digital Twin Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |