CN116635872A

CN116635872A - 对抗性半监督一次学习

Info

Publication number: CN116635872A
Application number: CN202180080920.7A
Authority: CN
Inventors: 胜木孝行; 恐神贵行
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-08
Filing date: 2021-11-24
Publication date: 2023-08-22
Also published as: AU2021396607A1; AU2021396607B2; US20220180204A1; GB202309403D0; KR20230097151A; CA3194463A1; IL301852A; WO2022123380A1; JP2023552068A; MX2023006490A; DE112021005569T5; US11875270B2; GB2616227A

Abstract

一种使用数据流的对抗性半监督一次训练的方法、计算机程序产品和系统。该方法包括接收基于观察的数据流，其中该数据流包括未标记数据和标记数据。该方法还包括使用基于分类损失和对抗性项的随机梯度下降来利用标记数据训练预测模型，以及基于重建损失和对抗性项利用标记数据和未标记数据训练表示模型。对抗性项是来自模型的中间层输出数据之间的交叉熵。分类损失是标记数据和预测模型的输出之间的交叉熵。所述方法进一步包含用来自所述预测模型及所述表示模型的中间层输出数据且基于鉴别损失来更新鉴别器，及丢弃所述数据流。

Description

对抗性半监督一次学习

背景技术

本公开涉及对抗性学习，并且更具体地，涉及使用数据流的对抗性半监督一次学习。

对抗性学习是机器学习训练过程，其中两个模型试图彼此削弱，并且因此改善由每个模型产生的预测。生成式对抗性网络是一种使用两个相互竞争的神经网络的常见对抗性学习方法。给定训练集，该技术学会生成具有与训练集相同的统计的新数据。训练包括通过使用鉴别器的间接训练，其中神经网络被训练以欺骗鉴别器。

一次学习(one-shot learning)是一种机器学习形式，其中获得数据，用该数据训练模型，然后丢弃该数据。在训练周期之后不保存数据。因此，重点放在支持知识转移的算法上，该算法利用了学习的类别的先验知识，并允许在最少的训练样本上学习。知识传递的一种方式是通过基于先前和新学习的类之间的相似性重用模型参数。

发明内容

本公开的实施例包括使用数据流的对抗性半监督一次训练的计算机实现的方法。该计算机实现的方法包括接收基于观察的数据流，其中该数据流包括未标记数据和标记数据。该计算机实现的方法还包括基于分类损失和对抗性项使用随机梯度下降来利用标记数据训练预测模型，以及基于重构损失和对抗性项利用标记数据和未标记数据训练表示模型。对抗性项是来自模型的中间层输出数据之间的交叉熵。分类损失是标记数据和来自预测模型的输出之间的交叉熵。所述计算机实施的方法进一步包括用来自所述预测模型及所述表示模型的中间层输出数据且基于鉴别损失来更新鉴别器，及丢弃所述数据流。

本公开的附加实施例包括使用数据流的对抗性半监督一次训练的计算机程序产品，其可以包括具有随其体现的程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使所述处理器执行一种方法。该方法包括接收基于观察的数据流，其中该数据流包括未标记数据和标记数据。该方法还包括基于分类损失和对抗性项使用随机梯度下降来利用标记数据训练预测模型，以及基于重建损失和对抗性项利用标记数据和未标记数据训练表示模型。对抗性项是来自模型的中间层输出数据之间的交叉熵。分类损失是标记数据和来自预测模型的输出之间的交叉熵。所述方法进一步包括用来自所述预测模型及所述表示模型的中间层输出数据且基于鉴别损失来更新鉴别器及丢弃所述数据流。

进一步的实施例涉及使用数据流的对抗性半监督一次训练的系统。该系统包括存储器、处理器、本地数据存储器，本地数据存储器上存储有用于执行上述方法的计算机可执行代码。该系统还包括被配置为预测车辆行为的预测模型，其中该预测模型是基于分类损失和对抗性项使用随机梯度下降用来自数据流的标记数据来训练的。该系统还包括表示模型，表示模型被配置为预测车辆行为，其中，基于重建损失和对抗性项，利用来自数据流的未标记数据和标记数据来训练表示模型。所述系统进一步包含鉴别器，其被配置为预测由所述预测模型及所述表示模型作出的预测，其中所述鉴别器用来自所述预测模型及所述表示模型的中间层输出数据且基于鉴别损失来训练。本发明内容不旨在示出本公开的每个实施例的每个方面、每个实现和/或每个实施例。

附图说明

参照以下描述、所附权利要求书和附图，本公开的实施例的这些和其它特征、方面和优点将变得更好理解，其中：

图1是示出根据本公开的实施例的对抗性半监督一次学习系统的框图。

图2是示出根据本公开的实施例的对抗性半监督一次学习的过程的流程图。

图3是示出根据本公开的实施例的可用于实现本文所述的方法、工具和模块中的一个或多个以及任何相关功能的示例计算机系统的高级框图。

图4描绘了根据本公开的实施例的云计算环境。

图5描绘了根据本公开的实施例的抽象模型层。

虽然本公开可修改为各种修改和替代形式，但其细节已在附图中以示例的方式示出并将详细描述。然而，应当理解，其目的不是限制所描述的特定实施例。相反，本发明将涵盖落入本公开的范围内的所有修改、等效物和替代方案。在附图中，相同的附图标记用于表示相同的部件。

具体实施方式

本公开涉及对抗性学习，并且更具体地，涉及使用数据流的对抗性半监督一次学习。虽然本公开不一定限于此类应用，但是通过使用此上下文的各种示例的讨论可以理解本公开的各个方面。

自主车辆可以通过使用在车辆上实现的传感器来减少潜在事故并提高道路安全。通过使用传感器分析，自主车辆可以理解其他车辆的当前状态并且主动地预测它们的未来行为。另外，不仅可以对其他车辆进行预测，还可以对行人、天气状况以及操作者意识进行预测。例如，传感器数据可以用于预测事故风险和驾驶员睡意。

传感器连续地监测各种状况并且将状况报告给生成信息的数据流的自主车辆。该信息可以由车辆分析或者通过云服务分析，并且车辆可以基于传感器数据决定是否需要动作。例如，自主车辆可以执行诸如应用其制动器、打开其前灯、围绕物体转向、加速等动作。

通常，当存在足够数量的具有正确标记的训练数据样本可用时，训练自主车辆使用的机器学习模型。这种类型的训练可以被称为批学习。在批量学习中，以某一间隔收集数据(例如，来自传感器观察的数据流)。例如，间隔可以是每秒、每分钟、每天一次等。间隔也可以基于传感器的类型和正被观察的传感器读数。

存在对训练自主车辆机器学习模型的限制；然而，批量学习需要使用过去的数据用于需要大量计算资源的每次训练迭代。数据流可以在短时间内累积大量的数据，并且在长时间内保留所有的数据可能是不可行的。另外，模型可能不会像长期不能获得标记数据那样频繁地更新。

本公开的实施例可以通过使用对抗性半监督一次学习系统来克服上述和其他问题。对抗性半监督一次学习系统可以使用数据流来训练机器学习模型，然后一旦训练周期完成就丢弃数据流。另外，数据流不一定总是需要被标记。由于标记的数据有时不是必然可用的，因此对抗性的半监督一次学习系统可以仅利用一些训练周期的未标记数据来训练其机器学习模型。关于未标记数据的有用信息可被存储在无监督表示模型中。当标记的数据可用时，可以训练监督预测模型。在这些训练周期期间，实施对抗性鉴别器模型以改进每一模型的预测。

更具体地，对抗性半监督一次学习系统可以利用由自主车辆生成的数据流，并且将该信息作为训练数据。未标记数据可用于训练表示机器学习模型，并且已标记数据如果可用，则可用于训练预测机器学习模型。两个模型都被训练以欺骗鉴别器模型，该鉴别器模型是根据从表示模型和预测模型的中间层取得的数据来训练的。该过程限制预测模型以使预测与表示模型的预测相似，反之亦然。一旦训练周期完成，就丢弃数据流以便保留计算资源。

在一些实施例中，表示模型是基于神经网络的自编码器。一种自编码器包括编码组件和解码组件。这种格式帮助表示模型存储从数据流学习的相关信息，而不必在随后的训练周期中保留该信息。可以利用与数据流相关的未标记数据和标记数据并且基于重建损失和在训练时计算的对抗性项来训练表示模型。

在一些实施例中，预测模型是对经标记的训练数据使用随机梯度下降的神经网络。随机梯度下降在仅看到单个或几个训练样本之后跟随目标的负梯度。另外，在神经网络设置中使用随机梯度下降是由在整个训练集上运行反向传播的高成本推动的。随机梯度下降可以克服成本，同时还导致数据的快速收敛。预测模型还可以基于分类损失和在训练时计算的对抗性项使用随机梯度下降。

在一些实施例中，鉴别器是被配置为在预测模型的中间层输出与表示模型的中间层输出之间进行鉴别的神经网络。鉴别还可以基于在训练时计算的鉴别损失。例如，表示模型的中间层输出可以是在对样本进行编码之后产生的输出。

一次学习是一种机器学习形式，其中获得数据，用该数据训练模型，然后丢弃该数据。在训练周期之后不保存数据。因此，重点放在支持知识转移的算法上，该算法利用了学习的类别的先验知识，并允许在最少的训练样本上学习。知识传递的一种方式是基于先前和新学习的类之间的相似性通过模型参数的重用。

现在参考图1，示出了根据本公开的实施例的用于使用数据流的对抗性半监督一次训练的对抗性半监督一次学习系统100的高级框图。对抗性半监督一次学习系统100包括训练数据集110、预测模型120、表示模型130和鉴别器140。表示模型130包括编码器133和解码器136。

训练数据集110是被配置成用于训练预测模型120和表示模型130的对抗性半监督一次学习系统100的组件。训练数据集110包括从数据流生成的未标记和标记的数据。数据流可以是从位于车辆上的传感器收集的信息。例如，传感器包括例如遍及车辆定位的3轴传感器、相机、雷达和激光雷达传感器，其在车辆的操作期间收集传感器数据。3轴传感器可以包括关于驾驶记录器的速度、角度、纬度和经度信息。由这些传感器收集的信息可以被认为是可以用作训练数据集110的数据流。在一些实施例中，车辆的操作者可以标记来自数据流的样本。车辆可以连接到云服务，云服务可以提示操作者提供关于过去的车辆行为或事件的信息。例如，操作者可以提供关于诸如碰撞、物体、速度等事件的信息。所提供的信息可以用于标记样本并且将该标记的样本包括在训练数据集110中。否则，从数据流生成的样本可以保持不被标记。这样，训练数据集110包括标记数据集和未标记数据集。标记数据集包括由操作者提供的标记样本，并且未标记数据集包括从数据流生成的样本。

预测模型120是被配置为基于传感器数据输出车辆行为的对抗性半监督一次学习系统100的组件。预测模型120是使用来自训练数据集110的经标记的数据集来训练的机器学习模型。车辆行为包括例如加速、减速、物体回避、倒车、车道保持等。车辆行为可以由预测模型120基于由车辆收集的传感器数据来预测。例如，如果传感器数据检测到道路中的物体，则预测模型120可以预测避开检测到的物体的车辆行为。

预测模型120可以在基于传感器信息确定车辆行为时采用各种机器学习技术。机器学习技术可以包括通过对数据集执行监督训练并且随后应用所生成的算法或模型来生成车辆行为的条件概率而生成的算法或模型。机器学习算法可以包括但不限于决策树学习、关联规则学习、人工神经网络、深度学习、归纳逻辑编程、支持向量机、聚类、贝叶斯网络、强化学习、表示学习、相似性/度量训练、稀疏字典学习、遗传算法、基于规则的学习和/或其他机器学习技术。

例如，机器学习算法可以利用以下示例技术中的一个或多个：K最近邻(KNN)、学习矢量量化(LVQ)、自组织映射(SOM)、逻辑回归、普通最小二乘回归(OLSR)、线性回归、逐步回归、多元自适应回归样条(MARS)、岭回归、最小绝对收缩和选择算子(LASSO)、弹性网、最小角度回归(LARS)、概率分类器、朴素贝叶斯分类器、二元分类器、线性分类器、分层分类器、正则相关分析(CCA)、因子分析、独立分量分析(ICA)、隐马尔可夫模型、高斯贝叶斯、多项朴素贝叶斯、平均一相关估计器(AODE)、贝叶斯网络(BN)、分类和回归树(CART)、前馈神经网络、逻辑学习机、自组织映射、单联聚类、模糊聚类、分层聚类、玻尔兹曼机、卷积神经网络、递归神经网络、分层时间记忆(HTM)和/或其他机器学习技术。

在一些实施例中，预测模型120是基于如下所述的等式1训练的神经网络：

其中M_Cla表示预测模型120。标记的数据集被表示为输入向量，输入向量被表示为以预测被表示为目标标记y的车辆行为。M_Dis表示鉴别器140。表示训练期间的分类损失，/>表示对抗性项。N表示样本数。K表示类的数目。等式1可以用于使用随机梯度下降来优化训练数据集110中的每个标记样本。对于流中的每个数据观察，使用随机梯度下降(SGD)，如果它是标记样本，则我们通过调整M_Cla的神经网络中的参数来最小化等式1，其中分类损失要求M_Cla的预测尽可能接近目标标记y，而对抗性项要求预测模型h_Cla(x_i)的中间层输出尽可能接近表示模型h_Enc(x_i)的中间层输出。

一旦使用标记数据训练，预测模型l20产生车辆行为的预测并试图增加鉴别器140的错误率。通过产生鉴别器140认为是由表示模型130产生的车辆行为预测来增加错误率。

表示模型130是被配置为存储过去的未标记数据的信息的对抗性半监督一次学习系统100的组件。在一些实施例中，表示模型130是包括编码器133和解码器136的自编码器神经网络。表示模型130可学习从高维观察(例如，未标记数据)到较低维表示空间的映射，使得原始观察可从较低维表示近似地重构。表示模型130的编码器133可通过训练网络以忽略潜在噪声来学习未经标记数据的表示。而解码器136可以基于由编码器133产生的简化编码来产生尽可能接近原始输入的表示。本质上，编码器133将未标记数据映射为表示模型130的代码，并且解码器136将该代码映射为原始未标记数据的重构。

表示模型130可实现自编码器的变型以存储过去的未标记数据的信息。这些变化包括例如正则化自编码器和变分自编码器。正则化自编码器包括，例如，稀疏自编码器(SAE)、去噪自编码器(DAE)和收缩自编码器(CAE)。SAE可以学习比输入更多的隐藏单元，同时仅允许少量的隐藏单元同时是活动的。具体地，SAE包括涉及码层内的稀疏性惩罚的训练准则。SAE的变型包括k稀疏编码器，其手动地将除了最强隐藏单元激活之外的所有单元清零。可通过对活动进行排序且仅保留前k个值来实现对最强隐藏单元激活的识别。DAE可以获得部分损坏的输入，并通过对输入的去噪来恢复未失真的输入。

变分自编码器是生成模型，如生成对抗性网络。变分自编码器是直接概率图模型，其后验由类似自编码器的架构的神经网络近似。

在一些实施例中，表示模型130如以下定义的等式2中所描述的那样被训练：

其中M_Dec表示解码器136，M_Enc表示编码器133。标记的数据集被表示为所表示的输入向量，以使用未标记的数据集作为输入向量4来预测被表示为目标y的车辆行为。M_Dis表示鉴别器140。/>表示训练期间的重建损失，并且/>表示对抗性项。N表示样本数。等式2可以用于使用随机梯度下降来优化训练数据集110中的每个标记的和未标记的样本。对于流中的每个数据观察，使用随机梯度下降(SGD)，我们通过在由编码器M_Enc和解码器M_Dec组成的自编码器中调整参数来最小化等式2，其中重构损失要求M_Enc和M_Dec、M_Dis(h_Enc(4))的重构尽可能接近输入4，并且对抗性项要求表示模型h_Enc(x_i)的中间层输出尽可能接近预测模型h_Cla(x_i)的中间层输出。

一旦被训练，表示模型130产生车辆行为的预测，并试图增加鉴别器140的错误率。通过产生鉴别器认为是由预测模型120产生的车辆行为预测，增加了错误率。

鉴别器140是被配置为区分由预测模型120和表示模型130做出的预测的对抗性半监督一次学习系统的组件。鉴别器140通过旨在鉴别由预测模型120或表示模型130产生的车辆行为预测来促进预测模型120和表示模型130的训练。例如，鉴别器140预测哪个模型产生预测。预测模型120和表示模型130与鉴别器140竞争，预测模型120和表示模型130被调整或以其他方式被优化以提供尽可能接近地对应于彼此的车辆预测的车辆行为预测——由此增加鉴别器140的错误率。在训练过程期间，使用由预测模型120和表示模型130产生的中间层输出来训练鉴别器140。例如，由编码器133产生的输出可以用于训练鉴别器140，使得其增加其在区分由其他模型做出的车辆行为预测中的成功率。

在一些实施例中，鉴别器140如在以下所定义的等式3中所描述那样训练：

其中M_Dis表示鉴别器140，训练数据集110表示为所表示的输入向量，以使用训练数据集作为输入向量4来预测表示为目标y的鉴别。表示训练期间的鉴别力损失。等式3可用于使用随机梯度下降来优化训练数据集110中的每个标记的和未标记的样本。另外，h_Cla(x_i)表示由预测模型120针对标记x_i产生的中间层输出，且h_Enc(x_i)表示由表示模型130针对标记x_i产生的中间层输出。N表示样本数。对于流中的每个数据观察，使用随机梯度下降(SGD)，我们通过调整判别M_Dis中的参数来最小化等式3，其中辨别损失要求M_Dis的判别尽可能正确地将预测模型h_Cla(x_i)产生的中间层输出与编码器h_Enc(z_i)产生的中间层输出进行辨别。

注意，图1旨在描述示例性对抗性半监督一次学习系统100的主要代表性组件。然而，在一些实施例中，各个组件可以具有比图1中所表示的更大或更小的复杂度，可以存在不同于图1中所示的组件或除其之外的组件，并且这些组件的数量、类型和配置可以变化。

图2是示出根据本公开的实施例的对抗性半监督一次学习的过程200的流程图。过程200可以由硬件、固件、在处理器上执行的软件、边缘设备(例如，车辆)、云服务或其组合来执行。例如，过程200的任何或所有步骤可由嵌入在计算设备中的一个或多个处理器执行。

过程200通过接收与自主车辆有关的数据流开始。数据流包括从数据流生成的并且用作训练数据集110的未标记和标记数据。这在步骤210中示出。数据流可以是从位于车辆上的传感器收集的信息。例如，传感器包括例如遍及车辆定位的3轴传感器、相机、雷达和激光雷达传感器，其在车辆的操作期间收集传感器数据。车辆的操作者可以标记来自数据流的样本。车辆可以连接到云服务，云服务可以提示操作者提供关于过去的车辆行为或事件的信息。例如，操作者可以提供关于诸如碰撞、物体、速度等事件的信息。所提供的信息可以用于标记样本并且将该标记的样本包括在训练数据集110中。

使用来自由数据流产生的训练数据集110的标记数据集来训练预测模型120。这在步骤220中示出。预测模型120可以使用经标记的数据的随机梯度下降来训练。另外，训练可以基于分类损失和对抗性项。在一些实施例中，分类损失和对抗性项基于上面定义的等式1。分类损失可以是标记的数据集和由预测模型120产生的预测之间的交叉熵。对抗性项还可以是表示模型130的中间层输出与由预测模型120产生的预测之间的交叉熵。在预测模型120的训练期间，分类损失被最小化，并且在每个训练周期期间，对抗性项被最大化以便提高预测模型120的性能。

使用由数据流产生的训练数据集110来训练表示模型130。这在步骤230中示出。在一些实施例中，训练数据集110仅具有未标记的数据集。表示模型130仍可仅使用未标记的数据集来训练。然而，如果标记的数据集可用，则表示模型130可用来自训练数据集110的未标记数据集和标记数据集两者来训练。使用对训练数据集110的随机梯度下降，用训练数据集110训练表示模型130。另外，训练可以基于重建损失和对抗性项。在一些实施例中，重建损失和对抗性项基于以上定义的等式2。重建损失可以是训练数据集110与由表示模型130产生的预测之间的平方损失。对抗性项可以是预测模型120的中间层输出与由表示模型130进行的预测之间的交叉熵。在表示模型130的训练期间，在每个训练周期期间，重建损失被最小化，并且对抗性项被最大化，以便改进表示模型130的性能。

使用由预测模型120和表示模型130产生的中间层输出来更新鉴别器140。这在步骤240中示出。类似于表示模型130，当仅未标记的数据集可用时，仍然可以训练鉴别器140。然而，如果标记的数据集可用，则鉴别器140仍可被更新。通过对由预测模型120及表示模型130产生的中间层输出应用随机梯度下降来更新鉴别器140。另外，训练可以基于鉴别损失。在一些实施例中，鉴别损失基于以上定义的等式3。鉴别损失可以是预测模型120的中间层输出与表示模型130的中间层输出之间的交叉熵。在更新鉴别器140时，在每个训练周期期间最小化鉴别损失，以便提高鉴别器140的性能。

预测模型120和表示模型130预测被分析以确定它们的车辆行为预测是否导致鉴别器140的鉴别错误率阈值。这在步骤250中示出。错误率阈值可以是预定阈值设置，使得模型被令人满意地训练。例如，对于鉴别器140预测，错误率阈值可被设置为75％的错误率。如果鉴别器140不能鉴别哪个预测是由任一模型以75％的比率产生的，则模型可被视为充分训练的。如果模型超过阈值，则丢弃数据流，并完成训练。这在步骤260中示出。然而，如果还没有达到阈值，则训练循环返回到步骤210并且重复其本身直到训练导致模型达到阈值。训练也可以在对数据流进行观察时发生，以便实现预测模型120和表示模型130的改进的性能。

现在参考图3，示出了根据本公开的实施例的示例计算机系统300(例如，对抗性半监督一次学习系统100)的高级框图，该示例计算机系统可以用于实现本文描述的方法、工具和模块中的一个或多个以及任何相关功能(例如，使用计算机的一个或多个处理器电路或计算机处理器)。在一些实施例中，计算机系统300的主要组件可以包括一个或多个处理器302、存储器304、终端接口312、I/O(输入/输出)设备接口314、存储接口316和网络接口318，所有这些组件可以直接或间接地通信耦合，以便经由存储器总线303、I/O总线308和I/O总线接口310进行组件间通信。

计算机系统300可以包含一个或多个通用可编程中央处理单元(CPU)302-1、302-2、302-3和302-N，在此统称为处理器302。在一些实施例中，计算机系统300可以包含相对大的系统的典型的多个处理器；然而，在其它实施例中，计算机系统300可以替代地是单CPU系统。每个处理器301可以执行存储在存储器304中的指令，并且可以包括一级或多级板载高速缓存。

存储器304可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)322或高速缓存324。计算机系统300还可以包括其它可移除/不可移除、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统326可被提供用于从诸如“硬盘驱动器”等不可移除、非易失性磁介质读取和向其写入。尽管未示出，但是可以提供用于从可移除、非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器，或者用于从诸如CD-ROM、DVD-ROM或其它光学介质的可移除、非易失性光盘读取或向其写入的光盘驱动器。另外，存储器304可以包括闪存，例如，闪存棒驱动器或闪存驱动器。存储器设备可以通过一个或多个数据介质接口连接到存储器总线303。存储器304可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，该程序模块被配置成执行各种实施例的功能。

尽管存储器总线303在图3中被示为在处理器302、存储器304和I/O总线接口310之间提供直接通信路径的单个总线结构，但是在一些实施例中，存储器总线303可以包括多个不同的总线或通信路径，其可以以各种形式中的任何形式来布置，诸如分层、星形或网状配置中的点对点链路、多层总线、并行和冗余路径、或任何其他适当类型的配置。此外，虽然I/O总线接口310和I/0总线308被示为单个相应的单元，但是在一些实施例中，计算机系统300可以包含多个I/O总线接口单元、多个I/O总线或两者。此外，虽然示出了将I/O总线308与通向各种I/O设备的各种通信路径分开的多个I/O接口单元，但是在其他实施例中，一些或所有I/O设备可以直接连接到一个或多个系统I/O总线。

在一些实施例中，计算机系统300可以是多用户大型计算机系统、单用户系统、或服务器计算机或具有很少或没有直接用户接口但从其它计算机系统(客户端)接收请求的类似设备。此外，在一些实施例中，计算机系统300可以被实现为台式计算机、便携式计算机、膝上型或笔记本计算机、平板计算机、袖珍计算机、电话、智能电话、网络交换机或路由器、或任何其他适当类型的电子设备。

注意，图3旨在描绘示例性计算机系统300的主要代表性组件。然而，在一些实施例中，各个组件可以具有比图3中所表示的更大或更小的复杂度，可以存在不同于图3中所示的那些组件或除其之外的组件，并且这些组件的数量、类型和配置可以变化。

一个或多个程序/实用程序328，每个具有至少一组程序模块330(例如，对抗性半监督一次学习系统100)，可以存储在存储器304中。程序/实用程序328可包括系统管理程序(也称为虚拟机监视器)、一个或多个操作系统、一个或多个应用程序、其它程序模块和程序数据。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序328和/或程序模块330通常执行各种实施例的功能或方法。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所陈述的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过标准机制来访问，该标准机制促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和个人数字助理)使用。

资源池化：供应商的计算资源被池化以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云系统通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明性。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户端界面从各种客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于建筑物内或建筑物外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

现在参考图4，描绘了说明性云计算环境400。如图所示，云计算环境400包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点410，所述本地计算设备例如个人数字助理或蜂窝电话420-1、台式计算机420-2、膝上型计算机420-3和/或汽车计算机系统420-4。节点410可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境400提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图4中所示的计算设备420-1至420-4的类型仅旨在说明，并且计算节点410和云计算环境400可以在任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)上与任何类型的计算设备通信。

现在参考图5，示出了由云计算环境400(图4)提供的一组功能抽象层500。应当预先理解，图5中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层510包括硬件和软件组件。硬件组件的示例包括主机511；基于RISC(精简指令集计算机)架构的服务器512；服务器513；刀片服务器514；存储设备515；以及网络和联网组件516。在一些实施例中，软件组件包括网络应用服务器软件517和数据库软件518。

虚拟化层520提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器521；虚拟存储器522；虚拟网络523，包括虚拟专用网络；虚拟应用和操作系统524；以及虚拟客户端525。

在一个示例中，管理层530可以提供以下描述的功能。资源供应531提供了对被用来在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价532提供在云计算环境内利用资源时的成本跟踪，以及用于消耗这些资源的账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户533为消费者和系统管理员提供对云计算环境的访问。服务级别管理534提供云计算资源分配和管理，使得满足所需的服务级别。服务级别协议(S.L.A)计划和履行535提供根据美国国家标准对其预期未来需求的云计算资源的预先安排和采购

工作负载层540提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括映射和导航541；软件开发和生命周期管理542(例如，对抗性半监督一次学习系统100)；虚拟教室教育传送543；数据分析处理544；交易处理545；以及精确队列分析546。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保持和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以作为一个步骤来实现，同时、基本同时、以部分或全部时间重叠的方式执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

本文所使用的术语仅用于描述特定实施例的目的，且不希望限制各种实施例。如本文所用，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确指示。还将理解，术语“包括”和/或“包含”在本说明书中使用时，指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。在各种实施例的示例实施例的先前详细描述中，参考了附图(其中相同的标号表示相同的元件)，附图形成了本发明的一部分，并且其中通过图示示出了其中可以实践各种实施例的特定示例实施例。这些实施例被足够详细地描述以使本领域技术人员能够实践这些实施例，但是可以使用其他实施例，并且可以在不偏离各种实施例的范围的情况下做出逻辑、机械、电气和其他改变。在之前的描述中，阐述了许多具体细节以提供对各种实施例的透彻理解。但是，没有这些具体细节也可以实现各种实施例。在其它实例中，为了不使实施例模糊，没有详细示出公知的电路、结构和技术。

当不同的参考数字包括共同的数字，其后跟随不同的字母(例如100a、100b、100c)或标点符号，其后跟随不同的数字(例如100-1、100-2或100.1、100.2)时，仅在没有字母或后面的数字(例如100)的情况下使用参考字符可以指作为整体的元件组、该组的任何子集、或该组的示例样本。

此外，当与项目列表一起使用时，短语“至少一个”意味着可以使用所列项目中的一个或多个的不同组合，并且可能仅需要列表中的每个项目中的一个。换句话说，“至少一个”是指项目的任意组合，并且可以使用来自列表的项目的数量，但是不是列表中的所有项目都是必需的。项目可以是特定对象、事物或类别。

例如，但不限于，“项目A、项目B或项目C中的至少一个”可以包括项目A、项目A和项目B或项目B。该示例还可以包括项目A、项目B和项目C或项目B和项目C。当然，这些项目的任何组合都可以存在。在一些说明性示例中，“至少一个”可以是例如但不限于项目A两个；项目B一个；和项目C十个；项目B四个和项目C七个；或其它合适的组合中的两个。

在本说明书中使用的词语“实施例”的不同实例不一定是指相同的实施例，而是它们可以是指相同的实施例。在此示出或描述的任何数据和数据结构仅是示例，并且在其他实施例中，可以使用不同的数据量、数据类型、字段的数量和类型、字段名、行的数量和类型、记录、条目或数据的组织。此外，任何数据都可以与逻辑组合，从而可以不需要单独的数据结构。因此，前面的详细描述不应被理解为限制性的。

已经出于说明的目的呈现了对本公开的各种实施例的描述，但是其并非旨在是穷举的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的实施例。

尽管已经根据具体实施例描述了本发明，但是可以预期，对于本领域技术人员来说，本发明的改变和修改将变得显而易见。因此，所附权利要求书应被解释为涵盖落入本发明的真实范围内的所有这些变更和修改。

Claims

1.一种使用数据流的对抗性半监督一次训练的计算机实现的方法，所述计算机实现的方法包括：

接收基于观察的数据流，其中所述数据流包括未标记数据和标记数据；

使用基于分类损失和对抗性项的随机梯度下降来利用所述标记数据训练预测模型；

基于重建损失和所述对抗性项，利用所述标记数据和所述未标记数据来训练表示模型；

用来自所述预测模型和所述表示模型的中间层输出数据并基于鉴别损失来更新鉴别器；以及

丢弃所述数据流。

2.根据权利要求1所述的计算机实现的方法，其中所述分类损失是所述标记数据与来自所述预测模型的预测输出之间的交叉熵。

3.根据权利要求1所述的计算机实现的方法，其中所述对抗性项是来自所述预测模型和所述表示模型的所述中间层输出数据之间的交叉熵。

4.根据权利要求1所述的计算机实现的方法，其中，所述重建损失是所述数据流与由所述表示模型输出的重建之间的平方损失。

5.根据权利要求1所述的计算机实现的方法，其中所述鉴别损失是所述预测模型和所述表示模型的所述中间层输出数据之间的交叉熵。

6.根据权利要求1所述的计算机实现的方法，其中所述表示模型是基于神经网络的自编码器。

7.根据权利要求1所述的计算机实现的方法，其中，所述预测模型是具有作为编码器的底层的神经网络。

8.根据权利要求1所述的计算机实现的方法，其中所述鉴别器是神经网络，所述神经网络被配置为鉴别所述预测模型的中间层输出与所述表示模型的中间层输出。

9.一种使用数据流的对抗性半监督一次训练的系统，所述系统包括：

存储器；

处理器；

本地数据存储装置，其上存储有计算机可执行代码；

预测模型，其被配置为预测车辆行为，其中所述预测模型是使用基于分类损失和对抗性项的随机梯度下降利用来自数据流的标记数据来训练的；

表示模型，其被配置为预测所述车辆行为，其中，所述表示模型是基于重建损失和所述对抗性项利用来自所述数据流的未标记数据和所述标记数据来训练的；以及

鉴别器，其被配置为预测由所述预测模型及所述表示模型作出的预测，其中所述鉴别器用来自所述预测模型及所述表示模型的中间层输出数据且基于鉴别损失来训练。

10.如权利要求9所述的系统，其中，所述分类损失是所述标记数据与来自所述预测模型的预测输出之间的交叉熵。

11.如权利要求9所述的系统，其中所述对抗性项是来自所述预测模型的所述中间层输出数据与所述表示模型之间的交叉熵。

12.根据权利要求9所述的系统，其中，所述重建损失是所述数据流与由所述表示模型输出的重建之间的平方损失。

13.如权利要求9所述的系统，其中所述鉴别损失是所述预测模型和所述表示模型的所述中间层输出数据之间的交叉熵。

14.根据权利要求9所述的系统，其中所述表示模型是基于神经网络的自编码器。

15.根据权利要求9所述的系统，其中，所述预测模型是具有作为编码器的底层的神经网络。

16.根据权利要求9所述的系统，其中所述鉴别器是神经网络，所述神经网络被配置为在所述预测模型的中间层和所述表示模型的中间层的输出之间进行鉴别。

17.一种用于使用数据流的对抗性半监督一次训练的计算机程序产品，所述计算机程序产品包括：

一个或多个计算机可读存储介质，以及存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：

用于接收基于观察的数据流的程序指令，其中所述数据流包括未标记数据和标记数据；

用于使用基于分类损失和对抗性项的随机梯度下降来利用所述标记数据训练预测模型的程序指令；

用于基于重建损失和所述对抗性项利用所述标记数据和所述未标记数据训练表示模型的程序指令；

用于使用来自所述预测模型和所述表示模型的中间层输出数据并且基于鉴别损失来更新鉴别器的程序指令；以及

用于丢弃所述数据流的程序指令。

18.如权利要求17所述的计算机程序产品，其中，所述分类损失是所述标记数据与来自所述预测模型的预测输出之间的交叉熵。

19.根据权利要求17所述的计算机程序产品，其中所述对抗性项是来自所述预测模型和所述表示模型的所述中间层输出数据之间的交叉熵。

20.根据权利要求17所述的计算机程序产品，其中所述重建损失是所述数据流与由所述表示模型输出的重建之间的平方损失。