CN116610868B

CN116610868B - 样本标注方法、端边云协同训练方法及装置

Info

Publication number: CN116610868B
Application number: CN202310860786.3A
Authority: CN
Inventors: 周希敏; 张冠男; 孙仁恩; 魏鹏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-29
Anticipated expiration: 2043-07-13
Also published as: CN116610868A

Abstract

本说明书一个或多个实施例提供一种样本标注方法、端边云协同训练方法及装置。该方法包括：获取设置在所述终端设备中的资源推荐网络的输入特征；利用所述资源推荐网络对所述输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定；获取已进行推理的待展示资源的曝光数据，并根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值；根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据。利用推理解决方案与训练解决方案的信息交互完成端侧自动化的样本数据标注，并通过将推理ID与输入特征绑定，可以保证样本标注与输入特征的对应，以更准确地对资源推荐网络进行训练。

Description

样本标注方法、端边云协同训练方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种样本标注方法、端边云协同训练方法及装置。

背景技术

端边云协同训练是一种利用手机终端、边缘CDN（Content Delivery Network，内容分发网络）节点和云端服务器共同完成深度学习网络训练的方法。

在对资源推荐网络进行端边云协同训练的情况下，可以首先在终端进行小规模网络训练，并将梯度上传至云端以更新网络，最终云端下发更新后的网络至终端，从而可以有效解决数据隐私、通信开销和计算资源的问题。

然而在手机终端如何获取用于训练资源推荐网络的样本数据的标签是目前需要解决的问题。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种样本标注方法、端边云协同训练方法及装置。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种样本标注方法，应用于终端设备，包括：

获取设置在所述终端设备中的资源推荐网络的输入特征，所述输入特征包括待展示资源的特征和所述终端设备的用户特征，所述资源推荐网络用于确定所述用户对所述待展示资源的感兴趣程度；

利用所述资源推荐网络对所述输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定；

获取已进行推理的待展示资源的曝光数据，并根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值，其中，所述曝光数据包括推理的ID；

根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据。

在一些实施例中，所述方法还包括：

利用预先设置的埋点，获取埋点数据，所述埋点数据包括用户行为数据；

通过对所述埋点数据进行流式计算，得到所述终端设备的用户特征。

在一些实施例中，所述将所述输入特征与该次推理的ID进行绑定，包括：

将推理的ID与该次推理的输入特征作为键值对，存入设定长度的存储队列中。

在一些实施例中，所述方法还包括：在存储键值对时所述存储队列已满的情况下，将最先进入所述存储队列的键值对删除。

在一些实施例中，所述根据所述推理的ID获取对应的输入特征，包括：

根据所述推理的ID，获取所述存储队列中包含所述推理的ID的键值对中的输入特征；

将所述键值对从所述队列中删除。

在一些实施例中，在待展示资源包括视频的情况下，所述曝光数据还包括总视频时间、观看时长；

所述根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值，包括：

根据所述待展示资源的观看时长与总视频时间的关系，确定所述用户对所述待展示资源的感兴趣程度的真实值。

根据本说明书一个或多个实施例的第二方面，提出了一种端边云协同训练方法，应用于终端设备，包括：

利用本说明书一个或多个实施例得到的样本数据，对设置在所述终端设备中的资源推荐网络进行训练，所述资源推荐网络用于确定所述终端设备的用户对待展示资源的感兴趣程度；

将训练后的资源推荐网络的梯度信息发送到边缘节点，其中，所述边缘节点接收多个终端设备的梯度信息，并将对所接收的多个终端设备的梯度信息进行平均，将平均后的梯度信息发送至云端，以使云端对所存储的资源推荐网络进行训练；

接收云端发送的经训练的资源推荐网络的参数，并利用所述参数对所述终端设备中的资源推荐网络进行更新。

根据本说明书一个或多个实施例的第三方面，提出了一种样本标注装置，应用于终端设备，包括：

第一获取单元，用于获取设置在所述终端设备中的资源推荐网络的输入特征，所述输入特征包括待展示资源的特征和所述终端设备的用户特征，所述资源推荐网络用于确定所述用户对所述待展示资源的感兴趣程度；

推理单元，用于利用所述资源推荐网络对所述输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定；

第二获取单元，用于获取已进行推理的待展示资源的曝光数据，并根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值，其中，所述曝光数据包括推理的ID；

标注单元，用于根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据，所述样本数据用于对所述资源推荐网络进行训练。

在一些实施例中，所述装置还包括埋点单元，用于：

在一些实施例中，所述推理单元在用于将所述输入特征与该次推理的ID进行绑定时，具体用于：

在一些实施例中，所述推理单元在用于将推理的ID与该次推理的输入特征作为键值对，存入设定长度的存储队列中时，具体用于：在存储键值对时所述存储队列已满的情况下，将最先进入所述存储队列的键值对删除。

在一些实施例中，所述标注单元在用于根据所述推理的ID获取对应的输入特征时，具体用于：

将所述键值对从所述队列中删除。

所述第二获取单元具体用于：

根据本说明书一个或多个实施例的第四方面，提出了一种端边云协同训练装置，应用于终端设备，包括：

训练单元，用于利用本说明书一个或多个实施例得到的样本数据，对设置在所述终端设备中的资源推荐网络进行训练，所述资源推荐网络用于确定所述终端设备的用户对待展示资源的感兴趣程度；

发送单元，用于将训练后的资源推荐网络的梯度信息发送到边缘节点，其中，所述边缘节点接收多个终端设备的梯度信息，并将对所接收的多个终端设备的梯度信息进行平均，将平均后的梯度信息发送至云端，以使云端对所存储的资源推荐网络进行训练；

更新单元，接收云端发送的经训练的资源推荐网络的参数，并利用所述参数对所述终端设备中的资源推荐网络进行更新。

根据本说明书一个或多个实施例的第五方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现本说明书一个或多个实施例提出的方法。

根据本说明书一个或多个实施例的第六方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现本说明书一个或多个实施例提出的方法的步骤。

在本说明书实施例中，首先获取设置在所述终端设备中的资源推荐网络的输入特征，该输入特征包括待展示资源的特征和所述终端设备的用户特征；利用该资源推荐网络对输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定；获取已进行推理的待展示资源的曝光数据，并根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值；根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据，该样本数据用于对所述资源推荐网络进行训练。该方案利用推理解决方案与训练解决方案的信息交互完成端侧自动化的样本数据标注，通过对每次推理生成唯一标识——推理的ID，并将推理的ID与输入特征绑定，可以保证样本标注与输入特征的对应，以更准确地对资源推荐网络进行训练。

附图说明

图1是一示例性实施例提供的样本标注方法的一种应用环境示意图。

图2是一示例性实施例提供的一种样本标注方法的流程图。

图3是一示例性实施例提出的一种样本标注方法的示意图。

图4是一示例性实施例提供的一种端边云协同训练方法的流程图。

图5是一示例性实施例提供的一种样本标注装置的框图。

图6是一示例性实施例提供的一种端边云协同训练装置的框图。

图7是一示例性实施例提供的一种设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

在端边云协作进行资源推荐的场景中，在打开资源推荐页面时，例如短视频APP首页、生活分享APP首页，终端设备向云端发送推荐请求。云端和终端设备中皆存储有资源推荐网络（也可以称为端重排网络）。在云端中的资源推荐网络在初始状态下是利用非隐私数据（不涉及具体用户）进行训练的，云端向终端发送待展示资源集合。在利用与终端设备的用户相关的隐私数据对终端设备中存储的资源推荐网络进行训练的情况下，资源推荐页面根据资源推荐网络对待展示资源的评分展示的资源，将更符合用户的偏好。

终端在完成训练后，可以将梯度上传至云端以更新存储在云端的资源推荐网络，最终云端下发更新后的网络至终端，从而可以有效解决数据隐私、通信开销和计算资源的问题。

有鉴于此，本说明书提出一种样本标注方法，通过利用设置在终端设备中的资源推荐网络对输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定，并根据已进行推理的待展示资源的曝光数据确定感兴趣程度的真实值，并将该真实值作为标签（label）对输入特征进行标注，则可以得到用于训练资源推荐网络的样本数据。

为了更好理解本说明书实施例提供的样本标注方法、端边云协同训练方法及装置，下面先对适用于本说明书实施例的应用环境进行描述。请参阅图1，图1示出了本说明书一实施例提供的样本标注方法的一种应用环境示意图。作为一种实施方式，本说明书实施例提供的样本标注方法可以应用于终端设备，该终端设备可以是智能手机、平板电脑、笔记本电脑、智能家电等。一个区域内的终端设备可以通过网络与边缘节点相连，也即该边缘节点管理着一个区域内的终端设备。各个区域的边缘节点可以分别接入云端服务器。

应该理解，图1中的终端设备、边缘节点、云端服务器仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、边缘节点和云端服务器。示例性地，云端服务器可以是物理服务器，也可以是由多个服务器组成的服务器集群等。

在一些实施例中，终端设备可以接收用户导入的待处理代码,通过本说明书实施例所述的样本标注方法对待处理代码进行处理。

图2是本说明书一示例性实施例示出的一种样本标注方法的流程图，该方法包括步骤201~204。

在步骤201中，获取设置在所述终端设备中的资源推荐网络的输入特征。

其中，资源推荐网络用于对该终端设备的用户对待展示资源的感兴趣程度进行评分。待展示资源可以是云端发送的推荐资源集合中的资源，该资源可以是视频资源，也可以是音频、图文资源等等。该资源推荐网络的输入特征可以包括待展示资源的特征和终端设备的用户特征，资源推荐网络根据待展示资源的特征和用户特征可以确定该用户对于待展示资源的感兴趣程度，并输出对用户对于待展示资源的感兴趣程度的评分。分数越高则表示用户对该待展示的资源越感兴趣，反之，分数低则表示用户对该待展示的资源不感兴趣。

其中，资源推荐网络例如可以是卷积神经网络(Convolutional NeuralNetworks,CNN),或者长短期记忆神经网络(Long Short-Term Memory，LSTM)。本领域技术人员应当理解，以上资源推荐网络的具体结果仅为示例，本说明书对此不进行限制。

在本步骤中，输入至资源推荐网络的用户特征主要是指用户的行为特征，例如用户在设定页面上的点击情况、浏览情况等等。

在步骤202中，利用所述资源推荐网络对所述输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定。

为了确保每次推理的唯一性，在本步骤中，为每次推理生成一个唯一标识，即推理ID，将每次推理的输入特征与该次推理的ID进行绑定，并将输入特征存入本地存储。

在步骤203中，获取已进行推理的待展示资源的曝光数据，并根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值，其中，所述曝光数据包括推理的ID。

在待展示资源对用户进行了展示，并且展示行为符合设定要求，例如该展示是用户可以直观看到的，并且该展示超过一定的停留时长，则认为该待展示资源进行了曝光，并获取该待展示资源的曝光数据。

在本步骤中，进行曝光的待展示资源是在步骤202中已经进行推理的资源，因此曝光数据中包含了该资源进行推理的ID。

根据曝光数据可以确定该用户对待展示资源实际的感兴趣程度，也即感兴趣程度的真实值。

在步骤204中，根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据，所述样本数据用于对所述资源推荐网络进行训练。

在本说明书实施例中，可以将步骤201和202对输入特征进行推理，并将推理的ID与输入特征进行绑定的过程称为推理解决方案，将步骤203利用曝光数据得到用户对待展示资源的感兴趣程度的真实值的过程称为训练解决方案。

由于在推理解决方案中，每次进行推理的输入特征是与推理的ID一一对应的，因此在训练解决方案中，根据曝光数据中所包含的推理的ID，可以确定对应的输入特征。也即，通过将每次推理的输入特征与推理ID进行绑定，后续对待展示资源进行曝光时能够准确地确定该曝光是由哪次推理产生的结果，这样就可以将用户对资源内容的真实反应与该次推理行为进行绑定。通过对输入特征标注用户对于资源内容的感兴趣程度的真实值得到样本数据，可以更准确地对资源推荐网络进行训练。

在一些实施例中，可以利用预先设置的埋点，获取埋点数据，所述埋点数据包括用户行为数据；通过对所述埋点数据进行流式计算（Stateful Stream Processing, SSP），得到所述终端设备的用户行为特征。利用预先设置埋点，可以实现对指定网页的数据采集，例如对于终端设备中某APP的资源推荐页面的数据采集。具体地，可以在需要采集数据的操作节点将进行埋点的程序代码附加在功能程序代码中，对操作节点上用户行为或事件进行捕捉、处理和发送相关数据。流式计算是基于统一事件处理框架埋点事件的流式处理框架，可对埋点事件进行流式处理、聚合计算，通过对流动数据在不断变化的运动过程中实时进行分析，可以捕捉到所需要的终端设备的用户行为特征。

本说明书实施例还提出了一种用于保存推理过程中生成的数据和结果的存储方案。

具体地，在终端中可以设置设定长度的存储队列。将推理过程中每次推理的ID与该次推理的输入特征作为键值对（key-value pair），存入该存储队列中。

该存储队列可以维护的键值对数目，也即存储队列的长度可以根据实际需要进行设置，例如可以设置为维护50个键值对。在这种情况下，终端中存储的key最多为51个，其中一个用于维护队列。

当需要保存新的键值对数据时，检测该存储队列是否已满。在该存储队列已满的情况下，将最先进入所述存储队列的键值对删除，也即将队列中最老的key（推理的ID）从队列中删除，并将该key对应的内容（输入特征）在端存储中剔除。通过该方式可以保证推理过程中产生数据的顺序的正确性。

在训练解决方案中，可以根据所述推理的ID，获取所述存储队列中包含所述推理的ID的键值对中的输入特征；并将所述键值对从所述队列中删除。也即在从队列中取出对应的数据后，会进行移除操作，这样能够保证端存储最多设定数目个键值对，防止产生的数据占用过多的存储空间，对终端设备的使用产生影响。

在待展示资源包括视频的情况下，所述曝光数据还包括总视频时间、观看时长；在这种情况下，可以根据所述待展示资源的观看时长与总视频时间的关系，确定所述用户对所述待展示资源的感兴趣程度的真实值。

举例来说，在一个视频资源的总视频时间为2分钟的情况下，如果用户对该视频的观看时长超过1分钟，说明该用户对该视频的感兴趣程度是较高的，因此感兴趣程度的分值也是较高的；相反，如果用户对该视频的观看时长不足5秒，则说明该有用户对视频是不感兴趣的，相应的分值也较低。

而通过将用户对视频的感兴趣程度的真实值对输入特征进行标注，得到样本数据，并利用样本数据对资源推荐网络进行训练，可以使网络学习到该用户所感兴趣的资源的特征或类型。

例如，在用户感兴趣程度较高的视频类型多为娱乐类型、运动类型的情况下，资源推荐网络可以学习出用户对这些类型的视频更为感兴趣，输出的评分较高，推荐的优先级更高。

在训练解决方案中，在获取与推理的ID对应的输入特征的情况下，将该输入特征输入至资源推荐网络可以得到用户对待展示资源的感兴趣程度的预测值。通过将该预测值与通过曝光数据得到的感兴趣程度的真实值之间的差异对资源推荐网络的参数进行调整，使二者之间的差异逐渐减小。在差异满足设定要求，或者迭代次数满足设定数目的情况下，实成对资源推荐网络的训练。

以下结合图3对本说明书实施例提出的样本标注方法进行描述。

如图3所示，可以利用数据采集模块对终端设备进行数据采集，以获取推理特征。其中，该推理特征是利用存储在该终端设备中的资源推荐网络进行推理所需的输入特征。在资源推荐网络用于对该终端设备的用户对待展示资源的感兴趣程度进行评分的情况下，输入特征可以包括待展示资源的特征和用户的行为特征。其中，用户的行为特征可以利用进行数据埋点、流式计算的方式获取，而待展示资源的特征可以是预先标记的，例如该资源属于哪一个类型，包括生活类型、娱乐类型、学习类型等。

可以针对每个所得到的输入特征生成一个推理ID，在利用资源推荐网络对输入特征进行推理，得到输出结果后，则可以将该次推理的输入特征与对应的推理ID进行绑定。其中，该推理ID是该次推理的唯一标识，因此可以在后续对资源内容进行曝光时能够准确地确定该曝光是由哪次推理产生的结果，从而能够将用户对资源内容的真实反应与该次推理行为进行绑定，以更准确地进行模型训练。

对于进行推理的输入特征以及与该输入特征绑定的推理ID，可以共同进行本地存储。例如，可以将推理ID和输入特征作为键值对，存入设定长度的存储队列中。其中，推理ID可以作为key，而输入特征可以作为value。

在进行了多次推理后，则可以进入训练解决方案。具体地，可以根据数据采集模块所采集的数据，获取资源内容数据，也即进行推理的待展示资源的曝光数据。通过对该曝光数据进行解析，可以计算得出用户对于该资源内容的感兴趣程度的真实值，并将该真实值作为标签。

由于曝光数据中包含了待展示资源对应的推理ID，因此可以从端本地存储数据中获取该推理ID对应的输入特征作为待标注的特征样本。通过将该待展示资源对应的真实值（标签）与该输入特征进行绑定，实现了对特征样本的标注，得到了用于对资源推荐网络进行训练的样本数据。

本说明书实施例还提出了一种端边云协同训练方法，如图4所示，该方法包括步骤401~403。

在步骤401中，利用根据本说明书一个或多个实施例得到的样本数据，对设置在所述终端设备中的资源推荐网络进行训练，所述资源推荐网络用于确定所述终端设备的用户对待展示资源的感兴趣程度。

在步骤402中，将训练后的资源推荐网络的梯度信息发送到边缘节点，其中，所述边缘节点接收多个终端设备的梯度信息，并将对所接收的多个终端设备的梯度信息进行平均，将平均后的梯度信息发送至云端，以使云端对所存储的资源推荐网络进行训练。

在步骤403中，接收云端发送的经训练的资源推荐网络的参数，并利用所述参数对所述终端设备中的资源推荐网络进行更新。

在本说明书实施例中，通过将在终端设备中训练得到资源推荐网络的梯度信息发送至边缘节点，由边缘节点对多个终端的梯度信息进行平均后再上报至云端，实现对云端存储的资源推荐网络的训练，再利用云端的参数对终端的网络进行更新。该方案将用户的特征和对资源的曝光信息保留在端上，一定程度上保护了用户的隐私；并且减少了数据传输的需求，提高了资源推荐网络的准确度和适应性。

参见图5，图5是一示例性实施例提供的一种样本标注装置的框图，该装置包括：

第一获取单元501，用于获取设置在所述终端设备中的资源推荐网络的输入特征，所述输入特征包括待展示资源的特征和所述终端设备的用户特征，所述资源推荐网络用于确定所述用户对所述待展示资源的感兴趣程度；

推理单元502，用于利用所述资源推荐网络对所述输入特征进行多次推理，并将每次推理的输入特征与该次推理的ID进行绑定；

第二获取单元503，用于获取已进行推理的待展示资源的曝光数据，并根据所述曝光数据确定所述用户对所述待展示资源的感兴趣程度的真实值，其中，所述曝光数据包括推理的ID；

标注单元504，用于根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据，所述样本数据用于对所述资源推荐网络进行训练。

在一些实施例中，所述装置还包括埋点单元，用于：

将所述键值对从所述队列中删除。

所述第二获取单元具体用于：

参见图6，图6是一示例性实施例提供的一种端边云协同训练装置的框图，该装置包括：

训练单元601，用于利用本说明书一个或多个实施例得到的样本数据，对设置在所述终端设备中的资源推荐网络进行训练，所述资源推荐网络用于确定所述终端设备的用户对待展示资源的感兴趣程度；

发送单元602，用于将训练后的资源推荐网络的梯度信息发送到边缘节点，其中，所述边缘节点接收多个终端设备的梯度信息，并将对所接收的多个终端设备的梯度信息进行平均，将平均后的梯度信息发送至云端，以使云端对所存储的资源推荐网络进行训练；

更新单元603，接收云端发送的经训练的资源推荐网络的参数，并利用所述参数对所述终端设备中的资源推荐网络进行更新。

图7是一示例性实施例提供的一种设备的示意结构图。请参考图7，在硬件层面，该设备包括处理器702、内部总线704、网络接口706、内存708以及非易失性存储器710，当然还可能包括其他服务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器702从非易失性存储器710中读取对应的计算机程序到内存708中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种样本标注方法，应用于终端设备，包括：

获取设置在所述终端设备中的资源推荐网络的输入特征，所述输入特征包括待展示资源的特征和所述终端设备的用户特征，所述资源推荐网络用于确定所述用户对所述待展示资源的感兴趣程度，所述待展示资源是云端发送的推荐资源集合中的资源；

根据所述推理的ID获取对应的输入特征，并利用所述真实值对所述输入特征进行标注，得到样本数据，所述样本数据用于对所述资源推荐网络进行训练。

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1所述的方法，所述将每次推理的输入特征与该次推理的ID进行绑定，包括：

4.根据权利要求3所述的方法，所述将推理的ID与该次推理的输入特征作为键值对，存入设定长度的存储队列中，包括：

在存储键值对时所述存储队列已满的情况下，将最先进入所述存储队列的键值对删除。

5.根据权利要求3所述的方法，所述根据所述推理的ID获取对应的输入特征，包括：

将所述键值对从所述队列中删除。

6.根据权利要求1至5任一项所述的方法，在待展示资源包括视频的情况下，所述曝光数据还包括总视频时间、观看时长；

7.一种端边云协同训练方法，应用于终端设备，包括：

利用根据权利要求1至6中任一项得到的样本数据，对设置在所述终端设备中的资源推荐网络进行训练，所述资源推荐网络用于确定所述终端设备的用户对待展示资源的感兴趣程度；

8.一种样本标注装置，应用于终端设备，包括：

第一获取单元，用于获取设置在所述终端设备中的资源推荐网络的输入特征，所述输入特征包括待展示资源的特征和所述终端设备的用户特征，所述资源推荐网络用于确定所述用户对所述待展示资源的感兴趣程度，所述待展示资源是云端发送的推荐资源集合中的资源；

9.一种端边云协同训练装置，应用于终端设备，包括：

训练单元，用于利用根据权利要求1至6中任一项得到的样本数据，对设置在所述终端设备中的资源推荐网络进行训练，所述资源推荐网络用于确定所述终端设备的用户对待展示资源的感兴趣程度；

10.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1至6中任一项或权利要求7所述的方法。

11.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1至6中任一项或权利要求7所述的方法的步骤。