CN115022316A - 端云协同数据处理系统、方法、设备及计算机存储介质 - Google Patents

端云协同数据处理系统、方法、设备及计算机存储介质 Download PDF

Info

Publication number
CN115022316A
CN115022316A CN202210550387.2A CN202210550387A CN115022316A CN 115022316 A CN115022316 A CN 115022316A CN 202210550387 A CN202210550387 A CN 202210550387A CN 115022316 A CN115022316 A CN 115022316A
Authority
CN
China
Prior art keywords
reinforcement learning
learning model
user
state data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210550387.2A
Other languages
English (en)
Other versions
CN115022316B (zh
Inventor
纪络
刘高
杨红霞
周靖人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210550387.2A priority Critical patent/CN115022316B/zh
Publication of CN115022316A publication Critical patent/CN115022316A/zh
Application granted granted Critical
Publication of CN115022316B publication Critical patent/CN115022316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种端云协同数据处理系统、方法、终端设备及计算机存储介质,其中,端云协同数据处理方法包括:获取用户在预设时段内基于预设应用进行的交互操作行为,根据所述交互操作行为的操作行为数据获得对应的用户状态数据;将所述用户状态数据输入所述终端设备本地的强化学习模型,以获得所述强化学习模型输出的用于进行预设内容推荐的推荐策略;其中,所述强化学习模型为通过云服务端和终端设备本地进行双重训练获得的模型;根据所述推荐策略,为所述用户进行预设内容的推荐。通过本申请实施例,实现了更为准确和符合用户偏好和需求的内容推荐,提升推荐效果和用户体验。

Description

端云协同数据处理系统、方法、设备及计算机存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种用于推荐的端云协同数据处理系 统、方法、终端设备及计算机存储介质。
背景技术
推荐系统目前被广泛应用于各种互联网服务,成为了互联网服务的基础设施之一。 通过推荐系统,可以在极短的时间内,从海量的待推荐的备选选项中,为不同的用户提供符合其偏好和需求的推荐内容。
而推荐系统的上述功能的实现在很大程度上依赖于推荐模型。现有技术中,推荐模 型基于云计算和大数据,可以在获得数据使用授权的情况下,从不同终端设备采集到用户数据,在云服务端训练推荐模型并完成部署,并最终通过终端向云服务端的请求调用 云服务端的推荐模型提供服务,决定被推荐内容的内容列表和推荐顺序。然而,一方面, 因用户数据的隐私和安全要求,只有一小部分可允许被上传到云服务端以供推荐模型使 用;另一方面,用户数据上传到云服务端会有明显的时延滞后(一般从一小时到一天不 等)。这都导致用户的偏好变化信息无法被推荐模型快速感知,推荐效果不佳。
发明内容
有鉴于此,本申请实施例提供一种端云协同数据处理方案,以至少部分解决上述问 题。
根据本申请实施例的第一方面,提供了一种端云协同数据处理系统,包括:云服务端和第一终端设备,所述云服务端和所述第一终端设备中均部署有用于进行内容推荐的强化学习模型;其中:所述云服务端的强化学习模型基于采集的包括所述第一终端设备 在内的多个终端设备中的用户状态数据训练获得;所述第一终端设备中的本地强化学习 模型基于所述云服务端下发的训练完成的强化学习模型和所述第一终端设备本地的用户 状态数据训练获得;所述第一终端设备在训练获得本地强化学习模型后,通过本地强化 学习模型获得用于进行预设内容推荐的推荐策略;并根据推荐策略,为用户进行预设内 容的推荐。
根据本申请实施例的第二方面,提供了一种端云协同数据处理方法,包括:获取用户在预设时段内基于预设应用进行的交互操作行为,根据交互操作行为的操作行为数据获得对应的用户状态数据;将用户状态数据输入终端设备本地的强化学习模型,以获得 强化学习模型输出的用于进行预设内容推荐的推荐策略;其中,强化学习模型为通过云 服务端和终端设备本地进行双重训练获得的模型;根据推荐策略,为用户进行预设内容 的推荐。
根据本申请实施例的第三方面,提供了一种终端设备,包括:处理器、存储器、显示屏、通信接口和通信总线,所述处理器、所述存储器、所述显示屏和所述通信接口通 过所述通信总线完成相互间的通信;所述通信接口,用于接收云服务端下发的训练完成 的强化学习模型并存储至所述存储器;所述处理器,用于获取所述终端设备的用户在预 设时段内基于预设应用进行的交互操作行为,根据所述交互操作行为的操作行为数据获 得对应的用户状态数据;并使用所述用户状态数据对所述存储器中存储的所述强化学习 模型再次进行训练,以获得本地强化学习模型;以及,在获得本地强化学习模型后,通 过本地强化学习模型获得用于进行预设内容推荐的推荐策略;并根据推荐策略,为用户 进行预设内容的推荐;所述显示屏,用于显示推荐的所述预设内容。
根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程 序,该程序被处理器执行时实现如第二方面所述的方法。
根据本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第二方面所述的方法对应的操作。
根据本申请实施例提供的端云协同数据处理方案,终端设备本地的强化学习模型既 经过云服务端的训练也经过终端设备本地的训练后才投入使用。经云服务端基于大量用 户的数据对强化学习模型进行训练,可以使得获得的强化学习模型能够输出较为客观和 普适的推荐策略,以满足各种用户的基本需求。但因云服务端获得的数据一方面具有滞后性,不能及时反馈用户的动态偏好和需求变化;另一方面因数据安全性要求,终端设 备只能上传用户的部分数据,也造成云服务端不能全面、深入地了解用户的偏好和需求。 而通过本申请实施例的方案,可以基于云服务端训练完成的强化学习模型,和在终端设 备本地基于本地数据可及时获取、及时反映用户偏好和需求变化、以及具有更多可被使 用的数据的特点,对该强化学习模型进行的本地训练,从而能够获得具有快速感知能力, 可以进行更准确的内容推荐的强化学习模型。由此,在需要为用户进行内容推荐时,则 可获取最新时段内的用户状态数据,再基于终端本地训练完成的强化学习模型,实现更 为准确和符合用户偏好和需求的内容推荐,提升推荐效果和用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图 获得其他的附图。
图1A为适用本申请实施例的端云协同数据处理方法的示例性系统的示意图;
图1B示出了一种强化学习模型的结构示意图;
图1C为根据本申请实施例的一种端云协同数据处理系统的示意图;
图2为根据本申请实施例一的一种端云协同数据处理方法的步骤流程图;
图3为根据本申请实施例二的一种端云协同数据处理方法的步骤流程图;
图4为根据本申请实施例三的一种终端设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的 实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护 的范围。
下面,首先对本申请实施例中使用到的部分术语进行说明。
强化学习:是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交 互过程中通过学习策略以达成回报最大化或实现特定目标的问题。本申请实施例通过部 署基于强化学习技术的强化学习模型可以及时且有效地学习到用户状态数据的变化带来 的用户习惯或偏好的改变的信息。
马尔可夫过程(Markov Process):指某种满足这样一个假设的系统环境:下一时刻 的state仅由当前时刻的state和当前收到的action来决定。本申请实施例中,因云服务端只能获得预设app自身的相关用户数据,而用户在终端设备的其他操作是缺失的, 因此Markov Process假设不满足,强化学习模型的训练效果大大受限。而基于终端设备 的用户状态数据进行强化学习模型的训练则可有效解决该问题。
隐状态数据(latent state):一种能够影响系统状态演变但不能被直接观测到的变 量。该隐状态数据无不直传云服务端,但可被终端设备本地使用。因此,本申请实施例中,第一终端设备对本地强化学习模型的训练使用包括该部分隐状态数据的用户状态数据,以使训练出的强化学习模型更具个性化特点,更能满足第一终端设备本地用户的需求。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
图1A示出了一种适用本申请实施例的端云协同数据处理方法的示例性系统。如图1A所示,该系统100可以包括云服务端102、通信网络104和/或一个或多个终端设备 106,图1A中示例为多个终端设备。
云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任 何适当的设备,包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中,云服务端102可以执行任何适当的功能。例如,在一些实施例中,云 服务端102可以用于进行强化学习模型的训练。作为可选的示例,在一些实施例中,云 服务端102可以被用于采集一定数量的终端用户的用户数据(包括但不限于针对某应用 的用户状态数据),并基于采集的这些用户数据,对部署于云服务端102上的强化学习 模型进行训练,以获得能够输出针对某应用进行内容推荐的推荐策略。作为另一示例, 在一些实施例中,云服务端102可以被用于将训练完成的强化学习模型发送给终端设备, 以进行终端设备端的强化学习模型的部署。作为可选的示例,在一些实施例中,云服务 端102对强化学习模型的训练是周期性进行的。
在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的 组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、 广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转 移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。终端设备106能够 通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能 够经由一个或多个通信链路(例如,通信链路114)被链接到云服务端102。通信链路可以 是适合于在终端设备106和云服务端102之间传送数据的任何通信链路,诸如网络链路、 拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的 组合。
终端设备106可以包括能够部署强化学习模型,以进行内容推荐的任何一个或多个 终端设备。在一些实施例中,终端设备106可以接收云服务端102发送来的训练完成的强化学习模型,并进一步基于本地采集的时效性更强的用户状态数据,对该强化学习模 型进行再训练,进而再基于该强化学习模型进行预设内容的推荐。作为另一示例,在一 些实施例中,终端设备106可以先基于本地的用户状态数据进行本地强化学习模型训练 及预设内容的推荐;然后,再接收云服务端训练完成的强化学习模型后再基于更新的本 地用户状态数据对该强化学习模型再次进行训练,进而再基于该强化学习模型进行预设 内容的推荐。在一些实施例中,终端设备106可以包括任何合适类型的设备。例如,在 一些实施例中,终端设备106可以包括移动设备、平板计算机、膝上型计算机、台式计 算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型 的终端设备。
在上述系统的基础上,对其中涉及的强化学习模型进行说明,如图1B所示。
强化学习是智能体与环境不断交互,从而不断强化智能体的决策能力的过程。图1B 中所示的强化学习模型包括环境(Env)和智能体(Agent)。首先,环境会给智能体一个观测值(observation)(也称状态state);智能体接收到环境给的观测值之后会做出一个动作(action);环境接收到智能体给的动作之后会做出一系列的反应,例如对这个动作给 予一个奖励值(reward),以及给出一个新的观测值;智能体根据环境给予的奖励值去更 新自己的策略(policy),以通过不断地与环境交互,最终获得最合适的策略。
在实际应用中,强化学习模型可实现为策略价值模型,其包括策略分支和价值分支。 其中,策略分支用于智能体基于state挑选下一个action,可通过多种方式实现,如通过智能体的行为函数等。价值分支用于获得在state遵循策略分支选出的策略时,对累 积奖励的期望。奖励reward是一个反馈信号,通常为一个数值,表明这个智能体在某一 次基于state挑选action执行的这个操作做得有多好。
基于上述描述,本申请实施例提供的一种端云协同数据处理示例性系统,如图1C所 示。
图1C中,该端云协同数据处理系统包括:云服务端和第一终端设备(仅示出了一个, 在实际应用中,对于云服务端来说,任意的终端设备均可作为第一终端设备,但对于某一终端设备来说,其自身即为第一终端设备),该云服务端和第一终端设备中均部署有 用于进行内容推荐的强化学习模型。
其中,云服务端的强化学习模型基于采集的包括第一终端设备在内的多个终端设备 中的用户状态数据训练获得;第一终端设备中的本地强化学习模型基于云服务端下发的 训练完成的强化学习模型和第一终端设备本地的用户状态数据训练获得;第一终端设备 在训练获得本地强化学习模型后,通过本地强化学习模型获得用于进行预设内容推荐的 推荐策略;并根据推荐策略,为用户进行预设内容的推荐。
在一种可行方式中,第一终端设备中的本地强化学习模型通过以下方式获得:第一 终端设备接收云服务端下发的训练完成的强化学习模型;第一终端设备获取用户在预设 时段内基于预设应用进行的交互操作行为,根据交互操作行为的操作行为数据获得对应 的用户状态数据;第一终端设备使用用户状态数据对接收的强化学习模型再次进行训练, 获得本地强化学习模型。这种方式中,第一终端设备先接收云服务端下发的强化学习模 型,再基于本地的用户状态数据对其进行再次训练,由此获得的本地强化学习模型既具有云服务端强化学习模型的泛化性,又具有适用第一终端设备用户的个性化效果,能够 更好地为本地用户进行推荐服务。并且,因第一终端设备在本地即可使用强化学习模型 为用户进行内容推荐,省去了向云服务端通信的消耗,提升了计算效率。
在另一种可行方式中,第一终端设备中的本地强化学习模型通过以下方式获得:第 一终端设备获取用户在预设时段内基于预设应用进行的交互操作行为,根据交互操作行 为的操作行为数据获得对应的用户状态数据;第一终端设备使用用户状态数据对本地的 强化学习模型进行训练,获得初始本地强化学习模型;第一终端设备接收云服务端下发的训练完成的强化学习模型并对用户状态数据进行更新;第一终端设备使用更新后的用户状态数据对云服务端下发的强化学习模型进行训练,获得本地强化学习模型以替换初始本地强化学习模型。在这种方式中,第一终端设备可以先不依赖云服务端,而根据本 地的用户状态数据自行训练本地的强化学习模型,以快速、及时地对用户需求做出反馈。 再在后续基于云服务端下发的强化学习模型和更新后的本地用户状态数据,获得更新后 的本地强化学习模型,从而增强本地强化学习模型的泛化性能。
此外,第一终端设备还会将本地的用户状态数据中的部分数据定期上传云服务端, 以使云服务端根据第一终端设备上传的数据和其它终端设备上传的数据,对云服务端的 强化学习模型进行更新训练,并在完成更新训练后再次下发至第一终端设备,以对第一终端设备本地的强化学习模型进行更新。其中,第一终端设备上传云服务端的部分数据 为脱敏处理后的用户状态数据。可见,云服务端进行强化学习模型训练的数据仅为部分 终端设备本地的用户状态数据,由此,可以有效保障终端设备本地数据的安全性和隐私 性,且能不影响云服务端强化学习模型的泛化性能。
在另一种可行方式中,云服务端通过以下方式向第一终端设备下发强化学习模型: 云服务端将训练完成的强化学习模型下发第一终端设备,以使第一终端设备根据自身的 用户状态数据对下发的强化学习模型进行再训练;或者,云服务端将训练完成的强化学习模型的模型参数下发至第一终端设备,以使第一终端设备基于下发的模型参数和本地的强化学习模型的模型参数的线性加权结果,生成本地的强化学习模型的模型参数;其中,云服务端的强化学习模型和第一终端设备的本地强化学习模型具有相同的模型结构;或者,云服务端将训练完成的强化学习模型进行模型压缩,并将经过模型压缩的强化学 习模型下发至第一终端设备,以使第一终端设备根据自身的用户状态数据对下发的强化 学习模型进行再训练。
在第一终端设备本地的强化学习模型完成训练后,即可投入使用,通过其获得推荐 策略,进而基于推荐策略进行内容推荐。然而,用户习惯和行为会经常性地发生变化,由此也会导致用户状态数据的变化。为了及时响应该变化,第一终端设备在训练获得本 地强化学习模型后,若检测到第一终端设备本地的用户状态数据发生了更新,则可以即 时基于更新后的用户状态数据进行本地强化学习模型的更新训练后,调用更新训练后的 本地强化学习模型获得用于进行预设内容推荐的推荐策略。也即,该种方式中,用户并 不需要进行专门的模型调用操作,在本地强化学习模型检测到用户状态数据的变化后, 即自动进行模型更新训练,并基于更新训练后的模型更新推荐策略。基于此,当推荐被 触发时,即可根据用户的最新习惯和行为的变化为用户提供最新的推荐策略。由此,一 方面,更新的用户状态数据无需回传云服务端即可获得满足用户需求的推荐内容,并且, 有效提高了用户状态数据的隐私性和安全性;另一方面,通过这种方式,可以更及时地 对用户的短期需求进行反馈,提升用户的使用体验。
以下,结合图1C,对上述端云协同数据处理系统进行数据处理的过程进行示例性说 明。其中,图1C中的数字序号所示的数据处理过程仅为示例,并不表示端云协同数据处理过程必须按照该顺序执行。
具体地,图IC中所示的端云协同系统进行端云协同数据处理的过程包括:
1.将用户的个人习惯和行为特征中跟第一终端设备高度相关的部分(如用户在智能 手机上的app点击历史,或智能手机屏幕的下滑和震动操作等)定义为用户状态,其对应的用户状态数据能够在第一终端设备的内存上进行存储和读取,并在用户和端云协同数据处理系统的交互过程中进行更新。基于此,获取用于表征用户状态的用户状态数据。
其中,用户状态数据与推荐效果直接相关,并满足Markov Process(马尔可夫过程) 性质:当前时刻的用户状态与当前的推荐内容共同决定了下一时刻的用户状态。对于Markov Process假设而言,需要认为下一时刻的用户状态完全由当前时刻的用户状态和行为决定;而对于在云服务端实现的具有推荐功能的强化学习模型,云服务端只能获得 预设app自身的相关用户数据,而用户在终端设备的其他操作是缺失的(如用户在电商 app购物后,又去查看了天气app,然后打开手游app,数个小时之后才回到电商app重 新浏览),因此Markov Process假设不满足,强化学习模型的训练效果大大受限。而基 于终端设备的用户状态数据进行强化学习模型的训练则可有效解决该问题。
用户状态对应的用户状态数据分为两部分,一部分是可被终端设备直接观测和捕捉 的终端特征对应的数据,如交互操作行为产生的操作行为数据;另一部分是用户内在状态的表达对应的数据,建模为latent state,其是一种能够影响状态演变但不能被直接 观测到的变量,也被称为隐状态数据,该部分数据无法上传云服务端。并且,可使用GRU 之类的循环神经网络进行估计。
上述两部分数据均可在终端设备上保存及读取,终端设备本地的强化学习模型基于 终端设备中的上述用户状态数据进行推荐决策,不再额外依赖云服务端下发的用户状态 数据。从而,可以更多地利用用户的终端设备中的数据;并且,将强化学习模型保留在终端设备本地进行调用,可以减少与云服务端交互的通讯时间;同时,可解决用户隐私 保护问题。
2.利用第一终端设备中的脚本将用户状态数据中的部分数据上传到云服务端。
其中,用户状态数据可基于第一终端设备中的用户行为日志和用户状态日志获得。 基于此,示例性地,本步骤可以实现为:利用终端设备中的脚本,对用户状态日志进行脱敏处理,将用户行为日志和脱敏处理后的用户状态日志上传云服务端。
3.云服务端根据上传的日志,以固定时间周期对强化学习模型进行模型训练更新。
4.每次云服务端完成强化学习模型的训练更新后,将该强化学习模型的全部或压缩 后的主干部分下发到第一终端设备。
5.第一终端设备调用强化学习模型,输出推荐策略以决定下一次的推荐内容(单个 item或者一个序列的item),取决于具体推荐场景。
其中,item表示单个单位的被推荐内容,如商品、文章、视频、广告等。在具体推 荐场景不同时,某个推荐场景下的推荐item可能为上述内容类别中的某一类,或者是不 同类别内容的混合(如混排信息流推荐等)。
6.更新后的推荐内容通过app展示给用户,激活用户状态数据的更新。
7.用户对更新后的推荐内容提供新的操作反馈。
8.驱动第一终端设备本地的强化学习模型进行更高频率的训练更新,第一终端设备 的强化学习模型训练与云服务端的强化学习模型训练彼此异步。
云服务端与第一终端设备均采集和使用用户状态数据,且云服务端的用户状态数据 的更新频率慢于第一终端设备,并仅包含部分用户状态数据;云服务端会与终端设备以各自不同的频率交互并更新强化学习模型。例如,云服务端强化学习模型可以下发到第 一终端设备并与第一终端设备的强化学习模型融合,即,第一终端设备先获得云服务端 的强化学习模型的模型结构和参数,继而,在此基础上使用第一终端设备本地的用户状 态数据来对该强化学习模型进行再训练,更新其模型参数,以实现该强化学习模型的本 地化。再例如,当云服务端和第一终端设备使用完全相同模型结构的强化学习模型时, 还可以在训练完成强化学习模型后,仅将模型参数下发给第一终端设备,此时,第一终 端设备中也部署有相应的强化学习模型,并且为经过训练的强化学习模型,具有自身的 模型参数。则,可将这两部分模型参数(全部参数)进行简单的线性加权,再以线性加 权后获得的模型参数为第一终端设备本地的强化学习模型的模型参数,从而使得该本地 强化学习模型能够综合云服务端和本地两方面的模型优势,既具有模型泛化性特点,又 具有第一终端设备本地的用户个性化特点。又例如,云服务端还可以在完成其强化学习 模型的训练后,对该强化学习模型再采用蒸馏等模型压缩方式(由于第一终端设备计算 压力需要终端设备中部署的模型更轻量级时),将该进行了模型压缩后的强化学习模型 再下发至第一终端设备,以使第一终端设备基于该下发的强化学习模型,再结合自身的 用户状态数据对该模型进行再训练。因第一终端设备的模型训练和更新的频率高于云服 务端,由此,可以实现强化学习模型的快-慢学习,对于强化学习模型,既可以利用云服 务端海量用户的数据提供的泛化性,又可以充分利用第一终端用户在终端设备通过用户 状态数据表现出来的即时偏好,实现快速反馈。
此外,在一种可行方式中,第一终端设备本地的强化学习模型还可以完全在本地进 行训练和更新。此种情况下,在获得数据使用许可和确保数据使用安全的前提下,可以由云服务端定期下发其他用户的用户状态数据到第一终端设备,以为第一终端设备在训练提供必要的策略泛化性。如,第一终端设备先使用本地的用户状态数据训练强化学习 模型并使用该模型进行内容推荐;继而,第一终端设备在某一时刻接收到了云服务端定 期下发的用户状态数据,则可基于下发的用户状态数据和第一终端设备本地当前最新的 用户状态数据来对本地强化学习模型进行训练,实现为该强化学习模型的训练更新;然 后,再使用更新后的强化学习模型进行内容推荐。
基于上述系统,本申请实施例提供了一种端云协同数据处理方法,以下通过多个实 施例进行说明。
实施例一
参照图2,示出了根据本申请实施例一的一种端云协同数据处理方法的步骤流程图。
本实施例的端云协同数据处理方法从终端设备角度,基于前述端云协同数据处理系 统实现,该方法包括以下步骤:
步骤S202:获取用户在预设时段内基于预设应用进行的交互操作行为,根据交互操 作行为的操作行为数据获得对应的用户状态数据。
本申请实施例中,预设时段可以是距离本次推荐操作的时间最近的一段时间,该时 间段的具体时间长短可由本领域技术人员根据实际需求设定,本申请实施例对此不作限 制。可选地,可以为几个小时或几十分钟等。
在该预设时间段内,用户基于预设应用进行了相应的交互操作行为。其中,预设应用可以为任意的、可进行内容推荐的交互应用,包括但不限于:电子商务类交互应用、 长视频类交互应用、短视频类交互应用、电子书交互应用、运动类交互应用、娱乐类交 互应用,等等,本申请实施例对此也不作限制。用户与该预设应用之间的交互操作行为 既包括用户在该预设应用中的操作行为(如浏览行为、点击行为、分享行为、购买行为、 跳转行为,等等),也包括用户基于该预设应用跳转至其它应用的操作行为,和/或,用 户从其它应用跳转回预设应用的操作行为,等等。
基于这些交互操作行为产生的操作行为数据,可获得相对应的该用户的用户状态数 据。本申请实施例中,该用户状态数据并非单纯的静态数据,而是具有时序上的依赖关系的、可表征用户偏好的数据序列。示例性地,假设某用户在一小时内,从前半个小时 浏览手机变化为后半个小时浏览平板电脑,则由该浏览行为对应的浏览行为数据(如浏 览内容、浏览时长、点击次数等)可获得其对应的用户状态数据,该用户状态数据除包 括上述浏览行为数据外,还包括由上述浏览行为数据获得的用户偏好的变化信息,如由 偏好手机状态变化为偏好平板电脑状态,等。用户状态数据的具体获得可由本领域技术 人员根据实际需求采用适当方式实现,包括但不限于神经网络模型方式、预设的算法方 式、具有相应功能的接口调用方式等等。
此外,因终端设备具有获得及使用用户数据的最大权限,因此,本申请实施例中,在终端设备本地获得的上述操作行为数据以及用户状态数据均可以为授权范围内的数据,包括可被本地使用的安全数据和敏感数据等。由此,除可以及时获得用户偏好和需求的 变化情况外,还可为后续通过强化学习模型更为全面和准确地了解用户偏好和需求,为 用户提供更为准确的内容推荐提供依据。
步骤S204:将用户状态数据输入终端设备本地的强化学习模型,以获得强化学习模 型输出的用于进行预设内容推荐的推荐策略。
其中,强化学习模型为通过云服务端和终端设备本地进行双重训练获得的模型。
本申请实施例中,如前所述,部署在终端设备上的强化学习模型可以为已经过云服 务端训练过的模型;也可以为先通过终端本地的用户状态数据训练获得并进行内容推荐, 在后续再接收到云服务端下发的训练完成的强化学习模型后,会再基于终端本地更新后 的用户状态数据再次对下发的强化学习模型进行训练,然后再基于再次训练后的该强化 学习模型进行内容推荐。云服务端可以基于采集的大量用户的数据,生成相应的的用户状态数据,进而以该大量的用户状态数据为训练样本,对部署在云服务端的强化学习模 型进行训练。训练样本的数量越多,训练出来的强化学习模型越客观和普适,可满足大 量用户的基本需求。但因相较于终端设备本地的数据获取和处理,终端设备向云服务端 上传数据具有一定的滞后性,使云服务端不能及时了解用户的动态偏好和需求变化。并 且,因数据安全性要求,有一部分数据对云服务端屏蔽,不能上传至云服务端,因此, 云服务端只能获得部分用户数据,从而造成云服务端不能全面、深入地了解用户的偏好 和需求。
因此,本申请实施例中,会通过云服务端和终端本地的双重训练,既可利用云服务端大数据的优势,同时还弥补了在云服务端进行强化学习模型的训练带来的无法对用户状态数据的变化进行及时反映的问题。通过在终端设备本地,基于终端设备本地的当前 用户的用户数据生成该当前用户的用户状态数据,对该强化学习模型进行训练,可以获 得与当前用户相匹配的个性化的强化学习模型,该模型既具有基于大训练样本训练获得 的客观性和普适性,又具有基于当前用户在本地的用户状态数据训练获得的针对性和特 别性,实现了针对当前用户的个性化强化学习模型。
基于该强化学习模型,当进行推荐操作的条件被触发时,如用户启动了APP、或者用户打开了推荐操作所属的网页、或者用户点击了某一设定对象,等,都可触发本实施 例的推荐方法的执行。此种情况下,终端设备本地的强化学习模型即可以获得的用户状 态数据为输入,输出对应的、用于进行预设内容推荐的推荐策略。其中,预设内容可以 为某一类内容的统称,该类内容可以为任意需要进行推荐的内容,包括但不限于:设定 对象(如商品、短视频、长视频、电子书等)对应的内容,或者,设定活动(如促销活 动、宣传活动等)对应的内容。
此外,在一种可行方式中,对强化学习模型的调用以获得推荐策略还可以实现为:若检测到第一终端设备本地的用户状态数据发生了更新,则可以即时基于更新后的用户状态数据进行本地强化学习模型的更新训练后,调用更新训练后的本地强化学习模型获得用于进行预设内容推荐的推荐策略。
这是因为,在第一终端设备本地的强化学习模型完成训练后,即可投入使用,通过其获得推荐策略,进而基于推荐策略进行内容推荐。然而,用户习惯和行为会经常性地 发生变化,由此也会导致用户状态数据的变化。为了及时响应该变化,第一终端设备在 训练获得本地强化学习模型后,若检测到第一终端设备本地的用户状态数据发生了更新, 则可以即时基于更新后的用户状态数据进行本地强化学习模型的更新训练后,调用更新 训练后的本地强化学习模型获得用于进行预设内容推荐的推荐策略。也即,该种方式中, 用户并不需要进行专门的模型调用操作,在本地强化学习模型检测到用户状态数据的变 化后,即自动进行模型更新训练,并基于更新训练后的模型更新推荐策略。基于此,当 推荐被触发时,即可根据用户的最新习惯和行为的变化为用户提供最新的推荐策略。由 此,一方面,更新的用户状态数据无需回传云服务端即可获得满足用户需求的推荐内容, 并且,有效提高了用户状态数据的隐私性和安全性;另一方面,通过这种方式,可以更 裡地对用户的短期需求进行反馈,提升用户的使用体验。
需要说明的,本申请实施例对,对强化学习模型进行训练的具体训练过程可参照相 关技术实现,在此不再详述。
步骤S206:根据推荐策略,为用户进行预设内容的推荐。
在推荐策略确定后,即可基于该推荐策略从预设内容库中选取待推荐的具体内容, 以向用户推荐。例如,若最近一个小时,用户浏览了半个小时的平板电脑、二十分钟的手机和十分钟的保温杯,则推荐策略可能给出相应的推荐等级或概率值,则基于该推荐 策略,可从预设内容库中选择出第一数量的平板电脑、第二数量的手机和第三数量的保 温杯,依次向用户推荐。其中,第一数量大于第二数量,第二数量大于第三数量。
此外,在另一种可行方式中,仍如前所述,若在最近的一个小时内,用户花了半个小时浏览平板电脑,则可根据用户浏览的平板电脑的具体信息(如品牌、型号、价格等), 从预设内容库中选取一定数量的平板电脑推荐给用户,等等。
具体的推荐策略的实现和基于推荐策略选取推荐内容的实现,均可由本领域技术人 员根据实际需求设定。
可见,通过本实施例,终端设备本地的强化学习模型既经过云服务端的训练也经过 终端设备本地的训练后才投入使用。经云服务端基于大量用户的数据对强化学习模型进 行训练,可以使得获得的强化学习模型能够输出较为客观和普适的推荐策略,以满足各种用户的基本需求。但因云服务端获得的数据一方面具有滞后性,不能及时反馈用户的 动态偏好和需求变化;另一方面因数据安全性要求,终端设备只能上传用户的部分数据, 也造成云服务端不能全面、深入地了解用户的偏好和需求。而通过本实施例的方案,可 以基于云服务端训练完成的强化学习模型,和在终端设备本地基于本地数据可及时获取、 及时反映用户偏好和需求变化、以及具有更多可被使用的数据的特点,对该强化学习模 型进行的本地训练,从而能够获得具有快速感知能力,可以进行更准确的内容推荐的强 化学习模型。由此,在需要为用户进行内容推荐时,则可获取最新时段内的用户状态数 据,再基于终端本地训练完成的强化学习模型,实现更为准确和符合用户偏好和需求的 内容推荐,提升推荐效果和用户体验。
实施例二
参照图3,示出了根据本申请实施例二的一种端云协同数据处理方法的步骤流程图。
本实施例仍从终端设备的角度,以云服务端先下发训练完成的强化学习模型为示例, 基于前述端云协同数据处理系统,以强化学习模型的训练、部署、应用及训练更新全过程对本申请实施例的端云协同数据处理方法进行说明。
该端云协同数据处理方法包括以下步骤:
步骤S302:接收云服务端训练完成后的初始强化学习模型。
因模型训练均具有一定的目的性,而本申请实施例中,需要强化学习模型具有针对 某一种类型或某几种类型的内容输出对应的推荐策略的功能,因此,在云服务端训练时, 即可采集与该功能相关的数据,以基于其生成相应的训练样本,对云服务端的强化学习 模型进行训练。
在此情况下,需要云服务端采集与强化学习模型所要实现的功能相匹配的大量终端 用户的用户数据进行,该用户数据可以为用户与某预设应用进行交互操作的操作行为数 据,由云服务端加工生成用户状态数据后作为训练样本对强化学习模型进行训练。但不限于此,云服务端采集的也可以直接为用户状态数据,则可直接以该用户状态数据为训 练样本对强化学习模型进行训练。
基于大量的用户数据训练获得的强化学习模型能够输出较为客观和普适的推荐策略, 本申请实施例中,将由云服务端训练完成的强化学习模型称为初始强化学习模型。在训 练完成后,该初始强化学习模型由云服务端下发给终端设备,则,终端设备接收云服务 端训练完成后的初始强化学习模型。
需要说明的是,为了使得模型能够不断地适应用户需求的变化,云服务端对强化学 习模型的训练也是周期性更新的,也即,云服务端会按照一定的时间周期不断采集数据并更新训练样本,以对云服务端的强化学习模型进行周期性训练。为便于描述,本申请 实施例中,将云服务端的该时间周期称为第一时间周期。该第一时间周期的具体周期时 长可由本领域技术人员根据实际需求设定,本申请实施例对此不作限制。
步骤S304:获取预设应用对应的最新用户状态数据,并使用最新用户状态数据对初 始强化学习模型进行终端设备本地的训练,以获得能够输出推荐策略的终端设备本地的 强化学习模型。
终端设备在接收到云服务端下发的初始强化学习模型后,并非直接使用,而是会在 终端设备本地对其进行再次训练。
用户状态数据可以是具有时序上的依赖关系的、可表征用户偏好的数据序列,其与 推荐效果直接相关。示例性地,可以基于用户的个人习惯数据和行为特征数据中跟终端设备高度相关的部分(如用户在智能手机上的app点击历史,或智能手机屏幕的下滑操 作和震动操作等)为依据,生成用户状态数据(如作为用户状态数据的一部分或者以此 为依据通过预设方式生成用户状态数据)。这些数据能够在终端设备的内存上进行存储 和读取,并在用户和预设应用的交互过程中进行更新。
在一种可行的具体实现方式中,可以根据用户与预设应用之间的交互操作行为的操 作行为数据及操作行为数据对应的时间信息,通过隐马尔可夫模型获得用于表征用户的 用户偏好变化的隐状态数据;基于隐状态数据和操作行为数据,获得用户状态数据。
由于各种因素,用户的偏好和需求会随着时间的推移而发生变化。若在推荐时,能够在用户偏好中捕获到这些动态,便可将推荐调谐到用户的最新兴趣方向,提升推荐效果。为达到该效果,本申请实施例中,使用隐马尔可夫模型(HMM)来识别用户交互序列 中的变化点,这些变化点可有效基于用户的顺序行为反映用户的偏好的变化。其中,用 户交互序列可基于所述交互操作行为对应的操作行为数据及其时间信息获得。
隐马尔可夫模型用来描述一个含有隐含未知参数的马尔可夫过程,其是马尔可夫链 的一种,它的状态不能直接观察到,但能通过观测向量序列观察到。在本申请实施例中,给定一系列用户与预设应用之间进行交互的用户交互序列,隐马尔可夫模型即可从中识别出表示用户偏好的变化点的最可能的隐藏状态序列,即隐状态数据。
进一步地,基于获得的隐状态数据和用户与预设应用之间的交互操作行为对应的操 作行为数据,即可获得用户状态数据。
而在终端设备接收到云服务端训练完成的初始强化学习模型并将其部署在本地后, 即可获取终端设备本地最新的用户状态数据,即距离当前时刻最近的预设时间段(可由 本领域技术人员根据实际需求设定)的用户状态数据,以其作为终端设备本地强化学习模型的训练样本,对该强化学习模型进行再次训练。因该部分用户状态数据最能反映用 户当前的偏好和需求变化,且包含有隐状态数据,因此训练获得的强化学习模型更能准 确地对用户的当前需求进行预测,输出更符合用户个性化需求的推荐策略。
此外,需要说明的是,为了保证终端设备本地的强化学习模型能够及时跟随用户偏 好和需求变化,也需要每隔一定的时间周期对其进行训练更新。为便于描述,本申请实施例中,将该时间周期称为第二时间周期,该第二时间周期的具体周期时长设定可由本 领域技术人员根据实际需求设定,使其短于云服务端的第一时间周期即可。可见,终端 设备本地的强化学习模型的训练更新相较于云服务端频度更高,对用户偏好和需求变化 的反馈更快。
经过终端设备再次训练后的强化学习模型即可投入使用,参与到后续应用层面的内 容推荐过程中。
步骤S306:获取用户在预设时段内基于预设应用进行的交互操作行为,根据交互操 作行为的操作行为数据获得对应的用户状态数据。
在一种可行方式中,本步骤中的根据交互操作行为的操作行为数据获得对应的用户 状态数据可以包括:根据交互操作行为的操作行为数据及操作行为数据对应的时间信息, 通过隐马尔可夫模型获得用于表征用户的用户偏好变化的隐状态数据;基于隐状态数据 和操作行为数据,生成用户状态数据。该步骤的具体实现可参照前述步骤S304中的相关描述,在此不再赘述。通过该种方式,可以获取能够及时反映用户偏好和需求变化的用 户状态数据,以为后续为用户进行精准推荐提供依据。
本步骤中,预设时段可由本领域技术人员根据实际需求灵活设定,本申请实施例对 此不作限制。
步骤S308:将用户状态数据输入终端设备本地的强化学习模型,以获得强化学习模 型输出的用于进行预设内容推荐的推荐策略。
如前所述,本步骤中使用的强化学习模型为通过云服务端进行训练后再在终端设备 本地进行训练获得的本地的强化学习模型。所述预设内容可以为任意适当的内容,包括但不限于:商品内容、视频内容、电子书内容、宣传活动内容等等。
例如,假设某用户通过某电子商务应用进行商品浏览,其在预设时间段内的浏览内 容从衣服变化为食品,则其对应的用户状态数据也将能够指示该变化,将用户状态数据输入终端设备本地的强化学习模型后,该强化学习模型可以输出指示进行食品推荐的推荐策略。
再例如,假设某用户通过某电子商务应用进行商品浏览,其在预设时间段内的浏览 内容从上衣变化为鞋子,则其对应的用户状态数据也将能够指示该变化,将用户状态数据输入终端设备本地的强化学习模型后,该强化学习模型可以输出指示进行鞋子推荐的推荐策略,或者,输出按照一定概率推荐鞋子和上衣的推荐策略。
又例如,假设某用户通过浏览某应用的网页,其在预设时间段内除浏览网页内容外 还针对网页中展示的该应用近期将要举办的活动信息进行了点击查看,则其对应的用户 状态数据也将能够指示该浏览行为的变化,将用户状态数据输入终端设备本地的强化学 习模型后,该强化学习模型可以输出指示进行宣传活动推荐的推荐策略。
另例如,假设某用户通过某电子书应用阅读电子书,其在预设时间段内的阅读内容 从程序设计变化为房屋装修,则其对应的用户状态数据也将能够指示该变化,将用户状态数据输入终端设备本地的强化学习模型后,该强化学习模型可以输出指示按照一定概率推荐房屋装修类电子书和程序设计类电子书的推荐策略。
需要说明的是,以上场景均为示例性说明,本领域技术人员应当明了,本申请的推荐方法可适用于各种需要进行内容推荐的场景。
步骤S310:根据推荐策略,为用户进行预设内容的推荐。
如前所述,在获得了推荐策略后,可基于该推荐策略进行某一种类型的内容或某几 种类型的内容的推荐。该推荐的内容能够跟随用户的偏好和需求的变化,提升用户的推荐使用体验。
此外,在一种可行方式中,在确定了为用户进行推荐的预设内容后,还可以展示推荐的预设内容,并通过该展示操作触发对用户状态数据进行更新。展示的预设内容可以 认为是如图1B中所示的强化学习模型中的action,基于此触发对用户状态数据的更新, 除可以及时获取用户的最新状态之外,还可以保证后续输入强化学习模型的用户状态数 据更为及时,更能反映用户偏好和需求的动态变化。
进一步可选地,在展示推荐的预设内容之后,还可以接收用户对展示的预设内容的 反馈操作,并基于反馈操作获取更新后的用户状态数据;基于更新后的用户状态数据进行终端设备本地的强化学习模型的周期性训练更新。该反馈操作可以认为是如图1B中所示的强化学习模型中的reward,由此,通过之前的用户状态数据(state),展示的预 设内容(action)和该反馈操作(reward),即可形成一轮完整的强化学习。基于此, 再获取更新后的用户状态数据,以此为输入进行强化学习模型的训练,则可获得更新后 的、学到到用户最新偏好和需求的信息的强化学习模型。
因上一时刻的用户状态数据会影响下一时刻的用户状态数据,并且用户在终端设备 上的操作反馈与推荐内容高度相关。而在内容推荐中,用户对每个推荐的内容item都有相应的诸如点击、下滑、退出等操作,基于此,强化学习模型可以针对用户的这些操作 重新刻画用户偏好及需求,及时更新强化学习模型的推荐策略再重新调用。
步骤S312:将用户状态数据中的部分数据定期上传云服务端,以使云服务端根据终 端设备上传的数据和其它终端设备上传的数据,对云服务端的强化学习模型进行训练,并在完成训练后再次下发至终端设备,以对终端设备本地的强化学习模型进行更新。
首先需要说明的是,本实施例中,虽然将本步骤的执行顺序以在步骤S310之后执行 为例,但本领域技术人员应当明了的是,在实际应用中,数据上传云服务端通常以固定的时间周期(如每天的0:00点等)上传,因此,本步骤的执行可能在前述步骤中任意 一个步骤执行之前或执行之后进行,也可以与其中的某个步骤并行执行。也即,本步骤 的执行与本实施例中的前述多个步骤并不具有必然的先后顺序关系。
出于安全性、隐私性及端云协同数据处理系统整体效率的考虑,终端设备中的数据 仅有一部分可被上传至云服务端,基于此,本申请实施例中,用于本地强化学习模型的是终端设备本地的较为完整的用户状态数据,而向云服务端上传的则仅能是其中的一部分数据,在这部分不被上传的数据中,至少包括前述隐状态数据。当然,用户状态数据 中除隐状态数据之外的其它部分中,也可能存在着不能上传云服务端的数据,则这些数 据都将不被上传。
基于此,可以认为,将用户状态数据中的部分数据定期上传所述云服务端包括:对用户状态数据进行脱敏处理;将脱敏处理后获得的用户状态数据定期上传所述云服务端。如前所述,脱敏后的用户状态数据可以是不包含隐状态数据的用户状态数据,也可以是 不包含隐状态数据及其它敏感数据的用户状态数据。由此,可以有效保证终端用户的数 据的安全性,并且,从整体上提高了端云协同数据处理系统的数据处理和模型训练效率。
在大量用户都会定期上传新的脱敏后的用户状态数据的情况下,云服务端可以基于 这些数据对云服务端的强化学习模型进行训练更新。但因这些数据由终端设备上传,与终端设备本地的这些数据相比,可以认为上传云服务端的这些数据具有一定的滞后性, 对用户偏好和需求的变化稍显不及时。但同时因云服务端可基于大量的用户状态数据进 行强化学习模型的训练,可从数据的客观性和全面性方面获得更好的效果,以为终端设 备本地的强化学习模型提供好的基础和补充。云服务端定期训练更新后的强化学习模型 将会再次下发终端设备,以供终端设备进行本地强化学习模型的更新,并且,会基于该 云服务端下发的、更新后的强化学习模型再次进行本地的强化学习模型的训练。
由上述过程可见,通过把强化学习模型部署到终端设备上,可以充分利用更细粒度 和更高、更新频率的用户在终端设备的特征和行为数据;并且,强化学习模型可直接在终端设备被调用和响应,省去了向云服务端通讯的消耗。由此,利用终端设备上的强化 学习模型实现了用户状态信息的本地化使用,基于强化学习模型直接决定推荐结果;利 用强化学习来实现端云两侧的双端部署和协同训练,从而大大提高了对用户偏好和需求 动态变化的刻画,提高了基于强化学习模型进行内容推荐的效果和效率,并且,分担了 计算压力。
实施例三
参照图4,示出了根据本申请实施例三的一种终端设备的结构示意图,本申请具体实施例并不对终端设备的具体实现做限定。
如图4所示,该终端设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、通信总线408、以及显示屏410。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它终端设备或云服务端进行通信,其可以接收云服务端下发的训练完成的强化学习模型并存储至存储器406。
处理器402,用于执行程序410,具体可以执行上述端云协同数据处理方法实施例中 的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智 能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可 以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410以及强化学习模型。存储器406可能包含高速RAM 存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存 储器。
显示屏410,用于显示推荐的预设内容。
其中,程序410具体可以用于使得处理器402执行前述多个方法实施例中任一实施例所描述的端云协同数据处理方法对应的操作。例如,可以获取终端设备的用户在预设 时段内基于预设应用进行的交互操作行为,根据交互操作行为的操作行为数据获得对应 的用户状态数据;并使用用户状态数据对存储器406中存储的强化学习模型再次进行训 练,以获得本地强化学习模型;以及,在获得本地强化学习模型后,通过本地强化学习 模型获得用于进行预设内容推荐的推荐策略;并根据推荐策略,为用户进行预设内容的 推荐。
程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应 的描述,并具有相应的有益效果,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施 例中的对应过程描述,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示 计算设备执行上述多个方法实施例中的任一端云协同数据处理方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多 部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步 骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录 介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现 通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记 录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器 或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理 解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代 码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理 器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此 示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用 计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元 及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术 人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认 为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术 领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专 利保护范围应由权利要求限定。

Claims (14)

1.一种端云协同数据处理系统,包括:云服务端和第一终端设备,所述云服务端和所述第一终端设备中均部署有用于进行内容推荐的强化学习模型;
其中:
所述云服务端的强化学习模型基于采集的包括所述第一终端设备在内的多个终端设备中的用户状态数据训练获得;
所述第一终端设备中的本地强化学习模型基于所述云服务端下发的训练完成的强化学习模型和所述第一终端设备本地的用户状态数据训练获得;所述第一终端设备在训练获得本地强化学习模型后,通过本地强化学习模型获得用于进行预设内容推荐的推荐策略;并根据推荐策略,为用户进行预设内容的推荐。
2.根据权利要求1所述的系统,其中,
所述第一终端设备中的本地强化学习模型通过以下方式获得:所述第一终端设备接收所述云服务端下发的训练完成的强化学习模型;所述第一终端设备获取用户在预设时段内基于预设应用进行的交互操作行为,根据所述交互操作行为的操作行为数据获得对应的用户状态数据;所述第一终端设备使用所述用户状态数据对接收的所述强化学习模型再次进行训练,获得本地强化学习模型;
或者,
所述第一终端设备中的本地强化学习模型通过以下方式获得:所述第一终端设备获取用户在预设时段内基于预设应用进行的交互操作行为,根据所述交互操作行为的操作行为数据获得对应的用户状态数据;所述第一终端设备使用所述用户状态数据对本地的强化学习模型进行训练,获得初始本地强化学习模型;所述第一终端设备接收所述云服务端下发的训练完成的强化学习模型并对所述用户状态数据进行更新;所述第一终端设备使用更新后的用户状态数据对所述云服务端下发的强化学习模型进行训练,获得本地强化学习模型以替换所述初始本地强化学习模型。
3.根据权利要求1或2所述的系统,其中,所述第一终端设备还将本地的用户状态数据中的部分数据定期上传所述云服务端,以使所述云服务端根据所述第一终端设备上传的数据和其它终端设备上传的数据,对所述云服务端的强化学习模型进行更新训练,并在完成更新训练后再次下发至所述第一终端设备,以对所述第一终端设备本地的所述强化学习模型进行更新。
4.根据权利要求3所述的系统,其中,所述云服务端通过以下方式向所述第一终端设备下发所述强化学习模型:
所述云服务端将训练完成的强化学习模型下发所述第一终端设备,以使所述第一终端设备根据自身的用户状态数据对下发的所述强化学习模型进行再训练;
或者,
所述云服务端将训练完成的强化学习模型的模型参数下发至所述第一终端设备,以使所述第一终端设备基于下发的所述模型参数和本地的强化学习模型的模型参数的线性加权结果,生成本地的强化学习模型的模型参数;其中,所述云服务端的强化学习模型和所述第一终端设备的本地强化学习模型具有相同的模型结构;
或者,
所述云服务端将训练完成的强化学习模型进行模型压缩,并将经过模型压缩的强化学习模型下发至所述第一终端设备,以使所述第一终端设备根据自身的用户状态数据对下发的所述强化学习模型进行再训练。
5.根据权利要求1或2所述的系统,其中,所述第一终端设备在训练获得本地强化学习模型后,若检测到所述第一终端设备本地的用户状态数据发生了更新,则基于更新后的用户状态数据进行本地强化学习模型的更新训练后,调用更新训练后的本地强化学习模型获得用于进行预设内容推荐的推荐策略。
6.一种端云协同数据处理方法,包括:
获取用户在预设时段内基于预设应用进行的交互操作行为,根据所述交互操作行为的操作行为数据获得对应的用户状态数据;
将所述用户状态数据输入所述终端设备本地的强化学习模型,以获得所述强化学习模型输出的用于进行预设内容推荐的推荐策略;其中,所述强化学习模型为通过云服务端和终端设备本地进行双重训练获得的模型;
根据所述推荐策略,为所述用户进行预设内容的推荐。
7.根据权利要求6所述的方法,其中,所述方法还包括:
将所述用户状态数据中的部分数据定期上传所述云服务端,以使所述云服务端根据所述终端设备上传的数据和其它终端设备上传的数据,对所述云服务端的强化学习模型进行训练,并在完成训练后再次下发至所述终端设备,以对所述终端设备本地的所述强化学习模型进行更新。
8.根据权利要求7所述的方法,其中,所述将所述用户状态数据中的部分数据定期上传所述云服务端,包括:
对所述用户状态数据进行脱敏处理;
将脱敏处理后获得的用户状态数据定期上传所述云服务端。
9.根据权利要求6-8任一项所述的方法,其中,所述根据所述交互操作行为的操作行为数据获得对应的用户状态数据,包括:
根据所述交互操作行为的操作行为数据及所述操作行为数据对应的时间信息,通过隐马尔可夫模型获得用于表征所述用户的用户偏好变化的隐状态数据;
基于所述隐状态数据和所述操作行为数据,生成所述用户状态数据。
10.根据权利要求6-8任一项所述的方法,其中,所述方法还包括:
展示推荐的预设内容,并通过所述展示触发对所述用户状态数据进行更新。
11.根据权利要求10所述的方法,其中,所述方法还包括:
接收所述用户对展示的所述预设内容的反馈操作,并基于所述反馈操作获取更新后的所述用户状态数据;
基于更新后的所述用户状态数据进行所述终端设备本地的强化学习模型的周期性训练更新。
12.根据权利要求6-8任一项所述的方法,其中,在所述获取用户在预设时段内基于预设应用进行的交互操作行为之前,所述方法还包括:
接收所述云服务端训练完成后的初始强化学习模型;
获取所述预设应用对应的最新用户状态数据,并使用所述最新用户状态数据对所述初始强化学习模型进行终端设备本地的训练,以获得能够输出所述推荐策略的终端设备本地的强化学习模型。
13.一种终端设备,包括:处理器、存储器、显示屏、通信接口和通信总线,所述处理器、所述存储器、所述显示屏和所述通信接口通过所述通信总线完成相互间的通信;
所述通信接口,用于接收云服务端下发的训练完成的强化学习模型并存储至所述存储器;
所述处理器,用于获取所述终端设备的用户在预设时段内基于预设应用进行的交互操作行为,根据所述交互操作行为的操作行为数据获得对应的用户状态数据;并使用所述用户状态数据对所述存储器中存储的所述强化学习模型再次进行训练,以获得本地强化学习模型;以及,在获得本地强化学习模型后,通过本地强化学习模型获得用于进行预设内容推荐的推荐策略;并根据推荐策略,为用户进行预设内容的推荐;
所述显示屏,用于显示推荐的所述预设内容。
14.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求6-12中任一所述的方法。
CN202210550387.2A 2022-05-20 2022-05-20 端云协同数据处理系统、方法、设备及计算机存储介质 Active CN115022316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210550387.2A CN115022316B (zh) 2022-05-20 2022-05-20 端云协同数据处理系统、方法、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210550387.2A CN115022316B (zh) 2022-05-20 2022-05-20 端云协同数据处理系统、方法、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN115022316A true CN115022316A (zh) 2022-09-06
CN115022316B CN115022316B (zh) 2023-08-11

Family

ID=83069822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210550387.2A Active CN115022316B (zh) 2022-05-20 2022-05-20 端云协同数据处理系统、方法、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115022316B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562926A (zh) * 2023-07-05 2023-08-08 荣耀终端有限公司 用户行为预测方法、终端、云端设备及存储介质
CN116600020A (zh) * 2023-07-13 2023-08-15 支付宝(杭州)信息技术有限公司 协议生成方法、端云协同推荐方法及装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083522A1 (en) * 2015-09-17 2017-03-23 Yahoo! Inc. Smart Exploration Methods For Mitigating Item Cold-Start Problem In Collaborative Filtering Recommendation Systems
US20190340580A1 (en) * 2018-05-02 2019-11-07 Oath Inc. Systems and methods for future event recommendation
US20200151611A1 (en) * 2017-05-26 2020-05-14 Google Llc Machine-Learned Model System
CN111553744A (zh) * 2020-05-08 2020-08-18 深圳前海微众银行股份有限公司 联邦产品推荐方法、装置、设备及计算机存储介质
CN111625361A (zh) * 2020-05-26 2020-09-04 华东师范大学 一种基于云端服务器和IoT设备协同的联合学习框架
CN111651679A (zh) * 2020-07-09 2020-09-11 支付宝(杭州)信息技术有限公司 基于强化学习的推荐方法及装置
WO2020192460A1 (zh) * 2019-03-25 2020-10-01 华为技术有限公司 数据处理的方法、端侧设备、云侧设备和端云协同系统
CN111741133A (zh) * 2020-08-17 2020-10-02 成都信息工程大学 一种云边端协同的气象智能预警系统
CN112449009A (zh) * 2020-11-12 2021-03-05 深圳大学 一种基于svd的联邦学习推荐系统通信压缩方法及装置
CN112836130A (zh) * 2021-02-20 2021-05-25 四川省人工智能研究院(宜宾) 一种基于联邦学习的上下文感知推荐系统及方法
CN112966182A (zh) * 2021-03-09 2021-06-15 中国民航信息网络股份有限公司 一种项目推荐方法及相关设备
WO2021164376A1 (zh) * 2020-02-20 2021-08-26 深圳前海微众银行股份有限公司 推荐方法、装置、设备及计算机可读存储介质
CN113312543A (zh) * 2020-02-27 2021-08-27 华为技术有限公司 基于联合学习的个性化模型训练方法、电子设备和介质
CN113435472A (zh) * 2021-05-24 2021-09-24 西安电子科技大学 车载算力网络用户需求预测方法、系统、设备、介质
CN113689000A (zh) * 2021-08-25 2021-11-23 深圳前海微众银行股份有限公司 联邦学习模型的训练方法、装置、电子设备及存储介质
CN113705823A (zh) * 2020-05-22 2021-11-26 华为技术有限公司 基于联邦学习的模型训练方法和电子设备
WO2022043741A1 (zh) * 2020-08-25 2022-03-03 商汤国际私人有限公司 网络训练、行人重识别方法及装置、存储介质、计算机程序
CN114510652A (zh) * 2022-04-20 2022-05-17 宁波大学 一种基于联邦学习的社交协同过滤推荐方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083522A1 (en) * 2015-09-17 2017-03-23 Yahoo! Inc. Smart Exploration Methods For Mitigating Item Cold-Start Problem In Collaborative Filtering Recommendation Systems
US20200151611A1 (en) * 2017-05-26 2020-05-14 Google Llc Machine-Learned Model System
US20190340580A1 (en) * 2018-05-02 2019-11-07 Oath Inc. Systems and methods for future event recommendation
WO2020192460A1 (zh) * 2019-03-25 2020-10-01 华为技术有限公司 数据处理的方法、端侧设备、云侧设备和端云协同系统
WO2021164376A1 (zh) * 2020-02-20 2021-08-26 深圳前海微众银行股份有限公司 推荐方法、装置、设备及计算机可读存储介质
CN113312543A (zh) * 2020-02-27 2021-08-27 华为技术有限公司 基于联合学习的个性化模型训练方法、电子设备和介质
CN111553744A (zh) * 2020-05-08 2020-08-18 深圳前海微众银行股份有限公司 联邦产品推荐方法、装置、设备及计算机存储介质
CN113705823A (zh) * 2020-05-22 2021-11-26 华为技术有限公司 基于联邦学习的模型训练方法和电子设备
CN111625361A (zh) * 2020-05-26 2020-09-04 华东师范大学 一种基于云端服务器和IoT设备协同的联合学习框架
CN111651679A (zh) * 2020-07-09 2020-09-11 支付宝(杭州)信息技术有限公司 基于强化学习的推荐方法及装置
CN111741133A (zh) * 2020-08-17 2020-10-02 成都信息工程大学 一种云边端协同的气象智能预警系统
WO2022043741A1 (zh) * 2020-08-25 2022-03-03 商汤国际私人有限公司 网络训练、行人重识别方法及装置、存储介质、计算机程序
CN112449009A (zh) * 2020-11-12 2021-03-05 深圳大学 一种基于svd的联邦学习推荐系统通信压缩方法及装置
CN112836130A (zh) * 2021-02-20 2021-05-25 四川省人工智能研究院(宜宾) 一种基于联邦学习的上下文感知推荐系统及方法
CN112966182A (zh) * 2021-03-09 2021-06-15 中国民航信息网络股份有限公司 一种项目推荐方法及相关设备
CN113435472A (zh) * 2021-05-24 2021-09-24 西安电子科技大学 车载算力网络用户需求预测方法、系统、设备、介质
CN113689000A (zh) * 2021-08-25 2021-11-23 深圳前海微众银行股份有限公司 联邦学习模型的训练方法、装置、电子设备及存储介质
CN114510652A (zh) * 2022-04-20 2022-05-17 宁波大学 一种基于联邦学习的社交协同过滤推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
洪斌;彭甫阳;邓波;王东霞;: "云资源状态监控研究综述", 计算机应用与软件, no. 06 *
马建威;陈洪辉;STEPHAN REIFF-MARGANIEC;: "基于混合推荐和隐马尔科夫模型的服务推荐方法", 中南大学学报(自然科学版), no. 01 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562926A (zh) * 2023-07-05 2023-08-08 荣耀终端有限公司 用户行为预测方法、终端、云端设备及存储介质
CN116562926B (zh) * 2023-07-05 2024-04-16 荣耀终端有限公司 用户行为预测方法、终端、云端设备及存储介质
CN116600020A (zh) * 2023-07-13 2023-08-15 支付宝(杭州)信息技术有限公司 协议生成方法、端云协同推荐方法及装置
CN116600020B (zh) * 2023-07-13 2023-10-10 支付宝(杭州)信息技术有限公司 协议生成方法、端云协同推荐方法及装置

Also Published As

Publication number Publication date
CN115022316B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
US11222273B2 (en) Service recommendation method, apparatus, and device
CN115022316B (zh) 端云协同数据处理系统、方法、设备及计算机存储介质
US20230153857A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
US20170300946A1 (en) Vector-based characterizations of products
CN110910199B (zh) 项目信息的排序方法、装置、计算机设备及存储介质
CN111652648A (zh) 智能生成个性化组合促销方案的方法及具有该方法的系统
Intayoad et al. Reinforcement learning based on contextual bandits for personalized online learning recommendation systems
CN113077276B (zh) 行为数据的处理方法和系统、存储介质及处理器
CN108733706A (zh) 热度信息的生成方法和装置
CN107885796A (zh) 信息推荐方法及装置、设备
CN110851699A (zh) 基于深度强化学习的信息流推荐方法、装置、设备及介质
CN110008397B (zh) 一种推荐模型训练方法及装置
CN108369633A (zh) 相册的视觉表示
CN104520842A (zh) 用于提高用户体验的方法和设备
KR20120052951A (ko) 실시간 비디오 호출로서 광고
WO2016010833A1 (en) Recommendation system based on lifestyle
KR102049777B1 (ko) 사용자 행위 기반의 아이템 추천 방법 및 장치
CN111708948A (zh) 内容项推荐方法、装置、服务器及计算机可读存储介质
CN110233879A (zh) 智能推送界面方法、装置、计算机设备及存储介质
CN112100221B (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
JP7348230B2 (ja) 生成装置、生成方法、及び生成プログラム
CN109962975A (zh) 基于物体识别的信息推送方法、装置、电子设备及系统
US11132701B2 (en) Method and user device for generating predicted survey participation data at the user device
CN111552835A (zh) 文件推荐方法、装置及服务器
CN112269943B (zh) 一种信息推荐系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant