CN116054982B

CN116054982B - 一种数据处理方法及终端

Info

Publication number: CN116054982B
Application number: CN202210763669.0A
Authority: CN
Inventors: 李伟
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-11-14
Anticipated expiration: 2042-06-30
Also published as: CN116054982A

Abstract

本申请实施例提供了一种数据处理方法及终端，涉及数据处理技术领域，可以为终端提供稳定的频谱接入机会，降低计算任务的处理时延和功耗。其中，终端利用部分可观察马尔可夫决策过程POMDP模型，来决策是否使用目标信道将计算任务卸载给边缘服务器ECS。其中，POMDP模型可基于频谱感知可能得到的感知结果和信道的真实状态的可能情况综合决策，决策目标是使收益达到最大。若决策结果为使用目标信道将计算任务卸载给ECS，智能驾驶终端才将计算任务通过目标信道卸载给ECS进行计算处理。

Description

一种数据处理方法及终端

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据处理方法及终端。

背景技术

当前频谱资源非常紧张，适合通信的频段几乎都已被分配完毕。针对这种现状，采用频谱感知技术来动态共享频谱，允许次用户(Secondary User,SU)在主用户(PrimaryUser,PU)空闲时接入其频段，或者在满足对PU干扰小于干扰门限的前提下与PU共享信道。从而增加SU接入频谱的机会。

但是，发明人在实施本申请实施例的过程中发现：尽管采用频率感知技术可以一定程度上解决频谱资源紧缺的问题。然而受距离、噪声以及干扰等因素影响，频谱感知的结果并不能达到100％准确，从而导致SU接入频谱不稳定。

发明内容

有鉴于此，本申请提供了一种数据处理方法及终端，可以为终端提供稳定的频谱接入机会，降低计算任务的处理时延和功耗。

第一方面，本申请实施例提供一种数据处理方法，应用于会产生大量且实时性较强的计算任务(可记为待处理的计算任务)，但其自身的计算能力有限的终端(可记为第一终端)，如智能驾驶终端、VR终端、AR终端等。并且，第一终端和其他一些同样会产生大量且实时性较强的计算任务，但其自身的计算能力有限的终端(可记为至少一个第二终端)处于同一信任环中。也就是说，第一终端和至少一个第二终端之间建立了信任机制，两者之间可以传输各种数据。

在使用POMDP模型决策的每个周期内，第一终端需要确定每组观察值和动作对应的条件观察概率和奖励。观察值包括第一终端对第一信道的状态的感知结果和第一信道的状态的真实结果的排列组合，第一信道用于终端(如第一终端、第二终端)向边缘服务器(ECS)传输数据。第一信道的状态包括第一状态和第二状态，第一状态指示第一信道未被占用，则第一信道可以被终端用于传输数据。第二状态指示第一信道被占用，则第一信道不能被终端用于传输数据。也就是说，观察值中包括感知错误的情况，如观察值为感知结果是第一状态，真实结果是第二状态，或者观察值为感知结果是第二状态，真实结果是第一状态。动作包括第一动作和第二动作，第一动作指示在终端本地处理计算任务，第二动作指示由终端本地和边缘服务器共同处理计算任务。条件观察概率是指在执行动作后观察到相应的观察值的概率，奖励是指在执行动作后观察到相应的观察值，第一终端和至少一个第二终端获得的计算量。从而考虑到了观察值为感知错误的情况的可能，后续决策时将感知错误的情况也纳入考虑，有利于做出更准确的决策。以及，第一终端确定信念概率。信念概率是指第一信道的状态处于某状态的概率。

然后，第一终端根据条件观察概率、奖励和信念概率决策出目标动作，决策目标为使第一终端和至少一个第二终端执行目标动作后，在当前周期获得的收益最大。当前周期获得的收益(如Vt)为执行目标动作后的奖励，与执行目标动作后、下一个周期获得的收益(如Vt+1)的加权和(例如，奖励的权值为1，下一个周期获得的收益的权值为γ)，目标动作为第一动作或者第二动作。第一终端基于目标动作处理计算任务，以及指示至少一个第二终端处理计算任务。例如，目标动作为第二动作，则第一终端可以将第一终端产生的计算任务的一部分通过第一信道传输给边缘计算服务器处理，另一部分在第一终端的终端本地完成。

综上所述，采用本申请实施例的方法，第一终端在决策目标动作的过程中，可以将第一终端对第一信道的状态感知错误的情况也纳入考虑，有利于做出更准确的决策。从而可以为终端提供稳定的频谱接入机会，降低计算任务的处理时延和功耗。

在一种可能的设计方式中，上述第一终端基于目标动作处理计算任务，包括：目标动作是第一动作，第一终端在终端本地处理计算任务。也就是说，当目标动作指示在终端本地处理计算任务时，第一终端则不会向边缘服务器传输计算任务，而是全部在本地处理该计算任务。

在一种可能的设计方式中，在上述第一终端在终端本地处理计算任务之前，方法还包括：第一终端确定在终端本地处理计算任务的情况下，第三终端处理计算任务时的第一计算频率(如)，第三终端为第一终端和至少一个第二终端中的任一个。例如，从而可以使确定出的第一计算频率既不会超过终端的最大计算频率，即f_max，还可以使确定出的第一计算频率与终端可投入处理计算任务的能量相匹配，即/>相应的，上述第一终端在终端本地处理计算任务，包括：第一终端按照第一终端的第一计算频率在终端本地处理计算任务。

在一种可能的设计方式中，第一终端在确定出各个终端的第一计算频率之后，还要将第二终端的第一计算频率发送给各个第二终端。然后，各个第二终端可以按照各自的第一计算频率在终端本地处理计算任务。

在一种可能的设计方式中，上述第一终端基于目标动作处理计算任务，包括：目标动作是第二动作，第一终端在终端本地处理计算任务中的第一子任务(如第三计算任务)，并将计算任务中的第二子任务(如第二计算任务)通过第一信道传输给边缘服务器。也就是说，当目标动作指示由终端本地和边缘服务器共同处理计算任务时，第一终端可以将一部分计算任务在本地处理，而将另一部分计算任务传输给边缘服务器来处理。边缘服务器在处理完成后，可以将处理结果反馈给第一终端。从而第一终端可以接收到处理结果。

在一种可能的设计方式中，在上述第一终端在终端本地处理计算任务中的第一子任务，并将计算任务中的第二子任务通过第一信道传输给边缘服务器之前，方法还包括：第一终端求取使第一终端和至少一个第二终端可以获得最大的计算量的f、p和τ，例如，如下优化问题的最优解。其中，f是在由终端本地和边缘服务器共同处理计算任务的情况下，第三终端处理计算任务的第二计算频率，p是第三终端将计算任务传输给边缘服务器的传输功率，τ是第三终端使用第一信道传输计算任务的时长占当前周期的时长占比，第三终端为第一终端和至少一个第二终端中的任一个。相应的，第一终端在终端本地处理计算任务中的第一子任务，并将计算任务中的第二子任务通过第一信道传输给边缘服务器，包括：第一终端按照第一终端的f在终端本地处理第一子任务，并将第二子任务按照第一终端的p传输给边缘服务器，且传输的时长占当前周期的时长占比为第一终端的τ。如此，可以使采用f、p和τ处理计算任务，整体获得的计算量最大。

在一种可能的设计方式中，第一终端在确定出各个终端的f、p和τ之后，还要将f、p和τ发送给对应的第二终端。然后，各个第二终端可以按照各自的f、p和τ来完成对计算任务的处理。例如，第二终端按照第二终端的f在终端本地处理一部分计算任务，同时将计算任务按照第二终端的p传输给边缘服务器，且传输的时长占当前周期的时长占比为第二终端的τ。

应理解，在由终端本地和边缘服务器来处理计算任务时，即目标动作是第二动作时，第一终端和多个第二终端可通过时分多址TDMA的方式接入第一信道。

在一种可能的设计方式中，观察值包括：第一观察值，第一观察值中感知结果为第一状态，真实结果为第二状态；第二观察值，第二观察值中感知结果为第一状态，真实结果为第一状态；第三观察值，第三观察值中感知结果为第二状态，真实结果为第一状态；第四观察值，第四观察值中感知结果为第二状态，真实结果为第二状态；第五观察值，第五观察值中感知结果为第一状态，真实结果未知；以及，第六观察值，第六观察值中感知结果为第二状态，真实结果未知。每组观察值和动作包括一种观察值，和第一动作或者第二动作的组合。例如，一组观察值和动作为：第一观察值和第一动作。

应注意，观察值中对应的感知结果并不是指实际中的感知结果，而只是指感知结果的一种可能。

在一种可能的设计方式中，在上述第一终端确定第一信道的状态的转移概率之前，方法还包括：第一终端感知第一信道的状态为第一状态。即，第一信道是感知到未被占用的信道。

第二方面，本申请实施例还提供了一种终端，所述终端中包括存储器和一个或多个处理器，所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述终端执行如上述第一方面及其任一种可能的设计方式所述的方法。

第三方面，本申请实施例还提供了一种计算机可读存储介质，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如上述第一方面及其任一种可能的设计方式所述的方法。

第四方面，本申请实施例还提供了一种芯片系统，所述芯片系统应用于包括处理器和存储器的终端，所述芯片系统包括一个或多个接口电路和一个或多个处理器，所述接口电路和所述处理器通过线路互联，所述接口电路用于从所述终端的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令，当所述处理器执行所述计算机指令时，使得所述终端执行如上述第一方面及其任一种可能的设计方式所述的方法。

第五方面，本申请提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。

可以理解地，上述提供的第二方面所述的终端，第三方面所述的计算机存储介质，第四方面所述的芯片系统，第五方面所述的计算机程序产品所能达到的有益效果，可参考第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例适用的一种智能驾驶的场景示意图；

图2为本申请实施例提供的一种智能驾驶终端的硬件结构图；

图3为马尔可夫决策过程的原理示意图；

图4为本申请实施例适用的另一种智能驾驶的场景示意图；

图5为本申请实施例提供的数据处理方法的交互图；

图6为二状态马尔可夫链的示意图；

图7为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

本申请实施例提供一种数据处理方法，可以应用于有计算密集型与时延敏感型任务、但是终端自身的计算能力有限的场景中。

示例性的，增强现实(Augmented Reality，AR)终端或者虚拟现实(VirtualReality，VR)终端，如VR眼镜，其自身的计算能力通常很有限，但是在使用这些终端的过程中，往往会产生大量(即密集型)、且实时性较强(即时延敏感性)的计算任务。因此，本申请实施例提供的数据处理方法可以应用于使用AR终端或者VR终端的场景中。

又示例性的，智能驾驶终端自身的计算能力通常也比较有限，但是在使用智能驾驶终端行驶的过程中，为了实现避障等功能，通常会产生大量(即密集型)、且实时性较强(即时延敏感性)的计算任务。因此，本申请实施例提供的数据处理方法可以应用于使用智能驾驶终端的场景中。

当然，实际实施时，本申请实施例的终端并不限于上述示例中的AR终端、VR终端或者智能驾驶终端。例如，终端还可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、蜂窝电话、个人数字助理(personal digital assistant，PDA)等终端，也可以是智能电视、扫地机器人等智能家电，或者智能头盔、智能手表等智能可穿戴终端。下文中，将主要以终端是智能驾驶终端为例，来说明本申请方案。

伴随着5G时代的到来，智能驾驶技术快速发展，智能驾驶终端每秒都会产生计算密集型与时延敏感型任务，而这些智能驾驶终端的计算能力通常很有限。因此，在一些实施例中，会采用云计算来完成智能驾驶终端产生的计算任务。即，使用云计算中心实现对这些计算任务的数据处理。从而可以解决智能驾驶终端计算能力不足的问题。

但是，由于以下因素中的一项或多项的影响：云计算中心的计算模式单一，智能驾驶终端只能将计算任务传输给云计算中心计算，然后接收云计算中心的计算结果，需要发送和接收大量的计算任务，传输功耗大。且，云计算中心需要完成大量计算任务的处理，运算量大，导致任务处理的耗时高。云计算中心和智能驾驶终端的距离远，计算任务传输所需的时长较长。云计算中心的吞吐量有限。网络不稳定。以及，带宽不足。将导致智能驾驶终端产生的计算任务的处理时延高、智能驾驶终端的功耗大，影响智能驾驶的安全性。

基于上述背景，在一些实施例中，可采用移动边缘计算(Mobile Edge Computing,MEC)来完成智能驾驶终端产生的计算任务。MEC是指：在云计算中心与智能驾驶终端之间寻找边缘计算服务器(Edge Computing Server,ECS)，允许智能驾驶终端直接与ESC通信。智能驾驶终端可以将部分或者全部计算任务卸载(也可以称为上传)到ECS上，ECS计算结束后将结果返回给智能驾驶终端。也就是说，MEC是将计算服务器由原来的云计算中心下沉至网络边缘侧，为智能驾驶终端实时提供类似云计算的服务。从而在解决智能驾驶终端计算能力不足的问题的同时，克服传统云计算的不足。

采用MEC，智能驾驶终端需要通过频谱资源对应的信道将计算任务上传到ESC。然而，当前频谱资源非常紧张，适合通信的频段几乎都已被分配完毕。因此，为海量的智能驾驶终端分配频谱无疑会对本已非常紧张的频谱资源造成巨大的压力。

基于上述背景，在一些实施例中，可采用频谱感知技术，如认知无线电(CognitiveRadio,CR)来动态共享频谱资源中的频段。以CR为例，其允许智能驾驶终端在PU空闲时接入其频段，或者在满足对PU干扰小于干扰门限的前提下与PU共享频段。应理解，PU是指拥有固定频段的用户，例如，某广播电台拥有固定频段，则该广播电台是该固定频段的PU，而智能驾驶终端则是该固定频段的SU。可见，CR可提高频谱利用率，在频谱资源紧缺的现状下，为智能驾驶终端提供频谱接入机会。从而可以一定程度上缓解频谱资源紧缺的问题。应理解，频谱资源中的一个频段对应有多个信道。信道可以理解为传输数据的通道。例如，Wi-Fi使用的频段是2.4GHZ和5GHZ两个频段，2.4GHZ频段下有13个信道，5GHZ频段下有45个信道。也就是说，共享频段实质就是共用信道。并且，PU空闲是指PU未使用固定频段，即未使用该固定频段对应的信道，因此，PU空闲也可以理解为相应的信道未被占用，即空闲。反之，PU繁忙是指PU使用固定频段，即使用该固定频段对应的信道，因此，PU繁忙也可以理解为相应的信道被占用，即繁忙。

参见图1，公路上行驶的汽车A在产生计算任务后，可以采用CR感知公共频谱中某频段下的某信道空闲时，将汽车A上的计算任务通过该信道卸载给基站1，即基站1是ECS。

但是，由于各种客观因素，如距离、噪声以及干扰等因素影响，使得频谱感知的结果会存在错误。如，在信道占用时，感知到信道空闲；或者，在信道空闲时，感知到信道占用。该错误的感知结果可能会影响智能驾驶终端接入频谱的稳定性，从而会影响计算任务的处理。

基于此，本申请实施例提供一种数据处理方法，可以应用于智能驾驶终端中。其中，智能驾驶终端可以采用频谱感知技术获取到空闲的目标信道。然后针对目标信道，智能驾驶终端利用部分可观察马尔可夫决策过程(Partially Observable Markov DecisionProcesses,POMDP)模型，来决策是否使用目标信道将计算任务卸载给ECS。其中，POMDP模型可基于频谱感知可能得到的感知结果(包括空闲和占用两种状态)和/或信道的真实状态的可能情况(包括空闲和占用两种状态)综合决策，决策目标是使收益达到最大。若决策结果为使用目标信道将计算任务卸载给ECS，智能驾驶终端才将计算任务通过目标信道卸载给ECS，从而完成对计算任务的处理。也就是说，在本申请实施例中，可以将频谱感知错误的可能性也纳入决策。从而可以提升终端接入频谱的稳定性，降低计算任务的处理时延和功耗。

参见图2，为本申请实施例提供的一种智能驾驶终端200的硬件结构图。如图2所示，智能驾驶终端200可以包括处理器210，外部存储器接口220，内部存储器221，通用串行总线(universal serial bus，USB)接口230，充电管理模块240，电源管理模块241，电池242，天线1，天线2，移动通信模块250，无线通信模块260，音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，传感器模块280，按键290，马达291，指示器292，摄像头293，以及显示屏294。

可以理解的是，本实施例示意的结构并不构成对智能驾驶终端200的具体限定。在另一些实施例中，智能驾驶终端200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对智能驾驶终端200的结构限定。在另一些实施例中，智能驾驶终端200也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块240可以通过USB接口230接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块240可以通过智能驾驶终端200的无线充电线圈接收无线充电输入。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为智能驾驶终端200供电。

电源管理模块241用于连接电池242，充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210，内部存储器221，外部存储器，显示屏294，摄像头293，和无线通信模块260等供电。电源管理模块241还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块241也可以设置于处理器210中。在另一些实施例中，电源管理模块241和充电管理模块240也可以设置于同一个器件中。

智能驾驶终端200的无线通信功能可以通过天线1，天线2，移动通信模块250，无线通信模块260，调制解调处理器以及基带处理器等实现。

无线通信模块260可以提供应用在智能驾驶终端200上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

智能驾驶终端200通过GPU，显示屏294，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏294和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

智能驾驶终端200可以通过ISP，摄像头293，视频编解码器，GPU，显示屏294以及应用处理器等实现拍摄功能。ISP用于处理摄像头293反馈的数据。摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。在一些实施例中，智能驾驶终端200可以包括1个或N个摄像头293，N为大于1的正整数。

外部存储器接口220可以用于连接外部存储卡，例如Micro SD卡，实现扩展智能驾驶终端200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令，从而执行智能驾驶终端200的各种功能应用以及数据处理。例如，处理器210可以通过执行存储在内部存储器221中的指令，响应于用户展开显示屏294的操作，在显示屏294显示不同的内容。内部存储器221可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储智能驾驶终端200使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器221可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

智能驾驶终端200可以通过音频模块270，扬声器270A，受话器270B，麦克风270C，耳机接口270D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

按键290包括电源键(也可称开机键)，音量键等。按键290可以是机械按键。也可以是触摸式按键。智能驾驶终端200可以接收按键输入，产生与智能驾驶终端200的用户设置以及功能控制有关的键信号输入。在一些实施例中，在智能驾驶终端200处于关机状态下，用户对电源键的按压操作可触发智能驾驶终端200开机。

马达291可以产生振动提示。马达291可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

本申请实施例提供的数据处理方法，可以在具有上述硬件结构的智能驾驶终端200中实现。在详细说明本申请实施例提供的数据处理方法前，先在此对本申请方案中用到的POMDP做如下简单介绍。

在介绍POMDP之前，首先需要了解马尔可夫决策过程(Markov Decision Process，MDP)：

参见图3，MDP是序贯决策(sequential decision)的数学模型，用于在状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。MDP模型中包括两个交互对象：智能体和环境。智能体是指MDP中进行机器学习的代理，可以感知其所处环境的状态并进行决策，根据决策结果对环境做出动作并通过环境的反馈调整决策。环境是指MDP模型中智能体外部所有事物的集合，其状态会受智能体动作的影响而改变，环境在每次决策后可能会反馈给智能体相应的奖励，奖励随时间的积累被称为回报。

继续参见图3，MDP模型包括四个组成元素：状态，动作，状态转移概率和奖励。其中，状态是对环境的描述，在智能体做出动作后，状态会发生变化，且状态演变具有马尔可夫性质。动作是对智能体行为的描述，是智能体决策的结果。也就是说，动作有改变状态的效果。智能体在执行某动作(可记为如图3所示的at)后，状态可由当前状态(可记为如图3所示的θt)转移到下一时刻的状态(可记为如图3所示的θt+1)。并且，动作改变状态的效果是概率性的，即在θt下执行at后，θt+1的值并不是一定的。以状态包括0和1两种状态为例，θt为0时执行at后，θt+1有0.6的概率是1，有0.4的概率是0。那么，0.6即为在状态为0时，执行动作at后转移到状态1的状态转移概率，0.4即为在状态为0时，执行动作at后转移到状态0的状态转移概率。奖励是指智能体给出动作后环境对智能体的反馈。为了便于描述，可以将当前时刻环境对智能体反馈的奖励记为Rt，将智能体在θt下执行at后，环境向智能体反馈的奖励记为Rt+1。

接着，介绍POMDP：

在MDP模型中，智能体可以准确的感知到环境的状态。即，智能体感知到环境的状态是怎样的，环境的真实状态就是怎样的。而在真实世界中，智能体对环境的感知可能不一定真实。POMDP模型则正是着眼于智能体对环境的感知不一定真实的场景。由于智能体对环境的感知不一定真实，智能体必须在真实环境状态的不确定性下做出决策。在POMDP模型中，智能体可以与环境交互并接收观察，并根据全域或者部分区域的观察结果来推断当前状态的概率分布，从而做出决策。

相应的，与MDP模型相比，在组成元素上，POMDP模型主要多了观察、条件观察概率和折扣因子。观察是指智能体在θt下执行at并且更新为θt+1后，智能体可以接收到环境的观测值，其与θt+1相关。条件观察概率是指智能体执行at并以θt+1结束后，观察到某观测值(可记为Ok)的概率。为了方便说明，可以将条件观察概率记为Pr(Ok|θt+1，at)。折扣因子(可记为γ)用于描述未来的价值对收益的影响程度，γ可以在0到1之间取值。并且，γ越大，表示对影响程度越大，γ越小，表示对影响程度越小。

采用POMDP模型，可以在智能体无法准确感知环境状态的场景中，决策出最优的at，使智能体在当前状态下执行at后，智能体获得最大的奖励。

下面将以智能驾驶终端为例，来详细说明本申请实施例提供的数据处理方法的具体实现：

在一些场景(可记为场景1)中，单个智能驾驶终端(如图1中的汽车A)产生计算任务后，可以采用本申请实施例提供的数据处理方法，完成单个智能驾驶终端产生的计算任务的处理。

在另一些场景(可记为场景2)中，参见图4，处于一定的通信范围内、且互相之间建立信任机制的多个智能驾驶终端，如图4虚线椭圆内的汽车A、汽车B和汽车C，可以形成一个终端系统。该多个智能驾驶终端可以作为一个整体，采用本申请实施例提供的数据处理方法，完成对该多个智能终端产生的计算任务的处理。其中，终端系统中的多个智能驾驶终端之间可以基于建立的信任机制来完成通信，实现数据处理中相关信息的传输，并由其中一个智能驾驶终端来使用POMDP模型完成决策。

应注意，上述关于场景2中，以终端系统中包括的多个终端都是智能驾驶终端，即相同的终端为例来说明。但是实际实施时，终端系统中也可以包括多个不同类型的终端。例如，终端系统中包括手机、智能电视、扫地机器人等。

应理解，上述场景1为场景2的一种特殊情况，即终端系统中仅包括一个智能驾驶终端的情况。因此，为了涵盖上述场景1和场景2，下文中，将主要以场景2为例来说明本申请方案。若实际中是场景1的情况，则仅需做适应性调整即可，下文对应位置将会逐一解释。

参见图5，本申请实施例提供的数据处理方法，主要包括如下步骤：

S501、终端寻找可用的ECS。

其中，终端可以是终端系统中的一个终端，可记为第一终端。在一些实施例中，可以由终端系统中的多个终端自行协商出第一终端。应理解，在场景1中，第一终端即为唯一的终端。

可用的ECS是指有计算能力的ECS。本申请实施例中，对ECS的具体形态不作具体限定。例如，ECS可以是基站、手机、平板等。在本文智能驾驶场景中，将主要以ECS是道路(如高速路)周边的基站为例来说明。

S502、终端感知信道的状态，确定目标信道。

终端可以采用频谱感知技术，如CR感知空间频谱中各个信道的状态，该状态包括繁忙和空闲两种，并将空闲的一信道确定为目标信道。

应注意，在实际实施时，上述S501和S502的执行顺序并不以图5所示的顺序为限。在另一些实施例中，也可以先执行S502，再执行S501；或者，可以同时执行S501和S502。

S503、终端使用POMDP模型决策是否将第一计算任务卸载给ECS。

在本申请实施例中，智能驾驶终端需要根据信道的状态(包括占用和空闲两种)做出决策，确定在本地完成对计算任务的处理和/或将计算任务卸载给ECS处理。其中，信道的状态变化具有马尔可夫性质。并且，智能驾驶终端采用频谱感知技术对信道的状态的感知结果可能是不准确的。由此可见，本申请实施例中智能驾驶终端决策在本地完成对计算任务的处理和/或将计算任务卸载给ECS处理的场景，符合POMDP模型的适用场景。因此，可使用POMDO模型来决策在本地完成对计算任务的处理和/或将计算任务卸载给ECS处理。其中，终端为POMDP模型中的智能体，信道为POMDP模型中的环境。

下面将一一说明POMDP模型中的状态、动作、状态转移概率、奖励、观察以及条件观察概率，在本申请实施例中的具体定义和取值。

1、状态：目标信道的状态，记为θt。θt∈{0(繁忙)，1(空闲)}。也就是说，目标信道的状态包括0和1两种，0表示目标信道被占用，即处于繁忙状态，1表示目标信道空闲，即处于空闲状态。

2、状态转移概率：信道的状态从当前时刻的i状态转移到下一时刻的j状态的概率，记为pi，j。θt可以构成如图6所示的二状态马尔可夫链。其中，a表示从i＝0(即繁忙状态)转移到j＝1(即空闲状态)的概率，1-a表示从i＝0(即繁忙状态)转移到j＝0(即繁忙状态)的概率，b表示从i＝1(即空闲状态)转移到j＝0(即繁忙状态)的概率，1-b表示从i＝1(即空闲状态)转移到j＝1(即空闲状态)的概率。

3、动作：终端系统中各个终端根据第一终端的决策采取的动作，记为at。at包括处理计算任务的方式，处理计算任务的方式包括以下三种：第一种，纯终端本地计算：终端的计算任务全部由终端自身在本地完成处理。第二种，纯ECS计算：终端的计算任务全部卸载给ECS来处理。第三种，本地和ECS共同计算。终端的计算任务中的一部分卸载给ECS来处理，剩余的另一部分由终端自身在本地完成处理。

应理解，上述第二种方式中，计算任务全部卸载给ECS，则当终端自身无需在本地完成计算任务的处理，该方式会浪费终端本地的计算能力。基于此，在一些实施例中，通常仅使用上述第一种或者第三种方式来处理终端产生的计算任务。

在一些实施例中，a_t＝(e_a,t,β_t)。其中，为终端系统中第k个终端可投入处理计算任务的能量，能量可以为电量。K为终端系统中终端的总数量。应理解，当应用于场景1时，则e_a,t中仅包括一个终端可投入处理计算任务的能量，如β_t＝1：表示采用上述第一种方式来处理计算任务，即纯终端本地计算。β_t＝2：表示采用上述第三种方式来处理计算任务，即本地和ECS共同计算。应注意，在采用POMDP模型决策出at后，则相当于决策出e_a,t和β_t。其中，β_t则可指示当前时隙(可记为时隙t，也可称为周期)采用第一种方式还是第三种方式来处理计算任务。e_a,t可以指示在下一个时隙(可记为时隙t+1)终端系统中第k个终端可投入处理计算任务的能量。

4、奖励：终端系统中的多个终端在采取动作at后，终端系统中多个终端可以获得的计算量(比特数，bit)的加权和，可记为R(b_t,e_s,t,g_t,a_t)。

其中,ω_k为第k个终端的计算量的权值，ω_k＞0，R_k(b_t,e_s,t,g_t,a_t)为第k个终端可以获得的计算量。b_t表示信念概率，b_t(θt)表示终端(如第一终端)认为在时隙t内，目标信道的状态处于θt的概率，如处于繁忙状态的概率，处于空闲状态的概率。为第k个终端的可用能量，如可用的电量。应理解，终端系统中的第k个终端，其/>大于/>即第k个终端的可用能量大于第k个终端可投入处理计算任务的能量。g_t表示第k个终端与目标信道的信道增益。

下面将分别讨论β_t＝1与β_t＝2时，R(b_t,e_s,t,g_t,a_t)的具体计算：

当β_t＝1时，表示采用上述第一种方式来处理计算任务，即纯终端本地计算，则第k个终端可以获得的计算量R_k(b_t,e_s,t,g_t,a_t)为第k个终端本地计算的计算量。具体地，第k个终端可以获得的计算量为其中，/>f_max为第k个终端CPU的最大计算频率，T为一个时隙的时间长度，τ₀为频谱感知所需的时间，η为第k个终端每个CPU周期的耗能功率系数，则/>为第k个终端的CPU可投入处理计算任务的计算频率。也就是说，/>是采用纯本地计算时，第k个终端CPU处理计算任务的本地计算频率，其为第k个终端的CPU的最大计算频率和第k个终端可投入处理的计算频率中的最小值。应理解，通常情况下，f_max是大于/>的，因此，/>通常为/>C表示第k个终端每计算1bit的数据所需的CPU周期数，则/>为第k个终端的计算速率。

当β_t＝2时，表示采用上述第三种方式来处理计算任务，即本地和ECS共同计算。此时，终端系统中的K个终端可以作为K个SU共享目标信道，从而实现分别将计算任务卸载给ECS来完成处理。例如，K个终端通过时分多址(Time division multiple access，TDMA)的方式接入目标信道。该情况下，第k个终端可以获得的计算量R_k(b_t，e_s，t，g_t，a_t)为第k个终端本地计算的计算量和第k个终端卸载到ECS的计算任务的计算量。K个终端可以获得的计算量R(b_t，e_s，t，g_t，a_t)为K个终端本地计算的计算量和K个终端卸载到ECS的计算任务的计算量之和。具体地，R(b_t，e_s，t，g_t，a_t)为下述优化问题的目标函数值，即最大值：

其中，f_k是第k个终端的CPU处理计算任务的计算频率，p_k是第k个终端卸载计算任务的卸载功率，τ_k是第k个终端使用目标信道卸载计算任务的时间占比。f_k、p_k和τ_k是需要优化的量。为第k个终端可以获得的本地计算的计算量，C_k是第k个终端每计算1bit的数据所需的CPU周期数(即与前文C相同)，则/>为第k个终端的计算速率，为第k个终端可以获得的ECS的计算量。W是目标信道的信道带宽。h_k为互干扰，即第k个终端对目标信道的干扰情况。σ²是噪声功率。

约束C1是对第k个终端投入处理计算任务的能量的限制，ηk是第k个终端每个CPU周期的耗能功率系数，则η_kf_k(T-τ₀)为第k个终端本地计算消耗的能量，τ_k(T-τ₀)p_k为第k个终端卸载计算任务到ECS消耗的能量。那么，C1的约束具体为：第k个终端投入处理计算任务的能量大于或等于第k个终端本地计算消耗的能量和第k个终端卸载计算任务到ECS消耗的能量之和。约束C2是对K个终端卸载计算任务的时间占比之和的限制，即K个终端卸载计算任务的时间占比之和要小于1。约束C3是对第k个终端的CPU的计算频率的限制，即计算频率要大于或等于0，且小于或等于最大计算频率f_max。约束C4是对第k个终端的卸载功率的限制，即卸载功率要大于0，且小于或等于最大卸载功率p_max。约束C5是对第k个终端卸载计算任务的时间占比的限制，即时间占比要大于或等于0。

上述优化问题是一个非凸问题，在一些实施例中，为了方便计算，可以先将非凸问题转化为凸问题后，再求解。例如，可以用凸优化工具箱(CVX)完成求解，其最优解记为其中，/>是采用卸载加本地计算时，第k个终端的CPU处理计算任务的最优计算频率，/>为第k个终端卸载计算任务的最优卸载功率，/>为第k个终端通过目标信道卸载计算任务的最优时间占比。

需要说明的是，在每个时隙t中都需要先计算得到β_t＝1的情况下的以及计算得到β_t＝2的情况下的/>从而方便后续计算奖励(参见下表2)，以及进行任务卸载(参见下文S505-S508)和本地计算(参见下文S504)。

应理解，当应用于场景1时，奖励即为一个终端的计算量，即上述计算过程中的K＝1。

5、观察：终端系统中的多个终端在采取动作at后，第一终端可能观察到的观察值O_k。在一些实施例中，O_k可以有如下表1所示的O₁到O₆共6种情况：

表1

很显然，上述O₁到O₆涵盖了终端对信道频谱感知的结果和信道真实的状态的各种情况。很显然，观察值中也包括了频谱感知错误的情况，如O₁和O₅。

6、条件观察概率：终端系统中的多个终端在采取动作at，并且目标信道的状态更新为j后，第一终端观察到观察值O_k的概率，1≤k≤6。条件观察概率可记为Pr(Ok|j，at)。

并且，信念概率与条件观察概率之间具有如下关系：

其中，b_t(i)为时隙t内，目标信道处于状态i的概率。b_t+1(j)为时隙t+1内，目标信道处于状态j的概率。p_i，j为目标信道从状态i转移到状态j的概率。p_i，z为目标信道从状态i转移到状态z的概率。Pr(O_k|j，a_t)为在采取动作at，并且目标信道的状态更新为状态j后，第一终端观察到观察值O_k的概率；Pr(O_k|z，a_t)为在采取动作at，并且目标信道的状态更新为状态z后，第一终端观察到观察值O_k的概率。其中，1≤k≤6。也就是说，只要给定了信念概率的初始值，如b₀(i)，并且确定了条件观察概率后，就可以通过不断递推得到下一个时隙，即时隙t+1的信念概率。应注意，信念概率bt是连续的，对bt进行离散化则可以得到信念状态Bt。

本申请实施例中，可以配置当采取行为a_t＝(e_a，t，β_t＝1)或e_a，t＝0后，或者当采取行为a_t＝(e_a，t，β＝2)，且0＜e_a，t≤e_s，t后，观察到上述观察值O_k的条件观察概率Pr(O_k|θt+1＝j，at)以及观察到上述观察值O_k的奖励，可记为R(B_t，e_s，t，g_t|a_t，O_k)，Bt为信念状态。

上述配置的条件观察概率Pr(O_k|θt+1＝j，at)和奖励R(B_t，e_s，t，g_t|a_t，O_k)，可用于后续计算采取各种动作后的收益。收益包括执行动作at后的奖励和所有后续状态的价值之和(可参见下文贝尔曼方程)。

示例性的，配置的条件观察概率Pr(O_k|θt+1，at)和奖励R(B_t，e_s，t，g_t|a_t，O_k)如下表2所示：

表2

上述表2中，I_j＝0和I_j＝1都为指示函数，j为0，则I_j＝0为1，j为1，则I_j＝0为0。j为1，则I_j＝1为1，j为0，则I_j＝1为0为0。p_f为虚警概率、pd为探测概率(也可以称为检测概率)。以及，为时隙t内计算得到的/>即卸载加本地计算时，时隙t内第k个终端的CPU处理计算任务的最优计算频率。/>为时隙t内计算得到的/>即卸载加本地计算时，时隙t内第k个终端卸载计算任务的最优卸载功率。/>为时隙t内计算得到的/>即卸载加本地计算时，时隙t内第k个终端通过目标信道卸载计算任务的最优时间占比。/>纯本地计算时，时隙t内第k个终端的CPU处理计算任务的本地计算频率。

下面将一一解释上表2中的配置：

O₁中表示感知结果为空闲状态，那么采用第三种方式，即采用动作a_t＝(e_a，t，β＝2)，相应的，将a_t＝(e_a，t，β_t＝1)或e_a，t＝0对应的Pr(O1|θt+1，at)和R(B_t，e_s，t，g_t|a_t，O₁)都配置为0。但是，O₁中ACK≠1，表示真实状态为繁忙状态，那么目标信道极有可能无法用于传输计算任务，从而ECS无法获取到卸载的计算任务，不能完成对计算任务的处理。针对这种情况，将a_t＝(e_a，t，β＝2)对应的奖励R(B_t，e_s，t，g_t|a_t，O₁)配置为卸载加本地计算时，终端本地可完成的计算量，而不包括ECS的计算量。如表2所示，配置R(B_t，e_s，t，g_t|a_t，O₁)中第k个终端可获得的计算量为/>并且，将a_t＝(e_a，t，β＝2)对应的Pr(O2|θt+1，at)配置为Pr(O₁|θ_t+1＝j，a_t)＝I_j＝0(1-p_d)。

O₂中表示感知结果为空闲状态，那么采用第三种方式，即采用动作a_t＝(e_a，t，β＝2)，相应的，将a_t＝(e_a，t，β_t＝1)或e_a，t＝0对应的Pr(O1|θt+1，at)和R(B_t，e_s，t，g_t|a_t，O₂)都配置为0。但是，O₂中ACK＝1，表示真实状态为空闲状态，那么目标信道则可以将终端的计算任务传输给ECS，从而ECS可以获取到卸载的计算任务并处理。针对这种情况，将a_t＝(e_a，t，β＝2)对应的奖励R(B_t，e_s，t，g_t|a_t，O₂)配置为卸载加本地计算时，终端本地的计算量和ECS的计算量之和。如表2所示，配置R(B_t，e_s，t，g_t|a_t，O₂)中第k个终端可获得的计算量为并且，将a_t＝(e_a，t，β＝2)对应的Pr(O2|θt+1，at)配置为Pr(O₂|θ_t+1＝j，a_t)＝I_j＝1(1-p_f(τ₀))。

O₃中表示感知结果为繁忙状态，那么采用第一种方式，即采用动作a_t＝(e_a，t，β_t＝1)，相应的，将a_t＝(e_a，t，β＝2)对应的Pr(O3|θt+1，at)和R(B_t，e_s，t，g_t|a_t，O₃)都配置为0。同时，O₃中并未考虑真实状态。针对这种情况，将a_t＝(e_a，t，β_t＝1)对应的奖励R(B_t，e_s，t，g_t|a_t，O₃)配置为纯本地计算时终端本地的计算量。如表2所示，配置R(B_t，e_s，t，g_t|a_t，O₃)中第k个终端可获得的计算量为/>并且，将a_t＝(e_a，t，β_t＝1)对应的Pr(O3|θt+1，at)配置为Pr(O₃|θ_t+1＝j，a_t)＝I_j＝1p_f(τ₀)+I_j＝0p_d。

O₄中表示感知结果为空闲状态，那么采用第三种方式，即采用动作a_t＝(e_a，t，β＝2)，相应的，将a_t＝(e_a，t，β_t＝1)对应的Pr(O4|θt+1，at)和R(B_t，e_s，t，g_t|a_t，O₄)都配置为0。同时，O₄中并未考虑真实状态。针对这种情况，将a_t＝(e_a，t，β＝2)对应的奖励R(B_t，e_s，t，g_t|a_t，O₄)配置为卸载加本地计算时，终端本地的计算量。如表2所示，配置R(B_t，e_s，t，g_t|a_t，O₄)中第k个终端可获得的计算量为/>并且，将a_t＝(e_a，t，β＝2)对应的Pr(O4|θt+1，at)配置为Pr(O₄|θ_t+1＝j，a_t)＝I_j＝1[1p_f(τ₀)]+I_j＝0(1-p_d)。/>

应注意，上述表2所示的配置仅为示例性的。例如，对应O₄，也可以将奖励配置为卸载加本地计算时，终端本地的计算量和ECS的计算量之和；又例如，对应O₅或者O₆，也可以将奖励配置为纯本地计算时，终端本地的计算量等等。本申请实施例对此不作具体限定。

经过前述过程则可确定POMDP模型所需的状态转移概率pi，j、信念概率b_t(i)、条件观察概率Pr(Ok|j，at)、奖励R(B_t，e_s，t，g_t|a_t，O_k)，可以通过贝尔曼方程，以收益最大为目标，决策出时隙t内的最优动作at。收益包括执行动作at后的奖励和所有后续状态的价值之和。示例性的，贝尔曼方程的形式为：其中，V_t(i)是指当前状态i的收益。R(i，at)是指在当前状态i下执行动作at的奖励。/>是指下一个状态j的价值之和。P_i，j(at)表示从当前状态i转换到下一个状态j的概率。V_t+1(j)表示下一个状态j的收益。求解贝尔曼方程，实质就是在求解使V_t(i)最大的at，该使V_t(i)最大的at即为最优动作at。

依据上述形式的贝尔曼方程，可以列得如下优化方程(1)：

优化方程(1)中的R(B_t，e_s，t，g_t，a_t)是指在当前状态i下执行动作at的奖励，其具体可通过如下公式计算得到：

以及，优化方程(1)中的(可记为M)是指下一个状态j的价值之和。应理解，在本申请实施例中，观察值、信道增益、能量都会影响下一个状态j的价值。因此，在计算下一个状态j的价值之和时，需要考虑观察到各种观察值的概率Pr(O_k|a_t，B_t)、信道增益转移的概率Pr(g_t→g_t+1)以及可用能量转移的概率Pr(e_s，t→e_s，t+1|a_t)。其中，Pr(e_s，t→e_s，t+1|a_t)的取值如下所示：

M中的(可记为N)具体可以通过如下公式计算得到：

以及，优化方程(1)中的Y为折扣因子，表示下一个状态j的价值对收益的影响程度。

通过求解at，使上述优化方程(1)中的收益达到最大。

应理解，以贝尔曼方程决策at仅为一种示例性的方式。实际中，求解POMDP的方式并不局限于贝尔曼方程一种，本申请实施例并不对此做具体限定。

若求解得到的at中β_t＝1，即采用上述第一种方式来处理计算任务，则执行下述S504，以在终端本地中完成计算任务的处理。若求解得到的at中β_t＝2，即采用上述第三种方式来处理计算任务，则执行下述S505及其后续步骤，以采用终端本地和ECS结合的方式来完成计算任务的处理。

S504、终端在本地完成对第一计算任务的处理，得到第一计算结果。

也就是说，终端系统中各个终端产生的计算任务都在各自本地完成处理。示例性的，第一终端在决策出at后，可以通知终端系统中的各个终端按照的计算频率处理计算任务。

S505、终端接入目标信道，并通过目标信道卸载第二计算任务给ECS。

第一终端在决策出at之后，可以通知终端系统中的各个终端采用TDMA方式接入目标信道，并在通知中携带各个终端在接入目标信道后，可按照/>的功率将计算任务卸载给ECS，当接入目标信道的时间占比达到/>后，则断开接入目标信道。从而可以将终端中的部分计算任务，即第二计算任务卸载给ECS来处理。

S506、ECS接收第二计算任务并处理，得到第二计算结果。

S507、ECS向终端返回第二计算结果。

S508、终端在本地完成对第三计算任务的处理，得到第三计算结果。

终端自身可以对剩余的计算任务，即第三计算任务在本地完成处理。示例性的，各个终端可以采用的计算频率处理计算任务。

应理解，前述S505-S507与S508之间并无绝对的先后顺序。实际实施时，可以在执行S505-S507的同时，执行S508。

S509、终端接收第二计算结果，根据第二计算结果和第三计算结果得到第一计算结果。

综上所述，采用本申请实施例的方法，针对智能驾驶技术中的时延与功耗问题，智能驾驶终端可以首先对信道状态进行频谱感知，根据感知结果决策每个智能驾驶的参数，智能驾驶终端采取本地计算或者采用时分多址技术共享目标信道。利用POMDP模型对每个智能驾驶终端的信道接入时间占比、CPU工作频率、任务卸载功率进行优化，目标是使智能驾驶终端获得的计算量达到最大，在优化达到信道接入时间占比、CPU工作频率、任务卸载功率之后，利用POMDP模型还可以对卸载方式(如第一种方式、第三种方式)进行联合优化，目标是执行动作后的收益达到最大，并且优化卸载方式的过程中考虑到了观察值的各种情况(包括感知错误的情况)，从而可以提升终端接入频谱的稳定性，降低计算任务的处理时延和功耗。

本申请实施例还提供一种终端，该终端可以包括：存储器和一个或多个处理器。存储器和处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行计算机指令时，终端可执行上述方法实施例中设备执行的各个功能或者步骤。

本申请实施例还提供一种芯片系统，如图7所示，该芯片系统700包括至少一个处理器701和至少一个接口电路702。处理器701和接口电路702可通过线路互联。例如，接口电路702可用于从其它装置(例如终端的存储器)接收信号。又例如，接口电路702可用于向其它装置(例如处理器701)发送信号。示例性的，接口电路702可读取存储器中存储的指令，并将该指令发送给处理器701。当所述指令被处理器701执行时，可使得终端执行上述实施例中的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在终端上运行时，使得终端执行上述相关方法步骤实现上述实施例中的图像处理方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的方法。

其中，本实施例提供的终端、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，应用于第一终端，所述第一终端和至少一个第二终端处于同一信任环中，所述第一终端和所述至少一个第二终端会产生待处理的计算任务，所述方法包括：

所述第一终端确定每组观察值和动作对应的条件观察概率和奖励，以及确定信念概率；所述观察值包括所述第一终端对第一信道的状态的感知结果和所述第一信道的状态的真实结果的排列组合，所述第一信道用于终端向边缘服务器传输数据，所述状态包括第一状态和第二状态，所述第一状态指示所述第一信道未被占用，所述第二状态指示所述第一信道被占用；所述动作包括第一动作和第二动作，所述第一动作指示在终端本地处理所述计算任务，所述第二动作指示由终端本地和所述边缘服务器共同处理所述计算任务；所述奖励为所述第一终端和所述至少一个第二终端获得的计算量；

所述第一终端根据所述条件观察概率、奖励和信念概率决策出目标动作，决策目标为使所述第一终端和所述至少一个第二终端执行所述目标动作后，在当前周期获得的收益最大，当前周期获得的收益为执行所述目标动作后的奖励，与执行所述目标动作后、下一个周期获得的收益的加权和，所述目标动作为所述第一动作或者所述第二动作；

所述第一终端基于所述目标动作处理所述计算任务，以及指示所述至少一个第二终端处理所述计算任务。

2.根据权利要求1所述的方法，其特征在于，所述第一终端基于所述目标动作处理所述计算任务，包括：

所述目标动作是所述第一动作，所述第一终端在终端本地处理所述计算任务。

3.根据权利要求2所述的方法，其特征在于，在所述第一终端在终端本地处理所述计算任务之前，所述方法还包括：

所述第一终端确定在终端本地处理所述计算任务的情况下，第三终端处理所述计算任务时的第一计算频率，所述第三终端为所述第一终端和所述至少一个第二终端中的任一个；

所述第一终端在终端本地处理所述计算任务，包括：

所述第一终端按照所述第一终端的所述第一计算频率在终端本地处理所述计算任务。

4.根据权利要求3所述的方法，其特征在于，所述指示所述至少一个第二终端处理所述计算任务，包括：

所述第一终端向各个第二终端发送所述第二终端的所述第一计算频率。

5.根据权利要求1所述的方法，其特征在于，所述第一终端基于所述目标动作处理所述计算任务，包括：

所述目标动作是所述第二动作，所述第一终端在终端本地处理所述计算任务中的第一子任务，并将所述计算任务中的第二子任务通过所述第一信道传输给所述边缘服务器；

所述第一终端接收所述边缘服务器处理所述第二子任务的处理结果。

6.根据权利要求5所述的方法，其特征在于，在所述第一终端在终端本地处理所述计算任务中的第一子任务，并将所述计算任务中的第二子任务通过所述第一信道传输给所述边缘服务器之前，所述方法还包括：

所述第一终端求取使所述第一终端和所述至少一个第二终端可以获得最大的计算量的f、p和τ；其中，所述f是在由终端本地和所述边缘服务器共同处理所述计算任务的情况下，第三终端处理所述计算任务的第二计算频率，所述p是所述第三终端将所述计算任务传输给所述边缘服务器的传输功率，所述τ是所述第三终端使用所述第一信道传输所述计算任务的时长占当前周期的时长占比，所述第三终端为所述第一终端和所述至少一个第二终端中的任一个；

所述第一终端在终端本地处理所述计算任务中的第一子任务，并将所述计算任务中的第二子任务通过所述第一信道传输给所述边缘服务器，包括：

所述第一终端按照所述第一终端的所述f在终端本地处理所述第一子任务，并将所述第二子任务按照所述第一终端的所述p传输给所述边缘服务器，且传输的时长占当前周期的时长占比为所述第一终端的所述τ。

7.根据权利要求6所述的方法，其特征在于，所述指示所述至少一个第二终端处理所述计算任务，包括：

所述第一终端向各个第二终端发送所述第二终端的所述f、所述p和所述τ。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述观察值包括：

第一观察值，所述第一观察值中所述感知结果为所述第一状态，所述真实结果为所述第二状态；

第二观察值，所述第二观察值中所述感知结果为所述第一状态，所述真实结果为所述第一状态；

第三观察值，所述第三观察值中所述感知结果为所述第二状态，所述真实结果为所述第一状态；

第四观察值，所述第四观察值中所述感知结果为所述第二状态，所述真实结果为所述第二状态；

第五观察值，所述第五观察值中所述感知结果为所述第一状态，所述真实结果未知；以及，

第六观察值，所述第六观察值中所述感知结果为所述第二状态，所述真实结果未知；

其中，每组观察值和动作包括一种观察值，和所述第一动作或者所述第二动作的组合。

9.根据权利要求1-7中任一项所述的方法，其特征在于，在所述第一终端确定每组观察值和动作对应的条件观察概率和奖励之前，所述方法还包括：

所述第一终端感知所述第一信道的状态为第一状态。

10.一种终端，其特征在于，所述终端中包括存储器和一个或多个处理器，所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述终端执行如权利要求1-9中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-9中任一项所述的方法。

12.一种芯片系统，其特征在于，所述芯片系统应用于包括处理器和存储器的终端，所述芯片系统包括一个或多个接口电路和一个或多个处理器，所述接口电路和所述处理器通过线路互联，所述接口电路用于从所述终端的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令，当所述处理器执行所述计算机指令时，使得所述终端执行如权利要求1-9中任一项所述的方法。