CN110148039A

CN110148039A - 一种众智网络智能数体需求匹配策略优化方法及系统

Info

Publication number: CN110148039A
Application number: CN201910424243.0A
Authority: CN
Inventors: 崔立真; 曲喆; 李庆忠; 鹿旭东; 郭伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-20

Abstract

本发明公开了一种众智网络智能数体需求匹配策略优化方法及系统，包括：构建信息空间智能主体所对应的智能数体分布；根据收集到的智能主体与众智网络进行供需匹配的历史数据，通过智能主体的历史行为，学习出其内在的奖赏函数；利用强化学习的方法，学习出智能主体的行为策略；对智能数体实施投放不同的排序策略，根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表，设置总成交量作为评估指标，确定每项排序策略的优劣。本发明有益效果：智能数体可以在信息空间真实地反映智能主体的需求意图，通过计算智能数体的行为策略，获得与智能主体同步的行为模式，为智能主体提供交易服务的推荐排序，大大节省了探索的成本。

Description

一种众智网络智能数体需求匹配策略优化方法及系统

技术领域

本发明属于众智科学、人工智能技术领域，尤其涉及一种众智网络智能数体需求匹配策略优化方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

众智网络系统是现代服务业及未来网络化众智型经济和社会的主要形态。如大型电子商务平台、微信、维基、网络大选等都是典型实例。物理空间的自然人、企业、政府部门等机构、各类智能装备与物品等，随着大数据技术和智能技术的普及应用，变得越发智能，我们将物理空间这些人、企业、机构和物品称之为智能主体。众多智能主体连同他们各自意识空间的思想，借助网络和数据，能够被统一映射到信息空间中各自的镜像，我们称这些众多智能主体的映射为信息空间的智能数体，这些信息空间的智能数体实时反映出物理空间智能主体的行为及其各自的心理意识，并通过网络互连、智能搜索、互动交互、交易撮合等操作(借助智能软件算法)实现精准、适时、动态互联，并能产生各类相互作用的行为，这样就形成了万物互联的众智网络。

发明人发现，众智网络中的任何智能主体之间均为某种意义上的供需关系，其基本行为均可归结为某种意义上的交易活动。智能主体在众智网络发布需求，众多供应方响应需求，为需求者提供方案，众智网络需要根据智能主体的喜好提供一个供应方的排序策略，以期增加交易的成交量等，获得更好的供需匹配结果。若直接将排序策略实施投放在众智网络，策略探索的成本会比较昂贵，一次策略的评估可能对应着巨大的经济损失。

发明内容

为了解决上述问题，本发明提出一种众智网络智能数体需求匹配策略优化方法及系统，通过计算智能主体的历史交易记录获得智能主体的意图函数，将智能主体映射到信息空间，即智能数体，利用智能数体训练搜索排序策略，以达到优化供需匹配的目的。

在一些实施方式中，采用如下技术方案：

一种众智网络智能数体需求匹配策略优化方法，包括：

收集智能主体的基本信息集，构建信息空间智能主体所对应的智能数体分布；

根据收集到的智能主体与众智网络进行供需匹配的历史数据，通过智能主体的历史行为，学习出其内在的奖赏函数；利用强化学习的方法，学习出智能主体的行为策略；

对智能数体实施投放不同的排序策略，根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表，设置总成交量作为评估指标，确定每项排序策略的优劣。

作为进一步地改进，所述收集智能主体的基本信息集，具体为：

所述基本信息集划分为描述信息D_M和行为信息D_B；

将智能主体的基本信息集对应到信息空间，构成智能数体的特征向量<D_M,D_B>；

每个智能数体的特征向量与物理空间的智能主体一一对应，生成智能数体分布。

作为进一步地改进，

根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据，使用M＝<S,A,t,R,P>代表智能数体供需匹配的马尔科夫过程；其中，S为状态空间，A为动作空间，t是转移函数，R是奖励函数，P是智能数体的分布；

把奖赏函数定义为生成数据和真实数据的不可区分度，最大化奖赏函数，尽量生成和真实数据不可取分的数据；

从生成的数据中采样，更新奖赏函数；

用强化学习的方法优化智能数体行为策略。

作为进一步地改进，定义智能主体与众智网络的历史交互数据为τ；初始化用户策略的参数K和奖赏函数的参数F；初始化模拟器策略π以及判别器函数R_F；

根据转移函数，得到：

π(s,a)＝π(<s,a,n>,a)＝π(<s,π(s,·),n>,a)；

从真实的历史交互数据τ中采样，用梯度方法更新奖赏函数的参数F，通过最大化如下目标函数：E_τ[log(R_F(s,a))]+E_τ[log(1-R_F(s,a))]，更新判别器函数R_F，将R_F作为强化学习的奖赏函数，用强化学习的方法优化策略，更新π；

其中，s表示状态空间的某个状态，a表示动作空间的某个动作，n表示用户浏览第几页，π(s,·)表示动作a对应的用户策略，E_τ为历史交互数据采样优化目标函数，R_F(s,a)为奖赏函数；

迭代结束后返回智能数体的行为策略。

作为进一步地改进，

调整历史排序策略作为训练策略投放给智能数体；

根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应列表；

智能数体根据自己的行为策略选择供应；

计算所有智能数体的总成交量；

比较历史成交量和所有智能数体的总成交量，确定每项排序策略的优劣。

作为进一步地改进，每一个排序策略都使用强化学习进行自我优化，此过程用一个四元组<S,A,R,T>表示，其中，S为状态空间，A为动作空间，R为奖赏函数，T为转移函数，是否采纳或是否浏览对应着不同的奖赏，目标是找到一个自身最优的策略π*，使得它在任意状态s和任意时间步骤t+k下，都能够获得最大的长期累积奖赏。

作为进一步地改进，所述策略π*具体为：

其中，E_π表示策略π下的期望值，γ^k为折扣率，γ^k∈[0,1)，r_t+k表示在时间步骤t+k上获得的即时奖赏，S_t为当前环境状态，s表示状态空间的某个状态。

作为进一步地改进，在测试每个排序策略时，系统根据整个需求供应项目集合的查询表单检索一组相关的需求供应项，分配与项目属性对应的权重向量，计算每个项目的权重向量与项目属性的乘积，并选择值最高的前m个供应项目发送给智能数体。

在另外一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的众智网络智能数体需求匹配策略优化方法。

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的众智网络智能数体需求匹配策略优化方法。

与现有技术相比，本发明的有益效果是：

本发明将智能主体的信息和行为映射到信息空间，构建智能数体，与智能主体一一对应。智能数体能真实地反映智能主体的信息以及行为意图。将待测试的供需策略实施投放到众多智能数体中，比较成交总量，调整训练以得到优化的供需策略。

智能数体是智能主体在信息空间的映射，可以在信息空间真实地反映智能主体的需求意图，在众智网络中，通过计算智能数体的行为策略，获得与智能主体同步的行为模式，测试排序策略，为智能主体提供交易服务的推荐排序，大大节省了探索的成本。

强化学习是求累积回报期望最大时的最优策略，在求解过程中立即回报是人为给定的。然而在很多任务中，立即回报很难指定。其实智能主体在物理世界完成具体任务时有隐形的回报函数，根据逆强化学习的思想，专家在完成某项任务时其策略往往是最优的，将每个智能主体视为专家，通过其历史行为，学习出其内在的回报函数，即智能主体的意图函数，再利用强化学习的方法学习出其行为策略，即构建了智能数体。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例一中智能主体与众智网络交互示意图；

图2为实施例一中智能数体生成及意图学习示意图；

图3为实施例一中搜索的决策序列示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

众智网络中，智能主体的定义为物理空间的自然人、企业、政府部门等机构、各类智能装备与物品等，智能数体的定义为智能主体在信息空间的映射，实时反映出物理空间智能主体的行为及其各自的心理意识，可进行互联和相互作用。智能主体和智能数体一一对应。

参照图1，众智网络作为可提供供需服务的系统，每个智能主体都可以作为需求方发布需求，主要是以搜索的方式，发送需求请求，众智网络汇集来自各个平台的供应方提供的需求响应，如商品、服务等，按智能主体的喜好程度排序呈现出来，该喜好程度来自于智能主体历史交易过程中不断优化的内在意图。物理世界中，通常智能主体会根据不同场景发布不同的需求，但其选择需求供应方的内在意图(如对价位等的要求)，我们认为在一定时间内保持不变，这种内在意图会通过历史数据反映出来。

在一个或多个实施方式中，公开了一种众智网络智能数体需求匹配策略优化方法，包括以下步骤：

步骤(1)智能数体的数据抽取与建模。

智能数体的数据抽取与建模目的是构建智能主体的基本信息集，通过收集、整理智能主体的综合信息，完成真实、实时反映物理空间中交易主体的最基本信息，具备以下特点：

1)适用于多种智能主体(个人、企业和政府机构)；

2)全面展示智能主体在供需交易方面的属性。

数据抽取通过对智能主体所有电子信息的整合，抽取出智能主体本身的基本信息和展现供需过程的项目。划分为描述信息D_M和行为信息D_B。描述信息能够确认智能主体身份、地位的信息，通过描述信息，可以降低筛选和识别的成本。行为信息是指智能主体基于某种目的而进行的相关活动，供需场景特指发布需求请求，即触发搜索这一动作。

由描述信息和行为信息构成智能数体的特征向量<D_M,D_B>，构成了智能主体在信息空间的一一映射，联合智能主体的历史交互数据，作为智能数体行为数据计算的输入。

步骤(2)智能数体的意图学习。

参照图2，首先收集智能主体历史发布-采纳需求的数据，即与众智网络进行供需匹配的历史数据，然后采用生成对抗模仿学习的思路，将智能主体视为专家，从历史数据中模拟专家行为。假设智能主体有一个选择意图，看到各种供应方案后，智能主体本身的属性以及需求的一些属性使得智能主体有了选择的意图，且这个意图不会随环境而改变，是智能主体长期保有的内在性质。将智能主体看作正在进行强化学习的agent，智能主体的内在行为意图就是他做强化学习的奖赏函数，通过智能主体的历史行为，学习出其内在的奖赏函数，然后再利用强化学习的方法，学习出智能主体的行为策略，即构建了信息空间智能主体所对应的智能数体。

智能主体每次发布需求到采纳的过程中不断优化自己的选择策略，使用M＝<S,A,t,R,P>代表智能数体供需匹配的马尔科夫过程，其中P是智能数体的分布，定义状态空间、动作空间、转移函数、奖赏函数、智能数体分布如下：

状态空间S：智能主体看到供应页面做出的反馈。S＝S×A×N，N表示当前用户在浏览第几页。

动作空间A：智能主体的动作被定义为一个三维one-hot向量，表示采纳需求、继续浏览、离开这三个动作。

转移函数t：当智能主体发送一条新的请求时，他的状态会发生变化。

当一个智能数体离开的时候，另外一个带着搜索请求的新的智能数体会进入。

奖励函数R：智能主体在优化自己供需匹配习惯的过程中，为了达到其想要的目标，会有一个潜在的奖励函数。

智能数体分布P：由于存在各种不同的智能主体，需要用一个先验分布P来初始化，其中包括智能主体的特征和搜索请求。

把奖赏函数定义为生成数据和真实数据的不可区分度，用强化学习最大化奖赏函数，尽量生成和真实数据不可取分的数据；从生成的数据中采样，更新奖赏函数；用强化学习的方法生成智能数体行为策略；具体实现方法如下：

定义智能主体与众智网络的历史交互数据为τ。

首先初始化K和F两个变量，K表示用户策略的参数，F表示奖赏函数的参数，π和R分别表示智能数体行为策略和奖赏函数。每轮迭代中，从智能数体分布P中采样请求数据，并从用户与环境的交互中收集交互数据。

初始化模拟器策略π以及判别器函数R_F。

根据转移函数，可得：

π(s,a)＝π(<s,a,n>,a)＝π(<s,π(s,·),n>,a)

接下来，从真实的交互数据中采样，用梯度方法更新奖赏函数的参数F，通过最大化如下目标函数：

E_τ[log(R_F(s,a))]+E_τ[log(1-R_F(s,a))]

更新判别器函数，将R_F作为强化学习的奖赏函数，用强化学习的方法优化策略，更新π。

迭代结束后返回智能数体的行为策略π。

步骤(3)排序策略训练。

对智能数体实施投放不同的排序策略，智能数体根据行为信息触发搜索动作。系统将根据查询和智能数体的基本信息返回一个需求供应列表。比较各个策略成交量，调整策略，使得系统返回一个良好的列表，让智能数体有很高的可能性选择这些供应。

获得了智能数体的行为策略，我们将智能主体真正映射到了信息空间。利用智能数体，可以进一步进行排序策略的训练。

在搜索中，排序策略实际上是一组权重向量，用μ＝(μ_1,μ₂,…,μ_n)表示。每个需求供应项目的最终排序由其特征分数和排序权重向量μ的内积决定。搜索排序策略的决策过程如图3所示，可描述如下，系统根据智能数体的动作和属性做出了两次排序决策，引发了两次供应项展示，第一次对应的展示没有发生点击关注，第二次的展示对应了两次点击浏览，智能数体是否点击或是否采纳需求对应着不同的反馈信号，会使系统在下一次展示做出新的排序决策，这样的过程一直持续下去，直到智能数体采纳需求或退出系统。

每一个排序策略实际上都使用强化学习进行自我优化，此过程可用一个四元组<S,A,R,T>表示，类似的S为状态空间，A为动作空间，R为奖赏函数，T为转移函数，是否采纳或是否浏览对应着不同的奖赏，目标是找到一个自身最优的策略π*，使得它在任意状态s和任意时间步骤t+k下，都能够获得最大的长期累积奖赏，即

在测试每个排序策略时，系统根据整个需求供应项目集合的查询表单检索一组相关的需求供应项，分配与项目属性对应的权重向量，计算每个项目的权重向量与项目属性的乘积，并选择值最高的前10个供应项目发送给智能数体。然后，智能数体将选择单击某些项，浏览下一页，或离开平台。

一项排序策略实施投放后，被所有映射到信息空间的智能数体执行完成，设置总成交量作为评估指标，即完成供需匹配的总数量。通过计算比较，决定每项排序策略的优劣。好的策略，将使智能主体有很高的可能性浏览关注系统推荐的供应项目，以至于采纳该供应，达到高效供需匹配的目的。

实施例二

在一个或多个实施方式中，公开了一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行实施例一中所述的一种众智网络智能数体需求匹配策略优化方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读存储介质可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

结合实施例一中的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种众智网络智能数体需求匹配策略优化方法，其特征在于，包括：

2.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，所述收集智能主体的基本信息集，具体为：

所述基本信息集划分为描述信息D_M和行为信息D_B；

将智能主体的基本信息集对应到信息空间，构成智能数体的特征向量<D_M，D_B>；

3.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，

根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据，使用M＝<S，A，t，R，P>代表智能数体供需匹配的马尔科夫过程；其中，S为状态空间，A为动作空间，t是转移函数，R是奖励函数，P是智能数体的分布；

从生成的数据中采样，更新奖赏函数；

用强化学习的方法优化智能数体行为策略。

4.如权利要求3所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，定义智能主体与众智网络的历史交互数据为τ；初始化用户策略的参数K和奖赏函数的参数F；初始化模拟器策略π以及判别器函数R_F；

根据转移函数，得到：

π(s，a)＝π(<s，a，n>，a)＝π(<s，π(s，.)，n>，a)；

从真实的历史交互数据τ中采样，用梯度方法更新奖赏函数的参数F，通过最大化如下目标函数：E_τ[log(R_F(s，a))]+E_τ[log(1-R_F(s，a))]，更新判别器函数R_F，将R_F作为强化学习的奖赏函数，用强化学习的方法优化策略，更新π；

其中，s表示状态空间的某个状态，a表示动作空间的某个动作，n表示用户浏览第几页，π(s，.)表示动作a对应的用户策略，E_τ为历史交互数据采样优化目标函数，R_F(s，a)为奖赏函数；

迭代结束后返回智能数体的行为策略。

5.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，调整历史排序策略作为训练策略投放给智能数体；

智能数体根据自己的行为策略选择供应；

计算所有智能数体的总成交量；

6.如权利要求5所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，每一个排序策略都使用强化学习进行自我优化，此过程用一个四元组<S，A，R，T>表示，其中，S为状态空间，A为动作空间，R为奖赏函数，T为转移函数，是否采纳或是否浏览对应着不同的奖赏，目标是找到一个自身最优的策略π*，使得它在任意状态s和任意时间步骤t+k下，都能够获得最大的长期累积奖赏。

7.如权利要求6所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，所述策略π*具体为：

其中，E_π表示策略π下的期望值，γ^k为折扣率，γ^k∈[0，1)，r_t+k表示在时间步骤t+k上获得的即时奖赏，S_t为当前环境状态，s表示状态空间的某个状态。

8.如权利要求5所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，在测试每个排序策略时，系统根据整个需求供应项目集合的查询表单检索一组相关的需求供应项，分配与项目属性对应的权重向量，计算每个项目的权重向量与项目属性的乘积，并选择值最高的前m个供应项目发送给智能数体。

9.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-8任一项所述的一种众智网络智能数体需求匹配策略优化方法。

10.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-8任一项所述的一种众智网络智能数体需求匹配策略优化方法。