CN117314635A

CN117314635A - 一种基于深度强化学习的专利交易系统、存储介质及终端

Info

Publication number: CN117314635A
Application number: CN202311153181.7A
Authority: CN
Inventors: 翟东升; 张天瑞; 梁国强
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-29
Anticipated expiration: 2043-09-07
Also published as: CN117314635B

Abstract

本发明是一种基于深度强化学习的专利交易系统、存储介质及终端，解决目前专利交易系统存在的专利交易效率低、交易效果差等问题。本发明系统包括注册模块、专利指标输入模块、项目指标输入模块、专利检索模块、数据采集及预处理模块、潜在收益预测模块、决策模块和协商模块。数据采集及预处理模块采集实际市场数据，潜在收益预测模块使用DDPG模型预测项目潜在收益，决策模块判断专利交易是否适合，协商模块为双方提供交流平台。本发明能够为买方在海量的专利中精准定位所需要的专利，并提供了预测交易后收益及交易决策的模块，基于采集的市场数据进行潜在收益预测，决策结果符合市场数据的客观性，能给用户提供更为合理的专利交易合作机会。

Description

一种基于深度强化学习的专利交易系统、存储介质及终端

技术领域

本发明涉及智能数据处理平台构建领域，具体涉及一种基于深度强化学习的专利交易系统、存储介质及终端。

背景技术

随着我国科学技术的快速发展，越来越多的企业、机构、高等院校甚至个人都希望通过法律的手段，来保护自己的项目或技术。专利交易是指专利权人将自己的专利通过交易的方式转让给其它经济主体(如政府、企业、机构、个人等)。在进行专利交易之后，专利的使用权或者所有权会转移到买方手里，买方成了专利的实际使用者。买方根据购买的专利，对自己的项目进行优化或实施保护，用来提高项目的收益。卖方则可以通过专利交易获得合理的经济利润。

传统的专利交易方式主要是线下交易，然而买卖双方需要多次线下见面、沟通才有可能达成交易。这样的交易方式流程复杂、效率较低。专利交易系统作为线上交易的一种方式，能够为专利的买方和卖方提供交易的一站式服务。但是，由于专利数量的庞大，导致买家在现有的专利交易系统中无法找到自身项目迫切需要且价格合理的专利。

现有技术存在不足：

(1)现有的专利交易系统大多仅仅提供了一个交易平台，但买家无法判断卖家的专利报价是否合理，导致交易效果较差，容易出现高价买入较差专利的情况。

(2)现有的交易系统没有同时设置交易决策模块和协商模块，导致买卖双方沟通不充分，造成交易频次下降，进而买家错过了合适的专利，卖家失去了获利的机会。

(3)现有的潜在收益预测模型大多没有考虑到风险因素对专利带来的影响且假设条件较多，导致预测结果不准确。

(4)现有的交易系统无法实时动态调整交易策略，导致交易效率下降。

发明内容

为了解决目前专利交易系统存在的专利交易效率低、交易效果差以及无法准确合理判断专利报价等问题，本发明提供了一种基于深度强化学习的专利交易系统、存储介质及终端，通过项目信息、专利指标、Wind数据库中相关数据以及风险因素，结合较为先进的深度强化学习算法，为买卖双方提供交易策略，同时，能够实时动态的调整专利交易策略，进一步促进买卖双方交易达成，以解决上述背景技术中的问题。

为了实现上述目的，本发明的一种基于深度强化学习的专利交易系统，主要包括：注册模块、专利指标输入模块、项目指标输入模块、专利检索模块、数据采集及预处理模块、潜在收益预测模块、决策模块以及协商模块。

所述注册模块用于买卖双方在专利交易系统注册个人信息，建立登录账号；

所述专利指标输入模块面向卖方用户，用于录入专利的相关信息，包括标题、IPC分类号、专利剩余有效期及报价；

所述项目指标输入模块面向买方用户，用于录入用户的项目需求信息，包括项目类型、项目收益和具体需求；

所述专利检索模块依据输入的关键词或分类号进行专利检索；

所述数据采集及预处理模块针对当前项目需求及选择的专利，收集项目收益、专利剩余有效期、专利报价、波动率、市场风险系数以及风险补偿，并输入给潜在收益预测模块；其中，波动率反应项目未来收益的波动情况，根据项目所在领域对应的二级市场指数在最近一年的波动来确定；通过市场风险系数计算项目未来面临风险获得的风险补偿；

所述潜在收益预测模块用于预测按照当前专利报价成交所选专利后项目的潜在收益，并将预测结果输出给决策模块；项目潜在收益获取方式是：计算在专利剩余有效期内的不同时间点的项目收益，通过深度强化学习模型训练和测试，选取稳定预测结果的平均值作为项目潜在收益；

所述决策模块根据项目潜在收益判断是否进行交易，若项目潜在收益大于0，为买家发送适合交易提醒，否则，提示买家不适合交易；决策模块在给出决策结果后，还提示买家是否启动协商模块；

所述协商模块在买方/卖方发出沟通信号时启动；同时，协商模块将根据项目潜在收益及决策模块的决策结果，为买家和卖家双方提供参考意见。

所述的数据采集及预处理模块确定波动率的方式是：首先确定项目所在领域对应的二级市场指数，从Wind数据库搜索该指数获取最近一年的交易价格，然后计算日波动率，并转化为月波动率。

所述的数据采集及预处理模块通过市场风险系数计算风险补偿表达式如下：

其中，λ为预先设置的市场风险系数，S_T表示专利到期时项目收益，S_t表示t时刻项目收益。

所述的潜在收益预测模块，使用深度确定性策略梯度法DDPG模型预测项目的潜在收益，设计DDPG模型中的变量包括：环境：预测专利剩余有效期T内的项目收益S₁,S₂,…S_T；状态用t时刻项目收益S_t表示；动作u_t用t时刻项目收益调整系数表示；设置t时刻的奖励R_t由t时刻项目收益、t+1时刻项目收益、T时刻项目收益、投资价格、风险补偿组成；设置Q值为预测的项目潜在收益的相反数，通过状态、动作以及奖励拟合得出。

所述的决策模块判断适合交易，给买家发送提醒后，买家可以不启动协商模块直接进行交易。协商模块，为卖家提供降低专利报价的参考意见，为买家提供调整风险系数的参考意见。

相应的，本发明还可实现一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的一种基于深度强化学习的专利交易系统。

进一步地，本发明还可实现一种终端，该终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述的一种基于深度强化学习的专利交易系统。

相比现有技术，本发明的优点和积极效果在于：(1)本发明提供了一个完整的专利交易系统及其存储介质和终端，设置了数据采集及预处理模块、潜在收益预测模块、决策模块以及协商模块，解决了目前专利交易时交易效率低、交易效果差以及无法准确合理判断专利报价的问题，能够为买方在海量的专利中精准定位所需要的相关专利，提高买家筛选专利的效率，进而提高专利交易的可能性。(2)本发明提供了获取交易后预测收益及交易决策的模块，通过采集实际市场数据，使用深度强化学习算法进行数据拟合，为买方提供合理准确的交易决策和交易价格，解决了无法准确合理判断专利报价的问题。(3)本发明通过协商模块，实现动态实时的交易策略调整，尽可能地满足买方/卖方双赢，提高专利的交易频率和满意度。(4)本发明通过多个模块之间的共同协作，为买方/卖方提供更为合理的专利交易合作机会，进而促进买方/卖方的二次甚至多次交易合作。(5)本发明通过采集市场数据，及用户输入数据来提供合理准确的交易决策，交易决策结果符合市场数据的客观性，更加准确合理，能给用户提供更为合理的专利交易合作机会。

附图说明

图1是本发明的基于深度强化学习的专利交易系统的模块组成示意图；

图2是本发明的潜在收益预测模块中深度强化学习算法DDPG模型的流程图；

图3是本发明实施案例1中A公司项目潜在收益的变化曲线图；

图4是本发明实施案例1中协商后，A公司项目潜在收益的变化曲线图；

图5是本发明实施案例2中B公司项目潜在收益的变化曲线图。

具体实施方式

下面将结合附图和实施案例对本发明作进一步的详细说明。

如图1所示，本发明实现的一种基于深度强化学习的专利交易系统，包括注册模块、项目指标输入模块、专利检索模块、数据采集及预处理模块、潜在收益预测模块、决策模块以及协商模块。此外，该专利交易系统还包括专利指标输入模块。

注册模块用于买卖双方在专利交易系统注册个人信息，建立登录账号。买卖双方通过注册模块在专利交易系统注册，登记个人信息。注册信息包括如：姓名、账号密码、工作地址、手机号、邮箱、职称等。

项目指标输入模块面向买方用户，用户通过项目指标输入模块输入需求信息，包括项目类型、项目收益、具体需求等。

专利指标输入模块面向卖方用户，用户通过专利指标输入模块输入专利的相关信息，相关信息可包括：标题、摘要、说明书、IPC分类号、法律信息、引用信息、同族信息、剩余有效期、报价等。卖方信息录入完毕后，平台进行登记审核，审核通过后，专利的相关信息将在交易系统中展示，供买方浏览和查看。

专利检索模块用于依据买家输入的关键词或分类号进行专利的查找和筛选。本发明的专利交易系统提供的主要检索方式如下：

关键词检索：关键词检索是应用最为普遍的检索方式，买家可将多个检索词作为检索字段，并通过逻辑运算符(如：AND、OR、NOT等)进行组合。

分类号检索：专利的分类号表示专利的技术领域，通过分类号检索可快速查找专利。一般来说，专利检索多采用IPC的四位分类号。

买方用户可在专利检索模块展示的检索结果中选取一个专利，然后进入后面模块处理。

数据采集及预处理模块针对当前项目需求及选择的专利，收集项目收益、专利报价和专利剩余有效期、波动率以及市场风险系数、风险补偿等。项目收益由买家提供。专利报价和专利剩余有效期由卖家提供。波动率主要反应项目未来收益的波动情况。此处波动率σ根据项目所在领域对应二级市场指数的近一年波动来确定，日波动率的计算如下：

其中，n表示交易时间，单位为天；x_i表示第i天指数收盘价；表示n天指数收盘价的平均值。所在领域对应二级市场指数的价格可直接从Wind数据库提取。具体步骤为：(a)确定专利领域及对应的二级市场指数；(b)进入Wind数据库搜索该指数；(c)通过Wind数据库导出一定交易时间的指数交易价格并保存为Excel文件，结合波动率计算公式计算波动率。

市场风险系数主要用于计算项目未来面临市场风险获得的风险补偿。风险补偿是考虑项目未来突发情况带来的收益。风险补偿的计算方式如下：

其中，λ表示市场风险系数，需要预先设置，并可根据实际情况修改，主要反应未来市场风险情况；S_T表示专利到期时项目收益；S_t表示t时刻项目收益；T表示专利剩余有效期。

潜在收益预测模块用于预测按照当前专利报价成交所选专利后项目的潜在收益。项目潜在收益与数据采集及预处理模块采集的参数存在一定的拟合关系。本发明使用深度强化学习模型—DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度法)模型，根据数据采集及预处理模块输出的数据来预测项目潜在收益。

企业购买专利技术以后，进行实施，以此保护或者优化企业的项目进而提高项目的收益，即项目的潜在收益。买家能否成功进行专利交易，取决于潜在收益的预测结果。

强化学习是一种无标签的学习模型，通过奖励函数的变化情况来动态调整时序状态下对应动作的好坏。强化学习模型的整个学习过程就是不断调整策略，寻找到累计奖励最大化的最优策略。强化学习主要由环境、状态、动作、奖励以及Q值组成，本发明在专利交易系统的潜在收益预测模块设计强化学习核心变量的表达，并引入深度神经网络，将深度学习与强化学习结合，采用确定性策略深度强化学习DDPG模型，通过训练和测试的方式，预测项目潜在收益。

在专利交易系统中获取专利的剩余有效年限，波动率，项目收益等。然后设计适用于本发明应用场景的DDPG模型的主要变量，如下：

(1)环境：根据专利剩余有效期，进行未来项目收益预测，预测公式如下：

其中，r表示无风险利率，可取为国债收益率；σ为波动率，根据在预测项目潜在收益时设置的时间步长由日波动率来确定波动率，如若是每天预测，此处为计算的σ_day，若是每月预测需要将σ_day转换为月波动率；预测专利剩余有效期T内的项目的潜在收益，设置时间步长dt，t＝1,2,…T，初始项目收益S₀是买方用户输入的项目收益，将预测潜在项目收益S₁,S₂,…S_T；W_t表示t时刻正态分布值，每个时刻将根据正态分布获得一个随机数。

(2)状态S_t：用t时刻项目收益表示，由环境提供。

(3)动作u_t：用t时刻项目收益调整系数表示。项目调整系数由强化学习模型根据输入的状态给出。不同的状态对应不同的调整系数。调整系数主要反应未来技术风险(如：技术优化和更新等)对项目收益的影响。

(4)奖励R_t：t时刻奖励函数主要由t时刻项目收益、t+1时刻项目收益、T时刻项目收益、投资价格、风险补偿组成。R_t的表达式如下：

其中，K表示买家的投资价格，即卖家在专利交易系统设置的报价。S_t+1表示t+1时刻的项目收益。

(5)Q值：项目潜在收益的相反数，通过状态、动作以及奖励的拟合得出。

本发明的潜在收益预测模块计算潜在收益的流程如图2所示。由上述DDPG模型的说明可以发现，Q函数与状态、动作、奖励之间存在复杂的线性关系和时序关系，难以通过数学推导进行表达。因此，本发明引入深度神经网络，将深度学习与强化学习相结合，采用深度强化学习DDPG模型，通过深度神经网络进行训练，建立Q函数与状态、动作，奖励之间的非线性关系。在训练过程中，不断通过深度神经网络进行测试，测试结果平稳后，获得项目潜在收益。DDPG模型主要由Actor网络、Critic网络、Actor目标网络、Critic目标网络以及经验池构成。DDPG模型的具体计算流程如下：

S1：初始化Actor网络参数θ_a，Critic网络参数θ_c，Actor目标网络参数θ_a'，Critic目标网络参数θ_c'。

S2：经验池。经验池负责存储强化学习核心变量四要素，即数据组[S_t,u_t,S_t+1,R_t]，在一定的训练步数后随机抽取一定批量的数据组进行经验回放操作。

y_i＝R_i+γQ(S_i,S_i+1,R_i,u_i|N)(0＜i≤N)

其中，N表示批量数据组中的行数，y_i表示目标值，γ表示转移概率。

S3：根据Actor网络进行动作选取，并添加随机项N_t，得到新的动作，其表达式如下：

之后进行奖励函数的计算，将参数结果存入经验池。

S4：策略梯度法更新Actor网络，如下：

其中，J(θ_a)表示策略学习函数，表示求梯度。

S5：根据Critic网络计算Q值，其结果如下：

S6：最小化损失函数更新Critic网络，损失函数Loss如下：

S7：更新Actor目标网络参数和Critic目标网络参数，如下：

θ_a'←(1-τ)θ_a'+τθ_a,θ_c'←(1-τ)θ_c'+τθ_c；

其中，τ表示软更新因子。如上式中的θ_a'，右侧是当前参数值，左侧是更新后的参数值。

S8：每经过一定的训练次数后测试一次，直到测试结果稳定，选取稳定部分结果的平均值作为项目潜在收益的结果。

对当前项目和所选专利，利用潜在收益预测模块获得专利剩余有效期内不同时间点的项目收益S₁,S₂,…S_T；数据采集及预处理模块根据预测的项目收益可计算风险补偿，进一步可以重新计算各时间点的奖励，所获取的四要素数据组存入经验池，用于后续对DDPG模型进行更新。

决策模块根据潜在收益预测模块输出的项目潜在收益来判断是否进行交易。若预测结果大于0，系统为买家发送交易提醒，若买家认为预测结果合适则进行交易，反之不进行交易。若预测结果小于等于0，系统提示买家不适合进行交易。

本发明系统还提供了协商模块。当买方/卖方发出沟通信号时，通过协商模块进行协商。协商模块中将根据计算的潜在收益预测以及决策模块输出的决策结果，为卖家提供适当降低报价的参考以及提示买家是否能够略微调整风险系数等适当的参考意见，并提供买卖双方的联系方式。最终交易成功与否取决于买卖双方的协商情况。

当决策模块认为交易合理，则可以不启动协商模块。若决策模块认为不合理，则本发明系统将提示启动协商模块，买方主要介绍项目的具体情况、需求和期望报价等。卖方进一步详细的阐述专利的优势和劣势。若协商成功，则买卖双方更改相关参数，并进行新一轮的交易流程。

本发明还可实现一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的一种基于深度强化学习的专利交易系统。

本发明还可实现一种终端，该终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述的一种基于深度强化学习的专利交易系统。

实施例1：A公司有一项高科技IT项目，目前收益为20万/年。现阶段，A公司想优化项目，提高收益。因此，A公司相关人员决定登录专利交易系统寻找合适专利。在通过注册模块和项目指标输入模块完成相关工作后，进行专利检索。

专利检索模块：买家多采用关键词检索和分类号检索对标题、摘要、权利要求以及说明书中的一项或多项进行检索。因此，根据A公司相关人员研究，确定的最终的检索式如下:标题OR摘要＝(项目名称OR项目特征X₁ OR项目特征X₂……OR项目特征X_n)AND(项目特征Y₁ OR项目特征Y₂……OR项目特征Y_n)OR IPC：(IPC₁ OR IPC₂ OR……IPC_n)。

在通过检索模块进行查找后，结合法律状态及有效期年限进行筛选，初步判断专利B，符合A公司要求。根据卖家上传的专利信息可知，专利B的报价为100万，剩余有效期为15年。结合项目的相关领域，计算日波动率：并将其转换为月波动率。计算结果为：0.153。

买家初步判断，在完成专利实施后，项目面对市场上风险因素的影响较小，因此市场风险系数设置为0。

在完成上述参数设定后，进入潜在收益预测模块。潜在收益预测模块采用DDPG模型进行预测。可以发现，有效期为15年，即180个月。设定训练步数为4000000，每200000步测试一次，批量数设置为100，软更新因子设置为0.001，风险系数设置为0。因此，根据公式可以计算出未来180个月的收益变化，即S₁→S₂→……S₁₈₀。因此，环境为Actor网络提供的状态可表示为：[S₁,S₂,……S₁₈₀]。结合深度强化学习的Actor网络，可计算出调整系数：

并同时根据公式更新Actor网络参数。根据Critic网络，计算Q值，计算方式如下：

之后，根据公式更新Critic网络参数。与此同时，根据公式θ_a'←(1-τ)θ_a'+τθ_a和θ_c'←(1-τ)θ_c'+τθ_c更新目标网络参数，完成深度强化学习模型的训练和测试。项目潜在收益测试结果如图3所示。由图3可以看出，第0步到51步，项目潜在收益处于一个下降趋势，说明深度强化学习模型还没有适应环境的变化。第52步到95步，项目潜在收益处于一个缓慢上升的趋势，说明深度强化学习模型逐渐适应环境的变化，拟合效果逐渐变好。第96步到199步，项目潜在收益逐渐趋于平稳，说明此时模型训练充分，选取第150至199步的平均值作为项目潜在收益的结果。经计算，项目潜在收益为0.015万元。通过决策模块可以发现，潜在收益结果近似为0，若买家购买该专利，对公司项目收益影响较小，但符合可协商的条件。因此，平台启动协商模块，建议买卖双方进行沟通，适当调整参数。经双方协商，最终卖家将报价调整为90万元，买家将市场风险系数调整为0.2。在修改完相关参数后，进入平台的潜在收益预测模块，预测结果如图4所示。由图4可以看出，第0步到32步，项目潜在收益逐渐上升。第33步到46步，项目潜在收益快速下降。第47步到199步，项目潜在收益逐渐趋于平稳，说明此时模型训练充分，选取第150至199步的平均值作为项目潜在收益的结果。最终的预测结果为4.89万元。因此，项目的收益率提高了4.89/20＝24.45％。经决策模块判断，双方适合达成交易。

实施案例2：B公司有一项生物医药项目，目前项目收益为30万/年。现阶段，B公司想提升药品功效。因此，B公司相关人员决定登录专利交易系统寻找合适专利，进行交易。经项目指标输入模型、专利指标输入模块、专利检索模块后，初步发现专利C符合B公司的需求。通过数据采集及预处理模块后，最终确定月波动率为0.12，报价为120万元，市场风险系数为0.15。设定训练步数为4000000，每200000步测试一次，批量数设置为100，软更新因子设置为0.001。潜在收益预测模块的预测结果如图5所示。由图5可以看出，第0步到13步，项目潜在收益逐渐增加，并达到最大值。第14步到100步，项目潜在收益快速下降。第101步到199步，项目潜在收益逐渐趋于平稳，说明此时模型训练充分，选取第150至199步的平均值作为项目潜在收益的结果。最终的预测结果为7万元。因此，项目的收益率提高了7/30＝23.33％。经决策模块判断，双方不需要进行协商，可直接达成交易。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述，以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式，在本发明技术方案的基础上，本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims

1.一种基于深度强化学习的专利交易系统，其特征在于，该系统包括：注册模块、专利指标输入模块、项目指标输入模块、专利检索模块、数据采集及预处理模块、潜在收益预测模块、决策模块以及协商模块；

所述潜在收益预测模块用于预测按照当前专利报价成交所选专利后项目的潜在收益，并将预测结果输出给决策模块；项目潜在收益获取方式是：计算在专利剩余有效期内的不同时间点的项目收益，通过深度强化学习模型训练和预测，选取稳定预测结果的平均值作为项目潜在收益；

所述决策模块根据项目潜在收益判断是否进行交易，若项目潜在收益大于0，为买家发送适合交易提醒，否则，提示买家不适合交易；决策模块在进行给出决策结果后，还提示买家是否启动协商模块；

2.根据权利要求1所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的数据采集及预处理模块确定波动率的方式是：首先确定项目所在领域对应的二级市场指数，从Wind数据库搜索该指数获取最近一年的交易价格，然后计算日波动率，并转化为月波动率。

3.根据权利要求1所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的数据采集及预处理模块确定风险补偿的方式是：

通过市场风险系数计算风险补偿表达式如下：

4.根据权利要求1所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的专利指标输入模块还录入专利的摘要、法律信息、引用信息及同族信息；专利相关信息录入后将被审核，审核通过后专利相关信息将在专利交易系统中展示。

5.根据权利要求1所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的潜在收益预测模块，使用深度确定性策略梯度法DDPG模型预测项目的潜在收益，包括：

首先，设计DDPG模型中的变量如下：

(1)环境：预测专利剩余有效期内的项目收益，预测公式如下：

其中，r为无风险利率；σ为波动率；T为专利剩余有效期，dt为时间步长，t＝1,2,…T；S_t+1为t+1时刻的项目收益，S_t为t时刻的项目收益，初始项目收益S₀是买方用户输入的项目收益，预测S₁,S₂,…S_T；W_t表示t时刻的随机数，根据一个正态分布获得；

(2)状态S_t：用t时刻项目收益表示，由环境提供；

(3)动作u_t：用t时刻项目收益调整系数表示；不同的状态对应不同的收益调整系数，动作通过对DDPG模型训练得到；

(4)奖励R_t：设置t时刻的奖励R_t计算如下：

其中，为风险补偿，K为当前专利报价，S_T为专利到期时的项目收益；

(5)Q值：设置为预测的项目收益的相反数；

然后，使用DDPG模型进行训练和测试，预测项目的潜在收益，。

6.根据权利要求1或5所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的潜在收益预测模块，使用DDPG模型预测项目的潜在收益，DDPG模型包括Actor网络、Critic网络、Actor目标网络、Critic目标网络以及经验池，DDPG模型的计算流程如下：

S1：初始化Actor网络参数θ_a，Critic网络参数θ_c，Actor目标网络参数θ_a'，Critic目标网络参数θ_c'；

S2：计算每个时间步长的状态、选择的动作和奖励，得到数据组[S_t,u_t,S_t+1,R_t]存入经验池，在设定训练步数后随机从经验池中抽取N条数据组进行经验回放操作；

y_i＝R_i+γQ(S_i,S_i+1,R_i,u_i|N),0＜i≤N

其中，y_i表示目标值，γ表示转移概率；

S3：根据Actor网络进行动作选取，并添加随机项N_t，如下所示：

然后再根据新获得的动作u_t'计算奖励，将得到的数据组存入经验池；

S4：策略梯度法更新Actor网络如下：

其中，J(θ_a)表示策略学习函数，表示求梯度；

S5：根据Critic网络计算Q值，其结果如下：

其中，Q_t表示输入状态S_t执行动作u_t得到的Q值；

S6：通过最小化损失函数更新Critic网络，损失函数Loss如下：

S7：更新Actor目标网络参数为(1-τ)θ_a'+τθ_a，更新Critic目标网络参数为(1-τ)θ_c'+τθ_c；其中τ为软更新因子；

S8：每经过设定训练次数后测试一次，直到测试结果稳定，选取后续稳定结果的平均值作为项目潜在收益。

7.根据权利要求1所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的决策模块判断适合交易，给买家发送提醒后，买家不启动协商模块直接进行交易。

8.根据权利要求1所述的一种基于深度强化学习的专利交易系统，其特征在于，所述的协商模块，为卖家提供降低专利报价的参考意见，为买家提供调整风险系数的参考意见。

9.一种终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现如权利要求1～5任一项所述的一种基于深度强化学习的专利交易系统。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的一种基于深度强化学习的专利交易系统。