CN116739719B

CN116739719B - 一种交易平台的流程配置系统及方法

Info

Publication number: CN116739719B
Application number: CN202311015687.1A
Authority: CN
Inventors: 许扬汶; 韩冬; 刘天鹏; 李楠; 孟祥宇; 顾阜城
Original assignee: Nanjing Big Data Group Co ltd
Current assignee: Nanjing Big Data Group Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-03
Anticipated expiration: 2043-08-14
Also published as: CN116739719A

Abstract

本发明公开了一种交易平台的流程配置系统，涉及交易流程决策技术领域，通过预先在测试环境中收集历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据，将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合，基于训练四元组集合训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型，在非测试环境中，客户发起“仅退款”交易流程时，使用深度强化学习模型决策是否同意该客户的“仅退款”申请；实现对客户“只退款”交易流程的智能决策，达到避免店铺和客户承受不公平结果的目的。

Description

一种交易平台的流程配置系统及方法

技术领域

本发明涉及交易流程决策技术领域，具体是一种交易平台的流程配置系统及方法。

背景技术

在线购物平台在现代消费中扮演着重要的角色，为消费者提供了方便快捷的购物体验。然而，随着在线购物的普及，一些电商平台提供了“钱包”功能，用户通过“钱包”功能在平台中进行消费，平台通过“钱包”功能进行各项交易流程的监管和决策，分析历史数据，决定是否同意用户退款申请；

为了进一步地保障消费者的权利，电商平台还在交易流程中添加了“仅退款”的流程，当用户收到假冒伪劣时，申请“仅退款”后，电商平台通过回滚操作，恢复用户的账户余额，而不需要用户进行退货；但是这项流程的添加导致了一些消费者滥用退款政策；

一些消费者可能会在使用产品后，故意声称产品有问题或不符合预期，以获得退款。这种滥用行为不仅会给卖家带来经济损失，还会导致平台上恶意退款的频繁发生，损害整个交易生态系统的健康发展；

但同时也存在一些不良商家会发送假冒伪劣的产品甚至发送空包裹的形式谋取暴利，因此，在这种情况下，需要允许客户进行“仅退款”操作；因此，对于平台来说，对“仅退款”操作进行智能决策成为一项需要解决的事项；

申请公开号为CN108734454A的中国专利公开了一种退款处理方法和系统，将获取的各业务方订单的退款请求中的每个业务类型信息在数据库中进行搜寻处理，得到对应的工作流配置文件；并根据工作流配置文件将退款请求分发至预设并行工作流模组中对应的工作流模板中；根据退款请求查询订单的退款记录，得到订单的当前退款状态；根据当前退款状态、工作流配置文件以及工作流模板对各业务方订单的退款请求执行退款处理；该发明却并未考虑到客户申请“仅退款”时的情形；

为此，本发明提出一种交易平台的流程配置系统及方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种交易平台的流程配置系统及方法，实现对客户“只退款”交易流程的智能决策，达到避免店铺和客户承受不公平结果的目的。

为实现上述目的，根据本发明的第一方面的实施例提出一种交易平台的流程配置系统，包括交易训练数据收集模块、训练数据转换模块、模型训练模块以及仅退款决策模块；其中，各个模块之间通过有线网络方式连接；

交易训练数据收集模块，预先在测试环境中收集历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据；

其中，在所述测试环境，电商平台服务器后台预先挑选测试客户，实时收集每个测试客户的订单交易数据，并在每个测试客户选择“仅退款”交易流程时，以概率P随机拒绝“仅退款”的交易流程，以概率1-P随机同意“仅退款”的交易流程，并继续收集每个测试客户后续的订单交易数据；其中，P为预设的概率值；再将每个测试客户选择了“仅退款”交易流程的所有对应的店铺作为测试店铺，收集每个测试店铺的所有订单交易数据；

其中，所述历史客户订单数据包括每个测试客户的客户交易划分序列集合；

在所述客户交易划分序列集合中，每个元素为一个客户交易划分序列；

对于每个测试客户，所述客户交易划分序列包含订单交易数据，每个客户交易划分序列中的订单交易数据为按时间顺序进行排序；除最后一个客户交易划分序列外，每个客户交易划分序列中有且仅有一个订单交易数据的交易标签为“仅退款”，且交易标签为“仅退款”的订单交易数据为客户交易划分序列中的最后一个；

其中，所述订单交易数据包括测试客户每次交易的测试客户编号、店铺编号、交易标签、交易时间、交易金额以及交易状态；对于每个测试客户的客户交易划分序列集合，其中的每个订单交易数据的测试客户编号相同，且对应该测试客户；

其中，所述交易标签为“仅退款”和“非仅退款”中的一个，交易标签为“仅退款”时，表示测试客户对对应的交易选择了“仅退款”交易流程；

所述交易状态包括“其他”、“同意”以及“拒绝”，当交易标签为“非仅退款”时，交易状态为“其他”，当交易标签为“仅退款”且电商平台服务器后台选择拒绝时，交易状态为“拒绝”，当交易标签为“仅退款”且电商平台服务器后台选择同意时，交易状态为“同意”；

其中，所述店铺退款数据包括每个测试店铺的店铺交易划分序列集合；

在所述店铺交易划分序列集合中，每个元素为一个店铺交易划分序列；

对于每个测试店铺，所述店铺交易划分序列包含订单交易数据，每个店铺交易划分序列中的订单交易数据为按时间顺序进行排序；除最后一个店铺交易划分序列外，每个店铺交易划分序列中有且仅有一个订单交易数据的交易标签为“仅退款”，且交易标签为“仅退款”的订单交易数据为店铺交易划分序列中的最后一个；

基于历史店铺订单数据生成店铺退款数据的方式为：

将每个测试店铺的编号标记为k，将第k个测试店铺的店铺交易划分序列集合标记为Mk，则每个店铺交易划分序列的编号标记为mk，第mk个店铺交易划分序列中的订单交易数据的数量标记为Nmk；其中，mk=1,2,3,…,|Mk|；

计算第k个测试店铺的退款率Lk；所述退款率Lk的计算公式为：；

计算第k个测试店铺的店铺改进效率Gk和店铺恶化效率Ek；

店铺改进效率Gk和店铺恶化效率Ek的计算方式为：

将所有店铺交易划分序列按最后一个订单交易数据的交易状态划分为两组，并将最后一个订单交易数据的交易状态为“同意”的店铺交易划分序列编号的集合标记为Mk1，将最后一个订单交易数据的交易状态为“拒绝”的店铺交易划分序列编号的集合标记为Mk2；

对于店铺交易划分序列集合Mk1，计算店铺改进效率Gk；

所述店铺改进效率Gk的计算公式为：；其中，Fmk为反应效率，且反应效率Fmk的计算公式为/>；

对于店铺交易划分序列集合Mk2，计算店铺恶化效率Ek；

所述店铺恶化效率Ek的计算公式为：；

所述店铺退款数据包括每个测试店铺的退款率、店铺改进效率和店铺恶化效率；

基于历史客户订单数据和店铺退款数据生成客户退款数据的方式为：

将测试客户的编号标记为i，将第i个测试客户的客户交易划分序列集合标记为Ji，每个客户交易划分序列编号标记为ij；其中，ij=1,2,3,…,|Ji|；第ij个客户交易划分序列中的订单交易数据数量标记为Nij；

将第i个客户的退款率标记为Li；其中，退款率Li的计算公式为Li=；

对于第ij个客户交易划分序列，统计其中所有订单交易数据的交易金额的平均值作为平均成交价格，并将平均成交价格标记为Hij；

对于第ij个客户交易划分序列，将其中最后一个订单交易数据的交易金额作为退款金额，并将退款金额标记为Dij；

计算第ij个客户交易划分序列的反应效率Fij，其中反应效率Fij的计算公式为：；

计算第ij个客户交易划分序列的情绪效率Zij，情绪效率Zij为第ij个客户交易中每两笔交易之间的时长的平均值；

将第ij个客户交易划分序列中最后一个订单交易数据中的店铺编号作为退款店铺，并将退款店铺标记为kij，从店铺退款数据中获取对应测试店铺的退款率Lkij、店铺改进效率Gkij和店铺恶化效率Ekij；

所述客户退款数据包括每个客户的退款率、每个客户交易划分序列的平均成交价格、退款金额、反应效率、情绪效率以及退款店铺的店铺退款数据；

所述交易训练数据收集模块将客户退款数据发送至训练数据转换模块；

训练数据转换模块，将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合；

将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合的方式为：

对于第ij个客户交易划分序列，生成一个训练四元组；

所述训练四元组为<当前状态、选择的动作、奖励值Q、下一个状态>；

其中，所述当前状态为第i个客户的退款率、第ij个客户交易划分序列的平均成交价格、店铺退款数据以及退款金额；

所述选择的动作为由电商平台服务器后台随机选出的对“仅退款”交易流程决策的“同意”和“拒绝”中的一个；

奖励值Q的计算公式为：；其中，w为0或1中的一个，当w=1时，表示选择的动作为“同意”，当w=0时，表示选择的动作为“拒绝”；其中，/>和/>为预设的比例系数；

所述下一个状态为第ij个客户交易划分序列；

所述训练四元组集合包括所有客户交易划分序列的训练四元组；

所述训练数据转换模块将训练四元组集合发送至模型训练模块；

模型训练模块，基于训练四元组集合，训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型；

训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型的方式为：

将训练四元组集合作为深度强化学习模型的输入，该深度强化学习模型通过从训练四元组集合中随机抽取四元组进行训练，基于抽取的不同四元组的当前状态进行学习，生成“同意”或“拒绝”客户发起的“仅退款”交易流程的决策，以获得最大奖励值Q的策略；所述深度强化学习模型为深度Q网络模型；

所述模型训练模块将训练完成的深度强化学习模型发送至仅退款决策模块；

仅退款决策模块，在非测试环境中，客户发起“仅退款”交易流程时，使用深度强化学习模型决策是否同意该客户的“仅退款”申请；

使用深度强化学习模型决策是否同意该客户的“仅退款”申请的方式为：

实时收集非测试环境中的每个客户和店铺的所有订单交易数据，并分别生成每个客户的客户交易划分序列集合以及每个店铺的店铺交易划分序列集合；

在非测试环境中，客户发起“仅退款”交易流程时，收集该“仅退款”交易流程对应的订单交易数据，基于该客户对应的客户交易划分序列集合，以及该订单交易数据对应的店铺的店铺交易划分序列集合，生成该客户该次“仅退款”交易流程对应的客户退款数据；

将该客户该次“仅退款”交易流程对应的客户退款数据中的平均成交价格、店铺退款数据以及退款金额输入深度强化学习模型中，获得输出的对“同意”或“拒绝”该客户发起的“仅退款”交易流程的决策。

根据本发明的实施例2提出一种平台的流程配置方法，包括以下步骤：

步骤一：预先在测试环境中收集历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据；

步骤二：将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合；

步骤三：基于训练四元组集合，训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型；

步骤四：在非测试环境中，客户发起“仅退款”交易流程时，使用深度强化学习模型决策是否同意该客户的“仅退款”申请。

与现有技术相比，本发明的有益效果是：

本发明通过预先在测试环境中收集历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据，将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合，基于训练四元组集合，训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型，在非测试环境中，客户发起“仅退款”交易流程时，使用深度强化学习模型决策是否同意该客户的“仅退款”申请，在客户退款数据中既包含了每个客户的退款率、对退款结果的不同表现、退款的金额以及客户的消费水平，也包含了店铺的退款率和对退款结果的不同表现，实现对客户“只退款”交易流程的智能决策，达到避免店铺和客户承受不公平结果的目的。

附图说明

图1为本发明的实施例1的交易平台的流程配置系统的模块连接关系图；

图2为本发明的实施例2的交易平台的流程配置方法的流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种交易平台的流程配置系统，用于电商平台服务器后台中，包括交易训练数据收集模块、训练数据转换模块、模型训练模块以及仅退款决策模块；其中，各个模块之间通过有线网络方式连接；

其中，所述交易训练数据收集模块用于预先在测试环境中收集若干历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据；

其中，在所述测试环境，电商平台服务器后台预先挑选若干测试客户，实时收集每个测试客户的订单交易数据，并在每个测试客户选择“仅退款”交易流程时，以概率P随机拒绝“仅退款”的交易流程，以概率1-P随机同意“仅退款”的交易流程，并继续收集每个测试客户后续的订单交易数据；其中，P为预设的概率值；再将每个测试客户选择了“仅退款”交易流程的所有对应的店铺作为测试店铺，收集每个测试店铺的所有订单交易数据；

需要说明的是，若某个测试客户未选择过“仅退款”交易流程，则将该测试客户筛除；电商平台服务器后台挑选测试客户的方式可以是随机挑选，或从不同的用户类型中进行随机挑选，例如所述用户类型可以按消费额度划分、按信用等级进行划分等；

对于每个测试客户，所述客户交易划分序列包含若干个订单交易数据，每个客户交易划分序列中的订单交易数据为按时间顺序进行排序；除最后一个客户交易划分序列外，每个客户交易划分序列中有且仅有一个订单交易数据的交易标签为“仅退款”，且交易标签为“仅退款”的订单交易数据为客户交易划分序列中的最后一个；可以理解的是，每个客户交易划分序列的后续客户交易划分序列表现了该测试客户在选择“仅退款”交易流程后的交易表现，例如在“仅退款”交易流程被同意后，是否在短期内再次进行了“仅退款”；

其中，所述订单交易数据包括测试客户每次交易的测试客户编号、店铺编号、交易标签、交易时间、交易金额以及交易状态；对于每个测试客户的客户交易划分序列集合，其中的每个订单交易数据的测试客户编号相同，且对应该测试客户；通过使用AB测试法选择部分客户作为测试客户，避免了对客户和商家的大范围扰动，且可以对测试客户和非测试客户的交易数据进行效果比对；

所述交易状态包括“其他”、“同意”以及“拒绝”，具体的，当交易标签为“非仅退款”时，交易状态为“其他”，当交易标签为“仅退款”且电商平台服务器后台选择拒绝时，交易状态为“拒绝”，当交易标签为“仅退款”且电商平台服务器后台选择同意时，交易状态为“同意”；

对于每个测试店铺，所述店铺交易划分序列包含若干个订单交易数据，每个店铺交易划分序列中的订单交易数据为按时间顺序进行排序；除最后一个店铺交易划分序列外，每个店铺交易划分序列中有且仅有一个订单交易数据的交易标签为“仅退款”，且交易标签为“仅退款”的订单交易数据为店铺交易划分序列中的最后一个；可以理解的是，每个店铺交易划分序列之后的一个店铺交易划分序列体现了该店铺发生仅退款后，店铺的销售表现；

基于历史店铺订单数据生成店铺退款数据的方式为：

计算第k个测试店铺的退款率Lk；所述退款率Lk的计算公式为：；可以理解的是，退款率Lk越小，测试店铺的信用程度越高；

计算第k个测试店铺的店铺改进效率Gk和店铺恶化效率Ek；

店铺改进效率Gk和店铺恶化效率Ek的计算方式为：

对于店铺交易划分序列集合Mk1，计算店铺改进效率Gk；

所述店铺改进效率Gk的计算公式为：；其中，Fmk为反应效率，且反应效率Fmk的计算公式为/>；可以理解的是，当N(mk+1)大于Nmk时，说明仅退款被同意后，后续仅退款发生的频率降低，即可能代表测试店铺的产品质量有所提升；

对于店铺交易划分序列集合Mk2，计算店铺恶化效率Ek；

所述店铺恶化效率Ek的计算公式为：；可以理解的是，当N(mk+1)小于Nmk时，说明仅退款被拒绝后，后续仅退款发生的频率增加，即可能代表测试店铺的产品质量有所下降；

进一步的，基于历史客户订单数据和店铺退款数据生成客户退款数据的方式为：

计算第ij个客户交易划分序列的反应效率Fij，其中反应效率Fij的计算公式为：；可以理解的是，反应效率反应了客户在遇到“仅退款”成功或失败后再次进行仅退款的欲望；

计算第ij个客户交易划分序列的情绪效率Zij，情绪效率Zij为第ij个客户交易中每两笔交易之间的时长的平均值；可以理解的是，每两笔之间交易的时长可以通过相邻两个订单交易数据的交易时间的差值计算出；可以理解的是，情绪效率反应了客户在遇到“仅退款”成功或失败后进行交易的情绪；

其中，所述训练数据转换模块主要用于将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合；

对于第ij个客户交易划分序列，生成一个训练四元组；

奖励值Q的计算公式为：；其中，w为0或1中的一个，当w=1时，表示选择的动作为“同意”，当w=0时，表示选择的动作为“拒绝”；其中，/>和/>为预设的比例系数；可以理解的是，当退款店铺的退款率较高、客户平均成交价格较大、客户退款率较小、店铺改进率较高、客户的反应效率或情绪效率较大时，意味着退款可能对店铺的影响较小，而对客户的影响较大，因此应当同意退款，维护客户的利益；而在退款店铺的退款率较低、客户退款率较高、店铺恶化效率较高、退款单价较高、客户的反应效率和情绪效率较低时，意味着拒绝退款可能对客户的影响较小，且对店铺影响较大，因此，应当拒绝退款；

所述下一个状态为第ij个客户交易划分序列；

所述模型训练模块主要用于基于训练四元组集合，训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型；

将训练四元组集合作为深度强化学习模型的输入，该深度强化学习模型通过从训练四元组集合中随机抽取若干四元组进行训练，基于抽取的不同四元组的当前状态进行学习，生成“同意”或“拒绝”客户发起的“仅退款”交易流程的决策，以获得最大奖励值Q的策略；所述深度强化学习模型为深度Q网络模型；

其中，所述仅退款决策模块主要用于在非测试环境中，客户发起“仅退款”交易流程时，使用深度强化学习模型决策是否同意该客户的“仅退款”申请；

在一个优选的实施例中，使用深度强化学习模型决策是否同意该客户的“仅退款”申请的方式为：

实施例2

如图2所示，一种交易平台的流程配置方法，包括以下步骤：

步骤一：预先在测试环境中收集若干历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据；

实施例3

根据本实施例所述一种电商平台，在所述电商平台中为每个用户账号建立一个“钱包”功能，在用户发起“仅退款”交易流程时，在“钱包”功能中执行上述的交易平台的流程配置方法，决策是否同意用户发起的“仅退款”交易流程。

以上的预设的参数或预设的阈值均由本领域的技术人员根据实际情况设定或者大量数据模拟获得。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种交易平台的流程配置系统，其特征在于，包括交易训练数据收集模块、训练数据转换模块、模型训练模块以及仅退款决策模块；其中，各个模块之间通过有线网络方式连接；

交易训练数据收集模块，预先在测试环境中收集历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据，将客户退款数据发送至训练数据转换模块；

训练数据转换模块，将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合，将训练四元组集合发送至模型训练模块；

模型训练模块，基于训练四元组集合，训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型，将训练完成的深度强化学习模型发送至仅退款决策模块；

在所述测试环境，电商平台服务器后台预先挑选测试客户，实时收集每个测试客户的订单交易数据，并在每个测试客户选择“仅退款”交易流程时，以概率P随机拒绝“仅退款”的交易流程，以概率1-P随机同意“仅退款”的交易流程，并继续收集每个测试客户后续的订单交易数据；其中，P为预设的概率值；再将每个测试客户选择了“仅退款”交易流程的所有对应的店铺作为测试店铺，收集每个测试店铺的所有订单交易数据；

所述历史客户订单数据包括每个测试客户的客户交易划分序列集合；

所述店铺退款数据包括每个测试店铺的店铺交易划分序列集合；

基于历史店铺订单数据生成店铺退款数据的方式为：

计算第k个测试店铺的店铺改进效率Gk和店铺恶化效率Ek；

店铺改进效率Gk和店铺恶化效率Ek的计算方式为：

对于店铺交易划分序列集合Mk1，计算店铺改进效率Gk；

对于店铺交易划分序列集合Mk2，计算店铺恶化效率Ek；

所述店铺恶化效率Ek的计算公式为：；

对于第ij个客户交易划分序列，生成一个训练四元组；

所述下一个状态为第ij个客户交易划分序列；

将训练四元组集合作为深度强化学习模型的输入，该深度强化学习模型通过从训练四元组集合中随机抽取四元组进行训练，基于抽取的不同四元组的当前状态进行学习，生成“同意”或“拒绝”客户发起的“仅退款”交易流程的决策，以获得最大奖励值Q的策略；所述深度强化学习模型为深度Q网络模型。

2.根据权利要求1所述的一种交易平台的流程配置系统，其特征在于，使用深度强化学习模型决策是否同意该客户的“仅退款”申请的方式为：

3.一种交易平台的流程配置方法，其基于权利要求1-2任意一项所述的交易平台的流程配置系统实现，其特征在于，包括以下步骤：

预先在测试环境中收集历史客户订单数据和历史店铺订单数据，基于历史店铺订单数据生成店铺退款数据，并基于历史客户订单数据和店铺退款数据生成客户退款数据；

将客户退款数据转化为深度强化学习模型所能接收的训练四元组集合；

基于训练四元组集合，训练出对客户进行“仅退款”交易流程进行决策的深度强化学习模型；

在非测试环境中，客户发起“仅退款”交易流程时，使用深度强化学习模型决策是否同意该客户的“仅退款”申请。