CN112700335A

CN112700335A - 一种利用模拟环境重构投融资行为的方法

Info

Publication number: CN112700335A
Application number: CN202110311327.0A
Authority: CN
Inventors: 秦熔均; 刘泽琳; 张超; 蒋建阳; 徐亮
Original assignee: Nanqi Xiance Nanjing Technology Co ltd
Current assignee: Nanqi Xiance Nanjing Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-04-23
Anticipated expiration: 2041-03-24
Also published as: CN112700335B

Abstract

本发明公开一种利用模拟环境重构投融资行为的方法，将需要融资的项目与各个投资机构接触的整个过程划分为六个阶段，并定义了每个阶段项目提供的内容与投资机构的反馈信息；利用历史数据对投资机构的决策进行学习并将投资机构虚拟化，利用生成对抗网络来生成与真实的投资机构一致的投资机构行为数据；对投融资结果进行预测，定义企业自身的策略，以及利用强化学习算法对两个策略π_investor和π_project进行更新，得到训练好的策略π_investor和π_project。本发明提出的方法对投资机构进行模拟，可以大大降低试错成本，并提高投融资活动的效率。

Description

一种利用模拟环境重构投融资行为的方法

技术领域

本发明涉及一种利用模拟环境重构投融资行为的方法，使用强化学习的方法建立投融资环境模型，为用户提供结果准确的投融资行为模型。

背景技术

FA，财务顾问。本质上做的是企业的融资中介，对接项目和资金。FA的作用就是帮助解放投资人劳动力，高效投准项目；帮助项目快速融到资金，节约时间成本。对于投资人来说，FA是投资人的项目过滤器，不仅仅可以给投资人不停地推项目，更重要的是可以帮助筛选项目，能为不同领域的投资人匹配较精准的项目，提高效率。专业的FA可以提供有针对性的服务。FA了解主流投资机构的口味与风格，可以实现最优匹配。FA以自身的信誉做背书，可以使企业接触到投资机构决策层，并且可以同时引荐几家不同的投资机构，有利于交易条件谈判。同时，以FA出面来撮合交易，企业可以在很大程度上避免销售过度的形象，有利于融资成功。 FA 过程通常有多个阶段，每个阶段都包含企业和投资机构的决策行为，是典型的序列决策过程。

强化学习（Reinforcement Learning, RL）是一种高效的解决序列决策问题的机器学习方法，在强化学习中，智能体（agent）与环境试错交互，并从试错轨迹中学习策略以达成回报最大化或实现特定目标。基于模型（Model-based）的强化学习方法是让智能体学习环境的转移（transition）模型，该模型描述了环境是如何工作的，然后智能体利用这个模型做出动作规划。基于历史交互数据，使用机器学习方法可以得到环境模型，然后，训练智能体使用这个模型，而不需要额外的真实环境的反馈。环境模型可以带来巨大的优势，尤其是在尝试学习在物理世界里的行动策略时非常有用。在物理环境试错学习需要不可避免的时间和成本。于是，我们可以通过建立环境模型来解决物理环境试错学习的局限性。

当前基于机器学习方法进行的投资融资问题分析，大多使用监督学习类的方法。工作的重点侧重于对企业和投资机构的特征画像，使用诸如自然语言处理处理、专家知识介入等方法对企业及投资机构的过往信息进行分析，然后由人类专家对分析结果进行判断和序列决策。虽然上述做法能很大程度地保证信息获取的完整性，但其一：通常，过往信息数据有限，且属于高维文本数据，使用基于深度学习的自然语言处理等方法对信息进行处理常常难以训练出有效的模型，有时甚至完全不能提取到可分析的、有用的信息；同时，知识图谱等专家知识的介入也会进一步提高人工成本。其二：使用监督学习方法时，忽略了整个投融资过程中间的交互步骤，这些交互步骤中包含了企业和投资机构策略表现出的行为，而双方的策略通常是耦合的，实际上不符合监督学习的“数据独立同分布”假设。因此，在本问题中，使用监督学习方法通常会过拟合数据中表现出来的非一般特性，甚至会给出错误信息。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种利用模拟环境重构投融资行为的方法，具体是一种对投融资过程进行模拟，并使用模拟结果对投融资结果进行预测的训练方法。

技术方案：一种利用模拟环境重构投融资行为的方法，第一方面，将需要融资的项目与各个投资机构接触的整个过程划分为六个阶段，并定义了每个阶段项目提供的内容与投资机构的反馈，从而将原先的过程分为固定的六个阶段，在每个阶段投资机构都会有固定的回应信息。

所述六个阶段包括初期阶段、前期阶段、前中期阶段、中期阶段、中后期阶段和后期阶段；所述初期阶段中企业提供BP材料，投资机构反馈信息；所述前期阶段中根据企业与投资机构交互沟通中透露的信息，投资机构反馈信息；所述前中期阶段中，企业提供NDA对应的材料，投资机构反馈信息；所述中期阶段中企业提供资料，安排与投资机构访谈，投资机构反馈信息；所述中后期阶段中，企业获取与投资机构决策层沟通信息，投资机构：反馈不感兴趣或者感兴趣，决定做尽调；所述后期阶段，所述企业：配合财务、法务尽调，投资机构：反馈对投资项目不感兴趣或者签SPA。

所述初期阶段投资机构反馈信息是不感兴趣或感兴趣，以及感兴趣的情况下和企业沟通的方式；所述前期阶段投资机构反馈信息为不感兴趣或感兴趣，以及在感兴趣的情况下和企业签NDA（保密协议）获取关于企业运营、规划的材料；所述前中期阶段投资机构反馈信息为不感兴趣或感兴趣，以及在感兴趣的情况下和企业人员及企业用户的访谈；所述中期阶段投资机构反馈信息为不感兴趣，或者在感兴趣的情况下的投资机构进行立项或开会决定继续跟进投资项目；所述中后期阶段投资机构反馈信息为不感兴趣，或决定做尽调；所述后期阶段投资机构反馈信息为不感兴趣，或签SPA。

第二方面，虚拟化投资机构，对投资机构在每个阶段的动作进行定义，对每个阶段投资机构参考的信息进行定义，以及利用历史数据对投资机构的决策进行学习并将投资机构虚拟化。将投资机构在每个阶段的反馈信息抽象为4维元组作为动作，所述四维元组的形式为（是否感兴趣，有疑虑的方面，感兴趣的方面，继续跟进的意愿程度）。定义投资机构做出反馈所参照的信息包括企业在不同阶段提供给投资机构的资料信息S_project，以及投资机构在不同阶段的行为特征S_investor，所述行为特征S_investor是投资机构本身的标签，包括投资机构当前投了多少家企业、投资机构的所在城市等信息。由此可以进一步定义投资机构的投资策略为π_investor：（S_project，S_investor）→action_investor，action_investor表示投资机构的动作，也就是前文提到的投资机构的反馈信息。这一步的目的是通过历史数据（投资机构之前的投资动作数据，也称行为数据）生成虚拟化的投资机构。利用生成对抗网络（GenerativeAdversarial Networks，GAN）来生成与真实的投资机构一致的投资机构行为数据。GAN中包含一个生成器（Generator）和一个判别器（Discriminator）。生成器用来生成与真样本一致的假样本，判别器用来分辨样本的真假。通过两者的对抗，生成器的结果会越来越接近真样本，从而达到生成虚拟的投资机构的目的。

第三方面，对投融资结果进行预测的方法。该方法包括定义企业自身的策略π_project：（S_project，S_investor，action_investor）→action_project，以及利用强化学习算法同时对两个策略π_investor和π_project进行更新。定义企业的下一阶段的S_project由上一阶段的S_project与企业的动作action_project 产生。具体来说，利用上述定义的阶段和动作通过采样产生新的数据，在强化学习中称作轨迹。一组（S_project，S_investor，action_investor，action_project）就构成轨迹中的一条数据，一条轨迹中至多有6条这样的数据（6条数据分别对应定义的6个阶段）。当采样的轨迹数量足够多的时候，利用轨迹中的数据运用强化学习算法分别对两个策略π_investor和π_project进行更新。

有益效果：传统的投融资活动依靠FA的人力活动对项目和投资机构进行过滤与筛选，同时还要承担高昂的试错成本。利用本发明提出的方法对投资机构进行模拟，可以大大降低试错成本，并提高投融资活动的效率。

现有的利用机器学习方法对投资问题进行求解的方法多采用监督学习，模型的效果高度依赖专家知识来构建的特征工程。不仅耗费的人工成本比较大，且无法考虑交互过程中的数据对结果的影响。本发明使用强化学习的方法对整个投融资问题进行重新建模，将整个投融资交流交互的过程分为六个阶段，充分考虑了实际问题中双方的决策对最后结果的影响，可以大大提升结果的准确性。

强化学习需要在环境中不断试错学习，产生验证结果。但对于投融资问题来说环境是未知的，现有的部分投资、融资系统选择先训练出一个虚拟环境，然后再训练策略。但这样会导致搜索空间太大，算法的效率会大大降低。本发明分别针对投融资活动中的企业和投资机构定义了两个策略，并在算法中对两个策略同时进行更新，在保证算法准确性的同时提升了算法效率。

本发明使用GAN的框架对环境进行模拟，模型在更新策略的同时会对环境同步进行更新。与使用监督学习框架的行为克隆（Behavior Clone）相比，本发明提出方法的复合误差更小，训练好的策略模型执行的轨迹和训练轨迹的误差不会随时间的增加而越变越大。本发明中智能体与环境可以不断交互与探索，从而避免了性能受限于专家样本。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种利用模拟环境重构投融资行为的方法，首先将需要融资的项目与各个投资机构接触的整个过程划分为六个阶段，并定义了每个阶段项目提供的内容与投资机构的反馈，从而将原先的过程分为固定的六个阶段，在每个阶段投资机构都会有固定的反馈信息。

六个阶段包括：

一，初期阶段

企业：提供BP材料

投资机构：不感兴趣/感兴趣，约电话或见面沟通

在企业向投资机构提供了BP资料后，投资机构看过会反馈他是否对这家企业感兴趣或者不感兴趣。如果不感兴趣就终止。如果感兴趣，投资机构会给出沟通方式，约企业的负责人进行电话沟通或见面沟通，了解关于企业对进一步详细信息。

二，前期阶段

企业：与投资机构聊天中透露的信息

投资机构：不感兴趣/感兴趣，和企业签NDA（保密协议）获取关于企业运营、规划的材料

三，前中期阶段

企业：提供NDA对应的材料；

投资机构：不感兴趣/感兴趣，和企业人员及企业用户的访谈。

四，中期阶段

企业：给所需资料，安排企业高管、企业客户与投资机构访谈；

投资机构：不感兴趣/立项或开会决定继续跟进投资项目。

五，中后期阶段

企业：跟投资机构决策层聊天；

投资机构：不感兴趣/决定做尽调。

六，后期阶段

企业：财务、法务尽调；

投资机构：不感兴趣/签SPA。

虚拟化投资机构，对投资机构在每个阶段的动作进行定义，对每个阶段投资机构参考的信息进行定义，以及利用历史数据对投资机构的决策进行学习并将投资机构虚拟化。将投资机构在每个阶段的反馈信息抽象为4维作为动作，四维元组的形式为（是否感兴趣、有疑虑的方面、感兴趣的方面、继续跟进的意愿程度）。定义投资机构做出反馈所参照的信息包括企业在不同阶段提供给投资机构的资料信息S_project，以及投资机构在不同阶段的行为特征S_investor，行为特征S_investor是投资机构本身的标签，包括投资机构当前投了多少家企业、投资机构的所在城市等信息。由此可以进一步定义投资机构的投资策略为π_investor：（S_project，S_investor）→action_investor，action_investor表示投资机构的动作，也就是前文提到的投资机构的反馈信息。这一步的目的是通过历史数据（投资机构之前的投资动作数据，也称行为数据）生成虚拟化的投资机构。利用生成对抗网络（Generative AdversarialNetworks，GAN）来生成与真实的投资机构一致的投资机构行为数据。GAN中包含一个生成器（Generator）和一个判别器（Discriminator）。生成器用来生成与真样本一致的假样本，判别器用来分辨样本的真假。通过两者的对抗，生成器的结果会越来越接近真样本，从而到达生成虚拟的投资机构的目的。

虚拟化投资机构的具体实施步骤如下：

（11）数据处理，将历史数据按照上述阶段划分处理成state-action对的形式，state是指S_project或S_investor，ction指的是action_investor或action_project。

（12）构建初始策略网络π_investor作为虚拟投资机构的生成器，其输入为（S_project，S_investor），输出为对应的action_investor。

（13）构建判别器D，输出为二分类：输入state-action对是由生成器输出的（假样本）还是历史数据产生的（真样本）。判别器D输出为0到1之间的值，输出等于0说明判别器认为此样本是由生成器生成的；反之则说明判别器认为此样本大概率为历史数据产生的。

（14）初始策略网络π_investor的优化目标就是使得判别器认为它的输出就是真样本，同时生成样本的分布与历史数据的分布完全一致，即：E_π[logD(s, a)-αH(π)-βKL(π(s)||x)]=0。

其中log 为以e为底的对数函数，D（s，a）为判别器的输出，H为信息论中的熵函数，KL表示KL散度，用来衡量生成样本的分布与历史数据的分布之间的差异，熵函数和 KL散度是数学中常见的函数。α和β是系数，二者均为常数，通常取 0.01~10，分别控制熵和 KL散度项的大小，使得二者数量级小于log D(s,a)，π表示策略网络，s表示前述state，x指历史数据分布。

（15）利用初始策略网络π_investor的输出训练判别器D，然后用判别器D的输出更新π_investor。不断重复这个步骤直至判别器D无法分辨真假样本之间的区别。

第三方面，对投融资结果进行预测的方法。该方法包括定义企业自身的策略π_project：（S_project，S_investor，action_investor）→action_project，以及利用强化学习算法同时对两个策略π_investor和π_project进行更新。此处还定义企业的下一阶段的S_project由上一阶段的S_project与动作action_project 产生。具体来说，利用上述定义的阶段和动作通过采样产生新的数据，在强化学习中称作轨迹。一组（S_project，S_investor，action_investor，action_project）就构成轨迹中的一条数据，一条轨迹中至多有6条这样的数据（6条数据分别对应定义的6个阶段）。当采样的轨迹数量足够多的时候，利用轨迹中的数据运用强化学习算法分别对两个策略π_investor和π_project进行更新。

具体实施步骤如下：

（21）在历史数据中获取初始的观测（S_project，S_investor），对应企业提供的BP资料以及投资机构的行为特征。

（22）构建网络π_investor，输入（S_project，S_investor）计算action_investor。

（23）构建网络π_project，输入（S_project，S_investor，action_investor）计算action_project。

（24）利用判别器D计算两个策略π_investor和π_project的奖励。

（25）利用上一阶段的S_project与动作action_project产生下一阶段的S_project。

（26）重复步骤22-25直到6个阶段全部结束，将产生的轨迹τ存入集合。

（27）重复步骤21-26直到集合中有若干轨迹，利用集合中的轨迹更新π_investor和π_project两个策略，更新算法可以使用PPO等强化学习算法。

（28）重复步骤21-27若干次后，更新判别器D。

（29）重复步骤21-28若干次后，得到训练好的策略π_investor和π_project。

Claims

1.一种利用模拟环境重构投融资行为的方法，其特征在于，包括：将需要融资的项目与各个投资机构接触的整个过程划分为六个阶段，并定义了每个阶段项目提供的内容与投资机构的反馈，从而将原先的过程分为固定的六个阶段，在每个阶段投资机构都会有固定的回应信息；

利用历史数据对投资机构的决策进行学习并将投资机构虚拟化，利用生成对抗网络来生成与真实的投资机构一致的投资机构行为数据；对投融资结果进行预测，定义企业自身的策略，以及利用强化学习算法对两个策略π_investor和π_project进行更新，得到训练好的策略π_investor和π_project。

2.根据权利要求1所述的利用模拟环境重构投融资行为的方法，其特征在于，所述六个阶段包括初期阶段、前期阶段、前中期阶段、中期阶段、中后期阶段和后期阶段；所述初期阶段中企业提供BP材料，投资机构反馈信息；所述前期阶段中根据企业与投资机构交互沟通中透露的信息，投资机构反馈信息；所述前中期阶段中，企业提供NDA对应的材料，投资机构反馈信息；所述中期阶段中企业提供资料，安排与投资机构访谈，投资机构反馈信息；所述中后期阶段中，企业获取与投资机构决策层沟通信息，投资机构反馈不感兴趣或者感兴趣，决定做尽调；所述后期阶段，企业配合财务、法务尽调，投资机构反馈对投资项目不感兴趣或者签SPA。

3.根据权利要求2所述的利用模拟环境重构投融资行为的方法，其特征在于，所述初期阶段投资机构反馈信息是不感兴趣或感兴趣，以及感兴趣的情况下和企业沟通的方式；所述前期阶段投资机构反馈信息为不感兴趣或感兴趣，以及在感兴趣的情况下和企业签NDA获取关于企业运营、规划的材料；所述前中期阶段投资机构反馈信息为不感兴趣或感兴趣，以及在感兴趣的情况下和企业人员及企业用户的访谈。

4.根据权利要求2所述的利用模拟环境重构投融资行为的方法，其特征在于，对投资机构在每个阶段的动作进行定义，对每个阶段投资机构参考的信息进行定义，以及利用历史数据对投资机构的决策进行学习并将投资机构虚拟化；将投资机构在每个阶段的反馈信息抽象为4维元组作为动作，所述四维元组的形式为（是否感兴趣，有疑虑的方面，感兴趣的方面，继续跟进的意愿程度）；定义投资机构做出反馈所参照的信息包括企业在不同阶段提供给投资机构的资料信息S_project，以及投资机构在不同阶段的行为特征S_investor；定义投资机构的投资策略为π_investor：（S_project，S_investor）→action_investor，action_investor表示投资机构的动作；利用生成对抗网络来生成与真实的投资机构一致的投资机构行为数据；生成对抗网络中包含一个生成器和一个判别器；生成器用来生成与真样本一致的假样本，判别器用来分辨样本的真假。

5.根据权利要求4所述的利用模拟环境重构投融资行为的方法，其特征在于，虚拟化投资机构的具体实施步骤如下：

步骤11，数据处理，将历史数据按照上述阶段划分处理成state-action对的形式；

步骤12，构建初始策略网络π_investor作为虚拟投资机构的生成器，其输入为（S_project，S_investor），输出为对应的action_investor；

步骤13，构建判别器D，输出为二分类：输入state-action对是由生成器输出的还是历史数据产生的；

步骤14，初始策略网络π_investor的优化目标就是使得判别器认为它的输出就是真样本，同时生成样本的分布与历史数据的分布完全一致，即：E_π[logD(s, a)-αH(π)-βKL(π(s)||x)]=0；

其中log 为以e为底的对数函数；D（s，a）为判别器的输出；H为信息论中的熵函数，KL表示KL散度；α和β是系数，分别控制熵和 KL 散度项的大小，使得二者数量级小于log D(s,a)；π表示策略网络，s表示前述state，x指历史数据分布；

步骤15，利用初始策略网络π_investor的输出训练判别器D，然后用判别器D的输出更新π_investor；不断重复这个步骤直至判别器D无法分辨真假样本之间的区别。

6.根据权利要求5所述的利用模拟环境重构投融资行为的方法，其特征在于，对投融资结果进行预测的方法包括定义企业自身的策略π_project：（S_project，S_investor，action_investor）→action_project，以及利用强化学习算法同时对两个策略π_investor和π_project进行更新；定义企业的下一阶段的S_project由上一阶段的S_project与动作action_project 产生；具体来说，利用上述定义的阶段和动作通过采样产生新的数据，在强化学习中称作轨迹，一组（S_project，S_investor，action_investor，action_project）就构成轨迹中的一条数据，一条轨迹中至多有6条这样的数据，6条数据分别对应定义的6个阶段，利用轨迹中的数据运用强化学习算法分别对两个策略π_investor和π_project进行更新。

7.根据权利要求6所述的利用模拟环境重构投融资行为的方法，其特征在于，对投融资结果进行预测的方法具体实施步骤如下：

步骤21，在历史数据中获取初始的观测（S_project，S_investor），对应企业提供的BP资料以及投资机构的行为特征；

步骤22，构建网络π_investor，输入（S_project，S_investor）计算action_investor；

步骤23，构建网络π_project，输入（S_project，S_investor，action_investor）计算action_project；

步骤24，利用判别器D计算两个策略π_investor和π_project的奖励；

步骤25，利用上一阶段的S_project与动作action_project产生下一阶段的S_project；

步骤26，重复步骤22-25直到6个阶段全部结束，将产生的轨迹τ存入集合；

步骤27，重复步骤21-26直到集合中有若干轨迹，利用集合中的轨迹更新π_investor和π_project两个策略，更新算法可以使用PPO等强化学习算法；

步骤28，重复步骤21-27若干次后，更新判别器D；

步骤29，重复步骤21-28若干次后，得到训练好的策略π_investor和π_project。