CN117541044B

CN117541044B - 基于项目风险分析的项目分类方法、系统、介质及设备

Info

Publication number: CN117541044B
Application number: CN202311316117.6A
Authority: CN
Inventors: 崔小龙; 孟烨; 刘铁齐; 冯宇飞; 李欢
Original assignee: Zhongke Qiantang Beijing Technology Co
Current assignee: Zhongke Qiantang Beijing Technology Co
Priority date: 2023-07-28
Filing date: 2023-10-11
Publication date: 2024-06-11
Anticipated expiration: 2043-10-11
Also published as: CN117541044A

Abstract

本申请公开了一种基于项目风险分析的项目分类方法、系统、介质及设备，方法包括：响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据，并采集可研报告数据，基于数据分析以确定待投资项目对应的多个投资关键特征数据输入预先训练的项目风险分析模型，输出待投资项目对应的风险标签序列，以确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到，多源异构数据和可研报告数据的维度复杂，数据量非常丰富，因此基于多个投资关键特征数据确定的风险分析结果准确度高；同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别，从而提升了风险分析效率。

Description

基于项目风险分析的项目分类方法、系统、介质及设备

技术领域

本申请涉及机器学习技术领域，特别涉及一种基于项目风险分析的项目分类方法、系统、介质及设备。

背景技术

随着互联网和大数据的兴起，出现了很多的投、融资平台。这些投、融资平台往往只是对投资项目按行业进行简单的分类，或者仅仅考虑预期收益把投资项目进行简单的分类排列，投资人往往需要在大量的投资项目上浪费大量的时间进行风险分析，以确定出适合自己的投资项目。

相关技术中，当前通用的投资项目风险分析手段是通过获取投资项目在一段历史时间内的收益表现数据，基于该数据预测未来该投资项目的风险类型。由于历史时间内的收益表现数据比较单一，不确定性大，使得风险分析结果不准确；同时人工主动基于收益表现数据的分险分析方式主观性强，分析效率低。

发明内容

本申请实施例提供了一种基于项目风险分析的项目分类方法、系统、介质及设备。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种基于项目风险分析的项目分类方法，应用于服务器，方法包括：

响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据，并采集待投资项目的可研报告数据；

根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据；

将多个投资关键特征数据输入预先训练的项目风险分析模型中，输出待投资项目对应的风险标签序列；

基于风险标签序列，确定待投资项目的风险类别。

可选的，多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据；

根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据，包括：

根据企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据，并结合大数据技术对每个预设关键投资标签匹配数据源，得到每个预设关键投资标签的待分析数据；

加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型；

将每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中，分别输出待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据；

将市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据。

可选的，响应于终端针对待投资项目发送的项目风险分析请求之前，还包括：

采用神经网络建立项目风险分析模型；

根据每个企业的多源异构数据以及可研报告数据，确定每个预设关键投资标签的标签匹配数据；

根据标签匹配数据分析多个样本投资关键特征，得到每个预设关键投资标签的样本投资关键特征序列；

接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联，生成历史训练样本；

将历史训练样本输入项目风险分析模型进行模型训练，输出第一模型损失值；

在第一模型损失值到达最小时，生成初始项目风险分析模型；

对历史训练样本进行数据增强，得到增强数据；

根据增强数据对初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型。

可选的，初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数；

根据增强数据对初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型，包括：

求取历史训练样本以及增强数据的交集，并将交集进行删除，得到多行描述文本；

将多行描述文本中每行描述文本进行分词处理，得到每行描述文本的多个词汇序列；

根据每行描述文本的多个词汇序列，确定每行描述文本的向量序列；

将每行描述文本的向量序列依次输入归一化函数，输出每行描述文本的文本表示；

将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层，输出多行描述文本的关系结构特征；

基于多行描述文本的关系结构特征和损失函数，计算模型损失值；

当模型损失值到达最小时，生成预先训练的项目风险分析模型。

可选的，根据每行描述文本的多个词汇序列，确定每行描述文本的向量序列，包括：

获取预先生成的词汇与向量的映射关系表；

在映射关系表中匹配每行描述文本的多个词汇序列各自对应的向量，得到每行描述文本的向量序列；或者，

将每行描述文本的多个词汇序列映射为预设固定维度的向量，得到每行描述文本的向量序列。

可选的，将每行描述文本的向量序列依次输入归一化函数，输出每行描述文本的文本表示，包括：

将每行描述文本的向量序列通过双向长短期记忆网络进行编码，得到每行描述文本中各字符的前后方向上的隐层状态；

将每行描述文本中各字符的前后方向上的隐层状态进行拼接，得到每行描述文本中各字符的隐层输出；

将每行描述文本中各字符的隐层输出输入全连接层中，得到各字符的隐含输出；

将各字符的隐含输出和预设风险标签进行相似度计算，得到各字符的相似度；

通过归一化函数将各字符的相似度进行归一化处理，得到每行描述文本的文本表示。

可选的，基于多行描述文本的关系结构特征和损失函数，计算模型损失值，包括：

根据每行描述文本的关系结构特征，计算每行描述文本的预测风险标签；

通过F-Measur算法，计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率；

计算精确率和召回率的加权平均值；

将加权平均值输入损失函数中，得到模型损失值；其中，

加权平均值的计算公式为：

其中，C为权重值，X是精确率，Y是召回率；

损失函数的表达式为：

其中，n为多行描述文本的行数，x_i为第i行描述文本的加权平均值，P()为模型先验值计算函数，logQ()为任意一行描述文本的加权平均值和自身关联的风险标签之间的空间相似距离。

第二方面，本申请实施例提供了一种基于项目风险分析的项目分类系统，系统包括：

数据爬取模块，用于响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据，并采集待投资项目的可研报告数据；

数据分析模块，用于根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据；

数据输入模块，用于将多个投资关键特征数据输入预先训练的项目风险分析模型中，输出待投资项目对应的风险标签序列；

风险输出模块，用于基于风险标签序列，确定待投资项目的风险类别。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，服务器首先响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析，以确定待投资项目对应的多个投资关键特征数据，然后将多个投资关键特征数据输入预先训练的项目风险分析模型，输出待投资项目对应的风险标签序列，最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到，多源异构数据和可研报告数据的维度复杂，数据量非常丰富，因此基于多个投资关键特征数据确定的风险分析结果准确度高；同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别，从而提升了风险分析效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的一种基于项目风险分析的项目分类方法的流程示意图；

图2是本申请提供的一种实施场景的场景示意图；

图3是本申请提供的一种模型训练过程的过程示意图；

图4是本申请提供的一种初始项目风险分析模型的模型处理过程图；

图5是本申请实施例提供的一种项目风险分析模型训练过程的过程示意图；

图6是本申请实施例提供的一种基于项目风险分析的项目分类系统的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述和附图充分地示出本申请的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的系统和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

目前，当前通用的投资项目风险分析手段是通过获取投资项目在一段历史时间内的收益表现数据，基于该数据预测未来该投资项目的风险类型。

本申请的发明人注意到，由于历史时间内的收益表现数据比较单一，不确定性大，使得风险分析结果不准确；同时人工主动基于收益表现数据的分险分析方式主观性强，分析效率低。

为了能够解决分析结果不准确以及分析效率低的问题，本申请发明人研究发现，服务器首先响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据和可研报告数据进行分析，以确定待投资项目对应的多个投资关键特征数据，然后将多个投资关键特征数据输入预先训练的项目风险分析模型，输出待投资项目对应的风险标签序列，最后基于风险标签序列确定待投资项目的风险类别。由于本申请多个投资关键特征数据是根据多源异构数据和可研报告数据分析得到，多源异构数据和可研报告数据的维度复杂，数据量非常丰富，因此基于多个投资关键特征数据确定的风险分析结果准确度高；同时预先训练的项目风险分析模型可自动分析待投资项目的分险类别，从而提升了风险分析效率。

本申请提供了一种基于项目风险分析的项目分类方法、系统、介质及设备，以解决上述相关技术问题中存在的问题。下面将结合附图1-附图5，对本申请实施例提供的基于项目风险分析的项目分类方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于项目风险分析的项目分类系统上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图1，为本申请实施例提供了一种基于项目风险分析的项目分类方法的流程示意图。如图1所示，本申请实施例的方法可以包括以下步骤：

S101，响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据，并采集待投资项目的可研报告数据；

例如图2所示，图2是本申请提供的一种实施场景的场景示意图，包括终端和服务器，终端和服务器之间可通过无线或者有线进行通信连接；终端提供了基于项目风险分析的项目分类的相关功能接口，用户可基于相关功能接口触发项目风险分析请求；服务器上部署有预先训练的项目风险分析模型以及基于项目风险分析的项目分类的应用程序，可基于来自终端的项目风险分析请求执行步骤S101-步骤S104。

其中，待投资项目是企业提供的用于客户进行投资后可有收益的产品，例如银行APP中理财专区里边提供的各个理财产品；多源异构数据是通过多个渠道获取的不同来源的数据，多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据；例如企业工商信息可通过天眼查提供的数据进行获取。可研报告数据是由企业、政府部门、科研机构等单位出具的，用于评估一个项目或计划的可行性、风险和收益等情况的说明,并提出相应建议的文档。

在本申请实施例中，服务器在接收到来自终端的项目风险分析请求时，可响应于终端针对待投资项目发送的项目风险分析请求，采用爬虫技术爬取与待投资项目关联企业的多源异构数据，并通过OCR识别技术自动采集待投资项目的可研报告数据。

S102，根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据；

在本申请实施例中，在根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据时，服务器首先根据企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据，并结合大数据技术对每个预设关键投资标签匹配数据源，得到每个预设关键投资标签的待分析数据；然后加载预先通过人工智能算法对每个预设关键投资标签训练的目标分析模型；其次将每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中，分别输出待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据；最后将市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据。

具体的，在结合大数据技术对每个预设关键投资标签匹配数据源时，首先可采用大数据处理程序对企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与可研报告数据进行数据清洗、数据过滤以及数据规则化，得到目标数据，然后计算目标数据中不同数据与每个预设关键投资标签之间的语义相似度，并在语义相似度大于预设阈值的情况下，通过聚类算法归类出与每个预设关键投资标签语义相似度大于预设阈值的数据，得到每个预设关键投资标签的待分析数据。

需要说明的是，由于本申请中关键投资标签的数据不同，因此本申请针对每个预设关键投资标签都预先训练了一个分析模型，将不同的数据输入各自对应的模型中，本申请精细化的模型处理相比于现有技术中一个统一的数据处理模型，可提升分析结果的准确性。单个模型的训练方式可采用现有技术的模型训练过程，此处不在赘述。

S103，将多个投资关键特征数据输入预先训练的项目风险分析模型中，输出待投资项目对应的风险标签序列；

其中，预先训练的项目风险分析模型是能够输出投资项目对象风险标签的数学模型。

在本申请实施例中，在生成预先训练的项目风险分析模型时，首先采用神经网络建立项目风险分析模型；再根据每个企业的多源异构数据以及可研报告数据，确定每个预设关键投资标签的标签匹配数据；然后根据标签匹配数据分析多个样本投资关键特征，得到每个预设关键投资标签的样本投资关键特征序列；再接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联，生成历史训练样本；其次将历史训练样本输入项目风险分析模型进行模型训练，输出第一模型损失值；再在第一模型损失值到达最小时，生成初始项目风险分析模型；最后对历史训练样本进行数据增强，得到增强数据；再根据增强数据对初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型。

例如图3所示，图3是本申请提供的一种模型训练过程的过程示意图，该训练过程分为两个阶段，包括一阶段训练过程和二阶段训练过程。在一阶段训练过程中，首先建立项目风险分析模型，然后根据每个企业的多源异构数据以及可研报告数据，生成历史训练样本，最后根据历史训练样本，对项目风险分析模型进行训练，得到初始项目风险分析模型。在二阶段训练过程中，首先对历史训练样本进行数据增强，得到增强数据，然后通过增强数据对初始项目风险分析模型进行二阶段训练，得到预先训练的项目风险分析模型。

其中，初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数。

在本申请实施例中，首先求取历史训练样本以及增强数据的交集，并将交集进行删除，得到多行描述文本；再将多行描述文本中每行描述文本进行分词处理，得到每行描述文本的多个词汇序列；然后根据每行描述文本的多个词汇序列，确定每行描述文本的向量序列；再将每行描述文本的向量序列依次输入归一化函数，输出每行描述文本的文本表示；最后将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层，输出多行描述文本的关系结构特征；再基于多行描述文本的关系结构特征和损失函数，计算模型损失值；以及当模型损失值到达最小时，生成预先训练的项目风险分析模型。

例如图4所示，图4是本申请提供的一种初始项目风险分析模型的模型处理过程图，首先将每行描述文本的向量序列输入归一化函数中，输出每行描述文本的文本表示，然后将每行描述文本的文本表示输入双向长短期记忆网络以及全连接层，输出多行描述文本的关系结构特征，最后基于多行描述文本的关系结构特征结合损失函数计算损失值。

在本申请实施例中，在根据每行描述文本的多个词汇序列，确定每行描述文本的向量序列时，首先获取预先生成的词汇与向量的映射关系表；然后在映射关系表中匹配每行描述文本的多个词汇序列各自对应的向量，得到每行描述文本的向量序列；或者，将每行描述文本的多个词汇序列映射为预设固定维度的向量，得到每行描述文本的向量序列。

在本申请实施例中，在将每行描述文本的向量序列依次输入归一化函数，输出每行描述文本的文本表示时，首先将每行描述文本的向量序列通过双向长短期记忆网络进行编码，得到每行描述文本中各字符的前后方向上的隐层状态；然后将每行描述文本中各字符的前后方向上的隐层状态进行拼接，得到每行描述文本中各字符的隐层输出；再将每行描述文本中各字符的隐层输出输入全连接层中，得到各字符的隐含输出；其次将各字符的隐含输出和预设风险标签进行相似度计算，得到各字符的相似度；最后通过归一化函数将各字符的相似度进行归一化处理，得到每行描述文本的文本表示。

具体的，在基于多行描述文本的关系结构特征和损失函数，计算模型损失值时，首先根据每行描述文本的关系结构特征，计算每行描述文本的预测风险标签；然后通过F-Measur算法，计算每行描述文本的预测风险标签及其自身关联的实际风险标签之间的精确率和召回率；其次计算精确率和召回率的加权平均值；最后将加权平均值输入损失函数中，得到模型损失值；其中，加权平均值的计算公式为：

其中，C为权重值，X是精确率，Y是召回率；

损失函数的表达式为：

S104，基于风险标签序列，确定待投资项目的风险类别。

在一种可能的实现方式中，在基于风险标签序列，确定待投资项目的风险类别时，首先识别风险标签序列中各个风险标签的标签类别，根据各个风险标签的标签类别，将风险标签序列划分为多类风险标签，统计每类风险标签的数量，并将数量最多的风险标签对应的标签类别确定为待投资项目的风险类别。

例如，标签类别为A风险、B风险、C风险、D风险，A风险的风险级别最高，D风险的风险级别最低，可通过统计标签类别的数量确定待投资项目的最终的风险类别。当C风险的标签数量最多时，待投资项目的风险类别为C风险。

在另一种可能的实现方式中，在基于风险标签序列，确定待投资项目的风险类别时，首先将风险标签序列中各个风险标签输入预先关联了风险类型标签的滑动窗口，以统计每种风险类型标签的数量，最后将数量最多的风险类型标签对应的标签类别确定为待投资项目的风险类别。

进一步地，在得到风险类别后，可将风险类别展示给投资者，方便投资者查看和调整。

投资者在投资中，可实时获取并更新外部数据，如天眼查的工商信息、企业年报、财税报告、舆情信息、恒生指数、A股、港股等官方渠道数据，对内自动采集项目的进度数据，通过模型分析，及时发现项目的延误、超支等风险问题，为投资者提供精准的风险预警提示。

投资者在投资完成的阶段中，基于OCR识别技术自动采集投资项目的后评估报告数据，结合项目前期的可研报告，通过项目风险评估模型分析投资者的投资回报率、风险调整收益等指标，可视化比对可研报告数据和后评估数据，自动分析差距及原因，并为投资者提供投资优化建议。

例如图5所示，图5是本申请提供的一种项目风险分析模型训练过程的过程示意图，模型训练步骤包括：

S201，采用神经网络建立项目风险分析模型；

S202，根据每个企业的多源异构数据以及可研报告数据，确定每个预设关键投资标签的标签匹配数据；

S203，根据标签匹配数据分析多个样本投资关键特征，得到每个预设关键投资标签的样本投资关键特征序列；

S204，接收对每个预设关键投资标签的样本投资关键特征序列所设定的样本风险标签进行关联，生成历史训练样本；

S205，将历史训练样本输入项目风险分析模型进行模型训练，输出第一模型损失值；

S206，在第一模型损失值到达最小时，生成初始项目风险分析模型；

S207，对历史训练样本进行数据增强，得到增强数据；

S208，根据增强数据对初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型。

下述为本申请系统实施例，可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，其示出了本申请一个示例性实施例提供的基于项目风险分析的项目分类系统的结构示意图。该基于项目风险分析的项目分类系统可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。该系统1包括数据爬取模块10、数据分析模块20、数据输入模块30、风险输出模块40。

数据爬取模块10，用于响应于终端针对待投资项目发送的项目风险分析请求，爬取与待投资项目关联企业的多源异构数据，并采集待投资项目的可研报告数据；

数据分析模块20，用于根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据；

数据输入模块30，用于将多个投资关键特征数据输入预先训练的项目风险分析模型中，输出待投资项目对应的风险标签序列；

风险输出模块40，用于基于风险标签序列，确定待投资项目的风险类别。

需要说明的是，上述实施例提供的基于项目风险分析的项目分类系统在执行基于项目风险分析的项目分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于项目风险分析的项目分类系统与基于项目风险分析的项目分类方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于项目风险分析的项目分类方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的基于项目风险分析的项目分类方法。

请参见图7，为本申请实施例提供了一种电子设备的结构示意图。如图7所示，电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储系统。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于项目风险分析的项目分类应用程序。

在图7所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于项目风险分析的项目分类应用程序，并具体执行以下操作：

基于风险标签序列，确定待投资项目的风险类别。

在一个实施例中，处理器1001在执行根据多源异构数据与可研报告数据，分析待投资项目对应的多个投资关键特征数据时，具体执行以下操作：

在一个实施例中，处理器1001在执行响应于终端针对待投资项目发送的项目风险分析请求之前时，还执行以下操作：

采用神经网络建立项目风险分析模型；

对历史训练样本进行数据增强，得到增强数据；

在一个实施例中，处理器1001在执行根据增强数据对初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型时，具体执行以下操作：

在一个实施例中，处理器1001在执行根据每行描述文本的多个词汇序列，确定每行描述文本的向量序列时，具体执行以下操作：

获取预先生成的词汇与向量的映射关系表；

在一个实施例中，处理器1001在执行将每行描述文本的向量序列依次输入归一化函数，输出每行描述文本的文本表示时，具体执行以下操作：

在一个实施例中，处理器1001在执行基于多行描述文本的关系结构特征和损失函数，计算模型损失值时，具体执行以下操作：

计算精确率和召回率的加权平均值；

将加权平均值输入损失函数中，得到模型损失值；其中，

加权平均值的计算公式为：

其中，C为权重值，X是精确率，Y是召回率；

损失函数的表达式为：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，基于项目风险分析的项目分类的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种基于项目风险分析的项目分类方法，其特征在于，应用于服务器，所述方法包括：

响应于终端针对待投资项目发送的项目风险分析请求，爬取与所述待投资项目关联企业的多源异构数据，并采集所述待投资项目的可研报告数据；

根据所述多源异构数据与所述可研报告数据，分析所述待投资项目对应的多个投资关键特征数据；其中，

所述多源异构数据包括企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数以及股票数据；

所述根据所述多源异构数据与所述可研报告数据，分析所述待投资项目对应的多个投资关键特征数据，包括：

根据所述企业工商信息、企业年报数据、财税报告单、舆情信息、恒生指数股票数据与所述可研报告数据，并结合大数据技术对每个预设关键投资标签匹配数据源，得到每个预设关键投资标签的待分析数据；

将所述每个预设关键投资标签的待分析数据输入与其对应的目标分析模型中，分别输出所述待投资项目对应的市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据；

将所述市场波动数据、利润变化数据、市场竞争关系数据、政策变化信息表以及财务健康状况数据作为多个投资关键特征数据；

将所述多个投资关键特征数据输入预先训练的项目风险分析模型中，输出所述待投资项目对应的风险标签序列；

基于所述风险标签序列，确定所述待投资项目的风险类别；其中，

所述响应于终端针对待投资项目发送的项目风险分析请求之前，还包括：

采用神经网络建立项目风险分析模型；

根据所述标签匹配数据分析多个样本投资关键特征，得到每个预设关键投资标签的样本投资关键特征序列；

将所述历史训练样本输入所述项目风险分析模型进行模型训练，输出第一模型损失值；

在所述第一模型损失值到达最小时，生成初始项目风险分析模型；

对所述历史训练样本进行数据增强，得到增强数据；

根据所述增强数据对所述初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型；其中，

所述初始项目风险分析模型包括双向长短期记忆网络、全连接层、归一化函数以及损失函数；

所述根据所述增强数据对所述初始项目风险分析模型进行训练，生成预先训练的项目风险分析模型，包括：

求取所述历史训练样本以及所述增强数据的交集，并将所述交集进行删除，得到多行描述文本；

将所述多行描述文本中每行描述文本进行分词处理，得到每行描述文本的多个词汇序列；

根据所述每行描述文本的多个词汇序列，确定每行描述文本的向量序列；

将所述每行描述文本的向量序列依次输入所述归一化函数，输出每行描述文本的文本表示；

将所述每行描述文本的文本表示输入所述双向长短期记忆网络以及全连接层，输出多行描述文本的关系结构特征；

基于所述多行描述文本的关系结构特征和所述损失函数，计算模型损失值；

当所述模型损失值到达最小时，生成预先训练的项目风险分析模型；其中，

所述基于所述多行描述文本的关系结构特征和所述损失函数，计算模型损失值，包括：

计算所述精确率和召回率的加权平均值；

将所述加权平均值输入所述损失函数中，得到模型损失值；其中，

所述加权平均值的计算公式为：

其中，C为权重值，X是精确率，Y是召回率；

所述损失函数的表达式为：

2.根据权利要求1所述的方法，其特征在于，所述根据所述每行描述文本的多个词汇序列，确定每行描述文本的向量序列，包括：

获取预先生成的词汇与向量的映射关系表；

在所述映射关系表中匹配所述每行描述文本的多个词汇序列各自对应的向量，得到每行描述文本的向量序列；或者，

将所述每行描述文本的多个词汇序列映射为预设固定维度的向量，得到每行描述文本的向量序列。

3.根据权利要求1所述的方法，其特征在于，所述将所述每行描述文本的向量序列依次输入所述归一化函数，输出每行描述文本的文本表示，包括：

将所述每行描述文本的向量序列通过所述双向长短期记忆网络进行编码，得到所述每行描述文本中各字符的前后方向上的隐层状态；

将所述每行描述文本中各字符的前后方向上的隐层状态进行拼接，得到所述每行描述文本中各字符的隐层输出；

将所述每行描述文本中各字符的隐层输出输入所述全连接层中，得到各字符的隐含输出；

将所述各字符的隐含输出和预设风险标签进行相似度计算，得到各字符的相似度；

通过所述归一化函数将各字符的相似度进行归一化处理，得到每行描述文本的文本表示。

4.一种基于项目风险分析的项目分类系统，其特征在于，所述系统包括：

数据爬取模块，用于响应于终端针对待投资项目发送的项目风险分析请求，爬取与所述待投资项目关联企业的多源异构数据，并采集所述待投资项目的可研报告数据；

数据分析模块，用于根据所述多源异构数据与所述可研报告数据，分析所述待投资项目对应的多个投资关键特征数据；其中，

数据输入模块，用于将所述多个投资关键特征数据输入预先训练的项目风险分析模型中，输出所述待投资项目对应的风险标签序列；

风险输出模块，用于基于所述风险标签序列，确定所述待投资项目的风险类别；其中，

所述基于项目风险分析的项目分类系统还具体用于：

采用神经网络建立项目风险分析模型；

对所述历史训练样本进行数据增强，得到增强数据；

计算所述精确率和召回率的加权平均值；

所述加权平均值的计算公式为：

其中，C为权重值，X是精确率，Y是召回率；

所述损失函数的表达式为：

5.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-3任意一项所述的方法。

6.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-3任意一项所述的方法。