CN109472462B

CN109472462B - 一种基于多模型堆栈融合的项目风险评级方法及装置

Info

Publication number: CN109472462B
Application number: CN201811216314.XA
Authority: CN
Inventors: 郑子彬; 肖小粤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2022-02-01
Anticipated expiration: 2038-10-18
Also published as: CN109472462A

Abstract

本发明公开一种基于多模型堆栈融合的项目风险评级方法及装置，本装置用实现本方法，包括：数据预处理提取训练集，将训练集拼接成项目文档的语料库；对语料库进行特征构建，构建tf‑idf特征、Doc2Vec特征、Word2Vec特征及统计特征，采用两层的多模型堆栈策略，对训练集进行上述特征概率训练，输出项目风险评级结果。本发明通过挖掘项目白皮书中的关键信息，找出与风险评级有关的重要因素，构建一个基于多模型堆栈融合的风险评级模型。训练好的模型能够汇聚过去评级人员的风险评级经验，并且自主学习项目白皮书与评级之间的关联，从而为评级人员提供评级建议，以辅助评级人员，提供评级的准确性和效率。

Description

一种基于多模型堆栈融合的项目风险评级方法及装置

技术领域

本发明涉及金融风险评级领域，特别涉及一种基于多模型堆栈融合的项目风险评级方法及装置。

背景技术

数字货币(例如：BTC、ETH、XRP和NEO)在公众中迅速被使用化、价值化和理解化，与此同时它也为投资者带来惊人的利润。与其他货币和法币不同，大多数的数字货币没有中央机构。去中心化的特点为风险评级带来了极大的挑战。目前，大多数区块链项目ICO还不受政府法规的约束，因此，为ICO项目提供可信的风险评级方法是必要和紧迫的。

目前，传统的风险评级方法主要包括：定性评估法和定量评估法。

定性评估法。这种评估方法接近于人们的思维方式，是一种感性、相对直观的方法，它主要对无法量化和量化水平较低的风险进行分析评价，或者在定量研究的基础上做定性分析评价，得出更加可靠的结果。主要包含：故障树分析法、外推法和专家调查打分法等。虽然简单并且容易使用，但是可靠性完全取决于专家的经验与水平，并且没有考虑时间的因果关系。

定量评估法。这种评估方法会将风险造成的损失频率、损失程度以及其他因素综合起来考虑，分析风险可能的影响。主要包含：敏感性分析、概率分析和决策树分析等。虽然基于这些方法可以为评估人员提供风险清单等参考依据，但是依然不能在客观上去除人的主观因素，因为这些方法中的参数值与评级分数任然需要人为实现设置。因此，定量评估法对于评级的输出结果也会存在一些问题。

发明内容

本发明的主要目的是提出一种基于多模型堆栈融合的项目风险评级方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于多模型堆栈融合的项目风险评级方法，包括：

S10数据预处理：对输入的项目文档进行预处理，以从项目文档中提取训练集，将训练集拼接成项目文档的语料库；

S20特征构建：对语料库进行特征构建，构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征，其中：

tf-idf特征为将语料库输入至TF-IDF模型所提取的每个项目文档的tf-idf特征；

Doc2Vec特征为采用Doc2Vec方法将预处理后的训练集输入Doc2Vec模型，获得的项目文档的固定长度的特征向量；

Word2Vec特征为将语料库输入至Word2Vec模型，获得项目文档的Word2Vec特征；

统计特征包括提取项目文档中关键词出现次数的次数统计和对项目文档中的金额的金额统计；

S30采用两层的多模型堆栈策略，对训练集进行上述特征概率训练；

S40输出项目风险预测评级结果。

优选地，所述两层的多模型中第一层模型包括逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型；第二层模型包括XGBoost模型，所述S30包括：

S301将训练集划分为训练折和验证折，训练折用于进行模型的训练学习；验证折用于模型的预测；

S302分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征，学习项目白皮书中的用词特点；

用神经网络模型来训练Doc2Vec模型生成的文档向量特征，学习项目白皮书中的词语的语义关联信息；

S303训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证，由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4；

S304将概率文件1、概率文件2、概率文件3和概率文件4拼接起来，输入XGBoost模型，利用Word2Vec特征、统计特征训练XGBoost模型，获得更深入的学习项目白皮书与评级目标之间的联系；

S305输出项目风险评级预测结果。

优选地，所述S301中将训练集划分5折，用于5轮的学习；其中4折为训练折，用于进行模型的训练，1折为验证折，用于模型的预测。

优选地，所述统计特征使用正则表达式的方法提取出项目白皮书中出现的金额信息，然后对金额进行以下统计操作：求和、最小值、最大值、最大最小差值、平均值和标准差，然后将这些特征拼接起来作为最终的统计特征。

优选地，所述Doc2Vec模型包括Doc2Vec-DM模型和Doc2Vec-DBOW模型，根据训练文档向量的网络结构的不同，将预处理后的训练集择情输入Doc2Vec-DM模型或Doc2Vec-DBOW模型，设置模型参数后，训练出模型，将文档表示成两种固定长度的特征向量。

优选地，所述TF-IDF模型计算文档中的一个词语的tf-idf值的方法为：

首先，计算该词语w在文档d中出现的次数count(w|d)，以及文档d中所有的词语数目count(d)，那么词语w在文档d中出现的频率则可以表示如下：

接着，计算语料库D中所有的文档数目N，以及所有文档中出现词语w的总次数count(w|D)，那么词语w在语料库D中的逆向文档频率可以表示如下：

最后，基于计算好的频率和逆向文档频率，计算该词w的tf-idf值为：

tfidf(w|d，D)＝tf(w|d)*idf(w|D)。

优选地，所述语料库输入至Word2Vec模型，获得项目文档的Word2Vec特征的方法为：将文档的所有词语通过训练好的Word2Vec模型表示成词向量，然后对这所有的词向量加权平均，最后得到的结果作为该文档的Word2Vec特征。

优选地，所述S10中数据预处理的方法包括：

S101多种分词处理；对输入的项目文档分别使用结巴分词JIEBA、自然语言处理与信息检索共享平台NLPIR、中文词法分析工具包THULC和语言技术平台LTP的分词方案进行分词处理，每种分词方案构建每个文档的词语数据库；

S102去除无意义信息：去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息，提取训练数据。

本发明还公开了一种基于多模型堆栈融合的项目风险评级装置，包括：

预处理模块，用于对输入的项目文档进行预处理，以从项目文档中提取训练集，将训练集拼接成项目文档的语料库；

特征构建模块，用于对语料库进行特征构建，构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征；

特征训练模块，用于采用两层的多模型堆栈策略，对训练集进行上述特征概率训练；

输出模块，用于输出项目风险预测评级结果。

优选地，所述特征训练模块包括：

划分单元：将训练集划分为训练折和验证折，训练折用于进行模型的训练学习；验证折用于模型的预测；

第一层模型训练单元：分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征，学习项目白皮书中的用词特点；

第一输出单元：训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证，由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4；

第二层模型训练单元：将概率文件1、概率文件2、概率文件3和概率文件4拼接起来，输入XGBoost模型，利用Word2Vec特征、统计特征训练XGBoost模型，获得更深入的学习项目白皮书与评级目标之间的联系；

第二输出单元：输出项目风险评级预测结果。

在本发明实施例中，本发明通过挖掘项目白皮书中的关键信息，找出与风险评级有关的重要因素，构建一个基于多模型堆栈融合的风险评级模型。训练好的模型能够汇聚过去评级人员的风险评级经验，并且自主学习项目白皮书与评级之间的关联，从而为评级人员提供评级建议，以辅助评级人员，提供评级的准确性和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明基于多模型堆栈融合的项目风险评级方法一实施例的方法流程图；

图2为所述S30的方法流程图；

图3为本发明基于多模型堆栈融合的项目风险评级装置一实施例的功能模块图；

图4为本发明所述特征训练模块一实施例的功能细化图；

图5为本发明的基于多模型堆栈融合的项目风险评级装置的技术框架图；

图6为本发明所述分词处理单元的分词处理流程图；

图7为本发明的DM模型(左)和DBOW模型(右)对比图；

图8为本发明的多模型堆堆栈策略图，

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1-8所示，本发明提出的一种基于多模型堆栈融合的项目风险评级方法，包括：

S40输出项目风险预测评级结果。

tf-idf的特征(term frequency–inverse document frequency)，是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf特征是一种衡量某一词语在文档中的区分能力的有效方法。它的主要思想是：如果某个词语在文档中出现的频率越高，并且该词语在其他文档中出现的频率越低，那么这个词语的区分能力越好。将数据预处理后得到的训练数据作为语料库，将语料库作为tf-idf模型的输入，构建对案件文本的tf-idf模型，利用该模型提取出每个项目的tf-idf特征。

Doc2Vec的特征使用Doc2Vec方法，将文档直接表示成一个固定长度的向量。

Word2Vec的特征将词语直接表示成一个固定长度的向量，对于一个文档，由多个词语组成，我们将该文档的所有词语通过训练好的Word2Vec模型表示成词向量，然后对这所有的词向量加权平均，最后得到的结果作为该文档的特征。

统计特征项目白皮书中存在着一些关键的信息，这些信息对于评级是重要的因素。本发明提取了项目白皮书中的一些关键词出现的次数作为特征；及提取出项目白皮书中出现的金额特征。

本发明使用模型融合的思想，采取两层的多模型堆栈的策略，对训练数据进行训练，从而提升模型预测的准确性和泛化性。泛化性是指学习到的模型对未知数据的预测能力。

S305输出项目风险评级预测结果。

在本发明实施例中，逻辑回归模型：逻辑回归模型是使用逻辑函数对线性回归的结果归一化，从而输出每个类别的概率。该模型简单高校，对于大规模数据，逻辑回归模型能够快速完成训练，得到不错分类效果，并且可以兼顾模型的解释度；

朴素贝叶斯模型：朴素贝叶斯模型是基于贝叶斯定理和特征条件独立假设的分类模型。朴素贝叶斯模型的算法也十分简单高效，并且有稳定的分类效率。

支持向量机模型：支持向量机模型是定义在特征空间上的间隔最大的线性分类器，其可以使用核技巧，使其成为非线性分类器。支持向量机模型不仅可以解决小样本下的学习问题，还能够很好的处理高维数据集，并且得到不错的泛化效果。

神经网络模型是一种模仿生物神经网络的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络模型的分类准确度高，并行分布处理能力强，分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系。

XGBoost模型是一种基于决策树的分布式的高效的梯度提升算法，其将训练损失执行泰勒展开，并在最优化问题中的目标函数中加入正则项约束，以控制模型的复杂度，其还借鉴随即森林的做法，支持特征抽样。XGBoost模型具有速度快、可移植、可容错等优点。

本发明采用了模型融合中堆栈融合的思想，使用两层的模型结构。第一层使用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征，从而学习项目白皮书中的用词特点；其次还使用神经网络模型来训练Doc2Vec-DBOW和Doc2Vec-DM生成的文档向量特征，从而学习项目白皮书中的词语的语义关联信息。第二层使用XGBoost模型，训练Word2Vec、统计特征和第一层模型传来的概率特征，从而更深入的学习项目白皮书与评级目标之间的联系。

在本发明实施例中，为了避免过拟合现象，本发明使用了交叉验证的思想。该融合过程如图-4所示。将数据集划分为5折，用于5轮的学习；使用其中4折进行模型的训练，剩余的1折用于模型的预测。最后将预测输出的概率拼接起来，作为第二层模型的输入；最后，利用之前产生的特征向量训练第二层模型，输入最终的预测结果。

tfidf(w|d，D)＝tf(w|d)*idf(w|D)。

优选地，所述S10中数据预处理的方法包括：

本发明结合机器学习方法，利用区块链项目的白皮书数据和ICO(Initial CoinOffering，首次代币发行)相关数据，汇总曾今评级人员的评估经验，深入挖掘历史项目中包含的白皮书信息与风险评级有关的因素，从而构建一个预测模型，将训练好的预测模型作为评级人员的辅助工具，帮助评级人员克服外界干扰，提高风险评级的准确性和效率。

本发明还公开了一种基于多模型堆栈融合的项目风险评级装置，用于实现上述方法，本方法的具体步骤参照上述实施例，由于本装置采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述，其包括：

预处理模块10，用于对输入的项目文档进行预处理，以从项目文档中提取训练集，将训练集拼接成项目文档的语料库；

特征构建模块20，用于对语料库进行特征构建，构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征；

特征训练模块30，用于采用两层的多模型堆栈策略，对训练集进行上述特征概率训练；

输出模块40，用于输出项目风险预测评级结果。

优选地，所述特征训练模块30包括：

划分单元301：将训练集划分为训练折和验证折，训练折用于进行模型的训练学习；验证折用于模型的预测；

第一层模型训练单元302：分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征，学习项目白皮书中的用词特点；

第一输出单元303：训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证，由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4；

第二层模型训练单元304：将概率文件1、概率文件2、概率文件3和概率文件4拼接起来，输入XGBoost模型，利用Word2Vec特征、统计特征训练XGBoost模型，获得更深入的学习项目白皮书与评级目标之间的联系；

第二输出单元305：输出项目风险评级预测结果。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于多模型堆栈融合的项目风险评级方法，其特征在于，包括：

S102去除无意义信息：去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息，提取训练数据；

统计特征包括提取项目文档中关键词出现次数的次数统计和对项目文档中的金额统计；

所述两层的多模型中第一层模型包括逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型；第二层模型包括XGBoost模型，所述S30包括：

S305输出项目风险评级预测结果；

S40输出项目风险预测评级结果。

2.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法，其特征在于，所述S301中将训练集划分5折，用于5轮的学习；其中4折为训练折，用于进行模型的训练，1折为验证折，用于模型的预测。

3.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法，其特征在于，所述统计特征使用正则表达式的方法提取出项目白皮书中出现的金额信息，然后对金额进行以下统计操作：求和、最小值、最大值、最大最小差值、平均值和标准差，然后将这些特征拼接起来作为最终的统计特征。

4.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法，其特征在于，所述Doc2Vec模型包括Doc2Vec-DM模型和Doc2Vec-DBOW模型，根据训练文档向量的网络结构的不同，将预处理后的训练集择情输入Doc2Vec-DM模型或Doc2Vec-DBOW模型，设置模型参数后，训练出模型，将文档表示成两种固定长度的特征向量。

5.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法，其特征在于，所述TF-IDF模型计算文档中的一个词语的tf-idf值的方法为：

tfidf(w|d，D)＝tf(w|d)*idf(w|D)。

6.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法，其特征在于，所述语料库输入至Word2Vec模型，获得项目文档的Word2Vec特征的方法为：将文档的所有词语通过训练好的Word2Vec模型表示成词向量，然后对这所有的词向量加权平均，最后得到的结果作为该文档的Word2Vec特征。

7.一种基于多模型堆栈融合的项目风险评级装置，其特征在于，包括：

预处理模块，用于对输入的项目文档进行预处理，以从项目文档中提取训练集，将训练集拼接成项目文档的语料库，其中包括：

分词处理单元，用于对输入的项目文档分别使用结巴分词JIEBA、自然语言处理与信息检索共享平台NLPIR、中文词法分析工具包THULC和语言技术平台LTP的分词方案进行分词处理，每种分词方案构建每个文档的词语数据库；

去除单元，用于去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息，提取训练数据；

所述特征训练模块包括：

第二输出单元：输出项目风险评级预测结果；

输出模块，用于输出项目风险预测评级结果。