CN109472462B - 一种基于多模型堆栈融合的项目风险评级方法及装置 - Google Patents

一种基于多模型堆栈融合的项目风险评级方法及装置 Download PDF

Info

Publication number
CN109472462B
CN109472462B CN201811216314.XA CN201811216314A CN109472462B CN 109472462 B CN109472462 B CN 109472462B CN 201811216314 A CN201811216314 A CN 201811216314A CN 109472462 B CN109472462 B CN 109472462B
Authority
CN
China
Prior art keywords
model
training
project
document
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811216314.XA
Other languages
English (en)
Other versions
CN109472462A (zh
Inventor
郑子彬
肖小粤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811216314.XA priority Critical patent/CN109472462B/zh
Publication of CN109472462A publication Critical patent/CN109472462A/zh
Application granted granted Critical
Publication of CN109472462B publication Critical patent/CN109472462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于多模型堆栈融合的项目风险评级方法及装置,本装置用实现本方法,包括:数据预处理提取训练集,将训练集拼接成项目文档的语料库;对语料库进行特征构建,构建tf‑idf特征、Doc2Vec特征、Word2Vec特征及统计特征,采用两层的多模型堆栈策略,对训练集进行上述特征概率训练,输出项目风险评级结果。本发明通过挖掘项目白皮书中的关键信息,找出与风险评级有关的重要因素,构建一个基于多模型堆栈融合的风险评级模型。训练好的模型能够汇聚过去评级人员的风险评级经验,并且自主学习项目白皮书与评级之间的关联,从而为评级人员提供评级建议,以辅助评级人员,提供评级的准确性和效率。

Description

一种基于多模型堆栈融合的项目风险评级方法及装置
技术领域
本发明涉及金融风险评级领域,特别涉及一种基于多模型堆栈融合的项目风险评级方法及装置。
背景技术
数字货币(例如:BTC、ETH、XRP和NEO)在公众中迅速被使用化、价值化和理解化,与此同时它也为投资者带来惊人的利润。与其他货币和法币不同,大多数的数字货币没有中央机构。去中心化的特点为风险评级带来了极大的挑战。目前,大多数区块链项目ICO还不受政府法规的约束,因此,为ICO项目提供可信的风险评级方法是必要和紧迫的。
目前,传统的风险评级方法主要包括:定性评估法和定量评估法。
定性评估法。这种评估方法接近于人们的思维方式,是一种感性、相对直观的方法,它主要对无法量化和量化水平较低的风险进行分析评价,或者在定量研究的基础上做定性分析评价,得出更加可靠的结果。主要包含:故障树分析法、外推法和专家调查打分法等。虽然简单并且容易使用,但是可靠性完全取决于专家的经验与水平,并且没有考虑时间的因果关系。
定量评估法。这种评估方法会将风险造成的损失频率、损失程度以及其他因素综合起来考虑,分析风险可能的影响。主要包含:敏感性分析、概率分析和决策树分析等。虽然基于这些方法可以为评估人员提供风险清单等参考依据,但是依然不能在客观上去除人的主观因素,因为这些方法中的参数值与评级分数任然需要人为实现设置。因此,定量评估法对于评级的输出结果也会存在一些问题。
发明内容
本发明的主要目的是提出一种基于多模型堆栈融合的项目风险评级方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于多模型堆栈融合的项目风险评级方法,包括:
S10数据预处理:对输入的项目文档进行预处理,以从项目文档中提取训练集,将训练集拼接成项目文档的语料库;
S20特征构建:对语料库进行特征构建,构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征,其中:
tf-idf特征为将语料库输入至TF-IDF模型所提取的每个项目文档的tf-idf特征;
Doc2Vec特征为采用Doc2Vec方法将预处理后的训练集输入Doc2Vec模型,获得的项目文档的固定长度的特征向量;
Word2Vec特征为将语料库输入至Word2Vec模型,获得项目文档的Word2Vec特征;
统计特征包括提取项目文档中关键词出现次数的次数统计和对项目文档中的金额的金额统计;
S30采用两层的多模型堆栈策略,对训练集进行上述特征概率训练;
S40输出项目风险预测评级结果。
优选地,所述两层的多模型中第一层模型包括逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型;第二层模型包括XGBoost模型,所述S30包括:
S301将训练集划分为训练折和验证折,训练折用于进行模型的训练学习;验证折用于模型的预测;
S302分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,学习项目白皮书中的用词特点;
用神经网络模型来训练Doc2Vec模型生成的文档向量特征,学习项目白皮书中的词语的语义关联信息;
S303训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证,由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4;
S304将概率文件1、概率文件2、概率文件3和概率文件4拼接起来,输入XGBoost模型,利用Word2Vec特征、统计特征训练XGBoost模型,获得更深入的学习项目白皮书与评级目标之间的联系;
S305输出项目风险评级预测结果。
优选地,所述S301中将训练集划分5折,用于5轮的学习;其中4折为训练折,用于进行模型的训练,1折为验证折,用于模型的预测。
优选地,所述统计特征使用正则表达式的方法提取出项目白皮书中出现的金额信息,然后对金额进行以下统计操作:求和、最小值、最大值、最大最小差值、平均值和标准差,然后将这些特征拼接起来作为最终的统计特征。
优选地,所述Doc2Vec模型包括Doc2Vec-DM模型和Doc2Vec-DBOW模型,根据训练文档向量的网络结构的不同,将预处理后的训练集择情输入Doc2Vec-DM模型或Doc2Vec-DBOW模型,设置模型参数后,训练出模型,将文档表示成两种固定长度的特征向量。
优选地,所述TF-IDF模型计算文档中的一个词语的tf-idf值的方法为:
首先,计算该词语w在文档d中出现的次数count(w|d),以及文档d中所有的词语数目count(d),那么词语w在文档d中出现的频率则可以表示如下:
Figure BDA0001833637530000031
接着,计算语料库D中所有的文档数目N,以及所有文档中出现词语w的总次数count(w|D),那么词语w在语料库D中的逆向文档频率可以表示如下:
Figure BDA0001833637530000032
最后,基于计算好的频率和逆向文档频率,计算该词w的tf-idf值为:
tfidf(w|d,D)=tf(w|d)*idf(w|D)。
优选地,所述语料库输入至Word2Vec模型,获得项目文档的Word2Vec特征的方法为:将文档的所有词语通过训练好的Word2Vec模型表示成词向量,然后对这所有的词向量加权平均,最后得到的结果作为该文档的Word2Vec特征。
优选地,所述S10中数据预处理的方法包括:
S101多种分词处理;对输入的项目文档分别使用结巴分词JIEBA、自然语言处理与信息检索共享平台NLPIR、中文词法分析工具包THULC和语言技术平台LTP的分词方案进行分词处理,每种分词方案构建每个文档的词语数据库;
S102去除无意义信息:去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息,提取训练数据。
本发明还公开了一种基于多模型堆栈融合的项目风险评级装置,包括:
预处理模块,用于对输入的项目文档进行预处理,以从项目文档中提取训练集,将训练集拼接成项目文档的语料库;
特征构建模块,用于对语料库进行特征构建,构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征;
特征训练模块,用于采用两层的多模型堆栈策略,对训练集进行上述特征概率训练;
输出模块,用于输出项目风险预测评级结果。
优选地,所述特征训练模块包括:
划分单元:将训练集划分为训练折和验证折,训练折用于进行模型的训练学习;验证折用于模型的预测;
第一层模型训练单元:分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,学习项目白皮书中的用词特点;
第一输出单元:训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证,由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4;
第二层模型训练单元:将概率文件1、概率文件2、概率文件3和概率文件4拼接起来,输入XGBoost模型,利用Word2Vec特征、统计特征训练XGBoost模型,获得更深入的学习项目白皮书与评级目标之间的联系;
第二输出单元:输出项目风险评级预测结果。
在本发明实施例中,本发明通过挖掘项目白皮书中的关键信息,找出与风险评级有关的重要因素,构建一个基于多模型堆栈融合的风险评级模型。训练好的模型能够汇聚过去评级人员的风险评级经验,并且自主学习项目白皮书与评级之间的关联,从而为评级人员提供评级建议,以辅助评级人员,提供评级的准确性和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明基于多模型堆栈融合的项目风险评级方法一实施例的方法流程图;
图2为所述S30的方法流程图;
图3为本发明基于多模型堆栈融合的项目风险评级装置一实施例的功能模块图;
图4为本发明所述特征训练模块一实施例的功能细化图;
图5为本发明的基于多模型堆栈融合的项目风险评级装置的技术框架图;
图6为本发明所述分词处理单元的分词处理流程图;
图7为本发明的DM模型(左)和DBOW模型(右)对比图;
图8为本发明的多模型堆堆栈策略图,
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1-8所示,本发明提出的一种基于多模型堆栈融合的项目风险评级方法,包括:
S10数据预处理:对输入的项目文档进行预处理,以从项目文档中提取训练集,将训练集拼接成项目文档的语料库;
S20特征构建:对语料库进行特征构建,构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征,其中:
tf-idf特征为将语料库输入至TF-IDF模型所提取的每个项目文档的tf-idf特征;
Doc2Vec特征为采用Doc2Vec方法将预处理后的训练集输入Doc2Vec模型,获得的项目文档的固定长度的特征向量;
Word2Vec特征为将语料库输入至Word2Vec模型,获得项目文档的Word2Vec特征;
统计特征包括提取项目文档中关键词出现次数的次数统计和对项目文档中的金额的金额统计;
S30采用两层的多模型堆栈策略,对训练集进行上述特征概率训练;
S40输出项目风险预测评级结果。
在本发明实施例中,本发明通过挖掘项目白皮书中的关键信息,找出与风险评级有关的重要因素,构建一个基于多模型堆栈融合的风险评级模型。训练好的模型能够汇聚过去评级人员的风险评级经验,并且自主学习项目白皮书与评级之间的关联,从而为评级人员提供评级建议,以辅助评级人员,提供评级的准确性和效率。
tf-idf的特征(term frequency–inverse document frequency),是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency),TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf特征是一种衡量某一词语在文档中的区分能力的有效方法。它的主要思想是:如果某个词语在文档中出现的频率越高,并且该词语在其他文档中出现的频率越低,那么这个词语的区分能力越好。将数据预处理后得到的训练数据作为语料库,将语料库作为tf-idf模型的输入,构建对案件文本的tf-idf模型,利用该模型提取出每个项目的tf-idf特征。
Doc2Vec的特征使用Doc2Vec方法,将文档直接表示成一个固定长度的向量。
Word2Vec的特征将词语直接表示成一个固定长度的向量,对于一个文档,由多个词语组成,我们将该文档的所有词语通过训练好的Word2Vec模型表示成词向量,然后对这所有的词向量加权平均,最后得到的结果作为该文档的特征。
统计特征项目白皮书中存在着一些关键的信息,这些信息对于评级是重要的因素。本发明提取了项目白皮书中的一些关键词出现的次数作为特征;及提取出项目白皮书中出现的金额特征。
本发明使用模型融合的思想,采取两层的多模型堆栈的策略,对训练数据进行训练,从而提升模型预测的准确性和泛化性。泛化性是指学习到的模型对未知数据的预测能力。
优选地,所述两层的多模型中第一层模型包括逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型;第二层模型包括XGBoost模型,所述S30包括:
S301将训练集划分为训练折和验证折,训练折用于进行模型的训练学习;验证折用于模型的预测;
S302分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,学习项目白皮书中的用词特点;
用神经网络模型来训练Doc2Vec模型生成的文档向量特征,学习项目白皮书中的词语的语义关联信息;
S303训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证,由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4;
S304将概率文件1、概率文件2、概率文件3和概率文件4拼接起来,输入XGBoost模型,利用Word2Vec特征、统计特征训练XGBoost模型,获得更深入的学习项目白皮书与评级目标之间的联系;
S305输出项目风险评级预测结果。
在本发明实施例中,逻辑回归模型:逻辑回归模型是使用逻辑函数对线性回归的结果归一化,从而输出每个类别的概率。该模型简单高校,对于大规模数据,逻辑回归模型能够快速完成训练,得到不错分类效果,并且可以兼顾模型的解释度;
朴素贝叶斯模型:朴素贝叶斯模型是基于贝叶斯定理和特征条件独立假设的分类模型。朴素贝叶斯模型的算法也十分简单高效,并且有稳定的分类效率。
支持向量机模型:支持向量机模型是定义在特征空间上的间隔最大的线性分类器,其可以使用核技巧,使其成为非线性分类器。支持向量机模型不仅可以解决小样本下的学习问题,还能够很好的处理高维数据集,并且得到不错的泛化效果。
神经网络模型是一种模仿生物神经网络的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络模型的分类准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系。
XGBoost模型是一种基于决策树的分布式的高效的梯度提升算法,其将训练损失执行泰勒展开,并在最优化问题中的目标函数中加入正则项约束,以控制模型的复杂度,其还借鉴随即森林的做法,支持特征抽样。XGBoost模型具有速度快、可移植、可容错等优点。
本发明采用了模型融合中堆栈融合的思想,使用两层的模型结构。第一层使用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,从而学习项目白皮书中的用词特点;其次还使用神经网络模型来训练Doc2Vec-DBOW和Doc2Vec-DM生成的文档向量特征,从而学习项目白皮书中的词语的语义关联信息。第二层使用XGBoost模型,训练Word2Vec、统计特征和第一层模型传来的概率特征,从而更深入的学习项目白皮书与评级目标之间的联系。
优选地,所述S301中将训练集划分5折,用于5轮的学习;其中4折为训练折,用于进行模型的训练,1折为验证折,用于模型的预测。
在本发明实施例中,为了避免过拟合现象,本发明使用了交叉验证的思想。该融合过程如图-4所示。将数据集划分为5折,用于5轮的学习;使用其中4折进行模型的训练,剩余的1折用于模型的预测。最后将预测输出的概率拼接起来,作为第二层模型的输入;最后,利用之前产生的特征向量训练第二层模型,输入最终的预测结果。
优选地,所述统计特征使用正则表达式的方法提取出项目白皮书中出现的金额信息,然后对金额进行以下统计操作:求和、最小值、最大值、最大最小差值、平均值和标准差,然后将这些特征拼接起来作为最终的统计特征。
优选地,所述Doc2Vec模型包括Doc2Vec-DM模型和Doc2Vec-DBOW模型,根据训练文档向量的网络结构的不同,将预处理后的训练集择情输入Doc2Vec-DM模型或Doc2Vec-DBOW模型,设置模型参数后,训练出模型,将文档表示成两种固定长度的特征向量。
优选地,所述TF-IDF模型计算文档中的一个词语的tf-idf值的方法为:
首先,计算该词语w在文档d中出现的次数count(w|d),以及文档d中所有的词语数目count(d),那么词语w在文档d中出现的频率则可以表示如下:
Figure BDA0001833637530000101
接着,计算语料库D中所有的文档数目N,以及所有文档中出现词语w的总次数count(w|D),那么词语w在语料库D中的逆向文档频率可以表示如下:
Figure BDA0001833637530000111
最后,基于计算好的频率和逆向文档频率,计算该词w的tf-idf值为:
tfidf(w|d,D)=tf(w|d)*idf(w|D)。
优选地,所述语料库输入至Word2Vec模型,获得项目文档的Word2Vec特征的方法为:将文档的所有词语通过训练好的Word2Vec模型表示成词向量,然后对这所有的词向量加权平均,最后得到的结果作为该文档的Word2Vec特征。
优选地,所述S10中数据预处理的方法包括:
S101多种分词处理;对输入的项目文档分别使用结巴分词JIEBA、自然语言处理与信息检索共享平台NLPIR、中文词法分析工具包THULC和语言技术平台LTP的分词方案进行分词处理,每种分词方案构建每个文档的词语数据库;
S102去除无意义信息:去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息,提取训练数据。
本发明结合机器学习方法,利用区块链项目的白皮书数据和ICO(Initial CoinOffering,首次代币发行)相关数据,汇总曾今评级人员的评估经验,深入挖掘历史项目中包含的白皮书信息与风险评级有关的因素,从而构建一个预测模型,将训练好的预测模型作为评级人员的辅助工具,帮助评级人员克服外界干扰,提高风险评级的准确性和效率。
本发明还公开了一种基于多模型堆栈融合的项目风险评级装置,用于实现上述方法,本方法的具体步骤参照上述实施例,由于本装置采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述,其包括:
预处理模块10,用于对输入的项目文档进行预处理,以从项目文档中提取训练集,将训练集拼接成项目文档的语料库;
特征构建模块20,用于对语料库进行特征构建,构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征;
特征训练模块30,用于采用两层的多模型堆栈策略,对训练集进行上述特征概率训练;
输出模块40,用于输出项目风险预测评级结果。
优选地,所述特征训练模块30包括:
划分单元301:将训练集划分为训练折和验证折,训练折用于进行模型的训练学习;验证折用于模型的预测;
第一层模型训练单元302:分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,学习项目白皮书中的用词特点;
第一输出单元303:训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证,由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4;
第二层模型训练单元304:将概率文件1、概率文件2、概率文件3和概率文件4拼接起来,输入XGBoost模型,利用Word2Vec特征、统计特征训练XGBoost模型,获得更深入的学习项目白皮书与评级目标之间的联系;
第二输出单元305:输出项目风险评级预测结果。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (7)

1.一种基于多模型堆栈融合的项目风险评级方法,其特征在于,包括:
S10数据预处理:对输入的项目文档进行预处理,以从项目文档中提取训练集,将训练集拼接成项目文档的语料库;
S101多种分词处理;对输入的项目文档分别使用结巴分词JIEBA、自然语言处理与信息检索共享平台NLPIR、中文词法分析工具包THULC和语言技术平台LTP的分词方案进行分词处理,每种分词方案构建每个文档的词语数据库;
S102去除无意义信息:去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息,提取训练数据;
S20特征构建:对语料库进行特征构建,构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征,其中:
tf-idf特征为将语料库输入至TF-IDF模型所提取的每个项目文档的tf-idf特征;
Doc2Vec特征为采用Doc2Vec方法将预处理后的训练集输入Doc2Vec模型,获得的项目文档的固定长度的特征向量;
Word2Vec特征为将语料库输入至Word2Vec模型,获得项目文档的Word2Vec特征;
统计特征包括提取项目文档中关键词出现次数的次数统计和对项目文档中的金额统计;
S30采用两层的多模型堆栈策略,对训练集进行上述特征概率训练;
所述两层的多模型中第一层模型包括逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型;第二层模型包括XGBoost模型,所述S30包括:
S301将训练集划分为训练折和验证折,训练折用于进行模型的训练学习;验证折用于模型的预测;
S302分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,学习项目白皮书中的用词特点;
用神经网络模型来训练Doc2Vec模型生成的文档向量特征,学习项目白皮书中的词语的语义关联信息;
S303训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证,由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4;
S304将概率文件1、概率文件2、概率文件3和概率文件4拼接起来,输入XGBoost模型,利用Word2Vec特征、统计特征训练XGBoost模型,获得更深入的学习项目白皮书与评级目标之间的联系;
S305输出项目风险评级预测结果;
S40输出项目风险预测评级结果。
2.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法,其特征在于,所述S301中将训练集划分5折,用于5轮的学习;其中4折为训练折,用于进行模型的训练,1折为验证折,用于模型的预测。
3.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法,其特征在于,所述统计特征使用正则表达式的方法提取出项目白皮书中出现的金额信息,然后对金额进行以下统计操作:求和、最小值、最大值、最大最小差值、平均值和标准差,然后将这些特征拼接起来作为最终的统计特征。
4.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法,其特征在于,所述Doc2Vec模型包括Doc2Vec-DM模型和Doc2Vec-DBOW模型,根据训练文档向量的网络结构的不同,将预处理后的训练集择情输入Doc2Vec-DM模型或Doc2Vec-DBOW模型,设置模型参数后,训练出模型,将文档表示成两种固定长度的特征向量。
5.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法,其特征在于,所述TF-IDF模型计算文档中的一个词语的tf-idf值的方法为:
首先,计算该词语w在文档d中出现的次数count(w|d),以及文档d中所有的词语数目count(d),那么词语w在文档d中出现的频率则可以表示如下:
Figure FDA0003415836300000031
接着,计算语料库D中所有的文档数目N,以及所有文档中出现词语w的总次数count(w|D),那么词语w在语料库D中的逆向文档频率可以表示如下:
Figure FDA0003415836300000032
最后,基于计算好的频率和逆向文档频率,计算该词w的tf-idf值为:
tfidf(w|d,D)=tf(w|d)*idf(w|D)。
6.如权利要求1所述的基于多模型堆栈融合的项目风险评级方法,其特征在于,所述语料库输入至Word2Vec模型,获得项目文档的Word2Vec特征的方法为:将文档的所有词语通过训练好的Word2Vec模型表示成词向量,然后对这所有的词向量加权平均,最后得到的结果作为该文档的Word2Vec特征。
7.一种基于多模型堆栈融合的项目风险评级装置,其特征在于,包括:
预处理模块,用于对输入的项目文档进行预处理,以从项目文档中提取训练集,将训练集拼接成项目文档的语料库,其中包括:
分词处理单元,用于对输入的项目文档分别使用结巴分词JIEBA、自然语言处理与信息检索共享平台NLPIR、中文词法分析工具包THULC和语言技术平台LTP的分词方案进行分词处理,每种分词方案构建每个文档的词语数据库;
去除单元,用于去除分词后词语数据库中的停用词、特殊符号、标点符号和标记信息,提取训练数据;
特征构建模块,用于对语料库进行特征构建,构建tf-idf特征、Doc2Vec特征、Word2Vec特征及统计特征;
特征训练模块,用于采用两层的多模型堆栈策略,对训练集进行上述特征概率训练;
所述特征训练模块包括:
划分单元:将训练集划分为训练折和验证折,训练折用于进行模型的训练学习;验证折用于模型的预测;
第一层模型训练单元:分别用逻辑回归模型、朴素贝叶斯模型和支持向量机模型来训练tf-idf特征,学习项目白皮书中的用词特点;
第一输出单元:训练集由训练折在第一层模型训练后再经过验证折在第一层模型验证,由逻辑回归模型、朴素贝叶斯模型、支持向量机模型和神经网络模型依次获得预测结果为概率文件1、概率文件2、概率文件3和概率文件4;
第二层模型训练单元:将概率文件1、概率文件2、概率文件3和概率文件4拼接起来,输入XGBoost模型,利用Word2Vec特征、统计特征训练XGBoost模型,获得更深入的学习项目白皮书与评级目标之间的联系;
第二输出单元:输出项目风险评级预测结果;
输出模块,用于输出项目风险预测评级结果。
CN201811216314.XA 2018-10-18 2018-10-18 一种基于多模型堆栈融合的项目风险评级方法及装置 Active CN109472462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811216314.XA CN109472462B (zh) 2018-10-18 2018-10-18 一种基于多模型堆栈融合的项目风险评级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811216314.XA CN109472462B (zh) 2018-10-18 2018-10-18 一种基于多模型堆栈融合的项目风险评级方法及装置

Publications (2)

Publication Number Publication Date
CN109472462A CN109472462A (zh) 2019-03-15
CN109472462B true CN109472462B (zh) 2022-02-01

Family

ID=65665698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811216314.XA Active CN109472462B (zh) 2018-10-18 2018-10-18 一种基于多模型堆栈融合的项目风险评级方法及装置

Country Status (1)

Country Link
CN (1) CN109472462B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288096B (zh) * 2019-06-28 2021-06-08 满帮信息咨询有限公司 预测模型训练及预测方法、装置、电子设备、存储介质
CN110928988B (zh) * 2019-10-29 2022-10-14 南京理工大学 一种厂房内安全隐患危险等级的快速预估方法
CN111045716B (zh) * 2019-11-04 2022-02-22 中山大学 一种基于异构数据的相关补丁推荐方法
CN111008732B (zh) * 2019-11-21 2023-06-20 中南大学 一种基于堆栈模型的故障预测方法及系统
CN111045847B (zh) * 2019-12-18 2023-07-21 Oppo广东移动通信有限公司 事件审计方法、装置、终端设备以及存储介质
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN116051164B (zh) * 2022-12-29 2023-11-28 北京北咨信息工程咨询有限公司 建设成本测算方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079553A (ja) * 2004-09-13 2006-03-23 Ricoh Co Ltd プロジェクト管理装置及びプロジェクト管理システム
US9349111B1 (en) * 2014-11-21 2016-05-24 Amdocs Software Systems Limited System, method, and computer program for calculating risk associated with a software testing project
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
CN107977798A (zh) * 2017-12-21 2018-05-01 中国计量大学 一种电子商务产品质量的风险评价方法
CN108090607A (zh) * 2017-12-13 2018-05-29 中山大学 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079553A (ja) * 2004-09-13 2006-03-23 Ricoh Co Ltd プロジェクト管理装置及びプロジェクト管理システム
US9349111B1 (en) * 2014-11-21 2016-05-24 Amdocs Software Systems Limited System, method, and computer program for calculating risk associated with a software testing project
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
CN108090607A (zh) * 2017-12-13 2018-05-29 中山大学 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN107977798A (zh) * 2017-12-21 2018-05-01 中国计量大学 一种电子商务产品质量的风险评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Reliability Prediction for Internetware Applications: A Research Framework and Its Practical Use;Zheng zibin et al.;《China Communications》;20151231;第12卷(第12期);全文 *

Also Published As

Publication number Publication date
CN109472462A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109472462B (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
Kim et al. Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis
Fu et al. Semi-supervised aspect-level sentiment classification model based on variational autoencoder
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US10579940B2 (en) Joint embedding of corpus pairs for domain mapping
Dhanalakshmi et al. Opinion mining from student feedback data using supervised learning algorithms
CN107862087B (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
US10657189B2 (en) Joint embedding of corpus pairs for domain mapping
CN105095444A (zh) 信息获取方法和装置
Tang et al. Hidden topic–emotion transition model for multi-level social emotion detection
Sharma et al. Supervised machine learning method for ontology-based financial decisions in the stock market
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
US20180052857A1 (en) Joint embedding of corpus pairs for domain mapping
CN111159405B (zh) 基于背景知识的讽刺检测方法
WO2021074798A1 (en) Automatic summarization of transcripts
Angelpreethi et al. An enhanced architecture for feature based opinion mining from product reviews
Sanuvala et al. A study of automated evaluation of student’s examination paper using machine learning techniques
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
Addepalli et al. A proposed framework for measuring customer satisfaction and product recommendation for ecommerce
CN113127716A (zh) 一种基于显著性图的情感时间序列异常检测方法
CN115329207B (zh) 智能销售信息推荐方法及系统
Tang et al. Enriching feature engineering for short text samples by language time series analysis
EP2605150A1 (en) Method for identifying the named entity that corresponds to an owner of a web page
Zhang et al. Probabilistic verb selection for data-to-text generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant