CN113706174A

CN113706174A - 基于机器学习算法的违约预测方法、装置、设备及介质

Info

Publication number: CN113706174A
Application number: CN202111017642.9A
Authority: CN
Inventors: 杨宇宽
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26

Abstract

本发明实施例涉及人工智能领域，公开了一种基于机器学习算法的违约预测方法、装置、设备及介质，该方法包括：获取发债主体的舆情信息和经营数据信息；对舆情信息和经营数据信息进行结构化处理得到结构化数据；对结构化数据进行分析得到舆情信息和经营数据信息的影响概率值；对舆情信息和经营数据信息进行聚类得到舆情信息和经营数据信息对应的类别；将影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到发债主体违约的概率值，从而可以提高违约预测的准确率和效率。本发明涉及区块链技术，如可将经营数据信息写入区块链中，以用于数据取证等场景。

Description

基于机器学习算法的违约预测方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于机器学习算法的违约预测方法、装置、设备及介质。

背景技术

近年来债券违约呈现逐年增加趋势，而企业的违约往往给投资企业带来巨大的损失。如果投资企业能够提前预知债券违约风险，就可以通过金融市场提前转移风险，将损失降低至最小。

目前市场上的预知债券违约风险的方式，主要的有两种，一种是参考信用评级公司的对企业的评级信息，该方法尽管评估的信息比较全面，但是专家经验的成分比较大，更新频率比较低(一般断则一个月评价一次，长的几年评价一次)，风险评估周期比较长，无法实时评估企业风险；另一种是通过债券违约预警模型，目前市场上的预警模型大部分使用的是与企业相关联的负面信息来创建预警模型，从而导致模型的预测不够准确。因此，如何更有效、准确地预测违约风险成为一项重要议题。

发明内容

本发明实施例提供了一种基于机器学习算法的违约预测方法、装置、设备及介质，可以更精准地预测违约概率值，提高了违约预测的准确率和效率。

第一方面，本发明实施例提供了一种基于机器学习算法的违约预测方法，包括：

获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；

对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；

对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；

对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；

将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。

进一步地，所述对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据，包括：

从所述舆情信息和所述经营数据信息提取与所述舆情信息和所述经营数据信息对应的第一特征向量；

将所述第一特征向量输入自然语言处理模型中，得到与所述舆情信息和所述经营数据信息对应的结构化数据。

进一步地，所述对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值，包括：

根据OCR识别技术从所述结构化数据中提取与预设的关键词对应的关键文本信息；

通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值。

进一步地，所述通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值，包括：

对所述关键文本信息进行分词处理，得到所述关键文本信息对应的词序列；

计算所述词序列中每个词的词向量，并根据所述每个词的词向量确定所述关键文本信息对应的文本向量；

将所述文本向量输入预训练的情感分析模型中，得到所述关键文本信息的语义特征，并将所述语义特征输入指定分类器中，得到所述关键文本信息的情感分类的预测概率；

根据所述情感分类的预测概率确定所述舆情信息和所述经营数据信息的影响概率值。

进一步地，所述将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值，包括：

将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型，得到违约特征信息；

将所述违约特征信息输入改进的KMV模型，通过所述改进的KMV模型中的非正太分布累计概率函数计算得到所述发债主体违约的概率值。

进一步地，所述将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值之前，还包括：

采集样本训练数据集，所述样本训练数据集中包括多个样本数据，每个样本数据包括历史发债主体的历史舆情信息和历史经营数据信息的影响概率值以及历史舆情信息和历史经营数据信息的类别信息；

对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型。

进一步地，所述对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型，包括：

将所述添加违约标签的每个样本训练数据输入预设的神经网络模型，得到损失函数值；

当所述损失函数值不满足预设条件时，根据所述损失函数值调整所述神经网络模型的模型参数，并将所述添加违约标签的每个样本训练数据输入调整所述模型参数后的神经网络模型中迭代训练；

当迭代训练得到的损失函数值满足所述预设条件时，确定得到所述违约预测模型。

第二方面，本发明实施例提供了一种基于机器学习算法的违约预测装置，包括：

获取单元，用于获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；

处理单元，用于对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；

分析单元，用于对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；

聚类单元，用于对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；

预测单元，用于将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。

第三方面，本发明实施例提供了一种计算机设备，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述计算机程序，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面的方法。

本发明实施例可以获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。通过这种实施方式，可以更精准地预测违约概率值，提高了违约预测的准确率和效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于机器学习算法的违约预测方法的示意流程图；

图2是本发明实施例提供的一种基于机器学习算法的违约预测装置的示意框图；

图3是本发明实施例提供的一种计算机设备的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于机器学习算法的违约预测方法可以应用于一种基于机器学习算法的违约预测装置，在某些实施例中，所述基于机器学习算法的违约预测装置设置于计算机设备中。在某些实施例中，所述计算机设备包括但不限于智能手机、平板电脑、膝上型电脑等中的一种或者多种。

本发明实施例可以获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。本发明实施例通过使用与发债主体相关联的正面信息、负面信息、中性信息这种全面市场数据，可以避免信息不充分导致重要信息丢失，从而导致违约预测模型的预测结果不够准确，影响违约预测结果的情况，通过使用改进的KMV模型有助于进一步提高违约预测结果的准确率和效率。

本申请实施例可以基于人工智能技术对相关的数据(如舆情信息、经营数据信息等)进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例能够应用于多种不同的领域中，如：医疗债务违约领域、金融债券违约领域等。

在一种可能的实现方式中，在医疗债务违约领域中，所述数据可以是与医疗债务相关联的医疗数据，如与医疗债务相关联的检查数据、化验数据等。

下面结合附图1对本发明实施例提供的基于机器学习算法的违约预测方法进行示意性说明。

请参见图1，图1是本发明实施例提供的一种基于机器学习算法的违约预测方法的示意流程图，如图1所示，该方法可以由基于机器学习算法的违约预测装置执行，所述基于机器学习算法的违约预测装置设置于计算机设备中。具体地，本发明实施例的所述方法包括如下步骤。

S101：获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息。

本发明实施例中，基于机器学习算法的违约预测装置可以获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息。

在某些实施例中，所述舆情信息包括但不限于与所述发债主体相关的新闻信息、公告信息、论坛信息等。在某些实施例中，所述发债主体用于指示欠债的主体如个人、企业、单位等。

在某些实施例中，所述经营数据信息包括但不限于与所述发债主体相关联的财务数据(如销售额)、销售数据(如销售量)等信息。在某些实施例中，所述发债主体包括但不限于企业、公司、银行等。

S102：对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据。

本发明实施例中，基于机器学习算法的违约预测装置可以对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据。

在一个实施例中，基于机器学习算法的违约预测装置在对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据时，可以从所述舆情信息和所述经营数据信息提取与所述舆情信息和所述经营数据信息对应的第一特征向量；并将所述第一特征向量输入自然语言处理模型中，得到与所述舆情信息和所述经营数据信息对应的结构化数据。

S103：对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值。

本发明实施例中，基于机器学习算法的违约预测装置可以对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值。

在一个实施例中，基于机器学习算法的违约预测装置在对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值时，可以根据OCR识别技术从所述结构化数据中提取与预设的关键词对应的关键文本信息；并通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值。

在一个实施例中，基于机器学习算法的违约预测装置在通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值时，可以对所述关键文本信息进行分词处理，得到所述关键文本信息对应的词序列；计算所述词序列中每个词的词向量，并根据所述每个词的词向量确定所述关键文本信息对应的文本向量；将所述文本向量输入预训练的情感分析模型中，得到所述关键文本信息的语义特征，并将所述语义特征输入指定分类器中，得到所述关键文本信息的情感分类的预测概率；根据所述情感分类的预测概率确定所述舆情信息和所述经营数据信息的影响概率值。

S104：对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别。

本发明实施例中，基于机器学习算法的违约预测装置可以对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别。

在一个实施例中，在对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别时，可以使用K-means算法、层次聚类算法等对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别。

在一个实施例中，在使用K-means算法对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别时，基于机器学习算法的违约预测装置可以采集样本数据集，所述样本数据集中包括多个样本数据，所述样本数据为已标注类别的样本舆情信息和样本经营数据信息；随机从所述样本数据集中选取K个样本数据，并计算每个所述舆情信息和所述经营数据信息的活动特征信息与所述K个样本数据中的各个样本数据之间的距离，其中，K为大于或等于1的正整数；从而确定最小距离对应的样本数据所标注的类别为所述舆情信息和所述经营数据信息的类别。

在一个实施例中，在对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和经营数据信息对应的类别时，可以使用层次聚类算法对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别。

在一种实施方式中，基于机器学习算法的违约预测装置在使用层次聚类算法对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别时，可以计算每个所述舆情信息和所述经营数据信息的活动特征信息与每个样本数据之间的距离，并将最小距离的样本数据与活动特征信息进行合并，并确定为同一个类别，重新计算合并后的数据与每个样本数据之间的距离，将最小距离的样本数据与合并后的数据进行合并，并确定为同一个类别，如此循环计算，确定出最后合并得到的所有的样本数据所属的该同一个类别为对应的舆情信息和所述经营数据信息的类别。

在某些实施例中，所述舆情信息和经营数据信息的类别包括但不限于财务类别(如销售额)、工商类别(如法人变更信息、股权变更信息等)、融资类别(如贷款信息、股票信息等)、司法类别等中的一种或多种。

S105：将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。

本发明实施例中，基于机器学习算法的违约预测装置可以将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。

在一个实施例中，基于机器学习算法的违约预测装置在将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值时，可以将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型，得到违约特征信息；将所述违约特征信息输入改进的KMV模型，通过所述改进的KMV模型中的非正太分布累计概率函数计算得到所述发债主体违约的概率值。

在一个实施例中，基于机器学习算法的违约预测装置在将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值之前，可以采集样本训练数据集，所述样本训练数据集中包括多个样本数据，每个样本数据包括历史发债主体的历史舆情信息和历史经营数据信息的影响概率值以及历史舆情信息和历史经营数据信息的类别信息；对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型。

在一个实施例中，基于机器学习算法的违约预测装置在对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型时，可以将所述添加违约标签的每个样本训练数据输入预设的神经网络模型，得到损失函数值；当所述损失函数值不满足预设条件时，根据所述损失函数值调整所述神经网络模型的模型参数，并将所述添加违约标签的每个样本训练数据输入调整所述模型参数后的神经网络模型中迭代训练；当迭代训练得到的损失函数值满足所述预设条件时，确定得到所述违约预测模型。

本发明实施例中，基于机器学习算法的违约预测装置可以获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。本发明实施例通过使用与发债主体相关联的正面信息、负面信息、中性信息这种全面市场数据，可以避免信息不充分导致重要信息丢失，从而导致违约预测模型的预测结果不够准确，影响违约预测结果的情况，通过使用改进的KMV模型有助于进一步提高违约预测结果的准确率和效率。

本发明实施例还提供了一种基于机器学习算法的违约预测装置，该基于机器学习算法的违约预测装置用于执行前述任一项所述的方法的单元。具体地，参见图2，图2是本发明实施例提供的一种基于机器学习算法的违约预测装置的示意框图。本实施例的基于机器学习算法的违约预测装置包括：获取单元201、处理单元202、分析单元203、聚类单元204以及预测单元205。

获取单元201，用于获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；

处理单元202，用于对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；

分析单元203，用于对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；

聚类单元204，用于对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；

预测单元205，用于将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。

进一步地，所述处理单元202对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据时，具体用于：

进一步地，所述分析单元203对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值时，具体用于：

进一步地，所述分析单元203通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值时，具体用于：

进一步地，所述预测单元205将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值时，具体用于：

进一步地，所述预测单元205将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值之前，还用于：

进一步地，所述预测单元205对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型时，具体用于：

参见图3，图3是本发明实施例提供的一种计算机设备的示意框图，在某些实施例中，如图3所示的本实施例中的计算机设备可以包括：一个或多个处理器301；一个或多个输入设备302，一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器304用于存储计算机程序，所述计算机程序包括程序，处理器301用于执行存储器304存储的程序。其中，处理器301被配置用于调用所述程序执行：

进一步地，所述处理器301对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据时，具体用于：

进一步地，所述处理器301对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值时，具体用于：

进一步地，所述处理器301通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值时，具体用于：

进一步地，所述处理器301将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值时，具体用于：

进一步地，所述处理器301将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值之前，还用于：

进一步地，所述处理器301对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型时，具体用于：

本发明实施例中，计算机设备可以获取发债主体的舆情信息和经营数据信息，所述舆情信息包括正面信息、负面信息、中性信息中的一种或多种，所述舆情信息是指与所述发债主体相关的信息；对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据；对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值；对所述舆情信息和所述经营数据信息进行聚类，得到所述舆情信息和所述经营数据信息对应的类别；将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值。本发明实施例通过使用与发债主体相关联的正面信息、负面信息、中性信息这种全面市场数据，可以避免信息不充分导致重要信息丢失，从而导致违约预测模型的预测结果不够准确，影响违约预测结果的情况，通过使用改进的KMV模型有助于进一步提高违约预测结果的准确率和效率。

应当理解，在本发明实施例中，所称处理器301可以是中央处理单元(CenSralProcessing UniS，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigiSalSignal Processor，DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS，ASIC)、现成可编程门阵列(Field-Programmable GaSe Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、麦克风等，输出设备303可以包括显示器(LCD等)、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的图1所述的方法实施例中所描述的实现方式，也可执行本发明实施例图2所描述的基于机器学习算法的违约预测装置的实现方式，在此不再赘述。

本发明实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现图1所对应实施例中描述的基于机器学习算法的违约预测方法，也可实现本发明图2所对应实施例的基于机器学习算法的违约预测装置，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的基于机器学习算法的违约预测装置的内部存储单元，例如基于机器学习算法的违约预测装置的硬盘或内存。所述计算机可读存储介质也可以是所述基于机器学习算法的违约预测装置的外部存储装置，例如所述基于机器学习算法的违约预测装置上配备的插接式硬盘，智能存储卡(SmarS MediaCard,SMC)，安全数字(Secure DigiSal,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述基于机器学习算法的违约预测装置的内部存储单元也包括外部存储装置。所述计算机可读存储介质用于存储所述计算机程序以及所述基于机器学习算法的违约预测装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

需要强调的是，为进一步保证上述数据的私密和安全性，上述数据还可以存储于一区块链的节点中。其中，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本发明的部分实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习算法的违约预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述舆情信息和所述经营数据信息进行结构化处理，得到所述舆情信息和所述经营数据信息对应的结构化数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述舆情信息和所述经营数据信息对应的结构化数据进行分析，得到所述舆情信息和所述经营数据信息的影响概率值，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过情感分析技术对所述关键文本信息进行分析，得到所述舆情信息和所述经营数据信息的影响概率值，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述舆情信息和所述经营数据信息的影响概率值以及聚类后的舆情信息和经营数据信息输入预训练的违约预测模型和改进的KMV模型，得到所述发债主体违约的概率值之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述样本训练数据集中的每个样本数据添加违约标签，并将添加违约标签的每个样本训练数据输入预设的神经网络模型进行训练，得到所述违约预测模型，包括：

8.一种基于机器学习算法的违约预测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述处理器被配置用于调用所述计算机程序，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。