CN112734570A - 信用违约预测方法、装置及电子设备 - Google Patents
信用违约预测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112734570A CN112734570A CN202011642962.9A CN202011642962A CN112734570A CN 112734570 A CN112734570 A CN 112734570A CN 202011642962 A CN202011642962 A CN 202011642962A CN 112734570 A CN112734570 A CN 112734570A
- Authority
- CN
- China
- Prior art keywords
- sequence
- enterprise
- prediction
- predicted
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种信用违约预测方法、装置及电子设备,涉及数据处理技术领域,在对待预测企业进行信用违约预测时,先获取待预测企业的预测数据和舆情信息;其中,该预测数据包括财务数据,该舆情信息包括多个舆情事件;分别对预测数据和舆情信息进行特征提取,得到待预测企业对应的结构化特征和序列特征;根据待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定待预测企业的信用违约预测结果;该预测模型用于对待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。这样能够最大限度的利用结构化特征和序列特征中蕴含的信息,提高了预测结果的准确度。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种信用违约预测方法、装置及电子设备。
背景技术
信用违约风险是指在商业交易中由于交易一方的违约,使另一方得到的预期现金流量现值减少而遭受的风险。可以基于企业的舆情信息对企业的信用违约风险进行预测。其中,舆情信息是对舆情的一种描述和反映,从理论上讲,所谓舆情信息,就是指在民众社会政治态度的收集、整理、分析、报送、利用和反馈的信息运动过程中,用以客观反映舆情状态及其运动情况的资讯、消息、音信、情报、指令、数据和信号。
然而现有的信用违约预测方法无法有效地利用企业的舆情信息,使得预测结果不够准确。
发明内容
本发明的目的在于提供一种信用违约预测方法、装置及电子设备,以提高预测结果的准确度。
本发明实施例提供了一种信用违约预测方法,包括:
获取待预测企业的预测数据和舆情信息;其中,所述预测数据包括财务数据,所述舆情信息包括多个舆情事件;
分别对所述预测数据和所述舆情信息进行特征提取,得到所述待预测企业对应的结构化特征和序列特征;
根据所述待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定所述待预测企业的信用违约预测结果;所述预测模型用于对所述待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。
进一步地,分别对所述预测数据和所述舆情信息进行特征提取,得到所述待预测企业对应的结构化特征和序列特征的步骤,包括:
对所述预测数据进行特征筛选、空缺值填充、异常值处理和数据归一化处理,得到所述待预测企业对应的结构化特征;
按照各个所述舆情事件发生的时间,构建目标舆情事件序列;
对所述目标舆情事件序列进行数字编码,得到所述待预测企业对应的序列特征。
进一步地,按照各个所述舆情事件发生的时间,构建目标舆情事件序列的步骤,包括:
按照各个所述舆情事件发生的时间先后顺序,构建初始舆情事件序列;
对所述初始舆情事件序列进行相邻位置重复元素的去除,得到目标舆情事件序列。
进一步地,对所述目标舆情事件序列进行数字编码,得到所述待预测企业对应的序列特征的步骤,包括:
对所述目标舆情事件序列中所有不同的元素依次分别赋予一个从0开始递增的数字,得到所述待预测企业对应的序列特征。
进一步地,所述待预测企业为发债企业;所述方法还包括:
获取训练样本集,所述训练样本集包括历史发债企业在预测窗口内的历史预测数据和历史舆情信息以及预测时间点的实际债券违约结果;
分别对所述历史预测数据和所述历史舆情信息进行特征提取,得到所述历史发债企业对应的结构化特征和序列特征;
根据所述历史发债企业对应的结构化特征、序列特征和所述实际债券违约结果,对初始预测模型进行训练,得到训练后的预测模型。
进一步地,所述预测模型包括第一输入层、与所述第一输入层连接的第一全连接层、第二输入层、与所述第二输入层连接的嵌入层、与所述嵌入层连接的双向长短时记忆网络层、与所述双向长短时记忆网络层连接的第二全连接层、分别与所述第一全连接层和所述第二全连接层连接的特征融合层、以及与所述特征融合层连接的第三全连接层;
所述第一输入层用于将结构化特征输入到所述第一全连接层;所述第二输入层用于将序列特征输入到所述嵌入层;所述特征融合层用于对所述第一全连接层的输出和所述第二全连接层的输出进行拼接,并将拼接后特征输入到所述第三全连接层;所述第三全连接层用于输出与所述拼接后特征对应的信用违约预测结果。
进一步地,所述特征融合层与所述第三全连接层之间还设置有Dropout层。
本发明实施例还提供了一种信用违约预测装置,包括:
获取模块,用于获取待预测企业的预测数据和舆情信息;其中,所述预测数据包括财务数据,所述舆情信息包括多个舆情事件;
提取模块,用于分别对所述预测数据和所述舆情信息进行特征提取,得到所述待预测企业对应的结构化特征和序列特征;
确定模块,用于根据所述待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定所述待预测企业的信用违约预测结果;所述预测模型用于对所述待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。
本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的信用违约预测方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的信用违约预测方法。
本发明实施例提供的信用违约预测方法、装置及电子设备,在对待预测企业进行信用违约预测时,先获取待预测企业的预测数据和舆情信息;其中,该预测数据包括财务数据,该舆情信息包括多个舆情事件;分别对预测数据和舆情信息进行特征提取,得到待预测企业对应的结构化特征和序列特征;根据待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定待预测企业的信用违约预测结果;该预测模型用于对待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。这样能够最大限度的利用结构化特征和序列特征中蕴含的信息,并且采用端到端的预测模型,减少了人工干预的过程,使得训练得到的预测模型更能反映数据本身,提高了预测结果的准确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信用违约预测方法的流程示意图;
图2为本发明实施例提供的一种训练预测模型的流程示意图;
图3为本发明实施例提供的一种预测模型的架构示意图;
图4为本发明实施例提供的一种预测模型的结构示意图;
图5为本发明实施例提供的一种信用违约预测装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
信用违约包括信贷违约和债券违约等,其中债券违约是指债券发行主体不能按照事先达成的债券协议履行其义务的行为。通常基于构建的模型进行信用违约预测,因此模型构建方法(建模方法)至关重要。以对发债企业进行债券违约预测为例,企业的财务数据等包含结构化特征,企业的舆情信息包含序列特征。结构化特征是指在建模时那种数据结构固定的特征,如年龄、性别、收入、民族、学历等,这5个特征中的每一个都有确定的取值范围和数据长度,在建模过程中,结构化特征的排列顺序不影响最终的建模结果。序列特征是由时间先后顺序构成的一个行为、表现等的序列,例如企业的舆情信息构成一个序列特征,如“发行债券、业务扩张、招投标、战略合作、高管变动、估价异常波动”;序列特征的最主要特征有2个:1.序列中元素数量不固定,2.不同排列顺序的元素构成的序列通常代表不同的特征;在建模时,如果序列中元素没有按照原始顺序排列,则代表着信息的丢失或逻辑错误。结构化特征相对规整,而且当前技术也非常成熟,特征之间的排列顺序与建模结果无关,而序列特征则相对较难处理,目前还没有公认的将序列特征编码为固定长度特征的较好的方法。
当前的建模方法,在同时拥有结构化特征和序列特征时,有以下两大类处理方法:
一、结构化特征和序列特征在同一个模型中进行训练,这种处理方法的一个关键是对序列特征的预处理,大致有如下几种处理方法:(1)直接丢弃序列特征,只使用结构化特征,这种处理方法也很常见,但因为没有充分利用现有信息,最终建模效果可能不够理想;(2)对序列中的元素进行归类,然后分别计数,将每个类别下计数结果作为一个特征,合并入结构化特征,例如对于企业的舆情事件,分为司法涉诉类事件、行政处罚类事件等,这种处理方法能一定程度上利用序列特征,但缺点也很明显:一是丢失了序列特征中的顺序结构,二是原本类型丰富的事件被压缩为几种特定类型,信息丢失严重;(3)借鉴One-Hot(独热)的编码思路,将序列中的每个元素视为结构化特征的一个维度,然后分别计数,这样也相当于把序列特征转换为结构化特征,但缺点是:一丢失了序列特征的顺序信息,二由于通常不会每一个样本都拥有所有序列中的元素,因此会产生大量稀疏特征。
二、分别对结构化特征和序列特征进行建模,形成两个子模型,然后对这两个子模型再使用模型集成的方法进行集成。针对结构化特征构建模型的技术已经非常成熟,下面以使用企业舆情事件对发债企业进行债券违约预测为例,介绍使用序列特征进行建模的方法:(1)将每个企业的舆情事件序列看成一个个的文档,将债券违约与否作为文档的类型,这样这个问题就可以转换成一个文本分类的问题,经典的文本分类做法是,把序列中的每个元素看做是一个词,事件序列看成一个句子,使用TF-IDF(term frequency–inversedocument frequency)做特征提取,并使用朴素贝叶斯等模型进行建模。这种对序列进行抽象的方法在NLP(Natural Language Processing,自然语言处理)中称为词袋模型,顾名思义,就是把一个序列中的所有词都看做是一个袋子中的物品,因此也就忽略了序列的顺序,虽然根据TF-IDF特征提取的参数设置,可以提取二阶、三阶特征,即把连续两个、三个序列元素的出现作为特征,但从本质上讲还是没有充分考虑事件的序列特征;(2)使用当前流行的序列模型进行建模,例如RNN(Recurrent Neural Network,循环神经网络),把序列中的每一个元素看做一个token(标记)作为模型输入,最终的债券违约与否作为序列的分类。在完成了结构化特征建模和序列特征建模后,还需要对这两个子模型进行融合,比如将两个子模型的结果再次看做特征,使用债券是否违约作为目标,再次构建一个模型,或者使用集成学习的模型融合方法进行。虽然对两类特征分别建模并再次集成的方法,能较大程度的利用现有信息,但依然是把针对同一个样本的特征采用割裂的方式进行了利用,在某些情况下,这种建模方法会导致模型性能的损失,甚至无法构建,典型的例子是“异或问题”,在二维情况下,线性模型无法对“异或问题”的样本划分开,而通过合理的手段升到三维或者更高维度,线性模型则很容易解决“异或问题”。对应到使用子模型进行集成的方法,原本就是高维特征,却分别拆分成了两个低纬度的特征分别建模,依然存在信息丢失导致模型性能损失的问题。
综上,目前在使用结构化特征和序列特征进行建模时,无法有效地利用企业的舆情信息,导致最终的预测结果不够准确。基于此,本发明实施例提供的一种信用违约预测方法、装置及电子设备,可以同时利用结构化特征和序列特征,同时最大限度的保留特征中的信息,提高预测结果的准确度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种信用违约预测方法进行详细介绍。
本发明实施例提供了一种信用违约预测方法,该方法可以由具有数据处理能力的电子设备执行,该电子设备例如是台式电脑、笔记本电脑、平板电脑或手机等。参见图1所示的一种信用违约预测方法的流程示意图,该方法主要包括如下步骤S102~步骤S106:
步骤S102,获取待预测企业的预测数据和舆情信息;其中,该预测数据包括财务数据,该舆情信息包括多个舆情事件。
上述待预测企业可以是发债企业或信贷企业等,可以对发债企业进行债券违约预测,对信贷企业进行信贷违约预测。上述预测数据还可以包括企业基础数据、信贷调查数据和交易数据等。
步骤S104,分别对上述预测数据和舆情信息进行特征提取,得到待预测企业对应的结构化特征和序列特征。
在一些可能的实施例中,可以对上述预测数据进行特征筛选、空缺值填充、异常值处理和数据归一化处理等,得到待预测企业对应的结构化特征;按照各个舆情事件发生的时间,构建目标舆情事件序列;对目标舆情事件序列进行数字编码,得到待预测企业对应的序列特征。
上述构建目标舆情事件序列的步骤,可以通过如下过程实现:按照各个舆情事件发生的时间先后顺序,构建初始舆情事件序列;对初始舆情事件序列进行相邻位置重复元素的去除,得到目标舆情事件序列。例如,按照时间先后顺序排列形成的初始舆情事件序列为:(元素4,元素2,元素1,元素3,元素3,元素1,元素1),则去除相邻位置重复元素后得到的目标舆情事件序列为:(元素4,元素2,元素1,元素3,元素1)。
上述对目标舆情事件序列进行数字编码,得到待预测企业对应的序列特征的步骤,可以通过如下过程实现:对目标舆情事件序列中所有不同的元素依次分别赋予一个从0开始递增的数字,得到待预测企业对应的序列特征。例如,对于上述目标舆情事件序列:(元素4,元素2,元素1,元素3,元素1),元素1编码为0,元素2编码为1,元素3编码为2,元素4编码为3,则目标舆情事件序列编码后得到的序列特征为:(3,1,0,2,0)。这样将舆情事件特征都转换为了数字,便于后续预测模型的处理。
步骤S106,根据待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定待预测企业的信用违约预测结果;该预测模型用于对待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。
可以将待预测企业对应的结构化特征和序列特征输入训练后的预测模型,得到预测模型输出的待预测企业的信用违约预测结果。
本发明实施例提供的信用违约预测方法,在对待预测企业进行信用违约预测时,先获取待预测企业的预测数据和舆情信息;其中,该预测数据包括财务数据,该舆情信息包括多个舆情事件;分别对预测数据和舆情信息进行特征提取,得到待预测企业对应的结构化特征和序列特征;根据待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定待预测企业的信用违约预测结果;该预测模型用于对待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。这样能够最大限度的利用结构化特征和序列特征中蕴含的信息,并且采用端到端的预测模型,减少了人工干预的过程,使得训练得到的预测模型更能反映数据本身,提高了预测结果的准确度。
以待预测企业为发债企业,对发债企业进行债券违约预测为例,本实施例还提供了上述预测模型的训练流程,参见图2所示的一种训练预测模型的流程示意图,该预测模型的训练过程包括如下步骤:
步骤S202,获取训练样本集,该训练样本集包括历史发债企业在预测窗口内的历史预测数据和历史舆情信息以及预测时间点的实际债券违约结果。
为了训练预测模型,首先要进行数据收集,构建训练样本集。训练样本集可以包含多个样本,每个样本对应一个历史发债企业的历史预测数据、历史舆情信息和实际债券违约结果。在获取训练样本集时要保证结构化特征和序列特征的时间范围一致,例如结构化特征是截止2018年10月1日的,那么序列特征也要截止2018年10月1日,也即要保证历史预测数据和历史舆情信息的时间范围一致。为了避免特征穿越,目标变量要选取在特征之后的。
步骤S204,分别对历史预测数据和历史舆情信息进行特征提取,得到历史发债企业对应的结构化特征和序列特征。
具体可以参考前述步骤S104的相应内容,这里不再赘述。
步骤S206,根据历史发债企业对应的结构化特征、序列特征和实际债券违约结果,对初始预测模型进行训练,得到训练后的预测模型。
因为结构化特征和序列特征分别处理的,在入模前,需要将这两类特征对齐,也即使结构化特征对应的样本顺序和序列特征对应的样本顺序保持一致,从而保证同时使用同一个样本的结构化特征和序列特征进行预测模型的训练。具体做法可以为:选定结构化特征或序列特征之一对应的ID(样本的标识)顺序为基准,调整另一类特征的排列顺序,使另一类特征对应的ID顺序与基准的ID顺序一致。
训练时,可以将样本结构化特征和样本序列特征输入到初始预测模型中,得到初始预测模型的输出;根据初始预测模型的输出和实际债券违约结果确定初始预测模型的误差,并根据该误差,通过误差反传算法更新初始预测模型中的参数,以得到训练后的预测模型。
在使用机器学习进行建模时,将结构化特征和序列特征融合在同一个神经网络中,通过训练过程,误差反传算法将自动更新这两类特征的权重,以便更好地同时利用这两类特征。训练后的预测模型能够同时利用结构化特征和序列特征,同时最大限度的保留特征中的信息。
本发明实施例还提供了一种预测模型的架构,参见图3所示的一种预测模型的架构示意图(图3仅为架构示意图,为了简洁起见,并未包含神经网络的所有层),该预测模型包括第一输入层、与第一输入层连接的第一全连接层(即dense层、全连接隐藏层)、第二输入层、与第二输入层连接的Embedding(嵌入)层、与Embedding层连接的Bi-LSTM(Bidirectional Long Short Term Memory Network,双向长短时记忆网络)层、与Bi-LSTM层连接的第二全连接层、分别与第一全连接层和第二全连接层连接的特征融合层(如concatenat层,图3中未示出)、以及与特征融合层连接的第三全连接层。
上述第一输入层用于将结构化特征输入到第一全连接层;第二输入层用于将序列特征输入到Embedding层,Embedding层的结果会接入Bi-LSTM层,Bi-LSTM层的最后一个输出作为第二全连接层的输入,第二全连接层的输出会作为整个序列特征的编码;特征融合层用于对第一全连接层的输出和第二全连接层的输出进行拼接,并将拼接后特征输入到第三全连接层;第三全连接层用于输出与拼接后特征对应的信用违约预测结果。可以使用Sigmoid函数作为第三全连接层输出的激活函数。
为了便于理解,本发明实施例还提供了一个预测模型的实际结构示意图,如图4所示,input_1表示第一输入层,input_2表示第二输入层,dense_1表示第二全连接层,dense_2和dense_3共同作为第三全连接层,与图3相比,省略了第一全连接层,增加了concatenat层和Dropout层,其中,Dropout层设置在concatenat层与第三全连接层之间。
对应于上述的信用违约预测方法,本发明实施例还提供了一种信用违约预测装置,参见图5所示的一种信用违约预测装置的结构示意图,该装置包括:
获取模块52,用于获取待预测企业的预测数据和舆情信息;其中,该预测数据包括财务数据,该舆情信息包括多个舆情事件;
提取模块54,用于分别对预测数据和舆情信息进行特征提取,得到待预测企业对应的结构化特征和序列特征;
确定模块56,用于根据待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定待预测企业的信用违约预测结果;该预测模型用于对待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。
本发明实施例提供的信用违约预测装置,在对待预测企业进行信用违约预测时,先获取待预测企业的预测数据和舆情信息;其中,该预测数据包括财务数据,该舆情信息包括多个舆情事件;分别对预测数据和舆情信息进行特征提取,得到待预测企业对应的结构化特征和序列特征;根据待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定待预测企业的信用违约预测结果;该预测模型用于对待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。这样能够最大限度的利用结构化特征和序列特征中蕴含的信息,并且采用端到端的预测模型,减少了人工干预的过程,使得训练得到的预测模型更能反映数据本身,提高了预测结果的准确度。
进一步,上述提取模块54具体用于:对预测数据进行特征筛选、空缺值填充、异常值处理和数据归一化处理,得到待预测企业对应的结构化特征;按照各个舆情事件发生的时间,构建目标舆情事件序列;对目标舆情事件序列进行数字编码,得到待预测企业对应的序列特征。
进一步,上述提取模块54还用于:按照各个舆情事件发生的时间先后顺序,构建初始舆情事件序列;对初始舆情事件序列进行相邻位置重复元素的去除,得到目标舆情事件序列。
进一步,上述提取模块54还用于:对目标舆情事件序列中所有不同的元素依次分别赋予一个从0开始递增的数字,得到待预测企业对应的序列特征。
进一步,上述待预测企业为发债企业;上述装置还包括与确定模块56连接的训练模块,用于:获取训练样本集,该训练样本集包括历史发债企业在预测窗口内的历史预测数据和历史舆情信息以及预测时间点的实际债券违约结果;分别对历史预测数据和历史舆情信息进行特征提取,得到历史发债企业对应的结构化特征和序列特征;根据历史发债企业对应的结构化特征、序列特征和实际债券违约结果,对初始预测模型进行训练,得到训练后的预测模型。
进一步,上述预测模型包括第一输入层、与第一输入层连接的第一全连接层、第二输入层、与第二输入层连接的嵌入层、与嵌入层连接的双向长短时记忆网络层、与双向长短时记忆网络层连接的第二全连接层、分别与第一全连接层和第二全连接层连接的特征融合层、以及与特征融合层连接的第三全连接层;
第一输入层用于将结构化特征输入到第一全连接层;第二输入层用于将序列特征输入到嵌入层;特征融合层用于对第一全连接层的输出和第二全连接层的输出进行拼接,并将拼接后特征输入到第三全连接层;第三全连接层用于输出与拼接后特征对应的信用违约预测结果。
进一步,上述特征融合层与第三全连接层之间还设置有Dropout层。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
参见图6,本发明实施例还提供一种电子设备100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory,简称NVM),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前面方法实施例中所述的信用违约预测方法。该计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种信用违约预测方法,其特征在于,包括:
获取待预测企业的预测数据和舆情信息;其中,所述预测数据包括财务数据,所述舆情信息包括多个舆情事件;
分别对所述预测数据和所述舆情信息进行特征提取,得到所述待预测企业对应的结构化特征和序列特征;
根据所述待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定所述待预测企业的信用违约预测结果;所述预测模型用于对所述待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。
2.根据权利要求1所述的信用违约预测方法,其特征在于,分别对所述预测数据和所述舆情信息进行特征提取,得到所述待预测企业对应的结构化特征和序列特征的步骤,包括:
对所述预测数据进行特征筛选、空缺值填充、异常值处理和数据归一化处理,得到所述待预测企业对应的结构化特征;
按照各个所述舆情事件发生的时间,构建目标舆情事件序列;
对所述目标舆情事件序列进行数字编码,得到所述待预测企业对应的序列特征。
3.根据权利要求2所述的信用违约预测方法,其特征在于,按照各个所述舆情事件发生的时间,构建目标舆情事件序列的步骤,包括:
按照各个所述舆情事件发生的时间先后顺序,构建初始舆情事件序列;
对所述初始舆情事件序列进行相邻位置重复元素的去除,得到目标舆情事件序列。
4.根据权利要求2所述的信用违约预测方法,其特征在于,对所述目标舆情事件序列进行数字编码,得到所述待预测企业对应的序列特征的步骤,包括:
对所述目标舆情事件序列中所有不同的元素依次分别赋予一个从0开始递增的数字,得到所述待预测企业对应的序列特征。
5.根据权利要求1所述的信用违约预测方法,其特征在于,所述待预测企业为发债企业;所述方法还包括:
获取训练样本集,所述训练样本集包括历史发债企业在预测窗口内的历史预测数据和历史舆情信息以及预测时间点的实际债券违约结果;
分别对所述历史预测数据和所述历史舆情信息进行特征提取,得到所述历史发债企业对应的结构化特征和序列特征;
根据所述历史发债企业对应的结构化特征、序列特征和所述实际债券违约结果,对初始预测模型进行训练,得到训练后的预测模型。
6.根据权利要求1-5中任一项所述的信用违约预测方法,其特征在于,所述预测模型包括第一输入层、与所述第一输入层连接的第一全连接层、第二输入层、与所述第二输入层连接的嵌入层、与所述嵌入层连接的双向长短时记忆网络层、与所述双向长短时记忆网络层连接的第二全连接层、分别与所述第一全连接层和所述第二全连接层连接的特征融合层、以及与所述特征融合层连接的第三全连接层;
所述第一输入层用于将结构化特征输入到所述第一全连接层;所述第二输入层用于将序列特征输入到所述嵌入层;所述特征融合层用于对所述第一全连接层的输出和所述第二全连接层的输出进行拼接,并将拼接后特征输入到所述第三全连接层;所述第三全连接层用于输出与所述拼接后特征对应的信用违约预测结果。
7.根据权利要求6所述的信用违约预测方法,其特征在于,所述特征融合层与所述第三全连接层之间还设置有Dropout层。
8.一种信用违约预测装置,其特征在于,包括:
获取模块,用于获取待预测企业的预测数据和舆情信息;其中,所述预测数据包括财务数据,所述舆情信息包括多个舆情事件;
提取模块,用于分别对所述预测数据和所述舆情信息进行特征提取,得到所述待预测企业对应的结构化特征和序列特征;
确定模块,用于根据所述待预测企业对应的结构化特征和序列特征以及训练后的预测模型,确定所述待预测企业的信用违约预测结果;所述预测模型用于对所述待预测企业对应的结构化特征和序列特征进行特征拼接,并输出与拼接后特征对应的信用违约预测结果。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642962.9A CN112734570A (zh) | 2020-12-31 | 2020-12-31 | 信用违约预测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642962.9A CN112734570A (zh) | 2020-12-31 | 2020-12-31 | 信用违约预测方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112734570A true CN112734570A (zh) | 2021-04-30 |
Family
ID=75609190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011642962.9A Pending CN112734570A (zh) | 2020-12-31 | 2020-12-31 | 信用违约预测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734570A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884496A (zh) * | 2021-05-06 | 2021-06-01 | 达而观数据(成都)有限公司 | 计算企业信用因子分数的方法、装置及计算机存储介质 |
CN113283583A (zh) * | 2021-05-18 | 2021-08-20 | 广州致景信息科技有限公司 | 纺织行业违约率预测方法、装置、存储介质及处理器 |
CN115689626A (zh) * | 2022-10-31 | 2023-02-03 | 荣耀终端有限公司 | 一种终端设备的用户属性确定方法及电子设备 |
CN117372151A (zh) * | 2023-10-26 | 2024-01-09 | 上海腾桥信息技术有限公司 | 违约风险预测模型的训练方法、预测方法、系统及其设备 |
-
2020
- 2020-12-31 CN CN202011642962.9A patent/CN112734570A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884496A (zh) * | 2021-05-06 | 2021-06-01 | 达而观数据(成都)有限公司 | 计算企业信用因子分数的方法、装置及计算机存储介质 |
CN112884496B (zh) * | 2021-05-06 | 2021-08-20 | 达而观数据(成都)有限公司 | 计算企业信用因子分数的方法、装置及计算机存储介质 |
CN113283583A (zh) * | 2021-05-18 | 2021-08-20 | 广州致景信息科技有限公司 | 纺织行业违约率预测方法、装置、存储介质及处理器 |
CN113283583B (zh) * | 2021-05-18 | 2024-09-06 | 广州致景信息科技有限公司 | 纺织行业违约率预测方法、装置、存储介质及处理器 |
CN115689626A (zh) * | 2022-10-31 | 2023-02-03 | 荣耀终端有限公司 | 一种终端设备的用户属性确定方法及电子设备 |
CN115689626B (zh) * | 2022-10-31 | 2024-03-01 | 荣耀终端有限公司 | 一种终端设备的用户属性确定方法及电子设备 |
CN117372151A (zh) * | 2023-10-26 | 2024-01-09 | 上海腾桥信息技术有限公司 | 违约风险预测模型的训练方法、预测方法、系统及其设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112734570A (zh) | 信用违约预测方法、装置及电子设备 | |
CN111260156B (zh) | 现金流预测模型的构建方法及现金流预测方法及装置 | |
CN110264270B (zh) | 一种行为预测方法、装置、设备和存储介质 | |
KR102359090B1 (ko) | 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템 | |
CN110543565A (zh) | 基于卷积神经网络模型的审计方法、系统和可读存储介质 | |
CN109492058A (zh) | 业务报表的推送方法及装置 | |
CN114996486A (zh) | 一种数据推荐方法、装置、服务器以及存储介质 | |
CN110738562B (zh) | 一种风险提醒信息的生成方法、装置及设备 | |
CN115964392A (zh) | 基于flink的实时监控方法、装置、设备及可读存储介质 | |
CN113837802B (zh) | 一种时序过程与手机缺陷特征深度融合的二手手机价格预测方法 | |
CN113609011B (zh) | 一种保险产品工厂的测试方法、装置、介质和设备 | |
CN117135032A (zh) | 一种异常识别方法、装置和设备及计算机存储介质 | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
CN108734568B (zh) | 一种特征组合方法、装置、终端设备及存储介质 | |
CN114756720B (zh) | 时序数据的预测方法及装置 | |
CN116012066A (zh) | 广告转化率的预测方法、装置、可读存储介质 | |
CN116185797A (zh) | 预测服务器资源饱和度的方法、装置及存储介质 | |
CN111737319B (zh) | 用户集群的预测方法、装置、计算机设备和存储介质 | |
CN110060146B (zh) | 一种数据转移方法及相关设备 | |
CN111951011B (zh) | 监控系统阈值确定方法及装置 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
US20230034850A1 (en) | Method to determine that a credit card number change has occurred | |
CN115169321B (zh) | 物流内容文本核对方法、装置、电子设备和计算机介质 | |
CN117932544B (zh) | 基于多源传感器数据融合的预测方法、装置和存储介质 | |
US20230222579A1 (en) | Method and Apparatus for Iterating Credit Scorecard Model, Electronic Device and Storage Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |