CN111598691B

CN111598691B - 信用债发债主体违约风险评估方法、系统及装置

Info

Publication number: CN111598691B
Application number: CN202010312863.8A
Authority: CN
Inventors: 吴俊杰; 左源; 李晔林; 部慧
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2022-09-13
Anticipated expiration: 2040-04-20
Also published as: CN111598691A

Abstract

本发明公开了信用债发债主体违约风险评估方法，包括，获取与发债主体匹配的公开新闻文本数据；定义风险主题和与其对应的风险种子词；对风险种子词进行扩展，构建风险关键词典；构建关键词多维风险特征体系；构建词评分模型，对风险关键词典中的词进行风险评分；计算新闻和/或发债主体违约风险负面舆情得分；以及信用债发债主体违约风险评估系统和装置。本发明一方面获得了完整、准确、可扩展的风险关键词典，另一方面可实现对不同维度的违约风险负面舆情进行评分，以更加准确地分析发债主体的违约行为。

Description

信用债发债主体违约风险评估方法、系统及装置

技术领域

本发明涉及数据挖掘技术领域。更具体地说，本发明涉及一种信用债发债主体违约风险评估方法及装置。

背景技术

如何对发债主体违约风险进行有效评估与提前预测成为当前面临的重要监管难题。由于信息不完全，单纯依靠财务报表、经济数据以及市场交易数据已难以充分解释违约风险溢价问题。如何解决财务数据严重滞后问题，如何获取非上市公司相关信息从而对其信用风险进行有效识别，以及如何实现对全市场信用债发债主体违约风险的动态监测预警成为当前亟需解决的问题。

随着信息技术的迅速发展和网络媒体的广泛覆盖，来自开放互联网渠道的海量高频新闻文本数据成为了金融行业监管和风险管理与评价的重要信息来源。与信用债发债主体有关的新闻报道一方面可以揭示公司部分经营情况，另一方面能够揭露相关行业、监管部门或其他市场参与者对企业发出的各类舆情。为了较为精准地识别和提取包含在新闻文本中的重要信息，基于词典的文本挖掘方法被广泛使用。但是现有的舆情词典很难完成这一任务，首先自然语言处理领域通用的舆情词典在金融背景下准确程度和适配程度低，难以发挥作用；而专业的金融舆情词典也相对陈旧和笼统，无法精准描述企业的各类经营情况及其面临的各类风险；再加上传统的舆情词典只包括词语及其词性和极性等简单特征，不包括其他风险特征，信息含量不足。因此如何建立完善、准确、可扩展的风险关键词典，并进一步构建关键词的风险特征体系，丰富舆情词典内涵，是当前研究的重点。

发明内容

本发明的目的是提供一种信用债发债主体违约风险评估方法及装置，其通过定义不同的风险主题种子词，利用来自公开互联网渠道的新闻文本数据，基于自然语言处理方法，构建以“种子词-扩展词”为基本结构的风险关键词典，进一步构建关键词多维风险特征体系，一方面获得了完整、准确、可扩展的风险关键词典，另一方面可实现对不同维度的违约风险负面舆情进行评分，以更加准确地分析发债主体的违约行为。

为了实现根据本发明目的，提供了一种信用债发债主体违约风险评估方法，包括，获取与发债主体匹配的公开新闻文本数据；

定义影响发债主体违约风险的风险主题和与其对应的风险种子词；

根据所述公开新闻文本数据，利用自然语言处理方法，对所述风险种子词进行扩展，构建风险关键词典；

根据关键词多维风险特征，对所述风险关键词典中的每个词进行赋值，构建关键词多维风险特征体系；

根据所述关键词多维风险特征体系，构建词评分模型，对所述风险关键词典中情感极性为负面的词进行风险评分；

根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分。

优选的是，所述的信用债发债主体违约风险评估方法，根据所述公开新闻文本数据，利用自然语言处理方法，对所述风险种子词进行扩展，构建风险关键词典包括，在所述公开新闻文本数据中随机抽样，形成训练样本；利用自然语言处理方法，对所述训练样本中的种子词进行扩展，计算扩展词向量与种子词向量之间的相似性；去掉与种子词相似性低于预设阈值的扩展词，构建以“种子词-扩展词”为基本结构的风险关键词典。

优选的是，所述的信用债发债主体违约风险评估方法，所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性。

优选的是，所述的信用债发债主体违约风险评估方法，所述词评分模型为，word_score＝1/word_risk_level+1/topic_r isk_level×word_topic_relationship

其中，word_score为关键词得分，word_risk_level为词风险，topic_risk_level为主题风险，word_topic_relationship为词与主题的相关程度。

优选的是，所述的信用债发债主体违约风险评估方法，根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分，包括，构建违约风险负面舆情评分模型：news_s core＝∑word_s core/(news_length+ave_length)，其中，news_score为违约风险负面舆情得分，∑word_score为预设范围内的新闻文本中关键词风险得分之和，news_length为预设范围内的新闻文本长度，ave_length为所述训练样本的平均长度；根据所述违约风险负面舆情评分模型，计算新闻负面舆情得分，新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分，其中，计算新闻负面舆情得分时，∑word_score为该条新闻文本中关键词风险得分之和，news_length为该条新闻文本的长度；计算新闻-发债主体负面舆情得分时，∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和，news_length为扩展后的新闻文本的长度；计算新闻-风险主题负面舆情得分时，∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和，news_length为该条新闻文本的长度；计算新闻-发债主体-风险主题负面舆情得分时，∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和，news_length为该条新闻文本的长度。

优选的是，所述的信用债发债主体违约风险评估方法，还包括，将预设时间段内的新闻-发债主体负面舆情得分，按照发债主体进行分类求和，得发债主体负面舆情得分；将预设时间段内的新闻-发债主体-风险主题负面舆情得分，按照发债主体和风险主题进行分类求和，得发债主体-风险主题负面舆情得分。

优选的是，所述的信用债发债主体违约风险评估方法，还包括，对预设时间段内的新闻负面舆情得分、发债主体负面舆情得分和发债主体-风险主题负面舆情得分分别进行降序排列，并按顺序推送。

本发明还提供了一种信用债发债主体违约风险评估系统，包括：

获取模块，用于获取与发债主体匹配的公开新闻文本数据；

自定义模块，用于定义影响发债主体违约风险的风险主题和与其对应的风险种子词；

风险关键词典构建模块，用于根据所述公开新闻文本数据，利用自然语言处理方法，对所述风险种子词进行扩展，构建风险关键词典；

关键词风险特征体系构建模块，用于根据关键词风险特征，对所述风险关键词典中的每个词进行量化，构建关键词风险特征体系；

关键词风险评分模块，用于根据所述关键词风险特征体系，构建词评分模型，对所述风险关键词典中情感极性为负面的词进行风险评分；

负面舆情评分模块，根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分。

本发明还提供了一种信用债发债主体违约风险评估装置，包括：

处理器；

存储器，其存储有可执行指令；

其中，所述处理器被配置为执行所述可执行指令，以执行权利要求1-7任一所述的信用债发债主体违约风险评估方法。

本发明至少包括以下有益效果：

第一、本发明其通过定义不同的风险主题种子词，利用来自公开互联网渠道的新闻文本数据，基于自然语言处理方法，构建以“种子词-扩展词”为基本结构的风险关键词典，进一步构建关键词多维风险特征体系，一方面获得了完整、准确、可扩展的风险关键词典，另一方面可实现对不同维度的违约风险负面舆情进行评分，以更加准确地分析发债主体的违约行为。

第二、本发明的信用债发债主体违约风险评估方法，将关键词得分按照新闻、发债主体以及风险主题分别进行聚合，可以更加准确地分析债券违约行为。

第三、本发明的信用债发债主体违约风险评估方法，基于大数据处理技术和文本挖掘技术，利用实时更新的新闻文本数据进行信用债发债主体违约负面舆情的识别和打分，提供按照新闻、发债主体和风险主题等多种聚合呈现方式，为投资者提供全面、直观、定制化的债券违约风险评价。

第四、本发明的信用债发债主体违约风险评估方法，可扩展为适用于各种金融衍生产品的信用风险评估方法，对既有的利用宏观经济指标及财务指标的信用风险评估方法做出补充。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明一个实施例中的信用债发债主体违约风险评估方法的流程示意图；

图2为本发明一个实施例中的信用债发债主体违约风险评估系统的结构示意图；

图3为本发明一个实施例中的信用债发债主体违约风险评估装置的结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得。

如图1所示，本发明提供了一种信用债发债主体违约风险评估方法，包括：

S101、获取与发债主体匹配的公开新闻文本数据。

来自公开互联网渠道的各家新闻媒体文本数据中可能包含与信用债发债主体无关的信息，这些无关文本信息可能会影响风险评估效果。具体的，通过构建国内信用债发债主体的实体信息库，包括发债主体的公司全称和简称等信息，对新闻报道的标题及内容进行匹配，去掉与发债主体无关的新闻，获得与发债主体匹配的新闻数据集。进一步的，对用实体名称匹配到的新闻数据进行分词和分句处理。分词的目的是为了将文本转化成一个个词语，利用jieba中文分词工具对文本进行分词，分词过程中加入自定义的用户词典，词典中包含信用债发债主体全程及简称、金融、经济、管理等专业分词词典等。分句的目的是在语义层面将文本转化成一个个句子，利用“。？！；”等用于分句的中文、英文标点符号，对文本进行分句。

S102、定义影响发债主体违约风险的风险主题和与其对应的风险种子词。

根据信用债发债主体违约风险评估的问题内涵，定义如下可能影响或揭露违约风险的风险主题和对应的风险关键种子词(“风险主题：风险种子词”)：

偿债能力：营收、利润、融资、发债、授信；

偿债意愿：造假、冻结；

债务状况：逾期、违约、担保、质押；

合规问题：诉讼、判决、处罚、警告、警示；

交易状况：大跌、抛售；

高管风险：辞职、失联；

热点风险：违规、纠纷。

S103、根据所述公开新闻文本数据，利用自然语言处理方法，对所述风险种子词进行扩展，构建风险关键词典。

步骤102中每个风险主题中包含2-5个风险种子词，无法满足评估信用债发债主体违约风险的需要，因此，需要根据定义出来的风险种子词扩展更多的风险关键词，以形成完整的风险关键词典。具体的，在步骤101获取的新闻数据集中随机抽样形成训练样本；利用以浅层神经网络为基础的前沿自然语言处理方法word2vec，将文本中的词进行分散化向量表示，计算每个词与风险种子词之间的向量相似性；选择与每个风险种子词向量相似性最高的前100位的词或去掉与种子词相似性低于预设阈值的词，构建以“种子词-扩展词”为基本结构，包含步骤102中各风险主题的风险关键词典。

S104、根据关键词多维风险特征，对所述风险关键词典中的每个词进行赋值，构建关键词多维风险特征体系。

步骤103中形成的风险关键词典中仅包含风险主题和词等非结构化信息，利用赋予关键词多维风险特征的方式进行量化，对所述风险关键词典中的每个词进行赋值，将非结构化信息转变为结构化信息。具体的，所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性，其中，

主题风险(topic_risk_level)：步骤S102中各个风险主题影响或揭露违约风险的程度，类别特征，按照风险主题的严重程度分为1(风险高)、2(风险中等)、3(风险低)三类，同一主题下的种子词及扩展词的主题风险特征相同；

词风险(word_risk_level)：步骤103中各风险种子词及扩展词所表示的违约风险严重程度，类别特征，按照风险严重程度分为1(风险高)、2(风险中等)、3(风险低)三类；

词与主题的相关程度(topic_word_relationship)：步骤103中计算的风险种子词及扩展词之间的词向量相似性，数值特征，取值为0-1；

关键词情感极性(word_sentiment)：步骤103中风险种子词及扩展词的情感极性，类别特征，包括负面(0)、正面(1)、中性(2)。

S105、根据所述关键词多维风险特征体系，构建词评分模型，对所述风险关键词典中情感极性为负面的词进行风险评分，得到“风险类别-风险关键词-关键词风险得分”对应关系，形成信用债发债主体违约风险负面舆情监测语料库。

由于本申请计算的是“违约风险负面舆情”，因此，仅对风险关键词典中关键词情感极性为负面的词进行风险评分。具体的，所述词评分模型为，word_s core＝1/word_risk_level+1/topic_r isk_level×word_topic_relationship

S106、根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分。

具体的，包括，(1)根据S105中的信用债发债主体违约风险负面舆情监测语料库，构建违约风险负面舆情评分模型：news_s core＝∑word_s core/(news_length+ave_length)

其中，news_score为违约风险负面舆情得分，∑word_score为预设范围内的新闻文本中关键词风险得分之和，news_length为预设范围内的新闻文本长度，ave_length为所述训练样本的平均长度；(2)根据所述违约风险负面舆情评分模型，计算新闻负面舆情得分，新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分，其中，计算新闻负面舆情得分时，∑word_score为该条新闻文本中关键词风险得分之和，news_length为该条新闻文本的长度；计算新闻-发债主体负面舆情得分时，∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和，news_length为扩展后的新闻文本的长度，进一步的，定位发债主体实体名称所在句，根据新闻文本的总句子数对发债主体名称所在句进行扩展，若新闻文本包含不超过5个句子，则扩展后的新闻文本为该条新闻文本全文；若新闻文本包含超过5个句子，不超过15个句子，则扩展后的新闻文本为以实体名称所在句为中心句向前、向后最多分别扩展两个句子，共计最多5个句子的新闻文本；若新闻文本包含超过15个句子，则扩展后的新闻文本为以实体名称所在句为中心句向前、向后最多分别扩展该条新闻文本句子总数的1/6，即最多取整个新闻文本中与发债主体实体名称最近的1/3的新闻文本；计算新闻-风险主题负面舆情得分时，∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和，news_length为该条新闻文本的长度；计算新闻-发债主体-风险主题负面舆情得分时，∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和，news_length为该条新闻文本的长度。

本实施例中通过定义不同的风险主题种子词，利用来自公开互联网渠道的新闻文本数据，基于自然语言处理方法，构建以“种子词-扩展词”为基本结构的风险关键词典，进一步构建关键词多维风险特征体系，一方面获得了完整、准确、可扩展的风险关键词典，另一方面可实现对不同维度的违约风险负面舆情进行评分，以更加准确地分析发债主体的违约行为。

本发明的信用债发债主体违约风险评估方法，可扩展为适用于各种金融衍生产品的信用风险评估方法，对既有的利用宏观经济指标及财务指标的信用风险评估方法做出补充。

在另一实施例中，本发明的信用债发债主体违约风险评估方法，还包括，S107、将预设时间段内的新闻-发债主体负面舆情得分，按照发债主体进行分类求和，得发债主体负面舆情得分；将预设时间段内的新闻-发债主体-风险主题负面舆情得分，按照发债主体和风险主题进行分类求和，得发债主体-风险主题负面舆情得分；预设时间段可为一小时、一天、一周、一个月，根据需要自行设定(下同)。

本实施例中将预设时间段内的新闻-发债主体负面舆情得分和新闻-发债主体-风险主题负面舆情得分进行聚合，以实现对信用债发债主体违约风险的动态监测。

在另一实施例中，本发明的信用债发债主体违约风险评估方法，还包括，S108、对预设时间段内的新闻负面舆情得分、发债主体负面舆情得分和发债主体-风险主题负面舆情得分分别进行降序排列，并按顺序推送。

本实施例中，将负面舆情得分按照新闻、发债主体和风险主题等多种聚合方式呈现，并排序推送，为投资者提供全面、直观、定制化的债券违约风险评价，监管者或投资者可根据需要从上到下重点关注负面舆情得分最高的新闻和发债主体。

如图2所示，本发明还提供了一种信用债发债主体违约风险评估系统，包括：

获取模块201，用于获取与发债主体匹配的公开新闻文本数据；

自定义模块202，用于定义影响发债主体违约风险的风险主题和与其对应的风险种子词；

风险关键词典构建模块203，用于根据所述公开新闻文本数据，利用自然语言处理方法，对所述风险种子词进行扩展，构建风险关键词典；

关键词风险特征体系构建模块204，用于根据关键词风险特征，对所述风险关键词典中的每个词进行量化，构建关键词风险特征体系；

关键词风险评分模块205，用于根据所述关键词风险特征体系，构建词评分模型，对所述风险关键词典中情感极性为负面的词进行风险评分；

负面舆情评分模块206，根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分。

本技术方案基于与信用债发债主体违约风险评估方法相同的发明构思得到，可参考方法部分的描述。

如图3所示，本发明还提供了一种信用债发债主体违约风险评估装置，包括：

处理器301；

存储器302，其存储有可执行指令；

其中，所述处理器301被配置为执行所述可执行指令，以执行上述所述的信用债发债主体违约风险评估方法。

本技术方案基于与信用债发债主体违约风险评估方法相同的发明构思得到，可参考方法部分的描述。本技术方案的装置不限于PC、终端、服务器。比如此装置可以设置在服务器中，间隔设定时间进行数据采集、处理。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明信用债发债主体违约风险评估方法、系统及装置的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种信用债发债主体违约风险评估方法，其特征在于，包括，

获取与发债主体匹配的公开新闻文本数据；

根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分；其中，

所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性；

所述词评分模型为，

word_score＝1/word_risk_level+1/topic_risk_level×word_topic_relationship

其中，word_score为关键词得分，word_risk_level为词风险，topic_risk_level为主题风险，word_topic_relationship为词与主题的相关程度；

根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分，包括，构建违约风险负面舆情评分模型：news_score＝∑word_score/(news_length+ave_length)，其中，news_score为违约风险负面舆情得分，∑word_score为预设范围内的新闻文本中关键词风险得分之和，news_length为预设范围内的新闻文本长度，ave_length为训练样本的平均长度；根据所述违约风险负面舆情评分模型，计算新闻负面舆情得分，新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分，其中，计算新闻负面舆情得分时，∑word_score为该条新闻文本中关键词风险得分之和，news_length为该条新闻文本的长度；计算新闻-发债主体负面舆情得分时，∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和，news_length为扩展后的新闻文本的长度；计算新闻-风险主题负面舆情得分时，∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和，news_length为该条新闻文本的长度；计算新闻-发债主体-风险主题负面舆情得分时，∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和，news_length为该条新闻文本的长度。

2.如权利要求1所述的信用债发债主体违约风险评估方法，其特征在于，根据所述公开新闻文本数据，利用自然语言处理方法，对所述风险种子词进行扩展，构建风险关键词典包括，在所述公开新闻文本数据中随机抽样，形成训练样本；利用自然语言处理方法，对所述训练样本中的种子词进行扩展，计算扩展词向量与种子词向量之间的相似性；去掉与种子词相似性低于预设阈值的扩展词，构建以“种子词-扩展词”为基本结构的风险关键词典。

3.如权利要求1所述的信用债发债主体违约风险评估方法，其特征在于，还包括，将预设时间段内的新闻-发债主体负面舆情得分，按照发债主体进行分类求和，得发债主体负面舆情得分；将预设时间段内的新闻-发债主体-风险主题负面舆情得分，按照发债主体和风险主题进行分类求和，得发债主体-风险主题负面舆情得分。

4.如权利要求3所述的信用债发债主体违约风险评估方法，其特征在于，还包括，对预设时间段内的新闻负面舆情得分、发债主体负面舆情得分和发债主体-风险主题负面舆情得分分别进行降序排列，并按顺序推送。

5.一种信用债发债主体违约风险评估系统，其特征在于，包括：

获取模块，用于获取与发债主体匹配的公开新闻文本数据；

负面舆情评分模块，根据关键词风险得分，计算新闻和/或发债主体违约风险负面舆情得分；其中，

所述词评分模型为，

word_score＝1/word_risk_level+1/topic_risk_level×word_topic_relationship

6.一种信用债发债主体违约风险评估装置，其特征在于，包括：

处理器；

存储器，其存储有可执行指令；

其中，所述处理器被配置为执行所述可执行指令，以执行权利要求1-4任一所述的信用债发债主体违约风险评估方法。