CN111598691B - 信用债发债主体违约风险评估方法、系统及装置 - Google Patents
信用债发债主体违约风险评估方法、系统及装置 Download PDFInfo
- Publication number
- CN111598691B CN111598691B CN202010312863.8A CN202010312863A CN111598691B CN 111598691 B CN111598691 B CN 111598691B CN 202010312863 A CN202010312863 A CN 202010312863A CN 111598691 B CN111598691 B CN 111598691B
- Authority
- CN
- China
- Prior art keywords
- risk
- news
- debt
- word
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了信用债发债主体违约风险评估方法,包括,获取与发债主体匹配的公开新闻文本数据;定义风险主题和与其对应的风险种子词;对风险种子词进行扩展,构建风险关键词典;构建关键词多维风险特征体系;构建词评分模型,对风险关键词典中的词进行风险评分;计算新闻和/或发债主体违约风险负面舆情得分;以及信用债发债主体违约风险评估系统和装置。本发明一方面获得了完整、准确、可扩展的风险关键词典,另一方面可实现对不同维度的违约风险负面舆情进行评分,以更加准确地分析发债主体的违约行为。
Description
技术领域
本发明涉及数据挖掘技术领域。更具体地说,本发明涉及一种信用债发债主体违约风险评估方法及装置。
背景技术
如何对发债主体违约风险进行有效评估与提前预测成为当前面临的重要监管难题。由于信息不完全,单纯依靠财务报表、经济数据以及市场交易数据已难以充分解释违约风险溢价问题。如何解决财务数据严重滞后问题,如何获取非上市公司相关信息从而对其信用风险进行有效识别,以及如何实现对全市场信用债发债主体违约风险的动态监测预警成为当前亟需解决的问题。
随着信息技术的迅速发展和网络媒体的广泛覆盖,来自开放互联网渠道的海量高频新闻文本数据成为了金融行业监管和风险管理与评价的重要信息来源。与信用债发债主体有关的新闻报道一方面可以揭示公司部分经营情况,另一方面能够揭露相关行业、监管部门或其他市场参与者对企业发出的各类舆情。为了较为精准地识别和提取包含在新闻文本中的重要信息,基于词典的文本挖掘方法被广泛使用。但是现有的舆情词典很难完成这一任务,首先自然语言处理领域通用的舆情词典在金融背景下准确程度和适配程度低,难以发挥作用;而专业的金融舆情词典也相对陈旧和笼统,无法精准描述企业的各类经营情况及其面临的各类风险;再加上传统的舆情词典只包括词语及其词性和极性等简单特征,不包括其他风险特征,信息含量不足。因此如何建立完善、准确、可扩展的风险关键词典,并进一步构建关键词的风险特征体系,丰富舆情词典内涵,是当前研究的重点。
发明内容
本发明的目的是提供一种信用债发债主体违约风险评估方法及装置,其通过定义不同的风险主题种子词,利用来自公开互联网渠道的新闻文本数据,基于自然语言处理方法,构建以“种子词-扩展词”为基本结构的风险关键词典,进一步构建关键词多维风险特征体系,一方面获得了完整、准确、可扩展的风险关键词典,另一方面可实现对不同维度的违约风险负面舆情进行评分,以更加准确地分析发债主体的违约行为。
为了实现根据本发明目的,提供了一种信用债发债主体违约风险评估方法,包括,获取与发债主体匹配的公开新闻文本数据;
定义影响发债主体违约风险的风险主题和与其对应的风险种子词;
根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典;
根据关键词多维风险特征,对所述风险关键词典中的每个词进行赋值,构建关键词多维风险特征体系;
根据所述关键词多维风险特征体系,构建词评分模型,对所述风险关键词典中情感极性为负面的词进行风险评分;
根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分。
优选的是,所述的信用债发债主体违约风险评估方法,根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典包括,在所述公开新闻文本数据中随机抽样,形成训练样本;利用自然语言处理方法,对所述训练样本中的种子词进行扩展,计算扩展词向量与种子词向量之间的相似性;去掉与种子词相似性低于预设阈值的扩展词,构建以“种子词-扩展词”为基本结构的风险关键词典。
优选的是,所述的信用债发债主体违约风险评估方法,所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性。
优选的是,所述的信用债发债主体违约风险评估方法,所述词评分模型为,word_score=1/word_risk_level+1/topic_r isk_level×word_topic_relationship
其中,word_score为关键词得分,word_risk_level为词风险,topic_risk_level为主题风险,word_topic_relationship为词与主题的相关程度。
优选的是,所述的信用债发债主体违约风险评估方法,根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分,包括,构建违约风险负面舆情评分模型:news_s core=∑word_s core/(news_length+ave_length),其中,news_score为违约风险负面舆情得分,∑word_score为预设范围内的新闻文本中关键词风险得分之和,news_length为预设范围内的新闻文本长度,ave_length为所述训练样本的平均长度;根据所述违约风险负面舆情评分模型,计算新闻负面舆情得分,新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分,其中,计算新闻负面舆情得分时,∑word_score为该条新闻文本中关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和,news_length为扩展后的新闻文本的长度;计算新闻-风险主题负面舆情得分时,∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体-风险主题负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度。
优选的是,所述的信用债发债主体违约风险评估方法,还包括,将预设时间段内的新闻-发债主体负面舆情得分,按照发债主体进行分类求和,得发债主体负面舆情得分;将预设时间段内的新闻-发债主体-风险主题负面舆情得分,按照发债主体和风险主题进行分类求和,得发债主体-风险主题负面舆情得分。
优选的是,所述的信用债发债主体违约风险评估方法,还包括,对预设时间段内的新闻负面舆情得分、发债主体负面舆情得分和发债主体-风险主题负面舆情得分分别进行降序排列,并按顺序推送。
本发明还提供了一种信用债发债主体违约风险评估系统,包括:
获取模块,用于获取与发债主体匹配的公开新闻文本数据;
自定义模块,用于定义影响发债主体违约风险的风险主题和与其对应的风险种子词;
风险关键词典构建模块,用于根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典;
关键词风险特征体系构建模块,用于根据关键词风险特征,对所述风险关键词典中的每个词进行量化,构建关键词风险特征体系;
关键词风险评分模块,用于根据所述关键词风险特征体系,构建词评分模型,对所述风险关键词典中情感极性为负面的词进行风险评分;
负面舆情评分模块,根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分。
本发明还提供了一种信用债发债主体违约风险评估装置,包括:
处理器;
存储器,其存储有可执行指令;
其中,所述处理器被配置为执行所述可执行指令,以执行权利要求1-7任一所述的信用债发债主体违约风险评估方法。
本发明至少包括以下有益效果:
第一、本发明其通过定义不同的风险主题种子词,利用来自公开互联网渠道的新闻文本数据,基于自然语言处理方法,构建以“种子词-扩展词”为基本结构的风险关键词典,进一步构建关键词多维风险特征体系,一方面获得了完整、准确、可扩展的风险关键词典,另一方面可实现对不同维度的违约风险负面舆情进行评分,以更加准确地分析发债主体的违约行为。
第二、本发明的信用债发债主体违约风险评估方法,将关键词得分按照新闻、发债主体以及风险主题分别进行聚合,可以更加准确地分析债券违约行为。
第三、本发明的信用债发债主体违约风险评估方法,基于大数据处理技术和文本挖掘技术,利用实时更新的新闻文本数据进行信用债发债主体违约负面舆情的识别和打分,提供按照新闻、发债主体和风险主题等多种聚合呈现方式,为投资者提供全面、直观、定制化的债券违约风险评价。
第四、本发明的信用债发债主体违约风险评估方法,可扩展为适用于各种金融衍生产品的信用风险评估方法,对既有的利用宏观经济指标及财务指标的信用风险评估方法做出补充。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明一个实施例中的信用债发债主体违约风险评估方法的流程示意图;
图2为本发明一个实施例中的信用债发债主体违约风险评估系统的结构示意图;
图3为本发明一个实施例中的信用债发债主体违约风险评估装置的结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。
如图1所示,本发明提供了一种信用债发债主体违约风险评估方法,包括:
S101、获取与发债主体匹配的公开新闻文本数据。
来自公开互联网渠道的各家新闻媒体文本数据中可能包含与信用债发债主体无关的信息,这些无关文本信息可能会影响风险评估效果。具体的,通过构建国内信用债发债主体的实体信息库,包括发债主体的公司全称和简称等信息,对新闻报道的标题及内容进行匹配,去掉与发债主体无关的新闻,获得与发债主体匹配的新闻数据集。进一步的,对用实体名称匹配到的新闻数据进行分词和分句处理。分词的目的是为了将文本转化成一个个词语,利用jieba中文分词工具对文本进行分词,分词过程中加入自定义的用户词典,词典中包含信用债发债主体全程及简称、金融、经济、管理等专业分词词典等。分句的目的是在语义层面将文本转化成一个个句子,利用“。?!;”等用于分句的中文、英文标点符号,对文本进行分句。
S102、定义影响发债主体违约风险的风险主题和与其对应的风险种子词。
根据信用债发债主体违约风险评估的问题内涵,定义如下可能影响或揭露违约风险的风险主题和对应的风险关键种子词(“风险主题:风险种子词”):
偿债能力:营收、利润、融资、发债、授信;
偿债意愿:造假、冻结;
债务状况:逾期、违约、担保、质押;
合规问题:诉讼、判决、处罚、警告、警示;
交易状况:大跌、抛售;
高管风险:辞职、失联;
热点风险:违规、纠纷。
S103、根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典。
步骤102中每个风险主题中包含2-5个风险种子词,无法满足评估信用债发债主体违约风险的需要,因此,需要根据定义出来的风险种子词扩展更多的风险关键词,以形成完整的风险关键词典。具体的,在步骤101获取的新闻数据集中随机抽样形成训练样本;利用以浅层神经网络为基础的前沿自然语言处理方法word2vec,将文本中的词进行分散化向量表示,计算每个词与风险种子词之间的向量相似性;选择与每个风险种子词向量相似性最高的前100位的词或去掉与种子词相似性低于预设阈值的词,构建以“种子词-扩展词”为基本结构,包含步骤102中各风险主题的风险关键词典。
S104、根据关键词多维风险特征,对所述风险关键词典中的每个词进行赋值,构建关键词多维风险特征体系。
步骤103中形成的风险关键词典中仅包含风险主题和词等非结构化信息,利用赋予关键词多维风险特征的方式进行量化,对所述风险关键词典中的每个词进行赋值,将非结构化信息转变为结构化信息。具体的,所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性,其中,
主题风险(topic_risk_level):步骤S102中各个风险主题影响或揭露违约风险的程度,类别特征,按照风险主题的严重程度分为1(风险高)、2(风险中等)、3(风险低)三类,同一主题下的种子词及扩展词的主题风险特征相同;
词风险(word_risk_level):步骤103中各风险种子词及扩展词所表示的违约风险严重程度,类别特征,按照风险严重程度分为1(风险高)、2(风险中等)、3(风险低)三类;
词与主题的相关程度(topic_word_relationship):步骤103中计算的风险种子词及扩展词之间的词向量相似性,数值特征,取值为0-1;
关键词情感极性(word_sentiment):步骤103中风险种子词及扩展词的情感极性,类别特征,包括负面(0)、正面(1)、中性(2)。
S105、根据所述关键词多维风险特征体系,构建词评分模型,对所述风险关键词典中情感极性为负面的词进行风险评分,得到“风险类别-风险关键词-关键词风险得分”对应关系,形成信用债发债主体违约风险负面舆情监测语料库。
由于本申请计算的是“违约风险负面舆情”,因此,仅对风险关键词典中关键词情感极性为负面的词进行风险评分。具体的,所述词评分模型为,word_s core=1/word_risk_level+1/topic_r isk_level×word_topic_relationship
其中,word_score为关键词得分,word_risk_level为词风险,topic_risk_level为主题风险,word_topic_relationship为词与主题的相关程度。
S106、根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分。
具体的,包括,(1)根据S105中的信用债发债主体违约风险负面舆情监测语料库,构建违约风险负面舆情评分模型:news_s core=∑word_s core/(news_length+ave_length)
其中,news_score为违约风险负面舆情得分,∑word_score为预设范围内的新闻文本中关键词风险得分之和,news_length为预设范围内的新闻文本长度,ave_length为所述训练样本的平均长度;(2)根据所述违约风险负面舆情评分模型,计算新闻负面舆情得分,新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分,其中,计算新闻负面舆情得分时,∑word_score为该条新闻文本中关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和,news_length为扩展后的新闻文本的长度,进一步的,定位发债主体实体名称所在句,根据新闻文本的总句子数对发债主体名称所在句进行扩展,若新闻文本包含不超过5个句子,则扩展后的新闻文本为该条新闻文本全文;若新闻文本包含超过5个句子,不超过15个句子,则扩展后的新闻文本为以实体名称所在句为中心句向前、向后最多分别扩展两个句子,共计最多5个句子的新闻文本;若新闻文本包含超过15个句子,则扩展后的新闻文本为以实体名称所在句为中心句向前、向后最多分别扩展该条新闻文本句子总数的1/6,即最多取整个新闻文本中与发债主体实体名称最近的1/3的新闻文本;计算新闻-风险主题负面舆情得分时,∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体-风险主题负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度。
本实施例中通过定义不同的风险主题种子词,利用来自公开互联网渠道的新闻文本数据,基于自然语言处理方法,构建以“种子词-扩展词”为基本结构的风险关键词典,进一步构建关键词多维风险特征体系,一方面获得了完整、准确、可扩展的风险关键词典,另一方面可实现对不同维度的违约风险负面舆情进行评分,以更加准确地分析发债主体的违约行为。
本发明的信用债发债主体违约风险评估方法,可扩展为适用于各种金融衍生产品的信用风险评估方法,对既有的利用宏观经济指标及财务指标的信用风险评估方法做出补充。
在另一实施例中,本发明的信用债发债主体违约风险评估方法,还包括,S107、将预设时间段内的新闻-发债主体负面舆情得分,按照发债主体进行分类求和,得发债主体负面舆情得分;将预设时间段内的新闻-发债主体-风险主题负面舆情得分,按照发债主体和风险主题进行分类求和,得发债主体-风险主题负面舆情得分;预设时间段可为一小时、一天、一周、一个月,根据需要自行设定(下同)。
本实施例中将预设时间段内的新闻-发债主体负面舆情得分和新闻-发债主体-风险主题负面舆情得分进行聚合,以实现对信用债发债主体违约风险的动态监测。
在另一实施例中,本发明的信用债发债主体违约风险评估方法,还包括,S108、对预设时间段内的新闻负面舆情得分、发债主体负面舆情得分和发债主体-风险主题负面舆情得分分别进行降序排列,并按顺序推送。
本实施例中,将负面舆情得分按照新闻、发债主体和风险主题等多种聚合方式呈现,并排序推送,为投资者提供全面、直观、定制化的债券违约风险评价,监管者或投资者可根据需要从上到下重点关注负面舆情得分最高的新闻和发债主体。
如图2所示,本发明还提供了一种信用债发债主体违约风险评估系统,包括:
获取模块201,用于获取与发债主体匹配的公开新闻文本数据;
自定义模块202,用于定义影响发债主体违约风险的风险主题和与其对应的风险种子词;
风险关键词典构建模块203,用于根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典;
关键词风险特征体系构建模块204,用于根据关键词风险特征,对所述风险关键词典中的每个词进行量化,构建关键词风险特征体系;
关键词风险评分模块205,用于根据所述关键词风险特征体系,构建词评分模型,对所述风险关键词典中情感极性为负面的词进行风险评分;
负面舆情评分模块206,根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分。
本技术方案基于与信用债发债主体违约风险评估方法相同的发明构思得到,可参考方法部分的描述。
如图3所示,本发明还提供了一种信用债发债主体违约风险评估装置,包括:
处理器301;
存储器302,其存储有可执行指令;
其中,所述处理器301被配置为执行所述可执行指令,以执行上述所述的信用债发债主体违约风险评估方法。
本技术方案基于与信用债发债主体违约风险评估方法相同的发明构思得到,可参考方法部分的描述。本技术方案的装置不限于PC、终端、服务器。比如此装置可以设置在服务器中,间隔设定时间进行数据采集、处理。
这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明信用债发债主体违约风险评估方法、系统及装置的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (6)
1.一种信用债发债主体违约风险评估方法,其特征在于,包括,
获取与发债主体匹配的公开新闻文本数据;
定义影响发债主体违约风险的风险主题和与其对应的风险种子词;
根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典;
根据关键词多维风险特征,对所述风险关键词典中的每个词进行赋值,构建关键词多维风险特征体系;
根据所述关键词多维风险特征体系,构建词评分模型,对所述风险关键词典中情感极性为负面的词进行风险评分;
根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分;其中,
所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性;
所述词评分模型为,
word_score=1/word_risk_level+1/topic_risk_level×word_topic_relationship
其中,word_score为关键词得分,word_risk_level为词风险,topic_risk_level为主题风险,word_topic_relationship为词与主题的相关程度;
根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分,包括,构建违约风险负面舆情评分模型:news_score=∑word_score/(news_length+ave_length),其中,news_score为违约风险负面舆情得分,∑word_score为预设范围内的新闻文本中关键词风险得分之和,news_length为预设范围内的新闻文本长度,ave_length为训练样本的平均长度;根据所述违约风险负面舆情评分模型,计算新闻负面舆情得分,新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分,其中,计算新闻负面舆情得分时,∑word_score为该条新闻文本中关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和,news_length为扩展后的新闻文本的长度;计算新闻-风险主题负面舆情得分时,∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体-风险主题负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度。
2.如权利要求1所述的信用债发债主体违约风险评估方法,其特征在于,根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典包括,在所述公开新闻文本数据中随机抽样,形成训练样本;利用自然语言处理方法,对所述训练样本中的种子词进行扩展,计算扩展词向量与种子词向量之间的相似性;去掉与种子词相似性低于预设阈值的扩展词,构建以“种子词-扩展词”为基本结构的风险关键词典。
3.如权利要求1所述的信用债发债主体违约风险评估方法,其特征在于,还包括,将预设时间段内的新闻-发债主体负面舆情得分,按照发债主体进行分类求和,得发债主体负面舆情得分;将预设时间段内的新闻-发债主体-风险主题负面舆情得分,按照发债主体和风险主题进行分类求和,得发债主体-风险主题负面舆情得分。
4.如权利要求3所述的信用债发债主体违约风险评估方法,其特征在于,还包括,对预设时间段内的新闻负面舆情得分、发债主体负面舆情得分和发债主体-风险主题负面舆情得分分别进行降序排列,并按顺序推送。
5.一种信用债发债主体违约风险评估系统,其特征在于,包括:
获取模块,用于获取与发债主体匹配的公开新闻文本数据;
自定义模块,用于定义影响发债主体违约风险的风险主题和与其对应的风险种子词;
风险关键词典构建模块,用于根据所述公开新闻文本数据,利用自然语言处理方法,对所述风险种子词进行扩展,构建风险关键词典;
关键词风险特征体系构建模块,用于根据关键词风险特征,对所述风险关键词典中的每个词进行量化,构建关键词风险特征体系;
关键词风险评分模块,用于根据所述关键词风险特征体系,构建词评分模型,对所述风险关键词典中情感极性为负面的词进行风险评分;
负面舆情评分模块,根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分;其中,
所述关键词多维风险特征包括主题风险、词风险、词与主题的相关程度和关键词情感极性;
所述词评分模型为,
word_score=1/word_risk_level+1/topic_risk_level×word_topic_relationship
其中,word_score为关键词得分,word_risk_level为词风险,topic_risk_level为主题风险,word_topic_relationship为词与主题的相关程度;
根据关键词风险得分,计算新闻和/或发债主体违约风险负面舆情得分,包括,构建违约风险负面舆情评分模型:news_score=∑word_score/(news_length+ave_length),其中,news_score为违约风险负面舆情得分,∑word_score为预设范围内的新闻文本中关键词风险得分之和,news_length为预设范围内的新闻文本长度,ave_length为训练样本的平均长度;根据所述违约风险负面舆情评分模型,计算新闻负面舆情得分,新闻-发债主体负面舆情得分、新闻-风险主题负面舆情得分、新闻-发债主体-风险主题负面舆情得分,其中,计算新闻负面舆情得分时,∑word_score为该条新闻文本中关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中关键词风险得分之和,news_length为扩展后的新闻文本的长度;计算新闻-风险主题负面舆情得分时,∑word_score为该条新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度;计算新闻-发债主体-风险主题负面舆情得分时,∑word_score为以发债主体名称所在句为中心句向前向后扩展预设句子数的新闻文本中该风险主题下的关键词风险得分之和,news_length为该条新闻文本的长度。
6.一种信用债发债主体违约风险评估装置,其特征在于,包括:
处理器;
存储器,其存储有可执行指令;
其中,所述处理器被配置为执行所述可执行指令,以执行权利要求1-4任一所述的信用债发债主体违约风险评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312863.8A CN111598691B (zh) | 2020-04-20 | 2020-04-20 | 信用债发债主体违约风险评估方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312863.8A CN111598691B (zh) | 2020-04-20 | 2020-04-20 | 信用债发债主体违约风险评估方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598691A CN111598691A (zh) | 2020-08-28 |
CN111598691B true CN111598691B (zh) | 2022-09-13 |
Family
ID=72190350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010312863.8A Active CN111598691B (zh) | 2020-04-20 | 2020-04-20 | 信用债发债主体违约风险评估方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598691B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989014A (zh) * | 2021-10-09 | 2022-01-28 | 北京大数元科技发展有限公司 | 一种地方政府债风险评估方法、装置及存储介质 |
CN117788136A (zh) * | 2023-11-24 | 2024-03-29 | 浙江孚临科技有限公司 | 一种基于区块链和舆情的金融风控系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440235A (zh) * | 2013-08-20 | 2013-12-11 | 中国科学院自动化研究所 | 一种基于认知结构模型的文本情感类型识别方法及装置 |
US9754020B1 (en) * | 2014-03-06 | 2017-09-05 | National Security Agency | Method and device for measuring word pair relevancy |
CN109670837A (zh) * | 2018-11-30 | 2019-04-23 | 平安科技(深圳)有限公司 | 债券违约风险的识别方法、装置、计算机设备和存储介质 |
CN109934503A (zh) * | 2019-03-19 | 2019-06-25 | 合肥工业大学 | 一种互联网环境下的金融市场风险预警方法 |
CN110490726A (zh) * | 2019-07-11 | 2019-11-22 | 林宏伟 | 信用债风险管理方法、装置、设备及存储介质 |
-
2020
- 2020-04-20 CN CN202010312863.8A patent/CN111598691B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111598691A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haselmayer et al. | Sentiment analysis of political communication: Combining a dictionary approach with crowdcoding | |
Chartier et al. | Text mining methods for social representation analysis in large corpora | |
US20110106743A1 (en) | Method and system to predict a data value | |
Fisher et al. | The role of text analytics and information retrieval in the accounting domain | |
Rianto et al. | Improving the accuracy of text classification using stemming method, a case of non-formal Indonesian conversation | |
Suryono et al. | P2P Lending sentiment analysis in Indonesian online news | |
CN111598691B (zh) | 信用债发债主体违约风险评估方法、系统及装置 | |
Ballier et al. | Machine learning for learner English: A plea for creating learner data challenges | |
Chung et al. | Text-mining open-ended survey responses using structural topic modeling: A practical demonstration to understand parents’ coping methods during the COVID-19 pandemic in Singapore | |
Lee et al. | Deciphering monetary policy board minutes with text mining: The case of South Korea | |
Ao | Sentiment analysis based on financial tweets and market information | |
Mutiara et al. | Improving the accuracy of text classification using stemming method, a case of non-formal Indonesian conversation | |
Kochuieva et al. | Usage of Sentiment Analysis to Tracking Public Opinion. | |
Gaillat et al. | The SSIX corpora: Three gold standard corpora for sentiment analysis in English, Spanish and German financial microblogs | |
Saputri et al. | Sentiment analysis on shopee e-commerce using the naïve bayes classifier algorithm | |
Küster et al. | The Informational Content of Key Audit Matters: Evidence from Using Artificial Intelligence in Textual Analysis | |
Medagoda et al. | Keywords based temporal sentiment analysis | |
CN113420544A (zh) | 一种热词确定方法、装置、电子设备及存储介质 | |
Han et al. | Characterizing peer review comments of academic articles in multiple rounds | |
Wu et al. | Public opinion toward CSSTA: A text mining approach | |
Stine et al. | A quantitative portrait of legislative change in Ukraine | |
SURYONO et al. | P2P Lending Sentiment Analysis in Indonesian Online | |
CN117875309B (zh) | 基于大数据与深度学习的舆情分析方法、装置及介质 | |
Cho et al. | Does the textual tone of analyst reports have valuable information? Korean evidence | |
Maharani et al. | Sentiment Analysis of the 2024 Indonesian Presidential Dispute Trial Election using SVM and Naïve Bayes on Platform X |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |