CN103093280A - 信用违约预测方法与装置 - Google Patents
信用违约预测方法与装置 Download PDFInfo
- Publication number
- CN103093280A CN103093280A CN2012104223762A CN201210422376A CN103093280A CN 103093280 A CN103093280 A CN 103093280A CN 2012104223762 A CN2012104223762 A CN 2012104223762A CN 201210422376 A CN201210422376 A CN 201210422376A CN 103093280 A CN103093280 A CN 103093280A
- Authority
- CN
- China
- Prior art keywords
- word
- mood
- word frequency
- news
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000012216 screening Methods 0.000 claims abstract description 31
- 230000036651 mood Effects 0.000 claims description 57
- 238000000546 chi-square test Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000000994 depressogenic effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000007306 turnover Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是提供一种预测信用违约的方法,包含下列步骤:利用第一演算法筛选文件的多个特征词,利用第二演算法产生多个经筛选的该等特征词的多个权重,利用该等权重以及第三演算法产生至少一个量化指标,从财务资料以及该等量化指标筛选多个变量,以及利用该等变量以及第四演算法产生预测信用违约指数。
Description
技术领域
本发明是关于一种违约预测方法与装置,尤指一种信用违约预测方法与装置。
背景技术
企业无预警倒闭事件层出不穷,企业财务危机不只是单一层面的问题,更严重还会危及整个社会体系的运作,因此,提升企业违约机率预测的准确度已成为财务风险管理领域的重要议题。
信用风险(Credit Risk)是指因交易对手信用品质发生变化,导致银行持有部位价值的改变,更甚者发生违约(Default),即交易对手无意愿或无法履行契约。而信用评分(Credit Scoring)为提供风险排序的相关信息,信用评等等级良好的企业,仅是反映其偿债能力较强、无法履行债务机率较低,故能有效区分出各公司的信用风险,除协助市场专业人士作融资或授信等财务决策,或使债务发行人及投资人都能更清楚掌握企业的债信状况,也能及时侦测出财务危机公司。
关于本领域的现有技术,中国台湾新型专利M377655揭露一种具有智能型企业营运风险评估系统的计算机,中国专利公开说明书CN1928905揭露一种企业危机预警系统主要通过对企业各种经营管理信息的比较、分析和评价,判别企业目前的经营状态是否进入危机,以及预测企业的未来是否会发生危机。以上两篇虽皆以评估企业营运风险,但其并未使用与企业攸关的公开报导,以预测企业信用指标。另外,中国台湾专利I252987揭露一种可从大量信息之中自动抽出应注意信息的技术,其信息来自于个人Web页和布告栏的发言的个人意见。因此,I252987其主要分析的目的为个人意见的公开内容,藉此指定关于该对象的个人评价(好评价/坏评价),而非评估企业营运风险。过去财务危机预测的相关研究,大多采用财务报表等量化信息进行研究,然而企业危机事件的征兆往往隐藏在事件发生前的公开信息中。然而,投资人普遍认为公开信息为纯噪声的观念,不具有内涵价值。
职是之故,发明人鉴于现有技术的缺失,乃经悉心试验与研究,并一本锲而不舍的精神,发明出本发明“信用违约预测方法与装置”,以下为本发明的简要说明。
发明内容
本发明纳入新闻信息内涵做为提升企业信用评等的预测能力,并证实已公开的新闻信息内涵可增进企业信用风险指标的预测能力
本发明的一个面向是提供一种预测信用违约的方法,包含下列步骤:利用第一演算法筛选文件的多个特征词(或特征字);利用第二演算法产生多个经筛选的该等特征词(或特征字)的多个权重;利用该等权重以及第三演算法产生至少一个量化指标;从财务资料以及该量化指标筛选多个变量;以及利用该等变量以及第四演算法产生预测信用违约指数。
本发明的另一个面向是提供一种预测信用违约的装置,包含:计算单元,用以筛选文件的多个特征词(或特征字),产生该等特征词(或特征字)的多个权重,产生至少一个量化指标,筛选财务资料以及该量化指标的多个变量,以及产生预测信用违约指数;输出单元,输出由该计算单元所得的该等特征词(或特征字)与权重表;以及储存单元,储存由该输出单元而来的该等特征词(或特征字)与该权重表,其中该等特征词(或特征字)与该权重表是由多个演算法筛选而来。
本发明的又一个面向是提供一种预测信用违约的方法,包含下列步骤:提供财务资料;提供至少一个量化指标;筛选财务资料以及该量化指标的多个变量;以及利用该等变量产生预测信用违约指数。
本发明的再一个面向是提供一种产生量化指标的方法,包含下列步骤:为特定目的而取得的一个文件提供多个特征字;为该等特征字分别赋予多个权重;以及以该等权重为基础,为所述文件产生至少一个量化指标。
为了易于说明,本发明得通过下述实施例及附图而得到充分了解,并使得熟习本领域的技术人员可以据以完成之,然本发明的实施型态并不限制于下列实施例中。
附图说明
图1:本发明文本量化指标试算的流程图。
图2:本发明信用违约预测的流程图。
图3:本发明预测信用违约的装置。
主要元件符号说明
11、12、121、122、131、132、14、15、16、21、22、23、24、25步骤
3预测信用违约的装置
31计算单元
32输出单元
33储存单元
331多个特征词
332权重表
具体实施方式
图1为文本量化指标试算的流程图。首先先进行文本搜集(步骤11),并进行前处理(步骤12),前处理包含结构化处理(步骤121)以及断词(步骤122)。接着利用演算法进行特征词的筛选(步骤131)或者直接由专家筛选分类特征词(步骤132)。由演算法或者专家筛选出的特征词接着利用演算法进行特征词权重计算(步骤14),然后汇整不同演算法筛选过的分类特征词与权重列表(步骤15),最后利用演算法进行文本量化指标计算(步骤16)。
图2为信用违约预测的流程图。首先搜集文本与建构量化指标(步骤21)以及搜集其他量化信息(步骤22),该等量化信息可包括但并不限于如财务比率、公司治理、总体经济或其它。之后筛选纳入模型分析的变量(步骤23),筛选方式可利用经验法则自行筛选或者利用统计方法筛选。接着利用二元罗吉斯回归或者稳健罗吉斯回归公式进行信用违约预测(步骤24),最后进行模型绩效评估(步骤25)。
图3为预测信用违约的装置3,装置3包含计算单元31、输出单元32及储存单元33。计算单元31用以筛选文件的多个特征词,产生该等特征词的多个权重,产生多个量化指标,筛选财务资料以及该等量化指标的多个变量,以及产生预测信用违约指数。输出单元32输出由计算单元所得的该等特征词与权重表。而储存单元33储存由输出单元而来的该等特征词331与权重表332,其中该等特征词与权重表是由多个演算法筛选而来。
以下开始介绍图1与图2的详细步骤及相关的演算法。
一、用演算法进行特征词筛选:
用演算法进行特征词筛选:特征词筛选可应用无母数的卡方独立性检验进行,在此是指某一词汇t对某一类别i的独立性(正交性)缺乏程度,独立性缺乏程度愈高,表示此词汇t对此类别i相当重要。特征词的计算方面经由卡方测试所挑选出的语词比直接计算频率的效果更好,故为提高分类词汇的鉴别度,可利用卡方独立性检验以过滤不具代表性的词汇,再经由过滤后所剩下的词汇,筛选出具代表性的分类特征词。卡方独立性检验统计量如下:
以下以乐观与悲观两类分类特征词,说明卡方独立性检验的意涵。其中,i=1代表乐观文件的类别;i=0代表悲观文件的类别;A为类别i中包含词汇t的词频;B为类别i中不包含词汇t的词频;C为不在类别i中包含词汇t的词频;D为不在类别i中不包含词汇t的词频;N为所有词汇的词频加总。每一类别中所有出现的情绪词,皆须计算其卡方值,最后将低于门槛值的不显著情绪词剔除后,留下值高者作为代表乐悲观情绪词的扩充词。
二、应用演算法进行特征词权重计算:
(一)条件概率概念:
特征词权重计算利用条件概率计算方程式,计算分类特征词的权重,其中分类特征词的权重计算方式如下:
以下以乐观与悲观两类分类特征词,说明其权重的计算概念。其中,βip代表第i个情绪词的乐观权重;tfip代表第i个情绪词在乐观新闻的词频;TFp代表乐观新闻中所有情绪词的词频;Pr(tfip|TFp)代表乐观新闻中第i个情绪词占所有情绪词的比例;tfiA代表第i个情绪词在所有新闻的词频;TFA代表所有情绪词的总词频;Pr(tfiA|TFA)代表所有新闻中第i个情绪词占所有情绪词的比例。悲观词权重计算方式如下:
其中,βin代表第i个情绪词的悲观权重;tfin代表第i个情绪词在悲观新闻的词频;TFn代表悲观新闻中所有情绪词的词频;Pr(tfin|TFn)代表悲观新闻中第i个情绪词占所有情绪词的比例;tfiA代表第i个情绪词在所有新闻的词频;TFA代表所有情绪词的总词频;Pr(tfiA|TFA)代表所有新闻中第i个情绪词占所有情绪词的比例。
(二)熵值(entropy)权重法:
训练阶段:本发明在训练阶段引用计量熵值观念,熵值可用来估算每一个信息所隐含的信息量,并计算出信息的相对权重,而熵值权重法是引用熵值观念,来求取各 特征词间的相对权重。作法为首先经由每一个危机特征词对各公司的量测值所求算出的熵值,来说明该特征词对分类决策中所能传递(transmit)的决策信息(decision information)的程度。然后再比较各特征词的熵值,计算出彼此间的相对重要性,即得到该特征词的相对权重值。
由于熵值权重是利用评估矩阵表中的信息所求得,故属于客观权重。熵值权重的计算步骤如下:
【步骤一】计算各特征词的熵值ej
k=(1/lnm)
其中,m为公司数量,pij为第j个特征词在第i公司发生的概率,eij为第i家公司在第j个特征词上的熵值。
【步骤二】计算第i家公司在各特征词间的相对客观权重wij
wij=(1-eij)/n-∑eij
其中,n为特征词数量。在危机与非危机两类别样本中,各特征词皆可计算出相对客观权重值。
测试阶段:将测试期间每一篇文本中的词汇,分别与两类特征词群相对照,抓取相同特征词的相对客观权重值,并且藉由熵值符合数学上累加原则(可加性)的特性,将所有相对客观权重值累加,求得权重值与类别的相关强度。
(三)专家筛选与应用演算法筛选的特征词的列表:
碍于篇幅考虑,仅列出部分特征词供参酌。
表1:专家筛选特征词:
表2:卡方检验及贝式条件概率:
危机 | 权重 | 非危机 | 权重 |
人去楼空 | 5.8067 | 引进 | 0.9179 |
入不敷出 | 5.8067 | 水涨船高 | 1.1839 |
下市 | 5.4195 | 加温 | 1.1350 |
大费周章 | 5.8067 | 回春 | 1.1445 |
不支倒地 | 4.3550 | 如虎添翼 | 0.4832 |
不佳 | 1.2645 | 成长 | 1.1453 |
不振 | 3.4840 | 有利 | 1.1204 |
欠债 | 5.8067 | 大跃进 | 1.1649 |
出事 | 2.9033 | 支持 | 0.6208 |
失利 | 4.3212 | 大增 | 1.1313 |
乐观 | 权重 | 悲观 | 权重 |
上扬 | 1.5336 | 下挫 | 1.3982 |
不同凡响 | 2.1909 | 下滑 | 1.4718 |
出色 | 2.1909 | 不安 | 1.8397 |
可观 | 2.0540 | 不良 | 1.5976 |
力争上游 | 2.1909 | 不景气 | 1.8397 |
上攻 | 2.1909 | 不敌 | 1.8397 |
上看 | 2.1909 | 失守 | 1.8397 |
上涨 | 1.7578 | 打压 | 1.8397 |
不错 | 1.8902 | 吃紧 | 2.1909 |
加持 | 1.7527 | 利空 | 1.8397 |
[0056] 表3:卡方检验及熵值权重法:
危机 | 权重 | 非危机 | 权重 |
下台 | 0.000332 | 力挺 | 0.000888 |
不佳 | 0.002282 | 上扬 | 0.002242 |
不景气 | 0.000932 | 支持 | 0.002134 |
不满 | 0.000526 | 充裕 | 0.001301 |
低迷 | 0.002088 | 回春 | 0.000560 |
受阻 | 0.001053 | 回稳 | 0.001449 |
延误 | 0.000932 | 如虎添翼 | 0.000888 |
重创 | 0.000526 | 成长 | 0.003240 |
降财测 | 0.000771 | 改善 | 0.002603 |
受制 | 0.000932 | 受惠 | 0.002291 |
乐观 | 权重 | 悲观 | 权重 |
上扬 | 0.006520 | 下降 | 0.003418 |
上涨 | 0.005718 | 下修 | 0.002333 |
出色 | 0.004785 | 下挫 | 0.002944 |
加温 | 0.006232 | 不佳 | 0.006253 |
良好 | 0.001595 | 不振 | 0.004133 |
供不应求 | 0.003704 | 失利 | 0.002333 |
拓展 | 0.003704 | 利空 | 0.002333 |
持稳 | 0.003704 | 走弱 | 0.002944 |
突破 | 0.007408 | 拖累 | 0.001472 |
奏效 | 0.002528 | 盈转亏 | 0.006017 |
三、文本量化指标试算方法
(一)信息揭露程度:
若某特定日期的新闻报导与个股有密切关系,当公司相关报导在特定日期的“新闻标题”或是“内文第一段”出现关键词时,即将该日期的虚拟变量标记为1,最后加总估计期内有几天个股的相关新闻在“新闻标题”或是“内文第一段”出现公司关键词作为公开信息揭露程度的衡量。Media的计算如下:
其中i代表股票,t为时间,Mediait表示第i档股票在第t天的信息揭露程度,n=1...N,表示第t天有几篇新闻提到该公司的关键词,n篇新闻可能包括不同报社或是不同记者,NEWSi,t,n为第i档股票在第t天中的第n篇新闻是否有提到公司关键词的虚拟变量,当公司在标题或文章的第一段被提及则记为1,若没有则计为零。
考虑新闻报导信息揭露的可能性,也可将此变量的建构概念扩充为以下几种类型:仅考虑公司名称是否出现在标题与内文第一段,考虑公司名称是否出现在标题与内文,考虑该公司名称是否在当天的新闻媒体有曝光(仅考虑是否曝光,不再细分名称曝光方式)。
(二)财务危机发生率强度指标:
每一家样本公司的财务危机发生率强度,是由该样本公司的财务危机词发生权值与非财务危机词发生权值交互比对而来,因此本发明利用财务危机词权值对非财务危机词权值的相对重要性,定义出评估该公司文词语意中的财务危机发生强度的衡量指标,计算方法如下:
其中, 为第i家公司在第j个财务危机特征词上的词频; 为第j个财务危机特征词的权重; 为第i家公司在第k个非财务危机特征词上的词频; 为第k个非财务危机特征词的权重,特征词权重计算,可搭配使用贝式条件概率权重法或熵值权重法。当危机群的相对财务危机发生率强度指标大于非危机群,即预测此公司发生财务危机的机率大;反之,则预测此公司发生财务危机机率小。
(三)公开新闻的净乐观程度:
本发明建立个股中文公开传媒报导的净乐观程度(NSR),可定义如下:
若考虑特征词的权重,则此指标可调整如下:
若不经过断词处理,则该指标可调整如下:
四、信用违约预测方法:
(一)二元罗吉斯回归(Binary Logistic Regression,简称LR)
Logit模型是处理二元因变量(dichotomous dependent variable)问题的多元量化分析方法,其反应函数呈曲线型态,为S型或倒S型,而反应函数概率值介于0与1之间。
罗吉斯回归分析的目的有二,一在求取具有显著解释能力的自变量,另一则是通过所建构的模型来预测财务危机发生的机率。本文所使用的二元罗吉斯回归模型如下:
其中,yi为实际观测到的反应变量,yi=1时表示财务危机事件发生,yi=0时表示财务危机事件未发生; 为无法观测的隐藏变量(Iatent variable);α为截距项;xi为第i家公司的解释变量;β为解释变量的敏感度参数;Di为第i家公司的虚拟变量(dummy),Di=1时表示Di属于第i家公司,Di=0时表示Di不属于第i家公司;γ为虚拟变量的敏感度参数;εi为第i家公司解释(虚拟)变量的随机误差项。进一步表达成罗吉斯模型(logit model),其模型如下所示:
P(yi=1|xi,Di)=P[α+βxi+γDi+εi>0]
=P[εi>-(α+βxi+γDi)]
=P[εi≤α+βxi+γDi]
其中,假设εi服从罗吉斯分配(logit distribution),其期望值为0,变异数为π2/3≈3.29。
因此,可将其表达如下:
其中P表示第i公司发生财务危机的概率测度,其为介于0与1间的实数。
将似然函数取对数后,可得对数似然函数如下:
通过极大化即可估得参数的最大似然估计值,进而求得财务危机事件发生概率的估计值。
(二)稳健罗吉斯回归(Robust Logistic Regression,RLR):
为处理极端值的回归方法,是将传统的Logit Model加入一个处理离群值的方法,即Robust Regression,而传统的Robust Regression方法是将找到的离群值剔除,而本发明以选取误差值中位数为处理离群值的重点,减低离群值对于估计结果产生重大的影响,进而提升估计准确性。RLR的估计步骤如下:
1.随机选取所有样本资料的80%作为样本内资料(in sample),接下来的估计步骤皆针对样本内资料来进行。
接着计算预测观察值的正确概率p(k+1),i:
对应着正确概率,也可以计算观察值的错误概率e(k+1),i(类似残差的概念)为:
e(k+1),i=1-p(k+1),i
将这些e(k+1),i后,由小排到大:
e(k+1),1<e(k+1),2<...<e(k+1),N
再取出这些e(k+1),i的中位数,并令其为e(k+1),med。
3.进行步进搜寻演算法(Forward Search Algorithm)。多增加一个观察值,即取用k+2个观察值,但这k+2个观察值是步骤1中e(k+1),i排序后最小的k+2个观察值(代表选用残差最小的k+2的观察值,等于是排除了离群值),即e(k+1),1,e(k+1),2...e(k+1),k+2这k+2个观察值,利用这k+2个观察值再进行估计,得 重复步骤1中对所有N个观察值的e(k+2),i进行排序,取出中位数,并令其为e(k+2),med。
4.重复步骤2,再增加一个观察值,取步骤2中e(k+2),i排序后最小的k+3个观察值(代表选用残差最小的k+3的观察值,等于是排除了离群值),再进行估计而得 同样地再对所有N个观察值的e(k+3),i进行排序,取出中位数,并令其为e(k+3),med。如此逐次加入一个观察值,直到所有观察值都被加入为止,如此可再得到 以及每次的e(k+1),i的中位数e(k+4),med,e(k+5),med,...,eN,med。
可重复步骤1至步骤5,但取用不同的k+1个观察值。
五、本发明实证分析:
(一)资料叙述性统计分析:本发明依据2001年至2009年间,财务危机发生前一季至前四季的财务危机公司及非危机公司的公开新闻信息变量、财务结构变量、公司治理及处理效果变量与总体经济变量,所作的叙述统计及平均数差异检验,列于表4至表9。纳入公开新闻信息变量方面,本发明显示财务危机发生率强度(ITDC)及净乐观程度指标(NSR)于各季皆达1%的显著水平,换言之,通过本发明过程所建立的公开新闻量化指标,可以发现公司的危机信号。
表4:公开信息量化指标叙述性统计资料
表5:危机公司与非危机公司的公开信息量化指标统计量分析表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%
财务结构变量方面,流动性分析变量的流动比率、速动比率、现金流量比率;偿债力分析变量的负债比率、利息保障倍数;经营效能分析变量的总资产周转率、每股盈余;且获利能力分析变量的毛利率、税前净利率、总资产报酬率、净值报酬率等十一项变量,在前一季至前四季中,财务危机公司与非危机公司之间的差异性均达到1%的显著性,结果显示这些变量在财务危机公司与非危机公司之间具有差异性。
表6:危机公司与非危机公司的财务结构变量统计量分析表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%
在公司治理方面,参与管理、调降财测次数、财务主管或会计师连续更换、财报品质以及董监事持股比例等五项变量,在前一季至前四季中,均达1%的显著水平。
表7:危机公司与非危机公司的公司治理变量统计量分析表
注1:*:显著水平10%,**:显著水平5%,***:显著水平1%。
注2:控制权:最大(控制)股东对公司的控制链的最小股权比率相加;现金流量权:找出公司的最大股东,并将控制链上的各股权相乘后相加;参与管理:公司的总经理是董事长为同一人者,以“1”来表示,若否,则以“0”表示;交叉持股:某公司具有控制公司,且该控制公司又同时持有某公司的股份时(D=1),表示有交叉持股的现象;金字塔结构:当控制股东通过至少一家上市公司控制另一家上市公司时(D=1),表示此公司存有金字塔结构;家族控制:根据Lee和Yeh(2004)的研究,当多个股东同属一家族,且其股权总和超过20%者(D=1);调降财测次数:财务危机发生前五年中,一年内有两次调降或连续两年皆有财测调降的情形,此可能表示管理当局无法掌握产业变动,或者是先放出利多信息,据此掩饰企业实际情况;财务主管或会计师连续更换:财务危机发生前五年中,连续更换财务主管或会计师的次数;财报信息品质:凡公司在以下四项中符合三项者,表示此企业财务报表有虚增盈余的现象,以“1”表示,反之则为“0”(损益表有正的获利,但营运现金流量为负、应收帐款增加幅度超过营业收入增加幅度、平均收现天数与平均销货天数逐年上升、过高的员工分红配股);应收票据帐款:仅含出售商品、劳务的货币请求权(仅关系人部份),非营业行为者均予剔除(仅关系人部份);董监事持股比率:董监事持股比率=董监事持股总数/流通在外股数;董监事质押比率:董监事质押比率=董监事质押股数/董监事持有股数。
公司治理处理效果方面,董监事持股程度、董监事质押程度、持股比率*持股程度和质押比率*质押程度,在前一季至前四季中也都达1%的显著水平。
表8:危机公司与非危机公司的公司治理处理效果变量统计量分析表
注1:*:显著水平10%,**:显著水平5%,***:显著水平1%
注2:董监事质押程度:董监事质押比率高于50%者,为高质押程度(D=1),董监事质押比率低于50%者,为低质押程度(D=0);持股比率*持股程度:董监事持股比率与持股程度相乘的结果;质押比率*质押程度:董监事质押比率与质押程度相乘的结果;持股程度*质押程度:将高持股与高质押设为1,其他三种组合(高持股与低质押、低持股与高质押以及低持股与低质押)皆设为0。
最后,总体经济变量方面,并无发现任何对于财务危机公司与非危机公司间,具有显著性结果的变量。
表9:危机公司与非危机公司的总体经济变量统计量分析表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%
(二)回归模型分析:
模型1:各类公开信息量化指标
模型2:公开信息量化指标+流动性分析变量
模型3:公开信息量化指标+偿债力分析变量
模型4:公开信息量化指标+经营效能分析变量
模型5:公开信息量化指标+获利能力分析变量
模型6:公开信息量化指标+公司治理变量
模型7:公开信息量化指标+公司治理处理效果变量
模型8:公开信息量化指标+总体经济变量
模型9:公开信息量化指标+“样本平均数差异性检验”达5%显著水平的变量
模型10:公开信息量化指标+“模型1至模型8中参数检验”各季同时达5%的显著变量
上述模型1至模型10其实证结果整理于表10至表19。由各类公开信息量化指标所构建的模型1,可观察出财务危机发生强度指标(ITDC)变量及公开信息净乐观程度(NSR)变量,不论在危机发生前哪一季皆至少达5%显著水平。
表10:模型1参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上流动性分析变量所构建的模型2,其实证结果可观察出公开信息量化指标在危机发生前一季到前四季至少达5%显著水平;流动比率在危机发生前三季和前四季至少达5%显著水平;现金流量比率在危机发生前一季到前四季至少达5%显著水平。
表11:模型2参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上偿债力分析变量所构建的模型3,其实证结果可观察出公开信息量化指标在危机发生前一季到前四季皆达1%显著水平;而负债比率在危机发生前一季到前四季均达1%的显著水平。
表12:模型3参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上经营效能分析变量所构建的模型4,其实证结果可观察出公开信息量化指标在危机发生前一季到前四季均达1%显著水平;总资产周转率、每股盈余、净值周转率等三项变量,在危机发生前一季到前四季各达5%的显著性。
表13:模型4参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上获利能力分析变量所构建的模型5,其实证结果可观察出公开信息量化指标在危机发生前一季到前四季均达1%显著水平;净值报酬率在危机发生前一、三、四季各达10%显著水平;毛利率在危机发生前第四季达1%显著水平;营业净利率在危机发生前一季达10%显著水平;税前净利率在危机发生前二季达10%显著水平外,其余变量均未达显著水平。
表14:模型5参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上公司治理变量所构建的模型6,其实证结果可观察出公开信息量化指标不论在哪一季皆至少达1%的显著水平;解释变量中,财报信息品质在前二季和前三季具显著性;另外,董监事持股比率在前一季到前四季达1%显著水平,其余变量均未达显著水平。
表15:模型6参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上公司治理处理效果变量所构建的模型7,其实证结果可观察出公开信息量化指标不论在哪一季皆达1%的显著水平;在解释变量中,危机发生前一季到前四季均未达显著水平。
表16:模型7参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上总体经济变量所构建的模型8,其实证结果可观察出公开信息量化指标不论在哪一季皆至少达1%的显著水平;总体经济变量方面,M1B年增率在危机发生前一季及前三季达显著水平,IPI年增率在危机发生前第一、二季达显著水平外,其余解释变量均未达显著水平。
表17:模型8参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
模型9为公开信息量化指标加上样本平均数差异性检验均达5%显著水平的变量所构建的模型,其实证结果可观察出公开信息量化指标在危机发生前一、二、四季达5%显著水平;解释变量里,除负债比率在危机发生前一季到前四季均至少达5%的显著水平;流动比率、速动比率及现金流量比率在前四季皆达5%的显著水平;毛利率在第四季达10%的显著水平;总资产报酬率在前三季达10%的显著水平;董监事持股比率在危机发生前二、三季达10%的显著水平外,其余变量则不具有显著性。
表18:模型9参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
由公开信息量化指标加上模型1至模型8中参数检验实证结果中各季同时达5%的显著变量所建构的模型10,其实证结果可观察出公开信息量化指标在危机发生前第一、二、四季达5%的显著水平。其他变量方面,则以负债比率及董监事持股比率在危机发生不论在哪一季皆至少达5%的显著水平;现金流量比率在危机发生前四季达5%显著水平;每股盈余在危机发生前三季以及前四季达5%显著水平;其余变量皆无达到显著标准。
表19:模型10参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
(三)财务危机预警效能的验证与比较:
1.资料叙述性统计分析:本发明以TCRI指标为基础,验证纳入公开信息的信息内涵,是否能提升TCRI的配适与预测能力。本发明搜集2001年至2009年间,财务危机发生前一季至前四季的财务危机公司及非危机公司的TCRI指标进行以下分析,平均数差异检验结果可参见表20。TCRI指标在前一季至前四季中,财务危机公司与非危机公司之间的差异性均达到1%的显著性,结果显示TCRI在财务危机公司与非危机公司之间具有差异性。
表20:危机公司与非危机公司的TCRI指标统计量分析表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%
2.回归模型分析:
模型11:TCRI指标
模型12:公开信息揭露程度(Media)+TCRI指标
模型13:公开新闻的净乐观程度(NSR)+TCRI指标
模型14:财务危机发生率强度指标(ITDC)+TCRI指标
模型15:公开新闻信息变量(Media、NSR与ITDC)+TCRI指标
以下检测TCRI指标对危机发生与否的解释能力,并以TCRI为基础(模型11),分别纳入各类公开信息量化指标(模型10~模型15),检测纳入新闻信息的解释能力,回归 分析汇整于表21。模型11检测TCRI指标的解释力,检测发现TCRI指标不论在危机发生前一至四季,解释力均达1%的显著水平。由公开信息揭露程度(Media)加上TCRI指标所构建的模型12,其实证结果可观察出TCRI指标不论在危机发生前一至四季均达1%的显著水平。由公开新闻的净乐观程度(NSR)加上TCRI指标所构建的模型13,其实证结果可观察出净乐观程度(NSR)和TCRI指标不论危机发生前一至四季均达1%的显著水平。由财务危机发生率强度指标(ITDC)加上TCRI指标所构建的模型14,其实证结果可观察出财务危机发生率强度指标(ITDC)和TCRI指标不论在危机发生前一至四季均达1%的显著水平。由公开信息量化指标加上TCRI指标所构建的模型15,其实证结果可观察出TCRI指标仍达1%的显著水平;财务危机发生率强度指标(ITDC)在危机发生前二季、前三季和前四季至少达5%的显著水平;净乐观程度(NSR)在危机发生前二季达5%的显著水平,公开信息揭露程度(Media)在危机发生前四季达5%的显著水平。
表21:模型11至15参数检验结果一览表
注:*:显著水平10%,**:显著水平5%,***:显著水平1%。
本发明确认具有及时性的公开传媒新闻报导中,确实隐含未来企业财务危机发生的攸关信息,可作为投资人或政府单位进行监督及管理的风险评估依据;再者,经由适当的文词语意探勘技术与不同演算法建立的关键词,构建量化的企业财务危机发生率强度指标,确实有助于提升企业财务危机预警模型的预测效能。
实施例:
1.一种预测信用违约的方法,包含下列步骤:
利用第一演算法筛选文件的多个特征词;
利用第二演算法产生多个经筛选的该等特征词的多个权重;
利用该等权重以及第三演算法产生至少一个量化指标;
从财务资料以及该量化指标筛选多个变量;以及
利用该等变量以及第四演算法产生预测信用违约指数。
2.根据实施例1所述的方法,其中该第一演算法使用如下公式:
其中t代表词汇,i=1代表该文件的第一类别,i=0代表该文件的第二类别,χ2(t,i)代表t与i的卡方检验值,A为i中包含该词汇t的词频,B为i中不包含该词汇t的词频,C为不在i中包含该词汇t的词频,D为不在i中不包含该词汇t的词频,而N为所有词汇的词频加总。
3.根据实施例1-2所述的方法,其中该第二演算法是使用如下公式:
其中βip代表第i个情绪词的分类特征词的权重,tfip代表第i个情绪词的该分类特征词的词频,TFp代表乐观新闻中所有情绪词的词频,Pr(tfip|TFp)代表属于该分类特征词的新闻中第i个情绪词占所有情绪词的比率,tfiA代表第i个情绪词在所有新闻的词频,TFA代表所有情绪词的总词频,而Pr(tfiA|TFA)代表所有新闻中第i个情绪词占所有情绪词的比率。
4.根据实施例1-3所述的方法,其中该量化指标是指选自公开信息揭露程度(Media),财务危机发生率强度指标(ITDC)以及净乐观程度(NSR),其中:
i代表股票,t代表时间,Mediait代表第i档股票在第t天的信息揭露程度,n为第t天提到公司的关键词的新闻数,NEWSi,t,n为第i只股票在第t天中的第n篇新闻的变量,当新闻标题或文章的第一段提及该公司时,所述变量为1,而当新闻标题或文章的第一段未提及该公司时,所述变量为0;
5.根据实施例1-4所述的方法,其中该第四演算法选自二元罗吉斯回归公式以及稳健罗吉斯回归公式。
6.一种预测信用违约的装置,包含:
计算单元,用以筛选文件的多个特征词,产生该等特征词的多个权重,产生至少一个量化指标,筛选财务资料以及该量化指标的多个变量,以及产生预测信用违约指数;
输出单元,输出由该计算单元所得的该等特征词与权重表;以及
储存单元,储存由该输出单元而来的该等特征词与该权重表,其中该等特征词与该权重表是由多个演算法筛选而来。
7.根据实施例6所述的装置,其中该等特征词与该权重表是由卡方检验和条件概率以及该卡方检验和熵值权重法计算并筛选。
8.根据实施例6-7所述的装置,其中该卡方检验使用如下公式:
其中t代表词汇,i=1代表文件的第一类别,i=0代表该文件的第二类别,A为i中包含该词汇t的词频,B为i中不包含该词汇t的词频,C为不在i中包含该词汇t的词频,D为不在i中不包含该词汇t的词频,而N为所有词汇的词频加总,且其中该条件概率使用如下公式:
其中βip代表第i个情绪词的分类特征词的权重,tfip代表第i个情绪词的该分类特征词的词频,TFp代表乐观新闻中所有情绪词的词频,Pr(tfip|TFp)代表属于该分类特征词的新闻中第i个情绪词占所有情绪词的比例,tfiA代表第i个情绪词在所有新闻的词频,TFA代表所有情绪词的总词频,而Pr(tfiA|TFA)代表所有新闻中第i个情绪词占所有情绪词的比例。
9.一种预测信用违约的方法,包含下列步骤:
提供与企业信用违约相关的量化信息;
提供至少一个文本量化指标;
筛选量化信息以及该文本量化指标的多个变量;以及
利用该等变量产生预测信用违约指数。
10.一种产生量化指标的方法,包含下列步骤:
为特定目的而取得的文件提供多个特征字;
为该等特征字分别赋予多个权重;以及
以该等权重为基础,为该文件产生至少一个量化指标。
Claims (10)
1.一种预测信用违约的方法,包含下列步骤:
利用第一演算法筛选文件的多个特征词;
利用第二演算法产生多个经筛选的该等特征词的多个权重;
利用该等权重以及第三演算法产生至少一个量化指标;
从财务资料以及所述量化指标筛选多个变量;以及
利用该等变量以及第四演算法产生预测信用违约指数。
2.如权利要求1所述的方法,其中所述第一演算法是使用如下公式:
其中t代表词汇,i=1代表所述文件的第一类别,i=0代表所述文件的第二类别,χ2(t,i)代表t与i的卡方检验值,A为i中包含所述词汇t的词频,B为i中不包含所述词汇t的词频,C为不在i中包含所述词汇t的词频,D为不在i中不包含所述词汇t的词频,而N为所有词汇的词频加总。
3.如权利要求1所述的方法,其中所述第二演算法是使用如下公式:
其中βip代表第i个情绪词的分类特征词的权重,tfip代表第i个情绪词的所述分类特征词的词频,TFp代表乐观新闻中所有情绪词的词频,Pr(tfip|TFp)代表属于所述分类特征词的新闻中第i个情绪词占所有情绪词的比率,tfiA代表第i个情绪词在所有新闻中的词频,TFA代表所有情绪词的总词频,而Pr(tfiA|TFA)代表所有新闻中第i个情绪词占所有情绪词的比率。
4.如权利要求1所述的方法,其中所述量化指标是选自公开信息揭露程度(Media),财务危机发生率强度指标(I7DC)以及净乐观程度(NSR),其中:
i代表股票,t代表时间,Mediait代表第i档股票在第t天的信息揭露程度,n为第t天提到公司的关键词的新闻数,NEWSi,t,n为第i档股票在第t天中的第n篇新闻的变量,当新闻标题或文章的第一段提及所述公司时,所述变量为1,而当新闻标题或文章的第一段未提及所述公司时,所述变量为0;
5.如权利要求1所述的方法,其中所述第四演算法是选自二元罗吉斯回归公式以及稳健罗吉斯回归公式。
6.一种预测信用违约的装置,包含:
计算单元,用以筛选文件的多个特征词,产生该等特征词的多个权重,产生至少一个量化指标,筛选财务资料以及所述量化指标的多个变量,以及产生预测信用违约指数;
输出单元,输出由所述计算单元所得的该等特征词与权重表;以及
储存单元,储存由所述输出单元而来的该等特征词与所述权重表,其中该等特征词与所述权重表是由多个演算法筛选而来。
7.如权利要求6所述的装置,其中该等特征词与所述权重表是由卡方检验和条件概率以及所述卡方检验和熵值权重法计算并筛选。
8.如权利要求7所述的装置,其中所述卡方检验是使用如下公式:
其中t代表词汇,i=1代表文件的第一类别,i=0代表所述文件的第二类别,A为i中包含所述词汇t的词频,B为i中不包含所述词汇t的词频,C为不在i中包含所述词汇t的词频,D为不在i中不包含所述词汇t的词频,而N为所有词汇的词频加总,且其中所述条件概率使用如下公式:
其中βip代表第i个情绪词的分类特征词的权重,tfip代表第i个情绪词的所述分类特征词的词频,TFp代表乐观新闻中所有情绪词的词频,Pr(tfip|TFp)代表属于所述分类特征词的新闻中第i个情绪词占所有情绪词的比率,tfiA代表第i个情绪词在所有新闻的词频,TFA代表所有情绪词的总词频,而Pr(tfiA|TFA)代表所有新闻中第i个情绪词占所有情绪词的比率。
9.一种预测信用违约的方法,包含下列步骤:
提供与企业信用违约相关的量化信息;
提供至少一个文本量化指标;
筛选量化信息以及所述文本量化指标的多个变量;以及
利用该等变量产生预测信用违约指数。
10.一种产生量化指标的方法,包含下列步骤:
为特定目的而取得的文件提供多个特征字;
为该等特征字分别赋予多个权重;以及
以该等权重为基础,为所述文件产生至少一个量化指标。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100139654A TWI464700B (zh) | 2011-10-31 | 2011-10-31 | 信用違約預測方法與裝置 |
TW100139654 | 2011-10-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103093280A true CN103093280A (zh) | 2013-05-08 |
Family
ID=48205826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012104223762A Pending CN103093280A (zh) | 2011-10-31 | 2012-10-30 | 信用违约预测方法与装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103093280A (zh) |
TW (1) | TWI464700B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200383A (zh) * | 2014-09-18 | 2014-12-10 | 浪潮软件集团有限公司 | 一种基于多元回归分析在税务决策上的应用 |
CN104834983A (zh) * | 2014-12-25 | 2015-08-12 | 平安科技(深圳)有限公司 | 业务数据处理方法及装置 |
WO2017067153A1 (zh) * | 2015-10-22 | 2017-04-27 | 腾讯科技(深圳)有限公司 | 基于文本分析的信用风险评估方法及装置、存储介质 |
CN107040397A (zh) * | 2016-02-03 | 2017-08-11 | 腾讯科技(深圳)有限公司 | 一种业务参数获取方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI650726B (zh) * | 2017-08-29 | 2019-02-11 | 彰化商業銀行股份有限公司 | 客戶信用貶落預警系統 |
CN107679985B (zh) * | 2017-09-12 | 2021-01-05 | 创新先进技术有限公司 | 风险特征筛选、描述报文生成方法、装置以及电子设备 |
TWI702556B (zh) * | 2018-05-11 | 2020-08-21 | 兆豐國際商業銀行股份有限公司 | 評估多種經濟情境下機率加權違約機率的系統及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101166A1 (en) * | 2001-11-26 | 2003-05-29 | Fujitsu Limited | Information analyzing method and system |
CN1928905A (zh) * | 2006-07-21 | 2007-03-14 | 北京航空航天大学 | 企业危机预警系统 |
TWM377655U (en) * | 2009-07-07 | 2010-04-01 | zhi-hong Wu | Calculator with intelligent business management risk evaluation system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030172021A1 (en) * | 2001-10-03 | 2003-09-11 | Chih-Wei Huang | System and method using trading value for weighting instruments in an index |
JP2007042056A (ja) * | 2005-02-07 | 2007-02-15 | Yasushi Kusunoki | 長寿保険システムおよびその方法 |
CN101685519A (zh) * | 2008-09-22 | 2010-03-31 | 浙江大学 | 信用评价方法及信用评价系统 |
-
2011
- 2011-10-31 TW TW100139654A patent/TWI464700B/zh active
-
2012
- 2012-10-30 CN CN2012104223762A patent/CN103093280A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030101166A1 (en) * | 2001-11-26 | 2003-05-29 | Fujitsu Limited | Information analyzing method and system |
CN1928905A (zh) * | 2006-07-21 | 2007-03-14 | 北京航空航天大学 | 企业危机预警系统 |
TWM377655U (en) * | 2009-07-07 | 2010-04-01 | zhi-hong Wu | Calculator with intelligent business management risk evaluation system |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200383A (zh) * | 2014-09-18 | 2014-12-10 | 浪潮软件集团有限公司 | 一种基于多元回归分析在税务决策上的应用 |
CN104834983A (zh) * | 2014-12-25 | 2015-08-12 | 平安科技(深圳)有限公司 | 业务数据处理方法及装置 |
WO2017067153A1 (zh) * | 2015-10-22 | 2017-04-27 | 腾讯科技(深圳)有限公司 | 基于文本分析的信用风险评估方法及装置、存储介质 |
US11164075B2 (en) | 2015-10-22 | 2021-11-02 | Tencent Technology (Shenzhen) Company Limited | Evaluation method and apparatus based on text analysis, and storage medium |
CN107040397A (zh) * | 2016-02-03 | 2017-08-11 | 腾讯科技(深圳)有限公司 | 一种业务参数获取方法及装置 |
CN107040397B (zh) * | 2016-02-03 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种业务参数获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201317917A (zh) | 2013-05-01 |
TWI464700B (zh) | 2014-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ardia et al. | Questioning the news about economic growth: Sparse forecasting using thousands of news-based sentiment values | |
CN103093280A (zh) | 信用违约预测方法与装置 | |
Zarutska et al. | Structural-functional analysis as innovation in public governance (case of of banking supervision) | |
Papik et al. | Detection models for unintentional financial restatements | |
Karas et al. | The stability of bankruptcy predictors in the construction and manufacturing industries at various times before bankruptcy | |
Podviezko | Augmenting multicriteria decision aid methods by graphical and analytical reporting tools | |
Lu et al. | Research and improvement of fraud identification model of Chinese A-share listed companies based on M-score | |
Uralov | The determinants of bank profitability: a case of central european countries | |
Antil et al. | Evaluating the efficiency of regional rural banks across the Indian states during different phases of structural development | |
Del Prete et al. | The heterogeneous effects of bank mergers and acquisitions on credit to firms: evidence from Italian macro-regions | |
Pacheco et al. | Probability of corporate bankruptcy: Application to Portuguese manufacturing industry SMEs | |
Patz et al. | Accounting Principle Formulation in an Efficient Markets Environment | |
Natoli et al. | An indicator of inflation expectations anchoring | |
Pavković et al. | Profitability and efficiency of the Croatian banking sector: impact of bank size | |
Awad et al. | Using data mining tools to prediction of going concern on auditor opinion-empirical study in iraqi commercial | |
CN108197729A (zh) | 基于机器学习的价值投资分析方法、设备和存储介质 | |
Tsaih et al. | Exploring fraudulent financial reporting with GHSOM | |
Türkcan | Financial Failure Prediction in Banks: The Case of European Union Countries | |
Whalen | A hazard model of CAMELS downgrades of low-risk community banks | |
Aljbiri | Factors affecting Gumhoria Bank’s profitability. Empirical evidence from biggest commercial bank in Libya | |
Kotsiantis et al. | Financial Application of Neural Networks: two case studies in Greece | |
Nguyen et al. | A model for detecting accounting frauds by using machine learning | |
Skvarciany et al. | Bank profitability analysis and forecasting: Lithuania case | |
Thoyib et al. | Financial Performance Analysis at PT Bank Muamalat Indonesia, Tbk. | |
Papagiannis | Measurement of efficiency in Greek banking industries in the light of the financial crisis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130508 |