CN103093280A

CN103093280A - 信用违约预测方法与装置

Info

Publication number: CN103093280A
Application number: CN2012104223762A
Authority: CN
Inventors: 卢阳正; 陈振南; 魏裕珍
Original assignee: MING CHUAN UNIVERSITY
Current assignee: MING CHUAN UNIVERSITY
Priority date: 2011-10-31
Filing date: 2012-10-30
Publication date: 2013-05-08
Also published as: TW201317917A; TWI464700B

Abstract

本发明是提供一种预测信用违约的方法，包含下列步骤：利用第一演算法筛选文件的多个特征词，利用第二演算法产生多个经筛选的该等特征词的多个权重，利用该等权重以及第三演算法产生至少一个量化指标，从财务资料以及该等量化指标筛选多个变量，以及利用该等变量以及第四演算法产生预测信用违约指数。

Description

信用违约预测方法与装置

技术领域

本发明是关于一种违约预测方法与装置，尤指一种信用违约预测方法与装置。

背景技术

企业无预警倒闭事件层出不穷，企业财务危机不只是单一层面的问题，更严重还会危及整个社会体系的运作，因此，提升企业违约机率预测的准确度已成为财务风险管理领域的重要议题。

信用风险(Credit Risk)是指因交易对手信用品质发生变化，导致银行持有部位价值的改变，更甚者发生违约(Default)，即交易对手无意愿或无法履行契约。而信用评分(Credit Scoring)为提供风险排序的相关信息，信用评等等级良好的企业，仅是反映其偿债能力较强、无法履行债务机率较低，故能有效区分出各公司的信用风险，除协助市场专业人士作融资或授信等财务决策，或使债务发行人及投资人都能更清楚掌握企业的债信状况，也能及时侦测出财务危机公司。

关于本领域的现有技术，中国台湾新型专利M377655揭露一种具有智能型企业营运风险评估系统的计算机，中国专利公开说明书CN1928905揭露一种企业危机预警系统主要通过对企业各种经营管理信息的比较、分析和评价，判别企业目前的经营状态是否进入危机，以及预测企业的未来是否会发生危机。以上两篇虽皆以评估企业营运风险，但其并未使用与企业攸关的公开报导，以预测企业信用指标。另外，中国台湾专利I252987揭露一种可从大量信息之中自动抽出应注意信息的技术，其信息来自于个人Web页和布告栏的发言的个人意见。因此，I252987其主要分析的目的为个人意见的公开内容，藉此指定关于该对象的个人评价（好评价/坏评价），而非评估企业营运风险。过去财务危机预测的相关研究，大多采用财务报表等量化信息进行研究，然而企业危机事件的征兆往往隐藏在事件发生前的公开信息中。然而，投资人普遍认为公开信息为纯噪声的观念，不具有内涵价值。

职是之故，发明人鉴于现有技术的缺失，乃经悉心试验与研究，并一本锲而不舍的精神，发明出本发明“信用违约预测方法与装置”，以下为本发明的简要说明。

发明内容

本发明纳入新闻信息内涵做为提升企业信用评等的预测能力，并证实已公开的新闻信息内涵可增进企业信用风险指标的预测能力

本发明的一个面向是提供一种预测信用违约的方法，包含下列步骤：利用第一演算法筛选文件的多个特征词(或特征字)；利用第二演算法产生多个经筛选的该等特征词(或特征字)的多个权重；利用该等权重以及第三演算法产生至少一个量化指标；从财务资料以及该量化指标筛选多个变量；以及利用该等变量以及第四演算法产生预测信用违约指数。

本发明的另一个面向是提供一种预测信用违约的装置，包含：计算单元，用以筛选文件的多个特征词(或特征字)，产生该等特征词(或特征字)的多个权重，产生至少一个量化指标，筛选财务资料以及该量化指标的多个变量，以及产生预测信用违约指数；输出单元，输出由该计算单元所得的该等特征词(或特征字)与权重表；以及储存单元，储存由该输出单元而来的该等特征词(或特征字)与该权重表，其中该等特征词(或特征字)与该权重表是由多个演算法筛选而来。

本发明的又一个面向是提供一种预测信用违约的方法，包含下列步骤：提供财务资料；提供至少一个量化指标；筛选财务资料以及该量化指标的多个变量；以及利用该等变量产生预测信用违约指数。

本发明的再一个面向是提供一种产生量化指标的方法，包含下列步骤：为特定目的而取得的一个文件提供多个特征字；为该等特征字分别赋予多个权重；以及以该等权重为基础，为所述文件产生至少一个量化指标。

为了易于说明，本发明得通过下述实施例及附图而得到充分了解，并使得熟习本领域的技术人员可以据以完成之，然本发明的实施型态并不限制于下列实施例中。

附图说明

图1：本发明文本量化指标试算的流程图。

图2：本发明信用违约预测的流程图。

图3：本发明预测信用违约的装置。

主要元件符号说明

11、12、121、122、131、132、14、15、16、21、22、23、24、25步骤

3预测信用违约的装置

31计算单元

32输出单元

33储存单元

331多个特征词

332权重表

具体实施方式

图1为文本量化指标试算的流程图。首先先进行文本搜集(步骤11)，并进行前处理(步骤12)，前处理包含结构化处理(步骤121)以及断词(步骤122)。接着利用演算法进行特征词的筛选(步骤131)或者直接由专家筛选分类特征词(步骤132)。由演算法或者专家筛选出的特征词接着利用演算法进行特征词权重计算(步骤14)，然后汇整不同演算法筛选过的分类特征词与权重列表(步骤15)，最后利用演算法进行文本量化指标计算(步骤16)。

图2为信用违约预测的流程图。首先搜集文本与建构量化指标(步骤21)以及搜集其他量化信息(步骤22)，该等量化信息可包括但并不限于如财务比率、公司治理、总体经济或其它。之后筛选纳入模型分析的变量(步骤23)，筛选方式可利用经验法则自行筛选或者利用统计方法筛选。接着利用二元罗吉斯回归或者稳健罗吉斯回归公式进行信用违约预测(步骤24)，最后进行模型绩效评估(步骤25)。

图3为预测信用违约的装置3，装置3包含计算单元31、输出单元32及储存单元33。计算单元31用以筛选文件的多个特征词，产生该等特征词的多个权重，产生多个量化指标，筛选财务资料以及该等量化指标的多个变量，以及产生预测信用违约指数。输出单元32输出由计算单元所得的该等特征词与权重表。而储存单元33储存由输出单元而来的该等特征词331与权重表332，其中该等特征词与权重表是由多个演算法筛选而来。

以下开始介绍图1与图2的详细步骤及相关的演算法。

一、用演算法进行特征词筛选：

用演算法进行特征词筛选：特征词筛选可应用无母数的卡方独立性检验进行，在此是指某一词汇t对某一类别i的独立性(正交性)缺乏程度，独立性缺乏程度愈高，表示此词汇t对此类别i相当重要。特征词的计算方面经由卡方测试所挑选出的语词比直接计算频率的效果更好，故为提高分类词汇的鉴别度，可利用卡方独立性检验以过滤不具代表性的词汇，再经由过滤后所剩下的词汇，筛选出具代表性的分类特征词。卡方独立性检验统计量如下：

χ^{2} (t, i) = \frac{N \times {(A \times D - B \times C)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

以下以乐观与悲观两类分类特征词，说明卡方独立性检验的意涵。其中，i＝1代表乐观文件的类别；i＝0代表悲观文件的类别；A为类别i中包含词汇t的词频；B为类别i中不包含词汇t的词频；C为不在类别i中包含词汇t的词频；D为不在类别i中不包含词汇t的词频；N为所有词汇的词频加总。每一类别中所有出现的情绪词，皆须计算其卡方值，最后将低于门槛值的不显著情绪词剔除后，留下值高者作为代表乐悲观情绪词的扩充词。

二、应用演算法进行特征词权重计算：

(一)条件概率概念：

特征词权重计算利用条件概率计算方程式，计算分类特征词的权重，其中分类特征词的权重计算方式如下：

β_{ip} = \frac{\Pr ({tf}_{ip} | {TF}_{p})}{\Pr ({tf}_{iA} | {TF}_{A})}

以下以乐观与悲观两类分类特征词，说明其权重的计算概念。其中，β_ip代表第i个情绪词的乐观权重；tf_ip代表第i个情绪词在乐观新闻的词频；TF_p代表乐观新闻中所有情绪词的词频；Pr(tf_ip|TF_p)代表乐观新闻中第i个情绪词占所有情绪词的比例；tf_iA代表第i个情绪词在所有新闻的词频；TF_A代表所有情绪词的总词频；Pr(tf_iA|TF_A)代表所有新闻中第i个情绪词占所有情绪词的比例。悲观词权重计算方式如下：

β_{in} = \frac{\Pr ({tf}_{in} | {TF}_{n})}{\Pr ({tf}_{iA} | {TF}_{A})}

其中，β_in代表第i个情绪词的悲观权重；tf_in代表第i个情绪词在悲观新闻的词频；TF_n代表悲观新闻中所有情绪词的词频；Pr(tf_in|TF_n)代表悲观新闻中第i个情绪词占所有情绪词的比例；tf_iA代表第i个情绪词在所有新闻的词频；TF_A代表所有情绪词的总词频；Pr(tf_iA|TF_A)代表所有新闻中第i个情绪词占所有情绪词的比例。

(二)熵值(entropy)权重法：

训练阶段：本发明在训练阶段引用计量熵值观念，熵值可用来估算每一个信息所隐含的信息量，并计算出信息的相对权重，而熵值权重法是引用熵值观念，来求取各特征词间的相对权重。作法为首先经由每一个危机特征词对各公司的量测值所求算出的熵值，来说明该特征词对分类决策中所能传递(transmit)的决策信息(decision information)的程度。然后再比较各特征词的熵值，计算出彼此间的相对重要性，即得到该特征词的相对权重值。

由于熵值权重是利用评估矩阵表中的信息所求得，故属于客观权重。熵值权重的计算步骤如下：

【步骤一】计算各特征词的熵值e_j

e_{j} = - k Σ_{i = 1}^{m} p_{ij} \ln p_{ij},

i＝1,2,3,...m，j＝1,2,3,...n

k＝(1/lnm)

其中，m为公司数量，p_ij为第j个特征词在第i公司发生的概率，e_ij为第i家公司在第j个特征词上的熵值。

【步骤二】计算第i家公司在各特征词间的相对客观权重w_ij

w_ij＝(1-e_ij)/n-∑e_ij

其中，n为特征词数量。在危机与非危机两类别样本中，各特征词皆可计算出相对客观权重值。

测试阶段：将测试期间每一篇文本中的词汇，分别与两类特征词群相对照，抓取相同特征词的相对客观权重值，并且藉由熵值符合数学上累加原则(可加性)的特性，将所有相对客观权重值累加，求得权重值与类别的相关强度。

(三)专家筛选与应用演算法筛选的特征词的列表：

碍于篇幅考虑，仅列出部分特征词供参酌。

表1：专家筛选特征词：

表2：卡方检验及贝式条件概率：

危机	权重	非危机	权重
				人去楼空	5.8067	引进	0.9179
入不敷出	5.8067	水涨船高	1.1839
				下市	5.4195	加温	1.1350
大费周章	5.8067	回春	1.1445
				不支倒地	4.3550	如虎添翼	0.4832
不佳	1.2645	成长	1.1453
				不振	3.4840	有利	1.1204
欠债	5.8067	大跃进	1.1649
				出事	2.9033	支持	0.6208
失利	4.3212	大增	1.1313
				乐观	权重	悲观	权重
上扬	1.5336	下挫	1.3982
				不同凡响	2.1909	下滑	1.4718
出色	2.1909	不安	1.8397
				可观	2.0540	不良	1.5976
力争上游	2.1909	不景气	1.8397
				上攻	2.1909	不敌	1.8397
上看	2.1909	失守	1.8397
				上涨	1.7578	打压	1.8397
不错	1.8902	吃紧	2.1909
				加持	1.7527	利空	1.8397

[0056] 表3：卡方检验及熵值权重法：

危机	权重	非危机	权重
				下台	0.000332	力挺	0.000888
不佳	0.002282	上扬	0.002242
				不景气	0.000932	支持	0.002134
不满	0.000526	充裕	0.001301
				低迷	0.002088	回春	0.000560
受阻	0.001053	回稳	0.001449
				延误	0.000932	如虎添翼	0.000888
重创	0.000526	成长	0.003240
				降财测	0.000771	改善	0.002603
受制	0.000932	受惠	0.002291
				乐观	权重	悲观	权重
上扬	0.006520	下降	0.003418
				上涨	0.005718	下修	0.002333
出色	0.004785	下挫	0.002944
				加温	0.006232	不佳	0.006253
良好	0.001595	不振	0.004133
				供不应求	0.003704	失利	0.002333
拓展	0.003704	利空	0.002333
				持稳	0.003704	走弱	0.002944
突破	0.007408	拖累	0.001472
				奏效	0.002528	盈转亏	0.006017

三、文本量化指标试算方法

(一)信息揭露程度：

若某特定日期的新闻报导与个股有密切关系，当公司相关报导在特定日期的“新闻标题”或是“内文第一段”出现关键词时，即将该日期的虚拟变量标记为1，最后加总估计期内有几天个股的相关新闻在“新闻标题”或是“内文第一段”出现公司关键词作为公开信息揭露程度的衡量。Media的计算如下：

{Media}_{it} = Σ_{n = 1}^{N} {NEWS}_{i, t, n}

其中i代表股票，t为时间，Media_it表示第i档股票在第t天的信息揭露程度，n＝1...N，表示第t天有几篇新闻提到该公司的关键词，n篇新闻可能包括不同报社或是不同记者，NEWS_i，t，n为第i档股票在第t天中的第n篇新闻是否有提到公司关键词的虚拟变量，当公司在标题或文章的第一段被提及则记为1，若没有则计为零。

考虑新闻报导信息揭露的可能性，也可将此变量的建构概念扩充为以下几种类型：仅考虑公司名称是否出现在标题与内文第一段，考虑公司名称是否出现在标题与内文，考虑该公司名称是否在当天的新闻媒体有曝光(仅考虑是否曝光，不再细分名称曝光方式)。

(二)财务危机发生率强度指标：

每一家样本公司的财务危机发生率强度，是由该样本公司的财务危机词发生权值与非财务危机词发生权值交互比对而来，因此本发明利用财务危机词权值对非财务危机词权值的相对重要性，定义出评估该公司文词语意中的财务危机发生强度的衡量指标，计算方法如下：

{ITDC}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{D} w_{j}^{D}}{\underset{k}{Σ} {tf}_{ik}^{ND} w_{k}^{ND}}

其中，

为第i家公司在第j个财务危机特征词上的词频；

为第j个财务危机特征词的权重；

为第i家公司在第k个非财务危机特征词上的词频；

为第k个非财务危机特征词的权重，特征词权重计算，可搭配使用贝式条件概率权重法或熵值权重法。当危机群的相对财务危机发生率强度指标大于非危机群，即预测此公司发生财务危机的机率大；反之，则预测此公司发生财务危机机率小。

(三)公开新闻的净乐观程度：

本发明建立个股中文公开传媒报导的净乐观程度(NSR)，可定义如下：

{NSR}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{p} - \underset{k}{Σ} {tf}_{ik}^{N}}{{TF}_{i}} \times 100 %

若考虑特征词的权重，则此指标可调整如下：

{NSR}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} - \underset{k}{Σ} {tf}_{ij}^{N} w_{k}^{N}}{{TF}_{i}} \times 100 %

若不经过断词处理，则该指标可调整如下：

{NSR}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} - \underset{k}{Σ} {tf}_{ik}^{N} w_{k}^{N}}{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} + \underset{k}{Σ} {tf}_{ik}^{N} w_{k}^{N}} \times 100 %

其中

为第i间公司在第j个乐观词词频数，

为第j个乐观词的权重，

为第i间公司在第k个悲观词词频数，

为第k个悲观词的权重，TF_i为该篇新闻断词后的总词频。

四、信用违约预测方法：

(一)二元罗吉斯回归(Binary Logistic Regression，简称LR)

Logit模型是处理二元因变量(dichotomous dependent variable)问题的多元量化分析方法，其反应函数呈曲线型态，为S型或倒S型，而反应函数概率值介于0与1之间。

罗吉斯回归分析的目的有二，一在求取具有显著解释能力的自变量，另一则是通过所建构的模型来预测财务危机发生的机率。本文所使用的二元罗吉斯回归模型如下：

y_{i}^{*} = α + β x_{i} + γ D_{i} + ϵ_{i}, y_{i} = \{\begin{matrix} 1 & [y_{i}^{*} > 0] \\ 0 & [y_{i}^{*} \leq 0] \end{matrix}

其中，y_i为实际观测到的反应变量，y_i＝1时表示财务危机事件发生，y_i＝0时表示财务危机事件未发生；为无法观测的隐藏变量(Iatent variable)；α为截距项；x_i为第i家公司的解释变量；β为解释变量的敏感度参数；D_i为第i家公司的虚拟变量(dummy)，D_i＝1时表示D_i属于第i家公司，D_i＝0时表示D_i不属于第i家公司；γ为虚拟变量的敏感度参数；ε_i为第i家公司解释(虚拟)变量的随机误差项。进一步表达成罗吉斯模型(logit model)，其模型如下所示：

P(y_i＝1|x_i，D_i)＝P[α+βx_i+γD_i+ε_i＞0]

＝P[ε_i＞-(α+βx_i+γD_i)]

＝P[ε_i≤α+βx_i+γD_i]

其中，假设ε_i服从罗吉斯分配(logit distribution)，其期望值为0，变异数为π²/3≈3.29。

因此，可将其表达如下：

P (y_{i} = 1 | x_{i}, D_{i}) = Λ (α + β x_{i} + γ D_{i})

&equiv; \frac{\exp^{{α + βx}_{i} + γ D_{i}}}{1 + \exp^{α + {βx}_{i} + γ D_{i}}}

其中P表示第i公司发生财务危机的概率测度，其为介于0与1间的实数。

欲估计财务危机事件发生概率，必须先利用最大似然估计法(MLE)求算出估计参数

与

而其N个观察值的似然函数可写为：

L (β_{i}, γ_{i} | y_{i}, x_{i}, D_{i}) = Π_{y_{i} = 1}^{N} \frac{e^{α + {βx}_{i} + γ D_{i}}}{1 + e^{α + {βx}_{i} + γ D_{i}}} Π_{y_{i} = 0}^{N} [1 - \frac{e^{α + β x_{i} + γ D_{i}}}{1 + e^{α + {βx}_{i} + γ D_{i}}}]

将似然函数取对数后，可得对数似然函数如下：

Σ_{i = 1}^{N} \log {(\frac{e^{α + {βx}_{i} + γ D_{i}}}{1 + e^{α + β x_{i} + γ D_{i}}})}^{y_{i}} {(1 - \frac{e^{α + {βx}_{i} + {γD}_{i}}}{1 + e^{α + {βx}_{i} + {γD}_{i}}})}^{1 - y_{i}}

通过极大化即可估得参数的最大似然估计值，进而求得财务危机事件发生概率的估计值。

(二)稳健罗吉斯回归(Robust Logistic Regression，RLR)：

为处理极端值的回归方法，是将传统的Logit Model加入一个处理离群值的方法，即Robust Regression，而传统的Robust Regression方法是将找到的离群值剔除，而本发明以选取误差值中位数为处理离群值的重点，减低离群值对于估计结果产生重大的影响，进而提升估计准确性。RLR的估计步骤如下：

1.随机选取所有样本资料的80％作为样本内资料(in sample)，接下来的估计步骤皆针对样本内资料来进行。

2.从样本内资料任意选用k+1(本发明选取所有样本内资料数的1/3为起始样本数量)个观察值，以Logit Model估计得

并以此

计算所有N个观察值的预测值：

{\hat{y}}_{i} = F (x_{i} {\hat{β}}^{(k + 1)})

接着计算预测观察值的正确概率p^(k+1)，i：

p^{(k + 1), i} = \{\begin{matrix} = {\hat{y}}_{i}, & if y_{i} = 1 \\ = 1 - {\hat{y}}_{i}, & if y_{i} = 0 \end{matrix}

对应着正确概率，也可以计算观察值的错误概率e^(k+1)，i(类似残差的概念)为：

e^(k+1)，i＝1-p^(k+1)，i

将这些e^(k+1)，i后，由小排到大：

e^(k+1)，1＜e^(k+1)，2＜...＜e^(k+1)，N

再取出这些e^(k+1)，i的中位数，并令其为e^(k+1)，med。

3.进行步进搜寻演算法(Forward Search Algorithm)。多增加一个观察值，即取用k+2个观察值，但这k+2个观察值是步骤1中e^(k+1)，i排序后最小的k+2个观察值(代表选用残差最小的k+2的观察值，等于是排除了离群值)，即e^(k+1)，1，e^(k+1)，2...e^(k+1)，k+2这k+2个观察值，利用这k+2个观察值再进行估计，得

重复步骤1中对所有N个观察值的e^(k+2)，i进行排序，取出中位数，并令其为e^(k+2)，med。

4.重复步骤2，再增加一个观察值，取步骤2中e^(k+2)，i排序后最小的k+3个观察值(代表选用残差最小的k+3的观察值，等于是排除了离群值)，再进行估计而得

同样地再对所有N个观察值的e^(k+3)，i进行排序，取出中位数，并令其为e^(k+3)，med。如此逐次加入一个观察值，直到所有观察值都被加入为止，如此可再得到

以及每次的e^(k+1)，i的中位数e^(k+4)，med，e^(k+5)，med，...，e^N，med。

5.计算下式：e^*，med＝min[e^(k+1)，med，e^(k+2)，med,...，e^N，med]，e^*，med所配对的

就是我们最后要的

可重复步骤1至步骤5，但取用不同的k+1个观察值。

五、本发明实证分析：

(一)资料叙述性统计分析：本发明依据2001年至2009年间，财务危机发生前一季至前四季的财务危机公司及非危机公司的公开新闻信息变量、财务结构变量、公司治理及处理效果变量与总体经济变量，所作的叙述统计及平均数差异检验，列于表4至表9。纳入公开新闻信息变量方面，本发明显示财务危机发生率强度(ITDC)及净乐观程度指标(NSR)于各季皆达1％的显著水平，换言之，通过本发明过程所建立的公开新闻量化指标，可以发现公司的危机信号。

表4：公开信息量化指标叙述性统计资料

表5：危机公司与非危机公司的公开信息量化指标统计量分析表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％

财务结构变量方面，流动性分析变量的流动比率、速动比率、现金流量比率；偿债力分析变量的负债比率、利息保障倍数；经营效能分析变量的总资产周转率、每股盈余；且获利能力分析变量的毛利率、税前净利率、总资产报酬率、净值报酬率等十一项变量，在前一季至前四季中，财务危机公司与非危机公司之间的差异性均达到1％的显著性，结果显示这些变量在财务危机公司与非危机公司之间具有差异性。

表6：危机公司与非危机公司的财务结构变量统计量分析表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％

在公司治理方面，参与管理、调降财测次数、财务主管或会计师连续更换、财报品质以及董监事持股比例等五项变量，在前一季至前四季中，均达1％的显著水平。

表7：危机公司与非危机公司的公司治理变量统计量分析表

注1：*：显著水平10％，**：显著水平5％，***：显著水平1％。

注2：控制权：最大(控制)股东对公司的控制链的最小股权比率相加；现金流量权：找出公司的最大股东，并将控制链上的各股权相乘后相加；参与管理：公司的总经理是董事长为同一人者，以“1”来表示，若否，则以“0”表示；交叉持股：某公司具有控制公司，且该控制公司又同时持有某公司的股份时(D＝1)，表示有交叉持股的现象；金字塔结构：当控制股东通过至少一家上市公司控制另一家上市公司时(D＝1)，表示此公司存有金字塔结构；家族控制：根据Lee和Yeh(2004)的研究，当多个股东同属一家族，且其股权总和超过20％者(D＝1)；调降财测次数：财务危机发生前五年中，一年内有两次调降或连续两年皆有财测调降的情形，此可能表示管理当局无法掌握产业变动，或者是先放出利多信息，据此掩饰企业实际情况；财务主管或会计师连续更换：财务危机发生前五年中，连续更换财务主管或会计师的次数；财报信息品质：凡公司在以下四项中符合三项者，表示此企业财务报表有虚增盈余的现象，以“1”表示，反之则为“0”(损益表有正的获利，但营运现金流量为负、应收帐款增加幅度超过营业收入增加幅度、平均收现天数与平均销货天数逐年上升、过高的员工分红配股)；应收票据帐款：仅含出售商品、劳务的货币请求权(仅关系人部份)，非营业行为者均予剔除(仅关系人部份)；董监事持股比率：董监事持股比率＝董监事持股总数/流通在外股数；董监事质押比率：董监事质押比率＝董监事质押股数/董监事持有股数。

公司治理处理效果方面，董监事持股程度、董监事质押程度、持股比率*持股程度和质押比率*质押程度，在前一季至前四季中也都达1％的显著水平。

表8：危机公司与非危机公司的公司治理处理效果变量统计量分析表

注1：*：显著水平10％，**：显著水平5％，***：显著水平1％

注2：董监事质押程度：董监事质押比率高于50％者，为高质押程度(D＝1)，董监事质押比率低于50％者，为低质押程度(D＝0)；持股比率*持股程度：董监事持股比率与持股程度相乘的结果；质押比率*质押程度：董监事质押比率与质押程度相乘的结果；持股程度*质押程度：将高持股与高质押设为1，其他三种组合(高持股与低质押、低持股与高质押以及低持股与低质押)皆设为0。

最后，总体经济变量方面，并无发现任何对于财务危机公司与非危机公司间，具有显著性结果的变量。

表9：危机公司与非危机公司的总体经济变量统计量分析表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％

(二)回归模型分析：

模型1：各类公开信息量化指标

模型2：公开信息量化指标+流动性分析变量

模型3：公开信息量化指标+偿债力分析变量

模型4：公开信息量化指标+经营效能分析变量

模型5：公开信息量化指标+获利能力分析变量

模型6：公开信息量化指标+公司治理变量

模型7：公开信息量化指标+公司治理处理效果变量

模型8：公开信息量化指标+总体经济变量

模型9：公开信息量化指标+“样本平均数差异性检验”达5％显著水平的变量

模型10：公开信息量化指标+“模型1至模型8中参数检验”各季同时达5％的显著变量

上述模型1至模型10其实证结果整理于表10至表19。由各类公开信息量化指标所构建的模型1，可观察出财务危机发生强度指标(ITDC)变量及公开信息净乐观程度(NSR)变量，不论在危机发生前哪一季皆至少达5％显著水平。

表10：模型1参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上流动性分析变量所构建的模型2，其实证结果可观察出公开信息量化指标在危机发生前一季到前四季至少达5％显著水平；流动比率在危机发生前三季和前四季至少达5％显著水平；现金流量比率在危机发生前一季到前四季至少达5％显著水平。

表11：模型2参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上偿债力分析变量所构建的模型3，其实证结果可观察出公开信息量化指标在危机发生前一季到前四季皆达1％显著水平；而负债比率在危机发生前一季到前四季均达1％的显著水平。

表12：模型3参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上经营效能分析变量所构建的模型4，其实证结果可观察出公开信息量化指标在危机发生前一季到前四季均达1％显著水平；总资产周转率、每股盈余、净值周转率等三项变量，在危机发生前一季到前四季各达5％的显著性。

表13：模型4参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上获利能力分析变量所构建的模型5，其实证结果可观察出公开信息量化指标在危机发生前一季到前四季均达1％显著水平；净值报酬率在危机发生前一、三、四季各达10％显著水平；毛利率在危机发生前第四季达1％显著水平；营业净利率在危机发生前一季达10％显著水平；税前净利率在危机发生前二季达10％显著水平外，其余变量均未达显著水平。

表14：模型5参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上公司治理变量所构建的模型6，其实证结果可观察出公开信息量化指标不论在哪一季皆至少达1％的显著水平；解释变量中，财报信息品质在前二季和前三季具显著性；另外，董监事持股比率在前一季到前四季达1％显著水平，其余变量均未达显著水平。

表15：模型6参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上公司治理处理效果变量所构建的模型7，其实证结果可观察出公开信息量化指标不论在哪一季皆达1％的显著水平；在解释变量中，危机发生前一季到前四季均未达显著水平。

表16：模型7参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上总体经济变量所构建的模型8，其实证结果可观察出公开信息量化指标不论在哪一季皆至少达1％的显著水平；总体经济变量方面，M1B年增率在危机发生前一季及前三季达显著水平，IPI年增率在危机发生前第一、二季达显著水平外，其余解释变量均未达显著水平。

表17：模型8参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

模型9为公开信息量化指标加上样本平均数差异性检验均达5％显著水平的变量所构建的模型，其实证结果可观察出公开信息量化指标在危机发生前一、二、四季达5％显著水平；解释变量里，除负债比率在危机发生前一季到前四季均至少达5％的显著水平；流动比率、速动比率及现金流量比率在前四季皆达5％的显著水平；毛利率在第四季达10％的显著水平；总资产报酬率在前三季达10％的显著水平；董监事持股比率在危机发生前二、三季达10％的显著水平外，其余变量则不具有显著性。

表18：模型9参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

由公开信息量化指标加上模型1至模型8中参数检验实证结果中各季同时达5％的显著变量所建构的模型10，其实证结果可观察出公开信息量化指标在危机发生前第一、二、四季达5％的显著水平。其他变量方面，则以负债比率及董监事持股比率在危机发生不论在哪一季皆至少达5％的显著水平；现金流量比率在危机发生前四季达5％显著水平；每股盈余在危机发生前三季以及前四季达5％显著水平；其余变量皆无达到显著标准。

表19：模型10参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

(三)财务危机预警效能的验证与比较：

1.资料叙述性统计分析：本发明以TCRI指标为基础，验证纳入公开信息的信息内涵，是否能提升TCRI的配适与预测能力。本发明搜集2001年至2009年间，财务危机发生前一季至前四季的财务危机公司及非危机公司的TCRI指标进行以下分析，平均数差异检验结果可参见表20。TCRI指标在前一季至前四季中，财务危机公司与非危机公司之间的差异性均达到1％的显著性，结果显示TCRI在财务危机公司与非危机公司之间具有差异性。

表20：危机公司与非危机公司的TCRI指标统计量分析表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％

2.回归模型分析：

模型11：TCRI指标

模型12：公开信息揭露程度(Media)+TCRI指标

模型13：公开新闻的净乐观程度(NSR)+TCRI指标

模型14：财务危机发生率强度指标(ITDC)+TCRI指标

模型15：公开新闻信息变量(Media、NSR与ITDC)+TCRI指标

以下检测TCRI指标对危机发生与否的解释能力，并以TCRI为基础(模型11)，分别纳入各类公开信息量化指标(模型10～模型15)，检测纳入新闻信息的解释能力，回归分析汇整于表21。模型11检测TCRI指标的解释力，检测发现TCRI指标不论在危机发生前一至四季，解释力均达1％的显著水平。由公开信息揭露程度(Media)加上TCRI指标所构建的模型12，其实证结果可观察出TCRI指标不论在危机发生前一至四季均达1％的显著水平。由公开新闻的净乐观程度(NSR)加上TCRI指标所构建的模型13，其实证结果可观察出净乐观程度(NSR)和TCRI指标不论危机发生前一至四季均达1％的显著水平。由财务危机发生率强度指标(ITDC)加上TCRI指标所构建的模型14，其实证结果可观察出财务危机发生率强度指标(ITDC)和TCRI指标不论在危机发生前一至四季均达1％的显著水平。由公开信息量化指标加上TCRI指标所构建的模型15，其实证结果可观察出TCRI指标仍达1％的显著水平；财务危机发生率强度指标(ITDC)在危机发生前二季、前三季和前四季至少达5％的显著水平；净乐观程度(NSR)在危机发生前二季达5％的显著水平，公开信息揭露程度(Media)在危机发生前四季达5％的显著水平。

表21：模型11至15参数检验结果一览表

注：*：显著水平10％，**：显著水平5％，***：显著水平1％。

本发明确认具有及时性的公开传媒新闻报导中，确实隐含未来企业财务危机发生的攸关信息，可作为投资人或政府单位进行监督及管理的风险评估依据；再者，经由适当的文词语意探勘技术与不同演算法建立的关键词，构建量化的企业财务危机发生率强度指标，确实有助于提升企业财务危机预警模型的预测效能。

实施例：

1.一种预测信用违约的方法，包含下列步骤：

利用第一演算法筛选文件的多个特征词；

利用第二演算法产生多个经筛选的该等特征词的多个权重；

利用该等权重以及第三演算法产生至少一个量化指标；

从财务资料以及该量化指标筛选多个变量；以及

利用该等变量以及第四演算法产生预测信用违约指数。

2.根据实施例1所述的方法，其中该第一演算法使用如下公式：

χ^{2} (t, i) = \frac{N \times {(A \times D - B \times C)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中t代表词汇，i＝1代表该文件的第一类别，i＝0代表该文件的第二类别，χ²(t，i)代表t与i的卡方检验值，A为i中包含该词汇t的词频，B为i中不包含该词汇t的词频，C为不在i中包含该词汇t的词频，D为不在i中不包含该词汇t的词频，而N为所有词汇的词频加总。

3.根据实施例1-2所述的方法，其中该第二演算法是使用如下公式：

β_{ip} = \frac{\Pr ({tf}_{ip} | {TF}_{p})}{\Pr ({tf}_{iA} | {TF}_{A})}

其中β_ip代表第i个情绪词的分类特征词的权重，tf_ip代表第i个情绪词的该分类特征词的词频，TF_p代表乐观新闻中所有情绪词的词频，Pr(tf_ip|TF_p)代表属于该分类特征词的新闻中第i个情绪词占所有情绪词的比率，tf_iA代表第i个情绪词在所有新闻的词频，TF_A代表所有情绪词的总词频，而Pr(tf_iA|TF_A)代表所有新闻中第i个情绪词占所有情绪词的比率。

4.根据实施例1-3所述的方法，其中该量化指标是指选自公开信息揭露程度(Media)，财务危机发生率强度指标(ITDC)以及净乐观程度(NSR)，其中：

{Media}_{it} = Σ_{n = 1}^{N} {NEWS}_{i, t, n}

i代表股票，t代表时间，Media_it代表第i档股票在第t天的信息揭露程度，n为第t天提到公司的关键词的新闻数，NEWS_i，t，n为第i只股票在第t天中的第n篇新闻的变量，当新闻标题或文章的第一段提及该公司时，所述变量为1，而当新闻标题或文章的第一段未提及该公司时，所述变量为0；

{ITDC}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{D} w_{j}^{D}}{\underset{k}{Σ} {tf}_{ik}^{ND} w_{k}^{ND}}

为第i家公司在第j个财务危机特征词上的词频，

为第j个财务危机特征词的权重，为第i家公司在第k个非财务危机特征词上的词频，而为第k个非财务危机特征词的权重；以及

{NSR}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} - \underset{k}{Σ} {tf}_{ik}^{N} w_{k}^{N}}{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} + \underset{k}{Σ} {tf}_{ik}^{N} w_{k}^{N}} \times 100 %

其中

为第i间公司在第j个乐观词词频数，

为第j个乐观词的权重，

为第i间公司在第k个悲观词词频数，

为第k个悲观词的权重，而TF_i为该新闻断词后的总词频。

5.根据实施例1-4所述的方法，其中该第四演算法选自二元罗吉斯回归公式以及稳健罗吉斯回归公式。

6.一种预测信用违约的装置，包含：

计算单元，用以筛选文件的多个特征词，产生该等特征词的多个权重，产生至少一个量化指标，筛选财务资料以及该量化指标的多个变量，以及产生预测信用违约指数；

输出单元，输出由该计算单元所得的该等特征词与权重表；以及

储存单元，储存由该输出单元而来的该等特征词与该权重表，其中该等特征词与该权重表是由多个演算法筛选而来。

7.根据实施例6所述的装置，其中该等特征词与该权重表是由卡方检验和条件概率以及该卡方检验和熵值权重法计算并筛选。

8.根据实施例6-7所述的装置，其中该卡方检验使用如下公式：

χ^{2} (t, i) = \frac{N \times {(A \times D - B \times C)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中t代表词汇，i＝1代表文件的第一类别，i＝0代表该文件的第二类别，A为i中包含该词汇t的词频，B为i中不包含该词汇t的词频，C为不在i中包含该词汇t的词频，D为不在i中不包含该词汇t的词频，而N为所有词汇的词频加总，且其中该条件概率使用如下公式：

β_{ip} = \frac{\Pr ({tf}_{ip} | {TF}_{p})}{\Pr ({tf}_{iA} | {TF}_{A})}

其中β_ip代表第i个情绪词的分类特征词的权重，tf_ip代表第i个情绪词的该分类特征词的词频，TF_p代表乐观新闻中所有情绪词的词频，Pr(tf_ip|TF_p)代表属于该分类特征词的新闻中第i个情绪词占所有情绪词的比例，tf_iA代表第i个情绪词在所有新闻的词频，TF_A代表所有情绪词的总词频，而Pr(tf_iA|TF_A)代表所有新闻中第i个情绪词占所有情绪词的比例。

9.一种预测信用违约的方法，包含下列步骤：

提供与企业信用违约相关的量化信息；

提供至少一个文本量化指标；

筛选量化信息以及该文本量化指标的多个变量；以及

利用该等变量产生预测信用违约指数。

10.一种产生量化指标的方法，包含下列步骤：

为特定目的而取得的文件提供多个特征字；

为该等特征字分别赋予多个权重；以及

以该等权重为基础，为该文件产生至少一个量化指标。

Claims

1.一种预测信用违约的方法，包含下列步骤：

利用第一演算法筛选文件的多个特征词；

利用第二演算法产生多个经筛选的该等特征词的多个权重；

利用该等权重以及第三演算法产生至少一个量化指标；

从财务资料以及所述量化指标筛选多个变量；以及

利用该等变量以及第四演算法产生预测信用违约指数。

2.如权利要求1所述的方法，其中所述第一演算法是使用如下公式：

χ^{2} (t, i) = \frac{N \times {(A \times D - B \times C)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中t代表词汇，i＝1代表所述文件的第一类别，i＝0代表所述文件的第二类别，χ²(t，i)代表t与i的卡方检验值，A为i中包含所述词汇t的词频，B为i中不包含所述词汇t的词频，C为不在i中包含所述词汇t的词频，D为不在i中不包含所述词汇t的词频，而N为所有词汇的词频加总。

3.如权利要求1所述的方法，其中所述第二演算法是使用如下公式：

β_{ip} = \frac{\Pr ({tf}_{ip} | {TF}_{p})}{\Pr ({tf}_{iA} | {TF}_{A})}

其中β_ip代表第i个情绪词的分类特征词的权重，tf_ip代表第i个情绪词的所述分类特征词的词频，TF_p代表乐观新闻中所有情绪词的词频，Pr(tf_ip|TF_p)代表属于所述分类特征词的新闻中第i个情绪词占所有情绪词的比率，tf_iA代表第i个情绪词在所有新闻中的词频，TF_A代表所有情绪词的总词频，而Pr(tf_iA|TF_A)代表所有新闻中第i个情绪词占所有情绪词的比率。

4.如权利要求1所述的方法，其中所述量化指标是选自公开信息揭露程度(Media)，财务危机发生率强度指标(I7DC)以及净乐观程度(NSR)，其中：

{Media}_{it} = Σ_{n = 1}^{N} {NEWS}_{i, t, n}

i代表股票，t代表时间，Media_it代表第i档股票在第t天的信息揭露程度，n为第t天提到公司的关键词的新闻数，NEWS_i，t，n为第i档股票在第t天中的第n篇新闻的变量，当新闻标题或文章的第一段提及所述公司时，所述变量为1，而当新闻标题或文章的第一段未提及所述公司时，所述变量为0；

{ITDC}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{D} w_{j}^{D}}{\underset{k}{Σ} {tf}_{ik}^{ND} w_{k}^{ND}}

为第i家公司在第j个财务危机特征词上的词频，

为第j个财务危机特征词的权重，

为第i家公司在第k个非财务危机特征词上的词频，而

为第k个非财务危机特征词的权重；以及

{NSR}_{i} = \frac{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} - \underset{k}{Σ} {tf}_{ik}^{N} w_{k}^{N}}{\underset{j}{Σ} {tf}_{ij}^{p} w_{j}^{p} + \underset{k}{Σ} {tf}_{ik}^{N} w_{k}^{N}} \times 100 %

其中

为第i间公司在第j个乐观词词频数，

为第j个乐观词的权重，

为第i间公司在第k个悲观词词频数，

为第k个悲观词的权重，而TFi为所述篇新闻断词后的总词频。

5.如权利要求1所述的方法，其中所述第四演算法是选自二元罗吉斯回归公式以及稳健罗吉斯回归公式。

6.一种预测信用违约的装置，包含：

计算单元，用以筛选文件的多个特征词，产生该等特征词的多个权重，产生至少一个量化指标，筛选财务资料以及所述量化指标的多个变量，以及产生预测信用违约指数；

输出单元，输出由所述计算单元所得的该等特征词与权重表；以及

储存单元，储存由所述输出单元而来的该等特征词与所述权重表，其中该等特征词与所述权重表是由多个演算法筛选而来。

7.如权利要求6所述的装置，其中该等特征词与所述权重表是由卡方检验和条件概率以及所述卡方检验和熵值权重法计算并筛选。

8.如权利要求7所述的装置，其中所述卡方检验是使用如下公式：

χ^{2} (t, i) = \frac{N \times {(A \times D - B \times C)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中t代表词汇，i＝1代表文件的第一类别，i＝0代表所述文件的第二类别，A为i中包含所述词汇t的词频，B为i中不包含所述词汇t的词频，C为不在i中包含所述词汇t的词频，D为不在i中不包含所述词汇t的词频，而N为所有词汇的词频加总，且其中所述条件概率使用如下公式：

β_{ip} = \frac{\Pr ({tf}_{ip} | {TF}_{p})}{\Pr ({tf}_{iA} | {TF}_{A})}

其中β_ip代表第i个情绪词的分类特征词的权重，tf_ip代表第i个情绪词的所述分类特征词的词频，TF_p代表乐观新闻中所有情绪词的词频，Pr(tf_ip|TF_p)代表属于所述分类特征词的新闻中第i个情绪词占所有情绪词的比率，tf_iA代表第i个情绪词在所有新闻的词频，TF_A代表所有情绪词的总词频，而Pr(tf_iA|TF_A)代表所有新闻中第i个情绪词占所有情绪词的比率。

9.一种预测信用违约的方法，包含下列步骤：

提供与企业信用违约相关的量化信息；

提供至少一个文本量化指标；

筛选量化信息以及所述文本量化指标的多个变量；以及

利用该等变量产生预测信用违约指数。

10.一种产生量化指标的方法，包含下列步骤：

为特定目的而取得的文件提供多个特征字；

为该等特征字分别赋予多个权重；以及

以该等权重为基础，为所述文件产生至少一个量化指标。