CN111557011A

CN111557011A - 企业破产预测系统及其运行方法

Info

Publication number: CN111557011A
Application number: CN201980003011.6A
Authority: CN
Inventors: 尹悳灿; 千淑姸; 瓦森达拉·德希亚; 徐源缨
Original assignee: Sustainable Development Institute
Current assignee: Sustainable Development Institute
Priority date: 2018-12-12
Filing date: 2019-12-02
Publication date: 2020-08-18
Also published as: KR20200075120A; JP6783002B2; KR102168198B1; US20200193340A1; US11481707B2; EP3726441A1; EP3726441A4; WO2020122487A1; JP2020095693A

Abstract

本发明提供一种企业破产预测系统及其运行方法。本发明的各种实施例的企业的破产危险性的预测方法包括如下步骤：在互联网上收集多项新闻报道；选择作为分析对象的企业；将所收集的多项新闻报道中的与分析对象企业相关的新闻报道作为分析对象报道进行分类；计算出对于各个所述分析对象报道的危险水平；基于所计算出的危险水平而执行所述分析对象报道的分组化而生成显示各个组的特征向量；及基于所生成的特征向量，计算所述分析对象企业的破产危险性。

Description

企业破产预测系统及其运行方法

技术领域

本发明的各种实施例涉及企业破产预测系统及其运行方法，涉及一种基于新闻数据分析而评估企业的破产危险的系统。

背景技术

现代社会中规模最大且重要度高的经济主体为企业。仅在一年中，也有大量企业产生并消失，在经济上对相关的个人、企业甚至国家造成诸多影响。因此，对于分析企业的兴亡盛衰，在相应企业在所属的产业群，及整体产业群的分析中成为基础。企业消失的原因多样，其中，对于通过破产(Default)而企业消失的情况，相应企业的员工、相应企业的投资者或交易企业也受到巨大影响。

因此，持续进行对各个企业的破产可能性预测的研究。一般而言，企业的破产可能性通过根据企业的营业利润而显示承担多少利息费用的指标即利息保障倍数、负债率等而进行了预测。由此，在进行企业的破产可能性分析预测时，主要利用了定量获取的财务数据，但近来，基于非财务数据而分析企业的风险的方法论突出。

在企业公开的公开的财务数据中，存在未向相应企业反应不利的内容的可能性，并也存在了怀疑对企业提供的财务相关的报告书的可靠性的情况。因此，实情为分析非财务性数据的方法论各种兴起，主要开始了利用非财务的数据中的具有充分分析的量的新闻报道数据。

对于新闻报道数据的量虽然分析对象多，但在辨别新闻报道是否为与某个企业相关的报道，并确定将相应新闻报道通过何种方式与破产危险关联而进行分析时存在了大量困难。

发明内容

发明要解决的问题

本发明的各种实施例的目的在于提供一种基于多项新闻报道而预测特定企业的破产危险性的方法。

本发明的各种实施例的目的在于通过各种机器学习运算法则及分析方法而提高破产危险性预测的准确度。

本发明要解决的课题并非通过上述言及的课题限制，未言及的其它课题由下面的记载而使本领域技术人员明确理解。

用于解决问题的手段

用于解决上述课题的本发明的各种实施例的企业的破产危险性预测方法包括如下步骤：在互联网上收集多项新闻报道；选择作为分析对象的企业；将在所收集的多项新闻报道中的与分析对象企业相关的新闻报道作为分析对象报道分类；计算对各个所述分析对象报道的危险水平；基于所计算的危险水平而执行所述分析对象报道的分组化而生成显示各个集团的特征向量；及基于所生成的特征向量而计算所述分析对象企业的破产危险性。

计算对各个所述分析对象报道的危险水平的步骤是指，对采用特定机器学习运算法则并利用所采用的机器学习运算法则而收集的新闻报道而执行回归或项目化分析，之后，利用通过所述回归或项目化分析而得出的危险计算运算法则，而计算出对各个所述分析对象报道的危险水平。

企业的破产危险性预测方法还包括如下步骤：在对所收集的新闻报道执行回归或项目化分析时，仅从与发生破产的企业相关的新闻报道中的相应企业的破产开始而在一定时间以内刊行的新闻报道选择作为分析对象。

将在所收集的多项新闻报道中的与分析对象企业相关的新闻报道按分析对象报道分类的步骤还包括如下步骤：筛选包含所述分析对象企业的名称的新闻报道；及对各个所筛选的新闻报道判断是否为与所述分析对象企业相关的报道。

对各个所筛选的新闻报道判断是否为与所述分析对象企业相关的报道的步骤还包括如下步骤：识别对各个所筛选的新闻报道的文脉或主题，判断所识别的文脉或主题是否与所述分析对象企业信息相关。

基于所计算的危险水平而执行所述分析对象报道的分组化而生成显示各个组的特征向量的步骤还包括如下步骤：基于对所述分析对象报道计算的危险水平，按多个区间对危险水平进行分类，并由此而执行所述分析对象报道的分组化。

按多个区间分类所述危险水平的步骤为，根据所述分析对象企业所属的产业的种类，通过不同的方式执行分类。

基于所生成的特征向量而计算所述分析对象企业的破产危险性的步骤还包括如下步骤：通过决策树运算法则对执行分组化的分析对象报道的特征向量进行分类，之后，基于分类结果，计算出所述分析对象企业的破产危险性预测值。

通过决策树运算法则对执行分组化的分析对象报道的特征向量进行分类的步骤还包括如下步骤：将包括对所述分析对象报道的组而生成的特征向量的数据分类为n个，之后，对于n个数据集合而通过交叉验证(n-CrossValidation)方式而适用决策树(DecisionTree)运算法则，而对特征向量进行分类。

根据本发明的另一实施例，基于新闻报道而预测企业的破产危险性的计算系统包括：新闻报道收集部，在互联网上收集多项新闻报道；分析企业选定部，选择作为分析对象的企业；分析对象报道分类部，将与所收集的多项新闻报道中的分析对象企业相关的新闻报道作为分析对象报道分类；危险水平计算部，计算对各个所述分析对象报道的危险水平；特征向量生成部，基于所计算的危险水平而执行所述分析对象报道的分组化而生成显示各个组的特征向量；及破产危险性预测部，基于所生成的特征向量而计算所述分析对象企业的破产危险性。

发明效果

根据本发明的实施例，对特定企业而筛选与相应企业直接相关的闻报道，能够仅基于相应报道而执行企业的破产危险性预测。

根据本发明的实施例，在破产危险性预测中采用有效的机器学习运算法则而使用，不仅能够独立计算对各个报道的危险水平，而且，能够通过新闻报道的分组化而进行的分析而提高破产危险性预测的准确度。

本发明的效果并非通过上述言及的效果限制，未言及的其它效果通过下面的记载而使普通技术人员明确理解。

附图说明

图1为简要显示本发明的一个实施例的企业破产预测系统运行的环境的画面。

图2为简要显示本发明的一个实施例的企业破产预测系统运行的方式的流程图。

图3为显示本发明的一个实施例的破产预测设备收集新闻报道的动作的附图。

图4为显示本发明的一个实施例的破产预测设备利用NER运算法则而将与分析对象企业相关的新闻报道作为分析对象报道分类的方式的附图。

图5为显示本发明的一个实施例的破产预测设备选择在计算分析对象报道的危险水平时使用的独立变量的过程的附图。

图6为显示本发明的一个实施例的破产预测设备选择在对分析对象报道的危险水平计算中利用的机器学习运算法则的附图。

图7为显示本发明的一个实施例的破产预测设备基于分析对象报道的危险水平而预测企业的破产的过程的附图。

图8为显示本发明的一个实施例的破产预测设备将与特定企业相关的分析对象报道进行分组化的方式的附图。

图9为用于说明本发明的一个实施例的破产预测设备通过所分类的特征向量而计算分析对象企业的破产危险性的方式的附图；

图10为用于说明本发明的一个实施例的破产预测设备通过决策树运算法则而对特征向量分类时使用的交叉验证方式的附图。

图11为显示本发明的一个实施例的破产预测设备的结构的框图。

图12为显示本发明的一个实施例的破产预测设备得出分析对象企业的破产危险性预测值的过程的流程图。

具体实施方式

本说明书中所使用的用语用于说明实施例，并非用于限定本发明。在本说明书中，单数型在文句中未作特别言极的情况，也包含复数型。在说明书中使用的“包括(comprises)”及/或“包含(comprising)”除了所言及的构成要素之外，未排除存在或增加一个以上其它构成要素。在整个说明书中，相同的附图符号是指相同的构成要素，“及/或”包含所言及的构成要素的各个及一个以上的所有组合。即使“第一”、“第二”等用于叙述各种构成要素，但该构成要素并非通过该用语限定。该用语仅用于将一个构成要素与其它构成要素区别而使用。因此，下面言及的第一构成要素在本发明的技术思想内也能够指第二构成要素。

在整个说明书中，在称任何部分“包括”任何构成要素时，在其不存在特别排它性记载的情况下，并非排除其它构成要素，还包括其它构成要素。并且，说明书中记载的“...部”、“模块”等用语是指处理至少一个功能或动作的单位，其由硬件或软件实现或通过硬件或软件的结合实现。

参照图1，企业破产预测系统包括：破产预测设备100、用户终端设备200及外部服务器300。

破产预测设备100收集新闻报道，并通过所收集的新闻报道的分析而执行对特定企业的破产危险性预测。

破产预测设备100由具有存储装置及运算设备的计算系统构成。即，破产预测设备100也能够由具有集约性处理功能的服务器构成，与此不同，也能够与个人电脑(例如，台式电脑、笔记本电脑等)、工作站、PDA、联网板等一样具有存储装置，并由装载微处理机而具有运算能力的数字设备中一个构成。在破产预测设备100所包含的存储装置中，实现与破产预测关联的功能的软件被记录为存储或设置的状态。

用户终端设备200是指由通过与破产预测设备100的通信而获取与特定企业的破产危险性相关的信息的用户使用的终端设备。

本发明的一个实施例的用户终端设备200包括手机、智能手机、PDA(PersonalDigital Assistant)、PMP(Portable Multimedia Player)、平板电脑等通过网络而与网络服务器连接的所有种类的手持式(Handheld)基础的无线通信设备，也能够为与个人电脑(例如，台式电脑、笔记本电脑等)、工作站、PDA、联网板等一样具有存储装置，装载微处理机而具有运算能力的数字设备中一个。

根据一个实施例，用户利用用户终端设备200而将想了解破产危险性的企业的识别信息传送至破产预测设备100，破产预测设备100将对所分析的相应企业的破产危险性预测的信息通过用户终端设备200接收而确认。

外部服务器300作为未通过破产预测设备100的管理主体而管理的服务器，根据一个实施例，是指包含新闻数据的服务器。破产预测设备100与外部服务器300联接而执行新闻数据的收集。通过破产预测设备100而执行的新闻数据的收集而通过爬取(Crawling)的方式实现网上刊行的各种种类的新闻数据。对于此情况，破产预测设备100由多个外部服务器300收集新闻数据。由此，当然外部服务器300的数量并非由特定数量限制。

破产预测设备100通过由各种方式实现的通信网络而执行与用户终端设备200及外部服务器300的通信。

通信网络由有线通信网络、无线通信网络及复合通信网络中一个实现。例如，通信网络包括：3G、LTE(Long Term Evolution)及LTE-A等移动通信网络。通信网络包括：无线局域网(Wi-Fi)、UMTS(通用移动通信系统；Universal Mobile TelecommunisationsSystem)/GPRS(通用无线分组业务；General Packet Radio Service)或因特网(Ethernet)等有线或无线通信网络。通信网络包括：磁性安全传输技术(MST，Magnetic SecureTransmission)、RFID(射频识别；Radio Frequency ID entification)、NFC(近场通信；Near Field Communication)、紫蜂协议(ZigBee)、Z-Wave、蓝牙(Bluetooth)、低功耗蓝牙(BLE，Bluetooth Low Energy)或红外线通信(IR，InfraRed communication)等近距离通信网络。通信网络包括：近距离网络(LAN，Local Area Network)、城域网(MAN，MetropolitanArea Network)或广域网(WAN，Wide Area Network)等。图2为简要显示本发明的一个实施例的企业破产预测系统运行的方式的流程图。

参照图2，破产预测设备100简要经过三个步骤动作而最终预测企业的破产危险性。

图2(a)步骤是指收集新闻数据而执行预处理的步骤，(b)步骤是指按各个新闻报道计算出危险水平的步骤，(c)步骤是指最终执行企业的破产危险性预测的步骤。

在由图2(a)步骤进行研究的情况下，(a)步骤中，破产预测设备100与互联网联接而通过爬取方式收集新闻报道。在该过程中，破产预测设备100也能够仅收集包含按分析对象而选择的分析对象企业的名称的新闻报道。

之后，破产预测设备100判断所收集的新闻报道是否与分析对象企业关联，由此，将多项新闻报道的一部分作为分析对象报道进行分类。例如，即使存在将分析对象企业的名称以文本形式包含的新闻报道，相应名称在新闻报道的文本上并非是指分析对象企业的名称，存在以其它用途使用的情况。并且，也存在与报道的文脉或主题与作为分析对象的企业无关的情况。在所述情况中，新闻报道中包含分析对象企业的名称，但相应报道未作为分析对象报道分类。

在研究图2(b)步骤的情况下，在(b)步骤中，破产预测设备100计算出与作为分析的对象的企业相关且各个所分类的分析对象报道的危险水平。

在(b)步骤中，分析对象报道各个的危险水平计算通过机器学习(MachineLearning)而执行。即，破产预测设备100将所收集的新闻报道的至少一部分设定为用于机器学习的学习用数据(Training Set)及实验用数据(Test set)，在采用特定机器学习运算法则之后，通过相应机器学习运算法则而执行对学习用数据的分析，并将其适用于实验用数据，从而，通过评估分析结果的方式而得出使用于危险水平计算的危险计算运算法则。之后，破产预测设备100通过所得出的危险计算运算法则而计算出对分析对象报道的危险水平。

破产预测设备100通过如上所述的方式对各种种类的机器学习运算法则执行学习及试验，并评估该结果而采用评估结果最优的机器学习运算法则。对于评估结果相应的机器学习运算法则的采用也能够通过破产预测设备100而自动执行，破产预测设备100的管理者也能够确认评估结果并选择。

根据一个实施例，在学习用数据内包含对任一企业是否发生了破产的信息时，破产预测设备100运用如上所述的信息而执行机器学习运算法则的评估。例如，根据提高计算出发生破产的企业的新闻报道的危险水平，并降低计算出未发生破产的企业的新闻报道的危险水平的程度，而执行机器学习运算法则的评估。

在(b)步骤中，运用通过最终采用的机器学习运算法则而得出的危险计算运算法则，计算各个分析对象报道的危险水平。

在研究图2(c)步骤的情况下，破产预测设备100基于在(b)步骤中计算出的新闻报道的危险水平，最终执行企业的破产危险性预测。

破产预测设备100基于对分析对象企业分类的分析对象报道的危险水平，以数值化形式计算分析对象企业的破产危险性。并且，破产预测设备基于所计算的破产危险性，通过可否形式(yes or no)也能够判断相应企业的破产预测，并且，也能够额外计算出所计算的破产危险性的可靠度。

破产预测设备100在基于分析对象报道的危险水平而计算分析对象企业的破产危险性时，基于所计算的危险水平而执行分析对象报道的分组化，并按各个组生成特征向量，基于此，也能够计算破产危险性。

图3为显示本发明的一个实施例的破产预测设备100收集新闻报道的动作的附图。

参照图3，破产预测设备100在互联网上通过爬取方式收集新闻报道。在图3中，仅显示破产预测设备100收集的新闻报道中的对特定的企业的新闻报道。

根据一个实施例，破产预测设备100利用Lucene等语素分析文库而对整体新闻报道中的仅包含特定企业的名称的新闻报道进行筛选。

图4为显示本发明的一个实施例的破产预测设备100利用NER运算法则而将与分析对象企业相关的新闻报道作为分析对象报道分类的方式的附图。

参照图4，破产预测设备100在对与分析对象企业相关的报道进行分类时，运用特性化的NER(命名实体识别；Named Entity Recognition)运算法则。如图3所示，运用语素分析文库等仅筛选整体新闻报道中的包含特定企业的名称的新闻报道，但对于此情况，将所筛选的报道直接作为分析对象报道分类而在使用上存在了几个问题。在研究问题时，特定的报道存在了与相应企业完全无关的情况，语素分析文库允许判断拼写存在些许错误的报道，由此，存在了筛选无关的报道的情况。并且，特定企业的名称不仅按相应企业的名称使用，也存在了筛选按相应企业销售的产品的名称使用等企业的名称按其它意义使用的报道的情况。

为了解决如上所述问题，破产预测设备100运用NER运算法则，判断通过语素分析文库而筛选的新闻报道是否为与分析对象企业相关的新闻，并将相应的报道作为分析对象报道进行分类。即，破产预测设备100将包含分析对象企业的名称的新闻报道运用语素分析文库而筛选，对于所筛选的各个新闻报道，通过NER运算法则判断相应报道是否为与分析对象企业相关的报道。

根据一个实施例，NER运算法则通过编程语言即R实现，运用POStagging与n-gram方式而实现。POS(Part-Of-Speech)tagging是指将文本按语法功能与形式而区分的方式，如上所述部分通过各种基准而执行。n-gram是指将语言以分组化的方式而将文章以具有n各音节或单词的组分类，并对此执行分析的方式。

参照图4，通过NER运算法则，判断对分析对象企业而筛选的报道是否与分析对象企业相关。基于是否提取了包含企业的名称的文本，适用NER运算法则，判断相应报道是否与分析对象企业相关，如图4所示，通过'ACCEPT'或'REJECT'等可否形式(yes or no)而得出结果。

如上所述，根据NER运算法则，识别所筛选的新闻报道各个的文脉或主题，并判断所识别的文脉或主题是否与分析对象企业信息相关，判断特定企业的名称并非表示相应企业而是否是作为其它意义使用。

图5为显示本发明的一个实施例的破产预测设备100选择在计算出分析对象报道的危险水平时使用的独立变量的过程的附图。

在破产预测设备100执行对通过根据图3及图4而说明的方式分类的分析对象报道的分析，运用机器学习运算法则。破产预测设备100采用特定机器学习运算法则，将分析对象报道的一部分设定为学习用数据之后，执行相应的分析，而得出危险计算运算法则。在该过程中，所使用的机器学习运算法则运用回归分析或项目化分析方式。

参照图5，破产预测设备100通过各种方式而选择使用于出危险水平计算的独立变量。使用于危险水平计算的独立变量包括包含于新闻报道的文章或单词的至少一部分。

根据一个实施例，破产预测设备100将包含于新闻报道的单词按n-gram形式分类而选择，也能够通过各种特征选择(Feature Selection)方式而选择单词。并且，单词基于根据在新闻报道中出现的频率而计算的稀缺性，执行危险水平计算时，也能够选择作为独立变量使用的单词。

图5显示通过各种方式选择了独立变量时的结果值。在图5的右侧的图表中横轴显示独立变量选择以相互不同方式实现的方式，矩形图显示在各个方式中使用的独立变量的数量，线状图表显示各个方式的评估分数。

参照图5，如1-3及1-4方式中研究所示，在独立变量的数量增加的情况下，评估分数也相应上升，但在如上所述的方式中，也发生了过拟合(Overfitting)的问题，并且，对于处理太过大的独立变量的数量的方式过度要求计算系统的资源。因此，如3-1方式与3-2方式中显示所示，在选定适当的数量的独立变量的情况下，由此，在不存在过拟合的问题下，计算出适当的评估分数。

图6为显示本发明的一个实施例的破产预测设备100选择在对分析对象报道的危险水平计算中利用的机器学习运算法则的过程的附图。

参照图6，破产预测设备100采用各种种类的机器学习运算法则而对分析对象报道进行分析并基于分析结果而得出危险计算运算法则。根据一个实施例，机器学习运算法则利用回归分析或项目化分析。机器学习运算法则的种类如图6显示所示，包括：MLPRegression、Logistic Regression、Decision Tree、Random Forest、AdaboostClassifier、SVM(Support Vector Machine)等。但，破产预测设备100所采用而使用的机器学习运算法则的种类并非通过如上所述的例子限定。

在图6中显示通过各种种类的机器学习运算法则而将对分析对象报道进行分析的结果通过AUC及基尼系数(Gini Value)而评估的数值。AUC(模型评估指标；Area UnderCurve)为用于在统计学中评估判别模型的性能而使用的计算方式，是指在将x轴设定为False Positive Rate(伪阳性率)、Y轴设定为True Positive Rate(真阳性率)的图表中显示的ROC(接受者操作特性曲线；Receiver Operating Characteristics)曲线的下面面积。AUC的最大值为1，且以随着高值出现，而分类的性能越优秀的方式解释。基尼系数也为用于在统计学中评估判别模型的性能而使用的计算方式中一个，图表中从ROC曲线与原点开始，在将图表对半分类的对角线之间的面积称为A，将ROC曲线下的面积称为B时，将A除以(A+B)而求得。对于AUC与基尼系数的关系，在AUC乘以2的值中，在扣掉1的情况下，计算基尼系数的关系。

破产预测设备100基于如上所述的评估结果，采用特定的机器学习运算法则，利用通过所采用的运算法则而得出的危险计算运算法则而计算对各个分析对象报道的危险水平。

图7为显示本发明的一个实施例的破产预测设备100基于分析对象报道的危险水平而预测企业的破产的过程的附图。

参照图7，破产预测设备100基于与分析对象企业相关的分析对象报道的危险水平而判断破产报道比例，并由此计算破产危险性。参照图7，显示存在大致的误差，但随着时间的进行，破产报道的比例逐渐增加，在破产发生4个月之前的M-4的时间点开始，显示与破产报道的比例一起也增加破产危险性数值(D.D:Distance to Default)。图7中在显示为圆的部分701中，暂时增加了破产报道比例，但破产危险性数值并未显示大的变动。如上所示，破产预测设备100控制使得即使暂时增加或减少破产报道比例，破产危险性数值也未与此过度关联而发生变化。

图8为显示本发明的一个实施例的破产预测设备100将与特定企业相关的分析对象报道分组化的方式的附图。

参照图8，显示将对多个分析对象报道的危险水平显示为数值化的形式，分析对象报道的分组化基于危险水平而执行的形式。

根据本发明的一个实施例，多个分析对象报道如图8中显示所示，显示为各种数值的危险水平，其为根据基于危险水平的任意基准而分组化为多个组。在图8中，显示计算出0.7、0.8及0.9的危险水平的分析对象报道被分组化为了第一组801，计算出1.2及1.3的危险水平的分析对象报道被分组化为了第二组803，计算出0.3、0.4及0.5的危险水平的分析对象报道分组化为了第三组805的状态。如上所示，根据本发明的一个实施例而设定危险水平的多个区间，分析对象报道属于各个区间，由此，执行分析对象报道的分组化。

图9为用于说明本发明的一个实施例的破产预测设备100通过所分类的特征向量而计算分析对象企业的破产危险性的方式的附图。

参照图9，破产预测设备100如上所述，分析对象报道基于危险水平而被分组化之后，生成显示各个组的特征向量(Feature Vector)。特征向量将基于属于各个组的分析对象报道的危险水平而计算的统计值作为矢量的元素包含。基于分析对象报道的危险水平而计算的统计值包括：最小值(Minimum)、最大值(Maximum)、平均值(Mean)、中央值(Median)、众数(mode)等。

在生成各个组的特征向量之后，破产预测设备100基于所生成的特征向量而计算分析对象企业的破产危险性。根据一个实施例，破产预测设备100计算破产危险性，并最终将相应企业的破产危险性以可否形式(yes or no)判断。

在该过程中，破产预测设备100将特征向量通过决策树(Decision Tree)运算法则分类。即基于特征向量具有的各种种类的特性而对特征向量分类，基于该分类结果，计算分析对象企业的破产危险性预测值，并计算破产危险性预测的可靠度。

根据一个实施例，破产预测设备100通过决策树运算法则而计算破产危险性预测值，将各个权群的概率分布值作为基础。例如，在决策树的分支(branch)内基于相同权群出现的概率，即在数据分类利用的特征向量基于特定权群分类的概率而计算破产危险性预测值。

破产预测设备100计算破产危险性预测，同时计算破产危险性预测的可靠度，对于其以未通过决策树运算法则而检测特征向量的所有特性的状态而计算破产危险性预测值的情况，按减少可靠度的形式计算。例如，特征向量在决策树运算法则上分类的基准为10个，但仅该基准中的一部分在使用的状态下完成最终权群分类，对于计算破产危险性预测值的情况，随着较少核算所使用的基准的数量，以降低可靠度的方式而执行可靠度计算。

图10为用于说明本发明的一个实施例的破产预测设备100通过决策树运算法则而对特征向量进行分类时使用的交叉验证方式的附图。

参照图10，在破产预测设备100通过决策树运算法则而对特征向量进行分类时，通过交叉验证(n-Cross Validation)方式而执行分类。具体而言，破产预测设备100基于包含对分析对象报道而计算的危险水平信息的数据，在将数据分类为n个之后，将n个数据集合中的一个集合作为实验用数据(Test set)，将剩下集合作为学习用数据(Training set或Learning set)使用的情况反复n次。由此，根据交叉验证方式，在反复过程中，通过持续变更作为实验用数据使用的数据集合而通过变更相异的实验用数据及学习用数据反复进行n次分析。

图11为显示本发明的一个实施例的破产预测设备100的结构的框图。

参照图11，破产预测设备100包括：新闻报道收集部110、分析企业选定部120、分析对象报道分类部130、危险水平计算部140、特征向量生成部150、破产危险性预测部160、通信部170、存储部180及控制部190。

为了便于说明，将在破产预测设备100内执行各个作用的主体显示为了～部的形式，但各个部分是指将在破产预测设备100内运行的子程序模块或控制部190进行功能性分类的结构。该程序模块执行各个运行，为执行特定抽象数据类型的例程、子程序、程序、目标、元件、数据结构的概念，但并非限定于此。

新闻报道收集部110在互联网上执行新闻报道的收集。为此，新闻报道收集部110与各种种类的外部服务器300联接。新闻报道收集部110对于在网络上刊行的新闻相关数据，以执行爬取的方式收集新闻报道。

根据一个实施例，新闻报道收集部110在选择分析对象企业的情况下，仅对与相应企业相关的报道进行分类而收集。新闻报道收集部110执行如上所示的功能，从而，利用下面所述的分析企业选定部120及分析对象报道分类部130的功能。

分析企业选定部120选择作为分析对象的企业。如上所述，新闻报道收集部110仅收集分析企业选定部120选择的与企业相关的报道，下面所述的分析对象报道分类部130对分析企业选定部120选择的企业的报道进行分类。根据一个实施例，分析企业选定部120也能够选择多个分析对象企业，也能够将与由用户终端设备200接收企业信息相应的企业选择作为分析对象企业。

分析对象报道分类部130将所收集的新闻报道中的与分析对象企业相关的新闻报道按分析对象报道分类。为此，分析对象报道分类部130一次性筛选包含分析对象企业的名称的新闻报道，判断各个所筛选的新闻报道是否为与分析对象企业相关的报道。

在分析对象报道分类部130筛选包含分析对象企业的名称的新闻报道时，运用语素分析文库。并且，在分析对象报道分类部130筛选包含分析对象企业的名称的新闻报道的情况下，识别各个所筛选的新闻报道的文脉或主题，判断所识别的文脉或主题是否与分析对象企业信息相关。例如，分析对象企业为经营玩具制造业的企业，但在包含相应企业的名称，而所筛选的报道中一个包含与此完全无关的半导体相关内容的情况下，分析对象报道分类部130判断相应报道与分析对象企业信息相关，并在分析对象报道除外。

危险水平计算部140计算出分析对象报道分类部130所分类的各个分析对象报道的危险水平。在该过程中，危险水平计算部140采用特定机器学习运算法则，并利用相应机器学习运算法则而执行对所收集的新闻报道的回归分析或项目化分析。危险水平计算部140利用通过回归分析或项目化分析的结果而得出的危险计算运算法则而计算出各个分析对象报道的危险水平。

危险水平计算部140对分析对象企业的报道，及新闻报道收集部110所收集的所有的新闻报道执行分析。即，在危险水平计算部140利用机器学习运算法则时，因需学习相应机器学习运算法则，通过学习用数据运用如上所述新闻报道。根据一个实施例，危险水平计算部140管理新闻报道，以及企业的破产信息。企业的破产信息包括发生破产的企业信息与破产发生时间点相关的信息。

在危险水平计算部140执行对通过机器学习运算法则而收集的新闻报道的分析时，仅将破产发生的企业的新闻报道作为该对象，将对于发生破产的企业的新闻报道，仅将由相应企业的破产开始而在一定时间以内刊行的新闻报道选择作为分析对象。例如，危险水平计算部140对于在特定公司发生破产的情况，仅对破产发生日之前两年内刊行的新闻报道作为分析对象。

如上所示，危险水平计算部140对发生破产的企业，仅将企业的发生破产之前一定时间以内刊行的新闻报道通过机器学习运算法则而分析，利用根据分析结果而得出的危险计算运算法则而计算出各个分析对象报道的危险水平，由此，提高危险水平计算的准确度。即，危险水平计算部140在执行机器学习运算法则的学习的步骤中，通过是否为发生了破产的事实的企业的报道而执行学习，利用通过机器学习运算法则得出的危险计算运算法则而计算出各个当前未发生破产的分析对象企业的新闻报道的危险水平。

特征向量生成部150基于对各个分析对象报道而计算出的危险水平，执行分析对象报道的分组化并生成显示各个组的特征向量。

特征向量生成部150根据对分析对象报道而计算出的危险水平的区间而将分析对象报道作为多个组分类，基于包含于各个组的分析对象报道的危险水平的统计值而生成显示组的特征向量。

根据一个实施例，在特征向量生成部150生成特征向量时使用的分析对象报道的危险水平统计值包括：危险水平数值的平均值(Mean)、中央值(Median)、众数(Mode)、最小值(Minimum)、最大值(Maximum)等。特征向量生成部150将如上所述的统计值或利用其所计算出的其它数值作为特征向量的元素而生成特征向量。

根据一个实施例，在特征向量生成部150将危险水平分类为多个区间时，根据分析对象企业所属的产业的种类而以不同的方式执行分类。例如，特征向量生成部150通过制造业、医疗业、金融业、通信业等对产业进行分类，并掌握分析对象企业属于何处，之后，在各个产业的种类中以匹配型执行危险水平的区间分类。例如另一例，特征向量生成部150将分析对象企业所属的产业按制造业或非制造业进行分类，由此，执行危险水平的区间分类。

破产危险性预测部160基于对分析对象企业生成的多个特征向量，计算出相应企业的破产危险性预测值，并计算与预测值计算相关的可靠度。

根据一个实施例，破产危险性预测部160通过决策树运算法则而对特征向量进行分类，由此，计算破产危险性预测值。破产危险性预测部160将包含对分析对象报道的组生成的特征向量的数据分类为n个之后，对n个数据集合按n-Cross Validation方式适用决策树(Decision)而执行特征向量的分类。

破产危险性预测部160在决策树上基于各个权群的概率分布值，计算破产危险性预测值。并且，在破产危险性预测部160计算破产危险性预测的可靠度时，在计算破产危险性预测值的过程中，基于通过决策树运算法则检测的特性的数量而计算破产危险性预测的可靠度。

通信部170执行破产预测设备100与用户终端设备200及外部服务器300的通信。通信部170用于执行通信而使用的通信网络未遮盖有线及无线等其通信样式并构成，并通过各种种类的通信网络实现。

存储部180执行保管在破产预测设备100运行的过程中运用的数据的作用。例如，存储部180存储所收集的新闻报道数据及与其对应的分析数据而进行管理。

存储部180包括：例如，存储单元(memory)、高速缓冲存储器(cash)、缓冲器(buffer)等，由软件、固件、硬件或软件、固件、硬件中的至少两个以上组合构成。根据一个实施例，存储部180由ROM(只读存储器；Read OnlyMemory)形式实现。

控制部190执行控制新闻报道收集部110、分析企业选定部120、分析对象报道分类部130、危险水平计算部140、特征向量生成部150、破产危险性预测部160、通信部170及存储部180之间的数据流的功能。即，本发明的控制部190控制使得在新闻报道收集部110、分析企业选定部120、分析对象报道分类部130、危险水平计算部140、特征向量生成部150、破产危险性预测部160、通信部170及存储部180中分别执行固有的功能。

图11中新闻报道收集部110、分析企业选定部120、分析对象报道分类部130、危险水平计算部140、特征向量生成部150及破产危险性预测部160为对控制部190进行功能性分类的结构，由此，统合构成为一个控制部190。

图12为显示本发明的一个实施例的破产预测设备100用于得出分析对象企业的破产危险性预测值的过程的流程图。

参照图12，破产预测设备100在互联网上执行对新闻报道的收集(S1201)。在如上所述的收集步骤中所累积的新闻报道数据被作为之后机器学习运算法则的学习用数据或实验用数据使用，也能够仅另外对与选择作为分析对象企业的企业相关的新闻报道分类，而使用于破产危险性预测。

破产预测设备100通过机器学习运算法则而执行新闻报道分析，并得出危险计算运算法则(S1203)。在该过程中，破产预测设备100通过各种种类的机器学习运算法则而执行新闻报道分析，并对比该结果而采用特定机器学习运算法则。破产预测设备100单独收集新闻报道数据与企业的破产信息而进行管理，并基于此，评估新闻报道分析结果。

破产预测设备100选择作为分析对象的企业，并将与相应企业相关的新闻报道作为分析对象报道进行分类(S1205)。分析对象企业的选择通过用户而执行，选择信息也能够以从用户终端设备200中传输至破产预测设备100的方式而执行，也能够通过破产预测设备100的管理者执行。破产预测设备100也能够在提前收集的新闻报道中对与相应企业相关的新闻报道进行分类，但互联网上，也能够重新检索与相应企业相关的新闻报道而进行收集。破产预测设备100运用语素文库而仅收集包含分析对象企业的名称的报道。

破产预测设备100选择作为分析对象的企业，并将与相应企业相关的新闻报道作为分析对象报道进行分类，利用语素文库而仅对在所收集的整体新闻报道中的包含分析对象企业的名称的新闻报道进行筛选，仅将利用NER运算法则而筛选的报道中的分析对象企业相关的新闻报道作为分析对象报道进行分类。与此不同，破产预测设备100对于在收集步骤中，仅收集包含分析对象企业的名称的新闻报道的情况，对此，利用NER运算法则而仅将与分析对象企业相关的新闻报道作为分析对象报道进行分类。

破产预测设备100在对分析对象报道进行分类之后，在S1203步骤中，利用所得出的危险计算运算法则而计算出对于各个分析对象报道的危险水平(S1207)。

在计算出各个分析对象报道的危险水平的情况下，破产预测设备100基于所计算出的危险水平而执行分析对象报道的分组化(S1209)。根据一个实施例，分析对象报道的分组化基于对各个报道而计算出的危险水平是否属于多个区间中的任一个区间而执行。

破产预测设备100运用分析对象报道被分组化的结果，按各个分析对象报道的组而生成特征向量(S1211)。包含特征向量的元素是指基于包含于各个组的分析对象报道的危险水平而计算的各种统计值或运用该统计值而计算的数值。

破产预测设备100最终基于所生成的特征向量而计算分析对象企业的破产危险性(S1213)。分析对象企业的破产危险性计算通过决策树运算法则而经过对特征向量分类的过程执行。并且，破产预测设备100在计算破产危险性预测值的过程中，另外计算破产危险性预测的可靠度。

由此，根据本发明的各种实施例，通过对特定企业的新闻报道分析而计算相应企业的破产危险性，银行基于此而执行对企业的信用评估，更强化执行对企业的贷款风险管理。并且，选择适合于各种机器学习运算法则中的破产危险性计算的运算法则，独立计算通过各个新闻报道的危险水平，而且，通过新闻报道的分组化而预测总体的破产危险性。

与本发明的实施例相关而说明的方法或运算法则的步骤通过硬件直接实现，或通过硬件实行的软件模块实现，或通过该结合而实现。软件模块也能够与RAM(随机存储器；Random Access Memory)、ROM(Read Only Memory)、EPROM(可擦除可编程只读存储器；Erasable Programmable ROM)、EEPROM(带电可擦可编程只读存储器；ElectricallyErasable Programmable ROM)、快闪存储器(Flash Memory)、硬盘、错开式硬盘、CD-ROM或本发明所属技术领域熟知的任意形式的电脑可读取记录媒体。

综上，参照附图而对本发明的实施例进行了说明，但本发明所属技术领域的普通技术人员未变更本发明的技术思想或必要特征的范围内，通过其它具体形式实施。因此，综上记述的实施例以仅在所有面进行例示，并非用于限定进行理解。

Claims

1.一种企业的破产危险性预测方法，涉及一种通过计算系统执行，并基于新闻报道而预测企业的破产危险性的方法，其特征在于，

包括如下步骤：

在互联网上收集多项新闻报道；

选择作为分析对象的企业；

将所收集的多项新闻报道中的与分析对象企业相关的新闻报道作为分析对象报道进行分类；

计算出对于各个所述分析对象报道的危险水平；

基于所计算出的危险水平而执行所述分析对象报道的分组化而生成显示各个组的特征向量；及

基于所生成的特征向量，计算所述分析对象企业的破产危险性。

2.根据权利要求1所述的企业的破产危险性预测方法，其特征在于，

计算出对各个所述分析对象报道的危险水平的步骤是指，

采用特定机器学习运算法则，并对利用所采用的机器学习运算法则而收集的新闻报道执行回归或项目化分析，之后，利用通过所述回归或项目化分析而得出的危险计算运算法则而计算出对各个所述分析对象报道的危险水平。

3.根据权利要求2所述的企业的破产危险性预测方法，其特征在于，

还包括如下步骤：

在对所收集的新闻报道而执行回归或项目化分析时，仅将从与发生破产的企业相关的新闻报道中的相应企业的破产开始在一定时间内刊行的新闻报道选择作为分析对象。

4.根据权利要求1所述的企业的破产危险性预测方法，其特征在于，

将所收集的多项新闻报道中的与分析对象企业相关的新闻报道而作为分析对象报道分类的步骤包括如下步骤：

筛选包含所述分析对象企业的名称的新闻报道；及

对于所筛选的新闻报道，判断是否为与所述分析对象企业相关的报道。

5.根据权利要求4所述的企业的破产危险性预测方法，其特征在于，

对于所筛选的新闻报道，判断是否为与所述分析对象企业相关的报道的步骤还包括：

识别各个筛选的新闻报道的文脉或主题，并判断所识别的文脉或主题是否与所述分析对象企业信息相关。

6.根据权利要求1所述的企业的破产危险性预测方法，其特征在于，

基于所计算出的危险水平而执行所述分析对象报道的分组化而生成显示各个组的特征向量的步骤还包括如下步骤：

基于对所述分析对象报道而计算出的危险水平，将危险水平按多个区间分类，并通过此，而执行对所述分析对象报道的分组化。

7.根据权利要求6所述的企业的破产危险性预测方法，其特征在于，

按多个区间分类所述危险水平的步骤是指根据所述分析对象企业所属的产业的种类而以相异的方式执行分类。

8.根据权利要求1所述的企业的破产危险性预测方法，其特征在于，

基于所生成的特征向量而计算所述分析对象企业的破产危险性的步骤还包括如下步骤：

将执行分组化的分析对象报道的特征向量通过决策树运算法则而分类之后，基于分类结果而计算出所述分析对象企业的破产危险性预测值。

9.根据权利要求8所述的企业的破产危险性预测方法，其特征在于，

通过决策树运算法则对执行分组化的分析对象报道的特征向量执行分类的步骤还包括如下步骤：

将包含对于所述分析对象报道的组生成的特征向量的数据分类为n个之后，通过n个数据集合，以交叉验证方式而适用决策树运算法则，从而，对特征向量执行分类。

10.一种计算系统，涉及一种基于新闻报道而预测企业的破产危险性的计算系统，其特征在于，

包括：

新闻报道收集部，在互联网上收集多项新闻报道；

分析企业选定部，选择作为分析对象的企业；

分析对象报道分类部，将与所收集的多项新闻报道中的与分析对象企业相关的新闻报道作为分析对象报道而进行分类；

危险水平计算部，计算出对于各个所述分析对象报道的危险水平；

特征向量生成部，基于所计算出的危险水平，而执行所述分析对象报道的分组化而生成显示各个组的特征向量；及

破产危险性预测部，基于所生成的特征向量，而计算所述分析对象企业的破产危险性。