CN102508860A

CN102508860A - 一种基于xbrl实例文档的数据挖掘方法

Info

Publication number: CN102508860A
Application number: CN2011103010800A
Authority: CN
Inventors: 王权; 胡至微; 梁永宏; 曾令祝; 杨杰; 芮庆忠
Original assignee: Guangzhou Ch Control Technology Co Ltd
Current assignee: Guangzhou Ch Control Technology Co Ltd
Priority date: 2011-09-29
Filing date: 2011-09-29
Publication date: 2012-06-20

Abstract

本发明公开了一种基于XBRL实例文档的数据挖掘方法，包括准备XBRL财务数据源；装入到XBRL财务数据仓库；挖掘出潜在的、有用的知识或模式；进行可视化的表示。等四个步骤。本发明的XBRL数据挖掘方法可以在金融企业中得到知识发现、决策支持、智能化、金融监管等方面的应用。

Description

一种基于XBRL实例文档的数据挖掘方法

技术领域

本发明涉及数据挖掘方法领域，特别涉及一种在XBRL(eXtensibleBusiness Reporting Language，可扩展商业报告语言)实例文档中进行数据挖掘的方法。

背景技术

数据挖掘(Data mining)，又译为数据采矿、数据挖掘。它是数据库知识发现(Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

随着信息技术、网络技术和通信技术的发展，企业信息化程度越来越高，越来越多的企业应用了电子商务、CRM和ERP等业务系统，产生了大量的财务数据。但与之相配合的数据分析和知识提取技术的发展却相对缓慢，使得存储的大量财务数据得不到充分利用，不能转化成指导生产的“知识”，数据挖掘技术正好解决了这方面的问题。数据挖掘将高级智能计算技术应用于大量数据中，让计算机在有人或无人指导的情况下从海量数据中发现潜在的，而且能够发现未知的知识，得到的知识是“显式”的，既能为人所理解，又便于应用和分析比较。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析等)的区别是：数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先前未知、有效和实用3个特征。先前未知的信息是指该信息是预先未曾预料到的，挖掘出的信息越是出乎意料，就可能越有价值。

到目前为止，大多数数据挖掘是借用人工智能的各种方法来挖掘数据中存在的知识。但是，正如人工智能本身的发展研究现状一样，数据挖掘还不能很好地理解数据中存在的知识。XML技术的出现，不仅为互联网上的电子数据交换提供了一个标准，而且XML技术从数据的角度提供了一个可以更好地表示数据内容以及数据所代表意义的手段。可扩展商业报告语言(eXtensibleBusiness ReportingLanguage，XBRL)作为XML在网络财务报告语言上的应用，对财务数据的表示提供了统一的规范和标准，从而为在大量的财务数据中挖掘有用的知识和模式提供了技术基础。

数据挖掘主要包括以下的特点

一、待挖掘的数据量非常巨大，人们首先的要求是：自己所需要的信息查找范围如此巨大，如何能快速、高效并准确地找到它，这是数据挖掘首先要考虑的问题。

二、待挖掘的数据是已经现有的数据，而且这些数据是隐藏着的，它已经是存在了的。只是这些已经现存的数据是相对陈旧的，既这些数据没有同步得到更新。

三、一个好的数据挖掘技术有着重要的标准，这些技术要揭示待挖掘数据的内在关系，要求挖掘算法具有快捷性和实效性。

XBRL是基于XML(可扩展的标记语言，Extensible Markup Language)框架，专为公司公布财务报告而开发的语言，目前已有越来越多的公司把XBRL作为财务报告的统一标准。由于XBRL在所有的软件格式和输出通道之间提供了更大的互用性，从而使人们能够进行更强、更有效力的分析及更快地发现问题。XBRL使用的标签以标准化的会计业内定义为基础，以描述和识别财务信息的每个项目，如纯收入等。它为每个财务项目定义标签，这使财务报告标准趋向统一，而这正是目前的财务报告所缺乏的。凭借出色的搜索性能，XBRL使财务信息更加一致，更易理解，而且无需公司改变他们公布财务情况的方式。

XBRL遵循标准的XML技术框架

XBRL是一个基于XML标准的应用模式，它可以用来编制、发布各种不同样式的财务信息，也可以在网络中毫无限制地传递、交换、分析信息。XML与HTML不同，HTML着重是对文档在浏览器上显示时的格式进行标记，而XML是对文档的内容和结构进行标记。一个是对格式标记，一个是对文意进行标记。因此，XML更适合计算机阅读，通过计算机对树状结构的文档分析，用户可以更好地对文档的内容进行检索。由于XBRL是一个基于XML的跨平台的数据传输标准，是一个以标记语言编写的文本文件，只要用户的浏览器支持XML，用户就可以向浏览HTML格式的网页一样，浏览和下载需要的财务信息。对于一家公司来讲，当其需要将其财务信息在网络上发布的时候，只要将原来报表的电子文档格式转换成XBRL的标准格式即可，不论原始的报表的格式是WORD或EXCEL，还是HTMl格，甚至由企业会计信息系统数据库直接产生的报表格式。最重要的是，财务信息使用者可以直接对下载的财务数据进行分析、利用，而不用进行第二次输入。

XBRL的技术架构

XBRL主要有XBRL规格书(Specification)、XBRL分类标准(Taxonomy)和XBRL实例文档((Instance)构成。

XBRL规格书是定义XBRL专用术语的一个文件，描述如何根据XBRL规格书创建财务报表。

XBRL分类标准是对会计报告内容标准的描述与分类，可视为XML模式(Schema)的扩展。

XBRL实例文档是一个包含企业报告信息的XML文档，代表了运用分类标准标记的财务实例的集合。

XBRL的这种技术结构使得XBRL具有良好的动态分析功能，当搜索引擎找到所需的信息时，它能进一步追踪下去找到数据的最初来源及其它与该信息有关的资料。唯一性是计算机之间储存、检索、分析、共享与再利用信息的前提。具有完善的定义与唯一的XBRL要素可以使信息减少模糊性，而这正是银行、投资者、政府机构于其它财务信息利用相关者所需求的。

基于XBRL的数据挖掘可以从不同系统中收集数据，进行组织和分析，这使得企业可以确认财务报表数据的格式，因此能够改进内部控制有效性和财务信息的准确度。XBRL不但可让财务信息更有效的利用，而且可确保资料搜寻结果的正确性与相关性。XBRL提供的电子文档格式的财务信息，可以帮助投资者及其它财务信息使用者。

因为XBRL是在XML语言基础上开发的，所以它具有XML语言的特点。首先XBRL给电子数据定义标签，在该电子标签中，XBRL表示标签内容所表达的数据间的逻辑关系和内在含义。如仅给出一个数字“1000”，而没有关于“1000”的其他描述，这个数字几乎没有什么实际意义。要使该数字成为有用的信息，必须知道1000所反映的更多含义，如单位“万元”。这些伴随着数字的相关信息我们定义为“元数据”，元数据是准确描述这类数据的文字数据，是对文字的具体文字说明。这种语言是计算机可以理解的符号语言。如给数字“1000“定义明确的元数据，相关语义就非常清楚。”A公司2010年度的负责为1000万元“，数据所描述的信息就非常明确了，信息的准确性和可用性也大为提高了。

与此同时，XBRL与XML一样，是一种跨平台语言，这给用户的使用带来了很大的方便，在XBRL作用下，用户的同一份文档可以在不同软件中使用，也可以在不同的操作系统中使用，也可以在不同的操作系统中使用，这样就提高了XBRL文档的通用性、高效性和准确性。

一、输入财务数据的简捷性

为了减少数据错误，在数据挖掘中，同一数据要尽可能少的次数输入，这样才能使发生错误的可能性减小。XBRL具有这样的特点，数据采用XBRL格式后，因其数据放在样式单中，以特有的显示格式存放。因此相关数据用户不需要输入多次就可以重复使用，而且还可以为用户呈现为各种格式的相关报告。

因此，XBRL的使用，不但降低了用户发布各种电子报告的成本，还节省了大量的输入成本，同时也降低了重新录入数据而产生更多的错误，这样不但为用户节省了大量的时间，而且提高了数据的准确性和工作效率。

二、查找信息的准确性

在XBRL格式的文件中，由于其电子标签的特性，这些标记不仅对数据内容进行标记，而且对其显示格式进行描述，同时对数据赋予特定含义进行准确的描述，呈现数据的相关性、结构性以及这些数据间的相互关系，并把这些信息进行互相连接。这种连接机制不仅得到相应电子数据，还能得到相应数据所表示的其它信息，而这些信息也是用户需要了解的，这样就使我们挖掘的数据更加方便使用。

三、数据挖掘的关联性

XBRL不仅能提供及时的、准确的不同数据，能进行格式转换，而且XBRL更具有良好的动态查找功能，当用户进行查找时，它能进一步追踪下去找到数据的最初情况及其它与该信息相关的资料。正是XBRL这种动态分析功能，非常高效的满足了不同用户的不同需求，有效地实现了电子数据的可移植性，可以下载性和可追踪性。

基于XBRL的数据挖掘还有一个显著的特点，它可以从不同系统中收集用户所需要的数据，并进行组织和分析，从而使得到的信息更加全面有效。

XBRL的使用，极大降低了不同部门和不同用户重复输入的劳动力资源，大大减少了资料重复使用的安全和错误风险，同时还由于XBRL有快速过滤功能，也就是它能从大量的电子数据中过滤掉用户所不需要的信息，能快速地使用用户从海量的数据中找到自己需要的信息，同时XBRL还具有多种语种识别和输入功能、数据加密和数字防伪等功能，这样就从多个角度保证了挖掘数据的真实性、完整性和科学性，提高了信息的安全性、准确性和可靠性。

XBRL的这些特点为在大量的数据中挖掘有用的知识和模式提供了技术基础和技术保证。

XBRL在数据挖掘方面有很大的优势，其流程图1所示：

XBRL的层次结构特点为电子数据的挖掘提供了极大的方便，这也是XBRL得到广泛推崇的原动力之一。XBRL在数据挖掘方面的主要优势如下：

一、使用的通用性

由于XBRL采用了XML技术，因此，它是夸操作系统的，如在不同的操作系统中，XBRL文件都可以直接使用，在不同的应用软件中，也可以实现数据的互用和交换。跨平台使用的关键在于XBRL的结构特征，因为这在XBRL结构中主要体现在XBRl的语义规则分层，从而使得XBRL在不同的操作平台中能够互相使用。

二、数据的跟踪性

XBRL可在不同的信息之间建立有效的链接，能够按照事先定义的信息线索进行有效跟踪，逐层搜索直到定义的电子数据的底层。

XBRL具有良好的动态分析功能，可以读懂XBRL标记的具体含义，而且用户也可以很公用的根据XBRL系统从电子文档中获取有价值的其它相关信息。同时，完善与唯一的XBRL树形特征，使用户挖掘的信息减少了模糊性，增加了准确性和科学性。

三、搜索的快捷性

在用XBRL进行数据搜索时，不是像其它软件那样只是根据字面内容进行搜索，而是根据标签的不同语义从几个不同角度来进行定位，这样XBRL软件就能够按照用户的需要快速、准确地找到用户所需的特定信息，而且这些信息是全面的。同时，由于XBRL对电子数据进行标签式标记，可以通过XBRL建立的应用程序对数据挖掘结果中的不同类型的电子进行处理，包括电子数据的分类和汇总。其效率远远高于其它文件格式，比如目前网络上的PDF、WORD和HTML等常用的文件格式。

XBRL是基于XMl的财务语言，其表示的财务数据具有以下特点：

一、XBRL财务数据处理需采用世界通用的会计记账方法--复式记账法。

二、数据综合性强：XBRL财务数据是企业最主要的信息，相对应企业的其它业务数据，XBRL财务数据具有很强的综合性和概括性。数据以货币为主要计量单位，从价值的视角综合、全面、系统地反映企业供产销和人财物的信息。

三、数据实时性强：XBRL财务数据是企业资金流的动态反映，数据的使用者需要随时通过财务数据这一信息流来了解企业的财务状况和经营成果。如果财务数据提供不及时，势必影响其使用效果。

四、数据准确性要求高：XBRL财务信息要提供给投资者、债权人、管理人员、财政部门、税务部门和银行等，因此，必须保证财务数据处理的正确性，保证财务结果的真实性，否则，虚假的财务信息定会误导有关部门和人员的决策。

财务数据量大：随着企业会计电算化工作的深入开展，电子商务和ERP等系统的广泛应用，企业的会计核算工作越来越细，这使企业在管理过程中积累了大量的财务数据。要使这些财务数据的价值真正得以发挥，依靠手工或简单的数据处理工具是做不到的，必须借助于数据挖掘工具，才能在大量的财务数据中，挖掘出财务信息“金块”。

目前，还没有合适的数据挖掘工具。

发明内容

本发明的目的是设计适合XBRL数据特性的数据挖掘算方法，并在金融行业中得到应用，从大量的XBRL财务数据中对XBRL业务数据进行抽取、转换、分析和其他模型化处理，从中提取出数据中揭示隐含的、先前未知的并有潜在价值的关键数据，来铺助金融企业进行商业决策。

本发明为了实现其发明目的所采用的技术方案是：一种基于XBRL实例文档的数据挖掘方法，包括以下步骤：

步骤A、准备XBRL财务数据源；

步骤B、将所述的财务数据源的各种形式的XBRL财务数据经过XBRL隧道进行预处理，使其转换成符合XBRL规范的财务数据，并装入到XBRL财务数据仓库；

步骤C、通过采用聚类分析、统计方法、关联规则、决策树方法、神经网络方法中的至少一种方法，从所述的XBRL财务数据仓库的具有统一XBRL格式的财务数据中挖掘出潜在的、有用的知识或模式；

步骤D、将挖掘出潜在的、有用的知识或模式进行可视化的表示。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的XBRL财务数据源包括本地XBRL财务数据和互联网上的XBRL财务数据。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的XBRL财务数据的表现形式包括传统的关系型数据库、文本形式的数据、电子表格、会计信息系统报表格式数据、面向对象数据库以及Web数据库。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的XBRL隧道包括以下步骤：

步骤B01、对XBRL描述的财务数据源进行规范性检测；

步骤B02、对非XBRL描述的财务数据进行XBRL封装。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的预处理包括数据的抽取、清理和转换。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的数据抽取，是从XBRL财务数据数据源中抽取模型分析需要的上下文，时间，维度和单位数据，并对这些XBRL财务数据根据XBRL分类标准进行数据分类，抽取相关的XBRL数据，之后按照关系型数据关系存入数据仓库表中。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的数据清洗是对缺失值、异常值的处理，包括以下步骤：

C01、确定是否是由于数据处理过程中的错误造成的，如果是这种情况，则转向步骤C02，否则转向步骤C03；

步骤C02、按照数据的正确值对缺失值或异常值进行修正；

C03、对于样本数据中出现的缺失值不进行处理，或者根据需要用样本均值或出现频度最高的值代替；对样本数据的异常值采用中位数加四分位数极差1.5倍的方式确定正常值的范围或者采用2σ或3σ的标准确定正常值的范围，然后用边界值代替异常值。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的数据转换：包括描述性数据的数值化、生成新变量、连续变量到分类变量的转换、减少分类变量取值的数量和变量的数学变换。

进一步的，上述的一种基于XBRL实例文档的数据挖掘方法中：所述的可视化的表示包括专家系统知识规则、决策树规则和在数据挖掘中的关联规则以及分类规则。

本发明的XBRL数据挖掘方法可以在金融企业中得到以下应用：

一、知识发现：通过XBRL数据挖掘算法，在大量的XBRL财务数据中挖掘出适合金融企业需要的信息模式和知识，指导金融企业进行营销、销售和竞争。

二、决策支持：面向金融企业的决策者，解决半结构化问题，突出支持而非代替决策者的决策行为。

三、智能化：XBRL数据挖掘在金融企业中帮助企业实现决策支持的“智能化”，企业对XBRL信息进行收集、分析和管理，以使金融企业的决策者获得洞察力，促使他们做出对企业更有利的决策。

四、金融监管：XBRL数据挖掘可以应用于金融领域的犯罪案件调查、诈骗监测、洗钱认证、犯罪组织分析等方面。

附图说明

附图1是目前XBRL财务数据挖掘的一般流程。

附图2是本发明进行XBRL财务数据挖掘流程。

附图3是本发明XBRL财务数据挖掘系统模型。

具体实施方式

本实施例的XBRL财务数据挖掘的主要过程如图2所示，主要包括财务数据源、财务数据的集成和变换、财务数据仓库、财务数据挖掘以及知识表达等部分。

各部分的功能与实现过程如下：

一、XBRL财务数据源。XBRL财务数据的来源可以有多种，可以是本地XBRL财务数据，也可以是互联网上的XBRL财务数据。

二、XBRL财务数据集成和变换。所有各种形式的XBRL财务数据经过集成和变换，去除冗余，即可转换成符合一定格式的数据，并准备装入XBRL财务数据仓库。

三、XBRL财务数据仓库。XBRL财务数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的财务数据集合，用于支持管理决策。

四、XBRL财务数据挖掘。财务数据挖掘是整个过程的核心部分，其目的是从大量的财务数据中挖掘出潜在的。有用的知识或模式。

五、知识表达。XBRL财务数据挖掘的根本目的是从财务数据中发现有用的知识或模式，而知识的表示始终是人工智能领域中一个重要的，尚未得到很好解决的研究课题。

XBRL基于XML(eXtensible Markup Language，可扩展标记语言)框架，专为公司发布财务报告而开发的语言，目前已有越来越多的公司采用XBRL发布财务报告。由于XBRL在所有的软件格式和输出通道之间提供了更大的互用性，从而使人们能够进行更有效的分析并更快地发现问题。XBRL使用的标签以标准化的会计业内定义为基础，以描述和识别财务数据的每一个项目。它为每个财务数据项目定义标签。这使财务报告标准趋向统一，而这正是目前的财务报告所缺乏的。凭借出色的搜索性能，XBRL使财务数据更加一致，更易理解，而且无需公司改变他们发布财务报告的方式。

在XBRL格式的文件中，所有数据都有相对应的标记，这些标记不仅对显示格式进行描述，还对所要表现的数据赋予特定含义，并且相关数据呈现结构性，把有关的信息互相连接。例如，固定资产与资产负债表及折旧相连，搜索工具能立刻指向用户所需的特定目标数据。

XBRL不仅能及时提供准确的财务数据，而且增强了使用者在不同应用程序之间交换电子数据的能力。XBRL更具有良好的动态分析功能，当搜索引擎找到所需的信息时，它能进一步追踪下去找到数据的最初来源及其他与该信息有关的资料。例如，用XBRL标记的财务报告通过适当运用搜索工具，信息使用者可以向下挖掘数据源直至相关的支持这些数据的文件。正是这种动态分析功能，实现了财务数据的可下载性、可移植性、可分析性和可追踪性。基于XBRL的财务数据挖掘可以从不同系统中收集财务数据，进行组织和分析，从而使财务信息得到更有效的利用。

基于XBRL的财务数据挖掘模型如图3所示，主要包括财务数据获取模块、XBRL隧道、财务数据挖掘以及基于XBRL描述的知识库。各部分之间的信息流动和数据交换都是基于XBRL进行的。

一、XBRL数据获取模块。XBRL数据获取模块的主要功能是获取XBRL财务数据源，财务数据的来源可以有多种，可以是本地数据也可以是互联网上的数据。XBRL财务数据又可以有多种表现形式，可以是传统的关系型数据库、文本形式的数据、电子表格、会计信息系统报表格式数据、面向对象数据库以及Web数据库等；从数据组织形式上看，可以将财务数据分为基于XBRL描述的财务数据源与非XBRL描述的财务数据源。所有财务数据经过XBRL隧道的预处理，转换为符合XBRL规范的财务数据。对于数据挖掘过程来说，可以处理各种可能组织形式的数据源，但从数据挖掘的意义角度看，对基于XBRL描述的财务数据挖掘与对非XBRL描述的财务数据挖掘是不可能在同一个层次上进行的。因为基于XBRL描述的财务数据本身就含有一定的描述数据自身意义的信息，而一般的财务数据没有这种能力。XBRL已经是一种规范化的网络财务报告语言，包括Specification(规范)，Taxonomies(标准)、InstanceDocument(实例文档)等。因此对一般财务数据进行挖掘，应先作相应的处理，将其变为以XBRL描述的财务数据。

二、XBRL隧道。基于XBRL的财务数据挖掘，其数据源是符合XBRL规范的财务数据，因此在进行财务数据挖掘之前，所有财务数据都要经过预处理，转换成符合XBRL规范的形式，这一过程需要通过XBRL隧道来实现。根据数据的组织形式，XBRL隧道的主要功能分为两个部分：一是对XBRL描述的财务数据源进行规范性检测；二是对非XBRL描述的财务数据进行XBRL封装。

对于数据挖掘过程来说，可以处理各种可能组织形式的数据源，但从数据挖掘的意义角度看，对基于XBRL描述的财务数据挖掘与对非XBRL描述的财务数据挖掘是不可能在同一个层次上进行的。因为基于XBRL描述的财务数据本身就含有一定的描述数据自身意义的信息，而一般的财务数据没有这种能力。因此在进行一般的财务数据挖掘之前需要通过XBRL隧道把财务数据进行预处理，转换成符合XBRL规范的形式。

XBRL隧道是对一般财务数据根据相关分类标准的定义和XBRL规范，采用文档对象模型技术，即DOM处理技术，给相关的财务数据添加上XBRL标签和相关上下文，将其转变为以XBRL描述的财务数据。

三、基于XBRL的财务数据挖掘模块。此模块是财务数据挖掘的核心部分。通过采用聚类分析、统计方法、关联规则、决策树方法、神经网络等数据挖掘方法，从大量的具有统一XBRL格式的财务数据中挖掘出潜在的、有用的知识或模式。这一部分的功能主要涉及两个方面：一方面是数据处理机制，由于所处理的财务数据源来自XBRL隧道，所有的财务数据格式从表示形式上看具有统一的XBRL格式，处理这种数据可以采用文档对象模型技术，即Dom处理技术，然后在Dom基础上进行下面的财务数据挖掘过程：另一方面是基于XBRL的财务数据挖掘过程，既然数据源是符合XBRL规范的财务数据，因此在财务数据挖掘的过程中，所使用的处理技术也是符合XBRL规范的，其中XBRL本身的Specification(规范)和Taxonomies(标准)为此提供了很好的基础。

四、基于XBRL的知识表达模块。知识表达模块的主要功能是对在数据挖掘模块中发现的知识进行可视化的表示，以便于非专业管理人员理解。财务数据挖掘的根本目的是从财务数据中发现有用的知识或模式，在知识的表示形式上，目前较好的且应用较多的有专家系统知识规则、决策树规则和在数据挖掘中的关联规则以及分类规则等。财务数据挖掘结果不仅要有利于人的理解，而且更主要的是要有利于计算机的理解，因此在数据挖掘完成之后，要将所得到的知识，形成符合XBRL规范的知识库。

数据抽取：主要是从XBRL财务数据数据源中抽取模型分析需要的各项数据，并进行适当的加工处理，得到分析所用的各项数据，除此之外，需要重新采集的数据以及其他在业务分析中认为重要的数据。

数据清洗：包括对缺失值、异常值的处理，对于数据中出现的缺失值和异常值，首先要确定是否是由于数据处理过程中的错误造成的，如果是这种情况，应该按照数据的正确值对缺失值或异常值进行修正，如果不是由于错误造成的，则常用的方法有：

一、对于样本数据中出现的缺失值可以不进行处理，也可以根据需要用样本均值或出现频度最高的值代替；

二、对样本数据的异常值的确认，首先要结合业务分析的结果进行确定，其次可以采用统计学中常用的一些方法，例如可以采用中位数加四分位数极差1.5倍的方式确定正常值的范围或者采用2σ或3σ的标准确定正常值的范围，然后用边界值代替异常值等等；

数据转换：是根据业务分析的经验和结果对原始变量进行适当的转换，形成新的综合变量。常用的数据变换包括：

一、描述性数据的数值化：把原始数据中一些用文字进行描述的数据用数值化的方式进行表达。

二、生成新变量：数据源所提供的原始数据变量往往不能满足分析模型的需要，因此要对原有的变量进行适当的转换，产生新的变量，如交易频率、最近一次交易的时间等数据需要通过对原始数据的统计得到。

三、连续变量到分类变量的转换，其好处是忽略了某些变量的细节，使数据的集中趋势和特征更为明显。

四、减少分类变量取值的数量，对于某些分类变量，由于变量所取的值比较多，往往使数据的特征不够明显，通过减少变量取值的个数，把小类按照类别之间的相近程度归并成一些大类，从而使数据的特征更加明显。

五、变量的数学变换：由于有些模型的使用条件对数据的分布情况有一定的要求，而实际的数据往往不能满足这些要求，因此就需要对原始变量进行适当的数学变换以满足模型的要求，常用的变换有对数变换，指数变换，倒数变换等等，例如某些模型使用的变量需要满足正态分布的要求，实际数据往往不能满足这种要求，而通过对数或倒数变换却能满足这种要求，因此就要对原始数据进行相应的变换以达到模型的使用条件。

除了以上提到的各种变换之外，在建模过程中还需要用到一些其他的变换，例如通过某些数据或指标的组合往往可能达到很好的预测效果，而这些变换方法和过程往往比较复杂，需要通过实际数据的分析和检验才能得到，需要在项目实际进行中加以灵活运用。

数据的初步分析主要是采用统计的手段对变量进行分析，了解每个变量的基本数据特征和以及变量之间的相互关系，从而筛选出适当的变量进行建模，常用的方法有：

一、变量的描述性统计：运用基本的数据统计量，譬如均数、方差、最大值、最小值和百分位数等等显示变量的数字特征。通过变量的描述性统计，可以对变量的基本情况有一个基本的把握，并且可以获得变量变换和标准化的各项数据，为数据的进一步分析打下基础，而且通过对基本统计量的观察，可以发现一些基本的数据规律，为模型和变量的选择提供帮助，对于数据质量不佳的数据，需要进行额外的处理；

二、变量的图形分析：除了数字以外，还可以通过图形化的方式对数据的分布情况进行分析，变量的图形分析是通过直观的方式对数据进行观察，同样是为了加深对变量的理解，例如，通过散点图可以发现两个变量之间存在的某种线性关系等等；

三、变量的相关分析：变量的相关分析包括独立变量之间的相关分析和独立变量与目标变量间的相关分析。独立变量之间的相关分析是为了发现独立变量之间的相关性，从而减少独立变量的数目。否则信息冗余会影响模型的精度。独立变量与目标变量的相关分析是为了发现独立变量与目标变量之间的相关关系，从而初步确定是哪些变量决定了目标变量，也就是说是哪些因素决定了客户的流失等状况。指标相关分析的方法主要有相关系数分析、回归分析、卡方分析、均数比较和方差分析等等。如果采用相关系数分析和回归分析，则相关系数和回归系数的绝对值的大小表示了变量相关程度的高低，相关系数的符号表示了相关的方式，正号为正相关，负号为负相关。

通过数据变量的初步分析，特别是变量的相关分析，可以初步确定建立公司治理评级模型的相关独立变量的范围，所选择的变量就是模型的基本变量，需要指出的是，以上变量的选择只是初步选择，对于不同的分析方法和分析模型，需要根据模型进行进一步的选择，由于不同模型之间变量选择的算法和结果不尽相同，所以在不同模型的变量之间需要不断的比较借鉴，不断改进。

XBRL分类标准模型属于分类模型，分类模型常见的算法有Logistic回归，神经网络，决策树。由于神经网络模型处理非线性关系由于很好的预测性和稳定性，但由于采用了连续变量分箱来处理连续变量的非线性问题，加上神经网络模型的结果为黑匣子，不利于模型的解释和应用。而在建立模型开始，先采用了决策树的方法挑选候选变量。综上，这些都能理论上保证使用Logistic回归建立的预测模型是最优的、最利于模型部署的模型。因此使用Logistic回归建立流失预测模型。

Logistic曲线对应logistic模型。该曲线是(0，1)区间的S形曲线，并且在X_i→-∞的情况下E(Y_i)→0，在X_i→+∞时E(Y_i)→1。该模型可以用公式

表示，这里Yi是第i个响应变量，对于响应来说该值为1，对于不响应来说该值为0。logistic回归模型的区间在(0，1)范围内。Logistic回归模型的主要假设在于响应概率服从logistic分布。

Logistic回归模型的一般形式为：

\ln (\frac{p}{1 - p}) = α + Σ_{i = 1}^{k} β_{i} X_{i}

其中：P是流失概率，α代表截距大小，β为回归系数，X代表独立变量。

XBRL实例文档模型属于聚类模型，聚类模型常见的算法有系统聚类法(分层聚类)、非系统聚类法和两步聚类法。根据目标和数据的实际情况，采用非系统聚类中的k-Means算法建立分群模型。

k-Means聚类是非系统聚类中的最常用的方法，其算法原理如下：

一、按照指定的分类数目n，按某种方法选择某些观测量，设为{Z1，Z2，…Zn}，作为初始聚心。

二、计算每个观测量到各个聚心的欧氏距离。即按就近原则将每个观测量选入一个类中，然后计算各个类的中心位置，即均值，作为新的聚心。

三、使用计算出来的新聚心重新进行分类，分类完毕后继续计算各类的中心位置，作为新的聚心，如此反复操作，直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时，或者到达迭代次数的上限时，停止迭代。

同时，因为聚类模型自身的特点，把实例文档分群结果作为建立综合偏好模型的一个变量，以此对XBRL数据进行综合特征分群。

可以将模型的结果发布到数据库或文件中，或者通过浏览器进行浏览。可以将模型整合到应用系统中，对XBRL数据挖掘的结果用web界面的形式展现，方便业务人员找出并分析目标客户。

数据挖掘模型并非开发后就一成不变，随着时间的推移，外界环境可能发生了变化，欺诈的手法、模式也可能发生了变化，这些都会导致模型的适用性降低，因此，模型上线以后要持续的跟踪，根据模型的反馈结果对模型进行调整，这是一个不断反复的过程。

Claims

1.一种基于XBRL实例文档的数据挖掘方法，特征在于：包括以下步骤：

步骤A、准备XBRL财务数据源；

2.根据权利要求1所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的XBRL财务数据源包括本地XBRL财务数据和互联网上的XBRL财务数据。

3.根据权利要求2所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的XBRL财务数据的表现形式包括传统的关系型数据库、文本形式的数据、电子表格、会计信息系统报表格式数据、面向对象数据库以及Web数据库。

4.根据权利要求1所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的XBRL隧道包括以下步骤：

步骤B01、对XBRL描述的财务数据源进行规范性检测；

步骤B02、对非XBRL描述的财务数据进行XBRL封装。

5.根据权利要求1所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的预处理包括数据的抽取、清理和转换。

6.根据权利要求5所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的数据抽取，是从XBRL财务数据数据源中抽取模型分析需要的上下文，时间，维度和单位数据，并对这些XBRL财务数据根据XBRL分类标准进行数据分类，抽取相关的XBRL数据，之后按照关系型数据关系存入数据仓库表中。

7.根据权利要求5所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的数据清洗是对缺失值、异常值的处理，包括以下步骤：

步骤C02、按照数据的正确值对缺失值或异常值进行修正；

8.根据权利要求5所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的数据转换：包括描述性数据的数值化、生成新变量、连续变量到分类变量的转换、减少分类变量取值的数量和变量的数学变换。

9.根据权利要求1所述的一种基于XBRL实例文档的数据挖掘方法，其特征在于：所述的可视化的表示包括专家系统知识规则、决策树规则和在数据挖掘中的关联规则以及分类规则。