CN108647818A

CN108647818A - 一种预测企业涉税风险的方法及装置

Info

Publication number: CN108647818A
Application number: CN201810431394.4A
Authority: CN
Inventors: 李潜
Original assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Current assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-12

Abstract

本发明提供了一种预测企业涉税风险的方法和装置，该方法包括：接收外部定义的涉税风险预测集合、税务数据特征属性集合以及税务数据特征属性集合中每一个特征属性对应的特征范围子集合；构建特征值子集合中每一个特征范围与涉税风险预测集合中的一个涉税风险预测值之间的映射关系；按照税务数据特征属性集合，对训练数据样本集合进行提取；根据提取的结果和映射关系，生成风险预测决策树；当选定待评估企业时，利用风险预测决策树分析待评估企业的涉税数据，进行涉税风险预测。本发明提供的方案实现了对企业涉税风险的预测，提高了用户体验。

Description

一种预测企业涉税风险的方法及装置

技术领域

本发明涉及税务管理技术领域，特别涉及一种预测企业涉税风险的方法及装置。

背景技术

数据挖掘技术是一门快速发展的学科，它能够帮助税务工作人员从海量的税务数据中发现出从来没有被重视过的利用价值，从而有效降低工作的运行成本，提供更为细致的相关服务，发现纳税过程中的关联特征，帮助税务人员采取更为行之有效的管理手段。

目前，税务管理系统对于税务数据的处理基本围绕着统计、分析、查询等功能，却忽略的能极大提升用户体验的预测功能。

发明内容

本发明实施例提供了一种预测企业涉税风险的方法及装置，实现了对企业涉税风险的预测，提高了用户体验。

一种预测企业涉税风险的方法，包括：

接收外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；

构建所述特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；

按照所述税务数据特征属性集合，对训练数据样本集合进行提取；

根据提取的结果和所述映射关系，生成风险预测决策树；

当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测。

可选地，

所述对训练数据样本集合进行提取，包括：

从所述训练数据样本集合中，提取所述税务数据特征属性集合中包含的特征属性以及对应的特征值；

将提取出的同一类特征属性以及对应的特征值，构成一个分类训练样本集合。

可选地，

所述根据提取的结果和映射关系，生成风险预测决策树，包括：

根据所述映射关系，确定所述分类训练样本集合中每一个特征值对应的涉税风险预测值；

根据下述信息熵计算公式，计算所述分类训练样本集合的信息熵；

其中，Entropy(D)表征分类训练样本集合D的信息熵；c表征所述分类训练样本集合D对应的涉税风险预测值的个数；P_i表征第i个涉税风险预测值对应的特征值个数在所述分类训练样本集合D中所占的比例；

根据下述特征信息熵计算公式，计算所述训练数据样本集合中每一个特征属性的特征信息熵；

其中，Entropy_A(S)表征训练数据样本集合S中特征属性A的特征信息熵；k表征特征属性A对应的不同特征值的个数；|S_j|表征特征属性A取第j个特征值的个数；|S|表征训练数据样本集合S中特征值的总个数；P_Aji表征特征属性A取第j个特征值时，对应的第i个涉税风险预测值对应的特征值个数与训练数据样本集合S中特征属性A取第j个特征值的总个数；

按照下述信息增益计算公式，计算每一个特征属性的信息增益；

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)

其中，ΔEntropy_A(D)表征特征属性A的信息增益；Entropy(D)表征与特征属性A相关的分类训练样本集合的信息熵；Entropy_A(S)表征特征属性A的特征信息熵；

根据计算出的所述信息增益，为每一个所述特征属性分配层级；

按照所述特征属性的层级以及所述映射关系，生成风险预测决策树。

可选地，

所述根据计算出的所述信息增益，为每一个所述特征属性分配层级，包括：

按照所述特征属性的信息增益由大到小的顺序，由高层级到低层级分配所述特征属性。

可选地，

所述按照所述特征属性的层级以及所述映射关系，生成风险预测决策树，包括：

将所述特征属性对应的所述特征范围子集合中的每一个特征范围分配到所述特征属性的层级；

从最高层级到最低层级，每一个层级取一个所述特征范围构成所述风险预测决策树的一个枝杈；

按照所述映射关系，统计每一个所述枝杈的涉税风险预测值。

可选地，

上述方法进一步包括：为每一个所述特征属性分配对应的权重；

所述按照所述映射关系，所述统计每一个所述枝杈的涉税风险预测值，包括：

针对每一个所述枝杈，执行：

按照所述映射关系，统计所述枝杈中每一种涉税风险预测值出现的次数，判断是否存在出现次数最高的涉税风险预测值；

如果是，则该次数最高的涉税风险预测值为所述枝杈的涉税风险预测值；

否则，利用每一个所述特征属性分配对应的权重，对所述枝杈中每一种涉税风险预测值出现的次数进行加权计算，选择加权计算结果最大的涉税风险预测值为所述枝杈的涉税风险预测值。

可选地，

在所述当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测之后，进一步包括：

当涉税风险预测的结果与涉税风险真实值不一致时，将所述涉税风险真实值替换所述待评估企业的涉税数据对应的枝杈的涉税风险预测值。

可选地，

所述税务数据特征属性集合中包含的特征属性，包括：

行业、毛利率、毛利率变动率及税负率中的任意一个或多个。

一种预测企业涉税风险的装置，包括：定义存储单元、映射关系构建单元、决策树生成单元以及预测评估单元，其中，

所述定义存储单元，用于接收并存储外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；

所述映射关系构建单元，用于构建所述定义存储单元存储的特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；

所述决策树生成单元，用于按照所述定义存储单元存储的所述税务数据特征属性集合，对训练数据样本集合进行提取，根据提取的结果和所述映射关系构建单元构建的所述映射关系，生成风险预测决策树；

所述预测评估单元，用于当选定待评估企业时，利用所述决策树生成单元生成的所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测。

可选地，

所述决策树生成单元，包括：数据提取子单元、构建子单元及生成子单元，其中，

所述数据提取子单元，用于从所述训练数据样本集合中，提取所述税务数据特征属性集合中包含的特征属性以及对应的特征值；

所述构建子单元，用于将所述数据提取子单元提取出的同一类特征属性以及对应的特征值，构成一个分类训练样本集合；

所述生成子单元，用于根据所述映射关系构建单元构建的所述映射关系，确定所述构建子单元构成的所述分类训练样本集合中每一个特征值对应的涉税风险预测值；

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)

本发明实施例提供了一种预测企业涉税风险的方法及装置，通过接收外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；构建所述特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；按照所述税务数据特征属性集合，对训练数据样本集合进行提取；根据提取的结果和所述映射关系，生成风险预测决策树；当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测，实现了对企业涉税风险的预测，提高了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种预测企业涉税风险的方法的流程图；

图2是本发明另一实施例提供的一种预测企业涉税风险的方法的流程图；

图3是本发明一个实施例提供的部分风险预测决策树的结构示意图；

图4是本发明一个实施例提供的一种预测企业涉税风险的装置所在架构的结构示意图；

图5是本发明一个实施例提供的一种预测企业涉税风险的装置的结构示意图；

图6是本发明另一实施例提供的一种预测企业涉税风险的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种预测企业涉税风险的方法，该方法可以包括以下步骤：

步骤101：接收外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；

步骤102：构建所述特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；

步骤103：按照所述税务数据特征属性集合，对训练数据样本集合进行提取；

步骤104：根据提取的结果和所述映射关系，生成风险预测决策树；

步骤105：当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测。

其中，涉税风险预测集合中包含有多个涉税风险预测值如“有风险”、“无风险”，也可进一步包括“有风险”进一步细分分出的风险类别。

税务数据特征属性集合包含有多个特征属性如行业属性、盈利能力属性、税负率属性等。

需要说明的是，上述预测企业涉税风险的方法基于税务管理系统完成，其中，训练数据样本集合中的训练学习数据和待评估企业的涉税数据均可来源于税务管理系统中。

在图1所示的实施例中，通过接收外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；构建所述特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；按照所述税务数据特征属性集合，对训练数据样本集合进行提取；根据提取的结果和所述映射关系，生成风险预测决策树；当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测，实现了对企业涉税风险的预测，提高了用户体验。

另外，本发明实施例提供的预测企业涉税风险的方法，允许用户定义涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合，则用户可以依据自身企业的特点进行定义，从而进一步提高了预测的准确性。

在本发明一个实施例中，为了使训练数据样本集合中的数据样本能够按照特征属性分类准确的分类，以保证后续生成的风险预测决策树的准确性，上述步骤103的具体实施方式：从所述训练数据样本集合中，提取所述税务数据特征属性集合中包含的特征属性以及对应的特征值；将提取出的同一类特征属性以及对应的特征值，构成一个分类训练样本集合。

在本发明一个实施例中，为了使风险预测决策树具有的可靠性，以保证后续涉税风险预测的准确性，上述步骤104的具体实施方式：根据所述映射关系，确定所述分类训练样本集合中每一个特征值对应的涉税风险预测值；

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)

在本发明另一实施例中，为了进一步保证风险预测决策树的可靠性，所述根据计算出的所述信息增益，为每一个所述特征属性分配层级，包括：按照所述特征属性的信息增益由大到小的顺序，由高层级到低层级分配所述特征属性。例如：某一税务数据特征属性集合中包含但不限于行业属性、负税率属性、毛利率属性以及毛利率变动率属性，通过上述计算公式计算得到的信息增益由大到小的顺序为毛利率属性、行业属性、负税率属性以及毛利率变动率属性，则生成的风险预测决策树高层级到底层级依次为毛利率属性、行业属性、负税率属性以及毛利率变动率属性。

在本发明又一实施例中，所述按照所述特征属性的层级以及所述映射关系，生成风险预测决策树，包括：将所述特征属性对应的所述特征范围子集合中的每一个特征范围分配到所述特征属性的层级；从最高层级到最低层级，每一个层级取一个所述特征范围构成所述风险预测决策树的一个枝杈；按照所述映射关系，统计每一个所述枝杈的涉税风险预测值。由于每一个层级取一个特征范围构成风险预测决策树的一个枝杈，即风险预测决策树将各种特征属性对应的特征范围关系间的所有的可能性全部统计出来，使得在对待评估企业的涉税数据进行评估时，总能找到一个枝杈满足待评估企业的涉税数据，从而保证了评估的准确性。

其中，统计每一个所述枝杈的涉税风险预测值的方式主要是，为每一个所述特征属性分配对应的权重；所述按照所述映射关系，所述统计每一个所述枝杈的涉税风险预测值，包括：针对每一个所述枝杈，执行：按照所述映射关系，统计所述枝杈中每一种涉税风险预测值出现的次数，判断是否存在出现次数最高的涉税风险预测值，如果是，则该次数最高的涉税风险预测值为所述枝杈的涉税风险预测值，否则，利用每一个所述特征属性分配对应的权重，对所述枝杈中每一种涉税风险预测值出现的次数进行加权计算，选择加权计算结果最大的涉税风险预测值为所述枝杈的涉税风险预测值。上述过程能够比较准确的统计风险预测决策树中各个枝杈的涉税风险预测值。

在本发明另一实施例中，为了进一步保证风险预测决策树中各个枝杈的涉税风险预测值的准确性，在步骤105之后进一步包括：当涉税风险预测的结果与涉税风险真实值不一致时，将所述涉税风险真实值替换所述待评估企业的涉税数据对应的枝杈的涉税风险预测值。

在本发明一个实施例中，为了保证涉税风险预测的准确性，所述税务数据特征属性集合中包含的特征属性，包括：行业、毛利率、毛利率变动率及税负率中的任意一个或多个。

针对于毛利率、毛利率变动率及税负率的特征范围子集合可分别为：

毛利率对应的特征范围子集合{0-10％，10％-20％，20％-30％，30％-40％}；

毛利率变动率对应的特征范围子集合{大于等于0，小于0}；

税负率对应的特征范围子集合{小于4％，4％-6％，大于6％}。

另外，上述毛利率、毛利率变动率及税负率的特征范围子集合还可以为其他的范围值，在此不再一一列举。

为了能够清楚地说明预测企业涉税风险的方法，下面以税务数据特征属性集合中包含的特征属性为行业、毛利率、毛利率变动率及税负率，涉税风险预测集合包括“有风险”和“无风险”两个涉税风险预测值为例展开说明。

如图2所示，本发明实施例提供了一种预测企业涉税风险的方法，该方法可以包括以下步骤：

步骤201：接收外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合，为每一个所述特征属性分配对应的权重；

在该步骤中，例如可将涉税风险预测集合定义为DSR，DSR内第i个涉税风险预测值定义为DSR_i，其中i＝1，2，...，h，(例如：对于DSR＝{有风险，无风险}，DSR₂＝无风险)；定义税务数据特征属性集合DSA，DSA内第j个特征属性为DSA_j，其中j＝1，2，...，m(例如：对于DSA＝{行业、毛利率、毛利率变动率及税负率}，DSA₂＝毛利率)；定义特征属性对应的特征范围子集合为DSA_j，DSA_j内第k个特征范围值为DSA_jk，其中k＝1，2，...，n(例如：DSA₂＝毛利率＝{0-10％，10％-20％，20％-30％，30％-40％}，DSA₂₂＝10％-20％)。可以理解地，上述举例只是一种表现形式，并不限定集合内的值，也不限定集合内值的顺序。

该权重值可以用户自己依据税务专业知识和对税务系统中原有数据的分析进行设定，如：将“毛利率”、“毛利率变动率”、“税负率”、“所属行业”的权重分别设置为4、3、2、1。

例如：税务数据特征属性集合中每一个特征属性对应的特征范围子集合如下表所示：

步骤202：构建所述特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；

该步骤中，映射关系可以表示为DSA_jk-DSR_i，例如DSA₂₂-DSR₂，即毛利率10％-20％—无风险。

步骤203：按照所述税务数据特征属性集合，从所述训练数据样本集合中，提取所述税务数据特征属性集合中包含的特征属性以及对应的特征值；

该步骤中训练数据样本集合来源于税务管理系统。

步骤204：将提取出的同一类特征属性以及对应的特征值，构成一个分类训练样本集合；

例如将提取的与税负率有关的特征值数据构成一个与税负率有关分类训练样本集合。

步骤205：根据所述映射关系，确定所述分类训练样本集合中每一个特征值对应的涉税风险预测值；

例如：毛利率分类训练样本集合中一个特征值为15％，则根据毛利率10％-20％—无风险，该毛利率特征值15％对应的涉税风险预测值为无风险。

步骤206：计算所述分类训练样本集合的信息熵；

该步骤的具体实现方式：根据下述信息熵计算公式，计算所述分类训练样本集合的信息熵；

其中，Entropy(D)表征分类训练样本集合D的信息熵；c表征所述分类训练样本集合D对应的涉税风险预测值的个数；P_i表征第i个涉税风险预测值对应的特征值个数在所述分类训练样本集合D中所占的比例。

步骤207：计算所述训练数据样本集合中每一个特征属性的特征信息熵；

该步骤的具体实现方式：根据下述特征信息熵计算公式，计算所述训练数据样本集合中每一个特征属性的特征信息熵；

步骤208：计算每一个特征属性的信息增益；

该步骤的具体实现方式：按照下述信息增益计算公式，计算每一个特征属性的信息增益；

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)

其中，ΔEntropy_A(D)表征特征属性A的信息增益；Entropy(D)表征与特征属性A相关的分类训练样本集合的信息熵，来源于步骤206；Entropy_A(S)表征特征属性A的特征信息熵，来源于步骤207。

步骤209：按照所述特征属性的信息增益由大到小的顺序，由高层级到低层级分配所述特征属性；

例如：某一税务数据特征属性集合中包含但不限于行业属性、负税率属性、毛利率属性以及毛利率变动率属性，通过上述计算公式计算得到的信息增益由大到小的顺序为毛利率属性、行业属性、负税率属性以及毛利率变动率属性，则生成的风险预测决策树高层级到底层级依次为毛利率属性、行业属性、负税率属性以及毛利率变动率属性。

步骤210：将所述特征属性对应的所述特征范围子集合中的每一个特征范围分配到所述特征属性的层级；

例如：将毛利率的特征范围0-10％，10％-20％，20％-30％，30％-40％，40％-50％，大于50％分配到毛利率所在的层级。

步骤211：从最高层级到最低层级，每一个层级取一个所述特征范围构成所述风险预测决策树的一个枝杈；

步骤209至步骤211的一种表现形式如图3所示，图3为一棵风险预测决策树的一部分，从图中可以明显的看出，风险预测决策树的一个枝杈是由各个层级的特征属性对应的一个特征范围构成。例如：毛利率0-10％-所属行业金融-税负率>6％-毛利率变动率<0为一个枝杈。

步骤212：针对每一个所述枝杈，执行：按照所述映射关系，统计所述枝杈中每一种涉税风险预测值出现的次数，判断是否存在出现次数最高的涉税风险预测值；如果是，则执行步骤213，否则，执行步骤214；

步骤213：该次数最高的涉税风险预测值为所述枝杈的涉税风险预测值，并执行步骤215；

例如：对于枝杈：毛利率0-10％-所属行业金融-税负率>6％-毛利率变动率<0，毛利率0-10％—有风险，所属行业金融—有风险，税负率>6％—有风险，毛利率变动率<0—无风险，其中，有风险次数为3次，无风险次数为1次，则枝杈毛利率0-10％-所属行业金融-税负率>6％-毛利率变动率<0对应的涉税风险预测值为有风险。

步骤214：利用每一个所述特征属性分配对应的权重，对所述枝杈中每一种涉税风险预测值出现的次数进行加权计算，选择加权计算结果最大的涉税风险预测值为所述枝杈的涉税风险预测值；

例如：对于枝杈：毛利率0-10％-所属行业建筑-毛利率变动率≥0-税负率>6％，毛利率0-10％—无风险，所属行业建筑—有风险，税负率>6％—有风险，毛利率变动率<0—无风险，其中，有风险次数为2次，无风险次数为2次，将“毛利率”、“毛利率变动率”、“税负率”、“所属行业”的权重分别设置为4、3、2、1，则通过权重计算方式计算无风险为4+2＝6；有风险为3+1＝4，则枝杈毛利率0-10％-所属行业建筑-毛利率变动率≥0-税负率>6％对应的涉税风险预测值为无风险。

可以理解地，上述步骤213和步骤214是针对每一个枝杈进行的，当所有枝杈均被分配了涉税风险预测值之后风险预测决策树生成，之后才执行步骤215。

上述步骤201至步骤214生成风险预测决策树的过程。

步骤215：当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测；

步骤216：当涉税风险预测的结果与涉税风险真实值不一致时，将所述涉税风险真实值替换所述待评估企业的涉税数据对应的枝杈的涉税风险预测值。

该步骤216为结果反馈的过程。

另外，上述结果还可以统计入训练数据样本集合中，扩充训练数据样本集合，随着反馈次数的增加和样本数据量的增大，预测效果将越来越趋近于真实的情况，最终使得涉税风险预测具有高可靠性。即上述生成风险预测决策树—对待评估企业进行涉税风险预测—结果反馈迭代进行，逐步提高预测精度。

上述生成风险预测决策树过程以计算机程序的方式实现，如下所示：

综上可知，本发明提供的预测企业涉税风险的方法主要由四块组成，步骤201和步骤202风险预测模型定义即定义各种集合中的值，步骤203至步骤214生成风险预测决策树，步骤215风险预测；步骤216结果反馈。其中定义集合实际。

如图4、图5所示，本发明实施例提供了一种预测企业涉税风险的装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图4所示，为本发明实施例提供的预测企业涉税风险的装置所在设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图5所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的预测企业涉税风险的装置，包括：定义存储单元501、映射关系构建单元502、决策树生成单元503以及预测评估单元504，其中，

所述定义存储单元501，用于接收并存储外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；

所述映射关系构建单元502，用于构建所述定义存储单元501存储的特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；

所述决策树生成单元503，用于按照所述定义存储单元501存储的所述税务数据特征属性集合，对训练数据样本集合进行提取，根据提取的结果和所述映射关系构建单元502构建的所述映射关系，生成风险预测决策树；

所述预测评估单元504，用于当选定待评估企业时，利用所述决策树生成单元503生成的所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测。

在本发明另一实施例中，如图6所示，所述决策树生成单元503，包括：数据提取子单元5031、构建子单元5032及生成子单元5033，其中，

所述数据提取子单元5031，用于从所述训练数据样本集合中，提取所述税务数据特征属性集合中包含的特征属性以及对应的特征值；

所述构建子单元5032，用于将所述数据提取子单元5031提取出的同一类特征属性以及对应的特征值，构成一个分类训练样本集合；

所述生成子单元5033，用于根据所述映射关系构建单元构建的所述映射关系，确定所述构建子单元5032构成的所述分类训练样本集合中每一个特征值对应的涉税风险预测值；

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)

上述装置可以为税务管理系统的一部分，也可以作为插件安装在税务管理系统上，还可以作为单独的装置与税务管理系统连接。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

综上所述，本发明实施例至少能够达到如下有益效果：

1.通过接收外部定义的涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合；构建所述特征值子集合中每一个特征范围与所述涉税风险预测集合中的一个涉税风险预测值之间的映射关系；按照所述税务数据特征属性集合，对训练数据样本集合进行提取；根据提取的结果和所述映射关系，生成风险预测决策树；当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测，实现了对企业涉税风险的预测，提高了用户体验。

2.本发明实施例提供的预测企业涉税风险的方法，允许用户定义涉税风险预测集合、税务数据特征属性集合以及所述税务数据特征属性集合中每一个特征属性对应的特征范围子集合，则用户可以依据自身企业的特点进行定义，从而进一步提高了预测的准确性。

3.本发明实施例从所述训练数据样本集合中，提取所述税务数据特征属性集合中包含的特征属性以及对应的特征值；将提取出的同一类特征属性以及对应的特征值，构成一个分类训练样本集合，使训练数据样本集合中的数据样本能够按照特征属性分类准确的分类，保证了后续生成的风险预测决策树的准确性。

4.按照所述特征属性的信息增益由大到小的顺序，由高层级到低层级分配所述特征属性。例如：某一税务数据特征属性集合中包含但不限于行业属性、负税率属性、毛利率属性以及毛利率变动率属性，通过上述计算公式计算得到的信息增益由大到小的顺序为毛利率属性、行业属性、负税率属性以及毛利率变动率属性，则生成的风险预测决策树高层级到底层级依次为毛利率属性、行业属性、负税率属性以及毛利率变动率属性，进一步保证风险预测决策树的可靠性。

5.将所述特征属性对应的所述特征范围子集合中的每一个特征范围分配到所述特征属性的层级；从最高层级到最低层级，每一个层级取一个所述特征范围构成所述风险预测决策树的一个枝杈；按照所述映射关系，统计每一个所述枝杈的涉税风险预测值。由于每一个层级取一个特征范围构成风险预测决策树的一个枝杈，即风险预测决策树将各种特征属性对应的特征范围关系间的所有的可能性全部统计出来，使得在对待评估企业的涉税数据进行评估时，总能找到一个枝杈满足待评估企业的涉税数据，从而保证了评估的准确性。

6.为每一个所述特征属性分配对应的权重；所述按照所述映射关系，所述统计每一个所述枝杈的涉税风险预测值，包括：针对每一个所述枝杈，执行：按照所述映射关系，统计所述枝杈中每一种涉税风险预测值出现的次数，判断是否存在出现次数最高的涉税风险预测值，如果是，则该次数最高的涉税风险预测值为所述枝杈的涉税风险预测值，否则，利用每一个所述特征属性分配对应的权重，对所述枝杈中每一种涉税风险预测值出现的次数进行加权计算，选择加权计算结果最大的涉税风险预测值为所述枝杈的涉税风险预测值。上述过程能够比较准确的统计风险预测决策树中各个枝杈的涉税风险预测值。

7.当涉税风险预测的结果与涉税风险真实值不一致时，将所述涉税风险真实值替换所述待评估企业的涉税数据对应的枝杈的涉税风险预测值，进一步保证了风险预测决策树中各个枝杈的涉税风险预测值的准确性。

8.本发明实施例通过生成风险预测决策树—对待评估企业进行涉税风险预测—结果反馈迭代进行，逐步提高预测精度。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种预测企业涉税风险的方法，其特征在于，包括：

根据提取的结果和所述映射关系，生成风险预测决策树；

2.根据权利要求1所述的方法，其特征在于，

所述对训练数据样本集合进行提取，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据提取的结果和映射关系，生成风险预测决策树，包括：

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，所述按照所述特征属性的层级以及所述映射关系，生成风险预测决策树，包括：

6.根据权利要求5所述的方法，其特征在于，

进一步包括：为每一个所述特征属性分配对应的权重；

针对每一个所述枝杈，执行：

7.根据权利要求6所述的方法，其特征在于，在所述当选定待评估企业时，利用所述风险预测决策树分析所述待评估企业的涉税数据，进行涉税风险预测之后，进一步包括：

8.根据权利要求1至7任一所述的方法，其特征在于，所述税务数据特征属性集合中包含的特征属性，包括：

9.一种预测企业涉税风险的装置，其特征在于，包括：定义存储单元、映射关系构建单元、决策树生成单元以及预测评估单元，其中，

10.根据权利要求9所述的装置，其特征在于，所述决策树生成单元，包括：数据提取子单元、构建子单元及生成子单元，其中，

ΔEntropy_A(D)＝Entropy(D)-Entropy_A(S)