CN104102833A

CN104102833A - 基于密集区间发现的税务指标归一化与融合计算方法

Info

Publication number: CN104102833A
Application number: CN201410328527.7A
Authority: CN
Inventors: 张恒山; 郑庆华; 刘烃; 崔肖君; 王迪
Original assignee: Xian Jiaotong University
Current assignee: Servyou Software Group Co., Ltd.
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2014-10-15
Anticipated expiration: 2034-07-10
Also published as: CN104102833B

Abstract

本发明公开了一种基于密集区间发现的税务指标归一化与融合计算方法，对分布不均匀的各种税务指标进行归一化处理，进而实现各项税务指标融合计算。具体包括以下步骤：1)对税务数据预处理，将税务数据统一转换为[0,1]内的归一化的税务数据；2)统计税务数据取值的频率，并设定最小频率阈值和最小距离阈值，再据此找到税务数据密集分布区间；3)如果税务数据小于密集区间的下界，则对其进行有序加权平均的t-norm操作；如果税务数据属于密集区间，则对其进行有序加权平均操作；如果税务数据大于密集区间的上界，则对其进行有序加权平均的t-conorm操作。该方法的优点在于：可以有效减低可疑数据(不在密集区间内)对计算结果的影响。

Description

基于密集区间发现的税务指标归一化与融合计算方法

【技术领域】

本发明属于税务数据融合计算领域，特别涉及一种基于密集区间发现的税务指标归一化与融合计算方法。

【背景技术】

由于税务指标类型多样且结构各异，不同纳税人的指标也存在较大差异，如何对纳税人的各项纳税指标进行关联融合，是评估纳税人经营发展和纳税情况的难点问题之一。

如何针对多个纳税指标进行融合计算，目前已知常用的数据融合计算方法主要有：计算融合指标的平均值，计算融合指标的合取值，计算融合指标的析取值，混合的指标融合计算方法。由于税务指标的多样性和复杂性，在税务指标的融合计算中，简单的采用某种数据融合计算方法，往往不能解决税务系统中实际遇到的问题。因而在电子税务系统中，常常采用混合的数据融合计算方法，以实现不同情况下用不同的数据融合操作。在混合的数据融合计算方法中，一类操作是通过一个特定的值将要融合的数据分为两部分，然后再对两部分数据施以不同的数据融合操作，从而实现具有不同性质数据的融合计算。例如，可将指标表示为区间[-1,1]中的数，其中小于零的数表示与计算目标负相关，而大于零的数表示与计算目标正相关，对这两类数据可以实施不同的数据融合操作。另一类操作是由于可以通过一个特定的值将要融合的数据分为两部分，从而可以将融合函数的定义域划分成不同的部分，混合函数进行的操作是根据数据对应的定义域进行不同的操作。

然而在实际应用中，许多数据具有分布不均匀的特点，也就是它们的取值主要集中在某个密集分布区间内，在该区间外很少取值。例如，如果某个数据服从正太分布，则它的取值主要集中在[-3σ,3σ]内。密集分布区间外的这些取值，在有些情况下，可能是异常数据，而在其它一些情况下，也可能是一些特殊数据。在数据融合计算时，由于无法精确判断这些密集分布区间外取值的数据是否为异常数据，我们希望减少该类数据对最后计算结果的影响。这样，已有的通过单个值分类数据从而实现对数据的混合融合计算的方法就无法解决该类问题。同样，用单个值分类数据从而将融合函数的定义域划分成不同部分，针对定义域的不同部分进行不同操作的混合融合计算方法，也不能很好的解决该类问题。

【发明内容】

本发明的目的在于提供了一种基于密集区间发现的税务指标归一化与融合计算方法，以克服目前存在的混合数据融合计算方法所存在的缺陷，从而可以解决背景技术中所述的问题。

为达到上述的目的，本发明通过以下技术方案予以实现：

基于密集区间发现的税务指标归一化与融合计算方法，包括如下步骤：

1)对税务数据预处理，实现将税务数据统一转换为[0,1]内的归一化的税务数据；

2)对于归一化的税务数据，统计其取值的频率，并设定最小频率阈值p和最小距离阈值q，通过迭代算法将频率大于阈值p以及与集合C的距离小于q的税务数据归入集合C，进而根据该集合C找到非均匀分布税务数据集中分布的区间；

3)根据上述得到的税务数据分布的密集区间，将要融合计算的税务分为三类，并进行不同的融合操作。

本发明进一步改进在于，步骤1)中的数据预处理包括以下步骤：

a)获取税务数据的取值范围；

b)根据税务数据的取值范围，将税务数据平均划分成n个等级，具体包括：如果税务数据与计算目标正相关，则取值越大对应的等级值越大；如果税务数据与计算目标负相关，则取值越大对应的等级值越小；如果税务数据小于中值a时，与计算目标负相关，而大于或等于a时，与计算目标正相关，或者如果税务数据小于中值a时，与计算目标正相关，而大于或等于a时，与计算目标负相关；此时，设税务数据的下界为l，上界为m，则根据区间[l,a]或[a,m]划分等级，并将划分结果对应到区间的另一部分；

c)将某个税务数据x_j对应到相应的等级区间[c_i,d_i]，然后根据如下公式进行数据格式转换：

当为正相关时，

y_{j} = p_{i} + Rounddown (\frac{x_{j} - c_{i}}{(d_{i} - c_{i}) \cdot n}, k) - - - (1)

或者，当为负相关时，

y_{j} = p_{i} + Rounddown (\frac{d_{i} - x_{j}}{(d_{i} - c_{i}) \cdot n}, k) - - - (2)

式中：y_j为税务数据x_j按公式(1)或(2)转换后得到的数据；

[c_i,d_i]为将税务数据取值范围平均划分后得到的第i个子区间，c_i为第i个子区间的下界，d_i为第i个子区间的上界，i为区间[c_i,d_i]的编号；n为划分的所有子区间个数；

p_i＝Rounddown(i/n,k)；

其中，Rounddown(i/n,k)表示对i/n保留k位小数，其它小数位舍去。

本发明进一步改进在于，步骤2)中税务数据密集分布区间发现的迭代算法包括以下步骤：

a)统计待计算税务数据各取值的频率，并按照该频率将数据排序；

b)从排序后的税务数据中选取频率最大的数据u_max，并将其加入集合C；

c)从排序后的税务数据中选取频率大于阈值p的所有数据构成集合D；

d)判断集合D是否为空集，如果为空集则转步骤h，否则转步骤e；

e)从集合D中选取一个数据u，并计算它与集合C的距离；

d (u, C) = \min_{c_{i} &Element; C} {| u - c_{i} |} - - - (3)

f)判断d(u,C)是否小于阈值q，如果不成立，则转步骤d，否则转步骤g；

g)将数据u加入集合C，转步骤d；

h)计算集合C中的最大值与最小值，它们构成非均匀分布税务数据的密集区间。

本发明进一步改进在于，频率阈值p取税务数据频率的数学期望。

本发明进一步改进在于，距离阈值q的确定方法是：

先给q赋初值为税务数据区间长度r的一半，运用税务数据密集分布区间发现算法，得到一个税务数据的密集分布区间，用r₁表示得到的这个密集分布区间的长度，再将q赋值为r₁·α(0＜α＜1)，在重复该过程m次后，第m+1次得到的税务数据密分布集区间与第m次得到的密集分布区间非常接近，设m+1次得到的密集分布区间为[a_m,b_m]，第m+1次得到的密集分布区间为[a_m+1,b_m+1]，则有|a_m+1-a_m|＜ε,|b_m+1-b_m|＜ε，取ε＝0.001。

本发明进一步改进在于，步骤3)中的根据税务数据密集分布区间实现数据分类融合计算的方法，具体包括以下步骤：

a)将输入的税务数据整理为三元组(y_i,w_i,[a_i,b_i])，其中，y_i为税务数据，w_i为权重，[a_i,b_i]为密集分布区间，0<i<n+1；

b)选取税务数据y_i，判断y_i是否在其密集区间[a_i,b_i]内，如果是，则转步骤c，否则转步骤d；

c)对多个税务数据进行有序的算术加权平均操作，转步骤g；

d)判断税务数据y_i＜a_i是否成立，如果成立，则转步骤e，否则转步骤f；

e)对多个税务数据进行有序加权平均t-conorm操作，转步骤g；

f)对多个税务数据进行有序的加权平均t-norm操作，转步骤g；

g)判断是否还有税务数据未经处理(i≤n)，如果是，则转步骤b，否则转步骤h；

h)对步骤c、e及f中分类融合计算的结果进行累加，完成对数据分类融合计算。

本发明进一步改进在于，步骤e中对多个税务数据进行有序加权平均t-conorm操作是指：

将输入数据中所有小于其密集分布区间[a_i,b_i]下界的税务数据归为一组；设有n₁条税务数据小于其密集分布区间[a_i,b_i]的下界，记为这里，表示对这n₁条税务数据按降序排序后，其中，第i条数据用表示对前述n₁条税务数据进行t-conorm操作，那么对这n₁条税务数据进行有序加权平均t-conorm操作表示为如下公式：

Σ_{(i) = 1}^{n_{1}} S (y_{(1)}^{l}, . . ., y_{(n_{1})}^{l}) w_{i} - - - (7) .

本发明进一步改进在于，步骤c中对多个税务数据进行有序的算数加权平均操作是指：

将输入数据中所有位于其密集分布区间[a_i,b_i]内的税务数据归为一组；设有n₂条税务数据位于其密集分布区间[a_i,b_i]内，记为这里，y^m _j表示这n₂条税务数据按降序排序后，按该顺序的第j条数据，那么对n₂条税务数据进行有序算术加权平均操作表示为如下公式：

Σ_{(j) = 1}^{n_{2}} y_{(j)}^{m} w_{j} - - - (6)

本发明进一步改进在于，步骤f中对多个税务数据进行有序加权平均t-norm操作是指：

将输入数据中所有大于其密集分布区间[a_i,b_i]上界的税务数据归为一组；设有n₃(n₁+n₂+n₃＝n)条税务数据大于其密集分布区间[a_i,b_i]的上界，记为这里，表示对这n₃条税务数据按降序排序后，其中，第k条数据用表示对前述n₃条税务数据进行t-norm操作，那么对这n₃条税务数据进行有序加权平均t-norm操作表示为如下公式：

Σ_{(k) = 1}^{n_{3}} S (y_{(n_{3})}^{h}, . . ., y_{(n_{3} + 1 - k)}^{h}) w_{k} - - - (7) .

与现有技术相比，本发明能够根据历史数据得到非均匀分布数据的密集分布区间，从而将常见数据与疑似数据或特殊数据区分开来，具有现实的意义；利用获得的密集分布区间，能够将待融合计算的数据分类汇总，从而实现对疑似数据或特殊数据与常见数据的不同融合操作，减小疑似数据或特殊数据对最后融合计算结果的影响；本发明还可减少过大或过小数据对最后计算结果的影响，避免偶尔出现的某个过大或过小的数值造成最后结果过大或过小，具有实际的应用潜力。

【附图说明】

图1为本发明基于密集区间发现的税务指标归一化与融合计算方法的整体流程图；

图2为税务数据预处理过程流程图；

图3为根据历史数据获取非均匀分布税务数据密集分布区间的方法的流程图；

图4为税务数据分组融合计算方法的流程图。

【具体实施方式】

以下结合附图详细说明本发明实现电子税务系统中非均匀分布数据融合计算方法的实施方式。

参见图1，本发明基于密集区间发现的税务指标归一化与融合计算方法，包括以下步骤：

步骤S101：对税务数据预处理，实现将税务数据统一转换为[0,1]内的归一化的税务数据；

参见图2，具体而言，在对税务数据进行融合计算之前，首先对税务数据进行归一化处理，实现对税务数据格式的统一转换，具体包括以下步骤：

步骤S201：获取税务数据的取值范围；

具体而言，税务数据的取值范围可以通过理论计算得到，也可以通过历史数据学习得到。在本发明中，我们通过获取历史数据中的最大值和最小值来得到税务数据的取值范围。

步骤S202：据税务数据的取值范围，将税务数据平均划分成n个等级，具体包括：如果税务数据与计算目标正相关，则取值越大对应的等级值越大；如果税务数据与计算目标负相关，则取值越大对应的等级值越小；如果税务数据小于某个值a时，与计算目标负相关，而大于或等于a时，与计算目标正相关或者如果税务数据小于某个值a时，与计算目标正相关，而大于或等于a时，与计算目标负相关；此时，设税务数据的下界为l，上界为m，则可根据区间[l,a]或[a,m]划分等级，并将划分结果对应到区间的另一部分；

步骤S203：将税务数据x_j对应到相应的区间[c_i,d_i]；

然后根据如下公式进行数据格式转换：

当为正相关时，

y_{j} = p_{i} + Rounddown (\frac{x_{j} - c_{i}}{(d_{i} - c_{i}) \cdot n}, k) - - - (1)

或者，当为负相关时，

y_{j} = p_{i} + Rounddown (\frac{d_{i} - x_{j}}{(d_{i} - c_{i}) \cdot n}, k) - - - (2)

式中：y_j为税务数据x_j按公式(1)或(2)转换后得到的数据；

[c_i,d_i]为将税务数据取值范围平均划分后得到的第i个子区间，i为区间[c_i,d_i]的编号；n为划分的所有子区间个数；

p_i＝Rounddown(i/n,k)；

步骤S102：对于归一化的税务数据，统计其取值的频率，并设定最小频率阈值p和最小距离阈值q，通过迭代算法将频率大于阈值p以及与集合C的距离小于q的税务数据归入集合C，进而根据该集合C找到非均匀分布税务数据集中分布的区间；

参见图3，具体而言，该步骤的目的是想得到非均匀分布数据的密集分布区间。如果数据的分布规律已知，则可通过相关理论得到该类数据的密集分布区间。但在实际应用中，大量数据的分布规律是未知的，那么通过历史数据得到非均匀分布数据的密集分布区间，就是一个较好的可行的方法。该步骤包括以下步骤：

步骤S301：统计待计算税务数据各取值的频率，并按照该频率将数据排序；

步骤S302：从排序后的税务数据中选取频率最大的数据u_max，并将其加入集合C；

步骤S303：从排序后的税务数据中选取频率大于阈值p的所有数据构成集合D；

步骤S304：判断集合D是否为空集，如果为空集则转步骤S308，否则转步骤S305；

步骤S305：从集合D中选取一个数据u，并计算它与集合C的距离；

d (u, C) = \min_{c_{i} &Element; C} {| u - c_{i} |} - - - (3)

步骤S306：判断d(u,C)是否小于阈值q，如果不成立，则转步骤S304，否则转步骤S307；

步骤S307：将数据u加入集合C，转步骤S304；

步骤S308：计算集合C中的最大值与最小值，它们构成非均匀分布税务数据的密集区间；

具体而言，步骤S303中的阈值p取税务数据频率的数学期望。

具体而言，步骤S306中距离阈值q的确定方法是：

先给q赋初值为税务数据区间长度r的一半，运用税务数据密集分布区间发现算法，得到一个税务数据的密集分布区间，用r₁表示得到的这个密集分布区间的长度，再将q赋值为r₁·α(0＜α＜1)，在重复该过程m次后，第m+1次得到的税务数据密分布集区间于第m次得到的密集分布区间非常接近，设m+1次得到的密集分布区间为[a_m,b_m]，第m+1次得到的密集分布区间为[a_m+1,b_m+1]，则有|a_m+1-a_m|＜ε,|b_m+1-b_m|＜ε，取ε＝0.001。

步骤S103：根据上述得到的税务数据分布的密集区间，将要融合计算的税务数据分为三类，并进行不同的融合操作。

参见图4，具体而言，该步骤将经常出现的数据(密集分布区间内的数据)与较少出现的数据(密集区间外的数据)区分开，分别进行不同的数据融合操作，其目的是减少过大或过小数据(可能为噪声数据，但无法判断，一般会在密集分布区间外)对最后计算结果的影响。在该步骤中，我们对密集区间外“较小”的数据进行有序的加权t-conorm操作，目的是将“较小”的数据适当放大，而对密集区间外“较大”的数据，进行有序的加权t-norm操作，目的是将“较大”的数据适当缩小。对密集区间内的数据(较高频率出现的数据)，进行加权平均操作。将这三类操作有机结合就可以减少密集区间外过大或过小数据对最后结果的影响，使得最后融合的结果较为合理。

具体而言，在本发明的具体实施中，该步骤所涉及的t-norm操作和t-conorm操作采用Einstein t-norm和Einstein t-conorm操作，分别表示如下：

Einstein t-norm：

T (x, y) = \frac{xy}{1 + (1 - x) (1 - y)} - - - (4)

Einstein t-conorm：

S (x, y) = \frac{x + y}{1 + xy} - - - (5)

该步骤包括如下步骤：

步骤S401：将输入的税务数据整理为三元组(y_i,w_i,[a_i,b_i])，其中，y_i为税务数据，w_i为权重，[a_i,b_i]为密集分布区间，0<i<n+1；

步骤S402：选取税务数据y_i，判断y_i是否在其密集区间[a_i,b_i]内，如果是，则转步骤S403，否则转步骤S404；

步骤S403：对多个税务数据进行有序的算术加权平均操作，转步骤S407；

具体操作是指：将输入数据中所有位于其密集分布区间[a_i,b_i]内的税务数据归为一组；设有n₂条税务数据位于其密集分布区间[a_i,b_i]内，记为这里，表示对这n₂条税务数据按降序排序后，其中第j条数据，那么对n₂条税务数据进行有序算术加权平均操作表示为如下公式：

Σ_{(j) = 1}^{n_{2}} y_{(j)}^{m} w_{j} - - - (6) .

步骤S404：判断税务数据y_i<a_i是否成立，如果成立，则转步骤S405，否则转步骤S406；

步骤S405：对多个税务数据进行有序加权平均t-conorm操作，转步骤S407；

具体操作是指：将输入数据中所有小于其密集分布区间[a_i,b_i]下界的税务数据归为一组；有n₁条税务数据小于其密集分布区间[a_i,b_i]的下界，记为这里，表示对这n₁条税务数据按降序排序后，其中，第i条数据用表示对前述n₁条税务数据进行t-conorm操作，那么对这n₁条税务数据进行有序加权平均t-conorm操作表示为如下公式：

Σ_{(i) = 1}^{n_{1}} S (y_{(1)}^{l}, . . ., y_{(n_{1})}^{l}) w_{i} - - - (7)

步骤S406：对多个税务数据进行有序的加权平均t-norm操作，转步骤S407；

具体操作是指：将输入数据中所有大于其密集分布区间[a_i,b_i]上界的税务数据归为一组；不妨设有n₃(n₁+n₂+n₃＝n)条税务数据大于其密集分布区间[a_i,b_i]的上界，记为这里，表示对这n₃条税务数据按降序排序后，其中，第k条数据用表示对前述n₃条税务数据进行t-norm操作，那么对这n₃条税务数据进行有序加权平均t-norm操作表示为如下公式：

Σ_{(k) = 1}^{n_{3}} S (y_{(n_{3})}^{h}, . . ., y_{(n_{3} + 1 - k)}^{h}) w_{k} - - - (7) .

步骤S407：判断是否还有税务数据未经处理(i≤n)，如果是，则转步骤S402，否则转步骤S408；

步骤S408：对步骤S403，S405，S406中分类融合计算的结果进行累加，完成对数据分类融合计算。

Claims

1.基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，步骤1)中的数据预处理包括以下步骤：

a)获取税务数据的取值范围；

当为正相关时，

y_{j} = p_{i} + Rounddown (\frac{x_{j} - c_{i}}{(d_{i} - c_{i}) \cdot n}, k) - - - (1)

或者，当为负相关时，

y_{j} = p_{i} + Rounddown (\frac{d_{i} - x_{j}}{(d_{i} - c_{i}) \cdot n}, k) - - - (2)

式中：y_j为税务数据x_j按公式(1)或(2)转换后得到的数据；

p_i＝Rounddown(i/n,k)；

3.根据权利要求1所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，步骤2)中税务数据密集分布区间发现的迭代算法包括以下步骤：

e)从集合D中选取一个数据u，并计算它与集合C的距离；

d (u, C) = \min_{c_{i} &Element; C} {| u - c_{i} |} - - - (3)

g)将数据u加入集合C，转步骤d；

4.根据权利要求3所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，频率阈值p取税务数据频率的数学期望。

5.根据权利要求3所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，距离阈值q的确定方法是：

6.根据权利要求1所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，步骤3)中的根据税务数据密集分布区间实现数据分类融合计算的方法，具体包括以下步骤：

c)对多个税务数据进行有序的算术加权平均操作，转步骤g；

d)判断税务数据y_i<a_i是否成立，如果成立，则转步骤e，否则转步骤f；

e)对多个税务数据进行有序加权平均t-conorm操作，转步骤g；

f)对多个税务数据进行有序的加权平均t-norm操作，转步骤g；

7.根据权利要求6所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，步骤e中对多个税务数据进行有序加权平均t-conorm操作是指：

Σ_{(i) = 1}^{n_{1}} S (y_{(1)}^{l}, . . ., y_{(n_{1})}^{l}) w_{i} - - - (7) .

8.根据权利要求6所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，步骤c中对多个税务数据进行有序的算数加权平均操作是指：

Σ_{(j) = 1}^{n_{2}} y_{(j)}^{m} w_{j} - - - (6)

9.根据权利要求6所述的基于密集区间发现的税务指标归一化与融合计算方法，其特征在于，步骤f中对多个税务数据进行有序加权平均t-norm操作是指：

Σ_{(k) = 1}^{n_{3}} S (y_{(n_{3})}^{h}, . . ., y_{(n_{3} + 1 - k)}^{h}) w_{k} - - - (7) .