CN104111987A

CN104111987A - 基于子树模式挖掘的税务中间指标提取方法

Info

Publication number: CN104111987A
Application number: CN201410310973.5A
Authority: CN
Inventors: 刘均; 孟玮; 郑庆华
Original assignee: Xian Jiaotong University
Current assignee: Servyou Software Group Co., Ltd.
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2014-10-22
Anticipated expiration: 2034-07-01
Also published as: CN104111987B

Abstract

本发明公开了一种基于子树模式挖掘的税务中间指标提取方法，关键步骤包括：(1)通过在税务指标的表达式树的后缀表达式中查找所有的“aab”形式的字串，识别出所有的子树模式；(2)建立极大子树模式的表达式树，并为每个表达式树赋予一个中间指标。本发明能够用中间指标替代税务指标的计算中频次较多的共性计算过程，从而简化税务指标的计算。

Description

基于子树模式挖掘的税务中间指标提取方法

技术领域

本发明涉及税务数据分析中对税务指标计算表达式树进行极大子树模式挖掘，抽取税务中间指标，简化税务指标计算的方法。

背景技术

税务指标是偷漏税识别与跟踪、深化税收信息服务、优化税收政策的重要依据；涉及不同税种、不同行业以及来自不同数据库表的上万数据项，具有映射复杂、计算冗余两个显著特点，前者表现为每个指标包含5-15个数据项，数据项间存在各种算术运算关系，这给后期的指标维护带来了很大的困难；后者指标在计算中存在大量的重复计算过程，如计算“业务成本在投入产出率异常”指标在“耗电率异常”、“主营业务成本变动率异常”等8个指标中重复计算，这大大限制了指标计算的效率。

发明内容

针对现有技术对税务指标的处理中所存在的重复计算，效率低下，并且维护困难的缺陷，本发明提出了一种可简化税务指标计算的税务指标处理方法。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种基于子树模式挖掘的税务中间指标提取方法，其特征在于，首先根据税务计算表达式生成相应的表达式树集合{T_i}_n，进而从表达式树集合中抽取极大子树模式，抽取极大子树模式的具体步骤如下：

(1)执行以下初始化操作：1)对每个i∈[1..n]，对表达式树T_i进行后序遍历生成字符串形式的后缀表达式s_i，从而形成后缀表达式集合S＝{s_i}_n；2)初始化变量id＝88880000，用于标示后缀表达式中频繁出现的字符串；3)初始化五元组(item1，item2，op，id，max)为结点的空链表P，该链表结点用于存放以op为根节点，item1、item2为叶结点的子树模式；item1与item2表示数据项或所嵌套的子树模式的ID，op表示运算符号；id表示该子树模式的ID；max表示以op为根节点，item1、item2为叶结点的子树模式是否为极大子树模式，用max＝1表示是极大子树模式，max＝0表示不是极大子树模式；

(2)初始化四元组(item1，item2，op，num)为结点的空链表L，item1与item2表示数据项或子树模式ID，op表示运算符号，num表示由item1、item2、op构成的字符串在后缀表达式集合S中出现的次数；

(3)对每个s∈S，分别执行以下操作：1)扫描后缀表达式s，匹配s中所有“aab”形式的子串，该子串对应一颗以b为根节点，a为叶结点的表达式树，其中a表示计算表达式中的数据项或子树模式ID，b表示计算表达式中的运算符号；2)如果未匹配出“aab”形式的子串，则S＝S-{s}；3)如果匹配出“aab”形式的子串，对于每个子串执行：设该子串为a_xa_yb_z；在链表L查找满足item1＝a_x∧item2＝a_y∧op＝b_z或item1＝a_y∧item2＝a_x∧op＝b_z的结点，若找到，假设该结点为l，则l.num＝l.num+1；若未找到，则在L的末尾加入一个结点l，并使得l.item1＝a_x，l.item2＝a_y，l.op＝b_z，l.unm＝1；

(4)扫描链表L，若L为空，或者L中的每个结点l都满足l.num＜5，则转到(6)；否则，对每个满足l.num≥5的结点l，执行以下操作：1)对每个s∈S，查询s是否包含l.item1、l.item2、l.op连接形成的字符串或l.item2、l.item1、l.op连接形成的字符串，若包含，则将s中的该字符串用id替换，id可作为以l.op为根节点，l.item1、l.item2为叶结点的子树模式ID；2)在P中加入一个结点p，并使得p.item1＝l.item1，p.item2＝l.item2，p.op＝l.op，p.max＝1，p.id＝id；3)id＝id+1；

(5)转到(2)执行；

(6)扫描链表P，若P为空，则表达式树集合{T_i}_n中不存在子树模式，即不存在出现频次大于或等于的完全子树，算法退出；否则，对P中的每个结点p，若存在P中除了p以外的结点p′，满足p′.item1＝p.id或p′.item2＝p.id，则p.max＝-1，表示以p.op为根节点，p.item1、p.item2为叶结点的子树模式不是极大子树模式；

(7)对链表P中的每个结点p，若p.max＝1，则利用迭代算法TreeGene建立结点p对应的表达式树，算法如下：

输入：p.op,p.item1,p.item2；

输出：表达式树T；

TreeGene(p.op,p.item1,p.item2)

{

建立p.op为根节点，p.item1、p.item2为叶结点的表达式树T；

若链表P存在除了p以外的结点p′，满足p′.id＝p.item1，则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item1；

若链表P存在除了p以外的结点p′，满足p′.id＝p.item2，则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item2；

}。

(8)对(7)生成每个表达式树分别赋予一个中间指标。

本发明的优点是，对税务指标计算表达式树进行极大子树模式挖掘，抽取中间指标，用中间指标替代税务指标计算中频次较多的共性计算过程，能够简化税务指标计算与后期维护。

附图说明

以下结合附图及具体实施方式对本发明作进一步的详细说明。

图1是本发明从表达式树集合中抽取极大子树模式的流程图。

具体实施方式

设税务指标集合为M＝{m_i}_n，指标m_i的表达式树为T_i＝(V_i，E_i)；其中，V_i为结点集合，可进一步表示为V_i＝{m_i}∪C_i∪D_i，指标m_i作为表达式树T_i的根结点；C_i为指标m_i的计算表达式中的运算符号集合，作为表达式树T_i的中间结点；D_i为指标m_i的计算表达式中的数据项集合，作为表达式树T_i的叶结点；为表达式树T_i的边集合；例如，对于指标“耗电率”，其计算表达式为“评估期电费÷(评估期主营业务成本+期末存货-期初存货)”，对应表达式树的根结点为“耗电率”，中间结点为“÷”、“+”、“-”，叶结点为“评估期电费”、“评估期主营业务成本”、期末存货”、“期初存货”；

对于树T_c＝(V_c，E_c)与T_i＝(V_i，E_i)，若满足以下条件，称T_c为T_i的完全子树，表示为

a)

b)对于任意结点v∈V_i，如果v∈V_c，则v在Ｔ_i中的所有后代结点也是v在T_c中的后代结点；

如果树T_c满足以下两个条件，则称T_c为{T_i}_n的一个极大子树模式：

a)

b)对于任意T′_c，如果则

T_c是一个表达式树，可将该树对应的计算表达式用一个中间指标m_c代替。

本发明基于子树模式挖掘的税务中间指标提取方法，首先要根据税务计算表达式生成相应的表达式树集合，进而从表达式树集合中抽取极大子树模式。

由税务计算表达式生成表达式树集合包括2个步骤，具体流程如下：

(1)将税务指标表达式转换为后缀表达式：扫描税务指标计算表达式，遇到数字，加入后缀表达式；遇到运算符：1)若为最高级的运算符，入栈；2)若为‘(’，入栈；3)若为‘)’，则依次把栈中的运算符加入后缀表达式中，直到出现‘(’，将‘(’从栈中删除；4)若为不是最高级的运算符，则将从栈顶到第一个优先级不大于它的运算符之间的运算符加入后缀表达式中，该运算符再入栈；

(2)生成表达式树：从前向后依次扫描后缀表达式，如果是操作数就建立一个单节点树，并把其指针压入栈；如果是操作符，则建立一个以该操作符为根的树，然后从栈中依次弹出两个指针(这2个指针分别指向2个树)，作为该树的左右子树；然后把指向这棵树的指针压入栈，直到扫描完后缀表达式；最后将表达式对应的指标作为表达式树的根结点。

参考图1，从表达式树集合中抽取极大子树模式包括8个步骤，具体流程如下：

(1)执行以下初始化操作：

1)对每个i∈[1..n]，对表达式树T_i进行后序遍历生成字符串形式的后缀表达式s_i，从而形成后缀表达式集合S＝{s_i}_n；

2)初始化变量id＝88880000，用于标示后缀表达式中频繁出现的字符串；

3)初始化五元组(item1，item2，op，id，max)为结点的空链表P，该链表结点用于存放以op为根节点，item1、item2为叶结点的子树模式；item1与item2表示数据项或所嵌套的子树模式的ID，op表示运算符号；id表示该子树模式的ID；max表示以op为根节点，item1、item2为叶结点的子树模式是否为极大子树模式，用max＝1表示是极大子树模式，max＝0表示不是极大子树模式；

(3)对每个s∈S，分别执行以下操作：

1)扫描后缀表达式s，匹配s中所有“aab”形式的子串，该子串对应一颗以b为根节点，a为叶结点的表达式树，其中a表示计算表达式中的数据项或子树模式ID，b表示计算表达式中的运算符号；

2)如果未匹配出“aab”形式的子串，则S＝S-{s}；

3)如果匹配出“aab”形式的子串，对于每个子串执行：设该子串为a_xa_yb_z；在链表L查找满足item1＝a_x∧item2＝a_y∧op＝b_z或者item1＝a_y∧item2＝a_x∧op＝b_z的结点，若找到，假设该结点为l，则l.num＝l.num+1；若未找到，则在L的末尾加入一个结点l，并使得l.item1＝a_x，l.item2＝a_y，l.op＝b_z，l.num＝1；

(4)扫描链表L，若L为空，或者L中的每个结点l都满足l.num＜5，则转到STEP6；否则，对每个满足l.num≥5的结点l，执行以下操作：

1)对每个s∈S，查询s是否包含l.item1、l.item2、l.op连接形成的字符串或l.item2、l.item1、l.op连接形成的字符串，若包含，则将s中的该字符串用id替换，id可作为以l.op为根节点，l.item1、l.item2为叶结点的子树模式ID；

2)在P中加入一个结点p，并使得p.item1＝l.item1，p.item2＝l.item2，p.op＝l.op，p.max＝1，p.id＝id；

3)id＝id+1；

(5)转到(2)执行；

(7)对链表P中的每个结点p，若p.max＝1，利用迭代算法TreeGene建立结点p对应的表达式树：

输入：p.op,p.item1,p.item2；

输出：表达式树T；

TreeGene(p.op,p.item1,p.item2)

{

建立p.op为根节点，p.item1、p.item2为叶结点的表达式树T；

}。

(8)对(7)生成的每个表达式树分别赋予一个中间指标。

Claims

1.一种基于子树模式挖掘的税务中间指标提取方法，其特征在于，首先根据税务计算表达式生成相应的表达式树集合{T_i}_n，进而从表达式树集合中抽取极大子树模式，抽取极大子树模式的具体步骤如下：

(1)执行以下初始化操作：

i.对每个i∈[1..n]，对表达式树T_i进行后序遍历生成字符串形式的后缀表达式s_i，从而形成后缀表达式集合S＝{s_i}_n；

ii.初始化变量id＝88880000，用于标示后缀表达式中频繁出现的字符串；

iii.初始化五元组(item1，item2，op，id，max)为结点的空链表P，该链表结点用于存放以op为根节点，item1、item2为叶结点的子树模式；item1与item2表示数据项或所嵌套的子树模式的ID，op表示运算符号；id表示该子树模式的ID；max表示以op为根节点，item1、item2为叶结点的子树模式是否为极大子树模式，用max＝1表示是极大子树模式，max＝0表示不是极大子树模式；

(3)对每个s∈S，分别执行以下操作：

i.扫描后缀表达式s，匹配s中所有“aab”形式的子串，该子串对应一颗以b为根节点，a为叶结点的表达式树，其中a表示计算表达式中的数据项或子树模式ID，b表示计算表达式中的运算符号；

ii.如果未匹配出“aab”形式的子串，则S＝S-{s}；

iii.如果匹配出“aab”形式的子串，对于每个子串执行：

设该子串为a_xa_yb_z；在链表L查找满足item1＝a_x∧item2＝a_y∧op＝b_z或者item1＝a_y∧item2＝a_x∧op＝b_z的结点，若找到，假设该结点为l，则l.num＝l.num+1；若未找到，则在L的末尾加入一个结点l，并使得l.item1＝a_x，l.item2＝a_y，l.op＝b_z，l.num＝1；

(4)扫描链表L，若L为空，或者L中的每个结点l都满足l.num＜5，则转到步骤(6)；否则，对每个满足l.num≥5的结点l，执行以下操作：

i.对每个s∈S，查询s是否包含l.item1、l.item2、l.op连接形成的字符串或l.item2、l.item1、l.op连接形成的字符串，若包含，则将s中的该字符串用id替换，id可作为以l.op为根节点，l.item1、l.item2为叶结点的子树模式ID；

ii.在P中加入一个结点p，并使得p.item1＝l.item1，p.item2＝l.item2，p.op＝l.op，p.max＝1，p.id＝id；

iii.id＝id+1；

(5)转到步骤(2)执行；

(7)对链表P中的每个结点p，若p.max＝1，利用迭代算法TreeGene建立结点p对应的表达式树。

(8)对步骤(7)生成每个表达式树分别赋予一个中间指标。

2.如权利要求1所述的基于子树模式挖掘的税务中间指标提取方法，其特征在于，步骤(7)中所述的迭代算法TreeGene具体包括：

输入：p.op,p.item1,p.item2；

输出：表达式树T；

TreeGene(p.op,p.item1,p.item2)

{

建立p.op为根节点，p.item1、p.item2为叶结点的表达式树T；

}。