CN104111987A - 基于子树模式挖掘的税务中间指标提取方法 - Google Patents

基于子树模式挖掘的税务中间指标提取方法 Download PDF

Info

Publication number
CN104111987A
CN104111987A CN201410310973.5A CN201410310973A CN104111987A CN 104111987 A CN104111987 A CN 104111987A CN 201410310973 A CN201410310973 A CN 201410310973A CN 104111987 A CN104111987 A CN 104111987A
Authority
CN
China
Prior art keywords
item2
item1
node
expression
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410310973.5A
Other languages
English (en)
Other versions
CN104111987B (zh
Inventor
刘均
孟玮
郑庆华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Servyou Software Group Co., Ltd.
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410310973.5A priority Critical patent/CN104111987B/zh
Publication of CN104111987A publication Critical patent/CN104111987A/zh
Application granted granted Critical
Publication of CN104111987B publication Critical patent/CN104111987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于子树模式挖掘的税务中间指标提取方法,关键步骤包括:(1)通过在税务指标的表达式树的后缀表达式中查找所有的“aab”形式的字串,识别出所有的子树模式;(2)建立极大子树模式的表达式树,并为每个表达式树赋予一个中间指标。本发明能够用中间指标替代税务指标的计算中频次较多的共性计算过程,从而简化税务指标的计算。

Description

基于子树模式挖掘的税务中间指标提取方法
技术领域
本发明涉及税务数据分析中对税务指标计算表达式树进行极大子树模式挖掘,抽取税务中间指标,简化税务指标计算的方法。
背景技术
税务指标是偷漏税识别与跟踪、深化税收信息服务、优化税收政策的重要依据;涉及不同税种、不同行业以及来自不同数据库表的上万数据项,具有映射复杂、计算冗余两个显著特点,前者表现为每个指标包含5-15个数据项,数据项间存在各种算术运算关系,这给后期的指标维护带来了很大的困难;后者指标在计算中存在大量的重复计算过程,如计算“业务成本在投入产出率异常”指标在“耗电率异常”、“主营业务成本变动率异常”等8个指标中重复计算,这大大限制了指标计算的效率。
发明内容
针对现有技术对税务指标的处理中所存在的重复计算,效率低下,并且维护困难的缺陷,本发明提出了一种可简化税务指标计算的税务指标处理方法。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于子树模式挖掘的税务中间指标提取方法,其特征在于,首先根据税务计算表达式生成相应的表达式树集合{Ti}n,进而从表达式树集合中抽取极大子树模式,抽取极大子树模式的具体步骤如下:
(1)执行以下初始化操作:1)对每个i∈[1..n],对表达式树Ti进行后序遍历生成字符串形式的后缀表达式si,从而形成后缀表达式集合S={si}n;2)初始化变量id=88880000,用于标示后缀表达式中频繁出现的字符串;3)初始化五元组(item1,item2,op,id,max)为结点的空链表P,该链表结点用于存放以op为根节点,item1、item2为叶结点的子树模式;item1与item2表示数据项或所嵌套的子树模式的ID,op表示运算符号;id表示该子树模式的ID;max表示以op为根节点,item1、item2为叶结点的子树模式是否为极大子树模式,用max=1表示是极大子树模式,max=0表示不是极大子树模式;
(2)初始化四元组(item1,item2,op,num)为结点的空链表L,item1与item2表示数据项或子树模式ID,op表示运算符号,num表示由item1、item2、op构成的字符串在后缀表达式集合S中出现的次数;
(3)对每个s∈S,分别执行以下操作:1)扫描后缀表达式s,匹配s中所有“aab”形式的子串,该子串对应一颗以b为根节点,a为叶结点的表达式树,其中a表示计算表达式中的数据项或子树模式ID,b表示计算表达式中的运算符号;2)如果未匹配出“aab”形式的子串,则S=S-{s};3)如果匹配出“aab”形式的子串,对于每个子串执行:设该子串为axaybz;在链表L查找满足item1=ax∧item2=ay∧op=bz或item1=ay∧item2=ax∧op=bz的结点,若找到,假设该结点为l,则l.num=l.num+1;若未找到,则在L的末尾加入一个结点l,并使得l.item1=ax,l.item2=ay,l.op=bz,l.unm=1;
(4)扫描链表L,若L为空,或者L中的每个结点l都满足l.num<5,则转到(6);否则,对每个满足l.num≥5的结点l,执行以下操作:1)对每个s∈S,查询s是否包含l.item1、l.item2、l.op连接形成的字符串或l.item2、l.item1、l.op连接形成的字符串,若包含,则将s中的该字符串用id替换,id可作为以l.op为根节点,l.item1、l.item2为叶结点的子树模式ID;2)在P中加入一个结点p,并使得p.item1=l.item1,p.item2=l.item2,p.op=l.op,p.max=1,p.id=id;3)id=id+1;
(5)转到(2)执行;
(6)扫描链表P,若P为空,则表达式树集合{Ti}n中不存在子树模式,即不存在出现频次大于或等于的完全子树,算法退出;否则,对P中的每个结点p,若存在P中除了p以外的结点p′,满足p′.item1=p.id或p′.item2=p.id,则p.max=-1,表示以p.op为根节点,p.item1、p.item2为叶结点的子树模式不是极大子树模式;
(7)对链表P中的每个结点p,若p.max=1,则利用迭代算法TreeGene建立结点p对应的表达式树,算法如下:
输入:p.op,p.item1,p.item2;
输出:表达式树T;
TreeGene(p.op,p.item1,p.item2)
{
建立p.op为根节点,p.item1、p.item2为叶结点的表达式树T;
若链表P存在除了p以外的结点p′,满足p′.id=p.item1,则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item1;
若链表P存在除了p以外的结点p′,满足p′.id=p.item2,则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item2;
}。
(8)对(7)生成每个表达式树分别赋予一个中间指标。
本发明的优点是,对税务指标计算表达式树进行极大子树模式挖掘,抽取中间指标,用中间指标替代税务指标计算中频次较多的共性计算过程,能够简化税务指标计算与后期维护。
附图说明
以下结合附图及具体实施方式对本发明作进一步的详细说明。
图1是本发明从表达式树集合中抽取极大子树模式的流程图。
具体实施方式
设税务指标集合为M={mi}n,指标mi的表达式树为Ti=(Vi,Ei);其中,Vi为结点集合,可进一步表示为Vi={mi}∪Ci∪Di,指标mi作为表达式树Ti的根结点;Ci为指标mi的计算表达式中的运算符号集合,作为表达式树Ti的中间结点;Di为指标mi的计算表达式中的数据项集合,作为表达式树Ti的叶结点;为表达式树Ti的边集合;例如,对于指标“耗电率”,其计算表达式为“评估期电费÷(评估期主营业务成本+期末存货-期初存货)”,对应表达式树的根结点为“耗电率”,中间结点为“÷”、“+”、“-”,叶结点为“评估期电费”、“评估期主营业务成本”、期末存货”、“期初存货”;
对于树Tc=(Vc,Ec)与Ti=(Vi,Ei),若满足以下条件,称Tc为Ti的完全子树,表示为
a)
b)对于任意结点v∈Vi,如果v∈Vc,则v在Ti中的所有后代结点也是v在Tc中的后代结点;
如果树Tc满足以下两个条件,则称Tc为{Ti}n的一个极大子树模式:
a)
b)对于任意T′c,如果
Tc是一个表达式树,可将该树对应的计算表达式用一个中间指标mc代替。
本发明基于子树模式挖掘的税务中间指标提取方法,首先要根据税务计算表达式生成相应的表达式树集合,进而从表达式树集合中抽取极大子树模式。
由税务计算表达式生成表达式树集合包括2个步骤,具体流程如下:
(1)将税务指标表达式转换为后缀表达式:扫描税务指标计算表达式,遇到数字,加入后缀表达式;遇到运算符:1)若为最高级的运算符,入栈;2)若为‘(’,入栈;3)若为‘)’,则依次把栈中的运算符加入后缀表达式中,直到出现‘(’,将‘(’从栈中删除;4)若为不是最高级的运算符,则将从栈顶到第一个优先级不大于它的运算符之间的运算符加入后缀表达式中,该运算符再入栈;
(2)生成表达式树:从前向后依次扫描后缀表达式,如果是操作数就建立一个单节点树,并把其指针压入栈;如果是操作符,则建立一个以该操作符为根的树,然后从栈中依次弹出两个指针(这2个指针分别指向2个树),作为该树的左右子树;然后把指向这棵树的指针压入栈,直到扫描完后缀表达式;最后将表达式对应的指标作为表达式树的根结点。
参考图1,从表达式树集合中抽取极大子树模式包括8个步骤,具体流程如下:
(1)执行以下初始化操作:
1)对每个i∈[1..n],对表达式树Ti进行后序遍历生成字符串形式的后缀表达式si,从而形成后缀表达式集合S={si}n
2)初始化变量id=88880000,用于标示后缀表达式中频繁出现的字符串;
3)初始化五元组(item1,item2,op,id,max)为结点的空链表P,该链表结点用于存放以op为根节点,item1、item2为叶结点的子树模式;item1与item2表示数据项或所嵌套的子树模式的ID,op表示运算符号;id表示该子树模式的ID;max表示以op为根节点,item1、item2为叶结点的子树模式是否为极大子树模式,用max=1表示是极大子树模式,max=0表示不是极大子树模式;
(2)初始化四元组(item1,item2,op,num)为结点的空链表L,item1与item2表示数据项或子树模式ID,op表示运算符号,num表示由item1、item2、op构成的字符串在后缀表达式集合S中出现的次数;
(3)对每个s∈S,分别执行以下操作:
1)扫描后缀表达式s,匹配s中所有“aab”形式的子串,该子串对应一颗以b为根节点,a为叶结点的表达式树,其中a表示计算表达式中的数据项或子树模式ID,b表示计算表达式中的运算符号;
2)如果未匹配出“aab”形式的子串,则S=S-{s};
3)如果匹配出“aab”形式的子串,对于每个子串执行:设该子串为axaybz;在链表L查找满足item1=ax∧item2=ay∧op=bz或者item1=ay∧item2=ax∧op=bz的结点,若找到,假设该结点为l,则l.num=l.num+1;若未找到,则在L的末尾加入一个结点l,并使得l.item1=ax,l.item2=ay,l.op=bz,l.num=1;
(4)扫描链表L,若L为空,或者L中的每个结点l都满足l.num<5,则转到STEP6;否则,对每个满足l.num≥5的结点l,执行以下操作:
1)对每个s∈S,查询s是否包含l.item1、l.item2、l.op连接形成的字符串或l.item2、l.item1、l.op连接形成的字符串,若包含,则将s中的该字符串用id替换,id可作为以l.op为根节点,l.item1、l.item2为叶结点的子树模式ID;
2)在P中加入一个结点p,并使得p.item1=l.item1,p.item2=l.item2,p.op=l.op,p.max=1,p.id=id;
3)id=id+1;
(5)转到(2)执行;
(6)扫描链表P,若P为空,则表达式树集合{Ti}n中不存在子树模式,即不存在出现频次大于或等于的完全子树,算法退出;否则,对P中的每个结点p,若存在P中除了p以外的结点p′,满足p′.item1=p.id或p′.item2=p.id,则p.max=-1,表示以p.op为根节点,p.item1、p.item2为叶结点的子树模式不是极大子树模式;
(7)对链表P中的每个结点p,若p.max=1,利用迭代算法TreeGene建立结点p对应的表达式树:
输入:p.op,p.item1,p.item2;
输出:表达式树T;
TreeGene(p.op,p.item1,p.item2)
{
建立p.op为根节点,p.item1、p.item2为叶结点的表达式树T;
若链表P存在除了p以外的结点p′,满足p′.id=p.item1,则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item1;
若链表P存在除了p以外的结点p′,满足p′.id=p.item2,则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item2;
}。
(8)对(7)生成的每个表达式树分别赋予一个中间指标。

Claims (2)

1.一种基于子树模式挖掘的税务中间指标提取方法,其特征在于,首先根据税务计算表达式生成相应的表达式树集合{Ti}n,进而从表达式树集合中抽取极大子树模式,抽取极大子树模式的具体步骤如下:
(1)执行以下初始化操作:
i.对每个i∈[1..n],对表达式树Ti进行后序遍历生成字符串形式的后缀表达式si,从而形成后缀表达式集合S={si}n
ii.初始化变量id=88880000,用于标示后缀表达式中频繁出现的字符串;
iii.初始化五元组(item1,item2,op,id,max)为结点的空链表P,该链表结点用于存放以op为根节点,item1、item2为叶结点的子树模式;item1与item2表示数据项或所嵌套的子树模式的ID,op表示运算符号;id表示该子树模式的ID;max表示以op为根节点,item1、item2为叶结点的子树模式是否为极大子树模式,用max=1表示是极大子树模式,max=0表示不是极大子树模式;
(2)初始化四元组(item1,item2,op,num)为结点的空链表L,item1与item2表示数据项或子树模式ID,op表示运算符号,num表示由item1、item2、op构成的字符串在后缀表达式集合S中出现的次数;
(3)对每个s∈S,分别执行以下操作:
i.扫描后缀表达式s,匹配s中所有“aab”形式的子串,该子串对应一颗以b为根节点,a为叶结点的表达式树,其中a表示计算表达式中的数据项或子树模式ID,b表示计算表达式中的运算符号;
ii.如果未匹配出“aab”形式的子串,则S=S-{s};
iii.如果匹配出“aab”形式的子串,对于每个子串执行:
设该子串为axaybz;在链表L查找满足item1=ax∧item2=ay∧op=bz或者item1=ay∧item2=ax∧op=bz的结点,若找到,假设该结点为l,则l.num=l.num+1;若未找到,则在L的末尾加入一个结点l,并使得l.item1=ax,l.item2=ay,l.op=bz,l.num=1;
(4)扫描链表L,若L为空,或者L中的每个结点l都满足l.num<5,则转到步骤(6);否则,对每个满足l.num≥5的结点l,执行以下操作:
i.对每个s∈S,查询s是否包含l.item1、l.item2、l.op连接形成的字符串或l.item2、l.item1、l.op连接形成的字符串,若包含,则将s中的该字符串用id替换,id可作为以l.op为根节点,l.item1、l.item2为叶结点的子树模式ID;
ii.在P中加入一个结点p,并使得p.item1=l.item1,p.item2=l.item2,p.op=l.op,p.max=1,p.id=id;
iii.id=id+1;
(5)转到步骤(2)执行;
(6)扫描链表P,若P为空,则表达式树集合{Ti}n中不存在子树模式,即不存在出现频次大于或等于的完全子树,算法退出;否则,对P中的每个结点p,若存在P中除了p以外的结点p′,满足p′.item1=p.id或p′.item2=p.id,则p.max=-1,表示以p.op为根节点,p.item1、p.item2为叶结点的子树模式不是极大子树模式;
(7)对链表P中的每个结点p,若p.max=1,利用迭代算法TreeGene建立结点p对应的表达式树。
(8)对步骤(7)生成每个表达式树分别赋予一个中间指标。
2.如权利要求1所述的基于子树模式挖掘的税务中间指标提取方法,其特征在于,步骤(7)中所述的迭代算法TreeGene具体包括:
输入:p.op,p.item1,p.item2;
输出:表达式树T;
TreeGene(p.op,p.item1,p.item2)
{
建立p.op为根节点,p.item1、p.item2为叶结点的表达式树T;
若链表P存在除了p以外的结点p′,满足p′.id=p.item1,则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item1;
若链表P存在除了p以外的结点p′,满足p′.id=p.item2,则将TreeGene(p′.op,p′.item1,p′.item2)创建的表达式树替代T的叶结点p.item2;
}。
CN201410310973.5A 2014-07-01 2014-07-01 基于子树模式挖掘的税务中间指标提取方法 Active CN104111987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410310973.5A CN104111987B (zh) 2014-07-01 2014-07-01 基于子树模式挖掘的税务中间指标提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410310973.5A CN104111987B (zh) 2014-07-01 2014-07-01 基于子树模式挖掘的税务中间指标提取方法

Publications (2)

Publication Number Publication Date
CN104111987A true CN104111987A (zh) 2014-10-22
CN104111987B CN104111987B (zh) 2015-08-26

Family

ID=51708778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410310973.5A Active CN104111987B (zh) 2014-07-01 2014-07-01 基于子树模式挖掘的税务中间指标提取方法

Country Status (1)

Country Link
CN (1) CN104111987B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法
CN102467501A (zh) * 2010-10-29 2012-05-23 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及系统
US20130254219A1 (en) * 2002-10-15 2013-09-26 Ximpleware, Inc. Processing structured data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130254219A1 (en) * 2002-10-15 2013-09-26 Ximpleware, Inc. Processing structured data
CN102467501A (zh) * 2010-10-29 2012-05-23 北大方正集团有限公司 一种从新闻列表页抽取新闻记录元数据的方法及系统
CN102306204A (zh) * 2011-09-28 2012-01-04 武汉大学 基于文本结构权重的主题区域识别方法

Also Published As

Publication number Publication date
CN104111987B (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
US10515090B2 (en) Data extraction and transformation method and system
CN101950284B (zh) 中文分词方法及系统
Xie et al. Detecting duplicate bug reports with convolutional neural networks
CN101978348B (zh) 管理关于近似串匹配的档案
CN103218364B (zh) 一种搜索方法和系统
CN102207946B (zh) 一种知识网络的半自动生成方法
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN104866471B (zh) 一种基于局部敏感哈希策略的实例匹配方法
CN108829658A (zh) 新词发现的方法及装置
CN102955832B (zh) 一种通讯地址识别、标准化的系统
CN104123346A (zh) 一种结构化数据搜索方法
CN103116625A (zh) 一种基于Hadoop的海量RDF数据分布式查询处理方法
CN102955833A (zh) 一种通讯地址识别、标准化的方法
CN104965905A (zh) 一种网页分类的方法和装置
CN103823838A (zh) 一种多格式文档录入并比对的方法
CN103218423A (zh) 数据查询方法及装置
Dutta et al. Neighbor-aware search for approximate labeled graph matching using the chi-square statistics
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN106649557A (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
CN106055652A (zh) 一种基于模式和实例的数据库匹配方法及系统
Jiang et al. Combining embedding-based and symbol-based methods for entity alignment
AU2019200371A1 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN103929499B (zh) 一种物联网异构标识识别方法和系统
CN103136212A (zh) 一种类别新词的挖掘方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160415

Address after: 310053, tax building, No. 3738 South Ring Road, Hangzhou, Zhejiang, Binjiang District

Patentee after: Servyou Software Group Co., Ltd.

Address before: 710049 Xianning West Road, Shaanxi, China, No. 28, No.

Patentee before: Xi'an Jiaotong University