CN104156351B

CN104156351B - 一种基于纳税人年报的纳税人税务交易行为识别方法

Info

Publication number: CN104156351B
Application number: CN201410389579.5A
Authority: CN
Inventors: 刘均; 张莎; 郑庆华; 张未展; 米建红
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2017-04-26
Anticipated expiration: 2034-08-08
Also published as: CN104156351A

Abstract

一种基于纳税人年报的纳税人税务交易行为识别方法，利用领域知识构建纳税人税务交易行为核心触发词库，对税务数据进行逐句分析，并根据核心触发词库对税务数据进行过滤，对待处理的句子进行分词、词性标注、句法分析等操作构建特征向量。最后，采用多元分类和条件随机场等方法抽取出与税务相关的收购、重组、变更、经营四种典型交易行为。本发明的贡献在于为税务数据构建触发词库并提供触发词的自动识别功能,利用机器学习的方法从税务数据中抽取纳税人的交易行为，为纳税人的缴税内容提供参考。

Description

一种基于纳税人年报的纳税人税务交易行为识别方法

技术领域

本发明属于计算机应用领域，具体涉及一种基于纳税人年报的纳税人税务交易行为识别方法。

背景技术

在现实经济生活中，存在部分企业利用税目、税收优惠、少报收入偷税等手段进行偷税，如对企业下属分支机构以及参加展销会、交易会的经营收入不报税、设立假合资企业、隐瞒或者少记销售收入、隐瞒投资收入等。缺乏这些企业经营和交易信息的支持，国家税务系统难以识别大量偷税骗税行为，导致税收流失率和流失税金居高不下。通过从国家电子税务收集的纳税人年度报表中自动抽取与税务相关的纳税人交易行为，核对纳税人申报的纳税内容，对发现和识别偷税漏税行为十分必要。在税务分析系统中，对透漏税的行为预防、检测和分析已有不少的研究成果和专利。

专利《一种企业税务档案管理平台CN103116860A》提供了一种企业税务档案管理平台，获取企业涉税信息并建立档案，构建税务事项跟踪管理模块和查询模块，使企业的税务人员能及时发现并管控企业涉税方面的潜在风险,亦可以查询企业与税局之间的交流所产生的所有资料或档案，该专利从企业角度收集并建立纳税人税务信息，但是还不能自动识别纳税人信息。

发明内容

本发明的目的在于提出一种基于纳税人年报的纳税人税务交易行为识别方法，该方法能够自动识别纳税人信息。

为了达到上述目的，本发明采用的技术方案包括以下步骤：

1)税务领域触发词表的构建：

1.1)抽取纳税人年报训练文档的数据中所有句子作为触发词构建的输入数据；

1.2)利用谓语‐论元模型解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(V_sbv,sub)和动宾关系二元组VOB(V_vob,obj)，当主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv和动宾关系二元组VOB(V_vob,obj)中的动词V_vob相同时，抽取主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv作为候选触发词并生成候选触发词集合；其中，sub为主语，obj为宾语；

1.3)使用最大熵模型ME将候选触发词集合中的选触发词的词性分为8类，分别是系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB、一般动词VG、名动词VN以及副动词VD，然后滤除系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB以及副动词VD，形成由一般动词VG和名动词VN作为候选触发词的过滤后候选触发词集合；

1.4)根据过滤后候选触发词集合中候选触发词在税务领域术语库和纳税人年报训练文档中的分布情况计算过滤后候选触发词集合中所有的候选触发词与税务领域的相关度，其计算公式为：

rel(v)＝Freq_s(v)/Freq_a(v)

其中，rel(v)是候选触发词v与税务领域相关度值，Freq_s(v)是候选触发词v出现在税务领域术语库中的频率，Freq_a(v)是候选触发词v出现在纳税人年报训练文档中的频率；

1.5)根据rel(v)的大小对过滤后候选触发词集合中所有候选触发词进行排序，选取前100个rel(v)所对应的候选触发词以形成税务领域触发词表；

2)触发词检测：

2.1)对纳税人年报训练文档中触发词所在的句子进行人工标注，以标注出所在句子中的触发词以及出现的位置；然后对触发词所在的句子进行分词以及词性标注，判断分词结果与人工标注的触发词的词性是否一致，将不一致的触发词的词性人工标注情况进行记录以生成分词勘误表；

2.2)对待检测的纳税人年报中所有交易行为描述句进行分词；将所有交易行为描述句的分词结果与税务领域触发词表中的候选触发词进行匹配；匹配成功时，抽取税务领域触发词表中的候选触发词作为已知触发词，并同时得到其对应的候选交易行为描述句；匹配不成功时，对税务领域触发词表中的候选触发词不做任何处理；

2.3)对待检测的纳税人年报中所有交易行为描述句的分词结果使用分词勘误表进行更新，并使用税务领域触发词表中的候选触发词与更新后的每个交易行为描述句的分词结果分别进行匹配，匹配成功时，抽取税务领域触发词表中的候选触发词作为已知触发词，并同时得到其对应的候选交易行为描述句；匹配不成功时，对税务领域触发词表中的候选触发词不做任何处理；

2.4)计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2的相似度trSim(v1,v2)，相似度计算公式为：

trSim(v1,v2)＝constructSim(v1,v2)×wordSim(v1,v2)

其中，constructSim(v1,v2)表示未知触发词与已知触发词的构词结构相似度，wordSim(v1,v2)表示未知触发词与已知触发词基于《知网》的语义相似度；

当时，抽取税务领域触发词表中未被抽取的候选触发词v1作为未知触发词，并同时得到其对应的候选交易行为描述句，其中，triggerTable为税务领域触发词表，triggerTable.size为税务领域触发词表的大小，α为调节因子；

2.5)依据向量空间模型VSM，使用词法特征和上下文特征，将已知触发词和未知触发词对应的候选交易行为描述句转换为对应的候选交易行为向量；将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的触发词trigger以及对应的交易行为描述句；

3)交易行为句信息识别：

3.1)根据向量空间模型VSM，使用词法特征和上下文特征，将候选交易行为描述句转换为对应的候选交易行为向量；将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的类别type；

3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系，使用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化为多行的特征字符串，使用条件随机场CRF++标注候选交易行为描述句的各字标签，从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别；

4)将识别的交易行为的触发词trigger、交易行为的类别type以及交易行为元素{subject,object,time,place}作为纳税人收购、重组、交易、经营四种典型交易行为的结构化六元组信息用以判断纳税人税务交易行为。

所述的步骤1.2)解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(V_sbv,sub)和动宾关系二元组VOB(V_vob,obj)和步骤3)分析交易行为描述句的依存关系均是采用Stanford Paser实现的。

所述的步骤1.3)在使用最大熵模型ME将候选触发词的词性分为8类的过程中定义第一类信息函数Pos(index)考核词性，定义第二类信息函数Word(index)考核词形，定义第三类信息函数Tag(index)考核标记，且index为考核的词组相对于当前词的位置。

所述的步骤2.1)和步骤2.2)的分词是采用ICTCLAS分词工具实现的。

所述的步骤3)中交易行为描述句的依存关系是通过依存句法工具StanfordParser分析得到的。

与现有技术相比，本发明的有益效果在于：

本发明通过构建税务领域触发词表，然后从税务领域触发词表中分别抽取已知触发词和未知触发词对应的交易行为描述句，接着利用交易行为描述句以及向量空间模型VSM和svm开源工具liblinear识别的交易行为的触发词trigger、以及交易行为的类别type，最后使用条件随机场CRF++标注候选交易行为描述句的各字标签从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别；将上述识别出的交易行为的触发词trigger、交易行为的类别type以及交易行为元素{subject,object,time,place}作为纳税人收购、重组、交易、经营四种典型交易行为的结构化六元组信息用以判断纳税人税务交易行为，这样就能自动识别触发词纳税人信息。而且，本发明利用机器学习的方法从税务数据中抽取纳税人的交易行为，为纳税人的缴税内容提供参考。

具体实施方式

下面对本发明做进一步详细说明。

本发明基于纳税人年报的纳税人税务交易行为识别方法是面向国家电子税务纳税人年度报表的纳税人收购、重组、变更、经营四类交易行为的自动抽取方法，为国家电子税务工作人员核实纳税人缴税内容提供参考。该方法定义结构化的六元组抽取目标{trigger,type,subject,object,time,place}；其中，trigger表示交易行为触发词，type表示交易行为类型，subject表示交易行为的主体,object表示交易行为的客体，time表示交易行为发生的时间，place表示交易行为发生的地点，这6项中trigger与type是必须抽取的项目，其他四项为可选，存在时尽可能抽取。

本发明方法分为三个部分：税务领域触发词表构建、交易行为描述句的识别以及交易行为句信息的识别，具体如下所述：

1、税务领域触发词表构建

1)行为触发词直接引发行为的发生，是决定行为类型的重要特征。多数情况下行为触发词是动词，因此对纳税人年报库中的触发词进行抽取并构建税务领域触发词表十分必要；本发明抽取纳税人年报训练文档的数据中所有句子作为触发词构建的输入数据；

1.2)借鉴谓语‐论元模型来抽取触发词，句子中的核心成分是动词，其他成分都依赖于这一成分，因此利用谓语‐论元模型使用Stanford Paser解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(V_sbv,sub)和动宾关系二元组VOB(V_vob,obj)，当主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv和动宾关系二元组VOB(V_vob,obj)中的动词V_vob相同时，抽取主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv作为候选触发词并生成候选触发词集合；其中，sub为主语，obj为宾语；

1.3)抽取主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv作为候选触发词并生成候选触发词集合这一过程可以得到许多候选触发词，但同时也引入了很多噪声数据，很多候选触发词没有意义或者与税务交易行为无关，本发明通过细化候选触发词词性并计算候选触发词与税务领域的相关度来过滤噪音候选触发词。而中文的动词缺乏词性变化，无论动词被用作名词还是副词，无论动词的时态是过去时态还是将来时态，它都只有一种词性，因此，在细化候选触发词词性时定义第一类信息函数Pos(index)考核词性，定义第二类信息函数Word(index)考核词形，定义第三类信息函数Tag(index)考核标记，且index为函数参数，且表示考核的词组相对于当前词的位置，以数字表示，0表示当前词，然后开始细化候选触发词，细化方法为：使用最大熵模型ME将候选触发词的词性分为8类，分别是系动词VX(如“他是对的”中的“是”)、助动词VZ(如“他应该努力工作”中的“应该”)、形式动词VF(如“他要求予以澄清”的“予以”)、趋向动词VQ(如“他认识到困难”的“到”)、补动动词VB(如“他看完了电影”中的“完”)、一般动词VG(如“他喜欢踢球”中的“踢”)、名动词VN(如“他参加我们的讨论”中的“讨论”)以及副动词VD(如“产量持续增长”的“持续”)。

另外，对已有纳税人年报文档集中的所有触发词词性进行统计，发现超过95％的触发词是一般动词VG或者名动词VN，因此滤除系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB以及副动词VD，形成由一般动词VG和名动词VN作为候选触发词的过滤后候选触发词集合；

1.4)触发词会触发特定类型的行为，本发明关注税务领域的纳税人典型交易行为，因此，只关注与税务领域相关的触发词。根据过滤后候选触发词集合中候选触发词在税务领域术语库和纳税人年报中的分布情况计算过滤后候选触发词集合中所有候选触发词与税务领域的相关程度，计算公式为：

rel(v)＝Freq_s(v)/Freq_a(v)

2、触发词检测：

触发词是行为发生的重要特征，触发词检测的结果直接影响了后续交易行为识别可以处理的数据。对触发词出现次数与触发交易行为次数进行统计，发现超过64％的触发词出现不代表交易行为的发生，包含了触发词的句子并不一定是交易行为句，因此触发词检测分为触发词抽取和触发词分类两个步骤，触发词抽取从句子中抽取出触发词字符，触发词分类判断该触发词字符是否真正代表了行为的发生。在触发词抽取过程中，考虑两种情形：已知触发词抽取和未知触发词抽取。

2.1)触发词抽取过程中一个必不可少的步骤是对句子进行分词，对分词后的句子中的词语判断其是否是触发词字符串。由于目前分词工具无法保证所有触发词被正确分词从而导致触发词字符匹配过程中触发词漏检情况，因此在已知触发词抽取过程中需要对句子分词结果进行更新。本发明采用分词勘误表对分词结果进行更新；该分词勘误表的生成方式如下：对纳税人年报训练文档中触发词所在的句子进行人工标注，以标注出所在句子中的触发词以及出现的位置；然后对触发词所在的句子进行分词以及词性标注，判断分词结果与人工标注的触发词的词性是否一致，将不一致的触发词(分词错误的触发词)的词性人工标注情况进行记录以生成分词勘误表；

2.2)已知触发词抽取：对待检测的纳税人年报中所有交易行为描述句进行分词；将所有交易行为描述句的分词结果与税务领域触发词表中的候选触发词进行匹配；匹配成功时，抽取税务领域触发词表中的候选触发词作为已知触发词，并同时得到其对应的候选交易行为描述句；匹配不成功时，对税务领域触发词表中的候选触发词不做任何处理；对待检测的纳税人年报中所有交易行为描述句的分词结果使用分词勘误表进行更新，并使用税务领域触发词表中的候选触发词与更新后的每个交易行为描述句的分词结果分别进行匹配，匹配成功时，抽取税务领域触发词表中的候选触发词作为已知触发词，并同时得到其对应的候选交易行为描述句；匹配不成功时，对税务领域触发词表中的候选触发词不做任何处理；

2.3)在抽取未知触发词时，考虑一系列具有相同含义和用法的触发词体现了同一类的行为，采用基于组合语义的未知触发词抽取算法，算法涉及构词分析模块、词素分词模块、语义分析块。利用构词分析模块对构成触发词的字间关系进行统计，将触发词分为5种结构并构建触发词结构的推导规则，具体如表1。

表1 构词结构的推导规则

由表1可以看出，从词性角度针对不同的结构定义了不同的推导规则。表中的word.length表示词包含的字数，word.pos表示组成该词的字的词性组合。词素分词模块考虑几乎所有的动词触发词都有一个字来控制其语义，将这个字称为核心词素。由于触发词的语义可以由其核心词素决定，因此可以通过未知触发词的核心词素来推导未知触发词的语义。对于触发词trigger定义LM(trigger)和RM(trigger)，LM(trigger)表示触发词trigger中左侧字是核心词素，RM(trigger)表示触发词trigger中右侧字是核心词素。具体的抽取规则如表2所示。

表2 核心词素的抽取规则

语义相似度模块采用基于《知网》的语义相似度公式其中，Dis(w₁,w₂)表示w₁和w₂的语义距离，α是一个调节因子，其含义可以表述为当相似度为0.5时的词语距离值。

计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2的相似度trSim(v1,v2)，相似度计算公式为：

trSim(v1,v2)＝constructSim(v1,v2)×wordSim(v1,v2)

其中，constructSim(v1,v2)表示未知触发词与已知触发词的构词结构相似度，wordSim(v1,v2)表示未知触发词与已知触发词基于《知网》的语义相似度；wordSim(v1,v2)表示两个动词基于《知网》的语义相似度。当时，抽取税务领域触发词表中未被抽取的候选触发词v1作为未知触发词，并抽取未知触发词所在的句子，其中，triggerTable为税务领域触发词表，triggerTable.size为税务领域触发词表的大小，α为调节因子，即当相似度为0.5时的词语距离值。

2.5)触发词分类过程判断这些句子中的触发词是否真正代表了行为的发生。将上述已知触发词和未知触发词对应的候选交易行为描述句组成候选交易行为句集合Sents＝{S₁,S₂,...,S_n}，n是交易行为句集合中候选交易行为描述句的总数，S_i表示交易行为句子实例。依据向量空间模型VSM，使用词法特征和上下文特征，将候选交易行为描述句转换为对应的候选交易行为向量；其具体做法是：对候选交易行为描述句对应的候选的触发词集合的每一个词语w_i分配一个布尔值T，如果T＝1，表示词语w_i是触发词，如果T＝0，表示词语w_i不是触发词。通过触发词分类得到事件实例集合SE＝{S_e1,S_e2,...,S_ei}和非事件实例集合SNE＝{S_ne1,S_ne2,...,S_nej}，ei表示事件集合中句子的个数，nej表示非事件集合中句子的个数，且ei+nej＝n。

3)交易行为句信息识别：

交易行为句信息识别包括交易行为类型识别和交易行为元素识别。交易行为类别抽取出type，交易行为元素识别抽取{subject,object,time,place}，至此完成六元组{trigger,type,subject,object,time,place}的抽取。

3.1)根据向量空间模型VSM，使用词法特征和上下文特征，将候选交易行为描述句转换为对应的候选交易行为向量；将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的类别type；具体方法为：

交易行为类别识别可以描述为：为每一个候选的事件描述句和事件类别对<s_j,c_i>∈S×C分配一个布尔值T，其中C＝{c₁,...,c_m}表示关注的交易行为类别集合，S＝{s₁,...,s_n}表示要分类的候选句子集合，如果T＝1，表示句子s_j表述的行为类别是c_i。交易行为类别过程使用触发词词法特征和上下文特征来表示交易行为句，并将其映射在特征空间中，使用svm开源工具liblinear对这些特征向量的类别进行预测。

3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系，使用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化为多行的特征字符串，使用条件随机场CRF++标注候选交易行为描述句的各字标签，从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别；具体方法为：

将事件集合SE中的句子S_ei表示为S_ei＝{c₁,c₂,...,c_p}，p表示组成句子S_ei的字符序列总长度，通过交易行为元素识别提取S_ei中字符片段所属的角色R_i∈Roles＝{subject,object,time,place}，这是一个序列标注问题，可以使用依存句法分析和条件随机场CRF来实现。依存句法描述了句子成分间的依赖关系，subject、object、time、place均依赖于句子的核心动词trigger，因此可以通过对句子进行句法分析获得其各成分的依赖关系，目前常用的依存句法分析工具是Stanford Parser。给定一个输入序列O＝{o₁,o₂,...,o_t},CRF模型定义其对应的状态序列S＝{s₁,s₂,...,s_t}的条件概率为其中，f_k(s_t,o,t)是特征函数，λ_k是特征函数的权重，Z_o是规一化因子。使用CRF需要定义与状态序列对应的标签和特征集合。考虑到待标注的标签为{subject,object,time,place}，以-B、-I、-O的形式定义每个字的标签，标签集合为{sub,sub-B,sub-I,obj,obj-B,obj-I,time-B,time-I,place-B,place-I}，sub表示只有一个字构成sub，sub-B表示该字是sub的首字，sub-I表示该字是sub的后续字，其他标签的含义与此类似。由于time和place不可能只有一个字，因此未使用time和place标签。使用CRF的特征集合为{char,isAnchor,pos,nodetag,subject,object}，其中char表示字本身，isAnchor表示该字是否构成触发词，pos表示该字所在词的词性，nodetag表示每个字所在依存语法树中的标签，以-B、-I标记，subject表示依存语法树中与触发词有主谓关系的字，object表示依存语法树中与触发词有谓宾关系的字。

Claims

1.一种基于纳税人年报的纳税人税务交易行为识别方法，其特征在于，包括以下步骤：

1)税务领域触发词表的构建：

1.2)利用谓语-论元模型解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(V_sbv,sub)和动宾关系二元组VOB(V_vob,obj)，当主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv和动宾关系二元组VOB(V_vob,obj)中的动词V_vob相同时，抽取主谓关系二元组SBV(V_sbv,sub)中的动词V_sbv作为候选触发词并生成候选触发词集合；其中，sub为主语，obj为宾语；

1.3)使用最大熵模型ME将候选触发词集合中的候选触发词的词性分为8类，分别是系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB、一般动词VG、名动词VN以及副动词VD，然后滤除系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB以及副动词VD，形成由一般动词VG和名动词VN作为候选触发词的过滤后候选触发词集合；

rel(v)＝Freq_s(v)/Freq_a(v)

2)触发词检测：

trSim(v1,v2)＝constructSim(v1,v2)×wordSim(v1,v2)

其中，constructSim(v1,v2)表示未被抽取的候选触发词v1与已知触发词的构词结构相似度，wordSim(v1,v2)表示未被抽取的候选触发词v1与已知触发词基于《知网》的语义相似度；

3)交易行为句信息识别：

3.1)根据向量空间模型VSM，使用词法特征和上下文特征，将候选交易行为描述句转换为对应的候选交易行为向量；将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别候选交易行为的类别type；

2.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法，其特征在于：所述的步骤1.2)解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(V_sbv,sub)和动宾关系二元组VOB(V_vob,obj)和步骤3)分析交易行为描述句的依存关系均是采用Stanford Paser实现的。

3.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法，其特征在于：所述的步骤1.3)在使用最大熵模型ME将候选触发词的词性分为8类的过程中定义第一类信息函数Pos(index)考核词性，定义第二类信息函数Word(index)考核词形，定义第三类信息函数Tag(index)考核标记，且index为考核的词组相对于当前词的位置。

4.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法，其特征在于：所述的步骤2.1)和步骤2.2)的分词是采用ICTCLAS分词工具实现的。

5.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法，其特征在于：所述的步骤3)中交易行为描述句的依存关系是通过依存句法工具Stanford Parser分析得到的。