CN104156351B - 一种基于纳税人年报的纳税人税务交易行为识别方法 - Google Patents

一种基于纳税人年报的纳税人税务交易行为识别方法 Download PDF

Info

Publication number
CN104156351B
CN104156351B CN201410389579.5A CN201410389579A CN104156351B CN 104156351 B CN104156351 B CN 104156351B CN 201410389579 A CN201410389579 A CN 201410389579A CN 104156351 B CN104156351 B CN 104156351B
Authority
CN
China
Prior art keywords
candidate
trigger word
taxpayer
word
trading activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410389579.5A
Other languages
English (en)
Other versions
CN104156351A (zh
Inventor
刘均
张莎
郑庆华
张未展
米建红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201410389579.5A priority Critical patent/CN104156351B/zh
Publication of CN104156351A publication Critical patent/CN104156351A/zh
Application granted granted Critical
Publication of CN104156351B publication Critical patent/CN104156351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于纳税人年报的纳税人税务交易行为识别方法,利用领域知识构建纳税人税务交易行为核心触发词库,对税务数据进行逐句分析,并根据核心触发词库对税务数据进行过滤,对待处理的句子进行分词、词性标注、句法分析等操作构建特征向量。最后,采用多元分类和条件随机场等方法抽取出与税务相关的收购、重组、变更、经营四种典型交易行为。本发明的贡献在于为税务数据构建触发词库并提供触发词的自动识别功能,利用机器学习的方法从税务数据中抽取纳税人的交易行为,为纳税人的缴税内容提供参考。

Description

一种基于纳税人年报的纳税人税务交易行为识别方法
技术领域
本发明属于计算机应用领域,具体涉及一种基于纳税人年报的纳税人税务交易行为识别方法。
背景技术
在现实经济生活中,存在部分企业利用税目、税收优惠、少报收入偷税等手段进行偷税,如对企业下属分支机构以及参加展销会、交易会的经营收入不报税、设立假合资企业、隐瞒或者少记销售收入、隐瞒投资收入等。缺乏这些企业经营和交易信息的支持,国家税务系统难以识别大量偷税骗税行为,导致税收流失率和流失税金居高不下。通过从国家电子税务收集的纳税人年度报表中自动抽取与税务相关的纳税人交易行为,核对纳税人申报的纳税内容,对发现和识别偷税漏税行为十分必要。在税务分析系统中,对透漏税的行为预防、检测和分析已有不少的研究成果和专利。
专利《一种企业税务档案管理平台CN103116860A》提供了一种企业税务档案管理平台,获取企业涉税信息并建立档案,构建税务事项跟踪管理模块和查询模块,使企业的税务人员能及时发现并管控企业涉税方面的潜在风险,亦可以查询企业与税局之间的交流所产生的所有资料或档案,该专利从企业角度收集并建立纳税人税务信息,但是还不能自动识别纳税人信息。
发明内容
本发明的目的在于提出一种基于纳税人年报的纳税人税务交易行为识别方法,该方法能够自动识别纳税人信息。
为了达到上述目的,本发明采用的技术方案包括以下步骤:
1)税务领域触发词表的构建:
1.1)抽取纳税人年报训练文档的数据中所有句子作为触发词构建的输入数据;
1.2)利用谓语‐论元模型解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj),当主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv和动宾关系二元组VOB(Vvob,obj)中的动词Vvob相同时,抽取主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv作为候选触发词并生成候选触发词集合;其中,sub为主语,obj为宾语;
1.3)使用最大熵模型ME将候选触发词集合中的选触发词的词性分为8类,分别是系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB、一般动词VG、名动词VN以及副动词VD,然后滤除系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB以及副动词VD,形成由一般动词VG和名动词VN作为候选触发词的过滤后候选触发词集合;
1.4)根据过滤后候选触发词集合中候选触发词在税务领域术语库和纳税人年报训练文档中的分布情况计算过滤后候选触发词集合中所有的候选触发词与税务领域的相关度,其计算公式为:
rel(v)=Freqs(v)/Freqa(v)
其中,rel(v)是候选触发词v与税务领域相关度值,Freqs(v)是候选触发词v出现在税务领域术语库中的频率,Freqa(v)是候选触发词v出现在纳税人年报训练文档中的频率;
1.5)根据rel(v)的大小对过滤后候选触发词集合中所有候选触发词进行排序,选取前100个rel(v)所对应的候选触发词以形成税务领域触发词表;
2)触发词检测:
2.1)对纳税人年报训练文档中触发词所在的句子进行人工标注,以标注出所在句子中的触发词以及出现的位置;然后对触发词所在的句子进行分词以及词性标注,判断分词结果与人工标注的触发词的词性是否一致,将不一致的触发词的词性人工标注情况进行记录以生成分词勘误表;
2.2)对待检测的纳税人年报中所有交易行为描述句进行分词;将所有交易行为描述句的分词结果与税务领域触发词表中的候选触发词进行匹配;匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;
2.3)对待检测的纳税人年报中所有交易行为描述句的分词结果使用分词勘误表进行更新,并使用税务领域触发词表中的候选触发词与更新后的每个交易行为描述句的分词结果分别进行匹配,匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;
2.4)计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2的相似度trSim(v1,v2),相似度计算公式为:
trSim(v1,v2)=constructSim(v1,v2)×wordSim(v1,v2)
其中,constructSim(v1,v2)表示未知触发词与已知触发词的构词结构相似度,wordSim(v1,v2)表示未知触发词与已知触发词基于《知网》的语义相似度;
时,抽取税务领域触发词表中未被抽取的候选触发词v1作为未知触发词,并同时得到其对应的候选交易行为描述句,其中,triggerTable为税务领域触发词表,triggerTable.size为税务领域触发词表的大小,α为调节因子;
2.5)依据向量空间模型VSM,使用词法特征和上下文特征,将已知触发词和未知触发词对应的候选交易行为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的触发词trigger以及对应的交易行为描述句;
3)交易行为句信息识别:
3.1)根据向量空间模型VSM,使用词法特征和上下文特征,将候选交易行为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的类别type;
3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系,使用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化为多行的特征字符串,使用条件随机场CRF++标注候选交易行为描述句的各字标签,从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别;
4)将识别的交易行为的触发词trigger、交易行为的类别type以及交易行为元素{subject,object,time,place}作为纳税人收购、重组、交易、经营四种典型交易行为的结构化六元组信息用以判断纳税人税务交易行为。
所述的步骤1.2)解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj)和步骤3)分析交易行为描述句的依存关系均是采用Stanford Paser实现的。
所述的步骤1.3)在使用最大熵模型ME将候选触发词的词性分为8类的过程中定义第一类信息函数Pos(index)考核词性,定义第二类信息函数Word(index)考核词形,定义第三类信息函数Tag(index)考核标记,且index为考核的词组相对于当前词的位置。
所述的步骤2.1)和步骤2.2)的分词是采用ICTCLAS分词工具实现的。
所述的步骤3)中交易行为描述句的依存关系是通过依存句法工具StanfordParser分析得到的。
与现有技术相比,本发明的有益效果在于:
本发明通过构建税务领域触发词表,然后从税务领域触发词表中分别抽取已知触发词和未知触发词对应的交易行为描述句,接着利用交易行为描述句以及向量空间模型VSM和svm开源工具liblinear识别的交易行为的触发词trigger、以及交易行为的类别type,最后使用条件随机场CRF++标注候选交易行为描述句的各字标签从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别;将上述识别出的交易行为的触发词trigger、交易行为的类别type以及交易行为元素{subject,object,time,place}作为纳税人收购、重组、交易、经营四种典型交易行为的结构化六元组信息用以判断纳税人税务交易行为,这样就能自动识别触发词纳税人信息。而且,本发明利用机器学习的方法从税务数据中抽取纳税人的交易行为,为纳税人的缴税内容提供参考。
具体实施方式
下面对本发明做进一步详细说明。
本发明基于纳税人年报的纳税人税务交易行为识别方法是面向国家电子税务纳税人年度报表的纳税人收购、重组、变更、经营四类交易行为的自动抽取方法,为国家电子税务工作人员核实纳税人缴税内容提供参考。该方法定义结构化的六元组抽取目标{trigger,type,subject,object,time,place};其中,trigger表示交易行为触发词,type表示交易行为类型,subject表示交易行为的主体,object表示交易行为的客体,time表示交易行为发生的时间,place表示交易行为发生的地点,这6项中trigger与type是必须抽取的项目,其他四项为可选,存在时尽可能抽取。
本发明方法分为三个部分:税务领域触发词表构建、交易行为描述句的识别以及交易行为句信息的识别,具体如下所述:
1、税务领域触发词表构建
1)行为触发词直接引发行为的发生,是决定行为类型的重要特征。多数情况下行为触发词是动词,因此对纳税人年报库中的触发词进行抽取并构建税务领域触发词表十分必要;本发明抽取纳税人年报训练文档的数据中所有句子作为触发词构建的输入数据;
1.2)借鉴谓语‐论元模型来抽取触发词,句子中的核心成分是动词,其他成分都依赖于这一成分,因此利用谓语‐论元模型使用Stanford Paser解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj),当主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv和动宾关系二元组VOB(Vvob,obj)中的动词Vvob相同时,抽取主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv作为候选触发词并生成候选触发词集合;其中,sub为主语,obj为宾语;
1.3)抽取主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv作为候选触发词并生成候选触发词集合这一过程可以得到许多候选触发词,但同时也引入了很多噪声数据,很多候选触发词没有意义或者与税务交易行为无关,本发明通过细化候选触发词词性并计算候选触发词与税务领域的相关度来过滤噪音候选触发词。而中文的动词缺乏词性变化,无论动词被用作名词还是副词,无论动词的时态是过去时态还是将来时态,它都只有一种词性,因此,在细化候选触发词词性时定义第一类信息函数Pos(index)考核词性,定义第二类信息函数Word(index)考核词形,定义第三类信息函数Tag(index)考核标记,且index为函数参数,且表示考核的词组相对于当前词的位置,以数字表示,0表示当前词,然后开始细化候选触发词,细化方法为:使用最大熵模型ME将候选触发词的词性分为8类,分别是系动词VX(如“他是对的”中的“是”)、助动词VZ(如“他应该努力工作”中的“应该”)、形式动词VF(如“他要求予以澄清”的“予以”)、趋向动词VQ(如“他认识到困难”的“到”)、补动动词VB(如“他看完了电影”中的“完”)、一般动词VG(如“他喜欢踢球”中的“踢”)、名动词VN(如“他参加我们的讨论”中的“讨论”)以及副动词VD(如“产量持续增长”的“持续”)。
另外,对已有纳税人年报文档集中的所有触发词词性进行统计,发现超过95%的触发词是一般动词VG或者名动词VN,因此滤除系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB以及副动词VD,形成由一般动词VG和名动词VN作为候选触发词的过滤后候选触发词集合;
1.4)触发词会触发特定类型的行为,本发明关注税务领域的纳税人典型交易行为,因此,只关注与税务领域相关的触发词。根据过滤后候选触发词集合中候选触发词在税务领域术语库和纳税人年报中的分布情况计算过滤后候选触发词集合中所有候选触发词与税务领域的相关程度,计算公式为:
rel(v)=Freqs(v)/Freqa(v)
其中,rel(v)是候选触发词v与税务领域相关度值,Freqs(v)是候选触发词v出现在税务领域术语库中的频率,Freqa(v)是候选触发词v出现在纳税人年报训练文档中的频率;
1.5)根据rel(v)的大小对过滤后候选触发词集合中所有候选触发词进行排序,选取前100个rel(v)所对应的候选触发词以形成税务领域触发词表;
2、触发词检测:
触发词是行为发生的重要特征,触发词检测的结果直接影响了后续交易行为识别可以处理的数据。对触发词出现次数与触发交易行为次数进行统计,发现超过64%的触发词出现不代表交易行为的发生,包含了触发词的句子并不一定是交易行为句,因此触发词检测分为触发词抽取和触发词分类两个步骤,触发词抽取从句子中抽取出触发词字符,触发词分类判断该触发词字符是否真正代表了行为的发生。在触发词抽取过程中,考虑两种情形:已知触发词抽取和未知触发词抽取。
2.1)触发词抽取过程中一个必不可少的步骤是对句子进行分词,对分词后的句子中的词语判断其是否是触发词字符串。由于目前分词工具无法保证所有触发词被正确分词从而导致触发词字符匹配过程中触发词漏检情况,因此在已知触发词抽取过程中需要对句子分词结果进行更新。本发明采用分词勘误表对分词结果进行更新;该分词勘误表的生成方式如下:对纳税人年报训练文档中触发词所在的句子进行人工标注,以标注出所在句子中的触发词以及出现的位置;然后对触发词所在的句子进行分词以及词性标注,判断分词结果与人工标注的触发词的词性是否一致,将不一致的触发词(分词错误的触发词)的词性人工标注情况进行记录以生成分词勘误表;
2.2)已知触发词抽取:对待检测的纳税人年报中所有交易行为描述句进行分词;将所有交易行为描述句的分词结果与税务领域触发词表中的候选触发词进行匹配;匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;对待检测的纳税人年报中所有交易行为描述句的分词结果使用分词勘误表进行更新,并使用税务领域触发词表中的候选触发词与更新后的每个交易行为描述句的分词结果分别进行匹配,匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;
2.3)在抽取未知触发词时,考虑一系列具有相同含义和用法的触发词体现了同一类的行为,采用基于组合语义的未知触发词抽取算法,算法涉及构词分析模块、词素分词模块、语义分析块。利用构词分析模块对构成触发词的字间关系进行统计,将触发词分为5种结构并构建触发词结构的推导规则,具体如表1。
表1 构词结构的推导规则
由表1可以看出,从词性角度针对不同的结构定义了不同的推导规则。表中的word.length表示词包含的字数,word.pos表示组成该词的字的词性组合。词素分词模块考虑几乎所有的动词触发词都有一个字来控制其语义,将这个字称为核心词素。由于触发词的语义可以由其核心词素决定,因此可以通过未知触发词的核心词素来推导未知触发词的语义。对于触发词trigger定义LM(trigger)和RM(trigger),LM(trigger)表示触发词trigger中左侧字是核心词素,RM(trigger)表示触发词trigger中右侧字是核心词素。具体的抽取规则如表2所示。
表2 核心词素的抽取规则
语义相似度模块采用基于《知网》的语义相似度公式其中,Dis(w1,w2)表示w1和w2的语义距离,α是一个调节因子,其含义可以表述为当相似度为0.5时的词语距离值。
计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2的相似度trSim(v1,v2),相似度计算公式为:
trSim(v1,v2)=constructSim(v1,v2)×wordSim(v1,v2)
其中,constructSim(v1,v2)表示未知触发词与已知触发词的构词结构相似度,wordSim(v1,v2)表示未知触发词与已知触发词基于《知网》的语义相似度;wordSim(v1,v2)表示两个动词基于《知网》的语义相似度。当时,抽取税务领域触发词表中未被抽取的候选触发词v1作为未知触发词,并抽取未知触发词所在的句子,其中,triggerTable为税务领域触发词表,triggerTable.size为税务领域触发词表的大小,α为调节因子,即当相似度为0.5时的词语距离值。
2.5)触发词分类过程判断这些句子中的触发词是否真正代表了行为的发生。将上述已知触发词和未知触发词对应的候选交易行为描述句组成候选交易行为句集合Sents={S1,S2,...,Sn},n是交易行为句集合中候选交易行为描述句的总数,Si表示交易行为句子实例。依据向量空间模型VSM,使用词法特征和上下文特征,将候选交易行为描述句转换为对应的候选交易行为向量;其具体做法是:对候选交易行为描述句对应的候选的触发词集合的每一个词语wi分配一个布尔值T,如果T=1,表示词语wi是触发词,如果T=0,表示词语wi不是触发词。通过触发词分类得到事件实例集合SE={Se1,Se2,...,Sei}和非事件实例集合SNE={Sne1,Sne2,...,Snej},ei表示事件集合中句子的个数,nej表示非事件集合中句子的个数,且ei+nej=n。
3)交易行为句信息识别:
交易行为句信息识别包括交易行为类型识别和交易行为元素识别。交易行为类别抽取出type,交易行为元素识别抽取{subject,object,time,place},至此完成六元组{trigger,type,subject,object,time,place}的抽取。
3.1)根据向量空间模型VSM,使用词法特征和上下文特征,将候选交易行为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的类别type;具体方法为:
交易行为类别识别可以描述为:为每一个候选的事件描述句和事件类别对<sj,ci>∈S×C分配一个布尔值T,其中C={c1,...,cm}表示关注的交易行为类别集合,S={s1,...,sn}表示要分类的候选句子集合,如果T=1,表示句子sj表述的行为类别是ci。交易行为类别过程使用触发词词法特征和上下文特征来表示交易行为句,并将其映射在特征空间中,使用svm开源工具liblinear对这些特征向量的类别进行预测。
3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系,使用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化为多行的特征字符串,使用条件随机场CRF++标注候选交易行为描述句的各字标签,从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别;具体方法为:
将事件集合SE中的句子Sei表示为Sei={c1,c2,...,cp},p表示组成句子Sei的字符序列总长度,通过交易行为元素识别提取Sei中字符片段所属的角色Ri∈Roles={subject,object,time,place},这是一个序列标注问题,可以使用依存句法分析和条件随机场CRF来实现。依存句法描述了句子成分间的依赖关系,subject、object、time、place均依赖于句子的核心动词trigger,因此可以通过对句子进行句法分析获得其各成分的依赖关系,目前常用的依存句法分析工具是Stanford Parser。给定一个输入序列O={o1,o2,...,ot},CRF模型定义其对应的状态序列S={s1,s2,...,st}的条件概率为其中,fk(st,o,t)是特征函数,λk是特征函数的权重,Zo是规一化因子。使用CRF需要定义与状态序列对应的标签和特征集合。考虑到待标注的标签为{subject,object,time,place},以-B、-I、-O的形式定义每个字的标签,标签集合为{sub,sub-B,sub-I,obj,obj-B,obj-I,time-B,time-I,place-B,place-I},sub表示只有一个字构成sub,sub-B表示该字是sub的首字,sub-I表示该字是sub的后续字,其他标签的含义与此类似。由于time和place不可能只有一个字,因此未使用time和place标签。使用CRF的特征集合为{char,isAnchor,pos,nodetag,subject,object},其中char表示字本身,isAnchor表示该字是否构成触发词,pos表示该字所在词的词性,nodetag表示每个字所在依存语法树中的标签,以-B、-I标记,subject表示依存语法树中与触发词有主谓关系的字,object表示依存语法树中与触发词有谓宾关系的字。

Claims (5)

1.一种基于纳税人年报的纳税人税务交易行为识别方法,其特征在于,包括以下步骤:
1)税务领域触发词表的构建:
1.1)抽取纳税人年报训练文档的数据中所有句子作为触发词构建的输入数据;
1.2)利用谓语-论元模型解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj),当主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv和动宾关系二元组VOB(Vvob,obj)中的动词Vvob相同时,抽取主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv作为候选触发词并生成候选触发词集合;其中,sub为主语,obj为宾语;
1.3)使用最大熵模型ME将候选触发词集合中的候选触发词的词性分为8类,分别是系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB、一般动词VG、名动词VN以及副动词VD,然后滤除系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB以及副动词VD,形成由一般动词VG和名动词VN作为候选触发词的过滤后候选触发词集合;
1.4)根据过滤后候选触发词集合中候选触发词在税务领域术语库和纳税人年报训练文档中的分布情况计算过滤后候选触发词集合中所有的候选触发词与税务领域的相关度,其计算公式为:
rel(v)=Freqs(v)/Freqa(v)
其中,rel(v)是候选触发词v与税务领域相关度值,Freqs(v)是候选触发词v出现在税务领域术语库中的频率,Freqa(v)是候选触发词v出现在纳税人年报训练文档中的频率;
1.5)根据rel(v)的大小对过滤后候选触发词集合中所有候选触发词进行排序,选取前100个rel(v)所对应的候选触发词以形成税务领域触发词表;
2)触发词检测:
2.1)对纳税人年报训练文档中触发词所在的句子进行人工标注,以标注出所在句子中的触发词以及出现的位置;然后对触发词所在的句子进行分词以及词性标注,判断分词结果与人工标注的触发词的词性是否一致,将不一致的触发词的词性人工标注情况进行记录以生成分词勘误表;
2.2)对待检测的纳税人年报中所有交易行为描述句进行分词;将所有交易行为描述句的分词结果与税务领域触发词表中的候选触发词进行匹配;匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;
2.3)对待检测的纳税人年报中所有交易行为描述句的分词结果使用分词勘误表进行更新,并使用税务领域触发词表中的候选触发词与更新后的每个交易行为描述句的分词结果分别进行匹配,匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;
2.4)计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2的相似度trSim(v1,v2),相似度计算公式为:
trSim(v1,v2)=constructSim(v1,v2)×wordSim(v1,v2)
其中,constructSim(v1,v2)表示未被抽取的候选触发词v1与已知触发词的构词结构相似度,wordSim(v1,v2)表示未被抽取的候选触发词v1与已知触发词基于《知网》的语义相似度;
时,抽取税务领域触发词表中未被抽取的候选触发词v1作为未知触发词,并同时得到其对应的候选交易行为描述句,其中,triggerTable为税务领域触发词表,triggerTable.size为税务领域触发词表的大小,α为调节因子;
2.5)依据向量空间模型VSM,使用词法特征和上下文特征,将已知触发词和未知触发词对应的候选交易行为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行为的触发词trigger以及对应的交易行为描述句;
3)交易行为句信息识别:
3.1)根据向量空间模型VSM,使用词法特征和上下文特征,将候选交易行为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别候选交易行为的类别type;
3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系,使用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化为多行的特征字符串,使用条件随机场CRF++标注候选交易行为描述句的各字标签,从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识别;
4)将识别的交易行为的触发词trigger、交易行为的类别type以及交易行为元素{subject,object,time,place}作为纳税人收购、重组、交易、经营四种典型交易行为的结构化六元组信息用以判断纳税人税务交易行为。
2.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法,其特征在于:所述的步骤1.2)解析输入数据中所有句子以抽取所有句子中的主谓关系二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj)和步骤3)分析交易行为描述句的依存关系均是采用Stanford Paser实现的。
3.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法,其特征在于:所述的步骤1.3)在使用最大熵模型ME将候选触发词的词性分为8类的过程中定义第一类信息函数Pos(index)考核词性,定义第二类信息函数Word(index)考核词形,定义第三类信息函数Tag(index)考核标记,且index为考核的词组相对于当前词的位置。
4.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法,其特征在于:所述的步骤2.1)和步骤2.2)的分词是采用ICTCLAS分词工具实现的。
5.根据权利要求1所述的基于纳税人年报的纳税人税务交易行为识别方法,其特征在于:所述的步骤3)中交易行为描述句的依存关系是通过依存句法工具Stanford Parser分析得到的。
CN201410389579.5A 2014-08-08 2014-08-08 一种基于纳税人年报的纳税人税务交易行为识别方法 Active CN104156351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389579.5A CN104156351B (zh) 2014-08-08 2014-08-08 一种基于纳税人年报的纳税人税务交易行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389579.5A CN104156351B (zh) 2014-08-08 2014-08-08 一种基于纳税人年报的纳税人税务交易行为识别方法

Publications (2)

Publication Number Publication Date
CN104156351A CN104156351A (zh) 2014-11-19
CN104156351B true CN104156351B (zh) 2017-04-26

Family

ID=51881856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389579.5A Active CN104156351B (zh) 2014-08-08 2014-08-08 一种基于纳税人年报的纳税人税务交易行为识别方法

Country Status (1)

Country Link
CN (1) CN104156351B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809105B (zh) * 2015-05-11 2017-12-26 苏州大学 基于最大熵的事件论元及论元角色的识别方法及系统
CN108280766B (zh) * 2017-01-06 2022-05-13 创新先进技术有限公司 交易行为风险识别方法及装置
CN109241532A (zh) * 2018-08-30 2019-01-18 天津做票君机器人科技有限公司 一种汇票交易机器人的买票信息识别方法和识别器
CN109344402B (zh) * 2018-09-20 2023-08-04 中国科学技术信息研究所 一种新术语自动发现识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050154690A1 (en) * 2002-02-04 2005-07-14 Celestar Lexico-Sciences, Inc Document knowledge management apparatus and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑希亮.基于语义理解的税务稽查辅助系统.《中国优秀硕士学位论文全文数据库 信息科技辑》.2013,第2013年卷(第4期),全文. *

Also Published As

Publication number Publication date
CN104156351A (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
US9672205B2 (en) Methods and systems related to information extraction
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
Cetto et al. Graphene: Semantically-linked propositions in open information extraction
CN104809142A (zh) 商标查询系统和方法
CN107807962B (zh) 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN107430612A (zh) 查找描述对计算问题的解决方案的文档
CN104573028A (zh) 实现智能问答的方法和系统
CN106294639A (zh) 基于语义的跨语言专利新创性预判分析方法
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN104156351B (zh) 一种基于纳税人年报的纳税人税务交易行为识别方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN108427661A (zh) 一种新大数据标签生产方法及装置
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
de Albornoz et al. Using an Emotion-based Model and Sentiment Analysis Techniques to Classify Polarity for Reputation.
CN109086306A (zh) 基于混合隐马尔可夫模型的原子事件标签的提取方法
CN110287495A (zh) 一种电力营销专业词识别方法及系统
Tripathi et al. SimNER–an accurate and faster algorithm for named entity recognition
Usmani et al. News headlines categorization scheme for unlabelled data
CN107220238A (zh) 一种基于混合网络模型的文本对象抽取方法
CN114065748A (zh) 识别风险数据的方法、装置、和电子设备
CN110502745B (zh) 文本信息评价方法、装置、计算机设备和存储介质
Hettiarachchi et al. SPARCL: An improved approach for matching Sinhalese words and names in record clustering and linkage
Wang et al. A semantic path based approach to match subgraphs from large financial knowledge graph
Jin et al. Diagnosis of corporate insolvency using massive news articles for credit management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant