CN112733526A

CN112733526A - 一种自动识别财税文件中征税对象的抽取方法

Info

Publication number: CN112733526A
Application number: CN202110121720.3A
Authority: CN
Inventors: 胥博; 尹川; 胡艳; 汤朝强; 陈婷婷; 胡丽梅
Original assignee: Chengdu Buwen Technology Co ltd
Current assignee: Chengdu Buwen Technology Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-04-30
Anticipated expiration: 2041-01-28
Also published as: CN112733526B

Abstract

本发明公开了一种自动识别财税文件中征税对象的抽取方法，包括以下步骤：S1、构建征税对象抽取模型；S2、将涉税语料数据文本序列输入征税对象抽取模型中，结合语义信息特征概率分布和句法特征概率分布，得到预测的征税对象；本发明解决了现有技术在税法领域对征税对象识别准确率低的问题。

Description

一种自动识别财税文件中征税对象的抽取方法

技术领域

本发明涉及文本处理技术领域，具体涉及一种自动识别财税文件中征税对象的抽取方法。

背景技术

实体在文本中的引用有三种形式：命名性指称，名词性指称和代词性指称。一般的是抽取时间、机构名、人名、地名等，不同领域内可以定义领域内的实体类型。税法中的征税对象其实就一种领域内的实体。在涉税文件中征税对象可以是一个词，但更多的情形是一个连续词组。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。实体关系是指两个实体之间的关系。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

中文Bert模型就是一种基于深度学习方法的语言模型。Bert全称是Bidirectional Encoder Representation from Transformers。对大规模文本中的字按照一定比例随机被标记符号[MASK]替换后，另一方面训练的输入是句子A和B，经过对文本数据顺序处理后，B有一半的几率是A的下一句。通过这些数据让Bert训练并预测[MASK]位置的真实字和判断B是否是原始文本中A的下一句。通过这个方法，可以训练到一个字向量。这些字向量是从大规模文本中学到的，因此包含了从大规模文件中学习到的语义信息，通过这样一种无监督的学习方法就可以字，词，句的语言信息表达为向量。在自然语言处理任务中，应用bert编码每个字或句子的向量特征作为下游任务的输入取得了一系列惊艳的结果。

征税对象抽取和命名实体任务相同都属于序列标注任务，在常见的命名实体任务中常用的方案是bilstm-crf，输入序列经过bilstm(双向长短时记忆网络)编码后，将编码信息输入到crf层(条件随机场)做序列标注；另一种方案是文本序列经过bert编码输出每个位置上字的向量表达特征，将向量作为bilstm-crf网络的输入，最后得到预测结果。虽然这两种方法在通用领域的命名实体任务取得不错的效果，但是在税法领域内，存在一些问题：不同于常见的命名实体，征税对象实体不是一个词，更多是由几个词，甚至几个词组构成的，因此在较长的征税对象任务中出现序列标注错误的现象。要提高模型识别准确率，必须要将其他维度的信息考虑进模型中。

发明内容

针对现有技术中的上述不足，本发明提供的一种自动识别财税文件中征税对象的抽取方法解决了现有技术在税法领域对征税对象识别准确率低的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种自动识别财税文件中征税对象的抽取方法，包括以下步骤：

S1、构建征税对象抽取模型；

S2、将涉税语料数据文本序列输入征税对象抽取模型中，得到预测的征税对象。

进一步地：步骤S2中征税对象抽取模型包括：12层的bert模型、bilstm模型、全连接层和新型CRF模型。

进一步地：步骤S2包括以下分步骤：

S21、将涉税语料数据文本序列输入12层的bert模型进行处理，得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征；

S22、将语义信息特征输入bilstm模型，得到语义信息特征概率分布

其中，

为语义信息特征，X为涉税语料数据文本序列，P(·)为概率密度函数；

S23、根据句法信息特征，计算句法特征概率分布P(Z|X)，其中，Z为句法信息特征；

S24、将语义信息特征概率分布

和句法特征概率分布P(Z|X)输入新型CRF模型中，通过机器迭代求得新型CRF模型最优解，得到预测的征税对象。

进一步地：步骤S23包括以下分步骤：

S231、将句法信息特征沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵N_i，其中，n为句法信息特征矩阵的行数，S为切分参数，d为句法信息特征矩阵的列数，i为第i个小矩阵；

S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换，得到线性变换量数据矩阵N_iW；

S233、对每个线性变换量数据矩阵N_iW做全局mean-pool处理，得到2S个句法信息特征向量；

S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵；

S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理，得到S*P的第二句法信息特征向量矩阵；

S236、将第二句法信息特征向量矩阵输入全连接层中，得到全连接层输出向量F；

S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。

上述进一步方案的有益效果为：文本中词与词之间依存关系信息，句子结构信息是由一些一系列连续词组构成的，词组长度可能超过分割的范围，通过对相邻的两个句法信息特征向量进行mean-pool处理，可以将一个减小因分割错误导致的误差。

进一步地：步骤S22中语义信息特征概率分布

的计算公式为：

其中，Z_i为句法信息特征样本空间中的一个值，i为句法信息特征样本空间中第i个句法信息特征样本。

上述进一步方案的有益效果为：根据语义信息特征概率分布

的公式可知，12层的bert模型的第11层输出的向量信息

在输入序列X的条件下的条件概率等价于该条件下

和每个句法特征Z_i的联合概率之和。这个求和过程其实是将句法信息特征覆盖了。说明了11层输出信息中不带有明显的句法特征信息。正是因为这个原因，需要单独提取出句法特征以及改变CRF融合两种特征信息。

进一步地：步骤S237中句法特征概率分布P(Z|X)的计算公式为：

其中，F＝(f₁，...，f_k，...，f_K)，全连接层输出向量F为K维向量，K为句法特征类型个数，f_k为全连接层输出向量F的第k个元素，Z为句法信息特征。

进一步地：步骤S24中新型CRF模型的目标优化函数为：

其中，γ为目标优化函数，Y为征税对象文本序列，K为句法特征类型个数，P(Z_i|X)为句法特征概率分布中第i个向量，

为索引为i的句法信息特征z_i条件下的初始概率分布，

为索引为i的句法信息特征z_i条件下的状态转移矩阵；

为新型CRF模型第一特征函数，

为新型CRF模型第二特征函数，第一特征函数与第二特征函数线性无关，均为单限幅函数；X为涉税语料数据文本序列，

为征税对象文本序列中的第

个元素，l为初始状态类型的参数，h为转移矩阵中转移类型。

综上，本发明的有益效果为：

1、考虑到税法相关法律法规文件，行文风格统一，因此将句法结构特征和文本语义信息结合在一起进行抽取征税对象。

2、不同于以前的模型知识利用bert顶层表征特点，本方法利用了中间层的信息，抽取文本序列和句法特征信息。

3、不同于以前的CRF方法，改进的CRF可以融合句法特征信息。

附图说明

图1为一种自动识别财税文件中征税对象的抽取方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

征税对象又叫课税对象、征税客体，是指税法规定的对什么征税，是征纳税双方权利义务共同指向的客体或标的物，是区别一种税与另一种税的重要标志。在税法场景中，用户根据自己经济活动来确定征税方案，计算机需要将用户输入的经济活动将税法文件中的某个定义征税对象联系起来，这样才能给出准确的信息。随着财税系统越来越智能化，利用计算机技术提取税收法规政策中的征税对象可以辅助财税相关从业者，政府工作人员等做税收法规政策解读。

如图1所示，一种自动识别财税文件中征税对象的抽取方法，包括以下步骤：

S1、构建征税对象抽取模型；

步骤S2包括以下分步骤：

其中，

步骤S22中语义信息特征概率分布

的计算公式为：

步骤S23包括以下分步骤：

S231、将句法信息特征(句法信息特征本身即是矩阵)沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵N_i，其中，n为句法信息特征矩阵的行数，S为切分参数，d为句法信息特征矩阵的列数，i为第i个小矩阵，n/2S为每个小矩阵N_i中包含的字的个数；

全局mean-pool过程为：每列求和N_iW/V，其中，V是一个0-1值n维特征向量，考虑到输入的文本序列不是相同长度的，而编码的向量是n维的，V就代表了对应位置是否存在真实文本的特征，存在为1，不存在为0。经mean-pool处理后输出结果是一个向量。

在步骤S235中mean-pool的窗口参数为(2，p)，步长为1。

F＝relu(WA+b)

其中，relu(·)为激活函数，W权重矩阵，A为第二句法信息特征向量矩阵，b为偏置。