CN112733526A - 一种自动识别财税文件中征税对象的抽取方法 - Google Patents
一种自动识别财税文件中征税对象的抽取方法 Download PDFInfo
- Publication number
- CN112733526A CN112733526A CN202110121720.3A CN202110121720A CN112733526A CN 112733526 A CN112733526 A CN 112733526A CN 202110121720 A CN202110121720 A CN 202110121720A CN 112733526 A CN112733526 A CN 112733526A
- Authority
- CN
- China
- Prior art keywords
- taxation
- syntactic
- matrix
- characteristic
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 51
- 230000009466 transformation Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000000034 method Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:S1、构建征税对象抽取模型;S2、将涉税语料数据文本序列输入征税对象抽取模型中,结合语义信息特征概率分布和句法特征概率分布,得到预测的征税对象;本发明解决了现有技术在税法领域对征税对象识别准确率低的问题。
Description
技术领域
本发明涉及文本处理技术领域,具体涉及一种自动识别财税文件中征税对象的抽取方法。
背景技术
实体在文本中的引用有三种形式:命名性指称,名词性指称和代词性指称。一般的是抽取时间、机构名、人名、地名等,不同领域内可以定义领域内的实体类型。税法中的征税对象其实就一种领域内的实体。在涉税文件中征税对象可以是一个词,但更多的情形是一个连续词组。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。实体关系是指两个实体之间的关系。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
中文Bert模型就是一种基于深度学习方法的语言模型。Bert全称是Bidirectional Encoder Representation from Transformers。对大规模文本中的字按照一定比例随机被标记符号[MASK]替换后,另一方面训练的输入是句子A和B,经过对文本数据顺序处理后,B有一半的几率是A的下一句。通过这些数据让Bert训练并预测[MASK]位置的真实字和判断B是否是原始文本中A的下一句。通过这个方法,可以训练到一个字向量。这些字向量是从大规模文本中学到的,因此包含了从大规模文件中学习到的语义信息,通过这样一种无监督的学习方法就可以字,词,句的语言信息表达为向量。在自然语言处理任务中,应用bert编码每个字或句子的向量特征作为下游任务的输入取得了一系列惊艳的结果。
征税对象抽取和命名实体任务相同都属于序列标注任务,在常见的命名实体任务中常用的方案是bilstm-crf,输入序列经过bilstm(双向长短时记忆网络)编码后,将编码信息输入到crf层(条件随机场)做序列标注;另一种方案是文本序列经过bert编码输出每个位置上字的向量表达特征,将向量作为bilstm-crf网络的输入,最后得到预测结果。虽然这两种方法在通用领域的命名实体任务取得不错的效果,但是在税法领域内,存在一些问题:不同于常见的命名实体,征税对象实体不是一个词,更多是由几个词,甚至几个词组构成的,因此在较长的征税对象任务中出现序列标注错误的现象。要提高模型识别准确率,必须要将其他维度的信息考虑进模型中。
发明内容
针对现有技术中的上述不足,本发明提供的一种自动识别财税文件中征税对象的抽取方法解决了现有技术在税法领域对征税对象识别准确率低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
进一步地:步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。
进一步地:步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
进一步地:步骤S23包括以下分步骤:
S231、将句法信息特征沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵Ni,其中,n为句法信息特征矩阵的行数,S为切分参数,d为句法信息特征矩阵的列数,i为第i个小矩阵;
S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵NiW;
S233、对每个线性变换量数据矩阵NiW做全局mean-pool处理,得到2S个句法信息特征向量;
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵;
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
上述进一步方案的有益效果为:文本中词与词之间依存关系信息,句子结构信息是由一些一系列连续词组构成的,词组长度可能超过分割的范围,通过对相邻的两个句法信息特征向量进行mean-pool处理,可以将一个减小因分割错误导致的误差。
其中,Zi为句法信息特征样本空间中的一个值,i为句法信息特征样本空间中第i个句法信息特征样本。
上述进一步方案的有益效果为:根据语义信息特征概率分布的公式可知,12层的bert模型的第11层输出的向量信息在输入序列X的条件下的条件概率等价于该条件下和每个句法特征Zi的联合概率之和。这个求和过程其实是将句法信息特征覆盖了。说明了11层输出信息中不带有明显的句法特征信息。正是因为这个原因,需要单独提取出句法特征以及改变CRF融合两种特征信息。
进一步地:步骤S237中句法特征概率分布P(Z|X)的计算公式为:
其中,F=(f1,...,fk,...,fK),全连接层输出向量F为K维向量,K为句法特征类型个数,fk为全连接层输出向量F的第k个元素,Z为句法信息特征。
进一步地:步骤S24中新型CRF模型的目标优化函数为:
其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Zi|X)为句法特征概率分布中第i个向量,为索引为i的句法信息特征zi条件下的初始概率分布,为索引为i的句法信息特征zi条件下的状态转移矩阵;为新型CRF模型第一特征函数,为新型CRF模型第二特征函数,第一特征函数与第二特征函数线性无关,均为单限幅函数;X为涉税语料数据文本序列,为征税对象文本序列中的第个元素,l为初始状态类型的参数,h为转移矩阵中转移类型。
综上,本发明的有益效果为:
1、考虑到税法相关法律法规文件,行文风格统一,因此将句法结构特征和文本语义信息结合在一起进行抽取征税对象。
2、不同于以前的模型知识利用bert顶层表征特点,本方法利用了中间层的信息,抽取文本序列和句法特征信息。
3、不同于以前的CRF方法,改进的CRF可以融合句法特征信息。
附图说明
图1为一种自动识别财税文件中征税对象的抽取方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
征税对象又叫课税对象、征税客体,是指税法规定的对什么征税,是征纳税双方权利义务共同指向的客体或标的物,是区别一种税与另一种税的重要标志。在税法场景中,用户根据自己经济活动来确定征税方案,计算机需要将用户输入的经济活动将税法文件中的某个定义征税对象联系起来,这样才能给出准确的信息。随着财税系统越来越智能化,利用计算机技术提取税收法规政策中的征税对象可以辅助财税相关从业者,政府工作人员等做税收法规政策解读。
如图1所示,一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
其中,Zi为句法信息特征样本空间中的一个值,i为句法信息特征样本空间中第i个句法信息特征样本。
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
步骤S23包括以下分步骤:
S231、将句法信息特征(句法信息特征本身即是矩阵)沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵Ni,其中,n为句法信息特征矩阵的行数,S为切分参数,d为句法信息特征矩阵的列数,i为第i个小矩阵,n/2S为每个小矩阵Ni中包含的字的个数;
S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵NiW;
S233、对每个线性变换量数据矩阵NiW做全局mean-pool处理,得到2S个句法信息特征向量;
全局mean-pool过程为:每列求和NiW/V,其中,V是一个0-1值n维特征向量,考虑到输入的文本序列不是相同长度的,而编码的向量是n维的,V就代表了对应位置是否存在真实文本的特征,存在为1,不存在为0。经mean-pool处理后输出结果是一个向量。
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵;
在步骤S235中mean-pool的窗口参数为(2,p),步长为1。
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
F=relu(WA+b)
其中,relu(·)为激活函数,W权重矩阵,A为第二句法信息特征向量矩阵,b为偏置。
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
步骤S237中句法特征概率分布P(Z|X)的计算公式为:
其中,F=(f1,...,fk,...,fK),全连接层输出向量F为K维向量,K为句法特征类型个数,fk为全连接层输出向量F的第k个元素,Z为句法信息特征。
步骤S24中新型CRF模型的目标优化函数为:
Claims (7)
1.一种自动识别财税文件中征税对象的抽取方法,其特征在于,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
2.根据权利要求1所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。
3.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
5.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S23包括以下分步骤:
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵,P为第二句法信息特征向量矩阵的列数;
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110121720.3A CN112733526B (zh) | 2021-01-28 | 2021-01-28 | 一种自动识别财税文件中征税对象的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110121720.3A CN112733526B (zh) | 2021-01-28 | 2021-01-28 | 一种自动识别财税文件中征税对象的抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733526A true CN112733526A (zh) | 2021-04-30 |
CN112733526B CN112733526B (zh) | 2023-11-17 |
Family
ID=75594486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110121720.3A Active CN112733526B (zh) | 2021-01-28 | 2021-01-28 | 一种自动识别财税文件中征税对象的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733526B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988982A (zh) * | 2021-05-17 | 2021-06-18 | 江苏联著实业股份有限公司 | 一种计算机比较空间的自主学习方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN111310471A (zh) * | 2020-01-19 | 2020-06-19 | 陕西师范大学 | 一种基于bblc模型的旅游命名实体识别方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
-
2021
- 2021-01-28 CN CN202110121720.3A patent/CN112733526B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN111310471A (zh) * | 2020-01-19 | 2020-06-19 | 陕西师范大学 | 一种基于bblc模型的旅游命名实体识别方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
张娜娜 王裴岩 * 张桂平: "面向工艺操作说明文本的命名实体深度学习识别方法", 《计算机应用与软件》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988982A (zh) * | 2021-05-17 | 2021-06-18 | 江苏联著实业股份有限公司 | 一种计算机比较空间的自主学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112733526B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635109B (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN111310471B (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
CN106484674B (zh) | 一种基于深度学习的中文电子病历概念抽取方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN112115721B (zh) | 一种命名实体识别方法及装置 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN114139497B (zh) | 一种基于bertsum模型的文本摘要提取方法 | |
CN114154504B (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN115687626A (zh) | 一种基于提示学习融合关键词的法律文书分类方法 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115034208A (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
CN114153973A (zh) | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN114218921A (zh) | 一种优化bert的问题语义匹配方法 | |
CN112733526A (zh) | 一种自动识别财税文件中征税对象的抽取方法 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN116720498A (zh) | 一种文本相似度检测模型的训练方法、装置及其相关介质 | |
Dhiaf et al. | DocNER: A deep learning system for named entity recognition in handwritten document images | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
Granell et al. | Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |