CN112733526A - 一种自动识别财税文件中征税对象的抽取方法 - Google Patents

一种自动识别财税文件中征税对象的抽取方法 Download PDF

Info

Publication number
CN112733526A
CN112733526A CN202110121720.3A CN202110121720A CN112733526A CN 112733526 A CN112733526 A CN 112733526A CN 202110121720 A CN202110121720 A CN 202110121720A CN 112733526 A CN112733526 A CN 112733526A
Authority
CN
China
Prior art keywords
taxation
syntactic
matrix
characteristic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110121720.3A
Other languages
English (en)
Other versions
CN112733526B (zh
Inventor
胥博
尹川
胡艳
汤朝强
陈婷婷
胡丽梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Buwen Technology Co ltd
Original Assignee
Chengdu Buwen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Buwen Technology Co ltd filed Critical Chengdu Buwen Technology Co ltd
Priority to CN202110121720.3A priority Critical patent/CN112733526B/zh
Publication of CN112733526A publication Critical patent/CN112733526A/zh
Application granted granted Critical
Publication of CN112733526B publication Critical patent/CN112733526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:S1、构建征税对象抽取模型;S2、将涉税语料数据文本序列输入征税对象抽取模型中,结合语义信息特征概率分布和句法特征概率分布,得到预测的征税对象;本发明解决了现有技术在税法领域对征税对象识别准确率低的问题。

Description

一种自动识别财税文件中征税对象的抽取方法
技术领域
本发明涉及文本处理技术领域,具体涉及一种自动识别财税文件中征税对象的抽取方法。
背景技术
实体在文本中的引用有三种形式:命名性指称,名词性指称和代词性指称。一般的是抽取时间、机构名、人名、地名等,不同领域内可以定义领域内的实体类型。税法中的征税对象其实就一种领域内的实体。在涉税文件中征税对象可以是一个词,但更多的情形是一个连续词组。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。实体关系是指两个实体之间的关系。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
中文Bert模型就是一种基于深度学习方法的语言模型。Bert全称是Bidirectional Encoder Representation from Transformers。对大规模文本中的字按照一定比例随机被标记符号[MASK]替换后,另一方面训练的输入是句子A和B,经过对文本数据顺序处理后,B有一半的几率是A的下一句。通过这些数据让Bert训练并预测[MASK]位置的真实字和判断B是否是原始文本中A的下一句。通过这个方法,可以训练到一个字向量。这些字向量是从大规模文本中学到的,因此包含了从大规模文件中学习到的语义信息,通过这样一种无监督的学习方法就可以字,词,句的语言信息表达为向量。在自然语言处理任务中,应用bert编码每个字或句子的向量特征作为下游任务的输入取得了一系列惊艳的结果。
征税对象抽取和命名实体任务相同都属于序列标注任务,在常见的命名实体任务中常用的方案是bilstm-crf,输入序列经过bilstm(双向长短时记忆网络)编码后,将编码信息输入到crf层(条件随机场)做序列标注;另一种方案是文本序列经过bert编码输出每个位置上字的向量表达特征,将向量作为bilstm-crf网络的输入,最后得到预测结果。虽然这两种方法在通用领域的命名实体任务取得不错的效果,但是在税法领域内,存在一些问题:不同于常见的命名实体,征税对象实体不是一个词,更多是由几个词,甚至几个词组构成的,因此在较长的征税对象任务中出现序列标注错误的现象。要提高模型识别准确率,必须要将其他维度的信息考虑进模型中。
发明内容
针对现有技术中的上述不足,本发明提供的一种自动识别财税文件中征税对象的抽取方法解决了现有技术在税法领域对征税对象识别准确率低的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
进一步地:步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。
进一步地:步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布
Figure BDA0002922269770000031
其中,
Figure BDA0002922269770000032
为语义信息特征,X为涉税语料数据文本序列,P(·)为概率密度函数;
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
S24、将语义信息特征概率分布
Figure BDA0002922269770000033
和句法特征概率分布P(Z|X)输入新型CRF模型中,通过机器迭代求得新型CRF模型最优解,得到预测的征税对象。
进一步地:步骤S23包括以下分步骤:
S231、将句法信息特征沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵Ni,其中,n为句法信息特征矩阵的行数,S为切分参数,d为句法信息特征矩阵的列数,i为第i个小矩阵;
S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵NiW;
S233、对每个线性变换量数据矩阵NiW做全局mean-pool处理,得到2S个句法信息特征向量;
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵;
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
上述进一步方案的有益效果为:文本中词与词之间依存关系信息,句子结构信息是由一些一系列连续词组构成的,词组长度可能超过分割的范围,通过对相邻的两个句法信息特征向量进行mean-pool处理,可以将一个减小因分割错误导致的误差。
进一步地:步骤S22中语义信息特征概率分布
Figure BDA0002922269770000041
的计算公式为:
Figure BDA0002922269770000042
其中,Zi为句法信息特征样本空间中的一个值,i为句法信息特征样本空间中第i个句法信息特征样本。
上述进一步方案的有益效果为:根据语义信息特征概率分布
Figure BDA0002922269770000043
的公式可知,12层的bert模型的第11层输出的向量信息
Figure BDA0002922269770000044
在输入序列X的条件下的条件概率等价于该条件下
Figure BDA0002922269770000045
和每个句法特征Zi的联合概率之和。这个求和过程其实是将句法信息特征覆盖了。说明了11层输出信息中不带有明显的句法特征信息。正是因为这个原因,需要单独提取出句法特征以及改变CRF融合两种特征信息。
进一步地:步骤S237中句法特征概率分布P(Z|X)的计算公式为:
Figure BDA0002922269770000046
其中,F=(f1,...,fk,...,fK),全连接层输出向量F为K维向量,K为句法特征类型个数,fk为全连接层输出向量F的第k个元素,Z为句法信息特征。
进一步地:步骤S24中新型CRF模型的目标优化函数为:
Figure BDA0002922269770000047
其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Zi|X)为句法特征概率分布中第i个向量,
Figure BDA0002922269770000048
为索引为i的句法信息特征zi条件下的初始概率分布,
Figure BDA0002922269770000051
为索引为i的句法信息特征zi条件下的状态转移矩阵;
Figure BDA0002922269770000052
为新型CRF模型第一特征函数,
Figure BDA0002922269770000053
为新型CRF模型第二特征函数,第一特征函数与第二特征函数线性无关,均为单限幅函数;X为涉税语料数据文本序列,
Figure BDA0002922269770000054
为征税对象文本序列中的第
Figure BDA0002922269770000055
个元素,l为初始状态类型的参数,h为转移矩阵中转移类型。
综上,本发明的有益效果为:
1、考虑到税法相关法律法规文件,行文风格统一,因此将句法结构特征和文本语义信息结合在一起进行抽取征税对象。
2、不同于以前的模型知识利用bert顶层表征特点,本方法利用了中间层的信息,抽取文本序列和句法特征信息。
3、不同于以前的CRF方法,改进的CRF可以融合句法特征信息。
附图说明
图1为一种自动识别财税文件中征税对象的抽取方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
征税对象又叫课税对象、征税客体,是指税法规定的对什么征税,是征纳税双方权利义务共同指向的客体或标的物,是区别一种税与另一种税的重要标志。在税法场景中,用户根据自己经济活动来确定征税方案,计算机需要将用户输入的经济活动将税法文件中的某个定义征税对象联系起来,这样才能给出准确的信息。随着财税系统越来越智能化,利用计算机技术提取税收法规政策中的征税对象可以辅助财税相关从业者,政府工作人员等做税收法规政策解读。
如图1所示,一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布
Figure BDA0002922269770000061
其中,
Figure BDA0002922269770000062
为语义信息特征,X为涉税语料数据文本序列,P(·)为概率密度函数;
步骤S22中语义信息特征概率分布
Figure BDA0002922269770000063
的计算公式为:
Figure BDA0002922269770000064
其中,Zi为句法信息特征样本空间中的一个值,i为句法信息特征样本空间中第i个句法信息特征样本。
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
步骤S23包括以下分步骤:
S231、将句法信息特征(句法信息特征本身即是矩阵)沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵Ni,其中,n为句法信息特征矩阵的行数,S为切分参数,d为句法信息特征矩阵的列数,i为第i个小矩阵,n/2S为每个小矩阵Ni中包含的字的个数;
S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵NiW;
S233、对每个线性变换量数据矩阵NiW做全局mean-pool处理,得到2S个句法信息特征向量;
全局mean-pool过程为:每列求和NiW/V,其中,V是一个0-1值n维特征向量,考虑到输入的文本序列不是相同长度的,而编码的向量是n维的,V就代表了对应位置是否存在真实文本的特征,存在为1,不存在为0。经mean-pool处理后输出结果是一个向量。
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵;
在步骤S235中mean-pool的窗口参数为(2,p),步长为1。
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
F=relu(WA+b)
其中,relu(·)为激活函数,W权重矩阵,A为第二句法信息特征向量矩阵,b为偏置。
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
步骤S237中句法特征概率分布P(Z|X)的计算公式为:
Figure BDA0002922269770000071
其中,F=(f1,...,fk,...,fK),全连接层输出向量F为K维向量,K为句法特征类型个数,fk为全连接层输出向量F的第k个元素,Z为句法信息特征。
S24、将语义信息特征概率分布
Figure BDA0002922269770000081
和句法特征概率分布P(Z|X)输入新型CRF模型中,通过机器迭代求得新型CRF模型最优解,得到预测的征税对象。
步骤S24中新型CRF模型的目标优化函数为:
Figure BDA0002922269770000082
其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Zi|X)为句法特征概率分布中第i个向量,
Figure BDA0002922269770000083
为索引为i的句法信息特征zi条件下的初始概率分布,
Figure BDA0002922269770000084
为索引为i的句法信息特征zi条件下的状态转移矩阵;
Figure BDA0002922269770000085
为新型CRF模型第一特征函数,
Figure BDA0002922269770000086
为新型CRF模型第二特征函数,第一特征函数与第二特征函数线性无关,均为单限幅函数;X为涉税语料数据文本序列,
Figure BDA0002922269770000087
为征税对象文本序列中的第
Figure BDA0002922269770000088
个元素,l为初始状态类型的参数,h为转移矩阵中转移类型。

Claims (7)

1.一种自动识别财税文件中征税对象的抽取方法,其特征在于,包括以下步骤:
S1、构建征税对象抽取模型;
S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。
2.根据权利要求1所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。
3.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S2包括以下分步骤:
S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;
S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布
Figure FDA0002922269760000011
其中,
Figure FDA0002922269760000012
为语义信息特征,X为涉税语料数据文本序列,P(·)为概率密度函数;
S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;
S24、将语义信息特征概率分布
Figure FDA0002922269760000013
和句法特征概率分布P(Z|X)输入新型CRF模型中,通过机器迭代求得新型CRF模型最优解,得到预测的征税对象。
4.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S22中语义信息特征概率分布
Figure FDA0002922269760000014
的计算公式为:
Figure FDA0002922269760000015
其中,Zi为句法信息特征样本空间中的一个值,i为句法信息特征样本空间中第i个句法信息特征样本。
5.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S23包括以下分步骤:
S231、将句法信息特征沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵
Figure FDA0002922269760000021
其中,n为句法信息特征矩阵的行数,S为切分参数,d为句法信息特征矩阵的列数,
Figure FDA0002922269760000022
为第
Figure FDA0002922269760000023
个小矩阵;
S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵
Figure FDA0002922269760000024
p为参数矩阵W的列数;
S233、对每个线性变换量数据矩阵
Figure FDA0002922269760000025
做全局mean-pool处理,得到2S个句法信息特征向量;
S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;
S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵,P为第二句法信息特征向量矩阵的列数;
S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;
S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。
6.根据权利要求3所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S237中句法特征概率分布P(Z|X)的计算公式为:
Figure FDA0002922269760000026
其中,F=(f1,…,fk,…,fK),全连接层输出向量F为K维向量,K为句法特征类型个数,fk为全连接层输出向量F的第k个元素,Z为句法信息特征。
7.根据权利要求2所述的自动识别财税文件中征税对象的抽取方法,其特征在于,所述步骤S24中新型CRF模型的目标优化函数为:
Figure FDA0002922269760000031
其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Zi|X)为句法特征概率分布中第i个向量,
Figure FDA0002922269760000032
为索引为i的句法信息特征zi条件下的初始概率分布,
Figure FDA0002922269760000033
为索引为i的句法信息特征zi条件下的状态转移矩阵;
Figure FDA0002922269760000034
为新型CRF模型第一特征函数,
Figure FDA0002922269760000035
为新型CRF模型第二特征函数,第一特征函数与第二特征函数线性无关,均为单限幅函数;X为涉税语料数据文本序列,
Figure FDA0002922269760000036
为征税对象文本序列中的第
Figure FDA0002922269760000037
个元素,l为初始状态类型的参数,h为转移矩阵中转移类型。
CN202110121720.3A 2021-01-28 2021-01-28 一种自动识别财税文件中征税对象的抽取方法 Active CN112733526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121720.3A CN112733526B (zh) 2021-01-28 2021-01-28 一种自动识别财税文件中征税对象的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121720.3A CN112733526B (zh) 2021-01-28 2021-01-28 一种自动识别财税文件中征税对象的抽取方法

Publications (2)

Publication Number Publication Date
CN112733526A true CN112733526A (zh) 2021-04-30
CN112733526B CN112733526B (zh) 2023-11-17

Family

ID=75594486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121720.3A Active CN112733526B (zh) 2021-01-28 2021-01-28 一种自动识别财税文件中征税对象的抽取方法

Country Status (1)

Country Link
CN (1) CN112733526B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988982A (zh) * 2021-05-17 2021-06-18 江苏联著实业股份有限公司 一种计算机比较空间的自主学习方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN111310471A (zh) * 2020-01-19 2020-06-19 陕西师范大学 一种基于bblc模型的旅游命名实体识别方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN111310471A (zh) * 2020-01-19 2020-06-19 陕西师范大学 一种基于bblc模型的旅游命名实体识别方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张娜娜 王裴岩 * 张桂平: "面向工艺操作说明文本的命名实体深度学习识别方法", 《计算机应用与软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988982A (zh) * 2021-05-17 2021-06-18 江苏联著实业股份有限公司 一种计算机比较空间的自主学习方法及系统

Also Published As

Publication number Publication date
CN112733526B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN109635109B (zh) 基于lstm并结合词性及多注意力机制的句子分类方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN112115721B (zh) 一种命名实体识别方法及装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN115687626A (zh) 一种基于提示学习融合关键词的法律文书分类方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN114254645A (zh) 一种人工智能辅助写作系统
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN112733526A (zh) 一种自动识别财税文件中征税对象的抽取方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
Dhiaf et al. DocNER: A deep learning system for named entity recognition in handwritten document images
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
Granell et al. Study of the influence of lexicon and language restrictions on computer assisted transcription of historical manuscripts
CN114218921A (zh) 一种优化bert的问题语义匹配方法
CN117113977B (zh) 一种识别试卷中包含ai生成文字的方法、介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant