CN112131351B - 一种基于多答案损失函数的片段信息抽取模型训练方法 - Google Patents

一种基于多答案损失函数的片段信息抽取模型训练方法 Download PDF

Info

Publication number
CN112131351B
CN112131351B CN202011080324.2A CN202011080324A CN112131351B CN 112131351 B CN112131351 B CN 112131351B CN 202011080324 A CN202011080324 A CN 202011080324A CN 112131351 B CN112131351 B CN 112131351B
Authority
CN
China
Prior art keywords
answers
segment
model
answer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011080324.2A
Other languages
English (en)
Other versions
CN112131351A (zh
Inventor
叶琪
雷丽琪
阮彤
杜渂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN202011080324.2A priority Critical patent/CN112131351B/zh
Publication of CN112131351A publication Critical patent/CN112131351A/zh
Application granted granted Critical
Publication of CN112131351B publication Critical patent/CN112131351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多答案损失函数的片段信息抽取模型训练方法。包括:标注片段式信息,对文本中的作案手段和事发原因等片段式信息采取多准则标注,得到多个答案;对案由文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;将训练集中预处理后的样本数据输入本文提出的模型中,得到所述输出的训练集中各文本对应的答案,其中,包括答案的开始和结束位置、以及位于所述开始和结束位置的概率。本发明能有效的避免标注者标注原则不统一的问题。

Description

一种基于多答案损失函数的片段信息抽取模型训练方法
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于多答案损失函数的片段信息抽取模型训练方法。
背景技术
公安领域存在大量的非结构化文本数据,这些非结构化数据的囤积使得人工查询和整理十分困难,导致二次复用数据受阻。随着信息抽取在自然语言处理领域的飞速发展,在医疗、金融等领域取得丰硕成果,能够有效的对公安警情数据进行结构化。利用海量历史数据构建信息抽取模型不仅能实现结构化存储、而且能从源头处理接警信息,直接将结构化信息存入数据库,以便后续的查询与使用。
信息抽取任务中,实体识别、关系抽取等子任务都是在实体存在清晰边界的前提条件下实施。在公安警情文本中,抽取案件相关的任务、地址、作案手段、事发原因等信息尤为重要。其中,作案手段以及事发原因的信息描述为短语或短句的形式呈现,这种片段式信息的边界往往是模糊的。直接采用实体识别模型来抽取会出现大量边界错误的情况。其原因在于,在标注片段式信息时存在多种标注的准则:1)最大语义单元,最短片段标注准则;2)最大语义单元,较长片段标注准则。不同标注者在标注数据时,很难统一标注准则。即使是同一标注者,标注全程遵循的准则也不全然一致。
目前,信息抽取模型的训练方法通常是监督学习任务,其基本思想是使得根据训练数据的输入得到的输出与标答尽可能一致。以往在训练监督模型时,只提供一个标答片段,那么训练样本中存在的不同标注准则会使得模型寻找最优点带来干扰。其次,在后续模型评价阶段,针对不同的标注准则得到的标答片段中,模型只需要预测出一个,即判定该样本预测正确。这样,会存在训练阶段与测试阶段所使用评价指标不一致的问题。
本发明提出的基于多答案损失函数的片段信息抽取模型不仅在评价指标的计算中考虑多个候选片段,在训练时也将多个标注准则得到的多个片段作为标答。其基本实现是在loss中引入多个片段作为标答,针对每个标答,分别与模型输出概率求loss,将最小的loss值作为当前样本的loss进一步梯度下降求解。
发明内容
本发明提供了一种基于多答案损失函数的片段信息抽取模型,解决现有模型仅考虑单一标答、以及模型训练与模型评价阶段评价指标不一致的问题。本发明以公安领域中警情文本片段信息抽取为例,亦可用于其他领域的片段抽取问题。技术方案如下:
标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案,所述片段式信息是指标注边界模糊的短语或短句;
对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;
将训练集中预处理后的样本数据输入到基于多答案损失函数的片段信息抽取模型中训练,得到训练集中多个文本对应的答案,其中,所述文本对应的答案包括答案的开始位置、结束位置以及位于开始位置和结束位置的概率。
其中步骤一,片段式信息标注包括:
首先对文本中的作案手段和事发原因等片段式信息采取多准则标注,具体而言,对一个片段式信息分别从“最大语义最短片段”和“最大语义较长片段”的角度标注多个边界,得到多个标答片段。其中,所述最大语义最短片段为能够表达出所需抽取信息的完整语义的最短跨度文本,最大语义最短片段为句子中的一个短语片段;所述最大语义较长片段是以最大语义最短片段为基础增加了相关的补充信息,标注边界由标点符号决定,可以是短语片段也可以是一个完整的句子。将文本中的所有可能的片段均标注出来,能有效的避免标注者标注原则不统一的问题。
进一步,对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集的步骤具体为:
利用BERT模型的分词器对警情文本进行分词,根据BERT预设的中文词典,对分词后的序列进行编码映射;然后设置最大序列长度,将超过最大序列长度的序列截断,并对低于最大序列长度的序列用‘<PAD>’补齐;将多个答案片段预处理成多个答案的开始和结束位置;最后,将数据集按照8:1:1随机分成训练集、验证集和测试集。
进一步,所述基于多答案损失函数的片段信息抽取模型训练的过程包括:
搭建多答案损失函数的片段信息抽取模型,首先构造BERT的基础结构以及预训练参数,包括四个输入层:词嵌入、段嵌入、位置嵌入、MASK嵌入;其后紧接着12个Transformer的encoding层,Transformer的encoding层用来对文本序列进行特征提取;最后由两个dense层组成,将提取后的特征向量降至1维,并分别进行压缩后利用softmax激活函数归一化,输出片段信息的起始位置和结束位置的概率;
利用多答案损失函数来对所述多答案损失函数的片段信息抽取模型进行训练;
利用基于片段信息抽取模型的评价函数进行评价。
进一步,通过最小化下述损失函数对模型进行优化,多答案损失函数定义为:
loss=lossstart+lossend
损失函数由起始位置的loss和结束位置的loss共同决定。每个样本X=(x1,x2,…,xj,…xn)存在m个标答P=(p,p2,…,pi,…pm),分别对pi与模型的输出概率q求交叉熵损失函数cross_entropy(pi,q),取最小的cross_entropy值作为最终的lossstart或lossend。其中,分别为第i个标答片段的起始位置和结束位置,/>qend分别为该样本模型起始位置输出层和结束位置输出层的概率,pi(xj)为第i个标答中第j个字符对应的标签取值,q(xj)为模型输出层中第j个字符对应的概率。
对模型训练时采用准确率来评价模型性能,由起始位置和结束位置的准确率平均得到。模型只要预测出多个标答片段中的一个,则可认为该样本预测正确。
基于片段信息抽取模型的评价函数计算公式如下所示:其中,scorek为第k个样本(k∈[1,N])的得分,若存在一个标答与模型输出最大概率的位置一致,则得分为1,否则得分为0。对N个样本的得分求平均分别得到accstart和accend,表示起始位置的准确率和结束位置的准确率。
在训练时,用新数据集中的验证集来调整超参数。在测试时,挑选在验证集上效果最好的超参来评估模型在新测试集以及总数据测试集上的效果。
由以上技术方案可知,本发明申请提供了一种基于多答案损失函数的片段信息抽取模型训练方法。其中,该方法包括:从数据库中收集原始文本,对其中的片段式信息标注多个答案;对文本和答案标签进行预处理,并按照8:1:1随机切分训练集、验证集和测试集;将训练集中的样本数据输入到模型中,得到模型输出的训练集中片段式信息的起始位置;定义多答案损失函数,以最小化损失函数为目标优化上述模型参数;定义多答案的评价指标,根据上述损失函数和评价指标,计算模型在验证集上的性能从而挑选合适的超参。由此,本申请实施例提供的技术方案,能有效的避免标注者标注原则不统一的问题。
附图说明
图1为本申请提供的一种基于多答案损失函数的片段信息抽取模型训练方法的流程示意图;
图2为本申请提供的一种基于多答案损失函数的片段信息抽取模型的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明实施方案作进一步详细描述。
请参见图1,图1是本发明实施例提供的流程示意图。第一个实施例包括:
步骤一,标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案,所述片段式信息是指标注边界模糊的短语或短句;
步骤二,对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;
步骤三,将训练集中预处理后的样本数据输入到基于多答案损失函数的片段信息抽取模型中训练,得到训练集中多个文本对应的答案,其中,所述文本对应的答案包括答案的开始位置、结束位置以及位于开始位置和结束位置的概率。
具体而言,从数据库中收集原始文本,对其中的片段式信息标注多个答案;对文本和答案标签进行预处理,并按照8:1:1随机切分训练集、验证集和测试集;将训练集中的样本数据输入到模型中,得到模型输出的训练集中片段式信息的起始位置;定义多答案损失函数,以最小化损失函数为目标优化上述模型参数;定义多答案的评价指标,根据上述损失函数和评价指标,计算模型在验证集上的性能从而挑选合适的超参。
其中,步骤一,片段式信息标注过程包括:
首先对文本中的作案手段和事发原因等片段式信息采取多准则标注,具体而言,对一个片段式信息分别从“最大语义最短片段”和“最大语义较长片段”的角度标注多个边界,得到多个标答片段;其中,所述最大语义最短片段为能够表达出所需抽取信息的完整语义的最短跨度文本,最大语义最短片段为句子中的一个短语片段;所述最大语义较长片段是以最大语义最短片段为基础增加了相关的补充信息,标注边界由标点符号决定,是短语片段或者一个完整的句子。
例如,对下述句子标注诈骗手段:
“张**于**月**日将货物运到*****地停车场内,以货物超重为由,向刘**强行索要各种费用共计***元,否则货物不给转走。”
所需抽取字段(诈骗手段)的完整语义为:以货物超重为由强行索要。那么,“最大语义最短片段”原则标注“以货物超重为由,向刘**强行索要”;“最大语义较长片段”原则标注“以货物超重为由,向刘**强行索要各种费用共计***元”。
将文本中的所有可能的片段均标注出来,能有效的避免标注者标注原则不统一的问题。
其中,步骤二,数据预处理包括:利用BERT模型的分词器对文本进行分词,根据BERT预设的中文词典,对分词后的序列进行编码映射;设置最大序列长度,将超过最大序列长度的序列截断,并对低于最大序列长度的序列用‘<PAD>’补齐;将多个答案片段预处理为多个答案的开始和结束位置;构造训练集、验证集和测试集,需将标注数据集按照8:1:1随机分成训练集、验证集和测试集。
根据BERT模型的输入,需要对每个文本构造四个输入,包括token的id序列、segment的id序列、position的id序列和MASK序列。对于token的id序列,利用BERT模型的分词器对文本进行分词,根据BERT预设的中文词典,对分词后的序列进行编码映射。然后设置最大序列长度为300,将超过300的序列截断,并对长度低于300的序列用“0”补齐。对于segment的id序列,由于此处只有一个文本输入,因此构造全“0”序列即可。对于position的id序列,根据分词后序列构造每个token对应的绝对位置id。对于MASK序列,将文本token序列长度用“1”填充,不足300补“0”的部分用“0”填充,标志出原始文本的序列跨度。
构造输出标答,将多个答案片段预处理成多个答案的开始和结束位置。具体而言,每个样本对应start位置和end位置两个输出向量,每个输出向量均为multi-hot向量形式,即向量长度为最大序列长度300,片段信息的起始位置(或结束位置)处置为“1”,其余均置为“0”。
最后切分数据集,将数据集按照8:1:1的比例随机分成训练集、验证集和测试集。其中,训练集用于训练模型参数,验证集用于超参调优,测试集用于评价模型的泛化性能。
其中,步骤三中基于多答案损失函数的片段信息抽取模型训练的过程包括:
搭建多答案损失函数的片段信息抽取模型,首先模型采用BERT的基础结构以及预训练参数,包括四个输入层:token序列、segment序列、position序列和MASK序列,其后利用BERT模型与训练好的embedding矩阵对输入进行映射,紧接着利用BERT里的12个Transformer的encoder部分用来对文本序列进行特征提取,最后输出层由两个dense层将提取后的特征向量降至1维,并分别进行压缩后利用softmax激活函数归一化,输出片段信息的起始位置和结束位置的概率;
接着,利用多答案损失函数来对所述多答案损失函数的片段信息抽取模型进行训练;
最后,利用基于片段信息抽取模型的评价函数进行评价。
本发明提出的基于多答案损失函数的片段信息抽取模型的结构示意图如图2所示。
进一步,通过最小化损失函数对模型进行优化。其中,多答案损失函数为:
loss=lossstart+lossend
其中,损失函数loss由起始位置的loss和结束位置的loss共同决定。每个样本X=(x1,x2,…,xj,…xn)存在m个标答P=(p,p2,…,pi,…pm),分别对pi与模型的输出概率q求交叉熵损失函数cross_entropy(pi,q),取最小的cross_entropy值作为最终的lossstart或lossend。其中,分别为第i个标答片段的起始位置和结束位置,/>qend分别为该样本模型起始位置输出层和结束位置输出层的概率,pi(xj)为第i个标答中第j个字符对应的标签取值,q(xj)为模型输出层中第j个字符对应的概率。
整体模型的损失函数采用交叉熵,表示真实概率分布与预测概率分布之间的差异。
进一步,对模型训练时采用准确率来评价模型性能,由起始位置和结束位置的准确率平均得到。模型只要预测出多个标答片段中的一个,则可认为该样本预测正确。基于片段信息抽取模型的评价函数的计算公式如下所示:
其中,scorek为第k个样本(k∈[1,N])的得分,若存在一个标答与模型输出最大概率的位置一致,则得分为1,否则得分为0。对N个样本的得分求平均分别得到accstart和accend,表示起始位置的准确率和结束位置的准确率。

Claims (3)

1.一种基于多答案损失函数的片段信息抽取模型训练方法,其特征在于,包括:
标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案,所述片段式信息是指标注边界模糊的短语或短句;
对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;
将训练集中预处理后的样本数据输入到基于多答案损失函数的片段信息抽取模型中训练,得到训练集中多个文本对应的答案,其中,所述文本对应的答案包括答案的开始位置、结束位置以及位于开始位置和结束位置的概率;
所述基于多答案损失函数的片段信息抽取模型训练的过程包括:
搭建多答案损失函数的片段信息抽取模型,首先构造BERT的基础结构以及预训练参数,包括四个输入层:词嵌入、段嵌入、位置嵌入、MASK嵌入;其后紧接着12个Transformer的encoding层,Transformer的encoding层用来对文本序列进行特征提取;最后由两个dense层组成,将提取后的特征向量降至1维,并分别进行压缩后利用softmax激活函数归一化,输出片段信息的起始位置和结束位置的概率;
利用多答案损失函数来对所述多答案损失函数的片段信息抽取模型进行训练;
利用基于片段信息抽取模型的评价函数进行评价;
所述多答案损失函数包括:
loss=lossstart+lossend
其中,损失函数loss起始位置的loss和结束位置的loss共同决定,每个样本X=(x1,x2,…,xj,…xn)存在m个标答P=(p,p2,…,pi,…pm),分别对pi与模型的输出概率q求交叉熵损失函数cross_entropy(pi,q),取最小的cross_entropy值作为最终的lossstart或lossend,其中, 分别为第i个标答片段的起始位置和结束位置,/>qend分别为模型起始位置输出层和结束位置输出层的概率,pi(xj)为第i个标答中第j个字符对应的标签取值,q(xj)为模型输出层中第j个字符对应的概率;
所述基于片段信息抽取模型的评价函数,包括:
其中,scorek为第k个样本(k∈[1,N])的得分,若存在一个标答与模型输出最大概率的位置一致,则得分为1,否则得分为0,accstart和accend表示起始位置的准确率和结束位置的准确率,accstart和accend是对N个样本的得分取平均值。
2.根据权利要求1所述的方法,其特征在于,所述标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案的过程包括:
对片段式信息分别按最大语义最短片段和最大语义较长片段两个角度标注多个边界,得到多个标注答案片段;其中,所述最大语义最短片段为能够表达出所需抽取信息的完整语义的最短跨度文本,最大语义最短片段为句子中的一个短语片段;所述最大语义较长片段是以最大语义最短片段为基础增加了相关的补充信息,标注边界由标点符号决定,是短语片段或者一个完整的句子。
3.根据权利要求1所述的方法,其特征在于,对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集,包括:
利用BERT模型的分词器对文本进行分词,根据BERT预设的中文词典,对分词后的序列进行编码映射;
设置最大序列长度,将超过最大序列长度的序列截断,并对低于最大序列长度的序列用‘<PAD>’补齐;
将多个答案片段预处理为多个答案的开始和结束位置;
构造训练集、验证集和测试集,需将标注数据集按照8:1:1随机分成训练集、验证集和测试集。
CN202011080324.2A 2020-10-10 2020-10-10 一种基于多答案损失函数的片段信息抽取模型训练方法 Active CN112131351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011080324.2A CN112131351B (zh) 2020-10-10 2020-10-10 一种基于多答案损失函数的片段信息抽取模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011080324.2A CN112131351B (zh) 2020-10-10 2020-10-10 一种基于多答案损失函数的片段信息抽取模型训练方法

Publications (2)

Publication Number Publication Date
CN112131351A CN112131351A (zh) 2020-12-25
CN112131351B true CN112131351B (zh) 2024-03-15

Family

ID=73844278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011080324.2A Active CN112131351B (zh) 2020-10-10 2020-10-10 一种基于多答案损失函数的片段信息抽取模型训练方法

Country Status (1)

Country Link
CN (1) CN112131351B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408279B (zh) * 2021-06-23 2022-05-20 平安科技(深圳)有限公司 序列标注模型的训练方法、装置、设备及存储介质
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质
CN113821600B (zh) * 2021-09-26 2023-12-19 欧冶云商股份有限公司 基于语义理解的加工委托信息提取方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8640088B2 (en) * 2010-01-21 2014-01-28 International Business Machines Corporation Software reuse utilizing naive group annotation of incomplete software descriptions employing a self-reporting element

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏立新 ; 郭嘉丰 ; 范意兴 ; 兰艳艳 ; 程学旗 ; .基于标签增强的机器阅读理解模型.模式识别与人工智能.2020,(02),全文. *

Also Published As

Publication number Publication date
CN112131351A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
US11568143B2 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN112131351B (zh) 一种基于多答案损失函数的片段信息抽取模型训练方法
CN112115721B (zh) 一种命名实体识别方法及装置
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN113901797B (zh) 文本纠错方法、装置、设备及存储介质
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN113779358B (zh) 一种事件检测方法和系统
CN108763368A (zh) 抽取新知识点的方法
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN112966117A (zh) 实体链接方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111581346A (zh) 一种事件抽取方法和装置
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN116775802A (zh) 基于人工智能的审计档案数据处理方法及装置
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN116644737A (zh) 基于自动化词库更新和前缀树结构的专有名词纠错方法
CN116069946A (zh) 一种基于深度学习的生物医学知识图谱构建方法
CN114970554A (zh) 一种基于自然语言处理的文档校验方法
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质
CN114595329A (zh) 一种原型网络的少样本事件抽取系统及方法
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN109635046B (zh) 一种基于CRFs的蛋白质分子名称分析与识别方法
CN114139610A (zh) 基于深度学习的中医药临床文献数据结构化方法及装置
CN110909547A (zh) 一种基于改进深度学习的司法实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant