CN114580423A - 一种基于Bert与Scat的页岩气领域命名实体识别方法 - Google Patents

一种基于Bert与Scat的页岩气领域命名实体识别方法 Download PDF

Info

Publication number
CN114580423A
CN114580423A CN202210322494.XA CN202210322494A CN114580423A CN 114580423 A CN114580423 A CN 114580423A CN 202210322494 A CN202210322494 A CN 202210322494A CN 114580423 A CN114580423 A CN 114580423A
Authority
CN
China
Prior art keywords
entity
shale gas
gas field
scat
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210322494.XA
Other languages
English (en)
Inventor
陈怡男
苏作新
朱西平
卢星宇
肖丽娟
高昂
郭露
李映璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202210322494.XA priority Critical patent/CN114580423A/zh
Publication of CN114580423A publication Critical patent/CN114580423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于Bert与Scat的页岩气领域命名实体识别方法,构建页岩气领域命名实体识别模型,所述方法包括步骤:获取预训练好的Bert模型;对页岩气领域的原始语料数据进行预处理,并构建预训练集;将构建的预训练集输入到Bert模型;将Bert语言模型的输出信息依次输入到双向LSTM神经网络以及Scat联合模块中,对双向LSTM神经网络及Scat联合模块进行多次迭代训练,在通过二分法来实现最佳实体预测;使用训练完成得到的完整页岩气领域命名实体识别模型,对页岩气领域文本进行命名实体识别。本发明解决了传统的神经网络方法无法区别页岩气领域多级实体边界的情况,并通过引入的二分法,实现实体预测的强纠正,在一定程度上提高了页岩气领域命名实体识别的效果。

Description

一种基于Bert与Scat的页岩气领域命名实体识别方法
技术领域
本发明涉及命名实体识别技术领域,尤其涉及一种基于Bert与Scat的页岩气领域命名实体识别方法。
背景技术
随着非常规油气勘探开发节奏加快,为进一步深化页岩气数据信息化处理,构建智能分析系统,需先对其底层数据进行分析处理,抽取相应实体对象。但传统页岩气数据分析中大多是对结构化数据进行研究,利用数据仓库工具进行挖掘。并未使用到先进的命名体识别技术(Named Entity Recognition,NER)。
而页岩气领域中的命名实体具有层次结构复杂性,如水平井压裂技术,水平井表示一种井的类型、然而水平井压裂技术表示一种技术,这种命名实体识别在命名实体任务中被细分为嵌套命名实体识别(Nested Named Entity Recognition,Nexted NER)。NextedNER指的是一个实体中嵌套着多个类型不一致的小实体,这些小实体所属类型可能和大实体类型不一样。
现有的Nexted NER比较主流的方法是Bert+Attention,其中所用到的Bert是一个预训练的语言表征模型,在命名实体识别中能够能够利用上下文信息来预测被掩码标记的字或词,同时通过内部的Transformer网络来实现上下文信息的编码;所用的Attention是一种传统的机器学习方法,在命名实体识别中能够聚焦字词之间的上下文关系。
上述基于Bert+Attention的方法需要自行从命名实体识别数据集中学习词嵌入表示,这里存在的缺陷包括了:Bert在捕获语义信息时无法无法捕获底层文本中更细粒度的语义信息;页岩气领域命名实体识别数据集本身规模不算大,能够从中捕获语义信息质量有限;传统Attention不能并行处理数据,这导致其不能一次性转换N个实体查询。此外,在在本领域中存在着这一特性——命名实体多以多个小实体存在,而基于Bert+Attention的方法中的Attention机制不能处理多个实体词汇组成的一个大实体情况。
发明内容
本发明的目的针对目前技术在Nexted NER中存在的不住,提供基于Bert与Scat的页岩气领域命名实体识别方法。本发明能够解决词无法捕获底层文本中更细粒度的语义信息和无法解决的一词包含多个不同类型词的问题,并且能够避免attention不能并行处理数据,而导致其不能一次性转换N个实体查询这一问题,同时通过二分法来实现预测实体与最佳实体集的匹配,从正面提高预测的准确率。
为实现所述发明目的,所提供的技术方案是Bert与Scat的页岩气领域命名实体识别方法,其特征在于,包括以下步骤:
S1:从谷歌官方网获取预训练的Bert中文语言模型;
S2:对页岩气领域的原始语料数据进行数据清洗和数据标注,构建页岩气领域命名实体识别的训练集;
S3:将得到的页岩气领域命名实体识别的训练集输入到预训练好的Bert语言模型;
S4:将Bert语言模型的输出的i层嵌入信息依次输入到双向LSTM神经网络;
S5:将双向LSTM神经网络的输出得最终序列输入到自关注和交叉关注机制的Scat联合模块进行序列解码,在通过二分法来实现最佳实体预测;
S6:使用训练完成得到的完整页岩气领域命名实体识别模型,对页岩气领域文本进行命名实体识别。
进一步地,预训练的Bert语言模型的获取方式是直接下载谷歌官方预训练好的中文Bert语言模型chinese_L-12_H-768_A-12。
进一步地,所述对页岩气领域命名实体识别的原始文本数据进行数据清洗和数据标注,构建页岩气领域命名实体识别的训练集的步骤中,包括步骤:
S1:对页岩气领域原始文本数据进行多余的符号、数据乱码和空白行等常规数据预处理;
S2:根据项目需求确定以下实体类型:井名(Well)、地名(Loc)、能源名(Ene)、工具名(Tool)、机构名(Org)、技术名(Tech);
S3:采用图3的实体标注方法对页岩气领域原始文本数据进行标注。
进一步地,所述将Bert语言模型的输出输出的i层嵌入信息依次输入到双向LSTM神经网络,包括步骤:
S1:经过Bert模型计算获得i层嵌入信息,然后和通过Glove预训练的训练向量、通过NLP平台获得Pos向量、字符向量char级联起来表示该序列的信息xi
S2:将xi输入前后向LSTM网络,构造前后向输出
Figure BDA0003570605760000021
S3:通过级联操作,获得最终序列信息Hi
进一步地,所述双向LSTM神经网络的输出得最终序列输入自关注和交叉关注机制的Scat联合模块进行多次迭代训练,在通过二分法层来实现最佳实体预测,包括步骤:
S1:Scat层转换N个实体查询Hi,与逐个预测实体的序列到序列方法不同,通过使用非自回归解码器,从而一次获得N个预测结果;
S2:Scat层的自关注机制,解码器能够捕获实体之间的依赖关系。Scat层的解码器还可以通过交叉注意机制有效地捕获来自双向LSTM层中张量的上下语义信息Hi
S3:Scat层采用MLP算法通过Scat特征转移矩阵计算出所有实体边界和实体类型概率的分数:
Pt=MLPt(u)
Figure BDA0003570605760000031
Pl=MLPl(Hfuse)
Pγ=MLPγ(Hfuse)
其中Pt、Pl和Pr分别表示类别、左边界和右边界的分类概率。
Figure BDA0003570605760000037
表示串联操作,MLP表示在最后一层具有softmax功能的多层感知器。其中u代表了输出嵌入向量
Figure BDA0003570605760000032
t表示实体类型,l表示左边界,r表示有边界,H表示LSTM层输出的语义向量;
S4:二分法层采用二分法来实现预测实体集和最佳实体集之间的最佳匹配:
Figure BDA0003570605760000033
Figure BDA0003570605760000034
其中y表示实体最佳集合,
Figure BDA0003570605760000035
表示N个预测的集合,
Figure BDA0003570605760000036
是最佳实体yi和具有指数β(i)的预测之间的配对匹配函数li是左边实体边界,ri是右边实体边界,ti是实体类型;
S5:采用二分法层的最佳预测函数与Scat层的MLP算法的输出的加权和来更新模型的参数。
进一步地,所述使用训练完成得到的完整命名实体识别模型,对页岩气领域文本进行命名实体识别的步骤中,包括步骤:
S1:将需要页岩气领域命名实体识别的语句输入到训练完成的完整页岩气领域命名实体识别模型;
S2:输入的序列在经过预训练好的Bert语言模型后依次通过双向LSTM神经网络输出最终序列Hi,然后Hi输入到自关注和交叉关注机制的Scat联合模块进行多次迭代训练,进而得到一组包含实体的左右边界和分类的概率张量;
S3:使用二分法类算法在Scat层的解码层完成最佳实体集与预测实体集之间的匹配,即得到了实体分类层的实体的左右边界的最佳概率和实体分类的最佳概率;
S4:将最大概率的得分向量所在的实体和实体类型取出来,作为命名实体识别的结果。
附图说明
图1是本发明实施例中基于Bert与Scat的页岩气领域命名实体识别模型;
图2是本发明中一种基于Bert与Scat的页岩气领域命名实体识别的流程图;
图3是本发明中页岩气实体识别方法的数据标注图。
具体实施方式
如图1所示为一种基于BERT与Scat的页岩气领域命名实体识别模型,如图2所示的页岩气领域命名实体识别流程图,如图3所示的页岩气领域数据样例标注图,所述模型包括Bert语言模型、双向LSTM、Scat层以及二分法,所述方法包括步骤:
S1、从谷歌官方网获取预训练的Bert中文语言模型;
直接下载谷歌官方预训练好的中文Bert语言模型chinese_L-12_H-768_A-12。
S2、页岩气领域命名实体识别的原始文本数据进行数据清洗和数据标注,构建页岩气领域命名实体识别的训练集包括步骤:
S21、对页岩气领域原始文本数据进行多余的符号、数据乱码和空白行等常规数据预处理;
S22、根据项目需求确定以下实体类型:井名(Well)、地名(Loc)、能源名(Ene)、工具名(Tool)、机构名(Org)、技术名(Tech);
S23、为了应对实体多以嵌套为主、难以区分实体边界的情况,采用多级标注实体方法如图3所示。
S24、结合步骤S22和S23的标注规则,对于未标注过的页岩气领域原始文本数据进行人工标注。
S3、将步骤S2预处理所得的页岩气领域命名实体识别的训练集数据输入到预训练好的Bert语言模型。
具体地,将得到的页岩气领域命名实体识别的训练集输入到预训练好的Bert语言模型,Bert语言模型输出为i层嵌入信息向量。
S4、将步骤S3中的Bert语言模型的输出,所述将Bert语言模型的输出输出的i层嵌入信息依次输入到双向LSTM神经网络,包括步骤:
S41、经过Bert模型计算获得i层嵌入信息,然后和通过Glove预训练的训练向量、通过NLP平台获得Pos向量、字符向量char级联起来表示该序列的信息xi
S42、将xi输入前后向LSTM网络,构造前后向输出
Figure BDA0003570605760000041
S43、通过级联操作,获得最终序列信息Hi
S5、将步骤S4中LSTM输出的最终序列信息Hi输入自关注和交叉关注机制的Scat联合模块进行多次迭代训练,在通过二分法层来实现最佳实体预测,包括步骤:
S51、Scat层转换N个实体查询Hi,与逐个预测实体的序列到序列方法不同,通过使用非自回归解码器,从而一次获得N个预测结果;
S52、Scat层的自关注机制,解码器能够捕获实体之间的依赖关系。Scat层的解码器还可以通过交叉注意机制有效地捕获来自双向LSTM层中张量的上下语义信息Hi
S53、Scat层采用MLP算法通过Scat特征转移矩阵计算出所有实体边界和实体类型概率的分数;
Pt=MLPt(u)
Figure BDA0003570605760000051
Pl=MLPl(Hfuse)
Pγ=MLPγ(Hfuse)
其中Pt、Pl和Pγ分别表示类别、左边界和右边界的分类概率。
Figure BDA0003570605760000052
表示串联操作,MLP表示在最后一层具有softmax功能的多层感知器。其中u代表了输出嵌入向量
Figure BDA0003570605760000053
t表示实体类型,l表示左边界,r表示有边界,H表示LSTM层输出的语义向量。
S54、二分法层采用二分法来实现预测实体集和最佳实体集之间的最佳匹配。
Figure BDA0003570605760000054
Figure BDA0003570605760000055
其中y表示实体最佳集合,
Figure BDA0003570605760000056
表示N个预测的集合,
Figure BDA0003570605760000057
是最佳实体yi和具有指数β(i)的预测之间的配对匹配函数li是左边实体边界,ri是右边实体边界,ti是实体类型
S6、使用步骤S5训练完成得到的完整页岩气领域命名实体识别模型,对页岩气领域文本进行命名实体识别,包括步骤:
S51、将需要页岩气领域命名实体识别的语句输入到训练完成的完整页岩气领域命名实体识别模型;
S52、输入的序列在经过预训练好的Bert语言模型后依次通过双向LSTM神经网络输出最终序列Hi,然后Hi输入到自关注和交叉关注机制的Scat联合模块进行多次迭代训练,进而得到一组包含实体的左右边界和分类的概率张量;
S53、使用二分法类算法在Scat层的解码层完成最佳实体集与预测实体集之间的匹配,即得到了实体分类层的实体的左右边界的最佳概率和实体分类的最佳概率;
S54、将最大概率的得分向量所在的实体和实体类型取出来,作为命名实体识别的结果。
综上所述,仅为本页岩气实体识别方法效果较佳实施例而已,并不是用来约束本发明,凡在本发明的精神与原则范围内所作的相关修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于Bert与Scat的页岩气领域命名实体识别方法,其特征在于,构建命名实体识别模型,所述模型包括Bert语言模型、双向LSTM、自关注和交叉关注机制的Scat联合模块,以及二分法的分配网络,所述方法包括步骤:
S1:从谷歌官方网获取预训练的Bert中文语言模型;
S2:对页岩气领域的原始语料数据进行数据清洗和数据标注,构建页岩气领域命名实体识别的训练集;
S3:将得到的页岩气领域命名实体识别的训练集输入到预训练好的Bert语言模型;
S4:将Bert语言模型的输出的i层嵌入信息依次输入到双向LSTM神经网络;
S5:将双向LSTM神经网络的输出得最终序列输入到自关注和交叉关注机制的Scat联合模块进行序列解码,在通过二分法来实现最佳实体预测;
S6:使用训练完成得到的完整页岩气领域命名实体识别模型,对页岩气领域文本进行命名实体识别。
2.根据权利要求1所述的方法,其特征在于,预训练的Bert语言模型的获取方式是直接下载谷歌官方预训练好的中文Bert语言模型chinese_L-12_H-768_A-12。
3.根据权利要求1所述的方法,其特征在于,所述对页岩气领域命名实体识别的原始文本数据进行数据清洗和数据标注,构建页岩气领域命名实体识别的训练集的步骤中,包括步骤:
S1:对页岩气领域原始文本数据进行多余的符号、数据乱码和空白行等常规数据预处理;
S2:根据项目需求确定以下实体类型:井名(Well)、地名(Loc)、能源名(Ene)、工具名(Tool)、机构名(Org)、技术名(Tech);
S3:采用图3的实体标注方法对页岩气领域原始文本数据进行标注。
4.根据权利要求1所述的方法,其特征在于,所述将Bert语言模型的输出输出的i层嵌入信息依次输入到双向LSTM神经网络,包括步骤:
S1:经过Bert模型计算获得i层嵌入信息,然后和通过Glove预训练的训练向量、通过NLP平台获得Pos向量、字符向量char级联起来表示该序列的信息xi
S2:将xi输入前后向LSTM网络,构造前后向输出
Figure FDA0003570605750000011
S3:通过级联操作,获得最终序列信息Hi
5.根据权利要求1所述的方法,其特征在于,所述双向LSTM神经网络的输出得最终序列输入自关注和交叉关注机制的Scat联合模块进行多次迭代训练,在通过二分法层来实现最佳实体预测,包括步骤:
S1:Scat层转换N个实体查询Hi,与逐个预测实体的序列到序列方法不同,通过使用非自回归解码器,从而一次获得N个预测结果;
S2:Scat层的自关注机制,解码器能够捕获实体之间的依赖关系。Scat层的解码器还可以通过交叉注意机制有效地捕获来自双向LSTM层中张量的上下语义信息Hi
S3:Scat层采用MLP算法通过Scat特征转移矩阵计算出所有实体边界和实体类型概率的分数:
Pt=MLPt(u)
Figure FDA0003570605750000021
Pl=MLPl(Hfuse)
Pr=MLPr(Hfuse)
其中Pt、Pl和Py分别表示类别、左边界和右边界的分类概率。
Figure FDA0003570605750000022
表示串联操作,MLP表示在最后一层具有softmax功能的多层感知器。其中u代表了输出嵌入向量
Figure FDA0003570605750000023
t表示实体类型,l表示左边界,r表示有边界,H表示LSTM层输出的语义向量;
S4:二分法层采用二分法来实现预测实体集和最佳实体集之间的最佳匹配:
Figure FDA0003570605750000024
Figure FDA0003570605750000025
其中y表示实体最佳集合,
Figure FDA0003570605750000026
表示N个预测的集合,
Figure FDA0003570605750000027
是最佳实体yi和具有指数β(i)的预测之间的配对匹配函数li是左边实体边界,ri是右边实体边界,ti是实体类型;
S5:采用二分法层的补偿函数与Scat层的损失函数的加权和来更新命名实体识别模型的参数。
6.根据权利要求1所述的方法,其特征在于,所述使用训练完成得到的完整命名实体识别模型,对页岩气领域文本进行命名实体识别的步骤中,包括步骤:
S1:将需要页岩气领域命名实体识别的语句输入到训练完成的完整页岩气领域命名实体识别模型;
S2:输入的序列在经过预训练好的Bert语言模型后依次通过双向LSTM神经网络输出最终序列Hi,然后Hi输入到自关注和交叉关注机制的Scat联合模块进行多次迭代训练,进而得到一组包含实体的左右边界和分类的概率张量;
S3:使用二分法类算法在Scat层的解码层完成最佳实体集与预测实体集之间的匹配,即得到了实体分类层的实体的左右边界的最佳概率和实体分类的最佳概率;
S4:将最大概率的得分向量所在的实体和实体类型取出来,作为命名实体识别的结果。
CN202210322494.XA 2022-03-29 2022-03-29 一种基于Bert与Scat的页岩气领域命名实体识别方法 Pending CN114580423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210322494.XA CN114580423A (zh) 2022-03-29 2022-03-29 一种基于Bert与Scat的页岩气领域命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210322494.XA CN114580423A (zh) 2022-03-29 2022-03-29 一种基于Bert与Scat的页岩气领域命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114580423A true CN114580423A (zh) 2022-06-03

Family

ID=81782717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210322494.XA Pending CN114580423A (zh) 2022-03-29 2022-03-29 一种基于Bert与Scat的页岩气领域命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114580423A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221882A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221882A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115221882B (zh) * 2022-07-28 2023-06-20 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109800411B (zh) 临床医疗实体及其属性抽取方法
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN111444343B (zh) 基于知识表示的跨境民族文化文本分类方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115048447A (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质
CN114580423A (zh) 一种基于Bert与Scat的页岩气领域命名实体识别方法
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination