CN113869051A - 一种基于深度学习的命名实体识别方法 - Google Patents

一种基于深度学习的命名实体识别方法 Download PDF

Info

Publication number
CN113869051A
CN113869051A CN202111107150.9A CN202111107150A CN113869051A CN 113869051 A CN113869051 A CN 113869051A CN 202111107150 A CN202111107150 A CN 202111107150A CN 113869051 A CN113869051 A CN 113869051A
Authority
CN
China
Prior art keywords
sentence
vector
bert
word embedding
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111107150.9A
Other languages
English (en)
Other versions
CN113869051B (zh
Inventor
黑新宏
李育璠
朱磊
王一川
姬文江
彭伟
董林靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111107150.9A priority Critical patent/CN113869051B/zh
Publication of CN113869051A publication Critical patent/CN113869051A/zh
Application granted granted Critical
Publication of CN113869051B publication Critical patent/CN113869051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的命名实体识别方法,步骤包括:1)构建一对一的同义词词典;2)选择数据集,定义实体类集合;3)对BERT模型进行对比学习预训练;4)进行命名实体识别任务的微调训练,得到编码器和分类器;5)将测试集中剩余待处理的句子统称为句子S1;6)将句子S1输入编码器,得到字嵌入向量集合和句向量u;7)在句子S1中基于跨度选择文段,构造文段的词嵌入向量;8)利用同义词词典替换步骤7在句子S1中所选中的文段,得到句子S2;9)利用编码器处理句子S2,得到句向量v;10)计算得到span_em,再通过分类器分类得到实体集C。本发明的方法,识别准确率高。

Description

一种基于深度学习的命名实体识别方法
技术领域
本发明属于计算机自然语言处理技术领域,涉及一种基于深度学习的命名实体识别方法。
背景技术
命名实体识别的目的是识别文本中具有某种特定意义、类别或词性的实体,例如人名、国家、情绪词、学科专有名词、电话号码等。随着大数据技术兴起,命名实体识别在知识图谱、数据分析、智能化数据处理等领域取得了越来越广泛地应用。
早期的命名实体识别方法一般基于规则进行,在深度学习取得阶段性进展后,近年来也出现了许多基于深度学习的命名实体识别方法。然而,目前基于深度学习的命名实体识别方法对嵌套实体等模糊实体难以识别,准确率还有待改进,只有在高度语义化的层面上处理文本才能获得更好的效果。
发明内容
本发明的目的是提供一种基于深度学习的命名实体识别方法,解决了现有技术中,利用实体关系抽取方法难以识别嵌套实体,导致实体分类不准确的问题。
本发明所采用的技术方案是,一种基于深度学习的命名实体识别方法,按照以下步骤实施:
步骤1,按照大词林构建一对一的同义词词典D;
步骤2,选择数据集,将实体类别定义为实体类集合E;
步骤3,利用步骤2得到的数据集中的训练集对已完成领域预训练的 BERT模型进行对比学习预训练,得到的Pre_Train_BERT;
步骤4,对于步骤3得到的Pre_Train_BERT,利用步骤2中选择的数据集对深度学习模型进行命名实体识别任务的微调训练,得到 Fine_Tuning_BERT编码器和经过训练的softmax分类器;
步骤5,将测试集中剩余待处理的句子统称为句子S1;
步骤6,将句子S1输入步骤4中得到的Fine_Tuning_BERT编码器进行编码,得到句子S1的字嵌入向量集合S1_em和句向量CLS1,将CLS1作为句向量u;
步骤7,在句子S1中基于跨度选择文段,利用步骤6得到的字嵌入向量集合S1_em构造文段的词嵌入向量token;
步骤8,利用步骤1中构造的同义词词典D,替换步骤7在句子S1中所选中的文段,得到句子S2;若不存在同义词则令句子S2等于句子S1;
步骤9,利用步骤4得到的Fine_Tuning_BERT编码器处理步骤8得到的句子S2,得到句子S2的句向量v;若步骤8中不存在同义词则将句向量 v置零;
步骤10,联接句向量u、词嵌入向量token、|u-v|、句向量v,得到span_em,将span_em通过softmax分类器进行分类,得到实体集C,即成。
本发明的有益效果是,以对比学习的方法完成命名实体识别任务,通过同义词替换的模式构造正样本,能够直接利用命名实体识别任务的数据集进行对比学习预训练,不但改善了BERT输出向量的坍缩问题得到更准确的分类结果,还以一种低成本的方法完成了对比学习预训练。更重要的是,本发明解决了传统命名实体识别方法对嵌套实体分类不准确的问题。例如句子“银行为员工制定业务行为规范”,其中“行为”出现了两次,第一个“行为”就属于容易被错误识别的嵌套实体。本发明利用同义词替换,分别得到“银行动员工制定业务行为规范”和“银行为员工制定业务行动规范”,显然第一个替换结果在语义上与原句差异较大。本发明利用了BERT的句向量来结合同义词替换后的句子的语义来进行命名实体识别任务,由此提高对嵌套实体识别的准确率。
附图说明
图1是本发明方法的总体流程框图;
图2是本发明方法中对比利用正样本进行学习预训练的流程框图;
图3是本发明方法中对比利用负样本进行学习预训练的流程框图;
图4是本发明方法的实施例流程框图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明是基于深度学习的命名实体识别方法,参照图2、图3,利用命名实体识别的数据集,以同义词替换的方法制造正样本,再让数据集中的句子互为负样本进行对比学习预训练,得到经过预训练的Pre_Train_BERT,再对其进行任务微调训练后得到Fine_Tuning_BERT。因此可以说,本发明以基于跨度的方法进行命名实体识别,并且通过同义词替换构造待识别句子的对称句,联合原句与对称句的语义作为词嵌入识别实体。
参照图1,本发明方法,基于上述的思路,按照以下步骤实施:
步骤1,按照大词林构建一对一的同义词词典D;
步骤2,选择数据集,本步骤以CLUENER数据集为例,该数据集中的训练集包含10748个句子,定义了10个不同的实体类别,将这些实体类别定义为实体类集合E;
步骤3,利用步骤2得到的数据集中的训练集对已完成领域预训练的 BERT模型(BERT模型是现有技术)进行对比学习预训练,
利用步骤1中构造的同义词词典D进行同义词替换从而构造正样本,且训练集的句子互为负样本,在此基础上进行对比学习预训练,得到经过预训练的Pre_Train_BERT,具体过程为:
3.1)正样本构造及BERT模型的预训练,包括如下小步骤:
3.1.1)在步骤2中得到的数据集的训练集中选择一段句子A1;
3.1.2)在句子A1所标记的实体中随机选择一个实体,按照步骤1得到的同义词词典D将该实体替换为其同义词,得到正样本句子A2;若选择的实体不存在同义词,则回溯至3.1.1)重新选择;
3.1.3)分别将句子A1与其正样本句子A2输入BERT模型,得到字嵌入向量集合A1_em与A2_em,再分别将A1_em与A2_em进行平均池化,得到向量AR1与AR2;
3.1.4)计算向量AR1与AR2的欧氏距离d,将该欧氏距离d作为损失 Loss沿着池化层与BERT反向传递,以梯度下降法更新BERT的权值,得到更新后的Pre_Train_BERT;
3.2)负样本构造及BERT模型的预训练,包括如下小步骤:
3.2.1)在步骤2中得到的数据集的训练集中选择两段句子B1与B2,并且保证句子B1与B2互为负样本;
3.2.2)分别将句子B1与B2输入BERT模型,得到字嵌入向量集合B1_em 与B2_em,再分别将B1_em与B2_em进行平均池化,得到向量BR1与BR2;
3.2.3)计算向量BR1与BR2的欧氏距离d,将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递,以梯度上升法更新BERT的权值,得到更新后的Pre_Train_BERT(与步骤3.1.4的“更新后的Pre_Train_BERT”是同样的东西,Pre_Train_BERT需要用两种方法多次更次);
步骤4,对于步骤3得到的Pre_Train_BERT,利用步骤2中选择的数据集对本发明方法所使用的深度学习模型(深度学习模型属于现有技术)进行命名实体识别任务的微调训练,得到Fine_Tuning_BERT编码器和经过训练的softmax分类器;
步骤5,将测试集中剩余待处理的句子统称为句子S1;
步骤6,将句子S1输入步骤4中得到的Fine_Tuning_BERT编码器进行编码,得到句子S1的字嵌入向量集合S1_em和句向量CLS1,将CLS1作为句向量u;
步骤7,在句子S1中基于跨度选择文段,利用步骤6得到的字嵌入向量集合S1_em构造文段的词嵌入向量token;
具体过程为:在句子S1中利用基于跨度的方法选择文段,并通过步骤 6得到的字嵌入向量集合S1_em构造被选择文段的字嵌入向量集合W_em,之后对字嵌入向量集合W_em进行最大池化,池化的结果为词嵌入向量 token;
其中,利用基于跨度的方法选择文段的具体过程为:
对步骤6中得到的字嵌入向量集合S1_em在所有长度在1到10之间的跨度上选择文段,字嵌入向量集合S1_em是通过Fine_Tuning_BERT编码得到的文本向量,表示为e1,e2,...,en,即对于任意ei,选择文段表示为 ei,ei+1,ei+2,...,ei+k,其中k取值在0到10之间;
步骤8,利用步骤1中构造的同义词词典D,替换步骤7在句子S1中所选中的文段,得到句子S2;若不存在同义词则令句子S2等于句子S1;
步骤9,利用步骤4得到的Fine_Tuning_BERT编码器处理步骤8得到的句子S2,得到句子S2的句向量v;若步骤8中不存在同义词则将句向量 v置零;
具体过程为:将步骤8得到的句子S2输入步骤4得到的Fine_Tuning_BERT编码器中,得到句向量CLS2,将CLS2作为句向量v;若步骤8中不存在同义词则将句向量v中的所有元素置零;
步骤10,联接(步骤6、步骤7、步骤9得到的)句向量u、词嵌入向量token、|u-v|、句向量v,得到span_em,将span_em通过softmax分类器进行分类,得到实体集C;
具体过程为:对于步骤6、9得到的句向量u、v,先计算这两个句向量的距离|u-v|,再依据步骤7中得到的词嵌入向量token连接句向量u、词嵌入token、|u-v|、句向量v,得到向量
Figure RE-GDA0003376046350000061
表达式中的小圆圈代表向量连接的运算符号;然后,将向量span_em利用步骤4中训练得到的softmax分类器进行分类,得到步骤7中选中的文段的实体类别 span_class,若span_class是属于实体类集合E,则将该实体加入实体集C;之后,回到步骤5,若步骤5中使用的测试集已无剩余句子,即成。
实施例
参照图4,本发明识别方法以“银行为员工制定业务行为规范”为例。
步骤1,构建同义词词典D,在该词典中,词语“行为”的同义词为“行动”;
步骤2,得到实体类集合E={“organization”,“name”,“address”,“company”,“government”,“book”,“game”,“movie”,“position”,“scene”};
步骤3,对已完成领域预训练的BERT模型进行对比学习预训练,得到经过预训练的Pre_Train_BERT,其利用正样本与负样本训练具体过程可参照图2与图3;
步骤4,对所使用的深度学习模型进行命名实体识别任务的微调训练,得到Fine_Tuning_BERT编码器和经过训练的softmax分类器;
步骤5,将句子“银行为员工制定业务行为规范”作为句子S1;
步骤6,利用Fine_Tuning_BERT编码器进行编码,得到句子S1的字嵌入向量集合S1_em和该Fine_Tuning_BERT输出的句向量CLS1,将CLS1 作为句向量u;
步骤7,在句子S1中基于跨度选择文段,图中以“行为”为例,利用步骤6得到的S1_em构造文段的词嵌入token;
步骤8,利用步骤1中构造的同义词词典D,将步骤7在句子S1中所选中的文段“行为”替换为其同义词“行动”,得到句子S2,图中以“银行动员工制定业务行为规范”为例;
步骤9,通过Fine_Tuning_BERT处理步骤8得到的句子S2,得到句子 S2的句向量v;
步骤10,连接句向量u、词嵌入token、|u-v|、句向量v得到span_em,将span_em通过softmax分类器进行分类,得到实体类别span_class,“行为”的span_class为“none”,不属于实体类集合E中的任意一个,故将其判断为非实体;对所有跨度进行上述流程后,得到最终的实体集C,在图例中, C=“银行/员工”。
本发明基于深度学习的命名实体识别方法,创新点在于以对比学习的机制进行命名实体识别、以同义词替换的规则创造正例、以同义词替换的规则创造待识别句子的对称句并由此构造融合了对称句语义信息的词嵌入。先以同义词替换的方法对BERT进行对比学习预训练,之后基于跨度选择实体,对所有的可能实体基于同义词替换的方法构造对称句,以此构造融合了对称句信息的词嵌入通过softmax分类器来进行实体分类,整个流程均为全自动实现。本发明利用命名实体识别的数据集以同义词替换的方法构造正例进行对比学习预训练,利用构造对称句的方法增强词嵌入的语义信息来提高实体识别的准确率,整个流程均为全自动实现,为知识图谱的构建、数据分析、智能化数据处理等应用减轻负担。

Claims (5)

1.一种基于深度学习的命名实体识别方法,其特征在于,按照以下步骤实施:
步骤1,按照大词林构建一对一的同义词词典D;
步骤2,选择数据集,将实体类别定义为实体类集合E;
步骤3,利用步骤2得到的数据集中的训练集对已完成领域预训练的BERT模型进行对比学习预训练,得到的Pre_Train_BERT;
步骤4,对于步骤3得到的Pre_Train_BERT,利用步骤2中选择的数据集对深度学习模型进行命名实体识别任务的微调训练,得到Fine_Tuning_BERT编码器和经过训练的softmax分类器;
步骤5,将测试集中剩余待处理的句子统称为句子S1;
步骤6,将句子S1输入步骤4中得到的Fine_Tuning_BERT编码器进行编码,得到句子S1的字嵌入向量集合S1_em和句向量CLS1,将CLS1作为句向量u;
步骤7,在句子S1中基于跨度选择文段,利用步骤6得到的字嵌入向量集合S1_em构造文段的词嵌入向量token;
步骤8,利用步骤1中构造的同义词词典D,替换步骤7在句子S1中所选中的文段,得到句子S2;若不存在同义词则令句子S2等于句子S1;
步骤9,利用步骤4得到的Fine_Tuning_BERT编码器处理步骤8得到的句子S2,得到句子S2的句向量v;若步骤8中不存在同义词则将句向量v置零;
步骤10,联接句向量u、词嵌入向量token、|u-v|、句向量v,得到span_em,将span_em通过softmax分类器进行分类,得到实体集C,即成。
2.根据权利要求1所述的基于深度学习的命名实体识别方法,其特征在于:在步骤3中,利用步骤1中构造的同义词词典D进行同义词替换从而构造正样本,且训练集的句子互为负样本,在此基础上进行对比学习预训练,得到经过预训练的Pre_Train_BERT,具体过程为:
3.1)正样本构造及BERT模型的预训练,包括如下小步骤:
3.1.1)在步骤2中得到的数据集的训练集中选择一段句子A1;
3.1.2)在句子A1所标记的实体中随机选择一个实体,按照步骤1得到的同义词词典D将该实体替换为其同义词,得到正样本句子A2;若选择的实体不存在同义词,则回溯至3.1.1)重新选择;
3.1.3)分别将句子A1与其正样本句子A2输入BERT模型,得到字嵌入向量集合A1_em与A2_em,再分别将A1_em与A2_em进行平均池化,得到向量AR1与AR2;
3.1.4)计算向量AR1与AR2的欧氏距离d,将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递,以梯度下降法更新BERT的权值,得到更新后的Pre_Train_BERT;
3.2)负样本构造及BERT模型的预训练,包括如下小步骤:
3.2.1)在步骤2中得到的数据集的训练集中选择两段句子B1与B2,并且保证句子B1与B2互为负样本;
3.2.2)分别将句子B1与B2输入BERT模型,得到字嵌入向量集合B1_em与B2_em,再分别将B1_em与B2_em进行平均池化,得到向量BR1与BR2;
3.2.3)计算向量BR1与BR2的欧氏距离d,将该欧氏距离d作为损失Loss沿着池化层与BERT反向传递,以梯度上升法更新BERT的权值,得到更新后的Pre_Train_BERT。
3.根据权利要求1所述的基于深度学习的命名实体识别方法,其特征在于:所述的步骤7的具体过程为:
在句子S1中利用基于跨度的方法选择文段,并通过步骤6得到的字嵌入向量集合S1_em构造被选择文段的字嵌入向量集合W_em,之后对字嵌入向量集合W_em进行最大池化,池化的结果为词嵌入向量token;
其中,利用基于跨度的方法选择文段的具体过程为:
对步骤6中得到的字嵌入向量集合S1_em在所有长度在1到10之间的跨度上选择文段,字嵌入向量集合S1_em是通过Fine_Tuning_BERT编码得到的文本向量,表示为e1,e2,...,en,即对于任意ei,选择文段表示为ei,ei+1,ei+2,...,ei+k,其中k取值在0到10之间。
4.根据权利要求1所述的基于深度学习的命名实体识别方法,其特征在于:所述的步骤9的具体过程为:将步骤8得到的句子S2输入步骤4得到的Fine_Tuning_BERT编码器中,得到句向量CLS2,将CLS2作为句向量v;若步骤8中不存在同义词则将句向量v中的所有元素置零。
5.根据权利要求1所述的基于深度学习的命名实体识别方法,其特征在于:所述的步骤10的具体过程为:
对于步骤6、步骤9得到的句向量u、v,先计算这两个句向量的距离|u-v|,再依据步骤7中得到的词嵌入向量token连接句向量u、词嵌入token、|u-v|、句向量v,得到向量
Figure FDA0003272762970000031
表达式中的小圆圈代表向量连接的运算符号;然后,将向量span_em利用步骤4中训练得到的softmax分类器进行分类,得到步骤7中选中的文段的实体类别span_class,若span_class是属于实体类集合E,则将该实体加入实体集C;之后,回到步骤5,若步骤5中使用的测试集已无剩余句子。
CN202111107150.9A 2021-09-22 2021-09-22 一种基于深度学习的命名实体识别方法 Active CN113869051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111107150.9A CN113869051B (zh) 2021-09-22 2021-09-22 一种基于深度学习的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111107150.9A CN113869051B (zh) 2021-09-22 2021-09-22 一种基于深度学习的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113869051A true CN113869051A (zh) 2021-12-31
CN113869051B CN113869051B (zh) 2024-08-02

Family

ID=78992974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111107150.9A Active CN113869051B (zh) 2021-09-22 2021-09-22 一种基于深度学习的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113869051B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462391A (zh) * 2022-03-14 2022-05-10 和美(深圳)信息技术股份有限公司 基于对比学习的嵌套实体识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274794A (zh) * 2020-01-19 2020-06-12 浙江大学 一种基于传递的同义词扩展方法
CN111506673A (zh) * 2020-03-27 2020-08-07 泰康保险集团股份有限公司 一种病案的分类码确定方法和装置
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CA3085033A1 (en) * 2019-07-30 2021-01-30 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
CN112420191A (zh) * 2020-11-23 2021-02-26 北京麦岐科技有限责任公司 一种中医辅助决策系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3085033A1 (en) * 2019-07-30 2021-01-30 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
CN111274794A (zh) * 2020-01-19 2020-06-12 浙江大学 一种基于传递的同义词扩展方法
CN111506673A (zh) * 2020-03-27 2020-08-07 泰康保险集团股份有限公司 一种病案的分类码确定方法和装置
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN112420191A (zh) * 2020-11-23 2021-02-26 北京麦岐科技有限责任公司 一种中医辅助决策系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN JIA等: "entity enhanced bert pre-training for chinese NER", PROCEEDINGS OF THE 2020 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 30 November 2020 (2020-11-30), pages 1 - 10 *
李育璠: "基于语义完备性的Transformer语言模型研究及应用", 中国优秀硕士学位论文全文数据库信息科技辑, no. 3, 15 March 2024 (2024-03-15), pages 138 - 2099 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462391A (zh) * 2022-03-14 2022-05-10 和美(深圳)信息技术股份有限公司 基于对比学习的嵌套实体识别方法和系统
CN114462391B (zh) * 2022-03-14 2024-05-14 和美(深圳)信息技术股份有限公司 基于对比学习的嵌套实体识别方法和系统

Also Published As

Publication number Publication date
CN113869051B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN107818164A (zh) 一种智能问答方法及其系统
CN107301246A (zh) 基于超深卷积神经网络结构模型的中文文本分类方法
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN107180084A (zh) 词库更新方法及装置
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN113869053A (zh) 一种面向司法文本命名实体识别的方法及系统
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN114091469B (zh) 基于样本扩充的网络舆情分析方法
CN115270761A (zh) 一种融合原型知识的关系抽取方法
CN113869051B (zh) 一种基于深度学习的命名实体识别方法
CN114626378B (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113033206A (zh) 一种基于机器阅读理解的桥梁检测领域文本实体识别方法
CN116562294A (zh) 一种基于提示学习的桥梁文本小样本命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant