CN113609859A - 一种基于预训练模型的特种设备中文命名实体识别方法 - Google Patents

一种基于预训练模型的特种设备中文命名实体识别方法 Download PDF

Info

Publication number
CN113609859A
CN113609859A CN202110893472.4A CN202110893472A CN113609859A CN 113609859 A CN113609859 A CN 113609859A CN 202110893472 A CN202110893472 A CN 202110893472A CN 113609859 A CN113609859 A CN 113609859A
Authority
CN
China
Prior art keywords
sequence
label
entity
character
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110893472.4A
Other languages
English (en)
Inventor
张元鸣
杨伟杰
姬琦
肖刚
陆佳炜
程振波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110893472.4A priority Critical patent/CN113609859A/zh
Publication of CN113609859A publication Critical patent/CN113609859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于预训练模型的特种设备中文命名实体识别方法,包括以下步骤:1)按照中文命名实体标注策略BIEOS对中文命名实体数据集进行标注,将实体类别分为四种类别;2)基于BERT预训练模型将中文句子转换为字向量表示;3)将字向量表示输入到biLSTM模型中,学习字向量序列双向编码,提取句子特征;4)采用CRF条件随机场学习上下文的标签概率,得到了每个汉字的所有可能的标签序列;5)最后输出汉字序列对应的实体类别。本发明通过无监督的方式对无标签语料中进行训练,能够有效解决小数据集、样本特征信息不足情况下中文命名实体提取的问题,用于构建特种设备领域的知识图谱。

Description

一种基于预训练模型的特种设备中文命名实体识别方法
技术领域
本发明涉及知识图谱、深度学习、特种设备、实体识别等领域,特别给出了一种基于预训练模型的特种设备中文命名实体识别方法。
背景技术
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化地描述,现已被用来泛指各种大规模的知识库。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是(实体,关系,实体)三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构,知识图谱被广泛应用于智能搜索、智能问答、个性化推荐等方面。
实体识别是知识图谱构建过程中的一项基础性任务,旨在从非结构化文本中提取出具有特定意义和类型的实体。现今,中文实体识别面临的主要问题在于中文和英文不同的语言特性,中文没有空格且基本单元是字,因此从字级别来理解句子会非常困难。
基于深度学习的实体识别模型主要包括基于循环神经网络、长短期记忆网络、卷积神经网络等实体识别方法。BiLSTM-CRF(Computer Science,2015)首次将双向长短期记忆网络模型应用于实体识别中,BiLSTM可以使用过去和未来的输入特征,CRF可以使用句子级的标注信息。LSTM-CNNs-CRF(Association for Computational Linguistics,2016)采用CNN将单词的字符信息编码为字符级特征然后与word embedding联合输入BiLSTM构建每个字符的上下文特征,最后由CRF利用上下文标签信息来解码整个句子的标签。Lattice-structured LSTM(Association for Computational Linguistics,2018)编码了序列中输入的字符信息和潜在词汇信息,对比以前只基于单个字的输入表征,这里可以明确地利用词汇信息,并且避免了实体分割错误的情况。WC-LSTM(Association for ComputationalLinguistics,2019)利用了四种不同的策略来将单词信息编码为固定大小的矢量,使其可以分批训练并适应各种应用场景。Multi-digraph Gazetteers(Association forComputational Linguistics,2019)利用词典和图神经网络融入单词信息给NER系统。LR-CNN(International Joint Conference on Artificial Intelligence)提出一种含有rethinking机制的CNN网络,通过CNN对句子与lexicon中存在的词语进行处理并且通过rethinking机制解决lexicon冲突。CAN-NER(North American Association forComputational Linguistics,2019)提出了基于注意力机制的卷积神经网络架构,用于中文实体识别。
特种设备领域的实体识别是构建特种设备知识图谱的关键步骤,其任务是从特种设备非结构化数据中提取特定类型的命名实体。目前,在特种设备领域中,还没有公开的标注数据集,领域文本数据规模较小,样本特征信息也不足,这些问题导致现有的模型难以有效识别特种设备领域的命名实体。
发明内容
本发明针对特种设备领域存在标注数量较少且实体识别精度不高等问题,提出了一种基于预训练模型的特种设备实体识别模型,该模型能够较充分地学习特种设备领域的文本特征信息,提取特种设备命名实体,从而构建知识图谱。
为了解决技术问题本发明提供如下的技术方案:
一种基于预训练模型的特种设备中文命名实体识别方法,包括以下步骤:
1)中文命名实体数据集标注:
1.1)数据获取:
从文档、书籍、文献、网页中抽取特种设备领域相关的大量数据,对数据进行清洗和去重,作为中文实体识别的数据源。
1.2)中文命名实体标注策略:
定义中文命名实体标注策略BIEOS,标注类别包括:
B表示该字符是实体的开始位置;
I表示该字符是实体的中间位置;
E表示该字符实体的结束位置;
O表示该字符实体的不属于任何实体类型;
S表示该字符单独构成一个实体;
x表示该字符所在实体的类型;
1.3)实体类别标注策略:
定义特种设备领域命名实体的类型,包括C、P、F和A四类,分别表示组成、参数、故障和事故,如下表1所示:
表1特种设备领域实体类型
标注符号 实体类别 类别定义 示例
C 组成 设备组件 曳引机、层门等
P 参数 设备参数 运行速度、载重量等
F 故障 设备故障 停止运行、平层不准等
A 事故 电梯事故 墩底、冲顶等
1.3)训练数据集标注:
根据实体标注策略和实体类型对实体进行标注,对训练集进行标注,其标注方法如下表2所示:
表2标注策略
实体类别 开始标签 中间标签 结尾
组成 B-C I-C E-C
参数 B-P I-P E-P
故障 B-F I-F E-F
事故 B-A I-A E-A
2)基于BERT预训练模型的字向量表示:
BERT是一种新型语言模型,它通过联合调节所有层中的双向Transformer来预训练深度双向表示,利用BERT的BertModel类构造BERT结构,然后将输入的特种设备中文汉字序列输入到BERT特征表示层中,对文本中的每个汉字进行编码得到中文汉字的向量表示:
x=(x1,x2,x3…xn) (1)
3)biLSTM上下文编码:
biLSTM是一种双向长短期记忆网络,适合于时序数据建模,可以更好地捕捉较长距离双向语义依赖关系;
3.1)biLSTM的输入:
biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并初始化隐藏状态h0
3.2)基于biLSTM的字向量序列双向编码:
biLSTM隐藏层输出表示公式如下:
it=σ(Wixxt+Wihht-1+bi) (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
ot=σ(Woxxt+Wohht-1+bo) (4)
Figure BDA0003196898770000041
Figure BDA0003196898770000042
Figure BDA0003196898770000043
其中,W、b分别表示连接两层的权重矩阵和偏置向量,σ是sigmoid激活函数,
Figure BDA0003196898770000044
为点乘运算,xt为输入向量,it,ft和ot分别为t时刻的输入门、遗忘门和输出门,
Figure BDA0003196898770000045
表示t时刻的状态,ht则为t时刻隐藏层的输出;
对输入序列分别采用顺序和逆序的方式计算后得到两种不同的隐藏层表示h和h,然后通过向量拼接的方式得到最终的隐藏层表示,公示如下:
hi=[hi前+hi后] (8)
其中hi前,hi后分别表示第i个字符对应的前、后向隐藏层表示,[]表示相量拼接,hi表示最终的隐藏层表示。
将得到的隐藏层表示经过一个线性层映射为一个维度为输出标签数量的向量,然后通过Softmax函数进行归一化处理,输出每种标签的概率分数P,公式如下:
P=log(Softmax(hi)) (9)
由此得到每种标签的概率值;
3.3)最小化损失函数:
采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距,NLLLoss函数接收两个张量,第一个张量是标签的概率值,第二个是目标结果,根据目标结果的取值找出标签的概率值中对应位置的元素,求和取平均值,通过随机梯度下降法最小化损失函数值,公式如下:
Loss=NLLLoss(output,target) (10)
其中output是标签的概率值,target是目标结果;
4)基于CRF条件随机场解码标签序列:
4.1)学习状态矩阵和转移矩阵:
采用CRF(Conditional Random Field)条件随机场学习上下文的标签信息,CRF算法中涉及到状态矩阵和转移矩阵;
在条件随机场中,对于一个输入序列x=(x1,x2,x3…xn),序列中的第i个字对应k个特定标签的概率构成一个状态矩阵,是当前字符对应于每个标签的概率分数,表示为:
Figure BDA0003196898770000051
其中,分数越高就代表该字对应于该标签的概率越高,n表示序列长度,i表示序列中第i个字符,yi则表示该字符对应的标签,k表示标签数量;
Figure BDA0003196898770000052
表示一个维度为n×k的矩阵;
在条件随机场中,对于特定的k个标签,从标签i转移到标签i+1的转移得分构成一个转移矩阵,用来表示标签与标签之间的转移关系,表示为:
Figure BDA0003196898770000053
其中,分数越高代表标签yi转移到下一个标签yi+1的概率越高;
4.2)计算序列标签最大概率:
根据状态矩阵和转移矩阵,对于一个输入序列x=(x1,x2,x3…xn),其对应的标签序列为y=(y1,y2,y3…yn)的评分公式为:
Figure BDA0003196898770000054
用Softmax函数归一化得到y序列标签的概率,公式如下:
Figure BDA0003196898770000055
其中,
Figure BDA0003196898770000056
代表序列真实路径标记值,Yx表示所有可能的路径标记的集合;e是指数函数;
4.3)最小化损失函数:
在训练过程中,采用以下损失函数最大化正确标签的似然概率,通过随机梯度下降法最小化损失函数的值,计算公式为:
Figure BDA0003196898770000061
4.4)基于维特比算法解码最终标签序列:
在中文命名实体识别模型训练完成之后,得到了每个汉字的所有可能的标签序列;然后,采用维特比算法解码该标签序列,即计算标签序列中的最优序列,该算法每次记录到当前时刻每个观察标签的最优序列,用动态规划的方法减少不必要的重复计算,到结束时,从最后一个时刻的最优值回溯到开始位置,回溯完成后,这个从开始到结束的路径就是最优的;
对于一组未知标签的序列x,采用维特比算法获得所有标签序列上预测总得分最高的标签序列,计算公式如下:
Figure BDA0003196898770000062
最后,输出汉字序列x所对应的最终实体标签序列y*
本发明的有益效果为:本发明给出的应用于特种设备领域的实体识别方法融合了预训练语言模型,长短期记忆网络以及条件随机场。其优势在于预训练模型是通过无监督的方式从大规模无标签语料中训练得到的,其充分考虑字符、词语、句子以及句子间的特征关系,增强字向量的语义表示,这可以有效解决特种设备领域数据规模较小,样本特征信息不足的问题。BiLSTM对于命名实体识别任务捕捉长距离信息并解决梯度消失问题效果显著。条件随机场能够让模型学习到标签之间的约束信息,通过考虑相邻标签之间的关系来保证最终预测标签的合理性。最终训练得到的实体识别模型可以用于特种设备自动识别实体,便于后续特种设备知识图谱的构建工作。
附图说明
图1是预训练模型图;
图2是实体识别标注结果。
具体实施方式
以电梯典型特种设备为例,结合图1和图2对本发明作进一步说明。
一种基于预训练训练模型的特种设备中文实体识别方法,包括以下步骤:
1)中文命名实体数据集标注:
1.1)数据获取:
从文档、书籍、文献、网页中抽取特种设备领域相关的大量数据,对数据进行清洗和去重,作为中文实体识别的数据源;
1.2)中文实体标注策略:
采用中文命名实体标注策略和实体类别标注策略,对文本进行标注,如“导致曳引机出现了问题”文本序列的标注结果如图2所示;
2)基于BERT预训练语言模型的字向量表示:
将文本序列“导致曳引机出现了问题”输入到BERT预训练层中,得到每个字符的向量表示:x=(x1,x2,……x9,x10),如图1所示;
3)基于biLSTM的字向量序列双向编码:
3.1)biLSTM的输入:
biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并随机初始化隐藏状态h0
3.2)基于biLSTM的字向量序列双向编码:
向量x输入到两个双向的LSTM单元,通过公式(2)(3)(4)(5)(6)(7),计算得到每个字符对应的正向反向隐藏层输出hi前和hi后,将每个字符的正向反向隐藏层输出hi前,hi后通过公式(8)进行拼接为最终的隐藏层表示hi,经过一个线性层映射为一个维度为输出标签数量的向量,使用公式(9)通过Softmax函数进行归一化处理,输出对应的每种标签的概率分数P;
3.3)最小化损失函数:
最后,根据公式(10),采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距。通过随机梯度下降法最小化损失函数值,直至收敛;
4)基于CRF条件随机场的标签序列预测,过程如下:
4.1)学习状态矩阵和转移矩阵:
1)状态矩阵:状态矩阵
Figure BDA0003196898770000071
由步骤3)的输出P得到,如下表所示,P1,B-C=0.9表示w1这个字符被标记为“B-C”标签的概率为0.9;
B-C 0.9 0.4 0.4 0.2
I-C 0.5 0.8 0.5 0.1
E-C 0.1 0.6 0.9 0.3
O 0.5 0.2 0.1 0.9
0.3 0.1 0.1 0.4
w<sub>1</sub> w<sub>2</sub> w<sub>3</sub> w<sub>4</sub>
2)转移矩阵:转移得分矩阵在训练模型之前,随机初始化该矩阵。在训练过程中,这个矩阵中的所有随机得分将得到更新,最终得到转移得分矩阵
Figure BDA0003196898770000081
在训练过程中,为了使转移得分矩阵的鲁棒性更好,在数据中额外再加两个标签:“START”和“END”,“START”表示一句话的开始,注意这不是指该句话的第一个字,“START”后才是第一个字,同理“END”代表着这句话的结束。如下表所示转移得分矩阵,AB-C,I-C=0.9表示标签“B-C”转移到“I-C”的得分,即“B-C”后的标签很可能是“I-C”;
START B-C I-C E-C O END
START 0 0.8 0.007 0.005 0.9 0.08
B-C 0 0.4 0.9 0.8 0.1 0.009
I-C 0.001 0.4 0.75 0.78 0.12 0.005
E-C 0.002 0.6 0.2 0.3 0.78 0.6
O 0 0.65 0.008 0.07 0.85 0.7
END 0 0 0 0 0 0
4.2)计算序列标签概率:
根据状态矩阵和转移矩阵,对于输入序列x=(x1,x2,…,x9,x10),其对应的标签序列为y=(y1,y2,…,y9,y10),由公式(11)求得输入序列对应的标签序列的评分为Score,然后由公式(12)得到y序列标签的概率P;
4.3)最小化损失函数:
由公式(13)损失函数,在训练过程中,模型将会不断更新,通过随机梯度下降法最小化损失函数的值,直至收敛;
4.4)基于维比特算法解码最终标签序列:
在模型训练完成之后,给定一组未知标签的序列x,通过维特比算法即公式(14)来获得所有标签序列上总得分最高的标签序列,作为特种设备领域命名实体识别的最终标注结果y*
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (1)

1.一种基于预训练模型的特种设备中文命名实体识别方法,其特征在于,包括以下步骤:
1)中文命名实体数据集标注:
1.1)数据获取:
抽取特种设备领域相关的文本数据,对数据进行清洗和去重,作为中文实体识别的数据集,将数据集划分为训练集和测试集;
1.2)中文命名实体标注策略:
定义中文命名实体标注策略BIEOS,标注类别包括:
B表示该字符是实体的开始位置;
I表示该字符是实体的中间位置;
E表示该字符实体的结束位置;
O表示该字符实体的不属于任何实体类型;
S表示该字符单独构成一个实体;
x表示该字符所在实体的类型;
1.3)实体类别标注策略:
定义特种设备领域命名实体的类型,包括C、P、F和A四类,分别表示特种设备的组成、参数、故障和事故;
1.3)训练数据集标注:
根据实体标注策略和实体类型对实体进行标注,对数据集中的训练集进行标注;
2)基于BERT预训练模型的字向量表示:
BERT预训练模型通过联合调节所有层中的双向Transformer来预训练深度双向表示,利用BERT的BertModel类构造BERT结构,然后将输入的特种设备中文汉字序列输入到BERT特征表示层中,对文本中的每个汉字进行编码得到中文汉字的向量表示:
x=(x1,x2,x3…xn) (1)
3)biLSTM上下文编码:
3.1)biLSTM的输入:
biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并初始化隐藏状态h0
3.2)基于biLSTM的字向量序列双向编码:
biLSTM隐藏层输出表示公式如下:
it=σ(Wixxt+Wihht-1+bi) (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
ot=σ(Woxxt+Wohht-1+bo) (4)
Figure FDA0003196898760000021
Figure FDA0003196898760000022
Figure FDA0003196898760000023
其中,W、b分别表示连接两层的权重矩阵和偏置向量,σ是sigmoid激活函数,
Figure FDA0003196898760000024
为点乘运算,xt为t时刻的输入,ct为t时刻的细胞状态,
Figure FDA0003196898760000025
为t时刻的临时细胞状态,ht表示t时刻的隐藏层状态,ft、it和ot表示t时刻的遗忘门、记忆门和输出门;
对输入序列分别采用顺序和逆序的方式计算得到两种不同的隐藏层表示h和h,然后通过向量拼接的方式得到最终的隐藏层表示,公式如下:
hi=[hi前+hi后] (8)
其中hi前,hi后分别表示第i个字符对应的前、后向隐藏层表示,[]表示相量拼接,hi表示最终的隐藏层表示;
将得到的隐藏层表示经过一个线性层映射为一个维度为输出标签数量的向量,然后通过Sofimax函数进行归一化处理,得到每种标签的概率P,计算公式如下:
P=log(Softmax(hi)) (9)
3.3)最小化损失函数:
采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距,NLLLoss函数接收两个张量,第一个张量是标签的概率值,第二个是目标结果,根据目标结果的取值找出标签的概率值中对应位置的元素,求和取平均值,通过随机梯度下降法最小化损失函数值,公式如下:
Loss二NLLLoss(output,target) (10)
其中output是标签的概率值,target是目标结果;
4)基于CRF条件随机场解码标签序列:
4.1)学习状态矩阵和转移矩阵:
采用CRF条件随机场学习上下文的标签信息,CRF算法中涉及到状态矩阵和转移矩阵;
在条件随机场中,对于一个输入序列x=(x1,x2,x3…xn),序列中的第i个字对应k个特定标签的概率构成一个状态矩阵,是当前字符对应于每个标签的概率分数,表示为:
Figure FDA0003196898760000031
其中,分数越高就代表该字对应于该标签的概率越高,n表示序列长度,i表示序列中第i个字符,yi则表示该字符对应的标签,k表示标签数量,
Figure FDA0003196898760000032
表示一个维度为n×k的矩阵;
在条件随机场中,对于特定的k个标签,从标签i转移到标签i+1的转移得分构成一个转移矩阵,用来表示标签与标签之间的转移关系,表示为:
Figure FDA0003196898760000033
其中,分数越高代表标签yi转移到下一个标签yi+1的概率越高;
4.2)计算序列标签最大概率:
根据状态矩阵和转移矩阵,对于一个输入序列x=(x1,x2,x3…xn),其对应的标签序列为y=(y1,y2,y3…yn)的评分公式为:
Figure FDA0003196898760000034
用Softmax函数归一化得到y序列标签的概率,公式如下:
Figure FDA0003196898760000035
其中,
Figure FDA0003196898760000036
代表序列真实路径标记值,Yx表示所有可能的路径标记的集合,e是指数函数;
4.3)最小化损失函数:
在训练过程中,采用以下损失函数最大化正确标签的似然概率,通过随机梯度下降法最小化损失函数的值,计算公式为:
Figure FDA0003196898760000037
4.4)基于维特比算法解码最终标签序列:
在中文命名实体识别模型训练完成之后,得到了每个汉字的所有可能的标签序列;然后,采用维特比算法解码该标签序列,即计算标签序列中的最优序列,该算法每次记录到当前时刻每个观察标签的最优序列,用动态规划的方法减少不必要的重复计算,到结束时,从最后一个时刻的最优值回溯到开始位置,回溯完成后,这个从开始到结束的路径就是最优的;
对于一组未知标签的序列x,采用维特比算法获得所有标签序列上预测总得分最高的标签序列,计算公式如下:
Figure FDA0003196898760000041
最后,输出汉字序列x所对应的最终实体标签序列y*
CN202110893472.4A 2021-08-04 2021-08-04 一种基于预训练模型的特种设备中文命名实体识别方法 Pending CN113609859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110893472.4A CN113609859A (zh) 2021-08-04 2021-08-04 一种基于预训练模型的特种设备中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110893472.4A CN113609859A (zh) 2021-08-04 2021-08-04 一种基于预训练模型的特种设备中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN113609859A true CN113609859A (zh) 2021-11-05

Family

ID=78339560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110893472.4A Pending CN113609859A (zh) 2021-08-04 2021-08-04 一种基于预训练模型的特种设备中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113609859A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806496A (zh) * 2021-11-19 2021-12-17 航天宏康智能科技(北京)有限公司 从文本序列中抽取实体的方法及装置
CN114036950A (zh) * 2021-11-10 2022-02-11 山东大学 一种医疗文本命名实体识别方法及系统
CN114048749A (zh) * 2021-11-19 2022-02-15 重庆邮电大学 一种适用于多领域的中文命名实体识别方法
CN114153803A (zh) * 2021-12-03 2022-03-08 西安交通大学 一种基于预训练模型的政务文件归属省份分类方法
CN114297987A (zh) * 2022-03-09 2022-04-08 杭州实在智能科技有限公司 基于文本分类和阅读理解的文档信息抽取方法及系统
CN114330345A (zh) * 2021-12-24 2022-04-12 北京百度网讯科技有限公司 命名实体识别方法、训练方法、装置、电子设备及介质
CN114495114A (zh) * 2022-04-18 2022-05-13 华南理工大学 基于ctc解码器的文本序列识别模型校准方法
CN114564959A (zh) * 2022-01-14 2022-05-31 北京交通大学 中文临床表型细粒度命名实体识别方法及系统
CN114580424A (zh) * 2022-04-24 2022-06-03 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114580422A (zh) * 2022-03-14 2022-06-03 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114764566A (zh) * 2022-04-11 2022-07-19 中国航空综合技术研究所 用于航空领域的知识元抽取方法
CN114781387A (zh) * 2022-06-20 2022-07-22 北京惠每云科技有限公司 一种医学命名实体识别方法、装置、电子设备及存储介质
CN114818717A (zh) * 2022-05-25 2022-07-29 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统
CN115292518A (zh) * 2022-08-18 2022-11-04 国家电网有限公司 基于知识型信息抽取的配电网故障处理方法及系统
CN115422934A (zh) * 2022-07-08 2022-12-02 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、系统
CN116050418A (zh) * 2023-03-02 2023-05-02 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN117252154A (zh) * 2023-11-20 2023-12-19 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统
CN117473102A (zh) * 2023-11-17 2024-01-30 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢腾等: "基于BERT-BiLSTM-CRF 模型的中文实体识别", 《计算机系统应用》, pages 48 - 55 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036950B (zh) * 2021-11-10 2024-05-10 山东大学 一种医疗文本命名实体识别方法及系统
CN114036950A (zh) * 2021-11-10 2022-02-11 山东大学 一种医疗文本命名实体识别方法及系统
CN114048749A (zh) * 2021-11-19 2022-02-15 重庆邮电大学 一种适用于多领域的中文命名实体识别方法
CN114048749B (zh) * 2021-11-19 2024-02-02 北京第一因科技有限公司 一种适用于多领域的中文命名实体识别方法
CN113806496A (zh) * 2021-11-19 2021-12-17 航天宏康智能科技(北京)有限公司 从文本序列中抽取实体的方法及装置
CN114153803A (zh) * 2021-12-03 2022-03-08 西安交通大学 一种基于预训练模型的政务文件归属省份分类方法
CN114330345A (zh) * 2021-12-24 2022-04-12 北京百度网讯科技有限公司 命名实体识别方法、训练方法、装置、电子设备及介质
CN114564959A (zh) * 2022-01-14 2022-05-31 北京交通大学 中文临床表型细粒度命名实体识别方法及系统
CN114297987A (zh) * 2022-03-09 2022-04-08 杭州实在智能科技有限公司 基于文本分类和阅读理解的文档信息抽取方法及系统
CN114580422A (zh) * 2022-03-14 2022-06-03 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114580422B (zh) * 2022-03-14 2022-12-13 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114764566A (zh) * 2022-04-11 2022-07-19 中国航空综合技术研究所 用于航空领域的知识元抽取方法
CN114764566B (zh) * 2022-04-11 2024-01-23 中国航空综合技术研究所 用于航空领域的知识元抽取方法
CN114495114A (zh) * 2022-04-18 2022-05-13 华南理工大学 基于ctc解码器的文本序列识别模型校准方法
CN114580424A (zh) * 2022-04-24 2022-06-03 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114580424B (zh) * 2022-04-24 2022-08-05 之江实验室 一种用于法律文书的命名实体识别的标注方法和装置
CN114818717A (zh) * 2022-05-25 2022-07-29 华侨大学 融合词汇和句法信息的中文命名实体识别方法及系统
CN114781387A (zh) * 2022-06-20 2022-07-22 北京惠每云科技有限公司 一种医学命名实体识别方法、装置、电子设备及存储介质
CN115422934A (zh) * 2022-07-08 2022-12-02 中国科学院空间应用工程与技术中心 一种航天文本数据的实体识别与链接方法、系统
CN115292518A (zh) * 2022-08-18 2022-11-04 国家电网有限公司 基于知识型信息抽取的配电网故障处理方法及系统
CN116050418A (zh) * 2023-03-02 2023-05-02 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN116050418B (zh) * 2023-03-02 2023-10-31 浙江工业大学 基于融合多层语义特征的命名实体识别方法、设备和介质
CN117473102A (zh) * 2023-11-17 2024-01-30 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和系统
CN117473102B (zh) * 2023-11-17 2024-07-05 北京建筑大学 一种基于标签混淆学习的bim知识图谱构建方法和系统
CN117252154A (zh) * 2023-11-20 2023-12-19 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统
CN117252154B (zh) * 2023-11-20 2024-01-23 北京语言大学 一种基于预训练语言模型的中文简繁字符转换方法及系统

Similar Documents

Publication Publication Date Title
CN113609859A (zh) 一种基于预训练模型的特种设备中文命名实体识别方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
CN110851599A (zh) 一种中文作文自动评分方法及教辅系统
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN113360667B (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN111476024A (zh) 一种文本分词方法、装置及模型训练方法
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN112802570A (zh) 一种针对电子病历命名实体识别系统及方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN113488196A (zh) 一种药品说明书文本命名实体识别建模方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN116108190A (zh) 一种面向智能运维的电力变压器知识图谱构建方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination