CN113609859A - 一种基于预训练模型的特种设备中文命名实体识别方法 - Google Patents
一种基于预训练模型的特种设备中文命名实体识别方法 Download PDFInfo
- Publication number
- CN113609859A CN113609859A CN202110893472.4A CN202110893472A CN113609859A CN 113609859 A CN113609859 A CN 113609859A CN 202110893472 A CN202110893472 A CN 202110893472A CN 113609859 A CN113609859 A CN 113609859A
- Authority
- CN
- China
- Prior art keywords
- sequence
- label
- entity
- character
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 27
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 29
- 238000002372 labelling Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- RXKJFZQQPQGTFL-UHFFFAOYSA-N dihydroxyacetone Chemical compound OCC(=O)CO RXKJFZQQPQGTFL-UHFFFAOYSA-N 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种基于预训练模型的特种设备中文命名实体识别方法,包括以下步骤:1)按照中文命名实体标注策略BIEOS对中文命名实体数据集进行标注,将实体类别分为四种类别;2)基于BERT预训练模型将中文句子转换为字向量表示;3)将字向量表示输入到biLSTM模型中,学习字向量序列双向编码,提取句子特征;4)采用CRF条件随机场学习上下文的标签概率,得到了每个汉字的所有可能的标签序列;5)最后输出汉字序列对应的实体类别。本发明通过无监督的方式对无标签语料中进行训练,能够有效解决小数据集、样本特征信息不足情况下中文命名实体提取的问题,用于构建特种设备领域的知识图谱。
Description
技术领域
本发明涉及知识图谱、深度学习、特种设备、实体识别等领域,特别给出了一种基于预训练模型的特种设备中文命名实体识别方法。
背景技术
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化地描述,现已被用来泛指各种大规模的知识库。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是(实体,关系,实体)三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构,知识图谱被广泛应用于智能搜索、智能问答、个性化推荐等方面。
实体识别是知识图谱构建过程中的一项基础性任务,旨在从非结构化文本中提取出具有特定意义和类型的实体。现今,中文实体识别面临的主要问题在于中文和英文不同的语言特性,中文没有空格且基本单元是字,因此从字级别来理解句子会非常困难。
基于深度学习的实体识别模型主要包括基于循环神经网络、长短期记忆网络、卷积神经网络等实体识别方法。BiLSTM-CRF(Computer Science,2015)首次将双向长短期记忆网络模型应用于实体识别中,BiLSTM可以使用过去和未来的输入特征,CRF可以使用句子级的标注信息。LSTM-CNNs-CRF(Association for Computational Linguistics,2016)采用CNN将单词的字符信息编码为字符级特征然后与word embedding联合输入BiLSTM构建每个字符的上下文特征,最后由CRF利用上下文标签信息来解码整个句子的标签。Lattice-structured LSTM(Association for Computational Linguistics,2018)编码了序列中输入的字符信息和潜在词汇信息,对比以前只基于单个字的输入表征,这里可以明确地利用词汇信息,并且避免了实体分割错误的情况。WC-LSTM(Association for ComputationalLinguistics,2019)利用了四种不同的策略来将单词信息编码为固定大小的矢量,使其可以分批训练并适应各种应用场景。Multi-digraph Gazetteers(Association forComputational Linguistics,2019)利用词典和图神经网络融入单词信息给NER系统。LR-CNN(International Joint Conference on Artificial Intelligence)提出一种含有rethinking机制的CNN网络,通过CNN对句子与lexicon中存在的词语进行处理并且通过rethinking机制解决lexicon冲突。CAN-NER(North American Association forComputational Linguistics,2019)提出了基于注意力机制的卷积神经网络架构,用于中文实体识别。
特种设备领域的实体识别是构建特种设备知识图谱的关键步骤,其任务是从特种设备非结构化数据中提取特定类型的命名实体。目前,在特种设备领域中,还没有公开的标注数据集,领域文本数据规模较小,样本特征信息也不足,这些问题导致现有的模型难以有效识别特种设备领域的命名实体。
发明内容
本发明针对特种设备领域存在标注数量较少且实体识别精度不高等问题,提出了一种基于预训练模型的特种设备实体识别模型,该模型能够较充分地学习特种设备领域的文本特征信息,提取特种设备命名实体,从而构建知识图谱。
为了解决技术问题本发明提供如下的技术方案:
一种基于预训练模型的特种设备中文命名实体识别方法,包括以下步骤:
1)中文命名实体数据集标注:
1.1)数据获取:
从文档、书籍、文献、网页中抽取特种设备领域相关的大量数据,对数据进行清洗和去重,作为中文实体识别的数据源。
1.2)中文命名实体标注策略:
定义中文命名实体标注策略BIEOS,标注类别包括:
B表示该字符是实体的开始位置;
I表示该字符是实体的中间位置;
E表示该字符实体的结束位置;
O表示该字符实体的不属于任何实体类型;
S表示该字符单独构成一个实体;
x表示该字符所在实体的类型;
1.3)实体类别标注策略:
定义特种设备领域命名实体的类型,包括C、P、F和A四类,分别表示组成、参数、故障和事故,如下表1所示:
表1特种设备领域实体类型
标注符号 | 实体类别 | 类别定义 | 示例 |
C | 组成 | 设备组件 | 曳引机、层门等 |
P | 参数 | 设备参数 | 运行速度、载重量等 |
F | 故障 | 设备故障 | 停止运行、平层不准等 |
A | 事故 | 电梯事故 | 墩底、冲顶等 |
1.3)训练数据集标注:
根据实体标注策略和实体类型对实体进行标注,对训练集进行标注,其标注方法如下表2所示:
表2标注策略
实体类别 | 开始标签 | 中间标签 | 结尾 |
组成 | B-C | I-C | E-C |
参数 | B-P | I-P | E-P |
故障 | B-F | I-F | E-F |
事故 | B-A | I-A | E-A |
2)基于BERT预训练模型的字向量表示:
BERT是一种新型语言模型,它通过联合调节所有层中的双向Transformer来预训练深度双向表示,利用BERT的BertModel类构造BERT结构,然后将输入的特种设备中文汉字序列输入到BERT特征表示层中,对文本中的每个汉字进行编码得到中文汉字的向量表示:
x=(x1,x2,x3…xn) (1)
3)biLSTM上下文编码:
biLSTM是一种双向长短期记忆网络,适合于时序数据建模,可以更好地捕捉较长距离双向语义依赖关系;
3.1)biLSTM的输入:
biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并初始化隐藏状态h0;
3.2)基于biLSTM的字向量序列双向编码:
biLSTM隐藏层输出表示公式如下:
it=σ(Wixxt+Wihht-1+bi) (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
ot=σ(Woxxt+Wohht-1+bo) (4)
其中,W、b分别表示连接两层的权重矩阵和偏置向量,σ是sigmoid激活函数,为点乘运算,xt为输入向量,it,ft和ot分别为t时刻的输入门、遗忘门和输出门,表示t时刻的状态,ht则为t时刻隐藏层的输出;
对输入序列分别采用顺序和逆序的方式计算后得到两种不同的隐藏层表示h前和h后,然后通过向量拼接的方式得到最终的隐藏层表示,公示如下:
hi=[hi前+hi后] (8)
其中hi前,hi后分别表示第i个字符对应的前、后向隐藏层表示,[]表示相量拼接,hi表示最终的隐藏层表示。
将得到的隐藏层表示经过一个线性层映射为一个维度为输出标签数量的向量,然后通过Softmax函数进行归一化处理,输出每种标签的概率分数P,公式如下:
P=log(Softmax(hi)) (9)
由此得到每种标签的概率值;
3.3)最小化损失函数:
采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距,NLLLoss函数接收两个张量,第一个张量是标签的概率值,第二个是目标结果,根据目标结果的取值找出标签的概率值中对应位置的元素,求和取平均值,通过随机梯度下降法最小化损失函数值,公式如下:
Loss=NLLLoss(output,target) (10)
其中output是标签的概率值,target是目标结果;
4)基于CRF条件随机场解码标签序列:
4.1)学习状态矩阵和转移矩阵:
采用CRF(Conditional Random Field)条件随机场学习上下文的标签信息,CRF算法中涉及到状态矩阵和转移矩阵;
在条件随机场中,对于一个输入序列x=(x1,x2,x3…xn),序列中的第i个字对应k个特定标签的概率构成一个状态矩阵,是当前字符对应于每个标签的概率分数,表示为:
在条件随机场中,对于特定的k个标签,从标签i转移到标签i+1的转移得分构成一个转移矩阵,用来表示标签与标签之间的转移关系,表示为:
其中,分数越高代表标签yi转移到下一个标签yi+1的概率越高;
4.2)计算序列标签最大概率:
根据状态矩阵和转移矩阵,对于一个输入序列x=(x1,x2,x3…xn),其对应的标签序列为y=(y1,y2,y3…yn)的评分公式为:
用Softmax函数归一化得到y序列标签的概率,公式如下:
4.3)最小化损失函数:
在训练过程中,采用以下损失函数最大化正确标签的似然概率,通过随机梯度下降法最小化损失函数的值,计算公式为:
4.4)基于维特比算法解码最终标签序列:
在中文命名实体识别模型训练完成之后,得到了每个汉字的所有可能的标签序列;然后,采用维特比算法解码该标签序列,即计算标签序列中的最优序列,该算法每次记录到当前时刻每个观察标签的最优序列,用动态规划的方法减少不必要的重复计算,到结束时,从最后一个时刻的最优值回溯到开始位置,回溯完成后,这个从开始到结束的路径就是最优的;
对于一组未知标签的序列x,采用维特比算法获得所有标签序列上预测总得分最高的标签序列,计算公式如下:
最后,输出汉字序列x所对应的最终实体标签序列y*。
本发明的有益效果为:本发明给出的应用于特种设备领域的实体识别方法融合了预训练语言模型,长短期记忆网络以及条件随机场。其优势在于预训练模型是通过无监督的方式从大规模无标签语料中训练得到的,其充分考虑字符、词语、句子以及句子间的特征关系,增强字向量的语义表示,这可以有效解决特种设备领域数据规模较小,样本特征信息不足的问题。BiLSTM对于命名实体识别任务捕捉长距离信息并解决梯度消失问题效果显著。条件随机场能够让模型学习到标签之间的约束信息,通过考虑相邻标签之间的关系来保证最终预测标签的合理性。最终训练得到的实体识别模型可以用于特种设备自动识别实体,便于后续特种设备知识图谱的构建工作。
附图说明
图1是预训练模型图;
图2是实体识别标注结果。
具体实施方式
以电梯典型特种设备为例,结合图1和图2对本发明作进一步说明。
一种基于预训练训练模型的特种设备中文实体识别方法,包括以下步骤:
1)中文命名实体数据集标注:
1.1)数据获取:
从文档、书籍、文献、网页中抽取特种设备领域相关的大量数据,对数据进行清洗和去重,作为中文实体识别的数据源;
1.2)中文实体标注策略:
采用中文命名实体标注策略和实体类别标注策略,对文本进行标注,如“导致曳引机出现了问题”文本序列的标注结果如图2所示;
2)基于BERT预训练语言模型的字向量表示:
将文本序列“导致曳引机出现了问题”输入到BERT预训练层中,得到每个字符的向量表示:x=(x1,x2,……x9,x10),如图1所示;
3)基于biLSTM的字向量序列双向编码:
3.1)biLSTM的输入:
biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并随机初始化隐藏状态h0;
3.2)基于biLSTM的字向量序列双向编码:
向量x输入到两个双向的LSTM单元,通过公式(2)(3)(4)(5)(6)(7),计算得到每个字符对应的正向反向隐藏层输出hi前和hi后,将每个字符的正向反向隐藏层输出hi前,hi后通过公式(8)进行拼接为最终的隐藏层表示hi,经过一个线性层映射为一个维度为输出标签数量的向量,使用公式(9)通过Softmax函数进行归一化处理,输出对应的每种标签的概率分数P;
3.3)最小化损失函数:
最后,根据公式(10),采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距。通过随机梯度下降法最小化损失函数值,直至收敛;
4)基于CRF条件随机场的标签序列预测,过程如下:
4.1)学习状态矩阵和转移矩阵:
B-C | 0.9 | 0.4 | 0.4 | 0.2 |
I-C | 0.5 | 0.8 | 0.5 | 0.1 |
E-C | 0.1 | 0.6 | 0.9 | 0.3 |
O | 0.5 | 0.2 | 0.1 | 0.9 |
… | 0.3 | 0.1 | 0.1 | 0.4 |
w<sub>1</sub> | w<sub>2</sub> | w<sub>3</sub> | w<sub>4</sub> |
2)转移矩阵:转移得分矩阵在训练模型之前,随机初始化该矩阵。在训练过程中,这个矩阵中的所有随机得分将得到更新,最终得到转移得分矩阵在训练过程中,为了使转移得分矩阵的鲁棒性更好,在数据中额外再加两个标签:“START”和“END”,“START”表示一句话的开始,注意这不是指该句话的第一个字,“START”后才是第一个字,同理“END”代表着这句话的结束。如下表所示转移得分矩阵,AB-C,I-C=0.9表示标签“B-C”转移到“I-C”的得分,即“B-C”后的标签很可能是“I-C”;
START | B-C | I-C | E-C | O | END | |
START | 0 | 0.8 | 0.007 | 0.005 | 0.9 | 0.08 |
B-C | 0 | 0.4 | 0.9 | 0.8 | 0.1 | 0.009 |
I-C | 0.001 | 0.4 | 0.75 | 0.78 | 0.12 | 0.005 |
E-C | 0.002 | 0.6 | 0.2 | 0.3 | 0.78 | 0.6 |
O | 0 | 0.65 | 0.008 | 0.07 | 0.85 | 0.7 |
END | 0 | 0 | 0 | 0 | 0 | 0 |
4.2)计算序列标签概率:
根据状态矩阵和转移矩阵,对于输入序列x=(x1,x2,…,x9,x10),其对应的标签序列为y=(y1,y2,…,y9,y10),由公式(11)求得输入序列对应的标签序列的评分为Score,然后由公式(12)得到y序列标签的概率P;
4.3)最小化损失函数:
由公式(13)损失函数,在训练过程中,模型将会不断更新,通过随机梯度下降法最小化损失函数的值,直至收敛;
4.4)基于维比特算法解码最终标签序列:
在模型训练完成之后,给定一组未知标签的序列x,通过维特比算法即公式(14)来获得所有标签序列上总得分最高的标签序列,作为特种设备领域命名实体识别的最终标注结果y*;
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
Claims (1)
1.一种基于预训练模型的特种设备中文命名实体识别方法,其特征在于,包括以下步骤:
1)中文命名实体数据集标注:
1.1)数据获取:
抽取特种设备领域相关的文本数据,对数据进行清洗和去重,作为中文实体识别的数据集,将数据集划分为训练集和测试集;
1.2)中文命名实体标注策略:
定义中文命名实体标注策略BIEOS,标注类别包括:
B表示该字符是实体的开始位置;
I表示该字符是实体的中间位置;
E表示该字符实体的结束位置;
O表示该字符实体的不属于任何实体类型;
S表示该字符单独构成一个实体;
x表示该字符所在实体的类型;
1.3)实体类别标注策略:
定义特种设备领域命名实体的类型,包括C、P、F和A四类,分别表示特种设备的组成、参数、故障和事故;
1.3)训练数据集标注:
根据实体标注策略和实体类型对实体进行标注,对数据集中的训练集进行标注;
2)基于BERT预训练模型的字向量表示:
BERT预训练模型通过联合调节所有层中的双向Transformer来预训练深度双向表示,利用BERT的BertModel类构造BERT结构,然后将输入的特种设备中文汉字序列输入到BERT特征表示层中,对文本中的每个汉字进行编码得到中文汉字的向量表示:
x=(x1,x2,x3…xn) (1)
3)biLSTM上下文编码:
3.1)biLSTM的输入:
biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并初始化隐藏状态h0;
3.2)基于biLSTM的字向量序列双向编码:
biLSTM隐藏层输出表示公式如下:
it=σ(Wixxt+Wihht-1+bi) (2)
ft=σ(Wfxxt+Wfhht-1+bf) (3)
ot=σ(Woxxt+Wohht-1+bo) (4)
其中,W、b分别表示连接两层的权重矩阵和偏置向量,σ是sigmoid激活函数,为点乘运算,xt为t时刻的输入,ct为t时刻的细胞状态,为t时刻的临时细胞状态,ht表示t时刻的隐藏层状态,ft、it和ot表示t时刻的遗忘门、记忆门和输出门;
对输入序列分别采用顺序和逆序的方式计算得到两种不同的隐藏层表示h前和h后,然后通过向量拼接的方式得到最终的隐藏层表示,公式如下:
hi=[hi前+hi后] (8)
其中hi前,hi后分别表示第i个字符对应的前、后向隐藏层表示,[]表示相量拼接,hi表示最终的隐藏层表示;
将得到的隐藏层表示经过一个线性层映射为一个维度为输出标签数量的向量,然后通过Sofimax函数进行归一化处理,得到每种标签的概率P,计算公式如下:
P=log(Softmax(hi)) (9)
3.3)最小化损失函数:
采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距,NLLLoss函数接收两个张量,第一个张量是标签的概率值,第二个是目标结果,根据目标结果的取值找出标签的概率值中对应位置的元素,求和取平均值,通过随机梯度下降法最小化损失函数值,公式如下:
Loss二NLLLoss(output,target) (10)
其中output是标签的概率值,target是目标结果;
4)基于CRF条件随机场解码标签序列:
4.1)学习状态矩阵和转移矩阵:
采用CRF条件随机场学习上下文的标签信息,CRF算法中涉及到状态矩阵和转移矩阵;
在条件随机场中,对于一个输入序列x=(x1,x2,x3…xn),序列中的第i个字对应k个特定标签的概率构成一个状态矩阵,是当前字符对应于每个标签的概率分数,表示为:
在条件随机场中,对于特定的k个标签,从标签i转移到标签i+1的转移得分构成一个转移矩阵,用来表示标签与标签之间的转移关系,表示为:
其中,分数越高代表标签yi转移到下一个标签yi+1的概率越高;
4.2)计算序列标签最大概率:
根据状态矩阵和转移矩阵,对于一个输入序列x=(x1,x2,x3…xn),其对应的标签序列为y=(y1,y2,y3…yn)的评分公式为:
用Softmax函数归一化得到y序列标签的概率,公式如下:
4.3)最小化损失函数:
在训练过程中,采用以下损失函数最大化正确标签的似然概率,通过随机梯度下降法最小化损失函数的值,计算公式为:
4.4)基于维特比算法解码最终标签序列:
在中文命名实体识别模型训练完成之后,得到了每个汉字的所有可能的标签序列;然后,采用维特比算法解码该标签序列,即计算标签序列中的最优序列,该算法每次记录到当前时刻每个观察标签的最优序列,用动态规划的方法减少不必要的重复计算,到结束时,从最后一个时刻的最优值回溯到开始位置,回溯完成后,这个从开始到结束的路径就是最优的;
对于一组未知标签的序列x,采用维特比算法获得所有标签序列上预测总得分最高的标签序列,计算公式如下:
最后,输出汉字序列x所对应的最终实体标签序列y*。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110893472.4A CN113609859A (zh) | 2021-08-04 | 2021-08-04 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110893472.4A CN113609859A (zh) | 2021-08-04 | 2021-08-04 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609859A true CN113609859A (zh) | 2021-11-05 |
Family
ID=78339560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110893472.4A Pending CN113609859A (zh) | 2021-08-04 | 2021-08-04 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609859A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806496A (zh) * | 2021-11-19 | 2021-12-17 | 航天宏康智能科技(北京)有限公司 | 从文本序列中抽取实体的方法及装置 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114048749A (zh) * | 2021-11-19 | 2022-02-15 | 重庆邮电大学 | 一种适用于多领域的中文命名实体识别方法 |
CN114153803A (zh) * | 2021-12-03 | 2022-03-08 | 西安交通大学 | 一种基于预训练模型的政务文件归属省份分类方法 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114330345A (zh) * | 2021-12-24 | 2022-04-12 | 北京百度网讯科技有限公司 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
CN114495114A (zh) * | 2022-04-18 | 2022-05-13 | 华南理工大学 | 基于ctc解码器的文本序列识别模型校准方法 |
CN114564959A (zh) * | 2022-01-14 | 2022-05-31 | 北京交通大学 | 中文临床表型细粒度命名实体识别方法及系统 |
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114764566A (zh) * | 2022-04-11 | 2022-07-19 | 中国航空综合技术研究所 | 用于航空领域的知识元抽取方法 |
CN114781387A (zh) * | 2022-06-20 | 2022-07-22 | 北京惠每云科技有限公司 | 一种医学命名实体识别方法、装置、电子设备及存储介质 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN115292518A (zh) * | 2022-08-18 | 2022-11-04 | 国家电网有限公司 | 基于知识型信息抽取的配电网故障处理方法及系统 |
CN115422934A (zh) * | 2022-07-08 | 2022-12-02 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的实体识别与链接方法、系统 |
CN116050418A (zh) * | 2023-03-02 | 2023-05-02 | 浙江工业大学 | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
CN117252154A (zh) * | 2023-11-20 | 2023-12-19 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
CN117473102A (zh) * | 2023-11-17 | 2024-01-30 | 北京建筑大学 | 一种基于标签混淆学习的bim知识图谱构建方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
-
2021
- 2021-08-04 CN CN202110893472.4A patent/CN113609859A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
Non-Patent Citations (1)
Title |
---|
谢腾等: "基于BERT-BiLSTM-CRF 模型的中文实体识别", 《计算机系统应用》, pages 48 - 55 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036950B (zh) * | 2021-11-10 | 2024-05-10 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN114048749A (zh) * | 2021-11-19 | 2022-02-15 | 重庆邮电大学 | 一种适用于多领域的中文命名实体识别方法 |
CN114048749B (zh) * | 2021-11-19 | 2024-02-02 | 北京第一因科技有限公司 | 一种适用于多领域的中文命名实体识别方法 |
CN113806496A (zh) * | 2021-11-19 | 2021-12-17 | 航天宏康智能科技(北京)有限公司 | 从文本序列中抽取实体的方法及装置 |
CN114153803A (zh) * | 2021-12-03 | 2022-03-08 | 西安交通大学 | 一种基于预训练模型的政务文件归属省份分类方法 |
CN114330345A (zh) * | 2021-12-24 | 2022-04-12 | 北京百度网讯科技有限公司 | 命名实体识别方法、训练方法、装置、电子设备及介质 |
CN114564959A (zh) * | 2022-01-14 | 2022-05-31 | 北京交通大学 | 中文临床表型细粒度命名实体识别方法及系统 |
CN114297987A (zh) * | 2022-03-09 | 2022-04-08 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114580422B (zh) * | 2022-03-14 | 2022-12-13 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114764566A (zh) * | 2022-04-11 | 2022-07-19 | 中国航空综合技术研究所 | 用于航空领域的知识元抽取方法 |
CN114764566B (zh) * | 2022-04-11 | 2024-01-23 | 中国航空综合技术研究所 | 用于航空领域的知识元抽取方法 |
CN114495114A (zh) * | 2022-04-18 | 2022-05-13 | 华南理工大学 | 基于ctc解码器的文本序列识别模型校准方法 |
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN114580424B (zh) * | 2022-04-24 | 2022-08-05 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN114818717A (zh) * | 2022-05-25 | 2022-07-29 | 华侨大学 | 融合词汇和句法信息的中文命名实体识别方法及系统 |
CN114781387A (zh) * | 2022-06-20 | 2022-07-22 | 北京惠每云科技有限公司 | 一种医学命名实体识别方法、装置、电子设备及存储介质 |
CN115422934A (zh) * | 2022-07-08 | 2022-12-02 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的实体识别与链接方法、系统 |
CN115292518A (zh) * | 2022-08-18 | 2022-11-04 | 国家电网有限公司 | 基于知识型信息抽取的配电网故障处理方法及系统 |
CN116050418A (zh) * | 2023-03-02 | 2023-05-02 | 浙江工业大学 | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
CN116050418B (zh) * | 2023-03-02 | 2023-10-31 | 浙江工业大学 | 基于融合多层语义特征的命名实体识别方法、设备和介质 |
CN117473102A (zh) * | 2023-11-17 | 2024-01-30 | 北京建筑大学 | 一种基于标签混淆学习的bim知识图谱构建方法和系统 |
CN117473102B (zh) * | 2023-11-17 | 2024-07-05 | 北京建筑大学 | 一种基于标签混淆学习的bim知识图谱构建方法和系统 |
CN117252154A (zh) * | 2023-11-20 | 2023-12-19 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
CN117252154B (zh) * | 2023-11-20 | 2024-01-23 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113609859A (zh) | 一种基于预训练模型的特种设备中文命名实体识别方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN109918681B (zh) | 一种基于汉字-拼音的融合问题语义匹配方法 | |
CN113553440B (zh) | 一种基于层次推理的医学实体关系抽取方法 | |
CN110851599A (zh) | 一种中文作文自动评分方法及教辅系统 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN113360667B (zh) | 基于多任务学习的生物医学触发词检测和命名实体识别方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN115034208A (zh) | 一种基于bert的中文asr输出文本修复方法及系统 | |
CN112802570A (zh) | 一种针对电子病历命名实体识别系统及方法 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
CN113488196A (zh) | 一种药品说明书文本命名实体识别建模方法 | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
CN116108190A (zh) | 一种面向智能运维的电力变压器知识图谱构建方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |