CN113779992A - 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 - Google Patents
基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 Download PDFInfo
- Publication number
- CN113779992A CN113779992A CN202110813366.0A CN202110813366A CN113779992A CN 113779992 A CN113779992 A CN 113779992A CN 202110813366 A CN202110813366 A CN 202110813366A CN 113779992 A CN113779992 A CN 113779992A
- Authority
- CN
- China
- Prior art keywords
- training
- word
- layer
- bilstm
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013461 design Methods 0.000 claims abstract description 11
- 238000013508 migration Methods 0.000 claims abstract description 5
- 230000005012 migration Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 58
- 238000000605 extraction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 8
- 238000010380 label transfer Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 4
- 238000011423 initialization method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract 1
- 239000000463 material Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法。基于词汇增强的模型SW‑BiLSTM‑CRF,并以构建的语料库作为训练数据进行训练,得到的模型作为数据矫正的依据,迭代语料库。在此基础上,使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练,得到BcBERT(Building Code BERT),从而将通用领域和建筑领域其他规范文本的知识迁移至SW‑BiLSTM‑CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。
Description
技术领域
本发明是地铁领域实体识别和实体关系抽取研究的一个重要过 程,具体涉及到基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模 型的实现方法。
背景技术
随着计算机科学技术发发展,自然语言处理领域在深度学习方向 也得到了具有现实意义和应用前景的进展,而对于自然语言处理,要 做到精细深度的语义理解,单纯的依靠人工的方法进行数据标注与算 力投入无法解决本质问题。
目前,对于地铁领域实体识别和实体关系抽取的研究正处于起步 阶段,没有针对地铁设计规范文本对应的公开权威的语料库。根本原 因在于,规范中的内容涉及专业多,情况多,关系复杂,使得专业领 域人员和具备自然语言处理技术的人都无法单独展开工作。因此,基 于机器学习的方法无法获得有效的标注语料。因此需要相关的模型算 法来优化提升机器的实体关系识别的能力。
发明内容
本发明的目的在于提供基于词汇增强和预训练的 BcBERT-SW-BiLSTM-CRF模型的实现方法。解决了现有技术中存在的 地铁设计规范命名实体识别准确性不高的问题。
基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方 法,本发明首先经过动态引入的SW-BiLSTM-CRF模型;然后使用基于 预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现 BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。
SW-BiLSTM-CRF模型,主要分为输入层、查找层、特征提取层、 数据投射层和输出层五个模块。
输入层的字需要提前做如下处理:以BIO标注体系标注的文本文 档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别 得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入 层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其 中还需要用特殊字符0来补齐句子,使每条句子长度一致。词汇增 强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的 边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实 体的始末,以及实体的中间位置,词信息的处理和字处理的方式类似。
查找层主要工作是将输入层的句子编号序列用向量进行表征;提 前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中, 矩阵的行表示一个个字的表征向量;这些向量可以采用随机初始化的 方法,从一个区间均匀分布中生成随机数字,也可以是预训练得到的 向量文件。如果是后者,则需要使用输入层中预处理得到的编号到字 的字典,查出编号对应的字,然后去预训练向量文件中查找对应的向 量。最后将字、词边界和词信息进行拼接作为下一层的输入。
特征提取层主要工作是基于给定的核心特征集合,字、词边界和 词,让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。 为了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和 后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响, 而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出 进行拼接,得到这一层的输出向量。
数据投射层工作是将特征提取层得到的特征向量进行维度投射, 特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一 个全连接层将该高维向量投射到标签维度上,向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。
输出层的主要工作是根据数据投射层得到的标签得分,选择分数 最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在 标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约 束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路 径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度) 的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标 注序列。
BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为:
当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出 标签序列为Y=y0,y1,...,yn的概率为:
z(x)=∑yexp(∑kλk∑itk(yi-1,yi,x,i)+∑lμl∑isl(yi,x,i)) (4-2)
公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义 在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的 特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是 两个特征对应的权重。z(x)是规范化因子,对y的所有可能取值求和。 训练过程中,采用最大似然估计得到损失函数:
loss=-log(P(Y=y|x)),使用梯度下降算法进行学习, 最终选取得分最高的Y作为X的标注序列。
具体实现的过程:
步骤1:选择BIO的标注方式。
步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息;
步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语 料输入构造BERT输入特征。
步骤4:使用BERT作为文本编码器,在通用领域预训练模型基 础上,继续进行建筑语料文本深度预训练,构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型。
本发明的有益效果是:
本发明使用基于预训练语言模型的命名实体识别方法进行跨领 域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。 使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行 深度预训练,得到BcBERT(Building Code BERT),从而将通用领域 和建筑领域其他规范文本的知识迁移至SW-BiLSTM-CRF模型。以有效 提升地铁设计规范命名实体识别任务的性能。
附图说明:
图1为本发明基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF 模型的实现方法的设计步骤
图2为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的 实现方法SW-BiLSTM-CRF模型的结构图
图3为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的 实现方法BERT输入示例
图4为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的 实现方法BcBERT-SW-BiLSTM-CRF模型的模型框架
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方 法,本发明首先经过动态引入的SW-BiLSTM-CRF模型;然后使用基于 预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现 BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。
SW-BiLSTM-CRF模型,主要分为输入层、查找层、特征提取层、 数据投射层和输出层五个模块。
输入层的字需要提前做如下处理:以BIO标注体系标注的文本文 档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别 得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入 层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其 中还需要用特殊字符0来补齐句子,使每条句子长度一致。词汇增 强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的 边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实 体的始末,以及实体的中间位置,词信息的处理和字处理的方式类似。
查找层主要工作是将输入层的句子编号序列用向量进行表征;提 前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中, 矩阵的行表示一个个字的表征向量;这些向量可以采用随机初始化的 方法,从一个区间均匀分布中生成随机数字,也可以是预训练得到的 向量文件。如果是后者,则需要使用输入层中预处理得到的编号到字 的字典,查出编号对应的字,然后去预训练向量文件中查找对应的向 量。最后将字、词边界和词信息进行拼接作为下一层的输入。
特征提取层主要工作是基于给定的核心特征集合,字、词边界和 词,让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。 为了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和 后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响, 而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出 进行拼接,得到这一层的输出向量。
数据投射层工作是将特征提取层得到的特征向量进行维度投射, 特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一 个全连接层将该高维向量投射到标签维度上,向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。
输出层的主要工作是根据数据投射层得到的标签得分,选择分数 最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在 标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约 束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路 径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度) 的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标 注序列。
BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为:
当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出 标签序列为Y=y0,y1,...,yn的概率为:
z(x)=∑yexp(∑kλk∑itk(yi-1,yi,x,i)+∑lμl∑isl(yi,x,i)) (4-2)
公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义 在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的 特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是
loss=-log(P(Y=y|x)),使用梯度下降算法进行学习, 最终选取得分最高的Y作为X的标注序列。
具体实现的过程:
步骤1:选择BIO的标注方式。
步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息;
步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语 料输入构造BERT输入特征。
步骤4:使用BERT作为文本编码器,在通用领域预训练模型基 础上,继续进行建筑语料文本深度预训练,构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型。
步骤1:选择BIO的标注方式。
步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息。
如图2所示,模型主要分为输入层、查找层、特征提取层、数据 投射层和输出层五个模块,下面分别介绍这五个模块和模型中词汇增 强的部分。
1)输入层
模型以句子序列中的字为单位作为输入,输入层的字需要提前做 这样的处理:以BIO标注体系标注的文本文档作为框架的输入,并进 行字和标签的统计,以词频进行编号,分别得到字到编号、编号到字、 标签到编号和编号到标签四个字典。输入层实际的输入是根据字到编 号的这个字典,得到的句子编号序列,其中还需要用特殊字符,例如 0来补齐句子,使每条句子长度一致。词汇增强的设计在这一层需要 得到词的边界信息和词信息的编号序列。词的边界信息借助四个离散 的编号来实现,编号分别代表不属于实体,实体的始末,以及实体的 中间位置,词信息的处理和字处理的方式类似。
2)查找层
这一层主要工作是将输入层的句子编号序列用向量进行表征。提 前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中, 矩阵的行表示一个个字的表征向量。这些向量可以采用随机初始化的 方法,例如从一个区间均匀分布中生成随机数字,也可以是预训练得 到的向量文件。如果是后者,则需要使用1)中预处理得到的编号到 字的字典,查出编号对应的字,然后去预训练向量文件中查找对应的 向量。最后将字、词边界和词信息进行拼接作为下一层的输入。
3)特征提取层
这一层的主要工作是基于给定的核心特征集合,字、词边界和词, 让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。为 了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和后 向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响,而 后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出进 行拼接,得到这一层的输出向量。
4)数据投射层
这一层的工作是将特征提取层得到的特征向量进行维度投射,特 征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一个 全连接层将该高维向量投射到标签维度上,向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。
5)输出层
这一层的主要工作是根据数据投射层得到的标签得分,选择分数 最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在 标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约 束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路 径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度) 的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标 注序列。
当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出 标签序列为Y=y0,y1,...,yn的概率为:
z(x)=∑yexp(∑kλk∑itk(yi-1,yi,x,i)+∑lμl∑isl(yi,x,i)) (4-2)
公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义 在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的 特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是 两个特征对应的权重。z(x)是规范化因子,对y的所有可能取值求和。 训练过程中,采用最大似然估计得到损失函数
loss=-log(P(Y=y|x)),使用梯度下降算法进行学习, 最终选取得分最高的Y作为X的标注序列。
步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语 料输入构造BERT输入特征。如图3所示,BERT输入包含三个嵌入特 征,分别是字嵌入、上下句嵌入和位置嵌入。字嵌入构造采用 WordPiece过程,将输入的词拆开,使得词表更加精简,意义更加明 确,是一种解决不在字典中(Out Of Vocabulary,OOV)问题的方法, 拆词过程采用双字节编码(Byte Pair Encoding,BPE)实现。具体 地,在包含英文单词的中文文本中,将中文部分分割为单字,英文单 词分割为子词,比如testing分成test和##ing,##表示分词。这些 分割好的块是BERT语言模型训练时遮盖的最小单位,同时,将拼接 的两个句子使用特殊符号[SEP]进行区分,第二个句子末尾也会加上 该符号。[CLS]是模型表示开始的特殊符号,表示句首位置。
上下句嵌入是针对句子关系判断类任务的输入构造,EA部分是 必须的,EB部分是可选的,0表示第一句话,1表示第二句话。监督 信息在[CLS]标志中体现,如果后者为空则变成单句分类任务。位置 嵌入是字在句子中的绝对位置信息,且BERT支持的序列长度上限为 512。最后,将这三层嵌入编码相加作为输入表征向量,持久化到 TFRecord格式的二进制文件中。
步骤4:如图4所示,使用BERT作为文本编码器,在通用领域 预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型,模型主要由预训练文 本表征层和完成命名实体识别任务的特征提取层两个模块构成。BcBERT是进行了建筑语料文本深度训练的领域预训练模型,融合了 与地铁设计规范相关的无监督建筑语料文本的相关知识,使预训练语 言模型具备一定的领域适配性,更适合下游地铁设计规范的命名实体 识别任务。
Claims (9)
1.基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,本发明首先经过动态引入的SW-BiLSTM-CRF模型;然后使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。
2.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述SW-BiLSTM-CRF模型,主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块。
3.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述输入层的字需要提前做如下处理:以BIO标注体系标注的文本文档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其中还需要用特殊字符0来补齐句子,使每条句子长度一致。词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实体的始末,以及实体的中间位置,词信息的处理和字处理的方式类似。
4.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述查找层主要工作是将输入层的句子编号序列用向量进行表征;提前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中,矩阵的行表示一个个字的表征向量;这些向量可以采用随机初始化的方法,从一个区间均匀分布中生成随机数字,也可以是预训练得到的向量文件。如果是后者,则需要使用输入层中预处理得到的编号到字的字典,查出编号对应的字,然后去预训练向量文件中查找对应的向量。最后将字、词边界和词信息进行拼接作为下一层的输入。
5.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述特征提取层主要工作是基于给定的核心特征集合,字、词边界和词,让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。为了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响,而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出进行拼接,得到这一层的输出向量。
6.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述数据投射层工作是将特征提取层得到的特征向量进行维度投射,特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一个全连接层将该高维向量投射到标签维度上,向量大小为[批大小(batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。
7.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述输出层的主要工作是根据数据投射层得到的标签得分,选择分数最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度)的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标注序列。
8.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,所述BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为:
当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出标签序列为Y=y0,y1,...,yn的概率为:
z(x)=∑yexp(∑kλk∑itk(yi-1,yi,x,i)+∑lμl∑isl(yi,x,i)) (4-2)
公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是两个特征对应的权重。z(x)是规范化因子,对y的所有可能取值求和。训练过程中,采用最大似然估计得到损失函数
loss=-log(P(Y=y|x)),使用梯度下降算法进行学习,最终选取得分最高的Y作为X的标注序列。
9.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,BcBERT-SW-BiLSTM-CRF模型的具体实现的过程:
步骤1:选择BIO的标注方式。
步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息;
步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语料输入构造BERT输入特征。
步骤4:使用BERT作为文本编码器,在通用领域预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于BcBERT-SW-BiLSTM-CRF的命名实体识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110813366.0A CN113779992A (zh) | 2021-07-19 | 2021-07-19 | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110813366.0A CN113779992A (zh) | 2021-07-19 | 2021-07-19 | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779992A true CN113779992A (zh) | 2021-12-10 |
Family
ID=78836004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110813366.0A Pending CN113779992A (zh) | 2021-07-19 | 2021-07-19 | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779992A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943230A (zh) * | 2022-04-17 | 2022-08-26 | 西北工业大学 | 一种融合常识知识的中文特定领域实体链接方法 |
CN116756536A (zh) * | 2023-08-17 | 2023-09-15 | 浪潮电子信息产业股份有限公司 | 数据识别方法、模型训练方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214642A (zh) * | 2018-07-10 | 2019-01-15 | 华中科技大学 | 一种建筑施工工序约束的自动抽取和分类方法及系统 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110705272A (zh) * | 2019-08-28 | 2020-01-17 | 昆明理工大学 | 一种面向汽车发动机故障诊断的命名实体识别方法 |
CN110879831A (zh) * | 2019-10-12 | 2020-03-13 | 杭州师范大学 | 基于实体识别技术的中医药语句分词方法 |
CN111310471A (zh) * | 2020-01-19 | 2020-06-19 | 陕西师范大学 | 一种基于bblc模型的旅游命名实体识别方法 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN111597420A (zh) * | 2020-04-29 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111695346A (zh) * | 2020-06-16 | 2020-09-22 | 广州商品清算中心股份有限公司 | 一种提升金融风险防控领域舆情实体识别率的方法 |
CN111708899A (zh) * | 2020-06-13 | 2020-09-25 | 广州华建工智慧科技有限公司 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
CN112559702A (zh) * | 2020-11-10 | 2021-03-26 | 西安理工大学 | 基于Transformer的土木建筑信息领域自然语言问题生成方法 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
-
2021
- 2021-07-19 CN CN202110813366.0A patent/CN113779992A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214642A (zh) * | 2018-07-10 | 2019-01-15 | 华中科技大学 | 一种建筑施工工序约束的自动抽取和分类方法及系统 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110705272A (zh) * | 2019-08-28 | 2020-01-17 | 昆明理工大学 | 一种面向汽车发动机故障诊断的命名实体识别方法 |
CN110879831A (zh) * | 2019-10-12 | 2020-03-13 | 杭州师范大学 | 基于实体识别技术的中医药语句分词方法 |
CN111310471A (zh) * | 2020-01-19 | 2020-06-19 | 陕西师范大学 | 一种基于bblc模型的旅游命名实体识别方法 |
CN111563383A (zh) * | 2020-04-09 | 2020-08-21 | 华南理工大学 | 一种基于BERT与SemiCRF的中文命名实体识别方法 |
CN111597420A (zh) * | 2020-04-29 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111708899A (zh) * | 2020-06-13 | 2020-09-25 | 广州华建工智慧科技有限公司 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
CN111695346A (zh) * | 2020-06-16 | 2020-09-22 | 广州商品清算中心股份有限公司 | 一种提升金融风险防控领域舆情实体识别率的方法 |
CN112559702A (zh) * | 2020-11-10 | 2021-03-26 | 西安理工大学 | 基于Transformer的土木建筑信息领域自然语言问题生成方法 |
CN112749562A (zh) * | 2020-12-31 | 2021-05-04 | 合肥工业大学 | 命名实体识别方法、装置、存储介质及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943230A (zh) * | 2022-04-17 | 2022-08-26 | 西北工业大学 | 一种融合常识知识的中文特定领域实体链接方法 |
CN114943230B (zh) * | 2022-04-17 | 2024-02-20 | 西北工业大学 | 一种融合常识知识的中文特定领域实体链接方法 |
CN116756536A (zh) * | 2023-08-17 | 2023-09-15 | 浪潮电子信息产业股份有限公司 | 数据识别方法、模型训练方法、装置、设备及存储介质 |
CN116756536B (zh) * | 2023-08-17 | 2024-04-26 | 浪潮电子信息产业股份有限公司 | 数据识别方法、模型训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
Premjith et al. | A deep learning approach for Malayalam morphological analysis at character level | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
US20240005093A1 (en) | Device, method and program for natural language processing | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
CN113779992A (zh) | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 | |
CN114065738B (zh) | 基于多任务学习的中文拼写纠错方法 | |
CN113360667B (zh) | 基于多任务学习的生物医学触发词检测和命名实体识别方法 | |
CN111222329B (zh) | 句向量训练方法及模型、句向量预测方法及系统 | |
CN113268576A (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
Hung | Vietnamese diacritics restoration using deep learning approach | |
CN117332788A (zh) | 一种基于英语口语文本的语义分析方法 | |
Wang et al. | Chinese-braille translation based on braille corpus | |
Wang et al. | Chinese to Braille translation based on Braille word segmentation using statistical model | |
Dutta | Word-level language identification using subword embeddings for code-mixed Bangla-English social media data | |
Li et al. | Cross-lingual transferring of pre-trained contextualized language models | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
Buoy et al. | Joint Khmer word segmentation and part-of-speech tagging using deep learning | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Nunsanga et al. | Part-of-speech tagging in Mizo language: A preliminary study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |