CN114818711A - 基于神经网络的多信息融合命名实体识别方法 - Google Patents

基于神经网络的多信息融合命名实体识别方法 Download PDF

Info

Publication number
CN114818711A
CN114818711A CN202210450668.0A CN202210450668A CN114818711A CN 114818711 A CN114818711 A CN 114818711A CN 202210450668 A CN202210450668 A CN 202210450668A CN 114818711 A CN114818711 A CN 114818711A
Authority
CN
China
Prior art keywords
text
convolution
matrix
information
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210450668.0A
Other languages
English (en)
Other versions
CN114818711B (zh
Inventor
高镇
肖峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210450668.0A priority Critical patent/CN114818711B/zh
Publication of CN114818711A publication Critical patent/CN114818711A/zh
Application granted granted Critical
Publication of CN114818711B publication Critical patent/CN114818711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于神经网络的多信息融合命名实体识别方法,包括以下步骤:步骤一,对于包含实体信息的输入文本,转化成将文本长度为n并包含实体信息的文本序列,通过预训练模型BERT获取文本特征向量;通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片;步骤三,将步骤二得到的图片经过卷积模块提取特征;步骤四,将步骤一和步骤三分别提取的文本特征和图像特征拼接后得到完整的融合特征;步骤五,通过融合特征来构建标注矩阵;步骤六,基于标注矩阵实现命名实体识别。

Description

基于神经网络的多信息融合命名实体识别方法
技术领域
本发明涉及自然语言处理技术领域,是一种新型的命名实体识别的抽取方法。
背景技术
命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。随着自然语言处理领域关系抽取技术的不断发展,各行各业产生的大量结构化、半结构化、非结构化的海量数据中隐藏的信息得以被挖掘和再开发,为社会进步和行业发展提供了新的动力和发展引导作用。
NER领域常用模型划分为两大类,一是传统模型,二是基于深度学习的模型。
传统模型主要包括有基于规则的模型,基于统计学习的方法。
基于规则的模型往往需要词表、词汇和领域知识。这种方法准确率高,召回率低,对于新词缺乏发现能力,并且往往需要领域专家维护知识库。基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Moder,HMM)、最大熵模型(Maximum EntropyModel,MEM)、支持向量机(Support Vector Machine,SVM)、条件随机场(ConditionalRandom Field,CRF)等等。在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等。条件随机场(Conditional Random Field,CRF)是NER目前的主流模型。条件随机场(CRF)的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用维特比算法进行解码。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。但其无法解决实体嵌套问题。总的来说,实体识别领域面临的挑战主要有以下两个方面:
1、如何获取更丰富准确的语义信息表达向量;
2、如何解决命名实体识别中的实体重叠和嵌套问题。
发明内容
本发明提供了一种基于神经网络的多信息融合命名实体识别方法,可以获取更丰富准确的语义信息表达,并用来避免解决命名实体识别中出现的实体重叠和嵌套问题。技术方案如下:
一种基于神经网络的多信息融合命名实体识别方法,包括以下步骤:
步骤一,对于包含实体信息的输入文本,转化成将文本长度为n并包含实体信息的文本序列,通过预训练模型BERT获取文本特征向量,输出的文本特征向量表示为
Figure BDA00036184796200000213
其中n代表文本长度,k代表每个字的文本特征向量的维度;
步骤二,通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片,每个字转换一张通道数为1的灰度图,如果某个字不存在BERT字表中对应的ID,则转换为一张全0的灰度图;
步骤三,将步骤二得到的图片经过卷积模块提取特征;
所述的卷积模块包括3D卷积块和多个2D卷积块,分别用来提取图像不同维度的信息,提取特征方法如下:
1)经过3D卷积块以提取到文字图片的深度信息,操作如下:使用2个卷积核大小为3×3×3的3D卷积层将步骤二得到的文字图片映射到8通道的特征空间;
2)将3D卷积块的输出分别依次经过4个2D卷积块以提取文字图片的宽度和广度信息,每个2D卷积块包含一个卷积层和一个最大池化层,第一个2D卷积块的卷积核大小为3×3,池化层大小为2×2,后面依次经过3个卷积核大小为2×2,池化层大小为2×2的2D卷积模块,得到最后的特征
Figure BDA0003618479620000021
步骤四,将步骤一和步骤三分别提取的文本特征
Figure BDA0003618479620000022
和图像特征
Figure BDA0003618479620000023
拼接后得到完整的融合特征
Figure BDA0003618479620000024
步骤五,通过融合特征来构建标注矩阵;
标注矩阵可以很好的解决实体重叠问题,在构建标注矩阵时,由于实体的头一定在实体的尾前面;所以,整个标注矩阵只需要构建上半个就可以了,即一个矩阵的上三角部分,从而减少计算资源的使用;标注矩阵的构建如下:已知,文本特征和图像特征融合后为
Figure BDA0003618479620000025
对应标注矩阵的第一行为
Figure BDA0003618479620000026
Figure BDA0003618479620000027
表示取
Figure BDA0003618479620000028
的所有行的所有列,第二行为
Figure BDA0003618479620000029
表示取
Figure BDA00036184796200000210
的第2到n行的所有列…,以此类推,直到最后一行为
Figure BDA00036184796200000211
表示取
Figure BDA00036184796200000212
的最后一行的所有列,将其拼接到一起得标注矩阵L(n+n-1+n-2+...+1)×(k+d)
步骤六,基于标注矩阵实现命名实体识别。
本发明提供的技术方案的有益效果是:
1、本发明采用精心设计的卷积模块融合对应字符得图片信息,而现有技术大多在进行序列标注时没有考虑到融合这些信息,存在信息特征不丰富的问题;本发明能够有效利用卷积模块来提取字符图片的特征信息,来丰富整体模型的信息特征。
2、传统NER模型多是采用序列标注的形式,无法有效识别嵌套的实体。而本发明提出了矩阵标注分类的方法,能够有效解决嵌套实体的问题,来提高现目前NER的准确率。
附图说明
图1为一种基于多信息融合神经网络标注的命名实体识别方法的流程图;
图2为卷积模块的详细设计图和计算过程。
图3为文本序列标注方案,细说了如何用矩阵标注抽取出文本中的实体;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。下列实施例仅用于解释本发明的发明内容,并不用于限定本发明的保护范围。
由于现有模型很少融合图片信息而且多数存在着无法很好识别嵌套实体的问题,所以,本发明提出:①融合字符图片信息,来丰富特征。②采用矩阵标注分类的形式来解决实体嵌套问题。具体方案如下。
步骤一,对于包含实体信息的输入文本,通过预训练模型BERT获取文本特征向量。
将输入文本进行预处理,按照指定长度n对其进行截断或补充,输入BERT,根据BERT字表,每个字都有其对应ID,故可获取文本序列对应的ID序列。再将ID序列输入BERT模型,获取输出的文本特征向量
Figure BDA0003618479620000031
其中n代表文本长度,k代表每个字的文本特征向量的维度。
步骤二,通过匹配的方式将文本转换成对应的包含该文字的图片。
将文本长度为n并包含实体信息的文本序列,转换成对应的图片。每个字转换一张通道数为1、长和宽为50×50的灰度图。如果某个字不存在对应ID,则转换为一张全0的灰度图。
步骤三,将得到的图片经过卷积模块提取特征。
卷积模块主要包括3D卷积模块和多个2D卷积模块,分别提取图像不同维度的信息。其中每个2D卷积模块包含有一个卷积层和一个最大池化层,提取特征方法如下:
1)首先经过3D卷积模块,操作如下:使用2个卷积核大小为3×3×3的3D卷积层将图像映射8通道的特征空间。3D卷积层提取到了文字图片的深度信息,浓缩了图片特征。
2)依次经过4个2D卷积模块,每个模块包含一个卷积层和一个最大池化层,第一个2D模块的卷积核大小为3×3,池化层大小为2×2,后面依次经过3个卷积核大小为2×2,池化层大小为2×2的2D卷积模块,得到最后的特征
Figure BDA0003618479620000041
2D卷积提取了图片的宽度和广度信息。
步骤四,已知前后2个特征为
Figure BDA0003618479620000042
Figure BDA0003618479620000043
将其拼接得到完整的融合特征
Figure BDA0003618479620000044
步骤五,通过融合特征来构建标注矩阵。
标注矩阵可以很好的解决实体重叠问题,在构建标注矩阵时,由于实体的头一定在实体的尾前面。所以,整个标注矩阵只需要构建上半个就可以了,即一个矩阵的上三角部分,从而减少计算资源的使用。标注矩阵的构建如下:已知,文本特征和图像特征融合后为
Figure BDA0003618479620000045
对应标注矩阵的第一行为
Figure BDA0003618479620000046
Figure BDA0003618479620000047
(
Figure BDA0003618479620000048
这是取
Figure BDA0003618479620000049
的所有行,所有列),第二行为
Figure BDA00036184796200000410
(
Figure BDA00036184796200000411
这是取
Figure BDA00036184796200000412
的第2到n行,所有列)…,最后一行为
Figure BDA00036184796200000413
(
Figure BDA00036184796200000414
这是取
Figure BDA00036184796200000415
的最后一行,所有列),将其拼接到一起得标注矩阵L(n+n-1+n-2+...+1)×(k+d)
步骤六,将构造出来的标注矩阵输入FNN(前馈神经网络),来减少压缩特征,再用softmax作为激活函数,加以分类。
前馈神经网络是由多个全连接层构成,本发明采用了3个全连接层,两两之间采用ReLU激活函数,最后一层的输出采用softmax做激活函数。具体实施如下:由步骤五已知,拼接完的向量为:L(n+n-1+n-2+...+1)×(k+d)则一个向量的维度为k+d,假设总共的实体种类有m种(m<k+d),经过FNN(前馈神经网络)压缩特征变为L(n+n-1+n-2+...+1)×m,再做softmax来确认对应位置的实体应该取哪个类型,解码时就按照标注矩阵预测出的有效标签所在位置解码出对应的实体和标签。此方法可有效识别出嵌套的实体。

Claims (1)

1.一种基于神经网络的多信息融合命名实体识别方法,包括以下步骤:
步骤一,对于包含实体信息的输入文本,转化成将文本长度为n并包含实体信息的文本序列,通过预训练模型BERT获取文本特征向量,输出的文本特征向量表示为
Figure FDA0003618479610000011
其中n代表文本长度,k代表每个字的文本特征向量的维度;
步骤二,通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片,每个字转换一张通道数为1的灰度图,如果某个字不存在BERT字表中对应的ID,则转换为一张全0的灰度图;
步骤三,将步骤二得到的图片经过卷积模块提取特征;
所述的卷积模块包括3D卷积块和多个2D卷积块,分别用来提取图像不同维度的信息,提取特征方法如下:
1)经过3D卷积块以提取到文字图片的深度信息,操作如下:使用2个卷积核大小为3×3×3的3D卷积层将步骤二得到的文字图片映射到8通道的特征空间;
2)将3D卷积块的输出分别依次经过4个2D卷积块以提取文字图片的宽度和广度信息,每个2D卷积块包含一个卷积层和一个最大池化层,第一个2D卷积块的卷积核大小为3×3,池化层大小为2×2,后面依次经过3个卷积核大小为2×2,池化层大小为2×2的2D卷积模块,得到最后的特征
Figure FDA0003618479610000012
步骤四,将步骤一和步骤三分别提取的文本特征
Figure FDA0003618479610000013
和图像特征
Figure FDA0003618479610000014
拼接后得到完整的融合特征
Figure FDA0003618479610000015
步骤五,通过融合特征来构建标注矩阵;
标注矩阵可以很好的解决实体重叠问题,在构建标注矩阵时,由于实体的头一定在实体的尾前面;所以,整个标注矩阵只需要构建上半个就可以了,即一个矩阵的上三角部分,从而减少计算资源的使用;标注矩阵的构建如下:已知,文本特征和图像特征融合后为
Figure FDA0003618479610000016
对应标注矩阵的第一行为
Figure FDA0003618479610000017
表示取
Figure FDA0003618479610000018
的所有行的所有列,第二行为
Figure FDA0003618479610000019
表示取
Figure FDA00036184796100000110
的第2到n行的所有列…,以此类推,直到最后一行为
Figure FDA00036184796100000111
表示取
Figure FDA00036184796100000112
的最后一行的所有列,将其拼接到一起得标注矩阵L(n+n-1+n-2+...+1)×(k+d)
步骤六,基于标注矩阵实现命名实体识别。
CN202210450668.0A 2022-04-27 2022-04-27 基于神经网络的多信息融合命名实体识别方法 Active CN114818711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210450668.0A CN114818711B (zh) 2022-04-27 2022-04-27 基于神经网络的多信息融合命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210450668.0A CN114818711B (zh) 2022-04-27 2022-04-27 基于神经网络的多信息融合命名实体识别方法

Publications (2)

Publication Number Publication Date
CN114818711A true CN114818711A (zh) 2022-07-29
CN114818711B CN114818711B (zh) 2024-09-06

Family

ID=82507440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210450668.0A Active CN114818711B (zh) 2022-04-27 2022-04-27 基于神经网络的多信息融合命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114818711B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341555A (zh) * 2023-05-26 2023-06-27 华东交通大学 命名实体识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法
WO2022078346A1 (zh) * 2020-10-13 2022-04-21 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
WO2022078346A1 (zh) * 2020-10-13 2022-04-21 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王丹;李雨朦;刘强;高镇;: "基于最大似然译码的快速信道编码盲识别算法", 信号处理, no. 05, 25 May 2018 (2018-05-25) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341555A (zh) * 2023-05-26 2023-06-27 华东交通大学 命名实体识别方法和系统
CN116341555B (zh) * 2023-05-26 2023-08-04 华东交通大学 命名实体识别方法和系统

Also Published As

Publication number Publication date
CN114818711B (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110263325B (zh) 中文分词系统
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN106777011A (zh) 一种基于深度多任务学习的文本分类方法
Yan et al. ConvMath: a convolutional sequence network for mathematical expression recognition
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Kumar et al. NITP-AI-NLP@ Dravidian-CodeMix-FIRE2020: A Hybrid CNN and Bi-LSTM Network for Sentiment Analysis of Dravidian Code-Mixed Social Media Posts.
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN114818711A (zh) 基于神经网络的多信息融合命名实体识别方法
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN114943203A (zh) 汉字相似度的获得方法、装置、电子设备和存储设备
CN114896404A (zh) 文档分类方法及装置
CN114861632B (zh) 一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法
US20240087349A1 (en) Handwriting text recognition system based on neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant