CN114818711A - 基于神经网络的多信息融合命名实体识别方法 - Google Patents
基于神经网络的多信息融合命名实体识别方法 Download PDFInfo
- Publication number
- CN114818711A CN114818711A CN202210450668.0A CN202210450668A CN114818711A CN 114818711 A CN114818711 A CN 114818711A CN 202210450668 A CN202210450668 A CN 202210450668A CN 114818711 A CN114818711 A CN 114818711A
- Authority
- CN
- China
- Prior art keywords
- text
- convolution
- matrix
- information
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于神经网络的多信息融合命名实体识别方法,包括以下步骤:步骤一,对于包含实体信息的输入文本,转化成将文本长度为n并包含实体信息的文本序列,通过预训练模型BERT获取文本特征向量;通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片;步骤三,将步骤二得到的图片经过卷积模块提取特征;步骤四,将步骤一和步骤三分别提取的文本特征和图像特征拼接后得到完整的融合特征;步骤五,通过融合特征来构建标注矩阵;步骤六,基于标注矩阵实现命名实体识别。
Description
技术领域
本发明涉及自然语言处理技术领域,是一种新型的命名实体识别的抽取方法。
背景技术
命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。随着自然语言处理领域关系抽取技术的不断发展,各行各业产生的大量结构化、半结构化、非结构化的海量数据中隐藏的信息得以被挖掘和再开发,为社会进步和行业发展提供了新的动力和发展引导作用。
NER领域常用模型划分为两大类,一是传统模型,二是基于深度学习的模型。
传统模型主要包括有基于规则的模型,基于统计学习的方法。
基于规则的模型往往需要词表、词汇和领域知识。这种方法准确率高,召回率低,对于新词缺乏发现能力,并且往往需要领域专家维护知识库。基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Moder,HMM)、最大熵模型(Maximum EntropyModel,MEM)、支持向量机(Support Vector Machine,SVM)、条件随机场(ConditionalRandom Field,CRF)等等。在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等。条件随机场(Conditional Random Field,CRF)是NER目前的主流模型。条件随机场(CRF)的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用SGD学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用维特比算法进行解码。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。但其无法解决实体嵌套问题。总的来说,实体识别领域面临的挑战主要有以下两个方面:
1、如何获取更丰富准确的语义信息表达向量;
2、如何解决命名实体识别中的实体重叠和嵌套问题。
发明内容
本发明提供了一种基于神经网络的多信息融合命名实体识别方法,可以获取更丰富准确的语义信息表达,并用来避免解决命名实体识别中出现的实体重叠和嵌套问题。技术方案如下:
一种基于神经网络的多信息融合命名实体识别方法,包括以下步骤:
步骤一,对于包含实体信息的输入文本,转化成将文本长度为n并包含实体信息的文本序列,通过预训练模型BERT获取文本特征向量,输出的文本特征向量表示为其中n代表文本长度,k代表每个字的文本特征向量的维度;
步骤二,通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片,每个字转换一张通道数为1的灰度图,如果某个字不存在BERT字表中对应的ID,则转换为一张全0的灰度图;
步骤三,将步骤二得到的图片经过卷积模块提取特征;
所述的卷积模块包括3D卷积块和多个2D卷积块,分别用来提取图像不同维度的信息,提取特征方法如下:
1)经过3D卷积块以提取到文字图片的深度信息,操作如下:使用2个卷积核大小为3×3×3的3D卷积层将步骤二得到的文字图片映射到8通道的特征空间;
2)将3D卷积块的输出分别依次经过4个2D卷积块以提取文字图片的宽度和广度信息,每个2D卷积块包含一个卷积层和一个最大池化层,第一个2D卷积块的卷积核大小为3×3,池化层大小为2×2,后面依次经过3个卷积核大小为2×2,池化层大小为2×2的2D卷积模块,得到最后的特征
步骤五,通过融合特征来构建标注矩阵;
标注矩阵可以很好的解决实体重叠问题,在构建标注矩阵时,由于实体的头一定在实体的尾前面;所以,整个标注矩阵只需要构建上半个就可以了,即一个矩阵的上三角部分,从而减少计算资源的使用;标注矩阵的构建如下:已知,文本特征和图像特征融合后为对应标注矩阵的第一行为 表示取的所有行的所有列,第二行为表示取的第2到n行的所有列…,以此类推,直到最后一行为表示取的最后一行的所有列,将其拼接到一起得标注矩阵L(n+n-1+n-2+...+1)×(k+d);
步骤六,基于标注矩阵实现命名实体识别。
本发明提供的技术方案的有益效果是:
1、本发明采用精心设计的卷积模块融合对应字符得图片信息,而现有技术大多在进行序列标注时没有考虑到融合这些信息,存在信息特征不丰富的问题;本发明能够有效利用卷积模块来提取字符图片的特征信息,来丰富整体模型的信息特征。
2、传统NER模型多是采用序列标注的形式,无法有效识别嵌套的实体。而本发明提出了矩阵标注分类的方法,能够有效解决嵌套实体的问题,来提高现目前NER的准确率。
附图说明
图1为一种基于多信息融合神经网络标注的命名实体识别方法的流程图;
图2为卷积模块的详细设计图和计算过程。
图3为文本序列标注方案,细说了如何用矩阵标注抽取出文本中的实体;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。下列实施例仅用于解释本发明的发明内容,并不用于限定本发明的保护范围。
由于现有模型很少融合图片信息而且多数存在着无法很好识别嵌套实体的问题,所以,本发明提出:①融合字符图片信息,来丰富特征。②采用矩阵标注分类的形式来解决实体嵌套问题。具体方案如下。
步骤一,对于包含实体信息的输入文本,通过预训练模型BERT获取文本特征向量。
将输入文本进行预处理,按照指定长度n对其进行截断或补充,输入BERT,根据BERT字表,每个字都有其对应ID,故可获取文本序列对应的ID序列。再将ID序列输入BERT模型,获取输出的文本特征向量其中n代表文本长度,k代表每个字的文本特征向量的维度。
步骤二,通过匹配的方式将文本转换成对应的包含该文字的图片。
将文本长度为n并包含实体信息的文本序列,转换成对应的图片。每个字转换一张通道数为1、长和宽为50×50的灰度图。如果某个字不存在对应ID,则转换为一张全0的灰度图。
步骤三,将得到的图片经过卷积模块提取特征。
卷积模块主要包括3D卷积模块和多个2D卷积模块,分别提取图像不同维度的信息。其中每个2D卷积模块包含有一个卷积层和一个最大池化层,提取特征方法如下:
1)首先经过3D卷积模块,操作如下:使用2个卷积核大小为3×3×3的3D卷积层将图像映射8通道的特征空间。3D卷积层提取到了文字图片的深度信息,浓缩了图片特征。
2)依次经过4个2D卷积模块,每个模块包含一个卷积层和一个最大池化层,第一个2D模块的卷积核大小为3×3,池化层大小为2×2,后面依次经过3个卷积核大小为2×2,池化层大小为2×2的2D卷积模块,得到最后的特征2D卷积提取了图片的宽度和广度信息。
步骤五,通过融合特征来构建标注矩阵。
标注矩阵可以很好的解决实体重叠问题,在构建标注矩阵时,由于实体的头一定在实体的尾前面。所以,整个标注矩阵只需要构建上半个就可以了,即一个矩阵的上三角部分,从而减少计算资源的使用。标注矩阵的构建如下:已知,文本特征和图像特征融合后为对应标注矩阵的第一行为 (这是取的所有行,所有列),第二行为(这是取的第2到n行,所有列)…,最后一行为(这是取的最后一行,所有列),将其拼接到一起得标注矩阵L(n+n-1+n-2+...+1)×(k+d)。
步骤六,将构造出来的标注矩阵输入FNN(前馈神经网络),来减少压缩特征,再用softmax作为激活函数,加以分类。
前馈神经网络是由多个全连接层构成,本发明采用了3个全连接层,两两之间采用ReLU激活函数,最后一层的输出采用softmax做激活函数。具体实施如下:由步骤五已知,拼接完的向量为:L(n+n-1+n-2+...+1)×(k+d)则一个向量的维度为k+d,假设总共的实体种类有m种(m<k+d),经过FNN(前馈神经网络)压缩特征变为L(n+n-1+n-2+...+1)×m,再做softmax来确认对应位置的实体应该取哪个类型,解码时就按照标注矩阵预测出的有效标签所在位置解码出对应的实体和标签。此方法可有效识别出嵌套的实体。
Claims (1)
1.一种基于神经网络的多信息融合命名实体识别方法,包括以下步骤:
步骤一,对于包含实体信息的输入文本,转化成将文本长度为n并包含实体信息的文本序列,通过预训练模型BERT获取文本特征向量,输出的文本特征向量表示为其中n代表文本长度,k代表每个字的文本特征向量的维度;
步骤二,通过匹配的方式将文本长度为n并包含实体信息的文本序列转换成对应的文字图片,每个字转换一张通道数为1的灰度图,如果某个字不存在BERT字表中对应的ID,则转换为一张全0的灰度图;
步骤三,将步骤二得到的图片经过卷积模块提取特征;
所述的卷积模块包括3D卷积块和多个2D卷积块,分别用来提取图像不同维度的信息,提取特征方法如下:
1)经过3D卷积块以提取到文字图片的深度信息,操作如下:使用2个卷积核大小为3×3×3的3D卷积层将步骤二得到的文字图片映射到8通道的特征空间;
2)将3D卷积块的输出分别依次经过4个2D卷积块以提取文字图片的宽度和广度信息,每个2D卷积块包含一个卷积层和一个最大池化层,第一个2D卷积块的卷积核大小为3×3,池化层大小为2×2,后面依次经过3个卷积核大小为2×2,池化层大小为2×2的2D卷积模块,得到最后的特征
步骤五,通过融合特征来构建标注矩阵;
标注矩阵可以很好的解决实体重叠问题,在构建标注矩阵时,由于实体的头一定在实体的尾前面;所以,整个标注矩阵只需要构建上半个就可以了,即一个矩阵的上三角部分,从而减少计算资源的使用;标注矩阵的构建如下:已知,文本特征和图像特征融合后为对应标注矩阵的第一行为表示取的所有行的所有列,第二行为表示取的第2到n行的所有列…,以此类推,直到最后一行为表示取的最后一行的所有列,将其拼接到一起得标注矩阵L(n+n-1+n-2+...+1)×(k+d);
步骤六,基于标注矩阵实现命名实体识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450668.0A CN114818711B (zh) | 2022-04-27 | 2022-04-27 | 基于神经网络的多信息融合命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450668.0A CN114818711B (zh) | 2022-04-27 | 2022-04-27 | 基于神经网络的多信息融合命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114818711A true CN114818711A (zh) | 2022-07-29 |
CN114818711B CN114818711B (zh) | 2024-09-06 |
Family
ID=82507440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210450668.0A Active CN114818711B (zh) | 2022-04-27 | 2022-04-27 | 基于神经网络的多信息融合命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818711B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341555A (zh) * | 2023-05-26 | 2023-06-27 | 华东交通大学 | 命名实体识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682220A (zh) * | 2017-01-04 | 2017-05-17 | 华南理工大学 | 一种基于深度学习的在线中医文本命名实体识别方法 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
WO2022078346A1 (zh) * | 2020-10-13 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 文本意图识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-27 CN CN202210450668.0A patent/CN114818711B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682220A (zh) * | 2017-01-04 | 2017-05-17 | 华南理工大学 | 一种基于深度学习的在线中医文本命名实体识别方法 |
CN111046668A (zh) * | 2019-12-04 | 2020-04-21 | 北京信息科技大学 | 多模态文物数据的命名实体识别方法与装置 |
WO2022078346A1 (zh) * | 2020-10-13 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 文本意图识别方法、装置、电子设备及存储介质 |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
Non-Patent Citations (1)
Title |
---|
王丹;李雨朦;刘强;高镇;: "基于最大似然译码的快速信道编码盲识别算法", 信号处理, no. 05, 25 May 2018 (2018-05-25) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341555A (zh) * | 2023-05-26 | 2023-06-27 | 华东交通大学 | 命名实体识别方法和系统 |
CN116341555B (zh) * | 2023-05-26 | 2023-08-04 | 华东交通大学 | 命名实体识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114818711B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825845B (zh) | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111783462A (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN113987187B (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN111914085A (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN106777011A (zh) | 一种基于深度多任务学习的文本分类方法 | |
Yan et al. | ConvMath: a convolutional sequence network for mathematical expression recognition | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN111309918A (zh) | 一种基于标签关联性的多标签文本分类方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
Kumar et al. | NITP-AI-NLP@ Dravidian-CodeMix-FIRE2020: A Hybrid CNN and Bi-LSTM Network for Sentiment Analysis of Dravidian Code-Mixed Social Media Posts. | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114818711A (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN113779966A (zh) | 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN114943203A (zh) | 汉字相似度的获得方法、装置、电子设备和存储设备 | |
CN114896404A (zh) | 文档分类方法及装置 | |
CN114861632B (zh) | 一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法 | |
US20240087349A1 (en) | Handwriting text recognition system based on neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |