CN117132997B - 一种基于多头注意力机制和知识图谱的手写表格识别方法 - Google Patents
一种基于多头注意力机制和知识图谱的手写表格识别方法 Download PDFInfo
- Publication number
- CN117132997B CN117132997B CN202311398545.8A CN202311398545A CN117132997B CN 117132997 B CN117132997 B CN 117132997B CN 202311398545 A CN202311398545 A CN 202311398545A CN 117132997 B CN117132997 B CN 117132997B
- Authority
- CN
- China
- Prior art keywords
- attention
- network
- layer
- head
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000007246 mechanism Effects 0.000 title claims abstract description 58
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 102100032202 Cornulin Human genes 0.000 claims abstract description 7
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 7
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 64
- 239000013598 vector Substances 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 claims description 3
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000015654 memory Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于多头注意力机制和知识图谱的手写表格识别方法,该方法对输入的手写表格图像进行预处理;然后进行特征提取得到手写表格图像特征图;通过CRNN模型对手写表格图像特征图进行序列标注,将手写表格图像特征图上的每个位置上的文字或标签视为一个序列标注任务;通过解码算法将序列标注得到的序列标签转化为识别结果,最后通过电力知识图谱模型将识别结果进行逻辑梳理,并将识别到的内容按照表格的结构进行聚合、整理和转换,得到最终所需表格模板的规范表格数据。本发明结合了CRNN网络、多头自注意力机制和知识图谱的优势,提高了手写表格识别和生成的准确性和效果。
Description
技术领域
本发明涉及运维检修图像识别技术领域,具体为一种基于多头注意力机制和知识图谱的手写表格识别方法。
背景技术
随着智能电网的发展,采用数字化减负基层以提升基层工作效率是当今电网发展的必由之路。然而,电网大部分运维检修的数据都储存在纸质报告中,这些数据在设备智能分析方面起着巨大作用;随着数字化时代的到来,大量的结构化数据以表格的形式存在,导致手写表格的自动识别和生成也成为了研究领域中的一个重要方向,其中手写表格数据更是存在识别困难,无法准确提取知识逻辑等问题。
所以,如何设计一种基于多头注意力机制和知识图谱的手写表格识别方法,成为我们当前需要解决的问题。
发明内容
针对现有技术的不足,本发明提供了一种基于多头注意力机制和知识图谱的手写表格识别方法,其目的在于能够有效建立表格的逻辑关系,可以有效帮助模型更好地理解和识别手写文字,并提高手写文字识别系统的准确性和鲁棒性。
为实现上述目的,本发明提供如下技术方案:一种基于多头注意力机制和知识图谱的手写表格识别方法,包括如下步骤:
步骤S1:对输入的手写表格图像进行预处理;
步骤S2:使用带多头注意力机制的特征提取模型对预处理后的手写表格图像进行特征提取,得到手写表格图像特征图;
步骤S3:通过CRNN模型对手写表格图像特征图进行序列标注,将手写表格图像特征图上的每个位置上的文字或标签视为一个序列标注任务;
步骤S4:使用电力文本对Roberta预训练语言模型进行预训练,通过数据预处理将电力文本转换成电力文本序列,然后输入到Roberta预训练语言模型的电力文本序列输入层,通过词嵌入层,句嵌入层和位置嵌入层中进行提取,将输入的电力文本序列转化为词向量、句向量以及位置向量,利用图自注意力编码器(Transformer-Encoder)中的多头自注意力机制和全连接层对输入的电力文本序列进行建模,从电力文本序列中选择出和当前任务目标更契合的有效信息;将巡检的电力文本序列以句子为单位输入进已预训练的Roberta预训练语言模型得到词向量,再利用BiLSTM层学习巡检的电力文本序列的上下文特征,从而实现全局文本信息抽取,接着进行知识加工和知识融合,最后将构建的知识图谱用Neo4j储存与表示,形成电力知识图谱模型;
步骤S5:通过解码算法将序列标注得到的序列标签转化为识别结果,最后通过电力知识图谱模型将识别结果进行逻辑梳理,得到手写表格图像的识别文本;根据识别文本的节点和边的信息,识别其中表头、行标、列标和单元格中的内容,将识别到的内容按照表格的结构进行聚合、整理和转换,得到最终所需表格模板的规范表格数据。
进一步优选,所述Roberta预训练语言模型依次由一个电力文本序列输入层、一个嵌入层、多个图自注意力编码器(Transformer-Encoder)以及一个输出层组成,所述电力文本序列输入层由词嵌入层、句嵌入层和位置嵌入层组成,图自注意力编码器依次由多头自注意力机制、第一归一化层、全连接层、第二归一化层组成,利用Roberta预训练语言模型中的图自注意力编码器(Transformer-Encoder)对输入的电力文本序列进行编码,使用多头自注意力机制对编码后的电力文本序列训练得到对应的向量。
进一步优选,对于输入的电力文本序列,分别为
第1,2,3,…,n个词,n为词的个数,将每个词采用独热向量(one-hot)表示,设维度为k,则输
入的电力文本序列对应的嵌入矩阵为,Roberta预训练语言模型中图自注意力编码器的
多头注意力机制的输入为嵌入矩阵;自注意力表示如下:
;
;
式中,为查询矩阵;为键矩阵;为值矩阵,为查询矩阵的映射权重参数,为键矩阵的映射权重参数,为值矩阵的映射权重参数;是向量的维度,为Q、K的列
数;softmax为归一化函数;为缩放因子,表示自注意力, 为键矩阵
的转置;
使用图自注意力编码器(Transformer-Encoder)中多头注意力机制拼接各自注意力得到多头自注意力输出。
进一步优选,所述BiLSTM层包括前向LSTM单元和后向LSTM单元,Roberta预训练语
言模型将电力文本序列转换为嵌入向量,一个句向量为,其中是
对应于经过Roberta预训练语言模型处理后的句向量中第m个词的D维词向量,η表示给句向
量的长度;对于第m个词,前向LSTM单元过结合第m个词的上下文信息进行编码,标记为编码
信息,同样地,后向LSTM单元通过结合第m个词上下文信息进行编码,标记为,最后,
将和连接起来,代表第m个词的编码信息,表示为。
进一步优选,所述步骤S2利用多头注意力机制确保关注到手写表格图像不同位置的重要特征;对手写表格图像中的文字内容和结构信息进行建模和学习;根据手写表格图像中的结构信息和文字内容,计算手写表格图像节点之间的注意力权重,用于手写表格图像数据的提取和整合,最终得到手写表格图像特征图。
进一步优选,特征提取模型包括若干个时序卷积子网络和多头注意力机制,每个时序卷积子网络的每个卷积层都采用多头注意力机制理解特征向量之间的相互关系。
进一步优选,所述预处理包括降噪处理、二值化处理和倾斜矫正处理。
进一步优选,所述降噪处理是:采用高斯滤波的方法对输入的手写表格图像进行降噪处理。
进一步优选,所述倾斜矫正处理采用霍夫变换进行,首先识别输入的手写表格图像中的几何图形,从中检测到对应的直线,然后通过计算直线的倾斜角度判断几何图形的倾斜度数,最后进行旋转校正。
与现有的技术相比,本发明具备以下有益效果:本发明结合了CRNN网络、多头注意力机制和知识图谱的优势,可以提高特征表示能力、增强对结构和语义信息的理解、更好地建模上下文关系,并具有更强的泛化能力。本发明通过知识图谱模型将识别结果进行逻辑梳理,得到手写表格图像的识别文本;根据识别文本的节点和边的信息,识别其中表头、行标、列标和单元格中的内容,将识别到的内容按照表格的结构进行聚合、整理和转换,得到最终所需表格模板的规范表格数据;这些优点有助于提升手写表格识别的准确性、鲁棒性和应用范围。
附图说明
图1为本发明的方法流程图。
图2为本发明的电力知识图谱模型构建过程图。
图3为本发明的Roberta预训练语言模型构架图。
具体实施方式
如图1所示,本发明提供技术方案:一种基于多头注意力机制和知识图谱的手写表格识别方法,包括如下步骤:
步骤S1:对输入的手写表格图像进行预处理。为了优化图像,以使得后续的处理步骤更加准确、高效和可靠,首先需要对输入的手写表格图像进行预处理,包括对输入的手写表格图像进行降噪处理、二值化处理和倾斜矫正处理。
降噪处理:先采用高斯滤波的方法对输入的手写表格图像进行降噪处理(高斯滤波是一种线性的平滑滤波,它将频域处理和时域处理相结合),对输入的手写表格图像进行平均加权计算,使得手写表格图像上每一个像素点都是由它本身和相邻其他像素点值计算得到,从而实现将噪声信息过滤掉,对输入手写表格图像起到一个平滑作用。高斯函数是单值函数,它在所有的方向上都是单调递减的,其中心点像素不会受到距离中心点较远处像素过大的影响,从而能保证中心点和边缘处的特性;并且,二维高斯函数是旋转对称的,它在各个方向上的平滑程度都是相同的,因此使用高斯滤波能有效消除输入的手写表格图像中的噪声影响。
二值化处理:在对图像进行数字化处理的过程中,二值化处理是不可或缺的步骤,它将灰度图像转化为二值图像,能显著减少图像中的干扰信息;采用多阈值二值化方法,将手写表格图像转换为二值图像。
倾斜矫正处理:因手写表格图像为纸质数据,在拍摄时难免存在倾斜现象,会对后期表格处理造成干扰,尤其对表格中的文字不能分割成单个字符时,会降低识别的准确率,因此对倾斜的图像进行校正,会对识别准确率有很大程度的提高。输入手写表格图像进行二值化处理后,对倾斜手写表格图像校正的关键问题在于要准确找到它的倾斜角度,本发明采用霍夫变换,其基本实现原理是:首先识别输入的手写表格图像中的几何图形,从中检测到对应的直线,然后通过计算直线的倾斜角度判断几何图形的倾斜度数,最后进行旋转校正;而手写表格图像的框线是横平竖直的,所以使用霍夫变换对手写表格图像进行倾斜校正,能获得一个很好的识别结果。
平面直角坐标系中的一条直线对应霍夫空间中的一个点;同理,霍夫空间中的一条直线映射到平面为一个点坐标。将平面直角坐标系转换为极坐标系;极坐标系与平面直角坐标系是一样的,极坐标系上的点对应霍夫空间的线;由此,使用霍夫变换检测出手写表格图像中的所有直线,对每条直线计算得出它们的倾斜角度,之后使用平均倾斜角度对表格图像进行旋转校正。
步骤S2:使用带多头注意力机制的特征提取模型对预处理后的手写表格图像进行特征提取,得到手写表格图像特征图;
本发明利用多头注意力机制确保关注到手写表格图像不同位置的重要特征;对手写表格图像中的文字内容和结构信息进行建模和学习;根据手写表格图像中的结构信息和文字内容,计算手写表格图像节点之间的注意力权重,用于手写表格图像数据的提取和整合,最终得到手写表格图像特征图。
为了实现更全面、准确的特征学习,对预处理后的手写表格图像进行特征提取采用的特征提取模型包括若干个时序卷积子网络和多头注意力机制。时序卷积子网络捕获局部特征,而多头注意力机制则能够捕获全局依赖性,将二者的结合使得模型能够既关注到局部细节又能够捕获全局信息,从而提高了特征提取模型在处理时序数据时的性能和表现力。
为了有效地整合时序卷积子网络和多头注意力机制,可以将手写表格图像特征经过卷积层和批量归一化层进行处理,卷积层是用于处理图像数据的神经网络层,有助于捕捉图像中的局部特征,对于处理手写表格图像非常有用,批量归一化层是一种正则化技术,它有助于特征提取模型的稳定性和训练速度,通常,在卷积层后添加批量归一化层;添加卷积层和批量归一化层可以提高特征提取模型性能和训练稳定性,有助于更好地提取图像特征和提高特征提取模型的泛化能力。
对预处理后的手写表格图像进行特征提取按照以下步骤进行:首先,将预处理后的手写表格图像特征经过卷积层和批量归一化层进行处理,随后将处理后的手写表格图像特征转化为一系列的特征向量,接下来将这些特征向量送入多头注意力机制,多头注意力机制可以帮助特征提取模型理解特征向量之间的相互关系,通过学习这些相互关系,多头注意力机制能够生成更具表达能力的特征表示。通过整合时序卷积子网络和多头注意力机制的过程,可以提高手写表格图像识别的性能。
多头注意力机制(Multi-head Attention)是一种用于增强深度学习模型记忆能力和更好捕捉输入之间关联信息的机制,它最常用于自然语言处理领域,特别是在机器翻译任务中的Transformer模型中,在传统的注意力机制中,通过计算查询(query)和键(key)之间的相似度,然后将相似度作为值(value)进行加权求和,以得到注意力表示,而多头注意力机制则通过引入多个注意力头(attention head)来拓展注意力表示的能力。
手写表格图像通常包含多个文本区域和结构信息,因此可以使用多头注意力机制来聚焦并提取这些信息;多头注意力机制使用自注意力机制来计算手写表格图像的每个特征与其他特征之间的关联性,并将不同的特征表示加权融合,多头注意力机制其实就是将原始的输入序列进行多组的自注意力处理过程;然后再将每一组自注意力的结果拼接起来进行一次线性变换得到最终的输出结果,其计算公式为:
(1);
(2);
(3);
(4);
(5);
式中,为输入向量;表示第i个注意力头的查询矩阵,表示第i个注意力头
的键矩阵、表示第i个注意力头的值矩阵;为查询矩阵的映射权重参数,为键矩阵
的映射权重参数,为值矩阵的映射权重参数,将输入向量X映射至d维的输出,表
示拼接操作,为缩放因子;为第i个注意力头的计算结果,h为注意力头数量,为
线性变换参数矩阵,为多头注意力机制计算结果;为的转置。
第e个时序卷积子网络第f个卷积层的卷积操作可以表示为:
(6);
式中,和分别表示第e个时序卷积子网络的卷积核权重和偏置项;是激活
函数;∗表示卷积操作;表示第e个时序卷积子网络第f个卷积层的输出。
将作为计算查询矩阵、键矩阵、值矩阵的输入:
(7);
(8);
(9);
式中,为第e个时序卷积子网络第f个卷积层的查询矩阵;为第e个时序卷积
子网络查询矩阵的映射权重参数;为第e个时序卷积子网络第f个卷积层的键矩阵;
为第e个时序卷积子网络键矩阵的映射权重参数;为第e个时序卷积子网络第f个卷积层
的值矩阵;为第e个时序卷积子网络值矩阵的映射权重参数。
第e个时序卷积子网络第f个卷积层第i个注意力头的查询矩阵、键矩阵、值矩阵计算方式如下:
(10);
(11);
(12);
式中,为第e个时序卷积子网络第f个卷积层第i个注意力头的查询矩阵; 为第e个时序卷积子网络第f个卷积层第i个注意力头的键矩阵; 为第e个时序卷
积子网络第f个卷积层第i个注意力头的值矩阵;为第e个时序卷积子网络第i个注意力
头查询矩阵的映射权重参数;为第e个时序卷积子网络第i个注意力头键矩阵的映射权
重参数;为第e个时序卷积子网络第i个注意力头值矩阵的映射权重参数。
第e个时序卷积子网络第f个卷积层第i个注意力头的注意力输出为,如下式所示:
(13);
式中, 为的转置。
最后将h个注意力头的输出连接起来,并进行线性变换,以获得最终第e个时序卷
积子网络第f个卷积层的多头注意力输出,如下式所示:
(14);
式中,为第e个时序卷积子网络第f个卷积层第1个注意力头的注意力
输出,为第e个时序卷积子网络第f个卷积层第h个注意力头的注意力输出,
为第e个时序卷积子网络的线性变换参数矩阵。
令为第e个时序卷积子网络的多头注意力输出, 为第e个时序卷积子网络
的输出,则:
(15);
式中,和分别表示第e个时序卷积子网络的卷积核权重和偏置项。
将三个时序卷积子网络输出结果进行融合,得到一个融合特征向量:
(16);
式中,表示融合特征向量,表示第1个时序卷积子网络的输出,表示第2
个时序卷积子网络的输出,表示第3个时序卷积子网络的输出。
步骤S3:通过CRNN模型对手写表格图像特征图进行序列标注,将手写表格图像特征图上的每个位置上的文字或标签视为一个序列标注任务。CRNN模型包括12层网络,且从上往下进行,每一层网络的输入为上一层网络的输出,输入层大小为96×96×1,使用32个3×3的卷积核对输入的手写表格图像特征图进行卷积,然后进行大小为2×2的池化,手写数字识别的网络结构与汉字识别的网络结构相比较为简单,设置输入层大小为28×28×1,使用32个4×4的卷积核对输入的手写表格图像特征图进行5层网络的卷积即可。
步骤S4、构建电力知识图谱模型:参照图2,使用电力文本对Roberta预训练语言模型进行预训练,通过数据预处理将电力文本转换成电力文本序列,然后输入到Roberta预训练语言模型的电力文本序列输入层,通过词嵌入层,句嵌入层和位置嵌入层中进行提取,将输入的电力文本序列转化为词向量、句向量以及位置向量,利用图自注意力编码器(Transformer-Encoder)中的多头自注意力机制和全连接层对输入的电力文本序列进行建模,从电力文本序列中选择出和当前任务目标更契合的有效信息;将巡检的电力文本序列以句子为单位输入进已预训练的Roberta预训练语言模型得到词向量,再利用BiLSTM层学习巡检的电力文本序列的上下文特征,从而实现全局文本信息抽取,接着进行知识加工和知识融合,最后将构建的知识图谱用Neo4j储存与表示,形成电力知识图谱模型;
步骤S5:通过解码算法将序列标注得到的序列标签转化为识别结果,最后通过电力知识图谱模型将识别结果进行逻辑梳理,得到手写表格图像的识别文本;根据识别文本的节点和边的信息,识别其中表头、行标、列标和单元格中的内容,将识别到的内容按照表格的结构进行聚合、整理和转换,得到最终所需表格模板的规范表格数据。
Roberta预训练语言模型使用了全词掩码策略,能够完整获取中文电力文本中词的信息,提高对电力文本粗粒度语义的建模能力,从而显著提升模型性能,同时Roberta预训练语言模型使用动态掩码策略,每次向Roberta预训练语言模型输入一个序列时都生成新的掩码模式,动态地改变应用于训练数据的遮蔽模式,与传统的静态词向量训练相比,Roberta预训练语言模型训练输出的动态词向量包含了词的含义和上下文词之间的特征,不断适应时刻变化的掩码策略,能够更灵活地学习电力语料特征,更适用于中文电力领域的实体关系抽取任务,由于电力文本中通常存在分布更密集的专业词汇,因此本发明使用GB/T50297-2018电力工程基本术语标准、GB/T2900.1-2008电工术语基本术语、《电力设备运行规程及管理规定》等电力文本对Roberta预训练语言模型进行了预训练,构建出专属电力领域的Roberta预训练语言模型。
如图3所示, Roberta预训练语言模型依次由一个电力文本序列输入层、一个嵌入
层、多个图自注意力编码器(Transformer-Encoder)以及一个输出层组成,所述电力文本序
列输入层由词嵌入层、句嵌入层和位置嵌入层组成,图自注意力编码器依次由多头自注意
力机制、第一归一化层、全连接层、第二归一化层组成,利用Roberta预训练语言模型中的图
自注意力编码器(Transformer-Encoder)对输入的电力文本序列进行编码,使用多头自注
意力机制对编码后的电力文本序列训练得到对应的向量,对于输入的电力文本序列,分别为第1,2,3,…,n个词,n为词的个数,将每个词采
用独热向量(one-hot)表示,设维度为k,则输入的电力文本序列对应的嵌入矩阵为,
Roberta预训练语言模型中图自注意力编码器的多头注意力机制的输入为嵌入矩阵。
自注意力表示如下:
(17);
(18);
式中,为查询矩阵;为键矩阵;为值矩阵,为查询矩阵的映射权重参数,为键矩阵的映射权重参数,为值矩阵的映射权重参数;是向量的维度,为Q、K的列
数;softmax为归一化函数;为缩放因子,表示自注意力, 为键矩阵
的转置。
使用图自注意力编码器(Transformer-Encoder)中多头注意力机制拼接各自注意力得到多头自注意力输出。
BiLSTM层也叫BiLSTM(双向长短时记忆网络),是LSTM(长短时记忆网络)的扩展,它通过在输入序列的两个方向上分别处理数据,从而更好地捕捉序列中的上下文信息;LSTM(长短时记忆网络)有输入门、遗忘门和输出门,以及内部细胞状态,这些门控单元通过学习来控制信息的流动,使得LSTM(长短时记忆网络)能够处理长期依赖关系;BiLSTM(双向长短时记忆网络)引入了前向(正向)和后向(反向)两个方向的LSTM层,从而能够同时考虑过去和未来的信息。
在BiLSTM(双向长短时记忆网络)中,输入序列被分别输入到前向和后向的LSTM层;每个时刻的前向LSTM单元计算基于过去的信息,而后向LSTM单元计算基于未来的信息,这两个方向上的隐藏状态被拼接在一起,从而获得更全面的上下文信息,这使得BiLSTM(双向长短时记忆网络)在许多序列建模任务中表现出色,如自然语言处理中的命名实体识别、情感分析等。
总的来说,BiLSTM(双向长短时记忆网络)通过利用前向和后向两个方向上的信息,更好地捕捉了输入电力文本序列中的上下文关系,使得模型能够更全面地理解和处理时序数据。
BiLSTM层可以获得双向语义依赖并获得更全面的文本信息,BiLSTM层中LSTM(长
短时记忆网络)用于计算当前的隐藏向量,在前一时刻隐藏向量基础上,前一时刻单
元向量和当前的输入词嵌入,BiLSTM层是通过输入门、遗忘门和输出门这三个门来控制
信息的流动和计算处理, Roberta预训练语言模型将电力文本序列转换为嵌入向量,因此
一个句向量为,其中是对应于经过Roberta预训练语言模
型处理后的句向量中第m个词的D维词向量,η表示给句向量的长度。对于第m个词,前向LSTM
单元过结合第m个词的上下文信息进行编码,标记为编码信息,同样地,后向LSTM单元通
过结合第m个词上下文信息进行编码,标记为,最后,将和连接起来,代表第m个词
的编码信息,表示为。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,包括如下步骤:
步骤S1:对输入的手写表格图像进行预处理;
步骤S2:使用带多头注意力机制的特征提取模型对预处理后的手写表格图像进行特征提取,得到手写表格图像特征图;
利用多头注意力机制确保关注到手写表格图像不同位置的重要特征;对手写表格图像中的文字内容和结构信息进行建模和学习;根据手写表格图像中的结构信息和文字内容,计算手写表格图像节点之间的注意力权重,用于手写表格图像数据的提取和整合,最终得到手写表格图像特征图;
特征提取模型包括若干个时序卷积子网络和多头注意力机制,每个时序卷积子网络的每个卷积层都采用多头注意力机制理解特征向量之间的相互关系;
第e个时序卷积子网络第f个卷积层的卷积操作表示为:
;
式中,分别表示第e个时序卷积子网络的卷积核权重和偏置项;/>是激活函数;∗表示卷积操作;/>表示第e个时序卷积子网络第f个卷积层的输出;/>表示输入向量;
将作为计算查询矩阵、键矩阵、值矩阵的输入:
;
;
;
式中,为第e个时序卷积子网络第f个卷积层的查询矩阵;/>为第e个时序卷积子网络查询矩阵的映射权重参数;/>为第e个时序卷积子网络第f个卷积层的键矩阵;/>为第e个时序卷积子网络键矩阵的映射权重参数;/>为第e个时序卷积子网络第f个卷积层的值矩阵;/>为第e个时序卷积子网络值矩阵的映射权重参数;
第e个时序卷积子网络第f个卷积层第i个注意力头的查询矩阵、键矩阵、值矩阵计算方式如下:
;
;
;
式中,为第e个时序卷积子网络第f个卷积层第i个注意力头的查询矩阵; />为第e个时序卷积子网络第f个卷积层第i个注意力头的键矩阵;/>为第e个时序卷积子网络第f个卷积层第i个注意力头的值矩阵;/>为第e个时序卷积子网络第i个注意力头查询矩阵的映射权重参数;/>为第e个时序卷积子网络第i个注意力头键矩阵的映射权重参数;为第e个时序卷积子网络第i个注意力头值矩阵的映射权重参数;
第e个时序卷积子网络第f个卷积层第i个注意力头的注意力输出为,如下式所示:
;
式中, 为/>的转置;/>为向量的维度;
最后将h个注意力头的输出连接起来,并进行线性变换,以获得最终第e个时序卷积子网络第f个卷积层的多头注意力输出,如下式所示:
;
式中,为第e个时序卷积子网络第f个卷积层第1个注意力头的注意力输出,/>为第e个时序卷积子网络第f个卷积层第h个注意力头的注意力输出,/>为第e个时序卷积子网络的线性变换参数矩阵;
令为第e个时序卷积子网络的多头注意力输出, />为第e个时序卷积子网络的输出,则:
;
式中,分别表示第e个时序卷积子网络的卷积核权重和偏置项;
将若干个时序卷积子网络输出结果进行融合,得到一个融合特征向量;
步骤S3:通过CRNN模型对手写表格图像特征图进行序列标注,将手写表格图像特征图上的每个位置上的文字或标签视为一个序列标注任务;
步骤S4:使用电力文本对Roberta预训练语言模型进行预训练,通过数据预处理将电力文本转换成电力文本序列,然后输入到Roberta预训练语言模型的电力文本序列输入层,通过词嵌入层,句嵌入层和位置嵌入层中进行提取,将输入的电力文本序列转化为词向量、句向量以及位置向量,利用图自注意力编码器中的多头自注意力机制和全连接层对输入的电力文本序列进行建模,从电力文本序列中选择出和当前任务目标更契合的有效信息;将巡检的电力文本序列以句子为单位输入进已预训练的Roberta预训练语言模型得到词向量,再利用BiLSTM层学习巡检的电力文本序列的上下文特征,从而实现全局文本信息抽取,接着进行知识加工和知识融合,最后将构建的知识图谱用Neo4j储存与表示,形成电力知识图谱模型;
步骤S5:通过解码算法将序列标注得到的序列标签转化为识别结果,最后通过电力知识图谱模型将识别结果进行逻辑梳理,得到手写表格图像的识别文本;根据识别文本的节点和边的信息,识别其中表头、行标、列标和单元格中的内容,将识别到的内容按照表格的结构进行聚合、整理和转换,得到最终所需表格模板的规范表格数据。
2.根据权利要求1所述的基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,所述Roberta预训练语言模型依次由一个电力文本序列输入层、一个嵌入层、多个图自注意力编码器以及一个输出层组成,所述嵌入层由词嵌入层、句嵌入层和位置嵌入层组成,图自注意力编码器依次由多头自注意力机制、第一归一化层、全连接层、第二归一化层组成,利用Roberta预训练语言模型中的图自注意力编码器对输入的电力文本序列进行编码,使用多头自注意力机制对编码后的电力文本序列训练得到对应的向量。
3.根据权利要求2所述的基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,对于输入的电力文本序列,/>分别为第1,2,3,…,n个词,n为词的个数,将每个词采用独热向量表示,设维度为/>,则输入的电力文本序列对应的嵌入矩阵为/>,Roberta预训练语言模型中图自注意力编码器的多头注意力机制的输入为嵌入矩阵/>;自注意力表示如下:
;
;
式中,为查询矩阵;/>为键矩阵;/>为值矩阵,/>为查询矩阵的映射权重参数,/>为键矩阵的映射权重参数,/>为值矩阵的映射权重参数;/>是向量的维度,为Q、K的列数;softmax为归一化函数;/>为缩放因子,/>表示自注意力, />为键矩阵/>的转置;
使用图自注意力编码器中多头注意力机制拼接各自注意力得到多头自注意力输出。
4.根据权利要求1所述的基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,所述BiLSTM层包括前向LSTM单元和后向LSTM单元,Roberta预训练语言模型将电力文本序列转换为嵌入向量,一个句向量为,其中/>是对应于经过Roberta预训练语言模型处理后的句向量中第m个词的D维词向量,η表示给句向量的长度;对于第m个词,前向LSTM单元过结合第m个词的上下文信息进行编码,标记为编码信息,同样地,后向LSTM单元通过结合第m个词上下文信息进行编码,标记为/>,最后,将连接起来,代表第m个词的编码信息,表示为/>。
5.根据权利要求1所述的基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,所述预处理包括降噪处理、二值化处理和倾斜矫正处理。
6.根据权利要求5所述的基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,所述降噪处理是:采用高斯滤波的方法对输入的手写表格图像进行降噪处理。
7.根据权利要求6所述的基于多头注意力机制和知识图谱的手写表格识别方法,其特征在于,所述倾斜矫正处理采用霍夫变换进行,首先识别输入的手写表格图像中的几何图形,从中检测到对应的直线,然后通过计算直线的倾斜角度判断几何图形的倾斜度数,最后进行旋转校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311398545.8A CN117132997B (zh) | 2023-10-26 | 2023-10-26 | 一种基于多头注意力机制和知识图谱的手写表格识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311398545.8A CN117132997B (zh) | 2023-10-26 | 2023-10-26 | 一种基于多头注意力机制和知识图谱的手写表格识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117132997A CN117132997A (zh) | 2023-11-28 |
CN117132997B true CN117132997B (zh) | 2024-03-12 |
Family
ID=88851157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311398545.8A Active CN117132997B (zh) | 2023-10-26 | 2023-10-26 | 一种基于多头注意力机制和知识图谱的手写表格识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132997B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取系统及方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN113609892A (zh) * | 2021-06-16 | 2021-11-05 | 北京工业大学 | 深度学习与景区知识图谱融合的手写诗词识别方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113705730A (zh) * | 2021-09-24 | 2021-11-26 | 江苏城乡建设职业学院 | 基于卷积注意力和标签采样的手写方程式图像识别方法 |
JP2022018928A (ja) * | 2020-07-16 | 2022-01-27 | 日本電信電話株式会社 | 翻訳装置、翻訳方法及びプログラム |
CN114821609A (zh) * | 2022-05-09 | 2022-07-29 | 南京大学 | 一种基于几何先验和知识图谱的自然场景文本识别方法 |
CN115827862A (zh) * | 2022-11-30 | 2023-03-21 | 江苏杰瑞信息科技有限公司 | 一种多元费用凭证数据关联采集方法 |
-
2023
- 2023-10-26 CN CN202311398545.8A patent/CN117132997B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
JP2022018928A (ja) * | 2020-07-16 | 2022-01-27 | 日本電信電話株式会社 | 翻訳装置、翻訳方法及びプログラム |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取系统及方法 |
CN113609892A (zh) * | 2021-06-16 | 2021-11-05 | 北京工业大学 | 深度学习与景区知识图谱融合的手写诗词识别方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113705730A (zh) * | 2021-09-24 | 2021-11-26 | 江苏城乡建设职业学院 | 基于卷积注意力和标签采样的手写方程式图像识别方法 |
CN114821609A (zh) * | 2022-05-09 | 2022-07-29 | 南京大学 | 一种基于几何先验和知识图谱的自然场景文本识别方法 |
CN115827862A (zh) * | 2022-11-30 | 2023-03-21 | 江苏杰瑞信息科技有限公司 | 一种多元费用凭证数据关联采集方法 |
Non-Patent Citations (4)
Title |
---|
Graph-based Knowledge Distillation by Multi-head Attention Network;Seunghyun Lee et al.;《arXiv:1907.02226v2 》;第1-13页 * |
How to Construct a Power Knowledge Graph with Dispatching Data?;Shixiong Fan et al.;《Hindawi》;第1-10页 * |
王楠 等.《自然语言理解与行业知识图谱》.机械工业出版社,2022,第132-133页. * |
面向金融网页数据的异构表格信息提取模型;徐宛扬 等;《计算机应用》;第43卷(第S1期);第56-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117132997A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN111401384B (zh) | 一种变电设备缺陷图像匹配方法 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN111259786A (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN112329760A (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
CN112560865B (zh) | 一种室外大场景下点云的语义分割方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN113076465A (zh) | 一种基于深度哈希的通用跨模态检索模型 | |
CN115424059A (zh) | 一种基于像素级对比学习的遥感土地利用分类方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN111461175A (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN116342942A (zh) | 基于多级域适应弱监督学习的跨域目标检测方法 | |
CN112528845A (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
CN114581905A (zh) | 一种基于语义增强机制的场景文本识别方法及系统 | |
CN115147601A (zh) | 基于自注意力全局特征增强的城市街道点云语义分割方法 | |
Liu et al. | SLPR: A deep learning based chinese ship license plate recognition framework | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN114168773A (zh) | 一种基于伪标签和重排序的半监督草图图像检索方法 | |
Yu et al. | Long-range correlation supervision for land-cover classification from remote sensing images | |
CN117132997B (zh) | 一种基于多头注意力机制和知识图谱的手写表格识别方法 | |
Singh et al. | A comprehensive survey on Bangla handwritten numeral recognition | |
Yadav et al. | Assamese character recognition using convolutional neural networks | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |