CN113065549A - 基于深度学习的文档信息抽取方法及装置 - Google Patents
基于深度学习的文档信息抽取方法及装置 Download PDFInfo
- Publication number
- CN113065549A CN113065549A CN202110266211.XA CN202110266211A CN113065549A CN 113065549 A CN113065549 A CN 113065549A CN 202110266211 A CN202110266211 A CN 202110266211A CN 113065549 A CN113065549 A CN 113065549A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- information extraction
- shared
- neural network
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 93
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 158
- 238000001514 detection method Methods 0.000 claims abstract description 73
- 230000000007 visual effect Effects 0.000 claims abstract description 68
- 230000007246 mechanism Effects 0.000 claims abstract description 49
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 65
- 238000011176 pooling Methods 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 16
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 abstract description 20
- 238000005457 optimization Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度学习的文档信息抽取方法及装置,涉及文档信息抽取技术领域;方法包括S1文本检测,处理器获取共享特征向量X的文字区域特征向量;S2文本识别,获取基于文字区域特征向量的注意力图;S3视觉协作机制,根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;S4语义协作机制,根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;S5信息抽取,根据视觉特征和语义特征从共享特征向量X中抽取信息;装置包括文本检测模块、文本识别模块、视觉协作机制模块、语义协作机制模块和信息抽取模块共五个程序模块;其通过步骤S1至步骤S5等,实现了从文档图片中检测识别和信息提取。
Description
技术领域
本发明涉及文档信息抽取技术领域,尤其涉及一种基于深度学习的文档信息抽取方法及装置。
背景技术
经过文字识别技术不断的发展,文字识别准确率逐步提升,但是很少有考虑到文档图片到人类所需要获取的信息之间的关系,文字识别技术仅仅是对一章图片中文字机械性的翻译,但是无法提取其中关系和抽取重要信息内容。同时近年来,可视信息抽取技术受到越发广泛的关注。其在如文档理解、信息检索和智能教育等诸多时下热门的任务场景中得到广泛应用。
现有的可视信息抽取方法主要分为两个独立的阶段:
1)文本检测与识别;
2)信息抽取。
前者用来得到图片中所包含的全部文本的位置与内容,而后者在前者提供的结果上,进一步提取出特定类别的关键信息。然而,现存方法的局限性主要在于:
1)尽管文本检测与识别模型已经学习到有效的特征表示,但在信息抽取部分,这些特征被直接丢弃,而又从OCR结果中重新生成。这导致了计算资源的浪费,并且被丢弃的特征可能比重新学习到的更有效。
2)模块间的独立性导致他们的训练过程没有交互,这一方面限制了信息抽取模块所能获得的有用信息量,另一方面也使得文本检测与识别模块无法根据最终目标进行自适应的优化。
现有技术问题及思考:
如何解决从文档图片中检测识别和信息提取的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的文档信息抽取方法及装置,其通过步骤S1至步骤S5等,实现了从文档图片中检测识别和信息提取。
为解决上述技术问题,本发明所采取的技术方案是:基于深度学习的文档信息抽取方法包括如下步骤,S1文本检测,处理器获取共享特征向量X的文字区域特征向量;S2文本识别,处理器获取基于共享特征向量X的文字区域特征向量的注意力图;S3视觉协作机制,处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;S4语义协作机制,处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;S5信息抽取,处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。
进一步的技术方案在于:步骤S1具体包括处理器获取原始的文档图片,通过共享主干网络从原始的文档图片的文字区域中提取并获得共享特征向量X,共享主干网络为卷积神经网络,通过第一神经网络从共享特征向量X中获取检测框B、置信度C和掩码M,第一神经网络为由残差神经网络ResNet-50后接特征金字塔网络FPN形成的基于掩码的卷积循环神经网络Mask R-CNN,检测框B为共享特征向量X上的文字区域边框,通过检测框B在共享特征向量X中剪裁并获得共享特征向量X的文字区域特征向量。
进一步的技术方案在于:步骤S2具体包括处理器将共享特征向量X的文字区域特征向量通过第二神经网络编码和第三神经网络解码,从而获得注意力图,第二神经网络为卷积神经网络ResNet-18,第三神经网络为循环神经网络LSTM,注意力图为一维注意力图即识别结果。
进一步的技术方案在于:步骤S3具体包括处理器将共享特征向量X的文字区域特征向量经过区域池化得到第一特征向量F1,然后依次经过卷积层、均值池化和线性变换并得到视觉特征;步骤S4具体包括将注意力图经过一维卷积、最大池化、拼接和线性变换并得到语义特征。
基于深度学习的文档信息抽取装置包括文本检测模块、文本识别模块、视觉协作机制模块、语义协作机制模块和信息抽取模块共五个程序模块,文本检测模块,用于处理器获取共享特征向量X的文字区域特征向量;文本识别模块,用于处理器获取基于共享特征向量X的文字区域特征向量的注意力图;视觉协作机制模块,用于处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;语义协作机制模块,用于处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;信息抽取模块,用于处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。
进一步的技术方案在于:文本检测模块,还用于处理器获取原始的文档图片,通过共享主干网络从原始的文档图片的文字区域中提取并获得共享特征向量X,共享主干网络为卷积神经网络,通过第一神经网络从共享特征向量X中获取检测框B、置信度C和掩码M,第一神经网络为由残差神经网络ResNet-50后接特征金字塔网络FPN形成的基于掩码的卷积循环神经网络Mask R-CNN,检测框B为共享特征向量X上的文字区域边框,通过检测框B在共享特征向量X中剪裁并获得共享特征向量X的文字区域特征向量。
进一步的技术方案在于:文本识别模块,还用于处理器将共享特征向量X的文字区域特征向量通过第二神经网络编码和第三神经网络解码,从而获得注意力图,第二神经网络为卷积神经网络ResNet-18,第三神经网络为循环神经网络LSTM,注意力图为一维注意力图即识别结果。
进一步的技术方案在于:视觉协作机制模块,还用于处理器将共享特征向量X的文字区域特征向量经过区域池化得到第一特征向量F1,然后依次经过卷积层、均值池化和线性变换并得到视觉特征;语义协作机制模块,还用于将注意力图经过一维卷积、最大池化、拼接和线性变换并得到语义特征。
基于深度学习的文档信息抽取装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述基于深度学习的文档信息抽取方法的步骤。
基于深度学习的文档信息抽取装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述基于深度学习的文档信息抽取方法的步骤。
采用上述技术方案所产生的有益效果在于:
基于深度学习的文档信息抽取方法包括如下步骤,S1文本检测,处理器获取共享特征向量X的文字区域特征向量;S2文本识别,处理器获取基于共享特征向量X的文字区域特征向量的注意力图;S3视觉协作机制,处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;S4语义协作机制,处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;S5信息抽取,处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。其通过步骤S1至步骤S5等,实现了从文档图片中检测识别和信息提取。
基于深度学习的文档信息抽取装置包括文本检测模块、文本识别模块、视觉协作机制模块、语义协作机制模块和信息抽取模块共五个程序模块,文本检测模块,用于处理器获取共享特征向量X的文字区域特征向量;文本识别模块,用于处理器获取基于共享特征向量X的文字区域特征向量的注意力图;视觉协作机制模块,用于处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;语义协作机制模块,用于处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;信息抽取模块,用于处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。其通过文本检测模块、文本识别模块、视觉协作机制模块、语义协作机制模块和信息抽取模块等,实现了从文档图片中检测识别和信息提取。
基于深度学习的文档信息抽取装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述基于深度学习的文档信息抽取方法的步骤。其通过该装置,实现了从文档图片中检测识别和信息提取。
基于深度学习的文档信息抽取装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述基于深度学习的文档信息抽取方法的步骤。其通过该装置,实现了从文档图片中检测识别和信息提取。
详见具体实施方式部分描述。
附图说明
图1是本发明实施例1的流程图;
图2是本发明实施例2的原理框图;
图3是本发明中文本检测模块的数据流图;
图4是本发明中文本识别模块的数据流图;
图5是本发明中视觉协作机制模块的数据流图;
图6是本发明中语义协作机制模块的数据流图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例1:
如图1所示,本发明公开了一种基于深度学习的文档信息抽取方法包括如下步骤:
S1文本检测
处理器获取共享特征向量X的文字区域特征向量。
具体包括处理器获取原始的文档图片,通过共享主干网络从原始的文档图片的文字区域中提取并获得共享特征向量X,共享主干网络为卷积神经网络,通过第一神经网络从共享特征向量X中获取检测框B、置信度C和掩码M,第一神经网络为由残差神经网络ResNet-50后接特征金字塔网络FPN形成的基于掩码的卷积循环神经网络Mask R-CNN,检测框B为共享特征向量X上的文字区域边框,通过检测框B在共享特征向量X中剪裁并获得共享特征向量X的文字区域特征向量。
S2文本识别
处理器获取基于共享特征向量X的文字区域特征向量的注意力图。
具体包括处理器将共享特征向量X的文字区域特征向量通过第二神经网络编码和第三神经网络解码,从而获得注意力图,第二神经网络为卷积神经网络ResNet-18,第三神经网络为循环神经网络LSTM,注意力图为一维注意力图即识别结果。
S3视觉协作机制
处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块。
具体包括处理器将共享特征向量X的文字区域特征向量经过区域池化得到第一特征向量F1,然后依次经过卷积层、均值池化和线性变换并得到视觉特征。
S4语义协作机制
处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块。
具体包括将注意力图经过一维卷积、最大池化、拼接和线性变换并得到语义特征。
S5信息抽取
处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。
本申请的发明点在于步骤S1,从文档图片的文字区域中提取并获得共享特征向量X,之后的操作均是基于共享特征向量X进行的,故此称之为共享特征,省时高效。现有技术中,之后的每次操作均是基于原始图片进行的,费时低效。S5信息抽取的步骤本身为现有技术,不再赘述。
实施例2:
如图2所示,本发明公开了一种基于深度学习的文档信息抽取装置包括文本检测模块、文本识别模块、视觉协作机制模块、语义协作机制模块和信息抽取模块,共五个程序模块。
文本检测模块,用于处理器获取共享特征向量X的文字区域特征向量;包括处理器获取原始的文档图片,通过共享主干网络从原始的文档图片的文字区域中提取并获得共享特征向量X,共享主干网络为卷积神经网络,通过第一神经网络从共享特征向量X中获取检测框B、置信度C和掩码M,第一神经网络为由残差神经网络ResNet-50后接特征金字塔网络FPN形成的基于掩码的卷积循环神经网络Mask R-CNN,检测框B为共享特征向量X上的文字区域边框,通过检测框B在共享特征向量X中剪裁并获得共享特征向量X的文字区域特征向量。
文本识别模块,用于处理器获取基于共享特征向量X的文字区域特征向量的注意力图;包括处理器将共享特征向量X的文字区域特征向量通过第二神经网络编码和第三神经网络解码,从而获得注意力图,第二神经网络为卷积神经网络ResNet-18,第三神经网络为循环神经网络LSTM,注意力图为一维注意力图即识别结果。
视觉协作机制模块,用于处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;包括处理器将共享特征向量X的文字区域特征向量经过区域池化得到第一特征向量F1,然后依次经过卷积层、均值池化和线性变换并得到视觉特征。
语义协作机制模块,用于处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;包括将注意力图经过一维卷积、最大池化、拼接和线性变换并得到语义特征。
信息抽取模块,用于处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。
实施例3:
本发明公开了一种基于深度学习的文档信息抽取装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的实施例2中的计算机程序,所述处理器执行计算机程序时实现实施例1的步骤。
实施例4:
本发明公开了一种计算机可读存储介质,所述计算机可读存储介质存储有实施例2中的计算机程序,所述计算机程序被处理器执行时实现实施例1中的步骤。
本申请的技术贡献:
本发明的技术方案主要由一个共享主干网络和三个特定的子任务分支——文本检测、识别和信息抽取模块组成。给定一张文档图像,文本检测与识别分支不仅负责定位并识别图中包含的所有文本,同时还通过文中提出的视觉与语义协作机制为后续网络提供丰富的视觉和语义特征。信息提取分支中收集多模态的特征表示,并利用这些特征自适应地生成不同细粒度的融合信息。接下来将对各个分支模块进行详细介绍。
本发明的技术方案主要模块包括如下:该系统包括五个部分,第一部分是文本检测模块,用于检测文档图片中的文字区域;第二部分是文本识别模块,用于识别检测出来的结果,得到文档图片的初步识别信息;第三部分是提出的视觉协作机制模块,可以将丰富的视觉特征从检测分支送至信息抽取分支;第四部分是提出的语义协作机制模块,可以将识别得到的语义特征从识别分支送至信息抽取分支;第五部分是信息抽取模块得到最终抽取后的信息。
如图2所示,包含以下模块:
(1)文本检测模块:
如图3所示,给定输入图像,本文首先使用共享主干网络提取高级特征表示X,X也即是共享特征向量,包含了原始图片中视觉信息。然后,检测分支采用类似Mask R-CNN的结构将X作为输入,并输出检测框B、置信度C以及为任意四边形框准备的掩码M。
B,C,M=TextDetection(X) 式1
(2)文本识别模块:
如图4所示,在文本检测中得到的文本检测框B作为文字识别单输入,因为检测框B是针对于共享特征向量X中的位置框,因此我们直接在X中按照B裁剪的文字区域特征向量,再经过编解码和注意力机制等方式识别得到最终结果,通常编码采用卷积神经网络,解码采用循环神经网络,并结合文字区域特征生成注意力图,使得解码阶段更加专注于文字区域的解码。
(3)视觉协作机制模块:
如图5所示,视觉协作机制主要是为了将以此将丰富的视觉特征从检测分支送至信息抽取分支,同时也相对的提供更多有效监督信息以帮助检测分支的优化过程。首先是检测分支的得到的检测框B和共享特征向量X获取区域特征,然后经过区域池化得到特征向量F1,再依次经过卷积层,均值池化,线性变换最后得到特征向量F4,将F4记做视觉特征Fvis,整个视觉协作模块可以表示为:
Fvis=Linear(AvgPool(Conv(RegionPool(X,B)))) 式2
(4)语义协作机制模块:
如图6所示,输在识别分支中,解码阶段采用了循环神经网络,在循环神经网络隐状态S可以每个字符的高级语义表示,循环神经网络是由多个单元块组成,每一个单元都会输出一个隐状态,我们依次标记为s1,s2···sm,m表示循环神经网络中单元的个数。我们讲所有到隐状态连接起来(记做S)作为(4)语义协作机制模块的输入。我们将S中前i个表示为Fi,即F2是S中前两个s1和s2拼接结果,即F4是S中前四个s1到s4拼接结果。然后每一个Fi经过一个一维卷积和最大池化,最后在此之前拼接,再经过线性变换得到语义特征Fsem。
(5)信息抽取模块:在信息抽取模块,该工作首先通过检测到的文本框提取空间位置特征:
其中xmin和ymin检测得到的文本框到左上角位置,xmax和ymax检测得到的文本框到右下角位置,Wimg和Himg是原始输入图片到长和宽。Fspt是文本框的空间特征。根据识别出的字符串的长度将整个片段级别文本框沿最长边均匀地划分为多个单字符框,并以此利用上述提到的计算公式,可分别得到字符级别和片段级别的视觉和位置特征。最后将字符级和片段级融合特征拼接在一起,送入最后的序列标注模型。本专利采用经典的双向长短时记忆网络(BiLSTM)与条件随机场层(CRF layer)结构,对识别模块得到的结果进行分类。
整个框架在训练时可以进行端到端的联合优化,信息抽取部分的梯度可以回传至整个网络。整体的损失函数即由各子分支的优化目标加权构成。
技术方案说明:
(1)文本检测模块:给定输入图像,本文首先使用共享主干网络提取高级特征表示X,X也即是共享特征向量,并作为检测分支的输入。然后检测分支具体采用ResNet-50后接FPN的结构,输出检测框B、置信度C以及为任意四边形框准备的掩码M。
(2)文本识别模块:在文本检测中得到的文本检测框B作为文字识别单输入,因为检测框B是针对于共享特征向量X中的位置框,因此我们直接在X中按照B裁剪的文字区域特征向量,再经过编解码和注意力机制等方式识别得到最终结果,通常编码采用卷积神经网络ResNet-18,解码采用循环神经网络LSTM,并结合文字区域特征生成一维注意力图进行解码得到识别结果。
(3)视觉协作机制模块:视觉协作机制主要是为了将以此将丰富的视觉特征从检测分支送至信息抽取分支,同时也相对的提供更多有效监督信息以帮助检测分支的优化过程。首先是检测分支的得到的检测框B和共享特征向量X获取区域特征,然后经过区域池化得到特征向量F1,再依次经过卷积层,均值池化,线性变换最后得到特征向量F4,将F4记做视觉特征Fvis。
(4)语义协作机制模块:输在识别分支中,解码阶段采用了循环神经网络,在循环神经网络隐状态S可以每个字符的高级语义表示,循环神经网络是由多个单元块组成,每一个单元都会输出一个隐状态,我们依次标记为s1,s2···sm,m表示循环神经网络中单元的个数。我们讲所有到隐状态连接起来(记做S)作为(4)语义协作机制模块的输入。我们将S中前i个表示为Fi,即F2是S中前两个s1和s2拼接结果,即F4是S中前四个s1到s4拼接结果。然后每一个Fi经过一个一维卷积和最大池化,最后在此之前拼接,再经过线性变换得到语义特征Fsem。
(5)信息抽取模块:在信息抽取模块,该工作首先通过检测到的文本框提取空间位置特征Fspt是文本框的空间特征。根据识别出的字符串的长度将整个片段级别文本框沿最长边均匀地划分为多个单字符框,并以此利用上述提到的计算公式,可分别得到字符级别和片段级别的视觉和位置特征。最后将字符级和片段级融合特征拼接在一起,送入最后的序列标注模型。本专利采用经典的双向长短时记忆网络(BiLSTM)与条件随机场层(CRFlayer)结构,对识别模块得到的结果进行分类。
本申请保密运行一段时间后,现场技术人员反馈的有益之处在于:
着重解决文档图片信息抽取问题,提出了一套可进行端到端联合优化的文档信息抽取算法,改算法训练和测试过程都是端到端进行,相比于专利《基于预训练模型的信息抽取方法、装置、设备及存储介质专利号:CN202011352108.9》,我们的算法不需要预训练过程,同时信息抽取和检测识别过程是联合优化,共享部分特征,即简化了算法使用复杂度,同时又在检测,识别,信息抽取三个模块之间有了信息连接,更好的解决了文档信息抽取的问题。
本发明主要针对项目文档信息抽取,通过端到端联合优化的文本检测,识别和信息抽取实现更高效的文档信息提取功能。
Claims (10)
1.基于深度学习的文档信息抽取方法,其特征在于:包括如下步骤,S1文本检测,处理器获取共享特征向量X的文字区域特征向量;S2文本识别,处理器获取基于共享特征向量X的文字区域特征向量的注意力图;S3视觉协作机制,处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;S4语义协作机制,处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;S5信息抽取,处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。
2.根据权利要求1所述的基于深度学习的文档信息抽取方法,其特征在于:步骤S1具体包括处理器获取原始的文档图片,通过共享主干网络从原始的文档图片的文字区域中提取并获得共享特征向量X,共享主干网络为卷积神经网络,通过第一神经网络从共享特征向量X中获取检测框B、置信度C和掩码M,第一神经网络为由残差神经网络ResNet-50后接特征金字塔网络FPN形成的基于掩码的卷积循环神经网络Mask R-CNN,检测框B为共享特征向量X上的文字区域边框,通过检测框B在共享特征向量X中剪裁并获得共享特征向量X的文字区域特征向量。
3.根据权利要求1所述的基于深度学习的文档信息抽取方法,其特征在于:步骤S2具体包括处理器将共享特征向量X的文字区域特征向量通过第二神经网络编码和第三神经网络解码,从而获得注意力图,第二神经网络为卷积神经网络ResNet-18,第三神经网络为循环神经网络LSTM,注意力图为一维注意力图即识别结果。
4.根据权利要求1所述的基于深度学习的文档信息抽取方法,其特征在于:步骤S3具体包括处理器将共享特征向量X的文字区域特征向量经过区域池化得到第一特征向量F1,然后依次经过卷积层、均值池化和线性变换并得到视觉特征;步骤S4具体包括将注意力图经过一维卷积、最大池化、拼接和线性变换并得到语义特征。
5.基于深度学习的文档信息抽取装置,其特征在于:包括文本检测模块、文本识别模块、视觉协作机制模块、语义协作机制模块和信息抽取模块共五个程序模块,文本检测模块,用于处理器获取共享特征向量X的文字区域特征向量;文本识别模块,用于处理器获取基于共享特征向量X的文字区域特征向量的注意力图;视觉协作机制模块,用于处理器根据共享特征向量X的文字区域特征向量获取视觉特征并发送至信息抽取模块;语义协作机制模块,用于处理器根据基于共享特征向量X的注意力图获取语义特征并发送至信息抽取模块;信息抽取模块,用于处理器根据视觉特征和语义特征从共享特征向量X中抽取信息。
6.根据权利要求5所述的基于深度学习的文档信息抽取装置,其特征在于:文本检测模块,还用于处理器获取原始的文档图片,通过共享主干网络从原始的文档图片的文字区域中提取并获得共享特征向量X,共享主干网络为卷积神经网络,通过第一神经网络从共享特征向量X中获取检测框B、置信度C和掩码M,第一神经网络为由残差神经网络ResNet-50后接特征金字塔网络FPN形成的基于掩码的卷积循环神经网络Mask R-CNN,检测框B为共享特征向量X上的文字区域边框,通过检测框B在共享特征向量X中剪裁并获得共享特征向量X的文字区域特征向量。
7.根据权利要求5所述的基于深度学习的文档信息抽取装置,其特征在于:文本识别模块,还用于处理器将共享特征向量X的文字区域特征向量通过第二神经网络编码和第三神经网络解码,从而获得注意力图,第二神经网络为卷积神经网络ResNet-18,第三神经网络为循环神经网络LSTM,注意力图为一维注意力图即识别结果。
8.根据权利要求5所述的基于深度学习的文档信息抽取装置,其特征在于:视觉协作机制模块,还用于处理器将共享特征向量X的文字区域特征向量经过区域池化得到第一特征向量F1,然后依次经过卷积层、均值池化和线性变换并得到视觉特征;语义协作机制模块,还用于将注意力图经过一维卷积、最大池化、拼接和线性变换并得到语义特征。
9.基于深度学习的文档信息抽取装置,其特征在于:包括存储器、处理器以及存储在存储器中并可在处理器上运行的权利要求5~权利要求8中的程序模块,所述处理器执行程序模块时实现权利要求1~权利要求4中任意一项基于深度学习的文档信息抽取方法的步骤。
10.基于深度学习的文档信息抽取装置,其特征在于:为计算机可读存储介质,所述计算机可读存储介质存储有权利要求5~权利要求8中的程序模块,所述程序模块被处理器执行时实现权利要求1~权利要求4中任意一项基于深度学习的文档信息抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266211.XA CN113065549A (zh) | 2021-03-09 | 2021-03-09 | 基于深度学习的文档信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266211.XA CN113065549A (zh) | 2021-03-09 | 2021-03-09 | 基于深度学习的文档信息抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113065549A true CN113065549A (zh) | 2021-07-02 |
Family
ID=76560052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266211.XA Pending CN113065549A (zh) | 2021-03-09 | 2021-03-09 | 基于深度学习的文档信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065549A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722490A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN113723330A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种图表文档信息理解的方法及系统 |
CN114663896A (zh) * | 2022-05-17 | 2022-06-24 | 深圳前海环融联易信息科技服务有限公司 | 基于图像处理的文档信息抽取方法、装置、设备及介质 |
CN115527227A (zh) * | 2022-10-13 | 2022-12-27 | 澎湃数智(北京)科技有限公司 | 一种文字识别的方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN111753827A (zh) * | 2020-05-15 | 2020-10-09 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
-
2021
- 2021-03-09 CN CN202110266211.XA patent/CN113065549A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN111753827A (zh) * | 2020-05-15 | 2020-10-09 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
JIAPENG WANG等: "Towards Robust Visual Information Extraction in Real World:New Dataset and Novel Solution", 《ARXIV:2102.06732V1》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722490A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN113723330A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种图表文档信息理解的方法及系统 |
CN113723330B (zh) * | 2021-09-06 | 2023-11-07 | 华南理工大学 | 一种图表文档信息理解的方法及系统 |
CN114663896A (zh) * | 2022-05-17 | 2022-06-24 | 深圳前海环融联易信息科技服务有限公司 | 基于图像处理的文档信息抽取方法、装置、设备及介质 |
CN114663896B (zh) * | 2022-05-17 | 2022-08-23 | 深圳前海环融联易信息科技服务有限公司 | 基于图像处理的文档信息抽取方法、装置、设备及介质 |
CN115527227A (zh) * | 2022-10-13 | 2022-12-27 | 澎湃数智(北京)科技有限公司 | 一种文字识别的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065549A (zh) | 基于深度学习的文档信息抽取方法及装置 | |
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN111488489B (zh) | 视频文件的分类方法、装置、介质及电子设备 | |
CN112487812B (zh) | 一种基于边界识别的嵌套实体识别方法及系统 | |
CN113365147B (zh) | 基于音乐卡点的视频剪辑方法、装置、设备及存储介质 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110210416B (zh) | 基于动态伪标签解码的手语识别系统优化方法及装置 | |
CN111143617A (zh) | 一种图片或视频文本描述自动生成方法及系统 | |
CN110570845A (zh) | 一种基于域不变特征的语音识别方法 | |
CN115563327A (zh) | 基于Transformer网络选择性蒸馏的零样本跨模态检索方法 | |
CN111259785A (zh) | 基于时间偏移残差网络的唇语识别方法 | |
CN116166827A (zh) | 语义标签抽取模型的训练和语义标签的抽取方法及其装置 | |
CN114973229A (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN114626529B (zh) | 一种自然语言推理微调方法、系统、装置及存储介质 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN111814508A (zh) | 一种文字识别方法、系统及设备 | |
CN114529904A (zh) | 一种基于一致性正则训练的场景文本识别系统 | |
CN114064968A (zh) | 一种新闻字幕摘要生成方法和系统 | |
CN114598926A (zh) | 一种视频生成方法、装置、电子设备及存储介质 | |
CN114329005A (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN113255829A (zh) | 基于深度学习的零样本图像目标检测方法和装置 | |
CN115240106B (zh) | 任务自适应的小样本行为识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210702 |
|
RJ01 | Rejection of invention patent application after publication |