CN108154191B - 文档图像的识别方法和系统 - Google Patents
文档图像的识别方法和系统 Download PDFInfo
- Publication number
- CN108154191B CN108154191B CN201810031847.4A CN201810031847A CN108154191B CN 108154191 B CN108154191 B CN 108154191B CN 201810031847 A CN201810031847 A CN 201810031847A CN 108154191 B CN108154191 B CN 108154191B
- Authority
- CN
- China
- Prior art keywords
- document image
- neural network
- network
- identified
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种文档图像的识别方法,该方法包括:输入待识别文档图像;第一神经网络获得所述待识别文档图像的静态特征;变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号;第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征;根据所述动态特征输出所述待识别文档图像的识别结果。相应地,本发明还提供了一种文档图像的识别系统。实施本发明可以提升文档图像识别的准确率和效率。
Description
技术领域
本发明涉及深度学习和神经网络技术,尤其涉及一种文档图像的识别方法和系统。
背景技术
随着办公自动化技术的发展,在越来越多的场景中人们期望纸质文档转化为便于处理的电子图像,以利于进行数据传输、分发、存档和查看。
由于各种业务的复杂性,其相适配的纸质文档也不相同,贮存纸质文档时,人们可以通过人工分装的形式对其进行归类方便查阅。现有技术中生成纸质文档的电子图像的最常见方式是对纸质文档进行扫描而生成。而当纸质文档被转化为文档图像后,如何对各种无特殊标记的文档图像进行自动化分类、归档和分发是一个较为困难的问题。若是单纯依靠用户操作计算机设备为其添加分类凭据标识,整个过程耗时较长,尤其是若短时间内要分类大量的文档图像,依靠人工操作的解决方法需要耗费大量的人力。
为了快速实现文档图像的分类,传统方法中提出了依靠自动化的分类模型来处理文档图像分类的构想。传统的文档分类方法中,采用特征提取-根据特征识别-分类的步骤,也即首先建立特征提取模型对文档图像进行特征提取,然后使用分类器根据提取的特征识别文档图像的类别。在设计上述分类模型时,需要针对不同文档图像的特点来设计提取何种类型的特征,而特征提取的方法直接影响分类结果的好坏。因此,该现有技术缺陷在于:第一,特征提取的方法是否有效往往依赖于设计人员的经验和知识积累,没有一种普遍高效的特征提取方法可以适应不同类型的文档图像;第二,面对新的类型的文档图像,需要重新确定特征提取的方法,而重新设计特征的提取方法是耗时耗力的,也即该分类模型不具有机器学习能力,无法应对文档图像识别的扩展需求。
由于存在上述缺陷,现有技术中又提出了采用机器深度学习的方法来构建另一种分类模型,目前这种分类模型常见的结构是采用互相耦合的卷积神经网络(ConvolutionalNeural Network,CNN)和分类器(例如全连接网络)来实现。CNN是一种前馈神经网络,其接受输入不经任何处理的原始文档图像,在使用CNN时避免了显式的特征提取,取代而之的是CNN通过训练数据的训练隐式地提取特征,相比传统的人工设计特征提取方法的分类模型,利用CNN网络进行文档图像分类可以有效提高文档分类的准确性。
尽管准确性得到了提升,CNN+分类器构成的分类网络依然具有缺陷,CNN和分类器均为静态网络,在分类过程中,对文档图像信息的利用是固定不变的,其提取的特征是静态特征。而实际应用中需要处理的文档类型具有多种类型,对不同的文档类型而言,在图像中其有效的鉴别信息的位置并不是固定的,不同的文档图像具有不同的版面上下文结构。而由CNN+分类器网络构成的纯静态网络,无法利用文档图像的不同版面上下文结构而对分类所利用的信息有所侧重,也即静态网络中的特征均是即时性、一次性的,例如承载的内容为不同表格的多个文档图像,其彼此之间的差异仅体现在图像中不同位置的表格结构上,而CNN+分类器构成的静态分类网络不会对此进行关注,因此文档图像中文档的版面上下文结构信息不能得到有效利用,这导致了CNN+分类器构成的静态分类网络对文档图像进行分类时的识别的效率和准确度无法达到期望值。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了一种文档图像的识别方法,该方法包括:
输入待识别文档图像;
第一神经网络获得所述待识别文档图像的静态特征;
变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号;
第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征;
根据所述动态特征输出所述待识别文档图像的识别结果。
根据本发明的一个方面,该方法中所述第一神经网络包括:卷积神经网络、扩张卷积神经网络、自编码网络或其组合。
根据本发明的另一个方面,该方法中根据所述动态特征输出所述待识别文档图像的识别结果包括:所述第二神经网络根据所述动态特征输出所述识别结果;或与所述第二神经网络互相耦合的分类器根据所述动态特征输出所述识别结果。
根据本发明的另一个方面,该方法中所述第二神经网络包括:循环神经网络、长短期记忆网络、门控循环单元神经网络或其组合。
根据本发明的另一个方面,该方法中所述分类器包括:全连接网络、高速公路网络或其组合。
根据本发明的另一个方面,该方法中所述版面结构顺序由所述变形网络根据所述待识别文档图像而确定。
相应地,本发明还提供了一种文档图像的识别系统,该系统包括依次耦合的第一神经网络、变形网络和第二神经网络,其中:
所述第一神经网络,用于接收输入的待识别文档图像,并获得所述待识别文档图像的静态特征;
所述变形网络,用于将所述静态特征按照预定的版面结构顺序转换为时序信号;
所述第二神经网络,用于对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征,并根据所述动态特征输出所述待识别文档图像的识别结果。
根据本发明的一个方面,该系统中所述第一神经网络包括:卷积神经网络、扩张卷积神经网络、自编码网络或其组合。
根据本发明的另一个方面,所述系统还包括与所述第二神经网络互相耦合的分类器,所述分类器替代所述第二神经网络执行根据所述所述动态特征输出所述待识别文档图像的识别结果的功能。
根据本发明的另一个方面,该系统中所述第二神经网络包括:循环神经网络、长短期记忆网络、门控循环单元神经网络或其组合。
根据本发明的另一个方面,该系统中所述所述分类器包括:全连接网络、高速公路网络或其组合。
根据本发明的另一个方面,该系统中所述变形网络还用于根据所述待识别文档图像确定所述版面结构顺序。
进一步地,本发明还提供了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的文档图像的识别方法。
本发明提供的文档图像的识别方法和系统充分利用了文档图像的版面上下文结构信息,在获取待识别文档图像的静态特征之后,将所述静态特征按照预定的版面结构顺序转换为时序信号,进一步通过第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征,最终根据所述动态特征输出所述待识别文档图像的识别结果。相比现有技术,本发明提供的文档图像的识别方法和系统将文档图像的版面上下文结构信息转换为神经网络可利用的信号,并将其用于文档图像识别过程中特征的提取,由于文档图像的版面上下文结构信息得到利用,提升了文档图像识别的准确率和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的文档图像的识别方法的一个具体实施方式的流程图;
图2是根据本发明的文档图像的识别方法一个具体实施方式的执行流程示意图;
图3是根据本发明提供的文档图像的识别系统的一个具体实施方式的结构示意图;
图4是根据本发明提供的文档图像的识别系统的另一个具体实施方式的结构示意图;
图5是用于执行根据本发明的文档图像的识别方法的一个具体实施方式的计算机设备的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为了更好地理解和阐释本发明,下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
需要说明的是,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有这些具体细节,本发明同样可以实施。在下文给出的多个具体实施方式中,对于本领域熟知的结构和部件未作详细描述,以便于凸显本发明的主旨。
本发明提供了一种文档图像的识别方法,请参考图1,图1是根据本发明的文档图像的识别方法的一个具体实施方式的流程图,该方法包括:
步骤S100,输入待识别文档图像;
步骤S200,第一神经网络获得所述待识别文档图像的静态特征;
步骤S300,变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号;
步骤S400,第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征;
步骤S500,根据所述动态特征输出所述待识别文档图像的识别结果。
具体地,由于本发明提供的文档图像的识别方法依赖于深度学习的第一神经网络和第二神经网络来实现,因此本领域技术人员可以理解,在步骤S100执行之前,依照深度学习领域的公知常识,所述第一神经网络和第二神经网络需要预先使用包括多种不同类型文档图像样本的文档图像集合数据进行训练和测试。优选地,通过所述文档图像集合的训练,所述第一神经网络和所述第二神经网络的各项参数应已经达到预期阈值,例如上述两者的拟合度、收敛率、识别准确率已经分别达到设计要求的预期阈值。此外,在训练所述第一神经网络和所述第二神经网络时,应该避免出现过拟合的缺陷。
优选地,为了便于第一神经网络的处理,在执行步骤S100之前可以对所述待识别文档图像进行归一化处理,例如对待识别文档图像的尺寸进行归一化处理。优选地,所述待识别文档图像的尺寸被限定为256像素*256像素的大小。
具体地,在步骤S100中,输入所述待识别文档图像指的是向第一神经网络中输入所述待识别文档图像,以实现在步骤S200中,所述第一神经网络提取并获得所述待识别文档图像的静态特征。术语“静态特征”指的是所述第一神经网络从所述待识别文档图像中提取出来的特征,更具体而言,所述静态特征是:所述第一神经网络包含的过滤器通过计算用于描述所述待识别文档图像的矩阵数据而生成的向量。本领域技术人员可以理解,所述第一神经网络可以选用前馈神经网络来实现,例如可选地,所述第一神经网络是CNN。在更多的具体实施方中,所述第一神经网络可以使用扩展卷积神经网络(Dilated CNN,)来替代CNN实现,或使用自编码网络(AutoEncoder)来替代CNN实现。但是这并不意味着第一神经网络仅是CNN、Dilated CNN或AutoEncoder网络中的一种,相反,所述第一神经网络可以使用CNN、Dilated CNN和AutoEncoder网络中任意形式的组合来实现,进一步地,任何形式的前馈神经网络及其组合均可以用来实现所述第一神经网络,可以区别性地利用各种前馈神经网络的特性,例如AutoEncoder网络具有快速提取图像基本构件的优势;Dilated CNN具有不增加计算量的前提下增加卷积核的感受野的优势,有利于使用较小的计算成本获得文档图像全局信息。因此,在设计所述第一神经网络时,本具体实施方式的实施者可以选择各类前馈神经网络的最优组合来构建所述第一神经网络的具体结构,本发明对此不做限定。
在步骤S200中,所述第一神经网络获得所述待识别文档图像的静态特征之后,若是按照在现有技术的处理方式,所述静态特征将被输入至分类器中进行文档图像的识别分类。但是本发明考虑充分利用文档图像的版本上下文结构信息,因此考虑将第一神经网络的输出(静态特征)进行变换后用作第二神经网络的输入(时序信号),其中变换的依据是根据预定的版面结构顺序对所述静态特征进行变换,这也是执行步骤S300的目的,使所述第一神经网络的输出数据能变换为所述第二神经网络可利用的数据。在步骤S300中,变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号,具体而言,所述变形网络是耦合所述第一神经网络和所述第二神经网络的中间层,第一神经网络输出的静态特征按照所述预定的版面结构顺序转换为按照所述版面结构顺序排列的时序信号。可选地,所述版面结构顺序由所述变形网络根据所述待识别文档图像而确定,在设计所述变形网络时可向其中引入自动识别机制,判断所述待识别文档图像中承载信息的区域,以便于确定所述版面结构顺序。在更多的具体实施方式中,所述版面结构顺序也可以由人工指定,例如按照习惯的文字阅读方向,相对于所述待识别文档图像从上到下、从左至右的顺序,直至遍历所述待识别文档图像。需要说明的是,本发明并不对所述版面结构顺序的进行限定,本发明的实施者可以根据待识别文档图像的版面规定自行确定。
在步骤S400中,第二神经网络对所述时序信号进行迭代处理,以获得所述待识别文档图像的动态特征。本领域技术人员可以理解,能够处理时序信号的神经网络应是循环神经网络(也称之为递归神经网络),因此第二神经网络应选用本领域所知的循环神经网络来实现,其输入数据实质上是所述静态特征时序化排列后的一组向量,该组向量按照根据所述版面结构顺序建模的时序信号确定的顺序输入至所述第二神经网络中。术语“动态特征”指的是第二神经网络从所述待识别文档图像中提取出来的特征,更具体而言,所述动态特征是:所述第二神经网络通过迭代计算所述时序信号而生成的向量序列(序列长度至少为1)。由于第二神经网络计算中递归过程的存在,因此在所述递归过程中,当前时刻的输出的动态特征不仅与当前时刻输入的静态特征相关,也与按照所述时序信号排序的上一时刻输入的静态特征相关。步骤S300中已经指出,由于所述时序信号是根据版面结构顺序确定的,这保证了第二神经网络在计算时可以充分利用文档图像的版面上下文关系。前文中已经指出第二神经网络可以用循环神经网络来实现,所述循环神经网络例如是simple RNN,在更多的具体实施方式中,所述第二神经网络可以使用更多改良后的循环神经网络来实现,例如长短期记忆网络(Long Short Term Memory Network,LSTM)或门控循环单元神经网络(Gated Recurrent Unit,GRU)。这并不意味着第二神经网络仅是RNN、LSTM或GRU中的一种,相反,所述第二神经网络可以使用RNN、LSTM和GRU中任意形式的组合来实现,进一步地,任何形式的循环神经网络及其组合均可以用来实现所述第二神经网络,可以区别性地利用各种循环神经网络的特性,例如LSTM具有能够处理长距离依赖问题的优势,与传统的RNN相比其处理时序信息的能力更强,性能更稳定;GRU具有相较于LSTM更简化结构的优势。因此,在设计所述第二神经网络时,本具体实施方式的实施者可以选择各类循环神经网络的最优组合来构建所述第二神经网络的具体结构,本发明对此不做限定。
在步骤S400执行后,步骤S500中根据所述动态特征输出所述待识别文档图像的识别结果。具体地,执行步骤S500的主体可以是所述第二神经网络,也可以是与所述第二神经网络互相耦合的分类器。所述分类器可以用全连接网络(Dense Connected Network,Dense)、高速公路网络(Highway网络)或其组合来实现。具体而言,所述识别结果包含的信息至少包括所述待识别文档图像与种类标签的映射关系,以便于所述待识别文档图像被归类。
为了更清楚地说明书步骤S100至步骤S500,请参考图2,图2是根据本发明的文档图像的识别方法一个具体实施方式的执行流程示意图,其中:
待识别文档图像202是从文档图像集合201中抽取的,该文档图像集合201例如是存储了大量未被识别分类的文档图像的数据库中的逻辑集合。待识别文档图像202在输入至CNN 203之前,可以预先与所述抽取步骤并行地进行归一化处理,例如图像尺寸的归一化,以便于CNN 203对其进行静态特征的提取。CNN 203可以从多个维度上提取用于描述待识别文档图像202的特征向量,并输出根据所述特征向量生成的静态特征,进一步地,CNN203将所述静态特征传递至变形网络204。变形网络204根据预定的版面结构顺序将所述静态特征进行排序,以生成时序信号便于RNN 205进行后续处理。随后所述时序信号传递至RNN 205中进行迭代处理,依赖于RNN 205的迭代计算特性,以获得待识别文档图像202的动态特征。进一步地,RNN205将所述动态特征传递至分类器206中,分类器206输出待识别文档图像202的识别结果。本部分出现的术语和名词与前文中相同的术语或名词具有一致的含义,例如所述“静态特征”和“动态特征”等,上述术语或名词及其涉及的工作原理均可参考前文中相关部分的描述和解释,为了简便起见在此不再赘述。同样,图2中示出的CNN 203可以替换为Dilated CNN或AutoEncoder网络,RNN 205可以替换为LSTM或GRU,也可以实现本具体实施方中各个步骤。在可选的实施例中,分类206可以省去,而利用RNN 205替代分类器206来实现输出待识别文档图像202的识别结果的功能。在优选的实施例中,图2中示出的文档集合201、CNN 203、变形网络204、RNN 205、分类器206可以实施为一种计算机程序产品,上述计算机程序产品的实施例可以通过使用用于计算机可读信息的任何记录介质来实现,所述记录介质包括磁介质、光介质或其他适合的介质。所述计算机程序产品的实施例不仅可以运行在独立的物理设备上,也可以运行在协同工作的多台物理设备上以实现该程序接口中各部分所具有功能以及彼此之间的逻辑关系。典型地,上述计算机程序产品设置在服务器或分布式服务器集群内,对于所述识别结果的呈现可以设置为使其以计算机图形化界面的形式呈现在B/S架构下与所述服务器或分布式服务器集群通信的浏览器中。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
相应地,本发明还提供了一种文档图像的识别系统,请参考图3,图3是本发明提供的文档图像的识别系统的一个具体实施方式的结构示意图,该系统包括依次耦合的第一神经网络302、变形网络303和第二神经网络304,其中:
所述第一神经网络302,用于接收输入的待识别文档图像301,并获得所述待识别文档图像301的静态特征;
所述变形网络303,用于将所述静态特征按照预定的版面结构顺序转换为时序信号;
所述第二神经网络304,用于对所述时序信号进行迭代处理以获得所述待识别文档图像301的动态特征,并根据所述动态特征输出所述待识别文档图像301的识别结果。
具体地,第一神经网络302包括:CNN、Dilated CNN、AutoEncoder网络或其组合。第二神经网络304包括:RNN、LTSM、GRU或其组合。
在本具体实施方式中,第二神经网络304实现根据所述动态特征输出所述待识别文档图像301的识别结果的功能。在另一可选的具体实施方式中,请参考图4,图4是根据本发明提供的文档图像的识别系统的另一个具体实施方式的结构示意图,本发明提供的文档图像的识别系统还包括与所述第二神经网络304互相耦合的分类器305,该分类器305包括Dense、Highway网络或其组合,其作用是替代所述第二神经网络304执行根据所述所述动态特征输出所述待识别文档图像301的识别结果的功能。
此外,本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的文档图像的识别方法,例如图1和图2示出的文档图像的识别方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质,且包括用任何方法和技术实现以存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。
请参考图5,图5是用于执行根据本发明的文档图像的识别方法的一个具体实施方式的计算机设备的结构示意图,所述计算机设备至少包括如下部分:CPU(中央处理器)501、RAM(随机存储器)502、ROM(只读存储器)503、系统总线500、硬盘控制单元504、硬盘505、人机交互外部设备控制单元506、人机交互外部设备507、串行接口控制单元508、串行接口外部设备509、并行接口控制单元510、并行接口外部设备511、显示设备控制单元512和显示设备513。其中,CPU 501、RAM 502、ROM 503、硬盘控制单元504、人机交互外部设备控制单元506、串行接口控制单元508、并行接口控制单元510以及显示设备控制单元512与系统总线500相连接,并通过系统总线500实现彼此之前的通信。此外,硬盘控制单元504与硬盘505相连接;人机交互外部设备控制单元506与人机交互外部设备507相连接,典型地该人机交互外部设备是鼠标、轨迹球、触摸屏或键盘;串行接口控制单元508与串行接口外部设备509相连接;并行接口控制单元510与并行接口外部设备511相连接;显示设备控制单元512和显示设备513相连接。
图5所述的结构框图仅仅示出了能实践本发明各个实施例的一种计算机设备的结构,而并非是对本发明的实践环境的限制。在一些情况下,可以根据需要添加或者减少该计算机设备中的一些设备。例如,图5所示的设备可以移除人机交互外部设备507和显示设备513,其具体实施形态仅仅是一个能够被外部设备访问的服务器。当然图5所示的计算机设备可以单独地实现本发明运行的环境,也可以通过网络互相连接起来而提供本发明各个实施例所适用运行环境,例如本发明的各个模块和/步骤可以分布地实现在互相连接的各个计算机设备中。
本发明提供的文档图像的识别方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现,也可以实施为计算机程序产品,该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
本领域技术人员应当理解,任何具有适当编程装置的计算机系统都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序,但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他部件、单元或步骤,单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。
本发明提供的文档图像的识别方法和系统充分利用了文档图像的版面上下文结构信息,在获取待识别文档图像的静态特征之后,将所述静态特征按照预定的版面结构顺序转换为时序信号,进一步通过第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征,最终根据所述动态特征输出所述待识别文档图像的识别结果。相比现有技术,本发明提供的文档图像的识别方法和系统将文档图像的版面上下文结构信息转换为神经网络可利用的信号,并将其用于文档图像识别过程中特征的提取,由于文档图像的版面上下文结构信息得到利用,提升了文档图像识别的准确率和效率。
以上所披露的仅为本发明的一些较佳实施例,不能以此来限定本发明之权利范围,依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (11)
1.一种文档图像的识别方法,该方法包括:
输入待识别文档图像;
第一神经网络获得所述待识别文档图像的静态特征;
变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号,所述版面结构顺序由所述变形网络自动根据所述待识别文档图像而确定,用于描述所述待识别文档图像中承载信息的各个区域的版面位置;
第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征;
根据所述动态特征输出所述待识别文档图像的识别结果。
2.根据权利要求1所述的方法,其中,所述第一神经网络包括:
卷积神经网络、扩张卷积神经网络、自编码网络或其组合。
3.根据权利要求1所述的方法,其中,根据所述动态特征输出所述待识别文档图像的识别结果包括:
所述第二神经网络根据所述动态特征输出所述识别结果;或
与所述第二神经网络互相耦合的分类器根据所述动态特征输出所述识别结果。
4.根据权利要求1或3所述的方法,其中,所述第二神经网络包括:
循环神经网络、长短期记忆网络、门控循环单元神经网络或其组合。
5.根据权利要求3所述的方法,其中,所述分类器包括:
全连接网络、高速公路网络或其组合。
6.一种文档图像的识别系统,该系统包括依次耦合的第一神经网络、变形网络和第二神经网络,其中:
所述第一神经网络,用于接收输入的待识别文档图像,并获得所述待识别文档图像的静态特征;
所述变形网络,用于将所述静态特征按照预定的版面结构顺序转换为时序信号,还用于根据所述待识别文档图像确定所述版面结构顺序,所述版面结构顺序用于描述所述待识别文档图像中承载信息的各个区域的版面位置;
所述第二神经网络,用于对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征,并根据所述动态特征输出所述待识别文档图像的识别结果。
7.根据权利要求6所述的系统,其中,所述第一神经网络包括:
卷积神经网络、扩张卷积神经网络、自编码网络或其组合。
8.根据权利要求6所述的系统,其中:
所述系统还包括与所述第二神经网络互相耦合的分类器,所述分类器替代所述第二神经网络执行根据所述动态特征输出所述待识别文档图像的识别结果的功能。
9.根据权利要求6或8所述的系统,其中,所述第二神经网络包括:
循环神经网络、长短期记忆网络、门控循环单元神经网络或其组合。
10.根据权利要求8所述的系统,其中,所述分类器包括:
全连接网络、高速公路网络或其组合。
11.一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至5任一项所述的文档图像的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810031847.4A CN108154191B (zh) | 2018-01-12 | 2018-01-12 | 文档图像的识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810031847.4A CN108154191B (zh) | 2018-01-12 | 2018-01-12 | 文档图像的识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108154191A CN108154191A (zh) | 2018-06-12 |
CN108154191B true CN108154191B (zh) | 2021-08-10 |
Family
ID=62461175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810031847.4A Active CN108154191B (zh) | 2018-01-12 | 2018-01-12 | 文档图像的识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108154191B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765826A (zh) * | 2018-07-27 | 2020-02-07 | 珠海金山办公软件有限公司 | 一种可移植文档格式pdf中的乱码识别方法和装置 |
CN110807309B (zh) * | 2018-08-01 | 2024-05-03 | 珠海金山办公软件有限公司 | 一种pdf文档的内容类型识别方法、装置及电子设备 |
CN109492516A (zh) * | 2018-09-01 | 2019-03-19 | 哈尔滨工程大学 | 一种基于dgru神经网络的uuv集群行为识别方法 |
CN109325941A (zh) * | 2018-09-05 | 2019-02-12 | 深圳灵图慧视科技有限公司 | 表面属性检测方法及装置、计算机设备及计算机可读介质 |
CN110532448B (zh) * | 2019-07-04 | 2023-04-18 | 平安科技(深圳)有限公司 | 基于神经网络的文档分类方法、装置、设备及存储介质 |
CN111046784B (zh) * | 2019-12-09 | 2024-02-20 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN106407971A (zh) * | 2016-09-14 | 2017-02-15 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN107229684A (zh) * | 2017-05-11 | 2017-10-03 | 合肥美的智能科技有限公司 | 语句分类方法、系统、电子设备、冰箱及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988567B (zh) * | 2015-02-12 | 2023-03-28 | 北京三星通信技术研究有限公司 | 手写信息的识别方法和装置 |
CN105678292A (zh) * | 2015-12-30 | 2016-06-15 | 成都数联铭品科技有限公司 | 基于卷积及递归神经网络的复杂光学文字序列识别系统 |
CN105654135A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 一种基于递归神经网络的图像文字序列识别系统 |
US10242266B2 (en) * | 2016-03-02 | 2019-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos |
CN106250707A (zh) * | 2016-08-12 | 2016-12-21 | 王双坤 | 一种基于深度学习算法处理头部结构像数据的方法 |
CN107451582A (zh) * | 2017-07-13 | 2017-12-08 | 安徽声讯信息技术有限公司 | 一种图文识别系统及其识别方法 |
-
2018
- 2018-01-12 CN CN201810031847.4A patent/CN108154191B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955952A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的信息提取方法 |
CN106407971A (zh) * | 2016-09-14 | 2017-02-15 | 北京小米移动软件有限公司 | 文字识别方法及装置 |
CN107229684A (zh) * | 2017-05-11 | 2017-10-03 | 合肥美的智能科技有限公司 | 语句分类方法、系统、电子设备、冰箱及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108154191A (zh) | 2018-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108154191B (zh) | 文档图像的识别方法和系统 | |
RU2699687C1 (ru) | Обнаружение текстовых полей с использованием нейронных сетей | |
US10963632B2 (en) | Method, apparatus, device for table extraction based on a richly formatted document and medium | |
Xiao et al. | A weakly supervised semantic segmentation network by aggregating seed cues: the multi-object proposal generation perspective | |
US11544503B2 (en) | Domain alignment for object detection domain adaptation tasks | |
RU2695489C1 (ru) | Идентификация полей на изображении с использованием искусственного интеллекта | |
EP3869385B1 (en) | Method for extracting structural data from image, apparatus and device | |
WO2020133442A1 (zh) | 一种识别文本的方法及终端设备 | |
CN112699234A (zh) | 一种通用文档识别方法、系统、终端及存储介质 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
US20220374473A1 (en) | System for graph-based clustering of documents | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN114003758B (zh) | 图像检索模型的训练方法和装置以及检索方法和装置 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
Ayyar et al. | Review of white box methods for explanations of convolutional neural networks in image classification tasks | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN114330588A (zh) | 一种图片分类方法、图片分类模型训练方法及相关装置 | |
US11410016B2 (en) | Selective performance of deterministic computations for neural networks | |
Wang et al. | LiDAR–camera fusion for road detection using a recurrent conditional random field model | |
Fang et al. | Developing a feature decoder network with low-to-high hierarchies to improve edge detection | |
CN113298822B (zh) | 点云数据的选取方法及选取装置、设备、存储介质 | |
Tamrin et al. | Simultaneous detection of regular patterns in ancient manuscripts using GAN-Based deep unsupervised segmentation | |
CN113610080A (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
Evangelou et al. | PU learning-based recognition of structural elements in architectural floor plans |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |