CN113869017A - 基于人工智能的表格图像重构方法、装置、设备及介质 - Google Patents
基于人工智能的表格图像重构方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113869017A CN113869017A CN202111159314.2A CN202111159314A CN113869017A CN 113869017 A CN113869017 A CN 113869017A CN 202111159314 A CN202111159314 A CN 202111159314A CN 113869017 A CN113869017 A CN 113869017A
- Authority
- CN
- China
- Prior art keywords
- node
- feature
- features
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 81
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000329 smooth muscle myocyte Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能技术领域,提供了一种基于人工智能的表格图像重构方法、装置、设备及存储介质。所述方法包括:识别待重构的表格图像中各文本框的坐标信息及文本信息并构建无向连通图;提取无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,并执行融合操作得到各节点的目标融合特征;将包含有边特征及节点目标融合特征的无向连通图,输入节点关系分类模型,得到无向连通图中各节点之间边的分类结果;基于分类结果将各文本框填充至模板文件的对应位置,得到重构的目标表格文件。本发明可以将非结构化的表格图像转换为结构化的表格文件。本发明还涉及区块链技术领域,上述目标表格文件可以存储于一区块链的节点中。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的表格图像重构方法、装置、设备及存储介质。
背景技术
表格是一种有效的数据组织与展现方法被广泛应用,随着文档尤其是通过扫描、拍照等方式生成的文档快速增长,实现自动重构表格文档图像的方法非常重要。重构表格图像是指将不可编辑的表格图像,自动转换为保持原始表格结构的excel形式。由于表格文档版式复杂、背景纹理丰富、信息排版多样、光照程度及拍摄机器质量等因素,目前大多研究仅限于对表格图像的文字识别,因此,亟需通过技术方案实现对表格图像的重构。
发明内容
鉴于以上内容,本发明提供一种基于人工智能的表格图像重构方法、装置、设备及存储介质,其目的在于实现将非结构化表格图像自动转换为结构化的表格文件。
为实现上述目的,本发明提供一种基于人工智能的表格图像重构方法,该方法包括:
将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
优选的,所述图像识别模型包括位置检测模型及文本识别模型,所述将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,包括:
将所述表格图像输入所述位置检测模型,得到所述表格图像中各个文本框的坐标信息,基于各个文本框的坐标信息对表格图像的文本框进行切分,将切分后的文本框分别输入所述文本识别模型,得到各文本框的文本信息。
优选的,所述提取所述无向连通图中各节点的图像特征,包括:
利用FPN算法构建特征塔,将节点对应的图像依次输入至所述特征塔的不同层级,利用所述特征塔中的映射通道将所述特征塔中各层级的图像逐层向下映射至所述特征塔底层的图像中,对映射后特征塔底层的多张映射图像进行拼接,得到该节点对应的图像特征。
优选的,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征分别通过预设模型的全连接层进行特征转换,生成四个不同尺寸的初始特征;
将四个不同尺寸的初始特征的尺寸调整至相同的尺寸,将调整后的四个初始特征进行点乘运算生成初始融合特征;
以全连接层对所述初始融合特征进行特征转换生成注意力特征,将所述注意力特征与所述初始融合特征进行点乘融合生成所述目标融合特征。
优选的,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
分别对各节点的位置坐标特征、文本特征、图像特征及位置编码特征设定对应的权重,根据所述权重对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行加权融合,得到所述目标融合特征。
优选的,所述节点关系分类模型的训练过程包括:
获取预设数量包含有边特征和节点融合特征的样本无向连通图,为各样本无向连通图中各节点之间的边分配预设标签,将包含有边特征和节点融合特征的样本无向连通图作为自变量、各节点之间的边的预设标签作为因变量生成样本集;
将所述样本集中每个样本输入图卷积神经网络模型,得到所述样本集中每个样本的预测分类结果;
基于所述样本集中每个样本的预设标签确定所述样本集中每个样本的真实分类结果;
通过最小化所述预测分类结果与所述真实分类结果之间的损失值确定所述节点关系分类模型的结构参数,得到训练好的节点关系分类模型。
优选的,所述基于各节点之间边的分类结果确各节点之间的位置关系,包括:
利用深度优先搜索算法确定同行关系及同列关系的第一类型节点,并确定跨行关系及跨列关系的第二类型节点,基于所述第一类型节点及第二类型节点的坐标信息,确定各节点之间的位置关系。
为实现上述目的,本发明还提供一种基于人工智能的表格图像重构装置,该基于人工智能的表格图像重构装置包括:
构建模块:用于将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
融合模块:用于分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
识别模块:用于将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
重构模块:用于基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于人工智能的表格图像重构方法的任意步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于人工智能的表格图像重构程序,所述基于人工智能的表格图像重构程序被处理器执行时,实现如上所述基于人工智能的表格图像重构方法的任意步骤。
本发明提出的基于人工智能的表格图像重构方法、装置、设备及存储介质,融合了表格图像的多模态信息(位置坐标特征、文本特征、图像特征及位置编码特征),实现了端到端的表格图像的重构,能有效地对多种版式、多种形式(翻拍屏幕、手机拍纸制表格、截图、扫描)的表格文档图像,重构为结构化文档,重构后结构化的表格能极大地方便业务员对大量表格信息的录入、信息抽取和分析。
附图说明
图1为本发明基于人工智能的表格图像重构方法较佳实施例的流程图示意图;
图2为本发明基于人工智能的表格图像重构装置较佳实施例的模块示意图;
图3为本发明电子设备较佳实施例的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提供一种基于人工智能的表格图像重构方法。参照图1所示,为本发明基于人工智能的表格图像重构方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。基于人工智能的表格图像重构方法包括:
步骤S10:将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图。
在本实施例中,待重构的表格图像可以是指具有表格信息的图像,图像中的表格信息为非结构化信息,表格重构是指将表格图像的表格结构化信息提取出来,以文档的格式(例如,xls)存储,待重构的表格图像可以是与医疗领域相关的图像格式的处方表单、医疗结算单据等等。
当接收到终端发出的表格图像重构的请求之后,解析该请求并获取请求中携带待重构的表格图像,其中,待重构的表格图像可以是用户在提交图像重构请求时一并录入的,也可以是用户提交重构表格图像之后应用程序从请求指定的地址中获取的。可以理解的是,重构表格图像的请求可以是通过人机交互界面由用户主动发起。之后,将将待重构的表格图像输入预先构建的图像识别模型(例如,OCR识别模型),得到表格图像对多个文本框坐标信息,及各文本框对应的文本信息。
具体地,所述图像识别模型包括位置检测模型及文本识别模型,所述将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,包括:
将所述表格图像输入所述位置检测模型,得到所述表格图像中各个文本框的坐标信息,基于各个文本框的坐标信息对表格图像的文本框进行切分,将切分后的文本框分别输入所述文本识别模型,得到各文本框的文本信息。
步骤S20:分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征。
在本实施例中,得到待重构表格图像对应的多个文本框坐标信息,及各文本框对应的文本信息后,提取无向连通图中各节点的位置坐标特征,位置坐标特征(10维)可以是文本框的4个顶点坐标、文本框的宽度值及高度值。
再利用词嵌入模型(例如,word2vec、glove等),或通过nn.embedding提取各节点对应的文本信息的文本特征,利用RESNET50网络提取各节点对应文本框的图像特征,可以理解的是,文本框的图像特征可以是从待重构的表格图像中提取的。利用三角函数提取各节点对应文本框的位置编码特征,位置编码特征可以表征各节点之间的相对位置信息。之后对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点的融合特征。
在一个实施例中,所述提取所述无向连通图中各节点的图像特征,包括:
利用FPN算法构建特征塔,将节点对应的图像依次输入至所述特征塔的不同层级,利用所述特征塔中的映射通道将所述特征塔中各层级的图像逐层向下映射至所述特征塔底层的图像中,对映射后特征塔底层的多张映射图像进行拼接,得到该节点对应的图像特征。
FPN(feature pyramid networks)算法可以构建从底向上的通道、从顶向下的通道和横向连接通道。从底向上的通道、从顶向下的通道和横向连接通道是指特征塔中图像特征传递的路径。特征塔包含四个层级,通过特征塔实现利用映射通道对不同图像进行逐层映射,保证映射过程中细节图像中包含的信息不会丢失。由于特征塔高层中的图像经历多次的卷积和池化处理,导致图像的分辨率比较低,但含有的图像特征更明显。特征塔低层的图像因为卷积和池化处理的次数较少,故细节图像的分辨率比较高,拥有更多的图像细节,但含有的图像特征不明显,因此利用特征塔将不同尺寸的细节图像逐层映射,保证了图像特征的精确性。
在一个实施例中,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征分别通过预设模型的全连接层进行特征转换,生成四个不同尺寸的初始特征;
将四个不同尺寸的初始特征的尺寸调整至相同的尺寸,将调整后的四个初始特征进行点乘运算生成初始融合特征;
以全连接层对所述初始融合特征进行特征转换生成注意力特征,将所述注意力特征与所述初始融合特征进行点乘融合生成所述目标融合特征。
预设模型可以是指卷积神经网络模型,通过卷积神经网络模型的全连接层可以对各节点的位置坐标特征、文本特征、图像特征及位置编码特征进行融合,得到各节点的目标融合特征。
在一个实施例中,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
分别对各节点的位置坐标特征、文本特征、图像特征及位置编码特征设定对应的权重,根据所述权重对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行加权融合,得到所述目标融合特征。
权重的设置可以根据实际需求进行设定,例如,需要对图像特征和位置编码特征在融合结果中赋予较大比重,则可以设置图像特征和位置编码特征的权重大于文本特征的权重。
步骤S30:将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果。
在本实施例中,将各节点的目标融合特征的作为无向连通图节点的目标特征(即节点之间的x、y方向距离),文本框之间的距离特征可以采用linear层进行特征维度映射得到特征作为无向连通图边的特征,将包含有边特征和节点目标融合特征的无向连通图输入预先训练好的图卷积神经网络,得到各节点之间边的分类结果。各节点之间边的分类包括5类,定义如下:“0”代表节点之间的关系为无连接,“1”代表节点之间的关系为同行,“2”代表节点之间的关系为同列,“3”代表节点之间的关系为跨行,“4”代表节点之间的关系为跨列。
具体地,所述节点关系分类模型的训练过程包括:
获取预设数量(例如,10000)包含有边特征和节点融合特征的样本无向连通图,为各样本无向连通图中各节点之间的边分配预设标签,将包含有边特征和节点融合特征的样本无向连通图作为自变量、各节点之间的边的预设标签作为因变量生成样本集;
将所述样本集中每个样本输入图卷积神经网络模型,得到所述样本集中每个样本的预测分类结果;
基于所述样本集中每个样本的预设标签确定所述样本集中每个样本的真实分类结果;
通过最小化所述预测分类结果与所述真实分类结果之间的损失值确定所述节点关系分类模型的结构参数,得到训练好的节点关系分类模型。
步骤S40:基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
在本实施例中,由于节点分类关系模型输出无向连通图中各节点之间边的分类结果(即表格图像中各文本框的之间的行列关系),因此,可以将各节点对应的文本框的填充至预设的模板文件(例如,excel模板文件)的对应位置,得到目标表格文件。
在一个实施例中,所述基于各节点之间边的分类结果确各节点之间的位置关系,包括:
利用深度优先搜索算法确定同行关系及同列关系的第一类型节点,并确定跨行关系及跨列关系的第二类型节点,基于所述第一类型节点及第二类型节点的坐标信息,确定各节点之间的位置关系。
例如,节点A与节点B之间边的输出类别为“1”(同行),节点B与节点C之间的边的输出类别也为“1”(同行),通过深度优先搜索算法,就可以将节点A、B、C搜索出来作为同一行的文本框。
结合同行同列的文本框的坐标信息(例如,同行的文本框A、B、C的坐标x,y的均值)进行从上到下,从左到右排序得到各文本框的行号和列号,再对跨行及跨列的单独节点进行处理,处理如下:若某个文本框与多个文本框的边的关系为“3”(跨行),则认为该文本框是跨行的,然后取所有跟它跨行的文本框的最小行号和最大行号,从而确定其跨行情况,再根据其列号就可以确定其所在位置,跨列的情况类似处理。最后将各文本框对应的文本信息写入对应位置的excel表中,从而完成图像表格结构的重构,得到结构化的目标表格文件。
参照图2所示,为本发明基于人工智能的表格图像重构装置100的功能模块示意图。
本发明所述基于人工智能的表格图像重构装置100可以安装于电子设备中。根据实现的功能,所述基于人工智能的表格图像重构装置100可以包括构建模块110、融合模块120、识别模块130及重构模块140。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
构建模块110,用于将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图。
融合模块120,用于分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征。
识别模块130,用于将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果。
重构模块140,用于基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
在一个实施例中,所述图像识别模型包括位置检测模型及文本识别模型,所述将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,包括:
将所述表格图像输入所述位置检测模型,得到所述表格图像中各个文本框的坐标信息,基于各个文本框的坐标信息对表格图像的文本框进行切分,将切分后的文本框分别输入所述文本识别模型,得到各文本框的文本信息。
在一个实施例中,所述提取所述无向连通图中各节点的图像特征,包括:
利用FPN算法构建特征塔,将节点对应的图像依次输入至所述特征塔的不同层级,利用所述特征塔中的映射通道将所述特征塔中各层级的图像逐层向下映射至所述特征塔底层的图像中,对映射后特征塔底层的多张映射图像进行拼接,得到该节点对应的图像特征。
在一个实施例中,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征分别通过预设模型的全连接层进行特征转换,生成四个不同尺寸的初始特征;
将四个不同尺寸的初始特征的尺寸调整至相同的尺寸,将调整后的四个初始特征进行点乘运算生成初始融合特征;
以全连接层对所述初始融合特征进行特征转换生成注意力特征,将所述注意力特征与所述初始融合特征进行点乘融合生成所述目标融合特征。
在一个实施例中,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
分别对各节点的位置坐标特征、文本特征、图像特征及位置编码特征设定对应的权重,根据所述权重对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行加权融合,得到所述目标融合特征。
在一个实施例中,所述节点关系分类模型的训练过程包括:
获取预设数量包含有边特征和节点融合特征的样本无向连通图,为各样本无向连通图中各节点之间的边分配预设标签,将包含有边特征和节点融合特征的样本无向连通图作为自变量、各节点之间的边的预设标签作为因变量生成样本集;
将所述样本集中每个样本输入图卷积神经网络模型,得到所述样本集中每个样本的预测分类结果;
基于所述样本集中每个样本的预设标签确定所述样本集中每个样本的真实分类结果;
通过最小化所述预测分类结果与所述真实分类结果之间的损失值确定所述节点关系分类模型的结构参数,得到训练好的节点关系分类模型。
在一个实施例中,所述基于各节点之间边的分类结果确各节点之间的位置关系,包括:
利用深度优先搜索算法确定同行关系及同列关系的第一类型节点,并确定跨行关系及跨列关系的第二类型节点,基于所述第一类型节点及第二类型节点的坐标信息,确定各节点之间的位置关系。
参照图3所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如基于人工智能的表格图像重构程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行基于人工智能的表格图像重构程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图3仅示出了具有组件11-14以及基于人工智能的表格图像重构程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的基于人工智能的表格图像重构程序10时可以实现如下步骤:
将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于基于人工智能的表格图像重构装置100实施例的功能模块图以及图1关于基于人工智能的表格图像重构方法实施例的流程图的说明。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性的,也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有基于人工智能的表格图像重构程序10,所述基于人工智能的表格图像重构程序10被处理器执行时实现如下操作:
将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
本发明之计算机可读存储介质的具体实施方式与上述基于人工智能的表格图像重构方法的具体实施方式大致相同,在此不再赘述。
在另一个实施例中,本发明所提供的基于人工智能的表格图像重构方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如待重构的表格图像及目标表格文件等,这些数据均可存储在区块链节点中。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于人工智能的表格图像重构方法,应用于电子设备,其特征在于,所述方法包括:
将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
2.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述图像识别模型包括位置检测模型及文本识别模型,所述将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,包括:
将所述表格图像输入所述位置检测模型,得到所述表格图像中各个文本框的坐标信息,基于各个文本框的坐标信息对表格图像的文本框进行切分,将切分后的文本框分别输入所述文本识别模型,得到各文本框的文本信息。
3.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述提取所述无向连通图中各节点的图像特征,包括:
利用FPN算法构建特征塔,将节点对应的图像依次输入至所述特征塔的不同层级,利用所述特征塔中的映射通道将所述特征塔中各层级的图像逐层向下映射至所述特征塔底层的图像中,对映射后特征塔底层的多张映射图像进行拼接,得到该节点对应的图像特征。
4.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征分别通过预设模型的全连接层进行特征转换,生成四个不同尺寸的初始特征;
将四个不同尺寸的初始特征的尺寸调整至相同的尺寸,将调整后的四个初始特征进行点乘运算生成初始融合特征;
以全连接层对所述初始融合特征进行特征转换生成注意力特征,将所述注意力特征与所述初始融合特征进行点乘融合生成所述目标融合特征。
5.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
分别对各节点的位置坐标特征、文本特征、图像特征及位置编码特征设定对应的权重,根据所述权重对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行加权融合,得到所述目标融合特征。
6.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述节点关系分类模型的训练过程包括:
获取预设数量包含有边特征和节点融合特征的样本无向连通图,为各样本无向连通图中各节点之间的边分配预设标签,将包含有边特征和节点融合特征的样本无向连通图作为自变量、各节点之间的边的预设标签作为因变量生成样本集;
将所述样本集中每个样本输入图卷积神经网络模型,得到所述样本集中每个样本的预测分类结果;
基于所述样本集中每个样本的预设标签确定所述样本集中每个样本的真实分类结果;
通过最小化所述预测分类结果与所述真实分类结果之间的损失值确定所述节点关系分类模型的结构参数,得到训练好的节点关系分类模型。
7.如权利要求1至6中任意一项所述的基于人工智能的表格图像重构方法,其特征在于,所述基于各节点之间边的分类结果确各节点之间的位置关系,包括:
利用深度优先搜索算法确定同行关系及同列关系的第一类型节点,并确定跨行关系及跨列关系的第二类型节点,基于所述第一类型节点及第二类型节点的坐标信息,确定各节点之间的位置关系。
8.一种基于人工智能的表格图像重构装置,其特征在于,所述装置包括:
构建模块:用于将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
融合模块:用于分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
识别模块:用于将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
重构模块:用于基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于人工智能的表格图像重构方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于人工智能的表格图像重构程序,所述基于人工智能的表格图像重构程序被处理器执行时,实现如权利要求1至7中任一项所述基于人工智能的表格图像重构方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111159314.2A CN113869017B (zh) | 2021-09-30 | 2021-09-30 | 基于人工智能的表格图像重构方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111159314.2A CN113869017B (zh) | 2021-09-30 | 2021-09-30 | 基于人工智能的表格图像重构方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113869017A true CN113869017A (zh) | 2021-12-31 |
CN113869017B CN113869017B (zh) | 2024-08-16 |
Family
ID=79001116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111159314.2A Active CN113869017B (zh) | 2021-09-30 | 2021-09-30 | 基于人工智能的表格图像重构方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869017B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519399A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备和存储介质 |
CN115661847A (zh) * | 2022-09-14 | 2023-01-31 | 北京百度网讯科技有限公司 | 表格结构识别及模型训练方法、装置、设备和存储介质 |
WO2023130915A1 (zh) * | 2022-01-07 | 2023-07-13 | 北京有竹居网络技术有限公司 | 一种表格识别方法及装置 |
WO2023137906A1 (zh) * | 2022-01-21 | 2023-07-27 | 平安科技(深圳)有限公司 | 文档标题生成方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616175A (zh) * | 2009-07-24 | 2009-12-30 | 中国科学院上海技术物理研究所 | 用于分布式多dsp系统的网络拓扑结构获取方法和装置 |
CN111767911A (zh) * | 2020-06-22 | 2020-10-13 | 平安科技(深圳)有限公司 | 面向复杂环境的印章文字检测识别方法、装置及介质 |
CN112949443A (zh) * | 2021-02-24 | 2021-06-11 | 平安科技(深圳)有限公司 | 表格结构识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-30 CN CN202111159314.2A patent/CN113869017B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101616175A (zh) * | 2009-07-24 | 2009-12-30 | 中国科学院上海技术物理研究所 | 用于分布式多dsp系统的网络拓扑结构获取方法和装置 |
CN111767911A (zh) * | 2020-06-22 | 2020-10-13 | 平安科技(深圳)有限公司 | 面向复杂环境的印章文字检测识别方法、装置及介质 |
CN112949443A (zh) * | 2021-02-24 | 2021-06-11 | 平安科技(深圳)有限公司 | 表格结构识别方法、装置、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023130915A1 (zh) * | 2022-01-07 | 2023-07-13 | 北京有竹居网络技术有限公司 | 一种表格识别方法及装置 |
WO2023137906A1 (zh) * | 2022-01-21 | 2023-07-27 | 平安科技(深圳)有限公司 | 文档标题生成方法、装置、设备及存储介质 |
CN114519399A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备和存储介质 |
CN115661847A (zh) * | 2022-09-14 | 2023-01-31 | 北京百度网讯科技有限公司 | 表格结构识别及模型训练方法、装置、设备和存储介质 |
CN115661847B (zh) * | 2022-09-14 | 2023-11-21 | 北京百度网讯科技有限公司 | 表格结构识别及模型训练方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113869017B (zh) | 2024-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113869017B (zh) | 基于人工智能的表格图像重构方法、装置、设备及介质 | |
CN110390269B (zh) | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 | |
CN109241904B (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN111401371B (zh) | 一种文本检测识别方法、系统及计算机设备 | |
CN111695439A (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
US11455502B2 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN112183296B (zh) | 模拟票据图像生成、票据图像识别方法和装置 | |
CN113705733A (zh) | 医疗票据图像处理方法及装置、电子设备、存储介质 | |
CN111259888B (zh) | 基于图像的信息比对方法、装置及计算机可读存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113724137A (zh) | 基于图像切分的图像识别方法、装置、设备及存储介质 | |
CN112541443A (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
CN114241499A (zh) | 表格图片识别方法、装置、设备和可读存储介质 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN113255767B (zh) | 票据分类方法、装置、设备及存储介质 | |
CN114049540A (zh) | 基于人工智能的标注图像检测方法、装置、设备及介质 | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN110580507A (zh) | 一种城市肌理分类识别方法 | |
CN114399775A (zh) | 文档标题生成方法、装置、设备及存储介质 | |
CN116610304B (zh) | 页面代码生成方法、装置、设备和存储介质 | |
CN113486848A (zh) | 文档表格识别方法、装置、设备及存储介质 | |
CN115760886B (zh) | 基于无人机鸟瞰图的地块划分方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |