CN113989822B - 基于计算机视觉和自然语言处理的图片表格内容提取方法 - Google Patents

基于计算机视觉和自然语言处理的图片表格内容提取方法 Download PDF

Info

Publication number
CN113989822B
CN113989822B CN202111593626.4A CN202111593626A CN113989822B CN 113989822 B CN113989822 B CN 113989822B CN 202111593626 A CN202111593626 A CN 202111593626A CN 113989822 B CN113989822 B CN 113989822B
Authority
CN
China
Prior art keywords
cell
data
content
values
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111593626.4A
Other languages
English (en)
Other versions
CN113989822A (zh
Inventor
王国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing promadi Computing Technology Co.,Ltd.
Original Assignee
China Austria Intelligent Industry Research Institute Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Austria Intelligent Industry Research Institute Nanjing Co ltd filed Critical China Austria Intelligent Industry Research Institute Nanjing Co ltd
Priority to CN202111593626.4A priority Critical patent/CN113989822B/zh
Publication of CN113989822A publication Critical patent/CN113989822A/zh
Application granted granted Critical
Publication of CN113989822B publication Critical patent/CN113989822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了基于计算机视觉和自然语言处理的图片表格内容提取方法,包括步骤1将图片输入到表格边框识别模型中,识别表格边框,计算表格中各单元格坐标;步骤2提取各单元格的文本内容;步骤3根据提取的文本内容,按照键、值、混合值三种类型进行标注,构建表格内容分类数据集,并基于该数据集训练单元格内容分类模型;步骤4根据表格坐标、单元格坐标及每个单元格文本的类别,推断表格布局;步骤5根据表格的布局信息、单元格的内容和类别信息,将表中的数据以JSON的格式组织起来。本发明引入自然语言处理技术,为表格中每个单元格的内容标记类别,再结合单元格位置信息,对表格布局的进行推理,最终将表格内容以结构化的方式输出。

Description

基于计算机视觉和自然语言处理的图片表格内容提取方法
技术领域
本发明涉及表格数据提取技术领域,具体涉及基于计算机视觉和自然语言处理的图片表格内容提取方法。
背景技术
基于计算机视觉及自然语言处理技术进行信息抽取的应用越来越广泛,如从图片中识别文字、从文本中抽取人名、地名、电话号码等实体,从发票、保险单以及其他表格中抽取关键信息等。同时,各大云厂商也都提基于云平台供了如票据、合同等表格数据的识别服务。
现有对表格数据的提取技术主要集中在两个方面。第一,通过传统的图像处理方法,如腐蚀、膨胀、边缘检测、轮廓识别等,先识别图片中的表格,再通过OCR技术识别单元格中的内容,该方法针对带边框的表格,识别效率高,但针对少边框或无边框表格基本没有识别能力。第二,通过深度学习技术,如目标检测、实例分隔等方法,识别表格的各个区域,然后再通过OCR识别各个区域中的文本内容,该方法可以解决有边框、少边框甚至无边框的表格数据的提取问题。
上述两种方法存在一个共同的问题,即都可以识别表格中的内容但是无法“认知”表格。提取的内容中无法区分是表头还是表格中的值,也无法推断表格的布局,更难将提取的信息转换成结构化的数据。同时,从复杂表格提取内容时,表格数据之间的关联关系也极难推断。
发明内容
本发明的目的在于:针对现有方法可以识别表格中的内容但是无法“理解”表格的问题,提供一种基于计算机视觉和自然语言处理的表格内容提取方法,使用边框检测、OCR、文本分类等技术,开发表格边框识别、表格内容提取、表格内容分类、表格布局推理模块,实现从图片表格中提取数据并将提取的数据转成JSON格式的结构化数据。
本发明公开的基于计算机视觉和自然语言处理的图片表格内容提取方法,包括以下步骤:
步骤1:将含有表格的图片输入到表格边框识别模型中,确定表格是否有边框,针对有边框表格,使用传统图像处理方法,计算表格中各单元格坐标,针对无边框表格,使用基于深度学习的文本区域检测,推理和计算单元格坐标;
步骤 2:将每个表格中的单元格依次输入到OCR文字识别引擎PaddleOCR中进行识别,提取表格中各单元格的文本内容;
步骤3:根据提取单元格的文本内容,按照键、值、混合值三种类型进行标注,构建表格内容分类数据集,并基于该数据集训练单元格内容分类模型;
步骤4:根据表格坐标、单元格坐标以及每个单元格文本的类别,推断表格的布局;
步骤5:根据表格的布局信息、各个单元格的内容和类别信息,将表中的数据以JSON的格式组织起来。
进一步地,所述步骤1包括表格区域检测、单元格区域检测和表格边框识别,步骤如下:
步骤101:使用图像处理中的膨胀、模糊操作对含有表格图片的数据进行增强;
步骤102:将增强后的含有表格的图片数据按照8:2的比例拆分成训练集和测试集,使用训练集数据训练CascadeTabNet模型,将输入的图片resize到指定尺寸后送入主干特征提取网络,然后将特征提取网络的输出输入到RPN Head中生成推荐Bounding Box框,将生成的Bounding Box分别输入到Box Head和Mask Head中,其中,Box Head输出表格或者单元格区域的坐标以及该区域类别和得分,Mask Head输出对应区域的掩码矩阵;
步骤103:根据Box Head输出的表格类别,判断图片中的表格为无边框表格或有边框表格,对有边框表格使用图像形态学操作,识别出表格边框,然后再根据表格边框的相交信息,确定单元格坐标,对少边框或者无边框表格,使用输出的单元格区域掩码矩阵,结合文本检测内容,推断和计算表格和单元格坐标。
进一步地,所述步骤3包括以下步骤:
步骤301:对表格中常用的键、值、混合值的数据进行收集,构建表格内容分类数据集;
步骤302:对开源中文语料作为词向量训练的语料库,使用FastText中的词向量模型进行训练,生成词向量;
步骤303:使用结巴分词对从图片表格中提取的文本内容进行分词,并在步骤301生成的词向量中查找对应词语的向量是否存在,若存在则直接返回词向量,若不存在,对该词语进行分词处理,然后将拆分出的词语,先去除停用词,再从词向量表中查找剩余词语的词向量表示,最后计算剩余词的向量平均值,并用该平均值作为对应词的向量表示;
步骤304:使用文本分类模型,对每个单元格内容所属的类别进行分类;
步骤305:当步骤304输出的类别为混合值时,拆分混合值,并使用步骤304中的分类模型预测拆分后各个值的类别。
进一步地,所述步骤4中推断表格的布局包括:
当同一行单元格的类别全是键,而下一行单元格类别全是值,则可推断表格中键和值是上下对应的,表格布局推断为首行为键、次行为值;
当某一行出现键值交替,则可推断键在左值在右;
当某一行出现“键键值”,则可推断存在单元格合并的情况,结合单元格位置,推断当前单元格所跨的行或列。
进一步地,所述步骤5中,将表中的数据以JSON的格式组织起来,包括:
对于行列格式的表格数据,以内嵌数组的形式存储在JSON中;
对于键值交替出现的数据,以Key-Value的格式存储在JOSN中;
对于“键键值”格式的数据,以多层嵌套的方式存储在JSON中,第一层为键,第二层嵌套键和值列表。
本发明的有益效果:本发明引入自然语言处理技术,为表格中每个单元格的内容标记类别,再结合单元格位置信息,对表格布局的进行推理,最终将表格内容以结构化的方式输出。同时,本发明中通过表格布局推理和单元格内容类别标定,充分的保留了表格内容之间的关系,可以JSON格式精准的输出表格内容。提出的表格内容提取方法,可以实现对多源、多样式表格数据的提取和结构化,打通了对表格数据挖掘的通道。
附图说明
图1是本发明公开基于计算机视觉和自然语言处理的图片表格内容提取方法流程图。
图2是本发明公开的表格边框识别流程图。
图3是本发明公开的文本分类模型训练和预测流程图。
具体实施方式
为了进一步了解本发明的结构、特征及其目的,现结合所附图说明如下,附图所说明的实施仅用于说明本发明的技术方案,并非限定本发明。
如图1所示,本发明公开了一种基于计算机视觉和自然语言处理的表格内容提取方法,包含表格边框识别、单元格字符识别、表格内容分类、表格布局推理以及结构化表格数据五个方面。步骤如下:
步骤1:将含有表格的图片输入到表格边框识别模型中,识别图片中的表格边框。表格边框的识别包含表格区域检测、单元格区域检测和表格边框识别三个部分。如图2所示,具体实施步骤如下:
步骤101:数据准备。
使用图像处理中的膨胀、模糊操作对含有表格图片的数据进行增强,增加数据的多样性,提升模型的识别率和泛化能力。经过数据增强后,含有表格图片的数据增加20%,模型的识别精度有2~3个百分点的提升。
步骤102:模型训练。
将增强后的含有表格图片的数据按照8:2的比例拆分成训练集和测试集,使用训练集数据训练CascadeTabNet模型,CascadeTabNet模型即是表格边框识别模型。训练CascadeTabNet模型的具体步骤如下:
首先将输入的图片调整到指定尺寸,如:1024x1024,再送入主干特征提取网络,特征提取网络使用RestNet50。然后将RestNet50输出的特征图输入到RPN Head中生成推荐Bounding Box框,将生成的Bounding Box分别输入到Box Head和Mask Head中。其中,BoxHead输出表格、单元格区域的坐标以及该区域对应的类别和得分,如[x0,y0, x1,y1,score, class],x0,y0表示Bounding Box的左上角坐标,x1,y1表示Bounding Box的右下角坐标,score为该区域输出表格或者单元格的置信度,class表示类别,即表格或者单元格。Mask Head输出对应区域的掩码矩阵,若该区域存在表格或者单元格,则矩阵对应区域的值为1,若该区域不存在表格或单元格,则对应区域的值为0。
其中,RPN Head:区域建议网络;Bounding Box:边界框;Box Head:边界框预测网络;Mask Head:掩码矩阵生成网络。
步骤103:表格边框信息推理。
根据步骤102的输出结果,若输出的类别class中无表格,则认为图片中的表格为无边框表格,若输出的类别class中存在表格,则认为图片中的表格为有边框表格。针对有边框表格使用图像形态学操作,如腐蚀、膨胀、轮廓检测等方法,识别出表格边框,然后再根据表格边框的相交信息,确定单元格坐标。针对少边框或者无边框表格,使用步骤102输出的单元格掩码矩阵信息,计算单元格轮廓,并将轮廓的外接矩形的各点坐标作为单元格坐标。
步骤2:表格内容提取。
根据识别的单元格坐标,从原始图片中截取单元格图片,输入到OCR文字识别引擎PaddleOCR中进行识别。在识别单元格图片前,对图片进行预处理,包括滤波、增强以及翻转,以提高字符识别精度。同时,由于存在文字内容靠近单元格边框的问题,对切分出的单元格先进行边框过滤处理,然后再进行识别。OCR引擎的输出结果为文字置信度以及识别的文字内容。经过预处理后,文字区域检测更加准确,在测试集上文本的识别精度可达到95%以上。
步骤3:表格中单元内容分类。
为了实现对表格内容的理解,首先将表格中每个单元格的内容概括成3类,分别是键(含有抽象含义的词语,如姓名、联系电话)、值(具体的值,如张三、13776509999)、混合值(同一个单元格中既有键又有值,如姓名:张三),如图3所示,内容分类模型按照下面步骤进行:
步骤301:对常用的表格中常用的键、值、混合值的数据进行收集,构建表格内容分类数据集。
如从保险单中采集姓名、手机号码、保险人、被保险人、承保人等键信息,采集张三、X51678、137888888等值信息,采集姓名:张三、保险金额: 3000元等类似的混合值信息,对异常字符、符号等标识为其它。
步骤302:训练词向量模型。
使用现有的中文语料作为词向量训练的语料库,使用FastText中的词向量模型进行训练,生成词向量。在本实施例中,具体使用Word2Vec训练词向量模型,词向量的维度为50维,最小词语长度为2,最大词语长度为5。
步骤303:词语转换成词向量表示。
使用结巴分词对从图片表格中提取的文本内容进行分词,并在步骤301生成的词向量中查找分词后得到的词语的向量。在词向量中查找对应的词语的词向量是否存在,若存在则直接返回词向量。若不存在即出现OOV现象时,对该词语进行分词处理,然后将拆分出的词语,先去除停用词,再从词向量表中查找剩余词语的词向量表示,最后计算剩余词的向量平均值,并用该平均值作为对应词的向量表示。
步骤304:训练文本分类模型。
首先使用步骤302中的词向量和步骤303的词向量转换方法对步骤301中采集的键、值、混合值用50维的向量表示,然后使用FastText训练文本分类模型,获得文本分类模型。将从图片表格中提取的文本内容输入到分类模型进行分类,分类模型的召回率、F1值和精度均可达到95%以上。
步骤305:混合值处理。
当步骤304输出的每个单元格文本内容所属的类别为混合值时,使用命名实体识别、正则模糊匹配或关键符号拆分等技术,将混合值拆分,获得对应的键和值。
步骤4:表格布局推理。
根据单元格坐标以及每个单元格文本内容所属的类别,推断表格的布局。具体推理逻辑如下:
当同一行单元格的类别全是键,而下一行单元格类别全是值,则可推断表格中键和值是上下对应的,表格布局推断为首行为键、次行为值;
当某一行出现键值交替,则可推断键在左值在右;
当某一行出现“键键值”,则可推断存在单元格合并的情况,结合单元格坐标,推断当前单元格所跨的行或列。
步骤5:表格数据结构化。
根据表格的布局信息、各个单元格中识别的文本内容以及文本内容所属类别,将表格中的数据以JSON的格式组织起来。如图1,流程中的最后一步所示。
对于行列格式的表格数据,以内嵌数组的形式存储在JSON中;
对于键值交替出现的数据,以Key-Value的格式存储在JOSN中;
对于“键键值”格式的数据,以多层嵌套的方式存储在JSON中,第一层为键,第二层嵌套键和值列表。
本发明公开了一种基于计算机视觉和自然语言处理的表格内容提取方法,适应于票据、文件中的表格内容的提取。首先使用深度学习方法对表格的边框进行识别,并对弱边框的表格边框进行填充。使用OCR技术分别识别表格中每个单元格中的字符内容。为实现对表格内容的理解,使用词向量技术,将文本转换成向量表示并使用分类模型确定各个单元格内容的类别。结合单元格类别以及单元格位置信息,对表格的布局进行推理。最后结合单元格内容、类别以及表格布局信息,将图片表格转换成结构化的JSON格式数据。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.基于计算机视觉和自然语言处理的图片表格内容提取方法,其特征在于,包括以下步骤:
步骤1:将含有表格的图片输入到表格边框识别模型中,确定表格是否有边框,针对有边框表格,使用传统图像处理方法,计算表格中各单元格坐标,针对无边框表格,使用基于深度学习的文本区域检测,推理和计算单元格坐标;
步骤 2:将每个表格中的单元格依次输入到OCR文字识别引擎PaddleOCR中进行识别,提取表格中各单元格的文本内容;
步骤3:根据提取单元格的文本内容,按照键、值、混合值三种类型进行标注,构建表格内容分类数据集,并基于该数据集训练单元格内容分类模型;
步骤301:对表格中常用的键、值、混合值的数据进行收集,构建表格内容分类数据集;
步骤302:对开源中文语料作为词向量训练的语料库,使用FastText中的词向量模型进行训练,生成词向量;
步骤303:使用结巴分词对从图片表格中提取的文本内容进行分词,并在步骤301生成的词向量中查找对应词语的向量是否存在,若存在则直接返回词向量,若不存在,对该词语进行分词处理,然后将拆分出的词语,先去除停用词,再从词向量表中查找剩余词语的词向量表示,最后计算剩余词的向量平均值,并用该平均值作为对应词的向量表示;
步骤304:使用文本分类模型,对每个单元格文本内容所属的类别进行分类;
步骤305:当步骤304输出的类别为混合值时,拆分混合值,并使用步骤304中的分类模型预测拆分后各个值的类别;
步骤4:根据表格坐标、单元格坐标以及每个单元格文本的类别,推断表格的布局;
步骤5:根据表格的布局信息、各个单元格的内容和类别信息,将表中的数据以JSON的格式组织起来。
2.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法,其特征在于:所述步骤1包括表格区域检测、单元格区域检测和表格边框识别,步骤如下:
步骤101:使用图像处理中的膨胀、模糊操作对含有表格图片的数据进行增强;
步骤102:将增强后的含有表格的图片数据按照8:2的比例拆分成训练集和测试集,使用训练集数据训练CascadeTabNet模型,将输入的图片调整到指定尺寸后送入主干特征提取网络,然后将特征提取网络的输出输入到RPN Head中生成推荐Bounding Box框,将生成的Bounding Box分别输入到Box Head和Mask Head中,其中,Box Head输出表格或者单元格区域的坐标以及该区域类别和得分,Mask Head输出对应区域的掩码矩阵;
步骤103:根据Box Head输出的表格类别,判断图片中的表格为无边框表格或有边框表格,对有边框表格使用图像形态学操作,识别出表格边框,然后再根据表格边框的相交信息,确定单元格坐标,对少边框或者无边框表格,使用输出的单元格区域掩码矩阵,结合文本检测内容,推断和计算表格和单元格坐标。
3.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法,其特征在于:所述步骤4中推断表格的布局包括:
当同一行单元格的类别全是键,而下一行单元格类别全是值,则可推断表格中键和值是上下对应的,表格布局推断为首行为键、次行为值;
当某一行出现键值交替,则可推断键在左值在右;
当某一行出现“键键值”,则可推断存在单元格合并的情况,结合单元格位置,推断当前单元格所跨的行或列。
4.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法,其特征在于:所述步骤5中,将表中的数据以JSON的格式组织起来,包括:
对于行列格式的表格数据,以内嵌数组的形式存储在JSON中;
对于键值交替出现的数据,以Key-Value的格式存储在JOSN中;
对于“键键值”格式的数据,以多层嵌套的方式存储在JSON中,第一层为键,第二层嵌套键和值列表。
CN202111593626.4A 2021-12-24 2021-12-24 基于计算机视觉和自然语言处理的图片表格内容提取方法 Active CN113989822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111593626.4A CN113989822B (zh) 2021-12-24 2021-12-24 基于计算机视觉和自然语言处理的图片表格内容提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593626.4A CN113989822B (zh) 2021-12-24 2021-12-24 基于计算机视觉和自然语言处理的图片表格内容提取方法

Publications (2)

Publication Number Publication Date
CN113989822A CN113989822A (zh) 2022-01-28
CN113989822B true CN113989822B (zh) 2022-03-08

Family

ID=79734185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593626.4A Active CN113989822B (zh) 2021-12-24 2021-12-24 基于计算机视觉和自然语言处理的图片表格内容提取方法

Country Status (1)

Country Link
CN (1) CN113989822B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法
CN111492370A (zh) * 2020-03-19 2020-08-04 香港应用科技研究院有限公司 用于识别结构化布局的文本图像的装置和方法
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN113139457A (zh) * 2021-04-21 2021-07-20 浙江康旭科技有限公司 一种基于crnn的图片表格提取方法
CN113255566A (zh) * 2021-06-11 2021-08-13 支付宝(杭州)信息技术有限公司 表格图像识别方法及装置
CN113486177A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力领域表格列标注方法
CN113536874A (zh) * 2020-12-18 2021-10-22 腾讯科技(深圳)有限公司 表格识别方法、模型训练方法、装置及设备
CN113723252A (zh) * 2021-08-23 2021-11-30 上海财联社金融科技有限公司 一种表格型文本图片的识别方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统
CN113158755A (zh) * 2021-02-07 2021-07-23 上海孚厘科技有限公司 一种提高银行流水识别准确率的方法
CN113761131A (zh) * 2021-09-07 2021-12-07 上海快确信息科技有限公司 一种将文本结构化为表格的深度学习模型装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法
CN111492370A (zh) * 2020-03-19 2020-08-04 香港应用科技研究院有限公司 用于识别结构化布局的文本图像的装置和方法
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN113536874A (zh) * 2020-12-18 2021-10-22 腾讯科技(深圳)有限公司 表格识别方法、模型训练方法、装置及设备
CN113139457A (zh) * 2021-04-21 2021-07-20 浙江康旭科技有限公司 一种基于crnn的图片表格提取方法
CN113255566A (zh) * 2021-06-11 2021-08-13 支付宝(杭州)信息技术有限公司 表格图像识别方法及装置
CN113486177A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力领域表格列标注方法
CN113723252A (zh) * 2021-08-23 2021-11-30 上海财联社金融科技有限公司 一种表格型文本图片的识别方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
表格型文档自动识别系统及其应用;张艳等;《系统仿真学报》;20090520;第21卷(第10期);2916-2620 *

Also Published As

Publication number Publication date
CN113989822A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN112101357B (zh) 一种rpa机器人智能元素定位拾取方法及系统
US11080910B2 (en) Method and device for displaying explanation of reference numeral in patent drawing image using artificial intelligence technology based machine learning
WO2021212749A1 (zh) 命名实体标注方法、装置、计算机设备和存储介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
US11769054B2 (en) Deep-learning-based system and process for image recognition
CN110502655B (zh) 一种嵌入场景文字信息的图像自然描述语句生成方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN113762269B (zh) 基于神经网络的中文字符ocr识别方法、系统及介质
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN112989414A (zh) 基于宽度学习的移动业务数据脱敏规则生成方法
Jun et al. Automatic classification and recognition of complex documents based on Faster RCNN
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
CN114330366A (zh) 事件抽取方法及相关装置、电子设备和存储介质
CN113989822B (zh) 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
CN112800259B (zh) 一种基于边缘闭合与共性检测的图像生成方法及系统
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115392251A (zh) 一种互联网金融业务的实体实时识别方法
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220607

Address after: Room 502-3, block B, No. 4 gupinggang, Gulou District, Nanjing, Jiangsu 210000

Patentee after: Nanjing promadi Computing Technology Co.,Ltd.

Address before: 210000 floor 5, block B, zhimengyuan, No. 4 gupinggang, Gulou District, Nanjing, Jiangsu Province

Patentee before: China Austria Intelligent Industry Research Institute (Nanjing) Co.,Ltd.

TR01 Transfer of patent right