CN113792659A - 文档识别方法、装置及电子设备 - Google Patents
文档识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113792659A CN113792659A CN202111080737.5A CN202111080737A CN113792659A CN 113792659 A CN113792659 A CN 113792659A CN 202111080737 A CN202111080737 A CN 202111080737A CN 113792659 A CN113792659 A CN 113792659A
- Authority
- CN
- China
- Prior art keywords
- page
- document
- type
- text
- document page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 143
- 238000012937 correction Methods 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Abstract
本申请公开了一种文档识别方法、装置及电子设备,所述方法包括:获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;获得所述文档页面中页面内容所在的内容区域;根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述文档页面的目标页面类型。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文化识别方法、装置及电 子设备。
背景技术
对于PDF文档的内容识别,包含文档类型的识别和文字的识别。目前主 要采用基于深度学习的计算机视觉识别模型实现。计算机视觉识别模型通过 大量的样本数据进行训练得到。
但是,在计算机视觉识别模型的使用过程中,由于经常出现新的文档类 型,因此,会导致无法对文档类型进行准确的识别,使得识别结果的错误率 较高。
发明内容
有鉴于此,本申请提供一种文档识别方法、装置及电子设备,用以解决 目前对文档类型的识别错误率较高的技术问题,如下:
一种文档识别方法,所述方法包括:
获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包 含至少一个文档页面;
获得所述文档页面中页面内容所在的内容区域;
根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;
使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述 文档页面的目标页面类型。
上述方法,优选的,所述区域参数包括所述内容区域在所属文档页面中 的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内 容区域的区域形状参数;
其中,根据所述内容区域的区域参数,获得所述文档页面的初始页面类 型,包括:
将所述区域参数与预设的页面类型的类型参数进行比对,以得到与所述 区域参数相匹配的目标类型参数,所述目标类型参数对应的页面类型为所述 文档页面的初始页面类型。
上述方法,优选的,使用所述文档页面中的文字数据,筛选所述初始页 面类型,以得到所述文档页面的目标页面类型,包括:
对所述文档页面进行文字识别,以得到所述文档页面中的文字数据;
将所述文字数据与所述初始页面类型对应的类型关键词进行比对,以得 到所述文档页面的目标页面类型。
上述方法,优选的,所述类型关键词对应有字典树;
其中,将所述文字数据与所述初始页面类型对应的类型关键词进行比对, 以得到所述文档页面的目标页面类型,包括:
将所述文字数据与所述字典树进行匹配,以得到关键词匹配结果,所述 关键词匹配结果表征所述文字数据是否与所述字典树相匹配;
在所述关键词匹配结果表征所述文字数据与所述字典树相匹配的情况 下,将所述字典树对应的类型关键词所属的初始页面类型确定为所述文档页 面的目标页面类型。
上述方法,优选的,对所述文档页面进行文字识别,以得到所述文档页 面中的文字数据,包括:
使用计算机视觉识别模型对所述文档页面进行文字识别,以得到第一文 本向量序列,所述第一文本向量序列中包含至少一个文本向量;
使用自然语言纠错模型对所述第一文本向量序列进行纠错处理,以得到 第二文本向量序列,所述第二文本向量序列中包含至少一个文本向量;
将所述第一文本向量序列中的文本向量和所述第二文本向量序列中的文 本向量进行向量融合,以得到目标文本向量序列;
根据所述目标文本向量序列,获得所述文档页面中的文字数据。
上述方法,优选的,所述计算机视觉识别模型以样本图像为输入,以样 本向量序列为输出进行训练得到;所述自然语言纠错模型以第一文本样本的 文本向量序列为输入,以第二文本样本的文本向量序列为输出进行训练得到, 所述第一文本样本通过对所述第二文本样本中的字符进行替换得到;
其中,所述计算机视觉识别模型和所述自然语言纠错模型通过以下方式 进行联合训练:
将所述样本图像输入所述计算机视觉识别模型,以得到所述计算机视觉 识别模型输出的第一样本文本向量序列;
将所述第一样本文本向量序列输入所述自然语言纠错模型,以得到所述 自然语言纠错模型输出的第二样本文本向量序列;
将所述第一样本文本向量序列和所述第二样本文本向量序列进行向量融 合,以得到目标样本文本向量序列;
获得所述样本向量序列和所述目标样本文本向量序列之间的损失函数 值;
根据所述损失函数值对所述计算机视觉识别模型的模型参数和所述自然 语言纠错模型的模型参数进行调整,返回执行所述将所述样本图像输入所述 计算机视觉识别模型,以得到所述计算机视觉识别模型输出的第一样本文本 向量序列,直到所述损失函数值满足收敛条件。
上述方法,优选的,获得所述文档页面中页面内容所在的内容区域,包 括:
对所述文档页面中的像素点进行灰度处理;
获得所述文档页面的整体平均灰度值;
获得所述文档页面中所包含的多个像素区域的区域平均灰度值,所述像 素区域为对所述文档页面进行像素点划分所得到的区域,所述像素区域包含 多个像素点;
筛选出所述区域平均灰度值大于所述整体平均灰度值的目标像素区域;
根据所述目标像素区域,获得所述文档页面中页面内容所在的内容区域。
上述方法,优选的,所述获得待识别的目标文档,包括:
获得待识别的原始文档;
将所述原始文档转换为二进制格式;
对二进制格式的原始文档按照页面进行拆分,以得到至少一个文档页面。
一种文档识别装置,所述装置包括:
文档获得单元,用于获得待识别的目标文档,所述目标文档为PDF格式, 且所述目标文档包含至少一个文档页面;
区域获得单元,用于获得所述文档页面中页面内容所在的内容区域;
初始获得单元,用于根据所述内容区域的区域参数,获得所述文档页面 的初始页面类型;
类型筛选单元,用于使用所述文档页面中的文字数据,筛选所述初始页 面类型,以得到所述文档页面的目标页面类型。
一种电子设备,包括:
存储器,用于存储应用程序和所述应用程序所产生的数据;
处理器,用于执行所述应用程序,以实现:获得待识别的目标文档,所 述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;获得所述 文档页面中页面内容所在的内容区域;根据所述内容区域的区域参数,获得 所述文档页面的初始页面类型;使用所述文档页面中的文字数据,筛选所述 初始页面类型,以得到所述文档页面的目标页面类型。
从上述技术方案可以看出,本申请公开的一种文档识别方法、装置及电 子设备,在获得到包含至少一个文档页面的PDF文档之后,通过对文档页面 中页面内容所在的内容区域进行识别,进而根据内容区域的区域参数识别文 档页面的初始页面类型,之后,再使用文档页面中的文字数据对初始页面类 型进行筛选,进而得到文档页面的目标页面类型。可见,本申请中通过内容 区域以及内容中的文字实现页面类型的识别,从而避免使用识别模型无法识 别页面类型导致识别结果错误的情况,从而提高识别的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申 请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种文档识别方法的流程图;
图2-图5分别为本申请实施例的应用示例图;
图6为本申请实施例一提供的一种文档识别方法的部分流程图;
图7为本申请实施例中字典树的结构示例图;
图8为本申请实施例一提供的一种文档识别方法的另一部分流程图;
图9为本申请实施例中联合训练的示意图;
图10为本申请实施例二提供的一种文档识别装置的结构示意图;
图11为本申请实施例三提供的一种电子设备的结构示意图;
图12为本申请适用于服务器进行PDF文档类型识别的模型结构图;
图13为本申请中模型训练中的输入图片示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1所示,为本申请实施例一提供的一种文档识别方法的实现流程 图,该方法可以适用于能够进行数据处理的电子设备中,如计算机或服务器 等。本实施例中的技术方案主要用于提高对PDF文档的识别准确率。
具体的,本实施例中的方法可以包含如下步骤:
步骤101:获得待识别的目标文档。
其中,目标文档为PDF格式,且目标文档包含至少一个文档页面。例如, 如图2中所示,目标文档为包含有多个页面,每个页面中均有内容。
具体实现中,本实施例中可以在服务器上的存储区域中进行文档读取, 从而获得到待识别的PDF格式的原始文档,服务器上的存储区域中所存储的 原始文档可以由用户通过终端利用与服务器之间的http连接上传到服务器; 之后,将读取到的原始文档进行格式转换,如转换成二进制格式,以便于后 续进行处理;最后,再将二进制格式的原始文档按照页面进行拆分,以得到 至少一个文档页面,由此得到目标文档。
步骤102:获得文档页面中页面内容所在的内容区域。
其中,内容区域即为文档页面中所包含的页面内容所在的位置区域,如 图3中所示,粗线框所对应的区域为内容区域。具体实现中,本实施例可以 通过每个文档页面进行内容边缘的识别,从而获得到相应的内容区域。
在一种实现方式中,本实施例中可以通过以下方式获得内容区域:
首先,对文档页面中的像素点进行灰度处理,例如,灰度处理后的文档 页面中每个像素点的灰度值的范围是0-255,其中0为黑色,255为白色;
然后,获得文档页面的整体平均灰度值和文档页面中所包含的多个像素 区域的区域平均灰度值,这里的像素区域为对文档页面进行像素点划分所得 到的区域,每个像素区域中包含多个像素点。例如,如图4中所示,对于 2048*2048的文档页面按照20*20的大小进行区域划分,以得到多个像素区域, 基于此,将文档页面中所有像素点的灰度值进行加和求平均,以得到整体平 均灰度值,并且,分别对文档页面中的每个像素区域中的像素点的灰度值进 行加和求平均,以得到每个像素区域各自的区域平均灰度值;
最后,筛选出区域平均灰度值大于整体平均灰度值的目标像素区域,这 些目标像素区域即为文档页面内页面内容所在的相似区域,再根据这些目标 像素区域,获得文档页面中页面内容所在的内容区域,例如,将这些目标像 素区域进行区域组合,由此得到内容区域;或者,也可以先筛选出区域平均 灰度值小于整体平均灰度值的像素区域,这些像素区域为非页面内容的区域, 即边缘区域,基于此,文档页面中除了这些边缘区域之外的区域即为目标像 素区域,由此将这些目标像素区域进行区域组合后,得到内容区域。
步骤103:根据内容区域的区域参数,获得文档页面的初始页面类型。
其中,区域参数可以包括多个维度上的参数,如内容区域在所属文档页 面中的面积比例参数、内容区域在所属文档页面中的区域位置参数和内容区 域的区域形状参数,等等。面积比例参数是指内容区域的面积与其所属文档 页面的面积之间的比例值,如20%或80%等;区域位置参数是指内容区域的 位置在其所属文档页面中的相对位置,如中间位置或偏上位置等;区域形状 参数是指内容区域的轮廓类型、轮廓尺寸等参数,如长为10厘米宽为5厘米 的长方形等。
基于此,本实施例中通过内容区域的区域参数,对文档页面的页面类型 进行初步筛选,从而得到文档页面的初始页面类型。初始页面类型可以有多 个,如身份证类型、客户登记表类型、机动车行驶证、信用卡登记表等类型。
具体的,本实施例中可以按照各个预设的页面类型各自所对应的类型参 数,对区域参数进行分类,从而得到区域参数所匹配的所有类型参数,这些 类型参数所属的页面类型即为文档页面的初始页面类型。
例如,本实施例中将区域参数与预设的页面类型的类型参数进行比对, 将参数相似度满足相似条件的类型参数筛选出来,即得到与区域参数相匹配 的目标类型参数,这些目标类型参数对应的页面类型即为文档页面的初始页 面类型。
这里的参数相似度满足相似条件可以包含有:面积比例参数的值与类型 参数中面积比例的值之间的差值小于差值阈值、区域位置参数中的相对坐标 与类型参数中区域位置的左边之间的坐标距离小于坐标阈值、区域形状参数 中的轮廓与类型参数中的轮廓之间的相似度大于相似阈值等等。
步骤104:使用文档页面中的文字数据,筛选初始页面类型,以得到文档 页面的目标页面类型。
具体的,本实施例中可以使用文档页面中的文字数据,对初步筛选出的 初始页面类型进行再次筛选,将与文字数据相匹配的初始页面类型确定为文 档页面的目标页面类型。
需要说明的是,本实施例中是针对目标文档中的每个文档页面分别进行 类型识别的,因此,在目标文档中包含多个文档页面的情况下,目标文档可 能会被识别出多个页面类型。例如,如图5中所示,在4页的PDF文档中, 识别出第一个文档页面为客户数据登记表的页面类型,第三个页面类型为身 份证的页面类型。
由上述方案可知,本申请实施例一提供的一种文档识别方法中,在获得 到包含至少一个文档页面的PDF文档之后,通过对文档页面中页面内容所在 的内容区域进行识别,进而根据内容区域的区域参数识别文档页面的初始页 面类型,之后,再使用文档页面中的文字数据对初始页面类型进行筛选,进 而得到文档页面的目标页面类型。可见,本实施例中通过内容区域以及内容 中的文字实现页面类型的识别,从而避免使用识别模型无法识别页面类型导 致识别结果错误的情况,从而提高识别的准确性。
在一种实现方式中,步骤104中使用文档页面中的文字数据,筛选初始 页面类型,以得到文档页面的目标页面类型时,具体可以通过以下方式实现, 如图6中所示:
步骤601:对文档页面进行文字识别,以得到文档页面中的文字数据。
其中,本实施例中可以通过文字识别算法或基于机器学习的神经网络模 型对文档页面进行文字识别,以得到文档页面中的文字数据。
需要说明的是,本实施例中为了保证后续类型识别的准确性,可以对文 档页面中的所有字符进行文字识别,以得到文档页面中的所有字符所组成的 文字数据;或者,本实施例中为了提高减少数据处理量,以提高效率,可以 只对文档页面中的部分区域的文字进行识别,如内容区域的三分之一或一半 等,由此得到文档页面中的部分字符所组成的文字数据。
步骤602:将文字数据与初始页面类型对应的类型关键词进行比对,以得 到文档页面的目标页面类型。
其中,类型关键词可以包含一个或多个关键字。如身份证类型的类型关 键词有:“居民身份证”、“签发机关”和“地址”等关键词;再如,客户 数据登记表类型的类型关键词有:“客户数据登记表”、“姓名”、“住址”、 “联系电话”和“业务类型”等关键词。
在一种实现方式中,步骤602中可以将文字数据中的字符与类型关键词 中的关键字进行比对,从而将关键字与文字数据中的字符之间的匹配度满足 匹配条件的类型关键词所属的初始页面类型确定为文档页面的目标页面类 型。
具体实现中,可以针对每个页面类型的类型关键词建立对应的字典树。 例如,以先将关键词拆分为2-3个字的片段,对于关键词“客户数据登记表”, 可拆分为“客户”、“户数”、“数据”、“据登”、“登记”、“记表”、 “客户数”、“户数据”、“数据登”、“据登记”、“登记表”等片段。 然后用这些片段生成字典树,如图7中所示。通过关键词生成的字典树进行 字符匹配能够提高关键词匹配速度和模糊匹配的能力。
基于此,步骤602中可以先将文字数据与字典树进行匹配,从而得到关 键词匹配结果,例如,将文字数据中的每条语句中的字符依次与每个类型关 键词进行匹配,以得到文字数据与每个初始页面类型的各个类型关键词所建 立的字典树之间的关键词匹配结果,该关键词匹配结果表征文字数据是否与 字典树相匹配,例如,在字典树中所包含的字段在文字数据中有匹配字符的 个数达到个数阈值的时候,就可以认为文字数据与该字典树相匹配;基于此, 在关键词匹配结果表征文字数据与字典树相匹配的情况下,将字典树对应的 类型关键词所属的初始页面类型确定为文档页面的目标页面类型。
例如,将文字数据中的字符与“客户数据登记表”的字典树进行匹配, 如果“客户数据登记表”的字典树中的字段有10个字段在文字数据中有相匹 配的字符,那么可以确定文字数据是与“客户数据登记表”这个类型关键词 相匹配的,此时,将文字数据所属的文档页面的页面类型确定为“客户数据 登记表”所属的页面类型,即客户数据登记表的类型。
在一种实现方式中,步骤601中可以通过以下方式实现:
首先,使用计算机视觉识别模型对文档页面进行文字识别,以得到第一 文本向量序列,第一文本向量序列中包含有至少一个文本向量;这里的计算 机视觉识别模型可以基于神经网络构建,并使用多组训练样本进行训练得到; 具体的,计算机视觉识别模型以样本图像为输入并以样本向量序列为输出进 行训练得到,样本向量序列为针对样本图像由人工进行标注或审核的准确的 文本向量序列;
然后,使用自然语言纠错模型对第一文本向量序列进行纠错处理,以得 到第二文本向量序列,第二文本向量序列中包含有至少一个文本向量;这里 的自然语言纠错模型可以基于神经网络构建,并使用多组训练样本进行训练 得到;具体的,自然语言纠错模型以第一文本样本的文本向量序列为输入, 以第二文本样本的文本向量序列为输出进行训练得到,而第一文本样本通过 对第二文本样本中的字符进行替换得到;例如,将一条正确的语句中的字符 进行相似字符的替换,从而将得到的新语句作为该正确的语句的负样本,形成自然语言纠错模型的训练样本;
之后,将第一文本向量序列中的文本向量和第二文本向量序列中的文本 向量进行向量融合,以得到目标文本向量序列;例如,按照文本向量在序列 中的次序将第一文本向量序列中的文本向量和在第二文本向量序列中相对应 的文本向量进行向量相加,由此得到每个次序上的文本向量,由此组成目标 文本向量序列;
最后,根据目标文本向量序列,获得文档页面中的文字数据,例如将目 标文本向量序列中的每个文本向量进行字符转换以及归一化处理,如图7中 所示,以得到每个文本向量对应的文字,由此所得到的文字组成文档页面中 的文字数据。
进一步的,本实施例中除了按照以上方式对计算机视觉识别模型和自然 语言纠错模型分别进行单独的训练之外,还可以使用训练样本对这两个模型 进行联合训练,联合训练的方式如图8中所示:
步骤801:将样本图像输入计算机视觉识别模型,以得到计算机视觉识别 模型输出的第一样本文本向量序列,第一样本文本向量序列中包含有多个文 本向量;
步骤802:将第一样本文本向量序列输入自然语言纠错模型,以得到自然 语言纠错模型输出的第二样本文本向量序列,第二样本文本向量序列中包含 多个文本向量;
步骤803:将第一样本文本向量序列和第二样本文本向量序列进行向量融 合,如按照文本向量进行向量相加等,以得到目标样本文本向量序列,目标 样本文本向量序列中包含多个文本向量;
步骤804:获得样本向量序列和目标样本文本向量序列之间的损失函数 值;
例如,本实施例中可以使用交叉熵函数作为损失函数,由此得到样本向 量序列和目标样本文本向量序列之间的损失函数值,该损失函数值表征样本 向量序列与目标样本文本型向量序列之间的差异。
例如,以Y=(y1,...,yk)表示目标样本文本向量序列,以P=(p1,...,pk)表示样本向量序列,由此,损失函数值L的计算方法如公式(1)所示:
步骤805:判断损失函数值是否满足收敛条件,如果损失函数值不满足收 敛条件,执行步骤806,如果损失函数值满足收敛条件,则结束当前训练的流 程。
其中,收敛条件可以为:损失函数值低于损失阈值或者损失函数值的变 化量小于变化阈值,如损失函数值趋近于0。
步骤806:根据损失函数值对计算机视觉识别模型的模型参数和自然语言 纠错模型的模型参数进行调整,如图9中所示,之后,再返回执行步骤801, 以将样本图像输入计算机视觉识别模型,以得到计算机视觉识别模型输出的 第一样本文本向量序列,直到损失函数值满足收敛条件。
具体的,本实施例中可以根据损失函数值对两个模型的神经网络中的各 层权重参数进行调高或调低,以使得损失函数值被降低,直到满足收敛条件。
参考图10所示,为本申请实施例二提供的一种文档识别装置的结构示意 图,该装置可以配置在能够进行数据处理的电子设备中,如计算机或服务器 等。本实施例中的技术方案主要用于提高对PDF文档的识别准确率。
具体的,本实施例中的装置可以包含如下单元:
文档获得单元1001,用于获得待识别的目标文档,所述目标文档为PDF 格式,且所述目标文档包含至少一个文档页面;
区域获得单元1002,用于获得所述文档页面中页面内容所在的内容区域;
初始获得单元1003,用于根据所述内容区域的区域参数,获得所述文档 页面的初始页面类型;
类型筛选单元1004,用于使用所述文档页面中的文字数据,筛选所述初 始页面类型,以得到所述文档页面的目标页面类型。
由上述方案可知,本申请实施例二提供的一种文档识别装置,在获得到 包含至少一个文档页面的PDF文档之后,通过对文档页面中页面内容所在的 内容区域进行识别,进而根据内容区域的区域参数识别文档页面的初始页面 类型,之后,再使用文档页面中的文字数据对初始页面类型进行筛选,进而 得到文档页面的目标页面类型。可见,本实施例中通过内容区域以及内容中 的文字实现页面类型的识别,从而避免使用识别模型无法识别页面类型导致 识别结果错误的情况,从而提高识别的准确性。
在一种实现方式中,所述区域参数包括所述内容区域在所属文档页面中 的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内 容区域的区域形状参数;其中,初始获得单元1003具体用于:将所述区域参 数与预设的页面类型的类型参数进行比对,以得到与所述区域参数相匹配的 目标类型参数,所述目标类型参数对应的页面类型为所述文档页面的初始页 面类型。
在一种实现方式中,类型筛选单元1004具体用于:对所述文档页面进行 文字识别,以得到所述文档页面中的文字数据;将所述文字数据与所述初始 页面类型对应的类型关键词进行比对,以得到所述文档页面的目标页面类型。
可选的,所述类型关键词对应有字典树;
其中,类型筛选单元1004具体用于:将所述文字数据与所述字典树进行 匹配,以得到关键词匹配结果,所述关键词匹配结果表征所述文字数据是否 与所述字典树相匹配;在所述关键词匹配结果表征所述文字数据与所述字典 树相匹配的情况下,将所述字典树对应的类型关键词所属的初始页面类型确 定为所述文档页面的目标页面类型。
具体实现中,类型筛选单元1004在对所述文档页面进行文字识别,以得 到所述文档页面中的文字数据时,具体用于:使用计算机视觉识别模型对所 述文档页面进行文字识别,以得到第一文本向量序列,所述第一文本向量序 列中包含至少一个文本向量;使用自然语言纠错模型对所述第一文本向量序 列进行纠错处理,以得到第二文本向量序列,所述第二文本向量序列中包含 至少一个文本向量;将所述第一文本向量序列中的文本向量和所述第二文本 向量序列中的文本向量进行向量融合,以得到目标文本向量序列;根据所述目标文本向量序列,获得所述文档页面中的文字数据。
其中,所述计算机视觉识别模型以样本图像为输入,以样本向量序列为 输出进行训练得到;所述自然语言纠错模型以第一文本样本的文本向量序列 为输入,以第二文本样本的文本向量序列为输出进行训练得到,所述第一文 本样本通过对所述第二文本样本中的字符进行替换得到;
可选的,所述计算机视觉识别模型和所述自然语言纠错模型通过以下方 式进行联合训练:
将所述样本图像输入所述计算机视觉识别模型,以得到所述计算机视觉 识别模型输出的第一样本文本向量序列;将所述第一样本文本向量序列输入 所述自然语言纠错模型,以得到所述自然语言纠错模型输出的第二样本文本 向量序列;将所述第一样本文本向量序列和所述第二样本文本向量序列进行 向量融合,以得到目标样本文本向量序列;获得所述样本向量序列和所述目 标样本文本向量序列之间的损失函数值;根据所述损失函数值对所述计算机 视觉识别模型的模型参数和所述自然语言纠错模型的模型参数进行调整,返 回执行所述将所述样本图像输入所述计算机视觉识别模型,以得到所述计算 机视觉识别模型输出的第一样本文本向量序列,直到所述损失函数值满足收 敛条件。
在一种实现方式中,区域获得单元1002具体用于:对所述文档页面中的 像素点进行灰度处理;获得所述文档页面的整体平均灰度值;获得所述文档 页面中所包含的多个像素区域的区域平均灰度值,所述像素区域为对所述文 档页面进行像素点划分所得到的区域,所述像素区域包含多个像素点;筛选 出所述区域平均灰度值大于所述整体平均灰度值的目标像素区域;根据所述 目标像素区域,获得所述文档页面中页面内容所在的内容区域。
在一种实现方式中,文档获得单元1001具体用于:获得待识别的原始文 档;将所述原始文档转换为二进制格式;对二进制格式的原始文档按照页面 进行拆分,以得到至少一个文档页面。
需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内 容,此处不再详述。
参考图11,为本申请实施例三提供的一种电子设备的结构示意图,该电 子设备可以为能够进行数据处理的电子设备,如计算机或服务器等。本实施 例中的技术方案主要用于提高对PDF文档的识别准确率。
具体的,本实施例中的电子设备可以包含如下结构:
存储器1101,用于存储应用程序和所述应用程序所产生的数据;
处理器1102,用于执行所述应用程序,以实现:获得待识别的目标文档, 所述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;获得所 述文档页面中页面内容所在的内容区域;根据所述内容区域的区域参数,获 得所述文档页面的初始页面类型;使用所述文档页面中的文字数据,筛选所 述初始页面类型,以得到所述文档页面的目标页面类型。
从上述技术方案可以看出,本申请实施例三公开的一种电子设备,在获 得到包含至少一个文档页面的PDF文档之后,通过对文档页面中页面内容所 在的内容区域进行识别,进而根据内容区域的区域参数识别文档页面的初始 页面类型,之后,再使用文档页面中的文字数据对初始页面类型进行筛选, 进而得到文档页面的目标页面类型。可见,本申请中通过内容区域以及内容 中的文字实现页面类型的识别,从而避免使用识别模型无法识别页面类型导 致识别结果错误的情况,从而提高识别的准确性。
以电子设备为图形处理器GPU(graphics processing unit)服务器为例, GPU服务器对外提供请求接口,用户可以通过http请求上传PDF文档,基于 本申请的算法在服务器上将PDF文档解析识别后,返回页面类型的识别结果, 具体流程如下:
1、收到一个PDF文档Base64编码,将数据解码为二进制文件数据。之 所以需要进行解码,是因为使用Base64编码传输数据,更加安全和方便,在 经过解码后,能够进行识别处理。
2、读取PDF扫描文档数据,并将其中的每一页拆分成JPG图片,即前 文中的文档页面。
3、使用边缘识别方法获取每个文档页面的实际的内容区域。具体的方法: 先将图片转为灰度图,计算整个页面的平均灰度值;之后,从上下左右四个 方向,分别开始向内依次计算20x20像素区域的平均灰度值,如果该值小于 整页的平均灰度值,则认为找到了内容区域的边界。通过此方案找到内容区 域在页面中的位置。
4、计算内容区域面积相对于整个文档的大小、内容区域的位置、形状等 特征,来初步分类文档,以得到文档页面的初始页面类型。例如内容区域的 面积小于页面面积的一半时,认为该页面可能是身份证复印件,而不可能是 某些文档首页。
5、使用计算机视觉识别模型即文字识别模型,分别识别每一页的文字内 容。而考虑到速度的问题,可以不识别整页的文字,根据实际业务情况,本 实施例中可以只识别了内容区域上三分之一的文字。此外,为了提高识别率, 本实施例中对文字识别模型优化,将计算机视觉识别模型和自然语言纠错模 型相结合,形成了一个新的端到端模型。
6、页面类型的进一步筛选识别。本实施例中可以在上一步识别出的文字 中,匹配预设的关键字,来判断页面类型。
比如,客户数据登记表类型的文档,预设的关键字有“客户数据登记表”、 “客户姓名”、“居住地址”等等;身份证扫描件,预设的关键字有“居民 身份证”、“签发机关”,“有效期限”等等。对于不同页面类型的关键词, 可以通过建立字典树的方式提高匹配效率,具体参考前文中图7及相关内容。 由此,通过关键字生成的字典树匹配每一页待识别文档中的每一条的文字内 容。这样可以大大的提高关键字匹配速度和模糊匹配的能力。
7、相关页面对应的关键字的字段匹配成功次数最多的字典树对应的类型 即为当前页码的页面类型。例如,身份证扫描件,匹配预设关键字“居民身 份证”,“签发机关”,“有效日期”等生成的字典树,匹配次数最多的是 PDF文档的第10页,则认为第10页是身份证扫描件。
8、返回页面类型识别结果数据给请求方。
以下对优化的文字识别模型的训练进行说明:
1、模型结构
模型结构如图12中所示。模型主要分为两部分:计算机视觉识别模型和 自然语言纠错模型。
计算机视觉识别模型的输入,是包含文字的RGB图像;输出是多行文本 向量序列,序列中除了包含文本向量,还可以有文本框的坐标。计算机视觉 识别模型可以选取不同的模型。本实施例中的计算机视觉识别模型可以是 Mask TextSpotter v3,该模型使用分割候选网络(Segmentation Proposal Network)生成多边形文本候选区域,同时与文字识别共享了基础图像特征提 取结果,实现了一次性完成文字区域检测和文字识别的方法。
自然语言纠错模型的输入,是纠错前的多行文本向量序列;输出是经过 模型纠错的多行文本向量序列。自然语言纠错部分也可以选择不同的模型, 本实施例中可以使用语义表示模型ERNIE(Enhanced Representation from kNowledge IntEgration),它可以很好的从文本序列中捕获语义模式,在已经 通过海量数据训练的模型基础上,经过微调就可以提升各种自然语言处理任 务的性能。
完整的文字识别模型的输入,即联合训练时的计算机视觉识别模型和自 然语言纠错模型的输入,是包含文字的RGB图像;输出是自然语言纠错模型 和计算机视觉识别模型融合的多行文本向量序列。从而,实现了端到端解决 文本检测、识别、纠错的模型。
计算机视觉识别模型和自然语言纠错模型结合的关键在于融合层的设 计。本实施例中可以使用结果向量相加的方式实现融合层。再进一步的联合 训练微调的方式,就可以实现功能的串联,以X=Xv+Xn表示融合后的文本向 量序列,Xv表示计算机视觉识别模型输出的向量序列,Xn表示自然语言纠错 模型输出的向量序列,这一结果需要进行归一化处理,基于此可以通过 Softmax函数计算得到输出层Y,如下公式(2):
在模型进行训练过程中,可以通过一个损失函数来衡量模型当前输出的 分布与真实分布之间的差距。本实施例中可以使用交叉熵作为损失函数。训 练数据的标签为P,损失函数的计算方法如公式(1)中所示。
2、训练方法
由于计算机视觉识别模型和自然语言纠错模型对训练数据集合要求的侧 重点不同,需要做不同的训练数据增强。所以,本实施例中可以先分别对两 个模型进行预训练,再进行联合训练,以精调模型。只要联合训练中的字符 字典保持一致,就可以达到分步训练,得到更好模型的效果。
首先,训练计算机视觉识别模型,得到预训练模型。训练数据示例:
如图13所示,输入带文字的图片,基于此,计算机视觉识别模型输出文 字框坐标和文字内容,如:
[{'text':'A主席在第十三届B论坛上的主题演讲',
'text_region':[[24,18],[395,17],[395,31],[24,32]]},
{'text':'Z集中修改、废止部分证券期货制度文件',
'text_region':[[20,94],[368,94],[368,109],[20,109]]},
{'text':'Z公布《资产管理产品介绍要素第2部',
'text_region':[[21,127],[361,127],[361,143],[21,143]]},
{'text':'Z组织升展基础设施领域不动产投资信',
'text_region':[[20,160],[365,160],[365,174],[20,174]]},
{'text':'Z对十四件证明事项实行告知承诺制',
'text_region':[[23,192],[369,192],[369,207],[23,207]]},
{'text':'Z公布首批证券公司“白名单',
'text_region':[[21,225],[279,224],[280,238],[21,239]]},
{'text':'Z发布离职人员入股行为监',
'text_region':[[23,258],[365,258],[365,272],[23,272]]}]
然后,自然语言纠错模型,纠错的类型一般来说包括形似、音似、缺字 等,但对于当前的场景,只需要考虑字符形似的错识情况。因此,本实施例 中获得训练样本时,可以对搜集到的语料库进行处理,将句子中的每个字依 次替换为相似字符(根据第一步得到的相似字符列表),作为输入数据,原 句作为标签数据,生成自然语言纠错模型训练数据集。训练数据示例:
输入带形近字错误的文本:“Z集中修改、废止部分证券斯货制度文件”。 自然语言纠错模型输出正确的文本:“Z集中修改、废止部分证券期货制度文 件”。
在此数据集上进行预训练,得到自然语言纠错模型的预训练模型。
最后,再将两个预训练模型,按照前文介绍的结构进行组合,使用带文 字的图片数据集,进行进一步的精调训练,最终得到一个可用的端到端文字 识别模型。
综上,本申请的技术方案针对以下各问题进行解决:
(1)针对文档类型识别方法,可扩展性差和识别率低的问题
本申请基于文字识别算法,先对文档中每一页的文字内容进行识别,然 后使用基于字典树的关键字匹配算法,在文档内容中进行匹配,找到匹配度 最高的页面。关键字和对应的页面是可配置的,这样就解决了直接使用图像 识别页面类型时,可识别的页面类型不易扩展的问题,增加了页面识别方法 的灵活性。
(2)针对文字识别算法,复杂模糊的文字容易错识的问题
本申请结合计算机视觉识别模型和自然语言模型,采用先分别预训练再 联合训练的方式,实现了文字检测、识别、校准的端到端的解决方案。能够 有效的改善复杂模糊文字容易错识的问题。相对于主流的文字识别模型,创 新型地引入了语言模型,根据上下文进行推测,增加了文字判断的依据,从 而提高了整体文字的识别率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。 对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述 的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性 地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行, 取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定 的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本 申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、 处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存 储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可 编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的 任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下, 在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文档识别方法,其特征在于,所述方法包括:
获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;
获得所述文档页面中页面内容所在的内容区域;
根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;
使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述文档页面的目标页面类型。
2.根据权利要求1所述的方法,其特征在于,所述区域参数包括所述内容区域在所属文档页面中的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内容区域的区域形状参数;
其中,根据所述内容区域的区域参数,获得所述文档页面的初始页面类型,包括:
将所述区域参数与预设的页面类型的类型参数进行比对,以得到与所述区域参数相匹配的目标类型参数,所述目标类型参数对应的页面类型为所述文档页面的初始页面类型。
3.根据权利要求1或2所述的方法,其特征在于,使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述文档页面的目标页面类型,包括:
对所述文档页面进行文字识别,以得到所述文档页面中的文字数据;
将所述文字数据与所述初始页面类型对应的类型关键词进行比对,以得到所述文档页面的目标页面类型。
4.根据权利要求3所述的方法,其特征在于,所述类型关键词对应有字典树;
其中,将所述文字数据与所述初始页面类型对应的类型关键词进行比对,以得到所述文档页面的目标页面类型,包括:
将所述文字数据与所述字典树进行匹配,以得到关键词匹配结果,所述关键词匹配结果表征所述文字数据是否与所述字典树相匹配;
在所述关键词匹配结果表征所述文字数据与所述字典树相匹配的情况下,将所述字典树对应的类型关键词所属的初始页面类型确定为所述文档页面的目标页面类型。
5.根据权利要求3所述的方法,其特征在于,对所述文档页面进行文字识别,以得到所述文档页面中的文字数据,包括:
使用计算机视觉识别模型对所述文档页面进行文字识别,以得到第一文本向量序列,所述第一文本向量序列中包含至少一个文本向量;
使用自然语言纠错模型对所述第一文本向量序列进行纠错处理,以得到第二文本向量序列,所述第二文本向量序列中包含至少一个文本向量;
将所述第一文本向量序列中的文本向量和所述第二文本向量序列中的文本向量进行向量融合,以得到目标文本向量序列;
根据所述目标文本向量序列,获得所述文档页面中的文字数据。
6.根据权利要求5所述的方法,其特征在于,所述计算机视觉识别模型以样本图像为输入,以样本向量序列为输出进行训练得到;所述自然语言纠错模型以第一文本样本的文本向量序列为输入,以第二文本样本的文本向量序列为输出进行训练得到,所述第一文本样本通过对所述第二文本样本中的字符进行替换得到;
其中,所述计算机视觉识别模型和所述自然语言纠错模型通过以下方式进行联合训练:
将所述样本图像输入所述计算机视觉识别模型,以得到所述计算机视觉识别模型输出的第一样本文本向量序列;
将所述第一样本文本向量序列输入所述自然语言纠错模型,以得到所述自然语言纠错模型输出的第二样本文本向量序列;
将所述第一样本文本向量序列和所述第二样本文本向量序列进行向量融合,以得到目标样本文本向量序列;
获得所述样本向量序列和所述目标样本文本向量序列之间的损失函数值;
根据所述损失函数值对所述计算机视觉识别模型的模型参数和所述自然语言纠错模型的模型参数进行调整,返回执行所述将所述样本图像输入所述计算机视觉识别模型,以得到所述计算机视觉识别模型输出的第一样本文本向量序列,直到所述损失函数值满足收敛条件。
7.根据权利要求1或2所述的方法,其特征在于,获得所述文档页面中页面内容所在的内容区域,包括:
对所述文档页面中的像素点进行灰度处理;
获得所述文档页面的整体平均灰度值;
获得所述文档页面中所包含的多个像素区域的区域平均灰度值,所述像素区域为对所述文档页面进行像素点划分所得到的区域,所述像素区域包含多个像素点;
筛选出所述区域平均灰度值大于所述整体平均灰度值的目标像素区域;
根据所述目标像素区域,获得所述文档页面中页面内容所在的内容区域。
8.根据权利要求1或2所述的方法,其特征在于,所述获得待识别的目标文档,包括:
获得待识别的原始文档;
将所述原始文档转换为二进制格式;
对二进制格式的原始文档按照页面进行拆分,以得到至少一个文档页面。
9.一种文档识别装置,其特征在于,所述装置包括:
文档获得单元,用于获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;
区域获得单元,用于获得所述文档页面中页面内容所在的内容区域;
初始获得单元,用于根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;
类型筛选单元,用于使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述文档页面的目标页面类型。
10.一种电子设备,其特征在于,包括:
存储器,用于存储应用程序和所述应用程序所产生的数据;
处理器,用于执行所述应用程序,以实现:获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;获得所述文档页面中页面内容所在的内容区域;根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述文档页面的目标页面类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080737.5A CN113792659B (zh) | 2021-09-15 | 2021-09-15 | 文档识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080737.5A CN113792659B (zh) | 2021-09-15 | 2021-09-15 | 文档识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792659A true CN113792659A (zh) | 2021-12-14 |
CN113792659B CN113792659B (zh) | 2024-04-05 |
Family
ID=78878448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111080737.5A Active CN113792659B (zh) | 2021-09-15 | 2021-09-15 | 文档识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792659B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661904A (zh) * | 2022-03-10 | 2022-06-24 | 北京百度网讯科技有限公司 | 文档处理模型的训练方法、装置、设备、存储介质及程序 |
CN114822532A (zh) * | 2022-04-12 | 2022-07-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、电子设备和存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006221569A (ja) * | 2005-02-14 | 2006-08-24 | Canon Inc | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 |
CN101441713A (zh) * | 2007-11-19 | 2009-05-27 | 汉王科技股份有限公司 | 一种pdf文件的光学字符识别方法及装置 |
KR101585029B1 (ko) * | 2015-05-13 | 2016-01-13 | (주)코드원시스템 | 문서 인식 분류 시스템 |
CN110727789A (zh) * | 2018-06-29 | 2020-01-24 | 微软技术许可有限责任公司 | 文档的概要生成 |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN111444750A (zh) * | 2019-01-17 | 2020-07-24 | 珠海金山办公软件有限公司 | 一种pdf文档识别方法、装置及电子设备 |
CN111507214A (zh) * | 2020-04-07 | 2020-08-07 | 中国人民财产保险股份有限公司 | 文档识别方法、装置及设备 |
KR102144464B1 (ko) * | 2020-03-04 | 2020-08-14 | 주식회사 로민 | 문서분류장치 및 문서분류방법 |
CN111832403A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 文档结构识别方法、文档结构识别的模型训练方法和装置 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN112101367A (zh) * | 2020-09-15 | 2020-12-18 | 杭州睿琪软件有限公司 | 文本识别方法、图像识别分类方法、文档识别处理方法 |
US20210012102A1 (en) * | 2019-07-08 | 2021-01-14 | UiPath SRL | Systems and Methods For Automatic Data Extraction From Document Images |
CN112464907A (zh) * | 2020-12-17 | 2021-03-09 | 广东电网有限责任公司 | 一种文档处理系统及方法 |
CN112733523A (zh) * | 2020-12-30 | 2021-04-30 | 深信服科技股份有限公司 | 文档发送方法、装置、设备及存储介质 |
CN113076814A (zh) * | 2021-03-15 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 文本区域的确定方法、装置、设备及可读存储介质 |
US20210256253A1 (en) * | 2019-03-22 | 2021-08-19 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium |
-
2021
- 2021-09-15 CN CN202111080737.5A patent/CN113792659B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006221569A (ja) * | 2005-02-14 | 2006-08-24 | Canon Inc | 文書処理システム、文書処理方法、プログラムおよび記憶媒体 |
CN101441713A (zh) * | 2007-11-19 | 2009-05-27 | 汉王科技股份有限公司 | 一种pdf文件的光学字符识别方法及装置 |
KR101585029B1 (ko) * | 2015-05-13 | 2016-01-13 | (주)코드원시스템 | 문서 인식 분류 시스템 |
CN110727789A (zh) * | 2018-06-29 | 2020-01-24 | 微软技术许可有限责任公司 | 文档的概要生成 |
CN111444750A (zh) * | 2019-01-17 | 2020-07-24 | 珠海金山办公软件有限公司 | 一种pdf文档识别方法、装置及电子设备 |
US20210256253A1 (en) * | 2019-03-22 | 2021-08-19 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
US20210012102A1 (en) * | 2019-07-08 | 2021-01-14 | UiPath SRL | Systems and Methods For Automatic Data Extraction From Document Images |
CN111046784A (zh) * | 2019-12-09 | 2020-04-21 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
KR102144464B1 (ko) * | 2020-03-04 | 2020-08-14 | 주식회사 로민 | 문서분류장치 및 문서분류방법 |
CN111507214A (zh) * | 2020-04-07 | 2020-08-07 | 中国人民财产保险股份有限公司 | 文档识别方法、装置及设备 |
CN111832403A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 文档结构识别方法、文档结构识别的模型训练方法和装置 |
CN112101367A (zh) * | 2020-09-15 | 2020-12-18 | 杭州睿琪软件有限公司 | 文本识别方法、图像识别分类方法、文档识别处理方法 |
CN112464907A (zh) * | 2020-12-17 | 2021-03-09 | 广东电网有限责任公司 | 一种文档处理系统及方法 |
CN112733523A (zh) * | 2020-12-30 | 2021-04-30 | 深信服科技股份有限公司 | 文档发送方法、装置、设备及存储介质 |
CN113076814A (zh) * | 2021-03-15 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 文本区域的确定方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
李翌昕;邹亚君;马尽文;: "基于特征提取和机器学习的文档区块图像分类算法", 信号处理, vol. 35, no. 05, pages 747 - 757 * |
黎斯达;高良才;汤帜;俞银燕;: "PDF文档中的脚注识别研究", 北京大学学报(自然科学版), vol. 51, no. 06, pages 1017 - 1021 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661904A (zh) * | 2022-03-10 | 2022-06-24 | 北京百度网讯科技有限公司 | 文档处理模型的训练方法、装置、设备、存储介质及程序 |
CN114661904B (zh) * | 2022-03-10 | 2023-04-07 | 北京百度网讯科技有限公司 | 文档处理模型的训练方法、装置、设备、存储介质及程序 |
CN114822532A (zh) * | 2022-04-12 | 2022-07-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113792659B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322416B (zh) | 图像数据处理方法、装置以及计算机可读存储介质 | |
De Fauw et al. | Hierarchical autoregressive image models with auxiliary decoders | |
CN113792659B (zh) | 文档识别方法、装置及电子设备 | |
CN110598019B (zh) | 重复图像识别方法及装置 | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
CN108734159B (zh) | 一种图像中敏感信息的检测方法及系统 | |
CN112883980B (zh) | 一种数据处理方法及系统 | |
CN114998602A (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
CN114329034A (zh) | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 | |
CN109697442B (zh) | 一种字符识别模型的训练方法和装置 | |
CN116797868A (zh) | 文本图像生成方法以及扩散生成模型训练方法 | |
CN112966685A (zh) | 用于场景文本识别的攻击网络训练方法、装置及相关设备 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN116665228B (zh) | 图像处理方法及装置 | |
CN113971644A (zh) | 基于数据增强策略选择的图像识别方法及装置 | |
CN116758379A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN111126273A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
Henry et al. | Near set index in an objective image segmentation evaluation framework | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
CN112884046A (zh) | 基于不完全监督学习的图像分类方法、装置及相关设备 | |
CN113158745A (zh) | 一种基于多特征算子的乱码文档图片识别方法及系统 | |
Yang et al. | Fine-Grained Image Quality Caption With Hierarchical Semantics Degradation | |
Li et al. | Unsupervised steganalysis over social networks based on multi-reference sub-image sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: Zhong Guo Address after: No. 210, Liangjing Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 200120 Applicant after: Shanghai Jinshida Software Technology Co.,Ltd. Address before: 201203 No. 210, Liangjing Road, Pudong New Area, Shanghai Applicant before: Shanghai Kingstar Software Technology Co.,Ltd. Country or region before: Zhong Guo |
|
GR01 | Patent grant | ||
GR01 | Patent grant |