CN109710907A - 一种电子文档的生成方法及设备 - Google Patents
一种电子文档的生成方法及设备 Download PDFInfo
- Publication number
- CN109710907A CN109710907A CN201811561250.7A CN201811561250A CN109710907A CN 109710907 A CN109710907 A CN 109710907A CN 201811561250 A CN201811561250 A CN 201811561250A CN 109710907 A CN109710907 A CN 109710907A
- Authority
- CN
- China
- Prior art keywords
- character
- document
- font
- matrix
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000007787 solid Substances 0.000 claims abstract description 79
- 239000000284 extract Substances 0.000 claims abstract description 16
- 230000008676 import Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明适用于图像处理技术领域,提供了一种电子文档的生成方法及设备,包括:获取目标实体的实体图像,并从实体图像中提取字符区域图像;将字符区域图像导入预设的字符识别模型,生成关于实体图像的字符信息;获取字符信息中包含的文档关键词,并根据文档关键词从文档模板库选取目标实体关联的文档模板;根据字符坐标与各个文档项目对应的基准坐标之间的距离值,确定各个已识别字符关联的文档项目;将已识别字符导入至文档模板内关联的文档项目,生成关于目标实体的电子文档。本发明无需用户手动选取,并且根据字符所在的位置,确定所需导入的项目,减少了导入异常的情况,也无需进行语义分析,提高了生成的效率。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种电子文档的生成方法及设备。
背景技术
随着电子化进程的不断推进,由于电子文档具有存储方便以及发送及时等优点,被广泛应用于各种应用中,如何能够有效地将实体文件转换为电子文档,则直接影响文档管理的效率。现有的电子文档的生成技术,一般是通过管理员人为识别该实体文件所对应的电子模板,并将实体文件中包含的内容手动填写到电子模板的各个项目内,当实体文件数量较多且文字量较大时,则需要较多时间来进行电子文档的转换,从而降低了电子文档生成的效率。
发明内容
有鉴于此,本发明实施例提供了一种电子文档的生成方法及设备,以解决现有的电子文档的生成技术,需要通过管理员人为识别该实体文件所对应的电子模板,并将实体文件中包含的内容手动填写到电子模板的各个项目内,文档生成效率较低的问题。
本发明实施例的第一方面提供了一种电子文档的生成方法,包括:
获取目标实体的实体图像,并从所述实体图像中提取字符区域图像;
将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息;所述字符信息包含各个已识别字符在所述实体图像内对应的字符坐标;
获取所述字符信息中包含的文档关键词,并根据所述文档关键词从文档模板库选取所述目标实体关联的文档模板;所述文档模板包含多个文档项目;
根据字符坐标与各个所述文档项目对应的基准坐标之间的距离值,确定各个所述已识别字符关联的所述文档项目;
将所述已识别字符导入至所述文档模板内关联的所述文档项目,生成关于所述目标实体的电子文档。
本发明实施例的第二方面提供了一种电子文档的生成设备,包括:
实体图像获取单元,用于获取目标实体的实体图像,并从所述实体图像中提取字符区域图像;
字符信息提取单元,用于将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息;所述字符信息包含各个已识别字符在所述实体图像内对应的字符坐标;
文档关键词提取单元,用于获取所述字符信息中包含的文档关键词,并根据所述文档关键词从文档模板库选取所述目标实体关联的文档模板;所述文档模板包含多个文档项目;
关联项目识别单元,用于根据字符坐标与各个所述文档项目对应的基准坐标之间的距离值,确定各个所述已识别字符关联的所述文档项目;
电子文档生成单元,用于将所述已识别字符导入至所述文档模板内关联的所述文档项目,生成关于所述目标实体的电子文档。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。
实施本发明实施例提供的一种电子文档的生成方法及设备具有以下有益效果:
本发明实施例通过获取待转换的目标实体的实体图像,并从实体图像中分离出包含字符信息的字符区域图像,通过字符识别模型确定字符区域图像对应的字符信息,并获取关于该实体图像的文档模板,根据字符信息中各个已识别字符的字符坐标导入文档模板对应的文档项目内,生成关于目标实体的电子文档,实现电子文档的自动生成的目的。与现有的电子文档的生成技术相比,本发明实施例可以从文字信息中提取文档关键词,并通过文档关键词自动提取与之对应的文档模板,无需用户手动选取,并且根据字符所在的位置,确定所需导入的项目,减少了导入异常的情况,也无需进行语义分析,提高了生成的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种电子文档的生成方法的实现流程图;
图2是本发明第二实施例提供的一种电子文档的生成方法具体实现流程图;
图3是本发明第三实施例提供的一种电子文档的生成方法S203具体实现流程图;
图4是本发明第四实施例提供的一种电子文档的生成方法S101具体实现流程图;
图5是本发明第五实施例提供的一种电子文档的生成方法具体实现流程图;
图6是本发明一实施例提供的一种电子文档的生成设备的结构框图;
图7是本发明另一实施例提供的一种终端设备的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过获取待转换的目标实体的实体图像,并从实体图像中分离出包含字符信息的字符区域图像,通过字符识别模型确定字符区域图像对应的字符信息,并获取关于该实体图像的文档模板,根据字符信息中各个已识别字符的字符坐标导入文档模板对应的文档项目内,生成关于目标实体的电子文档,实现电子文档的自动生成的目的,解决了现有的电子文档的生成技术,需要通过管理员人为识别该实体文件所对应的电子模板,并将实体文件中包含的内容手动填写到电子模板的各个项目内,文档生成效率较低的问题。
在本发明实施例中,流程的执行主体为终端设备。该终端设备包括但不限于:服务器、计算机、智能手机以及平板电脑等能够执行电子文档的生成操作的设备。图1示出了本发明第一实施例提供的电子文档的生成方法的实现流程图,详述如下:
在S101中,获取目标实体的实体图像,并从所述实体图像中提取字符区域图像。
在本实施例中,终端设备可以接收用户终端发送的关于目标实体的实体图,在该情况下,用户可以通过自身用户终端内置的拍摄单元,采集关于目标实体的实体图像,并通过用户终端安装有的客户端,将拍摄得到的实体图像上传给终端设备,终端设备在接收到客户端的图像上传指令后,则执行S101的相关操作。可选地,终端设备为了保障上传图像的合法性,终端设备会获取客户端的程序编号,通过程序编号判断该客户端是否为通过合法发布渠道下载的程序文件,若该客户端编号识别为非法参数,则拒绝接收该实体图像,返回图像异常信息,从而保证了认证操作的合法性,避免未授权的用户进行图像识别,从而导致负载过大而降低识别效率以及准确率;反之,若程序编号识别为合法的编号,则执行S101的操作。除了通过接收其他设备发送的实体图像外,还可以通过终端设备内置的拍摄模块或扫描模块等图像采集单元获取关于目标实体的实体图像,在该情况下,终端设备可以接受用户发起的图像采集指令或检测到图像采集区域放置了待识别的目标实体时,则启动图像采集模块,获取采集区域当前时刻的图像信息,并执行S101的相关操作。
在本实施例中,终端设备可以对接收到的实体图像进行预处理,从而可以提高字符区域图像提取的准确度。具体执行预处理的方式可以为:终端设备获取采集图像时的环境光强,基于当前的环境光强确定高光调整系数以及阴影调整系数,通过上述两个调整系数对实体图像的高光区域以及阴影区域进行调整;识别实体图像中关于目标实体的边界轮廓,基于该边界轮廓对实体图像进行裁剪,从而滤去无效的背景区域;对裁剪以及调整后的实体图像进行灰度化处理,从而可以提高识别的准确率。
在本实施例中,终端设备通过字符识别技术从实体图像中提取包含字符信息的字符区域图像。由于实体图像中包含有背景区域,而背景区域是无需进行处理的,因此为了提高字符识别过程的处理效率,减少对无效区域的字符识别过程。具体地,提取字符区域的方式可以为:终端设备识别实体图像中各个像素点的像素值,将像素值为0的像素点识别为字符像素点,并将字符像素点覆盖的区域识别为字符区域。由于实体文件中,一般包含字符的区域均通过黑色像素来填充,即便是手写内容也是通过蓝色或黑色的笔进行书写,基于此,通过对目标实体的实体图像进行二值化处理后,蓝色或黑色的区域也会调整为黑色像素点,因此通过选取像素值为0的像素点作为字符像素点,能够简单过滤无效的背景像素点,快速获取字符区域图像。
在S102中,将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息;所述字符信息包含各个已识别字符在所述实体图像内对应的字符坐标。
在本实施例中,终端设备在获取得到字符区域图像后,需要将字符区域图像中的字符内容提取出来,并生成对应的字符信息,即通过电子文档的形式将目标实体的字符内容进行管理以及保存。基于此,终端设备可以通过文字识别模型,提取该收款凭证图像中包含的字符信息,将所有已识别字符以及各个已识别字符在实体图像中所对应的坐标信息建立关联关系,生成字符信息。
可选地,在本实施例中,该字符识别模型可以为基于Tessract技术的OCR算法,通过建立不同字体的样本库,从而能够快速对字符区域内的各个候选字符进行匹配识别,判断该候选字符与样本库中的哪一个字符模板相匹配的,从而确定该候选字符所对应的字符标识,从而完成字符识别的过程。与基于神经网络的字符识别方式相比,通过OCR识别的流程效率较高,以及对于终端设备的硬件要求较低,另一方面,通过Tessract构建字符样本库,也能够识别不同字体类型的字符,进一步提高了识别的效率。
在本实施例中,终端设备在识别到一个字符后,会定位该字符所在的字符区域,并获取该字符区域的中心点所在的坐标作为该已识别字符的字符坐标,继而简历字符坐标与已识别字符之间的对应关系。
在S103中,获取所述字符信息中包含的文档关键词,并根据所述文档关键词从文档模板库选取所述目标实体关联的文档模板;所述文档模板包含多个文档项目。
在本实施例中,终端设备在确定了实体图像所对应的字符信息后,可以根据各个已识别字符的坐标位置,将相邻的已识别字符所构成的字符串识别为一个词组,从而对各个词组进行语义分析,判断词组中是否包含文档关键词,若存在则进行提取,从而根据所有提取得到的文档关键词确定该目标实体的文档类型。例如,某一目标实体中包含有“收款”、“金额”、“开票人”、“日期”等文档关键词,则可以确定该目标实体为关于收款凭证的收款单,因此可以提取该收款单对应的文档模板即可。
在本实施例中,终端设备可以为不同的文档模板建立对应的文档关键词库,该文档关键词库包含有该文档模板所对应的的关键词。继而在执行S103的过程中,终端设备则统计该字符信息对应各个文档类型所包含的文档关键词的个数,所包含文档关键词最多的一个文档模板作为该目标实体所对应的文档模板。
在本实施例中,文档模板内包含多个文档项目,不同的文档项目对应一个类型的信息,以便将字符信息中包含的字符导入到对应的文档项目中,无需人工手动选择,提高了电子文档的生成效率。例如,可以为“姓名”、“年龄”以及“地址”这三项不同的用户信息建立不同的文档项目。
在S104中,根据字符坐标与各个所述文档项目对应的基准坐标之间的距离值,确定各个所述已识别字符关联的所述文档项目。
在本实施例中,由于实体文档是基于文档模板打印出来后,通过业务员或客户手写填入对应信息后生成的文档,因此实体文档均有一个对应的文档模板,而该文档模板中各个文档项目与其关联信息之间的距离是较小的,因此可以通过计算各个文档项目与已识别字符之间的距离值,可以识别得到各个已识别字符所对应的文档项目,从而将实现将各个已识别字符自动导入文档模板的目的。
在本实施例中,终端设备可以通过将字符坐标以及基准坐标导入到预设的欧氏距离计算模型,确定两个坐标点之间的欧氏距离,优选地,终端设备可以对欧氏距离计算模型进行变式,提高纵向坐标的权重,而降低横向坐标的权重,具体的欧氏距离变式公式如下:
其中,α以及β为预设系数。由于属于相同的文档项目,应该处于同一水平区域,因此纵坐标对距离值的权重应较大,反之,若某一文档项目的信息内容较多,则首字符以及尾字符与文档项目的基准坐标之间的横向偏移较大,但仍属于同一个文档项目,基于此,对应的横坐标的权重应较小,从而可以提高识别的准确率。
在S105中,将所述已识别字符导入至所述文档模板内关联的所述文档项目,生成关于所述目标实体的电子文档。
在本实施例中,终端设备在确定了各个已识别字符对应的文档项目后,可以将各个已识别字符导入到对应的文档项目内,从而生成关于目标实体的电子文档,实现自动生成电子文档的目的。
以上可以看出,本发明实施例提供的一种电子文档的生成方法通过获取待转换的目标实体的实体图像,并从实体图像中分离出包含字符信息的字符区域图像,通过字符识别模型确定字符区域图像对应的字符信息,并获取关于该实体图像的文档模板,根据字符信息中各个已识别字符的字符坐标导入文档模板对应的文档项目内,生成关于目标实体的电子文档,实现电子文档的自动生成的目的。与现有的电子文档的生成技术相比,本发明实施例可以从文字信息中提取文档关键词,并通过文档关键词自动提取与之对应的文档模板,无需用户手动选取,并且根据字符所在的位置,确定所需导入的项目,减少了导入异常的情况,也无需进行语义分析,提高了生成的效率。
图2示出了本发明第二实施例提供的一种电子文档的生成方法的具体实现流程图。参见图2,相对于图1所述实施例,本实施例提供的一种电子文档的生成方法还包括:S201~S204,具体详述如下:
进一步地,在所述将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息之前,还包括:
在S201中,获取多个训练字体文件;所述训练字体文件内所有候选字符的字体模板属于同一字体类型。
在本实施例中,终端设备可以预先通过训练字体文件来创建字符识别模型,从而能够提高识别的效率。基于此,终端设备可以获取多个属于不同字体类型的字体文件。终端设备可以接收用户输入的训练字体类型,并基于该字体类型对应的类型标识,自动从互联网上下载对应的训练字体文件。当然,终端设备还可以接收用户发送的训练字体文件,该训练字体文件可以为对应某一客户手写字体所生成的字体文件,从而便于针对性对各个客户的实体文档进行识别,提高识别的效率。
在本实施例中,训练字体文件包含有多个候选字符,不同候选字符具有对应的字体模板。例如,若某一训练字体文件为英文字体文件,则该训练字体文件将包含26个英文字母以及10个数字对应的字体模板;而对应汉字字体文件,则包含n个汉字、26个英文字母以及10个数字对应的字体模板。不同字体类型对应相同候选字符的字体模板将存在差异。
在S202中,根据所有所述训练字体文件,分别为每个所述候选字符建立字符样本库;所述字符样本库包含关于所述候选字符对应不同字体类型的所述字体模板。
在本实施例中,终端设备在获取了多个训练字体文件后,会基于候选字符将各个训练字体文件的字体模板进行分类,将属于同一候选字符的字体模板添加到同一个字符样本库内,从而该字符样本库内则会包含了不同字体类型关于该候选字符的字体模板。虽然不同字体类型关于同一候选字符的字体模板会存在差异,但对应的候选字符是相同的,即是基于候选字符的基准形状的变形,通过为所有候选字符建立字符样本库,可以确定各个候选字符的基准特征,从而提高了字符识别模型的可识别范围以及识别的准确率。
举例性地,终端设备获取了“宋体”、“微软雅黑”、“仿宋”、“楷体”等多个字体文件,则终端设备可以为候选字符“我”建立一个字符样本库,将关于“我”这一候选字符在“宋体”、“微软雅黑”、“仿宋”、“楷体”等的字符模板添加到该字符样本库内。
在S203中,将所述字符样本库内的各个所述字体模板导入五层循环神经网络内,输出关于所述候选字符的字符特征矩阵。
在本实施例中,终端设备在确定了各个字符样本库后,为了提取该候选字符的形状特征,终端设备会将该字符样本内的各个字符模板导入预设的五层循环神经网络内,通过神经网络来对多个字体样本进行循环特征提取,从而建立关于该候选字符的字体特征矩阵。通过字体特征矩阵与识别得到的已识别字符的字符子区域图像进行卷积,根据卷积结果判断两者是否匹配,若两者之间的卷积值较大,则表示两者之间具有较多相同的特征,从而两者的相似度较大;反之,若进行卷积后的卷积值较小,则表示两者之间的相似度较低。因此该字体特征矩阵的准确性越高,则进行字符识别的准确率较高。
在S204中,通过各个所述候选字体的字符特征矩阵,生成所述字符识别模型。
在本实施例中,终端设备在计算得到所有候选字体的字符特征矩阵后,可以将所有字符特征矩阵进行封装,生成字符识别模型。若新增了训练字体模板,可以重新调整各个字符特征矩阵,并根据调整后的字符特征矩阵更新该字符识别模板,实现动态更新模型的目的。
在本发明实施例中,通过采集训练字体文件,从而建立包含不同字体类型特征的字符特征矩阵,生成对应的字符识别模型,从而提高了识别的准确率以及可识别范围。
图3示出了本发明第三实施例提供的一种电子文档的生成方法S203的具体实现流程图。参见图3,相对于图2所述的实施例,本实施例提供的一种电子文档的生成方法S203包括:S2031~S2034,具体详述如下:
进一步地,所述将所述字符样本库内的各个所述字体模板导入五层循环神经网络内,输出关于所述候选字符的字符特征矩阵,包括:
在S2031中,调整所述字符样本库内的各个所述字体模板的分辨率以及模板尺寸,生成标准字体图像。
在本实施例中,终端设备在将字体模板导入到神经网络之前,需要对各个字体模板进行预处理,将所有字体模板的格式进行统一,从而可以提高字体特征矩阵的准确性。终端设备设置有标准的分辨率以及标准的模板尺寸大小,终端设备在获取到一个字体类型的字体模板后,会首先调整该字体模板的分辨率值,以使该字体模板与标准分辨率一致,继而通过缩放、添加空白区域、裁剪和/或拉伸操作,调整字体模板的模板尺寸,以使调整后的字体模板与标准模板尺寸一致。通过上述操作后,则生成标准字体模板。
在S2032中,对所述标准字体图像进行二值化处理,生成二值化后的标准字体图像,并根据所述标准字体图像中各个像素点的像素值以及像素坐标,生成关于所述标准字体图像的标准字体矩阵。
在本实施例中,终端调整了字体模板的尺寸以及分辨率后,会对标准字体图像进行二值化处理,将笔画覆盖区域的像素点的像素值调整为1,而背景区域的像素点的像素值调整为0,建立关于标准字体图像的二值化图像。
在本实施例中,终端设备需要将二值化后的标准字体图像转换为数学表达式,因此可以根据各个像素点所处的坐标以及该像素点的像素值,构建对应的矩阵,该矩阵的各行对应二值化后的标准字体图像的各行,该矩阵的各列对应二值化后的标准字体图像的各列,而矩阵中各个元素的值与标准字体图像中的像素点的像素值相同,从而构成了一个由0和1排列组合得到的矩阵。
在S2033中,分别将各个所述标准字体矩阵导入到五层循环神经网络的五层池化层进行降维操作,输出各个所述字体模板的池化矩阵。
在本实施例中,终端设备将关于候选字体的各个标准字体矩阵导入到武城循环神经网络的池化层,进行五次池化降维操作。其中,由于所有标准字体图像均进行标准化变化,即所包含的行数以及列数是相同的,从而生成的标准字体矩阵的大小也相同,因此终端设备将各个标准字体矩阵导入各层池化层时,可以采用相同的卷积核对标准字体矩阵进行降维操作。通过五次降维后则输出关于该字体模板的池化矩阵。通过池化操作后,可以提取该字体模板的字体特征,提高识别的准确率。
在S2034中,将多个不同字体类型的池化矩阵输入至所述五层循环神经网络的全连接层,生成关于所述候选字体的字符特征矩阵。
在本实施例中,终端设备将所有字体类型的池化矩阵统一导入到五层循环神经网络的全连接层,从而可以确定不同字体类型的共性特征,输出包含所有字体类型的共性特征的字符特征矩阵。
在本发明实施例中,通过对字体模板进行标准化处理后,进行降维操作以及特征提取,从而可以提高了字符特征矩阵的准确率。
图4示出了本发明第四实施例提供的一种电子文档的生成方法S101的具体实现流程图。参见图4,相对于图1至图3所述实施例,本实施例提供的一种电子文档的生成方法中S101包括:S1011~S1013,具体详述如下:
在S1011中,根据所述实体图像中各个像素点的像素值,计算所述实体图像的平均像素值。
在本实施例中,终端设备为了提取字符区域图像,会统计该实体图像中各个像素点的像素值,确定该实体图像的基准色。由于与字符区域图像相比,背景区域图像所占据的面积较多,因此该实体图像对应的基准色应与背景区域图像的颜色相近。基于此,终端设备会计算该实体图像的平均像素值,从而可以便于识别出背景像素点。
在S1012中,若所述实体图像内任一所述像素点与所述平均像素值的差值小于预设的背景阈值,则识别所述像素点为背景像素点。
在本实施例中,终端设备会计算各个像素点的像素值与该平均像素值之间的差值,从而可以确定该像素点与实体图像的基准色是否相近,若相近,则可以确定该像素点为背景像素点,因此可以将所有像素点分类,将差值小于预设的背景阈值的像素点识别为背景像素点;而该差值大于或等于背景阈值的像素点识别为字符像素点。
在S1013中,将所述背景像素点覆盖的区域识别为背景区域图像,并将所述背景区域图像从所述实体图像中移除,得到所述字符区域图像。
在本实施例中,终端设备将背景像素点构成的连续的区域识别为一个背景区域图像,终端设别将所有背景区域图像中实体图像中删除,则可以得到只包含字符像素点的字符区域图像。
在本发明实施例中,确定实体图像的平均像素值,从而根据平均像素值识别得到字符区域图像,从而提高了字符区域的识别效率以及准确性。
图5示出了本发明第五实施例提供的一种电子文档的生成方法的具体实现流程图。参见图5,相对于图1-图3所述实施例,本实施例提供的一种电子文档的生成方法在所述将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息之后,还包括:S501~S502,具体详述如下:
在S501中,根据所述字符信息中各个所述已识别字符对应的字符子图像,生成关于所述已识别字符的字符训练矩阵。
在本实施例中,终端设别在每次识别操作完成后,均会对字符识别算法进行学习调整。基于此,终端设备会根据已识别字符的字符子图像,生成对应的字符训练矩阵,生成字符训练矩阵的方式可以参照S2031以及S2032的方式;也可以根据该字符子图像中各个像素点的像素值,直接构建对应的字符训练矩阵。
在S502中,通过各个所述字符训练矩阵作为训练样本,调整所述字符识别模型。
在本实施例中,终端设备将各个已识别字符的字符训练矩阵作为训练样本对字符识别模型进行学习训练,调整该字符识别模型内的参数,在下次识别操作时,则通过调整后的字符识别模型对实体图像进行字符识别。
在本发明实施例中,通过识别得到字符信息对字符训练模型再次进行训练,从而能够实现训练学习的目的,提高字符识别模型的识别准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图6示出了本发明一实施例提供的一种电子文档的生成设备的结构框图,该电子文档的生成设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图6,所述电子文档的生成设备包括:
实体图像获取单元61,用于获取目标实体的实体图像,并从所述实体图像中提取字符区域图像;
字符信息提取单元62,用于将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息;所述字符信息包含各个已识别字符在所述实体图像内对应的字符坐标;
文档关键词提取单元63,用于获取所述字符信息中包含的文档关键词,并根据所述文档关键词从文档模板库选取所述目标实体关联的文档模板;所述文档模板包含多个文档项目;
关联项目识别单元64,用于根据字符坐标与各个所述文档项目对应的基准坐标之间的距离值,确定各个所述已识别字符关联的所述文档项目;
电子文档生成单元65,用于将所述已识别字符导入至所述文档模板内关联的所述文档项目,生成关于所述目标实体的电子文档。
可选地,所述电子文档的生成设备还包括:
训练字体文件获取单元,用于获取多个训练字体文件;所述训练字体文件内所有候选字符的字体模板属于同一字体类型;
字库样本库建立单元,用于根据所有所述训练字体文件,分别为每个所述候选字符建立字符样本库;所述字符样本库包含关于所述候选字符对应不同字体类型的所述字体模板;
字符特征矩阵生成单元,用于将所述字符样本库内的各个所述字体模板导入五层循环神经网络内,输出关于所述候选字符的字符特征矩阵;
字符识别模型生成单元,用于通过各个所述候选字体的字符特征矩阵,生成所述字符识别模型。
可选地,所述字符特征矩阵生成单元包括:
标准字体图像生成单元,用于调整所述字符样本库内的各个所述字体模板的分辨率以及模板尺寸,生成标准字体图像;
标准字体矩阵生成单元,用于对所述标准字体图像进行二值化处理,生成二值化后的标准字体图像,并根据所述标准字体图像中各个像素点的像素值以及像素坐标,生成关于所述标准字体图像的标准字体矩阵;
池化矩阵输出单元,用于分别将各个所述标准字体矩阵导入到五层循环神经网络的五层池化层进行降维操作,输出各个所述字体模板的池化矩阵;
字符特征矩阵输出单元,用于将多个不同字体类型的池化矩阵输入至所述五层循环神经网络的全连接层,生成关于所述候选字体的字符特征矩阵。
可选地,所述实体图像获取单元61包括:
平均像素值计算单元,用于根据所述实体图像中各个像素点的像素值,计算所述实体图像的平均像素值;
背景像素点识别单元,用于若所述实体图像内任一所述像素点与所述平均像素值的差值小于预设的背景阈值,则识别所述像素点为背景像素点;
字符区域图像提取单元,用于将所述背景像素点覆盖的区域识别为背景区域图像,并将所述背景区域图像从所述实体图像中移除,得到所述字符区域图像。
可选地,所述电子文档的生成设备还包括:
字符训练矩阵生成单元,用于根据所述字符信息中各个所述已识别字符对应的字符子图像,生成关于所述已识别字符的字符训练矩阵;
字符识别模型调整单元,用于通过各个所述字符训练矩阵作为训练样本,调整所述字符识别模型。
因此,本发明实施例提供的电子文档的生成设备同样可以从文字信息中提取文档关键词,并通过文档关键词自动提取与之对应的文档模板,无需用户手动选取,并且根据字符所在的位置,确定所需导入的项目,减少了导入异常的情况,也无需进行语义分析,提高了生成的效率。
图7是本发明另一实施例提供的一种终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如电子文档的生成程序。所述处理器70执行所述计算机程序72时实现上述各个电子文档的生成方法实施例中的步骤,例如图1所示的S101至S105。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各单元的功能,例如图6所示模块61至65功能。
示例性的,所述计算机程序72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割实体图像获取单元、字符信息提取单元、文档关键词提取单元、关联项目识别单元以及电子文档生成单元,各单元具体功能如上所述。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电子文档的生成方法,其特征在于,包括:
获取目标实体的实体图像,并从所述实体图像中提取字符区域图像;
将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息;所述字符信息包含各个已识别字符在所述实体图像内对应的字符坐标;
获取所述字符信息中包含的文档关键词,并根据所述文档关键词从文档模板库选取所述目标实体关联的文档模板;所述文档模板包含多个文档项目;
根据字符坐标与各个所述文档项目对应的基准坐标之间的距离值,确定各个所述已识别字符关联的所述文档项目;
将所述已识别字符导入至所述文档模板内关联的所述文档项目,生成关于所述目标实体的电子文档。
2.根据权利要求1所述的生成方法,其特征在于,还包括:
获取多个训练字体文件;所述训练字体文件内所有候选字符的字体模板属于同一字体类型;
根据所有所述训练字体文件,分别为每个所述候选字符建立字符样本库;所述字符样本库包含关于所述候选字符对应不同字体类型的所述字体模板;
将所述字符样本库内的各个所述字体模板导入五层循环神经网络内,输出关于所述候选字符的字符特征矩阵;
通过各个所述候选字体的字符特征矩阵,生成所述字符识别模型。
3.根据权利要求2所述的生成方法,其特征在于,所述将所述字符样本库内的各个所述字体模板导入五层循环神经网络内,输出关于所述候选字符的字符特征矩阵,包括:
调整所述字符样本库内的各个所述字体模板的分辨率以及模板尺寸,生成标准字体图像;
对所述标准字体图像进行二值化处理,生成二值化后的标准字体图像,并根据所述标准字体图像中各个像素点的像素值以及像素坐标,生成关于所述标准字体图像的标准字体矩阵;
分别将各个所述标准字体矩阵导入到五层循环神经网络的五层池化层进行降维操作,输出各个所述字体模板的池化矩阵;
将多个不同字体类型的池化矩阵输入至所述五层循环神经网络的全连接层,生成关于所述候选字体的字符特征矩阵。
4.根据权利要求1-3任一项所述的生成方法,其特征在于,所述获取目标实体的实体图像,并从所述实体图像中提取字符区域图像,包括:
根据所述实体图像中各个像素点的像素值,计算所述实体图像的平均像素值;
若所述实体图像内任一所述像素点与所述平均像素值的差值小于预设的背景阈值,则识别所述像素点为背景像素点;
将所述背景像素点覆盖的区域识别为背景区域图像,并将所述背景区域图像从所述实体图像中移除,得到所述字符区域图像。
5.根据权利要求1-3任一项所述的生成方法,其特征在于,在所述将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息之后,还包括:
根据所述字符信息中各个所述已识别字符对应的字符子图像,生成关于所述已识别字符的字符训练矩阵;
通过各个所述字符训练矩阵作为训练样本,调整所述字符识别模型。
6.一种电子文档的生成设备,其特征在于,包括:
实体图像获取单元,用于获取目标实体的实体图像,并从所述实体图像中提取字符区域图像;
字符信息提取单元,用于将所述字符区域图像导入预设的字符识别模型,生成关于所述实体图像的字符信息;所述字符信息包含各个已识别字符在所述实体图像内对应的字符坐标;
文档关键词提取单元,用于获取所述字符信息中包含的文档关键词,并根据所述文档关键词从文档模板库选取所述目标实体关联的文档模板;所述文档模板包含多个文档项目;
关联项目识别单元,用于根据字符坐标与各个所述文档项目对应的基准坐标之间的距离值,确定各个所述已识别字符关联的所述文档项目;
电子文档生成单元,用于将所述已识别字符导入至所述文档模板内关联的所述文档项目,生成关于所述目标实体的电子文档。
7.根据权利要求6所述的生成设备,其特征在于,所述电子文档的生成设备还包括:
训练字体文件获取单元,用于获取多个训练字体文件;所述训练字体文件内所有候选字符的字体模板属于同一字体类型;
字库样本库建立单元,用于根据所有所述训练字体文件,分别为每个所述候选字符建立字符样本库;所述字符样本库包含关于所述候选字符对应不同字体类型的所述字体模板;
字符特征矩阵生成单元,用于将所述字符样本库内的各个所述字体模板导入五层循环神经网络内,输出关于所述候选字符的字符特征矩阵;
字符识别模型生成单元,用于通过各个所述候选字体的字符特征矩阵,生成所述字符识别模型。
8.根据权利要求7所述的生成设备,其特征在于,所述字符特征矩阵生成单元包括:
标准字体图像生成单元,用于调整所述字符样本库内的各个所述字体模板的分辨率以及模板尺寸,生成标准字体图像;
标准字体矩阵生成单元,用于对所述标准字体图像进行二值化处理,生成二值化后的标准字体图像,并根据所述标准字体图像中各个像素点的像素值以及像素坐标,生成关于所述标准字体图像的标准字体矩阵;
池化矩阵输出单元,用于分别将各个所述标准字体矩阵导入到五层循环神经网络的五层池化层进行降维操作,输出各个所述字体模板的池化矩阵;
字符特征矩阵输出单元,用于将多个不同字体类型的池化矩阵输入至所述五层循环神经网络的全连接层,生成关于所述候选字体的字符特征矩阵。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811561250.7A CN109710907A (zh) | 2018-12-20 | 2018-12-20 | 一种电子文档的生成方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811561250.7A CN109710907A (zh) | 2018-12-20 | 2018-12-20 | 一种电子文档的生成方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710907A true CN109710907A (zh) | 2019-05-03 |
Family
ID=66256042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811561250.7A Pending CN109710907A (zh) | 2018-12-20 | 2018-12-20 | 一种电子文档的生成方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710907A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263311A (zh) * | 2019-05-22 | 2019-09-20 | 中国平安财产保险股份有限公司 | 一种网络页面的生成方法及设备 |
WO2020143325A1 (zh) * | 2019-01-08 | 2020-07-16 | 平安科技(深圳)有限公司 | 一种电子文档的生成方法及设备 |
CN111695566A (zh) * | 2020-06-18 | 2020-09-22 | 郑州大学 | 一种对固定格式文档的识别处理方法及处理系统 |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN111967367A (zh) * | 2020-08-12 | 2020-11-20 | 维沃移动通信有限公司 | 图像内容提取方法、装置及电子设备 |
CN112287934A (zh) * | 2020-08-12 | 2021-01-29 | 北京京东尚科信息技术有限公司 | 识别字符和获取字符图像特征提取模型的方法和装置 |
CN112397163A (zh) * | 2019-08-16 | 2021-02-23 | 北京大数医达科技有限公司 | 用于生成病例输入模型的方法、装置、电子设备和介质 |
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 |
CN113673544A (zh) * | 2020-05-13 | 2021-11-19 | 珠海金山办公软件有限公司 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
CN114661904A (zh) * | 2022-03-10 | 2022-06-24 | 北京百度网讯科技有限公司 | 文档处理模型的训练方法、装置、设备、存储介质及程序 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101523413A (zh) * | 2006-11-16 | 2009-09-02 | 国际商业机器公司 | 根据硬拷贝表单自动生成表单定义 |
CN102968627A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于区域关键字位置识别的精确图像切分方法 |
CN108765118A (zh) * | 2018-05-18 | 2018-11-06 | 北京大账房网络科技股份有限公司 | 票据混扫生成凭证的方法及系统 |
-
2018
- 2018-12-20 CN CN201811561250.7A patent/CN109710907A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101523413A (zh) * | 2006-11-16 | 2009-09-02 | 国际商业机器公司 | 根据硬拷贝表单自动生成表单定义 |
CN102968627A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于区域关键字位置识别的精确图像切分方法 |
CN108765118A (zh) * | 2018-05-18 | 2018-11-06 | 北京大账房网络科技股份有限公司 | 票据混扫生成凭证的方法及系统 |
Non-Patent Citations (1)
Title |
---|
吴明华 等: "茶叶质量与安全检测技术及分析方法", 31 January 2017, 哈尔滨工业大学出版社, pages: 224 - 227 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143325A1 (zh) * | 2019-01-08 | 2020-07-16 | 平安科技(深圳)有限公司 | 一种电子文档的生成方法及设备 |
CN111914597B (zh) * | 2019-05-09 | 2024-03-15 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN110263311A (zh) * | 2019-05-22 | 2019-09-20 | 中国平安财产保险股份有限公司 | 一种网络页面的生成方法及设备 |
CN112397163A (zh) * | 2019-08-16 | 2021-02-23 | 北京大数医达科技有限公司 | 用于生成病例输入模型的方法、装置、电子设备和介质 |
CN112397163B (zh) * | 2019-08-16 | 2024-02-02 | 北京大数医达科技有限公司 | 用于生成病例输入模型的方法、装置、电子设备和介质 |
CN113673544A (zh) * | 2020-05-13 | 2021-11-19 | 珠海金山办公软件有限公司 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
CN111695566B (zh) * | 2020-06-18 | 2023-03-14 | 郑州大学 | 一种对固定格式文档的识别处理方法及处理系统 |
CN111695566A (zh) * | 2020-06-18 | 2020-09-22 | 郑州大学 | 一种对固定格式文档的识别处理方法及处理系统 |
CN112287934A (zh) * | 2020-08-12 | 2021-01-29 | 北京京东尚科信息技术有限公司 | 识别字符和获取字符图像特征提取模型的方法和装置 |
CN111967367A (zh) * | 2020-08-12 | 2020-11-20 | 维沃移动通信有限公司 | 图像内容提取方法、装置及电子设备 |
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 |
CN112541337B (zh) * | 2020-12-16 | 2022-05-24 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 |
CN114661904A (zh) * | 2022-03-10 | 2022-06-24 | 北京百度网讯科技有限公司 | 文档处理模型的训练方法、装置、设备、存储介质及程序 |
CN114661904B (zh) * | 2022-03-10 | 2023-04-07 | 北京百度网讯科技有限公司 | 文档处理模型的训练方法、装置、设备、存储介质及程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710907A (zh) | 一种电子文档的生成方法及设备 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
Sun et al. | A robust approach for text detection from natural scene images | |
Singh | Optical character recognition techniques: a survey | |
Coquenet et al. | DAN: a segmentation-free document attention network for handwritten document recognition | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
US10896357B1 (en) | Automatic key/value pair extraction from document images using deep learning | |
CN109829453A (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
Akusok et al. | Arbitrary category classification of websites based on image content | |
CN110210484A (zh) | 基于深度学习的视图像不良文本检测识别的系统与方法 | |
CN103632387A (zh) | 毛笔字帖的生成方法和系统 | |
Thomas et al. | Artistic object recognition by unsupervised style adaptation | |
Wang et al. | Text detection in natural scene image: a survey | |
Zharikov et al. | DDI-100: dataset for text detection and recognition | |
Chen et al. | FAWA: Fast adversarial watermark attack on optical character recognition (OCR) systems | |
CN109582946B (zh) | 文字区域排版方向的确定方法及装置 | |
Igorevna et al. | Document image analysis and recognition: a survey | |
Badry et al. | Quranic script optical text recognition using deep learning in IoT systems | |
Rigaud | Segmentation and indexation of complex objects in comic book images | |
Jobin et al. | Document image segmentation using deep features | |
CN111523541A (zh) | 一种基于ocr的数据生成方法、系统、设备及介质 | |
CN111881900A (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
Gao et al. | Segmentation-free vehicle license plate recognition using CNN | |
CN110070042A (zh) | 文字识别方法、装置和电子设备 | |
CN109670480A (zh) | 图像判别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |