CN104166849B - 一种电子文档识别方法及装置 - Google Patents

一种电子文档识别方法及装置 Download PDF

Info

Publication number
CN104166849B
CN104166849B CN201310183575.7A CN201310183575A CN104166849B CN 104166849 B CN104166849 B CN 104166849B CN 201310183575 A CN201310183575 A CN 201310183575A CN 104166849 B CN104166849 B CN 104166849B
Authority
CN
China
Prior art keywords
electronic document
document
area
page
setting value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310183575.7A
Other languages
English (en)
Other versions
CN104166849A (zh
Inventor
冯浩然
丁力
张磊
王晓磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310183575.7A priority Critical patent/CN104166849B/zh
Publication of CN104166849A publication Critical patent/CN104166849A/zh
Application granted granted Critical
Publication of CN104166849B publication Critical patent/CN104166849B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种电子文档识别方法,用于实现文档的识别,提高文档自动分类的效率及准确率。所述方法为:根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。本发明还公开了用于实现所述方法的装置。

Description

一种电子文档识别方法及装置
技术领域
本发明涉及计算机及图像处理领域,特别涉及一种电子文档识别方法及装置。
背景技术
在信息化高速发展的背景下,电子文档组织的效率成为了用户浏览和查找信息时候的重要影响因素,故文档分类一直以来都是人们所关注的重点问题。如何高效地从电子文档中自动抽取信息并完成分类,已成为数字出版物制作系统的一个亟待解决的问题。且信息检索的准确率也很大程度取决于文档分类的结果。最开始的分类过程是人工完成,但随着文本文档资源的日益增多,自动化分类的需求愈发明显。
在电子文档自动分类过程中,会遇到一种特殊的文档,即电子扫描文档,这类文档至少包含一个占页面面积较大比例的图像对象。
电子扫描文档的用途十分广泛。最典型的就是用于记录一些原版的易损坏的珍贵资料,如古籍,除此之外还可以用于特定场景的重现等。未经其它处理的直接扫描文档每页可能只含有一张占页面比例较大的图像对象,这种电子文档是单层的。电子扫描文档还有经过后期处理的情况,如OCR(Optical CharacterRecognition,光学字符识别)和手工修正,这样的电子扫描文档是多层的。根据文档内文字对象和图像对象的特点,可以将版式电子扫描文档初步预分类为层次不同的以下几种:
1、单层电子扫描文档:在版式电子扫描文档中,每页中图像对象的面积占页面面积的平均比例较大。
2、多层电子扫描文档(包括双层):在版式电子文档中,每页中最大图像的面积占页面面积的平均比例较大的文档。
本申请发明人在实现本申请实施例技术方案的过程中,至少发现现有技术中存在如下技术问题:
目前已经有许多电子文档自动分类的方法,其应用于邮件分类、司法意见分配、互联网以及一些其他个性化的用户服务中。分类方法以机器学习和数据挖掘为主,还涉及到文本关键词词频、综合分数计算等。但是对于电子扫描文档来说,目前只能通过计算页面图像块在整个页面中所占的比例来进行初步确识别,这种方法只能适用于单层电子扫描文档的识别,显然无法满足需求。
发明内容
本发明实施例提供一种文档识别方法及装置,用于实现文档的识别,提高文档自动分类的效率及准确率。
一种电子文档识别方法,包括以下步骤:
根据电子文档获得各文档参数;
根据所述各文档参数获得用于识别所述电子文档的各特征值;
根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;
如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;
如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
一种电子文档识别装置,包括:
获取模块,用于根据电子文档获得各文档参数;
处理模块,用于根据所述各文档参数获得用于识别文档的各特征值;
第一确定模块,用于根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档,及如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;
第二确定模块,用于如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
本发明实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。
附图说明
图1为本发明实施例中电子文档识别装置的主要结构图;
图2为本发明实施例中电子文档识别方法的主要流程图。
具体实施方式
本发明实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。
参见图1,本发明实施例中的文档识别装置包括获取模块101、处理模块102、第一确定模块103和第二确定模块104。
获取模块101用于根据电子文档获得各文档参数。一个电子文档可以包括多个页面。在整个电子文档中,所述文档参数至少包括:根据每页电子文档都可以直接获得的一系列的对象、每个对象的索引(Index)、整个页面的绘制区参数(例如可以是整个页面的绘制区宽度(wide)和高度(height)),对于每个对象,也可以得到其绘制区参数(例如可以是绘制区宽度和高度),其中绘制区可以是矩形。本发明实施例中所述对象至少可以包括图像对象和文字对象,还可以包括路径对象、底纹、渐变等。且获取模块101可以从每页的对象中筛选出图像对象,再根据每个图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象以及其所对应的最大面积,以Simage表示,且记录此最大图像对象在该页的对象流中的索引(mark)。获取模块101还可以根据每页的绘制区参数获得整个文档中每页的页面面积,以Spage表示。其中,面积计算公式为:S=wide*height。除此之外,还可得到整个文档的页码数,以T1表示。
处理模块102用于根据所述各文档参数获得用于识别所述电子文档的各特征值。
一、每页所含的最大图像对象的面积占页面面积的平均比例,以T2表示。
计算公式如下:
如果某页中不包含图像对象,则该页中Simage÷Spage的值为零。如果某页中有两个或两个以上的图像对象面积相等,且最大,则任取其中一个图像对象计算其面积即可。
二、每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T3表示。
计算方法:在一页文档中,当一对象满足条件Index<mark,并且此对象的绘制区真包含于该页中最大图像对象的绘制区,即该对象的绘制区位于该页中最大图像对象的绘制区之内,一页中该对象的绘制区面积以Smark-pre表示,将整个文档中此类对象的绘制区面积进行累加。T3的计算方法如下:
三、每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像内的绘制区的所有可见对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T4表示。
计算方法:在一页文档中,当一对象满足条件Index>mark,并且此对象的绘制区真包含于该页中最大图像的绘制区,且该对象为可见对象,一页中该对象的绘制区面积以Smark-aft-visible表示,将整个文档中此类对象的绘制区面积进行累加。T4的计算方法如下:
四、每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区,且该对象为不可见对象,在整个文档中其绘制区面积占最大图像面积的平均比例,以T5表示。
计算方法:在一页文档中,当一对象满足条件Index>mark,并且此对象的绘制区真包含于该页中最大图像的绘制区,且该对象为不可见对象,一页中该对象的面积以Smark-aft-invisible表示,将整个文档中此类对象的绘制区面积进行累加。T5的计算方法如下:
五、每页中最大图像绘制区和文字对象绘制区的公共部分中,浅色像素点占此公共部分总像素点数的平均比例,以T6表示。
计算方法:一种方法可以是,将页面中的最大图像进行灰度化,再用最大类间方差法将其二值化,以此最大图像的绘制区作为标准,分别累加计算每页中包含于此绘制区中的文字对象绘制区中白色像素点的个数(以White表示)和黑白像素点的总数(以Total表示)。
六、每页中最大图像绘制区内和非文字对象绘制区的公共部分中,浅色像素点占此部分总像素点数的平均比例,以T7表示。
计算方法:一种方法可以是,将页面中的最大图像进行灰度化,再用最大类间方差法将其二值化,以此最大图像对象的绘制区作为标准,分别累加计算每页中包含于此绘制区中的非文字对象绘制区中白色像素点的个数(以White表示)和黑白像素点的总数(以Total表示)。
最终得到版式文档的特征域为U={T1,T2,T3,T4,T5,T6,T7}。
第一确定模块103用于根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档,及如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档。
例如,可以首先判断T2的值,确定T2是否不小于第一设定值,例如该第一设定值可以是50,即T2≥50。如果确定T2≥50,则继续判断T3的值,如果T3的值小于第二设定值,例如,该第二设定值可以是0.001,即无穷小,则确定该电子文档为单层电子文档或双层电子文档。设TW=T4+T5,所述第一预设条件是指TW的值小于所述第二设定值。如果TW的值小于所述第二设定值,即所述电子文档满足所述第一预设条件,则确定所述电子文档为单层电子扫描文档,如果TW的值不小于所述第二设定值,则确定所述电子文档为双层电子文档。
在上述步骤中,如果T3的值不小于所述第二设定值,则确定所述电子文档为双层电子文档或多层电子文档,可以继续判断TW的值。如果TW的值小于所述第二设定值,则确定所述电子文档为双层电子文档,如果TW的值不小于所述第二设定值,则确定所述电子文档为多层电子文档。本发明实施例中,多层电子文档是指层数大于2的电子文档。
第二确定模块104用于如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
如果确定所述电子文档为双层电子文档,则第二确定模块104可以继续确定所述双层电子文档是否满足第二预设条件。其中,所述第二预设条件可以是:第三设定值<T6<第四设定值,且T7≥T6,其中,本发明实施例中所述第三设定值可以是60.0,所述第四设定值可以是90.0。如果所述双层电子文档满足所述第二预设条件,则确定所述双层电子文档为双层电子扫描文档。
如果确定所述电子文档为多层电子文档,则第二确定模块104可以继续确定所述多层电子文档是否满足所述第二预设条件。如果所述多层电子文档满足所述第二预设条件,则确定所述多层电子文档为多层电子扫描文档。
以下通过具体实施例来介绍电子文档识别方法。
参见图2,本发明实施例中电子文档识别的主要方法流程如下:
步骤201:根据电子文档获得各文档参数。
步骤202:根据所述各文档参数获得用于识别所述电子文档的各特征值。
步骤203:根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档。
步骤204:如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档。
步骤205:如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。
本发明实施例中的文档识别方法为根据电子文档获得各文档参数;根据所述各文档参数获得用于识别所述电子文档的各特征值;根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档。首先根据文档获得各文档参数,根据所述参数获取特征值,根据所述特征值确定所述文档具体是单层文档、双层文档或多层文档,确定之后再根据所述特征值确定所述文档是否为电子扫描文档,从而提供了一种确定电子扫描文档的方法,可以有效确定单层、双层或多层文档是否为电子扫描文档,操作方便,结果较为准确,较大地提高了海量文档自动分类的效率及准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种电子文档识别方法,其特征在于,包括以下步骤:
根据电子文档获得各文档参数;
根据所述各文档参数获得用于识别所述电子文档的各特征值;
根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档;所述特征值至少包括:在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像的绘制区的所有可见对象的绘制区面积占最大图像面积的平均比例T4,在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区的所有不可见对象的绘制区面积占最大图像面积的平均比例T5,每页中最大图像绘制区和文字对象绘制区的公共部分中浅色像素点占此公共部分总像素点数的平均比例T6,每页中最大图像绘制区内和非文字对象绘制区的公共部分中,浅色像素点占此部分总像素点数的平均比例T7
如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;所述第一预设条件为T4+T5的值小于第二设定值;
如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档;所述第二预设条件为:第三设定值<T6<第四设定值,且T7≥T6
2.如权利要求1所述的方法,其特征在于,所述文档参数至少包括:所述电子文档中每页电子文档中的所有对象、每个对象的索引、每页的绘制区参数、每页中每个对象的绘制区参数。
3.如权利要求2所述的方法,其特征在于,所述对象至少包括图像对象和/或文字对象,在根据电子文档获得各文档参数之后还包括步骤:根据每页中各所述图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象及其所对应的最大面积。
4.如权利要求3所述的方法,其特征在于,所述特征值还包括:整个文档的页码数T1,每页所含的所述最大图像对象的面积占页面面积的平均比例T2,在整个文档中每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象的绘制区面积占最大图像面积的平均比例T3
5.如权利要求4所述的方法,其特征在于,根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档的步骤包括:
判断所述T2的值是否不小于第一设定值;
当判断确定所述T2的值不小于所述第一设定值时,继续判断T3的值是否小于第二设定值;
如果判断确定所述T3的值小于所述第二设定值,则确定所述电子文档为所述单层电子文档或所述双层电子文档;
如果判断确定所述T3的值不小于所述第二设定值,则确定所述电子文档为双层电子文档或多层电子文档。
6.如权利要求5所述的方法,其特征在于,在确定所述电子文档为所述单层电子文档或所述双层电子文档之后还包括步骤:
判断T4+T5的值是否小于第二设定值;
当判断确定T4+T5的值小于第二设定值时,确定所述电子文档为单层电子扫描文档;
当判断确定T4+T5的值不小于第二设定值时,确定所述电子文档为双层电子文档。
7.如权利要求5所述的方法,其特征在于,在确定所述电子文档为双层电子文档或多层电子文档之后还包括步骤:
判断T4+T5的值是否小于第二设定值;
当判断确定T4+T5的值小于第二设定值时,确定所述电子文档为双层电子文档;
当判断确定T4+T5的值不小于第二设定值时,确定所述电子文档为多层电子文档。
8.一种电子文档识别装置,其特征在于,包括:
获取模块,用于根据电子文档获得各文档参数;
处理模块,用于根据所述各文档参数获得用于识别文档的各特征值;所述特征值至少包括:在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于所述最大图像的绘制区的所有可见对象的绘制区面积占最大图像面积的平均比例T4,在整个文档中每页中绘制顺序位于该页中最大图像之后、且其绘制区真包含于该页中最大图像的绘制区的所有不可见对象的绘制区面积占最大图像面积的平均比例T5,每页中最大图像绘制区和文字对象绘制区的公共部分中浅色像素点占此公共部分总像素点数的平均比例T6,每页中最大图像绘制区内和非文字对象绘制区的公共部分中,浅色像素点占此部分总像素点数的平均比例T7
第一确定模块,用于根据所述各特征值确定所述电子文档为单层电子文档、双层电子文档或多层电子文档,及如果确定所述电子文档为单层电子文档,当所述电子文档满足第一预设条件时,确定所述单层电子文档为单层电子扫描文档;所述第一预设条件为T4+T5的值小于第二设定值;
第二确定模块,用于如果确定所述电子文档为双层电子文档或多层电子文档,当所述电子文档满足第二预设条件时,确定所述双层电子文档为双层电子扫描文档,或确定所述多层电子文档为多层电子扫描文档;所述第二预设条件为:第三设定值<T6<第四设定值,且T7≥T6
9.如权利要求8所述的装置,其特征在于,所述文档参数至少包括:所述电子文档中每页电子文档中的所有对象、每个对象的索引、每页的绘制区参数、每页中每个对象的绘制区参数。
10.如权利要求9所述的装置,其特征在于,所述对象至少包括图像对象和/或文字对象,所述获取模块还用于根据每页中各所述图像对象的绘制区参数得到每页中占用绘制区面积最大的图像对象及其所对应的最大面积。
11.如权利要求10所述的装置,其特征在于,所述特征值还包括:整个文档的页码数T1,每页所含的所述最大图像对象的面积占页面面积的平均比例T2,在整个文档中每页中绘制顺序位于该页中最大图像之前、且其绘制区真包含于所述最大图像的绘制区的所有对象的绘制区面积占最大图像面积的平均比例T3
12.如权利要求11所述的装置,其特征在于,所述第一确定模块还用于:
判断所述T2的值是否不小于第一设定值;
当判断确定所述T2的值不小于所述第一设定值时,继续判断T3的值是否小于第二设定值;
如果判断确定所述T3的值小于所述第二设定值,则确定所述电子文档为所述单层电子文档或所述双层电子文档;
如果判断确定所述T3的值不小于所述第二设定值,则确定所述电子文档为双层电子文档或多层电子文档。
13.如权利要求12所述的装置,其特征在于,所述第一确定模块还用于:
判断T4+T5的值是否小于第二设定值;
当判断确定T4+T5的值小于第二设定值时,确定所述电子文档为单层电子扫描文档;
当判断确定T4+T5的值不小于第二设定值时,确定所述电子文档为双层电子文档。
14.如权利要求12所述的装置,其特征在于,所述第一确定模块还用于:
判断T4+T5的值是否小于第二设定值;
当判断确定T4+T5的值小于第二设定值时,确定所述电子文档为双层电子文档;
当判断确定T4+T5的值不小于第二设定值时,确定所述电子文档为多层电子文档。
CN201310183575.7A 2013-05-17 2013-05-17 一种电子文档识别方法及装置 Expired - Fee Related CN104166849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310183575.7A CN104166849B (zh) 2013-05-17 2013-05-17 一种电子文档识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310183575.7A CN104166849B (zh) 2013-05-17 2013-05-17 一种电子文档识别方法及装置

Publications (2)

Publication Number Publication Date
CN104166849A CN104166849A (zh) 2014-11-26
CN104166849B true CN104166849B (zh) 2017-04-19

Family

ID=51910652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310183575.7A Expired - Fee Related CN104166849B (zh) 2013-05-17 2013-05-17 一种电子文档识别方法及装置

Country Status (1)

Country Link
CN (1) CN104166849B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009074974A1 (en) * 2007-12-10 2009-06-18 E-Glue Software Technologies Ltd. System and process for producing a two-layer document, and a two-layer document produced accordingly
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件
CN101980133A (zh) * 2010-10-29 2011-02-23 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统
CN102541905A (zh) * 2010-12-15 2012-07-04 北大方正集团有限公司 用于pdf文件的属性处理方法及装置
CN102968407A (zh) * 2011-08-31 2013-03-13 汉王科技股份有限公司 双层pdf文件的构造方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386789B2 (en) * 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009074974A1 (en) * 2007-12-10 2009-06-18 E-Glue Software Technologies Ltd. System and process for producing a two-layer document, and a two-layer document produced accordingly
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件
CN101980133A (zh) * 2010-10-29 2011-02-23 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统
CN102541905A (zh) * 2010-12-15 2012-07-04 北大方正集团有限公司 用于pdf文件的属性处理方法及装置
CN102968407A (zh) * 2011-08-31 2013-03-13 汉王科技股份有限公司 双层pdf文件的构造方法及装置

Also Published As

Publication number Publication date
CN104166849A (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
WO2020192391A1 (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
US8750602B2 (en) Method and system for personalized advertisement push based on user interest learning
US9367757B2 (en) Content extracting device, content extracting method and program
JP5050075B2 (ja) 画像判別方法
CN109800698B (zh) 基于深度学习的图标检测方法、图标检测系统和存储介质
US11562516B2 (en) Apparatus, method and storage medium
JP3968942B2 (ja) ビデオの内容を要約する方法
US7917518B2 (en) Compositional balance and color driven content retrieval
CN112153483B (zh) 信息植入区域的检测方法、装置及电子设备
CN104951495B (zh) 用于管理代表性视频图像的设备和方法
US20140198986A1 (en) System and method for image selection using multivariate time series analysis
US11450045B2 (en) Apparatus, method and medium
US20110050723A1 (en) Image processing apparatus and method, and program
EP2587826A1 (en) Extraction and association method and system for objects of interest in video
US11645795B2 (en) Apparatus, method and medium
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
CN107430780A (zh) 用于基于视频内容特性的输出创建的方法
CN106980866B (zh) 一种鞋类检索方法和装置
CN111415396A (zh) 一种图像生成方法、装置和存储介质
CN112085094A (zh) 单证图像翻拍检测方法、装置、计算机设备和存储介质
US10708446B2 (en) Information processing apparatus, control method, and storage medium
CN104166849B (zh) 一种电子文档识别方法及装置
CN101504723B (zh) 一种建立投影空间的方法和装置
CN113010725B (zh) 演奏乐器的选择方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419

CF01 Termination of patent right due to non-payment of annual fee