CN103714101A - 信息处理设备及信息处理方法 - Google Patents

信息处理设备及信息处理方法 Download PDF

Info

Publication number
CN103714101A
CN103714101A CN201310286774.0A CN201310286774A CN103714101A CN 103714101 A CN103714101 A CN 103714101A CN 201310286774 A CN201310286774 A CN 201310286774A CN 103714101 A CN103714101 A CN 103714101A
Authority
CN
China
Prior art keywords
page
image
header entry
catalogue
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310286774.0A
Other languages
English (en)
Inventor
冈田茂
袖浦稔
花冈新治
上條裕义
天谷征
大谷和宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN103714101A publication Critical patent/CN103714101A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Facsimiles In General (AREA)
  • Storing Facsimile Image Data (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了信息处理设备及信息处理方法,该信息处理设备包括:读取单元、识别单元、目录分析单元、正文分析单元、以及创建单元。读取单元读取目录页的图像和正文页的图像。识别单元进行字符识别以识别目录页的图像中的字符和正文页的图像中的字符。目录分析单元分析目录页的图像,并根据字符识别的结果至少获得标题项。正文分析单元分析正文页的图像,并根据字符识别的结果使包括标题项的图像与该标题项关联。创建单元创建电子书签信息,其中用于使标题项与正文页的图像关联的书签信息被添加到所读取的图像的电子信息中。

Description

信息处理设备及信息处理方法
技术领域
本发明涉及信息处理设备和信息处理方法。
背景技术
通常,通过使用图像读取装置进行读取诸如技术文档之类的具有目录的文档,并将其转换为电子文档,然后在计算机终端或移动电子终端上查看该电子文档。在该情况下,根据文档中的页数,打开期望页可能是耗时并令人沮丧的。存在一种手动地对经常查阅的页面添加电子书签并使用该电子书签来查阅页面的功能。
例如,在日本未审查专利申请公开No.2006-85234中,从读取的图像中提取出诸如章节标题之类的文本并将链接信息添加至所提取的文本中。这使得用户能够从目录中的章节标题查阅到正文中的期望页面。同样在日本未审查专利申请公开No.2002-24796中,读取的图像经过字符识别,以提取出目录中的标题,并使提取出的标题与正文中对应的标题关联,使得一旦指定了目录中的标题,就能查阅期望页面的图像。
在使用目录查阅期望页的配置中,为了查阅某个期望项目的页面并随后查阅另一项目的页面,用户在搜索并指定下一个要查阅的项目之前要返回到目录的页面,然后查阅下一项目的页面。
发明内容
因此,本发明的目的是提供一种信息处理设备和信息处理方法,与没有使用根据本发明的示例性实施例的配置相比,当查看电子文档时该信息处理设备和信息处理方法具有改善的操作性能。
根据本发明的第一方面,提供了一种信息处理设备,其包括:读取单元、识别单元、目录分析单元、正文分析单元、以及创建单元。读取单元读取目录页的图像和正文页的图像。识别单元进行字符识别以识别目录页的图像中的字符和正文页的图像中的字符。目录分析单元分析目录页的图像并根据字符识别的结果至少获得标题项。正文分析单元分析正文页的图像并根据字符识别的结果使包括标题项的图像与标题项相关联。创建单元创建电子书签信息,其中用于使标题项与正文页的图像关联的书签信息被添加至所读取的图像的电子信息中。
根据本发明的第二方面,读取单元将预定数量的图像作为目录页处理,将其后的图像作为正文页处理。
根据本发明的第三方面,读取单元具有检测彩色纸的功能,并将彩色纸之前的图像作为目录页处理而将彩色纸之后的图像作为正文页处理。
根据本发明的第四方面,读取单元根据由识别单元进行的布局分析的结果和字符识别的结果来鉴别目录页和正文页。
根据本发明的第五方面,正文分析单元对正文页的图像进行布局分析以提取出小标题区域,并根据在该小标题区域上进行的字符识别的结果来使该小标题与标题项相关联。
根据本发明的第六方面,目录分析单元获得标题项以及对应于该标题项的页码,正文分析单元根据在包括页码的正文页的图像的区域上进行字符识别的结果以及对应于所述标题项的页码来使标题项与正文页的图像关联。
根据本发明的第七方面,提供了一种信息处理方法,其包括:读取目录页的图像和正文页的图像;进行字符识别,以识别目录页的图像中的字符和正文页的图像中的字符;分析目录页的图像并根据字符识别的结果至少获得标题项;分析正文页的图像并根据字符识别的结果使包括所述标题项的图像与所述标题项关联;以及创建电子书签信息,其中用于使所述标题项与所述正文页的图像关联的书签信息被添加至所读取的图像的电子信息中。
根据本发明的第一和第七方面,使用读取装置进行读取包括目录页的文档以创建电子文档。有利的是,与不使用本配置相比,可以改善查看电子文档的操作性能。
根据本发明的第二和第三方面,与不使用本配置相比,可以容易地鉴别目录页和正文页。
根据本发明的第四方面,可以利用比不使用本配置更少的时间和精力将包括目录页的文档转换为电子文件。
根据本发明的第五方面,可以使标题项与正文页中对应的图像关联,而不考虑正文页的布局结构。
根据本发明的第六方面,可以通过比不使用本配置更简单的处理来使标题项与正文中对应的图像关联。
附图说明
将根据以下附图详细地描述本发明的示例性实施例,其中:
图1是示出了本发明的示例性实施例的框图。
图2是示出了根据本发明的示例性实施例的操作的示例的流程图。
图3A和图3B示出了用于在读取文档时进行设置的屏幕的示例。
图4A和图4B示出了图3A和图3B所示的用于在读取文档时进行设置的屏幕的示例的继续。
图5示出了在分开读取目录页和正文页的情况下文档的处理。
图6A和图6B示出了根据目录跨越的指定页数进行读取的示例。
图7A和图7B示出了根据彩色纸的指定进行读取的示例。
图8A和图8B示出了根据自动指定的分隔符进行读取的示例。
图9A和图9B示出了标题项和正文之间的关联的示例。
图10A和图10B示出了标题项和正文之间的关联的另一示例。
图11A和图11B示出了所创建的电子书签信息的示例。
图12A和图12B示出了电子书签信息的显示示例。
图13示出了实现本发明的示例性实施例中描述的功能的计算机程序、存储该计算机程序的存储介质、以及计算机的示例。
具体实施方式
图1是示出了本发明的示例性实施例的框图。作为示例,给定的文档可以包括目录,并且目录页和跟在目录页后面的正文页可以读取为图像,以创建电子信息。给定的文档不限于特定的类型并且可以是诸如文件或书籍之类的任何类型的文档。
读取单元11将给定的文档中的目录页和正文页读取为图像。当读取文档时,读取单元11可以将文档划分为目录页和正文页。除了分开读取目录页和正文页之外,将文档划分为目录页和正文页的方法的示例包括:将预定数量的图像看作目录页而将其后的图像看作正文页,利用检测彩色纸的功能来确定目录页和正文页,将彩色纸之前的图像看作目录页而将彩色纸之后的图像看作是正文页,以及基于如下所述的识别单元12所执行的布局分析和识别的结果来鉴别目录页和正文页。也可以使用任何其他方法来区分目录页和正文页。
识别单元12识别所读取的图像中的字符。可以使用已知的字符识别方法。另外,可以不对整个图像进行字符识别,而是根据布局分析的结果来进行字符识别。例如,可以对目录页中的每个项目或者正文中的每个标题进行字符识别。
目录分析单元13根据字符的大小、段落、字符的位置等对由读取单元11读取的目录页的图像进行布局分析,并根据由识别单元12对每个分析项目进行字符识别的结果来至少获得标题项。也可以分析诸如章节之类的文档元素。也可以获得对应于各标题项的页码。
正文分析单元14分析由读取单元11读取的正文页的图像,并基于字符识别的结果使由目录分析单元13获得的每个标题项与包括该标题项的图像关联起来。例如,正文分析单元14可以对正文页的图像进行布局分析,以提取出小标题区域等,然后识别单元12可以对所提取的区域进行字符识别。基于字符识别的结果,可以使由目录分析单元13获得的每个标题项与对应的正文页的各图像中相应的一个图像关联。或者,识别单元12可以对正文页的图像中的页码区域进行字符识别,然后可以基于字符识别结果和与标题项对应的页码来使每个标题项与正文页的对应的一个图像关联。
电子信息创建单元15关联由目录分析单元13进行的目录分析的结果和由正文分析单元14进行的正文提取的结果,以创建书签信息。此外,电子信息创建单元15将书签信息添加到由读取单元11读取的图像的电子信息中,以创建电子书签信息。
图2是示出了根据本发明的示例性实施例的操作的示例的流程图。在S1中,读取单元11将给定的文档中的目录页和正文页分开读取为图像。
在S2中,目录分析单元13分析由读取单元11读取的目录页的图像,并提取出目录中的项目。识别单元12对提取出的每个项目进行字符识别,以获得标题项。目录分析单元13还可以获得对应于每个标题项的页码。
在S3中,正文分析单元14分析由读取单元11读取的正文页的图像,并提取出标题等。识别单元12对每个提取出的标题等进行字符识别。或者,正文分析单元14可以提取出页码区域,识别单元12可以对每个页码区域进行字符识别。然后,正文分析单元14使从目录中获得的每个标题项与正文页的对应的一个图像关联。
在S4中,电子信息创建单元15创建正文的电子信息。此外,在S5中,电子信息创建单元15使由目录分析单元13进行的目录页分析的结果与由正文分析单元14获得的正文页提取的结果关联,以创建书签信息。电子信息创建单元15也创建由读取单元11读取的图像的电子信息,并将该电子信息与书签信息结合,以创建电子书签信息。
下面将更加具体地描述上述根据本发明的示例性实施例的配置和操作的示例。图3A、3B、4A和4B示出了用于在读取文档时进行设置的屏幕的示例。例如,为了根据文档创建电子信息,用户在图3A所示的用于选择功能的屏幕上选择“扫描器(保存到PC)”选项,该选项由标号a表示。然后,例如,显示图3B所示的设置屏幕。为了执行从上述文档中创建电子书签信息的处理,用户在图3B所示的设置屏幕上选择“输出文件格式”选项,该选项由标号b表示,以显示图4A所示的输出文件格式设置屏幕。这里,作为示例,选择由标号c表示的“PDF”选项并选择由标号d表示的“书签设置”选项。作为上述操作的结果,显示图4B所示的书签设置屏幕,可以在该屏幕上选择由标号e表示的选项“扫描书签”中的选项“是”。在图4B所示的书签设置屏幕中,由标号f表示的“指定分隔符”选项用于指定分隔和读取目录页和正文页的方式。在示出的示例中,作为示例,选择“分开读取目录页和正文页”、“指定目录页数”、“彩色纸”、以及“自动”选项中的一个。
图5示出了在分开读取目录页和正文页的情况下的文档的处理。例如,当在图4B所示的书签设置屏幕上的“指定分隔符”选项中指定“分开读取目录页和正文页”选项并操作由标号g表示的“确定”按钮,则通过读取单元11分开读取目录页和正文页。图5示出了文档的一个示例。在示出的示例中,首先,设置并开始读取对应于目录页的文档图像,然后,当完成了目录页的读取时,设置并开始读取对应于正文页的文档图像。或者,相反,可以首先读取对应于正文页的文档图像,然后读取对应于目录页的文档图像。在任一方式中,分开读取了目录页和正文页。该方法使得目录页和正文页被分开并被读取,但是可能包含读取目录页和读取正文页二者的操作。
图6A和图6B示出了根据目录跨越的指定页数进行读取的示例。图6A示出了图4B所示的书签设置屏幕,其中在“指定分隔符”选项上指定“指定目录页数”选项,在该情况下,进一步设置纸张数。然后,操作由标号g表示的“确定”按钮,接着发出开始读操作的指令。在该情况下,例如,仅将从所读取的文档图像中的第一页开始的页数等于指定纸张数的页面作为目录页处理,而将其后的页面作为正文页处理。在图6A中,由于将值“6”指定为纸张数,如图6B所示,因此文档图像的第一至第六页被读作目录页,第七页及其后的文档图像被读作正文页。要注意的是,可以先读取正文页,然后可以将从末尾开始的页数等于指定纸张数的页面读作目录页。该方法仅需要对目录和正文读一次,但是可能需要用户指定纸张数。
图7A和图7B示出了根据彩色纸的指定进行读取的示例。图7A示出了图4B所示的书签设置屏幕,其中在“指定分隔符”选项上指定了“彩色纸”选项。然后,操作由标号g表示的“确定”按钮,接着发出开始读操作的指令。在该情况下,如图7B所示,在文档图像中的目录页和正文页之间插入由影线表示的彩色纸。在读操作的过程中,当检测到彩色纸时,将彩色纸之前的纸张作为目录页处理而将彩色纸之后的文档图像作为正文页处理。要注意的是,也可以将彩色纸之前的纸张作为正文页处理而将彩色纸之后的纸张作为目录页处理。该方法也仅需要对目录页和正文页只读一次,但是可能需要插入彩色纸。
图8A和图8B示出了根据自动指定的操作符的读取示例。图8A示出了图4B所示的书签设置屏幕,其中在“指定分隔符”选项上指定了“自动”选项。然后操作由标号g表示的“确定”按钮,接着发出开始读操作的指令。在该情况下,如图8B所示,相继读取目录页和正文页。然后读取单元11进行布局分析以分隔目录页和正文页。由于目录具有诸如项目排列和页码之类的特定文档配置,因此可以使用已知的技术来鉴别目录。在示出的示例中,读目录页然后再读正文页。相反,可以读正文页然后再读目录页。该方法使得在不需要对目录页和正文页有任何了解的情况下对它们进行读取,但是可能导致检测错误。
尽管这里给出了四种方法,但可以使用任何其他方法来分开读取目录页和正文页。此外,供选择的选项的数量不限于四个,可以使用两个、三个或多于四个。在该情况下可以使用的方法并不限于上述方法。要注意的是,可以使用在“指定分隔符”选项中不设置任何选项的方法。
要理解的是,上述用于读取图像的操作屏幕等均是示例,示例性实施例不限于它们。
在读取了目录页和正文页后,目录分析单元13根据字符大小、缩进、段落、字符位置等对目录页的图像进行布局分析,并在目录中提取出项目。然后,识别单元12对目录中提取出的每个项目进行字符识别,以获得标题项。作为标题项获得的识别字符串被用作创建书签的字符串。
图9A和图9B示出了标题项与正文之间的关联的示例。图9A示出了目录的一个示例。在示出的示例中,目录包括大标题“前言”、第一章中的“xxx的介绍”、以及第二章中的“xxx的基本原理”,它们每个均具有各种小标题(或者副标题)作为其扩充项。在示出的示例中,提取出项目“前言”及诸如项目“xxx的介绍”和项目“xxx的基本原理”之类的各章的小标题,并识别所提取的项目的字符串。也可以提取副标题并且可以对其进行字符识别。
此外,正文分析单元14分析所读取的正文页的图像,并提取出标题等。识别单元12对每个提取的标题等进行字符识别,然后正文分析单元14使所识别的字符与从目录中获得的标题项关联。在图9B所示的正文页的示例中,标题写在各页面的上部,尺寸大于其他字符。通过布局分析提取出标题,通过识别单元12对其进行字符识别。诸如“前言”、“xxx的介绍”、以及“xxx的基本原理”之类的标题被提取并经过字符识别。所识别的字符和由目录分析单元13获得的标题项相关联。
图10A和图10B示出了标题项和正文之间的关联的另一示例。目录一般具有作为标题项的项目,以及该项目所在的页码。当获得每个标题项时,目录分析单元13也通过字符识别提取并获得相应的页码。例如,在图10A所示的目录的示例中,获得“vii”作为对应于“前言”的页码,“1”作为对应于“xxx的介绍”的页码,以及“43”作为对应于“xxx的基本原理”的页码。
从正文页的图像可以提取出页码区域,然后对页码区域进行字符识别,标题项可以与包括由目录分析单元13获得的页码的图像关联。若页码区域已知,可以不使用布局分析地使页码和标题项关联。在图10B所示的示例中,页码位于各图像的下部角落。页码可以被提取然后经过字符识别,与从目录获得的页码相对应的图像可以被鉴别并与标题项关联。
在图10A所示的目录的示例中,指定给项目“前言”的页码没有用阿拉伯数字表示。即使在非阿拉伯数字的情况下,指定给目录中的项目的表示页码的标号和指定给正文页中的对应页的表示页码的标号可以被查阅并关联。或者,若页码用非阿拉伯数字表示,则可以使用参照图9A和图9B所述的标题提取方法来使指定给目录中的项目的页码和指定给正文中的对应页的页码关联。尽管目录没有被提取为标题项,但可以创建标题项“目录”并且使其与目录页的图像关联。
在完成了从目录中提取出标题项以及将提取的标题项与正文中的对应页关联后,电子信息创建单元15创建由读取单元11读取的图像的电子信息。电子图像创建单元15也创建书签信息,其中根据标题项与正文中的对应页之间的关联结果将标题项的书签添加到相关联的正文页,以及将书签信息与正文的电子信息结合以创建电子书签信息。
图11A和图11B示出了所创建的电子书签信息的一个示例。图11A示出了由读取单元11读取的图像的电子信息的一个示例,并示出了与各个页面的图像的关联。在示出的示例中,目录的第一页的图像被写为第一对象,包括标题“前言”的页面的图像被写为第七对象,包括标题“xxx的介绍”的页面的图像被写为第十对象,以及包括标题“xxx的基本原理”的页面的图像被写为第五十二对象。
在图11B所示的书签信息的示例中,每个标题项被作为对象处理。“/目的地[”
Figure BDA00003485219200091
后面跟着与该标题项关联的图像的对象号,“/标题”(“/Title”)后跟着在括号中的标题项的字符串。可以将示出的书签信息与由读取单元11读取的图像的电子信息结合,以创建电子书签信息。
图12A和图12B示出了电子书签信息的显示示例。图12A和12B示出了当查看以上述方式创建的电子书签信息时显示的屏幕的示例。在图示的示例中,显示了由读取单元11读取的图像,也显示了添加的书签信息中包括的标题项的列表。
在图12A中,首先,显示由读取单元11读取的目录页的图像,并且标题项的列表也被显示为书签信息。在示出的示例中,包括了标题项“目录”,并且标题项的列表也包括标题项“目录”。
为了查阅图12A所示的显示屏幕中的“xxx的基本原理”的内容,可以从标题项列表中指出由箭头指向的“xxx的基本原理”。如图12B所示,一旦指定了“xxx的基本原理”,显示屏幕则从目录页的图像变为包括标题“xxx的基本原理”的页面的图像。因此,一旦从根据书签信息显示的标题项列表中选择并指定一个项目,则可以显示期望页面的图像。
即使在显示了期望的页面的图像后,仍然显示根据书签信息显示的标题项的列表。因此,为了显示另一页面的图像,可以从显示的标题项列表中选择并指定该图像。然后,显示包括期望标题项的页面的图像。在现有技术中,由于目录中的每个项目与对应于该项目的页面的图像关联,因此,为了显示另一期望页面的图像,用户要在指定期望项目之前返回到目录。而在图示的示例中,一旦从根据书签信息显示的标题项列表中指定期望的标题项,则可以显示该标题项的页面的图像,而不需要用户返回到目录。
要注意的是,也可以包括使用相关技术的以下功能:在目录中指定与对应正文页链接的每一项目,由此显示包括该项目的页面。此外,也可以使用诸如索引链接或者链接到图示之类的与电子文档有关的各种功能。
例如,在前述具体示例中,在图4A中示出的显示示例或图11A和图11B中示出的电子书签信息是基于PDF的示例。示例性实施例不限于示出的示例,并且可以应用于以列表形式显示电子书签项目的各种类型的电子书签信息。
图13示出了实现本发明的示例性实施例中描述的功能的计算机程序、存储计算机程序的存储介质、以及计算机的示例。
可以通过在计算机22上可执行的程序21来实现以上在本发明的示例性实施例中描述的各个单元的所有或一些功能。在该情况下,程序21、在程序21中使用的数据等可以被存储在可被计算机22读取的非易失性存储介质中。本文中所使用的术语“非易失性存储介质”是指如下的介质:在该介质中,根据程序21的内容导致诸如磁能、光能、或者电能之类的能量变化,并且程序21的内容以相应的信号形式被传送到提供在计算机22的硬件资源中的读取单元43。非易失性存储介质的示例包括磁光盘31、光盘32(包括光盘(CD)和数字通用光盘(DVD))、磁盘33、以及存储器34(包括集成电路(IC)卡、存储卡、以及闪存)。上述存储介质可以不一定是可移植的。
程序21可以被存储在上述存储介质中。例如,存储程序21的存储介质可以被置于读取单元43中或计算机22的接口45中,以从计算机22中读程序21。所读取的程序21被存储在内存42或硬盘44(包括磁盘和硅盘)中,中央处理单元(CPU)41执行程序以实现以上在本发明的示例性实施例中描述的所有或部分的功能。或者,可以通过通信路径将程序21传输到计算机22。在计算机22中,程序21可以在通信单元46处接收,并且可以被存储在内存42或硬盘44中,CPU41可以执行程序21以实现在以上本发明的示例性实施例中描述的所有或部分的功能。
计算机22可以通过接口45连接至各种装置。例如,可以将显示信息的显示器连接至计算机22,该显示器可以显示用于进行参照图3A、3B、4A和4B描述的操作或者用于查看参照图12A和图12B描述的电子书签信息的屏幕。此外,可以将接收来自用户的信息的输入装置连接至计算机22,该输入装置可以接收参照图3A、3B、4A和4B描述的指定操作。要注意的是,显示器和输入装置可以被形成为诸如触摸面板之类的单个单元。还可以将其他装置连接至计算机22。每个配置可以不一定由单个计算机来操作,处理也可以根据处理的阶段由其他计算机来执行。
已提供本发明的示例性实施例的前述描述用于说明和描述的目的。其目的不是穷举或将本发明限制为所公开的精确形式。显然,很多修改和变形对本领域的技术人员都是显而易见的。所选和所描述的实施例是为了最好地解释本发明的原理及其实际应用,由此使本领域的技术人员能够理解用于各种实施例并且具有适用于所考虑的特定用途的各种修改的发明。本发明的范围意在由所附权利要求及其等同物限定。

Claims (13)

1.一种信息处理设备,包括:
读取单元,其读取目录页的图像和正文页的图像;
识别单元,其进行字符识别以识别所述目录页的图像中的字符和所述正文页的图像中的字符;
目录分析单元,其分析所述目录页的图像并根据字符识别的结果至少获得标题项;
正文分析单元,其分析所述正文页的图像并根据字符识别的结果使包括所述标题项的图像与所述标题项关联;以及
创建单元,其创建电子书签信息,在该电子书签信息中用于使所述标题项与所述正文页的图像关联的书签信息被添加至所读取的图像的电子信息中。
2.如权利要求1所述的信息处理设备,其中所述读取单元将预定数量的图像作为目录页处理,将其后的图像作为正文页处理。
3.如权利要求1所述的信息处理设备,其中所述读取单元具有检测彩色纸的功能,并将所述彩色纸之前的图像作为目录页处理而将所述彩色纸之后的图像作为正文页处理。
4.如权利要求1所述的信息处理设备,其中所述读取单元根据由所述识别单元进行的布局分析的结果和字符识别的结果来鉴别目录页和正文页。
5.如权利要求1所述的信息处理设备,其中所述正文分析单元对所述正文页的图像进行布局分析以提取出小标题区域,并根据在所述小标题区域上进行的字符识别的结果来使所述小标题与所述标题项关联。
6.如权利要求2所述的信息处理设备,其中所述正文分析单元对所述正文页的图像进行布局分析以提取出小标题区域,并根据在所述小标题区域上进行的字符识别的结果来使所述小标题与所述标题项关联。
7.如权利要求3所述的信息处理设备,其中所述正文分析单元对所述正文页的图像进行布局分析以提取出小标题区域,并根据在所述小标题区域上进行的字符识别的结果来使所述小标题与所述标题项关联。
8.如权利要求4所述的信息处理设备,其中所述正文分析单元对所述正文页的图像进行布局分析以提取出小标题区域,并根据在所述小标题区域上进行的字符识别的结果来使所述小标题与所述标题项关联。
9.如权利要求1所述的信息处理设备,其中:
所述目录分析单元获得所述标题项以及对应于所述标题项的页码,以及
所述正文分析单元根据在包括所述页码的正文页的图像的区域上进行字符识别的结果以及对应于所述标题项的页码来使所述标题项与所述正文页的图像关联。
10.如权利要求2所述的信息处理设备,其中:
所述目录分析单元获得所述标题项以及对应于所述标题项的页码,以及
所述正文分析单元根据在包括所述页码的正文页的图像的区域上进行字符识别的结果以及对应于所述标题项的页码来使所述标题项与所述正文页的图像关联。
11.如权利要求3所述的信息处理设备,其中:
所述目录分析单元获得所述标题项以及对应于所述标题项的页码,以及
所述正文分析单元根据在包括所述页码的正文页的图像的区域上进行字符识别的结果以及对应于所述标题项的页码来使所述标题项与所述正文页的图像关联。
12.如权利要求4所述的信息处理设备,其中:
所述目录分析单元获得所述标题项以及对应于所述标题项的页码,以及
所述正文分析单元根据在包括所述页码的正文页的图像的区域上进行字符识别的结果以及对应于所述标题项的页码来使所述标题项与所述正文页的图像关联。
13.一种信息处理方法,包括:
读取目录页的图像和正文页的图像;
进行字符识别,以识别所述目录页的图像中的字符和所述正文页的图像中的字符;
分析所述目录页的图像并根据所述字符识别的结果至少获得标题项;
分析所述正文页的图像并根据所述字符识别的结果使包括所述标题项的图像与所述标题项关联;以及
创建电子书签信息,在该电子书签信息中用于使所述标题项与所述正文页的图像关联的书签信息被添加至所读取的图像的电子信息中。
CN201310286774.0A 2012-10-04 2013-07-09 信息处理设备及信息处理方法 Pending CN103714101A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012222131A JP2014075029A (ja) 2012-10-04 2012-10-04 情報処理装置及び情報処理プログラム
JP2012-222131 2012-10-04

Publications (1)

Publication Number Publication Date
CN103714101A true CN103714101A (zh) 2014-04-09

Family

ID=50407085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310286774.0A Pending CN103714101A (zh) 2012-10-04 2013-07-09 信息处理设备及信息处理方法

Country Status (3)

Country Link
US (1) US9465986B2 (zh)
JP (1) JP2014075029A (zh)
CN (1) CN103714101A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN111209418A (zh) * 2020-01-03 2020-05-29 北京字节跳动网络技术有限公司 一种数据录入方法、装置、电子设备及可读存储介质
CN111914521A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 文档书签创建方法、装置、电子设备和可读存储介质
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408029B (zh) * 2014-10-30 2017-07-07 华中科技大学 一种电子书构建方法
CN105718649A (zh) * 2016-01-20 2016-06-29 华中科技大学 一种层次化显示知识网络的纸质书构建方法
CN107430683B (zh) * 2016-03-31 2021-09-14 深圳市柔宇科技股份有限公司 信息关联方法、电子书签及信息关联系统
US10445430B2 (en) * 2017-07-26 2019-10-15 Coulddocs.Com. Llc Multi-word phrase based analysis of electronic documents
CN107704161A (zh) * 2017-09-30 2018-02-16 广州阿里巴巴文学信息技术有限公司 信息展示方法、装置及终端设备
US11416671B2 (en) 2020-11-16 2022-08-16 Issuu, Inc. Device dependent rendering of PDF content
US11030387B1 (en) * 2020-11-16 2021-06-08 Issuu, Inc. Device dependent rendering of PDF content including multiple articles and a table of contents

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274592A (ja) * 1993-03-19 1994-09-30 Sharp Corp イメージ情報処理装置
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
US20070027749A1 (en) * 2005-07-27 2007-02-01 Hewlett-Packard Development Company, L.P. Advertisement detection
JP2008245034A (ja) * 2007-03-28 2008-10-09 Kyocera Mita Corp 画像読取装置
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
US20100067064A1 (en) * 2008-09-17 2010-03-18 Konica Minolta Business Technologies, Inc. Image processing apparatus and image processing method
US20120197908A1 (en) * 2011-01-31 2012-08-02 International Business Machines Corporation Method and apparatus for associating a table of contents and headings

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185588B1 (en) * 1996-12-31 2001-02-06 International Business Machines Corporation Method and apparatus for printing worldwide web pages in accordance with operator selected formatting
JP2002024796A (ja) 2000-07-06 2002-01-25 Matsushita Electric Ind Co Ltd 文字認識装置および方法
US20040024662A1 (en) * 2002-08-02 2004-02-05 David Gray Equipment documentation management system, method, and software tools
JP2005085234A (ja) 2003-09-11 2005-03-31 Shinko Electric Ind Co Ltd 情報処理システム、リーダライタ及び情報伝送方法
US20050149538A1 (en) * 2003-11-20 2005-07-07 Sadanand Singh Systems and methods for creating and publishing relational data bases
JP4247138B2 (ja) * 2004-02-25 2009-04-02 株式会社リコー ネットワーク複合機
JP4420086B2 (ja) * 2007-08-23 2010-02-24 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置および画像形成システム
US8081848B2 (en) * 2007-09-13 2011-12-20 Microsoft Corporation Extracting metadata from a digitally scanned document
US8392816B2 (en) * 2007-12-03 2013-03-05 Microsoft Corporation Page classifier engine
JP5622290B2 (ja) * 2012-03-30 2014-11-12 京セラドキュメントソリューションズ株式会社 電子化装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274592A (ja) * 1993-03-19 1994-09-30 Sharp Corp イメージ情報処理装置
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
US20070027749A1 (en) * 2005-07-27 2007-02-01 Hewlett-Packard Development Company, L.P. Advertisement detection
JP2008245034A (ja) * 2007-03-28 2008-10-09 Kyocera Mita Corp 画像読取装置
US20100067064A1 (en) * 2008-09-17 2010-03-18 Konica Minolta Business Technologies, Inc. Image processing apparatus and image processing method
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
US20120197908A1 (en) * 2011-01-31 2012-08-02 International Business Machines Corporation Method and apparatus for associating a table of contents and headings

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李祥生等: "《多媒体技术及应用》", 31 October 2011, 北京:中国铁道出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN106250830B (zh) * 2016-07-22 2019-05-24 浙江大学 数字图书结构化分析处理方法
CN111209418A (zh) * 2020-01-03 2020-05-29 北京字节跳动网络技术有限公司 一种数据录入方法、装置、电子设备及可读存储介质
CN111914521A (zh) * 2020-06-20 2020-11-10 北京海金格医药科技股份有限公司 文档书签创建方法、装置、电子设备和可读存储介质
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Also Published As

Publication number Publication date
JP2014075029A (ja) 2014-04-24
US20140099038A1 (en) 2014-04-10
US9465986B2 (en) 2016-10-11

Similar Documents

Publication Publication Date Title
CN103714101A (zh) 信息处理设备及信息处理方法
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
WO2019237540A1 (zh) 财政数据的获取方法、装置、终端设备及介质
CN103873719B (zh) 文档处理设备、图像处理装置和文档处理方法
TW201741908A (zh) 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法
JP5742979B1 (ja) 画像処理装置、画像読取装置及びプログラム
CN108881665A (zh) 信息处理设备和信息处理方法
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
KR100912288B1 (ko) 문서 내 목차정보를 이용한 검색 시스템
CN112686000B (zh) 电子书文档的格式转换方法、电子设备及存储介质
US20060143555A1 (en) Apparatus and method for extracting information from a formatted document
CN104899203A (zh) 一种网页页面的生成方法、装置及终端设备
JP2007323474A (ja) Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体
CN108897870B (zh) 生成书摘的方法、介质、装置和计算设备
JP2006065467A5 (zh)
Futrelle Handling figures in document summarization
AU2018100324B4 (en) Image Analysis
JP2016103150A (ja) 文書処理装置および文書処理プログラム
JP5621145B2 (ja) 文書チェック装置、文書チェックプログラムおよび文書チェック方法
CN104063416A (zh) 商品比较装置、方法、以及程序
CN110515618A (zh) 页面信息录入优化方法、设备、存储介质及装置
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム
JP7229318B1 (ja) 新聞電子版システム
US9104649B2 (en) Information processing apparatus and program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140409

RJ01 Rejection of invention patent application after publication