CN104809099B - 文档文件生成装置及文档文件生成方法 - Google Patents

文档文件生成装置及文档文件生成方法 Download PDF

Info

Publication number
CN104809099B
CN104809099B CN201510033797.XA CN201510033797A CN104809099B CN 104809099 B CN104809099 B CN 104809099B CN 201510033797 A CN201510033797 A CN 201510033797A CN 104809099 B CN104809099 B CN 104809099B
Authority
CN
China
Prior art keywords
file
character
size
stage
vector quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510033797.XA
Other languages
English (en)
Other versions
CN104809099A (zh
Inventor
平塚元规
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Publication of CN104809099A publication Critical patent/CN104809099A/zh
Application granted granted Critical
Publication of CN104809099B publication Critical patent/CN104809099B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/20Contour coding, e.g. using detection of edges

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)
  • Processing Or Creating Images (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供一种文档文件生成装置及文档文件生成方法,其不加大文件大小而制作出用以使图像更为细腻美观的文档文件。在矢量化处理开始前的第1阶段中计算出的第1文件的大小小于原稿(20)的文件大小时,进入矢量化处理执行过中程的第2阶段;在第2阶段计算出的第2文件的大小小于原稿(20)的文件大小时,进入矢量化处理完成后的第3阶段;在第3阶段计算出的第3文件的大小小于原稿(20)的文件大小时生成矢量化文件,在该文件中写入有由矢量化部(11f)进行矢量化后的数据。

Description

文档文件生成装置及文档文件生成方法
技术领域
本发明涉及一种文档文件生成装置及文档文件生成方法,其通过对字符识别获取的原稿字符图像进行电子化,生成PDF(Portable Document Format)等格式的文档文件。
背景技术
PDF(Portable Document Format)格式是一种电子文件规格。在PDF格式的文件(以下称为PDF文件)中,文档内所用字体信息可以嵌入到该PDF文件自身内。因此,嵌入字体的PDF文件在其制作环境以外,亦可使用文档中嵌入的字体,按照编者的意愿进行描绘,即显示或印刷。
此外,在使用PDF对文档进行电子化时,为控制文件大小,通常使用高度压缩格式。即,对图像中包含的文字或图形等各个对象分别进行图像层(图层)识别,再对每个图层中包含的对象进行相应的图像处理和图像压缩。如此一来,可同时实现高清画质和高度压缩两种效果。
同时,作为使PDF中呈现的字符图像等更为清晰美观的一种方法,可对字符图像进行矢量化操作。然而,在将字符图像矢量化时,需要将矢量化后的字体数据的描绘处理载入PDF文件,这将使其相对文本数据变得过大。
为消除该缺陷,可考虑使用如专利文献1中所示的文档制作方法。即,专利文献1中提出的文档制作方法,将作为是否在文档文件中嵌入字体的衡量标准的字体名称及字号即字体大小的阈值作为表格输入,从处理对象的原数据中获取其使用的字体名称及字号,如果原数据中使用的字体名称及字号已登录在表格中,则将原数据中的字号与表格中的字号阈值进行比较,如存在字号大于阈值的字符,则决定将其字体嵌入。
发明内容
发明要解决的课题
上述专利文献1中,由于在制作可包含字体信息的文档信息时不仅关注字体名称,也关注字体字号即字体大小,因此制作的文档文件的大小可以缩小。
然而,如要使每个字体均具有字号等,那么每个字体都需要一个格式。随着注册的字体数量的增加,将会出现文件过大的问题。
本发明的目的在于,鉴于以上情况,提供一种文件文档生成装置及文档文件生成方法,在保持文件大小不变的情况下,制作出图像更为清晰美观的文档文件。
解决课题的方法
本发明的文档文件生成装置是一种生成将通过字符识别获取的原稿字符图像进行电子化的文档文件的装置,其特征在于具备:矢量化单元,其对所述字符图像进行矢量化;矢量化处理控制单元,其对该矢量化单元的矢量化处理进行控制;其中,所述矢量化处理控制单元在所述矢量化处理开始前的第1阶段,根据所述字符图像的字符数及字符大小计算出第1文件的大小,在所述矢量化处理执行中即第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,提取字符图像,并根据该字符图像的字符数及字符大小计算出第2文件的大小,在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数及所述矢量化的数据计算出第3文件的大小,在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。
还有,所述矢量化处理控制单元的特征在于,具有:计数单元,其对通过所述字符识别获取的原稿的字符图像,按照每个字符图像分别进行计数;文件大小计算比较单元,其计算所述文件大小并进行比较;以及,图像处理单元,其生成所述矢量化文件或文档文件;其中,所述文件大小计算比较单元,在所述第1阶段,通过所述字符图像的字符数与各个字符图像大小的乘积计算出第1文件,在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的目标字符的字体大小的乘积计算出第2文件,在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,并在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第1至第3文件的大小与所述原稿文件的大小进行比较;其中,所述图像处理单元,在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中所述第1至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。
还有,所述文件大小计算比较单元的特征在于,通过所述计数单元得出的各个字符图像的合计字符数与平均了各个字符图像大小的平均字符图像大小的乘积,计算所述第1文件的大小。
还有,所述图像处理单元的特征在于,,通过比对所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,将一致的字符图像的矢量化数据注册至字体词典中,并利用注册后的矢量化数据生成所述矢量化文件。
还有,所述图像处理单元的特征在于,将与通过所述字符识别获取的字符图像的图型中得出的特征量相一致的字符图像的矢量化数据注册至字体词典中,并利用该注册后的矢量化数据生成所述矢量化文件。
还有,在所述字体词典中进行注册时,其特征在于,对于已注册完的字符不进行注册。
还有,本发明的文档文件生成方法的特征在于,其生成文档文件,该文档文件对通过字符识别获取的原稿字符图像进行了数据化,其特征在于具有:通过矢量化单元对所述字符图像进行矢量化处理的工序;以及,通过矢量化处理控制单元对该矢量化单元的矢量化处理进行控制的工序;其中,所述矢量化处理控制单元,在所述矢量化处理开始前的第1阶段,根据所述字符图像的字符数与字符大小计算出第1文件的大小,在所述矢量化处理执行中即第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标提取字符图像,并根据该字符图像的字符数与字符大小计算出第2文件的大小,在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数与所述矢量化后数据计算出第3文件的大小,在所述第1至第3阶段中,如果所述第1至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。
还有,所述矢量化处理控制单元的特征在于,具有:通过计数单元对由所述字符识别获取的原稿字符图像,按照每个字符图像分别进行计数的工序;通过文件大小计算比较单元计算所述文件的大小并进行比较的工序;以及,通过图像处理单元生成所述矢量化文件或文档文件的工序;其中,所述文件大小计算比较单元,在所述第1阶段,通过所述字符图像的字符数与各个字符图像大小的乘积计算出第1文件,在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的目标字符的字体大小的乘积计算出第2文件,在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,并在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第1至第3文件的大小与所述原稿文件的大小进行比较;其中,所述图像处理单元,在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中所述第1至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。
还有,所述文件大小计算比较单元的特征在于,通过所述计数单元得出的各个字符图像的合计字符数与平均了各个字符图像大小的平均字符图像大小的乘积,计算所述第1文件的大小。
还有,所述图像处理单元的特征在于,通过比对所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,将一致的字符图像的矢量化数据注册至字体词典中,并利用注册后的矢量化数据生成所述矢量化文件。
所述图像处理单元的特征在于,将与通过所述字符识别获取的字符图像的图型中得出的特征量相一致的字符图像的矢量化数据注册至字体词典中,并利用该注册后的矢量化数据生成所述矢量化文件。
还有,在所述字体词典中进行注册时,其特征在于,对于已注册完的字符不进行注册。
根据本发明中的文档文件生成装置及文档文件生成方法,在字符图像矢量化处理开始前的第1阶段,根据字符图像的字符数及字号计算出第1文件的大小;在进行字符图像矢量化处理的过程中的第2阶段,通过对字符识别获取的字符坐标和矢量化后数据中包含的字符坐标进行比对,根据提取的字符图像的字符数及字号计算出第2文件的大小;在字符图像矢量化处理完成后的第3阶段,根据字符图像的字符数及矢量化后的数据计算出第3文件的大小。在第1阶段至第3阶段中,如果第1至第3文件的大小小于原稿文件的大小,将生成写入有矢量化数据的矢量化文件。
因此,通过第3阶段的比较,如果第3文件的大小小于原稿文件的大小,则写入有矢量化数据的矢量化文件的大小亦将小于原稿文件。
发明效果
根据本发明中的文档文件生成装置及文档文件生成方法,通过第3阶段的比较,如果第3文件的大小小于原稿文件的大小,则写入有矢量化数据的矢量化文件的大小亦将小于原稿文件。如此一来,可在文件大小保持不变的情况下,制作出图像更为清晰美观的文档文件。
附图说明
[图1]对本发明的文档文件生成装置的一实施方式进行说明的图。
[图2]对基于图1的文档文件生成装置的文档文件生成方法的概要进行说明的流程图。
[图3]对基于图1的文档文件生成装置的图像处理的概要进行说明的图。
[图4]对图1的文档文件生成装置中利用矢量化和OCR(字符识别)的矢量化处理进行说明的图。
[图5]对图1的文档文件生成装置中利用矢量化和OCR(字符识别)的矢量化处理进行说明的图。
[图6]对图1的文档文件生成装置中利用矢量化和OCR(字符识别)的矢量化处理进行说明的图。
[图7]对图1的文档文件生成装置中利用矢量化和OCR(字符识别)的矢量化处理进行说明的图。
[图8]对图1的文档文件生成装置中利用矢量化和OCR(字符识别)的矢量化处理进行说明的图。
[图9]对图1的文档文件生成装置中利用矢量化和图型匹配的矢量化处理进行说明的图。
[图10 A和图10B]对图1的文档文件生成装置中利用矢量化和图型匹配的矢量化处理进行说明的图。
具体实施方式
接下来参照图1至图3对本发明中文档文件生成装置的一实施方式进行说明。首先,如图1所示,文档文件生成装置10包括控制部11、操作部12、显示部13、扫描部14。
控制部11可根据图中未显示的ROM内的特定程序,控制文档文件生成装置10的整体操作。控制部11包括操作接收部11a、图像识别部11b、图像处理部11c、文件大小计算比较部11d、计数器11e、矢量化部11f、及内存11g。
操作接收部11a用于接收由操作部12进行的图像处理的相关操作。图像识别部11b用于对扫描部14读取的字符图像进行OCR(Optical Character Reader:字符识别)操作。即,将扫描部14读取的字符图像与预先存储的图型进行对照并识别,再获取识别后的字符图像数据。
图像处理部11c用于文档文件的制作等,其中包括写入有由矢量化部11f进行矢量化后的数据的文档文件,以下称为矢量化文件,还包括遵循了下述的原稿20的文件格式的文档文件。文件大小计算比较部11d负责在矢量化部11f进行矢量化处理开始前的第1阶段、矢量化部11f进行矢量化处理过程中的第2阶段、矢量化部11f进行矢量化处理完成后的第3阶段等各个阶段中计算出文件的大小。此外,文件大小计算比较部11d还负责将第1阶段至第3阶段分别计算出的文件大小与下述原稿20的文件大小进行比较,具体情况将后述。
计数器11e用于对图像识别部11b识别出的每个字符的数量即字符数进行计算。矢量化部11f用于对图像识别部11b识别出的字符图像进行矢量化,具体情况将后述。内存11g用于存储扫描部14读取的字符图像等。
操作部12用于下达图像处理指令,例如由触控面板等组成。显示部13用于显示向导图像处理等的信息,或图像处理选择项目等。扫描部14用于对未图示的图像传感器读取的下述原稿20的字符图像进行光学读取。
接下来参照图2及图3对图像处理的概要进行说明。首先,由扫描部14,如图3所示通过读取的原稿20执行OCR即字符识别,即步骤S1。并且,图3所示原稿20是将如PDF等格式文件,以下称为PDF文件,打印出的文档,为便于说明,仅表示显示有如a至d等字符图像的文字层。
即,该PDF文件如上所述,其结构为通过对应于图像层即图层中所含对象进行图像处理或图像压缩的高度压缩而成。同时,原稿20的PDF文件的大小即描绘前的PDF文件文字层数据的大小已被获取。
此外,扫描部14在读取原稿20时,按照箭头所示,比如从上段开始依序逐行进行读取。此时,在读取原稿20的过程中,每当新的字符图像完成OCR即字符识别后,计数器11e将对每个识别出的字符图像进行注册即步骤S2。
即,首先,当识别出字符图像「a」时,识别出的字符图像「a」将作为计数器11e的a计数器11e-1被注册。之后,当识别出下一个字符图像「a」时,将追加a计数器11e-1的字符数。也就是说,每当识别出字符图像「a」时,a计数器11e-1的字符数将增加。
然后,当识别出字符图像「b」时,识别出的字符图像「b」将作为计数器11e的b计数器11e-2被注册。之后,当识别出下一个字符图像「b」时,将追加b计数器11e-2的字符数。也就是说,每当识别出字符图像「b」时,b计数器11e-2的字符数将增加。
之后,当识别出字符图像「c」时,识别出的字符图像「c」将作为计数器11e的c计数器11e-3被注册。之后,当识别出下一个字符图像「c」时,将追加c计数器11e-3的字符数。也就是说,每当识别出字符图像「c」时,c计数器11e-3的字符数将增加。
其后,当原稿20的读取完成后,文件大小计算比较部11d将通过a计数器11e-1、b计数器11e-2、c计数器11e-3等各个字符图像的合计字符数和平均字符图像大小计算出第1文件的大小即步骤S3。即,将平均字符图像大小乘以将各个a计数器11e-1、b计数器11e-2、c计数器11e-3等合计得出的字符图像的合计字符数,计算出第1文件的大小。
在此使用平均字符图像大小的原因是因为「a」至「b」的各字符的图像大小各不相同。尤其是,比如,比较平假名与汉字时,汉字的字符图像的通常较大。在这种情况下,若想利用各个字符图像尺寸而计算第1文件的大小,该计算将变得复杂,但是通过使用平均字符图像大小而可将第1文件的大小的计算变得简单。
之后,将计算出的第1文件的大小与PDF文件的文字层的大小进行比较即步骤S4。当计算出的第1文件的大小大于PDF文件的文字层时即步骤S4:[否],图像处理部11c将会中断进入下一处理,即由中断矢量化部11f进行的字符图像的矢量化,并生成普通的PDF文件即步骤S5。此处所谓的普通的PDF文件是指,具有原来的文件格式的文件,其能够将文档内使用的字体信息嵌入在该文件本身。
并且,字体在PDF文件中进行矢量化并注册时将被压缩。因此,在计算第1文件的大小时需考虑压缩率,但在本实施方式中,比如所使用的压缩率为最低压缩率。也就是说,在PDF文件中,如果可设为最高画质即低度压缩、高画质、普通、低画质即高度压缩4个等级,那么计算第1文件的大小时使用的压缩率为最高画质即低度压缩下的压缩率。这样一来,通过使用最高画质即低度压缩下的压缩率,可以生成图像更为清晰美观的文档文件。
另一方面,如果计算出的第1文件的大小小于PDF文件的文字层即步骤S4:[是],将通过矢量化部11f对字符图像进行矢量化即步骤S6。即,对上述计数器11e的a计数器11e-1、b计数器11e-2、c计数器11e-3合计得出的各个字符图像「a」至「c」进行矢量化。
然后,关于a计数器11e-1、b计数器11e-2、c计数器11e-3合计得出的各个字符图像,通过图像处理部11c对OCR(字符识别)获取的字符坐标与矢量化后数据的字符坐标进行比对,提取目标字符即步骤S7。并且,通过OCR(字符识别)获取的OCR(字符识别)信息中包含字符坐标及字符代码等。而且,矢量化后的数据中包含线条的起终点的坐标(位置)等。由此,通过对OCR(字符识别)信息与矢量化后数据的字符坐标进行比对,可以提取目标字符。
之后,通过文件大小计算比较部11d,根据提取的目标字符的字体及a计数器11e-1、b计数器11e-2、c计数器11e-3得出的各个字符图像的合计字数,计算出每个字符的大小,再由此计算出第2文件的大小即步骤S8。之后,再将计算出的第2文件的大小与PDF文件的文字层进行比较即步骤S9。
如果计算出的第2文件的大小大于PDF文件的文字层的大小即步骤S9:[否],将不进行下一处理,即不进行字体置换处理,而是通过图像处理部11c生成普通的PDF文件即步骤S5。反之,如果计算出的第2文件的大小小于PDF文件的文字层的大小即步骤S9:[是],将通过图像处理部11c进行字体置换处理即步骤S10。即,将在步骤S6中通过矢量化部11f进行的各个字符图像的矢量化后数据存储在上述内存11g中。
之后,由图像处理部11根据c存储在内存11g中的矢量化后数据,计算出第3文件的大小即步骤S11。第3文件的大小可通过内存11g中存储的矢量化后数据及生成文件时使用的字体数计算出。
其后,将计算出的第3文件的大小与PDF文件的文字层的大小进行比较即步骤S12。此时,如果第3文件的大小大于PDF文件的文字层的大小即步骤S12:[否],将不进行下一处理,即不生成矢量化文件,而是通过图像处理器11c生成普通的PDF文件即步骤S5。
反之,如果第3文件的大小小于PDF文件的文字层的大小即步骤S12:[是],图像处理部11c将生成矢量化文件即步骤S13。
如上所述,在本实施方式中,在步骤S6中通过矢量化部11f对各个字符图像进行的矢量化处理开始前的阶段即第1阶段,根据OCR(字符识别)获取的字符图像的合计字数与平均字符图像大小计算出第1文件的大小;在通过矢量化部11f进行矢量化处理的过程中的阶段即第2阶段,通过比对OCR(字符识别)信息与矢量化后数据的字符坐标,提取目标字符的字体,并根据该字体与a计数器11e-1、b计数器11e-2、c计数器11e-3合计得出的各个字符图像的合计字符数计算出第2文件的大小;在矢量化部11f进行矢量化处理完成后的阶段即第3阶段,根据矢量化后的数据与生成文件时使用的字体数计算出第3文件的大小。
然后,再将各阶段计算出的文件大小与PDF文件的文字层的大小进行比较,如果最终形成的第3文件的大小小于PDF文件的文字层的大小,则生成矢量化文件。
接下来对上述图像处理进行举例说明。图4至图8用于对矢量化处理进行说明,矢量化处理的目的在于通过矢量化与OCR(字符识别)将文档文件的大小控制在较小范围。下文中所述的矢量化处理由上述图像处理部11c进行。
首先,如图4所示,由上述扫描部14读取原稿20,获取字符图像及OCR(字符识别)信息b。而且,如上所述,矢量图像信息即矢量数据a为原稿20本身的PDF文件信息且已被获取,并且,下文中所述字体词典c已包含在PDF文档内。在此,由于描绘的字符无法从矢量图像信息即矢量数据a中识别,因此需要从OCR(字符识别)信息b中获取字符编码及字符坐标,并按照以下顺序录入字体词典c中。
即,如图5及图6所示:
(1)比如若字符图像「K」通过了OCR(字符识别),此时,在OCR(字符识别)信息b中检索与字符图像「K」左端至右端之间一致的描绘起始位置的X坐标。
(2)当OCR坐标(OCR(字符识别)信息b的字符坐标)与矢量图像信息a的描绘起始位置的X坐标相一致时,检索与Y坐标的上端至下端之间一致的描绘起始位置的Y坐标。
(3)当两者均一致时,判断为是该字符,并将矢量图像信息a的部分(fill)为止作为字符,注册至字体词典c。
(4)当检索到的字符已经在字体词典c中进行过注册,则不进行注册。
如图6所示,比如注册在字体词典c中的字符为「K」「y」「o」「c」,各个字符在进行描绘处理时从字体词典c中被读取。
其次,如图7所示,结束了矢量图像信息a的到EOF(信息终端)为止的检索后,将从矢量图像信息a的矢量坐标开始检索OCR(字符识别)信息b。由于可能存在OCR(字符识别)没有识别的字符,因此可按照以下顺序在矢量图像信息a中进行再次检索。
(5)就矢量数据的描绘起始位置,检索与OCR(字符识别)识别出的字符不一致的字符。
(6)对于一致的字符,由于是另一识别标记或已在字体词典c中完成注册,因此将其放弃。
(7)对于不一致的字符,则将其矢量列总结并追加注册到一个字体词典c中。
在此,虽然可以对不一致的字符进行归类,但由于9成以上将在字体词典c中进行注册,因此可以减小文件的大小。
接下来,如图8所示,
(8)从字体词典c中获取字体,指定大小和描述坐标后进行描绘处理。即,例如当描绘「K」「y」「o」「c」「o」「o」时,可从字体词典c中获取各个字符的字体。
接下来,参照图9等对矢量化处理进行说明,矢量化处理的目的在于通过矢量化与图型匹配来实现文档文件大小的最小化。下文中所述图型匹配由上述图像处理部11c完成。
首先,如图9所示,通过扫描部14读取原稿20,获取字符图像,并按照以下顺序注册到字体词典c中。
即,如图10A所示,
(1)在矢量化前的二值图像的附近像素中,找出具有相同亮度的元素并制作标签。例如在此获取「K」字符标签。
(2)存储获取标签时的基点d的位置坐标,以及横向和纵向的点宽幅。
(3)对字符图像内的描述坐标进行检索。
(4)在矢量图像信息a中检索与字符图像的左端至右端之间的描绘起始位置相一致的横向点宽幅(X坐标)。
(5)当X坐标一致时,在矢量图像信息a中检索与纵向点宽幅(Y坐标)的上端至下端之间的描绘起始位置相一致的Y坐标。
(6)当两者皆一致时,判断为是该字符并将矢量图像信息a的部分(fill)位置作为该字符注册至字体词典c内。
(7)当检索到的字符已经在字体词典c中进行过注册,则不再进行注册。
接下来,如图10B所示,
(8)确定标签的重心e,计算出从重心e的位置开始的标签特征量。
并且,特征量为从标签重心d至最外层轮廓线间的距离,如虚线箭头所示。据此,即便对目标标签进行放大或缩小以及旋转也能够通过特征周期来保持一致。
(9)从矢量图像信息a中检索特征量一致的字符。
(10)存储一致的字符的坐标以及横向和纵向的宽幅。
(11)重复(9)、(10)操作直至无法检索到字符。
(12)获取下一个标签,进行与上述同样的图型匹配。
此时,将存储的字符与坐标从下一个检索对象中排除。
(13)在进行描绘处理时,从字体词典c中获取字体,指定大小及描述坐标。
如此一来,本实施方式中就具备了作为矢量化单元的矢量化部11f和矢量化处理控制单元,其中前者用于对字符图像进行矢量化,后者用于控制由矢量化部11f进行的矢量化操作。
通过矢量化处理控制单元,如果矢量化处理开始前的第1阶段中计算出的第1文件的大小小于原稿20的文件的大小,将进入矢量化处理过程,即第2阶段;如果第2阶段计算出的第2文件的大小小于原稿20的文件的大小,将会进入矢量化处理完成后的第3阶段;如果第3阶段计算出的第3文件的大小小于原稿20的文件的大小,将生成矢量化文件,该文件中写入有由矢量化部11f进行矢量化后的数据。
具体来讲,矢量化处理控制单元包括计数器11e、文件大小计算比较部11d和图像处理部11c。其中,计数器11e作为计数单元,用于对通过字符识别获取的原稿20的字符图像进行分别计数;文件大小计算比较部11d作为文件大小计算比较单元,用于计算文件大小并进行比较;图像处理部11c作为图像处理单元,用于生成矢量化文件以及文档文件。
其中,文件大小计算比较部11d在第1阶段负责根据字符图像的字符数与各个字符图像大小的乘积计算出第1文件的大小;在第2阶段,其负责通过比对由字符识别获取的字符坐标与矢量化后数据中包含的字符坐标,提取目标字符,再根据字符图像的字符数与目标字符的字体尺寸的乘积得出第2文件的大小;在第3阶段,其负责根据字符图像的字符数与矢量化数据的乘积计算出第3文件的大小,同时,还负责在第1阶段、第2阶段或第3阶段的任一阶段将第1至第3文件的大小与原稿文件进行比较。
之后,在第1阶段至第3阶段中,如果第1至第3文件的大小均小于原稿文件,图形处理部11c将生成矢量化文件;如果在第1阶段、第2阶段或第3阶段的任一阶段中第1至第3文件的大小大于原稿20文件的大小,图像处理部11c将中断之后的处理,并遵循原稿20的文件格式制作文档文件。
因此,通过第3阶段的比较,如果第3文件的大小小于原稿20文件的大小,那么包含矢量化数据的矢量化文件的大小亦将小于原稿20文件的大小,如此一来,可在文件大小保持不变的情况下,制作出图像更为清晰美观的文档文件。
还有,如果第1阶段、第2阶段或第3阶段的任一阶段中生成的第1至第3文件的大小大于原稿20文件的大小,那么之后的处理将被中断,可免去无用的操作。
此外,由文件大小计算比较部11d在计算第1文件的大小时使用的是计数器11e计算出的各个字符图像的合计字符数与各个字符图像的平均字符图像大小的乘积,因此第1文件的大小较容易算出。
此外,由图像处理部11c通过比对由字符识别获取的字符坐标与矢量化数据中包含的字符坐标提取一致的字符图像,并将其矢量化数据注册至字体词典c,再使用注册后的矢量化数据生成矢量化文件,因此,通过字符识别获取的字符图像的矢量化操作较为容易且可确切的进行。
而且,由图像处理部11c将与通过字符识别获取的字符图像的图型中得出的特征量相一致的字符图像的矢量化数据注册至字体词典,再使用注册的矢量化数据生成矢量化文件,因此,与上述相同,通过字符识别获取的字符图像的矢量化操作较为容易且可确切的进行。
此外,在字体词典c中进行注册时,已完成注册的字符将不再进行注册,因此,即使需要注册的字符图像增加,也可控制文件大小的增加。

Claims (10)

1.一种文档文件生成装置,其对通过扫描部读取原稿字符而得的字符图像进行字符识别、且生成将所识别的所述字符图像进行了数据化的文档文件,其特征在于,具备:
矢量化单元,其对所述字符图像进行矢量化;
矢量化处理控制单元,其对该矢量化单元的矢量化处理进行控制;
其中,所述矢量化处理控制单元,
在所述矢量化处理开始前的第1阶段,根据所述字符图像的字符数及所述字符图像大小计算出第1文件的大小,
在所述矢量化处理执行中的第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标,提取字符图像,并根据该字符图像的字符数及所述字符图像大小计算出第2文件的大小,
在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数及所述矢量化的数据计算出第3文件的大小,
在所述第1阶段至第3阶段,所述第1至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。
2.如权利要求1中所述的文档文件生成装置,其特征在于,
所述矢量化处理控制单元具有:
计数单元,其对通过扫描部读取原稿字符而得的字符图像进行字符识别、且对所识别的所述字符图像按照每个字符图像分别进行计数;
文件大小计算比较单元,其计算所述文件大小并进行比较;以及,
图像处理单元,其生成所述矢量化文件或文档文件;
其中,所述文件大小计算比较单元,
在所述第1阶段,通过利用所述计数单元进行计数而得的各个所述字符图像的字符数与各个所述字符图像大小的乘积计算出第1文件大小,
在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的所述目标字符的所述字符图像大小的乘积计算出第2文件大小,
在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,
并在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第1至第3文件的大小与所述原稿文件的大小进行比较;
其中,所述图像处理单元,
在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,
在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中所述第1至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。
3.如权利要求2中所述的文档文件生成装置,其特征在于,所述文件大小计算比较单元通过所述计数单元得出的各个所述字符图像的合计字符数与平均了各个所述字符图像大小的平均字符图像大小的乘积,计算所述第1文件的大小。
4.如权利要求2中所述的文档文件生成装置,其特征在于,所述图像处理单元,
通过比对所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,将一致的字符图像的矢量化数据注册至字体词典中,并利用注册后的矢量化数据生成所述矢量化文件。
5.如权利要求2中所述的文档文件生成装置,其特征在于,所述图像处理单元将与通过所述字符识别获取的字符图像的图型中得出的特征量相一致的字符图像的矢量化数据注册至字体词典中,并利用该注册后的矢量化数据生成所述矢量化文件。
6.如权利要求4中所述的文档文件生成装置,其特征在于,在所述字体词典中进行注册时,对于已注册完的字符不进行注册。
7.一种文档文件生成方法,其生成文档文件,该文档文件是对通过扫描部读取原稿字符而得的字符图像进行字符识别、且对所识别的所述字符图像进行了数据化的文档文件,其特征在于,具有:
通过矢量化单元对所述字符图像进行矢量化处理的工序;以及,
通过矢量化处理控制单元对该矢量化单元的矢量化处理进行控制的工序;
其中,所述矢量化处理控制单元,
在所述矢量化处理开始前的第1阶段,根据所述字符图像的字符数与所述字符图像大小计算出第1文件的大小,
在所述矢量化处理执行中即第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标提取字符图像,并根据所述字符图像的字符数与所述字符图像大小计算出第2文件的大小,
在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数与所述矢量化后数据计算出第3文件的大小,
在所述第1至第3阶段中,如果所述第1至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。
8.如权利要求7中所述的文档文件生成方法,其特征在于,
所述矢量化处理控制单元具有:
通过计数单元对通过扫描部读取原稿字符而得的字符图像进行字符识别、且对所识别的所述字符图像按照每个字符图像分别进行计数的工序;
通过文件大小计算比较单元计算所述文件的大小并进行比较的工序;以及,通过图像处理单元生成所述矢量化文件或文档文件的工序;
其中,所述文件大小计算比较单元,
在所述第1阶段,通过利用所述计数单元进行计数而得的各个所述字符图像的字符数与各个所述字符图像大小的乘积计算出第1文件大小,
在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的所述目标字符的所述字符图像大小的乘积计算出第2文件大小,
在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,
并在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第1至第3文件的大小与所述原稿文件的大小进行比较;
其中,所述图像处理单元,
在所述第1阶段至第3阶段中,所述第1至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,
在所述第1阶段、所述第2阶段或所述第3阶段的任一阶段中所述第1至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。
9.如权利要求8中所述的文档文件生成方法,其特征在于,所述文件大小计算比较单元通过所述计数单元得出的各个所述字符图像的合计字符数与平均了各个字符图像大小的平均字符图像大小的乘积,计算所述第1文件的大小。
10.如权利要求8中所述的文档文件生成方法,其特征在于,所述图像处理单元通过比对所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,将一致的字符图像的矢量化数据注册至字体词典中,并利用注册后的矢量化数据生成所述矢量化文件。
CN201510033797.XA 2014-01-24 2015-01-23 文档文件生成装置及文档文件生成方法 Expired - Fee Related CN104809099B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-011223 2014-01-24
JP2014011223A JP6000992B2 (ja) 2014-01-24 2014-01-24 文書ファイル生成装置及び文書ファイル生成方法

Publications (2)

Publication Number Publication Date
CN104809099A CN104809099A (zh) 2015-07-29
CN104809099B true CN104809099B (zh) 2018-03-23

Family

ID=53680342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510033797.XA Expired - Fee Related CN104809099B (zh) 2014-01-24 2015-01-23 文档文件生成装置及文档文件生成方法

Country Status (3)

Country Link
US (1) US9575935B2 (zh)
JP (1) JP6000992B2 (zh)
CN (1) CN104809099B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6729486B2 (ja) * 2017-05-15 2020-07-22 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理プログラム及び情報処理方法
CN109491977A (zh) * 2018-09-27 2019-03-19 北京车和家信息技术有限公司 一种车辆信息交接方法、服务器及系统
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
US11138424B2 (en) * 2019-11-20 2021-10-05 Sap Se Contextual vector grids for document processing
CN111597781B (zh) * 2020-05-19 2023-06-02 浪潮软件集团有限公司 非结构化大数据生成方法、系统、存储介质及电子设备
JP7490472B2 (ja) * 2020-07-06 2024-05-27 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN112486477B (zh) * 2020-12-15 2024-06-04 未来电视有限公司 文件生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625206A (zh) * 2003-11-20 2005-06-08 佳能株式会社 图像处理装置及其控制方法
CN1627786A (zh) * 2003-12-05 2005-06-15 佳能株式会社 图像处理系统以及图像处理方法
US7035463B1 (en) * 1999-03-01 2006-04-25 Matsushita Electric Industrial Co., Ltd. Document image processor, method for extracting document title, and method for imparting document tag information
CN101419661A (zh) * 2007-10-26 2009-04-29 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063052A (ja) * 2003-08-08 2005-03-10 Canon Inc 文書作成方法及び文書作成装置
JP4510535B2 (ja) * 2004-06-24 2010-07-28 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP2006023944A (ja) * 2004-07-07 2006-01-26 Canon Inc 画像処理システム及び画像処理方法
US7831107B2 (en) * 2005-10-17 2010-11-09 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and program
US7460710B2 (en) * 2006-03-29 2008-12-02 Amazon Technologies, Inc. Converting digital images containing text to token-based files for rendering
JP4764231B2 (ja) * 2006-03-31 2011-08-31 キヤノン株式会社 画像処理装置、制御方法、コンピュータプログラム
US8164762B2 (en) * 2006-09-07 2012-04-24 Xerox Corporation Intelligent text driven document sizing
US7944581B2 (en) * 2007-03-16 2011-05-17 Xerox Corporation Imposition systems, methods and drivers for printer products
JP4968927B2 (ja) * 2007-06-25 2012-07-04 キヤノン株式会社 画像処理装置及び画像処理方法、並びにプログラム
JP4904235B2 (ja) * 2007-09-20 2012-03-28 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP5006764B2 (ja) * 2007-11-08 2012-08-22 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、および記憶媒体
JP5132347B2 (ja) * 2008-02-13 2013-01-30 キヤノン株式会社 画像処理システム
JP4991590B2 (ja) * 2008-02-14 2012-08-01 キヤノン株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び、記憶媒体
JP5063422B2 (ja) * 2008-03-14 2012-10-31 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5111268B2 (ja) * 2008-07-09 2013-01-09 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
US8947438B2 (en) * 2011-08-01 2015-02-03 Microsoft Corporation Reducing font instructions
US9021052B2 (en) * 2012-09-28 2015-04-28 Interactive Memories, Inc. Method for caching data on client device to optimize server data persistence in building of an image-based project
US10346560B2 (en) * 2013-02-14 2019-07-09 Plangrid, Inc. Electronic blueprint system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035463B1 (en) * 1999-03-01 2006-04-25 Matsushita Electric Industrial Co., Ltd. Document image processor, method for extracting document title, and method for imparting document tag information
CN1625206A (zh) * 2003-11-20 2005-06-08 佳能株式会社 图像处理装置及其控制方法
CN1627786A (zh) * 2003-12-05 2005-06-15 佳能株式会社 图像处理系统以及图像处理方法
CN101419661A (zh) * 2007-10-26 2009-04-29 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统

Also Published As

Publication number Publication date
US9575935B2 (en) 2017-02-21
CN104809099A (zh) 2015-07-29
JP6000992B2 (ja) 2016-10-05
US20150215653A1 (en) 2015-07-30
JP2015138496A (ja) 2015-07-30

Similar Documents

Publication Publication Date Title
CN104809099B (zh) 文档文件生成装置及文档文件生成方法
US10572725B1 (en) Form image field extraction
CN108520254B (zh) 一种基于格式化图像的文本检测方法、装置以及相关设备
KR100658119B1 (ko) 문자 인식 장치 및 방법
WO2017016240A1 (zh) 一种钞票冠字号识别方法
EP0542566B1 (en) Character recognition method and apparatus thereof
US11087163B2 (en) Neural network-based optical character recognition
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
CN105512657B (zh) 字符识别方法和设备
CN114092700B (zh) 基于目标检测和知识图谱的古文字识别方法
CN112949455B (zh) 一种增值税发票识别系统及方法
CN110490190A (zh) 一种结构化图像文字识别方法及系统
CN110363190A (zh) 一种文字识别方法、装置及设备
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN109726369B (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN111062262A (zh) 发票识别方法以及发票识别装置
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
JP6432179B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
CN110991371A (zh) 一种基于坐标识别的智能阅读学习方法
Naz et al. Arabic script based character segmentation: a review
CN114627457A (zh) 一种票面信息识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180323

Termination date: 20220123