CN109274850A - 图像处理装置和图像处理装置的控制方法 - Google Patents

图像处理装置和图像处理装置的控制方法 Download PDF

Info

Publication number
CN109274850A
CN109274850A CN201810750630.9A CN201810750630A CN109274850A CN 109274850 A CN109274850 A CN 109274850A CN 201810750630 A CN201810750630 A CN 201810750630A CN 109274850 A CN109274850 A CN 109274850A
Authority
CN
China
Prior art keywords
document files
text
processing
generating unit
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810750630.9A
Other languages
English (en)
Other versions
CN109274850B (zh
Inventor
桂健
桂健一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Publication of CN109274850A publication Critical patent/CN109274850A/zh
Application granted granted Critical
Publication of CN109274850B publication Critical patent/CN109274850B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/00411Display of information to the user, e.g. menus the display also being used for user input, e.g. touch screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6072Colour correction or control adapting to different types of images, e.g. characters, graphs, black and white image portions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/64Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor
    • H04N1/642Adapting to different types of images, e.g. characters, graphs, black and white image portions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

本发明提供图像处理装置和图像处理装置的控制方法。所述图像处理装置包含从图像数据抽取文字区域的布局分析部、生成文字区域的文字的文本数据的OCR处理部、以及文档文件生成部。文档文件生成部根据文字区域的大小,选择第一生成处理或第二生成处理。第一生成处理是生成粘贴有包含文本数据的文本框的文档文件的处理。第二生成处理是不使用文本框、而直接记入文本数据生成文档文件的处理。

Description

图像处理装置和图像处理装置的控制方法
技术领域
本发明涉及转换图像数据并生成文档文件的图像处理装置。
背景技术
有时会将纸质文档(原稿)电子化。进行电子化时,须读取原稿。有时将读取得到的图像数据进行转换,生成与图像数据的文件形式不同形式的文件。
以下这种关于纸质文档的电子化的一例技术已被公众所知。具体公开有一种图像处理装置,识别图像的区域、进行与图像的区域对应的图像处理,并将图像处理过的数据结构化、生成表示图像的内容的内容数据,生成多个转换数据,所述转换数据用于基于区域识别将内容数据转换为各应用程序软件能利用的数据。原稿包含字符串和表等多种信息。根据信息的种类,适合编辑的软件不同。因此,对读取得到的图像数据进行转换时,有时会同时生成形式不同的多个文件。相比按照编辑中使用的各种软件生成文件,需要减小制作的数据的总量。
将纸质文档(原稿)电子化时,进行原稿的读取。有时将读取得到的图像数据转换为特定形式的文件。而且,有时能设定如何转换。例如,使用者从多个转换方法中选择一个方法。例如,使用者选择能顺利编辑转换后的文件的转换方法。图像处理装置应用设定的方法,从图像数据生成新的文件。
需要考虑原稿的页面的内容和生成的文件的使用目的,选择合适的转换方法。以往,将多个原稿连续电子化时,将选择的一个方法应用于所有页面。而原稿所含的信息(内容)每页都不尽相同。例如,有含表的页面,也有不含表的页面。此外,有文字多的页面,也有文字少的页面。因此,有时会出现转换方法不适合的页面。另一方面,为防止不适当的转换,也可考虑按一个个页面设定转换方法。可是,存在一个个页面设定转换方法给使用者带来负担的问题。
这里,上述的公知技术是用于减小制作的数据的总量的技术。因此,上述的公知技术不能解决上述的问题。
发明内容
鉴于上述现有技术的问题,本发明的目的是以使文档文件的编辑作业变得容易的方式自动选择文档文件的生成处理,从而消除使用者的麻烦。
本发明的图像处理装置包含布局分析部、OCR处理部、文档文件生成部。所述布局分析部分析图像数据的布局。所述布局分析部从所述图像数据抽取包含文字的文字区域。所述OCR处理部识别所述文字区域所含的文字。所述OCR处理部生成文本数据。所述文档文件生成部用所述文字区域的面积除以所述文字区域和所述文字区域以外的区域的合计面积而求出比率。当所述比率不足阈值时,所述文档文件生成部通过第一生成处理生成文档文件。当所述比率在所述阈值以上时,所述文档文件生成部通过第二生成处理生成所述文档文件。所述第一生成处理是生成粘贴有包含所述文本数据的文本框的所述文档文件的处理。所述第二生成处理是不使用所述文本框、而直接记入所述文本数据生成所述文档文件的处理。
此外,本发明的图像处理装置的控制方法,包括:分析图像数据的布局,从所述图像数据抽取包含文字的文字区域;识别所述文字区域所含的文字,生成文本数据;用所述文字区域的面积除以所述文字区域和所述文字区域以外的区域的合计面积而求出比率;当所述比率不足阈值时,通过第一生成处理生成文档文件;当所述比率在所述阈值以上时,通过第二生成处理生成所述文档文件;所述第一生成处理是生成粘贴有包含所述文本数据的文本框的所述文档文件的处理;所述第二生成处理是不使用所述文本框、而直接记入所述文本数据生成所述文档文件的处理。
按照本发明的图像处理装置和图像处理装置的控制方法,可以从基于图像数据的文档文件的多个生成处理中,自动选择使文档文件的编辑作业变得容易的生成处理。可以消除使用者的麻烦。
在以下所示的实施方式中进一步说明本发明的更多特征和优点。
附图说明
图1是表示实施方式的数码复合机的一例的图。
图2是表示实施方式的图像读取部和控制部的一例的图。
图3是表示读取原稿得到的图像数据的一例的图。
图4是表示通过实施方式的第一生成处理生成的文档文件的一例的图。
图5是表示通过实施方式的第一生成处理生成的XML形式的文件的一例的图。
图6是表示图像数据(原稿)的另一例的图。
图7是表示通过实施方式的第二生成处理生成的文档文件的一例的图。
图8是表示通过实施方式的第二生成处理生成的XML形式的文件的一例的图。
图9是表示实施方式的数码复合机中的文档文件的生成的流程的一例的图。
具体实施方式
鉴于上述现有技术的问题点,本发明以使文档文件的编辑作业变得容易的方式自动选择文档文件的生成处理,从而消除使用者的麻烦。以下,采用图1~图9,说明实施方式的图像处理装置。作为图像处理装置以数码复合机100为例进行说明。数码复合机100除了能读取原稿,还能进行印刷、发信。数码复合机100也是图像形成装置。本实施方式的说明中记述的构成、配置等各要素不限制发明的范围,仅仅是说明示例。
(数码复合机100)
采用图1,说明实施方式的数码复合机100的一例。如图1所示,数码复合机100包含控制部1、存储部2、操作面板3、印刷部4、通信部5、图像读取部6、原稿输送部7。
控制部1控制数码复合机100。控制部1包含CPU11和图像处理部8。存储部2包含ROM、闪存ROM、存储器(HDD)等非易失性存储装置。存储部2也包含RAM等易失性存储装置。控制部1利用存储部2中存储的程序和数据对各部分进行控制。此外,控制部1控制原稿读取和图像数据的生成。图像处理部8是图像处理专用的集成电路。例如,图像处理部8为ASIC。图像处理部8进行图像数据的图像处理。
操作面板3包含显示面板31、接触面板32、硬键33。控制部1使显示面板31显示设定用画面和操作用图像。操作用图像为例如按钮、键、选项。根据接触面板32的输出,控制部1识别被操作的操作用图像。硬键33包含开始键和数码键。接触面板32、硬键33受理使用者的设定操作。控制部1和操作面板3通信。控制部1识别设定内容。
印刷部4包含供纸部4a、纸输送部4b、图像形成部4c和定影部4d。印刷作业时,控制部1使供纸部4a供给纸张。控制部1使纸输送部4b输送纸张。纸输送部4b将印刷结束纸张向机外排出。控制部1使图像形成部4c形成基于图像数据的调色剂像。控制部1使图像形成部4c向输送纸张转印调色剂像。控制部1使定影部4d将转印的调色剂像定影到纸张上。控制部1控制印刷部4的动作。
通信部5和计算机200能通信地连接。通信部5和计算机200借助网络通信。通信部5包含通信用电路和通信用软件。通信部5接收从计算机200发送来的印刷用数据。印刷用数据包含图像数据和用页面记述语言记述的数据。控制部1使印刷部4根据接收的印刷用数据进行印刷(打印作业)。
图像读取部6包含原稿玻璃(未图示),原稿玻璃透光。原稿设置在原稿玻璃上。图像读取部6向设置在原稿玻璃上的原稿照射光。图像读取部6通过读取原稿的下侧的面,生成图像数据。控制部1将生成的图像数据存储在存储部2中。
此外,原稿输送部7能开闭。关闭时,原稿输送部7按压原稿玻璃上的原稿。原稿输送部7将设置的原稿自动地1枚枚向读取位置(输送读取用接触玻璃)输送。输送读取用玻璃(未图示)设置在图像读取部6上。输送原稿在输送读取用玻璃上通过。图像读取部6向通过输送读取用接触玻璃的原稿照射光。图像读取部6读取原稿并生成图像数据。控制部1将生成的图像数据存储在存储部2中。
(图像读取部6和控制部1)
接下来,采用图2、图3,说明实施方式的图像读取部6和控制部1的一例。如图2所示,图像读取部6包含灯61、图像传感器62、图像数据生成电路63。读取原稿时,灯61向原稿照射光。灯61例如包含发光二极管。图像传感器62包含多个受光元件(像素)。受光元件在主扫描方向上排列。图像传感器62对应彩色的读取。因此,图像传感器62包含R、G、B这三色的线阵传感器。被原稿反射的光,入射到受光元件。线阵传感器的各受光元件,输出与受光量(反射光量)对应的模拟图像信号。
图像数据生成电路63根据从图像传感器62输出的模拟图像信号,生成图像数据。图像数据生成电路63包含用于调整模拟图像信号的调整电路。调整电路例如是放大电路和补偿电路。此外,图像数据生成电路63包含A/D转换电路。A/D转换电路将调整的模拟图像信号转换为数字值。此外,图像数据生成电路63包含校正电路。校正电路对由灯61的发光特性以及图像传感器62的读取特性引起的数字值的失真进行校正。校正电路例如进行阴影校正。
这里,数码复合机100从读取得到的图像数据生成文档文件10。控制部1(CPU11,图像处理部8)从图像数据生成文档文件10。如图2所示,关于文档文件10的生成,控制部1包含布局分析部81、OCR处理部82、文档文件生成部83、色数识别部84、尺寸识别部85。
CPU11可以作为布局分析部81、OCR处理部82、文档文件生成部83、色数识别部84、尺寸识别部85中的一个或多个而动作。此时,CPU11根据存储部2中存储的程序进行处理。此外,布局分析部81、OCR处理部82、文档文件生成部83、色数识别部84、尺寸识别部85中的一个或多个,也可以设置为硬件(电路)。例如,图像处理部8内的一部分也可以设有电路。
布局分析部81分析图像数据的布局。而且,布局分析部81例如从图像数据抽取文字区域91、图区域92、表区域93。文字区域91是仅具有字符串(文字)的区域。图区域92是包含图形、照片等图的区域。表区域93是包含表的区域。表包含网格、框。有时在框内包含文字。另外,布局分析部81为抽出合适的区域,也可以进行倾斜校正处理。
各区域的抽取的算法,可以适当决定。只要是能抽取区域的算法即可。例如,布局分析部81从图像数据抽取作为图像的块(集合)。布局分析部81抽取矩形的块。例如,布局分析部81将图像数据二值化。对二值化的数据中具有预定的第一阈值以上的宽度的空白区域进行识别。第一阈值存储在存储部2中。布局分析部81可以在图像数据中,与空白区域对应的区域内设定块的边界。此外,布局分析部81可以将二值化的数据中,处于规定距离内的黑像素集合化(结合)。而且,布局分析部81识别覆盖集合化的像素群的最小的矩形。布局分析部81也可以将图像数据中,与矩形对应的区域作为一个块。此外,布局分析部81可以利用其他的方法抽取块。
图3用虚线框表示了抽取的块的一例。接着,布局分析部81将抽取的块分类为文字区域91、图区域92、表区域93的任意一个。
例如,布局分析部81识别块中所含的像素中,具有规定浓度以上的浓像素值的像素。规定浓度是预定的。布局分析部81对每个具有规定浓度以上的浓像素值并相连的像素的群,决定外接矩形。例如,黑字的情况下,决定包围黑字的矩形。
在图(照片)、表等中,外接矩形变大。当块内的全外接矩形小于预定的第二阈值时,布局分析部81将所述块分类为文字区域91。第二阈值存储在存储部2中。布局分析部81识别剩余的块中,直线的成分。例如,布局分析部81采用霍夫转换处理,识别直线(线段)。布局分析部81将各直线的端部以形成表的方式连接的块分类为表区域93。布局分析部81将抽取块中,不能分类为文字区域91和表区域93的任何一个的块分类为图区域92。另外,布局分析部81也可以通过其他的方法进行分类。
OCR处理部82进行文字区域91的文字识别处理。OCR处理部82识别文字区域91所含的字符串(行)。例如,OCR处理部82用框围住字符串。此外,OCR处理部82识别字符串所含的各个文字。OCR处理部82根据文字间隔(空白),用框围住各个文字。OCR处理部82可以通过模式匹配识别各文字。此外,OCR处理部82可以识别各文字的特征点,根据特征点识别文字。用于识别文字的文字识别用数据D1存储在存储部2中。OCR处理部82采用文字识别用数据D1,识别文字。而且,OCR处理部82生成文字区域91所含的文字的文本数据T1。
文档文件生成部83根据输入的图像数据,生成文档文件10。文档文件10包含由OCR处理生成的文本数据T1。文档文件生成部83对每个图像数据(页面),选择第一生成处理和第二生成处理的任意一方。文档文件生成部83通过进行所选择的生成处理来生成文档文件10。
文档文件生成部83生成XML(Extensible Markup Language)形式的文件作为文档文件10。文档文件生成部83生成文本制作用软件(文字处理软件)能使用的形式的文档文件10。文字处理软件例如是微软公司的WORD。文档文件生成部83可以生成其他的文字处理软件能利用的形式的文档文件10。此外,文档文件生成部83,可以生成XML以外的形式的文件作为文档文件10。
色数识别部84对文字区域91所含的文字使用的色数进行计数。色数的上限值适当决定。例如,色数识别部84将文字区域91所含的像素中,具有视为白色的像素值的像素除外。而且,色数识别部84将剩余的像素分类为黑、灰、红、黄、绿、蓝、紫的任意一个。对各色预定像素值的范围。色数中也可以包含红、黄、绿、蓝、紫的各中间色(橙、黄绿、蓝绿、蓝紫、红紫)。此时,色数识别部84将像素分类为12色中的任意一个。色数识别部84对分类的颜色的数量进行计数。例如,将文字区域91所含的像素分类为黑、红、绿的任意一个时,色数识别部84识别色数为3。
尺寸识别部85识别文字区域91所含的各个文字的尺寸。尺寸识别部85根据OCR处理部82围住的字符串的高度或宽度,识别文字的尺寸。此外,尺寸识别部85可以根据OCR处理部82围住的各个文字的框的大小,识别文字的尺寸。
控制部1将从图像数据生成的文档文件10,存储在存储部2中。而且,控制部1使通信部5向收件人地址中设定的计算机200发送生成的文档文件10。各使用者可以采用计算机200和计算机200中安装的软件,编辑文档文件10。
操作面板3受理读取原稿并生成文档文件10的作业(文档文件生成作业)的执行指示。此外,操作面板3受理生成的文档文件10的发送目的地的设定。另外,有时希望在数码复合机100中存储文档文件10。因此,可以设定存储部2作为收件人地址。例如,操作面板3受理将存储部2中设置的文件夹作为收件人地址的设定。
(第一生成处理)
接下来,采用图4、图5,说明实施方式的第一生成处理的一例。第一生成处理是生成文档文件10的一种方法。第一生成处理时,文档文件生成部83生成将文字区域91所含的文字的文本数据T1作为目标对象而粘贴的文档文件10。包含文字区域91所含的文字的文本数据T1的目标对象是文本框10a。
图4表示了根据由图3所示的原稿的读取而得到的图像数据并通过第一生成处理生成的文档文件10的一例。图4中粗虚线表示文本框10a的外框的一例。
此外,第一生成处理时,文档文件生成部83生成将图区域92作为目标对象而粘贴的文档文件10。第一生成处理时,文档文件生成部83从图像数据切出图区域92(复制)。而后,文档文件生成部83将图区域92的图像数据作为图像目标对象10b粘贴。在图4中,用粗点划线表示了与图区域92对应的图像目标对象10b的外框的一例。
此外,第一生成处理时,文档文件生成部83生成将表区域93作为目标对象而粘贴的文档文件10。第一生成处理时,文档文件生成部83从图像数据转换表区域93,生成用网格构成的表(表格数据10c)。另外,表内的文字、数字,由OCR处理部82识别。而后,文档文件生成部83将网格构成的表的数据作为目标对象粘贴。图4中用粗双点划线表示了与表区域93对应的表格数据10c的外框的一例。另外,文档文件生成部83可以从图像数据原状切出表区域93。而后,文档文件生成部83也可以将表区域93的图像数据作为图像目标对象10b粘贴。
文档文件生成部83生成在和原稿同样的位置设有各目标对象(文本框10a,图像目标对象10b,表格数据10c)的文档文件10。文档文件生成部83以成为和图像数据相同的方式设定各目标对象的大小。这样,可以生成与原稿近似的文档文件10。
图5表示了生成的XML文档的一例。XML文件包含表示要素名的标签。在XML文件中〈要素名〉是开始标签。〈/要素名〉是结束标签。例如,图5中「w:body」是要素名。图5中〈w:body〉是开始标签。图5中〈/w:body〉是结束标签。根据图3所示的原稿的图像数据,由第一生成处理生成文档文件10时,作为要素,文档文件10包含文本框10a、图像目标对象10b、表格数据10c。因此,如图5所示,文档文件生成部83生成XML文件,所述XML文件包含分别定义文本框10a、图像目标对象10b、表格数据10c的部分。
由第一生成处理生成的文档文件10,各要素作为目标对象粘贴。因此,优点是编辑时容易变更文字、图、表的布局。换句话说,优点是布局容易再构建。
(第二生成处理)
接下来,采用图6~图8,说明实施方式的第二生成处理的一例。第二生成处理是生成文档文件10的一种方法。第二生成处理时,文档文件生成部83不使用文本框10a。文档文件生成部83生成直接记入文本数据T1的文档文件10。
为便于理解,图6的图像数据是从图3的原稿删除了图和表的原稿。图6的原稿不含图区域92和表区域93。因此,在图6的原稿中,布局分析部81识别两个文字区域91。
图7表示了根据读取得到的图像数据并通过第二生成处理生成的文档文件10的一例。第二生成处理时,文档文件生成部83将文字区域91所含的文字的文本数据T1直接写入文档文件10。
图8表示了由第二生成处理生成的XML文档的一例。由第二生成处理生成文档文件10时,文档文件10不将文本框10a作为要素包含。如图8所示,文档文件生成部83生成不使用文本框10a的XML文件。文档文件生成部83生成在文档文件10的正文中直接定义文本数据T1的XML文件。
另外,第二生成处理的情况下,图像数据中包含图区域92时,文档文件生成部83生成将图区域92作为图像目标对象10b粘贴的文档文件10。第二生成处理的情况下,图像数据中包含表区域93时,文档文件生成部83生成将表区域93作为目标对象(表格数据10c)粘贴的文档文件10。上述的特征和第一生成处理相同。
由第二生成处理生成的文档文件10,文本数据T1直接粘贴在文档文件10中。优点是文本的全选择、复制、粘贴容易。换句话说,优点是文本编辑容易。
(生成文档文件10的流程)
接下来,采用图9,说明实施方式的数码复合机100中的文档文件10的生成流程的一例。图9的开始是在操作面板3上进行了文档文件生成作业的执行指示的时点。根据与操作面板3的通信,控制部1识别为进行了文档文件生成作业的执行指示。
首先,控制部1使图像读取部6读取原稿(步骤#1)。而后,控制部1使图像读取部6生成原稿的图像数据(步骤#2)。接着,控制部1使布局分析部81进行图像数据的布局分析(步骤#3)。布局分析部81将抽取的块分类为文字区域91、图区域92、表区域93中的任意一个(步骤#4)。而后,OCR处理部82识别文字区域91、表区域93的文字(步骤#5)。
接下来,文档文件生成部83(控制部1)求出文字区域91的面积(步骤#6)。此外,文档文件生成部83求出文字区域91以外的区域与文字区域91的合计面积(步骤#7)。而后,文档文件生成部83用文字区域91的面积除以合计面积而求出比率(步骤#8)。文字区域91的面积越多,比率越大。
求出面积时,文档文件生成部83对文字区域91的点数(像素数)进行计数。此外,求出合计面积时,文档文件生成部83将文字区域91的点数、图区域92的点数、表区域93的点数相加。
而后,文档文件生成部83设定阈值(步骤#9)。文档文件生成部83也可以将预定的基准值作为阈值。基准值例如是40~60%(0.4~0.6)的范围中的任意值。而后,文档文件生成部83确认比率是否在阈值以上(步骤#10)。
当比率不足阈值时(步骤#10的否),图像数据的文字区域91较少。可以说字符串(文本)较少。这种图像数据的文档文件10,有时布局的变更的频率较高。在此,当比率不足阈值时(步骤#10的否),文档文件生成部83通过进行第一生成处理生成文档文件10(步骤#11)。而后,本流程结束(终止)。
例如,图3的图像数据的情况下,文字区域91的比率为30%(0.3)左右。此时,文档文件生成部83以使布局容易变更的方式通过第一生成处理生成文档文件10。
当比率在阈值以上时(步骤#10的是),视为图像数据中字符串(文本)较多。考虑在这种图像数据的文档文件10中,相比页面的布局的变更,文本(字符串)自身的编辑的频率更高。在此,当比率在阈值以上时(步骤#10的是),文档文件生成部83通过第二生成处理生成文档文件10(步骤#12)。而后,本流程结束(终止)。
例如,图6的图像数据的情况下,不含图和表。文字区域91的比率为100%。此时,文档文件生成部83以字符串容易编辑的方式由第二生成处理生成文档文件10。
这里,有时在图像数据(原稿)中文字采用多个颜色。有时将想强调的字符串着色。例如,有时将标题的字符串设为红色。此外,例如有时也将想强调的文章设为蓝色。即,有彩色的原稿。配置多个颜色的文字时,有时希望以颜色单位移动字符串。文字的色数越多,变更布局的编辑越容易。
在此,色数识别部84可以在步骤#9之前,对文字区域91所含的文字的色数进行计数。而后,在步骤#9中,色数越多,文档文件生成部83可以使阈值越大。例如,文档文件生成部83在色数上乘以预定的系数而得到第一计算值。系数存储在存储部2中。文档文件生成部83可以把在预定的基准值上加上第一计算值得到的值设定为阈值。另外,操作面板3也可以受理是否根据色数调整阈值的设定。当进行了根据色数设定阈值的设定时,色数越多,文档文件生成部83使阈值越大。色数越多,文档文件生成部83使阈值的调整量越大。色数越少,文档文件生成部83使阈值的调整量越小。
另外,文档文件生成部83使文档文件10包含和原稿(图像数据)相同颜色或近似颜色的文字。由第一生成处理生成文档文件10时,文档文件生成部83使文档文件10包含文本框10a,所述文本框10a包含与原稿(图像数据)相同颜色或近似颜色的文字。由第二生成处理生成文档文件10时,文档文件生成部83将与原稿(图像数据)相同颜色或近似颜色的文字粘贴在文本主体上。
此外,原稿有时包含各种尺寸的文字。有时将想强调的字符串的文字尺寸(point:磅)加大。例如,相比其他文字,将标题部分的文字的尺寸加大。而且,配置各种尺寸的字符串时,有时希望以相同尺寸单位移动字符串。配置有各种文字尺寸时,相比文本的编辑,有时变更布局的编辑容易进行。
在此,尺寸识别部85可以在步骤#9之前,识别文字区域91所含的各文字的尺寸。而后,在步骤#9中,使用文字的尺寸的种类越多,文档文件生成部83可以使阈值越大。例如,文档文件生成部83在使用文字的尺寸的种类上乘以系数,得到第二计算值。文档文件生成部83可以将第二计算值与基准值相加的值设定为阈值。另外,操作面板3也可以受理是否根据尺寸的种类的数量调整阈值的设定。当设定成根据尺寸的种类的数量设定阈值时,尺寸的种类的数量越多,文档文件生成部83使阈值越大。尺寸的种类的数量越多,文档文件生成部83使阈值的调整量越大。尺寸的种类的数量越少,文档文件生成部83使阈值的调整量越小。此外,文档文件生成部83可以将第一计算值和第二计算值与基准值相加的值设定为阈值。
另外,操作面板3也可以受理系数的设定。系数被设定时,文档文件生成部83采用设定的系数设定阈值。
另外,文档文件生成部83使文档文件10中包含和原稿(图像数据)相同或近似尺寸的文字。由第一生成处理生成文档文件10时,文档文件生成部83将含有和原稿(图像数据)相同或近似尺寸的文字的文本框10a包含在文档文件10中。由第二生成处理生成文档文件10时,文档文件生成部83将和原稿(图像数据)相同或近似尺寸的文字粘贴在文本主体中。
这里,对每1枚原稿执行图9的流程。原稿输送部7中设置多张原稿时,连续地并行执行图9的流程。此时,原稿输送部7将原稿1枚枚输送至读取位置。连续输送原稿、图像读取部6连续生成图像数据时,布局分析部81对一个个页面进行由图像读取部6生成的图像数据的布局的分析和各区域的抽取。文档文件生成部83对一个个页面选择是进行第一生成处理和第二生成处理中的哪一个。文档文件生成部83通过所选择的处理,生成对各页面的图像数据进行转换的文档文件10。另外,文档文件生成部83可以一个个页面地生成文档文件10。此外,文档文件生成部83也可以生成将多个页面汇总的文档文件10。
这样,实施方式的图像处理装置(数码复合机100)包含布局分析部81、OCR处理部82、文档文件生成部83。布局分析部81分析图像数据的布局。布局分析部81从图像数据抽取包含文字的文字区域91。OCR处理部82识别文字区域91所含的文字。OCR处理部82生成文本数据T1。文档文件生成部83用文字区域91的面积除以文字区域91与文字区域91以外的区域的合计面积而求出比率。当比率不足阈值时,文档文件生成部83由第一生成处理生成文档文件10。当比率在阈值以上时,文档文件生成部83由第二生成处理生成文档文件10。
这样,根据文字区域91的大小,可以从多种生成处理中自动选择应用的生成处理。使用者不用选择应用的生成处理。可以消除使用者的设定的麻烦。
并不是以和原稿完全一致的方式转换图像数据。生成的文档文件10会包含与原稿的差异醒目的部分。页面中文字区域91少而其他种类的区域多的情况下,为配合原稿,容易进行调整各区域的位置和尺寸的编辑。即,更多是进行布局变更的编辑。这里,如果移动文本框10a,就可以使内部的字符串整体移动。采用文本框10a的文档文件10,优点是布局的编辑、再构建容易。在此,文字区域91较少的情况下,由第一生成处理生成粘贴有文本框10a的文档文件10。能够以文档文件10的编辑作业容易的方式,生成文档文件10。
页面中的文字区域91较大时,主要是字符串(文章)成为编辑的对象。例如,字符串的复制、粘贴变多。直接粘贴到文本上的字符串(文本数据T1),比配置在文本框10a内的字符串更容易编辑。此外,文本中直接粘贴有文本数据T1时,比文本框10a内的文本更容易检索。在此,文字区域91的比例较大时,可以由第二生成处理生成直接粘贴有文本的文档文件10。可以生成适合文本的编辑、检索的文档文件10。能够以文档文件10的编辑作业容易的方式,生成文档文件10。
图像处理装置包含原稿输送部7和图像读取部6。原稿输送部7将原稿1枚枚输送到读取位置。图像读取部6读取输送来的原稿,生成图像数据。连续输送原稿、图像读取部6连续生成图像数据时,布局分析部81一个个页面地进行由图像读取部6生成的图像数据的布局的分析和区域的抽取。文档文件生成部83一个个页面地选择是进行第一生成处理和第二生成处理中的哪一个。文档文件生成部83通过进行所选择的处理,生成将各页面的图像数据进行转换的文档文件10。这样,将多个原稿连续电子化时,不必一个个页面地选择所采用的生成处理。使用者不会感到麻烦。可以提高使用便利性。
此外,布局分析部81从图像数据抽取文字区域91、包含图的图区域92和包含表的表区域93。文档文件生成部83将文字区域91、图区域92及表区域93的合计设为合计面积。文档文件生成部83生成将图区域92作为图像目标对象10b粘贴的文档文件10。文档文件生成部83生成将表区域93作为表格粘贴的文档文件10。这样,考虑1页面的文档所含的多个要素,可以判断是进行第一生成处理和第二生成处理中的哪一个。此外,图和表作为图像目标对象10b和表格等目标对象粘贴在文档文件10中。因此,可以改变文字、图、表的布局。
页面内文字的颜色多彩时,有时希望以相同颜色的文字单位移动字符串的位置。在此,图像处理装置包含色数识别部84,其用于对文字区域91所含的文字使用的色数进行计数。色数越多,文档文件生成部83使阈值越大。这样,可以根据页面内的文字的色数,自动调整阈值。文字的色数较多时,以能容易生成粘贴有文本框10a的文档文件10的方式,自动调整阈值。能够以生成后的编辑容易的方式,生成文档文件10。
页面内使用各种尺寸(point:磅)的文字时,有时希望以相同尺寸的字符串单位移动字符串的位置。在此,图像处理装置包含尺寸识别部85,所述尺寸识别部85用于识别文字区域91所含文字的尺寸。文字的尺寸的种类越多,文档文件生成部83使阈值越大。这样,可以根据页面内文字的尺寸的种类,自动调整阈值。能够以页面内文字的尺寸的种类越多,越容易生成粘贴有文本框10a的文档文件10的方式,自动调整阈值。能够以生成后的编辑容易的方式,生成文档文件10。
此外,作为文档文件10,文档文件生成部83生成XML形式的文件。近年的文字处理软件(文本编辑软件)和XML形式的文件对应。因此,可以生成通用性高的文档文件10。
此外,以上说明了本发明的实施方式,但是本发明的范围不限于此,在不脱离发明思想的范围内可以追加实施各种变更。
例如,上述说明的示例根据图像读取部6生成的图像数据,生成文档文件10。可是,图像数据也可以是通信部5接收的图像数据。例如,图像数据可以是任意一个计算机200发送的图像数据。此外,图像数据也可以是通过网络连接的其他图像形成装置发送的图像数据。

Claims (9)

1.一种图像处理装置,其特征在于包括:
布局分析部,分析图像数据的布局,从所述图像数据抽取包含文字的文字区域;
OCR处理部,识别所述文字区域所含的文字,生成文本数据;以及
文档文件生成部,
所述文档文件生成部用所述文字区域的面积除以所述文字区域和所述文字区域以外的区域的合计面积而求出比率,
当所述比率不足阈值时,所述文档文件生成部通过第一生成处理生成文档文件,
当所述比率在所述阈值以上时,所述文档文件生成部通过第二生成处理生成所述文档文件,
所述第一生成处理是生成粘贴有文本框的所述文档文件的处理,所述文本框包含所述文本数据,
所述第二生成处理是不使用所述文本框、而直接记入所述文本数据生成所述文档文件的处理。
2.根据权利要求1所述的图像处理装置,其特征在于,包括:
原稿输送部,将原稿1枚枚输送到读取位置;以及
图像读取部,读取输送来的原稿,生成所述图像数据,
在连续输送原稿、所述图像读取部连续生成所述图像数据时,所述布局分析部一个个页面地进行由所述图像读取部生成的所述图像数据的布局的分析和区域的抽取,
所述文档文件生成部,
一个个页面地选择是进行所述第一生成处理和所述第二生成处理中的哪一个,
并通过进行所选择的处理,生成对各页面的所述图像数据进行转换的所述文档文件。
3.根据权利要求1或2所述的图像处理装置,其特征在于,
所述布局分析部从所述图像数据抽取所述文字区域、包含图的图区域、包含表的表区域,
所述文档文件生成部,
将所述文字区域、所述图区域及所述表区域的合计设为所述合计面积,
生成将所述图区域作为图像目标对象粘贴的所述文档文件,
生成将所述表区域作为表格数据粘贴的所述文档文件。
4.根据权利要求1或2所述的图像处理装置,其特征在于,
包括色数识别部,所述色数识别部对所述文字区域所含的文字使用的色数进行计数,
色数越多,所述文档文件生成部使所述阈值越大。
5.根据权利要求4所述的图像处理装置,其特征在于,
所述文档文件生成部,
在所述色数上乘以预定的系数而求出第一计算值,
将预定的基准值加上所述第一计算值得到的值设定为阈值。
6.根据权利要求1或2所述的图像处理装置,其特征在于,
包括尺寸识别部,所述尺寸识别部识别所述文字区域所含的文字的尺寸,
文字的尺寸的种类越多,所述文档文件生成部使所述阈值越大。
7.根据权利要求6所述的图像处理装置,其特征在于,
所述文档文件生成部,
在使用的文字尺寸的种类上乘以系数而求出第二计算值,
将预定的基准值加上所述第二计算值得到的值设定为阈值。
8.根据权利要求1或2所述的图像处理装置,其特征在于,所述文档文件生成部生成XML形式的文件作为所述文档文件。
9.一种图像处理装置的控制方法,其特征在于包括:
分析图像数据的布局,从所述图像数据抽取包含文字的文字区域;
识别所述文字区域所含的文字,生成文本数据;
用所述文字区域的面积除以所述文字区域和所述文字区域以外的区域的合计面积而求出比率;
当所述比率不足阈值时,通过第一生成处理生成文档文件;
当所述比率在所述阈值以上时,通过第二生成处理生成所述文档文件;
所述第一生成处理是生成粘贴有文本框的所述文档文件的处理,所述文本框包含所述文本数据;
所述第二生成处理是不使用所述文本框、而直接记入所述文本数据生成所述文档文件的处理。
CN201810750630.9A 2017-07-18 2018-07-10 图像处理装置和图像处理装置的控制方法 Expired - Fee Related CN109274850B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-139124 2017-07-18
JP2017139124A JP6950320B2 (ja) 2017-07-18 2017-07-18 画像処理装置

Publications (2)

Publication Number Publication Date
CN109274850A true CN109274850A (zh) 2019-01-25
CN109274850B CN109274850B (zh) 2020-07-31

Family

ID=65014465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810750630.9A Expired - Fee Related CN109274850B (zh) 2017-07-18 2018-07-10 图像处理装置和图像处理装置的控制方法

Country Status (3)

Country Link
US (1) US10455116B2 (zh)
JP (1) JP6950320B2 (zh)
CN (1) CN109274850B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160553A (ja) * 2019-03-25 2020-10-01 東芝テック株式会社 画像処理プログラム、及び画像処理装置
US11556610B2 (en) * 2019-11-08 2023-01-17 Accenture Global Solutions Limited Content alignment
JP2022018202A (ja) * 2020-07-15 2022-01-27 株式会社リコー 情報処理装置およびプログラム
US11651606B1 (en) * 2022-05-31 2023-05-16 Intuit, Inc. Method and system for document data extraction

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131863A (ja) * 2001-08-15 2003-05-09 Square Co Ltd 表示制御方法、情報処理装置、プログラム及び記録媒体
US20070286507A1 (en) * 2006-06-12 2007-12-13 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing method, and image processing program
US20080062483A1 (en) * 2006-09-13 2008-03-13 Satoshi Morimoto Image processing method, image processing apparatus, manuscript reading apparatus, image forming apparatus and recording medium
JP4442701B2 (ja) * 2008-06-04 2010-03-31 コニカミノルタビジネステクノロジーズ株式会社 領域判別方法、画像圧縮方法、画像圧縮装置、およびコンピュータプログラム
US20100253953A1 (en) * 2008-12-26 2010-10-07 Konica Minolta Business Technologies, Inc. Image processing apparatus, data amount reducing method, and data amount reducing program embodied on computer readable medium
CN102096571A (zh) * 2009-12-11 2011-06-15 柯尼卡美能达商用科技株式会社 可变印刷控制装置以及控制程序
US20110252315A1 (en) * 2010-04-07 2011-10-13 Canon Kabushiki Kaisha Image processing device, image processing method and non-transitory computer readable storage medium
CN102782703A (zh) * 2010-03-11 2012-11-14 微软公司 经历光学字符识别的图像的页面布局确定
CN105094757A (zh) * 2014-04-29 2015-11-25 阿里巴巴集团控股有限公司 在安卓系统上清空文本内容的方法、装置和终端设备
CN107977658A (zh) * 2017-12-27 2018-05-01 深圳Tcl新技术有限公司 图像文字区域的识别方法、电视机和可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5020698B2 (ja) 2007-05-09 2012-09-05 キヤノン株式会社 画像処理装置、画像処理方法、画像処理プログラム
JP6559415B2 (ja) * 2014-11-20 2019-08-14 シャープ株式会社 文書画像処理装置、それを備えた情報処理装置、プログラム、及び記録媒体

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131863A (ja) * 2001-08-15 2003-05-09 Square Co Ltd 表示制御方法、情報処理装置、プログラム及び記録媒体
US20070286507A1 (en) * 2006-06-12 2007-12-13 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing method, and image processing program
US20080062483A1 (en) * 2006-09-13 2008-03-13 Satoshi Morimoto Image processing method, image processing apparatus, manuscript reading apparatus, image forming apparatus and recording medium
JP4442701B2 (ja) * 2008-06-04 2010-03-31 コニカミノルタビジネステクノロジーズ株式会社 領域判別方法、画像圧縮方法、画像圧縮装置、およびコンピュータプログラム
US20100253953A1 (en) * 2008-12-26 2010-10-07 Konica Minolta Business Technologies, Inc. Image processing apparatus, data amount reducing method, and data amount reducing program embodied on computer readable medium
CN102096571A (zh) * 2009-12-11 2011-06-15 柯尼卡美能达商用科技株式会社 可变印刷控制装置以及控制程序
CN102782703A (zh) * 2010-03-11 2012-11-14 微软公司 经历光学字符识别的图像的页面布局确定
US20110252315A1 (en) * 2010-04-07 2011-10-13 Canon Kabushiki Kaisha Image processing device, image processing method and non-transitory computer readable storage medium
CN105094757A (zh) * 2014-04-29 2015-11-25 阿里巴巴集团控股有限公司 在安卓系统上清空文本内容的方法、装置和终端设备
CN107977658A (zh) * 2017-12-27 2018-05-01 深圳Tcl新技术有限公司 图像文字区域的识别方法、电视机和可读存储介质

Also Published As

Publication number Publication date
JP6950320B2 (ja) 2021-10-13
US10455116B2 (en) 2019-10-22
CN109274850B (zh) 2020-07-31
US20190028607A1 (en) 2019-01-24
JP2019022085A (ja) 2019-02-07

Similar Documents

Publication Publication Date Title
CN109274850A (zh) 图像处理装置和图像处理装置的控制方法
US9641705B2 (en) Image forming apparatus for reading indicia on a sheet and inserting images on a subsequent printed sheet at a location corresponding to the location of the read indicia
EP0762329A2 (en) Graphic processing apparatus
JP5975932B2 (ja) 画像処理装置及び画像処理方法
CN105160538A (zh) 一种印刷品在线设计服务云平台及其在线设计方法
US10447882B2 (en) Image reading apparatus and image reading method
JP2017107455A (ja) 情報処理装置、制御方法、及びプログラム
US20060209125A1 (en) Color image processing apparatus
CN104641368A (zh) 图像处理装置、图像形成装置以及记录介质
CN101546383B (zh) 图像处理设备和方法
CN101166225A (zh) 图像处理装置和图像处理方法
US9338327B2 (en) Image processing device
WO2017110640A1 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US7983485B2 (en) System and method for identifying symbols for processing images
US9338310B2 (en) Image processing apparatus and computer-readable medium for determining pixel value of a target area and converting the pixel value to a specified value of a target image data
JP5583103B2 (ja) 文書ファイル出力装置、文書ファイル出力方法、及びコンピュータプログラム
US9277074B2 (en) Image processing apparatus, method, and medium determining whether image data of a page to be processed is blank and contains a foreground object and transmitting the foreground object obtained by removing a background object
CN107665346A (zh) 信息提取装置、具有信息提取装置的图像形成装置、信息提取装置的控制方法
JP6855022B2 (ja) 画像形成装置、画像形成方法及び画像形成プログラム
US10044908B2 (en) Image processing system, image processing method and recording medium
US20060023236A1 (en) Method and arrangement for copying documents
US20040017476A1 (en) Printing system, layout data generation device, print data processing device and program
US20200202123A1 (en) Information processing device and information processing method
US20200202156A1 (en) Information processing device and information processing method
JP2006205642A (ja) 小冊子データ作成方法、印刷システム、印刷制御装置、及び小冊子データ作成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200731

CF01 Termination of patent right due to non-payment of annual fee