CN101458699B - 图像处理装置和图像处理方法 - Google Patents

图像处理装置和图像处理方法 Download PDF

Info

Publication number
CN101458699B
CN101458699B CN200810183281.3A CN200810183281A CN101458699B CN 101458699 B CN101458699 B CN 101458699B CN 200810183281 A CN200810183281 A CN 200810183281A CN 101458699 B CN101458699 B CN 101458699B
Authority
CN
China
Prior art keywords
character
electronic document
shape data
multiple different
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810183281.3A
Other languages
English (en)
Other versions
CN101458699A (zh
Inventor
榎本诚
金津知俊
中西惠子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN101458699A publication Critical patent/CN101458699A/zh
Application granted granted Critical
Publication of CN101458699B publication Critical patent/CN101458699B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Abstract

本发明提供一种图像处理装置和图像处理方法。在页面图像和字符的绘制描述的电子文档中,希望尽管绘制字符所需的字体数据被保持在电子文档中,但是可以将电子文档的大小最小化。另外,希望在突出显示搜索时确保可见度。生成了一种存储了文档图像、多个字符代码以及多种字体数据的电子文档,其中,多个字符代码是通过对文档图像执行字符识别处理而获得的。在绘制与多个所述字符代码相对应的字符时,选择所述多种字体数据中的一种字体数据,并且对于多个所述字符代码共同使用所选择的字体数据。字体数据是具有简单形状的字体数据,则是更令人满意的。

Description

图像处理装置和图像处理方法
技术领域
本发明涉及一种将纸文档转换成可以进行电子搜索的数据的技术。
背景技术
近年来,扫描仪或硬盘等大容量存储装置允许用计算机对一直以来存储为纸文档的文档进行处理的简单操作,以及将文档存储为电子文档的简单操作。尤其是,不仅扫描纸文档以将其转换成图像数据,一般还执行了通过字符识别技术来读取写在纸文档上的字符信息以将其存储为图像的附加信息。对于已经以这种方式存储的电子文档,用户通过将包括在输入的原始文档中的字符串作为搜索关键字,可以高速地从大量存储的文档组中检索出所期望的文档。
另外,提出了如下的技术,在用户使用搜索关键字对涉及了这样的字符信息的电子文档进行搜索时,突出显示(highlight)在文档图像上描述了该搜索关键字的部分,从而使用户能够识别出该部分(例如,日本特开2000-322417)。在这种方式下,由于是在突出显示的状态来显示与该搜索关键字相对应的字符部分,所以即使在文档中出现相同关键字的多个描述点的情况下,通过切换页面图像,用户可以高效率地识别出关键字的描述点。
然而,还有一种将字符识别处理的结果作为透明文本(transparenttext)(被指定为绘制颜色的透明色的字符代码)嵌入到图像文件中,并以PDF(便携文档格式)格式来存储的技术。当显示已经以这种方法创建的PDF文件时,将透明文本绘制在文档图像中的字符图像上。因此,当进行关键字搜索时,搜索透明文本。然而,用户不能看到透明文本自身,从而看上去好像搜索图像。在这种方式下,基于利用能够绘制图像和字符的页面描述语言来描述的格式的文件,可以绘制能够利用搜索关键字搜索的图像。
为了使用PDF或SVG等页面描述语言来绘制在电子文档中字符,需要每个字符的字符形状信息,即字体数据。然而,由于一般字体数据的大小很大,出于减小电子文档的大小的目的,一般不将字体数据存储在电子文档中,并且在电子文档中做出对字体种类的指定。这样,当利用应用程序(application)来绘制时,可以使用安装在个人计算机中的字体来完成绘制。
另一方面,存在一些期望将字体数据存储在电子文档中的情况。例如,在使用其它个人计算机打开了已经通过使用文档创建应用程序而创建的电子文档的情况下,当在该电子文档中使用的字体数据没有被安装在该个人计算机时,不能准确地打开该电子文档。换句话说,如果字体数据自身存储在电子文档中,即使在使用未安装有指定的字体数据的个人计算机或应用程序来再生电子文档的情况下,也可准确地再生该电子文档。
另外,依赖于应用程序,在一些情况下,将用于绘制字符的字体数据存储在电子文档中是优选的必要条件。例如,对于意图长期存储的文件,在经过长的时间段后,由于OS的改变,作为默认安装的字体可能改变。因此,预计需要存储字体数据存储的形式。
此外,依赖于格式的形式,还存在将字体数据存储在电子文档中是必要条件的格式。例如,在XPS(XMLPaperSpecification,XML文件规格)格式中,在存储了文本数据的情况下,还需将字体数据一同存储。
然而,当将字体数据存储在电子文档中时,电子文档自身的大小增大。在文件大小增大的情况下,存在当通过网络发送电子文档时需要长的时间,或者存储时需要大的存储容量的问题。
以这种方法,在通过使用存储在电子文档中的字体数据来绘制文件格式的电子文档中,期望防止文件大小的增大。尤其是,在将扫描图像、字符识别处理的结果的文本数据以及用于文本绘制的字体数据一同存储在电子文档中的情况下,期望防止文件大小的增大。当由于格式的限制或系统的限制而必须将字体数据存储在电子文档中时,文件大小的增加可能是难以解决的。
另外,突出显示搜索结果时,依赖于显示文档的查看器(viewer)的特性,存在对搜索结果的不同的突出显示方法。即,依赖于对搜索结果突出显示的性能,有可能难以看到图像上的字符图像。
在这样的情况下,在将纸文档转换为可以进行电子搜索的电子文档的处理中,需要如下的功能。即,期望在将电子文档的大小最小化的同时确保搜索的突出显示时的可见度,即使将要使用的字体数据保持在电子文档中。
发明内容
本发明的一个目的是在能将电子文档的大小最小化的同时确保搜索的突出显示时的可见度,即使将要使用的字体数据保持在电子文档中。
根据本发明的第一个方面,提供一种图像处理装置,包括:字符识别单元,用于通过对文档图像中的多个字符图像执行字符识别处理,来获得与每个字符图像相对应的字符代码;以及生成单元,用于生成存储了所述文档图像、多个所述字符代码以及多种字体数据的电子文档,其中多个所述字符代码是由所述字符识别单元获得的,其中,在绘制与多个所述字符代码相对应的字符时,选择所述多种字体数据中的一种字体数据,并且对于多个所述字符代码共同使用所选择的字体数据。
根据本发明的第二个方面,提供一种图像处理装置,包括:搜索单元,用于利用输入的关键字来对存储了文档图像、多个字符代码以及多种字体数据的电子文档进行搜索,其中,所述多个字符代码是通过对所述文档图像执行字符识别处理而获得的,以及所述多种字体数据在绘制与所述多个字符代码相对应的字符时由所述多个字符代码共同使用;切换单元,用于接收来自用户的、关于所述多种字体数据的字体数据切换指示;以及电子文档显示单元,用于使用所述切换单元切换的字体数据,来突出显示作为所述搜索单元的搜索结果的、与所述关键字相一致的部分。
根据本发明的第三个方面,提供一种图像处理装置,包括:搜索单元,用于利用输入的关键字来对存储了文档图像、多个字符代码、多种字体数据以及属性数据的电子文档进行搜索,其中,所述多个字符代码是通过对所述文档图像执行字符识别处理而获得的,所述多种字体数据在绘制与所述多个字符代码相对应的字符时由所述多个字符代码共同使用,以及所述属性数据在选择用于绘制的字体数据时用作判断标准;以及电子文档显示单元,用于使用基于用作判断标准的所述属性数据从所述多种字体数据之中选择出来的字体数据,来突出显示作为所述搜索单元的搜索结果的、与所述关键字相一致的部分。
根据本发明的第四个方面,提供一种图像处理方法,包括:通过对文档图像中的多个字符图像执行字符识别处理来获得与每个字符图像相对应的字符代码;以及生成存储了文档图像、多个所述字符代码以及多种字体数据的电子文档,其中所述多个所述字符代码是通过所述字符识别处理而获得的,其中,在绘制与多个所述字符代码相对应的字符时,选择所述多种字体数据中的一种字体数据,并且对于多个所述字符代码共同使用所选择的字体数据。
根据本发明,纸文档被转换成包括被扫描的页面图像的绘制描述和(用透明色)绘制已经从该页面图像提取出的字符的描述的电子文档。在这种情况下,在该电子文档的内部部分,存储了由简单的字符形状形成的多种字体数据。另外,在每种字体数据中,使得由多个字符种类(多个不同的字符代码)共同使用一种字符形状。由此,尽管要使用的字体数据被保持在该电子文档中,也只需要少量的字体数据(字符形状数据),所以能够将该电子文档的文件大小(数据容量)最小化。此外,存储了一些字体数据,并且可以在多个字符形状之中进行切换并进行绘制。从而,即使在使用不同的应用程序的突出显示搜索的情况下,也可以实现高的可见度或操作性的显示
根据以下(参照附图)对典型实施例的说明,本发明的其它特征将变得显而易见。
附图说明
图1是示出根据本发明的实施例1和2的图像处理装置的配置例子的框图;
图2是示出根据本发明的实施例1和2的电子文档生成处理的例子的流程图;
图3是示出根据本发明的实施例1和2的电子文档搜索和浏览处理的例子的流程图;
图4是示出在图2中的步骤S208中执行的电子文档数据生成处理的例子的流程图;
图5是示出在图3中的步骤S307中执行的页面的绘制处理的例子的流程图;
图6是根据本发明的实施例1生成的电子文档的一个例子;
图7是在本发明的实施例1和2中处理的页面图像的一个例子;
图8是示出在本发明的实施例1和2中执行的区域分析处理的例子的图;
图9是在本发明的实施例1和2中生成的区域数据的一个例子;
图10是示出在本发明的实施例1和2中执行的字符识别处理的例子的图;
图11A和图11B是在本发明的实施例1和2中生成的字符代码串数据的例子;
图12是在本发明的实施例1和2中使用的字符代码串表的一个例子;
图13是在本发明的实施例1和2中执行的、将搜索点突出显示的页面显示的例子;
图14是在本发明的实施例1中执行的、将搜索点突出显示的页面显示的例子;
图15是根据本发明的实施例2生成的电子文档的一个例子;
图16是在本发明的实施例1中显示的UI的例子;
图17是当突出显示了搜索部分时,字符图像变为不可见的页面显示的例子;
图18是要处理的页面图像的例子;
图19是将搜索结果突出显示的页面显示的例子;以及
图20是将搜索结果突出显示的页面显示的例子。
具体实施方式
下面将参照附图说明根据本发明的优选实施例。然而,应理解,这些实施例中说明的组件是出于说明性的目的,本发明的范围不限于这些组件。
实施例1
下面将参照附图说明根据本发明的典型实施例。
图1是示出可以实现本发明的图像处理装置的配置的框图的一个例子。
附图标记100表示由如下各装置构成的、将纸文档转换成电子文档的图像处理装置。
附图标记101表示将已经被读取的纸文档的版面(pagespace)信息转换成图像的数据的扫描仪。附图标记102表示执行例如分析图像数据并将该图像数据转换成可搜索的电子文档的程序的CPU。存储器103和硬盘104是用于存储利用上述程序操作进行的向电子文档转换的结果或进程(progress)中的数据的存储装置。
附图标记105表示向装置外部输出已经根据上述程序生成的数据的网络I/F。附图标记106表示用于接收来自用户的指示的接口,该接口由输入键或触摸板等输入装置以及液晶等显示装置构成。
附图标记110表示搜索并浏览已经在图像处理装置100处创建的电子文档的图像处理装置,该图像处理装置由如下装置构成。
CPU111执行解释电子文档的数据并创建用于搜索或浏览的显示数据的程序,或者执行控制搜索操作的程序。存储器112和硬盘113是用于存储电子文档数据或者存储根据上述程序的操作而创建的显示数据或进程中的数据的存储装置。附图标记114表示用于将已经在装置外部创建了的电子文档传送到装置中的网络I/F。附图标记115表示用于接收来自用户的指示的接口,该接口由输入键或触摸板等输入装置以及液晶等显示装置构成。
附图标记120表示在图像处理装置100和图像处理装置110之间提供电子的连接的网络。
现在,使用图2和3的流程图说明根据实施例1的处理的例子。
图2是示出从已经通过例如在图像处理装置100处扫描纸文档而获得的图像数据来创建可搜索的电子文档,并且将该电子文档发送到图像处理装置110的处理的例子的流程图。
首先,在步骤S201中,根据来自用户的指示操作,确定要创建的电子文档的发送目的地和发送方法。经由用户接口106执行来自用户的指示。另外,从电子邮件或使用FTP的文件传送等可选方式(alternative)之中选择发送方法。
当用户设置纸文档并按下开始键时,在步骤S202中,扫描仪101通过使用已知的光电转换技术来扫描纸文档,以将纸文档转换成页面图像数据(文档图像)。在手动或使用自动文档给送器输入多个文档页面的情况下,将已经被扫描的纸文档的每一个页面转换成一个页面图像数据,并按输入顺序将其存储在存储器103中。
图7示出页面图像的例子。在图7的页面图像701中,出现了照片704以及由“A、I、U(每个均为日文字符)”的字符串702和“KA、KI、KU(每个均为日文字符)”的字符串703组成的字符图像。顺便提及,出于说明的目的,尽管用黑色矩形来简单地示出照片704,照片704实际上是自然图像。此外,在图7的例子中,尽管仅示出了字符串702和703以及照片704的例子,但是还可以是图形等其它区域。在图7中,示出了文档图像的例子,其中作为字符串702、703说明了平假名字符(日文字符),然而在本实施例中,字符不限于平假名字符,也可以使用字母和汉字字符(中文字符)等其它字符。图18是包括字母字符串1802、1803和照片1804的文档图像1801的例子。即,如果执行适合于每种语言的字符识别处理,则可以类似地对使用其它语言描述的文档执行将在后面说明的处理,而不限于日文文档。
至于页面图像数据的形式,例如,当纸文档为彩色时,是利用RGB的各8比特来表现其灰度的彩色图像;当纸文档为黑白时,是利用8比特来表现亮度的灰度级(grayscale)图像或者利用1比特来表现黑白的二值图像。
在步骤S203中,选择存储在存储器103中的未处理的页面图像数据作为处理对象图像。顺便提及,在有多个页面的图像的情况下,按输入顺序选择一个页面的图像作为处理对象。
在步骤S204中,从已经被选择的图像中,对具有文本区域、图形区域、照片区域和表区域等不同特性的各个区域进行区域识别的区域分析处理,并且生成关于每个已经被识别出的区域的区域数据并将其存储在存储器103中。顺便提及,在该区域数据中,包括了:在关于相应区域的边界矩形(boundingrectangle)的左上位置的图像中像素的x和y方向上的坐标值x和y;代表该边界矩形的大小(宽度和高度)的像素宽度和高度的数值Width和Height;以及文本和照片等区域类型。
在上述的区域分析处理中,采用了已知的技术(该技术还被称为区域识别处理、区域确定处理和区域提取处理)。例如,在采用了日本特开平6-68301所公开的技术的情况下,可以从二值文档图像数据中,提取沿横向或纵向排成一行的类似大小的黑像素块的范围作为文本区域。
这里,在图8和9中,示出了对在图7中示出的页面图像701进行区域分析处理的例子。图8中的附图标记801表示被确定为文本区域的区域,并且附图标记802表示被确定为照片区域的区域。图9是通过该区域分析处理而获得的区域数据的例子。同样当对包括字母字符串的页面图像(例如,图18中的图像1801)执行区域分析处理时,将获得与图7中的区域分析结果类似的区域分析结果。
接着,在步骤S205中,通过对已经被区域分析处理所识别的各文本区域中的字符图像执行字符识别处理,来获得各文本区域的字符代码串的数据并将其存储在存储器103中。这里,字符代码串的数据中,包括了:作为对区域中的每个字符图像的识别结果的字符代码信息;以及每个字符图像的边界矩形信息(边界矩形的左上处的坐标x和y及其宽度(Width)和高度(Height)信息)。
这里,将简要说明上述字符识别处理的例子。顺便提及,字符图像的字符识别处理可以采用已有的技术。
首先,在文档图像不是二值图像的情况下,对文本区域的内部部分执行二值化以获得在文本区域中的二值图像。对于该已经被二值化的各文本区域的内部部分,对每个垂直行或水平行中的黑像素的数量进行计数以创建直方图。基于长度和宽度的直方图,令周期性的直方图的方向为行方向,并且令直方图的黑像素的数量不小于预定阈值的部分成为形成字符行的部分,从而获得行图像(lineimage)带(strip)。随后,对每个行图像在垂直于行方向的方向上获得直方图,并且基于直方图的结果切割出每个字符的图像。该已经被切割出的范围是一个字符的边界矩形信息。顺便提及,尽管这里使用对黑像素的数量进行计数的直方图来做出判断,还可以使用示出每一行中有无黑像素的投影来做出字符区域的判断。
接着,从每个字符图像的边界矩形中的图像,检索例如边界成分以获得特征矢量,将该特征矢量与已经预先登记的字符识别字典中的特征矢量进行比较,以获得相似度。然后,将具有最高相似度的字符种类(字符的种类)的代码作为该矩形中的字符图像的字符代码。以这种方式,对于在文本区域中出现的所有字符的边界矩形,可以获得分配了字符代码的数据。然后,将已经从每个文本区域获得的字符代码集(set)作为字符代码串。
另外,关于英文句子的字符区域,还判断在字符之间是否存在单词之间的空格。例如,做出关于单词之间的距离是否很长的判断,或者通过字符图像的字符识别结果的字符串和单词字典之间的匹配来做出关于是否为单词之间的间隙的判断,由此可以判断是否存在单词之间的空格。在判断为存在单词之间的空格的情况下,将该空格的字符代码插入到字符代码串中。
顺便提及,上述的说明是一个例子,并且通过采用利用了其它已知技术的处理方法,可以获得字符代码串。
在图10以及图11A和11B中,示出了对图8中示出的文本区域801进行字符识别处理的例子。
从图10中的文本区域1000,切割出第一字符行1001和1002,并且从字符行1001的内部进一步切割出三个字符1011、1012和1013。然后,识别出每个字符,并且作为结果,获得对应于每个字符的字符代码,来生成如图11A的表1101所示的字符代码串数据。以相同的方法,对已经从字符行1002的内部切割出的三个字符1021、1022和1023进行字符识别处理,由此生成图11B中的字符代码串数据1102。图10以及图11A和11B示出对日文文本区域执行字符识别处理的情况,然而,本发明不限于日文。例如,还可以通过对包括其它语言(例如,英语字母)的文本区域类似地执行字符识别处理来获得字符代码。即,当英文字母等字符被识别时,替代日文字符代码将字母的字符代码输入到图11A和11B中的字符代码串数据中。
随后,在步骤S206中,使将要处理的页面图像数据、区域数据和字符代码串数据相关联,并将它们存储在存储器103或硬盘104中。
在步骤S207中,判断是否存在尚未处理的图像数据。当存在未处理的图像数据时,操作返回到步骤S203,并进行下一页面图像数据的处理。当没有未处理的图像数据时,操作进入到步骤S208。
在步骤S208中,按页面顺序(处理的顺序)合成存储在存储器103或硬盘104中的所有页面的数据,以生成由多个页面形成的可搜索的电子文档。
在上述步骤S208中生成的电子文档的数据是能够保持绘制信息和内容信息两者的数据,其中绘制信息用于在显示器等上电子地显示每个页面图像或使用打印机打印每个页面图像,以及内容信息用于使得能够利用搜索关键字进行搜索。作为满足这样的数据保持条件的数据格式,存在PDF格式或SVG格式等多种已知的例子。在本实施例中,作为要在这时生成的电子文档的格式,假定要指定嵌入字体数据。顺便提及,作为具有嵌入字体数据的必要条件的格式形式,例如XPS。尽管在下文中,在假定使用XML表示的页面描述格式的规格(specification)情况下做出了描述,但本发明不限于该格式。当然也可以使用现有的嵌入字符形状的XPS或PDF/A等电子文档格式。
图6是在输入了由两页的页面图像形成的文档的情况下,基于在本发明的说明中所使用的页面描述格式的规格而生成的电子文档的页面描述的例子。顺便提及,尽管这里,如图6所示,页面描述格式的例子是在一个文件中做出了全部描述的一个例子,但是并不限于该例子。例如,可优选为这样的格式(例如XPS):在该格式中字体数据的部分在另一文件中,从主体的文件引用字体数据文件,并且通过例如ZIP压缩使这些文件合并在一个电子文档。
以下,将使用图4的流程图说明在步骤S208中执行的电子文档数据生成处理的例子。
首先,在步骤S401中生成表示电子文档的开始的描述。
在根据本发明的说明的页面数据描述格式规格中,要素(element)<Document>代表电子文档的开始标识(tag),并且夹在该<Document>和作为该文档的结束标识的</Document>之间的范围中的XML描述是与包括在该文档中的每个页面有关的描述数据。在图6的例子中,附图标记601表示电子文档的开始标识,并且附图标记613表示结束标识。
在步骤S402中,从尚未描述的页面之中指定第一页面的数据,并使其成为要处理的对象。
在步骤S403中,生成代表要处理的页面数据的开始的标识以对其进行描述。在本例子中,要素标识<page>描述页面数据的开始,并且夹在该<page>和作为该页面的结束标识的</page>之间的范围中的XML描述为该页面中的绘制数据和内容数据。另外,在<page>标识中,使用表示该页面的像素的宽度和高度的属性Width和Height以及表示分辨率的属性Dpi来描述页面的物理大小,并且还使用表示页面数量的属性Number来描述页面数量。
在图6的描述例子中,在<page>要素的开始标识602中,描述了该页面的宽度Width=“1680”、高度Height=“2376”、分辨率Dpi=“200”和页面数量Number=“1”。此外,从标识603到结束标识606(603到606)描述了这一页面的数据。
在步骤S404中,生成形成页面的数据中代表图像的绘制数据的标识描述(图像绘制描述)(图像绘制描述生成)。
在本发明说明的页面数据描述格式规格中,一个<Image>要素代表一个图像的绘制数据。另外,在属性Data中描述图像数据的内容,并且利用属性X、Y、Width和Height的坐标信息来描述在页面中绘制出的该图像的位置。在页面中存在多个图像的情况下,这意味着按出现的顺序来重写各个图像数据。在属性Data中描述的是已经被已知方法压缩了的图像数据,例如,在彩色或灰度级图像数据的情况下,图像数据为已经被JPEG压缩了的代码串;而在二值图像数据的情况下,图像数据为已经被MMR压缩了的代码串。
在图6的描述例子中,在标识603中,描述了X=“0”、Y=“0”、Width=“1680”和Height=“2376”,从而将已经在图2的步骤S203中选择出的文档的第一页面上的扫描图像绘制到整个页面上。另外,描述了令转换成JPEG压缩图像的代码串的文本后的字符串为属性数据值的<Image>要素603(顺便提及,在图6中,为了简单地示出图,省略Data属性的字符串的一部分)。
在步骤S405中,生成形成页面的数据中代表字符的绘制数据的描述(字符绘制描述)(字符绘制描述生成)。
在本发明说明的页面数据描述格式规格中,一个<Text>要素描述垂直的或水平的每一行字符的绘制数据。如下是在<Text>要素中描述的属性数据。
●属性Direction,表示字符串的垂直书写/水平书写(顺便提及,在没有指定Direction的情况下,默认为水平书写)
●属性X和Y,指定字符开始位置的坐标
●属性FONT,指定绘制字符时所应用的字体数据的ID
●属性Size,指定字体大小
●属性Color,利用R成分值、G成分值、B成分值和代表透明度的阿尔法(alpha)通道值这四个值的集合来指定绘制时的字符颜色
●属性String,指定字符串的内容(字符代码串)
●属性Cwidth,指定String中从每个字符到下一字符的给送宽度
●属性CGlyphId,指定在绘制时使用的String中每个字符的字符形状数据,即字形的ID。
这里,形成<Text>要素的字符串是通过将已经在图2的步骤S205中生成的字符代码串的数据进一步分割成各个字符行而获得的字符串,其中该字符行是垂直或水平延伸的字符的集合。顺便提及,在还没有定义属性Font的情况下,将对应于默认字体ID的字符形状用作所有字符共用的字符形状。
在图6的描述例子中,两个<Text>标识604和605涉及第一页面的字符绘制描述,并且是分别对应于图11的字符代码串数据1101和1102的描述。
例如,在与图11A的数据1101中的水平书写的字符串“A、I、U(每个均为日文字符)”的三个字符相对应的<Text>要素描述604中,将每个属性值按如下进行描述。
●将属性X和Y指定为X=“236”和Y=“272”,作为这三个字符的边界矩形的左上处的坐标。
●没有定义字体数据ID的属性Font。
●通过估计行中字符的高度,将字体大小的属性Size指定为“97”像素。
●将属性Direction指定为水平书写“Horizontal”。
●将绘制时字符颜色的属性Color指定为“0,0,0,255”,意味着R成分值=G、成分值=B、成分值=0和alpha通道=255(即,指定了透明色)。
●将指定字符串内容(与各个字符相对应的字符代码的序列)的属性String指定为“0x2422,0x2424,0x2426”。在上述的例子中,当识别出如图7所示的日文字符串的字符时,描述字符代码,然而,当识别出如图18所示的文档图像中的英文字符串的字符时,当然也会描述英文字符代码。
●将指定每个字符的给送宽度的属性CWidth指定为“104,96,59”,对于左边的两个字符,每个字符的给送宽度对应于与其右侧的下一字符的左端之间的坐标差,对于最后一个字符,其给送宽度对应于其字符宽度本身。
●作为每个字符的字符形状数据的、指定字形的ID的属性CGlyphId通常被指定为与每个字符的字符形状数据相对应的字形的ID。在本实施例中,然而,由于在扫描图像上绘制了透明色字符的字符形状,任何字符形状都在用户可见度之外。因此,在本实施例中,即使字符是不同的字符(字符种类),通过相同字形ID的指定,只需要少量的字符形状数据(字体数据)。因此,在图6的例子中,将属性CGlyphId描述为相同的属性值“0,0,0”。另外,由该字形ID所指定的字符形状可以是简单的形状(例如,矩形)。顺便提及,下面将说明字形形状的细节。
顺便提及,上述的属性值是范例,并且可以描述为具有相同含义的其它值。例如,优选地根据像素高度和图像分辨率,不利用像素数量而利用点数量的值等来描述代表字体大小的属性Size。另外,在本发明的说明中,要绘制的字符被指定为透明色,不能被用户看到,因此使得要绘制的字符串可以不正好重叠在相应的字符图像上。例如,可以在相应的字符图像的下端部处,绘制透明字符串。例如,在图6的例子604的情况下,假定X=“236”,Y=“368”并且Size=“10”,在字符图像的下端部处绘制低的高度的透明字符串。此时,要绘制的透明字符串的大小(高度)为小于字符图像的大小的预定大小(例如,10)。
将在后面利用搜索关键字进行搜索时使用要绘制的透明字符串,并且突出显示(例如,以改变后的颜色来显示)与搜索关键字相一致的字符串。由于在与相应的字符图像的位置基本相对应的位置绘制透明字符串,尽管在搜索时使用透明字符串来做出搜索,在用户看来如同搜索了字符图像。因此,在使用在这样的搜索时突出显示字符的应用程序的情况下,即使在相应的字符图像的下端部处绘制出透明字符串,在搜索时,就像相应的字符图像被加以强调那样来突出显示并指定该透明字符串,而不会产生问题。顺便提及,透明字符串的绘制位置不限于下端部,也可以描述字符串使得透明字符串被绘制到字符图像的上半部分或下半部分的位置。
现在,在步骤S406中,说明表示页面描述的结束的</Page>。
在步骤S407中,判断是否存在未被描述的页面。在存在未被描述的页面的情况下,从步骤S403开始重复操作;在不存在未被描述的页面的情况下,操作进入到步骤S408。在图6的描述例子中,还对第二页面执行步骤S404到S406的处理,并且将描述607到610的部分。
在步骤S408中,生成包括该电子文档中绘制所使用的所有字形的字体数据的内容的描述(字符形状数据描述)(字符形状数据描述生成)。在本发明的页面数据描述格式规格中,将包括在字体数据中的每个字形描述为夹在<Font>和</Font>之间的范围中的<Glyph>要素。在<Font>要素中,包括表示该字体的种类的属性ID。此外,在<Glyph>要素中,包括表示字形的种类的属性ID和表示对应于该ID的字形(字符形状)的属性Path。在<Glyph>要素中的属性Path,在令左下为原点的1024×1024的绘制矩形单位中,是使用直线或曲线函数来代表字形的描述。
在图6的描述例子中,在<Font>要素611和612中,分别在<Font>要素611和612中定义了字体ID=“Font01”的字体和字体ID=“Font02”的字体。在各自的内容中,定义了具有ID=“0”的字形的一个种类。代表<Font>要素611的“Font01”的字形的字符形状的Path属性“M0,0V-1024H1024V1024f”的含义如下。
“移动到原点(0,0),向上绘制1024单位的垂直线,向右绘制1024单位的水平线,向下绘制1024单位的垂直线,并且从当前点向起始点绘制线以填充由这些线包围的范围。”
即,这是代表填充1024×1024范围的方形字形的描述。
另外,代表<Font>要素612的“Font02”的字形的字符形状的Path属性“M0,0V-64H1024V64f”的含义如下。
“移动到原点(0,0),向上绘制64单位的垂直线,向右绘制1024单位的水平线,向下绘制64单位的垂直线,并且从当前点向起始点绘制线以填充由这些线包围的范围。”
即,这是代表填充在绘制矩形单位的下部处1024×64区域的水平直线字形的描述。
顺便提及,图6的<Font>要素611和612的描述只是一个例子,并且优选定义垂直直线、波浪线、虚线、三角形、圆形或四边形等其它简单的字符形状。
接下来,在步骤S409中,描述表示电子文档的结束的</Document>,并且结束电子文档的生成。将已经生成的电子文档作为文件存储在图像处理装置100的存储器103或硬盘104中。在存储时,优选使用已知的文本压缩技术进行压缩。
这里,返回图2,进行描述。在步骤S209中,将已经在步骤S208中生成的电子文档通过已经在步骤S201中指定的发送方法传送到作为指定的发送目的地的图像处理装置110。发送处理优选采用已知的技术,从而将省略描述。
如上所述,图像处理装置110通过网络接口114接收已经被传送的电子文档,并将电子文档存储在硬盘114中。
这里,用于在硬盘内部指定要存储的电子文档的信息优选是文件名等任何ID信息。在本发明的说明中,指派关于接收时间的字符串作为例子。尽管存在选择并自动给出唯一的编号或者用户已经预先输入了文件名作为用户在图像处理装置100生成时指定的信息等其它方法,由于这些方法是不同于本发明的基本特征的处理,所以省略详细的说明。
现在,将根据图3的流程图说明使用图1的图像处理装置110来搜索并浏览电子文档的处理的例子。这里,尽管将说明使用图像处理装置110来进行搜索的例子,但并不限于该例子,并且可以配置为使用图像处理装置100来做出搜索。
在步骤S301中,用户使用UI115从电子文档所保持(hold)的字体ID的列表中,选择在没有定义Font属性的情况下使用的默认字体ID。图16示出了选择画面UI的一个例子,该选择画面显示要被搜索的电子文档所持有的字体的列表以及被选择的字体的预览图像(图中,黑色四边形部分示出Font01的字形)。用户可以使用这样的UI来选择默认字体ID。顺便提及,做出图3中步骤S301的字体ID指定处理的序列顺序(sequentialorder)是范例,而可以是在步骤S307之前的任意步骤。
在步骤S302中,为了从存储在图像处理装置110中的电子文档组中搜索出所期望的电子文档的字符串,从UI115输入用户认为包括在该电子文档的文本中的搜索关键字。这里已经被输入的该字符串的长度为k。
在步骤S303中,对于所有存储在图像处理装置110的硬盘114中的电子文档文件,判断是否存在未被搜索的电子文档文件。在存在未被搜索的电子文档文件的情况下,指定其中的一个电子文档文件。另外,在该电子文档文件被压缩后的情况下,解压该电子文档文件并进入步骤S304。在不存在未被搜索的电子文档的情况下,操作进入到S313,其中通知用户已经结束对所有电子文档的搜索。
在步骤S304中,令已经在S303中指定的电子文档中的文本数据为目标,为利用搜索关键字进行搜索做出准备。这里,排列文档中的文本(字符代码),初始化搜索开始位置n,即,设置n=0。
这里,将在下面说明步骤S304中处理的例子的详情。
在利用XML解析器(parser)来分析电子文档数据的阶段中,当<Text>要素出现时,获得在属性String中描述的字符代码串。另外,对于<Text>要素中String属性中描述的每个字符,将其字符代码以及在电子文档数据中描述了该字符代码值的位置的组添加给字符代码串表。这里,描述了该字符代码值的位置是表示从电子文档数据的开头算起到描述该字符代码的第一个字符的字符数量的值。
这里,为了清楚,在图12中示出了从图6的电子文档生成的字符代码串表的例子。在该例子中,在图6中的<Text>要素604的属性String中,描述了三个字符代码“0x2422”,“0x2424”和“0x2426”。这里,分别从该电子文档的开头算起的第1093个字符位置、第1100个字符位置和第1107个字符位置开始描述这三个字符代码。同样,基于<Text>要素605和609,对于剩下的6个字符代码的描述位置,也获得描述位置,并且生成如图12所示的字符代码串表。顺便提及,在图12中,此时,以从0开始的顺序给出字符串编号(No.)。
接着,在步骤S305中,对于字符代码串表,令搜索开始位置n为原点,判断字符代码串表与搜索关键字的字符代码串是否相一致。在检测到与搜索关键字的字符代码串相一致的部分的情况下,令此时的变量n为相一致的字符串的开头位置,操作进入到步骤S306。
反之,在步骤S305中判断为不一致的情况下,操作进入到步骤S310,在步骤S310中判断是否搜索了该字符代码串表中的所有字符。在判断为存储在字符代码串表中的所有字符代码串的搜索已经结束的情况下,操作进入到步骤S312,在步骤S312中通知作为当前搜索对象的电子文档的搜索结束。另一方面,在判断为所有搜索还没有结束的情况下,操作进入到步骤S311,在步骤S311中变量n增加1,并且操作返回到步骤S305,在步骤S305中,判断在下一个搜索开始位置n,字符代码串表与搜索关键字的字符代码串是否相一致。顺便提及,在步骤S310中,在令存储在字符代码串表中的字符代码的总数量为N的情况下,当n<(N-k)时,可以判断为所有搜索还没有结束;并且当n>=(N-k)时,可以判断为所有搜索已经结束。
对于图12的字符代码串表的例子,例如,在从开头起扫描关键字字符“KA,KI(每个均为日文字符)”的字符代码串“0x242b和0x242d”,并且检测到了相一致的部分的情况下,提取n=3作为最初的相一致的字符串的字符串编号。另外,在下面说明的S307中进一步继续搜索,并且检测出了下一个相一致的字符串的情况下,提取位置n=6。顺便提及,在步骤S303到S305中使用了令这些字符代码和描述位置成为一对的字符代码和表的处理只是一个例子,并且可以采用其它方法。
接下来,在步骤S306中,指定了与相一致的字符串编号n相对应的字符串数据属于电子文档的那个页面。例如,假定在分析电子文档数据时,判断出在哪个<Page>要素中描述了<Text>要素,则可以从Number属性识别出页面编号。因此,从图12的字符代码串表获取与已经在步骤S306中所指定的位置n相对应的字符串的描述位置,并且依赖于该描述位置位于哪些<Page>要素之间,可以指定出该字符串所属的页面。顺便提及,在步骤S304中分析电子文档数据时,在判断出各<Text>要素被描述在哪个页面,并且该判断结果已经被预先存储在图12的字符代码串表的情况下,基于字符串编号可以容易地指定页面编号。顺便提及,在步骤S305中的相一致的字符串的检测方法或者在步骤S306中的页面编号的指定方法不限于上述的例子。
在步骤S307中,基于在步骤S306中确定的页面中所包括的绘制描述,在UI115上显示页面的绘制结果(电子文档显示)。此时,在绘制字符串编号(No.)在n到(n+k-1)范围中的字符时,为了使用户容易地识别出对应于该字符的点,突出显示该字符并绘制出该字符。下面将说明与该搜索关键字相一致的部分的突出显示的绘制的详情。
这里,将根据图5的流程图说明要在步骤S307中执行的页面绘制处理的详情。
在步骤S501中,从<Page>要素中的Width和Height属性的值确定将作为绘制结果的页面图像的大小。
在步骤S502中,获得能够存储页面图像的像素信息的量的存储器区域。
在步骤S503中,以从开头起的顺序提取出<Page>要素的子要素中未被处理的一个要素,并且判断已经被提取出的该未被处理的要素的种类。在该未被处理的要素被判断为<Image>的情况下,操作进入到步骤S504。另一方面,在该未被处理的要被判断为<Text>的情况下,操作进入到步骤S505。在已经处理了该<Page>要素中所有的字要素的情况下,操作进入到步骤S517。
在步骤S504中,对描述为<Image>要素的Data属性值的压缩图像进行解压缩。此外,缩放(scale)该解压缩后的图像以使得该图像被保留在由X、Y、Width和Height属性来代表的页面图像中的整个绘制矩形区域。另外,将该图像重写在已经在上述步骤S502中获得的页面图像存储器的区域中。然后,操作返回步骤S503。
另一方面,在步骤S505中,从描述在要被处理的<Text>要素中的每个属性获得字符开始位置(X,Y)、字体ID(F)、字符大小(S)和字符颜色(C)。另外,获得在该<Text>要素中描述的字符的数量(N)。顺便提及,在没有如图6的例子的中所示出的定义了字体ID的情况下,使用已经在上述的S301中指定的默认字体ID。
在步骤S506中,获得用于字形图像生成的存储器区域。这里,将获得用于1024×1024像素的二值图像的存储器。
在步骤S507中,将正在被处理的字符的计数器i初始化为1。
在步骤S508中,判断是否i>N。当i≤N时,操作进入到步骤S509;并且当i>N时,结束该<Text>要素的处理以返回步骤S503。
在步骤S509中,从<Text>要素的属性String获得第i个字符的字符代码(P),并且从属性CGlyphId获得第i个字符的GlyphId(Q)。
在步骤S510中,从电子文档检测出字体Id=F的<Font>要素描述,并且还从该<Font>要素描述的子要素中的字形Id=Q的<Glyph>要素获得Path属性。
在步骤S511中,根据已经在步骤S510中获得的Path属性值,对于已经在步骤S510中获得的字形图像生成存储器,生成字形二值图像。顺便提及,字形二值图像是例如通过令被绘制部分为1,并且令不被绘制的部分为0来代表的图像。顺便提及,在本实施例中,将在后面用透明色绘制被绘制的部分1。
在步骤S512中,缩放字形的二值图像,以使图像成为基于字符大小的属性值(S)的矩形大小。
在步骤S513中,在从页面图像存储器的位置(X,Y)开始的矩形区域中,绘制了缩放后的字形二值图像的信息。利用如下的表达式来定义当在页面图像上绘制二值图像时每个像素的像素值。此时,依赖于二值图像中相应的像素的像素值是1还是0,分别将在页面图像的目标区域中的像素值(r,g,b)改变为如下的(r′,g′,b′)。
●在字形二值图像的像素值为0的像素的情况下:
(r′,g′,b′)=(r,g,b)
●在字形二值图像的像素值为1的像素的情况下:
(r′,g′,b′)=(F(r,Cr),F(g,Cg),F(b,Cb))
其中:F(r,Cr)=(r×A+Cr×(255-A))/255,F(g,Cg)=(g×A+Cg×(255-A))/255,F(b,Cb)=(b×A+Cb×(255-A))/255。另外,A是字符颜色C的alpha通道值,Cr、Cg和Cb分别是字符颜色C的RGB值。顺便提及,在将255指定为alpha通道值的情况下,由于该字形二值图像是透明的,即使对于字形二值图像的像素值为1的像素,也有(r′,g′,b′)=(r,g,b)。
在步骤S514中,使用例如图12的字符代码串表来判断正在被处理的第i个字符是否是字符串编号(No.)在n到(n+k-1)范围中的字符。更具体地,由于根据字符代码串表确定在n到(n+k-1)范围中的字符的描述开始位置,基于正在被处理的字符i的开始位置是否与任何一个相一致来做出判断。在字符i是n到(n+k-1)范围中的字符的情况下,操作进入到步骤S515;在其它情况下,操作进入到步骤S516。
在步骤S515中,做出突出显示以表示正在被处理的字符在作为搜索字符串被检测的范围中。具体地,相应的字形二值图像的像素值为0的像素保持不变,对于相应的字形二值图像的像素值为1的像素,分别将像素值(r,g,b)改变为如下的(r′,g′,b′)。
(r′,g′,b′)=(G(r),G(g),G(b))
其中:G(r)=255-r,G(g)=255-g,以及G(b)=255-b。
顺便提及,上述的突出显示是范例。例如,被突出显示的宽度不是字形二值图像的宽度,而使用指定每个字符的给送宽度的属性Cwidth的值,来无间隔地实心填充字符串。
另一方面,在步骤S516中,使X加上Cwidth属性的描述为第i个字符的字符的给送宽度,还使i加1(i=i+1),并且从步骤S503开始重复处理。在步骤S503的阶段,当不存在未处理的子要素时,操作进入到步骤S517。
在步骤S517中,将作为一个页面的绘制结果的页面图像存储器的内容,即作为<Page>要素中的<Image>和<Text>要素描述的绘制结果传送到UI115的显示缓冲器并将其显示。
接着,说明在基于图6的电子文档中第一页面上的绘制描述,执行图5的流程图示出的图3中步骤S307的处理的情况下的例子。
通过在步骤S501中的处理,从图6中第一页面的<Page>要素602的属性值Width=“1680”,Height=“2376”,确定页面的图像大小为1680×2376像素。
通过在步骤S502中的处理,例如,在利用RGB24比特颜色来表现页面图像的情况下,获得1680×2376×3比特的存储器。
通过在步骤S504中的处理,将在图6的<Image>要素603的Data属性值中描述的压缩代码解压缩为图像数据,将该图像数据重写在整个页面图像存储器上。顺便提及,在该例子中,图像数据本来具有与页面的大小相同的大小的1680×2376像素,所以没有应用缩放处理。
通过在步骤S505中的处理,从图6中的<Text>要素604获得X=“236”、Y=“272”、字符数量N=3、字符大小=“97”和字符颜色=“0,0,0,255”。在<Text>要素604中,没有定义Font要素,从而指定在S301中已经指定的默认的字符代码。这里,将在步骤S301中指定字体ID=“Font01”。
通过在步骤S509中的处理,首先,获得<Text>要素604的String属性中的第一个字符代码=0x2422和CGlyphId=“0”。
由于指定了默认的字体ID=“Font01”,基于在图6的<Font>要素611中的Id=“0”的<Glyph>要素中所描述的Path属性来创建要在步骤S511中生成的字形二值图像。具体地,基于Path属性的描述,用1填充1024×1024像素的整个Glyph图像区域。
顺便提及,由于图6的电子文档中描述的<Text>要素604和605中字符的CGlyphId都是“0”,结果,对于所有字符,步骤S511的处理结果是相同的。因此,将已经在步骤S511中生成的字形图像临时存储在存储器中,并且在绘制其它字符时,还将使用该临时存储的字形图像。
在步骤S512中,利用字符大小=“97”将字形的字符图像缩放为97×97像素。
在步骤S513中,将从页面图像的位置(236,272)开始的97×97像素的矩形范围作为缩放后的字形的字符图像的绘制目标区域。在图6的例子中,然而,由于字符颜色=“0,0,0,255”,即alpha值A=255,即使字形二值图像的相应的像素值是1,也总是(r′,g′,b′)=(r,g,b)。即,在步骤S513的处理前后,页面图像中该矩形区域中的像素值不发生改变。
在步骤S514中,基于字符代码串表判断图6中的<Text>要素604中的第一个字符是否是已经在图3的步骤S305中获得的、在位置范围n到(n+k-1)中的字符。
这里,例如,从图6的电子文档生成图12的字符代码串表,并且假定已经在图3的步骤S305中判断为与关键字相一致的字符串的位置在3到4的范围中。此时,在图6中的<Text>要素604中第一个字符代码描述的开头位置是如图所示的第1093个。该数值与字符代码串表的3到4的范围中的字符的描述位置都不一致,从而通过步骤S516处理进入到下一个字符。
之后,处理继续,并且在图6中的<Text>要素605中的第一个字符的处理中,在步骤S514中,该第一个字符的位置判断为与字符代码串表的3到4的范围中字符的开始位置相一致。在步骤S515中,执行突出显示处理。
关于该字符,在步骤S515中,对于从页面图像存储器的位置(236,472)开始的92×92的区域中相应的字形二值图像的像素值为1的像素,将该像素的像素值(r,g,b)分别改变为(G(r),G(g),G(b))。
在如上述所有<Text>要素被绘制出之后的页面图像如图13所示。即,与在步骤S305中已经被判断为相一致的范围中的字符相对应的区域成为每个矩形中亮度被反转的状态。反之,与剩下的字符相对应的区域成为与利用<Image>要素绘制的图像数据一样。在上述的例子中,说明了日文文档的情况,然而在英文文档的情况下也可以进行类似处理。例如,当对图18中示出的图像执行图4中示出的电子文档数据生成处理时,生成用字母字符代码来描述图6中的电子文档的604和605的电子文档。当利用例如字符串“EF”来搜索电子文档数据时,执行图5中示出的绘制处理,并且如图19所示,反转显示与被搜索的字符串相对应的矩形区域中的图像。
因此,由于突出显示了已经被搜索到的字符串,用户可以仅通过观看在步骤S307中显示的页面上的图像,容易地判断出页面中搜索关键字位于何处。
另一方面,依赖于查看器应用程序的种类,存在以不同的显示方法来突出显示的一些情况。即,依赖于图5中的步骤S515的对字符部分突出显示处理的方法,在一些情况下,可能不会做出合适的突出显示,从而用户不能识别出被描述的字符。例如,在突出显示处理中,假定存在这样的查看器,该查看器使得相应的字形二值图像的像素值为0的像素保持原样,并且对于字形二值图像的像素值为1的像素,使得像素值(r,g,b)分别改变成已经预先确定的颜色(例如,(0,0,0))。在这种情况下,由于根据本实施例的Font01使用实心填充的四边形的字形,当突出显示时,将显示如图17中的页面图像。当处于如图17的状态时,不能看到字符图像,并且用户可见度变差。
因此,在如上所述的本实施例中,假定了使用这样的查看器应用程序的情况,在步骤S208中生成电子文档时,将存储具有不同字形的多种字体数据。因此,在用户通过再次使用图3的步骤S301中的字体ID指定处理来指定其它字体ID的情况下,突出显示的方法可能被改变。
图14中示出了在步骤S301中将“Font02”指定为默认字体ID并进行突出显示的情况下的页面图像显示的例子。当通过使用在图6的描述612中指定的字形二值图像来绘制出分别改变为(0,0,0)的像素值(r,g,b)的突出显示时,生成如图14的页面图像。即,由于在“Font02”中使用的字形是在绘制矩形单元下部处填充1024×64的区域的水平直线字形,在该部分处的像素值为(0,0,0)的情况下,将做出突出显示,像如图14中字符为被添加了下划线的字符一样。因此,用户可以容易地判断出已经被搜索出的字符串在页面中位于何处,还可以确保字符图像的可见度。应注意,尽管图14示出包括日文字符串的文档图像的例子,还可以类似地处理包括英文(字母)字符的文档图像。例如,当利用字符串“EF”来搜索文档图像时,像如图20所示的给字符串提供下划线那样来突出显示搜索到的字符串。
这里,说明返回到图3。在步骤S308中,由用户选择搜索和浏览处理是否结束,或者是否另外将其它搜索点作为对象继续搜索。在由用户选择结束搜索的情况下,图3的处理结束;并且在选择继续搜索的情况下,操作进入到步骤S309。
在步骤S309中,n=n+k,并且操作返回到步骤S305,之后重复处理。
如上所述,根据本发明的实施例1,在将纸文档转换成电子文档时,做出描述,从而使得利用透明色在页面图像上绘制已经从页面提取出的字符,并且存储具有不时字符形状的多个字体。对于该电子文档,用户可以选择在突出显示中使用的默认字符形状,即,他/她可以做出字符形状的切换指示。因此,可以切换到最适合各个查看器应用程序或者其文档图像的字符形状,并且将该字符突出显示。可以在用户以高可见度确认与搜索关键字相一致的点被突出显示的页面显示的同时继续搜索。
在根据本实施例的电子文档中,其内部部分存在对于一个字符的由简单的字符形状形成的多种字体数据,当绘制文档中的透明字符时,可以选择上述简单的字符形状中的一种来绘制。另外,在每种字体数据中,可以对于多个字符种类共同使用一种字符形状。因此,尽管要使用的字体数据被保持在电子文档中,但只有少量的字符形状数据,从而可以将该电子文档的文件大小(数据量)最小化。另外,存储了多种字体数据,从而能在突出显示搜索时做到高可见度或操作性的显示。
实施例2
现在,参照附图说明根据本发明的第二典型实施例(实施例2)。
图15是根据该实施例2生成的电子文档的例子。同上述的实施例1相同,图像处理装置100生成并发送电子文档,并且图像处理装置110接收、浏览并搜索电子文档。
图15中的附图标记1501和1513表示代表电子文档的开始和结束的描述。附图标记1502和1506表示代表在第一页面上的绘制的开始和结束的描述。附图标记1503表示在第一页面上图像数据绘制的描述。附图标记1504和1505表示在第一页面上字符绘制的描述。另外,附图标记1507和1510表示代表在第二页面上的绘制的开始和结束的描述。附图标记1508表示在第二页面上的图像数据绘制的描述。附图标记1509表示在第二页面上的字符绘制的描述。附图标记1511和1512表示在该电子文档中使用的字体数据的描述。
尽管在实施例1中,在图3的步骤S301中由用户选择默认的字体ID,在实施例2中,生成电子文档从而使得进行浏览操作的应用程序(查看器)可以做出判断以选择字体ID。在这种情况下,在图4的步骤S408中的字体数据描述中,将应用程序的用于判断的属性添加到<Font>要素。在本实施例中,可以从图15中<Font>要素1511和1512中的Shape属性,容易地判断出字体数据的形状(字体数据的特征)。在这种情况下,通过使用字体数据的该Shape属性作为判断参考,应用程序可选择适合于通过这一应用程序进行突出显示的显示字体ID。顺便提及,上述附加的属性只是一个例子,除了字体数据的特征以外,还可以将进行浏览处理的应用程序的名称和种类作为属性来描述。在这种情况下,令该属性作为判断参考,例如,应用程序做出包括有该应用程序的名称的字体数据的判断,并且确定用于默认显示的字体ID。
根据实施例2,在将纸文档转换成电子文档时,描述已经从页面提取出的字符以在页面图像上利用透明色来绘制该字符,描述了具有不同字符形状的多种字体,并且包括用于判断应用程序应该使用哪种字体的属性。对于该电子文档,应用程序(查看器等)可以判断上述属性并且自动选择字符形状,并且可以切换到适合于使用该应用程序来突出显示的字符形状以被显示出。此外,在用户确认与搜索关键字相一致的点被突出显示、并且还自动确保字符图像的可见度的页面显示时,他/她可以继续搜索。
如上所述,描述根据实施例2的电子文档,从而使得在绘制出所有已经在文档中描述的透明字符时,应用程序(查看器等)判断属性,并且从多种字符形状中选择一种字符形状并进行绘制。另外,在每种字体数据中,可以对于多个字符种类共同使用一种字符形状。因此,尽管电子文档保持使用在该电子文档中的字体数据,但只有少量的字符形状数据,从而可以将该电子文档的文件大小(数据量)最小化。此外,由于存储了一些字体数据,可以在搜索的突出显示时做出最适合于该应用程序的显示。
实施例3
另外,尽管在上述的实施例中,生成了在<Image>要素中描述对于扫描图像做出例如JPEG压缩的整个图像以及在<Text>要素中描述透明文本的电子文档,但不限于这样的例子。
例如,替代<Image>要素中对通过JPEG压缩整个扫描图像而获得的图像的描述,可以在字符区域或图形区域中存储通过对各颜色创建二值图像以进行MMR压缩而获得的图像,并且在其它区域存储经JPEG压缩后的图像。这样,分析包括在文档图像中的区域以适当地做出压缩处理的方法,可以采用在例如日本特开平07-236062或日本特开2002-077633中所描述的方法。通过将根据本发明的抑制透明文本绘制中所使用的字体数据的数据量的处理和该图像压缩处理结合,可以生成更好压缩的电子文档。
此外,替代整个图像,优选地只将字符区域、图形区域、表区域和照片区域等的部分区域与位置数据一起存储。
实施例4
此外,在上述的实施例中,如图3和5中所说明的,在搜索时,按从文档开头开始的顺序来搜索与关键字相一致的字符串,并且突出显示被最先检测出的字符串。另外,在配置成存在“搜索下一个”的指示的情况下,顺次地,搜索出下一个相一致的字符串并突出显示。这样,尽管在上述实施例中,按从开头开始的顺序来搜索与搜索关键字相一致的字符串,并且在每次找到搜索关键字时顺次突出显示,但是不限于这种情况。例如,优选配置成将包括在电子文档中的所有字符串与搜索关键字比较,指定出与该搜索关键字相一致的所有字符串,并且同时突出显示与该关键字相一致的所有字符串。
至此,已经说明了根据本发明的各种典型实施例。
还通过系统或装置的计算机(或CPU或MPU)从记录了进行上述实施例中描述的流程图的操作的程序代码的记录介质读取并执行上述程序来实现本发明的目的。在这种情况下,从记录介质读出的程序代码自身使得计算机实现上述实施例的功能。因此,这些程序代码和存储并记录了程序代码的计算机可读记录介质也成为本发明的一部分。
可以采用例如软盘(注册商标)、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储器卡和ROM作为用于提供程序代码的记录介质。
另外,通过由计算机执行已经被读出的程序来实现上述实施例的功能。另外,该程序的执行还包括基于程序的指示由在计算机上操作的OS等来执行部分或全部实际处理的情况。
另外,还通过插入到计算机的扩展板或连接到计算机的扩展单元来实现上述实施例的功能。在这种情况下,首先,将已经从记录介质读出的程序代码写入到设置在插入到计算机的扩展板或连接到计算机扩展单元上的存储器中。之后,基于该程序代码的指示,设置在这样的扩展板或扩展单元上的CPU等执行部分或全部实际处理。同样,通过这样的扩展板或扩展单元的处理,实现了上述实施例的功能。
尽管已经参考典型实施例说明了本发明,但应理解,本发明不限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释,以涵盖所有的修改、等同的结构和功能。

Claims (14)

1.一种图像处理装置,包括:
字符识别单元,用于通过对文档图像中的多个字符图像执行字符识别处理,来获得代表多个不同的字符的多个不同的字符代码;以及
生成单元,用于生成存储了所述文档图像、代表多个不同的字符的所述多个不同的字符代码、以及多种字符形状数据的电子文档,其中,所述多个不同的字符代码是由所述字符识别单元获得的,
其中,在通过关键字搜索而搜索到多个不同的字符代码时,从存储在所述电子文档中的所述多种字符形状数据中仅选择一种字符形状数据,并且对于存储在所述电子文档中的所述多个不同的字符代码全部共同使用所述一种字符形状数据,以突出显示由搜索到的多个不同的字符代码代表的多个字符。
2.根据权利要求1所述的图像处理装置,其特征在于,在通过关键字搜索而搜索到多个不同的字符代码时,由用户的指示或用于显示的应用程序从所述多种字符形状数据仅选择所述一种字符形状数据。
3.根据权利要求1所述的图像处理装置,其特征在于,所述多种字符形状数据中的任一种字符形状数据是具有简单形状的字符形状数据。
4.根据权利要求1所述的图像处理装置,其特征在于,存储在所述电子文档中的所述多种字符形状数据包括具有矩形形状的字符形状数据。
5.根据权利要求1所述的图像处理装置,其特征在于,存储在所述电子文档中的所述多种字符形状数据包括如下的字符形状数据:该字符形状数据被绘制在相应的字符图像的下端部处,使得在搜索时,如对所述相应的字符图像添加下划线那样来指定该相应的字符图像。
6.根据权利要求1所述的图像处理装置,其特征在于,存储在所述电子文档中的所述多种字符形状数据包括至少具有波浪线、虚线、三角形、圆形和四边形之一的字符形状数据。
7.根据权利要求1所述的图像处理装置,其特征在于,所述电子文档是以XML格式或XPS格式描述的电子文档。
8.根据权利要求1所述的图像处理装置,其特征在于,还包括:
压缩单元,用于压缩所述文档图像,
其中,要存储在所述电子文档中的所述文档图像是由所述压缩单元进行了压缩处理的文档图像。
9.根据权利要求8所述的图像处理装置,其特征在于,所述压缩单元对包括在所述文档图像中的区域进行分析,并且适应性地进行压缩。
10.根据权利要求1所述的图像处理装置,其特征在于,还包括:
搜索单元,用于对所生成的所述电子文档搜索所输入的关键字,并且使用所述多种字符形状数据中的任一种字符形状数据来突出显示与所述关键字相一致的部分。
11.根据权利要求2所述的图像处理装置,其特征在于,还包括:
搜索单元,用于对所生成的所述电子文档搜索所输入的关键字,并且使用由用户的指示或所述应用程序从所述多种字符形状数据之中选择出来的字符形状数据来突出显示与所述关键字相一致的部分。
12.一种图像处理装置,包括:
搜索单元,用于利用输入的关键字来对存储了文档图像、代表多个不同的字符的多个不同的字符代码、以及多种字符形状数据的电子文档进行搜索,其中,所述多个不同的字符代码是通过对所述文档图像执行字符识别处理而获得的,以及在通过关键字搜索而搜索到多个不同的字符代码时由存储在所述电子文档中的所述多个不同的字符代码全部共同使用所述多种字符形状数据中的一种字符形状数据,以突出显示由搜索到的多个不同的字符代码代表的多个字符;
切换单元,用于接收来自用户的、关于所述多种字符形状数据的字符形状数据切换指示;以及
电子文档显示单元,用于使用所述切换单元切换的一种字符形状数据,来突出显示作为所述搜索单元的搜索结果的、与所述关键字相一致的部分。
13.一种图像处理装置,包括:
搜索单元,用于利用输入的关键字来对存储了文档图像、代表多个不同的字符的多个不同的字符代码、多种字符形状数据、以及属性数据的电子文档进行搜索,其中,所述多个不同的字符代码是通过对所述文档图像执行字符识别处理而获得的,所述属性数据在选择用于绘制的字符形状数据时用作判断标准,以及在通过关键字搜索而搜索到多个不同的字符代码时由存储在所述电子文档中的所述多个不同的字符代码全部共同使用所述多种字符形状数据中的一种字符形状数据,以突出显示由搜索到的多个不同的字符代码代表的多个字符;以及
电子文档显示单元,用于使用基于所述属性数据从所述多种字符形状数据之中选择出来的一种字符形状数据,来突出显示作为所述搜索单元的搜索结果的、与所述关键字相一致的部分。
14.一种图像处理方法,包括:
通过对文档图像中的多个字符图像执行字符识别处理,来获得代表多个不同的字符的多个不同的字符代码;以及
生成存储了文档图像、代表多个不同的字符的所述多个不同的字符代码、以及多种字符形状数据的电子文档,其中,所述多个不同的字符代码是通过所述字符识别处理而获得的,
其中,在通过关键字搜索而搜索到多个不同的字符代码时,从存储在所述电子文档中的所述多种字符形状数据中仅选择一种字符形状数据,并且对于存储在所述电子文档中的所述多个不同的字符代码全部共同使用所述一种字符形状数据,以突出显示由搜索到的多个不同的字符代码代表的多个字符。
CN200810183281.3A 2007-12-12 2008-12-12 图像处理装置和图像处理方法 Expired - Fee Related CN101458699B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007321283A JP5376795B2 (ja) 2007-12-12 2007-12-12 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JP2007-321283 2007-12-12
JP2007321283 2007-12-12

Publications (2)

Publication Number Publication Date
CN101458699A CN101458699A (zh) 2009-06-17
CN101458699B true CN101458699B (zh) 2015-11-25

Family

ID=40469995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810183281.3A Expired - Fee Related CN101458699B (zh) 2007-12-12 2008-12-12 图像处理装置和图像处理方法

Country Status (4)

Country Link
US (1) US8396294B2 (zh)
EP (1) EP2071493B1 (zh)
JP (1) JP5376795B2 (zh)
CN (1) CN101458699B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313036A1 (en) * 2007-06-13 2008-12-18 Marc Mosko System and method for providing advertisements in online and hardcopy mediums
US7949560B2 (en) * 2007-06-13 2011-05-24 Palo Alto Research Center Incorporated System and method for providing print advertisements
JP4402138B2 (ja) 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US8031366B2 (en) * 2007-07-31 2011-10-04 Canon Kabushiki Kaisha Control apparatus, controlling method, program and recording medium
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
KR20110051052A (ko) * 2009-11-09 2011-05-17 삼성전자주식회사 인쇄 제어 방법 및 인쇄 제어 단말장치
US8571270B2 (en) 2010-05-10 2013-10-29 Microsoft Corporation Segmentation of a word bitmap into individual characters or glyphs during an OCR process
US20110280481A1 (en) * 2010-05-17 2011-11-17 Microsoft Corporation User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
JP5676942B2 (ja) 2010-07-06 2015-02-25 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP5249387B2 (ja) 2010-07-06 2013-07-31 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US8781152B2 (en) * 2010-08-05 2014-07-15 Brian Momeyer Identifying visual media content captured by camera-enabled mobile device
JP5716328B2 (ja) * 2010-09-14 2015-05-13 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
CN102456040A (zh) * 2010-10-28 2012-05-16 上海中晶科技有限公司 影像管理系统及方法
US9477853B2 (en) * 2011-09-08 2016-10-25 Hewlett-Packard Development Company, L.P. Generating an incremental information object
CN103186911B (zh) * 2011-12-28 2015-07-15 北大方正集团有限公司 一种处理扫描书数据的方法及装置
JP2013238933A (ja) * 2012-05-11 2013-11-28 Sharp Corp 画像処理装置、画像形成装置、プログラムおよびその記録媒体
JP5950700B2 (ja) 2012-06-06 2016-07-13 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US10552717B2 (en) * 2016-03-16 2020-02-04 Canon Kabushiki Kaisha Image processing apparatus, control method thereof, and storage medium
CN112118307B (zh) * 2020-09-14 2022-03-15 珠海格力电器股份有限公司 设备数据的下载方法
JP7049010B1 (ja) * 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
CN114020006B (zh) * 2021-09-26 2023-04-07 佛山中科云图智能科技有限公司 无人机辅助降落方法、装置、存储介质以及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1752992A (zh) * 2004-09-21 2006-03-29 富士施乐株式会社 文字识别装置、文字识别方法及文字识别程序

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1234357B (it) 1989-04-17 1992-05-15 Nordica Spa Dispositivo di bloccaggio del piede, particolarmente per scarponi da sci
JP3376129B2 (ja) * 1993-12-27 2003-02-10 キヤノン株式会社 画像処理装置及びその方法
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
JP3606401B2 (ja) * 1995-11-30 2005-01-05 富士通株式会社 文書検索装置および方法
JP4235286B2 (ja) * 1998-09-11 2009-03-11 キヤノン株式会社 表認識方法及び装置
AUPP702498A0 (en) * 1998-11-09 1998-12-03 Silverbrook Research Pty Ltd Image creation method and apparatus (ART77)
JP2000322417A (ja) * 1999-05-06 2000-11-24 Canon Inc 画像ファイリング装置及び方法及び記憶媒体
EP1052593B1 (en) * 1999-05-13 2015-07-15 Canon Kabushiki Kaisha Form search apparatus and method
US7133565B2 (en) * 2000-08-25 2006-11-07 Canon Kabushiki Kaisha Image processing apparatus and method
JP4366003B2 (ja) 2000-08-25 2009-11-18 キヤノン株式会社 画像処理装置及び画像処理方法
JP3826221B2 (ja) 2002-04-24 2006-09-27 国際技術開発株式会社 真空太陽熱収集装置の製造方法及びその製造装置
US7228501B2 (en) * 2002-11-01 2007-06-05 Microsoft Corporation Method for selecting a font
US7310769B1 (en) * 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
JP2005259017A (ja) * 2004-03-15 2005-09-22 Ricoh Co Ltd 画像処理装置、画像処理用プログラム及び記憶媒体
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
JP2005275863A (ja) * 2004-03-25 2005-10-06 Murata Mach Ltd 複合機
JP2007058605A (ja) * 2005-08-24 2007-03-08 Ricoh Co Ltd 文書管理システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1752992A (zh) * 2004-09-21 2006-03-29 富士施乐株式会社 文字识别装置、文字识别方法及文字识别程序

Also Published As

Publication number Publication date
JP5376795B2 (ja) 2013-12-25
EP2071493A3 (en) 2013-08-14
EP2071493B1 (en) 2019-05-15
EP2071493A2 (en) 2009-06-17
CN101458699A (zh) 2009-06-17
JP2009146064A (ja) 2009-07-02
US8396294B2 (en) 2013-03-12
US20090154810A1 (en) 2009-06-18

Similar Documents

Publication Publication Date Title
CN101458699B (zh) 图像处理装置和图像处理方法
KR101128602B1 (ko) 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독 가능 저장 매체
JP4402138B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
CN102131020B (zh) 图像处理设备和图像处理方法
CN101820489B (zh) 图像处理设备及图像处理方法
US9514103B2 (en) Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
JP4427342B2 (ja) 文書分析情報を使用して文書を再フォーマット化する方法及び製造物
JP5197694B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP4892600B2 (ja) 画像処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151125

Termination date: 20201212

CF01 Termination of patent right due to non-payment of annual fee