CN101236561A - 编码设备、数据检索与图像处理设备及系统,及其方法 - Google Patents
编码设备、数据检索与图像处理设备及系统,及其方法 Download PDFInfo
- Publication number
- CN101236561A CN101236561A CNA2008100092116A CN200810009211A CN101236561A CN 101236561 A CN101236561 A CN 101236561A CN A2008100092116 A CNA2008100092116 A CN A2008100092116A CN 200810009211 A CN200810009211 A CN 200810009211A CN 101236561 A CN101236561 A CN 101236561A
- Authority
- CN
- China
- Prior art keywords
- string data
- data
- numeric string
- unit
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storing Facsimile Image Data (AREA)
Abstract
本发明提供了编码设备、数据检索设备、图像处理设备、数据检索系统、图像处理系统、编码方法、数据检索方法以及图像处理方法。在该编码设备中,提取单元从图像数据中提取数字串数据。基于聚焦元素与相邻该聚焦元素的元素之间的关联,对数字串数据的聚焦元素分配代码,代码串数据生成单元生成代码串数据。控制单元在存储单元中以关联的方式存储数字串数据和作为注册信息的代码串数据。使用代码串数据作为检索信息,检索单元在存储单元检索具有匹配检索信息的注册信息的数据。
Description
本申请要求2007年1月31日在日本提交的日本优先权文件2007-022108的优先权,并且将该文件的全部内容引入作为参考。
技术领域
本发明涉及对输入数据进行编码并基于编码的数据对数据进行检索的技术。
背景技术
在接收例如图像文件等数据时,数据检索设备对输入数据进行编码,并以相关方式将输入数据和编码数据存储在该检索设备中。当检索存储的数据时,数据检索设备对想要的数据指定的标题和/或关键字之一或二者进行编码,并据此,检索并输出想要的数据。
例如,日本专利申请公开No.H9-270902揭示了一种传统的技术,该技术将从资料文件读取的图像数据作为图像文件存储到存储器中,并从存储的图像文件中检索想要的图像文件。具体地讲,从图像数据中检索文本区域中的字符矩形的宽度和高度的比率作为资料文件属性。基于阈值对该比率进行编码,并将获取的代码写入每一个矩形。以与将要用于检索图像文件的图像文件相关的方式,作为注册关键字信息来管理代码。
已经提出了另一种传统的技术,其中,生成投影直方图作为在图像数据中包括的文本区域的属性。使投影直方图标准化,然后基于在标准化的投影直方图中的每一个位置上的黑色像素的数量进行编码,并且以与将要用于检索图像文件的图像文件相关的方式,管理编码的投影直方图。
然而,根据前一种传统技术,在每一个检索的矩形上单独地计算字符矩形的宽度和高度的比率,并且基于计算的比率将代码分配给每一个矩形。因此,如果从以不同的纵横比放大或缩小的相同内容的多篇文本中检索矩形,则对多篇文本中的字符分配不同的代码。因此,如果主要图像数据具有不同的纵横比(见图27),则不能基于为其分配的代码检索主要图像数据。
根据后一种传统技术,基于与投影直方图中的每一个位置相应的黑色像素的数量对投影直方图进行编码。如果仅仅水平地放大该图像数据,则黑色像素的数量改变。作为结果,对具有相同内容的图像数据分配不同的代码。
发明内容
本发明的目的是至少部分地解决传统技术中的问题。
根据本发明的一个方面,一种编码设备包括:获取单元,获取数字串数据;以及生成单元,对数字串数据进行编码,基于聚焦元素与相邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据。
根据本发明的另一个方面,一种数据检索设备包括:获取单元,获取数字串数据;生成单元,对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;存储单元,以关联的方式存储作为注册信息的代码串数据以及数字串数据;以及检索单元,基于注册信息检索数字串数据。
根据本发明的又一个方面,一种图像处理设备包括:获取单元,获取图像数据;提取单元,从图像数据中提取数字串数据;生成单元,对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;存储单元,以关联的方式存储作为注册信息的代码串数据以及图像数据;以及检索单元,基于注册信息检索图像数据。
根据本发明的又一个方面,一种数据检索系统包括:信息处理器和经由网络连接到信息处理器的服务器。该信息处理器包括:获取单元,获取数字串数据;以及生成单元,对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据。该服务器包括:存储单元,以关联的方式存储作为注册信息的代码串数据以及数字串数据;以及检索单元,基于注册信息检索数字串数据。
根据本发明的又一个方面,一种图像处理系统包括:图像处理器和经由网络连接到图像处理器的服务器。该图像处理器包括:获取单元,获取图像数据;提取单元,从图像数据中提取数字串数据;生成单元,对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据。该服务器包括:存储单元,以关联的方式存储作为注册信息的代码串数据以及图像数据;以及检索单元,基于注册信息检索图像数据。
根据本发明的又一个方面,一种编码方法包括:获取数字串数据;以及对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据。
根据本发明的又一个方面,一种数据检索方法包括:获取数字串数据;对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;以关联的方式存储作为注册信息的代码串数据以及数字串数据;以及基于注册信息检索数字串数据。
根据本发明的又一个方面,一种图像处理方法包括:获取图像数据;从图像数据中提取数字串数据;对数字串数据进行编码,基于聚焦元素与邻近该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;以关联的方式存储作为注册信息的代码串数据以及图像数据;以及基于注册信息检索图像数据。
当联系附图考虑时,通过阅读本发明的当前的优选实施例的下面的详细描述,将更好的理解本发明的以上和其它的目的、特征、优点以及技术和产业上的意义。
附图说明
图1是根据本发明的第一实施例的应用图像处理设备的数字影印机的示意图;
图2是图1中所示的数字影印机的功能方框图;
图3是根据第一实施例的图像文件注册处理的流程图;
图4是根据第一实施例的图像文件检索处理的流程图;
图5是根据第一实施例的图像转换处理的流程图;
图6是图5中所示的区域提取处理的详细流程图;
图7A、7B、8A、8B和9是在图6中所示的区域提取处理的结果的示例;
图10是图5中所示的图像属性提取处理的详细流程图;
图11是根据第一实施例的以读取的顺序划分的各自区域上的区域确定结果的示例;
图12是用于说明图5中所示的图像转换处理的示意图;
图13是图10中所示的关键字信息生成处理的详细流程图;
图14是图13中所示的编码处理的详细流程图;
图15是用于说明图14中所示的编码处理的示意图;
图16是用于对在图14中所示的编码处理中的聚焦元素分配代码的转换表;
图17是根据本发明的第二实施例的属性提取处理的详细流程图;
图18是用于说明根据第二实施例的图像转换处理的示意图;
图19是根据第二实施例的水平计算的投影直方图和垂直计算的投影直方图的示例;
图20是用于说明根据第二实施例的资料图像及其投影直方图的示意图;
图21是使用移动平均数从图20中所示的投影直方图中产生的平滑的投影直方图的示例;
图22是从图21中所示的平滑的投影直方图中产生的量化的投影直方图的示例;
图23是使用不同移动平均宽度的移动平均数从图20中所示的投影直方图中产生的平滑的投影直方图的另一个示例;
图24A和24B是根据第二实施例的采样的投影直方图的示例;
图25是图17中所示的关键字信息产生处理的详细流程图
图26是根据本发明的第三实施例的数据检索系统的硬件配置的功能方框图;及
图27是根据传统技术的以不同的纵横比放大的图像数据的投影直方图的示例。
具体实施方式
下面参考附图详细地说明本发明的示例性实施例。
图1是根据本发明的第一实施例的数字影印机的示意图,将图像处理设备应用于该数字影印机。数字影印机包括图像读取单元100和图像形成单元200。
图像读取单元100例如扫描仪,包括设置在顶部的曝光玻璃(未示出)和设置在曝光玻璃下面的光学扫描系统,在曝光玻璃上放置资料文件。将在曝光玻璃上放置的资料文件暴露于光学扫描系统中的曝光灯1的光,并且当曝光时反射的光,即图像光,通过在光学扫描系统中的各种反射镜和透镜2在感光器3上形成图像。感光器3配备了色彩电荷耦合器件(CCD)图像传感器。
通过机械驱动系统在图1中向左和右方向驱动光学扫描系统(未示出),从而由色彩CCD图像传感器在扫描方向一行接一行地顺序读取图像光作为图像数据。
通过下文说明的处理将读取的图像数据转换为输出图像,并将从图像形成单元200中的写入装置4输出的激光进行调制。通过用于写入的光学系统,调制的激光在光导鼓5的表面上形成图像。预先通过主充电器6将光导鼓5的整个表面均匀的充电到预定的高电位。在图像光即激光照射时,依据接收的光的强度改变该电位,并形成相应于该图像的电位分布,即静电潜像。
当通过显影单元7时,通过吸收墨粉,使得在光导鼓5上形成的静电潜像显现,并生成墨粉图像。
另一方面,从纸盒12和13中选择的一个纸盒供给记录纸(未示出),并与在光导鼓5上形成墨粉图像的定时同步地将记录纸传送到光导鼓5。随后,通过加能转印充电器,将光导鼓5上的墨粉图像转印到记录纸上。通过加能分开的充电器8,将转印了调色图像的记录纸从光导鼓5分离,固定单元14将转印的墨粉图像固定在记录纸上,然后将记录纸排出影印机的外部。
在完成图像的转印和记录纸的分离之后,通过清洁单元10清洁光导鼓5的表面并且变为下一个图像生成的待机状态。
下面参考图2说明数字影印机的硬件配置。数字影印机进一步包括存储器单元300、操作单元310、主控制单元320以及图像处理装置400。在图像读取单元100中,通过色彩CCD图像传感器读取以位图格式的图像的模拟信号,即图像数据。通过模数转换器将模拟信号转换为数字信号(未示出)。该数字信号由阴影校正单元以照相密度中的不规则性进行校正。这样,存储器单元300在其中存储该图像。
图像处理装置400包括数据提取单元401、数据生成单元405、存储单元404、检索单元402以及控制单元403。数据提取单元401从通过图像读取单元100接收到的图像数据中提取一串数据元素,例如整数元素或浮点元素(下文称为“数字串数据”)。数据生成单元405基于与周围元素的相关(例如,大小关系)分配每一个数据元素代码(编码每一个数据元素),并生成有限数量类型的一串代码元素(下文称为“代码串数据”)。存储单元404在其中以与图像数据相关的方式存储代码串数据作为注册关键字信息。检索单元402使用代码串数据作为检索关键字信息,在存储单元404中检索以与代码串数据相关的方式注册的图像数据。控制单元403控制图像处理装置400。
以与黑色和白色相应的二进制信息的形式在图像形成单元200上应用在存储器单元300生成的输出图像的每一个像素。
操作单元310设置在数字影印机的顶部表面,并且接收例如来自用户的指令等输入。主控制单元320控制在操作单元310上的各种显示,并执行复制操作和处理,例如图像文件的注册和检索。
数字影印机具有填充图像并注册该图像作为图像文件的功能。具体地讲,数字影印机从读取的图像数据中提取文本区域中的字符矩形的宽度和高度的比率作为资料文件属性并存储在其中,并且提取和使用读取的图像数据的资料文件属性作为在检索图像文件的检索信息,以及检索预存储的图像文件中具有匹配该检索信息的资料文件属性的图像文件。
基于以上配置,下面依此顺序说明图像文件的注册、图像文件的检索以及图像转换的处理。
下面参考图3说明图像文件注册处理。当经由操作单元310选择用于读取资料文件并注册资料文件作为图像文件的图像注册模式时,主控制单元320控制以使图像读取单元100读取资料文件的图像,即图像数据,存储器单元300在其中存储该图像数据作为输入数据(步骤S301)。控制单元403接收来自主控制单元320的图像注册模式的通知,和数据提取单元401从存储器单元300中的输入数据即该图像数据中提取数字串数据(步骤S302)。随后,数据生成单元405从提取的数字串数据生成注册关键字信息(步骤S303),然后,通过将生成的注册关键字信息与存储器单元300中的输入数据相关联生成图像文件。在存储单元404中注册该图像文件(步骤S304),并结束处理。
参考图4说明图像文件检索处理。当经由操作单元310选择用于检索注册的图像文件的图像检索模式时,图像读取单元100读取资料文件的图像,存储器单元300在其中存储读取的图像作为输入数据(步骤S411)。然后控制单元403接收来自主控制单元320的图像检索模式的通知,数据提取单元401从存储器单元中的输入数据即图像数据中提取数字串数据(步骤S412)。随后,数据生成单元405从提取的数字串数据中生成检索关键字信息(步骤S413)。检索单元402从存储单元404检索具有匹配该生成的检索关键字信息的注册关键字信息的图像文件(步骤S414)。控制单元403向存储器单元300输出相应的图像文件作为图像。然后,该图像文件经由存储器单元300发送到图像形成单元200,并输出在记录纸上(步骤S415)。
下面详细说明在图4所示的在步骤S414执行的处理。在下面的说明中,作为一个例子,使用N元(N-gram)分析确定两个字符串之间的相似性。
例如,在图4所示的步骤S413中,假设生成DCAABC作为检索关键字信息,然后,从左端顺序地每次提取两个元素,从而生成五个检索关键字,即DC、CA、AA、AB及BC。调用存储单元404中与该图像文件一起存储的注册关键字信息,并计算五个检索关键字的出现频率。由于认为计数越高,检索关键字信息和注册关键字信息具有更多的相似性,从而输出具有大的计数值的、以与注册关键字信息相关的方式存储的图像文件作为检索结果。
根据以上描述,配置以一条一条地顺序地提取在存储单元404中存储的注册关键字信息,并计算所生成的检索关键字的出现的频率。然而,通过预先计算并在存储单元404中存储在每一条注册关键字信息中出现的符号的每一个排列的频率,可以减少数据检索的处理时间,该排列能够从用于编码数字串数据的符号中产生。
参考图5说明图像转换处理。首先,数据提取单元401接收来自存储器单元300的输入图像,并执行区域提取处理以提取在输入数据即该图像数据中的区域,例如文本区域、照片区域、表格区域(步骤S501)。然后,数据提取单元401执行属性提取处理以提取所提取的区域的属性,例如位置、大小及类型。
可以使用以这样的方式提取的区域和属性作为注册关键字信息和检索关键字信息。
图6是图5所示的区域提取处理的详细流程图。首先,数据提取单元401接收来自存储器单元300的输入图像,即图像数据,并在图像数据中提取最小的并包括连续的黑色图像的矩形(步骤S601)。例如,假设输入图像是图7A中所示的图像,则提取的矩形是如图7B中所示的。
然后,数据提取单元401合并相邻的矩形以获取更大的矩形(步骤S602)。当矩形的大小落入预定的范围之内时,确定该矩形是否与字符相应(步骤S603)。如果矩形与字符不相应,则处理控制进入步骤S606。如果矩形与字符相应,通过矩形的合并提取字符行(步骤S604)。在图8A中示出提取的字符行的结果。
此外,如果相邻的字符行接近地位于预定的范围之内,则数据提取单元401合并相邻的字符行(步骤S605),并提取文本区域(步骤S606)。在图8B中示出文本区域的提取的结果。图8A和8B中的阴影部分代表除了文本之外的区域。通过确定不能提取矩形大小和字符行的区域来确定这样的区域。
最后,数据提取单元401确定读取所提取的区域的顺序(步骤S607)。当字符行方向是水平的(水平写入)时,通过沿着从顶部到底部及从左到右的方向跟踪区域可以确定读取顺序,相反地,当字符行方向是垂直(垂直写入)时,通过沿着从顶部到底部及从右到左的方向跟踪区域确定读取顺序。在图9中示出确定的结果。
下面参考图10详细说明在图5中所示的属性提取处理。首先,以从区域数据到区域类型的读取顺序,读取提取资料文件图像中的提取区域的结果(步骤S1001和S1002)。在图11中示出提取在步骤S1001到S1002中获得的区域的结果,其中,区域确定结果说明在以读取的顺序划分的每个区域。
然后,数据生成单元405确定在步骤S1002读取的区域的类型,即是否是文本区域(步骤S1003)。如果不是文本区域,处理控制返回步骤S1001。
相反地,如果是文本区域,则提取在该确定的区域中的字符的数字串数据(步骤S1004)(见图12)。在全部确定的文本区域执行步骤S1001到S1004的处理之后(步骤S1005),执行关键字信息生成处理以从各自区域的数字串数据中生成注册关键字信息(或检索关键字信息)(步骤S1006),然后处理结束。资料文件图像的生成的注册关键字信息(或检索关键字信息)用于注册或检索。
下面参考图12和13详细说明来自在图10的步骤S1006执行的资料文件图像的每一个区域中的字符的注册关键字信息(或检索关键字信息)的生成。
图13是图10所示的关键字信息生成处理的详细流程图。开始,数据提取单元401从区域提取的结果中读取如图12的部分(b)所示的字符行中的矩形的数量(步骤S1301),并读取一个矩形的宽度和高度(步骤S1302)。
随后,数据提取单元401例如计算一个读取的矩形的宽度和高度的比率(步骤S1303)。然后,数据提取单元401在全部的矩形上执行步骤S1301到S1303的处理(步骤S1304)。
数据提取单元401确定相邻的字符矩形是否在预定的范围之内,即在距离上互相接近(步骤S1305)。如果距离短,则数据提取单元401在合并相邻的矩形之后计算比率(步骤S1306)。然后,数据生成单元405执行编码处理,以对来自一行的一部分的比率的数字串数据进行编码(步骤S1307)。
如图12中的部分(c)所示,如果相邻的字符矩形是在预定的范围之内,则合并矩形,然后计算合并的矩形的比率。在该情况下,字符矩形长度趋于较长,然而,矩形的数量减小,从而包括英语单词的文本区域的数据容量相对小。对区域中的全部字符行执行上面的处理,然后写代码。在图15中示出编码的数据(代码串数据)的示例。在图15中,对在图12中的部分(c)所示的第一到第八行的矩形的比率进行编码,然而,实际上全部矩形的比率被编码。
然后,数据提取单元401和数据生成单元405对全部字符行执行步骤S1301到S1307的处理(步骤S1308)。此后,通过对与一个区域的一部分相应的数字串数据进行编码,数据生成单元40生成代码串数据。生成的代码串数据注册为注册关键字信息,当检索图像文件时使用该注册关键字信息(步骤S1309),然后处理结束。
参考图14和15详细说明图13所示的编码处理。图14是编码处理的详细流程图。
当在图13中的步骤S1306计算字符行中的全部矩形的比率,及从计算的比率生成数字串数据时,基于如图16所示的转换表,数据生成单元405从左端顺序地编码数字串数据中包括的每一个元素。在图15中示出的示例中,在步骤S1306从部分(a)中所示的每一个字符行的矩形中计算部分(b)中所示的数字串数据。
首先,从数字串数据中提取要编码的元素(下文称为“聚焦元素”)以及在右边的该聚焦元素之后的两个相邻的元素(步骤S1401)。由于没有元素相邻该数字串数据的右端元素,因此假设提取无限多的元素作为该右端元素之后的两个相邻元素。虽然假设在没有相邻元素时提取无限多的元素,但是假设的提取的元素可以具有预定的值,例如无穷小或零。
在提取聚焦元素和两个相邻的元素之后,参考如图16中所示的转换表评价该聚焦元素和两个相邻近的元素之间的数值关系(步骤S1402)。基于转换表,给聚焦元素分配代码(步骤S1403)。
虽然以上列举聚焦元素的右边的相邻的元素被提取并在数值关系方面与该聚焦元素进行比较,但是相邻元素可以是与该聚焦元素的左边相邻的元素,或各自在该聚焦元素的左边和右边的元素,并在数值上与该聚焦元素进行比较。此外,可以增加要提取的元素的数量n,并且使用转换表可以编码每一个元素以分配2的n次幂的代码。此外,可以将与该聚焦元素在数值关系上的比较结果X分为三类,即较大、相等和较小,并且使用转换表可以编码每一个元素以分配X的3次幂的代码。
例如,当编码在图15中部分(b)中所示的数字串数据中的左端元素0.9时,提取相邻近左端元素的右边的0.8(下文称为“第一元素”)和0.8(下文称为“第二元素”),然后,在数值关系方面将聚焦元素0.9与第一元素0.8和第二元素0.8进行比较。聚焦元素0.9小于第一元素0.8,并小于第二元素0.8,从而根据图16示出的转换表给聚焦元素0.9分配代码D。
然后,数据生成单元405对全部元素执行步骤S1401到S1403的处理(步骤S1404),并输出如由图15中的部分(c)表示的代码串数据,该编码串数据是通过对全部的元素进行编码生成的(步骤S1405)。
根据以上的配置,例如,可以对具有相同内容但是不同纵横比的文件分配相似的代码串数据,从而基于具有与注册的图像数据的纵横比不同的纵横比的图像数据可以找到具有相同内容的图像数据。
虽然根据以上的配置,将图像数据输入给数字影印机,从该图像数据中提取数字串数据,以及基于该数字串数据生成代码串数据,但是实施例并不限制于此。例如,如果对诸如股票价格表或设备管理数据等已经数字化的数据进行编码,则数字串数据可以输入到诸如信息处理器等编码装置中并进行编码。换句话说,根据第一实施例,如果在维持与相邻元素的数值关系的同时改变在数字串数据中包括的每一个元素的值,则基于数值关系对每一个元素进行编码,并且不考虑每一个元素的值的改变,将每一个元素转换为相同的代码串数据。因此,例如,当在各种时期分析股票价格表时,即使在比较期间股票的价格互不相同,但是通过将股票价格表转换成代码串数据并比较该代码串数据,可以掌握在每一个期间的股票价格的走势。
根据本发明的第二实施例的数字影印机与根据第一实施例的数字影印机是基本上相同的配置并以与前面所说明的类似的方式进行操作。当注册图像文件时,根据第二实施例的数字影印机从文本区域、照片区域或表格区域提取数字串数据,编码该数字串数据,注册包括图像数据和代码串数据的图像文件,此外,当检索图像文件时,基于从读取的图像数据类似地生成的代码串数据检索图像数据,并找到具有文本区域、照片区域或表格区域的图像数据,不考虑图像数据的纵横比,该图像数据具有与该代码串数据相同的内容。
根据第二实施例的图像文件的注册、检索图像文件和图像转换的处理是与参考图5到9说明的第一实施例的这些处理相似的,因此,不重复相同的说明。
图像转换处理说明关于与第一实施例不同的特征。下面参考图17详细说明第二实施例的图5所示的属性提取处理。首先,资料文件图像中的提取区域的结果以从区域数据到区域类型的读取顺序读出(步骤S1701和S1702)。在图11中示出在步骤S1701到S1702获得的提取这些区域的结果的示例,其中区域确定结果是对以读取的顺序划分的每一个区域进行说明的。
然后,数据提取单元401计算每一个区域的投影直方图,并从该投影直方图中提取数字串数据(步骤S1703)。例如,假设输入图18的部分(a)中示出的数据格式的图像数据。每一个小格(cell)与二进制图像的像素对应,具有0的小格表示白色像素,具有1的小格表示黑色像素。数据提取单元401计算在垂直方向或水平方向的输入图像数据中的黑色像素的总数,并基于该计算提取数字串数据。通过计算在图18的部分(a)中所示的图像数据的垂直方向上的黑色像素,提取下面的数字串数据。从左边的第一列、第二列、第三列、第四列及第五列的总计数分别是1、3、4、2和1,从左边的顺序设置该总计数,作为结果,提取在图18的部分(b)所示的数字串数据,即13421。
虽然在以上说明中通过计算黑色像素来提取数字串数据,但是还可以通过计算白色像素来提取数字串数据。另外,如图19所示,还可以水平地计算黑色像素或白色像素。此外,通过计算垂直和水平方向二者中的像素可以提取两组数字串数据。
如图20所示,投影直方图是通过垂直地沿着字符行方向计算资料文件图像中的黑色像素生成的图,因此不同的字符形式具有不同的投影直方图的波形。换句话说,投影直方图可以用作字符图像的特征。字符图像不假设为被划分成单独的字符,从而可以生成可以以行排列的例如手写、草书或阿拉伯字体的不管任何语言的字符的投影直方图。
由于在投影直方图上表示的每一个值是黑色像素的数量,从而该值可以由于诸如读取条件、噪声或稀疏点(thin spot)等影响导致每一个像素改变。因此,使用投影直方图的精确值来匹配波形没有意义,但是使用近似值表示的波形可以表示字符图像的特征。根据第二实施例,投影直方图中的数被量化,并从量化的投影直方图中提取数字串数据。后面将说明量化投影直方图的处理。
数据提取单元401对全部区域执行步骤S1701到S1703的处理(步骤S1704),数据生成单元405从每一个区域的数字串数据中生成注册关键字信息(或检索关键字信息)(步骤S1705),然后处理结束。生成的注册关键字信息(或检索关键字信息)用于注册或检索。
下面详细说明图17的步骤S1703的处理。将投影直方图的数值量化,并从量化的投影直方图中提取数字串数据。
投影直方图是一系列黑色像素的数量的总数,并且即使读取相同的资料文件,在不同的条件下投影直方图也很容易改变,因此直接使用黑色像素的总数的精确值是没有意义的。对于基于波形的近似形状的确定,忽略小的波动,并通过平滑小的波动来吸收误差以根据整个粗糙形状来确定特征。
可以使用取移动平均数作为平滑一维时间序列的波形的技术。假设时间序列上的数值(在投影直方图中的黑色像素的数量)是A0、A1、A2、A3、A4、A5等等,并且移动平均宽度是5个点,包括一个聚焦的点和分别在该聚焦的点之前和之后的两个点,移动平均数计算如下:
聚焦的点A2:(A0+A1+A2+A3+A4)/5=移动平均数M2;
聚焦的点A3:(A1+A2+A3+A4+A5)/5=移动平均数M3;
聚焦的点A4:(A2+A3+A4+A5+A6)/5=移动平均数M4;等等。
图21是由移动平均宽度的五个点平滑的投影直方图的示例。如图21所示,与维持波形的近似形状一样,资料图像的投影直方图被平滑。此外,将平滑的波形的数值量化为固定的等级,然后如图22所示,提取数字串数据。根据图22,假设在投影直方图中的水平坐标i上的数值是yi。关于yi,例如,如果根据下面的标准量化yi,则yi被转换为五个等级如下:
等级0:0≤yi<10
等级1:10≤yi<20
等级2:20≤yi<30
等级3:30≤yi<40
等级4:40≤yi
在图22中,左座标轴的刻度表示量化之前的数值,右座标轴的刻度表示量化之后的数值。如图22所示,量化之后的波形表示原始波形的外部轮廓。
图23画出以不同的移动平均宽度平滑的投影直方图的波形及原始波形。该图清楚的示出,移动平均宽度越宽,平滑小的波动越多。当投影直方图平滑的越多时,由于读取条件的不同引起的黑色像素的数量的改变的影响越小,但是,原始波形的特征趋于消失。原始波形的特征的消失意味着区分相似的和不相似的特征之间的特征变得不明显,并减小图像匹配的精确性。根据原始波形的复杂性和差别的主题聚合性的复杂性(包括在什么程度上基本上相似的图像),需要确定移动平均宽度,并且在固定的数值不能预先确定。由于该原因,根据检索主题可以改变移动平均宽度,并且用户可以控制它。
下面说明通过采样平滑的投影直方图来减少在数字串数据中包括的元素的数量的处理。
如果从投影直方图中提取的数字串数据较长,并且从数字串数据中生成的代码串数据较长,则在检索匹配注册关键字信息和检索关键字信息的图像数据时需要较长的时间,注册关键字信息和检索关键字信息二者都包括代码串数据。
通过水平地采样投影直方图,并提取数字串数据,可以缩短从数字串数据中生成的代码串数据。图24A画出通过移动平均宽度的9个点平滑的投影直方图。图24B画出通过移动平均数宽度的9个点平滑的投影直方图,以1/5采样的波形。采样是要获得在投影直方图上水平地预先确定的每一个时间间隔(下文称为“采样间隔”)中的一个点上的代表值。例如,可以在采样间隔的范围内随意地选择一个点,或可以选择与该采样间隔的中心对应的数值。如图24A和24B所示的,执行采样之后的波形保持原始波形的特征。然而,如果不适当地设置采样间隔,则可能失去原始波形的特征,因此,将采样间隔留给用户来控制。
图25是图17中所示的关键字信息生成处理的详细流程图。首先,数据生成单元405基于在图17中所示的步骤S1702读取的区域类型确定被编码的区域是否是文本区域(步骤S2501)。如果该区域是文本区域,则数据产生单元405读取在该区域中的一行数字串数据的一部分(步骤S2502)。
然后,数据生成单元405编码读取的数字串数据(步骤S2503)。然后,数据生成单元405对全部行的元素执行步骤S2502到S2503的处理(步骤S2504)。
相反地,如果该区域不是文本区域,则数据生成单元405读取在该区域中的数字串数据(步骤S2506),并通过编码读取的数字串数据生成代码串数据(步骤S2507)。图18中的部分(c)是通过编码图18中的部分(b)中所示的数字串数据生成的代码串数据。
当完成区域的编码时,则注册该代码串数据作为注册关键字信息,当检索图像文件时使用该信息(步骤S2505),然后处理结束。
数字串数据的编码与在参考图14到16的第一实施例中说明的处理类似,从而省略其说明。
根据以上的配置,例如,不管区域的类型,诸如文本区域、图形区域及表格区域,如果区域文件具有相同的内容,即使其纵横比不同,可以给该区域分配相似的代码串数据,从而基于具有与注册的图像数据的纵横比不同的纵横比的图像数据可以找到具有相同内容的图像数据。
根据第一和第二实施例,图像处理装置400的全部的部件安装在数字影印机上。然而,根据本发明的第三实施例,如图26所示的,在经由网络连接到图像处理装置400的服务器上安装检索单元402和存储单元404。另一方面,在由用户操作的数字影印机上安装数据提取单元401、控制单元403及数据生成单元405,数字影印机能够经由网络检索图像文件的服务器。每一个单元的配置和操作是与上述的实施例相似。
根据第一到第三实施例的数字影印机具有包括上述单元(数据提取单元401、检索单元402、存储单元404、控制单元403及数据生成单元405)的模块配置。在主存储器上实现每一个模块为读取并执行计算机程序的中央处理单元(CPU),在计算机程序预先并入只读存储器(ROM)或其它单元中。
计算机程序可以提供作为可安装格式或可执行格式,在计算机可读介质中存储的文件,计算机可读介质例如小型盘只读存储器(CD-ROM)、软盘(FD)、可写入光盘(CD-R)及数字多用途的光盘(DVD)。
计算机程序还可以存储在经由例如因特网等网络连接到该计算机的其它计算机中,并从其中下载。此外,计算机程序可以经由例如由特网的网络提供或分配。
根据本发明的实施例,在保持与相邻元素的数值关系时,即使在数字串数据中包括的每一个元素的值改变,基于该数值关系对每一个元素进行编码,并且不考虑每一个元素的值的改变,将每一个元素转换为相同的代码串数据。
此外,不考虑区域的类型,例如文本区域、图形区域及表格区域,即使其纵横比不同,具有相同内容的区域仍可以分配相似的代码串数据。因此,基于具有与注册的图像数据的纵横比不同的纵横比的图像数据可以找到具有相同内容的图像数据。
虽然为了完整和清楚的揭示,已经对于特定的实施例说明了本发明,但是所附的权利要求并非限制于此,而是解释为包括本领域技术人员可以想到的、落入本文阐述的基本教导之内的全部的修改和替换结构。
Claims (17)
1.一种编码设备,包括:
获取单元,用于获取数字串数据;以及
生成单元,对该数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据。
2.一种数据检索设备,包括:
获取单元,用于获取数字串数据;
生成单元,对数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;
存储单元,以关联的方式存储作为注册信息的代码串数据以及数字串数据;以及
检索单元,基于该注册信息检索该数字串数据。
3.一种图像处理设备,包括:
获取单元,用于获取图像数据;
提取单元,用于从该图像数据中提取数字串数据;
生成单元,对该数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;
存储单元,以关联的方式存储作为注册信息的代码串数据以及图像数据;以及
检索单元,基于该注册信息检索该图像数据。
4.根据权利要求3所述的图像处理设备,其特征在于:所述提取单元从所述图像数据的文本区域提取字符矩形,并计算该字符矩形的宽度和高度的比率,以提取所述数字串数据。
5.根据权利要求4所述的图像处理设备,其特征在于:所述提取单元合并相邻的字符矩形以获得所述字符矩形。
6.根据权利要求5所述的图像处理设备,其特征在于:在确定矩形的大小落入预定的范围之内时,所述提取单元确定该矩形是字符矩形。
7.根据权利要求6所述的图像处理设备,其特征在于:所述提取单元从所述图像数据中提取字符行,并合并相邻的字符行以获得文本区域。
8.根据权利要求3所述的图像处理设备,其特征在于:所述提取单元计算在所述图像数据中的每一个区域的投影直方图,并从该投影直方图中提取数字串数据。
9.根据权利要求8所述的图像处理设备,其特征在于:所述提取单元计算在文本区域中的每一行的文本区域的投影直方图。
10.根据权利要求3到9中的任一项权利要求所述的图像处理设备,其特征在于:所述检索单元从作为来自该代码串数据的右端和左端中的任意一端的检索关键字中获取多个元素,并检索具有包括多个检索关键字的注册信息的图像数据。
11.一种数据检索系统,包括:
信息处理器,其包括:
获取单元,用于获取数字串数据;以及
生成单元,对数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;
以及
服务器,经由网络连接到该信息处理器,该服务器包括:
存储单元,以关联的方式存储作为注册信息的代码串数据以及数字串数据;以及
检索单元,基于该注册信息检索数字串数据。
12.一种图像处理系统,包括:
图像处理器,其包括:
获取单元,用于获取图像数据;
提取单元,用于从该图像数据中提取数字串数据;以及
生成单元,对数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;
以及
服务器,经由网络连接到所述图像处理器,该服务器包括:
存储单元,以关联的方式存储作为注册信息的代码串数据以及该图像数据;以及
检索单元,基于该注册信息检索该图像数据。
13.一种编码方法,包括:
获取数字串数据;以及
对数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据。
14.一种数据检索方法,包括:
获取数字串数据;
对数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;
以关联的方式存储作为注册信息的代码串数据以及数字串数据;以及
基于该注册信息检索该数字串数据。
15.一种图像处理方法,包括:
获取图像数据;
从该图像数据中提取数字串数据;
对数字串数据进行编码,基于聚焦元素与相邻该聚焦元素的元素之间的数值关系,通过对数字串数据的聚焦元素分配代码来生成代码串数据;
以关联的方式存储作为注册信息的代码串数据以及图像数据;以及
基于该注册信息检索该图像数据。
16.根据权利要求15所述的图像处理方法,其中所述提取包括从所述图像数据的文本区域提取字符矩形,并计算该字符矩形的宽度和高度的比率来提取该数字串数据。
17.根据权利要求15所述的图像处理方法,其中所述提取包括计算在所述图像数据中的每一个区域的投影直方图,并从该投影直方图中提取该数字串数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007022108A JP4851353B2 (ja) | 2007-01-31 | 2007-01-31 | 画像処理装置及び画像処理方法 |
JP2007-022108 | 2007-01-31 | ||
JP2007022108 | 2007-01-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101236561A true CN101236561A (zh) | 2008-08-06 |
CN101236561B CN101236561B (zh) | 2011-06-22 |
Family
ID=39668050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100092116A Expired - Fee Related CN101236561B (zh) | 2007-01-31 | 2008-01-29 | 图像处理设备及图像处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8406536B2 (zh) |
JP (1) | JP4851353B2 (zh) |
CN (1) | CN101236561B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563181A (zh) * | 2020-05-12 | 2020-08-21 | 海口科博瑞信息科技有限公司 | 数字图像文件查询方法、装置及可读存储介质 |
CN114494474A (zh) * | 2022-01-17 | 2022-05-13 | 广东石油化工学院 | 人与合法设备通用验证码的生成方法、验证方法及装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4909216B2 (ja) * | 2006-09-13 | 2012-04-04 | 株式会社キーエンス | 文字切り出し装置、方法およびプログラム |
JP2008170900A (ja) * | 2007-01-15 | 2008-07-24 | Ricoh Co Ltd | 情報処理装置、情報閲覧方法、情報閲覧プログラム及び記録媒体 |
JP2009252185A (ja) | 2008-04-10 | 2009-10-29 | Ricoh Co Ltd | 情報検索装置、情報検索方法、制御プログラム及び記録媒体 |
JP5123032B2 (ja) | 2008-04-10 | 2013-01-16 | 株式会社リコー | 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体 |
JP5315935B2 (ja) * | 2008-11-04 | 2013-10-16 | 株式会社リコー | 画像検索装置、画像検索方法、制御プログラム及び記録媒体 |
JP2010246027A (ja) * | 2009-04-09 | 2010-10-28 | Canon Inc | 画像形成装置、画像形成方法、及びコンピュータプログラム |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
JP6080259B2 (ja) * | 2013-02-06 | 2017-02-15 | 日本電産サンキョー株式会社 | 文字切り出し装置及び文字切り出し方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2798216B2 (ja) | 1989-07-12 | 1998-09-17 | 三菱重工業株式会社 | 文字列検出装置 |
JP2856670B2 (ja) * | 1994-03-17 | 1999-02-10 | 日立造船株式会社 | 時系列データ解析装置 |
JP2730665B2 (ja) | 1994-12-15 | 1998-03-25 | 北陸先端科学技術大学院大学長 | 文字認識装置および方法 |
JPH08305795A (ja) | 1995-04-28 | 1996-11-22 | Nippon Steel Corp | 文字認識方法 |
JPH09270902A (ja) | 1996-01-31 | 1997-10-14 | Ricoh Co Ltd | 画像ファイリング方法および画像ファイリング装置 |
JPH11175705A (ja) * | 1997-12-17 | 1999-07-02 | Sharp Corp | データファイリング装置 |
JP3223878B2 (ja) | 1998-03-27 | 2001-10-29 | 日本電気株式会社 | 文字列照合装置、方法及び記録媒体 |
CN1142524C (zh) | 2000-07-20 | 2004-03-17 | 南开大学 | 动态差分编码和解码方法 |
JP4038771B2 (ja) | 2003-10-28 | 2008-01-30 | ソニー株式会社 | 携帯型情報端末装置および情報処理方法、記録媒体、並びにプログラム |
JP2005208981A (ja) | 2004-01-23 | 2005-08-04 | Fuji Xerox Co Ltd | 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置 |
JP4504702B2 (ja) | 2004-02-25 | 2010-07-14 | 株式会社リコー | 文書処理装置、文書処理方法、および文書処理プログラム |
JP2007011822A (ja) * | 2005-07-01 | 2007-01-18 | Canon Inc | 文書管理装置 |
US7953285B2 (en) * | 2006-11-03 | 2011-05-31 | Taiwan Imagingtek Corporation | Method and circuit of high performance variable length coding and decoding for image compression |
-
2007
- 2007-01-31 JP JP2007022108A patent/JP4851353B2/ja not_active Expired - Fee Related
-
2008
- 2008-01-24 US US12/010,351 patent/US8406536B2/en active Active
- 2008-01-29 CN CN2008100092116A patent/CN101236561B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563181A (zh) * | 2020-05-12 | 2020-08-21 | 海口科博瑞信息科技有限公司 | 数字图像文件查询方法、装置及可读存储介质 |
CN111563181B (zh) * | 2020-05-12 | 2023-05-05 | 海口科博瑞信息科技有限公司 | 数字图像文件查询方法、装置及可读存储介质 |
CN114494474A (zh) * | 2022-01-17 | 2022-05-13 | 广东石油化工学院 | 人与合法设备通用验证码的生成方法、验证方法及装置 |
CN114494474B (zh) * | 2022-01-17 | 2022-09-20 | 广东石油化工学院 | 人与合法设备通用验证码的生成方法、验证方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US8406536B2 (en) | 2013-03-26 |
US20080181500A1 (en) | 2008-07-31 |
JP2008191703A (ja) | 2008-08-21 |
CN101236561B (zh) | 2011-06-22 |
JP4851353B2 (ja) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101236561B (zh) | 图像处理设备及图像处理方法 | |
Shahab et al. | An open approach towards the benchmarking of table structure recognition systems | |
CN100458773C (zh) | 信息处理装置和信息处理方法 | |
US8126270B2 (en) | Image processing apparatus and image processing method for performing region segmentation processing | |
JP4533273B2 (ja) | 画像処理装置及び画像処理方法、プログラム | |
CN110276236B (zh) | 计算机及模板管理方法 | |
JP2021043478A (ja) | 情報処理装置、その制御方法及びプログラム | |
CN105335356B (zh) | 一种面向语义识别的纸质翻译方法及翻译笔装置 | |
JP2015069256A (ja) | 文字識別システム | |
JP2006025129A (ja) | 画像処理システム及び画像処理方法 | |
JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
KR102392644B1 (ko) | 유사도 기반의 문서 분류 장치 및 방법 | |
Delteil et al. | MATrIX--Modality-Aware Transformer for Information eXtraction | |
JP2007066286A (ja) | 画像検索装置、画像処理装置、及びそれらの方法 | |
JP7312646B2 (ja) | 情報処理装置、文書識別方法、及び情報処理システム | |
JP2005208977A (ja) | 文書ファイリング装置および文書ファイリング方法 | |
Wahlberg et al. | Data mining medieval documents by word spotting | |
O’Brien et al. | Optical character recognition | |
JP2020047138A (ja) | 情報処理装置 | |
US11315351B2 (en) | Information processing device, information processing method, and information processing program | |
JP2020123925A (ja) | 情報処理装置及びプログラム | |
Cutter et al. | Font group identification using reconstructed fonts | |
US11568659B2 (en) | Character recognizing apparatus and non-transitory computer readable medium | |
US20230274569A1 (en) | Systems and methods for intelligent zonal recognition and automated context mapping | |
Lee | Stochastic linguistics for picture recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110622 Termination date: 20210129 |