CN101201840B - 文档检索设备及文档检索方法 - Google Patents

文档检索设备及文档检索方法 Download PDF

Info

Publication number
CN101201840B
CN101201840B CN2007101547241A CN200710154724A CN101201840B CN 101201840 B CN101201840 B CN 101201840B CN 2007101547241 A CN2007101547241 A CN 2007101547241A CN 200710154724 A CN200710154724 A CN 200710154724A CN 101201840 B CN101201840 B CN 101201840B
Authority
CN
China
Prior art keywords
document
retrieval
key images
image
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007101547241A
Other languages
English (en)
Other versions
CN101201840A (zh
Inventor
山本雅仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN101201840A publication Critical patent/CN101201840A/zh
Application granted granted Critical
Publication of CN101201840B publication Critical patent/CN101201840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

本发明涉及文档检索设备及文档检索方法。一种配置为用于检索包括多个图像成分的文档的设备。该设备指定被用作用于图像检索的检索关键的关键图像,将与指定的关键图像等同的图像成分在文档中的出现模式设定为检索条件,和使用设定的检索条件检索文档。

Description

文档检索设备及文档检索方法
技术领域
本发明涉及一种用于执行文档检索的设备及其方法,更具体地,涉及一种能检索包含图像的文档的设备。
背景技术
近年来,数据存储方法越来越先进,并且存储装置的制造成本也降低了。这样,可以容易地存储和管理大量的文档数据。另外,具有先进的功能和高性能的文件服务器和文档管理系统已经广泛使用,并且用于这种服务器设备和系统的群件已经普及。
随着具有先进的功能和高性能的信息处理设备的发展,诸如复印机、打印机、图像扫描仪、传真设备、数码相机和具有存储文档并发送和接收图像的功能的多功能外设(MFP)等各种图像处理设备可以在网络上相互通信。
在网络连接环境下,在各种信息处理设备和图像形成设备之间经常发送和接收大量的文档数据。在这方面,用于在办公室积极存储经网络流动的大量文档的存储基础结构已经投入使用。
日本专利号3486452(美国专利号6,061,150)公开了可以连接至少两个图像数据输出设备的合成图像形成设备,该合成图像形成设备能可靠地存储图像的副本,而不需要操作者执行特殊的操作。
为了从大量所存储的文档中有效地检索所需的文档,除了检索文本文档以外,提供检索主要包括图像的文档的能力也是重要的。全文本检索可能不适合于检索主要包括图像而不是文本的文档,例如演示材料和具有大量图形和图像的文档。当利用基于图像指定的检索关键检索包括图像的文档时,如果只进行全文本检索,可能就不那么有意义了。
传统的相似图像检索方法使用图像作为检索关键来检索相似的图像。传统的相似图像检索方法根据图像的边缘抽取对象(object),以便确定图像的形状,并使用多个对象的位置、颜色和相对位置来确定图像是否是相似的图像。另一种传统的相似图像检索方法在直方图中抽取构成整个图像的主要颜色和颜色模式的组合,并使用该结果确定图像是否是相似的图像。
日本专利申请公开号2006-065866(美国专利申请公开号2006/0050985 A1)公开了使用用于计算特征量的算术处理(类似于认知相似性确定处理)的相似图像检索方法。
使用图像检索方法的文档检索并不旨在检索本身被指定为检索关键的图像,而是旨在从包括多个图像的文档中适当地找到包括被指定为检索关键的图像的所需文档。
例如,日本专利申请公开号2002-149659公开了图书检索服务方法,在该方法中,用户提交包括图书的部分数据(例如,书的一页的副本)的检索请求数据,使用所提交的数据检索图书数据库,并将检索的结果通知给发出请求的用户。
在日本专利申请公开号2006-065866(美国专利申请公开号US2006/0050985 A1)公开的仅使用图像检索方法的方法中,作为检索结果只找到一个文档的情况是很少的。在大多数情况下,检索结果列表包括大量的文档,其中包括大量的“噪声”文档(不是所需的文档)。
这是因为在大规模存储基础结构中,在大多数实际情况下,存在由重新使用或修改相同的图像而创建的大量文档。
由模拟连续量表示图像之间的相似程度。这样,不同的图像某种程度上也具有相似性。因此,得到根据图像检索执行的文档检索的结果作为连续命中率,而不是根据文档是否完全被命中而得到的离散结果。
因此,通过尽可能精确地缩小(narrow)检索结果列表来设定详细的检索条件,以便只有与所需的文档基本上相似的文档被命中是重要的。
由日本专利申请公开号2002-149659公开的方法从部分页面图像数据检索文档(书),与上述传统方法相同。然而,日本专利申请公开号2002-149659既没有公开也没有暗示通过指定关于文档中页面图像数据包括的模式的条件来以高精度缩小检索的配置。
发明内容
本发明的一个实施例涉及一种文档检索方法,该方法用于通过基于检索关键图像在文档中的出现模式设定检索条件,来根据图像检索文档。
根据本发明的一个方面,一个实施例涉及一种被配置为检索包括多个图像成分的文档的设备。该设备包括:关键图像指定单元,被配置为指定要被用作用于图像检索的检索关键的关键图像;模式设定单元,被配置为将与由关键图像指定单元指定的关键图像等同的图像成分在文档中出现模式设定为检索条件;以及文档检索单元,被配置为使用由模式设定单元设定的检索条件检索文档。
根据本发明的另一方面,一个实施例涉及一种用于检索包括多个图像成分的文档的方法。该方法包括:指定要被用作用于图像检索的检索关键的关键图像;将与指定的关键图像等同的图像成分在文档中的出现模式设定为检索条件;和使用设定的检索条件检索文档。
根据本发明的另一方面,通过根据检索关键图像在文档中的出现模式设定检索条件,可以在根据图像检索的文档检索中检索文档。
根据以下参考附图的示例性实施例的详细描述,本发明的其它特征和方面将变得明了。
附图说明
并入并构成说明书的一部分的附图说明了本发明的示例性实施例、特征和方面,并与说明书一起用来解释本发明的原理。
图1说明了根据本发明的第一示例性实施例的图像处理系统的示例性系统配置。
图2说明了根据本发明的第一示例性实施例的在服务器系统上运行的作业存档应用的示例性软件配置。
图3说明了根据本发明的第一示例性实施例的图像处理设备的示例性硬件配置。
图4说明了根据本发明的第一示例性实施例的图像处理设备的外观的示例。
图5说明了根据本发明的第一示例性实施例的图像处理设备的操作单元的示例性配置。
图6说明了根据本发明的第一示例性实施例的图像处理设备的操作单元和操作单元接口(I/F)的示例性内部配置,以及与图像处理设备的控制单元的内部配置的比较。
图7说明了根据本发明的第一示例性实施例的在图像处理设备的操作单元上显示的操作屏幕的示例。
图8说明了根据本发明的第一示例性实施例的存储在数据库(DB)管理系统中的每个数据库的示例性数据结构。
图9是根据本发明的第一示例性实施例说明检索处理的示例性流程的流程图。
图10说明了根据本发明的第一示例性实施例的作为文档检索应用的初始屏幕的文档检索屏幕的示例。
图11说明了根据本发明的第一示例性实施例的文档检索应用的文档检索结果列表屏幕的示例。
图12说明了根据本发明的第一示例性实施例的在检索中被命中的文档的显示示例。
图13说明了根据本发明的第一示例性实施例的在检索中已经命中多个页面的文档的显示示例。
图14A到14D的每一个说明了根据本发明的第一示例性实施例的用于设定检索条件的屏幕的示例,该检索条件是根据检索关键图像的出现模式确定的。
图15A到15E的每一个说明了根据本发明的第二示例性实施例的用于设定检索条件的屏幕的示例,该检索条件是根据检索关键图像的出现模式确定的。
图16说明了根据本发明的第三示例性实施例的用于设定检索条件的屏幕的示例,该检索条件是根据检索关键图像的出现模式确定的。
图17说明了根据本发明的第四示例性实施例的由多个图像区域成分构成的文档的示例。
图18说明了根据本发明的第四示例性实施例的用于设定检索条件的屏幕的示例,该检索条件是根据检索关键图像的出现模式确定的。
具体实施方式
以下将参考附图详细描述本发明的各种示例性实施例、特征和方面。应该注意,在这些实施例中所阐述的部件的相对布置、数值表达式和数值除非另外特别说明,否则不旨在限制本发明的范围。
第一示例性实施例
图1说明了根据本发明的示例性实施例的图像处理系统的示例性系统配置。
参考图1,图像处理系统包括图像处理设备110、120和130、个人计算机(PC)(图像处理设备)101和102以及服务器系统140。在一个实施例中,局域网(LAN)100被用作网络。
图像处理设备110包括扫描仪(图像输入装置)113、打印机(图像输出装置)114、控制单元111和操作单元(用户接口)112。
扫描仪113、打印机114和操作单元112被分别连接到控制单元111,并根据来自控制单元111的命令被控制。控制单元111与LAN100连接。
图像处理设备120和130具有与图像处理设备110的配置相似的配置。
PC101是由多个用户个人使用的信息处理设备,并存储用户数据和由用户使用的应用程序。
服务器系统140包括服务器计算机141和大规模存储装置142。
服务器计算机141存储向多个用户和客户系统提供服务的服务器应用,并且还存储共享的数据。大规模存储装置142是高度可靠的、具有高性能的大规模次级存储装置。大规模存储装置142主要存储用于主要在服务器计算机141上运行的数据库管理系统(DBMS)的数据。
由服务器系统140提供并服务的服务器应用之一是用于存档(即,存储并管理)在整个LAN100上流动的作业数据的数据库(DB)应用。在下文中将服务器应用称作“作业存档应用”。作业存档应用与安装在LAN100上的其它设备上的软件协作,并构成被称作“作业存档系统”的分布式应用。
在图1所示的系统中,PC101通过LAN100与图像处理设备110、120和130以及服务器系统140协同操作。例如,PC101发送并接收图像处理设备110之间的文档数据(在下文中被称作“文档”)。PC101执行诸如打印作业、扫描作业、传真发送作业、箱(box)(安装在图像处理设备110上的文档管理系统)存储作业以及箱提取作业等作业。
在执行用于处理文档的作业中,在服务器系统140上运行的作业存档应用存档作业信息和要在作业中被处理的文档数据的副本。例如,在打印作业的情况下,PC101的打印机驱动器将作业输入到图像处理设备110并将与该作业相关的信息和要被处理的文档数据发送到服务器系统140。这样,可以实现作业信息和在作业中要被处理的文档数据的存档。
在图1所示的系统中,图像处理设备110通过LAN100与图像处理设备120和130、PC101和102和服务器系统140协同操作。
例如,图像处理设备110将通过扫描文档的图像而得到的数字化图像数据发送到其它设备。另外,图像处理设备110可以通过提取数据、将数据存储到本地箱和将数据传递到其它设备,执行打印存储在其它设备上的数据的作业。
在执行文档处理作业中,在服务器系统140上运行的作业存档应用存档作业信息和要在作业中被处理的文档数据。
例如,在自动路由扫描(push scan)作业的情况下,在图像处理设备110上的“发送”应用将通过利用扫描仪读取文档而得到的数字化文档数据发送到指定的目的地。另外,发送应用将与作业有关的信息(作业信息)和要在作业中被处理的数据也发送到服务器系统140,以便执行存档。
如上所述,通过作业存档应用来存档在整个LAN100上流动的作业文档。
图2说明了根据本示例性实施例的在服务器系统140上运行的作业存档应用的示例性软件配置。
参考图2,DB管理系统201存储包括大量记录的大量数据,作为在记录之间建立关联的结构化数据库。另外,DB管理系统201根据在诸如结构化查询语言(SQL)等查询语言中发出的请求,以高速从数据库提取满足指定条件的记录。
DB管理系统201包括文档DB202、作业DB203和索引DB204。DB管理系统201可以使用适当的关系数据库或者面向对象的数据库来实现。
文档DB202是存储由作业存档系统存储并管理的文档数据的数据库。文档DB202存储文档内容数据和与文档有关的元数据,作为文档记录。文档DB202和作业DB203在所存储的记录中彼此相关联。
作业DB203是存储由作业存档系统存储并管理的作业数据作为作业记录的数据库。作业DB203和文档DB202在所存储的记录中彼此相关联。
索引DB204是存储用于从文档数据以高速检索所需数据的索引记录和由作业存档系统存储并管理的作业数据的数据库。存储在索引DB204中的索引记录是指在文档DB202和作业DB203中的记录。
存储单元205是从诸如图像处理设备110和PC101等客户设备接收文档数据和作业数据的存储请求接收模块,以便将所接收的文档数据和作业数据存储在DB管理系统201中。
存储单元205将所接收的文档数据和作业数据存储在DB管理系统201中,如上所述。另外,存储单元205切换到用于根据所接收的文档数据的数据格式产生元数据的处理。
在存储单元205接收的文档数据是通过利用图像扫描仪读取或者利用数码相机拍摄而产生的、或者通过传真设备接收的光栅图像文档数据的情况下,存储单元205将所接收的文档数据发送到光栅图像页面处理单元206。
在存储单元205接收的文档数据是已编码的文档数据的情况下,存储单元205将数据发送到光栅化单元210。例如,存储单元205将以页面描述语言(PDL)描述的各种文档和各种矢量表达的文档发送到光栅化单元210。
另外,存储单元205将在诸如桌面出版系统应用、文字处理软件、电子制表软件、演示应用、绘图应用或者绘画应用等各种应用中具有文档格式的文档数据发送到光栅化单元210。
光栅图像页面处理单元206是用于通过抽取和分离构成文档的页面(图像页面)来处理每图像页面的光栅图像文档的模块。光栅图像页面处理单元206将分离的图像页面发送到图像特征抽取单元207和图像结构分析单元208。
图像特征抽取单元207是用于抽取被用作用于通过分析光栅图像数据来确定图像之间的相似性的基准的特征数据(在下文中被称作“特征”)的模块。将所抽取的特征数据发送到DB管理系统201,以便被存储在其中。
用于抽取特征的各种方法可以被有效地用于检索相似图像检索。在本示例性实施例中,可以使用多种有效的方法,而不依赖于特定的算法。例如,可以采用以下方法。
例如,可以使用通过根据图像的边缘抽取对象来使用形状、位置、颜色和多个目标之间的位置关系确定对象的形状的方法。另外,可以使用在直方图中抽取构成整个图像的主要颜色的组合和模式的方法。另外,可以使用执行用于抽取与公知的相似性确定处理相似的特征量的各种算法处理(例如傅立叶梅林转换)的方法。此外,也可以使用由日本专利申请公开号2006-065866(美国专利申请公开号2006/0050985 A1)所公开的方法。
图像结构分析单元208是用于分析光栅图像数据的结构的模块。
更具体地,使用诸如块选择或块分离等方法,图像结构分析单元208将一簇图像区域(图像页面)分解为具有相互不同的特性的多个组成区域。例如,图像结构分析单元208将图像页面分解为多个区域(即,例如,文本区域、图像区域、照片区域、图形区域、单色区域和彩色区域),并相对于每个区域的结构对各个区域进行分析和分类。
另外,图像结构分析单元208相对于位于背景上的对象的背景模式、文本或形状执行与层结构有关的分析和分类。图像结构分析单元208将由分析而得到的图像区域(或图像层)的光栅图像数据发送到图像特征抽取单元207。图像结构分析单元208将由分析而得到的文本区域(或文本层)的光栅图像数据发送到光学字符识别(OCR)单元209。另外,图像结构分析单元208将由分析而得到的结构信息发送到DB管理系统201,以便将结构信息存储在DB管理系统201中。
OCR单元209是用于分析并字符识别再现(render)文本的光栅图像数据。OCR单元209将字符识别的文本数据(即,根据Unicode编码的数据)发送到DB管理系统201并将文本数据存储在DB管理系统201中。
索引产生单元211是用于产生索引信息的模块,该索引信息用来以高速从文档DB202和作业DB203检索数据。
索引产生单元211在检索之前产生索引。索引被用来以高速检索包括与被指定为检索关键的图像类似的图像的文档记录。另外,索引被用来以高速全文本检索包括在文档内容数据或者页面内容数据中被指定为检索关键的文本的文档记录。另外,索引被用来以高速检索具有满足被指定为检索关键的条件的元数据的文档记录或作业记录。可以使用多种公知的方法用于产生索引。
例如,在产生用于全文本检索的索引中使用“N-gram”方法。在产生用于相似图像检索的索引中,表达图像的特征的特征向量根据散列函数被预先按顺序群集或排列。
当文档DB202或作业DB203在执行另一登记或编辑文档数据或作业数据中已经更新时,由索引产生单元211执行索引产生处理。也可以通过与文档DB202或作业DB203的更新异步的批处理来产生索引。将产生的索引存储在DB管理系统201的索引DB204中。
提取单元212是用于从诸如图像处理设备110或PC101等客户设备获取用于检索的检索关键(检索关键图像或检索关键文本)和检索条件的模块。
提取单元212根据所接收的检索条件从DB管理系统201提取文档数据。提取单元212将诸如命中的文档数据、与文档有关的缩略图图像(在下文中被称作“缩略图”)的元数据和作业数据发送到客户设备。
文档检索单元213是用于检索与文档检索请求匹配的文档的模块。根据检索请求和指定的检索关键的类型,文档检索单元213能基于文档内容数据、文档中包括的页面数据或者文档的元数据进行检索。另外,根据与文档有关的作业的组合检索,文档检索单元213能检索与检索请求匹配的多个备选文档记录。
响应于基于文档中包括的页面数据的检索请求,页面检索单元214检索与检索请求指定的条件匹配的用于多个备选页面记录(和包括该页面的文档)的文档DB202。
根据基于指定为检索关键的图像检索相似图像的请求,相似图像检索单元215检索具有包括与检索关键图像相似的图像的页面内容数据的多个页面记录(和包括该页面的文档)。与图像特征抽取单元207一样,相似图像检索单元215对检索关键图像执行图像特征抽取,并基于检索目标图像和检索关键图像的特征之间的相似性检索相似的图像。
DB操作单元216是从客户设备接收的用于在每个数据库中执行对数据库的操作或者对记录的操作的请求、执行所请求的操作并将操作的结果发送到客户设备的数据库操作模块。服务器计算机141的管理控制台、图像数据设备110和PC101可被用作客户设备。对记录的操作包括添加或者编辑元数据(标签)的操作。
图3说明了根据本示例性实施例的图像处理设备110的示例性硬件配置。图像处理设备120和130具有与图3所示的配置相似的配置。
参考图3,控制单元111通过LAN100和公共线路(广域网(WAN))与扫描仪113和打印机114通信,并从而控制图像信息和装置信息的输入和输出。
中央处理单元(CPU)301控制整个控制单元111。随机存取存储器(RAM)302用作CPU301的系统工作存储器。RAM302也用作用于临时存储图像数据的图像存储器。只读存储器(ROM)303是引导ROM并存储系统的引导程序。硬盘驱动器(HDD)304存储系统软件和图像数据。
操作单元I/F306是在图像处理设备110和操作单元(用户接口(UI))112之间的接口,并将要显示在操作单元112上的图像数据输出到操作单元112。操作单元I/F306通过操作单元112将由用户输入的信息发送到CPU301。
网络I/F308是在图像处理设备110和LAN100之间的接口。调制解调器309与公共线路连接并用作用于在图像处理设备110和公共线路之间的数据通信的通信单元。上述装置和单元通过系统总线307相互通信。
图像总线I/F305是系统总线307和图像总线310之间的接口,通过该接口,图像数据被以高速传递。图像总线I/F305是用于转换数据结构的总线桥。可以使用外设部件互连(PCI)总线或者电气与电子工程师学会(IEEE)1394作为图像总线310。
下述装置被与图像总线310连接。光栅图像处理器(RIP)311使通过网络发送的PDL编码光栅化为位图图像。装置I/F312是在控制单元111和诸如扫描仪113和打印机114等输入/输出装置之间的接口。装置I/F312将同步图像数据转换为异步图像数据,反之亦然。
扫描仪图像处理单元313执行诸如对输入的图像数据进行校正、处理和编辑等各种处理。根据打印机114的性能,打印机图像处理单元314执行诸如对要打印的图像数据进行图像校正和分辨率转换等处理。图像旋转单元315使图像数据旋转。图像压缩/解压缩单元316根据联合图像专家组(JPEG)格式对多值图像数据进行压缩和解压缩。另外,图像压缩/解压缩单元316根据联合二值图像编码专家组(JBIG)格式、改进型相对元地址指定编码(MMR)格式和改进的霍夫曼(MH)格式对二元图像数据进行压缩和解压缩。
图4说明了图像处理设备110的外观的示例。图像处理设备120和130具有与图像处理设备110相似的外观。在下文中,作为示例,将描述图像处理设备110。然而,图像处理设备120和130具有与图像处理设备110相似的配置,从而可执行与图像处理设备110相似的操作。
作为图像输入装置的扫描仪113照射记录介质(纸张)(即,文档)上的图像,并采用电荷耦合器件(CCD)线传感器(未示出)扫描,以产生光栅图像数据。
当用户将纸件文档置于原稿给送器405的托盘406上,并操作操作单元112,以便发出开始读取文档的指令时,控制单元111的CPU301将用户指令发送至扫描仪113。然后,根据该用户指令,将置于托盘406上的文档逐张给送,并且扫描仪113读取给送的文档。
作为图像输出装置的打印机114将光栅图像数据打印到记录介质(纸张)上。作为用于打印的方法,可以采用使用感光鼓、感光带等的电子照像打印方法、以及通过从微喷嘴阵列喷墨以在记录介质(纸张)上直接形成图像的喷墨打印方法。根据来自CPU 301的指令开始打印处理。
打印机114具有多个给纸阶段,以便用户可以从多个纸张尺寸和方向中选择纸张尺寸和方向。打印机114包括对应于不同的纸张尺寸和方向的纸盒401、402和403。打印的产品被排出并堆叠在排纸托盘404上。
图5是说明根据本示例性实施例的图像处理设备110的操作单元112的配置的顶视图。图像处理设备120和130具有与图像处理设备110相似的配置。
液晶显示(LCD)单元501包括设置在LCD上的触摸板。LCD显示单元501显示图像处理设备110的操作屏幕和软键。当用户按下在操作屏幕上所显示的软键时,LCD显示单元501将被按下部分的位置信息发送到控制单元111的CPU 301。
用户可以操作开始键505,以便开始用于读取文档图像的操作。在开始键505的中央部分,设置红绿发光二极管(LED)显示器506。LED506的两种颜色表示开始键505是否处于操作状态。
用户可以操作停止键503,以便停止图像处理设备110的当前操作。用户可以操作标识(ID)键507,以便输入用户ID。用户可以操作重置键504,以便使由操作单元112设置的设定初始化。
图6说明了根据本示例性实施例的图像处理设备110的操作单元112和操作单元I/F 306的示例性内部配置,以及与控制单元111的内部配置的比较。在下文中,作为示例,将描述图像处理设备110。然而,图像处理设备120或130具有与图像处理设备110相似的配置,从而可以执行与由图像处理设备110执行的操作相似的操作。
如上所述,操作单元112通过操作单元I/F 306与系统总线307相连接。CPU 301、RAM 302、ROM 303和HDD304通过系统总线307相互通信。
CPU 301根据存储在ROM 303和HDD 304中的控制程序,控制对系统总线307上各种装置的访问以及来自系统总线307上各种装置的访问。CPU 301读取从通过装置I/F 312连接的扫描仪113输入的信息。另外,CPU301将图像信号作为输出信息输出到通过装置I/F312连接的打印机114。RAM 302用作CPU 301的主存储器和工作区等。
通过输入端口601将通过触摸板502的触摸板和各种硬键503、504、505和507输入的信息传送给CPU 301。CPU 301根据用户输入信息的内容和控制程序产生要在操作屏幕上显示的数据,并通过控制屏幕输出装置的输出端口602将显示屏幕数据输出到LCD显示单元501。另外,CPU 301根据需要控制两色LED显示单元506。
图7说明了在图像处理设备110的操作单元112上显示的处于初始状态的标准操作屏幕。
用户可以操作设置在图7的上部的显示区701中的按钮,从图像处理设备110提供的各种功能中选择一项功能。复制功能704是用于通过打印机114打印利用扫描仪113扫描并读取的文档图像数据,从而产生文档的副本的功能。
发送功能705是用于将利用扫描仪113读取的文档图像数据或存储在HDD 304中的图像数据发送至各种输出目的地的功能。可以通过网络I/F308根据各种协议将数据发送到输出目的地,和通过调制解调器309(图3)根据传真协议将数据发送到输出目的地。发送功能705允许用户选择多个输出目的地并同时对其发送数据。
箱功能706是用于浏览、编辑、打印和发送存储在HDD 304中的包括图像数据和编码数据的文档文件的功能。存储在HDD 304中的文档文件包括由扫描仪113读取的文档图像数据,和通过网络I/F308下载的数据。另外,存储在HDD 304中的文档文件可以包括通过网络I/F308从外部设备接收的打印数据和通过调制解调器309由传真设备接收的传真数据。
可以使用箱功能706作为用户的办公室环境中的电子邮件信箱。另外,通过使数据到打印纸张上的打印操作延迟,直到用户输入密码,可以使用箱功能706作为增强PDL打印作业的保密性的安全打印功能。
利用箱功能706,图像处理设备110能访问图像处理设备120和130的HDD、以及允许在PC101和102中共享的共享文件系统,从而可以浏览、编辑、打印和发送数据。利用箱功能706,图像处理设备110可以访问服务器系统140的共享文件系统、存储在数据库系统上的包括图像数据和编码数据的文档文件,从而可以浏览、编辑、打印和发送数据。
扩展功能707是用于从外部设备调用各种扩展功能以利用扫描仪113的功能。
检索功能708是用于从图像处理设备110的箱或者其它图像处理设备的箱检索所需文档的功能。利用检索功能708,图像处理设备110可以从在图像处理设备中共享的文件系统和由服务器系统140提供的共享文件系统或数据库系统检索所需文档。
在图7的中间部分所示的显示区702中,当用户选择复制功能704时,显示操作屏幕。图7中的最下方部分的状态显示区703向用户显示与图像处理设备110的每个功能有关的消息和关于图像处理设备110的各种信息,而与通过最上方的显示区701选择的功能无关。
图8说明了根据本示例性实施例的在DB管理系统201中存储的每个数据库的示意性数据结构。
文档DB 202包括多个文档记录801。文档记录801是与由用户处理的纸件文档和电子文档文件相对应的记录。文档记录801包括文档元数据802、文档内容数据803和多个页面记录804。
文档元数据802是用于存储与对应于文档记录801的文档有关的各种元数据的记录。文档元数据802包括与相应的文档有关的诸如文档名称、作者姓名、创建日期和时间、数据格式、数据大小、页面数量、标签、以及作业历史等信息。
“标签”是与由任意文本串构成的、用户赋给文档的关键词相似的信息。可根据标签执行文档检索。
用户可任意地将多个标签赋给一个文档。因此,可以基于各种基准条件对文档进行分类,以及通过赋给文档的标签,可以容易地检索文档。随后,多个用户可以将标签添加到共享文档,以便参考和利用该文档。从而,可以得到用于对文档进行分类和检索的十分有用的元数据。
该方法被通常称为“大众分类法(folk sonomy)”。“大众分类法”是组合了“大众”(即,每个人)和“分类法”(即,分类方法)的术语。
作业历史是用于识别作为处理目标对文档执行的一系列作业的参考信息列表。一个文档记录通常保持对多个作业记录的参考信息。例如,如果在多个作业中处理清楚地被识别为相同的文档的文档,则一个文档记录保持涉及多个作业的参考信息。
文档内容数据803与文档本身的内容相对应。以编码形式存储的应用程序的文本和数据是文档内容数据803。在利用扫描仪113通过读取纸件文档而得到光栅图像数据的情况下,其中,构成文档的页面明显彼此分离,内容数据被包括在页面记录804中。
页面记录804与构成文档的每一页面相对应。通过利用扫描仪113进行读取而得到的多个光栅图像数据、通过在光栅化单元210中对应用程序数据进行光栅化而得到的并逐页分开的图像数据、结构信息、文本数据和多个元数据组与每个页面记录804相对应。
页面记录804包括页面元数据805和页面内容数据806。页面元数据805存储与对应于页面记录804的页面有关的各种元数据。页面元数据805包括结构信息、特征、缩略图等。
结构信息与由图像结构分析单元208和光栅化单元210分析并存储的页面的结构有关。特征是表达由图像特征抽取单元207抽取并存储的构成页面的图像的特征的信息。缩略图是通过对整个页面或该页面中所包括的图像成分进行分辨率转换(或缩减)而获得的图像,从而使其成为相对容易处理的小尺寸图像。
可以在产生页面记录805的同时产生缩略图图像,或者如果需要响应外部提取操作,则根据需要产生缩略图图像。另外,通过异步执行产生还未产生的缩略图图像的任务,在预定的批处理中立刻产生缩略图图像。
页面内容数据806与页面本身的内容相对应。页面内容数据806通过利用图像扫描仪读取纸件文档的页面而获得的光栅图像数据和通过利用光栅化单元210将编码文档再现为页面而得到的每个页面的图像数据。页面内容数据806也可以存储通过利用OCR单元209对页面图像进行字符识别而得到的文本数据和通过利用光栅化单元210光栅化编码文档而得到的每个页面的文本信息。
作业DB 203包括多个作业记录808。作业记录808与由用户指令的每个文档处理作业相对应。作业记录808包括“作业日期和时间”、“作业操作者”、“作业请求设备”、“作业处理设备”、“已处理的内容”、以及“已处理的文档”。日期和时间表达作业被执的日期和时间。作业操作者标识执行作业的用户。
作业请求设备是请求作业的源设备。例如,在用户已经通过PC101发出打印数据的指令并且图像处理设备110已经打印出数据的情况下,PC101是作业请求设备。
“作业处理设备”是已经实际执行作业的设备。例如,在从PC101发送数据并通过图像处理设备110打印出数据的情况下,图像处理设备110是作业处理设备。
作业处理内容是用于识别已处理的作业的内容的信息。作业处理内容包括用于识别作业类型的信息、如何选择、设定和处理在每种作业类型中可选择的各种选项和可设定的各种参数的信息。
已处理的文档描述了用于识别在作业中处理的文档的参考信息的列表。一项作业记录可以涉及多个文档记录,例如,在已经对多个文档执行一项作业的情况下。
索引DB 204包括多个索引记录809。索引记录809是用于从文档DB 202和作业DB 203中高速地检索数据的索引信息。索引记录809涉及多个文档记录801和多个作业记录808。
索引记录809是由索引产生单元211产生的。索引记录809可用于高速地检索包括与检索关键图像相似的图像的文档记录。
另外,索引记录809可用于高速地在文档记录的文档内容数据或页面内容数据中全文本检索包括检索关键文本的文档记录。
此外,索引记录809可用于高速地检索具有与检索关键条件相匹配的元数据的文档记录或作业记录。
图9是说明根据本示例性实施例的检索处理的流程的流程图。通过由图像处理设备110的CPU 301执行的嵌入式应用程序来实施根据示例性实施例的检索处理。在下文中,嵌入式应用被称为“文档检索应用”。
当用户按下操作单元112的显示区701中的“检索”按钮时,图9的流程图中的一系列处理开始。
参考图9,在步骤S901中,显示用于操作单元112的显示区702上的文档检索功能(检索屏幕)的初始屏幕。通过与检索屏幕互动,用户可以通过检索屏幕发出设置检索条件的指令,输入检索关键和发布开始检索的指令。下面参考图10描述该检索屏幕的配置。
在步骤S902中,根据用户指令输入检索关键图像。另外,在步骤S903中,根据用户指令输入其它检索条件设定。
在步骤S904中,该处理等待,直到用户输入开始检索的指令。如果在步骤S904确定用户没有发布开始检索的指令(在步骤S904为“否”),则处理返回到步骤S902,以便重复检索关键图像和其它检索条件设定的用户输入。另一方面,如果在步骤S904确定用户已经发布开始检索的指令(在S904中为“是”),则处理前进到步骤S905。
在步骤S905中,开始检索处理。这时,文档检索应用访问在服务器系统140上运行的作业存档应用,并将检索关键和检索条件发送到提取单元212。
作为提取单元212的提取结果,对于与检索条件匹配(即命中)的一个或多个文档,该处理接收用于显示检索结果列表所必须的数据。在多数情况下,根据相似图像检索和全文本检索的特征,大量的文档可以命中该检索。
用于显示检索结果列表所必需的数据是包括在与被命中的文档相对应的文档记录中的元数据,或者包括在与该文档记录相关联的作业记录中的部分数据。
在步骤S906中,根据从作业存档应用接收的信息显示检索结果列表。以下将参考图11描述用于显示检索结果列表的配置。
在步骤S907中,确定用户是否已经发出用于改变显示缩略图的设定的指令。如果在步骤S907确定用户已经发出用于改变显示缩略图的设定的指令(在步骤S907中为“是”),则该处理前进到步骤S908。在步骤S908,改变用于显示缩略图的设定。然后,处理返回到步骤S906。在步骤S906,该处理根据已改变的缩略图显示设定,再次显示检索结果列表。
另一方面,如果在步骤S907中确定用户没有发出用于改变显示缩略图的设定的指令(在步骤S907中为“否”),则该处理前进到步骤S909。
在步骤S909中,确定用户是否已经发出用于改变文档记录过滤器的指令。如果在步骤S909确定用户已经发出用于改变文档记录过滤器的指令(在步骤S909中为“是”),则该处理前进到步骤S910。在步骤S910,改变文档记录过滤器。然后,该处理返回到步骤S906。在步骤S906,根据已改变的文档记录过滤器,再次显示检索结果列表。
另一方面,如果在步骤S909确定用户没有发出用于改变文档记录过滤器的指令(在步骤S909中为“否”),则该处理前进到步骤S911。
在步骤S911中,确定用户是否已经发出用于显示文档或页面的详细项目的指令。如果在步骤S911确定用户已经发出用于显示文档或页面的详细项目的指令(在步骤S911中为“是”),则该处理前进到步骤S912。在步骤S912,显示用于作业的被选择的文档和详细的信息的窗口。当用户关闭详细项目显示窗口时,该处理返回到步骤S906,以再次显示检索结果列表。
另一方面,如果在步骤S911确定用户没有发出用于显示文档或页面的详细项目的指令(在步骤S911中为“否”),则该处理前进至步骤S913。
在步骤S913中,该处理确定用户是否已经发出对文档记录进行操作的指令。可以对列表的文档记录执行的操作包括打印、存储、发送、添加标签、显示相关的文档检索和作标记。
如果在步骤S913确定用户已经发出对文档记录的操作的指令(步骤S913中为“是”),则该处理前进至步骤S914。在步骤S914,对与用户指令相相应的文档记录执行操作。然后,该处理返回到步骤S906,以再次显示检索结果列表。
另一方面,如果在步骤S913确定用户没有发出对文档记录进行操作的指令(在步骤S913中为“否”),则该处理前进到步骤S915。
在步骤S915,确定用户是否已经发出用于执行再次检索的指令。如果在步骤S915确定用户没有发出用于执行再次检索的指令(在步骤S915中为“否”),则该处理返回到步骤S906,以再次显示检索结果列表。另一方面,如果在步骤S915确定用户已经发出用于执行再次检索的指令(在步骤S915中为“是”),则该处理返回到步骤S901,以再次执行检索处理系列。
也可以由PC101执行处理系列。作为选择,操作系列可以分为部分操作部分,以及用于执行每个处理的软件可以安装到多个不同设备上,以便以分布式方式执行处理。用在这种情况下使用的软件用作分布式应用。
例如,图像处理设备110可以显示检索屏幕和检索结果列表,并可以输入用户指令。PC101、服务器系统140和图像处理设备120和130可以执行其它处理。
作为选择,PC101可以执行检索屏幕和检索结果列表的显示,并输入用户指令,而图像处理设备110和服务器系统140可以执行其它处理。
在用户通过PC101操作文档检索应用的情况下,用于在纸件文档上输入图像作为检索关键图像的操作比在用户利用手头的扫描仪113操作图像处理设备110的情况更不方便。
在这种情况下,可通过PC101或图像处理设备120和130操作由图像处理设备110的箱功能存储的图像。因此,用户可容易地输入和使用从箱选择的图像作为检索关键图像。
也可以通过web应用来实现分布式应用,可以通过web浏览器和web服务器的组合使用来实现该web应用。
图10说明了文档检索屏幕的配置的示例,该文档检索屏幕是根据本示例性实施例的文档检索应用的初始屏幕。
参考图10,文档检索屏幕1000是用于文档检索应用的初始屏幕。根据本示例性实施例的文档检索应用在操作单元112的显示区702上显示文档检索屏幕。文档检索屏幕1000包括检索条件设定区1001、检索关键图像输入区1002和检索开始指令区1003。
通过检索条件设定区1001,用户可以设定并验证检索条件。用户可以操作“根据检索关键的出现模式的检索”单选按钮1004,以便选择基本检索条件和验证所选条件。当选择“根据检索关键的出现模式的检索”单选按钮1004时,CPU301根据检索关键在文档中的出现模式执行检索。
当选择“根据检索关键的出现模式的检索”单选按钮1004时,可以操作检索关键出现模式下拉菜单1020。用户可以操作检索关键出现模式下拉菜单1020,以便选择检索关键在文档中的出现模式作为检索条件。
在检索关键出现模式下拉菜单1020选择的可替换示例即“在文档的前半部分中包括关键中任意一个”表示包括在文档的前半部分命中任意一个设定的检索关键的页面的文档将被检索。以下将参考图14A到17来描述在检索关键出现模式下拉菜单1020中的另一可替换方式。
当选择“根据检索关键的出现模式的检索”单选按钮1004时,正则表达式区1021变得可操作。正则表达式区1021表示将检索关键在文档中的出现的模式设定为检索条件。
当用户选择检索关键出现模式下拉菜单1020时,显示与检索条件(检索关键)相对应的正则表达式区。对于表达检索关键出现模式的方法,可以利用诸如用在Perl语言和grep命令的正则表达式区等公知公用的正则表达式区。
在本示例性实施例中,通过只展开Perl语言格式的子集来获得正则表达式区。以下将参考图16更加详细地描述正则表达式区1021。
用户可以使用“高级检索”单选按钮1005,以便根据通过检索选项按钮1022设定的更详细的检索条件来检索与检索结果匹配的文档。
用户可以使用检索选项按钮1022来打开用于设定详细的检索条件的窗口。详细的检索条件的设定包括高级检索条件的设定,该高级检索条件设定用作在高级检索模式中执行检索的情况下,确定与检索条件匹配的文档的基准。作为详细检索条件的选项,可以与相似图像检索一起设定使用元数据检索或全文本检索的条件。
对于与文档相对应的文档记录801,元数据检索是一种可以对存储在相应的作业记录808上的每个文档元数据、每个页面记录805或者每个数据项指定检索条件的检索方法。采用元数据检索,用户可以根据标签、文档名称、文档所有者、文档创建日期和时间、数据格式、页数和相关文档等来指定检索条件。
另外,用户可以根据作业历史和页面结构信息指定检索条件。作业历史包括日期和时间、操作者、作业请求设备、作业处理设备、已处理的内容和在作业中已处理的其它文档。
因此,采用元数据检索,除了根据文档名称、文档所有者、创建日期和时间和标签执行的普通检索,还可以根据相关文档信息和文档的检索历史来检索文档。
利用元数据检索,可以根据构成文档的页面是沿纵向方向定向还是沿横向定向来执行检索。
另外,利用元数据检索,可以根据纸张尺寸、从n到小于m的页面数量、彩色/单色、图像和文本的比率来执行检索。此外,利用元数据检索,可以根据诸如谁、在何时、利用哪个设备、对文档执行什么作业等与作业有关的信息来执行检索。
全文本检索是一种用于在包括被预先设定为检索关键的文本串的所有文本中检索文档的方法。文档中的文本涉及包括在文档记录801内的文档内容数据803和页面记录804中的页面内容数据的文本。
可将文档元数据802和页面记录805中所包括的文本数据添加到全文本检索的目标。也可以设定检索条件,以便使包括在与文档有关的作业记录808中的文本数据添加到全文本检索目标,从而在命中作业记录808的情况下,可以命中文档记录801。
通过检索关键图像输入区1002,用户可以设定并验证要被指定为用于相似图像检索的检索关键的图像。
用户可以操作文档图像扫描按钮1006,以便输入通过利用图像处理设备110的扫描仪113读取纸件文档而得到的文档的图像,作为相似图像检索的检索关键。当用户按下文档图像扫描按钮1006时,CPU301打开图像扫描窗口。通过图像扫描窗口,用户可以基于TWAIN设定用于读取文档的图像的参数,以及为读取文档而进行的图像处理设备110的复制功能704和发送功能705的设定,或者为读取文档而进行的普通扫描仪装置驱动器的设定。
当用户按下开始键505时,CPU301根据指定的文档图像读取参数扫描文档图像,并输入读取的图像数据作为检索关键图像。如果在完成文档图像扫描时,图像扫描窗口是活动的,则CPU301关闭该窗口。
当用户按下开始键505,而不是文档图像扫描按钮1006时,扫描仪113根据默认文档读取参数或目前设定的文档读取参数扫描文档图像。
用户可以操作箱图像选择按钮1007,以便利用图像处理设备110的箱功能706从预先存储的文档中选择检索关键图像。利用箱功能706,用户可以浏览存储在图像处理设备110的HDD 304上的文档,以便选择包括需要被作为检索关键图像使用的图像的文档。
另外,利用箱功能706,用户可以通过LAN 100访问图像处理设备120或图像处理设备130的HDD、或允许由PC101或PC102公享的共享文件系统,以便浏览所存储的文档并选择包括用户想要用作检索关键图像的图像的文档。
此外,利用箱功能706,用户可以通过LAN100访问由服务器系统140提供的共享文件系统或数据库系统,以便浏览所存储的文档文件并选择包括用户想要用作检索关键图像的图像的文档。
通过检索关键图像设定区1008,用户可以验证并操作设定的检索关键图像的组合。
检索关键图像设定状态消息1009描述了设定的检索关键图像的状态。更具体地,检索关键图像设定状态消息1009表示设定的检索关键图像的数量。
检索关键图像显示区1010显示设定的检索关键图像。检索关键图像显示区1010按顺序显示与设定的检索关键图像相对应的检索关键图标的组合。当用户通过文档图像扫描按钮1006或箱图像选择按钮1007输入检索关键图像时,将对应的检索关键图标添加到检索关键图像显示区1010。
检索关键图标1011与一个检索关键图像相对应。用户可以通过检索关键图标1101对检索关键发出各种操作指令。
检索关键ID 1012是用于识别检索关键的识别信息(识别符)。
检索关键缩略图1013是用于检索关键的缩略图图像。当用户按下检索关键缩略图1013时,打开图像查看窗口并显示具有比检索关键缩略图103大的尺寸的检索关键图像。通过图像查看窗口,用户可以更详细地检查检索关键图像。
检索关键概要信息1014简要描述了检索关键图像。
用户可以操作检索关键详情按钮1015,以便检查关于检索关键图像的详细信息。用户可以打开用于显示关于检索关键的信息的检索关键详情窗口,该关于检索关键的信息比检索关键概要信息1014更详细。
用户可以通过检索关键详情窗口设定对检索关键图像唯一的检索条件。用户可将检索关键图像保存在箱中,以便在随后的检索中再次使用该检索关键。
用户可以操作检索关键编辑按钮1016,以便打开用于编辑检索关键图像的检索关键编辑窗口。
通过检索关键编辑窗口,用户可以对检索关键图像执行诸如修整、遮蔽或降噪之类的各种图像处理,以便得到所需的检索关键图像。另外,用户可以将检索关键图像分为多个检索关键图像。此外,用户可以将与以一个页面图像为单位、包括多个页面图像的文档相对应的一个检索关键分为与每个页面图像相对应的多个检索关键图像。
用户可以操作检索关键删除按钮1017,以便从检索关键的组合中删除检索关键图像。用户可以操作检索开始指令区1003,以便开始检索处理。
用户可以操作检索开始按钮1018,以便开始检索处理。当用户按下检索开始按钮1018时,CPU301使用通过检索条件设定区1001指定的检索条件和通过检索关键图像输入区1002输入的检索关键图像,对服务器系统140的作业存档应用发出开始检索处理的请求。
图11说明了根据本示例性实施例的文档检索应用的文档检索结果列表屏幕的示例。参考图11,文档检索结果列表屏幕1100是当文档检索应用接收到对来自作业存档应用的检索处理请求的响应时,显示检索的结果的屏幕的示例。
根据本示例性实施例的文档检索应用在操作单元112的显示区702中显示文档检索结果列表屏幕。文档检索结果列表屏幕1100包括检索列表操作区1101、检索列表显示区1102和滚动条1103。
通过检索列表操作区1101,用户可以执行用于控制检索结果列表的显示状态的操作和设定。显示过滤显示1104表示:通过该显示过滤器,对从被作为检索结果命中的多个文档中筛选并抽取在检索列表显示区1102中显示的文档。在图11中,状态“所有文档”表示示出作为检索结果被命中的所有文档。
显示过滤显示1104可以显示从服务器系统140的提取单元212接收的所有被命中的文档(即,没有使用过滤)。另外,显示过滤显示1104可以显示根据显示过滤器的设定抽取的文档,以便从所有被命中的文档中缩小显示的文档。
用户可以操作显示过滤器设定按钮(过滤器)1105,以便设定用于显示过滤器的条件。当用户按下显示过滤器设定按钮1105时,CPU301打开显示过滤器设定窗口。用户可以通过显示过滤器设定窗口设定所需的过滤条件。用户可以基于包括在被命中的文档的文档记录801中的各种信息来设定过滤条件。
更具体地,用户可将条件设定为用于在文档元数据802中描述或存储的每条信息、被命中的页面的页面记录804的页面元数据805、或者与该文档相关联的作业记录808的模式匹配条件。换句话说,用户可以设定与通过检索选项按钮1022设定的详细的检索选项相似的过滤条件。
例如,除了根据文档名称、文档创建的日期和时间或添加到文档的标签等的普通过滤之外,用户还可以根据相关文档或该文档检索历史执行过滤。用户还可以使用作为检索关键的检索条件和与文档数据的相似性,作为用于缩小检索的显示过滤器设定条件。
另外,用户可以根据构成文档的页面是沿纵向定向还是沿横向定向来执行过滤。另外,用户可以根据纸张大小、从n到小于m的页面数量、文档是彩色文档还是灰度排列文档(具有连续色调图像的文档)、文档是否具有单色二值图像以及图像和文档的比率来执行过滤。此外,用户可以根据诸如谁、在何时、采用哪个设备、对文档执行什么作业等与作业有关的信息来执行过滤。
根据实施例,不仅检索列表显示区1102可以显示在检索中命中的所有文档,用户还可以设定用于抽取并显示满足特定条件的文档列表的过滤器。此外,根据实施例,在设定改变后,立即更新检索结果列表。从而,用户可从大量的备选文档中容易地找到所需文档。
通过显示属性设定区1106,在将由检索命中的文档的组合显示在检索列表显示区1102的同时,用户可以执行用于控制每个文档要被显示的项目的设定。每次用户按下复选框的矩形部分或按下被添加到复选框的标记文本串时,复选框的状态在被选择状态和未被选择状态之间交替切换。
当选择“显示属性信息”复选框时,CPU301在检索列表显示区1102上显示诸如文档名称、数据格式、页面数量、文档位置信息等与文档有关的元数据。当选择“显示缩略图”复选框时,检索列表显示区1102显示根据检索条件而被检索命中的页面的缩略图图像。
通过显示文档概要缩略图设定区1107,在将由检索命中的文档显示在检索列表显示区1102中的同时,用户可以执行用于控制每个文档被显示的文档概要缩略图的显示格式的设定。
当选择显示属性信息1106中的“显示缩略图”复选框时,并且也选择了“显示文档概要缩略图”复选框时,显示文档概要缩略图。“文档概要缩略图”是指与构成按顺序显示的文档的页面相对应的缩略图组合,以便用户可以在视觉上并容易地识别文档的概要。
通过文档概要缩略图配置设定区1108,用户可以设定构成文档概要缩略图的缩略图的配置。文档概要缩略图配置设定区1108包括用于输入数值的四个文本输入区。这四个区分别设置有“最前面”、“在前的”、“在后的”和“末尾”标记文本串。
用户可以对“最前面”区域输入数值,以便对从文档的最前面页起要显示缩略图的页数进行设定。用户可以对“在前的”区域输入数值,以便对在由检索命中页之前的要显示缩略图的页面数量进行设定。用户可以对“在后的”区域输入数值,以便对在由检索命中页之后的要显示缩略图的页面数量进行设定。用户可以对“末尾”区域输入数值,以便对从文档的末尾页起要显示缩略图的页面数量进行设定。
用户可以操作“显示动画”复选框1109,以便执行用于显示具有动画的文档概要缩略图的设定。
用户可以操作再检索按钮1110,以便返回到文档检索屏幕1000。
用户可以操作检索精细化(refine)按钮1111,以便返回到文档检索屏幕1000执行缩小检索。在这种情况下,在从显示在检索列表显示区1102中的文档中检查要被添加到检索关键的文档(即,包括要被添加到检索关键的图像的文档)后,用户按下检索精细化按钮1111。
当用户按下检索精细化按钮1111时,在将所检查的文档添加到检索关键图像显示区1010作为检索关键的情况下,屏幕返回到文档检索屏幕1000,从而用户可以继续缩小检索。
通过采用简单操作添加尽可能多的适当的检索关键图像,可以提高所需文档的检索命中率(文档与设定条件相匹配的情况的比率),从而用户可以更容易地找到所需的文档。
另外,通过分析所添加的检索关键图像的特征量、并在确定相似度的过程中调整各种特征量的标记分配,可以执行更合乎用户的需求的相似图像检索。
也就是说,可将由用户添加的用于缩小检索的检索关键图像确定为样本图像,从发出进行检索指令的用户的角度看,该样本图像与检索关键图像的相似程度主观地较高。因此,可以调整用于将多个特征量和相似度确定算法组合的点分配,以便提高在检索过程期间估计的检索关键图像的相似度。
例如,在原始检索关键图像与添加的检索关键图像之间,根据图像的形状确定的相似度较高,而根据图像的色调确定的相似度较低的情况下,可在缩小检索中通过给予根据图像形状确定的相似度比根据图像色调确定的相似度更高的优先级来执行检索。以相似的方式,可以通过给予色调、图像的彩色模式或者对象树型结构的相似程度优先级来适当地执行检索。
检索列表显示区1102显示已满足检索条件的文档列表作为检索结果。每个检索命中文档显示区1112、1113、1114和1115显示与在缩小检索中已与检索条件相匹配的文档相对应的信息。
在默认设定中,将具有较高命中率(满足设定条件的程度)的文档较高地列在其它文档之上。如果多个文档具有相同的命中率,则将通过以数值评估文档的重要性而确定的具有较高文档等级的文档较高地显示在列表中的其它文档之上。
用户可以按下显示过滤器设定按钮1105,以便通过以与默认顺序不同的顺序对列表中的文档重新排列,以便以新设定的顺序显示文档。
例如,根据诸如文档创建日期、最后参考日期、文档名称、数据格式、页面数量、文档位置、操作的设备、或者对文档执行的作业的日期、时间和内容等与文档相关联的各种元数据,以升序或降序显示文档。在改变列表中的文档的显示顺序后,立即更新列表的显示。
以下将简单描述文档命中率,该文档命中率是用于以默认设定显示文档的顺序的基准之一。根据每种算法唯一确定的相似程度来执行相似图像检索。
一般来讲,“相似性”是用于表达“相似程度”的连续量,而不是二元值表达“相似”或“不相似”。在本示例性实施例中,将具有比预定阈值低的相似性的图像确定为不相似。
将具有比预定阈值高的相似性的图像分类为具有相对高的相似性的图像和具有相对低的相似性的图像。
根据对在包括在指定的检索条件中的检索关键图像和包括在被检索的文档数据的图像之间的相似性确定的结果来计算命中率。也就是说,对于包括具有相对高的相似性的图像的文档,所计算的命中率比包括具有相对低的相似性的图像的文档更高。
另外,可以由用户指定多个检索关键。因此,满足较大数量的检索条件的文档可以比满足较小数量的检索条件的文档具有较高的命中率。在用户对相似图像检索指定多个检索关键图像的情况下,具有较大数量的相对高的相似性的图像的文档的命中率被设置得较高。
当用户按下“包括所有关键”单选按钮并开始检索时,如果文档与所有指定检索关键都不匹配,则没有文档被命中。
以下将描述文档等级(rank),该文档等级是用于确定以默认设定显示文档的顺序的基准。文档等级作为用于表达文档的重要性的指示符,计算文档等级。根据明确分配给文档作为文档元数据的重要性程度来确定文档等级。
另外,也根据诸如机密程度、文档所有者、创建文档的人、存储位置和页面数量等文档属性来计算文档等级。此外,可以根据在创建文档后被添加的标签的数量和类型、参考的次数、参考相关文档的网络来计算文档等级。
以经常被具有高文档等级的文档参考的文档具有相对高的文档等级的方式计算“根据参考相关文档的网络的文档等级”。此外,给予具有已经与高等级文档(即,如果在高等级文档被打印、发送、存储、提取、或进行组合作业的同时处理该文档)一起被处理的历史的文档相对高的文档等级。
与在检索列表显示区1102中以相对高的顺序列出的文档相比,对于在检索列表显示区1102中显示的以相对低的顺序列出的文档,通过简化检索命中的文档的显示或者减小检索命中文档的尺寸,可以提高在一屏中显示的文档的总数。
根据本示例性实施例,在默认设定下,可以命中率、文档等级、与文档相关联的元数据、或者在文档上执行的作业的元数据的顺序列出文档。此外,在改变列表中的文档的显示顺序后,立即更新列表的显示。因此,用户可以从大量的备选文档中容易地找到所需文档。
用户可以操作滚动条1103,以便向上或向下滚动文档检索结果列表屏幕1100。在某些情况下,检索列表显示区1102可以显示大量文档。在这种情况下,在操作单元112的触摸板502的显示区内不能完全显示所有文档。用户可以滚动文档检索结果列表屏幕1100,以便浏览文档列表并从所列出的文档中检索所需文档。可以将作为检索结果列出的每个文档分为在要检索结果列表中显示的多个页面。在这种情况下,在检索列表显示区1102的最下部提供用于移动到后一页或移动到前一页的按钮(未示出)。
另外,配置该设备,以便当用户按下设置在检索列表显示区1102的下部的列表打印按钮(未示出)时,打印出文档检索结果列表。
很难同时满足相互冲突的需求,即对于在具有有限尺寸的显示区内浏览尽可能多的文档以选择所需的文档的需求和用于视觉上比较具有尽可能详细的内容的文档概要缩略图的需求。
然而,根据本示例性实施例,在显示文档检索结果后可以立即打印出文档检索结果。因此,用户可以通过将文档检索结果列表打印在具有比触摸面板502更高的分辨率的输出纸张上而容易地找到所需文档,从而较有较高的可浏览性。
检索命中文档显示区1112、1113、1114和1115(图11)具有相似的配置。在每个检索命中文档显示区1112、1113、1114和1115中,斜体字符表示的文本串表示用于包括在文档中的相应元数据的实际值被显示在屏幕上。另外,对于下划线的文本串,当用户按下下划线的文本串的显示区时,详细的信息显示窗口打开,以便用户能对每条信息检查更详细的信息。
图12说明了根据本示例性实施例的作为示例的检索命中文档显示区1112的示例。
参考图12,数据格式图标1201描述相应的文档的数据格式。文档名称1202是描述相应的文档的文档名称的文本串。数据格式1203描述相应的文档的数据格式。页面数量1204描述相应的文档的页面数量。
文档存储位置信息1205是用于识别存储相应的文档的文件服务器中的存储位置的文本串。可以使用文件系统或文件服务器中的统一资源标识符(URI)或者文件路径文本串来识别文档存储位置信息1205。
在由作业存档系统存储文档的情况下,可以显示存储通过作业存档系统在作业中获取的目标文档的复制数据的位置。作为选择,如果可以识别目标文档的原始数据的位置,则可以显示已识别的原始数据的位置。
历史信息1206是描述关于使用历史信息1206对相应的文档预先执行的作业处理或者检索处理的历史的文本串,用户可以检查关于谁、何时、采用哪个设备对特定文档执行什么处理的历史信息。
页面1207是表示利用检索关键由检索命中的相应文档的页数的文本串。
命中页面缩略图1208是显示根据利用检索关键确定的条件由检索命中相应的文档的图像成分或者页面的概况的缩略图图像。
最前面页面缩略图1209是显示对应于最前面的页面缩略图1209的文档的最前面页面的概况的缩略图图像。将与页面数量相对应的缩略图图像显示为用户通过文档概要缩略图配置设定区1108设定的列表。
前一页面缩略图1210是显示在使用检索关键由检索命中的页面之前的页面的概况的缩略图图像。将与页面数量相对应的缩略图图像显示为用户通过文档概要缩略图配置设定区1108设定的列表。
后一页面缩略图1211是显示在利用检索关键由检索命中的页面之后的页面的概况的缩略图图像。将与页面数量相对应的缩略图图像显示为用户通过文档概要缩略图配置设定区1108设定的列表。
末尾页面缩略图1212是显示在对应于末尾页面缩略图1212的文档的末尾页面的概况的缩略图图像。将与页面数量相对应的缩略图图像显示为用户通过文档概要缩略图配置设定区1108设定的列表。
如上所述,很难满足相互冲突的需求,即对于在具有有限尺寸的显示区内同时浏览尽可能多的文档以选择所需文档的需求和用于视觉上比较具有尽可能详细的内容的文档概要缩略图的需求。
然而,根据本示例性实施例,可以很容易改变在文档概要缩略图中显示的页面配置和页面数量。因此,用户可以通过简单的操作容易地找到所需文档。
当通过文档概要缩略图显示相当大数量的页面时,可以对页面进行配置,以便可以调整检索结果,以高缩小比率显示较小的缩略图,以便在具有有限尺寸的显示区中显示所有缩略图。
作为选择,可以控制显示,以便可以以高缩小比率显示具有相对低的优先级的页面的缩略图,或者以重叠在前一页面上和隐藏在前一页面后的方式显示页面的一部分。此外,作为选择,可以限制检索结果的显示,以及调整检索结构的显示,以便可以在具有有限尺寸的显示区域中完全显示检索结果的显示。
如果显示区域的尺寸太小,以致于不能充分显示检索结果,可以使用以下算法来选择在文档概要缩略图中显示的高优先级页面。也就是说,例如,可以使用用于给予文档的最前面上的页面优先级的算法、用于给予由预先指定的检索关键命中的页面优先权的算法、和用于给予当由用于相似图像检索的条件命中时具有较高相似性的页面优先级的算法。
用户可以操作打印按钮1213,以便使用图像处理设备110的打印功能打印出相应的文档。用户可以操作存储按钮1214,以便通过图像处理设备110的箱功能706存储相应的文档。用户可以操作发送按钮1215,以便通过图像处理设备110的发送功能705发送相应的文档。
用户可以操作标签添加按钮1216,以便操作相应文档的标签。当用户按下标签添加按钮1216时,文档标签窗口打开。用户可以新添加并登记任意标签,以及浏览并编辑已经被设定到文档的标签。
用户可以操作相关文档按钮1217,以便执行用于操作与相应的文档(相关文档)相关联的文档的设定。当用户按下相关文档按钮1217时,相关文档窗口打开,并且用户可浏览并编辑与相应文档相关联的相关文档。另外,用户可使另一文档与相应文档相关联,并通过相关文档窗口添加并登记相关联的文档作为签关文档。
用户可以操作复选框1218,以选取相应的文档。当对显示区中列出的多个文档选择性地执行操作时,用户可以从复选框1218已经选取的文档中选择多个文档。例如,当用户在对复选框1218选取后按下检索精细化按钮1111时,将被选取(选择)的文档添加到检索关键,并在该状态执行缩小检索。
根据本示例性实施例,利用上述文档概要缩略图,除了检索命中的页面外,用户还可以视觉上识别在命中页面前和后的页面,并扫视文档的概要。从而,用户可以容易地从检索结果列表中找到所需文档。
图13说明了根据本示例性实施例的由检索命中的多个页面的文档的检索命中显示的示例。与上述显示项目相似的显示项目具有相同的附图标记和符号,在此不重复其描述。
根据连续的相似程度执行相似图像检索。因此可以通过检索命中在一个文档中包括的多个相似图像。另外,在根据本示例性实施例的相似图像检索中,用户可以利用多个指定的检索关键和检索条件执行检索。因此,可以通过检索命中一个文档中的多个页面。图13说明了根据本示例性实施例的通过检索已经命中两个命中页面缩略图1208和1302的文档的显示的示例。
参考图13,页面1301是表示根据由利用检索关键的条件的检索两次命中的构成相应的文档的页面的页面数量的文本串。命中页面缩略图1302是表示由利用检索关键的检索两次命中的构成相应的文档的页面的页面概要的缩略图图像。
前一页面缩略图1303是表示由利用检索关键的检索两次命中的页面前一页面的概况的缩略图图像。将与用户通过文档概要缩略图配置设定区1108设定的页面的数量相应的缩略图图像显示为列表。
后一页面缩略图1304是表示由利用检索关键的检索两次命中的页面后一页面的概况的缩略图图像。将与用户通过文档概要缩略图配置设定区1108设定的页面的数量相应的缩略图图像显示为列表。
很难同时满足相互冲突的需求,即对于在具有有限尺寸的显示区内浏览尽可能多的文档以选择所需文档的需求和用于视觉上比较具有尽可能详细的内容的文档概要缩略图的需求。
然而,根据本示例性实施例,可以很容易改变在文档概要缩略图中显示的页面配置和页面数量。因此,用户可以通过简单的操作容易地找到所需文档。
在图13所示的显示的情况下,与图12的示例的情况相同,可以配置显示,以便可以调整检索结果,以高缩小比率显示较小缩略图,以便可以在具有有限尺寸的显示区域内显示所有缩略图。
作为选择,可以控制显示,以便可以以高缩小比率显示具有相对低的优先级的页面的缩略图,或者以重叠在前一页面上和隐藏在前一页面后的方式显示页面的一部分。
另外作为选择,可以限制检索结果的显示,以调整检索结果的显示,以便可以在具有有限尺寸的显示区中完全显示检索结果的显示。
如果显示区的尺寸太小,以致于不能充分显示检索结果时,可以对文档概要缩略图图像设置优先级程度,以调整检索结果的显示。可以采用以下算法,来选择在文档概要缩略图中显示的高优先级页面。
也就是说,例如,可以采用用于给予在文档的最前面的页面优先级的算法、用于给予由预先指定的检索关键命中的页面优先权的算法和用于给予当由用于相似图像检索的条件命中时具有较高相似性的页面优先权的算法。
图14A到14D的每一个说明了根据本发明的第一示例性实施例的用于设定检索条件的屏幕的示例,该检索条件是根据检索关键图像的出现模式确定的。
在文档检索屏幕1000的检索条件设定区1001(图10),可以对检索关键出现模式下拉菜单1020和正则表达式区1021执行图14A到14D中的每一个中说明的设定。
图14A说明了根据检索关键“包括关键中任何一个”的出现模式设定检索条件的示例。当已经设定检索条件“包括关键中任何一个”时,检索在文档的任一位置包括与指定的检索关键图像中任何一个相似的图像的文档。
图14B说明了根据检索关键“包括所有关键”的出现模式设定检索条件的示例。当已经设定检索条件“包括所有关键”时,检索在文档的任一位置包括与所有指定的检索关键图像相似的图像的文档。
图14C说明了根据检索关键“以关键号顺序包括关键”的出现模式设定检索条件的示例。当已经设定检索条件“以关键号的顺序包括关键”时,检索以检索关键所指定的顺序在文档的任一位置包括与所有指定的检索关键图像相似的图像的文档。在由每个检索关键命中的图像之间所包括的任意图像的文档可以满足图14C的检索条件。
图14D说明了根据检索关键“以关键号顺序连续包括关键”的出现模式设定检索条件的示例。当已经设定检索条件“以关键号顺序连续包括关键”时,检索以由检索关键所指定的顺序在文档的任一位置连续包括与所有指定的检索关键图像相似的图像的文档。在由每个检索关键命中的图像之间所包括的另一任意图像的文档不满足图14D的检索条件。
作为可选的设定项目(未示出),可以另外设定检索条件,在该检索条件下,文档不满足图14A到图14D的任一检索条件(否定条件)。另外,可以检测并在检索条件中包括检索条件“对关键图像否定”,在该条件下,图像与检索关键图像具有极低的相似性,并且不会被利用检索关键图像的检索命中。
根据本示例性实施例,在根据图像检索的文档检索中,用户可以利用根据检索关键图像在文档中的出现模式指定的检索条件来执行文档检索。
另外,根据本示例性实施例,在根据图像检索的文档检索中,通过设定详细的检索条件来执行缩小检索,用户可以根据利用只会命中与所需文档基本相似的文档的图像检索来执行文档检索。
另外,根据本示例性实施例,可以执行用于构成文档的图像的部分匹配检索。
此外,根据本示例性实施例,用户可以使用诸如“检索前几页相似的文档(即,检索从草稿到最终版本的多个版本的文档)”等直观检索条件来执行实际的检索。
第二示例性实施例
图15A到15E的每一个说明了根据本发明的第二示例性实施例用于设定检索条件的屏幕的示例,该检索条件是基于检索关键图像的出现模式确定的。
在文档检索屏幕1000的检索条件设定区1001(图10)中,可以对检索关键出现模式下拉菜单1020和正则表达式区1021执行在图15A到15E的每一个中说明的设定。
图15A说明了根据检索关键“以关键开始”的出现模式设定检索条件的示例。当已经设定检索条件“以关键开始”时,检索在文档的最前部包括与指定的检索关键图像相似的图像的文档。
图15B说明了根据检索关键“以关键结束”的出现模式设定检索条件的示例。当已经设定检索条件“以关键结束”时,检索在文档的末尾部分包括与指定的检索关键图像相似的图像的文档。
图15C说明了根据检索关键“在文档的前半部分中包括关键”的出现模式设定检索条件的示例。当已经设定检索条件“在文档的前半部分中包括关键”时,检索在文档的前半部分中包括与指定的检索关键图像相似的图像的文档。也就是说,对在文档的前半部分中的页面的任意一页面是否包括检索关键图像执行检索。
图15D说明了根据检索关键“在文档的后半部分中包括关键”的出现模式设定检索条件的示例。当已经设定检索条件“在文档的后半部分中包括关键”时,检索在文档的后半部分中包括与指定的检索关键图像相似的图像的文档。也就是说,对在文档的后半部分中的页面的任意一页是否包括检索关键图像执行检索。
图15E说明了根据检索关键“在文档的中间1/3部分中包括关键”的出现模式设定检索条件的示例。当已经设定检索条件“在文档的中间1/3部分中包括关键”时,检索在文档的中间1/3部分中包括与指定的检索关键图像相似的图像的文档。也就是说,对在文档的中间1/3部分中的页面的任一页面是否包括检索关键图像执行检索。
作为可选的设定项目(未示出),可以另外设定检索条件,在该检索条件下,文档不满足图15A到图15E的任一检索条件(否定条件)。另外,可以检测并在检索条件中包括检索条件“对关键图像否定”,在该条件下,图像与检索关键图像具有极低的相似性,并且不会被利用检索关键图像的检索命中。
根据本示例性实施例,在根据图像检索的文档检索中,用户可以利用根据检索关键图像在文档中的出现模式指定的检索条件来执行文档检索。
另外,根据本示例性实施例,在根据图像检索的文档检索中,通过设定详细的检索条件来执行缩小检索,用户可以根据利用只会命中与所需文档基本相似的文档的图像检索来执行文档检索。
此外,根据本示例性实施例,用户可以使用诸如“检索前几页相似的文档(即,检索从草稿到最终版本的多个版本的文档)”等直观检索条件来执行实际的检索。
第三示例性实施例
图16说明了根据本发明的第三示例性实施例的用于设定检索条件的屏幕的示例,该检索条件是基于检索关键图像的出现模式确定的。
通过文档检索屏幕1000的检索条件设定区1001(图10),用户在检索关键模式下拉菜单1020中选择项目“设定模式”。当用户选择项目“设定模式”时,显示调色板区1600和模式区1615。用户能通过图形用户接口对模式执行详细的设定。
调色板区1600显示与构成模式的成分等同的图标的组合。在调色板区1600,显示关键成分图标1601和1602以及正则表达式区成分记号图标1603和1614。每个正则表达式区成分记号图标1603和1614利用指定的关键成分图标(关键图像)1601和1602表达用于控制检索的描述性检索条件。
用户从调色板区1600选择图标,并在模式区1615向下拖拽所选图标,以便将与所选图标等同的模式组成添加到对检索条件设定的设定。
代替记号图标1603是由用户操作的代替运算符图标,用来指定由两个模式构成的选择项。例如,在“a|b”的情况下,如果目标文档包括模式“a”或模式“b”,则目标文档满足(匹配)检索条件。
左括号记号图标1604和右括号记号图标1605是用于表达模式的分组的图标。通过利用左括号记号图标1604和右括号记号图标1605封闭模式,用户可以指定被用作一个单元的子模式。例如,在“a(b|c)d”的情况下,如果目标文档包括模式“abd”或模式“acd”,则目标文档满足(匹配)检索条件。
“大于等于零”重复记号图标1607表达如果目标文档包括重复前一成分大于等于零次的重复模式,则目标文档满足(匹配)检索条件。例如,在使用“ab*c”的情况下,如果目标文档包括模式“a”、模式“b”或模式“ab”,诸如模式“ac”、“abc”、“abbc”、“abbbc”等等,则目标文档满足(匹配)检索条件。
“大于等于1”重复记号图标1608表达如果目标文档包括重复前一成分大于等于1次的重复模式,则目标文档满足(匹配)检索条件。例如,在“ab+c”的情况下,如果目标文档包括模式“abbc”、“abbbc”等等,则目标文档满足(匹配)检索条件。。
“0或1”记号图标1609表达如果目标文档包括不重复前一成分或只重复1次的模式,则目标文档满足(匹配)检索条件。例如,在“ab?c”的情况下,如果目标文档包括模式“ac”、“abc”,则目标文档满足(匹配)检索条件。
任意记号图标1610表达目标文档与任意图像匹配。例如,在“a·b”的情况下,如果目标文档包括模式“aab”、“abb”、“acb”、“adb”等等,则目标文档与检索条件匹配。另外,“·*”表达用于检索重复包括在目标文档中的任意图像大于等于零次的模式的检索条件。
最前面记号图标1611是表达用于指定与目标文档的最前面部分匹配的检索位置的条件的位置指定符。例如,在“^a”的情况下,如果在目标文档的最前面存在模式“a”,则目标文档满足(匹配)检索条件。
末尾记号图标1612是表达用于指定与目标文档的末尾部分匹配的检索位置的条件的位置指定符。例如,在“a$”的情况下,如果在目标文档的末尾存在模式“a”,则目标文档满足(匹配)检索条件。
任意1/3文档记号图标1613是用于检索与等同于文档的大约1/3部分的文档的任意部分匹配的模式的图标。
任意1/2文档记号图标1614是用于检索与等同于文档的大约1/2部分的文档的任意部分匹配的模式的图标。
模式区1615是用户设定要检索的文档的模式的区域。用户可以拖放位于模式区1615上的图标,以便安排图标的顺序。另外,用户可以拖放在模式区1615外的部分上的图标,以便从设定的模式中删除与被拖放的图标相对应的成分。
正则表达式区1021显示通过正则表达式区在模式区1615以图形形式设定的模式。用户可以通过键盘(未示出)或操作单元112的操作,在正则表达式区1021输入文本串。
作为可选设定项目(未示出),可以另外设定检索条件(否定条件),在该检索条件下,文档不满足本示例性实施例的任意检索条件。另外,可以检测并在检索条件中包括检索条件“对关键图像否定”,在该检索条件下,图像与检索关键图像具有极低的相似性,并未被利用检索关键图像的检索命中。
根据本示例性实施例,在根据图像检索的文档检索中,用户可以利用基于检索关键图像在文档中的出现模式指定的检索条件执行文档检索。
此外,根据本示例性实施例,在根据图像检索的文档检索中,通过设定详细的检索条件来执行缩小检索,用户可以根据利用只会命中与所需文档基本相似的文档的图像检索来执行文档检索。
此外,根据本示例性实施例,用户可以使用诸如“检索前几页相似的文档(即,检索从草稿到最终版本的多个版本的文档)”等直观检索条件来执行实际的检索。
第四示例性实施例
在上述第一、第二和第三示例性实施例中,以构成文档的页面为单位设定检索模式。在本发明的第四示例性实施例中,使用构成文档的页面的页面中的图像的出现模式作为检索条件。
图17说明了根据本示例性实施例由多个图像区域成分构成的文档的示例。
文档1700是包括多个图像区和文本区的文档的示例。通过图像结构分析单元208或者光栅化单元210来分析文档1700。作为分析结果,可以得到关于页面的结构信息。根据所得到的结构信息,可以将诸如构成文档的多个图像和多个文档分为更小的单元。
另外,通过分析各成分间配置上的距离或者基于各种文化确定的按前后关系排列各成分的习惯,可以得到各成分之间的相互关系作为结构信息。如果由根据超文本标记语言(HTML)编码的数据描述目标文档,则数据本身可以描述各成分之间的相互关系。
文档1700包括图像成分1701到1712。对于图像成分1701到1712,可以分析,图像1701到1712具有以根据文化习惯的成分号为顺序的前后关系,以便图像成分首先以从左到右的顺序排列,然后以从上到下的顺序排列。
图18说明了根据本发明的第四示例性实施例用于设定检索条件的屏幕的示例,该检索条件是根据检索关键图像的出现模式确定的。
通过文档检索屏幕1000的检索条件设定区1001(图10),用户在检索关键出现模式下拉菜单1020中选择项目“设定在页面内的位置”。当用户选择项目“设定在页面内的位置”时,显示调色板区1600和模式区1615。用户可以通过图形用户接口执行模式的详细设定。
调色板区1600显示与构成模式的成分等同的图标的组合。在调色板区1600,显示关键成分图标1601和1602以及正则表达式区成分记号图标1801到1805。正则表达式区成分记号图标1801到1805的每一个表达用于控制利用指定的关键成分图标(关键图像)1601和1602的检索的描述性检索条件。
用户从调色板区1600选择图标并在模式区1615中拖放所选图标,以便将与所选图标等同的模式组成添加到模式设定。
页面最前面记号图标1801表达如果在构成文档的页面的最前面位置存在属于检索目标并位于该页面的紧前面位置的模式,则目标页面满足检索条件。例如,通过将页面最前面标记图标1801放在与检索关键图像相对应的关键成分图标随后的位置,用户可以检索包括在页面的最前面具有与检索关键图像相似的图像的页面的文档。
前半页面记号图标1802表达如果在构成文档的前半页面存在属于检索目标并位于该页面的紧前面位置的模式,则目标页面与检索条件匹配。例如,通过将前半页面记号图标1802放在与检索关键图像相对应的关键成分图标随后的位置,用户可以检索包括在前半页面具有与检索关键图像相似的图像的页面的文档。
页面中间部分记号图标1803表达如果在构成文档的页面中间部分存在属于检索目标并位于该页面的紧前面位置的模式,则目标页面与检索条件匹配。例如,通过将页面中间部分记号图标1803放在与检索关键图像相对应的关键成分图标随后的位置,用户可以检索包括在页面中间部分具有与检索关键图像相似的图像的页面的文档。
后半页面记号图标1804表达如果在构成文档的后半页面存在属于检索目标并位于该页面的紧前面位置的模式,则目标页面与检索条件匹配。例如,通过将后半页面记号图标1804放在与检索关键图像相对应的关键成分图标随后的位置,用户可以检索包括在后半页面具有与检索关键图像相似的图像的页面的文档。
页面末尾记号图标1805表达如果在构成文档的页面的末尾位置存在属于检索目标并位于该页面的紧前面位置的模式,则目标页面匹配检索条件。例如,通过将页面末尾标记图标1805放在与检索关键图像相对应的关键成分图标随后的位置,用户可以检索包括在页面的末尾具有与检索关键图像相似的图像的页面的文档。
通过组合根据在上述第一、第二和第三示例性实施例中描述的在每一页面中的出现模式的检索,和根据本示例性实施例的根据在页面内的图像区域出现模式的检索,用户可以将更复杂和更详细的模式设定为检索条件。
作为可选设定项目(未示出),可以另外设定检索条件(否定条件),在该检索条件下,文档不满足本示例性实施例的任意检索条件。另外,检测并在检索条件中包括该检索条件“对关键图像否定”,在该检索条件下,图像与检索关键图像具有极低的相似性,并未被利用检索关键图像的检索命中。
根据本示例性实施例,在根据图像检索的文档检索中,用户可以利用基于检索关键图像在文档中的出现模式指定的检索条件执行文档检索。
此外,根据本示例性实施例,在根据图像检索的文档检索中,通过设定详细的检索条件来执行缩小检索,用户可以根据利用只会命中与所需文档基本相似的文档的图像检索来执行文档检索。
此外,根据本示例性实施例,用户可以采用诸如“检索前几页相似的文档(即,检索从草稿到最终版本的多个版本的文档)”等直观检索条件来执行实际的检索。
(其它实施例)
也可通过提供具有存储实现各个实施例的功能的软件的程序代码的存储介质的系统或设备、并利用系统或设备的计算机(CPU或微处理单元(MPU))来读取并执行存储在存储介质中的程序代码来实现本发明的实施例。
在这种情况下,从存储介质读取的程序代码本身实现上述实施例的功能,因而,存储程序代码的存储介质构成本发明的实施例。
因此,可以采用诸如目标代码、由编译器执行的程序、提供给操作系统(OS)的脚本数据等任何形式来配置实现各个实施例的功能的程序。
作为用于提供这种程序代码的存储介质,可使用例如软盘、硬盘、光盘、磁光盘(MO)、光盘只读存储器(CD-ROM)、可记录光盘(CD-R)、可重写光盘(CD-RW)、磁带、非易失性存储卡、ROM、数字通用盘(DVD)、DVD只读存储器(DVD-ROM)、可记录DVD(DVD-R)和可重写DVD(DVD-RW)等等。
在这种情况下,从存储介质读取的程序代码本身执行上述各实施例的功能,因而,存储程序代码的存储介质构成本发明。
另外,不仅通过执行由计算机读取的程序代码来实现根据上述实施例的功能,而且通过OS等基于由程序代码发出的指令执行一部分或所有实际处理的处理来实现根据上述实施例的功能。
另外,在本发明的实施例的另一方面中,在将从存储介质读取的程序代码写入存储器后,该存储器设置在插入到计算机或连接到计算机的功能扩展单元的功能扩展板中,设置在功能扩展板或功能扩展单元中的CPU等执行一部分或所有处理,从而实现上述实施例的功能。
尽管已参考示例性实施例描述了本发明,应该理解,本发明不限于公开的示例性实施例。下述权利要求的范围依照最广泛的解释,以便包含所有改进、等同结构和功能。

Claims (12)

1.一种被配置为从多个文档检索文档的设备,其中每个文档包括多个图像成分,该设备包括:
关键图像指定单元,被配置为指定要被用作用于图像检索的检索关键的关键图像;
检索条件设定单元,被配置为基于用户操作将与指定的关键图像等同的图像成分在文档中的出现位置和与所指定的关键图像等同的图像成分在文档中的出现顺序中的至少一个设定为检索条件;以及
文档检索单元,被配置为基于指定的关键图像和由检索条件设定单元设定的检索条件从多个文档检索文档。
2.根据权利要求1的设备,其中,检索条件设定单元使用用于控制利用由关键图像指定单元指定的关键图像的检索的正则表达式而设定检索条件。
3.根据权利要求1的设备,其中,与指定的关键图像等同的图像成分在文档中的出现位置包括这样的条件:该文档在文档的前半部分中包含与关键图像等同的图像成分;该文档在文档的中间部分中包含与关键图像等同的图像成分;以及该文档在文档的后半部分中包含与关键图像等同的图像成分,或者不与这些条件中任何一个相对应的否定条件。
4.根据权利要求1的设备,其中,与关键图像相对应的图像成分的出现顺序包括这样的检索条件:该文档包括与由关键图像指定单元指定的多个关键图像等同的图像成分中任何一个;该文档包括与由关键图像指定单元指定的多个关键图像等同的所有图像成分;该文档以关键图像指定单元指定的顺序包括与由关键图像指定单元指定的多个关键图像等同的图像成分;该文档以关键图像指定单元指定的顺序连续包括与由关键图像指定单元指定的多个关键图像等同的图像成分;或者不与这些条件中任何一个相对应的否定条件。
5.根据权利要求1的设备,其中,文档中包括的多个图像成分是构成文档的页面的组合。
6.根据权利要求1的设备,其中,文档中包括的多个图像成分是构成文档的每个页面中包括的图像成分的组合。
7.一种用于从多个文档检索文档的方法,每个包括多个图像成分,该方法包括:
基于用户操作将与指定的关键图像等同的图像成分在文档中的出现位置和与所指定的关键图像等同的图像成分在文档中的出现顺序中的至少一个指定为检索条件;和
基于指定的关键图像和设定的检索条件从多个文档检索文档。
8.根据权利要求7的方法,其中,使用用于控制利用指定的关键图像的检索的正则表达式来设定检索条件。
9.根据权利要求7的方法,其中,与指定的关键图像等同的图像成分在文档中的出现位置包括这样的条件:该文档在文档的前半部分中包含与关键图像等同的图像成分;该文档在文档的中间部分中包含与关键图像等同的图像成分、以及该文档在文档的后半部分中包含与关键图像等同的图像成分,或者不与这些条件中任何一个相对应的否定条件。
10.根据权利要求7的方法,其中,与关键图像相对应的图像成分的出现顺序包括这样的检索条件:该文档包括与多个指定的关键图像等同的图像成分中任何一个;该文档包括与多个指定的关键图像等同的所有图像成分;该文档以指定的顺序包括与多个指定的关键图像等同的图像成分;该文档以指定的顺序连续包括与多个指定的关键图像等同的图像成分,或者不与这些条件中任何一个相对应的否定条件。
11.根据权利要求7的方法,其中,文档中包括的多个图像成分是构成文档的页面的组合。
12.根据权利要求7的方法,其中,文档中包括的多个图像成分是构成文档的每个页面中包括的图像成分的组合。
CN2007101547241A 2006-12-13 2007-09-13 文档检索设备及文档检索方法 Active CN101201840B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006336377A JP2008146603A (ja) 2006-12-13 2006-12-13 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2006-336377 2006-12-13
JP2006336377 2006-12-13

Publications (2)

Publication Number Publication Date
CN101201840A CN101201840A (zh) 2008-06-18
CN101201840B true CN101201840B (zh) 2011-12-21

Family

ID=39517009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101547241A Active CN101201840B (zh) 2006-12-13 2007-09-13 文档检索设备及文档检索方法

Country Status (3)

Country Link
US (1) US20080263036A1 (zh)
JP (1) JP2008146603A (zh)
CN (1) CN101201840B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750424B1 (ko) * 2004-03-03 2007-08-21 닛본 덴끼 가부시끼가이샤 화상 유사도 산출 시스템, 화상 검색 시스템, 화상 유사도산출 방법 및 화상 유사도 산출용 프로그램
KR100882864B1 (ko) * 2007-11-26 2009-02-10 한국전자통신연구원 디지털 포렌식 시스템을 위한 대용량 데이터 고속 검색시스템 및 방법
JP5194826B2 (ja) * 2008-01-18 2013-05-08 株式会社リコー 情報検索装置、情報検索方法及び制御プログラム
US20090327231A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Inline enhancement of web lists
US9846049B2 (en) 2008-07-09 2017-12-19 Microsoft Technology Licensing, Llc Route prediction
US20100017430A1 (en) * 2008-07-21 2010-01-21 Kodimer Marianne L System and method for document processing job management based on user login
JP5097659B2 (ja) * 2008-09-17 2012-12-12 株式会社リコー 画像処理装置、画像処理方法および画像処理プログラム
JP5173721B2 (ja) 2008-10-01 2013-04-03 キヤノン株式会社 文書処理システム及びその制御方法、プログラム、記憶媒体
JP5415736B2 (ja) * 2008-10-01 2014-02-12 キヤノン株式会社 文書処理システム及びその制御方法、プログラム、記憶媒体
US9043375B2 (en) * 2008-10-17 2015-05-26 Software Analysis And Forensic Engineering Corporation Searching the internet for common elements in a document in order to detect plagiarism
JP5586970B2 (ja) * 2010-01-25 2014-09-10 キヤノン株式会社 情報処理装置および制御方法およびプログラム
JP2011239075A (ja) * 2010-05-07 2011-11-24 Sony Corp 表示装置、表示方法及びプログラム
JP5811708B2 (ja) * 2010-09-30 2015-11-11 ブラザー工業株式会社 画像処理システム、画像処理方法、中継装置、及び、中継プログラム。
US9134137B2 (en) 2010-12-17 2015-09-15 Microsoft Technology Licensing, Llc Mobile search based on predicted location
US9163952B2 (en) 2011-04-15 2015-10-20 Microsoft Technology Licensing, Llc Suggestive mapping
KR101315177B1 (ko) * 2011-05-09 2013-10-07 한국생산기술연구원 융합 지수 요소 점수 산출을 위한 특허 정보 처리 방법
US8538686B2 (en) 2011-09-09 2013-09-17 Microsoft Corporation Transport-dependent prediction of destinations
JP5874474B2 (ja) * 2012-03-21 2016-03-02 富士ゼロックス株式会社 画像情報登録システム、画像情報登録プログラム
DE102012208999A1 (de) 2012-05-29 2013-12-05 Siemens Aktiengesellschaft Bearbeitung einer Datenmenge
CN103838457A (zh) * 2012-11-26 2014-06-04 腾讯科技(深圳)有限公司 一种滤镜列表显示方法及装置
WO2015059838A1 (ja) * 2013-10-25 2015-04-30 楽天株式会社 検索システム、検索条件設定装置、検索条件設定装置の制御方法、プログラム、及び情報記憶媒体
JP6232940B2 (ja) * 2013-11-01 2017-11-22 富士ゼロックス株式会社 画像情報処理装置及びプログラム
CN104090911A (zh) * 2014-06-09 2014-10-08 联想(北京)有限公司 一种信息处理方法和电子设备
US9852348B2 (en) * 2015-04-17 2017-12-26 Google Llc Document scanner
JP6700881B2 (ja) * 2016-03-17 2020-05-27 キヤノン株式会社 画像処理装置、および画像処理装置の制御方法、プログラム
US10740318B2 (en) * 2017-10-26 2020-08-11 Sap Se Key pattern management in multi-tenancy database systems
JP7112278B2 (ja) * 2018-08-07 2022-08-03 キヤノン株式会社 画像処理装置及びその制御方法、並びにプログラム
JP2020024582A (ja) 2018-08-07 2020-02-13 キヤノン株式会社 画像処理装置及びその制御方法、並びにプログラム
JP7137753B2 (ja) 2018-08-30 2022-09-15 京セラドキュメントソリューションズ株式会社 画像読取装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904560B1 (en) * 2000-03-23 2005-06-07 Adobe Systems Incorporated Identifying key images in a document in correspondence to document text
CN1779681A (zh) * 2004-11-22 2006-05-31 株式会社日立制作所 基于内容图像的文档检索方法以及装置
JP2006221446A (ja) * 2005-02-10 2006-08-24 Mitsubishi Electric Corp 画像検索装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3486452B2 (ja) * 1994-04-20 2004-01-13 キヤノン株式会社 複合画像処理装置
JPH09231228A (ja) * 1996-02-21 1997-09-05 Sharp Corp ファイル検索装置
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
US5915038A (en) * 1996-08-26 1999-06-22 Philips Electronics North America Corporation Using index keys extracted from JPEG-compressed images for image retrieval
JP3446797B2 (ja) * 1996-12-11 2003-09-16 日本電信電話株式会社 類似オブジェクト検索方法および装置
JP4074366B2 (ja) * 1998-02-24 2008-04-09 コニカミノルタビジネステクノロジーズ株式会社 画像検索装置及び方法並びに画像検索プログラムを記録した記録媒体
JP2004157668A (ja) * 2002-11-05 2004-06-03 Ricoh Co Ltd 検索システム、検索方法および検索プログラム
JP2004326491A (ja) * 2003-04-25 2004-11-18 Canon Inc 画像処理方法
JP3958722B2 (ja) * 2003-07-30 2007-08-15 株式会社野村総合研究所 イメージデータ文書検索システム
US7610274B2 (en) * 2004-07-02 2009-10-27 Canon Kabushiki Kaisha Method, apparatus, and program for retrieving data
US7539354B2 (en) * 2004-08-25 2009-05-26 Canon Kabushiki Kaisha Image database key generation method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904560B1 (en) * 2000-03-23 2005-06-07 Adobe Systems Incorporated Identifying key images in a document in correspondence to document text
CN1779681A (zh) * 2004-11-22 2006-05-31 株式会社日立制作所 基于内容图像的文档检索方法以及装置
JP2006221446A (ja) * 2005-02-10 2006-08-24 Mitsubishi Electric Corp 画像検索装置

Also Published As

Publication number Publication date
JP2008146603A (ja) 2008-06-26
US20080263036A1 (en) 2008-10-23
CN101201840A (zh) 2008-06-18

Similar Documents

Publication Publication Date Title
CN101201840B (zh) 文档检索设备及文档检索方法
CN101206662B (zh) 文档检索设备和文档检索方法
US9026564B2 (en) Document processing system and control method thereof, program, and storage medium
JP5415736B2 (ja) 文書処理システム及びその制御方法、プログラム、記憶媒体
JP4371965B2 (ja) 画像処理装置、画像処理方法
US8326090B2 (en) Search apparatus and search method
JP4181892B2 (ja) 画像処理方法
JP4405831B2 (ja) 画像処理装置及びその制御方法、プログラム
CN100545846C (zh) 文档搜索设备和方法
US20080281776A1 (en) Interactive System For Creating, Organising, and Sharing One's Own Databank of Pictures Such as Photographs, Drawings, Art, Sketch, Iconography, Illustrations, Portraits, Paintings and Images
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
US8370384B2 (en) Information processing apparatus, file management method, program, and storage medium
JP2005251175A (ja) 分類情報の設定方法及びテレビ受信機
CN1945574A (zh) 一种在文档管理系统中创建文档活页夹的处理器
US20110032556A1 (en) Document processing device, document processing method, and recording medium
JP5318233B2 (ja) 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2013101643A (ja) 文書処理システム及び文書処理方法、プログラム
JP2006333248A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP4047222B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2006252525A (ja) 文書ファイル管理装置、文書ファイル管理方法、および文書ファイル管理プログラム
JP2005352783A (ja) 画像処理システム、方法、プログラム及び記憶媒体
JP5745010B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム
JP2023022712A (ja) 情報処理装置、情報処理方法及びプログラム
JP5420032B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム
JP2011039954A (ja) 文書管理システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant