CN101246475B - 一种基于版面信息的检索方法 - Google Patents

一种基于版面信息的检索方法 Download PDF

Info

Publication number
CN101246475B
CN101246475B CN200710063928A CN200710063928A CN101246475B CN 101246475 B CN101246475 B CN 101246475B CN 200710063928 A CN200710063928 A CN 200710063928A CN 200710063928 A CN200710063928 A CN 200710063928A CN 101246475 B CN101246475 B CN 101246475B
Authority
CN
China
Prior art keywords
layout information
search condition
text
retrieval
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200710063928A
Other languages
English (en)
Other versions
CN101246475A (zh
Inventor
王东临
刘宁胜
王瑞华
Original Assignee
BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd
Priority to CN200710063928A priority Critical patent/CN101246475B/zh
Priority to PCT/CN2008/070247 priority patent/WO2008098499A1/zh
Priority to EP08706623.9A priority patent/EP2110758B1/en
Publication of CN101246475A publication Critical patent/CN101246475A/zh
Priority to US12/537,746 priority patent/US8386943B2/en
Application granted granted Critical
Publication of CN101246475B publication Critical patent/CN101246475B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Abstract

本发明公开了一种基于版面信息的检索方法,用于对电子文档进行检索;所述电子文档为以电子或数字方式存储的文档,被检索的对象为电子文档中以电子格式存储的信息;该方法包括,设置检索条件,该检索条件包括版面信息;所述版面信息是对电子文档可见部分的描述,包括呈现在版面上所有对象的可见属性的描述;采用设置的检索条件,对所需检索的电子文档进行检索,获取检索结果。本发明基于版面信息的检索方法提供了一种全面、高效、准确的电子文档检索方式,能够提高文本检索的检索效率,有针对性的对图形和图像进行检索,扩大了可检索对象的范围。

Description

一种基于版面信息的检索方法
技术领域
本发明涉及检索技术,具体涉及一种基于版面信息的检索方法。
背景技术
随着计算机技术的推广和应用,采用电子文档存储信息已经正在逐渐代替传统的信息存储方式。电子纸张就是电子文档的一种。电子纸张技术可以取代传统的纸质信息的保存方式,它能够以电子格式存储文本、图形和图像等信息。这就给借助计算机技术,方便的浏览、处理电子纸张上的信息提供了方便。
目前,对电子纸张的检索方式,主要是针对文本、基于文本字符匹配的检索。在应用时会发现,由于输入的检索条件不够精确,因此现有的检索方式除了检索到需要的文本,还会检索到大量无用的文本。用户需要从检索得到的文本中再进行人为筛选,因此检索不够精确。而且,电子文档存储的远远不只有文本,还包括丰富的图形、图像、甚至媒体信息,而现有的检索方法只停留在文本的检索。目前有少数图形、图像检索方法,也只能检索出是否包含图像,并进行定位,而不能根据用户设定的检索条件,进行有针对性的检索。
可见,现有的基于字符的电子文档检索方式,不能满足全面、高效、准确的检索要求。
发明内容
有鉴于此,本发明的目的在于提供一种基于版面信息的检索方法,能够提高检索效率、扩大可检索对象的范围。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种基于版面信息的检索方法,用于对电子文档进行检索;所述电子文档为以电子或数字方式存储的文档信息,被检索的对象为电子文档中以电子格式存储的信息;该方法包括:
设置检索条件,该检索条件包括版面信息;所述版面信息是对电子文档可见部分的描述,包括呈现在版面上所有对象的可见属性的描述;
采用设置的检索条件,对所需检索的电子文档进行检索,获取检索结果。
该方法进一步包括:预先设置检索条件与检索规则的对应关系;
所述对所需检索的电子文档进行检索,获取检索结果的步骤包括:根据所述检索条件,从所述对应关系中获取所述检索条件对应的检索规则;根据所述检索条件及其检索规则,从所需检索的电子文档中获取检索结果。
其中,所述设置检索条件为:用户输入版面信息,作为检索条件;
或者,所述设置检索条件之前,该方法进一步包括:预先将所述所需检索的电子文档涉及的版面信息提供给用户;所述确定版面信息为:用户从所述提供的版面信息中选择检索条件。
所述作为检索条件的版面信息为文本版面信息、和/或图形版面信息、和/或图像版面信息、和/或公共版面信息。
当所述版面信息为文本版面信息时,所述文本版面信息为字体、字号、文本颜色、文本填充方式、文本勾边方式、文字特效中的一种或者任意组合。
所述文本版面信息进一步包括文本字符。
当所述版面信息为图形版面信息时,所述图形版面信息为图形形状、图形大小、图形填充方式、图形勾边方式中的一种,或任意组合。
当所述版面信息为图像版面信息时,所述图像版面信息为图像形状、图像大小、图像颜色、图像格式中的一种,或任意组合。
当所述版面信息为公共版面信息时,所述公共版面信息为对象位置和/或对象坐标空间变换。
与现有技术相比,本发明所提供的基于版面信息的检索方案,采用单独或组合的版面信息作为检索条件,根据该检索条件从所需检索的电子文档中得到检索结果。由于作为检索条件的版面信息包括了文本版面信息、图形版面信息、图像版面信息、公共版面信息,因此本发明在对文本进行检索时,可以采用较现有技术更为丰富的版面信息作为检索条件,检索针对性更强,检索结果更为精确,从而提高了检索效率。而且,本发明还可以根据用户输入的版面信息,有针对性的对图形和图像进行检索,扩大了可检索对象的范围。
附图说明
图1为本发明实施例基于版面信息的检索方法的流程图;
图2为本发明实施例一实现基于版面信息的文本检索的方法流程图;
图3为本发明实施例二实现基于版面信息的图形检索的方法流程图;
图4为本发明实施例三实现基于版面信息的图像检索的方法流程图;
图5为本发明实施例四实现基于版面信息的图像检索的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
版面信息是对电子文档可见部分的描述,包括呈现在版面上所有对象的可见属性的描述。版面上的对象一般包括文本、图形、图形等,描述这些对象的可见属性例如文本的字体、位置,图像的分辨率、色彩,图形的线宽、位置等。每类对象都具有描述其可见属性的多个版面信息。对于不同对象,描述其可见属性的版面信息不尽相同。
本发明实施例的核心思想是:用户设置检索条件,该检索条件中包括版面信息,采用设置的检索条件对需要检索的电子文档进行检索,从而提供了一种全面、高效、准确的检索方式。
这里,电子文档为以电子/数字方式存储的文档信息,其表现形式可能是单独的文档文件,如常见的Office文件、网页等,也可能是以结构化数据形式存储文档信息的数据库,或者是以非结构化数据形式存储文档信息的文档库,该文档库采用非结构操作标记语言(UOML)和文档库技术,可以存储一个或一个以上的文档文件。
电子文档中被检索的对象为文本、图形和图像等以电子格式存储的信息。作为检索条件的版面信息可以包括文本版面信息、图形版面信息、图像版面信息、公共版面信息中的一类,或者任意组合。其中,每类版面信息又可以包括一个或者一个以上的可见属性描述项。
图1为本发明实施例基于版面信息的检索方法的流程图。参见图1,该方法包括以下步骤:
步骤101:预先在检索系统中设置检索条件与检索规则的对应关系。
步骤102:用户设置检索条件,该检索条件包括版面信息,检索系统根据检索条件,从其保存的对应关系中,获取该检索条件对应的检索规则。
本步骤中,用户设置作为检索条件的版面信息的方法可以是用户输入,也可以是用户从检索系统提供的版面信息选项中选取一个或一个以上的版面信息作为检索条件。检索系统可以列出所有的版面信息,也可以只列出用户所要检索电子文档中涉及到的版面信息。
步骤103:根据所述检索条件及其检索规则,从所需检索的电子文档中获取检索结果。
检索规则主要是采用匹配的方法。电子文档中的文本、图形和图形等对象在存储时对应一系列的字段。匹配是以版面信息为条件,查找电子文档中符合条件的字段,将该字段描述的对象作为匹配成功的结果,即检索结果。
由于电子文档存储的内容主要包括文本、图形、图像这三大类对象。下面就针对以文本、图形、图像作为检索对象举多个实施例,说明基于版面信息检索的具体实施方式。这里需要说明的是,检索条件和检索规则之间的对应关系已经预先设置好,在以下各实施例中就不再说明该步骤。
实施例一
本实施例以文本作为检索对象,根据文本版面信息进行文本检索。
文本的版面描述信息检索主要是以文本的字体、字号、颜色、填充方式、勾边方式、字体特效作为检索条件。其中,
1、字体,可以是文本字体的具体名。也可以是文本所使用字体的分类名称,例如仿宋。分类字体的分类名称为仿宋的字体,又包括方正仿宋、华文仿宋、文星仿宋等文本字体的具体名。其对应的检索规则为根据用户设定的字体匹配所需检索电子文档中的文本字体。
2、字号,可以是文本具体的字号,也可以是一个字号的范围,或者是一个对字号大小的描述。当字号是具体字号或者字号范围时,属于精确检索条件,对应的检索规则为根据用户设定的字号或者字号范围匹配电子文档中的文本字号。当字号是一个对字号大小的描述时,属于模糊检索,例如,对字号大小的描述为字号最大,则该检索条件对应的检索规则为:首先判断出电子文档所有文本中的最大字号,然后将该最大字号作为检索条件,进行文本字号的匹配,匹配成功的文本即为检索结果。
3、文本颜色,包括文本显示所用的前景色和/或背景色。文本颜色可以是一个具体的颜色代码、或颜色代码范围。其检索规则为:根据用户指定的文本颜色代码或代码范围匹配电子文档中的文本颜色。
4、文本填充方式,包括文本中某个文字的填充颜色、填充图案和填充算法。其中,
4a)填充颜色,可以是文本的整体颜色或者文本的部分颜色。采用整体颜色作为检索条件时,其对应的检索规则为:根据用户指定的颜色代码匹配电子文档中文本填充颜色的颜色代码;采用文本填充部分颜色作为检索条件时,其对应的检索规则为:根据用户指定的颜色代码匹配文本中所占比例最大的填充颜色;填充颜色还可以是图形特效,根据用户指定的特效算法匹配文本填充颜色的特效算法。
4b)填充图案,对应的检索规则为根据用户指定的图案模版匹配文本的填充图案。图案模版可以由检索系统提供,并由用户选择。
4c)填充算法,对应的检索规则为根据用户指定的填充算法匹配文本的填充算法。检索系统可以列出几种主要的填充算法,由用户选择。
5、文本勾边方式,包括本文勾边的颜色、线条样式和线条粗细。其中,
5a)勾边颜色,可以是一种具体的红绿蓝(RGB,Red Green Blue)颜色值,也可以是RGB颜色值范围,或者对颜色的描述。对于精确检索条件,例如指定了RGB颜色值或RGB颜色值的范围,检索规则采用匹配的方法;对于颜色的描述这样的模糊检索条件,例如指定红色,其检索规则为首先将颜色的描述转化为RGB颜色值或者RGB颜色值的范围,然后再进行匹配。
5b)勾边线条样式,是指虚线、实线,或者没有线等。其检索规则采用匹配的方法。
5c)勾边线条粗细,可以是一个具体的粗细值,也可以是粗细值的范围,或者是一个线条粗细的描述,例如最粗、最细。对于指定具体粗细值或者粗细值范围的精确的检索条件,采用匹配的方法。对于线条粗细的描述,可以参见对字号模糊检索的方法。
6、文字特效,是文本显示时所使用的具体特殊效果,主要包括加粗、倾斜、下划线、删除线、阴文、阳文、上标、下标、阴影、隐藏等特效。
以上这些文本版面信息可以由检索系统通过页面的方式提供给用户,由用户从中选择;或者由用户手动输入。每种文本版面信息可以单独作为检索条件使用,也可以相互组合使用;组合使用时每种文本版面信息可以选择一个,也可以选择一个以上。检索时,可以只采用以上所说的文本版面信息作为检索条件,也可以将版面信息与文本字符组合作为检索条件,以提高检索的命中率。例如,检索条件可以是查找3号红色“专利”二字,或红色3~18号“专利”二字、或加粗的字号最大的“专利”二字等等。
本实施例采用现有的字符匹配作为基本检索手段,采用根据版面信息检索作为辅助检索手段进行文本的检索。其中,版面信息采用字体、字号、文本颜色和勾边颜色作为组合检索条件。
图2为本发明实施例一基于版面信息的文本检索的方法流程图。参见图2,该方法包括以下步骤:
步骤200:检索系统分析电子文档中的所有文本的文本版面信息,将该电子文档中所有用到的字体、字号、文本颜色、勾边颜色等版面信息显示给用户。用户选择文本版面信息作为检索条件。
本步骤中,用户可以从检索系统提供的版面信息中选择检索条件,也可以输入检索条件。检索条件可以为单一检索条件,即采用一个文本版面信息作为检索条件;也可以组合检索条件,即采用多个文本版面信息组成组合检索条件。本实施例中,用户选择的组合检索条件为在电子文档中查找使用3号宋体来显示的红色绿边“专利”二字。
步骤201:根据文本字符匹配“专利”二字。
本步骤中,将检索条件中的“专利”二字转化为文本字符的字符编码,在电子文档中以字符编码为索引,查找对应的文字。
步骤202:判断是否匹配到;如果是,则执行步骤203;否则执行步骤210。
步骤203~206:根据检索条件中的各文本版面信息,判断匹配的“专利”二字字体是否为宋体、字号是否为3号、字体颜色的前景色是否为红色、勾边颜色是否为绿色。其中只要有一项不符合,即执行步骤208;全符合,则执行步骤207。
本实施例中,对“专利”二字的版面信息的判断顺序为字体、字号、字体颜色的前景色、勾边颜色。在实际应用中,判断顺序可以任意组合,只要完成对检索条件中的多个文本版面信息的匹配即可。可以采用预先对文本版面信息设置优先级的方法来预定义匹配文本版面信息的顺序。判断的过程也是匹配,只是被匹配的对象只有一个被字符匹配的“专利”二字。
步骤207:将匹配的“专利”记录在匹配列表中。
本步骤中,记录在匹配列表中的文本包括匹配文本的所有版面信息。
步骤208:匹配下一个“专利”二字。返回步骤202。
步骤210:判断匹配列表是否为空;如果是,则执行步骤211;否则执行步骤212。
步骤211:返回未匹配到信息。本流程结束。
本步骤中,返回的未匹配到信息可以作为一类检索结果,通知用户。
步骤212:返回匹配到的检索结果。本流程结束。
本步骤中,可以将匹配的检索结果在文档中突出显示,或者将匹配的检索结果保存和/或导出。
本实施例中的检索过程可总结为,首先根据一个文本版面信息进行匹配,先查找到一个符合条件的文本,再对该查找到的文本进行其它文本版面信息的匹配,直到判定该文本符合用户设定的检索条件并查找下一个,或者不符合检索条件中的某个文本版面信息并查找下一个。由于本实施例的检索条件比较精确,因此检索规则也比较的简单,即针对组成检索条件的每个版面信息采用匹配的方法进行检索即可。
从本实施例一的方案中可以看出,根据多个文本版面信息组成的检索条件进行检索时,不仅用到单个文本版面信息的检索规则,还需要将这些检索规则进行组合,采用一定的顺序执行每个文本版面信息的检索规则。这个执行顺序可以采用预先对文本版面信息设置优先级的方法来预定义。同样,对于图形、图像等其它对象进行检索时,当采用多个版面信息作为检索条件时,也需要对版面信息对应检索规则的执行顺序进行定义。
在实际应用中,检索过程可以很灵活。例如,可以先将与一个文本版面信息匹配的文本全部查找出来,暂存在匹配列表中,再对匹配列表中的文本进行第二个文本版面信息的匹配,将不匹配的文本从匹配列表中删除。当匹配完检索条件中所有文本版面信息,则最后保存在匹配列表中的文本就是匹配成功的检索结果。这种方法中的匹配顺序也可以由用户预先设定。
实施例一是针对文本进行的基于版面信息的检索。根据版面信息对图形和图像进行检索的过程与实施例一基本相同,只要根据用户指定的版面信息,匹配被检索电子文档中的相应对象的版面信息即可实现。
实施例二
对于电子文档来说,文本、图形和图像除了拥有其各自的版面信息,还有拥有公共版面信息。公共版面信息适用电子文档所包含的所有对象。公共版面信息可以与文本、图形、图像版面信息进行组合作为检索条件,也可以单独使用作为检索条件。参见表1,作为检索条件的公共版面信息主要包括几种:
Figure G2007100639284D00091
表1
本实施例以图形作为检索对象,根据图形版面信息和公共版面信息进行图形检索。与实施例一不同之处在于,图形版面信息的具体内容与文本版面信息的具体内容有所区别,且图形在电子文档中是以图形绘制命令形式存储的,需要显示该图形时,调用图形绘制命令进行绘制。因此,从图形绘制命令中可以得到很多描述图形的属性信息。例如,从线段绘制命令中可以得到该命令绘制的形状是直线、该直线的起始坐标、直线的颜色、直线的样式等。因此在检索过程中,很多图形的属性信息都是从图形绘制命令中得到的,然后再根据用户确定的图形版面信息,以及检索规则,匹配从图形绘制命令中获取的图形的属性信息。
如表2所示,图形版面信息包括以下几种:
Figure G2007100639284D00101
表2
表2中的图形版面信息可以单独或者组合作为检索条件使用。本实施例设置检索条件为长度大于3厘米的红色垂直虚线。检索条件中的“垂直”需要根据绘制命令的直线两端点坐标来确定,属于公共版面信息。
图3为本发明实施例二实现基于版面信息的图形检索的方法流程图。参见图3,该方法包括以下步骤:
步骤300:用户输入版面信息作为检索条件。
本实施例中,用户输入的作为检索条件的版面信息具体为:图形形状为直线、图形大小为直线长度大于3厘米、图形勾边颜色为红色、图形勾边线条样式为虚线、图形角度为垂直。这里,根据直线两端点的横坐标是否相等判断是否为垂直直线。
步骤301:根据图形形状为直线的检索条件,匹配被检索电子文档中绘制线条的指令。
步骤302:判断是否匹配到绘制线条的指令;如果是,则执行步骤303;否则执行步骤310。
步骤303:根据直线角度为垂直的检索条件,判断步骤302中匹配直线的两端横坐标是否相等;如果是则执行步骤304;否则执行步骤308。
步骤304:根据直线长度大于3厘米的检索条件,判断步骤303中匹配直线的长度是否大于3厘米;如果是则执行步骤305;否则执行步骤308。
本步骤304中,如果没有直线长度的字段,则根据绘制线条指令中直线两端坐标计算出直线长度。
步骤305:根据直线为红色的检索条件,判断步骤304中匹配直线的勾边颜色是否为红色;如果是则执行步骤306;否则执行步骤308。
步骤306:根据直线为虚线的检索条件,判断步骤305中匹配直线的勾边样式是否为虚线;如果是则执行步骤307;否则执行步骤308。
步骤307:将步骤306中匹配直线存入匹配列表;转入执行步骤308。
步骤308:匹配下一个绘制线条命令。返回步骤302。
步骤310:判断匹配列表是否为空;如果是则执行步骤311;否则执行步骤312。
步骤311:返回未匹配到信息。本流程结束。
步骤312:返回匹配到的检索结果。本流程结束。
本实施例中,步骤301、步骤303、步骤304、步骤305、步骤306分别为图形形状、图形大小、图形勾边颜、图形勾边线条样式、图形角度对应的检索规则。
实施例三
以上两个实施例中,其检索条件均为精确检索条件,本实施例对检索条件为非精确检索条件的基于版面信息检索的实现方法进行举例描述。
本实施例以图像作为检索对象,根据图像版面信息进行图像检索。作为检索条件的图像版面信息的具体内容如表3所示。表3中的图像版面信息可以单独或者组合作为检索条件使用。
参见表3,图像版面描述信息包括以下几种:
表3
本实施例设置检索条件为最大的显示形状为椭圆形的黑白图。
图4为本发明实施例三实现基于版面信息的图像检索的方法流程图。参见图4,该方法包括以下步骤:
步骤400:用户输入版面信息,作为检索条件。
本实施例中,用户输入作为检索条件的版面信息具体为:图像形状为椭圆形、图像颜色只包括白色和黑色、图像大小为最大。可见,本实施例的图像大小为模糊检索条件。
步骤401:根据图像颜色为黑白的检索条件,采用黑色和白色匹配被检索电子文档中图像像素的颜色。其检索规则为匹配图像颜色只包括黑色和白色的图像。
本步骤中,可以分别采用黑色和白色的RGB值,与被检索电子文档中的图像像素的RGB值进行比较,将RGB值只有黑色和白色的图像作为匹配的图像。也可以先将查找出被检索电子文档中的二值图,作为匹配的图像,当所有二值图匹配完毕,再对其它图像进行像素颜色的匹配。
如果作为检索条件的图像颜色不要求只为黑白,只要大部分为黑和白即可。则对应的检索规则可以为,分别采用黑色和白色的RGB值,与被检索电子文档中的图像像素的RGB值进行比较,将黑色和/或白色像素占图像大部分像素的图像作为匹配的图像。
步骤402:判断是否匹配到黑白图像;如果是则执行步骤403;否则执行步骤410;
步骤403:根据图像形状为椭圆形的检索条件,判断步骤402中匹配图像的输出剪裁指令是否为剪裁椭圆形指令;如果是则执行步骤404,否则执行步骤409;
由于图像存储在电子文档中都是矩形,在显示该图像时,要对图像进行了剪裁,使其呈现不同的形状。因此图像形状是根据图像对应的剪裁命令获取的。
步骤404:判断匹配列表中是否已经存储有匹配图像;如果有则执行步骤405;否则执行步骤408;
步骤405:比较匹配列表中匹配图像与当前匹配图像的大小。
在步骤404中,匹配列表中存储的是当前匹配过程之前匹配得到最大的黑白椭圆图像。因此执行步骤405的目的是查找出最大的黑白椭圆图像。
步骤406:判断是否当前匹配图像大于匹配列表中的匹配图像;如果是则执行步骤407;否则执行步骤409。
步骤407:将当前匹配图像替换匹配列表中的图像。转入执行步骤409。
步骤408:将当前匹配图像存入匹配列表。转入执行步骤409;
步骤409:匹配下一个黑白图像。返回步骤402。
步骤410:判断匹配列表是否为空;如果是则执行步骤411;否则执行步骤412。
步骤411:返回未匹配到信息。本流程结束。
步骤412:返回匹配到的检索结果。本流程结束。
本实施例中,步骤401、步骤403分别为图像颜色、图像形状的检索规则。模糊检索条件为:图像大小为“最大”。其检索规则为步骤404、405、406和407。如果用户设置的检索条件中包括图像大小为“较大”,则需要检索系统对“较大”进行预先定义。其检索规则可以是,对所有图像的大小进行检索,将最大图像的尺寸记为A,将最小图像的尺寸记为B,采用1/2×(A-B)+B作为门限值,门限值为1/2×(A-B)+B表示中间尺寸,图像尺寸大于该门限值的就判定为“较大”的图像。也可以采用其它计算方法获取门限值,该门限值的计算方法也可以由用户确定。
实施例四
本实施例以图像作为检索对象,根据文本版面信息和公共版面信息进行图像检索。查找一幅位于当前页上半部分、左侧2厘米内有“专利”二字的图像。其中“专利”二字为黑色。
图5为本发明实施例四实现基于版面信息的图像检索的方法流程图。参见图5,该方法包括以下步骤:
步骤500:用户输入版面信息,作为检索条件。
本步骤中,用户输入作为检索条件的版面信息具体为:图像在页中的大概位置为页上部、相对于本页中指定文本的位置为图像左侧2厘米内的区域内有黑色“专利”二字。
步骤501:根据被检索电子文档中图像的坐标,获取图像的显示位置。根据检索条件中的图像位于页上半部和图像的显示位置,判断图像是否在当前页的上半部。
本步骤中,根据图像左下角的坐标和右下角的坐标,判断是否都小于该页大小的一半。如果是,则认为该图像为匹配图像。如果不是,可以认为该图像为不匹配图像。如果不是,也可以继续进行判断,判断该图像是否一半以上的部分在当前页的上半部,如果是也可以认为该图像为匹配图像,否则为不匹配图像。
步骤502:如果匹配到则执行步骤503;否则执行步骤510。
步骤503:计算距图像左侧2厘米的区域大小,在该区域内根据文本字符和文本颜色,检索颜色为黑色的“专利”二字。具体检索方法与实施例一的根据文本版面信息的检索方法相似,不同之处在于,本步骤中,文本检索区域是距图像左侧2厘米之内的区域,检索条件只包括文本颜色和文本字符。
步骤504:判断是否匹配到;如果是,则执行步骤505;否则执行步骤506;
步骤505:将步骤504的匹配图像存入匹配列表;转入执行步骤506;
步骤506:匹配下一个图像的位置;返回步骤502。
步骤510:判断匹配列表是否为空;如果是则执行步骤511;否则执行步骤512。
步骤511:返回未匹配到信息。本流程结束。
步骤512:返回匹配到的检索结果。本流程结束。
本实施例中,步骤501为图像在页中的大概位置对应的检索规则;步骤503为图像相对于本页中指定文本位置的检索规则。
由以上方案所述可以看出,本发明所提供的基于版面信息的检索方案,提供了一种全面、高效、准确的电子文档检索方式。检索针对性更强,检索结果更为精确,从而提高了检索效率。而且,本发明实施例还可以根据用户输入的版面信息,有针对性的对图形和图像进行检索,扩大了可检索对象的范围。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于版面信息的检索方法,用于对电子文档进行检索;其特征在于,所述电子文档为以电子或数字方式存储的文档信息,被检索的对象为电子文档中以电子格式存储的信息;该方法包括:
设置检索条件,该检索条件包括版面信息;所述版面信息是对电子文档可见部分的描述,包括呈现在版面上所有对象的可见属性的描述;
采用设置的检索条件,对所需检索的电子文档进行检索,获取检索结果。
2.如权利要求1所述的方法,其特征在于,该方法进一步包括:预先设置检索条件与检索规则的对应关系;
所述对所需检索的电子文档进行检索,获取检索结果的步骤包括:
根据所述检索条件,从所述对应关系中获取所述检索条件对应的检索规则;
根据所述检索条件及其检索规则,从所需检索的电子文档中获取检索结果。
3.如权利要求1所述的方法,其特征在于,所述设置检索条件为:用户输入版面信息,作为检索条件;
或者,所述设置检索条件之前,该方法进一步包括:预先将所述所需检索的电子文档涉及的版面信息提供给用户;所述确定版面信息为:用户从所述提供的版面信息中选择检索条件。
4.如权利要求1所述的方法,其特征在于,所述作为检索条件的版面信息为文本版面信息、和/或图形版面信息、和/或图像版面信息、和/或公共版面信息。
5.如权利要求4所述的方法,其特征在于,当所述版面信息为文本版面信息时,所述文本版面信息为字体、字号、文本颜色、文本填充方式、文本勾边方式、文字特效中的一种或者任意组合。
6.如权利要求5所述的方法,其特征在于,所述文本版面信息进一步包括文本字符。
7.如权利要求4所述的方法,其特征在于,当所述版面信息为图形版面信息时,所述图形版面信息为图形形状、图形大小、图形填充方式、图形勾边方式中的一种,或任意组合。
8.如权利要求4所述的方法,其特征在于,当所述版面信息为图像版面信息时,所述图像版面信息为图像形状、图像大小、图像颜色、图像格式中的一种,或任意组合。
9.如权利要求4所述的方法,其特征在于,当所述版面信息为公共版面信息时,所述公共版面信息为对象位置和/或对象坐标空间变换。
CN200710063928A 2007-02-14 2007-02-14 一种基于版面信息的检索方法 Expired - Fee Related CN101246475B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200710063928A CN101246475B (zh) 2007-02-14 2007-02-14 一种基于版面信息的检索方法
PCT/CN2008/070247 WO2008098499A1 (en) 2007-02-14 2008-02-02 Searching method based on layout information
EP08706623.9A EP2110758B1 (en) 2007-02-14 2008-02-02 Searching method based on layout information
US12/537,746 US8386943B2 (en) 2007-02-14 2009-08-07 Method for query based on layout information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710063928A CN101246475B (zh) 2007-02-14 2007-02-14 一种基于版面信息的检索方法

Publications (2)

Publication Number Publication Date
CN101246475A CN101246475A (zh) 2008-08-20
CN101246475B true CN101246475B (zh) 2010-05-19

Family

ID=39689662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710063928A Expired - Fee Related CN101246475B (zh) 2007-02-14 2007-02-14 一种基于版面信息的检索方法

Country Status (4)

Country Link
US (1) US8386943B2 (zh)
EP (1) EP2110758B1 (zh)
CN (1) CN101246475B (zh)
WO (1) WO2008098499A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650742B (zh) * 2009-08-27 2015-01-28 中兴通讯股份有限公司 一种对英文检索的检索条件进行提示的系统及方法
CN102033863B (zh) * 2009-09-30 2012-07-04 北大方正集团有限公司 一种公式处理方法与系统
US20120092357A1 (en) * 2010-10-14 2012-04-19 Microsoft Corporation Region-Based Image Manipulation
CN103136521A (zh) * 2011-11-25 2013-06-05 方正国际软件有限公司 一种图像区域属性的展示方法与系统
CN102663029A (zh) * 2012-03-25 2012-09-12 戴建凤 一种建筑工程电子图纸搜索装置
JP6958096B2 (ja) * 2017-08-10 2021-11-02 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びプログラム
US10572587B2 (en) 2018-02-15 2020-02-25 Konica Minolta Laboratory U.S.A., Inc. Title inferencer
US10496457B2 (en) * 2018-04-02 2019-12-03 Micron Technology, Inc. Grouping requests to reduce inter-process communication in memory systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492359A (zh) * 2002-04-10 2004-04-28 深圳市中兴通讯股份有限公司 一种多关键字自动状态机查找匹配方法
CN1549202A (zh) * 1998-12-24 2004-11-24 ���ṫ˾ 信息处理装置和信息处理方法
CN1632821A (zh) * 2004-12-30 2005-06-29 北京中星微电子有限公司 一种名片识别中关键文字信息的自动检索判定方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6002798A (en) * 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
JPH10171964A (ja) * 1996-12-09 1998-06-26 Canon Inc 電子ファイリング装置及び電子ファイリング方法
US6199046B1 (en) * 1997-07-29 2001-03-06 Adsura Pty Ltd. Method system and article of manufacture for performing real time currency conversion
JP2000276474A (ja) * 1999-03-24 2000-10-06 Fuji Photo Film Co Ltd データベース検索装置および方法
GB2349493B (en) * 1999-04-29 2002-10-30 Mitsubishi Electric Inf Tech Method of representing an object using shape
US8397177B2 (en) * 1999-07-22 2013-03-12 Tavusi Data Solutions Llc Graphic-information flow method and system for visually analyzing patterns and relationships
US20020069265A1 (en) * 1999-12-03 2002-06-06 Lazaros Bountour Consumer access systems and methods for providing same
US7823066B1 (en) * 2000-03-03 2010-10-26 Tibco Software Inc. Intelligent console for content-based interactivity
EP1292903A2 (en) * 2000-05-24 2003-03-19 Espotting (UK) Limited Searching apparatus and a method of searching
US6691126B1 (en) * 2000-06-14 2004-02-10 International Business Machines Corporation Method and apparatus for locating multi-region objects in an image or video database
JP2002183166A (ja) 2000-12-19 2002-06-28 Nec Corp ドキュメントファイリングシステムおよび方法
US20030234766A1 (en) * 2001-02-15 2003-12-25 Hildebrand Alfred P. Virtual image display with virtual keyboard
JP4078085B2 (ja) * 2001-03-26 2008-04-23 キヤノン株式会社 変倍画像生成装置、方法、及びそのコンピュータプログラムとコンピュータ読み取り可能な記憶媒体
JP2006163842A (ja) * 2004-12-07 2006-06-22 Canon Inc 検索システム、情報処理装置及びその制御方法、プログラム
EP1877981A4 (en) * 2005-05-02 2009-12-16 Univ Virginia SYSTEMS, DEVICES AND METHODS FOR INTERPRETATION OF MOVEMENTS
CA2545237A1 (en) * 2005-07-29 2007-01-29 Cognos Incorporated Method and system for managing exemplar terms database for business-oriented metadata content
US20080005194A1 (en) * 2006-05-05 2008-01-03 Lockheed Martin Corporation System and method for immutably cataloging and storing electronic assets in a large scale computer system
US7646230B2 (en) * 2007-09-21 2010-01-12 Siemens Industry, Inc. Devices, systems, and methods for reducing signals
US9311402B2 (en) * 2007-12-21 2016-04-12 Semantinet Ltd. System and method for invoking functionalities using contextual relations
US8634796B2 (en) * 2008-03-14 2014-01-21 William J. Johnson System and method for location based exchanges of data facilitating distributed location applications
JP5599572B2 (ja) * 2009-03-12 2014-10-01 富士フイルム株式会社 症例画像検索装置、方法およびプログラム
JP2010250658A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1549202A (zh) * 1998-12-24 2004-11-24 ���ṫ˾ 信息处理装置和信息处理方法
CN1492359A (zh) * 2002-04-10 2004-04-28 深圳市中兴通讯股份有限公司 一种多关键字自动状态机查找匹配方法
CN1632821A (zh) * 2004-12-30 2005-06-29 北京中星微电子有限公司 一种名片识别中关键文字信息的自动检索判定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特開2005-252715A 2005.09.15

Also Published As

Publication number Publication date
US20100287187A1 (en) 2010-11-11
EP2110758B1 (en) 2018-07-18
CN101246475A (zh) 2008-08-20
EP2110758A1 (en) 2009-10-21
WO2008098499A1 (en) 2008-08-21
US8386943B2 (en) 2013-02-26
EP2110758A4 (en) 2012-12-12

Similar Documents

Publication Publication Date Title
US11017150B2 (en) System and method for converting the digital typesetting documents used in publishing to a device-specific format for electronic publishing
CN101246475B (zh) 一种基于版面信息的检索方法
US7386789B2 (en) Method for determining logical components of a document
JP4590433B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
CN102117269B (zh) 对文档进行数字化的装置及方法
JP4402138B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US20060294460A1 (en) Generating a text layout boundary from a text block in an electronic document
US20140176564A1 (en) Chinese Character Constructing Method and Device, Character Constructing Method and Device, and Font Library Building Method
CN110705503B (zh) 生成目录结构化信息的方法和装置
CN111144370A (zh) 单据要素抽取方法、装置、设备及存储介质
CN110162773A (zh) 标题推断器
US20130332824A1 (en) Embedded font processing method and device
KR20140031269A (ko) 글꼴을 판별하는 방법 및 장치
JP5197694B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
CN104462153A (zh) 一种基于版面信息的检索方法
CN106776489B (zh) 显示设备的电子文档显示方法和系统
US20050278311A1 (en) System and method for generating advertisements utilizing a database of stock imagery
US11972196B1 (en) Systems and methods for processing designs
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
JP5465279B2 (ja) 情報処理装置及びプログラム
JP4892600B2 (ja) 画像処理装置
Chao Graphics extraction in a PDF document
JP3528620B2 (ja) 文字描画装置及び文字描画方法
CN117931106A (zh) 基于边缘计算的云打印机数据处理方法以及相关装置
JP2004102462A (ja) 複数文書作成装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD. BEI

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100083 13/F, SHINING BUILDING, NO.35, XUEYUAN ROAD, HAIDIAN DISTRICT, BEIJING TO: 100191 ROOM 408, TAIXING BUILDING, NO.11, HUAYUAN EAST ROAD, HAIDIAN DISTRICT, BEIJING

TR01 Transfer of patent right

Effective date of registration: 20101027

Address after: 100191, Room 408, Taixing building, 11 Garden East Road, Beijing, Haidian District

Co-patentee after: Beijing Sursen Electronic Technology Co., Ltd.

Patentee after: Beijing Suresense International Information Technology Co., Ltd.

Co-patentee after: Beijing Sursen Network Technology Co., Ltd.

Co-patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Address before: 100083, Haidian District, Xueyuan Road, Beijing No. 35, Nanjing Ning building, 13 floor

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

ASS Succession or assignment of patent right

Owner name: TIANJIN SHUSHENG INVESTMENT CO., LTD.

Free format text: FORMER OWNER: BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20120305

Owner name: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY

Free format text: FORMER OWNER: BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD. BEIJING SURSEN NETWORK TECHNOLOGY CO., LTD. BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY CO., LTD.

Effective date: 20120305

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100191 HAIDIAN, BEIJING TO: 300308 HEBEI, TIANJIN

TR01 Transfer of patent right

Effective date of registration: 20120305

Address after: 300308, Tianjin Airport Economic Zone, No. 80 North River Road airport business park, 9 East, building 2

Co-patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Co-patentee after: Beijing Sursen Network Technology Co., Ltd.

Co-patentee after: Beijing Suresense International Information Technology Co., Ltd.

Address before: 100191, Room 408, Taixing building, 11 Garden East Road, Beijing, Haidian District

Co-patentee before: Beijing Sursen Electronic Technology Co., Ltd.

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

Co-patentee before: Beijing Sursen Network Technology Co., Ltd.

Co-patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY

Free format text: FORMER OWNER: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY CO., LTD. BEIJING SURSEN NETWORK TECHNOLOGY CO., LTD. BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20140319

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140319

Address after: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee after: Beijing Sursen Network Technology Co., Ltd.

Patentee after: Beijing Suresense International Information Technology Co., Ltd.

Patentee after: Beijing Sursen Electronic Technology Co., Ltd.

Address before: 300308, Tianjin Airport Economic Zone, No. 80 North River Road airport business park, 9 East, building 2

Patentee before: Tianjin Shusheng Investment Co., Ltd.

Patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee before: Beijing Sursen Network Technology Co., Ltd.

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY

Free format text: FORMER OWNER: BEIJING SURSEN DIGITAL LIBRARY SOFTWARE TECHNOLOGY CO., LTD. BEIJING SURSEN NETWORK TECHNOLOGY CO., LTD. BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY CO., LTD. BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD.

Effective date: 20140827

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140827

Address after: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Patentee after: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee after: Beijing Sursen Network Technology Co., Ltd.

Patentee after: Beijing Suresense International Information Technology Co., Ltd.

Address before: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Patentee before: Tianjin Shusheng Investment Co., Ltd.

Patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee before: Beijing Sursen Network Technology Co., Ltd.

Patentee before: Beijing Suresense International Information Technology Co., Ltd.

Patentee before: Beijing Sursen Electronic Technology Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170823

Address after: 300308, Tianjin Airport Economic Zone, No. 80 North River Road airport business park, 9 East, building two

Co-patentee after: Beijing Suresense International Information Technology Co., Ltd.

Patentee after: Tianjin Shusheng Investment Co., Ltd.

Address before: 300308, two floor, building 9, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Co-patentee before: Beijing Sursen Digital Library Software Technology Co., Ltd.

Patentee before: Tianjin Shusheng Investment Co., Ltd.

Co-patentee before: Beijing Sursen Network Technology Co., Ltd.

Co-patentee before: Beijing Suresense International Information Technology Co., Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100519

Termination date: 20210214