CN1495661A - 由所扫描的图像媒体启动的信息搜索 - Google Patents

由所扫描的图像媒体启动的信息搜索 Download PDF

Info

Publication number
CN1495661A
CN1495661A CNA031332455A CN03133245A CN1495661A CN 1495661 A CN1495661 A CN 1495661A CN A031332455 A CNA031332455 A CN A031332455A CN 03133245 A CN03133245 A CN 03133245A CN 1495661 A CN1495661 A CN 1495661A
Authority
CN
China
Prior art keywords
phrases
search
list
text
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031332455A
Other languages
English (en)
Inventor
Sg
S·G·亨利
ʷ
K·M·史密斯
�����������ֶ�
J·P·沃尔夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN1495661A publication Critical patent/CN1495661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Facsimiles In General (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Character Discrimination (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种装置(302)扫描图像媒体(400)的文本(402,404),并生成与扫描文本(402,404)对应的文本数据。装置(302)的搜索部件(328)从文本数据中生成短语列表(504),并启动对与短语列表(504)对应的信息的搜索。

Description

由所扫描的图像媒体启动的信息搜索
技术领域
本发明涉及由所扫描的图像媒体启动的信息搜索。
背景技术
对于需查找与特定打印文档有关的信息的不熟练计算机用户来说,在因特网上进行搜索或者甚至确定从何处开始搜寻所需信息可能比较复杂并令人畏缩。计算机提供了搜寻信息、文档和任何其它电子形式的数据的便利方式。但是,为了查找与打印文档有关的信息,用户仍必须确定文档中的可应用搜索项并将该搜索项输入计算机以启动搜索过程,这通常由搜索引擎来完成。
扫描技术捕捉来自打印文档、照片或其它类似图像媒体的图像或图像区域,并将该图像区域转换成电子形式。媒体再现和成像技术的进步已产生了更小且买得起的多功能装置来替代传统的独立单用途装置,例如复印机、传真机和平板扫描仪。顾名思义,多功能装置是能够实现多种功能如打印、复印、扫描、传真和/或收发电子邮件的装置。多功能装置的一个通常称作数字发送器的例子可对图像媒体进行扫描并将所扫描的图像以电子邮件的形式发送给接收方,而不需要台式计算装置。
发明内容
在一种实现中,装置对图像媒体的文本进行扫描,并产生与所扫描的文本对应的文本数据。搜索部件从文本数据中产生短语列表,并启动与此短语列表对应的信息的搜索。
附图说明
在所有图中采用相同的标号来表示相似的特征和部件。
图1说明一种示例性的多功能装置的各种部件。
图2说明一种示例性的计算装置的各部件。
图3说明示例性计算环境中的图像扫描系统的各部件。
图4说明一种图像媒体文档。
图5说明一种示例性的短语索引文档,它具有从图4所示图像媒体文档中扫描出的搜索项。
图6是说明一种由所扫描的图像媒体启动的信息搜索方法的流程图。
具体实施方式
在一种实现中,由所扫描的图像媒体启动的信息搜索被描述为多功能装置,它包括扫描图像媒体的文本的扫描单元,还包括产生与该文本对应的文本数据的扫描部件、如光学字符识别软件。此多功能装置的搜索部件从文本数据中生成短语列表,并启动与此短语列表对应的信息的搜索。这里所用的短语可以是任何词或词组。
希望搜索和定位与某个文档有关的信息的个人可采用扫描或多功能装置扫描该文档,并接收与文档文本相对应的搜索结果。搜索结果可包括网页(如万维网页)、网络链接表和/或许多其它类型的来自许多来源的电子文档。
另外,扫描装置中的扫描部件可用于识别短语标识符,并生成与由该短语标识符指定的文本相对应的所选文本数据。短语标识符可以是写在图像媒体上以标识短语(例如词或词组)的标记,或者此短语标识符可以是用于标识短语的电子标记。搜索部件还可接收输入短语,并从所选文本数据以及输入短语中生成所选短语列表。然后搜索部件可从此文本数据和所选文本数据中生成短语列表。
这里参考一个或多个多功能和计算装置来进行描述。虽然特定的例子可能涉及具有特定部件实现的装置,但是这种例子并不意味着限制了权利要求或说明书的范围,而是意味着对这里所述的信息搜索技术提供一种具体理解。此外,这些装置仅是示例性的,并不意味着将如权利要求所述的主题的应用限制于仅包括这里所述的部件的装置。因此,可采用具有与这里所述部件不同的部件和/或增设的部件的其它多功能和/或计算装置来实现由所扫描的图像媒体启动的信息搜索。
示例性的多功能装置
图1说明一种示例性的多功能装置100的各种部件,它可用于实现由扫描图像媒体启动的信息搜索。顾名思义,多功能装置就是一种用于多种功能的装置,涉及但不限于打印、复印、扫描,还包括图像采集和文本识别、发送和接收传真、印刷媒体处理和/或通过凭印刷媒体或电子媒体、如电子邮件或电子传真进行数据通信。
多功能装置100包括一个或多个处理器102(如微处理器、控制器等),它们处理各种指令以控制多功能装置100的操作以及与其它电子和计算装置进行通信。多功能装置100可通过一个或多个存储部件来实现,存储部件的例子包括电可擦可编程只读存储器(EEPROM)104、ROM106(不可擦)和随机存取存储器(RAM)108,它们都为多功能装置100提供数据存储机构。
存储部件(EEPROM104、ROM106和RAM108)存储各种信息和/或数据,诸如配置信息、字体、模板、打印数据、扫描图像数据和菜单结构信息。虽然图中未示出,然而特定的多功能装置还可包括闪存装置以作为EEPROM104和ROM106的替代品或附加物。另外,虽然图中未示出,但是系统总线通常连接多功能装置100内的各个部件。
多功能装置100还包括固件部件110,它实现为储存在ROM106上的永久性存储模块,或者用多功能装置100中的其它部件来实现。例如,固件可实现为处理器102的部件或装置控制器的部件。固件110可用于协调多功能装置100内的硬件的操作,并包含用于执行这种操作的程序设计结构。多功能装置100还包括盘驱动器112,这为待打印、复印、扫描和/或传真的数据或者其它由多功能装置100维护的信息提供了辅助存储装置。
多功能装置100包括网络接口114和一个或多个通信接口116、如串行和/或并行接口、USB接口及其它类似的通信接口。网络接口114提供多功能装置100和数据通信网络之间的连接。网络接口114允许已连接至公共数据通信网络的装置经由网络将打印作业、传真、菜单数据和其它信息发送至多功能装置100。同样地,通信接口116在多功能装置100与另一电子或计算装置之间直接提供数据通信路径。多功能装置100还可包括无线通信接口118,它提供与另一电子或计算装置的红外(IR)、802.11、蓝牙或类似的RF通信。
多功能装置100还具有打印单元120,该单元包括用于按照与打印作业对应的打印数据将成像介质、如液体油墨或色粉选择性地施加到打印媒体上的机构。打印媒体可包括用于打印的任何形式的媒体,例如纸张、塑料、织物、聚酯薄膜、幻灯片等、不同大小和类型如81/2×11、A4的辊式进给媒体等。例如,打印单元120可包括传统的激光打印机构,可选择性地将色粉施加到打印媒体上。例如,通过选择性地对色粉施加热能,打印媒体上的色粉就可更持久地固定在打印媒体上。应当认识到存在多种不同类型的打印单元,就本发明的目的而言,打印单元120可以用不同类型的打印单元中的任一种来实现。
多功能装置100还包括扫描单元122,它可实现为光学扫描仪,用于产生表示扫描图像如照片、印刷文本页或图像与文本的任何组合的机器可读的图像数据信号。由扫描单元122产生的图像数据信号可用于将扫描图像再现在显示装置上或通过打印装置来再现。
多功能装置100还包括控制面板、菜单浏览器124和显示面板126。控制面板和菜单浏览器124允许多功能装置100的用户对装置的菜单结构进行导航。控制面板124可包括指示器和/或一系列按钮、开关或其它可由多功能装置的用户操纵的可选控制器。显示面板126是提供关于多功能装置100状态的信息和整个菜单结构中用户可用的当前选项的图形显示器。
多功能装置100包括一个或多个应用程序128和操作系统130,操作系统可存储于非易失性存储器(如ROM106)中并在处理器102上运行,以提供软件应用可在其中运行或执行的运行期环境。运行期环境通过允许定义各种接口以实现多功能装置100的可扩展性,而这些接口又使应用程序128可以与多功能装置100相互作用。例如,应用程序128可包括嵌入式万维网服务器,提供从多功能装置100以及到多功能装置100的简化网络访问。
示例性的计算装置
图2说明可用于实现这里所述的创新技术的示例性计算装置200的各部件。计算装置200包括一个或多个处理器202(如微处理器、控制器等)、用于数据输入和/或输出的输入/输出接口204以及用户输入装置206。处理器202处理各种指令以控制计算装置200的操作,而输入/输出接口204为计算装置200提供与其它电子和计算装置进行通信的机构。用户输入装置206可包括键盘、鼠标、指示装置和/或其它机构,以便与计算装置200相互作用并将信息输入计算装置200。
输入/输出接口204可包括串行、并行和/或网络接口。网络接口使装置可以连接到公共数据通信网络以与计算装置200传递信息。同样地,通信接口、如串行和/或并行接口、USB接口、以太网接口、802.11接口和/或通信接口的任意组合直接在计算装置200与另一电子或计算装置之间提供数据通信路径。
计算装置200还包括存储器208(如ROM和/或RAM)、磁盘驱动器210、软盘驱动器212和CD-ROM和/或DVD驱动器214,它们都为计算装置200提供数据存储机构。许多存储器和存储装置及其组合可与计算装置200相连或在其内部实现。虽然图中未显示,然而系统总线通常连接计算装置200内的各种部件。
计算装置200还包括一个或多个应用程序216和操作系统218,操作系统可存储于非易失性存储器(如存储器208)中,并且可在处理器202上执行,以提供应用软件216可在其中运行或执行的运行期环境。计算装置200还可包括集成显示装置220,例如用于个人数字助理(PDA)、便携式计算装置和任何其它的移动计算装置。
计算环境中的示例性图像扫描系统
图3说明示例性图像扫描系统300的部件,其中多功能装置302具有经由数据通信网络310与计算装置304、文档数据库306和因特网资源308的通信链接。多功能装置302可包括示例性的多功能装置100(图1)的一个或多个部件,计算装置304可包括示例性计算装置200(图2)的一个或多个部件,并且包括显示器312。虽然文档数据库306表示为独立的装置,但它可作为多功能装置302或计算装置304的部件来实现。许多记录、字段和数据及其组合可在文档数据库306或类似结构中定义、组织和维护以供搜索引用。
数据通信网络310可以是任一类型的网络,如局域网(LAN)或广域网(WAN),它们采用任一类型网络拓扑结构和包括无线网络通信的任一网络通信协议。虽然仅表示出三个经网络310通信链接的装置,但是典型网络可具有直接或经由另一网络系统间接地连接到它的多个装置。因特网是具有多个装置的多个相连网络系统的例子。多功能装置302、计算装置304和文档数据库306还具有调制解调器和/或网卡,以便于通过数据通信网络310进行网络通信和数据传送。
多功能装置302包括打印单元314、扫描单元316、存储部件318和一个或多个处理器320。上面针对示例性多功能装置100(图1)对这些部件中的每一个进行了描述。多功能装置302还包括文件自动馈给器(ADF)322、媒体引导组件324、扫描部件326和搜索部件328。文件自动馈给器322接收多个图像媒体330,并将此图像媒体自动馈送到多功能装置302中以进行扫描和/或打印。图像媒体包括任何可用扫描单元316扫描的打印媒体、照片和图形等。
媒体引导组件324获取图像或打印媒体330,并引导其通过多功能装置302以进行扫描和/或打印。当媒体引导组件324使图像媒体330在多功能装置302内按选定路线移动时,图像媒体330经过可从该图像媒体中扫描图像或图像区域的扫描单元316的附近。扫描部件326可实现为光学字符识别软件,例如在处理器318上执行并接收来自扫描单元316的与扫描图像对应的图像数据。作为接收对应于扫描图像的图像数据的扫描部件326的代替品或附加物,计算装置304中的扫描部件(即位于多功能装置302外部)通过数据通信链路310接收来自扫描单元316的图像数据。
搜索部件328在处理器320上执行并经由数据通信网络310与因特网资源308进行通信。或者,搜索部件还可实现为计算装置304中的在处理器202(图2)上运行的应用程序216。虽然扫描部件326和搜索部件328均在图中表示并描述为配置成执行若干功能的单个部件,但是扫描部件326和搜索部件328可以各实现为若干应用程序,它们被分配成各执行多功能装置302和/或信息搜索系统中的一项或多项功能。此外,扫描部件326和搜索部件328中的任一个或两个均可驻留在服务器系统上或作为因特网资源。另外,扫描部件326和搜索部件328均可在任何适当硬件、软件、固件或其组合中实现。
因特网资源308包括搜索引擎332和文档搜索服务提供者334。尽管将其表示成独立部件,但是搜索引擎332可作为文档搜索服务提供者334的部件。服务提供者334仅是文档管理系统的一个例子,它可接收来自搜索部件328的搜索信息、处理信息,并搜索因特网资源308以查找与该搜索信息有关的信息和文件。
扫描图像媒体的信息搜索
图4说明示例性的图像媒体400,它是具有文本区402和404以及图形区406、408和410的文档。图像媒体400可以是例如具有用户想查找更多有关信息的关注项目的杂志页面。图像媒体400包括书面标记,即用于指定短语文本“notebook”414作为所选搜索项的短语标识符412。这里所用的短语包括任何词或词组,还可以表征为由空格或标点符号隔开的一个或多个词的任何组合。图像媒体400还包括这样的书面标记,即用于指定短语文本“laser printer”418作为所选搜索项的短语标识符416。短语标识符412和416还可实现为电子标记,它们是加到图像媒体400的电子扫描图像上的符号或记号。
图5说明一种示例性短语索引电子文档500,它包括用户选择的短语列表502和由图像媒体400(图4)中文本的扫描所生成的逆序短语列表504。软件应用、如多功能装置302(图3)中的扫描部件326或计算装置200(图2)中的应用程序216可实现成通过光学字符识别(OCR)处理或类似的文本识别处理来生成文本数据。
扫描部件326也可配置成识别书面标记、电子标记、符号和/或记号,例如短语标识符412和416。此扫描部件产生所选的文本数据,例如由短语标识符412指定的“notebook”414和由短语标识符416指定的“1aser printer”418。另外,用户选择的短语列表502包括输入短语“portable”,将其标识为短语506。用户例如可通过多功能装置100的控制面板124输入或指定所选短语以进行搜索。
逆序短语列表504以最常见项出现在逆序短语列表的末端508的方式生成。例如,项“color”在图像媒体400中出现5次,因此可将其确定为可能不产生特定搜索结果的常见项。采用短语列表502和504的搜索项来启动与图像媒体400(图4)的文本有关的信息搜索。例如从文档数据库306和因特网资源308得出的搜索结果可包括信息和文档,例如与短语列表502和504的搜索项有关的文件、图像、对象、程序和数据的任何其它电子形式。
短语索引电子文档500还可由多功能装置302所接收的电子文档扫描或电子图像媒体生成。例如,多功能装置302可经由网络310接收形式为电子邮件的附件或电子传真的电子图像媒体。另外,多功能装置302可从例如计算装置304中接收电子图像媒体作为打印作业。
信息搜索的方法
从所扫描的图像媒体启动的信息搜索的方法可在位于包括存储装置的计算机存储媒体中的计算机可执行指令的一般场合下描述。一般来讲,计算机可执行指令包括例程、程序、对象、部件、数据结构等,它们执行特定的功能或者实现特定的抽象数据类型。
图6说明从扫描图像媒体启动的信息搜索的方法600。所述方法的顺序不应视为一种限定,许多所述方法块可按任何顺序组合以实现信息搜索方法。此外,此方法可在任何适当的硬件、软件、固件或其组合中实现。
在块602中,由扫描装置或多功能装置扫描图像媒体的文本。例如,由多功能装置302(图3-4)中的扫描单元316扫描图像媒体400的文本区域402和404。在块604中,生成与图像媒体的文本相对应的文本数据。例如,当扫描图像媒体400的文本区域402和404中的打印文本图像时,通过采用光学字符识别或扫描技术领域的技术人员已知的另一类似处理将文本图像转换成文本字符,从而生成文本数据。或者,例如,与电子媒体图像的文本对应的文本数据可从收到的电子邮件、电子邮件的附件、电子传真或打印作业中生成。
在块606中,从文本数据中生成短语列表。例如,从图像媒体400的文本的扫描中生成电子文档500的逆序短语列表504。在块608中将一个或多个标识标记识别为短语标识符。例如,多功能装置302中的扫描部件326将图像媒体400上的书面标记412和416识别为短语标识符。或者,标识标记可以是电子标记,它们是通过多功能装置302的控制面板124或通过与多功能装置302通信链接的计算装置304添加到图像媒体400的电子扫描图像中的符号或记号。
在块610中,从该短语标识符指定的图像媒体文本中生成所选文本数据。例如,当将图像媒体400中的印制文本“notebook”414和“laser printer”418分别作为短语标识符412和416指定的所选文本扫描时,通过采用光学字符识别或扫描技术领域的技术人员已知的其它类似处理将指定图像媒体文本转换成文本字符,从而生成所选文本数据。
在块612中接收一个或多个输入短语。例如,用户可通过多功能装置302的控制面板124来输入或指定所选搜索短语,或通过与多功能装置302通信链接的计算装置304输入搜索短语。另外,用户可输入词的组合如短语,即形成输入搜索短语的布尔表达式。
在块614中,从所选文本数据和一个或多个输入短语中生成所选短语列表。例如,电子文档500的用户选择的短语列表502从图像媒体400中的文本“notebook”414和“laser printer”418的所选文本数据以及用户输入短语“portable”506中生成。另外,所选短语列表可通过例如扫描部件326(图3)的管理部件来生成和/或变换。管理部件可根据列表的指定目的地、例如搜索代理的目的地以及所选短语列表目的地的任何数据或格式化要求来修改或变换所选的短语列表。
在块616中,启动与短语列表和所选短语列表相对应的信息搜索。启动搜索可包括启动文档数据库、如文档数据库306中的搜索,启动因特网资源308的搜索,将短语列表和所选短语列表传递到执行搜索的搜索引擎332上,和/或将短语列表和所选短语列表传递给执行搜索的文档搜索服务提供者334。
在块618中,接收与短语列表和所选短语列表相对应的搜索结果。搜索结果可包括电子文档、电子文档的标题(或其它文档标识信息)、网页、网络链接列表和/或电子信息的任何组合和格式。
在块620中,打印搜索结果,和/或在块622中,在显示装置上显示搜索结果。在块624中,生成图像媒体的电子文档。在块626中,将电子文档、短语列表和所选短语列表和/或搜索结果传递到将短语列表作为扫描文档和搜索结果索引来维护的文档数据库中。作为另选或附加,在块628中,将电子文档、短语列表和/或搜索结果以电子邮件的方式发送至计算装置,如指定的电子邮件接收方。
结论
从所扫描的图像媒体启动的信息搜索提供了一种搜索辅助方法,它可以查找与某个文档有关的信息和电子文档,例如此文档的原始扫描件或接收的软拷贝。自动搜索处理可由多功能装置和/或计算装置来实现,或者通过文档搜索服务提供者、搜索引擎或文档管理服务来在线完成。
虽然采用专用于结构特征和/或方法的语言对本发明进行了描述,但是应当理解,所附权利要求中定义的本发明并不一定限定于所述的具体特征或方法。具体的特征和方法只是作为实现所述发明的优选形式而公开的。

Claims (10)

1.一种装置(302),包括:
配置成扫描图像媒体(400)的文本(402,404)的扫描单元(316);
配置成生成与所述文本(402,404)相对应的文本数据的扫描部件(326);
搜索部件(328),配置成:
从所述文本数据中生成一个或多个短语列表(504);以及
启动对与所述一个或多个短语列表(504)相对应的信息的搜索。
2.如权利要求1所述的装置(302),其特征在于:
所述扫描部件(326)还配置成:
识别短语标识符(412,416);
生成与所述短语标识符(412,416)所指定的文本(414,418)相对应的所选文本数据;
所述搜索部件(328)还配置成:
接收一个或多个输入短语(506);
从所述所选文本数据和所述一个或多个输入短语(506)中生成所选短语列表(502);以及
启动对与所述所选短语列表(502)对应的信息的搜索。
3.如权利要求1所述的装置(302),其特征在于:所述扫描部件(326)还配置成将一个或多个书面标记识别为短语标识符(412,416)。
4.如权利要求1所述的装置(302),其特征在于:所述扫描部件(326)还配置成将一个或多个电子标记识别为短语标识符(412,416)。
5.如权利要求1所述的装置(302),其特征在于:
所述扫描部件(326)还配置成生成所述图像媒体的电子文档(500);
所述搜索部件(328)还配置成:
接收对应于所述一个或多个短语列表(504)的搜索结果;以及
将所述电子文档、所述一个或多个短语列表(504)和所述搜索结果传递到文档数据库(306),其中将所述一个或多个短语列表(504)作为所述电子文档和所述搜索结果的索引来维护。
6.一种方法,包括:
生成与图像媒体(400)的文本(402,404)相对应的文本数据;
从所述文本数据中生成至少一个短语列表(504);以及
启动对与所述至少一个短语列表(504)相对应的信息的搜索。
7.如权利要求6所述的方法,其特征在于:所述方法还包括扫描所述图像媒体(400)的所述文本(402,404)。
8.如权利要求6所述的方法,其特征在于:所述方法还包括经由通信链路(310)从计算装置(304)接收所述图像媒体(400)的所述文本(402,404)。
9.如权利要求6所述的方法,其特征在于还包括:
识别短语标识符(412,416);
生成与由所述短语标识符(412,416)指定的文本(414,418)相对应的所选文本数据;
接收一个或多个输入短语(506);
从所述所选文本数据和所述一个或多个输入短语(506)生成所选短语列表(502);以及
启动对与所述所选短语列表(502)对应的信息的搜索。
10.如权利要求6所述的方法,其特征在于:启动所述搜索包括将所述至少一个短语列表(504)传递到执行所述搜索的搜索引擎(332)。
CNA031332455A 2002-09-18 2003-07-18 由所扫描的图像媒体启动的信息搜索 Pending CN1495661A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/247,113 US7151864B2 (en) 2002-09-18 2002-09-18 Information research initiated from a scanned image media
US10/247113 2002-09-18

Publications (1)

Publication Number Publication Date
CN1495661A true CN1495661A (zh) 2004-05-12

Family

ID=31992433

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031332455A Pending CN1495661A (zh) 2002-09-18 2003-07-18 由所扫描的图像媒体启动的信息搜索

Country Status (6)

Country Link
US (1) US7151864B2 (zh)
EP (1) EP1540518A2 (zh)
JP (1) JP2005539328A (zh)
CN (1) CN1495661A (zh)
AU (1) AU2003275110A1 (zh)
WO (1) WO2004027651A2 (zh)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
JP4306998B2 (ja) * 2002-02-07 2009-08-05 キヤノン株式会社 通信装置及びその制御方法
US7298512B2 (en) * 2003-03-26 2007-11-20 Hewlett-Packard Development Company, L.P. Printing device with embedded database connector
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
JP3800227B2 (ja) * 2004-05-17 2006-07-26 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及びそれに用いる情報処理方法並びに情報処理プログラム
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US20070122062A1 (en) * 2005-11-30 2007-05-31 Adsnitch.Com Method and system for processing employment related images
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US8117223B2 (en) * 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US20090327272A1 (en) * 2008-06-30 2009-12-31 Rami Koivunen Method and System for Searching Multiple Data Types
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
KR102104651B1 (ko) * 2013-07-12 2020-04-24 삼성전자주식회사 파일 첨부 방법 및 그 전자 장치
US11295124B2 (en) * 2018-10-08 2022-04-05 Xerox Corporation Methods and systems for automatically detecting the source of the content of a scanned document

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2078423C (en) 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
EP0625757B1 (en) * 1993-05-07 2000-08-23 Canon Kabushiki Kaisha Selective document retrieval method and system
DE69523970T2 (de) 1994-04-15 2002-07-04 Canon K.K., Tokio/Tokyo Dokumentspeicher- und Wiederauffindungssystem
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
JP3689455B2 (ja) 1995-07-03 2005-08-31 キヤノン株式会社 情報処理方法及び装置
US5867597A (en) 1995-09-05 1999-02-02 Ricoh Corporation High-speed retrieval by example
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
US6182029B1 (en) * 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6278992B1 (en) 1997-03-19 2001-08-21 John Andrew Curtis Search engine using indexing method for storing and retrieving data
US6278996B1 (en) * 1997-03-31 2001-08-21 Brightware, Inc. System and method for message process and response
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6571240B1 (en) * 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US6704699B2 (en) * 2000-09-05 2004-03-09 Einat H. Nir Language acquisition aide

Also Published As

Publication number Publication date
WO2004027651A3 (en) 2004-09-23
AU2003275110A1 (en) 2004-04-08
EP1540518A2 (en) 2005-06-15
US20040052433A1 (en) 2004-03-18
WO2004027651A2 (en) 2004-04-01
US7151864B2 (en) 2006-12-19
JP2005539328A (ja) 2005-12-22

Similar Documents

Publication Publication Date Title
CN1495661A (zh) 由所扫描的图像媒体启动的信息搜索
EP1583348B1 (en) Check boxes for identifying and processing stored documents
US6631495B2 (en) Electronic document identification, filing, and retrieval system
EP1675376A1 (en) Document separator pages
JP4925677B2 (ja) 書類を処理する方法及び処理装置
US7315391B2 (en) Managing digital images
US8131081B2 (en) Image processing apparatus, and computer program product
US20040036914A1 (en) Interleaved document rendering
CN1951099A (zh) 文档路由方法及其软件
US7586654B2 (en) System and method of adding messages to a scanned image
CN1794104A (zh) 图像形成系统和装置、信息处理装置及含程序的记录介质
JPH0683879A (ja) 保存,取り扱いおよび取り込みのための文書ラベリング方法および装置
CN1855982A (zh) 处理联网系统中的数字文档
JP2017219924A (ja) 仲介サーバ
US7391527B2 (en) Method and system of using a multifunction printer to identify pages having a text string
US7313340B2 (en) Paper control of document processing
US7675641B2 (en) Method and device for converting scanned text to audio data via connection lines and lookup tables
US20040196471A1 (en) Image forming apparatus and image forming method for making image output setting easily
JP2007011683A (ja) 文書管理支援装置
JP4298287B2 (ja) データ処理装置およびデータ処理方法および制御プログラム
CN102833449B (zh) 一种基于多功能机的文档自动处理方法
CN1776603A (zh) 打印方法和装置
JP2010072850A (ja) 画像処理装置
JP2006293970A (ja) 画像処理装置、画像処理方法、画像処理プログラム
JP2006018509A (ja) 文書管理支援装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned