CN105740317A - 用于将非文本内容对象化以及用于文档发现的方法和系统 - Google Patents

用于将非文本内容对象化以及用于文档发现的方法和系统 Download PDF

Info

Publication number
CN105740317A
CN105740317A CN201511030093.3A CN201511030093A CN105740317A CN 105740317 A CN105740317 A CN 105740317A CN 201511030093 A CN201511030093 A CN 201511030093A CN 105740317 A CN105740317 A CN 105740317A
Authority
CN
China
Prior art keywords
document
metadata
file
label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511030093.3A
Other languages
English (en)
Other versions
CN105740317B (zh
Inventor
柯·史蒂文·泰居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/588,194 external-priority patent/US9798724B2/en
Priority claimed from US14/588,165 external-priority patent/US9864750B2/en
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of CN105740317A publication Critical patent/CN105740317A/zh
Application granted granted Critical
Publication of CN105740317B publication Critical patent/CN105740317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion

Abstract

公开了用于将非文本内容对象化以及用于文档发现的方法和系统。用于将非原生文件内的非文本内容对象化的方法包括通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中标签以原生文件格式来限定对象的一部分。该方法还包括:基于对象化对象来生成包括对象化对象的组成信息的元数据,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。

Description

用于将非文本内容对象化以及用于文档发现的方法和系统
技术领域
本申请涉及文档处理,特别地涉及对包括非文本内容的文档进行处理。
背景技术
原生(native)电子文件使得用户能够利用各种选项和功能容易地编辑文档。有时,原生文件(nativefile)被转换成不同的文件类型(即,转换成非原生文件(non-nativefile))。然而,文档的可编辑性在非原生格式下通常降低。为了说明,用户当使用原生文件时可能能够对文字处理文档中的表格的各个单元进行编辑。然而,如果用户正使用文件的非原生拷贝,则用户编辑表格的能力可能会受到限制。例如,用户可能不能对各个单元进行编辑,并且可能会被限制成简单地选择页面上的要放置整个表格的位置。
非原生文件的示例是物理文档(physicaldocument)。物理文档在家庭、办公室和其他环境中普遍存在。很多物理文档是来自电子文档的打印输出(printout),诸如来自计算装置的文字处理应用的打印输出。有时,用户可能会期望使用计算装置来编辑物理文档。要这样做,用户可能首先需要用扫描仪或多功能打印机扫描物理文档,使得栅格化图像可以由能够识别所扫描的文档上的对象的软件来分析和处理。例如,可以使用光学字符识别(OCR)软件来执行诸如文本识别和转换的常规操作。然而,非文本对象不能够被识别和编辑。如果图像中的文本并非格式良好,则文本也可能是不能够被识别和编辑的。在这两种情况下,对象通常被作为位图对象处理或者被从原始扫描转换成矢量格式,并且在其原生格式下不能够被识别。
电子文档管理对大小机构而言均是具有挑战性的任务。当用户不能够定位原始文档时,成千上万小时和数百万美元被浪费在搜索错放的电子文档和重新创建文档的努力中。在一些情况下,用户可能持有文档的物理或其他非原生拷贝,但是不能够定位原始电子文档,该原始电子文档可能被存储在网络驱动器或数据储存库(例如企业内容管理(ECM)储存库)上的某处。用户可以重新创建文档,但是甚至在高质量重建的情况下,重建的文档仍可能与原始电子文档不同。
用户可能试图通过从网络驱动器或数据储存库中搜索来自文档文本的字符串来查找电子文档。例如,用户可以扫描硬拷贝(hardcopy)并且使用光学字符识别(OCR)软件,使得能够进行比较以在网络驱动器或EC储存库中发现匹配。然而,简单文本搜索可能不总是足够的。例如,如果文档缺少文本或如果文本并非格式良好,则由于OCR软件不能够识别非文本对象而无法执行搜索。作为另一示例,如果文档仅包含很常用的词,则该搜索可能会返回太多结果。
发明内容
在一个方面中,根据实施例,一种用于将非原生文件内的包括对象的非文本内容对象化的方法可以包括:通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中,该标签以原生文件格式来限定对象的一部分;基于对象化对象来生成包括对象化对象的组成信息的元数据,其中,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。
在另一方面中,根据实施例,一种用于将非原生文件内的包括对象的非文本内容对象化的系统可以包括计算机处理器和对象化器,该对象化器在计算机处理器上执行并且被配置成:通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中,该标签以原生文件格式来限定对象的一部分;基于对象化对象来生成包括对象化对象的组成信息的元数据,其中,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。
一般地,在一个方面中,本发明涉及一种用于文档发现的方法,包括:接收包括非文本对象的文档的物理拷贝的扫描件;确定非文本对象的第一标签,其中,该第一标签限定原始文件中的非文本对象的一部分;基于第一标签来生成包括非文本对象的组成信息的非文本对象元数据;使用非文本对象元数据来搜索存储在数据储存库中的多个电子文档,其中,多个电子文档中的每一个包括对象以及与该对象相关联的能够被搜索的元数据;将非文本对象元数据与能够被搜索的元数据进行比较;以及当非文本对象元数据与能够被搜索的元数据匹配时,将原始文件的位置提供给用户。
一般地,在另一方面中,本发明涉及一种用于文档发现的系统,包括:数据储存库,该数据储存库存储多个电子文档,其中,多个电子文档中的每一个包括对象以及与该对象相关联的能够被搜索的元数据;计算机处理器;以及文档定位器,该文档定位器在计算机处理器上执行并且被配置成:接收包括非文本对象的文档的物理拷贝的扫描件;确定非文本对象的第一标签,其中,该第一标签限定原始文件中的该非文本对象的一部分;基于第一标签来生成包括非文本对象的组成信息的非文本对象元数据;使用非文本对象元数据来搜索存储在数据储存库中的多个电子文档;将非文本对象元数据与能够被搜索的元数据进行比较;以及当非文本对象元数据与能够被搜索的元数据匹配时,将原始文件的位置提供给用户。
根据下面的描述和所附权利要求,本发明的其他方面将是明显的。
附图说明
图1示出了根据本发明的第一实施例的系统的示意图。
图2示出了根据本发明的第一实施例的流程图。
图3示出了根据本发明的第一实施例的示例。
图4示出了根据本发明的第二实施例的系统的示意图。
图5示出了根据本发明的第二实施例的流程图。
图6示出了根据本发明的第二实施例的示例。
图7示出了根据本发明的一个或更多个实施例的计算系统。
具体实施方式
现在将参考附图详细地描述本发明的具体实施例。为了一致性,各个图中的相似元素由相似的附图标记来表示。
在本发明的实施例的下面的详细描述中,为了提供对本发明的更深入的理解,阐述了大量具体的细节。然而,对本领域的普通技术人员而言将明显的是,本发明可以在没有这些具体细节的情况下被实现。在其他实例中,没有详细描述公知特征以避免使描述不必要地复杂化。
(第一实施例)
一般地,本发明的第一实施例提供方法和系统,其用于进行对象化(限定对象),以在非原生文档对象的原生格式下识别这些非原生文档对象。例如,如果用户访问非原生文件(例如,电子文档的硬拷贝打印输出)而不是原生文件,则用户编辑或搜索文档的能力可能会受到限制。本发明的第一实施例使得用户能够以原生文件格式来创建能够被编辑和能够被深度搜索的新的电子文档。深度可搜索性使得操作系统和/或文档程序的已有和/或内置文本搜索功能能够使用对象(诸如图像、图表、表格、图形、图片等)的常用字符串描述来执行搜索。
根据第一实施例,获得具有对象的非原生文件。通过确定对象的标签并且创建具有该对象和该标签的对象化对象而将该对象对象化。可以基于对象化对象来生成元数据,并且生成具有对象化对象和元数据的新的原生文件。新的原生文件中的对象化对象能够以原生方式被编辑,并且元数据能够被搜索。
因此,本发明的第一实施例提供了文档工作流,该文档工作流以非原生文件(例如,电子文档的硬拷贝打印输出或可移植文档格式(PDF)文件,或者硬拷贝打印输出的扫描图像)开始,并且以具有经对象化的非文本内容的新的电子文件结束,其中,该经对象化的非文本内容具有与其相关联的深度搜索元数据。例如,根据第一实施例,用户可以扫描电子文档的硬拷贝版本,对所扫描的内容执行对象化,并且基于所识别的对象来创建可搜索的元数据。元数据可以是嵌入为可搜索的隐藏文本的字符串描述,该可搜索的隐藏文本与所识别的对象相关联并且放置在所识别的对象附近。因此,用户能够获得以下电子文档,该电子文档能够被改换意图(repurpose)并且/或者能够利用自然语言查询被深度搜索。在第一实施例中,“非文本内容”还可以涵盖风格化的文本、图形文本或不能由传统OCR软件识别的其他形式的文本。换言之,“非文本内容”可以是当将内容分类成文本或非文本时未被识别为文本内容的内容。
图1是示出了根据本发明的第一实施例的系统的示例的简化示意图。具体地,图1示出了系统(100),其包括计算装置(105)、原生文件(110)、内容(115)、对象(120)、标签(125)、非原生文件(130)、非原生内容(135)、非原生对象(140)、扫描仪(145)、对象化器(150)和服务器(155)。在第一实施例中,计算装置(105)可以是能够创建电子文件的任意类型的装置,诸如台式计算机、膝上型计算机、智能电话、平板电脑等。计算装置(105)可以包括很多不同部件,诸如处理器、存储器、输入装置等(未示出)。在第一实施例中,计算装置(105)可以执行用户能够利用以创建电子文档的各种程序/应用(未示出)。这些程序/应用可以是例如文字处理程序、幻灯片放映程序、电子表格应用、笔记记录应用等。
计算装置用户可以使用这些电子文档来对信息进行存储、分享、归档和搜索。这样的文档被临时或永久存储在文件中。存在多种不同的文件格式。每种文件格式限定文件的内容如何被编码。换言之,基于文件格式,可以读取和显示文件的内容。一些文件格式主要用于创建和/或编辑文档,而其他文件格式主要用于各种其他用途,例如与其他人分享文档。文件格式的示例包括例如OfficeOpenXML(OOXML)、PDF等。
有时,用户可以将一种文件格式的文档转换成另一文件格式,诸如将OOXML文档转换成PDF文档。此外,用户可以打印电子文档的物理拷贝。这样做时,原生文件格式的方面可能会丢失。通常这些方面对用户不可见,但是可能具有重要后果,诸如降低文件的编辑能力。然而,如将在下文详细讨论的,本发明的第一实施例能够减轻这样的后果。
继续参考图1,在第一实施例中,原生文件(110)是处于文档被创建的原始文件格式下的电子文档。原生文件(110)可以具有目前已知或以后开发的任何文件格式。原生文件(110)可以存储在计算装置(105)或任何其他合适的位置上。在第一实施例中,原生文件(110)可以被转换成另一类型的文件,诸如非原生文件(130)。原生文件(110)包括当用户使用被用于创建原生文件的程序来查看原生文件时所显示的、诸如内容(115)的数据。
在第一实施例中,内容(115)可以是在电子文档中发现的任意类型的内容,包括但不限于:文本、图片、表格、图表、图像、公式等。在第一实施例中,内容(115)包括一个或更多个对象(120)。对象(120)可以是文本、图形图像或可显示的内容(115)的任何其他部分。图形图像可以包括基于位图的图像和基于矢量的图形图像。例如,图形图像可以是风格化的文本(例如,艺术字)、图表、绘画图像、或其他图形。在下面的说明中,从进一步的说明中排除了内容被确定为文本对象的情况,这是因为对于这样的文本对象应用传统技术,诸如平庸化(banalization)技术、分词技术和OCR技术。
在第一实施例中,已被确定为非文本对象的对象(120)可以由一个或更多个隐藏标签(125)来界定。具体地,标签(125)可以指定一个或更多个对象的组成信息,包括格式化和类型信息。组成信息的至少部分可以是能够由原生应用针对原生文件进行搜索的文本数据。格式化描述了对象如何被显示。格式化描述了对象如何被显示。格式化可以包括颜色、尺寸、阴影、图像文件名(例如,小狗.jpg)以及其他这样的信息。类型指的是对象是什么。例如,类型可以是图表、艺术字、图像、表格、剪贴画(clipart)、项目符号列表的特定种类以及其他这样的类型。
继续参考标签(125),例如,可以通过用于指定饼形图的隐藏的开始标签和隐藏的结束标签来将饼形图对象(即,与饼形图对应的对象)相对于文件的其余部分进行界定。在饼形图对象内部,可以是用于限定饼形图中的每个部分(slice)的尺寸和该部分的颜色的标签。可以通过用于指定条形图的隐藏的开始标签和隐藏的结束标签来将条形图对象相对于原始文件的其余部分进行界定。可以由用于指定文本的字体大小、字体名称、字体颜色和其他属性的标签来界定文本。对享有本公开内容的权益的本领域的技术人员而言将明显的是:存在很多可能的标签,并且因此本发明不应限于上述示例。
在第一实施例中,非原生文件(130)是原生文件(110)的拷贝,该拷贝的文件格式与原生文件(110)不同。非原生文件(130)可以具有任何文件格式类型。例如,在第一实施例中,非原生文件(130)是原生文件(110)的打印输出或物理拷贝或者打印输出的扫描图像。在第一实施例中,非原生文件(130)可以看起来与原生文件(110)相同或几乎相同。然而,当原生文件(110)被打印或者转换成非原生文件(130)时,一些数据可能丢失,诸如标签(125)。非原生文件(130)和原生文件(110)在图1中由虚线连接,表示它们是“相同的”文件。
在第一实施例中,非原生内容(135)是内容(115)的非原生拷贝。如同内容(115)一样,非原生内容(135)可以是任意类型的内容,包括但不限于:图片、表格、图表、图像等。在第一实施例中,非原生内容(135)包括一个或更多个非原生对象(140)。非原生对象(140)是对象(120)的非原生拷贝。重要地,由于标签在转换处理和/或打印中丢失,所以非原生对象(140)没有与任何标签相关联。
在第一实施例中,扫描仪(145)是扫描仪或具有扫描功能的其他装置,诸如多功能打印机(MFP)。扫描仪(145)可以具有很多不同部件,包括但不限于:处理器、存储器、显示器、输入等。扫描仪(145)可以包括通常与扫描仪和/或MFP相关联的任何功能,诸如:光学扫描文档并且将文档转换成数字图像、执行光学字符识别(OCR)、使图像栅格化等。扫描仪(145)可以产生很多不同的文件类型和/或分辨率的文档。扫描仪(145)可以使用有线和/或无线连接来以通信方式连接至服务器(155)。可选地,扫描仪(145)还可以连接至其他装置,诸如个人计算机、平板电脑、智能电话等。
在第一实施例中,扫描仪(145)包括执行对象化器(150)的功能。对象化器(150)是用于使非原生文件内的对象对象化的程序或模块。如图1所示,对象化器(150)可以在扫描仪(145)上以及/或者在服务器(155)上执行。具体地,对象化器(150)包括以下功能:确定对象的标签、创建对象化对象、生成元数据以及生成新的原生文件。
在第一实施例中,对象化器(150)包括以任何合适的方式确定对象的标签的功能。对象可以由扫描仪、服务器或其他计算装置提供至对象化器(150),或者可以由对象化器(150)以目前已知或以后开发的任何方式来检测。当对象被识别时,对象化器(150)对对象进行分析,以确定当对象是原生文件的一部分时什么标签与对象最初相关联或者可能与对象最初相关联。在第一实施例中,对象化器(150)可以将各种各样的模板与对象进行比较。每个模板可以表示一个或更多个标签。如果存在匹配或近似匹配,则与该模板相关联的标签可以用来使对象对象化。在第一实施例中,对象化器(150)可以对什么标签应当与对象相关联作出最佳猜测。可替选地,对象化器(150)可以使用任何其他合适的方法来确定什么标签应当与对象相关联。
在第一实施例中,对象化器(150)包括创建对象化对象的功能。对象化对象与原生文件中的原始对象类似或相同。可以通过在适当的位置处将标签插入到电子文件中来创建对象化对象。可替选地,可以使用目前已知或以后开发的任何其他对象识别或模式匹配方法来创建对象化对象。
在第一实施例中,对象化器(150)包括创建对象化对象的元数据的功能。对象化对象的元数据可以描述对象在原生文件类型下如何被组成,诸如对象的类型及对象的格式化、对象的位置、以及/或者对象的任何其他方面和/或描述。例如,每个对象的位置可以由对象所位于的页面的页码以及页面上的x坐标和y坐标来指定。在第一实施例中,元数据没有被用于渲染对象以供显示。换言之,元数据可以专门用于信息目的,诸如用于搜索。在第一实施例中,元数据对用户部分或完全隐藏。
在第一实施例中,对象化器(150)包括用于生成新的原生文件的功能。新的原生文件可以以目前已知或以后开发的任何方式被生成。具体地,新的原生文件将包括对象化对象。新的原生文件可以包括当原生文件被转换成非原生文件时所丢失的原始原生文件的多个或所有方面(诸如标签)。在第一实施例中,一些其他部件可以生成新的原生文件,这些其他部件诸如在服务器(155)或扫描仪(145)上执行的其他软件。因此,用户能够编辑文档中的非文本内容,而无需使用生成了原始原生文件的程序(例如,MicrosoftOffice程序)来重新创建非文本内容。
在第一实施例中,服务器(155)是能够执行对象化器(150)的服务器、机架(rack)、台式计算机、膝上型计算机或其他计算装置。服务器(155)可以以多种不同的方式被配置,并且本发明不应限于图1所示的设置。
图2示出了根据本发明的第一实施例的流程图。虽然该流程图中的各种步骤被依次呈现和描述,但是本领域的技术人员将理解,一些或全部步骤可以以不同顺序来执行并且一些或全部步骤可以并行执行。另外,在本发明的第一实施例中,可以省略、重复以及/或者以不同顺序执行下面描述的一个或更多个步骤。另外,在不偏离本发明的范围的情况下,还可以执行未示出的另外的步骤。因此,图2所示的步骤的具体布置不应当被理解为对本发明的范围构成限制。
在步骤200中,获得具有对象的非原生文件。在第一实施例中,非原生文件是电子文档的打印输出或物理拷贝。具体地,持有物理拷贝的用户可能不可以访问文档的原生电子原件/拷贝,但是想要在他的或她的计算机上编辑文档而无需手动地重新创建电子文档。因此,在第一实施例中,可以从扫描仪获得非原生文件。可替选地,非原生文件可以是文件格式不同于原生文件的电子文件。在第一实施例中,可以从存储器、数据储存库或者任何其他合适的来源来获得非原生文件。
在第一实施例中,用户可以提供关于所猜想的原生文件类型的输入。例如,如果用户相信最初用“文字处理程序A”创建了物理文档,则用户可以提供该信息作为额外输入。该额外输入可以用来帮助在步骤205中确定什么标签应当与对象相关联,或者什么类型的文件应当被创建。
在步骤205中,为对象确定标签。标签限定对象的至少一部分,并且可以以任意合适的方式被确定。在第一实施例中,可以将模板与对象进行比较以确定对象是否与任何已知的带有标签的对象类似。可替选地,可以基于从用户输入的最佳猜测算法或者任何其他合适的方法来确定标签。
在步骤210中,创建对象化对象(例如,OOXML对象)。对象化对象包括对象以及对象的一个或更多个标签。换言之,对象化对象是如在原生文件中那样部分或全部重新创建的对象。对象化对象将使得用户能够利用比“纯(plain)”对象更多的功能来编辑对象化对象。例如,在不利用本发明的情况下,如果对象是圆,则当对象被扫描时,该圆可以被存储为栅格化图像并且将仅允许用户访问基本的编辑功能,诸如选择页面上的位置或者简单调整尺寸。利用经对象化的圆,用户能够编辑圆的颜色、调整线的粗细、添加模式等。
在步骤215中,生成元数据。可以用已知搜索算法来分析所有经对象化的内容,以在对象附近添加元数据。可以以目前已知或以后开发的任何方式来生成元数据。元数据可以基于对象化对象。在第一实施例中,元数据可以描述对象的方面,诸如对象类型、尺寸、颜色、位置、形状等。
在步骤220中,生成具有元数据和对象化对象的新的原生文件。可以以目前已知或以后开发的任何方式生成新的原生文件。新的原生文件是使用非原生文件生成、并且用标签和元数据增强的新的电子文档,其中,元数据是针对对象化对象而确定的,或者是使用对象化对象而确定的。有利地,由于对象化对象以及附加至其的元数据,新的原生文件允许用户访问多得多的功能,诸如深度搜索以及对象化对象的增强的可编辑性。
在步骤225中,编辑并且/或者搜索新的原生文件。如虚线所示,步骤225为可选的,并且可以在任何时间使用任何计算装置来执行。编辑和/或搜索可以以目前已知或以后开发的任何方式来执行。
图3示出了根据本发明的第一实施例的示例。该示例仅出于解释性的目的而并不意在限制本发明的范围。具体地,图3示出了将纸质文件(300)转换成具有深度可搜索性和提升的编辑能力的电子文档的处理。开始,用户持有纸质文件(300)。纸质文件(300)是在纸的中央印有大的黑色三角形的一张纸。用户希望在她的计算机上编辑纸质文件(300),但是不想花费时间来手动地重新创建文件。虽然用户知道纸质文件(300)最初使用计算机被创建为电子文档,但是用户不知道电子拷贝在哪里。
因此,用户将纸质文件(300)放在扫描仪(305)中,扫描文件,并且创建新的原生文件(310)。在纸质文件(300)被扫描后,扫描仪(305)检测出存在对象:黑色三角形。扫描仪(305)通过针对所选择的原生文件格式确定什么标签应当与黑色三角形相关联来使黑色三角形对象化。标签能够在新的原生文件格式视图(315)中看到。具体地,扫描仪(305)确定标签<三角形:黑色>应当与黑色三角形相关联。因此,虽然该标签对用户不可见,但是标签<三角形:黑色>将被包括在新的原生文件(310)中。该标签将使得用户能够利用与当黑色三角形在原生文件(用户不能访问该原生文件)中最初创建时所呈现的一样多的特征和功能来编辑新的原生文件(310)中的黑色三角形。
此外,扫描仪(305)使用经对象化的内容来生成关于对象的元数据。具体地,该示例中的元数据将对象描述为:三角形,黑色,等边。然而,可以任意限定这些关键字并且能够改变或增强这些关键字以更好地捕捉到用户可能搜索什么以查找到特定类型的对象。可以在美国专利申请公开2014/0258258中找到关于这样的关键字如何被限定以及与所识别的对象相关联的另外的细节,该美国专利申请公开的全部内容通过引用被合并至本文中。该元数据被嵌入在新的原生文件(310)中并且对用户不可见。然而,用户然后可以使用元数据中的术语来搜索新的原生文件(310)(通常,不可见的文本能够经由标准应用/OS(操作系统)搜索工具而发现)。因此,如果用户不知道她将新的原生文件(310)保存在了哪里,则她可以在她的计算机中的所有文档中搜索术语“等边黑色三角形”,并且新的原生文件(310)将出现在搜索结果中,并且很可能是具有搜索术语的该唯一集合的最高“搜索命中”。
(第二实施例)
一般地,本发明的第二实施例提供了用于文档发现的方法和系统。更具体地,本发明的第二实施例使得用户能够使用文档的拷贝例如通过下述方式来发现或定位原始电子文档:为非原生拷贝(诸如电子文档的扫描的硬拷贝)中的非文本对象创建可搜索的元数据。根据第二实施例,例如,用户能够将可搜索的元数据用作基于文本的查询的一部分,以在电子文档与来源于电子文档的硬拷贝之间进行术语的比较。这提高了用户定位原始电子文档以供随后的编辑、修改、打印、归档等的机会。贯穿该详细描述,可以以能互换的方式使用术语物理拷贝、硬拷贝、纸质拷贝、打印输出和物理文件。
在第二实施例中,接收包括非文本对象的文档的物理拷贝的扫描件。为非文本对象确定一个或更多个标签,并且基于标签生成元数据。随后,非文本对象元数据被用来对存储电子文档的数据储存库进行搜索以定位原始文档。可选地,除了元数据之外,现有的文本字符串可以用于搜索,诸如电子文档的题目、标题或其他内容。如果找到,则将原始文档的位置提供给用户。
图4示出了系统(400),其包括数据储存库(405)、电子文档(410)、对象(415)、标签(420)、元数据(425)、物理拷贝(430)、非文本对象(435)、扫描仪(440)、文档定位器(445)和计算装置(450)。在第二实施例中,数据储存库(405)是位于一个或更多个装置上的存储器、硬盘驱动器、数据库、网络驱动器和/或一个或更多个存储装置。数据储存库(405)可以是企业内容管理(ECM)系统中的部件。数据储存库(405)可以具有任意尺寸,并且可以能够由任意数目的用户访问。在第二实施例中,数据储存库(405)可以具有各种不同等级的用户许可,意味着一些用户可以完全访问存储在数据储存库上的所有文件,而其他用户可以访问有限子集的文件。数据储存库(405)存储电子文档(410)。
在第二实施例中,电子文档(410)是存储在数据储存库(405)上的电子文件。计算装置用户使用电子文档(410)来对信息进行存储、分享、归档和搜索。这种文档被临时或永久存储在文件中。存在多种不同的文件格式。每种文件格式限定文件的内容如何被编码。换言之,基于文件格式,可以读取和显示文件的内容。一些文件格式主要用于创建和/或编辑文档,而其他文件格式主要用于各种其他用途,例如与其他人分享文档。文件格式的示例包括例如OfficeOpenXML(OOXML)、PDF等。
有时,用户可能将一种文件格式的文档转换成另一文件格式,诸如将OOXML文档转换成PDF文档。此外,用户可以打印电子文档的物理拷贝。这样做时,原生文件格式的方面可能会丢失。通常这些方面对用户不可见,但是可能具有重要后果,诸如降低文件的编辑能力或者以其他形式改变文件的内容。电子文档(410)包括对象(415)、标签(420)和元数据(425)。电子文档(410)可以由任何合适的程序(诸如文字处理程序、笔记记录程序、电子表格程序、幻灯片放映程序等)来创建。
在第二实施例中,对象(415)是文本、图形图像或任何其他类型的可显示的内容。图形图像可以包括基于位图的图像和基于矢量的图形图像。例如,图形图像可以是风格化的文本(例如,艺术字)、图表、绘画图像、或其他图形。
在第二实施例中,对象(415)可以由一个或更多个隐藏标签(420)来界定。具体地,标签(420)可以指定一个或更多个对象的组成信息,包括格式化和类型信息。格式化描述了对象如何被显示。格式化可以包括颜色、尺寸、阴影、图像文件名(例如,小狗.jpg)以及其他这种信息。类型指的是对象是什么。例如,类型可以是图表、艺术字、文本、图像、表格、剪贴画、项目符号列表的特定种类以及其他这样的类型。
继续参考标签(420),例如,可以通过用于指定饼形图的隐藏的开始标签和隐藏的结束标签来将饼形图对象(即,与饼形图对应的对象)相对于文件的其余部分进行界定。在饼形图对象内部,可以是用于限定饼形图中的每个部分(slice)的尺寸和该部分的颜色的标签。可以通过用于指定条形图的隐藏的开始标签和隐藏的结束标签来将条形图对象相对于原始文件的其余部分进行界定。可以由用于指定文本的字体大小、字体名称、字体颜色和其他属性的标签来界定文本。对享有本公开内容的权益的本领域的技术人员而言将明显的是:存在很多可能的标签,并且因此本发明不应限于上述示例。
在第二实施例中,元数据(425)是存储在电子文档中的关于电子文档内的对象的数据。元数据(425)可以处于可搜索的文本形式。对象的元数据(425)可以描述对象在文件类型下如何被组成,诸如对象的类型及对象的格式化、对象的位置、以及/或者对象的任何其他方面和/或描述。例如,每个对象的位置可以由对象所位于的页面的页码以及页面上的x坐标和y坐标来指定。在第二实施例中,元数据(425)没有用于渲染对象以供显示。换言之,元数据可以专门用于信息目的,诸如用于搜索。例如,可以使用目前已知或以后开发的任何基于文本的搜索工具、程序和/或方法来进行该搜索。可替选地,可以使用专有方法或应用来进行该搜索。在第二实施例中,元数据对用户部分或完全隐藏(例如,不可见文本等)。在第二实施例中,元数据(425)是任意的,并且可以基于由软件开发者、用户、软件发行者、或任何其他合适的实体创建的规则来限定。例如,蓝色正方形的元数据可以由软件开发者限定成为“蓝色,正方形”。用户可以通过例如添加术语“公司标志”来可选地修改什么元数据与蓝色正方形相关联。
在第二实施例中,物理拷贝(430)是电子文档的纸质拷贝。物理拷贝(430)可以以目前已知或以后开发的任何方式来打印输出,并且可以与对应的电子文档显示在计算装置上的方式尽可能接近地被打印。可替选地,物理拷贝(430)可以与电子文档显示在计算装置上的方式有实质的差异。例如,可能不能打印所使用的文本字体,或者可能必须调整页边距。物理拷贝(430)可以包括原始电子文档的任何内容,并且在第二实施例中包括非文本对象(435)。
在第二实施例中,非文本对象(435)是打印在物理拷贝(430)的页面上的非文本对象。非文本对象(435)可以具有如上面关于对象(415)所讨论的任何类型。例如,非文本对象(435)可以是红色的圆、蓝色三角形、图片等。虽然非文本对象(435)可以包括文本(诸如在表格的列中)作为成分,但是非文本对象(435)不是简单的纯文本,而是存在额外的格式化或者其他方面。
在第二实施例中,扫描仪(440)是扫描仪或具有扫描功能的其他装置,诸如多功能打印机(MFP)。扫描仪(440)可以具有很多不同部件,包括但不限于:处理器、存储器、显示器、输入等。扫描仪(440)可以包括通常与扫描仪和/或MFP相关联的任何功能,诸如:光学扫描文档并且将文档转换成数字图像、执行光学字符识别(OCR)、使图像栅格化等。扫描仪(440)可以产生很多不同的文件类型和/或分辨率的文档。扫描仪(440)可以使用有线和/或无线连接(诸如因特网)以通信方式连接至数据储存库(405)和/或计算装置(450)。
在第二实施例中,扫描仪(440)包括执行文档定位器(445)的功能。文档定位器(445)是用于定位文档的程序或模块。如图4所示,文档定位器(445)可以在扫描仪(440)、计算装置(450)和/或任何其他合适的装置上执行。具体地,文档定位器(445)包括以下功能:接收文档的物理拷贝的扫描件、确定对象的标签、生成元数据、确定许可、定位电子文档以及将电子文档提供给用户。
在第二实施例中,文档定位器(445)包括接收目前已知或以后开发的任何格式以及任何分辨率的文档的物理拷贝的扫描件的功能。文档定位器(445)可以接收扫描仪自身上的或者单独的计算装置上的扫描件。当该扫描件被接收时,文档定位器(445)包括确定对象的标签的功能。对象可以由扫描仪或其他计算装置在扫描的文档中识别出,或者可以由文档定位器(445)以目前已知或以后开发的任何方式识别出。当对象被识别时,文档定位器(445)对对象进行分析,以确定当对象是电子文件时什么标签与对象最初相关联或者可能与对象最初相关联。在第二实施例中,文档定位器(445)可以将各种各样的模板与对象进行比较。每个模板可以表示一个或更多个标签。如果存在匹配或近似匹配,则与该模板相关联的标签可以用来将对象对象化。在第二实施例中,文档定位器(445)可以对什么标签应当与对象相关联做出最佳猜测。可替选地,文档定位器(445)可以使用任何其他合适的方法来确定什么标签应当与对象相关联。
在第二实施例中,文档定位器(445)包括生成元数据的功能。元数据可以以目前已知或以后开发的任何方式来生成。具体地,元数据基于文档定位器(445)所确定的应当与对象相关联的标签,并且元数据描述对象的各种方面,诸如尺寸、形状、颜色、模式、位置等。在第二实施例中,元数据是文本形式,使得现有搜索功能可以被用来快速定位文档的电子拷贝。
在第二实施例中,文档定位器(445)包括定位电子文档的功能。电子文档可以以目前已知或以后开发的任何方式来定位。例如,基于文本的搜索被用来定位电子文档。搜索中使用的文本是关于对象的元数据的部分或全部。可选地,搜索中使用的文本也可以包括电子文档内存在的标准文本。假设正被搜索的电子文档已被预处理成包括关于对象的元数据,则甚至当文档中存在极少真实文本甚至没有真实文本时,该基于文本的搜索也能够返回可以与给定的物理拷贝匹配的电子文档的子集。换言之,通过将元数据用作搜索术语,文档定位器(445)能够基于位于电子文档内的对象(诸如页面3的中间的蓝、绿和红饼形图)、而非可能频繁出现在很多不同的文档中的文本来有效地定位电子文档。
在第二实施例中,文档定位器(445)包括确定许可的功能。许可可以控制谁可以查看、修改和/或访问电子文档。如果用户持有文档的纸质拷贝,这不一定意味着用户被授权访问文件的电子版本。因此,在文档定位器(445)通知用户文档的电子拷贝位于哪里之前,文档定位器(445)可以确定用户的许可以确保这些用户被授权访问文件。在第二实施例中,文档定位器(445)可以要求用户登录、提供密码、或者以其他方式表明他们是谁,使得可以确定他们的许可。可替选地,文档定位器(445)可以以任何其他合适的方式来确定并且检查许可。
在第二实施例中,文档定位器(445)包括将所定位的电子文档提供给用户的功能。可以以各种方式将所定位的电子文档提供给用户。在第二实施例中,可以将所定位的电子文档通过电子邮件发送至用户。可替选地,文件名和/或位置可以被显示在扫描仪上、被打印输出、或者通过电子邮件被发送至用户。对享有本公开内容的权益的本领域的技术人员而言将明显的是:存在多种方法来将所定位的文档提供给用户,并且因此本发明不应限于上述示例。
在第二实施例中,计算装置(405)可以是能够创建电子文件的任何类型的装置,诸如台式计算机、膝上型计算机、智能电话、平板电脑等。计算装置(405)可以包括很多不同部件,诸如处理器、存储器、输入等(未示出)。在第二实施例中,计算装置(405)可以执行用户能够利用以创建电子文档的各种程序/应用(未示出)。这些程序/应用可以是例如文字处理程序、幻灯片放映程序、电子表格应用、笔记记录应用等。在第二实施例中,计算装置(450)可以存储、修改或以其他方式访问存储在数据储存库(405)上的电子文档。此外,如上面所讨论的,计算装置(450)可以执行文档定位器(445)。
图5示出了根据本发明的第二实施例的流程图。虽然该流程图中的各种步骤被依次呈现和描述,但是本领域的技术人员将理解,一些或全部步骤可以以不同顺序来执行并且一些或全部步骤可以并行执行。另外,在本发明的第二实施例中,可以省略、重复以及/或者以不同顺序执行下面描述的一个或更多个步骤。另外,在不偏离本发明的范围的情况下,还可以执行未示出的另外的步骤。因此,图5所示的步骤的具体布置不应当被理解为对本发明的范围构成限制。
在步骤500中,将数据储存库中的电子文档处理成包括关于电子文档内的对象的元数据。如虚线所示,可以在任何合适的时间处理电子文档,诸如当电子文档被保存至数据储存库中时、按照预定时间表(一周这样处理新的文档一次)、或者在任何其他合适的时间处理电子文档。可以处理电子文档,以生成关于电子文档内的对象的元数据并且将该元数据保存至电子文档中。通过这种方式,可以使用关于对象的元数据对物理文档的电子拷贝进行搜索。
具体地,可以如步骤510和步骤515中所描述的那样来处理电子文档。即,为电子文档内的所有对象确定标签,并且基于对象和标签生成元数据。然后,将所生成的元数据保存至电子文档中。元数据可以被保存例如作为不可见文本层,或者元数据可以以任何其他合适的方式被保存。通过以文本形式保存元数据,无论元数据对用户可见还是不可见,都能够使用已有的基于文本的搜索来搜索元数据。可替选地,在第二实施例中,对象的标签可能已存在于电子文档内(即,文档为原生格式)。于是,可以使用已有标签生成元数据并且将元数据保存至电子文档中。
在步骤505中,接收具有对象的文档的物理拷贝的扫描件。可以以目前已知或以后开发的任何格式以及任何分辨率和/或尺寸来接收该扫描件。可以由在扫描仪自身上或者在某个其他计算装置上执行的程序或应用来接收该扫描件。
在步骤510中,为对象确定标签。标签限定对象的至少一部分,并且可以以任意合适的方式被确定。在第二实施例中,可以将模板与对象进行比较,以确定对象是否与任何已知的带有标签的对象类似。可替选地,可以基于从用户输入的最佳猜测算法或者任何其他合适的方法来确定标签。
在步骤515中,基于对象和标签来生成元数据。元数据包括对象的组成信息,并且可以以目前已知或以后开发的任何方式来生成。元数据可以基于对象和标签。在第二实施例中,元数据可以描述对象的方面,诸如对象类型、尺寸、颜色、位置、形状等。
在步骤520中,使用元数据搜索数据储存库。具体地,使用基于文本的搜索,其中,搜索术语是元数据中的一些元数据或全部元数据。此外,基于文本的搜索也可以包括来自文档的一些文本内容,诸如根据OCR或其他方法所识别的文本。因此,将物理拷贝的元数据与数据储存库内的电子文档的元数据进行比较,使得甚至当文档中存在极少文本甚至没有文本时,电子文档也能够被定位。可以以目前已知或以后开发的任何方式来执行基于文本的搜索。在第二实施例中,可以搜索数据储存库内的每个文档。可替选地,可以搜索电子文档的某个子集,诸如允许用户访问的电子文档的子集(参见步骤525)。
在步骤525中,确定用户是否具有访问电子文档的许可。可选地,在第二实施例中,可以在步骤520之前或者与步骤520同时执行步骤525。用户的许可可以指定用户被允许查看、编辑或以其他方式访问什么电子文档。可以通过例如以下方式来确定用户的许可:使用户输入他们的用户名、密码或者某种其他类型的身份证明,并且然后检查用户是否具有访问电子文档和/或数据储存库的一部分的许可。如果用户没有访问电子文档的许可,则该方法结束。可替选地,在第二实施例中,如果用户没有访问电子文档的许可,则可以基于设置和/或许可将关于文档的一些信息提供给用户。例如,可以将是否存在匹配或者是否存在多个匹配通知给用户。此外,可以提供所需授权许可等级(levelofclearance)或者任何其他合适的信息。如果用户的确具有访问电子文档的许可,则该方法进行至步骤530。
在步骤530中,将所定位的电子文档提供给用户。可以以任意合适的方式将所定位的电子文档提供给用户。具体地,可以在链接(诸如超链接)中提供电子文档的位置,或者通过经由扫描仪上的显示、音频消息、电子邮件、打印输出等用名称提供电子文档的位置。可替选地,可以将电子文档的拷贝通过电子邮件发送至用户。对享有本公开内容的权益的本领域的技术人员而言将明显的是:存在多种方法来将所定位的电子文档提供给用户,并且因此本发明不应限于上述示例。
图6示出了根据本发明的第二实施例的示例。下述示例仅出于解释性的目的并且并不意在限制本发明的范围。具体地,图6示出了文档发现的示例。在图6中,用户持有作为电子文档的打印输出的物理拷贝(600)。物理拷贝(600)包括文档的左下角中的小的黑色的圆。当用户决定他或她想要定位文档的电子拷贝时,用户将物理拷贝(600)放置在扫描仪(605)上并且扫描该文档。用户可以简单地点击扫描仪上的按钮(诸如“定位原件”),以指示扫描仪查找物理拷贝(600)的电子拷贝。
然后,扫描仪(605)处理物理拷贝(600),并且识别出在物理拷贝(600)中存在对象——小的黑色的圆。扫描仪(605)确定小的黑色的圆的标签。在确定小的黑色的圆的标签之后,生成基于对象和标签的元数据(610)。具体地,元数据(610)描述对象。元数据(610)被示出为其可以出现在电子文件中并且可以对用户不可见。该示例中生成的元数据是:“圆,黑色,小,左下”。该示例中生成的元数据和标签可以基于由任何合适的实体设置的规则,并且甚至可以随时间修订,使得相同的对象当在对用于生成元数据的规则做出了改变后的日期被处理时可以具有不同的标签。随后,使用所生成的元数据来执行搜索(615)。搜索(615)示出了所用的搜索术语是“小的黑色的圆,左下”。在数据储存库(620)中或者在数据储存库(620)上执行搜索(615),该数据储存库(620)包括大量电子文档(625)。如果电子文档(625)包括物理拷贝(600)的拷贝,则响应于搜索将返回文档的位置或文档本身。搜索(615)的结果(630)是:“您的物理文档的电子拷贝位于网络驱动器Y处,在文件夹‘陈述’(Presentation)中,并且命名为‘销售陈述2012’。”然后,用户能够导航至她的计算机上的网络驱动器Y,并且访问电子文档以用于编辑或其他用途。
可选地,图6中的用户在她点击“定位原件”按钮时可能被要求登录或将密码提供至扫描仪(605)。该登录和/或密码被用来确定用户是否被允许访问电子拷贝,并且如果她没有被允许访问电子拷贝,则即使电子拷贝被定位,搜索也不会返回结果。
本领域的普通技术人员将理解,本发明不限于非原生硬拷贝上的实现。本发明的第二实施例还能够在非原生电子文档上实现。例如,考虑下述用户:该用户具有最初以不同的格式创建的文档的PDF拷贝。PDF拷贝缺少原生文档的标签,这阻止用户容易地编辑文档,并且用户可能想要找到原始文档以对文档作一些改变。可以以与硬拷贝的扫描件类似的方式来分析PDF拷贝:识别任何对象的标签并且生成元数据。然后,元数据和可选的其他标准文本可以用作对电子文档的数据库的基于文本的搜索的搜索术语。如果找到匹配,则可以以任意合适的方式显示并且/或者向用户提供位置。
本领域的普通技术人员还将理解,本发明不限于上述示例。作为另一示例,考虑以下原生电子文件,其没有带有标签的对象并且将受益于添加标签和/或元数据。一些文件类型缺少标签,诸如JPEG和很多其他文件类型。因此,如果原生文件简单地为JPEG图像,并且随后被打印,则用户能够通过对JPEG执行上述步骤来定位原始JPEG文件。在该示例中,尽管原始文档是图像,但是用户仍可以将JPEG的打印输出放在扫描仪上,并且使用利用元数据术语的、基于文本的搜索来成功定位原始电子JPEG文档。
本发明的实施例可以不管正被使用的平台如何而在几乎任何类型的计算系统上被实现。例如,计算系统可以是一个或更多个移动装置(例如,膝上型计算机、智能电话、个人数字助理、平板电脑或其他移动装置)、台式计算机、服务器、服务器机箱中的叶片、或者任何其他类型的计算装置,该计算装置至少包括用于执行本发明的一个或更多个实施例的最小处理能力、存储器、以及输入和输出装置。例如,如图7所示,计算系统(700)可以包括一个或更多个计算机处理器(702)、相关联的存储器(704)(例如,随机存取存储器(RAM)、高速缓冲存储器、闪存等)、一个或更多个存储装置(706)(例如,硬盘、诸如光盘(CD)驱动器或数字通用盘(DVD)驱动器的光驱、闪存棒等)、以及众多其他元件和功能。计算机处理器(702)可以是用于处理指令的集成电路。例如,计算机处理器可以是处理器的一个或更多个内核或微内核。计算系统(700)还可以包括一个或更多个输入装置(710),诸如触摸屏、键盘、鼠标、麦克风、触摸板、电子笔或者任何其他类型的输入装置。另外,计算系统(700)可以包括一个或更多个输出装置(708),诸如屏幕(例如,液晶显示器(LCD)、等离子体显示器、触摸屏、阴极射线管(CRT)监视器、投影仪或其他显示装置)、打印机、外部存储器或任何其他输出装置。一个或更多个输出装置可以与输入装置相同或不同。计算系统(700)可以经由网络接口连接(未示出)连接至网络(712)(例如,局域网(LAN)、如因特网的广域网(WAN)、移动网络或者任何其他类型的网络)。输入装置和输出装置可以本地或远程地(例如,经由网络(712))连接至计算机处理器(702)、存储器(704)和存储装置(706)。存在很多不同类型的计算系统,并且前面提及的输入装置和输出装置可以采取其他形式。
可以在非暂态计算机可读介质(诸如CD、DVD、存储装置、软磁盘、磁带、闪存、物理存储器或者任何其他计算机可读存储介质)上临时或永久地、整体或部分地存储用于执行本发明的实施例的计算机可读程序代码的形式的软件指令。具体地,软件指令可以与当由处理器执行时被配置成执行本发明的实施例的计算机可读程序代码对应。
另外,前面提及的计算系统(700)的一个或更多个元件可以位于远程位置处并且通过网络(712)连接至其他元件。另外,本发明的实施例可以在具有多个节点的分布式系统上执行,其中,本发明的每个部分可以位于分布式系统内的不同节点上。在本发明的一个实施例中,节点与不同的计算装置对应。可替选地,节点可以与具有相关联的物理存储器的计算机处理器对应。可替选地,节点可以与具有共享存储器和/或资源的计算机处理器或计算机处理器的微内核对应。
虽然参考有限数量的实施例描述了本发明,但是享有本公开内容的权益的本领域的普通技术人员将理解,能够设计出不偏离本文中公开的本发明的范围的其他实施例。因此,本发明的范围应当仅由所附权利要求来限制。

Claims (30)

1.一种用于将非原生文件内的非文本内容对象化的方法,所述非文本内容包括对象,所述方法包括:
通过以下方式将所述非文本内容的对象对象化:
确定所述对象的标签,其中,所述标签以原生文件格式来限定所述对象的一部分;以及
创建包括所述对象和所述标签的对象化对象;
基于所述对象化对象来生成包括所述对象化对象的组成信息的元数据,其中,所述组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及
生成包括附有所述元数据的所述对象化对象的新的原生文件。
2.根据权利要求1所述的方法,其中,所述非原生文件是物理文档,并且所述原生文件是OOXML文件。
3.根据权利要求1所述的方法,其中,所述对象化对象能够以原生方式被编辑,并且其中,所述元数据能够被搜索。
4.根据权利要求1所述的方法,其中,所述对象是图形对象,并且其中,所述元数据描述所述对象的图形类型以及所述对象在所述非原生文件中的页面上的位置。
5.根据权利要求1所述的方法,还包括:
从用户接收所述新的原生文件的文件格式,其中,确定所述标签部分地基于该文件格式。
6.根据权利要求1所述的方法,其中,确定所述标签还包括:
将所述对象与多个模板进行比较,所述多个模板中的每个模板与来自所述原生文件的文件格式的原生标签相对应。
7.根据权利要求1所述的方法,其中,从扫描仪获得所述非原生文件。
8.一种用于将非原生文件内的非文本内容对象化的系统,所述非文本内容包括对象,所述系统包括:
计算机处理器;以及
对象化器,所述对象化器在所述计算机处理器上执行并且被配置成:
通过以下方式将所述非文本内容的对象对象化:
确定所述对象的标签,其中,所述标签以原生文件格式来限定所述对象的一部分;以及
创建包括所述对象和所述标签的对象化对象;
基于所述对象化对象来生成包括所述对象化对象的组成信息的元数据,其中,所述组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及
生成包括附有元数据的所述对象化对象的新的原生文件。
9.根据权利要求8所述的系统,其中,所述非原生文件是物理文档,并且所述原生文件是OOXML文件。
10.根据权利要求8所述的系统,其中,所述对象化对象能够以原生方式被编辑,并且其中,所述元数据能够被搜索。
11.根据权利要求8所述的系统,其中,所述对象是图形对象,并且其中,所述元数据描述所述对象的图形类型以及所述对象在所述非原生文件中的页面上的位置。
12.根据权利要求8所述的系统,其中,所述对象化器还被配置成:
从用户接收所述新的原生文件的文件格式,其中,确定所述标签部分地基于该文件格式。
13.根据权利要求8所述的系统,其中,确定所述标签还包括:
将所述对象与多个模板进行比较,所述多个模板中的每个模板与来自所述原生文件的文件格式的原生标签相对应。
14.根据权利要求8所述的系统,还包括:
扫描仪,所述扫描仪被配置成获得所述非原生文件。
15.一种用于文档发现的方法,包括:
接收包括非文本对象的文档的物理拷贝的扫描件;
确定所述非文本对象的第一标签,其中,所述第一标签限定原始文件中的所述非文本对象的一部分;
基于所述第一标签来生成包括所述非文本对象的组成信息的非文本对象元数据;
使用所述非文本对象元数据来搜索存储在数据储存库中的多个电子文档,其中,所述多个电子文档中的每一个包括对象以及与该对象相关联的能够被搜索的元数据;
将所述非文本对象元数据与所述能够被搜索的元数据进行比较;以及
当所述非文本对象元数据与所述能够被搜索的元数据匹配时,将所述原始文件的位置提供给用户。
16.根据权利要求15所述的方法,还包括:
通过以下方式对来自存储在所述数据储存库中的所述多个电子文档的电子文档进行处理:
提取该电子文档中的对象的第二标签;
基于所述第二标签生成所述能够被搜索的元数据,其中,该能够被搜索的元数据描述该对象;以及
将该能够被搜索的元数据存储在与该对象相关联的该电子文档中。
17.根据权利要求15所述的方法,其中,所述原始文件是OOXML文件,并且其中,所述原始文件是存储在所述数据储存库中的所述多个电子文档之一。
18.根据权利要求15所述的方法,还包括:
确定所述用户是否具有访问所述原始文件的授权,其中,仅当确定所述用户具有访问所述原始文件的授权时才提供所述位置。
19.根据权利要求15所述的方法,其中,在电子邮件中将所述位置提供给所述用户。
20.根据权利要求15所述的方法,其中,通过将所述位置显示在扫描仪的显示器上来提供所述位置。
21.根据权利要求15所述的方法,其中,所述数据储存库是企业内容管理ECM系统的一部分。
22.根据权利要求15所述的方法,其中,所述搜索还包括使用通过光学字符识别OCR在所述文档中发现的标准文本。
23.一种用于文档发现的系统,包括:
数据储存库,所述数据储存库存储多个电子文档,其中,所述多个电子文档中的每一个包括对象以及与所述对象相关联的能够被搜索的元数据;
计算机处理器;以及
文档定位器,所述文档定位器在所述计算机处理器上执行并且被配置成:
接收包括非文本对象的文档的物理拷贝的扫描件;
确定所述非文本对象的第一标签,其中,所述第一标签限定原始文件中的所述非文本对象的一部分;
基于所述第一标签来生成包括所述非文本对象的组成信息的非文本对象元数据;
使用所述非文本对象元数据来搜索存储在所述数据储存库中的所述多个电子文档;
将所述非文本对象元数据与所述能够被搜索的元数据进行比较;以及
当所述非文本对象元数据与所述能够被搜索的元数据匹配时,将所述原始文件的位置提供给用户。
24.根据权利要求23所述的系统,所述文档定位器还被配置成:
通过以下方式对来自存储在所述数据储存库中的所述多个电子文档的电子文档进行处理:
提取该电子文档中的对象的第二标签;
基于所述第二标签生成所述能够被搜索的元数据,其中,该能够被搜索的元数据描述该对象;以及
将该能够被搜索的元数据存储在与该对象相关联的该电子文档中。
25.根据权利要求23所述的系统,其中,所述原始文件是OOXML文件,并且其中,所述原始文件是存储在所述数据储存库中的所述多个电子文档之一。
26.根据权利要求23所述的系统,所述文档定位器还被配置成:
确定所述用户是否具有访问所述原始文件的授权,其中,仅当确定所述用户具有访问所述原始文件的授权时才提供所述位置。
27.根据权利要求23所述的系统,其中,在电子邮件中将所述位置提供给所述用户。
28.根据权利要求23所述的系统,其中,通过将所述位置显示在扫描仪的显示器上来提供所述位置。
29.根据权利要求23所述的系统,其中,所述数据储存库是企业内容管理ECM系统的一部分。
30.根据权利要求23所述的系统,其中,所述搜索还包括使用通过光学字符识别OCR在所述文档中发现的标准文本。
CN201511030093.3A 2014-12-31 2015-12-31 用于将非文本内容对象化以及用于文档发现的方法和系统 Active CN105740317B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US14/588,194 2014-12-31
US14/588,194 US9798724B2 (en) 2014-12-31 2014-12-31 Document discovery strategy to find original electronic file from hardcopy version
US14/588,165 US9864750B2 (en) 2014-12-31 2014-12-31 Objectification with deep searchability
US14/588,165 2014-12-31

Publications (2)

Publication Number Publication Date
CN105740317A true CN105740317A (zh) 2016-07-06
CN105740317B CN105740317B (zh) 2019-05-14

Family

ID=56296429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511030093.3A Active CN105740317B (zh) 2014-12-31 2015-12-31 用于将非文本内容对象化以及用于文档发现的方法和系统

Country Status (2)

Country Link
JP (1) JP6262708B2 (zh)
CN (1) CN105740317B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145530A (zh) * 2017-04-18 2017-09-08 北京明朝万达科技股份有限公司 一种基于附加数据的文档检索方法及系统
CN107291919A (zh) * 2017-06-28 2017-10-24 四川妥妥递科技有限公司 一种在pdf文件上在线添加域的系统及其方法
CN107506366A (zh) * 2017-06-27 2017-12-22 北京明朝万达科技股份有限公司 一种基于全局唯一id的文档生命周期管理方法及系统
CN108446348A (zh) * 2018-03-08 2018-08-24 广东国地规划科技股份有限公司 一种地址信息嵌入办公文档的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030098862A1 (en) * 2001-11-06 2003-05-29 Smartequip, Inc. Method and system for building and using intelligent vector objects
US6799299B1 (en) * 1999-09-23 2004-09-28 International Business Machines Corporation Method and apparatus for creating stylesheets in a data processing system
US6886130B1 (en) * 1997-11-26 2005-04-26 International Business Machines Corporation Compiled structure for efficient operation of distributed hypertext
CN101351767A (zh) * 2005-11-10 2009-01-21 麦乐迪斯公司 存储和检索基于非文本的信息的系统和方法
US20100061634A1 (en) * 2006-11-21 2010-03-11 Cameron Telfer Howie Method of Retrieving Information from a Digital Image
US20100214614A1 (en) * 2009-02-23 2010-08-26 Andrew Rodney Ferlitsch Context-aware printing method and system
US20130007601A1 (en) * 2011-06-30 2013-01-03 Konica Minolta Systems Laboratory U.S.A., Inc. Positioning graphical objects within previously formatted text
CN103577102A (zh) * 2012-08-06 2014-02-12 三星电子株式会社 用于标记关于图像的信息的方法和系统、及其装置
US20140075273A1 (en) * 2012-09-07 2014-03-13 American Chemical Society Automated composition evaluator

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060085442A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Document image information management apparatus and document image information management program
JP4757205B2 (ja) * 2007-01-18 2011-08-24 シャープ株式会社 画像処理装置、画像処理システム、および画像処理プログラム
US8320644B2 (en) * 2010-06-15 2012-11-27 Apple Inc. Object detection metadata
US9535913B2 (en) * 2013-03-08 2017-01-03 Konica Minolta Laboratory U.S.A., Inc. Method and system for file conversion

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6886130B1 (en) * 1997-11-26 2005-04-26 International Business Machines Corporation Compiled structure for efficient operation of distributed hypertext
US6799299B1 (en) * 1999-09-23 2004-09-28 International Business Machines Corporation Method and apparatus for creating stylesheets in a data processing system
US20030098862A1 (en) * 2001-11-06 2003-05-29 Smartequip, Inc. Method and system for building and using intelligent vector objects
CN101351767A (zh) * 2005-11-10 2009-01-21 麦乐迪斯公司 存储和检索基于非文本的信息的系统和方法
US20100061634A1 (en) * 2006-11-21 2010-03-11 Cameron Telfer Howie Method of Retrieving Information from a Digital Image
US20100214614A1 (en) * 2009-02-23 2010-08-26 Andrew Rodney Ferlitsch Context-aware printing method and system
US20130007601A1 (en) * 2011-06-30 2013-01-03 Konica Minolta Systems Laboratory U.S.A., Inc. Positioning graphical objects within previously formatted text
CN103577102A (zh) * 2012-08-06 2014-02-12 三星电子株式会社 用于标记关于图像的信息的方法和系统、及其装置
US20140075273A1 (en) * 2012-09-07 2014-03-13 American Chemical Society Automated composition evaluator

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145530A (zh) * 2017-04-18 2017-09-08 北京明朝万达科技股份有限公司 一种基于附加数据的文档检索方法及系统
CN107506366A (zh) * 2017-06-27 2017-12-22 北京明朝万达科技股份有限公司 一种基于全局唯一id的文档生命周期管理方法及系统
CN107291919A (zh) * 2017-06-28 2017-10-24 四川妥妥递科技有限公司 一种在pdf文件上在线添加域的系统及其方法
CN108446348A (zh) * 2018-03-08 2018-08-24 广东国地规划科技股份有限公司 一种地址信息嵌入办公文档的方法

Also Published As

Publication number Publication date
JP6262708B2 (ja) 2018-01-17
CN105740317B (zh) 2019-05-14
JP2016129021A (ja) 2016-07-14

Similar Documents

Publication Publication Date Title
US8156115B1 (en) Document-based networking with mixed media reality
US9530050B1 (en) Document annotation sharing
EP3024213B1 (en) Image scanning apparatus and method for controlling the same
US7739583B2 (en) Multimedia document sharing method and apparatus
US7672543B2 (en) Triggering applications based on a captured text in a mixed media environment
US7703002B2 (en) Method and apparatus for composing multimedia documents
US7991778B2 (en) Triggering actions with captured input in a mixed media environment
US7920759B2 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
US7757162B2 (en) Document collection manipulation
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US20090052804A1 (en) Method process and apparatus for automated document scanning and management system
EP1672473A2 (en) Stamp sheet
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US10048913B2 (en) Electronic content management workflow with document versioning
JP2009169536A (ja) 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
CN105740317B (zh) 用于将非文本内容对象化以及用于文档发现的方法和系统
US9798724B2 (en) Document discovery strategy to find original electronic file from hardcopy version
US9864750B2 (en) Objectification with deep searchability
JP2010262584A (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
US20190361962A1 (en) A method and a system for providing an extract document
US20120050548A1 (en) Method of posting content to a web site
US9946698B2 (en) Inserting text and graphics using hand markup
JP5569367B2 (ja) 画像処理装置、画像処理方法及びプログラム
US10104264B2 (en) Method and system for generating electronic documents from paper documents while retaining information from the paper documents
US20190212893A1 (en) System and method for gesture document processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant