CN101802840A - 扫描至编校的可搜索文档 - Google Patents

扫描至编校的可搜索文档 Download PDF

Info

Publication number
CN101802840A
CN101802840A CN200880107998A CN200880107998A CN101802840A CN 101802840 A CN101802840 A CN 101802840A CN 200880107998 A CN200880107998 A CN 200880107998A CN 200880107998 A CN200880107998 A CN 200880107998A CN 101802840 A CN101802840 A CN 101802840A
Authority
CN
China
Prior art keywords
edit
proof
document
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880107998A
Other languages
English (en)
Inventor
J·塞加拉
G·查塔迪
C·杜达斯
G·赖希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN101802840A publication Critical patent/CN101802840A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2143Clearing memory, e.g. to prevent the data from being stolen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

描述了自动的扫描至编校的电子文档。接收标识经扫描的文档的用户输入。然后自动处理经扫描的文档以产生具有可搜索的文档文本和文档图像的对应的编校文档。可搜索的文档文本包括满足所限定的编校参数的编码的编校文本。文档图像包括对应于编校元素的编校图像区域。

Description

扫描至编校的可搜索文档
本申请要求2007年7月30日提交的美国临时专利申请60/952,653的优先权,通过参考将其结合于此。
技术领域
本发明涉及图像处理,并且更具体地涉及文档的扫描和处理。
背景技术
编校(redaction)是从文档中用黑色挡住(black out)或移除机密信息以使得它们可以被共享的过程。机密信息可以包括工商企业的人或地方的名称、地址、电话号码或包括社会保障或顾客编号的其它标识信息。编校在法律或政府组织中被非常普遍地使用,但是它也在包括金融、保险和制造业的其它行业被广泛使用。编校的目的是防止敏感信息被与可能需要与内部的(closed)工商企业、政府或法律程序之外的公众共享的文档一起分发。
当文档以纸件的形式存在时,通过制造机密文档的纸件副本(paper copy)来开始编校。然后将该副本送给校对者,所述校对者的工作是基于关键字或主题的列表来标识信息的敏感区域。在简化的过程中,校对者直接编校在文档副本上的文字。在更复杂的过程中,最初的校对者将加亮(highlight)编校的候选,然后由将对编校做出最终决定的一个或多个有学识的(informed)或高级的校对者来审阅所述候选。此外,注解或注释通常需要被附着到该文档以标识为什么区域应该被编校、谁完成了最初的编校审阅、以及谁批准最后的编校,于是可以进行对该编校的追踪查询或调查。这些注解或注释通常被编码以使得当最终的文档被编校并且将注解和该文档一起送到未授权的接受者时,他们将不能够觉察出为什么要编校这些区域或者猜测关于所编校的信息的内容。编校过程中的授权参与者将能够使用所述注释或注解,并且追踪在涉及所述文档的调查中可能需要的所述编校的历史和目的。
纸件过程(paper process)中的编校使用应用于纸件文档的黑色标记,从而完全隐藏或破坏该文档中的内容或文本。因为与所使用的文档和纸件上的原始色粉或油墨相比该标记的密度上的差异,可能不能以令人满意的方式来实现信息的完全移除。为了确保区域被完全移除并且在仔细检查时不能被识别,经过编校的文档通常在分发之前再次影印。这实现了在要被隐藏的信息上的一致黑色区域,从而不可能检测出下面的文本。在编校过程中机密信息的完全破坏是关键的。纸件编校过程需要熟练的校对者并且与数字过程相比效率非常低。
在数字过程中,在数字文档被创建或者可以被编辑的各种软件应用中提供与加亮、注释以及编校文档类似的工具。为了加快该过程,校对者使用搜索工具来标识需要编校的文字。一旦在该文档中找到所述文字,就使用适当的工具来加亮、注释或编校所述文字。为了进一步加快该过程。可以将搜索功能与编校特征的自动编校或加亮相结合。如果该文档被直接编校,则然后将最终文档保存为准备分发的最终编校副本。如果已加亮或注释用于编校的文字,则然后通过电子邮件或通过文档管理过程将该文档转发到适当的人或多个人,以用于最终的编校。如在纸件过程中一样,必须在包括文档的属性或隐藏层的该文档的所有区域中实现对机密信息的绝对移除。
已认识到当数字化地进行时,信息共享更容易、更有成效并且比较便宜。因此,随着将纸件移进数字过程,对于将纸件扫描并转换成数字文档的需要日益增加。在这种意义下,通常在依靠当前可用数字工具将文档转换成适合的数字格式之后实现该编校以完成编校。当前可用的纸件至数字的工具根据转换的可编辑文档产生基于文本的PDF文件,或者根据原始的扫描图像文件产生基于TIFF的图像文件。每种方法都具有优点和缺点。
当将文档从经扫描的文件转换成用于编校的可编辑格式时,最有可能在转换过程中丢失原始文档的完整性。尽管文本是100%准确的,但是可能使该文档的格式、图形和其它元素失真、重新布置(rearrange)或一起丢失。因此,转换和编校纸件文档的这一方法不是最佳的。
为了防止损害原始文档,可以使用OCR技术来简单地识别需要被编校的经扫描图像文档上的区域,并且然后将这些改变直接应用于所述图像。这也不是最佳的过程,因为在最终TIFF图像文件中的文本仍保留为图像,不能利用其向保留的文本搜索重要信息。并且失去了这样的能力:将注解或代码附着到所编校的区域以用于进一步的调查或了解这些区域的编校如何进行、为何进行以及应用于哪儿。PDF文件格式提供适合的框架以在仍提供作为原始文档的准确表示的原始图像、要搜索的文本层以及用于注解和注释的评注字段(annotation field)的同时解决当前过程的缺点。
发明内容
本发明的实施例针对自动的扫描至编校的电子文档过程。接收标识经扫描的文档的用户输入。然后自动处理经扫描的文档以产生具有可搜索的文档文本和文档图像的对应的编校文档。可搜索的文档文本包括满足所限定的编校参数的编码的编校文本。文档图像包括对应于编校元素的编校图像区域。
在另一个特定实施例中,可以在视觉上加亮编校文本以用于审阅。另外或可替换地,可以从编校文档移除编校文本,并且用占位符字符来代替所述编校文本。可以提供评注字段以用于记录与所选择的编校文本相关联的后编校注释(post-redaction comment)。
在一些实施例中,该过程可以使用预先建立的编校标准来标识并且产生编校文本。例如,该编校标准可以包括与编校相关联的关键字集和/或表示与编校相关联的文本模式(pattern)的编校模式的使用。在一些实施例中,可搜索的文档文本可以包括标识编校文本的段的书签。编校图像区域可以在视觉上是编校所特有的(visuallydistinctive of redaction),例如通过加亮或者通过具有一致的非文本外观。可以根据计算机网络设备上的用户可选按钮或计算机显示器上的用户可选按钮来产生用户输入。具体来说,编校文档可以是PDF格式文档或可编辑的文字处理器文档(例如Microsoft Word文档)。
附图说明
图1示出根据本发明的一个实施例的自动的扫描至编校的过程的功能流程中的各个步骤。
具体实施方式
本发明的实施例基于与一些识别智能相结合的扫描和OCR技术、具有编校代码的预先定义的关键字和PDF文件格式,以产生可以随时审阅、评注且校正的自动的扫描至编校的PDF文件的过程。被称为“工作流程”的整个过程可以被使用该应用来限定并且可以利用单按下(在该应用本身内的或分配给设备上的物理或虚拟按钮的)按钮来应用。最终的结果是“可搜索的PDF”文件。
图1示出根据本发明的一个实施例的自动的扫描至编校的过程的功能流程中的各个步骤。首先,步骤101,扫描源文档,其包括对用于某些图像增强或校正的扫描过程的初始限定。扫描增强改善OCR识别能力并且增加准确度。这样的校正的实例包括但不限于消除倾斜(de-skew)、消除杂点和自动旋转。还在该步骤中设置对b/w、灰度级、颜色和分辨率的设定。
一旦该文档被扫描,步骤102,将OCR过程应用于经扫描的文档。这时使用布局或格式引导以及语言检测。例如,在识别文本时就对照内部词典检查文字,以使得在该词典中找不到的任何文字在OCR文本校对过程期间都可以被标记为可疑的。为了更高的准确度,使用包括法律、金融和医学的专业词典。
步骤103,当对照用户和专业词典检查文本时,在校对OCR文档的下一步骤期间加亮可能的错误。用户检查文档中真实句子的上下文中的所识别的文字的准确度。可以使用校对工具来应用校正。当文字被校验或校正时,用户字典“学习”并且被相应地更新以改善另外处理的文档的校正过程。
步骤104,一旦该文本已在OCR校对步骤之后被校验,就可以开始文档编校过程。接收标识用于编校的经扫描的文档的用户输入。例如,用户输入可以由用户可选按钮产生,所述用户可选按钮是计算机网络设备(例如扫描仪等)上的物理按钮或者由软件在计算机显示器上产生的虚拟按钮。响应于用户输入,自动地处理经扫描的文档以产生包括可搜索的文档文本和文档图像二者的对应编校文档。可搜索的文档文本包括满足各种限定的编校参数的编码的编校文本。文档图像包括对应于编校元素的编校的图像区域。
利用所建立的处理规则,诸如自动地对文档页进行书签化以容易地标识长文档中的编校文本的能力。编校规则还可以包括使用预先建立的编校标准以标识并且产生编校文本。例如,可以使用对应于与编校相关联的文本模式的编校模式,其包括适合(fit)特定模式的信息或“看起来像”特定信息的自动标记。该模式可以是诸如社会保障号码、日期、货币价值或电话号码之类的号码的格式。从逗号或制表符分隔的文本文件或直接从ODBC数据库文件加载编校关键词、编校代码和注解的特定列表。
可以立即并且直接完成编校,或者可以加亮编校文本以进一步在PDF编辑应用程序(例如PDF Converter Professional)中进行审阅。有用地是标识的编校文本可以在视觉上是编校所特有的,例如具有一致非文本外观。此外,可以利用加亮的颜色来定制用于编校的加亮的编校文本候选,或者可以使用用于标识(例如轮廓线(outline)或删除线)的可替换方法。此外,编校区域可以具有在编校区域之前和/或之后应用于预先设置数目的文字或字符的加亮的颜色,以便容易地视觉标识。在最终文档中,编校或加亮区域可以创建有评注字段或者创建作为评注字段。
步骤105,可以以类似于后OCR校对步骤的方式使用附加的后编校校对。它检查被限定为模式或“看起来像”的可能编校候选被准确地移除或标记为必须被编校的文本。经过标识的文字必须被显示在文档中的真实句子的上下文中。可以提供工具来根据需要对编校文本进行标记或取消标记。对交互的“编校校对”步骤的替换将是以预先定义的颜色来自动地加亮可疑的文字以供在PDF编辑工具中进行审阅。
步骤106,可以以适当的应用格式来保存经过编校的(或编校加亮的)文档,以用于随后的审阅、以后的调整,以及或者归档和存储。本应用的实施例还可以读取已经被审阅并且在其它应用中用加亮标记的经过标记的PDF文件,以使得可以自动地应用所述编校。当PDF可搜索的图像文件被创建时,应用编校和PDF偏好。编校偏好包括编校颜色(缺省为“黑色”)、图像上的编校区域的宽度和高度公差(tolerance)以及到接近于编校区域的对象或文本的公差以使得它们不会无意地被混淆。
PDF文件包括各种主要的部分或层,最相关的是图像层和文本层。该图像层包括原始的经扫描文档,其中编校区域被编校颜色代替并且像素信息被“破坏”。文本层是图像上面或下面的可以被商业搜索产品编索引和/或搜索的隐藏层。文本层精确地遵循原始文档的格式化,以使得文本在原始文档的上下文中在PDF查看或编辑应用中是可搜索的。编校文本被从编校文档中移去,并且用占位符字符代替以形成等间隔的文本“行”,尽管可以将这些文本“行”复制并粘贴到其它应用中但是它们不能表示原始文本,因此破坏了该信息。
元数据可以被应用于PDF文件属性,所以可以使用商业上可得到的搜索工具来搜索该元数据。PDF书签可以被自动创建以标识编校页。还可以将定制的戳、页首(header)和页脚应用于文档以显示相关的信息,例如创建者名称、创建日期和/或编校文档所使用的项(term)和状况(condition)。评注(例如注解或编校/解除(exemption)代码)被创建并且被应用于最终的PDF文档。
还可以在该步骤设置并应用标准的PDF安全工具。该标准的PDF安全工具包括密码定义以便于查看或打印文档。还可以将40比特和128比特加密应用于PDF文件,用户能够利用其来控制是否可以查看、打印、编辑、复制或评注该文档。该应用还将包括用于数字签署文档以保护和认证信息所需的所有一起。来自第三方卖主的证书不是必需的。
编校工作流程将上述所有步骤结合到可以被命名、输出并且输入到应用程序的其它副本中的单个工作流程文件,以使得可以复制该过程。可以将工作流程作为应用内的单个步骤而发起,或者将其分配给设备上的物理或虚拟按钮以用于一键过程自动化(one-button processautomation)。该应用还可以利用文件夹来成批处理存储在网络上的文件,监视或者自动处理从电子邮件应用输入的文件。可以将扫描的、识别的以及经编校可搜索的PDF文件自动地保存到本地硬盘驱动器、保存到文档管理系统或者以电子邮件发送到特定的接受者。该应用还可以将这些文件保存为可编辑的Microsoft Word文档。
本发明的实施例可以以任何传统的计算机编程语言实施。例如,优选的实施例可以在过程编程语言(例如“C”)或面向对象的编程语言(例如“C++”、Python)中实现。本发明的可替换实施例可以被实施为预先编程的硬件元件、其它相关的组件或硬件和软件组件的结合。
实施例可以被实施为与计算机系统一起使用的计算机程序产品。这样的实施方式可以包括一系列计算机指令,其固定在有形介质(例如计算机可读介质(例如盘、CD-ROM、ROM或固定盘))上或者可以经由调制解调器或其它接口设备(例如通过介质连接到网络的通信适配器)传输到计算机系统。介质可以是有形介质(例如光学或模拟通信线)或利用无线技术(例如微波的、红外线的或其它传输技术)实现的介质。计算机指令系列包括针对系统而先前在本文中描述的所有或部分功能。本领域技术人员应该认识到可以以许多编程语言来写这样的计算机指令,以与许多计算机体系结构或操作系统一起使用。此外,这样的指令可以被存储在任何存储器设备(例如半导体的、磁的、光学的或其它存储器设备)中,并且可以使用任何通信技术(例如光学的、红外线的、微波的或其它传输技术)来传输。期望这样的计算机程序产品可以被分布为具有所附的打印的或电子的文档的可移动介质(例如现成套装软件(shrink wrapped software)),被用计算机系统预先加载(例如在系统ROM或固定盘上)或者被从服务器或电子公告板通过网络(例如因特网或万维网)分发。当然,本发明的一些实施例可以被实施为软件(例如计算机程序产品)和硬件二者的结合。本发明的又一些实施例被实施为整个为硬件、或整个为软件(例如计算机程序产品)。
尽管已经公开了本发明的各种示例性实施例,但是对于本领域技术人员来说显而易见的是在不偏离本发明真实范围的情况下可以完成将实现本发明的一些优点的各种改变和修改。

Claims (15)

1.一种产生编校电子文档的方法,该方法包括:
接收标识经扫描的文档的用户输入;以及
自动地处理经扫描的文档以产生对应的编校文档,所述编校文档包括:
i、可搜索的文档文本,包括满足所限定的编校参数的编码的编校文本,以及
ii、文档图像,具有对应于编校元素的编校图像区域。
2.根据权利要求1所述的方法,其中在视觉上加亮所述编校文本以用于审阅。
3.根据权利要求2所述的方法,还包括:
从编校文档移除所述编校文本;以及
用占位符字符代替所述编校文本。
4.根据权利要求1所述的方法,其中所述编校文本包括代替经扫描的文档中的满足所限定的编校参数的文本的占位符字符。
5.根据权利要求1所述的方法,还包括:
提供用于记录与所选择的编校文本相关联的后编校注释的评注字段。
6.根据权利要求1所述的方法,其中所述处理使用预先建立的编校标准来标识并且产生编校文本。
7.根据权利要求6所述的方法,其中所述编校标准包括与编校相关联的关键字集。
8.根据权利要求6所述的方法,其中所述编校标准包括表示与编校相关联的文本的模式的编校模式。
9.根据权利要求1所述的方法,其中所述可搜索的文档文本包括标识编校文本的段的书签。
10.根据权利要求1所述的方法,其中所述编校图像区域在视觉上是编校所特有的。
11.根据权利要求10所述的方法,其中所述编校图像区域具有一致的非文本外观。
12.根据权利要求1所述的方法,其中从计算机网络设备上的用户可选按钮产生用户输入。
13.根据权利要求1所述的方法,其中从计算机显示器上的用户可选按钮产生用户输入。
14.根据权利要求1所述的方法,其中所述编校文档是PDF格式的文档。
15.根据权利要求1所述的方法,其中所述编校文档是可编辑的文字处理器文档。
CN200880107998A 2007-07-30 2008-07-30 扫描至编校的可搜索文档 Pending CN101802840A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US95265307P 2007-07-30 2007-07-30
US60/952653 2007-07-30
PCT/US2008/071571 WO2009018328A1 (en) 2007-07-30 2008-07-30 Scan-to-redact searchable documents

Publications (1)

Publication Number Publication Date
CN101802840A true CN101802840A (zh) 2010-08-11

Family

ID=39822006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880107998A Pending CN101802840A (zh) 2007-07-30 2008-07-30 扫描至编校的可搜索文档

Country Status (4)

Country Link
US (1) US20090164881A1 (zh)
EP (1) EP2171643A1 (zh)
CN (1) CN101802840A (zh)
WO (1) WO2009018328A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537026A (zh) * 2014-12-22 2015-04-22 福建亿榕信息技术有限公司 基于本地缓存的纸质档案文件处理方法
CN105302506A (zh) * 2015-11-10 2016-02-03 武汉启明泰和软件服务有限公司 一种基于数据自动调用的分拣批量打印方法
CN108009143A (zh) * 2017-12-04 2018-05-08 上海互盾信息科技有限公司 一种pdf文档实时编辑查看工具
CN113168538A (zh) * 2018-12-12 2021-07-23 惠普发展公司,有限责任合伙企业 具有区域性ocr用户界面的扫描装置
CN117649673A (zh) * 2024-01-30 2024-03-05 陕西巨微图书文化传播有限公司 一种图书编校中的图片处理方法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7230745B1 (en) 2002-04-08 2007-06-12 Captaris, Inc. Document transmission and routing with recipient control, such as facsimile document transmission and routing
US20090128861A1 (en) * 2007-09-09 2009-05-21 Xpedite Systems, Llc Systems and Methods for Communicating Multimodal Messages
US8395795B2 (en) 2007-09-09 2013-03-12 Xpedite Systems, Llc Systems and methods for communicating documents
US10003701B2 (en) 2008-01-30 2018-06-19 Xpedite Systems, Llc Systems and methods for generating and communicating enhanced portable document format files
US8838554B2 (en) * 2008-02-19 2014-09-16 Bank Of America Corporation Systems and methods for providing content aware document analysis and modification
US20100033753A1 (en) * 2008-08-06 2010-02-11 Kenneth Stephenson System and method for selective redaction of scanned documents
US10169599B2 (en) * 2009-08-26 2019-01-01 International Business Machines Corporation Data access control with flexible data disclosure
US9224007B2 (en) 2009-09-15 2015-12-29 International Business Machines Corporation Search engine with privacy protection
US10902202B2 (en) * 2009-11-16 2021-01-26 Refinitiv Us Organization Llc Method for system for redacting and presenting documents
US9600134B2 (en) 2009-12-29 2017-03-21 International Business Machines Corporation Selecting portions of computer-accessible documents for post-selection processing
US9104659B2 (en) 2010-01-20 2015-08-11 Bank Of America Corporation Systems and methods for providing content aware document analysis and modification
US9007604B2 (en) 2010-06-30 2015-04-14 Xpedite Systems, Llc System, method, and apparatus for an interactive virtual fax machine
US8719083B2 (en) 2010-12-06 2014-05-06 Xpedite Systems, Inc. On net faxing
US9378379B1 (en) 2011-01-19 2016-06-28 Bank Of America Corporation Method and apparatus for the protection of information in a device upon separation from a network
US8548280B2 (en) 2011-02-14 2013-10-01 Hewlett-Packard Development Company, L.P. Systems and methods for replacing non-image text
WO2013067092A1 (en) * 2011-11-04 2013-05-10 Document Security Systems, Inc. System and method for dynamic generation of embedded security features in a document
JP2013109728A (ja) * 2011-11-24 2013-06-06 Jfe Steel Corp ミルシート閲覧方法およびミルシート閲覧システム
JP2013130997A (ja) * 2011-12-21 2013-07-04 Kyocera Document Solutions Inc 画像形成装置
US9195853B2 (en) * 2012-01-15 2015-11-24 International Business Machines Corporation Automated document redaction
AU2013216625A1 (en) * 2012-08-16 2014-03-06 Berkeley Information Technology Pty Ltd Streamlined security-level determination of an electronic document and selective release into an information system
US9892278B2 (en) 2012-11-14 2018-02-13 International Business Machines Corporation Focused personal identifying information redaction
US9256798B2 (en) * 2013-01-31 2016-02-09 Aurasma Limited Document alteration based on native text analysis and OCR
US20140281871A1 (en) * 2013-03-15 2014-09-18 Meditory Llc Method for mapping form fields from an image containing text
US9588971B2 (en) * 2014-02-03 2017-03-07 Bluebeam Software, Inc. Generating unique document page identifiers from content within a selected page region
RU2648636C2 (ru) * 2014-03-31 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Сохранение контента в конвертированных документах
RU2656581C2 (ru) * 2014-06-24 2018-06-05 Общество с ограниченной ответственностью "Аби Девелопмент" Редактирование содержимого электронного документа
US9870484B2 (en) * 2015-01-30 2018-01-16 Konica Minolta Laboratory U.S.A., Inc. Document redaction
JP6690170B2 (ja) * 2015-09-28 2020-04-28 富士ゼロックス株式会社 画像処理装置及びプログラム
JP2016197463A (ja) * 2016-08-16 2016-11-24 Jfeスチール株式会社 ミルシート閲覧方法、ミルシート閲覧システム、ミルシート開示方法およびミルシート開示システム
JP6797610B2 (ja) * 2016-08-31 2020-12-09 キヤノン株式会社 装置、方法、及びプログラム
US10298811B2 (en) * 2017-03-31 2019-05-21 Kyocera Document Solutions Inc. Scan privacy tool and methods using sensors or control buttons
JP2019009693A (ja) * 2017-06-27 2019-01-17 キヤノン株式会社 ワークフロー生成装置、ワークフロー生成方法およびプログラム
US10713390B2 (en) * 2017-07-17 2020-07-14 Microsoft Technology Licensing, Llc Removing sensitive content from documents while preserving their usefulness for subsequent processing
US10878186B1 (en) 2017-09-18 2020-12-29 University Of South Florida Content masking attacks against information-based services and defenses thereto
JP6874673B2 (ja) * 2017-12-26 2021-05-19 京セラドキュメントソリューションズ株式会社 画像処理装置
US10733434B2 (en) 2018-09-24 2020-08-04 International Business Machines Corporation Method and system for accurately detecting, extracting and representing redacted text blocks in a document
JP2022137634A (ja) * 2021-03-09 2022-09-22 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2045907C (en) * 1991-06-28 1998-12-15 Gerald B. Anderson A method for storing and retrieving annotations and redactions in final form documents
US7428701B1 (en) * 1998-12-18 2008-09-23 Appligent Inc. Method, system and computer program for redaction of material from documents
US20040260569A1 (en) * 2000-09-07 2004-12-23 Cyber Legal Solutions, Inc. Expert legal task management
WO2002041170A2 (en) * 2000-11-16 2002-05-23 Interlegis, Inc. System and method of managing documents
WO2006041318A1 (en) * 2004-10-14 2006-04-20 Onstream Systems Limited A process for electronic document redaction
US20070005637A1 (en) * 2005-07-01 2007-01-04 Juliano Elizabeth B System for Litigation Management
CA2617060A1 (en) * 2005-07-29 2007-08-09 Cataphora, Inc. An improved method and apparatus for sociological data analysis
US10853570B2 (en) * 2005-10-06 2020-12-01 TeraDact Solutions, Inc. Redaction engine for electronic documents with multiple types, formats and/or categories
US7802305B1 (en) * 2006-10-10 2010-09-21 Adobe Systems Inc. Methods and apparatus for automated redaction of content in a document
US8000530B2 (en) * 2006-10-26 2011-08-16 Hubin Jiang Computer-implemented expert system-based method and system for document recognition and content understanding
US20090019048A1 (en) * 2007-07-12 2009-01-15 Pendergast Brian S Document lock manager

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537026A (zh) * 2014-12-22 2015-04-22 福建亿榕信息技术有限公司 基于本地缓存的纸质档案文件处理方法
CN104537026B (zh) * 2014-12-22 2018-08-24 福建亿榕信息技术有限公司 基于本地缓存的纸质档案文件处理方法
CN105302506A (zh) * 2015-11-10 2016-02-03 武汉启明泰和软件服务有限公司 一种基于数据自动调用的分拣批量打印方法
CN105302506B (zh) * 2015-11-10 2018-03-20 武汉启明泰和软件服务有限公司 一种基于数据自动调用的分拣批量打印方法
CN108009143A (zh) * 2017-12-04 2018-05-08 上海互盾信息科技有限公司 一种pdf文档实时编辑查看工具
CN113168538A (zh) * 2018-12-12 2021-07-23 惠普发展公司,有限责任合伙企业 具有区域性ocr用户界面的扫描装置
CN117649673A (zh) * 2024-01-30 2024-03-05 陕西巨微图书文化传播有限公司 一种图书编校中的图片处理方法
CN117649673B (zh) * 2024-01-30 2024-04-26 陕西巨微图书文化传播有限公司 一种图书编校中的图片处理方法

Also Published As

Publication number Publication date
WO2009018328A1 (en) 2009-02-05
US20090164881A1 (en) 2009-06-25
EP2171643A1 (en) 2010-04-07

Similar Documents

Publication Publication Date Title
CN101802840A (zh) 扫描至编校的可搜索文档
US8255464B2 (en) Contact management system and method
US8156416B2 (en) Securing printed output
US10855868B1 (en) Systems, processes, and computer program products for detecting and verifying invisible information in documents
CN1828583A (zh) 翻译请求方法、翻译请求终端以及计算机可读记录介质
CN1394313A (zh) 电子文档中嵌入和提取文本的方法
US7921166B2 (en) Methods and systems for accessing email
JP2009522675A (ja) 遠隔に記憶されたテンプレートを使用する自動化された処理(書式を処理する方法、該書式を処理する装置)
JP2008527937A (ja) 電子文書に署名情報を追加するための方法および装置
US20110007348A1 (en) Process determining apparatus, image processing apparatus, process determining system, computer readable medium storing program, and process determining method
US10083765B2 (en) Methods for securely processing information having handwritten data
CN112257396A (zh) 一种基于人工智能技术的手机端辅助填表方法
Kumar et al. Recent trends in text steganography with experimental study
US20190361962A1 (en) A method and a system for providing an extract document
US20210073401A1 (en) Systems, processes, and computer program products for authentication of documents based on invisible information in documents
JP2007011560A (ja) 帳票データ管理システム
US9854125B2 (en) Computing new certificate for digitized version of a physical document
US8234237B2 (en) System and method for automatic return letter generation
US20080144106A1 (en) Automated processing of paper forms using remotely-stored form content
CN115080822A (zh) 一种用于办公档案管理的物联网系统
JP2010026987A (ja) ネットワーク文書管理システム
JP2003317075A (ja) 電子化された書類のマスキング処理装置とその方法
JP2019056954A (ja) 情報処理装置及び情報処理プログラム
JP2018081558A (ja) 印刷システム、情報処理装置、処理方法及びプログラム
JP2008097066A (ja) 電子文書登録システム、方法及び端末装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100811