CN101981568A - 扫描方法 - Google Patents

扫描方法 Download PDF

Info

Publication number
CN101981568A
CN101981568A CN2009801081465A CN200980108146A CN101981568A CN 101981568 A CN101981568 A CN 101981568A CN 2009801081465 A CN2009801081465 A CN 2009801081465A CN 200980108146 A CN200980108146 A CN 200980108146A CN 101981568 A CN101981568 A CN 101981568A
Authority
CN
China
Prior art keywords
speech
character
record
computer
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801081465A
Other languages
English (en)
Inventor
拉尔斯·斯蒂格·尼尔森
雅各布·梅布姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jala ApS
Original Assignee
Jala ApS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jala ApS filed Critical Jala ApS
Publication of CN101981568A publication Critical patent/CN101981568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Storage Device Security (AREA)

Abstract

一种扫描文档(例如报纸或书)的计算机执行的方法,其中,可以在法律上防止对文本进行未授权的拷贝,包括以下步骤:将限于覆盖文档的界定区域的视域的至少一个记录获取至存储器;处理至少一个记录,以执行字符识别;当识别出字符时,将其登记在存储器中,并且,在移动的位置进行记录的同时,重复执行以上步骤,以逐渐获得字符串;并对照预定条件评测字符串;如果不满足条件,则确定是否从存储器清除至少一个记录的至少一部分;如果满足条件,则提供输出,并从存储器清除字符串的至少一部分和至少一个记录的至少一部分。

Description

扫描方法
技术领域
本发明涉及通过包含文本的文档的光学扫描所获得的数字图像或录制品的计算机执行的处理,上述文本例如为,印刷好的报纸页或其他显示形式的文本,其中,可以在法律上防止对该文本进行未授权的拷贝。
背景技术
在协调欧盟国家的版权法的基础上,欧洲议会和欧盟理事会在2001年5月22日的指令2001/29/EC中确定了针对拷贝和扫描的规定。等效的美国法规是数字千年版权法(DMCA)。
可通过传统的扫描仪来执行扫描和拷贝,但是,由于对受版权保护的文档的传统扫描违反版权法,所以需要有解决此问题的解决方案。
欧盟版权指令第2条提供了最基本的“拷贝”权。其对表演者、录音片制造商、电影制片人、广播组织和作者提供作品的“直接或间接、临时或永久”拷贝的复制专有权。
欧盟版权指令中的第5条确定了可能应用于第2条中提供的权利的限制和例外情况。第5条第1款中的复制权的强制性例外情况提供“暂时的和附带的”复制(该复制是由媒介进行的网络传输的“本质的和完整的”部分),或允许作品的没有“独立经济意义”的合法使用。
其还防止权利持有者通过数字技术控制所有对作品的访问,该技术通过其特别的设计,当将作品从诸如DVD的媒介传递到播放器的用于处理的存储器,然后传递到显示器或扬声器时,制作作品的临时“拷贝”。
受版权保护的公开物(例如,报纸、杂志、行业杂志、科学期刊,和其他期刊)的监控,例如由媒体监控行业中的公司来有系统地执行,这些公司通过识别有重要性的(of interest)文章或其他文本部分来服务于他们的客户。执行监测,以帮助客户公司和个人掌握在新闻媒体中提到他们的频率和程度。
传统监控以人工阅读例如报纸为基础。当例如在媒体监控公司收到报纸时,将报纸移交至合格的阅读人,其快速通读报纸,寻找相关文章,例如,提到其客户的文章。阅读人寻找类似公司名称的词、人名,和/或其他代表某些主题、话题或主旨的关键词,以确定哪些文章是相关文章。
当在报纸的一页上发现关键词时,阅读人标记这些关键词。当已经阅读整页并且已经标记所有关键词时,阅读人一个关键词一个关键词地进行评测,以确定该文章对于客户来说是不是相关的。如果发现该文章是相关的,那么阅读人或助手将关于客户的文章物理切割下来,并将其发送给客户。
该过程的耗时部分是花费在寻找关键词上的时间。在左上角开始并在右下角结束的每页的阅读时间相对于一页上的关键词的数量是不变的。这就导致如果一份报纸中只有几篇相关文章,那么每次切割都非常耗时。因此,大部分时间花费在阅读上是低效率的。
通过使用传统的扫描仪可能在一定程度上进行自动处理,该扫描仪一页一页地扫描整份报纸,并且生成报纸页面的数字图像,以储存电子版本(例如,以JPG、TIFF或PDF格式),从而储存在文件系统或数据库中。然后,检索每个文件,以进行光学字符识别,以便生成这样的文件:在这些文件中,根据一定的编码方案(例如,ASCII)代表各个所识别的字符。也将这些文件储存在文件系统或数据库中。此外,对所谓的搜索引擎装载一组关键词,搜索引擎进而检索字符和字符顺序编码在其中的这些文件,以提供切割列表的形式的输出。切割列表为从报纸切割文章的人提供引导其到物理报纸中的该页面的信息——其规定待切割的文章的名称和其大致位置。此自动处理使得生产率相对于人工处理大幅增加。
然而,由于数字图像代表了原始材料的电子拷贝,所以认为此处理在很多法规下侵犯了作者的版权。在某些法规下,即使在显示屏上显示所扫描的图像,也会被认为是侵犯作者的版权的行为。对于文本而言,无法直接搜索数字图像,而是需要通过光学字符识别(OCR)将数字图像转换成编码数字形式。然而,从此转换的输出,即,编码数字形式的输出,也将被认为是对版权的侵犯。
在一些国家中,如果电子拷贝是搜索过程或概要文字的“暂时的和附带的”以及“本质的和整体的”部分,那么可能不会将其认为是对作者版权的侵犯。
如果通过人工阅读文本媒体来进行的传统媒体监控过程是自动的,那么将会制作文本媒体的拷贝。这些文本媒体的拷贝的产生是一个与版权法相关的问题。因此,版权法可能是对自动媒体监控的障碍。因此,文本媒体的自动监控和防止违反版权法是仍待解决的问题。因此,需要有一种技术方案来解决文本媒体(例如,报纸、书)的自动监控的问题和避免违反版权法的问题。
US 6,904,183 B2公开了一种包括电子摄像机的电子图像捕捉设备,电子摄像机具有检测器和镜头,该镜头具有适于限制入射在检测器上的辐射的视场(view of field)。提供一致动器,以将摄像机及其视场在文档上移动经过,并提供一控制器,以获得与文档的不同区域相对应的一组重叠子图像。提供处理装置,以形成被这组子图像覆盖的文档部分的复合图像。产生一组子图像,子图像各自包括与出现在相应子图像中的字符相对应的字符数据集。将每个子图像的内容拼合(stitch,缝合)在空白文本文档中,以产生包含了所扫描的文档的文本内容的完整复合文本文档。在拼合之前,子图像首先经过光学字符识别(OCR)例程,因此,拼合在字符级别执行。这种扫描仪可能具有比所谓的平台式扫描仪占据更少的桌面空间的优点。
以上应用解决了文档的文本扫描的自动化的问题。但是,关于版权法,则是以上应用或其他应用没有提出也没有解决的问题,因为以上应用中的文档以数字形式被复制了。
由于拷贝违反版权法,所以,当在印刷的文本媒体(例如,报纸或书)上进行文档扫描时,或当在电子显示的文本文档(例如,电子书)上进行扫描时,需要解决此问题。
因此,在现有技术中没有解决新闻媒体的自动监控和避免违反版权法的问题。
发明内容
公开了一种扫描文档的计算机执行的方法,包括以下步骤:
-将限于覆盖文档的界定区域(delimited,分隔区域)的视域(field,视区)的至少一个记录获取至存储器;
-处理所述至少一个记录,以执行字符识别;
-当识别出字符时,将其记录在存储器中;并且,在移动的位置进行记录的同时,重复执行以上步骤,以逐渐获得字符串;
其特征在于,
-对照预定条件评测字符串;
-如果不满足条件,则确定是否从存储器中清除至少一个记录的至少一部分;
-如果满足条件,则提供输出,并从存储器中清除字符串的至少一部分和至少一个记录的至少一部分。
这是一个优点:当满足条件时,则提供输出,并清除字符串的至少一部分和至少一个记录的一部分(输出由此产生),以避免制作文档的拷贝,并避免危及版权法。如果不满足条件,则确定是否清除记录的至少一部分,以避免超过阈值的溢出。可以避免存储过多关于文档的信息,并且可以确保会注意到,并确保在达到记录数量的上限或阈值之前可以清除记录的至少一部分。将关于字符的信息存储在存储器中,并且,当扫描进行时,例如,当识别并输出词(word)时,可以清除此信息。可以将通过此方法的扫描表示为窥视孔扫描(peephole scanning)。
因此,调节执行文档扫描的计算机和相关设备、器材和/或机器的硬件或软件,使得其以相对于版权法来说在法律上正确的方式起作用。如果没有从存储器清除任何表示文档内容的信息,那么违反版权法。相反,如果清除所有表示文档内容的信息,则将没有可用于文本媒体的监控测的信息。本发明提供的上述方法在不清除任何信息和清除所有信息之间,因为,在本发明中,当提供输出时,所选择的清除动作使得可能执行文本媒体的自动监控,同时避免违反版权法。
因此,本发明通过上述计算机执行的扫描方法解决了将监控文本媒体的过程自动化的问题,并且,本发明通过从存储器清除表示文档内容的信息的一部分,使得在存储器中将不存在文档的完整拷贝,而解决了避免违反版权法的问题。
窥视孔扫描可通过将像场(image filed,像域)移动至移动位置并用摄像机获取记录来执行。然而,窥视孔扫描也可通过在文档页上方安装多个摄像机并依次使用这些摄像机来获取记录。此外,窥视孔扫描也可以通过(例如)显示文档的屏幕或其他形式的连续文档表示的视频记录来执行。
当评测字符串并进行输出时,从存储器清除一部分字符串和一部分记录,以排除在扫描过程中生成文档或部分文档的拷贝。
本实施方式的另一优点是,如果在字符串中发现整个词或词的一部分,那么在提供输出之前可以不清除此信息。因此,在此情况中,期望的信息可以是整个词或词的一部分。如果在字符串中没有词的指示,那么也可以清除记录的至少一部分,以使得最终将没有表示文档内容的内容或信息会被存储。
另一优点是,从存储器清除信息的技术效果是,与如果存储所有信息相比,减少了所存储的信息的量,因此可减小存储装置和/或存储器使用的规格,和/或占据更少的空间。
除了上述优点以外,本发明包括已知技术的自动化效果和优点,例如快速且可靠,降低人工执行的人力工作的成本,减少人们可能犯的错误和不规则性等。
此外,有利的是,与现有技术相比,对于数据存储可能需要更小的存储器或更少的存储容量,因为在文档的扫描过程中从存储器中连续地且规则地清除并删除数据。
字符可能是文字、符号、标记和/或字素(grapheme),例如字母、汉字、数字、标点符号,以及世界上任何文字系统(writing system)中的所有单独符号。
在一个实施方式中,如果不满足预定条件,那么确定是否从存储器清除至少一个记录的至少一部分,包括:
确定所评测的字符的数量;以及
-如果少于预定数量的字符被评测,那么,不清除至少一个记录的至少一部分;以及
-如果多于或等于预定数量的字符被评测,那么,清除至少一个记录的至少一部分。
本实施方式的一个优点是,如果已经评测了多于或等于预定数量的字符,那么从存储器清除至少一个记录的至少一部分。因此,本实施方式确保不超过表示文档内容的信息的上限或阈值。然而,如果少于预定数量的字符被评测,那么不清除至少一个记录的至少一部分,因为在清除之前可以存储更多表示文档内容的信息。
在一个实施方式中,本方法进一步包括,如果不满足条件,则确定是否从存储器清除字符串的至少一部分。
有利的是,如果不满足条件,则从存储器清除字符串的至少一部分,因为这可以减少表示文档内容的信息。
在一个实施方式中,预定条件包括,字符串包括或被确认为至少一个词。本实施方式的一个优点是,当字符串包括一个词时,将记录该词,并清除字符串和记录(该词来自其中)的至少一部分,以避免产生文档的拷贝,从而避免违反版权法。
在一个实施方式中,提供包括至少一个词的索引列表。本实施方式的一个优点是,将识别的词记录在索引列表中,从而,此信息表示文档内容并可被访问,以便(例如)在之后与关键词列表进行匹配。
在一个实施方式中,本方法包括,如果至少一个词与其中一个预定的中止词(stop-word)匹配,那么从索引列表清除、省去或省略此至少一个词。
本实施方式的一个优点是,并不是所有词都在索引列表中提供,因为可能一些词或词组从未定义为关键词。通过从索引列表省去leaving out这些所谓的中止词,与如果所有词均包括在索引列表中相比,该索引列表可以更短,并且,当索引列表不包含不希望的词和信息时,可以更易于访问信息。这些中止词或中止词组可以是,例如,诸如“例如”、“和”、“等等”、“其中”、“或”、“这个”、“一个”、“等”等的词。中止词的定义可以是,中止词或中止词组不代表关于文档内容的有意义的、有价值的或重要的信息。可以将与中止词相对的词定义为吻合词(hit-word,命中词),例如,包含关于文档内容的信息的词。因此,可以将索引列表定义为包含这样的词的列表,这些词包含关于文档内容的有意义的信息。
替代地,甚至可以在将中止词作为词输出之前,就从存储器清除这些中止词,即,本方法包括,如果至少一个词与其中一个预定中止词匹配,那么清除、省去或省略该至少一个词。
此外,本方法可以包括,提供索引列表,该索引列表包括来自字符串的没有被清除、省去或省略的至少一个词。
在一个实施方式中,在词之前和之后具有空格(space,间隔)的情况下,识别该词。
本实施方式的一个优点是,可以通过本方法轻松地识别词。空格可以是一个句子中的词之间的间隔。该间隔可以是空白或间隙,此处没有字符,因此文档在这些位置中不包含信息。可以将措辞“之前”和“之后”定义为表示紧接地在之前和之后和/或直接在之前或之后,即,间隔可以是紧跟词的相邻的地方、地点、位置或区域。
如果一个词是文本中的第一个词,或行间隔或行移动(line shift)之后的第一个词,那么在该词之前可能没有间隔,而是仅在该词之后有间隔。
在一个实施方式中,在一词之前有间隔并且在该词之后有和字母不同的字符的情况下,识别该词。
本实施方式的一个优点是,通过本方法,可以识别一个句子中的最后一个词。在一个句子中的最后一个词之后,可能没有间隔,但是,可能有句号、逗号、感叹号、问号等。
替代地和/或附加地,词可以包括上标和/或下标文本,词可以用引号框起来,词可以存在于图片中,词可以通过连字号分成两行或更多行,词可以是带有连字号的等。
在一个实施方式中,通过包括一种或多种语言中的每一个词的数据库来识别词,并且,如果在字符串与数据库中的词之间存在匹配或趋同(convergence),或者如果字符串被识别为数据库中的其中一个词,那么将所述字符串定义为词。
本实施方式的一个优点是,可以通过在包括书写文档的文本所用的语言的词的数据库中识别词,从而来识别这些词。可以将语言定义为书面语和/或口语。
在一个实施方式中,输出是所识别的至少一个词。本实施方式的一个优点是,通过输出至少一个词,有可能检测表示文档内容的信息。
在一个实施方式中,输出是文档中的位置的参考,至少一个词位于该位置处。
本实施方式的一个优点是,将输出作为参考文档中的词的地点、位置或区域,因此,后来会发现,当从存储器清除记录和词时,由此给出了对于记录的位置的参考,上述记录包含了关于词位置的信息。该位置可以是,例如,记录的大致位置。利用位置确定来获取记录是有利的,这将使得在后面更易于给出对于文档中的词的位置的参考。
在一个实施方式中,产生并存储关于至少一个词在文档中的位置或地点的信息。
在一个实施方式中,至少一个词被代表为一代码。本实施方式的一个优点是,可通过任何适当的代码(例如,字符、字母、符号、标记、参考标号、对关键词列表的索引等)来代表被识别为词的字符串的输出。
在一个实施方式中,输出包括索引列表和对于如下地点的参考,该地点代表受到扫描的文档中相应词的位置。
本实施方式的一个优点是,输出索引列表和位置参考,因为,由此有可能检测表示文档内容的信息和词在文档中的位置。
在一个实施方式中,生成的关键词列表包括多个预定的关键词。
本实施方式的一个优点是,通过生成关键词列表,有可能检测文档中的关键词。这些关键词可以是这样的词,它们被选择成是在文档中进行搜索的词,因为这些词对于,例如希望知道在报纸等中如何提及一名称、公司等的客户来说,可能是重要的。关键词可能是人名、公司名、产品名等。
在一个实施方式中,将关键词列表与索引列表进行比较,如果关键词列表中的一关键词与索引列表中的一词匹配,那么提取、记录或记下此词。
本实施方式的一个优点是,当将索引列表与预定的关键词列表进行比较时,可以发现两个列表之间的匹配,进而提取同时出现在索引列表和关键词列表中的词。
有利的是,可以执行电子输入的基于内容的评测,以发现相关的文档信息片段,即,关键词。可以将此定义为过滤,因此可以执行内容的过滤,或表示内容的信息的过滤。可以过滤文档内容,以提取某人希望获得的信息并过滤掉剩下的信息。
为了执行内容的过滤,可能定义过滤器特性。可通过预定条件定义过滤器特性。预定条件可以是,例如,词的识别、关键词的识别、字符串的最大长度等。如果关键词的识别是过滤器特性,那么,根据这一点,仅有关键词通过过滤器,而将文档中剩下的信息留在后面。通过过滤文档的内容,不会得到文档的完整拷贝,并且仅从文档中提取期望的信息。
期望的信息可以是比文档中的所有信息少的信息,从而使得仅提取文档内容的一部分,因此,文档的一部分可以不作为输出而提供。
实际上,当过滤器识别一词或关键词时,可以存储该词或关键词及其在文档中的位置。一旦存储了该词或关键词及其位置,便可删除包含该词或关键词的记录,例如图像,因为该词或关键词需要的所有信息都被register了。这样,不会产生文档的任何拷贝,因为扫描涉及过滤处理而不涉及拷贝生成。
本实施方式的另一优点是,可相继地布置并连续地重新发现词或关键词,以在从文档中切割文本、列表生成、摘要书写等中使用。可以提供示出了词或关键词在文档中的位置的文档模板,进而该文档模板可以用来在不制作文档拷贝的情况下给出词或关键词在原始文档中的物理位置的概览。除了关键词以外的所有其他词都可以例如用文档模板中的灰色区域指明。
还可以在文档模板中表示词或关键词的字体大小以及例如灰度颜色,使得可能确定词或关键词是否位于标题中,是否位于主体文本中等。
本实施方式的另一优点是,可在扫描之后找出词或关键词在文档中的位置,并且,可用此信息来比较词或关键词相对于彼此的位置,以确定某些词或关键词是否位于彼此附近。当与其他词或关键词结合时,词或关键词可能具有特殊意义,并且,它们相对于彼此的位置可能包含对于客户来说重要的信息。
可通过不同方式来确认关于词或关键词的位置的信息,例如:
-通过词或关键词的坐标;
-通过词或关键词所处的行的位置;
-通过词或关键词在所处的文档中是哪一编号的词;
-通过印刷符号,其中,印刷符号包括句号、逗号等;
-通过词或关键词在所处的文档的哪一编号的句子中;
-通过词或关键词在哪一编号的区段或段落中。
在一个实施方式中,本方法包括将所选择的记录拼合在一起而成为一复合记录。
本实施方式的一个优点是,有可能将所选择的记录拼合在一起而成为更大的记录或图像。这是有利的,因为,如果对包含许多不同字体大小的字符(即,标题的大字符字体大小和主体内容、说明文字等的较小的字符字体大小)的报纸进行扫描,视域尺寸有时将比字符(小的记录或图像尺寸)的字体大小小很多。并且,由于优选地,视域尺寸可以比经受字符识别的最小的字符对象的字体大小的(例如)5倍小,所以较大的字符将通常延伸经过不止一个记录,因此,需要将所选择的记录拼合在一起。
可以将文档页上的字符的字体大小作为输入提供给窥视孔扫描仪,例如,由操作员等键入。
在一个实施方式中,处理复合记录,以执行对延伸经过多个所选择的记录的字符的识别。
本实施方式的一个优点是,在将记录拼合在一起之后,可执行延伸经过多个所选择的记录的字符的字符识别,因为复合记录将提供完整字符的图像或记录。
在一个实施方式中,当处理至少一个记录以识别字符未导致字符的识别时,执行将所选择的记录结合在一起而成为复合记录的步骤。本实施方式的一个优点是,当不可以从至少一个记录的处理识别字符时,执行复合记录的拼合和处理。这样,即使字符延伸经过不止一个记录,也可确定这些字符。
在一个实施方式中,预定条件包括,当已经拼合预定数量的记录时,所拼合的复合记录是否导致字符的识别。
本实施方式的一个优点是,加以注意,并且,如果复合记录与字符不相似,那么可以停止处理。然后,复合记录可以是图片的一部分。预定数量的所拼合的复合记录可以确保,不会由于扫描仪处在字符搜索的过程中而无意地处理了完整的图像。通过本方法,确保适当的预定最大数量的拼合记录被选择,从而不会违反版权法。
本实施方式的另一优点是,确保将在达到记录数量的上限或阈值之前加以注意。如果在停止之前过多的记录被评测,那么扫描可能违反版权法,但是,本实施方式确保这将不会发生。
在一个实施方式中,预定条件包括,在相邻记录中出现相同的颜色。
本实施方式的一个优点是,如果相邻记录(即,彼此紧邻的记录)包含相同的颜色,那么这些记录将可能是字符而不是图片。另一方面,如果相邻记录不包含相同的颜色,那么其可能是图片、照片、图画等的记录。为了避免扫描图片,将清除文档的此部分的扫描。
在一个实施方式中,当满足预定条件时,清除复合记录。
本实施方式的一个优点是,当满足条件时,例如,进行输出并从文档获得所有期望的信息时,可清除记录的拼合。这样,某人将避免制作文档的拷贝,进而避免违反版权法。
在一个实施方式中,预定条件包括,评测比预定数量少的字符。
本实施方式的一个优点是,确保如果所评测的字符的数量超过预定上限或阈值,那么将停止字符识别处理。如果评测过多字符,那么可能违反版权法,但是,本实施方式确保这将不会发生。
在一个实施方式中,预定条件包括,字符字体大小小于预定字体大小。
本实施方式的一个优点是,如果字符字体大小大于最大的预定字体大小,那么将停止字符识别处理,以避免扫描大字符,否则这可能将是非常耗时的过程,而这可能并不是所希望的。
在一个实施方式中,将视域构造为具有彼此相邻地布置在连续文本(即,完整文本)中的11个词的尺寸。替代地,将视域构造为具有在连续文本中彼此相邻的5个词的尺寸、在连续文本中彼此相邻的15个词的尺寸、在连续文本中彼此相邻的20个词的尺寸、在连续文本中彼此相邻的25个词的尺寸等。如果视域包括被彼此相邻地布置在连续文本中的11个词,那么视域可以覆盖书的一页的宽度或A4文档尺寸的文档的宽度,同时,视域的高度可以是字体的尺寸。如果扫描多栏目页面,例如报纸页面,那么每个栏目行可以包含比在连续文本中彼此相邻的11个词少的词,并且,多栏目页面的宽度由此也可以包含比在连续文本中彼此相邻的11个词少的词。多栏目页面的宽度可以包含多于11个词,但是,这11个词在连续文本中可能不是彼此相邻的。因此,在一个实施方式中,将视域构造为具有与文档的宽度和字符的字体大小的高度相对应的尺寸。
在一个实施方式中,将视域构造成具有比经受字符识别的最小字符的尺寸的5倍小的尺寸。
替代地,将视域构造为具有如下定义的尺寸:
-具有10mm、20mm、30mm等的尺寸;
-每个文档页面的视域对应预定的数量,例如,100或200;
-与最大的字符字体大小相关;
-与最小的字符字体大小相关;
-与文档页面尺寸相关。
这些实施方式的优点是,确保在一个记录中不扫描过多字符,因为这会导致扫描过多文本,由此会无意地违反版权法。通过确保视域具有例如比最小字符的字体大小的5倍小的尺寸,一次不可能无意地扫描过多字符。
视域的尺寸还可能比最小字符的字体大小的4倍小,或比最小字符的字体大小的6倍小。
优选地,在清除图像和字符串之前扫描并识别全部词。但是,如果扫描了许多字符而没有识别出词,那么可以在没有识别出词的情况下清除这些字符串和图像。这可能是这样的情况,如果文本包括字符识别系统/软件不知道的语言或词,那么因此可以在制作预定数量的记录之后清除字符和图像,以避免存储文档的过多内容,这可能违反版权法。
在一个实施方式中,同时获取至少两个记录。
本实施方式的一个优点是,通过例如同时垂直地获取多个记录,扫描处理可以变得明显更快。同时,记录过多文本(其可能会违反版权法)的危险将不存在,因为,通过垂直地获得多个记录,将不同时记录水平地书写在文档页面上的词和句子。
当已经处理记录以执行光学字符识别,并且出现的词被识别出时,每个记录最终都被清除,因此,不会制作出文档的拷贝。
此外,在一些语言中以及在一些国家中,在页面上可能是从右向左阅读,而不是从左向右阅读,和/或垂直地阅读而不是水平地阅读,和/或从页面底部向页面顶部阅读,而不是从页面顶部向页面底部阅读,等等。因此,也可以在页面上从右向左而不是从左向右地执行扫描,和/或垂直地而不是水平地执行扫描,和/或从页面底部向页面顶部而不是从页面顶部向页面底部地执行扫描,等等。
在一些实施方式中,在所扫描的文档上的文本的处理可以包括机器翻译(MT),其是计算语言学的领域,其中,用计算机软件将文本从一种语言翻译成另一种语言。基本上,机器翻译执行一种语言中的词向另一种语言中的词的简单替代。机器翻译可以是基于规则的机器翻译、基于实例的机器翻译、统计机器翻译(SMT)等。
在一些实施方式中,在所扫描的文档上的文本的处理可以包括重述或改述,即,可以将文本的词或句子重述或改述成相同语言的具有与原始词或句子相同意义的不同词或句子。当使用根据本发明的方法时,例如,扫描三个词,将其存储在存储器中,然后进行处理。通过软件程序产生三个词的意义或意思,并且,针对三个原始词生成一个或多个同义词或同义句。因此,生成了原始词、句子或文本的等同词、句子或文本,具有与原始词、句子或文本相同的意义或意思,但不违反版权法。应理解,可以处理多于或少于三个词,以重述或改述原始文本或部分文本。
在窥视孔扫描处理的一些实施方式中,在扫描之前,利用某种覆盖物在第一区域中部分地隐藏或覆盖待扫描的文档,并且,当已经扫描所覆盖的文档,且已经处理并删除内容和图像时,随之在扫描之前利用某种覆盖物再次部分地隐藏或覆盖文档,但是,现在是在相对的第二区域中。
有利的是,扫描可这样执行,部分地覆盖待扫描文档,然后在相对区域中部分地覆盖该文档,因为这使得扫描可快速且有效地执行。
本发明涉及不同方面,包括上述和下述的方法,以及相应的方法、装置、使用和/或产品装置,每个均产生一个或多个结合第一所述方面描述的好处和优点,并且,每个均具有与结合第一所述方面描述的和/或在所附权利要求中公开的实施方式相应的一个或多个实施方式。
特别地,这里公开的是计算机可读的介质,其编码有当在计算机上运行时执行根据以上任一实施方式的方法的程序。
另一方面是包括扫描装置和装载有程序的计算机的系统,当上述程序在计算机上运行时,该程序执行根据以上任一实施方式的方法。
又一方面是文档扫描仪,包括:
-扫描头,用于获取至少一个限于覆盖文档的界定区域的视域的记录;
-处理器,适于识别记录中的字符;
-数据存储器,用于存储至少一个记录并用于存储所识别的字符;
-程序存储器,在处理器上存储一组可执行程序指令,以执行根据任一实施方式的方法。
附图说明
下面将参考附图给出实施方式的详细描述,附图中:
图1示出了扫描方法的流程图;
图2示出了窥视孔扫描仪的全部处理过程;
图3示出了窥视孔扫描处理的一个实例;
图4示出了与阅读头运动重叠的报纸页面的区段;
图5示出了窥视孔扫描处理的一个实例。
具体实施方式
本发明的数字扫描仪扫描文档,而不会生成文档的数字拷贝。在扫描操作的任何给定时间,所谓的窥视孔扫描仪可以在其存储器中仅包含几个词或部分词,之后清除或重写这些词或部分词。可通过包含文档的词的索引列表来保存文档中的信息。通过此扫描和搜索方法,使用者不应侵犯相应作者的版权。
图1示出了扫描方法的流程图。
可以通过移动记录的位置101来执行扫描,例如,通过扫描仪在文档(例如,报纸)的表面上方以连续方式移动来进行,并且,对于每个步骤,扫描仪都获取在文档的视域中的记录(例如,图像)102。视域优选地是小的,并且,可以不同方式定义视域的尺寸:
-视域可构造成具有比经受字符识别的最小字符的字体大小的5倍小的尺寸;
-视域可构造成具有10mm的尺寸;
-视域可构造成具有与预定数量的记录或每个文档页面的像域相对应的尺寸;
-视域可构造成具有与最大字符字体大小相关的尺寸;
-视域可构造成具有与最小字符字体大小相关的尺寸;
-视域可构造成具有与文档页面尺寸相关的尺寸。
如上所述,可通过将像域移动至移动位置并用摄像机获取记录来执行窥视孔扫描。替代地,也可通过在文档页面上方安装多个摄像机并依次使用这些摄像机获取记录来执行窥视孔扫描。例如,可以在文档上方成正方形地安装100个摄像机,并且,右上角的第一摄像机可以获取第一记录,与第一摄像机相邻的第二摄像机可以获取第二记录等,直到已经扫描整个文档。
也可通过(例如)显示电子文档(例如,电纸书(electronic book)或电子书(e-book))的显示屏的视频记录来执行窥视孔扫描。可通过在位于固定窥视孔扫描仪(例如,视频摄像机)的前面的显示屏上向上或向下滚动文档来记录显示屏上的文档,或者可通过将窥视孔扫描仪移动经过屏幕来记录显示屏上的文档。在所有情况中,例如,可水平地或垂直地执行扫描。此外,可以通过使用来自计算机的监视器输出(例如,视频图形阵列(VGA)监视器信号等)来执行视频放映。监视器信号携带将在监视器上显示的连贯的电子文档。窥视孔扫描仪可以从连贯的监视器信号提取窥视孔窗口,例如,40个连续扫描行的每一行中的40个像素,从而,可以从监视器信号中取出与窥视孔窗口对应的图片。然后,可以向下或向上或向左或向右或对角地等移动窥视孔窗口,并且,可以用窥视孔扫描仪扫描新的窥视孔窗口。在每次扫描时,均获取与窥视孔窗口对应的图片。然后,所记录的数据可以通过字符识别在计算机中转化,并进行如上所述的处理。
在扫描处理中的每个步骤之后,窥视孔扫描仪都将包含文档表面的区段的小的记录103,例如,图像。该记录可以是灰度的、黑/白的(即二元的),或彩色的。
用光学字符识别(OCR)分析每个记录或图像区段,以确定其是否包含字符、部分字符、图片的一部分、空白视域或其组合104。
如果记录区段包含字符,那么该记录区段被登记并被转移至所谓的词构造器105,见下文。
如果记录区段包含字符的一部分且字符因此未被识别,那么进行下一次记录106,并且,OCR等候确定是否可将这些记录区段拼在一起,以形成一字符,该字符可被转移至词构造器。
如果记录区段包含图片或图片的一部分,那么可以清除该图片部分,以避免拷贝受版权保护的图片、照片等。记录区段的剩余部分将用来确定,是否可将其与后续的记录区段拼在一起以形成字符。
在连续处理中,词构造器将收集所扫描的字符,并形成其词。当形成一词时,满足了预定条件107,并提供输出108。然后,这些记录可以继续搜索整个文档。
如果字符串与预定条件不匹配,那么确定是否应从存储器清除至少一个记录的至少一部分109。清除的确定109可以以所评测的字符的数量为基础。在一个实施方式中,如果所评测的字符的数量小于预定数量,那么不清除至少一个记录的至少一部分,并且,如果所评测的字符的数量大于或等于预定数量,那么清除至少一个记录的至少一部分。不管在步骤110中是否清除至少一个记录的至少一部分,记录和扫描都可以继续106。
当从字符串中发现词时,检查整个字符串,而且,当字符串形成了在例如两行上延展的词且该词通过连字号分隔时,也是如此。因此,如果连字号作为当前行上的最后一个字符标记出现,那么窥视孔扫描仪将继续扫描下一行。
窥视孔扫描仪可像传统的扫描仪一样发挥作用。传统的扫描仪通过设置像域、获得图像,并将图像存储在存储器中来起作用。
此外,传统的扫描仪可执行OCR和搜索引擎(SE)处理(例如,寻找关键词)的任务。当传统的扫描仪执行这些步骤时,所获得的信息被存储,从而制作出所扫描的文档的拷贝。
扫描仪可以是平台式扫描仪、滚筒式扫描仪、进给式扫描仪等。
窥视孔扫描仪可以执行这些相同的三个任务:扫描、字符识别和可能的关键词匹配。但是,窥视孔扫描仪在一个连续操作中执行这些任务,且不会生成文档的任何拷贝。传统的扫描仪典型地同时获取整个文档的图像,而窥视孔扫描仪每次仅获得文档的界定区域的图像。
图2示出了窥视孔扫描仪的整个处理过程,而图1示出了其详细的处理过程。窥视孔扫描仪“阅读”文档301,执行光学字符识别(OCR)302,并搜索词303,如图1中的那样。产生的输出是所扫描的文档包含的词的某种表示。此表示可用于不同的目的,例如,用于产生切割列表,用于产生索引列表,用于制作可能的摘要书面文字等304。
窥视孔扫描仪可以结合硬件、固件和软件部件。
图3示出了窥视孔扫描处理的一个实例,其整体上与图1的作用类似。在图3a)中,将文档页面401放在扫描仪402下方。将扫描仪的阅读头403布置在轨道(一个或多个)405上,上述轨道可在导轨(一个或多个)406上移动,以在文档的整个表面上方移动。阅读头403通过扁平电缆、USB连接、红外线通信等与阅读头运动控制器408和扫描定序器(SS)407连接,见图3b)。
在一个实例中,阅读头是具有8位灰度分辨率的100×100像素的CCD阵列。因此,窥视孔在物理窗口视域中包含10000个像素,相当于1cm×1cm,其等于小型页面尺寸的千分之一。
虽然这里提到阅读头的一个实例,但是应理解,阅读头可具有任何规格。
在图3b中,扫描定序器(SS)407控制阅读头运动408。
通常,阅读头的运动是从左向右往复循环。如果光学字符识别(OCR)409和拼合(jigsaw)OCR 410(见下文)针对以另一方式移动阅读头的请求设置了进程(stage,步骤),例如,水平向左、垂直向下或沿对角线向上,那么会改变此顺序。
阅读头运动408可能由TWAIN接口控制,TWAIN接口是针对图像获取装置的标准。TWAIN接口可以控制扫描仪阅读头的位置(即,阅读头的x、y坐标),并控制坐标的增加(即,Δx、Δy)等。
OCR 409执行一系列任务。它可以搜索窥视孔视域的内部区域,以定位一个或多个完整字符,然后,它可以搜索边界,以定位可形成部分字符的形状。此OCR寻找垂直和水平边界线的片段。此OCR可以寻找行空间并评测对准。此OCR可以寻找连续的标记和栏目分隔间隔。此OCR可以寻找是较大字符的一部分的单灰色色调形状。此OCR可以寻找具有变化的灰色色调的区域,该区域可以是图片的一部分。将所识别的字符(例如,带有其字体大小和在文档中的位置)转移至词构造器411。
虽然这里提到了OCR任务的实例,但是应理解,可以任何适当的方式执行OCR扫描。
拼合OCR 410使相邻的窥视孔图像或记录(例如,2、4、9或16个窥视孔图像)结合以形成窗口,然后,这些窗口在重复处理中经受OCR处理。拼合OCR 410与扫描定序器407相互作用,并请求其需要哪个相邻窥视孔来制造字符的完整图像。每个扫描与达到8个的相邻扫描相结合,分析每个扫描以识别字符或部分字符、行和图片。
词构造器411从OCR 409和拼合OCR 410一个接一个地接收例如包括其字体大小和位置的字符。这些字符串包括相等的间隔/空白字符和换行。词构造器411将字符组成词,并提供包含来自文档的词的索引列表。可以将索引列表与关键词列表进行比较,以发现文档中的任何关键词。可以清空/清除或用特殊字符代替在文档中发现的词或字符。可以用预定的灰色色调或pictel代替具有图片、照片等的区域。结合有空格字符和垂直行检测的拼合OCR扫描可以评测页面的给定区域中栏目分离的似然性,并且,当处理文档内容时,可以考虑此信息。
最后,在页面的末尾扫描之后,HIT收集器412可以具有组合成的词和例如标题行的列表,并且,产生的输出可以是词的索引列表和词在文档中的位置,或者,其可以是任何其他适当的输出形式。然后,可以将索引列表与关键词列表进行匹配,以发现是否文档中存在有任何的关键词。
替代地和/或附加地,在一些实施方式中,所扫描的文档上的文本的处理可以包括机器翻译(MT),其是计算语言学的领域,其中,使用计算机软件将文本从一种语言翻译成另一种语言。基本上,机器翻译执行一种语言的词向另一种语言的词的简单替换。机器翻译可以是基于规则的机器翻译、基于实例的机器翻译、统计机器翻译(SMT)等。
替代地和/或附加地,在一些实施方式中,所扫描的文档上的文本的处理可以包括重述或改述,即,可以将文本的词或句子重述或改述成相同语言的具有与原始词或句子相同意义的不同词或句子。当使用根据本发明的方法时,例如,扫描三个词,将其存储在存储器中,然后进行处理。通过软件程序生成三个词的意义或意思,并且,生成三个原始词的一个或多个同义词或同义句。因此,生成了原始词、句子或文本的等价词、句子或文本,其具有与原始相同的意义或意思,但不违反版权法。应理解,可以处理多于或少于三个词,以重述或改述原始文本或文本的一部分。
图4a示出了与阅读头运动重叠的报纸的虚构前页面的区段,其中,扫描整体上与图1的作用类似。起始点在文档页面的左上角。前三个窥视孔扫描(PH扫描)501、502、503将被标记为没有内容,并被清除或由空白(大约是相同的颜色)重写。第四PH扫描(PH4)504包含信息,但是没有字符被OCR识别。因此,请求第五垂直PH扫描(PH5)505,并将其与PH4结合。OCR查看结合的扫描PH4+PH5,并检测字符“Thurs”和其他一些内容。扫描定序器请求第六和第七扫描,PH6506和PH7507。将扫描PH4+PH5+PH6+PH7结合,并将其提交给拼合OCR。该OCR返回词“Thursday”和字符“30t”以及其他一些内容。扫描定序器继续请求下一个扫描。可以将词“Thursday”和例如其字体大小转移至词识别器。由于字体大小的原因,可以将词分类成属于报头或标题句子。通过下次扫描,将识别出词“Newspaper”等。
图4b示出了主体文本的扫描,其遵循类似的搜索策略,如图1所示,一步接一步地一个字符一个字符地显现,并一个词一个词地组合,其中,在索引列表中保存每个词。然后,可以将索引列表与关键词列表进行比较。如果一个词未在关键词列表中被发现,那么可以用空白重写该词所占据的区域。
图4b中的实例示出了垂直扫描顺序。搜索处理将所示文本片段中以下的词“Infopaq”、名字“Jacob”(忽略连续标记)以及最后的姓“Meibom”显现。可以使文档中的任何图片成为空白。
图5示出了窥视孔扫描处理的一个实例,其整体上与图1的作用类似。在图5a)中,在扫描之前,待扫描文档600已经用某种类型的覆盖物在区域601中被部分地隐藏或覆盖。当已经扫描图5a)中所示的被覆盖的文档,并已经处理和删除内容与图像时,然后,如图5b)中所示的,在扫描之前用某种类型的覆盖物再次部分地隐藏或覆盖文档600,但现在是在相对的区域603中进行隐藏或覆盖。
如图5a)所示,当例如以传统扫描仪扫描被部分覆盖的文档时,不产生文档的拷贝,因为文档的整个内容由于部分覆盖而是看不见的或不可理解的。因此,仅文档的界定区域602被扫描,并被存储在扫描仪的存储器中。处理被部分覆盖的文档的扫描图像,以执行光学字符识别(OCR)。将所登记的字符存储在存储器中,并且,当获得字符串时,对照预定条件评测该字符串。根据是否满足预定条件,可以提供输出,并且,从存储器清除字符串的至少一部分和所扫描的图像的至少一部分,因此,所扫描的图像的内容(其仅代表文档600的一部分602)和所扫描的图像本身被至少部分地删除了。因此,最终可以删除整个所扫描的图像(其仅描述文档600的一部分602),因此,不再将文档600的部分602的扫描存储在存储器中。
现在,如在图5b)中看到的,与之前的区域相比,在相对的区域603上部分地隐藏或覆盖相同的文档600。如上所述,当用例如传统的扫描仪扫描该被部分覆盖的文档时,不产生文档的拷贝,因为文档的整个内容由于部分覆盖的原因而无法看见或理解。因此,仅扫描文档600的界定区域604并将其存储在扫描仪的存储器中。处理被部分覆盖的文档的扫描图像,以执行光学字符识别(OCR)。将所登记的字符存储在存储器中,并且,当获得字符串时,对照预定条件评测该字符串。根据是否满足预定条件,可以提供输出,并且,从存储器清除字符串的至少一部分和所扫描的图像的至少一部分,因此,所扫描的图像的内容(其仅代表文档600的一部分604)和所扫描的图像本身被至少部分地删除了。因此,最终可以删除整个所扫描的图像(其仅描述文档600的一部分604),因此,不再将文档600的该部分604的扫描存储在存储器中。
因此,当启动在区域603中被覆盖的文档600的扫描时,如图5b)所示,在区域601中被覆盖的文档600的扫描图像已经被删除了,如图5a)所示,因此,描述整个文档600的完整图像将不会存在。在记录、处理并删除文档600的部分604之前,将记录、处理并从存储器清除文档600的部分602。
区域602和604可以彼此重叠,例如部分重叠,以确保在例如所覆盖的区域601和603是歪斜的,或记录在某种程度上是歪斜的的情况下,文档中没有部分被遗失。
可以通过将不透明材料或对象物理地放在文档600的待覆盖的部分上,来提供覆盖物601、603。替代地和/或附加地,可以通过将不透明材料或对象物理地放在扫描仪的阅读头或玻璃板上,来提供覆盖物601、602。覆盖材料可以是,例如,纸、不透明带、不透明塑料、金属和/或类似物。
替代地,可以通过阅读器头的电子掩蔽或选通来提供覆盖物601和603。例如,扫描线可以是高度为1像素,长度为3000像素。然后,阅读器头可以扫描文档的每条扫描线的一部分,并删除每条扫描线的另一部分。例如,阅读器头可以扫描一扫描线的第一部分,例如像素数1-100,删除该扫描线的第二部分,例如像素数100-200,扫描该扫描线的第三部分,例如像素数200-300,删除该扫描线的第四部分,例如像素数300-400等等,直到每条扫描线的每个部分都被扫描或者删除为止。然后,在处理扫描线的所有扫描部分之后,将其从存储器清除,现在,扫描扫描线的所有在之前未被扫描而是被删除了的部分,并且,扫描线的之前被扫描了的部分现在被删除,例如,删除扫描线的第一部分,例如像素数1-100,扫描扫描线的第二部分,例如像素数100-200,删除扫描线的第三部分,例如像素数200-300,扫描扫描线的第四部分,例如像素数300-400等等。删除扫描线的一部分包括没有对存储器进行输入,即扫描线的该部分的内容被压制或忽略了。
在报纸页面上,字母或字符可以是高度15至20像素,并且,页面长度可以是3000像素,与如上所述的扫描线相对应。因此,通过扫描或删除扫描线的部分,可获得与图5所示的覆盖物相应的电子掩蔽。
此外,图片典型地是灰度或颜色变化的,并且,当扫描仪检测到文档上的灰度或颜色变化时(例如由阅读器头检测到),向包含灰度或颜色变化的像素分配一特定值,然后,清除或覆盖所有具有此特定值的像素,以隐藏这些像素的内容,其可能是图片。
覆盖物601、603的形式和形状可以是图5所示的列。替代地和/或附加地,覆盖物601、603的形式和形状可能是正方形、检查图案、格栅、三角形、圆形、线条、具有任何数量的边的多边形等。

Claims (31)

1.一种扫描文档的计算机执行的方法,包括以下步骤:
-将限于覆盖文档的界定区域的视域的至少一个记录获取至一存储器;
-处理所述至少一个记录,以执行字符识别;
-当字符被识别时,将该字符记录在一存储器中;以及,当在移动的位置进行记录的同时,重复执行以上步骤,以逐渐获得字符串;
其特征在于,
-对照预定条件评测所述字符串;
-如果不满足条件,则确定是否从所述存储器清除所述至少一个记录的至少一部分;
-如果满足条件,则提供输出,并从所述存储器清除所述字符串的至少一部分和所述至少一个记录的至少一部分。
2.根据权利要求1所述的计算机执行的方法,其中,预定条件包括所述字符串包括至少一个词。
3.根据权利要求2所述的计算机执行的方法,其中,提供包括所述至少一个词的索引列表。
4.根据权利要求2所述的计算机执行的方法,其中,如果所述至少一个词与预定中止词的其中之一匹配,那么从所述索引列表清除所述至少一个词。
5.根据权利要求2所述的计算机执行的方法,其中,在词之前和之后具有空格的情况下确认该词。
6.根据权利要求2所述的计算机执行的方法,其中,在词之前具有空格且在该词之后具有与字母不同的字符的情况下确认该词。
7.根据权利要求2所述的计算机执行的方法,其中,通过包括一种或多种语言中的每个词的数据库来确认词,并且,如果在所述字符串与所述数据库中的一词之间存在匹配,那么将所述字符串定义为一词。
8.根据权利要求1所述的计算机执行的方法,其中,所述输出是至少一个词。
9.根据权利要求1所述的计算机执行的方法,其中,所述输出是对于所述至少一个词在所述文档中的位置的参考。
10.根据权利要求1或2所述的计算机执行的方法,其中,生成并存储关于所述至少一个词在所述文档中的位置/地点的信息。
11.根据权利要求1或2所述的计算机执行的方法,其中,用代码代表所述至少一个词。
12.根据权利要求3所述的计算机执行的方法,其中,所述输出包括所述索引列表和对于代表了相应词在受到扫描的所述文档中的位置的地点的参考。
13.根据权利要求1所述的计算机执行的方法,其中,生成的关键词列表包括多个预定的关键词。
14.根据权利要求13所述的计算机执行的方法,其中,将所述关键词列表与所述索引列表进行比较,如果所述关键词列表中的关键词与所述索引列表中的一词匹配,那么提取此词。
15.根据权利要求1至14中任一项所述的计算机执行的方法,其中,如果不满足条件,那么确定是否从所述存储器清除所述至少一个记录的至少一部分,包括:
确定所评测的字符的数量;并且
-如果评测到小于预定数量的字符,那么所述至少一个记录的至少一部分不被清除;并且
-如果评测到大于等于预定数量的字符,那么清除至少一个记录的至少一部分。
16.根据权利要求1至15中任一项利要求所述的计算机执行的方法,进一步包括,如果不满足条件,那么确定是否从所述存储器清除所述字符串的至少一部分。
17.根据权利要求1至16中任一项所述的计算机执行的方法,包括将所选择的记录拼合在一起以成为复合记录。
18.根据权利要求17所述的计算机执行的方法,其中,处理所述复合记录,以执行对延伸经过多个所选择的记录的字符的识别。
19.根据权利要求17所述的计算机执行的方法,其中,当处理所述至少一个记录以识别字符的操作没有导致字符的识别时,执行将所选择的记录拼合在一起以成为复合记录的步骤。
20.根据权利要求1和17所述的计算机执行的方法,其中,所述预定条件包括,当已经拼合了预定数量的记录时,所拼合的复合记录是否导致字符的识别。
21.根据权利要求1和17所述的计算机执行的方法,其中,所述预定条件包括,评测到少于预定数量的字符。
22.根据权利要求1和17所述的计算机执行的方法,其中,所述预定条件包括,字符字体大小小于预定的字体大小。
23.根据权利要求1和17所述的计算机执行的方法,其中,所述预定条件包括,在相邻记录中出现相同的颜色。
24.根据权利要求17所述的计算机执行的方法,其中,当满足预定条件时,清除所述复合记录。
25.根据权利要求1至24中任一项所述的计算机执行的方法,其中,将所述视域构造为具有彼此紧邻地布置在连续文本中的11个词的尺寸。
26.根据权利要求1至25中任一项所述的计算机执行的方法,其中,将所述视域构造为具有与所述文档的宽度和所述字符的字体大小的高度相对应的尺寸。
27.根据权利要求1至24中任一项所述的计算机执行的方法,其中,将所述视域构造为具有比受到字符识别的最小字符的尺寸的5倍小的尺寸。
28.根据权利要求1至27中任一项所述的计算机执行的方法,其中,同时获取至少两个记录。
29.一种计算机可读的介质,编码有当在计算机上运行时执行根据权利要求1至27中任一项所述的方法的程序。
30.一种包括扫描装置和装载有程序的计算机的系统,当所述程序在所述计算机上运行时,所述程序执行根据权利要求1至27中任一项所述的方法。
31.一种文档扫描仪,包括:
-扫描头,用于获取限于覆盖文档的界定区域的视域的至少一个记录;
-处理器,适于识别所述记录中的字符;
-数据存储器,用于存储所述至少一个记录并用于存储所识别的字符;
-程序存储器,在所述处理器上存储一组可执行程序指令,以执行根据权利要求1至28中任一项所述的方法。
CN2009801081465A 2008-03-07 2009-03-05 扫描方法 Pending CN101981568A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DK200800345A DK176835B1 (da) 2008-03-07 2008-03-07 Fremgangsmåde til skanning, medium indeholdende et program til udövelse af fremgangsmåden samt system til udövelse af fremgangsmåden
DKPA200800345 2008-03-07
US6468108P 2008-03-19 2008-03-19
US61/064,681 2008-03-19
PCT/EP2009/052615 WO2009109626A1 (en) 2008-03-07 2009-03-05 Method of scanning

Publications (1)

Publication Number Publication Date
CN101981568A true CN101981568A (zh) 2011-02-23

Family

ID=40139106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801081465A Pending CN101981568A (zh) 2008-03-07 2009-03-05 扫描方法

Country Status (13)

Country Link
US (1) US8520224B2 (zh)
EP (1) EP2263172A1 (zh)
JP (1) JP2011513849A (zh)
CN (1) CN101981568A (zh)
BR (1) BRPI0909816A2 (zh)
CA (1) CA2717323A1 (zh)
DK (1) DK176835B1 (zh)
EA (1) EA201071041A1 (zh)
GE (1) GEP20135843B (zh)
IL (1) IL207979A0 (zh)
MX (1) MX2010009614A (zh)
SM (1) SMP201000111B (zh)
WO (1) WO2009109626A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112485029A (zh) * 2020-11-04 2021-03-12 网易有道信息技术(北京)有限公司 一种扫描设备测试系统、方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK176834B1 (da) * 2008-03-07 2009-11-23 Jala Aps Fremgangsmåde til skanning
US8924251B2 (en) * 2010-12-13 2014-12-30 Vlsi Research Inc. Systems and methods for providing one or more pages from an electronic document
US9459864B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Vector string range compare
US9454366B2 (en) 2012-03-15 2016-09-27 International Business Machines Corporation Copying character data having a termination character from one memory location to another
US9459867B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Instruction to load data up to a specified memory boundary indicated by the instruction
US9454367B2 (en) 2012-03-15 2016-09-27 International Business Machines Corporation Finding the length of a set of character data having a termination character
US9459868B2 (en) 2012-03-15 2016-10-04 International Business Machines Corporation Instruction to load data up to a dynamically determined memory boundary
US9588762B2 (en) 2012-03-15 2017-03-07 International Business Machines Corporation Vector find element not equal instruction
US9280347B2 (en) 2012-03-15 2016-03-08 International Business Machines Corporation Transforming non-contiguous instruction specifiers to contiguous instruction specifiers
US9268566B2 (en) * 2012-03-15 2016-02-23 International Business Machines Corporation Character data match determination by loading registers at most up to memory block boundary and comparing
US9710266B2 (en) 2012-03-15 2017-07-18 International Business Machines Corporation Instruction to compute the distance to a specified memory boundary
US9715383B2 (en) 2012-03-15 2017-07-25 International Business Machines Corporation Vector find element equal instruction
US9635204B2 (en) 2015-09-17 2017-04-25 International Business Machines Corporation Partial information capture and processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0465818A2 (en) * 1990-06-12 1992-01-15 Horst Froesel Mass document storage and retrieval system
WO2002017166A2 (en) * 2000-08-24 2002-02-28 Olive Software Inc. System and method for automatic preparation and searching of scanned documents
WO2008064378A1 (en) * 2006-11-21 2008-05-29 Cameron Telfer Howie A method of retrieving information from a digital image

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6042990B2 (ja) * 1978-05-22 1985-09-26 株式会社日立製作所 パタ−ン認識方法
US4731861A (en) * 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS62106574A (ja) * 1985-11-05 1987-05-18 Hitachi Ltd 文書画像フアイル登録検索方式
JPH02118786A (ja) * 1988-10-28 1990-05-07 Nec Home Electron Ltd 文字認識方法
JP3727995B2 (ja) * 1996-01-23 2005-12-21 キヤノン株式会社 文書処理方法及び装置
JP4153989B2 (ja) 1996-07-11 2008-09-24 株式会社日立製作所 文書検索配送方法および装置
JP2000059588A (ja) * 1998-08-12 2000-02-25 Minolta Co Ltd 画像処理装置
JP2001218010A (ja) * 2000-01-31 2001-08-10 Canon Inc 画像処理装置、画像処理方法、記憶媒体
GB2359953B (en) * 2000-03-03 2004-02-11 Hewlett Packard Co Improvements relating to image capture systems
WO2001077001A2 (en) * 2000-04-11 2001-10-18 Sandia Corporation Microelectromechanical apparatus for elevating and tilting a platform
US6904182B1 (en) * 2000-04-19 2005-06-07 Microsoft Corporation Whiteboard imaging system
US6944344B2 (en) * 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP2004318875A (ja) * 2003-04-04 2004-11-11 Dainakomu:Kk カルテ画像の読み取り
US20050076013A1 (en) * 2003-10-01 2005-04-07 Fuji Xerox Co., Ltd. Context-based contact information retrieval systems and methods
JP2006172083A (ja) * 2004-12-15 2006-06-29 Canon Inc 文書登録システム
US20080021938A1 (en) * 2006-06-29 2008-01-24 Ashish Jha Technique for allocating objects in a managed run time environment
US8209605B2 (en) * 2006-12-13 2012-06-26 Pado Metaware Ab Method and system for facilitating the examination of documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0465818A2 (en) * 1990-06-12 1992-01-15 Horst Froesel Mass document storage and retrieval system
WO2002017166A2 (en) * 2000-08-24 2002-02-28 Olive Software Inc. System and method for automatic preparation and searching of scanned documents
WO2008064378A1 (en) * 2006-11-21 2008-05-29 Cameron Telfer Howie A method of retrieving information from a digital image

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112485029A (zh) * 2020-11-04 2021-03-12 网易有道信息技术(北京)有限公司 一种扫描设备测试系统、方法和装置
CN112485029B (zh) * 2020-11-04 2022-10-18 网易有道(杭州)智能科技有限公司 一种扫描设备测试系统、方法和装置

Also Published As

Publication number Publication date
GEP20135843B (en) 2013-06-10
DK176835B1 (da) 2009-11-23
US8520224B2 (en) 2013-08-27
DK200800345A (da) 2009-09-08
WO2009109626A1 (en) 2009-09-11
EP2263172A1 (en) 2010-12-22
IL207979A0 (en) 2010-12-30
EA201071041A1 (ru) 2011-04-29
SMP201000111B (it) 2011-09-09
US20100321714A1 (en) 2010-12-23
SMAP201000111A (it) 2011-01-19
JP2011513849A (ja) 2011-04-28
CA2717323A1 (en) 2009-09-11
BRPI0909816A2 (pt) 2019-09-24
MX2010009614A (es) 2011-03-02

Similar Documents

Publication Publication Date Title
CN101981568A (zh) 扫描方法
EP0677812B1 (en) Document storage and retrieval system
US6768816B2 (en) Method and system for interactive ground-truthing of document images
EP0677818B1 (en) Image pre-processor for character recognition system
US5809167A (en) Page segmentation and character recognition system
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
US9514103B2 (en) Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US20110280481A1 (en) User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
CN100414549C (zh) 图像搜索系统、图像搜索方法和存储介质
Le Bourgeois et al. Document images analysis solutions for digital libraries
US5650799A (en) Programmable function keys for a networked imaging computer system
Ramel et al. User-driven page layout analysis of historical printed books
CN101981569A (zh) 扫描方法
Ramel et al. AGORA: the interactive document image analysis tool of the BVH project
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
GB2473228A (en) Segmenting Document Images
JPH0757040A (ja) Ocr付きファイリング装置
Pragnya Study of Information Extraction and Optical Character Recognition
Witschurke A Workbench for Document Processing
JPH08329114A (ja) 文書画像情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110223