CN105474202A - 确定从文档提取数据期间的错误 - Google Patents

确定从文档提取数据期间的错误 Download PDF

Info

Publication number
CN105474202A
CN105474202A CN201380078975.XA CN201380078975A CN105474202A CN 105474202 A CN105474202 A CN 105474202A CN 201380078975 A CN201380078975 A CN 201380078975A CN 105474202 A CN105474202 A CN 105474202A
Authority
CN
China
Prior art keywords
document
data
mistake
storage vault
collected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201380078975.XA
Other languages
English (en)
Inventor
菲利普·格林伍德
肖恩·布兰什弗劳尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lonza AG
Longsand Ltd
Original Assignee
Lonza AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lonza AG filed Critical Lonza AG
Publication of CN105474202A publication Critical patent/CN105474202A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开确定数据提取期间的错误的示例。根据本公开的方面,一个示例系统可以包括一个或多个处理器,存储器以及错误数据储存库。该系统还可以包括存储在存储器中且在该一个或多个处理器中的至少一个上执行的采集模块,该采集模块用于从文档库采集原始文件格式的文档。此外,该系统可以包括存储在该存储器中且在该一个或多个处理器中的至少一个上执行的提取模块,该提取模块用于从采集到的文档中提取文档数据。该系统可以包括存储在该存储器中且在该一个或多个处理器中的至少一个上执行的提取错误模块,该提取错误模块用于确定该数据提取期间是否发生错误以及用于将引起该错误的采集到的文档存储在该错误数据储存库内。

Description

确定从文档提取数据期间的错误
背景技术
随着互联网上的用户和设备的数量增加,与那些用户和设备有关的数据量也增加。此外,用户越来越依赖数字文档和其它数据,用户可以通过文档检索系统或文档管理系统来访问这些数字文档和其它数据。这些文档检索系统使用户能够从各种源快速地获取需要的信息。例如,文档检索系统可以允许用户基于文档的内容、基于与文档关联的元数据、或者既基于文档的内容又基于与文档关联的元数据来检索该文档。
附图说明
下面的详细描述参照附图,其中:
图1图示根据本公开的示例的用于确定数据提取期间的错误的计算设备的框图;
图2图示根据本公开的示例的用于确定数据提取期间的错误的计算设备的框图;
图3图示根据本公开的示例的用于确定数据提取期间的错误的方法的流程图;以及
图4图示根据本公开的示例的用于确定数据提取期间的错误的方法的流程图。
具体实施方式
文档检索系统将文档存储和索引在文档数据库中。许多时候,这可以包括存储和索引成百上千或甚至数百万个各种文档。可以检索文档数据库以获得特定文档或包含在这些文档中的信息,如这些文档的内容或通过与这些文档关联的元数据。但是,在该检索可以发生之前,这些文档必须被摄取到文档数据库中。
摄取(ingestion)通常是由采集过程和提取过程组成的两部分过程。该摄取从采集过程开始,在采集过程期间,文档检索系统从文档库、文件系统、网络服务器或服务、和/或其它合适的源获取原始文件格式的文档(或一组文档)。在采集文档之后,可以从采集到的文档中提取数据,如文档信息。但是,在提取过程期间可能发生错误。
以前,当在提取过程期间发生错误时,文档检索系统可以简单地删除文档,而不管错误如何。或者,文档检索系统可能已经将具有错误的文档存储到文档检索系统的主数据库中,由此破坏文档检索系统的主数据库的完整性。可选地,文档检索系统可能已终止该摄取过程,未完成任何文档摄取或仅完成文档摄取的一部分。这些之前的系统是不可靠的,并且可能引起由于诸如缺少操作系统源、配置错误或其它类似类型故障之类的因素而可能发生的零星故障。这样的错误可能导致整个摄取过程失败。
下面将通过参照确定数据提取期间的错误的几个示例来描述各个实施例。在一个示例中,在采集和索引文档的摄取过程的数据提取过程期间可能发生错误。当检测到该错误时,正从其中提取数据的一个或多个文档可以存储在专用数据库中,如在错误数据储存库中。在一个示例中,用户可以查看在该错误数据储存库中存储的一个或多个文档,或者文档检索系统可以自动地查看在该错误数据储存库中存储的一个或多个文档。在查看以后,可以向文档检索系统的主文档数据库移动文档,可以由文档检索系统将文档标记为重新摄取,或者可以从错误数据储存库中移除文档。
在一些实现方式中,由于通过对引起提取期间的错误的文档进行隔离而允许摄取过程继续,增量的摄取不被摄取过程期间的故障连累,这允许摄取继续不间断。此外,在摄取过程期间可以维持文档检索系统的主数据库的完整性。根据下面的描述,这些和其它优点将显而易见。
图1图示根据本公开的示例的用于确定数据提取期间的错误的计算设备100的框图。应理解,计算设备100可以包括任何合适类型的计算设备,包括例如智能电话、平板、台式机、便携式计算机、工作站、服务器、智能显示器、智能电视、数字标牌、科学仪器、销售设备零售点、视频墙、成像设备、外围设备等等。
计算设备100可以包括处理器102,处理器102可以被配置为处理指令。指令可以存储在非暂时性有形计算机可读存储介质(如存储器设备104)上,或存储在单独的设备上(未示出),或存储在任意其它类型的易失性或非易失性存储器上,该任意其它类型的易失性或非易失性存储器存储用于使可编程的处理器实施本文描述的技术的指令。可选地或此外,计算设备100可以包括用于实施本文描述的技术的专用硬件,如一个或多个集成电路、专用集成电路(ASIC)、专用特殊处理器(ASSP)、现场可编程门阵列(FPGA)、或专用硬件的前述示例的任意组合。在一些实现方式中,可以在适当时使用多个处理器以及多个存储器和/或多种存储器。
计算设备100还可以包括错误数据储存库106。错误数据储存库106可以存储被确定为(如由错误模块114)已经在数据提取过程期间引起错误的采集到的文档。在一个示例中,错误数据储存库106可以包括下面讨论的至少两个数据库:查看数据库和墓地数据库。
计算设备100可以进一步包括存储在存储器104中的并且在处理器102上执行的以模块形式的各种指令。这些模块可以包括采集模块110、提取模块112和错误模块114。如下面将在其它示例中进一步讨论的,还可以使用其它模块。在一个示例中,这些模块一起可以使计算设备能够通过采集文档并从文档中提取数据来摄取文档。这些模块还可以确定在数据提取期间是否发生错误。
采集模块110可以发起用于将文档摄取到文档检索系统(如计算设备100)中的过程。例如,采集模块110可以从文档库、文件系统、网络服务器或服务、或其它合适的源获取一个或多个文档。一个或多个文档可以具有多种文档格式。一个或多个文档还可以包括诸如文本、图像、公式等之类的内容,以及与文档关联的元数据。该元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等等。文档的内容及其关联的元数据可以使文档检索系统(如计算设备100)的用户能够检索关于该文档或涉及该文档的特定信息。采集模块110可以一次采集数百、数千或甚至数百万个文档,因此可以是非常耗时的过程。
在采集模块110已经采集文档或一组文档之后,可以由例如提取模块112提取包括一个或多个文档的内容及与一个或多个文档关联的元数据的文档数据。在提取过程期间,提取模块112提取与文档关联的文本内容和元数据供处理。从采集到的文档中提取数据可以包括提取文本、图像、公式等,以及与文档关联的元数据。元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等等。所提取的数据(如文档的内容及其关联的元数据)可以使文档检索系统(如计算设备100或计算设备200)的用户能够检索关于该文档或涉及该文档的特定信息。
错误模块14确定在数据提取期间是否发生错误。确定是否发生错误可以例如在计算设备100通过提取模块112从采集到的文档中提取数据时持续地发生,或者可以在计算设备100已经从采集到的文档中提取数据之后发生。确定是否发生错误可以包括:确定在没有导致故障的提取过程期间是否发生故障(即,引起全部过程确定的故障)。替代整个摄取过程终止,确定是否发生错误可以包括将采集到的文档标记为已引起或经历提取错误,使得可以查看引起或经历提取错误的采集到的文档。
如果错误模块114确定在提取期间发生错误,那么错误模块114可以将采集到的一个或多个文档加载到错误数据储存库106内。在一个示例中,错误数据储存库106可以包括查看数据库和墓地数据库,但是在一些实现方式中,这两个数据库可以结合为单个数据库。
图2图示根据本公开的示例的用于确定数据提取期间的错误的计算设备200的框图。应理解,计算设备200可以包括任意合适类型的计算设备,包括例如智能电话、平板、台式机、便携式计算机、工作站、服务器、智能显示器、智能电视、数字标牌、科学仪器、销售设备零售点、视频墙、成像设备、外围设备等等。
计算设备200可以包括处理器202,处理器202可以被配置为执行指令。指令可以存储在非暂时性有形计算机可读存储介质(如存储设备204)上,或存储在单独的设备上(未示出),或存储在任意其它类型的易失性或非易失性存储器上,该任意其它类型的易失性或非易失性存储器存储用于使可编程的处理器实施本文描述的技术的指令。可选地或此外,计算设备200可以包括用于实施本文描述的技术的专用硬件,如一个或多个集成电路、专用集成电路(ASIC)、专用特殊处理器(ASSP)、现场可编程门阵列(FPGA)、或专用硬件的前述示例的任意组合。在一些实现方式中,可以在适当时使用多个处理器以及多个存储器和/或多种存储器。
计算设备200还可以包括错误数据储存库206和文档数据储存库208。错误数据储存库206可以存储被确定为(如由错误模块214)已经在提取过程期间引起错误的采集到的文档。在一个示例中,错误数据储存库206可以包括下面将讨论的两个数据库:查看数据库206a和墓地数据库206b。文档数据储存库208可以存储未被确定为已经在提取过程期间引起错误的采集到的文档和/或因被确定为具有错误而查看的文档。
计算设备200可以进一步包括在存储器204中存储且在处理器202上执行的以模块形式的各种指令。这些模块可以包括采集模块210、提取模块212、错误模块214以及查看模块216。如下面在其它示例中将进一步讨论的,还可以使用其它模块。在一个示例中,这些模块一起可以使计算设备能够通过采集文档和从文档中提取数据来摄取文档。这些模块还可以确定在数据提取期间是否发生错误。
采集模块210可以发起用于将文档摄取到文档检索系统(如计算设备200)中的过程。例如,采集模块210可以从文档库、文件系统、网页服务器或服务、或其它合适的源中获取一个或多个文档。该一个或多个文档可以具有各种文件格式的。该一个或多个文档还可以包括诸如文本、图像、公式等之类的内容,以及与文档关联的元数据。元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等等。文档内容及其关联的元数据可以使文档检索系统(如计算设备200)的用户能够检索关于该文档或涉及该文档的特定信息。采集模块210可以一次采集数百、数千或甚至数百万个文档,并且因此可能是非常耗时的过程。
在采集模块210已经采集文档或一组文档之后,可以由例如提取模块212提取包括一个或多个文档的内容及其关联的元数据的文档数据。在提取过程期间,提取模块212提取与文档关联的文本内容和元数据供处理。从采集到的文档中提取数据可以包括提取文本、图像、公式等,以及与文档关联的元数据。元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等等。诸如文档的内容及其关联的元数据之类的所提取的数据可以使文档检索系统(如计算设备100或计算设备200)的用户能够检索关于该文档或涉及该文档的特定信息。
错误模块214确定在数据提取期间是否发生错误。确定是否发生错误可以例如在计算设备200通过提取模块212从采集到的文档中提取数据时持续地发生,或者可以在计算设备200已经从采集到的文档中提取数据之后发生。确定是否发生错误可以包括在没有导致故障(即,引起全部过程确定的故障)的提取过程期间是否发生错误。替代整个过程终止,确定是否发生错误可以包括将采集到的文档标记为已经引起或经历提取错误,使得可以查看引起或经历提取错误的采集到的文档。
如果错误模块214确定在提取期间发生错误,那么错误模块214可以将采集到的一个或多个文档加载到错误数据储存库206内。在一个示例中,错误数据储存库206可以包括查看数据库206a以及墓地数据库206b,但是在一些实现方式中,这两个数据库可以合并。查看数据库206a允许在提取过程以后需要查看的文档的短期存储。例如,如果错误模块214确定在从采集到的文档中提取数据时发生错误,那么该文档可以存储在查看数据库206a中。在一个示例中,查看数据库206a存储文档以及其所有文档字段。在配置期间,系统管理员可以指示文档在被自动地移动至墓地数据库之前(除非首先对文档进行某一其它操作)可以在查看数据库206a中停留的时间长度。
在一个示例中,墓地数据库206b允许未通过查看过程的文档的长期存储,或者在另一个示例中,墓地数据库206b允许从查看数据库206a自动地期满的文档的长期存储。墓地数据库206b可以存储文档及其元数据(也称为“文档字段”),或墓地数据库206b可以仅存储文档而忽略其元数据或文档字段。在配置期间,系统管理员可以指示应维持哪些元数据或文档字段(如果有的话),以及应忽略哪些元数据或文档字段(如果有的话)。在一个示例中,墓地数据库可以存储“引用”文档字段以在数据储存库206中唯一地识别该文档和/或选择与该文档有关的其它字段。墓地数据库206b通过移除故障文档的关联文档字段中的一些或全部,允许减少用于存储该故障文档的磁盘空间。
计算设备200还可以包括查看模块216,查看模块216用于使用户能够查看在数据储存库206中(以及特别地在查看数据库206a中)存储的文档。查看模块216提供使用户能够查看错误数据储存库206的界面。该界面可以进一步使用户能够引起计算设备200从被加载到错误数据储存库206内的文档中重新提取数据。在一个示例中,用户可以查看在数据储存库206的查看数据库(包括查看数据库206a)中存储的文档,并且确认每个文档是否适于正常索引(即,确认可以忽略该错误)。如果是,那么因适于正常索引而通过查看的文档可以被转移至文档数据储存库208,以供长期存储该文档。用户还可以确定应当由提取模块212重新提取该文档,或者应当将该文档移动至墓地数据库206b以进行删除且不重新提取。在一个示例中,上面提到的确定可以由计算设备200或者可以由其它合适的设备或逻辑自动地实施,并且可以不全部地由用户或根本不由用户实施。如果用户或计算设备确定应当重新提取该文档,那么在一个示例中,该文档可以绕开采集过程,或可以重新采集该文档,以便保留任何元数据。如果实际文档引起错误(即,它是损坏的),那么该用户可以在重新采集过程之前修复该文档。
图3图示根据本公开的示例的用于确定数据提取期间的错误的方法300的流程图。方法300可以由计算系统或分别诸如图1的计算设备100和图2的计算设备200之类的计算设备执行。在一个示例中,方法300可以包括:计算系统从文档库采集文档(框302);计算系统从采集到的文档中提取数据(框304);计算系统确定在数据提取期间是否发生错误(框306);以及响应于确定在数据提取期间发生错误,计算系统将采集到的文档加载到错误数据储存库内(框308)。
在框302处,方法300可以包括计算系统从文档库采集文档。从文档库采集文档可以包括从包括文件系统、网络服务器或服务、以及其它合适的源的一个或多个文档库中获取文档(或一组文档)。采集过程可以一次采集单个文档或多个文档。采集多个文档可以包括同时采集数百、数千或甚至数百万个文档。一旦采集了文档,方法300就可以继续至框304。
在框304处,方法300可以包括计算系统从采集到的文档中提取数据。采集到的文档是从文档库采集的文档(或一组文档)。从采集到的文档中提取数据可以包括提取文本、图像、公式等,以及与文档关联的元数据。元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等。诸如文档的内容及其关联的元数据之类的所提取的数据可以使文档检索系统(如计算设备100或计算设备200)的用户能够检索关于该文档或涉及该文档的特定信息。方法300可以继续至框306。
在框306处,方法300可以包括计算系统确定在数据提取期间是否发生错误。确定是否发生错误可以例如在计算系统在框304处从采集到的文档中提取数据时持续地发生,或者可以在该系统已经从采集到的文档中提取数据之后发生。确定是否发生错误可以包括确定在没有导致故障(即,引起整个过程终止的故障)的提取过程期间是否发生故障。替代简单地将具有错误的采集到的文档加载到文档数据储存库内,确定是否发生错误可以包括将采集到的文档标记为已经引起或经历提取错误,使得可以查看引起或经历提取错误的采集到的文档。此外,引起或经历提取错误的采集到的文档还可以被传递回采集过程和/或提取过程,以进行重新采集和/或重新提取。方法300随后可以继续至框308。
在框308处,方法300可以包括:响应于确定在数据提取期间发生错误,计算系统将采集到的文档加载到错误数据储存库内。一旦确定在数据提取期间发生错误,如在框306处确定,诸如计算设备100或计算设备200之类的计算系统可以响应于确定在数据提取期间发生错误而维护数据储存库,如用于将采集到的文档加载到其中的错误数据储存库。例如,像图1的错误数据储存库106或图2的错误数据储存库206这样的错误数据储存库可以存储被确定为在数据提取过程期间已经引起错误的采集到的文档(或被确定为已经发生错误的文档)。在一个示例中,错误数据储存库可以包括本文讨论的至少两个数据库:查看数据库和墓地数据库。
还可以包括其它过程。例如,方法300可以进一步包括:响应于确定该提取没有引起错误,将采集到的文档加载到文档数据储存库内,例如图2的文档数据储存库208。此外,方法300可以包括计算系统提供使用户能够查看错误数据储存库的界面。该查看可以包括用户指定文档应被删除、应被移动至文档数据储存库、或应被重新采集和/或被重新提取。该界面可以进一步使用户能够引起计算系统通过返回框302和/或框304而从被加载到错误数据储存库内的文档中重新采集和/或重新提取数据。方法300还可以包括计算系统从采集到的文档中重新提取文档信息,如在已纠正错误之后或在用户已确定采集到的文档应经历重新提取之后从该文档中重新提取文档信息。应理解,图3中示出的过程表示说明并且可以增加其它过程,或可以移除、修改或重新设置已有过程,而不脱离本公开的精神和范围。
图4图示根据本公开的示例的用于确定数据提取期间的错误的方法400的流程图。方法400可以由计算系统或诸如分别图1的计算设备100和图2的计算设备200之类的计算设备执行。在一个示例中,方法400可以至少包括以下步骤:计算系统从文档库采集文档(框402);计算系统从采集到的文档中提取数据(框404);计算系统确定在数据提取期间是否发生错误(框406);响应于确定该提取引起错误,计算系统将采集到的文档加载到错误储存库内(框408);以及计算系统提供使用户能够查看错误数据储存库的界面(框412)。
在框402处,方法400可以包括计算系统从文档库采集文档。从文档库采集文档可以包括从包括文件系统、网络服务器或服务、以及其它合适的源的一个或多个文档库中获取文档(或一组文档)。采集过程可以一次采集单个文档或多个文档。采集多个文档可以包括同时采集数百、数千或甚至数百万个文档。一旦采集了文档,方法400就可以继续至框404。
在框404处,方法400可以包括计算系统从采集到的文档中提取数据。采集到的文档是从文档库采集的文档(或一组文档)。从采集到的文档中提取数据可以包括提取文本、图像、公式等,以及与文档关联的元数据。元数据可以包括关于每个文档的各种信息,如文档作者、标题、日期、版本号、版本、位置、文件大小等。诸如文档内容及其关联的元数据之类的所提取的数据可以使文档检索系统(如计算设备100或计算设备200)的用户能够检索关于该文档或涉及该文档的特定信息。方法400可以继续至框406。
在框406处,方法400可以包括:计算系统确定在数据提取期间是否发生错误。确定是否发生错误可以例如在计算系统在框404处从采集到的文档中提取数据时持续地发生,或者可以在系统已经从采集到的文档中提取数据之后发生。确定是否发生错误可以包括确定在没有导致故障(即,引起整个过程终止的故障)的提取过程期间是否发生故障。替代简单地将具有错误的采集到的文档加载到文档数据储存库内,确定是否发生错误可以包括将采集到的文档标记为已经引起或经历提取错误,使得可以查看引起或经历提取错误的采集到的文档。此外,引起或经历提取错误的采集到的文档还可以被传递给提取过程,以在框402和/或框404处重新采集和/或重新提取。方法400随后可以继续至框408。
在框408处,方法400可以包括响应于确定该提取引起错误,计算系统将采集到的文档加载到错误储存库内。一旦确定在数据提取期间发生错误,如在框406处确定,诸如计算设备100或计算设备200之类的计算系统就可以响应于确定在数据提取期间发生错误,维护数据储存库,如用于将采集到的文档加载到其中的错误数据储存库。诸如图1的错误数据储存库106或图2的错误数据储存库206之类的错误数据储存库可以存储被确定为在数据提取过程期间已引起错误的采集到的文档(或被确定为已发生错误的文档)。在一个示例中,错误数据储存库可以包括本文讨论的至少两个数据库:查看数据库和墓地数据库。过程随后可以继续至框412。
在框412处,方法400可以包括:计算系统提供使用户能够查看错误数据储存库的界面。例如,计算系统可以在附接的显示器、监视器或其它合适屏幕上显示界面。该界面可以使用户能够查看在错误数据储存库中存储的一个或多个采集到的文档。用户可以访问这些文档中的每个以及任何相关信息,如错误发生的原因的错误代码,并且用户可以指定该文档应当被删除、应当被移动至文档数据储存库、或应当被重新采集和/或被重新提取。在一个示例中,替代提供使用户能够查看错误数据储存库的界面,计算系统可以自动地查看错误数据储存库,并且依赖于已有的及词用户限定的规则和逻辑来指定错误数据储存库中的文档应当被删除、被移动至文档数据储存库、或者应当被重新提取。
还可以包括其它过程。例如,方法400可以进一步包括:响应于确定在数据提取期间未发生错误,将采集到的文档加载到文档数据储存库内,如框410处所示。在一个示例中,可以在用于从采集到的文档中提取数据的过程成功完成时,将采集到的文档加载到文档数据储存库内,以存储文档和文档数据。此外,被加载到错误数据储存库内的采集到的文档可以随后在查看之后和/或在重新采集和/或重新提取之后被加载到文档数据储存库内。应理解,图4中图示的过程表示说明,并且可以增加其它过程,或可以移除、修改或重新设置已有过程,而不脱离本公开的精神和范围。
应当强调,上述示例仅是实现方式的可能示例,并且是为了清楚地理解本公开而阐述的。可以对上述示例进行许多变化和修改,而实质上不脱离本公开的精神和原理。此外,本公开的范围的目的在于覆盖上面讨论的所有元件、特征和方面的任意和所有合适的结合和子结合。所有这样的合适的修改和变化的目的在于包括在本公开的范围中,并且对元件或步骤的单独方面或结合的所有可能的权利要求旨在由本公开支持。

Claims (15)

1.一种系统,包括:
一个或多个处理器;
存储器;
错误数据储存库;
采集模块,所述采集模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述采集模块用于从文档库采集原始文件格式的文档;
提取模块,所述提取模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述提取模块用于从采集到的文档中提取文档数据;以及
提取错误模块,所述提取错误模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述提取错误模块用于确定在数据提取期间是否发生错误以及用于将引起所述错误的采集到的文档存储在所述错误数据储存库中。
2.根据权利要求1所述的系统,进一步包括:
文档数据储存库,其中如果在所述数据提取期间没有发生错误,那么所述提取错误模块将采集到的文档存储在所述文档数据储存库内。
3.根据权利要求1所述的系统,进一步包括:
查看模块,所述查看模块存储在所述存储器中且在所述一个或多个处理器中的至少一个上执行,所述查看模块用于提供使用户能够查看所述错误数据储存库的界面。
4.根据权利要求3所述的系统,其中所述界面进一步使所述用户能够引起所述计算系统从被加载到所述错误数据储存库内的文档中重新提取数据。
5.根据权利要求1所述的系统,其中从采集到的文档中提取的所述文档数据包括文本内容和元数据。
6.一种方法,包括:
计算系统从文档库采集文档;
所述计算系统从采集到的文档中提取数据;
所述计算系统确定在数据提取期间是否发生错误;以及
响应于确定所述提取引起错误,所述计算系统将采集到的文档加载到错误数据储存库内。
7.根据权利要求6所述的方法,进一步包括:
所述计算系统提供使用户能够查看所述错误数据储存库的界面。
8.根据权利要求7所述的方法,其中所述界面进一步使所述用户能够引起所述计算系统从被加载到所述错误数据储存库内的文档中重新提取数据。
9.根据权利要求6所述的方法,进一步包括:
所述计算系统从所述文档库重新采集所述文档;以及
所述计算系统从重新采集到的文档中重新提取文档信息。
10.根据权利要求6所述的方法,进一步包括:
响应于确定所述提取没有引起错误,将采集到的文档加载到文档数据储存库内。
11.根据权利要求6所述的方法,其中来自采集到的文档的数据包括文本内容和元数据。
12.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储指令,该指令在由处理器执行时使所述处理器:
从文档库采集文档;
从采集到的文档中提取数据;
确定在数据提取期间是否发生错误;
响应于确定所述提取引起错误,将采集到的文档加载到错误数据储存库内;以及
提供使用户能够查看所述错误数据储存库的界面。
13.根据权利要求12所述的非暂时性计算机可读存储介质,进一步存储指令,该指令在由所述处理器执行时使所述处理器:
响应于确定所述提取没有引起错误,将采集到的文档加载到文档数据储存库内。
14.根据权利要求12所述的非暂时性计算机可读存储介质,进一步存储指令,该指令在由所述处理器执行时使所述处理器:
从所述文档库重新采集所述文档;以及
在所述错误已纠正之后,从重新采集到的文档中重新提取文档信息。
15.根据权利要求12所述的非暂时性计算机可读存储介质,其中所述界面进一步使所述用户能够引起所述计算系统从被加载到所述错误数据储存库内的文档中重新提取数据。
CN201380078975.XA 2013-08-29 2013-08-29 确定从文档提取数据期间的错误 Withdrawn CN105474202A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2013/067948 WO2015028080A1 (en) 2013-08-29 2013-08-29 Determining an error during data extracting from a document

Publications (1)

Publication Number Publication Date
CN105474202A true CN105474202A (zh) 2016-04-06

Family

ID=49231424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380078975.XA Withdrawn CN105474202A (zh) 2013-08-29 2013-08-29 确定从文档提取数据期间的错误

Country Status (4)

Country Link
US (1) US20160188655A1 (zh)
EP (1) EP3039572A1 (zh)
CN (1) CN105474202A (zh)
WO (1) WO2015028080A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108697982B (zh) 2016-03-04 2022-07-22 旭化成株式会社 气体分离用组件和气体分离方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US20070214457A1 (en) * 2006-03-10 2007-09-13 Prabhakar Goyal System and method for automated recovery of data in a batch processing system
US9229972B2 (en) * 2011-09-15 2016-01-05 Massachusetts Mutual Life Insurance Group Systems and methods for content collection validation

Also Published As

Publication number Publication date
US20160188655A1 (en) 2016-06-30
EP3039572A1 (en) 2016-07-06
WO2015028080A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
US8843504B2 (en) Method and system for updating images in an image database
CN103019879A (zh) 浏览器崩溃信息的处理方法及系统
KR102024998B1 (ko) 유사 그룹 요소 추출
US20140095964A1 (en) Message links
US8825824B2 (en) Systems and methods for machine configuration
CN105260290A (zh) 应用异常信息收集方法和装置
US9665574B1 (en) Automatically scraping and adding contact information
KR101556743B1 (ko) 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법
CN103761232A (zh) 一种提供网页媒体内容信息的方法和装置
CN106815248B (zh) 网站分析方法及装置
CN112818431B (zh) 一种全过程工程咨询方法及系统
KR101588375B1 (ko) 데이터베이스 관리 방법 및 데이터베이스 관리 시스템
CN106815223A (zh) 一种海量图片管理方法和装置
CN103761231A (zh) 一种搜索引擎提供网页媒体内容信息的方法和装置
CN110602483B (zh) 视频故障确定方法、装置及计算机可读存储介质
CN105474202A (zh) 确定从文档提取数据期间的错误
CN108574585B (zh) 一种系统故障解决方案获取方法及装置
US10482105B1 (en) External verification of content popularity
CN106815196B (zh) 软文展现次数统计方法和装置
CN103761230A (zh) 一种搜索引擎抓取网页媒体内容信息的方法和装置
US10372694B2 (en) Structured information differentiation in naming
CN111177241A (zh) 一种数据处理方法、装置、系统、电子设备及其存储介质
CN103793509A (zh) 组图抓取方法与装置
CN105260425A (zh) 基于云盘的文件显示方法及装置
WO2014152401A1 (en) Interfacing a television with a second device

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20160406