CN113728321A - 利用训练表的集合来准确预测各种表内的错误 - Google Patents

利用训练表的集合来准确预测各种表内的错误 Download PDF

Info

Publication number
CN113728321A
CN113728321A CN202080027004.2A CN202080027004A CN113728321A CN 113728321 A CN113728321 A CN 113728321A CN 202080027004 A CN202080027004 A CN 202080027004A CN 113728321 A CN113728321 A CN 113728321A
Authority
CN
China
Prior art keywords
entries
input form
probability
training
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080027004.2A
Other languages
English (en)
Inventor
何业烨
王沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN113728321A publication Critical patent/CN113728321A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及用于使用各种假设测试来识别表格和其他结构化数据集内的错误的系统、方法、以及计算机可读介质。例如,本文中公开的系统可以通过从输入表格中移除一个或多个条目来从输入表格生成修改的表格。本文中公开的系统还可以利用训练表格的集合来确定与输入表格和修改的表格是否是从训练表格的集合中抽取相关联的概率。本文中公开的系统可以另外比较概率,以准确地确定一个或多个条目中是否包括错误。本文中公开的系统可以应用于各种不同大小和类型的表格,以识别输入表格内不同类型的常见错误。

Description

利用训练表的集合来准确预测各种表内的错误
背景技术
近年来,在使用计算设备(例如,移动设备、个人计算机、服务器设备)来创建、存储、编辑和共享数据方面急剧增加。实际上,用于创建表格和其他结构化数据的工具和应用程序正变得越来越普遍。这些数据文件通常包含各种常见错误(例如,不正确的数字、拼写错误的名称、功能相关错误)。随着使用表格(和其他结构化数据集)的电子表格应用程序、图表应用程序、商业智能(BI)产品和其他应用程序变得越来越流行,用于验证其中所包括的数据准确性的现有工具和技术已经过时且无效。
例如,用于检测表格内错误的传统技术通常不准确或不灵活。现有的错误检测方法通常配备为处理单个数据类型或评估表格内值的有限分布。结果是,传统的错误检测方法通常是不灵活的或仅针对符合非常窄标准的选定数目的表格是准确的。
此外,因为传统的错误检测技术通常涉及定制的算法或配备为分析一组特定的数据的信息技术(IT)专家,所以使用传统技术评估数字表格通常对非专家用户而言是昂贵的或无益的。实际上,由于传统方法在正常运行之前通常需要来自专家用户的大量配置,因此在现有的应用程序中实施这些错误检测方法通常非常昂贵,并且终端用户通常无法有效实施所需的配置。结果是,公司和其他实体通常会限制对高价值数据集的数字表格评估,而简单地忽略可能在其他“不太重要”的数据集中发现的错误。
在识别数字电子表格、表格和各种数据文件中的错误方面存在这些和其他问题。
附图说明
图1图示了根据一个或多个实施方式的包括自动表格条目错误检测系统的示例环境。
图2A至图2C图示了用于根据一个或多个实施方式实施表格条目错误检测系统以自动识别各种表格内的错误的示例过程。
图3图示了根据一个或多个实施方式的用于对训练数据进行子集化并且基于子集化的训练数据自动识别示例表格内的错误的另一示例过程。
图4图示了根据一个或多个实施方式的包括电子表格的显示的示例图形用户界面,所述电子表格示出使用表格条目错误检测系统标记的预测错误。
图5图示了根据一个或多个实施方式的自动识别数据集内的错误的示例方法。
图6图示了根据一个或多个实施方式的训练用于自动识别给定的数据集内的错误的数据集扰乱模型的示例方法。
图7图示了可以包括在计算机系统内的特定组件。
具体实施方式
本公开涉及一种自动表格条目错误检测系统(或简称“错误检测系统”),所述系统被训练为自动识别包含在表格或以多个行和列组织的其他结构化数据集的条目内的预测错误。具体地,如下文将进一步详细讨论的,错误检测系统利用包括表格中所包含的值在内的多个训练表格(或其他类型的数据集),所述训练表格为确定输入表格(或其他类型的输入数据集)是否包括一个或多个错误提供参考。如下文中将进一步详细讨论的,错误检测系统可以策略性地修改(例如,扰乱)输入表格并且基于从多个训练表格中抽取输入表格和输入表格的扰乱版本的概率来识别错误。
为了说明,在接收到包括多个条目的输入表格时,错误检测系统可以通过从多个条目中移除一个或多个条目来生成修改的输入表格。如下文中将进一步详细讨论的,错误检测系统可以将输入表格及修改的输入表格与训练表格的集合进行比较,以确定与输入表格的一个或多个扰乱迭代(例如,一个或多个修改的输入表格)以及输入表格是否是从训练表格的集合中抽取的相关联的概率。特别地,如下文中将进一步详细讨论的,错误检测系统可以将输入表格从训练表格的集合中抽取的概率(例如,输入表格包括与来自训练表格的集合的表格统计相似的值分布)与修改的表格从训练表格的集合中抽取的概率进行比较。
错误检测系统可以以多个方式准确地识别输入表格内的一个或多个错误,并且其可以应用于多个数据类型。例如,错误检测系统可以选择性地识别一个或多个条目,以在生成修改的输入表格时从输入表格中移除。特定条目可以取决于一个或多个列的数据类型、相关列之间的依赖关系、数据集的大小或输入表格的其他特征。在一个或多个实施例中,错误检测系统基于对输入表格的初步评估和关于条目是否包括错误的预测来选择性地识别要从输入表格中移除的条目。
作为进一步的示例,错误检测系统可以通过对训练表的集合进行子集化或以其他方式特征化来更有效和准确地确定输入表格中是否存在错误。特别地,如下文中将进一步详细讨论的,错误检测系统可以基于输入表格与来自训练表格的集合的训练表格的子集之间的共有特征(例如,数据类型、条目数、行数、值普遍性)而从训练表格的集合中识别训练表格的子集。使用识别的具有与输入表格相似特征的训练表格的子集,错误检测系统可以更准确和有效地确定与输入表格和修改的输入表格是否是从训练表格的集合中抽取的相关联的概率。
此外,如下文中将进一步详细讨论的,错误检测系统的一个或多个实施例可以在在线或离线环境中实施。例如,在一个或多个实施例中,作为识别包含在输入表格的条目内的一个或多个错误的过程的一部分,错误检测系统直接将输入表格与训练表格的集合进行比较。此外,或作为备选,错误检测系统可以基于在训练表格的集合内检测到的识别趋势或模式来训练模型(例如,机器学习模型、基于规则的算法)。可以提供模型,以用于在计算设备(例如,服务器设备、客户端设备)上实施,以使得计算设备能够基于模型的训练来检测错误。
本公开包括提供益处和/或解决与识别各种数据集中的错误相关联的问题的多个实际应用。例如,通过扰乱输入表格并将输入表格和结果修改表格二者与训练表格的集合进行比较,错误检测系统可以检测具有不同数据类型和分布的各种表格上的错误。实际上,通过比较应用于输入表格和输入表格的扰乱迭代二者的假设测试,错误检测系统可以比较假设测试的结果,以准确地检测各种常见错误。
因此,错误检测系统可以更一般地比较扰乱具有多种数据类型和分布的输入表格的结果,而不是设计或构建适用于独特数据集的独特且专用的测试。此外,通过根据本文中描述的一个或多个实施方式将输入表格及扰乱的输入表格与训练表格的集合进行比较,错误检测系统可以另外消除定制错误检测模型经常错误识别的许多误报。
此外,通过使用输入表格对基于共有特征的训练数据的集合进行子集化,错误检测系统可以提高执行假设测试的准确性并提高错误检测系统识别输入表格内的错误的置信度。例如,如下文中将进一步详细讨论的,通过丢弃或以其他方式忽略作为输入表格的具有不同特征的训练表格的集合的一部分,错误检测系统可以在训练表格扰乱模型时专注于相关的训练数据和/或准确识别输入表格的条目内的错误。此外,通过显著减少在确定与输入表格和修改的表格相关联的概率时考虑的训练表格的数目,错误检测系统可以通过减少存储和处理资源的费用来改进计算设备(或多个设备的系统)本身的操作。实际上,对训练数据的集合进行子集化可以使得能够更准确地识别错误,同时利用在其上实施错误检测系统的计算设备的更少的处理资源。这可以另外地减少带宽资源的费用,其中错误检测系统和/或训练资源的集合在两个或更多个计算设备之间实施。
除了选择性地识别一个或多个输入表格内的潜在错误之外,错误检测系统还可以另外地提供与多种软件产品相关的功能,以能够修正所识别的潜在错误。例如,错误检测系统可以经由客户端设备的图形用户界面结合输入表格的呈现来提供潜在错误的一个或多个指示符。错误检测系统还可以使客户端设备的用户能够与一个或多个图形元素交互,以确认潜在错误、否定潜在错误和/或纠正潜在错误。此外,错误检测系统还可以基于用户的一个或多个交互结合输入表格和/或通过错误检测系统识别的潜在错误的指示来进一步细化用于识别错误的一个或多个模型。
如前述讨论中所示的,本公开利用各种术语来描述错误检测系统的特征和优点。将不会提供关于这样的术语的含义的另外的详细信息。例如,如本文中使用的,“表格”或“数字表格”是指其中包括数据并且构成表格结构的一组条目(例如,表格条目)。该组条目可以按照行和列组织并且包括具有多种数据类型的值。各个条目内的值可以包括文本、数字、字母数字值、公式、布尔运算符、空值或能够添加到表格的对应条目的任何其他类型的数据。表格可以包括单列条目或多格列。在一个或多个实施例中,表格可以指按照电子表格文件、电子文档、商业智能(BI)产品文件或其中包括一个或多个表格的其他内容文件内的列和/或行组织的条目的离散部分。
如本文中所使用的,“训练表格”是指来自假定包括干净数据的集合或多个表格的表格。例如,训练表格的集合可以是指从一个或多个商业搜索引擎中抽取的网络表格。此外,或作为备选,训练表格的集合可以包括专有测试表格的集合,或从维基百科或其他第三方来源抽取的表格。实际上,训练表格的集合可以是指从各种来源抽取的一个或多个表格,并且假定它们是干净的或大部分是干净的(例如,没有错误或具有有限的错误)。类似于上面讨论的表格,训练表格的集合可以包括具有任意数目的行和列以及包括各种数据类型的值的单元格的训练表格。
现在将提供关于与描绘示例实施方式的说明性图相关的自动表格条目错误检测系统的附加细节。例如,图1图示了示例环境100,所述示例环境包括具有在其上实施的表格条目错误检测系统104(或简称为“错误检测系统104”)的服务器设备102的示意图。环境100还包括其上具有表格应用程序108的客户端设备106的示意图。客户端设备106可以另外在其上具有表格扰乱模型109。环境100还包括其上具有训练表格112的集合的一个或多个第三方服务器110。
如图1中所示,服务器设备102、客户端设备106和第三方服务器设备110可以通过网络114直接或间接地相互通信。网络114可以包括一个或多个网络并且可以使用适合于传输数据的一个或多个通信平台或技术。网络114可以是指能够在环境100的设备和/或模块之间传输电子数据的任何数据链路。网络114可以是指硬线网络、无线网络或者硬线网络和无线网络的组合。在一个或多个实施例中,网络114包括互联网。
客户端设备106可以是指各种类型的计算设备。例如,客户端设备106可以包括诸如移动电话、智能电话、PDA、平板电脑或膝上型电脑的移动设备。附加地或备选地,客户端设备106可以包括非移动设备,诸如台式计算机、服务器设备或其他非便携式设备。此外,服务器设备102、110可以类似地指各种类型的计算设备。客户端设备106和服务器设备102、110中的每个设备可以包括下文中结合图7描述的特征和功能。
如图1中所示,客户端设备106包括表格应用程序108。表格应用程序108可以是指任何电子表格应用程序、文档应用程序、商业智能(BI)产品、或者使客户端设备106能够创建、编辑、和/或经由客户端设备106的图形用户界面显示表格的任何软件产品或应用程序。在一个或多个实施例中,结合错误检测系统104描述的一个或多个特征和功能可以实施为表格应用程序108的一部分。在一个或多个实施例中,表格应用程序108是指提供对与经由服务器设备102提供的创建、编辑和/或显示表格相关的功能的访问的网络应用程序。
如上文中所提到的,并且如下文中将进一步详细讨论的,错误检测系统104可以接收或以其他方式访问包括多个条目的输入表格。输入表格可以是指存储在客户端设备106上的表格和/或在其上具有废数据(例如,未经检查或未经验证的数据)的任何表格。作为示例,输入表格可以是指通过网络114从客户端设备106接收的表格。错误检测系统104可以另外访问跨一个或多个第三方服务器设备110存储的训练表格112的集合。
在一个或多个实施例中,错误检测系统104基于输入表格生成修改的输入表格。特别地,如下文中将进一步讨论的,错误检测系统104可以以多种方式扰乱输入表格,以生成修改的输入表格,在该修改的输入表格中,已从输入表格中移除一个或多个条目。例如,错误检测系统104可以随机地或选择性地从输入表格中识别条目(或多个条目),以将其从输入表格中移除,从而生成具有比输入表格少一个或多个条目的修改的输入表格。下文中提供了描述如何选择一个或多个条目以进行移除的进一步示例。
错误检测系统104可以利用多个表格(例如,输入表格和修改的输入表格)来确定这些表格是从训练表格112的集合中抽取的概率。特别地,错误检测系统104可以对表格执行假设测试,以确定表格是正常的或被限定为与从训练表格的集合中抽取的训练表格在统计上相似的概率(例如,概率)。更具体地,错误检测系统104可以执行似然比(LR)测试,其涉及比较与输入表格和从训练表格112的集合中抽取的修改的输入表格相关联的概率。关于确定和比较概率的附加细节下文中讨论。
基于概率之间的比较,错误检测系统104可以确定从输入表格中移除的条目是否可能包含错误。特别地,其中概率之间的比较指示输入表格是从训练表格的集合112中抽取的第一概率与修改的输入表格是从训练表格的集合112中抽取的第二概率之间的意外差异或阈值差异,错误检测系统104可以以特定的置信度(例如,取决于比率)确定从输入表格中移除的条目包括错误。错误检测系统104可以另外实施多个特征和功能,以提高在输入表格内检测错误的准确性和效率。下文中将结合附加图提供与改进该模型的示例特征和功能相关的进一步细节。
如上所述,错误检测系统104可以实施检测表格内错误的在线或离线过程中的一个或多个。例如,在一个或多个实施例中,错误检测系统104在输入表格和训练表格集合之间执行直接比较,以确定与输入表格和修改的输入表格相关联的概率并识别输入表格的相应条目内的错误。在该示例中,错误检测系统104可以全部或部分地实施在服务器设备102上。
作为备选,错误检测系统104可以执行表格扰乱模型109的离线训练,其中错误检测系统104训练表格扰乱模型109,以执行基于与输入表格和修改的输入表格是否是从训练表格的集合中抽取的相关联的概率的比较来确定表格内是否存在错误。例如,错误检测系统104可以训练或以其他方式生成表格扰乱模型109并且提供将要在客户端设备106上本地实施的表格扰乱模型109。在一个或多个实施例中,错误检测系统104在服务器设备102上实施表格扰乱模型109。
虽然图1图示了包括服务器设备102、客户端设备106和第三方服务器设备110的特定数目和布置的示例环境,但是应当理解,环境100可以包括任何数目的设备。例如,环境100可以包括完全实施在服务器设备102(如所示的)上或跨多个设备实施的错误检测系统104。在一个或多个实施方式中,错误检测系统104实施在包括服务器设备102的云计算系统上。作为备选,错误检测系统104可以全部或部分地实施在客户端设备106上。
移至图2A至图2C,这些图提供说明性示例,其中错误检测系统104可以用于识别不同种类的表格内的各种常见错误。例如,图2A图示了其中错误检测系统104可以实施为识别示出个体和相关高度的表格内的数字错误的示例。作为另一个示例,图2B示出其中错误检测系统104实施为从姓名列表中识别拼写错误的示例。作为进一步的示例,图2C图示了其中错误检测系统104实施为从包括唯一标识符列表的表中识别错误的示例。应当理解,与相应图中的每个相关的特征和功能是通过示例的方式提供的,并且可以类似地应用于本文中描述的其他示例和实施例。
如上文中提到的,图2A图示了用于识别包括姓名和相关高度的列表的输入表格内的错误的示例框架。如图2A中所示,错误检测系统104包括表格扰乱管理器202、概率分析器204和概率比较管理器206。
表格扰乱管理器202可以接收输入表格210。在该示例中,输入表格210包括对应于相应个体的姓名和相关高度(以厘米为单位)的列表。如图2A中所示,第一个个体(Katy)被列为1.78厘米,第二个个体(Bo)被列为183厘米,第三个个体(亚历克斯)被列为175厘米,第四个个体(乔)被列为187厘米。输入表格210可以另外包括其中具有对应值的任意数目的附加条目。
在接收到输入表格210后,表格扰乱管理器202可以提供多个表作为对概率分析器204的输入。例如,表格扰乱管理器202可以提供包括姓名和相关高度值的原始列表的输入表格210作为对概率分析器204的第一输入。此外,表格扰乱管理器202可以识别条目212,以将其从输入表格210中移除,以生成排除所识别的条目212的修改的表格214。表格扰乱管理器202可以将修改的表格作为第二输入提供给概率分析器204。
表格扰乱管理器202可以以多种方式识别条目212,以将其从输入表格210中移除。例如,在一个或多个实施例中,表格扰乱管理器202迭代地或随机地识别条目并且提供表格对210、214作为对概率分析器204的输入。表格扰乱管理器202可以多次执行该过程直到识别预测为包含错误的一个或多个条目。作为备选,在一个或多个实施例中,表格扰乱管理器202基于预测标准选择性地识别条目212。
例如,表格扰乱管理器202可以识别输入表格210的第二列包括数值的数值分布。基于该确定,表格扰乱管理器202可以基于适用于数值分布的各种分析方法来识别条目212。例如,表格扰乱管理器202可以应用中值绝对偏差模型、基于距离的离群值模型或基于密度的离群值因子模型来将1.78厘米的条目识别为相对于输入表格210内的其他高度值的离群值,因此比输入表格210内的其他值更可能是错误的。
在一个或多个实施例中,表格扰乱管理器202应用上述分析方法(或其他相关分析)中的一个,以独立于来自训练表格112的集合的所识别的趋势或模式来识别条目212。作为备选,在一个或更多实施例,如图2A中所示,训练表格112的集合(或从训练表格112的集合获得的数据)可以可选地被提供作为训练输入或参数以用于基于相似类型的训练表格更准确地预测要移除的条目。
概率分析器204可以分析输入表格210和修改的表格214,以确定与相应表格是否可以从表格112的集合中抽取相关联的概率。如本文中所使用的,表格可以被认为是“抽取自”训练表格的集合,其中该表格包括与训练表格的集合中的其他表格类似的值分布。因此,因为包括废数据的未经检查的输入表格可能不是直接从由大概是干净数据组成的训练表格的集合中取得,所以确定输入表格是从训练表格的集合中抽取的或者以其他方式假设在其中找到的可以指确定输入表格的值与训练表格112的集合之间的相似性度量。因此,概率分析器204可以通过确定相应表格内包括的值之间的相似性或类似性的度量来确定输入表格210和修改的表格214是否从训练表格的集合112中抽取。
如图2A中所述,概率分析器204可以确定输入表格210是从训练表格112的集合中抽取的第一概率216。如上文中提到的,该第一概率216可以指来自输入表格210的值与训练表格112的集合之间的类似性或相似性的测量值。如在图2B中进一步示出的,概率分析器204可以确定修改的表格214是从训练表格112的集合中抽取的第二概率218。类似于第一概率216,该第二概率218可以是指输入表格210的值与训练表格112的集合之间的类似性或相似性的测量值。
如图2A中所示,概率分析器204可以将第一概率216和第二概率218作为输入提供给概率比较管理器206。概率比较管理器206可以基于第一概率216与第二概率218之间的比较而确定将条目212识别为包括错误(例如,错误的高度值)的输出220。在一个或多个实施例中,概率比较管理器206基于概率216与218之间的比而生成指示错误(或不存在错误)的输出220。
特别地,在第一概率216与第二概率218之间的比小于阈值或以其他方式指示输入表格210和修改的表格214从训练表格210的集合中抽取的可能性之间的意外差异情况下,概率比较管理器206可以断定条目212在其中包括错误。因此,输出220将指示条目212包括潜在的或预测的错误。作为备选,在第一概率216与第二概率218之间的比指示输入表格210和修改的表格214是从训练表112的集合中抽取的可能性之间的阈值差异或意外差异的情况下,概率比较管理器206可以确定从输入表格210中移除的条目212可能不包括错误。因此,输出220将指示条目212不包括错误。
参照图2A中所示的具体示例,第一概率216可以指示输入表格210与训练表格112的集合之间的低相似性度量,这是因为训练表格112的集合可能不包括(或非常少地包括)具有相似值分布的训练表格作为高度值的分布,其中第一个个体(凯蒂)是1.78厘米高。然而,因为从修改的表格214中去除了包括1.78厘米的离群值的条目,所以第二概率218可以显著更高,这是因为训练表格112的集合可能包括显著更多数目的具有相似值分布的训练表格作为移除了条目212的修改的表格214。
基于概率216至218中的这种意外差异或阈值差异,错误检测系统104可以断定条目212包括错误。作为响应,错误检测系统104可以标记条目212以用于经由客户端设备106的图形用户界面显示。这可以包括向包括可能错误的指示的条目添加元数据。在一个或多个实施例中,错误检测系统104生成包括输入表格内的一个或多个错误的标识的报告。
应当理解,错误检测系统104可以实施上述过程的变型。例如,虽然图2A图示了其中两个表格(例如,原始输入表格210和单个修改的表格214)作为输入提供给概率分析器204的示例,但是除了输入表格210之外,表格扰乱管理器202还可以提供任意数目的修改的表格作为对概率分析器204的输入。例如,错误检测系统104可以迭代地扰乱输入表格任意次数,以生成相应数目的修改的表格。错误检测系统104可以另外确定对应于修改的表格与训练表格的集合之间的相似性的相应数目的概率值。错误检测系统104然后可以比较各种概率,以识别与修改的表格与原始输入表格相关联的概率值之间的意外差异或阈值差异,以识别多个错误。
作为另一个示例,虽然图2A图示了其中错误检测系统104识别单个条目212的示例,但是错误检测系统104可以识别多个条目,以将其在生成修改的表格214时从输入表格210中移除。例如,在错误检测系统104确定两个或更多个条目具有可能包括错误的离群值的情况下,错误检测系统104可以在生成修改的表格时从输入表格中移除所述两个或更多个条目。
在一个或多个实施例中,错误检测系统104移除对应于最大扰乱值的多个表格条目。例如,因为移除太多值可能会降低输出220的可靠性,所以错误检测系统104可以应用最大扰乱值,所述最大扰乱值指示错误检测系统104在生成修改的表格时识别要从输入表格中移除的条目所不能超过的最大数目条目或最大百分比条目。最大扰乱值可以基于输入表格210中的条目总数、输入表格210的行数和/或输入表格210的一个或多个选择列内的条目的数据类型。
移至图2B,该图图示了用于在包括不同数据类型并且具有不同条目结构的不同输入表格内识别错误的类似框架。类似于图2A,错误检测系统104包括表格扰乱管理器202、概率分析器204和概率比较管理器206。
类似于上述一个或多个实施例,表格扰乱管理器202可以接收输入表格222。在该示例中,输入表格222包括名字和姓氏的单列。具体地,输入表格222包括诸如“SteveGomer”、“Kevin Doeling”、“Alan Myerson”、“Kevin Dowling”和“Rob Marrow”的姓名列表。输入表格222可以包括任意数目的附加名称。
表格扰乱管理器202可以识别要从输入表格222中移除的条目224,以生成修改的表格226。如上文中提到的,表格扰乱管理器202可以以多种方式并且取决于各种因素识别条目224以进行移除。例如,与上文中结合图2A讨论的数值分布相比,表格扰乱管理器202可以识别输入表格222包括姓名列表。基于该确定,表格扰乱管理器202可以将多个模型中的一个应用于输入表格222,以识别条目224。在一个或多个实施例中,表格扰乱管理器202应用基于不同姓名对之间的最少编辑次数的最小成对编辑距离(MPD)模型。作为备选,表格扰乱管理器202可以实施其他模型,诸如模糊分组模型、拼写检查器模型(例如,商业拼写检查应用程序)或基于知识的模型。如图2B中所示,使用MPD模型,表格扰乱管理器202将姓名“Kevin Doeling”和“Kevin Dowling”识别为可能包括拼写错误的相似姓名。
表格扰乱管理器202可以提供输入表格222和修改的表格226作为对概率分析器204的输入。概率分析器204可以分析来自表格222、226的值的分布,以确定与输入表格222和修改的表格226是否从训练表格112的集合中抽取的相关联的概率。特别地,概率分析器204可以确定与输入表格222与训练表格112的集合之间的相似性度量相关联的第一概率228以及与修改的表格214与训练表格112的集合之间的相似性度量相关联的第二概率230。概率分析器204可以另外提供概率228至230作为对概率比较管理器206的输入。
类似于图2A中描述的示例,概率比较管理器206可以比较与相应表格222、226相关联的概率228至230,以确定指示对应于从输入表格222移除的条目224存在或不存在潜在错误的输出232。基于输出232,错误检测系统104可以经由客户端设备106的图形用户界面结合输入表格222的呈现(例如,在通过客户端设备106显示的电子表格内)提供对潜在错误的指示。
移至图2C,该图图示了用于识别包括不同数据类型并且具有不同条目结构的不同输入表格内的错误的类似框架。类似于图2A至图2B,错误检测系统104包括表格扰乱管理器202、概率分析器204和概率比较管理器206。
类似于上述的一个或多个实施例,表格扰乱管理器可以接收输入表格234。在该示例中,输入表格234包括一列唯一标识符,诸如“AYKQ”、“AYKR”、“AYKT”、“AYKT”和“AYKU”。输入表格234可以包括任意数目的附加值。
表格扰乱管理器202可以识别要从输入表格234中移除的条目236,以生成修改的表格238。如上文中提到的,表格扰乱管理器202可以以多种方式并且取决于各种因素识别条目236。例如,与上文中讨论的数字和姓名相比,表格扰乱管理器202可以识别输入表格234包括稀有值的列表。基于该确定,表格扰乱管理器202可以将多个分析中的一个应用于输入表格234,诸如唯一行比模型、唯一值比模型或其他适用的分析模型。如图2C中所示,表格扰乱管理器202可以识别两个相同的条目236,以在生成修改表格238时将其从输入表格234中移除。
表格扰乱管理器202可以将输入表格234和修改的表格238作为输入提供给概率分析器204。概率分析器204可以分析表格234、238的值的分布,以确定与输入表格234和修改的表格238是否是从训练表格112的集合中抽取的相关联的概率。特别地,概率分析器204可以确定与输入表格234相关联的第一概率240和与修改的表格238相关联的第二概率242。概率分析器204还可以将概率240至242作为输入提供给概率比较管理器206。类似于上述一个或多个实施例,概率比较管理器206可以生成指示从输入表格234中移除的条目236内存在或不存在错误的输出244。
虽然图2A至图2C涉及具有不同结构、不同数据类型和不同值分布的不同类型的输入表格,但是错误检测系统104可以使用类似的框架识别相应输入表格内的错误。与涉及定制算法或模型的传统方法相比,这提供了额外的灵活性,所述定制算法或模型对类似结构的表格、类似数据类型的条目和/或有限范围的值分布具有有限的适用性。因此,鉴于这里描述的这些示例和其他实施例,将理解错误检测系统104可以实施类似的框架,以准确地识别各种不同表格中的错误。
图3图示了错误检测系统104的另一示例框架,其涉及对训练表格112的集合进行子集化或特征化,以更准确地识别来自输入表格的条目内的一个或多个错误。如图3中所示,错误检测系统104包括表格扰乱管理器202、概率分析器204和概率比较管理器206。另外,错误检测系统104可以包括特征子集管理器302,所述特征子集管理器基于训练表格的子集304与输入表格306之间的共有特征来生成或以其他方式识别训练表格的子集304。
如图3中所示,错误检测系统104可以接收包括姓名和相关值(例如,百分比)的列表的输入表格306。在该示例中,输入表格306包括候选人和相关联的选举结果的列表。输入表格306可以作为输入提供给特征子集管理器302。基于输入表格306,特征子集管理器302可以识别输入表格306的一个或多个特征,以用于基于输入表格306的一个或多个特征来生成或以其他方式识别训练表格的子集304。例如,特征子集管理器302可以识别输入表格306的特征,所述特征包括来自输入表格的条目的数据类型、输入表格的多个条目、多行条目、与输入表格306的条目内的值相关联的值普遍性以及输入表格306的其他特征。
特征子集管理器302可以在对训练表格112的集合进行子集化时考虑单个特征(例如,输入表格306的一列或两列内的条目的数据类型)或多个特征的组合。例如,特征子集管理器302可以识别训练表格的子集304,所述子集包括姓名和相关联的编号并且具有相同行数或相对较少的行数(例如,10行或更少行)。此外,因为姓名和数字可能不像用户标识号或字母数字组合的值那样稀有,所以特征子集管理器302在识别训练表格的子集304时可以排除稀有标记(例如,稀有值)的列表。
类似于上面讨论的一个或多个实施例,输入表格306可以作为输入提供给表格扰乱管理器202。在一个或多个实施方式中,训练表格的子集304也作为输入提供给表格扰乱管理器202,以帮助确定从输入表格306中移除的条目308,以生成修改的表格310。如图3中所示,表格扰乱管理器202可以确定与姓名“Miller”相关联的百分比是离群值并且可能潜在地具有错误。
表格扰乱管理器202可以将输入表格306和修改的表格310提供给概率分析器204,以确定相应的表格306、310从训练表格112的集合中抽取的概率。特别地,概率分析器204可以基于训练表格的子集304(例如,而不是训练表格112的整个集合,所述集合可能包括许多不同类型的表格作为输入表格306和修改的表格310)的比较来确定概率。如图3中所示,概率分析器204可以生成与输入表格306与来自训练表格的子集304的表格之间的相似性相关联的第一概率312和与修改的表格310与训练表格的子集304之间的相似性相关联的第二概率314。
概率分析器204可以将概率312至314作为输入提供给概率比较管理器206以生成指示在移除的条目308内是否存在错误的输出316。在常规系统可以确定与“Miller”相关联的离群数值是错误的情况下,因为其是离群值,所以训练表格的子集304可能包括类似类型的表格,所述类似类型的表格包括选举值和/或类似的姓名列表和相关百分比。结果是,错误检测系统104可以看到第一概率312与第二概率314之间的比比其他类型的移除的离群值所预期的更高。该结果将指示条目308的移除不会导致第一概率与第二概率之间的意外差异,如在本文中的其他示例中所见。因此,错误检测系统104可以确定移除的条目308不包括任何错误并且不采取与向客户端设备106的用户提供关于输入表格306内的潜在错误的指示符相关的进一步动作。
图4图示了其中错误检测系统104经由客户端设备的图形用户界面提供检测到的错误的一个或多个指示符的示例实施方式。特别地,图4图示了示例客户端设备402,其可以包括与以上结合图1中所示的客户端设备106讨论的类似特征。如图4中所示的,客户端设备402包括图形用户界面404,其示出其中呈现表格的电子表格应用程序的显示。
根据这里描述的一个或多个实施例,错误检测系统104可以识别包括基于为相应表确定的概率的比较而被标记的错误的第一组条目406和第二组条目408。例如,错误检测系统104可以基于识别第一列(列A)中的两个相同用户标识符以及输入表格和其中从输入表格中移除了条目406的修改版本输入表格之间的概率的比较来识别第一组条目406。类似地,类似于图2B中所示的示例,错误检测系统104可以基于检测到的“Dowling”与“Doeling”之间的拼写错误来识别第二组条目408。
除了识别和标记包括预测错误的条目之外,错误检测系统104还可以提供一个或多个图形元素,使客户端设备402的用户能够编辑或以其他方式更深入地挖掘表格内的潜在错误。例如,错误检测系统104可以提供指示第一组条目406的潜在用户ID错误的第一图形元素410。另外,错误检测系统104可以提供指示用于第二组条目408的潜在姓名拼写错误的第二图形元素412。
现在将结合示例用例提供附加的细节,在所述示例用例中错误检测系统104被实施为与上文结合图1至图4描述的一个或多个实施例一致。特别地,下面的描述涉及具有假设分析的基于扰乱的框架,其中给定一组训练表(T)(例如,训练表格112的集合)和新的数据集(D)(例如,输入表格),错误检测系统104可以通过移除足够小的条目的所有可能子集
Figure BDA0003291487980000171
来扰乱D(其中O是D的子集)。错误检测系统104然后可以比较D和被扰乱的
Figure BDA0003291487980000172
从T抽取的概率,分别表示为P(D|T)和
Figure BDA0003291487980000173
特别地,与上面描述的一个或多个实施例一致,在比较指示概率之间的显著变化量的情况下,错误检测系统104可以确定错误存在于条目(例如,从D中移除的条目)的子集内。
更具体地,错误检测系统104可以实施扰乱框架,在所述扰乱框架中,错误检测系统104移除大小达到ε(例如,最大扰乱值)的行的子集
Figure BDA0003291487980000174
其中|O|≤ε。实际上,具有最大扰乱值ε的所有扰乱的集可以表示为:
Figure BDA0003291487980000175
与上面讨论的一个或多个实施例一致,可以将ε值参数化为D中的最多ε行数(例如,行的阈值数、行的阈值百分比)。
在扰乱小于最大扰乱值的D时,错误检测系统104可以另外应用包括零假设(H0)的一系列假设测试,其中D被假定为正常(例如,没有错误)并且被定义为在统计上类似于从训练表格(T)中抽取的表格。假设测试系列还可以包括替代假设(H1),其中D由于子集受到扰乱而不被假定为正常;然而,在移除识别的条目(O)后,扰乱的数据集变得正常,并且在统计上类似于从训练表格(T)中抽取的表格。
基于假设测试,错误检测系统104可以应用似然比测试,在所述似然比测试中,错误检测系统104基于观察到的证据估计两个假设的相似性,表示为P(H0|evidence)和P(H1|evidence),其中似然比(LR)表示为:
Figure BDA0003291487980000181
此外,给定固定的显著水平α,错误检测系统104可以拒绝零假设H0,其中LR<α。
此外,应当理解,用于推理的“证据”可以包括D和T(两者都可以从相同的基础分布生成)。因此,LR可以表示为:
Figure BDA0003291487980000182
此外,由于H0假设D与从T中抽取的表格相似,因此P(D|H0,T)可以估计为从T中抽取与D相似的表格的可能性。另一方面,H1表示在移除O后,
Figure BDA0003291487980000183
类似于从T中抽取的表格。考虑到这一点,LR可以表示为:
Figure BDA0003291487980000184
回想如果LR≤α对于预定的显著水平α,则H0可能会被拒绝。错误检测系统104因此可以在所有可能的O∈D上最小化LR,并且因此可以使用以下模型将最小化器O*预测为异常:
Figure BDA0003291487980000185
与上述一个或多个实施例一致,最小化公式可以用于选择性地识别一个或多个条目,以将其从输入表格中选择性地移除,以生成一个或多个修改的表格。
应当理解,在一个或多个实施例中,因为不太可能从T中得出与D或
Figure BDA0003291487980000191
相同的相同表格,所以P(D|T)和
Figure BDA0003291487980000192
可能不被直接评估。相比之下,错误检测系统104可以引入度量函数(m),以通过将表格D和T映射到数值量来形式化相似性的概念,从而可以直接估计P(D|T)和
Figure BDA0003291487980000193
例如,这可以应用于以上结合图2A讨论的示例,其中使用成对编辑距离(MPD)量化姓名拼写之间的差异。其他表格可以以其他方式量化。下文中讨论将度量函数(m)应用于不同类型表的其他示例。
类似于以上讨论的一个或多个实施例,错误检测系统104可以类似地将子集化过程应用于训练表(T)以进一步细化似然比的确定并且在识别在数据集(D)的选定条目内发现的错误时提供附加的置信度)。特别地,可以通过移除与D不共有相似特征的表格或列来对T进行子集化。训练表格的子集可以表示为
Figure BDA0003291487980000194
(或更简单的S(T))。因此,在对训练表格进行子集化时,似然比(LR)可以表示为:
Figure BDA0003291487980000195
在一个或多个实施例中,错误检测系统104可以在子集化的同时最小化所有可能子集上的LR,导致LR比的最小化器表示为:
Figure BDA0003291487980000196
其中ε表示最大扰乱值,
Figure BDA0003291487980000197
是指基于特征化(F)在T中选择D等表格的子集函数,Pm是指估计P(D|T)的度量函数。
在一个或多个实施例中,错误检测系统104可以配置一个或多个模型以最大化意外发现以识别表内的错误。例如,给定目标错误类(E)、目标表格(D)、训练语料库(T)、度量函数的配置空间(M)、特征化(F)和扰乱(P),错误检测系统104可以找到(对于固定显著水平α)的配置:
Figure BDA0003291487980000198
最大化意外发现,定义为:
Figure BDA0003291487980000201
在一个或多个实施例中,错误检测系统104可以另外在来自数据集的值的分布上执行平滑。例如,通过修改如何描述数据,错误检测系统104可以利用基于范围的预言来提供更平滑的值分布。特别地,错误检测系统104可以将数据聚集或分组在一起,以使分布更加稳健可靠。代替评估单个数据点,错误检测系统104可以考虑小范围的点。错误检测系统104可以考虑值的数目与值之间的方差来确定要平滑的范围有多大。这可能涉及将一个或多个窗口函数应用于值的分布。错误检测系统104可以替代地执行其他技术来平滑这些值以提供更有用的结果。
虽然应用假设测试、识别最小化LR值的子集以及将训练表格进一步子集化适用于错误检测系统104的各种实施方式,但在分析不同类型并识别不同类型的错误时,错误检测系统104可以稍微修改。例如,错误检测系统104可以应用稍微不同的算法来根据被识别的错误类型来确定LR值。下文中提供了下面的LR方程中的一些的示例。
例如,在应用错误检测系统104来识别数值离群值的情况下,错误检测系统104可以应用诸如标准偏差或中值绝对偏差(MAD)之类的算法来识别特定离群值。在使用最大MAD(maxMAD)确定数值列(C)和扰乱数值列
Figure BDA0003291487980000202
并考虑上述(m,F,P)配置的示例中,LR方程可以表示为:
Figure BDA0003291487980000203
其中θ1=maxMAD(C),
Figure BDA0003291487980000204
作为另一个示例,在错误检测系统104被应用于识别拼写错误的情况下,错误检测系统104可以应用诸如最小成对编辑距离(MPD)的算法作为度量函数(m)。在这个示例中,LR方程可以表示为:
Figure BDA0003291487980000205
其中从一列条目计算的θ1=MPD(C)且
Figure BDA0003291487980000211
作为进一步的示例,在错误检测系统104被应用于识别唯一性违规的情况下,错误检测系统104可以使用唯一性比(UR)函数作为度量函数(m)并应用于列(C)。UR(C)可以定义为C内不同值与C内多个总值的比。在这个示例中,LR方程可以表示为:
Figure BDA0003291487980000212
其中从一列条目计算的θ1=UR(C)且
Figure BDA0003291487980000213
作为另一个示例,在错误检测系统104被应用于识别函数依赖(FD)违规的情况下,错误检测系统104可以使用FD遵从比(FR)函数作为应用于多个列(C1、C1、C2)的度量函数(m)。例如,允许u和v指代表格(D)的两行,而u(C)和v(C)指代在列中的u和v的值,通过FRD(C1,Cr)表示的在表格(D)上的FD候选的FD遵从比(C1→Cr)可以如下定义:
Figure BDA0003291487980000214
在这个示例中,LR方程可以表示为:
Figure BDA0003291487980000215
其中θ1=FRT(C1,CR),
Figure BDA0003291487980000216
与应用于类似表格的常规模型相比,根据上述示例识别表格内的错误产生显著更准确的结果。例如,在使用从网络抽取的1.35亿个训练表格的索引和来自维基百科的另外300万个训练表格进行的实验中,上述利用假设测试和子集组合的模型比各种模型执行得比传统模型更准确。实际上,使用假设测试,无论是否对训练表格进行子集化,都比包括商业拼写检查应用程序、模糊聚类模型、最大标准差模型、最大MAD模型、独特行比模型、独特价值比模型和其他常规模型在内的模型表现得更好。
现在转向图5至图6,这些图图示了示例包括使用假设测试来识别表格和其他结构化数据集内的预测错误的一系列动作在内的流程图。虽然图5至图6图示了根据一个或多个实施例的动作,但是备选实施例可以省略、添加、重新排序和/或修改图5至图6中所示的任何动作。图5至图6的动作可以作为方法的一部分执行。作为备选,非暂时性计算机可读介质可以包括指令,当通过一个或多个处理器执行时,所述指令使计算设备执行图5至图6的动作。在更进一步的实施例中,系统可以执行图5至图6的动作。
图5图示了根据本文中描述的一个或多个实施例的用于识别表格内的错误的一系列动作500。如图5中所示,一系列动作500包括接收包括多个条目的输入表格的动作510。例如,动作510可以包括接收包括多个条目的输入表格,其中所述多个条目中的每个条目包括相关值。
如进一步所示的,一系列动作500可以包括移除一个或多个条目以生成修改的输入表格的动作520。例如,动作520可以包括从多个条目中移除一个或多个条目,以生成修改的输入表格。在一个或多个实施方式中,一系列动作500包括基于一个或多个条目相对于来自多个条目的附加条目的值的离群值来选择性地识别来自多个条目的一个或多个条目。
一系列动作500还可以包括确定输入表格是从训练表格的集合中抽取的第一概率的动作530。一系列动作500还可以包括确定修改的表格是从训练表格的集合中抽取的第二概率的动作540。
如进一步所示的,一系列动作500可以包括基于第一概率与第二概率的比较来确定一个或多个条目包含错误的动作550。例如,动作550可以包括基于第一概率与第二概率的比较来确定从输入表格中移除的一个或多个条目包含错误。在一个或多个实施方式中,确定或识别错误包括计算第一概率与第二概率之间的比并且基于计算的比确定一个或多个条目包含错误。此外,在一个或多个实施方式中,一系列动作500包括标记输入表格的一个或多个条目并结合输入表格的呈现经由客户端设备的图形用户界面提供标记的指示。
在一个或多个实施方式中,一系列动作500包括通过基于输入表格和训练表格的子集的一个或多个共有特征从训练表格的集合中识别训练表格的子集来识别多个训练表格。例如,一个或多个共有特征可以包括多个条目的数据类型、多个条目中的条目数目、多个条目中的条目行数或与来自多个条目的值相关联的值普遍性中的一个或多个。
在一个或多个实施例中,确定从多个训练表格中抽取输入表格的第一概率包括基于输入表格的条目与训练表格的子集的比较来确定第一概率。此外,在一个或多个实施例中,确定修改的输入表格是从多个训练表格中抽取的第二概率包括基于修改的输入表格的条目与训练表格的子集的比较来确定第二概率。
在一个或多个实施方式中,一系列动作500包括识别用于生成修改的输入表格的最大扰乱值,所述最大扰乱值指示在生成修改的输入表格时从多个条目中移除的条目的最大数目或最大百分比。一系列动作500还可以包括基于最大扰乱值选择性地识别一个或多个条目中的多个条目,以将其从多个条目中去除。
在一个或多个实施例中,一系列动作500包括通过将最小化模型应用于输入表格来识别一个或多个条目,其中最小化模型基于第一概率与第二概率之间的最小预期比来识别一个或多个条目。在本文中所述的一个或多个实施例中,该最小化模型是指用于最小化似然比方程的模型(例如,似然比最小化模型)。然而,最小化模型可以以多种方式实施。
作为第一示例,一系列动作500可以包括对输入表格的多个子集应用似然比最小化模型,以识别预定数目的数值离群值。特别地,似然比最小化模型可以被训练为识别预定数目的数值离群值,当从输入表格中移除时,所述数值离群值对应于被预测为将第一概率与第二概率之间的比最小化的修改的输入表格。
作为另一示例,一系列动作500可以包括在输入表格的多个子集上应用似然比最小化模型,所述似然比最小化模型被训练为基于预定数目的基于文本的条目之间的最小成对编辑距离来识别预定数目的基于文本的条目。特别地,似然比最小化模型可以被训练为识别预定数目的基于文本的条目,当从输入表格中移除时,所述预定数目的基于文本的条目对应于被预测为将第一概率与第二概率之间的比最小化的修改的输入表格。
作为进一步的示例,一系列动作500可以包括在输入表格的多个子集上应用似然比最小化模型,所述似然比最小化模型被训练为基于应用于来自输入表格的一列值的唯一性比函数来识别预定数目的唯一性违规条目。特别地,似然比最小化模型可以被训练为识别预定数目的唯一性违规条目,当从输入表格中移除时,所述唯一性违规条目对应于被预测为将第一概率与第二概率之间的比最小化的修改的输入表格。
作为又一示例,一系列动作500可以包括在输入表格的多个子集上应用似然比最小化模型,所述似然比最小化模型被训练为基于应用于来自输入表格的多列的函数依赖(FD)遵循比函数来识别预定数目的FD违规条目。似然比最小化模型可以被训练为识别预定数目的FD违规条目,当从输入表格中移除时,所述FD违规条目对应于被预测为将第一概率与第二概率之间的比最小化的修改的输入表格。
图6图示了根据本文中描述的一个或多个实施例的用于识别表格内的错误的另一系列动作600。如图6中所示,一系列动作600可以包括访问以条目值的行和列组织的训练表格的集合的动作610。例如,动作610可以包括访问训练表格的集合,其中训练表格的集合包括以条目值的行和列组织的多个训练表格。
如进一步所示,一系列动作600可以包括基于识别给定的表格内的一个或多个错误的训练表格的集合来训练表格扰乱模型的动作620。例如,动作620可以包括基于训练表格的集合来训练表格扰乱模型,所述表格扰乱模型在应用于给定的表格时选择性地识别给定的表格的条目内的一个或多个错误。特别地,训练扰乱模型可以通过从给定的表格中移除一个或多个条目来生成修改的表格、确定给定的表格是从训练表格的集合中抽取的第一概率、确定修改的表格是从训练表格的集合中抽取的第二概率以及基于第一概率与第二概率的比较来确定来自给定的表格中的一个或多个条目包含错误,来识别一个或多个错误。
在一个或多个实施例中,表格扰乱模型被进一步训练为通过基于给定的表格和训练表格的子集中的一个或多个共有特征从训练表格的集合中识别训练表格的子集来选择性地识别给定的表格的条目内的一个或多个错误。
一系列动作600可以包括将表格扰乱模型应用于输入表格以识别输入表格内的一个或多个错误的动作630。动作630可以包括将表格扰乱模型应用于包括多个表格条目的输入表格,以识别多个表格条目内的一个或多个错误。在一个或多个实施例中,一系列动作630包括向计算设备提供表格扰乱模型,以使得计算设备能够将表格扰乱模型本地地应用于计算设备可访问的输入表格。
一系列动作600可以包括基于将表格扰乱模型应用于输入表格的各个列来识别多个表条目内的一个或多个预测错误。一系列动作600还可以包括标记与所识别的一个或多个预测错误相关联的多个表格条目中的一个或多个条目。此外,一系列动作600可以包括结合输入表格的呈现经由客户端设备的图形用户界面来提供标记的指示。
在一个或多个实施例中,表格扰乱模型被进一步训练为识别用于生成修改的表格的最大扰乱值,所述最大扰乱值指示在生成修改的表格时从给定的表格中移除的条目的最大数目或最大百分比。最大扰乱值可以基于给定的表格的多个条目或来自给定的表格的条目的数据类型中的一个或多个。
图7图示了可以包括在计算机系统700内的特定组件。一个或多个计算机系统700可以用于实施本文中里描述的各种设备、组件和系统。
计算机系统700包括处理器701。处理器701可以是通用单片或多片微处理器(例如,高级RISC(精简指令集计算机)机器(ARM))、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器701可以被称为中央处理单元(CPU)。尽管在图7的计算机系统700中仅示出了单个处理器701,在备选的配置中,可以使用处理器的组合(例如,ARM和DSP)。
计算机系统700还包括与处理器701进行电子通信的存储器703。存储器703可以是能够存储电子信息的任何电子组件。例如,存储器703可以实现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光存储介质、RAM中的闪存设备、处理器所包括的板载存储器、可擦除的可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)存储器、寄存器等,包括它们的组合。
指令705和数据707可以存储在存储器703中。指令705可以通过处理器701能执行,以实施本文中公开的一些或全部功能。执行指令705可以涉及使用存储在存储器703中的数据707。本文中描述的模块和组件的各种示例中的任何一个可以部分地或全部地实施为存储在存储器703中并且通过处理器701执行的指令705。本文中描述的数据的各种示例中的任一个可以在存储在存储器703中并且在处理器701执行指令705期间使用的数据707之中。
计算机系统700还可以包括用于与其他电子设备通信的一个或多个通信接口709。通信接口709可以基于有线通信技术、无线通信技术或两者。通信接口709的一些示例包括通用串行总线(USB)、以太网适配器、根据电气和电子工程师协会(IEEE)802.11无线通信协议操作的无线适配器、
Figure BDA0003291487980000261
无线通信适配器和红外(IR)通信端口。
计算机系统700还可以包括一个或多个输入设备711和一个或多个输出设备713。输入设备711的一些示例包括键盘、鼠标、麦克风、遥控设备、按钮、操纵杆、轨迹球、触摸板和光笔。输出设备713的一些示例包括扬声器和打印机。通常包括在计算机系统700中的一种特定类型的输出设备是显示设备715。与本文中公开的实施例一起使用的显示设备715可以利用任何合适的图像投影技术,诸如液晶显示器(LCD)、发光二极管(LED)、气体等离子体、电致发光等。还可以提供显示控制器717以用于将存储在存储器703中的数据707转换成显示设备715上显示的文本、图形和/或运动图像(视情况而定)。
计算机系统700的各个组件可以通过一个或多个总线耦合在一起,所述总线可以包括电源总线、控制信号总线、状态信号总线、数据总线等。为了清楚起见,各种总线如图7中所示为总线系统719。
除非具体描述为以特定方式实施,否则本文中描述的技术可以以硬件、软件、固件或其任何组合来实施。被描述为模块、组件等的任何特征也可以在集成逻辑器件中一起实施或单独实施为分立但可互操作的逻辑器件。如果以软件实施,则这些技术可以至少部分地通过包括指令的非暂时性处理器可读存储介质来实施,所述指令在通过至少一个处理器执行时执行本文中所述的一个或多个方法。指令可以被组织为例程、程序、对象、组件、数据结构等,其可以执行特定任务和/或实施特定数据类型,并且可以在各种实施例中根据需要进行组合或分布。
在不脱离权利要求的范围的情况下,本文中描述的方法的步骤和/或动作可以彼此互换。换言之,除非所描述的方法的正确操作需要特定的步骤或动作的顺序,否则可以在不脱离权利要求的范围的情况下修改特定步骤和/或动作的顺序和/或使用。
术语“确定”涵盖多种动作,因此,“确定”可以包括运算、计算、处理、推导、调查、查找(例如,在表格、数据库或其他数据结构中查找)、确认等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选取、选择、建立等。
术语“包括”、“包含”和“具有”意在是包括性的,并且意味着除了所列元素之外可能还有其他元素。此外,应当理解,对本公开的“一个实施例”或“一实施例”的引用不意在被解释为排除也结合了所述特征的另外的实施例的存在。例如,在兼容的情况下,关于本文中的实施例描述的任何元素或特征可以与本文中描述的任何其他实施例的任何元素或特征组合。
本公开可以在不脱离其精神或特征的情况下以其他特定形式实现。所描述的实施例被认为是说明性的而非限制性的。因此,本公开的范围由所附权利要求而不是由前述描述指示。在权利要求的等效含义和范围内的变化应包含在权利要求的范围内。

Claims (15)

1.一种方法,包括:
接收包括多个条目的输入表格,其中所述多个条目中的每个条目包括相关值;
从所述多个条目中移除一个或多个条目以生成修改的输入表格;
确定所述输入表格是从所述多个训练表格中抽取的第一概率;
确定所述修改的输入表格是从所述多个训练表格中抽取的第二概率;
基于所述第一概率与所述第二概率的比较来确定从所述输入表格中移除的所述一个或多个条目包含错误。
2.根据权利要求1所述的方法,还包括:通过基于所述输入表格和训练表格的子集的一个或多个共有特征,从训练表格的集合中识别所述训练表格的所述子集来识别所述多个训练表格,其中所述一个或多个共有特征包括以下特征中的一项或多项:
所述多个条目的数据类型;
所述多个条目中的条目的数目;
所述多个条目中的条目的行数;或者
与来自所述多个条目的值相关联的值普遍性。
3.根据权利要求1所述的方法,还包括:
识别用于生成所述修改的输入表格的最大扰乱值,所述最大扰乱值指示在生成所述修改的输入表格时从所述多个条目中移除的条目的最大数目或最大百分比;
基于所述最大扰乱值选择性地识别要从所述多个条目中移除的所述一个或多个条目的数目。
4.根据权利要求1所述的方法,还包括:通过将最小化模型应用于所述输入表格来识别所述一个或多个条目,其中所述最小化模型基于所述第一概率与所述第二概率之间的最小预期比来识别所述一个或多个条目。
5.根据权利要求1所述的方法,还包括:
标记所述输入表格的所述一个或多个条目;
结合所述输入表格的呈现,经由客户端设备的图形用户界面提供标记的指示。
6.一种方法,包括:
访问训练表格的集合,其中所述训练表格的集合包括以条目值的行和列组织的多个训练表格;
基于所述训练表格的集合训练表格扰乱模型,所述表格扰乱模型当被应用于给定的表格时,通过以下方式选择性地识别所述给定的表格的条目内的一个或多个错误:
通过从所述给定的表格中移除一个或多个条目来生成修改的表格;
确定所述给定的表格是从所述训练表格的集合中抽取的第一概率;
确定所述修改的表格是从所述训练表格的集合中抽取的第二概率;
基于所述第一概率与所述第二概率的比较来确定来自所述给定的表格中的所述一个或多个条目包含错误。
7.根据权利要求6所述的方法,还包括:将所述表格扰乱模型应用于包括多个表格条目的输入表格,以识别所述多个表格条目内的一个或多个错误。
8.根据权利要求7所述的方法,还包括:
基于将所述表格扰乱模型应用于所述输入表格的相应列,识别所述多个表格条目内的一个或多个预测错误;
标记所述多个表格条目中的与所识别的所述一个或多个预测错误相关联的一个或多个条目;
结合所述输入表格的呈现,经由客户端设备的图形用户界面提供标记的指示。
9.根据权利要求6所述的方法,其中所述表格扰乱模型还被训练为通过基于所述给定的表格和所述训练表格的子集的一个或多个共有特征,从所述训练表格的集合中识别所述训练表格的子集来选择性地识别所述给定的表格的条目内的所述一个或多个错误。
10.一种系统,包括:
一个或多个处理器;
与所述一个或多个处理器进行电子通信的存储器;以及
存储在所述存储器中的指令,所述指令能通过所述一个或多个处理器执行,以使计算设备:
接收包括多个条目的输入表格,其中所述多个条目中的每个条目包括相关值;
从所述多个条目中移除一个或多个条目以生成修改的输入表格;
确定所述输入表格是从所述多个训练表格中抽取的第一概率;
确定所述修改的输入表格是从所述多个训练表格中抽取的第二概率;
基于所述第一概率与所述第二概率的比较来确定从所述输入表格中移除的所述一个或多个条目包含错误。
11.根据权利要求10所述的系统,还包括指令,当所述指令通过所述一个或多个处理器执行时,使所述计算设备:
通过基于所述输入表格和训练表格的子集的一个或多个共有特征,从训练表格的集合中识别所述训练表格的子集来识别所述多个训练表格;
其中确定所述输入表格是从所述多个训练表格中抽取的第一概率包括基于所述输入表格的条目与所述训练表格的子集的比较来确定第一概率;
其中确定所述修改的输入表格是从所述多个训练表格中抽取的第二概率包括基于所述修改的输入表格的条目与所述训练表格的子集的比较来确定第二概率。
12.根据权利要求10所述的系统,还包括指令,当所述指令通过所述一个或多个处理器执行时,使所述计算设备:
在所述输入表格的多个子集上应用似然比最小化模型,以识别预定数目的数值离群值,当从所述输入表格中移除时,所述数值离群值对应于所述修改的输入表格,所述修改的输入表格被预测为将所述第一概率与所述第二概率之间的比最小化。
13.根据权利要求10所述的系统,还包括指令,当所述指令通过所述一个或多个处理器执行时,使所述计算设备:
在所述输入表格的多个子集上应用似然比最小化模型,所述似然比最小化模型被训练为基于预定数目的基于文本的条目之间的最小成对编辑距离,来识别预定数目的基于文本的条目,当从所述输入表格中移除时,所述预定数目的基于文本的条目对应于所述修改的输入表格,所述修改的输入表格被预测为将所述第一概率与所述第二概率之间的比最小化。
14.根据权利要求10所述的系统,还包括指令,当所述指令通过所述一个或多个处理器执行时,使所述计算设备:
在所述输入表格的多个子集上应用似然比最小化模型,所述似然比最小化模型被训练为基于应用于来自所述输入表格中的一列值的唯一性比函数,来识别预定数目的唯一性违规条目,当从所述输入表格中移除时,所述预定数目的唯一性违规条目对应于所述修改的输入表格,所述修改的输入表格被预测为将所述第一概率与述第二概率之间的比最小化。
15.根据权利要求10所述的系统,还包括指令,当所述指令通过所述一个或多个处理器执行时,使所述计算设备:
在所述输入表格的多个子集上应用似然比最小化模型,所述似然比最小化模型被训练为基于应用于来自所述输入表格中的多列的函数依赖(FD)遵循比函数,来识别预定数目的FD违规条目,当从所述输入表格中移除时,所述函数依赖违规条目对应于所述修改的输入表格,所述修改的输入表格被预测为将所述第一概率与所述第二概率之间的比最小化。
CN202080027004.2A 2019-04-08 2020-03-09 利用训练表的集合来准确预测各种表内的错误 Pending CN113728321A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/378,155 US11157479B2 (en) 2019-04-08 2019-04-08 Leveraging a collection of training tables to accurately predict errors within a variety of tables
US16/378,155 2019-04-08
PCT/US2020/021627 WO2020209963A1 (en) 2019-04-08 2020-03-09 Leveraging a collection of training tables to accurately predict errors within a variety of tables

Publications (1)

Publication Number Publication Date
CN113728321A true CN113728321A (zh) 2021-11-30

Family

ID=70166159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080027004.2A Pending CN113728321A (zh) 2019-04-08 2020-03-09 利用训练表的集合来准确预测各种表内的错误

Country Status (4)

Country Link
US (2) US11157479B2 (zh)
EP (1) EP3953853A1 (zh)
CN (1) CN113728321A (zh)
WO (1) WO2020209963A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023520416A (ja) * 2020-03-30 2023-05-17 オラクル・インターナショナル・コーポレイション ドメイン外(ood)検出のための改良された技術
US11182545B1 (en) * 2020-07-09 2021-11-23 International Business Machines Corporation Machine learning on mixed data documents
US11989562B2 (en) * 2020-08-14 2024-05-21 Lenovo (Singapore) Pte. Ltd. Device state data loading onto RFID chip
US11860848B2 (en) * 2022-01-26 2024-01-02 Applica sp. z o.o. Encoder-decoder transformer for table generation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258909A (en) 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
JPH0844719A (ja) * 1994-06-01 1996-02-16 Mitsubishi Electric Corp 辞書アクセスシステム
US7117430B2 (en) 2001-02-27 2006-10-03 Microsoft Corporation Spreadsheet error checker
US7627567B2 (en) * 2004-04-14 2009-12-01 Microsoft Corporation Segmentation of strings into structured records
US20120278290A1 (en) 2011-04-29 2012-11-01 Thomas Anthony Pinch Database archiving model error detection and correction system
US8881005B2 (en) * 2012-04-20 2014-11-04 King Abdulaziz City For Science And Technology Methods and systems for large-scale statistical misspelling correction
US9418086B2 (en) * 2013-08-20 2016-08-16 Microsoft Technology Licensing, Llc Database access
JP6173972B2 (ja) 2014-06-10 2017-08-02 株式会社東芝 検出装置、修正システム、検出方法およびプログラム
US20160078367A1 (en) * 2014-10-15 2016-03-17 Brighterion, Inc. Data clean-up method for improving predictive model training
US10504035B2 (en) * 2015-06-23 2019-12-10 Microsoft Technology Licensing, Llc Reasoning classification based on feature pertubation
US10692015B2 (en) * 2016-07-15 2020-06-23 Io-Tahoe Llc Primary key-foreign key relationship determination through machine learning
US10515148B2 (en) * 2017-12-15 2019-12-24 King Fahd University Of Petroleum And Minerals Arabic spell checking error model
US20190236460A1 (en) * 2018-01-29 2019-08-01 Salesforce.Com, Inc. Machine learnt match rules

Also Published As

Publication number Publication date
WO2020209963A1 (en) 2020-10-15
EP3953853A1 (en) 2022-02-16
US11698892B2 (en) 2023-07-11
US20220058171A1 (en) 2022-02-24
US11157479B2 (en) 2021-10-26
US20200320053A1 (en) 2020-10-08

Similar Documents

Publication Publication Date Title
CA2940760C (en) Intelligent data munging
CN113728321A (zh) 利用训练表的集合来准确预测各种表内的错误
CN108182515B (zh) 智能规则引擎规则输出方法、设备及计算机可读存储介质
Visengeriyeva et al. Metadata-driven error detection
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
US20220019742A1 (en) Situational awareness by fusing multi-modal data with semantic model
CN110472114B (zh) 异常数据预警方法、装置、计算机设备及存储介质
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
Debattista et al. A preliminary investigation towards improving linked data quality using distance-based outlier detection
Shahbazi et al. Representation bias in data: a survey on identification and resolution techniques
Visengeriyeva et al. Anatomy of metadata for data curation
US20230045330A1 (en) Multi-term query subsumption for document classification
Shah et al. Towards benchmarking feature type inference for automl platforms
Dasgupta et al. Towards auto-remediation in services delivery: Context-based classification of noisy and unstructured tickets
CN112069069A (zh) 缺陷自动定位分析方法、设备及可读存储介质
US8650180B2 (en) Efficient optimization over uncertain data
WO2017036341A1 (en) Random index pattern matching based email relations finder system
CN113312258A (zh) 一种接口测试方法、装置、设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
Jaiswal et al. Schema matching and embedded value mapping for databases with opaque column names and mixed continuous and discrete-valued data fields
CN112486957A (zh) 数据库迁移检测方法、装置、设备及存储介质
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
Gladence et al. A novel technique for multi-class ordinal regression-APDC
CN114579580A (zh) 存储数据的方法、查询数据的方法和装置
CN113691525A (zh) 一种流量数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination