CN104281563B - 用于发现表格数据中的关系的方法和系统 - Google Patents
用于发现表格数据中的关系的方法和系统 Download PDFInfo
- Publication number
- CN104281563B CN104281563B CN201410309195.8A CN201410309195A CN104281563B CN 104281563 B CN104281563 B CN 104281563B CN 201410309195 A CN201410309195 A CN 201410309195A CN 104281563 B CN104281563 B CN 104281563B
- Authority
- CN
- China
- Prior art keywords
- cell
- document
- list data
- cells
- selected portion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明内容涉及用于发现表格数据中的关系的方法、系统和计算机程序产品。接收一组文档,所述一组文档中的文档包含表格数据。选择要确定其依赖性的表格数据中的单元格。选择与单元格结合使用的假设。通过确定是否能够通过在所选部分上使用在假设中规定的函数来计算假设中的结论,测试假设是否适用于文档的所选部分。所选部分可以是文档的表格数据中的所选单元格范围或非表格部分中的内容。利用假设以相对于所选部分描述单元格。
Description
技术领域
本发明一般涉及用于文档的自然语言处理的方法、系统和计算机程序产品。更特别地,本发明涉及用于发现表格数据(tabular data)中的关系的方法、系统和计算机程序产品。
背景技术
文档包含任何形式的信息。例如,被配置为语句和段落的文本信息以叙述的形式传递信息。
一些类型的信息是在表格组织中被呈现的。例如,文档可包含用于呈现财务信息、组织信息并且一般呈现通过一些关系相互相关的任何数据条目的表格。
自然语言处理(NLP)是便利于人与数据处理系统之间的信息交换的技术。例如,NLP的一个分支属于将给定的内容转换成人可用的语言或形式。例如,NLP可接受内容是计算机特定语言或形式的文档,并产生相应内容采取人可读形式的文档。
发明内容
解释性实施例提供用于发现表格数据中的关系的方法、系统和计算机程序产品。实施例接收一组文档,所述一组文档中的文档包含表格数据。实施例选择要确定其依赖性的表格数据中的单元格。实施例选择与单元格(cell)结合使用的假设(hypothesis)。实施例通过确定是否能够通过在所选部分上使用在假设中规定的函数来计算假设中的结论,使用处理器和存储器测试假设是否适用于文档的所选部分,其中,文档的所选部分包含文档的表格数据中的所选单元格范围和非表格部分中的内容中的一个。实施例利用假设以相对于所选部分描述单元格。
附图说明
在所附的权利要求中阐述被认为是本发明的特征的新颖特征。但是,通过在结合附图阅读时参照解释性实施例的以下的详细描述,可以最好地理解本发明自身以及优选的使用方式及其进一步目的和优点,其中,
图1示出可实现解释性实施例的数据处理系统的网络的图示;
图2示出可实现解释性实施例的数据处理系统的框图;
图3示出根据解释性实施例的其中可识别函数依赖性的表格数据的例子;
图4示出根据解释性实施例的发现表格数据中的关系的方式的框图;
图5示出根据解释性实施例的用于发现表格数据中的关系的应用的框图;
图6示出根据解释性实施例的用于发现表格数据中的关系的示例处理的流程图;以及
图7示出根据解释性实施例的用于评价置信水平的示例处理的流程图。
具体实施方式
解释性实施例认识到,经受NLP的文档一般包含表格数据,即,一个或多个表格数据结构(表格)的形式的内容。表格的单元格是表格内的包含单元,使得单元格的内容可唯一地由表格的行和列或其它的适当的坐标识别。
解释性实施例认识到,在表格的单元格内呈现的信息常常涉及同一表格的其它单元格中的信息、同一文档中的不同表格的单元格或不同文档中的单元格或不同表格。对于理解表格数据的意思,并且,一般对于总体理解文档的意思,包含于不同单元格中的信息之间的关系是十分重要的。
解释性实施例认识到,为了正确和完整地解释表格数据,在NLP中需要专门的处理或操作。用于理解单元格值之间的关系的当前可用技术限于通过使用行或列标题启发式地猜测单元格的标签。
用于描述本发明的解释性实施例一般针对并解决与当前可用NLP技术的限制有关的上述问题和其它问题。解释性实施例提供用于发现表格数据中的关系的方法、系统和计算机程序产品。
解释性实施例认识到,表格中的单元格可依赖于表格中的一个或多个其它的单元格、跨给定文档中的不同表格的单元格或跨不同文档中的不同表格中的单元格。一个单元格对另一单元格的依赖性在本质上是函数关系,即,基于函数的依赖性。例如,形成这种函数依赖性的基础的函数可以是在某些单元格值上运算以在某些其它的单元格中赋予单元格值的数学、统计、逻辑或条件函数的任意组合。
作为例子,包含总量的单元格在函数上依赖于值参与总量的单元格。作为另一例子,统计分析结果单元格,诸如包含实验中的方差值的单元格,可在函数上依赖于可能处于另一表格中的一组其它的单元格,在该另一表格中记录实验的各种迭代的结果。
这些例子意图不在于限制解释性实施例。函数依赖性指示一个或多个表格的单元格之间的关系,并且高度可根据表格或文档中的数据、其目的和各种单元格的意思被配置。
并且,单元格可作为从属单元格和/或作为被从属单元格参与任意数量的函数依赖性。由于单元格中的信息可涉及在给定文档中的任何位置可用的信息,因此单元格的函数依赖性也可包含依赖于给定文档中的非表格数据。
解释性实施例通过使得NLP工具能够理解表格数据的单元格的关系而改善在文档中以表格形式呈现的信息的理解。解释性实施例提供确定表格中的单元格对其它单元格、表格的周围文本、文档中的内容或它们的组合的函数依赖性的方式。
精度是相对于从表格理解了多少,从表格理解的多少是正确的度量。唤回(recall)是相对于在表格中实际上要理解多少信息,从表格理解了多少的度量。
一般地,尝试提高精度导致唤回性能劣化,反之亦然。实施例改善具有表格数据的文档的自然语言处理的精度和唤回。
关于某些文档和表格数据,仅作为例子描述解释性实施例。这些文档、表格数据或它们的示例性属性不意在限制本发明。
并且,可关于任何类型的数据、数据源或在数据网络上对数据源的访问实现解释性实施例。在本发明的范围内,在数据处理系统本地或者在数据网络上,任何类型的数据存储装置可向本发明的实施例提供数据。
解释性实施例仅通过使用特定的代码、设计、架构、协议、布局、示图和工具作为例子被描述,并且,不限于解释性实施例。并且,在一些情况下,为了阐明描述,仅通过使用特定的软件、工具和数据处理环境作为例子描述解释性实施例。解释性实施例可与其它的相当或目的相近的结构、系统、应用或架构结合使用。可在硬件、软件或它们的组合中实现解释性实施例。
本公开中的例子仅用于阐明描述,并且不限于解释性实施例。可从本公开构想附加的数据、操作、动作、任务、活动和操控,并且,它们在解释性实施例的范围内被设想。
这里列出的任何优点仅是例子,并且不意在限于解释性实施例。可通过特定的解释性实施例实现附加或不同的优点。并且,解释性实施例可具有以上列出的优点中的一些或全部,或者不具有它们中的任一个。
参照附图,特别是参照图1和图2,这些附图是可实现解释性实施例的数据处理环境的示例示图。图1和图2仅是例子,并且不意在关于可实现不同的实施例的环境断言或暗示任何限制。特定的实现可基于以下的描述对示出的环境提出许多修改。
图1示出可实现解释性实施例的数据处理系统的网络的图示。数据处理环境100是可实现解释性实施例的计算机网络。数据处理环境100包括网络102。网络102是用于在各种装置与在数据处理环境100内连接在一起的计算机之间提供通信链接的介质。网络102可包含诸如导线、无线通信链接或光纤电缆的连接。服务器104和服务器106与存储单元108一起与网络102耦合。可在数据处理环境100中的任何计算机上执行软件应用。
另外,客户机110、112和114与网络102耦合。诸如服务器104或106或客户机110、112或114的数据处理系统可包含数据,并且可具有在其上面执行的软件应用或软件工具。
仅作为例子而不意味着对这些架构的任何限制,图1示出可在实施例的示例性实现中使用的某些部件。例如,服务器104中的应用105是这里描述的实施例的实现。应用105以与NLP引擎103结合的方式操作。NLP引擎103可以为例如能够在文档上执行自然语言处理的现有应用,并且可被修改或被配置为以与应用105结合的方式动作,以根据这里描述的实施例执行动作。根据实施例,存储装置108包括假设的库109。客户机112包含具有根据实施例被处理的表格数据113的文档。
服务器104和106、存储单元108和客户机110、112和114可通过使用有线连接、无线通信协议或其它适当的数据连接与网络102耦合。客户机110、112和114可以为例如个人计算机或网络计算机。
在示出的例子中,服务器104可向客户机110、112和114提供诸如引导文件、操作系统图像和应用的数据。在本例子中,客户机110、112和114可以是服务器104的客户机。客户机110、112和114或它们的一些组合可包含它们自身的数据、引导文件、操作系统图像和应用。数据处理环境100可包含附加的服务器、客户机和未示出的其它装置。
在示出的例子中,数据处理环境100可以是因特网。网络102可代表使用传送控制协议/因特网协议(TCP/IP)和其它协议以相互通信的网络和网关的集合。因特网的核心是包含数以千计的路由数据和消息的商业、政府、教育和其它计算机系统的主节点或主机计算机之间的数据通信链接的骨干。当然,数据处理环境100也可实现为大量的不同类型的网络,诸如例如内联网、局域网络(LAN)或广域网络(WAN)。图1意在作为例子,不作为对不同解释性实施例的架构限制。
在其它的用途中,数据处理环境100可被用于实现可实现解释性实施例的客户机-服务器环境。客户机-服务器环境使得软件应用和数据能够跨网络分布,使得应用通过利用客户机数据处理系统与服务器数据处理系统之间的交互作用起作用。数据处理环境100也可使用面向服务的架构,在该架构中,可将跨网络分布的交互操作的软件部件作为相干商业应用封装在一起。
参照图2,该图示出可实现解释性实施例的数据处理系统的框图。数据处理系统200是计算机的例子,诸如图1中的服务器104或客户机112或解释性实施例的可定位实现处理的计算机可用程序代码或指令的另一类型的设备。
在示出的例子中,数据处理系统200使用包含北桥和存储器控制器集线器(NB/MCH)202和南桥和输入/输出(I/O)控制器集线器(SB/ICH)204的集线器架构。处理单元206、主存储器208和图形处理器210与北桥和存储器控制器集线器(NB/MCH)202耦合。处理单元206可包含一个或多个处理器,并且可通过使用一个或多个异质处理器系统被实现。处理单元206可以是多芯处理器。在某些实现中,图形处理器210可通过加速图形端口(AGP)与NB/MCH202耦合。
在示出的例子中,局域网络(LAN)适配器212与南桥和I/O控制器集线器(SB/ICH)204耦合。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其它端口232和PCI/PCIe器件234通过总线238与南桥和I/O控制器集线器204耦合。硬盘驱动(HDD)226和CD-ROM230通过总线240与南桥和I/O控制器集线器204耦合。PCI/PCIe器件234可包含例如以太网适配器、添加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。例如,ROM224可以为快擦写二进制输入/输出系统(BIOS)。硬盘驱动226和CD-ROM230可使用例如集成驱动电子(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)器件236可通过总线238与南桥和I/O控制器集线器(SB/ICH)204耦合。
诸如主存储器208、ROM224或快擦写存储器(未示出)的存储器是计算机可用存储装置的一些例子。硬盘驱动226、CD-ROM230和其它类似可用装置是包括计算机可用存储介质的计算机可用存储装置的一些例子。
操作系统在处理单元206上运行。操作系统协调并提供图2中的数据处理系统200内的各种部件的控制。操作系统可以是诸如(AIX是International BusinessMachines Corporation在美国和其它国家的商标)、(Microsoft和Windows是Microsoft Corporation在美国和其它国家的商标)或(Linux 是Linux Torvalds在美国和其它国家的商标)的商业可用操作系统。诸如JavaTM编程系统的面向对象的编程系统可在与操作系统结合的情况下运行,并从在数据处理系统200上运行的JavaTM程序或应用提供对操作系统的调用(Java和所有基于Java的商标和标志是Oracle Corporation和/或其附属企业的商标或注册商标)。
操作系统、面向对象的编程系统和诸如图1中的应用105的应用或程序的指令位于诸如硬盘驱动226的一个或多个存储装置中的至少一个上,并且可被加载到诸如主存储器208的一个或多个存储器中的至少一个中,以供处理单元206执行。可通过使用可位于诸如例如主存储器208、只读存储器224或一个或多个外设装置中的计算机实现的指令由处理单元206执行解释性实施例的处理。
图1~2中的硬件可根据实现改变。除了图1~2所示的硬件之外或者作为其替代,可以使用其它的内部硬件或诸如快擦写存储器、相当的非易失性存储器或光盘驱动等的外设装置。另外,解释性实施例的处理可被应用于多处理器数据处理系统。
在一些解释性的例子中,数据处理系统200可以是一般配置有快擦写存储器以提供用于存储操作系统文件和/或用户产生数据的非易失性存储器的个人数字助理(PDA)。总线系统可包含一个或多个总线,诸如系统总线、I/O总线和PCI总线。当然,可通过使用在附接于构造或架构上的不同的部件或装置之间提供数据传送的任意类型的通信构造或架构,实现总线系统。
通信单元可包含用于传送和接收数据的一个或多个装置,诸如调制解调器或网络适配器。存储器可以为例如主存储器208或高速缓存,诸如在北桥和存储器控制器集线器202中发现的高速缓存。处理单元可包含一个或多个处理器或CPU。
图1~2所示的例子和上述例子不意味着隐含架构限制。例如,除了采取PDA的形式以外,数据处理系统200也可以是平板计算机、膝上型计算机或电话装置。
参照图3,该图示出根据解释性实施例的可在其中识别函数依赖性的表格数据的例子。表格300是在图1中的文档113中出现的表格数据的例子,在该表格数据中,可通过使用图1中的应用105确定函数依赖性。
仅作为例子而不意味着限制,为了为表格和单元格划界,示出水平或垂直规则线(rule-line)。在解释性实施例的范围内,可通过任何适当的方式表达表格或表格数据,并且,可通过任何方式为单元格划界。例如,在解释性实施例的范围内,设想缩排(identation)、单元格数据之间的间隔、表格和非表格内容中的不同的间隔、符号、图形、用于示出表格数据的特定的示图或透视图或在其中表达表格数据和单元格的这些和其它示例方式的组合。
表格302是表格300的一部分,并包括用于将各种单元格中的数据组织到标题、类别或种类(类别)中的几个标题。标题可以是行标题或列标题。在解释性实施例的范围内,标题不限于表格边界或末端。例如,标题可诸如以副标题的形式嵌入表格中、单元格之间,以识别表格数据的子类。在解释性实施例的范围内设想这种子行或子列标题。在一个实施例中,可与相应的表格数据单独地规定某些标题信息,诸如在脚注、附录、另一表格或给定文档中的另一位置中。
例如,标题304识别包含“财年1月31日结束”的大类的数据的一组列。标题306、308和310对三个示例性的年份识别“财年1月31日结束”数据的子类,即,按年。
行标题312包含一些线索。例如,行标题314是“总计”,并且在标题316和318下缩排。类似地,行标题320是另一“总计”,并在行标题322下缩排。行标题314和320上的缩排是可用于理解与行标题314和320在同一行中的单元格与表格302中的其它单元格之间的函数关系的示例线索。行标题314和320中的词语“总计”是可用于以类似的方式确定它们的相应的行中的单元格的函数依赖性的线索的另一例子。
这些示例性线索不意在限制解释性实施例。本领域技术人员可从本公开设想许多其它的线索,并且它们在解释性实施例的范围内被设想。
相同的线索有助于以不同的方式理解不同单元格中的信息。例如,考虑作为表格300的另一部分的表格352。标题354识别一组列,包含用于“改变”的大类的数据。标题356和358从类别306、308和310的三个示例年份识别“改变”数据的子类,即,通过比较两个连续的年份。
行标题312对它们在表格302和352中的相应的行中的单元格赋予不同的意思。例如,虽然在表格302中的相应的单元格中根据行标题314的“总计”意味着美元收入量,但在表格352中的相应的单元格中同一行标题意味着美元量变化和百分比变化。与本示例性表格300同样,在实施例中,诸如行标题312中的一个位置中的线索也可以与其它位置中的其它的线索、数据或内容结合的方式操作,以使得能够确定给定表格数据中的某些单元格的意思。
参照图4,该图示出根据解释性实施例的发现表格数据中的关系的方式的框图。表格400与图3中的表格300相同。表格402、452分别与图3中的表格302和352类似。列标题404、406、408和410分别与图3中的标题304、306、308和310类似。行标题412~422分别与图3中的行标题312~322类似。
如针对图3注明的那样,给定表格数据周围的线索可帮助确定单元格的函数依赖性。类似地,给定表格中的标记也可形成附加的线索并帮助该确定、增强先前的确定,或者两者。例如,线424和426是在确定一些单元格的函数依赖性时用作附加的线索的示例表格标记。如上所述,用于表达表格或单元格划界的线或其它表示法仅是例子,并且不意在限制解释性实施例。在解释性实施例的范围内,可在不使用诸如线424和426的表达辅助的情况下表达表格和单元格。
作为例子,行标题414指示单元格428包含在别处、可能在表格402中呈现的一些值的总计或合计。换句话说,标题414中的线索帮助确定单元格428的类型“和”对一些其它的单元格的函数依赖性。
线424增强该确定,并且帮助缩小可能参与该函数依赖性的单元格的范围。例如,实施例断定,单元格428的内容是在线424之上出现的单元格值的总计或和,直到诸如另一线和表格边界等的另一定界符。
作为另一例子,行标题420指示单元格430包含在别处、可能在表格402中呈现的一些值的总计或合计。换句话说,标题420中的线索帮助确定或确认单元格430的类型“和”对一些其它的单元格的函数依赖性的假设。
线426增强该确定,并且帮助缩小可能参与该函数依赖性的单元格的范围。例如,实施例断定,单元格430的内容是在线426之上出现的单元格值的总计或和,直到诸如例如线424的另一线的另一定界符。
线424仅为了阐明描述且不作为对解释性实施例的限制被描述为示例结构标记或线索。可类似地帮助确定单元格之间的函数关系的另一示例标记是诸如兼容行和列类型的语义线索。例如,当单元格的行标题指示收益值且单元格的列标题指示年份时,该行和列中的单元格可能至少包含该年份的收益值,并且可能通过子总计类型函数关系与同一列中的某些其它值相关。在本例子中,线索涉及特定的单元格。这种特定于单元格的线索在确认该单元格的函数依赖性时是有用的,并且可能或者可能不可用于在整个列上确认类似的函数依赖性。
作为另一例子,列标题404的存在暗示列406、408和410中的共通性。单独地,实施例可断定标题406、408和410的内容均具有语义类型“年份”。实施例确定这三个列类似的暗示。当实施例发现相同的函数依赖性在这三个列中成立时,实施例通过利用该暗示或线索支持置信水平的事实评价该发现的置信水平。上述的暗示是列宽暗示。依赖性在大量的列上成立的假设是列宽(column-wide)假设。列宽暗示在支持列宽假设时是有用的。
实施例使用表格中和周围的可用标记或线索中的一些以假设函数依赖性。实施例进一步使用其它可用的线索或标记以确认假设,由此提高假设的置信水平。本质上,假设是函数依赖性的构架-假设单元格之间的假设关系,该假设关系当被应用于实际表格和构成单元格时可能对于所应用的所有情况为正确或错误,或者有时正确有时错误。
如果线索或标记支持其中根据假设的函数依赖性产生正确结果的实例,那么假设被确认或支持,或者,换句话说,假设的置信度高于阈值。如果根据线索的函数依赖性可在给定表格数据中的其它单元格或单元格范围内被重复(即,线索成立,或者支持假设),那么假设的置信度也从一个值增加到另一值,诸如从低于阈值置信水平提升到高于阈值置信水平。
在机器学习术语中,一组的所有可能支持线索中的各线索被称为“特征”。现有假设的特征的有无增加或降低该假设的置信水平。根据实施例的“模型”是用于基于给出(或支持)假设的特征的子集计算假设的置信度分数的机制。在一个实施例中,模型作为基于规则的引擎操作。在另一实施例中,可通过使用置信度分数先验已知的表格的训练组(例如,“标签组”)“训练”模型。
假设库432与图1中的假设库109类似。假设库432是实施例,诸如图1中的应用105中的实施例,接收的用于确定表格400中的函数依赖性的假设的集合。在一个实施例中,用户供给假设库432。在另一实施例中,应用提供假设库432。在一个实施例中,假设库432是更大的假设库(未示出)的一部分,并且根据一些准则被选择。假设库432的成员假设的示例选择准则可以是域特定的。例如,假设库432可仅包含适用于被分析的表格数据的域的那些假设。假设库432中的构成假设可在表格数据改变时改变。
在示出的示例假设库432中,假设434假定一些单元格是同一列中的一些其它单元格的和,即,是“列行”或“col_sum”。类似地,假设436假定一些单元格是同一行中的某些其它的单元格之间的差值,即,是“行差值”或“row_diff”。假设438假定一些单元格是同一行中的某个其它单元格与同一行中的另一单元格或常数相除,即,是“行除法”或“row_div”。
假设400假定一些假设在不同的列中重复,即,是“列重复”或“col_repeat”。例如,“列和”假设434可在列406中以及在列408和410中重复。类似地,假设442假定一些假设在不同的行中重复,即,是“行重复”或“row_repeat”。例如,“行差值”假设436可在行416中并在行418和414中重复。一个假设的适用性可通过这种方式引导另一假设的适用性的置信度。换句话说,如果假设434看起来指示某些单元格之间的函数依赖性且假设434看起来跨多于一个的列确证假设434的适用性,那么实施例在由假设434指示的函数依赖性上表现为高于阈值置信水平。
示图460表示对表格400操作的假设库432中的各种示例假设。例如,在示图460中的要素462上,假设col_sum看起来适用于在线424之间划界的一组值和表格402中的数据的开始,即示图460中的要素464和46,并导致单元格428中的值。类似地,在要素468上,假设col_sum也看起来适用于线424与426之间的单元格,其中的一个是要素462上的同一假设的先前应用的结果,另一个是要素470,并导致单元格430中的值。示图460中的要素472指示要素462、464、466、468和470的布置在表格402中的列408和410中根据假设440重复。示图460的剩余部分类似地确定表格452中的函数依赖性。
因此,在图4所示的例子中,所确定的依赖性的例子指示可重复模式,并且通过包含的单元格上的支持计算被确证。给定适当的阈值水平,实施例可表达超过阈值水平的置信水平。因此,实施例输出表格400的单元格的自然语言处理形式,由此,单元格值不仅参照它们的名目或标题而且由它们的相互关系来表达。
例如,单元格428中的值不仅会表达为“2009年总收益和非营业性收入2151341美元”,而且会表达为“2009年收益和非营业性收入的电气和气体类别的总收入”。与当前可用的NLP技术所产生的结果相比,受益于实施例的这种自然语言处理是更有用、更有信息性。
参照图5,该图示出根据解释性实施例的用于发现表格数据中的关系的应用的框图。作为图1中的应用105的替代,可以使用应用502。
应用502分别接收具有表格数据的一个或多个文档和假设库作为输入504和506。应用502包含用于在输入504中定位表格数据的实例的功能508。使用假设库506,功能510分析通过输入504中的功能508定位的表格数据的实例中的单元格数据的函数依赖性。
在执行分析时,功能510使用功能512以确定参与给定函数依赖性的单元格范围。在本公开中描述通过使用线索和标记确定单元格范围的一些示例方式。
功能514评价通过功能510分析的函数依赖性中的置信水平。功能510、512和514没有限制地在与在给定实现中需要的表格实例一样多的单元格上动作。应用502输出一个或多个NLP文档516,其中讲述在其中识别的表格结构和函数依赖性,任选地包含指示一个或多个这种函数依赖性的置信水平的任何适当的方式。
参照图6,该图示出根据示例性实施例的用于发现表格数据中的关系的示例处理的流程图。可在图5中的应用502中实现处理600。
处理600通过接收包含表格数据的一组的一个或多个文档开始(步骤602)。处理600接收假设库(步骤60)。例如,假设库可限于仅包含适用于在步骤602中接收的文档的主题域的那些假设。
找到函数依赖性的复杂性随着被分析的表格的尺寸和给定假设库中的假设的数量以指数的方式增加。因此,实施例通过限制给定假设库中的假设的数量或类型、限制搜索函数依赖性的单元格范围或者两者的组合,优化函数依赖性的检测。
处理600从假设库选择假设(步骤606)。处理600诸如通过跨一个或多个文档中的一个或多个表格或周围的内容以一个或多个线索、标记或它们的变化的一些组合,使用这些线索、标记或变化选择单元格范围(步骤608)。
处理600确定选择的假设是否适配所选单元格范围(步骤610)。例如,如参照图4描述的那样,处理600可从由高于该单元格的某些标记划界的单元格范围,确定讨论中的单元格是否计算为列和。这种确定选择的假设是否适配的示例方式不意在限制解释性实施例。由于使用的假设可根据分析的文档为任何适当的假设,因此,可在处理600的范围内使用确定是否满足假设的任何适当的方式。
如果选择的假设适配所选单元格范围(步骤601的“是”路径),那么处理600前进到步骤614。在一个实施例中,在确定线索的集合支持假设之后,处理600根据假设评价函数依赖性的置信水平(块612)。实施例与处理600分开地实现块612,并与处理600分开地执行置信水平评价,诸如在不同的迭代、遍(pass)或处理中。块612的实施例在图7中被描述为处理700。
处理600确定是否要分析更多的表格数据以确定单元格的函数依赖性(步骤614)。如果要分析更多的表格数据(步骤614的“是”路径),那么处理600返回步骤606。如果不分析更多的表格数据(步骤614的“否”路径),那么处理600输出一个或多个NLP文档,根据假设适配和置信度记述表格结构和函数依赖性(步骤616)。处理600然后结束。在一个实施例中,处理600根据用于诸如图1中的NLP引擎103的现有NLP引擎中的假设适配和置信度,输出表格结构和函数依赖性数据,该现有NLP引擎产生NLP文档。
在步骤610中,如果处理600确定选择的假设不适当地适配所选单元格范围(步骤610的“否”路径),那么处理600确定是否对于选择的假设耗尽单元格范围(步骤618)。例如,如果选择的假设是“列和”且高于被评价的单元格的单元格范围减小到零单元格,那么会对于假设耗尽单元格范围。单元格范围耗尽是假设依赖概念,并可根据考虑的假设以任何适当的方式被确定。
如果单元格范围被耗尽(步骤618的“是”路径),那么处理600确定是否还要对于正在分析其函数依赖性的单元格尝试更多的假设(步骤620)。如果一个或多个假设可被尝试(步骤620的“是”路径),那么处理600返回到步骤606。如果没有更多的假设要被尝试(步骤620的“否”路径),那么处理600前进到步骤614。
如果单元格范围还没有耗尽(步骤618的“否”路径),那么处理600诸如通过增加范围中的单元格的数量、减少范围中的单元格的数量、变为单元格的不同的范围或者这些和其它可能的变化的组合调整单元格范围(步骤622)。处理600然后返回到步骤610。
参照图7,该图示出根据解释性实施例的用于评价置信水平的示例处理的流程图。处理700可实现为图6中的块612。
处理700的一个分支从根据类似的标记或线索选择不同的单元格范围开始(步骤702)。例如,在一个实施例中,处理700在具有类似目的数据的不同列或行中选择相当的单元格范围。在另一实施例中,处理700考虑(未示出)其它的语义线索、结构线索、单元格之中的名目和类型相容性、诸如“总计”或“子总计”的建议性词语或短语或用于选择不同的单元格范围的这些和其它帮助的组合以验证所选假设的适配性。
换句话说,对于单元格范围和对该范围成立的假设,实施例搜索一组支持线索(特征)。该组支持线索可不仅包含标记或语义线索,而且还包含在该单元格范围上发现成立的其它假设。实施例由此找到该假设在该单元格范围上的支持证据的集合。实施例然后基于支持证据的集合计算总置信度分数。
处理700确定假设(主要假设)是否适配在步骤702中选择的新的单元格范围(步骤704)。如果假设适配新的单元格范围(步骤704的“是”路径),那么处理700根据假设增加函数依赖性的置信水平(步骤706)。处理700然后结束。如果假设不适配新的单元格范围(步骤704的“否”路径),那么处理700可然后结束或重复,从而使置信水平保持不变,或者可减小置信水平(步骤708)。例如,特征值可能为正、零或负。例如,如果跨三个示例列不存在共同的标题,那么相应特征的值会为零,即,中性的。但是,如果三个列具有不同的语义类型,那么该特征将可能为负,由此实际上减小置信度。
处理700的另一分支从选择不同的假设(次级假设)适配另一假设(主要假设)已适配的单元格范围(步骤703)开始。处理700确定另一假设-次级假设-是否适配单元格范围(步骤705)。如果次级假设适配单元格范围(步骤705的“是”路径),那么处理700在步骤706中根据假设增加函数依赖性的置信水平。处理700可然后结束。如果次级假设不适配单元格范围(步骤705的“否”路径),那么处理700可然后结束或重复,从而使置信水平保持不变,或者,可在步骤708中减小置信水平。
当处理700重复时,处理700以类似的方式对不同的单元格范围和不同的次级假设重复。重复迭代跨不同的范围评价不同的假设并找到结果。次级假设可能开始不适用于单元格范围,但随着更多的依赖性被发现,次级假设(和其它的更高阶假设)(未示出)可开始匹配其它的单元格范围并支持其它的发现的结果。这种匹配或支持又可触发其它假设的测试等(未示出)
在置信度评价阶段中,实施例尝试产生会增加函数依赖性的置信水平的各种“特征”的集合。实施例将由次级假设适配(失配)指示的二次依赖性的存在视为又一置信度增加(减小)特征。仅作为例而不隐含对其的限制,在几个实施例中描述跨单元格范围的适用性。对置信水平变化考虑的特征组不仅仅限于范围类似性,而可从可用作线索的表格数据的许多其它特性导出,这些特性诸如包含但不限于各种标记线索、布局线索(即,共用类别标题)、语义线索(即,所有标题具有相同的语义类型(即,“年份”)和导出的发现的依赖性,比如多个行中的类似的依赖性。
图中的流程图和框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能的实现的结构、功能和操作。关于这一点,流程图或框图中的各块可代表包含用于实现规定的逻辑功能的一个或多个可执行指令的代码的模块、段或部分。还应注意,在一些替代性的实现中,在块中注明的功能可以按图示的次序以外的次序出现。例如,根据包括的功能,连续表示的两个块事实上可基本上被同时执行,或者,有时可以按相反的次序执行块。还应注意,可通过执行特定功能或作用的基于特殊用途硬件的系统或者特殊用途硬件和计算机指令的组合,实现框图和/或流程图的各块和框图和/或流程图的块的组合。
因此,在解释性实施例中提供用于发现表格数据中的关系的计算机实现的方法、系统和计算机程序产品。实施例使用假设库以测试给定表格数据的多个部分是否具有特定的结构和函数依赖性。对于一个或多个单元格范围测试假设,以通过使用所选单元格范围通过计算确定假设的结果是否被支持。置信水平与根据假设的单元格范围内的函数依赖性有关。基于包含表格数据中的各种线索和标记、给定的一组文档中的表格数据周围或别处的内容的多个准则来选择单元格范围。
在一些实施例中仅作为例子而不是隐含对其的限制,通过使用单元格范围描述了线索和假设确认。在解释性实施例的范围内,用于支持选择特定假设的信息、线索或特征可来自给定文档的任何部分,包含文档中的表格数据以外的内容。
仅作为例子而不是隐含对解释性实施例的限制,关于预定的假设或已知的函数描述了一些实施例。实施例还以掌握的函数的形式假定以前未知或未编程的函数依赖性。例如,实施例可在给定表格中的数据上应用一些分析技术并在表格数据中找到统计数据模式。在解释性实施例的范围内,实施例可被配置为以掌握的函数或掌握的假设的形式解释这些发现。实施例可然后将掌握的假设包含于其它确认或置信水平评价的集合中。
这里描述的例子和实施例的描述是关于英语的线索、假设、文档、表格数据和NLP描述的,不意在限制解释性实施例。在解释性实施例的范围内,可通过使用任何语言的线索、假设、文档、表格数据和NLP以类似的方式实现实施例。
本领域技术人员可以理解,本发明的各方面可体现为系统、方法或计算机程序产品。因此,本发明的方面可采取在这里可一般称为“电路”、“模块”或“系统”的完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施例。并且,本发明的各方面可采取以具有在其上面体现的计算机可读程序代码的一个或多个计算机可读存储装置或计算机可读介质体现的计算机程序产品的形式。
可以利用一个或多个计算机可读存储装置或计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储装置可例如是但不限于电子、磁、光学、电磁、红外或半导体系统、装置或器件或者以上的任意适当的组合。计算机可读存储装置的更特定的例子(非穷举的列表)包括以下:具有一个或多个导线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快擦写存储器)、光纤、便携式紧致盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或以上的任意适当的组合。在本文的背景中,计算机可读存储装置可以是可包含或者存储供指令执行系统、装置或器件使用或者与其关联使用的程序的任何可触知器件或介质。
可通过使用包括但不限于无线、有线、光纤电缆、RF等或以上的任意适当的组合的任意适当的介质传送在计算机可读存储装置或计算机可读介质上体现的程序代码。
可通过包括诸如Java、Smalltalk或C++等的面向对象的编程语言和诸如“C”编程语言或类似的编程语言的常规的过程编程语言的一个或多个编程语言的任意组合,书写用于实施本发明的各方面的操作的计算机程序代码。可完全在用户的计算机上、部分地用户的计算机上、作为独立软件包、部分地用户计算机上并且部分在远程计算机或者完全在远程计算机或服务器上执行程序代码。在后一种方案中,远程计算机可通过包括局域网络(LAN)或广域网络(WAN)的任意类型的网络与用户的计算机连接,或者,可与外部计算机连接(例如,通过使用因特网服务提供器的因特网)。
这里,参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解,可通过计算机程序指令实现流程图和/或框图的各块以及流程图和/或框图的块的组合。这些计算机程序指令可被提供给一个或多个通用计算机、特殊用途计算机或者其它的可编程数据处理装置的一个或多个处理器,以制造机器,使得通过计算机或其它可编程数据处理装置的一个或多个处理器执行的指令创建用于实现在流程图和/或框图块中规定的功能/动作的装置。
这些计算机程序指令也可存储于计算机可读存储装置或计算机可读介质中,这些计算机程序指令可指导一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备以特定的方式起作用,使得存储于一个或多个计算机可读存储装置或计算机可读介质中的指令产生包括实现在流程图和/或框图块中规定的功能/动作的指令的制造物品。
计算机程序指令也可被加载到一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上,以导致在一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上执行的一系列的操作步骤产生计算机实现的过程,使得在一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上执行的指令提供用于实现在流程图和/或框图块中规定的功能/动作的处理。
在这里使用的术语仅出于描述特定的实施例目的,并且不意在限制本发明。如这里使用的那样,除非在上下文中另外明显指出,否则单数形式“一种”、“一个”和“该”意在也包括复数形式。还应理解,在本说明书中使用的术语“包括”和/或“包含”规定阐述的特征、整数、步骤、操作、要素和/或部件的存在,但不排除存在或添加一个或多个其它的特征、整数、步骤、操作、要素、部件和/或它们的组。
所有装置的相应的结构、材料、动作和等同或以下的权利要求中的步骤加功能要素意在包括用于与特别要求权利的其它要求要素组合执行功能的任何结构、材料或动作。给出本发明的描述是出于解释和描述的目的给出的,但它不是详尽的或者将本发明限于公开的形式。在不背离本发明的范围和精神的情况下,许多修改和变更对本领域技术人员来说是十分明显的。为了最好地解释本发明的原理和实际应用并使得其它的本领域技术人员能够理解本发明的具有适于设想的特定用途的各种实施例,选择和描述了实施例。
Claims (12)
1.一种用于确定表格数据中的关系的方法,所述方法包括:
接收一组文档,所述一组文档中的文档包含表格数据;
选择要确定其依赖性的表格数据中的单元格,其中基于与单元格相关的线索选择单元格范围;
选择与单元格结合使用的假设;
通过确定是否能够通过在所选部分上使用在假设中规定的函数来计算假设中的结论,使用处理器和存储器测试假设是否适用于文档的所选部分,其中,文档的所选部分包含文档的表格数据中的所选单元格范围和非表格部分中的内容中的一个;和
利用假设以相对于所选部分描述单元格。
2.根据权利要求1所述的方法,还包括:
评价来自测试的肯定结果的置信水平。
3.根据权利要求2所述的方法,还包括:
响应于第二测试是肯定的而调整置信水平,第二测试确定假设是否适用于第二所选单元格范围。
4.根据权利要求3所述的方法,其中,第二所选单元格范围是包含于所述一组文档中的第二表格数据。
5.根据权利要求1所述的方法,还包括:
改变所选单元格范围以形成改变的单元格范围;和
测试假设是否适用于改变的单元格范围。
6.根据权利要求1所述的方法,其中,假设是基于与单元格相关的线索选择的,并且,所述利用包括:
响应于假设适用于所选部分,以单元格在所选部分上的函数依赖性的形式产生函数和所选部分的描述。
7.根据权利要求6所述的方法,其中,线索是表格数据中的标记。
8.根据权利要求6所述的方法,其中,线索是与单元格相关的标题中的建议性词语和语义线索中的一个。
9.根据权利要求6所述的方法,其中,线索是表格数据的结构成分。
10.根据权利要求1所述的方法,还包括:
接收一组假设,其中,由于假设适用于所述一组文档中的文档的主题域,所以假设是所述一组假设中的成员。
11.根据权利要求1所述的方法,其中,对于表格数据中的单元格的自然语言处理来说,信息是足够的。
12.一种用于确定表格数据中的关系的数据处理系统,所述数据处理系统包含:
包含存储介质的存储装置,其中,存储装置存储计算机可用程序;和
处理器,其中,处理器执行计算机可用程序,并且其中计算机可用程序包含:
用于接收一组文档的计算机可用程序,所述一组文档中的文档包含表格数据;
用于选择要确定其依赖性的表格数据中的单元格的计算机可用程序,其中基于与单元格相关的线索选择单元格范围;
用于选择与单元格结合使用的假设的计算机可用程序;
用于通过确定是否能够通过在所选部分上使用在假设中规定的函数来计算假设中的结论,使用处理器和存储器测试假设是否适用于文档的所选部分的计算机可用程序,其中,文档的所选部分包含文档的表格数据中的所选单元格范围和非表格部分中的内容中的一个;和
用于利用假设以相对于所选部分描述单元格的计算机可用程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/932,435 | 2013-07-01 | ||
US13/932,435 US9600461B2 (en) | 2013-07-01 | 2013-07-01 | Discovering relationships in tabular data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281563A CN104281563A (zh) | 2015-01-14 |
CN104281563B true CN104281563B (zh) | 2017-12-15 |
Family
ID=52116934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410309195.8A Expired - Fee Related CN104281563B (zh) | 2013-07-01 | 2014-07-01 | 用于发现表格数据中的关系的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (2) | US9600461B2 (zh) |
CN (1) | CN104281563B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418566B2 (en) | 2014-01-02 | 2016-08-16 | International Business Machines Corporation | Determining comprehensiveness of question paper given syllabus |
US9442090B2 (en) | 2014-03-27 | 2016-09-13 | Honeywell International Inc. | Magnetic stimulus of ISFET-based sensor to enable trimming and self-compensation of sensor measurement errors |
US10318625B2 (en) | 2014-05-13 | 2019-06-11 | International Business Machines Corporation | Table narration using narration templates |
US10078629B2 (en) | 2015-10-22 | 2018-09-18 | International Business Machines Corporation | Tabular data compilation |
US10120851B2 (en) * | 2016-06-30 | 2018-11-06 | Microsoft Technology Licensing, Llc | Automatic semantic data enrichment in a spreadsheet |
US10579721B2 (en) | 2016-07-15 | 2020-03-03 | Intuit Inc. | Lean parsing: a natural language processing system and method for parsing domain-specific languages |
US11049190B2 (en) | 2016-07-15 | 2021-06-29 | Intuit Inc. | System and method for automatically generating calculations for fields in compliance forms |
US11222266B2 (en) * | 2016-07-15 | 2022-01-11 | Intuit Inc. | System and method for automatic learning of functions |
CN106844338B (zh) * | 2017-01-03 | 2019-12-10 | 北京交通大学 | 基于属性间依赖关系的网络表格的实体列的检测方法 |
US10997228B2 (en) * | 2017-10-26 | 2021-05-04 | International Business Machines Corporation | Comparing tables with semantic vectors |
US10776573B2 (en) * | 2018-09-20 | 2020-09-15 | International Business Machines Corporation | System for associating data cells with headers in tables having complex header structures |
US10831798B2 (en) | 2018-09-20 | 2020-11-10 | International Business Machines Corporation | System for extracting header labels for header cells in tables having complex header structures |
US11514258B2 (en) | 2018-09-20 | 2022-11-29 | International Business Machines Corporation | Table header detection using global machine learning features from orthogonal rows and columns |
US11443106B2 (en) | 2018-09-20 | 2022-09-13 | International Business Machines Corporation | Intelligent normalization and de-normalization of tables for multiple processing scenarios |
US11762890B2 (en) | 2018-09-28 | 2023-09-19 | International Business Machines Corporation | Framework for analyzing table data by question answering systems |
JP7180420B2 (ja) * | 2019-01-31 | 2022-11-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11163956B1 (en) | 2019-05-23 | 2021-11-02 | Intuit Inc. | System and method for recognizing domain specific named entities using domain specific word embeddings |
US20210097342A1 (en) * | 2019-09-26 | 2021-04-01 | International Business Machines Corporation | Identifying reference data in a source data set |
CN111241796B (zh) * | 2020-01-19 | 2021-03-26 | 北京字节跳动网络技术有限公司 | 表格信息的展示方法、装置、设备和存储介质 |
US11783128B2 (en) | 2020-02-19 | 2023-10-10 | Intuit Inc. | Financial document text conversion to computer readable operations |
US11436249B1 (en) * | 2021-03-26 | 2022-09-06 | International Business Machines Corporation | Transformation of composite tables into structured database content |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236609A (zh) * | 2007-02-02 | 2008-08-06 | 富士通株式会社 | 用于分析并确定文档中信息的相关性的装置和方法 |
CN101887413A (zh) * | 2009-05-14 | 2010-11-17 | 北大方正集团有限公司 | 版式表格的结构处理方法和系统 |
CN102043819A (zh) * | 2009-10-20 | 2011-05-04 | 华中科技大学 | Html表格语义脉络分析方法 |
Family Cites Families (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4688195A (en) | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
JPS63305463A (ja) * | 1987-06-05 | 1988-12-13 | Hitachi Ltd | 自然言語処理方式 |
JP2926066B2 (ja) | 1992-05-29 | 1999-07-28 | 富士ゼロックス株式会社 | 表認識装置 |
US5491700A (en) | 1993-10-01 | 1996-02-13 | Pacific Communication Sciences, Inc. | Method and apparatus for code error correction using an ordered syndrome and error correction lookup table |
EP0685949A3 (de) | 1994-06-03 | 2002-07-10 | Philips Patentverwaltung GmbH | Paketübermittlungssystem |
WO1999027556A2 (en) | 1997-11-20 | 1999-06-03 | Xacct Technologies, Inc. | Network accounting and billing system and method |
US6161103A (en) | 1998-05-06 | 2000-12-12 | Epiphany, Inc. | Method and apparatus for creating aggregates for use in a datamart |
JP3690730B2 (ja) | 2000-10-24 | 2005-08-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造回復システム、構文解析システム、変換システム、コンピュータ装置、構文解析方法、及び記憶媒体 |
US7620665B1 (en) | 2000-11-21 | 2009-11-17 | International Business Machines Corporation | Method and system for a generic metadata-based mechanism to migrate relational data between databases |
US7054871B2 (en) | 2000-12-11 | 2006-05-30 | Lucent Technologies Inc. | Method for identifying and using table structures |
US7694216B2 (en) * | 2000-12-19 | 2010-04-06 | International Business Machines Corporation | Automatic assignment of field labels |
US6904428B2 (en) | 2001-04-18 | 2005-06-07 | Illinois Institute Of Technology | Intranet mediator |
WO2003012661A1 (en) | 2001-07-31 | 2003-02-13 | Invention Machine Corporation | Computer based summarization of natural language documents |
JP4947861B2 (ja) | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
US7216056B2 (en) * | 2001-12-06 | 2007-05-08 | C-Live, Inc. | Access log analyzer and access log analyzing method |
US6946715B2 (en) | 2003-02-19 | 2005-09-20 | Micron Technology, Inc. | CMOS image sensor and method of fabrication |
JP2004062446A (ja) | 2002-07-26 | 2004-02-26 | Ibm Japan Ltd | 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム |
US20040103367A1 (en) | 2002-11-26 | 2004-05-27 | Larry Riss | Facsimile/machine readable document processing and form generation apparatus and method |
US7143026B2 (en) | 2002-12-12 | 2006-11-28 | International Business Machines Corporation | Generating rules to convert HTML tables to prose |
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US7890928B2 (en) * | 2003-07-26 | 2011-02-15 | Pilla Gurumurty Patrudu | Mechanism and system for representing and processing rules |
US20150066895A1 (en) | 2004-06-18 | 2015-03-05 | Glenbrook Networks | System and method for automatic fact extraction from images of domain-specific documents with further web verification |
US7792829B2 (en) | 2005-01-28 | 2010-09-07 | Microsoft Corporation | Table querying |
US7590647B2 (en) * | 2005-05-27 | 2009-09-15 | Rage Frameworks, Inc | Method for extracting, interpreting and standardizing tabular data from unstructured documents |
US20070011183A1 (en) * | 2005-07-05 | 2007-01-11 | Justin Langseth | Analysis and transformation tools for structured and unstructured data |
US8024653B2 (en) | 2005-11-14 | 2011-09-20 | Make Sence, Inc. | Techniques for creating computer generated notes |
US7668791B2 (en) | 2006-07-31 | 2010-02-23 | Microsoft Corporation | Distinguishing facts from opinions using a multi-stage approach |
US20100050074A1 (en) | 2006-10-30 | 2010-02-25 | Cellesense Technologies Ltd. | Context sensitive, error correction of short text messages |
US7774193B2 (en) | 2006-12-05 | 2010-08-10 | Microsoft Corporation | Proofing of word collocation errors based on a comparison with collocations in a corpus |
US20080208882A1 (en) | 2007-02-28 | 2008-08-28 | Honeywell International Inc. | Method of Assisting Users In Detection and Correction of Errors In Complex Databases |
US20090063470A1 (en) * | 2007-08-28 | 2009-03-05 | Nogacom Ltd. | Document management using business objects |
KR100918847B1 (ko) | 2007-10-15 | 2009-09-28 | 한국전자통신연구원 | 온톨로지 인스턴스 자동 생성 장치 및 방법 |
US8069190B2 (en) | 2007-12-27 | 2011-11-29 | Cloudscale, Inc. | System and methodology for parallel stream processing |
US8781989B2 (en) | 2008-01-14 | 2014-07-15 | Aptima, Inc. | Method and system to predict a data value |
US7792823B2 (en) | 2008-01-15 | 2010-09-07 | International Business Machines Corporation | Maintained symbol table only index |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
JP2010015554A (ja) | 2008-06-03 | 2010-01-21 | Just Syst Corp | 表構造解析装置、表構造解析方法および表構造解析プログラム |
WO2009155281A1 (en) | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
GB2476754A (en) * | 2008-09-15 | 2011-07-06 | Erik Thomsen | Extracting semantics from data |
US8255789B2 (en) | 2008-09-30 | 2012-08-28 | Apple Inc. | Providing spreadsheet features |
JP2010140116A (ja) | 2008-12-09 | 2010-06-24 | Ricoh Co Ltd | ファイル管理装置、ファイル管理方法及びファイル管理プログラム |
WO2010107327A1 (en) * | 2009-03-20 | 2010-09-23 | Syl Research Limited | Natural language processing method and system |
US20100280989A1 (en) | 2009-04-29 | 2010-11-04 | Pankaj Mehra | Ontology creation by reference to a knowledge corpus |
US8959481B2 (en) | 2009-04-30 | 2015-02-17 | International Business Machines Corporation | Determining system level dependencies |
US8037108B1 (en) | 2009-07-22 | 2011-10-11 | Adobe Systems Incorporated | Conversion of relational databases into triplestores |
US8499008B2 (en) | 2009-07-24 | 2013-07-30 | Yahoo! Inc. | Mixing knowledge sources with auto learning for improved entity extraction |
US20110055172A1 (en) | 2009-09-01 | 2011-03-03 | Containertrac, Inc. | Automatic error correction for inventory tracking and management systems used at a shipping container yard |
US8560300B2 (en) | 2009-09-09 | 2013-10-15 | International Business Machines Corporation | Error correction using fact repositories |
US8280838B2 (en) | 2009-09-17 | 2012-10-02 | International Business Machines Corporation | Evidence evaluation system and method based on question answering |
WO2011042543A1 (en) | 2009-10-08 | 2011-04-14 | Sony Corporation | Automated language-tutoring method |
US20110125734A1 (en) | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US20110126197A1 (en) | 2009-11-25 | 2011-05-26 | Novell, Inc. | System and method for controlling cloud and virtualized data centers in an intelligent workload management system |
WO2011095988A2 (en) * | 2010-02-03 | 2011-08-11 | Puranik Anita Kulkarni | A system and method for extraction of structured data from arbitrarily structured composite data |
US8219522B2 (en) | 2010-06-29 | 2012-07-10 | Asserted Versioning, Llc | Management of temporal data by means of a canonical schema |
US20120011115A1 (en) | 2010-07-09 | 2012-01-12 | Jayant Madhavan | Table search using recovered semantic information |
CN104484319A (zh) | 2010-09-24 | 2015-04-01 | 新加坡国立大学 | 用于自动化文本校正的方法和系统 |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
WO2012047541A1 (en) | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using multiple models to score candidate answers |
CN103229162B (zh) * | 2010-09-28 | 2016-08-10 | 国际商业机器公司 | 使用候选答案逻辑综合提供问题答案 |
EP2622599B1 (en) | 2010-09-28 | 2019-10-23 | International Business Machines Corporation | Evidence diffusion among candidate answers during question answering |
US8442988B2 (en) | 2010-11-04 | 2013-05-14 | International Business Machines Corporation | Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data |
US8756169B2 (en) * | 2010-12-03 | 2014-06-17 | Microsoft Corporation | Feature specification via semantic queries |
US8630989B2 (en) | 2011-05-27 | 2014-01-14 | International Business Machines Corporation | Systems and methods for information extraction using contextual pattern discovery |
US9069814B2 (en) * | 2011-07-27 | 2015-06-30 | Wolfram Alpha Llc | Method and system for using natural language to generate widgets |
US8874540B2 (en) * | 2011-09-07 | 2014-10-28 | Xerox Corporation | Method for semantic classification of numeric data sets |
US8601030B2 (en) | 2011-09-09 | 2013-12-03 | International Business Machines Corporation | Method for a natural language question-answering system to complement decision-support in a real-time command center |
US8990202B2 (en) * | 2011-11-03 | 2015-03-24 | Corefiling S.A.R.L. | Identifying and suggesting classifications for financial data according to a taxonomy |
US20130124957A1 (en) * | 2011-11-11 | 2013-05-16 | Microsoft Corporation | Structured modeling of data in a spreadsheet |
AU2012362383B2 (en) * | 2011-12-29 | 2018-05-10 | Bibo Labs, Inc. | Spreadsheet-based programming language adapted for report generation |
US8910018B2 (en) | 2012-07-17 | 2014-12-09 | Macronix International Co., Ltd. | Memory with dynamic error detection and correction |
US20140046696A1 (en) | 2012-08-10 | 2014-02-13 | Assurerx Health, Inc. | Systems and Methods for Pharmacogenomic Decision Support in Psychiatry |
US8972460B2 (en) | 2012-10-23 | 2015-03-03 | Oracle International Corporation | Data model optimization using multi-level entity dependencies |
US8914419B2 (en) | 2012-10-30 | 2014-12-16 | International Business Machines Corporation | Extracting semantic relationships from table structures in electronic documents |
US9330090B2 (en) * | 2013-01-29 | 2016-05-03 | Microsoft Technology Licensing, Llc. | Translating natural language descriptions to programs in a domain-specific language for spreadsheets |
US10289653B2 (en) | 2013-03-15 | 2019-05-14 | International Business Machines Corporation | Adapting tabular data for narration |
-
2013
- 2013-07-01 US US13/932,435 patent/US9600461B2/en not_active Expired - Fee Related
- 2013-11-26 US US14/090,184 patent/US9606978B2/en not_active Expired - Fee Related
-
2014
- 2014-07-01 CN CN201410309195.8A patent/CN104281563B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236609A (zh) * | 2007-02-02 | 2008-08-06 | 富士通株式会社 | 用于分析并确定文档中信息的相关性的装置和方法 |
CN101887413A (zh) * | 2009-05-14 | 2010-11-17 | 北大方正集团有限公司 | 版式表格的结构处理方法和系统 |
CN102043819A (zh) * | 2009-10-20 | 2011-05-04 | 华中科技大学 | Html表格语义脉络分析方法 |
Also Published As
Publication number | Publication date |
---|---|
US20150007007A1 (en) | 2015-01-01 |
US9606978B2 (en) | 2017-03-28 |
US9600461B2 (en) | 2017-03-21 |
CN104281563A (zh) | 2015-01-14 |
US20150007010A1 (en) | 2015-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281563B (zh) | 用于发现表格数据中的关系的方法和系统 | |
CN105378732B (zh) | 一种表格数据的主题分析的方法和系统 | |
CN111309915B (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
US11769111B2 (en) | Probabilistic language models for identifying sequential reading order of discontinuous text segments | |
US9465793B2 (en) | Systems and methods for advanced grammar checking | |
US9268766B2 (en) | Phrase-based data classification system | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
US9164977B2 (en) | Error correction in tables using discovered functional dependencies | |
US11055327B2 (en) | Unstructured data parsing for structured information | |
US20130332812A1 (en) | Method and system to generate a process flow diagram | |
US11941706B2 (en) | Machine learning system for summarizing tax documents with non-structured portions | |
US20170091162A1 (en) | Annotating embedded tables | |
CN106469143A (zh) | 文档结构的估计 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN111415747A (zh) | 电子病历的构建方法及装置 | |
US20150080702A1 (en) | Generating colonoscopy recommendations | |
CN110333886A (zh) | 一种审核程序迭代更新方法、装置、服务器及存储介质 | |
US11074517B2 (en) | Predicting keywords in an application | |
CN116561348B (zh) | 一种股东增减持信息抽取处理方法和系统 | |
CN117390140B (zh) | 基于机器阅读理解的中文方面级情感分析方法及系统 | |
CN112632955B (zh) | 文本集生成方法、装置、电子设备和介质 | |
EP4273736A1 (en) | System and method for managing information present in technical documents | |
CN114461800A (zh) | 专利授权概率的分析方法及装置、存储介质和电子设备 | |
CN114840630A (zh) | 分层文本主题分析方法、终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171215 |