CN105378732A - 表格数据的主题分析 - Google Patents

表格数据的主题分析 Download PDF

Info

Publication number
CN105378732A
CN105378732A CN201480040217.3A CN201480040217A CN105378732A CN 105378732 A CN105378732 A CN 105378732A CN 201480040217 A CN201480040217 A CN 201480040217A CN 105378732 A CN105378732 A CN 105378732A
Authority
CN
China
Prior art keywords
function signature
document
computer usable
data
list data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480040217.3A
Other languages
English (en)
Other versions
CN105378732B (zh
Inventor
D·K·拜伦
S·N·吉拉尔德
A·皮科夫斯基
M·B·萨恩切茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN105378732A publication Critical patent/CN105378732A/zh
Application granted granted Critical
Publication of CN105378732B publication Critical patent/CN105378732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及表格数据的主题分析。在说明性实施例中提供了用于表格数据的主题分析的方法、系统和计算机程序产品。接收包含表格数据的第一文档。选择用于第一主题域的函数签名库。确定来自所选库的阈值数量的函数签名是否适用于表格数据,其中当表格数据中的值与函数签名中指定的操作和表格结构相对应时,函数签名适用于表格数据。响应于来自所选库的阈值数量的函数签名适用于表格数据,处理器和存储器根据从用于相应主题域的多个处理中选出的用于第一主题域的处理来处理第一文档。

Description

表格数据的主题分析
技术领域
本发明一般涉及用于文档的处理的方法、系统和计算机程序产品。更特别地,本发明涉及用于表格数据(tabulardata)的主题分析的方法、系统和计算机程序产品。
背景技术
文档包含任何形式的信息。例如,被配置为语句和段落的文本信息以叙述的形式传递信息。
一些类型的信息是在表格组织中被提供的。例如,文档可以包含用于提供财务信息、组织信息的表格并且一般地可以包含用于提供通过一些关系彼此相关的任何数据条目的表格。
自然语言处理(NLP)是便利于人与数据处理系统之间的信息交换的技术。例如,NLP的一个分支属于将给定的内容转换成人可用的语言或形式。例如,NLP可接受内容是计算机特定语言或形式的文档,并产生相应内容采取人可读形式的文档。
发明内容
解释性实施例提供一种用于表格数据的主题分析的方法、系统和计算机程序产品。实施例接收包含表格数据的第一文档。实施例选择用于第一主题域的函数签名库。实施例确定来自所选库的阈值数量的函数签名是否适用于表格数据,其中当表格数据中的值与函数签名中指定的操作和表格结构相对应时函数签名适用于表格数据。实施例响应于来自所选库的阈值数量的函数签名适用于表格数据,根据从用于相应主题域的多个处理中选出的用于第一主题域的处理,使用处理器和存储器来处理第一文档。
附图说明
在所附的权利要求中阐述了被认为是本发明的特性的新颖特征。但是,通过在结合附图阅读时参照解释性实施例的以下详细描述,可以最好地理解本发明自身以及优选的使用方式及其进一步目的和优点,其中:
图1示出可以实现解释性实施例的数据处理系统的网络的图示;
图2示出可以实现解释性实施例的数据处理系统的框图;
图3示出在其中可根据解释性实施例识别函数关系和签名的表格数据的示例;
图4示出根据解释性实施例的函数签名的示例表示;
图5示出根据解释性实施例的函数签名的示例操作的框图;
图6示出根据解释性实施例的利用表格数据分类文档的示例方式的框图;
图7示出根据解释性实施例的构建函数签名的示例处理的流程图;
图8示出根据解释性实施例的创建签名库的示例处理的流程图;
图9示出根据解释性实施例的用于使用函数签名归类文档的示例处理的流程图;
图10示出根据解释性实施例的使用表格数据的主题分析来响应询问的示例处理的流程图;以及
图11示出根据解释性实施例的用于创建或改善知识库的示例处理的流程图。
具体实施方式
解释性实施例认识到:经受NLP的文档一般包含表格数据,即,一个或多个表格数据结构(表格)形式的内容。表格的单元格(cell)是表格内的包含单元,使得单元格的内容可以唯一地由表格的行和列或其它适当坐标识别。
解释性实施例认识到:在表格的单元格内提供的信息常常涉及同一表格的其它单元格、同一文档中的不同表格的单元格或不同文档中的单元格或不同表格中的信息。对于理解表格数据的意思,并且,一般对于理解整个文档的意思,包含于不同单元格中的信息之间的关系是十分重要的。
许多特定于域的文件,特别是在财务、医疗和其它(一个或多个)主题域中,在众多表格中具有关键信息。例如,用户可能想知道城市营业性收入是什么,或城市收益的组成。经常仅在表格中而不是财务文档的叙述文本中发现回答这样的问题需要的信息。
从表格内恢复信息历来是一大难题。解释性实施例认识到:为了正确和完整地解释表格数据,在NLP中需要专门的处理或操作。用于理解单元格值之间的关系的当前可用技术限于通过使用行或列标题启发式地猜测单元格的标签。
用于描述本发明的解释性实施例一般针对并解决与当前可用NLP技术的限制有关的上述问题和其它问题。解释性实施例提供了用于表格数据的主题分析的方法、系统和计算机程序产品。
解释性实施例认识到,表格中的单元格可以依赖于表格中的一个或多个其它单元格、跨给定文档中的不同表格的单元格或跨不同文档中的不同表格中的单元格。一个单元格对另一单元格的依赖性在本质上是函数,即,基于函数的依赖性。例如,形成这种函数依赖性的基础的函数(也称为函数关系或函数的关系)可以是在某些单元格值上运算以在某些其它单元格中赋予单元格值的数学、统计、逻辑或条件函数的任意组合。
作为示例,包含总量的单元格在函数上依赖于其值参与总量的单元格或与其相关。作为另一例子,统计分析结果单元格,诸如包含实验中的方差值的单元格,可以在函数上依赖于可能处于另一表格中的一组其它单元格,在该另一表格中记录了实验的各种迭代的结果。
这些例子意图不在于限制解释性实施例。函数依赖性指示一个或多个表格的单元格之间的关系,并且是根据表格或文档中的数据、其目的和各种单元格的意思高度可配置的。
并且,单元格可作为从属单元格和/或作为被从属单元格参与任意数量的函数依赖性或函数关系。由于单元格中的信息可以涉及在给定文档中的任何位置可用的信息,因此单元格的函数依赖性也可以包含依赖于给定文档中的非表格数据。
解释性实施例通过使得NLP工具能够理解表格数据的单元格的关系而改善在文档中以表格形式提供的信息的理解。解释性实施例提供确定表格中的单元格对其它单元格、表格的周围文本、文档中的内容或它们的组合的函数依赖性的方式。通过使用表格单元格之间的函数的关系的定量分析,结合表格内的单元格的语言和/或语义分析,解释性实施例改善了表格信息的理解而无需只依赖外部知识源。
解释性实施例确定给定表格数据的块中是否包括某些特定于域的函数关系。换而言之,解释性实施例执行表格数据的主题分析以确定表格数据中的信息是否匹配类似性的阈值度量内的函数签名。函数签名(签名)是一个或多个表格的一个或多个部分中的一个或多个单元格之间的函数和语义关系的表达,其中特定于文档的信息或特定于表格的信息已经被归一化为主题域的特定引用。单元格之间的函数关系包括在那些单元格之间发现的函数依赖性。单元格之间的语义关系包括与单元格相关联的语义标识符(例如标题、标记线索、缩排(identation)、偏移等)之间的类似性、依赖性或组织关系。函数关系和语义关系的示例包括在函数签名中,并且不意在限于解释性实施例。本领域技术人员将能够设想可以用在根据实施例的函数签名中的表格数据的其它目的相近的特征,并且这些也被认为是在解释性实施例的范围内。
如果解释性实施例发现这样的块,实施例通过对关于块的内容的推断和/或通过使用预定模板,取回包含在那个块中的信息。例如,假定实施例收到关于县财务报告文档的询问。例如,假设询问寻求2007财年的县收益的组成。实施例使用行类别类型“收益”、具有值类型“年”的列类别并且列值匹配例如“2007”的期望值,来寻找具有使用操作符“SUM(求和)”的函数签名的块。
注意,诸如收益类别的信息,在块中不必是‘平的’,块内可能存在一些中间计算量。该复杂性使得回答以上问题成为使用当前可用技术非常难以解决的问题。当前可用的表格提取技术寻找收益的组成部分,并且因此,将有可能返回噪声和不精确答案。相反,由于实施例从给定表格数据发现结构性和语义宏观层面知识的能力,询问接收了精确的答案。此外,实施例还使得多个不同类型的询问成为可能。例如,实施例可以精确地回答寻求收益的全部源的询问。另一实施例可以精确地回答仅寻求收益的原始组成部分的询问。
作为另一示例,实施例基于文档的表格数据的主题分析改善回答询问和推论。例如,回答某类问题需要深入了解一个或多个表格的一个或多个部分。例如,考虑诸如“收益的组成部分是什么?”、“水系统的顶级客户是什么?”或者“从2010到2011哪些产品线增长了它们的收益?”等这样的问题。在这样的问题中,实施例的主题分析从表格数据推断知识以确定例如哪些数据单元格在类别‘收益/客户/产品线’内,分析单元格值之间的函数的关系,并且向问题的定量部分提供答案。解释性实施例认识到:这种问题的自动回答依赖于属于主题域的表格结构的自动地详细分析。
根据解释性实施例的表格数据的改善理解在许多其它方面是有用的。例如,在相同主题域中的文档,诸如年度财务报表,经常包括表格中的类似信息,但是这些信息可能被不同地提供、措辞或组织。当前,在文档的NLP期间表格通常被忽略。实施例基于包含在其中的表格数据的特定于主题域分析的分析,能够将文档分类为合适的主题域和子域。由于大量信息以表格形式包含,实施例的这种分析改善了文档分类。
例如,给定域中的许多财务文档将包含一组标准的表格。例如,城市或公共事业的年度公开可能包含描述最大客户、债务偿还数量、收益和支出、资产负债表等的表格。从一个城市和一个文档到另一个,这些表格可能位于文档的不同部分、具有不同的格式并且有一些不同的内容。然而,这些中的每个都将包含具有共用函数签名的块,这是因为它们都是由类似指南和法律实践支配的。例如,经常使用类似指南计算常用的财务数据。因此,实施例断定在函数层面包含类似信息的块将包含类似函数签名。之后实施例可以仅仅通过检查表格的结构如何映射到给定域的函数签名(域的签名库)来确定给定表格区域或部分的类型。之后实施例可以将具有类似表格类型的文档分类在共同类别或分类中。
诸如在以上示例中的之类的询问可能用来自多个文档的信息回答,并且在那些文档中表格可以具有显著的结构差异。使用函数签名的实施例认识到:在各个文档中提供的信息是类似的,尽管在组织上有区别。例如,对于来自不同公司的给定的一组示例财务报告,如果询问是“2009年哪些芝加哥区域的公司盈利增长超过20%?”。各种公司可能会有不同格式的盈利报告,但是实施例能够在各种文档中发现等价信息,而不管那个信息的结构或格式的变形。实质上,通过将文档布局表示的信息投射为函数和语义表示、利用目的相近的文档通常有义务传递类似的关键信息段这一事实,实施例能够分析表格信息。
因此,实施例超越了从独立表格发现和提取事实的基础任务,并且允许以不可能仅仅通过解析表格数据实现的方式吸收信息、回答询问并且归类文档。在给定的一组文档中,实施例自动检测共用表格类型、具有类似函数签名的块(函数块),以及表格数据的结构背后的推论或逻辑。可选地,领域专家可以审查、批准或修改这些自动的发现。
作为解释性实施例有效性的另一示例,实施例使用这些发现来填充或充实特定于域的知识库,如实体名单、本体和词库。这样结构化的知识可以帮助可靠地提取新文档中的函数关系、新的函数关系或来确认关于类别标题之间关系的假设。通过提供更充实、更精确并且更完备的库用于这样的使用,这样的结构化知识还可以帮助其它处理,诸如文档归类、翻译或NLP。
仅作为例子关于某些文档和表格数据描述解释性实施例。这些文档、表格数据或它们的示例性属性不意在限制于本发明。
并且,可以关于任何类型的数据、数据源或经数据网络对数据源的访问实现解释性实施例。在本发明的范围内,在数据处理系统本地或者在数据网络上,任何类型的数据存储装置可向本发明的实施例提供数据。
解释性实施例通过使用特定的代码、设计、架构、协议、布局、示图和工具仅作为例子被描述,并且不限于解释性实施例。并且,在一些情况中,为了清楚地描述,仅通过使用特定的软件、工具和数据处理环境作为示例描述解释性实施例。解释性实施例可与其它的相当或目的相近的结构、系统、应用或架构结合使用。可以以硬件、软件或它们的组合实现解释性实施例。
本公开中的示例仅用于清楚地描述,并且不限于解释性实施例。可从本公开设想附加的数据、操作、动作、任务、活动和操控,并且,它们在解释性实施例的范围内被设想。
这里列出的任何优点仅是例子,并且不意在限于解释性实施例。可通过特定的解释性实施例实现附加或不同的优点。并且,具体解释性实施例可具有以上列出的优点中的一些或全部,或者不具有它们中的任一个。
参照附图,特别是参照图1和图2,这些附图是可实现解释性实施例的数据处理环境的示例示图。图1和图2仅是示例,并且不意在关于可实现不同实施例的环境断言或暗示任何限制。特定的实现可基于以下的描述对示出的环境提出许多修改。
图1示出可实现解释性实施例的数据处理系统的网络的图示。数据处理环境100是可实现解释性实施例的计算机网络。数据处理环境100包括网络102。网络102是用于在在数据处理环境100内连接在一起的各种装置与计算机之间提供通信链接的介质。网络102可包含诸如导线、无线通信链接或光纤电缆的连接。服务器104和服务器106与存储单元108一起与网络102耦合。可在数据处理环境100中的任何计算机上执行软件应用。
另外,客户机110、112和114与网络102耦合。诸如服务器104或106或客户机110、112或114的数据处理系统可包含数据,并且可具有在其上执行的软件应用或软件工具。
仅作为示例而不意味着对这些架构的任何限制,图1示出可在实施例的示例性实现中使用的某些部件。例如,服务器104中的应用105是这里描述的实施例的实现。应用105以与NLP引擎103结合的方式操作。NLP引擎103可以为例如能够对文档执行自然语言处理的现有应用,并且可被修改或被配置为以与应用105结合的方式动作,以根据这里描述的实施例执行动作。根据实施例,存储装置108包括特定于域的知识库、签名库或其组合109。客户机112包含具有根据实施例被处理的表格数据113的文档。
服务器104和106、存储单元108和客户机110、112和114可通过使用有线连接、无线通信协议或其它适当的数据连接与网络102耦合。客户机110、112和114可以为例如个人计算机或网络计算机。
在示出的例子中,服务器104可向客户机110、112和114提供诸如引导文件、操作系统图像和应用的数据。在本示例中,客户机110、112和114可以是服务器104的客户机。客户机110、112和114或它们的一些组合可包含它们自身的数据、引导文件、操作系统图像和应用。数据处理环境100可包含附加的服务器、客户机和未示出的其它装置。
在示出的示例中,数据处理环境100可以是因特网。网络102可代表使用传送控制协议/因特网协议(TCP/IP)和其它协议以相互通信的网络和网关的集合。因特网的核心是包含数以千计的路由数据和消息的商业、政府、教育和其它计算机系统的主节点或主机计算机之间的数据通信链接的骨干。当然,数据处理环境100也可实现为大量的不同类型的网络,诸如例如内联网、局域网络(LAN)或广域网络(WAN)。图1意在作为示例,而不作为对不同解释性实施例的架构限制。
在其它的用途中,数据处理环境100可被用于实现可实现解释性实施例的客户机-服务器环境。客户机-服务器环境使得软件应用和数据能够跨网络分布,使得应用通过利用客户机数据处理系统与服务器数据处理系统之间的交互作用起作用。数据处理环境100也可使用面向服务的架构,在该架构中,可将跨网络分布的交互操作的软件部件作为相干商业应用封装在一起。
参照图2,该图示出可实现解释性实施例的数据处理系统的框图。数据处理系统200是计算机的示例,诸如图1中的服务器104或客户机112或其中可定位用于解释性实施例的实现处理的计算机可用程序代码或指令的另一类型的装置。
在示出的示例中,数据处理系统200使用包含北桥和存储器控制器集线器(NB/MCH)202和南桥和输入/输出(I/O)控制器集线器(SB/ICH)204的集线器架构。处理单元206、主存储器208和图形处理器210与北桥和存储器控制器集线器(NB/MCH)202耦合。处理单元206可包含一个或多个处理器,并且可通过使用一个或多个异质处理器系统被实现。处理单元206可以是多芯处理器。在某些实现中,图形处理器210可通过加速图形端口(AGP)与NB/MCH202耦合。
在示出的示例中,局域网络(LAN)适配器212与南桥和I/O控制器集线器(SB/ICH)204耦合。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其它端口232和PCI/PCIe器件234通过总线238与南桥和I/O控制器集线器204耦合。硬盘驱动(HDD)226和CD-ROM230通过总线240与南桥和I/O控制器集线器204耦合。PCI/PCIe器件234可包含例如以太网适配器、添加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。例如,ROM224可以为快擦写二进制输入/输出系统(BIOS)。硬盘驱动226和CD-ROM230可使用例如集成驱动电子(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)器件236可通过总线238与南桥和I/O控制器集线器(SB/ICH)204耦合。
诸如主存储器208、ROM224或快擦写存储器(未示出)的存储器是计算机可用存储装置的一些示例。硬盘驱动226、CD-ROM230和其它类似可用装置是包括计算机可用存储介质的计算机可用存储装置的一些示例。
操作系统在处理单元206上运行。操作系统协调并提供图2中的数据处理系统200内的各种部件的控制。操作系统可以是诸如(AIX是InternationalBusinessMachinesCorporation在美国和其它国家的商标)、(Microsoft和Windows是MicrosoftCorporation在美国和其它国家的商标)或(Linux是LinuxTorvalds在美国和其它国家的商标)的商业可用操作系统。诸如JavaTM编程系统的面向对象的编程系统可在与操作系统结合的情况下运行,并从在数据处理系统200上运行的JavaTM程序或应用提供对操作系统的调用(Java和所有基于Java的商标和标志是OracleCorporation和/或其附属企业的商标或注册商标)。
用于操作系统、面向对象的编程系统和诸如图1中的应用105和库以及签名109的应用、逻辑或程序的指令位于诸如硬盘驱动226的一个或多个存储装置中的至少一个上,并且可被加载到诸如主存储器208的一个或多个存储器中的至少一个中,以供处理单元206执行。可通过使用可位于诸如例如主存储器208、只读存储器224的存储器或一个或多个外设装置中的计算机实现的指令由处理单元206执行解释性实施例的处理。
图1~2中的硬件可根据实现改变。除了图1~2所示的硬件之外或者作为其替代,可以使用其它的内部硬件或诸如快擦写存储器、等同的非易失性存储器或光盘驱动等的外设装置。另外,解释性实施例的处理可被应用于多处理器数据处理系统。
在一些解释性的示例中,数据处理系统200可以是一般配置有快擦写存储器以提供用于存储操作系统文件和/或用户产生数据的非易失性存储器的个人数字助理(PDA)。总线系统可包含一个或多个总线,诸如系统总线、I/O总线和PCI总线。当然,可通过使用在附接于构造或架构上的不同的部件或装置之间提供数据传送的任意类型的通信构造或架构,实现总线系统。
通信单元可包含用于传送和接收数据的一个或多个装置,诸如调制解调器或网络适配器。存储器可以为例如主存储器208或高速缓存,诸如在北桥和存储器控制器集线器202中发现的高速缓存。处理单元可包含一个或多个处理器或CPU。
图1~2所示的示例和上述示例不意味着隐含架构限制。例如,除了采取PDA的形式以外,数据处理系统200也可以是平板计算机、膝上型计算机或电话装置。
参照图3,该图示出根据解释性实施例的可在其中识别函数关系和签名的表格数据的示例。表格300是在图1中的文档113中出现的表格数据的示例,在该表格数据中,可通过使用图1中的应用105确定函数依赖性。
仅作为示例而不意味着限制,为了为表格和单元格划界,示出水平或垂直规则线(rule-line)。在解释性实施例的范围内,可通过任何适当的方式表达表格或表格数据,并且,可通过任何方式为单元格划界。例如,在解释性实施例的范围内,设想缩排、单元格数据之间的间隔、表格和非表格内容中的不同的间隔、符号、图形、用于示出表格数据的特定的示图或透视图或在其中表达表格数据和单元格的这些和其它示例方式的组合。
表格302是表格300的一部分,并包括用于将各种单元格中的数据组织到标题、类别或种类(类别)中的几个标题。标题可以是行标题或列标题。在解释性实施例的范围内,标题不限于表格边界或末端。例如,标题可诸如以副标题的形式嵌入表格中、单元格之间,例如以识别表格数据的子类。在解释性实施例的范围内设想这种子行或子列标题。在一个实施例中,可与相应的表格数据单独地规定某些标题信息,诸如在脚注、附录、另一表格或给定文档中的另一位置中。
例如,标题304识别包含“财年1月31日结束”的大类的数据的一组列。标题306、308和310对三个示例性的年份,即,按年,识别“财年1月31日结束”数据的子类。
行标题312包含一些线索。例如,行标题314是“总计”,并且在行标题316和318下缩排。类似地,行标题320是另一“总计”,并在行标题322下缩排。行标题314和320处的缩排是可用于理解与行标题314和320在同一行中的单元格与表格302中的其它单元格之间的函数关系的示例线索。行标题314和320中的词语“总计”是可用于以类似的方式确定它们的相应的行中的单元格的函数依赖性的线索的另一示例。
这些示例线索不意在限制解释性实施例。本领域技术人员可从本公开设想许多其它的线索,并且它们在解释性实施例的范围内被设想。
相同的线索有助于以不同的方式理解不同单元格中的信息。例如,考虑作为表格300的另一部分的表格352。标题354识别一组列,包含用于大类“改变”的数据。标题356和358从类别306、308和310的三个示例年份识别子类“改变”数据,即,通过比较两个连续的年份。
行标题312将不同的意思赋予在表格302和352中的其相应行中的单元格。例如,虽然在表格302中的相应的单元格中根据行标题314的“总计”意味着美元收入量,但在表格352中的相应的单元格中同一行标题意味着美元量变化和百分比变化。与本示例表格300同样,在实施例中,诸如行标题312中的一个位置中的线索也可以与其它位置中的其它线索、数据或内容结合的方式操作,以使得能够确定给定表格数据中的某些单元格的意思。
参照图4,该图示出根据解释性实施例的函数签名的示例表示。函数签名(签名)402可以被应用到图3的表格302中的表格数据块中。
例如,签名402指示可能包含关于“营业性收益”或其一些特定于域的等同的信息的表单元格应当是在那列中各行范围内的单元格的值的列合计,其中单元格由特定于域的主题列表中的一个或多个、特定于域的类别列表中的一个或多个或其组合来识别。在一个示例性实施例中,在“财务”域,营业性收入一般可以在某些主题下的表格数据中发现。签名402中主题的示例列表包括术语“营业性收益”以及“财年结束<日期>”。在示例实施例中,在“财务”域内,属于营业性收益的各种组成部分的数据可以在类别为某“年”的“收益”中找到。签名402中的类别的示例列表包括术语“收益”和“<年>”。
作为另一示例,在另一示例实施例中的“财务”域内,签名404指示营业性收益一般可以在包含术语“营业性收益”(其中包括“非营业性收入”)和“财年结束<日期>”的主题的示例列表下找到。在示例实施例中,在“财务”域内,属于营业性收益的各种组成部分的数据可以在类别为某“年”的“收益”中找到。签名402中的类别的示例列表包括术语“收益”和“<年>”。作为另一示例,在另一示例性实施例中的“财务”域内,签名406指示营业性收益一般可以在包括术语“营业性收益”的主题的示例列表下找到,而与任何特定日期或年无关。
虽然示例函数签名关于一般在属于财务域的表格数据中发现的财务数据和主题列表来描述,这样的示例并不意在限制解释性实施例。一般地,函数签名可以使用跨给定的一组表格数据的两个或更多个单元格、跨一个或多个行范围、列范围或其组合的任何算数、统计或其它类型的计算。此外,函数签名可以在这种计算中不受限的使用来自任何主题域的任何数量的任何长度的列表。作为示例,属于科学实验的表格数据可以包括在主题列表或类别列表中的时间、迭代、约束等。作为另一示例,属于地质勘查的表格数据可以包括在主题列表或类别列表中的位置、深度、地层的层名、数量等。
参照图5,该图示出根据解释性实施例的函数签名的示例操作的框图。块502是来自图3中示例表格302的表格数据的示例块,图4中的示例签名402对其进行操作。
每个域可以对应于某个域特有或者多于一个域共享的预先确定签名的一个或多个函数库。
每个签名描述函数块中数据的意思和模式。在根据签名描述数据的意思和模式的处理中,应用105识别给定块的各部分的类型以及引用块的那些部分的方式。
例如,考虑图3中的表格302的块502。实现实施例的图1的应用105发现表格302的块502。应用105确定签名402应用到包括单元格524和526的单元格范围内的单元格522(“总营业性收益”),因为单元格524和526包括在主题304(“财年1月31日结束”)和314(“[总]营业性收益”)以及类别317(“收益[]”)和306(“2009”)下的值。因此,应用105断定块502示出营业性收益和其细目,表格302是财务表格,并且示例文档中的该表格信息属于其收益或一些变形。
尽管此处仅描述了与签名402的比较,图1的应用105可以类似地将发现的函数/语义块502与表格302的主题域的一组已知签名中的任何数目的签名进行比较。
参照图6,该图示出根据解释性实施例的利用表格数据分类文档的示例方式的框图。表格604类似于图3中的表格302。
实现实施例的图1的应用105,接收不同文档中的表格602、604和606。以关于图4和5描述的方式,应用105分别识别表格602、604和606中的块612、614和616作为函数块。
例如,应用105分别确定表格602、604和606中的单元格622、624和626包含营业性收益信息,即使营业性收益信息在那些表格中不同地呈现并且包含不同组成部分。因此,应用105由于相对于单元格622、624和626的模式和推论而确定签名402应用到块612、614和616。应用105还确定由于签名402应用到表格602、604和606,其中包含这些表格的文档是财务报告并且讨论收益或其一些变形。
参考图7,该图示出根据解释性实施例的构建函数签名的示例处理的流程图。处理700可以在图1的应用105中实现。
处理700选择给定文档中的表格数据的一部分(步骤702)。例如,处理700从图3中的表格302选择图5中的块502。
处理700分析所选部分中的一个或多个函数关系(步骤704)。处理700从那一个或多个函数关系中选择函数关系(步骤706)。
处理700将函数关系中特定于表格的信息转变为归一化域引用(步骤708)。例如,处理700利用在该文档所属的域中通常理解的或公认的广义等价术语代替特定于文档的术语和表格数据中使用的术语。在一个实施例中,在步骤708后处理700可以在标记为“A”的出口点退出并在标记为“B”的入口点重新进入。退出和重新进入是进入和退出图11的处理1100。
处理700用归一化域引用代表函数关系,形成函数签名(步骤710)。例如,在一个实施例中,函数签名以多维矢量的形式表示,其中归一化域引用是矢量属性。
处理700在诸如对应于该域的签名库中或对应于该文档的签名的集合中保存用于文档的域的函数签名(步骤712)。此后,处理700可以结束,或返回到步骤706来选择另一函数关系并执行另一迭代。
参照图8,该图示出根据解释性实施例中创建签名库的示例处理的流程图。处理800可以在图1中的应用105中实现。
处理800通过接收、取回或以其它方式访问对应于给定主题域中的不同文档的函数签名的不同集合来开始(步骤802)。处理800将跨不同集合的类似性的阈值度量内彼此类似的那些签名群集在一起(步骤804)。处理800将签名的群集添加到主题域的通用函数签名库中(步骤806)。处理800可选地丢弃用于特定文档并且通常不适用于主题域的集合中的剩余签名(步骤808)。随后处理800结束。
参照图9,该图示出根据解释性实施例的使用函数签名归类文档的示例处理的流程图。处理900可以在图1中的应用105中实现。
处理900通过接收包含表格数据的文档开始(步骤902)。处理900选择用于主题域的签名库(步骤904)。库的选择可以是任意的、基于启发式的、基于关于文档的外部信息的、基于文档内容的部分分析的或者通过任意其它选择方法。
处理900确定库中阈值数量的签名是否适用于适用性的阈值度量内的文档(步骤906)。如果库中的阈值数量的签名不适用于适用性的阈值度量内的文档(步骤906的“否”路径),处理900确定选择了不正确的签名库,并且返回到步骤904选择另一签名库(步骤906)。注意到步骤906仅为阐明处理900而示出,并且仅是确定文档是否可以被归类在特定主题域内的示例方式。步骤906的确定可以是独立归类处理(未示出),控制从处理900传递到步骤906并且其将控制以示出的方式返回步骤900。在解释性实施例的范围内,这样的归类过程可以使用步骤906中示出的归类的示例方式、使用所选签名库归类文档的其它适当的方法或用于归类文档的多于一个方法的组合。
如果库中的阈值数量的签名适用于适用性的阈值度量内的文档(步骤906的“是”路径),处理900将文档归类为属于对应于所选签名库的主题域(步骤908)。随后处理900结束。
参照图10,该图示出根据解释性实施例的使用表格数据的主题分析来响应询问的示例处理的流程图。处理1000可以在图1的应用105中实现。
处理1000通过选择具有表格数据的文档开始,这个文档属于已知的主题域(步骤1002)。处理1000接收对文档的询问(步骤1004)。处理1000根据特定于域的NLP资源(例如,本体)解析询问,这些资源用于或由用于文档的主题域的签名库产生(步骤1006)。
处理1000选择用于询问的最合适签名(步骤1008)。处理1000从表格数据中所选签名应用的部分提取数据(步骤1010)。诸如通过将数据传递给NLP引擎,处理1000使用提取的数据构成对询问的响应(步骤1012)。处理1000发送响应,或使得响应被发送(步骤1014)。随后处理1000结束。
参照图11,该图示出根据解释性实施例的用于创建或改善知识库的示例处理的流程图。处理1100可以在图1中的应用105中实现。
处理1100从进入点“A”开始或进入。针对问题中的主题域,处理1100将特定于表格的信息以及匹配的归一化域引用添加到诸如本体的知识库。随后处理1100在出口点“B”结束或退出。特定于表格的信息和匹配的归一化域引用在图7的处理700中的步骤708可用,并且在步骤1102中使用。
图中的流程图和框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。关于这一点,流程图或框图中的各块可代表包含用于实现规定的逻辑功能的一个或多个可执行指令的代码的模块、段或部分。还应注意,在一些替代性的实现中,在块中注明的功能可以按图示的次序以外的次序出现。例如,根据有关的功能,连续表示的两个块事实上可基本上被同时执行,或者,有时可以按相反的次序执行块。还应注意,可通过执行特定功能或作用的基于特殊用途硬件的系统或者特殊用途硬件和计算机指令的组合,实现框图和/或流程图的各块和框图和/或流程图的块的组合。
因此,在解释性实施例中提供用于表格数据的主题分析的计算机实现的方法、系统和计算机程序产品。实施例发现表格中的函数块,实施例将它们与表格的布局和语义分析组合以识别函数签名。实施例使用函数签名用于从表格数据提取的信息。
实施例对来自特定于域的一组初始的文档执行分类操作。该操作发现与该域中的文档相关的一组函数签名。可选地,人类专家可以审查实施例的自动发现并选择或修改应当用于该域中的签名。实施例包括在文档集上的经训练的分类器以提取特定于文档的信息,将这些信息与归一化域引用匹配,并且填充与域相关的知识资源(诸如命名实体名单和本体)。
一些实施例还适用于其它使用。例如,实施例可以被调整为选择性提取信息以使得只有某部分表格数据能被识别并且被提取用于其它处理(诸如检索)。实施例可以被调节为用签名索引文档。对于给定的询问,这样的实施例允许导航到大集合中的正确文档或表格。
这里描述的示例和实施例的描述是关于英语的线索、假设、文档、表格数据和NLP描述的,不意在限制解释性实施例。在解释性实施例的范围内,可通过使用任何语言的文档、表格数据和NLP以类似的方式实现实施例。
本领域技术人员可以理解,本发明的各方面可体现为系统、方法或计算机程序产品。因此,本发明的方面可采取在这里可一般称为“电路”、“模块”或“系统”的完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施例的形式。并且,本发明的各方面可采取以具有在其上面体现的计算机可读程序代码的一个或多个计算机可读存储装置或计算机可读介质体现的计算机程序产品的形式。
可以利用一个或多个计算机可读存储装置或计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储装置可例如是但不限于电子、磁、光学、电磁、红外或半导体系统、装置或器件或者以上的任意适当的组合。计算机可读存储装置的更特定的例子(非穷举的列表)包括以下:具有一个或多个导线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快擦写存储器)、光纤、便携式紧致盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或以上的任意适当的组合。在本文的背景中,计算机可读存储装置可以是可包含或者存储供指令执行系统、装置或器件使用或者与其关联使用的程序的任何可触知器件或介质。
可通过使用包括但不限于无线、有线、光纤电缆、RF等或以上的任意适当组合的任意适当的介质传送在计算机可读存储装置或计算机可读介质上体现的程序代码。
可通过包括诸如Java、Smalltalk或C++等的面向对象的编程语言和诸如“C”编程语言或类似的编程语言的常规的过程编程语言的一个或多个编程语言的任意组合,书写用于实施本发明的各方面的操作的计算机程序代码。可完全在用户的计算机上、部分地在用户的计算机上、作为独立软件包、部分地在用户计算机上并且部分地在远程计算机上、或者完全在远程计算机或服务器上执行程序代码。在后一种方案中,远程计算机可通过包括局域网络(LAN)或广域网络(WAN)的任意类型的网络与用户的计算机连接,或者,可与外部计算机连接(例如,通过使用因特网服务提供商的因特网)。
这里,参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解,可通过计算机程序指令实现流程图和/或框图的各块以及流程图和/或框图的块的组合。这些计算机程序指令可被提供给一个或多个通用计算机、特殊用途计算机或者其它的可编程数据处理装置的一个或多个处理器,以制造机器,使得通过计算机或其它可编程数据处理装置的一个或多个处理器执行的指令创建用于实现在流程图和/或框图块中规定的功能/动作的装置。
这些计算机程序指令也可存储于一个或多个计算机可读存储装置或计算机可读介质中,这些计算机程序指令可指导一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备以特定的方式起作用,使得存储于一个或多个计算机可读存储装置或计算机可读介质中的指令产生包括实现在流程图和/或框图块中规定的功能/动作的指令的制造物品。
计算机程序指令也可被加载到一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上,以导致在一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上执行的一系列的操作步骤产生计算机实现的过程,使得在一个或多个计算机、一个或多个其它可编程数据处理装置或一个或多个其它设备上执行的指令提供用于实现在流程图和/或框图块中规定的功能/动作的处理。
在这里使用的术语仅出于描述特定的实施例目的,并且不意在限制本发明。如这里使用的那样,除非在上下文中另外明显指出,否则单数形式“一种”、“一个”和“该”意在也包括复数形式。还应理解,在本说明书中使用的术语“包括”和/或“包含”规定阐述的特征、整数、步骤、操作、要素和/或部件的存在,但不排除存在或添加一个或多个其它的特征、整数、步骤、操作、要素、部件和/或它们的组。
所有装置的相应的结构、材料、动作和等同或以下的权利要求中的步骤加功能要素意在包括用于与特别要求权利的其它要求的要素组合执行功能的任何结构、材料或动作。给出本发明的描述是出于解释和描述的目的给出的,但它不是详尽的或者将本发明限于公开的形式。在不背离本发明的范围和精神的情况下,许多修改和变更对本领域技术人员来说是十分明显的。为了最好地解释本发明的原理和实际应用并使得其它的本领域技术人员能够理解本发明的具有适于设想的特定用途的各种修改的各种实施例,选择和描述了实施例。

Claims (20)

1.一种用于表格数据的主题分析的方法,所述方法包括:
接收包含所述表格数据的第一文档;
选择用于第一主题域的函数签名库;
确定来自所选库的阈值数量的函数签名是否适用于所述表格数据,其中当所述表格数据中的值与所述函数签名中指定的操作和表格结构相对应时,函数签名适用于所述表格数据;以及
响应于来自所选库的阈值数量的所述函数签名适用于所述表格数据,根据从用于相应主题域的多个处理中选出的用于所述第一主题域的处理使用处理器和存储器处理所述第一文档。
2.如权利要求1所述的方法,还包括:
选择第二文档中的表格数据的一部分;
分析所述部分中至少两个值之间的函数关系;
使用来自所述第一主题域的通用等价信息代表所述函数关系中的特定于表格的信息,以形成所述函数签名;以及
将所述函数签名添加到对应于所述第二文档的函数签名的集合,以形成第一集合。
3.如权利要求2所述的方法,还包括:
选择所述第一集合和对应于第三文档的函数签名的第二集合;
群集来自所述第一集合和所述第二集合的在类似性的阈值度量内彼此类似的那些函数签名,以形成函数签名的群集;以及
将所述函数签名的群集添加到所述函数签名库。
4.如权利要求2所述的方法,还包括:
将所述函数关系中的特定于表格的信息和来自所述第一主题域的所述通用等价信息的组合存储在对应于所述第一主题域的知识库中。
5.如权利要求3所述的方法,还包括:
将来自所述第一集合和所述第二集合的在类似性的所述阈值度量内彼此不类似的那些函数签名作为特定于文档的函数签名丢弃。
6.如权利要求1所述的方法,还包括:
接收要使用所述第一文档回答的询问;
使用对应于用于所述第一主题域的所述函数签名库的知识库解析所述询问;
根据所述解析选择适合所述询问的函数签名;
从所述第一文档的所述表格数据中的所选函数签名应用的部分提取数据;
使用所提取的数据对所述询问进行响应。
7.如权利要求6所述的方法,其中所述响应还包括:向自然语言处理应用发送所提取的数据,在所述自然语言处理应用中将所提取的数据形成到对所述询问的自然语言响应中。
8.如权利要求1所述的方法,其中所述处理所述第一文档包括:
将所述第一文档归类为属于所述第一主题域。
9.如权利要求1所述的方法,其中响应于来自所选库的阈值数量的所述函数签名不适用于所述表格数据,还包括:
选择用于第二主题域的第二函数签名库;
确定来自第二库的阈值数量的函数签名是否适用于所述表格数据;以及
响应于来自所述第二库的阈值数量的所述函数签名适用于所述表格数据,处理所述第一文档。
10.一种计算机可用程序产品,包括包含用于表格数据的主题分析的计算机可用代码的计算机可用存储装置,所述计算机可用代码包括:
用于接收包含所述表格数据的第一文档的计算机可用代码;
用于选择用于第一主题域的函数签名库的计算机可用代码;
用于确定来自所选库的阈值数量的函数签名是否适用于所述表格数据的计算机可用代码,其中当所述表格数据中的值与所述函数签名中指定的操作和表格结构相对应时,函数签名适用于所述表格数据;以及
用于响应于来自所选库的阈值数量的所述函数签名适用于所述表格数据,根据从用于相应主题域的多个处理中选出的用于所述第一主题域的处理使用处理器和存储器处理所述第一文档的计算机可用代码。
11.如权利要求10所述的计算机可用程序产品,还包括:
用于选择第二文档中的表格数据的一部分的计算机可用代码;
用于分析所述部分中至少两个值之间的函数关系的计算机可用代码;
用于使用来自所述第一主题域的通用等价信息代表所述函数关系中的特定于表格的信息,以形成所述函数签名的计算机可用代码;以及
用于将所述函数签名添加到对应于所述第二文档的函数签名的集合,以形成第一集合的计算机可用代码。
12.如权利要求11所述的计算机可用程序产品,还包括:
用于选择所述第一集合和对应于第三文档的函数签名的第二集合的计算机可用代码;
用于群集来自所述第一集合和所述第二集合的在类似性的阈值度量内彼此类似的那些函数签名,以形成函数签名的群集的计算机可用代码;以及
用于将所述函数签名的群集添加到所述函数签名库的计算机可用代码。
13.如权利要求11所述的计算机可用程序产品,还包括:
用于将所述函数关系中的特定于表格的信息和来自所述第一主题域的所述通用等价信息的组合存储在对应于所述第一主题域的知识库中的计算机可用代码。
14.如权利要求12所述的计算机可用程序产品,还包括:
用于将来自所述第一集合和所述第二集合的在类似性的所述阈值度量内彼此不类似的那些函数签名作为特定于文档的函数签名丢弃的计算机可用代码。
15.如权利要求10所述的计算机可用程序产品,还包括:
用于接收要使用所述第一文档回答的询问的计算机可用代码;
用于使用对应于用于所述第一主题域的所述函数签名库的知识库解析所述询问的计算机可用代码;
用于根据所述解析选择适合所述询问的函数签名的计算机可用代码;
用于从所述第一文档的所述表格数据中的所选函数签名应用的部分提取数据的计算机可用代码;
用于使用所提取的数据对所述询问进行响应的计算机可用代码。
16.如权利要求15所述的计算机可用程序产品,其中用于进行响应的所述计算机可用代码还包括用于向自然语言处理应用发送所提取的数据的计算机可用代码,在所述自然语言处理应用中将所提取的数据形成到对所述询问的自然语言响应中。
17.如权利要求10所述的计算机可用程序产品,其中用于处理所述第一文档的所述计算机可用代码包括:
用于将所述第一文档归类为属于所述第一主题域的计算机可用代码。
18.如权利要求10所述的计算机可用程序产品,其中所述计算机可用代码存储在数据处理系统的计算机可读存储介质中,并且其中所述计算机可用代码从远程数据处理系统经由网络传输。
19.如权利要求10所述的计算机可用程序产品,其中所述计算机可用代码存储在服务器数据处理系统内的计算机可读存储介质中,并且其中所述计算机可用代码经由网络下载到远程数据处理系统以在与所述远程数据处理系统相关联的计算机可读存储介质中使用。
20.一种用于表格数据的主题分析的数据处理系统,所述数据处理系统包括:
包含存储介质的存储装置,其中所述存储装置存储计算机可用程序代码;以及
处理器,其中所述处理器执行所述计算机可用程序代码,并且其中所述计算机可用程序代码包括:
用于接收包含所述表格数据的第一文档的计算机可用代码;
用于选择用于第一主题域的函数签名库的计算机可用代码;
用于确定来自所选库的阈值数量的函数签名是否适用于所述表格数据的计算机可用代码,其中当所述表格数据中的值与所述函数签名中指定的操作和表格结构相对应时,函数签名适用于所述表格数据;以及
用于响应于来自所选库的阈值数量的所述函数签名适用于所述表格数据,根据从用于相应主题域的多个处理中选出的用于所述第一主题域的处理使用处理器和存储器处理所述第一文档的计算机可用代码。
CN201480040217.3A 2013-07-18 2014-07-08 一种表格数据的主题分析的方法和系统 Active CN105378732B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/945,259 2013-07-18
US13/945,259 US9607039B2 (en) 2013-07-18 2013-07-18 Subject-matter analysis of tabular data
PCT/CN2014/081852 WO2015007175A1 (en) 2013-07-18 2014-07-08 Subject-matter analysis of tabular data

Publications (2)

Publication Number Publication Date
CN105378732A true CN105378732A (zh) 2016-03-02
CN105378732B CN105378732B (zh) 2019-11-12

Family

ID=52344454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480040217.3A Active CN105378732B (zh) 2013-07-18 2014-07-08 一种表格数据的主题分析的方法和系统

Country Status (3)

Country Link
US (3) US9607039B2 (zh)
CN (1) CN105378732B (zh)
WO (1) WO2015007175A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528765A (zh) * 2016-11-03 2017-03-22 用友网络科技股份有限公司 主题分析的发布与集成方法及装置
CN115292274A (zh) * 2022-06-29 2022-11-04 江苏昆山农村商业银行股份有限公司 一种数据仓库主题模型构建方法和系统
CN115309888A (zh) * 2022-08-26 2022-11-08 百度在线网络技术(北京)有限公司 图表摘要的生成方法和生成模型的训练方法、装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318625B2 (en) 2014-05-13 2019-06-11 International Business Machines Corporation Table narration using narration templates
US10078629B2 (en) 2015-10-22 2018-09-18 International Business Machines Corporation Tabular data compilation
US11995428B2 (en) 2017-01-26 2024-05-28 Nice Inc. Method and system for providing image-based interoperability with an application
US10740123B2 (en) 2017-01-26 2020-08-11 Nice Ltd. Method and system for accessing table content in a digital image of the table
US10997228B2 (en) 2017-10-26 2021-05-04 International Business Machines Corporation Comparing tables with semantic vectors
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
US11200413B2 (en) 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
US11762890B2 (en) 2018-09-28 2023-09-19 International Business Machines Corporation Framework for analyzing table data by question answering systems
CN109446507A (zh) * 2018-11-13 2019-03-08 浙江中智达科技有限公司 一种报表的构建方法及装置
JP7180420B2 (ja) * 2019-01-31 2022-11-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11436407B2 (en) * 2020-07-28 2022-09-06 Intuit Inc. Generating machine renderable representations of forms using machine learning
US20220318234A1 (en) * 2021-04-02 2022-10-06 Pranav Sharma System and method for providing natural language processing
CN114238665A (zh) * 2021-11-22 2022-03-25 中冶赛迪重庆信息技术有限公司 一种多主题对标分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1286284A1 (en) * 2001-08-15 2003-02-26 F1F9 (UK) Ltd. Spreadsheet data processing system
US20060080646A1 (en) * 2004-10-07 2006-04-13 Quantitative Analytics, Inc. Command script parsing using local and extended storage for command lookup

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4688195A (en) 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
JP2926066B2 (ja) 1992-05-29 1999-07-28 富士ゼロックス株式会社 表認識装置
US5491700A (en) 1993-10-01 1996-02-13 Pacific Communication Sciences, Inc. Method and apparatus for code error correction using an ordered syndrome and error correction lookup table
JPH096777A (ja) 1995-06-14 1997-01-10 Niigata Nippon Denki Software Kk ワードプロセッサ
IL136219A0 (en) 1997-11-20 2001-05-20 Xacct Technologies Inc Network accounting and billing system and method
US6442575B2 (en) * 1998-06-17 2002-08-27 Microsoft Corporation Method and system for merging cells in a table and for adding an integrated header and a nested table to a table in an electronic document
WO2000010103A1 (fr) 1998-08-11 2000-02-24 Shinji Furusho Procede et dispositif de recuperation, de stockage et de triage de donnees formatees en tableaux
JP3690730B2 (ja) 2000-10-24 2005-08-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造回復システム、構文解析システム、変換システム、コンピュータ装置、構文解析方法、及び記憶媒体
US7620665B1 (en) 2000-11-21 2009-11-17 International Business Machines Corporation Method and system for a generic metadata-based mechanism to migrate relational data between databases
US7054871B2 (en) 2000-12-11 2006-05-30 Lucent Technologies Inc. Method for identifying and using table structures
US6904428B2 (en) 2001-04-18 2005-06-07 Illinois Institute Of Technology Intranet mediator
US7251781B2 (en) 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
US7024414B2 (en) * 2001-08-06 2006-04-04 Sensage, Inc. Storage of row-column data
US20040205524A1 (en) * 2001-08-15 2004-10-14 F1F9 Spreadsheet data processing system
JP4947861B2 (ja) 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
JP2004062446A (ja) 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
US20040103367A1 (en) 2002-11-26 2004-05-27 Larry Riss Facsimile/machine readable document processing and form generation apparatus and method
US7143026B2 (en) 2002-12-12 2006-11-28 International Business Machines Corporation Generating rules to convert HTML tables to prose
US7756907B2 (en) * 2003-09-16 2010-07-13 The Board Of Trustees Of The Leland Stanford Jr. University Computer systems and methods for visualizing data
US7792829B2 (en) 2005-01-28 2010-09-07 Microsoft Corporation Table querying
US20070011183A1 (en) 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8214388B2 (en) * 2005-12-19 2012-07-03 Yahoo! Inc System and method for adding a storage server in a distributed column chunk data store
US7770100B2 (en) * 2006-02-27 2010-08-03 Microsoft Corporation Dynamic thresholds for conditional formats
WO2008053466A2 (en) 2006-10-30 2008-05-08 Cellesense Technologies Ltd. Context sensitive, error correction of short text messages
US20080208882A1 (en) 2007-02-28 2008-08-28 Honeywell International Inc. Method of Assisting Users In Detection and Correction of Errors In Complex Databases
US8396881B2 (en) * 2007-05-17 2013-03-12 Research In Motion Limited Method and system for automatically generating web page transcoding instructions
KR100918847B1 (ko) 2007-10-15 2009-09-28 한국전자통신연구원 온톨로지 인스턴스 자동 생성 장치 및 방법
US8069190B2 (en) 2007-12-27 2011-11-29 Cloudscale, Inc. System and methodology for parallel stream processing
US8781989B2 (en) 2008-01-14 2014-07-15 Aptima, Inc. Method and system to predict a data value
US7792823B2 (en) 2008-01-15 2010-09-07 International Business Machines Corporation Maintained symbol table only index
CN101246495A (zh) 2008-03-21 2008-08-20 深圳国人通信有限公司 一种构造查询方案及使用其进行数据查询和统计的方法
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8255789B2 (en) 2008-09-30 2012-08-28 Apple Inc. Providing spreadsheet features
US8959481B2 (en) 2009-04-30 2015-02-17 International Business Machines Corporation Determining system level dependencies
US8037108B1 (en) 2009-07-22 2011-10-11 Adobe Systems Incorporated Conversion of relational databases into triplestores
US8560300B2 (en) 2009-09-09 2013-10-15 International Business Machines Corporation Error correction using fact repositories
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20110126197A1 (en) 2009-11-25 2011-05-26 Novell, Inc. System and method for controlling cloud and virtualized data centers in an intelligent workload management system
US8140533B1 (en) * 2010-01-26 2012-03-20 Google Inc. Harvesting relational tables from lists on the web
US8219522B2 (en) 2010-06-29 2012-07-10 Asserted Versioning, Llc Management of temporal data by means of a canonical schema
WO2012006509A1 (en) 2010-07-09 2012-01-12 Google Inc. Table search using recovered semantic information
JP5573457B2 (ja) * 2010-07-23 2014-08-20 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN104484319A (zh) 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
EP2622592A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
CN103229168B (zh) 2010-09-28 2016-10-19 国际商业机器公司 在问答期间在多个候选答案之间证据扩散的方法和系统
US8442988B2 (en) 2010-11-04 2013-05-14 International Business Machines Corporation Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data
US8630989B2 (en) 2011-05-27 2014-01-14 International Business Machines Corporation Systems and methods for information extraction using contextual pattern discovery
US8874540B2 (en) 2011-09-07 2014-10-28 Xerox Corporation Method for semantic classification of numeric data sets
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US8910018B2 (en) 2012-07-17 2014-12-09 Macronix International Co., Ltd. Memory with dynamic error detection and correction
US8914419B2 (en) * 2012-10-30 2014-12-16 International Business Machines Corporation Extracting semantic relationships from table structures in electronic documents
US20140278985A1 (en) * 2013-03-13 2014-09-18 DataPop, Inc. Systems and methods for the enhancement of semantic models utilizing unstructured data
US10289653B2 (en) * 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1286284A1 (en) * 2001-08-15 2003-02-26 F1F9 (UK) Ltd. Spreadsheet data processing system
US20060080646A1 (en) * 2004-10-07 2006-04-13 Quantitative Analytics, Inc. Command script parsing using local and extended storage for command lookup

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
P VENETIS等: "Recovering semantics of tables on the web", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528765A (zh) * 2016-11-03 2017-03-22 用友网络科技股份有限公司 主题分析的发布与集成方法及装置
CN106528765B (zh) * 2016-11-03 2020-04-03 用友网络科技股份有限公司 主题分析的发布与集成方法及装置
CN115292274A (zh) * 2022-06-29 2022-11-04 江苏昆山农村商业银行股份有限公司 一种数据仓库主题模型构建方法和系统
CN115292274B (zh) * 2022-06-29 2023-12-26 江苏昆山农村商业银行股份有限公司 一种数据仓库主题模型构建方法和系统
CN115309888A (zh) * 2022-08-26 2022-11-08 百度在线网络技术(北京)有限公司 图表摘要的生成方法和生成模型的训练方法、装置

Also Published As

Publication number Publication date
US20150026178A1 (en) 2015-01-22
WO2015007175A1 (en) 2015-01-22
US20170075983A1 (en) 2017-03-16
CN105378732B (zh) 2019-11-12
US20150026557A1 (en) 2015-01-22
US9607039B2 (en) 2017-03-28
US10229154B2 (en) 2019-03-12

Similar Documents

Publication Publication Date Title
CN105378732A (zh) 表格数据的主题分析
US10579721B2 (en) Lean parsing: a natural language processing system and method for parsing domain-specific languages
Hofmann et al. Text mining and visualization: Case studies using open-source tools
Malo et al. Good debt or bad debt: Detecting semantic orientations in economic texts
AU2017296412B2 (en) System and method for automatically understanding lines of compliance forms through natural language patterns
CA3033859C (en) Method and system for automatically extracting relevant tax terms from forms and instructions
Mencía et al. Efficient voting prediction for pairwise multilabel classification
US20200073996A1 (en) Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
US20130110498A1 (en) Phrase-based data classification system
CN108153729B (zh) 一种面向金融领域的知识抽取方法
Klinkmüller et al. Analyzing control flow information to improve the effectiveness of process model matching techniques
Chou et al. Integrating XBRL data with textual information in Chinese: A semantic web approach
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
Woltmann et al. Tracing university–industry knowledge transfer through a text mining approach
Bondielli et al. On the use of summarization and transformer architectures for profiling résumés
Kano et al. U-Compare bio-event meta-service: compatible BioNLP event extraction services
Annervaz et al. Natural language requirements quality analysis based on business domain models
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
Castano et al. Enforcing legal information extraction through context-aware techniques: The ASKE approach
CN110737749A (zh) 创业计划评价方法、装置、计算机设备及存储介质
CN116028620B (zh) 一种基于多任务特征协同的生成专利摘要的方法及系统
Mimouni et al. Text Preprocessing for Shrinkage Regression and Topic Modeling to Analyse EU Public Consultation Data
Zubarev et al. Method for Expert Search Using Topical Similarity of Documents
Lorenz Recognition of Company Mergers Using Interactive Labeling and Machine Learning Methods
Mencía et al. Advances in efficient pairwise multilabel classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant