CN102693269B - 用于消费信息提取服务的可扩展表面 - Google Patents

用于消费信息提取服务的可扩展表面 Download PDF

Info

Publication number
CN102693269B
CN102693269B CN201210052877.6A CN201210052877A CN102693269B CN 102693269 B CN102693269 B CN 102693269B CN 201210052877 A CN201210052877 A CN 201210052877A CN 102693269 B CN102693269 B CN 102693269B
Authority
CN
China
Prior art keywords
data
extraction
extractive technique
views
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210052877.6A
Other languages
English (en)
Other versions
CN102693269A (zh
Inventor
P·D·德罗塞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102693269A publication Critical patent/CN102693269A/zh
Application granted granted Critical
Publication of CN102693269B publication Critical patent/CN102693269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及用于消费信息提取服务的可扩展表面。按照允许使用关系型数据库概念查询的方式表示从非结构化数据提取的结构化数据。一种方法包括接收指定一个或多个数据库视图的用户输入。该方法进一步包括接收指定信息提取技术(诸如提取工作流)的用户输入。该方法进一步包括接收指定数据语料库的用户输入。该提取技术被应用到该数据语料库以产生该一个或多个数据库视图。然后使用数据库工具来查询这些视图或对其进行操作。

Description

用于消费信息提取服务的可扩展表面
技术领域
本发明涉及用于消费信息提取服务的可扩展表面。
背景技术
计算机和计算系统已经影响了现代生活的几乎每个方面。计算机通常在工作、休闲、保健、运输、娱乐、家政管理等中都有涉猎。
计算系统常被用于信息管理。具体而言,计算系统可用于向用户提供信息。然而,可以多种不同方式存储信息并使其对用户可用。例如,计算系统可以实现关系型数据库管理系统(RDBMS)来存储数据并将数据组织为结构化数据。结构化数据是按照语义组织的数据。此外,类似的数据实体常根据关系型数据库中的关系或根据面向对象系统中的类型类来分组到一起。简单RDBMS的示例仅是具有列和行的表格。列描述数据的类别而行存储该类别的实例。RDBMS系统便于数据的高效检索。例如,简单表格可具有城市的列和当前温度的列。为了找到给定城市的温度,标识该城市列,并且在城市列中寻找感兴趣的城市并且在城市列的特定行中找到它。标识该温度列,并且在该温度列中标识与该感兴趣的城市相对应的行,从而标识感兴趣的城市的温度。因此,RDBMS中的数据通常是结构化数据。
另一种类型的数据是非结构化数据。非结构化数据通常不以允许计算系统立即标识数据的类型或关系结构的方式组织。例如,文本文档可包含以下数据“里约热内卢的温度现在是82度”。然而,里约热内卢没有被结构化为城市类型而82没有被结构化为温度类型,也不存在里约热内卢和82度的形式化结构图。此外,文本文档可包含描述全世界的各城市中的各温度的多个句子。对自动化计算系统来说,与使用能基于类别搜索数据的结构化数据数据库相比,使用文本文件中的非结构化数据来确定给定城市的温度更加困难。
在此要求保护的主题不限于解决任何缺点或仅在诸如上述环境中操作的各个实施例。相反,提供该背景仅用以示出在其中可实践在此描述的部分实施例的一个示例性技术领域。
发明内容
此处所述的一个实施例是在计算环境中实施的方法。该方法包括用于按照允许使用关系型数据库概念来查询的方式表示从非结构化数据提取的结构化数据的动作。该方法包括接收指定一个或多个数据库视图的用户输入。该方法进一步包括接收指定信息提取技术(诸如提取工作流)的用户输入。该方法进一步包括接收指定数据语料库的用户输入。该提取技术被应用到该数据语料库以产生该一个或多个数据库视图。然后使用数据库工具来查询这些视图或对其进行操作。
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
另外的特征和优点将在以下的描述中阐述,并且部分可从该描述中显而易见,或者可以从此处的教示实践中习得。本发明的特征和优点可以通过在所附权利要求中特别指出的手段和组合来实现并获取。本发明的特征将从以下描述和所附权利要求书中变得完全显而易见,或者可通过如下所述对本发明的实践而获知。
附图说明
为了描述可获得本主题的上述和其它优点和特征的方式,将通过参考附图中示出的本主题的具体实施例来呈现以上简要描述的本主题的更具体描述。应该理解,这些附图仅描绘了各典型实施例,因此其不应被认为是对范围的限制,各实施例将通过使用附图用附加特征和细节来描述并解释,在附图中:
图1示出了通过工作流处理非结构化数据的语料库以产生一个或多个视图;
图2示出了由示例工作流产生的视图的集合;以及
图3示出了按照允许使用关系型数据库概念来查询的方式表示从非结构化数据提取的结构化数据的方法。
具体实施方式
本文描述的一些实施例可以实现用于将对非结构化数据的提取表示成RDBMS中的结构化数据的用户表面。一些实施例包括用于表示对被表示为行集(rowset)的文档的整个语料库而不是仅对单个文档进行操作的提取的功能。一些实施例实现了用于展示复杂的、可独立查询的提取输出(诸如实体-关系图)的功能。一些实施例实现了用于通过被良好理解且良好支持的RDBMS概念(诸如表、视图等)来展示提取输出的功能。具体而言,实施例可将提取结果展示为视图或包含视图的模式(schemas),以使得这些结果能够表示诸如图(graph)等复杂结构并且是可独立查询的。一些实施例可实现接口和提取方法来维持应用提取时的相同感觉,不论提取细节如何,并因此能扩展到数据库中的新提取。
数据提取系统可用于从非结构化数据提取并分类数据以允许自动化系统对该数据进行分类数据搜索。这些提取系统可以确定或尝试确定类型或关系信息,以使得非结构化数据可被组织为结构化数据。
用户越来越多地使用RDBMS来存储非结构化文档,诸如文件、图像、或大文本值。用于管理这样的数据的一些方法实现信息提取。信息提取包括输入非结构化文档,然后输出描述它们的结构化数据的过程。一些示例包括但不限于:从MP3文件提取ID3元数据、从文本提取实体和关系、以及识别图片或视频中的面部。出于许多原因,诸如保持数据繁重的处理靠近数据以及利用如备份/恢复、复制、安全等现有管理特征,在数据库中执行这样的提取是有价值的。
RDBMS可支持某种内建提取。这分为两大类:索引和专用数据类型。例如,全文本和XML索引输入文本,并输出结构化索引。同样,多媒体的专用数据类型通过函数执行提取,例如,以从图片中提取色彩数据。
现在参考图1,示出了一个示例。图1示出了数据语料库102。数据语料库102包括非结构化数据。例如,数据语料库102可包括一个或多个非结构化的文本文档、媒体文件、图片、视频、生物测定数据等。该非结构化数据包括在实体层级没有按照语义组织的数据,因为该数据不具有形式化的类型和/或不处于正式实体层级关系中,其中在该正式实体层级关系中一个实体被正式相关(诸如通过图、树和/或其他关系结构)。如上所述,数据语料库可以是单个文件或文档,或者文件和/或文档的集合。在一些实施例中,单个文件或文档可用于自组织提取和搜索,如同下面将会更详细地解释的。在其他实施例中,单个文件或文档,或文件和/或文档的集合,可被提取到数据库或其他结构,以用于单个自组织实例以外的进行中的搜索和/或访问。
数据语料库102可被馈送到信息提取工作流104中。信息提取工作流104定义从数据语料库102提取该数据以将数据语料库102中的数据组织为结构化数据的方式。现在示出信息提取工作流的示例。尽管示出了特定示例,然而应当理解,这些示例不是对提取技术的穷举,也可以使用其他提取技术。
在一些实施例中,提取工作流可包括短语语义提取技术。具体而言,实施例可包括能够基于短语或短语中的字的语义环境来确定与该短语或该字有关的元数据的模块。例如,可以通过词语彼此的邻近度来确定关系。例如,如果发现跨各文档的语料库术语Microsoft和Excel紧挨着彼此,则短语语义分析可确定这两个术语是有关的。
可以使用字典或词法定义来创建字或短语的类型或关系。例如,里约热内卢的词法定义会将它标识为一个城市,并且因此可以提取将里约热内卢分类为城市类型的元数据。在另一示例中,文档可具有文本“January 13,2011(2011年1月13日)”。可以使用January(1月)的词法查找来确定它是在确定日期时使用的月份,并因此可以做出此文本是日期类型的判断。
在一些实施例中,提取工作流可包括关系标识功能。例如,文本文档可包含短语“city of Rio de Janeiro(里约热内卢市)”。基于该短语的语法,可以确定里约热内卢是类型“城市”的对象。在另一示例中,文本文档可包括文本“Author:Robert Smith(作者:Robert Smith)”。基于常见语法,可以将它提取为“Robert Smith”是类型“author(作者)”的对象。语法和关系标识可以是基于标识关系和/或基于标识关系的经验的学习的用户输入的。例如,可以接收用户输入,其中用户标识短语中的关系,诸如通过在标识类型时标识该对象。例如,在上面示出的示例中,用户可以标识词语“城市”以代表类型,并标识“里约热内卢”来表示类型“城市”的对象。可以剖析后续的具有类似语法的短语以提取元数据以创建结构化数据。
在一些实施例中,提取工作流可包括属性提升(property promotion)。例如,音乐文件(诸如mp3文件)可包括该mp3文件中的元数据。这些元数据可定义艺术家、歌曲标题、歌曲长度等。该元数据可被提升到结构化数据。
在一些实施例中,提取工作流可包括实体识别或实体提取工作流。例如,文档可包含公司名称的列表。工作流可被设计为将公司名称标识为公司名称。这可被用于通过类型或以关系为基础来结构化文档中的数据。
在一些实施例中,提取工作流可包括实体消歧(disambiguation)。例如,工作流在一个或多个文档中可能遇到Pedro DeRose和DeRose博士和DeRose先生的不同数据。该工作流可以能够确定这些数据点中的每一个表示同一个人。
在一些实施例中,提取工作流可包括模式识别。在图像中的面部识别中示出了一个这样的示例。例如,在一个实施例中,模式识别可以简单地注释:面部出现。可另选地或附加地,实施例可以基于面部的字典来标识该面部。
如图1所示,使数据语料库102穿过提取工作流104可用于产生一个或多个数据库视图106。该数据库视图可以是可对其运行单个查询或单组查询的自组织视图,或者是更持久的以对扩展的数量或扩展的组的查询在扩展的时间段上使用。
这些视图可以表示多个不同形式的数据中的一个,包括表、图等。在一些实施例中,视图的集合可表示此数据。例如,可从微软公司获得的SQL服务器的模式是这种视图集合的示例。当输出多个视图时,提取工作流可以将它们分组在这样的集合中。
该提取技术除了被用于产生视图以外,该提取技术可进一步被用于产生过程。这些过程可以定义对一个或多个视图的内容进行操作、管理或刷新的方法。使用用于对这些视图进行操作的数据库系统能够访问这些过程。
在高层次上,用户可以用非结构化文档的表格开始。在图1中,这被示出为数据语料库102。在一些实施例中,数据语料库可包括若干不同文档。用户指定与提取有关的服务来执行提取,诸如提取元数据属性、提取实体和关系、使用短语语义进行提取等。这作为图1的示例由提取工作流104示出。工作流104表示用户指定的特定提取类型。用户还选择他们是否想要展示结构化的结果。这在图1中由视图106示出。
在一些实施例中,无论所指定的特定提取如何,选择和展示提取的不同方法可以是相同的,或非常类似的,以创建用于结构化非结构化数据的通用过程。具体而言,用户可以能够使用标准化用户接口或API来调用不同提取。
从本高层次图示中,进一步探究了各种中间概念。第一个概念是已存储文档的概念。这与在提取之前文档如何在数据库中存储有关。已存储文档可以是作为表格中的行或视图的文档。在本示例中,该行具有唯一id,该唯一id可以是该表格上的唯一键的一部分。该行可以具有多个具有文本或二进制码的列,该文本或二进制码可以等同于文档的已命名章节。文档语料库可以是行集,诸如表格或视图。
第二个概念是自组织文档的概念。本概念针对当文档没有被存储而是为单个查询而被提供时,如何表示这些文档。在一些用于与可从华盛顿雷蒙德的微软公司获得的SQL服务器一起使用的示例实施例中,SQL服务器CLR类型(被称为文档)可被用于表示被指定为URI的文档。例如:DECLARE @d DOCUMENT=‘file://...’.
第三个概念是提取工作流的概念。提取工作流定义并命名用于从非结构化数据提取结构的过程。可以实现一些实施例,其中用户能创建他们自己的提取工作流。附加地或可另选地,一些实施例可具有系统定义的工作流。例如,该系统可以定义从文件提取元数据的property_promotion(属性_提升)工作流,或者提取已命名实体和关系的entity_relationship(实体_关系)工作流。每个工作流是一已命名黑箱,该黑箱展示它接受什么配置选项,以及在它能被创建之前什么其他提取工作流应当存在。这可以通过数据库中的系统目录展示。
第四个概念是提取调用的概念。提取调用包括向文档的特定语料库应用提取工作流。该调用包括指定该工作流可用的配置选项,指定用于在语料库变化时应当如何更新提取输出的更新政策(例如,自动地,人工地),以及当需要提取输出时在其上构建的现有提取输出。因此,该调用可被视为提取管道的创建,该提取管道将使用该工作流处理文档并产生输出。
在一些实施例中,为了表示调用,可以使用子句。下面示出了可被定义的子句的示例:
USING EXTRACTION extraction_workflow_name
ON document_table(document_columns)
WITH configuration_options
REFERENCES existing_extraction_output
上面示出了可由系统接受的调用子句的非常具体的示例,而可以使用另选的子句或其他调用方法。USING EXTRACTION(使用提取)被用于定义在数据语料库上操作的一个或多个提取工作流。此处,extraction_workflow_name(提取_工作流_名称)表示针对特定用户的提取工作流。ON(对于)被用于定义数据语料库。WITH(具有)被用于定义各配置选项,诸如用于基于字典的提取的字典,或输入文档中要忽略的一组无用词(stop-word)。REFERENCES(参考)用于定义要在其上构筑的现有提取输出。例如,定义实体间关系的提取工作流可以在提取了这些实体的早先提取工作流的输出上构筑。这里,REFERENCES将指向该早先提取工作流的输出。
一些实施例可以实现并使用自组织调用。自组织调用将提取工作流应用到特定自组织文档。然而,一些提取使用包括多个文档在内的语料库作为上下文。例如,考虑一工作流,该工作流使用对语料库中的短语频率的静态分析来从文本中提取关键概念。这种提取使用包括多个文档在内的语料库作为上下文来从每个单独文档中提取关键短语而获得更好的效果。因此,自组织提取可以指定由在现有语料库的基础上的提取创建的现有提取输出。对于非自组织调用,实施例可使用上面的用于自组织调用的子句上的变型。下面示出了上面示出的调用的一个非常具体的变型。
USING EXTRACTION statistically_key_phrases
ON ad-hoc document
BASIS existing_extraction_output
在本示例中,关键短语将从该自组织文档(ad-hoc document)中提取,其中该自组织文档不作为单个文档,而是就像它是用于产生现有提取输出的语料库的一部分一样。提取输出表示在文档的语料库上调用提取工作流的结构化输出。此输出可以是可独立查询的。然而,在它来自对基础数据应用一过程的意义上,它是推导出的数据。在RDBM上,表示可独立查询的推导出的数据的概念可以是视图。因此,在一些实施例中,提取的输出被展示为视图。此视图可以是使用适当的调用持久化的,或者用于通过自组织命令中的自组织调用的单个自组织查询。例如,WITH命令是在可从华盛顿雷蒙德的微软公司获得的SQL服务器中使用的自组织命令。
一些提取产生可不被清晰显示为单个视图的输出。例如,考虑一提取,该提取输出实体-关系图。这种图的一个自然的关系型表示是将其对于多个紧密相关的视图归一化。一些数据库系统实现能够包含多个视图的集合单元。例如,在SQL服务器中,能够包含多个视图的单元被称为“模式”,而不与定义结构和内容的其他上下文中使用的模式相混淆。因此,当提取输出多个视图时,它可以被持久化为包含那些视图的集合。
接下来是多个用例示例。可实现其中用户确定哪些类型的提取可用的实施例。例如,数据库可包括允许用户查询可用提取的用户接口,以及应当为那些提取指定的属性。例如,用户可以提交会致使该系统指示属性提升和短语语义提取可用的查询。例如,一些实施例包括允许用户确定什么提取工作流可用的命令。例如,在一个非常具体的实施例中,下面的命令:
SELECT*FROM sys.extraction_workflows;
产生下面的表格输出:
此表格示出了可用的提取工作流(Property_Promotion(属性_提升)和Phrase_Semantics(短语_语义))、是否是工作流输出视图、该工作流是否输出视图的集合、以及工作流是否是全局的(在于该提取的输出取决于它输入的文档的语料库而不是单独取决于每个文档)。
实施例可包括允许用户检查提取工作流的选项的功能。例如,在一个具体的实施例中,下面的命令:
SELECT*FROM sys.extraction_workflow_options;
产生下面的表格输出:
此表格示出了在前面的表格中的提取工作流的选项。
一旦知道了提取工作流,用户能指定给定工作流。下面示出了用户使用上面示出的特定示例工具调用属性提升提取的示例。具体而言,在本示例中,对于语料库102中的每个文档,提取工作流104将属性提升到列中。例如,音乐文件中的元数据可以被提升到列项。然后用户能够使用数据库查询和作为数据库的一部分包括在内的属性来对所提取的属性执行查询。
首先,用户创建属性列表,以进行属性范围的搜索。在所示示例中,用户会把SEARCH PROPERTY LIST(搜索属性列表)改变为DOCUMENT PROPERTY LIST(文档属性列表)。这是用下面的命令完成的。
CREATE DOCUMENT PROPERTY LIST manualProperties...
然后用户调用属性提升提取,从而将输出持久化到视图中。接着上面的示例,可以使用下面的调用:
在上述示例中,视图名称将是Production_DocumentProperties(生产_文档属性),用于提取语料库102上的数据的提取工作流将是Property_Promotion(属性_提取),提取将对Production.ProductManual(生产.产品手册)执行,而该提取将被执行到先前创建的manualProperties(手册属性)列表中。
如上所述,一旦提取已进行从而将数据提取到一个或多个视图中,就可以使用对数据库原生的数据库查询来查询该视图。在一些实施例中,该提取可能导致每个列一个属性,具有稀疏列和列集合。如上所述,一旦创建了视图,则可以执行原生数据库操作。例如:可以执行查询。所创建的视图、视图、或视图的集合可被更改。该视图和/或调用可被丢弃。实施例可以检查元数据和/或爬行状态/信息。实施例可以检查哪些列是连同提取使用而使用的输入。实施例可以检查提取使用中设定了哪些选项。
如上所述,实施例可便于提取的自组织调用。下面示出了自组织属性提升提取的示例。在下面的示例中,一个实施例声明了自组织文档,然后对其应用该提取。应用该提取是类似的,并且继续使用常见的关系型概念,诸如常见的表格表达式。
Property_Promotion提取不是全局的,意味着它不需要语料库的其余部分的上下文来工作。这由sys.extraction_workflows(系统.提取_工作流)中的is_global(为_全局)指定。
下面的示例示出了调用短语语义提取工作流。在本示例中,短语语义工作流输出多个视图的集合。在SQL服务器示例中,多个视图的此集合可以作为SQL服务器中的模式。在本示例中,该集合被声明为只读,因为它的内容完全由提取调用控制。
图2示出了使用该调用创建的集合200。
下面示出了其中实现了短语语义提取的自组织调用的另一个示例。在下面的示例中,自组织文档被声明,然后向其应用该提取。在本示例中,该自组织文档由document_idNULL(文档_id空)表示。
在所示示例中,与属性提升相比,存在两个有趣的难题。第一,该短语语义提取输出是视图的集合。为便于此,用于在RDBM中创建自组织数据的子句(例如,如在可从华盛顿雷蒙德的微软公司获得的SQL服务器中定义的WITH子句)可被扩展以允许瞬态模式,类似于它当前如何允许瞬态表格。第二,在本示例中,短语语义是全局视图,意味着它需要该语料库的其他部分的上下文。这在上面由sys.extraction_workflows(系统.提取_工作流)中的is_global(为_全局)指定。因此,自组织调用使用现有非自组织提取作为基础。下面示出了一示例。
以下讨论现涉及可以执行的多种方法以及方法动作。虽然用特定次序讨论或用以特定次序发生的流程图示出了各个方法动作,但除非明确规定否则不需要特定次序,或因为一动作依赖于另一动作在执行该动作之前完成而需要特定次序。
现在参考图3,示出了方法300。可以在计算环境中实施方法300。方法300包括用于按照允许使用关系型数据库概念来查询的方式从非结构化数据提取的结构化数据的动作。方法300包括接收指定一个或多个数据库视图的用户输入(动作302)。上面示出了此动作的示例,其中用户使用上面示出的CREATE VIEW(创建视图)或CREATE SCHEMA(创建模式)子句。
方法300进一步包括接收指定信息提取技术的用户输入(动作304)。例如,用户能够指定提取工作流。上面示出了此动作的示例,其中用户输入是USING EXTRACTION(使用提取)子句。
方法300进一步包括接收指定数据语料库的用户输入(动作306)。上面通过对所示的ON子句的使用示出了此动作的示例。
方法300进一步包括将该提取技术应用到数据语料库以产生该一个或多个数据库视图(动作308)。图1示出了将提取技术(在本示例中是工作流104)应用到数据语料库102以产生视图106。
此外,各种方法可由包括一个或多个处理器和诸如计算机存储器等计算机可读介质的计算机系统来实施。具体而言,计算机存储器可存储计算机可执行指令,这些指令在由一个或多个处理器执行时使得诸如各实施例中所述的各个动作等各种功能被执行。
本发明的各实施例可以包括或利用包含计算机硬件的专用或通用计算机,这将在下文中更详细地讨论。本发明范围内的各实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是物理存储介质。承载计算机可执行指令的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种显著不同的计算机可读介质:物理计算机可读存储介质和传输计算机可读介质。
物理计算机存储介质包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储(如CD、DVD等)、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他介质。物理计算机可读存储介质特别排除了所传播的信号。
“网络”被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链路。以上介质的组合也被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件时,以计算机可执行的指令或数据结构的形式存在的程序代码装置可以自动地从传输计算机可读介质传输到物理计算机可读存储介质(或者反之亦然)。例如,通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如,“NIC”)内的RAM中,然后最终被传送到计算机系统RAM和/或计算机系统处的较不易失性的计算机可读物理存储介质。因此,计算机可读物理存储介质可被包括在同样(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括,例如使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备中。
本发明可具体化为其他具体形式而不背离其精神或特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变被权利要求书的范围所涵盖。

Claims (14)

1.一种在计算环境中的按照允许使用关系型数据库概念来查询的方式表示从非结构化数据提取的结构化数据的方法,所述方法包括:
接收指定一个或多个数据库视图(106)的用户输入(302);
接收指定信息提取技术的用户输入(304),所述用户输入中所指定的所述信息提取技术定义如何从非结构化数据中提取结构化数据并且所述信息提取技术包括短语语义提取技术,所述短语语义提取技术基于一个或多个字的语义环境来确定与所述一个或多个字有关的语义关系;
接收指定包括非结构化数据的数据语料库(102)的用户输入(306),其中所述非结构化数据包括在实体层级没有按照语义组织的数据;以及
将所述提取技术应用到所述数据语料库(102)以产生所述一个或多个数据库视图(106)(308)。
2.如权利要求1所述的方法,其特征在于,所述一个或多个视图包括单个查询的一个或多个自组织视图。
3.如权利要求1所述的方法,其特征在于,多个视图被指定为视图的集合。
4.如权利要求1所述的方法,其特征在于,还包括接收与所述提取技术有关的附加选项。
5.如权利要求1所述的方法,其特征在于,还包括对所产生的视图执行一个或多个查询。
6.如权利要求1所述的方法,其特征在于,应用所述提取技术还产生过程。
7.如权利要求6所述的方法,其特征在于,所述过程定义对所述一个或多个视图进行操作的方法。
8.如权利要求1所述的方法,其特征在于,所述提取技术包括属性提升。
9.如权利要求1所述的方法,其特征在于,所述提取技术包括关系标识。
10.如权利要求1所述的方法,其特征在于,所述提取技术包括实体识别或实体提取。
11.如权利要求1所述的方法,其特征在于,所述提取技术包括实体消歧。
12.如权利要求1所述的方法,其特征在于,所述一个或多个视图表示图。
13.如权利要求1所述的方法,其特征在于,所述一个或多个视图表示表格数据。
14.如权利要求1所述的方法,其特征在于,所述提取技术包括模式识别。
CN201210052877.6A 2011-03-04 2012-03-02 用于消费信息提取服务的可扩展表面 Active CN102693269B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/040,939 2011-03-04
US13/040,939 US9064004B2 (en) 2011-03-04 2011-03-04 Extensible surface for consuming information extraction services

Publications (2)

Publication Number Publication Date
CN102693269A CN102693269A (zh) 2012-09-26
CN102693269B true CN102693269B (zh) 2018-06-08

Family

ID=46753958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210052877.6A Active CN102693269B (zh) 2011-03-04 2012-03-02 用于消费信息提取服务的可扩展表面

Country Status (2)

Country Link
US (2) US9064004B2 (zh)
CN (1) CN102693269B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
US20140101280A1 (en) * 2012-10-05 2014-04-10 Olaf Schmidt Generic serializer framework
WO2015117074A1 (en) * 2014-01-31 2015-08-06 Global Security Information Analysts, LLC Document relationship analysis system
US10599676B2 (en) 2015-12-15 2020-03-24 Microsoft Technology Licensing, Llc Replication control among redundant data centers
US10235406B2 (en) 2015-12-15 2019-03-19 Microsoft Technology Licensing, Llc Reminder processing of structured data records among partitioned data storage spaces
US10248709B2 (en) 2015-12-15 2019-04-02 Microsoft Technology Licensing, Llc Promoted properties in relational structured data
US11226985B2 (en) 2015-12-15 2022-01-18 Microsoft Technology Licensing, Llc Replication of structured data records among partitioned data storage spaces
US10963686B2 (en) 2017-12-01 2021-03-30 International Business Machines Corporation Semantic normalization in document digitization
US10885087B2 (en) 2018-11-13 2021-01-05 International Business Machines Corporation Cognitive automation tool
CN111949684B (zh) * 2020-08-06 2023-08-11 上海达梦数据库有限公司 Sql语句的执行方法、装置、设备和存储介质
WO2022260670A1 (en) * 2021-06-10 2022-12-15 Industrial Artificial Intelligence Inc. Systems and methods for extracting entity features from a relational database

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
US6732097B1 (en) * 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US20030208378A1 (en) * 2001-05-25 2003-11-06 Venkatesan Thangaraj Clincal trial management
US7249117B2 (en) * 2002-05-22 2007-07-24 Estes Timothy W Knowledge discovery agent system and method
US20040049505A1 (en) * 2002-09-11 2004-03-11 Kelly Pennock Textual on-line analytical processing method and system
US7254581B2 (en) * 2002-11-13 2007-08-07 Jerry Johnson System and method for creation and maintenance of a rich content or content-centric electronic catalog
US7146356B2 (en) 2003-03-21 2006-12-05 International Business Machines Corporation Real-time aggregation of unstructured data into structured data for SQL processing by a relational database engine
US20040193644A1 (en) * 2003-03-31 2004-09-30 Baker William P. Exposing a report as a schematized queryable data source
ATE421138T1 (de) * 2003-11-12 2009-01-15 Koninkl Philips Electronics Nv Vergabe semantischer etiketten an phrasen für die grammatikerzeugung
US7590647B2 (en) 2005-05-27 2009-09-15 Rage Frameworks, Inc Method for extracting, interpreting and standardizing tabular data from unstructured documents
US7849048B2 (en) * 2005-07-05 2010-12-07 Clarabridge, Inc. System and method of making unstructured data available to structured data analysis tools
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
EP1835418A1 (en) * 2006-03-14 2007-09-19 Hewlett-Packard Development Company, L.P. Improvements in or relating to document retrieval
US8244730B2 (en) * 2006-05-30 2012-08-14 Honda Motor Co., Ltd. Learning syntactic patterns for automatic discovery of causal relations from text
WO2007149216A2 (en) * 2006-06-21 2007-12-27 Information Extraction Systems An apparatus, system and method for developing tools to process natural language text
US8738359B2 (en) * 2006-10-18 2014-05-27 Honda Motor Co., Ltd. Scalable knowledge extraction
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
US7899804B2 (en) * 2007-08-30 2011-03-01 Yahoo! Inc. Automatic extraction of semantics from text information
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8140383B2 (en) * 2007-12-17 2012-03-20 Sap Ag Derived and automated key performance indicator reports
US20090228428A1 (en) * 2008-03-07 2009-09-10 International Business Machines Corporation Solution for augmenting a master data model with relevant data elements extracted from unstructured data sources
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
US7937386B2 (en) * 2008-12-30 2011-05-03 Complyon Inc. System, method, and apparatus for information extraction of textual documents
US8666730B2 (en) * 2009-03-13 2014-03-04 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
EP2524300A4 (en) * 2010-01-15 2016-06-08 Group Business Software Ag DEVICE AND METHOD FOR CONSTRUCTING DATA APPLICATIONS IN AN UNSTRUCTURED DATA ENVIRONMENT
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
US9418069B2 (en) * 2010-05-26 2016-08-16 International Business Machines Corporation Extensible system and method for information extraction in a data processing system
US8538915B2 (en) * 2010-07-12 2013-09-17 International Business Machines Corporation Unified numerical and semantic analytics system for decision support
US8630989B2 (en) * 2011-05-27 2014-01-14 International Business Machines Corporation Systems and methods for information extraction using contextual pattern discovery

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统

Also Published As

Publication number Publication date
US9064004B2 (en) 2015-06-23
US20160070768A1 (en) 2016-03-10
US20120226715A1 (en) 2012-09-06
CN102693269A (zh) 2012-09-26

Similar Documents

Publication Publication Date Title
CN102693269B (zh) 用于消费信息提取服务的可扩展表面
US8996555B2 (en) Question answering framework for structured query languages
US10394803B2 (en) Method and system for semantic-based queries using word vector representation
Zhao et al. Ontology integration for linked data
US8380750B2 (en) Searching and displaying data objects residing in data management systems
US9396284B2 (en) Method and system for implementing efficient updatable relational views over XML data
US9239872B2 (en) Data store organizing data using semantic classification
US20170116307A1 (en) Automated Refinement and Validation of Data Warehouse Star Schemas
US10360239B2 (en) Automated definition of data warehouse star schemas
Färber et al. The data set knowledge graph: Creating a linked open data source for data sets
US11308177B2 (en) System and method for accessing and managing cognitive knowledge
Yafooz et al. Managing unstructured data in relational databases
Djokic-Petrovic et al. PIBAS FedSPARQL: a web-based platform for integration and exploration of bioinformatics datasets
Kaur et al. Evaluation of information retrieval based ontology development editors for semantic web
Kalampokis et al. ICT tools for creating, expanding and exploiting statistical linked Open Data
JP2012128858A (ja) クエリシステム及びコンピュータプログラム
Angelis et al. Generating and exploiting semantically enriched, integrated, linked and open museum data
Fallucchi et al. Connecting and mapping LOD and CMDI through knowledge organization
Im et al. Backward inference and pruning for RDF change detection using RDBMS
Truică et al. A scalable document-based architecture for text analysis
Berrington Databases
JP2024504556A (ja) データ処理システムによって管理されるデータエンティティにアクセスするためのシステム及び方法
Ramalho From ISIS to CouchDB: Databases and data models for bibliographic records
Normantas et al. Extracting term units and fact units from existing databases using the Knowledge Discovery Metamodel
Pereira et al. A semantic BI process for detecting and analyzing mentions of interest for a domain in tweets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1176702

Country of ref document: HK

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150730

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150730

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1176702

Country of ref document: HK