CN104050223A - 用于文本挖掘和搜索的数据透视面 - Google Patents

用于文本挖掘和搜索的数据透视面 Download PDF

Info

Publication number
CN104050223A
CN104050223A CN201410095299.3A CN201410095299A CN104050223A CN 104050223 A CN104050223 A CN 104050223A CN 201410095299 A CN201410095299 A CN 201410095299A CN 104050223 A CN104050223 A CN 104050223A
Authority
CN
China
Prior art keywords
document
inquiry
computer
carry out
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410095299.3A
Other languages
English (en)
Other versions
CN104050223B (zh
Inventor
B·W·伊曼纽尔
T·莱瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104050223A publication Critical patent/CN104050223A/zh
Application granted granted Critical
Publication of CN104050223B publication Critical patent/CN104050223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于文本挖掘和搜索的数据透视面。提供了用于提供和使用数据透视面进行文本挖掘和搜索的技术。将元数据字段映射到数据透视面。响应于执行第一查询,显示至少第一文档和所述数据透视面。响应于选择所述数据透视面,生成包括所述元数据字段的值的第二查询;以及执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。

Description

用于文本挖掘和搜索的数据透视面
技术领域
本发明的各实施例涉及用于文本挖掘和搜索的数据透视面(pivotfacet)。
背景技术
搜索和文本分析系统传统上处理“扁平化”数据和信息,其中在文档级整理链接数据。搜索系统一般接收查询并执行该查询以识别诸如文档之类的搜索结果。搜索结果解析到文档级,并且面(维度)可被用于导航或向下挖掘以从被生效查询和其它选择条件约束的当前可用搜索结果中选择较窄的结果。
文本分析系统一般分析文档中的文本以生成要分析的信息(例如,通过词法分析研究单词频率分布、模式识别、标记/注释识别、信息提取等)。文本分析也可被称为数据挖掘,并且可以包括执行链接和关联分析以及向下挖掘。
有时,关系数据也包括在搜索或文本挖掘集合中,但是信息之间的关系可被扁平化(丢弃)以符合简单文档模型。如果用户希望使用此类存储在搜索引擎的扁平化文档中的关系信息,并且向下挖掘到链接信息,则该用户可以查看搜索结果中的文档元数据,选择包含“关系”数据中的键的字段,清除当前查询和搜索条件,以及使用该键发出新查询以查看搜索结果中的相关数据或导航到各个相关的数据文档。
发明内容
提供了一种用于提供和使用数据透视面进行文本挖掘和搜索的方法。使用计算机的处理器将元数据字段映射到数据透视面。响应于执行第一查询,使用所述计算机的所述处理器显示至少第一文档和所述数据透视面。响应于选择所述数据透视面,使用所述计算机的所述处理器生成包括所述元数据字段的值的第二查询;以及使用所述计算机的所述处理器执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。
提供了一种用于提供和使用数据透视面进行文本挖掘和搜索的计算机程序产品。所述计算机产品包括其中包含程序代码的计算机可读存储介质,所述程序代码可被至少一个处理器执行以:由所述至少一个处理器将元数据字段映射到数据透视面;响应于执行第一查询,由所述至少一个处理器显示至少第一文档和所述数据透视面;以及响应于选择所述数据透视面,由所述至少一个处理器生成包括所述元数据字段的值的第二查询,以及由所述至少一个处理器执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。
提供了一种用于提供和使用数据透视面进行文本挖掘和搜索的计算机系统。所述计算机系统包括一个或多个处理器、一个或多个计算机可读存储器以及一个或多个计算机可读有形存储设备;以及程序指令,其存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:将元数据字段映射到数据透视面;响应于执行第一查询,显示至少第一文档和所述数据透视面;以及响应于选择所述数据透视面,生成包括所述元数据字段的值的第二查询;以及执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。
附图说明
现在参考附图,其中相同的参考标号表示以下全部附图中对应的部件:
图1示出根据特定实施例的计算环境;
图2示出根据特定实施例的文本搜索引擎的细节;
图3示出根据特定实施例的在流程图中被执行以创建数据透视面的操作;
图4示出根据特定实施例的在流程图中被执行以使用数据透视面的操作;
图5示出根据特定实施例的分层文档;
图6示出根据特定实施例的带有分层文档的数据透视面的搜索结果;
图7示出根据特定实施例的复合文档;
图8示出根据特定实施例的双集合;
图9示出根据特定实施例的实例索引;
图10示出根据特定实施例的用于将就诊表导入文档实例的信息;
图11示出根据特定实施例的文档实例的创建;
图12示出根据特定实施例的两个不同的记录类型;
图13示出根据特定实施例的带有数据透视面的搜索结果;
图14示出根据特定实施例的云计算节点;
图15示出根据特定实施例的云计算环境;
图16示出根据特定实施例的抽象模型层。
具体实施方式
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
图1示出根据特定实施例的计算环境。计算设备100包括文本搜索引擎110、数据透视面计算模块140和文本分析引擎130。计算设备100与数据存储库150耦合。数据存储库150包括文档160、数据透视面162、数据库170和一个或多个索引180。
在特定实施例中,文本搜索引擎110和数据透视面计算模块140提供高效的文本文档搜索能力。除了包含在文档中的原始文本之外,文本搜索引擎110还适合于与文档关联的元数据(字段)(例如,作者、创建日期、标题等)的摘取和搜索。数据透视面计算模块140在选定数据透视面时提供相关文档。
图2示出根据特定实施例的文本搜索引擎110的细节。文本搜索引擎110执行文档抓取120、文档处理122、创建索引124和运行时处理126。文档抓取120包括在提供本机访问控制列表(ACL)支持的同时抓取内容和元数据的一个或多个数据源。文档处理122包括从文档中提取文档抓取120所识别的文本,识别文档语言,以及应用一组文本分析(例如使用文本分析引擎130)以识别和提取文本中的各种特征。创建索引124接收已处理的文档并针对已创建的文档生成一个或多个索引180。运行时处理126包括高级搜索和面(facet)支持。
面可被描述为进行搜索以限制搜索结果(例如,一个或多个文档)的维度、属性或元数据。数据透视面可被描述为包含键值的维度、属性或元数据字段,该键值将特定文档链接到包含同一键值的语料库中的其它文档。在特定实施例中,使用数据透视面提供指向特定搜索结果的相关文档的可点击链接。
可选择数据透视面,并且响应于该选择,数据透视面计算模块140清除当前的查询和选择条件,并重新提交(提交到文本搜索引擎110)包含选择相关文档所需的键的新查询。文本搜索引擎110执行新查询并在搜索结果中显示相关文档。在特定实施例中,数据透视面计算模块140可以清除当前的查询并向搜索条件添加附加的条件。
图3示出根据特定实施例的在流程图中被执行以创建数据透视面的操作。控制在方框300开始,其中特定元数据字段被识别为键字段以形成键元数据字段。键元数据字段的唯一标识符可用于识别文档集。在特定实施例中,判定哪个元数据为“键”字段(可能映射到数据透视面)由已抓取的源存储库指示,或者在源存储库不可用的情况下,由文本搜索引擎110的管理员指示。例如,如果要建立父可能具有多个子的父子关系模型,父文档可包含被称为“子”的元数据字段,并且子文档可包含被称为“父”的元数据字段。子文档具有“父”字段中解析到父的“子”字段的唯一标识符。在特定实施例中,这类似于关系数据库中的本机键/外部键。
在方框302,数据透视面计算模块140将键元数据字段映射到数据透视面。
这样,数据透视面计算模块140捕获文档之间的关系作为带有识别相关文档集的标识符的元数据字段。
图4示出根据特定实施例的在流程图中被执行以使用数据透视面的操作。控制始于文本搜索引擎110接收第一查询。在方框402,文本搜索引擎110执行第一查询(针对第一文档语料库,例如文档集合)以提供(文档的)第一搜索结果,第一搜索结果中添加了指示数据透视面的指示符。在特定实施例中,通过在计算机屏幕上显示搜索结果来提供搜索结果。在其它实施例中,在报告中提供搜索结果。在特定实施例中,可通过显示元数据字段来添加指示符,这些元数据字段映射到与未映射到数据透视面的元数据字段格式不同的数据透视面。常规面包含并非键的值,因此无法用于链接到语料库中的其它文档。例如,映射到数据透视面的元数据字段可以粗体显示或其它不同的颜色或字型显示。在特定实施例中,指示符可被指定为“显示相关文档”链接。
在方框404,响应于选择数据透视面,数据透视面计算模块140生成包括作为键字段的元数据字段的值的第二查询。在特定实施例中,数据透视面计算模块140可用其它词汇替代查询中的词汇,或者用其它字段替代原有字段。在方框406,文本搜索引擎110接收并执行第二查询(针对同一或不同的文档集合)以提供(包括元数据字段的值的文档的)第二搜索结果,第二搜索结果添加了指示数据透视面的指示符。
例如,当选择“子”数据透视面时,数据透视面计算模块140生成查询以返回其中当前搜索结果中的“父”字段的值包含在“子”字段内的所有文档。作为另一实例,当选择“父”数据透视面时,数据透视面计算模块140生成查询以返回其中文档的“子”字段的值包含在“父”字段内的所有文档。
这样,在特定实施例中,用户使用传统的搜索和导航方法(其中包括面搜索)执行搜索并到达搜索结果。此外,数据透视面被映射到键元数据字段并显示在搜索结果中。例如,如果文档位于包含“子”字段的搜索结果中,则显示对应的“子”数据透视面,并且当用户点击子数据透视面时,数据透视面计算模块140清除当前的搜索条件(以便搜索整个语料库)并生成新查询以从当前的搜索结果中查找其中父字段包含文档集的子字段内包含的任何值的文档。文本搜索引擎110执行新查询并向用户提供新的搜索结果。
图5示出根据特定实施例的分层文档500。在该实例中,分层文档包括不同主题(动物、哺乳动物、狗、猫)的文档。每个文档具有指向父文档的“父”元数据字段。
图6示出根据特定实施例的带有分层文档的数据透视面的搜索结果600。在特定实施例中,数据透视面是可能位于其它文档中的键值。这样,数据透视面可用于发现层次结构关系。例如,有关狗和猫的文档可能包含被称为“动物类型”的元数据字段,该字段的值可被设定为“哺乳动物”。如果该元数据字段被识别为键字段并且接下来映射到数据透视面,则当选择“哺乳动物”时,文本搜索引擎110发出搜索以查找其键字段包含值“哺乳动物”的其它文档。需要指出,搜索排除当前文档中的猫狗类(rectype)以便文本搜索引擎110不会再次返回当前有关猫或狗的文档。因此,通过点击“动物类型”数据透视面,用户重新回到其值为哺乳动物的父文档。
这样,如果用户需要哺乳动物文档,而非搜索父元数据字段包含值“哺乳动物”的其它文档,则选择数据透视面将触发搜索主题字段包含值“哺乳动物”的其它文档。即,数据透视面计算模块140通过搜索主题而非父来更改查询。
在特定实施例中,在针对数据透视面重新形成查询期间,查询可导向单独的文档集(与搜索结果目前所属的同一文档集相对)。集合可被描述为文档的逻辑分组,如文本搜索引擎110定义的那样。集合可以是也可以不是物理索引。
图7示出根据特定实施例的复合文档700。在该实例中,每个文档具有数个段落。各实施例可以构建更大文档的集合。
图8示出根据特定实施例的双集合800。双集合800包括集合1和集合2,集合1是原始文档,集合2是在段落级上建立索引的同一集合。即,集合2中的每个文档是来自集合1中的文档之一的段落。在集合1中,存在称为段落的元数据字段,并且其值包含文档标识符(“文档id”)和每个文档的段落的段落编号。数据透视面计算模块140从此段落元数据字段创建数据透视面,该数据透视面搜索集合2以检索该文档的段落,然后更改搜索结果显示以示出集合2而非集合1。
在特定实施例中,将其它操作与数据透视面关联。例如,如果从第一文档集合接收搜索结果,则用户选择搜索结果的数据透视面并更改为第二文档集合,使得数据透视面计算模块140基于该数据透视面生成新查询并针对第二文档集合执行该新查询。
作为另一实例,用户可以选择数据透视面并更改为另一上下文,使得数据透视面计算模块140基于该数据透视面生成新查询并在新上下文中执行该新查询。上下文可被描述为虚拟文档集(例如,文档集内的段落集,或者集合中的文档子集共有的特定字段或字段集)。
作为进一步的实例,用户可以选择数据透视面并选择新字段(例如,不同的或现有的字段)。对于该实例,数据透视面计算模块140通过用新字段替换正在被搜索的当前字段,生成新查询。
数据透视面用于触发查询的重新形成,同时还用于在无需用户执行其它处理的情况下,执行允许为最终用户提供更多信息(例如,相关文档)的其它操作。
在该实例中,集合包含分层文档,其中每个分层文档具有名为“父”的元数据字段和名为“子”的元数据字段。数据透视面计算模块1401能够配置数据透视面,从而通过更改查询以查找文档的父字段中的文档id,或查找文档的子字段中的选定文档id来在文档层次结构中向上或向下导航。
在特定实施例中,选择数据透视面可动态地(1)更改针对同一文档集执行的原始查询,(2)针对其它文档集或其它上下文执行同一查询,(3)针对同一文档集执行新查询,或(4)针对其它文档集或其它上下文执行新查询。这样,数据透视面是“可编程的”,其中从元数据或内容自动生成新查询。
图9-13提供根据特定实施例的使用医疗保健案例文档集的关系方法的一个实例。
使用关系方法,在反应关系表的文档集中创建多个记录类型(“rectype”),并通过已识别的键字段保存实体/关系。关系数据库170中的每个关系表表示文档集中的记录类型。可通过不同的抓取器实例抓取每个关系表。每个已抓取的文档表示记录类型的文档实例(或行)。特定于该关系表的字段被映射到索引字段(它们是元数据字段的实例)。另外,用户的关系数据库管理系统(RDBMS)中的相关表列具有已定义的对应索引字段。
在特定实施例中,使用关系方法,文本搜索引擎110显示具有“显示相关文档”链接并具有面值关系的搜索结果。
图9示出根据特定实施例的实例索引900。在图9中,索引900定义用户的RDBMS中关系列的索引字段集。另外,添加指示索引字段是否为“键字段”的新索引字段属性。而且,创建名为“rectype”(记录类型)的索引字段。在特定实施例中,默认自动创建索引字段“rectype”。
作为另一实例,对于医疗保健案例的索引,可创建下面的索引字段:患者ID(键)、患者姓名、患者年龄、患者性别、医生ID(键)、医生姓名、医生专业、就诊日期(键)、医嘱、放射检查ID(键)、放射检查日期(键)、放射检查报告等。
图10示出根据特定实施例的用于将就诊表导入文档实例的信息。“rectype”索引字段1010可通过抓取器预设以识别该记录类型(文档)。
图11示出根据特定实施例的文档实例的创建。在图11中,通过抓取患者表来填充文档实例1100的字段,以及通过抓取放射检查表填充文档实例1110的字段。
图12示出根据特定实施例的两个不同的记录类型1200、1210。文本搜索引擎110可以在搜索结果中针对不同记录类型提供不同的格式设置。
由于记录类型及其已识别的键字段可用,因此数据透视面计算模块140可以发出附加查询以检索链接文档。此外,其它非键字段(例如,就诊日期)可用于进一步过滤搜索结果。
对于给定的记录类型实例(例如,来自一组搜索结果),数据透视面计算模块140可通过搜索在其它记录类型中出现的所包含键值来发出对相关文档的搜索。下面是搜索要求和可能的搜索查询的实例:
●显示患者P1的所有就诊
Query(rectype:doctorVisits patientid:P1)
●显示医生D2的所有患者
Query(rectype:patient doctorid:D2)
●给定患者P1的就诊记录和医生D2,显示每一者的记录细节
Query((patientid:P1rectype:patient)OR(doctorid:D2
      rectype:doctor))-rectype:doctorVisits
在某些情况下,可以发出多个查询:
●显示医生D1开具的所有放射检查
Query1(rectype:doctorVisits doctorid:D1)
对于每个就诊记录中的每个唯一患者ID,发出Query2
Query2(rectype:radiologVisits(patientid:P1or patientid:P2 or
         patientid:P3...))
然后,文本搜索引擎110可以显示多个查询的搜索结果。
图13示出根据特定实施例的带有数据透视面的搜索结果1300。文本搜索引擎110显示“显示相关文档”指示符,并且响应于用户选择该指示符,文本搜索引擎110生成新查询,执行该新查询,并且显示相关文档。另外,如果字段也是面(facet),则文本搜索引擎110提供勾选框以允许进一步向下挖掘被添加到当前搜索查询的特定字段/面值。在图13中,包含待分析文本的就诊记录现在可被展开以显示有关相关患者和相关医生的细节。就诊记录包含两个可用于形成查询((patientid:P2OR doctorid:D3)-rectype:DoctorVisit)的键字段。通过将新属性添加到索引字段以识别键字段来实现此操作。
这样,文本搜索引擎110:
●将“rectype”索引字段添加到由每个抓取器填充并用于区分搜索结果的字段
●将“键字段”属性添加到索引字段以指示可用作搜索键的索引字段
●可选地展开上下文视图以包括将记录类型添加到上下文视图,从而限制要包括的其它字段,借以限制文档集的范围
●将“显示相关文档”链接添加到搜索结果,并且针对已选择的搜索结果,发出搜索以查找搜索结果中的任何当前键字段的出现并排除当前rectype
●提供利用文档之间的链接的新视图,可提供允许用户表达搜索的关系种类(例如,连接和相交)的搜索框,并取决于搜索表达式的复杂性,可发出多个搜索。
云计算
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征包括:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的提供者的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图14,其中示出云计算节点实例的示意图。云计算节点1410仅仅是适合的云计算节点的一个实例,不应对此处描述的本发明实施例的功能和使用范围带来任何限制。总之,云计算节点1410能够被用来实现和/或执行以上所述的任何功能。
云计算节点1410具有计算机系统/服务器1412,其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知,适于与计算机系统/服务器1412一起操作的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境,等等。
计算机系统/服务器1412可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器1412可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中,程序模块可以位于包括存储器件的本地或远程计算系统存储介质上。
如图14所示,云计算节点1410中的计算机系统/服务器1412以通用计算设备的形式表现。计算机系统/服务器1412的组件可以包括但不限于:一个或者多个处理器或者处理单元1416,系统存储器1428,连接不同系统组件(包括系统存储器1428和处理器或处理单元1416)的总线1418。
总线1418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器1412典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器1412访问的任意可获得的介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器1428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)1430和/或高速缓存存储器1432。计算机系统/服务器1412可以还包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统1434可以用于读写不可移动的、非易失性磁介质(图中未示出,通常称为“硬盘驱动器”)。尽管图中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线1418相连。存储器1428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块1442的程序/实用工具1440,可以存储在存储器1428中,这样的程序模块1442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,操作系统、一个或者多个应用程序、其它程序模块以及程序数据中的每一个或某种组合中可能包括网络环境的实现。程序模块1442通常执行此处描述的本发明实施例中的功能和/或方法。
计算机系统/服务器1412也可以与一个或多个外部设备1414(例如键盘、指向设备、显示器1424等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器1412交互的设备通信,和/或与使得该计算机系统/服务器1412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1422进行。并且,计算机系统/服务器1412还可以通过网络适配器1420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1420通过总线1418与计算机系统/服务器1412的其它模块通信。应当明白,尽管图中未示出,其它硬件和/或软件模块可以与计算机系统/服务器1412一起操作,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
现在参考图15,其中示出了示例性的云计算环境1550。如图所示,云计算环境1550包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点1410,本地计算设备例如可以是个人数字助理(PDA)或移动电话1554A,台式电脑1554B、笔记本电脑1554C和/或汽车计算机系统1554N。云计算节点1410之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点1410进行物理或虚拟分组(图中未示出)。这样,云的消费者无需在本地计算设备上维护资源就能请求云计算环境1550提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图15显示的各类计算设备1554A-N仅仅是示意性的,云计算节点1410以及云计算环境1550可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。
现在参考图16,其中显示了云计算环境1550(图15)提供的一组功能抽象层。首先应当理解,图16所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图所示,提供下列层和对应功能:
硬件和软件层1660包括硬件和软件组件。硬件组件的例子包括:主机,例如系统;基于RISC(精简指令集计算机)体系结构的服务器,例如IBM系统;IBM系统;IBM系统;存储器件;网络和网络组件。软件组件的例子包括:网络应用服务器软件,例如IBM应用服务器软件;数据库软件,例如IBM数据库软件。(IBM,zSeries,pSeries,xSeries,BladeCenter,WebSphere以及DB2是国际商业机器公司在全世界各地的注册商标)。
虚拟层1662提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用和操作系统,以及虚拟客户端。
在一个实例中,管理层1664可以提供下述功能:资源供应功能:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层1666提供云计算环境可能实现的功能的实例。在该层中,可提供的工作负载或功能的实例包括:地图绘制与导航;软件开发及生命周期管理;虚拟教室的教学提供;数据分析处理;交易处理;以及数据透视面处理。
因此,在特定实施例中,提供根据此处描述的实施例实现数据透视面处理的软件或程序作为云环境中的服务。
在特定实施例中,计算设备100具有包含计算节点1410的体系结构。在特定实施例中,计算设备100是云环境的一部分。在特定的备选实施例中,计算设备100不是云环境的一部分。
其它实施例细节
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本本发明实施例的方法、装置(系统)和计算机程序产品的流程图(即,作业图)和/或框图描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,流程图和框图示出的操作显示某些事件以特定的顺序发生。在备选实施例中,某些操作可以以不同的顺序被执行、修改或删除。此外,可以向上述逻辑添加步骤并仍然符合所述实施例。进而,此处所述的操作可以顺序地发生或者某些操作可以被并行地处理。更进一步,操作可以由单个处理单元或由分布式处理单元来执行。
所述操作的代码实现可进一步通过硬件逻辑或电路(例如,集成电路芯片、可编程门阵列(PGA)、专用集成电路(ASIC)等)实现。硬件逻辑可与处理器耦合以执行操作。
相互通信的设备不必持续地相互通信,除非另外明确指出。此外,相互通信的设备可以通过一个或多个媒介直接或间接地通信。
具有若干相互通信的组件的实施例的描述并非暗示所有此类组件都是必需的。相反,描述了多种可选的组件以说明更多可能的实施例。
此外,尽管可以按照连续的顺序来描述处理步骤、方法步骤、算法或类似步骤,但是此类处理、方法和算法可以被配置为以替代顺序工作。换句话说,所描述的步骤的任何序列或顺序并不一定指示要求按此顺序执行步骤。可以按任何实际顺序执行在此描述的处理的步骤。此外,可以同时执行某些步骤。
当在此描述单个设备或物品时,将显而易见的是,可以使用多个设备/物品(无论它们是否协作)来代替单个设备/物品。同样,当在此描述了多个设备或物品(无论它们是否协作)的情况下,将显而易见的是,可以使用单个设备或物品来代替多个设备或物品,或者可以使用不同数量的设备/物品来替代所示数量的设备或程序。设备的功能和/或特性可以替代地由一个或多个其他未明确描述为具有此类功能/特性的设备来体现。因此,本发明的其它实施例不必包括设备本身。
此处使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如此处所使用的,单数形式“一”、“一个”和“该”旨在同样包括复数形式,除非上下文明确地另有所指。还将理解,当在此说明书中使用时,术语“包括”和/或“包含”指定了声明的特征、整数、步骤、操作、元素和/或组件的存在,但是并不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或其组的存在或增加。
术语“一个实施例”、“一实施例”、“各实施例”、“该实施例”、“所述各实施例”、“一个或多个实施例”、“某些实施例”和“某一实施例”指本发明的一个或多个(但不是所有)实施例,除非另外明确指出。
术语“包含”、“包括”、“具有”及其变型指“包括但不限于”,除非另外明确指出。
列举的项目的列表并非暗示任何或所有的项目互相排斥,除非另外明确指出。
以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
出于说明和描述目的提供了以上对本发明实施例的描述。其并非旨在是穷举的或将所述实施例限于已披露的精确形式。根据上述教导,可以做出许多修改和变型。其旨在本发明的范围并非由此详细说明来限制,而是由此后所附的权利要求来限制。以上说明、实例和数据提供了对本发明的组成部分的制造和使用的完整说明。由于可以在不偏离本发明的精神和范围的情况下做出许多实施例,所以这些实施例存在于此后所附的权利要求或任何接下来申请的权利要求以及等同替换之内。

Claims (14)

1.一种方法,包括:
使用计算机的处理器将元数据字段映射到数据透视面;
响应于执行第一查询,使用所述计算机的所述处理器显示至少第一文档和所述数据透视面;以及
响应于选择所述数据透视面,
使用所述计算机的所述处理器生成包括所述元数据字段的值的第二查询;以及
使用所述计算机的所述处理器执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。
2.根据权利要求1的方法,其中所述元数据字段是在一个或多个文档中找到的键字段。
3.根据权利要求1的方法,还包括:
接收对新文档集合的选择;以及
针对所述新文档集合执行所述第二查询。
4.根据权利要求1的方法,还包括:
接收对新上下文的选择;以及
针对所述新上下文执行所述第二查询。
5.根据权利要求1的方法,还包括:
接收对新元数据字段的选择;
生成包括所述新元数据字段的值的第三查询;以及
执行所述第三查询。
6.根据权利要求1的方法,还包括:
将第二元数据字段映射到第二数据透视面。
7.根据权利要求1的方法,其中提供软件即服务SaaS以执行所述方法。
8.一种计算机系统,包括:
一个或多个处理器、一个或多个计算机可读存储器以及一个或多个计算机可读有形存储设备;以及
程序指令,其存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:
将元数据字段映射到数据透视面;
响应于执行第一查询,显示至少第一文档和所述数据透视面;以及
响应于选择所述数据透视面,
生成包括所述元数据字段的值的第二查询;以及
执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。
9.根据权利要求8的计算机系统,其中所述元数据字段是在一个或多个文档中找到的键字段。
10.根据权利要求8的计算机系统,其中所述程序指令存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:
接收对新文档集合的选择;以及
针对所述新文档集合执行所述第二查询。
11.根据权利要求8的计算机系统,其中所述程序指令存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:
接收对新上下文的选择;以及
针对所述新上下文执行所述第二查询。
12.根据权利要求8的计算机系统,其中所述程序指令存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:
接收对新元数据字段的选择;
生成包括所述新元数据字段的值的第三查询;以及
执行所述第三查询。
13.根据权利要求8的计算机系统,其中所述程序指令存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:
将第二元数据字段映射到第二数据透视面。
14.根据权利要求8的计算机系统,其中提供软件即服务SaaS以执行所述系统的操作。
CN201410095299.3A 2013-03-15 2014-03-14 用于文本挖掘和搜索的数据透视面 Active CN104050223B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/837,247 US9146994B2 (en) 2013-03-15 2013-03-15 Pivot facets for text mining and search
US13/837,247 2013-03-15

Publications (2)

Publication Number Publication Date
CN104050223A true CN104050223A (zh) 2014-09-17
CN104050223B CN104050223B (zh) 2017-10-31

Family

ID=51419116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410095299.3A Active CN104050223B (zh) 2013-03-15 2014-03-14 用于文本挖掘和搜索的数据透视面

Country Status (3)

Country Link
US (2) US9146994B2 (zh)
CN (1) CN104050223B (zh)
DE (1) DE102014103279A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112219200A (zh) * 2018-06-26 2021-01-12 国际商业机器公司 基于多个查询解释的基于方面的查询改进
CN112818111A (zh) * 2021-01-28 2021-05-18 北京百度网讯科技有限公司 文档推荐方法、装置、电子设备和介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9360982B2 (en) * 2012-05-01 2016-06-07 International Business Machines Corporation Generating visualizations of facet values for facets defined over a collection of objects
US10318804B2 (en) * 2014-06-30 2019-06-11 First American Financial Corporation System and method for data extraction and searching
US10606855B2 (en) * 2014-07-10 2020-03-31 Oracle International Corporation Embedding analytics within transaction search
US10585892B2 (en) 2014-07-10 2020-03-10 Oracle International Corporation Hierarchical dimension analysis in multi-dimensional pivot grids
US10331899B2 (en) 2015-10-24 2019-06-25 Oracle International Corporation Display of dynamic contextual pivot grid analytics
US10509855B2 (en) 2016-03-02 2019-12-17 International Business Machines Corporation Dynamic facet tree generation
KR101758219B1 (ko) * 2017-01-24 2017-07-14 김훈 수치정보 검색이 가능한 수치정보 관리장치
US10838994B2 (en) 2017-08-31 2020-11-17 International Business Machines Corporation Document ranking by progressively increasing faceted query
US10375556B2 (en) 2017-12-21 2019-08-06 International Business Machines Corporation Emergency call service backup using device user plane communications
US11176158B2 (en) * 2019-07-31 2021-11-16 International Business Machines Corporation Intelligent use of extraction techniques
US11361030B2 (en) * 2019-11-27 2022-06-14 International Business Machines Corporation Positive/negative facet identification in similar documents to search context
US11816158B2 (en) * 2020-11-18 2023-11-14 Micro Focus Llc Metadata tagging of document within search engine
US11803577B1 (en) * 2021-08-13 2023-10-31 Amazon Technologies, Inc. Parent/child document indexing
US11841909B2 (en) 2022-02-11 2023-12-12 International Business Machines Corporation Text analytics views for web site sources

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751949A (en) * 1995-05-23 1998-05-12 Mci Corporation Data security system and method
US20040139058A1 (en) * 2002-12-30 2004-07-15 Gosby Desiree D. G. Document analysis and retrieval
CN101263476A (zh) * 2005-09-09 2008-09-10 微软公司 浏览模式设计器
CN102782675A (zh) * 2009-10-09 2012-11-14 微软公司 数据分析表达式
US20130024440A1 (en) * 2011-07-22 2013-01-24 Pascal Dimassimo Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
CN102968468A (zh) * 2011-11-11 2013-03-13 微软公司 电子表格中的数据的结构化建模

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774383B2 (en) 2005-05-24 2010-08-10 International Business Machines Corporation Displaying facet tree elements and logging facet element item counts to a sequence document
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8078628B2 (en) 2008-03-12 2011-12-13 International Business Machines Corporation Streaming faceted search
CN101876981B (zh) 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
US9356574B2 (en) * 2012-11-20 2016-05-31 Karl L. Denninghoff Search and navigation to specific document content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751949A (en) * 1995-05-23 1998-05-12 Mci Corporation Data security system and method
US20040139058A1 (en) * 2002-12-30 2004-07-15 Gosby Desiree D. G. Document analysis and retrieval
CN101263476A (zh) * 2005-09-09 2008-09-10 微软公司 浏览模式设计器
CN102782675A (zh) * 2009-10-09 2012-11-14 微软公司 数据分析表达式
US20130024440A1 (en) * 2011-07-22 2013-01-24 Pascal Dimassimo Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
CN102968468A (zh) * 2011-11-11 2013-03-13 微软公司 电子表格中的数据的结构化建模

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112219200A (zh) * 2018-06-26 2021-01-12 国际商业机器公司 基于多个查询解释的基于方面的查询改进
CN112818111A (zh) * 2021-01-28 2021-05-18 北京百度网讯科技有限公司 文档推荐方法、装置、电子设备和介质
CN112818111B (zh) * 2021-01-28 2023-07-25 北京百度网讯科技有限公司 文档推荐方法、装置、电子设备和介质

Also Published As

Publication number Publication date
US9146994B2 (en) 2015-09-29
US20150012529A1 (en) 2015-01-08
DE102014103279A1 (de) 2014-09-18
US20140280284A1 (en) 2014-09-18
US10180984B2 (en) 2019-01-15
CN104050223B (zh) 2017-10-31

Similar Documents

Publication Publication Date Title
CN104050223A (zh) 用于文本挖掘和搜索的数据透视面
US20210374610A1 (en) Efficient duplicate detection for machine learning data sets
CA2953969C (en) Interactive interfaces for machine learning model evaluations
Junker et al. Exploration of biological network centralities with CentiBiN
JP2022526242A (ja) テキストドキュメントのアノテーションのための方法、装置、およびシステム
CN104412227B (zh) 基于查询的软件系统设计表示
CN105653559A (zh) 用于在数据库中进行搜索的方法和装置
CN104346418A (zh) 用于数据的关系型上下文敏感匿名化的方法和系统
CN101454779A (zh) 基于搜索的应用开发框架
US9047297B1 (en) Integrated environment for developing information exchanges
Govindarajan et al. Intelligent collaborative patent mining using excessive topic generation
CN104254846A (zh) 用于电子设备的基于内容的导航
CN105556517A (zh) 智能搜索精细化
CN105474208A (zh) 使用层面信息的基于文档的搜索
CN109256182A (zh) 一种电子病例表生成方法和装置
EP3985525A1 (en) Space data system, method, computer device, and storage medium
Bohm et al. Database technology for life sciences and medicine
Fakhre Alam et al. A comparative study of RDF and topic maps development tools and APIs
Stark et al. Gatib-cscw, medical research supported by a service-oriented collaborative system
Kumar A minimum metadata model for healthcare data interoperability
Liang et al. iCurate: a research data management system
Jánki et al. Standardized Telemedicine Software Development Kit with Hybrid Cloud Support
Tee et al. Semantic Cancer Decision Support System: A Design Approach
Khusro A Comparative Study of RDF and Topic Maps Development Tools and APIs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant