CN104541267A - 查询结构化和非结构化数据库 - Google Patents

查询结构化和非结构化数据库 Download PDF

Info

Publication number
CN104541267A
CN104541267A CN201280075523.1A CN201280075523A CN104541267A CN 104541267 A CN104541267 A CN 104541267A CN 201280075523 A CN201280075523 A CN 201280075523A CN 104541267 A CN104541267 A CN 104541267A
Authority
CN
China
Prior art keywords
unstructured data
data storehouse
inquiry
major key
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280075523.1A
Other languages
English (en)
Inventor
V.阿瓦斯蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN104541267A publication Critical patent/CN104541267A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

所提供的是一种查询结构化和非结构化数据库的方法。响应于查询而一起查询结构化数据库和非结构化数据库。查询非结构化数据库包括:从查询辨识主键,辨识主键之间的关系,以及基于主键之间的关系查询非结构化数据库。

Description

查询结构化和非结构化数据库
背景技术
企业典型地以两种形式存储其数据:结构化和非结构化。结构化数据,其可以包括销售数据、雇员详情、客户信息等,存储在计算机化的数据库管理系统(DBMS)中。非结构化数据,其可以包括电子邮件、公司报告、培训手册、白皮书、网页等,可以存储在不同的数据储存库中。一般而言,包含结构化和非结构化数据的数据库被分离地维护在组织中。
附图说明
为了更好地理解解决方案,现在将纯粹通过示例的方式参考附图来描述实施例,在附图中:
图1是根据示例的系统的示意性框图。
图2是根据示例的图1的非结构化数据处理模块的示意性框图。
图3示出根据示例的查询结构化和非结构化数据库的方法的流程图。
图4示出根据示例的图3的方法的子例程的流程图。
图5是根据示例的在计算机系统上托管的非结构化数据处理模块的示意性框图。
具体实施方式
取决于商业的性质、其大小和规模,组织可以处置大量数据。该数据中的一些可能经历ETL(提取、加载和变换)过程以存储在计算机化的数据库管理系统(DBMS)中。结果得到的数据(在数据库中)形成结构化数据。此外,在组织中可以存在不具有预定义数据模型和/或不完好地符合关系表(像结构化数据那样)的数据。这种形式的数据被称为非结构化数据。为了清楚起见,可以在本文中使用以下定义。
“结构化数据”指代被组织在结构中的数据。它具有针对(一个或多个)预定数据类型的强制组成,其可以允许针对这些数据类型的查询和报告。关系数据库和电子表格是结构化数据的示例。
“非结构化数据”指代不是“结构化数据”的数据。该术语包括以非结构化格式存储的任何数据。非结构化数据不具有可辨识的结构,并且不存在概念上的数据或数据类型。示例可以包括以其原始格式存在的电子邮件、图像、音频文件、视频等。
在示例中,非结构化数据可以通过ETL(提取、加载和变换)过程而被转换成结构化数据以存储在企业的计算机化的数据库管理系统(DBMS)中。ETL是涉及从数据源提取数据、将其变换成适合于操作需要并且将其加载到最终目标(例如数据库)中的过程。将非结构化数据转换成结构化数据(例如通过ETL过程)的过程的问题之一是:存在于非结构化数据中的大量信息可能在转换过程期间丢失。例如,让我们假定关于国家人口的报告包含像过去五十年的每年人口数据、男性数量、女性数量、十岁以下儿童数量。六十岁以上人群数量等的详情。现在让我们考虑要在仅具有用于捕获针对每十年的数据的字段且此外不具有用于捕获涉及六十岁以上人群数量的数据的字段的结构化数据库表中捕获前述详情。可以容易地设想到,这样的数据转换可能导致可对企业而言有价值的大量信息的丢失。例如,在后续的日期处,或者作为一些不相关运算的一部分,如果用户需要关于每年人口的数据,则该数据将不可用,因为它在变换期间未被捕获,即便非结构化数据包含了所要求的信息。就关于六十岁以上人群数量的数据的不可用性而言,将面临类似的问题。
不难认识到,从企业的角度来看,前述场景是不理想的,其可能以潜在地丢失有价值的信息告终,即便它以非结构化格式可用。
所提出的是允许一起查询结构化和非结构化数据库的解决方案。在示例中,从这两个数据库(结构化和非结构化)的查询获取的结果在向用户显示之前被组合。
图1是根据示例的系统的示意性框图。系统100包括用户计算机系统102、结构化数据库104和非结构化数据库106。计算机系统102可以通过网络连接到结构化数据库104和非结构化数据库106,该网络可以是有线的或无线的。该网络可以是诸如互联网之类的公用网络或者诸如内联网之类的专用网络。在一些实现中,系统100可以包括除图1中所示的系统之外的附加的用户计算机系统、结构化数据库和非结构化数据库。
用户计算机系统102可以是计算机服务器、台式计算机、笔记本计算机、平板计算机、移动电话、个人数字助理(PDA)等等。用户计算机系统102可以包括用于获取(一个或多个)查询的接口。前述接口可以是图形用户接口(GUI)。另外,查询可以是系统定义的或者从用户获取。在示例中,查询是结构化查询语言(SQL)查询。用户计算机系统102还可以包括非结构化数据处理模块108。非结构化数据处理模块108(以下详细描述)基于输入查询来处理非结构化数据。
结构化数据库104是保持结构化数据的数据库。例如,被组织在数据库管理系统(DBMS)内的数据可以构成结构化数据库104。在示例中,前述DBMS可以是关系数据库管理系统(RDBMS)。结构化数据库104可以使用多种数据库模型,诸如关系模型、层级或对象模型,以描述和存储数据。而且,结构化数据库104可以支持高级查询语言,诸如结构化查询语言(SQL)。
非结构化数据库106是保持非结构化数据的数据库。非结构化数据库106可以是诸如网页、公司手册、白皮书、年度报告、电子邮件、文本、图像、视频或不是结构化数据的其它数据之类的非结构化数据的储存库。
在实现中,结构化数据库104和非结构化数据库106被托管在不同的计算机系统上。然而,在另一实现中,结构化数据库104和非结构化数据库106可以存在于单个主机计算机系统上。在又一实现中,结构化数据库104和非结构化数据库106可以存在于用户计算机系统102上。
图2是根据示例的图1的非结构化数据处理模块的示意性框图。
非结构化数据处理模块108包括筛选器模块202、归纳器模块204、分类器模块206、特征提取器模块208、概念和关系提取器模块210和知识提取器模块212。
筛选器模块202允许根据所采用的筛选器的类型而非结构化数据的筛选。例如,筛选器模块202可以在非结构化数据上应用内容特定筛选。在另一示例中,可以在非结构化数据上使用上下文特定筛选器。在实现中,多个筛选器模块202可以用于处理非结构化数据。这些筛选器模块可以被布置在序列中以获取期望的结果。
归纳器模块204用于归纳非结构化数据。归纳器模块204可以采用分析方法、统计方法、信息检索方法等或其任何组合来归纳非结构化数据。归纳可以导致平坦归纳(flat summary)、结构化归纳、分布式平坦归纳等。在示例中,归纳可以导致非结构化数据的词语计数或行计数。
分类器模块206基于预定义的集合将非结构化数据自动分类到不同类别中。分类器模块206可以基于所要求的模型来对数据分类。例如,面向对象的模型或实体关系(ER)模型。数据的分类可以是平坦的或层级的,并且,存在可以用于该目的的许多算法。这些算法的一些非限制性示例可以包括页面等级算法、贝叶斯算法和基于概念向量(CVB)算法。机器学习、概率方法和编索引可以被分类器模块206用于对非结构化数据分类。
特征提取208模块分析非结构化数据以在无约束的自然语言文本中识别和分类词汇项目。该模块将非结构化文档变换成被称为特征或项的文本的小单元。作为非限制性示例,以下特征可以被从非结构化数据流辨识和提取:名称、多词项、缩写、关系、百分比、单位、文本数等。在实现中,在特征被提取之后,向特征分配规范名从而使在未来步骤中合并该数据的过程容易。
概念和关系提取模块210从非结构化数据提取概念和关系。可以使用多种方法来提取概念。概念提取的一些非限制性技术可以包括谱分析、期望最大化(EM)技术、形式概念分析(FCA)、双聚类、三聚类、概念图等。关系提取涉及两个或更多个概念之间的关系的辨识。提供简单的示例,位于“位置”中的“人”(提取自句子“Jack在德国。”)。为了提供另一示例,让我们考虑文档中的以下信息:“印度的识字率提升至74%:人口普查。在过去的10年中,女性识字率从2001年的53.67%提升至2011年的65.46%;男性识字率从75.26%提升至82.14%”。在该示例中,可以辨识出许多特征,诸如男性、女性、识字、人口普查、印度、百分比、10年(十年)等。该数据中的概念可以是“识字增长”。并且,可辨识的关系可以包括:(a)国家、年份和识字;(b)国家、年份和男性识字;以及(c)国家、年份和女性识字。
知识提取模块212用于从非结构化数据创建知识。知识提取模块212用于基于输入数据的逻辑内容来得出推论。该模块可以采用诸如但不限于本体学习(OL)、基于本体的信息提取(OBIE)、传统信息提取(TIE)等的技术来从非结构化数据提取知识。其用于例如辨识非结构化数据中的趋势、对象(例如人、地点、组织、事物等)之间的关系等。其还可以用于提取元数据。
前述模块可以被布置在序列中,使得来自一个模块的输出可以充当另一模块的输入。另外,这些模块的布置的顺序可以在不同实现之间变化。例如,在一个实现中,这些模块可以被布置在以下序列中,使得在系列中来自前一模块的输出充当下一模块的输入:筛选器模块202、归纳器模块204、分类器模块206、特征提取器模块208、概念和关系提取器模块210和知识模块212。在另一实现中,序列可以如下:归纳器模块204、筛选器模块202、特征提取器模块208、分类器模块206、概念和关系提取器模块210和知识模块212。同样地,可以存在这些模块的其它布置。在另一实现中,任何前述模块可以被组合在一起,并且其功能可以由组合后的模块执行。
图3示出根据示例的查询结构化和非结构化数据库的方法的流程图。
在块302处,通过计算设备的处理单元接收查询。在实现中,从可使用图形用户接口提供查询的计算设备的用户接收查询。在另一实现中,查询可以是由计算设备自身或由通过网络耦合到前述计算设备的另一设备生成的系统生成查询。在示例中,查询是文本查询。然而,在其它实现中,可以使用其它类型的查询(诸如,具有例如图像的文本)。在实现中,查询的格式可以属于结构化数据库可理解的类型。例如,它可以是结构化查询语言(SQL)查询。
在块304处,基于所接收到的查询来查询结构化数据库和非结构化数据库。在实现中,一起查询结构化数据库和非结构化数据库。换言之,既与结构化数据库又与非结构化数据库共享查询。为了提供说明,让我们假定查询是“人口,中国,2010年”。在该情况中,查询“人口,中国,2010年”将被传递到结构化数据库和非结构化数据库二者。在实现中,可以实施结构化和非结构化数据库的同时查询。在该情况中,与这两种类型的数据库实时共享查询。另外,在一些实现中,可以基于所接收到的查询来查询多个结构化数据库和/或非结构化数据库。
查询非结构化数据库可以包括许多阶段。这些在本文档中稍后参考图4加以描述。
在块306处,通过结构化数据库和非结构化数据库处理查询。在非结构化数据库的情况中,查询的处理由非结构化数据处理模块108执行,非结构化数据处理模块108可以存在于计算设备或通过网络耦合到计算设备的另一设备上。在本文档中稍后参考图4来描述非结构化数据处理模块108中查询的处理。
在块308处,从结构化数据库以及非结构化数据库检索查询结果。为了在前述查询“人口,中国,2010年”的上下文中说明,结构化数据库可以给出结果13亿,并且非结构化数据库可以提供更加具体的结果,诸如13.4亿。还可能的是,结构化数据库可能不提供任何结果,因为相关数据可能不可用。
在块310处,将从结构化数据库和非结构化数据库获取的查询结果聚合在一起。在查询“人口,中国,2010年”的上下文中,将从结构化数据库获取的结果(“13亿”)和从非结构化数据库获取的结果(“13.4亿”)集中。如果结构化数据库不提供任何结果(例如,由于缺少数据),则考虑来自非结构化数据库的结果。在示例中,例如在显示单元上向用户呈现经聚合的结果。
图4示出根据示例的图3的方法的子例程的流程图。如之前提到的,意在针对非结构化数据库的查询由处理非结构化数据的非结构化数据处理模块108处理。查询非结构化数据库可以包括许多阶段。
在块402处,在意在针对非结构化数据库的查询的情况中,从查询辨识主键。主键是查询的关键词。它们可以包括名称、多词项、缩写、数字等。例如,如果查询是“在2010年中国的人口是多少?”,则主键可以是“人口”、“中国”和“2010年”。提供另一示例,如果查询是“HP的雇员数量是多少?”,则主键可以是“数量”、“雇员”和“HP”。前述主键仅仅出于说明的目的,并且,可以辨识不同的主键(或主键的不同组合)。
在块404处,辨识主键之间的(一个或多个)关系。关系表示主键之间的似合理的关联。提供一示例,如果查询是“HP的雇员数量是多少?”,并且所辨识的主键是“数量”、“雇员”和“HP”,则关系可以是“雇员的数量”和/或“HP的雇员”。
在块406处,基于主键和/或在主键之间辨识的关系查询(一个或多个)非结构化数据库。在实现中,主键和/或在主键之间辨识的关系由查询处理模块108处理。查询处理模块108基于主键和/或在主键之间辨识的关系来处理(解析)非结构化数据库。例如,查询处理模块108可以在非结构化数据库上应用以下模块中的任一个或全部以获取最相关的结果:筛选器模块202、归纳器模块204、分类器模块206、特征提取器模块208、概念和关系提取器模块210、和知识提取器模块212。前述模块可以被应用有序列,使得在系列中来自前一模块的输出充当后一模块的输入。例如,在实现中,序列可以是:筛选器模块202、归纳器模块204、分类器模块206、特征提取器模块208、概念和关系提取器模块210、和知识模块212。在其它实现中,这些模块的布置顺序可以变化。另外,在又一实现中,任何前述模块可以被组合在一起,并且它们的功能可以由(一个或多个)组合后的模块执行。
图5是根据示例的在计算机系统上托管的非结构化数据处理模块的示意性框图。
计算机系统502可以包括处理器504、存储器506、非结构化数据处理模块108和通信接口510。非结构化数据处理模块108包括筛选器模块202、归纳器模块204、分类器模块206、特征提取器模块208、概念和关系提取器模块210、和知识提取器模块212。计算系统502的组件可以通过系统总线512耦合在一起。
处理器504可以包括解释和施行指令的任何类型的处理器、微处理器或处理逻辑。
存储器506可以包括随机存取存储器(RAM)或另一类型的动态储存设备,其可以非暂时性地存储信息和指令以供处理器504施行。例如,存储器506可以是SDRAM(同步DRAM)、DDR(双数据速率SDRAM)、Rambus DRAM(RDRAM)、Rambus RAM等或储存存储器介质,诸如软盘、硬盘、CD-ROM、DVD、随身碟等。存储器506可以包括当由处理器504施行时实现非结构化数据处理模块108的指令。
通信接口510可以包括任何收发器型机构,其使得计算设备502能够经由通信链路与其它设备和/或系统通信。通信接口510可以是软件程序、硬件、固件或其任何组合。通信接口510可以使用多种通信技术来实现计算机系统502与另一计算机系统或设备之间的通信。提供几个非限制性示例,通信接口510可以是以太网卡、调制解调器、综合服务数字网络(“ISDN”)卡等。
非结构化数据处理模块108可以以包括计算机可执行指令(诸如程序代码)的计算机程序产品的形式实现,所述计算机可执行指令可以结合诸如Microsoft Windows、Linux或UNIX操作系统之类的合适操作系统而被运行在任何合适计算环境上。本解决方案的范围内的实施例还可以包括程序产品,其包括用于承载或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。这样的计算机可读介质可以是能够被通用或专用计算机访问的任何可用介质。作为示例,这样的计算机可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM、磁盘储存或其它存储设备、或者可以用于以计算机可执行指令的形式承载或存储期望程序代码且可以被通用或专用计算机访问的任何其它介质。
在实现中,可以将非结构化数据处理模块108从另一计算机可读介质(诸如数据储存设备)或经由通信接口510从另一设备读取到存储器506中。
为了清楚起见,如在本文档中使用的术语“模块”可以意指包括软件组件、硬件组件或其组合。模块可以包括,作为示例,诸如软件组件之类的组件、过程、任务、协同例程、功能、属性、程序、驱动器、固件、数据、数据库、数据结构、专用集成电路(ASIC)和其它计算设备。模块可以驻留在易失性或非易失性储存介质上并被配置成与计算机系统的处理器交互。
将领会到,图5中描绘的系统组件仅仅出于说明的目的,并且实际组件可以根据针对本解决方案的实现而部署的计算系统和架构而变化。以上描述的各种组件可以被托管在单个计算系统或通过合适装置连接在一起的多个计算机系统(包括服务器)上。
应当指出的是,本解决方案的上述实施例仅仅出于说明的目的。尽管已经结合其特定实施例描述了解决方案,但是在不实质上脱离于本文所描述的主题的教导和优点的情况下,众多修改是可能的。在不脱离于本解决方案的精神的情况下,可以做出其它替换、修改和改变。

Claims (15)

1.一种查询结构化和非结构化数据库的方法,包括:
接收查询;
响应于查询而一起查询结构化数据库和非结构化数据库,其中查询非结构化数据库包括:
从查询辨识主键;
辨识主键之间的关系;以及
基于主键之间的关系查询非结构化数据库。
2.权利要求1的方法,还包括:
从结构化数据库和非结构化数据库检索查询结果;以及
聚合从结构化数据库和非结构化数据库检索的查询结果。
3.权利要求1的方法,还包括:
基于主键之间的关系处理非结构化数据库中的非结构化数据,其中该处理包括在非结构化数据上执行一个或多个动作。
4.权利要求3的方法,其中所述动作包括筛选非结构化数据。
5.权利要求3的方法,其中所述动作包括归纳非结构化数据。
6.权利要求3的方法,其中所述动作包括对非结构化数据分类。
7.权利要求3的方法,其中所述动作包括在非结构化数据上执行特征提取。
8.权利要求3的方法,其中所述动作包括从非结构化数据提取概念和关系。
9.权利要求3的方法,其中所述动作包括从非结构化数据提取知识。
10.一种计算系统,包括:
处理器;
耦合到处理器的非暂时性存储器,该存储器包括机器可读指令,所述机器可读指令在被处理器施行时使处理器:
接收查询;
响应于查询而一起查询结构化数据库和非结构化数据库,其中查询非结构化数据库包括:
从查询辨识主键;
辨识主键之间的关系;以及
基于主键之间的关系查询非结构化数据库。
11.权利要求10的系统,还包括:
聚合来自结构化数据库和非结构化数据库的查询结果;以及
显示经聚合的查询结果。
12.权利要求10的系统,还包括:
基于主键之间的关系处理非结构化数据库中的非结构化数据,其中该处理包括在非结构化数据上执行一个或多个动作。
13.权利要求12的系统,其中所述多个动作是在预定义的序列中执行的。
14.权利要求10的系统,其中结构化数据库和非结构化数据库是独立的。
15.一种非暂时性处理器可读介质,所述非暂时性处理器可读介质包括机器可执行指令,所述机器可执行指令在被处理器施行时使处理器:
接收查询;
响应于查询而一起查询结构化数据库和非结构化数据库,其中查询非结构化数据库包括:
从查询辨识主键;
辨识主键之间的关系;以及
基于主键之间的关系查询非结构化数据库。
CN201280075523.1A 2012-08-29 2012-08-29 查询结构化和非结构化数据库 Pending CN104541267A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IN2012/000572 WO2014033724A1 (en) 2012-08-29 2012-08-29 Querying structured and unstructured databases

Publications (1)

Publication Number Publication Date
CN104541267A true CN104541267A (zh) 2015-04-22

Family

ID=50182613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280075523.1A Pending CN104541267A (zh) 2012-08-29 2012-08-29 查询结构化和非结构化数据库

Country Status (4)

Country Link
US (1) US20150261837A1 (zh)
EP (1) EP2891077A4 (zh)
CN (1) CN104541267A (zh)
WO (1) WO2014033724A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016153464A1 (en) * 2015-03-20 2016-09-29 Hewlett Packard Enterprise Development Lp Analysis of information in a combination of a structured database and an unstructured database
US10614063B2 (en) 2015-10-01 2020-04-07 Microsoft Technology Licensing, Llc. Streaming records from parallel batched database access
KR20170126344A (ko) 2016-05-09 2017-11-17 엘에스산전 주식회사 로컬 모니터링 데이터 관리 장치
US10248702B2 (en) 2016-07-29 2019-04-02 International Business Machines Corporation Integration management for structured and unstructured data
US10621497B2 (en) * 2016-08-19 2020-04-14 International Business Machines Corporation Iterative and targeted feature selection
CN110688433B (zh) * 2019-12-10 2020-04-21 银联数据服务有限公司 一种基于路径的特征生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980976B2 (en) * 2001-08-13 2005-12-27 Oracle International Corp. Combined database index of unstructured and structured columns
CN1987853A (zh) * 2005-12-23 2007-06-27 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN101894143A (zh) * 2010-06-28 2010-11-24 北京用友政务软件有限公司 一种联邦检索及检索结果集成展现方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1303603B1 (it) * 1998-12-16 2000-11-14 Giovanni Sacco Procedimento a tassonomia dinamica per il reperimento di informazionisu grandi banche dati eterogenee.
US20060074881A1 (en) * 2004-10-02 2006-04-06 Adventnet, Inc. Structure independent searching in disparate databases
US20070203893A1 (en) * 2006-02-27 2007-08-30 Business Objects, S.A. Apparatus and method for federated querying of unstructured data
US8019326B2 (en) * 2006-11-30 2011-09-13 Motorola Mobility, Inc. System and method for adaptive contextual communications
US8046353B2 (en) * 2007-11-02 2011-10-25 Citrix Online Llc Method and apparatus for searching a hierarchical database and an unstructured database with a single search query
US7949654B2 (en) * 2008-03-31 2011-05-24 International Business Machines Corporation Supporting unified querying over autonomous unstructured and structured databases
US8775418B2 (en) * 2011-07-18 2014-07-08 Roger J. Poon Method for social search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980976B2 (en) * 2001-08-13 2005-12-27 Oracle International Corp. Combined database index of unstructured and structured columns
CN1987853A (zh) * 2005-12-23 2007-06-27 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN101894143A (zh) * 2010-06-28 2010-11-24 北京用友政务软件有限公司 一种联邦检索及检索结果集成展现方法及系统

Also Published As

Publication number Publication date
WO2014033724A1 (en) 2014-03-06
EP2891077A4 (en) 2016-04-13
EP2891077A1 (en) 2015-07-08
US20150261837A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
CN106649890B (zh) 数据存储方法和装置
US10268703B1 (en) System and method for associating images with semantic entities
US9256668B2 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US20170161375A1 (en) Clustering documents based on textual content
US8788503B1 (en) Content identification
US10713306B2 (en) Content pattern based automatic document classification
US20100114899A1 (en) Method and system for business intelligence analytics on unstructured data
WO2016004813A1 (zh) 数据存储方法、查询方法及设备
CN110532309B (zh) 一种高校图书馆用户画像系统的生成方法
WO2019196226A1 (zh) 制度信息查询方法、装置、计算机设备和存储介质
CN104541267A (zh) 查询结构化和非结构化数据库
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
US9558271B1 (en) Ontology development for profile matching
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
Zaharieva et al. Automated social event detection in large photo collections
US9275125B1 (en) System for organizing data from a plurality of users to create individual user profiles
Rahnama Distributed real-time sentiment analysis for big data social streams
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN113779349A (zh) 数据检索系统、装置、电子设备和可读存储介质
CN112507170A (zh) 基于智能决策的数据资产目录构建方法、及其相关设备
CN111090760A (zh) 数据存储方法和装置、计算机可读存储介质、电子设备
US20240211513A1 (en) Systems and methods for xbrl tag outlier detection
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
US10191976B2 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
CN106874498B (zh) 一种金融数据的存取方法及存取装置

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170122

Address after: American Texas

Applicant after: HEWLETT PACKARD ENTERPRISE DEVELOPMENT LP

Address before: American Texas

Applicant before: Hewlett-Packard Development Company, L.P.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150422