CN110383263B - 从多个数据语料库中创建认知智能查询 - Google Patents

从多个数据语料库中创建认知智能查询 Download PDF

Info

Publication number
CN110383263B
CN110383263B CN201780087874.7A CN201780087874A CN110383263B CN 110383263 B CN110383263 B CN 110383263B CN 201780087874 A CN201780087874 A CN 201780087874A CN 110383263 B CN110383263 B CN 110383263B
Authority
CN
China
Prior art keywords
word vectors
relational database
text
trained
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780087874.7A
Other languages
English (en)
Other versions
CN110383263A (zh
Inventor
R·博达维卡
O·什穆里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110383263A publication Critical patent/CN110383263A/zh
Application granted granted Critical
Publication of CN110383263B publication Critical patent/CN110383263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

计算机实现的方法,认知智能系统和计算机程序产品适配包含多种数据类型的关系数据库。关系数据库中的非文本令牌被转换为文本形式。基于关系数据库中的令牌关系生成文本。从外部数据库检索用于文本的预训练的字向量集。对于关系数据库和外部数据库二者共用的令牌,初始化预训练的字向量集。预训练的向量集用于创建表示为结构查询语言(SQL)查询的认知智能查询。关系数据库的内容用于训练,同时初始化用于关系数据库和外部数据库共有的令牌的预训练字向量集。第一字向量集可以是不可变的或可变的,其中经由参数控制更新。

Description

从多个数据语料库中创建认知智能查询
技术领域
本发明一般涉及搜索查询,并且更具体地涉及从多个数据语料库创建字向量以在数据库的搜索查询中使用。
背景技术
关系数据库中保持着大量潜在信息。例如,包含不同数据类型的数据库列(例如,数值、图像、日期等)以列间和列内关系的形式拥有重要的潜在信息。此外,关系数据模型忽略了许多列间或列内关系。此外,传统的结构化查询语言(SQL)查询缺乏底层关系的整体视图,因此无法提取和利用由数据库关系共同生成的语义关系。
发明内容
在各种实施例中,公开了一种认知智能系统、计算机程序产品和用于适配包含多种数据类型的关系数据库的计算机实现的方法。本发明的计算机实现的方法实施例包括:将关系数据库中的非文本令牌转换为文本形式,基于关系数据库中的令牌关系生成文本,基于文本检索预训练的字向量集,初始化用于关系数据库和外部数据库两者共用的令牌的预训练字向量集,以及使用预训练的向量集以创建表达为结构化查询语言(SQL)查询的认知智能查询。
附图说明
附图中,相同的附图标记在各个视图中指代相同或功能相似的元件,并且与下面的详细描述一起被并入并形成说明书的一部分,用于进一步说明各种实施例并解释根据本发明的各种原理和优点,其中:
图1是示出根据本发明的实施例的操作环境的一个示例的框图。
图2描绘了根据本发明的实施例的示例性过程;
图3描绘了根据本发明的实施例的图2的过程的示例状态。
图4描绘了根据本发明实施例的使用第一关系视图的示例客户分析查询。
图5描绘了根据本发明实施例的使用第二关系视图的另一示例客户分析查询。
图6描绘了根据本发明实施例的SQL认知智能(CI)查询示例;和
图7描绘了根据本发明的实施例的示例CI关系系统。
具体实施方式
本发明的一些实施例使用认知学习促进对关系数据库中的查询的响应。例如,一些计算机实现的方法实施例使得关系数据库能够使用标准SQL查询和一类新的基于SQL的查询来捕获和利用语义上下文相似性:认知智能(CI)查询。
作为概述,对于给定的关系数据库,例如包含关于特定公司的雇员的信息的数据库,典型的SQL查询仅在查询匹配时才返回结果。例如,如果查询想要雇员A的信息,例如工资,职位等,则只有在有雇员A时才返回答案。但是,根据本发明,使用CI查询,答案可能是通过检查数据库中嵌入的每个字的关系返回。对于传统的SQL用途,诸如名称、年龄、性别、标题等属性是独立的,查询不会利用此信息。
本发明的一些实施例使用字嵌入,其是来自自然语言处理(NLP)的无监督机器学习技术,以提取潜在信息。所公开的技术还可以适用于其他数据模型,例如多维在线分析处理(MOLAP)、JavaScript对象表示法(JSON)、可扩展标记语言(XML)、逗号分隔值(CSV)文件、电子表格等。
在字嵌入中,d维向量空间是固定的。文本语料库中的每个字(例如,文档集合)与实数的维度d向量相关联。对向量的字分配应该使得向量编码字的含义。理想情况下,如果两个字密切相关(即具有相似的含义),则它们的向量应指向相似的方向。换句话说,它们的向量之间的余弦距离应该相对较高。通过密切相关的字,我们指的是经常在文本语料库中出现的字。通过一起出现,我们指的是在很近的接近度内。相反,如果字不相关,则它们的向量之间的余弦距离应该相对较小。对亲密度计算的一些改进权衡了接近度(proximity)和/或考虑语法规则。
在过去的几十年中,已经引入了许多方法来计算自然语言中的字的向量表示,例如word2vec或GloVe。最近,Word2vec由于所生成的向量似乎捕获了单词的句法和语义属性而变得突出起来。这些向量表示似乎捕获了字和句法的紧密性(closeness)(例如,现在-过去,单数-复数)以及字的语义紧密性。word2vec生成的向量的一个应用是解决类比问题,例如.....通过使用向量代数计算,国王对男人就像什么对女人一样?(答案:女王)。
可以通过学习数据库本身或使用外部文本或向量源来产生向量。在关系数据库上下文中,生成向量的一种方式是将字嵌入方法应用于从数据库生成的令牌(token)序列:每行对应于一个句子,关系对应于文档。因此,向量启用数据的双重视图:关系文本和(有意义的)文本。然后,字嵌入可以根据字关联和共现来提取潜在的语义信息,并在字向量中对其进行编码。因此,向量捕获行(句子)内的第一个属性间和属性内关系,然后在文档中聚合这些关系以计算集体语义关系。然后,编码的语义信息可以用于查询数据库。本发明的一些实施例将字嵌入技术和能力集成到传统数据库系统中。
图1是示出根据本发明实施例的操作环境100的一个示例的框图。根据本发明的实施例,操作环境100作为认知数据管理系统操作,以适配包含多种数据类型的关系数据库106,以用于认知智能查询。如图所示,结构化查询系统中的认知智能查询102使用机器学习模型104来回答与结构化数据源106(例如在关系表中)有关的结构化查询语言(SQL)查询。对查询的响应作为结构化结果108返回,结构化结果108也可以是关系表的形式。机器学习模型104可以从被查询的源(即结构化数据源106)、从预训练的外部数据源110(例如WIKIPEDIATM)或从106的文本语料库和来自外部源的文本构建。
将参考图2描述用于利用由字向量启用的认知能力来增强系统100的示例性步骤,其将参考图3中示出的过程的示例状态进一步描述。
图2描绘了根据本发明的一个实施例的示例性过程。图3,下面将更详细描述,描绘了图2的过程的示例状态。
通过(仅)对以下示例的介绍和概述,假设关系数据库的字段填充有例如与公司的雇员有关的信息(参见例如图3,302),并且每个字段的令牌或内容通过放置数据库的行和列来关联。令牌可以是字符串、字符串的集合或序列、数值、图像或图像集(例如,视频)、时间序列或其他SQL类型,例如日期、纬度和经度等。进一步假设(仅出于此示例的目的),非标题行包含适用于特定雇员的信息,而每列包含每个雇员的相同类型的信息(参见例如图3,302,雇员编号(empNum)、名字(firstName)、姓氏(lastName)等)。
现在参考图2,在步骤202,从数据库关系中产生/提取有意义的数据。关系数据库中的相关信息可以通过使用传统的Select、Project和Join运算符生成的基础关系的视图来确定。数据库视图可用于从数据库令牌生成有意义的文本。
可以通过使用标准关系运算定义视图来控制哪些行或列被文本化(textified)(即,制成令牌序列)。字的含义(即令牌)可以通过其邻居来推断。邻域背景有助于该字的整体含义。可以从行中的其他令牌确定数据库令牌的含义、行的列又可以由其视图的模式确定。
例如,可以提取有意义的数据并通过映射(例如,将关系行转换为句子)来创建模型(参见图3,302、304)。可以定义其他视图,使得并非数据库中的所有令牌出现都用于构建模型。有意义的文本模型的一个目标是捕获列之间和列内的令牌(字,项)之间的关系。
在步骤204,机器学习用于产生文本中所有字(令牌,项)的字向量。例如,算法可以计算有意义文本中所有字(可选地排除标题字)的字向量表示。在一些实施例中,外部源(或语料库)也可用于模型训练(参见例如图3,306)。所得到的一组低维(例如,维=200)字的语义表示,或“字向量,”可以各自代表一个字(令牌)。尽管在该示例中,“字”用作“令牌”的同义词,但并非每个令牌都可以是自然语言意义上的有效字。令牌可以是字符串、字符串的集合或序列、数值、图像或图像集(例如,视频)、时间序列或其他SQL类型(例如日期,纬度和经度等)。字向量从关系表或数据库捕获潜在的属性内/属性间关系,并提供多模态关系数据的统一表示,并提供多模态关系数据的统一表示。基于距离度量(例如,余弦距离),如果它们的字向量在向量空间中接近,则可以认为两个字在语义上相似(即具有相似的含义)。
在步骤206,存储字向量以在查询中使用。在一些实施例中,字向量包括有意义文本中的每个令牌的向量。在步骤208,可以可选地单独使用或者与数据库文本化文本结合使用从其他文本源产生的向量(参见例如步骤204和图3,306)。
在步骤210,使用认知智能(CI)查询以产生数据库关系结果。在一些实施例中,可以使用标准SQL来表达CI查询。一些实施例使用向量空间中的字向量作为用户定义的函数(UDF)来启用CI查询。完成步骤210后,该过程退出。
图3描绘了根据本发明实施例的图2的过程的示例状态。如图所示,关系数据库302中的令牌被转换为有意义的文本句子304。例如,关系数据库302的第一(非标题)行可以被转换为“雇员编号119名字John姓氏Smith薪水95部门多媒体工作描述'经理、多媒体、娱乐'评估'良好的人际交往能力,不准时,需要改进'”。然后使用机器学习204将有意义的文本句子304以及任何可选的外部语料库306转换为字向量308。所得到的字向量308,例如向量_John(0,...,199),向量_多媒体(0,...,199)等等,由针对关系数据库310的扩充SQL查询210使用,并提供先前使用传统SQL查询无法获得的增强结果。在一些实施例中,增强的SQL查询210可以反映例如来自外部数据库的预先计算的向量208的一个或多个集合。
图4描绘了根据本发明实施例的使用第一关系视图的示例客户分析查询。图5描绘了根据本发明实施例的使用第二关系视图的另一示例客户分析查询。
现在参考图4和5,提供了示例,其中关系数据库402提供关于零售商店中的顾客购买的信息。在图4中,该视图产生包含数据库402中所有非标题令牌出现的文本。因此,为每个令牌创建向量。识别类似客户的查询将检查每个客户的字向量(即顾客A、顾客B、顾客C、顾客D)。因此,对于顾客D,相关行(元组)404将是“顾客D 9/16沃尔玛NY文具'蜡笔,文件夹'25”。在向量空间中,顾客D的字向量更像是顾客B的字向量,因为它们都购买了文具,包括蜡笔。同样,顾客A的字向量更像是顾客C的字向量,因为它们都购买了包括香蕉在内的新鲜农产品。
在图5中,视图已经改变,使得模型仅使用用于“顾客ID、日期、地址和数量”的令牌。顾客D的行(元组)502已经改变为“顾客D 9/16NY 25”。现在,在从该视图中文本化的文本上生成字向量。在这种情况下,用于识别类似客户的查询将确定顾客A更类似于顾客D,因为他们都在9月16日在纽约购买了相似数量的商品。同样,顾客B现在与顾客C更相似,因为他们都在10月16日购买了类似数量的商品。因此,应该注意,取决于所使用的视图或模型,可以针对相同查询返回不同的结果。
支持多种数据类型
除了文本和基本数值之外,SQL类型(例如,日期)和其他非SQL类型(例如图像、视频、时间序列、纬度和经度、化学结构等)支持CI查询。
对于实际的查询执行策略,存在两种方法:单个模型和整体。在单一模型方法中,多种数据类型被转换为文本,并且从所有令牌生成单个字嵌入模型。对于集合方法,不止一种嵌入模型或聚类策略(下面讨论)用于不同的数据类型(例如,纬度/经度、图像或时间序列)。可以使用默认聚类方法或用户提供的相似性函数。计算每个模型或聚类组的结果,并通过合并多个结果集计算最终结果。通过查找表示每个群集组的结果的行集之间的交集来合并最终结果。默认的聚类方法可以使用传统的聚类算法,例如K-Means。或者,可以使用用于特殊类型的专用相似性函数,例如使用空间相似性函数用于纬度和经度字段。
支持数字值
为数字令牌提供有意义的文本有三种方法。首先,可以简单地将数字转换为“column heading_number(列标题_数字)”形式的类型化字符串。例如,在年度日期的列中,2016年变为“Year_2016”。从这一点开始,该过程如上所述继续,以将关系数据库信息转换为有意义的文本。
第二种方法使用用户控制的分类。例如,将数值转换为范围,例如低、中或高。用户定义范围中的值。使用范围创建新标记,使列中的数值变为“column heading_range(列标题_范围)”形式的字符串。因此,在具有食品中巧克力百分比的数值的关系数据库中,75%变为“巧克力_高”,18%变为“巧克力_低”。
第三种方法使用用户控制的聚类。可以使用任何传统的聚类算法来聚类数据(例如,K均值,分层聚类等)。关系数据库的列中的每个数值都将替换为包含该数字的集群的ID。例如,在具有代表销售额的数字的关系数据库中,实际的美元金额被转换为集群ID并表示为“sales_clusterID(销售_集群ID)”。因此,实际令牌值5000可以表示为“sales_272(销售_272)”,其中272是包含5000的集群的集群ID。
支持图像
可以使用四种不同的方法将图像转换为文本:图像标记、图像分类、二进制比较或用户指定的相似性函数。每种方法可以与单个模型或集合查询执行策略一起使用,其中组合使用一个或多个方法。图像标记器(例如BABYTALKTM或ALCHEMY TAGGERTM)可用于将图像转换为标签。这些文本标签可用于生成嵌入模型。或者,可以使用神经网络分类模型将图像分类成集群。用相应的集群标识符替换图像,并使用集群信息构建嵌入模型。第三种方法是简单地比较二进制图像文件的相似性。在这种情况下,执行每个二进制图像的逐位比较,并使用二进制相似性度量来比较结果。最后,可以使用用户指定的相似性函数将图像转换为文本。现有方法,例如BABYTALKTM或ALCHEMY TAGGERTM,可用于将图像转换为文本。一旦图像被转换为文本,上述方法可用于开发CI查询。
从多个数据语料库创建字向量
可以以我们概述的至少四种方式利用外部产生的字向量(对于本领域技术人员而言,其他可能性将变得显而易见)。(1)可以在关系数据库内容上使用外部预训练向量,例如由Google新闻字向量集合产生的向量,而无需开发新模型。(2)或者,训练数据库内容,同时将共用令牌的向量初始化为外部源向量,即,在源数据库和外部数据库二者中都出现共用(common)令牌。共用的字向量可以是不可变的或可变的,其中更新通过参数控制,例如学习速率或最大变化。(3)另一种选择如下:给定k个不同的外部源,每个具有维度D(i),i=1,...,k,构成维度D=D(1)+...+D(k)的向量。第一个D(1)条目从第一个源的D(1)条目初始化,后面的D(2)条目从第二个源的D(2)条目初始化,依此类推,以便每个条目随后的第j部分用相应的第j个源初始化。可以对单个源的条目进行加权,例如,可以对较旧的信息给予较高的加权值,并且可以为较新的信息给出较低的加权值,因为较旧的信息可以被认为是更可靠的。(4)最后,可以使用第三种方式(3)产生的向量应用第二种方式(2)。
另外,可以加密数据库中的各个列,例如姓氏。也被加密的共用字被视为不同的字,从而提供与匿名化同时发生的更多信息。
相似性UDF
当比较两个向量集时,相似性UDF可用于输出标量相似度值。使用余弦和最大范数(max-norm)算法确定任何一对向量之间的相似性度量,然而,最大范数对各个向量条目的贡献敏感。可能需要精确的距离来对结果进行排名。计算一对向量与平均多个距离值之间的距离以确定总体相似度值。
由于在整体相似性计算期间保留或忽略字的相对顺序,因此顺序感知可能是一个问题。在某些情况下,顺序意识相似性很重要。另外,对于n个向量的成对距离计算的精确O(n^2)计算在计算上是昂贵的。在实践中,采样实现表现良好。但是,对于大型向量集,GPU或SIMD加速可能是必需的。对于大型数据集,LSH和精确计算的组合是必要的。
CI查询示例:世界食品事实数据库(World Food Facts Database)世界食品事实数据库(WFFD)是来自Kaggle的开源数据集。它存储来自不同国家的食品信息。WFFD富含文本和数字字段。它包含大约50MB的文本,超过65,000行和150列。列包含成分、类别、营养素等信息。
为了制备用于CI查询的WFFD,将营养物分成组(维生素、氨基酸等)。使用K-means将数值分组成集群,并使用200维度训练word2Vec模型。相似性查询在成分(文本)、营养素(文本)和国家(文本)上运行。使用了单模型和集合方法。WFFD中的数字字段如表1所示。
Figure BDA0002188748290000091
Figure BDA0002188748290000101
表1
用于查询WFFD的SQL CI查询示例在下面的图6中示出。SQL请求具有相似成分和相似营养素的相似国家中的项目。应当注意,传统的关系操作602用于国家和成分查询的值匹配和比较,而新的认知UDF 604(即proximityAvgMergedData)用于找到营养素之间的相似性。此外,应当注意,当值高于特定阈值时,可以使用proximityAvgMergedData UDF找到相似性,而当低于特定阈值时,发现不相似性。
表2中显示了在相似国家中具有相似成分和相似营养素的产品的结果。例如,来自Kellogg的Special K original相似于来自美国Market Pantry的Crisbread Flakes withRed Berries Cereal。
Figure BDA0002188748290000111
Figure BDA0002188748290000121
表2
表3中显示了在不同国家具有相似成分和相似营养素的产品的结果。例如,美国的Nutella-Ferrero相似于法国的Nutella-750g。
Figure BDA0002188748290000122
Figure BDA0002188748290000131
表3
认知智能查询用例
CI查询可以用在许多零售案例中,例如客户分析,以基于购买模式(例如,购买的项目、频率、花费的金额等)找到相似的客户。此外,CI查询可以用于基于特征的产品替换以建议类似于给定项目但在某些特征(例如成分、价格、营养价值等)上不同的替代项目,从而允许比传统的市场篮子推荐更智能的推荐。CI查询还可以用于使用外部数据的高级销售预测,以基于当前销售的相关或类似物品的销售来预测正在引入的新物品的销售。CI查询还可以用于使用外部数据分析历史销售数据,例如,使用来自社交媒体的输入、召回通知等。可以通过类比查询来执行语义关联以确定关系,例如“面包:坚果::薯条:?”答案可能是一个地区的“辣番茄酱”或不同地区的“鳄梨酱”。
CI查询可以用在许多零售案例中,例如客户分析,以基于购买模式(例如,购买的项目,频率,花费的金额等)找到类似的客户。此外,CI查询可以用于特征基于产品替代建议类似于给定项目的替代项目,但在某些特征上有所不同,例如成分,价格,营养价值等,允许比传统的市场篮子推荐更智能的推荐。CI查询还可以用于使用外部数据的高级销售预测,以基于当前销售的相关或类似物品的销售来预测正在引入的新物品的销售。CI查询还可以用于使用外部数据分析历史销售数据,例如,使用来自社交媒体的输入,召回通知等。可以通过类比查询来执行语义关联以确定关系,例如“面包:Nutella::chips:”答案可能是一个地区的“莎莎”或不同地区的“鳄梨酱”。
在医疗保健领域中,CI查询还可以用于各种应用中。例如,CI查询可以帮助使用来自联邦药品管理局(FDA)网站的处方标签信息(例如,成分、副作用等)来确定药物-药物相互作用以识别药物不良反应。还可以使用多模态CI查询来确定患者相似性分析。例如,可以鉴定服用类似药物的患者,其可能具有相似剂量的不同品牌名称(例如,ADVILTM、MOTRINTM)。此外,可以使用文本、数字和图像数据上的单个CI查询来识别具有不同扫描(例如X射线或磁共振成像(MRI)扫描),但具有相似的药物方案的患者。可以使用文本、数字和时间序列数据上的单个CI查询来识别具有不同心电图(ECG)但具有相似药物方案的患者。CI查询也可用于提供营养建议,例如给定食品项,找到具有相似成分但糖含量较低的替代食品。可以使用外部数据提供预测,例如,可以识别受影响的患者的召回通知或类似药物的购买。
CI查询还可以用在其他字段中,例如信息技术(IT)事故单分析,以查找具有类似票证模式的帐户(例如,票证类型、解决状态、问题原因等)。在金融部门(例如,消费者银行,投资顾问等)中,CI查询可用于查找具有相似交易的客户,识别针对给定投资策略的相似投资计划,或检测给定客户的交易中的异常。在保险业中,CI查询可用于使用文本和图像特征识别相似或不相似的索赔(claim),或通过分析患者简档(例如,症状、诊断等)来评估风险概况。对于物联网(IoT),CI查询可以帮助找到具有相似能量模式的家庭或旅馆房间。在人力资源(HR)管理中,CI查询可用于查找具有相似技能和相似或不同工作历史的雇员。CI查询还可以用于其他行业,例如客户服务、语义网、日志分析、智能城市等。这些仅是使用本发明的实施例的CI查询的许多用途中的一些。
认知智能服务器
现在参考图7,示出了可以在本发明的实施例中使用的信息处理系统700的框图。信息处理系统702基于适当配置的处理系统,该处理系统被配置为实现本发明的一个或多个实施例(例如,认知数据管理系统100)。任何适当配置的处理系统都可以用作本发明实施例中的信息处理系统702。信息处理系统702的组件可包括但不限于一个或多个处理器或处理单元704,系统存储器706和将包括系统存储器706的各种系统组件耦合到处理器704的总线708。
总线708表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
尽管未在图7中示出,主存储器706可以包括图1中所示的结构化数据源106、认知智能查询102、机器学习模型104和结构化结果108。这些组件中的一个或多个可以驻留在处理器704内,或者是单独的硬件组件。主存储器706还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)710和/或高速缓冲存储器712。信息处理系统702还可以包括其他可移动/不可移动,易失性/非易失性计算机系统存储介质。仅作为示例,可以提供存储系统714,用于读取和写入不可移动或可移动的非易失性介质,例如一个或多个固态盘和/或磁性介质(通常称为“硬盘驱动器”)。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线708相连。存储器706可以包括至少一个程序产品,该程序产品具有一组程序模块,这些程序模块被配置以执行本发明实施例的功能。
具有一组程序模块718的程序/实用工具716,可以存储在例如存储器706中,这样的程序模块718包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块718通常执行本发明的实施例中的功能和/或方法。
信息处理系统702也可以与一个或多个外部设备720(例如键盘、指向设备、显示器722等)通信,还可与一个或者多个使得用户能与该信息处理系统702交互的设备通信,和/或与使得该计算机系统/服务器702能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口724进行。并且,信息处理702还可以通过网络适配器726与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器726通过总线708与信息处理系统702的其它模块通信。,可以结合信息处理系统702使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统。尽管未示出,但是附加的图形处理单元(GPU)可以位于总线708中并且用作协处理器。
非限制性实施例
如本领域技术人员将理解的,本发明的各方面可以体现为系统,方法或计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)的形式或者组合软件和硬件方面的实施例,这些实施例本文通常可以被称为“电路”、“模块”或“系统”。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是--但不限于--电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
这里使用的术语仅用于描述特定实施例的目的,并不意图限制本发明。如这里所使用的,单数形式“一”,“一个”和“该”旨在也包括复数形式,除非上下文另有明确说明。将进一步理解,当在本说明书中使用时,术语“包括”和/或“包含”指定所述特征,整数,步骤,操作,元件和/或组件的存在,但不排除存在或者添加一个或多个其他特征,整数,步骤,操作,元素,组件和/或其组。
已经出于说明和描述的目的给出了对本发明的描述,但是并不旨在穷举或将本发明限于所公开的形式。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。选择和描述实施例是为了最好地解释本发明的原理和实际应用,并且使本领域普通技术人员能够理解本发明的各种实施例,其具有适合于预期的特定用途的各种修改。

Claims (20)

1.一种用于适配包含多种数据类型的关系数据库的计算机实现的方法,所述方法包括:
将关系数据库中的非文本令牌转换为文本形式;
基于关系数据库中的令牌关系生成文本;
检索预训练的字向量集;
初始化用于关系数据库和外部数据库两者共用的令牌的预训练字向量集;
使用预训练的向量集以创建表达为由用户定义的函数UDF增强的结构化查询语言SQL查询的认知智能查询;
其中,对于包含图像令牌的非文本令牌,通过在图像令牌上应用不同于在文本上应用的嵌入模型,基于文本产生字向量集。
2.如权利要求1所述的方法,还包括使用预训练的字向量集将认知智能查询应用于关系数据库。
3.如权利要求1所述的方法,还包括:在初始化用于关系数据库和外部数据库两者共用的令牌的预训练字向量集的同时,训练关系数据库的内容。
4.如权利要求1所述的方法,其中预训练字向量集是不可变的。
5.如权利要求1所述的方法,其中预训练字向量集是可变的,经由参数控制更新。
6.如权利要求1所述的方法,还包括:
基于来自多个外部数据库的文本检索多个初始字向量集,以形成预训练字向量集;以及
训练关系数据库的内容,同时初始化用于关系数据库和相应外部数据库两者共用的令牌的每个初始字向量集。
7.如权利要求6所述的方法,还包括将加权值应用于使用每个初始字向量集产生的查询结果。
8.如权利要求7所述的方法,其中使用每个初始字向量集产生的查询结果的加权值彼此不同。
9.如权利要求8所述的方法,其中加权值根据相应的初始字向量集的阶段而变化。
10.如权利要求1所述的方法,还包括:
将字向量集与预训练的字向量集合并,以形成综合的字向量集;以及
使用综合的字向量集将认知智能查询应用于关系数据库。
11.一种认知智能系统,包括:
存储计算机指令的存储器;
处理器,可操作地与存储器耦合,其中:
将关系数据库中的非文本令牌转换为文本形式;
基于关系数据库中的令牌关系生成文本;
检索预训练的字向量集;
初始化用于关系数据库和外部数据库两者共用的令牌的预训练字向量集;以及
使用预训练的向量集以创建表达为由用户定义的函数UDF增强的结构化查询语言SQL查询的认知智能查询;
其中,对于包含图像令牌的非文本令牌,通过在图像令牌上应用不同于在文本上应用的嵌入模型,基于文本产生字向量集。
12.如权利要求11所述的认知智能系统,其中,还包括:在初始化用于关系数据库和外部数据库两者共用的令牌的第一字向量集的同时,处理器还训练关系数据库的内容。
13.如权利要求11所述的认知智能系统,其中处理器进一步:
基于来自多个外部数据库的文本检索多个初始字向量集,以形成预训练字向量集;以及
训练关系数据库的内容,同时初始化用于关系数据库和相应外部数据库两者共用的令牌的每个初始字向量集。
14.如权利要求13所述的认知智能系统,其中处理器还将加权值应用于使用每个初始字向量集产生的查询结果。
15.如权利要求14所述的认知智能系统,其中使用每个初始字向量集产生的查询结果的加权值彼此不同。
16.如权利要求14所述的认知智能系统,其中处理器进一步:
将字向量集与预训练的字向量集合并,以形成综合的字向量集;以及
使用综合的字向量集将认知智能查询应用于关系数据库。
17.一种用于适配包含多种数据类型的关系数据库计算机可读存储介质,其具有体现在其中的程序指令,所述程序指令可由处理电路执行以使处理电路:
将关系数据库中的非文本令牌转换为文本形式;
基于关系数据库中的令牌关系生成文本;
检索预训练的字向量集;
初始化用于关系数据库和外部数据库两者共用的令牌的预训练字向量集;以及
使用预训练的向量集以创建表达为由用户定义的函数UDF增强的结构化查询语言SQL查询的认知智能查询;
其中,对于包含图像令牌的非文本令牌,通过在图像令牌上应用不同于在文本上应用的嵌入模型,基于文本产生字向量集。
18.如权利要求17所述的计算机可读存储介质,还包括程序指令,所述程序指令使所述处理电路在初始化用于关系数据库和外部数据库两者共用的令牌的第一字向量集的同时,训练关系数据库的内容。
19.如权利要求17所述的计算机可读存储介质,还包括使处理器执行以下操作的程序指令:
对来自多个外部数据库的文本检索多个初始字向量集,以形成预训练字向量集;以及
训练关系数据库的内容,同时初始化用于关系数据库和相应外部数据库两者共用的令牌的每个初始字向量集。
20.如权利要求17所述的计算机可读存储介质,还包括使处理器执行以下操作的程序指令:
将字向量集与预训练的字向量集合并,以形成综合的字向量集;以及
使用综合的字向量集将认知智能查询应用于关系数据库。
CN201780087874.7A 2017-03-20 2017-12-12 从多个数据语料库中创建认知智能查询 Active CN110383263B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/463,053 2017-03-20
US15/463,053 US10984030B2 (en) 2017-03-20 2017-03-20 Creating cognitive intelligence queries from multiple data corpuses
PCT/IB2017/057817 WO2018172840A1 (en) 2017-03-20 2017-12-12 Creating cognitive intelligence queries from multiple data corpuses

Publications (2)

Publication Number Publication Date
CN110383263A CN110383263A (zh) 2019-10-25
CN110383263B true CN110383263B (zh) 2023-06-16

Family

ID=63519517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780087874.7A Active CN110383263B (zh) 2017-03-20 2017-12-12 从多个数据语料库中创建认知智能查询

Country Status (5)

Country Link
US (1) US10984030B2 (zh)
JP (1) JP6902106B2 (zh)
CN (1) CN110383263B (zh)
GB (1) GB2574359A (zh)
WO (1) WO2018172840A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817509B2 (en) * 2017-03-16 2020-10-27 Massachusetts Institute Of Technology System and method for semantic mapping of natural language input to database entries via convolutional neural networks
JP7204431B2 (ja) * 2018-11-08 2023-01-16 株式会社野村総合研究所 単語ベクトルリスト生成装置
US11410031B2 (en) 2018-11-29 2022-08-09 International Business Machines Corporation Dynamic updating of a word embedding model
US10664527B1 (en) * 2019-01-18 2020-05-26 PolyAI Limited Response retrieval system and method
US11275769B2 (en) * 2019-03-28 2022-03-15 Ncr Corporation Data-driven classifier
US20210019296A1 (en) * 2019-07-19 2021-01-21 Surescripts, Llc System and method for data de-duplication and augmentation
CN110941717B (zh) * 2019-11-22 2023-08-11 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
US11762894B2 (en) * 2021-11-29 2023-09-19 International Business Machines Corporation Event management in computer system
CN116401336B (zh) * 2023-03-31 2024-03-29 华院计算技术(上海)股份有限公司 认知智能查询方法及装置、计算机可读存储介质、终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045852A (zh) * 2015-07-06 2015-11-11 华东师范大学 一种教学资源的全文搜索引擎系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548749A (en) 1993-10-29 1996-08-20 Wall Data Incorporated Semantic orbject modeling system for creating relational database schemas
US5657259A (en) 1994-01-21 1997-08-12 Object Technology Licensing Corp. Number formatting framework
CA2253744C (en) * 1998-11-10 2004-08-24 Joint Technology Corporation Indexing databases for efficient relational querying
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6507846B1 (en) * 1999-11-09 2003-01-14 Joint Technology Corporation Indexing databases for efficient relational querying
SG96597A1 (en) * 2000-02-17 2003-06-16 Ibm Archiving and retrieval method and apparatus
US6829606B2 (en) * 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US20040064449A1 (en) * 2002-07-18 2004-04-01 Ripley John R. Remote scoring and aggregating similarity search engine for use with relational databases
US8447743B2 (en) * 2004-08-17 2013-05-21 International Business Machines Corporation Techniques for processing database queries including user-defined functions
US8190555B2 (en) 2009-01-30 2012-05-29 Hewlett-Packard Development Company, L.P. Method and system for collecting and distributing user-created content within a data-warehouse-based computational system
US20140164036A1 (en) 2012-12-10 2014-06-12 Fluor Technologies Corporation Program Sentiment Analysis, Systems and Methods
US9268823B2 (en) 2013-05-10 2016-02-23 International Business Machines Corporation Partial match derivation using text analysis
US9405794B2 (en) 2013-07-17 2016-08-02 Thoughtspot, Inc. Information retrieval system
US20150026153A1 (en) 2013-07-17 2015-01-22 Thoughtspot, Inc. Search engine for information retrieval system
US9684709B2 (en) * 2013-12-14 2017-06-20 Microsoft Technology Licensing, Llc Building features and indexing for knowledge-based matching
US20150293946A1 (en) 2014-04-09 2015-10-15 City University Of Hong Kong Cross model datum access with semantic preservation for universal database
US9489598B2 (en) * 2014-08-26 2016-11-08 Qualcomm Incorporated Systems and methods for object classification, object detection and memory management
US20170309194A1 (en) * 2014-09-25 2017-10-26 Hewlett-Packard Development Company, L.P. Personalized learning based on functional summarization
US10380144B2 (en) * 2015-06-16 2019-08-13 Business Objects Software, Ltd. Business intelligence (BI) query and answering using full text search and keyword semantics
US9720905B2 (en) 2015-06-22 2017-08-01 International Business Machines Corporation Augmented text search with syntactic information
US20170053023A1 (en) * 2015-08-17 2017-02-23 Critical Informatics, Inc. System to organize search and display unstructured data
US9984116B2 (en) * 2015-08-28 2018-05-29 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
US20170060993A1 (en) * 2015-09-01 2017-03-02 Skytree, Inc. Creating a Training Data Set Based on Unlabeled Textual Data
US10896377B2 (en) 2015-09-10 2021-01-19 International Business Machines Corporation Categorizing concept terms for game-based training in cognitive computing systems
US10489393B1 (en) * 2016-03-30 2019-11-26 Amazon Technologies, Inc. Quasi-semantic question answering
US11461801B2 (en) * 2018-03-02 2022-10-04 Adobe Inc. Detecting and resolving semantic misalignments between digital messages and external digital content
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
US11244205B2 (en) * 2019-03-29 2022-02-08 Microsoft Technology Licensing, Llc Generating multi modal image representation for an image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045852A (zh) * 2015-07-06 2015-11-11 华东师范大学 一种教学资源的全文搜索引擎系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨伯钢.城市房屋管理地理信息系统技术与应用.中国地图出版社,2017,全文. *

Also Published As

Publication number Publication date
JP6902106B2 (ja) 2021-07-14
US10984030B2 (en) 2021-04-20
JP2020511719A (ja) 2020-04-16
GB2574359A (en) 2019-12-04
US20180267976A1 (en) 2018-09-20
GB201914637D0 (en) 2019-11-27
CN110383263A (zh) 2019-10-25
WO2018172840A1 (en) 2018-09-27

Similar Documents

Publication Publication Date Title
CN110383263B (zh) 从多个数据语料库中创建认知智能查询
US20210311937A1 (en) Method and system for supporting inductive reasoning queries over multi-modal data from relational databases
US11080273B2 (en) Image support for cognitive intelligence queries
Ghavami Big data analytics methods: analytics techniques in data mining, deep learning and natural language processing
US11182414B2 (en) Search queries of multi-datatype databases
US20060265362A1 (en) Federated queries and combined text and relational data
US20200175360A1 (en) Dynamic updating of a word embedding model
US20210390609A1 (en) System and method for e-commerce recommendations
US11726997B2 (en) Multiple stage filtering for natural language query processing pipelines
US20220107980A1 (en) Providing an object-based response to a natural language query
US11100100B2 (en) Numeric data type support for cognitive intelligence queries
US20240012809A1 (en) Artificial intelligence system for translation-less similarity analysis in multi-language contexts
US20230325384A1 (en) Interactive assistance for executing natural language queries to data sets
Carter Data science for mathematicians
Ma et al. Multiple wide tables with vertical scalability in multitenant sensor cloud systems
KR102132142B1 (ko) 자연어 처리 기법에 기반하여 데이터 사전으로부터의 용어를 추천하는 방법 및 장치
Sarkhel et al. Cross-modal entity matching for visually rich documents
Prathyusha et al. Normalization Methods for Multiple Sources of Data
US10860678B2 (en) Information extraction from data
Zhao et al. A Gentle Introduction to Feature Learning
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation
Priya et al. JSON document clustering based on schema embeddings
Dinov Qualitative Learning Methods—Text Mining, Natural Language Processing, and Apriori Association Rules Learning
WO2021024966A1 (ja) 企業類似度算出サーバ及び企業類似度算出方法
Kumar An Analysis of Methods for Processing Large Numbers of Unstructured Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant