CN112699276A - 用于数据映射的方法、装置和系统 - Google Patents

用于数据映射的方法、装置和系统 Download PDF

Info

Publication number
CN112699276A
CN112699276A CN202011141759.3A CN202011141759A CN112699276A CN 112699276 A CN112699276 A CN 112699276A CN 202011141759 A CN202011141759 A CN 202011141759A CN 112699276 A CN112699276 A CN 112699276A
Authority
CN
China
Prior art keywords
data
metadata
determining
classifier
data objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011141759.3A
Other languages
English (en)
Inventor
肖恩·罗伯特·扎贝尔
西瓦·雷波卢
尼拉贾·桑吉夫阿科特
斯威沙·锡达林格帕
梅哈巴比·拉巴尼·沙克
夏洛特·厄尔·卢米斯
杰西·盖特利
罗伯特·梅纳德·根特
维纳塔·巴比拉克什
伏伊泰克·索伊卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honeywell International Inc
Original Assignee
Honeywell International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honeywell International Inc filed Critical Honeywell International Inc
Publication of CN112699276A publication Critical patent/CN112699276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/156Correlation function computation including computation of convolution operations using a domain transform, e.g. Fourier transform, polynomial transform, number theoretic transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明题为“用于数据映射的方法、装置和系统”。本发明提供了用于改进数据映射的方法、装置和系统。一种示例性方法可包括:从数据库检索与第一数据库模式相关联的第一多个数据对象,确定对应于所述第一数据库模式的第一数据分类器,至少部分地基于所述第一数据分类器和所述第一多个数据对象来生成映射规范,以及至少部分地基于所述第一多个数据对象和所述映射规范来生成第二多个数据对象。

Description

用于数据映射的方法、装置和系统
技术领域
本公开整体涉及用于数据映射的方法、装置和系统,并且更具体地讲,涉及用于生成用于数据映射的数据分类器的方法、装置和系统。
背景技术
数据库是可由计算系统以电子方式存储、访问和/或管理的信息或数据(诸如数据对象)的集合。数据库模式是指可定义数据在数据库中如何组织和/或与彼此相关联的结构。数据库可在多种领域中实现,包括但不限于医疗保健行业、零售行业和金融服务。
许多系统和方法未克服与数据库相关联的技术挑战和困难。例如,数据可存储在可能不符合公共数据模型的传统数据库中,并且许多系统和方法不提供转换这些数据使得这些数据可由计算系统分析的能力。当传统数据库存储大量需要分析的数据时,这些挑战和困难可被进一步放大。
发明内容
根据各种示例,可提供装置。装置可包括至少一个处理器和包括程序代码的至少一个非暂态存储器。该至少一个非暂态存储器和程序代码可被配置为利用该至少一个处理器使得该装置至少:检索与第一数据库模式相关联的第一多个数据对象;至少基于第一多个数据对象来确定对应于第一数据库模式的第一数据分类器;至少部分地基于第一数据分类器和第一多个数据对象来生成映射规范;并且至少部分地基于第一多个数据对象和映射规范来生成第二多个数据对象。在一些示例中,映射规范可被配置为将与第一数据库模式相关联的第一多个数据对象转换成与第二数据库模式相关联的第二多个数据对象。
在一些示例中,第一多个数据对象可包括第一数据表。在一些示例中,第一数据表可包括至少一个数据字段。在一些示例中,第一数据表可包括名称元数据、列元数据或行元数据中的至少一者。
在一些示例中,当确定对应于第一数据库模式的第一数据分类器时,至少一个非暂态存储器和程序代码可以被配置为利用该至少一个处理器使得该装置:检索与第一多个数据对象相关联的名称元数据、列元数据或行元数据中的至少一者;并且进一步基于名称元数据、列元数据或行元数据中的至少一者来确定第一数据分类器。
在一些示例中,第一多个数据对象可包括第二数据表。在一些示例中,该至少一个非暂态存储器和程序代码可被配置为利用该至少一个处理器使得该装置:确定与第一数据表和第二数据表相关联的相关性元数据;并且进一步基于该相关性元数据来确定第一数据分类器。
在一些示例中,当确定对应于第一数据库模式的第一数据分类器时,至少一个非暂态存储器和程序代码可以被配置为利用该至少一个处理器使得该装置:确定与第一数据表相关联的域元数据;并且进一步基于该域元数据来确定第一数据分类器。
在一些示例中,在生成映射规范之前,该至少一个非暂态存储器和程序代码可被配置为利用该至少一个处理器使得该装置进一步:计算与第一数据分类器相关联的置信度分数。并且确定置信度分数是否满足预先确定的阈值。
在一些示例中,可响应于确定置信度分数满足预先确定的阈值而生成映射规范。
在一些示例中,该至少一个非暂态存储器和程序代码可被配置为利用该至少一个处理器使得该装置进一步:确定置信度分数不满足预先确定的阈值;生成与所述第一数据分类器相关联的用户输入请求;并且响应于该用户输入请求而接收用户输入。在一些示例中,用户输入请求可包括用于确认第一数据分类器的电子请求。
在一些示例中,用户输入可包括对第一数据分类器的确认。在一些示例中,可响应于对第一数据分类器的确认而生成映射规范。
在一些示例中,用户输入可包括对第一数据分类器的修改,其中该至少一个非暂态存储器和程序代码被配置为利用该至少一个处理器使得该装置进一步:基于该用户输入来修改第一数据分类器。
在一些示例中,该至少一个非暂态存储器和程序代码可被配置为利用该至少一个处理器使得该装置进一步:基于该用户输入来生成反馈数据;检索与第三数据库模式相关联的第三多个数据对象;并且至少基于第三多个数据对象和反馈数据来确定对应于第三数据库模式的第二数据分类器。
根据各种示例,可提供一种计算机实现的方法。该计算机实现的方法可包括:从数据库检索与第一数据库模式相关联的第一多个数据对象;至少基于第一多个数据对象来确定对应于所述第一数据库模式的第一数据分类器;至少部分地基于第一数据分类器和第一多个数据对象来生成映射规范;并且至少部分地基于第一多个数据对象和映射规范来生成第二多个数据对象。在一些示例中,映射规范可被配置为将与第一数据库模式相关联的第一多个数据对象转换成与第二数据库模式相关联的第二多个数据对象。
根据各种示例,可提供一种计算机程序产品。计算机程序产品可包括其中存储有计算机可读程序代码部分的至少一个非暂态计算机可读存储介质。计算机可读程序代码部分可包括可执行部分,该可执行部分被配置为:从数据库检索与第一数据库模式相关联的第一多个数据对象;至少基于第一多个数据对象来确定对应于第一数据库模式的第一数据分类器;至少部分地基于第一数据分类器和第一多个数据对象来生成映射规范;并且至少部分地基于第一多个数据对象和映射规范来生成第二多个数据对象。在一些示例中,映射规范可被配置为将与第一数据库模式相关联的第一多个数据对象转换成与第二数据库模式相关联的第二多个数据对象。
上述示例性发明内容以及本公开的其他示例性目的和/或优点以及实现这些目的和/或优点的方式在以下具体实施方式及其附图中进一步解释。
附图说明
可结合附图阅读例示性实施方案的描述。应当理解,为了说明的简单和清晰,除非另有说明,否则图中所示的元件不一定按比例绘制。例如,除非另有说明,否则元件中的一些元件的尺寸可相对于其他元件被夸大。结合本公开的教导的实施方案相对于文中给出的附图示出和描述,在附图中:
图1示出了根据本公开的各种实施方案的示例性系统的示例性示意图;
图2示出了根据本公开的各种实施方案的示例性装置的示例性框图;
图3示出了根据本公开的各种实施方案的示例性流程图;
图4示出了根据本公开的各种实施方案的示例性流程图;
图5示出了根据本公开的各种实施方案的示例性流程图;
图6示出了根据本公开的各种实施方案的示例性流程图;并且
图7示出了根据本公开的各种实施方案的示例性流程图。
具体实施方式
在下文中将参考附图更全面地描述本公开的一些实施方案,附图中示出了本公开的一些实施方案,但未示出全部实施方案。实际上,这些公开内容可以以许多不同的形式体现,并且不应该被解释为限于本文所阐述的实施方案;相反,提供这些实施方案是为了使本公开满足适用的法律要求。在全篇内容中,类似的标号指代类似的元件。
短语“在一个实施方案中”、“根据一个实施方案”、“例如”、“在一些示例中”、“作为示例”等一般意指跟在该短语后的特定特征、结构或特性可以被包括在本公开的至少一个实施方案中,并且可以被包括在本公开的不止一个实施方案中(这类短语不一定是指相同的实施方案)。
本文使用的词语“示例”或“示例性”意指“用作示例、实例或说明”。本文描述为“示例”或“示例性”的任何具体实施不一定被理解为比其他具体实施优选或有利。
如果说明书陈述了部件或特征“可以”、“能够”、“能”、“应当”、“将”、“优选地”、“有可能地”、“通常”、“任选地”、“例如”、“在一些示例中”、“经常”或“可能”(或其他此类语言)被包括或具有特性,则具体部件或特征不是必须被包括或具有该特性。此类部件或特征可任选地包括在一些实施方案中,或可排除在外。
术语“电路”应被广义地理解为包括硬件,并且在一些实施方案中,包括用于配置硬件的软件。相对于装置的部件,如本文所用的术语“电路”因此应当被理解为包括被配置为执行与如本文所述的特定电路相关联的功能的特定硬件。例如,在一些实施方案中,“电路”可包括处理电路、存储介质、网络接口、输入/输出设备等。
本公开中的术语“电子耦接(electronically coupled)”、“电子耦接(electronically coupling)”、“电子耦接(electronically couple)”、“与…通信”、“与…电子通信”或“连接”是指两个或更多个部件(例如但不限于,客户端设备、数据分析系统、数据库)通过有线装置(例如但不限于,有线以太网)和/或无线装置(例如但不限于,Wi-Fi、蓝牙、ZigBee)连接,使得可向这些部件传输和/或从这些部件接收数据和/或信息。
术语“数据分析系统”可以指系统或虚拟环境,该系统或虚拟环境可被配置为生成可指示存储在数据库中的数据的含义的数据分类器并且/或者基于数据分类器生成映射规范。数据分析系统可以采取一个或多个中央服务器的形式,该一个或多个中央服务器被设置成与运行软件应用程序的一个或多个附加服务器通信并且可访问存储数字内容项、应用程序相关数据等的一个或多个数据库。本文至少结合图1描述了示例性数据分析系统。
术语“用户”应理解为是指个体、个体群组、业务、组织等。本文提及的用户可以使用客户端设备访问数据分析系统。术语“客户端设备”是指被配置为访问数据分析系统的计算机硬件和/或软件。客户端设备可包括但不限于智能电话、平板电脑、膝上型计算机、可穿戴设备、个人计算机、企业计算机等。
在一些示例中,数据和信息(诸如电子请求)可被传输到数据分析系统和/或从数据分析系统接收。例如,“数据分类请求”可指示用于生成数据分类器的电子请求,该数据分类器可指示存储在数据库中的数据的含义。在一些示例中,数据分类请求可以从客户端设备传输到数据分析系统。又如,“用户输入请求”可指示用于提供用户输入的电子请求。在一些示例中,用户输入请求可以从数据分析系统发送到客户端设备,并且可以包括用于确认数据分类器的电子请求,其细节在本文中有所描述。
术语“数据对象”是指可表示与数据相关联的一个或多个值的数据结构。数据对象可存储在数据库中,并且可包括一个或多个“数据字段”。在一些示例中,数据字段可为美国信息交换标准代码(ASCII)文本、指针、存储器地址等的形式,并且可以包括与数据对象相关联的至少一个值。
例如,数据对象可包括“数据表”,其可表示可包括行和/或列的表格或半表格形式的值。在一些示例中,数据表可包括至少一个数据字段。示例性数据表中的示例性数据字段如下所示:
(Name) (Column 1) (Column 2)
(Row 1) Data Field 1 Data Field 2
(Row 2) Data Field 3 Data Field 4
在上述示例中,数据表可包括两行、两列和四个数据字段(诸如Data Field 1、Data Field 2、Data Field 3和Data Field 4)。
在一些示例中,数据表的一个或多个数据字段可以与行标识符和/或列标识符相关联。行标识符可为ASCII文本、指针、存储器地址等的形式,并且可以唯一地识别与数据字段相关联的行。列标识符可为ASCII文本、指针、存储器地址等的形式,并且可以唯一地识别与数据字段相关联的列。
继续上述示例,Data Field 1可以与行标识符Row 1和列标识符Column 1相关联。Data Field 2可以与行标识符Row 1和列标识符Column 2相关联。Data Field 3可以与行标识符Row 2和列标识符Column 1相关联。Data Field 4可以与行标识符Row 2和列标识符Column 2相关联。
术语“元数据”是指可描述其他数据(诸如数据对象的数据字段)的数据。在一些示例中,数据对象可包括一个或多个元数据并且/或者与一个或多个元数据相关联。在一些示例中,元数据可为ASCII文本、指针、存储器地址等的形式,并且可包括与数据字段中的值的含义相关联的信息。
在一些示例中,数据表可包括名称元数据、列元数据和/或行元数据中的至少一者,如以下示例所示:
Figure BDA0002738495710000061
Figure BDA0002738495710000071
在上述示例中,名称元数据(诸如Name Metadata 1)、列元数据(诸如ColumnMetadata 1和Column Metadata 2)和行元数据(诸如Row Metadata 1和Row Metadata 2)可以与数据表中数据字段(诸如Data Field 1、Data Field 2、Data Field 3和Data Field4)的含义相关联。
在一些示例中,名称元数据可为ASCII文本、指针、存储器地址等的形式,并且可以包括数据表的名称。在一些示例中,列元数据可为ASCII文本、指针、存储器地址等的形式,并且可包括列标识符和/或列的名称。在一些示例中,行元数据可为ASCII文本、指针、存储器地址等的形式,并且可包括行标识符和/或行的名称。在一些示例中,数据分析系统可以实现机器学习模型,以基于名称元数据、列元数据和/或行元数据中的至少一者来确定数据字段的含义,其细节在本文中有所描述。
虽然上述示例性数据表示出了示例性名称元数据、示例性列元数据和示例性行元数据,但需注意,本公开的范围不限于这些元数据。例如,数据分析系统可确定可指示两个或更多个数据对象之间的关系的“相关性元数据”。在一些示例中,数据分析系统可确定可指示与数据对象相关联的域的“域元数据”。本文描述了相关性元数据和域元数据的示例。
术语“数据对象标识符”是指可唯一地识别和/或定位来自多个数据对象和/或来自一个或多个数据库的数据对象的标识符。在一些示例中,数据对象标识符可为ASCII文本、存储器地址、网络地址等的形式。
在一些示例中,存储在数据库中的数据对象可与数据库的数据库模式相关联。如上所述,“数据库模式”可以指可定义数据在数据库中如何组织和/或与彼此相关联的数据库结构。在一些示例中,数据库模式可以是数据模型的物理具体实施。术语“数据模型”可指可组织数据对象并标准化其关系的抽象模型。示例性数据模型可以包括(但不限于)公共数据模型(CDM),该CDM为可以提供将在应用程序和/或数据源之间共享的数据对象的标准化组织的共享数据模型。
术语“数据库标识符”是指可唯一地识别和/或定位数据库和/或数据库模式的标识符。在一些示例中,数据对象标识符可为ASCII文本、存储器地址、网络地址等的形式。
术语“数据分类器”可以指可指示分类、包括描述并且/或者提供与一个或多个数据对象相关联的信息的含义的数据。数据分类器可为ASCII文本、指针、存储器地址等的形式。例如,数据分类器可为文本串的形式,该文本串可包括与一个或多个数据对象中的一个或多个数据字段相关联的数据类别。示例性数据类别可包括但不限于用户姓名、电子邮件地址、电池水平值、测量结果。在一些示例中,数据分类器可以由数据分析系统生成,其示例细节在本文中有所描述。
术语“映射规范”可以指可以描述和/或指定移动和/或变换的数据对象,该移动和/或变换可确定如何可基于一个数据模型来表示与另一个数据模型相关联的数据。例如,映射规范可被配置为将与第一数据库模式相关联的第一多个数据对象转换成与第二数据库模式相关联的第二多个数据对象。在一些示例中,映射规范可以由数据分析系统生成,其示例细节在本文中有所描述。
如上所述,许多系统和方法未克服与数据库相关联的技术挑战和困难。例如,许多系统缺乏分析存储在可能不符合最新数据库模型的传统数据库中的数据的能力。在一些示例中,当可能不知道可利用数据生成什么见解时,出于数据分析的目的而消耗这些数据可能是昂贵的。例如,存储在传统数据库中的数据可包括数字字符串,并且可能不知道这些数字字符串可能表示什么。因此,在数据可用于分析之前,理解这些数据可能会产生成本并消耗时间。在一些示例中,当理解这些数据不能生成有用的见解时,可能会浪费计算资源。
相比之下,根据本公开的各种示例可克服这些挑战和困难。在一些示例中,机器智能解决方案(诸如使用机器学习和其他技术)可通过检查数据名称、数据类型和数据之间的关系来推断数据库中数据的含义。在一些示例中,当数据的含义有足够的置信度时,这些数据可被自动映射到数据模型中以用于分析目的。在一些示例中,当数据含义中的置信度不足时,用户可提供关于数据含义的用户输入,该用户输入可用于改进机器智能解决方案。因此,本公开的各种示例可降低数据映射所需的成本和计算资源,并且可增加来自数据的有用见解的质量。
本公开的方法、装置和计算机程序产品可由多种设备中的任何一种体现。例如,可由被配置为与一个或多个设备(诸如一个或多个客户端设备)通信的联网设备(例如,数据分析系统)(诸如服务器或其他网络实体)体现示例性实施方案的方法、装置和计算机程序产品。附加地或另选地,该计算设备可包括固定计算设备,诸如个人计算机或计算机工作站。附加地或另选地,示例性实施方案可由多种移动设备中的任何一种体现,诸如便携式数字助理(PDA)、移动电话、智能电话、膝上型计算机、平板计算机、可穿戴设备或上述设备的任何组合。
图1示出了本公开的实施方案可在其中操作的示例性系统架构100。用户可使用客户端设备101A、101B、101C、...101N经由通信网络103访问数据分析系统105。
客户端设备101A至101N可以是如上文定义的任何计算设备。可以各种形式并且经由各种方法提供由数据分析系统105从客户端设备101A至101N接收的电子数据。例如,客户端设备101A至101N可包括台式计算机、膝上型计算机、智能电话、上网本、平板电脑、可穿戴设备等。在一些示例中,客户端设备101A至101N中的一者或多者可各自被分配给可唯一地识别该客户端设备的客户端设备标识符。在一些示例中,客户端设备标识符可包括ASCII文本、指针、存储器地址等。
在其中客户算设备101A至101N中的客户端设备为移动设备(诸如智能电话或平板电脑)的实施方案中,客户端设备可执行“应用程序”以与数据分析系统105进行交互。这些应用程序通常被设计为在移动设备(诸如平板电脑或智能电话)上执行。例如,可提供在移动设备操作系统(诸如
Figure BDA0002738495710000091
Figure BDA0002738495710000092
)上执行的应用程序。这些平台通常提供允许应用程序彼此通信并与移动设备的特定硬件和软件部件通信的框架。例如,上面提及的移动操作系统各自提供用于与位置服务电路、有线和无线网络接口、用户接触以及其他应用程序交互的框架。与应用程序之外执行的硬件和软件模块的通信通常经由移动设备操作系统所提供的应用程序编程接口(API)来提供。在一些示例中,应用程序可提供可允许用户与数据分析系统105进行交互的用户接口。
附加地或另选地,客户端设备101A至101N可以经由网络浏览器与数据分析系统105进行交互。附加地或另选地,客户端设备101A至101N可包括被设计成与数据分析系统105交接的各种硬件或固件。
通信网络103可包括一个或多个有线或无线通信网络,包括例如有线或无线局域网(LAN)、个人区域网(PAN)、城域网(MAN)、广域网(WAN)等,以及实现该一个或多个网络所需的任何硬件、软件和/或固件(诸如网络路由器)。例如,通信网络103可包括通用分组无线服务(GPRS)网络、码分多址2000(CDMA2000)网络、宽带码分多址(WCDMA)网络、全球移动通信系统(GSM)网络、GSM演进的增强型数据速率(EDGE)网络、时分同步码分多址(TD-SCDMA)网络、长期演进(LTE)网络、高速分组接入(HSPA)网络、高速下行链路分组接入(HSDPA)网络、IEEE 802.11(Wi-Fi)、Wi-Fi直连、IEEE 802.16(WiMAX)等。附加地或另选地,通信网络103可包括公共网络(诸如互联网)、专用网络(诸如内联网)或它们的组合。
在一些示例中,通信网络103可利用联网协议,包括但不限于超文本传输协议(HTTP)协议、HTTP/REST协议、基于一个或多个传输控制协议/互联网协议(TCP/IP)的联网协议、近场通信(NFC)协议、蓝牙协议和/或ZigBee协议。例如,可定制联网协议以适应数据分析系统105的需求。在一些实施方案中,该协议可为经由Websocket信道发送的JSON对象的定制协议。在一些实施方案中,该协议可为基于RPC的JSON、基于REST/HTTP的JSON等。
重新参见图1,数据分析系统105可以体现为上述计算设备。例如,数据分析系统105可包括至少一个处理器和存储计算机程序指令的至少一个非暂态存储器。这些计算机程序指令可指示数据分析系统105以特定方式起作用,使得存储在该至少一个非暂态存储器中的指令可产生制品,该制品的执行可实现本公开的实施方案。因此,在本公开的一些示例中,数据分析系统105可包括数据库连接器107、数据解译器109和/或数据映射器111。
数据库连接器107、数据解译器109和/或数据映射器111可体现在硬件装置(诸如一个或多个电路)、软件装置(诸如计算机程序代码)或硬件装置和软件装置的组合中。在一些示例中,数据库连接器107可被配置为从一个或多个数据库(包括但不限于如图1所示的数据库113A至113N)检索一个或多个数据对象。在一些示例中,数据解译器109可被配置为生成一个或多个数据分类器。在一些示例中,数据映射器111可被配置为生成一个或多个映射规范。结合至少图2示出和描述了示出数据分析系统105的各种示例性部件的示例图。
但需注意,数据分析系统105中的各种部件可利用相同的计算机或计算装置根据本公开的示例来执行操作。例如,数据库连接器107、数据解译器109和/或数据映射器111可利用相同的处理器或存储器来执行这些功能。在一些示例中,数据库连接器107、数据解译器109和/或数据映射器111可以利用分开的电路。
在本公开的各种实施方案中,可将一个或多个电子请求发送到数据分析系统105,该一个或多个电子请求包括但不限于数据分类请求和/或数据映射请求。在一些示例中,这些电子请求可能以HTTP请求的形式。在一些示例中,这些电子请求可以通过通信网络103由客户端设备101A至101N中的客户端设备直接发送到数据分析系统105。附加地或另选地,这些电子请求可经由中介发送到数据分析系统105。
在一些示例中,在接收到数据分类请求时,数据分析系统105可以生成一个或多个数据分类器。在一些示例中,基于该一个或多个数据分类器,数据分析系统105可以生成一个或多个映射规范。
重新参见图1,数据库113A至113N可体现为一个或多个数据存储设备,诸如一个或多个网络附加存储(NAS)设备,或体现为一个或多个单独服务器。数据库113A至113N可包括数据和/或数据分析系统105和/或客户端设备101A至101N可访问的信息。
在一些示例中,数据库113A至113N可存储数据,诸如但不限于一个或多个数据对象。在一些示例中,在接收到数据分类请求时,数据分析系统105可以将电子请求传输到数据库113A至113N,以从数据库113A至113N检索或获取一个或多个数据对象。在一些示例中,数据分析系统105可以将一个或多个数据对象存储在数据库113A至113N中。
但需注意,数据库113A至113N可利用相同的计算机或计算装置来执行上述操作。例如,数据库113A至113N可以集成在数据分析系统105内,使得数据库113A至113N可以是数据分析系统105的一部分。在一些示例中,数据库113A至113N和数据分析系统105可以利用分开的电路。
可由一个或多个计算系统来体现图1的数据分析系统105,诸如图2所示的装置200。装置200可包括处理器202、存储器204、输入/输出电路206和/或通信电路208。装置200可被配置为执行以上参见图1和以下参见图3至图7所述的操作。
虽然针对功能限制描述了这些部件,但应当理解,特定的具体实施必定包括使用特定硬件。还应当理解,这些部件中的某些部件可包括类似或常见的硬件。例如,两组电路均可使用相同的处理器、网络接口、存储介质等以执行其相关联的功能,使得每组电路均不需要重复的硬件。
在一些实施方案中,处理器202(和/或协处理器或协助该处理器或以其他方式与该处理器相关联的任何其他处理电路)可经由总线与存储器204进行通信,以用于在装置的部件之间传递信息。存储器204为非暂态的,并且可包括例如一个或多个易失性和/或非易失性存储器。换句话讲,存储器204可为电子存储设备(例如,计算机可读存储介质)。存储器204可被配置为存储用于使装置能够根据本发明的示例性实施方案执行各种功能的信息、数据、内容、应用、指令等。
在如图2所示的示例中,存储器204可存储计算机程序指令,这些计算机程序指令可包括数据库连接器模块210、数据解译器模块212和/或数据映射器模块214。当数据库连接器模块210由处理器202执行时,装置200可被配置为从一个或多个数据库(诸如但不限于上文结合图1所述的数据库113A至113N)检索一个或多个数据对象。当数据解译器模块212由处理器202执行时,装置200可被配置为生成一个或多个数据分类器。当数据映射器模块214由处理器202执行时,装置200可被配置为生成一个或多个映射规范。
附加地或另选地,装置200可包括被配置用于数据库连接器模块210、数据解译器模块212和/或数据映射器模块214的一个或多个指定硬件。例如,装置200可包括被配置为执行数据库连接器模块210、数据解译器模块212和/或数据映射器模块214的功能的单独处理器、专门配置的现场可编程门阵列(FPGA)或专用集成电路(ASIC)。
返回参见图2,处理器202可以多种不同的方式体现,并且例如可以包括被配置为独立执行的一个或多个处理设备。在一些示例中,处理器202可包括经由总线串联配置的一个或多个处理器,以实现对指令、流水线和/或多线程的独立执行。术语“处理器”或“处理电路”的使用可以理解为包括单核处理器、多核处理器、装置内部的多个处理器、和/或远程或“云”处理器。
如上所述,处理器202可被配置为执行存储在存储器204中或可以其他方式供处理器202访问的指令。在一些优选的和非限制性实施方案中,处理器202可被配置为执行硬编码功能。因此,无论通过硬件方法或软件方法配置,还是通过它们的组合配置,处理器202均可表示能够根据本公开的实施方案执行操作同时进行相应配置的实体(例如,以电路形式物理地体现)。另选地,又如,当处理器202体现为软件指令的执行器时,这些指令可将处理器202专门配置为在执行这些指令时执行本文所述的算法和/或操作。
通信电路208可为任何装置,诸如以硬件或者硬件和软件的组合体现的设备或电路,其被配置为从和/或向网络和/或与装置200进行通信的任何其他设备、电路或模块(诸如上文结合图1所述的客户端101A至101N和/或数据库113A至113N)接收和/或传输数据。就这一点而言,通信电路208可包括例如用于实现与有线或无线通信网络(诸如上文结合图1所述的通信网络103)的通信的网络接口。例如,通信电路208可包括一个或多个网络接口卡、天线、总线、交换机、路由器、调制解调器和支持硬件和/或软件,或适用于经由网络实现通信的任何其他设备。附加地或另选地,通信电路208可包括用于与天线相互作用的电路以使得信号经由天线传输或处理经由天线接收的信号接收。
在一些示例中,装置200可任选地包括输入/输出电路206,其可以继而与处理器202通信以向用户提供输出,并且在一些实施方案中,接收用户输入的指示。输入/输出电路206可包括用户接口电路并且可包括显示器,其可包括网页用户接口、移动应用、客户端设备、信息亭等。在一些实施方案中,输入/输出电路206还可以包括键盘、鼠标、操纵杆、触摸屏、触摸区域、软键、麦克风、扬声器或其他输入/输出机构。处理器和/或包括处理的用户接口电路可被配置为通过存储在处理器可访问的存储器(例如,存储器204等)上的计算机程序指令(例如,软件和/或固件)来控制一个或多个用户接口元素的一个或多个功能。
还应注意,本文所讨论的所有或一些信息可基于由装置200的一个或多个部件接收、生成和/或维护的数据。在一些实施方案中,还可利用一个或多个外部系统(诸如远程云计算和/或数据存储系统)来提供本文所讨论的至少一些功能。
在一些实施方案中,装置200的其他元件可提供或补充特定电路的功能。例如,处理器202可提供处理功能,存储器204可提供存储功能,通信电路208可提供网络接口功能等。应当理解,可将任何此类计算机程序指令和/或其他类型的代码加载到计算机、处理器或其他可编程装置的电路上以产生机器,使得在该机器上执行代码的计算机、处理器、其他可编程电路可形成用于实现各种功能(包括本文所述的那些功能)的装置。
如上所述并且基于本公开应当理解,本公开的实施方案可被配置为方法、移动设备、后端网络设备等。因此,实施方案可包括各种装置,这些装置包括完全硬件或者软件和硬件的任何组合。
现在参见图3至图7,示出了根据本公开的各种实施方案的示例性方法。在一些示例中,可以通过各种装置(诸如硬件、电路和/或与包括一个或多个计算机程序指令的软件的执行相关联的其他装置)来实现流程图中的每个框或步骤以及流程图中的框和/或步骤的组合。
在一些示例中,在图中描述的程序中的一个或多个程序可由计算机程序指令体现,这些计算机程序指令可由采用本公开的实施方案的装置的存储器电路(诸如非暂态存储器)来存储并且由该装置的处理电路(诸如处理器)来执行。这些计算机程序指令可指示装置以特定方式工作,使得存储在存储器电路中的指令可产生制品,该制品的执行可实现流程图框中指定的功能。此外,该设备可包括一个或多个其他部件,诸如例如通信电路和/或输入/输出电路。装置的各种部件可在彼此之间进行电子通信,以将数据传输到彼此并且/或者从彼此接收数据。
在一些示例中,实施方案可采取存储计算机可读程序指令(例如,计算机软件)的非暂态计算机可读存储介质上的计算机程序产品的形式。可利用任何合适的计算机可读存储介质,包括非暂态硬盘、CD-ROM、闪存存储器、光存储设备和/或磁存储设备。
现在参见图3,示出了根据本公开的一些实施方案的示例性方法300。具体地讲,示例性方法300可示出对数据对象进行分类并生成用于转换数据对象的映射规范的示例性实施方案。在一些示例中,方法300可由处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)执行。
方法300在框301处开始。
在框303处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可检索第一多个数据对象。在一些示例中,第一多个数据对象可与第一数据库模式相关联。
在一些示例中,处理电路可从客户端设备(诸如但不限于如图1所示的客户端设备101A至101N中的一个客户端设备)接收数据分类请求。数据分类请求可包括一个或多个数据对象标识符和/或生成数据分类器的请求。
如上所述,数据对象标识符可识别和/或定位来自一个或多个数据库(诸如但不限于如图1所示的数据库113A至113N)的数据对象。在接收到数据分类请求时,处理电路可将数据检索请求(其可包括例如一个或多个数据对象标识符)传输到一个或多个数据库(诸如但不限于如图1所示的数据库113A至113N)。处理电路可响应于数据检索请求而从该一个或多个数据库接收与数据对象标识符相关联的一个或多个数据对象。
在一些示例中,处理电路可包括数据库连接器部件(例如但不限于如图1所示的数据库连接器107)。数据库连接器部件可从一个或多个数据库获取数据对象和/或数据库模式信息,并且可将数据对象和/或数据库模式信息传输给数据解译器部件(例如但不限于图1所示的数据解译器109)。
在框305处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可确定对应于第一数据库模式的第一数据分类器。在一些示例中,处理电路可至少基于在框303处检索到的第一多个数据对象来确定第一数据分类器。
在一些示例中,处理电路可包括数据解译器部件(例如但不限于图1所示的数据解译器109)。数据解译器部件可从数据库连接器部件(例如但不限于如图1所示的数据库连接器107)接收数据。
如上所述,数据分类器可为ASCII文本、指针、存储器地址等的形式,该数据分类器可指示分类、包括描述和/或提供与一个或多个数据对象相关联的信息的含义。在一些示例中,处理电路可应用机器学习模型、智能代理(IA)和/或人工智能(AI)工具来确定数据分类器。
在一些示例中,处理电路可实现人工神经网络以确定第一数据分类器。示例性人工神经网络可包括多个互连节点,并且每个节点可表示数学函数,该数学函数可基于(从节点接收的)输入生成(到节点的)输出。该多个节点可被划分成层,诸如输入层、一个或多个中间层和输出层。
例如,以下数据对象(为数据表的形式)可作为输入由处理电路提供给示例性人工神经网络:
John Doe Jr. John.doe@email.com
Adam Davis Adam.davis@email.com
Richard Roe II Richard.roe@email.com
在该示例中,人工神经网络可针对数据表中的每个数据字段(例如,“John”、“Doe”、“Jr.”、“John.doe@email.com”)生成节点。通过互连节点及其相关联的数学函数,人工神经网络可输出指示数据表的每个行和/或列的分类的一个或多个数据分类器。例如,人工神经网络可生成用于数据表的数据分类器(其可为例如文本串的形式)。在一些示例中,数据分类器可指示:与第一列相关联的数据字段是名字,与第二列相关联的数据字段是姓氏,与第三列相关联的数据字段是姓名后缀,并且/或者与第四列相关联的数据字段是电子邮件地址。
在一些示例中,处理电路可实现决策树算法以确定第一数据分类器。示例性决策树可以包括一个或多个叶子,并且每个叶子可表示例如数据的可能分类。附加地或另选地,决策树可包括一个或多个分支,这些分支可表示例如分类的可能结合(即,决策树上的叶子)。
例如,决策树算法可确定数据表的每个列的一个或多个分类。从上述示例性数据表继续,处理电路可将与第一列相关联的数据字段作为输入提供给示例性决策树算法。示例性决策树算法可确定这些数据字段表示姓名(例如,“姓名”分类作为决策树中的顶部节点),并且可进一步确定这些数据字段是表示名字还是姓氏(例如,“名字”子分类和“姓氏”子分类作为决策树中的顶部节点的子节点)。基于与第一列相关联的数据字段,决策树算法可计算这些数据字段表示名字的第一概率,以及这些数据字段表示姓氏的第二概率。决策树算法可将第一概率与第二概率进行比较,并且可确定第一概率高于第二概率。在该示例中,决策树算法可生成输出(其可指示第一列表示名字),并且处理电路可基于来自决策树算法的输出来确定数据分类器。
在一些示例中,处理电路可实现监督学习模型以确定第一数据分类器。在示例性监督学习模型中,基于示例性输入-输出对(例如,训练数据),模型接收到的输入可被映射到输出。示例性监督学习模型可分析训练数据,并且可根据示例性输入-输出对推断一个或多个函数。示例性监督学习模型可利用推断的函数来生成一个或多个输出。示例性监督学习模型可包括但不限于支持向量机。
从上述示例性数据表继续,可将示例性姓名后缀作为训练数据提供给示例性监督学习模型。例如,处理电路可向示例监督学习模型提供以下示例性姓名后缀:II、III、IV、Jr.、Sr.、MD、PhD。监督学习模型可将每个示例性姓名后缀与姓名后缀分类连接。当监督学习模型从上述示例性数据表接收到数据字段“Jr.”时,监督学习模型可生成指示数据字段与姓名后缀相关联的输出,并且处理电路可基于该输出生成数据分类器。
虽然上述示例示出了基于人工神经网络、决策树算法和/或监督学习模型来生成示例性数据分类器,但需注意,本公开的范围并非仅限于这些机制。在一些示例中,附加地或另选地,可利用其他机器学习模型、IA和/或AI工具来确定数据分类器,包括但不限于贝叶斯网络、遗传算法、回归模型和/或随机森林。
在一些示例中,除了数据对象的数据字段之外或作为这些数据字段的替代,处理电路可基于与数据对象相关联的元数据来确定第一数据分类器。例如,处理电路可至少部分地基于与第一多个数据对象相关联的姓名元数据、列元数据、行元数据、相关性元数据和/或域元数据来确定第一数据分类器,其示例性细节结合至少图4、图5和图6来描述。
在框307处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可生成映射规范。在一些示例中,映射规范可被配置为将与第一数据库模式相关联的第一多个数据对象转换成与第二数据库模式相关联的第二多个数据对象。
在一些示例中,处理电路可从客户端设备(诸如但不限于如图1所示的客户端设备101A至101N中的一个客户端设备)接收数据映射请求。数据映射请求可包括:与第一数据库模式相关联的第一数据库标识符、与第二数据库模式相关联的第二数据库标识符,以及将数据对象从第一数据库模式转换成第二数据库模式的请求。
如上所述,数据库标识符可识别和/或定位与数据库(诸如但不限于如图1所示的数据库113A至113N)相关联的数据库模式。在接收到数据映射请求时,处理电路可例如检索与第一数据库模式相关联的数据对象并确定数据分类器,类似于上文结合框303和框305所述的那些。在一些示例中,数据映射请求可与数据分类请求组合,使得客户端设备可传输一个电子请求来触发处理电路生成数据分类器和映射规范。
在一些示例中,处理电路可至少部分地基于(在框303处检索的)第一多个数据对象和(在框305处确定的)第一数据分类器来生成映射规范。如上所述,术语“映射规范”可以指可描述和/或指定移动和/或变换的数据对象,该移动和/或变换可确定可如何基于另一个数据模型来表示与一个数据模型相关联的数据。
从与以下数据表相关的示例继续:
Figure BDA0002738495710000181
在框305处生成的示例性数据分类器可指示:与Column 1相关联的数据字段是名字,与Column 2相关联的数据字段是姓氏,与Column 3相关联的数据字段是姓名后缀,并且/或者与Column 4相关联的数据字段是电子邮件地址。例如,处理电路接收到的数据映射请求可指示,基于不同数据库模式将来自上述源数据表的数据转换成不同类型的数据表和/或数据对象的请求。例如,数据映射请求可包括将上述源数据表变换成符合公用数据模型的目标数据对象的请求。
如上所述,处理电路可至少部分地基于数据分类器(例如,在框305处确定的数据分类器)来生成映射规范。从上述示例继续,数据分类器可指示与源数据表的Column 4相关联的数据字段是电子邮件地址。处理电路可确定目标数据对象(例如,基于公用数据模型的数据表)可包括针对电子邮件地址的数据字段。处理电路可在映射规范中生成规则语句,以将源数据表的Column 1变换成目标数据对象中针对电子邮件地址的对应数据字段。
在一些示例中,处理电路可在映射规范中生成一个或多个规则语句,以基于数据分类器组合一个或多个数据字段。在上述示例中,数据分类器可指示Column 1、Column 2和Column 3与姓名相关联。基于数据分类器,处理电路可组合每个行的Column 1、Column 2和Column 3的数据字段,并且可将这些数据字段提供给目标数据表中针对姓名的对应数据字段。
在一些示例中,处理电路可在映射规范中生成一个或多个规则语句,以基于数据分类器将数据字段拆分成多个数据字段或复制到多个数据字段中。例如,如果数据分类器指示数据字段包括YYY-MM-DD格式的日期,并且处理电路确定目标数据表包括用于年、月和日的单独列,则处理电路可生成一个或多个规则语句以拆分数据字段,从而分离年值、月值和日值。
虽然上述示例可示出与在数据表之间转换和变换数据字段相关联的示例性映射规范,但需注意,本公开的范围不限于数据表。在一些示例中,处理电路可基于其他类型的数据对象来生成映射规范。
例如,该多个数据对象可包括文本文档,该文本文档可包括一个或多个ASCII字符。如上文结合框305所述,处理电路可基于文本文档来生成第一数据分类器。例如,处理电路可实现机器学习模型以对文本文档进行自然语言处理。基于自然语言处理的结果,处理电路可生成可指示文本文档的含义的数据分类器。
作为非限制性示例,数据分类器可指示文本文档可描述一个或多个设备的电池水平值。至少部分地基于数据分类器,处理电路可生成映射规范,该映射规范可被配置为将源文本文档中的电池水平值转换成目标数据对象中的数据字段。
在一些示例中,处理电路可实现机器学习模型、IA和/或AI工具以生成映射规范。例如,处理电路可实现人工神经网络以确定最有效的映射规范。在该示例中,处理电路可基于规则语句中指定的数据操作来在示例性人工神经网络中生成节点。然后,处理电路可计算示例性人工神经网络中可能需要最少操作的路径,以确定最有效的映射规范。在一些示例中,处理电路可利用其他机器学习模型、IA和/或AI工具来生成映射规范。
在框309处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可生成第二多个数据对象。
在一些示例中,处理电路可至少部分地基于第一多个数据对象和映射规范来生成第二多个数据对象。例如,处理电路可基于映射规范的规则语句将源数据对象中的数据字段转换成目标数据对象的数据字段。
从与姓名和电子邮件地址相关的上述示例性源数据表继续,处理电路可基于映射规范中的规则语句将源数据表转换成目标数据表。如上所述,可基于数据分类器来生成规则语句。在该示例中,基于规则语句,处理电路可生成与来自源数据表的每个行(基于例如行标识符)的Column 1、Column 2和Column 3相关联的组合数据字段,并且将组合数据字段填充到目标数据对象的多个第一数据字段。附加地或另选地,处理电路可将来自源数据表的Column 4的数据字段转换成目标数据对象的多个第二数据字段。
虽然上述示例将示例性数据表示出为示例性数据对象,但需注意,本公开的范围不限于数据表。在一些示例中,多个数据对象可包括日志、数字字符串等。
方法300在框311处结束。
现在参见图4、图5和图6,示出了根据本公开的一些实施方案的示例性方法。具体地讲,这些示例性方法可示出确定数据分类器(其可与例如如上所述的图3的框305相关)的示例性实施方案。
现在参见图4,示出了根据本公开的一些实施方案的示例性方法400。具体地讲,示例性方法400可示出至少基于与数据库中的数据对象相关联的元数据来确定数据分类器的示例性实施方案。
在一些示例中,方法400可由处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)执行。
方法400可从框A开始。重新参见图3,框A可在检索第一多个数据对象之后(框303)。
在框402处,处理电路(例如,结合图1所述的数据分析系统105的处理电路和/或结合图2所述的装置200的处理器202)可检索与多个数据对象(例如,上文结合图3所述的第一多个数据对象)相关联的元数据。
在如图4所示的示例中,由处理电路检索的元数据可包括与第一多个数据对象相关联的名称元数据404、列元数据406或行元数据408中的至少一者。例如,名称元数据、列元数据和/或行元数据可与数据表相关联。
在一些示例中,名称元数据404可为ASCII文本、指针、存储器地址等的形式,并且可包括数据对象的名称(诸如数据表)。例如,名称元数据404可指示数据表与消费者信息相关联。
在一些示例中,列元数据406可为ASCII文本、指针、存储器地址等的形式,并且可包括列标识符和/或列的名称。例如,列元数据406可指示与列相关联的数据字段与消费者的姓名相关。
在一些示例中,行元数据408可为ASCII文本、指针、存储器地址等的形式,并且可包括行标识符和/或行的名称。例如,行元数据408可指示与行相关联的数据字段与消费者标识符相关。
在框410处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可基于元数据来确定第一数据分类器。例如,处理电路可至少基于名称元数据404、列元数据406和/或行元数据408中的至少一者来确定第一数据分类器。
如上所述,处理电路可应用机器学习模型、IA和/或AI工具来确定数据分类器。在一些示例中,在框402处检索的元数据可作为输入数据提供给机器学习模型、IA和/或AI工具。例如,名称元数据404可指示数据表与消费者信息相关联,列元数据406可指示与列相关联的数据字段与消费者的姓名相关,并且/或者行元数据408可指示与行相关联的数据字段与消费者标识符相关。处理电路可实现机器学习模型、IA和/或AI工具,以至少基于名称元数据404、列元数据406和/或行元数据408中的至少一者来确定第一数据分类器,类似于上文结合图4所述的那些。
在框410之后,方法400可返回到框B。如图3所示,框B可在框307处生成映射规范之前。在一些示例中,处理电路可至少部分地基于结合图4所述的数据分类器来生成映射规范。
现在参见图5,示出了根据本公开的一些实施方案的示例性方法500。具体地讲,示例性方法500可示出至少基于与数据库中的数据对象相关联的相关性元数据来确定数据分类器的示例性实施方案。
在一些示例中,方法500可由处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)执行。
方法500可从框A开始。重新参见图3,框A可在检索第一多个数据对象(框303)之后。
在框501处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可确定相关性元数据。在一些示例中,相关性元数据可为ASCII文本、指针、存储器地址等的形式,并且可指示两个或更多个数据对象之间的关系。
在一些示例中,相关性元数据可指示第一数据表和第二数据表之间的关系。例如,相关性元数据可指示第一数据表和第二数据表两者与消费者信息相关联。附加地或另选地,相关性元数据可指示第一数据表可包括与消费者姓名相关联的数据字段,并且第二数据表可包括与消费者电子邮件地址相关联的数据字段。
在一些示例中,处理电路可实现机器学习模型、IA和/或AI工具以确定相关性数据。例如,处理电路可实现监督学习模型以确定第一数据表和第二数据表之间的关系。
在框503处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可基于相关性元数据来确定第一数据分类器。
如上所述,处理电路可应用机器学习模型、IA和/或AI工具来确定数据分类器。在一些示例中,在框501处确定的相关性元数据可作为输入数据由处理电路提供给机器学习模型、IA和/或AI工具。处理电路可实现机器学习模型、IA和/或AI工具以至少部分地基于相关性元数据来确定第一数据分类器,类似于上文结合图4所述的那些。
在框503之后,方法500可返回到框B。如图3所示,框B可在框307处生成映射规范之前。在一些示例中,处理电路可至少部分地基于结合图5所述的数据分类器来生成映射规范。
现在参见图6,示出了根据本公开的一些实施方案的示例性方法600。具体地讲,示例性方法600可示出至少基于域元数据来确定数据分类器的示例性实施方案。
在一些示例中,方法600可由处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)执行。
方法600可从框A开始。重新参见图3,框A可在检索第一多个数据对象(框303)之后。
在框602处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可确定域元数据。在一些示例中,相关性元数据可为ASCII文本、指针、存储器地址等的形式,并且可指示与数据对象(诸如但不限于第一数据表)相关联的主题域。
术语“域”或“主题域”可指多个数据对象中的一组公共属性和/或功能。在一些示例中,与同一域相关联的数据对象可表示与公共实体相关联的知识或活动范围。例如,表示姓名、电子邮件地址和电话号码的数据对象可被分到消费者信息领域中。
在一些示例中,处理电路可实现机器学习模型、IA和/或AI工具以确定域数据。例如,处理电路可实现人工神经网络以确定与第一数据表相关联的对应域。
在框604处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可基于域元数据来确定第一数据分类器。
如上所述,处理电路可应用机器学习模型、IA和/或AI工具来确定数据分类器。在一些示例中,在框602处确定的域元数据可作为输入数据由处理电路提供给机器学习模型、IA和/或AI工具。处理电路可实现机器学习模型、IA和/或AI工具以至少部分地基于域元数据来确定第一数据分类器,类似于上文结合图4所述的那些。
在框604之后,方法600可返回到框B。如图3所示,框B可在框307处生成映射规范之前。在一些示例中,处理电路可至少部分地基于结合图6所述的数据分类器来生成映射规范。
虽然图4、图5和图6示出了基于名称元数据、列元数据、行元数据、相关性元数据和/或域元数据来确定数据分类器的示例性方法,但需注意,本公开的范围不限于这些元数据。在一些示例中,除了上述这些元数据之外或作为上述这些元数据的替代,可使用其他元数据来确定数据分类器。
现在参见图7,示出了根据本公开的一些实施方案的示例性方法700。具体地讲,示例性方法700可示出对数据对象进行分类并生成用于转换数据对象的映射规范的示例性实施方案。在一些示例中,方法700可由处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)执行。
方法700在框701处开始。
在框703处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可确定第一数据分类器。
在一些示例中,第一数据分类器可与第一多个数据对象相关联。在一些示例中,处理电路可基于类似于结合图3、图4、图5和/或图6所述的方法的方法来生成第一数据分类器。
在框705处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可计算与第一数据分类器相关联的置信度分数。
“置信度分数”可指可指示对应的数据正确和/或表示真状态的可能性的数学值。例如,与数据分类器相关联的置信度分数可指示该数据分类器包括对数据对象的正确分类和/或正确描述的可能性。
如上文结合图3、图4、图5和图6所述,处理电路可基于例如机器学习模型、IA和/或AI工具来确定第一分类器。在一些示例中,处理电路可使用与用于确定数据分类器的相同或不同的机器学习模型、IA和/或AI工具来生成置信度分数。
例如,当处理电路利用监督学习模型来确定第一数据分类器时,该处理电路可将数据对象的数据字段与训练数据中的输入-输出对进行比较。处理电路可计算接近度值,该接近度值可指示数据字段和训练数据之间的相似性水平。相似性越高,监督学习模型可生成对数据对象的正确分类的可能性就越大。因此,处理电路可基于接近度值生成置信度分数。
附加地或另选地,处理电路可利用其他机器学习模型、IA和/或AI工具来计算置信度分数。
在框707处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可确定置信度分数是否满足预先确定的阈值。
在一些示例中,处理电路可基于例如系统要求来确定预先确定的阈值。例如,示例性系统要求可指示数据映射所需的精度水平。在该示例中,所需的精度水平越高,预先确定的阈值的值就越高。
在一些示例中,预先确定的阈值可由用户设置。例如,用户(在操作客户端设备时)可向处理电路提供用户输入。用户输入可包括可对应于预先确定的阈值的值。
重新参见图7,如果处理电路在框707处确定置信度分数满足预先确定的阈值,则方法700可前进至框709。
例如,如果在框705处计算的置信度分数为0.8,并且预先确定的阈值为0.6,则处理电路可确定该置信度分数高于阈值,并且因此该置信度分数满足预先确定的阈值。
在框709处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可响应于确定置信度分数满足预先确定的阈值而生成映射规范。
在一些示例中,处理电路可至少部分地基于第一数据分类器来生成映射规范,类似于上文结合图3所述的那些。
重新参见图7,如果处理电路在框707处确定置信度分数不满足阈值,则方法700可前进至框711。
例如,如果在框705处计算的置信度分数为0.7,并且预先确定的阈值为0.9,则处理电路可确定该置信度分数低于阈值,并且因此该置信度分数不满足预先确定的阈值。
在框711处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可生成用户输入请求,并且可将用户输入请求传输到客户端设备(诸如上文结合图1所述的客户端设备101A至101N)。
在一些示例中,用户输入请求可与第一数据分类器相关联。例如,用户输入请求可包括用于确认第一数据分类器是否正确的电子请求。
在一些示例中,用户输入请求可被传输到与专家相关联的客户端设备。该客户端设备可呈现用于显示的用户输入请求,该用户输入请求可包括数据对象的样本和在框703处确定的数据分类器。例如,客户端设备可显示数据表和数据分类器,指示该数据表被确定为与消费者信息相关联。专家可选择该分类是正确还是不正确。
在框713处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可接收用户输入。该用户输入可响应框711处的用户输入请求。
在一些示例中,用户输入可包括来自用户的关于在框703处确定的数据分类器是否正确的指示。例如,用户输入可包括对数据分类器的确认,其可指示例如专家确认数据分类器表示对数据对象的正确分类。又如,用户输入可包括对数据分类器的修改,其可指示例如专家确定在框703处确定的数据分类器不正确或不准确。
在框715处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可确定在框713处接收的用户输入是否指示在框703处确定的第一数据分类器正确。
在框715处,如果处理电路确定用户输入确认数据分类器正确,则方法700可前进至框709。例如,如果用户输入包括对第一数据分类器的确认,则在框709处,处理电路可响应于对第一数据分类器的确认而生成映射规范。
在框715处,如果处理电路确定用户输入确认数据分类器不正确,则方法700可前进至框719。在框719处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可基于用户输入来修改第一数据分类器。
在一些示例中,用户输入可包括对第一数据分类器的修改。例如,如果在框703处确定的第一数据分类器指示数据对象被确定为与“名字”相关联,则用户输入可指示该数据对象与“姓氏”相关联。
在一些示例中,处理电路可基于用户输入来修改第一数据分类器。继续上一示例,处理电路可基于用户输入将数据分类器从指示“名字”改变成指示“姓氏”。
在框719处修改第一数据分类器之后,处理电路可前进至框709。在框709处,处理电路可基于经修改的第一数据分类器来生成映射规范。
重新参见图7,在框717处,处理电路(例如,结合图1描述的数据分析系统105的处理电路和/或结合图2描述的装置200的处理器202)可基于用户输入来生成反馈数据。
在一些示例中,反馈数据可被提供给机器学习模型、IA和/或AI工具,用于提高生成数据分类器的准确性。例如,处理电路可检索与相同或不同数据库模式(与第一多个数据对象的数据库模式相比)相关联的另外多个数据对象,并且可基于数据对象和反馈数据来生成数据分类器。
例如,当处理电路利用监督学习模型来确定第一数据分类器时,处理电路可基于用户输入来生成输入-输出对形式的反馈数据(即,用于监督学习模型的训练数据)。例如,当用户输入指示数据对象与姓氏相关联时,处理电路可生成一对输入(数据对象)和输出(姓氏分类)。处理电路可提供这一对输入和输出来训练监督学习模型,使得监督学习模型可提高确定用于与这一对输入-输出中的数据对象类似的其他数据对象的数据分类器的准确性。
方法700在框721处结束。
应当理解的是,本公开不限于所公开的特定实施方案,并且修改和其他实施方案旨在包括在所附权利要求的范围内。尽管本文采用了特定术语,但是除非另有说明,否则它们仅以一般性和描述性意义使用,而不是出于限制的目的。

Claims (20)

1.一种装置,所述装置包括至少一个处理器和至少一个非暂态存储器,所述至少一个非暂态存储器包括程序代码,其中所述至少一个非暂态存储器和所述程序代码被配置为利用所述至少一个处理器使得所述装置至少:
接收执行关于第一数据库模式的数据映射过程的请求;
响应于所述请求,
从数据库检索用于与所述第一数据库模式相关联的第一数据模型的第一多个数据对象;
至少基于所述第一多个数据对象来确定对应于所述第一数据库模式的第一数据分类器;
计算与所述第一数据分类器相关联的置信度分数;并且
响应于确定所述置信度分数满足预先确定的阈值,
至少部分地基于所述第一数据分类器和与所述第一多个数据对象相关联的元数据来确定用于与映射规范相关联的数据操作的一组规则;
基于与所述映射规范相关联的所述一组规则,将与所述第一数据库模式相关联的所述第一多个数据对象转换成用于与第二数据库模式相关联的第二数据模型的第二多个数据对象;并且
提供关于所述第二多个数据对象的一个或多个见解。
2.根据权利要求1所述的装置,其中所述第一多个数据对象包括第一数据表,其中所述第一数据表包括至少一个数据字段。
3.根据权利要求2所述的装置,其中所述第一数据表包括名称元数据、列元数据或行元数据中的至少一者。
4.根据权利要求3所述的装置,其中,当确定对应于所述第一数据库模式的所述第一数据分类器时,所述至少一个非暂态存储器和所述程序代码被配置为利用所述至少一个处理器使得所述装置:
检索与所述第一多个数据对象相关联的所述名称元数据、所述列元数据或所述行元数据中的至少一者;并且
进一步基于所述名称元数据、所述列元数据或所述行元数据中的至少一者来确定所述第一数据分类器。
5.根据权利要求2所述的装置,其中所述第一多个数据对象包括第二数据表,其中所述至少一个非暂态存储器和所述程序代码被配置为利用所述至少一个处理器使得所述装置:
确定与所述第一数据表和所述第二数据表相关联的相关性元数据;并且
进一步基于所述相关性元数据来确定所述第一数据分类器。
6.根据权利要求2所述的装置,其中,当确定对应于所述第一数据库模式的所述第一数据分类器时,所述至少一个非暂态存储器和所述程序代码被配置为利用所述至少一个处理器使得所述装置:
确定与所述第一数据表关联的域元数据;并且
进一步基于所述域元数据来确定所述第一数据分类器。
7.根据权利要求1所述的装置,其中所述至少一个非暂态存储器和所述程序代码被配置为利用所述至少一个处理器使得所述装置基于所述第一多个数据对象和与监督学习模型相关联的数据之间的相似度来计算所述置信度分数。
8.一种计算机实现的方法,包括:
接收执行关于第一数据库模式的数据映射过程的请求;
响应于所述请求,
从数据库检索用于与所述第一数据库模式相关联的第一数据模型的第一多个数据对象;
至少基于所述第一多个数据对象来确定对应于所述第一数据库模式的第一数据分类器;
计算与所述第一数据分类器相关联的置信度分数;并且
响应于确定所述置信度分数满足预先确定的阈值,
至少部分地基于所述第一数据分类器和与所述第一多个数据对象相关联的元数据来确定用于与映射规范相关联的数据操作的一组规则;
基于与所述映射规范相关联的所述一组规则,将与所述第一数据库模式相关联的所述第一多个数据对象转换成用于与第二数据库模式相关联的第二数据模型的第二多个数据对象;并且
提供关于所述第二多个数据对象的一个或多个见解。
9.根据权利要求8所述的计算机实现的方法,其中所述第一多个数据对象包括第一数据表,其中所述第一数据表包括至少一个数据字段。
10.根据权利要求9所述的计算机实现的方法,其中所述第一数据表包括名称元数据、列元数据或行元数据中的至少一者。
11.根据权利要求10所述的计算机实现的方法,其中确定对应于所述第一数据库模式的所述第一数据分类器还包括:
检索与所述第一多个数据对象相关联的所述名称元数据、所述列元数据或所述行元数据中的至少一者;并且
进一步基于所述名称元数据、所述列元数据或所述行元数据中的至少一者来确定所述第一数据分类器。
12.根据权利要求9所述的计算机实现的方法,其中所述第一多个数据对象包括第二数据表,其中所述计算机实现的方法还包括:
确定与所述第一数据表和所述第二数据表相关联的相关性元数据;以及
进一步基于所述相关性元数据来确定所述第一数据分类器。
13.根据权利要求9所述的计算机实现的方法,还包括:
确定与所述第一数据表关联的域元数据;以及
进一步基于所述域元数据来确定所述第一数据分类器。
14.根据权利要求8所述的计算机实现的方法,所述计算所述置信度包括基于所述第一多个数据对象和与监督学习模型相关联的数据之间的相似度来计算所述置信度分数。
15.一种计算机程序产品,所述计算机程序产品包括存储有计算机可读程序代码部分的至少一个非暂态计算机可读存储介质,所述计算机可读程序代码部分包括可执行部分,所述可执行部分被配置为:
接收执行关于第一数据库模式的数据映射过程的请求;
响应于所述请求,
从数据库检索用于与所述第一数据库模式相关联的第一数据模型的第一多个数据对象;
至少基于所述第一多个数据对象来确定对应于所述第一数据库模式的第一数据分类器;
计算与所述第一数据分类器相关联的置信度分数;并且
响应于确定所述置信度分数满足预先确定的阈值,
至少部分地基于所述第一数据分类器和与所述第一多个数据对象相关联的元数据来确定用于与映射规范相关联的数据操作的一组规则;
基于与所述映射规范相关联的所述一组规则,将与所述第一数据库模式相关联的所述第一多个数据对象转换成用于与第二数据库模式相关联的第二数据模型的第二多个数据对象;并且
提供关于所述第二多个数据对象的一个或多个见解。
16.根据权利要求15所述的计算机程序产品,其中所述第一多个数据对象包括第一数据表,其中所述第一数据表包括至少一个数据字段。
17.根据权利要求16所述的计算机程序产品,其中所述第一数据表包括名称元数据、列元数据或行元数据中的至少一者。
18.根据权利要求17所述的计算机程序产品,其中当确定对应于所述第一数据库模式的所述第一数据分类器时,所述可执行部分被配置为:
检索与所述第一多个数据对象相关联的所述名称元数据、所述列元数据或所述行元数据中的至少一者;并且
进一步基于所述名称元数据、所述列元数据或所述行元数据中的至少一者来确定所述第一数据分类器。
19.根据权利要求16所述的计算机程序产品,其中所述第一多个数据对象包括第二数据表,其中所述可执行部分被配置为:
确定与所述第一数据表和所述第二数据表相关联的相关性元数据;并且
进一步基于所述相关性元数据来确定所述第一数据分类器。
20.根据权利要求16所述的计算机程序产品,其中当确定对应于所述第一数据库模式的所述第一数据分类器时,所述可执行部分被配置为:
确定与所述第一数据表关联的域元数据;并且
进一步基于所述域元数据来确定所述第一数据分类器。
CN202011141759.3A 2019-10-22 2020-10-22 用于数据映射的方法、装置和系统 Pending CN112699276A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/660,122 US20210117436A1 (en) 2019-10-22 2019-10-22 Methods, apparatuses, and systems for data mapping
US16/660,122 2019-10-22

Publications (1)

Publication Number Publication Date
CN112699276A true CN112699276A (zh) 2021-04-23

Family

ID=73013318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011141759.3A Pending CN112699276A (zh) 2019-10-22 2020-10-22 用于数据映射的方法、装置和系统

Country Status (6)

Country Link
US (1) US20210117436A1 (zh)
EP (1) EP3812919A1 (zh)
JP (1) JP7237905B2 (zh)
KR (1) KR20210048425A (zh)
CN (1) CN112699276A (zh)
AU (2) AU2020257122A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022232274A1 (en) * 2021-04-27 2022-11-03 Synerio Technologies, Inc. System and method of property collection management and architecture
US20220365912A1 (en) * 2021-05-17 2022-11-17 Adp, Llc Data Quality Management System
JP2023100588A (ja) 2022-01-06 2023-07-19 ハネウェル・インターナショナル・インコーポレーテッド グラフィカルユーザインターフェースをナビゲートするためのシステム及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841379A (zh) * 2005-03-28 2006-10-04 微软公司 将文件系统模型映射到数据库对象
US20080222121A1 (en) * 2006-06-02 2008-09-11 Wolfgang Wiessler System for Adaptively Querying a Data Storage Repository
US20180025039A1 (en) * 2016-07-21 2018-01-25 Salesforce.Com, Inc. Enabling a third-party data service to update custom data objects
US20180232528A1 (en) * 2017-02-13 2018-08-16 Protegrity Corporation Sensitive Data Classification

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962497B2 (en) * 2005-02-18 2011-06-14 Microsoft Corporation Relationship modeling
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
JP5576455B2 (ja) * 2012-02-20 2014-08-20 ソリデオ システムズ カンパニー リミテッド Bimデータファイルに含まれたデータを提供する方法、それを記録した記録媒体、およびそれを含むシステム
US10268709B1 (en) * 2013-03-08 2019-04-23 Datical, Inc. System, method and computer program product for database change management
US20170091270A1 (en) * 2015-09-30 2017-03-30 Linkedln Corporation Organizational url enrichment
US11036716B2 (en) * 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US10853376B2 (en) * 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
JP7002459B2 (ja) * 2016-08-22 2022-01-20 オラクル・インターナショナル・コーポレイション 統計プロファイリングおよびリファレンススキーママッチングによるオントロジー帰納のためのシステムおよび方法
US11556805B2 (en) * 2018-02-21 2023-01-17 International Business Machines Corporation Cognitive data discovery and mapping for data onboarding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841379A (zh) * 2005-03-28 2006-10-04 微软公司 将文件系统模型映射到数据库对象
US20080222121A1 (en) * 2006-06-02 2008-09-11 Wolfgang Wiessler System for Adaptively Querying a Data Storage Repository
US20180025039A1 (en) * 2016-07-21 2018-01-25 Salesforce.Com, Inc. Enabling a third-party data service to update custom data objects
US20180232528A1 (en) * 2017-02-13 2018-08-16 Protegrity Corporation Sensitive Data Classification

Also Published As

Publication number Publication date
AU2022204687B2 (en) 2024-03-14
US20210117436A1 (en) 2021-04-22
JP7237905B2 (ja) 2023-03-13
KR20210048425A (ko) 2021-05-03
EP3812919A1 (en) 2021-04-28
AU2020257122A1 (en) 2021-05-06
JP2021068448A (ja) 2021-04-30
AU2022204687A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US20240152754A1 (en) Aggregated embeddings for a corpus graph
US11562012B2 (en) System and method for providing technology assisted data review with optimizing features
US10242258B2 (en) Organizational data enrichment
AU2022204687B2 (en) Methods, apparatuses, and systems for data mapping
US11756059B2 (en) Discovery of new business openings using web content analysis
US9218568B2 (en) Disambiguating data using contextual and historical information
US9104780B2 (en) System and method for natural language processing
US11797593B2 (en) Mapping of topics within a domain based on terms associated with the topics
US11113738B2 (en) Presenting endorsements using analytics and insights
US10769136B2 (en) Generalized linear mixed models for improving search
JP2018128942A (ja) 解析装置、解析方法、およびプログラム
US11409772B2 (en) Active learning for data matching
US10885593B2 (en) Hybrid classification system
US11880657B1 (en) Systems and methods for information extraction accuracy analysis
US11783206B1 (en) Method and system for making binary predictions for a subject using historical data obtained from multiple subjects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination