CN111625579A

CN111625579A - 一种信息处理方法、装置及系统

Info

Publication number: CN111625579A
Application number: CN201910148482.8A
Authority: CN
Inventors: 曾骞; 王浩
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-04
Anticipated expiration: 2039-02-27
Also published as: CN116401305A; CN111625579B

Abstract

本申请提供一种信息处理方法、装置及系统。其中，所述信息处理方法包括：获取逻辑模型和业务模型之间字段相似度；根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。本申请还提供一种获取业务模型的主键信息的方法，所述方法包括：获取业务模型中的字段及数据；根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息和/或字段的特征信息；根据所述字段的统计信息、所述字段的指定属性判断信息和/或所述字段的特征信息，获取所述业务模型的主键信息。本申请还提供一种获取逻辑模型的相关业务模型的方法。采用本申请提供的这些方法，以提高ETL过程中的建模效率。

Description

一种信息处理方法、装置及系统

技术领域

本申请涉及数据仓库领域，具体涉及一种信息处理方法、装置及系统。

背景技术

ETL过程(Extract-Transform-Load，数据抽取、转换、装载过程)作为BI/DW(Business Intelligence/Data Warehouse，商业智能/数据仓库)的核心和灵魂，能够按照统一的规则集成数据，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的重要步骤。

ETL过程一般包括，从业务模型中抽象出很多逻辑模型，然后将逻辑模型开发实现为物理模型。业务模型，是指将公司或者部门级的业务进行分解，从而构建出的符合业务特点的数据模型。逻辑模型，是指抽象出业务模型中的实体、实体之间的关系等，并设计出实体属性、主键等信息。物理模型，是指对逻辑模型做具体实施，设计数据仓库体系结构，将数据放入数据仓库。

现有技术中，完成ETL过程需要开发人员对业务模型、逻辑模型充分理解、明确开发物理模型所需的业务模型，并设计具体的开发方法。但是，当ETL过程中的模型数量较大时，ETL过程中建模会花费较长时间。而且，ETL过程的时间随着模型量的增加呈指数增长，极大地降低了建模效率。

发明内容

本申请提供一种信息处理方法，以提高ETL等数据处理过程中的建模效率。

本申请提供的信息处理方法，包括：

获取逻辑模型和业务模型之间字段相似度；

根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。

可选的，所述获取逻辑模型和业务模型之间字段相似度，包括：

获取所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度；

根据所述编辑距离和/或所述语义相似度，获取逻辑模型和业务模型之间字段相似度。

可选的，所述获取所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，包括：

获取逻辑模型的元数据和业务模型的元数据；

针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果；

根据所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度。

可选的，所述针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果，包括：

针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型的初始分词结果和所述业务模型的初始分词结果；

根据所述逻辑模型的初始分词结果，删除所述逻辑模型的元数据中的标点符号和停用词，获得所述逻辑模型中字段的分词结果，并根据所述业务模型的初始分词结果，删除所述业务模型的元数据中的标点符号和停用词，获得所述业务模型中字段的分词结果。

可选的，所述逻辑模型的元数据包括如下数据中的至少一种：

所述逻辑模型的字段名称；

所述逻辑模型的字段注释；

所述逻辑模型的字段类型。

可选的，所述业务模型的元数据包括如下数据中的至少一种：

所述业务模型的字段名称；

所述业务模型的字段注释；

所述业务模型的字段类型。

可选的，所述根据所述逻辑模型的字段分词结果和所述业务模型的字段分词结果，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，包括：

根据所述逻辑模型的字段分词结果和所述业务模型的字段分词结果，利用编辑距离算法，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离；

根据所述逻辑模型的字段分词结果和所述业务模型的字段分词结果，利用近义词词库，获得所述逻辑模型中字段与所述业务模型中字段之间的语义相似度。

可选的，所述根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系，包括：

根据所述逻辑模型和业务模型之间字段相似度，获得与所述逻辑模型中的字段具有最高相似度的所述业务模型中的字段；

根据所述逻辑模型中的字段、所述具有最高相似度的所述业务模型中的字段，获取逻辑模型和业务模型之间字段的映射关系。

可选的，所述获取逻辑模型和业务模型之间字段的映射关系的方法，还包括：

获取建立数据仓库的请求；

根据所述建立数据仓库的请求，利用逻辑模型和业务模型之间字段的映射关系，确定与所述逻辑模型及所述业务模型对应的物理模型；

根据所述物理模型，建立数据仓库。

本申请提供一种信息处理装置，包括：

相似度获取单元，用于根据所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，获取逻辑模型和业务模型之间字段相似度；

映射获取单元，用于根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。

本申请提供一种获取业务模型的主键信息的方法，包括：

获取业务模型中的字段及数据；

根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息、字段的特征信息；

根据所述字段的统计信息、所述字段的指定属性判断信息、所述字段的特征信息，获取所述业务模型的主键信息。

可选的，所述获取业务模型中的字段及数据，包括：

获取所述业务模型中指定数量的数据。

可选的，所述字段的统计信息，包括以下统计信息中的至少一种：

字段的空值率；

字段的重复率；

字段的数据长度的平均值；

字段的数据长度的方差。

可选的，所述字段的指定属性判断信息，包括如下信息中的至少一种：

所述字段是否为身份证号码；

所述字段是否为日期；

所述字段是否为链接信息；

所述字段是否为电话号码；

所述字段是否为时间戳；

所述字段是否为地址信息；

所述字段是否为校验位；

所述字段是否为单调递增序列。

可选的，所述字段的特征信息，包括如下信息中的至少一种：

所述字段是否为数字；

所述字段是否包含汉字；

所述字段是否包含特殊符号；

所述字段是否具有同类前缀或者同类后缀；

所述字段在所述业务模型中的位置信息。

可选的，所述根据所述字段的统计信息、所述字段的指定属性判断、所述字段的特征信息，获取所述业务模型的主键信息，包括：

根据所述字段的统计信息、所述字段的指定属性判断、所述字段的特征信息，构建所述业务模型的主键信息的推荐策略；

根据所述业务模型的主键信息的推荐策略，获得所述业务模型的候选主键；

将所述业务模型的候选主键进行分类，获得候选主键的分类结果；

根据所述分类结果，获取所述业务模型的主键信息。

可选的，所述获取业务模型的主键信息的方法，还包括：

获取建立数据仓库的请求；

根据所述建立数据仓库的请求，利用所述业务模型的主键信息，确定与所述逻辑模型及业务模型对应的物理模型；

根据所述物理模型，建立数据仓库。

本申请提供一种获取业务模型的主键信息的装置，包括：

字段及数据获取单元，用于获取业务模型中的字段及数据；

字段信息计算单元，用于根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息、字段的特征信息；

主键信息计算单元，用于根据所述字段的统计信息、所述字段的指定属性判断信息、所述字段的特征信息，获取所述业务模型的主键信息。

本申请提供一种获取逻辑模型的相关业务模型的方法，包括：

获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据；

针对所述待处理业务模型的原始数据以及待处理逻辑模型的原始数据进行分词处理，获得所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息；

根据所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息，依据利用历史数据进行训练获得的历史业务模型的标准特征信息的统计信息以及利用历史数据进行训练获得的历史逻辑模型的标准特征信息的统计信息，获得所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值；

根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，获得所述待处理业务模型和所述待处理逻辑模型的相关度；

根据所述待处理业务模型和所述待处理逻辑模型的相关度，获取与所述待处理逻辑模型相关的业务模型。

可选的，所述获取逻辑模型的相关业务模型的方法，还包括：

获取所述历史业务模型和所述历史逻辑模型之间的单层血缘关系；

根据所述单层血缘关系，获得所述历史业务模型和所述历史逻辑模型之间的所有血缘关系；

针对所述历史业务模型的原始数据进行分词处理，获得所述历史业务模型的标准特征信息；

根据所述历史逻辑模型的原始数据、所述历史业务模型的标准特征信息、所述历史业务模型和所述历史逻辑模型之间的所有血缘关系，获得所述逻辑模型的标准特征信息；

根据所述历史业务模型的标准特征信息、所述逻辑模型的标准特征信息，获得所述历史业务模型的标准特征信息的统计信息和所述历史逻辑模型的标准特征信息的统计信息。

获取建立数据仓库的请求；

根据所述建立数据仓库的请求，利用与所述待处理逻辑模型相关的业务模型，确定与所述待处理逻辑模型对应的物理模型；

根据所述物理模型，建立所述数据仓库。

本申请提供一种获取逻辑模型的相关业务模型的装置，包括：

原始数据获取单元，用于获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据；

分词处理单元，用于针对所述待处理业务模型的原始数据以及待处理逻辑模型的原始数据进行分词处理，获得所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息；

统计值获得单元，用于根据所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息，依据利用历史数据进行训练获得的历史业务模型的标准特征信息的统计信息以及利用历史数据进行训练获得的历史逻辑模型的标准特征信息的统计信息，获得所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值；

相关度获得单元，用于根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，获得所述待处理业务模型和所述待处理逻辑模型的相关度；

业务模型获取单元，用于根据所述待处理业务模型和所述待处理逻辑模型的相关度，获取所述待处理逻辑模型的相关业务模型。

本申请提供一种数据仓库的建立方法，包括：

获取与逻辑模型相关的业务模型；

获取业务模型的主键信息；

获取所述逻辑模型和所述业务模型之间字段的映射关系；

根据所述业务模型的主键信息和所述映射关系，确定与所述逻辑模型及所述业务模型对应的物理模型；

根据所述物理模型，建立与所述物理模型对应的数据仓库。

本申请提供一种数据处理系统，包括：业务模型的主键信息获取模块、业务模型获取模块、字段映射关系获取模块以及数据仓库建立模块；

所述业务模型获取模块用于，获取与逻辑模型相关的业务模型；

所述业务模型的主键信息获取模块用于，获取所述业务模型的主键信息；

所述字段映射关系获取模块用于，获取所述逻辑模型和所述业务模型之间字段的映射关系；

所述数据仓库建立模块用于，根据所述业务模型的主键信息和所述映射关系，确定与所述逻辑模型及所述业务模型对应的物理模型；根据所述物理模型，建立与所述物理模型对应的数据仓库。

与现有技术相比，本申请具有如下优点：

采用本申请提供的获取逻辑模型和业务模型之间字段的映射关系的方法，获取逻辑模型的元数据和业务模型的元数据；针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果；根据所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度；根据所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，获取逻辑模型和业务模型之间字段相似度；根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。

通过本申请提供的获取逻辑模型和业务模型之间字段的映射关系的方法，可以快速获取逻辑模型和业务模型之间字段的映射关系，以提高ETL过程中的建模效率。

采用本申请提供的获取业务模型的主键信息的方法，获取业务模型中的字段及数据；根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息、字段的特征信息；根据所述字段的统计信息、所述字段的指定属性判断信息、所述字段的特征信息，获取所述业务模型的主键信息。

通过本申请提供的获取业务模型的主键信息的方法，可以快速获取业务模型的主键信息，以提高ETL过程中的建模效率。

采用本申请提供的获取逻辑模型的相关业务模型的方法，获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据；针对所述待处理业务模型的原始数据以及待处理逻辑模型的原始数据进行分词处理，获得所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息；根据所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息，依据利用历史数据进行训练获得的历史业务模型的标准特征信息的统计信息以及利用历史数据进行训练获得的历史逻辑模型的标准特征信息的统计信息，获得所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值；根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，获得所述待处理业务模型和所述待处理逻辑模型的相关度；根据所述待处理业务模型和所述待处理逻辑模型的相关度，获取与所述待处理逻辑模型相关的业务模型。

通过本申请提供的获取逻辑模型的相关业务模型的方法，可以快速获取逻辑模型的相关业务模型，以提高ETL过程中的建模效率。

附图说明

图1是本申请第一实施例提供的一种获取逻辑模型和业务模型之间字段的映射关系的方法流程图；

图2是本申请第二实施例提供的一种获取逻辑模型和业务模型之间字段的映射关系的装置示意图；

图3是本申请第三实施例提供的一种获取业务模型的主键信息的方法流程图；

图4是本申请第四实施例提供的一种获取业务模型的主键信息的装置示意图；

图5是本申请第五实施例提供的一种获取逻辑模型的相关业务模型的方法流程图；

图6是本申请第六实施例提供的一种获取逻辑模型的相关业务模型的装置示意图；

图7是本申请第七实施例提供的一种数据仓库的建立方法的流程图；

图8是本申请第八实施例提供的一种数据处理系统的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请第一实施例提供一种信息处理方法。请参看图1，该图为本申请第一实施例的示意图。以下结合图1对本申请第一实施例提供一种信息处理方法进行详细说明。所述方法的实施方式包括如下步骤：

步骤S101：获取逻辑模型和业务模型之间字段相似度。

本步骤用于获取逻辑模型和业务模型之间字段相似度。

所述获取逻辑模型和业务模型之间字段相似度，包括：

获取所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度之后，可以通过加权计算，可以获取逻辑模型和业务模型之间字段相似度；也可以仅通过所述编辑距离或者仅通过所述语义相似度，获取逻辑模型和业务模型之间字段相似度。

所述获取所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，包括：

获取逻辑模型的元数据和业务模型的元数据；

所述逻辑模型的元数据包括如下数据中的至少一种：

所述逻辑模型的字段名称；

所述逻辑模型的字段注释；

所述逻辑模型的字段类型。

所述业务模型的元数据包括如下数据中的至少一种：

所述业务模型的字段名称；

所述业务模型的字段注释；

所述业务模型的字段类型。

所述针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果，包括：

在自然语言处理中，分词是经常用到的预处理步骤。英文单词天然有空格隔开容易按照空格分词，但有时也需要把多个单词作为一个分词，比如一些名词如“New York”，需要作为一个词看待。而中文由于没有空格，分词需要特殊处理。由于分词是一个常用的技术手段，这里不再详细说明。

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。

所述根据所述逻辑模型的字段分词结果和所述业务模型的字段分词结果，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，包括：

编辑距离，又称Levenshtein距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作的次数。这里的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。编辑距离反映了字符串之间的物理相似度，即进行几次操作可以将一个字符替换成另一个字符。

字段之间的语义相似度，可以通过查询近义词词库的方式获得。

步骤S102：根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。

本步骤用于根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。

所述根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系，包括：

通过本实施例提供的上述方法，可以为逻辑模型和业务模型中的每对字段做智能映射计算，自动推荐出业务模型C2中与逻辑模型C1中的字段A最相似的字段B。

所述获取逻辑模型和业务模型之间字段的映射关系的方法，还包括：

获取建立数据仓库的请求；

根据所述物理模型，建立数据仓库。

上述步骤，给出了利用逻辑模型和业务模型之间字段的映射关系，建立数据仓库的方法。首先，获取建立数据仓库的请求；然后，根据所述建立数据仓库的请求，利用逻辑模型和业务模型之间字段的映射关系，确定与所述逻辑模型及所述业务模型对应的物理模型；最后，根据所述物理模型，建立数据仓库。

在上述的实施例中，提供了一种信息处理方法，与之相对应的，本申请还提供一种信息处理装置。请参看图2，其为本申请的一种信息处理装置实施例的示意图。由于本实施例，即第二实施例，基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种信息处理装置，包括：

相似度获取单元201，用于根据所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，获取逻辑模型和业务模型之间字段相似度；

映射获取单元202，用于根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系。

本实施例中，所述相似度获取单元，具体用于：获取所述逻辑模型中字段与所述业务模型中字段之间的编辑距离、所述逻辑模型中字段与所述业务模型中字段之间的语义相似度之后，通过加权计算，获取逻辑模型和业务模型之间字段相似度。

本实施例中，所述相似度获取单元，还用于：获取逻辑模型的元数据和业务模型的元数据；针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果；根据所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度。

本申请第三实施例提供一种获取业务模型的主键信息的方法。请参看图3，该图为本申请第三实施例的示意图。以下结合图3对本申请第三实施例提供一种获取业务模型的主键信息的方法进行详细说明。所述方法的实施方式包括如下步骤：

步骤S301：获取业务模型中的字段及数据。

本步骤用于获取业务模型中的字段及数据。

所述获取业务模型中的字段及数据，包括：

获取所述业务模型中指定数量的数据。

针对每个业务模型，随机获取业务模型中固定数量的字段数据。例如，固定数量为10000条。如果业务模型中的数据没有达到该固定数量，则获取业务模型中所有的字段。

步骤S302：根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息、字段的特征信息。

本步骤用于根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息、字段的特征信息。

所述字段的指定属性判断信息，包括如下信息中的至少一种：

所述字段是否为身份证号码；

所述字段是否为日期；

所述字段是否为链接信息；

所述字段是否为电话号码；

所述字段是否为时间戳；

所述字段是否为地址信息；

所述字段是否为校验位；

所述字段是否为单调递增序列。

所述字段的特征信息，包括如下信息中的至少一种：

所述字段是否全部为数字；

所述字段是否包含汉字；

所述字段是否包含特殊符号；

所述字段是否具有同类前缀或者同类后缀；

所述字段在所述业务模型中的位置信息。

步骤S303：根据所述字段的统计信息、所述字段的指定属性判断信息、所述字段的特征信息，获取所述业务模型的主键信息。

本步骤用于根据所述字段的统计信息、所述字段的指定属性判断信息、所述字段的特征信息，获取所述业务模型的主键信息。

所述根据所述字段的统计信息、所述字段的指定属性判断、所述字段的特征信息，获取所述业务模型的主键信息，包括：

根据所述分类结果，获取所述业务模型的主键信息。

所述业务模型的主键信息可以为单字段主键信息，也可以为联合字段主键信息。

本实施例提供的获取所述业务模型的主键信息的方法，借助于大数据分析技术，可以为数据仓库体系结构的操作数据存储(ods，Operational Data Store)层的每一个业务模型自动推荐主键。

所述获取业务模型的主键信息的方法，还包括：

获取建立数据仓库的请求；

根据所述物理模型，建立数据仓库。

采用上述步骤，将获取到的所述业务模型的主键信息，用于建立数据仓库的过程中，从而减轻了ETL过程中设计开发方案、方案具体实施的工作量。

在上述的实施例中，提供了一种获取业务模型的主键信息的方法，与之相对应的，本申请还提供一种获取业务模型的主键信息的装置。请参看图4，其为本申请的一种获取业务模型的主键信息的装置实施例的流程图。由于本实施例，即第四实施例，基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种获取业务模型的主键信息的装置，包括：

字段及数据获取单元401，用于获取业务模型中的字段；

字段信息计算单元402，用于根据所述字段，获取字段的统计信息、字段的指定属性判断信息、字段的特征信息；

主键信息计算单元403，用于根据所述字段的统计信息、所述字段的指定属性判断信息、所述字段的特征信息，获取所述业务模型的主键信息。

本实施例中，所述字段获取单元，具体用于：获取所述业务模型中指定数量的字段数据。

本实施例中，所述主键信息获取单元，具体用于：根据所述字段的统计信息、所述字段的指定属性判断、所述字段的特征信息，构建所述业务模型的主键信息的推荐策略；

根据所述分类结果，获取所述业务模型的主键信息。

本申请第五实施例提供一种获取逻辑模型的相关业务模型的方法。请参看图5，该图为本申请第五实施例的示意图。以下结合图5对本申请第五实施例提供一种获取逻辑模型的相关业务模型的方法进行详细说明。本实施例用于为逻辑模型推荐最相关的前N个业务模型，并且可以给出模型之间的相关度得分。本实施例提供的方法采用机器学习中的算法，分为训练部分和推荐部分。

所述方法的实施方式包括如下步骤：

步骤S501：获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据。

本步骤用于获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据。

本步骤属于本实施例的推荐部分。首先，采集获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据，然后根据针对训练数据的分析，为逻辑模型推荐业务模型。

步骤S502：针对所述待处理业务模型的原始数据以及待处理逻辑模型的原始数据进行分词处理，获得所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息。

本步骤用于针对所述待处理业务模型的原始数据以及待处理逻辑模型的原始数据进行分词处理，获得所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息。

本步骤属于本实施例的推荐部分。本实施例中，所述待处理业务模型的标准特征信息可以为代表待处理业务模型的特征词语，所述待处理逻辑模型的标准特征信息可以为所述待处理逻辑模型的特征词语。

步骤S503：根据所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息，依据利用历史数据进行训练获得的历史业务模型的标准特征信息的统计信息以及利用历史数据进行训练获得的历史逻辑模型的标准特征信息的统计信息，获得所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值。

本步骤用于根据所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息，依据利用历史数据进行训练获得的历史业务模型的标准特征信息的统计信息以及利用历史数据进行训练获得的历史逻辑模型的标准特征信息的统计信息，获得所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值。

历史逻辑模型的统计信息，包括历史逻辑模型中标准特征信息中每个词语的tf(term frequency，词频)、idf(inverse document frequency，逆文档频率)、tf-idf(TermFrequency-Inverse DocumentFrequency，词频-逆文件频率)等。Tf、idf，tf-idf的计算方法如下：

tf＝某个词在文章中的出现次数/文章总词数；

idf＝log(语料库的文档总数/包含该词的文档总数+1)；

tf-idf＝tf*idf。

步骤S504：根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，获得所述待处理业务模型和所述待处理逻辑模型的相关度。

本步骤用于根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，获得所述待处理业务模型和所述待处理逻辑模型的相关度。

根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，就可以统计获得所述待处理业务模型和所述待处理逻辑模型的相关度。

步骤S505：根据所述待处理业务模型和所述待处理逻辑模型的相关度，获取与所述待处理逻辑模型相关的业务模型。

本步骤用于根据所述待处理业务模型和所述待处理逻辑模型的相关度，获取与所述待处理逻辑模型相关的业务模型。

按照所述待处理业务模型和所述待处理逻辑模型的相关度，获得待处理逻辑模型的最相关的多个业务模型，并给出具体的所述待处理业务模型和所述待处理逻辑模型的相关度得分。

所述获取逻辑模型的相关业务模型的方法，还包括：

本步骤属于本实施例的训练部分。所述单层血缘关系是指如果模型1直接依赖于模型2，则认为模型1和模型2之间具有单层的血缘关系，模型1从模型2继承。在dataworks等数据开发系统的元数据中，会保留模型之间的单层依赖关系，即单层血缘关系。

根据所述单层血缘关系，获得所述历史业务模型和所述历史逻辑模型之间的所有血缘关系，包括：

根据图模型理论，构建血缘传播算法，计算两种模型之间的所有血缘关系。

根据图模型中节点之间的关联性、传播性、方向性等，计算图模型中带有方向的最大联通子图等，从而构建血缘传播算法。

血缘传播算法的具体实现包括：通过节点之间的单层血缘关系计算带有方向的最大联通子图；针对每个联通子图计算每个节点依赖的其他节点；从而可以计算出每个模型所依赖的多层血缘关系。

所述获取逻辑模型的相关业务模型的方法，还包括：

获取建立数据仓库的请求；

根据所述物理模型，建立所述数据仓库。

所述步骤提供了使用获取的逻辑模型的相关业务模型的一种场景。

在上述的实施例中，提供了一种获取逻辑模型的相关业务模型的方法，与之相对应的，本申请还提供一种获取逻辑模型的相关业务模型的装置。请参看图6，其为本申请的一种获取逻辑模型的相关业务模型的装置实施例的流程图。由于本实施例，即第六实施例，基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种获取逻辑模型的相关业务模型的装置，包括：

原始数据获取单元601，用于获取待处理业务模型的原始数据以及待处理逻辑模型的原始数据；

分词处理单元602，用于针对所述待处理业务模型的原始数据以及待处理逻辑模型的原始数据进行分词处理，获得所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息；

统计值获得单元603，用于根据所述待处理业务模型的标准特征信息以及所述待处理逻辑模型的标准特征信息，依据利用历史数据进行训练获得的历史业务模型的标准特征信息的统计信息以及利用历史数据进行训练获得的历史逻辑模型的标准特征信息的统计信息，获得所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值；

相关度获得单元604，用于根据所述待处理业务模型的标准特征信息的统计值以及所述待处理逻辑模型的标准特征信息的统计值，获得所述待处理业务模型和所述待处理逻辑模型的相关度；

业务模型获取单元605，用于根据所述待处理业务模型和所述待处理逻辑模型的相关度，获取所述待处理逻辑模型的相关业务模型。

本申请第七实施例提供一种数据仓库的建立方法，请参考图7，其为一种数据仓库的建立方法的流程图。所述方法包括：

步骤S701：获取与逻辑模型相关的业务模型。

本步骤用于获取业务模型的主键信息。

针对该步骤，请参考本申请第五实施例的相关部分。步骤S702：获取所述业务模型的主键信息。

本步骤用于获取所述业务模型的主键信息。

步骤S703：获取所述逻辑模型和所述业务模型之间字段的映射关系。

本步骤用于获取所述逻辑模型和所述业务模型之间字段的映射关系。

针对该步骤，请参考本申请第一实施例的相关部分。

步骤S704：根据所述业务模型的主键信息和所述映射关系，确定与所述逻辑模型及所述业务模型对应的物理模型。

本步骤用于根据所述业务模型的主键信息和所述映射关系，确定与所述逻辑模型及所述业务模型对应的物理模型。

步骤S705：根据所述物理模型，建立与所述物理模型对应的数据仓库。

本步骤用于根据所述物理模型，建立与所述物理模型对应的数据仓库。

本申请第八实施例提供一种数据处理系统，请参考图8，其为一种数据处理系统的示意图。所述系统包括：业务模型的主键信息获取模块801、业务模型获取模块803、字段映射关系获取模块802以及数据仓库建立模块804；

由于本实施例是第七实施例对应的系统实施例，因此描述的比较简单。相关部分，请参考第七实施例中的说明。

本申请第九实施例提供一种电子设备，所述电子设备包括：处理器；以及，存储器，用于存储工计算机程序，该设备通过所述处理器运行该计算机程序后，执行本申请第一实施例提供的一种信息处理方法，或者执行本申请第三实施例提供的一种获取业务模型的主键信息的方法，或者执行本申请第五实施例提供的一种获取逻辑模型的相关业务模型的方法，或者执行本申请第七实施例提供一种数据仓库的建立方法。

本申请第十实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该程序被处理器运行，执行本申请第一实施例提供的一种信息处理方法，或者执行本申请第三实施例提供的一种获取业务模型的主键信息的方法，或者执行本申请第五实施例提供的一种获取逻辑模型的相关业务模型的方法，或者执行本申请第七实施例提供一种数据仓库的建立方法。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个操作器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRM)、其他类型的随机存取存储器(RM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种信息处理方法，其特征在于，包括：

获取逻辑模型和业务模型之间字段相似度；

2.根据权利要求1所述的信息处理方法，其特征在于，所述获取逻辑模型和业务模型之间字段相似度，包括：

3.根据权利要求2所述的信息处理方法，其特征在于，所述获取所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，包括：

获取逻辑模型的元数据和业务模型的元数据；

4.根据权利要求3所述的信息处理方法，其特征在于，所述针对所述逻辑模型的元数据和所述业务模型的元数据进行分词处理，获得所述逻辑模型中字段的分词结果和所述业务模型中字段的分词结果，包括：

5.根据权利要求3所述的信息处理方法，其特征在于，所述逻辑模型的元数据包括如下数据中的至少一种：

所述逻辑模型的字段名称；

所述逻辑模型的字段注释；

所述逻辑模型的字段类型。

6.根据权利要求3所述的信息处理方法，其特征在于，所述业务模型的元数据包括如下数据中的至少一种：

所述业务模型的字段名称；

所述业务模型的字段注释；

所述业务模型的字段类型。

7.根据权利要求3所述的信息处理方法，其特征在于，所述根据所述逻辑模型的字段分词结果和所述业务模型的字段分词结果，获得所述逻辑模型中字段与所述业务模型中字段之间的编辑距离和/或所述逻辑模型中字段与所述业务模型中字段之间的语义相似度，包括：

和/或根据所述逻辑模型的字段分词结果和所述业务模型的字段分词结果，利用近义词词库，获得所述逻辑模型中字段与所述业务模型中字段之间的语义相似度。

8.根据权利要求1所述的信息处理方法，其特征在于，所述根据所述逻辑模型和业务模型之间字段相似度，获取逻辑模型和业务模型之间字段的映射关系，包括：

9.根据权利要求1所述的信息处理方法，其特征在于，还包括：

获取建立数据仓库的请求；

根据所述物理模型，建立数据仓库。

10.一种信息处理装置，其特征在于，包括：

相似度获取单元，用于获取逻辑模型和业务模型之间字段相似度；

11.一种获取业务模型的主键信息的方法，其特征在于，包括：

获取业务模型中的字段及数据；

根据所述字段及数据进行计算，获取字段的统计信息、字段的指定属性判断信息和/或字段的特征信息；

根据所述字段的统计信息、所述字段的指定属性判断信息和/或所述字段的特征信息，获取所述业务模型的主键信息。

12.根据权利要求11所述的获取业务模型的主键信息的方法，其特征在于，所述获取业务模型中的字段及数据，包括：

获取所述业务模型中指定数量的数据。

13.根据权利要求11所述的获取业务模型的主键信息的方法，其特征在于，所述字段的统计信息，包括以下统计信息中的至少一种：

字段的空值率；

字段的重复率；

字段的数据长度的平均值；

字段的数据长度的方差。

14.根据权利要求11所述的获取业务模型的主键信息的方法，其特征在于，所述字段的指定属性判断信息，包括如下信息中的至少一种：

所述字段是否为身份证号码；

所述字段是否为日期；

所述字段是否为链接信息；

所述字段是否为电话号码；

所述字段是否为时间戳；

所述字段是否为地址信息；

所述字段是否为校验位；

所述字段是否为单调递增序列。

15.根据权利要求11所述的获取业务模型的主键信息的方法，其特征在于，所述字段的特征信息，包括如下信息中的至少一种：

所述字段是否为数字；

所述字段是否包含汉字；

所述字段是否包含特殊符号；

所述字段是否具有同类前缀或者同类后缀；

所述字段在所述业务模型中的位置信息。

16.根据权利要求11所述的获取业务模型的主键信息的方法，其特征在于，所述根据所述字段的统计信息、所述字段的指定属性判断、所述字段的特征信息，获取所述业务模型的主键信息，包括：

根据所述分类结果，获取所述业务模型的主键信息。

17.根据权利要求11所述的获取业务模型的主键信息的方法，其特征在于，还包括：

获取建立数据仓库的请求；

根据所述物理模型，建立数据仓库。

18.一种获取业务模型的主键信息的装置，其特征在于，包括：

字段及数据获取单元，用于获取业务模型中的字段及数据；

19.一种获取逻辑模型的相关业务模型的方法，其特征在于，包括：

20.根据权利要求19所述的获取逻辑模型的相关业务模型的方法，其特征在于，还包括：

21.根据权利要求19所述的获取逻辑模型的相关业务模型的方法，其特征在于，还包括：

获取建立数据仓库的请求；

根据所述物理模型，建立所述数据仓库。

22.一种获取逻辑模型的相关业务模型的装置，其特征在于，包括：

23.一种数据仓库的建立方法，其特征在于，包括：

获取与逻辑模型相关的业务模型；

获取所述业务模型的主键信息；

获取所述逻辑模型和所述业务模型之间字段的映射关系；

根据所述物理模型，建立与所述物理模型对应的数据仓库。

24.一种数据处理系统，其特征在于，包括：业务模型的主键信息获取模块、业务模型获取模块、字段映射关系获取模块以及数据仓库建立模块；

25.一种电子设备，其特征在于，包括：

处理器；

以及，

存储器，用于存储工计算机程序，该设备通过所述处理器运行该计算机程序后，执行如权利要求1-9、11-17、19-21、23任意一项所述方法。

26.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该程序被处理器运行，执行如权利要求1-9、11-17、19-21、23任意一项所述的方法。