CN105095436B - 数据源数据自动建模方法 - Google Patents
数据源数据自动建模方法 Download PDFInfo
- Publication number
- CN105095436B CN105095436B CN201510436270.1A CN201510436270A CN105095436B CN 105095436 B CN105095436 B CN 105095436B CN 201510436270 A CN201510436270 A CN 201510436270A CN 105095436 B CN105095436 B CN 105095436B
- Authority
- CN
- China
- Prior art keywords
- business object
- attribute
- data source
- data
- modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据源数据自动建模方法,包括如下步骤:多数据源接入及表结构解析:接入不同的数据源中的数据,解析各数据源中所有表的表结构;为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为每个属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;归并同类项业务对象:对所有设置业务对象的属性进行汇总并归并同类项;解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。可以方便地进行数据建模,有利于分析用户海量数据。
Description
技术领域
本发明涉及一种数据源数据自动建模方法,具体地涉及一种对复杂数据源数据进行自动建模并展示的方法。
背景技术
很多存储复杂数据的数据源,例如从社交数据库、电商数据库,到人类基因数据库,都是基于复杂的多维、大数据量存储的数据集。针对这种数据集进行处理,存在一个巨大的挑战是如何从海量的数据中发现隐含的数据结构、数据关联关系、并最终提取出有意义的数据。通常来说,分析师想不借助任何工具,从如此巨量的数据中提取出有意义的数据来是不太现实的。通常分析师会借助各种分析工具来帮助提取部分有意义的数据。但是依赖现有分析工具对复杂数据源数据进行建模并展示必须要持续的人机交互。用户需要很熟悉复杂数据集的特性,必须给计算机明确的指令来让计算机调用相应的算法来完成建模。在很多情况下,这种人机交互需要重复进行多次。当用户处理的数据是以万亿计时,这样的数据处理方式非常复杂和繁琐。因此需要一种高级数据自动建模以及可视化方式。
发明内容
针对上述技术问题,本发明目的是:提供一种数据源数据自动建模方法,在海量数据中建立分析模型,可以方便地为业务人员进行数据建模,可以更快更好的分析用户海量数据。
本发明的技术方案是:
一种数据源数据自动建模方法,包括如下步骤:
S01:多数据源接入及表结构解析:接入不同的数据源中的数据,解析各数据源中所有表的表结构;
S02:为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为每个属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;
S03:归并同类项业务对象以及来源:对所有设置业务对象的属性进行汇总并归并同类项;
S04:解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,所述建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
优选的,所述步骤S01中的表结构包括表中的字段以及字段类型。
优选的,所述步骤S01包括以下步骤:
获取表连接及表结构的元数据;
获取表的表结构属性列表;
记录表结构属性列表,并与步骤S02中生成的业务对象映射匹配。
与现有技术相比,本发明的优点是:
1.该方法可以帮助用户基于数据源中数据快速有效的建立起业务模型,还可以帮助用户发现数据源中隐藏的数据之间的深层次关联关系,比如基于用户身份信息时可以挖掘用户的年龄段以及对应的消费量、消费习惯的关联信息。
2.该方法为用户在海量数据中建立分析模型提供了可行的基础,可以嵌在魔镜数据分析平台中,可以方便的为业务人员进行数据建模,可以更快更好的分析用户海量数据。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明数据源数据自动建模方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
如图1所示,一种对复杂数据源数据进行自动建模并展示的方法,具体步骤如下:
A.多数据源接入及表结构解析
对用户的不同数据源中数据进行接入,分析并解析出各数据源中所有表的表结构。数据源可以是mysql、oracle、DB2等关系型数据库,比如说用户有个mysql数据库,库中含有A、B两张表,A表包含A1、A2、A3...A10, 10个字段,B表包含B1、B2、B3三个字段。该步骤可以对mysql数据库中A、B两张表,以及每张表中所有的字段(包括字段类型),使用SQL语法获取数据源元数据的方法解析出A、B两张表表结构。A表包含A1、A2、A3...A10, 10个字段,B表包含B1、B2、B3三个字段,以及每个字段的类型,类型可以为字符型,文本型,数值型,逻辑型和日期型。记录上述结果为后续建模做准备。
SQL语法获取数据源元数据的部分伪代码如下:
1.获取数据库连接及数据库元数据(元数据只数据库本身的架构,连接状态等等): DatabaseMetaData meta=dataSource.getConnection().getMetaData();
2.获取数据库字段属性列表(例如字段类型,是否有默认值等等)
String columnCode=colRet.getString(″COLUMN_NAME″);
String columnName=colRet.getString(″REMARKS″);
String dataType=colRet.getString(″TYPE_NAME″);
int order=colRet.getInt(″ORDINAL_POSITION″);
int decimalDigits=colRet.getInt(″DECIMAL_DIGITS″);
3.记录下第二步字段属性列表,并与生成的业务对象做映射匹配
获取的每个步骤都是由数据库管理系统本身提供的接口提供的。
B.为数据源表中每个字段标识一个业务对象
遍历数据源中所有表,提取所有需要建模的属性列表,为每个属性设置业务对象名称、业务对象类型、业务对象聚集方式。
例如,如果用户从业务角度,对A表中A2、A3字段比较感兴趣,那么用户可以对应的建立业务对象YWA2、YWA3,为每个属性设置业务对象名称YWA2、YWA3,YWA2的业务对象类型是数值型,YWA3是时间类型, YWA2业务对象聚集方式可以是汇总、平均、最大值、最小值等等,YWA3 聚集方式可以是计数。
一般的,数值型的业务对象的聚集方式可以是汇总、平均、最大值、最小值等等,字符类型的业务对象的聚集方式可以是计数。
C.归并同类项业务对象以及来源
对所有设置业务对象的属性进行汇总,归并同类项。
例如,在电商系统数据库中可能包含用户表以及交易表,用户表中包含了用户的身份证信息(实名制),即每个用户都记录了唯一的身份证信息,交易表中也包含了用户信息,即每个交易记录都包含了用户的身份证信息和交易信息。在这种业务场景中,分析该数据库的业务人员可以建立一个用户身份证的业务对象。用户表以及交易表中都包含用户身份证信息,将业务人员建立的用户身份证业务对象关联到用户表中的身份证信息,以及交易表中的身份证信息。当用户希望查询身份证以及其他业务对象的关联关系时,系统知道可以从两个表(两个路径)中分析并得出最优的结果。
D.自动解析业务对象并进行建模
对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模。该建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
例如,交易金额标识为度量,用户所在省份标识为维度,同时归并同类项业务对象。例如步骤C中例子,用户表以及交易表都包含用户身份证信息,则业务人员只需要一个业务对象“用户身份”,把该业务对象同时关联到用户表中身份信息列以及交易表中身份信息列。
用户可以对建模后的模型进行手工设置,最终呈现出用户想要的业务模型以及数据库中表字段的映射,可以减少业务人员对庞大的数据库中所有字段进行手工配置。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (3)
1.一种数据源数据自动建模方法,其特征在于,包括如下步骤:
S01:多数据源表结构解析:解析数据源中所有表的表结构;
S02:为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;
S03:归并同类项业务对象:对所有设置业务对象的属性进行汇总并归并同类项;
S04:解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,所述建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
2.根据权利要求1所述的数据源数据自动建模方法,其特征在于,所述步骤S01中的表结构包括表中的字段、字段类型以及默认值。
3.根据权利要求1所述的数据源数据自动建模方法,其特征在于,所述步骤S01包括以下步骤:
获取表连接及表结构的元数据;
获取表的表结构属性列表;
记录表结构属性列表,并与步骤S02中生成的业务对象映射匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510436270.1A CN105095436B (zh) | 2015-07-23 | 2015-07-23 | 数据源数据自动建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510436270.1A CN105095436B (zh) | 2015-07-23 | 2015-07-23 | 数据源数据自动建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095436A CN105095436A (zh) | 2015-11-25 |
CN105095436B true CN105095436B (zh) | 2018-07-17 |
Family
ID=54575873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510436270.1A Active CN105095436B (zh) | 2015-07-23 | 2015-07-23 | 数据源数据自动建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095436B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255904B (zh) * | 2017-05-04 | 2020-09-08 | 平安科技(深圳)有限公司 | 表结构建模方法和服务器 |
CN109117440B (zh) * | 2017-06-23 | 2021-06-22 | 中移动信息技术有限公司 | 一种元数据信息获取方法、系统和计算机可读存储介质 |
CN109389143A (zh) * | 2018-06-19 | 2019-02-26 | 北京九章云极科技有限公司 | 一种数据分析处理系统及自动建模方法 |
CN113468379A (zh) * | 2020-03-31 | 2021-10-01 | 上海依图网络科技有限公司 | 数据源的处理方法、装置及智能分析平台 |
CN111666313B (zh) * | 2020-05-25 | 2023-02-07 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
CN111948992B (zh) * | 2020-08-05 | 2021-09-10 | 上海微亿智造科技有限公司 | 对工业批产型大数据进行多级递进建模的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102650995A (zh) * | 2011-02-25 | 2012-08-29 | 中国银联股份有限公司 | 多维数据分析模型生成系统及方法 |
CN102855354A (zh) * | 2012-08-21 | 2013-01-02 | 南京南瑞继保电气有限公司 | 一种面向工业企业在线多维能耗数据统计建模方法 |
CN103970758A (zh) * | 2013-01-29 | 2014-08-06 | 鸿富锦精密工业(深圳)有限公司 | 数据库访问系统及方法 |
CN104794221A (zh) * | 2015-04-29 | 2015-07-22 | 苏州国云数据科技有限公司 | 一种基于业务对象的多维数据分析系统 |
-
2015
- 2015-07-23 CN CN201510436270.1A patent/CN105095436B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102650995A (zh) * | 2011-02-25 | 2012-08-29 | 中国银联股份有限公司 | 多维数据分析模型生成系统及方法 |
CN102855354A (zh) * | 2012-08-21 | 2013-01-02 | 南京南瑞继保电气有限公司 | 一种面向工业企业在线多维能耗数据统计建模方法 |
CN103970758A (zh) * | 2013-01-29 | 2014-08-06 | 鸿富锦精密工业(深圳)有限公司 | 数据库访问系统及方法 |
CN104794221A (zh) * | 2015-04-29 | 2015-07-22 | 苏州国云数据科技有限公司 | 一种基于业务对象的多维数据分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105095436A (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095436B (zh) | 数据源数据自动建模方法 | |
US11157550B2 (en) | Image search based on feature values | |
WO2021042521A1 (zh) | 一种合同自动生成方法、计算机设备及计算机非易失性存储介质 | |
JP5616335B2 (ja) | サーチエンジンインデックス内の結合データに対するクエリ | |
CN106980637A (zh) | Sql审核方法和装置 | |
CN112000773B (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
CN104809142A (zh) | 商标查询系统和方法 | |
Chen et al. | Senbazuru: A prototype spreadsheet database management system | |
Kabisch et al. | Deep web integration with visqi | |
CN109960763A (zh) | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN106599240A (zh) | 一种多源数据处理方法及系统 | |
CN101853299A (zh) | 一种基于感性认知的图像检索结果排序方法 | |
CN103440232A (zh) | 一种科技论文标准化自动检测编辑方法 | |
CN106021260A (zh) | 在多个运行时产物中搜索至少一个关系模式的方法和系统 | |
CN104899340B (zh) | 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 | |
CN110750599B (zh) | 一种基于实体建模的关联信息抽取和显示方法 | |
CN106909566A (zh) | 一种数据建模方法及设备 | |
CN103886011A (zh) | 一种基于索引文件的社会关系网络创建与检索系统及方法 | |
US20050114302A1 (en) | Method for fast searching and displaying a genealogical tree of patents from a patent database | |
CN107193996B (zh) | 相似病历匹配检索系统 | |
CN103678593A (zh) | 一种基于空间场景草图描述的交互式空间场景检索方法 | |
Chu et al. | Automatic data extraction of websites using data path matching and alignment | |
CN104731908A (zh) | 一种基于etl的数据清洗方法 | |
EP1492030A3 (en) | System and method for online analytical processing using dimension attributes and multiple hierarchies per dimension | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |