CN108763565A - 一种基于深度学习的数据自动关联匹配的构建方法 - Google Patents

一种基于深度学习的数据自动关联匹配的构建方法 Download PDF

Info

Publication number
CN108763565A
CN108763565A CN201810567835.3A CN201810567835A CN108763565A CN 108763565 A CN108763565 A CN 108763565A CN 201810567835 A CN201810567835 A CN 201810567835A CN 108763565 A CN108763565 A CN 108763565A
Authority
CN
China
Prior art keywords
data
deep learning
rule
feature
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810567835.3A
Other languages
English (en)
Other versions
CN108763565B (zh
Inventor
王济平
黎刚
周健雄
汤克云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Jingxin Software Technology Co Ltd
Original Assignee
Guangdong Jingxin Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Jingxin Software Technology Co Ltd filed Critical Guangdong Jingxin Software Technology Co Ltd
Priority to CN201810567835.3A priority Critical patent/CN108763565B/zh
Publication of CN108763565A publication Critical patent/CN108763565A/zh
Application granted granted Critical
Publication of CN108763565B publication Critical patent/CN108763565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于深度学习的数据自动关联匹配的构建方法,模拟人工在多域的广泛数据间建立匹配关联的过程,令匹配能力和准确度可随着深度学习的优化不断提升,具体是,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化,其特征在于,包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。

Description

一种基于深度学习的数据自动关联匹配的构建方法
技术领域
本发明涉及一种基于深度学习的数据自动关联匹配的构建方法。
背景技术
数据关联匹配是针对于不同来源、不同对象和不同格式的多源数据一种重要的处理过程,不同来源是因为数据从不同的业务系统产生,不同对象是因为不同的数据库和数据表存储的数据实体对象不一样(例如某些是人相关的,某些是企业相关的),不同格式是因为系统和业务管理的实际数据需求不一样,在大数据时代,很多场景下的数据都存在着上述特性,这样对进行组合的挖掘分析带来了很大障碍,数据的挖掘分析依赖于数据间的可关联性,无论是弱关联还是强关联,所以在对大规模具备上述特性的数据进行挖掘分析时,往往花费大量的人力物力在数据关联匹配的处理上。
在多年对城市级政府数据进行运维服务的过程中,我们发现各种部门间的数据差异和不匹配问题十分严重,而在应用数据创造更大价值(包括构建应用和挖掘分析)上对于多领域数据的融合使用是必不可少的,所以在初期我们主要通过人工建立某些关联规则然后通过数据库操作实现,具体的步骤分为三步:一是需要先阅读和理解数据发现可匹配数据,二是需要在数以千计的数据表和数十万计的字段间逐个查看建立匹配规则,三是对匹配的结果进行校验时需要进行数据抽检,整个处理匹配过程耗时耗力,而且容易出错和出现遗漏,导致工作经常需要反复。
深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习通过建立特征观测值对实体进行抽象,不断完善学习任务,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
发明内容
基于上述背景,本发明提出一种基于深度学习的数据自动关联匹配的构建方法,利用深度学习自动提取特征、自动执行、自动学习进化的特性,模拟人工在多域的广泛数据间建立匹配关联的过程,令匹配能力和准确度可随着深度学习的优化不断提升,其具体技术内容如下:
一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。对数据实体的特征进行提取以形成观测值,然后通过观测值来建立学习任务和模型。通过已经整理形成的特征观测值,然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。创建人为干涉和辅助的工具,用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集,从而为深度学习提供更多可用特征,方便其参考进行学习,进而建立起更多规则链和规则集;所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑,通过规则链上从上至下的并行或串行规则实现关联关系建立,并最终输出关联后数据结果;所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑。
本发明的有益效果是:以数个核心对象表为基础去索引相关其他表建立强关联或软关联关系,将人为整理的规则作为特征观测值导入深度学习模型,然后设定深度学习的可用数据范围,设定成功关联的判断标准,然后执行自动关联,输出成功关联的结果集,其中包含了可关联表和关联规则以及关联匹配度,该结果集可直接作为一个任务在相应平台执行或嵌入到某个挖掘分析任务中作为数据处理步骤执行。全库自动匹配保证了不会遗漏,机器的严谨性又避免了出错,其7*24小时的自动运行又提高了效率,其不断学习进化的特性会比人成长更快,能显著提高匹配成功率。
附图说明
图1为数据自动关联匹配的列表显示界面。
图2为数据关联管理界面(新建关联)。
图3为数据关联管理界面(关联结果)。
具体实施方式
如下结合附图1至3,对本申请方案作进一步描述:
一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。
所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。对数据实体的特征进行提取以形成观测值,然后通过观测值来建立学习任务和模型。通过已经整理形成的特征观测值,然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。
创建人为干涉和辅助的工具,用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集,从而为深度学习提供更多可用特征,方便其参考进行学习,进而建立起更多规则链和规则集;所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑,通过规则链上从上至下的并行或串行规则实现关联关系建立,并最终输出关联后数据结果;所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑,例如建立两个企业之间的关联关系,可通过直接的统一社会信用编码、企业名称、法人名称、地址等,也可以通过间接的法人家属关系、法人社会关系、企业股东关系等,甚至还可以通过经营过程中的合同、账务往来等。
上述优选实施方式应视为本申请方案实施方式的举例说明,凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等,均应视为本专利的保护范围。

Claims (5)

1.一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其特征在于包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。
2.根据权利要求1所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。
3.根据权利要求2所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:对数据实体的特征进行提取以形成观测值,然后通过观测值来建立学习任务和模型。
4.根据权利要求3所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:通过已经整理形成的特征观测值,然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。
5.根据权利要求1至4任一项所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:创建人为干涉和辅助的工具,用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集,从而为深度学习提供更多可用特征,方便其参考进行学习,进而建立起更多规则链和规则集;所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑,通过规则链上从上至下的并行或串行规则实现关联关系建立,并最终输出关联后数据结果;所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑。
CN201810567835.3A 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法 Active CN108763565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810567835.3A CN108763565B (zh) 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810567835.3A CN108763565B (zh) 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法

Publications (2)

Publication Number Publication Date
CN108763565A true CN108763565A (zh) 2018-11-06
CN108763565B CN108763565B (zh) 2022-06-14

Family

ID=63999979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810567835.3A Active CN108763565B (zh) 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法

Country Status (1)

Country Link
CN (1) CN108763565B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825526A (zh) * 2019-11-08 2020-02-21 欧冶云商股份有限公司 基于er关系的分布式调度方法及装置、设备以及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880915A (zh) * 2012-09-06 2013-01-16 中山大学 一种基于对热点事件进行关联挖掘的电量预测方法
CN104331481A (zh) * 2014-11-10 2015-02-04 浪潮通信信息系统有限公司 基于大规模数据碰撞获取业务模型数据和物理模型数据关系的方法
CN104679827A (zh) * 2015-01-14 2015-06-03 北京得大信息技术有限公司 一种基于大数据的公开信息关联方法及挖掘引擎
CN105843961A (zh) * 2016-04-18 2016-08-10 中邮建技术有限公司 一种流程与后台数据分离的信息化系统数据库架构方法
US20160300573A1 (en) * 2015-04-08 2016-10-13 Google Inc. Mapping input to form fields
CN106909566A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 一种数据建模方法及设备
WO2017196689A1 (en) * 2016-05-13 2017-11-16 Microsoft Technology Licensing, Llc Deep learning of bots through examples and experience
CN107357902A (zh) * 2017-07-14 2017-11-17 电子科技大学 一种基于关联规则的数据表分类系统与方法
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN108090167A (zh) * 2017-12-14 2018-05-29 畅捷通信息技术股份有限公司 数据检索的方法、系统、计算设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880915A (zh) * 2012-09-06 2013-01-16 中山大学 一种基于对热点事件进行关联挖掘的电量预测方法
CN104331481A (zh) * 2014-11-10 2015-02-04 浪潮通信信息系统有限公司 基于大规模数据碰撞获取业务模型数据和物理模型数据关系的方法
CN104679827A (zh) * 2015-01-14 2015-06-03 北京得大信息技术有限公司 一种基于大数据的公开信息关联方法及挖掘引擎
US20160300573A1 (en) * 2015-04-08 2016-10-13 Google Inc. Mapping input to form fields
CN107430859A (zh) * 2015-04-08 2017-12-01 谷歌公司 将输入映射到表单域
CN106909566A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 一种数据建模方法及设备
CN105843961A (zh) * 2016-04-18 2016-08-10 中邮建技术有限公司 一种流程与后台数据分离的信息化系统数据库架构方法
WO2017196689A1 (en) * 2016-05-13 2017-11-16 Microsoft Technology Licensing, Llc Deep learning of bots through examples and experience
CN107357902A (zh) * 2017-07-14 2017-11-17 电子科技大学 一种基于关联规则的数据表分类系统与方法
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置
CN108090167A (zh) * 2017-12-14 2018-05-29 畅捷通信息技术股份有限公司 数据检索的方法、系统、计算设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825526A (zh) * 2019-11-08 2020-02-21 欧冶云商股份有限公司 基于er关系的分布式调度方法及装置、设备以及存储介质

Also Published As

Publication number Publication date
CN108763565B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
Boyden et al. Seeing the forest for the heterogeneous trees: stand‐scale resource distributions emerge from tree‐scale structure
CN105955962B (zh) 题目相似度的计算方法及装置
CN103970666B (zh) 一种软件重复缺陷报告检测的方法
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
Jeevalatha et al. Performance analysis of undergraduate students placement selection using decision tree algorithms
CN106408249A (zh) 简历与职位匹配方法及装置
CN108229924A (zh) 招聘信息匹配方法、装置以及计算机可读存储介质
CN109685526A (zh) 一种企业信用等级评价方法、装置及相关设备
Agnihotri et al. Building a student at-risk model: An end-to-end perspective from user to data scientist
CN105931116A (zh) 基于深度学习机制的自动化信用评分系统及方法
CN104008143A (zh) 基于数据挖掘的职业能力指标体系构建方法
CN110674970A (zh) 企业法务风险预警方法、装置、设备及可读存储介质
Akgun et al. Automated symmetry breaking and model selection in Conjure
CN109799990A (zh) 源代码注释自动生成方法及系统
Kershner Monitoring and adaptive management
CN103886030B (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN109325888A (zh) 一种基于人工神经网络的学生行为预测方法
CN110705283A (zh) 基于文本法律法规与司法解释匹配的深度学习方法和系统
Işık et al. A comparative study for the agricultural tractor selection problem
Peet et al. Carolina vegetation survey: an initiative to improve regional implementation of the US National Vegetation Classification.
CN114638442A (zh) 面向个体差异的飞行训练方案生成系统、方法及设备
CN108763565A (zh) 一种基于深度学习的数据自动关联匹配的构建方法
CN103793054A (zh) 一种模拟陈述性记忆过程的动作识别方法
CN110362828B (zh) 网络资讯风险识别方法及系统
Andi et al. Association rule algorithm with FP growth for book search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant