CN108763565B - 一种基于深度学习的数据自动关联匹配的构建方法 - Google Patents

一种基于深度学习的数据自动关联匹配的构建方法 Download PDF

Info

Publication number
CN108763565B
CN108763565B CN201810567835.3A CN201810567835A CN108763565B CN 108763565 B CN108763565 B CN 108763565B CN 201810567835 A CN201810567835 A CN 201810567835A CN 108763565 B CN108763565 B CN 108763565B
Authority
CN
China
Prior art keywords
association
data
deep learning
matching
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810567835.3A
Other languages
English (en)
Other versions
CN108763565A (zh
Inventor
王济平
黎刚
周健雄
汤克云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Jingxin Software Technology Co ltd
Original Assignee
Guangdong Jingxin Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Jingxin Software Technology Co ltd filed Critical Guangdong Jingxin Software Technology Co ltd
Priority to CN201810567835.3A priority Critical patent/CN108763565B/zh
Publication of CN108763565A publication Critical patent/CN108763565A/zh
Application granted granted Critical
Publication of CN108763565B publication Critical patent/CN108763565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于深度学习的数据自动关联匹配的构建方法,模拟人工在多域的广泛数据间建立匹配关联的过程,令匹配能力和准确度可随着深度学习的优化不断提升,具体是,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化,其特征在于,包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。

Description

一种基于深度学习的数据自动关联匹配的构建方法
技术领域
本发明涉及一种基于深度学习的数据自动关联匹配的构建方法。
背景技术
数据关联匹配是针对于不同来源、不同对象和不同格式的多源数据一种重要的处理过程,不同来源是因为数据从不同的业务系统产生,不同对象是因为不同的数据库和数据表存储的数据实体对象不一样(例如某些是人相关的,某些是企业相关的),不同格式是因为系统和业务管理的实际数据需求不一样,在大数据时代,很多场景下的数据都存在着上述特性,这样对进行组合的挖掘分析带来了很大障碍,数据的挖掘分析依赖于数据间的可关联性,无论是弱关联还是强关联,所以在对大规模具备上述特性的数据进行挖掘分析时,往往花费大量的人力物力在数据关联匹配的处理上。
在多年对城市级政府数据进行运维服务的过程中,我们发现各种部门间的数据差异和不匹配问题十分严重,而在应用数据创造更大价值(包括构建应用和挖掘分析)上对于多领域数据的融合使用是必不可少的,所以在初期我们主要通过人工建立某些关联规则然后通过数据库操作实现,具体的步骤分为三步:一是需要先阅读和理解数据发现可匹配数据,二是需要在数以千计的数据表和数十万计的字段间逐个查看建立匹配规则,三是对匹配的结果进行校验时需要进行数据抽检,整个处理匹配过程耗时耗力,而且容易出错和出现遗漏,导致工作经常需要反复。
深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习通过建立特征观测值对实体进行抽象,不断完善学习任务,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
发明内容
基于上述背景,本发明提出一种基于深度学习的数据自动关联匹配的构建方法,利用深度学习自动提取特征、自动执行、自动学习进化的特性,模拟人工在多域的广泛数据间建立匹配关联的过程,令匹配能力和准确度可随着深度学习的优化不断提升,其具体技术内容如下:
一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。对数据实体的特征进行提取以形成观测值,然后通过观测值来建立学习任务和模型。通过已经整理形成的特征观测值,然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。创建人为干涉和辅助的工具,用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集,从而为深度学习提供更多可用特征,方便其参考进行学习,进而建立起更多规则链和规则集;所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑,通过规则链上从上至下的并行或串行规则实现关联关系建立,并最终输出关联后数据结果;所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑。
本发明的有益效果是:以数个核心对象表为基础去索引相关其他表建立强关联或软关联关系,将人为整理的规则作为特征观测值导入深度学习模型,然后设定深度学习的可用数据范围,设定成功关联的判断标准,然后执行自动关联,输出成功关联的结果集,其中包含了可关联表和关联规则以及关联匹配度,该结果集可直接作为一个任务在相应平台执行或嵌入到某个挖掘分析任务中作为数据处理步骤执行。全库自动匹配保证了不会遗漏,机器的严谨性又避免了出错,其7*24小时的自动运行又提高了效率,其不断学习进化的特性会比人成长更快,能显著提高匹配成功率。
附图说明
图1为数据自动关联匹配的列表显示界面。
图2为数据关联管理界面(新建关联)。
图3为数据关联管理界面(关联结果)。
具体实施方式
如下结合附图1至3,对本申请方案作进一步描述:
一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。
所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。对数据实体的特征进行提取以形成观测值,然后通过观测值来建立学习任务和模型。通过已经整理形成的特征观测值,然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。
创建人为干涉和辅助的工具,用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集,从而为深度学习提供更多可用特征,方便其参考进行学习,进而建立起更多规则链和规则集;所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑,通过规则链上从上至下的并行或串行规则实现关联关系建立,并最终输出关联后数据结果;所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑,例如建立两个企业之间的关联关系,可通过直接的统一社会信用编码、企业名称、法人名称、地址等,也可以通过间接的法人家属关系、法人社会关系、企业股东关系等,甚至还可以通过经营过程中的合同、账务往来等。
上述优选实施方式应视为本申请方案实施方式的举例说明,凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等,均应视为本专利的保护范围。

Claims (5)

1.一种基于深度学习的数据自动关联匹配的构建方法,建立特征观测值对数据实体进行抽象,抽像过程包括提取特征、自动执行、自动学习进化;其特征在于包括如下步骤:将多个人为关联规则作为特征观测值导入至深度学习模型,并设定数据的可用范围与成功关联系的判断标准;以多个核心对象表为基础,通过核心对象表来索引其它表来建立强关联或软关联,继而输出成功关系的结果集,所述结果集中包含有可关联表、关联规则和关联匹配度,该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。
2.根据权利要求1所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。
3.根据权利要求2所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:对数据实体的特征进行提取以形成观测值,然后通过观测值来建立学习任务和模型。
4.根据权利要求3所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:通过已经整理形成的特征观测值,然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。
5.根据权利要求1至4任一项所述的基于深度学习的数据自动关联匹配的构建方法,其特征在于:创建人为干涉和辅助的工具,用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集,从而为深度学习提供更多可用特征,方便其参考进行学习,进而建立起更多规则链和规则集;所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑,通过规则链上从上至下的并行或串行规则实现关联关系建立,并最终输出关联后数据结果;所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑。
CN201810567835.3A 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法 Active CN108763565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810567835.3A CN108763565B (zh) 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810567835.3A CN108763565B (zh) 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法

Publications (2)

Publication Number Publication Date
CN108763565A CN108763565A (zh) 2018-11-06
CN108763565B true CN108763565B (zh) 2022-06-14

Family

ID=63999979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810567835.3A Active CN108763565B (zh) 2018-06-04 2018-06-04 一种基于深度学习的数据自动关联匹配的构建方法

Country Status (1)

Country Link
CN (1) CN108763565B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825526B (zh) * 2019-11-08 2020-10-30 欧冶云商股份有限公司 基于er关系的分布式调度方法及装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880915A (zh) * 2012-09-06 2013-01-16 中山大学 一种基于对热点事件进行关联挖掘的电量预测方法
WO2017196689A1 (en) * 2016-05-13 2017-11-16 Microsoft Technology Licensing, Llc Deep learning of bots through examples and experience
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331481A (zh) * 2014-11-10 2015-02-04 浪潮通信信息系统有限公司 基于大规模数据碰撞获取业务模型数据和物理模型数据关系的方法
CN104679827A (zh) * 2015-01-14 2015-06-03 北京得大信息技术有限公司 一种基于大数据的公开信息关联方法及挖掘引擎
US20160300573A1 (en) * 2015-04-08 2016-10-13 Google Inc. Mapping input to form fields
CN106909566A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 一种数据建模方法及设备
CN105843961B (zh) * 2016-04-18 2018-12-14 中邮建技术有限公司 一种流程与后台数据分离的信息化系统数据库架构方法
CN107357902B (zh) * 2017-07-14 2021-05-28 电子科技大学 一种基于关联规则的数据表分类系统与方法
CN108090167B (zh) * 2017-12-14 2020-11-10 畅捷通信息技术股份有限公司 数据检索的方法、系统、计算设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880915A (zh) * 2012-09-06 2013-01-16 中山大学 一种基于对热点事件进行关联挖掘的电量预测方法
WO2017196689A1 (en) * 2016-05-13 2017-11-16 Microsoft Technology Licensing, Llc Deep learning of bots through examples and experience
CN107704539A (zh) * 2017-09-22 2018-02-16 清华大学 大规模文本信息批量结构化的方法及装置

Also Published As

Publication number Publication date
CN108763565A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN109767255B (zh) 一种通过大数据建模实现智能运营及精准营销的方法
CN110334212A (zh) 一种基于机器学习的领域性审计知识图谱构建方法
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
Jeevalatha et al. Performance analysis of undergraduate students placement selection using decision tree algorithms
CN116662577B (zh) 基于知识图谱的大型语言模型训练方法及装置
CN110705283A (zh) 基于文本法律法规与司法解释匹配的深度学习方法和系统
CN110489749B (zh) 一种智能办公自动化系统的业务流程优化方法
CN111415131A (zh) 一种基于自然语言处理技术的大数据人才简历分析方法
CN108228788A (zh) 办事指南自动提取并关联的方法及电子设备
CN111274301B (zh) 一种基于数据资产智能治理方法及系统
CN108763565B (zh) 一种基于深度学习的数据自动关联匹配的构建方法
CN112199488B (zh) 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN109740947A (zh) 基于专利数据的专家挖掘方法、系统、存储介质及电子终端
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
CN117172319A (zh) 基于大语言模型的自然资源行业知识库构建方法及系统
CN116842092A (zh) 数据建库及归集管理的方法及系统
CN109063063B (zh) 基于多源数据的数据处理方法及装置
CN107239548A (zh) 基于SQL Server和HIVE的报表处理方法
CN110851519A (zh) 基于nlp自然语言通过etl工具进行数据处理的方法
CN111143356B (zh) 报表检索方法及装置
CN109977021A (zh) 一种基于关联规则分析的软件质量管理方法及系统
CN113742495B (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN110766037B (zh) 用于储备项目关联性集群的处理方法
Zhang Application and Analysis of Big Data Mining in the Foreign Affairs Translation System
CN116089502B (zh) 一种基于自适应模型的订单检索分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant