CN108763565B

CN108763565B - 一种基于深度学习的数据自动关联匹配的构建方法

Info

Publication number: CN108763565B
Application number: CN201810567835.3A
Authority: CN
Inventors: 王济平; 黎刚; 周健雄; 汤克云
Original assignee: Guangdong Jingxin Software Technology Co ltd
Current assignee: Guangdong Jingxin Software Technology Co ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2022-06-14
Anticipated expiration: 2038-06-04
Also published as: CN108763565A

Abstract

本发明提出一种基于深度学习的数据自动关联匹配的构建方法，模拟人工在多域的广泛数据间建立匹配关联的过程，令匹配能力和准确度可随着深度学习的优化不断提升，具体是，建立特征观测值对数据实体进行抽象，抽像过程包括提取特征、自动执行、自动学习进化，其特征在于，包括如下步骤：将多个人为关联规则作为特征观测值导入至深度学习模型，并设定数据的可用范围与成功关联系的判断标准；以多个核心对象表为基础，通过核心对象表来索引其它表来建立强关联或软关联，继而输出成功关系的结果集，所述结果集中包含有可关联表、关联规则和关联匹配度，该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。

Description

一种基于深度学习的数据自动关联匹配的构建方法

技术领域

本发明涉及一种基于深度学习的数据自动关联匹配的构建方法。

背景技术

数据关联匹配是针对于不同来源、不同对象和不同格式的多源数据一种重要的处理过程，不同来源是因为数据从不同的业务系统产生，不同对象是因为不同的数据库和数据表存储的数据实体对象不一样（例如某些是人相关的，某些是企业相关的），不同格式是因为系统和业务管理的实际数据需求不一样，在大数据时代，很多场景下的数据都存在着上述特性，这样对进行组合的挖掘分析带来了很大障碍，数据的挖掘分析依赖于数据间的可关联性，无论是弱关联还是强关联，所以在对大规模具备上述特性的数据进行挖掘分析时，往往花费大量的人力物力在数据关联匹配的处理上。

在多年对城市级政府数据进行运维服务的过程中，我们发现各种部门间的数据差异和不匹配问题十分严重，而在应用数据创造更大价值（包括构建应用和挖掘分析）上对于多领域数据的融合使用是必不可少的，所以在初期我们主要通过人工建立某些关联规则然后通过数据库操作实现，具体的步骤分为三步：一是需要先阅读和理解数据发现可匹配数据，二是需要在数以千计的数据表和数十万计的字段间逐个查看建立匹配规则，三是对匹配的结果进行校验时需要进行数据抽检，整个处理匹配过程耗时耗力，而且容易出错和出现遗漏，导致工作经常需要反复。

深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习通过建立特征观测值对实体进行抽象，不断完善学习任务，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

发明内容

基于上述背景，本发明提出一种基于深度学习的数据自动关联匹配的构建方法，利用深度学习自动提取特征、自动执行、自动学习进化的特性，模拟人工在多域的广泛数据间建立匹配关联的过程，令匹配能力和准确度可随着深度学习的优化不断提升，其具体技术内容如下：

一种基于深度学习的数据自动关联匹配的构建方法，建立特征观测值对数据实体进行抽象，抽像过程包括提取特征、自动执行、自动学习进化；其包括如下步骤：将多个人为关联规则作为特征观测值导入至深度学习模型，并设定数据的可用范围与成功关联系的判断标准；以多个核心对象表为基础，通过核心对象表来索引其它表来建立强关联或软关联，继而输出成功关系的结果集，所述结果集中包含有可关联表、关联规则和关联匹配度，该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。对数据实体的特征进行提取以形成观测值，然后通过观测值来建立学习任务和模型。通过已经整理形成的特征观测值，然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。创建人为干涉和辅助的工具，用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集，从而为深度学习提供更多可用特征，方便其参考进行学习，进而建立起更多规则链和规则集；所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑，通过规则链上从上至下的并行或串行规则实现关联关系建立，并最终输出关联后数据结果；所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑。

本发明的有益效果是：以数个核心对象表为基础去索引相关其他表建立强关联或软关联关系，将人为整理的规则作为特征观测值导入深度学习模型，然后设定深度学习的可用数据范围，设定成功关联的判断标准，然后执行自动关联，输出成功关联的结果集，其中包含了可关联表和关联规则以及关联匹配度，该结果集可直接作为一个任务在相应平台执行或嵌入到某个挖掘分析任务中作为数据处理步骤执行。全库自动匹配保证了不会遗漏，机器的严谨性又避免了出错，其7*24小时的自动运行又提高了效率，其不断学习进化的特性会比人成长更快，能显著提高匹配成功率。

附图说明

图1为数据自动关联匹配的列表显示界面。

图2为数据关联管理界面（新建关联）。

图3为数据关联管理界面（关联结果）。

具体实施方式

如下结合附图1至3，对本申请方案作进一步描述：

一种基于深度学习的数据自动关联匹配的构建方法，建立特征观测值对数据实体进行抽象，抽像过程包括提取特征、自动执行、自动学习进化；其包括如下步骤：将多个人为关联规则作为特征观测值导入至深度学习模型，并设定数据的可用范围与成功关联系的判断标准；以多个核心对象表为基础，通过核心对象表来索引其它表来建立强关联或软关联，继而输出成功关系的结果集，所述结果集中包含有可关联表、关联规则和关联匹配度，该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。

所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。对数据实体的特征进行提取以形成观测值，然后通过观测值来建立学习任务和模型。通过已经整理形成的特征观测值，然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。

创建人为干涉和辅助的工具，用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集，从而为深度学习提供更多可用特征，方便其参考进行学习，进而建立起更多规则链和规则集；所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑，通过规则链上从上至下的并行或串行规则实现关联关系建立，并最终输出关联后数据结果；所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑，例如建立两个企业之间的关联关系，可通过直接的统一社会信用编码、企业名称、法人名称、地址等，也可以通过间接的法人家属关系、法人社会关系、企业股东关系等，甚至还可以通过经营过程中的合同、账务往来等。

上述优选实施方式应视为本申请方案实施方式的举例说明，凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等，均应视为本专利的保护范围。

Claims

1.一种基于深度学习的数据自动关联匹配的构建方法，建立特征观测值对数据实体进行抽象，抽像过程包括提取特征、自动执行、自动学习进化；其特征在于包括如下步骤：将多个人为关联规则作为特征观测值导入至深度学习模型，并设定数据的可用范围与成功关联系的判断标准；以多个核心对象表为基础，通过核心对象表来索引其它表来建立强关联或软关联，继而输出成功关系的结果集，所述结果集中包含有可关联表、关联规则和关联匹配度，该结果集作为一个任务在相应平台执行或嵌入到挖掘分析任务中作为数据处理步骤执行。

2.根据权利要求1所述的基于深度学习的数据自动关联匹配的构建方法，其特征在于：所述抽像过程基于非监督式或半监督式的特征学习和分层特征提取高效算法。

3.根据权利要求2所述的基于深度学习的数据自动关联匹配的构建方法，其特征在于：对数据实体的特征进行提取以形成观测值，然后通过观测值来建立学习任务和模型。

4.根据权利要求3所述的基于深度学习的数据自动关联匹配的构建方法，其特征在于：通过已经整理形成的特征观测值，然后进行深度学习建立新的特征观测值进而发掘更多可关联数据。

5.根据权利要求1至4任一项所述的基于深度学习的数据自动关联匹配的构建方法，其特征在于：创建人为干涉和辅助的工具，用于人工创建强关联场景下的显性关联规则链和弱关联场景下的模糊规则集，从而为深度学习提供更多可用特征，方便其参考进行学习，进而建立起更多规则链和规则集；所述显性关联规则链是利用历史经验整理形成的较为明确的多域数据间的关联逻辑，通过规则链上从上至下的并行或串行规则实现关联关系建立，并最终输出关联后数据结果；所述模糊规则集则是在多域数据间一系列可能建立起匹配关系的关联逻辑。