CN114064821A

CN114064821A - 基于语义识别的数据资源分类组织方法及系统

Info

Publication number: CN114064821A
Application number: CN202111446841.1A
Authority: CN
Inventors: 宋浩; 黄兆云; 程莉; 杨娜娜; 陈利; 刘道滨
Original assignee: Bank Of Chongqing Co ltd
Current assignee: Bank Of Chongqing Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-02-18

Abstract

本发明涉及数据表分类技术领域，公开了基于语义识别的数据资源分类组织方法及系统，该方法包括：S1：梳理数据资源的主题及业务分布情况，结合数仓系统的逻辑模型构建分类体系；S2：分别构建类目特征向量和数据表特征向量；S3：计算各类目特征向量和数据表特征向量之间的余弦相似度，数据表之间的余弦相似度；S4：根据分类体系对数据资源进行分类，划分数据表对应的数据分类号，储存每张数据表所属的分类号及相似数据表；S5：对数据资源组织利用。本发明的方法及系统，能够根据数据表的元数据内容计算资产的主题语义关系，能够快速锁定需求概念对应的语义空间及数据资产范围，解决了跨系统、跨业务、碎片化的数据资产组织查询问题。

Description

基于语义识别的数据资源分类组织方法及系统

技术领域

本发明涉及数据表分类技术领域，具体涉及基于语义识别的数据资源分类组织方法及系统。

背景技术

随着数字化技术与信息应用的深化推进，银行的数据仓库系统往往汇聚了银行主要系统的客户、业务、财务等数据，为银行的日常运营分析、市场营销、风险控制、财务分析、内部审计、监管报送提供数据支持和服务。银行业数据资产日益庞杂。跨系统、碎片化、标准各异、业务分散、流程冗长等问题是银行业数据资产整合应用面临的严峻问题，这些问题阻碍了数据的分析应用和价值发挥。经过多年的信息系统建设和科技人员努力，数据资产基本实现了形式上、血缘上和系统上的统一存储管理，实现了元数据的业务领域分类。但针对单张表之间的内容关系、指标层面的语义关联仍旧缺乏深入的组织整合。

在面对海量的原始数据表时，业务人员难以梳理单张表之间的主题及语义关系，使得无法根据需求概念锁定对应的关键词，锁定对应的数据表范围，返回主要资产内容。致使业务人员在分析使用时面临着不知道有哪些数据，不知道应该找哪些数据，不知道从哪里提取数据等难题。面对海量数据资产只能依靠业务人员临时搜罗相关数据，无法把控收集数据的查全率、查准率情况，存在明显的相关数据遗漏、数据准确性难以保障等问题。

发明内容

本发明意在提供基于语义识别的数据资源分类组织方法，能够根据数据表的元数据内容计算资产的主题语义关系，能够快速锁定需求概念对应的语义空间及数据资产范围，解决了跨系统、跨业务、碎片化的数据资产组织查询问题，帮助业务人员找到数据，找准数据，提高数据提取效率。

本发明提供的技术方案为：基于语义识别的数据资源分类组织方法，包括：

S1：根据银行数仓系统的数据，梳理数据的主题及业务分布情况，构建分类体系，所述分类体系包括各级类目和其对应的数据表；

S2：对各级类目和数据表进行特征提取并将其转化为特征向量，分别构建类目特征向量和数据表特征向量；

S3：计算各类目特征向量和数据表特征向量之间的余弦相似度，划定相似度阈值，根据阈值确定数据表所属的类目，同理计算数据表之间的余弦相似度，划分相似度阈值，根据阈值确定相似数据表；

S4：根据分类体系对数据资源进行分类，划分数据表对应的数据分类号，储存每张数据表所属的分类号及相似数据表；

S5：对数据资源组织利用，提供根据分类号展开所属的数据表的功能，提供根据关键词检索数据表的功能，提供根据数据表的相似性展开相似的数据表的功能。

本发明的工作原理及优点在于：

根据银行数仓系统的数据模型，结合数仓系统的逻辑模型构建分类体系。实现了跨系统整合数据表的内容概念，梳理数据表的主题归属，可快速自动标识数据表所属类别。

对各级类目和数据表进行特征提取并将其转化为特征向量，分别构建类目特征向量和数据表特征向量；计算各类目特征向量和数据表特征向量之间的余弦相似度，划定相似度阈值，根据阈值确定数据表所属的类目，同理计算数据表之间的余弦相似度，划分相似度阈值，根据阈值确定相似数据表。实现了从语义概念层面梳理数据表之间的主题相似度，可以梳理数据表之间的语义亲疏关系，便于快速锁定某张数据表的相似数据表。

根据分类体系对数据资源进行分类，划分数据表对应的数据分类号，储存每张数据表所属的分类号及相似数据表。将碎片化的众多数据表基于其主题分类关系进行整合，快速统计整个分散的数据资产体系的主题分布情况，便于数据资产的管控。

对数据资源组织利用，提供根据分类号展开所属的数据表的功能，提供根据关键词检索数据表的功能，提供根据数据表的相似性展开相似的数据表的功能。实现了一体化的数据资源组织体系，能够有效提升数据表的查询和检索效率，用户可根据目录浏览、关键词检索、分类号检索、特定数据表扩展等多种方式找寻需求概念下的数据表，便于用户快速寻找所需的数据资产，提升了数据查全率查准率，降低了银行业的数据使用门槛。

本发明方法通过以上步骤解决了跨系统、跨业务、碎片化的数据资产组织查询问题，帮助业务人员找到数据，找准数据，提高数据提取效率。

进一步，其特征在于：所述分类体系为三级主题分类体系。

本发明方法在银行传统数仓的基础上，运用全部存量数据先进行主题梳理，后结合数仓系统的逻辑模型构建三级分类体系，在一级大类的基础上进行划分二级类目和三级类目，该分类体系适合当前银行数据管理模式。

进一步，其特征在于：所述三级主题分类体系中主题大类包括系统名称、系统业务范围、数据表名称、数据字段名称和码值中的一种或多种，所述三级主题分类体系中一级类目包括客户、协议、交易、机构、产品、资产和通用中的一种或多种。

针对全部存量数据，先根据系统名称、系统业务范围、数据表名称、数据字段名称、码值划分其数据所属的主题，后根据用途的不同，划分客户、协议、交易、机构、产品、资产、通用等一级类目，再细化分类至二三级类目。

进一步，所述S2包括：

S2-1：基于各级类目的样本宽表数据，提取其数据表的关键词构建字符串集合，对字符串集合进行语词处理将字符串转化为语词分项，再提取词义特征，获得词向量，构建类目特征向量

S2-2：基于数据表的归属的关键词，提取并构建字符串集合，对字符串集合进行语词处理，再提取词义特征，获得词向量，构建数据表特征向量。

类目特征向量构建基于各级类目的样本宽表数据，数据表特征向量构建基于数据表的归属的关键词，具体过程包括提取关键词、语词处理、提取语义特征三个步骤。

进一步，所述S2-1和S2-2中语词处理的方式包括分词、切词、停用词处理和TF-IDF词频计算中的一种或多种。

通过以上自然语言处理方式完善统计机器理解语言模型。

进一步，所述S2-1和S2-2中通过Word2vector模型提取词义特征。

通过Word2vector模型提取词义特征，把自然语言中的每一个词，表示成一个统一意义统一维度的短向量，实现对单词和句子进行更加泛化的分析。

进一步，其特征在于：所述S3包括：

S3-1：计算各三级类目特征向量和数据表特征向量之间的余弦相似度，根据余弦相似度计算类目特征向量和数据表特征向量之间的距离，以此距离作为数据表与类目的相似度，划定相似度阈值，根据阈值确定数据表所属的候选类目，对候选类目进行聚类校对；

S3-2：计算数据表之间的余弦相似度，根据余弦相似度计算数据表特征向量之间的距离，以此距离作为数据表之间的相似度，划分相似度阈值，根据阈值确定相似数据表。

对数据表的特征向量和各三级类目的特征向量，根据余弦相似度(向量之间的夹角的余弦值)计算数据表特征向量和类目特征向量之间的距离，以此距离作为数据表与类目的相似度，匹配距离越小则相似度越高，同理可计算的数据表之间的相似度，根据阈值确定数据表所属的候选类目和相似数据表。为提高类目准确性，对候选类目进行聚类校对。

进一步，所述S3-1中对候选类目进行聚类校对的过程为：将数据表与二级类目进行聚类划分出其所属的二级类目范围，并排除不符合的候选三级类目，并根据相似度选择所属的三级类目，划分出数据表所属三级类号。

对候选类目通过kmeans聚类算法进行聚类校对，将个体或者对象按相似程度划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。使类间元素的同质性最大化和类与类间元素的异质性最大化。

进一步，所述S4为：根据分类体系对数据资源进行分类，划分全量数据表对应的数据分类号，根据三级分类号体系组织对应的数据表，储存每张数据表的所属三级分类号和相似数据表，当数据表的元数据结构发生变化或创建新的数据表时，重新计算并更新数据表所属的分类号。

根据主题分类体系对数据资源进行分级组织，提供根据分类号逐级展开主题概念并浏览所属数据表资源，在提供通用关键词检索的基础上，根据数据表之间的相似性可以提供数据表检索，根据输入的数据表返回其相似数据表，并可以根据数据表的分类号快速锁定对应数据表范围。当数据表的元数据结构发生变化或创建新的数据表时，重新计算并更新数据表所属的分类号，以保持数据分类的准确和高效。

本发明还提供基于语义识别的数据资源分类组织系统，其特征在于：该系统采用了上述任一种基于语义识别的数据资源分类组织方法。

附图说明

图1为本发明基于语义识别的数据资源分类组织方法实施例的逻辑框图。

具体实施方式

实施例：

如图1所示，本实施例公开了基于语义识别的数据资源分类组织方法，具体包括以下步骤：

S1：根据银行数仓系统的数据，梳理数据的主题及业务分布情况，构建分类体系，所述分类体系包括各级类目和其对应的数据表。在银行传统数仓的基础上，运用全部存量数据先进行主题梳理，数据所属的主题包括系统名称、系统业务范围、数据表名称、数据字段名称、码值等，进行主题大类划分后，根据数据的用途进行三级类目划分，在一级大类的基础上进行聚类并结合专家经验划分二级类目和三级类目。数据分类体系共划分出客户、协议、交易、机构、产品、资产、通用等7个一级类目41个二级类目85个三级类目。

S2-1：基于各级类目的样本宽表数据，提取其数据表的关键词构建字符串集合，对字符串集合进行语词处理将字符串转化为语词分项，再提取词义特征，获得词向量，构建类目特征向量。提取数据表的系统名称、表名称、字段名称、码值等关键词构建字符串集合，对字符串集合进行分词、切词、停用词处理、TF-IDF词频计算等语词处理将字符串转化为语词分项，再利用Word2vector提取词义特征，获得词向量从而构建各级类目的特征向量。

S2-2：基于数据表的归属的关键词，提取并构建字符串集合，对字符串集合进行语词处理，再提取词义特征，获得词向量，构建数据表特征向量。对数据表的归属的系统名称、表名称、字段名称、码值等关键词进行提取，进行分词、切词、停用词处理、TF-IDF词频计算等语词处理将字符串转化为语词分项，再利用Word2vector提取词义特征获取数据表的特征向量。

S3-1：计算各三级类目特征向量和数据表特征向量之间的余弦相似度，根据余弦相似度计算类目特征向量和数据表特征向量之间的距离，以此距离作为数据表与类目的相似度，划定相似度阈值，根据阈值确定数据表所属的候选类目，对候选类目进行聚类校对。根据余弦相似度(向量之间的夹角的余弦值)计算数据表特征向量和类目特征向量之间的距离，匹配距离越小相似度越高，根据相似度找出当前数据表相似性最高的5个三级类目作为候选类目。

对当前数据表与各二级类目的数据表进行聚类，找到数据表所属二级类目。先分别对各二级类目下的数据表样本进行kmeans聚类，K取1得到各二级类目的初始类中心向量。再对所有数据表进行二级类目聚类，K取二级类目数量并制定各个二级类目的初始类中心向量为初始类中心，根据聚类结果得到各数据表所属类别并更新各二级类目的类中心向量。校对上一步中的三级类目对应的二级类目与聚类的二级类目是否一致，将不一致的三级类目删除。返回剩余的三级类目。在数据表的候选类目中，如果选择相似度最高的2个三级类目，如果二者的相似度数据均在0.4以上接受候选类目，二者相差在0.1以上返回相似度最高的三级类号。如果二者相差在0.1以内且不是相邻三级类目则返回最高的三级类号为所属类号，另一个为参见类号。

S3-2：计算数据表之间的余弦相似度，根据余弦相似度计算数据表特征向量之间的距离，以此距离作为数据表之间的相似度，划分相似度阈值，根据阈值确定相似数据表。设定存储相似度0.6以上且排名前三的表名为该数据表的相似数据表。

S4：根据分类体系对数据资源进行分类，划分全量数据表对应的数据分类号，根据三级分类号体系组织对应的数据表，储存每张数据表的所属三级分类号和相似数据表，当数据表的元数据结构发生变化或创建新的数据表时，重新计算并更新数据表所属的分类号

S5：对数据资源组织利用，提供根据分类号展开所属的数据表的功能，提供根据关键词检索数据表的功能，提供根据数据表的相似性展开相似的数据表的功能。数据根据类目体系逐级展开找到对应的数据资产范围，或者输入找寻的数据表关键词进行检索，在用户选择一张数据表即可以根据此表的分类号、参见类号锁定对应概念下的数据表范围，也可以根据此表的相似表展开相关的数据表，从而快速锁定对应需求概念的数据资产范围，提升查全率和查询效率。

本实施例中还公开了与上述基于语义识别的数据资源分类方法配套的系统，该系统使用了上述方法。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请得出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于语义识别的数据资源分类组织方法，其特征在于，包括：

2.根据权利要求1所述的基于语义识别的数据资源分类组织方法，其特征在于：所述分类体系为三级主题分类体系。

3.根据权利要求2所述的基于语义识别的数据资源分类组织方法，其特征在于：所述三级主题分类体系中主题大类包括系统名称、系统业务范围、数据表名称、数据字段名称和码值中的一种或多种，所述三级主题分类体系中一级类目包括客户、协议、交易、机构、产品、资产和通用中的一种或多种。

4.根据权利要求2所述的基于语义识别的数据资源分类组织方法，其特征在于：所述S2包括：

S2-1：基于各级类目的样本宽表数据，提取其数据表的关键词构建字符串集合，对字符串集合进行语词处理将字符串转化为语词分项，再提取词义特征，获得词向量，构建类目特征向量；

5.根据权利要求4所述的基于语义识别的数据资源分类组织方法，其特征在于：所述S2-1和S2-2中语词处理的方式包括分词、切词、停用词处理和TF-IDF词频计算中的一种或多种。

6.根据权利要求4所述的基于语义识别的数据资源分类组织方法，其特征在于：所述S2-1和S2-2中通过Word2vector模型提取词义特征。

7.根据权利要求2所述的基于语义识别的数据资源分类组织方法，其特征在于：所述S3包括：

8.根据权利要求7所述的基于语义识别的数据资源分类组织方法，其特征在于：所述S3-1中对候选类目进行聚类校对的过程为：将数据表与二级类目进行聚类划分出其所属的二级类目范围，并排除不符合的候选三级类目，并根据相似度选择所属的三级类目，划分出数据表所属三级类号。

9.根据权利要求2所述的基于语义识别的数据资源分类组织方法，其特征在于：所述S4为：根据分类体系对数据资源进行分类，划分全量数据表对应的数据分类号，根据三级分类号体系组织对应的数据表，储存每张数据表的所属三级分类号和相似数据表，当数据表的元数据结构发生变化或创建新的数据表时，重新计算并更新数据表所属的分类号。

10.基于语义识别的数据资源分类组织系统，其特征在于：该系统采用了上述任一种基于语义识别的数据资源分类组织方法。