CN111291019A

CN111291019A - 数据模型的相似判别方法及装置

Info

Publication number: CN111291019A
Application number: CN201811497965.0A
Authority: CN
Inventors: 杜敏; 贺婷; 费菲; 王斌; 胡先莹; 胡治西
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-06-16
Anticipated expiration: 2038-12-07
Also published as: CN111291019B

Abstract

本申请公开了一种数据模型的相似判别方法及装置。该方法在获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息后，根据第一模型属性信息、第二模型属性信息和第一模型属性信息对应的权重，获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量，并将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法，得到第一数据模型与第二数据模型的相似度。该方法可以自动完成数据模型的分析工作，与现有技术的人工分析相比，提高了相似度分析效率。

Description

数据模型的相似判别方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种数据模型的相似判别方法及装置。

背景技术

随着数据仓库(Data Warehouse，DW)和数据中心的广泛建设，数据库系统中存在着大量的数据模型。由于各类业务专题频繁建设，导致很多数据模型存在一定相似性。相似的数据模型会产生大量的数据占用大量的存储空间，同时对数据库系统的性能也会造成影响。其中，数据仓库是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

然而，发明人发现目前要解决数据模型相似度，基本上都是依靠人工的分析。而对整个数据库系统进行全面分析不仅耗时，而且对数据模型间的原理性差异的分辨工作量巨大，导致相似度分析效率较低。

发明内容

本申请实施例提供一种数据模型的相似判别方法及装置，用于解决现有技术的上述技术问题，以提高相似度分析效率。

第一方面，提供了一种数据模型的相似判别方法，该方法可以包括：

获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息；

根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重，获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量；

将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法，得到所述第一数据模型与所述第二数据模型的相似度。

在一个可选的实现中，根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重，获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量，包括：

获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息；

将所述第一模型属性信息、重复模型属性信息和所述第一模型属性信息对应的权重采用加权算法，得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。

在一个可选的实现中，所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度；其中，所述周期特征包括更新的周期和周期属性，所述业务数据键用于标识所述业务数据所属的实体；

所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。

在一个可选的实现中，所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍；

所述业务数据键的权重为所述第一数据模型中所述业务数据总数；

所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍；

所述第一数据模型中所述业务数据的权重设置为1。

第二方面，提供了一种相似判别装置，该装置可以包括：获取单元和运算单元；

所述获取单元，用于获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息；

所述运算单元，用于将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法，得到所述第一数据模型与所述第二数据模型的相似度。

在一个可选的实现中，所述获取单元，还用于获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息；

所述运算单元，还用于将所述第一模型属性信息、重复模型属性信息和所述第一模型属性信息对应的权重采用加权算法，得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。

所述第一数据模型中所述业务数据的权重设置为1。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明上述实施例在获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息后，根据第一模型属性信息、第二模型属性信息和第一模型属性信息对应的权重，获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量，并将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法，得到第一数据模型与第二数据模型的相似度。该方法可以自动完成数据模型的分析工作，与现有技术的人工分析相比，提高了相似度分析效率。

附图说明

图1为本发明实施例提供的一种数据库系统的结构示意图；

图2为本发明实施例提供的一种数据模型的相似判别方法的流程示意图；

图3为本发明实施例提供的一种相似判别装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的数据模型的相似判别方法可以应用在服务器的数据库系统上，也可以应用在终端的数据库系统上。为了分析的精确性，服务器是具有较强计算能力的应用服务器或云服务器；终端可以是具有较强的计算能力的用户设备(User Equipment，UE)、具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)等。

如图1所示，数据库系统可以包括至少两个数据模型，如数据模型A、数据模型B和数据模型C，每个数据模型包括周期特征、业务数据、业务数据键、业务数据维度中的至少一种信息。

周期特征可以包括更新的周期和相应周期属性，如日全、日增、实时、月全、月增等。其中，日全表示数据模型每天进行一次全部信息的更新；日增表示数据模型每天进行一次信息的增加更新；实时表示数据模型实时进行全部信息的更新；月全表示数据模型每月进行一次全部信息的更新；月增表示数据模型每月进行一次信息的增加更新。

业务数据键可以为实体的标识信息，用于在数据业务上唯一标识业务数据所属的实体，例如手机号、身份证号、用户标识、合同编号等。

业务数据维度是对某类事务粒度的抽离及细化，例如性别、套餐品牌、发展渠道等。

业务数据可以包括用户收入、入网时间、合同内容等。

本申请通过对数据库系统中两个数据模型中各自的数据信息进行相似度判别，自动完成数据模型的分析工作，与现有技术相比，提高了相似度分析效率，以提供相似度较高的数据模型供给数据库系统用于数据模型的优化方案建议，如合并相似度较高的两个数据模型。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2为本发明实施例提供的一种数据模型的相似判别方法的流程示意图。如图2所示，该方法可以包括：

步骤210、获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息。

选取数据库系统中数据模型标识不同的第一数据模型和第二数据模型。

对第一数据模型和第二数据模型进行模型属性信息的提取，模型属性信息可以包括周期特征、业务数据、业务数据键和业务数据维度；其中，周期特征包括更新的周期和周期属性，如日全、日增、实时、月全、月增等。其中，模型属性信息可以以数据表的形式体现，如表1所示：

表1

在表1中，周期特征为日全型，业务数据键为用户标识，用户标识对应的业务数据维度包括男性和女性两种维度，此时的业务数据为男性的用户标识对应的S1、S2、S3、S4和女性的用户标识对应的C1、C2、C3、C4的总和。

在传统的数据库系统中数据模型的形态仅是“业务数据键”、“业务数据维度”、“业务数据”的组合。与现有技术相比，本发明上述实施例增加了数据模型的周期特征，提高了后续相似度分析的准确度。

需要说明的是，为了进一步提高相似度分析的准确度，还可以增加数据模型的其他模型属性信息，如业务类型、数据用途等。

步骤220、根据第一模型属性信息、第二模型属性信息和第一模型属性信息对应的权重，获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量。

在执行该步骤之前，确定基准数据模型；其中，当第一数据模型为待优化处理的数据模型时，以第一数据模型为基准数据模型。

获取基准数据模型的模型属性信息的权重，即周期特征的权重、业务数据键的权重、业务数据维度的权重和业务数据的权重。获取模型属性信息的权重的方式可以包括以下两种方式：

方式一，根据业务的实际需要，对每种模型属性信息的权重进行自定义设置。

方式二，获取模型属性信息中业务数据的总数，即业务数据在数据模型中所占的字段数。如表1所示，业务数据的总数为8，或称所占的字段数为8。

将周期特征的权重设置为数据模型中业务数据总数的2倍；将业务数据键的权重设置为数据模型中业务数据总数；将业务数据维度的权重设置为数据模型中业务数据总数的1/2倍；将业务数据的权重设置为1。

例如，从第一数据模型可以获取到：周期特征C、周期特征的权重QC、业务数据键K[x]、业务数据键的权重QK、业务数据维度：M[x]、业务数据维度的权重QM、业务数据D[x]、业务数据的权重QD，其中，x表示序号。QC＝第一数据模型中业务数据总数*2；QK＝第一数据模型中业务数据总数；QM＝第一数据模型中业务数据总数/2；QD＝1。

可以理解的是，方式二中周期特征的权重大于业务数据键的权重大于业务数据维度的权重大于业务数据的权重。

需要说明的是，除了上述获取模型属性信息的权重的方式还可以有其他计算权重的方式，本发明实施例在此不做限定。

回到步骤220，将第二模型属性信息与第一模型属性信息做重复模型属性信息的匹配，获取第二模型属性信息中与第一模型属性信息重复的模型属性信息；

将第一模型属性信息、重复模型属性信息和第一模型属性信息对应的权重采用加权算法，得到第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量。

例如，第一数据模型为日全量更新数据模型，第一模型属性信息包括日全的周期特征，且有10个字段，其中前面的2个字段为业务数据键，之后的2个字段为业务数据维度，最后的6个字段为业务数据，故第一数据模型对应的属性信息向量表示为：T1＝[C*QC，K[1]*QK，K[2]*QK,M[3]*QM，M[4]*QM，D[5]*QD，D[6]*QD，D[7]*QD，D[8]*QD，D[9]*QD，D[10]*QD]。

步骤230、将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法，得到第一数据模型与第二数据模型的相似度。

向量相似度算法可以包括余弦相似度、Jaccard系数、欧几里德距离等相似度算法。

可选地，由于相比其他距离算法，余弦相似度更加注重两个向量在方向上的差异，而非在距离和长度上的，故本发明实施例优选余弦相似度的相似度算法，故第一数据模型与第二数据模型的相似度可以表示为：

进一步的，当计算出的相似度大于预设相似度时，则生成提示信息，以提示技术人员可以对第一数据模型与第二数据模型进行优化合并方案。

需要说明的是，若要计算第二数据模型与第一数据模型的相似度，则步骤220需要根据第一模型属性信息、第二模型属性信息和第二模型属性信息对应的权重，获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量，之后根据步骤230得到第二数据模型与第一数据模型的相似度。

在一个例子中，计算第一数据模型A与第二数据模型B的相似度。

A和B的模型属性信息可以表2所示。

表2

表2中，col1-col10均表示元素信息。由表2可知，A与B的重合数据包括业务数据键中的col2，业务数据维度中的col4，业务数据中的col6、col7、col8、col9、col10。

将A中的每种元素均赋值为1，即C＝1，K[1]＝1，K[2]＝1，M[1]＝1，M[2]＝1，D[1]＝1，D[2]＝1，D[3]＝1，D[4]＝1，D[5]＝1，D[6]＝1。

将B中的每种重复元素均赋值为1，不重复的元素均赋值为0，即C＝0，K[1]＝0，K[2]＝1，M[1]＝0，M[2]＝1，D[1]＝0，D[2]＝1，D[3]＝1，D[4]＝1，D[5]＝1，D[6]＝1。

由于是以A为基准数据模型，且A中业务数据的总数为6，故QC＝12，QK＝6，QM＝3，QD＝1。由此可得：

A对应的属性信息向量T1＝[12，6，6，3.0，3.0，1，1，1，1，1，1]；

B对应的属性信息向量T2＝[0，0，6，0.0，3.0，0，1，1，1，1，1]。

基于向量T1和向量T2，采用余弦相似度算法，得到T1和T2的相似度，由此得到A和B的相似度。

进一步的，本发明实施例的上述方法可以通过Python代码实现，具体如下：

>>>print("表T1:"+str(x))

表T1:[12,6,6,3.0,3.0,1,1,1,1,1,1]

>>>print("表T2:"+str(y))

表T2:[0,0,6,0.0,3.0,0,1,1,1,1,1]

>>>print("表T1对表T2的相识度:％s"％sim(x,y))

表T1对表T2的相似度:0.4564354645876384。

本发明上述实施例在获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息后，根据第一模型属性信息、第二模型属性信息、第一模型属性信息的权重和第二模型属性信息的权重，获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量，并将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法，得到第一数据模型与第二数据模型的相似度。该方法可以自动完成数据模型的分析工作，与现有技术的人工分析相比，提高了相似度分析效率。

与上述方法对应的，本发明实施例还提供一种相似判别装置，如图3所示，该装置包括：获取单元310和运算单元320；

获取单元310，用于获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息；

根据所述第一模型属性信息、所述第二模型属性信息、所述第一模型属性信息的权重和所述第二模型属性信息的权重，获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量；

运算单元320，用于将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法，得到所述第一数据模型与所述第二数据模型的相似度。

在一个可选的实现中，获取单元310，还用于获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息；

运算单元320，还用于将所述第一模型属性信息、重复模型属性信息、所述第一权重和所述重复模型属性信息的权重采用加权算法，得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。

所述第一数据模型中所述业务数据的权重设置为1。

本发明上述实施例提供的相似判别装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的相似判别装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器410、通信接口420、存储器430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。

存储器430，用于存放计算机程序；

处理器410，用于执行存储器430上所存放的程序时，实现如下步骤：

在一个可选的实现中，根据所述第一模型属性信息、所述第二模型属性信息、所述第一模型属性信息的权重和所述第二模型属性信息的权重，获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量，包括：

将所述第一模型属性信息、重复模型属性信息、所述第一权重和所述重复模型属性信息的权重采用加权算法，得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。

所述第一数据模型中所述业务数据的权重设置为1。

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的相似判别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的相似判别装置方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种数据模型的相似判别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重，获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量，包括：

3.如权利要求1-2任一项所述的方法，其特征在于，

所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度；其中，所述周期特征包括更新的周期和周期属性，所述业务数据键用于标识所述业务数据所属的实体；

4.如权利要求3所述的方法，其特征在于，所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍；

所述第一数据模型中所述业务数据的权重设置为1。

5.一种相似判别装置，其特征在于，所述装置包括：获取单元和运算单元；

根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的预设权重，获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量；

6.如权利要求5所述的装置，其特征在于，所述获取单元，还用于获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息；

7.如权利要求5-6任一项所述的装置，其特征在于，所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度；其中，所述周期特征包括更新的周期和周期属性，所述业务数据键用于标识所述业务数据所属的实体；

8.如权利要求7所述的装置，其特征在于，所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍；

所述第一数据模型中所述业务数据的权重设置为1。

9.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。