CN111291019A - 数据模型的相似判别方法及装置 - Google Patents

数据模型的相似判别方法及装置 Download PDF

Info

Publication number
CN111291019A
CN111291019A CN201811497965.0A CN201811497965A CN111291019A CN 111291019 A CN111291019 A CN 111291019A CN 201811497965 A CN201811497965 A CN 201811497965A CN 111291019 A CN111291019 A CN 111291019A
Authority
CN
China
Prior art keywords
model
attribute information
data
weight
data model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811497965.0A
Other languages
English (en)
Other versions
CN111291019B (zh
Inventor
杜敏
贺婷
费菲
王斌
胡先莹
胡治西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shanxi Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811497965.0A priority Critical patent/CN111291019B/zh
Publication of CN111291019A publication Critical patent/CN111291019A/zh
Application granted granted Critical
Publication of CN111291019B publication Critical patent/CN111291019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据模型的相似判别方法及装置。该方法在获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息后,根据第一模型属性信息、第二模型属性信息和第一模型属性信息对应的权重,获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量,并将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法,得到第一数据模型与第二数据模型的相似度。该方法可以自动完成数据模型的分析工作,与现有技术的人工分析相比,提高了相似度分析效率。

Description

数据模型的相似判别方法及装置
技术领域
本申请涉及通信技术领域,尤其涉及一种数据模型的相似判别方法及装置。
背景技术
随着数据仓库(Data Warehouse,DW)和数据中心的广泛建设,数据库系统中存在着大量的数据模型。由于各类业务专题频繁建设,导致很多数据模型存在一定相似性。相似的数据模型会产生大量的数据占用大量的存储空间,同时对数据库系统的性能也会造成影响。其中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
然而,发明人发现目前要解决数据模型相似度,基本上都是依靠人工的分析。而对整个数据库系统进行全面分析不仅耗时,而且对数据模型间的原理性差异的分辨工作量巨大,导致相似度分析效率较低。
发明内容
本申请实施例提供一种数据模型的相似判别方法及装置,用于解决现有技术的上述技术问题,以提高相似度分析效率。
第一方面,提供了一种数据模型的相似判别方法,该方法可以包括:
获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息;
根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量;
将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法,得到所述第一数据模型与所述第二数据模型的相似度。
在一个可选的实现中,根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量,包括:
获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息;
将所述第一模型属性信息、重复模型属性信息和所述第一模型属性信息对应的权重采用加权算法,得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。
在一个可选的实现中,所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度;其中,所述周期特征包括更新的周期和周期属性,所述业务数据键用于标识所述业务数据所属的实体;
所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。
在一个可选的实现中,所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍;
所述业务数据键的权重为所述第一数据模型中所述业务数据总数;
所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍;
所述第一数据模型中所述业务数据的权重设置为1。
第二方面,提供了一种相似判别装置,该装置可以包括:获取单元和运算单元;
所述获取单元,用于获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息;
根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量;
所述运算单元,用于将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法,得到所述第一数据模型与所述第二数据模型的相似度。
在一个可选的实现中,所述获取单元,还用于获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息;
所述运算单元,还用于将所述第一模型属性信息、重复模型属性信息和所述第一模型属性信息对应的权重采用加权算法,得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。
在一个可选的实现中,所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度;其中,所述周期特征包括更新的周期和周期属性,所述业务数据键用于标识所述业务数据所属的实体;
所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。
在一个可选的实现中,所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍;
所述业务数据键的权重为所述第一数据模型中所述业务数据总数;
所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍;
所述第一数据模型中所述业务数据的权重设置为1。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本发明上述实施例在获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息后,根据第一模型属性信息、第二模型属性信息和第一模型属性信息对应的权重,获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量,并将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法,得到第一数据模型与第二数据模型的相似度。该方法可以自动完成数据模型的分析工作,与现有技术的人工分析相比,提高了相似度分析效率。
附图说明
图1为本发明实施例提供的一种数据库系统的结构示意图;
图2为本发明实施例提供的一种数据模型的相似判别方法的流程示意图;
图3为本发明实施例提供的一种相似判别装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供的数据模型的相似判别方法可以应用在服务器的数据库系统上,也可以应用在终端的数据库系统上。为了分析的精确性,服务器是具有较强计算能力的应用服务器或云服务器;终端可以是具有较强的计算能力的用户设备(User Equipment,UE)、具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。
如图1所示,数据库系统可以包括至少两个数据模型,如数据模型A、数据模型B和数据模型C,每个数据模型包括周期特征、业务数据、业务数据键、业务数据维度中的至少一种信息。
周期特征可以包括更新的周期和相应周期属性,如日全、日增、实时、月全、月增等。其中,日全表示数据模型每天进行一次全部信息的更新;日增表示数据模型每天进行一次信息的增加更新;实时表示数据模型实时进行全部信息的更新;月全表示数据模型每月进行一次全部信息的更新;月增表示数据模型每月进行一次信息的增加更新。
业务数据键可以为实体的标识信息,用于在数据业务上唯一标识业务数据所属的实体,例如手机号、身份证号、用户标识、合同编号等。
业务数据维度是对某类事务粒度的抽离及细化,例如性别、套餐品牌、发展渠道等。
业务数据可以包括用户收入、入网时间、合同内容等。
本申请通过对数据库系统中两个数据模型中各自的数据信息进行相似度判别,自动完成数据模型的分析工作,与现有技术相比,提高了相似度分析效率,以提供相似度较高的数据模型供给数据库系统用于数据模型的优化方案建议,如合并相似度较高的两个数据模型。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图2为本发明实施例提供的一种数据模型的相似判别方法的流程示意图。如图2所示,该方法可以包括:
步骤210、获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息。
选取数据库系统中数据模型标识不同的第一数据模型和第二数据模型。
对第一数据模型和第二数据模型进行模型属性信息的提取,模型属性信息可以包括周期特征、业务数据、业务数据键和业务数据维度;其中,周期特征包括更新的周期和周期属性,如日全、日增、实时、月全、月增等。其中,模型属性信息可以以数据表的形式体现,如表1所示:
表1
Figure BDA0001897372770000061
在表1中,周期特征为日全型,业务数据键为用户标识,用户标识对应的业务数据维度包括男性和女性两种维度,此时的业务数据为男性的用户标识对应的S1、S2、S3、S4和女性的用户标识对应的C1、C2、C3、C4的总和。
在传统的数据库系统中数据模型的形态仅是“业务数据键”、“业务数据维度”、“业务数据”的组合。与现有技术相比,本发明上述实施例增加了数据模型的周期特征,提高了后续相似度分析的准确度。
需要说明的是,为了进一步提高相似度分析的准确度,还可以增加数据模型的其他模型属性信息,如业务类型、数据用途等。
步骤220、根据第一模型属性信息、第二模型属性信息和第一模型属性信息对应的权重,获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量。
在执行该步骤之前,确定基准数据模型;其中,当第一数据模型为待优化处理的数据模型时,以第一数据模型为基准数据模型。
获取基准数据模型的模型属性信息的权重,即周期特征的权重、业务数据键的权重、业务数据维度的权重和业务数据的权重。获取模型属性信息的权重的方式可以包括以下两种方式:
方式一,根据业务的实际需要,对每种模型属性信息的权重进行自定义设置。
方式二,获取模型属性信息中业务数据的总数,即业务数据在数据模型中所占的字段数。如表1所示,业务数据的总数为8,或称所占的字段数为8。
将周期特征的权重设置为数据模型中业务数据总数的2倍;将业务数据键的权重设置为数据模型中业务数据总数;将业务数据维度的权重设置为数据模型中业务数据总数的1/2倍;将业务数据的权重设置为1。
例如,从第一数据模型可以获取到:周期特征C、周期特征的权重QC、业务数据键K[x]、业务数据键的权重QK、业务数据维度:M[x]、业务数据维度的权重QM、业务数据D[x]、业务数据的权重QD,其中,x表示序号。QC=第一数据模型中业务数据总数*2;QK=第一数据模型中业务数据总数;QM=第一数据模型中业务数据总数/2;QD=1。
可以理解的是,方式二中周期特征的权重大于业务数据键的权重大于业务数据维度的权重大于业务数据的权重。
需要说明的是,除了上述获取模型属性信息的权重的方式还可以有其他计算权重的方式,本发明实施例在此不做限定。
回到步骤220,将第二模型属性信息与第一模型属性信息做重复模型属性信息的匹配,获取第二模型属性信息中与第一模型属性信息重复的模型属性信息;
将第一模型属性信息、重复模型属性信息和第一模型属性信息对应的权重采用加权算法,得到第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量。
例如,第一数据模型为日全量更新数据模型,第一模型属性信息包括日全的周期特征,且有10个字段,其中前面的2个字段为业务数据键,之后的2个字段为业务数据维度,最后的6个字段为业务数据,故第一数据模型对应的属性信息向量表示为:T1=[C*QC,K[1]*QK,K[2]*QK,M[3]*QM,M[4]*QM,D[5]*QD,D[6]*QD,D[7]*QD,D[8]*QD,D[9]*QD,D[10]*QD]。
步骤230、将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法,得到第一数据模型与第二数据模型的相似度。
向量相似度算法可以包括余弦相似度、Jaccard系数、欧几里德距离等相似度算法。
可选地,由于相比其他距离算法,余弦相似度更加注重两个向量在方向上的差异,而非在距离和长度上的,故本发明实施例优选余弦相似度的相似度算法,故第一数据模型与第二数据模型的相似度可以表示为:
Figure BDA0001897372770000081
进一步的,当计算出的相似度大于预设相似度时,则生成提示信息,以提示技术人员可以对第一数据模型与第二数据模型进行优化合并方案。
需要说明的是,若要计算第二数据模型与第一数据模型的相似度,则步骤220需要根据第一模型属性信息、第二模型属性信息和第二模型属性信息对应的权重,获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量,之后根据步骤230得到第二数据模型与第一数据模型的相似度。
在一个例子中,计算第一数据模型A与第二数据模型B的相似度。
A和B的模型属性信息可以表2所示。
表2
Figure BDA0001897372770000082
表2中,col1-col10均表示元素信息。由表2可知,A与B的重合数据包括业务数据键中的col2,业务数据维度中的col4,业务数据中的col6、col7、col8、col9、col10。
将A中的每种元素均赋值为1,即C=1,K[1]=1,K[2]=1,M[1]=1,M[2]=1,D[1]=1,D[2]=1,D[3]=1,D[4]=1,D[5]=1,D[6]=1。
将B中的每种重复元素均赋值为1,不重复的元素均赋值为0,即C=0,K[1]=0,K[2]=1,M[1]=0,M[2]=1,D[1]=0,D[2]=1,D[3]=1,D[4]=1,D[5]=1,D[6]=1。
由于是以A为基准数据模型,且A中业务数据的总数为6,故QC=12,QK=6,QM=3,QD=1。由此可得:
A对应的属性信息向量T1=[12,6,6,3.0,3.0,1,1,1,1,1,1];
B对应的属性信息向量T2=[0,0,6,0.0,3.0,0,1,1,1,1,1]。
基于向量T1和向量T2,采用余弦相似度算法,得到T1和T2的相似度,由此得到A和B的相似度。
进一步的,本发明实施例的上述方法可以通过Python代码实现,具体如下:
Figure BDA0001897372770000091
Figure BDA0001897372770000101
Figure BDA0001897372770000111
>>>print("表T1:"+str(x))
表T1:[12,6,6,3.0,3.0,1,1,1,1,1,1]
>>>print("表T2:"+str(y))
表T2:[0,0,6,0.0,3.0,0,1,1,1,1,1]
>>>print("表T1对表T2的相识度:%s"%sim(x,y))
表T1对表T2的相似度:0.4564354645876384。
本发明上述实施例在获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息后,根据第一模型属性信息、第二模型属性信息、第一模型属性信息的权重和第二模型属性信息的权重,获取第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量,并将第一数据模型对应的属性信息向量和第二数据模型对应的属性信息向量采用向量相似度算法,得到第一数据模型与第二数据模型的相似度。该方法可以自动完成数据模型的分析工作,与现有技术的人工分析相比,提高了相似度分析效率。
与上述方法对应的,本发明实施例还提供一种相似判别装置,如图3所示,该装置包括:获取单元310和运算单元320;
获取单元310,用于获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息;
根据所述第一模型属性信息、所述第二模型属性信息、所述第一模型属性信息的权重和所述第二模型属性信息的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量;
运算单元320,用于将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法,得到所述第一数据模型与所述第二数据模型的相似度。
在一个可选的实现中,获取单元310,还用于获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息;
运算单元320,还用于将所述第一模型属性信息、重复模型属性信息、所述第一权重和所述重复模型属性信息的权重采用加权算法,得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。
在一个可选的实现中,所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度;其中,所述周期特征包括更新的周期和周期属性,所述业务数据键用于标识所述业务数据所属的实体;
所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。
在一个可选的实现中,所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍;
所述业务数据键的权重为所述第一数据模型中所述业务数据总数;
所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍;
所述第一数据模型中所述业务数据的权重设置为1。
本发明上述实施例提供的相似判别装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的相似判别装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器410、通信接口420、存储器430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。
存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现如下步骤:
获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息;
根据所述第一模型属性信息、所述第二模型属性信息、所述第一模型属性信息的权重和所述第二模型属性信息的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量;
将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法,得到所述第一数据模型与所述第二数据模型的相似度。
在一个可选的实现中,根据所述第一模型属性信息、所述第二模型属性信息、所述第一模型属性信息的权重和所述第二模型属性信息的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量,包括:
获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息;
将所述第一模型属性信息、重复模型属性信息、所述第一权重和所述重复模型属性信息的权重采用加权算法,得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。
在一个可选的实现中,所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度;其中,所述周期特征包括更新的周期和周期属性,所述业务数据键用于标识所述业务数据所属的实体;
所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。
在一个可选的实现中,所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍;
所述业务数据键的权重为所述第一数据模型中所述业务数据总数;
所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍;
所述第一数据模型中所述业务数据的权重设置为1。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的相似判别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的相似判别装置方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (10)

1.一种数据模型的相似判别方法,其特征在于,所述方法包括:
获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息;
根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量;
将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法,得到所述第一数据模型与所述第二数据模型的相似度。
2.如权利要求1所述的方法,其特征在于,根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量,包括:
获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息;
将所述第一模型属性信息、重复模型属性信息和所述第一模型属性信息对应的权重采用加权算法,得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。
3.如权利要求1-2任一项所述的方法,其特征在于,
所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度;其中,所述周期特征包括更新的周期和周期属性,所述业务数据键用于标识所述业务数据所属的实体;
所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。
4.如权利要求3所述的方法,其特征在于,所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍;
所述业务数据键的权重为所述第一数据模型中所述业务数据总数;
所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍;
所述第一数据模型中所述业务数据的权重设置为1。
5.一种相似判别装置,其特征在于,所述装置包括:获取单元和运算单元;
所述获取单元,用于获取数据库系统中第一数据模型的第一模型属性信息和第二数据模型的第二模型属性信息;
根据所述第一模型属性信息、所述第二模型属性信息和所述第一模型属性信息对应的预设权重,获取所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量;
所述运算单元,用于将所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量采用向量相似度算法,得到所述第一数据模型与所述第二数据模型的相似度。
6.如权利要求5所述的装置,其特征在于,所述获取单元,还用于获取所述第二模型属性信息中与所述第一模型属性信息重复的模型属性信息;
所述运算单元,还用于将所述第一模型属性信息、重复模型属性信息和所述第一模型属性信息对应的权重采用加权算法,得到所述第一数据模型对应的属性信息向量和所述第二数据模型对应的属性信息向量。
7.如权利要求5-6任一项所述的装置,其特征在于,所述模型属性信息包括周期特征、业务数据、业务数据键和业务数据维度;其中,所述周期特征包括更新的周期和周期属性,所述业务数据键用于标识所述业务数据所属的实体;
所述模型属性信息的权重包括所述周期特征的权重、所述业务数据键的权重、所述业务数据维度的权重和所述业务数据的权重。
8.如权利要求7所述的装置,其特征在于,所述周期特征的权重为所述第一数据模型中所述业务数据总数的2倍;
所述业务数据键的权重为所述第一数据模型中所述业务数据总数;
所述业务数据维度的权重为所述第一数据模型中所述业务数据总数的1/2倍;
所述第一数据模型中所述业务数据的权重设置为1。
9.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN201811497965.0A 2018-12-07 2018-12-07 数据模型的相似判别方法及装置 Active CN111291019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811497965.0A CN111291019B (zh) 2018-12-07 2018-12-07 数据模型的相似判别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811497965.0A CN111291019B (zh) 2018-12-07 2018-12-07 数据模型的相似判别方法及装置

Publications (2)

Publication Number Publication Date
CN111291019A true CN111291019A (zh) 2020-06-16
CN111291019B CN111291019B (zh) 2023-09-29

Family

ID=71024650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811497965.0A Active CN111291019B (zh) 2018-12-07 2018-12-07 数据模型的相似判别方法及装置

Country Status (1)

Country Link
CN (1) CN111291019B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378824A (zh) * 2022-08-24 2022-11-22 中国联合网络通信集团有限公司 模型相似度确定方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110222775A1 (en) * 2010-03-15 2011-09-15 Omron Corporation Image attribute discrimination apparatus, attribute discrimination support apparatus, image attribute discrimination method, attribute discrimination support apparatus controlling method, and control program
WO2014189224A1 (ko) * 2013-05-20 2014-11-27 주식회사 아이디어웨어 무선 네트워크 부하 저감을 위한 서버 장치, 그 동작 방법 및 기록매체
CN107368521A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种基于大数据和深度学习的知识推介方法及系统
CN107423613A (zh) * 2017-06-29 2017-12-01 江苏通付盾信息安全技术有限公司 依据相似度确定设备指纹的方法、装置及服务器
WO2018014759A1 (zh) * 2016-07-18 2018-01-25 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
CN108038730A (zh) * 2017-12-22 2018-05-15 联想(北京)有限公司 产品相似度判断方法、装置及服务器集群
CN108121943A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 基于图片的判别方法及装置和计算设备
WO2018099275A1 (zh) * 2016-11-29 2018-06-07 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN108829746A (zh) * 2018-05-24 2018-11-16 青岛海信网络科技股份有限公司 一种基于内存数据库的主数据管理系统及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110222775A1 (en) * 2010-03-15 2011-09-15 Omron Corporation Image attribute discrimination apparatus, attribute discrimination support apparatus, image attribute discrimination method, attribute discrimination support apparatus controlling method, and control program
WO2014189224A1 (ko) * 2013-05-20 2014-11-27 주식회사 아이디어웨어 무선 네트워크 부하 저감을 위한 서버 장치, 그 동작 방법 및 기록매체
WO2018014759A1 (zh) * 2016-07-18 2018-01-25 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和系统
WO2018099275A1 (zh) * 2016-11-29 2018-06-07 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN108121943A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 基于图片的判别方法及装置和计算设备
CN107368521A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种基于大数据和深度学习的知识推介方法及系统
CN107423613A (zh) * 2017-06-29 2017-12-01 江苏通付盾信息安全技术有限公司 依据相似度确定设备指纹的方法、装置及服务器
CN108038730A (zh) * 2017-12-22 2018-05-15 联想(北京)有限公司 产品相似度判断方法、装置及服务器集群
CN108829746A (zh) * 2018-05-24 2018-11-16 青岛海信网络科技股份有限公司 一种基于内存数据库的主数据管理系统及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
韩学仁;王青山;郭勇;崔兴亚;: "基于PSO-BP算法的地理本体概念语义相似度度量", 计算机工程与应用 *
黄宏斌;张维明;邓苏;董发花;: "MD4:一种综合的跨本体实体语义相似度计算方法", 计算机应用研究 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378824A (zh) * 2022-08-24 2022-11-22 中国联合网络通信集团有限公司 模型相似度确定方法、装置、设备及存储介质
CN115378824B (zh) * 2022-08-24 2023-07-14 中国联合网络通信集团有限公司 模型相似度确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111291019B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN108665120B (zh) 打分模型的建立、用户信用的评估方法及装置
CN111783875A (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
CN110032583B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN113420190A (zh) 一种商户风险识别方法、装置、设备及存储介质
CN111428217B (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN107430610A (zh) 从分布式数据学习
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN112650743B (zh) 一种漏斗数据分析方法、系统、电子设备及存储介质
CN110609870A (zh) 分布式数据处理方法、装置、电子设备及存储介质
CN112435068A (zh) 一种恶意订单识别方法、装置、电子设备及存储介质
CN116993237A (zh) 一种基于余弦相似度算法的企业推荐方法及系统
CN115953172A (zh) 一种基于图神经网络的欺诈风险识别方法和装置
CN106487833B (zh) 网络监测中独立用户数的统计方法及装置
CN111291019A (zh) 数据模型的相似判别方法及装置
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN112613762A (zh) 基于知识图谱的集团评级方法、装置和电子设备
CN107528969A (zh) 电话拨打时间的管理方法、管理装置及终端设备
CN111967973A (zh) 银行客户数据处理方法及装置
CN115858719A (zh) 一种基于大数据分析的sim卡活跃度预测方法及系统
CN112488825B (zh) 基于区块链的对象交易方法及装置
CN113743838B (zh) 目标用户识别方法、装置、计算机设备和存储介质
CN114330744A (zh) 图像处理模型的训练方法和装置、存储介质及电子设备
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant