CN116257592A - 数据项的同类项确定方法、装置、电子设备及存储介质 - Google Patents

数据项的同类项确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116257592A
CN116257592A CN202211648667.3A CN202211648667A CN116257592A CN 116257592 A CN116257592 A CN 116257592A CN 202211648667 A CN202211648667 A CN 202211648667A CN 116257592 A CN116257592 A CN 116257592A
Authority
CN
China
Prior art keywords
target
similarity
data items
caliber
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211648667.3A
Other languages
English (en)
Inventor
汤林楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202211648667.3A priority Critical patent/CN116257592A/zh
Publication of CN116257592A publication Critical patent/CN116257592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据项的同类项确定方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:获取同一粒度下至少两个目标数据项;针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;在目标相似度大于相似度阈值的情况下,确定至少两个目标数据项为同类项。根据本申请实施例,能够提高数据项的同类项确定的准确性。

Description

数据项的同类项确定方法、装置、电子设备及存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据项的同类项确定方法、装置、电子设备及存储介质。
背景技术
随着综合金融服务系统的逐步发展,数据仓库的粒度模型应用越来越广泛。
粒度模型的出发点是对数据进行整合,将各个系统或者应用中的数据以整个企业全局的角度按粒度进行整合,并进行数据项的合并同类项处理。但相关技术中存在数据项的同类项确定的准确性较低的问题。
发明内容
本申请实施例提供一种数据项的同类项确定方法、装置、电子设备及存储介质,能够提高数据项的同类项确定的准确性。
第一方面,本申请实施例提供一种数据项的同类项确定方法,包括:
获取同一粒度下至少两个目标数据项;
针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;
根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;
在目标相似度大于相似度阈值的情况下,确定至少两个目标数据项为同类项。
在一些可选的实施方式中,针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集,包括:
针对至少两个目标数据项中的各个目标数据项,进行溯源处理,得到加工口径集,溯源处理用于确定至少两个目标数据项中的各个目标数据项的加工口径;
根据加工口径集,确定目标业务口径说明集。
在一些可选的实施方式中,根据加工口径集,确定目标业务口径说明集,包括:
将加工口径集中的各个加工口径,分别输入模型工具,得到目标业务口径说明集;
其中,模型工具通过选取加工口径集的目标贴源表,维护加工口径集中的各个加工口径,得到目标业务口径说明集。
在一些可选的实施方式中,根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度,包括:
根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度;
其中,第一相似度为目标业务口径说明集中各个目标业务口径说明之间的相似度,第二相似度为至少两个目标数据项分别对应的数据项信息之间的相似度。
在一些可选的实施方式中,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度,包括:
将第一相似度与第一权重值的乘积,与第二相似度与第二权重值之间的乘积之和,确定为至少两个目标数据项之间的目标相似度;
其中,第一权重值为目标业务口径说明对应的权重值,第二权重值为数据项信息对应的权重值。
在一些可选的实施方式中,根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度之后,方法还包括:
在目标相似度大于相似度阈值的情况下,展示至少两个目标数据项。
第二方面,本申请实施例提供了一种数据项的同类项确定装置,包括:
获取模块,用于获取同一粒度下至少两个目标数据项;
第一确定模块,用于针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;
第二确定模块,用于根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;
第三确定模块,用于在目标相似度大于相似度阈值的情况下,确定至少两个目标数据项为同类项。
第三方面,本申请实施例提供了一种电子设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行计算机程序指令时实现如第一方面的数据项的同类项确定方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的数据项的同类项确定方法。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如第一方面的数据项的同类项确定方法。
根据本申请实施例提供的数据项的同类项确定方法、装置、电子设备及存储介质,首先获取同一粒度下至少两个目标数据项;然后可以针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;接着可以根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;最后在目标相似度大于相似度阈值的情况下,可以确定至少两个目标数据项为同类项。也就是说,本申请实施例通过目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度,进而可以根据目标相似度确定至少两个目标数据项是否为同类项,能够提高数据项的同类项确定的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据项的同类项确定方法的流程示意图;
图2是本申请实施例提供的数据项的同类项确定装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
另外,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在阐述本申请实施例所提供的技术方案之前,为了便于对本申请实施例理解,本申请首先对相关技术中存在的问题进行具体说明:
为了解决现有技术问题,本申请实施例提供了一种数据项的同类项确定方法、装置、电子设备及存储介质。下面首先对本申请实施例所提供的数据项的同类项确定方法进行介绍。
图1示意出了本申请实施例提供的数据项的同类项确定方法的流程示意图。
如图1所示,本申请实施例提供的数据项的同类项确定方法,可以应用于电子设备,该方法可以包括以下S101至S104。
S101、获取同一粒度下至少两个目标数据项。
S102、针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集。
S103、根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度。
S104、在目标相似度大于相似度阈值的情况下,确定至少两个目标数据项为同类项。
根据本申请实施例提供的数据项的同类项确定方法,首先获取同一粒度下至少两个目标数据项;然后可以针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;接着可以根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;最后在目标相似度大于相似度阈值的情况下,可以确定至少两个目标数据项为同类项。也就是说,本申请实施例通过目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度,进而可以根据目标相似度确定至少两个目标数据项是否为同类项,能够提高数据项的同类项确定的准确性。
下面介绍S101至S104的具体实现方式。
在S101中,由于数据项合并同类项的前提是要在同一粒度内,所以需要获取同一粒度下至少两个目标数据项。
同一粒度可以理解为同一个粒度。同一粒度可以包括至少两个数据项。其中,粒度可以是数据仓库汇总保存数据的细化或综合程度。粒度可以包括数据的细化程度,也可以表示其定义包含的业务含义。数据项可以是业务系统中与数据仓库的业务需求相关的数据;也可以是业务流程中信息流动和信息结构涉及的数据,以及业务系统中数据流相关的数据。数据项可以与粒度挂接,用于表示粒度的属性。
至少两个目标数据项可以是同一粒度下任意至少两个数据项。
需要说明的是,本申请对目标数据项的具体数量不做限定,至少两个目标数据项可以为两个目标数据项,三个目标数据项,等等。
作为一个示例,电子设备中存储有同一粒度下所有的数据项,可以直接从电子设备中获取同一粒度下至少两个目标数据项。
作为另一个示例,电子设备可以向具有同一粒度下所有的数据项的业务系统发送获取请求。业务系统在接收到电子设备的获取请求之后,将同一粒度下至少两个目标数据项发送至电子设备,以使电子设备通过业务系统获取同一粒度下至少两个目标数据项。
在S102中,电子设备在获取同一粒度下至少两个目标数据项之后,可以针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集。
目标业务口径说明集包括至少两个目标业务口径说明。目标业务口径说明集中目标业务口径说明的数量可以与至少两个目标数据项中目标数据项的数量对应。例如,目标业务口径说明集中目标业务口径说明的数量可以与至少两个目标数据项中目标数据项的数量相等。
S102,可以理解为,确定至少两个目标数据项中的各个目标数据项分别对应的目标业务口径说明,得到多个目标业务口径说明,并将全部目标业务口径说明汇总成目标业务口径说明集。
在一些可选的实施方式中,针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集,可以包括:
针对至少两个目标数据项中的各个目标数据项,进行溯源处理,得到加工口径集,溯源处理用于确定至少两个目标数据项中的各个目标数据项的加工口径;
根据加工口径集,确定目标业务口径说明集。
在本实施方式中,通过对至少两个目标数据项中的各个目标数据项进行溯源处理,确定至少两个目标数据项中的各个目标数据项的加工口径,进而为后续确定至少两个目标数据项是否为同类项提供基础。
加工口径集可包括至少两个目标数据项中的各个目标数据项的加工口径。加工口径集中加工口径的数量可以与至少两个目标数据项中目标数据项的数量对应。例如,加工口径集中加工口径的数量可以与至少两个目标数据项中目标数据项的数量相等。
针对至少两个目标数据项中的各个目标数据项,进行溯源处理,得到加工口径集,可以理解为,对至少两个目标数据项中的各个目标数据项,分别进行溯源处理,得到多个加工口径,并将全部加工口径汇总成目标数据项集。
至少两个目标数据项中的各个目标数据项的加工口径均可追溯到贴源表和具体的加工过程(即,如何加工而来)。其中,贴源表可以为数据仓库源头系统的数据表。
示例性的,目标数据项为余额a,余额a属于贴源表的A位置,经过B处理和C处理,得到日平均余额b。对余额a进行溯源处理,得到的加工口径可包括贴源表的A位置,B处理和C处理。
在一些可选的实施方式中,根据加工口径集,确定目标业务口径说明集,可以包括:
将加工口径集中的各个加工口径,分别输入模型工具,得到目标业务口径说明集;
其中,模型工具通过选取加工口径集的目标贴源表,维护加工口径集中的各个加工口径,得到目标业务口径说明集。
在本实施方式中,通过将加工口径集中的各个加工口径分别输入模型工具,能够得到一个相对标准的目标业务口径说明集。
将加工口径集中的各个加工口径,分别输入模型工具,得到目标业务口径说明集,可以理解为,将加工口径集中的各个加工口径,分别输入模型工具,得到多个目标业务口径说明,并将全部目标业务口径说明汇总成目标业务口径说明集。
模型工具可以为能够维护加工口径集中各个加工口径的工具。例如,模型工具可以为能够维护加工口径集中各个加工口径的软件。
示例性的,模型工具可以通过选取加工口径集的目标贴源表,用伪sql的方式维护加工口径集中的各个加工口径,得到目标业务口径说明集。目标贴源表与加工口径集对应。
目标业务口径说明可以为目标业务的口径说明。
在S103中,电子设备在针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集之后,可以根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度。
数据项信息可以包括数据来源信息、数据项名称和业务定义中的至少一项。其中,数据来源信息可以包括数据来源表和数据来源字段中的至少一项。
数据来源信息可以在将加工口径集中的各个口径分别输入模型工具之前由用户自行输入或自行选择。自行选择可以是展示数据来源表和/或数据来源字段的全部选项,以供用户选择对应的数据来源表和/或数据来源字段。
可以理解的是,在将加工口径集中的各个口径分别输入模型工具之前由用户自行选择数据来源信息,可以保证数据项的数据来源表和/或数据来源字段是完整的。
可选的,可以通过自然语言识别算法,对业务口径进行识别。
由于数据项需要遵循企业级数据字典的命名要求,因此,业务定义相近的数据项,体现在数据项名称中也会相近,因此数据项名称和业务定义均可作为同类项确定的参数。
示例性的,数据来源信息可为用户表的用户编号和用户名称,业务口径说明可以为多实体标识,数据项名称可以为用户识别号,用户识别号可以由用户编号和多实体标识组成。
业务定义可用于唯一识别数据项。
电子设备可以存储有数据项名称和业务定义,因此可以直接从电子设备获取数据项名称和业务定义。电子设备也可以从业务系统中获取数据项名称和业务定义。
在一些可选的实施方式中,根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度,可以包括:
根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度;
其中,第一相似度为目标业务口径说明集中各个目标业务口径说明之间的相似度,第二相似度为至少两个目标数据项分别对应的数据项信息之间的相似度。
在本实施方式中,通过第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度,为后续根据目标相似度确定至少两个目标数据项是否为同类项提供基础。
作为一个示例,在目标业务口径说明集包括第一目标业务口径说明和第二目标业务口径说明的情况下,第一相似度可以为第一目标业务口径说明和第二目标业务口径说明之间的相似度。
作为另一个示例,在目标业务口径说明集包括第一目标业务口径说明、第二目标业务口径说明和第三目标业务口径说明的情况下,第一相似度可以为第一目标业务口径说明、第二目标业务口径说明和第三目标业务口径说明之间的相似度。
在一些可选的实施方式中,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度,可以包括:
将第一相似度与第一权重值的乘积,与第二相似度与第二权重值之间的乘积之和,确定为至少两个目标数据项之间的目标相似度;
其中,第一权重值为目标业务口径说明对应的权重值,第二权重值为数据项信息对应的权重值。
在本实施方式中,通过将第一相似度与第一权重值的乘积,与第二相似度与第二权重值之间的乘积之和,确定为至少两个目标数据项之间的目标相似度,为后续根据目标相似度确定至少两个目标数据项是否为同类项提供基础。
示例性的,第一相似度为c、第二相似度为d,第一权重值为e,第二权重值为f,至少两个目标数据项之间的目标相似度可以为ce+df。
在另一种可选的实施方式中,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度,可以包括:
将第一相似度和第二相似度的平均值,确定为至少两个目标数据项之间的目标相似度。
可选的,第二相似度可包括第一子相似度、第二子相似度和第三子相似度中的至少一项,第一子相似度可以为至少两个目标数据项的数据来源信息之间的相似度,第二子相似度可以为至少两个目标数据项的数据项名称之间的相似度,第三子相似度可以为至少两个目标数据项的业务定义之间的相似度。
作为一个示例,在第二相似度包括第一子相似度的情况下,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度之前,该方法还可以包括:
将第一子相似度确定为第二相似度。
作为另一个示例,在第二相似度包括第一子相似度和第二子相似度情况下,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度之前,该方法还可以包括:
将第一子相似度和第二子相似度之间的平均值,确定为第二相似度。
作为又一个示例,在第二相似度包括第一子相似度、第二子相似度和第三子相似度的情况下,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度之前,该方法还可以包括:
将第一子相似度、第二子相似度和第三子相似度之间的平均值,确定为第二相似度。
可选的,第二权重值可包括第一子权重值、第二子权重值和第三子权重值中的至少一项。第一子权重值可以为数据来源信息对应的权重值,第二子相似度可以为数据项名称对应的权重值,第三子相似度可以为业务定义对应的权重值。
作为一个示例,在第二相似度包括第一子相似度,以及第二权重值包括第一子权重值的情况下,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度之前,该方法还可以包括:
将第一子相似度与第一子权重值的乘积确定为第二相似度。
作为另一个示例,在第二相似度包括第一子相似度和第二子相似度,以及第二权重值包括第一子权重值和第二子权重值的情况下,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度之前,该方法还可以包括:
将第一子相似度与第一子权重值的乘积,和第二子相似度与第二子权重值的乘积之和,确定为第二相似度。
作为又一个示例,在第二相似度包括第一子相似度、第二子相似度和第三子相似度,以及第二权重值包括第一子权重值、第二子权重值和第三子权重值的情况下,根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度之前,该方法还可以包括:
将第一子相似度与第一子权重值的乘积、第二子相似度与第二子权重值的乘积、以及第三子相似度与第三子权重值的乘积之和,确定为第二相似度。
在S104中,电子设备在根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度之后,在目标相似度大于相似度阈值的情况下,确定至少两个目标数据项为同类项。
在本申请实施例中,目标相似度越大,说明至少两个目标数据项为同类项的概率越高。
相似度阈值可以根据实际情况设定,在此不做限定。例如,相似度阈值可以为0.95,也可以为0.98等。
在另一些可选的实施方式中,在目标相似度小于或等于相似度阈值的情况下,确定至少两个目标数据项不为同类项。
可选的,在确定至少两个目标数据项不为同类项之后,可以展示至少两个目标数据项,以使用户对至少两个目标数据项进行二次判断,能够提高数据项是否为同类项的判断的准确性。
在一些可选的实施方式中,根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度之后,方法还可以包括:
在目标相似度大于相似度阈值的情况下,展示至少两个目标数据项。
在本实施方式中,在目标相似度大于相似度阈值的情况下,展示至少两个目标数据项,一方面,用户可以对至少两个目标数据项进行二次判断,能够提高数据项是否为同类项的判断的准确性;另一方面,用户只需要对大于相似度阈值的至少两个目标数据项进行判断,能够提高数据项同类项判断的效率,减少人力成本。
可选的,在将加工口径集中的各个加工口径,分别输入模型工具,得到目标业务口径说明集之前,还可以包括:
将数据项的业务规则录入模型工具。
数据项的业务规则用于维护数据来源信息、业务口径说明、数据项名称和业务定义。
基于上述实施例提供数据项的同类项确定方法,本申请还提供了一种数据项的同类项确定装置。以下将对上述数据项的同类项确定装置进行具体说明。
图2是本申请实施例提供的一种数据项的同类项确定装置的结构示意图。如图2所示,数据项的同类项确定装置200可以应用于电子设备,可以包括:
获取模块210,用于获取同一粒度下至少两个目标数据项;
第一确定模块220,用于针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;
第二确定模块230,用于根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;
第三确定模块240,用于在目标相似度大于相似度阈值的情况下,确定至少两个目标数据项为同类项。
根据本申请实施例提供的数据项的同类项确定装置,首先获取同一粒度下至少两个目标数据项;然后可以针对至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;接着可以根据目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度;最后在目标相似度大于相似度阈值的情况下,可以确定至少两个目标数据项为同类项。也就是说,本申请实施例通过目标业务口径说明集和至少两个目标数据项分别对应的数据项信息,确定至少两个目标数据项之间的目标相似度,进而可以根据目标相似度确定至少两个目标数据项是否为同类项,能够提高数据项的同类项确定的准确性。
在一些可选的实施方式中,第一确定模块220,可以包括:
溯源子模块,用于针对至少两个目标数据项中的各个目标数据项,进行溯源处理,得到加工口径集,溯源处理用于确定至少两个目标数据项中的各个目标数据项的加工口径;
第一确定子模块,用于根据加工口径集,确定目标业务口径说明集。
在一些可选的实施方式中,第一确定子模块,可以具体用于:
将加工口径集中的各个加工口径,分别输入模型工具,得到目标业务口径说明集;
其中,模型工具通过选取加工口径集的目标贴源表,维护加工口径集中的各个加工口径,得到目标业务口径说明集。
在一些可选的实施方式中,第二确定子模块230,可以包括:
第二确定子模块,用于根据第一相似度和第二相似度,确定至少两个目标数据项之间的目标相似度;
其中,第一相似度为目标业务口径说明集中各个目标业务口径说明之间的相似度,第二相似度为至少两个目标数据项分别对应的数据项信息之间的相似度。
在一些可选的实施方式中,第二确定子模块,可以具体用于:
将第一相似度与第一权重值的乘积,与第二相似度与第二权重值之间的乘积之和,确定为至少两个目标数据项之间的目标相似度;
其中,第一权重值为目标业务口径说明对应的权重值,第二权重值为数据项信息对应的权重值。
在一些可选的实施方式中,数据项的同类项确定装置200,还可以包括:
展示模块,用于在目标相似度大于相似度阈值的情况下,展示至少两个目标数据项。
关于上述实施例中的装置,其中各个模块执行操作的具体方式以及有益效果已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(NpplicNtion Specific IntegrNted Circuit,NSIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(HNrd Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(UniversNl SeriNl Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RNM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种数据项的同类项确定方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将数据项的同类项确定设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(NGP)或其他图形总线、增强工业标准架构(EISN)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISN)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCN)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SNTN)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的数据项的同类项确定方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据项的同类项确定方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(NSIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种数据项的同类项确定方法,其特征在于,包括:
获取同一粒度下至少两个目标数据项;
针对所述至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;
根据所述目标业务口径说明集和所述至少两个目标数据项分别对应的数据项信息,确定所述至少两个目标数据项之间的目标相似度;
在所述目标相似度大于相似度阈值的情况下,确定所述至少两个目标数据项为同类项。
2.根据权利要求1所述的方法,其特征在于,所述针对所述至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集,包括:
针对所述至少两个目标数据项中的各个目标数据项,进行溯源处理,得到加工口径集,溯源处理用于确定所述至少两个目标数据项中的各个目标数据项的加工口径;
根据所述加工口径集,确定目标业务口径说明集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述加工口径集,确定目标业务口径说明集,包括:
将所述加工口径集中的各个加工口径,分别输入模型工具,得到目标业务口径说明集;
其中,所述模型工具通过选取所述加工口径集的目标贴源表,维护所述加工口径集中的各个加工口径,得到所述目标业务口径说明集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标业务口径说明集和所述至少两个目标数据项分别对应的数据项信息,确定所述至少两个目标数据项之间的目标相似度,包括:
根据第一相似度和第二相似度,确定所述至少两个目标数据项之间的目标相似度;
其中,所述第一相似度为所述目标业务口径说明集中各个目标业务口径说明之间的相似度,所述第二相似度为所述至少两个目标数据项分别对应的数据项信息之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据第一相似度和第二相似度,确定所述至少两个目标数据项之间的目标相似度,包括:
将所述第一相似度与第一权重值的乘积,与所述第二相似度与第二权重值之间的乘积之和,确定为所述至少两个目标数据项之间的目标相似度;
其中,所述第一权重值为所述目标业务口径说明对应的权重值,所述第二权重值为所述数据项信息对应的权重值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标业务口径说明集和所述至少两个目标数据项分别对应的数据项信息,确定所述至少两个目标数据项之间的目标相似度之后,所述方法还包括:
在所述目标相似度大于相似度阈值的情况下,展示所述至少两个目标数据项。
7.一种数据项的同类项确定装置,其特征在于,包括:
获取模块,用于获取同一粒度下至少两个目标数据项;
第一确定模块,用于针对所述至少两个目标数据项中的各个目标数据项,确定目标业务口径说明,得到目标业务口径说明集;
第二确定模块,用于根据所述目标业务口径说明集和所述至少两个目标数据项分别对应的数据项信息,确定所述至少两个目标数据项之间的目标相似度;
第三确定模块,用于在所述目标相似度大于相似度阈值的情况下,确定所述至少两个目标数据项为同类项。
8.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6中任意一项所述的数据项的同类项确定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的数据项的同类项确定方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,所述电子设备执行如权利要求1-6任意一项所述的数据项的同类项确定方法。
CN202211648667.3A 2022-12-21 2022-12-21 数据项的同类项确定方法、装置、电子设备及存储介质 Pending CN116257592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211648667.3A CN116257592A (zh) 2022-12-21 2022-12-21 数据项的同类项确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211648667.3A CN116257592A (zh) 2022-12-21 2022-12-21 数据项的同类项确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116257592A true CN116257592A (zh) 2023-06-13

Family

ID=86681731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211648667.3A Pending CN116257592A (zh) 2022-12-21 2022-12-21 数据项的同类项确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116257592A (zh)

Similar Documents

Publication Publication Date Title
CN109087089B (zh) 一种支付方法、支付装置及终端设备
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN116108149A (zh) 智能问答方法及其装置、设备、介质及产品
CN106776867A (zh) 信息推送方法和装置
CN114328785A (zh) 提取道路信息的方法和装置
CN116775110A (zh) 数据同步方法、装置、设备、介质及产品
CN116257592A (zh) 数据项的同类项确定方法、装置、电子设备及存储介质
CN113990068B (zh) 交通数据的处理方法、装置、设备以及存储介质
CN115186741A (zh) 一种兴趣点poi融合数据验证的方法、装置及设备
CN116560882A (zh) 故障根因定位方法、装置、设备及计算机存储介质
CN114461657A (zh) 兴趣点信息的更新方法、装置、电子设备及存储介质
CN111291019B (zh) 数据模型的相似判别方法及装置
CN114895959B (zh) 数据处理方法、装置、设备及计算机存储介质
CN114547101B (zh) 数据中台的数据质量评估方法、装置、设备及存储介质
CN116527758B (zh) 一种通用标识的生成方法、装置、设备、存储介质及产品
CN115827602A (zh) 数据整合模型的构建方法、装置、电子设备及存储介质
CN114693417A (zh) 计息自动化数据处理方法、装置、设备及计算机存储介质
CN118828400A (zh) 资费配置方法、装置、设备、介质及程序产品
CN115033534A (zh) 文件处理方法、装置、设备及计算机可读存储介质
CN114185944A (zh) 数据处理方法、装置、电子设备、介质和计算机程序产品
CN117745352A (zh) 信息处理方法、装置、设备、介质及产品
CN118132655A (zh) 信息同步方法、装置、设备、存储介质及程序产品
CN117149753A (zh) 数据检查方法及系统
CN116957212A (zh) 物业点规划方法、装置、设备、介质及程序产品
CN117615363A (zh) 人员识别的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination