CN116680603B - 一种数据分类方法、装置、存储介质及电子设备 - Google Patents
一种数据分类方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116680603B CN116680603B CN202310919470.7A CN202310919470A CN116680603B CN 116680603 B CN116680603 B CN 116680603B CN 202310919470 A CN202310919470 A CN 202310919470A CN 116680603 B CN116680603 B CN 116680603B
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- target
- template
- classification template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 15
- 238000007726 management method Methods 0.000 description 11
- 238000011161 development Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据分类方法、装置、存储介质及电子设备。其中方法包括:将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。本申请,通过从各分类模板中筛选出目标分类模板,然后基于目标分类模板对目标数据表中的各目标字段进行分类,能够使得最终的分类结果更加准确、可靠,同时提高了分类效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据分类方法、装置、存储介质及电子设备。
背景技术
随着互联网的发展,网络流量的构成日益复杂,网络流量总量也在不断增加。在大数据背景下,网络数据的识别和分类,对提升业务水平、保障网络安全和优化网络服务质量具有十分重要的意义。
然而,现有的数据分类方法通常是采用分类模型来进行数据分类的,数据处理量较大,且存在分类结果不够准确可靠的问题。
发明内容
有鉴于此,本发明提供了一种数据分类方法、装置、存储介质及电子设备,主要目的在于解决目前存在数据分类不够准确、可靠的问题。
为解决上述问题,本申请提供一种数据分类方法,包括:
将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
可选的,在将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据特征进行匹配之前,所述方法还包括:预先创建各所述预定的分类模板,具体包括:
预先确定各分类模板所对应的分类标签;
为各分类模板创建若干数据类型;
为各所述数据类型配置若干数据特征,以创建若干预定的分类模板。
可选的,所述数据分类方法还包括:
基于各数据类型与所对应的分类模板的分类标签的关联度,预先为各数据类型配置对应的重要性权重;
基于各数据特征的类别属性,预先为各所述数据特征配置对应的分类权重。
可选的,所述基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板,具体包括:
基于同一分类模板中各初始数据特征的分类权重以及各初始数据特征所对应的数据类型的重要性权重,计算获得各分类模板的匹配度;
基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板。
可选的,所述基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型,具体包括:
将各所述目标字段分别与目标分类模板中各数据类型所对应的数据特征进行匹配,以确定与各所述目标字段对应的目标数据特征;
将目标数据特征所对应的数据类型、作为与目标数据特征匹配的目标字段的目标数据类型,以确定各所述目标字段所对应的目标数据类型。
可选的,所述类别属性包括如下任意一种或几种:业务类、基础类以及原始类。
可选的,所述基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板,具体包括:
基于各所述分类模板的匹配度,确定匹配度最高的分类模板为所述目标分类模板;
或者,将各所述分类模板的匹配度与预定的匹配度阈值进行比较,以确定匹配度大于所述匹配度阈值的分类模板为所述目标分类模板。
为解决上述问题,本申请提供一种数据分类装置,包括:
确定模块,用于将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
筛选模块,用于基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
分类模块,用于基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
为解决上述问题,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述数据分类方法的步骤。
为解决上述问题,本申请提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述任一项所述数据分类方法的步骤。
本申请中的数据分类方法、装置、存储介质及电子设备,通过基于目标数据表中各目标字段确定与各目标字段对应的初始数据特征,由此可以基于各分类模板中的各初始数据特征,对各分类模板进行筛选,以确定与目标数据表匹配的目标分类模板,使得目标分类模板的确定更加准确、合理,从而后续可以基于该目标分类模板中各数据特征所对应的数据类型,对各目标字段进行分类,进而使得最终的分类结果更加准确、可靠。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例一种数据分类方法流程图;
图2为本申请又一实施例一种数据分类方法的流程图;
图3为本申请另一实施例一种数据分类装置的结构框图;
图4为本申请另一实施例一种电子设备的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供一种数据分类方法,具体可以应用于终端、服务器等电子设备,如图1所示,本实施例中的数据分类方法包括如下步骤:
步骤S101,将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
本步骤在具体实施过程中,可以预先创建若干分类模板,各分类模板包含有若干数据类型以及与各数据类型对应的若干数据特征。同时各分类模板还对应设置有分类标签,通过设置分类标签可以对各分类模板进行区分,以确定各类数据表所适用于的分类模板。例如分类标签可以为包括如下任意一种或几种:服务记录和日志、网络身份标识、用户私密信息、用户使用习惯和行为分析数据、营销信息、发展战略、营销管理。本实施例中,数据类型包括:语音详单、主叫号码、主叫归属地、被叫号码、开始通信时间、手机号、座机号、邮箱地址、网络客户编号、即时通信账号、网络社交用户账号、家属信息、居住地址、基因、个人健康、婚姻状况、用户偏好、消费习惯、上网数量、上网频次、充值数据、精准营销和服务应用号码及标签、终端经营日常生产数据、战略计划、战略风险评估、业务发展策略、管理办法、高端客户白名单等等,具体可以根据实际需要设定、调整。数据特征具体是指用于表征不同数据类型的数据内容属性,具体可以为:声色、声频、等等;其也可以根据实际需要进行调整、设定。
本步骤中,当某个目标字段,符合某个分类模板中的某数据特征的要求时,则可以确定该分类模板中的该数据特征为初始数据特征。例如某个目标字段为150123456时,某个分类模板中的数据特征为手机号码时,则可以确定该目标字段与该数据特征“手机号码”匹配,由此可以确定该分类模板中的“手机号码”为“初始数据特征”。
步骤S102,基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
本步骤在具体实施过程中,具体可以基于同一分类模板中被目标字段所命中的初始特征,计算该分类模板的匹配度,从而基于各分类模板的匹配度筛选出目标分类模板。
步骤S103,基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
本步骤在具体实施过程中,在筛选出目标分类模板之后,就可以基于该目标分类模板中的各数据类型所对应的数据特征,对各目标字段进行匹配,从而确定与目标字段匹配的目标特征所对应的数据类型、为目标字段的目标数据类型。
本实施例中的数据分类方法,通过基于目标数据表中各目标字段确定与各目标字段对应的初始数据特征,由此可以基于各分类模板中的各初始数据特征,对各分类模板进行筛选,以确定与目标数据表匹配的目标分类模板,使得目标分类模板的确定更加准确、合理,从而后续可以基于该目标分类模板中各数据特征所对应的数据类型,对各目标字段进行分类,进而使得最终的分类结果更加准确、可靠,同时能够降低数据处理量,提高分类效率。
在上述实施例的基础上,本申请又一实施例提供一种数据分类方法,如图2所示,包括:
步骤S201,预先确定各分类模板所对应的分类标签;为各分类模板创建若干数据类型;为各所述数据类型配置若干数据特征,以创建若干预定的分类模板;
本步骤在实施过程中,具体可以预先建立分类标签、数据类型以及数据特征之间的关联关系,从而创建若干分类模板。
具体的,可以创建如下所示的分类模板:
C1-2:服务记录和日志:[语音详单、主叫号码,主叫归属地,被叫号码,开始通信时间]。
语音详单:[声色、声频、音调]。主叫号码:[座机号、手机号]。主叫归属地:[特征数据A、特征数据B]。被叫号码:[特征数据C、特征数据D]。开始通信时间:[特征数据E、特征数据F]。
A1-2:网络身份标识:[手机号、座机号、邮箱地址、网络客户编号、即时通信账号、网络社交用户账号]。
手机号:[特征数据a、特征数据b]。座机号:[特征数据c、特征数据d]。邮箱地址:[特征数据e、特征数据f]。网络客户编号:[特征数据...]。即时通信账号:[特征数据...]。网络社交用户账号:[特征数据...]。
A1-5:用户私密信息:[家属信息、居住地址、基因、个人健康、婚姻状况]。
家属信息:[特征数据...]。居住地址:[特征数据...]。基因:[特征数据...]。个人健康:[特征数据...]。婚姻状况:[特征数据...]。
D1-1:用户使用习惯和行为分析数据:[用户偏好、消费习惯、上网数量、上网频次]。
用户偏好:[特征数据i、特征数据j]。消费习惯:[特征数据...]。上网数量:[特征数据...]。上网频次:[特征数据...]
F1-4:营销信息:[充值数据、精准营销和服务应用号码及标签、终端经营日常生产数据]。
充值数据:[特征数据k、特征数据l...]。精准营销和服务应用号码及标签:[特征数据...]。终端经营日常生产数据[特征数据...]。
G1-1:发展战略:[战略计划、战略风险评估]。
战略计划:[特征数据m、特征数据n...]。战略风险评估[特征数据...]。
G2-2:营销管理:[业务发展策略、管理办法、高端客户白名单]。
业务发展策略:[特征数据o、特征数据p...]。管理办法:[特征数据...]。高端客户白名单:[特征数据...]。
其中,C1-2、A1-2、A1-5、D1-1、F1-4、G1-1、G2-2表示分类模板的编号。服务记录和日志、网络身份标识、用户私密信息、用户使用习惯和行为分析数据、营销信息、发展战略、营销管理等表示分类标签。语音详单、主叫号码、主叫归属地、被叫号码、开始通信时间、手机号、座机号、邮箱地址、网络客户编号、即时通信账号、网络社交用户账号、家属信息、居住地址、基因、个人健康、婚姻状况、用户偏好、消费习惯、上网数量、上网频次、充值数据、精准营销和服务应用号码及标签、终端经营日常生产数据、战略计划、战略风险评估、业务发展策略、管理办法、高端客户白名单等表示数据类型。声色、声频、音调、座机号、手机号、特征数据A、特征数据B、特征数据C、特征数据D、特征数据E、特征数据F、特征数据a、特征数据b、特征数据c、特征数据d...均为各数据类型所对应的数据特征。
步骤S202,基于各数据类型与所对应的分类模板的分类标签的关联度,预先为各数据类型配置对应的重要性权重;
本步骤在具体实施过程中,例如,某分类模板的分类标签为:服务记录和日志。该分类模板的数据类型包括:语音详单、主叫号码、主叫归属地、被叫号码、开始通信时间等。由此,可以按照“语音详单”与“服务记录和日志”之间的关联程度确定“语音详单”这个数据类型的重要性权重。同理,可以按照“主叫号码”与“服务记录和日志”之间的关联程度确定“主叫号码”这个数据类型的重要性权重。其中,与分类标签的关联程度越高,说明数据类型对于分类标签所对应的分类模板而言,重要性越高,因此可以配置较高的权重值、作为该数据类型在该分类模板中的重要性权重。反之,数据类型与分类标签的关联程度越低,说明数据类型对于分类标签所对应的分类模板而言,重要性越低,因此可以配置较低的权重值、作为该数据类型在该分类模板中的重要性权重。
其中,重要性权重可以设定为如下4个等级:极高(重要性权重为8)、高(重要性权重为4) 、中(重要性权重为2) 、低(重要性权重为1)。具体可以可以根据实际需要设定、调整。
步骤S203,基于各数据特征的类别属性,预先为各所述数据特征配置对应的分类权重;
本步骤在具体实施过程中,例如,某分类模板中某一数据类型为:语音详单,该数据类型“语音箱单”对应的数据特征包括:声色、声频、音调等。由此,可以按照“声色”的类别属性,确定其对应的分类权重。同理,可以按照“声频”的类别属性,确定其对应的分类权重。其中类别属性包括业务类、基础类以及原始类等,可以预先确定各类别属性对应的权重值。比如为业务类配置权重值为4,为基础类配置权重值为2,为原始类配置权重值为1。因此,可以确定数据特征“声色”所对应的类别属性为基础类,进而可以为数据特征“声色”配置分类权重值为2。同理,可以为各个数据特征配置对应的分类权重。
本实施例中,不同类别属性所对应的数据特征具体可以如下表1所示:
步骤S204,将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
本步骤中,具体是将各目标字段分别与各分类模板中的各数据特征进行匹配,如果分类模板中的数据特征被某个目标字段命中,则确定该数据特征为初始数据特征。
步骤S205,基于各分类模板中的各初始数据特征分类权重、以及各初始数据特征所对应的数据类型的重要性权重,分别计算获得各分类模板的匹配度;基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板;
本步骤在实施过程中,具体可以基于同一分类模板中被目标字段所命中的各初始特征的分类权重、以及各初始数据特征所对应的数据类型的重要性权重,计算获得该分类模板的匹配度。也就是,针对同一分类模板中被命中各初始特征,可以基于初始特征的分类权重以及以及初始数据特征所对应的数据类型的重要性权重,分别计算获得与各初始特征对应的权重参数,然后将各初始特征的权重参数进行加权求和,从而获得该分类模板的匹配度。
例如,有如下两个分类模板,在计算这两个分类模板与目标数据表的匹配度时,过程如下:
分类模板C1-2:服务记录和日志:[语音详单、主叫号码、主叫归属地]。语音详单:[声色、声频];主叫号码:[特征数据A、特征数据B];主叫归属地:[特征数据C、特征数据D]。
分类模板A1-2:网络身份标识:[手机号、邮箱地址、网络客户编号]。手机号:[特征数据A、特征数据E];邮箱地址:[特征数据F、特征数据G];网络客户编号:[特征数据H、特征数据I]。
目标数据表中的目标字段包括:声色、特征数据A。
由此,可以确定分类模板C1-2被命中的初始特征数据为“声色”和“特征数据A”,因此可以确定“声色”的分类权重为2,“声色”所对应的数据类型“语音详单”的重要性权重为4,进而可以确定“声色”的权重参数为8。即“声色”的权重参数=“声色”的分类权重*“声色”所对应的数据类型的重要性权重。同理,可以计算出“特征数据A”在分类模板C1-2中的权重参数为:“特征数据A分类权重2*“特征数据A”所对应的数据类型“主叫号码”的重要性权重2=4。最后,将“声色”的权重参数和“特征数据A”权重参数相加即可获得分类模板C1-2的匹配度,即为12。
同理,可以确定分类模板A1-2被命中的初始特征数据只有“特征数据A”。因此,可以基于“特征数据A”在分类模板A1-2中分类权重2,以及“特征数据A”所对应的数据类型“手机号”的重要性权重2,计算获得特征数据A”在分类模板A1-2中权重参数4。进而可以获得分类模板A1-2的匹配度为4。
步骤S206,将各所述目标字段分别与目标分类模板中各数据类型所对应的数据特征进行匹配,以确定与各所述目标字段对应的目标数据特征;将目标数据特征所对应的数据类型、作为与目标数据特征匹配的目标字段的目标数据类型,以确定各所述目标字段所对应的目标数据类型。
本步骤中,当确定出目标分类模板之后,就可以将各目标字段分别与目标分类模板中的数据特征进行匹配,以确定被目标字段命中的数据特征为目标数据特征,或者直接将目标分类模板中的初始特征作为目标数据特征。然后进一步确定各目标数据特征所对应的数据类型为目标字段的目标数据类型,从而实现对目标字段的数据分类。
本实施例中的数据分类方法,通过基于目标数据表中各目标字段确定与各目标字段对应的初始数据特征,由此可以基于各分类模板中的各初始数据特征,计算获得各分类模板的匹配度,为后续基于匹配度对各分类模板进行筛选、以准确的获得与目标数据表匹配的目标分类模板奠定了基础,使得目标分类模板的确定更加准确、合理,从而后续可以基于该目标分类模板中各数据特征所对应的数据类型,对各目标字段进行分类,进而使得最终的分类结果更加准确、可靠,同时能够降低数据处理量,提高分类效率。
在上述实施例的基础上,本申请另一实施例提供一种数据分类方法,本实施例中,在计算获得各分类模板的匹配度之后,具体可以基于各所述分类模板的匹配度,确定匹配度最高的分类模板为所述目标分类模板。或者,还可以将各所述分类模板的匹配度与预定的匹配度阈值进行比较,以确定匹配度大于所述匹配度阈值的分类模板为所述目标分类模板。通过采用上述方式对分类模板进行筛选,能够使得筛选获得的目标分类模板更加合理、准确,为后续基于目标分类模板对目标数据表中的各目标字段进行准确、快速的分类奠定了基础。
本申请又一实施例提供一种数据分类装置:如图3所示,包括:
确定模块11,用于将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
筛选模块12,用于基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
分类模块13,用于基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
本实施例在具体实施过程中,所述数据分类装置还包括创建模块,所述 创建模块用于预先创建各所述预定的分类模板,其具体用于:预先确定各分类模板所对应的分类标签;为各分类模板创建若干数据类型;为各所述数据类型配置若干数据特征,以创建若干预定的分类模板。
本实施例在具体实施过程中,所述数据分类装置还包括配置模块,所述配置模块用于:基于各数据类型与所对应的分类模板的分类标签的关联度,预先为各数据类型配置对应的重要性权重;基于各数据特征的类别属性,预先为各所述数据特征配置对应的分类权重。
本实施例在具体实施过程中,所述筛选模块具体包括:计算模块以及模板确定模块。所述计算模块,用于基于同一分类模板中各初始数据特征的分类权重以及各初始数据特征所对应的数据类型的重要性权重,计算获得各分类模板的匹配度;所述模板确定模块,用于基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板。
本实施例在具体实施过程中,所述分类模块,具体用于:将各所述目标字段分别与目标分类模板中各数据类型所对应的数据特征进行匹配,以确定与各所述目标字段对应的目标数据特征;将目标数据特征所对应的数据类型、作为与目标数据特征匹配的目标字段的目标数据类型,以确定各所述目标字段所对应的目标数据类型。
本实施例在具体实施过程中,所述类别属性包括如下任意一种或几种:业务类、基础类以及原始类。
本实施例在具体实施过程中,所述模板确定模块,具体用于:基于各所述分类模板的匹配度,确定匹配度最高的分类模板为所述目标分类模板;或者,将各所述分类模板的匹配度与预定的匹配度阈值进行比较,以确定匹配度大于所述匹配度阈值的分类模板为所述目标分类模板。
本实施例中的数据分类方法,通过基于目标数据表中各目标字段确定与各目标字段对应的初始数据特征,由此可以基于各分类模板中的各初始数据特征,对各分类模板进行筛选,以确定与目标数据表匹配的目标分类模板,使得目标分类模板的确定更加准确、合理,从而后续可以基于该目标分类模板中各数据特征所对应的数据类型,对各目标字段进行分类,进而使得最终的分类结果更加准确、可靠,同时能够降低数据处理量,提高分类效率。
本申请另一实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
步骤一、将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
步骤二、基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
步骤三、基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
上述方法步骤的具体实施过程可参见上述任意数据分类方法的实施例,本实施例在此不再重复赘述。
本申请中的存储介质,通过基于目标数据表中各目标字段确定与各目标字段对应的初始数据特征,由此可以基于各分类模板中的各初始数据特征,对各分类模板进行筛选,以确定与目标数据表匹配的目标分类模板,使得目标分类模板的确定更加准确、合理,从而后续可以基于该目标分类模板中各数据特征所对应的数据类型,对各目标字段进行分类,进而使得最终的分类结果更加准确、可靠,同时能够降低数据处理量,提高分类效率。
本申请另一实施例提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现如下方法步骤:
步骤一、将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
步骤二、基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
步骤三、基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
上述方法步骤的具体实施过程可参见上述任意数据分类方法的实施例,本实施例在此不再重复赘述。
本申请中的电子设备,通过基于目标数据表中各目标字段确定与各目标字段对应的初始数据特征,由此可以基于各分类模板中的各初始数据特征,对各分类模板进行筛选,以确定与目标数据表匹配的目标分类模板,使得目标分类模板的确定更加准确、合理,从而后续可以基于该目标分类模板中各数据特征所对应的数据类型,对各目标字段进行分类,进而使得最终的分类结果更加准确、可靠,同时能够降低数据处理量,提高分类效率。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (6)
1.一种数据分类方法,其特征在于,包括:
预先确定各分类模板所对应的分类标签;
为各分类模板创建若干数据类型;
为各所述数据类型配置若干数据特征,以创建若干预定的分类模板;
基于各数据类型与所对应的分类模板的分类标签的关联度,预先为各数据类型配置对应的重要性权重;
基于各数据特征的类别属性,预先为各所述数据特征配置对应的分类权重,所述类别属性包括如下任意一种或几种:业务类、基础类以及原始类;
将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
基于同一分类模板中各初始数据特征的分类权重以及各初始数据特征所对应的数据类型的重要性权重,计算获得各分类模板的匹配度;
基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板;
基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型。
2.如权利要求1所述的方法,其特征在于,所述基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型,具体包括:
将各所述目标字段分别与目标分类模板中各数据类型所对应的数据特征进行匹配,以确定与各所述目标字段对应的目标数据特征;
将目标数据特征所对应的数据类型、作为与目标数据特征匹配的目标字段的目标数据类型,以确定各所述目标字段所对应的目标数据类型。
3.如权利要求1所述的方法,其特征在于,所述基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板,具体包括:
基于各所述分类模板的匹配度,确定匹配度最高的分类模板为所述目标分类模板;
或者,将各所述分类模板的匹配度与预定的匹配度阈值进行比较,以确定匹配度大于所述匹配度阈值的分类模板为所述目标分类模板。
4.一种数据分类装置,其特征在于,包括:
确定模块,用于将待分类的目标数据表中的各目标字段,分别与各预定的分类模板中的各数据类型所对应的各数据特征进行匹配,以确定各分类模板中与各所述目标字段匹配的初始数据特征;
筛选模块,用于基于各分类模板中的各初始数据特征,对各所述分类模板进行筛选,获得目标分类模板;
分类模块,用于基于所述目标分类模板中各数据类型所对应的数据特征,对各所述目标字段进行分类,以确定各所述目标字段所对应的目标数据类型;
所述筛选模块具体包括:计算模块、模板确定模块、创建模块以及配置模块,
所述计算模块,用于基于同一分类模板中各初始数据特征的分类权重以及各初始数据特征所对应的数据类型的重要性权重,计算获得各分类模板的匹配度;
所述模板确定模块,用于基于各所述分类模板的匹配度,确定与所述目标数据表匹配的目标分类模板;
所述创建模块,用于预先创建各所述预定的分类模板,其具体用于:预先确定各分类模板所对应的分类标签;为各分类模板创建若干数据类型;为各所述数据类型配置若干数据特征,以创建若干预定的分类模板;
所述配置模块用于:基于各数据类型与所对应的分类模板的分类标签的关联度,预先为各数据类型配置对应的重要性权重;基于各数据特征的类别属性,预先为各所述数据特征配置对应的分类权重,类别属性包括如下任意一种或几种:业务类、基础类以及原始类。
5.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-3任一项所述数据分类方法的步骤。
6.一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-3任一项所述数据分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310919470.7A CN116680603B (zh) | 2023-07-26 | 2023-07-26 | 一种数据分类方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310919470.7A CN116680603B (zh) | 2023-07-26 | 2023-07-26 | 一种数据分类方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116680603A CN116680603A (zh) | 2023-09-01 |
CN116680603B true CN116680603B (zh) | 2023-12-12 |
Family
ID=87791240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310919470.7A Active CN116680603B (zh) | 2023-07-26 | 2023-07-26 | 一种数据分类方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680603B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359194A (zh) * | 2018-09-30 | 2019-02-19 | 北京字节跳动网络技术有限公司 | 用于预测信息类别的方法和装置 |
CN110597816A (zh) * | 2019-09-17 | 2019-12-20 | 深圳追一科技有限公司 | 数据处理方法、装置、计算机设备和计算机可读存储介质 |
WO2021146831A1 (zh) * | 2020-01-20 | 2021-07-29 | 京东方科技集团股份有限公司 | 实体识别的方法和装置、建立词典的方法、设备、介质 |
CN113535962A (zh) * | 2021-08-04 | 2021-10-22 | 城云科技(中国)有限公司 | 数据入库方法、装置、电子装置、程序产品及存储介质 |
CN113963200A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 模态数据融合处理方法、装置、设备及存储介质 |
CN114090544A (zh) * | 2021-11-22 | 2022-02-25 | 中国建设银行股份有限公司 | 模板生成方法、数据录入模板、数据录入方法及装置 |
CN114139537A (zh) * | 2021-11-30 | 2022-03-04 | 杭州数梦工场科技有限公司 | 词向量的生成方法及装置 |
CN116150663A (zh) * | 2021-11-22 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 数据分级方法、装置、计算机设备和存储介质 |
CN116414815A (zh) * | 2023-03-06 | 2023-07-11 | 中国工商银行股份有限公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
-
2023
- 2023-07-26 CN CN202310919470.7A patent/CN116680603B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359194A (zh) * | 2018-09-30 | 2019-02-19 | 北京字节跳动网络技术有限公司 | 用于预测信息类别的方法和装置 |
CN110597816A (zh) * | 2019-09-17 | 2019-12-20 | 深圳追一科技有限公司 | 数据处理方法、装置、计算机设备和计算机可读存储介质 |
WO2021146831A1 (zh) * | 2020-01-20 | 2021-07-29 | 京东方科技集团股份有限公司 | 实体识别的方法和装置、建立词典的方法、设备、介质 |
CN113535962A (zh) * | 2021-08-04 | 2021-10-22 | 城云科技(中国)有限公司 | 数据入库方法、装置、电子装置、程序产品及存储介质 |
CN113963200A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 模态数据融合处理方法、装置、设备及存储介质 |
CN114090544A (zh) * | 2021-11-22 | 2022-02-25 | 中国建设银行股份有限公司 | 模板生成方法、数据录入模板、数据录入方法及装置 |
CN116150663A (zh) * | 2021-11-22 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 数据分级方法、装置、计算机设备和存储介质 |
CN114139537A (zh) * | 2021-11-30 | 2022-03-04 | 杭州数梦工场科技有限公司 | 词向量的生成方法及装置 |
CN116414815A (zh) * | 2023-03-06 | 2023-07-11 | 中国工商银行股份有限公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116680603A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110401779B (zh) | 一种识别电话号码的方法、装置和计算机可读存储介质 | |
US10341421B2 (en) | On-device social grouping for automated responses | |
CN108462785B (zh) | 一种恶意呼叫电话的处理方法及装置 | |
CN105306495B (zh) | 用户识别方法和装置 | |
CN108416616A (zh) | 投诉举报类别的排序方法和装置 | |
CN109377333A (zh) | 电子装置、基于分类模型的催收员确定方法及存储介质 | |
CN110930218B (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN105491444A (zh) | 一种数据识别处理方法以及装置 | |
CN110866767A (zh) | 电信用户满意度的预测方法、装置、设备及介质 | |
CN112464058A (zh) | 一种基于XGBoost算法的电信互联网诈骗识别方法 | |
CN110288468B (zh) | 数据特征挖掘方法、装置、电子设备及存储介质 | |
CN111626754A (zh) | 养卡用户识别方法及装置 | |
CN111127185A (zh) | 信贷欺诈识别模型构建方法及装置 | |
CN114548118A (zh) | 一种服务对话检测方法及系统 | |
CN116680603B (zh) | 一种数据分类方法、装置、存储介质及电子设备 | |
CN104038637B (zh) | 一种铃声播放方法、装置及移动终端 | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN115687754B (zh) | 一种基于智能对话的主动式网络信息挖掘方法 | |
CN110717817A (zh) | 贷前审核方法及装置、电子设备和计算机可读存储介质 | |
CN113098974B (zh) | 一种确定人口数量的方法、服务器及存储介质 | |
US20230029312A1 (en) | Similarity-based search for fraud prevention | |
WO2021135842A1 (zh) | 群体不满意用户识别方法、装置、设备及存储介质 | |
CN111882421B (zh) | 一种信息处理方法、风控方法、装置、设备及存储介质 | |
CN114119037A (zh) | 一种基于大数据的营销反作弊系统 | |
CN107087040B (zh) | 相对位置的定位方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |