CN115757538A - 数据处理方法、装置、电子设备、存储介质及程序产品 - Google Patents

数据处理方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115757538A
CN115757538A CN202211432146.4A CN202211432146A CN115757538A CN 115757538 A CN115757538 A CN 115757538A CN 202211432146 A CN202211432146 A CN 202211432146A CN 115757538 A CN115757538 A CN 115757538A
Authority
CN
China
Prior art keywords
data
database table
determining
probability
associated data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211432146.4A
Other languages
English (en)
Inventor
陈才
刘昊骋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211432146.4A priority Critical patent/CN115757538A/zh
Publication of CN115757538A publication Critical patent/CN115757538A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本公开提供了一种数据处理方法、装置、电子设备、存储介质及程序产品,涉及大数据、特征挖掘、机器学习等人工智能技术领域。该方法包括:在备选数据库表中确定核心数据库表;将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。该方法通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。

Description

数据处理方法、装置、电子设备、存储介质及程序产品
技术领域
本公开涉及数据处理技术领域,具体涉及大数据、特征挖掘、机器学习等人工智能技术领域,尤其涉及一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
特征挖掘通常在整个机器学习项目中占据了半数以上的时间,而特征挖掘的效果也决定了整个模型的效果。
常规的特征挖掘主要包含以下几个步骤:确定所有用于特征挖掘的原始数据集、对原始数据集中包含的数据进行筛选、对筛选出的数据类型进行确认、按照确认的数据类型进行特征生成。
发明内容
本公开实施例提出了一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本公开实施例提出了一种数据处理方法,包括:在备选数据库表中确定核心数据库表;将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。
第二方面,本公开实施例提出了一种数据处理装置,包括:核心数据库表确定单元,被配置成在备选数据库表中确定核心数据库表;广度优先遍历单元,被配置成将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;深度优先遍历单元,被配置成将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。
第三方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面所描述的数据处理方法。
第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面所描述的数据处理方法。
第五方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面所描述的数据处理方法。
本公开所提供的数据处理方案,针对构成数据库的各数据库表,首先在各备选数据库表中确定出作为核心的核心数据库表,然后将核心数据库表作为遍历起始点、以其逐渐作为起始关联要素,通过广度优先遍历的方式逐层确认与核心数据库表存在直接或间接关联的关联数据库表,接着再将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历的方式从各层关联数据库表中筛选出目标数据。即通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构;
图2为本公开实施例提供的一种数据处理方法的流程图;
图3a为本公开实施例提供的一种通过广度优先遍历确定关联数据库表的流程示意图;
图3b为本公开实施例提供的一种通过深度优先遍历从各层级数据库表中筛选目标数据的流程示意图;
图4为本公开实施例提供的一种结合字段统计值和字段语义共同确定目标数据所属数据类型的方法的流程图;
图5为本公开实施例提供的一种基于最大概率和确定目标数据类型的方法的流程图;
图6为本公开实施例提供的一种对不同数据类型进行不同的特征挖掘的处理方式的对应示意图;
图7为本公开实施例提供的一种数据处理装置的结构框图;
图8为本公开实施例提供的一种适用于执行数据处理方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1示出了可以应用本公开的数据处理方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如数据筛选类应用、数据传输类应用、特征挖掘类应用等。
终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以可以提供用于特征挖掘的数据库内数据筛选服务的特征挖掘类应用为例,服务器105在运行该特征挖掘类应用时可实现如下效果:首先,通过网络104接收终端设备101、102、103传入的核心数据库表选定信息,从而在备选数据库表中确定核心数据库表;然后,将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;接下来,将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。
需要指出的是,核心数据库表选定信息除可以从终端设备101、102、103通过网络104临时获取到之外,也可以通过各种方式预先存储在服务器105本地。因此,当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理任务),可选择直接从本地获取这些数据,在此种情况下,示例性系统架构100也可以不包括终端设备101、102、103和网络104。
由于数据库中包含大量以表形式存在的数据,因此对其处理需要占用较多的运算资源和较强的运算能力,因此本公开后续各实施例所提供的数据处理方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,数据处理装置一般也设置于服务器105中。但同时也需要指出的是,在终端设备101、102、103也具有满足要求的运算能力和运算资源时,终端设备101、102、103也可以通过其上安装的特征挖掘类应用完成上述本交由服务器105做的各项运算,进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下,但特征挖掘类应用判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时,可以让终端设备来执行上述运算,从而适当减轻服务器105的运算压力,相应的,数据处理装置也可以设置于终端设备101、102、103中。在此种情况下,示例性系统架构100也可以不包括服务器105和网络104。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本公开实施例提供的一种数据处理方法的流程图,其中流程200包括以下步骤:
步骤201:在备选数据库表中确定核心数据库表;
本步骤旨在由数据处理方法的执行主体(例如图1所示的服务器105)在备选的数据库表中确定核心表,即核心数据库表。
其中,备选的数据库表数量通常为多个,可以是构成目标数据库的所有或部分数据库表,也可以是构成目标数据库下某个子库的所有或部分数据库表;核心表则通常是将用户所要进行或指示进行特征挖掘的起始信息作为数据库表主键的数据库表,即核心表最直接包含了用户所要进行特征挖掘的起始信息。
在实践中,上述执行主体可以先接收到传入的或获取到的核心表指示信息,从而根据用于该核心表指示信息在众多备选数据库表中确定对应的核心数据库表,该核心表指示信息至少应包含可使上述执行主体确定出核心表的相关信息,该相关信息可根据实际情况自行选取或设定,此处不做具体限定。
为便于理解,本公开实施例还在此处提供一种包括且不限于的具体实现方式,包括如下步骤:
首先,根据接收到的外部传入信息或获取到的信息,确定特征挖掘场景和特征挖掘要求;然后,确定与该特征挖掘场景对应的目标数据库,并将构成该目标数据库的(默认为所有的)数据库表确定为备选数据库表;接下来,根据该特征挖掘要求确定特征挖掘的起始信息;最后,将以该起始信息作为主键的备选数据库表,确定为核心数据库表。
即该具体实现方式首先在多个数据库中确定符合特征挖掘场景的目标数据库,然后再利用特征挖掘要求在构成目标数据库的备选数据库表中确定核心数据库表,即提供了先确定挖掘场景再确定挖掘起始信息的实现方案,有利于在备选有多个不同领域、不同场景的数据库的情况下,缩小数据库表筛选范围、提升确定核心数据库表的效率。
具体的,该特征挖掘场景所表征的场景可以为:保险保单信息挖掘场景、合同信息挖掘场景、节假日出行热点信息挖掘场景、电商平台进销货品信息挖掘场景等,可分别对应保险保单数据库、合同数据库、出行数据库、电商平台货品数据库。
步骤202:将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;
在步骤201的基础上,本步骤旨在由上述执行主体自核心数据库表开始,通过广度优先遍历算法逐层确定所有与核心数据库表存在直接或间接关联的数据库表(即后续统称为关联数据库表)。
其中,广度优先遍历(Breath First Search,BFS)原指一种图搜索方法,指的是从图的一个未遍历的节点出发,先遍历这个节点的相邻节点,再依次遍历每个相邻节点的相邻节点。在本公开中,是将核心数据库表作为开始执行遍历的起始节点,然后将包含核心数据库表的主键的其它数据库表作为其相邻节点,再依次将包含每个相邻节点的数据库表的主键的其它数据库作为相邻节点的相邻节点……依次类推至最后一层找不到新的相邻节点。
以挖掘保险保单信息为例,可参见图3a所示的遍历流程示意图:
图3a中的样本表即为核心数据库表,其主键为身份证号,那么也就意味着其它表必须通过身份证号与其进行关联,因此与该样本表有关联的表必须包含身份证号字段。按照这个限制对剩余数据表进行遍历,寻找符合条件的数据表,加入到当前关系中,从图中可以看到样本表和保单表可以通过身份证号进行关联。
完成了以样本表为起点的探索后,广度优先遍历算法进入了第二层的遍历,在第二层中包含了保单表,保单表的主键为保单号,那么与其关联的表必须包含保单号,按照此关联关系,可以寻找到被保人表和理赔表。
更深层级的搜索依次类推,直到满足最大深度要求或无法搜索到新的关联关系,则停止搜索。
步骤203:将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。
在步骤202的基础上,本步骤旨在由上述执行主体自核心数据库表开始,通过深度优先遍历算法按照将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,从各层的关联数据库表中提取出所有与核心数据库表的主键存在关联的数据(后续将统称为关联数据)。
以挖掘保险保单信息为例,可参见图3b所示的遍历流程示意图:
与样本表关联的数据表中往往存储了全部的数据,但如果将其全部提取出来构建特征,不仅会影响特征构建的性能,同时在机器资源不足的情况下,甚至无法完成特征构建工作,因此需要按照样本表的主键从与其关联的数据表中提取出可用于构建特征的数据。
如图3b所示,关联数据的提取使用深度优先遍历算法进行,以样本表作为起始节点开始进行遍历,按照样本表中的主键(身份证号)对其全部子表(保单表)进行过滤,过滤完成后,进行以保单表作为新的起始节点开始遍历,按照保单表的主键(保单号)对其全部子表(被保人表,理赔表)进行过滤,到达被保人表和理赔表后完成整个数据提取过程。
本公开实施例提供的数据处理方法,针对构成数据库的各数据库表,首先在各备选数据库表中确定出作为核心的核心数据库表,然后将核心数据库表作为遍历起始点、以其逐渐作为起始关联要素,通过广度优先遍历的方式逐层确认与核心数据库表存在直接或间接关联的关联数据库表,接着再将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历的方式从各层关联数据库表中筛选出目标数据。即通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
在上述实施例先后通过广度优先遍历和深度优先遍历从各关联数据库表中提取出关联数据之后,为完成特征挖掘目的,后续还可以再紧接着确定关联数据所属的数据类型,然后对关联数据采用与所属的数据类型对应的特征挖掘方式挖掘特征,即对属于不同数据类型的关联数据采用与其所属数据类型匹配的特征挖掘方式进行特征挖掘,而通常不同类型的数据对应的特征挖掘方式不同。
具体的,对于某些可被进一步拆分为多个词或字的关联数据,还可以根据关联数据拆分出的多个词所属的数据类型,来确定关联数据所属的数据类型。例如先统计构成关联数据的每个词或字所属的数据类型,然后将拥有最大统计数量的数据类型,确定为关联数据所属的数据类型。
例如某个关联数据可拆分出7个词,这7个词分别被判定属于4种数据类型,其中4个词被判定属于A数据类型、2个词被判定属于B数据类型,剩下的2个词被分别判定属于C和D数据类型,因此应将A数据类型判定为该关联数据所属的数据类型。当然,除了该实施例所给出的按照数量最大值确定数据类型的方案外,在不同应用场景下,也可以根据实际情况自行制定其它符合要求的实现方案,此处不再一一列举。
在上述实施例的基础上,为了加深对具体如何确定关联数据所属的数据类型的实现方式的理解,本实施例还通过图4示出了一种结合字段统计值和字段语义共同确定目标数据所属数据类型的实现方案,其流程400包括以下步骤:
步骤401:确定关联数据的字段统计值和字段语义;
本步骤旨在由上述执行主体确定关联数据的字段统计值和字段语义。其中,对于构成关联数据的每个字段,先对其进行字段的统计分析,计算出该字段的覆盖率,唯一值数量,top10取值数量占比,熵值,最小值,均值,方差,取值长度的最大值、最小值、熵值、均值、方差、top10取值数量占比等。
其中,覆盖率是指覆盖样本数量与全部记录条数的商;唯一值数量是指对字段的值进行去重,统计去重后的字段值数量;top10取值数量占比则是指统计字段中每个取值出现的次数,按次数进行倒排序,对top10的取值次数进行累加,最后使用累加值与全部记录条数做商的结果;取值长度的最大值、最小值、熵值、均值、方差、top10取值数量占比,则是先统计字段每个值的长度,之后统计取值长度的最大值、最小值、熵值、均值、方差、top10取值数量占比。
熵值可采用下述公式计算得到:
Figure BDA0003945572450000091
式中,X表示随机变量,xi表示随机变量X的各种取值可能,p(xi)表示随机变量X在具体取值为xi时的概率,H(X)表示随机变量X的熵值。
其中,字段语义通常是通过对字段的名称进行语义判定,因为字段的名称在很多时候也能标识出字段的类型,例如字段名称中包含了日期,时间,date,time的一般为日期类型,以ID,no,号结尾的字段名称,多为ID(编号)类型变量;以数量,金额,amount,price结尾的字段多为连续型变量,以状态,编码,代码,标志,flag,code,status等结尾的,一般为类别型变量。
可知,字段统计值或字段语义都与字段类型存在关联,而本公开为了更准确的判断得到每个关联数据所属的数据类型,则综合使用了字段统计值和字段语义,以综合两种判别方式得到的判别结果,从而提升结果的准确性。
步骤402:根据字段统计值确定相应的关联数据属于不同数据类型的第一概率;
步骤403:根据字段语义确定相应的关联数据属于不同数据类型的第二概率;
步骤402和步骤403则是由上述执行主体分别根据字段统计值和字段语义,分别确定相应的关联数据属于不同数据类型的概率(即第一概率和第二概率)。
步骤404:综合第一概率和第二概率,确定相应的关联数据所属的目标数据类型。
在步骤402和步骤403的基础上,本步骤旨在由上述执行主体综合第一概率和第二概率,确定相应的关联数据所属的目标数据类型。
具体的,综合方式可以包括:均分比例、非均分比例的动态加权,以及在此基础上增加修正值或修正系数等。
一种包括且不限于的实现方式可以参见图5所示的流程图,其流程500包括如下步骤:
步骤501:确定与第一概率对应的第一权重、与第二概率对应的第二权重;
本步骤旨在由上述执行主体先确定与第一概率对应的第一权重,以及与第二概率对应的第二权重。
其中,第一权重和第二权重可以预先设定得到,也可以在预先设定得到的基础值基础上,结合当前的实际情况对基础值进行微调,以更符合实际情况。微调的方式和倾向可根据实际情况确定,例如实际所针对的数据类别从字段语义的角度判别的更准,因此就可以适当调大第二权重的权值。
步骤502:利用第一权重对第一概率进行加权、利用第二权重对第二概率进行加权;
在步骤501的基础上,本步骤旨在由上述执行主体分别利用相应的权重对其相应的概率进行加权,从而得到经加权后的第一概率和第二概率。
步骤503:根据加权后的第一概率和第二概率的概率和,将具有最大概率和的数据类型确定为目标数据类型。
在步骤502的基础上,本步骤旨在由上述执行主体对每个关联数据被判别属于相同数据类型的加权后的第一概率与第二概率相加,得到该数据类型的概率和,然后基于概率和的大小在各数据类型层面进行横向比较,最终将具有最大概率和的数据类型确定为目标数据类型。
为加深理解,本公开还具体结合保险保单场景,就如何从该场景下实现特征挖掘给出了一套完成的实现方案:
特征挖掘的输入是结构化的数据,主要表现形式为各自关系型数据库如mysql,orcle,hive(三种不同的关系型数据库)等,通过数据关系提取模块,可以自动获取与样本表相关联的数据表,经过人工确认和修正后,可以自动完成建模数据的提取,之后使用数据字段类型推断工具判断出字段的类型,再为每一种字段类型应用不同的特征构建方法,最后完成特征文件的导出。下述分别对几个重要部分进行展开说明:
1、数据关系提取:
由于数据关系的提取主要是为了从大量的数据库表中,因此需要首先找出与样本表有关联的数据表,然后同时推断出每张表与样本表的关联关系。
在原始数据库中样本表与其他表关联关系未知,需要人工对其他表进行关联,将其转化为有关联关系的数据表,在本实施例通过使用广度优先遍历算法的实现方式,具体部分可参见对图2所示实施例中步骤202下结合图3a的展开举例说明,此处不再重复描述。
2、关联数据提取:
与样本表关联的数据表中往往存储了全部的数据,如果将其全部提取出来构建特征,会影响特征构建的性能,同时在机器资源不足的情况下,甚至无法完成特征构建工作,因此需要按照样本表,从与其关联的数据表中提取出可用于构建特征的数据。
本实施例通过使用深度优先遍历算法的实现方式,具体部分可参见对图2所示实施例中步骤203下结合图3b的展开举例说明,此处不再重复描述。
3、数据表字段的自动判断:
在特征挖掘过程中需要判断每个数据的类型,主要分为ID(编号)类型变量,分类型变量,连续型变量,日期型变量,不同类型的变量特征挖掘方法也不一样。
在本实施例中同时使用了数据字段统计值和字段名称语义作为类别判断的标准,对于每个字段,先对其进行字段统计分析,计算出该字段的字段统计值(具体可参见与图4对应实施例中步骤401下的相关展开描述),然后再根据字段的名称判别该字段的语义信息。具体步骤可以为:
1)使用人工标记的字段类型,即人工预先设定有多种字段类型;
2)对字段名称进行分词处理,统计每个词出现在四个类别中的次数,并按总次数进行筛选,最后统计每个词在各个类别中出现的概率。
如果同时命中多个词,则按照词出现的频率进行加权平均,获取了字段值的统计值和字段名称的属于各个类别的概率后,综合两部分信息判断出字段的类型。
4、特征自动生成:
特征需要根据数据字段的类型和数据与样本表的关联关系来生成。对于一个样本,先获取到全部与其相关联的数据,之后按照数据的类别构造特征。
可参见图6所示的示意图:
ID类型的变量会计算与样本相关联的数据的涉及ID的总数量和唯一值数量,此处的总数量是指所有涉及ID的数量,而此处的唯一值数量则是指所有仅出现过一次的ID的数量;
类别型变量会计算与样本关联的数据中各个类别取值的总数量、唯一值数量、占比、最频繁出现的类别取值以及熵值,此处的总数量和唯一值数量均是对每种类别而言的,总数量表示每种类型下不同取值的数量总数,唯一值数量则是指该类别下仅出现过一次的数量;
连续型变量会计算与样本关联的数据中取值的最大值,最小值,均值,众数,方差,中位数,和;
日期类型的变量会计算与样本关联数据中取值的年份,月份,日期,星期,是否周末,两个时间类别变量的差值。
此外,除了基于单个数据的特征挖掘方法,还会对一些比较关注的类别型变量,例如保险行业中的不同险种,电商行业中的不同商品类别,会统计该类别特征取值下某个数据的取值作为特征,例如统计某个用户在数码产品类型订单的总额,最大一笔数码产品订单金额,数码产品的订单数量等特征。
对于ID类型变量,还会构造两类特征。第一类是对不用环节的ID一致性进行校验,例如在保险反欺诈场景中,会获取到保单对应的手机号,报案人手机号,理赔人手机号,被保人手机号,保险受益人手机号,这些手机号的一致性会被提取为特征。第二类特征是,用户的不同ID,例如用户的手机号,银行卡号,身份证号,设备编号等,会将这些ID的关联作为特征,例如用户的手机号对应的身份证号个数,手机号对应的设备编号数量,手机号对应的银行卡号数量等。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种数据处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的数据处理装置700可以包括:核心数据库表确定单元701、广度优先遍历单元702、深度优先遍历单元703。其中,核心数据库表确定单元701,被配置成在备选数据库表中确定核心数据库表;广度优先遍历单元702,被配置成将所述核心数据库表作为遍历起始点、所述核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与所述核心数据库表存在关联的关联数据库表;深度优先遍历单元703,被配置成将所述核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出所述关联数据。
在本实施例中,数据处理装置700中:核心数据库表确定单元701、广度优先遍历单元702、深度优先遍历单元703的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,所述核心数据库表确定单元701可以被进一步配置成:
确定特征挖掘场景和特征挖掘要求;
确定与所述特征挖掘场景对应的目标数据库,将构成所述目标数据库的数据库表确定为所述备选数据库表;
根据所述特征挖掘要求确定特征挖掘的起始信息;
将以所述起始信息作为主键的备选数据库表,确定为所述核心数据库表。
在本实施例的一些可选的实现方式中,数据处理装置700还可以包括:
数据类型确定单元,被配置成确定所述关联数据所属的数据类型;
特征挖掘单元,被配置成对所述关联数据采用与所属的数据类型对应的特征挖掘方式挖掘特征。
在本实施例的一些可选的实现方式中,所述数据类型确定单元可以包括:
字段统计值及语义确定子单元,被配置成确定所述关联数据的字段统计值和字段语义;
第一概率确定子单元,被配置成根据所述字段统计值确定相应的关联数据属于不同数据类型的第一概率;
第二概率确定子单元,被配置成根据所述字段语义确定相应的关联数据属于不同数据类型的第二概率;
目标数据类型确定子单元,被配置成综合所述第一概率和所述第二概率,确定相应的关联数据所属的目标数据类型。
在本实施例的一些可选的实现方式中,所述数据类型确定单元可以包括:
拆分词数据类型确定子单元,被配置成响应于所述关联数据可被拆分为多个词,根据所述关联数据拆分出的多个词所属的数据类型,确定所述关联数据所属的数据类型。
在本实施例的一些可选的实现方式中,所述拆分词数据类型确定子单元可以被进一步配置成:
统计构成所述关联数据的每个词所属的数据类型;
将拥有最大统计数量的数据类型,确定为所述关联数据所属的数据类型。
在本实施例的一些可选的实现方式中,所述目标数据类型确定子单元可以被进一步配置成:
确定与所述第一概率对应的第一权重、与所述第二概率对应的第二权重;
利用所述第一权重对所述第一概率进行加权、利用所述第二权重对所述第二概率进行加权;
根据加权后的第一概率和第二概率的概率和,将具有最大概率和的数据类型确定为所述目标数据类型。
在本实施例的一些可选的实现方式中,所述字段统计值包括以下至少一项:
覆盖率、唯一值数量、TopN取值数量占比、熵值、最大值、均值、方差、取值长度;其中,N为大于1的正整数。
在本实施例的一些可选的实现方式中,所述特征挖掘单元可以被进一步配置成:
针对编号类型的关联数据,采用与所述关联数据相关联的数据的总数量和唯一值数量构建特征;
针对类别型的关联数据,采用与所述关联数据相关联的数据中不同类别取值的数量、唯一值数量、占比、最频繁出现的类别取值、熵值构建特征;
针对连续型的关联数据,采用与所述关联数据相关联的数据中取值的最大值、最小值、均值、众数、方差、中位数构建特征;
针对日期类型的关联数据,采用与所述关联数据相关联的数据中取值的年份、月份、日期、星期、是否周末、两个时间类别变量的差值构建特征。
本实施例作为对应于上述方法实施例的装置实施例存在,本实施例提供的数据处理装置,针对构成数据库的各数据库表,首先在各备选数据库表中确定出作为核心的核心数据库表,然后将核心数据库表作为遍历起始点、以其逐渐作为起始关联要素,通过广度优先遍历的方式逐层确认与核心数据库表存在直接或间接关联的关联数据库表,接着再将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历的方式从各层关联数据库表中筛选出目标数据。即通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
根据本公开的实施例,本公开还提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现上述任意实施例所描述的数据处理方法。
根据本公开的实施例,本公开还提供了一种可读存储介质,该可读存储介质存储有计算机指令,该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的数据处理方法。
根据本公开的实施例,本公开还提供了一种计算机程序产品,该计算机程序在被处理器执行时能够实现上述任意实施例所描述的数据处理方法。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。
根据本公开实施例的技术方案,针对构成数据库的各数据库表,首先在各备选数据库表中确定出作为核心的核心数据库表,然后将核心数据库表作为遍历起始点、以其逐渐作为起始关联要素,通过广度优先遍历的方式逐层确认与核心数据库表存在直接或间接关联的关联数据库表,接着再将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历的方式从各层关联数据库表中筛选出目标数据。即通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种数据处理方法,包括:
在备选数据库表中确定核心数据库表;
将所述核心数据库表作为遍历起始点、所述核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与所述核心数据库表存在关联的关联数据库表;
将所述核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出所述关联数据。
2.根据权利要求1所述的方法,其中,所述在备选数据库表中确定核心数据库表,包括:
确定特征挖掘场景和特征挖掘要求;
确定与所述特征挖掘场景对应的目标数据库,将构成所述目标数据库的数据库表确定为所述备选数据库表;
根据所述特征挖掘要求确定特征挖掘的起始信息;
将以所述起始信息作为主键的备选数据库表,确定为所述核心数据库表。
3.根据权利要求1所述的方法,还包括:
确定所述关联数据所属的数据类型;
对所述关联数据采用与所属的数据类型对应的特征挖掘方式挖掘特征。
4.根据权利要求3所述的方法,其中,所述确定所述关联数据所属的数据类型,包括:
确定所述关联数据的字段统计值和字段语义;
根据所述字段统计值确定相应的关联数据属于不同数据类型的第一概率;
根据所述字段语义确定相应的关联数据属于不同数据类型的第二概率;
综合所述第一概率和所述第二概率,确定相应的关联数据所属的目标数据类型。
5.根据权利要求3所述的方法,其中,所述确定所述关联数据所属的数据类型,包括:
响应于所述关联数据可被拆分为多个词,根据所述关联数据拆分出的多个词所属的数据类型,确定所述关联数据所属的数据类型。
6.根据权利要求5所述的方法,其中,所述根据所述关联数据拆分出的多个词所属的数据类型,确定所述关联数据所属的数据类型,包括:
统计构成所述关联数据的每个词所属的数据类型;
将拥有最大统计数量的数据类型,确定为所述关联数据所属的数据类型。
7.根据权利要求4所述的方法,其中,所述综合所述第一概率和所述第二概率,确定相应的关联数据所属的目标数据类型,包括:
确定与所述第一概率对应的第一权重、与所述第二概率对应的第二权重;
利用所述第一权重对所述第一概率进行加权、利用所述第二权重对所述第二概率进行加权;
根据加权后的第一概率和第二概率的概率和,将具有最大概率和的数据类型确定为所述目标数据类型。
8.根据权利要求4所述的方法,其中,所述字段统计值包括以下至少一项:
覆盖率、唯一值数量、TopN取值数量占比、熵值、最大值、均值、方差、取值长度;其中,N为大于1的正整数。
9.根据权利要求3-8任一项所述的方法,其中,所述对所述关联数据采用与所属的数据类型对应的特征挖掘方式挖掘特征,包括:
针对编号类型的关联数据,采用与所述关联数据相关联的数据的总数量和唯一值数量构建特征;
针对类别型的关联数据,采用与所述关联数据相关联的数据中不同类别取值的数量、唯一值数量、占比、最频繁出现的类别取值、熵值构建特征;
针对连续型的关联数据,采用与所述关联数据相关联的数据中取值的最大值、最小值、均值、众数、方差、中位数构建特征;
针对日期类型的关联数据,采用与所述关联数据相关联的数据中取值的年份、月份、日期、星期、是否周末、两个时间类别变量的差值构建特征。
10.一种数据处理装置,包括:
核心数据库表确定单元,被配置成在备选数据库表中确定核心数据库表;
广度优先遍历单元,被配置成将所述核心数据库表作为遍历起始点、所述核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与所述核心数据库表存在关联的关联数据库表;
深度优先遍历单元,被配置成将所述核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出所述关联数据。
11.根据权利要求10所述的装置,其中,所述核心数据库表确定单元被进一步配置成:
确定特征挖掘场景和特征挖掘要求;
确定与所述特征挖掘场景对应的目标数据库,将构成所述目标数据库的数据库表确定为所述备选数据库表;
根据所述特征挖掘要求确定特征挖掘的起始信息;
将以所述起始信息作为主键的备选数据库表,确定为所述核心数据库表。
12.根据权利要求10所述的装置,还包括:
数据类型确定单元,被配置成确定所述关联数据所属的数据类型;
特征挖掘单元,被配置成对所述关联数据采用与所属的数据类型对应的特征挖掘方式挖掘特征。
13.根据权利要求12所述的装置,其中,所述数据类型确定单元包括:
字段统计值及语义确定子单元,被配置成确定所述关联数据的字段统计值和字段语义;
第一概率确定子单元,被配置成根据所述字段统计值确定相应的关联数据属于不同数据类型的第一概率;
第二概率确定子单元,被配置成根据所述字段语义确定相应的关联数据属于不同数据类型的第二概率;
目标数据类型确定子单元,被配置成综合所述第一概率和所述第二概率,确定相应的关联数据所属的目标数据类型。
14.根据权利要求12所述的装置,其中,所述数据类型确定单元包括:
拆分词数据类型确定子单元,被配置成响应于所述关联数据可被拆分为多个词,根据所述关联数据拆分出的多个词所属的数据类型,确定所述关联数据所属的数据类型。
15.根据权利要求14所述的装置,其中,所述拆分词数据类型确定子单元被进一步配置成:
统计构成所述关联数据的每个词所属的数据类型;
将拥有最大统计数量的数据类型,确定为所述关联数据所属的数据类型。
16.根据权利要求13所述的装置,其中,所述目标数据类型确定子单元被进一步配置成:
确定与所述第一概率对应的第一权重、与所述第二概率对应的第二权重;
利用所述第一权重对所述第一概率进行加权、利用所述第二权重对所述第二概率进行加权;
根据加权后的第一概率和第二概率的概率和,将具有最大概率和的数据类型确定为所述目标数据类型。
17.根据权利要求13所述的装置,其中,所述字段统计值包括以下至少一项:
覆盖率、唯一值数量、TopN取值数量占比、熵值、最大值、均值、方差、取值长度;其中,N为大于1的正整数。
18.根据权利要求12-17任一项所述的装置,其中,所述特征挖掘单元被进一步配置成:
针对编号类型的关联数据,采用与所述关联数据相关联的数据的总数量和唯一值数量构建特征;
针对类别型的关联数据,采用与所述关联数据相关联的数据中不同类别取值的数量、唯一值数量、占比、最频繁出现的类别取值、熵值构建特征;
针对连续型的关联数据,采用与所述关联数据相关联的数据中取值的最大值、最小值、均值、众数、方差、中位数构建特征;
针对日期类型的关联数据,采用与所述关联数据相关联的数据中取值的年份、月份、日期、星期、是否周末、两个时间类别变量的差值构建特征。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的数据处理方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的数据处理方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-9中任一项所述数据处理方法的步骤。
CN202211432146.4A 2022-11-16 2022-11-16 数据处理方法、装置、电子设备、存储介质及程序产品 Pending CN115757538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211432146.4A CN115757538A (zh) 2022-11-16 2022-11-16 数据处理方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211432146.4A CN115757538A (zh) 2022-11-16 2022-11-16 数据处理方法、装置、电子设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115757538A true CN115757538A (zh) 2023-03-07

Family

ID=85371879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211432146.4A Pending CN115757538A (zh) 2022-11-16 2022-11-16 数据处理方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115757538A (zh)

Similar Documents

Publication Publication Date Title
CN113360580A (zh) 基于知识图谱的异常事件检测方法、装置、设备及介质
CN111090780A (zh) 可疑交易信息的确定方法及装置、存储介质、电子设备
CN113034046A (zh) 一种数据风险计量方法、装置、电子设备及存储介质
CN113987190A (zh) 一种数据质量校验规则提取方法及系统
CN114741433B (zh) 一种社群挖掘方法、装置、设备及存储介质
CN115757538A (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN114841819A (zh) 理赔方案的确定方法、装置、电子设备及存储介质
CN114116799A (zh) 异常交易环路的识别方法、装置、终端及存储介质
CN114490406A (zh) 测试覆盖项管理方法、装置、设备及介质
CN114331665A (zh) 用于预定申请人的信用判定模型的训练方法、装置和电子设备
CN112632197A (zh) 基于知识图谱的业务关系处理方法及装置
CN115511014B (zh) 信息匹配方法、装置、设备及存储介质
CN116051287B (zh) 一种数据的分析方法、装置、电子设备及存储介质
CN114117004B (zh) 地址识别方法、装置、电子设备以及存储介质
CN117611324A (zh) 信用评级方法、装置、电子设备和存储介质
CN114036263A (zh) 一种网站识别方法、装置及电子设备
CN115658510A (zh) 一种测试数据生成方法、装置、电子设备和存储介质
CN117632741A (zh) 回归测试用例库的确定方法、装置、电子设备及存储介质
CN117437033A (zh) 一种预警方法、装置、设备和可读存储介质
CN115495503A (zh) 数据处理方法、装置和电子设备
CN117422544A (zh) 信用卡用户违约概率的预测方法、装置、设备及存储介质
CN116167635A (zh) 一种提升评价准确性的方法和装置
CN117668363A (zh) 一种推荐方法、装置、设备及介质
CN117575384A (zh) 企业数据处理方法、装置、计算机设备和存储介质
CN115827743A (zh) 一种审核方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination