CN112269815A - 结构化数据处理方法、装置及电子设备 - Google Patents

结构化数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112269815A
CN112269815A CN202011180503.3A CN202011180503A CN112269815A CN 112269815 A CN112269815 A CN 112269815A CN 202011180503 A CN202011180503 A CN 202011180503A CN 112269815 A CN112269815 A CN 112269815A
Authority
CN
China
Prior art keywords
data
dimensional variable
characteristic
processing
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011180503.3A
Other languages
English (en)
Inventor
梅子行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202011180503.3A priority Critical patent/CN112269815A/zh
Publication of CN112269815A publication Critical patent/CN112269815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种结构化数据处理方法、装置及电子设备,属于通信技术领域。能够解决对结构化数据进行处理得到的处理结果的准确性较低的问题。该方法包括:获取目标事件对应的结构化数据,该结构化数据包括N条子数据,每条子数据分别对应一个用户标识,每条子数据包括与一个用户标识对应的M个特征参数;针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表;其中,每个二维变量表包括与特征参数对应的至少一个特征变量;对N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果。本申请实施例应用于结构化数据处理的过程中。

Description

结构化数据处理方法、装置及电子设备
技术领域
本申请属于通信技术领域,具体涉及一种结构化数据处理方法、装置及电子设备。
背景技术
通常,可以通过卷积神经网络(Convolutional Neural Networks,CNN)对图像数据进行处理,以将常规图像拆解为红、绿、蓝(三基色)三种颜色对图像数据进行分析,从而进行图像识别、物体识别和行为认知等。
然而上述方法中,由于通过卷积神经网络处理的数据多为图像数据,而对于结构化数据的处理较少,结构化数据的每条数据中的多个子数据的顺序是随机分布的,子数据之间没有直接的拓扑关系,从而导致通过卷积神经网络对结构化数据进行处理得到的处理结果的准确性较低。
发明内容
本申请实施例的目的是提供一种结构化数据处理方法、装置及电子设备,能够解决对结构化数据进行处理得到的处理结果的准确性较低的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种结构化数据处理方法,该方法包括:获取目标事件对应的结构化数据,该结构化数据包括N条子数据,每条子数据分别对应一个用户标识,每条子数据包括与一个用户标识对应的M个特征参数,N和M均为正整数;针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表;其中,M个二维变量表中的每个二维变量表对应一条子数据的一个特征参数,每个二维变量表包括与特征参数对应的至少一个特征变量,每个特征变量分别为一个时间段内特征参数的取值;对N*M个二维变量表中的特征变量进行处理,得到处理结果。
第二方面,本申请实施例提供了一种结构化数据处理装置,该装置包括:获取模块和处理模块。其中,获取模块,用于获取目标事件对应的结构化数据,该结构化数据包括N条子数据,每条子数据分别对应一个用户标识,每条子数据包括与一个用户标识对应的M个特征参数,N和M均为正整数。处理模块,用于针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表;其中,M个二维变量表中的每个二维变量表对应一条子数据的一个特征参数,每个二维变量表包括与特征参数对应的至少一个特征变量,每个特征变量分别为一个时间段内特征参数的取值;并对N*M个二维变量表中的特征变量进行处理,得到处理结果。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,电子设备可以获取目标事件对应的结构化数据,以得到对应N个用户标识的N条子数据,并且每条子数据包括与一个用户标识对应的M个特征参数,从而电子设备可以针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表,并对该N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果。由于电子设备可以先获取目标事件对应的结构化数据,从而得到N个用户标识对应的N条子数据,然后电子设备可以基于时间维度对每条子数据的每个特征参数分别进行处理得到每条子数据的M个二维变量表,以得到N*M个二维变量表,并对该N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
附图说明
图1是本申请实施例提供的一种卷积神经网络结构示意图;
图2是本申请实施例提供的一种结构化数据处理方法的示意图之一;
图3是本申请实施例提供的一种结构化数据处理方法的示意图之二;
图4是本申请实施例提供的一种结构化数据处理方法的示意图之三;
图5是本申请实施例提供的一种结构化数据处理装置的结构示意图;
图6是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图7是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
下面对本发明实施例提供的结构化数据处理方法、装置及电子设备中涉及的一些概念和/或术语做一下解释说明。
卷积神经网络(Convolutional Neural Network,CNN),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层组成,同时也包括关联权重和池化层。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练,相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。如图1所示,为卷积神经网络结构示意图。
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。
拓扑关系,是指满足拓扑几何学原理的各空间数据间的相互关系。即用结点、弧段和多边形所表示的实体之间的邻接、关联、包含和连通关系。如:点与点的邻接关系、点与面的包含关系、线与面的相离关系、面与面的重合关系等。拓扑关系是指图形元素之间相互空间上的连接、邻接关系并不考虑具体位置。这种拓扑关系是由数字化的点、线、面数据形成的以用户的查询或应用分析要求进行图形选取、叠合、合并等操作。建立空间要素之间的拓扑关系属于地图整饰。点、线、面等实体之间的空间联系,如连通性、邻接性、包含关系等。连通性是指对线段连接关系的判别;可以用在每个结点上汇集的线段的列表来表示。邻接性通常指多边形之间的邻接关系;包含关系通常指多边形包含点或包含其他的多边形。拓扑是将各种物体的位置表示成抽象位置。在网络中,拓扑形象地描述了网络的安排和配置,包括各种结点和结点的相互关系。拓扑不关心事物的细节也不在乎什么相互的比例关系,只将讨论范围内的事物之间的相互关系表示出来,将这些事物之间的关系通过图表示出来。
卷积神经网络最主要的特点就是其中的卷积核函数。通过对卷积核内的数据进行加权求和,寻找图片像素中的旋转平移不变性。常规图像可以拆解为红、绿、蓝(三基色)三种颜色通道组成。因其内部结构的特殊性,处理的数据集多为图像。在结构化数据中没有很直接的应用。而现平台用户属性多为结构化表格数据。结构化数据如表1所示。
表1
呼入次数 短信发送次数 话费充值金额 套餐总额
用户1 26 11 500 58
用户2 28 18 800 46
用户3 27 16 2000 78
用户4 29 13 1500 36
用户5 32 22 1200 98
用户1000 36 25 1000 68
由于结构化数据存储的过程中,其列与列之间的顺序是随机分布的,没有直接的拓扑关系,通过卷积进行加权求和是没有实际意义的。如何在结构化数据上,借鉴卷积操作的挖掘能力,是一个非常有挑战性的问题。通常可以尝试将结构化数据的列进行多次打乱,构造多个通道,叠加放入模型,从而弱化列与列之间缺乏拓扑关系的影响。如表2和表3所示,然而这种尝试只能略作缓解。此外,还可以尝试通过全连接层将单行结构化数据展开为二维平面,这样处理虽然可以将结构化数据送入网络,但其二维平面仍不具备拓扑关系。在实践中未能有稳定的提升效果。本申请实施例将从根本上解决该问题。
表2
套餐总额 短信发送次数 话费充值金额 呼入次数
用户1 58 11 500 26
用户2 46 18 800 28
用户3 78 16 2000 27
用户4 36 13 1500 29
用户5 98 22 1200 32
用户1000 68 25 1000 36
表3
呼入次数 话费充值金额 短信发送次数 套餐总额
用户1 26 500 11 58
用户2 28 800 18 46
用户3 27 2000 16 78
用户4 29 1500 13 36
用户5 32 1200 22 98
用户1000 36 1000 25 68
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的结构化数据处理方法进行详细地说明。
本申请实施例中,在电子设备通过结构化数据确定目标事件的结果时,电子设备可以通过获取目标事件(例如运营商数据统计事件)对应的结构化数据(例如上述表1),以得到多个用户的通信数据(即N条子数据),从而得到每个用户对应的多个特征参数(即M个特征参数),然后电子设备可以基于时间维度,对每条子数据的每个特征参数分别进行处理,以得到M个二维变量表(即一个特征参数得到一个二维变量表),从而可以得到N*M个二维变量表(即N条子数据中的每条子数据对应M个二维变量表),然后再对该N*M个二维变量表中的特征变量进行处理,从而得到处理结果。
本申请实施例提供一种结构化数据处理方法,图2示出了本申请实施例提供的一种结构化数据处理方法的流程图,该方法可以应用于电子设备。如图2所示,本申请实施例提供的结构化数据处理方法可以包括下述的步骤201至步骤203。
步骤201、电子设备获取目标事件对应的结构化数据。
本申请实施例中,上述结构化数据包括N条子数据,N条子数据中的每条子数据分别对应一个用户标识,N条子数据中的每条子数据包括与一个用户标识对应的M个特征参数,N和M均为正整数。
本申请实施例中,电子设备可以通过获取目标事件对应的结构化数据,以得到N条子数据,从而得到N条子数据中的每条子数据包括的M个特征参数,然后电子设备基于时间维度,对每条子数据的每个特征参数分别进行处理,以得到M个二维变量表,从而可以得到N*M个二维变量表,以对该N*M个二维变量表中的特征变量进行处理,得到处理结果。
可选地,本申请实施例中,上述目标事件为运营商数据统计事件,上述结构化数据为运营商对应的用户通信数据,上述N条子数据为N个用户的通信数据,上述M个特征参数包括以下至少一项:呼入次数、短信发送次数、话费充值金额、套餐总额和拨打次数。
示例性的,电子设备可以获取运营商数据统计事件对应的结构化数据,如上述表1所示,在表1中包括有在预设时长(例如借款前144天)内的多个用户的通信数据,每个用户的通信数据包括有呼入次数、短信发送次数、话费充值金额、套餐总额等特征参数,例如,根据表1可以得到用户1在借款前144天内的呼入次数位26次、短信发送次数为11次、话费充值金额为500元、套餐总额为58;用户2在借款前144天内的呼入次数位28次、短信发送次数为18次、话费充值金额为800元、套餐总额为46元。
步骤202、针对每条子数据,电子设备基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表。
本申请实施例中,上述M个二维变量表中的每个二维变量表对应N条子数据中的一条子数据的一个特征参数,M个二维变量表中的每个二维变量表包括与一条子数据的一个特征参数对应的至少一个特征变量,至少一个特征变量中的每个特征变量分别为一个时间段内一个特征参数的取值。
可选地,本申请实施例中,电子设备可以依次从N条子数据中确定一条子数据,并依次对该一条子数据中的每个特征参数进行处理得到每个特征参数的二维变量表。
需要说明的是,针对一条子数据,电子设备可以对该一条子数据中的M个特征参数进行处理得到M个特征参数对应的M个二维变量表,从而对于结构化数据包括的N条子数据,电子设备可以分别对N条子数据中的N*M个特征参数进行处理得到N*M个特征参数对应的N*M个二维变量表。
可选地,本申请实施例中,电子设备可以确定一个具有时间属性的变量(即该变量的取值随时间的变化而变化),如表1中的呼入次数,按照时间维度进行展开,以得到呼入次数对应的二维变量表。
可选地,本申请实施例中,结合图2,如图3所示,上述步骤202具体可以通过下述的步骤202a实现。
步骤202a、针对每条子数据,电子设备对一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、一个时间段的上一个时间段对应的P个取值和一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,以得到N*M个二维变量表。
本申请实施例中,K、P、L均为正整数。
可选地,本申请实施例中,L为小于28的正整数,并且L+2P≥28。
对于常规的卷积神经网络来说,输入数据的宽度经常选为28。因此,当L小于28时,通过将上一个时间段与下一个时间段的取值补充到二维变量表中,从而可以直接使用常规的卷积神经网络对数据进行训练。
需要说明的是,上述K、P、L的取值可以按照实际使用需求而定,其中,L的取值可以参考一天的24小时确定,K的取值可以按照预设天数(例如144天或288天)确定。
可选地,本申请实施例中,上述预设时长可以为目标事件对应的时长,例如借款前144天、借款前288天等,上述K个时间段为将预设时长平均分割得到的K个时间段(例如将借款前144天分割为144个时间段,每一天为一个时间段)。
可选地,本申请实施例中,电子设备可以将预设时长按照以下任意单位分割为K个时间段:以天为单位、以周为单位、以月为单位等。
可以理解,在预设时长为144天的情况下,以天为单位可以分割为144个时间段,以周为单位可以分割为21个时间段,以月为单位可以分割为5个时间段。
需要说明的是,上述每个特征参数在每个时间段中对应的L个取值可以理解为:将每个时间段平均分割为L个区间,从而确定每个特征参数在每个区间中的取值,例如在将预设时长(借款前144天)平均分割得到的144个时间段(即一天为一个时间段)的基础上,再将每个时间段(即一天的24个小时)分割为24个时间区间(即L个区间),从而得到每个特征参数在每个小时对应的取值。
示例性的,电子设备可以确定一个具有时间属性的变量,例如表1中的呼入次数,按照时间维度进行展开,以得到如表4所示的呼入次数对应的二维变量展开表。
表4
Figure BDA0002750029610000091
Figure BDA0002750029610000101
其中,横轴为一天的24小时,纵轴为距离申请贷款日期的前144天中的每一天,对于申请日当天,比如在10点申请,则10点之后的时间没有对应观察到呼入次数的取值,可以将10点之后呼入次数确定为0。并将当天的前一天的23点和24点对应数值放在最左边的两列,将当天的后一天的1点和2点对应数值放在最右边的两列,于是将一个用户的一个变量(即呼入次数)展开为144*28的二维平面,且整个平面中具有时间维度上的拓扑关系。
需要说明的是,上述表4所示的为呼入次数对应的二维变量展开表的一种实现方式,在具体的应用场景中,可以将呼入次数按照时间维度进行展开,以得到288天的二维变量展开表,并将当天的前一天的21点、22点、23点和24点对应数值放在最左边的四列,将当天的后一天的1点、2点、3点和4点对应数值放在最右边的四列,于是将一个用户的一个变量(即呼入次数)展开为288*32的二维平面,且整个平面中具有时间维度上的拓扑关系。
可选地,本申请实施例中,类比于呼入次数,将短信发送次数、话费充值金额等其他具有时间属性的变量展开,可以得到多个变量的二维平面,如表5和表6所示,每一个特征变量的二维平面,就相当于通过卷积神经网络对图像进行处理中的一个通道,唯一的区别是图像只有3层通道,而一个结构化数据中的用户可以有原始变量个数那么多的通道,这在业务理解和模型学习过程中都是完全合理的。
表5
Figure BDA0002750029610000111
表6
Figure BDA0002750029610000112
Figure BDA0002750029610000121
需要说明的是,对于表5和表6的说明可以参照表4的描述,此处不再赘述。
本申请实施例中,电子设备可以对一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、一个时间段的上一个时间段对应的P个取值和一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,从而电子设备可以对这些二维变量表进行处理,从而得到准确性较高的处理结果。
步骤203、电子设备对N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果。
可选地,本申请实施例中,电子设备可以对N*M个二维变量表中的特征变量对应的取值进行处理,从而结合N*M个二维变量表,得到目标事件对应的处理结果。
可选地,本申请实施例中,电子设备可以调用卷积神经网络,通过监督学习方法,对N*M个二维变量表中的所有特征变量进行处理。
可选地,本申请实施例中,电子设备可以通过卷积神经网络的输入层处理N*M个二维变量表中的数据,得到处理结果。
可选地,本申请实施例中,电子设备可以通过卷积神经网络在监督学习中使用BP框架进行学习,以对N*M个二维变量表中的所有特征变量进行处理。
可选地,本申请实施例中,在得到N*M个二维变量表之后,电子设备可以调用卷积神经网络,通过监督学习方法,对N*M个二维变量表中的所有特征变量进行处理,得到处理结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
本申请实施例提供一种结构化数据处理方法,电子设备可以获取目标事件对应的结构化数据,以得到对应N个用户标识的N条子数据,并且每条子数据包括与一个用户标识对应的M个特征参数,从而电子设备可以针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表,并对该N*M个二维变量表中的特征变量进行处理,得到处理结果。由于电子设备可以先获取目标事件对应的结构化数据,从而得到N个用户标识对应的N条子数据,然后电子设备可以基于时间维度对每条子数据的每个特征参数分别进行处理得到每条子数据的M个二维变量表,以得到N*M个二维变量表,并对该N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
可选地,本申请实施例中,结合图2,如图4所示,上述步骤203具体可以通过下述的步骤203a实现。
步骤203a、电子设备对N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在目标事件中的预测结果。
可选地,本申请实施例中,类似于通过卷积神经网络处理图像的过程,电子设备可以通过对N*M个二维变量表中的特征变量进行监督学习,以得到分类器,从而通过该分类器确定目标事件的结果。
可选地,本申请实施例中,在目标事件为运营商数据统计事件的情况下,电子设备可以通过对N*M个二维变量表中的特征变量进行监督学习,以得到分类器,从而通过该分类器识别用户的欺诈风险、贷款意愿等。
本申请实施例中,在得到N*M个二维变量表之后,电子设备可以对N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在目标事件中的预测结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
需要说明的是,本申请实施例提供的结构化数据处理方法,执行主体可以为结构化数据处理装置,或者该结构化数据处理装置中的用于执行结构化数据处理方法的控制模块。本申请实施例中以结构化数据处理装置执行加载结构化数据处理方法为例,说明本申请实施例提供的结构化数据处理装置。
图5示出了本申请实施例中涉及的结构化数据处理装置的一种可能的结构示意图。如图5所示,结构化数据处理装置70可以包括:获取模块71和处理模块72。
其中,获取模块71,用于获取目标事件对应的结构化数据,该结构化数据包括N条子数据,每条子数据分别对应一个用户标识,每条子数据包括与一个用户标识对应的M个特征参数,N和M均为正整数。处理模块72,用于针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表。其中,M个二维变量表中的每个二维变量表对应一条子数据的一个特征参数,每个二维变量表包括与特征参数对应的至少一个特征变量,每个特征变量分别为一个时间段内特征参数的取值;并对N*M个二维变量表中的特征变量进行处理,得到处理结果。
在一种可能的实现方式中,目标事件为运营商数据统计事件,结构化数据为运营商对应的用户通信数据,N条子数据为N个用户的通信数据,M个特征参数包括以下至少一项:呼入次数、短信发送次数、话费充值金额、套餐总额和拨打次数。
在一种可能的实现方式中,处理模块72,具体用于对一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、一个时间段的上一个时间段对应的P个取值和一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,K、P、L均为正整数。
在一种可能的实现方式中,L为小于28的正整数,并且L+2P≥28。
在一种可能的实现方式中,处理模块72,具体还用于对N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在目标事件中的预测结果。
本申请实施例提供的结构化数据处理装置能够实现上述方法实施例中结构化数据处理装置实现的各个过程,为避免重复,详细描述这里不再赘述。
本申请实施例提供一种结构化数据处理装置,由于电子设备可以先获取目标事件对应的结构化数据,从而得到N个用户标识对应的N条子数据,然后电子设备可以基于时间维度对每条子数据的每个特征参数分别进行处理得到每条子数据的M个二维变量表,以得到N*M个二维变量表,并对该N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
本申请实施例中的结构化数据处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的结构化数据处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
可选地,如图6所示,本申请实施例还提供一种电子设备M00,包括处理器M01,存储器M02,存储在存储器M02上并可在所述处理器M01上运行的程序或指令,该程序或指令被处理器M01执行时实现上述结构化数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图7为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,输入单元104,用于获取目标事件对应的结构化数据,该结构化数据包括N条子数据,每条子数据分别对应一个用户标识,每条子数据包括与一个用户标识对应的M个特征参数,N和M均为正整数。
处理器110,用于针对每条子数据,基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表;其中,M个二维变量表中的每个二维变量表对应一条子数据的一个特征参数,每个二维变量表包括与特征参数对应的至少一个特征变量,每个特征变量分别为一个时间段内特征参数的取值;并对N*M个二维变量表中的特征变量进行处理,得到处理结果。
本申请实施例提供一种电子设备,由于电子设备可以先获取目标事件对应的结构化数据,从而得到N个用户标识对应的N条子数据,然后电子设备可以基于时间维度对每条子数据的每个特征参数分别进行处理得到每条子数据的M个二维变量表,以得到N*M个二维变量表,并对该N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
可选地,处理器110,具体用于对一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、一个时间段的上一个时间段对应的P个取值和一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,K、P、L均为正整数。
本申请实施例中,电子设备可以对一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、一个时间段的上一个时间段对应的P个取值和一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,从而电子设备可以对这些二维变量表进行处理,从而得到准确性较高的处理结果。
处理器110,具体还用于对N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在目标事件中的预测结果。
本申请实施例中,在得到N*M个二维变量表之后,电子设备可以对N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在目标事件中的预测结果,从而提高对结构化数据进行处理得到的处理结果的准确性。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述结构化数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述结构化数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种结构化数据处理方法,其特征在于,所述方法包括:
获取目标事件对应的结构化数据,所述结构化数据包括N条子数据,每条子数据分别对应一个用户标识,所述每条子数据包括与一个所述用户标识对应的M个特征参数,N和M均为正整数;
针对所述每条子数据,基于时间维度,对一条子数据的每个所述特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表;其中,所述M个二维变量表中的每个二维变量表对应所述一条子数据的一个特征参数,每个所述二维变量表包括与所述特征参数对应的至少一个特征变量,每个所述特征变量分别为一个时间段内所述特征参数的取值;
对所述N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果。
2.根据权利要求1所述的方法,其特征在于,所述目标事件为运营商数据统计事件,所述结构化数据为运营商对应的用户通信数据,所述N条子数据为N个用户的通信数据,所述M个特征参数包括以下至少一项:呼入次数、短信发送次数、话费充值金额、套餐总额和拨打次数。
3.根据权利要求1或2所述的方法,其特征在于,所述基于时间维度,对一条子数据的每个特征参数分别进行处理得到M个二维变量表,包括:
对所述一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、所述一个时间段的上一个时间段对应的P个取值和所述一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,K、P、L均为正整数。
4.根据权利要求3所述的方法,其特征在于,L为小于28的正整数,并且L+2P≥28。
5.根据权利要求1或2所述的方法,其特征在于,所述对所述N*M个二维变量表中的特征变量进行处理,得到处理结果,包括:
对所述N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在所述目标事件中的预测结果。
6.一种结构化数据处理装置,其特征在于,所述结构化数据处理装置包括:获取模块和处理模块;
所述获取模块,用于获取目标事件对应的结构化数据,所述结构化数据包括N条子数据,每条子数据分别对应一个用户标识,所述每条子数据包括与一个所述用户标识对应的M个特征参数,N和M均为正整数;
所述处理模块,用于针对所述每条子数据,基于时间维度,对一条子数据的每个所述特征参数分别进行处理得到M个二维变量表,以得到N*M个二维变量表;其中,所述M个二维变量表中的每个二维变量表对应所述一条子数据的一个特征参数,每个所述二维变量表包括与所述特征参数对应的至少一个特征变量,每个所述特征变量分别为一个时间段内所述特征参数的取值;并对所述N*M个二维变量表中的特征变量进行卷积神经网络处理,得到处理结果。
7.根据权利要求6所述的结构化数据处理装置,其特征在于,所述目标事件为运营商数据统计事件,所述结构化数据为运营商对应的用户通信数据,所述N条子数据为N个用户的通信数据,所述M个特征参数包括以下至少一项:呼入次数、短信发送次数、话费充值金额、套餐总额和拨打次数。
8.根据权利要求6或7所述的结构化数据处理装置,其特征在于,所述处理模块,具体用于对所述一条子数据的M个特征参数分别进行解析,得到每个特征参数在预设时长中的K个时间段,以及每个特征参数在每个时间段中对应的L个取值,以根据每个特征参数在一个时间段中对应的L个取值、所述一个时间段的上一个时间段对应的P个取值和所述一个时间段的下一个时间段对应的P个取值,得到M个二维变量表,K、P、L均为正整数。
9.根据权利要求8所述的结构化数据处理装置,其特征在于,L为小于28的正整数,并且L+2P≥28。
10.根据权利要求6或7所述的结构化数据处理装置,其特征在于,所述处理模块,具体还用于对所述N*M个二维变量表中的特征变量进行处理得到分类器,并通过分类器对用户的通信数据进行处理,得到用户在所述目标事件中的预测结果。
CN202011180503.3A 2020-10-29 2020-10-29 结构化数据处理方法、装置及电子设备 Pending CN112269815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011180503.3A CN112269815A (zh) 2020-10-29 2020-10-29 结构化数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011180503.3A CN112269815A (zh) 2020-10-29 2020-10-29 结构化数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112269815A true CN112269815A (zh) 2021-01-26

Family

ID=74344650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011180503.3A Pending CN112269815A (zh) 2020-10-29 2020-10-29 结构化数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112269815A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829153A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 基于卷积神经网络的意图识别方法、装置、设备及介质
US20200074267A1 (en) * 2018-08-31 2020-03-05 International Business Machines Corporation Data prediction
CN111144505A (zh) * 2019-12-30 2020-05-12 北京三快在线科技有限公司 基于维度切片的变量分类方法、装置、设备及介质
CN111340375A (zh) * 2020-02-28 2020-06-26 创新奇智(上海)科技有限公司 一种电费回收风险预测方法、装置、电子设备及存储介质
CN111476291A (zh) * 2020-04-03 2020-07-31 南京星火技术有限公司 数据处理方法,装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074267A1 (en) * 2018-08-31 2020-03-05 International Business Machines Corporation Data prediction
CN109829153A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 基于卷积神经网络的意图识别方法、装置、设备及介质
CN111144505A (zh) * 2019-12-30 2020-05-12 北京三快在线科技有限公司 基于维度切片的变量分类方法、装置、设备及介质
CN111340375A (zh) * 2020-02-28 2020-06-26 创新奇智(上海)科技有限公司 一种电费回收风险预测方法、装置、电子设备及存储介质
CN111476291A (zh) * 2020-04-03 2020-07-31 南京星火技术有限公司 数据处理方法,装置及存储介质

Similar Documents

Publication Publication Date Title
CN105989594B (zh) 一种图像区域检测方法及装置
WO2020199693A1 (zh) 一种大姿态下的人脸识别方法、装置及设备
US9905043B2 (en) Techniques to generate digital maps
CN109360097A (zh) 基于深度学习的股票预测方法、装置、设备及存储介质
Linhares et al. DyNetVis: a system for visualization of dynamic networks
CN112214499B (zh) 图数据处理方法、装置、计算机设备和存储介质
CN111462088A (zh) 基于图卷积神经网络的数据处理方法、装置、设备及介质
CN113628201A (zh) 基于深度学习的病理切片分析方法、电子设备及可读存储介质
CN110020022A (zh) 数据处理方法、装置、设备及可读存储介质
CN112381010A (zh) 表格结构的还原方法、系统、计算机设备及存储介质
CN111967598A (zh) 神经网络压缩方法、装置、设备及计算机可读存储介质
CN110674826A (zh) 基于量子纠缠的字符识别方法
CN113342791A (zh) 一种数据质量监测方法及装置
CN114091472B (zh) 多标签分类模型的训练方法
CN109947983A (zh) 视频推荐方法、系统、终端及计算机可读存储介质
CN114462582A (zh) 基于卷积神经网络模型的数据处理方法及装置、设备
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN107992598B (zh) 一种基于视频资料进行群体社交关系挖掘的方法
Ruiz et al. Median activation functions for graph neural networks
CN113592293A (zh) 风险识别处理方法、电子设备及计算机可读存储介质
CN112269815A (zh) 结构化数据处理方法、装置及电子设备
Zheng et al. Analysis of criminal social networks with typed and directed edges
CN111639537A (zh) 人脸动作单元识别方法、装置、电子设备及存储介质
CN111339315A (zh) 知识图谱构建方法、系统、计算机可读介质和电子设备
CN110135224B (zh) 一种监控视频的前景目标提取方法及系统、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination