CN109242004A - 数据特征构建方法、装置、计算机设备及存储介质 - Google Patents

数据特征构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109242004A
CN109242004A CN201810955531.4A CN201810955531A CN109242004A CN 109242004 A CN109242004 A CN 109242004A CN 201810955531 A CN201810955531 A CN 201810955531A CN 109242004 A CN109242004 A CN 109242004A
Authority
CN
China
Prior art keywords
data set
data
preset condition
meeting preset
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810955531.4A
Other languages
English (en)
Inventor
黄婉玲
吕仲琪
顾正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayun Zhongsheng Science And Technology Co Ltd
Original Assignee
Shenzhen Huayun Zhongsheng Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayun Zhongsheng Science And Technology Co Ltd filed Critical Shenzhen Huayun Zhongsheng Science And Technology Co Ltd
Priority to CN201810955531.4A priority Critical patent/CN109242004A/zh
Publication of CN109242004A publication Critical patent/CN109242004A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据特征构建方法、装置、计算机设备及存储介质,该方法包括获取待处理数据集以及需求;对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;将新数据集转换特定格式,形成待输出数据集;输出待输出数据集。本发明通过对待处理数据集进行解析和转换,并对转换后获取的符合预设要求的数据集进行扩维,以构建数据特征,并以特定格式输出构建数据特征后的待输出数据集,实现全自动构建数据特征,且便于用户使用。

Description

数据特征构建方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理方法,更具体地说是指数据特征构建方法、装置、计算机设备及存储介质。
背景技术
大数据是这个高科技时代的产物,如何有效利用大数据解决不同问题,是成为赢得竞争的关键,其中,数据的价值含量、挖掘成本比数量更为重要。
目前,python提供numpy包、sklearn包等帮助用户解决一些基本的数据处理及特征工程的工作,其中,NumPy包是Python的一种开源的数值计算扩展,这种工具可用来存储和处理大型矩阵;sklearn包是机器学习中一个常用的python第三方模块,用户根据自己的需求在相应的包里找到适用的函数调用。但是用户的需求并不能得到全部满足,大多数函数方法是最基本的方法,只能解决数据处理或特征工程的一部分,用户在调用时还需再做一些数据处理的工作,不便于用户使用。
因此,有必要设计一种新的方法,实现自动化完成一系列数据处理和特征构造,便于用户使用。
发明内容
本发明的目的在于克服现有技术的缺陷,提供数据特征构建方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:数据特征构建方法,包括:
获取待处理数据集以及需求;
对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;
根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;
将新数据集转换特定格式,形成待输出数据集;
输出待输出数据集。
其进一步技术方案为:所述对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集,包括:
获取待处理数据集的分割符号;
根据分割符号分割待处理数据集;
按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果;
对数据列表转换为字典以得到符合预设条件的数据集。
其进一步技术方案为:所述按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果,包括:
将分割后的待处理数据集中每行数据存为一个数据列表。
其进一步技术方案为:所述对数据列表转换为字典以得到符合预设条件的数据集,包括:
提取数据列表的关键值,以作为特征名;
将对数据列表按照特征名为键且值为数据列表的格式转换为字典以得到符合预设条件的数据集。
其进一步技术方案为:所述根据需求符合预设条件的数据集进行维度扩展,形成新数据集,包括:
判断需求所调用的方法是否矩阵运算方法;
若是,则对符合预设条件的数据集进行矩阵运算,以得到新数据集;
若否,则对符合预设条件的数据集进行非矩阵运算,以得到新数据集。
其进一步技术方案为:所述对符合预设条件的数据集进行矩阵运算,以得到新数据集,包括:
对符合预设条件的数据集进行奇异值分解,生成左奇异矩阵;
将左奇异矩阵补充至符合预设条件的数据集,以得到新数据集。
本发明还提供了数据特征构建装置,包括:
获取单元,用于获取待处理数据集以及需求;
解析单元,用于对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;
维度扩展单元,用于根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;
格式转换单元,用于将新数据集转换特定格式,形成待输出数据集;
输出单元,用于输出待输出数据集。
其进一步技术方案为:所述解析单元包括:
分割符号获取子单元,用于获取待处理数据集的分割符号;
分割子单元,用于根据分割符号分割待处理数据集;
存储子单元,用于按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果;
字典形成子单元,用于对数据列表转换为字典以得到符合预设条件的数据集。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据特征构建方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述的数据特征构建方法。
本发明与现有技术相比的有益效果是:本发明通过对待处理数据集进行解析和转换,并对转换后获取的符合预设要求的数据集进行扩维,以构建数据特征,并以特定格式输出构建数据特征后的待输出数据集,实现全自动构建数据特征,且便于用户使用。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据特征构建方法的应用场景示意图;
图2为本发明实施例提供的数据特征构建方法的流程示意图;
图3为本发明实施例提供的数据特征构建方法的子流程示意图;
图4为本发明实施例提供的数据特征构建方法的子流程示意图;
图5为本发明实施例提供的数据特征构建方法的子流程示意图;
图6为本发明实施例提供的数据特征构建方法的子流程示意图;
图7为本发明实施例提供的数据特征构建装置的示意性框图;
图8为本发明实施例提供的数据特征构建装置的解析单元的示意性框图;
图9为本发明实施例提供的数据特征构建装置的字典形成子单元的示意性框图;
图10为本发明实施例提供的数据特征构建装置的维度扩展单元的示意性框图;
图11为本发明实施例提供的数据特征构建装置的矩阵运算子单元的示意性框图;
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的数据特征构建方法的应用场景示意图。图2为本发明实施例提供的数据特征构建方法的示意性流程图。该数据特征构建方法应用于服务器20中,以构建平台形式存在,该服务器20与用户终端10进行数据交互。
其中,用户终端10的使用者通常为某一企业的数据分析人员,其可通过用户终端10的构建APP向服务器20发送需求以及待处理数据集,服务器20根据所接收到的需求以及待处理数据集而向用户终端10反馈相应的带数据特征的数据集。
图2是本发明实施例提供的数据特征构建方法的流程示意图。如图所示,该方法包括以下步骤S110-150。
S110、获取待处理数据集以及需求。
在本实施例中,待处理数据集是指需要进行数据处理和数据特征构建的数据集,需求是指用户对该待处理数据集进行数据处理和数据特征构建的要求,其可包括对若干个待处理数据集的特征进行线性运算以及某一待处理数据集自身进行矩阵运算。
具体地,上述的待处理数据集以及需求均由用户从用户终端10输入,而且该待处理数据集的格式为csv文件格式和/或特定的libsvm文件格式,其中,该csv文件格式是最通用的一种文件格式,它可以非常容易地被导入各种PC表格及数据库中,此文件中,一行即为数据表的一行,生成数据表字段用半角逗号隔开;而libsvm文件格式为[label][index1]:[value1][index2]:[value2];其中label是指目标值,就是说class属于哪一类,就是你要分类的种类,通常是一些整数,index是有顺序的索引,通常是连续的整数,就是指特征编号,必须按照升序排列,value就是特征值,用来train的数据,通常是一堆实数组成;例如:51:0.68752:0.1875 3:0.015625 4:0.109375,表示特征有4维,第一维是0.6875,第二维是0.1875,第三维是0.015625,第四维是0.109375,目标值是5。若用户输入的数据为较为零散的数据,可利用现有的csv文件格式和/或特定的libsvm文件格式生成软件将这些零散的数据转为csv文件格式和/或特定的libsvm文件格式的待处理数据集。
S120、对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集。
在本实施例中,由服务器20对来自用户终端10的待处理数据集进行解析。
在一实施例中,如图3所示,上述的步骤S120可包括步骤S121~S124。
S121、获取待处理数据集的分割符号;
在本实施例中,若用户终端10输入的待处理数据集的格式为csv文件格式,则该分割符号为半角逗号,若用户终端10输入的待处理数据集的格式为libsvm文件格式,则该分割符号为空格。
S122、根据分割符号分割待处理数据集。
在本实施例中,若用户终端10输入的待处理数据集的格式为csv文件格式,则按照行作为单位,划分待处理数据集,将该待处理数据集划分为若干行;若用户终端10输入的待处理数据集的格式为libsvm文件格式,则按照行作为单位,划分待处理数据集,提取每行中的特征值,以此将该待处理数据集划分为若干行。
S123、按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果。
在本实施例中,具体是将分割后的待处理数据集中每行数据存为一个数据列表。
S124、对数据列表转换为字典以得到符合预设条件的数据集。
通过对数据集进行读取并存储成key-value(特征名为键且值为数据列表)的字典格式。调用基本运算类中的不同方法做基本运算分别生成新的key-value,完成运算方法调用后,采用解析数据集相对应的存储数据集方法,写成一个与原数据及格式一致的新数据集输出。
在本实施例中,上述的预设条件是指格式是特征名为键且值为数据列表。
在一实施例中,如图4所示,上述的步骤S124可包括步骤S1241~S1242。
S1241、提取数据列表的关键值,以作为特征名;
S1242、将对数据列表按照特征名为键且值为数据列表的格式转换为字典以得到符合预设条件的数据集。
该数据列表的关键值即特征名,在本实施例中,该关键值指的是数据列表的特征值,以此生成以特征名为键,值为数据列表的字典。如此,用户在调用方法对不同特征对应的数据进行操作时,就可以在调用方法时只提供特征名,各个特征构造的方法中会根据特征名所引取到对应的数据,便于用户使用,且效率高。
S130、根据需求对符合预设条件的数据集进行维度扩展,形成新数据集。
在本实施例中,维度扩展是指数据特征的构建,对数据特征进行运算的过程。
在一实施例中,如图5所示,上述的步骤S130可包括步骤S131~S133。
S131、判断需求所调用的方法是否矩阵运算方法。
该需求由用户终端10输入,服务器20会对该需求进行分析,判断该需求所调用的具体内容。
S132、若是,则对符合预设条件的数据集进行矩阵运算,以得到新数据集。
在本实施例中,该矩阵运算是指为对数据进行矩阵处理得到一些新的因子。
在一实施例中,调用奇异值分解(singular value decomposition,SVD)、隐语义模型(latent factor model,LFM)等潜因子构建方法进行矩阵运算后,可选择生成的因子矩阵作为新数据集,以直接反馈至用户终端10。
S133、若否,则对符合预设条件的数据集进行非矩阵运算,以得到新数据集。
在本实施例中,非矩阵运算包括线性运算等适用于非矩阵数据集的运算,其中,该线性运算是指基本的统计运算,具体包括简单的加减乘除,比如用户想要把两个数据特征对应的符合预设条件的数据集相加形成一个新数据集,譬如符合预设条件的数据集为每间店每天的销售额,而需求是获取每间店的日平均销售额;则可使用双重for函数循环地把每天每间店的销售额分别相加即可得到每间店每月的销售总额,取平均可以得到每间店的日平均销售额,通过取对数的方法可以使数据整体方差恒定,从而得到新数据集;基本的统计运算还包括对时间类型数据的处理,比如可以把一个时间按年月日分开提取成特征,或者计算两个时间的时间差作为新特征。
在一实施例中,如图6所示,上述的步骤S133可包括步骤S1331~S1332。
S1331、对符合预设条件的数据集进行奇异值分解,生成左奇异矩阵。
在本实施例中,奇异值分解(singular value decomposition,SVD)具体是对一个矩阵/二维数组通过计算转置、逆矩阵、单位矩阵、特征值、特征向量计算等,以计算这个矩阵的左奇异矩阵。
其中特征值和特征向量的计算主要是参考java本身提供的Jama包里的EvgenvalueDecomposition.java脚本。其他操作则是根据线性代数的数学理论方法进行实现。除了奇异值分解,工具包中还提供了奇异值分解的引申——主成分分析(PrincipalComponents Analysis,PCA)方法及通过采用梯度下降思想的实现LatentFactorModel,从而协助用户补齐符合预设条件的数据集的矩阵中的缺失值。
S1332、将左奇异矩阵补充至符合预设条件的数据集,以得到新数据集。
左奇异矩阵作为新的特征数据补充到符合预设条件的数据集,以得到新数据集。
新数据集的输出都是独立于原来的数据集,用户可先查看新新数据集的特征数据的效果再决定是否作为原来待处理数据集的补充特征加入到原来待处理数据集中。
S140、将新数据集转换特定格式,形成待输出数据集。
在本实施例中,特定格式是指将新数据集转为csv文件格式和/或特定的libsvm文件格式;服务器20内提供了对待输出数据集写出的功能,用户可以选择输出格式及设定分隔符等对待输出数据集进行写出成文件,供之后其他操作或建模使用。
S150、输出待输出数据集。
在本实施例中,将待输出数据集输出至用户终端10。
上述的数据特征构建方法,通过对待处理数据集进行解析和转换,并对转换后获取的符合预设要求的数据集进行扩维,以构建数据特征,并以特定格式输出构建数据特征后的待输出数据集,实现全自动构建数据特征,且便于用户使用。
图7是本发明实施例提供的一种数据特征构建装置200的示意性框图。如图7所示,对应于以上数据特征构建方法,本发明还提供一种数据特征构建装置200。该数据特征构建装置200包括用于执行上述数据特征构建方法的单元,该装置可以被配置于服务器20中。具体地,请参阅图7,该数据特征构建装置200包括:
获取单元201,用于获取待处理数据集以及需求。
解析单元202,用于对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集。
维度扩展单元203,用于根据需求对符合预设条件的数据集进行维度扩展,形成新数据集。
格式转换单元204,用于将新数据集转换特定格式,形成待输出数据集。
输出单元205,用于输出待输出数据集。
在一实施例中,如图8所示,所述解析单元202包括:
分割符号获取子单元2021,用于获取待处理数据集的分割符号。
分割子单元2022,用于根据分割符号分割待处理数据集。
存储子单元2023,用于按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果。
字典形成子单元2024,用于对数据列表转换为字典以得到符合预设条件的数据集。
在一实施例中,如图9所示,上述的字典形成子单元2024包括:
提取模块20241,用于提取数据列表的关键值,以作为特征名。
转换模块20242,用于将对数据列表按照特征名为键且值为数据列表的格式转换为字典以得到符合预设条件的数据集。
在一实施例中,如图10所示,上述的维度扩展单元203包括:
判断子单元2031,用于判断需求所调用的方法是否矩阵运算方法。
矩阵运算子单元2032,用于若是,则对符合预设条件的数据集进行矩阵运算,以得到新数据集。
非矩阵运算子单元2033,用于若否,则对符合预设条件的数据集进行非矩阵运算,以得到新数据集。
在一实施例中,如图11所示,上述的矩阵运算子单元2032包括:
分解模块20321,用于对符合预设条件的数据集进行奇异值分解,生成左奇异矩阵。
补充模块20322,用于将左奇异矩阵补充至符合预设条件的数据集,以得到新数据集。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述数据特征构建装置200和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述数据特征构建装置200可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器20。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种数据特征构建方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种数据特征构建方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取待处理数据集以及需求;
对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;
根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;
将新数据集转换特定格式,形成待输出数据集;
输出待输出数据集。
在一实施例中,处理器502在实现所述对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集步骤时,具体实现如下步骤:
获取待处理数据集的分割符号;
根据分割符号分割待处理数据集;
按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果;
对数据列表转换为字典以得到符合预设条件的数据集。
在一实施例中,处理器502在实现所述按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果步骤时,具体实现如下步骤:
将分割后的待处理数据集中每行数据存为一个数据列表。
在一实施例中,处理器502在实现所述对数据列表转换为字典以得到符合预设条件的数据集步骤时,具体实现如下步骤:
提取数据列表的关键值,以作为特征名;
将对数据列表按照特征名为键且值为数据列表的格式转换为字典以得到符合预设条件的数据集。
在一实施例中,处理器502在实现所述根据需求符合预设条件的数据集进行维度扩展,形成新数据集步骤时,具体实现如下步骤:
判断需求所调用的方法是否矩阵运算方法;
若是,则对符合预设条件的数据集进行矩阵运算,以得到新数据集;
若否,则对符合预设条件的数据集进行非矩阵运算,以得到新数据集。
在一实施例中,处理器502在实现所述对符合预设条件的数据集进行矩阵运算,以得到新数据集步骤时,具体实现如下步骤:
对符合预设条件的数据集进行奇异值分解,生成左奇异矩阵;
将左奇异矩阵补充至符合预设条件的数据集,以得到新数据集。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:
获取待处理数据集以及需求;
对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;
根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;
将新数据集转换特定格式,形成待输出数据集;
输出待输出数据集。
在一实施例中,所述处理器在执行所述程序指令而实现所述对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集步骤时,具体实现如下步骤:
获取待处理数据集的分割符号;
根据分割符号分割待处理数据集;
按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果;
对数据列表转换为字典以得到符合预设条件的数据集。
在一实施例中,所述处理器在执行所述程序指令而实现所述按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果步骤时,具体实现如下步骤:
将分割后的待处理数据集中每行数据存为一个数据列表。
在一实施例中,所述处理器在实现所述对数据列表转换为字典以得到符合预设条件的数据集步骤时,具体实现如下步骤:
提取数据列表的关键值,以作为特征名;
将对数据列表按照特征名为键且值为数据列表的格式转换为字典以得到符合预设条件的数据集。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据需求符合预设条件的数据集进行维度扩展,形成新数据集步骤时,具体实现如下步骤:
判断需求所调用的方法是否矩阵运算方法;
若是,则对符合预设条件的数据集进行矩阵运算,以得到新数据集;
若否,则对符合预设条件的数据集进行非矩阵运算,以得到新数据集。
在一实施例中,所述处理器在执行所述程序指令而实现所述对符合预设条件的数据集进行矩阵运算,以得到新数据集步骤时,具体实现如下步骤:
对符合预设条件的数据集进行奇异值分解,生成左奇异矩阵;
将左奇异矩阵补充至符合预设条件的数据集,以得到新数据集。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.数据特征构建方法,其特征在于,包括:
获取待处理数据集以及需求;
对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;
根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;
将新数据集转换特定格式,形成待输出数据集;
输出待输出数据集。
2.根据权利要求1所述的数据特征构建方法,其特征在于,所述对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集,包括:
获取待处理数据集的分割符号;
根据分割符号分割待处理数据集;
按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果;
对数据列表转换为字典以得到符合预设条件的数据集。
3.根据权利要求2所述的数据特征构建方法,其特征在于,所述按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果,包括:
将分割后的待处理数据集中每行数据存为一个数据列表。
4.根据权利要求2或3所述的数据特征构建方法,其特征在于,所述对数据列表转换为字典以得到符合预设条件的数据集,包括:
提取数据列表的关键值,以作为特征名;
将对数据列表按照特征名为键且值为数据列表的格式转换为字典以得到符合预设条件的数据集。
5.根据权利要求1所述的数据特征构建方法,其特征在于,所述根据需求符合预设条件的数据集进行维度扩展,形成新数据集,包括:
判断需求所调用的方法是否矩阵运算方法;
若是,则对符合预设条件的数据集进行矩阵运算,以得到新数据集;
若否,则对符合预设条件的数据集进行非矩阵运算,以得到新数据集。
6.根据权利要求5所述的数据特征构建方法,其特征在于,所述对符合预设条件的数据集进行矩阵运算,以得到新数据集,包括:
对符合预设条件的数据集进行奇异值分解,生成左奇异矩阵;
将左奇异矩阵补充至符合预设条件的数据集,以得到新数据集。
7.数据特征构建装置,其特征在于,包括:
获取单元,用于获取待处理数据集以及需求;
解析单元,用于对待处理数据集进行解析,并将解析结果转换符合预设条件的数据集;
维度扩展单元,用于根据需求对符合预设条件的数据集进行维度扩展,形成新数据集;
格式转换单元,用于将新数据集转换特定格式,形成待输出数据集;
输出单元,用于输出待输出数据集。
8.根据权利要求7所述的数据特征构建装置,其特征在于,所述解析单元包括:
分割符号获取子单元,用于获取待处理数据集的分割符号;
分割子单元,用于根据分割符号分割待处理数据集;
存储子单元,用于按照预设条件以列表形式存储分割后的待处理数据集,形成数据列表以得到解析结果;
字典形成子单元,用于对数据列表转换为字典以得到符合预设条件的数据集。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的数据特征构建方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至6中任意一项所述的数据特征构建方法。
CN201810955531.4A 2018-08-21 2018-08-21 数据特征构建方法、装置、计算机设备及存储介质 Pending CN109242004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810955531.4A CN109242004A (zh) 2018-08-21 2018-08-21 数据特征构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810955531.4A CN109242004A (zh) 2018-08-21 2018-08-21 数据特征构建方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109242004A true CN109242004A (zh) 2019-01-18

Family

ID=65069827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810955531.4A Pending CN109242004A (zh) 2018-08-21 2018-08-21 数据特征构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109242004A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314708A (zh) * 2020-02-25 2020-06-19 腾讯科技(深圳)有限公司 一种图像数据压缩方法、装置、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290003B1 (en) * 2004-08-19 2007-10-30 Sun Microsystems, Inc. Migrating data using an intermediate self-describing format
CN102508706A (zh) * 2011-11-18 2012-06-20 北京航空航天大学 一种多源数据集成平台及其构建方法
CN106649310A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 数据获取的方法及装置
CN107562825A (zh) * 2017-08-21 2018-01-09 北京锐安科技有限公司 一种生成数据展示界面的系统及方法
CN108287706A (zh) * 2017-05-10 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290003B1 (en) * 2004-08-19 2007-10-30 Sun Microsystems, Inc. Migrating data using an intermediate self-describing format
CN102508706A (zh) * 2011-11-18 2012-06-20 北京航空航天大学 一种多源数据集成平台及其构建方法
CN106649310A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 数据获取的方法及装置
CN108287706A (zh) * 2017-05-10 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法及装置
CN107562825A (zh) * 2017-08-21 2018-01-09 北京锐安科技有限公司 一种生成数据展示界面的系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
万川梅等: "《Hadoop应用开发实战详解 修订版》", 31 August 2014 *
焦李成等: "《雷达图像解译技术》", 31 December 2017 *
高尚等: "《支持向量机及其个人信用评估》", 31 July 2013 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314708A (zh) * 2020-02-25 2020-06-19 腾讯科技(深圳)有限公司 一种图像数据压缩方法、装置、存储介质和电子设备
CN111314708B (zh) * 2020-02-25 2021-05-07 腾讯科技(深圳)有限公司 一种图像数据压缩方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN109739894B (zh) 补充元数据描述的方法、装置、设备及存储介质
US10185615B2 (en) Analysis stack for an event flow
Thiem et al. QCA: A Package for Qualitative Comparative Analysis.
CN107003868B (zh) 处理包含联合类型操作的查询
CN108605010A (zh) 利用分布式计算图快速预测分析超大型数据集
KR20080024151A (ko) 복합 연산을 이용한 데이터 집계 방법, 데이터 집계소프트웨어, 및 데이터 집계 시스템
CN108960672B (zh) 限额限次的风控方法、装置及计算机可读存储介质
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN110633331B (zh) 一种关系数据库中数据提取方法、系统及相关设备
US20160188299A1 (en) System And Method For Automatic Extraction Of Software Design From Requirements
CN110532041A (zh) 规则引擎参数配置方法、装置、计算机设备及存储介质
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN103150383A (zh) 一种短文本数据的事件演化分析方法
CN106855851A (zh) 知识抽取方法及装置
EP3388957A1 (en) Method and system for optimizing database system, electronic device, and storage medium
CN109255703A (zh) 交易数据处理方法及装置
CN109739992A (zh) 一种获取关联信息的方法及终端
CN109299913A (zh) 员工薪资方案生成方法及装置
JP6781820B2 (ja) 分散コンピューティングフレームワーク及び分散コンピューティング方法(distributed computing framework and distributed computing method)
US10671609B2 (en) Methods and apparatuses for facilitating compilation of measure data
CN109242004A (zh) 数据特征构建方法、装置、计算机设备及存储介质
CN102043758A (zh) 自动计算数值的方法和装置
CN109933771A (zh) 一种报表自动合并方法、装置、设备及存储介质
CN107168975B (zh) 一种对象匹配方法及装置
CN110032445B (zh) 大数据聚集计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118