CN107463564A - 服务器中数据的特征分析方法和装置 - Google Patents

服务器中数据的特征分析方法和装置 Download PDF

Info

Publication number
CN107463564A
CN107463564A CN201610388434.2A CN201610388434A CN107463564A CN 107463564 A CN107463564 A CN 107463564A CN 201610388434 A CN201610388434 A CN 201610388434A CN 107463564 A CN107463564 A CN 107463564A
Authority
CN
China
Prior art keywords
data
feature
analyzed
extension
data type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610388434.2A
Other languages
English (en)
Inventor
王堃
欧阳志友
岳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Huawei Technologies Co Ltd
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Nanjing Post and Telecommunication University filed Critical Huawei Technologies Co Ltd
Priority to CN201610388434.2A priority Critical patent/CN107463564A/zh
Publication of CN107463564A publication Critical patent/CN107463564A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24547Optimisations to support specific applications; Extensibility of optimisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及服务器中数据的特征分析方法和装置。该服务器包括待分析数据和数据库,该数据库包括至少一种数据类型以及每种数据类型对应的特征扩展规则,该方法包括:根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型;确定该待分析数据的数据类型对应的特征扩展规则;根据该待分析数据的数据类型对应的特征扩展规则,确定该待分析数据的至少一个扩展特征以及每个扩展特征对应的数据;输出该待分析数据的该每个扩展特征对应的数据。本发明实施例的服务器中数据的特征分析方法和装置,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量。

Description

服务器中数据的特征分析方法和装置
技术领域
本发明涉及数据分析领域,尤其涉及对服务器中数据的特征分析方法和装置。
背景技术
对于大数据的分析处理,由于模板匹配算法的处理速度快、可并行化执行等特点,因此在例如推荐系统、搜索引擎、在线广告、网站数字化运营等领域都得到了广泛运用。
然而,大数据的模板匹配算法的效果非常依赖于输入的数据特征,也就是为大数据设置的特征工程可以决定处理大数据的精度上限,例如:在实际的电子商务个性化推荐系统的测试中,特征工程对整个数据的分类预测结果的影响最多可以达到80%左右。这使得特征工程的构建成为一个跟算法同等重要甚至在实际应用中比算法更为重要的工作。
目前的模板匹配算法中特征工程的构建主要由人工进行自定义,例如:针对用户历史行为的待处理数据的特性,由领域专家预设用户历史行为特征的模板匹配算法、模板匹配参数、匹配度阈值等。这样,只能针对不同的业务知识来提取对应的特征,导致业务专家的参与时间较长,且特征提取准确度较低。
发明内容
本申请提供了一种服务器中数据的特征分析方法和装置,能够提高数据分类或预测的准确度。
第一方面,提供了一种服务器中数据的特征分析方法,该服务器包括待分析数据和数据库,该数据库包括至少一种数据类型、以及该至少一种数据类型中每种数据类型对应的特征扩展规则,该特征扩展规则用于将该每种数据类型扩展为至少一个扩展特征,该方法包括:根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型;确定该待分析数据的数据类型对应的特征扩展规则;根据该待分析数据的数据类型对应的特征扩展规则,确定该待分析数据的至少一个扩展特征及每个扩展特征对应的数据;输出该待分析数据的该每个扩展特征对应的数据。
因此,本申请的服务器中数据的特征分析方法,确定至少一种数据类型,以及每种数据类型对应的特征扩展规则,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提高数据分类或预测的准确度。
应理解,该服务器中的数据库包括的数据类型,可以为根据业务需求,或数据分析的需求,由领域专家,或其他人员,定义一种或多种数据类型,每种数据类型对应一种存储格式。例如,待分析数据为与购物相关的数据,则可以根据分析需求,统计用户购物的情况,则可以定义数据类型为用户历史行为天数(his_time_int),存储格式可以为简单的编号。例如,对于某一年内,将购物天数小于或等于10天的记录,his_time_int标记为1,购物天数大于10天小于等于20天的记录,his_time_int标记为2,以此类推,可以用从1开始的序号对his_time_int进行编号。
再例如,待分析数据为与商品相关的数据,考虑分析需求以及业务需要,统计用户购买的商品信息,则可以定义数据类型为用户编号(user_id)、商品编号(item_id)或商品品类编号(category_id)等,他们的存储格式均可以是离散长整数类型(discret bigint),该类离散长整数可以进行排序,即大小的比较,并且可以使用与长整数一样的存储格式,但是不能进行加减乘除等数学操作。以商品编号(item_id)为例,该商品编号可以表示与该商品相关的信息,例如,通过商品编号可以标识出该商品的生成日期、购买日期、价格或种类等。
应理解,数据中的改至少一种数据类型可以在数据库中构成一个数据类型定义库,保存该数据类型定义库,并且可以不断增加该数据类型定义库中数据类型,以便于对不同数据进行分析时,可以通过查找该数据类型定义库确定数据类型,而无需每次都进行数据类型的定义,极大的减少人工参与过程。
在本申请中,在数据库中定义了至少一种数据类型后,还可以为每一种数据类型定义对应的特征扩展规则。具体地,可以根据业务需求,或者数学计算方式,或者数据类型、或者待分析数据需要扩展的特征,确定每种数据类型对应的特征扩展规则,该特征扩展规则可以包括特征提取的方法和参数,通过该特征扩展规则,在待分析数据的某一数据类型中提取出扩展特征。
例如,当数据类型为时间,如用户历史行为天数(his_time_int),对应的特征扩展规则可以为以下几种:
1、定义时间段的划分。对于不同的购买天数,可以根据分析的需求,划分不同时间段,统计每个时间段内的数据特征,如可以统计每个时间段内每个用户的购买量。
2、划分相对时间。时间段的划分可以将用户历史行为天数划分为多个时间段,进一步的,还可以统计两个时间段之间的差值。例如,划分7天为一个时间段,则可以统计相对于第一个7天之后14天的购物情况,也就是相对于第一个7天之后的第二个7天和第三个7天的整体购物情况。
3、时序规则和趋势。可以将用户历史行为天数标识的购物记录天数中每天的购买量通过函数表示,并通过相关数学公式等计算过程,获得用户购物频繁规则或者购物积极趋势等相关特征。
可选地,除了上述三种关于时间的特征扩展规则外,还可以设置其他特征扩展规则。并且,对于其他数据类型,也可以设置相应的特征扩展规则,例如,数据类型为商品编号时,特征扩展规则可以设置为统计同一类商品的购买频率。
应理解,类似于数据类型可以构建数据类型定义库,对于每个数据类型对应的特征扩展规则,同样可以在数据库中构建特征扩展规则定义库,该特征扩展规则定义库中每种特征扩展规则都与数据类型相对应。
可选地,具有类似特点的数据类型可以复用同一套特征扩展规则,即该特征扩展规则定义库中任意一种特征扩展规则,可以对应一种或多种数据类型。
结合第一方面,在第一方面的一种实现方式中,该方法还包括:根据该待分析数据的该至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照分类规则,对待分析数据进行分类处理。
具体地,该分类规则可以根据实际情况进行设定。例如,设置阈值,根据阈值与待分析数据的至少一个扩展特征中的一个或者多个扩展特征对应的数据的对比结果,对待分析数据进行分类。
结合第一方面及其上述实现方式,在第一方面的另一种实现方式中,该方法还包括:根据该待分析数据的该至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照预测规则进行预测处理。
具体地,该预测规则可以根据实际情况进行设定。例如,可以根据待分析数据的每个扩展特征对应的数据绘制函数曲线,根据该函数对未来数据进行预测。
结合第一方面及其上述实现方式,在第一方面的另一种实现方式中,该根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型,包括:确定该待分析数据的属性信息;根据该数据库中该至少一种数据类型和该待分析数据的属性信息,确定该待分析数据的数据类型。
具体地,当待分析数据本身包括数据类型的,则可以直接提取该数据类型,即将该待分析数据本身包括的数据类型确定为该待分析数据的数据类型。当该待分析数据本身并不包括数据类型定义库中存在的数据类型时,则可以根据该待分析数据的实际含义、数据分布特点等,确定该待分析数据的相关属性信息,根据该属性信息,将该待分析数据映射成某种数据类型,即生成该待分析数据的数据类型。
结合第一方面及其上述实现方式,在第一方面的另一种实现方式中,该方法还包括:确定该待分析数据的该每个扩展特征的重要性;根据该每个扩展特征的重要性,输出该至少一个扩展特征中全部或部分扩展特征。
由于该待分析数据的特征扩展规则可以包括确定多个扩展特征,因此,根据该特征扩展规则,对待分析数据进行处理,可以获得至少一个扩展特征,可以将该至少一个扩展特征全部输出,作为分析结果;或者,还可以计算每个扩展特征的重要性,根据重要性输出部分扩展特征作为分析结果,例如,仅将重要性大于或等于阈值的扩展特征输出,该阈值可以根据实际情况进行设置。
可选地,对于待分析数据可以确定一个或多个数据类型,当确定该待分析数据中包括多个数据类型时,可以分别根据多个数据类型中每个数据类型对应的特征扩展规则,分别确定该待分析数据对于每种数据类型的扩展特征。
第二方面,提供了一种用于分析数据特征的服务器,用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地,该装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的单元。
第三方面,提供了一种用于分析数据特征的服务器,包括:存储单元和处理器,该存储单元用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。
第四方面,提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的服务器中数据的特征分析方法的示意性流程图。
图2是根据本发明另一实施例的服务器中数据的特征分析方法的示意性流程图。
图3是根据本发明实施例的用于分析数据特征的服务器的示意性框图。
图4是根据本发明另一实施例的用于分析数据特征的服务器的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1示出了根据本发明实施例的服务器中数据的特征分析方法100的示意性流程图,该方法100可以由该服务器中的处理器执行。
具体地,该服务器包括待分析数据和数据库,该数据库包括至少一种数据类型、以及该至少一种数据类型中每种数据类型对应的特征扩展规则,该特征扩展规则用于将该每种数据类型扩展为至少一个扩展特征。
应理解,现有的模板匹配算法主要是根据设定的模板匹配算法和模板匹配参数对输入的数据进行分类,输出分类结果。具体地,首先针对数据库中的待分析数据,也就是表示用户历史行为的待处理数据,根据该待分析数据的特性,由例如领域专家等人员预设用户历史行为特征的模板匹配算法、模板匹配参数、匹配度阈值等,其中匹配度阈值可根据经验设置,并根据实际系统运行效果进行调整。具体地,模板匹配算法在给定的模板匹配参数下对输入的用户历史行为数据进行计算,根据计算结果与匹配度阈值之间的大小关系,将输入的用户历史行为数据进行分类,并输出数据的分类结果。另外,在输出数据的分类结果的同时,还可以获得分类结果与实际情况的匹配度,根据分类结果的匹配度,动态调整模板中的模板匹配参数,完善匹配的模板,使得分类结果更加准确。
而本发明实施例的服务器中数据的特征分析方法,可以在上述现有技术的基础上,完善现有的模板匹配算法中涉及到的模板,对模板中已有的特征进行进一步扩展,进而在待分析数据中提取中更多特征进行分析处理;或者,也可以独立于上述现有技术,按照本发明实施例创建新的模板,提取与现有技术的模板匹配算法不相同的特征,进行分析处理。具体地,本发明实施例中的服务器中包括的数据库中包括至少一种数据类型以及每种数据类型对应的特征扩展规则,可选地,该数据库中的数据类型和特征扩展规则可以用于对现有技术中的模板匹配算法中涉及到的模板进一步扩展;也可以独立于现有技术,根据该数据库中的数据类型和特征扩展规则构建模板。
在本发明实施例中,服务器的数据库包括至少一种数据类型,具体地,该至少一种数据类型可以根据业务需求,或分析数据的需求,或待分析数据的属性信息,由领域专家,或其他人员,定义一种或多种数据类型,每种数据类型对应一种存储格式。例如,待分析数据为与购物相关的数据,则可以根据分析需求,定义数据类型为用户历史行为天数(his_time_int),存储格式可以为简单的编号。具体地,对于某一年内,将购物天数小于或等于10天的记录,his_time_int标记为1,购物天数大于10天小于等于20天的记录,his_time_int标记为2,以此类推,可以用从1开始的序号对his_time_int进行编号。
再例如,待分析数据与商品相关的数据,考虑业务的需要,则可以定义数据类型为用户编号(user_id)、商品编号(item_id)或商品品类编号(category_id)等,他们的存储格式均可以是离散长整数类型(discret bigint),该类离散长整数可以进行排序,即大小的比较,并且可以使用与长整数一样的存储格式,但是不能进行加减乘除等数学操作。具体地,以商品编号(item_id)为例,该商品编号可以表示与该商品相关的信息,例如,通过商品编号可以标识出该商品的生成日期、购买日期、价格或种类等。
应理解,数据库中包括的至少一种数据类型可以构成数据库中的一个数据类型定义库,保存该数据类型定义库,并且可以不断增加该数据类型定义库中数据类型,以便于对不同数据进行分析时,可以通过查找该数据类型定义库确定数据类型,而无需每次都进行数据类型的定义,极大的减少人工参与过程。
在本发明实施例中,在数据库中定义至少一种数据类型后,还可以为每一种数据类型定义对应的特征扩展规则。具体地,可以根据业务需求,或者数学计算方式,或者数据类型、或者待分析数据需要扩展的特征,确定每种数据类型对应的特征扩展规则,该特征扩展规则可以包括特征提取的方法和参数,通过该特征扩展规则,在待分析数据的某一数据类型中提取出扩展特征。
例如,当数据类型为时间,如用户历史行为天数(his_time_int),对应的特征扩展规则可以为以下几种:
1、定义时间段的划分。用户历史行为天数用于标记购买天数,对于不同的购买天数,可以根据分析的需求,划分不同时间段,构成不同时间粒度进行统计,例如按照1、3、7、10、15或30天的时间划分粒度,统计每个时间段内的数据特征,如可以统计每个时间段内每个用户的购买量。
2、划分相对时间。时间段的划分可以将用户历史行为天数划分为多个时间段,进一步的,还可以统计两个时间段之间的差值。例如,划分7天为一个时间段,则可以统计相对于第一个7天之后14天的购物情况,也就是相对于第一个7天之后的第二个7天和第三个7天的整体购物情况。
3、时序规则和趋势。可以将用户历史行为天数标识的购物记录天数中每天的购买量通过函数表示,并通过相关数学公式等计算过程,获得用户购物频繁规则或者购物积极趋势等相关特征。
可选地,除了上述三种关于时间的特征扩展规则外,还可以设置其他特征扩展规则。并且,对于其他数据类型,也可以设置相应的特征扩展规则,例如,数据类型为商品编号时,特征扩展规则可以设置为统计同一类商品的购买频率。
应理解,类似于数据类型可以构建数据类型定义库,对于每个数据类型对应的特征扩展规则,同样可以在数据库中构建特征扩展规则定义库,该特征扩展规则定义库中每种特征扩展规则都与数据类型相对应。可选地,具有类似特点的数据类型可以复用同一套特征扩展规则,即该特征扩展规则定义库中任意一种特征扩展规则,可以对应一种或多种数据类型。
具体地,如图1所示,该方法100包括:
S110,根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型。
S120,确定该待分析数据的数据类型对应的特征扩展规则。
应理解,对于上述确定的数据库中至少一种数据类型以及每种数据类型对应的特征扩展规则,可以生成相应的配置信息和脚本,根据每种数据类型建立对应的数据存储格式、操作方法和参数集,在处理待分析数据时,可以根据数据存储格式确定该待分析数据的数据类型,根据操作方法和参数集执行特征扩展规则。
具体地,当待分析数据本身包括数据类型的,则可以直接提取该数据类型,即将该待分析数据本身包括的数据类型确定为该待分析数据的数据类型。当该待分析数据本身并不包括数据类型定义库中存在的数据类型时,则可以根据该待分析数据的实际含义、数据分布特点等,确定该待分析数据的相关属性信息,根据该属性信息,将该待分析数据映射成数据库中包括的某种数据类型,即生成该待分析数据的数据类型。
S130,根据该待分析数据的数据类型对应的特征扩展规则,确定该待分析数据的至少一个扩展特征及每个扩展特征对应的数据。
在本发明实施例中,确定该待分析数据的数据类型后,可以确定该该数据类型对应的特征扩展规则,根据该特征扩展规则,分析该待分析数据,获得该待分析数据至少一个扩展特征。由于该待分析数据的特征扩展规则可以包括确定该待分析数据多个扩展特征,因此,根据该特征扩展规则,对待分析数据进行处理,可以获得至少一个扩展特征,可以将该至少一个扩展特征全部输出,作为分析结果;或者,还可以计算每个扩展特征的重要性,根据重要性输出部分扩展特征作为分析结果,例如,将重要性大于或等于阈值的扩展特征输出,该阈值可以根据实际情况进行设置。
S140,输出该待分析数据的该每个扩展特征对应的数据。
在本发明实施例中,对待分析数据进行扩展特征提取后,将确定的至少一个扩展特征中每个扩展特征对应的具体数据输出,即可作为该待分析数据的扩展特征提取结果,并可以根据该每个扩展特征对应的具体数据进行进一步分析,例如,进行分类处理和预测处理。
具体地,对于输出的待分析数据的至少一个扩展特征中一个或多个扩展特征对应的具体数据,可以根据分类规则,对待分析数据进行分类处理。例如,以待分析数据的数据类型为用户历史行为天数(his_time_int)为例,以1至30为编号统计一个月30天的历史记录,特征扩展规则设置为按时间段划分,以10天为粒度,获得扩展特征为每10天的用户购物情况,而用户每10天的购物情况的具体数据即为该待分析数据的一个扩展特征对应的数据,因此,可以根据该扩展特征以及扩展特征对应的数据,按照一定分类规则,对上述的数据进行分类处理,例如,将购物量大于或等于阈值的待分析数据分为一类,将购物量小于该阈值的待分析数据分为一类。
具体地,对于输出的待分析数据的至少一个扩展特征中一个或多个扩展特征对应的具体数据,可以根据预测规则,对未来的数据进行预测处理。例如,同样以待分析数据的数据类型为用户历史行为天数(his_time_int)为例,以1至30为编号统计一个月30天的历史记录,特征扩展规则设置为按时间段划分,以2天为粒度,获得扩展特征为每2天的用户购物情况,而用户每2天的购物情况的具体数据即为该待分析数据的一个扩展特征对应的数据,根据该扩展特征和扩展特征对应的数据,按照预测规则,例如绘制函数曲线进行统计计算,可以对未来两天的用户购物情况进行预测。经过试验验证,通过本发明实施例的方式对用户购物行为进行预测的准确度可以从4%提高到8.5%。
可选地,对于待分析数据可以确定一个或多个数据类型,当确定该待分析数据具有多个数据类型时,可以分别根据多个数据类型中每个数据类型对应的特征扩展规则,分别确定该待分析数据对于每种数据类型的扩展特征,对应输出各个扩展特征对应的数据。具体地,如图2所示,图2示出了根据本发明另一实施例的服务器中数据的特征分析方法200的示意性流程图。如图2所示,该方法200包括:
S201,服务器调用待分析数据。
S202,对待分析数据进行分析,确定该待分析数据的数据类型。
S203,确定该待分析数据包括的可用数据类型的个数,该可用数据类型是指未根据特征扩展规则进行扩展特征提取的数据类型。
具体地,当确定该待分析数据的可用数据类型的个数大于0时,继续执行S204;当确定该待分析数据的可用数据类型的个数等于0时,则执行S209。
S204,在可用数据类型中选择其中任意一种数据类型。具体地,可以通过函数指针实现。
S205,根据选择的数据类型,确定对应的特征扩展规则。具体地,可以通过调用函数执行数据类型对应的特征扩展规则的提取。
S206,根据确定特征扩展规则,提取待分析数据的扩展特征以及扩展特征对应的数据。可选地,对于确定的扩展特征,可以根据每个扩展特征的重要性进行筛选,去除其中不重要的特征。
S207,将输出得到的待分析数据的扩展特征以及扩展特征对应的数据,添加到该待分析数据的扩展特征集中。
S208,将该待分析数据的可用数据类型个数减1,并返回执行S203。
S209,当该待分析数据的可用数据类型的个数等于0时,则该待分析数据中已经不包括可用数据类型,可以输出该待分析数据的扩展特征集,该扩展特征集包括该待分析数据的各个数据类型对应获得的扩展特征,以及每个扩展特征对应的数据。
在本发明实施例中,可以对待分析数据进行上述扩展特征提取,进而对扩展特征进行分析,并且可以根据扩展特征对数据进行分类、预测等处理,例如,根据一定分类规则,对待分析数据进行分类处理;或者根据该待分析数据的输出结果,按照预测规则对其他数据进行预测处理。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
因此,本发明实施例的服务器中数据的特征分析方法,根据该服务器中数据库包括的至少一种数据类型,以及每种数据类型对应的特征扩展规则,对待分析数据进行分析,确定该待分析数据的数据类型以及对应的特征扩展规则,从而输出该待分析数据的扩展特征,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提升数据分类或预测的效果的准确性。
上文中结合图1至图2,详细描述了根据本发明实施例的服务器中数据的特征分析方法,下面将结合图3至图4,描述根据本发明实施例的用于分析数据特征的服务器。
图3示出了根据本发明实施例的用于分析数据特征的服务器300的示意性框图,该服务器300包括待分析数据和数据库,该数据库包括至少一种数据类型、以及该至少一种数据类型中每种数据类型对应的特征扩展规则,该特征扩展规则用于将该每种数据类型扩展为至少一个扩展特征。具体地,如图3所示,该服务器300包括:
确定单元,用于根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型;
该确定单元还用于:确定该待分析数据的数据类型对应的特征扩展规则;
该确定单元还用于:根据该待分析数据的数据类型对应的特征扩展规则,确定该待分析数据的至少一个扩展特征及每个扩展特征对应的数据;
输出单元,用于输出该待分析数据的该每个扩展特征对应的数据。
因此,本发明实施例的用于分析数据特征的服务器,包括数据库和待分析数据,该数据库包括至少一种数据类型,以及每种数据类型对应的特征扩展规则,根据该数据库,对待分析数据进行分析,输出该待分析数据的扩展特征,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提升数据分类或预测的效果的准确性。
可选地,该服务器300还包括:处理单元330,用于根据该待分析数据的该至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照分类规则,对待分析数据进行分类处理。
可选地,该服务器300还包括:处理单元330,用于根据该待分析数据的该至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照预测规则进行预测处理。
可选地,该确定单元310具体用于:确定该待分析数据的属性信息;根据该数据库中该至少一种数据类型和该待分析数据的属性信息,确定该待分析数据的数据类型。
可选地,该确定单元310具体用于:确定该待分析数据的该每个扩展特征的重要性;根据该每个扩展特征的重要性,输出该至少一个扩展特征中全部或部分扩展特征。
应理解,根据本发明实施例的用于分析数据特征的服务器300可对应于执行本发明实施例中的方法100和方法200,并且服务器300中的各个模块的上述和其它操作和/或功能分别为了实现图1至图2中的各个方法的相应流程,为了简洁,在此不再赘述。
因此,本发明实施例的用于分析数据特征的服务器,包括数据库和待分析数据,该数据库包括至少一种数据类型,以及每种数据类型对应的特征扩展规则,根据该数据库,对待分析数据进行分析,输出该待分析数据的扩展特征,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提升数据分类或预测的效果的准确性。
如图4所示,本发明实施例还提供了一种用于分析数据特征的服务器400,该服务器300包括待分析数据和数据库,该数据库包括至少一种数据类型、以及该至少一种数据类型中每种数据类型对应的特征扩展规则,该特征扩展规则用于将该每种数据类型扩展为至少一个扩展特征。具体地,如图4所示,该服务器300包括处理器410和存储器420,还可以包括总线系统430。其中,处理器410和存储器420可以通过总线系统430相连,该存储器420用于存储指令,该处理器410用于执行该存储器420存储的指令。该存储器420存储程序代码,且处理器410可以调用存储器420中存储的程序代码执行以下操作:根据该数据库中该至少一种数据类型,确定该待分析数据的数据类型;确定该待分析数据的数据类型对应的特征扩展规则;根据该待分析数据的数据类型对应的特征扩展规则,确定该待分析数据的至少一个扩展特征及每个扩展特征对应的数据;输出该待分析数据的该每个扩展特征对应的数据。
因此,本发明实施例的用于分析数据特征的服务器,包括数据库和待分析数据,该数据库包括至少一种数据类型,以及每种数据类型对应的特征扩展规则,根据该数据库,对待分析数据进行分析,输出该待分析数据的扩展特征,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提升数据分类或预测的效果的准确性。
应理解,在本发明实施例中,该处理器410可以是中央处理单元(CentralProcessing Unit,简称为“CPU”),该处理器410还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器420可以包括只读存储器和随机存取存储器,并向处理器410提供指令和数据。存储器420的一部分还可以包括非易失性随机存取存储器。例如,存储器420还可以存储设备类型的信息。
该总线系统430除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统430。
在实现过程中,上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器420,处理器410读取存储器420中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
可选地,该处理器410用于:根据该待分析数据的该至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照分类规则,对待分析数据进行分类处理。
可选地,该处理器410用于:根据该待分析数据的该至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照预测规则进行预测处理。
可选地,该处理器410用于:确定该待分析数据的属性信息;根据该数据库中该至少一种数据类型和该待分析数据的属性信息,确定该待分析数据的数据类型。
可选地,该处理器410用于:确定该待分析数据的该每个扩展特征的重要性;根据该每个扩展特征的重要性,输出该至少一个扩展特征中全部或部分扩展特征。
应理解,根据本发明实施例的用于分析数据特征的服务器400可对应于本发明实施例中的用于分析数据特征的服务器300,并可以对应于执行根据本发明实施例的方法100和方法200,并且服务器400中的各个模块的上述和其它操作和/或功能分别为了实现图1至图2中的各个方法的相应流程,为了简洁,在此不再赘述。
因此,本发明实施例的用于分析数据特征的服务器,包括数据库和待分析数据,该数据库包括至少一种数据类型,以及每种数据类型对应的特征扩展规则,根据该数据库,对待分析数据进行分析,输出该待分析数据的扩展特征,可以实现从单一简单的数据类型出发,通过特征扩展规则挖掘出待分析数据的一系列扩展特征,减少数据分析时特征体系构建的工作量,而无需人工定义并提取待分析数据中的每个特征,减少特征提取过程中人工参与时间,更加快捷的构建特征体系,提升数据分类或预测的效果的准确性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种服务器中数据的特征分析方法,其特征在于,所述服务器包括待分析数据和数据库,所述数据库包括至少一种数据类型、以及所述至少一种数据类型中每种数据类型对应的特征扩展规则,所述特征扩展规则用于将所述每种数据类型扩展为至少一个扩展特征,所述方法包括:
根据所述数据库中所述至少一种数据类型,确定所述待分析数据的数据类型;
确定所述待分析数据的数据类型对应的特征扩展规则;
根据所述待分析数据的数据类型对应的特征扩展规则,确定所述待分析数据的至少一个扩展特征及每个扩展特征对应的数据;
输出所述待分析数据的所述每个扩展特征对应的数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待分析数据的所述至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照分类规则,对待分析数据进行分类处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待分析数据的所述至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照预测规则进行预测处理。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述数据库中所述至少一种数据类型,确定所述待分析数据的数据类型,包括:
确定所述待分析数据的属性信息;
根据所述数据库中所述至少一种数据类型和所述待分析数据的属性信息,确定所述待分析数据的数据类型。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
确定所述待分析数据的所述每个扩展特征的重要性;
根据所述每个扩展特征的重要性,输出所述至少一个扩展特征中全部或部分扩展特征。
6.一种用于分析数据特征的服务器,其特征在于,所述服务器包括待分析数据和数据库,所述数据库包括至少一种数据类型、以及所述至少一种数据类型中每种数据类型对应的特征扩展规则,所述特征扩展规则用于将所述每种数据类型扩展为至少一个扩展特征,所述服务器包括:
确定单元,用于根据所述数据库中所述至少一种数据类型,确定所述待分析数据的数据类型;
所述确定单元还用于:确定所述待分析数据的数据类型对应的特征扩展规则;
所述确定单元还用于:根据所述待分析数据的数据类型对应的特征扩展规则,确定所述待分析数据的至少一个扩展特征及每个扩展特征对应的数据;
输出单元,用于输出所述待分析数据的所述每个扩展特征对应的数据。
7.根据权利要求6所述的服务器,其特征在于,所述服务器还包括:
处理单元,用于根据所述待分析数据的所述至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照分类规则,对待分析数据进行分类处理。
8.根据权利要求6所述的服务器,其特征在于,所述服务器还包括:
处理单元,用于根据所述待分析数据的所述至少一个扩展特征中的一个或者多个扩展特征对应的数据,按照预测规则进行预测处理。
9.根据权利要求6至8中任一项所述的服务器,其特征在于,所述确定单元具体用于:
确定所述待分析数据的属性信息;
根据所述数据库中所述至少一种数据类型和所述待分析数据的属性信息,确定所述待分析数据的数据类型。
10.根据权利要求6至9中任一项所述的服务器,其特征在于,所述确定单元具体用于:
确定所述待分析数据的所述每个扩展特征的重要性;
根据所述每个扩展特征的重要性,输出所述至少一个扩展特征中全部或部分扩展特征。
CN201610388434.2A 2016-06-02 2016-06-02 服务器中数据的特征分析方法和装置 Pending CN107463564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610388434.2A CN107463564A (zh) 2016-06-02 2016-06-02 服务器中数据的特征分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610388434.2A CN107463564A (zh) 2016-06-02 2016-06-02 服务器中数据的特征分析方法和装置

Publications (1)

Publication Number Publication Date
CN107463564A true CN107463564A (zh) 2017-12-12

Family

ID=60544845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610388434.2A Pending CN107463564A (zh) 2016-06-02 2016-06-02 服务器中数据的特征分析方法和装置

Country Status (1)

Country Link
CN (1) CN107463564A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408591A (zh) * 2018-10-12 2019-03-01 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库系统
CN109408592A (zh) * 2018-10-12 2019-03-01 北京聚云位智信息科技有限公司 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1474981A (zh) * 2000-10-03 2004-02-11 ������������ʽ���� 分布式计算机搜索、收集和分发信息的方法
CN101136014A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN101901262A (zh) * 2010-07-26 2010-12-01 北京新洲协同软件技术有限公司 基于面向对象模型的企业建库和业务数据显示的方法
CN102467559A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 多层次多维度的数据属性分析方法及装置
CN103559267A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN103699601A (zh) * 2013-12-12 2014-04-02 深圳先进技术研究院 基于时空数据挖掘的地铁乘客分类方法
CN103729785A (zh) * 2014-01-26 2014-04-16 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
CN105447117A (zh) * 2015-11-16 2016-03-30 北京邮电大学 一种用户聚类的方法和装置
US20160094473A1 (en) * 2014-09-25 2016-03-31 Oracle International Corporation System and method for supporting lifecycle plugins in a multitenant application server environment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1474981A (zh) * 2000-10-03 2004-02-11 ������������ʽ���� 分布式计算机搜索、收集和分发信息的方法
CN101136014A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN101901262A (zh) * 2010-07-26 2010-12-01 北京新洲协同软件技术有限公司 基于面向对象模型的企业建库和业务数据显示的方法
CN102467559A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 多层次多维度的数据属性分析方法及装置
CN103559267A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN103699601A (zh) * 2013-12-12 2014-04-02 深圳先进技术研究院 基于时空数据挖掘的地铁乘客分类方法
CN103729785A (zh) * 2014-01-26 2014-04-16 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
US20160094473A1 (en) * 2014-09-25 2016-03-31 Oracle International Corporation System and method for supporting lifecycle plugins in a multitenant application server environment
CN105447117A (zh) * 2015-11-16 2016-03-30 北京邮电大学 一种用户聚类的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408591A (zh) * 2018-10-12 2019-03-01 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库系统
CN109408592A (zh) * 2018-10-12 2019-03-01 北京聚云位智信息科技有限公司 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法
CN109408592B (zh) * 2018-10-12 2021-09-24 北京聚云位智信息科技有限公司 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法
CN109408591B (zh) * 2018-10-12 2021-11-09 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库系统

Similar Documents

Publication Publication Date Title
US20200202449A1 (en) Risk identification model building and risk identification
CN103778205B (zh) 一种基于互信息的商品分类方法和系统
CN107818344A (zh) 用户行为进行分类和预测的方法和系统
US9892187B2 (en) Data analysis method, data analysis device, and storage medium storing processing program for same
CN110263821B (zh) 交易特征生成模型的训练、交易特征的生成方法和装置
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
US20150032708A1 (en) Database analysis apparatus and method
CN110347724A (zh) 异常行为识别方法、装置、电子设备及介质
CN111242318B (zh) 基于异构特征库的业务模型训练方法及装置
CN110688433B (zh) 一种基于路径的特征生成方法及装置
CN110858219A (zh) 物流对象信息处理方法、装置及计算机系统
JP6242540B1 (ja) データ変換システム及びデータ変換方法
CN110737917A (zh) 基于隐私保护的数据共享装置、方法及可读存储介质
CN113538137A (zh) 一种基于双图谱融合计算的资金流监控方法及装置
CN111967521A (zh) 跨境活跃用户识别方法及装置
CN114638704A (zh) 非法资金转移的识别方法及其装置、电子设备及存储介质
CN107330709B (zh) 确定目标对象的方法及装置
CN107463564A (zh) 服务器中数据的特征分析方法和装置
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN106815290B (zh) 一种基于图挖掘的银行卡归属的确定方法及装置
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN109284354B (zh) 脚本搜索方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication