CN110276359A - 一种特征提取方法和装置 - Google Patents

一种特征提取方法和装置 Download PDF

Info

Publication number
CN110276359A
CN110276359A CN201910440444.XA CN201910440444A CN110276359A CN 110276359 A CN110276359 A CN 110276359A CN 201910440444 A CN201910440444 A CN 201910440444A CN 110276359 A CN110276359 A CN 110276359A
Authority
CN
China
Prior art keywords
characteristic
type
data
feature
user data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910440444.XA
Other languages
English (en)
Inventor
柯细兴
罗洪滨
赵建范
黄远相
田忠强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Yima Technology Co Ltd
Original Assignee
Tianjin Yima Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Yima Technology Co Ltd filed Critical Tianjin Yima Technology Co Ltd
Priority to CN201910440444.XA priority Critical patent/CN110276359A/zh
Publication of CN110276359A publication Critical patent/CN110276359A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种特征提取方法和装置,可以获取来自各个数据源的用户数据;根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。由于物理意义信息可以体现出特征的含义,这样,得到的特征数据是可以解释的。在使用根据特征数据训练得到的模型产生结果时,可以根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而方便对该模型进行分析和改进。

Description

一种特征提取方法和装置
技术领域
本申请涉及数据处理领域,特别是涉及一种特征提取方法和装置。
背景技术
随着互联网技术的发展,广告主选择在网络上进行广告投放的比例逐渐增大,广告的转化率、点击率等指标是广告精准投放、广告竞价、计费的重要依据。
通常使用训练得到的相关模型对广告的转化率、点击率等指标进行预测。而训练模型需要提取特征数据,从而利用特征数据训练得到模型。目前,常用的特征提取方法是基于深度学习自动发现并提取特征。
然而,这种基于深度学习提取特征的方法主要以图片识别为主,发现的特征数据例如为像素特征等不可解释的特征,难以说明特征数据的含义。虽然利用基于该特征数据训练得到的模型可以得到相应的结果,但是,无法确定产生该结果的原因,无法知晓不同特征的重要程度等,进而难以进行分析和改进。
发明内容
为了解决上述技术问题,本申请提供了一种特征提取方法,得到的特征数据是可以解释的。在使用根据特征数据训练得到的模型产生结果时,可以根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而方便对该模型进行分析和改进。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供一种特征提取方法,所述方法包括:
获取来自各个数据源的用户数据;
根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;
根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。
可选的,所述根据所述处理逻辑从所述用户数据中提取特征数据,包括:
根据所述处理逻辑从所述用户数据中提取多个基本特征的特征数据;
对所述多个基本特征的特征数据进行特征组合得到组合特征数据。
可选的,所述根据所述处理逻辑从所述用户数据中提取特征数据之后,所述方法还包括:
根据所述特征数据的数据类型,选择对应的编码方式对所述特征数据进行编码得到
编码后的特征数据。
可选的,所述数据类型至少包括以下类型:
连续数值类型、离散分类类型、时间类型、空间类型、文本类型、图片类型、视频类型。
可选的,根据所述处理逻辑从所述用户数据中提取特征之后,所述方法还包括:
根据所述特征数据对特征库中的特征数据进行更新。
第二方面,本申请实施例提供一种特征提取装置,所述装置包括:
获取单元,用于获取来自各个数据源的用户数据;
确定单元,用于根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;
提取单元,用于根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。
可选的,所述提取单元,具体用于:
根据所述处理逻辑从所述用户数据中提取多个基本特征的特征数据;
对所述多个基本特征的特征数据进行特征组合得到组合特征数据。
可选的,所述装置还包括:
编码单元,用于根据所述特征数据的数据类型,选择对应的编码方式对所述特征数据进行编码得到编码后的特征数据。
可选的,所述数据类型至少包括以下类型:
连续数值类型、离散分类类型、时间类型、空间类型、文本类型、图片类型、视频类型。
可选的,所述装置还包括:
更新单元,用于根据所述特征数据对特征库中的特征数据进行更新。
由上述技术方案可以看出,该方法可以获取来自各个数据源的用户数据;根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。由于物理意义信息可以体现出特征的含义,这样,得到的特征数据是可以解释的。在使用根据特征数据训练得到的模型产生结果时,可以根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而方便对该模型进行分析和改进。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种特征提取方法的流程图;
图2为本申请实施例提供的一种处理逻辑的示例图;
图3为本申请实施例提供的一种基于最大值处理提取特征数据的流程图;
图4为本申请实施例提供的一种特征提取装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
传统的基于深度学习提取特征的方法主要以图片识别为主,发现的特征数据例如为像素特征等不可解释的特征,难以说明特征数据的含义。虽然利用基于该特征数据训练得到的模型可以得到相应的结果,但是,无法确定产生该结果的原因,无法知晓不同特征的重要程度等,进而难以进行分析和改进。另外,传统方法提取的特征数据也不具有可调节性,即在出错或有特征的增删时,难以对原模型进行修正以满足新的要求。
例如,深度学习通过对大量狗的图片的学习,最后能识别出某个图片中是否出现了狗,但是不清楚是通过什么具体特征识别到的,例如是通过耳朵、鼻子、毛发还是其他的识别到的,从而无法清楚了解各个特征对于识别出图片中是否存在狗的重要性。
为了解决上述技术问题,本申请提供一种特征提取方法,得到的特征数据是可以解释的,即使是非技术人员也可以清晰的了解各个特征的含义。在使用根据可解释的特征数据训练得到的模型产生结果时,可以根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而方便对该模型进行分析和改进。
接下来,将结合附图对本申请提供的特征提取方法进行介绍。
参见图1,图1示出了一种特征提取方法的流程图,所述方法包括:
S101、获取来自各个数据源的用户数据。
S101可以通过数据采集模块完成。数据源例如可以包括日志数据、互联网数据。其中,日志数据例如用户在网站或应用程序(Application,简称APP)的请求记录、看到广告的记录、点击广告的记录、购买下单记录、用户点击的广告(产品)数据、广告素材数据、用户浏览的新闻数据。
互联网数据包括地理位置相关数据、手机设备情况相关数据。地理位置相关数据例如包括用户每天的行动轨迹、用户居住/工作地的数据;用户所在地的热点新闻、经济水平、天气状况、人文特征、消费习惯数据;居住地区附近的商圈情况数据、所在小区的房价情况、公司所处的行业数据。手机设备情况相关数据例如包括手机机型、价位、系统版本;手机上安装的APP列表情况等。
需要说明的是,在得到用户数据后可以对用户数据进行数据预处理,数据预处理可以包括对用户数据进行清洗处理,以便发现和纠正其中的错误。以及按照不同的维度将用户数据进行分类,得到用户数据的数据类型。其中,数据类型至少包括以下类型:连续数值类型、离散分类类型、时间类型、空间类型、文本类型、图片类型、视频类型等等。数据预处理可以通过数据预处理模块完成。
本实施例主要对连续数值类型和分类类型进行介绍。连续数值类型是指一些连续型的数字,没办法穷举出所有情况的数据类型,例如每天点击广告的次数,每个用户点击次数等。分类类型是一些离散型的数据,可以穷举出所有情况的数据类型,如性别:男、女。
S102、根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑。
可以理解的是,根据不同的数据类型建立了不同的处理逻辑。以连续数值类型为例,参见图2所示,数据类型为连续数值类型的用户数据,其对应的处理逻辑包括最大值处理、最小值处理、平均值处理等等。处理逻辑可以通过函数体现,例如最大值函数则表示进入最大值处理的处理逻辑。
确定出的处理逻辑可以是其中任意一个,当然也可以利用多个处理逻辑对该用户数据进行特征提取。
S103、根据所述处理逻辑从所述用户数据中提取特征数据。
其中,所述特征数据包括特征的物理意义信息。
作为一种示例,在执行S103之后,所述方法还包括根据所述特征数据的数据类型,选择对应的编码方式对所述特征数据进行编码得到编码后的特征数据。其中,编码方式可以包括均匀分桶、幂等分桶以及其他编码方式等。
其中,均匀分桶适用于数据分布跨度较小;幂等分桶适用于数据跨越多个指数级。
其中,S102-S103可以通过特征提取模块完成。
本实施例,以用户数据是曝光量、处理逻辑为最大值处理为例,对S103进行介绍。参见图3,图3示出了根据处理逻辑从用户数据中提取特征数据的流程图。其中,获取用户数据的统计周期为每天内每小时,则获取的用户数据的数据格式为:用户身份标识(identity,简称id),时间,统计周期(月内每天、月内每周、周内每天、天内每小时等统计)、数值特征等。根据不同函数进入不同处理逻辑,如最大值函数,则对用户数据进行最大值处理。在根据处理逻辑从用户数据中提取特征数据时,不同的统计周期提取出的特征数据不同,例如图3中,若统计周期为周内每天,则得到特征数据包括每周内每天各个数值特征的最大值、产生最大值的是哪一天;若统计周期为天内每小时,则得到的特征数据包括每天各个小时中各个数值特征的最大值,产生该最大值的是哪个小时。从而得到包括各个数据特征的特征集,数据特征体现出最大曝光量,和产生最大曝光量的时间。
将特征数据分类,例如曝光量是连续数值类型,最大曝光量对应的时间是分类类型,根据不同的分类类型选择不同的编码方式,例如时间可分类为0~23时。
以连续数值类型为例,按照连续数值类型的分布做离散化,如果数据分布跨度较小,自动选用均匀分桶对其离散化;如果数据分布跨不同数量级,自动选用幂等分桶对其离散化;其他情况分别对应不同的自动编码方式。
由上述技术方案可以看出,该方法可以获取来自各个数据源的用户数据;根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。由于物理意义信息可以体现出特征的含义,这样,得到的特征数据是可以解释的。在使用根据特征数据训练得到的模型产生结果时,可以根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而方便对该模型进行分析和改进。
在一些场景中,例如在向用户推荐广告的场景中,由于特征数据之间可能存在一些关联关系,从这些具有关联关系的特征数据之间可能挖掘出一些隐藏的特征,这些隐藏的特征可以更加准确的体现出用户的兴趣、喜好,从而向用户推荐满足用户喜好的广告。
为此,可以将这些特征数据进行特征组合,以挖掘隐藏特征。具体的,在一种实现方式中,S103的一种可能实现方式为根据所述处理逻辑从所述用户数据中提取多个基本特征的特征数据;对所述多个基本特征的特征数据进行特征组合得到组合特征数据。
特征提取模块可以使用多种算法实现了特征的自动组合,算法针对的方向及优劣势不同,比如可以采用人工指定+算法组合,这样计算效率高,没有无用特征数据,但是相对特征数据较少;也可以选用因子分解机(Factorization Machines,简称FM)模型、场感知因子分解机(Field-aware Factorization Machine,简称FFM)等模型对特征数据进行自动组合,针对业务及数据量自己选择合适的算法。
特征库将生成的特征数据进行统一管理,根据所述特征数据对特征库中的特征数据进行更新。通过特征库将生成的特征数据进行统一管理,可以方便新特征数据的收录、旧特征数据的下线,以及可视化展示特征的各种统计指标(如特征的最大值、最小值、平均值等)。
可以理解的是,通过本申请实施例提取到的特征数据是用于训练模型的,在一种实现方式中,在根据特征数据训练模型之前,可以对提取得到的特征数据进行特征选择。特征选择主要根据数据情况和业务目标决定,特征选择可以通过特征选择模块执行。
目前主要实现了使用随机森林、梯度提升决策树(Gradient Boosting DecisionTree,简称GBDT)模型以及极端梯度提升(eXtreme Gradient Boosting,简称Xgboost)模型进行特征数据打分,然后根据特征得分进行特征数据选取,将选取的特征数据构成可供模型训练的特征集,利用选取的特征数据进行模型训练。
可以理解的是,由于本申请实施例提取的特征数据是可解释的,即使是非技术人员也可以清晰的了解各个特征的含义。在使用根据可解释的特征数据训练得到的模型产生结果时,可以分析评估结果,根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而优化调整特征数据选择,重新确定用于训练模型的特征集,重新执行模型训练的步骤,得到更加准确的模型。
基于前述实施例提供的特征提取方法,本申请实施例提供一种特征提取装置。参见图4,所述装置包括:
获取单元401,用于获取来自各个数据源的用户数据;
确定单元402,用于根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;
提取单元403,用于根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。
可选的,所述提取单元,具体用于:
根据所述处理逻辑从所述用户数据中提取多个基本特征的特征数据;
对所述多个基本特征的特征数据进行特征组合得到组合特征数据。
可选的,所述装置还包括:
编码单元,用于根据所述特征数据的数据类型,选择对应的编码方式对所述特征数据进行编码得到编码后的特征数据。
可选的,所述数据类型至少包括以下类型:
连续数值类型、离散分类类型、时间类型、空间类型、文本类型、图片类型、视频类型。
可选的,所述装置还包括:
更新单元,用于根据所述特征数据对特征库中的特征数据进行更新。
由上述技术方案可以看出,该方法可以获取来自各个数据源的用户数据;根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。由于物理意义信息可以体现出特征的含义,这样,得到的特征数据是可以解释的。在使用根据特征数据训练得到的模型产生结果时,可以根据特征数据确定产生结果的原因,知晓不同特征的重要程度等,进而方便对该模型进行分析和改进。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种特征提取方法,其特征在于,所述方法包括:
获取来自各个数据源的用户数据;
根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;
根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述处理逻辑从所述用户数据中提取特征数据,包括:
根据所述处理逻辑从所述用户数据中提取多个基本特征的特征数据;
对所述多个基本特征的特征数据进行特征组合得到组合特征数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述处理逻辑从所述用户数据中提取特征数据之后,所述方法还包括:
根据所述特征数据的数据类型,选择对应的编码方式对所述特征数据进行编码得到编码后的特征数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述数据类型至少包括以下类型:
连续数值类型、离散分类类型、时间类型、空间类型、文本类型、图片类型、视频类型。
5.根据权利要求1所述的方法,其特征在于,根据所述处理逻辑从所述用户数据中提取特征数据之后,所述方法还包括:
根据所述特征数据对特征库中的特征数据进行更新。
6.一种特征提取装置,其特征在于,所述装置包括:
获取单元,用于获取来自各个数据源的用户数据;
确定单元,用于根据所述用户数据的数据类型确定提取特征数据所需的处理逻辑;
提取单元,用于根据所述处理逻辑从所述用户数据中提取特征数据;所述特征数据包括特征的物理意义信息。
7.根据权利要求6所述的装置,其特征在于,所述提取单元,具体用于:
根据所述处理逻辑从所述用户数据中提取多个基本特征的特征数据;
对所述多个基本特征的特征数据进行特征组合得到组合特征数据。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
编码单元,用于根据所述特征数据的数据类型,选择对应的编码方式对所述特征数据进行编码得到编码后的特征数据。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述数据类型至少包括以下类型:
连续数值类型、离散分类类型、时间类型、空间类型、文本类型、图片类型、视频类型。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
更新单元,用于根据所述特征数据对特征库中的特征数据进行更新。
CN201910440444.XA 2019-05-24 2019-05-24 一种特征提取方法和装置 Pending CN110276359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910440444.XA CN110276359A (zh) 2019-05-24 2019-05-24 一种特征提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910440444.XA CN110276359A (zh) 2019-05-24 2019-05-24 一种特征提取方法和装置

Publications (1)

Publication Number Publication Date
CN110276359A true CN110276359A (zh) 2019-09-24

Family

ID=67960225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910440444.XA Pending CN110276359A (zh) 2019-05-24 2019-05-24 一种特征提取方法和装置

Country Status (1)

Country Link
CN (1) CN110276359A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796179A (zh) * 2019-10-12 2020-02-14 上海上湖信息技术有限公司 用于模型训练的样本数据处理方法及装置、存储介质、终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287214A (zh) * 2008-05-13 2008-10-15 王海燕 通过移动终端获取信息并应用的方法和系统
US20110051810A1 (en) * 2009-01-23 2011-03-03 Nec Corporation Video descriptor generation device
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN103023970A (zh) * 2012-11-15 2013-04-03 中国科学院计算机网络信息中心 一种物联网海量数据存储方法及系统
CN103678402A (zh) * 2012-09-21 2014-03-26 厦门雅迅网络股份有限公司 一种海量数据下数据实时统计的方法
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287214A (zh) * 2008-05-13 2008-10-15 王海燕 通过移动终端获取信息并应用的方法和系统
US20110051810A1 (en) * 2009-01-23 2011-03-03 Nec Corporation Video descriptor generation device
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103678402A (zh) * 2012-09-21 2014-03-26 厦门雅迅网络股份有限公司 一种海量数据下数据实时统计的方法
CN103023970A (zh) * 2012-11-15 2013-04-03 中国科学院计算机网络信息中心 一种物联网海量数据存储方法及系统
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
朱玉全等: "《数据挖掘技术》", 30 November 2006, 南京:东南大学出版社 *
杨世莹: "《Excel数据统计与分析范例应用》", 31 January 2005, 北京:中国青年出版社 *
杨旭等: "《数据科学导论》", 31 January 2017, 北京:北京理工大学出版社 *
牛琨著: "《纵观大数据:建模、分析及应用》", 30 November 2017, 北京:北京邮电大学出版社 *
腾冲等: "《SPSS统计分析》", 28 February 2014, 武汉:武汉大学出版社 *
顾煜: "《物流成本控制与优化》", 31 January 2009, 北京:中国物资出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796179A (zh) * 2019-10-12 2020-02-14 上海上湖信息技术有限公司 用于模型训练的样本数据处理方法及装置、存储介质、终端

Similar Documents

Publication Publication Date Title
US11829855B2 (en) Time-factored performance prediction
CN102737334B (zh) 微细分定义系统
Su et al. Do landscape amenities impact private housing rental prices? A hierarchical hedonic modeling approach based on semantic and sentimental analysis of online housing advertisements across five Chinese megacities
WO2017190610A1 (zh) 目标用户定向方法、装置和计算机存储介质
CN105893406A (zh) 群体用户画像方法及系统
CN105160545B (zh) 投放信息样式确定方法及装置
CN110263235A (zh) 信息推送对象更新方法、装置和计算机设备
CN110472154B (zh) 一种资源推送方法、装置、电子设备及可读存储介质
CN109933699A (zh) 一种学术画像模型的构建方法及装置
CN109902213B (zh) 实时公交服务线路推荐方法、装置与电子设备
CN104574146A (zh) 一种业务推荐的方法和系统
CN109034853A (zh) 基于种子用户寻找相似用户方法、装置、介质和电子设备
Alemeye et al. Cloud readiness assessment framework and recommendation system
CN117391810A (zh) 物联网客户信息管理系统及方法
Asadabadi et al. Enhancing the analysis of online product reviews to support product improvement: integrating text mining with quality function deployment
Marasinghe et al. Computer vision applications for urban planning: A systematic review of opportunities and constraints
CN110276359A (zh) 一种特征提取方法和装置
CN113032440A (zh) 训练风险模型的数据处理方法和装置
CN115098698B (zh) 一种构建知识图谱中Schema模型的方法及装置
US20170330221A1 (en) Systems and methods for integration of universal marketing activities
Sari Aslam et al. Trip purpose identification using pairwise constraints based semi-supervised clustering
KR102286292B1 (ko) 데이터 및 알고리즘 공유 클라우드 시스템
Pajo et al. Towards automatic and accurate lead user identification
CN114372199A (zh) 业务推送方法及装置、存储介质和电子设备
CN114596108A (zh) 一种对象推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190924

RJ01 Rejection of invention patent application after publication