CN112800109A

CN112800109A - 一种信息挖掘方法及系统

Info

Publication number: CN112800109A
Application number: CN202110083527.5A
Authority: CN
Inventors: 侯佳; 彭浩
Original assignee: Mitu Hangzhou Network Technology Co ltd
Current assignee: Mitu Hangzhou Network Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-14

Abstract

本发明公开了一种信息挖掘方法及系统，涉及计算机技术领域，包括：获取用户数据，抽取主题信息；根据主题信息抽取商品，构建商品特征库；抽取人群，标注已知用户人群和未知用户人群，分别构建人群特征库；将已知人群特征库、未知人群特征库分别和商品特征库关联，得到训练样本数据和待预测数据；使用训练样本数据训练分类器；将待预测数据输入到训练好的分类器中，标注未知用户人群对主题信息。本发明通过解析用户数据，可以根据主题信息自主理解用户对产品的需求，从海量商品中挑选适宜用户且质量高的商品，提高用户使用体验。特别是对于母婴电商领域，可以通过解析用户的一些行为，提取对应的用户孩子信息，大大提高了用户使用体验。

Description

一种信息挖掘方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种信息挖掘方法及系统。

背景技术

随着国家二胎政策的开放，对于母婴用品的市场需求在不断的扩大。但是商品种类的繁多，不同的商品适用人群也有各种差异，从海量商品中挑选适宜当前用户人群的商品，且质量高的商品尤为关键，可以自主理解用户对产品的需求，可以提高用户的使用体验，通过解析用户的一些行为，提取对应的孩子信息，用于提高用户体验至关重要。特别是对于母婴电商领域，如果可以通过解析用户的一些行为，能够提取对应的用户孩子信息，将会大大提高了用户使用体验。

发明内容

本发明提供了一种信息挖掘方法及系统，解决了上述技术问题。

本发明提供了一种信息挖掘方法，包括：

获取用户数据，根据所述用户数据抽取主题信息；

根据所述主题信息在用户数据中抽取商品，构建商品特征库；

根据所述用户数据和主题信息抽取人群，标注已知用户人群和未知用户人群，分别构建已知人群特征库和未知人群特征库；

将已知人群特征库和商品特征库关联，得到训练样本数据；将未知人群特征库与商品特征库关联，得到待预测数据；

使用训练样本数据训练分类器；

将待预测数据输入到训练好的分类器中，标注未知用户人群的主题信息。

可选地，还包括：

根据标注的未知用户人群的主题信息设置对应的推荐操作，之后获取未知用户人群的用户数据，根据获取到的未知用户人群的用户数据校验已标注的未知用户人群的主题信息，优化所述分类器。

可选地，所述根据用户数据抽取主题信息，具体为：根据用户数据中的商品属性抽取主题信息。

可选地，根据所述用户数据和主题信息抽取人群，标注已知用户人群和未知用户人群；具体为：根据主题信息、用户数据中的用户与商品之间的关联关系，通过预设的规则，标注已知用户人群和未知用户人群。

可选地，根据所述主题信息在用户数据中抽取商品，构建商品特征库，具体为：在用户数据中获取与所述主题信息具有关联性的商品，提取商品属性，构建商品特征库。

可选地，还包括：使用分布式文件系统集群存储用户数据，在linux服务器采用python进行数据预处理，再采用spark计算引擎对预处理后的用户数据进行计算分析。

可选地，所述使用训练样本数据训练分类器，具体包括：

步骤a1：使用训练样本数据训练树模型分类器，根据输出结果计算误差值；

步骤a2：判断误差值是否大于第一预设阈值，如果是，则调整树模型分类器的输入参数，继续执行步骤a1；否则，得到训练好的树模型分类器。

可选地，所述分类器具体为采用正则化方法修改过的GBDT树模型分类器；

所述正则化方法为：F_m(x)＝F_m-1(x)+v.γ_mh_m(x),

F_m(x)代表的是第m轮训练的基学习器,F_m-1(x)代表的是m伦的上一轮m-1轮中训练的基学习器，v代表的是学习率，v<0.1，h_m(x)代表第m轮中拟合残差的基函数,γ_m代表的梯度下降的步长。

本发明提供了一种信息挖掘系统，包括：

第一获取模块，用于获取用户数据；

第一抽取模块，用于根据第一获取模块获取到的用户数据抽取主题信息；

第二抽取模块，用于根据所述第一抽取模块抽取到的主题信息在所述第一获取模块获取到的用户数据中抽取商品；

第一构建模块，用于根据所述第二抽取模块抽取到的商品构建商品特征库；

所述第三抽取模块，用于根据所述第一获取模块获取到的用户数据和所述第一抽取模块抽取到的主题信息抽取人群，标注已知用户人群和未知用户人群；

第二构建模块，用于根据所述第三抽取模块标注的已知用户人群和未知用户人群，构建已知人群特征库和未知人群特征库；

第一关联模块，用于将已知人群特征库和商品特征库关联，得到训练样本数据；将未知人群特征库与商品特征库关联，得到待预测数据；

第一训练模块，用于使用训练样本数据训练分类器；

所述第一标注模块，用于将待预测数据输入到第一训练模块训练好的分类器中，标注未知用户人群主题信息。

可选地，还包括：优化模块，用于根据所述第一标注模块标注的未知用户人群的主题信息设置对应的推荐操作，之后获取未知用户人群的用户数据，根据获取到未知用户人群的用户数据校验第一标注模块已标注的未知用户人群主题信息，优化所述分类器。

本发明的有益效果：本发明提供的一种信息挖掘方法及系统，与现有技术相比，本发明通过解析用户数据，可以根据主题信息自主理解用户对产品的需求，从海量商品中挑选适宜用户且质量高的商品，提高用户使用体验。特别是对于母婴电商领域，可以通过解析用户的一些行为，提取对应的用户孩子信息，大大提高了用户使用体验。

附图说明

图1为本发明实施例2提到的一种信息挖掘方法的流程图；

图2为本发明实施例2提供的构建埋点体系，包含了埋点分析，埋点应用的流程图；

图3为本发明实施例2提供的出树分类器构建的过程；

图4为本发明实施例2示出结果校验，以及后续应用的流程图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种信息挖掘方法，包括：

获取用户数据，根据用户数据抽取主题信息；

根据主题信息在用户数据中抽取商品，构建商品特征库；

根据用户数据和主题信息抽取人群，标注已知用户人群和未知用户人群，分别构建已知人群特征库和未知人群特征库；

使用训练样本数据训练分类器；

将待预测数据输入到训练好的分类器中，标注未知用户人群主题信息。

本实施例提供的信息挖掘方法，还可以包括：

根据标注的未知用户人群的主题信息设置对应的推荐操作，之后获取未知用户人群的用户数据，根据获取到的未知用户人群的用户数据校验已标注的未知用户人群的主题信息，优化分类器。

本实施例中，所述根据用户数据抽取主题信息，具体为：根据用户数据中的商品属性抽取主题信息。

本实施例中，根据所述用户数据和主题信息抽取人群，标注已知用户人群和未知用户人群；具体为：根据主题信息、用户数据中的用户与商品之间的关联关系，通过预设的规则，标注已知用户人群和未知用户人群。

本实施例中，根据主题信息在用户数据中抽取商品，构建商品特征库，具体为：在用户数据中获取与主题信息具有关联性的商品，提取商品属性，构建商品特征库。

具体地，获取对应用户生命周期内所有的订单行为，以时间为顺序，抽取连续订单行为，根据预设规则判断对应用户人群的用户数据的可信度，剔除相对质量较差的订单行为得到有效订单行为，根据有效订单行为、商品类型以及各个时间段的商品增长规律，分析出孩子出现的时间阶段，孩子出现的时间阶段主要用于抽取孩子出现阶段后有效订单行为中的与主题信息关联性强的商品，提取商品属性，构建商品矩阵库。

本实施例中，还可以包括：使用分布式文件系统集群存储用户数据，在linux服务器采用python进行数据预处理，如多个数据源抽取的数据进行合并等，再采用spark计算引擎对预处理后的用户数据进行计算分析。

python为一种计算机编程语言。

本实施例中，使用训练样本数据训练分类器，具体包括：

步骤a1：使用样本数据训练树模型分类器，根据输出结果计算误差值；

优选地，本实施例中，分类器具体为采用正则化方法修改过的GBDT树模型分类器；

正则化方法为：F_m(x)＝F_m-1(x)+v.γ_mh_m(x),

本实施例还提供了一种信息挖掘系统，包括：

第一获取模块，用于获取用户数据；

第二抽取模块，用于根据第一抽取模块抽取到的主题信息在第一获取模块获取到的用户数据中抽取商品；

第一构建模块，用于根据第二抽取模块抽取到的商品构建商品特征库；

第三抽取模块，用于根据第一获取模块获取到的用户数据和第一抽取模块抽取到的主题信息抽取人群，标注已知用户人群和未知用户人群；

第二构建模块，用于根据第三抽取模块标注的已知用户人群和未知用户人群，构建已知人群特征库和未知人群特征库；

第一训练模块，用于使用训练样本数据训练分类器；

第一标注模块，用于将待预测数据输入到第一训练模块训练好的分类器中，标注未知用户人群的主题信息。

本实施例还提供的一种信息挖掘系统，还可以包括：优化模块，用于根据所述第一标注模块标注的未知用户人群的主题信息设置对应的推荐操作，之后获取未知用户人群的用户数据，根据获取到的未知用户人群的用户数据校验已标注的未知用户人群的主题信息，优化分类器。

第一抽取模块，具体用于：采用通过行业经验制定的规则和机器学习技术相结合的方式，根据用户数据中的商品属性抽取主题信息。

第三抽取模块，具体用于：根据第一抽取模块抽取到的主题信息、第一获取模块获取到的用户数据中的用户与商品之间的关联关系，通过预设的规则，标注已知用户人群和未知用户人群。

第一构建模块，具体用于：在第一获取模块获取到的用户数据中获取与主题信息具有关联性的商品，提取商品属性，构建商品特征库。

一种信息挖掘系统，还可以包括：数据处理模块。数据处理模块，用于使用分布式文件系统集群存储用户数据，在linux服务器采用python进行数据预处理，再采用spark计算引擎对预处理后的用户数据进行计算分析。

第一训练模块，包括第一训练单元和第一判断单元；

第一训练单元，用于训练样本数据训练树模型分类器，根据输出结果计算误差值；

第一判断单元，用于判断误差值是否大于第一预设阈值，如果是，则调整树模型分类器的输入参数，继续触发第一训练单元；否则，得到训练好的树模型分类器。

本实施例提供的一种信息挖掘方法及系统，通过解析用户数据，可以根据主题信息自主理解用户对产品的需求，从海量商品中挑选适宜用户且质量高的商品，提高用户使用体验。特别是对于母婴电商领域，可以通过解析用户的一些行为，提取对应的用户孩子信息，大大提高了用户使用体验。

实施例2

本实施例提供了一种信息挖掘方法，如图1所示，包括：

步骤101：获取用户数据；

现如今数据量的与日俱增，传统的方式并不能很好的解决对应的存储问题和计算问题。所以为了存储更多的数据和用户的流量日志，本发明不再基于传统的数据库的方式进行存储，而是使用了hadoop(分布式文件系统框架)集群。hadoop中有一个组件是HDFS(Hadoop Distributed File System，分布式文件系统)，具有高容错的特点，可以部署在价值较低的服务器上，并且提供了高吞吐量来访问对应数据的应用程序。HDFS放宽了POSIX(Portable Operating System Interface，可移植操作系统接口)的要求，可以以流的形式访问文件系统中的数据，为海量的数据提供了存储基础。解决了对应的数据存储问，就是计算问题，这里采用spark对用户数据进行计算分析。Spark全称为Apache spark，是专为解决大规模数据处理而设计出来的通用并行计算框架，兼具了mapreduce的优点，同时设计模式采用可以直接对中间数据进行缓存，不在从磁盘上获取，因此大大提高了对应的计算速度，更适用于数据挖掘与机器学习等需要迭代的算法。

为了收集更多的用户数据，本发明采用了埋点技术。埋点技术是一种良好的部署数据采集的方式，可以监控用户行为，根据用户在app上的一系列操作线索，提炼有用的信息，进行数据分析。埋点不仅仅是为了收集更多的数据，但是收集并不是目的，其目的在于对埋点数据进行二次加工，从中提炼出对于站内转化有用的信息。比如1分析运营的机制的合理性，比如app上的有分享的功能，通过此方式可以进行一定的拉新操作，提高APP的注册量，商品的分享量等；2分析产品的合理性，比如设置某些功能键，查看用户的使用次数，分析对新功能感兴趣度，考量对应的新功能是否合理；3分析用户消费行为，挖掘对应的流失信息等；4监控对应的产品的流畅性，对于新上线的产品，产品在使用过程中，各个页面或者功能键可能存在问题；5分析不同渠道的用户行为差异等。通过借助埋点数据，可以更好的发掘对应用户的潜在信息，同时可以反馈对用户对于站内推荐的广告商品的反馈情况，从而评价对应的操作的合理性。这里主要是借助于埋点观察对应分类效果的好坏。

本实施例中，用户数据包括：用户日志等，用户日志具体为用户的行为轨迹,流量日志等用户每次访问网站产生的行为数据(例如：访问，浏览，搜索，点击等)。

本发明中，用户数据主要来源站内应用，可以通过埋点技术实现。例如，参考图2所示，埋点分析和应用的流程，可以具体包括：

步骤201：通过埋点技术收集通过app、小程序、wap端或pc端的访问网站的用户数据；

步骤202：通过http请求响应协议将用户数据存储在对应的hadoop集群当中；

步骤203：对用户数据进行加工、计算、分析；

步骤204：根据对用户数据进行加工、计算、分析的结果，进行服务监控、运营调整、搜索推荐应用等。

步骤102：根据用户数据抽取主题信息；

在本发明中首先需要确立一个主题信息，本实施例中主题信息具体指用户孩子的属性信息，例如，用户孩子的年龄、性别等等。

通过使用大数据技术，从大量的用户日志行为中，挖掘出来对生产影响比较大的因素，设置成为对应的想要获取的主题信息，这些因素一般来说，相对难以直接提取，需要通过一定的分析技术来判别，如通过一定的行业经验制定规则，也可以使用机器学习等技术。本实施例中具体采用规则和机器学习技术相结合的方式，用来解决对应问题。

具体地，可以从自身站内的需求出发，比如电商内比较重要的点击，加购下单等。也可以通过分析影响站内主要的营销转化的因素，来确立想要研究的主题。这些需要基于一定的用户行为数据的累计，从海量用户数据中去提取对应的规律信息。比如通过研究大量的订单数据，从用户的下单频率的角度出发发现，从用户有购买纸尿裤开始，用户的订单需求增大，随着孩子的年纪的增长，比如到三岁以后，订单需求量逐渐减少。所以孩子的年龄影响到用户的存留以及下单的转化。在从商品上看，商品也有适用的人群，适用年龄等。从而确定所需要的主题为年龄。在确定到了主题之后，需要确定主题的具体的内容，从用户数据中的订单数据的分析，可以发现，0-3个月，3-6个月，6-12个月，12-24个月，24-36个月，36月以上，用户孩子的不同的阶段，用户对商品的需求也各有不同，在这里将对应的主题属性值及其主题含义标注如下：

主题属性值	主题含义
		S<sub>0</sub>	0-3个月
S<sub>1</sub>	3-6个月
		S<sub>2</sub>	6-12个月
S<sub>3</sub>	12-24个月
		S<sub>4</sub>	24-36个月
S<sub>5</sub>	36月以上
		S<sub>6</sub>	未知

表1

步骤103：根据主题信息在用户数据中抽取商品，构建商品特征库；

本实施例中，在主题确立之后，需要做商品的抽取工作，本身站内商品存在分类概念，不同的分类可以代表不同类型的商品，在商品上可以借助站内的分类对商品进行预分类，再其次通过获取对应用户的生命周期内所有的订单行为，以时间为顺序，抽取连续订单行为，在这里可以设置一定的置信度，也就是采用不同的规则判别对应用户数据的可信度，比如可以采用订单的次数还有订单的下单时间为阈值，剔除相对质量较差的数据集。通过对连续订单行为分析，结合共线的商品，随着时间的增长，用户对于用户孩子不同年龄阶段的产品增长也是规律性的，也就是相同年龄段的产品需求较为相似，不同阶段的产品需求差异比较大，所以对于分析出孩子出现的阶段至关重要。抽取孩子出现的阶段后的商品之后，提取商品的对应的属性特征，构建对应的商品特征库。商品的不同属性可以很好的反应对应孩子所处的阶段。比如奶粉的段位，不同段位适用于不同的年纪。如表2所示：

奶粉段位	适用年龄
		一段	0-6M个月(婴儿)
二段	6-12M(较大婴儿及幼儿)
		三段	1-3岁(幼儿)

表2

不仅是奶粉的段位可以反映用户对应孩子的年龄，像纸尿裤可以通过反馈对应的孩子的体重，一般情况下体重和孩子的年龄段处于正相关的关系，纸尿裤的型号和体重对应关系如下：如表3所示：

表3

确定了对应的商品之后，构建对应的商品特征库，方便抽取对应的输入特征，为后续的分类器模型提供对应的输入数据。

步骤104：根据用户数据和主题信息抽取人群，标注已知用户人群和未知用户人群，分别构建已知人群特征库和未知人群特征库；

紧接着是对应用户人群的分析，这里根据主题信息，用户数据中的用户与商品之间的关联关系，通过预设规则将用户人群进行标注，标注为已知用户人群和未知用户人群。

本实施例中，已知用户人群具体是能够根据主题信息，用户数据中的用户与商品之间的关联关系，并通过预设规则分析出用户孩子的信息(如：身高、性别、年龄、体重、本站需求品类偏好等信息)的人群，未知用户人群为潜在用户人群。

具体地，由于站内用户注册的量级比较大，并不是所有的用户都需要进行分析，这里需要做一定的筛选工作。首先根据是否在站内有行为的，剔除一部分的僵尸用户，缩小对应的用户量级，减少对应计算的复杂度，缩小计算成本。其次通过用户的注册信息，先将用户的对应孩子的所处的阶段标注出来，在标注的过程中，可以辅助用户的购物列表来校验用户孩子的信息的真实性，同时可以抽取出来，已知用户的对应阶段的购物列表，方便后续的使用。这个阶段可以明确已知用户包含有孩子用户和无孩子用户。将对应的已知用户标注出来对应阶段之后，把这部分已知用户的无孩子用户对应孩子信息置空，并和有孩子信息用户的孩子信息，共同作为对应的数据集，从对应数据集中随机抽取一部分的数据作为训练数据用于训练模型，一部分作为对应的测试数据集来校验模型。对于潜在人群的划分，主要是依据规则进行划分的，比如说，用户对奶嘴产生了一系列的行为，可以将该用户标注在潜在用户人群当中，这类用户对于站内的潜在价值相对比较高。

由于站内主要是母婴用户，受众人群主要是孩子，所以主要的研究对象是孩子。在通过分析之后，确定了所需孩子信息，首先需要将用户划分人群，通过一定的规则进行数据标注，如果满足对应的规则内容，就将对应的人群划分在对应的范围当中。比如，可以优先划分是否有小孩，先将用户标注出来，有孩子人群P₁，无孩子人群P₂，潜在人群P₃。这里说明一下，上文中提到的已知用户包含P₁和P₂，未用用户为P₃。将人群标注好之后，构建对应的用户的特征库，供后续的分类模型使用，构建分类模型，标注潜在人群当中孩子的信息。这里人口的特征库，可以基于站内信息进行分析，比如日常用户经常浏览的分类，人口的基本统计信息，以及随着时间变迁的用户的购买变化特征等。

在针对用户孩子不同的主题属性中，每个商品的贡献度，可信度是不一样的，可以通过一定的规则或者统计手段标注出来对应的商品，通过商品可以指定规则便于圈定人群范围，圈定商品之后可以，可以抽取对应的商品特征，作为对应的分类器的分类特征。

标注好对应的人群之后，需要对人群进行特征的抽取，基础的人口属性特征如用户性别，年龄段，商城等级等。本文通过构建对应的用户画像信息来抽取人口属性特征，这里主要是基于用户的注册信息，以及站内行为进行抽取的。

如下表4是抽取的部分用户特征值的示例。

表4

对于用户来说，孩子的年龄是不断变化的，所以这里还引入对应的时间序列，也就是说，考虑到了用户行为序列的增长性。不同时间段的差异比较大，所以对于不同时间段的数据进行调权，这里采用的是e^-γ(ΔT)的方式表示不同时段的权重，这里的ΔT表示的是触发对应行为与当前时间的时间差，距离当前约近表示的对应的行为权重越大，距离当前时间越长的情况下，对应的权重越小。γ为对应的衰减因子，这里通过大量的行为拟合出来的，获取出来的对应值为0.02。

步骤105：将已知人群特征库和商品特征库关联，得到训练样本数据和测试样本数据；将未知人群特征库与商品特征库关联，得到待预测数据；

在分析了对应的已知用户之后，可以结合用户行为的共线矩阵中抽取出来对应的商品特征用于标注用户产生行为的商品。用户共线商品属性表部分结果如下表5所示：

表5

在准备工作构建完成之后，也就是有了对应训练样本数据，测试样本数据和待预测数据，训练样本数据用于训练分类器；测试样本数据用于测试训练的结果。训练样本数据中包括：已知人群特征库，商品特征库，将对应的特征数据进行归一化处理，构建成对应的多维度的输入特征矩阵，构成输入特征矩阵的数据，主要就是用户的基本信息，用户的行为数据，还有就是通过商品共线矩阵，提取出来的关键信息的数据特征，如：用户孩子年龄、性别，用户常购分类、常购商品，行为商品适用年龄、阶段等等特征。

步骤106：使用训练样本数据训练分类器；

在构建了对应的数据之后，可以构建初始的分类器，这里采用的主要是树模型分类器。

具体的步骤如下：设置主题，构建出来对应的主题标签，将用户标注出来，构建成对应的标签数据，形成初始的训练样本数据集；通过数据集构建对应的输入特征矩阵，训练对应的树分类器，设置一定的误差阈值，不断的调整对应输入的参数和数据集的不同特征组合，直至阈值收敛到初始设定的阈值，得到最终的分类器。

例如，如图3所示，这里采用的是spark mllib下的GBDT树模型(也可以采用其他的分类器)。GBDT(Gradient Boosting Decision Tree)即梯度提升决策树，模型构建出来的是一组回归分类树组合(CART Tree Ensemble):T₁...T_k.其中T_j学习的是之前j-1棵树预测结果的残差，这种思想就像准备考试前的复习，先做一遍习题册，然后把做错的题目挑出来，在做一次，然后把做错的题目挑出来在做一次，经过反复多轮训练，取得最好的成绩。模型最后的输出是一个样本在各个树输出的结果的和：

f_k表示样本到树输出的映射。

另外由于spark封装的GBDT模型已经经过编译，编码实现灵活度有所降低，原生代码的学习率无法改变，为了提高模型的泛化能力，这里对spark mllib GBDT模型的实现进行了修改，并重新编译打包。修改的地方主要是通过正则化技术，来降低过拟合。正则化方法为：F_m(x)＝F_m-1(x)+·γ_mh_m(x)，0＜v≤1：

其中，F_m(x)代表的是第m轮训练的基学习器,F_m-1(x)代表的是m伦的上一轮m-1轮中训练的基学习器，v代表的是学习率，h_m(x)代表第m轮中拟合残差的基函数,γ_m代表的梯度下降的步长。

当ν＝1时即为原始模型；修改后选择的是v<0.1的小学习率。

这里标注的主题是多属性值，也就是不属于二分类问题，这里采用softmax模型：

......

其中F₁...F_k是k个不同的CART回归树集成。每一轮的训练实际是训练k棵树去拟合sotfmax的每一个分支模型。这样构建出来的多分类模型的损失函数如下：

这里的yi(i＝1...k)，在当前问题当中K其实就是7，这里表征的是样本的标签有多少个，在对数据处理的过程中，是在k个类别上做one-hot编码之后的取值，当前问题中就是表征为7维度，只有一维是1，其他都是0，由此可以表征对应的梯度函数如下：

可见，这k棵树同样是拟合了样本的真实标签与预测概率之差，与GBDT二分类的过程非常类似。树的构建过程和迭代过程如下：训练的时候，针对样本x每个可能的类都训练一个分类回归树。在这里目前有7个类别，也就是这里的K＝7。假如样本x属于第二类，针对该样本的分类标签，可以用一个7维向量表示[0，1，0，0，0，0，0]，这里的0表示不属于该类别，1表示属于该类别，由样本属于第二类，所以第二类对应的向量维度就是1，其他位置就是0。针对样本有七种的情况，实质上在每轮训练的时候就是同事训练七棵树。第一棵树针对的是样本x的第一类，输入为(x,y₁)，第二棵树输入针对样本x为第二类，输入为(x,y₂)，第三棵树输入针对样本x为第三类，输入为(x,y₃)，以此类推，直到构建第七棵树的时候，输入为(x,y₇)。这里每颗树的训练过程其实就是CART树的生成过程。在此参照CART生树的步骤即可解出七颗树，以及对x类别的预测值F₁(x)、F₂(x)、F₃(x)、...、F₇(x)，那么在此类别训练中仿照多分类的逻辑回归，使用softmax来产生概率，那么对于类别1的概率为：

并且针对类别1求出对应的残差y^＝0-p₁(x)，类别2求出对应的残差y^＝0-p₂(x)，类别3求出对应的残差y^＝0-p₃(x)，以此类推，类别7对应的残差为y^＝0-p₇(x)。然后开始了第二轮训练，继续训练七棵树，一直迭代M轮，每轮构建7棵树。当训练完成以后，新来一个样本x，要预测对应的样本的类别的时候，可以通过构建的子树，产生对应的某个类别的概率：

其中F_iM(x)代表的是最终经过M轮训练之后每个类别产生的子树。如图3中的301-312所示，将训练样本数据作为样本输入数据输入后，通过每一轮构建多分类的基分类器，每一个分类对应一个子树，通过多轮的迭代，构建多个基分类器，最终将基分类器，组合成集成分类器，得到最终训练好的分类器。

步骤107：将待预测数据输入到训练好的分类器中，标注未知用户人群的主题信息。

构建完成对应的分类器之后，将待预测数据输入到训练好的分类器中，获取与未知用户人群对应的主题信息，对未知人群通过分类器进行标注，将标注好的人群进行分流，通过观察后续用户对不同的策略结合标注主题信息的反馈，如点击，下单等行为观察对应的标注结果，以此来校验标注质量的好坏，同时还可以通过反馈调整分类器模型的好坏。例如，具体如图4所示，包括：

步骤401：根据已标注的未知用户人群的主题信息，对未知用户人群采用不同的策略规则；

步骤402：获取用户后续对不同的策略结合标注主题信息的反馈，校验标注质量的好坏；

步骤403：根据校验结果，优化分类器。

具体地，这里主要是根据用户的标注的主题信息，来分类不同的商品，通过用户在线上的反馈信息，来判别出来，最终评判标注的信息的质量的高低，其实主要就对产品是否有交互即可。通过收集后续的信息，可以不断的去优化分类器。

本步骤中提到的通过反馈优化分类器的方法为：通过用户行为反馈的历史和实时收集，把用户真正的行为商品的信息、主题等(同模型训练阶段特征)再次输入到之前的模型中，以最新的用户行为数据继续训练模型，以使模型更适合当前的用户和商品环境(现象级新热度商品对于用户选择的影响、新增商品、已有商品价格改变、类目改变等可能会对已有模型产生预测偏差的影响)。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种信息挖掘方法，其特征在于，包括：

获取用户数据，根据所述用户数据抽取主题信息；

使用训练样本数据训练分类器；

2.根据权利要求1所述的信息挖掘方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据用户数据抽取主题信息，具体为：根据用户数据中的商品属性抽取主题信息。

4.根据权利要求1所述的方法，其特征在于，根据所述用户数据和主题信息抽取人群，标注已知用户人群和未知用户人群；具体为：根据主题信息、用户数据中的用户与商品之间的关联关系，通过预设的规则，标注已知用户人群和未知用户人群。

5.根据权利要求1所述的方法，其特征在于，根据所述主题信息在用户数据中抽取商品，构建商品特征库，具体为：在用户数据中获取与所述主题信息具有关联性的商品，提取商品属性，构建商品特征库。

6.根据权利要求1所述的方法，其特征在于，还包括：使用分布式文件系统集群存储用户数据，在linux服务器采用python进行数据预处理，再采用spark计算引擎对预处理后的用户数据进行计算分析。

7.根据权利要求1所述的方法，其特征在于，所述使用训练样本数据训练分类器，具体包括：

8.根据权利要求1所述的方法，其特征在于，所述分类器具体为采用正则化方法修改过的GBDT树模型分类器；

所述正则化方法为：F_m(x)＝F_m-1(x)+v.γ_mh_m(x),

9.一种信息挖掘系统，其特征在于，包括：

第一获取模块，用于获取用户数据；

第一训练模块，用于使用训练样本数据训练分类器；

10.根据权利要求9所述的系统，其特征在于，还包括：优化模块，用于根据所述第一标注模块标注的未知用户人群的主题信息设置对应的推荐操作，之后获取未知用户人群的用户数据，根据获取到未知用户人群的用户数据校验第一标注模块已标注的未知用户人群主题信息，优化所述分类器。