CN103700011B - 一种特征抽取方法和装置 - Google Patents

一种特征抽取方法和装置 Download PDF

Info

Publication number
CN103700011B
CN103700011B CN201410013846.9A CN201410013846A CN103700011B CN 103700011 B CN103700011 B CN 103700011B CN 201410013846 A CN201410013846 A CN 201410013846A CN 103700011 B CN103700011 B CN 103700011B
Authority
CN
China
Prior art keywords
user
matrix
data
feature extraction
project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410013846.9A
Other languages
English (en)
Other versions
CN103700011A (zh
Inventor
罗辛
夏云霓
陈鹏
吴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Zhongke Yuncong Technology Co Ltd
Original Assignee
CHENGDU GKHB INFORMATION TECHNOLOGY Co Ltd
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU GKHB INFORMATION TECHNOLOGY Co Ltd, Chongqing University filed Critical CHENGDU GKHB INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410013846.9A priority Critical patent/CN103700011B/zh
Publication of CN103700011A publication Critical patent/CN103700011A/zh
Application granted granted Critical
Publication of CN103700011B publication Critical patent/CN103700011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种特征抽取方法和装置,应用于一电子设备中,所述方法包括:所述电子设备接收来自服务器所采集的用户‑项目历史行为统计数据;将所述统计数据存储在存储模块中;对所述用户‑项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;将所述特征抽取数据存储在所述存储模块中,解决了现有技术中存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。

Description

一种特征抽取方法和装置
技术领域
本发明涉及计算机数据处理领域,尤其涉及大数据环境中特征抽取方法和装置。
背景技术
现代大型信息系统,尤其是运营较为成功的商业系统,如大型电子商务系统、搜索系统、社会网络服务系统,其用户数量和信息数量十分巨大。在此类系统中,用户的各种客观历史行为,如点击、浏览、评论、搜索等等,随着系统运营时间的积累,会汇集成为庞大的用户历史行为数据集,数据量至少在TB量级,形成典型的大数据环境。在此类环境中,一种典型的数据描述方式是使用用户-项目历史行为统计矩阵,该矩阵中的每一行对应于一个特定用户;每一列对应于一个特定项目,其中项目指系统中任何可能由用户操作的客观物体,如新闻、图片、商品等等;每一个矩阵元素对应于一个特定用户对一个特定项目的历史行为量化数据,该数据是使用该特定用户对该特定项目的客观历史行为数据,利用符合自然规律的数学统计模型进行量化计算构成。大型商业系统中,用户和项目数量十分巨大,因此,其对应的用户-项目历史行为统计矩阵也是十分巨大的。同时,在通常情况下,一个用户不可能穷尽浏览所有的项目,一个项目也不可能被所有的用户点击;因此,一般而言,用户-项目历史行为统计矩阵中的已知数据往往远远少于未知数据,即,用户-项目历史行为统计矩阵是极端稀疏的。
在信息系统运营过程中,基于用户-项目历史行为统计矩阵中的已知数据,从中抽取用户行为特征,可以对用户的行为规律进行有效的分析,从而为系统在运营过程中的信息组织和营销策略的制订提供重要的依据。在用户行为特征的抽取过程中,如何保持用户行为特征的非负性,是一个关键问题。这是因为非负的用户特征更加符合信息系统中用户行为的自然规律,能够更好地对用户行为进行表征。
非负特征抽取多用于计算机视觉领域,其基本特点是对于给定的图形或者图像,将其视为一个满秩矩阵,并对其进行非负条件限制下的矩阵因式分解,从而抽取出该图形或图像的局部物体特征。但是,信息系统中的非负用户行为提取问题,与计算机视觉中的非负物体特征抽取问题,具备很大的区别。这是因为计算机视觉中的非负物体特征抽取所处理的图形、图像所转化的矩阵是满秩矩阵,且不具备缺失值,此类矩阵的非负矩阵因式分解问题可以借助常规的矩阵迭代运算进行处理;而信息系统中的非负用户行为抽取问题,所处理的用户-项目历史行为统计矩阵,通常情况下是极端稀疏的,其中具备大量的缺失值,无法使用传统的矩阵迭代运算进行处理。因此,如何针对大型信息系统中的、具备大量缺失值的用户-项目历史行为统计矩阵,进行非负条件限制下的矩阵因式分解,抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征,是对现代大型信息系统所产生的海量数据进行分析所需要处理的一个关键问题。
综上所述,本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
在现有技术中,由于现在现有的信息系统中进行非负用户行为抽取时,所处理的用户-项目历史行为统计矩阵,通常情况下是极端稀疏的,其中具备大量的缺失值,无法使用传统的矩阵迭代运算进行处理,所以,现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而不能对用户的行为规律进行有效的分析,从而不能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据。
发明内容
本申请实施例通过提供一种特征抽取方法和装置,解决了现有技术中存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
为解决上述技术问题,本申请实施例一方面提供了一种特征抽取方法,应用于一电子设备中,所述方法包括:
所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据;
将所述统计数据存储在存储模块中;
对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;
将所述特征抽取数据存储在所述存储模块中。
其中,所述对所述统计数据进行特征抽取,具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取。
进一步地,所述对所述统计数据进行特征抽取,获得特征抽取数据,具体包括:
首先,对特征抽取过程所需要的参数进行初始化获得第一参数;
然后,基于所述统计数据和所述第一参数,训练构造特征数据;
最后,通过迭代训练所述特征数据,获得特征抽取数据。
其中,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。
另一方面,本申请实例还提供一种特征抽取装置,所述特征抽取装置包括:
数据接收模块,用于接收来自服务器所采集的用户-项目历史行为统计数据来;
特征抽取模块,用于对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;
存储模块,用于存储所述统计数据和所述特征抽取数据。
其中,所述特征抽取模块具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取的模块。
其中,所述特征抽取模块具体包括:
参数初始化单元,用于对特征抽取过程所需要的参数进行初始化获得第一参数;
特征训练单元,用于基于所述统计数据和所述第一参数,训练构造特征数据;
迭代训练单元,用于通过迭代训练所述特征数据,获得特征抽取数据。
其中,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
2、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能对用户的行为规律进行有效的分析,从而不能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术问题,进而实现了能对用户的行为规律进行有效的分析,进而能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术效果。
附图说明
图1为本申请实施例中特征抽取方法的流程图;
图2为本申请实施例中特征抽取装置的结构图;
图3为本申请实施例中特征抽取模块的结构图;
图4为本申请实施例中用户-项目历史行为统计数据存储流程图;
图5为本申请实施例中非负用户行为特征抽取流程图。
具体实施方式
本申请实施例通过提供一种特征抽取方法和装置,解决了现有技术中存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
本申请实施中的技术方案为解决上述技术问题。总体思路如下:
首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
在实施例一中,提供了特征抽取方法,应用在一电子设备中,其中,所述电子设备可以是台式电脑,可以笔记本电脑,可以是平板电脑,也可以是手机,在本申请实施例中,在此就不再一一举例了。请参考图1,本申请实施例中的特征抽取方法具体包括:
SA1,所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据。
在步骤SA1之后,本申请实施例的方法便进入步骤SA2,即:将所述统计数据存储在存储模块中。
在本申请实例中,电子设备接收服务器采集的用户-项目历史行为统计数据,并根据目前装置的存储模块内存储的数据情况,选取适当的存储方式,对接收的服务器采集数据进行存储。在具体实施例中,假设电子设备为一电脑,并且从服务器中获得统计数据,然后将统计数据存储在电脑的存储设备中方便后续使用。在具体实施例中,存储模块具体可以是各式存储器,如RAM、ROM等,本申请不做具体限制。
在步骤SA2之后,本申请实施例的方法便进入步骤SA3,即:对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据。
在本申请实例中,所述对所述统计数据进行特征抽取,具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取。
在本申请实例中,所述对所述统计数据进行特征抽取,获得特征抽取数据,具体包括:
首先,对特征抽取过程所需要的参数进行初始化获得第一参数;
然后,基于所述统计数据和所述第一参数,训练构造特征数据;
最后,通过迭代训练所述特征数据,获得特征抽取数据。
在本申请实例中,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。
在本申请实例中,电子设备接收到服务器根据当前收集的用户-项目行为统计数据,进行非负用户行为特征抽取的指令后,执行处理稀疏矩阵的非负用户特征抽取过程,并将抽取的非负用户行为特征数据存入存储模块中的非负用户行为特征存储单元。
其中,在本申请实例中,对特征抽取过程所需要的参数进行初始化获得第一参数具体为:初始化处理稀疏矩阵的非负用户特征抽取过程所依赖的相关参数,所述第一参数包括特征空间维数f、Tikhonov规约因子λP和λQ、用户特征矩阵P、用户特征训练辅助矩阵UserUP和UserDOWN、项目特征矩阵P、项目特征训练辅助矩阵ItemUP和ItemDOWN、迭代训练控制变量t、迭代训练上限n和迭代收敛判定阈值γ。其中,用户特征矩阵P、用户特征训练辅助矩阵UserUP和UserDOWN是根据当前用户集合U,和当前特征空间维数f,建立的|U|行,|f|列的矩阵;用户特征矩阵P中每个元素的初始值为开区间(0, 0.4)范围内的随机数,用户特征训练辅助矩阵UserUP和UserDOWN中每个元素的初始值为0。项目特征矩阵Q、项目特征训练辅助矩阵ItemUP和ItemDOWN是根据当前项目集合I,和当前特征空间维数f,建立的|I|行,|f|列的矩阵;项目特征矩阵P中每个元素的初始值为开区间(0, 0.4)范围内的随机数,项目特征训练辅助矩阵ItemUP和ItemDOWN中每个元素的初始值为0。
其中,在本申请实例中,所述基于所述统计数据和所述第一参数,训练构造特征数据具体为:根据存储模块中,用户-项目历史行为存储单元存储的已知用户-项目历史行为统计数据,和参数初始化单元初始化的训练参数,训练构造非负用户行为特征数据。其中,非负用户行为特征数据包括用户特征矩阵P和项目特征矩阵Q。P中的每一个行向量对应于一个用户的非负行为特征;Q中的每一个行向量对应于已知全部用户对于一个项目进行操作的非负历史行为特征。训练构造非负用户行为特征数据进一步包括,特征训练单元首先构造累积绝对误差ε,ε以公式(1)表示。
(1)
其中,RK表示用户-项目历史行为统计矩阵中的已知数据集合;ru,i表示用户-项目历史行为统计矩阵中第u行,第i列的元素值,代表用户u在项目i上的历史行为统计数据;pu表示用户特征矩阵P的第u行行向量,代表用户u的行为特征向量;qi表示项目特征矩阵Q的第i行行向量,代表已知全部用户对于项目i进行操作的历史行为特征;表示向量pu和qi间的内积,||P||F和||Q||F分别表示用户特征矩阵P和项目特征矩阵Q的Frobenius范数。然后,对用户特征矩阵P和项目特征矩阵Q进行迭代训练,使其满足累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上最小,表示为公式(2)。
(2)
其中分别为的单元素依赖的数学展开形式。同时,训练过程中还需满足用户特征矩阵P和项目特征矩阵Q的非负性,表示为公式(3)。
(3)
最后,使用单元素依赖的非负用户特征迭代训练过程,在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练,表示为公式(4)。
(4)
其中,Iu表示具备用户u的历史行为统计数据的项目集合,Ui表示具备项目i的历史行为统计数据的用户集合。特征训练单元会在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上重复上述训练过程,直至累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上收敛,或者迭代训练控制变量t等于迭代训练上限n。
在步骤SA3之后,本申请实施例的方法便进入步骤SA4,即:将所述特征抽取数据存储在所述存储模块中。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
2、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能对用户的行为规律进行有效的分析,从而不能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术问题,进而实现了能对用户的行为规律进行有效的分析,进而能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术效果。
对应实施例一中的方法,实施例一还提供一种装置,请参考图2, 所述特征抽取装置10包括:
数据接收模块101,用于接收来自服务器所采集的用户-项目历史行为统计数据来;
特征抽取模块102,用于对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;
存储模块103,用于存储所述统计数据和所述特征抽取数据。
其中,所述特征抽取模块102具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取的模块。
其中,请参考图3,所述特征抽取模块102具体包括:
参数初始化单元1021,用于对特征抽取过程所需要的参数进行初始化获得第一参数;
特征训练单元1022,用于基于所述统计数据和所述第一参数,训练构造特征数据;
迭代训练单元1023,用于通过迭代训练所述特征数据,获得特征抽取数据。
其中,在本申请实施例中,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。
如图4所示为用户-项目历史行为统计数据存储流程。用户-项目历史行为统计数据存储流程包括:
(1)服务器采用用户-项目行为数据,转化成为用户-项目历史行为统计值,发送给非负用户行为特征抽取装置;
(2)非负用户行为特征抽取装置判断服务器发送的数据,其对应用户是否已存在于装置的存储单元内:若是,则执行步骤(4),否则,执行步骤(3);
(3)非负用户行为特征抽取装置新建用户,其属性对应服务器发送的数据对应用户的属性;
(4)非负用户行为特征抽取装置判断服务器发送的数据,其对应项目是否已存在于装置的存储单元内:若是,则执行步骤(6),否则,执行步骤(5);
(5)非负用户行为特征抽取装置新建项目,其属性对应服务器发送的数据对应项目的属性;
(6)非负用户行为特征抽取装置判断服务器发送的数据,是否与装置存储单元内的某条用户-项目历史行为数据记录对应:若是,则执行步骤(8),否则,执行步骤(7);
(7)非负用户行为特征抽取装置新建对应服务器发送数据的用户-项目历史行为数据记录,并将其初始化为0;
(8)非负用户行为特征抽取装置将服务器发送数据累加至对应用户-项目历史行为数据记录上。
如图5所示为非负用户行为特征抽取流程。非负用户行为特征抽取流程包括:
(1)非负用户行为特征抽取装置接收服务器要求进行非负用户行为特征抽取的指令;
(2)非负用户行为特征抽取装置初始化进行非负用户行为特征抽取的相关参数;
(3)非负用户行为特征抽取装置建立用以衡量特征抽取进度的累积绝对误差ε;
(4)非负用户行为特征抽取装置判断当前迭代训练控制变量t是否已达到迭代训练上限n:若是,则执行步骤(7),否则,执行步骤(5);
(5)非负用户行为特征抽取装置判断累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上是否已收敛,若是,则执行步骤(7),否则,执行步骤(6);
(6)非负用户行为特征抽取装置在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练;
(7)非负用户行为特征抽取装置将通过迭代训练抽取的用户特征矩阵P和项目特征矩阵Q输出,存储至存储模块中的非负用户行为特征存储单元。
本发明能够通过单元素依赖迭代训练,直接作用于用户-项目历史行为统计矩阵中的已知数据集合,能够处理具备大量缺失值的、极端稀疏的用户-项目历史行为统计矩阵,计算代价小,能够解决大数据处理环境中的非负用户行为特征抽取问题。
下面,对本发明所提供的处理稀疏矩阵的非负用户行为特征抽取装置和方法进行详细说明。图4为用户-项目历史行为统计数据存储流程示意图。参见图4:
步骤201:服务器采用用户-项目行为数据,转化成为用户-项目历史行为统计值,发送给非负用户行为特征抽取装置。
用户-项目行为数据是指,从上次服务器结束发送数据开始计算,一直到当前时间点的时间段内,一个具体的用户对一个具体的项目,如新闻、图片、商品等,进行的操作,如点击、浏览、评论、搜索等,的总和。服务器采集用户-项目行为数据后,应使用符合客观规律的数学统计模型,将此类数据转换为用户-项目历史行为统计值;服务器采用的数学统计模型依赖于服务器的具体设计和实现,并不在本发明范围内。本发明所提出的非负用户行为特征抽取装置和方法,其接收的数据为用户-项目历史行为统计值,为正实数集内的任意浮点数,如1.375。
本步骤中,服务器向非负用户行为特征抽取装置发送用户-项目历史行为统计值的方式可以是:定期、或根据所述非负用户行为特征抽取装置的通知、或根据某服务器的通知,将用户-项目历史行为统计值发送给非负用户行为特征抽取装置。
步骤202:非负用户行为特征抽取装置判断服务器发送的数据,其对应用户是否已存在于装置的存储单元内。
判断的依据为服务器发送的用户-项目历史行为统计值,其对应的用户ID是否已存在于非负用户行为特征抽取装置的存储单元内;若已存在,则表示相应的用户在非负用户行为特征抽取装置内有对应的记录,不需新建用户记录与之对应;反之亦然。
步骤203:非负用户行为特征抽取装置新建用户,其属性对应服务器发送的数据对应用户的属性。
非负用户行为特征抽取装置新建用户,其与服务器发送的用户-项目历史行为统计值数据,主要需对应的属性为用户ID。
步骤204:非负用户行为特征抽取装置判断服务器发送的数据,其对应项目是否已存在于装置的存储单元内。
判断的依据为服务器发送的用户-项目历史行为统计值,其对应的项目ID是否已存在于非负用户行为特征抽取装置的存储单元内;若已存在,则表示相应的项目在非负用户行为特征抽取装置内有对应的记录,不需新建项目记录与之对应;反之亦然。
步骤205:非负用户行为特征抽取装置新建项目,其属性对应服务器发送的数据对应项目的属性。
非负用户行为特征抽取装置新建项目,其与服务器发送的用户-项目历史行为统计值数据,主要需对应的属性为项目ID。
步骤206:非负用户行为特征抽取装置判断服务器发送的数据,是否与装置存储单元内的某条用户-项目历史行为数据记录对应。
判断的依据为服务器发送的用户-项目历史行为统计值,其对应的三元组(用户ID,项目ID,用户-项目历史行为统计数据)是否已存在于非负用户行为特征抽取装置的存储单元内;若已存在,则表示服务器发送的用户-项目历史行为统计值在非负用户行为特征抽取装置内有对应的记录,不需新建记录与之对应;反之亦然。
步骤207:非负用户行为特征抽取装置新建对应服务器发送数据的用户-项目历史行为数据记录,并将其初始化为0。
非负用户行为特征抽取装置新建用户-项目历史行为数据记录,其与服务器发送的用户-项目历史行为统计值,主要需对应的属性为二元组(用户ID,项目ID)。
步骤208:非负用户行为特征抽取装置将服务器发送数据累加至对应用户-项目历史行为数据记录上。
至此,用户-项目历史行为统计数据存储流程结束。
图5为本发明实施例中非负用户行为特征抽取流程示意图。参见图5,该过程包括:
步骤301:非负用户行为特征抽取装置接收服务器要求进行非负用户行为特征抽取的指令。
本步骤中,服务器向非负用户行为特征抽取装置发送要求进行非负用户行为特征抽取的指令的方式可以是:定期、或根据所述非负用户行为特征抽取装置的通知、或根据某服务器的通知,将要求进行非负用户行为特征抽取的指令发送给非负用户行为特征抽取装置。
步骤302:非负用户行为特征抽取装置初始化进行非负用户行为特征抽取的相关参数。
本步骤中,非负用户行为特征抽取装置需要初始化的参数包括:
特征空间维数f:用以衡量所抽取的非负用户行为特征所处特征空间的维度,决定每一个非负用户行为特征向量的维数,为正实数集合内的任意正整数,如30。
Tikhonov规约因子λP和λQ:用以在训练过程中控制Tikhonov规约化程度的控制参数,本发明实施例中设置为开区间(0, 0.5)内的任意小数,如0.05。
用户特征矩阵P:需要抽取的非负用户行为特征,是一个|U|×f的矩阵,其中U代表非负用户行为特征抽取装置的存储单元内所存储的全部用户的集合。P中的每一行对应于一个用户,P中的每一个行向量对应于一个用户的非负行为特征向量。本发明实施例中,用户特征矩阵P中每个元素的初始值设置为开区间(0, 0.4)范围内的随机数,如0.23。
用户特征训练辅助矩阵UserUP和UserDOWN:用以辅助非负用户行为特征迭代训练过程的矩阵,均为|U|×f的矩阵。本发明实施例中,用户特征训练辅助矩阵UserUP和UserDOWN中每个元素的初始值设置为0。
项目特征矩阵Q:需要抽取的非负用户行为特征,是一个|I|×f的矩阵,其中I代表非负用户行为特征抽取装置的存储单元内所存储的全部项目的集合。Q中的每一行对应于一个项目,Q中的每一个行向量对应于已知全部用户对于一个项目进行操作的非负历史行为特征向量。
项目特征训练辅助矩阵ItemUP和ItemDOWN:用以辅助项目非负行为特征迭代训练过程的矩阵,均为|I|×f的矩阵。本发明实施例中,项目特征训练辅助矩阵ItemUP和ItemDOWN中每个元素的初始值设置为0。
迭代训练控制变量t:用以控制非负用户行为特征训练过程的变量,迭代训练控制变量t的初始值设置为0。
迭代训练上限n:用以控制非负用户行为特征训练过程迭代上限的变量,为正实数集合内的任意正整数,如1000。
迭代收敛判定阈值γ:用以判断累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上是否已收敛的阈值参数,本发明实施例中,设置为开区间(0, 1)内的任意小数,如0.0005。
步骤303:非负用户行为特征抽取装置建立用以衡量特征抽取进度的累积绝对误差ε。
本步骤中,用以衡量特征抽取进度的累积绝对误差ε以如下公式(5)进行计算。
(5)
其中,RK表示用户-项目历史行为统计矩阵中的已知数据集合;ru,i表示用户-项目历史行为统计矩阵中第u行,第i列的元素值,代表用户u在项目i上的历史行为统计数据;pu表示用户特征矩阵P的第u行行向量,代表用户u的行为特征向量;qi表示项目特征矩阵Q的第i行行向量,代表已知全部用户对于项目i进行操作的历史行为特征;表示向量pu和qi间的内积,||P||F和||Q||F分别表示用户特征矩阵P和项目特征矩阵Q的Frobenius范数。
步骤304:非负用户行为特征抽取装置判断当前迭代训练控制变量t是否已达到迭代训练上限n。
本步骤中,非负用户行为特征抽取装置首先在迭代训练控制变量t上累加1,然后判断迭代训练控制变量t是否大于迭代训练上限n。
步骤305:非负用户行为特征抽取装置判断累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上是否已收敛。
本步骤中,非负用户行为特征抽取装置判断累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上是否已收敛的依据为,本轮迭代训练开始前,累积绝对误差ε的数值,对比上轮迭代训练开始前,累积绝对误差ε的数值,其差距的绝对值是否小于迭代收敛判定阈值γ;如果小于,则判定为已收敛,反之亦然。
步骤306:非负用户行为特征抽取装置在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练。
本步骤中,对非负用户行为特征抽取装置在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练的方法为:
确定迭代训练目标,即对用户特征矩阵P和项目特征矩阵Q,使其满足累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上最小,表示为公式(6)。
(6)
其中分别为的单元素依赖的数学展开形式。同时,训练过程中还需满足用户特征矩阵P和项目特征矩阵Q的非负性,表示为公式(7)。
(7)
最后,使用单元素依赖的非负用户特征迭代训练过程,在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练。具体为,对于每一个用户特征pu,k,首先确定其对于累积绝对误差ε的偏导数方向,表示为公式(8)。
(8)
然后,对于用户特征pu,k,导出其按照偏导数方向进行迭代更新的更新规则,表示为公式(9)。
(9)
其中,ηu,k表示对于用户特征pu,k的学习速率。再者,对于用户特征pu,k按照偏导数方向进行迭代更新的更新规则,令ηu,k等于该规则中的负数部分,表示为公式(10)。
(10)
最后,将ηu,k的设置值代入用户特征pu,k按照偏导数方向进行迭代更新的更新规则,表示为公式(11)。
(11)
其中,Iu表示具备用户u的历史行为统计数据的项目集合。
对于每一个项目特征qi,k,首先确定其对于累积绝对误差ε的偏导数方向,表示为公式(12)。
(12)
然后,对于项目特征qi,k,导出其按照偏导数方向进行迭代更新的更新规则,表示为公式(13)。
(13)
其中,ηi,k表示对于项目特征qi,k的学习速率。再者,对于项目特征qi,k按照偏导数方向进行迭代更新的更新规则,令ηi,k等于该规则中的负数部分,表示为公式(14)。
(14)
最后,将ηi,k的设置值代入项目特征qi,k按照偏导数方向进行迭代更新的更新规则,表示为公式(15)。
(15)
其中,Ui表示具备项目i的历史行为统计数据的用户集合。
步骤307:非负用户行为特征抽取装置将通过迭代训练抽取的用户特征矩阵P和项目特征矩阵Q输出,存储至存储模块中的非负用户行为特征存储单元。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能抽取出能够保证对已知数据的良好还原性和非负性,不能够良好地表征用户行为规律的用户行为特征的技术问题,进而实现了能抽取出能够保证对已知数据的良好还原性和非负性,能够良好地表征用户行为规律的用户行为特征的技术效果。
2、由于采用了首先所述电子设备接收来自服务器所采集的统计数据,然后将所述统计数据存储在存储模块中,然后对所述统计数据进行特征抽取,获得特征抽取数据,最后将所述特征抽取数据存储在所述存储模块中的技术方案,即通过单元素依赖迭代训练,基于用户-项目历史行为统计矩阵中的已知数据集合,抽取非负用户历史行为特征,所以有效解决了现有技术存在不能对用户的行为规律进行有效的分析,从而不能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术问题,进而实现了能对用户的行为规律进行有效的分析,进而能为系统在运营过程中的信息组织和营销策略的制订提供重要的依据的技术效果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种特征抽取方法,应用于一电子设备中,其特征在于,所述方法包括:
所述电子设备接收来自服务器所采集的用户-项目历史行为统计数据;
将所述统计数据存储在存储模块中;
对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;
将所述特征抽取数据存储在所述存储模块中;对所述统计数据进行特征抽取,具体为:对所述统计数据进行处理稀疏矩阵的非负用户行为特征抽取;对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据,具体包括:
对特征抽取过程所需要的参数进行初始化获得第一参数;
基于所述统计数据和所述第一参数,训练构造特征数据;
通过迭代训练所述特征数据,获得特征抽取数据;
其中,所述训练构造特征数据具体包括:首先构造累积绝对误差ε,ε以公式(1)表示:
RK表示用户-项目历史行为统计矩阵中的已知数据集合;ru,i表示用户-项目历史行为统计矩阵中第u行,第i列的元素值,代表用户u在项目i上的历史行为统计数据;pu表示用户特征矩阵P的第u行行向量,代表用户u的行为特征向量;qi表示项目特征矩阵Q的第i行行向量,代表已知全部用户对于项目i进行操作的历史行为特征;pu.qi表示向量pu和qi间的内积,||P||F和||Q||F分别表示用户特征矩阵P和项目特征矩阵Q的Frobenius范数,λP和λQ为:Tikhonov规约因子;
然后,对用户特征矩阵P和项目特征矩阵Q进行迭代训练,使其满足累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上最小,表示为公式(2):
其中分别为pu.qi的单元素依赖的数学展开形式,f为特征空间维数,同时,训练过程中还需满足用户特征矩阵P和项目特征矩阵Q的非负性,表示为公式(3):
最后,使用单元素依赖的非负用户特征迭代训练过程,在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练,表示为公式(4):
其中,Iu表示具备用户u的历史行为统计数据的项目集合,Ui表示具备项目i的历史行为统计数据的用户集合。
2.如权利要求1所述的方法,其特征在于,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。
3.一种特征抽取装置,其特征在于,所述特征抽取装置包括:
数据接收模块,用于接收来自服务器所采集的用户-项目历史行为统计数据来;
特征抽取模块,用于对所述用户-项目历史行为统计数据进行非负用户行为特征抽取,获得特征抽取数据;
存储模块,用于存储所述统计数据和所述特征抽取数据;所述特征抽取模块具体为:对所述统计数据进行处理稀疏矩阵的非负用户特征抽取的模块;所述特征抽取模块具体包括:
参数初始化单元,用于对特征抽取过程所需要的参数进行初始化获得第一参数;
特征训练单元,用于基于所述统计数据和所述第一参数,训练构造特征数据;
迭代训练单元,用于通过迭代训练所述特征数据,获得特征抽取数据;
其中,所述训练构造特征数据具体包括:首先构造累积绝对误差ε,ε以公式(1)表示:
RK表示用户-项目历史行为统计矩阵中的已知数据集合;ru,i表示用户-项目历史行为统计矩阵中第u行,第i列的元素值,代表用户u在项目i上的历史行为统计数据;pu表示用户特征矩阵P的第u行行向量,代表用户u的行为特征向量;qi表示项目特征矩阵Q的第i行行向量,代表已知全部用户对于项目i进行操作的历史行为特征;pu.qi表示向量pu和qi间的内积,||P||F和||Q||F分别表示用户特征矩阵P和项目特征矩阵Q的Frobenius范数,λP和λQ为:Tikhonov规约因子;
然后,对用户特征矩阵P和项目特征矩阵Q进行迭代训练,使其满足累积绝对误差ε相对于用户特征矩阵P和项目特征矩阵Q在用户-项目历史行为统计矩阵中的已知数据集合RK上最小,表示为公式(2):
其中分别为pu.qi的单元素依赖的数学展开形式,f为特征空间维数,同时,训练过程中还需满足用户特征矩阵P和项目特征矩阵Q的非负性,表示为公式(3):
最后,使用单元素依赖的非负用户特征迭代训练过程,在用户-项目历史行为统计矩阵中的已知数据集合RK中的已知数据上对用户特征矩阵P和项目特征矩阵Q进行迭代训练;表示为公式(4):
其中,Iu表示具备用户u的历史行为统计数据的项目集合,Ui表示具备项目i的历史行为统计数据的用户集合。
4.如权利要求3所述的装置,其特征在于,所述特征数据具体为非负用户行为特征数据,其中,所述非负用户行为特征数据具体包括:用户特征矩阵和项目特征矩阵。
CN201410013846.9A 2014-01-13 2014-01-13 一种特征抽取方法和装置 Active CN103700011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410013846.9A CN103700011B (zh) 2014-01-13 2014-01-13 一种特征抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410013846.9A CN103700011B (zh) 2014-01-13 2014-01-13 一种特征抽取方法和装置

Publications (2)

Publication Number Publication Date
CN103700011A CN103700011A (zh) 2014-04-02
CN103700011B true CN103700011B (zh) 2016-11-23

Family

ID=50361530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410013846.9A Active CN103700011B (zh) 2014-01-13 2014-01-13 一种特征抽取方法和装置

Country Status (1)

Country Link
CN (1) CN103700011B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090932B (zh) * 2014-06-24 2017-10-20 海信集团有限公司 一种内容推荐方法及装置
CN105069741B (zh) * 2015-09-07 2018-01-30 值得看云技术有限公司 一种损坏图像非负隐特征提取装置和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383942A (zh) * 2008-08-01 2009-03-11 深圳市天威视讯股份有限公司 一种隐性用户特征提取方法和电视节目推荐方法和系统
CN103400286A (zh) * 2013-08-02 2013-11-20 世纪禾光科技发展(北京)有限公司 一种基于用户行为进行物品特征标注的推荐系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070230774A1 (en) * 2006-03-31 2007-10-04 Sony Corporation Identifying optimal colors for calibration and color filter array design

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383942A (zh) * 2008-08-01 2009-03-11 深圳市天威视讯股份有限公司 一种隐性用户特征提取方法和电视节目推荐方法和系统
CN103400286A (zh) * 2013-08-02 2013-11-20 世纪禾光科技发展(北京)有限公司 一种基于用户行为进行物品特征标注的推荐系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NMF初始化研究及其在文本分类中的应用;翟亚利 等;《计算机工程》;20080831;第191-193,197页 *
基于非负矩阵分解的中文文本主题分类;张磊 等;《计算机工程》;20090731;第26-27,54页 *

Also Published As

Publication number Publication date
CN103700011A (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN107358293B (zh) 一种神经网络训练方法及装置
Lian et al. Multiple neural networks switched prediction for landslide displacement
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
Giordani et al. Adaptive independent Metropolis–Hastings by fast estimation of mixtures of normals
CN104123377B (zh) 一种微博话题热度预测系统及方法
CN112231584B (zh) 基于小样本迁移学习的数据推送方法、装置及计算机设备
EP3459017A1 (en) Progressive neural networks
CN106897914A (zh) 一种基于主题模型的商品推荐方法及系统
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
CN107622709A (zh) 知识点掌握程度评价方法、介质和电子设备
CN103064903B (zh) 图片检索方法和装置
CN108090229A (zh) 一种基于卷积神经网络确定评分矩阵的方法和装置
CN106970981B (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN108133390A (zh) 用于预测用户行为的方法和装置以及计算设备
CN106789338B (zh) 一种在动态大规模社交网络中发现关键人物的方法
CN103942298B (zh) 基于线性回归的推荐方法及系统
CN104636486B (zh) 一种基于非负交替方向变换的用户特征抽取方法及抽取装置
CN106202377A (zh) 一种基于随机梯度下降的在线协同排序方法
Zhang et al. The empirical likelihood for first-order random coefficient integer-valued autoregressive processes
CN108228684A (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
CN110096652A (zh) 舆情风向标指数计算方法及装置、可读存储介质
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN108805291B (zh) 一种网络表示学习模型的训练方法及服务器
CN103700011B (zh) 一种特征抽取方法和装置
CN104268217B (zh) 一种用户行为时间相关性的确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190619

Address after: 404100 5-storey Building 106, West Jinkai Avenue, Yubei District, Chongqing

Patentee after: Chongqing Zhongke Yuncong Technology Co., Ltd.

Address before: 404100 No. 174 Zhengjie, Shapingba District, Chongqing

Co-patentee before: CHENGDU GKHB INFORMATION TECHNOLOGY CO., LTD.

Patentee before: Chongqing University

TR01 Transfer of patent right