CN109325167A - 特征分析方法、装置、设备、计算机可读存储介质 - Google Patents

特征分析方法、装置、设备、计算机可读存储介质 Download PDF

Info

Publication number
CN109325167A
CN109325167A CN201710640826.8A CN201710640826A CN109325167A CN 109325167 A CN109325167 A CN 109325167A CN 201710640826 A CN201710640826 A CN 201710640826A CN 109325167 A CN109325167 A CN 109325167A
Authority
CN
China
Prior art keywords
feature
characteristic value
group
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710640826.8A
Other languages
English (en)
Other versions
CN109325167B (zh
Inventor
童毅轩
张永伟
董滨
姜珊珊
张佳师
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201710640826.8A priority Critical patent/CN109325167B/zh
Priority to JP2018112480A priority patent/JP6587012B2/ja
Publication of CN109325167A publication Critical patent/CN109325167A/zh
Application granted granted Critical
Publication of CN109325167B publication Critical patent/CN109325167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种特征分析方法、装置、设备、计算机可读存储介质,属于数据处理技术领域。其中,特征分析方法,包括:从特征模板文件中提取出特征提取信息;根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。本发明能够对数据进行特征分析,提取出特征向量。

Description

特征分析方法、装置、设备、计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,特别是指一种特征分析方法、装置、设备、计算机可读存储介质。
背景技术
随着互联网技术的发展,用户通过网站对产品进行多种类型的操作,比如可以通过网站购买产品、浏览产品、评论产品等,当用户通过网站对产品进行多种类型的操作时会产生大量的用户行为数据,通过分析这些用户行为数据可以获知用户的相关行为,进而推断出用户的基本信息及兴趣爱好等,从而进一步可以在用户访问网站时,针对用户的喜好向用户推荐内容;通过分析这些用户行为数据还可以获知产品的实际性能,方便生产厂商对产品进行改进。但是,由于用户行为数据的数据量大,且用户行为数据中包含的信息具有随意性,因此,从用户行为数据中挖掘出关键特征的过程十分复杂。
发明内容
本发明要解决的技术问题是提供一种特征分析方法、装置、设备、计算机可读存储介质,能够对数据进行特征分析,提取出特征向量。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种特征分析方法,包括:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
进一步地,所述从特征模板文件中提取出特征提取信息包括:
加载特征模板文件,验证所述特征模板文件的文件格式;
在所述特征模板文件的格式正确时,从所述特征模板文件中提取出特征提取信息,所述特征提取信息包括维度信息、操作符信息和样本结构信息。
进一步地,所述根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值包括:
根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据;
根据所述样本结构信息将提取出的数据聚合为多个特征组,并根据所述操作符信息对每个特征组中的数据进行相应的操作,生成每一特征组的特征值。
进一步地,所述样本结构信息包括:所述特征向量所需要的维度值、样本级特征的计算方式、特征组的特征值和样本级特征值进行拼接的方式;
所述操作符信息包括:操作符名称、每个操作符的参数列表以及不同操作符之间的关系。
进一步地,所述维度信息包括时间、用户标识和产品标识,所述待处理数据为用户行为数据,所述根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据包括:
从待处理数据中提取出多条用户行为数据,提取出的每一用户行为数据均具有时间、用户标识和产品标识三个维度。
进一步地,所述根据所述样本结构信息将提取出的数据聚合为多个特征组之前,还包括:
根据所述特征向量所需要的维度值对提取出的多条数据进行过滤,去除不包括所述维度值的数据;
所述根据所述样本结构信息将提取出的数据聚合为多个特征组包括:
将过滤后的数据聚合为多个特征组,每个特征组中的数据的维度值均相等。
进一步地,所述根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量包括:
根据所述样本级特征的计算方式利用每一特征组的特征值计算跨特征组的样本级特征值;
根据所述特征组的特征值和样本级特征值进行拼接的方式将各个特征组的特征值和所述样本级特征值进行拼接得到所述特征向量。
本发明实施例还提供了一种特征分析装置,包括:
特征模板解析模块,用于从特征模板文件中提取出特征提取信息;
特征值计算模块,用于根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
特征向量生成模块,用于根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
本发明实施例还提供了一种实现特征分析的电子设备,包括:
处理器;和
存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
本发明的实施例具有以下有益效果:
上述方案中,首先从特征模板文件中提取出特征提取信息,根据提取出的特征提取信息可以将待处理数据聚合为多个特征组,并计算每一特征组的特征值以及跨特征组的样本级特征值,进一步还可以根据特征提取信息将各个特征组的特征值和样本级特征值进行拼接得到特征向量,通过本发明的技术方案,能够对用户行为数据进行特征分析,提取出特征向量,挖掘出用户行为数据的关键特征,进而推断出用户的基本信息及兴趣爱好等。
附图说明
图1为本发明实施例特征分析方法的流程示意图;
图2为本发明实施例从特征模板文件中提取出特征提取信息的流程示意图;
图3为本发明实施例根据特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值的流程示意图;
图4为本发明实施例根据样本结构信息将提取出的数据聚合为多个特征组的流程示意图;
图5为本发明实施例根据特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和样本级特征值进行拼接得到特征向量的流程示意图;
图6为本发明实施例特征分析装置的结构框图;
图7为本发明实施例特征模板解析模块的结构框图;
图8为本发明实施例特征值计算模块的结构框图;
图9为本发明另一实施例特征值计算模块的结构框图;
图10为本发明实施例特征向量生成模块的结构框图;
图11为本发明实施例实现特征分析的电子设备的结构框图;
图12为本发明具体实施例特征分析方法的流程示意图。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例提供一种特征分析方法、装置、设备、计算机可读存储介质,能够对用户行为数据进行特征分析,提取出特征向量。
实施例一
本发明的实施例提供一种特征分析方法,如图1所示,包括:
步骤101:从特征模板文件中提取出特征提取信息;
步骤102:根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
步骤103:根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
本实施例中,首先从特征模板文件中提取出特征提取信息,根据提取出的特征提取信息可以将待处理数据聚合为多个特征组,并计算每一特征组的特征值以及跨特征组的样本级特征值,进一步还可以根据特征提取信息将各个特征组的特征值和样本级特征值进行拼接得到特征向量,通过本发明的技术方案,能够对用户行为数据进行特征分析,提取出特征向量,挖掘出用户行为数据的关键特征,进而推断出用户的基本信息及兴趣爱好等。
作为一个示例,如图2所示,所述步骤101包括:
步骤1011:加载特征模板文件,验证所述特征模板文件的文件格式;
步骤1012:在所述特征模板文件的格式正确时,从所述特征模板文件中提取出特征提取信息,所述特征提取信息包括维度信息、操作符信息和样本结构信息。
作为一个示例,如图3所示,所述步骤102包括:
步骤1021:根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据;
步骤1022:根据所述样本结构信息将提取出的数据聚合为多个特征组,并根据所述操作符信息对每个特征组中的数据进行相应的操作,生成每一特征组的特征值。
进一步地,所述样本结构信息包括:所述特征向量所需要的维度值、样本级特征的计算方式、特征组的特征值和样本级特征值进行拼接的方式;
所述操作符信息包括:操作符名称、每个操作符的参数列表以及不同操作符之间的关系。
进一步地,所述维度信息包括时间、用户标识和产品标识,所述待处理数据为用户行为数据,所述步骤1021具体包括:
从待处理数据中提取出多条用户行为数据,提取出的每一用户行为数据均具有时间、用户标识和产品标识三个维度。
作为一个示例,如图4所示,所述步骤1022之前,所述方法还包括:
步骤1023:根据所述特征向量所需要的维度值对提取出的多条数据进行过滤,去除不包括所述维度值的数据;
所述步骤1022包括:
步骤10221:将过滤后的数据聚合为多个特征组,每个特征组中的数据的维度值均相等。
作为一个示例,如图5所示,所述步骤103包括:
步骤1031:根据所述样本级特征的计算方式利用每一特征组的特征值计算跨特征组的样本级特征值;
步骤1032:根据所述特征组的特征值和样本级特征值进行拼接的方式将各个特征组的特征值和所述样本级特征值进行拼接得到所述特征向量。
实施例二
本发明实施例还提供了一种特征分析装置,如图6所示,包括:
特征模板解析模块21,用于从特征模板文件中提取出特征提取信息;
特征值计算模块22,用于根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
特征向量生成模块23,用于根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
本实施例中,首先从特征模板文件中提取出特征提取信息,根据提取出的特征提取信息可以将待处理数据聚合为多个特征组,并计算每一特征组的特征值以及跨特征组的样本级特征值,进一步还可以根据特征提取信息将各个特征组的特征值和样本级特征值进行拼接得到特征向量,通过本发明的技术方案,能够对用户行为数据进行特征分析,提取出特征向量,挖掘出用户行为数据的关键特征,进而推断出用户的基本信息及兴趣爱好等。
作为一个示例,如图7所示,所述特征模板解析模块21包括:
加载单元211,用于加载特征模板文件,验证所述特征模板文件的文件格式;
特征提取单元212,用于在所述特征模板文件的格式正确时,从所述特征模板文件中提取出特征提取信息,所述特征提取信息包括维度信息、操作符信息和样本结构信息。
作为一个示例,如图8所示,所述特征值计算模块22包括:
数据提取单元221,用于根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据;
聚合单元222,用于根据所述样本结构信息将提取出的数据聚合为多个特征组,并根据所述操作符信息对每个特征组中的数据进行相应的操作,生成每一特征组的特征值。
进一步地,所述样本结构信息包括:所述特征向量所需要的维度值、样本级特征的计算方式、特征组的特征值和样本级特征值进行拼接的方式;
所述操作符信息包括:操作符名称、每个操作符的参数列表以及不同操作符之间的关系。
进一步地,所述维度信息包括时间、用户标识和产品标识,所述待处理数据为用户行为数据,所述数据提取单元221具体用于从待处理数据中提取出多条用户行为数据,提取出的每一用户行为数据均具有时间、用户标识和产品标识三个维度。
进一步地,如图9所示,所述特征值计算模块22还包括:
过滤单元223,用于根据所述特征向量所需要的维度值对提取出的多条数据进行过滤,去除不包括所述维度值的数据;
所述聚合单元222具体用于将过滤后的数据聚合为多个特征组,每个特征组中的数据的维度值均相等。
作为一个示例,如图10所示,所述特征向量生成模块23包括:
特征值计算单元231,用于根据所述样本级特征的计算方式利用每一特征组的特征值计算跨特征组的样本级特征值;
拼接单元232,用于根据所述特征组的特征值和样本级特征值进行拼接的方式将各个特征组的特征值和所述样本级特征值进行拼接得到所述特征向量。
实施例三
本发明实施例还提供了一种实现特征分析的电子设备30,如图11所示,包括:
处理器32;和
存储器34,在所述存储器34中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器32执行以下步骤:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
进一步地,如图11所示,实现特征分析的电子设备30还包括网络接口31、输入设备33、硬盘35、和显示设备36。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(CPU),以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口31,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,例如用户行为数据,并可以保存在硬盘35中。
所述输入设备33,可以接收操作人员输入的各种指令,并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备36,可以将处理器32执行指令获得的结果进行显示。
所述存储器34,用于存储操作系统运行所必须的程序和数据,以及处理器32计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器34可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器34存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统341和应用程序342。
其中,操作系统341,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序342,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。
上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,可以从特征模板文件中提取出特征提取信息;根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
本发明上述实施例揭示的方法可以应用于处理器32中,或者由处理器32实现。处理器32可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34,处理器32读取存储器34中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器32加载特征模板文件,验证所述特征模板文件的文件格式;在所述特征模板文件的格式正确时,从所述特征模板文件中提取出特征提取信息,所述特征提取信息包括维度信息、操作符信息和样本结构信息。
具体地,处理器32根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据;根据所述样本结构信息将提取出的数据聚合为多个特征组,并根据所述操作符信息对每个特征组中的数据进行相应的操作,生成每一特征组的特征值。
进一步地,所述样本结构信息包括:所述特征向量所需要的维度值、样本级特征的计算方式、特征组的特征值和样本级特征值进行拼接的方式;
所述操作符信息包括:操作符名称、每个操作符的参数列表以及不同操作符之间的关系。
具体地,所述维度信息包括时间、用户标识和产品标识,所述待处理数据为用户行为数据,处理器32从待处理数据中提取出多条用户行为数据,提取出的每一用户行为数据均具有时间、用户标识和产品标识三个维度。
具体地,处理器32根据所述特征向量所需要的维度值对提取出的多条数据进行过滤,去除不包括所述维度值的数据;将过滤后的数据聚合为多个特征组,每个特征组中的数据的维度值均相等。
具体地,处理器32根据所述样本级特征的计算方式利用每一特征组的特征值计算跨特征组的样本级特征值;根据所述特征组的特征值和样本级特征值进行拼接的方式将各个特征组的特征值和所述样本级特征值进行拼接得到所述特征向量。
本实施例中,首先从特征模板文件中提取出特征提取信息,根据提取出的特征提取信息可以将待处理数据聚合为多个特征组,并计算每一特征组的特征值以及跨特征组的样本级特征值,进一步还可以根据特征提取信息将各个特征组的特征值和样本级特征值进行拼接得到特征向量,通过本发明的技术方案,能够对用户行为数据进行特征分析,提取出特征向量,挖掘出用户行为数据的关键特征,进而推断出用户的基本信息及兴趣爱好等。
实施例四
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
实施例五
下面以数据为用户行为数据为例,结合附图对本发明的特征分析方法进行进一步介绍,如图12所示,本发明实施例的特征分析方法具体包括以下步骤:
步骤401:加载特征模板文件,验证文件格式的正确性;
其中,特征模板文件可以是预先配置的特征模板文件,也可以是由用户输入的特征模板文件,可以根据预设规则验证特征模板文件的文件格式的正确性,在特征模板文件的文件格式正确时,执行步骤402-407;
步骤402:从特征模板文件中提取维度信息、操作符信息和样本结构信息;
其中,维度信息包括:当前特征生成过程关注哪些信息维度。特征名称决定特征种类,信息维度和特征名称可唯一的确定一个具体特征。一个种类的特征可以从多个信息维度提取,例如:当提取用户行为特征时,除了关注行为的类型,也会关注行为发生的时间和发起人。这种情况下,时间和用户的身份作为维度信息共同约束用户行为这种特征,在特定时间由特定人发出的行为特征即为一个具体特征。
操作符信息即是用一系列操作符语句,描述当前的特征生成过程中每个具体特征如何生成。操作符信息包括:1)操作符名称;2)每个操作符的参数列表;3)不同操作符之间的关系。特征的提取以特征组为单位,每个特征组包含多个操作符语句来描述当前特征组包含哪些具体特征。特征组是一组有相同维度信息的特征,例如:当关注时间和用户身份这两个信息维度时,某个特征组的特征描述由相同的用户在相同的时间上产生的信息。在这种情况下,特征组集合是一个在时间和用户身份维度上的二维集合。对于关注N个信息维度的情况,特征模板描述的将是N维特征集合。为了满足并行化的需求,操作符包含三个部分:Mapping阶段,为所有Reducing阶段前的操作;Reduce阶段,为对相同信息维度数据进行的合并操作;Concluding阶段,为所有Reducing阶段之后的操作。所有的操作符最多只能有一个Reducing阶段,没有Reducing阶段的操作符也没有Concluding阶段。操作符语句可以计算出一个具体的特征,语句中可以包含多个操作符,但是只有一个操作符可以包含Reducing阶段。Reducing阶段中的操作应满足交换律和结合律。
样本结构信息用来描述一个向量化的特征样本(即特征向量)包含的特征组合,具体包括:1)向量化样本需要的特征组集合,即特征向量所需要的维度值;2)特征组的特征值和样本级特征值进行拼接的方式;3)样本级特征的计算方式。
步骤403:从待处理数据中提取出多条用户行为数据;
一具体示例中,用来生成特征向量的原始数据中,每一条用户行为数据记录对应一次用户对特定产品发出的行为,用户行为数据记录的字段有:用户id、产品id、行为时间以及行为类别,关注的信息维度有:时间、用户标识和产品标识,基于这样的设置将生成三维特征组集合。比如用户行为数据的格式可以为(TIME,UID,PID,TYPE),其中,UID为用户标识,PID为产品标识,TYPE为用户行为的操作类型,TIME为用户行为发生的时间。
步骤404:根据特征向量所需要的维度值对提取出的多条用户行为数据进行过滤,去除不包括该维度值的用户行为数据;
在样本结构信息中包括有向量化样本需要的特征组集合,据此可以得知计算特征向量所需要的维度值,去除不包括该维度值的用户行为数据,这样可以减少需要处理的数据量,提高运算效率。例如计算特征向量只需要时间维度为1和2的特征组,则过滤掉时间维度不在1和2上的用户行为数据。
步骤405:将过滤后的用户行为数据聚合为多个特征组,每个特征组中的用户行为数据的维度值均相等;
一具体实施例中,每一用户行为数据均具有时间、用户标识和产品标识三个维度,将三维特征组记为:Group(T,U,P),T、U和P分别对应时间维度,用户标识维度和产品标识维度。T、U和P的可能取值为待处理数据中所有出现过的值,为每个特征组合并数据,得到多个特征组。对于特征组Group(T=t1,U=u1,P=p1)中的所有用户行为数据同时满足:时间维度等于t1,用户标识维度等于u1,产品标识维度等于p1。
步骤406:根据操作符信息对每个特征组中的用户行为数据进行相应的操作,生成每一特征组的特征值;
根据操作符信息决定每个特征组应该进行的操作,并对每个特征组中的用户行为数据执行Mapping阶段和Reducing阶段,产生特征组的特征值。这些特征值可被后续步骤407使用。
对特征向量所需的低维特征组执行相应的Reducing阶段。例如:
如果特征向量计算需要用到特征1:用户A在时间段M浏览产品N的次数,则计算特征向量只需特征组Group(T=M,U=A,P=N)中的用户行为数据。不需要执行Reducing阶段。
如果特征向量计算需要用到特征2:用户A在时间段M浏览所有产品的次数,则计算特征向量需要所有满足时间维度等于M用户标识维度等于A的特征组Group(T=M,U=A),这样在分别计算出多个特征组Group(T=M,U=A,P=N1、)、Group(T=M,U=A,P=N2)、…、Group(T=M,U=A,P=Nk)的特征值之后,还需要执行Reducing阶段将该k个特征组的特征值进行合并,才能得到特征组Group(T=M,U=A)的特征值,其中,k为所有产品的个数。
之后,还可以对各个特征组的特征值执行操作符的Concluding阶段,获得特征组的最终值。
本实施例中,三阶段的运算符结构可以覆盖大量的运算操作,可以作为可并行化的通用运算架构;并且低维特征组重用高维特征组的数据可以减少重复计算,提高系统的效率,可以显著改善运算性能。
步骤407:根据样本级特征的计算方式利用每一特征组的特征值计算跨特征组的样本级特征值;
样本结构信息中包括有样本级特征的计算方式,根据该计算方式可根据每一特征组的特征值计算跨特征组的样本级特征值,例如:可将步骤406中特征1的值除以特征2的值,生成表示用户对产品N偏好程度的新的特征的值,该特征即为跨特征组的样本级特征,该特征的值即为跨特征组的样本级特征值。
步骤408:根据特征组的特征值和样本级特征值进行拼接的方式将各个特征组的特征值和样本级特征值进行拼接得到特征向量。
在样本结构信息中包括有特征组的特征值和样本级特征值进行拼接的方式,根据该拼接方式将计算得到的各个特征组的最终值和样本级特征值拼接成特征向量。
通过本实施例的技术方案,能够对用户行为数据进行特征分析,提取出特征向量,挖掘出用户行为数据的关键特征,进而推断出用户的基本信息及兴趣爱好等。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种特征分析方法,其特征在于,包括:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
2.根据权利要求1所述的特征分析方法,其特征在于,所述从特征模板文件中提取出特征提取信息包括:
加载特征模板文件,验证所述特征模板文件的文件格式;
在所述特征模板文件的格式正确时,从所述特征模板文件中提取出特征提取信息,所述特征提取信息包括维度信息、操作符信息和样本结构信息。
3.根据权利要求2所述的特征分析方法,其特征在于,所述根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值包括:
根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据;
根据所述样本结构信息将提取出的数据聚合为多个特征组,并根据所述操作符信息对每个特征组中的数据进行相应的操作,生成每一特征组的特征值。
4.根据权利要求3所述的特征分析方法,其特征在于,所述样本结构信息包括:所述特征向量所需要的维度值、样本级特征的计算方式、特征组的特征值和样本级特征值进行拼接的方式;
所述操作符信息包括:操作符名称、每个操作符的参数列表以及不同操作符之间的关系。
5.根据权利要求4所述的特征分析方法,其特征在于,所述维度信息包括时间、用户标识和产品标识,所述待处理数据为用户行为数据,所述根据所述维度信息从待处理数据中提取出多条具有所述维度信息对应维度的数据包括:
从待处理数据中提取出多条用户行为数据,提取出的每一用户行为数据均具有时间、用户标识和产品标识三个维度。
6.根据权利要求4所述的特征分析方法,其特征在于,所述根据所述样本结构信息将提取出的数据聚合为多个特征组之前,还包括:
根据所述特征向量所需要的维度值对提取出的多条数据进行过滤,去除不包括所述维度值的数据;
所述根据所述样本结构信息将提取出的数据聚合为多个特征组包括:
将过滤后的数据聚合为多个特征组,每个特征组中的数据的维度值均相等。
7.根据权利要求4所述的特征分析方法,其特征在于,所述根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量包括:
根据所述样本级特征的计算方式利用每一特征组的特征值计算跨特征组的样本级特征值;
根据所述特征组的特征值和样本级特征值进行拼接的方式将各个特征组的特征值和所述样本级特征值进行拼接得到所述特征向量。
8.一种特征分析装置,其特征在于,包括:
特征模板解析模块,用于从特征模板文件中提取出特征提取信息;
特征值计算模块,用于根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
特征向量生成模块,用于根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
9.一种实现特征分析的电子设备,其特征在于,包括:
处理器;和
存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
从特征模板文件中提取出特征提取信息;
根据所述特征提取信息将待处理数据聚合为多个特征组,并计算每一特征组的特征值;
根据所述特征提取信息和每一特征组的特征值计算得到跨特征组的样本级特征值,并将各个特征组的特征值和所述样本级特征值进行拼接得到特征向量。
CN201710640826.8A 2017-07-31 2017-07-31 特征分析方法、装置、设备、计算机可读存储介质 Active CN109325167B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710640826.8A CN109325167B (zh) 2017-07-31 2017-07-31 特征分析方法、装置、设备、计算机可读存储介质
JP2018112480A JP6587012B2 (ja) 2017-07-31 2018-06-13 特徴分析方法、特徴分析装置、電子機器、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710640826.8A CN109325167B (zh) 2017-07-31 2017-07-31 特征分析方法、装置、设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109325167A true CN109325167A (zh) 2019-02-12
CN109325167B CN109325167B (zh) 2022-02-18

Family

ID=65245030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710640826.8A Active CN109325167B (zh) 2017-07-31 2017-07-31 特征分析方法、装置、设备、计算机可读存储介质

Country Status (2)

Country Link
JP (1) JP6587012B2 (zh)
CN (1) CN109325167B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491040A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 信息挖掘方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516815A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 人工智能推荐模型的特征处理方法、装置及电子设备
CN111291230B (zh) * 2020-02-06 2023-09-15 北京奇艺世纪科技有限公司 特征处理方法、装置、电子设备及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
US20120066264A1 (en) * 2008-12-15 2012-03-15 Yanicklo Technology Limited Liability Company Automatic data store architecture detection
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN102982077A (zh) * 2012-10-30 2013-03-20 中国联合网络通信集团有限公司 用户数据处理方法及装置
JP2013068985A (ja) * 2011-09-20 2013-04-18 Canon Inc ベクトル描画装置、ベクトル描画方法及びプログラム
WO2015085916A1 (zh) * 2013-12-10 2015-06-18 中国银联股份有限公司 数据挖掘方法
CN106294338A (zh) * 2015-05-12 2017-01-04 株式会社理光 信息处理方法和信息处理装置
CN106407215A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN106910512A (zh) * 2015-12-18 2017-06-30 株式会社理光 语音文件的分析方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5768006B2 (ja) * 2012-05-15 2015-08-26 日本電信電話株式会社 要約可視化装置、方法、及びプログラム
JP2014232504A (ja) * 2013-05-30 2014-12-11 日本電気株式会社 希少度算出装置、希少度算出方法および希少度算出プログラム
EP3171282A4 (en) * 2014-11-19 2017-12-06 Informex Inc. Data retrieval apparatus, program and recording medium
JP5913722B1 (ja) * 2015-11-26 2016-04-27 株式会社博報堂 情報処理システム及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120066264A1 (en) * 2008-12-15 2012-03-15 Yanicklo Technology Limited Liability Company Automatic data store architecture detection
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
JP2013068985A (ja) * 2011-09-20 2013-04-18 Canon Inc ベクトル描画装置、ベクトル描画方法及びプログラム
CN102982077A (zh) * 2012-10-30 2013-03-20 中国联合网络通信集团有限公司 用户数据处理方法及装置
WO2015085916A1 (zh) * 2013-12-10 2015-06-18 中国银联股份有限公司 数据挖掘方法
CN106294338A (zh) * 2015-05-12 2017-01-04 株式会社理光 信息处理方法和信息处理装置
CN106407215A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN106910512A (zh) * 2015-12-18 2017-06-30 株式会社理光 语音文件的分析方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491040A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 信息挖掘方法及装置
CN114491040B (zh) * 2022-01-28 2022-12-02 北京百度网讯科技有限公司 信息挖掘方法及装置

Also Published As

Publication number Publication date
JP2019029003A (ja) 2019-02-21
JP6587012B2 (ja) 2019-10-09
CN109325167B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN111475513B (zh) 表单生成方法、装置、电子设备及介质
CN110209830A (zh) 实体链接方法、装置、设备、计算机可读存储介质
CN107784063B (zh) 算法的生成方法及终端设备
Lucio et al. Advances in model-driven security
CN109325167A (zh) 特征分析方法、装置、设备、计算机可读存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN111562965A (zh) 基于决策树的页面数据校验方法和装置
CN113592605A (zh) 基于相似产品的产品推荐方法、装置、设备及存储介质
CN111625567A (zh) 数据模型匹配方法、装置、计算机系统及可读存储介质
CN110659998A (zh) 数据处理方法、装置、计算机装置及存储介质
CN111984674A (zh) 结构化查询语言的生成方法及系统
Gheyi et al. Algebraic Laws for Feature Models.
CN112948400A (zh) 一种数据库管理方法、数据库管理装置及终端设备
CN109344050B (zh) 一种基于结构树的接口参数分析方法及装置
CN116168403A (zh) 医疗数据分类模型训练方法、分类方法、装置及相关介质
CN112631719B (zh) 数据预测模型调用方法、装置、设备和存储介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN107506299B (zh) 一种代码分析方法及终端设备
CN113672638A (zh) 一种查询数据的方法、系统及电子设备
CN107680121A (zh) 河道图像的分析方法、装置、设备及计算机可读存储介质
US20110071809A1 (en) Model generation based on a constraint and an initial model
CN112651753A (zh) 基于区块链的智能合约生成方法、系统及电子设备
CN113344674A (zh) 基于用户购买力的产品推荐方法、装置、设备及存储介质
CN113837183B (zh) 基于实时挖掘的多阶段凭证智能生成方法、系统及介质
CN113177784B (zh) 地址类型识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant