CN110795570B

CN110795570B - 一种用户时序行为特征提取方法及装置

Info

Publication number: CN110795570B
Application number: CN201910962997.1A
Authority: CN
Inventors: 李君浩; 胡宏辉
Original assignee: Shanghai Shanghu Information Technology Co ltd
Current assignee: Shanghai Shanghu Information Technology Co ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2022-06-17
Anticipated expiration: 2039-10-11
Also published as: CN110795570A

Abstract

本发明公开了一种用户时序行为特征提取方法及装置，其中方法包括：根据一定的时间段内的单个用户在各页面中的各行为数据以及各行为数据的时间戳，构建行为字典，行为字典包括：页面信息、与页面信息对应的行为数据以及与行为数据对应的行为用时；对多个用户的行为字典做时间归一化和时间离散化处理，利用处理后的行为字典构建行为语料库；基于行为语料库，利用TF‑IDF特征提取方法，生成用户时序行为特征向量。本发明将用户在不同页面的不同行为的耗时融入到行为字典中，使得不同用户的相同行为存在差异，更准确地进行特征提取。

Description

一种用户时序行为特征提取方法及装置

技术领域

本发明涉及特征提取技术领域，特别涉及一种用户时序行为特征提取方法及装置。

背景技术

TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。因此在移动应用中TF-IDF通常用来分析用户行为数据，基于TF-IDF方法提取用户行为特征向量，一般的用户行为特征向量的提取仅以行为数据为基础，很少参考操作行为的用时。一旦用户操作行为一直时很难将用户区分开来，而用户的操作用时往往能够传递很多信息，例如同样的操作行为，不同用户的操作用时的差异可能能够区分出用户是对页面的熟悉程度、是否是本人操作等信息。因此，现有技术中仅以用户行为数据作为特征提取基础的特征提取方法存在反应情况片面难以区分操作行为一致的用户的情况。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种用户时序行为特征提取方法。所述技术方案如下：

一方面，提供了一种用户时序行为特征提取方法，所述方法包括：

根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳，构建行为字典，所述行为字典包括：页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时；

对多个用户的所述行为字典做时间归一化和时间离散化处理，利用处理后的所述行为字典构建行为语料库；

基于所述行为语料库，利用TF-IDF特征提取方法，生成用户时序行为特征向量。

进一步地，所述根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳，构建行为字典的步骤包括：

根据所述页面信息区分页面，获取各页面中的各行为数据，形成基础行为字典；

在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳；

将所述时间戳对应地插入所述基础行为字典中的各行为数据中，按照时间顺序对所述行为数据排序，生成行为序列；

统计各页面的行为数据以及与所述行为数据对应的行为用时，构建出所述行为字典。

进一步地，在所述生成行为序列后，所述构建行为字典的步骤还包括：

计算相邻所述行为数据的时间间隔；

判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据，删除所述无效行为数据。

进一步地，对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括：

将所述页面信息和所述行为数据以及所述行为用时，进行拼接生成字符串；

按照所述行为用时对所述字符串进行分桶，得到行为用时离散化的所述字符串。

进一步地，在所述统计各页面的行为数据以及与所述行为数据对应的行为用时后，所述构建行为字典的步骤还包括：

按照流程步骤划分所述页面，统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。

将所述步骤和所述行为数据以及所述步骤用时进行拼接，生成字符串；

按照所述步骤用时对所述字符串进行分桶，得到所述步骤用时离散化的所述字符串。

进一步地，所述基于TF-IDF特征提取方法，利用所述行为语料库，生成用户时序行为特征向量的步骤包括：

利用所述行为语料库，统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数，计算所述IDF的值；

分别计算每个所述字符串的TF值，将TF*IDF，生成了每个用户的时序行为特征向量。

另一方面，提供了一种用户时序行为特征提取装置，所述装置包括：

行为字典构建模块，用于根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳，构建行为字典，所述行为字典包括：页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时；

语料库构建模块，用于对多个用户的所述行为字典做时间归一化和时间离散化处理，利用处理后的所述行为字典构建行为语料库；

特征向量生成模块，用于基于所述行为语料库，利用TF-IDF特征提取方法，生成用户时序行为特征向量。

进一步地，所述行为字典构建模块包括：

基础行为字典构建模块，用于根据所述页面信息区分页面，获取各页面中的各行为数据，形成基础行为字典；

数据获取模块，用于在一定的时间段内从日志数据中获取的与所述各页面中各行为数据对应的时间戳；

行为序列生成模块，用于将所述时间戳对应地插入所述基础行为字典中的各行为数据中，按照时间顺序对所述行为数据排序，生成行为序列；

统计模块，统计各页面的行为数据以及与所述行为数据对应的行为用时，构建出所述行为字典。

进一步地，所述行为字典构建模块还包括：

无效数据整理及删除模块，用于计算相邻所述行为数据的时间间隔，判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据，删除所述无效行为数据。

进一步地，所述语料库构建模块包括：处理模块，用于将所述页面信息和所述行为数据以及所述行为用时，进行拼接生成字符串；按照所述行为用时对所述字符串进行分桶，得到行为用时离散化的所述字符串。

进一步地，所述行为字典构建模块还包括：

步骤划分模块，用于按照流程步骤划分页面，统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。

进一步地，所述处理模块，还用于将所述步骤和所述行为数据以及所述步骤用时进行拼接，生成字符串；按照所述步骤用时对所述字符串进行分桶，得到所述步骤用时离散化的所述字符串。

进一步地，所述特征向量生成模块包括：

IDF计算模块，用于利用所述行为语料库，统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数，计算所述IDF的值；

TF计算模块，用于分别计算每个所述字符串的TF值；

特征向量计算模块，用于将TF*IDF，生成了每个用户的时序行为特征向量。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明将用户在不同页面的不同行为的耗时融入到行为字典中，使得不同用户的相同行为存在差异，更准确地进行特征提取；

2、本发明能够实现以页面为单位或者以流程步骤为单位的两种用户行为特征提取，实施方法灵活、计算过程简洁。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用户时序行为特征提取方法流程图；

图2是本发明实施例提供的以页面为单位构建行为字典方法流程图；

图3是本发明实施例提供的以页面为步骤构建行为字典方法流程图；

图4是本发明实施例提供的一种用户时序行为特征提取装置模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的网站或者应用客户端均是由一个个页面，按照一定的顺序，流程组成的，每个页面都承载了用户浏览，完成一定的信息录入，或者点击不同的按钮等操作行为，现有技术可以基于这些操作行为进行特征提取，然而当用户操作行为一致时，仅以操作行为提取出的特征难以将用户区分开，因此本发明实施例融入行为用时，结合TF-IDF特征提取方法公开了一种用户时序行为特征提取方法及装置。

如图1所示，一种用户时序行为特征提取方法，所述方法包括：

需要说明的是，上述方法中页面信息包括：页面名称、URL地址等能够唯一标识页面的标记中的任意一个或多个。行为数据与页面对应，即为在该页面上发生的行为数据，包括：浏览费率、点击还款、信息录入、活体认证、上传身份证等包括行为动作以及动作具体内容对象的数据。行为用时与在该页面上发生的各行为数据对应。行为字典为包括：{页面：行为数据：行为用时}的信息。行为字典为单个用户的行为字典，把多个用户的行为字典做处理后便构建成行为语料库，因此行为语料库为多个{页面：行为数据：行为用时}经过归一化和离散化处理后构建的信息集合。

如图2所示，上述方法中，根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳，构建行为字典的步骤包括：

需要说明的是，基础行为字典仅包括流程步骤中所有的{页面：行为数据}。获取与各行为数据对应的时间戳后，将时间戳插入基础行为字典中对应的{页面：行为数据}中，形成{页面：行为数据：时间戳}，按照时间顺序生成行为序列后根据时间戳计算出操作行为的用时，从而构建行为字典。上述方法是按照行为数据统计用时，构建行为字典，可以精确地判断各操作行为的耗时情况，后续地可以基于各个具体的操作行为进行特征向量的提取。

上述方法中获取页面上发生的行为数据时，可能会获取到误操作、恶意的重复操作等无效操作的行为数据，因此为了排除这些无效操作的行为数据，在生成行为序列后，生成行为字典的步骤还包括：

计算相邻所述行为数据的时间间隔；

一般认为当相邻的两个行为数据发生的时间间隔过短时，可能是用户很快意识到误操作后的重新操作，或者是用户恶意的重复操作等无效操作行为，因此通过相邻两个行为数据的发生的时间间隔判断无效操作的行为数据，能够基本准确地对无效操作进行识别。方法中的标准阈值可以根据流程步骤中各操作行为的具体情况设定。

构建行为语料库时在完成行为字典的构建后进行，其中，对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括：

将所述页面信息和所述行为数据以及所述行为用时进行拼接，生成字符串；

上述方法中，由{页面：行为数据：行为用时}拼接后生成的字符串同样包含页面信息、行为数据和行为用时，如果直接使用，可能使数据在行为用时上的排布变得很稀疏，因此为了减少数据的稀疏性，需要根据行为用时对数据进行离散化处理。本发明实施例中采用的离散化操作为分桶处理。事先定义好每个桶的上下界，最后得到{页面：行为数据：离散化的行为用时}。

如图3所示，作为另一种情况的，在计算出操作行为的用时后构建行为字典的步骤还包括：

按照流程步骤划分所述页面，统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。从而形成{步骤：行为数据：步骤用时}的信息。需要注意的是此处的用时是指完成一个步骤的总用时，是所有行为数据用时之和。

此过程是在按照行为数据统计用时的基础上进一步按照步骤统计用时，和上述按照行为数据统计用时相比，按照步骤统计用时数据量更小，计算简单。

相应地，在完成行为字典的构建后，对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括：

按照所述步骤用时对所述字符串进行分桶，得到所述步骤用时离散化的所述字符串。最后得到{步骤：行为数据：离散化的步骤用时}

上述实际提供了两种行为字典，第一种是根据页面信息、行为数据、行为用时构建的行为字典，第二种是在第一种的基础上对数据进一步进行处理构建出的包括步骤、行为数据和步骤用时的行为字典，因此对两种行为字典需要分别做时间归一化和时间离散化处理得到字符串，构建出行为语料库。

最后，进行用户时序行为特征提取时，基于前述构建的行为语料库，采用TF-IDF特征提取方法提取特征向量。具体包括：

语料库中包含了所有用户在多个页面上的行为数据和行为用时，或者包含了所有用户在多个步骤上的行为数据和步骤用时，将每个用户在多个页面上的行为数据和行为用时的字符串放在一个文档中，或者将每个用户在多个步骤上的行为数据和行为用时的字符串放在一个文档中，则有多少个用户，语料库中就包含多少的文档。

那么，IDF值的计算公式如下：

IDF＝log(语料库的文档总数/(包含字符串的文档数+1))

TF值的计算公式如下：

TF＝每个文档中各个字符串出现的次数/该文档中所有字符串的总数

分别计算出IDF值和TF值后，将二者相乘，得出用户时序行为特征向量。

本发明实施例公开的用户时序行为特征向量提取方法，基于页面信息、行为数据和行为用时提取用户行为特征，便于后续从行为用时方面区别用户。并且，本发明实施例还进一步地提供了从步骤、行为数据和步骤用时提取用户行为特征，便于后续快速地从步骤操作方面区别用户。

如图4所示，基于上述方法，本发明实施例还提供了一种用户时序行为特征提取装置，包括：

其中，所述行为字典构建模块包括：

行为序列生成模块，用于将所述时间戳对应地插入所述基础行为字典中的行为数据中，按照时间顺序对所述行为数据排序，生成行为序列；

统计模块，统计各页面的行为数据以及与所述行为数据对应的行为用时，构建出所述行为字典；

语料库构建模块包括：处理模块，用于将所述页面信息和所述行为数据以及所述行为用时，进行拼接生成字符串；按照所述行为用时对所述字符串进行分桶，得到行为用时离散化的所述字符串。

作为另一种情况的，在根据在一定的时间段内获取的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳后，所述行为字典构建模块还包括：

相应地，处理模块，还用于将所述步骤和所述行为数据以及所述步骤用时进行拼接，生成字符串；按照所述步骤用时对所述字符串进行分桶，得到所述步骤用时离散化的所述字符串。

特征向量生成模块包括：

TF计算模块，用于分别计算每个所述字符串的TF值；

其中，IDF值的计算公式如下：

IDF＝log(语料库的文档总数/(包含字符串的文档数+1))

TF值的计算公式如下：

TF＝在某一类中字符串出现的次数/该类中所有的字符串的数目

本发明实施例公开的用户时序行为特征向量提取装置，能够实现上述用户时序行为特征向量的提取方法。

本发明实施例提供的技术方案带来的有益效果是：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户时序行为特征提取方法，其特征在于，包括：

基于所述行为语料库，利用TF-IDF特征提取方法，生成用户时序行为特征向量；

对多个用户的所述行为字典做时间归一化和时间离散化处理，包括：将所述页面信息和所述行为数据以及所述行为用时，进行拼接生成字符串；

基于所述行为语料库，利用TF-IDF特征提取方法，生成用户时序行为特征向量，包括：利用所述行为语料库，统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数，计算所述IDF的值；分别计算每个所述字符串的TF值，将TF*IDF，生成了每个用户的时序行为特征向量。

2.如权利要求1所述的一种用户时序行为特征提取方法，其特征在于，所述根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳，构建行为字典的步骤包括：

3.如权利要求2所述的一种用户时序行为特征提取方法，其特征在于，在所述生成行为序列后，所述构建行为字典的步骤还包括：

计算相邻所述行为数据的时间间隔；

4.如权利要求1所述的一种用户时序行为特征提取方法，其特征在于，对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括：

5.如权利要求2所述的一种用户时序行为特征提取方法，其特征在于，在所述统计各页面的行为数据以及与所述行为数据对应的行为用时后，所述构建行为字典的步骤还包括：

6.如权利要求5所述的一种用户时序行为特征提取方法，其特征在于，对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括：

7.基于权利要求1～6任意一项所述方法建立的一种用户时序行为特征提取装置，其特征在于，包括：

行为字典构建模块，根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳，构建行为字典，所述行为字典包括：页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时；

8.如权利要求7所述的一种用户时序行为特征提取装置，其特征在于，所述行为字典构建模块包括：

数据获取模块，用于在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳；

9.如权利要求7所述的一种用户时序行为特征提取装置，其特征在于，所述特征向量生成模块包括：

IDF计算模块，用于利用所述行为语料库，统计每个字符串出现在所述行为语料库中的用户个数以及用户总数，计算所述IDF的值；

TF计算模块，用于分别计算每个所述字符串的TF值；