CN110795570B - 一种用户时序行为特征提取方法及装置 - Google Patents

一种用户时序行为特征提取方法及装置 Download PDF

Info

Publication number
CN110795570B
CN110795570B CN201910962997.1A CN201910962997A CN110795570B CN 110795570 B CN110795570 B CN 110795570B CN 201910962997 A CN201910962997 A CN 201910962997A CN 110795570 B CN110795570 B CN 110795570B
Authority
CN
China
Prior art keywords
behavior
time
data
behavior data
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910962997.1A
Other languages
English (en)
Other versions
CN110795570A (zh
Inventor
李君浩
胡宏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shanghu Information Technology Co ltd
Original Assignee
Shanghai Shanghu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shanghu Information Technology Co ltd filed Critical Shanghai Shanghu Information Technology Co ltd
Priority to CN201910962997.1A priority Critical patent/CN110795570B/zh
Publication of CN110795570A publication Critical patent/CN110795570A/zh
Application granted granted Critical
Publication of CN110795570B publication Critical patent/CN110795570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户时序行为特征提取方法及装置,其中方法包括:根据一定的时间段内的单个用户在各页面中的各行为数据以及各行为数据的时间戳,构建行为字典,行为字典包括:页面信息、与页面信息对应的行为数据以及与行为数据对应的行为用时;对多个用户的行为字典做时间归一化和时间离散化处理,利用处理后的行为字典构建行为语料库;基于行为语料库,利用TF‑IDF特征提取方法,生成用户时序行为特征向量。本发明将用户在不同页面的不同行为的耗时融入到行为字典中,使得不同用户的相同行为存在差异,更准确地进行特征提取。

Description

一种用户时序行为特征提取方法及装置
技术领域
本发明涉及特征提取技术领域,特别涉及一种用户时序行为特征提取方法及装置。
背景技术
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此在移动应用中TF-IDF通常用来分析用户行为数据,基于TF-IDF方法提取用户行为特征向量,一般的用户行为特征向量的提取仅以行为数据为基础,很少参考操作行为的用时。一旦用户操作行为一直时很难将用户区分开来,而用户的操作用时往往能够传递很多信息,例如同样的操作行为,不同用户的操作用时的差异可能能够区分出用户是对页面的熟悉程度、是否是本人操作等信息。因此,现有技术中仅以用户行为数据作为特征提取基础的特征提取方法存在反应情况片面难以区分操作行为一致的用户的情况。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种用户时序行为特征提取方法。所述技术方案如下:
一方面,提供了一种用户时序行为特征提取方法,所述方法包括:
根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。
进一步地,所述根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典的步骤包括:
根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳;
将所述时间戳对应地插入所述基础行为字典中的各行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典。
进一步地,在所述生成行为序列后,所述构建行为字典的步骤还包括:
计算相邻所述行为数据的时间间隔;
判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据,删除所述无效行为数据。
进一步地,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述页面信息和所述行为数据以及所述行为用时,进行拼接生成字符串;
按照所述行为用时对所述字符串进行分桶,得到行为用时离散化的所述字符串。
进一步地,在所述统计各页面的行为数据以及与所述行为数据对应的行为用时后,所述构建行为字典的步骤还包括:
按照流程步骤划分所述页面,统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。
进一步地,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述步骤和所述行为数据以及所述步骤用时进行拼接,生成字符串;
按照所述步骤用时对所述字符串进行分桶,得到所述步骤用时离散化的所述字符串。
进一步地,所述基于TF-IDF特征提取方法,利用所述行为语料库,生成用户时序行为特征向量的步骤包括:
利用所述行为语料库,统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数,计算所述IDF的值;
分别计算每个所述字符串的TF值,将TF*IDF,生成了每个用户的时序行为特征向量。
另一方面,提供了一种用户时序行为特征提取装置,所述装置包括:
行为字典构建模块,用于根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
语料库构建模块,用于对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
特征向量生成模块,用于基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。
进一步地,所述行为字典构建模块包括:
基础行为字典构建模块,用于根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
数据获取模块,用于在一定的时间段内从日志数据中获取的与所述各页面中各行为数据对应的时间戳;
行为序列生成模块,用于将所述时间戳对应地插入所述基础行为字典中的各行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计模块,统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典。
进一步地,所述行为字典构建模块还包括:
无效数据整理及删除模块,用于计算相邻所述行为数据的时间间隔,判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据,删除所述无效行为数据。
进一步地,所述语料库构建模块包括:处理模块,用于将所述页面信息和所述行为数据以及所述行为用时,进行拼接生成字符串;按照所述行为用时对所述字符串进行分桶,得到行为用时离散化的所述字符串。
进一步地,所述行为字典构建模块还包括:
步骤划分模块,用于按照流程步骤划分页面,统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。
进一步地,所述处理模块,还用于将所述步骤和所述行为数据以及所述步骤用时进行拼接,生成字符串;按照所述步骤用时对所述字符串进行分桶,得到所述步骤用时离散化的所述字符串。
进一步地,所述特征向量生成模块包括:
IDF计算模块,用于利用所述行为语料库,统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数,计算所述IDF的值;
TF计算模块,用于分别计算每个所述字符串的TF值;
特征向量计算模块,用于将TF*IDF,生成了每个用户的时序行为特征向量。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明将用户在不同页面的不同行为的耗时融入到行为字典中,使得不同用户的相同行为存在差异,更准确地进行特征提取;
2、本发明能够实现以页面为单位或者以流程步骤为单位的两种用户行为特征提取,实施方法灵活、计算过程简洁。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用户时序行为特征提取方法流程图;
图2是本发明实施例提供的以页面为单位构建行为字典方法流程图;
图3是本发明实施例提供的以页面为步骤构建行为字典方法流程图;
图4是本发明实施例提供的一种用户时序行为特征提取装置模块示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的网站或者应用客户端均是由一个个页面,按照一定的顺序,流程组成的,每个页面都承载了用户浏览,完成一定的信息录入,或者点击不同的按钮等操作行为,现有技术可以基于这些操作行为进行特征提取,然而当用户操作行为一致时,仅以操作行为提取出的特征难以将用户区分开,因此本发明实施例融入行为用时,结合TF-IDF特征提取方法公开了一种用户时序行为特征提取方法及装置。
如图1所示,一种用户时序行为特征提取方法,所述方法包括:
根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。
需要说明的是,上述方法中页面信息包括:页面名称、URL地址等能够唯一标识页面的标记中的任意一个或多个。行为数据与页面对应,即为在该页面上发生的行为数据,包括:浏览费率、点击还款、信息录入、活体认证、上传身份证等包括行为动作以及动作具体内容对象的数据。行为用时与在该页面上发生的各行为数据对应。行为字典为包括:{页面:行为数据:行为用时}的信息。行为字典为单个用户的行为字典,把多个用户的行为字典做处理后便构建成行为语料库,因此行为语料库为多个{页面:行为数据:行为用时}经过归一化和离散化处理后构建的信息集合。
如图2所示,上述方法中,根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典的步骤包括:
根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳;
将所述时间戳对应地插入所述基础行为字典中的各行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典。
需要说明的是,基础行为字典仅包括流程步骤中所有的{页面:行为数据}。获取与各行为数据对应的时间戳后,将时间戳插入基础行为字典中对应的{页面:行为数据}中,形成{页面:行为数据:时间戳},按照时间顺序生成行为序列后根据时间戳计算出操作行为的用时,从而构建行为字典。上述方法是按照行为数据统计用时,构建行为字典,可以精确地判断各操作行为的耗时情况,后续地可以基于各个具体的操作行为进行特征向量的提取。
上述方法中获取页面上发生的行为数据时,可能会获取到误操作、恶意的重复操作等无效操作的行为数据,因此为了排除这些无效操作的行为数据,在生成行为序列后,生成行为字典的步骤还包括:
计算相邻所述行为数据的时间间隔;
判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据,删除所述无效行为数据。
一般认为当相邻的两个行为数据发生的时间间隔过短时,可能是用户很快意识到误操作后的重新操作,或者是用户恶意的重复操作等无效操作行为,因此通过相邻两个行为数据的发生的时间间隔判断无效操作的行为数据,能够基本准确地对无效操作进行识别。方法中的标准阈值可以根据流程步骤中各操作行为的具体情况设定。
构建行为语料库时在完成行为字典的构建后进行,其中,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述页面信息和所述行为数据以及所述行为用时进行拼接,生成字符串;
按照所述行为用时对所述字符串进行分桶,得到行为用时离散化的所述字符串。
上述方法中,由{页面:行为数据:行为用时}拼接后生成的字符串同样包含页面信息、行为数据和行为用时,如果直接使用,可能使数据在行为用时上的排布变得很稀疏,因此为了减少数据的稀疏性,需要根据行为用时对数据进行离散化处理。本发明实施例中采用的离散化操作为分桶处理。事先定义好每个桶的上下界,最后得到{页面:行为数据:离散化的行为用时}。
如图3所示,作为另一种情况的,在计算出操作行为的用时后构建行为字典的步骤还包括:
按照流程步骤划分所述页面,统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。从而形成{步骤:行为数据:步骤用时}的信息。需要注意的是此处的用时是指完成一个步骤的总用时,是所有行为数据用时之和。
此过程是在按照行为数据统计用时的基础上进一步按照步骤统计用时,和上述按照行为数据统计用时相比,按照步骤统计用时数据量更小,计算简单。
相应地,在完成行为字典的构建后,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述步骤和所述行为数据以及所述步骤用时进行拼接,生成字符串;
按照所述步骤用时对所述字符串进行分桶,得到所述步骤用时离散化的所述字符串。最后得到{步骤:行为数据:离散化的步骤用时}
上述实际提供了两种行为字典,第一种是根据页面信息、行为数据、行为用时构建的行为字典,第二种是在第一种的基础上对数据进一步进行处理构建出的包括步骤、行为数据和步骤用时的行为字典,因此对两种行为字典需要分别做时间归一化和时间离散化处理得到字符串,构建出行为语料库。
最后,进行用户时序行为特征提取时,基于前述构建的行为语料库,采用TF-IDF特征提取方法提取特征向量。具体包括:
利用所述行为语料库,统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数,计算所述IDF的值;
分别计算每个所述字符串的TF值,将TF*IDF,生成了每个用户的时序行为特征向量。
语料库中包含了所有用户在多个页面上的行为数据和行为用时,或者包含了所有用户在多个步骤上的行为数据和步骤用时,将每个用户在多个页面上的行为数据和行为用时的字符串放在一个文档中,或者将每个用户在多个步骤上的行为数据和行为用时的字符串放在一个文档中,则有多少个用户,语料库中就包含多少的文档。
那么,IDF值的计算公式如下:
IDF=log(语料库的文档总数/(包含字符串的文档数+1))
TF值的计算公式如下:
TF=每个文档中各个字符串出现的次数/该文档中所有字符串的总数
分别计算出IDF值和TF值后,将二者相乘,得出用户时序行为特征向量。
本发明实施例公开的用户时序行为特征向量提取方法,基于页面信息、行为数据和行为用时提取用户行为特征,便于后续从行为用时方面区别用户。并且,本发明实施例还进一步地提供了从步骤、行为数据和步骤用时提取用户行为特征,便于后续快速地从步骤操作方面区别用户。
如图4所示,基于上述方法,本发明实施例还提供了一种用户时序行为特征提取装置,包括:
行为字典构建模块,用于根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
语料库构建模块,用于对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
特征向量生成模块,用于基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。
其中,所述行为字典构建模块包括:
基础行为字典构建模块,用于根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
数据获取模块,用于在一定的时间段内从日志数据中获取的与所述各页面中各行为数据对应的时间戳;
行为序列生成模块,用于将所述时间戳对应地插入所述基础行为字典中的行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计模块,统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典;
无效数据整理及删除模块,用于计算相邻所述行为数据的时间间隔,判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据,删除所述无效行为数据。
语料库构建模块包括:处理模块,用于将所述页面信息和所述行为数据以及所述行为用时,进行拼接生成字符串;按照所述行为用时对所述字符串进行分桶,得到行为用时离散化的所述字符串。
作为另一种情况的,在根据在一定的时间段内获取的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳后,所述行为字典构建模块还包括:
步骤划分模块,用于按照流程步骤划分页面,统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。
相应地,处理模块,还用于将所述步骤和所述行为数据以及所述步骤用时进行拼接,生成字符串;按照所述步骤用时对所述字符串进行分桶,得到所述步骤用时离散化的所述字符串。
特征向量生成模块包括:
IDF计算模块,用于利用所述行为语料库,统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数,计算所述IDF的值;
TF计算模块,用于分别计算每个所述字符串的TF值;
特征向量计算模块,用于将TF*IDF,生成了每个用户的时序行为特征向量。
其中,IDF值的计算公式如下:
IDF=log(语料库的文档总数/(包含字符串的文档数+1))
TF值的计算公式如下:
TF=在某一类中字符串出现的次数/该类中所有的字符串的数目
分别计算出IDF值和TF值后,将二者相乘,得出用户时序行为特征向量。
本发明实施例公开的用户时序行为特征向量提取装置,能够实现上述用户时序行为特征向量的提取方法。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明将用户在不同页面的不同行为的耗时融入到行为字典中,使得不同用户的相同行为存在差异,更准确地进行特征提取;
2、本发明能够实现以页面为单位或者以流程步骤为单位的两种用户行为特征提取,实施方法灵活、计算过程简洁。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用户时序行为特征提取方法,其特征在于,包括:
根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量;
对多个用户的所述行为字典做时间归一化和时间离散化处理,包括:将所述页面信息和所述行为数据以及所述行为用时,进行拼接生成字符串;
基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量,包括:利用所述行为语料库,统计每个所述字符串出现在所述行为语料库中的用户个数以及用户总数,计算所述IDF的值;分别计算每个所述字符串的TF值,将TF*IDF,生成了每个用户的时序行为特征向量。
2.如权利要求1所述的一种用户时序行为特征提取方法,其特征在于,所述根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典的步骤包括:
根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳;
将所述时间戳对应地插入所述基础行为字典中的各行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典。
3.如权利要求2所述的一种用户时序行为特征提取方法,其特征在于,在所述生成行为序列后,所述构建行为字典的步骤还包括:
计算相邻所述行为数据的时间间隔;
判定所述时间间隔小于标准阈值的所述行为数据为无效行为数据,删除所述无效行为数据。
4.如权利要求1所述的一种用户时序行为特征提取方法,其特征在于,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
按照所述行为用时对所述字符串进行分桶,得到行为用时离散化的所述字符串。
5.如权利要求2所述的一种用户时序行为特征提取方法,其特征在于,在所述统计各页面的行为数据以及与所述行为数据对应的行为用时后,所述构建行为字典的步骤还包括:
按照流程步骤划分所述页面,统计各步骤下的页面的行为数据以及与所述各步骤对应的步骤用时。
6.如权利要求5所述的一种用户时序行为特征提取方法,其特征在于,对多个用户的所述行为字典做时间归一化处理和时间离散化处理包括:
将所述步骤和所述行为数据以及所述步骤用时进行拼接,生成字符串;
按照所述步骤用时对所述字符串进行分桶,得到所述步骤用时离散化的所述字符串。
7.基于权利要求1~6任意一项所述方法建立的一种用户时序行为特征提取装置,其特征在于,包括:
行为字典构建模块,根据一定的时间段内的单个用户在各页面中的各行为数据以及所述各行为数据的时间戳,构建行为字典,所述行为字典包括:页面信息、与所述页面信息对应的行为数据以及与所述行为数据对应的行为用时;
语料库构建模块,用于对多个用户的所述行为字典做时间归一化和时间离散化处理,利用处理后的所述行为字典构建行为语料库;
特征向量生成模块,用于基于所述行为语料库,利用TF-IDF特征提取方法,生成用户时序行为特征向量。
8.如权利要求7所述的一种用户时序行为特征提取装置,其特征在于,所述行为字典构建模块包括:
基础行为字典构建模块,用于根据所述页面信息区分页面,获取各页面中的各行为数据,形成基础行为字典;
数据获取模块,用于在一定的时间段内从日志数据中获取与所述各页面中各行为数据对应的时间戳;
行为序列生成模块,用于将所述时间戳对应地插入所述基础行为字典中的各行为数据中,按照时间顺序对所述行为数据排序,生成行为序列;
统计模块,统计各页面的行为数据以及与所述行为数据对应的行为用时,构建出所述行为字典。
9.如权利要求7所述的一种用户时序行为特征提取装置,其特征在于,所述特征向量生成模块包括:
IDF计算模块,用于利用所述行为语料库,统计每个字符串出现在所述行为语料库中的用户个数以及用户总数,计算所述IDF的值;
TF计算模块,用于分别计算每个所述字符串的TF值;
特征向量计算模块,用于将TF*IDF,生成了每个用户的时序行为特征向量。
CN201910962997.1A 2019-10-11 2019-10-11 一种用户时序行为特征提取方法及装置 Active CN110795570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910962997.1A CN110795570B (zh) 2019-10-11 2019-10-11 一种用户时序行为特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910962997.1A CN110795570B (zh) 2019-10-11 2019-10-11 一种用户时序行为特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN110795570A CN110795570A (zh) 2020-02-14
CN110795570B true CN110795570B (zh) 2022-06-17

Family

ID=69439221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910962997.1A Active CN110795570B (zh) 2019-10-11 2019-10-11 一种用户时序行为特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN110795570B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949867A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 跨app的用户行为分析模型训练方法、分析方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN108363804A (zh) * 2018-03-01 2018-08-03 浙江工业大学 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN109492156A (zh) * 2018-10-24 2019-03-19 宿州元化信息科技有限公司 一种文献推送方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589056B2 (en) * 2011-04-05 2017-03-07 Microsoft Technology Licensing Llc User information needs based data selection
CN103914494B (zh) * 2013-01-09 2017-05-17 北大方正集团有限公司 一种微博用户身份识别方法及系统
CN103150374B (zh) * 2013-03-11 2017-02-08 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103440329B (zh) * 2013-09-04 2016-05-18 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105373614B (zh) * 2015-11-24 2018-09-28 中国科学院深圳先进技术研究院 一种基于用户账号的子用户识别方法及系统
CN107704482A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 方法、装置以及程序
CN107528832B (zh) * 2017-08-04 2020-07-07 北京中晟信达科技有限公司 一种面向系统日志的基线构建与未知异常行为检测方法
CN107609147B (zh) * 2017-09-20 2021-03-30 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和系统
CN110096499B (zh) * 2019-04-10 2021-08-10 华南理工大学 一种基于行为时间序列大数据的用户对象识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156436A (zh) * 2014-08-13 2014-11-19 福州大学 一种社交云媒体协同过滤推荐方法
CN108363804A (zh) * 2018-03-01 2018-08-03 浙江工业大学 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN109492156A (zh) * 2018-10-24 2019-03-19 宿州元化信息科技有限公司 一种文献推送方法及装置

Also Published As

Publication number Publication date
CN110795570A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN107239440B (zh) 一种垃圾文本识别方法和装置
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN109472207B (zh) 情绪识别方法、装置、设备及存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
Riadi Detection of cyberbullying on social media using data mining techniques
CN108628822B (zh) 无语义文本的识别方法及装置
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN110795570B (zh) 一种用户时序行为特征提取方法及装置
CN107357782B (zh) 一种识别用户性别的方法及终端
CN102737045B (zh) 一种相关度计算方法和装置
CN111563212A (zh) 一种内链添加方法及装置
US11829715B2 (en) Text-based news significance evaluation method, apparatus, and electronic device
CN112650919B (zh) 实体资讯分析方法、装置、设备及存储介质
CN104076945B (zh) 用于在终端中显示输入键盘的装置和方法
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN111553156B (zh) 一种关键词提取方法、装置及设备
CN115130455A (zh) 文章处理方法、装置、电子设备以及存储介质
CN106446696A (zh) 一种信息处理方法及电子设备
CN109783649B (zh) 一种领域词典生成方法及装置
CN113691525A (zh) 一种流量数据处理方法、装置、设备及存储介质
CN112257408A (zh) 一种文本对比的方法及相关装置
CN103389800A (zh) 一种生成词条的方法和装置
Benedetto et al. Zipping out relevant information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant