CN106202498A

CN106202498A - 一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法

Info

Publication number: CN106202498A
Application number: CN201610572839.1A
Authority: CN
Inventors: 朱全银; 辛诚; 刘斌; 许康; 潘舒新; 胡荣林; 唐海波; 孙青怡; 周泓; 李翔; 赵阳; 周蕾; 肖绍章
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2016-07-20
Filing date: 2016-07-20
Publication date: 2016-12-07

Abstract

本发明公开了一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法，本发明利用搜狗实验室的互联网分类语料库(SogouT)和全体人员上网记录，结合数据关联和统计方法，先对搜狗语料库中语料‑分类标签集和全体人员上网记录集进行预处理和频数统计，存储分类标签‑关键词‑词频集的计算中间结果，之后将人员的分类‑标签集与中间结果进行数据关联和统计，以此完成对人员网络行为习惯的量化，通过多层次的数据关联，区分、降低量化过程中的不确定性，达到提高数据量化的准确性、可靠性的目的。

Description

一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法

技术领域

本发明属于数据量化领域，特别涉及一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，用于为研究网络行为习惯规律提供准确可靠的量化方法，提高研究网络行为习惯规律的准确性。

背景技术

掌握数据量化方法对于分析网络行为习惯数据有重要的作用和意义，随着互联网的不断普及，越来越多的人选择通过网络来获取感兴趣的信息，而网络内容有信息量大、复杂、重复率高和格式不统一的特点。量化这些上网记录，可以提高研究网络行为习惯规律结果的准确性。一般的量化方法有词频统计和数据关联。

数据量化的相关论文有：李翼鸿. 基于浏览日志和浏览行为的用户兴趣模型研究. 上海交通大学硕士论文. 2008；李力沛. 基于改进用户浏览行为量化分析的兴趣网页获取. 电脑知识与技术:学术交流. 2012(27): 6481-6482；朱征宇, 周智, 罗颖,等. 基于浏览行为量化分析的兴趣网页提取. 重庆工学院学报:自然科学版. 2009,Vol.23(7):79-84）；朱全银等人已有的研究基础包括：李翔, 朱全银. 联合聚类和评分矩阵共享的协同过滤推荐. 计算机科学与探索. 2014. Vol.8(6):751-759；Suqun Cao, Quanyin Zhu,Zhiwei Hou. Customer Segmentation Based on a Novel Hierarchical ClusteringAlgorithm. 2009, p:1-5；Quanyin Zhu,Sunqun Cao. A Novel Classifier-independentFeature Selection Algorithm for Imbalanced Datasets. 2009, p:77-82；Suqun Cao,Zhiwei Hou, Liuyang Wang, Quanyin Zhu. Kernelized Fuzzy Fisher Criterionbased Clustering Algorithm. DCABES 2010, p:87-91；Quanyin Zhu, Yunyang Yan,Jin Ding, Jin Qian. The Case Study for Price Extracting of Mobile Phone SellOnline. 2011, p:282-285；Quanyin Zhu, Suqun Cao, Pei Zhou, Yunyang Yan, HongZhou. Integrated Price Forecast based on Dichotomy Backfilling andDisturbance Factor Algorithm. International Review on Computers and Software,2011, Vol.6(6):1089-1093；Suqun Cao, Gelan Yang, Quanyin Zhu, Haihei Zhai. Anovel feature extraction method for mechanical part recognition. AppliedMechanics and Materials, 2011, p:116-121；Pei Zhou, Quanyin Zhu. Multi-factorMatching Method for Basic Information of Science and Technology Experts Basedon Web Mining. 2012, P:718-720；Jianping Deng, Fengwen Cao, Quanyin Zhu, YuZhang. The Web Data Extracting and Application for Shop Online Based onCommodities Classified. Communications in Computer and Information Science,Vol.234(4):120-128；Hui Zong, Quanyin Zhu, Ming Sun, Yahong Zhang. The casestudy for human resource management research based on web mining and semanticanalysis. Applied Mechanics and Materials, Vol.488,2014 p:1336-1339；朱全银等人申请、公开与授权的相关专利有：朱全银, 胡蓉静, 曹苏群, 周培等. 一种基于线性插补与自适应滑动窗口的商品价格预测方法. 中国专利：ZL 2011 1 0423015.5,2015.07.01；朱全银, 曹苏群, 严云洋, 胡蓉静等. 一种基于二分数据修补与扰动因子的商品价格预测方法. 中国专利：ZL 2011 1 0422274.6, 2013.01.02；朱全银, 尹永华, 严云洋, 陈婷, 曹苏群. 一种基于神经网络的多品种商品价格预测的数据预处理方法. 中国专利：ZL 2012 1 0325368.6, 2016.06.08；朱全银, 潘禄, 刘文儒, 李翔, 周泓, 胡荣林, 丁瑾, 金鹰, 邵武杰, 唐海波. 一种科技新闻的增量学习多层次二分类方法. 中国专利公开号：CN 105205163A, 2015.12.30；朱全银, 严云洋, 黄涛贻, 张亮, 张于洋, 辛诚. 一种校园个性化掌上服务及用户行为习惯分析的实现方法. 中国专利公开号：CN104731971A, 2015.06.24；朱全银，沈恩强，钱亚平，周泓等. 一种基于K-means聚类多权重自适应的学生学习行为分析方法. 中国专利申请号：201610222553.0, 2016.04.13；朱全银，邵武杰，唐海波，周泓，李翔，胡荣林，金鹰，曹苏群，潘舒新. 一种科学新闻标题的多层次多分类方法. 中国专利公开号：CN 105205163A, 2016.07.13；李翔，朱全银，胡荣林，周泓. 一种基于谱聚类的冷链物流配载智能推荐方法. 中国专利公开号：CN 105654267A,2016.06.08。

基于HowNet的VSM模型改进：

在经典的VSM模型中，采用Bag Of Words的方式，即不考虑词与词之间的关联，词是独立的分析元素。这样构造出的向量必然存在数据稀疏问题，影响聚类效果。对于这个问题，国外的学者将WordNet等语义词典的信息，扩展到VSM模型中，在英文文本聚类上取得了一定的成效。在中文文本聚类中，也有学者采用HowNet的义原信息来扩展VSM模型。在义原权值取值方面，通常考虑的义原的类别信息、已经义原相关的关键词的TF-IDF权重等。而在HowNet中，义原所处的深度越深，所代表语义信息就越具体；这些具体的义原应当要具有比语义较空泛的义原具有更大的权重。

浏览行为量化分析（BAQA）：

主要参与量化的浏览行为有浏览时间、鼠标点击、页面滚动、以及菜单操作，最后辅以用户主动判定兴趣网页的操作。前四种行为的量化方法依据的公式为Vaction=(Anavigate-Amean×Baction) ×Maction (1)

其中，Vaction是某一行为的贡献值，而Anavigate则是在某一网页上的某一行为的统计值，Amean是用户在某一行为上的平均统计值，Baction是该行为的贡献基数，Maction是该行为的奖励因子。最终通过公式(2)量化用户对某一网页的兴趣度。

V=∑Vaction+Vuser (2)

其中，Vaction代表浏览时间、鼠标点击、页面滚动及菜单操作四种浏览行为，如果用户选择主动判断，则会给Vuser赋上很大的数值。

TF-IDF 方法：

TF-IDF（Term Frequency-Inverse Document Frequency）是一种统计方法，用以评估词项对于文档在整个语料库中的贡献。词项的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF 词频是指某个词或短语在一篇文章中出现的频率，IDF 逆向文件频率（inverse document frequency）是由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。IDF 的主要思想是：如果包含词项t 的文档越少，也就是 n 越小，IDF 越大，则说明词项 t 具有很好的类别区分能力。特征权重对于文本自动分类有着至关重要的作用，其反映了特征能够区分文本类别的能力大小。合理的特征权重算法可以提高文本之间的区分度。因此，权重对于文本自动分类有着重要作用。其中， TF-IDF 权重法是应用比较广泛的方法。

发明内容

为了帮助研究人员处理人员的上网数据，通过综合分析上网记录与分类语料库的联系，采用多层次的数据关联和统计方法，设计实现了一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，为研究网络行为习惯规律提供准确可靠的量化模型。

为了便于理解本发明专利的理论基础，对本发明的理论与传统理论的区别描述如下：

在数据量化方法中，传统方法是对分词处理后的记录文本中所有关键词统一编号，再统计词频，以此达到数据量化的目的。本发明专利在传统方法的基础上，以关键词为中间值，将人员上网浏览记录与关键词的分类标签-频数相关联，以此达到网络行为习惯数据量化的目的。

本发明的技术方案是：利用搜狗实验室的互联网分类语料库(SogouT)和全体人员上网记录，结合数据关联和统计方法，先对搜狗语料库中语料-分类标签集和全体人员上网记录集进行预处理和频数统计，存储分类标签-关键词-词频集的计算中间结果，之后将人员的分类-标签集与中间结果进行数据关联和统计，以此完成对人员网络行为习惯的量化；其中，包含语料库处理流程步骤A和关键词关联记录流程步骤B：

语料库处理流程步骤A从步骤A1到步骤A12：

步骤A1：设从搜狗实验室获取语料集CORP={CORP₁, CORP₂, …, CORP_CORPN}，设语料集总数为CORPN，设分类标签集为LABEL={LABEL₁,LABEL₂,…,LABEL_LABELN}，设分类标签总数为LABELN，设语料-分类标签集为CORPLAB={(CORP_a1,LABEL_b1),(CORP_a2,LABEL_b2),…,(CORP_am,LABEL_bm)}，设停用词集为STOPWORD={STOPWORD₁,STOPWORD₂,…,STOPWORD_a}，设全体人员上网记录集为RECORD={(RSTU_rs1,RKEY_rk1),(RSTU_rs2,RKEY_rk2),…,(RSTU_rsf,RKEY_rkf)}，其中，RSTU_rs1、…、RSTU_rsf代表单个人员的唯一标识，RKEY_rk1、…、RKEY_rkf代表关键词，设全体人员上网记录总数为RECORDN；

步骤A2：设全局关键词集为KEY，设全局关键词总数为KEYN，设全局分类标签-关键词-词频集为CATEKEYF，设人员唯一标识集为STUID，设人员总数为STUIDN，设全体人员的分类标签-频数集为GSTUCATEF，设单个语料的关键词集为corpskey，设单个语料的关键词总数为corpskeyn，设单个语料的分类标签-关键词-词频集为skeyf，设单个人员的关键词集为stuskey，设单个人员的关键词总数为stuskeyn，设单个关键词的分类标签-词频集为keycatef，设单个人员的分类标签-频数集为stucatef；

步骤A3：设语料集CORP当前语料的循环下标变量为i，当前语料对应的分类标签为label，其中，CORP是步骤A1中从搜狗实验室获取的语料集，并且循环下标变量满足i<=CORPN；

步骤A4：从步骤A1中的语料与分类标签关系集中筛选出包含CORP_i的分类标签集合，即，，其中，CORP_i的下标来自步骤A3中的循环下标变量i，label来自步骤A3中当前语料CORP_i对应的分类标签；

步骤A5：利用步骤A1中停用词集STOPWORD={STOPWORD₁, STOPWORD₂, …, STOPWORD_a}，对步骤A3中的语料CORP_i分词，形成语料CORP_i的关键词集corpskey={corpskey₁,corpskey₂, …, corpskey_b}；

步骤A6：将步骤A5中生成的关键词集corpskey中的停用词去除，即，corpskey=corpskey-STOPWORD={corpskey_s1, corpskey_s2, …, corpskey_sb}；

步骤A7：更新步骤A2中的全局关键词集KEY，将步骤A6处理得出的corpskey与全局关键词集KEY进行并集运算，即，KEY=KEY∪corpskey={KEY₁, KEY₂, …, KEY_c}，再根据corpskey包含的关键词数量corpskeyn更新步骤A2中的全局关键词总数KEYN，即，KEYN=KEYN+corpskeyn；

步骤A8：设步骤A3中的语料CORP_i的分类标签-关键词-词频集为skeyf，统计语料CORP_i的关键词集corpskey中关键词的词频，其中，设f_k1, f_k2, …, f_kd为关键词在语料中出现的次数，并将结果按照分类标签-关键词-关键词词频的格式添加到分类标签-关键词-词频集skeyf中，即，skeyf={(label, KEY₁, f_k1), (label, KEY₂, f_k2),… ,(label, KEY_d,f_kd)}；

步骤A9：更新全局分类标签-关键词-词频集，即，CATEKEYF=CATEKEYF∪skeyf={(LABEL_l1, KEY_ck1, f_f1), (LABEL_l2, KEY_ck2, f_f2), …, (LABEL_le, KEY_cke, f_fe)}，其中，全局分类标签-关键词-词频集CATEKEYF来自步骤A2；

步骤A10：当步骤A3中的循环变量i大于全部语料集个数CORPN时，则执行步骤A11，否则，循环变量i的值增加1，即，i=i+1，执行步骤A4到步骤A9；

步骤A11：执行步骤B；

步骤A12：返回全体人员的分类标签-频数集，即，GSTUCATEF={(STUID₁, {(LABEL₁,f_kl1,1),(LABEL₂, f_kl1,2), …, (LABEL_o, f_kl1,o)}),(STUID₂, {(LABEL₁, f_kl2,1), (LABEL₂,f_kl2,2), …, (LABEL_o, f_kl2,o)}), …, (STUID_g, {(LABEL₁, f_klg,1), (LABEL₂, f_klg,2),…, (LABEL_o, f_klg,o)})}；

关键词关联记录流程步骤B从步骤B1到步骤B9：

步骤B1：从全体人员上网记录集RECORD中提取出当前人员唯一标识集STUID，并计算出人员总数STUIDN，即，STUID=Π₁（RECORD） ={STUID₁，STUID₂,…,STUID_g}；

步骤B2：设当前人员标识的下标循环变量为j，j<=STUIDN，其中，全体人员上网记录总数STUIDN来自步骤B1；

步骤B3：设当前人员标识STUID_j对应的关键词集为stuskey，并统计人员STUIDj的关键词总数stuskeyn，即，{stuskey₁, stuskey₂, …,stuskey_h}，其中，j是步骤B2中的循环变量；

步骤B4：设当前关键词的下标循环变量为k，即，k<=stuskeyn，其中，stuskeyn 是步骤B3中当前人员标识STUID_j对应的stuskey所包含的关键词总数；

步骤B5：从步骤B1中的全局分类标签-关键词-词频集CATEKEYF中筛选出关键词stuskey_k的分类标签-词频集keycatef，即， ={(LABEL₁, f_kl1), (LABEL₂, f_kl2), …, (LABEL_o, f_klo)}，其中，LABEL₁ ， LABEL₂ ， …，LABEL_o代表分类标签，f_kl1， f_kl2 ， …， f_klo分别代表标签LABEL₁ ， LABEL₂ ， …， LABEL_o所对应的频数；

步骤B6：叠加关键词的分类标签-词频记录keycatef中相同LABEL分类标签的词频，然后更新人员STUID_j的分类标签-频数记录，即，f_gkl1=f_gkl1+f_kl1, f_gkl2=f_gkl2+f_kl2, …, f_gklo=f_gklo+f_klo， stucatef={(LABEL₁, f_gkl1), (LABEL₂, f_gkl2), …, (LABEL_o, f_gklo)}，其中，LABEL∈{LABEL₁ , LABEL₂, …, LABEL_o}；

步骤B7：当步骤B4中的循环变量k大于步骤B3中的当前人员标识STUID_j对应的stuskey所包含的关键词总数stuskeyn时，执行步骤B8，否则，循环变量k增加1，使k=k+1，执行步骤B5到步骤B6；

步骤B8：更新全体人员的分类标签-频数集GSTUCATEF，将GSTUCATEF与步骤B3中的STUID_j和步骤B5中的keycatef形成的元组做并集运算，即，GSTUCATEF=GSTUCATEF∪{(STUID_j, stucatef)}={(STUID₁, {(LABEL₁, f_kl1,1),(LABEL₂, f_kl1,2), …, (LABEL_o,f_kl1,o)}),(STUID₂, {(LABEL₁, f_kl2,1), (LABEL₂, f_kl2,2), …, (LABEL_o, f_kl2,o)}), …,(STUID_g, {(LABEL₁, f_klg,1), (LABEL₂, f_klg,2), …, (LABEL_o, f_klg,o)})}，其中，GSTUCATEF来自步骤B1；

步骤B9：当步骤B2中的循环变量j大于步骤B1中的人员总数STUIDN时，执行步骤A12，否则，循环变量j的值增加1，即，j=j+1，执行步骤B3到步骤B8。

其中，CORP由文本组成，并以文件的形式存在，分类标签集LABEL是CORP所有所属分类的集合，CORPLAB描述了CORP集合中的元素与LABEL集合中的元素的对应关系。

其中，关联数据是指将全体人员上网记录提取出关键词，将关键词与搜狗实验室的互联网分类语料库中的关键词相关联，统计数据是指首先统计搜狗实验室的互联网分类语料库中的关键词在不同分类标签中出现的频数，再统计关联后的全体人员上网记录中相同分类标签的频数。

其中，步骤A8到步骤A9统计语料的关键词词频并确定关键词的标签，更新步骤A2中的全局分类标签-关键词-词频集CATEKEYF；步骤B5到步骤B6是从步骤A2中的全局分类标签-关键词-词频集CATEKEYF筛选出分类标签-频数集，再根据相同的分类标签叠加频数；步骤B8是根据步骤B5到步骤B6生成的分类标签-频数集，更新步骤A2中的全体人员的分类标签-频数集GSTUCATEF。

本发明创造性的提出的一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，通过多层次的数据关联，区分、降低量化过程中的不确定性，达到提高数据量化的准确性、可靠性的目的。

本发明提出的一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法可以作为聚类算法的预处理过程，也可以作为有监督的机器学习算法的样本训练流程。

附图说明

附图1为语料库处理流程。

附图2为关键词关联记录流程。

具体实施方式

如附图1，语料库处理流程步骤A从步骤A1到步骤A12：

步骤A11：执行步骤B；

如附图2，关键词关联记录流程步骤B从步骤B1到步骤B9：

为了更好地说明本方法的有效性，从搜狗实验室获取的互联网分类语料库(SogouT)，共10个分类，每个分类下有8000个文件；再加上学生三千多万条上网记录数据作为测试数据，其中，每条记录包括上网时间、学生唯一标识、浏览的网页的标题。将语料库中的每一个语料分词、计算词频、确定分类后，形成122428条关键词-分类标签-词频数据。将学生上网记录数据中的浏览网页的标题进行分词操作，之后再将分词之后形成的关键词与关键词-分类标签-词频数据关联，最终形成全体学生的分类标签-频数集合。

传统的K-means聚类需要计算记录与中心点之间的距离，通过本方法对初始数据进行量化，可以满足K-means聚类的需求。通过对5153个学生的上网浏览数据使用本方法进行量化，再使用K-means算法聚类，然后将同样的数据使用LDA文档主题提取模型来聚类，以此验证K-means聚类效果。最终能够确定4574人的分类，占总数的88.76%。

本发明创造性的提出了一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，通过多层次的数据关联，区分、降低量化过程中的不确定性，达到提高数据量化的准确性、可靠性的目的。

本发明可与计算机系统结合，从而自动完成人员上网浏览记录与关键词的量化。

Claims

1.一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，其特征在于利用搜狗实验室的互联网分类语料库(SogouT)和全体人员上网记录，结合数据关联和统计方法，先对搜狗语料库中语料-分类标签集和全体人员上网记录集进行预处理和频数统计，存储分类标签-关键词-词频集的计算中间结果，之后将人员的分类-标签集与中间结果进行数据关联和统计，以此完成对人员网络行为习惯的量化；其中，包含语料库处理流程步骤A和关键词关联记录流程步骤B：

语料库处理流程步骤A从步骤A1到步骤A12：

步骤A11：执行步骤B；

关键词关联记录流程步骤B从步骤B1到步骤B9：

步骤B3：设当前人员标识STUID_j对应的关键词集为stuskey，并统计人员STUIDj的关键词总数stuskeyn，即， {stuskey₁, stuskey₂, …,stuskey_h}，其中，j是步骤B2中的循环变量；

步骤B5：从步骤B1中的全局分类标签-关键词-词频集CATEKEYF中筛选出关键词stuskey_k的分类标签-词频集keycatef，即，={(LABEL₁, f_kl1), (LABEL₂, f_kl2), …, (LABEL_o, f_klo)}，其中，LABEL₁ ， LABEL₂ ， …，LABEL_o代表分类标签，f_kl1， f_kl2 ， …， f_klo分别代表标签LABEL₁ ， LABEL₂ ， …， LABEL_o所对应的频数；

2.根据权利要求1所述的一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，其特征在于，其中，CORP由文本组成，并以文件的形式存在，分类标签集LABEL是CORP所有所属分类的集合，CORPLAB描述了CORP集合中的元素与LABEL集合中的元素的对应关系。

3.根据权利要求1所述的一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，其特征在于，其中，关联数据是指将全体人员上网记录提取出关键词，将关键词与搜狗实验室的互联网分类语料库中的关键词相关联，统计数据是指首先统计搜狗实验室的互联网分类语料库中的关键词在不同分类标签中出现的频数，再统计关联后的全体人员上网记录中相同分类标签的频数。

4.根据权利要求1所述的一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法，其特征在于，其中，步骤A8到步骤A9统计语料的关键词词频并确定关键词的标签，更新步骤A2中的全局分类标签-关键词-词频集CATEKEYF；步骤B5到步骤B6是从步骤A2中的全局分类标签-关键词-词频集CATEKEYF筛选出分类标签-频数集，再根据相同的分类标签叠加频数；步骤B8是根据步骤B5到步骤B6生成的分类标签-频数集，更新步骤A2中的全体人员的分类标签-频数集GSTUCATEF。