CN110569920A - 一种多任务机器学习的预测方法 - Google Patents
一种多任务机器学习的预测方法 Download PDFInfo
- Publication number
- CN110569920A CN110569920A CN201910876897.7A CN201910876897A CN110569920A CN 110569920 A CN110569920 A CN 110569920A CN 201910876897 A CN201910876897 A CN 201910876897A CN 110569920 A CN110569920 A CN 110569920A
- Authority
- CN
- China
- Prior art keywords
- user
- microblog
- preprocessed
- information
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010801 machine learning Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000546 chi-square test Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims 2
- 230000000384 rearing effect Effects 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种多任务机器学习的预测方法,本发明涉及多任务机器学习的预测方法。本发明的目的是为了解决现有用户画像模型预测准确率低,特征提取负担大的问题。过程为:一、采集各信息源数据,对各信息源数据做预处理,得到预处理后的文本;二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;四、对各个子任务设置不同的全连接层和损失函数,得到各个子任务的预测结果;五、将四中各个子任务的预测结果进行加权投票,输出最终预测结果。本发明用于机器学习预测领域。
Description
技术领域
本发明涉及多任务机器学习的预测方法。
背景技术
社交媒体中信息分散且噪声大,用户主页基本信息,用户发布的内容,用户的社交关系网络都蕴含着丰富的信息。多源异构信息的有效利用能够捕获更加丰富的特征,但是同时也增加了计算工作量。尤其针对不同的预测目标,同样的特征要重复计算来得到预测结果,没有合理有效的利用。目前的用户画像模型预测的属性比较单一,只是针对某一两个属性预测的准确率进行优化,忽略了属性之间的相互作用,导致用户画像模型预测准确率低,特征提取负担大。
发明内容
本发明的目的是为了解决现有用户画像模型预测准确率低,特征提取负担大的问题,而提出一种多任务机器学习的预测方法。
一种多任务机器学习的预测方法具体过程为:
步骤一、采集各信息源数据,包括:
(1)用户微博主页的基本信息,如:性别、年龄、学校居住城市等;
(2)用户发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;
(3)用户的社交关系网络信息,如:用户关注的人和被关注的人等,从用户社交关系网络主页的“关注人和被关注人”列表获取;
对各信息源数据做预处理,得到预处理后的文本;
步骤二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;
步骤三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;
步骤四、对各个子任务(各个子任务代表步骤二中“各信息源各自的学习模型”)设置不同的全连接层和损失函数,得到各个子任务的预测结果;
步骤五、将步骤四中各个子任务的预测结果进行加权投票,输出最终预测结果。
本发明的有益效果为:
本发明融合多源信息,分别对不同信息源制定了不同的特征提取方法,并利用各个属性之间的联系,构建了多任务学习框架。全面描述用户特征,提高了各个任务预测的准确率,同时减轻了特征学习的负担。
实验结果表明,本发明提出的多任务机器学习的预测方法,与SVM和Text-CNN算法相比,在用户属性预测准确率提高了5%以上。
附图说明
图1为本发明模型框架图;
图2为多尺度CNN+Attention模型框架图。
具体实施方式
具体实施方式一:本实施方式一种多任务机器学习的预测方法具体过程为:
步骤一、采集各信息源数据,包括:
(1)用户微博主页的基本信息,如:性别、年龄、学校居住城市等;
(2)用户发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;
(3)用户的社交关系网络信息,如:用户关注的人和被关注的人等,从用户社交关系网络主页的“关注人和被关注人”列表获取;
对各信息源数据做预处理,得到预处理后的文本;
步骤二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;
步骤三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;
步骤四、对各个子任务(各个子任务代表步骤二中“各信息源各自的学习模型”)设置不同的全连接层和损失函数,得到各个子任务的预测结果;
步骤五、将步骤四中各个子任务的预测结果进行加权投票,输出最终预测结果。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中采集各信息源数据,包括:(1)用户微博主页的基本信息,如:性别、年龄、学校居住城市等;(2)用户发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;(3)用户的社交关系网络信息,如:用户关注的人和被关注的人等,从用户社交关系网络主页的“关注人和被关注人”列表获取,对各信息源数据做预处理,得到预处理后的文本;具体过程为:
步骤一一、以一个用户为起点,爬取该用户微博主页的基本信息,用户的社交关系网络,用户发布的微博文本内容,再爬取该用户的好友的相关信息(包括:(1)好友的主页基本信息,如:性别、年龄、学校居住城市等;(2)好友发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;(3)好友的社交网络信息,如:好友关注的人和被关注的人等),好友的好友的相关信息(包括:(1)好友的好友的主页基本信息,如:性别、年龄、学校居住城市等;(2)好友的好友发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;(3)好友的好友社交网络信息,如:好友的好友关注的人和被关注的人等);
步骤一二、对于爬取的用户发布的微博文本内容,将内容中的链接去掉,采用Jieba分词技术对句子进行分词,然后使用哈工大停用词表,将不必要的单词去掉;最后,经分词,去停用词处理后,将每个用户中重复的文本去掉,得到预处理后的用户发布的微博文本内容;
步骤一三、对于爬取的用户的社交关系网络,提取互相关注的好友关系,表示成(u,v)节点对的形式,得到预处理后的用户的社交关系网络;
步骤一四、对于爬取的用户微博主页的基本信息内容,保留用户填写的性别、生日、所在地、学校等信息,得到预处理后的微博主页的基本信息。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述所述步骤二中采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;具体过程为:
步骤二一和步骤二二的结果在步骤三一中使用,步骤二三是检验模型,步骤二四和步骤二五是基于步骤二三检验模型的并列的两个方法;
步骤二一、构建多尺度CNN+Attention模型学习文本特征;
步骤二二、利用网络嵌入方法学习预处理后的用户的社交关系网络结构特征;
步骤二三、构建基于匹配原则特征提取的卡方检验模型;具体过程为:
在预处理后的微博主页的基本信息中分别提取有关性别、年龄、地区、主题、教育程度各分类任务的特征词;
假设词t与分类任务无关,每个类别中包含词t的用户占比相同;
利用下式进行卡方值计算:
其中,nt表示包含词t的用户总数,ni′表示第i′类的用户数量,N表示用户总数,nti′表示包含词t的第i′类用户数量;Eti′表示词t在第i′类中出现的期望频数,示卡方值,d表示类别个数;
卡方值越大则说明假设不成立,该词与分类任务有关。
在微博语料库中将所有词按卡方值从大到小排序,取出前5000个微博内容词作为特征词,构建各任务的特征词典;
使用地理知识和新浪微博位置信息构建地名词典;
步骤二四、基于特征词典匹配使用预处理后的每个用户发布的微博文本内容对用户属性投票,将票数最多的结果作为预测结果类别;
步骤二五、基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性进行预测。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤二一中构建多尺度CNN+Attention模型学习文本特征;过程为:
采用Glove词向量表示方法,将预处理后的用户发布的微博文本内容转化为词向量表示,然后如图2所示,构建多尺度CNN+Attention模型;
多尺度CNN+Attention模型包括5层;分别为输入层,第一卷基层,第二卷基层,池化层,输出层;
其中卷基层由多个filter widths和feature maps组成,池化层由max-pooling和self-attention组成;
具体过程为:
将用户的第t条预处理后的用户发布的微博文本内容消息表示为Mt,
其中,Xi∈Rk代表每条预处理后的用户发布的微博文本内容消息中第i个单词对应的k维词向量,n表示每条微博消息由n个单词组成,表示连接运算符;i=1,2,...,n;R表示实数域;
然后根据下式,使用不同窗口大小的滤波器W∈Rh·k和m个feature map形成第一层卷积层;
sil=f(W·Xi:i+h-1+b),h∈[1,n′],l∈[1,m] (2)
其中,h表示窗口的大小,Xi:i+h-1表示第i个单词到第i+h-1个单词的词向量的连接,f表示非线性函数,b∈R表示偏差;n′表示滤波器的窗口大小,m表示feature map的数量;sil表示从单词Xi:i+h-1窗口第l个feature map上生成的特征(每个大小不同的单词窗口,对应的多个featuremap,产生多个特征);句子{X1:h,X2:h+1,···,Xn-h+1:n,···,Xn:n+h-1}中每个可能的单词窗口生成一个特征映射,如下式:
S=[s1,s2,···,sn] (3)
在滤波器进行卷积时,将句子最后以0填充补齐,使每个滤波器学习到相同大小的特征映射S;
为了更深入的学习到文本中词语n-gram之间的语义关系,将不同窗口大小的滤波器和feature map学习到的特征S进行连接,组成向量c∈Rn′m,根据式4将c送入到第二层卷积层,形成式5的特征映射
其中,表示第二层卷积层第j个特征的卷积输出,cj:j+h-1表示第j个特征到第j+h-1个特征的向量的连接,j表示第二层卷积的第j个特征,Rn′m表示第n′行第m列的实数域矩阵;
然后使用最大池化操作,捕获预处理后的用户发布的微博文本内容中最重要的特征;第t条消息从最大池化层出来后的向量表示为ht。
用户在发表的多条消息中,体现了用户不同的生活体验和态度。每条消息对于用户属性的判断具有不同的重要程度,采用Attention机制,给予每条预处理后的用户发布的微博文本内容消息不同的权重;具体计算过程如下式:
et=VTtanh(W·ht+b) (6)
mu=∑Tαtht (8)
其中,et表示第t条消息的全连接层输出,V表示待学习的权重向量,T表示句子中的词总数,ht表示上一层的输出向量,ei表示句子中第i个词的词向量,αt为用户u的第t条微博信息的权重,mu表示加权求和得到的该用户在所有微博文本上学习到的向量。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤二二中利用网络嵌入方法学习预处理后的用户的社交关系网络结构特征;具体过程为:
基于网络嵌入方法LINE(Large-scale Information Network Embedding)的思想,将预处理后的用户的社交关系网络中的一阶接近度定义为两用户间的局部相似性,若两用户间有直接的追随关系(即如果两个用户有直接的关注或互粉关系),则边权重为1,否则为0;
将预处理后的用户的社交关系网络中的二阶接近度定义为两用户的邻居网络结构(比如两用户没有直接的追随关系,却拥有共同的一些好友,那么这两个用户也是极其相似的。他们之间的共同好友的相似关系,就叫做二阶接近度)的相似度;
同时保留一阶接近度和二阶接近度,将社交网络节点(就是社交网络中的用户)、一阶接近度、二阶接近度作为LINE的输入,来学习预处理后的用户的社交关系网络中隐含的信息,隐含信息就是社交网络用户间的潜在关联关系,表示为gu∈Rd;
所述一阶接近度和二阶接近度都设置为150维,然后融合为300维的嵌入向量。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤二四中基于特征词典匹配使用预处理后的每个用户发布的微博文本内容对用户属性投票,将票数最多的结果作为预测结果类别;具体过程为:
将预处理后的每个用户发布的微博文本内容分别与构建的性别、年龄、地区、教育程度、主题的特征词典进行搜索匹配投票,最后进行投票统计;
对于性别、年龄、教育程度属性,将票数最多的结果作为预测结果类别;
对于主题属性,由于一个用户发布的内容可能有多个主题,选取投票最多的前3个主题作为主题预测结果类别。
对于地区属性,将预处理后的每个用户发布的微博文本内容与地区特征词典(互联网获取得到,地区特征词典为每个省份与地域的对应关系:如北京->华北,黑龙江->东北,广东->华南)匹配,将预处理后的每个用户发布的微博文本内容与构建的地名词典进行匹配,将用户发布的微博地点(步骤一二得到的,用户发微博的文本中,包含发布的微博地点)与构建的地名词典进行匹配;将三种投票方式投票最多的类别作为地区预测结果类别;三种投票方式为:
1)预处理后的每个用户发布的微博文本内容与地区特征词典匹配结果;
2)预处理后的每个用户发布的微博文本内容与构建的地名词典进行匹配结果;
3)用户发布的微博地点与构建的地名词典进行匹配结果;
用户属性预测结果表示为:
pu=[ug,ua,ur,uh1,uh2,uh3,ue]
其中,ug,ua,ur,uh,ue分别表示用户u性别所属类别为ug,年龄段所属类别为ua,地区所属类别为ur,主题所属的类别为uh,教育程度所属的类别为ue;
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述步骤二五中基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性进行预测;具体过程为:
基于正则匹配的原则,分别从已填的性别信息判断用户的性别所属类别,从已填的生日信息判断用户的年龄段所属类别(分为00后、90后、80后、70后、60后、60前),从已填写的所在地这一信息判断用户的地区所属类别,从已填写的学校这一信息判断用户的教育程度这一类别;没有填写或者无法判断的表示成类别为其他;最后将用户u的预测结果表示为ru。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述步骤三中将将各信息源的特征编码为矢量,融合多源数据;具体过程为:
步骤三一、将不同信息源(包括:(1)用户主页基本信息,如:性别、年龄、学校居住城市等;(2)发布内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;(3)社交网络信息,如:用户关注的人和被关注的人等)通过各自的模型(共三个模型:步骤二一:多尺度CNN+Attention模型、步骤二二:网络嵌入方法、步骤二四:基于匹配原则特征提取)学习后编码为矢量,将矢量连接作为用户特征c(u):
其中,mu表示用户u在多尺度CNN+Attention模型中学习到的微博文本内容特征向量,gu表示用户u在社交关系网络中学到的特征向量,Ru表示微博文本内容和发微博地点基于地区特征词典表(互联网获取得到,地区特征词典为每个省份与地域的对应关系:如北京->华北,黑龙江->东北,广东->华南)和地名词典表(互联网获取得到,地区特征词典为每个地区与省份的对应关系:如朝阳->北京,哈尔滨->黑龙江,深圳->广东)匹配到的所属各个类别概率的特征向量的连接,表示连接运算符;
步骤三二、数据源(各数据源,即步骤一中的三个数据源)通过向量链接的方式集成,得到集成向量(通过向量链接的方式集成,即两个向量首尾相接,形成一个新的向量。)通过共同学习(共同学习即是将多个数据源得到的向量拼接之后,作为一个向量进行学习,一起调整向量参数),一个数据源作为另一个数据源额外的信息补充(就是多个向量通过连接,得到了一个新的向量,可以包含更多的信息),融合不同的信息源来获得更好的决策表示。同时共享层作为下层各个子任务学习共享的一般表示,减轻了特征学习的负担,各个子任务之间又有一定的联系,在反向传播学习的过程中,共同影响共享层学习到的参数,使用户特征表示更加丰富。
将步骤三一和步骤三二得到的向量进行融合,得到多任务学习框架的一个子任务。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述步骤四中对各个子任务(各分类任务,包括性别、年龄、地区、主题、教育程度分类任务)设置不同的全连接层和损失函数,得到各个子任务的预测结果;具体过程为:
对于各个分类任务,采用下式作为判别函数:
yt=softmax(WtU+bt)
其中,yt表示子任务t所属类别的概率分布,Wt是要学习的子任务t的特定权重矩阵,bt是子任务t的偏置项,U表示集成后的向量(步骤三二得到的,集成后的向量)经过各个任务的全连接层后的输出向量;
对于单分类任务使用softmax交叉熵损失函数,对于多分类任务使用sigmod交叉熵损失函数;
交叉熵损失函数表示为:
其中,Nt表示样本集的大小,nc表示分类(分类数量,即用户兴趣主题的数量)的数量,表示第β个实例的真实概率分布,表示多分类任务模型(步骤四中的各个子任务(包括性别、年龄、地区、主题、教育程度分类任务))输出的第β个实例的预测概率分布;
性别、年龄、地区、主题、教育程度各任务的损失函数分别表示为Jg,Ja,Jr,Jh,Je;为确保5个任务同时达到最佳性能,设计整体损失函数进行调整:
Jtotal=CgJg+CaJa+CrJr+ChJh+CeJe
其中,Cg、Ca、Cr、Ch、Ce是超参数,用于对5个任务的损失函数的调整;
最后将各子任务的输出连接得到用户的属性预测结果yu。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,步骤五中将不同特征得到的预测结果(通过步骤二四、步骤二五、步骤四得到的,步骤二四、步骤二五、步骤四是三个子任务,各自得到了关于:性别、年龄、地区、教育程度、主题五个属性的预测结果)进行加权投票,输出最终预测结果;具体过程为:
将微博文本内容基于特征词典(步骤二四得到的)匹配输出的用户预测结果pu,基于深度学习模型输出的用户预测结果yu,基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性的预测结果预测结果ru分别对性别、年龄、地区、主题、教育程度进行加权投票,如下式:
Y(u)=argmax(wppu+wyyu+wrru)
其中,wp、wy、wr是各个预测结果的权重矩阵;
将投票结果最大的值作为最终的预测结果,其中主题(即用户关注的主题:如:体育、政治、娱乐、军事)由最大的三个结果组成(投票值最大的三个结果组成,这个投票跟上面的分类器不一样,这个地方是最终的多任务结果投票,上面的投票是子任务的投票)。
其它步骤及参数与具体实施方式一至九之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
通过使用SMP CUP 2016数据集对本发明所提出的多任务机器学习的预测方法进行评估,计算三个任务的预测准确率。根据任务难度的不同,分别对任务1、任务2和任务3设置权重为0.2、0.3和0.5,将最终的加权平均准确率A作为评测的标准A=0.2*A1+0.3*A2+0.5*A3。与SVM、Text-CNN、MMLUP(single task)、MMLUP(without friendship network)、MMLUP(without attention)进行对比,结果如表所示:
模型 | A<sub>1</sub> | A<sub>2</sub> | A<sub>3</sub> | A |
SVM | 0.821 | 0.584 | 0.653 | 0.6659 |
Text-CNN | 0.846 | 0.599 | 0.275 | 0.4864 |
MMLUP(single task) | 0.855 | 0.642 | 0.700 | 0.7136 |
MMLUP(without friendship network) | 0.827 | 0.616 | 0.617 | 0.6587 |
MMLUP(without attention) | 0.798 | 0.593 | 0.279 | 0.4770 |
MMLUP | 0.867 | 0.650 | 0.694 | 0.7154 |
SVM:通过支持向量机SVM算法对微博文本内容进行用户画像。
Text-CNN:通过Kim提出的CNN模型对微博文本内容进行用户画像。
MMLUP(single task):基于MMLUP对各个任务分别预测。
MMLUP(without friendship network):MMLUP不用好友关系网络特征。
MMLUP(without attention):基于MMLUP模型没有Attention机制。
MMLUP:本文所提出的多源多任务用户画像模型。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种多任务机器学习的预测方法,其特征在于:所述方法具体过程为:
步骤一、采集各信息源数据,包括:
(1)用户微博主页的基本信息;
(2)用户发布的微博文本内容信息;
(3)用户的社交关系网络信息;
对各信息源数据做预处理,得到预处理后的文本;
步骤二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;
步骤三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;
步骤四、对各个子任务设置不同的全连接层和损失函数,得到各个子任务的预测结果;
步骤五、将步骤四中各个子任务的预测结果进行加权投票,输出最终预测结果。
2.根据权利要求1所述一种多任务机器学习的预测方法,其特征在于:所述步骤一中采集各信息源数据,对各信息源数据做预处理,得到预处理后的文本;具体过程为:
步骤一一、以一个用户为起点,爬取该用户微博主页的基本信息,用户的社交关系网络,用户发布的微博文本内容,再爬取该用户的好友的相关信息,好友的好友的相关信息;
步骤一二、对于爬取的用户发布的微博文本内容,将内容中的链接去掉,采用Jieba分词技术对句子进行分词,然后使用停用词表,将不必要的单词去掉;最后,将每个用户中重复的文本去掉,得到预处理后的用户发布的微博文本内容;
步骤一三、对于爬取的用户的社交关系网络,提取互相关注的好友关系,表示成(u,v)节点对的形式,得到预处理后的用户的社交关系网络;
步骤一四、对于爬取的用户微博主页的基本信息内容,保留用户填写的性别、生日、所在地、学校信息,得到预处理后的微博主页的基本信息。
3.根据权利要求1或2所述一种多任务机器学习的预测方法,其特征在于:所述所述步骤二中采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;具体过程为:
步骤二一、构建多尺度CNN+Attention模型学习文本特征;
步骤二二、利用网络嵌入方法学习预处理后的用户的社交关系网络结构特征;
步骤二三、构建基于匹配原则特征提取的卡方检验模型;具体过程为:
在预处理后的微博主页的基本信息中分别提取性别、年龄、地区、主题、教育程度各分类任务的特征词;
假设词t与分类任务无关,每个类别中包含词t的用户占比相同;
利用下式进行卡方值计算:
其中,nt表示包含词t的用户总数,ni′表示第i′类的用户数量,N表示用户总数,nti′表示包含词t的第i′类用户数量;Eti′表示词t在第i′类中出现的期望频数,示卡方值,d表示类别个数;
在微博语料库中将所有词按卡方值从大到小排序,取出前5000个微博内容词作为特征词,构建各任务的特征词典;
使用地理知识和新浪微博位置信息构建地名词典;
步骤二四、基于特征词典匹配使用预处理后的每个用户发布的微博文本内容对用户属性投票,将票数最多的结果作为预测结果类别;
步骤二五、基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性进行预测。
4.根据权利要求3所述一种多任务机器学习的预测方法,其特征在于:所述步骤二一中构建多尺度CNN+Attention模型学习文本特征;具体过程为:
采用Glove词向量表示方法,将预处理后的用户发布的微博文本内容转化为词向量表示,然后构建多尺度CNN+Attention模型;
多尺度CNN+Attention模型包括5层;分别为输入层,第一卷基层,第二卷基层,池化层,输出层;
其中卷基层由多个filter widths和feature maps组成,池化层由max-pooling和self-attention组成;
具体过程为:
将用户的第t条预处理后的用户发布的微博文本内容消息表示为Mt,
其中,Xi∈Rk代表每条预处理后的用户发布的微博文本内容消息中第i个单词对应的k维词向量,n表示每条微博消息由n个单词组成,表示连接运算符;i=1,2,...,n;R表示实数域;
然后根据下式,使用不同窗口大小的滤波器W∈Rh·k和m个feature map形成第一层卷积层;
sil=f(W·Xi:i+h-1+b),h∈[1,n′],l∈[1,m] (2)
其中,h表示窗口的大小,Xi:i+h-1表示第i个单词到第i+h-1个单词的词向量的连接,f表示非线性函数,b∈R表示偏差;n′表示滤波器的窗口大小,m表示feature map的数量;sil表示从单词Xi:i+h-1窗口第l个feature map上生成的特征;句子{X1:h,X2:h+1,···,Xn-h+1:n,···,Xn:n+h-1}中每个单词窗口生成一个特征映射,如下式:
S=[s1,s2,···,sn] (3)
在滤波器进行卷积时,将句子最后以0填充补齐,使每个滤波器学习到相同大小的特征映射S;
将不同窗口大小的滤波器和feature map学习到的特征S进行连接,组成向量c∈Rn′m,根据式4将c送入到第二层卷积层,形成式5的特征映射
其中,表示第二层卷积层第j个特征的卷积输出,cj:j+h-1表示第j个特征到第j+h-1个特征的向量的连接,j表示第二层卷积的第j个特征,Rn′m表示第n′行第m列的实数域矩阵;
然后使用最大池化操作,捕获预处理后的用户发布的微博文本内容中最重要的特征;
采用Attention机制,给予每条预处理后的用户发布的微博文本内容消息不同的权重;具体计算过程如下式:
et=VTtanh(W·ht+b) (6)
mu=∑Tαtht (8)
其中,et表示第t条消息的全连接层输出,V表示待学习的权重向量,T表示句子中的词总数,ht表示上一层的输出向量,ei表示句子中第i个词的词向量,αt为用户u的第t条微博信息的权重,mu表示加权求和得到的该用户在所有微博文本上学习到的向量。
5.根据权利要求4所述一种多任务机器学习的预测方法,其特征在于:所述步骤二二中利用网络嵌入方法学习预处理后的用户的社交关系网络结构特征;具体过程为:
基于网络嵌入方法LINE,将预处理后的用户的社交关系网络中的一阶接近度定义为两用户间的局部相似性,若两用户间有直接的追随关系,则边权重为1,否则为0;
将预处理后的用户的社交关系网络中的二阶接近度定义为两用户的邻居网络结构的相似度;
同时保留一阶接近度和二阶接近度,将社交网络节点、一阶接近度、二阶接近度作为LINE的输入,来学习预处理后的用户的社交关系网络中隐含的信息,隐含信息就是社交网络用户间的潜在关联关系,表示为gu∈Rd;
所述一阶接近度和二阶接近度都设置为150维,然后融合为300维的嵌入向量。
6.根据权利要求5所述一种多任务机器学习的预测方法,其特征在于:所述步骤二四中基于特征词典匹配使用预处理后的每个用户发布的微博文本内容对用户属性投票,将票数最多的结果作为预测结果类别;具体过程为:
将预处理后的每个用户发布的微博文本内容分别与构建的性别、年龄、地区、教育程度、主题的特征词典进行搜索匹配投票,最后进行投票统计;
对于性别、年龄、教育程度属性,将票数最多的结果作为预测结果类别;
对于主题属性,选取投票最多的前3个主题作为主题预测结果类别。
对于地区属性,将预处理后的每个用户发布的微博文本内容与地区特征词典匹配,将预处理后的每个用户发布的微博文本内容与构建的地名词典进行匹配,将用户发布的微博地点与构建的地名词典进行匹配;将三种投票方式投票最多的类别作为地区预测结果类别;
用户属性预测结果表示为:
pu=[ug,ua,ur,uh1,uh2,uh3,ue]
其中,ug,ua,ur,uh,ue分别表示用户u性别所属类别为ug,年龄段所属类别为ua,地区所属类别为ur,主题所属的类别为uh,教育程度所属的类别为ue。
7.根据权利要求6所述一种多任务机器学习的预测方法,其特征在于:所述步骤二五中基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性进行预测;具体过程为:
基于正则匹配的原则,分别从已填的性别信息判断用户的性别所属类别,从已填的生日信息判断用户的年龄段所属类别,从已填写的所在地这一信息判断用户的地区所属类别,从已填写的学校这一信息判断用户的教育程度这一类别;没有填写或者无法判断的表示成类别为其他;最后将用户u的预测结果表示为ru。
8.根据权利要求7所述一种多任务机器学习的预测方法,其特征在于:所述步骤三中将各信息源的特征编码为矢量,融合多源数据;具体过程为:
步骤三一、将不同信息源学习后编码为矢量,将矢量连接作为用户特征c(u):
其中,mu表示用户u在多尺度CNN+Attention模型中学习到的微博文本内容特征向量,gu表示用户u在社交关系网络中学到的特征向量,Ru表示微博文本内容和发微博地点基于地区特征词典表和地名词典表匹配到的所属各个类别概率的特征向量的连接,表示连接运算符;
步骤三二、数据源通过向量链接的方式集成,得到集成向量;
将步骤三一和步骤三二得到的向量进行融合,得到多任务学习框架的一个子任务。
9.根据权利要求8所述一种多任务机器学习的预测方法,其特征在于:所述步骤四中对各个子任务设置不同的全连接层和损失函数,得到各个子任务的预测结果;具体过程为:
对于各个分类任务,采用下式作为判别函数:
yt=softmax(WtU+bt)
其中,yt表示子任务t所属类别的概率分布,Wt是要学习的子任务t的特定权重矩阵,bt是子任务t的偏置项,U表示集成后的向量经过各个任务的全连接层后的输出向量;
对于单分类任务使用softmax交叉熵损失函数,对于多分类任务使用sigmod交叉熵损失函数;
交叉熵损失函数表示为:
其中,Nt表示样本集的大小,nc表示分类的数量,表示第β个实例的真实概率分布,表示多分类任务模型输出的第β个实例的预测概率分布;
性别、年龄、地区、主题、教育程度各任务的损失函数分别表示为Jg,Ja,Jr,Jh,Je;为确保5个任务同时达到最佳性能,设计整体损失函数进行调整:
Jtotal=CgJg+CaJa+CrJr+ChJh+CeJe
其中,Cg、Ca、Cr、Ch、Ce是超参数,用于对5个任务的损失函数的调整;
最后将各子任务的输出连接得到用户的属性预测结果yu。
10.根据权利要求9所述一种多任务机器学习的预测方法,其特征在于:所述步骤五中将不同特征得到的预测结果进行加权投票,输出最终预测结果;具体过程为:
将微博文本内容基于特征词典匹配输出的用户预测结果pu,基于输出的用户预测结果yu,基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性的预测结果预测结果ru分别对性别、年龄、地区、主题、教育程度进行加权投票,如下式:
Y(u)=argmax(wppu+wyyu+wrru)
其中,wp、wy、wr是各个预测结果的权重矩阵;
将投票结果最大的值作为最终的预测结果,其中主题由最大的三个结果组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876897.7A CN110569920B (zh) | 2019-09-17 | 2019-09-17 | 一种多任务机器学习的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876897.7A CN110569920B (zh) | 2019-09-17 | 2019-09-17 | 一种多任务机器学习的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569920A true CN110569920A (zh) | 2019-12-13 |
CN110569920B CN110569920B (zh) | 2022-05-10 |
Family
ID=68780465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876897.7A Active CN110569920B (zh) | 2019-09-17 | 2019-09-17 | 一种多任务机器学习的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569920B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062493A (zh) * | 2019-12-20 | 2020-04-24 | 深圳前海微众银行股份有限公司 | 基于公共数据的纵向联邦方法、装置、设备及介质 |
CN111243602A (zh) * | 2020-01-06 | 2020-06-05 | 天津大学 | 基于性别、国籍和情感信息的声纹识别方法 |
CN111309936A (zh) * | 2019-12-27 | 2020-06-19 | 上海大学 | 一种电影用户画像的构建方法 |
CN111400470A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 问题处理方法、装置、计算机设备和存储介质 |
CN111813532A (zh) * | 2020-09-04 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种基于多任务机器学习模型的图像管理方法及装置 |
CN113111183A (zh) * | 2021-04-20 | 2021-07-13 | 通号(长沙)轨道交通控制技术有限公司 | 一种牵引供电设备缺陷等级分类方法 |
CN113505307A (zh) * | 2021-09-06 | 2021-10-15 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
CN114372136A (zh) * | 2022-01-07 | 2022-04-19 | 中国人民解放军国防科技大学 | 基于多层次数据表示学习的用户身份信息识别方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169061A (zh) * | 2017-05-02 | 2017-09-15 | 广东工业大学 | 一种融合双信息源的文本多标签分类方法 |
CN107577782A (zh) * | 2017-09-14 | 2018-01-12 | 国家计算机网络与信息安全管理中心 | 一种基于异质数据的人物相似度刻画方法 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN107967451A (zh) * | 2017-11-23 | 2018-04-27 | 常州大学 | 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN110119689A (zh) * | 2019-04-18 | 2019-08-13 | 五邑大学 | 一种基于多任务迁移学习的人脸美丽预测方法 |
-
2019
- 2019-09-17 CN CN201910876897.7A patent/CN110569920B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169061A (zh) * | 2017-05-02 | 2017-09-15 | 广东工业大学 | 一种融合双信息源的文本多标签分类方法 |
CN107577782A (zh) * | 2017-09-14 | 2018-01-12 | 国家计算机网络与信息安全管理中心 | 一种基于异质数据的人物相似度刻画方法 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN107967451A (zh) * | 2017-11-23 | 2018-04-27 | 常州大学 | 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN110119689A (zh) * | 2019-04-18 | 2019-08-13 | 五邑大学 | 一种基于多任务迁移学习的人脸美丽预测方法 |
Non-Patent Citations (2)
Title |
---|
CHAOWEI LI ET AL.: "Personality Prediction of Social Network Users", 《2017 16TH INTERNATIONAL SYMPOSIUM ON DISTRIBUTED COMPUTING AND APPLICATIONS TO BUSINESS, ENGINEERING AND SCIENCE》 * |
郑敬华 等: "基于多任务学习的大五人格预测", 《中国科学院大学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062493A (zh) * | 2019-12-20 | 2020-04-24 | 深圳前海微众银行股份有限公司 | 基于公共数据的纵向联邦方法、装置、设备及介质 |
CN111309936A (zh) * | 2019-12-27 | 2020-06-19 | 上海大学 | 一种电影用户画像的构建方法 |
CN111243602A (zh) * | 2020-01-06 | 2020-06-05 | 天津大学 | 基于性别、国籍和情感信息的声纹识别方法 |
CN111243602B (zh) * | 2020-01-06 | 2023-06-06 | 天津大学 | 基于性别、国籍和情感信息的声纹识别方法 |
CN111400470A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 问题处理方法、装置、计算机设备和存储介质 |
CN111813532A (zh) * | 2020-09-04 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种基于多任务机器学习模型的图像管理方法及装置 |
CN113111183A (zh) * | 2021-04-20 | 2021-07-13 | 通号(长沙)轨道交通控制技术有限公司 | 一种牵引供电设备缺陷等级分类方法 |
CN113505307A (zh) * | 2021-09-06 | 2021-10-15 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
CN113505307B (zh) * | 2021-09-06 | 2021-12-07 | 南京航空航天大学 | 一种基于弱监督增强的社交网络用户地域识别方法 |
CN114372136A (zh) * | 2022-01-07 | 2022-04-19 | 中国人民解放军国防科技大学 | 基于多层次数据表示学习的用户身份信息识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110569920B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569920B (zh) | 一种多任务机器学习的预测方法 | |
CN107766585B (zh) | 一种面向社交网络的特定事件抽取方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN107341145B (zh) | 一种基于深度学习的用户情感分析方法 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
WO2020108430A1 (zh) | 一种微博情感分析方法及系统 | |
CN107357889A (zh) | 一种基于内容或情感相似性的跨社交平台图片推荐算法 | |
CN112084335A (zh) | 一种基于信息融合的社交媒体用户账号分类方法 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN107577782B (zh) | 一种基于异质数据的人物相似度刻画方法 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
CN107329954B (zh) | 一种基于文档内容和相互关系的主题检测方法 | |
Sari et al. | Sentiment Analysis of Customer Satisfaction on Transportation Network Company Using Naive Bayes Classifier | |
CN112364141A (zh) | 基于图神经网络的科学文献关键内容潜在关联挖掘方法 | |
CN106599824B (zh) | 一种基于情感对的gif动画情感识别方法 | |
CN112132633B (zh) | 一种基于消费事理图谱的消费意图识别和预测方法 | |
CN113849598A (zh) | 基于深度学习的社交媒体虚假信息检测方法及检测系统 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
Sajeevan et al. | An enhanced approach for movie review analysis using deep learning techniques | |
CN114036938B (zh) | 一种融合主题信息和词向量提取文本特征的新闻分类方法 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
Sheeba et al. | A fuzzy logic based on sentiment classification | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |