CN111985247B - 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 - Google Patents

一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 Download PDF

Info

Publication number
CN111985247B
CN111985247B CN202010895778.9A CN202010895778A CN111985247B CN 111985247 B CN111985247 B CN 111985247B CN 202010895778 A CN202010895778 A CN 202010895778A CN 111985247 B CN111985247 B CN 111985247B
Authority
CN
China
Prior art keywords
vector
word
text
theme
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010895778.9A
Other languages
English (en)
Other versions
CN111985247A (zh
Inventor
李弼程
郁友琴
杜文倩
王成
皮慧娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202010895778.9A priority Critical patent/CN111985247B/zh
Publication of CN111985247A publication Critical patent/CN111985247A/zh
Application granted granted Critical
Publication of CN111985247B publication Critical patent/CN111985247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Abstract

一种基于多粒度文本特征表示的微博用户兴趣识别方法,包括:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;从主题层、词序层和词汇层三个方面构造文本向量;对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。本发明提供的方法,综合多粒度文本特征的考量,提高了模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。

Description

一种基于多粒度文本特征表示的微博用户兴趣识别方法和 系统
技术领域
本发明涉及信息检索与推荐领域,特别是指一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统。
背景技术
伴随着互联网时代的飞速发展,我国网民规模日益庞大,互联网普及率不断攀升,人们可以随时随地从网络中获取所需信息,为当代生活提供了便利。然而信息爆炸式的增长,从信息匮乏时代快速进入了过载时代,导致网民们被信息泛滥的问题困扰。从海量信息中挖掘出用户兴趣实施精准的个性化推荐,可以有效缓解信息过载的问题,从而提高用户的体验感和满意度。因此,用户兴趣挖掘具有十分重要的现实意义。
微博作为一种基于用户关系实现信息分享、传播互动的社交媒体,其内容的精简性、时效性和原创性吸引了广大的网民群众,成为用户获取新闻资讯和各界信息的重要网络平台。该平台等同于一个兴趣社区,用户发表、转发、点赞、收藏等行为都能够反映其个人兴趣偏好。但无时无刻都有用户在发送、传播和接收信息,难以完整捕捉其行为轨迹,用户兴趣变得离散化。再加上微博文本碎片化、口语化、更新快等特点,加大了挖掘用户兴趣的难度。对微博内容进行有效的特征提取成为研究的重难点。
目前社交网络中用户兴趣识别的方法主要有以下两类:基于用户行为的兴趣识别和基于用户内容的兴趣识别。基于用户行为的兴趣识别主要是通过用户的交互行为分析用户之间的相似性,包括关注、点赞、转发、评论等行为,从而提取出用户的兴趣。基于用户内容的兴趣识别主要是进行文本分析,LDA可以有效地从全局预测信息,对文本的整体语义进行表达,具有可解释性和降维能力,但它又是一种典型的词袋模型,没有考虑文档中词与词之间的顺序,并且主题与主题之间存在弱相关性,导致主题语义的不连贯。Word2Vec模型将词汇映射为包含上下文词义信息的词向量,有效地从局部预测信息,解决了特征稀疏和语义联系的问题,但不具有可解释性。此外,社交网络短文本噪声大、不规范、特征稀疏,传统词袋模型的文本表示显然无法满足对其进行深层次的表征,且仅从单个层面对文本信息进行挖掘也是不够的。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于多粒度文本特征表示的微博用户兴趣识别方法,解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。
本发明采用如下技术方案:
一种基于多粒度文本特征表示的微博用户兴趣识别方法,包括以下步骤:
对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
具体地,对获取的语料进行预处理,具体为:
包括文本清洗、结巴分词、去停用词,并利用正则表达式和停用词表过滤掉数据中无意义的内容,得到词典库。
具体地,所述利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量,具体为:
根据预处理完的语料的词频信息建立词典,对文档进行BOW编码;
输入LDA模型中,对文档特征降维,得到文档的主题分布和对应主题的词语分布,进而提取出文档的主题特征词;
将所述主题特征词输入到Word2Vec模型中进行词向量训练,主题向量集合表示为:
T=[T1,T2,…,TK]∈RK×a
式中,a为词向量的维度,K为主题数,Tk表示第k个主题的向量,RK×a表示一个行为主题个数,列为词向量维数的矩阵。
分别对文档的所有主题向量取平均,获取文档集合D的主题向量表示:
Figure GDA0002702389590000031
式中,td表示第d篇文档的主题向量,RD×a表示一个行为文档数,列为词向量维数的矩阵。
具体地,所述对文本分词进行词向量训练,通过LSTM获取语义向量,具体为:
将分词文本输入词嵌入层,对每一个词进行向量化表示;
将词向量按序列输入LSTM模型中进行特征提取:
ht=LSTM(xt),t∈[1,n]
式中,xt表示文档序列中第t个词的词向量输入,ht表示一篇文档的语义特征向量。
按上述方式对文档集合D进行语义编码,获取文档集合D的语义向量表示:
Figure GDA0002702389590000032
式中,c为LSTM模型的向量维度,hd表示第d篇文档的语义向量,RD×c表示一个行为文档数,列为向量维数的矩阵。
具体地,所述根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量,具体为:
根据AI Lab开源词向量表示词汇,将预处理后的分词文本匹配词向量数据,分别把文档中匹配到的向量进行加权取平均,没有匹配到的词的向量判为0,获取文档集合D的词义特征向量表示:
Figure GDA0002702389590000033
式中,zd表示第d篇文档的词义向量,RD×200表示一个行为文档数,列数为200的矩阵。
具体地,对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示,具体为:
将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接,构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V;
结合AI Lab开源词向量得到的词义向量,构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec;
文档集合D的向量化表示可描述为:
Figure GDA0002702389590000041
式中,
Figure GDA0002702389590000042
为拼接运算符。
具体地,所述将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估,具体包括:
将多粒度文本特征表示矩阵输入CNN中进行分类模型训练;
利用softmax分类器获取样本的预测标签;
Figure GDA0002702389590000043
式中,Sk表示输出向量S的第k个值,vk表示输入向量中的第k个值,vt表示输入向量中的所有值,T表示类别数量;
采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。
本发明另一方面还提供一种基于多粒度文本特征表示的微博用户兴趣识别系统,包括:
预处理单元:用于对语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
文本向量获取单元:从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
向量融合单元:用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
分类识别单元:将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明通过分别获取主题向量、语义向量和词义向量,并进行拼接融合,综合多粒度文本特征的考量,提高模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,解决了社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题,也可用于用户兴趣挖掘、网络用户画像以及个性化信息推荐等。
附图说明
图1为本发明整体流程图;
图2为主题特征提取流程图;
图3为LDA主题生成模型图;
图4为语义特征提取流程图;
图5为LSTM模型结构图;
图6为卷积神经网络分类模型图;
图7为损失值随迭代次数变化图。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
如图1,是本发明实施例一种基于多粒度文本特征表示的微博用户兴趣识别方法的流程图。
S10:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
对初始语料进行一系列预处理,主要包括文本清洗、结巴分词、去停用词等。利用正则表达式和停用词表(百度停用词表、中文停用词表、哈工大停用词表和四川大学机器智能实验室停用词表)过滤掉数据中的表情符号、相同词、分词后数据为空以及预处理后词数小于3的文本,还有一些常出现但无意义的词语,比如“转发微博”、“分享图片”、“Repost”等,最终得到可用的词典库。
S20:从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
本发明实施例分别从主题层面、词序层面和词汇层面对文本特征进行提取,构建多粒度的文本特征表示模型,具体分为以下三部分:
S201:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量主题特征提取流程图如图2所示。
首先,根据预处理完的语料的词频信息建立词典,对文档进行BOW编码,得到文档-词语的概率分布;
然后,将其输入LDA模型中提取文档的主题信息。假设有文档集合D,其中每个文档d包含N个单词,主题集合T中有K个隐含主题,LDA主题生成模型如图3所示,其生成过程描述如下:
1.1)从Dirichlet分布α中取样,生成文档d的主题分布:θd=Dirichlet(α);
1.2)从主题的多项式分布θd中采样,生成文档d中第n个词wd,n的主题:zd,n=Multi(θd);
1.3)从Dirichlet分布β中取样,生成主题zd,n对应的词语分布:
Figure GDA0002702389590000061
1.4)从词语的多项式分布
Figure GDA0002702389590000062
中采样,最终生成单词:
Figure GDA0002702389590000063
其中,Dirichlet分布是多项式分布的共轭先验概率分布。
LDA中所有变量的联合概率公式为:
Figure GDA0002702389590000064
选用Gibbs采样的方法,通过求解主题分布和词语分布的后验分布,得到参数值θd
Figure GDA0002702389590000065
根据每篇文档的主题分布和对应主题的词语分布,提取出文档的主题特征词。
继而,采用CBOW模型对主题词进行训练。将LDA提取到的主题信息作为输入,通过词向量训练,减缓主题向量之间的稀疏度。设词向量的维度为a,主题数为K,则主题向量集合可表示为:
T=[T1,T2,…,TK]∈RK×a (2)
式中,Tk表示第k个主题的向量,RK×a表示一个行为主题个数,列为词向量维数的矩阵。
最后,分别对每篇文档对应的所有主题向量取平均,得到文档集合D的主题向量表示:
Figure GDA0002702389590000066
式中,td表示第d篇文档的主题向量,RD×a表示一个行为文档数,列为词向量维数的矩阵。
S202:对文本分词进行词向量训练,通过LSTM获取语义向量语义特征提取流程图如图4所示。
首先,将经过预处理后的分词文本输入词嵌入层,对每一个词进行向量化表示。假设文档d由N个单词组成,即d={w1,w2,…,wN},通过词嵌入层,每个词映射为一个b维向量,得到文档d的词向量表示:
Xd=[x1,x2,…,xN]∈RN×b (4)
式中,xn表示第n个词的词向量,RN×b表示一个行为词数,列为向量维度的矩阵。
然后,将词向量Xd按序列输入LSTM模型中学习内容的语义特征。LSTM模型结构如图5所示,其具体操作过程描述如下:
2.1)通过遗忘门的sigmoid单元决定细胞状态需要丢弃和保留的信息;
ft=σ(Wf×[ht-1,xt]+bf) (5)
2.2)通过输入门的sigmoid单元决定是否给细胞状态更新信息;
it=σ(Wi×[ht-1,xt]+bi) (6)
2.3)通过tanh层创建一个新的候选细胞信息Cint,加入状态中;
Cint=tanh(WC×[ht-1,xt]+bC) (7)
2.4)旧的细胞信息Ct-1更新为新的细胞信息Ct
Ct=ft·Ct-1+it·Cint (8)
2.5)根据输出门的sigmoid单元来判断输出细胞的状态特征;
ot=σ(W0×[ht-1,xt]+b0) (9)
2.6)最终仅输出确定输出的部分,得到LSTM单元的输出表达,作为输入文档的特征向量;
ht=ot·tanh(Ct) (10)
式中,σ表示sigmoid激活函数,i、f、o和C分别表示输入门、遗忘门、输出门和记忆细胞的激活向量,xt表示文档序列中第t个词的词向量输入,模型参数W是权值矩阵,b是偏置值向量,·为点乘运算符。
最后,按上述方式对文档集合D进行语义编码,得到词与词之间的前后语义信息。设LSTM模型输出的向量维度为c,则语义特征向量可表示为:
Figure GDA0002702389590000071
式中,hd表示第d篇文档的语义向量,RD×c表示一个行为文档数,列为向量维数的矩阵。
S203:根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
引入腾讯AI Lab开源词向量表示词汇,其中每个词对应一个200维的向量。将预处理后的分词文本一一匹配词向量数据,分别把每篇文档中所有匹配到的向量进行加权取平均,没有匹配到的词的向量判为0,得到文档集合D的词义特征向量表示:
Figure GDA0002702389590000085
式中,zd表示第d篇文档的词义向量,RD×200表示一个行为文档数,列数为200的矩阵。
S30:对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
首先将LDA结合Word2Vec提取的主题特征(LDA_W2V)与LSTM提取的语义特征进行拼接,构建兼顾文档主题抽象描述和词序语义表达的文本特征表示模型(LSTM_LDA_W2V),再结合AI Lab开源词向量得到的词义特征,构建包含词粒度和语义粒度的文本特征表示模型(ALL2Vec)。最终文档集合D的向量化表示可描述为:
Figure GDA0002702389590000081
式中,
Figure GDA0002702389590000082
为拼接运算符。
S40:将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
将多粒度文本特征表示矩阵输入CNN中进行分类模型训练;
利用softmax分类器获取样本的预测标签;
Figure GDA0002702389590000083
式中,Sk表示输出向量S的第k个值,vk表示输入向量中的第k个值,vt表示输入向量中的所有值,T表示类别数量;
采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。
其中对于神经网络分类模型,卷积神经网络分类模型结构如图6所示。
1)输入层。将式(13)中的多粒度文本特征表示矩阵
Figure GDA0002702389590000084
作为CNN模型的输入,该矩阵的行数是文档数,也就是微博用户数,列数是三种特征维度相加的和。
2)卷积层。将不同尺寸的卷积核建立相应尺寸的卷积层,对输入的二维矩阵进行卷积操作,从而生成特征:
ci=f(w·xi:i+h-1+b) (15)
其中,ci表示卷积操作得到的第i个特征;w表示卷积核的权重矩阵;xi可以看作特征x的第i个输入,xi:i+h-1表示h个词向量首尾相连;b为偏置项;f表示非线性激活函数:
f=ReLu(x)=max(0,x) (16)
将式(15)生成的所有特征连接起来,得到卷积层的输出特征图C:
C=[c1,c2,…,cr-h+1] (17)
式中,r表示输出长度。
3)池化层。使用max pooling方法进行特征采样,对卷积层的输出特征进一步抽象,提取出最关键的特征:
Figure GDA0002702389590000091
式中,
Figure GDA0002702389590000092
为最大池化的输出结果。
将式(18)生成的所有最大池化结果连接起来,构成池化层的特征向量z:
Figure GDA0002702389590000093
式中,N为卷积核个数。
4)全连接层。经过一个T×N维的权值矩阵W,输出一个T×1维的特征向量:
V=[v1,v2,…,vT] (20)
5)输出层。当一个测试样本经过Softmax层并输出一个T×1维的向量时,取这个向量中的最大值,其对应的index就是该样本的预测标签。
对于效果评估:本发明实施例利用专门的微博分类语料训练分类器,再通过真实的微博用户数据进行分类测试,完成用户兴趣识别,从而验证该方法的有效性。
首先,微博分类语料包括十个兴趣类别,共30846篇微博文本,各个类别及数量如表1所示。对超过2000篇的类别进行负采样,对少于2000篇的类别进行完全采样,从而控制每个类别不超过2000篇,缓解数据分布的不均衡性。
表1微博分类语料
Figure GDA0002702389590000094
其次,利用python语言编写的爬虫程序,从微博平台爬取2230名用户三个月内所有的微博内容,为保证数据的可用性,筛选出微博数据量在30篇以上的用户,并按照表1里的十种类别,人工打上兴趣标签。经过处理,最后选取1000名带有兴趣标签的用户数据,作为评估效果的测试集。
模型训练的参数设置:基于Gibbs采样方法训练LDA主题模型,隐含主题数K设置为200,超参数
Figure GDA0002702389590000101
β=0.01,主题词数设置为15,迭代次数为5;Word2Vec采用CBOW训练方式,负采样的优化方法,主题向量维度a设为16,词向量维度b设为64,窗口大小为10,学习率为0.0001;LSTM的向量维度c设为16;CNN中向量维度设为16,卷积核窗口大小为2,核数为8,初始化学习率为0.1,迭代次数为100。
评估标准如下:
统计分类结果的准确率、精准率、召回率、F1值、宏平均F1以及权平均F1。计算公式如下:
Figure GDA0002702389590000102
Figure GDA0002702389590000103
Figure GDA0002702389590000104
Figure GDA0002702389590000105
Figure GDA0002702389590000106
Figure GDA0002702389590000107
微博用户兴趣识别方法为:设兴趣类别集合为I=(i1,i2,…,iM),给定某个微博用户u,爬取其发布的微博文本集合W=(w1,w2,…,wn),预处理后输入模型中进行特征提取和文本分类,得到该用户n条微博内容的兴趣类别列表L=(l1,l2,…,ln),其中li∈I。在兴趣类别列表上定义一个计数函数count(x,L)表示类别x在L中出现的次数,按照count(x,L)由高到低排序,选择排序靠前的类别作为该用户的兴趣类别。
如图7所示,随着横坐标迭代次数(hum epoch)不断增加,三个模型的纵坐标损失值(loss)同时都在趋于收敛,下降速度也都比较迅速,说明学习率合理。当迭代次数为80左右的时候,三个模型均基本下降到稳定值。虽然ALL2Vec模型相比其他两个模型的向量构造更加复杂,但收敛速度并没有随之减慢,表现出较好的响应能力,且训练最终得到的损失值最低,表明该模型的鲁棒性最好,分类性能最优。
测试本发明方法在微博文本分类任务上的效果,实验结果如表2所示,在绝大部分类别上均获得了很好的分类效果。
表2 ALL2Vec模型分类效果
Figure GDA0002702389590000111
由表3可以看出,对比三个模型,ALL2Vec在准确率、宏平均F1和权平均F1上都达到了最优,是一种有效且完备的文本特征表示模型。
表3不同分类方法比较结果
Figure GDA0002702389590000112
本发明实施例的另一方面还提供一种基于多粒度文本特征表示的微博用户兴趣识别系统,包括:
预处理单元:用于对语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
文本向量获取单元:从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
向量融合单元:用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
分类识别单元:将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
综上所述,本发明通过分别获取主题向量、语义向量和词义向量,并进行拼接融合,综合多粒度文本特征的考量,提高了模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,解决了社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题,也可用于用户兴趣挖掘、网络用户画像以及个性化信息推荐等。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (7)

1.一种基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,包括以下步骤:
对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;具体为:将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接,构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V;
结合AI Lab开源词向量得到的词义向量,构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec;
文档集合D的向量化表示描述为:
Figure FDA0003743987440000011
式中,
Figure FDA0003743987440000012
为拼接运算符;
将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
2.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,对获取的语料进行预处理,具体为:
包括文本清洗、结巴分词、去停用词,并利用正则表达式和停用词表过滤掉数据中无意义的内容,得到词典库。
3.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量,具体为:
根据预处理完的语料的词频信息建立词典,对文档进行BOW编码;
输入LDA模型中,对文档特征降维,得到文档的主题分布和对应主题的词语分布,进而提取出文档的主题特征词;
将所述的主题特征词输入到Word2Vec模型中进行词向量训练,主题向量集合表示为:
T=[T1,T2,…,TK]∈RK×a
式中,a为词向量的维度,K为主题数,Tk表示第k个主题的向量,RK×a表示一个行为主题数,列为词向量维数的矩阵;
分别对每篇文档的所有主题向量取平均,获取文档集合D的主题向量表示:
Figure FDA0003743987440000021
式中,td表示第d篇文档的主题向量,RD×a表示一个行为文档数,列为词向量维数的矩阵。
4.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述对文本分词进行词向量训练,通过LSTM获取语义向量,具体为:
将分词文本输入词嵌入层,对每一个词进行向量化表示;
将词向量按序列输入LSTM模型中进行特征提取:
ht=LSTM(xt),t∈[1,n]
式中,xt表示文档序列中第t个词的词向量输入,ht表示该篇文档的语义特征向量;
按上述方式对文档集合D进行语义编码,获取文档集合D的语义向量表示:
Figure FDA0003743987440000022
式中,c为LSTM模型的输出向量维度,hd表示第d篇文档的语义向量,RD×c表示一个行为文档数,列为向量维数的矩阵。
5.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量,具体为:
根据AI Lab开源词向量表示词汇,将预处理后的分词文本匹配词向量数据,分别把文档中匹配到的向量进行加权取平均,没有匹配到的词的向量判为0,获取文档集合D的词义特征向量表示:
Figure FDA0003743987440000023
式中,zd表示第d篇文档的词义向量,RD×200表示一个行为文档数,列数为200的矩阵。
6.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估,具体包括:
将多粒度文本特征表示矩阵输入CNN中进行分类模型训练;
利用softmax分类器获取样本的预测标签;
Figure FDA0003743987440000031
式中,Sk表示输出向量S的第k个值,vk表示输入向量中的第k个值,vt表示输入向量中的所有值,T表示类别数量;
采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。
7.一种基于多粒度文本特征表示的微博用户兴趣识别系统,其特征在于,包括:
预处理单元:用于对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
文本向量获取单元:从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
向量融合单元:用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;具体为:
将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接,构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V;
结合AI Lab开源词向量得到的词义向量,构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec;
文档集合D的向量化表示描述为:
Figure FDA0003743987440000032
式中,
Figure FDA0003743987440000033
为拼接运算符;
分类识别单元:将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
CN202010895778.9A 2020-08-31 2020-08-31 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 Active CN111985247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895778.9A CN111985247B (zh) 2020-08-31 2020-08-31 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895778.9A CN111985247B (zh) 2020-08-31 2020-08-31 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Publications (2)

Publication Number Publication Date
CN111985247A CN111985247A (zh) 2020-11-24
CN111985247B true CN111985247B (zh) 2022-08-26

Family

ID=73440437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895778.9A Active CN111985247B (zh) 2020-08-31 2020-08-31 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Country Status (1)

Country Link
CN (1) CN111985247B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668320B (zh) * 2020-12-25 2024-02-02 平安科技(深圳)有限公司 基于词嵌入的模型训练方法、装置、电子设备及存储介质
CN112784013B (zh) * 2021-01-13 2022-10-04 北京理工大学 一种基于上下文语义的多粒度文本推荐方法
CN112836051B (zh) * 2021-02-19 2024-03-26 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
CN113239192B (zh) * 2021-04-29 2024-04-16 湘潭大学 一种基于滑动窗口和随机离散采样的文本结构化技术
CN113486235A (zh) * 2021-05-31 2021-10-08 杭州摸象大数据科技有限公司 用户兴趣识别的方法和系统
CN115600945B (zh) * 2022-09-07 2023-06-30 淮阴工学院 基于多粒度的冷链配载用户画像构建方法及装置
CN115687577B (zh) * 2023-01-04 2023-04-07 交通运输部公路科学研究所 一种道路运输常态化问题诉求发现方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multilingual Short Text Classification Based onLDAand BiLSTM-CNNNeural Network;Meng Xian-yan et.al;《Web Information Systems and Applications. 16th International Conference, WISA 2019. Proceedings. Lecture Notes in Computer Science (LNCS 11817)》;20191025;全文 *
基于多粒度文本特征表示的微博用户兴趣识别;郁友琴 等;《计算机科学》;20211231;全文 *

Also Published As

Publication number Publication date
CN111985247A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
KR20190063978A (ko) 비정형 데이터의 카테고리 자동분류 방법
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111368088A (zh) 一种基于深度学习的文本情感分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
Haydar et al. Sentiment extraction from bangla text: A character level supervised recurrent neural network approach
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN115329085A (zh) 一种社交机器人分类方法及系统
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Nazarenko et al. Investigation of the Deep Learning Approaches to Classify Emotions in Texts.
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant