CN114491033A - 一种基于词向量和主题模型的用户兴趣模型构建的方法 - Google Patents

一种基于词向量和主题模型的用户兴趣模型构建的方法 Download PDF

Info

Publication number
CN114491033A
CN114491033A CN202210072886.5A CN202210072886A CN114491033A CN 114491033 A CN114491033 A CN 114491033A CN 202210072886 A CN202210072886 A CN 202210072886A CN 114491033 A CN114491033 A CN 114491033A
Authority
CN
China
Prior art keywords
text
model
constructing
word
user interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210072886.5A
Other languages
English (en)
Inventor
马海江
周加全
柴功昊
阮慎
伍旭东
杨洁
袁雪梅
阳志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Science and Technology Normal University
Original Assignee
Guangxi Science and Technology Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Science and Technology Normal University filed Critical Guangxi Science and Technology Normal University
Priority to CN202210072886.5A priority Critical patent/CN114491033A/zh
Publication of CN114491033A publication Critical patent/CN114491033A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用户兴趣模型构建领域,具体涉及一种基于词向量和主题模型的用户兴趣模型构建的方法,包括以下步骤:S1、语料库的构建及数据预处理;S2、构建向量空间模型;S3、构建主题模型;S4、将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性结合;S5、通过k‑means聚类算法将相似度高的文本的聚合在一起,从而生成用户兴趣模型。该发明通过对文档进行VSM建模和LDA建模,利用LDA模型提取出文本间的语义信息,结合基于VSM的tf‑idf权重词向量,再将这两种方法进行线性加权融合在一起,实现文本间的相似性有效计算,从而提高用户兴趣模型的质量,同时也解决了传统构建方法存在的缺陷。

Description

一种基于词向量和主题模型的用户兴趣模型构建的方法
技术领域
本发明涉及用户兴趣模型构建领域,具体涉及一种基于词向量和主题模型的用户兴趣模型构建的方法。
背景技术
随着信息技术和互联网的发展为人们的工作生活来了很多便利,互联网中提供的信息服务种类不断完善。一般地,为了向用户提供个性化信息服务,通常会挖掘、获取和分析用户历史行为信息,建立高质量的用户兴趣模型来研究用户个性化需求,分析用户的兴趣倾向。用户兴趣模型是进行个性化信息服务的关键部分,是提供个性化信息服务的基础和前提,是提供个性化信息服务质量的保证。为了快速准确地定位到用户需要的信息,给人们推送个性化信息,对用户兴趣模型的研究已经成为推荐系统领域的热点与难点。Younghoon和Liu等人在总结他们的实验结论时,往往会综合分析并挖掘提取用户兴趣特征,进而利用相关性表示。所以,用户兴趣模型的构建是个性化信息服务的关键技术之一。
目前,常见的用户兴趣构建方法主要包括基于本体的、基于关键词的、基于向量空间模型的、基于主题模型的、评价矩阵的等,但以上构建方法在一定程度上存在问题。基于本体的方法其领域本体构建规模复杂;基于评论矩阵的方法其适应性差,对用户兴趣模型更新存在困难;基于向量空间模型的方法其降维能力不足、语义信息的丢失和稳定性差;这些模型在实验结果上常常会存在偏差,不能准确地描述用户的兴趣爱好。
现有的基于主题模型的用户兴趣模型构建方法其中心思想主要是将每一个文本信息当作众多主题混合分布在一起,而主题就是相应词项的概率分布,其模型构建过程包括三层,第一层是输入层,向量的初始值是随机生成的;第二层为投影层,通过投影得到希望的输出结果;最后一层是输出层,希望通过投影得到输出结果。此模型在语义信息处理,降维方面表现较好。
发明内容
为了解决传统方法在处理大规模文本集时存在的不足,本发明提供了一种基于词向量和主题模型的用户兴趣模型构建的方法,构建了高质量、准确和合适的用户兴趣模型,能在不同的行为模式下挖掘用户不同主题的兴趣度,帮助用户过滤不感兴趣的信息,从而达到提高个性化服务质量,增强用户体验的目的。
为实现上述目的,本发明采取的技术方案为:
一种基于词向量和主题模型的用户兴趣模型构建的方法,包括以下步骤:
S1、语料库的构建及数据预处理;
S2、构建向量空间模型;
S3、构建主题模型;
S4、将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性结合;
S5、通过k-means聚类算法将相似度高的文本的聚合在一起,从而生成用户兴趣模型。
进一步地,所述步骤S1中,采用搜狗新闻相关数据集,在使用数据集之前,首先需完成数据集的预处理操作,主要包括去除无用符号、编码格式转换、降噪、分词处理以及去除停用词等几个步骤。
进一步地,所述步骤S2包括如下步骤:
首先,根据提取完成预处理的数据集的特征,生成特征词典;其次,利用词频-逆向文件频率(TF-IDF)对每个特征项计算生成权重;最后利用余弦相似性函数计算文本间的相似性,构建向量空间模型,其中,词频-逆向文件频率(TF-IDF)的计算公式如下:
TF-IDF=TF×IDF;
式中,TF表示每个文本中每个词的词频值;IDF表示每个文本中每个词的逆文本频率值;
余弦相似性函数如下:
Figure BDA0003482928570000031
式中,di,dj分别表示第i个文本,第j个文本;dik,djk分别表示文本i中第个k词,文本j中第k个词;k表示文本中词的个数,其范围是[1,L,n];n表示文本向量维度。
进一步地,所述步骤S3包括如下步骤:
利用主题模型提取出文档间的语义信息,结合基于的向量空间模型的tf-idf权重词向量,结合余弦相似性函数计算文本间的相似度,
Figure BDA0003482928570000032
式中,di,dj分别表示第i个文本,第j个文本;dis,djs分别表示文本i中第s个主题数,文本j中第s个主题数;m表示主题向量维度。
进一步地,所述步骤S4中,将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性加权,生成相似矩阵,实现文本间相似度的有效计算,其计算公式如下所示:
sim(i,j)=α*simvsm(di,dj)+(1-α)*simlda(di,dj)
式中,α∈(0,1)为线性参数,表示两种模型的线性加权值。
进一步地,所述步骤S5中,利用k-means聚类算法将相似度高的文本聚合在一起,然后完成关键词的提取,作为用户感兴趣的主题信息,将文本在主题中的概率作为主题的权重,从而构建用户兴趣模型。
与现有技术相比,本发明具有如下有益效果:
本发明所提出的融合向量空间模型与主题模型的用户兴趣构建方法是一种结合了向量空间模型、基于主题模型的构建方法和k-means聚类算法的构建方法。
通过对真实实例进行测试表明,本发明所提出的方法能够有效地提高用户兴趣模型质量、准确性和个性化信息服务的质量。此方法弥补了基于传统用户兴趣模型构建存在的缺陷,从一定程度上准确性地提取用户的兴趣信息,增强了数据语义信息,有助于提升方法的构建性能。
附图说明
图1为本发明实施例一种基于词向量和主题模型的用户兴趣模型构建的方法的流程图。
图2为本发明实施例中的数据预处理流程图。
图3为本发明实施例中的构建VSM的流程图。
图4为本发明实施例中的LDA主题模型构建流程。
图5为本发明实施例中的k-means聚类算法流程图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于词向量和主题模型的用户兴趣模型构建的方法,首先,通过统计特征词的个数来确定文本的特征维度,然后对每篇文本的所有特征词进行权重计算,完成向量空间模型的构建;其次,利用LDA模型提取出文档间的语义信息,结合基于VSM的tf-idf权重词向量完成主体模型的构建,紧接着,将上述两种方法进行线性加权融合起来,实现文本间相似性的有效计算;最后,利用k-means聚类算法提取用户的兴趣;具体的,包括如下步骤:
步骤1、语料库的构建及数据预处理,其处理过程参考流程图2;
采用搜狗新闻相关数据集,在使用数据集之前,首先对数据集进行预处理操作,主要包括去除无用符号、编码格式转换、降噪、分词处理以及去除停用词等几个步骤。
步骤2、构建向量空间模型,其模型构建的流程参考图3;
步骤2.1、通过统计特征词的个数来确定完成预处理的数据集的特征维度,即生成特征词典;
步骤2.2、利用tf-idf对每篇文本的所有特征词进行权重计算;
步骤2.2.1、计算每个文本中每个词的词频TF值;
Figure BDA0003482928570000051
步骤2.2.2、再分别计算每个文本中每个词的逆文本频率IDF值;
Figure BDA0003482928570000052
步骤2.2.3、最后将每个词的tf值和idf值合并为tf-idf值;
TF-IDF=TF×IDF
步骤2.3、将每个文本按照权值排序后构建向量,并计算两两向量之间的余弦值;其相似性计算利用余弦相似性函数:
Figure BDA0003482928570000053
式中,di,dj分别表示第i个文本,第j个文本;dik,djk分别表示文本i中第个k词,文本j中第k个词;k表示文本中词的个数,其范围是[1,L,n];n表示文本向量维度。
步骤3、主题模型的构建,采用LDA主题模型进一步分析,其LDA主题构建流程参考图4。
步骤3.1、设置主题数、迭代次数和每个主题特征词的个数等相关主题模型参数;
步骤3.2、将步骤1得到的数据集输出到LDA主题模型中进行模型训练;
步骤3.3、输出LDA主题,将数据输入到训练好的模型进行测试,然后将所有的文本构建出主题并输出。
步骤3.4、输出LDA主题分布矩阵。观测和分析主题分布矩阵,发现不足并优化模型参数,重复步骤3.2和步骤3.3,直到步骤3.3)中输出的每个LDA主题能够明显地表达出相同的主题。在最终优化好的模型中测试数据并输出LDA主题分布矩阵,即其元素值表示数据集中每个文本生成隐主题的概率。
步骤3.5、利用余弦相似性函数计算每个文本的隐主题的相似性,其公式为:
Figure BDA0003482928570000061
式中,di,dj分别表示第i个文本,第j个文本;dis,djs分别表示文本i中第s个主题数,文本j中第s个主题数;m表示主题向量维度。
步骤4、将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性结合。
将步骤2.3和步骤3.5计算的结果进行线性结合进行文本间相似性的有效计算,其计算公式如下所示:
sim(i,j)=α*simvsm(di,dj)+(1-α)*simlda(di,dj) (6)
式中,α∈(0,1)为线性参数,表示两种模型的线性加权值。
步骤5、通过k-means聚类算法将得到的文本相关性强的聚合在一起,提取用户兴趣,从而生成用户兴趣模型。其k-means聚类算法的实现流程参考图5。
步骤5.1、确认聚类数目k,即生成聚类的数量;
步骤5.2、任意选择k个对象作为初始聚类的中心点;
步骤5.3、计算每个数据到k个聚类中心的最小距离,根据计算结果,将每个数据分到与其聚类最小的聚类中;
步骤5.4、根据均值计算各聚类新的中心点,与上个中心点对比,无变化即停止,输出k个分类好的聚类,若有变化则转到步骤5.2进行循环计算,直到无变化输出k个分类好的聚类。
实施例
实验数据集采用公开搜狗新闻数据集,来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。首先对这些文本数据进行预处理,包括过滤停用词、去除无用符号、编码格式转换、降噪、分词处理等。然后,通过把文本向量化构建文本-特征词矩阵,为下一步的实验分析做准备。在训练LDA主题模型时需要主题数目、样本迭代次数、字典、超参数λ、超参数β等参数。实验过程中使用了自定义的词典、160个主题数目,其他的参数则使用LDA模型默认值。聚类结果评价指标使用F值,原理是利用查全率R和查准率P来对聚类结果的质量进行评价,其计算方法如下:
Figure BDA0003482928570000071
Figure BDA0003482928570000072
Figure BDA0003482928570000073
其中,Ni表示原始数据集中类标为i的样本数量,Nj表示聚类结果中类标为j的对象的数量,Nij是数据集中类标为i的簇并且聚类结果中类标为j的簇的交集中所含样本的数量。线性融合因子的取值不同,使实验结果发生变化。通过实验测试α依次从0.1到0.8,观察实验结果的变化,选择最优值,根据实验结果选取α=0.6为最佳的融合参数。通过实验可以看出,本发明对用户兴趣模型的构建是有效的,能提供更高的个性化信息服务,从而进一步验证了本发明提出的方法有效性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于词向量和主题模型的用户兴趣模型构建的方法,其特征在于,包括以下步骤:
S1、语料库的构建及数据预处理;
S2、构建向量空间模型;
S3、构建主题模型;
S4、将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性结合;
S5、通过k-means聚类算法将相似度高的文本的聚合在一起,从而生成用户兴趣模型。
2.根据权利要求1所述的一种基于词向量和主题模型的用户兴趣模型构建的方法,其特征在于,所述步骤S1中,采用搜狗新闻相关数据集,在使用数据集之前,首先需完成数据集的预处理操作,包括去除无用符号、编码格式转换、降噪、分词处理以及去除停用词。
3.根据权利要求1所述的一种基于词向量和主题模型的用户兴趣模型构建的方法,其特征在于,所述步骤S2包括如下步骤:
首先,根据提取完成预处理的数据集的特征,生成特征词典;其次,利用词频-逆向文件频率(TF-IDF)对每个特征项计算生成权重;最后利用余弦相似性函数计算文本间的相似性,构建向量空间模型,其中,词频-逆向文件频率(TF-IDF)的计算公式如下:
TF-IDF=TF×IDF;
式中,TF表示每个文本中每个词的词频值;IDF表示每个文本中每个词的逆文本频率值;
余弦相似性函数如下:
Figure FDA0003482928560000021
式中,di,dj分别表示第i个文本,第j个文本;dik,djk分别表示文本i中第个k词,文本j中第k个词;k表示文本中词的个数,其范围是[1,L,n];n表示文本向量维度。
4.根据权利要求1所述的一种基于词向量和主题模型的用户兴趣模型构建的方法,其特征在于,所述步骤S3包括如下步骤:
利用主题模型提取出文档间的语义信息,结合基于的向量空间模型的tf-idf权重词向量,结合余弦相似性函数计算文本间的相似度,
Figure FDA0003482928560000022
式中,di,dj分别表示第i个文本,第j个文本;dis,djs分别表示文本i中第s个主题数,文本j中第s个主题数;m表示主题向量维度。
5.根据权利要求1所述的一种基于词向量和主题模型的用户兴趣模型构建的方法,其特征在于,所述步骤S4中,将向量空间模型计算的文本相似性与主题模型计算的文本相似性进行线性加权,生成相似矩阵,实现文本间相似度的有效计算,其计算公式如下所示:
sim(i,j)=α*simvsm(di,dj)+(1-α)*simlda(di,dj)
式中,α∈(0,1)为线性参数,表示两种模型的线性加权值。
6.根据权利要求1所述的一种基于词向量和主题模型的用户兴趣模型构建的方法,其特征在于,所述步骤S5中,利用k-means聚类算法将相似度高的文本聚合在一起,然后完成关键词的提取,作为用户感兴趣的主题信息,将文本在主题中的概率作为主题的权重,从而构建用户兴趣模型。
CN202210072886.5A 2022-01-21 2022-01-21 一种基于词向量和主题模型的用户兴趣模型构建的方法 Withdrawn CN114491033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210072886.5A CN114491033A (zh) 2022-01-21 2022-01-21 一种基于词向量和主题模型的用户兴趣模型构建的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210072886.5A CN114491033A (zh) 2022-01-21 2022-01-21 一种基于词向量和主题模型的用户兴趣模型构建的方法

Publications (1)

Publication Number Publication Date
CN114491033A true CN114491033A (zh) 2022-05-13

Family

ID=81472467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210072886.5A Withdrawn CN114491033A (zh) 2022-01-21 2022-01-21 一种基于词向量和主题模型的用户兴趣模型构建的方法

Country Status (1)

Country Link
CN (1) CN114491033A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455555A (zh) * 2023-12-25 2024-01-26 厦门理工学院 基于大数据的电商用户画像分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455555A (zh) * 2023-12-25 2024-01-26 厦门理工学院 基于大数据的电商用户画像分析方法及系统
CN117455555B (zh) * 2023-12-25 2024-03-08 厦门理工学院 基于大数据的电商用户画像分析方法及系统

Similar Documents

Publication Publication Date Title
CN111291188B (zh) 一种智能信息抽取方法及系统
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
Riadi Detection of cyberbullying on social media using data mining techniques
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
Sun et al. Applying Stylometric Analysis Techniques to Counter Anonymity in Cyberspace.
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Gao et al. Sentiment classification for stock news
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
Perrone et al. Lexical semantic change for Ancient Greek and Latin
CN114491033A (zh) 一种基于词向量和主题模型的用户兴趣模型构建的方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
Mustafa et al. Optimizing document classification: Unleashing the power of genetic algorithms
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels
Huang et al. Apply Data Mining Techniques to Library Circulation Records and Usage Patterns Analysis
Zheng Logical Intelligent Detection Algorithm of Chinese Language Articles Based on Text Mining
CN112948544B (zh) 一种基于深度学习与质量影响的图书检索方法
CN114297479B (zh) 一种结合LDA主题模型和GloVe词向量技术的API推荐方法
Chen Short text classification based on word2vec and improved TDFIDF merge weighting
Che et al. A feature and deep learning model recommendation system for mobile application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220513