CN111339289B - 一种基于商品评论的主题模型推断方法 - Google Patents

一种基于商品评论的主题模型推断方法 Download PDF

Info

Publication number
CN111339289B
CN111339289B CN202010151453.XA CN202010151453A CN111339289B CN 111339289 B CN111339289 B CN 111339289B CN 202010151453 A CN202010151453 A CN 202010151453A CN 111339289 B CN111339289 B CN 111339289B
Authority
CN
China
Prior art keywords
word
topic
words
semantic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010151453.XA
Other languages
English (en)
Other versions
CN111339289A (zh
Inventor
张晓滨
高娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Keqiao District West Textile Industry Innovation Research Institute
Xian Polytechnic University
Original Assignee
Shaoxing Keqiao District West Textile Industry Innovation Research Institute
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing Keqiao District West Textile Industry Innovation Research Institute, Xian Polytechnic University filed Critical Shaoxing Keqiao District West Textile Industry Innovation Research Institute
Priority to CN202010151453.XA priority Critical patent/CN111339289B/zh
Publication of CN111339289A publication Critical patent/CN111339289A/zh
Application granted granted Critical
Publication of CN111339289B publication Critical patent/CN111339289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于商品评论的主题模型推断方法,首先对评论信息文献集D进行文本预处理,再利用文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题‑词项的后验概率分布;进行局部词嵌入训练和全局词嵌入训练,利用局部词嵌入模型和全局词嵌入模型获得词汇表V中词的向量表示;对获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算,对主题模型中的隐藏变量主题‑词项的后验概率分布进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。本发明解决了现有技术中存在的主题模型在主题一致性上表现较差以及主题分类不明确的问题。

Description

一种基于商品评论的主题模型推断方法
技术领域
本发明属于短文本商品评论信息主题模型技术领域,涉及一种基于商品评论的主题模型推断方法。
背景技术
电子商务平台的飞速发展,使得越来越多的用户参与其中,已累积了大量的用户评论信息。因此,研究用户商品的评论信息及其蕴含的知识越来越受到学术和企业界的重视,其中评论信息主题模型的研究是基础。迄今为止,主题模型推断方法主要有基于词对的主题模型、基于标签的主题模型等。上述模型虽然都能较好地提取出传统文本中隐含的主题,且对于短文本评论信息也能通过将其聚合成长的伪文档或限制文档主题分布数量达到解决数据稀疏的问题。但短文本的用户商品评论信息由于没有足够的上下文,具有语义稀疏的特点,虽然可通过引入外部知识,利用外部语料库信息进行词嵌入训练,以增加词的语义信息。但在实际应用上仍存在着一些缺陷,比如在外部知识训练的词嵌入模型中,一些词存在语义编码信息与短文本中不一致的现象,使得主题模型在主题一致性上表现较差;此外对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,这也导致了主题分类不明确的问题,降低了模型的实际应用效果。
发明内容
本发明的目的是提供一种基于商品评论的主题模型推断方法,解决了现有技术中存在的因语义编码信息与短文本中不一致的现象,使得主题模型在主题一致性上表现较差以及对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,导致了主题分类不明确的问题。
本发明所采用的技术方案是,一种基于商品评论的主题模型推断方法,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;
步骤2,利用步骤1的文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用全局词嵌入模型与局部词嵌入模型分别获得词汇表V中词的向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算;
步骤5,利用步骤4中得到的词的语义增强结果与Gibbs Sampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(w|z=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。
本发明的特征还在于,
步骤1中对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本。
步骤2中的主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项后验概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词
Figure BDA0002402575680000031
每个词都由主题-词项多项式分布
Figure BDA0002402575680000032
独立产生,p(w|d)表示为文档d中词w的概率。
步骤2中利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤2.4,遍历每个词
Figure BDA0002402575680000033
采样一个词
Figure BDA0002402575680000034
其中,
Figure BDA0002402575680000035
为隐藏变量,即主题-词项的后验概率分布p(w|z=k)。
步骤3具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入空间中获得词汇表V中词的局部词嵌入向量与全局词嵌入向量表示。
步骤4对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,进一步得到词与词之间的语义相似性,进而进行语义增强计算,具体步骤为:
步骤4.1,通过式(1)计算词与词之间的余弦相似度:
Figure BDA0002402575680000041
其中,v(w)为词w的向量表示,v(wi)为词wi的向量表示;
步骤4.2,利用步骤4.1中的公式计算词w与词wi的全局词嵌入向量的余弦相似度simg(w,wi)与局部词嵌入向量的余弦相似度siml(w,wi),求和再取平均值作为这两个词的语义相似度,用公式(2)表示:
Figure BDA0002402575680000042
其中,SR(w,wi)表示词w和词wi的语义相似度;
步骤4.3,根据步骤4.2计算的语义相似度,为词w构建语义相关词集Mw,Mw={wi|wi∈V,SR(w,wi)>ε},参数ε取值为0.6,V为文献集D对应的词汇表;
步骤4.4,根据采样词w,对与采样词相关的语义相关词集Mw中的部分词进行语义增强计算,语义增强系数
Figure BDA0002402575680000044
的计算由公式(3)给出:
Figure BDA0002402575680000043
其中,w为采样词,wi为语义相关词集Mw中的词,当w=wi时,语义增强系数:
Figure BDA0002402575680000045
为1;当w不等于wi时,对Mw中的一部分词进行语义增强,先将Mw中的词按照语义相关度降序排列,然后选取前num个作为进行语义增强的词,计算语义权重比
Figure BDA0002402575680000051
如公式(4):
Figure BDA0002402575680000052
步骤4.5,根据步骤4.4中的
Figure BDA0002402575680000053
进行词的语义增强计算,具体如下:
Figure BDA0002402575680000054
Figure BDA0002402575680000055
其中,其中
Figure BDA0002402575680000056
表示与主题k相关的词wi的个数,
Figure BDA00024025756800000511
表示文档d中出现的词w的个数,nk表示与主题k相关的词的个数。
步骤5具体为:
步骤5.1,在每一次迭代过程中,利用Gibbs Sampling的方法从文献集D采样一篇文档d,并记录其相关的统计量,用mk表示文献集D中属于k主题的文档个数;
步骤5.2,用步骤4中语义增强的方法对相关词集Mw中的wi进行削减更新,具体过程为:
步骤5.2.1,更新主题k的文档数量,mk=mk-1;
步骤5.2.2,对于每个词w∈d,更新相关统计量,
Figure BDA0002402575680000057
步骤5.2.3,对于每个词w的语义相关词集Mw中的wi做更新,计算语义增强系数
Figure BDA0002402575680000058
然后进行语义削减:
Figure BDA0002402575680000059
步骤5.3,为文档d重新采样一个新主题zd,重新采样一个新主题遵从条件概率:
Figure BDA00024025756800000510
其中下标
Figure BDA0002402575680000066
表示不包括文本d;
并更新相关统计量:
(1)更新主题k的文档数量:mk=mk+1;
(2)对于每个词w∈d,更新相关统计量:
Figure BDA0002402575680000061
(3)对于每个词w的语义相关词集Mw中的wi做更新,计算语义提升系数
Figure BDA0002402575680000062
然后进行语义增强:
Figure BDA0002402575680000063
步骤5.4,最后利用步骤5.1-5.3更新后的统计量计算步骤2中的主题-词项后验概率分布,计算公式如式(8)所示,
Figure BDA0002402575680000064
完成主题模型的推断。
步骤5.5,实现文档的主题概率近似计算如式(9)所示:
Figure BDA0002402575680000065
其中p(z=k|w)表示词w属于主题k的概率,计算公式如式(10)所示:
p(z=k|w)∝p(z=k)p(w|z=k) (10)
本发明的有益效果是:
本发明通过利用狄利克雷混合主题模型进行建模;然后对外部知识语料库进行全局词嵌入训练,获取词的外部知识丰富词的语义信息,对短文本进行局部词嵌入训练获取词的上下文信息,解决与全局词嵌入训练上词语义信息编码不一致的问题,联合全局词嵌入与局部词嵌入进行词的相似度计算,根据词的语义相似度所占的比重进行词的语义增强;最后通过模型推断获得词项-主题的后验概率分布进而计算出短文本所属的主题类别。解决了现有技术存在主题模型在主题一致性上表现较差,对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,这也导致了主题分类不明确的问题,降低了模型的实际应用效果的问题,实现评论主题精准分类且主题分类一致的效果,这可广泛应用在电子商务网站用户购物评价的分析中,应用价值高。
附图说明
图1是本发明一种基于商品评论的主题模型推断方法的流程图;
图2是主题模型DMM的生成过程;
图3是文档分类实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于商品评论的主题模型推断方法,其流程如图1所示,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本;
步骤2,利用步骤1的文献集D进行建模,如图2所示:生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z表示为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词
Figure BDA0002402575680000081
每个词都由主题-词项多项式分布
Figure BDA0002402575680000082
独立产生,p(w|d)表示为文档d中词w的概率;图2中α,β为先验参数,k表示主题,z为主题变量,w表示词项,D表示文献集,θ为文档主题分布表示,φ表示为主题-词项分布;
利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤2.4,遍历每个词
Figure BDA0002402575680000083
采样一个词
Figure BDA0002402575680000084
其中,
Figure BDA0002402575680000085
为隐藏变量,即主题-词项的后验概率分布p(w|z=k);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库,即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用局部词嵌入模型与全局词嵌入模型分别获得词汇表V中词的向量表示;具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入空间中获得词汇表V中词的局部词嵌入向量与全局词嵌入向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,进一步得到词与词之间的语义相似性,进而进行语义增强计算;具体步骤为:
步骤4.1,通过式(1)计算词与词之间的余弦相似度:
Figure BDA0002402575680000091
其中,v(w)为词w的向量表示,v(wi)为词wi的向量表示;
步骤4.2,利用步骤4.1中的公式计算词w与词wi的全局词嵌入向量的余弦相似度simg(w,wi)与局部词嵌入向量的余弦相似度siml(w,wi),求和再取平均值作为这两个词的语义相似度,用公式(2)表示:
Figure BDA0002402575680000092
其中,SR(w,wi)表示词w和词wi的语义相似度;
步骤4.3,根据步骤4.2计算的语义相似度,为词w构建语义相关词集Mw,Mw={wi|wi∈V,SR(w,wi)>ε},参数ε取值为0.6,V为文献集D对应的词汇表;
步骤4.4,根据采样词w,对与采样词相关的语义相关词集Mw中的部分词进行语义增强计算,语义增强系数
Figure BDA0002402575680000093
的计算由公式(3)给出:
Figure BDA0002402575680000094
其中,w为采样词,wi为语义相关词集Mw中的词,当w=wi时,语义增强系数:
Figure BDA0002402575680000095
为1;当w不等于wi时,对Mw中的一部分词进行语义增强,先将Mw中的词按照语义相关度降序排列,然后选取前num个作为进行语义增强的词,计算语义权重比
Figure BDA0002402575680000101
如公式(4):
Figure BDA0002402575680000102
步骤4.5,根据步骤4.4中的
Figure BDA0002402575680000103
进行词的语义增强计算,具体如下:
Figure BDA0002402575680000104
Figure BDA0002402575680000105
其中,其中
Figure BDA0002402575680000106
表示与主题k相关的词wi的个数,
Figure BDA0002402575680000107
表示文档d中出现的词w的个数,nk表示与主题k相关的词的个数;
步骤5,利用步骤4中得到的词的语义增强结果与Gibbs Sampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(w|z=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算,具体为:
步骤5.1,在每一次迭代过程中,利用Gibbs Sampling的方法从文献集D采样一篇文档d,并记录其相关的统计量,用mk表示文献集D中属于k主题的文档个数;
步骤5.2,用步骤4中语义增强的方法对相关词集Mw中的wi进行削减更新,具体过程为:
步骤5.2.1,更新主题k的文档数量,mk=mk-1;
步骤5.2.2,对于每个词w∈d,更新相关统计量,
Figure BDA0002402575680000108
步骤5.2.3,对于每个词w的语义相关词集Mw中的wi做更新,计算语义增强系数
Figure BDA0002402575680000109
然后进行语义削减:
Figure BDA00024025756800001010
步骤5.3,为文档d重新采样一个新主题zd,重新采样一个新主题遵从条件概率:
Figure BDA0002402575680000111
其中下标
Figure BDA0002402575680000118
表示不包括文本d;
并更新相关统计量:
(1)更新主题k的文档数量:mk=mk+1;
(2)对于每个词w∈d,更新相关统计量:
Figure BDA0002402575680000112
(3)对于每个词w的语义相关词集Mw中的wi做更新,计算语义提升系数
Figure BDA0002402575680000113
然后进行语义增强:
Figure BDA0002402575680000114
步骤5.4,最后利用步骤5.1-5.3更新后的统计量计算步骤2中的主题-词项后验概率分布,计算公式如式(8)所示,
Figure BDA0002402575680000115
完成主题模型的推断。
步骤5.5,实现文档的主题概率近似计算如式(9)所示:
Figure BDA0002402575680000116
其中p(z=k|w)表示词w属于主题k的概率,计算公式如式(10)所示:
p(z=k|w)∝p(z=k)p(w|z=k) (10)
步骤5的过程如表1所示:
Figure BDA0002402575680000117
Figure BDA0002402575680000121
实施例
本专利的有效性使用web Snippets数据集和Amazon Review数据集进行验证。WebSnippets数据集包括12340个搜索片段,其中每个片段属于8个类别中的一个类别。AmazonReview数据集是从1996年5月到2014年7月的亚马逊产品评论信息,其中每个片段属于7个类别中的一个类别,实验从中随机采样20000条数据作为验证的数据集,实验统一设置公共参数值α=50/K、β=0.01、num=10,最大迭代轮次为1500次,预处理之后的数据集信息如表2所示:
表2
Figure BDA0002402575680000122
Figure BDA0002402575680000131
实验在主题分类精度与主题一致性上进行模型评估,并与DMM、BTM和GPU-DMM模型进行实验对比。
(1)主题分类精度
在短文本分类实验中,用主题模型推断的文档主题概率p(z|d)来表示文档,应用公式(9)进行计算。用支持向量机分类器对文档进行分类,分类的精度越高,主题模型学习到的主题就越合理,主题之间的区分度越高,分类的执行效果就越好。其中分类精度通过5折交叉验证来计算,图3给出了与其他基线模型的实验结果对比,图3(a)为Snippets数据集主题分类精度图3(b)为Amazon数据集主题分类精度,从图3(a)与图3(b)中可看出,本发明提出的方法在两个数据集上的分类效果比其他模型都要好。
(2)主题一致性
主题一致性实验使用PMI-Score值来验证主题一致性。计算PMI-Score值时,需利用外部大规模文本数据集(维基百科),基于点态互信息来测量主题相关性。较高的PMI-Score值表明主题模型推断的主题更好。
给定主题k和该主题概率排序为前T的词(w1,...,wT),主题k的PMI值的计算公式如下:
Figure BDA0002402575680000132
Figure BDA0002402575680000133
其中P(wi,wj)为词对wi和wj在外部数据集(维基百科)中共现的概率,P(wi)为词wi在外部数据集中出现的概率。
实验给出在主题-词项分布排列前10的主题词,主题个数K分别为20,40,60,80上的主题一致性评估结果,如表3所示:
表3
Figure BDA0002402575680000141
从上表3可以看出,本发明提出的方法在主题一致性上表现出了良好的结果,都优于其他主题模型。
本发明的商品评论信息主题模型推断方法,通过利用狄利克雷混合主题模型进行建模;然后对外部知识语料库进行全局词嵌入训练,获取词的外部知识丰富词的语义信息,对短文本进行局部词嵌入训练获取词的上下文信息,解决与全局词嵌入训练上词语义信息编码不一致的问题,联合全局词嵌入与局部词嵌入进行词的相似度计算,根据词的语义相似度所占的比重进行词的语义增强;最后通过模型推断获得词项-主题的后验概率分布进而计算出短文本所属的主题类别。解决了商品评论信息中词的语义相关度计算及语义增强的问题,实现评论主题精准分类且主题分类一致的效果,这可广泛应用在电子商务网站用户购物评价的分析中,应用价值高。

Claims (3)

1.一种基于商品评论的主题模型推断方法,其特征在于,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;
步骤2,利用步骤1的文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);
所述步骤2中的主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z表示为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词
Figure FDA0003813045050000011
每个词都由主题-词项多项式分布
Figure FDA0003813045050000014
独立产生,p(w|d)表示为文档d中词w的概率;
所述步骤2中利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤2.4,遍历每个词
Figure FDA0003813045050000012
采样一个词
Figure FDA0003813045050000015
其中,
Figure FDA0003813045050000013
为隐藏变量,即主题-词项的后验概率分布p(w|z=k);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库,即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用局部词嵌入模型与全局词嵌入模型分别获得词汇表V中词的向量表示;
所述步骤3具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入空间中获得词汇表V中词的局部词嵌入向量与全局词嵌入向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算;
所述步骤4具体步骤为:
步骤4.1,通过式(1)计算词与词之间的余弦相似度:
Figure FDA0003813045050000021
其中,v(w)为词w的向量表示,v(wi)为词wi的向量表示;
步骤4.2,利用步骤4.1中的公式计算词w与词wi的全局词嵌入向量的余弦相似度simg(w,wi)与局部词嵌入向量的余弦相似度siml(w,wi),求和再取平均值作为这两个词的语义相似度,用公式(2)表示:
Figure FDA0003813045050000031
其中,SR(w,wi)表示词w和词wi的语义相似度;
步骤4.3,根据步骤4.2计算的语义相似度,为词w构建语义相关词集Mw,Mw={wi|wi∈V,SR(w,wi)>ε},参数ε取值为0.6,V为文献集D对应的词汇表;
步骤4.4,根据采样词w,对与采样词相关的语义相关词集Mw中的部分词进行语义增强计算,语义增强系数
Figure FDA0003813045050000032
的计算由公式(3)给出:
Figure FDA0003813045050000033
其中,w为采样词,wi为语义相关词集Mw中的词,当w=wi时,语义增强系数:
Figure FDA0003813045050000034
为1;当w不等于wi时,对Mw中的一部分词进行语义增强,先将Mw中的词按照语义相关度降序排列,然后选取前num个作为进行语义增强的词,计算语义权重比
Figure FDA0003813045050000035
如公式(4):
Figure FDA0003813045050000036
步骤4.5,根据步骤4.4中的
Figure FDA0003813045050000037
进行词的语义增强计算,具体如下:
Figure FDA0003813045050000038
Figure FDA0003813045050000039
其中,其中
Figure FDA00038130450500000310
表示与主题k相关的词wi的个数,
Figure FDA00038130450500000311
表示文档d中出现的词w的个数,nk表示与主题k相关的词的个数;
步骤5,利用步骤4中得到的词的语义增强结果与Gibbs Sampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(wz=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。
2.根据权利要求1所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤1中对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本。
3.根据权利要求1所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤5具体为:
步骤5.1,在每一次迭代过程中,利用Gibbs Sampling的方法从文献集D采样一篇文档d,并记录其相关的统计量,用mk表示文献集D中属于k主题的文档个数;
步骤5.2,用步骤4中语义增强的方法对相关词集Mw中的wi进行削减更新,具体过程为:
步骤5.2.1,更新主题k的文档数量,mk=mk-1;
步骤5.2.2,对于每个词w∈d,更新相关统计量,
Figure FDA0003813045050000041
步骤5.2.3,对于每个词w的语义相关词集Mw中的wi做更新,计算语义增强系数
Figure FDA0003813045050000042
然后进行语义削减:
Figure FDA0003813045050000043
步骤5.3,为文档d重新采样一个新主题zd,重新采样一个新主题遵从条件概率:
Figure FDA0003813045050000044
其中下标
Figure FDA0003813045050000045
表示不包括文本d;
并更新相关统计量:
(1)更新主题k的文档数量:mk=mk+1;
(2)对于每个词w∈d,更新相关统计量:
Figure FDA0003813045050000051
(3)对于每个词w的语义相关词集Mw中的wi做更新,计算语义提升系数
Figure FDA0003813045050000052
然后进行语义增强:
Figure FDA0003813045050000053
步骤5.4,最后利用步骤5.1-5.3更新后的统计量计算步骤2中的主题-词项后验概率分布,计算公式如式(8)所示,
Figure FDA0003813045050000054
完成主题模型的推断;
步骤5.5,实现文档的主题概率近似计算如式(9)所示:
Figure FDA0003813045050000055
其中p(z=k|w)表示词w属于主题k的概率,计算公式如式(10)所示:
p(z=k|w)∝p(z=k)p(w|z=k) (10)。
CN202010151453.XA 2020-03-06 2020-03-06 一种基于商品评论的主题模型推断方法 Active CN111339289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010151453.XA CN111339289B (zh) 2020-03-06 2020-03-06 一种基于商品评论的主题模型推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010151453.XA CN111339289B (zh) 2020-03-06 2020-03-06 一种基于商品评论的主题模型推断方法

Publications (2)

Publication Number Publication Date
CN111339289A CN111339289A (zh) 2020-06-26
CN111339289B true CN111339289B (zh) 2022-10-28

Family

ID=71185947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010151453.XA Active CN111339289B (zh) 2020-03-06 2020-03-06 一种基于商品评论的主题模型推断方法

Country Status (1)

Country Link
CN (1) CN111339289B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850336B (zh) * 2021-09-29 2024-09-27 平安科技(深圳)有限公司 语义相似度模型的评估方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182176A (zh) * 2017-12-29 2018-06-19 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN109840324A (zh) * 2019-01-09 2019-06-04 武汉大学 一种语义强化主题模型及主题演化分析方法
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法
AU2019100968A4 (en) * 2019-09-10 2020-01-23 Chen, Jiayi Miss A Credit Reporting Evaluation System Based on Mixed Machine Learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11379668B2 (en) * 2018-07-12 2022-07-05 Samsung Electronics Co., Ltd. Topic models with sentiment priors based on distributed representations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182176A (zh) * 2017-12-29 2018-06-19 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN109840324A (zh) * 2019-01-09 2019-06-04 武汉大学 一种语义强化主题模型及主题演化分析方法
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法
AU2019100968A4 (en) * 2019-09-10 2020-01-23 Chen, Jiayi Miss A Credit Reporting Evaluation System Based on Mixed Machine Learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"GLTM: A Global and Local Word Embedding-Based Topic Model for Short Texts";Wenxin Liang等;《IEEE Access ( Volume: 6)》;20180806;第43612-43621页 *
一种具有降噪能力的概率主题模型;李晶等;《计算机与数字工程》;20170220(第02期);176-181 *

Also Published As

Publication number Publication date
CN111339289A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN106547739B (zh) 一种文本语义相似度分析方法
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
Xie et al. Detecting duplicate bug reports with convolutional neural networks
CN109446341A (zh) 知识图谱的构建方法及装置
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN105631018B (zh) 基于主题模型的文章特征抽取方法
CN110727880A (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN104915448A (zh) 一种基于层次卷积网络的实体与段落链接方法
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN111241410A (zh) 一种行业新闻推荐方法及终端
CN111339289B (zh) 一种基于商品评论的主题模型推断方法
CN118277522A (zh) 一种提升大语言模型准确性的rag混合检索方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Wongchaisuwat Automatic keyword extraction using textrank
CN110765762A (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
CN103186573B (zh) 一种确定搜索需求强度的方法、需求识别的方法及其装置
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN112417154B (zh) 确定文献相似度的方法和装置
CN112256970B (zh) 一种新闻文本推送方法、装置、设备及存储介质
CN104484346B (zh) 一种基于混合距离依赖中餐馆过程的层次化主题建模方法
CN110275957B (zh) 姓名消歧方法、装置、电子设备及计算机可读存储介质
CN108256055B (zh) 一种基于数据增强的主题建模方法
CN112559582A (zh) 一种基于样本对关系传播的小样本学习方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant