CN111339289B - 一种基于商品评论的主题模型推断方法 - Google Patents
一种基于商品评论的主题模型推断方法 Download PDFInfo
- Publication number
- CN111339289B CN111339289B CN202010151453.XA CN202010151453A CN111339289B CN 111339289 B CN111339289 B CN 111339289B CN 202010151453 A CN202010151453 A CN 202010151453A CN 111339289 B CN111339289 B CN 111339289B
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- words
- semantic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 24
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于商品评论的主题模型推断方法,首先对评论信息文献集D进行文本预处理,再利用文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题‑词项的后验概率分布;进行局部词嵌入训练和全局词嵌入训练,利用局部词嵌入模型和全局词嵌入模型获得词汇表V中词的向量表示;对获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算,对主题模型中的隐藏变量主题‑词项的后验概率分布进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。本发明解决了现有技术中存在的主题模型在主题一致性上表现较差以及主题分类不明确的问题。
Description
技术领域
本发明属于短文本商品评论信息主题模型技术领域,涉及一种基于商品评论的主题模型推断方法。
背景技术
电子商务平台的飞速发展,使得越来越多的用户参与其中,已累积了大量的用户评论信息。因此,研究用户商品的评论信息及其蕴含的知识越来越受到学术和企业界的重视,其中评论信息主题模型的研究是基础。迄今为止,主题模型推断方法主要有基于词对的主题模型、基于标签的主题模型等。上述模型虽然都能较好地提取出传统文本中隐含的主题,且对于短文本评论信息也能通过将其聚合成长的伪文档或限制文档主题分布数量达到解决数据稀疏的问题。但短文本的用户商品评论信息由于没有足够的上下文,具有语义稀疏的特点,虽然可通过引入外部知识,利用外部语料库信息进行词嵌入训练,以增加词的语义信息。但在实际应用上仍存在着一些缺陷,比如在外部知识训练的词嵌入模型中,一些词存在语义编码信息与短文本中不一致的现象,使得主题模型在主题一致性上表现较差;此外对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,这也导致了主题分类不明确的问题,降低了模型的实际应用效果。
发明内容
本发明的目的是提供一种基于商品评论的主题模型推断方法,解决了现有技术中存在的因语义编码信息与短文本中不一致的现象,使得主题模型在主题一致性上表现较差以及对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,导致了主题分类不明确的问题。
本发明所采用的技术方案是,一种基于商品评论的主题模型推断方法,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;
步骤2,利用步骤1的文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用全局词嵌入模型与局部词嵌入模型分别获得词汇表V中词的向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算;
步骤5,利用步骤4中得到的词的语义增强结果与Gibbs Sampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(w|z=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。
本发明的特征还在于,
步骤1中对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本。
步骤2中的主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项后验概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词每个词都由主题-词项多项式分布独立产生,p(w|d)表示为文档d中词w的概率。
步骤2中利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤3具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入空间中获得词汇表V中词的局部词嵌入向量与全局词嵌入向量表示。
步骤4对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,进一步得到词与词之间的语义相似性,进而进行语义增强计算,具体步骤为:
步骤4.1,通过式(1)计算词与词之间的余弦相似度:
其中,v(w)为词w的向量表示,v(wi)为词wi的向量表示;
步骤4.2,利用步骤4.1中的公式计算词w与词wi的全局词嵌入向量的余弦相似度simg(w,wi)与局部词嵌入向量的余弦相似度siml(w,wi),求和再取平均值作为这两个词的语义相似度,用公式(2)表示:
其中,SR(w,wi)表示词w和词wi的语义相似度;
步骤4.3,根据步骤4.2计算的语义相似度,为词w构建语义相关词集Mw,Mw={wi|wi∈V,SR(w,wi)>ε},参数ε取值为0.6,V为文献集D对应的词汇表;
其中,w为采样词,wi为语义相关词集Mw中的词,当w=wi时,语义增强系数:为1;当w不等于wi时,对Mw中的一部分词进行语义增强,先将Mw中的词按照语义相关度降序排列,然后选取前num个作为进行语义增强的词,计算语义权重比如公式(4):
步骤5具体为:
步骤5.1,在每一次迭代过程中,利用Gibbs Sampling的方法从文献集D采样一篇文档d,并记录其相关的统计量,用mk表示文献集D中属于k主题的文档个数;
步骤5.2,用步骤4中语义增强的方法对相关词集Mw中的wi进行削减更新,具体过程为:
步骤5.2.1,更新主题k的文档数量,mk=mk-1;
步骤5.3,为文档d重新采样一个新主题zd,重新采样一个新主题遵从条件概率:
并更新相关统计量:
(1)更新主题k的文档数量:mk=mk+1;
步骤5.4,最后利用步骤5.1-5.3更新后的统计量计算步骤2中的主题-词项后验概率分布,计算公式如式(8)所示,
完成主题模型的推断。
步骤5.5,实现文档的主题概率近似计算如式(9)所示:
其中p(z=k|w)表示词w属于主题k的概率,计算公式如式(10)所示:
p(z=k|w)∝p(z=k)p(w|z=k) (10)
本发明的有益效果是:
本发明通过利用狄利克雷混合主题模型进行建模;然后对外部知识语料库进行全局词嵌入训练,获取词的外部知识丰富词的语义信息,对短文本进行局部词嵌入训练获取词的上下文信息,解决与全局词嵌入训练上词语义信息编码不一致的问题,联合全局词嵌入与局部词嵌入进行词的相似度计算,根据词的语义相似度所占的比重进行词的语义增强;最后通过模型推断获得词项-主题的后验概率分布进而计算出短文本所属的主题类别。解决了现有技术存在主题模型在主题一致性上表现较差,对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,这也导致了主题分类不明确的问题,降低了模型的实际应用效果的问题,实现评论主题精准分类且主题分类一致的效果,这可广泛应用在电子商务网站用户购物评价的分析中,应用价值高。
附图说明
图1是本发明一种基于商品评论的主题模型推断方法的流程图;
图2是主题模型DMM的生成过程;
图3是文档分类实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于商品评论的主题模型推断方法,其流程如图1所示,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本;
步骤2,利用步骤1的文献集D进行建模,如图2所示:生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z表示为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词每个词都由主题-词项多项式分布独立产生,p(w|d)表示为文档d中词w的概率;图2中α,β为先验参数,k表示主题,z为主题变量,w表示词项,D表示文献集,θ为文档主题分布表示,φ表示为主题-词项分布;
利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库,即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用局部词嵌入模型与全局词嵌入模型分别获得词汇表V中词的向量表示;具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入空间中获得词汇表V中词的局部词嵌入向量与全局词嵌入向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,进一步得到词与词之间的语义相似性,进而进行语义增强计算;具体步骤为:
步骤4.1,通过式(1)计算词与词之间的余弦相似度:
其中,v(w)为词w的向量表示,v(wi)为词wi的向量表示;
步骤4.2,利用步骤4.1中的公式计算词w与词wi的全局词嵌入向量的余弦相似度simg(w,wi)与局部词嵌入向量的余弦相似度siml(w,wi),求和再取平均值作为这两个词的语义相似度,用公式(2)表示:
其中,SR(w,wi)表示词w和词wi的语义相似度;
步骤4.3,根据步骤4.2计算的语义相似度,为词w构建语义相关词集Mw,Mw={wi|wi∈V,SR(w,wi)>ε},参数ε取值为0.6,V为文献集D对应的词汇表;
其中,w为采样词,wi为语义相关词集Mw中的词,当w=wi时,语义增强系数:为1;当w不等于wi时,对Mw中的一部分词进行语义增强,先将Mw中的词按照语义相关度降序排列,然后选取前num个作为进行语义增强的词,计算语义权重比如公式(4):
步骤5,利用步骤4中得到的词的语义增强结果与Gibbs Sampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(w|z=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算,具体为:
步骤5.1,在每一次迭代过程中,利用Gibbs Sampling的方法从文献集D采样一篇文档d,并记录其相关的统计量,用mk表示文献集D中属于k主题的文档个数;
步骤5.2,用步骤4中语义增强的方法对相关词集Mw中的wi进行削减更新,具体过程为:
步骤5.2.1,更新主题k的文档数量,mk=mk-1;
步骤5.3,为文档d重新采样一个新主题zd,重新采样一个新主题遵从条件概率:
并更新相关统计量:
(1)更新主题k的文档数量:mk=mk+1;
步骤5.4,最后利用步骤5.1-5.3更新后的统计量计算步骤2中的主题-词项后验概率分布,计算公式如式(8)所示,
完成主题模型的推断。
步骤5.5,实现文档的主题概率近似计算如式(9)所示:
其中p(z=k|w)表示词w属于主题k的概率,计算公式如式(10)所示:
p(z=k|w)∝p(z=k)p(w|z=k) (10)
步骤5的过程如表1所示:
实施例
本专利的有效性使用web Snippets数据集和Amazon Review数据集进行验证。WebSnippets数据集包括12340个搜索片段,其中每个片段属于8个类别中的一个类别。AmazonReview数据集是从1996年5月到2014年7月的亚马逊产品评论信息,其中每个片段属于7个类别中的一个类别,实验从中随机采样20000条数据作为验证的数据集,实验统一设置公共参数值α=50/K、β=0.01、num=10,最大迭代轮次为1500次,预处理之后的数据集信息如表2所示:
表2
实验在主题分类精度与主题一致性上进行模型评估,并与DMM、BTM和GPU-DMM模型进行实验对比。
(1)主题分类精度
在短文本分类实验中,用主题模型推断的文档主题概率p(z|d)来表示文档,应用公式(9)进行计算。用支持向量机分类器对文档进行分类,分类的精度越高,主题模型学习到的主题就越合理,主题之间的区分度越高,分类的执行效果就越好。其中分类精度通过5折交叉验证来计算,图3给出了与其他基线模型的实验结果对比,图3(a)为Snippets数据集主题分类精度图3(b)为Amazon数据集主题分类精度,从图3(a)与图3(b)中可看出,本发明提出的方法在两个数据集上的分类效果比其他模型都要好。
(2)主题一致性
主题一致性实验使用PMI-Score值来验证主题一致性。计算PMI-Score值时,需利用外部大规模文本数据集(维基百科),基于点态互信息来测量主题相关性。较高的PMI-Score值表明主题模型推断的主题更好。
给定主题k和该主题概率排序为前T的词(w1,...,wT),主题k的PMI值的计算公式如下:
其中P(wi,wj)为词对wi和wj在外部数据集(维基百科)中共现的概率,P(wi)为词wi在外部数据集中出现的概率。
实验给出在主题-词项分布排列前10的主题词,主题个数K分别为20,40,60,80上的主题一致性评估结果,如表3所示:
表3
从上表3可以看出,本发明提出的方法在主题一致性上表现出了良好的结果,都优于其他主题模型。
本发明的商品评论信息主题模型推断方法,通过利用狄利克雷混合主题模型进行建模;然后对外部知识语料库进行全局词嵌入训练,获取词的外部知识丰富词的语义信息,对短文本进行局部词嵌入训练获取词的上下文信息,解决与全局词嵌入训练上词语义信息编码不一致的问题,联合全局词嵌入与局部词嵌入进行词的相似度计算,根据词的语义相似度所占的比重进行词的语义增强;最后通过模型推断获得词项-主题的后验概率分布进而计算出短文本所属的主题类别。解决了商品评论信息中词的语义相关度计算及语义增强的问题,实现评论主题精准分类且主题分类一致的效果,这可广泛应用在电子商务网站用户购物评价的分析中,应用价值高。
Claims (3)
1.一种基于商品评论的主题模型推断方法,其特征在于,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;
步骤2,利用步骤1的文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);
所述步骤2中的主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z表示为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词每个词都由主题-词项多项式分布独立产生,p(w|d)表示为文档d中词w的概率;
所述步骤2中利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库,即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用局部词嵌入模型与全局词嵌入模型分别获得词汇表V中词的向量表示;
所述步骤3具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入空间中获得词汇表V中词的局部词嵌入向量与全局词嵌入向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算;
所述步骤4具体步骤为:
步骤4.1,通过式(1)计算词与词之间的余弦相似度:
其中,v(w)为词w的向量表示,v(wi)为词wi的向量表示;
步骤4.2,利用步骤4.1中的公式计算词w与词wi的全局词嵌入向量的余弦相似度simg(w,wi)与局部词嵌入向量的余弦相似度siml(w,wi),求和再取平均值作为这两个词的语义相似度,用公式(2)表示:
其中,SR(w,wi)表示词w和词wi的语义相似度;
步骤4.3,根据步骤4.2计算的语义相似度,为词w构建语义相关词集Mw,Mw={wi|wi∈V,SR(w,wi)>ε},参数ε取值为0.6,V为文献集D对应的词汇表;
其中,w为采样词,wi为语义相关词集Mw中的词,当w=wi时,语义增强系数:为1;当w不等于wi时,对Mw中的一部分词进行语义增强,先将Mw中的词按照语义相关度降序排列,然后选取前num个作为进行语义增强的词,计算语义权重比如公式(4):
步骤5,利用步骤4中得到的词的语义增强结果与Gibbs Sampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(wz=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。
2.根据权利要求1所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤1中对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本。
3.根据权利要求1所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤5具体为:
步骤5.1,在每一次迭代过程中,利用Gibbs Sampling的方法从文献集D采样一篇文档d,并记录其相关的统计量,用mk表示文献集D中属于k主题的文档个数;
步骤5.2,用步骤4中语义增强的方法对相关词集Mw中的wi进行削减更新,具体过程为:
步骤5.2.1,更新主题k的文档数量,mk=mk-1;
步骤5.3,为文档d重新采样一个新主题zd,重新采样一个新主题遵从条件概率:
并更新相关统计量:
(1)更新主题k的文档数量:mk=mk+1;
步骤5.4,最后利用步骤5.1-5.3更新后的统计量计算步骤2中的主题-词项后验概率分布,计算公式如式(8)所示,
完成主题模型的推断;
步骤5.5,实现文档的主题概率近似计算如式(9)所示:
其中p(z=k|w)表示词w属于主题k的概率,计算公式如式(10)所示:
p(z=k|w)∝p(z=k)p(w|z=k) (10)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151453.XA CN111339289B (zh) | 2020-03-06 | 2020-03-06 | 一种基于商品评论的主题模型推断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151453.XA CN111339289B (zh) | 2020-03-06 | 2020-03-06 | 一种基于商品评论的主题模型推断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339289A CN111339289A (zh) | 2020-06-26 |
CN111339289B true CN111339289B (zh) | 2022-10-28 |
Family
ID=71185947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151453.XA Active CN111339289B (zh) | 2020-03-06 | 2020-03-06 | 一种基于商品评论的主题模型推断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339289B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850336B (zh) * | 2021-09-29 | 2024-09-27 | 平安科技(深圳)有限公司 | 语义相似度模型的评估方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182176A (zh) * | 2017-12-29 | 2018-06-19 | 太原理工大学 | 增强btm主题模型主题词语义相关性和主题凝聚度方法 |
CN109840324A (zh) * | 2019-01-09 | 2019-06-04 | 武汉大学 | 一种语义强化主题模型及主题演化分析方法 |
CN110134958A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于语义词网络的短文本主题挖掘方法 |
AU2019100968A4 (en) * | 2019-09-10 | 2020-01-23 | Chen, Jiayi Miss | A Credit Reporting Evaluation System Based on Mixed Machine Learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11379668B2 (en) * | 2018-07-12 | 2022-07-05 | Samsung Electronics Co., Ltd. | Topic models with sentiment priors based on distributed representations |
-
2020
- 2020-03-06 CN CN202010151453.XA patent/CN111339289B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182176A (zh) * | 2017-12-29 | 2018-06-19 | 太原理工大学 | 增强btm主题模型主题词语义相关性和主题凝聚度方法 |
CN109840324A (zh) * | 2019-01-09 | 2019-06-04 | 武汉大学 | 一种语义强化主题模型及主题演化分析方法 |
CN110134958A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于语义词网络的短文本主题挖掘方法 |
AU2019100968A4 (en) * | 2019-09-10 | 2020-01-23 | Chen, Jiayi Miss | A Credit Reporting Evaluation System Based on Mixed Machine Learning |
Non-Patent Citations (2)
Title |
---|
"GLTM: A Global and Local Word Embedding-Based Topic Model for Short Texts";Wenxin Liang等;《IEEE Access ( Volume: 6)》;20180806;第43612-43621页 * |
一种具有降噪能力的概率主题模型;李晶等;《计算机与数字工程》;20170220(第02期);176-181 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339289A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547739B (zh) | 一种文本语义相似度分析方法 | |
CN107423282B (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN109670191B (zh) | 机器翻译的校准优化方法、装置与电子设备 | |
Xie et al. | Detecting duplicate bug reports with convolutional neural networks | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN105631018B (zh) | 基于主题模型的文章特征抽取方法 | |
CN110727880A (zh) | 一种基于词库与词向量模型的敏感语料检测方法 | |
CN104915448A (zh) | 一种基于层次卷积网络的实体与段落链接方法 | |
CN111666350B (zh) | 一种基于bert模型的医疗文本关系抽取的方法 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
CN111241410A (zh) | 一种行业新闻推荐方法及终端 | |
CN111339289B (zh) | 一种基于商品评论的主题模型推断方法 | |
CN118277522A (zh) | 一种提升大语言模型准确性的rag混合检索方法及装置 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Wongchaisuwat | Automatic keyword extraction using textrank | |
CN110765762A (zh) | 一种大数据背景下在线评论文本最佳主题提取系统和方法 | |
CN103186573B (zh) | 一种确定搜索需求强度的方法、需求识别的方法及其装置 | |
CN115309995A (zh) | 一种基于需求文本的科技资源推送方法和装置 | |
CN112417154B (zh) | 确定文献相似度的方法和装置 | |
CN112256970B (zh) | 一种新闻文本推送方法、装置、设备及存储介质 | |
CN104484346B (zh) | 一种基于混合距离依赖中餐馆过程的层次化主题建模方法 | |
CN110275957B (zh) | 姓名消歧方法、装置、电子设备及计算机可读存储介质 | |
CN108256055B (zh) | 一种基于数据增强的主题建模方法 | |
CN112559582A (zh) | 一种基于样本对关系传播的小样本学习方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |