CN111090995B - 短文本主题识别方法和系统 - Google Patents

短文本主题识别方法和系统 Download PDF

Info

Publication number
CN111090995B
CN111090995B CN201911116869.1A CN201911116869A CN111090995B CN 111090995 B CN111090995 B CN 111090995B CN 201911116869 A CN201911116869 A CN 201911116869A CN 111090995 B CN111090995 B CN 111090995B
Authority
CN
China
Prior art keywords
short text
distribution
topic
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911116869.1A
Other languages
English (en)
Other versions
CN111090995A (zh
Inventor
姜元春
李怡
钱洋
刘业政
梁瑞成
孙见山
朱婷婷
汪文娟
刘畅
刘心语
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201911116869.1A priority Critical patent/CN111090995B/zh
Publication of CN111090995A publication Critical patent/CN111090995A/zh
Application granted granted Critical
Publication of CN111090995B publication Critical patent/CN111090995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种短文本主题识别方法和系统,涉及数据处理领域。本发明首先基于预训练的主题识别模型,获取待测短文本集合的短文本‑主题分布和主题‑词分布,词包括背景词和主题词;然后基于短文本‑主题分布和主题‑词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。

Description

短文本主题识别方法和系统
技术领域
本发明涉及数据处理技术,具体涉及一种短文本主题识别方法和系统。
背景技术
随着社交媒体和移动应用的快速发展,如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。这些平台往往包含了大量的在线评论数据,这些数据通常内容较少可以被看作是短文本数据。但这类数据数量较多,并且普遍存在随意性语言这对分析该文本对应的主题影响很大。面对这些可用的网络数据,准确发现其对应的主题,对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。
由于大量在线数据的爆发式增长,近年来的研究主要集中在利用大规模的在线数据来推断在线情报,例如,准确理解市场结构对于许多营销管理实践是至关重要的,在真实的市场中,发现可替代的产品可以用指导定价决策、有针对性的广告政策和产品定位。为了降低在线评论这种短文本数据的稀疏性,解决文本聚类问题,提出的T-LDA模型,考虑到短文本数据的特点,检测数据集中的异常值,获取每个集群关注的焦点主题。
然而,模型忽略了背景词(背景词类似于介词,出现频率高,并且与文章主题关联度较低)在主题识别过程中的影响,导致模型不能准确地识别出焦点主题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种短文本主题识别方法和系统,解决了现有技术不能准确的识别出焦点主题的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明还提供一种短文本主题识别方法,所述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
优选的,所述S1具体包括:
获取n条短文本构成的短文本集合D,记为
Figure BDA0002274315700000031
|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>
Figure BDA0002274315700000032
1≤i≤n,表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。
优选的,所述S3具体包括:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure BDA0002274315700000033
和背景词分布/>
Figure BDA0002274315700000034
Figure BDA0002274315700000035
式(1)中:β和β'是狄利克雷分布的超参数;
S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数
Figure BDA0002274315700000036
生成主题分布/>
Figure BDA0002274315700000037
Figure BDA0002274315700000038
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
πm服从参数为ε01的Beta分布,πm
Figure BDA0002274315700000039
构成Beta-Multinomial共轭;
Figure BDA00022743157000000310
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
Figure BDA00022743157000000311
表示短文本m对应的焦点主题分布,服从参数为/>
Figure BDA0002274315700000041
的狄利克雷分布;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
Figure BDA0002274315700000042
式(4)中:
Figure BDA0002274315700000043
服从参数为γ,γ'的Beta分布,用于选择主题词分布,/>
Figure BDA0002274315700000044
与/>
Figure BDA0002274315700000045
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
Figure BDA0002274315700000046
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
当cmn=1时,从短文本主题分布
Figure BDA0002274315700000047
生成主题zmn,之后通过主题词分布/>
Figure BDA0002274315700000048
生成词wmn
当cmn=0时,从背景主题词分布
Figure BDA0002274315700000049
生成词wmn
优选的,所述A1包括:
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法对待测短文本集合中的bm,k、Zmn、Cmn进行抽样;
A10101、基于贝叶斯法则与共轭先验获取πm
Figure BDA0002274315700000051
的联合概率分布,计算每篇短文本中的焦点主题情况bm,k,如式(6):
Figure BDA0002274315700000052
式(6)中:
I[·]是指标函数;
Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量;
Figure BDA0002274315700000053
是n条短文本构成的短文本集合m中对应的主题集合;
Figure BDA0002274315700000054
是指短文本m中对应主题k的词的数量;
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛;
Figure BDA0002274315700000055
式(7)中,
Figure BDA0002274315700000056
表示主题选择器b分配给短文本集合m的次数;
Γ(x)为伽马函数;
A10102、得到的每篇短文本中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
Figure BDA0002274315700000061
式(8)中:
Z-(mn)表示除单词wmn外所有单词对应的主题;
Figure BDA0002274315700000062
表示当cmn=1时,单词v被分配到主题k上的次数;/>
Figure BDA0002274315700000063
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure BDA0002274315700000064
表示短文本集合m中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
A10103、对待测短文本集合中的Cmn进行抽样,如式(9):
Figure BDA0002274315700000065
式(9)中:
Figure BDA0002274315700000066
表示所有由背景主题词分布生成的单词数;
Figure BDA0002274315700000067
表示所有由主题词分布生成的单词书;
Figure BDA0002274315700000068
表示背景主题词分布生成单词v的次数;
Figure BDA0002274315700000069
表示背景主题词分布生成所有词的次数;
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值。
A104、重复步骤A103,完成短文本集合中所有短文本和所述主题的更新。
优选的,所述A2具体包括:
根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):
Figure BDA0002274315700000071
Figure BDA0002274315700000072
Figure BDA0002274315700000073
式中:
Figure BDA0002274315700000074
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure BDA0002274315700000075
表示当cmn=1时,被分配到主题k上的所有单词数;/>
Figure BDA0002274315700000076
表示背景主题词分布生成单词v的次数;
Figure BDA0002274315700000077
表示背景主题词分布生成所有词的次数;
β和β'是分布的超参数;
Nm表示第m条短文本中的单词数;
v∈{1,2,...,V}作为不同词的索引;
α0与α1为分布的超参数;
K表示待测短文本集合中的主题个数;
|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;
Figure BDA0002274315700000081
表示短文本集合m中被分配到主题k上的单词数;
bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
θmk表示主题k在第m条短文本中所占权重;
φkv表示主题词v在该主题下所有词中作占权重;
φv'表示背景词v在所有背景词中所占比重。
优选的,所述A3具体包括:
对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定。
本发明还提供一种短文本主题识别系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
优选的,所述S1具体包括:
获取n条短文本构成的短文本集合D,记为
Figure BDA0002274315700000091
|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>
Figure BDA0002274315700000092
1≤i≤n,表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。/>
优选的,所述S3具体包括:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure BDA0002274315700000093
和背景词分布/>
Figure BDA0002274315700000094
Figure BDA0002274315700000095
式(1)中:β和β'是狄利克雷分布的超参数;
S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数
Figure BDA0002274315700000096
生成主题分布/>
Figure BDA0002274315700000097
Figure BDA0002274315700000098
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
πm服从参数为ε01的Beta分布,πm
Figure BDA0002274315700000101
构成Beta-Multinomial共轭;
Figure BDA0002274315700000102
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
Figure BDA0002274315700000103
表示短文本m对应的焦点主题分布,服从参数为/>
Figure BDA0002274315700000104
的狄利克雷分布;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
Figure BDA0002274315700000105
式(4)中:
Figure BDA0002274315700000106
服从参数为γ,γ'的Beta分布,用于选择主题词分布,/>
Figure BDA0002274315700000107
与/>
Figure BDA0002274315700000108
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
Figure BDA0002274315700000109
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
当cmn=1时,从短文本主题分布
Figure BDA0002274315700000111
生成主题zmn,之后通过主题词分布/>
Figure BDA0002274315700000112
生成词wmn
当cmn=0时,从背景主题词分布
Figure BDA0002274315700000113
生成词wmn
(三)有益效果
本发明提供了一种短文本主题识别方法和系统。与现有技术相比,具备以下有益效果:
本发明首先基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,词包括背景词和主题词;然后基于短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种短文本主题识别方法的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种短文本主题识别方法和系统,解决了现有技术不能准确的识别出焦点主题的技术问题,实现提高主题识别的准确率,准确的识别出焦点主题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例首先基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,词包括背景词和主题词;然后基于短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明实施例将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种短文本主题识别方法,如图1所示,上述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,上述词包括背景词和主题词;
A2、基于上述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于上述主题词在短文本下所占权重,选取焦点主题;
其中,上述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、上述主题数量K和短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成上述主题识别模型的训练。
本发明实施例首先基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,词包括背景词和主题词;然后基于短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明实施例将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
下面对各个步骤进行详细描述。
主题识别模型的训练过程包括:
S1、获取短文本,构建短文本集合D。具体为:
获取n条短文本构成的短文本集合D,记为
Figure BDA0002274315700000141
|M|表示短文本集合D中的短文本数量;去除所述短文本集合D中所有停用词。建立向量/>
Figure BDA0002274315700000142
1≤i≤n,用来表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。
S2、确定短文本集合D中的主题个数K。
S3、基于有参贝叶斯模型、主题个数K和短文本集合D确定主题-词分布以及短文本-主题分布,词包括:主题词和背景词,具体包括S301~S303:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样。从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure BDA0002274315700000143
同样,抽取背景词分布/>
Figure BDA0002274315700000144
β和β'是分布的超参数。
Figure BDA0002274315700000145
主题词分布和背景词分布的不同在于选择词的原因不同,短文本中从主题词分布中抽取的词是为了解释短文本主题,从背景词分布中抽取的词是为了使文章完整。例如:在科学论短文本案中,论文来自多个学科,如数学、生物学、计算机科学、经济学,每个组都有自己的一组主题词分布。除了类似这些的特定主题词分布,其余词是一组通用的背景词分布生成的由所有组共享。
S302、建立短文本-主题分布,获取焦点主题。短文本-主题分布用向量
Figure BDA0002274315700000151
表示,短文本通常对应几个突出的主题,并非覆盖所有的主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数/>
Figure BDA0002274315700000152
生成主题分布/>
Figure BDA0002274315700000153
Figure BDA0002274315700000154
/>
式(2)中,bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题,πm服从参数为ε01的Beta分布,πm
Figure BDA0002274315700000155
构成Beta-Multinomial共轭。
Figure BDA0002274315700000156
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合。
Figure BDA0002274315700000157
表示短文本m对应的焦点主题分布,服从参数为/>
Figure BDA0002274315700000158
的狄利克雷分布。α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题。平滑先验和弱平滑先验保证了短文本m对应于有限的焦点主题,同时避免了短文本对应不明确的焦点主题的情况。
S303、根据短文本的主题分布,利用公式(4)生成主题词分布。
Figure BDA0002274315700000159
式(4)中,
Figure BDA00022743157000001510
服从参数为γ,γ'的Beta分布,用于选择主题词分布,/>
Figure BDA00022743157000001511
与/>
Figure BDA00022743157000001512
构成Beta-Multinomial共轭。
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数,
Figure BDA0002274315700000161
当cmn=1时,表示短文本m是从主题词分布中生成词n的;当cmn=0时,表示短文本m是从背景词分布中生成词n的。
式(4)中,zmn服从多项式分布,表示第m条短文本的第n个词的主题编号。当cmn=1时,从短文本主题分布
Figure BDA0002274315700000162
生成主题zmn,之后通过主题词分布/>
Figure BDA0002274315700000163
生成词wmn。当cmn=0时,从背景主题词分布/>
Figure BDA0002274315700000164
生成词wmn
采用上述训练后的主题识别模型,识别出待测短文本集合中的焦点主题。
在具体实施过程中,将待测短文本集合输入到主题识别模型中,设计坍塌式变分贝叶斯推断算法获取待测短文本集合中的短文本-主题分布和短文本-词分布。具体包括A101~A104。
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法(collapsed Gibbs sampling algorithm)对待测短文本集合中的bm,k、Zmn、Cmn进行抽样。具体包括步骤A10101~A10103:
A10101、抽样主题选择器b:
利用贝叶斯法则与共轭先验,得到πm
Figure BDA0002274315700000165
的联合概率分布,如式(6)。
Figure BDA0002274315700000166
式(6)中:
I[·]作为指标函数,Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量,
Figure BDA0002274315700000167
是n条短文本构成的文档集合m中对应的主题集合,/>
Figure BDA0002274315700000168
是指文档m中对应主题k的词的数量。
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛。
Figure BDA0002274315700000171
式(7)中:
Figure BDA0002274315700000172
表示主题选择器b分配给短文本集合m的次数,Γ(x)为伽马函数。
A10102、抽样主题分布Z:
得到的每篇短文本集合中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,类似LDA,现在需要计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
Figure BDA0002274315700000173
式(8)中:
Z-(mn)指除单词wmn外所有单词对应的主题;
Figure BDA0002274315700000174
表示当cmn=1时,单词v被分配到主题k上的次数;/>
Figure BDA0002274315700000175
表示当cmn=1时,被分配到主题k上的所有单词数;/>
Figure BDA0002274315700000176
表示短文本集合m中被分配到主题k上的单词数;所有带有公式-(mn)的计数均表示去除了单词wmn
A10103、抽样二进制变量c:
二进制变量cmn是分布选择器,决定了第m篇短文档中,生成第n个词所选择的主题词分布,抽样量cmn,需要计算条件概率分布,如式(9)。
Figure BDA0002274315700000181
式(9)中:
Figure BDA0002274315700000182
表示所有由背景主题词分布生成的单词数,/>
Figure BDA0002274315700000183
表示所有由主题词分布生成的单词书;/>
Figure BDA0002274315700000184
表示背景主题词分布生成单词v的次数,/>
Figure BDA0002274315700000185
表示背景主题词分布生成所有词的次数。
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值。
A104、将步骤A103重复I0次,I0是迭代次数,是预先设置的,并且可以根据最终结果进行调整,完成短文本集合中所有短文本和所述主题的更新。
A2、基于上述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重。具体为:
根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):
Figure BDA0002274315700000186
Figure BDA0002274315700000191
Figure BDA0002274315700000192
式中:
Figure BDA0002274315700000193
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure BDA0002274315700000194
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure BDA0002274315700000195
表示背景主题词分布生成单词v的次数;
Figure BDA0002274315700000196
表示背景主题词分布生成所有词的次数;
β和β'是分布的超参数;
Nm表示第m条短文本中的单词数;
v∈{1,2,...,V}作为不同词的索引;
α0与α1为分布的超参数;
K表示待测短文本集合中的主题个数;
|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;
Figure BDA0002274315700000197
表示短文本集合m中被分配到主题k上的单词数;
bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
θmk表示主题k在第m条短文本中所占权重;
φkv表示主题词在主题中所占权重;
φv'表示背景词在主题中所占权重。
A3、基于所述主题词在短文本下所占权重,选取焦点主题。具体为:
对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定,如在本发明实施例中,N设置为20,则表示从主题词v层次中选取权重为前20名的主题作为焦点主题。
本发明实施例还提供一种短文本主题识别系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,上述词包括背景词和主题词;
A2、基于上述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于上述主题词在短文本下所占权重,选取焦点主题;
其中,上述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、上述主题数量K和短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
可理解的是,本发明实施例提供的上述短文本主题识别系统与上述短文本主题识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考短文本主题识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题。
2、本发明实施例结合短文本集合文档中两个分布的相关信息:主题词分布和短文本主题分布,引入“Spike and Slab”先验,提出稀疏影响主题模型(有参贝叶斯模型SITM),将词的主题词分布和背景词分布分开,并推断出每个词的主题词分布,同时将每个词分配到可以重叠的主题词分布中,不单单认为每个词只属于一个主题,然后基于吉布斯抽样进行贝叶斯推断,自动判断出生成该词对应的主题。提高了主题识别的准确率和效率。为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种短文本主题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D,包括:获取n条短文本构成的短文本集合D,记为
Figure FDA0004037426000000011
|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>
Figure FDA0004037426000000012
表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练,具体包括:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure FDA0004037426000000013
和背景词分布/>
Figure FDA0004037426000000014
Figure FDA0004037426000000021
式(1)中:β和β'是狄利克雷分布的超参数;
S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数
Figure FDA0004037426000000022
生成主题分布/>
Figure FDA0004037426000000023
Figure FDA0004037426000000024
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
πm服从参数为ε01的Beta分布,πm
Figure FDA0004037426000000025
构成Beta-Multinomial共轭;
Figure FDA0004037426000000026
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
Figure FDA0004037426000000027
表示短文本m对应的焦点主题分布,服从参数为/>
Figure FDA0004037426000000028
的狄利克雷分布;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
Figure FDA0004037426000000029
式(4)中:
Figure FDA0004037426000000031
服从参数为γ,γ'的Beta分布,用于选择主题词分布,/>
Figure FDA0004037426000000032
与/>
Figure FDA0004037426000000033
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
Figure FDA0004037426000000034
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
当cmn=1时,从短文本主题分布
Figure FDA0004037426000000035
生成主题zmn,之后通过主题词分布/>
Figure FDA0004037426000000036
生成词wmn
当cmn=0时,从背景主题词分布
Figure FDA0004037426000000037
生成词wmn
2.如权利要求1所述的短文本主题识别方法,其特征在于,所述A1包括:
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法对待测短文本集合中的bm,k、Zmn、Cmn进行抽样;
A10101、基于贝叶斯法则与共轭先验获取πm
Figure FDA0004037426000000038
的联合概率分布,计算每篇短文本中的焦点主题情况bm,k,如式(6):
Figure FDA0004037426000000039
式(6)中:
I[·]是指标函数;
Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量;
Figure FDA0004037426000000041
是n条短文本构成的短文本集合m中对应的主题集合;
Figure FDA0004037426000000042
是指短文本m中对应主题k的词的数量;
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛;
Figure FDA0004037426000000043
式(7)中,
Figure FDA0004037426000000044
表示主题选择器b分配给短文本集合m的次数;
Γ(x)为伽马函数;
A10102、得到的每篇短文本中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
Figure FDA0004037426000000045
式(8)中:
Z-(mn)表示除单词wmn外所有单词对应的主题;
Figure FDA0004037426000000046
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure FDA0004037426000000047
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure FDA0004037426000000048
表示短文本集合m中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
A10103、对待测短文本集合中的Cmn进行抽样,如式(9):
Figure FDA0004037426000000051
式(9)中:
Figure FDA0004037426000000052
表示所有由背景主题词分布生成的单词数;
Figure FDA0004037426000000053
表示所有由主题词分布生成的单词书;
Figure FDA0004037426000000054
表示背景主题词分布生成单词v的次数;
Figure FDA0004037426000000055
表示背景主题词分布生成所有词的次数;
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值;
A104、重复步骤A103,完成短文本集合中所有短文本和所述主题的更新。
3.如权利要求2所述的短文本主题识别方法,其特征在于,所述A2具体包括:
根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):
Figure FDA0004037426000000061
/>
Figure FDA0004037426000000062
Figure FDA0004037426000000063
式中:
Figure FDA0004037426000000064
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure FDA0004037426000000065
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure FDA0004037426000000066
表示背景主题词分布生成单词v的次数;
Figure FDA0004037426000000067
表示背景主题词分布生成所有词的次数;
β和β'是分布的超参数;
Nm表示第m条短文本中的单词数;
v∈{1,2,...,V}作为不同词的索引;
α0与α1为分布的超参数;
K表示待测短文本集合中的主题个数;
|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;
Figure FDA0004037426000000068
表示短文本集合m中被分配到主题k上的单词数;
bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
θmk表示主题k在第m条短文本中所占权重;
φkv表示主题词v在该主题下所有词中作占权重;
φv'表示背景词v在所有背景词中所占比重。
4.如权利要求3所述的短文本主题识别方法,其特征在于,所述A3具体包括:
对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定。
5.一种短文本主题识别系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D,包括:
获取n条短文本构成的短文本集合D,记为
Figure FDA0004037426000000071
|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>
Figure FDA0004037426000000081
表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练,包括:S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure FDA0004037426000000082
和背景词分布/>
Figure FDA0004037426000000083
Figure FDA0004037426000000084
式(1)中:β和β'是狄利克雷分布的超参数;
S302、构建短文本-主题分布,获取焦点主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数
Figure FDA0004037426000000085
生成主题分布/>
Figure FDA0004037426000000086
Figure FDA0004037426000000087
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
πm服从参数为ε01的Beta分布,πm
Figure FDA0004037426000000088
构成Beta-Multinomial共轭;
Figure FDA0004037426000000089
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
Figure FDA00040374260000000810
表示短文本m对应的焦点主题分布,服从参数为/>
Figure FDA0004037426000000091
的狄利克雷分布;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
Figure FDA0004037426000000092
式(4)中:
Figure FDA0004037426000000093
服从参数为γ,γ'的Beta分布,用于选择主题词分布,/>
Figure FDA0004037426000000094
与/>
Figure FDA0004037426000000095
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
Figure FDA0004037426000000096
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
当cmn=1时,从短文本主题分布
Figure FDA0004037426000000097
生成主题zmn,之后通过主题词分布/>
Figure FDA0004037426000000098
生成词wmn
当cmn=0时,从背景主题词分布
Figure FDA0004037426000000099
生成词wmn。/>
CN201911116869.1A 2019-11-15 2019-11-15 短文本主题识别方法和系统 Active CN111090995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911116869.1A CN111090995B (zh) 2019-11-15 2019-11-15 短文本主题识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911116869.1A CN111090995B (zh) 2019-11-15 2019-11-15 短文本主题识别方法和系统

Publications (2)

Publication Number Publication Date
CN111090995A CN111090995A (zh) 2020-05-01
CN111090995B true CN111090995B (zh) 2023-03-31

Family

ID=70394041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911116869.1A Active CN111090995B (zh) 2019-11-15 2019-11-15 短文本主题识别方法和系统

Country Status (1)

Country Link
CN (1) CN111090995B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704404B (zh) * 2021-08-27 2024-03-05 合肥工业大学 一种基于专业生成内容的产品替代性信息抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
WO2017114019A1 (zh) * 2015-12-29 2017-07-06 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831119A (zh) * 2011-06-15 2012-12-19 日电(中国)有限公司 短文本聚类设备及方法
WO2017114019A1 (zh) * 2015-12-29 2017-07-06 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
词向量与LDA相融合的短文本分类方法;张群等;《现代图书情报技术》;20161225(第12期);全文 *
语义约束和时间关联LDA的社交媒体主题词链提取;万红新等;《小型微型计算机系统》;20180415(第04期);全文 *

Also Published As

Publication number Publication date
CN111090995A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
CN107066464B (zh) 语义自然语言向量空间
CN110647626B (zh) 基于互联网服务域的rest数据服务聚类方法
CN111506785A (zh) 基于社交文本的网络舆情话题识别方法和系统
WO2021195095A1 (en) Neural architecture search with weight sharing
CN111046904B (zh) 一种图像描述方法、图像描述装置及计算机存储介质
US11941867B2 (en) Neural network training using the soft nearest neighbor loss
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
Gao et al. Generative adversarial network–assisted image classification for imbalanced tire X-ray defect detection
CN111090995B (zh) 短文本主题识别方法和系统
Mingyu et al. AFR-BERT: attention-based mechanism feature relevance fusion multimodal sentiment analysis model
CN110209962B (zh) 主题层次高影响力用户的获取方法和系统
Doan et al. Using language models for classifying the party affiliation of political texts
Joung et al. Importance-performance analysis of product attributes using explainable deep neural network from online reviews
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Desai et al. A hybrid classification algorithm to classify engineering students' problems and perks
Cai et al. Learning entity representation for named entity disambiguation
Kato et al. Categorization of web news documents using word2vec and deep learning
CN112580348A (zh) 政策文本关联性分析方法及系统
Dhanya et al. Comparative performance of machine learning algorithms in detecting offensive speech in malayalam-english code-mixed data
Wang et al. A novel feature-based text classification improving the accuracy of twitter sentiment analysis
Putra et al. Analyzing sentiments on official online lending platform in Indonesia with a Combination of Naive Bayes and Lexicon Based Method
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
AU2021102725A4 (en) Sentiment Analysis of Human being with Effective Word Embedding Methodologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant