CN106802940A - 一种计算文本主题模型的方法及装置 - Google Patents

一种计算文本主题模型的方法及装置 Download PDF

Info

Publication number
CN106802940A
CN106802940A CN201611261218.8A CN201611261218A CN106802940A CN 106802940 A CN106802940 A CN 106802940A CN 201611261218 A CN201611261218 A CN 201611261218A CN 106802940 A CN106802940 A CN 106802940A
Authority
CN
China
Prior art keywords
training
text
theme
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611261218.8A
Other languages
English (en)
Other versions
CN106802940B (zh
Inventor
赵耕弘
张霞
赵立军
崔朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201611261218.8A priority Critical patent/CN106802940B/zh
Publication of CN106802940A publication Critical patent/CN106802940A/zh
Application granted granted Critical
Publication of CN106802940B publication Critical patent/CN106802940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种计算文本主题模型的方法及装置,方法包括:获取目标文本,所述目标文本中含有多个目标词;获取训练文本集合中每个训练文本的训练主题的分布概率;获取所述训练文本集合中每个训练主题的训练词的分布概率;基于所述训练文本集合中每个训练主题的训练词的分布概率,获取每个所述训练主题中每个所述目标词的分布概率,其中的目标词为出现在所述训练词中的词;获取所述训练文本集合各个所述训练主题的分布概率;获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率;获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型。

Description

一种计算文本主题模型的方法及装置
技术领域
本申请涉及虚拟机技术领域,特别涉及一种计算文本主题模型的方法及装置。
背景技术
在自然语言处理过程中,文档对于计算机来说通常被当做是一个无限维度的向量,而这种无限维度的向量对于计算机本身又是不可被计算的,因此,需要对文档中的文本进行一些处理后,让它以一定维度的数学向量存储在计算机中以便计算。
在现有计算中,主题模型(topic model)是一种常见的文档降维方法。主题模型可以不同于普通词频而在语义上做出一些语言含义的抽取。通常主题模型通过词袋的形式,将表达同一含义或者相同状况的描述的词的集合来表示某一个主题topic。
而主题模型在业内通常被运用于长文本上,即字数较多的文本,计算主题模型的方案原理上是基于现有的基于词的共现来抽取相同含义的词来实现,使得计算效果较好,但由于字数较少的文本的词量过少,采用现有的主题模型的计算方案对字数较少的文本进行主题模型计算时,由于词的共现次数较小,会导致主题模型的计算不准确的情况。
发明内容
有鉴于此,本申请的目的在于提供一种计算文本主题模型的方法及装置,用以解决现有技术中对短文本的主题模型计算不准确的技术问题。
本申请提供了一种计算文本主题模型的方法,包括:
获取目标文本,所述目标文本中含有多个目标词;
获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d);
获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t);
基于所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),P2(w|t)中的目标词为出现在所述训练词中的词;
利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
利用获取所述目标文本中每个所述目标词为各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
上述方法,优选的,所述获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d),包括:
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率。
上述方法,优选的,所述获取所述训练文本集合中每个训练主题的训练词的分布概率P(w|t),包括:
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
上述方法,优选的,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
上述方法,优选的,还包括:
利用所述目标文本的主题模型,对文本进行主题的计算。
本申请还提供了一种计算文本主题模型的装置,包括:
目标获取单元,用于获取目标文本,所述目标文本中含有多个目标词;
第一训练单元,用于获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d);
第二训练单元,用于获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t);
第一概率获取单元,用于基于所述训练文本集合中每个所述训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),其中,P2(w|t)中的目标词为出现在所述训练词中的词;
第二概率获取单元,用于利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
第三概率获取单元,用于利用获取所述目标文本中每个所述目标词为各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
模型获取单元,用于利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
上述装置,优选的,所述第一训练单元具体用于:利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率。
上述装置,优选的,所述第二训练单元具体用于:利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
上述装置,优选的,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
上述装置,优选的,还包括:
主题计算单元,用于在模型获取单元得到所述目标文本的主题模型之后,利用所述目标文本的主题模型,对文本进行主题的计算。
由上述方案可知,本申请提供的一种计算文本主题模型的方法及装置,利用贝叶斯理论,基于训练语料的主题模型来计算文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,而这种主题模型的计算方案中,由于文本都是在一个范围内的词构建主题模型,相应的主题范围自然在同一维度,因此本申请所得到的主题模型在适用于字数较多的文本主题计算的同时,同样不会因为字数较少的文本中词的共现次数较小,会导致主题模型的计算不准确的情况,由此,本申请所计算出的主题模型的准确性会更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例一提供的一种计算文本主题模型的方法的流程图;
图2为本申请实施例一的另一流程图;
图3为本申请实施例的应用示例图;
图4为本申请实施例二提供的一种计算文本主题模型的装置的结构示意图;
图5为本申请实施例二的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请中利用贝叶斯理论,基于训练语料的主题模型来计算短文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,具体如下:
参考图1,为本申请实施例一提供的一种计算文本主题模型的方法的流程图,其中,适用于对文本的主题模型的计算,特别是能够准确计算字数较少的文本如字数少于140字的文本的主题模型,以便于对字数较少的文本进行主题计算。
具体的,本实施例中,该方法可以包括以下步骤:
步骤101:获取目标文本。
其中,目标文本中含有多个目标词。目标文本可以为twiter、微博、公司通知或法院判决书等文本内容,文本中包含多个目标词,如足球、球员、贷款、货币等词。
本实施例中的目标文本可以为字数较多的长文本,如公司通知或法院判决书等;也可以为字数较少的短文本,如twiter、微博、INS或影评的状态文本等。
步骤102:获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d)。
其中,本实施例中可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个训练文本中关于各个训练主题的分布概率。
需要说明的是,训练文本集合中的训练文本可以为历史优良的语料文本,以便于计算出高质量的P(t|d)。如字数较多的公司通知或法院判决书等。
其中,训练是指基于现有的主题模型计算方法通过迭代运算得到主题模型的过程。也就是说,本实施例中是基于训练得到的主题模型来对目标文本的主题模型进行计算,而计算得到的主题模型可以用来对文本的主题进行获取。
具体的,本实施例中在对训练文本进行训练获取P(t|d)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法或LDA(LatentDirichlet Allocation)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练文本的训练主题的分布概率P(t|d)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P(t|d)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个文本d,并且每一行所有的概率值加在一起的和为1;每一列表示一个主题t,比如说:v13表示主题t3在文本d1的出现概率值。这个值表示的实际意义就是为了构建文本d1内容时,主题t3的出现概率值。
步骤103:获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t)。
其中,本实施例中可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
具体的,本实施例中在对训练文本进行训练获取P1(w|t)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法、LDA(Latent DirichletAllocation)主题模型计算方法或SVD(Singular value decomposition)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P1(w|t)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个主题t,并且每一行所有的概率值加在一起的和为1;每一列表示一个词w,比如说,v32表示词w2在主题t3的出现概率值。这个值表示的实际意义就是为了表示当前主题t3的含义,词w2的出现概率值。
步骤104:基于所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),P2(w|t)中的目标词为出现在所述训练词中的词。
具体的,本实施例中,可以在每个训练主题的训练词中,查找与目标文本中的目标词相同的词,并提取出查找到的词对应的分布概率P1(w|t),由此得到查找到的与目标词相同的词的分布概率P2(w|t),即每个训练主题中每个目标词的分布概率。
也就是说,本实施例中将P1(w|t)中与目标词不相同的词对应的分布概率值剔除,剩下与目标词相同的词对应的分布概率值,得到P2(w|t)。P2(w|t)为P1(w|t)的至少一部分。例如,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)中为5个训练词:w1、w2、w3、w4、w5分别为3个训练主题t1、t2、t3的概率集合,如前文中P1(w|t)矩阵所示,如果目标文本中的目标词有w2、w3、w4,由此,P2(w|t)中为3个目标词:w2、w3、w4分别为3个训练主题t1、t2、t3的概率集合,其矩阵表示如下:
由此可知,P2(w|t)为P1(w|t)的一部分,而如果目标文本中的目标词有w1、w2、w3、w4、w5,那么P2(w|t)则与P1(w|t)相同。
步骤105:利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t)。
其中,D为所述训练文本集合,P(d)预设为1。也就是说,本实施例中将训练文本集合中的每个训练文本中各个主题的分布概率以训练文本d为单位进行加和,即将D中的所有训练文本中针对每个训练主题进行分布概率值的叠加,得到整个训练文本集合中各个训练主题的分布概率P(t)。
需要说明的是,P(d)表示训练文本的出现概率,而本实施例中,可以先验的认为,所有文本的出现概率服从独立同分布(independent and identically distributed),简写为(i.i.d)。也就是说,本实施例可以将此值赋值为相同数值。为了方便计算,统一在此将P(d)赋值为1。
步骤106:利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w)。
其中的P2(w|t)为每个训练主题的每个目标词的分布概率,P(w)是每个所述目标词在所述训练文本集合中的分布概率,即目标词在训练文本集合中的词频。
步骤107:利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型。
其中,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
也就是说,本实施例中将每个目标词w在训练主题t的分布概率进行加积计算,即可得到目标文本中各个训练主题t的分布概率,即为目标文本的主题模型,达到本实施例的目的。
由上述方案可知,本申请实施例一提供的一种计算文本主题模型的方法,利用贝叶斯理论,基于训练语料的主题模型来计算文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,而这种主题模型的计算方案中,由于文本都是在一个范围内的词构建主题模型,相应的主题范围自然在同一维度,因此本申请所得到的主题模型在适用于字数较多的文本主题计算的同时,同样不会因为字数较少的短文本中词的共现次数较小,会导致主题模型的计算不准确的情况,由此,本申请所计算出的主题模型的准确性会更高。
在利用本实施例方案获得目标文本的主题模型之后,可以用来计算文本的主题,如图2中所示,在所述步骤107之后,所述方法还可以包括以下步骤:
步骤108:利用目标文本的主题模型,对文本进行主题的计算。
其中,本实施例中需要计算主题的文本可以为目标文本,也可以为其他的文本。而这些文本即可以为字数较少的短文本,也可以为字数较多的长文本。也就是说,虽然本实施例中计算出的主题模型可能是短文本的主题模型,但是由于这种计算方案中,所有的文本都是在一个范围内的词构建主题模型,相应的主题范围自然也在同一纬度,因此,本实施例所得到的主题模型适用于长文本主题计算中。
由前文可知,本实施例中的方案不仅适用于对字数较少的文本的主题模型的计算,也适用于对字数较多的文本的主题模型的计算。
因为训练主题模型是一个计算量很大的运算,尤其是大规模文本时以天计算时间也是有可能的。并且对于主题模型训练之前的参数设计本身也是一个很难确定的过程。多数情况下都是通过设定不同的参数得到多个模型结果之后再通过一些运算确定一个质量好一些的结果。而这样通常就会花费更多的时间。因此,在对字数较多的文本进行主题模型的计算时,可以不采用现有技术中的LDA或者PLSA等算法进行较为负载的计算流程,而是直接基于本实施例中历史优良语料训练得到的主题模型计算文本的主题模型。也就是说,将一个内容足够丰富的语料库训练一个质量优良的主题模型,之后可以对其他语料集中的文本计算主题分布,这样可以大大缩短提取其他语料库主题模型的时间,提高效率。
为了证明本实施例所计算出的主题模型的质量的可靠性,可以基于信息熵的困惑度来证明当前结果和正常计算出的主题模型的差异,例如以以下计算公式计算信息熵的困惑度:
以600个电影的22万条评论作为实验数据,在初始的训练文本集合模型计算中,将每个电影的所有评论作为一个大文本来计算主题模型。之后,通过这个结果结合本实施例中的方法计算每条评论的主题分布。之后作为baseline,直接讲每条评论作为独立文本计算主题模型。
如图3中所示,为以上三种结果计算困惑度的值的图示:
最左边A为将每个电影的所有评论作为一个大文本计算主题模型的整体困惑度。中间B为本实施例中的方案计算的每条评论的整体困惑度。最右边C为每条评论作为独立文本计算主题模型之后计算的困惑度。由困惑度定义所说,困惑度越小,主题模型质量越好的理论,由实验证明出本实施例中的方案计算的短文本主题模型质量是优良的,弥补了短文本主题模型的计算的实现空白。
参考图4,为本申请实施例二提供的一种计算文本主题模型的装置的结构示意图,其中,适用于对文本的主题模型的计算,特别是能够准确计算字数较少的文本如字数少于140字的文本的主题模型,以便于对字数较少的文本进行主题计算。
具体的,本实施例中,该装置可以包括以下结构:
目标获取单元401,用于获取目标文本。
其中,目标文本中含有多个目标词。目标文本可以为twiter、微博、公司通知或法院判决书等文本内容,文本中包含多个目标词,如足球、球员、贷款、货币等词。
本实施例中的目标文本可以为字数较多的长文本,如公司通知或法院判决书等;也可以为字数较少的短文本,如twiter、微博、INS或影评的状态文本等。
第一训练单元402,用于获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d)。
其中,本实施例中,第一训练单元402可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个训练文本中关于各个训练主题的分布概率。
需要说明的是,训练文本集合中的训练文本可以为历史优良的语料文本,以便于计算出高质量的P(t|d)。如字数较多的公司通知或法院判决书等。
其中,训练是指基于现有的主题模型计算方法通过迭代运算得到主题模型的过程。也就是说,本实施例中是基于训练得到的主题模型来对目标文本的主题模型进行计算,而计算得到的主题模型可以用来对文本的主题进行获取。
具体的,本实施例中第一训练单元402在对训练文本进行训练获取P(t|d)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法或LDA(LatentDirichlet Allocation)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练文本的训练主题的分布概率P(t|d)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P(t|d)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个文本d,并且每一行所有的概率值加在一起的和为1;每一列表示一个主题t,比如说:v13表示主题t3在文本d1的出现概率值。这个值表示的实际意义就是为了构建文本d1内容时,主题t3的出现概率值。
第二训练单元403,用于获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t)。
其中,本实施例中,第二训练单元403可以采用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
具体的,本实施例中,第二训练单元403在对训练文本进行训练获取P1(w|t)时,可以采用PLSA(probabilistic latent semantic analysis)主题模型计算方法、LDA(LatentDirichlet Allocation)主题模型计算方法或SVD(Singular value decomposition)主题模型计算方法,也可以采用其他长文本的主题模型计算方法。
其中,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)可以用矩阵来标识:
以训练文本集合中的两篇训练文本d1和d2为例,将d1和d2分词之后,一共有5个词:w1、w2、w3、w4、w5,并且有3个主题t1、t2、t3,于是P1(w|t)用矩阵表示为:
其中,v表示一个数值,也就是出现概率值,每一行代表一个主题t,并且每一行所有的概率值加在一起的和为1;每一列表示一个词w,比如说,v32表示词w2在主题t3的出现概率值。这个值表示的实际意义就是为了表示当前主题t3的含义,词w2的出现概率值。
第一概率获取单元404,用于基于所述训练文本集合中每个所述训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t)。
具体的,本实施例中,可以在每个训练主题的训练词中,查找与目标文本中的目标词相同的词,并提取出查找到的词对应的分布概率P1(w|t),由此得到查找与目标词相同的词的分布概率P2(w|t),即每个训练主题中每个目标词的分布概率。
也就是说,本实施例中将P1(w|t)中与目标词不相同的词对应的分布概率值剔除,剩下与目标词相同的词对应的分布概率值,得到P2(w|t)。P2(w|t)为P1(w|t)的至少一部分。例如,训练文本集合中每个训练主题的训练词的分布概率P1(w|t)中为5个训练词:w1、w2、w3、w4、w5分别为3个训练主题t1、t2、t3的概率集合,如前文中P1(w|t)矩阵所示,如果目标文本中的目标词有w2、w3、w4,由此,P2(w|t)中为3个目标词:w2、w3、w4分别为3个训练主题t1、t2、t3的概率集合,其矩阵表示如下:
由此可知,P2(w|t)为P1(w|t)的一部分,而如果目标文本中的目标词有w1、w2、w3、w4、w5,那么P2(w|t)则与P1(w|t)相同。
第二概率获取单元405,用于利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t)。
其中,D为所述训练文本集合,P(d)预设为1。也就是说,本实施例中将训练文本集合中的每个训练文本中各个主题的分布概率以训练文本d为单位进行加和,即将D中的所有训练文本中针对每个训练主题进行分布概率值的叠加,得到整个训练文本集合中各个训练主题的分布概率P(t)。
需要说明的是,P(d)表示训练文本的出现概率,而本实施例中,可以先验的认为,所有文本的出现概率服从独立同分布(independent and identically distributed),简写为(i.i.d)。也就是说,本实施例可以将此值赋值为相同数值。为了方便计算,统一在此将P(d)赋值为1。
第三概率获取单元406,用于利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w)。
其中的P2(w|t)为每个训练主题的每个目标词的分布概率,P(w)是每个所述目标词在所述训练文本集合中的分布概率,即目标词在训练文本集合中的词频。
模型获取单元407,用于利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型。
其中,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
也就是说,本实施例中将每个目标词w在训练主题t的分布概率进行加积计算,即可得到目标文本中各个训练主题t的分布概率,即为目标文本的主题模型,达到本实施例的目的。
由上述方案可知,本申请实施例二提供的一种计算文本主题模型的装置,利用贝叶斯理论,基于训练语料的主题模型来计算文本的主题模型,从而能够基于计算的主题模型实现文本的向量化处理,而这种主题模型的计算方案中,由于文本都是在一个范围内的词构建主题模型,相应的主题范围自然在同一维度,因此本申请所得到的主题模型在适用于字数较多的长文本主题计算的同时,同样不会因为字数较少的短文本中词的共现次数较小,会导致主题模型的计算不准确的情况,由此,本申请所计算出的主题模型的准确性会更高。
在利用本实施例中的装置获得目标文本的主题模型之后,可以用来计算文本的主题,如图5中所示,该装置还可以包括以下结构:
主题计算单元408,用于在模型获取单元407得到所述目标文本的主题模型之后,利用所述目标文本的主题模型,对新的目标文本进行主题的计算。
其中,本实施例中需要计算主题的文本可以为目标文本,也可以为其他的文本。而这些文本即可以为字数较少的短文本,也可以为字数较多的长文本。也就是说,虽然本实施例中计算出的主题模型可能是短文本的主题模型,但是由于这种计算方案中,所有的文本都是在一个范围内的词构建主题模型,相应的主题范围自然也在同一纬度,因此,本实施例所得到的主题模型在适用于长文本主题计算中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上对本申请所提供的一种计算文本主题模型的方法及装置进行了详细介绍,对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种计算文本主题模型的方法,其特征在于,包括:
获取目标文本,所述目标文本中含有多个目标词;
获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d);
获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t);
基于所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),P2(w|t)中的目标词为出现在所述训练词中的词;
利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
2.根据权利要求1所述的方法,其特征在于,所述获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d),包括:
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率。
3.根据权利要求1所述的方法,其特征在于,所述获取所述训练文本集合中每个训练主题的训练词的分布概率P(w|t),包括:
利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
4.根据权利要求2或3所述的方法,其特征在于,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
5.根据权利要求1所述的方法,其特征在于,还包括:
利用所述目标文本的主题模型,对文本进行主题的计算。
6.一种计算文本主题模型的装置,其特征在于,包括:
目标获取单元,用于获取目标文本,所述目标文本中含有多个目标词;
第一训练单元,用于获取训练文本集合中每个训练文本的训练主题的分布概率P(t|d);
第二训练单元,用于获取所述训练文本集合中每个训练主题的训练词的分布概率P1(w|t);
第一概率获取单元,用于基于所述训练文本集合中每个所述训练主题的训练词的分布概率P1(w|t),获取每个所述训练主题中每个所述目标词的分布概率P2(w|t),其中,P2(w|t)中的目标词为出现在所述训练词中的词;
第二概率获取单元,用于利用P(t)=∑d∈DP(t|d)P(d),获取所述训练文本集合各个所述训练主题的分布概率P(t),D为所述训练文本集合,P(d)预设为1;
第三概率获取单元,用于利用获取所述目标文本中每个所述目标词在各个所述训练主题的分布概率P(t|w),P(w)是每个所述目标词在所述训练文本集合中的分布概率;
模型获取单元,用于利用获取所述目标文本中各个训练主题的分布概率,以得到所述目标文本的主题模型,wi为所述目标文本中第i个目标词,P(t|wi)为目标词wi为训练主题t的分布概率,d为所述目标词的集合。
7.根据权利要求6所述的装置,其特征在于,所述第一训练单元具体用于:利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中关于各个训练主题的分布概率。
8.根据权利要求6所述的装置,其特征在于,所述第二训练单元具体用于:利用预设的文本主题模型计算方法,对训练文本集合中的训练文本进行主题模型的计算,得到每个所述训练文本中每个训练主题中训练词的分布概率。
9.根据权利要求7或8所述的装置,其特征在于,所述文本主题模型计算方法为:PLSA主题模型计算方法、LDA主题模型计算方法或SVD主题模型计算方法。
10.根据权利要求6所述的装置,其特征在于,还包括:
主题计算单元,用于在模型获取单元得到所述目标文本的主题模型之后,利用所述目标文本的主题模型,对文本进行主题的计算。
CN201611261218.8A 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置 Active CN106802940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611261218.8A CN106802940B (zh) 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611261218.8A CN106802940B (zh) 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置

Publications (2)

Publication Number Publication Date
CN106802940A true CN106802940A (zh) 2017-06-06
CN106802940B CN106802940B (zh) 2019-06-07

Family

ID=58985341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611261218.8A Active CN106802940B (zh) 2016-12-30 2016-12-30 一种计算文本主题模型的方法及装置

Country Status (1)

Country Link
CN (1) CN106802940B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288172A (zh) * 2017-12-21 2018-07-17 深圳市金立通信设备有限公司 广告dsp定向投放广告的方法及终端
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN113449511A (zh) * 2020-03-24 2021-09-28 百度在线网络技术(北京)有限公司 文本处理的方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103345474A (zh) * 2013-07-25 2013-10-09 苏州大学 一种文档主题的在线追踪方法
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587493A (zh) * 2009-06-29 2009-11-25 中国科学技术大学 文本分类方法
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103345474A (zh) * 2013-07-25 2013-10-09 苏州大学 一种文档主题的在线追踪方法
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN108288172A (zh) * 2017-12-21 2018-07-17 深圳市金立通信设备有限公司 广告dsp定向投放广告的方法及终端
CN113449511A (zh) * 2020-03-24 2021-09-28 百度在线网络技术(北京)有限公司 文本处理的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN106802940B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
Kim et al. Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information
Cheng et al. Risk prediction with electronic health records: A deep learning approach
US10762297B2 (en) Semantic hierarchical grouping of text fragments
CN104850617B (zh) 短文本处理方法及装置
CN105786991A (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
US20120030206A1 (en) Employing Topic Models for Semantic Class Mining
CN103678277A (zh) 基于文档分段的构建主题-词汇分布的方法及系统
CN109582799A (zh) 知识样本数据集的确定方法、装置及电子设备
Yang et al. Deep learning and its applications to natural language processing
CN110188359B (zh) 一种文本实体抽取方法
CN106610931A (zh) 话题名称的提取方法及装置
CN108038108A (zh) 分词模型训练方法和装置、及存储介质
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN106802940A (zh) 一种计算文本主题模型的方法及装置
Selvaraj et al. Medication regimen extraction from medical conversations
Anzaroot et al. Learning soft linear constraints with application to citation field extraction
Qian et al. A formative study on designing accurate and natural figure captioning systems
CN104077274B (zh) 一种从文档集中抽取热词短语的方法和装置
Shi et al. A word embedding topic model for topic detection and summary in social networks
Papadopoulos et al. What do governments plan in the field of artificial intelligence? Analysing national AI strategies using NLP
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Walia et al. Case based interpretation model for word sense disambiguation in Gurmukhi
CN105786929B (zh) 一种信息监测方法及装置
Bartička et al. Evaluating attribution methods for explainable nlp with transformers
Eddamiri et al. Graph embeddings for linked data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant