CN107193892B - 一种文档主题确定方法及装置 - Google Patents
一种文档主题确定方法及装置 Download PDFInfo
- Publication number
- CN107193892B CN107193892B CN201710301661.1A CN201710301661A CN107193892B CN 107193892 B CN107193892 B CN 107193892B CN 201710301661 A CN201710301661 A CN 201710301661A CN 107193892 B CN107193892 B CN 107193892B
- Authority
- CN
- China
- Prior art keywords
- label
- word
- document
- probability
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文档主题确定方法和装置,实现对目标文档主题的确定。该方法预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;然后获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率;从所述单词概率集合中,查找所述目标单词对应的词频;根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率;根据所述目标文档对应的“标签‑目标文档”条件概率确定所述目标文档的主题。
Description
技术领域
本申请涉及大数据领域,尤其涉及一种文档主题确定方法及装置。
背景技术
随着信息技术的飞速发展,信息传输的瓶颈已被打破,人们可以方便的接触到海量的信息内容,如何从中快速的了解信息内容,成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,面对大量的文档信息,如何能够通过对文档进行归类,使得用户能够尽快的根据文档的类别找到感兴趣文档,是目前对文档处理的核心内容。
文档的主题是对文档进行归类的依据。那么,如何确定一篇文档的主题是目前需要解决的问题。
发明内容
为了解决现有技术存在的技术问题,本申请提供一种文档主题确定方法及装置,实现确定文档主题的目的。
本申请提供了一种文档主题确定方法,
预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
所述方法包括:
获取待确定主题的目标文档,以及所述目标文档中的目标单词;
从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
可选的,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:
根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;
根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
可选的,所述每个训练文档的概率均为1。
可选的,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:
从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
本申请实施例提供了一种文档主题确定装置,所述装置包括:
训练单元、获取单元、第一查找单元、第二查找单元、条件概率确定单元和主题确定单元;
其中,所述训练单元,用于预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
所述获取单元,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;
所述第一查找单元,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
所述第二查找单元,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
所述条件概率确定单元,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
所述主题确定单元,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
可选的,所述条件概率确定单元包括:
第一条件概率确定子单元和第二条件概率确定子单元;
其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;
所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
可选的,所述每个训练文档的概率均为1。
可选的,所述主题确定单元,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
本申请通过预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例一提供的一种文档主题确定方法的流程图;
图2为本申请实施例二提供的一种文档主题确定装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一:
参见图1,该图为本申请实施例一提供的一种文档主题确定方法的流程图。
本实施例提供的文档主题确定方法包括如下步骤:
步骤S101:预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合和单词概率集合。
在本实施例中,文档是指可读的文本,例如网站中的文本信息。文档中的文字不限于中文,还可以为其他语言的文字,例如英文、法文、日文、韩文等等。
在本实施例中,文档分为目标文档和训练文档,其中,目标文档为待确定主题的文档,或者说未被进行标签标记的文档;训练文档为携带有标签的文档,即已经确定了其对应主题的文档。所述标签或主题一般用于表示文档的属性、主旨等信息。为了确定所述目标文档的主题,首先需要对训练文档进行训练,以便利用训练得到的结果来确定所述目标文档的主题。
对训练文档进行训练所采用的模型为Labeled LDA(Labeled Latent DirichletAllocation,附加类别标签的隐含狄利克雷分布)模型,Labeled LDA模型属于主题模型的一种。
下面介绍一下主题模型的含义:
传统的判断两个文档关联性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF(term frequency–inverse document frequency,词频-逆向文档频率)等。但是这种方法并没有考虑到文字背后的语义关联,有可能两个文档共同出现的单词很少甚至没有,但是两个文档在语义上是关联的。例如,假设有两个句子,这两个句子各自分别表示一个文档。第一个句子是“乔布斯离我们而去了”,第二个句子是“苹果手机的价格会不会降?”。这两个句子虽然并没有相同的单词,但是二者在语义上是相关联的,即都属于主题“苹果公司”。所以,通过对文档语义进行挖掘来获取文档的主题的主题模型应运而生。
主题和文档中的单词是相关的,一个单词若在语义上表达一个主题的程度越高,则P(单词|主题)越大;一个单词若在语义上表达一个主题的程度越低,则P(单词|主题)越小。其中P(单词|主题)的含义是在随机选择了某个主题的条件下,某个单词在语义上表达该主题的概率。
一篇文档中往往包含若干个单词,每个单词在语义上可以仅与一个主题相关,也可以与多个主题相关。主题模型的基本假设是一篇文档中每个单词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择了该单词”这样一个过程得到的。如果要生成一篇文档,那么它里面的每个单词出现的概率为:
其中,P(单词|文档)的含义是在随机选择了某个文档的条件下,某个单词出现在该文档中的概率,P(主题|文档)的含义是在随机选择了某个文档的条件下,某个主题属于该文档的主题的概率。
上面这个公式可以用矩阵乘法来表示,即C=Φ×θ,其中矩阵C由P(单词|文档)组成,矩阵Φ由P(单词|主题)组成,矩阵θ由P(主题|文档)组成。对于任意一篇文档,由于P(单词|文档)等于P(单词-文档)除以P(文档),P(单词-文档)为某个单词在某篇文档中的词频,P(文档)是随机选择的文档为该文档的概率,通常为1。因此,P(单词|文档)是已知的,而P(单词|主题)和P(主题|文档)未知。主题模型就是通过对大量的文档进行训练,得到矩阵Φ和矩阵θ。
在Labeled LDA模型中,需要获取大量的携带有标签的训练文档,形成训练文档集合,其中的标签就相当于训练文档的主题。所述携带有标签的训练文档可以从互联网的网站中爬取得到,例如从某个网站的体育分类中爬取到关于体育的新闻,而这些新闻对应的标签就是体育。一篇训练文档对应的标签可以是一个,也可以是多个。若是多个,那么标签之间在语义上的关系可以是包含关系,也可以是并列关系。举个例子,假设一篇训练文档讲述的有关奥运会给当地带来的经济效益,那么,该训练文档对应的标签可以是“经济”和“体育”两个标签,这两个标签之间在语义上为并列关系。再举个例子,假设另一篇训练文档讲述的与欧冠相关的内容,那么该训练文档对应的标签可以是“体育”和“足球”两个标签,这两个标签在语义上就是包含关系,“体育”包含“足球”。
由训练文档携带的标签形成的集合为标签集合。
当得到这些训练文档后,获取训练文档的单词,形成单词集合。如果训练文档为中文,则需要对所述训练文档进行分词,以得到训练文档的单词;如果训练文档为英文,则可以直接从训练文档中提取单词。为了提高计算效率,可以将训练文档中的一些没有实际意义的单词删除,例如副词、介词、连词、助词、语气词等,仅保留有实际意义的单词,例如名词、动词、形容词等。
根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,可以得到“单词-标签”条件概率集合(即P(单词|标签))和“标签-文档”条件概率集合(即P(标签|文档))。
其中,所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率。例如,P(单词A|标签B)的含义是在所述标签集合中随机选取的标签为标签B的条件下,训练单词A在语义上能够表达标签B的概率。假设训练单词A为“奥巴马”,训练单词S为“罗纳尔多”,标签B为美国政治,那么训练单词A“奥巴马”在语义上能够表达标签B的概率高于训练单词S“罗纳尔多”在语义上能够表达标签B的概率。
所述“标签-文档”条件概率集合包括在训练文档集合中随机选择的训练文档分别为各个训练文档的条件下,各个标签分别属于各个训练文档的概率。例如,P(标签B|文档C)的含义是在所述训练文档集合中随机选取的训练文档为训练文档C的条件下,标签B为训练文档C的标签的概率。
需要说明的是,在基于Labeled LDA模型的训练过程中,每个标签均有表达各个训练文档的可能性,即假设训练文档C的标签仅为标签B,那么在训练过程中,标签B为训练文档C的标签的概率也不会是100%,因为其他标签为训练文档C的标签的概率可能会大于0。例如,一篇与欧冠相关内容的训练文档C,获取该训练文档的时候携带的标签为“体育”,基于训练得到的大于0的P(标签B|文档C)中的标签B,可能不仅包括“体育”,还可能包括“经济”、“足球”等标签。
此外,根据所述训练单词集合还可以得到单词概率集合,所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频。例如,若训练单词集合中一共有100个单词,其中有20个训练单词A,则训练单词A的词频为20%。
在训练文档被训练完成之后,就可以利用训练得到的结果对目标文档的主题进行确定。
步骤S102:获取待确定主题的目标文档,以及所述目标文档中的目标单词。
如前文所述,所述目标文档为待确定主题的文档,也就是没有携带有标签的文档。在获取所述目标文档的目标单词时,若所述目标文档为中文,则需要通过分词获得所述目标单词;若所述目标文档为英文,则直接从中提取即可。为了提高计算效率,所述目标单词可以仅包括有实际意义的单词,不包括没有实际意义的单词。
步骤S103:从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率。
步骤S101中的训练结果中包括“单词-标签”条件概率集合,所以在本步骤中,从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率。
所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率。
例如,所述目标单词为“奥巴马”,那么从“单词-标签”条件概率集合中查找所有与“奥巴马”对应的“单词-标签”条件概率,即在所述标签集合中随机选择的标签分别为各个标签的条件下,“奥巴马”在语义上能够分别表达标签集合中各个标签的概率。
步骤S104:从所述单词概率集合中,查找所述目标单词对应的词频。
步骤S101中,根据所述训练单词集合可以得到单词概率集合,所以在本步骤中,从所述单词概率集合中,查找所述目标单词对应的词频。所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频。
需要注意的是,若一个根据目标文档得到的单词在训练单词集合中找不到,则该单词不为目标单词,不参与目标文档主题的确定。
步骤S105:根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。
在本实施例中,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率。
具体的,可以首先根据所述目标单词对应的“单词-标签”条件概率P(w|label)、所述目标单词的词频P(w)和每个标签的概率P(label)(w为目标单词,label为标签),得到每个标签的对应的“标签-单词”条件概率P(label|w)。所述“标签-单词”条件概率P(label|w)为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率。需要注意的是,这里的“随机选择”是指服从狄利克雷分布的随机选择。
根据贝叶斯公式可以得到:
其中,所述每个标签的概率P(label)可以根据每个训练文档对应的“标签-文档”条件概率P(label|d)和每个训练文档的概率P(d)得到,即:
P(label)=∑d∈DP(label|d)P(d) (2)
其中,d表示目标文档,D训练文档集合。
所述“标签-文档”条件概率P(label|d)是所述步骤S101训练得到的结果之一。而训练文档的概率P(d)可以先验的被认为服从独立分布(independent and identicallydistributed,简称i.i.d.),也就是说,每个训练文档的概率相同。为了方便计算,可以将P(d)赋值为1。
在计算得到每个标签的对应的“标签-单词”条件概率P(label|w)后,可以根据P(label|w)得到所述目标文档对应的“标签-目标文档”条件概率P(label|d')。具体的,基于贝叶斯理论可以得到如下公式:
其中,wi为所述目标文档d'中的每个目标单词。
步骤S106:根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
在本实施例中,可以从所述目标文档对应的“标签-目标文档”条件概率P(label|d')中,选取最大概率对应的标签作为所述目标文档的主题,也可以选择几个较大概率对应的几个标签作为所述目标文档的主题,也就是说,所述目标文档的主题可以是一个,也可以是多个。
本实施例通过预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。
需要注意的是,上述步骤的执行顺序并不构成对本申请的限定,本领域技术人员还可以根据实际需要自行安排,例如将所述步骤S103和所述步骤S104进行置换。
此外,发明人采用央视新闻网站中的目标文档对本实施例提供的文档主题确定方法进行实验,计算通过该方法对目标文档确定的主题以及该央视新闻网站自己对目标文档设置的标签之间的近似程度,最终得到近似程度为92%的结果,表明通过本实施例提供的文档主题确定方法是一个准确率较高的方法。
基于以上实施例提供的一种文档主题确定方法,本申请实施例还提供了一种文档主题确定装置,下面结合附图来详细说明其工作原理。
实施例二
参见图2,该图为本申请实施例二提供的一种文档主题确定装置的结构框图。
本实施例提供的文档主题确定装置包括:
训练单元101、获取单元102、第一查找单元103、第二查找单元104、条件概率确定单元105和主题确定单元106;
其中,所述训练单元101,用于预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
所述获取单元102,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;
所述第一查找单元103,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
所述第二查找单元104,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
所述条件概率确定单元105,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
所述主题确定单元106,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
本实施例通过预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。
可选的,所述条件概率确定单元105包括:
第一条件概率确定子单元和第二条件概率确定子单元;
其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;
所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
可选的,所述每个训练文档的概率均为1。
可选的,所述主题确定单元106,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (8)
1.一种文档主题确定方法,其特征在于,
预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
所述方法包括:
获取待确定主题的目标文档,以及所述目标文档中的目标单词;
从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题;
其中,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:
根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练单词集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;所述每个标签的概率为每个标签在所述标签集合中出现的概率;
根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
2.根据权利要求1所述的方法,其特征在于,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的抽样概率得到;所述“标签-文档”条件概率包括在所述训练文档集合中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
3.根据权利要求2所述的方法,其特征在于,所述每个训练文档的抽样概率均为1。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:
从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
5.一种文档主题确定装置,其特征在于,所述装置包括:
训练单元、获取单元、第一查找单元、第二查找单元、条件概率确定单元和主题确定单元;
其中,所述训练单元,用于预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
所述获取单元,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;
所述第一查找单元,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
所述第二查找单元,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
所述条件概率确定单元,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
所述主题确定单元,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题;
其中,所述条件概率确定单元包括:
第一条件概率确定子单元和第二条件概率确定子单元;
其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练单词集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;所述每个标签的概率为每个标签在所述标签集合中出现的概率;
所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
6.根据权利要求5所述的装置,其特征在于,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的抽样概率得到;所述“标签-文档”条件概率包括在所述训练文档集合中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
7.根据权利要求6所述的装置,其特征在于,所述每个训练文档的抽样概率均为1。
8.根据权利要求5至7任意一项所述的装置,其特征在于,所述主题确定单元,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301661.1A CN107193892B (zh) | 2017-05-02 | 2017-05-02 | 一种文档主题确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301661.1A CN107193892B (zh) | 2017-05-02 | 2017-05-02 | 一种文档主题确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107193892A CN107193892A (zh) | 2017-09-22 |
CN107193892B true CN107193892B (zh) | 2019-08-13 |
Family
ID=59872318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301661.1A Active CN107193892B (zh) | 2017-05-02 | 2017-05-02 | 一种文档主题确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193892B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679228B (zh) * | 2017-10-23 | 2019-09-10 | 合肥工业大学 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
CN110309298A (zh) * | 2018-03-23 | 2019-10-08 | 优酷网络技术(北京)有限公司 | 主题预测方法及装置 |
CN110390092A (zh) * | 2018-04-18 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 文档主题确定方法及相关设备 |
CN109446318A (zh) * | 2018-09-14 | 2019-03-08 | 深圳市元征科技股份有限公司 | 一种确定汽车维修文档主题的方法及相关设备 |
CN109446516B (zh) * | 2018-09-28 | 2022-11-11 | 北京赛博贝斯数据科技有限责任公司 | 一种基于主题推荐模型的数据处理方法及系统 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN110727797A (zh) * | 2019-09-17 | 2020-01-24 | 北京三快在线科技有限公司 | 标签生成方法、装置、电子设备和计算机可读介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9754041B2 (en) * | 2014-03-06 | 2017-09-05 | Webfire, Llc | Method of automatically constructing content for web sites |
CN105843795B (zh) * | 2016-03-21 | 2019-05-14 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
CN106055538B (zh) * | 2016-05-26 | 2019-03-08 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
-
2017
- 2017-05-02 CN CN201710301661.1A patent/CN107193892B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107193892A (zh) | 2017-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193892B (zh) | 一种文档主题确定方法及装置 | |
Wang et al. | Linked document embedding for classification | |
Asghar et al. | Sentiment analysis on youtube: A brief survey | |
Bagheri et al. | ADM-LDA: An aspect detection model based on topic modelling using the structure of review sentences | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
Martinez‐Romo et al. | S em G raph: Extracting keyphrases following a novel semantic graph‐based approach | |
Dong et al. | The automated acquisition of suggestions from tweets | |
Li et al. | Improved automatic keyword extraction based on textrank using domain knowledge | |
US20200034444A1 (en) | System and method for true product word recognition | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Qian et al. | Detecting new Chinese words from massive domain texts with word embedding | |
Hinze et al. | Improving access to large-scale digital libraries throughsemantic-enhanced search and disambiguation | |
Zhang et al. | A topic clustering approach to finding similar questions from large question and answer archives | |
Sarkar et al. | A comparative analysis of particle swarm optimization and K-means algorithm for text clustering using Nepali Wordnet | |
Chen et al. | Polyuhk: A robust information extraction system for web personal names | |
Barla et al. | From ambiguous words to key-concept extraction | |
JP2017151588A (ja) | 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム | |
Kaur et al. | Semantic-based integrated plagiarism detection approach for english documents | |
Shah et al. | DOM-based keyword extraction from web pages | |
Wu et al. | A new approach to query segmentation for relevance ranking in web search | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
Priyatam et al. | Don't Use a Lot When Little Will Do: Genre Identification Using URLs. | |
Phueaksri et al. | An approach to generate a caption for an image collection using scene graph generation | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |