CN105243083B - 文档主题挖掘方法及装置 - Google Patents

文档主题挖掘方法及装置 Download PDF

Info

Publication number
CN105243083B
CN105243083B CN201510566787.2A CN201510566787A CN105243083B CN 105243083 B CN105243083 B CN 105243083B CN 201510566787 A CN201510566787 A CN 201510566787A CN 105243083 B CN105243083 B CN 105243083B
Authority
CN
China
Prior art keywords
theme
document
word
sentence
subordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510566787.2A
Other languages
English (en)
Other versions
CN105243083A (zh
Inventor
姜迪
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510566787.2A priority Critical patent/CN105243083B/zh
Publication of CN105243083A publication Critical patent/CN105243083A/zh
Application granted granted Critical
Publication of CN105243083B publication Critical patent/CN105243083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种文档主题挖掘方法和装置,其中,该方法包括:根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。

Description

文档主题挖掘方法及装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种文档主题挖掘方法及装置。
背景技术
目前,人们在互联网上获取信息的途径主要为通过搜索引擎进行检索,传统的文档检索结果很大程度上依赖于文档字面上的匹配,并不能很好地处理文档隐含的语义信息。
因此,现有技术采用主题模型来对文档进行语义挖掘,常用的主题模型算法为PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)算法。基于主题模型算法能使搜索引擎自动地获得文档背后的主题分布,使搜索引擎的结果更接近文档的语义信息,从而降低用户获取信息的成本。由此可见,文档主题的挖掘方法是搜索引擎领域的重要研究。
然而,上述所采用的PLSA对文档的语义挖掘的过程,仅仅考虑出现在上下文中词的相关性,使用词汇上的多项分布来表示隐含主题,因此,目前的PLSA算法对文档主题的挖掘过程不够全面精确,文档主题内容的相关性较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种文档主题挖掘方法,该方法实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。
本申请的第二个目的在于提出一种文档主题挖掘装置。
为达上述目的,本申请第一方面实施例提出了一种文档主题挖掘方法,包括:根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。
本申请实施例的文档主题挖掘方法,首先根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计,然后根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重,最后生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。由此,实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。
为达上述目的,本申请第二方面实施例提出了一种文档主题挖掘装置,包括:处理模块,用于根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;第一获取模块,用于根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;第一生成模块,用于生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。
本申请实施例的文档主题挖掘装置,通过处理模块根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;通过第一获取模块根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;通过第一生成模块生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。由此,实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的文档主题挖掘方法的流程图;
图2是本申请另一个实施例的文档主题挖掘方法的流程图;
图3为共现关系矩阵中搜索词和统一资源定位符的二分图;
图4是本申请一个实施例的文档主题挖掘装置的结构示意图;
图5是本申请另一个实施例的文档主题挖掘装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的文档主题挖掘方法及装置。
图1是本申请一个实施例的文档主题挖掘方法的流程图。
如图1所示,该文档主题挖掘方法包括:
步骤101,根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计。
具体来说,当需要对一个或者多个文档进行主题挖掘时,首先将这些待处理的文档发送给文档主题挖掘装置中,并且设置主题挖掘数目。需要注意的是,主题挖掘数目可以根据应用需要进行设置,比如将主题挖掘数目设置为4,即表示要对输入的文档内容进行4种主题的分类挖掘。
经过预先训练的基于概率潜语义分析模型PLSA,并且设置主题挖掘数目。需要说明的是,主题挖掘数目可以根据应用需要进行设置,比如将主题挖掘数目设置为4,即表示要对PLSA的输入文档内容进行4种主题的分类挖掘。
根据预设的主题挖掘数目,采用经过预先训练的基于概率潜语义分析模型PLSA,对所接收的至少一个文档中的信息采用最大期望算法(Expectation MaximizationAlgorithm,EM)进行循环迭代处理,通过E步骤估计未知参数的期望值,给出当前的参数估计,即获取每个文档中每个句子隐含的每个主题的后验估计。
需要强调的是,本发明各实施例涉及的PLSA算法对文档信息进行循环迭代的处理过程不同于现有技术。现有技术中所采用的PLSA算法对文档信息挖掘过程,仅仅考虑出现在上下文中词的相关性,使用词汇上的多项分布来表示隐含主题,因此,目前的PLSA算法对文档主题的挖掘过程不够全面精确,文档主题内容的相关性较差。而本发明各实施例涉及的PLSA算法是将句子和文档都看成是局部共现的上下文,因此,为了让PLSA挖掘到的主题内容更加相关,本发明各实施例涉及的PLSA算法是对每个文档中每个句子中所有词共享同一个主题进行处理,从而获取每个文档中每个句子隐含的每个主题的后验估计。
步骤102,根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重。
在获取每个文档中每个句子隐含的每个主题的后验估计之后,再通过M步骤重新估计分布参数,以使得数据的似然性最大,给出未知变量的期望估计。即根据每个主题的后验估计获取句子中每个词在每个主题中的隶属权重。后续会对具体处理过程进行具体描述。
举例说明,若预设的主题挖掘数目设置为4,待处理的句子中有五个词,则分别获取:当该句子为主题1时,每个词在主题1中的隶属权重具体是多少,当该句子为主题2时,每个词在主题2中的隶属权重具体是多少,当该句子为主题3时,每个词在主题3中的隶属权重具体是多少,当该句子为主题4时,每个词在主题4中的隶属权重具体是多少。
为了对文档语义进一步地深度挖掘,在另一个实施例中,还包括:
根据每个主题的后验估计获取每个主题在每个文档中的隶属权重。
步骤103,生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。
然后,根据句子中每个词在每个主题中的隶属权重,筛选出的与每个主题相关的词,然后生成与这个主题对应的主题集合,该主题集合包括这些相关的词。需要说明的是,根据隶属权重筛选出与每个主题相关的词的具体操作方式有很多,比如:根据隶属权重从高到低的顺序依次获取预设数目的词,或者,根据预设的阈值,将隶属权重与该阈值进行比较,获取隶属权重大于等于该阈值的词。
以此类推,根据预设的主题挖掘数目生成与该主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据句子中每个词在每个主题中的隶属权重,筛选出的与每个主题相关的词。
本申请实施例的文档主题挖掘方法,首先根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计,然后根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重,最后生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。由此,实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。
由此可见,针对图1所示实施例中采用PLSA对文档主题挖掘的处理方式,虽然考虑了句子和文档的上下文关系,但是,还是仅仅建模了语义相关的词在文档层面上的局部共现关系。
因此,为了更加全面精确的挖掘文档主题,进一步地提高了文档主题内容的相关性,还要建模语义相关的词在搜索领域中各种复杂的全局共现关系。基于上述实施例,所述方法还包括:
根据预先存储的共现关系矩阵,更新句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
需要注意的是,共现关系矩阵是根据大量的信息预先生成的,为了更清楚的介绍共现关系矩阵的生成过程,以及在图1所示实施例的基础上,如何采用共现关系矩阵更好的进行文档主题挖掘,通过图2所示实施例具体说明如下:
图2是本申请另一个实施例的文档主题挖掘方法的流程图。
如图2所示,在步骤102之后,该文档主题挖掘方法还包括:
步骤201,获取预设时间内的搜索查询日志。
步骤202,根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。
具体来说,在搜索引擎的应用场景中,搜索查询日志提供了非常重要的查询词的共现关系,本实施例中称这种共现关系为全局共现,因此,可以根据搜索查询日志生成共现关系矩阵。首先,在搜索引擎应用服务器上获取预设时间内的搜索查询日志,其中,预设时间可以根据实际应用需要进行设置。
然后,根据搜索查询日志生成共现关系矩阵,共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。为了更加清楚的说明共现关系矩阵的含义,通过构建一个搜索词和点击统一资源定位符URL的二分图来讲解全局共现关系。
图3为共现关系矩阵中搜索词和统一资源定位符的二分图,如图3所示,用户在搜索词a“sun”和搜索词b“java”时,都点击了URL“www.java.com”因此,我们认为这两个词具有一定程度的共现关系。
步骤203,根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
将建立的共现关系矩阵进行存储,当根据图1所示实施例中的步骤102获取句子中每个词在每个主题中的隶属权重之后,根据预先存储的共现关系矩阵,更新句子中每个词在每个主题中的隶属权重。
本申请实施例的文档主题挖掘方法,首先获取预设时间内的搜索查询日志,然后根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次,最后根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。由此,实现了更加全面精确的挖掘文档主题,进一步地提高了文档主题内容的相关性。
为了将PLSA应用到较大规模的数据当中,在处理大量文档时,减少整体运行的时间,提高运算效率,基于上述实施例,所述方法还包括:
若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
为了更加清楚的说明上述实施例的具体实施过程,下面通过具体的算法描述进行说明,如下所示:
1)文档中相关词的局部共现学习
本实施例中将句子和文档都看成是局部共现的上下文,为了让PLSA学习到的主题内容够更加相关,在本实施例提供的PLSA中(也称PLSA+)中将一个文档中的句子中的所有词共享同一个主题。
PLSA+假设的文档生成过程如下:
(1)以概率P(d_i)选取一个文档d_i;
(2)对文档d_i中的每个句子s_{ij},按照概率P(z_k|d_i)抽取一个主题z_k;
(3)对句子中的每个位置,按照概率P(w|z_k)抽取一个词w;
从以上的生成过程,我们可以推导出PLSA+的目标函数:
我们采用EM的方法来对PLSA+的参数进行更新,更新的具体方程式如下:
E步骤:在文档d_i中的句子s_{ij}上隐含主题z_k的后验估计为:
其中,
Nijw是句子s_{ij}中词w的个数。
M步骤:
2)搜索领域中相关词的全局共现学习
我们构建一个词汇之间的共现关系矩阵R,在每次EM迭代后,我们用R来更新P(w|z_k)。具体的更新方程式如下:
其中,共现矩阵R的每个元素R[a,b]由下式计算获得:
cfiuf由下式计算得出
上式右侧第一项表示u_i和w_j共现的频次,第二项iuf由下式计算得出:
其中|U|表示二分图中所有URL的总数,n(w_j)表示和w_j在二分图中相连的URL的总数。
3)Hadoop平台的并行处理
当数据量非常庞大的时候,采用Hadoop的MapReduce的方式来处理数据,PLSA+算法对应的Mapper和Reducer的设计细节在下图中进行了阐述。
4)文档主题挖掘结果分析
针对中文查询日志语料,我们分别采用现有技术的PLSA和本实施例提供的PLSA+对输入文档进行文档主题挖掘,主题挖掘数目设置为4,如表1所示进行结果对比:
表1:主题内容对比
从表1可以看出,PLSA+产生的主题更为相关。比如,Topic4是关于金融的主题,PLSA发现的词包含了“英语”和“免费”这种不甚相关的词汇。与此对比,P L S A+发现的词中包含了四种货币的名称:“日元”,“人民币”,“港币”和“美元”。由此可以看出,PLSA+学习到的主题具有更好的语义相关性。
由此可见,本实施例提供的文档主题挖掘方法,不需要进行特征提取,是一种无监督的方法,无需进行数据标注,针对搜索场景引入了全局共现关系和局部共现关系,更加适合搜索任务。在处理搜索任务中的文档时,只需经过简单地无监督计算即可,无需标注数据,并且适宜并行化处理,可以应用在大数据集处理上。
为了实现上述实施例,本申请还提出一种文档主题挖掘装置。
图4是本申请一个实施例的文档主题挖掘装置的结构示意图。
如图4所示,该文档主题挖掘装置包括:
处理模块11,用于根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
第一获取模块12,用于根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
第一生成模块13,用于生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。
为了对文档语义进一步地深度挖掘,在另一个实施例中,所述第一获取模块12,还用于在获取每个文档中每个句子隐含的每个主题的后验估计之后,根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
需要说明的是,前述对文档主题挖掘方法实施例的解释说明也适用于该实施例的文档主题挖掘装置,此处不再赘述。
本申请实施例的文档主题挖掘装置,通过处理模块根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;通过第一获取模块根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;通过第一生成模块生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。由此,实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。
图5是本申请另一个实施例的文档主题挖掘装置的结构示意图,如图5所示,基于图4所示实施例,所述装置还包括:
更新模块14用于在获取句子中每个词在所述每个主题中的隶属权重之后,根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
第二获取模块15,用于在更新所述句子中每个词在所述每个主题中的隶属权重之前,获取预设时间内的搜索查询日志;
第二生成模块16,用于根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。
需要说明的是,前述对文档主题挖掘方法实施例的解释说明也适用于该实施例的文档主题挖掘装置,此处不再赘述。
本申请实施例的文档主题挖掘装置,通过第二获取模块获取预设时间内的搜索查询日志,通过第二生成模块根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次,通过更新模块根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。由此,实现了更加全面精确的挖掘文档主题,进一步地提高了文档主题内容的相关性。
为了将PLSA应用到较大规模的数据当中,在处理大量文档时,减少整体运行的时间,提高运算效率,进一步地,
所述处理模块11,还用于若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个第一处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种文档主题挖掘方法,其特征在于,包括以下步骤:
根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;
所述获取句子中每个词在所述每个主题中的隶属权重之后,还包括:
获取预设时间内的搜索查询日志;
根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次;
根据预先存储的所述共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
2.如权利要求1所述的文档主题挖掘方法,其特征在于,所述获取每个文档中每个句子隐含的每个主题的后验估计之后,还包括:
根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
3.如权利要求1或2所述的文档主题挖掘方法,其特征在于,还包括:
若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
4.一种文档主题挖掘装置,其特征在于,包括:
处理模块,用于根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
第一获取模块,用于根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
第一生成模块,用于生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;
更新模块,用于在获取句子中每个词在所述每个主题中的隶属权重之后,根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性;
第二获取模块,用于在更新所述句子中每个词在所述每个主题中的隶属权重之前,获取预设时间内的搜索查询日志;
第二生成模块,用于根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。
5.如权利要求4所述的文档主题挖掘装置,其特征在于,
所述第一获取模块,还用于在获取每个文档中每个句子隐含的每个主题的后验估计之后,根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
6.如权利要求4或5所述的文档主题挖掘装置,其特征在于,
所述处理模块,还用于若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
CN201510566787.2A 2015-09-08 2015-09-08 文档主题挖掘方法及装置 Active CN105243083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510566787.2A CN105243083B (zh) 2015-09-08 2015-09-08 文档主题挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510566787.2A CN105243083B (zh) 2015-09-08 2015-09-08 文档主题挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN105243083A CN105243083A (zh) 2016-01-13
CN105243083B true CN105243083B (zh) 2018-09-07

Family

ID=55040732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510566787.2A Active CN105243083B (zh) 2015-09-08 2015-09-08 文档主题挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN105243083B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239438B (zh) * 2016-03-28 2020-07-28 阿里巴巴集团控股有限公司 一种文档分析方法及装置
CN106205609B (zh) * 2016-07-05 2019-05-28 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN106776547B (zh) * 2016-11-30 2020-02-07 北京先进数通信息技术股份公司 一种文档主题生成方法和装置
CN107092650B (zh) * 2017-03-13 2020-02-21 网宿科技股份有限公司 一种网络日志分析方法及装置
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置
CN109670171B (zh) * 2018-11-23 2021-05-14 山西大学 一种基于词对非对称共现的词向量表示学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559220A (zh) * 2013-10-18 2014-02-05 北京奇虎科技有限公司 图片搜索设备、方法及系统
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559220A (zh) * 2013-10-18 2014-02-05 北京奇虎科技有限公司 图片搜索设备、方法及系统
CN104536979A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Integrating clustering and multi-document summarization by bi-mixture probabilistic latent semantic analysis (PLSA) with sentence bases";Chao Shen等;《Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence》;20110811;第914-920页 *
"基于MapReduce的并行PLSA算法及在文本挖掘中的应用";李宁等;《中文信息学报》;20150315;第29卷(第2期);第79-86页 *
"基于主题模型的主观性句子识别";吴超荣等;《计算机与现代化》;20121220(第12期);全文 *

Also Published As

Publication number Publication date
CN105243083A (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
CN105243083B (zh) 文档主题挖掘方法及装置
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
CN106663124B (zh) 生成和使用知识增强型模型
CN101582080B (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
WO2014126657A1 (en) Latent semantic analysis for application in a question answer system
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN107977363A (zh) 标题生成方法、装置和电子设备
CN108874783A (zh) 电力信息运维知识模型构建方法
Chatterjee et al. Single document extractive text summarization using genetic algorithms
Lauly et al. Document neural autoregressive distribution estimation
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
Cordobés et al. Graph-based techniques for topic classification of tweets in Spanish
CN102968431B (zh) 一种基于依存树的中文实体关系挖掘的控制装置
CN108304377A (zh) 一种长尾词的提取方法及相关装置
WO2019123111A1 (en) Facilitation of domain and client-specific application program interface recommendations
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN115309915A (zh) 知识图谱构建方法、装置、设备和存储介质
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN112084776B (zh) 相似文章的检测方法、装置、服务器和计算机存储介质
Romano et al. Clustering and lexical information support for the recovery of design pattern in source code
US11720600B1 (en) Methods and apparatus for machine learning to produce improved data structures and classification within a database
Marcacini et al. On the use of consensus clustering for incremental learning of topic hierarchies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant