CN105677769B

CN105677769B - 一种基于潜在狄利克雷分配（lda）模型的关键词推荐方法和系统

Info

Publication number: CN105677769B
Application number: CN201511024348.5A
Authority: CN
Inventors: 吴敬桐; 李天宁
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2018-01-05
Anticipated expiration: 2035-12-29
Also published as: US10685185B2; US20180307680A1; CN105677769A; WO2017114019A1

Abstract

本发明提供一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法和系统，所述方法包括：基础LDA训练和增量LDA训练。基础LDA训练针对训练文本获得基础词到主题的概率分布、基础文本到主题的概率分布；增量LDA训练针对特定的增量种子词，对与所述增量种子词相匹配的训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布；最后形成全量词到主题的概率分布和全量文本到主题的概率分布。并对全量模型中的每两个词计算相关性权重和最终相关性得分，对最终相关性得分最高的一个或多个关键词进行推荐。本发明通过采用增量训练模型，大大提高主题聚类的精度，以及主题的多样性，显著提高了主题内关键词的质量。

Description

一种基于潜在狄利克雷分配（LDA）模型的关键词推荐方法和系统

技术领域

本发明涉及人工智能技术，更具体地，涉及一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法和系统。

背景技术

在搜索引擎中，对于推荐的应用是搜索引擎发展的一个趋势，尤其在无线搜索情景下，对于推荐的需求尤其重要。因为在无线搜索的情景下，用户在屏幕较小的情况下，获取信息的成本更高，用户更希望机器能够更多的了解用户的需求，在满足当前搜索query的同时，提供推荐相类似的query信息，因此在搜索中对于推荐的切入就尤其重要。

在目前的搜索引擎中，对于推荐的使用场景大体分为两类。一类是在首页的时候，根据用户历史行为的分析，为用户提供一些个性化的推荐，达到不搜即得的效果，例如：用户最近比较关心某类汽车，搜索了大量该汽车相关的query，同时浏览了大量该汽车相关的网站，对于用户行为的分析，可以分析出用户对于某类汽车比较感兴趣，可以推荐同类的最新新闻和视频。另一类是在用户搜索具体query的同时为用户提供推荐的内容，例如：用户搜索迈腾二手车的同时，提供相关的query，如迈腾二手车报价，迈腾汽修小问题等。

在上面提到的两类推荐中，都涉及到一个关键的技术，即建立相关词的联系，也可理解为相关词的聚类，例如：汽修、二手车、迈腾可以聚为一类，或者了解到汽修和二手车的关系更贴近，而汽修和其他非汽车相关的词关系更远。

本发明的发明人认识到，现有的关键词相关性推荐技术会存在一些问题。例如，无法针对某一行业比较细分的文本提供更有针对性的关键词推荐，举例来说，可以比较准确地得到体育相关主题的关键词推荐，但是比较难得到体育的二级分类赛车的关键词推荐。

发明内容

本发明的一个目的是提供一种用于关键词推荐的新技术方案。

根据本发明的一个方面，提供一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法，包括：对训练文本计算基础LDA模型，获得基础词到主题的概率分布、基础文本到主题的概率分布；获取增量种子词，筛选与所述增量种子词相匹配的训练文本作为增量训练文本；对所述增量训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布；将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布，从而获得全量词到主题的概率分布和全量文本到主题的概率分布；从全量词到主题的概率分布中获得全量主题词向量，为每一个主题词向量i计算该主题中每两个词(a₁、a₂)之间的相关性权重sim_i(a₁,a₂)，以及叠加该两个词在所有主题词向量的相关性权重Σsim_i(a₁,a₂)，从而获得该两个词的最终相关性得分sim(a₁,a₂)；在关键词搜索中，对最终相关性得分最高的一个或多个关键词进行推荐。

优选地，在所述步骤S1之前还包括对训练文本进行预处理，以作结构化存储并生成明文词典。

优选地，在所述步骤S1和S3中采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。

优选地，所述步骤S1包括：S11.将所述训练文本划分为多个集合；S12.对每一个集合的训练文本分别计算基础LDA模型，获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布；S13.同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布；S14.判断基础LDA模型是否达到迭代次数，如果未达到，则在同步数据的基础上，继续计算各个集合的基础LDA模型；如果达到，则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。

优选地，所述步骤S2包括：通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。

优选地，所述自动扩展种子词包括word2Vec扩展。

优选地，所述获取增量种子词的步骤包括如下步骤：提供人工标注的行业代表性种子词，所述行业代表性种子词根据不同行业而确定；在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合；通过word2Vec方法计算扩展词和所有种子词的距离权重，累加所述距离权重获得扩展词的最终置信度，将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。

根据本发明的另一个方面，提供一种基于潜在狄利克雷分配(LDA)模型的关键词推荐系统，包括：基础训练模块，用于对训练文本计算基础LDA模型，获得基础词到主题的概率分布、基础文本到主题的概率分布；增量筛选模块，用于获取增量种子词，筛选与所述增量种子词相匹配的训练文本作为增量训练文本；增量训练模块，用于对所述增量训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布；全量计算模块，将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布，从而获得全量词到主题的概率分布和全量文本到主题的概率分布；相关性计算模块，用于从全量词到主题的概率分布中获得全量主题词向量，为每一个主题词向量i计算该主题中每两个词(a₁、a₂)之间的相关性权重sim_i(a₁,a₂)，以及叠加该两个词在所有主题词向量的相关性权重Σsim_i(a₁,a₂)，从而获得该两个词的最终相关性得分sim(a₁,a₂)；关键词推荐模块，用于在关键词搜索中，对最终相关性得分最高的一个或多个关键词进行推荐。

优选地，本系统还包括文本预处理模块，用于对训练文本进行预处理，以作结构化存储并生成明文词典。

优选地，所述基础训练模块和增量训练模块采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。

优选地，所述基础训练模块还包括：文本划分子模块(1011)，用于将所述训练文本划分为多个集合；基础训练子模块(1012)，用于对每一个集合的训练文本分别计算基础LDA模型，获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布；同步模块(1013)，用于同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布；判断模块(1014)，用于判断基础LDA模型是否达到迭代次数，如果未达到，则在同步数据的基础上，继续计算各个集合的基础LDA模型；如果达到，则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。

优选地，所述增量筛选模块还用于通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。

优选地，所述自动扩展种子词包括word2Vec扩展。

优选地，所述增量筛选模块用于：提供人工标注的行业代表性种子词，所述行业代表性种子词根据不同行业而确定；在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合；通过word2Vec方法计算扩展词和所有种子词的距离权重，累加所述距离权重获得扩展词的最终置信度，将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。

本发明的发明人发现，在现有技术中，尚未出现有效地针对某一行业比较细分的文本提供更有针对性的关键词的技术。因此，本发明所要实现的技术任务或者所要解决的技术问题是本领域技术人员从未想到的或者没有预期到的，故本发明是一种新的技术方案。

另外，本领域技术人员应当理解，尽管现有技术中存在许多问题，但是，本发明的每个实施例或权利要求的技术方案可以仅在一个或几个方面进行改进，而不必同时解决现有技术中或者背景技术中列出的全部技术问题。本领域技术人员应当理解，对于一个权利要求中没有提到的内容不应当作为对于该权利要求的限制。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1示出了根据本发明的一个实施例的基础LDA模型的计算方法的流程图；

图2示出了根据本发明的一个实施例的增量LDA模型的计算方法的流程图；

图3示出了根据本发明的一个实施例的关键词推荐系统的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

根据本发明第一实施例的基于潜在狄利克雷分配(LDA)模型的关键词推荐方法，包括基础LDA训练和增量LDA训练。所述方法包括如下步骤，如图1所示：首先，系统获取训练文本，并对训练文本进行预处理，以作结构化存储并生成明文词典。结构化存储和明文词典是对文本进行预处理的常用方式，首先对于一篇文章进行分词处理，然后采用常用词词典过滤常用词，抽取一篇文章中有用的特征词。例如：将一篇文章中“的”，“地”，“得”等没有实际意义的噪声特征词过滤掉。明文词典是指对于一个词本身是明文，但是在训练的过程中如果保存所有文章的所有词将占存储空间过大，需要将明文转化成签名，存储签名，因此需要利用明文词典记录一个明文词对应的签名。例如：句子“舒马赫的赛车比赛”，结构化存储预处理后，“的”会被去掉，保留特征词“舒马赫”、“赛车”、“比赛”。直接存储舒马赫、赛车、比赛等词，存储压力过大，内存无法接受，因此生成明文词典“舒马赫”对应001，“赛车”对应002，“比赛”对应003，在LDA训练过程中，采用001，002，003而不采用明文，用以减少内存压力。

随后，再对训练文本计算基础LDA模型，获得基础词到主题的概率分布、基础文本到主题的概率分布。应当知道，LDA模型的计算可以采用本领域现有的或公知的计算方法来计算，只要其可以应用到本发明中。基础LDA模型的计算可以包含多种方式，例如可以以一个处理器单训练线程来计算全部训练文本的LDA模型。优选地，也可以以多个处理器多个训练线程来计算，甚至是进行分布式计算。

在一个实施例中，采用多训练线程来进行基础LDA模型的计算，采用控制线程来对多训练线程进行控制。具体来说，首先将所述训练文本划分为多个集合；多个训练线程加载不同的训练文本集合，开始迭代计算，每个线程对相应的训练文本集合分别做迭代处理，分别计算基础LDA模型，获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布。其中训练线程可以采用例如Gibbs采样或变分法来对文本进行采样和抽样。所述基础词到主题的概率分布为一个词到主题的矩阵，矩阵的行是词、列是隐含计算的主题。基础文本到主题的概率分布为文本到主题的矩阵，矩阵的行为每个训练文本，列是隐含计算的主题。主题的词向量就是词到主题的矩阵中该矩阵的列向量。这些矩阵初始为随机值，通过Gibbs采样迭代，逐渐优化计算矩阵的每个值，最终可以通过词到主题的矩阵，得到词的聚类从而指引关键词推荐。一次迭代之后控制线程同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布，并判断基础LDA模型是否达到迭代次数，如果未达到，则控制线程将同步数据发送给训练线程，由训练线程继续计算各个集合的基础LDA模型；如果达到，则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。

基础LDA训练之后已经获得了词的聚类，但是基础LDA较难解决覆盖长尾主题的问题，因此，本发明的实施例在基础LDA训练之后引入增量 LDA训练，增量LDA训练利用某些细分行业的种子词，有针对性的产生对应的主题。如图2所示。

在增量LDA训练中，首先获取增量种子词，筛选与所述增量种子词相匹配的训练文本作为增量训练文本。可以通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词，例如开始人工选取几个增量种子词，然后通过word2Vec扩展更多种子词的方式。优选地，所述获取增量种子词的步骤包括如下步骤：提供人工标注的行业代表性种子词，所述行业代表性种子词根据不同行业而确定；

在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合；

通过word2Vec方法计算扩展词和所有种子词的距离权重，累加所述距离权重获得扩展词的最终置信度，将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。所述特定阈值根据不同行业数据分布统计得到。

而后，筛选与所述增量种子词相匹配的训练文本作为增量训练文本。匹配过程包括模糊匹配，包含种子词越多的文本，被选中的可能性越大，不含种子词的文本也有被选中的可能。

对所述筛选出的增量训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布。取得增量词到主题的概率分布、增量文本到主题的概率分布的方式可以与基础LDA训练相类似，即训练线程可以采用例如Gibbs采样或变分法来对文本进行采样和抽样。并进行与基础LDA训练相类似的迭代计算，之后控制线程同步各集合所获得的增量词到主题的概率分布、增量文本到主题的概率分布，并判断增量LDA模型是否达到迭代次数，如果未达到，则控制线程将同步数据发送给训练线程，由训练线程继续计算各个集合的增量LDA模型；如果达到，则输出该同步后的增量词到主题的概率分布、增量文本到主题的概率分布。

随后，将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布，从而获得全量词到主题的概率分布和全量文本到主题的概率分布。

这样，增量模型更新信息后，输出更新后的文档到主题的概率分布和主题的明文信息。影响关键词的结果是和训练文本比较相关的，由于增量模型采用的文本都是某一行业比较细分的文本，因此计算的主题粒度会更好。例如：通过基本模型可以得到体育的主题模型，但是比较难得到体育的二级分类赛车的主题聚类，但是通过LDA增量模型可以计算出赛车这种二级粒度的主题的词向量，所谓主题的词向量即词到主题的概率分布中的列向量，一系列相关的词及其对应该主题的权重。例如，某个汽车主题的词向量的组成：[奔驰0.08，宝马0.06，特斯拉0.04，途观0.04，路虎0.02...]，而奔驰属于这个主题的权重0.08。

获得全量词到主题的概率分布和全量文本到主题的概率分布后，就需要计算各个词之间的相关性权重和相关性得分。从全量词到主题的概率分布中获得全量主题词向量，即词到主题的概率分布中的列向量，而后为每一个主题词向量i计算该主题中每两个词(a₁、a₂)之间的相关性权重sim_i(a₁,a₂)。通过基础和增量LDA模型的训练可以得到N个聚类好的主题词向量，在每个主题词向量中，可以得到词a₁和词a₂的占某一个主题的权重，通过a₁和a₂占某个主题中所有词权重的比例，可以计算出a₁和a₂的相关性权重，如公式1

sim_i(a₁,a₂)＝a₁+a₂/sum(a₁,a₂..a_n) (公式1)

其中：a₁是a₁这个词占某个主题的权重，同理a₂是a₂这个词占同一个主题的权重。

随后，线性叠加该两个词(a₁、a₂)在所有主题词向量的相关性权重Σsim_i(a₁,a₂)，从而获得该两个词的最终相关性得分sim(a₁,a₂)，如公式2。

sim(a₁,a₂)＝sim₁+sim₂...+sim_N； (公式2)

最后，在关键词搜索中，对最终相关性得分最高的一个或多个关键词进行推荐。

此外，图3示出了根据本发明第二实施例的关键词推荐系统，本实施例与第一实施例相同或类似的部分下文将不再赘述。所述系统用于执行前述根据本发明第一实施例的关键词推荐方法中的各个步骤，设置在一计算机设备上，所述计算机设备包括处理器、显示器、存储器及其他外设。所述基于潜在狄利克雷分配(LDA)模型的关键词推荐系统，包括文本预处理模块106，用于对训练文本进行预处理，以作结构化存储并生成明文词典；基础训练模块101，用于对训练文本计算基础LDA模型，获得基础词到主题的概率分布、基础文本到主题的概率分布；增量筛选模块102，用于获取增量种子词，筛选与所述增量种子词相匹配的训练文本作为增量训练文本；增量训练模块103，用于对所述增量训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布；全量计算模块104，将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布，从而获得全量词到主题的概率分布和全量文本到主题的概率分布；相关性计算模块105，用于从全量词到主题的概率分布中获得全量主题词向量，为每一个主题词向量i计算该主题中每两个词(a₁、a₂)之间的相关性权重sim_i(a₁,a₂)，以及叠加该两个词在所有主题词向量的相关性权重Σsim_i(a₁,a₂)，从而获得该两个词的最终相关性得分sim(a₁,a₂)；关键词推荐模块106，用于在关键词搜索中，对最终相关性得分最高的一个或多个关键词进行推荐。

其中，所述基础训练模块101还包括：文本划分子模块1011，用于将所述训练文本划分为多个集合；基础训练子模块1012，用于对每一个集合的训练文本分别计算基础LDA模型，获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布；同步模块1013，用于同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布；判断模块1014，用于判断基础LDA模型是否达到迭代次数，如果未达到，则在同步数据的基础上，继续计算各个集合的基础LDA模型；如果达到，则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。

采用本发明的关键词推荐方法和系统，通过创新性的采用增量训练模型，大大提高主题聚类的精度，以及主题的多样性，显著提高了主题内关键词的质量，建立了关键词之间的联系，为关键词推荐奠定了基础作用。同时基于本发明的关键词推荐方法和系统，可以在多种线上项目上得到应用，例如：基于人物推荐的优化、用户标签的建立、首页推荐等等。

采用本发明的关键词推荐方法和系统，用户在搜索例如，迈腾二手车的时候，相关query的推荐例如：迈腾二手车价格，迈腾汽修问题等等。在构建的主题中可以看到，二手车、迈腾、价格、汽修都会聚类到一个主题中，通过计算这些词之间的相关性权重，可以明确得到这些词的相关性，高于其他非汽车类的词，对于query迈腾二手车，可以构建相关query集合，例如：迈腾二手车价格，迈腾汽修问题等，因此在用户搜索一个query的时候，可以推荐一些类似的query。

本发明的方法和系统也可以应用到用户标签的建立过程中。在传统的协同过滤推荐方法中，第一步要找到相似的用户，即用户搜索相似的内容，在这时同样需要用到关键词推荐技术，用于建立用户之间的联系。例如：一个用户搜索奔驰，另一个用户搜索宝马，如果只用关键词匹配，很难知道用户都是关心高档车，但是通过关键词推荐技术，可以得到奔驰和宝马两个词有较高的关联度，从而建立这两个用户的联系。

本领域技术人员应当明白，可以通过各种方式来实现系统100。例如，可以通过指令配置处理器来实现各个单元和模块。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现各个单元和模块。例如，可以将各个单元和模块固化到专用器件(例如ASIC)中。可以将各个单元分成相互独立的单元，或者可以将它们合并在一起实现。所述单元可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

本发明的系统和方法可以通过程序产品体现。程序产品可以包括可读存储介质，其上载有用于使处理器实现本发明的各个方面的可读程序指令。

可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。可读存储介质的更具体的例子(非穷举的列表)包括：便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的可读程序指令可以从可读存储介质下载到各个电子设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部电子设备或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个电子设备中的网络适配卡或者网络接口从网络接收可读程序指令，并转发该可读程序指令，以供存储在各个计算/处理设备中的可读存储介质中。

用于执行本发明操作的程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。可读程序指令可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由可读程序指令实现。

这些可读程序指令可以提供给电子设备的处理器，从而生产出一种机器，使得这些指令在通过电子设备的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些可读程序指令存储在可读存储介质中，这些指令使得电子设备以特定方式工作，从而，存储有指令的可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把可读程序指令加载到电子设备上，使得在电子设备上执行一系列操作步骤，以产生指令实现的过程，从而使得在电子设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法，包括：

对训练文本进行预处理过滤常用词，以做结构化存储并生成明文词典；

对训练文本计算基础LDA模型，获得基础词到主题的概率分布、基础文本到主题的概率分布；

获取增量种子词，筛选与所述增量种子词相匹配的训练文本作为增量训练文本，其中，所述增量种子词是细分行业的种子词；

对所述增量训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布；

将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布，从而获得全量词到主题的概率分布和全量文本到主题的概率分布；

从全量词到主题的概率分布中获得全量主题词向量，为每一个主题词向量i计算该主题中每两个词(a₁、a₂)之间的相关性权重sim_i(a₁,a₂)，以及叠加该两个词在所有主题词向量的相关性权重Σsim_i(a₁,a₂)，从而获得该两个词的最终相关性得分sim(a₁,a₂)，其中，所述全量主题词向量是全量词到主题的概率分布中的列向量；

在关键词搜索结果中，推荐最终相关性得分最高的一个或多个关键词。

2.根据权利要求1所述的关键词推荐方法，其特征在于，其中采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。

3.根据权利要求1所述的关键词推荐方法，其特征在于，所述对训练文本计算基础LDA模型的步骤包括：

将所述训练文本划分为多个集合；

对每一个集合的训练文本分别计算基础LDA模型，获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布；

同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布；

判断基础LDA模型是否达到迭代次数，如果未达到，则在同步数据的基础上，继续计算各个集合的基础LDA模型；如果达到，则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。

4.根据权利要求1所述的关键词推荐方法，其特征在于，所述获取增量种子词的步骤包括：通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。

5.根据权利要求4所述的关键词推荐方法，其特征在于，所述自动扩展种子词包括word2Vec方法扩展。

6.根据权利要求1所述的关键词推荐方法，其特征在于，所述获取增量种子词的步骤包括如下步骤：

提供人工标注的行业代表性种子词，所述行业代表性种子词根据不同行业而确定；

通过word2Vec方法计算扩展词和所有种子词的距离权重，累加所述距离权重获得扩展词的最终置信度，将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。

7.一种基于潜在狄利克雷分配(LDA)模型的关键词推荐系统，包括：

文本预处理模块，用于对训练文本进行预处理过滤常用词，以做结构化存储并生成明文词典；

基础训练模块，用于对训练文本计算基础LDA模型，获得基础词到主题的概率分布、基础文本到主题的概率分布；

增量筛选模块，用于获取增量种子词，筛选与所述增量种子词相匹配的训练文本作为增量训练文本，其中，所述增量种子词是细分行业的种子词；

增量训练模块，用于对所述增量训练文本计算增量LDA模型，获得增量词到主题的概率分布、增量文本到主题的概率分布；

全量计算模块，将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布，从而获得全量词到主题的概率分布和全量文本到主题的概率分布；

相关性计算模块，用于从全量词到主题的概率分布中获得全量主题词向量，为每一个主题词向量i计算该主题中每两个词(a₁、a₂)之间的相关性权重sim_i(a₁,a₂)，以及叠加该两个词在所有主题词向量的相关性权重Σsim_i(a₁,a₂)，从而获得该两个词的最终相关性得分sim(a₁,a₂)，其中，所述全量主题词向量是全量词到主题的概率分布中的列向量；

关键词推荐模块，用于在关键词搜索中，对最终相关性得分最高的一个或多个关键词进行推荐。

8.根据权利要求7所述的关键词推荐系统，其特征在于，在所述基础训练模块和增量训练模块采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。

9.根据权利要求7所述的关键词推荐系统，其特征在于，所述基础训练模块还包括：

文本划分子模块，用于将所述训练文本划分为多个集合；

基础训练子模块，用于对每一个集合的训练文本分别计算基础LDA模型，获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布；

同步模块，用于同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布；

判断模块，用于判断基础LDA模型是否达到迭代次数，如果未达到，则在同步数据的基础上，继续计算各个集合的基础LDA模型；如果达到，则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。

10.根据权利要求7所述的关键词推荐系统，其特征在于，所述增量筛选模块还用于通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。

11.根据权利要求10所述的关键词推荐系统，其特征在于，所述自动扩展种子词包括word2Vec扩展。

12.根据权利要求7所述的关键词推荐系统，其特征在于，所述增量筛选模块用于：