CN105677769B - 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 - Google Patents

一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 Download PDF

Info

Publication number
CN105677769B
CN105677769B CN201511024348.5A CN201511024348A CN105677769B CN 105677769 B CN105677769 B CN 105677769B CN 201511024348 A CN201511024348 A CN 201511024348A CN 105677769 B CN105677769 B CN 105677769B
Authority
CN
China
Prior art keywords
theme
probability distribution
increment
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511024348.5A
Other languages
English (en)
Other versions
CN105677769A (zh
Inventor
吴敬桐
李天宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201511024348.5A priority Critical patent/CN105677769B/zh
Publication of CN105677769A publication Critical patent/CN105677769A/zh
Priority to PCT/CN2016/106114 priority patent/WO2017114019A1/zh
Application granted granted Critical
Publication of CN105677769B publication Critical patent/CN105677769B/zh
Priority to US16/019,278 priority patent/US10685185B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法和系统,所述方法包括:基础LDA训练和增量LDA训练。基础LDA训练针对训练文本获得基础词到主题的概率分布、基础文本到主题的概率分布;增量LDA训练针对特定的增量种子词,对与所述增量种子词相匹配的训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布;最后形成全量词到主题的概率分布和全量文本到主题的概率分布。并对全量模型中的每两个词计算相关性权重和最终相关性得分,对最终相关性得分最高的一个或多个关键词进行推荐。本发明通过采用增量训练模型,大大提高主题聚类的精度,以及主题的多样性,显著提高了主题内关键词的质量。

Description

一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法和 系统
技术领域
本发明涉及人工智能技术,更具体地,涉及一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法和系统。
背景技术
在搜索引擎中,对于推荐的应用是搜索引擎发展的一个趋势,尤其在无线搜索情景下,对于推荐的需求尤其重要。因为在无线搜索的情景下,用户在屏幕较小的情况下,获取信息的成本更高,用户更希望机器能够更多的了解用户的需求,在满足当前搜索query的同时,提供推荐相类似的query信息,因此在搜索中对于推荐的切入就尤其重要。
在目前的搜索引擎中,对于推荐的使用场景大体分为两类。一类是在首页的时候,根据用户历史行为的分析,为用户提供一些个性化的推荐,达到不搜即得的效果,例如:用户最近比较关心某类汽车,搜索了大量该汽车相关的query,同时浏览了大量该汽车相关的网站,对于用户行为的分析,可以分析出用户对于某类汽车比较感兴趣,可以推荐同类的最新新闻和视频。另一类是在用户搜索具体query的同时为用户提供推荐的内容,例如:用户搜索迈腾二手车的同时,提供相关的query,如迈腾二手车报价,迈腾汽修小问题等。
在上面提到的两类推荐中,都涉及到一个关键的技术,即建立相关词的联系,也可理解为相关词的聚类,例如:汽修、二手车、迈腾可以聚为一类,或者了解到汽修和二手车的关系更贴近,而汽修和其他非汽车相关的词关系更远。
本发明的发明人认识到,现有的关键词相关性推荐技术会存在一些问题。例如,无法针对某一行业比较细分的文本提供更有针对性的关键词推荐,举例来说,可以比较准确地得到体育相关主题的关键词推荐,但是比 较难得到体育的二级分类赛车的关键词推荐。
发明内容
本发明的一个目的是提供一种用于关键词推荐的新技术方案。
根据本发明的一个方面,提供一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法,包括:对训练文本计算基础LDA模型,获得基础词到主题的概率分布、基础文本到主题的概率分布;获取增量种子词,筛选与所述增量种子词相匹配的训练文本作为增量训练文本;对所述增量训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布;将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布,从而获得全量词到主题的概率分布和全量文本到主题的概率分布;从全量词到主题的概率分布中获得全量主题词向量,为每一个主题词向量i计算该主题中每两个词(a1、a2)之间的相关性权重simi(a1,a2),以及叠加该两个词在所有主题词向量的相关性权重Σsimi(a1,a2),从而获得该两个词的最终相关性得分sim(a1,a2);在关键词搜索中,对最终相关性得分最高的一个或多个关键词进行推荐。
优选地,在所述步骤S1之前还包括对训练文本进行预处理,以作结构化存储并生成明文词典。
优选地,在所述步骤S1和S3中采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。
优选地,所述步骤S1包括:S11.将所述训练文本划分为多个集合;S12.对每一个集合的训练文本分别计算基础LDA模型,获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布;S13.同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布;S14.判断基础LDA模型是否达到迭代次数,如果未达到,则在同步数据的基础上,继续计算各个集合的基础LDA模型;如果达到,则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。
优选地,所述步骤S2包括:通过人工筛选种子词或人工筛选种子词 复合自动扩展种子词的方式获取增量种子词。
优选地,所述自动扩展种子词包括word2Vec扩展。
优选地,所述获取增量种子词的步骤包括如下步骤:提供人工标注的行业代表性种子词,所述行业代表性种子词根据不同行业而确定;在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合;通过word2Vec方法计算扩展词和所有种子词的距离权重,累加所述距离权重获得扩展词的最终置信度,将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。
根据本发明的另一个方面,提供一种基于潜在狄利克雷分配(LDA)模型的关键词推荐系统,包括:基础训练模块,用于对训练文本计算基础LDA模型,获得基础词到主题的概率分布、基础文本到主题的概率分布;增量筛选模块,用于获取增量种子词,筛选与所述增量种子词相匹配的训练文本作为增量训练文本;增量训练模块,用于对所述增量训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布;全量计算模块,将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布,从而获得全量词到主题的概率分布和全量文本到主题的概率分布;相关性计算模块,用于从全量词到主题的概率分布中获得全量主题词向量,为每一个主题词向量i计算该主题中每两个词(a1、a2)之间的相关性权重simi(a1,a2),以及叠加该两个词在所有主题词向量的相关性权重Σsimi(a1,a2),从而获得该两个词的最终相关性得分sim(a1,a2);关键词推荐模块,用于在关键词搜索中,对最终相关性得分最高的一个或多个关键词进行推荐。
优选地,本系统还包括文本预处理模块,用于对训练文本进行预处理,以作结构化存储并生成明文词典。
优选地,所述基础训练模块和增量训练模块采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。
优选地,所述基础训练模块还包括:文本划分子模块(1011),用于将所述训练文本划分为多个集合;基础训练子模块(1012),用于对每一个集合的训练文本分别计算基础LDA模型,获得该集合的基础词到主题的 概率分布、基础文本到主题的概率分布;同步模块(1013),用于同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布;判断模块(1014),用于判断基础LDA模型是否达到迭代次数,如果未达到,则在同步数据的基础上,继续计算各个集合的基础LDA模型;如果达到,则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。
优选地,所述增量筛选模块还用于通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。
优选地,所述自动扩展种子词包括word2Vec扩展。
优选地,所述增量筛选模块用于:提供人工标注的行业代表性种子词,所述行业代表性种子词根据不同行业而确定;在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合;通过word2Vec方法计算扩展词和所有种子词的距离权重,累加所述距离权重获得扩展词的最终置信度,将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。
本发明的发明人发现,在现有技术中,尚未出现有效地针对某一行业比较细分的文本提供更有针对性的关键词的技术。因此,本发明所要实现的技术任务或者所要解决的技术问题是本领域技术人员从未想到的或者没有预期到的,故本发明是一种新的技术方案。
另外,本领域技术人员应当理解,尽管现有技术中存在许多问题,但是,本发明的每个实施例或权利要求的技术方案可以仅在一个或几个方面进行改进,而不必同时解决现有技术中或者背景技术中列出的全部技术问题。本领域技术人员应当理解,对于一个权利要求中没有提到的内容不应当作为对于该权利要求的限制。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1示出了根据本发明的一个实施例的基础LDA模型的计算方法的 流程图;
图2示出了根据本发明的一个实施例的增量LDA模型的计算方法的流程图;
图3示出了根据本发明的一个实施例的关键词推荐系统的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
根据本发明第一实施例的基于潜在狄利克雷分配(LDA)模型的关键词推荐方法,包括基础LDA训练和增量LDA训练。所述方法包括如下步骤,如图1所示:首先,系统获取训练文本,并对训练文本进行预处理,以作结构化存储并生成明文词典。结构化存储和明文词典是对文本进行预处理的常用方式,首先对于一篇文章进行分词处理,然后采用常用词词典过滤常用词,抽取一篇文章中有用的特征词。例如:将一篇文章中“的”,“地”,“得”等没有实际意义的噪声特征词过滤掉。明文词典是指对于一个词本身是明文,但是在训练的过程中如果保存所有文章的所有词将占存储空间过大,需要将明文转化成签名,存储签名,因此需要利用明文词典记录一个明文词对应的签名。例如:句子“舒马赫的赛车比赛”,结构 化存储预处理后,“的”会被去掉,保留特征词“舒马赫”、“赛车”、“比赛”。直接存储舒马赫、赛车、比赛等词,存储压力过大,内存无法接受,因此生成明文词典“舒马赫”对应001,“赛车”对应002,“比赛”对应003,在LDA训练过程中,采用001,002,003而不采用明文,用以减少内存压力。
随后,再对训练文本计算基础LDA模型,获得基础词到主题的概率分布、基础文本到主题的概率分布。应当知道,LDA模型的计算可以采用本领域现有的或公知的计算方法来计算,只要其可以应用到本发明中。基础LDA模型的计算可以包含多种方式,例如可以以一个处理器单训练线程来计算全部训练文本的LDA模型。优选地,也可以以多个处理器多个训练线程来计算,甚至是进行分布式计算。
在一个实施例中,采用多训练线程来进行基础LDA模型的计算,采用控制线程来对多训练线程进行控制。具体来说,首先将所述训练文本划分为多个集合;多个训练线程加载不同的训练文本集合,开始迭代计算,每个线程对相应的训练文本集合分别做迭代处理,分别计算基础LDA模型,获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布。其中训练线程可以采用例如Gibbs采样或变分法来对文本进行采样和抽样。所述基础词到主题的概率分布为一个词到主题的矩阵,矩阵的行是词、列是隐含计算的主题。基础文本到主题的概率分布为文本到主题的矩阵,矩阵的行为每个训练文本,列是隐含计算的主题。主题的词向量就是词到主题的矩阵中该矩阵的列向量。这些矩阵初始为随机值,通过Gibbs采样迭代,逐渐优化计算矩阵的每个值,最终可以通过词到主题的矩阵,得到词的聚类从而指引关键词推荐。一次迭代之后控制线程同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布,并判断基础LDA模型是否达到迭代次数,如果未达到,则控制线程将同步数据发送给训练线程,由训练线程继续计算各个集合的基础LDA模型;如果达到,则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。
基础LDA训练之后已经获得了词的聚类,但是基础LDA较难解决覆盖长尾主题的问题,因此,本发明的实施例在基础LDA训练之后引入增量 LDA训练,增量LDA训练利用某些细分行业的种子词,有针对性的产生对应的主题。如图2所示。
在增量LDA训练中,首先获取增量种子词,筛选与所述增量种子词相匹配的训练文本作为增量训练文本。可以通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词,例如开始人工选取几个增量种子词,然后通过word2Vec扩展更多种子词的方式。优选地,所述获取增量种子词的步骤包括如下步骤:提供人工标注的行业代表性种子词,所述行业代表性种子词根据不同行业而确定;
在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合;
通过word2Vec方法计算扩展词和所有种子词的距离权重,累加所述距离权重获得扩展词的最终置信度,将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。所述特定阈值根据不同行业数据分布统计得到。
而后,筛选与所述增量种子词相匹配的训练文本作为增量训练文本。匹配过程包括模糊匹配,包含种子词越多的文本,被选中的可能性越大,不含种子词的文本也有被选中的可能。
对所述筛选出的增量训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布。取得增量词到主题的概率分布、增量文本到主题的概率分布的方式可以与基础LDA训练相类似,即训练线程可以采用例如Gibbs采样或变分法来对文本进行采样和抽样。并进行与基础LDA训练相类似的迭代计算,之后控制线程同步各集合所获得的增量词到主题的概率分布、增量文本到主题的概率分布,并判断增量LDA模型是否达到迭代次数,如果未达到,则控制线程将同步数据发送给训练线程,由训练线程继续计算各个集合的增量LDA模型;如果达到,则输出该同步后的增量词到主题的概率分布、增量文本到主题的概率分布。
随后,将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布,从而获得全量词到主题的概率分布和全量文本到主题的概率分布。
这样,增量模型更新信息后,输出更新后的文档到主题的概率分布和 主题的明文信息。影响关键词的结果是和训练文本比较相关的,由于增量模型采用的文本都是某一行业比较细分的文本,因此计算的主题粒度会更好。例如:通过基本模型可以得到体育的主题模型,但是比较难得到体育的二级分类赛车的主题聚类,但是通过LDA增量模型可以计算出赛车这种二级粒度的主题的词向量,所谓主题的词向量即词到主题的概率分布中的列向量,一系列相关的词及其对应该主题的权重。例如,某个汽车主题的词向量的组成:[奔驰0.08,宝马0.06,特斯拉0.04,途观0.04,路虎0.02...],而奔驰属于这个主题的权重0.08。
获得全量词到主题的概率分布和全量文本到主题的概率分布后,就需要计算各个词之间的相关性权重和相关性得分。从全量词到主题的概率分布中获得全量主题词向量,即词到主题的概率分布中的列向量,而后为每一个主题词向量i计算该主题中每两个词(a1、a2)之间的相关性权重simi(a1,a2)。通过基础和增量LDA模型的训练可以得到N个聚类好的主题词向量,在每个主题词向量中,可以得到词a1和词a2的占某一个主题的权重,通过a1和a2占某个主题中所有词权重的比例,可以计算出a1和a2的相关性权重,如公式1
simi(a1,a2)=a1+a2/sum(a1,a2..an) (公式1)
其中:a1是a1这个词占某个主题的权重,同理a2是a2这个词占同一个主题的权重。
随后,线性叠加该两个词(a1、a2)在所有主题词向量的相关性权重Σsimi(a1,a2),从而获得该两个词的最终相关性得分sim(a1,a2),如公式2。
sim(a1,a2)=sim1+sim2...+simN; (公式2)
最后,在关键词搜索中,对最终相关性得分最高的一个或多个关键词进行推荐。
此外,图3示出了根据本发明第二实施例的关键词推荐系统,本实施例与第一实施例相同或类似的部分下文将不再赘述。所述系统用于执行前述根据本发明第一实施例的关键词推荐方法中的各个步骤,设置在一计算机设备上,所述计算机设备包括处理器、显示器、存储器及其他外设。所述基于潜在狄利克雷分配(LDA)模型的关键词推荐系统,包括文本预处 理模块106,用于对训练文本进行预处理,以作结构化存储并生成明文词典;基础训练模块101,用于对训练文本计算基础LDA模型,获得基础词到主题的概率分布、基础文本到主题的概率分布;增量筛选模块102,用于获取增量种子词,筛选与所述增量种子词相匹配的训练文本作为增量训练文本;增量训练模块103,用于对所述增量训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布;全量计算模块104,将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布,从而获得全量词到主题的概率分布和全量文本到主题的概率分布;相关性计算模块105,用于从全量词到主题的概率分布中获得全量主题词向量,为每一个主题词向量i计算该主题中每两个词(a1、a2)之间的相关性权重simi(a1,a2),以及叠加该两个词在所有主题词向量的相关性权重Σsimi(a1,a2),从而获得该两个词的最终相关性得分sim(a1,a2);关键词推荐模块106,用于在关键词搜索中,对最终相关性得分最高的一个或多个关键词进行推荐。
其中,所述基础训练模块101还包括:文本划分子模块1011,用于将所述训练文本划分为多个集合;基础训练子模块1012,用于对每一个集合的训练文本分别计算基础LDA模型,获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布;同步模块1013,用于同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布;判断模块1014,用于判断基础LDA模型是否达到迭代次数,如果未达到,则在同步数据的基础上,继续计算各个集合的基础LDA模型;如果达到,则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。
采用本发明的关键词推荐方法和系统,通过创新性的采用增量训练模型,大大提高主题聚类的精度,以及主题的多样性,显著提高了主题内关键词的质量,建立了关键词之间的联系,为关键词推荐奠定了基础作用。同时基于本发明的关键词推荐方法和系统,可以在多种线上项目上得到应用,例如:基于人物推荐的优化、用户标签的建立、首页推荐等等。
采用本发明的关键词推荐方法和系统,用户在搜索例如,迈腾二手车的时候,相关query的推荐例如:迈腾二手车价格,迈腾汽修问题等等。 在构建的主题中可以看到,二手车、迈腾、价格、汽修都会聚类到一个主题中,通过计算这些词之间的相关性权重,可以明确得到这些词的相关性,高于其他非汽车类的词,对于query迈腾二手车,可以构建相关query集合,例如:迈腾二手车价格,迈腾汽修问题等,因此在用户搜索一个query的时候,可以推荐一些类似的query。
本发明的方法和系统也可以应用到用户标签的建立过程中。在传统的协同过滤推荐方法中,第一步要找到相似的用户,即用户搜索相似的内容,在这时同样需要用到关键词推荐技术,用于建立用户之间的联系。例如:一个用户搜索奔驰,另一个用户搜索宝马,如果只用关键词匹配,很难知道用户都是关心高档车,但是通过关键词推荐技术,可以得到奔驰和宝马两个词有较高的关联度,从而建立这两个用户的联系。
本领域技术人员应当明白,可以通过各种方式来实现系统100。例如,可以通过指令配置处理器来实现各个单元和模块。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现各个单元和模块。例如,可以将各个单元和模块固化到专用器件(例如ASIC)中。可以将各个单元分成相互独立的单元,或者可以将它们合并在一起实现。所述单元可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
本发明的系统和方法可以通过程序产品体现。程序产品可以包括可读存储介质,其上载有用于使处理器实现本发明的各个方面的可读程序指令。
可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。可读存储介质的更具体的例子(非穷举的列表)包括:便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的可读存储介质不被解释为瞬时信 号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的可读程序指令可以从可读存储介质下载到各个电子设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部电子设备或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个电子设备中的网络适配卡或者网络接口从网络接收可读程序指令,并转发该可读程序指令,以供存储在各个计算/处理设备中的可读存储介质中。
用于执行本发明操作的程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。可读程序指令可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由可读程序指令实现。
这些可读程序指令可以提供给电子设备的处理器,从而生产出一种机器,使得这些指令在通过电子设备的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些可读 程序指令存储在可读存储介质中,这些指令使得电子设备以特定方式工作,从而,存储有指令的可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把可读程序指令加载到电子设备上,使得在电子设备上执行一系列操作步骤,以产生指令实现的过程,从而使得在电子设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (12)

1.一种基于潜在狄利克雷分配(LDA)模型的关键词推荐方法,包括:
对训练文本进行预处理过滤常用词,以做结构化存储并生成明文词典;
对训练文本计算基础LDA模型,获得基础词到主题的概率分布、基础文本到主题的概率分布;
获取增量种子词,筛选与所述增量种子词相匹配的训练文本作为增量训练文本,其中,所述增量种子词是细分行业的种子词;
对所述增量训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布;
将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布,从而获得全量词到主题的概率分布和全量文本到主题的概率分布;
从全量词到主题的概率分布中获得全量主题词向量,为每一个主题词向量i计算该主题中每两个词(a1、a2)之间的相关性权重simi(a1,a2),以及叠加该两个词在所有主题词向量的相关性权重Σsimi(a1,a2),从而获得该两个词的最终相关性得分sim(a1,a2),其中,所述全量主题词向量是全量词到主题的概率分布中的列向量;
在关键词搜索结果中,推荐最终相关性得分最高的一个或多个关键词。
2.根据权利要求1所述的关键词推荐方法,其特征在于,其中采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。
3.根据权利要求1所述的关键词推荐方法,其特征在于,所述对训练文本计算基础LDA模型的步骤包括:
将所述训练文本划分为多个集合;
对每一个集合的训练文本分别计算基础LDA模型,获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布;
同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布;
判断基础LDA模型是否达到迭代次数,如果未达到,则在同步数据的基础上,继续计算各个集合的基础LDA模型;如果达到,则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。
4.根据权利要求1所述的关键词推荐方法,其特征在于,所述获取增量种子词的步骤包括:通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。
5.根据权利要求4所述的关键词推荐方法,其特征在于,所述自动扩展种子词包括word2Vec方法扩展。
6.根据权利要求1所述的关键词推荐方法,其特征在于,所述获取增量种子词的步骤包括如下步骤:
提供人工标注的行业代表性种子词,所述行业代表性种子词根据不同行业而确定;
在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合;
通过word2Vec方法计算扩展词和所有种子词的距离权重,累加所述距离权重获得扩展词的最终置信度,将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。
7.一种基于潜在狄利克雷分配(LDA)模型的关键词推荐系统,包括:
文本预处理模块,用于对训练文本进行预处理过滤常用词,以做结构化存储并生成明文词典;
基础训练模块,用于对训练文本计算基础LDA模型,获得基础词到主题的概率分布、基础文本到主题的概率分布;
增量筛选模块,用于获取增量种子词,筛选与所述增量种子词相匹配的训练文本作为增量训练文本,其中,所述增量种子词是细分行业的种子词;
增量训练模块,用于对所述增量训练文本计算增量LDA模型,获得增量词到主题的概率分布、增量文本到主题的概率分布;
全量计算模块,将所述增量词到主题的概率分布、增量文本到主题的概率分布分别增加至基础词到主题的概率分布、基础文本到主题的概率分布,从而获得全量词到主题的概率分布和全量文本到主题的概率分布;
相关性计算模块,用于从全量词到主题的概率分布中获得全量主题词向量,为每一个主题词向量i计算该主题中每两个词(a1、a2)之间的相关性权重simi(a1,a2),以及叠加该两个词在所有主题词向量的相关性权重Σsimi(a1,a2),从而获得该两个词的最终相关性得分sim(a1,a2),其中,所述全量主题词向量是全量词到主题的概率分布中的列向量;
关键词推荐模块,用于在关键词搜索中,对最终相关性得分最高的一个或多个关键词进行推荐。
8.根据权利要求7所述的关键词推荐系统,其特征在于,在所述基础训练模块和增量训练模块采用吉布斯采样(Gibbs)分别对训练文本计算基础LDA模型和对增量训练文本计算增量LDA模型。
9.根据权利要求7所述的关键词推荐系统,其特征在于,所述基础训练模块还包括:
文本划分子模块,用于将所述训练文本划分为多个集合;
基础训练子模块,用于对每一个集合的训练文本分别计算基础LDA模型,获得该集合的基础词到主题的概率分布、基础文本到主题的概率分布;
同步模块,用于同步各集合所获得的基础词到主题的概率分布、基础文本到主题的概率分布;
判断模块,用于判断基础LDA模型是否达到迭代次数,如果未达到,则在同步数据的基础上,继续计算各个集合的基础LDA模型;如果达到,则输出该同步后的基础词到主题的概率分布、基础文本到主题的概率分布。
10.根据权利要求7所述的关键词推荐系统,其特征在于,所述增量筛选模块还用于通过人工筛选种子词或人工筛选种子词复合自动扩展种子词的方式获取增量种子词。
11.根据权利要求10所述的关键词推荐系统,其特征在于,所述自动扩展种子词包括word2Vec扩展。
12.根据权利要求7所述的关键词推荐系统,其特征在于,所述增量筛选模块用于:
提供人工标注的行业代表性种子词,所述行业代表性种子词根据不同行业而确定;
在行业代表性种子词上通过word2Vec方法在该行业语料库中扩展候选集合;
通过word2Vec方法计算扩展词和所有种子词的距离权重,累加所述距离权重获得扩展词的最终置信度,将最终置信度大于特定阈值的扩展词增加到增量种子词集合中。
CN201511024348.5A 2015-12-29 2015-12-29 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 Active CN105677769B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201511024348.5A CN105677769B (zh) 2015-12-29 2015-12-29 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
PCT/CN2016/106114 WO2017114019A1 (zh) 2015-12-29 2016-11-16 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
US16/019,278 US10685185B2 (en) 2015-12-29 2018-06-26 Keyword recommendation method and system based on latent Dirichlet allocation model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511024348.5A CN105677769B (zh) 2015-12-29 2015-12-29 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Publications (2)

Publication Number Publication Date
CN105677769A CN105677769A (zh) 2016-06-15
CN105677769B true CN105677769B (zh) 2018-01-05

Family

ID=56189811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511024348.5A Active CN105677769B (zh) 2015-12-29 2015-12-29 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Country Status (3)

Country Link
US (1) US10685185B2 (zh)
CN (1) CN105677769B (zh)
WO (1) WO2017114019A1 (zh)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677769B (zh) 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106202394B (zh) 2016-07-07 2021-03-19 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN106202480B (zh) * 2016-07-19 2019-06-11 淮阴工学院 一种基于K-means和LDA双向验证的网络行为习惯聚类方法
CN106295653B (zh) * 2016-07-29 2020-03-31 宁波大学 一种水质图像分类方法
CN106372056A (zh) * 2016-08-25 2017-02-01 久远谦长(北京)技术服务有限公司 一种基于自然语言的主题与关键词的提取方法和系统
CN108090075A (zh) * 2016-11-23 2018-05-29 中移(杭州)信息技术有限公司 文本过滤的方法及装置
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107145469A (zh) * 2017-03-23 2017-09-08 四川省公安科研中心 基于狄利克雷特分布的置信度计算方法
CN107122349A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于word2vec‑LDA模型的文本主题词提取方法
CN107133730A (zh) * 2017-04-24 2017-09-05 天津大学 一种基于潜在狄利克雷分配模型的潜在特征提取方法
CN107133224B (zh) * 2017-04-25 2020-11-03 中国人民大学 一种基于主题词的语言生成方法
CN107122451B (zh) * 2017-04-26 2020-01-21 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107193803B (zh) * 2017-05-26 2020-07-10 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN107341233B (zh) * 2017-07-03 2020-11-06 北京拉勾科技有限公司 一种职位推荐方法及计算设备
CN107423398B (zh) * 2017-07-26 2023-04-18 腾讯科技(上海)有限公司 交互方法、装置、存储介质和计算机设备
CN107516110B (zh) * 2017-08-22 2020-02-18 华南理工大学 一种基于集成卷积编码的医疗问答语义聚类方法
CN107679084B (zh) * 2017-08-31 2021-09-28 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN107729937B (zh) * 2017-10-12 2020-11-03 北京京东尚科信息技术有限公司 用于确定用户兴趣标签的方法及装置
CN109815474B (zh) * 2017-11-20 2022-09-23 深圳市腾讯计算机系统有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN107992549B (zh) * 2017-11-28 2022-11-01 南京信息工程大学 动态短文本流聚类检索方法
CN107844609A (zh) * 2017-12-14 2018-03-27 武汉理工大学 一种基于文体和词表的突发事件信息抽取方法及系统
US11475082B1 (en) 2017-12-15 2022-10-18 Palantir Technologies Inc. Systems and methods for context-based keyword searching
CN109101553B (zh) * 2018-07-11 2020-11-27 政采云有限公司 用于购买方非受益方的行业的采购用户评价方法和系统
CN109189990B (zh) * 2018-07-25 2021-03-26 北京奇艺世纪科技有限公司 一种搜索词的生成方法、装置及电子设备
US20200134511A1 (en) * 2018-10-30 2020-04-30 Intuit Inc. Systems and methods for identifying documents with topic vectors
CN109325146B (zh) * 2018-11-12 2024-05-07 平安科技(深圳)有限公司 一种视频推荐方法、装置、存储介质和服务器
CN109829151B (zh) * 2018-11-27 2023-04-21 国网浙江省电力有限公司 一种基于分层狄利克雷模型的文本分割方法
CN109635383A (zh) * 2018-11-28 2019-04-16 优信拍(北京)信息科技有限公司 一种基于word2vec的车系相关度确定的方法及装置
CN109766715B (zh) * 2018-12-24 2023-07-25 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及系统
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN111753079B (zh) * 2019-03-11 2024-09-17 阿里巴巴集团控股有限公司 文本分类方法、装置、电子设备以及计算机可读存储介质
CN111782912B (zh) * 2019-04-04 2023-08-15 百度在线网络技术(北京)有限公司 词推荐方法、装置、服务器和介质
CN110472225B (zh) * 2019-06-26 2021-05-18 北京交通大学 基于词扩展lda的铁路事故原因分析方法
CN110427480B (zh) * 2019-06-28 2022-10-11 平安科技(深圳)有限公司 个性化文本智能推荐方法、装置及计算机可读存储介质
CN110413725A (zh) * 2019-07-23 2019-11-05 福建奇点时空数字科技有限公司 一种基于深度学习技术的行业数据信息抽取方法
CN110428102B (zh) * 2019-07-31 2021-11-09 杭州电子科技大学 基于hc-tc-lda的重大事件趋势预测方法
CN110853672B (zh) * 2019-11-08 2022-04-01 山东师范大学 一种用于音频场景分类的数据扩充方法及装置
CN110909550B (zh) * 2019-11-13 2023-11-03 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN111090995B (zh) * 2019-11-15 2023-03-31 合肥工业大学 短文本主题识别方法和系统
EP4022517A4 (en) 2019-12-04 2022-10-19 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR PREDICTING KEYKEYS USING A UNIFIED NEURONAL NETWORK
CN111090741B (zh) * 2019-12-13 2023-04-07 国网四川省电力公司 一种数据处理方法、装置及系统
US11941073B2 (en) 2019-12-23 2024-03-26 97th Floor Generating and implementing keyword clusters
CN113139379B (zh) * 2020-01-20 2023-12-22 中国电信股份有限公司 信息识别方法和系统
CN111339247B (zh) * 2020-02-11 2022-10-28 安徽理工大学 一种微博子话题用户评论情感倾向性分析方法
CN111488462B (zh) * 2020-04-02 2023-09-19 中国移动通信集团江苏有限公司 基于知识图谱的推荐方法、装置、设备及介质
CN111666401B (zh) * 2020-05-29 2023-06-30 平安科技(深圳)有限公司 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111723578B (zh) * 2020-06-09 2023-11-17 平安科技(深圳)有限公司 基于随机游走模型的热点预测方法、装置和计算机设备
CN111782784B (zh) * 2020-06-24 2023-09-29 京东科技控股股份有限公司 一种文案生成方法、装置、电子设备及存储介质
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN111914918A (zh) * 2020-07-24 2020-11-10 太原理工大学 基于融合标签和文档的网络主题模型的Web服务聚类方法
CN112069318B (zh) * 2020-09-07 2024-01-12 北京育学园健康管理中心有限公司 基于lda的母婴问题聚类分析方法、装置、计算机存储介质
CN112395498B (zh) * 2020-11-02 2024-07-12 北京五八信息技术有限公司 话题推荐方法、装置、电子设备及存储介质
CN113392651B (zh) * 2020-11-09 2024-05-14 腾讯科技(深圳)有限公司 训练词权重模型及提取核心词的方法、装置、设备和介质
CN112580355B (zh) * 2020-12-30 2021-08-31 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN112632966B (zh) * 2020-12-30 2023-07-21 绿盟科技集团股份有限公司 一种告警信息标记方法、装置、介质和设备
CN112836507B (zh) * 2021-01-13 2022-12-09 哈尔滨工程大学 一种领域文本主题抽取方法
CN112819205B (zh) * 2021-01-18 2023-03-24 北京理工大学 工时预测方法、装置及系统
CN113191146B (zh) * 2021-05-26 2023-02-07 深圳赛安特技术服务有限公司 诉求数据的分配方法、装置、计算机设备和存储介质
CN113326385B (zh) * 2021-08-04 2021-12-07 北京达佳互联信息技术有限公司 目标多媒体资源的获取方法、装置、电子设备和存储介质
JP2023028727A (ja) * 2021-08-20 2023-03-03 日本電気株式会社 解析システム、解析方法および解析プログラム
CN113704471B (zh) * 2021-08-26 2024-02-02 唯品会(广州)软件有限公司 语句的分类方法、装置、设备和存储介质
CN113836399A (zh) * 2021-09-03 2021-12-24 网易(杭州)网络有限公司 主题推荐方法、装置、计算设备及存储介质
CN113821639B (zh) * 2021-09-18 2024-07-02 支付宝(杭州)信息技术有限公司 一种文本焦点分析方法和系统
CN114036941A (zh) * 2021-11-08 2022-02-11 新智道枢(上海)科技有限公司 基于lda主题模型的文本分类系统、方法和警情分类系统和方法
CN114238573B (zh) * 2021-12-15 2023-09-22 平安科技(深圳)有限公司 基于文本对抗样例的信息推送方法及装置
CN114970523B (zh) * 2022-05-20 2022-11-29 浙江省科技信息研究院 一种基于文本语义增强的主题提示式关键词提取方法
CN115018584A (zh) * 2022-06-13 2022-09-06 浙江理工大学 融合评论文本主题词情感倾向和用户信任关系的推荐方法
CN117216280B (zh) * 2023-11-09 2024-02-09 闪捷信息科技有限公司 敏感数据识别模型的增量学习方法、识别方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460947A (zh) * 2003-06-13 2003-12-10 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN104933100A (zh) * 2015-05-28 2015-09-23 北京奇艺世纪科技有限公司 关键词推荐方法和装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742840A (en) 1995-08-16 1998-04-21 Microunity Systems Engineering, Inc. General purpose, multiple precision parallel operation, programmable media processor
US20040133574A1 (en) 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing
US7606790B2 (en) 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
US9275129B2 (en) 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US7809704B2 (en) 2006-06-15 2010-10-05 Microsoft Corporation Combining spectral and probabilistic clustering
US20080005137A1 (en) 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
US8442972B2 (en) 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US8326777B2 (en) 2009-07-31 2012-12-04 Yahoo! Inc. Supplementing a trained model using incremental data in making item recommendations
CN102063432A (zh) 2009-11-12 2011-05-18 阿里巴巴集团控股有限公司 一种检索方法和系统
US20120078979A1 (en) 2010-07-26 2012-03-29 Shankar Raj Ghimire Method for advanced patent search and analysis
US8719257B2 (en) 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
CN103765415A (zh) * 2011-05-11 2014-04-30 谷歌公司 文档主题的并行生成
US8583648B1 (en) 2011-09-30 2013-11-12 Google Inc. Merging semantically similar clusters based on cluster labels
US9195758B2 (en) 2011-10-21 2015-11-24 Ebay, Inc. System and method for multi-dimensional personalization of search results
US8886639B2 (en) 2012-04-19 2014-11-11 Sap Ag Semantically enriched search of services
US9519858B2 (en) 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10176260B2 (en) 2014-02-12 2019-01-08 Regents Of The University Of Minnesota Measuring semantic incongruity within text data
CN104750856B (zh) * 2015-04-16 2018-01-05 天天艾米(北京)网络科技有限公司 一种多维协同推荐的系统与方法
CN104850617B (zh) * 2015-05-15 2018-04-20 百度在线网络技术(北京)有限公司 短文本处理方法及装置
CN104965889B (zh) * 2015-06-17 2017-06-13 腾讯科技(深圳)有限公司 内容推荐方法及装置
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460947A (zh) * 2003-06-13 2003-12-10 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104933100A (zh) * 2015-05-28 2015-09-23 北京奇艺世纪科技有限公司 关键词推荐方法和装置
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Also Published As

Publication number Publication date
US10685185B2 (en) 2020-06-16
US20180307680A1 (en) 2018-10-25
CN105677769A (zh) 2016-06-15
WO2017114019A1 (zh) 2017-07-06

Similar Documents

Publication Publication Date Title
CN105677769B (zh) 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
US10733197B2 (en) Method and apparatus for providing information based on artificial intelligence
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN113159095A (zh) 一种训练模型的方法、图像检索的方法以及装置
CN107832414A (zh) 用于推送信息的方法和装置
CN105938477A (zh) 用于整合和格式化搜索结果的方法和系统
US10387805B2 (en) System and method for ranking news feeds
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN104462336A (zh) 信息推送方法和装置
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN111046275A (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN108664658A (zh) 一种考虑用户偏好动态变化的协同过滤视频推荐方法
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN105869016A (zh) 一种基于卷积神经网络的点击通过率预估方法
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN104111925A (zh) 项目推荐方法和装置
CN111125538A (zh) 一个利用实体信息增强个性化检索效果的搜索方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN104077327B (zh) 核心词重要性识别方法和设备及搜索结果排序方法和设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN103425767B (zh) 一种提示数据的确定方法和系统
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN118069927A (zh) 基于知识感知和用户多兴趣特征表示的新闻推荐方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio 16 floor tower square

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.