CN110019805A - 文章主题挖掘方法和装置及计算机可读存储介质 - Google Patents

文章主题挖掘方法和装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110019805A
CN110019805A CN201711363739.9A CN201711363739A CN110019805A CN 110019805 A CN110019805 A CN 110019805A CN 201711363739 A CN201711363739 A CN 201711363739A CN 110019805 A CN110019805 A CN 110019805A
Authority
CN
China
Prior art keywords
article
theme
learning model
machine learning
cluster machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711363739.9A
Other languages
English (en)
Inventor
王颖帅
李晓霞
苗诗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711363739.9A priority Critical patent/CN110019805A/zh
Publication of CN110019805A publication Critical patent/CN110019805A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种文章主题挖掘方法和装置及计算机可读存储介质,涉及计算机领域。其中的方法包括:将检测集中待检测的文章表示为文章向量;将文章向量输入聚类机器学习模型得到所述文章的主题概率分布;根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,根据最大概率的主题和第二大概率的主题形成所述文章的复合主题。本公开基于聚类机器学习模型实现了一种自动挖掘文章主题的方案,可以减少人为因素的影响,提高文章主题挖掘地准确性,同时,对于主题不鲜明的文章,形成其复合主题,使得文章主题更具代表性。

Description

文章主题挖掘方法和装置及计算机可读存储介质
技术领域
本公开涉及计算机领域,特别涉及一种文章主题挖掘方法和装置及计算机可读存储介质。
背景技术
在一些个性化推荐业务中,需要挖掘文章的主题,以便将用户偏好主题的文章推荐给用户。
目前底层基础数据提供一个文章所属的虚拟品类表,虚拟品类相当于文章主题,基于文章所属的虚拟品类为文章标识主题。
然而,虚拟品类表是由运营人员来维护,人的经验有一定的局限性,使得文章主题的准确性受到影响。
发明内容
本公开实施例所要解决的其中一个技术问题是,减少人为因素的影响,提高文章主题挖掘地准确性。
本公开的一个方面,提出一种文章主题挖掘方法,包括:
将检测集中待检测的文章表示为文章向量;
将文章向量输入聚类机器学习模型得到所述文章的主题概率分布;
根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,根据最大概率的主题和第二大概率的主题形成所述文章的复合主题。
可选地,根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,将最大概率的主题确定为所述文章的主题。
可选地,所述检测集中包括多篇待检测的文章,所述检测集被划分为多个弹性分布式检测集,所述聚类机器学习模型被设置为广播变量;在每个弹性分布式检测集中调用所述广播变量中的聚类机器学习模型,并行确定各个文章的主题概率分布和主题。
可选地,将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练;其中,所述训练集中包括多篇文章,所述训练集被划分为多个弹性分布式训练集,所述聚类机器学习模型被设置为广播变量;在每个弹性分布式训练集中调用所述广播变量中的聚类机器学习模型,并行对聚类机器学习模型进行训练。
可选地,文章向量表示为文章的标签词矩阵,文章的标签词根据分词词库对文章进行分词产生,所述分词词库中包括根据应用场景构建的自定义词语。
可选地,文章向量表示为文章的标签词矩阵,矩阵的元素为标签词的词频与逆向文件频率的乘积。
可选地,所述聚类机器学习模型包括:隐含狄利克雷分布LDA模型、K-means聚类模型。
本公开的再一个方面,提出一种文章主题挖掘装置,包括:
文本特征工程模块,用于将检测集中待检测的文章表示为文章向量;
模型处理模块,用于将文章向量输入聚类机器学习模型得到所述文章的主题概率分布;
主题挖掘模块,用于根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,根据最大概率的主题和第二大概率的主题形成所述文章的复合主题。
可选地,所述主题挖掘模块,还用于根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,将最大概率的主题确定为所述文章的主题。
可选地,所述检测集中包括多篇待检测的文章,所述检测集被划分为多个弹性分布式检测集,所述聚类机器学习模型被设置为广播变量;所述模型处理模块包括:分布式处理单元一,用于在每个弹性分布式检测集中调用所述广播变量中的聚类机器学习模型,并行确定各个文章的主题概率分布和主题。
可选地,所述装置还包括:训练模块,用于将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练;其中,所述训练集中包括多篇文章,所述训练集被划分为多个弹性分布式训练集,所述聚类机器学习模型被设置为广播变量;所述训练模块包括:分布式处理单元二,用于在每个弹性分布式训练集中调用所述广播变量中的聚类机器学习模型,并行对聚类机器学习模型进行训练。
可选地,文章向量表示为文章的标签词矩阵;文章的标签词根据分词词库对文章进行分词产生,所述分词词库中包括根据应用场景构建的自定义词语;矩阵的元素为标签词的词频与逆向文件频率的乘积。
本公开的又一方面,提出一种文章主题挖掘装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述的文章主题挖掘方法。
本公开的另一方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的文章主题挖掘方法的步骤。
本公开基于聚类机器学习模型实现了一种自动挖掘文章主题的方案,可以减少人为因素的影响,提高文章主题挖掘地准确性,同时,对于主题不鲜明的文章,形成其复合主题,使得文章主题更具代表性。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开文章主题挖掘方法一个实施例的流程示意图。
图2为本公开文章主题挖掘方法再一个实施例的流程示意图。
图3为本公开LDA模型主题下的词语分布示意图。
图4为本公开LDA模型的拓扑结构示意图。
图5为本公开LDA模型的概率图模型示意图。
图6为本公开文章主题挖掘装置一个实施例的结构示意图。
图7为本公开文章主题挖掘装置一个实施例的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1为本公开文章主题挖掘方法一个实施例的流程示意图。
如图1所示,该实施例的方法10包括:
步骤110,将检测集中待检测的文章表示为文章向量。
其中,文章向量表示为文章的标签词矩阵,矩阵的元素为标签词的词频(termfrequency,TF)与逆向文件频率(inverse document frequency,IDF)的乘积,即TF-IDF值。TF-IDF的主要思想是:如果一个词语在某篇文章中出现的频率高,并且在其它文章中很少出现,就认为这个词语有很好的分类能力。TF是指一个给定词语在文章中出现的频率,IDF是一个词语普遍重要性的度量,可以用总文章数目除以包含该词语的文章数目,然后将得到的商取对数得到。此外,矩阵的元素还可以是标签词的词频或词向量Word2Vector等。
步骤120,将文章向量输入聚类机器学习模型得到文章的主题概率分布。文章的主题概率分布包括文章可能所属的各个主题以及属于该主题的概率。某一主题的概率越大,文章属于该主题的可能性越大。
其中,聚类机器学习模型例如包括:隐含狄利克雷分布(LDA)模型、K-means聚类模型等,但不限于所举示例。
在使用聚类机器学习模型进行检测之前,还可以将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练。
步骤130,根据文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,即文章主题不太鲜明的情况下,根据最大概率的主题和第二大概率的主题形成文章的复合主题。
其中,形成复合主题的方式例如可以是,将最大概率的主题和第二大概率的主题以复合的形式作为文章的主题,可选地,在复合主题中最大概率的主题与第二大概率的主题之间插入分隔符。
步骤140,根据文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,即文章主题鲜明的情况下,可以将最大概率的主题确定为文章的主题。
上述实施例,基于聚类机器学习模型实现了一种自动挖掘文章主题的方案,可以减少人为因素的影响,提高文章主题挖掘地准确性,同时,对于主题不鲜明的文章,形成其复合主题,使得文章主题更具代表性。
图2为本公开文章主题挖掘方法再一个实施例的流程示意图。
如图2所示,该实施例的方法20包括:
步骤210,利用训练集对聚类机器学习模型进行训练。
例如,将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练。文章向量的含义参考前述。
聚类机器学习模型的训练过程的一个示例如下,参见步骤211-214:
步骤211,对训练集中的文章进行预处理,以提高挖掘效率。
预处理过程例如为,对文章先进行数据清洗,去除停用词,然后分词,得到文章的标签词。其中,停用词例如包括:助词、语气词、数字、叹词、标点、特殊符号、敏感词等实际意义不大的词。例如“的”、“了”、“嗯啊”、“在的”、“下”、“一”、“出去”、“出来”、“哪样”、“12345678”等。
为了提高预处理效率,可以采用并行预处理方法。例如,训练集被划分为多个弹性分布式训练集,在每个弹性分布式训练集中,并行地进行数据清洗,并行地去除停用词,然后并行地分词,得到文章的标签词。
其中,并行地去除停用词的一个示例为,停用词表被设置为广播变量,在各个弹性分布式训练集中被并行调用,执行对每个弹性分布式训练集中的文章的去除停用词的步骤。
其中,并行地分词的一个示例为,分词词库被设置为广播变量,在各个弹性分布式训练集中被并行调用,执行对每个弹性分布式训练集中的文章进行分词的步骤。
此外,在预处理过程中,为了提高分词的准确性,提出了一种根据应用场景的特色词汇进行分词的方案。不同的应用场景中可能包含一些特色的词语。例如,针对购物平台,“谷粒多”为一个特色词语,而不应该被划分为“谷粒”“多”两个词语,因此可以将这一类特色词语增加至分词词库中。具体来说,首先,根据应用场景构建自定义词语,并添加到分词词库中,分词词库中还可以包含常用的词语,然后根据分词词库对文章进行分词产生文章的标签词。
分词的一种示例性的方法为,首先,利用分词词库对语料进行标注,标注过程包括通过语料与分词词库中的词语进行匹配,将语料进行分词,根据分词后的语料中每个字在词语中的位置,对每个字标注状态,该状态包括:词头、词中、词尾和单字。然后,利用标注后的语料对隐马尔可夫模型进行训练,训练过程包括:根据标注后的语料统计同一个字在不同状态下的概率作为该字的标注概率,将语料输入隐马尔可夫模型得到同一个字在不同状态下的概率作为该字的训练概率,根据各个字的标注概率与训练概率误差,调整隐马尔可夫模型的参数,直至误差达到最小,则得到训练好的隐马尔可夫模型。最后,将待分词的语料输入训练好的隐马尔可夫模型,得到分词结果。该分词方法,根据应用场景添加自定义词语到分词词库,并利用分词词库对训练语料进行标注,基于标注的语料对隐马尔科夫模型进行训练后,隐马尔可夫模型则可以自动识别该应用场景下的词语,并且隐马尔可夫模型根据词语的前后关联性可以自动识别新词,提高了分词的准确性。
步骤212,将训练集中的文章表示为文章向量。
其中,文章向量表示为文章的标签词矩阵,文章的标签词通过前一预处理步骤得到,矩阵的元素为标签词的TF-IDF值,还可以是标签词的词频或词向量Word2Vector等。
在文本特征工程比较大的情况下,还可以采用并行文本特征处理方法。具体来说,由于计算机中实际处理的是标签词的索引,因此,先筛选出常用标签词,筛选方法例如为,如果某一标签词至少在N(N可设置,例如N=3)篇文章中出现过,并且出现过的文章篇数占全部文章的总数要小于预设比例(例如20%),以排除每篇文章中都出现的那些没有区分意义的词,并且该标签词在一篇文章中出现次数大于等于M(M可设置,例如M=10),以排除冷门词,则该标签词可以确定为常用标签词。然后,训练集被划分为多个弹性分布式训练集,常用标签词的索引被设置为广播变量,在各个弹性分布式训练集中被并行调用,执行将文章表示为文章向量的文本特征处理步骤。
步骤213,将训练集中文章的文章向量,输入聚类机器学习模型,对聚类机器学习模型进行训练。
如果训练集比较大,还可以采用并行训练的方法。例如,训练集被划分为多个弹性分布式训练集,聚类机器学习模型被设置为广播变量,在每个弹性分布式训练集中调用广播变量中的聚类机器学习模型,并行对聚类机器学习模型进行训练。从而,提高训练效率。
以LDA模型为例,LDA模型被设置为广播变量,在每个弹性分布式训练集中调用广播变量中的LDA模型,并行对LDA模型进行训练,确定合适的主题数量参数。
步骤214,可以利用模型评估指标评估聚类机器学习模型质量,以检验模型是否符合预期,在不符合预期的情况下,调整模型参数,重新训练模型。
以LDA模型为例,LDA模型评估指标LogLikelihood和LogPerplexity,其中LogLikelihood定义为模型在测试集上每个词的似然度,值越大,模型质量越好;LogPerplexity是用来度量语言模型的质量,定义为模型在测试集上每个词似然度的几何平均的倒数,值越小,模型的质量越好。
其中,在不符合预期的情况下,例如可以调整主题数量,或者,增加主题下文章的数量等方式,来调整模型参数。若是LDA模型,还可以调整迭代次数、数据采样方式等模型参数。
步骤220,利用训练好的聚类机器学习模型对检测集中待检测的文章进行检测,以确定待检测的文章的主题。
检测过程的一个示例如下,参见步骤221-225:
步骤221,对检测集中的文章进行预处理,以提高检测效率。其中,检测集的预处理方法可以参考步骤211中训练集的预处理方法。
步骤222,将检测集中的文章表示为文章向量。其中,检测集的向量表示方法可以参考步骤212中训练集的向量表示方法。
步骤223,将文章向量输入聚类机器学习模型得到文章的主题概率分布。
在检测量比较大的情况下,检测集被划分为多个弹性分布式检测集,聚类机器学习模型被设置为广播变量,在每个弹性分布式检测集中调用广播变量中的聚类机器学习模型,并行确定各个文章的主题概率分布和主题。从而,提供检测效率。
步骤224,根据文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,即文章主题不太鲜明的情况下,根据最大概率的主题和第二大概率的主题形成文章的复合主题。
步骤225,根据文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,即文章主题鲜明的情况下,可以将最大概率的主题确定为文章的主题。
步骤230,利用业务评估指标评估聚类机器学习模型的检测质量,在检测质量不符合预期的情况下,可以调整模型参数,重新训练模型。
例如,如果将文章主题挖掘方法应用于为用户进行个性化的文章推荐,利用步骤221-225,确定文章库中的文章的主题,以及,确定用户平时喜欢阅读的文章的主题,将文章库中属于该主题的文章推荐给用户。可以将用户对推荐文章的点击率作为业务评估指标,如果点击率比较高,则说明聚类机器学习模型对文章主题的检测质量比较高,聚类机器学习模型符合预期,如果点击率非常低,则说明聚类机器学习模型对文章主题的检测质量不符合预期,例如可以调整主题数量,或者,增加主题下文章的数量等方式,来调整模型参数,并重新训练模型。
上述实施例,基于聚类机器学习模型实现了一种自动挖掘文章主题的方案,可以减少人为因素的影响,提高文章主题挖掘地准确性,同时,对于主题不鲜明的文章,形成其复合主题,使得文章主题更具代表性。此外,分布式的数据处理方式,可以提高文章主题挖掘效率。
下面对于本公开应用的聚类机器学习模型,LDA模型、K-means聚类模型,进行简单说明。
K-Means聚类模型和LDA模型均是非监督的机器学习算法,K-Means算法可以将文章聚到K个中心点,其先把每篇文章表示为一个向量,然后基于向量之间的距离,将距离近的文章聚到同一个中心点,每个中心点相当于LDA模型中的主题。
LDA模型除了可以实现K-Means的聚类功能,还能得到主题词分布,能够看到每个主题下的词语分布。例如,如图3所示,主题0是一个关于户外运动的主题,主题1是一个关于电影的主题,主题3是一个关于衣服的主题。以主题0为例,按照概率(数字表示概率)由高到低的顺序,该主题0下的主题词包括“户外”、“防水”“防晒”“装备”等,主题词后的数字表示其概率。
LDA模型具有比较清晰的层次结构,拓扑结构如图4所示,分别是:文档层、主题层和主题词层。LDA是一种无监督的贝叶斯模型,它可以将文章集中的每篇文章的主题按照概率分布的形式给出。在训练时不需要手工标注的训练集,只需文章集合和指定主题数量即可。LDA的概率图模型如图5所示。W表示可以观测的变量,其它圆圈里的字母(αβθφZ)表示隐变量,箭头表示两个变量间的条件依赖性,方框表示重复抽样,方框右下角的数字代表重复抽样的次数,φ表示词分布,θ表示主题分布,α是主题分布θ的先验分布狄利克雷分布的参数,β是词分布φ的先验分布狄利克雷分布的参数,N表示文章集的单词总数,M表示文章的总数,Z表示主题。LDA生成一篇文章的过程如下:(1)按照先验概率p(di)选择一篇文章di;(2)从狄利克雷分布α中取样生成文章di的主题分布θi;(3)从主题的多项分布θi中取样生成文章di的第j个词的主题Zi,j(4)从狄利克雷分布β中取样生成主题Zi,j对应的词语分布(5)从词语的多项分布中采样,最终生成词语wi,j。LDA算法训练流程包括:输入文章集合;主题初始化,例如指定主题数量为50;然后计算构成文章的主题向量,计算构成主题的词语向量;接着,计算词语在所有主题下的概率分布;对主题进行采样,根据设置的迭代次数判断迭代是否结束,如果迭代还未结束,再次从主题初始化步骤开始执行,如果迭代结束,输出LDA的隐变量参数。
图6为本公开文章主题挖掘装置一个实施例的结构示意图。
如图6所示,该实施例的装置60包括:
文本特征工程模块610,用于将检测集中待检测的文章表示为文章向量;
模型处理模块620,用于将文章向量输入聚类机器学习模型得到文章的主题概率分布;
主题挖掘模块630,用于根据文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,根据最大概率的主题和第二大概率的主题形成文章的复合主题。
其中,主题挖掘模块630,还用于根据文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,将最大概率的主题确定为文章的主题。
其中,检测集中包括多篇待检测的文章,检测集被划分为多个弹性分布式检测集,聚类机器学习模型被设置为广播变量;模型处理模块620包括:分布式处理单元一621,用于在每个弹性分布式检测集中调用广播变量中的聚类机器学习模型,并行确定各个文章的主题概率分布和主题。
其中,该装置60还包括:训练模块640,用于将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练;其中,训练集中包括多篇文章,训练集被划分为多个弹性分布式训练集,聚类机器学习模型被设置为广播变量;训练模块640包括:分布式处理单元二641,用于在每个弹性分布式训练集中调用广播变量中的聚类机器学习模型,并行对聚类机器学习模型进行训练。
其中,文章向量表示为文章的标签词矩阵;文章的标签词根据分词词库对文章进行分词产生,分词词库中包括根据应用场景构建的自定义词语。
其中,标签词矩阵中,矩阵的元素为标签词的词频与逆向文件频率的乘积。
上述实施例,基于聚类机器学习模型实现了一种自动挖掘文章主题的方案,可以减少人为因素的影响,提高文章主题挖掘地准确性,同时,对于主题不鲜明的文章,形成其复合主题,使得文章主题更具代表性。此外,分布式的数据处理方式,可以提高文章主题挖掘效率。
图7为本公开文章主题挖掘装置一个实施例的结构示意图。
如图7所示,该实施例的装置70包括:存储器710以及耦接至该存储器710的处理器720,处理器720被配置为基于存储在存储器710中的指令,执行前述任意一个实施例中的文章主题挖掘方法。
其中,存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
装置700还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本公开还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的文章主题挖掘方法的步骤。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (14)

1.一种文章主题挖掘方法,包括:
将检测集中待检测的文章表示为文章向量;
将文章向量输入聚类机器学习模型得到所述文章的主题概率分布;
根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,根据最大概率的主题和第二大概率的主题形成所述文章的复合主题。
2.如权利要求1所述的方法,其中,
根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,将最大概率的主题确定为所述文章的主题。
3.如权利要求1所述的方法,其中,所述检测集中包括多篇待检测的文章,所述检测集被划分为多个弹性分布式检测集,所述聚类机器学习模型被设置为广播变量;
在每个弹性分布式检测集中调用所述广播变量中的聚类机器学习模型,并行确定各个文章的主题概率分布和主题。
4.如权利要求1所述的方法,
将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练;
其中,所述训练集中包括多篇文章,所述训练集被划分为多个弹性分布式训练集,所述聚类机器学习模型被设置为广播变量;
在每个弹性分布式训练集中调用所述广播变量中的聚类机器学习模型,并行对聚类机器学习模型进行训练。
5.如权利要求1-4任一项所述的方法,其中,文章向量表示为文章的标签词矩阵,文章的标签词根据分词词库对文章进行分词产生,所述分词词库中包括根据应用场景构建的自定义词语。
6.如权利要求1-4任一项所述的方法,其中,文章向量表示为文章的标签词矩阵,矩阵的元素为标签词的词频与逆向文件频率的乘积。
7.如权利要求1所述的方法,其中,所述聚类机器学习模型包括:隐含狄利克雷分布LDA模型、K-means聚类模型。
8.一种文章主题挖掘装置,包括:
文本特征工程模块,用于将检测集中待检测的文章表示为文章向量;
模型处理模块,用于将文章向量输入聚类机器学习模型得到所述文章的主题概率分布;
主题挖掘模块,用于根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距小于预设阈值的情况下,根据最大概率的主题和第二大概率的主题形成所述文章的复合主题。
9.如权利要求8所述的装置,其中,
所述主题挖掘模块,还用于根据所述文章的主题概率分布,在最大概率与第二大概率之间的差距不小于预设阈值的情况下,将最大概率的主题确定为所述文章的主题。
10.如权利要求8所述的装置,其中,所述检测集中包括多篇待检测的文章,所述检测集被划分为多个弹性分布式检测集,所述聚类机器学习模型被设置为广播变量;
所述模型处理模块包括:分布式处理单元一,用于在每个弹性分布式检测集中调用所述广播变量中的聚类机器学习模型,并行确定各个文章的主题概率分布和主题。
11.如权利要求8所述的装置,所述装置还包括:
训练模块,用于将训练集中的文章表示为文章向量,输入聚类机器学习模型对聚类机器学习模型进行训练;
其中,所述训练集中包括多篇文章,所述训练集被划分为多个弹性分布式训练集,所述聚类机器学习模型被设置为广播变量;
所述训练模块包括:分布式处理单元二,用于在每个弹性分布式训练集中调用所述广播变量中的聚类机器学习模型,并行对聚类机器学习模型进行训练。
12.如权利要求8-11任一项所述的装置,其中,文章向量表示为文章的标签词矩阵;文章的标签词根据分词词库对文章进行分词产生,所述分词词库中包括根据应用场景构建的自定义词语;矩阵的元素为标签词的词频与逆向文件频率的乘积。
13.一种文章主题挖掘装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-7中任一项所述的文章主题挖掘方法。
14.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7中任一项所述的文章主题挖掘方法的步骤。
CN201711363739.9A 2017-12-18 2017-12-18 文章主题挖掘方法和装置及计算机可读存储介质 Pending CN110019805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711363739.9A CN110019805A (zh) 2017-12-18 2017-12-18 文章主题挖掘方法和装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711363739.9A CN110019805A (zh) 2017-12-18 2017-12-18 文章主题挖掘方法和装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110019805A true CN110019805A (zh) 2019-07-16

Family

ID=67186959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711363739.9A Pending CN110019805A (zh) 2017-12-18 2017-12-18 文章主题挖掘方法和装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110019805A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570025A (zh) * 2019-08-20 2019-12-13 精硕科技(北京)股份有限公司 一种微信文章真实阅读率的预测方法、装置及设备
CN111931060A (zh) * 2020-08-25 2020-11-13 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
CN113704469A (zh) * 2021-08-18 2021-11-26 百融至信(北京)征信有限公司 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN115204149A (zh) * 2022-06-30 2022-10-18 广东坚美铝型材厂(集团)有限公司 基于hdp等价描述的文本主题提取方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105843851A (zh) * 2016-03-16 2016-08-10 新浪网技术(中国)有限公司 欺诈邮件分析与提取方法和装置
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105843851A (zh) * 2016-03-16 2016-08-10 新浪网技术(中国)有限公司 欺诈邮件分析与提取方法和装置
CN106708803A (zh) * 2016-12-21 2017-05-24 东软集团股份有限公司 一种特征提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭中正: "基于Spark的社交主题分析与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
靳东旺 等: "《图书馆信息服务研究》", 31 May 2013, 西安地图出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570025A (zh) * 2019-08-20 2019-12-13 精硕科技(北京)股份有限公司 一种微信文章真实阅读率的预测方法、装置及设备
CN111931060A (zh) * 2020-08-25 2020-11-13 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
CN111931060B (zh) * 2020-08-25 2023-11-03 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN113704469A (zh) * 2021-08-18 2021-11-26 百融至信(北京)征信有限公司 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统
CN115204149A (zh) * 2022-06-30 2022-10-18 广东坚美铝型材厂(集团)有限公司 基于hdp等价描述的文本主题提取方法、设备及存储介质
CN115204149B (zh) * 2022-06-30 2023-06-27 广东坚美铝型材厂(集团)有限公司 基于hdp等价描述的文本主题提取方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110019805A (zh) 文章主题挖掘方法和装置及计算机可读存储介质
CN105045812B (zh) 文本主题的分类方法及系统
WO2022057658A1 (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN106649250B (zh) 一种情感新词的识别方法及装置
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
US10558911B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
Fitriyani et al. The K-means with mini batch algorithm for topics detection on online news
CN109086375A (zh) 一种基于词向量增强的短文本主题抽取方法
CN109063030A (zh) 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN109271520A (zh) 数据提取方法、数据提取装置、存储介质和电子设备
Lin et al. Fairgrape: Fairness-aware gradient pruning method for face attribute classification
CN110909125A (zh) 推文级社会媒体谣言检测方法
CN109299270A (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
Liu et al. Dynamic local search based immune automatic clustering algorithm and its applications
CN108304377A (zh) 一种长尾词的提取方法及相关装置
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN104077408B (zh) 大规模跨媒体数据分布式半监督内容识别分类方法及装置
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
Chavan et al. Mini batch K-Means clustering on large dataset
Kim et al. Predicting emotion in movie scripts using deep learning
CN109600627B (zh) 一种视频识别方法和装置
CN104200222B (zh) 一种基于因子图模型的图片中对象识别方法
Rezazadeh Initialization of weights in deep belief neural network based on standard deviation of feature values in training data vectors
Feifei et al. Multi-core SVM optimized visual word package model for garment style classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716