CN106156204A

CN106156204A - 文本标签的提取方法和装置

Info

Publication number: CN106156204A
Application number: CN201510197328.1A
Authority: CN
Inventors: 胡燊; 刘安安; 王迪
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2016-11-23
Anticipated expiration: 2035-04-23
Also published as: CN106156204B

Abstract

本发明涉及一种文本标签的提取方法，包括：对待提取文本通过文本分类模型进行类别预测，得到所述文本的目标类别，对所述待提取文本通过主题聚类模型进行主题预测，得到预测主题，如果所述预测主题在预设主题集合中，则获取所述预测主题对应的目标主题，对所述待提取文本进行关键词提取，得到所述文本的目标关键词，将所述目标类别、目标主题和目标关键词作为所述文本的标签。文本的标签具有不同的层次，满足不同粒度的检索需求，也可以根据不同的标签，提供不同粒度的推荐文章。此外，还提供了一种文本标签的提取装置。

Description

文本标签的提取方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种文本标签的提取方法和装置。

背景技术

随着互联网技术的发展，人们可以通过网络阅读各种类型的文本。标签(tag)是与文本相关性很强的关键字，它能够对文本内容进行简单描述和分类，以便于检索和分享。

传统的标签提取方法基于关键词，从文章中出现过的词语中提取关键词，将提取出的关键词作为文章的标签。通过这种方法提取的文本标签没有层次，不能满足不同粒度的检索需求，也不能提供不同粒度的新闻标签订阅。

发明内容

基于此，有必要针对上述问题，提供一种文本标签的提取方法和装置，能满足不同粒度的检索需求，提供不同粒度的标签订阅。

一种文本标签的提取方法，所述方法包括：

对待提取文本通过文本分类模型进行类别预测，得到所述文本的目标类别；

对所述待提取文本通过主题聚类模型进行主题预测，得到预测主题，如果所述预测主题在预设主题集合中，则获取所述预测主题对应的目标主题；

对所述待提取文本进行关键词提取，得到所述文本的目标关键词；

将所述目标类别、目标主题和目标关键词作为所述文本的标签。

一种文本标签的提取装置，所述装置包括：

类别预测模块，用于对待提取文本通过文本分类模型进行类别预测，得到所述文本的目标类别；

主题预测模块，用于对所述待提取文本通过主题聚类模型进行主题预测，得到预测主题，如果所述预测主题在预设主题集合中，则获取所述预测主题对应的目标主题；

关键词提取模块，用于对所述待提取文本进行关键词提取，得到所述文本的目标关键词；

标签生成模块，用于将所述目标类别、目标主题和目标关键词作为所述文本的标签。

上述文本标签的提取方法和装置，对待提取文本分别通过文本分类模型进行类别预测，得到目标类别，通过主题聚类模型进行主题预测，得到预测主题，如果预测主题在预设主题集合中，则获取预测主题对应的目标主题，目标类别和目标主题都不限于文本中出现的词语，通过关键词提取，得到目标关键词，并将目标类别、目标主题和目标关键词作为文本的标签，使得文本的标签具有不同的层次，满足不同粒度的检索需求，也可以根据不同的标签，提供不同粒度的推荐文章。

附图说明

图1为一个实施例中文本标签的提取方法的流程图；

图2为一个实施例中得到文本分类模型的流程图；

图3为一个实施例中得到待提取文本的目标类别的流程图；

图4为一个实施例中确定目标主题的流程图；

图5为一个实施例中得到待提取文本的目标关键词的流程图；

图6为一个实施例中根据待筛选关键词对应的特征对待筛选关键词进行筛选得到文本的目标关键词的流程图；

图7为一个实施例中文本标签的提取装置的结构框图；

图8为另一个实施例中文本标签的提取装置的结构框图；

图9为类别预测模块的结构框图；

图10为再一个实施例中文本标签的提取装置的结构框图；

图11为关键词提取模块的结构框图。

具体实施方式

在一个实施例中，如图1所示，提供了一种文本标签的提取方法，包括以下步骤：

步骤S110，对待提取文本通过文本分类模型进行类别预测，得到文本的目标类别。

具体的，文本分类模型是一种数学模型，用于对文本进行分类，可以采用不同的方法训练分类模型得到不同的文本分类模型。根据需要选择文本分类模型，如最大熵模型、决策树模型等。通过离线训练的方法得到文本分类模型后，对文本进行在线类别预测时使用训练好的文本分类模型进行类别预测，计算文本属于各个类别的概率，将概率最大的类别作为文本的目标类别。其中各个类别的种类可根据需要设定，不限于文本中出现的词语。

步骤S120，对待提取文本通过主题聚类模型进行主题预测，得到预测主题，如果预测主题在预设主题集合中，则获取预测主题对应的目标主题。

具体的，主题聚类模型是一种数学模型，用于对文本进行主题聚类。根据需要选择主题聚类模型，如LDA(Latent Dirichlet Allocation，文档主题生成模型)主题聚类模型。将待提取文本输入主题聚类模型输出待提取文本属于各个主题的概率，其中每个主题用对应的数值表示，将概率小于预设阈值的主题过滤掉，剩下的主题组成预测主题。预设主题集合是通过对训练语料进行离线主题聚类得到的候选主题中筛选出的部分主题组成的主题集合，由多个数值组成，每个数值代表一个主题。如果预测主题对应的数值在预设主题集合中，则根据预存的主题与目标主题的对应关系，找到预测主题对应的目标主题。其中目标主题是在离线训练时对预设主题集合中的各个主题对应的词语进行分析从而设定得到的。

步骤S130，对待提取文本进行关键词提取，得到文本的目标关键词。

具体的，关键词指的是文本中的重要词语，先将待提取文本进行分词得到词语和词组作为候选关键词，然后从候选关键词中根据关键词的各个特征提取关键词。特征包括：语法特征，如词语和词组的词性，文章结构特征，如候选关键词是否是标题、摘要中的词语，统计特征，如tf*idf(term frequency–inversedocument frequency)代表词语重要度，词语在训练语料中作为关键词的频次，词语长度等。外部特征，如词语在维基百科中以链接形式出现的比率、在网页搜索日志中出现的频率等。采用一种或多种特征进行加权的方式计算各个候选关键词的适合值，选预设阈值范围内的适合值作为目标关键词。可根据适合值的数值大小对目标关键词进行排序。

步骤S140，将目标类别、目标主题和目标关键词作为文本的标签。

具体的，文本的标签不限于文本中出现的词语，将目标类别、目标主题和目标关键词同时作为文本的标签，使得文本的标签具有不同的层次，代表了不同的精细粒度，可以更好地满足用户的语义检索需求，满足不同粒度的检索需求，比如检索的时候可以检索出不同语义粒度上相关的文章。可以更好地满足用户的标签订阅，根据不同的标签，提供不同粒度的推荐文章。如“途牛暴涨35.61％股价创新高”这一文本，通过传统的方法只能将文章中出现的词语作为关键词，如提取出关键词为“途牛”，使用本方法可以提取出三个层次的关键词，分别为目标类别“科技”、目标主题“科技股”和目标关键词“途牛”。

本实施例中，对待提取文本分别通过文本分类模型进行类别预测，得到目标类别，通过主题聚类模型进行主题预测，得到预测主题，如果预测主题在预设主题集合中，则获取预测主题对应的目标主题，目标类别和目标主题都不限于文本中出现的词语，通过关键词提取，得到目标关键词，并将目标类别、目标主题和目标关键词作为文本的标签，使得文本的标签具有不同的层次，满足不同粒度的检索需求，也可以根据不同的标签，提供不同粒度的推荐文章。

在一个实施例中，如图2所示，在步骤S110之前，还包括：

步骤S210，获取训练语料，训练语料包括多个文本，所述多个文本属于多个类别，计算文本中的词语与各个类别的相关度，根据相关度得到各个类别对应的特征词。

具体的，训练语料可根据需要设定，如使用1年(2013年5月至2014年5月)的网站新闻作为训练语料，训练语料中包括了多个文本，多个文本属于多个不同的类别，其中类别的种类是根据需要设定的。如设定为“科技”、“星座”、“体育”等，训练语料中每个文本所属的类别也是已知的。先计算文本中的词语与各个类别的相关度，在一个实施例中，词语与类别的相关度rel(c,t)计算公式如下：

rel (c, t) = \frac{n (c, t)}{n (t)} \times \log (f (c, t))

其中c表示文章类别，t表示文本分词后的词语，n(c,t)表示类别c中包含t的文本数，n(t)表示包含t的文本数，f(c,t)表示词语t在类别c中的出现频次。计算得到rel(c,t)后，将低于预设阈值的词语过滤，对于每个类别选取相关度rel(c,t)计算数值最高的预设数目的词语作为各个类别对应的特征词。

步骤S220，将各个类别对应的特征词合并得到特征词集合。

具体的，将每个类别对应的特征词的并集作为特征词集合。

步骤S230，根据特征词集合训练分类模型得到文本分类模型。

具体的，可根据需要选择分类模型。在一个实施例中选择最大熵模型，最大熵模型的数学公式为

p^{*} (y | x) = \frac{1}{Z_{λ} (x)} e^{\underset{i}{Σ} λ_{i} f_{i} (x, y)},

其中Z_λ(x)为归一化项，形式为

其中λ为特征词的权重，f_i(x,y)为特征函数。x_i表示特征词，i表示特征词索引值，如有100个特征值，则0<i<100，y表示类别。将特征词集合中的特征词输入分类模型进行训练得到文本分类模型。

本实施例中，通过训练语料中的词语与类别的相关度先进行过滤得到特征词集合，再根据特征词集合中的词语训练分类模型，可加快训练的时间，快速得到文本分类模型。

在一个实施例中，如图3所示，步骤S110包括：

步骤S111，获取待提取文本中在特征词集合中存在的词语，组成待预测文本。

具体的，将待提取文本分词后得到的词语与特征词集合中的词语进行对比，筛选出在特征词集合中出现的词语，将没有在特征词集合中出现的词语过滤掉，组成待预测文本。

步骤S112，根据待预测文本，通过文本分类模型计算得到待预测文本属于各个类别的概率。

步骤S113，将概率最高的类别作为待提取文本的目标类别。

具体的，将待预测文本中的词语输入文本分类模型，分别计算待预测文本属于各个类别的概率，将计算得到的最大概率值对应的类别作为待提取文本的目标类别。

在一个实施例中，如图4所示，在步骤S120之前，还包括：

步骤S310，对训练语料进行主题聚类，得到候选主题。

具体的，将训练语料中的词语输入主题聚类模型，如输入LDA主题聚类模型，得到候选主题，候选主题的数目可以根据需要设定，如设定为10个候选主题。候选主题以数值的形式表示，如1-10共10个数值表示10个候选主题。每个候选主题下包括有对应的聚集在这个主题下的词语和各个词语与主题的相关度。

步骤S320，对候选主题进行筛选得到预设主题集合。

具体的，根据各个主题下的词语，过滤掉聚类不成功的候选主题。可根据词语的语义分析聚类是否成功，也可根据各个词语与主题的相关度确定聚类是否成功。如一个主题下的对应词语与此主题的相关度值都比较低，则认为此候选主题聚类不成功。筛选出聚类成功的主题组成预设主题集合。

步骤S330，为预设主题集合中的主题设定对应的目标主题。

具体的，得到预设主题集合后，自定义预设主题集合中的主题对应的目标主题。不同的预设主题集合中的主题可对应相同的目标主题。为预设主题集合中的主题设定对应的目标主题，可将主题下的文本映射到对应的同一个目标主题上。

本实施例中，通过对候选主题进行筛选去掉了聚类不成功的主题，得到更明确的预设主题集合，提高了目标主题准确度。

在一个实施例中，如图5所示，步骤S130包括：

步骤S131，将待提取文本进行分词和匹配得到候选关键词，所述匹配包括词条匹配和文法匹配中的至少一种。

具体的，将待提取文本进行分词后就得到了词语和词组，由于词组识别技术的限制，很多实体和术语并不能被识别成词组，例如，电影名、歌曲名。并且随着互联网的普及，互联网上新产生的词语也越来越多，例如“光棍节”、“舌尖体”，这些词语也都不能被正确的识别。需要将待提取文本进行词条匹配和/或文法匹配进行候选关键词的补充。词条匹配是指将待提取文本中词语和词组与百科词条进行匹配，将匹配成功的词语和词组作为候选关键词。其中百科词条包括互联网上存在的多种百科数据，如维基百科、互动百科、百度百科、搜狗百科等。在匹配之前，到达预设时间间隔则抓取百科数据，补充新产生的词条。文法匹配是指将特定标点符号内的字符串作为候选关键词，如书名号和引号内的字符串。

步骤S132，对候选关键词进行过滤得到待筛选关键词。

具体的，可根据候选关键词的特征对候选关键词进行过滤。在一个实施例中，采用词性模板过滤，将符合预设词性序列的候选关键词过滤。如表1所示，为词性序列表包括各个词性序列对应的示例词，符合此表中词性的候选关键词都过滤掉。

表1

词性/词性序列	示例
		动词	举行
形容词	美丽
		副词	迅速
时间词	今天
		代词	我们
数量词	百
		副词+动词	同期/增长
状态词+名词	最佳/状态

区别词+名词	双重/标准
		时间词+形容词	上年/同期
副词+形容词	不/佳
		形容词+形容词	穷/风流
动词+动词	命中/率
		动词+助词	毕业/了

在一个实施例中，采用独立检索过滤，使用独立检索量和独立检索比例对候选关键词进行过滤。独立检索量是指候选关键词作为查询关键词在搜索引擎中独立检索的次数。独立检索比例其中n(query_t)是指独立检索量，n(query_{contain_t})指的是候选关键词的查询数量。独立检索量代表候选关键词的关注热度，独立检索量大代表候选关键词的关注度高，关注度高的候选关键词更适合作为关键词。独立检索比例代表候选关键词的语义完整程度，独立检索比例高代表候选关键词的语义更完整，也更适合作为关键词。将独立检索量和/或独立检索比例低于阈值的候选关键词过滤掉。在一个实施例中采用类别相关度对候选关键词进行过滤，类别相关度是指候选关键词与目标类别的相关程度。在一个实施例中，采用语义相关度对候选关键词进行过滤，语义相关度是指候选关键词与文本的语义的相关程度，可通过文本余弦相似度来计算。过滤时将上述多种过滤方法结合进行层层过滤。

步骤S133，根据待筛选关键词对应的特征对待筛选关键词进行筛选得到文本的目标关键词，所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。

具体的，通过过滤得到待筛选关键词后，可根据待筛选关键词对应的特征计算待筛选关键词的适合值，根据适合值的大小将待筛选关键词进行排序，将排序靠前的预设数目关键词作为目标关键词，或选择预设阈值范围内的适合值对应的待筛选关键词作为目标关键词。位置特征是指待筛选关键词在文本中出现的位置，如在文章标题、摘要、文章正文首句出现的词语往往更适合作为目标关键词。长度特征是指待筛选关键词包含的字符数，重要度特征是指通过词语重要度衡量方法，如TF*IDF计算得到的重要度值。类别相关度是指待筛选关键词与目标类别的相关程度，语义相关度是指待筛选关键词与文本的语义相关程度。在根据特征计算待筛选关键词的适合值时，可根据需要选取上述特征中的至少一种自定义计算公式。

在一个实施例中，如图6所示，步骤S133包括：

步骤S133a，获取待筛选关键词对应的特征的特征值以及特征值对应的比重。

具体的，根据待筛选关键词的特征的具体情况赋予不同的特征值。对于位置特征，判断待筛选关键词出现的位置是否在标题、是否在摘要、是否在正文句首，如果是，则取值1，如果不是，则取值0。比如，待筛选关键词在标题中出现，则标题位置特征取值为1，否则为0。分别得到标题位置特征值、摘要位置特征值、正文句首位置特征值后，自定义算法如对标题位置特征值、摘要位置特征值和正文句首位置特征值取平均值得到位置特征值。对于长度特征，将待筛选关键词包含的字符数直接作为长度特征值，或判断待筛选关键词包含的字符数是否超过预设数目，如果超过则长度特征值取值为1，否则为0。对于重要度特征，将通过词语重要度衡量方法计算出的重要度作为重要度特征值，或判断重要度是否超过预设数值，超过则重要度特征值为1，否则为0。对于类别相关度，可根据公式

rel (c, t) = \frac{n (c, t)}{n (t)} \times \log (f (c, t))

计算得到类别相关度值，其中c表示目标类别，t表示待筛选关键词，n(c,t)表示训练语料的目标类别c中包含t的文本数，n(t)表示训练语料的各个文本中包含t的文本数，f(c,t)表示词语t在训练语料的目标类别c中的出现频次。对于语义相关度特征，可根据公式计算得到语义相关度特征值sim(t,d)，其中t表示待筛选关键词，d表示待提取目标关键词的文本，d表示文本的向量空间模型，t_baike表示用待筛选关键词对应的百科词条内容表示的向量空间模型，t_abs表示用待筛选关键词作为查询在网页中进行搜索获得的搜索结果摘要表示的空间向量模型。特征值对应的比重可根据需要自定义。

步骤S133b，根据特征值和特征值对应的比重计算待筛选关键词的适合值。

具体的，根据公式计算待筛选关键词的适合值score(t)＝Σw_i×f_i，其中f_i是各个特征对应的特征值，w_i是特征对应的权重，i是特征索引值。

步骤S133c，选取预设阈值范围内的适合值所对应的待筛选关键词作为文本的目标关键词。

具体的，预设阈值可根据需要自定义，选取预设阈值范围内的适合值所对应的关键词，可以将适合值低的待筛选关键词过滤，使得筛选出的目标关键词更准确。

在一个实施例中，步骤S132中采用类别相关度过滤的方式进行过滤，具体包括：如果候选关键词是训练语料文本中的词语，则判断候选关键词与目标类别的相关度是否小于预设阈值，如果是，则将候选关键词过滤，否则候选关键词成为待筛选关键词之一。

具体的，判断候选关键词是否是训练语料文本中的词语，如果是则根据步骤S210中计算出的训练语料文本中的词语与各个类别相关度，查找得到候选关键词与目标类别的相关度，判断候选关键词与目标类别的相关度是否小于预设阈值，如果是，则将候选关键词过滤，否则候选关键词成为待筛选关键词之一。通过类别相关度过滤可以过滤掉不符合目标类别的候选关键词。

在一个实施例中，步骤S132中采用语义相关度过滤的方式进行过滤，具体包括：采用文本相似度算法计算候选关键词与文本的语义相关度，判断语义相关度是否小于预设阈值，如果是，则将候选关键词过滤，否则候选关键词成为待筛选关键词之一。

具体的，候选关键词与文本的语义相关度为文本和候选关键词的余弦相似度根据计算得到，其中表示候选关键词的空间向量，表示文本的空间向量。

先构造文本的空间向量，步骤如下：首先过滤掉文本中的停用词，然后，使用tf*idf给文本中出现的词语赋予权重，最后选取权重最高的k个词语作为文本的空间向量。

进一步的，构造候选关键词的空间向量，步骤如下：扩展候选关键词的上下文，结合搜索引擎扩展和百科扩展两种方法扩展候选关键词的上下文。搜索引擎扩展是指将候选关键词作为查询串在搜索引擎中进行查询，将查询结果作为上下文。百科扩展是指如果候选关键词是百科词条，则将百科词条的内容作为上下文。扩展候选关键词的上下文时，判断候选关键词是否是百科词条，如果是，就用百科扩展来扩展候选关键词的上下文，否则使用搜索引擎扩展来扩展候选关键词的上下文。扩展候选关键词上下文后，使用与构造文本空间向量相同的方法构造候选关键词的空间向量。

在一个实施例中，如图7所示，提供了一种文本标签的提取装置，包括：

类别预测模块410，用于对待提取文本通过文本分类模型进行类别预测，得到文本的目标类别。

主题预测模块420，用于对待提取文本通过主题聚类模型进行主题预测，得到预测主题，如果预测主题在预设主题集合中，则获取预测主题对应的目标主题。

关键词提取模块430，用于对待提取文本进行关键词提取，得到文本的目标关键词。

标签生成模块440，用于将目标类别、目标主题和目标关键词作为文本的标签。

在一个实施例中，如图8所示，所述装置还包括：

文本分类模型生成模块450，用于获取训练语料，训练语料包括多个文本，所述多个文本属于多个类别，计算文本中的词语与各个类别的相关度，根据相关度得到各个类别对应的特征词，将各个类别对应的特征词合并得到特征词集合，根据特征词集合训练分类模型得到文本分类模型。

在一个实施例中，如图9所示，类别预测模块410包括：

待预测文本生成单元411，用于获取待提取文本中在特征词集合中存在的词语，组成待预测文本。

目标类别确定单元412，用于根据待预测文本，通过文本分类模型计算得到待预测文本属于各个类别的概率，将概率最高的类别作为待提取文本的目标类别。

在一个实施例中，如图10所示，所述装置还包括：

目标主题生成模块460，用于对训练语料进行主题聚类，得到候选主题，对所述候选主题进行筛选得到所述预设主题集合，为所述预设主题集合中的主题设定对应的目标主题。

在一个实施例中，如图11所示，关键词提取模块430包括：

候选关键词提取单元431，用于将待提取文本进行分词和匹配得到候选关键词，匹配包括词条匹配和文法匹配中的至少一种。

过滤单元432，用于对候选关键词进行过滤得到待筛选关键词。

目标关键词确定单元433，用于根据待筛选关键词对应的特征对待筛选关键词进行筛选得到文本的目标关键词，所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。

在一个实施例中，目标关键词确定单元433还用于获取待筛选关键词对应的特征的特征值以及特征值对应的比重，根据特征值和特征值对应的比重计算待筛选关键词的适合值，选取预设阈值范围内的适合值所对应的待筛选关键词作为文本的目标关键词。

在一个实施例中，过滤单元432采用类别相关度过滤的方式进行过滤，过滤单元432还用于如果候选关键词是训练语料文本中的词语，则判断候选关键词与目标类别的相关度是否小于预设阈值，如果是，则将候选关键词过滤，否则候选关键词成为待筛选关键词之一。

在一个实施例中，过滤单元432采用语义相关度过滤的方式进行过滤，过滤单元432还用于采用文本相似度算法计算候选关键词与文本的语义相关度，判断语义相关度是否小于预设阈值，如果是，则将候选关键词过滤，否则候选关键词成为待筛选关键词之一。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本标签的提取方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述对待提取文本通过文本分类模型进行类别预测，得到所述文本的目标类别的步骤之前，还包括：

获取训练语料，所述训练语料包括多个文本，所述多个文本属于多个类别，计算所述文本中的词语与各个类别的相关度，根据所述相关度得到各个类别对应的特征词；

将各个类别对应的特征词合并得到特征词集合；

根据所述特征词集合训练分类模型得到所述文本分类模型。

3.根据权利要求2所述的方法，其特征在于，所述对待提取文本通过文本分类模型进行类别预测，得到所述文本的目标类别的步骤包括：

获取待提取文本中在所述特征词集合中存在的词语，组成待预测文本；

根据所述待预测文本，通过所述文本分类模型计算得到所述待预测文本属于各个类别的概率；

将概率最高的类别作为所述待提取文本的目标类别。

4.根据权利要求2所述的方法，其特征在于，在所述对所述待提取文本通过主题聚类模型进行主题预测，得到预测主题的步骤之前，还包括：

对所述训练语料进行主题聚类，得到候选主题；

对所述候选主题进行筛选得到所述预设主题集合；

为所述预设主题集合中的主题设定对应的目标主题。

5.根据权利要求1或2所述的方法，其特征在于，所述对所述待提取文本进行关键词提取，得到所述文本的目标关键词的步骤包括；

将待提取文本进行分词和匹配得到候选关键词，所述匹配包括词条匹配和文法匹配中的至少一种；

对所述候选关键词进行过滤得到待筛选关键词；

根据所述待筛选关键词对应的特征对所述待筛选关键词进行筛选得到所述文本的目标关键词，所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。

6.根据权利要求5所述的方法，其特征在于，所述根据所述待筛选关键词对应的特征对所述待筛选关键词进行筛选得到所述文本的目标关键词的步骤包括：

获取所述待筛选关键词对应的特征的特征值以及所述特征值对应的比重；

根据所述特征值和特征值对应的比重计算所述待筛选关键词的适合值；

选取预设阈值范围内的适合值所对应的待筛选关键词作为所述文本的目标关键词。

7.根据权利要求5所述的方法，其特征在于，所述对所述候选关键词进行过滤得到待筛选关键词的步骤中采用类别相关度过滤的方式进行过滤，具体包括：

如果所述候选关键词是所述训练语料文本中的词语，则判断所述候选关键词与所述目标类别的相关度是否小于预设阈值，如果是，则将所述候选关键词过滤，否则所述候选关键词成为所述待筛选关键词之一。

8.根据权利要求5所述的方法，其特征在于，所述对所述候选关键词进行过滤得到待筛选关键词的步骤中采用语义相关度过滤的方式进行过滤，具体包括：

采用文本相似度算法计算所述候选关键词与所述文本的语义相关度；

判断所述语义相关度是否小于预设阈值，如果是，则将所述候选关键词过滤，否则所述候选关键词成为所述待筛选关键词之一。

9.一种文本标签的提取装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

文本分类模型生成模块，用于获取训练语料，所述训练语料包括多个文本，所述多个文本属于多个类别，计算所述文本中的词语与各个类别的相关度，根据所述相关度得到各个类别对应的特征词，将各个类别对应的特征词合并得到特征词集合，根据所述特征词集合训练分类模型得到所述文本分类模型。

11.根据权利要求10所述的装置，其特征在于，所述类别预测模块包括：

待预测文本生成单元，用于获取待提取文本中在所述特征词集合中存在的词语，组成待预测文本；

目标类别确定单元，用于根据所述待预测文本，通过所述文本分类模型计算得到所述待预测文本属于各个类别的概率，将概率最高的类别作为所述待提取文本的目标类别。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

目标主题生成模块，用于对所述训练语料进行主题聚类，得到候选主题，对所述候选主题进行筛选得到所述预设主题集合，为所述预设主题集合中的主题设定对应的目标主题。

13.根据权利要求9或10所述的装置，其特征在于，所述关键词提取模块包括：

候选关键词提取单元，用于将待提取文本进行分词和匹配得到候选关键词，所述匹配包括词条匹配和文法匹配中的至少一种；

过滤单元，用于对所述候选关键词进行过滤得到待筛选关键词；

目标关键词确定单元，用于根据所述待筛选关键词对应的特征对所述待筛选关键词进行筛选得到所述文本的目标关键词，所述特征包括位置、长度、重要度、类别相关度、语义相关度中的至少一种。

14.根据权利要求13所述的装置，其特征在于，所述目标关键词确定单元还用于获取所述待筛选关键词对应的特征的特征值以及所述特征值对应的比重，根据所述特征值和特征值对应的比重计算所述待筛选关键词的适合值，选取预设阈值范围内的适合值所对应的待筛选关键词作为所述文本的目标关键词。

15.根据权利要求13所述的装置，其特征在于，所述过滤单元采用类别相关度过滤的方式进行过滤，所述过滤单元还用于如果所述候选关键词是所述训练语料文本中的词语，则判断所述候选关键词与所述目标类别的相关度是否小于预设阈值，如果是，则将所述候选关键词过滤，否则所述候选关键词成为所述待筛选关键词之一。

16.根据权利要求13所述的装置，其特征在于，所述过滤单元采用语义相关度过滤的方式进行过滤，所述过滤单元还用于采用文本相似度算法计算所述候选关键词与所述文本的语义相关度，判断所述语义相关度是否小于预设阈值，如果是，则将所述候选关键词过滤，否则所述候选关键词成为所述待筛选关键词之一。