CN108399227B

CN108399227B - 自动打标签的方法、装置、计算机设备及存储介质

Info

Publication number: CN108399227B
Application number: CN201810145692.7A
Authority: CN
Inventors: 陈海涛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2020-09-01
Anticipated expiration: 2038-02-12
Also published as: CN108399227A; WO2019153552A1

Abstract

本申请公开了一种自动打标签的方法、装置、计算机设备及存储介质。该方法包括：将待打标签文本进行分词预处理，得到预处理文本；将预处理文本输入词语逆频率TF‑IDF算法模型，得到待打标签文本的关键词集；根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布；获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。该方法通过自动学习的方式对文章打标签，避免了手动打标，提高打标效率且节省人力成本。

Description

自动打标签的方法、装置、计算机设备及存储介质

技术领域

本申请涉及文章分类技术领域，尤其涉及一种自动打标签的方法、装置、计算机设备及存储介质。

背景技术

文章的标签有助于文章的搜索以及分类，目前常用的方式是手动打标签，即作者为自己的文章编辑标签，但是并非所有作者都为自己的文章打标签。若海量的未打标签的文章都通过手动打标的方式来实现标签的添加，则效率极其低下，而且极大的增加了人力成本。

发明内容

本申请提供了一种自动打标签的方法、装置、计算机设备及存储介质，旨在解决现有技术海量的未打标签的文章都通过手动打标的方式来实现标签的添加，导致效率极其低下，而且极大增加了人力成本的问题。

第一方面，本申请提供了一种自动打标签的方法，其包括：

将待打标签文本进行分词预处理，得到预处理文本；

将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；

根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布；

获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。

第二方面，本申请提供了一种自动打标签的装置，其包括：

文本预处理单元，用于将待打标签文本进行分词预处理，得到预处理文本；

关键词集获取单元，用于将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；

最终概率分布获取单元，用于根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布；

打标单元，用于获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。

第三方面，本申请又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请提供的任一项所述的自动打标签的方法。

第四方面，本申请还提供了一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的自动打标签的方法。

本申请提供一种自动打标签的方法、装置、计算机设备及存储介质。该方法将待打标签文本进行分词预处理，得到预处理文本；将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布；获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。该方法通过自动学习的方式对文章打标签，避免了手动打标，提高打标效率且节省人力成本。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种自动打标签的方法的示意流程图；

图2为本申请实施例提供的一种自动打标签的方法的子流程示意流程图；

图3是本申请实施例提供的一种自动打标签的方法的另一子流程示意图；

图4为本申请实施例提供的一种自动打标签的装置的示意性框图；

图5为本申请实施例提供的一种自动打标签的装置的子单元示意性框图；

图6为本申请实施例提供的一种自动打标签的装置的另一子单元示意性框图；

图7为本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本申请实施例提供的一种自动打标签的方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示，该方法包括步骤S101～S104。

S101、将待打标签文本进行分词预处理，得到预处理文本。

如图2所示，所述步骤S101包括以下步骤：

S1011、对待打标签文本进行分词，得到分词后文本。

在本实施例中，是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法的步骤如下：

S10111、对一个待分词的子串S，按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn；

S10112、到词典中查出每个候选词的概率值P(wi)，并记录每个候选词的全部左邻词；

S10113、计算每个候选词的累计概率，同时比较得到每个候选词的最佳左邻词；

S10114、如果当前词wn是字串S的尾词，且累计概率P(wn)最大，则wn就是S的终点词；

S10115、从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即S的分词结果。

S1012、对分词后文本包括的分词一一设置加权值。

在本实施例中，以已进行分词的待打标签文本中分词来进行加权处理，也就是已进行分词的待打标签文本中是可以视作由多个分词组成，此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理，按如下规则：

文本第一个词是标题，赋予权值8*；段首第一个词等于“摘要”，则赋予权值5*；段首第一个词等于“关键词”或“结论”，则赋予权值5*；词语长度等于2，赋予权值3*；词性为名词，赋予权值2*；其他，每段首赋予权值1*。

S1013、删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组。

三元组<w_i，fre_i，v_i>表示待打标签文本经处理后的结果集，其中w_i是词语，fre_i是词语w_i加权后出现的次数，v_i是词语在文本中的位置权重；其中，当对分词后文本包括的分词一一设置加权值后，需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词，这些停用词不会作为关键词的候选词)，能准确的筛选出候选的关键词进行后续处理。

S1014、获取第一三元组中词频大于预设词频阈值所对分词之间的词语相似度；

其中，通过词语相似度计算，计算第一三元组<w_i，fre_i，v_i>中词频fre_i>2的所有词语相似度sim_ij；当sim_ij>0.9则认为两个词语的相似度极高，在文本中可以替换，将返回四元组<w_i，w_j，sim_ij，fre_i+fre_j>，并删除第一三元组里的词语w_j。四元组<w_i，w_j，sim_ij，fre_i+fre_j>表示对三元组中部分词语计算相似度后的集合，其中sim_ij表示词语w_i、w_j的相似度，fre_i+fre_j表示两个词语的词频之和。

S1015、若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

其中，在第一三元组<w_i，fre_i，v_i>中，查找四元组<w_i，w_j，sim_ij，fre_i+fre_j>中的词语；当三元组的fre_i替换为四元组中的fre_i+fre_j，重新组成第二三元组<wi，fre_i+fre_j，vi>，该第二三元组<w_i，fre_i+fre_j，v_i>即为预处理文本。

通过文本预处理，所得到的预处理文本满足关键词筛选模型的输入标准(即将文本进行了向量化处理)，能更为准确的得到文章的关键词。

当对待打标签文本进行分词后，就能对各词语的词频进行统计，以作为文章标签的候选词。

S102、将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集。

在一实施例中，所述词语逆频率TF-IDF算法模型为：

其中，TF部分分子n_i，j表示词语t_i在文本j中出现的次数，分母表示文本j中所有的词语频词和，IWF部分分子表示语料库中所有词语频数之和，nt_i表示词语t_i在语料库中出现的总频数。

如图3所示，所述步骤S102包括以下步骤：

S1021、生成语料库词语统计结果集；

S1022、获取预处理文本；

S1023、将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集。

在本实施例中，语料库词语统计结果集是基于语料库得到的。语料库是用户预先挑选一定数量文章(如2000篇)，采用步骤S10111-S10115中的文本预处理算法，忽略步骤S10114中相似度计算的步骤，对语料库中的文章分别进行处理，得到二元组<w_i，fre_i>，其中w_i是词语，fre_i是词语w_i加权后出现的频次。合并所有二元组<w_i，fre_i>，得到<w_i，fre_isum>，其中fre_isum是词语w_i在语料库中出现的总频次，也即<wi，freisum>即为所生成的语料库词语统计结果集。将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集，所得到的关键词集准确度较高。

S103、根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布。

在一实施例中，所述根据待打标签文本的关键词集得到初始化转移矩阵中，所述初始化转移矩阵为n维方阵，n维方阵的维数与关键词集中关键词总个数相等；所述初始的关键词概率分布为每一行值均为1/n的n维列向量；其中，n为与关键词集中关键词总个数相等的正整数；

所述由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算记为V_m＝MV_m-1，其中，m为正整数，V₀为初始的关键词概率分布，M为初始化转移矩阵。

在本实施例中，例如，关键词集中关键词的总个数为4个，分别记为A，B，C，D。根据关键词的位置、词性、长度等因素得到初始化转移矩阵M为：

假设每一个关键词为待打标签文本的最终标签的概率都是相等的，即1/n；故初始的关键词概率分布就是一个所有值都为1/n的n维列向量V₀；用V_n＝MV_n-1计算得到关键词最终概率分布Vn(此初始化转移矩阵M乘以V_n-1，经过不断迭代(一般是30次左右)最终会收敛，不会出现一直迭代的情况)。

S104、获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。

作为步骤S103-S104的另一实施例，也可以是根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算，当Vn这一n维列向量种有一行出现大于预设概率值时，则停止迭代并将该行对应的关键词作为待打标签文本的标签。若同时出现了多行大于预设概率值的情况，则将这些行对应的关键词同时作为待打标签文本的标签。

在一实施例中，所述步骤S101之前，还包括：

S100、爬取待打标签文本，并存储至MongoDB数据库中。即原始数据从网上爬取，得到待打标签文本，存放到MongoDB数据库。通过爬取数据，可设置一筛选条件，即爬取未设置标签的文本从而进行打标签。

该方法通过自动学习的方式对文章打标签，避免了手动打标，提高打标效率且节省人力成本。

本申请实施例还提供一种自动打标签的装置，该自动打标签的装置用于执行前述任一项自动打标签的方法。具体地，请参阅图4，图4是本申请实施例提供的一种自动打标签的装置的示意性框图。自动打标签的装置100可以安装于台式电脑、平板电脑、手提电脑、等终端中。

如图4所示，自动打标签的装置100包括文本预处理单元101、关键词集获取单元102、最终概率分布获取单元103、打标单元104。

文本预处理单元101，用于将待打标签文本进行分词预处理，得到预处理文本。

如图5所示，所述文本预处理单元101包括以下子单元：

分词单元1011，用于对待打标签文本进行分词，得到分词后文本。

在本实施例中，是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法如下：

1)对一个待分词的子串S，按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn；

2)到词典中查出每个候选词的概率值P(wi)，并记录每个候选词的全部左邻词；

3)计算每个候选词的累计概率，同时比较得到每个候选词的最佳左邻词；

4)如果当前词wn是字串S的尾词，且累计概率P(wn)最大，则wn就是S的终点词；

5)从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即S的分词结果。

加权单元1012，用于对分词后文本包括的分词一一设置加权值。

统计单元1013，用于删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组。

相似度获取单元1014，用于获取第一三元组中词频大于预设词频阈值所对分词之间的词语相似度。

删词单元1015，用于若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

关键词集获取单元102，用于将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集。

在一实施例中，所述词语逆频率TF-IDF算法模型为：

如图6所示，所述关键词集获取单元102包括以下子单元：

第一处理单元1021，用于生成语料库词语统计结果集；

第二处理单元1022，用于获取预处理文本；

关键词集计算单元1023，用于将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集。

在本实施例中，语料库词语统计结果集是基于语料库得到的。语料库是用户预先挑选一定数量文章(如2000篇)，采用文本预处理单元101中的文本预处理算法，忽略相似度计算的步骤，对语料库中的文章分别进行处理，得到二元组<w_i，fre_i>，其中w_i是词语，fre_i是词语w_i加权后出现的频次。合并所有二元组<w_i，fre_i>，得到<w_i，fre_isum>，其中fre_isum是词语w_i在语料库中出现的总频次，也即<wi，freisum>即为所生成的语料库词语统计结果集。将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集，所得到的关键词集准确度较高。

最终概率分布获取单元103，用于根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布。

打标单元104，用于获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。

作为最终概率分布获取单元103和打标单元104的另一实施例，也可以是根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算，当Vn这一n维列向量种有一行出现大于预设概率值时，则停止迭代并将该行对应的关键词作为待打标签文本的标签。若同时出现了多行大于预设概率值的情况，则将这些行对应的关键词同时作为待打标签文本的标签。

在一实施例中，自动打标签的装置100，还包括：

爬取单元，用于爬取待打标签文本，并存储至MongoDB数据库中。即原始数据从网上爬取，得到待打标签文本，存放到MongoDB数据库。通过爬取数据，可设置一筛选条件，即爬取未设置标签的文本从而进行打标签。

可见，该装置通过自动学习的方式对文章打标签，避免了手动打标，提高打标效率且节省人力成本。

上述自动打标签的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。

参阅图7，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种自动打标签的方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种自动打标签的方法。

该网络接口505用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：将待打标签文本进行分词预处理，得到预处理文本；将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布；获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。

在一实施例中，处理器502还执行如下操作：对待打标签文本进行分词，得到分词后文本；对分词后文本包括的分词一一设置加权值；删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；获取第一三元组中词频大于预设词频阈值所对分词之间的词语相似度；若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

在一实施例中，处理器502还执行如下操作：生成语料库词语统计结果集；获取预处理文本；将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；其中，所述词语逆频率TF-IDF算法模型为：

在一实施例中，处理器502还执行如下操作：爬取待打标签文本，并存储至MongoDB数据库中。

本领域技术人员可以理解，图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供一种存储介质。该存储介质可以为存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时实现：将待打标签文本进行分词预处理，得到预处理文本；将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；根据待打标签文本的关键词集得到初始化转移矩阵，由初始化转移矩阵及初始的关键词概率分布经过多次迭代相乘运算直至收敛后，得到关键词最终概率分布；获取关键词最终概率分布中概率最大值的对应行，获取概率最大值的对应行所对应关键词，并将所述关键词设置为待打标签文本的标签。

在一实施例中，该程序指令被处理器执行时实现：对待打标签文本进行分词，得到分词后文本；对分词后文本包括的分词一一设置加权值；删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；获取第一三元组中词频大于预设词频阈值所对分词之间的词语相似度；若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

在一实施例中，该程序指令被处理器执行时实现：生成语料库词语统计结果集；获取预处理文本；将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集；其中，所述词语逆频率TF-IDF算法模型为：

在一实施例中，该程序指令被处理器执行时实现：爬取待打标签文本，并存储至MongoDB数据库中。

所述存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种自动打标签的方法，其特征在于，包括：

将待打标签文本进行分词预处理，得到预处理文本；

2.根据权利要求1所述的自动打标签的方法，其特征在于，所述将待打标签文本进行分词预处理，得到预处理文本，包括：

对待打标签文本进行分词，得到分词后文本；

对分词后文本包括的分词一一设置加权值；

删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；

获取第一三元组中词频大于预设词频阈值所对分词之间的词语相似度；

若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

3.根据权利要求2所述的自动打标签的方法，其特征在于，所述词语逆频率TF-IDF算法模型为：

其中，TF部分分子n_i，j表示词语t_i在文本j中出现的次数，分母表示文本j中所有的词语频词和，IWF部分分子表示语料库中所有词语频数之和，nt_i表示词语t_i在语料库中出现的总频数；

所述将预处理文本输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集，包括：

生成语料库词语统计结果集；

获取预处理文本；

将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集。

4.根据权利要求1所述的自动打标签的方法，其特征在于，所述根据待打标签文本的关键词集得到初始化转移矩阵中，所述初始化转移矩阵为n维方阵，n维方阵的维数与关键词集中关键词总个数相等；所述初始的关键词概率分布为每一行值均为1/n的n维列向量；其中，n为与关键词集中关键词总个数相等的正整数；

5.根据权利要求4所述的自动打标签的方法，其特征在于，所述将待打标签文本进行分词预处理，得到预处理文本，之前包括：

爬取待打标签文本，并存储至MongoDB数据库中。

6.一种自动打标签的装置，其特征在于，包括：

7.根据权利要求6所述的自动打标签的装置，其特征在于，所述文本预处理单元，包括：

分词单元，用于对待打标签文本进行分词，得到分词后文本；

加权单元，用于对分词后文本包括的分词一一设置加权值；

统计单元，用于删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；

相似度获取单元，用于获取第一三元组中词频大于预设词频阈值所对分词之间的词语相似度；

删词单元，用于若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

8.根据权利要求7所述的自动打标签的装置，其特征在于，所述词语逆频率TF-IDF算法模型为：

所述关键词集获取单元，包括：

第一处理单元，用于生成语料库词语统计结果集；

第二处理单元，用于获取预处理文本；

关键词集计算单元，用于将预处理文本及语料库词语统计结果集输入词语逆频率TF-IDF算法模型，得到待打标签文本的关键词集。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的自动打标签的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的自动打标签的方法。