CN103198057B

CN103198057B - 一种自动给文档添加标签的方法和装置

Info

Publication number: CN103198057B
Application number: CN201210001611.9A
Authority: CN
Inventors: 贺翔; 王业; 焦峰
Original assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-01-05
Filing date: 2012-01-05
Publication date: 2017-11-07
Anticipated expiration: 2032-01-05
Also published as: CN103198057A; US20150019951A1; EP2801917A1; KR20140093762A; US9146915B2; KR101479040B1; JP2015506515A; WO2013102396A1; EP2801917A4

Abstract

本发明提出一种自动给文档添加标签的方法和装置，其中方法包括：确定多个候选标签词；确定包括多个文本的语料；从语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定在出现特征词的情况下同时出现候选标签词的共现概率；从文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；在语料中，针对候选标签词，统计候选标签词与文档中出现的所有特征词的加权共现概率；选择加权共现概率高的候选标签词作为为文档添加的标签词。本发明能够实现为文档添加标签的智能化，该标签不限于文档中出现的关键词。

Description

一种自动给文档添加标签的方法和装置

技术领域

本发明涉及互联网文档技术领域，尤其涉及一种自动给文档添加标签的方法和装置。

背景技术

标签(tag)是互联网内容组织方式，是与文档相关性很强的关键字，它能够对文档内容进行简单描述和分类，以便于检索和分享。

目前，为文档添加标签的方法主要有三种：1)人工标签：人工为文档指定特定标签；2)关键词标签：通过分析文档内容，自动提取文档中的重要关键词作为标签；3)社会化标签：由用户为自己的文档添加标签。这三种方法都存在缺点，比如，1)人工标签：不能自动对大规模文档添加标签；2)关键词标签：只能用文档中出现的关键词作为标签，而并非关键词都适合做标签；3)社会化标签：需要用户自己给文档加标签，由于用户标准不一致，导致标签混乱。

发明内容

本发明提供了一种自动给文档添加标签的方法和装置，能够实现为文档添加标签的智能化，该标签不限于文档中出现的关键词。

本发明的技术方案是这样实现的：

一种自动给文档添加标签的方法，包括：

确定对应所述文档的多个候选标签词；

确定包括多个文本的语料；从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；选择加权共现概率高的候选标签词作为为文档添加的标签词。

一种自动给文档添加标签的装置，包括：

候选标签词确定模块，用于确定对应所述文档的多个候选标签词；

共现概率确定模块，用于确定包括多个文本的语料，从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

权值计算模块，用于从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

加权共现概率统计模块，用于在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；

标签词添加模块，用于选择加权共现概率高的候选标签词作为为文档添加的标签词。

可见，本发明提出的自动给文档添加标签的方法和装置，能够统计语料中特征词与候选标签词之间的共现概率，将共现概率转换为特征词对候选标签词的投票权，最终将得票最多的候选标签词作为为文档添加的标签词，从而实现了为文档添加标签的智能化，并且该标签不限于文档中所出现的词。

附图说明

图1为本发明提出的自动给文档添加标签的方法流程图；

图2为本发明提出的自动给文档添加标签的装置结构示意图。

具体实施方式

本发明提出一种自动给文档添加标签的方法，如图1为该方法流程图，包括：

步骤101：确定对应所述文档的多个候选标签词；

步骤102：确定包括多个文本的语料；

步骤103：从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

步骤104：从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

步骤105：在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；选择加权共现概率高的候选标签词作为为文档添加的标签词。

上述步骤103中，共现概率为P(X|Y)，其中，X为候选标签词，Y为语料中出现的特征词；可以采用多种方式确定P(X|Y)：

第一种，P(X|Y)＝X和Y在同一文本中同时出现的次数/Y在语料中出现的次数；

第二种，其中，H(X，Y)为X和Y的联合熵，I(X，Y)为X和Y的互信息，H(X)为X的信息熵，H(Y)为Y的信息熵；

第三种，利用类似wordnet的词库资源进行确定。

上述步骤104中，针对每个提取出的特征词，可以根据该特征词在所述文档中出现的次数和所述语料中出现该特征词的文本数计算该特征词的权值。

所述文档中提取出的特征词Y的权值为W_Y，W_Y的计算方式可以为：W_Y等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。

上述步骤105中，加权共现概率为其中，Y_i为文档中出现的特征词，为Y_i的权值，n为文档中出现的特征词的个数。

上述步骤105中，可以针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率P_X，而无需对所有候选标签词都统计P_X。

以下举具体的实施例详细介绍。

实施例一：

步骤1：准备标签词集

根据需求，获取对应于文档的多个候选标签词，构成标签词集。例如，需要对影视类内容的文档添加标签，则标签词集可以包括影视类型、明星等标签词。

步骤2：准备语料

可以从互联网上收集相关的多个文本作为语料，用来统计词之间的共现关系。

步骤3：从语料中提取特征词

对语料中的文本进行切词，统计各个词的词频(TF，term frequency)，去掉高频词、停用词和低频词，将剩余的常用词作为特征词。

步骤4：统计特征词和候选标签词的共现概率P(X|Y)

P(X|Y)＝X和Y在同一文本中同时出现的次数/Y在语料中出现的次数；

其中，X为候选标签词，Y为特征词。

步骤5：为文档自动添加标签词，具体步骤如下：

1)对文档进行切词

2)通过切词结果提取文档中出现的所有特征词，针对每个提取出的特征词，计算特征词Y的权值W_Y＝TF×IDF，其中，TF为Y在文档中出现的次数，IDF为语料中出现Y的文本数。

3)根据步骤4中统计出的共现概率，提取与至少一个特征词存在共现关系(即共现概率不为0)的候选标签词；

4)针对提取出的候选标签词，统计各个候选标签词与文档中出现的所有特征词的加权共现概率其中，Y_i为文档中出现的特征词，为Y_i的权值，n为文档中出现的特征词的个数。

5)对所有提取出的候选标签词按照P_X由高到低的顺序进行排序，选择P_X最高的一个或几个候选标签词作为为文档添加的标签词。

在本步骤中，第3)步首先提取一部分候选标签词，之后计算这些提取的候选标签词的加权共现概率，这种方式是为了加快计算速度、节约系统资源；本发明也可以对所有候选标签词都计算加权共现概率，对于与所有特征词均不存在共现关系的候选标签词，其计算出的加权共现概率P_X＝0，第5)步排序后，该候选标签词将被排在最末端。

本发明的其他实施例中，可以采用其他的方式统计特征词和候选标签词的共现概率P(X|Y)。例如，采用进行计算，其中，H(X，Y)为X和Y的联合熵，I(X，Y)为X和Y的互信息，H(X)为X的信息熵，H(Y)为Y的信息熵；或者，也可以采用类似wordnet的词库资源确定特征词和候选标签词的关系。

本发明还提出一种自动给文档添加标签的装置，如图2为该装置的结构示意图，包括：

候选标签词确定模块201，用于确定对应所述文档的多个候选标签词；

共现概率确定模块202，用于确定包括多个文本的语料，从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

权值计算模块203，用于从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

加权共现概率统计模块204，用于在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；

标签词添加模块205，用于选择加权共现概率高的候选标签词作为为文档添加的标签词。

上述装置中，共现概率可以为P(X|Y)，其中，X为候选标签词，Y为语料中出现的特征词；共现概率确定模块202计算P(X|Y)的方式可以为：

P(X|Y)＝X和Y在同一文本中同时出现的次数/Y在语料中出现的次数；或者，其中，H(X，Y)为X和Y的联合熵，I(X，Y)为X和Y的互信息；

或者，利用词库资源进行确定。

上述装置中，所述文档中提取出的特征词Y的权值为W_Y，权值计算模块203计算W_Y的方式可以为：W_Y等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。

上述装置中，加权共现概率可以为其中，Y_i为文档中出现的特征词，为Y_i的权值，n为文档中出现的特征词的个数。

上述装置中，加权共现概率统计模块204可以只针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率。

综上可见，本发明提出的自动给文档添加标签的方法和装置，通过统计语料中特征词与候选标签词之间的共现概率，将共现概率转换为特征词对候选标签词的投票权，最终将得票最多的候选标签词作为为文档添加的标签词，从而实现了为文档添加标签的智能化，并且该标签不限于文档中所出现的词。本发明通过共现概率的统计提高了标签词与文档的相关性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种自动给文档添加标签的方法，其特征在于，所述方法包括：

确定对应所述文档的多个候选标签词；

确定包括多个文本的语料；从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；其中，所述语料是指从互联网上收集相关的多个文本；

2.根据权利要求1所述的方法，其特征在于，所述共现概率为P(X|Y)，其中，X为候选标签词，Y为所述语料中出现的特征词；

P(X|Y)的确定方式为：P(X|Y)＝X和Y在同一文本中同时出现的次数/Y在语料中出现的次数。

3.根据权利要求1所述的方法，其特征在于，所述共现概率为P(X|Y)，其中，X为候选标签词，Y为所述语料中出现的特征词；

所述P(X|Y)的确定方式为：其中，H(X,Y)为X和Y的联合熵，I(X,Y)为X和Y的互信息。

4.根据权利要求1所述的方法，其特征在于，所述共现概率为P(X|Y)，其中，X为候选标签词，Y为所述语料中出现的特征词；

所述P(X|Y)的确定方式为：利用词库资源进行确定。

5.根据权利要求1所述的方法，其特征在于，所述文档中提取出的特征词Y的权值为W_Y，W_Y等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。

6.根据权利要求1至4任意一项所述的方法，其特征在于，所述加权共现概率为其中，Y_i为文档中出现的特征词，为Y_i的权值，n为文档中出现的特征词的个数。

7.根据权利要求1至4任意一项所述的方法，其特征在于，在所述语料中，针对与所述文档中出现的一个以上特征词存在共现关系的候选标签词，统计加权共现概率。

8.一种自动给文档添加标签的装置，其特征在于，所述装置包括：

共现概率确定模块，用于确定包括多个文本的语料，从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；其中，所述语料是指从互联网上收集相关的多个文本；

9.根据权利要求8所述的装置，其特征在于，所述共现概率为P(X|Y)，其中，X为候选标签词，Y为所述语料中出现的特征词；

所述共现概率确定模块计算P(X|Y)的方式为：P(X|Y)＝X和Y在同一文本中同时出现的次数/Y在语料中出现的次数。

10.根据权利要求8所述的装置，其特征在于，所述共现概率为P(X|Y)，其中，X为候选标签词，Y为所述语料中出现的特征词；

所述共现概率确定模块计算P(X|Y)的方式为：其中，H(X,Y)为X和Y的联合熵，I(X,Y)为X和Y的互信息。

11.根据权利要求8所述的装置，其特征在于，所述共现概率为P(X|Y)，其中，X为候选标签词，Y为所述语料中出现的特征词；

所述共现概率确定模块确定P(X|Y)的方式为：利用词库资源进行确定。

12.根据权利要求8所述的装置，其特征在于，所述文档中提取出的特征词Y的权值为W_Y，所述权值计算模块计算W_Y的方式为：W_Y等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。

13.根据权利要求8至11任意一项所述的装置，其特征在于，所述加权共现概率为其中，Y_i为文档中出现的特征词，为Y_i的权值，n为文档中出现的特征词的个数。

14.根据权利要求8至11任意一项所述的装置，其特征在于，所述加权共现概率统计模块针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率。