CN103377185B

CN103377185B - 一种为短文本自动添加标签的方法及装置

Info

Publication number: CN103377185B
Application number: CN201210122904.2A
Authority: CN
Inventors: 贺翔; 路彦雄; 焦峰
Original assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-04-24
Filing date: 2012-04-24
Publication date: 2017-09-22
Anticipated expiration: 2032-04-24
Also published as: CN103377185A

Abstract

本发明公开一种为短文本自动添加标签的方法及装置，涉及互联网技术领域，可以对短文本自动添加标签，并且提高添加的标签的准确性。本发明实施例提供的方案通过统计标签词集中各个标签词的文档频率倒数，将短文本扩展为长文本，确定所述标签词集中的各个标签词在所述长文本中出现的词频，根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。本发明实施例提供的方案适于对短文本添加标签。

Description

一种为短文本自动添加标签的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种为短文本自动添加标签的方法及装置。

背景技术

标签是一种互联网内容组织方式，是相关性很强的关键字，标签帮助人们轻松的描述内容或者将内容进行分类，以便于检索和分享。目前，给文章添加标签的方法有以下三种：方式一，人工标签，专业人员手动给文章指定特定标签；方式二，社会化标签，用户为自己的文章或者图片添加自定义的标签；方式三，关键词标签，对较长的文章内容进行分析，自动提取重要关键词作为标签。

然而，现有技术中为文章添加标签的方法，提取关键词作为标签不适用于短文本的操作，并且关键词可能不适合作为标签，准确性较低。另外，需要手动对文章添加标签，增加用户的操作。

发明内容

本发明的实施例提供一种为短文本自动添加标签的方法及装置，可以对短文本自动添加标签，并且提高添加的标签的准确性。

为达到上述目的，本发明的实施例采用如下技术方案：

一种为短文本自动添加标签的方法，包括：

统计标签词集中各个标签词的文档频率倒数；

将短文本扩展为长文本，确定所述标签词集中的各个标签词在所述长文本中出现的词频；

根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。

一种为短文本自动添加标签的装置，包括：

统计单元，用于统计标签词集中各个标签词的文档频率倒数；

扩展单元，用于将短文本扩展为长文本；

词频确定单元，用于确定所述标签词集中的各个标签词在所述长文本中出现的词频；

文本标签确定单元，用于根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。

本发明实施例提供一种为短文本自动添加标签的方法及装置，通过统计标签词集中各个标签词的文档频率倒数，将短文本扩展为长文本，确定所述标签词集中的各个标签词在所述长文本中出现的词频，根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。与采用现有技术为文章添加标签时，提取关键词作为标签不适用于短文本的操作，并且关键词可能不适合作为标签，另外，需要手动对文章添加标签，增加用户的操作相比，本发明实施例提供的方案可以对短文本自动添加标签，并且提高添加的标签的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种为短文本自动添加标签的方法的流程图；

图2为本发明实施例1提供的一种为短文本自动添加标签的装置的框图；

图3为本发明实施例2提供的一种为短文本自动添加标签的方法的流程图；

图4为本发明实施例2提供的一种为短文本自动添加标签的装置的框图；

图5为本发明实施例2提供的文本标签确定模块的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例提供一种为短文本自动添加标签的方法，如图1所示，该方法包括：

步骤101，统计标签词集中各个标签词的文档频率倒数；

可选的，预设标签词集和与所述标签词集相关联的语料；通常，在统计自然语言处理中可能观测不到大规模的语言实例。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系。一个文本集合可以称为语料库(Corpus)。可选的，从互联网上收集相关的文本，例如，可以采用腾讯“问问”产品中的问答内容作为语料。

对所述语料切词；切词即将一句话切分成一个个单独的词，例如，对“这是一种为短文本自动添加标签的方法”这句话切词，切为这、是、一种、为、短文本、自动、添加、标签、的、方法这11个词。

将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配，统计所述标签词集中各个标签词在所述语料中的文档频率，即统计所述标签词集中各个标签词在所述语料中出现的次数；例如，标签词集中的一个标签词为“川菜”，则将“川菜”与语料中的各个词进行一一匹配，如果出现了两次，则文档频率为2。

计算所述文档频率的文档频率倒数；例如，文档频率为2，则计算的文档频率倒数为1/2。

步骤102，将短文本扩展为长文本，确定所述标签词集中的各个标签词在所述长文本中出现的词频；

可选的，将短文本进行归一化处理；可选的，对短文本进行分析，将其中的停用词、高频词、无意义符号等删除，例如，将“的”、“是”、“啊”“空格”等删除。

将归一化处理的短文本扩展为长文本，并获取至少一条扩展文本；可选的，可以将归一化处理的短文本作为检索串，输入到搜索引擎中，获取前N条返回结果；或者，可以将归一化处理的短文本作为检索串，输入到百科词条中，获取前N条返回结果；当然，本发明还可以以其他的语料作为扩展，并不限于上述提出的扩展方法。

将至少一条所述扩展文本切词，即按照上述切词的方法将至少一条所述扩展文本切成一个个单独的词，以便于统计词频；

将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配，统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频，即统计所述标签词集中各个标签词在至少一条所述扩展文本中的出现的次数。

步骤103，根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。

根据所述文档频率倒数和所述词频，计算文本标签的权值；可选的，根据W＝TF*IDF计算文本标签的权值，其中，W为权值，TF为标签词集中各个标签词在至少一条所述扩展文本中的词频，IDF为标签词集中各个标签词在所述语料中的文档频率倒数。

确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。

预设个数可以根据实际需要进行设置，例如可以设置为3个；

例如，将所述文本标签按照所述权值降序的顺序排序，确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签；或者，

将所述文本标签按照所述权值升序的顺序排序，确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签；

其中，K为预设个数，K为正整数。

本发明实施例提供一种为短文本自动添加标签的方法，通过统计标签词集中各个标签词的文档频率倒数，将短文本扩展为长文本，确定所述标签词集中的各个标签词在所述长文本中出现的词频，根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。与现有技术中，提取关键词作为标签不适用于短文本的操作，并且关键词可能不适合作为标签，另外，需要手动对文章添加标签，增加用户的操作相比，本发明实施例提供的方案通过对短文本扩展为长文本，再对长文本提取标签，可以对短文本自动添加标签，并且提高添加的标签的准确性。

本发明实施例提供一种为短文本自动添加标签的装置，如图2所示，该装置包括：统计单元201，扩展单元202，词频确定单元203，文本标签确定单元204；

统计单元201，用于统计标签词集中各个标签词的文档频率倒数；

可选的，所述统计单元中的设置模块，用于预设标签词集和预设与所述标签词集相关联的语料；

所述统计单元中的切词模块，用于对所述语料切词；

所述统计单元中的统计模块，用于将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配，统计所述标签词集中各个标签词在所述语料中的文档频率；

所述统计单元中的计算模块，用于计算所述文档频率的文档频率倒数。

扩展单元202，用于将短文本扩展为长文本；

可选的，所述扩展单元中的处理模块，用于将短文本进行归一化处理；扩展模块，用于将归一化处理的短文本扩展为长文本，并获取至少一条扩展文本。

词频确定单元203，用于确定所述标签词集中的各个标签词在所述长文本中出现的词频；

可选的，通过切词模块将至少一条所述扩展文本切词，然后词频确定模块，将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配，统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。

文本标签确定单元204，用于根据所述文档频率倒数和所述词频，确定所述短文本的文本标签；

可选的，根据所述文档频率倒数和所述词频，计算模块计算文本标签的权值；文本标签确定模块，用于确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。

本发明实施例提供一种为短文本自动添加标签的装置，通过统计单元统计标签词集中各个标签词的文档频率倒数，扩展单元将短文本扩展为长文本，词频确定单元确定所述标签词集中的各个标签词在所述长文本中出现的词频，根据所述文档频率倒数和所述词频，文本标签确定单元确定所述短文本的文本标签。本发明实施例提供的方案通过对短文本扩展为长文本，再对长文本提取标签，可以对短文本自动添加标签，并且提高添加的标签的准确性。

实施例2

本发明实施例提供一种为短文本自动添加标签的方法，如图3所示，该方法包括：

步骤301，预设标签词集和与所述标签词集相关联的语料；

可选的，根据需求，获得一个标签词集，例如希望对影视类内容添加标签，则收集一份影视类的常用标签，包括影视类型、明星等等。

通常，在统计自然语言处理中可能观测不到大规模的语言实例。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系。一个文本集合可以称为语料库(Corpus)。可选的，从互联网上收集相关的文本，例如，可以采用腾讯“问问”产品中的问答内容作为语料。

可选的，对预设标签词集和预设的语料进行保存。

步骤302，对所述语料切词；

切词即将一句话切分成一个个单独的词，例如，对“这是一种为短文本自动添加标签的方法”这句话切词，切为这、是、一种、为、短文本、自动、添加、标签、的、方法这11个词。

步骤303，将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配，统计所述标签词集中各个标签词在所述语料中的文档频率；

文档频率ID(Inverse Document)指出现某个词的文档个数，例如，标签词集中的一个标签词为“川菜”，则将“川菜”与语料中的各个词进行一一匹配，如果出现了两次，则文档频率为2。

步骤304，计算所述文档频率的文档频率倒数；

文档频率倒数为IDF(Inverse Document Frequency)；例如，文档频率为2，则计算的文档频率倒数为1/2。

需要说明的是，步骤301-步骤304为统计标签词集中各个标签词的文档频率倒数的流程。

步骤305，将短文本扩展为长文本；

短文本即为本发明中需要添加标签的短文本，短文本指长度较短的文本内容，例如，互联网中的检索串、标题、微博等。

将短文本扩展为长文本包括以下子步骤：

A.将所述短文本进行归一化处理；可选的，对短文本进行分析，将其中的停用词、高频词、无意义符号等删除，例如，将“的”、“是”、“啊”“空格”等删除。

B.将归一化处理的短文本扩展为长文本，并获取至少一条扩展文本；

可选的，可以将归一化处理的短文本作为检索串，输入到搜索引擎中，获取前N条返回结果；或者，可以将归一化处理的短文本作为检索串，输入到百科词条中，获取前N条返回结果；当然，本发明还可以以其他的语料作为扩展，并不限于上述提出的扩展方法。

步骤306，确定所述标签词集中的各个标签词在所述长文本中出现的词频；

可选的，将获取的至少一条扩展文本进行切词，其方法与步骤302中采用的切词的方法相同，即按照上述切词的方法将至少一条所述扩展文本切成一个个单独的词，以便于统计词频。然后，将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配，统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。TF(TermFrequency，词频)为某个词在一篇文章中出现的次数。

步骤307，根据所述文档频率倒数和所述词频，计算文本标签的权值；

根据W＝TF*IDF计算文本标签的权值，其中，W为权值，TF为标签词集中各个标签词在至少一条所述扩展文本中的词频，IDF为标签词集中各个标签词在所述语料中的文档频率倒数。

步骤308，确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。

预设个数可以根据实际需要进行设置，例如可以设置为3个；

可选的，将所述文本标签按照所述权值降序的顺序排序，确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签；即获取全职最高的K个作为文本标签；

或者，将所述文本标签按照所述权值升序的顺序排序，确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签；

其中，K为预设个数，K为正整数。

需要说明的是，本发明实施例通过将短文本扩展的方式提取标签外，还可以统计互信息、共现等方式，通过计算词与词之间的关系来提取标签，其中，共现指两个词在同一篇文档中出现。

本发明实施例提供一种为短文本自动添加标签的方法，通过统计标签词集中各个标签词的文档频率倒数，将短文本扩展为长文本，确定所述标签词集中的各个标签词在所述长文本中出现的词频，根据所述文档频率倒数和所述词频，确定所述短文本的文本标签。本发明实施例提供的方案通过对短文本进行扩展后提取标签，可以对短文本自动添加标签，减少用户的操作，并且提高添加的标签的准确性。

本发明实施例提供一种为短文本自动添加标签的装置，如图4所示，该装置包括：统计单元401，设置模块4011，切词模块4012，统计模块4013，计算模块4014，扩展单元402，处理模块4021，扩展模块4022，词频确定单元403，切词模块4031，词频确定模块4032，文本标签确定单元404，计算模块4041，文本标签确定模块4042；

统计单元401，用于统计标签词集中各个标签词的文档频率倒数；

可选的，所述统计单元401中的设置模块4011，用于预设标签词集和预设与所述标签词集相关联的语料；所述统计单元401中的切词模块4012，用于对所述语料切词；所述统计单元401中的统计模块4013，用于将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配，统计所述标签词集中各个标签词在所述语料中的文档频率；所述统计单元401中的计算模块4014，用于计算所述文档频率的文档频率倒数；

扩展单元402，用于将短文本扩展为长文本；可选的，所述扩展单元402中的处理模块4021，用于将短文本进行归一化处理；

所述扩展单元402中的扩展模块4022，用于将归一化处理的短文本扩展为长文本，并获取至少一条扩展文本；可选的，将归一化处理的短文本在搜索引擎或者百科词条中进行扩展；

以扩展后的长文本为基础，词频确定单元403，用于确定所述标签词集中的各个标签词在所述长文本中出现的词频；

可选的，所述词频确定单元403中的切词模块4031，用于将至少一条所述扩展文本切词；所述词频确定单元403中的词频确定模块4032，用于将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配，统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频；

根据所述文档频率倒数和所述词频，文本标签确定单元404，用于确定所述短文本的文本标签。

可选的，所述文本标签确定单元404中的计算模块4041，用于根据所述文档频率倒数和所述词频，计算文本标签的权值；根据W＝TF*IDF计算文本标签的权值，其中，W为权值，TF为标签词集中各个标签词在至少一条所述扩展文本中的词频，IDF为标签词集中各个标签词在所述语料中的文档频率倒数；

所述文本标签确定单元404中的文本标签确定模块4042，用于确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签；预设个数可以根据实际需要进行设置，例如可以设置为3个；

可选的，如图5所示，所述文本标签确定模块包括：排序子模块40421，文本标签确定子模块40422；

所述文本标签确定模块4042中的排序子模块40421，用于将所述文本标签按照所述权值降序的顺序排序，文本标签确定子模块40422，用于确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签；

或者，所述排序子模块40421用于，将所述文本标签按照所述权值升序的顺序排序；所述文本标签确定子模块40422用于，确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签；

其中，K为预设个数，K为正整数。

本发明实施例提供一种为短文本自动添加标签的装置，通过统计单元统计标签词集中各个标签词的文档频率倒数，扩展单元将短文本扩展为长文本，词频确定单元确定所述标签词集中的各个标签词在所述长文本中出现的词频，根据所述文档频率倒数和所述词频，文本标签确定单元确定所述短文本的文本标签。本发明实施例提供的方案通过对短文本进行扩展后提取标签，可以对短文本自动添加标签，减少用户的操作，并且提高添加的标签的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种为短文本自动添加标签的方法，其特征在于，包括：

统计标签词集中各个标签词的文档频率倒数；所述文档频率是指所述标签词集中各个标签词在与所述标签词集相关联的语料中的文档频率；

2.根据权利要求1所述的方法，其特征在于，所述统计标签词集中各个标签词的文档频率倒数包括：

预设标签词集和与所述标签词集相关联的语料；

对所述语料切词；

将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配，统计所述标签词集中各个标签词在所述语料中的文档频率；

计算所述文档频率的文档频率倒数。

3.根据权利要求1所述的方法，其特征在于，所述将短文本扩展为长文本包括：

将短文本进行归一化处理；

将归一化处理的短文本扩展为长文本，并获取至少一条扩展文本。

4.根据权利要求3所述的方法，其特征在于，所述将归一化处理的短文本扩展为长文本包括：

将归一化处理的短文本在搜索引擎或者百科词条中进行扩展。

5.根据权利要求4所述的方法，其特征在于，所述确定所述标签词集中的各个标签词在所述长文本中出现的词频包括：

将至少一条所述扩展文本切词；

将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配，统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。

6.根据权利要求5所述的方法，其特征在于，所述根据所述文档频率倒数和所述词频，确定所述短文本的文本标签包括：

根据所述文档频率倒数和所述词频，计算文本标签的权值；

7.根据权利要求6所述的方法，其特征在于，所述确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签包括：

将所述文本标签按照所述权值降序的顺序排序，确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签；或者，

其中，K为预设个数，K为正整数。

8.一种为短文本自动添加标签的装置，其特征在于，包括：

统计单元，用于统计标签词集中各个标签词的文档频率倒数；所述文档频率是指所述标签词集中各个标签词在与所述标签词集相关联的语料中的文档频率；

扩展单元，用于将短文本扩展为长文本；

9.根据权利要求8所述的装置，其特征在于，所述统计单元包括：

设置模块，用于预设标签词集和预设与所述标签词集相关联的语料；

切词模块，用于对所述语料切词；

统计模块，用于将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配，统计所述标签词集中各个标签词在所述语料中的文档频率；

计算模块，用于计算所述文档频率的文档频率倒数。

10.根据权利要求8所述的装置，其特征在于，所述扩展单元包括：

处理模块，用于将短文本进行归一化处理；

扩展模块，用于将归一化处理的短文本扩展为长文本，并获取至少一条扩展文本。

11.根据权利要求10所述的装置，其特征在于，所述扩展模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述词频确定单元包括：

切词模块，用于将至少一条所述扩展文本切词；

词频确定模块，用于将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配，统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。

13.根据权利要求12所述的装置，其特征在于，所述文本标签确定单元包括：

计算模块，用于根据所述文档频率倒数和所述词频，计算文本标签的权值；

文本标签确定模块，用于确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。

14.根据权利要求13所述的装置，其特征在于，所述文本标签确定模块包括：

排序子模块，用于将所述文本标签按照所述权值降序的顺序排序；

文本标签确定子模块，用于确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签；或者，

所述排序子模块用于，将所述文本标签按照所述权值升序的顺序排序；

所述文本标签确定子模块用于，确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签；

其中，K为预设个数，K为正整数。