CN103377185B - 一种为短文本自动添加标签的方法及装置 - Google Patents

一种为短文本自动添加标签的方法及装置 Download PDF

Info

Publication number
CN103377185B
CN103377185B CN201210122904.2A CN201210122904A CN103377185B CN 103377185 B CN103377185 B CN 103377185B CN 201210122904 A CN201210122904 A CN 201210122904A CN 103377185 B CN103377185 B CN 103377185B
Authority
CN
China
Prior art keywords
text
word
label
frequency
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210122904.2A
Other languages
English (en)
Other versions
CN103377185A (zh
Inventor
贺翔
路彦雄
焦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210122904.2A priority Critical patent/CN103377185B/zh
Publication of CN103377185A publication Critical patent/CN103377185A/zh
Application granted granted Critical
Publication of CN103377185B publication Critical patent/CN103377185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种为短文本自动添加标签的方法及装置,涉及互联网技术领域,可以对短文本自动添加标签,并且提高添加的标签的准确性。本发明实施例提供的方案通过统计标签词集中各个标签词的文档频率倒数,将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频,根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。本发明实施例提供的方案适于对短文本添加标签。

Description

一种为短文本自动添加标签的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种为短文本自动添加标签的方法及装置。
背景技术
标签是一种互联网内容组织方式,是相关性很强的关键字,标签帮助人们轻松的描述内容或者将内容进行分类,以便于检索和分享。目前,给文章添加标签的方法有以下三种:方式一,人工标签,专业人员手动给文章指定特定标签;方式二,社会化标签,用户为自己的文章或者图片添加自定义的标签;方式三,关键词标签,对较长的文章内容进行分析,自动提取重要关键词作为标签。
然而,现有技术中为文章添加标签的方法,提取关键词作为标签不适用于短文本的操作,并且关键词可能不适合作为标签,准确性较低。另外,需要手动对文章添加标签,增加用户的操作。
发明内容
本发明的实施例提供一种为短文本自动添加标签的方法及装置,可以对短文本自动添加标签,并且提高添加的标签的准确性。
为达到上述目的,本发明的实施例采用如下技术方案:
一种为短文本自动添加标签的方法,包括:
统计标签词集中各个标签词的文档频率倒数;
将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频;
根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。
一种为短文本自动添加标签的装置,包括:
统计单元,用于统计标签词集中各个标签词的文档频率倒数;
扩展单元,用于将短文本扩展为长文本;
词频确定单元,用于确定所述标签词集中的各个标签词在所述长文本中出现的词频;
文本标签确定单元,用于根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。
本发明实施例提供一种为短文本自动添加标签的方法及装置,通过统计标签词集中各个标签词的文档频率倒数,将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频,根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。与采用现有技术为文章添加标签时,提取关键词作为标签不适用于短文本的操作,并且关键词可能不适合作为标签,另外,需要手动对文章添加标签,增加用户的操作相比,本发明实施例提供的方案可以对短文本自动添加标签,并且提高添加的标签的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种为短文本自动添加标签的方法的流程图;
图2为本发明实施例1提供的一种为短文本自动添加标签的装置的框图;
图3为本发明实施例2提供的一种为短文本自动添加标签的方法的流程图;
图4为本发明实施例2提供的一种为短文本自动添加标签的装置的框图;
图5为本发明实施例2提供的文本标签确定模块的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种为短文本自动添加标签的方法,如图1所示,该方法包括:
步骤101,统计标签词集中各个标签词的文档频率倒数;
可选的,预设标签词集和与所述标签词集相关联的语料;通常,在统计自然语言处理中可能观测不到大规模的语言实例。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系。一个文本集合可以称为语料库(Corpus)。可选的,从互联网上收集相关的文本,例如,可以采用腾讯“问问”产品中的问答内容作为语料。
对所述语料切词;切词即将一句话切分成一个个单独的词,例如,对“这是一种为短文本自动添加标签的方法”这句话切词,切为这、是、一种、为、短文本、自动、添加、标签、的、方法这11个词。
将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配,统计所述标签词集中各个标签词在所述语料中的文档频率,即统计所述标签词集中各个标签词在所述语料中出现的次数;例如,标签词集中的一个标签词为“川菜”,则将“川菜”与语料中的各个词进行一一匹配,如果出现了两次,则文档频率为2。
计算所述文档频率的文档频率倒数;例如,文档频率为2,则计算的文档频率倒数为1/2。
步骤102,将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频;
可选的,将短文本进行归一化处理;可选的,对短文本进行分析,将其中的停用词、高频词、无意义符号等删除,例如,将“的”、“是”、“啊”“空格”等删除。
将归一化处理的短文本扩展为长文本,并获取至少一条扩展文本;可选的,可以将归一化处理的短文本作为检索串,输入到搜索引擎中,获取前N条返回结果;或者,可以将归一化处理的短文本作为检索串,输入到百科词条中,获取前N条返回结果;当然,本发明还可以以其他的语料作为扩展,并不限于上述提出的扩展方法。
将至少一条所述扩展文本切词,即按照上述切词的方法将至少一条所述扩展文本切成一个个单独的词,以便于统计词频;
将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配,统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频,即统计所述标签词集中各个标签词在至少一条所述扩展文本中的出现的次数。
步骤103,根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。
根据所述文档频率倒数和所述词频,计算文本标签的权值;可选的,根据W=TF*IDF计算文本标签的权值,其中,W为权值,TF为标签词集中各个标签词在至少一条所述扩展文本中的词频,IDF为标签词集中各个标签词在所述语料中的文档频率倒数。
确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。
预设个数可以根据实际需要进行设置,例如可以设置为3个;
例如,将所述文本标签按照所述权值降序的顺序排序,确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签;或者,
将所述文本标签按照所述权值升序的顺序排序,确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签;
其中,K为预设个数,K为正整数。
本发明实施例提供一种为短文本自动添加标签的方法,通过统计标签词集中各个标签词的文档频率倒数,将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频,根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。与现有技术中,提取关键词作为标签不适用于短文本的操作,并且关键词可能不适合作为标签,另外,需要手动对文章添加标签,增加用户的操作相比,本发明实施例提供的方案通过对短文本扩展为长文本,再对长文本提取标签,可以对短文本自动添加标签,并且提高添加的标签的准确性。
本发明实施例提供一种为短文本自动添加标签的装置,如图2所示,该装置包括:统计单元201,扩展单元202,词频确定单元203,文本标签确定单元204;
统计单元201,用于统计标签词集中各个标签词的文档频率倒数;
可选的,所述统计单元中的设置模块,用于预设标签词集和预设与所述标签词集相关联的语料;
所述统计单元中的切词模块,用于对所述语料切词;
所述统计单元中的统计模块,用于将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配,统计所述标签词集中各个标签词在所述语料中的文档频率;
所述统计单元中的计算模块,用于计算所述文档频率的文档频率倒数。
扩展单元202,用于将短文本扩展为长文本;
可选的,所述扩展单元中的处理模块,用于将短文本进行归一化处理;扩展模块,用于将归一化处理的短文本扩展为长文本,并获取至少一条扩展文本。
词频确定单元203,用于确定所述标签词集中的各个标签词在所述长文本中出现的词频;
可选的,通过切词模块将至少一条所述扩展文本切词,然后词频确定模块,将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配,统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。
文本标签确定单元204,用于根据所述文档频率倒数和所述词频,确定所述短文本的文本标签;
可选的,根据所述文档频率倒数和所述词频,计算模块计算文本标签的权值;文本标签确定模块,用于确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。
本发明实施例提供一种为短文本自动添加标签的装置,通过统计单元统计标签词集中各个标签词的文档频率倒数,扩展单元将短文本扩展为长文本,词频确定单元确定所述标签词集中的各个标签词在所述长文本中出现的词频,根据所述文档频率倒数和所述词频,文本标签确定单元确定所述短文本的文本标签。本发明实施例提供的方案通过对短文本扩展为长文本,再对长文本提取标签,可以对短文本自动添加标签,并且提高添加的标签的准确性。
实施例2
本发明实施例提供一种为短文本自动添加标签的方法,如图3所示,该方法包括:
步骤301,预设标签词集和与所述标签词集相关联的语料;
可选的,根据需求,获得一个标签词集,例如希望对影视类内容添加标签,则收集一份影视类的常用标签,包括影视类型、明星等等。
通常,在统计自然语言处理中可能观测不到大规模的语言实例。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系。一个文本集合可以称为语料库(Corpus)。可选的,从互联网上收集相关的文本,例如,可以采用腾讯“问问”产品中的问答内容作为语料。
可选的,对预设标签词集和预设的语料进行保存。
步骤302,对所述语料切词;
切词即将一句话切分成一个个单独的词,例如,对“这是一种为短文本自动添加标签的方法”这句话切词,切为这、是、一种、为、短文本、自动、添加、标签、的、方法这11个词。
步骤303,将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配,统计所述标签词集中各个标签词在所述语料中的文档频率;
文档频率ID(Inverse Document)指出现某个词的文档个数,例如,标签词集中的一个标签词为“川菜”,则将“川菜”与语料中的各个词进行一一匹配,如果出现了两次,则文档频率为2。
步骤304,计算所述文档频率的文档频率倒数;
文档频率倒数为IDF(Inverse Document Frequency);例如,文档频率为2,则计算的文档频率倒数为1/2。
需要说明的是,步骤301-步骤304为统计标签词集中各个标签词的文档频率倒数的流程。
步骤305,将短文本扩展为长文本;
短文本即为本发明中需要添加标签的短文本,短文本指长度较短的文本内容,例如,互联网中的检索串、标题、微博等。
将短文本扩展为长文本包括以下子步骤:
A.将所述短文本进行归一化处理;可选的,对短文本进行分析,将其中的停用词、高频词、无意义符号等删除,例如,将“的”、“是”、“啊”“空格”等删除。
B.将归一化处理的短文本扩展为长文本,并获取至少一条扩展文本;
可选的,可以将归一化处理的短文本作为检索串,输入到搜索引擎中,获取前N条返回结果;或者,可以将归一化处理的短文本作为检索串,输入到百科词条中,获取前N条返回结果;当然,本发明还可以以其他的语料作为扩展,并不限于上述提出的扩展方法。
步骤306,确定所述标签词集中的各个标签词在所述长文本中出现的词频;
可选的,将获取的至少一条扩展文本进行切词,其方法与步骤302中采用的切词的方法相同,即按照上述切词的方法将至少一条所述扩展文本切成一个个单独的词,以便于统计词频。然后,将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配,统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。TF(TermFrequency,词频)为某个词在一篇文章中出现的次数。
步骤307,根据所述文档频率倒数和所述词频,计算文本标签的权值;
根据W=TF*IDF计算文本标签的权值,其中,W为权值,TF为标签词集中各个标签词在至少一条所述扩展文本中的词频,IDF为标签词集中各个标签词在所述语料中的文档频率倒数。
步骤308,确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。
预设个数可以根据实际需要进行设置,例如可以设置为3个;
可选的,将所述文本标签按照所述权值降序的顺序排序,确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签;即获取全职最高的K个作为文本标签;
或者,将所述文本标签按照所述权值升序的顺序排序,确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签;
其中,K为预设个数,K为正整数。
需要说明的是,本发明实施例通过将短文本扩展的方式提取标签外,还可以统计互信息、共现等方式,通过计算词与词之间的关系来提取标签,其中,共现指两个词在同一篇文档中出现。
本发明实施例提供一种为短文本自动添加标签的方法,通过统计标签词集中各个标签词的文档频率倒数,将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频,根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。本发明实施例提供的方案通过对短文本进行扩展后提取标签,可以对短文本自动添加标签,减少用户的操作,并且提高添加的标签的准确性。
本发明实施例提供一种为短文本自动添加标签的装置,如图4所示,该装置包括:统计单元401,设置模块4011,切词模块4012,统计模块4013,计算模块4014,扩展单元402,处理模块4021,扩展模块4022,词频确定单元403,切词模块4031,词频确定模块4032,文本标签确定单元404,计算模块4041,文本标签确定模块4042;
统计单元401,用于统计标签词集中各个标签词的文档频率倒数;
可选的,所述统计单元401中的设置模块4011,用于预设标签词集和预设与所述标签词集相关联的语料;所述统计单元401中的切词模块4012,用于对所述语料切词;所述统计单元401中的统计模块4013,用于将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配,统计所述标签词集中各个标签词在所述语料中的文档频率;所述统计单元401中的计算模块4014,用于计算所述文档频率的文档频率倒数;
扩展单元402,用于将短文本扩展为长文本;可选的,所述扩展单元402中的处理模块4021,用于将短文本进行归一化处理;
所述扩展单元402中的扩展模块4022,用于将归一化处理的短文本扩展为长文本,并获取至少一条扩展文本;可选的,将归一化处理的短文本在搜索引擎或者百科词条中进行扩展;
以扩展后的长文本为基础,词频确定单元403,用于确定所述标签词集中的各个标签词在所述长文本中出现的词频;
可选的,所述词频确定单元403中的切词模块4031,用于将至少一条所述扩展文本切词;所述词频确定单元403中的词频确定模块4032,用于将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配,统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频;
根据所述文档频率倒数和所述词频,文本标签确定单元404,用于确定所述短文本的文本标签。
可选的,所述文本标签确定单元404中的计算模块4041,用于根据所述文档频率倒数和所述词频,计算文本标签的权值;根据W=TF*IDF计算文本标签的权值,其中,W为权值,TF为标签词集中各个标签词在至少一条所述扩展文本中的词频,IDF为标签词集中各个标签词在所述语料中的文档频率倒数;
所述文本标签确定单元404中的文本标签确定模块4042,用于确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签;预设个数可以根据实际需要进行设置,例如可以设置为3个;
可选的,如图5所示,所述文本标签确定模块包括:排序子模块40421,文本标签确定子模块40422;
所述文本标签确定模块4042中的排序子模块40421,用于将所述文本标签按照所述权值降序的顺序排序,文本标签确定子模块40422,用于确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签;
或者,所述排序子模块40421用于,将所述文本标签按照所述权值升序的顺序排序;所述文本标签确定子模块40422用于,确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签;
其中,K为预设个数,K为正整数。
本发明实施例提供一种为短文本自动添加标签的装置,通过统计单元统计标签词集中各个标签词的文档频率倒数,扩展单元将短文本扩展为长文本,词频确定单元确定所述标签词集中的各个标签词在所述长文本中出现的词频,根据所述文档频率倒数和所述词频,文本标签确定单元确定所述短文本的文本标签。本发明实施例提供的方案通过对短文本进行扩展后提取标签,可以对短文本自动添加标签,减少用户的操作,并且提高添加的标签的准确性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种为短文本自动添加标签的方法,其特征在于,包括:
统计标签词集中各个标签词的文档频率倒数;所述文档频率是指所述标签词集中各个标签词在与所述标签词集相关联的语料中的文档频率;
将短文本扩展为长文本,确定所述标签词集中的各个标签词在所述长文本中出现的词频;
根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。
2.根据权利要求1所述的方法,其特征在于,所述统计标签词集中各个标签词的文档频率倒数包括:
预设标签词集和与所述标签词集相关联的语料;
对所述语料切词;
将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配,统计所述标签词集中各个标签词在所述语料中的文档频率;
计算所述文档频率的文档频率倒数。
3.根据权利要求1所述的方法,其特征在于,所述将短文本扩展为长文本包括:
将短文本进行归一化处理;
将归一化处理的短文本扩展为长文本,并获取至少一条扩展文本。
4.根据权利要求3所述的方法,其特征在于,所述将归一化处理的短文本扩展为长文本包括:
将归一化处理的短文本在搜索引擎或者百科词条中进行扩展。
5.根据权利要求4所述的方法,其特征在于,所述确定所述标签词集中的各个标签词在所述长文本中出现的词频包括:
将至少一条所述扩展文本切词;
将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配,统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。
6.根据权利要求5所述的方法,其特征在于,所述根据所述文档频率倒数和所述词频,确定所述短文本的文本标签包括:
根据所述文档频率倒数和所述词频,计算文本标签的权值;
确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。
7.根据权利要求6所述的方法,其特征在于,所述确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签包括:
将所述文本标签按照所述权值降序的顺序排序,确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签;或者,
将所述文本标签按照所述权值升序的顺序排序,确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签;
其中,K为预设个数,K为正整数。
8.一种为短文本自动添加标签的装置,其特征在于,包括:
统计单元,用于统计标签词集中各个标签词的文档频率倒数;所述文档频率是指所述标签词集中各个标签词在与所述标签词集相关联的语料中的文档频率;
扩展单元,用于将短文本扩展为长文本;
词频确定单元,用于确定所述标签词集中的各个标签词在所述长文本中出现的词频;
文本标签确定单元,用于根据所述文档频率倒数和所述词频,确定所述短文本的文本标签。
9.根据权利要求8所述的装置,其特征在于,所述统计单元包括:
设置模块,用于预设标签词集和预设与所述标签词集相关联的语料;
切词模块,用于对所述语料切词;
统计模块,用于将所述标签词集中各个标签词与所述语料中的各个词进行一一匹配,统计所述标签词集中各个标签词在所述语料中的文档频率;
计算模块,用于计算所述文档频率的文档频率倒数。
10.根据权利要求8所述的装置,其特征在于,所述扩展单元包括:
处理模块,用于将短文本进行归一化处理;
扩展模块,用于将归一化处理的短文本扩展为长文本,并获取至少一条扩展文本。
11.根据权利要求10所述的装置,其特征在于,所述扩展模块具体用于:
将归一化处理的短文本在搜索引擎或者百科词条中进行扩展。
12.根据权利要求11所述的装置,其特征在于,所述词频确定单元包括:
切词模块,用于将至少一条所述扩展文本切词;
词频确定模块,用于将所述标签词集中各个标签词与至少一条所述扩展文本中的各个词进行一一匹配,统计所述标签词集中各个标签词在至少一条所述扩展文本中的词频。
13.根据权利要求12所述的装置,其特征在于,所述文本标签确定单元包括:
计算模块,用于根据所述文档频率倒数和所述词频,计算文本标签的权值;
文本标签确定模块,用于确定所述权值中预设个数的最大所述文本标签为所述短文本的文本标签。
14.根据权利要求13所述的装置,其特征在于,所述文本标签确定模块包括:
排序子模块,用于将所述文本标签按照所述权值降序的顺序排序;
文本标签确定子模块,用于确定排序后的所述权值中最前K个所述文本标签为所述短文本的文本标签;或者,
所述排序子模块用于,将所述文本标签按照所述权值升序的顺序排序;
所述文本标签确定子模块用于,确定排序后的所述权值中最后K个所述文本标签为所述短文本的文本标签;
其中,K为预设个数,K为正整数。
CN201210122904.2A 2012-04-24 2012-04-24 一种为短文本自动添加标签的方法及装置 Active CN103377185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210122904.2A CN103377185B (zh) 2012-04-24 2012-04-24 一种为短文本自动添加标签的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210122904.2A CN103377185B (zh) 2012-04-24 2012-04-24 一种为短文本自动添加标签的方法及装置

Publications (2)

Publication Number Publication Date
CN103377185A CN103377185A (zh) 2013-10-30
CN103377185B true CN103377185B (zh) 2017-09-22

Family

ID=49462318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210122904.2A Active CN103377185B (zh) 2012-04-24 2012-04-24 一种为短文本自动添加标签的方法及装置

Country Status (1)

Country Link
CN (1) CN103377185B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
CN105279208B (zh) * 2014-07-25 2019-01-22 北京龙源创新信息技术有限公司 一种数据标示方法和管理系统
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN109145261B (zh) * 2018-09-04 2022-12-06 北京奇艺世纪科技有限公司 一种生成标签的方法和装置
CN110597991B (zh) * 2019-09-10 2021-08-17 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN111324771B (zh) * 2020-02-26 2022-11-04 腾讯科技(深圳)有限公司 视频标签的确定方法、装置、电子设备及存储介质
CN112035750B (zh) * 2020-09-17 2024-06-18 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086210A (ja) * 2008-09-30 2010-04-15 Yahoo Japan Corp 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086210A (ja) * 2008-09-30 2010-04-15 Yahoo Japan Corp 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
利用本体关联度改进的TF-IDF特征词提取方法;徐建民 等;《情报科学》;20110228;第29卷(第2期);第2节 *
基于本体的文档语义标注改进方法;陈叶旺 等;《东南大学学报(自然科学版)》;20091120;第39卷(第6期);279-283 *
基于维基百科的中文短文本分类研究;范云杰 等;《现代图书情报技术》;20120325;第2-3节 *

Also Published As

Publication number Publication date
CN103377185A (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN103377185B (zh) 一种为短文本自动添加标签的方法及装置
CN112507068B (zh) 文档查询方法、装置、电子设备和存储介质
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
JP6232478B2 (ja) 単一文書からのキーワード抽出装置及び方法
CN106156204B (zh) 文本标签的提取方法和装置
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
US9430568B2 (en) Method and system for querying information
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN104268175B (zh) 一种数据搜索的装置及其方法
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
CN108920633B (zh) 一种论文相似度的检测方法
CN105550168B (zh) 一种确定对象的概念词的方法和装置
CN106951530B (zh) 一种事件类型抽取方法和装置
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN103577534A (zh) 搜索方法和搜索引擎
CN105447161A (zh) 一种基于数据特征的智能信息分类方法
Chumwatana Using sentiment analysis technique for analyzing Thai customer satisfaction from social media
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN108388556B (zh) 同类实体的挖掘方法及系统
Rani et al. Study and comparision of vectorization techniques used in text classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131029

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131029

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 2, 518000, East 403, Futian District SEG science and Technology Park, Shenzhen, Shenzhen, Guangdong, Guangdong, China

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant