CN103198057A - 一种自动给文档添加标签的方法和装置 - Google Patents

一种自动给文档添加标签的方法和装置 Download PDF

Info

Publication number
CN103198057A
CN103198057A CN2012100016119A CN201210001611A CN103198057A CN 103198057 A CN103198057 A CN 103198057A CN 2012100016119 A CN2012100016119 A CN 2012100016119A CN 201210001611 A CN201210001611 A CN 201210001611A CN 103198057 A CN103198057 A CN 103198057A
Authority
CN
China
Prior art keywords
words
document
word
occurrence probability
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100016119A
Other languages
English (en)
Other versions
CN103198057B (zh
Inventor
贺翔
王业
焦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201210001611.9A priority Critical patent/CN103198057B/zh
Priority to PCT/CN2012/086733 priority patent/WO2013102396A1/zh
Priority to EP12864434.1A priority patent/EP2801917A4/en
Priority to JP2014550620A priority patent/JP2015506515A/ja
Priority to KR1020147019605A priority patent/KR101479040B1/ko
Priority to US14/370,418 priority patent/US9146915B2/en
Publication of CN103198057A publication Critical patent/CN103198057A/zh
Application granted granted Critical
Publication of CN103198057B publication Critical patent/CN103198057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种自动给文档添加标签的方法和装置,其中方法包括:确定多个候选标签词;确定包括多个文本的语料;从语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定在出现特征词的情况下同时出现候选标签词的共现概率;从文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在语料中,针对候选标签词,统计候选标签词与文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。本发明能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。

Description

一种自动给文档添加标签的方法和装置
技术领域
本发明涉及互联网文档技术领域,尤其涉及一种自动给文档添加标签的方法和装置。
背景技术
标签(tag)是互联网内容组织方式,是与文档相关性很强的关键字,它能够对文档内容进行简单描述和分类,以便于检索和分享。
目前,为文档添加标签的方法主要有三种:1)人工标签:人工为文档指定特定标签;2)关键词标签:通过分析文档内容,自动提取文档中的重要关键词作为标签;3)社会化标签:由用户为自己的文档添加标签。这三种方法都存在缺点,比如,1)人工标签:不能自动对大规模文档添加标签;2)关键词标签:只能用文档中出现的关键词作为标签,而并非关键词都适合做标签;3)社会化标签:需要用户自己给文档加标签,由于用户标准不一致,导致标签混乱。
发明内容
本发明提供了一种自动给文档添加标签的方法和装置,能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。
本发明的技术方案是这样实现的:
一种自动给文档添加标签的方法,包括:
确定对应所述文档的多个候选标签词;
确定包括多个文本的语料;从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;
从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;
在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。
一种自动给文档添加标签的装置,包括:
候选标签词确定模块,用于确定对应所述文档的多个候选标签词;
共现概率确定模块,用于确定包括多个文本的语料,从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;
权值计算模块,用于从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;
加权共现概率统计模块,用于在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;
标签词添加模块,用于选择加权共现概率高的候选标签词作为为文档添加的标签词。
可见,本发明提出的自动给文档添加标签的方法和装置,能够统计语料中特征词与候选标签词之间的共现概率,将共现概率转换为特征词对候选标签词的投票权,最终将得票最多的候选标签词作为为文档添加的标签词,从而实现了为文档添加标签的智能化,并且该标签不限于文档中所出现的词。
附图说明
图1为本发明提出的自动给文档添加标签的方法流程图;
图2为本发明提出的自动给文档添加标签的装置结构示意图。
具体实施方式
本发明提出一种自动给文档添加标签的方法,如图1为该方法流程图,包括:
步骤101:确定对应所述文档的多个候选标签词;
步骤102:确定包括多个文本的语料;
步骤103:从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;
步骤104:从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;
步骤105:在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。
上述步骤103中,共现概率为P(X|Y),其中,X为候选标签词,Y为语料中出现的特征词;可以采用多种方式确定P(X|Y):
第一种,P(X|Y)=X和Y在同一文本中同时出现的次数/Y在语料中出现的次数;
第二种, P ( X | Y ) = H ( X , Y ) I ( X , Y ) = H ( X , Y ) H ( X ) + H ( Y ) - H ( X , Y ) , 其中,H(X,Y)为X和Y的联合熵,I(X,Y)为X和Y的互信息,H(X)为X的信息熵,H(Y)为Y的信息熵;
第三种,利用类似wordnet的词库资源进行确定。
上述步骤104中,针对每个提取出的特征词,可以根据该特征词在所述文档中出现的次数和所述语料中出现该特征词的文本数计算该特征词的权值。
所述文档中提取出的特征词Y的权值为WY,WY的计算方式可以为:WY等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。
上述步骤105中,加权共现概率为
Figure BDA0000128827070000032
其中,Yi为文档中出现的特征词,
Figure BDA0000128827070000033
为Yi的权值,n为文档中出现的特征词的个数。
上述步骤105中,可以针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率PX,而无需对所有候选标签词都统计PX
以下举具体的实施例详细介绍。
实施例一:
步骤1:准备标签词集
根据需求,获取对应于文档的多个候选标签词,构成标签词集。例如,需要对影视类内容的文档添加标签,则标签词集可以包括影视类型、明星等标签词。
步骤2:准备语料
可以从互联网上收集相关的多个文本作为语料,用来统计词之间的共现关系。
步骤3:从语料中提取特征词
对语料中的文本进行切词,统计各个词的词频(TF,term frequency),去掉高频词、停用词和低频词,将剩余的常用词作为特征词。
步骤4:统计特征词和候选标签词的共现概率P(X|Y)
P(X|Y)=X和Y在同一文本中同时出现的次数/Y在语料中出现的次数;
其中,X为候选标签词,Y为特征词。
步骤5:为文档自动添加标签词,具体步骤如下:
1)对文档进行切词
2)通过切词结果提取文档中出现的所有特征词,针对每个提取出的特征词,计算特征词Y的权值WY=TF×IDF,其中,TF为Y在文档中出现的次数,IDF为语料中出现Y的文本数。
3)根据步骤4中统计出的共现概率,提取与至少一个特征词存在共现关系(即共现概率不为0)的候选标签词;
4)针对提取出的候选标签词,统计各个候选标签词与文档中出现的所有特征词的加权共现概率
Figure BDA0000128827070000041
其中,Yi为文档中出现的特征词,
Figure BDA0000128827070000042
为Yi的权值,n为文档中出现的特征词的个数。
5)对所有提取出的候选标签词按照PX由高到低的顺序进行排序,选择PX最高的一个或几个候选标签词作为为文档添加的标签词。
在本步骤中,第3)步首先提取一部分候选标签词,之后计算这些提取的候选标签词的加权共现概率,这种方式是为了加快计算速度、节约系统资源;本发明也可以对所有候选标签词都计算加权共现概率,对于与所有特征词均不存在共现关系的候选标签词,其计算出的加权共现概率PX=0,第5)步排序后,该候选标签词将被排在最末端。
本发明的其他实施例中,可以采用其他的方式统计特征词和候选标签词的共现概率P(X|Y)。例如,采用 P ( X | Y ) = H ( X , Y ) I ( X , Y ) = H ( X , Y ) H ( X ) + H ( Y ) - H ( X , Y ) 进行计算,其中,H(X,Y)为X和Y的联合熵,I(X,Y)为X和Y的互信息,H(X)为X的信息熵,H(Y)为Y的信息熵;或者,也可以采用类似wordnet的词库资源确定特征词和候选标签词的关系。
本发明还提出一种自动给文档添加标签的装置,如图2为该装置的结构示意图,包括:
候选标签词确定模块201,用于确定对应所述文档的多个候选标签词;
共现概率确定模块202,用于确定包括多个文本的语料,从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;
权值计算模块203,用于从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;
加权共现概率统计模块204,用于在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;
标签词添加模块205,用于选择加权共现概率高的候选标签词作为为文档添加的标签词。
上述装置中,共现概率可以为P(X|Y),其中,X为候选标签词,Y为语料中出现的特征词;共现概率确定模块202计算P(X|Y)的方式可以为:
P(X|Y)=X和Y在同一文本中同时出现的次数/Y在语料中出现的次数;或者,
Figure BDA0000128827070000061
其中,H(X,Y)为X和Y的联合熵,I(X,Y)为X和Y的互信息;
或者,利用词库资源进行确定。
上述装置中,所述文档中提取出的特征词Y的权值为WY,权值计算模块203计算WY的方式可以为:WY等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。
上述装置中,加权共现概率可以为其中,Yi为文档中出现的特征词,为Yi的权值,n为文档中出现的特征词的个数。
上述装置中,加权共现概率统计模块204可以只针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率。
综上可见,本发明提出的自动给文档添加标签的方法和装置,通过统计语料中特征词与候选标签词之间的共现概率,将共现概率转换为特征词对候选标签词的投票权,最终将得票最多的候选标签词作为为文档添加的标签词,从而实现了为文档添加标签的智能化,并且该标签不限于文档中所出现的词。本发明通过共现概率的统计提高了标签词与文档的相关性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种自动给文档添加标签的方法,其特征在于,所述方法包括:
确定对应所述文档的多个候选标签词;
确定包括多个文本的语料;从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;
从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;
在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。
2.根据权利要求1所述的方法,其特征在于,所述共现概率为P(X|Y),其中,X为候选标签词,Y为所述语料中出现的特征词;
P(X|Y)的确定方式为:P(X|Y)=X和Y在同一文本中同时出现的次数/Y在语料中出现的次数。
3.根据权利要求1所述的方法,其特征在于,所述共现概率为P(X|Y),其中,X为候选标签词,Y为所述语料中出现的特征词;
所述P(X|Y)的确定方式为:
Figure FDA0000128827060000011
其中,H(X,Y)为X和Y的联合熵,I(X,Y)为X和Y的互信息。
4.根据权利要求1所述的方法,其特征在于,所述共现概率为P(X|Y),其中,X为候选标签词,Y为所述语料中出现的特征词;
所述P(X|Y)的确定方式为:利用词库资源进行确定。
5.根据权利要求1所述的方法,其特征在于,所述文档中提取出的特征词Y的权值为WY,WY等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述加权共现概率为
Figure FDA0000128827060000021
其中,Yi为文档中出现的特征词,
Figure FDA0000128827060000022
为Yi的权值,n为文档中出现的特征词的个数。
7.根据权利要求1至4任意一项所述的方法,其特征在于,在所述语料中,针对与所述文档中出现的一个以上特征词存在共现关系的候选标签词,统计加权共现概率。
8.一种自动给文档添加标签的装置,其特征在于,所述装置包括:
候选标签词确定模块,用于确定对应所述文档的多个候选标签词;
共现概率确定模块,用于确定包括多个文本的语料,从所述语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率;
权值计算模块,用于从所述文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;
加权共现概率统计模块,用于在所述语料中,针对候选标签词,统计候选标签词与所述文档中出现的所有特征词的加权共现概率;
标签词添加模块,用于选择加权共现概率高的候选标签词作为为文档添加的标签词。
9.根据权利要求8所述的装置,其特征在于,所述共现概率为P(X|Y),其中,X为候选标签词,Y为所述语料中出现的特征词;
所述共现概率确定模块计算P(X|Y)的方式为:P(X|Y)=X和Y在同一文本中同时出现的次数/Y在语料中出现的次数。
10.根据权利要求8所述的装置,其特征在于,所述共现概率为P(X|Y),其中,X为候选标签词,Y为所述语料中出现的特征词;
所述共现概率确定模块计算P(X|Y)的方式为:
Figure FDA0000128827060000023
其中,H(X,Y)为X和Y的联合熵,I(X,Y)为X和Y的互信息。
11.根据权利要求8所述的装置,其特征在于,所述共现概率为P(X|Y),其中,X为候选标签词,Y为所述语料中出现的特征词;
所述共现概率确定模块确定P(X|Y)的方式为:利用词库资源进行确定。
12.根据权利要求8所述的装置,其特征在于,所述文档中提取出的特征词Y的权值为WY,所述权值计算模块计算WY的方式为:WY等于Y在文档中出现的次数与所述语料中出现Y的文本数的乘积。
13.根据权利要求8至11任意一项所述的装置,其特征在于,所述加权共现概率为
Figure FDA0000128827060000031
其中,Yi为文档中出现的特征词,
Figure FDA0000128827060000032
为Yi的权值,n为文档中出现的特征词的个数。
14.根据权利要求8至11任意一项所述的装置,其特征在于,所述加权共现概率统计模块针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率。
CN201210001611.9A 2012-01-05 2012-01-05 一种自动给文档添加标签的方法和装置 Active CN103198057B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210001611.9A CN103198057B (zh) 2012-01-05 2012-01-05 一种自动给文档添加标签的方法和装置
PCT/CN2012/086733 WO2013102396A1 (zh) 2012-01-05 2012-12-17 一种自动给文档添加标签的方法、装置以及计算机存储介质
EP12864434.1A EP2801917A4 (en) 2012-01-05 2012-12-17 METHOD, APPARATUS AND COMPUTER STORAGE MEDIUM FOR AUTOMATICALLY ADDING LABELS TO A DOCUMENT
JP2014550620A JP2015506515A (ja) 2012-01-05 2012-12-17 タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
KR1020147019605A KR101479040B1 (ko) 2012-01-05 2012-12-17 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
US14/370,418 US9146915B2 (en) 2012-01-05 2012-12-17 Method, apparatus, and computer storage medium for automatically adding tags to document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210001611.9A CN103198057B (zh) 2012-01-05 2012-01-05 一种自动给文档添加标签的方法和装置

Publications (2)

Publication Number Publication Date
CN103198057A true CN103198057A (zh) 2013-07-10
CN103198057B CN103198057B (zh) 2017-11-07

Family

ID=48720627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210001611.9A Active CN103198057B (zh) 2012-01-05 2012-01-05 一种自动给文档添加标签的方法和装置

Country Status (6)

Country Link
US (1) US9146915B2 (zh)
EP (1) EP2801917A4 (zh)
JP (1) JP2015506515A (zh)
KR (1) KR101479040B1 (zh)
CN (1) CN103198057B (zh)
WO (1) WO2013102396A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN104361033A (zh) * 2014-10-27 2015-02-18 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN104462360A (zh) * 2014-12-05 2015-03-25 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置
CN105488077A (zh) * 2014-10-10 2016-04-13 腾讯科技(深圳)有限公司 生成内容标签的方法和装置
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置
CN105989018A (zh) * 2015-01-29 2016-10-05 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
WO2016161631A1 (en) * 2015-04-10 2016-10-13 Hewlett-Packard Development Company,L.P. Hidden dynamic systems
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN109857957A (zh) * 2019-01-29 2019-06-07 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN110399491A (zh) * 2019-07-19 2019-11-01 电子科技大学 一种基于特征词共现图的微博事件演化分析方法
CN113343684A (zh) * 2021-06-22 2021-09-03 广州华多网络科技有限公司 核心产品词识别方法、装置、计算机设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6208105B2 (ja) * 2014-09-18 2017-10-04 株式会社東芝 タグ付与装置、方法、及びプログラム
JP6535858B2 (ja) * 2015-04-30 2019-07-03 国立大学法人鳥取大学 文書解析装置、プログラム
WO2017011483A1 (en) * 2015-07-12 2017-01-19 Aravind Musuluri System and method for ranking documents
CN106066870B (zh) * 2016-05-27 2019-03-15 南京信息工程大学 一种语境标注的双语平行语料库构建系统
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN107436922B (zh) 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
CN108536800B (zh) * 2018-04-03 2022-04-19 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN109992774A (zh) * 2019-03-25 2019-07-09 北京理工大学 基于词属性注意力机制的关键短语识别方法
JPWO2021009885A1 (zh) * 2019-07-17 2021-01-21
CN113486266B (zh) * 2021-06-29 2024-05-21 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094231A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Selecting Tags For A Document By Analyzing Paragraphs Of The Document
US20090204609A1 (en) * 2008-02-13 2009-08-13 Fujitsu Limited Determining Words Related To A Given Set Of Words
CN101650731A (zh) * 2009-08-31 2010-02-17 浙江大学 基于用户反馈的赞助搜索广告的建议关键词生成方法
CN102043791A (zh) * 2009-10-10 2011-05-04 腾讯科技(深圳)有限公司 分词评价方法及装置

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
US6317740B1 (en) * 1998-10-19 2001-11-13 Nec Usa, Inc. Method and apparatus for assigning keywords to media objects
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
EP1346559A4 (en) * 2000-11-16 2006-02-01 Mydtv Inc SYSTEM AND METHOD FOR DETERMINING THE POPULARITY OF VIDEO PROGRAM EVENTS
JP4679003B2 (ja) 2001-08-24 2011-04-27 ヤフー株式会社 データからの特徴アイテム抽出方法
EP1466273B1 (en) * 2002-01-16 2010-04-28 Elucidon Group Limited Information data retrieval, where the data is organized in terms, documents and document corpora
US7395256B2 (en) * 2003-06-20 2008-07-01 Agency For Science, Technology And Research Method and platform for term extraction from large collection of documents
US20060074900A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Selecting keywords representative of a document
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
US20080195595A1 (en) * 2004-11-05 2008-08-14 Intellectual Property Bank Corp. Keyword Extracting Device
JP2006323517A (ja) 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
US7711737B2 (en) * 2005-09-12 2010-05-04 Microsoft Corporation Multi-document keyphrase extraction using partial mutual information
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8856145B2 (en) * 2006-08-04 2014-10-07 Yahoo! Inc. System and method for determining concepts in a content item using context
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US8073850B1 (en) * 2007-01-19 2011-12-06 Wordnetworks, Inc. Selecting key phrases for serving contextually relevant content
JP2009015743A (ja) * 2007-07-09 2009-01-22 Fujifilm Corp 文書作成支援システム、文書作成支援方法、並びに文書作成支援プログラム
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US9317593B2 (en) 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
US20090254540A1 (en) * 2007-11-01 2009-10-08 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
KR20090045520A (ko) 2007-11-02 2009-05-08 조광현 시맨틱 기술을 이용한 태그어 자동 생성 방법
US8090724B1 (en) * 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
US8055688B2 (en) * 2007-12-07 2011-11-08 Patrick Giblin Method and system for meta-tagging media content and distribution
US20090299998A1 (en) * 2008-02-15 2009-12-03 Wordstream, Inc. Keyword discovery tools for populating a private keyword database
US8606795B2 (en) * 2008-07-01 2013-12-10 Xerox Corporation Frequency based keyword extraction method and system using a statistical measure
CA2638558C (en) * 2008-08-08 2013-03-05 Bloorview Kids Rehab Topic word generation method and system
US20100076976A1 (en) * 2008-09-06 2010-03-25 Zlatko Manolov Sotirov Method of Automatically Tagging Image Data
US8166051B1 (en) * 2009-02-03 2012-04-24 Sandia Corporation Computation of term dominance in text documents
JP2010224622A (ja) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd タグ付与方法およびタグ付与プログラム
KR101011726B1 (ko) 2009-06-09 2011-01-28 성균관대학교산학협력단 스니펫 제공 장치 및 방법
US20110004465A1 (en) * 2009-07-02 2011-01-06 Battelle Memorial Institute Computation and Analysis of Significant Themes
US8370286B2 (en) * 2009-08-06 2013-02-05 Yahoo! Inc. System for personalized term expansion and recommendation
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US8266228B2 (en) * 2009-12-08 2012-09-11 International Business Machines Corporation Tagging communication files based on historical association of tags
US20130036076A1 (en) * 2010-04-14 2013-02-07 Hewlett-Packard Development Company, L.P. Method for keyword extraction
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
US8375022B2 (en) * 2010-11-02 2013-02-12 Hewlett-Packard Development Company, L.P. Keyword determination based on a weight of meaningfulness
JP5990178B2 (ja) * 2010-11-05 2016-09-07 楽天株式会社 キーワード抽出に関するシステム及び方法
US9483557B2 (en) * 2011-03-04 2016-11-01 Microsoft Technology Licensing Llc Keyword generation for media content
US8700599B2 (en) * 2011-11-21 2014-04-15 Microsoft Corporation Context dependent keyword suggestion for advertising

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094231A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Selecting Tags For A Document By Analyzing Paragraphs Of The Document
US20090204609A1 (en) * 2008-02-13 2009-08-13 Fujitsu Limited Determining Words Related To A Given Set Of Words
CN101650731A (zh) * 2009-08-31 2010-02-17 浙江大学 基于用户反馈的赞助搜索广告的建议关键词生成方法
CN102043791A (zh) * 2009-10-10 2011-05-04 腾讯科技(深圳)有限公司 分词评价方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C RAMAKRISHNAN 等: "Unsupervised discovery of compound entities for relationship extraction", 《KNOWLEDGE ENGINEERING: PRACTICE AND PATTERNS》 *
MENNO VAN ZAANEN 等: "AUTOMATIC MOOD CLASSIFICATION USING TF*IDF BASED ON LYRICS", 《INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE》 *
柯丽 等: "基于频率共现熵的跨语言网页自动分类研究", 《江西师范大学学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199898B (zh) * 2014-08-26 2018-05-15 北京小度互娱科技有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN105488077A (zh) * 2014-10-10 2016-04-13 腾讯科技(深圳)有限公司 生成内容标签的方法和装置
CN104361033A (zh) * 2014-10-27 2015-02-18 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN104361033B (zh) * 2014-10-27 2017-06-09 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN104462360A (zh) * 2014-12-05 2015-03-25 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置
CN105989018B (zh) * 2015-01-29 2020-04-21 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
CN105989018A (zh) * 2015-01-29 2016-10-05 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
WO2016161631A1 (en) * 2015-04-10 2016-10-13 Hewlett-Packard Development Company,L.P. Hidden dynamic systems
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107818092B (zh) * 2016-09-12 2023-05-26 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN109857957A (zh) * 2019-01-29 2019-06-07 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN109857957B (zh) * 2019-01-29 2021-06-15 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN110399491A (zh) * 2019-07-19 2019-11-01 电子科技大学 一种基于特征词共现图的微博事件演化分析方法
CN113343684A (zh) * 2021-06-22 2021-09-03 广州华多网络科技有限公司 核心产品词识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
KR101479040B1 (ko) 2015-01-05
CN103198057B (zh) 2017-11-07
EP2801917A1 (en) 2014-11-12
JP2015506515A (ja) 2015-03-02
EP2801917A4 (en) 2015-08-26
US9146915B2 (en) 2015-09-29
WO2013102396A1 (zh) 2013-07-11
US20150019951A1 (en) 2015-01-15
KR20140093762A (ko) 2014-07-28

Similar Documents

Publication Publication Date Title
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
CN106156204B (zh) 文本标签的提取方法和装置
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
CN104615593B (zh) 微博热点话题自动检测方法及装置
CN103218444B (zh) 基于语义的藏文网页文本分类方法
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN106951530B (zh) 一种事件类型抽取方法和装置
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN103793434A (zh) 一种基于内容的图片搜索方法和装置
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN104102721A (zh) 信息推荐方法和装置
CN102119385A (zh) 用于在内容检索服务系统内检索媒体内容的方法和子系统
CN107577663B (zh) 一种关键短语抽取方法和装置
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN103399901A (zh) 一种关键词抽取方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN104484380A (zh) 个性化搜索方法及装置
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110717040A (zh) 词典扩充方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: SHENZHEN TENCENT COMPUTER SYSTEM CO., LTD.

Effective date: 20131021

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131021

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Applicant before: Shenzhen Tencent Computer System Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant