CN104978332B - 用户生成内容标签数据生成方法、装置及相关方法和装置 - Google Patents

用户生成内容标签数据生成方法、装置及相关方法和装置 Download PDF

Info

Publication number
CN104978332B
CN104978332B CN201410135781.5A CN201410135781A CN104978332B CN 104978332 B CN104978332 B CN 104978332B CN 201410135781 A CN201410135781 A CN 201410135781A CN 104978332 B CN104978332 B CN 104978332B
Authority
CN
China
Prior art keywords
word
ugc
words
label data
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410135781.5A
Other languages
English (en)
Other versions
CN104978332A (zh
Inventor
王佳强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410135781.5A priority Critical patent/CN104978332B/zh
Publication of CN104978332A publication Critical patent/CN104978332A/zh
Application granted granted Critical
Publication of CN104978332B publication Critical patent/CN104978332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种用户生成内容(UGC)的标签数据的生成方法、装置及相关方法和装置,包括:获取UGC数据;对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;计算所述词表中的词的两两之间的词距离,对该词表中的词进行聚类,得到N个词集合;对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则重复本步骤;从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。利用本发明,可以提高用户获取有效目标信息的获取效率,降低获取成本。

Description

用户生成内容标签数据生成方法、装置及相关方法和装置
技术领域
本申请涉及计算机和互联网数据处理技术领域,尤其涉及一种用户生成内容(UGC,User Generated Content)标签数据生成方法、装置及相关方法和装置。
背景技术
目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源,特别是在互联网进入Web2.0时代后,用户既是网站内容的浏览者,也是网站内容的制造者。用户参与创造的内容被称为UGC,如用户发表的日志、照片等。在Web2.0时代,由于UGC的大量涌现,网络信息量呈几何级快速增长,形成一个多、广、专的局面,对人类知识的积累和传播起到了一个非常大的作用。
可以发表UGC的网站系统通常被称为UGC网站系统。例如目前常用的UGC网站系统包括:微博客(MicroBlog)系统、社交网络服务系统(SNS,Social Network Service))、社区论坛系统、知识分享系统等等。其中某些UGC网站系统的功能也是相互融合的,具有多种属性。
例如,微博客(MicroBlog),简称微博,是一个基于用户关系的信息分享、传播以及获取的UGC网站系统,也属于一种SNS系统,用户可以通过有线通信网络或无线通信网络、以及各种客户端访问微博,以指定数目的文字和/或其它多媒体信息更新信息,并实现即时分享。
但是,随着UGC网站系统用户数量的不断增大,每个用户所发布的UGC数量也在持续增加,使得互联网上形成了巨量的UGC信息。这就导致了严重的信息碎片化。所述信息碎片化,是指人们通过网络传媒了解阅读非常多的信息,但却没有深刻的理解和记忆,也没有直接获取到UGC中的关键信息,从而使得大量的UGC信息成为用户的过眼云烟,严重干扰了用户对有效目标信息的获取效率。
例如,如果用户希望了解某个最新电影的评价信息,则不但需要到相关的电影网站上查看该电影的剧情、海报、综合评分、票房,还需要去BBS、微博等UGC平台去查看广大用户的评论信息。但是面对如此海量的信息,用户需要通过较多次的人机交互进行网页的打开、关闭、切换等操作来寻找有效的目标信息,用户获知有效的目标信息的过程比较耗时费力,无法直达目标点,获取效率低,获取成本较高。同时由于在此过程中需要较多的人机交互,而每一次人机交互操作都会占用相应的机器资源和网络带宽资源,耗费了大量的机器资源和网络带宽资源。
发明内容
有鉴于此,本发明的主要目的是提供一种UGC标签数据生成方法、装置及相关方法和装置,以提高用户获取有效目标信息的获取效率,降低获取成本。
本发明的技术方案是这样实现的:
一种用户生成内容UGC的标签数据的生成方法,包括:
获取UGC数据;
对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;
计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合;
进行扩展语料处理,包括:对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则对所述B个词集合重复执行扩展语料处理;
从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。
一种UGC的聚类方法,包括:
针对二条以上的目标UGC,采用上述的UGC标签数据的生成方法,生成各目标UGC的标签数据;
按照各目标UGC的标签数据,对目标UGC进行聚类。
一种搜索索引建立方法,包括:
针对二条以上的目标UGC,采用上述的UGC标签数据的生成方法,生成各目标UGC的标签数据;
对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。
一种UGC搜索方法,包括:
针对二条以上的目标UGC,采用上述的UGC标签数据的生成方法,生成各目标UGC的标签数据;
对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;
搜索引擎接收搜索词后,根据所述搜索索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。
一种用户生成内容UGC的标签数据的生成系统,包括:
数据获取模块,用于获取UGC数据;
初步筛选模块,用于对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;
初步语料模块,用于计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合;
扩展语料模块,用于进行扩展语料处理,包括对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则针对所述B个词集合,重复扩展语料处理;
标签确定模块,用于从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。
一种UGC的聚类系统,包括:
上述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
聚类模块,用于按照各目标UGC的标签数据,对目标UGC进行聚类。
一种搜索索引建立系统,包括:
上述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
索引建立模块,用于对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。
一种UGC搜索系统,包括:
上述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
索引建立模块,用于对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;
搜索模块,用于接收搜索词,根据所述搜索索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。
与现有技术相比,本发明先按照分词的词频从UGC数据中提取词表,从而对词进行初步筛选,然后对词表中的词进行聚类得到初步的词集合,再进行扩展得到扩展后的词集合,最后从扩展后的词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。由于该UGC标签数据是经过词频和聚类处理的,每个UGC标签数据可以有效地反应对应UGC的关键内容,因此用户在获取目标信息时,不必再像现有技术那样在海量的UGC信息中寻找有效的目标信息,而是可以根据所述UGC标签数据作为参考,直接锁定感兴趣的标签数据所对应的UGC,因此本发明可以提高用户获取有效目标信息的获取效率,降低获取成本。同时,可以减少在此过程中需要的人机交互次数,因此可以节省大量的机器资源和网络带宽资源。
附图说明
图1为本发明所述UGC标签数据的生成方法的一种流程图;
图2为一种UGC聚类展示的界面示意图;
图3所示为该UGC标签数据的生成系统的一种组成示意图;
图4为该UGC聚类系统的一种组成示意图;
图5为本发明所述UGC聚类系统的又一种组成示意图;
图6为本发明所述搜索索引建立系统的一种组成示意图;
图7为本发明所述UGC搜索系统的一种组成示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
本发明的处理对象为UGC数据,所述UGC可以是任何用户生成内容,例如微博、BBS评论、博客、社交网站的影评等等。本发明可以对大量的UGC数据进行分析,得到每条UGC内容的标签数据,该标签数据可以用来区分UGC的关键内容,也可以用来建立索引,以及用于进行UGC搜索。互联网上的UGC条数众多,那么若待处理的UGC为二条以上,则针对每条UGC,分别执行本发明的UGC标签数据的生成方法。
图1为本发明所述UGC标签数据的生成方法的一种流程图。参见图1,该方法包括:
步骤101、获取UGC数据。
例如对于影评网站的影评和微博网站的微博等UGC,可以通过影评网站的数据获取接口以及微博网站的数据获取接口获取(业界也称为抓取)影评数据和微博数据。
在获取UGC数据的过程中,还可以根据目标UGC的特点,对所获取的UGC进行过滤,即根据预先设置的UGC特点对所获取的UGC数据进行过滤,只保留符合所述UGC特点的UGC数据。例如在一种实施场景中,希望从微博中获取影评内容,则需要预先设定影评内容的数据特点,从微博网站获取微博数据后,需要根据预先设定的数据特点对微博进行过滤,只保留含有影评的微博数据。
在获取UGC数据之后,可以针对每条UGC,分别执行后续步骤102至105,即生成每条UGC的标签数据。当然,也可以针对某类UGC的集合,执行后续步骤102至105,得到这类UGC集合的标签数据。
步骤102、对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表。
本步骤中,首先对所述UGC数据的全量数据进行分词,然后应用词频-逆向文件频率(TF-IDF,erm frequency–inverse document frequency)方法计算各词的词频,选择词频排在前N位的词组成词表。
所述TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其中词频(TF,term frequency)指的是某一个给定的词语在该文件中出现的次数,这个数字通常会被归一化,以防止它偏向长的文件。逆向文件频率(IDF,inverse document frequency)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
对于经过过滤的UGC数据,需要说明的是,这里IDF的计算不能使用过滤后的UGC数据,而要使用其它不相干的数据集(如包括被过滤掉的UGC的全量UGC数据)进行IDF计算。例如如果对微博中的影评生成标签数据,则本步骤中IDF的计算不能使用影评数据,而要使用其它不相干的数据集(如全量微博数据)做计算。
步骤103、计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合。
本步骤的聚类效果对本发明的整体效果有着直接的影响。
例如对于影评的词聚类,需要考虑UGC在表达的意义上的相近,比如剧情、情节、剧本等。关于语义上的相近,如何确定两个词,尤其是两个中文词,之间的距离,对发明的进一步效果具有很直接的影响。
因此,在一种优选的实施例中,对于中文UGC,本发明采用中英文的对应关系来确定两个中文词之间的词距离,经过实验验证,该实施例达到的聚类效果是较好的。具体计算某两个中文词A和B之间的词距离的方法如下:
针对两两词A和B,
首先,确定A,B经过翻译得到的外文词的词距离distance1(A,B)。所述的外文词为相对于A、B本身语言而言,例如A、B为中文,则一种典型的外文词为英文。此处可以是确定A,B经过翻译得到的英文词的词距离distance1(A,B)。
具体的,可以利用如下公式(1)确定A,B两个词(如中文词)经过翻译成外文词(如英文词)得到的词距离distance1(A,B),
公式(1):
distance1(A,B)=
English(A)∩English(B)/min(Num(English(A)),Num(English(B)))
其中,English(A)代表A被翻译成外文的外文词汇集合,Num(English(A))表示集合English(A)中的元素个数;English(B)代表B被翻译成外文的外文词汇集合,Num(English(B))表示集合English(B)中的元素个数;
其次,采用单词连续袋(continuous bag of words)模型计算得到词A与词B之间的词距离矩阵distance2(A,B);
此处可以直接利用现有的工具word2vec(word to vector)来计算distance2(A,B),所述word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现,可以得到distance2(A,B)。
最后,对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和B之间的词距离distance(A,B)。
所述对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和B之间的词距离distance(A,B),可以有多种归一处理方式。例如一种典型的归一处理方式具体包括:
利用如下公式(2)计算该A和B之间的词距离distance(A,B);
distance(A,B)=α*distance1(A,B)+β*distance2(A,B)
其中,α和β为权重系数,α+β=1。
当然,也可以利用其它的归一处理方式,例如先求distance1(A,B)+distance2(A,B),再对得到的和值进行归一化处理,得到A和B之间的词距离distance(A,B)。
经过上述计算,可以得到所述词表中的所有词的两两之间的词距离,之后按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合。
在一种优选实施例中,此处可以采用K-medoids聚类方法,按照所述两两之间的词距离,对所述词表中的词进行聚类,并通过调整聚类参数使其达到最优效果。
通过以上操作后,就得到了N个词集合,这N个词集合相当于一个初步的语料库。
在一种优选实施例中,所述在聚类后得到N个词集合之后,进一步包括:过滤掉该N个词集合中的单元素词集合,即只有一个词的集合,得到N’个词集合,后续步骤中将N替换为N’。
步骤104、本步骤104是进行扩展语料处理,具体包括:对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则对所述B个词集合重复执行本扩展语料处理,即针对所述B个词集合重复执行本步骤104,直到B–N小于指定值,跳到下一步。
在一种优选实施例中,本步骤中所述对所述各词集合中的每个词进行扩展,具体方法包括:假设所述各词集合中的词的原始语言类型为X,例如为中文,目标语言类型为Y,例如为英语,则对所述各词集合中的每个词进行从X到Y的翻译操作,得到一组词,再对该组词中的每一个词进行反向翻译操作,即从Y到X的翻译操作,得到的词组成扩展后的词表。
例如,针对其中的某个中文词A,首先可以翻译成英文的EA1,EA2…EAn,而这些英文词又可以翻译成中文的EA11,EA12…EA1n,EA21,EA22,…,EA2n,EAn1,…,EAnn,所以最终A就可以扩展为A,EA11,EA12…EA1n,EA21,EA22,…,EA2n,EAn1,…,EAnn这个集合。当所述词集合中所有的词都进行这种翻译以及反向翻译处理后,得到了一个词语数量更多,表达方式更加丰富的词表,这种经过扩展后的词表相当于是扩展后的语料库。
本步骤中,在得到扩展后词表后,再次计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合。此处计算两两词之间的词距离的方法以及对词进行聚类的方法可以参考步骤103所述的方法,此处不再赘述。
在一种优选实施例中,所述在聚类后得到B个词集合之后,还可以进一步包括:过滤掉该B个词集合中的单元素词集合,得到B’个词集合,后续步骤中将B替换为B’。
本步骤中,最后要判断B–N是否小于指定值,就是为了判断扩展后的词集合的个数和扩展前词集合的个数的变化量是否趋于变小,如果变化量变小到低于指定值则会判定扩展处理相对收敛,则终止本步骤的重复处理。所述判断B–N是否小于指定值,也可以替换为判断(B–N)/N是否小于某个指定值,如果小于则跳到下一步,否则重复本步骤104。
步骤105、从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。
所述指定类型一般分为属性词和情感词。在上一步骤输出的B个词集合中,每个词集合就是一个聚类,比如“音乐”“音效”等就应该是同一类;“剧情”、“情节”等是又一类,这些词的类型属于属性词;同样所述B个词集合中也可以包含一些情感词,比如“不错”“经常”等,这些词的类型属于情感词,情感词也包含肯定和否定意义。
本步骤中,具体可以为:从B个词集合中识别出属性词集合,例如此处识别出了k个属性词集合,具体的识别方法可以根据现有的属性词语义分析方法进行识别。然后再生成所述属性词集合对应的情感词集合,一般来讲情感词集合包括肯定和否定的意思,此处针对每个属性词集合都同时生成其肯定的情感词集合和否定的情感词集合;例如:对应的肯定的情感词集合包括“不错”、“很好”、“非常棒”等,对应的否定的情感词集合包括“不怎样”、“太差”、“不好”等。最后在当前处理的UGC内容中(即本方法的处理对象,也即步骤102中的分词对象),查询所述属性词集合中的每个词与对应生成的情感词集合中的每个词两两结合在当前处理的UGC内容中共同出现的比率,得到出现比率在前指定位的属性词和对应的情感词,根据所得到的属性词和对应的情感词生成本条UGC的标签数据,例如可以直接将得到的属性词加对应的情感词作为当前处理的UGC的标签数据,例如标签数据为“剧情不错”、“情节很好”等。也可以所得到的属性词和对应的情感词作为下位词语,用更加上位的词语作为本UGC的标签数据,如“***演的不错”、“演员阵容强大”等,可以用“表演精彩”作为对应上位的标签。
在进一步的实施例中,如果当前处理的UGC的内容较多,是由多句文字组成,那么在该实施例中可以在获取UGC数据后,按照该UGC中的分隔标记(如标点符号和空格等)将所述UGC切分为一个以上的子句,针对每个子句分别执行本方法的后续步骤(即执行上述步骤102至105)。另外,由于子句中还可以是表示情感的句式,如否定句疑问句,那么本发明还可以进一步包括,按照语义分析方法确定子句的情感句式,根据其情感句式和上述步骤105得到的属性词和情感词综合给该子句生成对应的UGC标签数据。
与现有技术相比,本发明先按照分词的词频从UGC数据中提取词表,从而对词进行初步筛选,然后对词表中的词进行聚类得到初步的词集合,再进行扩展得到扩展后的词集合,最后从扩展后的词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。由于该UGC标签数据是经过词频和聚类处理的,每个UGC标签数据可以有效地反应对应UGC的关键内容,因此用户在获取目标信息时,不必再像现有技术那样在海量的UGC信息中寻找有效的目标信息,而是可以根据所述UGC标签数据作为参考,直接锁定感兴趣的标签数据所对应的UGC,因此本发明可以提高用户获取有效目标信息的获取效率,降低获取成本。同时,可以减少在此过程中需要的人机交互次数,因此可以节省大量的机器资源和网络带宽资源。
在本发明上述UGC的标签数据的生成方法的基础上,本发明还公开了一种UGC的聚类方法,包括:
针对二条以上的目标UGC,所述目标UGC可以是微博网站中的全量微博,评论网站中的全量评论等,采用如上述UGC标签数据的生成方法的任一种实施例,生成各目标UGC的标签数据;然后按照各目标UGC的标签数据,对目标UGC进行聚类。例如“表演精彩”的归为一类、“剧情幽默”的归为一类,等等。
在所述聚类方法的进一步实施例中,还可以进一步包括:展示各类UGC的标签数据;在接收到对某类UGC的标签数据的触发指令后,显示该类UGC中指定数量的UGC内容。
如图2为一种UGC聚类展示的界面示意图。参见图2,虚线框201部分展示了各类UGC的标签数据,如“表演精彩”、“情节幽默”等都是具体的标签。如果用户点击了其中某个标签,则会接收到对该UGC标签的触发指令,那么会在下面的界面中显示该类UGC中指定数量的UGC内容。如用户点击了“表演精彩”的标签,则在下面的界面中会自动显示出该标签所聚类的UGC内容,其中包括多条UGC内容,每条UGC内容中都包括具体的体现“表演精彩”这一标签的文字内容,如图中具有虚线下划线的文字内容。
通过本发明的所述UGC的聚类方法,用户可以直接查看目标UGC的标签,并且还可以进一步统计每种标签对应的本类UGC的数量,将数量显示在该标签的旁边,如图2所示各标签的右边括号中的数字。用户可以根据这些信息直接判断某个具体的信息目标的有效信息是什么,例如对于《不二神探》这一电影评论来讲,通过所述标签及其对应的数量,来查看大众对该电影的有效评价,因此可以进一步提高用户获取有效目标信息的获取效率,降低获取成本。同时,可以减少在此过程中需要的人机交互次数,因此可以节省大量的机器资源和网络带宽资源。
在本发明上述UGC的标签数据的生成方法的基础上,本发明还公开了一种搜索索引建立方法,包括:
针对二条以上的目标UGC,所述目标UGC可以是微博网站中的全量微博,评论网站中的全量评论等,采用如上述UGC标签数据的生成方法的任一种实施例,生成各目标UGC的标签数据;对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。
进一步的,本发明还公开了一种UGC搜索方法,包括:
针对二条以上的目标UGC,所述目标UGC可以是微博网站中的全量微博,评论网站中的全量评论等,采用如上述UGC标签数据的生成方法的任一种实施例,生成各目标UGC的标签数据;对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;搜索引擎接收搜索词后,根据所述搜索索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。
通过上述搜索索引建立方法和搜索方法,不必建立UGC网站系统中全量信息的索引,只需要建立其标签数据的索引,用户输入搜索词之后,在所述标签数据的索引中进行搜索,可以大大提高搜索速度,同时节省了索引数据的空间。
与上述方法对应,本发明还公开了一种用户生成内容UGC的标签数据的生成系统。图3所示为该UGC标签数据的生成系统的一种组成示意图。参见图3,该生成系统300包括:
数据获取模块301,用于获取UGC数据;
初步筛选模块302,用于对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;
初步语料模块303,用于计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合;
扩展语料模块304,用于进行扩展语料处理,包括对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则针对所述B个词集合,重复本扩展语料处理;
标签确定模块305,用于从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。
在一种优选实施例中,所述初步语料模块303进一步用于:在聚类后得到N个词集合之后,进一步过滤掉该N个词集合中的单元素词集合,得到N’个词集合,将N替换为N’;所述扩展语料模块304进一步用于:在聚类后得到B个词集合之后,进一步过滤掉该B个词集合中的单元素词集合,得到B’个词集合,将B替换为B’。
所述初步语料模块303和扩展语料模块304计算所述词表中的词的两两之间的词距离,具体方式为:
针对两两词A和B,
首先,确定A,B经过翻译得到的外文词的词距离distance1(A,B)。所述的外文词为相对于A、B本身语言而言,例如A、B为中文,则一种典型的外文词为英文。此处可以是确定A,B经过翻译得到的英文词的词距离distance1(A,B)。
具体的,可以利用如下公式(1)确定A,B两个词(如中文词)经过翻译成外文词(如英文词)得到的词距离distance1(A,B),
公式(1):
distance1(A,B)=
English(A)∩English(B)/min(Num(English(A)),Num(English(B)))
其中,English(A)代表A被翻译成外文的外文词汇集合,Num(English(A))表示集合English(A)中的元素个数;English(B)代表B被翻译成外文的外文词汇集合,Num(English(B))表示集合English(B)中的元素个数;
其次,采用单词连续袋(continuous bag of words)模型计算得到词A与词B之间的词距离矩阵distance2(A,B);
最后,对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和B之间的词距离distance(A,B)。
所述对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和B之间的词距离distance(A,B),可以有多种归一处理方式。例如一种典型的归一处理方式具体包括:
利用如下公式(2)计算该A和B之间的词距离distance(A,B);
distance(A,B)=α*distance1(A,B)+β*distance2(A,B)
其中,α和β为权重系数,α+β=1。
当然,也可以利用其它的归一处理方式,例如先求distance1(A,B)+distance2(A,B),再对得到的和值进行归一化处理,得到A和B之间的词距离distance(A,B)。
在一种优选实施例中,所述扩展语料模块304具体用于:对所述各词集合中的每个词进行从原始语言类型X到目标语言类型Y(例如从中文到英文)的翻译操作,得到一组词,再对该组词中的每一个词进行反向翻译操作(例如从英文到中文),得到的词组成扩展后的词表。
在一种优选实施例中,所述标签确定模块305具体用于:从所述B个词集合中识别出属性词集合,生成所述属性词集合对应的情感词集合,查询所述属性词集合中的每个词与对应生成的情感词集合中的每个词两两结合在当前处理的UGC内容中共同出现的比率,得到出现比率在前指定位的属性词和对应的情感词,按照所得到的属性词和对应的情感词生成当前处理的UGC的标签数据。
本发明还公开了一种UGC的聚类系统,如图4为该UGC聚类系统的一种组成示意图,该聚类系统400包括:
如上述UGC标签数据的生成系统的任一种实施例300,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
聚类模块401,用于按照各目标UGC的标签数据,对目标UGC进行聚类。
在该聚类系统的一种优选实施例中,如图5所示,该聚类系统进一步包括:
标签展示模块402,用于展示各类UGC的标签数据;
UGC内容展示模块403,用于在接收到对某类UGC的标签数据的触发指令后,显示该类UGC中指定数量的UGC内容。
本发明还公开了一种搜索索引建立系统,如图6所示,该搜索索引建立系统600包括:
如上述UGC标签数据的生成系统的任一种实施例300,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
索引建立模块601,用于对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。
本发明还公开了一种UGC搜索系统,如图7所示,该UGC搜索系统700包括:
如上述UGC标签数据的生成系统的任一种实施例300,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
索引建立模块601,用于对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;
搜索模块602,用于接收搜索词,根据所述搜索索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点,或者也可以分布到多个终端或网络节点上。
另外,本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本发明还公开了一种存储介质,其中存储有数据处理程序,该数据处理程序用于执行本发明上述方法的任何一种实施例。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (21)

1.一种用户生成内容UGC的标签数据的生成方法,其特征在于,包括:
获取UGC数据;
对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;
计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合;
进行扩展语料处理,包括:对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则对所述B个词集合重复执行扩展语料处理;
从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据;
其中,所述从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据,包括:
从所述B个词集合中识别出属性词集合,生成所述属性词集合对应的情感词集合,查询所述属性词集合中的每个词与对应生成的情感词集合中的每个词两两结合在当前处理的UGC内容中共同出现的比率,得到出现比率在前指定位的属性词和对应的情感词,按照所得到的属性词和对应的情感词生成当前处理的UGC的标签数据。
2.根据权利要求1所述的方法,其特征在于,所述计算所述词表中的词的两两之间的词距离,包括:
针对两词A和B,确定A,B经过翻译得到的外文词的词距离distance1(A,B);
采用单词连续袋模型计算得到词A与词B之间的向量空间上的相似度distance2(A,B);
对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和B之间的词距离distance(A,B)。
3.根据权利要求2所述的方法,其特征在于,所述确定A,B经过翻译得到的外文词的词距离distance1(A,B),包括:
利用以下公式(1)计算所述distance1(A,B):
distance1(A,B)=
Num(English(A)∩English(B))/min(Num(English(A)),Num(English(B))) (1)
其中,English(A)代表A被翻译成外文的外文词汇集合,Num(English(A))表示集合English(A)中的元素个数;English(B)代表B被翻译成外文的外文词汇集合,Num(English(B))表示集合English(B)中的元素个数,Num(English(A)∩English(B))表示A被翻译成外文的外文词汇集合与B被翻译成外文的外文词汇集合的交集中的元素个数。
4.根据权利要求2所述的方法,其特征在于,所述对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和B之间的词距离distance(A,B),包括:
利用如下公式(2)计算该A和B之间的词距离distance(A,B);
distance(A,B)=α*distance1(A,B)+β*distance2(A,B) (2)
其中,α和β为权重系数,α+β=1。
5.根据权利要求1所述的方法,其特征在于,
所述在聚类后得到N个词集合之后,进一步包括:过滤掉该N个词集合中的单元素词集合,得到N’个词集合,后续步骤中将N替换为N’;
所述在聚类后得到B个词集合之后,进一步包括:过滤掉该B个词集合中的单元素词集合,得到B’个词集合,后续步骤中将B替换为B’。
6.根据权利要求1所述的方法,其特征在于,所述对所述各词集合中的每个词进行扩展,得到扩展后词表,包括:
对所述各词集合中的每个词进行从原始语言类型X到目标语言类型Y的翻译操作,得到一组词,再对该组词中的每一个词进行反向翻译操作,得到的词组成扩展后的词表。
7.根据权利要求1所述的方法,其特征在于,所述按照所述两两之间的词距离对该词表中的词进行聚类,包括:采用K-medoids聚类方法,按照所述两两之间的词距离,对所述词表中的词进行聚类。
8.根据权利要求1所述的方法,其特征在于,在获取所述UGC数据后,对所述UGC数据进行分词之前,包括:根据预先设置的UGC特点对所获取的UGC数据进行过滤,只保留符合所述UGC特点的UGC数据。
9.根据权利要求1所述的方法,其特征在于,若待处理的UGC为二条以上,则针对每条UGC,分别执行本方法。
10.根据权利要求1所述的方法,其特征在于,该方法在获取UGC数据之后,包括:按照该UGC中的分隔标记将所述UGC切分为一个以上的子句,针对每个子句分别执行本方法的后续步骤。
11.一种UGC的聚类方法,其特征在于,包括:
针对二条以上的目标UGC,采用如权利要求1至10任一项所述的UGC的标签数据的生成方法,生成各目标UGC的标签数据;
按照各目标UGC的标签数据,对目标UGC进行聚类。
12.根据权利要求11所述的聚类方法,其特征在于,包括:
展示各类UGC的标签数据;
在接收到对某类UGC的标签数据的触发指令后,显示该类UGC中指定数量的UGC内容。
13.一种搜索索引建立方法,其特征在于,包括:
针对二条以上的目标UGC,采用如权利要求1至10任一项所述的UGC的标签数据的生成方法,生成各目标UGC的标签数据;
对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。
14.一种UGC搜索方法,其特征在于,包括:
针对二条以上的目标UGC,采用如权利要求1至10任一项所述的UGC的标签数据的生成方法,生成各目标UGC的标签数据;
对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;
搜索引擎接收搜索词后,根据所述搜索索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。
15.一种用户生成内容UGC的标签数据的生成系统,其特征在于,包括:
数据获取模块,用于获取UGC数据;
初步筛选模块,用于对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;
初步语料模块,用于计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合;
扩展语料模块,用于进行扩展语料处理,包括对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则针对所述B个词集合,重复扩展语料处理;
标签确定模块,用于从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据,从所述B个词集合中识别出属性词集合,生成所述属性词集合对应的情感词集合,查询所述属性词集合中的每个词与对应生成的情感词集合中的每个词两两结合在当前处理的UGC内容中共同出现的比率,得到出现比率在前指定位的属性词和对应的情感词,按照所得到的属性词和对应的情感词生成当前处理的UGC的标签数据。
16.根据权利要求15所述的生成系统,其特征在于,
所述初步语料模块进一步用于:在聚类后得到N个词集合之后,进一步过滤掉该N个词集合中的单元素词集合,得到N’个词集合,将N替换为N’;
所述扩展语料模块进一步用于:在聚类后得到B个词集合之后,进一步过滤掉该B个词集合中的单元素词集合,得到B’个词集合,将B替换为B’。
17.根据权利要求15所述的生成系统,其特征在于,所述扩展语料模块用于:对所述各词集合中的每个词进行从原始语言类型X到目标语言类型Y的翻译操作,得到一组词,再对该组词中的每一个词进行反向翻译操作,得到的词组成扩展后的词表。
18.一种UGC的聚类系统,其特征在于,包括:
如权利要求15至17任一项所述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
聚类模块,用于按照各目标UGC的标签数据,对目标UGC进行聚类。
19.根据权利要求18所述的聚类系统,其特征在于,该系统包括:
标签展示模块,用于展示各类UGC的标签数据;
UGC内容展示模块,用于在接收到对某类UGC的标签数据的触发指令后,显示该类UGC中指定数量的UGC内容。
20.一种搜索索引建立系统,其特征在于,包括:
如权利要求15至17任一项所述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
索引建立模块,用于对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。
21.一种UGC搜索系统,其特征在于,包括:
如权利要求15至17任一项所述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成各目标UGC的标签数据;
索引建立模块,用于对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;
搜索模块,用于接收搜索词,根据所述搜索索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。
CN201410135781.5A 2014-04-04 2014-04-04 用户生成内容标签数据生成方法、装置及相关方法和装置 Active CN104978332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410135781.5A CN104978332B (zh) 2014-04-04 2014-04-04 用户生成内容标签数据生成方法、装置及相关方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410135781.5A CN104978332B (zh) 2014-04-04 2014-04-04 用户生成内容标签数据生成方法、装置及相关方法和装置

Publications (2)

Publication Number Publication Date
CN104978332A CN104978332A (zh) 2015-10-14
CN104978332B true CN104978332B (zh) 2019-06-14

Family

ID=54274847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410135781.5A Active CN104978332B (zh) 2014-04-04 2014-04-04 用户生成内容标签数据生成方法、装置及相关方法和装置

Country Status (1)

Country Link
CN (1) CN104978332B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893478B (zh) * 2016-03-29 2019-10-29 广州华多网络科技有限公司 一种标签提取方法及设备
CN108108345B (zh) * 2016-11-25 2021-08-10 南京尚网网络科技有限公司 用于确定新闻主题的方法与设备
WO2018113673A1 (zh) * 2016-12-23 2018-06-28 北京奇虎科技有限公司 针对综艺类query的搜索结果的推送方法及装置
CN106934069B (zh) * 2017-04-24 2021-01-01 中国工商银行股份有限公司 数据检索方法及系统
CN107798091B (zh) * 2017-10-23 2021-05-18 金蝶软件(中国)有限公司 一种数据爬取的方法及其相关设备
CN109801119B (zh) * 2017-11-15 2022-04-15 阿里巴巴集团控股有限公司 界面展示、信息提供、用户行为内容信息处理方法及设备
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN111159551B (zh) * 2019-12-30 2023-11-03 汉海信息技术(上海)有限公司 用户生成内容的显示方法、装置及计算机设备
CN112597409A (zh) * 2021-03-04 2021-04-02 蚂蚁智信(杭州)信息技术有限公司 一种标签的展示方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576907A (zh) * 2009-03-03 2009-11-11 杜小勇 一种产品参数获取系统和方法
CN101694657A (zh) * 2009-09-18 2010-04-14 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
JP4874828B2 (ja) * 2007-02-02 2012-02-15 ヤフー株式会社 コミュニティ抽出による検索用インデックス作成方法およびその装置
CN102572608A (zh) * 2012-03-01 2012-07-11 盛乐信息技术(上海)有限公司 音视频聚类方法及系统
CN102622451A (zh) * 2012-04-16 2012-08-01 上海交通大学 电视节目标签自动生成系统
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN103593359A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 一种基于行业的文本负面倾向判断方法
CN103699573A (zh) * 2013-11-28 2014-04-02 微梦创科网络科技(中国)有限公司 社交平台的ugc标签聚类方法和装置
CN103699569A (zh) * 2013-09-06 2014-04-02 安徽科大讯飞信息科技股份有限公司 一种索引结构和索引方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4874828B2 (ja) * 2007-02-02 2012-02-15 ヤフー株式会社 コミュニティ抽出による検索用インデックス作成方法およびその装置
CN101576907A (zh) * 2009-03-03 2009-11-11 杜小勇 一种产品参数获取系统和方法
CN101694657A (zh) * 2009-09-18 2010-04-14 浙江大学 面向Web2.0标签图片共享空间的图片检索聚类方法
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN102572608A (zh) * 2012-03-01 2012-07-11 盛乐信息技术(上海)有限公司 音视频聚类方法及系统
CN102622451A (zh) * 2012-04-16 2012-08-01 上海交通大学 电视节目标签自动生成系统
CN103593359A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 一种基于行业的文本负面倾向判断方法
CN103559233A (zh) * 2012-10-29 2014-02-05 中国人民解放军国防科学技术大学 微博中网络新词抽取方法和微博情感分析方法及系统
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103699569A (zh) * 2013-09-06 2014-04-02 安徽科大讯飞信息科技股份有限公司 一种索引结构和索引方法
CN103699573A (zh) * 2013-11-28 2014-04-02 微梦创科网络科技(中国)有限公司 社交平台的ugc标签聚类方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
" 面向微博用户的标签自动生成技术研究";谢毓彬;《万方数据知识服务平台》;20121225;全文
"An online clustering algorithm for Chinese web snippets based on Generalized Suffix Array";Zhang Hui et al.;《2009 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery》;20091201;全文
"Web检索中的查询扩展及结果聚类技术研究";范丹;《万方数据知识服务平台》;20110215;全文
"利用word2vec对中文词进行聚类的研究";郑文超 等;《软件》;20140216;第34卷(第12期);全文

Also Published As

Publication number Publication date
CN104978332A (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
US11475319B2 (en) Extracting facts from unstructured information
Singh et al. Sentiment analysis of movie reviews: A new feature-based heuristic for aspect-level sentiment classification
EP3575984A1 (en) Artificial intelligence based-document processing
US10095690B2 (en) Automated ontology building
CN103324665B (zh) 一种基于微博的热点信息提取的方法和装置
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
US10713291B2 (en) Electronic document generation using data from disparate sources
CN103049435A (zh) 文本细粒度情感分析方法及装置
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
Hou et al. Newsminer: Multifaceted news analysis for event search
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
KR20160042896A (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110334268B (zh) 一种区块链项目热词生成方法以及装置
US11887011B2 (en) Schema augmentation system for exploratory research
Chinsha et al. Aspect based opinion mining from restaurant reviews
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
WO2015084757A1 (en) Systems and methods for processing data stored in a database
Zhang et al. An approach of service discovery based on service goal clustering
Das et al. Sentiment analysis: what is the end user's requirement?
Yang et al. Tour: Dynamic topic and sentiment analysis of user reviews for assisting app release
Campbell et al. Content+ context networks for user classification in twitter
Zhao et al. Towards events detection from microblog messages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant