CN102043791A - 分词评价方法及装置 - Google Patents

分词评价方法及装置 Download PDF

Info

Publication number
CN102043791A
CN102043791A CN2009101811243A CN200910181124A CN102043791A CN 102043791 A CN102043791 A CN 102043791A CN 2009101811243 A CN2009101811243 A CN 2009101811243A CN 200910181124 A CN200910181124 A CN 200910181124A CN 102043791 A CN102043791 A CN 102043791A
Authority
CN
China
Prior art keywords
word
test
segmentation result
testing material
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009101811243A
Other languages
English (en)
Other versions
CN102043791B (zh
Inventor
方高林
郑全战
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN200910181124.3A priority Critical patent/CN102043791B/zh
Publication of CN102043791A publication Critical patent/CN102043791A/zh
Application granted granted Critical
Publication of CN102043791B publication Critical patent/CN102043791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种分词评价方法及装置,属于信息处理领域。所述方法包括:从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。所述装置包括:构建模块、分词模块、比对模块和评价模块。本发明通过从互联网中获取测试词语的测试语料,构建测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,进行分词评价,能够更好地评价面向互联网应用的分词性能。

Description

分词评价方法及装置
技术领域
本发明涉及信息处理领域,特别涉及一种分词评价方法及装置。
背景技术
随着互联网的普遍应用,面向互联网进行搜索逐渐成为了人们获取信息的主要方式。分词技术作为搜索引擎中的一项重要的基础技术,它的好坏将直接影响搜索质量的好坏。为了提高分词的质量,人们设计出了各种各样的分词程序。如何对这些分词程序的分词性能进行评价,一直是一个比较困难的问题。
现有技术采用的是根据分词的准确率和召回率进行分词评价的方式,为了计算分词的准确率和召回率,需要有事先标注的比较大规模的语料库,并在此基础上进行统计计算,最后根据计算结果对分词的好坏进行评价。
在实现本发明的过程中,发明人发现现有技术至少存在以下缺点:
现有的分词评价方式需要有事先标注的语料库才能实现自动评价,而目前已有的比较大规模的语料库均需要人工进行标注。另外,由于现有语料库中的语料和目前互联网中涉及的网络语料具有一定的差异性,从而导致有些分词程序即使根据现有语料库计算出较高的准确率和召回率,但将其应用到面向互联网的搜索引擎中时,分词性能仍然很差。
发明内容
为了实现对分词性能的自动评价,并更加有效地评价面向互联网应用的分词性能,本发明实施例提供了一种分词评价方法及装置。所述技术方案如下:
一方面,提供了一种分词评价方法,所述方法包括:
从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;
以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;
将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。
其中,所述从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集,具体包括:
将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所述每个测试词语的搜索结果;
在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语的测试语料集。
所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括:
统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数;
根据所述统计出的个数,对所述待评价的分词程序进行评价。
或者,所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括:
在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数;
根据所述统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。
另一方面,提供了一种分词评价装置,所述装置包括:
构建模块,用于从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;
分词模块,用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;
比对模块,用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对;
评价模块,用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。
其中,所述构建模块,具体包括:
搜索单元,具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所述每个测试词语的搜索结果;
构建单元,具体用于在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语的测试语料集。
具体地,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数;根据所述统计出的个数,对所述待评价的分词程序进行评价。
或者,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数;根据所述统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。
本发明实施例提供的技术方案的有益效果是:
通过从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,对分词性能进行评价,不仅能够在无需人工参与的情况下实现自动评价,还能够更好地评价面向互联网应用的分词性能,使分词评价更具可靠性,适合应用于大规模的数据测试。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的分词评价方法流程图;
图2是本发明实施例二提供的分词评价方法流程图;
图3是本发明实施例三提供的分词评价装置结构示意图;
图4是本发明实施例三提供的分词评价装置中的构建模块结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
参见图1,本实施例提供了一种分词评价方法,该方法流程如下:
101:从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料集;
102:以待评价的分词程序对每个测试词语及其测试语料集进行分词处理;
103:将每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对待评价的分词程序进行评价。
综上所述,本实施例提供的方法,通过从互联网中获取测试词语的测试语料,构建测试词语的测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,进行分词评价,能够在无需人工参与的情况下,更好地评价面向互联网应用的分词性能,使分词评价更具可靠性,适合应用于大规模的数据测试。
实施例二
本实施例提供了一种分词评价方法,该方法针对各种各样的分词程序,提供了一种面向互联网应用的分词性能评价方法,参见图2,方法流程具体如下:
201:从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料集;
针对该步骤,为了使测试词语更具代表性,更能体现出分词性能,可以将网络中点击频率较高、比较热门的词语作为测试词语,还可以将古今中外的一些名人的人名作为测试词语,除此之外,还可以将一些具有代表性、确定性的词语作为测试词语,本实施例不对测试词语的内容及数量进行具体限定。
具体地,为了缩小获取的测试语料与网络语料之间的差异性,提供一种面向互联网应用的分词评价方法,本实施例以面向互联网的搜索引擎为例,将每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到每个测试词语的搜索结果;并在每个测试词语的搜索结果中提取有效的测试语料,构建每个测试词语的测试语料集。
对于每个测试词语,其搜索结果可能是成千上万的,搜索引擎一般会将最相关的、高质量的搜索结果显示在最前面,因此,为了提高获取测试语料的效率,提高获取的测试语料的质量,可以在显示靠前的多个搜索结果中提取有效的测试语料。
此处判断测试语料有效性的标准是以“。”、“?”、“!”等代表完整语句的符号作为分隔符,且该测试语料中包含其对应的测试词语,而不是另一个词语的一部分。例如,以测试词语“王维”为例,将其放入搜索引擎中进行搜索时,搜索结果可能会出现“上海社保案核心人物王维工受贿千万获死缓”的语料,测试词语“王维”作为该语料中词语“王维工”的一部分,因此,该语料不具备有效性。
优选地,再对提取的语料进行过滤,去除一些包含特殊字符的语料,同时去除上下文完全相同的语料,最终得到每个测试词语的测试语料集。
202:以待评价的分词程序对每个测试词语及其测试语料集进行分词处理;
其中,对每个测试词语的测试语料集进行分词处理,也就是对测试语料集中的每个测试语料进行分词处理,每个测试词语的测试语料集中包含一至多个测试语料。由于每种分词程序之间会存在不同程度的差异,即使是同一个测试语料或测试词语,在用不同的分词程序进行分词处理时,得到的分词结果也可能会不一样。即使是同一个测试词语,以相同的分词程序对其进行分词处理,和将其放入测试语料中再对其进行分词处理,得到的分词结果也可能不同,因此,一个测试语料集中可能存在多种分词结果。
例如,对于测试词语“ABC”,对其进行分词处理时,得到的分词结果可能是“A”、“B”、“C”;“AB”、“C”;“A”、“BC”;“ABC”等多种分词结果中的任一种。而将该测试词语放入测试语料中,即对该测试词语的测试语料集进行分词处理时,有可能会得到“A”、“B”、“C”;“AB”、“C”;“A”、“BC”;“ABC”等多种分词结果,由此可见,对单独的测试词语进行分词处理,和将其放入测试语料中再对其进行分词处理时,得到的分词结果有可能是不一样的,一个测试语料集中也可能存在多种分词结果。
203:将每个测试词语的分词结果与其测试语料集中的分词结果进行比对;
针对该步骤,通过将每个测试词语的分词结果与其测试语料集中的分词结果进行比对,可得出每个测试词语的分词结果,和将其放入测试语料中的分词结果是否一样,如果一样,则认为该测试词语的分词结果,和将其放入测试语料中的分词结果一致。测试语料集中的分词结果与测试词语的分词结果一致的个数越多,则说明该测试词语的分词结果与其测试语料集中的分词结果的一致性越高。
204:根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对该待评价的分词程序进行评价。
具体地,统计每个测试语料集中的分词结果的个数,并统计每个测试语料集中的分词结果与每个测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数,对待评价的分词程序进行评价。
例如,将每个测试词语的分词结果与其测试语料集中的分词结果的一致性定义为“一致性指标”,表示为:
Figure B2009101811243D0000061
如果该“一致性指标”越高,则认为该待评价的分词程序的分词性能越好。其中,PNi表示收集的所有测试词语中的第i个测试词语的分词结果,CPNi表示第i个测试词语在其测试语料集的不同测试语料中的分词结果,Num表示个数,K表示收集的所有测试词语的个数。该“一致性指标”表明,如果测试词语的分词结果和该测试词语在其测试语料集中的分词结果一致的个数越多,则Num(CPNi=PNi)就越大,这样“一致性指标”就越高。
以所有测试词语的个数为2(K=2),测试词语分别为“ABC”和“DE”,每个测试词语在其测试语料集中出现的次数为3,即每个测试词语的测试语料集中均有3个测试语料为例。对于测试词语“ABC”,在用待评价的分词程序对其进行分词处理后,得到的分词结果为“ABC”,而以相同待评价的分词程序对其测试语料集进行分词处理时,由于该测试词语有3个测试语料,则对应的分词结果的个数为3,即Num(CPNi)=3,在这3个分词结果中,设只有一个分词结果为“ABC”,与该测试词语的分词结果一致,即Num(CPNi=PNi)=1,则对于该测试词语,
Figure B2009101811243D0000071
对于测试词语“DE”,在以相同待评价的分词程序对其进行分词处理后,得到的分词结果为“D”“E”,而对其测试语料集进行分词处理时,由于该测试词语有3个测试语料,同样对应的分词结果的个数也为3,即Num(CPNi)=3,在这3个分词结果中,只得到的“D”“E”一种分词结果,即Num(CPNi=PNi)=3,则
Figure B2009101811243D0000072
则针对该待评价的分词程序,得到的“一致性指标”为:
Figure B2009101811243D0000073
进一步地,“一致性指标”还可以不包括测试词语的总个数,即将“一致性指标”定义为:
Figure B2009101811243D0000074
则对于上述的例子,以该计算方式得到的“一致性指标”为:
Figure B2009101811243D0000075
本实施例不对“一致性指标”的计算形式进行具体限定,为了使评价的标准统一,更具公平性,在对每个分词程序进行评价时,保证采用相同的计算形式计算即可。
可选地,根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对该待评价的分词程序进行评价时,还可以在所有测试语料集中,统计测试语料集中的所有分词结果均与测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数,及所有测试词语的个数,对待评价的分词程序进行评价。
例如,测试词语与其测试语料集中的所有分词结果完全一致的才被计算,此处将每个测试词语的分词结果与其测试语料集中的分词结果的一致性定义为“绝对一致性指标”,该“绝对一致性指标”=在测试语料集中的所有分词结果均与该测试语料集对应的测试词语的分词结果一致的个数/所有测试词语的个数,如果该“绝对一致性指标”越高,则认为该待评价的分词程序的分词性能越好。仍以上述例子为例,测试词语的个数为2,测试词语“DE”的分词结果为“D”“E”,而该测试词语的测试语料集中的所有分词结果均为“D”“E”,即与该测试词语的分词结果一致,则“绝对一致性指标”=1/2=0.5。
综上所述,本实施例提供的分词评价方法,在从互联网中获取测试语料,构建测试语料集后,根据测试词语的分词结果与其测试语料集中的分词结果的一致性,进行分词评价,无需人工参与,即可实现更好地评价面向互联网应用的分词性能,使分词评价更具可靠性,不仅弥补了目前分词语料库与网络语料具有差异性的缺点,还能有效改善使用分词应用如搜索引擎的搜索结果、分类、过滤的效果。
实施例三
参见图3,本实施例提供了一种分词评价装置,所述装置包括:
构建模块301,用于从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料集;
分词模块302,用于以待评价的分词程序对每个测试词语及其测试语料集进行分词处理;
比对模块303,用于将每个测试词语的分词结果与其测试语料集中的分词结果进行比对;
评价模块304,用于在将每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对待评价的分词程序进行评价。
其中,参见图4,构建模块301,具体包括:
搜索单元301a,具体用于将每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到每个测试词语的搜索结果;
构建单元301b,具体用于在每个测试词语的搜索结果中提取有效的测试语料,构建每个测试词语的测试语料集。
具体地,评价模块304,具体用于在将每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,统计每个测试语料集中的分词结果的个数,并统计每个测试语料集中的分词结果与每个测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数,对待评价的分词程序进行评价。
可选地,评价模块304,具体用于在将每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,在所有测试语料集中,统计测试语料集中的所有分词结果均与该测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数,及所有测试词语的个数,对待评价的分词程序进行评价。
综上所述,本实施例提供的分词评价装置,通过从互联网中获取测试词语的测试语料,构建测试词语的测试语料集,并根据测试词语与其测试语料集的分词结果的一致性,实现对分词性能的自动评价,无需人工参与,即可更好地评价面向互联网应用的分词性能,使分词评价更具可靠性,并适合应用于大规模的数据测试。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种分词评价方法,其特征在于,所述方法包括:
从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;
以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;
将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。
2.根据权利要求1所述的方法,其特征在于,所述从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集,具体包括:
将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所述每个测试词语的搜索结果;
在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语的测试语料集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括:
统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数;
根据所述统计出的个数,对所述待评价的分词程序进行评价。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括:
在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数;
根据统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。
5.一种分词评价装置,其特征在于,所述装置包括:
构建模块,用于从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;
分词模块,用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;
比对模块,用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对;
评价模块,用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。
6.根据权利要求5所述的装置,其特征在于,所述构建模块,具体包括:
搜索单元,具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所述每个测试词语的搜索结果;
构建单元,具体用于在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语的测试语料集。
7.根据权利要求5所述的装置,其特征在于,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数,对所述待评价的分词程序进行评价。
8.根据权利要求5所述的装置,其特征在于,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后,在所有测试语料集中,统计测试语料集的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。
CN200910181124.3A 2009-10-10 2009-10-10 分词评价方法及装置 Active CN102043791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910181124.3A CN102043791B (zh) 2009-10-10 2009-10-10 分词评价方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910181124.3A CN102043791B (zh) 2009-10-10 2009-10-10 分词评价方法及装置

Publications (2)

Publication Number Publication Date
CN102043791A true CN102043791A (zh) 2011-05-04
CN102043791B CN102043791B (zh) 2014-04-30

Family

ID=43909933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910181124.3A Active CN102043791B (zh) 2009-10-10 2009-10-10 分词评价方法及装置

Country Status (1)

Country Link
CN (1) CN102043791B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机系统有限公司 一种自动给文档添加标签的方法和装置
CN104462051A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 分词方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
CN101246473B (zh) * 2008-03-28 2010-09-15 腾讯科技(深圳)有限公司 一种分词系统的评测方法和一种分词评测系统
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198057A (zh) * 2012-01-05 2013-07-10 深圳市腾讯计算机系统有限公司 一种自动给文档添加标签的方法和装置
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
CN104462051A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 分词方法及装置
CN104462051B (zh) * 2013-09-12 2018-10-02 腾讯科技(深圳)有限公司 分词方法及装置

Also Published As

Publication number Publication date
CN102043791B (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN106980692B (zh) 一种基于微博特定事件的影响力计算方法
CN104317959B (zh) 基于社交平台的数据挖掘方法及装置
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN104717124A (zh) 一种好友推荐方法、装置及服务器
CN107562742A (zh) 一种图像数据处理方法及装置
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN111428049A (zh) 一种事件专题的生成方法、装置、设备和存储介质
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN101673266A (zh) 音频、视频内容的搜索方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN105550253B (zh) 一种类型关系的获取方法及装置
Rizzo et al. What Fresh Media Are You Looking For? Retrieving Media Items from Multiple Social Networks
CN105224593A (zh) 一种短暂上网事务中频繁共现账号挖掘方法
CN109978016A (zh) 一种网络用户身份识别方法
WO2015062377A1 (zh) 一种相似文本检测装置、方法以及应用
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN103279483B (zh) 一种面向微博客的话题流行范围评估方法及系统
CN104462061B (zh) 词语提取方法及提取装置
CN102955775A (zh) 基于上下文语义的外国人名自动识别控制方法
Sha et al. Matching user accounts across social networks based on users message
CN101673263B (zh) 视频内容的搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131105

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131105

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant