CN104035969A - 社交网络中的特征词库构建方法和系统 - Google Patents

社交网络中的特征词库构建方法和系统 Download PDF

Info

Publication number
CN104035969A
CN104035969A CN201410213845.9A CN201410213845A CN104035969A CN 104035969 A CN104035969 A CN 104035969A CN 201410213845 A CN201410213845 A CN 201410213845A CN 104035969 A CN104035969 A CN 104035969A
Authority
CN
China
Prior art keywords
feature
candidate word
field
feature candidate
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410213845.9A
Other languages
English (en)
Other versions
CN104035969B (zh
Inventor
李金奎
谌贻荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201410213845.9A priority Critical patent/CN104035969B/zh
Publication of CN104035969A publication Critical patent/CN104035969A/zh
Application granted granted Critical
Publication of CN104035969B publication Critical patent/CN104035969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

本发明公开了一种社交网络中的特征词库构建方法和系统,该方法包括:对于博文语料集中待构建的特征词库所属领域的每个种子博文,将该种子博文分词后统计该种子博文的分词结果中各词汇的频率信息,并根据频率信息从该种子博文的分词结果中选择该领域的特征候选词;对于该领域的每个特征候选词,统计博文语料集中的各领域的种子博文中包含该特征候选词的领域个数并作为该特征候选词的领域频率;针对每个特征候选词,根据其频率信息、领域频率,计算该特征候选词的特征得分;若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分分别作为该领域的领域特征词及其权重对应存储至该特征词库中。应用本发明,可提高构建的特征词库的准确度。

Description

社交网络中的特征词库构建方法和系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种社交网络中的特征词库构建方法和系统。
背景技术
随着互联网技术的发展,通过社交网络软件来进行信息的分享、传播以及获取,已成为广大网民的主要社交方式之一。例如,通过微博或Twitter(推特)等社交网络软件,用户可以通过各种客户端组建个人社区,不断通过文字、图片等形式更新信息,实现自己的最新动态和想法的即时分享。
实际应用中,通过对微博等社交网络软件的观察和分析发现,在整个社交网络之上分布着大大小小的不同领域的社交圈,而对于不同的领域,能够将领域的主要内容明显地表示出来的领域特征词是描述该领域的最恰当的词汇。如何在整个社交网络中提取出不同领域的领域特征词,对于后续的领域研究和垂直频道研究都起着至关重要的作用。例如,可以使得用户能够根据领域特征词有效地获得相关领域内的高价值的信息流;也可以使得运营人员能够根据领域特征词挖掘出各领域的高专业性的专家,为社交网络软件提供领域专家扩展服务、以及为垂直领域项目提供数据支撑。
现有存在一种人工构建特征词库的方法,其主要是对于每个领域,人工收集整理一些与该领域相关的语料(比如属于该领域的论文、杂志、书籍等),根据通用分词词库对收集的语料进行分词后,对分词结果进行人工审核,将符合人工审核条件的词汇作为该领域的领域特征词存储至特征词库中。其中,通用分词词库为现有常用分词器所采用的分词词库。实际应用中,人工收集的语料只能覆盖少数领域,且收集的语料与领域的相关度存在较大的浮动,导致通过上述人工构建特征词库的方法所提取出的特征词库的领域覆盖率和准确度都不高;而且,通过人工收集和人工审核进行特征词库的构建,存在工作量大、且耗费时间长的不足。
为了减少构建特征词库的工作量及耗费时间,现有还提出了一种基于网页的特征词库构建方法,其主要是针对每个领域,利用自动获取网页内容的网络爬虫程序去网络上爬取一个或几个与该领域相关的网页作为语料存储至该领域的语料库中,继而,通过本领域技术人员常用的N-gram模型或分词器对爬取的网页进行分词后,通过TF-IDF(term frequency–inverse documentfrequency,词频-逆文档频率)统计方法,评估分词结果中各词汇对于该领域的语料库的重要程度,并根据评估的重要程度对分词结果中各词汇进行权重排序,将权重排序靠前的若干个词汇作为该领域的领域特征词存储在特征词库中。然而,实际应用中,将网络爬虫爬取的网页作为语料,其与领域的相关度也存在较大的浮动,且领域分类完全依赖于网络分类体系,只能覆盖少数领域,从而导致通过上述基于网页的特征词库构建方法所提取出的特征词库的领域覆盖率和准确度也都不高。
而且,本发明的发明人发现,现有的各领域的特征词库的构建方法存在构建的不同领域的特征词库之间的区分度不大的不足,从而导致各领域的特征词库的准确度较低,其原因主要在于,各领域的特征词库的构建过程中缺少与其他领域的特征词库构建过程的互动,容易出现将公共词汇作为领域特征词的情况,继而降低了不同领域的特征词库之间的区分度,也就降低了该特征词库的准确度。因此,有必要提供一种提高准确度的特征词库构建方法。
发明内容
本发明实施例提供了一种社交网络中的特征词库构建方法和系统,通过提高领域特征词的领域区分度来提高特征词库的准确度。
根据本发明的一个方面,提供了一种社交网络中的特征词库构建方法,包括:
从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,将该种子博文分词后进行如下处理:
针对该种子博文的分词结果中的每个词汇,统计出该词汇的包括词频IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
对于选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分;
若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
较佳地,所述根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词,具体包括:
对于该种子博文的分词结果中每个词汇,若该词汇的IF值超过设定的词频阈值,则将该词汇作为该领域的特征候选词。
较佳地,所述词汇的频率信息还包括:所述词汇的文档频率DF值和用户频率;以及
所述根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分,具体包括:
针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;
根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;
根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分;
其中,所述词汇的用户频率是指所述博文语料集中该领域的各种子博文所属的种子用户中谈及该词汇的种子用户的个数。
较佳地,所述针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值,具体包括:
针对该特征候选词的每种频率信息,根据如下公式1,计算出该特征候选词的该种频率信息的归一值Scif
Sc if = if - MIN if MAX if - MIN if (公式1)
其中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值。
较佳地,所述该领域的所有特征候选词中该种频率信息的最优取值是根据该领域的所有特征候选词的该种频率信息的取值来选取的:
针对该特征候选词的每种频率信息,将该领域的所有特征候选词中该种频率信息的取值按照从大到小的顺序进行排序,选取排序靠前的设定数量的特征候选词的该种频率信息的取值作为候选最优取值;并按照该种频率信息的取值大小顺序,将选取出的候选最优取值存储至候选集中;
根据所述候选集中各相邻的两个候选最优取值之间的分值差,从所述候选集中选择出该领域的所有特征候选词中该种频率信息的最优取值。
较佳地,所述根据预设的每种频率信息各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分,具体包括:
根据如下公式2,计算出该特征候选词的特征得分Scfeature
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
式中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。
较佳地,所述根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子,具体包括:
根据如下公式3,计算出该特征候选词的降权因子Qcf
Q cf = ln ( CF sum cf × 1.1 ) (公式3)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数。
根据本发明的另一个方面,还提供了一种社交网络中的特征词库构建系统,包括:
种子博文分词模块,用于从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,对该种子博文进行分词,并输出该种子博文的分词结果;
特征候选词选取模块,用于针对所述种子博文分词模块输出的种子博文的分词结果中的每个词汇,统计出该词汇的包括IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
领域频率统计模块,用于对于所述特征候选词选取模块选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
特征得分计算模块,用于针对该领域的每个特征候选词,根据分别由所述特征候选词选取模块和所述领域频率统计模块统计出的该特征候选词的频率信息以及领域频率,计算并输出该特征候选词的特征得分;
特征词库构建模块,用于针对该领域的每个特征候选词,接收所述特征得分计算模块输出的该特征候选词的特征得分,若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
较佳地,所述词汇的频率信息还包括:所述词汇的DF值和用户频率,其中,所述用户频率具体是指博文语料集中某一领域的所有种子用户中包含某一词汇的种子用户个数;以及
所述特征得分计算模块具体用于针对该领域的每个特征候选词,根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;并针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分。
较佳地,所述特征得分计算模块具体用于针对该领域的每个特征候选词,对于该特征候选词的每种频率信息,根据如下公式1,计算出该特征候选词的该种频率信息的归一值Scif
Sc if = if - MIN if MAX if - MIN if (公式1)
其中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值;并
根据如下公式3,计算出该特征候选词的降权因子Qcf
Q cf = ln ( CF sum cf × 1.1 ) (公式3)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数;并
根据如下公式2,计算出该特征候选词的特征得分Scfeature
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
式中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。
本发明实施例的技术方案中,可以针对社交网络的每个领域,将该领域的种子博文进行分词,根据统计出的种子博文的分词结果中各词汇的频率信息以及领域频率,计算出该特征候选词的特征得分,若其特征得分超过预先设定的特征阈值,则可以将该特征候选词作为该领域的领域特征词,并将该特征得分作为该领域特征词的权重存储至该领域的特征词库中。相比现有特征词库构建方法,本发明提供的构建方案,可以通过领域频率来排除经常出现在各个领域中的公共词汇,从而使得构建的不同领域的特征词库中的领域特征词具备更大的领域区分度,有效增加词汇分类的准确度;且基于词频、文档频率、用户频率等多个特征能够保证挖掘出该领域的不同领域特征词之间的区分度,以此提高构建的特征词库的准确度。
附图说明
图1为本发明实施例的社交网络中的特征词库构建方法的流程示意图;
图2为本发明实施例的社交网络中的特征词库构建系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
实际应用中,用户在社交网络中可以发布内容,也可以分享、评论、收藏或转发其他用户的内容;因此,可以将用户在社交网络发布、评论、收藏、或转发的内容统称为该用户在社交网络中的社交内容(本发明中也将其称为用户在社交网络中的博文)。本发明的发明人发现,相比于人工整理的语料以及爬虫爬取的网页,已划分到某一领域的用户的博文与该领域的相关度更高,尤其是该领域的种子用户的种子博文。
因此,本发明的发明人考虑,可以基于种子用户的种子博文来构建领域的特征词库;具体地,可以针对社交网络的每个领域,将该领域的各种子用户的博文作为该领域的种子博文存储至博文语料集中。进而,可以对种子博文进行分词,统计出种子博文的分词结果中各词汇的词频、文档频率、用户频率等各种频率信息、以及领域频率,并可以根据该特征候选词的词频、文档频率、用户频率以及领域频率,计算出该特征候选词的特征得分,若其特征得分超过预先设定的特征阈值,则可以将该特征候选词作为该领域的领域特征词,并将该特征得分作为该领域特征词的权重存储至该领域的特征词库中。这样,相比现有人工构建特征词库的方法和基于爬取的网页的特征词库构建方法,本发明提供的构建方案中,可以统计博文语料集中的各领域的种子博文中包含该特征候选词的领域个数作为领域频率,以此来排除经常出现在各个领域中的公共词汇,从而使得构建的不同领域的特征词库中的领域特征词具备更大的领域区分度,有效增加词汇分类的准确度;且可以基于IF(termfrequency,词频)、DF(document frequency,文档频率)、用户频率等多个特征能够保证挖掘出该领域的不同领域特征词之间的区分度,来提高构建的特征词库的准确度。
下面结合附图详细说明本发明的技术方案。
本发明实施例中,在进行各领域的特征词库构建之前,可以预先构建一个博文语料集,在该博文语料集中具体可以包括各领域的种子博文。继而,针对社交网络的每个领域,从该博文语料集中的属于该领域的种子博文中,挖掘出该领域的领域特征词。
其中,博文语料集中的各领域的种子博文具体可以通过如下方式获取:
对于社交网络的每个领域,预先确定出属于该领域的若干个种子用户;对于确定出的该领域的每个种子用户,将该种子用户的所有博文作为该领域的种子博文存储在博文语料集中。
其中,种子用户的博文具体是指种子用户在社交网络上发布、评论、收藏、或转发的博文。对于社交网络的每个领域,该领域的种子用户可以是由运营人员圈定的,也可以是运营人员通过社交网络中用户之间的关注关系或粉丝关系所挖掘出的;而关于如何基于用户之间的关注关系或粉丝关系来挖掘领域的种子用户可以采用本领域技术人员所公知的技术手段即可,在此不再详述。
基于上述构建的博文语料集,本发明实施例提供了一种特征词库的构建方法,如图1所示,具体包括如下步骤:
S101:从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,将该种子博文分词,并输出该种子博文的分词结果。
具体地,可以利用本领域技术人员常用的分词器,根据通用的分词词库,对该领域的每篇种子博文进行分词,得到每篇种子博文各自的分词结果。其中,社交网络具体可以为微博、Twitter推特等;种子博文可以具体为用户在社交网络中发布、转发、收藏、或评论的内容。
显然,分词词库的质量对于分词的效果影响很大,也就对根据分词词库挖掘出的领域特征词的准确度的影响也很大。而实际应用中,相比于传统网页内容,社交网络具有新媒体属性,即社交网络中的用户的博文中除了出现传统网页中常见的正式规范的用词,还很容易出现大量新鲜词汇。
因此,更优地,本发明实施例提供的特征词库构建方法中,还可以将预先统计出的各领域的领域新词(如表1所示)填充至通用的分词词库中,以此提高分词词库的质量,以便于后续根据更为细腻、领域区分度更高的分词结果,能够提高挖掘出的领域特征词的准确度。其中,各领域的领域新词具体可以由本领域技术人员根据经验进行统计。
实际应用中,在社交网络的社交内容中往往会存在一些特有字符。例如,在微博中,字符会把紧跟它之后的文字当成一个人名,自动生成一个指向该用户的链接,用于在微博中提及某用户;#号字符是成对出现的,夹在两个#之间的文字会变成搜索关键字;//不具备链接功能,只用来表示该博文是经过哪些人的转发而来的;<>用来标示用户在博文中提到的网址链接内容。由于上述四类字符所标示的内容同我们的领域相关性很弱,同时在博文中大量出现,会对我们的后续结果产生干扰。
表1
因此,作为一种更优的实施方式,本发明实施例中,在种子博文进行分词之前或之后,还可以对于博文语料集中的每个领域的种子博文进行过滤处理。具体地,针对博文语料集中的每个领域,对于该领域的每个种子博文,可以利用预先设置的特有字符过滤规则和修饰字符过滤规则,将该种子博文中不附属于任一领域的特有字符和修饰字符作为无效博文片段进行过滤。这样,通过滤除种子博文中与领域的相关性很弱的无效博文片段,可以避免一些不附属于任一领域的公共词汇的干扰,以此提高挖掘的领域特征词的准确度。
其中,特有字符过滤规则和修饰字符过滤规则中,包括了由社交网络的特有字符和常用修饰字符所组成的共同语言知识特征,若种子博文中存在符合语言知识特征的片段,即可以通过上述过滤规则判定出该片段为不附属于任一领域的无效博文片段。
S102:对于该领域的每个种子博文,针对该种子博文的分词结果中的每个词汇,统计出该词汇的包括词频IF值的频率信息;根据各词汇的各种频率信息从该种子博文的分词结果中选择出该领域的特征候选词。
其中,词汇的频率信息具体可以包括:该词汇的IF值、该词汇的DF值和该词汇的用户频率。具体地,针对博文语料集中待构建的特征词库所属领域的每个种子博文,统计出该种子博文的分词结果中各词汇的包括词频IF值的频率信息。继而,对于该种子博文的分词结果中每个词汇,若该词汇的各种频率信息满足设定的候选词条件,则将该词汇作为该领域的特征候选词。其中,候选词条件用于对特征候选词的IF值、DF值和用户频率进行限定,例如,候选词条件具体可以为:IF值超过设定的词频阈值、DF值超过预定的文档频率阈值、且用户频率超过预定的用户频率阈值。当然,当词汇的频率信息只包括IF值时,对于该种子博文的分词结果中每个词汇,若该词汇的IF值超过设定的词频阈值,则可以将该词汇作为该领域的特征候选词。其中,词汇的IF值具体是指博文语料集中该词汇在待构建的特征词库的所属领域的所有种子博文中出现的次数;DF值具体是指博文语料集中待构建的特征词库的所属领域的所有种子博文中包含该词汇的种子博文的个数;用户频率具体是指博文语料集中该领域的各种子博文所属的种子用户中谈及该词汇的种子用户的个数;对于谈及该词汇的每个种子用户,该种子用户的所有种子博文中至少有一篇种子博文中包含了该词汇。实际应用中,还可以统计出该种子博文的分词结果中各词汇的词性,从词性属于预定的特定词性集合(比如名词、动词和形容词等)的分词结果中,选择出频率信息满足候选词条件的词汇作为该博文的特征候选词。
S103:对于选择出的该领域的每个特征候选词,统计博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率。
实际应用中,对于该领域的每个特征候选词,若博文语料集中的各领域的种子博文中包含该特征候选词的领域个数较多,则可以表明该特征候选词的领域跨度较大,且在一定程度上反映该特征候选词附属于某一特定领域的概率低、属于公共词汇的概率大。因此,本发明提供的特征词库构建方案中,针对该领域的每个特征候选词,可以统计博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率。这样,可以根据各特征候选词的领域频率,排除经常出现在各个领域中的公共词汇,以此提高挖掘出的领域特征词的领域区分度。
S104:针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分。
实际应用中,由于词汇的各种频率信息越高,表明该词汇附属于某一特定领域的概率越高;而词汇的领域频率越高,表明其领域跨度较大,附属于某一特定领域的概率越低。因此,对于社交网络的每个领域,针对该领域的每个特征候选词,可以根据频率信息中的IF值、DF值、用户频率各自对应的权重、以及该特征候选词的各种频率信息的取值、领域频率,计算出该特征候选词的特征得分。例如,对于该特征候选词的每种频率信息,计算预设的该种频率信息对应的权重与该特征候选词的该种频率信息的取值的乘积作为该种频率信息的初始得分;将该特征候选词的各种频率信息的初始得分的总和作为该特征候选词的频率信息得分,并将该特征候选词的频率信息得分减去该特征候选词的领域频率与预设的领域频率的权重的乘积,得到该特征候选词的特征得分。
更优地,在保持各特征候选词在同一种频率信息上的相对关系(例如,取值大的仍然大、取值小的仍然小)的前提下,为了增强各特征候选词在同一种频率信息上的可比性,对于该领域的每个特征候选词,可以针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词相对于其他特征候选词的该种频率信息的归一值。继而,根据频率信息中的IF值、DF值、用户频率各自对应的权重和领域频率的权重、该特征候选词的各种频率信息的归一值以及领域频率,计算该特征候选词的特征得分。
其中,针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,具体可以通过如下公式1,计算出该特征候选词的该种频率信息的归一值Scif
Sc if = if - MIN if MAX if - MIN if (公式1)
式中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值。其中,该领域的所有特征候选词中该种频率信息的最优取值是根据该领域的所有特征候选词的该种频率信息取值来选取的。其中,if具体可以为该特征候选词的IF的取值tf、或DF的取值df、或用户频率的取值uf;而该领域的所有特征候选词中该种频率信息的最优取值具体可以为该领域的所有特征候选词中该种频率信息的最大值。
实际应用中,本发明的发明人发现,对于某些领域,总有少数词汇出现的频率远远高于其他词汇,因此,为了优化归一化分值的覆盖度,可以针对该特征候选词的每种频率信息,将该领域的所有特征候选词中该种频率信息的取值按照从大到小的顺序进行排序,选取排序靠前的设定数量的特征候选词的该种频率信息的取值作为候选最优取值;并按照频率信息的取值大小顺序,将选取出的候选最优取值存储至候选集中。继而,根据候选集中各相邻的两个候选最优取值之间的分值差,从候选集中选择出该领域的所有特征候选词中该种频率信息的最优取值。
例如,可以遍历候选集,对于候选集中两个相邻的候选最优取值a、b,若该两个候选最优取值之间的分值比例差|a-b|/min(a,b)大于设定的比例值(比如10%),则可以将该两个相邻的候选最优取值a、b之间的较小的分值作为最优取值。
更优地,由于特征候选词的领域频率越高,表明其领域跨度较大、其属于公共词汇的概率越大;因此,为了降低可能是公共词汇的特征候选词的特征得分,以此排除经常出现在各个领域的公共词汇,可以针对该领域的每个特征候选词,根据预先设置的降权公式,计算出与该特征候选词的领域频率相对应的降权因子。继而,根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及该特征候选词的降权因子,计算出该特征候选词的特征得分。
具体地,可以根据如下公式2,计算出该特征候选词的特征得分Scfeature
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
式中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。其中,该特征候选词的IF归一值Sctf、DF归一值Scdf、用户频率的归一值Scuf均可以通过上述公式1计算得出。而关于与特征候选词的领域频率相对应的降权因子Qcf的计算方法,将在后续详细介绍。
S105:若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
具体地,针对待构建的特征词库的所属领域的每个特征候选词,若该特征候选词的特征得分超过预设的特征阈值,则将该特征候选词作为该领域的领域特征词存储至该领域的特征词库中,并在特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
本发明实施例中,关于步骤S104中提及的与特征候选词的领域频率相对应的降权因子的计算方法,具体可以根据如下公式3,计算出该特征候选词的降权因子Qcf
Q cf = ln ( CF sum cf &times; 1.1 ) (公式3)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数。
更优地,为了增加不同领域的领域特征词之间的区分度,可以对于领域跨度较大的词汇,采用取值较大的降权因子,增大该词汇的特征得分的下降幅度;而对于领域跨度较小的词汇,则采用取值较小的降权因子,使得该词汇的特征得分的下降幅度更小更平滑。具体地,当特征候选词的领域频率大于设定的降权阈值时,可以采用上述公式3计算出与该特征候选词的领域频率相对应的降权因子;而当特征候选词的领域频率小于或大于设定的降权阈值时,则可以采用通过如下公式4计算出的降权因子Wcf
W cf = ln ( 2 + CF sum cf &times; 10 ) (公式4)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数。
基于上述特征词库构建方法,本发明实施例还提供了一种社交网络中的特征词库构建系统,如图2所示,具体可以包括:种子博文分词模块201、特征候选词选取模块202、领域频率统计模块203、特征得分计算模块204、特征词库构建模块205。
其中,种子博文分词模块201用于从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,对该种子博文进行分词,并输出该种子博文的分词结果。
特征候选词选取模块202用于针对种子博文分词模块201输出的种子博文的分词结果中的每个词汇,统计出该词汇的包括IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词。其中,词汇的频率信息具体可以包括:IF值、DF值和用户频率;IF值具体是指博文语料集中某一词汇在某一领域的所有种子博文中出现的次数;DF值具体是指博文语料集中某一领域的所有种子博文中包含某一词汇的种子博文个数;用户频率具体是指博文语料集中某一领域的所有种子用户中包含某一词汇的种子用户个数。
领域频率统计模块203用于对于特征候选词选取模块202选择出的该领域的每个特征候选词,统计博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率。
特征得分计算模块204用于针对该领域的每个特征候选词,根据分别由特征候选词选取模块202和领域频率统计模块203统计出的该特征候选词的频率信息以及领域频率,计算并输出该特征候选词的特征得分。
具体地,特征得分计算模块204具体用于针对该领域的每个特征候选词,根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;并针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分。
其中,针对该领域的每个特征候选词,对于该特征候选词的每种频率信息,可以根据如下公式1,计算出该特征候选词的该种频率信息的得分Scif
Sc if = if - MIN if MAX if - MIN if (公式1)
其中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值;以及
根据如下公式3,计算出该特征候选词的降权因子Qcf
Q cf = ln ( CF sum cf &times; 1.1 ) (公式3)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数。
继而,针对该领域的每个特征候选词,可以根据如下公式2,计算出该特征候选词的特征得分Scfeature
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
其中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。
特征词库构建模块205用于针对该领域的每个特征候选词,接收特征得分计算模块204输出的该特征候选词的特征得分,若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
更优地,本发明实施例中,特征词库构建系统还可以包括:种子博文挖掘模块206。种子博文挖掘模块206用于对于社交网络的每个领域,预先确定出属于该领域的若干个种子用户;对于确定出的该领域的每个种子用户,将该种子用户的所有博文作为该领域的种子博文存储在博文语料集中。
本发明的技术方案中,可以针对社交网络的每个领域,将该领域的种子博文进行分词,根据统计出的种子博文的分词结果中各词汇的频率信息以及领域频率,计算出该特征候选词的特征得分,若其特征得分超过预先设定的特征阈值,则可以将该特征候选词作为该领域的领域特征词,并将该特征得分作为该领域特征词的权重存储至该领域的特征词库中。相比现有特征词库构建方法,本发明提供的构建方案,可以通过领域频率来排除经常出现在各个领域中的公共词汇,从而使得构建的不同领域的特征词库中的领域特征词具备更大的领域区分度,有效增加词汇分类的准确度;且基于词频、文档频率、用户频率等多个特征能够保证挖掘出该领域的不同领域特征词之间的区分度,以此提高构建的特征词库的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种社交网络中的特征词库构建方法,其特征在于,包括:
从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,将该种子博文分词后进行如下处理:
针对该种子博文的分词结果中的每个词汇,统计出该词汇的包括词频IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
对于选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分;
若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
2.如权利要求1所述的方法,其特征在于,所述根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词,具体包括:
对于该种子博文的分词结果中每个词汇,若该词汇的IF值超过设定的词频阈值,则将该词汇作为该领域的特征候选词。
3.如权利要求1所述的方法,其特征在于,所述词汇的频率信息还包括:所述词汇的文档频率DF值和用户频率;以及
所述根据该特征候选词的频率信息以及领域频率,计算该特征候选词的特征得分,具体包括:
针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;
根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;
根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分;
其中,所述词汇的用户频率是指所述博文语料集中该领域的各种子博文所属的种子用户中谈及该词汇的种子用户的个数。
4.如权利要求3所述的方法,其特征在于,所述针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值,具体包括:
针对该特征候选词的每种频率信息,根据如下公式1,计算出该特征候选词的该种频率信息的归一值Scif
Sc if = if - MIN if MAX if - MIN if (公式1)
其中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值。
5.如权利要求4所述的方法,其特征在于,所述该领域的所有特征候选词中该种频率信息的最优取值是根据该领域的所有特征候选词的该种频率信息的取值来选取的:
针对该特征候选词的每种频率信息,将该领域的所有特征候选词中该种频率信息的取值按照从大到小的顺序进行排序,选取排序靠前的设定数量的特征候选词的该种频率信息的取值作为候选最优取值;并按照该种频率信息的取值大小顺序,将选取出的候选最优取值存储至候选集中;
根据所述候选集中各相邻的两个候选最优取值之间的分值差,从所述候选集中选择出该领域的所有特征候选词中该种频率信息的最优取值。
6.如权利要求3所述的方法,其特征在于,所述根据预设的每种频率信息各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分,具体包括:
根据如下公式2,计算出该特征候选词的特征得分Scfeature
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
式中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。
7.如权利要求2-6任一所述的方法,其特征在于,所述根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子,具体包括:
根据如下公式3,计算出该特征候选词的降权因子Qcf
Q cf = ln ( CF sum cf &times; 1.1 ) (公式3)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数。
8.一种社交网络中的特征词库构建系统,其特征在于,包括:
种子博文分词模块,用于从博文语料集中获取待构建的特征词库所属领域的各种子博文;并对于获取的每个种子博文,对该种子博文进行分词,并输出该种子博文的分词结果;
特征候选词选取模块,用于针对所述种子博文分词模块输出的种子博文的分词结果中的每个词汇,统计出该词汇的包括IF值的频率信息;根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
领域频率统计模块,用于对于所述特征候选词选取模块选择出的该领域的每个特征候选词,统计所述博文语料集中的各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
特征得分计算模块,用于针对该领域的每个特征候选词,根据分别由所述特征候选词选取模块和所述领域频率统计模块统计出的该特征候选词的频率信息以及领域频率,计算并输出该特征候选词的特征得分;
特征词库构建模块,用于针对该领域的每个特征候选词,接收所述特征得分计算模块输出的该特征候选词的特征得分,若该特征得分超过预设的特征阈值,则将该特征候选词及其特征得分,分别作为该领域的领域特征词及其权重对应存储至该特征词库中。
9.如权利要求8所述的系统,其特征在于,所述词汇的频率信息还包括:所述词汇的DF值和用户频率,其中,所述用户频率具体是指博文语料集中某一领域的所有种子用户中包含某一词汇的种子用户个数;以及
所述特征得分计算模块具体用于针对该领域的每个特征候选词,根据该特征候选词的领域频率、博文语料集中所有种子博文的所属领域总数,计算出该特征候选词的降权因子;并针对该特征候选词的每种频率信息,对该特征候选词的该种频率信息的取值进行归一化,得到该特征候选词的该种频率信息的归一值;根据频率信息中的IF值、DF值、用户频率各自对应的权重、该特征候选词的各种频率信息的归一值以及计算出的该特征候选词的降权因子,计算该特征候选词的特征得分。
10.如权利要求9所述的系统,其特征在于,
所述特征得分计算模块具体用于针对该领域的每个特征候选词,对于该特征候选词的每种频率信息,根据如下公式1,计算出该特征候选词的该种频率信息的归一值Scif
Sc if = if - MIN if MAX if - MIN if (公式1)
其中,if具体为该特征候选词的该种频率信息的取值;MINif为该领域的所有特征候选词中该种频率信息的最小取值;MAXif为该领域的所有特征候选词中该种频率信息的最优取值;并
根据如下公式3,计算出该特征候选词的降权因子Qcf
Q cf = ln ( CF sum cf &times; 1.1 ) (公式3)
式中,cf为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数;并
根据如下公式2,计算出该特征候选词的特征得分Scfeature
Scfeature=(Wtf×Sctf+Wdf×Scdf+Wuf×Scuf)×Qcf (公式2)
式中,Wtf为IF的权重,Sctf为该特征候选词的IF归一值;Wdf为DF的权重,Scdf为该特征候选词的DF归一值;Wuf为用户频率的权重,Scuf为该特征候选词的用户频率的归一值;Qcf为该特征候选词的降权因子。
CN201410213845.9A 2014-05-20 2014-05-20 社交网络中的特征词库构建方法和系统 Active CN104035969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410213845.9A CN104035969B (zh) 2014-05-20 2014-05-20 社交网络中的特征词库构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410213845.9A CN104035969B (zh) 2014-05-20 2014-05-20 社交网络中的特征词库构建方法和系统

Publications (2)

Publication Number Publication Date
CN104035969A true CN104035969A (zh) 2014-09-10
CN104035969B CN104035969B (zh) 2017-11-03

Family

ID=51466739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410213845.9A Active CN104035969B (zh) 2014-05-20 2014-05-20 社交网络中的特征词库构建方法和系统

Country Status (1)

Country Link
CN (1) CN104035969B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573027A (zh) * 2015-01-13 2015-04-29 清华大学 一种从文档集中挖掘特征词的系统和方法
CN106649308A (zh) * 2015-10-28 2017-05-10 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN109522402A (zh) * 2018-10-22 2019-03-26 国家电网有限公司 一种基于电力行业特征关键词的摘要提取方法及存储介质
CN112101024A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 基于app信息的目标对象识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763430A (zh) * 2010-01-06 2010-06-30 成都娱音科技股份有限公司 一种基于通用搜索引擎的版权检定方法
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103778215A (zh) * 2014-01-17 2014-05-07 北京理工大学 一种基于情感分析和隐马尔科夫模型融合的股市预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763430A (zh) * 2010-01-06 2010-06-30 成都娱音科技股份有限公司 一种基于通用搜索引擎的版权检定方法
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103778215A (zh) * 2014-01-17 2014-05-07 北京理工大学 一种基于情感分析和隐马尔科夫模型融合的股市预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李正泽等: "微博用户分类的特征词权重优化及 推荐策略", 《第27次全国计算机安全学术交流会》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573027A (zh) * 2015-01-13 2015-04-29 清华大学 一种从文档集中挖掘特征词的系统和方法
CN106649308A (zh) * 2015-10-28 2017-05-10 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN106649308B (zh) * 2015-10-28 2020-05-01 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN109522402A (zh) * 2018-10-22 2019-03-26 国家电网有限公司 一种基于电力行业特征关键词的摘要提取方法及存储介质
CN112101024A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 基于app信息的目标对象识别系统
CN112101024B (zh) * 2020-11-12 2021-02-05 北京云真信科技有限公司 基于app信息的目标对象识别系统

Also Published As

Publication number Publication date
CN104035969B (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN103793503B (zh) 一种基于web文本的观点挖掘与分类的方法
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
Kherwa et al. An approach towards comprehensive sentimental data analysis and opinion mining
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN108170692A (zh) 一种热点事件信息处理方法和装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103106262B (zh) 文档分类、支持向量机模型生成的方法和装置
CN103870474A (zh) 一种新闻话题组织方法及装置
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN104462286A (zh) 一种基于改进的lda的微博话题发现方法
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN102945268A (zh) 产品特征评论挖掘方法及系统
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN104102658B (zh) 文本内容挖掘方法及装置
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN105183718B (zh) 一种用于出版行业的热点选题获取方法及其系统
CN104408033A (zh) 一种文本信息提取的方法及系统
CN104408083A (zh) 一种社会化媒体分析系统
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN104035969A (zh) 社交网络中的特征词库构建方法和系统
CN107679069A (zh) 基于新闻数据及相关评论信息的一种特定群体发现方法
Amali et al. Classification of cyberbullying sinhala language comments on social media
CN105183765A (zh) 一种基于大数据的话题抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant