CN104035967A - 社交网络中的领域专家发现方法和系统 - Google Patents

社交网络中的领域专家发现方法和系统 Download PDF

Info

Publication number
CN104035967A
CN104035967A CN201410213795.4A CN201410213795A CN104035967A CN 104035967 A CN104035967 A CN 104035967A CN 201410213795 A CN201410213795 A CN 201410213795A CN 104035967 A CN104035967 A CN 104035967A
Authority
CN
China
Prior art keywords
field
blog article
feature
feature words
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410213795.4A
Other languages
English (en)
Other versions
CN104035967B (zh
Inventor
李金奎
谌贻荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201410213795.4A priority Critical patent/CN104035967B/zh
Publication of CN104035967A publication Critical patent/CN104035967A/zh
Application granted granted Critical
Publication of CN104035967B publication Critical patent/CN104035967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交网络中的领域专家发现方法和系统,所述方法包括:针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,得到该博文的分词结果,并针对所述社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并根据匹配结果,确定该博文与该领域的相关度;针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度;若所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。应用本发明,可提高发现的领域专家的准确度。

Description

社交网络中的领域专家发现方法和系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种社交网络中的领域专家发现方法和系统。
背景技术
随着互联网技术的发展,通过社交网络软件来进行信息的分享、传播以及获取,已成为广大网民的主要社交方式之一。例如,通过微博或Twitter(推特)等社交网络软件,用户可以通过各种客户端组建个人社区,不断通过文字、图片等形式更新信息,实现自己的最新动态和想法的即时分享。
实际应用中,通过对微博等社交网络软件的观察和分析发现,在整个社交网络之上分布着大大小小的不同领域的社交圈,如何在整个社交网络中的全部人群中分析出不同领域的专家,对于后续的用户扩展、商业运营等都起着至关重要的作用。如果能够对于某个领域的专家进行准确的挖掘,则可以利用该挖掘结果为社交网络软件提供领域专家扩展服务、以及为垂直领域项目提供数据支撑。例如,为用户推荐其感兴趣的领域专家;或者,为专家搜索提供基础服务等。
现有存在一种人工发现社交网络中的领域专家的方法,其主要是让社交网络中的用户按照指定格式填写的标签、认证信息等用于确定用户相关领域的认证内容,继而,社交网络的运营人员可以根据用户填写的认证内容进行人工审查,判断该用户是否为某一领域的权威专家。实际应用中,填写认证内容的用户并不是很多,且用户填写的认证内容只能涉及部分领域,准确率低,导致上述领域专家发现方法的领域覆盖率低,且其发现的领域专家的准确度不高。而且,通过人工进行审核,存在工作量大、耗费时间长的不足。
为了减少发现领域专家的工作量及耗费时间,现有还提出了一种基于用户分组信息的领域专家发现方法,其主要是根据用户的粉丝或其他用户对该用户的分组名称,统计出该用户在各领域的权重,继而,根据该用户在各领域的权重及预置的判定条件,判断该用户是否为某一领域的专家。实际应用中,并不是所有用户都会对其关注的其他用户进行分组,且其对其他用户的分组主要基于主观了解,领域覆盖率低且准确度也不高,继而导致上述基于用户分组信息的领域专家发现方法存在用户召回率低、准确度不高的不足。
综上所述,现有的领域专家发现方法,存在领域覆盖率低、发现的领域专家的准确度不高的不足,因此,有必要提供一种提高领域覆盖率及准确度的社交网络中的领域专家发现方法。
发明内容
本发明实施例提供了一种社交网络中的领域专家发现方法和系统,提高了领域专家发现的准确度。
根据本发明的一个方面,提供了一种社交网络中的领域专家发现方法,包括:
针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,得到该博文的分词结果,并针对所述社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配;根据匹配结果,确定该博文与该领域的相关度;
针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度;若所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
较佳地,所述领域的特征词库是预先构建的,具体包括:
将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;
对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息;并根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
较佳地,所述根据匹配结果,确定该博文与该领域的相关度,具体包括:
将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;
对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重;
根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
较佳地,所述根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度,具体包括:
根据如下公式1,计算出该博文与该领域的相关度St
S t = Σ i = 1 n ( W i × f i ) n (公式1)
其中,n为该博文的特征词总数,i为取值1~n的自然数,Wi为该博文的第i个特征词的领域权重,fi为第i个特征词在该博文中出现的频次。
较佳地,所述将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词之后,还包括:
对于该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配;若所述共现特征词库中存在与该特征词相同的领域共现特征词,则将所述共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词;以及
将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,并将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
较佳地,所述博文具体是指待识别用户在所述社交网络上发布、评论、收藏、或转发的博文。
根据本发明的另一个方面,还提供了一种社交网络中的领域专家发现系统,包括:
博文分词模块,用于针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,并输出该博文的分词结果;
领域特征词匹配模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,将所述博文分词模块输出的该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并输出该博文与该领域的匹配结果;
博文领域相关度计算模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,根据所述领域特征词匹配模块输出的该博文与该领域的匹配结果,确定该博文与该领域的相关度并输出;
用户领域相关度计算模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,根据所述博文领域相关度计算模块输出的该博文与该领域的相关度,统计与该领域的相关度超过设定阈值的所述用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度并输出;
领域专家确定模块,用于针对所述社交网络中的每个领域,若所述用户领域相关度计算模块输出的所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
较佳地,所述系统还包括:
特征词库构建模块,用于将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息,并根据各词汇的频率信息从该种子博文的分词结果中选择出的词汇作为该领域的特征候选词;针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
较佳地,所述博文领域相关度计算模块具体用于将所述博文分词模块输出的该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重;根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
较佳地,所述系统还包括:
领域共现特征词匹配模块,用于针对所述用户的每篇博文,对于所述博文领域相关度计算模块确定出的该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配,并输出该博文与各领域的共现特征词库的匹配结果;以及
所述博文领域相关度计算模块还用于针对所述社交网络中的每个领域,对于博文的每个特征词,若所述领域共现特征词匹配模块输出的该博文与该领域的共现特征词库的匹配结果具体为:所述共现特征词库中存在与该特征词相同的领域共现特征词,则将所述共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词,并将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
本发明实施例的技术方案中,对用户在社交网络上发布、评论、收藏、或转发的博文进行过滤分词后,针对每个领域,可以根据预先设置的该领域的特征词库中领域特征词及其权重,可以确定出用户的各博文与该领域的相关度;继而,根据该用户的博文总数、以及与该领域的相关度超过设定阈值的博文总数,计算出该用户与该领域的相关度。这样,若该用户与该领域的相关度超过设定值,则可以将该用户作为该领域的专家。相比现有的人工发现领域专家方法和基于用户分组信息的领域专家发现方法,本发明基于用户的博文来发现领域专家,可以减少发现领域专家的工作量,并提高领域覆盖率和领域专家发现的准确度。
附图说明
图1为本发明实施例的领域的特征词库构建方法的流程示意图;
图2为本发明实施例的社交网络中的领域专家发现方法的流程示意图;
图3为本发明实施例的社交网络中的领域专家发现系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
实际应用中,用户在社交网络中可以发布内容,也可以分享、评论、收藏或转发其他用户的内容;因此,可以将用户在社交网络发布、评论、收藏、或转发的内容统称为该用户在社交网络中的社交内容(本发明中也将其称为用户在社交网络中的博文)。本发明的发明人发现,用户在社交网络中的博文能够在很大程度上反映出用户的兴趣和用户的所属领域;而现有的领域专家发现方法正是因为缺少与用户的博文内容上的关联性,才存在发现的领域专家的准确度低的不足。
因此,本发明的发明人考虑,可以基于用户在社交网络上发布、评论、收藏、或转发的博文,确定出博文与领域的相关度,继而,针对每个领域,根据该用户的博文总数、以及与该领域的相关度超过设定阈值的博文总数,计算出该用户与该领域的相关度。这样,若该用户与该领域的相关度超过一定阈值,则可以将该用户作为该领域的专家。相比现有的人工发现领域专家方法和基于用户分组信息的领域专家发现方法,本发明基于社交网络中的用户的博文来发现领域专家,可以大大提高领域覆盖率和领域专家发现的准确度。
下面结合附图详细说明本发明的技术方案。
在进行社交网络中的领域专家发现之前,可以先针对每个预先划分出的领域,构建出该领域的特征词库。例如,针对每个领域,技术人员可以根据经验为该领域选取能够表征博文属于该领域的词汇作为该领域的领域特征词后,将选取出的该领域的领域特征词存储到该领域的特征词库中,并为特征词库中的每个领域特征词设置相应的权重。
此外,还可采用一种自动选取领域的特征词,构建领域的特征词库的方法,具体流程如图1所示,包括如下步骤:
S101:对于社交网络的每个领域,将社交网络中已划分到该领域中的若干个用户作为该领域的种子用户后,将各种子用户的博文作为该领域的种子博文存储至博文语料集中。
其中,对于社交网络的每个领域,该领域的种子用户具体可以是由运营人员圈定的,也可以是本领域技术人员通过社交网络中用户之间的关注关系或粉丝关系所挖掘出的。种子用户的博文具体可以是种子用户在社交网络上发布、评论、收藏、或转发的博文。
S102:对于每个领域,针对博文语料集中该领域的每个种子博文,对该种子博文进行分词,输出该种子博文的分词结果。
更优地,为了避免一些附属于任何领域的公共词汇的干扰,可以在对种子博文进行分词之前、或得到分词结果之后,对于每个领域,针对博文语料集中该领域的每个种子博文,将该种子博文中不附属于任一特定领域的字符过滤。
S103:针对该领域的每个种子博文,统计出该种子博文的分词结果中各词汇的频率信息后,根据各词汇的频率信息从该种子博文的分词结果中选择出该博文的特征候选词。
其中,词汇的频率信息具体可以包括:IF值(term frequency,词频)、DF值(document frequency,文档频率)、用户频率。具体地,针对该领域的每个种子博文,对于该种子博文的分词结果中每个词汇,若该词汇的频率信息满足设定的候选词条件,则将该词汇作为该领域的特征候选词;候选词条件用于对特征候选词的词频、文档频率、用户频率进行限定,且候选词条件具体可以为:词频超过设定的词频阈值、文档频率超过预定的文档频率阈值、用户频率超过预定的用户频率阈值。其中,对于社交网络中的每个领域,词汇的IF值具体是指博文语料集中该词汇在该领域的所有种子博文中出现的次数;DF值具体是指博文语料集中该领域的所有种子博文中包含该词汇的种子博文的个数;用户频率具体是指博文语料集中该领域的所有种子博文中包含该词汇的种子用户的个数。实际应用中,还可以统计出该种子博文的分词结果中各词汇的词性,从词性属于预定的特定词性集合(比如名词、动词和形容词等)的分词结果中,选择出频率信息满足候选词条件的词汇作为该博文的特征候选词。
S104:针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率。
S105:针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分。
实际应用中,词汇的频率信息越高,表明该词汇附属于某一特定领域的概率越高;而词汇的领域频率越高,表明其领域跨度较大,附属于某一特定领域的概率越低。
因此,为了排除经常出现在各个领域中的公共词汇,可以针对该领域的每个特征候选词,将预先设置的频率信息权重与该特征候选词的频率信息的取值的乘积作为该特征候选词的频率信息得分;并根据博文语料集中所有种子博文的所属领域总数、以及预先设置的降权公式,得到与该特征候选词的领域频率相对应的降权因子;继而,将该特征候选词的频率信息得分与降权因子的乘积作为该特征候选词的特征得分。这样,可以使得从特征候选词中确定出的领域特征词具有较高的领域区分度,有效增加构建特征词库的准确度。其中,降权公式是由本领域技术人员根据经验进行预选设置的,例如可以将降权公式设置为:
W cf = ln ( CF sum CF × 1.1 )
其中,CF为该特征候选词的领域频率,CFsum为博文语料集中所有种子博文的所属领域总数。
S106:在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
基于上述构建的各领域的特征词库,本发明实施例提供了一种社交网络中的领域专家发现方法,如图2所示,具体包括如下步骤:
S201:针对社交网络中待识别用户的每篇博文,将该博文进行分词后,得到该博文的分词结果。
具体地,可以利用本领域技术人员常用的分词器,根据通用的分词词库,对社交网络中待识别用户的每篇博文进行分词,得到每篇博文各自的分词结果。其中,社交网络具体可以为微博、Twitter等;用户的博文可以具体为用户在社交网络中发布、转发、收藏、或评论的内容。
显然,分词词库的质量对于分词的效果影响很大,继而对领域专家的发现的准确度的影响也很大。实际应用中,相比于传统网页内容,社交网络具有新媒体属性,即社交网络中的用户的博文中除了出现传统网页中常见的正式规范的用词,还很容易出现大量新鲜词汇。因此,更优地,本发明实施例提供的社交网络中的领域专家发现方法中,还可以将预先统计出的各领域的领域新词(如表1所示)填充至通用的分词词库中,以此提高分词词库的质量,以便于后续根据更为细腻、领域区分度更高的分词结果,能够提高发现的领域专家的准确度。
实际应用中,在社交网络中往往会存在一些特有字符。例如,在微博中,字符会把紧跟它之后的文字当成一个人名,自动生成一个指向该用户的链接,用于在微博中提及某用户;#号字符是成对出现的,夹在两个#之间的文字会变成搜索关键字;//不具备链接功能,只用来表示该博文是经过哪些人的转发而来的;<>用来标示用户在博文中提到的网址链接内容。由于上述四类字符所标示的内容同我们的领域相关性很弱,同时在博文中大量出现,会对我们的后续结果产生干扰。
因此,作为一种更优的实施方式,本发明实施例中,在执行步骤S101之前,还可以预先对用户的每篇博文进行过滤处理。具体地,针对社交网络中待识别用户的每篇博文,可以利用预先设置的特有字符过滤规则和修饰字符过滤规则,将该博文中不附属于任一领域的特有字符和修饰字符进行过滤,以滤除博文中与领域的相关性很弱的无效博文片段,减少对后续相关度统计的干扰,以此,提高发现的领域专家的准确度。
其中,特有字符过滤规则和修饰字符过滤规则中,包括了由社交网络的特有字符和常用修饰字符所组成的共同语言知识特征,若待过滤的博文中存在符合语言知识特征的片段,即可以判定该片段为不附属于任一领域的无效博文片段。
表1
领域名称 新词列表
房地产 乐居、豪宅、房企、限购、获批、拿地、均价、看房、绿城、回迁房
IT 苦逼、码农、微盘、电商、插件、集群、源码、翻墙、宕机、极客
体育 娜姐、绝杀、暴扣、引援、意甲、缺阵、控卫、续约、假摔、抢七
财经 薪酬、钱荒、涨停、早盘、估值、散户、摘帽、沪指、炒新、新股
医疗 鼻塞、缝扎、筛查、痘痘、头孢、达菲、脊髓、脊椎、罹患、润肺
S202:针对社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并根据匹配结果,确定该博文与该领域的相关度。
具体地,对于社交网络中待识别用户的每篇博文,可以针对社交网络中的每个领域,将该博文的分词结果中与该领域的特征词库(如表2所示)中的领域特征词相同的词汇作为该博文的特征词;对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在该领域的特征词库中所对应的权重作为该特征词的领域权重。继而,可以根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
实际应用中,可以根据如下公式1,计算出该博文与该领域的相关度St
(公式1)
其中,n为该博文的特征词总数,i为取值1~n的自然数,Wi为该博文的第i个特征词的领域权重,fi为第i个特征词在该博文中出现的频次。
表2
本发明的发明人考虑到,实际应用中,社交网络中的社交内容中往往会有结对出现的领域特征词。因此,为了扩大领域覆盖的词汇量,可以通过结对出现的领域特征词来进一步丰富单条博文的特征词。具体地,针对每个领域,可以对于该领域的特征词库中的每个领域特征词,从特征词库中提取出在该领域的种子博文中经常结对出现的领域特征词,并将结对出现的领域特征词作为该领域的共现词汇组;针对每组共现词汇组,统计出该共现词汇组在该领域的种子博文中的共现频次,若该共现词汇组的共现频次超过设定的共现阈值,则可以将该共现词汇组作为该领域的一组结对的领域共现特征词存储至该领域的共现特征词库中。
因此,作为一种更优的实施方式,在将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词,并针对该博文的每个特征词,统计出该特征词在该博文中出现的频次后,还可以对于该博文的每个特征词,将该特征词与该领域的共现特征词库(如表3所示)中的结对的领域共现特征词进行匹配;若该领域的共现特征词库中存在与该特征词相同的领域共现特征词,则将共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词。
表3
医疗领域的共现特征词 共现权重
切除_术后 233.04
雌激素_合成 152.36
卵巢_阿司匹林 123.56
西医_中成药 122.25
规范化_住院 110.90
升高_术后 96.57
流产_宫外孕 95.87
宫外孕_输卵管 93.23
阳气_气血 92.10
接种_疫苗 91.74
继而,将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,并将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。实际应用中,也可以从特征词库中查找该新的特征词在该领域的特征词库中所对应的权重,并将查找到的权重乘以一定的降权系数后作为该新的特征词的领域权重,以此提高计算出的博文领域相关度的准确度。这样,对于分别由该领域的特征词库和共现特征词库所确定出的特征词,可以根据各特征词的领域权重、各特征词在该博文中出现的频次、以及该博文的特征词总数,计算出该博文与该领域的相关度。
S203:针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与该用户的博文总数的比值,作为该用户与该领域的相关度。
具体地,可以通过如下公式2,计算出该用户与该领域的相关度Su
S u = V C (公式2)
其中,V为与该领域的相关度超过设定阈值的博文的个数,C为该用户的博文总数。当然,实际应用中,也可以将V与C的比值的百分比形式作为该用户与该领域的相关度。
S204:若该用户与该领域的相关度超过设定值,则确定该用户为该领域的专家。其中,设定值是由本领域技术人员根据经验进行设定的。
基于上述社交网络中的领域专家方法,本发明实施例还提供了一种社交网络中的领域专家发现系统,如图3所示,包括:博文分词模块301、领域特征词匹配模块302、博文领域相关度计算模块303、用户领域相关度计算模块304、领域专家确定模块305。
其中,博文分词模块301用于针对社交网络中待识别用户的每篇博文,将该博文进行分词,并输出该博文的分词结果;其中,用户的博文不仅仅是指用户在社交网络上发布的博文,还可以是用户在社交网络上评论、收藏、或转发的博文。
领域特征词匹配模块302用于对于社交网络中待识别用户的每篇博文,针对社交网络中的每个领域,将从博文分词模块301接收的该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并输出该博文与该领域的匹配结果。
博文领域相关度计算模块303用于对于社交网络中待识别用户的每篇博文,针对社交网络中的每个领域,根据领域特征词匹配模块302输出的该博文与该领域的匹配结果,确定该博文与该领域的相关度并输出。
具体地,博文领域相关度计算模块303可以将博文分词模块301输出的该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重。这样,博文领域相关度计算模块303可以针对该博文的每个特征词,根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。例如,可以根据如下公式1,计算出该博文与该领域的相关度St
(公式1)
其中,n为该博文的特征词总数,i为取值1~n的自然数,Wi为该博文的第i个特征词的领域权重,fi为第i个特征词在该博文中出现的频次。
作为一种更优的实施方式,本发明实施例提供的社交网络中的领域专家发现系统中还包括:领域共现特征词匹配模块306(图中未标明)。
其中,领域共现特征词匹配模块306具体用于针对待识别用户的每篇博文,对于博文领域相关度计算模块303确定出的该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配,并输出该博文与各领域的共现特征词库的匹配结果。
这样,博文领域相关度计算模块303还可以针对社交网络中的每个领域,对于确定出的待识别用户的博文的每个特征词,若领域共现特征词匹配模块306输出的该博文与该领域的共现特征词库的匹配结果具体为:该领域的共现特征词库中存在与该特征词相同的领域共现特征词,则将共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词,并将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
继而,博文领域相关度计算模块303针对从该领域的共现特征词库、或特征词库提取出的该博文的每个特征词,统计出该特征词在该博文中出现的频次,并根据该博文的各特征词的领域权重及其在该博文中出现的频次、以及该博文中的特征词的总数,计算出该博文与该领域的相关度。
用户领域相关度计算模块304用于对于社交网络中待识别用户的每篇博文,针对社交网络中的每个领域,根据博文领域相关度计算模块303输出的该博文与该领域的相关度,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与该用户的博文总数的比值,作为该用户与该领域的相关度并输出。
领域专家确定模块305用于针对社交网络中的每个领域,若用户领域相关度计算模块304输出的待识别用户与该领域的相关度超过设定值,则确定该用户为该领域的专家。
更优地,本发明实施例中,社交网络中的领域专家发现系统还包括:特征词库构建模块307。
特征词库构建模块307用于针对社交网络的每个领域,将社交网络中已划分到该领域中的若干个用户作为该领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息,并根据各词汇的频率信息从该种子博文的分词结果中选择出的词汇作为该领域的特征候选词;针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至该领域的特征词库中,并在该领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储;其中,词汇的频率信息具体可以是指词频、文档频率、用户频率。
本发明的技术方案中,对用户在社交网络上发布、评论、收藏、或转发的博文进行过滤分词后,针对每个领域,可以根据预先设置的该领域的特征词库中领域特征词及其权重,可以确定出用户的各博文与该领域的相关度;继而,根据该用户的博文总数、以及与该领域的相关度超过设定阈值的博文总数,计算出该用户与该领域的相关度。这样,若该用户与该领域的相关度超过设定值,则可以将该用户作为该领域的专家。相比现有的人工发现领域专家方法和基于用户分组信息的领域专家发现方法,本发明基于用户的博文来发现领域专家,可以减少发现领域专家的工作量,并提高领域覆盖率和领域专家发现的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种社交网络中的领域专家发现方法,其特征在于,包括:
针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,得到该博文的分词结果,并针对所述社交网络中的每个领域,将该博文的分词结果与该领域的特征词库中的领域特征词进行匹配;根据匹配结果,确定该博文与该领域的相关度;
针对每个领域,统计与该领域的相关度超过设定阈值的该用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度;若所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
2.如权利要求1所述的方法,其特征在于,所述领域的特征词库是预先构建的,具体包括:
将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;
对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息;并根据各词汇的频率信息从该种子博文的分词结果中选择出该领域的特征候选词;
针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;
针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
3.如权利要求1所述的方法,其特征在于,所述根据匹配结果,确定该博文与该领域的相关度,具体包括:
将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;
对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重;
根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
4.如权利要求3所述的方法,其特征在于,所述根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度,具体包括:
根据如下公式1,计算出该博文与该领域的相关度St
S t = &Sigma; i = 1 n ( W i &times; f i ) n (公式1)
其中,n为该博文的特征词总数,i为取值1~n的自然数,Wi为该博文的第i个特征词的领域权重,fi为第i个特征词在该博文中出现的频次。
5.如权利要求3所述的方法,其特征在于,所述将该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词之后,还包括:
对于该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配;若所述共现特征词库中存在与该特征词相同的领域共现特征词,则将所述共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词;以及
将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,并将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
6.如权利要1-5任一所述的方法,其特征在于,所述博文具体是指待识别用户在所述社交网络上发布、评论、收藏、或转发的博文。
7.一种社交网络中的领域专家发现系统,其特征在于,包括:
博文分词模块,用于针对所述社交网络中待识别用户的每篇博文,将该博文进行分词,并输出该博文的分词结果;
领域特征词匹配模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,将所述博文分词模块输出的该博文的分词结果与该领域的特征词库中的领域特征词进行匹配,并输出该博文与该领域的匹配结果;
博文领域相关度计算模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,根据所述领域特征词匹配模块输出的该博文与该领域的匹配结果,确定该博文与该领域的相关度并输出;
用户领域相关度计算模块,用于对于所述用户的每篇博文,针对所述社交网络中的每个领域,根据所述博文领域相关度计算模块输出的该博文与该领域的相关度,统计与该领域的相关度超过设定阈值的所述用户的博文的个数,并将统计出的博文的个数与所述用户的博文总数的比值,作为所述用户与该领域的相关度并输出;
领域专家确定模块,用于针对所述社交网络中的每个领域,若所述用户领域相关度计算模块输出的所述用户与该领域的相关度超过设定值,则确定所述用户为该领域的专家。
8.如权利要求7所述的系统,其特征在于,还包括:
特征词库构建模块,用于将社交网络中已划分到所述领域中的若干个用户作为所述领域的种子用户,并将各种子用户的博文作为该领域的种子博文存储至博文语料集中;对于博文语料集中该领域的每个种子博文,对该种子博文进行分词,统计出该种子博文的分词结果中各词汇的频率信息,并根据各词汇的频率信息从该种子博文的分词结果中选择出的词汇作为该领域的特征候选词;针对该领域的每个特征候选词,统计博文语料集中各领域的种子博文中包含该特征候选词的领域个数,并将统计出的领域个数作为该特征候选词的领域频率;针对该领域的每个特征候选词,根据该特征候选词的频率信息以及领域频率,计算出该特征候选词的特征得分;在判断该特征得分超过预先设定的特征阈值后,将该特征候选词作为该领域的领域特征词存储至所述领域的特征词库中,并在所述领域的特征词库中将该特征得分作为该领域特征词的权重与该领域特征词对应存储。
9.如权利要求7所述的系统,其特征在于,
所述博文领域相关度计算模块具体用于将所述博文分词模块输出的该博文的分词结果中与该领域的特征词库中的领域特征词相同的词汇作为该博文的特征词;对于该博文的每个特征词,统计出该特征词在该博文中出现的频次,并将该特征词在所述特征词库中所对应的权重作为该特征词的领域权重;根据该博文的特征词总数、该博文的各特征词的领域权重以及在该博文中出现的频次,计算出该博文与该领域的相关度。
10.如权利要求9所述的系统,其特征在于,还包括:
领域共现特征词匹配模块,用于针对所述用户的每篇博文,对于所述博文领域相关度计算模块确定出的该博文的每个特征词,将该特征词与该领域的共现特征词库中的领域共现特征词进行匹配,并输出该博文与各领域的共现特征词库的匹配结果;以及
所述博文领域相关度计算模块还用于针对所述社交网络中的每个领域,对于博文的每个特征词,若所述领域共现特征词匹配模块输出的该博文与该领域的共现特征词库的匹配结果具体为:所述共现特征词库中存在与该特征词相同的领域共现特征词,则将所述共现特征词库中与该领域共现特征词结对的词汇作为该博文的新的特征词,并将该特征词在该博文中出现的频次作为该新的特征词在该博文中出现的频次,将该新的特征词在该领域的特征词库中所对应的权重作为该新的特征词的领域权重。
CN201410213795.4A 2014-05-20 2014-05-20 社交网络中的领域专家发现方法和系统 Active CN104035967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410213795.4A CN104035967B (zh) 2014-05-20 2014-05-20 社交网络中的领域专家发现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410213795.4A CN104035967B (zh) 2014-05-20 2014-05-20 社交网络中的领域专家发现方法和系统

Publications (2)

Publication Number Publication Date
CN104035967A true CN104035967A (zh) 2014-09-10
CN104035967B CN104035967B (zh) 2018-05-01

Family

ID=51466737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410213795.4A Active CN104035967B (zh) 2014-05-20 2014-05-20 社交网络中的领域专家发现方法和系统

Country Status (1)

Country Link
CN (1) CN104035967B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502984A (zh) * 2016-10-19 2017-03-15 上海智臻智能网络科技股份有限公司 一种领域新词发现的方法及装置
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN110688405A (zh) * 2019-08-23 2020-01-14 上海科技发展有限公司 基于人工智能的专家推荐方法、装置、终端、及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103681A1 (en) * 2011-10-24 2013-04-25 Xerox Corporation Relevant persons identification leveraging both textual data and social context
CN103309962A (zh) * 2013-05-31 2013-09-18 华东师范大学 一种基于内容相关度和社交影响力的微博服务专家定位方法
CN103631896A (zh) * 2013-11-19 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台下的领域专家发现方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130103681A1 (en) * 2011-10-24 2013-04-25 Xerox Corporation Relevant persons identification leveraging both textual data and social context
CN103309962A (zh) * 2013-05-31 2013-09-18 华东师范大学 一种基于内容相关度和社交影响力的微博服务专家定位方法
CN103631896A (zh) * 2013-11-19 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台下的领域专家发现方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李政泽 等: ""微博用户分类的特征词权重优化及推荐策略"", 《信息网络安全》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502984A (zh) * 2016-10-19 2017-03-15 上海智臻智能网络科技股份有限公司 一种领域新词发现的方法及装置
CN106502984B (zh) * 2016-10-19 2019-05-24 上海智臻智能网络科技股份有限公司 一种领域新词发现的方法及装置
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN110688405A (zh) * 2019-08-23 2020-01-14 上海科技发展有限公司 基于人工智能的专家推荐方法、装置、终端、及介质

Also Published As

Publication number Publication date
CN104035967B (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
de Melo et al. Comparing news articles and tweets about COVID-19 in Brazil: sentiment analysis and topic modeling approach
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN104834731B (zh) 一种自媒体信息的推荐方法及装置
CN106940732A (zh) 一种面向微博的疑似水军发现方法
CN105518658A (zh) 用于将数据记录分组的设备、系统以及方法
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN108334528B (zh) 一种信息推荐方法和装置
Zhang et al. Accessibility of park green space in Wuhan, China: Implications for spatial equity in the post-COVID-19 era
CN106909618A (zh) 一种健康类自媒体上的文章传播综合影响力的计算方法
CN108230169B (zh) 基于社交影响力的信息传播模型及态势感知系统及方法
CN104035967A (zh) 社交网络中的领域专家发现方法和系统
Tran et al. Joint graphical models for date selection in timeline summarization
JP2013061756A (ja) 情報処理システム、情報処理方法、プログラム及び情報記憶媒体
EP2613275B1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN108536866A (zh) 基于话题转移熵的微博隐蔽关键用户分析方法
Canaparo et al. A natural language processing approach for analyzing COVID-19 vaccination response in multi-language and geo-localized tweets
CN106777338A (zh) 一种网络公众号动态传播力综合指数统计方法及其系统
CN104035969B (zh) 社交网络中的特征词库构建方法和系统
CN104063422A (zh) 社交网络中领域的特征词库迭代更新方法和装置
Sadman et al. Understanding the pandemic through mining covid news using natural language processing
CN104933097B (zh) 一种用于检索的数据处理方法和装置
CN102999496A (zh) 建立需求分析模板的方法、搜索需求识别的方法及装置
Mi et al. Text Mining Attitudes toward Climate Change: Emotion and Sentiment Analysis of the Twitter Corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant