CN104063422A - 社交网络中领域的特征词库迭代更新方法和装置 - Google Patents

社交网络中领域的特征词库迭代更新方法和装置 Download PDF

Info

Publication number
CN104063422A
CN104063422A CN201410213846.3A CN201410213846A CN104063422A CN 104063422 A CN104063422 A CN 104063422A CN 201410213846 A CN201410213846 A CN 201410213846A CN 104063422 A CN104063422 A CN 104063422A
Authority
CN
China
Prior art keywords
field
user
text content
feature
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410213846.3A
Other languages
English (en)
Other versions
CN104063422B (zh
Inventor
李金奎
谌贻荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201410213846.3A priority Critical patent/CN104063422B/zh
Publication of CN104063422A publication Critical patent/CN104063422A/zh
Application granted granted Critical
Publication of CN104063422B publication Critical patent/CN104063422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种社交网络中领域的特征词库迭代更新方法和装置,所述方法包括:根据社交网络中领域的用户群体发布的文本内容,对该领域的特征词库进行迭代更新;其中一次迭代更新过程包括:对于该领域的用户群体中的每个用户,根据当前的该领域的特征词库计算该用户发布的每篇文本内容与该领域的相关度;根据该用户发布的每篇文本内容与该领域的相关度,计算该用户与该领域的相关度;从该领域的用户群体中确定出与该领域的相关度大于第一相关度阈值的用户,将确定出的用户发布的、与该领域的相关度大于第二相关度阈值的文本内容作为该领域的语料,从中提取出该领域的特征词,得到该领域的特征词库。本发明可以提高领域的特征词库的准确度。

Description

社交网络中领域的特征词库迭代更新方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种社交网络中领域的特征词库迭代更新方法和装置。
背景技术
随着互联网技术的发展,通过社交网络来进行信息的分享、传播以及获取,已成为广大网络用户的主要社交方式之一。例如,通过微博或Twitter(推特)等社交网络,用户可以发布自己的最新动态等内容,也可以评论、收藏或转发其他用户发布的内容。
在实际应用中,通过对微博等社交网络的观察和分析发现,在社交网络中分布着大大小小的不同领域的社交圈。而对于社交网络中不同的领域,运营人员通常会为每个领域建立一个特征词库,以对社交网络中存在的大量的用户进行领域划分或者对社交网络中用户发布的文本内容进行分类等。其中,领域的特征词库中存储有能够表征该领域的文本内容的特征的词语,即特征词。而且,运营人员还可以根据各领域的特征词挖掘出各领域的高专业性的专家,为社交网络提供领域专家扩展服务,并为垂直领域项目提供数据支撑。
现有存在一种人工构建特征词库的方法,具体为:对于社交网络中的每个领域,人工收集整理一些与该领域相关的语料(比如社交网络中用户发布的该领域的文本内容),根据通用分词词库对收集的语料进行分词后,对分词结果进行人工审核,将符合人工审核条件的词语作为该领域的特征词存储至特征词库中。其中,通用分词词库为现有常用分词器所采用的分词词库。实际应用中,人工收集的语料只能覆盖少数领域,且收集的语料与领域的相关度存在较大的浮动,导致通过上述人工构建特征词库的方法所提取出的特征词库的领域覆盖率和准确度都不高;而且,通过人工收集和人工审核进行特征词库的构建,存在工作量大、且耗费时间长的不足。
为了减少构建特征词库的工作量及耗费时间,现有还提出了一种基于网页爬取内容的特征词库构建方法,其主要是针对每个领域,利用自动获取网页内容的网络爬虫程序去网络上爬取一个或几个与该领域相关的网页作为语料存储至该领域的语料库中;之后,通过本领域技术人员常用的N-gram模型或分词器对爬取的网页进行分词后,通过TF-IDF(term frequency–inverse document frequency,词频-逆文档频率)统计方法确定出该领域的特征词,存储到该领域的特征词库中。然而,由于相关领域的网站网页的内容是经过网页编辑进行编辑过的,与社交网络中的偏向口语化的文本内容存在较大不同,因此基于网页爬虫爬取的语料构建的特征词库应用于社交网络中时,其准确度并不高,进而也会对社交网络中的文本内容分类或领域专家确定的准确度等产生影响。
综上所述,现有的社交网络中领域的特征词库的准确度不够高。
发明内容
针对上述现有技术存在的缺陷,本发明实施例提供了一种社交网络中领域的特征词库迭代更新方法和装置,用以提高社交网络中领域的特征词库的准确度。
本发明实施例提供了一种社交网络中领域的特征词库迭代更新方法,包括:
对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括:
对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;
从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料;
从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领域的特征词库,得到本次迭代更新后的所述领域的特征词库。
较佳地,所述根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度,具体包括:
对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。
较佳地,所述根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度,具体包括:
对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;
根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。
较佳地,所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度,具体为:
根据如下公式1,计算出该篇文本内容与所述领域的相关度St
S t = Σ i = 1 n ( W i × f i ) n (公式1)
其中,n为该篇文本内容的特征词的总数,i为取值1~n的自然数,Wi为该篇文本内容的第i个特征词的领域权重;fi为第i个特征词在该篇文本内容中出现的频次。
较佳地,所述根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度,具体包括:
从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度;或者,
从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
本发明实施例还提供了一种社交网络中领域的特征词库迭代更新装置,包括:
迭代控制模块,用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭代完成通知时,将所述计数值加1,并在判定所述计数值不大于设定次数后,发送所述迭代更新通知;
用户领域相关度计算模块,用于接收到所述迭代更新通知后,对于社交网络中待更新特征词库所属的领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;
特征训练语料确定模块,用于根据所述用户领域相关度计算模块计算出 的各用户与所述领域的相关度,从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料进行输出;
特征词库更新模块,用于从所述特征训练语料确定模块输出的素数领域的特征训练语料中提取出所述领域的特征词后,构成本次迭代更新后的所述领域的特征词库,并向所述迭代控制模块发送所述迭代完成通知。
较佳地,所述用户领域相关度计算模块具体包括:
文本内容获取单元,用于对于所述领域的用户群体中的每个用户,获取所述社交网络中该用户发布的各篇文本内容;
文本内容领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度;
用户领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度。
较佳地,文本内容领域相关度计算单元具体用于在针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,得到该篇文本内容的特征词之后,对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。
较佳地,所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
或者,所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相 关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
本发明的技术方案中,对于社交网络中待更新特征词库所属的领域,可根据社交网络中该领域的用户群体中各用户发布的文本内容,对该领域的特征词库进行多次迭代更新。由于进行迭代更新过程中,使用前一次迭代更新后的领域的特征词库,从该领域的用户群体中的各用户发布的文本内容中,确定出与该领域相关度较高的文本内容,确定为该领域的特征训练语料,并从中提取出该领域的特征词构成本次迭代更新后的该领域的特征词库,从而通过逐步提高领域的特征训练语料的质量,对领域的特征词库进行多次迭代更新的方式,可逐步提高领域的特征词库的准确度。
附图说明
图1为本发明实施例的社交网络中的领域的特征词库迭代更新方法的流程图;
图2为本发明实施例的从领域的特征训练语料中提取特征词并构成特征词库的方法流程图;
图3为本发明实施例的社交网络中的领域的特征词库迭代更新装置的内部结构框图;
图4为本发明实施例的用户领域相关度计算模块的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
本发明的技术方案中,对于社交网络中待更新特征词库所属的领域,可根据社交网络中该领域的用户群体中各用户发布的文本内容,对该领域的特 征词库进行多次迭代更新。也就是,使用前一次更新后的领域的特征词库,从该领域的用户群体中各用户发布的文本内容中,确定出与该领域相关度较高的文本内容,再从这些与该领域相关度较高的文本内容(即该领域的特征训练语料)中,提取出该领域的特征词,构成本次迭代更新后的该领域的特征词库,从而通过逐步提高领域的特征训练语料的质量,对领域的特征词库进行多次迭代更新的方式,可逐步提高领域的特征词库的准确度。
下面结合附图详细说明本发明的技术方案。在社交网络中存在着多个领域,对于其中任一个领域A,在对领域A的特征词库进行自动迭代更新之前,可以预先由本领域技术人员根据实际需求选取能够表征领域A的特征的词语作为领域A的特征词后,将选取出的领域A的特征词存储到领域A的特征词库,以作为本发明中领域A的特征词库自动迭代更新的基础特征词库,并且还可根据经验为领域A的基础特征词库中的各特征词分别设置相应的权重。或者,直接采用现有技术的方法得到领域A的特征词库,作为本发明中进行领域A的特征词库自动迭代更新的基础特征词库。例如,下表1示出了医疗领域和化妆造型领域的基础特征词库。
表1
这样,对于社交网络中待更新特征词库所属的领域A,可根据领域A的用户群体发布的文本内容,对领域A的特征词库进行设定次数(大于等于1)的迭代更新。其中一次迭代更新过程包括:对于领域A的用户群体中的每个用户,根据当前的领域A的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与领域A的相关度,计 算出该用户与领域A的相关度;从领域A的用户群体中确定出与领域A的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与领域A的相关度大于预设的第二相关度阈值的文本内容,作为领域A的特征训练语料;从得到的领域A的特征训练语料中提取出领域A的特征词后,更新当前的领域A的特征词库,得到本次迭代更新后的领域A的特征词库。
下面详细介绍本发明实施例提供的社交网络中领域的特征词库迭代更新方法,其方法流程如图1所示,具体包括:
S101:初始化过程中,获取待更新特征词库所属的领域A的用户群体,并令j=1。
具体地,对于社交网络中的各领域,可预先根据社交网络中的各用户按照指定格式填写的标签、认证的归属行业、分组信息,或者用户间的关注关系/粉丝关系等,确定出各领域的用户群体;例如,某个用户认证的归属行业为房地产,可确定该用户所属的领域为房地产领域,进而可将该用户划分到房地产领域的用户群体中;再如,某个用户的标签为网球运动员,可确定该用户所属的领域为体育领域,进而可将该用户划分到体育领域的用户群体中。通常,在社交网络中存在着大量的用户,确定出的每个领域的用户群体中往往也包含大量的用户。
这样,在本步骤中的初始化过程中,可获取待更新特征词库所属的领域A的用户群体;并且,可以将预先确定出的领域A的基础特征词库作为当前的领域A的特征词库。
S102:在领域A的特征词库的第j次迭代更新过程中,对于领域A的用户群体中的每个用户,根据当前的领域A的特征词库,计算该用户发布的每篇文本内容与领域A的相关度,进而根据该用户发布的每篇文本内容与领域A的相关度,计算出该用户与领域A的相关度。
具体地,在领域A的特征词库的第j次迭代更新过程中,对于领域A的用户群体中的每个用户,获取社交网络中该用户发布的各篇文本内容;对于获取的该用户发布的每篇文本内容,可进行如下处理:根据现有的分词方法以及通用的分词词库,对该篇文本内容进行分词;将分词后的各词语与当前的领域A的特征词库中的特征词进行匹配,得到该篇文本内容的特征词,也就是从分词后的各词语中确定出与当前的领域A的特征词库中的特征词相同的词语,作为该篇文本内容的特征词。例如,下表2示出了医疗领域的两篇文本内容的特征词。之后,据该篇文本内容的特征词,计算该篇文本内容与 领域A的相关度。
其中,若j=1,即本次迭代更新为第一次迭代更新,则当前的领域A的特征词库是指预先确定出的领域A的基础特征词库;若j>1,则当前的领域A的特征词库是指j-1次迭代更新后的领域A的特征词库。
表2
上述据该篇文本内容的特征词,计算该篇文本内容与领域A的相关度,体可以为:对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的领域A的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与领域A的相关度。
其中,根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算该篇文本内容与领域A的相关度的一种方法可以是:根据如下公式1计算出该篇文本内容与领域A(即发布该篇文本内容的用户所属的领域)的相关度St
S t = Σ i = 1 n ( W i × f i ) n (公式1)
其中,n为该篇文本内容的特征词的总数,i为取值1~n的自然数,Wi为该篇文本内容的第i个特征词的领域权重;fi为第i个特征词在该篇文本内容中出现的频次。
此外,还可以简单地将该篇文本内容的特征词的总数与领域A的特征词库 中的特征词的总数的比值,作为该篇文本内容与领域A的相关度。
这样,对于领域A的用户群体中的每个用户,计算出该用户发布的每篇文本内容与领域A的相关度之后,可根据该用户发布的每篇文本内容与领域A的相关度,计算出该用户与领域A的相关度,一种方法可以为:从该用户发布的各篇文本内容中,确定出与领域A的相关度大于预设的第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的篇数的比值,作为该用户与领域A的相关度。例如,该用户发布的文本内容的篇数为Cu,其中与领域A的相关度大于第二相关度阈值的文本内容的篇数为Vu,则该用户与领域A的相关度Su如下述公式2所示:
S u = V u C u (公式2)
此外,还可以从该用户发布的各篇文本内容中,确定出与领域A的相关度大于第二相关度阈值的文本内容后,将确定出的各文本内容与领域A的相关度相加,将得到的和与该用户发布的文本内容的总篇数的比值,作为该用户与领域A的相关度。其中,预设的第二相关度阈值具体可以由本领域技术人员根据相关度的计算方法以及实际需求进行设定。
S103:在领域A的特征词库的第j次迭代更新过程中,从领域A的用户群体中确定出与领域A的相关度大于预设的第一相关度阈值的各用户。
其中,预设的第一相关度阈值具体可以由本领域的技术人员根据实际需求进行设定。在本步骤中,还可在j等于设定次数时,将从领域A的用户群体中确定出的、与领域A的相关度大于第一相关度阈值的各用户,确定为领域A的领域专家,从而为社交网络中领域专家推荐等提供支持。
S104:在领域A的特征词库的第j次迭代更新过程中,将确定出的各用户发布的、与领域A的相关度大于预设的第二相关度阈值的文本内容,作为领域A的特征训练语料。
从而,在每一次迭代更新过程中,根据用户与领域A的相关度、用户发布的文本内容与领域A的相关度、以及上一次迭代更新后的领域A的特征词库,确定出领域A的特征训练语料,可以使得确定出的领域A的特征训练语料与领域A的相关度在在多次迭代过程中逐步提高,进而可逐步提高后续提取领域A的特征词的准确性,也就是逐步提高领域A的特征词库的准确度。
进一步,在j等于设定次数时,还可以将确定出的领域A的特征训练语料作为领域A的领域内容,为社交网络中的文本内容分类、高相关度文本内 容推荐等提供支持。例如,将确定出的领域A的领域内容存储到领域A的分类训练语料集中,从而可在得到社交网络中的各领域的分类训练语料集后,进行领域分类器的训练,进而实现对社交网络中的文本内容的分类;再如,将确定出的领域A的领域内容推荐给领域A的用户。
S105:在领域A的特征词库的第j次迭代更新过程中,从得到的领域A的特征训练语料中提取出领域A的特征词后,更新当前的领域A的特征词库,得到本次迭代更新(第j次迭代更新)后的领域A的特征词库。
具体地,在领域A的特征词库的第j次迭代更新过程中,可根据现有的方法(例如IF-IDF方法)从领域A的特征训练语料中提取出领域A的特征词;并根据提取出的领域A的特征词,更新当前的领域A的特征词库,从而得到本次迭代更新(第j次迭代更新)后的领域A的特征词库。此外,还可根据如图2所示的方法得到本次迭代更新(第j次迭代更新)后的领域A的特征词库。
其中,根据提取出的领域A的特征词,更新当前的领域A的特征词库,具体可以为:将当前的领域A的特征词库中的特征词删除后,将提取出的领域A的特征词加入到当前的领域A的特征词库中;或者,将提取出的领域A的特征词与当前的领域A的特征词库中的特征词进行比对,将不包含于当前的领域A的特征词库中的特征词加入到当前的领域A的特征词库中。
S106:令j=j+1。
S107:判断j是否大于设定次数;若是,执行步骤S108,结束迭代;否则,跳转到S102,继续下一次迭代更新。
S108:结束迭代。
从而,基于上述的步骤S101~S107,可实现领域A的特征词库的设定次数的迭代更新,在多次迭代更新过程中,逐步提高了领域A的特征词库的准确度。其中,设定次数具体可以由本领域技术人员根据实际需求进行设定。例如,若需要高准确度的特征词库,可将设定次数设置为一个较大值。
较优地,在上述步骤S102中,计算领域A的用户群体中的一个用户与领域A的相关度的过程中,还可对该用户发布的文本内容进行内容丰富处理和内容过滤处理。其中,由于一些社交网络(例如微博)本身的规则设计问题,该用户所发布的单篇文本内容的字数可能存在限制,因此对于用户转发、评论类的文本内容,还可将用户转发或评论的原始文本内容也作为用户发布的文本内容,从而实现了对用户发布的文本内容的内容丰富处理。
进一步,由于社交网络中的文本内容中往往会存在一些特有字符或修饰字符。例如,微博中的字符会把紧跟它之后的文字当成一个人名,自动生成一个指向该用户的链接,用于在微博中提及某用户;成对出现的#号字符之间的文字表示搜索关键字;//表示该博文是经过哪些人的转发而来的;<>用来标示用户在博文中提到的网址链接内容。这些字符以及这些字符所标示的文本内容片段往往在社交网络的文本内容中大量出现,但与各领域的相关度通常较弱,因此,为保证后续分词以及确定文本内容的领域相关度的准确性,可以在对文本内容进行分词之前,根据预先设置的过滤规则,对文本内容进行内容过滤处理,以过滤掉文本内容中的特征字符和修饰字符以及这些字符所标示的文本内容片段(即与各领域的相关度较弱的无效文本内容片段)。
而且,在实际应用中,由于社交网络的新媒体属性,社交网络中的文本内容中很容易出现大量的新鲜词语,因此为保证对文本内容进行分词的质量,还可以在对文本内容分词之前,预先统计出各领域的新词添加到对文本内容分词所使用的分词词库中,以提高分词的准确性,进而提高对文本内容进行分类的准确性。例如,下表3示出了一些领域的新词。
表3
领域 新词
房地产 乐居、豪宅、房企、限购、获批、拿地、均价、看房、绿城、回迁房
IT 苦逼、码农、微盘、电商、插件、集群、源码、翻墙、宕机、极客
体育 娜姐、绝杀、暴扣、引援、意甲、缺阵、控卫、续约、假摔、抢七
财经 薪酬、钱荒、涨停、早盘、估值、散户、摘帽、沪指、炒新、新股
医疗 鼻塞、缝扎、筛查、痘痘、头孢、达菲、脊髓、脊椎、罹患、润肺
较优地,在计算领域A的用户群体中的一个用户发布的一篇文本内容与领域A的相关度之前,还可以对该篇文本内容的特征词进行扩充丰富,具体为:对于得到的该篇文本内容的每个特征词,查找出领域A的共现特征词库中与该特征词相对应的词语,将其作为该篇文本内容的新的特征词,并将该特征词在该篇文本内容中出现的频次,作为该新的特征词在该文本内容中出现的频次,将该新的特征词在当前的领域A的特征词库中所对应的权重作为该新的特征词的领域权重。其中,针对每个领域,该领域的共现特征词库中预先存储有频繁在该领域的文本内容中共同出现的若干对词语(两两对应的 词语);由此,这种基于领域的共现特征词库对文本内容的特征词进行扩充丰富的方式,可以更为准确计算出文本内容与相应的领域的相关度,从而使得后续确定出的相应的领域的训练语料集中的文本语料的领域相关度更高。
例如,下表4示出了医疗领域的共现权重(反映共同出现的频繁度)较大的10对词语。
表4
词语对 共现权重
切除_术后 233.04
雌激素_合成 152.36
卵巢_阿司匹林 123.56
西医_中成药 122.25
规范化_住院 110.90
升高_术后 96.57
流产_宫外孕 95.87
宫外孕_输卵管 93.23
阳气_气血 92.10
接种_疫苗 91.74
在上述的领域A的特征词库的第j次迭代更新过程中得到领域A的特征训练语料后,采用相同的方法得到社交网络中的其它各领域的特征训练语料;之后,将各该领域的特征训练语料(即文本内容)分别作为各自领域的种子文本内容加入到一个文本内容集中。基于得到的文本内容集,得到第j次迭代更新后的领域A的特征词库,该方法具体包括如下步骤:
S201:从文本内容集中获取领域A的各篇种子文本内容。
S202:对于获取的领域A的每个种子文本内容,对该篇种子文本内容进行分词,并从分词后的各词语中选择出领域A的特征候选词。
具体地,对于获取的领域A的每篇种子文本内容,进行下述操作:对该篇种子文本内容分词,得到该篇种子文本内容分词后的各词语;分别统计出该篇种子文本内容分词后的各词语的频率信息,词语的频率信息包括IF(Term Frequency,词频)值;之后,根据统计出的各词语的频率信息,从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词,也就是将统计出的 各词语中IF值大于预设的词频阈值的词语,确定为该领域的特征候选词;进一步,词语的频率信息还可包括文档频率值和用户频率值,则可将统计出的各词语中IF值大于预设的词频阈值、文档频率值大于设定的文档频率阈值且用户频率值大于预设的用户频率阈值的词语,确定为该领域的特征候选词。
其中,对于获取的领域A的一篇种子文本内容分词后的一个词语,该词语的IF值指的是该词语在文本内容集中领域A的各篇种子文本内容中出现的次数;该词语的文档频率值指的是文本内容集中领域A的各篇种子文本内容中包含该词语的种子文本内容的篇数;该词语的用户频率值指的是文本内容集中领域A的各种子用户中谈及该词语(谈及该词语即发布的种子文本内容中包含该词语)的种子用户的个数,换言之,该词语的用户频率指的是文本内容集中领域A的各种子文本内容中包含该词语的种子用户的个数。
S203:统计选择出的领域A的每个特征候选词的领域频率。
具体地,对于选择出的领域A的每个特征候选词,统计文本内容集中的各领域的种子文本内容中包含该特征候选词的领域的个数,将其作为该特征候选词的领域频率。
例如,领域A为医疗领域,医疗领域的一个特征候选词“医生”未出现在文本内容集中的、医疗领域之外的领域的种子文本内容中,则可确定医疗领域的特征候选词“医生”的领域频率为1。
S204:根据领域A的每个特征候选词的频率信息和领域频率,确定出领域A的特征词及其权重存储至领域A的特征词库中。
具体地,针对领域A的每个特征候选词,根据该特征候选词的频率信息和领域频率,计算该特征候选词的特征得分。其中,对于一个特征候选词,计算该特征候选词的特征得分的一种方法是:为该特征候选词的频率信息(包括IF值、文档频率值、用户频率)设置大于零的权重值,为该特征候选词的领域频率设置小于零的权重值后,将该特征候选词的频率信息、领域频率分别乘以为各自设置的权重值后相加,将相加得到的和作为该特征候选词的特征得分。事实上,在计算一个特征候选词的特征得分时,只要使得该特征候选词的频率信息对特征得分的影响为正影响,该特征候选词的领域频率对特征得分的影响为负影响即可。
在得到领域A的每个特征候选词的特征得分之后,对于领域A的每个特征候选词,若该特征候选词的特征得分超过预设的特征得分阈值,则将该特征候选词及其特征得分,分别作为A领域的特征词及其权重对应存储至领域 A的特征词库中;从而,实现从领域A的特征训练语料中提取出领域A的特征词,得到第j次迭代更新后的领域A的特征词库。
基于上述的社交网络中领域的特征词库迭代更新方法,本发明实施例提供的社交网络中领域的特征词库迭代更新装置的内部结构框图,如图3所示,具体包括:迭代控制模块301、用户领域相关度计算模块302、特征训练语料确定模块303和特征词库更新模块304。
迭代控制模块301用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭代完成通知后,将计数值加1,并在判定计数值不大于设定次数后,发送迭代更新通知。
用户领域相关度计算模块302用于接收到迭代控制模块301发送的迭代更新通知后,对于社交网络中待更新特征词库所属的领域的用户群体中的每个用户;根据当前的待更新特征词库所属的领域的特征词库,计算该用户发布的每篇文本内容与该领域的相关度;并根据该用户发布的每篇文本内容与该领域的相关度,计算出该用户与该领域的相关度。
特征训练语料确定模块303用于根据用户领域相关度计算模块302计算出的各用户与待更新特征词库所属的领域的相关度,从该领域的用户群体中,确定出与该领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与该领域的相关度大于预设的第二相关度阈值的文本内容,作为该领域的特征训练语料进行输出。
特征词库更新模块304用于从所述特征训练语料确定模块303输出的、待更新特征词库所属的领域的特征训练语料中,提取出该领域的特征词后,构成本次迭代更新后的该领域的特征词库,并向迭代控制模块301发送迭代完成通知。
其中,上述的用户领域相关度计算模块302的内部结构框图如图4所示,具体包括:文本内容获取单元401、文本内容领域相关度计算单元、用户领域相关度计算单元403。
文本内容获取单元401用于对于待更新特征词库所属的领域的用户群体中的每个用户,获取社交网络中该用户发布的各篇文本内容。
文本内容领域相关度计算单元402用于针对待更新特征词库所属的领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的该领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容 的特征词,计算该篇文本内容与该领域的相关度。具体地,文本内容领域相关度计算单元402在针对待更新特征词库所属的领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,得到该篇文本内容的特征词之后,对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的该领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与该领域的相关度。
用户领域相关度计算单元403用于针对待更新特征词库所属的领域的用户群体中的每个用户,根据该用户发布的每篇文本内容与该领域的相关度,计算出该用户与该领域的相关度。具体地,用户领域相关度计算单元403针对待更新特征词库所属的领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与该领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与该领域的相关度。或者,用户领域相关度计算单元403针对待更新特征词库所属的领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与该领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与该领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与该领域的相关度。
本发明的技术方案中,对于社交网络中待更新特征词库所属的领域,可根据社交网络中该领域的用户群体中各用户发布的文本内容,对该领域的特征词库进行多次迭代更新。由于进行迭代更新过程中,使用前一次迭代更新后的领域的特征词库,从该领域的用户群体中的各用户发布的文本内容中,确定出与该领域相关度较高的文本内容,确定为该领域的特征训练语料,并从中提取出该领域的特征词构成本次迭代更新后的该领域的特征词库,从而通过逐步提高领域的特征训练语料的质量,对领域的特征词库进行多次迭代更新的方式,可逐步提高领域的特征词库的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种社交网络中领域的特征词库迭代更新方法,其特征在于,包括:
对于社交网络中待更新特征词库所属的领域,根据所述领域的用户群体发布的文本内容,对所述领域的特征词库进行设定次数的迭代更新;其中,一次迭代更新过程包括:
对于所述领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;
从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料;
从得到的所述领域的特征训练语料中提取出所述领域的特征词后,更新当前的所述领域的特征词库,得到本次迭代更新后的所述领域的特征词库。
2.如权利要求1所述的方法,其特征在于,所述根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度,具体包括:
对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度。
3.如权利要求2所述的方法,其特征在于,所述根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度,具体包括:
对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;
根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。
4.如权利要求3所述的方法,其特征在于,所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度,具体为:
根据如下公式1,计算出该篇文本内容与所述领域的相关度St
S t = &Sigma; i = 1 n ( W i &times; f i ) n (公式1)
其中,n为该篇文本内容的特征词的总数,i为取值1~n的自然数,Wi为该篇文本内容的第i个特征词的领域权重;fi为第i个特征词在该篇文本内容中出现的频次。
5.如权利要求1-4任一所述的方法,其特征在于,所述根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度,具体包括:
从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度;或者,
从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
6.一种社交网络中领域的特征词库迭代更新装置,其特征在于,包括:
迭代控制模块,用于在设置计数值初始值为0后,发送迭代更新通知;以及在接收到迭代完成通知时,将所述计数值加1,并在判定所述计数值不大于设定次数后,发送所述迭代更新通知;
用户领域相关度计算模块,用于接收到所述迭代更新通知后,对于社交网络中待更新特征词库所属的领域的用户群体中的每个用户,根据当前的所述领域的特征词库,计算该用户发布的每篇文本内容与所述领域的相关度;并根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度;
特征训练语料确定模块,用于根据所述用户领域相关度计算模块计算出的各用户与所述领域的相关度,从所述领域的用户群体中确定出与所述领域的相关度大于预设的第一相关度阈值的各用户,将确定出的各用户发布的、与所述领域的相关度大于预设的第二相关度阈值的文本内容,作为所述领域的特征训练语料进行输出;
特征词库更新模块,用于从所述特征训练语料确定模块输出的所述领域的特征训练语料中提取出所述领域的特征词后,构成本次迭代更新后的所述领域的特征词库,并向所述迭代控制模块发送所述迭代完成通知。
7.如权利要求6所述的装置,其特征在于,所述用户领域相关度计算模块具体包括:
文本内容获取单元,用于对于所述领域的用户群体中的每个用户,获取所述社交网络中该用户发布的各篇文本内容;
文本内容领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,对该篇文本内容进行分词,从分词后的各词语中确定出与当前的所述领域的特征词库中的特征词相同的词语,作为该篇文本内容的特征词;并根据该篇文本内容的特征词,计算该篇文本内容与所述领域的相关度;
用户领域相关度计算单元,用于针对所述领域的用户群体中的每个用户,根据该用户发布的每篇文本内容与所述领域的相关度,计算出该用户与所述领域的相关度。
8.如权利要求7所述的装置,其特征在于,
文本内容领域相关度计算单元具体用于在针对所述领域的用户群体中的每个用户,对于获取的该用户发布的每篇文本内容,得到该篇文本内容的特征词之后,对于该篇文本内容的每个特征词,统计出该特征词在该篇文本内容中出现的频次,并从当前的所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重;根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重,计算出该篇文本内容与所述领域的相关度。
9.如权利要求7或8所述的装置,其特征在于,
所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容的篇数,将其与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
10.如权利要求7或8所述的装置,其特征在于,
所述用户领域相关度计算单元具体用于针对所述领域的用户群体中的每个用户,从该用户发布的各篇文本内容中,确定出与所述领域的相关度大于第二相关度阈值的文本内容,将确定出的各文本内容与所述领域的相关度之和与该用户发布的文本内容的总篇数的比值,作为该用户与所述领域的相关度。
CN201410213846.3A 2014-05-20 2014-05-20 社交网络中领域的特征词库迭代更新方法和装置 Active CN104063422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410213846.3A CN104063422B (zh) 2014-05-20 2014-05-20 社交网络中领域的特征词库迭代更新方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410213846.3A CN104063422B (zh) 2014-05-20 2014-05-20 社交网络中领域的特征词库迭代更新方法和装置

Publications (2)

Publication Number Publication Date
CN104063422A true CN104063422A (zh) 2014-09-24
CN104063422B CN104063422B (zh) 2018-02-27

Family

ID=51551137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410213846.3A Active CN104063422B (zh) 2014-05-20 2014-05-20 社交网络中领域的特征词库迭代更新方法和装置

Country Status (1)

Country Link
CN (1) CN104063422B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095377A (zh) * 2015-06-30 2015-11-25 小米科技有限责任公司 即时消息的处理方法及装置
CN105956013A (zh) * 2016-04-21 2016-09-21 世纪禾光科技发展(北京)有限公司 网站关键词提取方法、装置和系统
CN110704391A (zh) * 2019-09-23 2020-01-17 车智互联(北京)科技有限公司 一种词库构建方法及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021866A (zh) * 2007-03-13 2007-08-22 白云 电子文档与某一领域相关程度的判别方法及其应用
EP2339480A1 (en) * 2009-12-14 2011-06-29 Alcatel Lucent Communication system for selecting a list of contacts belonging to a social network of a user
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103425763A (zh) * 2013-08-05 2013-12-04 微梦创科网络科技(中国)有限公司 基于sns的用户推荐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021866A (zh) * 2007-03-13 2007-08-22 白云 电子文档与某一领域相关程度的判别方法及其应用
EP2339480A1 (en) * 2009-12-14 2011-06-29 Alcatel Lucent Communication system for selecting a list of contacts belonging to a social network of a user
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103425763A (zh) * 2013-08-05 2013-12-04 微梦创科网络科技(中国)有限公司 基于sns的用户推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万源: "《基于语义统计分析的网络舆情挖掘技术研究》", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095377A (zh) * 2015-06-30 2015-11-25 小米科技有限责任公司 即时消息的处理方法及装置
CN105956013A (zh) * 2016-04-21 2016-09-21 世纪禾光科技发展(北京)有限公司 网站关键词提取方法、装置和系统
CN110704391A (zh) * 2019-09-23 2020-01-17 车智互联(北京)科技有限公司 一种词库构建方法及计算设备

Also Published As

Publication number Publication date
CN104063422B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
Mathur et al. Emotional analysis using twitter data during pandemic situation: Covid-19
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
JP6398510B2 (ja) 実体のリンク付け方法及び実体のリンク付け装置
US20190163690A1 (en) Keyword extraction method, apparatus and server
CN104035968B (zh) 基于社交网络的训练语料集的构建方法和装置
US9881059B2 (en) Systems and methods for suggesting headlines
CN108733816B (zh) 一种微博突发事件检测方法
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
Mena et al. On the Bayesian mixture model and identifiability
Noro et al. Twitter user rank using keyword search
Whitney Bootstrapping via graph propagation
CN104063422B (zh) 社交网络中领域的特征词库迭代更新方法和装置
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
CN111680505B (zh) 一种Markdown特征感知的无监督关键词提取方法
CN104615685B (zh) 一种面向网络话题的热度评价方法
Hussain et al. A technique for perceiving abusive bangla comments
Suryaningrum Comparison of the TF-IDF method with the count vectorizer to classify hate speech
CN112434126B (zh) 一种信息处理方法、装置、设备和存储介质
CN104035967A (zh) 社交网络中的领域专家发现方法和系统
CN108763400B (zh) 基于对象行为和主题偏好的对象划分方法及装置
CN112487303B (zh) 一种基于社交网络用户属性的主题推荐方法
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant