CN104035968A

CN104035968A - 基于社交网络的训练语料集的构建方法和装置

Info

Publication number: CN104035968A
Application number: CN201410213819.6A
Authority: CN
Inventors: 李金奎; 谌贻荣
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2014-05-20
Filing date: 2014-05-20
Publication date: 2014-09-10
Anticipated expiration: 2034-05-20
Also published as: CN104035968B

Abstract

本发明公开了一种基于社交网络的训练语料集的构建方法和装置，所述方法包括：对于待构建的训练语料集所属的领域，获取社交网络中该领域的用户群体发布的文本内容；对于获取的每篇文本内容，对该篇文本内容进行分词，将分词后的各词语中与该领域的特征词库中的特征词相同的词语，作为该篇文本内容的特征词；并根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度；将与该领域的相关度大于预设的相关度阈值的文本内容，作为该领域的文本语料加入到该领域的训练语料集中。由于本发明得到的某个领域的训练语料集中的文本语料与该领域的相关度较高，因此，本发明可以提高社交网络中文本内容的分类准确度，并且可以节省人力。

Description

基于社交网络的训练语料集的构建方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于社交网络的训练语料集的构建方法和装置。

背景技术

随着互联网技术的发展，通过社交网络来进行信息的分享、传播以及获取，已成为广大网络用户的主要社交方式之一。例如，通过微博或Twitter(推特)等社交网络，用户可以发布自己的最新动态等内容，也可以评论、收藏或转发其他用户发布的内容。

在实际应用中，社交网络的用户量在不断增大，社交网络中每时每刻都在生成大量的文本内容，这些文本内容往往又涉及到多种不同的领域，例如房地产、体育、医疗等领域。而且，社交网络中喜爱发布某一领域的文本内容的用户通常也较为关注社交网络中该领域的文本内容，因此，社交网络的运营人员往往希望能够将社交网络中生成的大量的文本内容划分到相应的领域中，并将相应领域的文本内容分发给对应的受众，从而可以使得用户获得更好地体验，进而能提升用户的活跃度。

目前对社交网络中的文本内容进行分类的方法通常是：收集若干领域的文本语料后，通过人工方式对收集的每个领域的文本语料进行标注，以确定出与该领域相关度较大的文本语料，加入到该领域的训练语料集中；并针对每个领域，通过TF-IDF、信息增益或卡方检测等方法从该领域的训练语料集中确定出该领域的特征词；将各领域的特征词存入到分类特征词库中；根据分类特征词库以及各领域的训练语料集，采用现有的分类器训练方法(例如SVM分类器训练方法)训练出领域分类器；使用训练的领域分类器对待分类的文本内容进行分类。其中，对于训练领域分类器来说，训练语料集中的文本语料的质量对于训练出的领域分类器的质量影响较大。

目前，得到各领域的训练语料集的方式通常有两种：一种是人工收集社交网络中的若干领域的文本语料，但是人工方式收集文本语料耗时耗力，工作量大；另一种是确定出需要收集文本语料的相关领域后，向相关领域的网站网页定向爬取内容；例如，可向新浪体育、搜狐体育等体育网站的网页爬取体育领域的文本语料。由于相关领域的网站网页的内容是经过网页编辑进行编辑过的，与社交网络中的偏向口语化的文本内容存在较大不同，进而使用基于该方式得到的各领域的文本语料训练出的领域分类器的适用性较差，导致社交网络中文本内容的分类也不够准确。

而且，在得到各领域的训练语料集的过程中，通过人工方式进行语料标注，容易产生因人为主观因素使得某个领域的训练语料集中的文本语料的领域相关度不稳定的问题，进而也容易导致后续基于文本语料集对文本内容进行分类的准确度不高的问题。而且，人工方式进行语料标注也浪费了较多的人力。

因此，有必要提供一种能够提高社交网络中文本内容分类的准确度、且节省人力的训练语料集的构建方法。

发明内容

针对上述现有技术存在的缺陷，本发明实施例提供了一种基于社交网络的训练语料集的构建方法和装置，用以提高社交网络中文本内容分类的准确度，并节省人力。

本发明实施例提供了一种基于社交网络的训练语料集的构建方法，包括：

对于待构建的训练语料集所属的领域，获取所述社交网络中该领域的用户群体发布的文本内容；

对于获取的每篇文本内容，对该篇文本内容进行分词，将分词后的各词语中与该领域的特征词库中的特征词相同的词语，作为该篇文本内容的特征词；并根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度；

将与该领域的相关度大于预设的相关度阈值的文本内容，作为该领域的文本语料加入到该领域的训练语料集中。

较佳地，所述根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度，具体包括：

对于该篇文本内容的每个特征词，统计出该特征词在该篇文本内容中出现的频次，并从该领域的特征词库中查找出该特征词的权重作为该特征词的领域权重；

根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与该领域的相关度。

较佳地，所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与该领域的相关度，具体为：

根据如下公式1，计算出该篇文本内容与该领域的相关度S_t：

S_{i} = \frac{Σ_{i = 1}^{n} (W_{i} \times f_{i})}{\sqrt{n}}

(公式1)

其中，n为该篇文本内容的特征词的总数，i为取值1～n的自然数，W_i为该篇文本内容的第i个特征词的领域权重；f_i为第i个特征词在该篇文本内容中出现的频次。

其中，所述该领域的特征词库是预先构建的：

从文本内容集中获取该领域的各篇种子文本内容；

对于获取的该领域的每篇种子文本内容，对该篇种子文本内容分词，得到该篇种子文本内容分词后的各词语；分别统计出该篇种子文本内容分词后的各词语的词频IF值；并根据统计出的各词语的IF值，从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词；

对于选择出的该领域的每个特征候选词，统计所述文本内容集中的各领域的种子文本内容中包含该特征候选词的领域的个数，将其作为该特征候选词的领域频率；

针对该领域的每个特征候选词，根据该特征候选词的IF值和领域频率，计算该特征候选词的特征得分；若该特征得分超过预设的特征得分阈值，则将该特征候选词及其特征得分，分别作为该领域的特征词及其权重对应存储至该领域的特征词库中；

其中，所述文本内容集中该领域的各篇种子文本内容是预先从所述社交网络中该领域的用户群体中选取若干个用户后，将选取出的各用户发布的文本内容作为该领域的种子文本内容存储在所述文本内容集中的。

本发明实施例还提供了一种领域分类器的训练方法，包括：

将各领域的特征词库中的特征词进行合并，得到分类特征词库，并根据得到的分类特征词库以及各领域的训练语料集训练出领域分类器；其中，一个领域的训练语料集根据如下方法预先构建：

本发明实施例提供了一种基于社交网络的训练语料集的构建装置，包括：

文本内容获取模块，用于对于待构建的训练语料集所属的领域，获取所述社交网络中所述领域的用户群体发布的文本内容；

领域相关度计算模块，用于对于所述文本内容获取模块获取的每篇文本内容，对该篇文本内容进行分词，将分词后的各词语中与所述领域的特征词库中的特征词相同的词语，作为该篇文本内容的特征词；并根据该篇文本内容的特征词，计算该篇文本内容与所述领域的相关度；

训练语料集构建模块，用于将与所述领域的相关度大于预设的相关度阈值的文本内容，作为所述领域的文本语料加入到所述领域的训练语料集中。

较佳地，所述领域相关度计算模块具体用于针对所述文本内容获取模块获取的每篇文本内容，对于该篇文本内容的每个特征词，统计出该特征词在该篇文本内容中出现的频次，并从所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重；根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与所述领域的相关度。

进一步，所述基于社交网络的训练语料集的构建装置，还包括：

特征词库构建模块，用于从文本内容集中获取该领域的各篇种子文本内容；对于获取的该领域的每篇种子文本内容，对该篇种子文本内容分词，得到该篇种子文本内容分词后的各词语；分别统计出该篇种子文本内容分词后的各词语的词频IF值；并根据统计出的各词语的IF值，从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词；对于选择出的该领域的每个特征候选词，统计所述文本内容集中的各领域的种子文本内容中包含该特征候选词的领域的个数，将其作为该特征候选词的领域频率；针对该领域的每个特征候选词，根据该特征候选词的IF值和领域频率，计算该特征候选词的特征得分；若该特征得分超过预设的特征得分阈值，则将该特征候选词及其特征得分，分别作为该领域的领域特征词及其权重对应存储至该领域的特征词库中；其中，所述文本内容集中该领域的各篇种子文本内容是预先从所述社交网络中该领域的用户群体中选取若干个用户后，将选取出的各用户发布的文本内容作为该领域的种子文本内容存储在所述文本内容集中的。

本发明实施例还提供了一种领域分类器的训练装置，包括：

训练语料集构建模块，用于将与所述领域的相关度大于预设的相关度阈值的文本内容，作为所述领域的文本语料加入到所述领域的训练语料集中；

领域分类器训练模块，用于将各领域的特征词库中的特征词进行合并，得到分类特征词库，并根据得到的分类特征词库以及各领域的训练语料集训练出领域分类器。

进一步，所述领域分类器的训练装置，还包括：

本发明的技术方案中，对于社交网络中的一个领域，构建该领域的训练连语料集时，可获取社交网络中该领域的用户群体发布的文本内容后，运用相关算法分别计算获取的这些文本内容与该领域的相关度，将与该领域的相关度较高的文本内容作为该领域的文本语料加入到该领域的训练语料集中。这样，本发明可对于社交网络中的每个领域，得到该领域的训练语料集，且其中的文本内容与该领域的相关度均较高，从而使得基于这些训练语料集训练出的领域分类器的质量较高，进而使得使用训练出的领域分类器对社交网络中的文本内容进行分类的准确度也较高。而且，本发明基于领域的用户群体收集该领域的文本内容的方式，可大大节省人力。

附图说明

图1为本发明实施例的基于社交网络的训练语料集的构建方法的流程图；

图2为本发明实施例的构建领域的特征词库的方法的流程图；

图3为本发明实施例的基于社交网络的训练语料集的构建装置的内部结构框图；

图4为本发明实施例的领域分类器的训练装置的内部结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。

本发明的发明人发现，社交网络的运营人员通常可以获得社交网络中的用户的领域信息，例如通过社交网络中用户的标签、分组信息、用户认证的归属行业或者用户间的关注关系/粉丝关系等获得用户所属的领域。而且，社交网络中的用户所属的领域往往有很多种，例如房地产领域、体育领域、医疗领域等；在本文中，将属于同一领域的各用户称为该领域的用户群体；通常，某一领域的用户群体较为喜爱发布一些与该领域相关的文本内容。

由此，本发明的发明人考虑到，对于社交网络中的某个领域，可以收集该领域的用户群体发布的文本内容，将收集的文本内容加入到该领域的基础语料集中。由于某个领域的用户群体可能也会发布与该领域无关或者与相关度较低的文本内容，因此，进一步考虑到在得到基础语料集后，再运用相关算法对该领域的基础语料集中的文本内容进行筛选，筛选出与该领域相关度较高的文本内容加入到该领域的训练语料集中。本发明在得到某个领域的训练语料集的过程中，基于社交网络中的用户群体来获取大量的文本内容，并自动对获取的文本内容进行筛选，避免了人工收集文本语料和人工进行语料标注，大大节省了人力。由于本发明得到的各领域的训练语料集中的文本内容与相应领域的相关度较高，因此，基于这些训练语料集训练出的领域分类器的质量较高，进而使得使用训练出的领域分类器对社交网络中的文本内容进行分类的准确度也较高。

下面结合附图详细说明本发明的技术方案。

在本发明实施例中，在对社交网络中的文本内容进行分类之前，需要预先构建各领域的训练语料集，并基于得到的各领域的训练语料集训练出领域分类器，从而使用训练出的领域分类器对社交网络中的文本内容进行分类。具体地，对于各待构建的训练语料集所属的领域中的任一领域A，构建领域A的训练语料集的方法的流程，如图1所示，具体包括如下步骤：

S101：对于待构建的训练语料集所属的领域A，获取社交网络中领域A的用户群体发布的文本内容。

具体地，在本步骤中，对于待构建的训练语料集所属的领域A，获取社交网络中领域A的用户群体发布的文本内容，将获取的文本内容加入到领域A的基础语料集中。较优地，为加快训练语料集的构建速度，还可以从领域A的用户群体中选取出设定数量的用户，获取选取去的用户在设定时间段内发布的文本内容。例如，对于房地产领域，获取社交网络中100或1000个房地产领域的用户在一个月内发布的文本内容。

其中，社交网络的运营人员可预先根据用户的标签、分组信息、认证的归属行业、或者社交网络中的各用户间的关注关系/粉丝关系等，确定出若干个领域的用户群体。例如，若某一个用户认证的归属行业为房地产，则可将该用户确定为房地产领域的用户；再如，某一个用户的标签为网球运动员，则可将该用户确定为体育领域的用户。在社交网络中存在着大量的用户，而每个用户又可以发布成千上万篇文本内容，基于此，由运营人员确定若干个领域的用户群体后便可得到大量的文本内容；若采用现有技术的人工收集语料的方式，则需要人工分别对这些文本内容进行领域确定，因此本发明可大大减少工作量，并大大节省人力。

由于一些社交网络(例如微博)本身的规则设计问题，用户所发布的单篇文本内容的字数可能存在限制，因此对于用户转发、评论类的文本内容，本发明还将用户转发或评论的原始文本内容也作为用户发布的文本内容，从而实现了对用户发布的文本内容的丰富。

S102：对于获取的每篇文本内容，确定该篇文本内容的特征词，并计算该篇文本内容与领域A的相关度。

具体地，对于获取的领域A的用户群体发布的每篇文本内容，可根据现有的分词方法以及通用的分词词库，对该篇文本内容进行分词；将分词后的各词语与领域A的特征词库中的特征词进行匹配，得到该篇文本内容的特征词，也就是将分词后的各词语中与领域A的特征词库中的特征词相同的词语作为该篇文本内容的特征词。

其中，领域A的特征词库可以由本领域技术人员根据实际需求选取能够表征领域A的特征的词语作为领域A的特征词后，将选取出的领域A的特征词存储到领域A的特征词库中，并根据经验为领域A的特征词库中的各特征词分别设置相应的权重。此外，领域A的特征词库还可以根据如下图2所示的方法来获得。例如，下表1示出了医疗领域和化妆造型领域的特征词库。

表1

对于获取的每篇文本内容，确定该篇文本内容的特征词之后，可根据该篇文本内容的特征词，计算该篇文本内容与领域A的相关度，具体可以为：对于该篇文本内容的每个特征词，统计出该特征词在该篇文本内容中出现的频次，并从领域A的特征词库中查找出该特征词的权重作为该特征词的领域权重；根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与领域A的相关度。

其中，根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算该篇文本内容与领域A的相关度的一种方法可以是：根据如下公式1计算出该篇文本内容与领域A(即发布该篇文本内容的用户所属的领域)的相关度S_t：

S_{i} = \frac{Σ_{i = 1}^{n} (W_{i} \times f_{i})}{\sqrt{n}}

(公式1)

此外，还可以简单地将该篇文本内容的特征词的总数与领域A的特征词库中的特征词的总数的比值，作为该篇文本内容与领域A的相关度。

进一步，由于社交网络中的文本内容中往往会存在一些特有字符或修饰字符。例如，微博中的字符会把紧跟它之后的文字当成一个人名，自动生成一个指向该用户的链接，用于在微博中提及某用户；成对出现的#号字符之间的文字表示搜索关键字；//表示该博文是经过哪些人的转发而来的；<>用来标示用户在博文中提到的网址链接内容。这些字符以及这些字符所标示的文本内容片段往往在社交网络的文本内容中大量出现，但与各领域的相关度通常较弱，因此，为保证后续分词以及确定文本内容的领域相关度的准确性，可以在对文本内容进行分词之前，根据预先设置的过滤规则，对文本内容进行过滤处理，以过滤掉文本内容中的特征字符和修饰字符以及这些字符所标示的文本内容片段(即与各领域的相关度较弱的无效文本内容片段)。

而且，在实际应用中，由于社交网络的新媒体属性，社交网络中的文本内容中很容易出现大量的新鲜词语，因此为保证对文本内容进行分词的质量，还可以在对文本内容分词之前，预先统计出各领域的新词添加到对文本内容分词所使用的分词词库中，以提高分词的准确性，进而提高对文本内容进行分类的准确性。例如，下表2示出了一些领域的新词。

表2

领域	新词
		房地产	乐居、豪宅、房企、限购、获批、拿地、均价、看房、绿城、回迁房
IT	苦逼、码农、微盘、电商、插件、集群、源码、翻墙、宕机、极客
		体育	娜姐、绝杀、暴扣、引援、意甲、缺阵、控卫、续约、假摔、抢七
财经	薪酬、钱荒、涨停、早盘、估值、散户、摘帽、沪指、炒新、新股
		医疗	鼻塞、缝扎、筛查、痘痘、头孢、达菲、脊髓、脊椎、罹患、润肺

较优地，在计算领域A的用户群体发布的文本内容与领域A的相关度之前，还可以对该篇文本内容的特征词进行扩充丰富，具体为：对于得到的该篇文本内容的每个特征词，查找出领域A的共现特征词库中与该特征词相对应的词语，将其作为该篇文本内容的新的特征词，并将该特征词在该篇文本内容中出现的频次，作为该新的特征词在该文本内容中出现的频次，将该新的特征词在领域A的特征词库中所对应的权重作为该新的特征词的领域权重。其中，针对每个领域，该领域的共现特征词库中预先存储有频繁在该领域的文本内容中共同出现的若干对词语(两两对应的词语)；由此，这种基于领域的共现特征词库对文本内容的特征词进行扩充丰富的方式，可以更为准确计算出文本内容与相应的领域的相关度，从而使得后续确定出的相应的领域的训练语料集中的文本语料的领域相关度更高。

例如，下表3示出了医疗领域的共现权重(反映共同出现的频繁度)较大的10对词语。

表3

词语对	共现权重
		切除_术后	233.04
雌激素_合成	152.36
		卵巢_阿司匹林	123.56
西医_中成药	122.25
		规范化_住院	110.90
升高_术后	96.57
		流产_宫外孕	95.87
宫外孕_输卵管	93.23
		阳气_气血	92.10
接种_疫苗	91.74

S103：将与领域A的相关度大于预设的相关度阈值的文本内容，作为领域A的文本语料加入到领域A的训练语料集中。

其中，预设的相关度阈值具体可以由本领域技术人员根据实际需求以及经验进行设定。这样，在本步骤中可以去除领域A的基础语料集中与领域A无关或者与领域A的相关度较低的文本内容，而将与领域A的相关度较高的文本内容作为领域A的文本语料加入到领域A的训练语料集中。

根据步骤S101～S103，可以得到社交网络中的每个领域的训练语料集。而且，对于社交网络中的每个领域而言，得到的该领域的训练语料集中的文本内容与该领域的相关度较高。之后，可基于得到的各领域的训练语料集，训练出社交网络中文本内容分类所使用的领域分类器。

具体地，本发明实施例提供的领域分类器的训练方法为：将各领域的特征词库中的特征词进行合并，得到分类特征词库；根据得到的分类特征词库以及根据上述图1所示的方法构建的各领域的训练语料集训练出领域分类器。其中，各领域的特征词库中的特征词可以是由本领域技术人员确定出来的，也可以是根据如下图2所示的方法确定出来的；而且，具体可根据得到的分类特征词库以及各领域的训练语料集，采用现有的分类器训练方法训练出领域分类器；例如，采用SVM(Support Vector Machine，支持向量机)分类器训练方法，训练出SVM领域分类器。

从而，针对社交网络中待分类的文本内容，可以使用上述训练出的领域分类器，对待分类的文本内容进行分类。其中，如何根据训练出的领域分类器对待分类的文本内容进行分类为本领域技术人员所熟知，此处不再赘述。由于训练领域分类器所使用的各领域的训练语料集的质量较高(即一个领域的训练语料集中的文本内容与该领域的相关度较高)，因此训练出的领域分类器的质量也较好，进而使用训练出的领域分类器进行分类的准确度也较高。

针对社交网络中的各领域中的任一领域A，确定领域A的特征词库的方法的流程如图2所示，具体包括如下步骤：

S201：从文本内容集中获取领域A的各篇种子文本内容。

具体地，文本内容集中领域A的各篇种子文本内容是预先从社交网络中领域A的用户群体中选取若干个用户，将选取出的各用户发布的文本内容，作为领域A的种子文本内容存储在文本内容集中，并将选取出的各用户作为领域A的种子用户。

S202：对于获取的领域A的每个种子文本内容，对该篇种子文本内容进行分词，并从分词后的各词语中选择出领域A的特征候选词。

具体地，对于获取的领域A的每篇种子文本内容，进行下述操作：对该篇种子文本内容分词，得到该篇种子文本内容分词后的各词语；分别统计出该篇种子文本内容分词后的各词语的频率信息，词语的频率信息包括IF(TermFrequency，词频)值；之后，根据统计出的各词语的频率信息，从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词，也就是将统计出的各词语中IF值大于预设的词频阈值的词语，确定为该领域的特征候选词；进一步，词语的频率信息还可包括文档频率值和用户频率值，则可将统计出的各词语中IF值大于预设的词频阈值、文档频率值大于设定的文档频率阈值且用户频率值大于预设的用户频率阈值的词语，确定为该领域的特征候选词。

其中，对于获取的领域A的一篇种子文本内容分词后的一个词语，该词语的IF值指的是该词语在文本内容集中领域A的各篇种子文本内容中出现的次数；该词语的文档频率值指的是文本内容集中领域A的各篇种子文本内容中包含该词语的种子文本内容的篇数；该词语的用户频率值指的是文本内容集中领域A的各种子用户中谈及该词语(谈及该词语即发布的种子文本内容中包含该词语)的种子用户的个数，换言之，该词语的用户频率指的是文本内容集中领域A的各种子文本内容中包含该词语的种子用户的个数。

S203：统计选择出的领域A的每个特征候选词的领域频率。

具体地，对于选择出的领域A的每个特征候选词，统计文本内容集中的各领域的种子文本内容中包含该特征候选词的领域的个数，将其作为该特征候选词的领域频率。

例如，领域A为医疗领域，医疗领域的一个特征候选词“医生”未出现在文本内容集中的、医疗领域之外的领域的种子文本内容中，则可确定医疗领域的特征候选词“医生”的领域频率为1。

S204：根据领域A的每个特征候选词的频率信息和领域频率，确定出领域A的特征词及其权重存储至领域A的特征词库中。

具体地，针对领域A的每个特征候选词，根据该特征候选词的频率信息和领域频率，计算该特征候选词的特征得分。其中，对于一个特征候选词，计算该特征候选词的特征得分的一种方法是：为该特征候选词的频率信息(包括IF值、文档频率值、用户频率)设置大于零的权重值，为该特征候选词的领域频率设置小于零的权重值后，将该特征候选词的频率信息、领域频率分别乘以为各自设置的权重值后相加，将相加得到的和作为该特征候选词的特征得分。事实上，在计算一个特征候选词的特征得分时，只要使得该特征候选词的频率信息对特征得分的影响为正影响，该特征候选词的领域频率对特征得分的影响为负影响即可。

在得到领域A的每个特征候选词的特征得分之后，对于领域A的每个特征候选词，若该特征候选词的特征得分超过预设的特征得分阈值，则将该特征候选词及其特征得分，分别作为该领域的特征词及其权重对应存储至该领域的特征词库中；从而，得到了领域A的特征词库。

基于上述的基于社交网络的训练语料集的构建方法，本发明实施例还提供了一种基于社交网络的训练语料集的构建装置，其内部结构框图如图3所示，具体包括：文本内容获取模块301、领域相关度计算模块302和训练语料集构建模块303。

文本内容获取模块301用于对于待构建的训练语料集所属的领域，获取社交网络中该领域的用户群体发布的文本内容。

领域相关度计算模块302用于对于文本内容获取模块301获取的每篇文本内容，对该篇文本内容进行分词，将分词后的各词语中与所述领域(即待构建的训练语料集所属的领域)的特征词库中的特征词相同的词语，作为该篇文本内容的特征词；并根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度。具体地，领域相关度计算模块302具体用于针对文本内容获取模块301获取的每篇文本内容，对于该篇文本内容的每个特征词，统计出该特征词在该篇文本内容中出现的频次，并从该领域的特征词库中查找出该特征词的权重作为该特征词的领域权重；根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与该领域的相关度。较佳地，领域相关度计算模块302可针对文本内容获取模块301获取的每篇文本内容，根据如下公式1，计算出该篇文本内容与待构建的训练语料集所属的领域的相关度S_t：

S_{i} = \frac{Σ_{i = 1}^{n} (W_{i} \times f_{i})}{\sqrt{n}}

(公式1)

训练语料集构建模块303用于将与待构建的训练语料集所属的领域的相关度大于预设的相关度阈值的文本内容，作为该领域的文本语料加入到该领域的训练语料集中。

进一步，上述的基于社交网络的训练语料集的构建装置还包括：特征词库构建模块304。

特征词库构建模块304用于从文本内容集中获取该领域的各篇种子文本内容；对于获取的该领域的每篇种子文本内容，对该篇种子文本内容分词，得到该篇种子文本内容分词后的各词语；分别统计出该篇种子文本内容分词后的各词语的频率信息；并根据统计出的各词语的频率信息，从该篇种子文本内容分词后的各词语中选择出该领域的特征候选词；对于选择出的该领域的每个特征候选词，统计文本内容集中的各领域的种子文本内容中包含该特征候选词的领域的个数，将其作为该特征候选词的领域频率；针对该领域的每个特征候选词，根据该特征候选词的频率信息和领域频率，计算该特征候选词的特征得分；若该特征得分超过预设的特征得分阈值，则将该特征候选词及其特征得分，分别作为该领域的领域特征词及其权重对应存储至该领域的特征词库中；其中，所述频率信息包括IF值；文本内容集中该领域的各篇种子文本内容是预先从社交网络中该领域的用户群体中选取若干个用户后，将选取出的用户发布的文本内容作为该领域的种子文本内容存储在文本内容集中的。

基于上述的领域分类器的训练方法，本发明实施例提供的领域分类器的训练装置的内部结构框图，如图4所示，具体包括：领域分类器训练模块404、以及上述的基于社交网络的训练语料集的构建装置中的文本内容获取模块301、领域相关度计算模块302和训练语料集构建模块303。

其中，领域分类器训练模块404用于将各领域的特征词库中的特征词进行合并，得到分类特征词库，并根据得到的分类特征词库以及各领域的训练语料集训练出领域分类器。

进一步，领域分类器的训练装置还可包括：上述的基于社交网络的训练语料集的构建装置中的特征词库构建模块304。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读取存储介质中，如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于社交网络的训练语料集的构建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据该篇文本内容的特征词，计算该篇文本内容与该领域的相关度，具体包括：

3.如权利要求2所述的方法，其特征在于，所述根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与该领域的相关度，具体为：

根据如下公式1，计算出该篇文本内容与该领域的相关度S_t：

S_{i} = \frac{Σ_{i = 1}^{n} (W_{i} \times f_{i})}{\sqrt{n}}

(公式1)

4.如权利要求1-3任一所述的方法，其特征在于，所述该领域的特征词库是预先构建的：

从文本内容集中获取该领域的各篇种子文本内容；

5.一种领域分类器的训练方法，其特征在于，包括：

6.一种基于社交网络的训练语料集的构建装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，

所述领域相关度计算模块具体用于针对所述文本内容获取模块获取的每篇文本内容，对于该篇文本内容的每个特征词，统计出该特征词在该篇文本内容中出现的频次，并从所述领域的特征词库中查找出该特征词的权重作为该特征词的领域权重；根据该篇文本内容的每个特征词在该篇文本内容中出现的频次以及领域权重，计算出该篇文本内容与所述领域的相关度。

8.如权利要求6或7所述的装置，其特征在于，还包括：

9.一种领域分类器的训练装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，还包括：