CN103092956B

CN103092956B - 社交网络平台上话题关键词自适应扩充的方法及系统

Info

Publication number: CN103092956B
Application number: CN201310018004.8A
Authority: CN
Inventors: 周异; 叶辉; 徐勇; 周曲; 陈凯
Original assignee: Shanghai Jiaotong University
Current assignee: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD; Xiamen Shang Ji Network Technology Co., Ltd.
Priority date: 2013-01-17
Filing date: 2013-01-17
Publication date: 2016-02-10
Anticipated expiration: 2033-01-17
Also published as: CN103092956A

Abstract

本发明公开一种社交网络平台上话题关键词自适应扩充的方法及系统。本发明通过分析社交网络信息内容中词之间的相关性，提取隐含和相关话题的关键词建立关键词扩充词汇库。该方法通过标注少量的关键词建立种子关键词库，增量自反馈收集样本信息建立语料库，通过样本信息获取词频，利用词频和多层过滤算法得到与种子关键词相关性高的相关词语，最后选择合适的词汇加入到关键词扩充库中。本发明区别于传统的网页类关键词扩充机制，这种方法是建立在社交网络信息内容的特点上，对关键词的选择具有更高的灵活性和自适应性。

Description

社交网络平台上话题关键词自适应扩充的方法及系统

技术领域

本发明涉及社交网络领域，具体地说，涉及的是一种社交网络平台上话题关键词自适应扩充的方法及系统。

背景技术

在Web2.0时代，社交网络日益成为人们网络生活的重要组成部分。社交网络是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过WEB、WAP以及各种客户端组件个人社区，以140字左右的文字更新信息，并实现即时分享。从国外的twitter到国内的新浪，对用户的技术门槛都很低，同时社交网络api的存在使得用户可以在各种移动终端上登录社交网络发布消息，这也加速了社交网络的发展。

基于关键词的信息搜索是目前用户查找网络信息的重要手段。但是因为语言的多样性，不同的人对相同的事物有不同的描述，为了避免因为描述不准确或不完整而造成的信息查询不准确，关键词扩充方法是搜索引擎解决这个问题的关键手段。现有的网页关键词扩充方法主要是收集搜索引擎中大量用户的关键词查询使用记录，根据这些关键词共同出现的频率高低来组合扩充。由于网页信息内容繁杂稀疏，因此现有的这些方法只使用了搜索词汇的关系，而没有根据搜索结果的内容之间的相关性来扩充关键词，仍然无法实现话题挖掘和个性化的用户搜索。

随着社交网络的快速发展，社交网络信息搜索成为信息获取的新来源。与网页信息内容多讨论话题比较分散相比，社交网络信息内容简短，谈论话题比较专一，在同一话题中出现的词汇的相关性高。通过分析社交网络信息内容中词之间的相关性，不仅可以提取到相关话题的关键词，而且可以提取到跟该话题高度相关的隐含话题的关键词，比如通过汽车相关的关键词，不仅可以找到汽车品牌和汽车厂商等显性相关话题，而且还可以找到保险、修理等隐含相关话题的关键词。利用社交网络信息内容中词汇之间的相关性扩充关键词库，是实现话题挖掘和个性化搜索的一种新的重要途径。

中国专利申请号为201010545864.3、公开号为101986310A的发明专利，公开了一种更新网络用语词典的方法，该专利主要利用某些特殊应用的网站如搜索引擎网站收集到的信息，根据最新的用户查找词汇来收集新的网络用语，该专利方法对最新流行语的获取比较有效，但不能解决收集某话题相关或隐含相关的的词语。而本发明的目标是挖掘跟话题相关的所有词语，不仅是语义相关的，而且是隐含相关的。本发明不采用传统的语义相关去寻找，而是根据其它词汇和少量标注的话题种子关键词在社交网络信息中共同出现的频率来提取，充分挖掘实际应用的信息之间的相关性。

发明内容

本发明的目的在于针对目前社交网络平台上关键字搜索自适应扩充的情况，提出一种社交网络平台上话题关键词自适应扩充的方法及系统。该方法区别于传统的扩充机制，这种方法是建立在分析社交网络话题自身特点上，具有更高的主动性和精确性。

根据本发明的一个方面，提供一种社交网络平台上话题关键词自适应扩充的方法，通过分析社交网络信息内容中词之间的相关性，提取隐含和相关话题的关键词建立关键词扩充词汇库。该方法通过标注少量的关键词建立种子关键词库，增量自反馈收集样本信息建立语料库，通过样本信息获取词频，利用词频和多层过滤得到与种子关键词相关性高的相关词语，最后选择合适的词汇加入到关键词扩充库中。

本发明方法具体包括以下步骤：

步骤1：基于半监督的话题语料库和话题种子词库的建立；

a.人工标注少量话题相关的正负样本，建立语料库，并且标注少量话题关键词建立种子词库。在微博社交平台，一个样本是指整条微博，而在博客或论坛，是指一个段落。所述的标注少量关键词建立种子词库，少量关键词指不少于5个话题词汇，种子词库集合为KW:{K₁,…,K_i，…,K_M},M为种子词的个数。。

b.语料库半自动增加。利用种子词在社交网络上搜索相关的话题信息，对搜索到的信息进行TF-IDF话题相关性匹配，匹配结果按相关性数值从高到低排列，结果再由人工判断是否跟话题相关，根据人工判断结果将信息加入到正负样本库中，扩充样本库；

步骤2：对语料库中正样本信息进行分词，得到不包含种子词的分词词汇集合W；对正样本信息进行分词，是指采用常用分词软件对信息文字进行去形容词、虚词等操作。具体实现如下：假设语料库现有正样本信息N条，表示为{Y₁，Y₂，…,Y_N}，分词后得到所有词汇集合W{w₁,w₂,…w_i，..}，其中w_i≠w_j当i≠j,，且集合W不包括集合KW中的任意元素。

步骤3：分别确定集合KW和集合W中种子词词频和分词词汇的词频，选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1。具体过程如下：

a.统计非种子词汇w_i与种子词K_j在正样本中的出现频率，某词汇的出现频率被定义为包含该词汇的样本数与正样本总数之比。其中，非种子词汇出现频率用f_{i_1}表示，种子词汇出现频率用K_{fi_1}表示：

b.计算非种子词汇w_i与种子词K_j在正样本中出现的相对词频，为某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比。非种子词汇相对词频用f_{i_2}表示，种子词汇相对词频用K_{fj_2}表示：

c.取t1=min({K_{fi_1}}),取最小的种子出现频率；t2=min({K_{fj_2}}),取最小的种子相对词频；

d.选择词汇集合W中满足下列条件的词构成初选集合G1：f_{i_1}>t1或f_{i_2}>t2。

步骤4：确定初选集合G1中每个词g_i与每个种子词K_j在正样本信息中的相关性，选取相关性大于阈值t3的词汇构成集合G2。过程如下：

a.初选集合G1中每个词g_i与每个种子词K_j在正样本间的相关性定义为：

公式为：

Rel (g_{i}, K_{j}) = \frac{freq (g_{i}, K_{j})}{freq (K_{j}) + freq (g_{i}) - freq (g_{i}, K_{j})},

freq(g_i，K_j)表示种子词K_j和词汇g_i同时出现的正样本数，freq(K_j)表示包含种子词K_j的正样本数，freq(g_i)表示包含词汇g_i的正样本数量；

b.对集合G1中的每一个词g_i，获取它与所有种子词{K₁,K₂,…,K_M}的最大相关值Vmax_i=max{Rel(g_i,K₁),Rel(g_i，K₂),…,Rel(g_i，K_M)}，选取Vmax_i>阈值t3的词，构成集合G2。其中阈值t3为经验值，可以取a*min(Rel(K_i,K_j），其中K_i和K_j为任意2个不同的种子词，a取[0.3,1]，具体取值可以根据样本学习调整。

步骤5：判决集合G2中词汇的影响力，选取影响力大于阈值t4的词汇构成新集合G3。具体为：

a.G2中每个词Gi的影响力：

Value (Gij) = Σ_{j = 1}^{N} kwj * Rel (G_{i}, k_{j}),

其中

Rel (G_{i}, k_{j}) = \frac{freq (G_{i}, k_{j})}{freq (k_{j}) + freq (G_{i}) - freq (G_{i}, k_{j})}

b.将集合G2中Value（Gij）>阈值t4的词，组合成词汇集合G3。阈值t4的取值为经验值，阈值t4的取值为c*t3，其中c的范围为[0.5,2]，具体取值可以跟据实验结果反馈调整。

步骤6：对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字。对集合G3中的单字进行合并成可能的词，假设集合G3中包含单字{z1,z2,..,z6}，合并词方法如下：

将最相关的字两两组合成词{z1z2,z2z1,…,z1z6,z6z1}，获取每个词在样本中出现的次数，次数大于阈值m，合并成词加入到集合G3，并且去除对应的单字。阈值m为大于5的经验值，但具体取值可以根据实验结果调整。

步骤7：将集合G3中的所有词加入到关键词扩充库中。

根据本发明的另一个方面，提供一种社交网络平台上话题关键词自适应扩充的系统，所述系统包括：

话题语料库和种子词库建立模块：该模块用于根据社交网络平台上的话题，建立基于半监督的话题语料库和话题种子词库，并将结果输出到语料库信息分词模块；

语料库信息分词模块：该模块对所述语料库中正样本信息进行分词，得到不包含种子词的分词词汇集合W，并将结果输出到过滤低频词汇模块；

过滤低频词汇模块：该模块确定集合KW和集合W中种子词词频和分词词汇的词频，选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1，并将结果输出到过滤低相关词汇模块；

过滤低相关词汇模块：该模块确定初选集合G1中每个词g_i与每个种子词K_j在正样本信息中的相关性，选取相关性大的词汇构成集合G2，并将结果输出到综合相关性判决模块；

综合相关性判决模块：该模块确定集合G2中词汇的影响力，选取影响力大于阈值t4的词汇构成新集合G3，并将结果输出到单字合并模块；

单字合并模块：对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字，最后将集合G3中的所有词加入到关键词扩充库中。

与现有技术相比，本发明具有如下的有益效果：

通过分析社交网络信息内容中词之间的相关性，不仅可以提取到相关话题的关键词，而且可以提取到跟该话题高度相关的隐含话题的关键词，本发明跳出传统的词汇库建立思路，利用社交网络本身内容特点来查找关键词，通过社交网络搜集与种子词关联性最大的关键词，然后利用多层过滤自适应方法构建并完善关键词词库。本发明给出了一种基于种子词交互关系分析的关键词自适应扩充技术，相比于传统的扩词方法，充分利用实际应用中词之间的相关性，拥有更高的主动性和准确性，是实现话题挖掘和个性化搜索的一种重要新方法。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法实施例流程图。

图2为本发明系统实施例模块图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，一种社交网络平台上话题关键词自适应扩充的方法的流程图。图2提供实现该方法的系统模块图。

本实施例结合图2所示的各个具体模块描述，图1所示的方法实现过程。具体包括：

模块1：话题语料库和种子词库建立模块

该模块进行话题语料库和话题种子词库的建立，实现包括：

a.人工标注少量话题相关的正负样本，建立语料库，并且标注少量话题关键词建立种子词库。在微博社交平台，一个样本是指整条微博，而在博客或论坛，是指一个段落。所述的标注少量关键词建立种子词库，少量关键词指不少于5个话题词汇。

b.语料库半自动增加。当语料库数目较少时，利用种子词在社交网络上搜索相关的话题信息，对搜索到的信息进行TF-IDF话题相关性匹配，，匹配结果按相关性数值从高到低排列，再由人工判断是否跟话题相关，根据人工判断结果将信息加入到正负样本库中，扩充样本库；

上述模块1的输出连接到模块2即过滤低频词汇模块。

模块2：语料库信息分词模块

该模块进行语料库信息分词处理。具体包括：

对语料库中正样本信息进行分词，得到所有样本分词后的集合W；对正样本信息进行分词，是指采用常用分词软件对信息文字进行去形容词、虚词等操作。具体实现如下：假设语料库现有正样本信息N条，表示为{Y₁，Y₂，…,Y_N}，分词后得到所有词汇集合W{w₁,w₂，…w_i，..}，其中w_i≠w_j当i≠j。

上述模块2的输出连接到模块3即过滤低频词汇模块。

模块3：过滤低频词汇模块

该模块实现过滤低频词汇，具体包括：

确定集合W中种子词词频和分词词汇的词频，选取满足下列条件的分词词汇构成集合G1。具体过程如下：

a.统计种子词汇集合KW和非种子词汇集合W中每个词K_j和w_i在正样本中出现的词频定义如下，非种子词频用f_{i_1}表示，种子词频用K_{fj_1}表示：

b.非种子词汇w_i与种子词K_j在正样本中出现的相对词频定义如下：

c.取t1=min({K_{fj_1}}),取最小的种子出现频率，t2=min({K_{fj_2}})，取最小的种子相对词频；

上述模块3的输出连接到模块4即过滤低相关词汇模块。

模块4：过滤低相关词汇模块

该模块实现过滤低相关性词汇。具体包括：

确定初选集合G1中每个词g_i与每个种子词K_j在正样本信息中的相关性，选取满足下列条件的词汇构成集合G2：

a.初选集合G1中每个词g_i与每个种子词K_j在正样本间的相关性定义如下：

公式为：

Rel (g_{i}, K_{j}) = \frac{freq (K_{j}, g_{i})}{freq (K_{j}) + freq (g_{i}) - freq (K_{j}, g_{i})},

freq(K_j，g_i)表示种子词K_j和词汇g_i同时出现的正样本数，freq(K_j)表示包含种子词K_j的正样本数,freq(g_i)表示包含词汇g_i的正样本数量；

b.对集合G1中的每一个词g_i，获取它与所有种子词{K₁,K₂,…,K_M}的最大相关值Vmax_i=max{Rel(g_i,K₁),Rel(g_i，K₂)，…,Rel(g_i，K_M)},选取Vmax_i>阈值t3的词，构成集合G2。其中阈值t3为经验值，可以取a*min(Rel(K_i，K_j)，其中K_i和K_j为任意2个不同的种子词，a取[0.3,1],具体取值可以根据样本学习调整。

上述模块4的输出连接到模块5即综合相关性判决模块。

模块5：综合相关性判决模块

该模块实现综合选取相关性高的词汇。具体包括：

根据定义确定集合G2中词汇的综合影响力，选取影响力较高的词汇构成新集合G3。具体为：

a.G2中每个词Gi的影响力定义为：

Value (Gij) = Σ_{j = 1}^{N} kwj * Rel (Gi, kj),

其中

将集合G2中Value（Gij）>阈值t4的词，组合成词汇集合G3。阈值t4的取值为c*t3,其中c的范围为[0.5,2]，具体取值可以跟据实验结果反馈调整。

上述模块5的输出连接到模块6即单字合并模块。

模块6：单字合并模块

该模块实现单字合并成词。具体包括：

对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字。对集合G3中的单字进行合并成可能的词，假设集合G3中包含单字{z1,z2，..,z6}，合并词方法如下：

最后将单字合并模块处理后的集合G3中的所有词加入到关键词扩充库中。可以用于查找网络信息，实现更好的基于关键词的信息搜索。

综上，本发明利用社交网络信息内容谈论话题专一，在同一话题中出现的词汇的相关性高的特点，通过分析社交网络信息内容中词之间共同出现的统计特征相关性，不仅可以提取到相关话题的关键词，而且可以提取到跟该话题高度相关的隐含话题的关键词，扩充关键词库，是实现话题挖掘和个性化搜索的一种新的重要途径，具有更高的主动性和精确性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种社交网络平台上话题关键词自适应扩充的方法，其特征在于包括以下步骤：

步骤1：基于半监督的话题语料库和话题种子词库的建立；

a.人工标注少量话题相关的正负样本，建立语料库，并且标注少量话题关键词建立种子词库集合KW；

b.语料库半自动增加：利用种子词在社交网络上搜索相关的话题信息，对搜索到的信息进行TF-IDF话题相关性匹配，匹配结果按相关性数值从高到低排列，结果再由人工判断是否跟话题相关，根据人工判断结果将信息加入到正负样本库中，扩充样本库；

步骤2：对语料库中正样本信息进行分词，得到不包含种子词的分词词汇集合W；

步骤3：确定集合KW和W中种子词词频和分词词汇的出现频率和词频，选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1；

某词汇的出现频率被定义为：包含该词汇的正样本数与正样本总数之比；

某词汇的词频被定义为：某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比；

步骤4：确定初选集合G1中每个词g_i与每个种子词K_j在正样本信息中的相关性，选取相关性大于阈值t3的词汇构成集合G2；

步骤5：判决集合G2中词汇的影响力，选取影响力大于阈值t4的词汇构成新集合G3；

步骤6：对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字；

步骤7：将步骤6得到的集合G3中的所有词加入到关键词扩充库中。

2.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法，其特征在于步骤1中：

1.a所述的正负样本，其中正样本是跟话题相关的，负样本是跟话题不相关的；在微博社交平台，一个样本是指整条微博，而在博客或论坛，是指一个段落；

1.b所述的标注少量话题关键词建立种子词库集合KW，少量话题关键词指不少于5个话题关键词，种子词库集合为KW:{K₁,…,K_i,…,K_M},M为种子词的个数。

3.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法，其特征在于步骤2中，对正样本信息进行分词，是指采用常用分词软件对信息文字进行去形容词、虚词操作，具体实现如下：假设语料库现有正样本信息N条，表示为{Y₁，Y₂，…,Y_N}，分词后得到所有词汇集合W{w₁,w₂,…w_i,..}，其中w_i≠w_j当i≠j，且集合W不包括集合KW中的任意元素。

4.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法，其特征在于步骤3中，具体过程如下：

1)统计非种子词汇w_i与种子词K_j在正样本中的出现频率，某词汇的出现频率被定义为包含该词汇的正样本数与正样本总数之比，其中，非种子词汇出现频率用f_{i_1}表示，种子词汇出现频率用K_{fj_1}表示：

2)定义非种子词汇w_i与种子词K_j在正样本中出现的词频，为某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比，非种子词汇词频用f_{i_1}表示，种子词汇词频用K_{fi_2}表示：

3)取t1＝min({K_{fi_1}})，取最小的种子出现频率；t2＝min({K_{fi_2}})，取最小的种子相对词频；

4)选择词汇集合W中满足下列条件的词构成初选集合G1：f_{i_1}>t1或f_{i_2}>t2。

5.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法，其特征在于步骤4中选取相关性大于阈值t3的词汇构成集合G2过程如下：

1)初选集合G1中每个词gi与每个种子词Kj在正样本间的相关性定义为：

公式为：

Re l (g_{i}, K_{j}) = \frac{f r e q (g_{i}, K_{j})}{f r e q (K_{j}) + f r e q (g_{i}) - f r e q (g_{i}, K_{j})},

freq(g_i,K_j)表示种子词K_j和词汇g_i同时出现的正样本数，freq(K_j)表示包含种子词K_j的正样本数，freq(g_i)表示包含词汇g_i的正样本数量；

2)对集合G1中的每一个词g_i，获取它与所有种子词{K₁,K₂,…,K_M}的最大相关值Vmax_i＝max{Rel(g_i,k₁),Rel(g_i,k₂),…,Rel(g_i,K_M)},选取Vmax_i>阈值t3的词，构成集合G2；其中阈值t3为经验值，取a*min(Rel(K_i,K_j)，其中K_i和K_j为任意2个不同的种子词，a取[0.3,1]，具体取值根据样本学习调整。

6.根据权利要求5所述的社交网络平台上话题关键词自适应扩充的方法，其特征在于步骤5中词汇的影响力，其具体为：

1)G2中每个词Gi的影响力定义如下：

V a l u e (G i j) = Σ_{j = 1}^{N} k w j * Re l (G i, k j),

其中

Re l (G_{i}, k_{j}) = \frac{f r e q (G_{i}, k_{j})}{f r e q (k_{j}) + f r e q (G_{i}) - f r e q (G_{i}, k_{j})};

2)将集合G2中Value(Gij)>阈值t4的词，组合成词汇集合G3，阈值t4的取值为经验值，阈值t4的取值为c*t3，其中c的范围为[0.5,2]，具体取值根据实验结果反馈调整。

7.根据权利要求1-6任一项所述的社交网络平台上话题关键词自适应扩充的方法，其特征在于步骤6，具体为：对集合G3中的单字进行合并成可能的词，假设集合G3中包含单字{z1,z2,..,z6}，合并词方法如下：

将最相关的字两两组合成词{z1z2,z2z1,…,z1z6,z6z1}，获取每个词在样本中出现的次数，次数大于阈值m，合并成词加入到集合G3，并且去除对应的单字，阈值m为大于5的经验值，具体取值根据实验结果调整。

8.一种社交网络平台上话题关键词自适应扩充的系统，其特征在于所述系统包括：

语料库信息分词模块：该模块对所述话题语料库中正样本信息进行分词，得到不包含种子词的分词词汇集合W，并将结果输出到过滤低频词汇模块；

过滤低频词汇模块：该模块分别确定集合KW和集合W中种子词词频和分词词汇的词频，选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1，并将结果输出到过滤低相关词汇模块；某词汇的出现频率被定义为：包含该词汇的正样本数与正样本总数之比；某词汇的词频被定义为：某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比；

过滤低相关词汇模块：该模块确定初选集合G1中每个词g_i与每个种子词K_j在正样本信息中的相关性，选取相关性大的词汇构成集合G2，并将结果输出到综合相关性选择模块；所述选取相关性大的词汇构成集合G2是指选取相关性大于阈值t3的词汇构成集合G2，过程如下：

公式为：

Re l (g_{i}, K_{j}) = \frac{f r e q (g_{i}, K_{j})}{f r e q (K_{j}) + f r e q (g_{i}) - f r e q (g_{i}, K_{j})},

2)对集合G1中的每一个词g_i，获取它与所有种子词{K₁,K₂,…,K_M}的最大相关值Vmax_i＝max{Rel(g_i,k₁),Rel(g_i,k₂),…,Rel(g_i,K_M)},选取Vmax_i>阈值t3的词，构成集合G2；其中阈值t3为经验值，取a*min(Rel(K_i,K_j)，其中K_i和K_j为任意2个不同的种子词，a取[0.3,1]，具体取值根据样本学习调整；