CN103092956B - 社交网络平台上话题关键词自适应扩充的方法及系统 - Google Patents

社交网络平台上话题关键词自适应扩充的方法及系统 Download PDF

Info

Publication number
CN103092956B
CN103092956B CN201310018004.8A CN201310018004A CN103092956B CN 103092956 B CN103092956 B CN 103092956B CN 201310018004 A CN201310018004 A CN 201310018004A CN 103092956 B CN103092956 B CN 103092956B
Authority
CN
China
Prior art keywords
word
vocabulary
seed
topic
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310018004.8A
Other languages
English (en)
Other versions
CN103092956A (zh
Inventor
周异
叶辉
徐勇
周曲
陈凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD
Xiamen Shang Ji Network Technology Co., Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310018004.8A priority Critical patent/CN103092956B/zh
Publication of CN103092956A publication Critical patent/CN103092956A/zh
Application granted granted Critical
Publication of CN103092956B publication Critical patent/CN103092956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种社交网络平台上话题关键词自适应扩充的方法及系统。本发明通过分析社交网络信息内容中词之间的相关性,提取隐含和相关话题的关键词建立关键词扩充词汇库。该方法通过标注少量的关键词建立种子关键词库,增量自反馈收集样本信息建立语料库,通过样本信息获取词频,利用词频和多层过滤算法得到与种子关键词相关性高的相关词语,最后选择合适的词汇加入到关键词扩充库中。本发明区别于传统的网页类关键词扩充机制,这种方法是建立在社交网络信息内容的特点上,对关键词的选择具有更高的灵活性和自适应性。

Description

社交网络平台上话题关键词自适应扩充的方法及系统
技术领域
本发明涉及社交网络领域,具体地说,涉及的是一种社交网络平台上话题关键词自适应扩充的方法及系统。
背景技术
在Web2.0时代,社交网络日益成为人们网络生活的重要组成部分。社交网络是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。从国外的twitter到国内的新浪,对用户的技术门槛都很低,同时社交网络api的存在使得用户可以在各种移动终端上登录社交网络发布消息,这也加速了社交网络的发展。
基于关键词的信息搜索是目前用户查找网络信息的重要手段。但是因为语言的多样性,不同的人对相同的事物有不同的描述,为了避免因为描述不准确或不完整而造成的信息查询不准确,关键词扩充方法是搜索引擎解决这个问题的关键手段。现有的网页关键词扩充方法主要是收集搜索引擎中大量用户的关键词查询使用记录,根据这些关键词共同出现的频率高低来组合扩充。由于网页信息内容繁杂稀疏,因此现有的这些方法只使用了搜索词汇的关系,而没有根据搜索结果的内容之间的相关性来扩充关键词,仍然无法实现话题挖掘和个性化的用户搜索。
随着社交网络的快速发展,社交网络信息搜索成为信息获取的新来源。与网页信息内容多讨论话题比较分散相比,社交网络信息内容简短,谈论话题比较专一,在同一话题中出现的词汇的相关性高。通过分析社交网络信息内容中词之间的相关性,不仅可以提取到相关话题的关键词,而且可以提取到跟该话题高度相关的隐含话题的关键词,比如通过汽车相关的关键词,不仅可以找到汽车品牌和汽车厂商等显性相关话题,而且还可以找到保险、修理等隐含相关话题的关键词。利用社交网络信息内容中词汇之间的相关性扩充关键词库,是实现话题挖掘和个性化搜索的一种新的重要途径。
中国专利申请号为201010545864.3、公开号为101986310A的发明专利,公开了一种更新网络用语词典的方法,该专利主要利用某些特殊应用的网站如搜索引擎网站收集到的信息,根据最新的用户查找词汇来收集新的网络用语,该专利方法对最新流行语的获取比较有效,但不能解决收集某话题相关或隐含相关的的词语。而本发明的目标是挖掘跟话题相关的所有词语,不仅是语义相关的,而且是隐含相关的。本发明不采用传统的语义相关去寻找,而是根据其它词汇和少量标注的话题种子关键词在社交网络信息中共同出现的频率来提取,充分挖掘实际应用的信息之间的相关性。
发明内容
本发明的目的在于针对目前社交网络平台上关键字搜索自适应扩充的情况,提出一种社交网络平台上话题关键词自适应扩充的方法及系统。该方法区别于传统的扩充机制,这种方法是建立在分析社交网络话题自身特点上,具有更高的主动性和精确性。
根据本发明的一个方面,提供一种社交网络平台上话题关键词自适应扩充的方法,通过分析社交网络信息内容中词之间的相关性,提取隐含和相关话题的关键词建立关键词扩充词汇库。该方法通过标注少量的关键词建立种子关键词库,增量自反馈收集样本信息建立语料库,通过样本信息获取词频,利用词频和多层过滤得到与种子关键词相关性高的相关词语,最后选择合适的词汇加入到关键词扩充库中。
本发明方法具体包括以下步骤:
步骤1:基于半监督的话题语料库和话题种子词库的建立;
a.人工标注少量话题相关的正负样本,建立语料库,并且标注少量话题关键词建立种子词库。在微博社交平台,一个样本是指整条微博,而在博客或论坛,是指一个段落。所述的标注少量关键词建立种子词库,少量关键词指不少于5个话题词汇,种子词库集合为KW:{K1,…,Ki,…,KM},M为种子词的个数。。
b.语料库半自动增加。利用种子词在社交网络上搜索相关的话题信息,对搜索到的信息进行TF-IDF话题相关性匹配,匹配结果按相关性数值从高到低排列,结果再由人工判断是否跟话题相关,根据人工判断结果将信息加入到正负样本库中,扩充样本库;
步骤2:对语料库中正样本信息进行分词,得到不包含种子词的分词词汇集合W;对正样本信息进行分词,是指采用常用分词软件对信息文字进行去形容词、虚词等操作。具体实现如下:假设语料库现有正样本信息N条,表示为{Y1,Y2,…,YN},分词后得到所有词汇集合W{w1,w2,…wi,..},其中wi≠wj当i≠j,,且集合W不包括集合KW中的任意元素。
步骤3:分别确定集合KW和集合W中种子词词频和分词词汇的词频,选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1。具体过程如下:
a.统计非种子词汇wi与种子词Kj在正样本中的出现频率,某词汇的出现频率被定义为包含该词汇的样本数与正样本总数之比。其中,非种子词汇出现频率用fi_1表示,种子词汇出现频率用Kfi_1表示:
b.计算非种子词汇wi与种子词Kj在正样本中出现的相对词频,为某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比。非种子词汇相对词频用fi_2表示,种子词汇相对词频用Kfj_2表示:
c.取t1=min({Kfi_1}),取最小的种子出现频率;t2=min({Kfj_2}),取最小的种子相对词频;
d.选择词汇集合W中满足下列条件的词构成初选集合G1:fi_1>t1或fi_2>t2。
步骤4:确定初选集合G1中每个词gi与每个种子词Kj在正样本信息中的相关性,选取相关性大于阈值t3的词汇构成集合G2。过程如下:
a.初选集合G1中每个词gi与每个种子词Kj在正样本间的相关性定义为:
公式为: Rel ( g i , K j ) = freq ( g i , K j ) freq ( K j ) + freq ( g i ) - freq ( g i , K j ) ,
freq(gi,Kj)表示种子词Kj和词汇gi同时出现的正样本数,freq(Kj)表示包含种子词Kj的正样本数,freq(gi)表示包含词汇gi的正样本数量;
b.对集合G1中的每一个词gi,获取它与所有种子词{K1,K2,…,KM}的最大相关值Vmax_i=max{Rel(gi,K1),Rel(gi,K2),…,Rel(gi,KM)},选取Vmax_i>阈值t3的词,构成集合G2。其中阈值t3为经验值,可以取a*min(Rel(Ki,Kj),其中Ki和Kj为任意2个不同的种子词,a取[0.3,1],具体取值可以根据样本学习调整。
步骤5:判决集合G2中词汇的影响力,选取影响力大于阈值t4的词汇构成新集合G3。具体为:
a.G2中每个词Gi的影响力:
Value ( Gij ) = Σ j = 1 N kwj * Rel ( G i , k j ) , 其中
Rel ( G i , k j ) = freq ( G i , k j ) freq ( k j ) + freq ( G i ) - freq ( G i , k j )
b.将集合G2中Value(Gij)>阈值t4的词,组合成词汇集合G3。阈值t4的取值为经验值,阈值t4的取值为c*t3,其中c的范围为[0.5,2],具体取值可以跟据实验结果反馈调整。
步骤6:对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字。对集合G3中的单字进行合并成可能的词,假设集合G3中包含单字{z1,z2,..,z6},合并词方法如下:
将最相关的字两两组合成词{z1z2,z2z1,…,z1z6,z6z1},获取每个词在样本中出现的次数,次数大于阈值m,合并成词加入到集合G3,并且去除对应的单字。阈值m为大于5的经验值,但具体取值可以根据实验结果调整。
步骤7:将集合G3中的所有词加入到关键词扩充库中。
根据本发明的另一个方面,提供一种社交网络平台上话题关键词自适应扩充的系统,所述系统包括:
话题语料库和种子词库建立模块:该模块用于根据社交网络平台上的话题,建立基于半监督的话题语料库和话题种子词库,并将结果输出到语料库信息分词模块;
语料库信息分词模块:该模块对所述语料库中正样本信息进行分词,得到不包含种子词的分词词汇集合W,并将结果输出到过滤低频词汇模块;
过滤低频词汇模块:该模块确定集合KW和集合W中种子词词频和分词词汇的词频,选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1,并将结果输出到过滤低相关词汇模块;
过滤低相关词汇模块:该模块确定初选集合G1中每个词gi与每个种子词Kj在正样本信息中的相关性,选取相关性大的词汇构成集合G2,并将结果输出到综合相关性判决模块;
综合相关性判决模块:该模块确定集合G2中词汇的影响力,选取影响力大于阈值t4的词汇构成新集合G3,并将结果输出到单字合并模块;
单字合并模块:对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字,最后将集合G3中的所有词加入到关键词扩充库中。
与现有技术相比,本发明具有如下的有益效果:
通过分析社交网络信息内容中词之间的相关性,不仅可以提取到相关话题的关键词,而且可以提取到跟该话题高度相关的隐含话题的关键词,本发明跳出传统的词汇库建立思路,利用社交网络本身内容特点来查找关键词,通过社交网络搜集与种子词关联性最大的关键词,然后利用多层过滤自适应方法构建并完善关键词词库。本发明给出了一种基于种子词交互关系分析的关键词自适应扩充技术,相比于传统的扩词方法,充分利用实际应用中词之间的相关性,拥有更高的主动性和准确性,是实现话题挖掘和个性化搜索的一种重要新方法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明方法实施例流程图。
图2为本发明系统实施例模块图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,一种社交网络平台上话题关键词自适应扩充的方法的流程图。图2提供实现该方法的系统模块图。
本实施例结合图2所示的各个具体模块描述,图1所示的方法实现过程。具体包括:
模块1:话题语料库和种子词库建立模块
该模块进行话题语料库和话题种子词库的建立,实现包括:
a.人工标注少量话题相关的正负样本,建立语料库,并且标注少量话题关键词建立种子词库。在微博社交平台,一个样本是指整条微博,而在博客或论坛,是指一个段落。所述的标注少量关键词建立种子词库,少量关键词指不少于5个话题词汇。
b.语料库半自动增加。当语料库数目较少时,利用种子词在社交网络上搜索相关的话题信息,对搜索到的信息进行TF-IDF话题相关性匹配,,匹配结果按相关性数值从高到低排列,再由人工判断是否跟话题相关,根据人工判断结果将信息加入到正负样本库中,扩充样本库;
上述模块1的输出连接到模块2即过滤低频词汇模块。
模块2:语料库信息分词模块
该模块进行语料库信息分词处理。具体包括:
对语料库中正样本信息进行分词,得到所有样本分词后的集合W;对正样本信息进行分词,是指采用常用分词软件对信息文字进行去形容词、虚词等操作。具体实现如下:假设语料库现有正样本信息N条,表示为{Y1,Y2,…,YN},分词后得到所有词汇集合W{w1,w2,…wi,..},其中wi≠wj当i≠j。
上述模块2的输出连接到模块3即过滤低频词汇模块。
模块3:过滤低频词汇模块
该模块实现过滤低频词汇,具体包括:
确定集合W中种子词词频和分词词汇的词频,选取满足下列条件的分词词汇构成集合G1。具体过程如下:
a.统计种子词汇集合KW和非种子词汇集合W中每个词Kj和wi在正样本中出现的词频定义如下,非种子词频用fi_1表示,种子词频用Kfj_1表示:
b.非种子词汇wi与种子词Kj在正样本中出现的相对词频定义如下:
c.取t1=min({Kfj_1}),取最小的种子出现频率,t2=min({Kfj_2}),取最小的种子相对词频;
d.选择词汇集合W中满足下列条件的词构成初选集合G1:fi_1>t1或fi_2>t2。
上述模块3的输出连接到模块4即过滤低相关词汇模块。
模块4:过滤低相关词汇模块
该模块实现过滤低相关性词汇。具体包括:
确定初选集合G1中每个词gi与每个种子词Kj在正样本信息中的相关性,选取满足下列条件的词汇构成集合G2:
a.初选集合G1中每个词gi与每个种子词Kj在正样本间的相关性定义如下:
公式为: Rel ( g i , K j ) = freq ( K j , g i ) freq ( K j ) + freq ( g i ) - freq ( K j , g i ) ,
freq(Kj,gi)表示种子词Kj和词汇gi同时出现的正样本数,freq(Kj)表示包含种子词Kj的正样本数,freq(gi)表示包含词汇gi的正样本数量;
b.对集合G1中的每一个词gi,获取它与所有种子词{K1,K2,…,KM}的最大相关值Vmax_i=max{Rel(gi,K1),Rel(gi,K2),…,Rel(gi,KM)},选取Vmax_i>阈值t3的词,构成集合G2。其中阈值t3为经验值,可以取a*min(Rel(Ki,Kj),其中Ki和Kj为任意2个不同的种子词,a取[0.3,1],具体取值可以根据样本学习调整。
上述模块4的输出连接到模块5即综合相关性判决模块。
模块5:综合相关性判决模块
该模块实现综合选取相关性高的词汇。具体包括:
根据定义确定集合G2中词汇的综合影响力,选取影响力较高的词汇构成新集合G3。具体为:
a.G2中每个词Gi的影响力定义为:
Value ( Gij ) = Σ j = 1 N kwj * Rel ( Gi , kj ) , 其中
将集合G2中Value(Gij)>阈值t4的词,组合成词汇集合G3。阈值t4的取值为c*t3,其中c的范围为[0.5,2],具体取值可以跟据实验结果反馈调整。
上述模块5的输出连接到模块6即单字合并模块。
模块6:单字合并模块
该模块实现单字合并成词。具体包括:
对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字。对集合G3中的单字进行合并成可能的词,假设集合G3中包含单字{z1,z2,..,z6},合并词方法如下:
将最相关的字两两组合成词{z1z2,z2z1,…,z1z6,z6z1},获取每个词在样本中出现的次数,次数大于阈值m,合并成词加入到集合G3,并且去除对应的单字。阈值m为大于5的经验值,但具体取值可以根据实验结果调整。
最后将单字合并模块处理后的集合G3中的所有词加入到关键词扩充库中。可以用于查找网络信息,实现更好的基于关键词的信息搜索。
综上,本发明利用社交网络信息内容谈论话题专一,在同一话题中出现的词汇的相关性高的特点,通过分析社交网络信息内容中词之间共同出现的统计特征相关性,不仅可以提取到相关话题的关键词,而且可以提取到跟该话题高度相关的隐含话题的关键词,扩充关键词库,是实现话题挖掘和个性化搜索的一种新的重要途径,具有更高的主动性和精确性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种社交网络平台上话题关键词自适应扩充的方法,其特征在于包括以下步骤:
步骤1:基于半监督的话题语料库和话题种子词库的建立;
a.人工标注少量话题相关的正负样本,建立语料库,并且标注少量话题关键词建立种子词库集合KW;
b.语料库半自动增加:利用种子词在社交网络上搜索相关的话题信息,对搜索到的信息进行TF-IDF话题相关性匹配,匹配结果按相关性数值从高到低排列,结果再由人工判断是否跟话题相关,根据人工判断结果将信息加入到正负样本库中,扩充样本库;
步骤2:对语料库中正样本信息进行分词,得到不包含种子词的分词词汇集合W;
步骤3:确定集合KW和W中种子词词频和分词词汇的出现频率和词频,选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1;
某词汇的出现频率被定义为:包含该词汇的正样本数与正样本总数之比;
某词汇的词频被定义为:某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比;
步骤4:确定初选集合G1中每个词gi与每个种子词Kj在正样本信息中的相关性,选取相关性大于阈值t3的词汇构成集合G2;
步骤5:判决集合G2中词汇的影响力,选取影响力大于阈值t4的词汇构成新集合G3;
步骤6:对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字;
步骤7:将步骤6得到的集合G3中的所有词加入到关键词扩充库中。
2.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤1中:
1.a所述的正负样本,其中正样本是跟话题相关的,负样本是跟话题不相关的;在微博社交平台,一个样本是指整条微博,而在博客或论坛,是指一个段落;
1.b所述的标注少量话题关键词建立种子词库集合KW,少量话题关键词指不少于5个话题关键词,种子词库集合为KW:{K1,…,Ki,…,KM},M为种子词的个数。
3.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤2中,对正样本信息进行分词,是指采用常用分词软件对信息文字进行去形容词、虚词操作,具体实现如下:假设语料库现有正样本信息N条,表示为{Y1,Y2,…,YN},分词后得到所有词汇集合W{w1,w2,…wi,..},其中wi≠wj当i≠j,且集合W不包括集合KW中的任意元素。
4.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤3中,具体过程如下:
1)统计非种子词汇wi与种子词Kj在正样本中的出现频率,某词汇的出现频率被定义为包含该词汇的正样本数与正样本总数之比,其中,非种子词汇出现频率用fi_1表示,种子词汇出现频率用Kfj_1表示:
2)定义非种子词汇wi与种子词Kj在正样本中出现的词频,为某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比,非种子词汇词频用fi_1表示,种子词汇词频用Kfi_2表示:
3)取t1=min({Kfi_1}),取最小的种子出现频率;t2=min({Kfi_2}),取最小的种子相对词频;
4)选择词汇集合W中满足下列条件的词构成初选集合G1:fi_1>t1或fi_2>t2。
5.根据权利要求1所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤4中选取相关性大于阈值t3的词汇构成集合G2过程如下:
1)初选集合G1中每个词gi与每个种子词Kj在正样本间的相关性定义为:
公式为: Re l ( g i , K j ) = f r e q ( g i , K j ) f r e q ( K j ) + f r e q ( g i ) - f r e q ( g i , K j ) ,
freq(gi,Kj)表示种子词Kj和词汇gi同时出现的正样本数,freq(Kj)表示包含种子词Kj的正样本数,freq(gi)表示包含词汇gi的正样本数量;
2)对集合G1中的每一个词gi,获取它与所有种子词{K1,K2,…,KM}的最大相关值Vmax_i=max{Rel(gi,k1),Rel(gi,k2),…,Rel(gi,KM)},选取Vmax_i>阈值t3的词,构成集合G2;其中阈值t3为经验值,取a*min(Rel(Ki,Kj),其中Ki和Kj为任意2个不同的种子词,a取[0.3,1],具体取值根据样本学习调整。
6.根据权利要求5所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤5中词汇的影响力,其具体为:
1)G2中每个词Gi的影响力定义如下:
V a l u e ( G i j ) = Σ j = 1 N k w j * Re l ( G i , k j ) , 其中
Re l ( G i , k j ) = f r e q ( G i , k j ) f r e q ( k j ) + f r e q ( G i ) - f r e q ( G i , k j ) ;
2)将集合G2中Value(Gij)>阈值t4的词,组合成词汇集合G3,阈值t4的取值为经验值,阈值t4的取值为c*t3,其中c的范围为[0.5,2],具体取值根据实验结果反馈调整。
7.根据权利要求1-6任一项所述的社交网络平台上话题关键词自适应扩充的方法,其特征在于步骤6,具体为:对集合G3中的单字进行合并成可能的词,假设集合G3中包含单字{z1,z2,..,z6},合并词方法如下:
将最相关的字两两组合成词{z1z2,z2z1,…,z1z6,z6z1},获取每个词在样本中出现的次数,次数大于阈值m,合并成词加入到集合G3,并且去除对应的单字,阈值m为大于5的经验值,具体取值根据实验结果调整。
8.一种社交网络平台上话题关键词自适应扩充的系统,其特征在于所述系统包括:
话题语料库和种子词库建立模块:该模块用于根据社交网络平台上的话题,建立基于半监督的话题语料库和话题种子词库,并将结果输出到语料库信息分词模块;
语料库信息分词模块:该模块对所述话题语料库中正样本信息进行分词,得到不包含种子词的分词词汇集合W,并将结果输出到过滤低频词汇模块;
过滤低频词汇模块:该模块分别确定集合KW和集合W中种子词词频和分词词汇的词频,选取大于最小的种子词出现频率t1或大于最小的种子词词频t2的分词词汇构成集合G1,并将结果输出到过滤低相关词汇模块;某词汇的出现频率被定义为:包含该词汇的正样本数与正样本总数之比;某词汇的词频被定义为:某词汇在正样本中出现的总次数与正样本中所有种子词出现的次数之比;
过滤低相关词汇模块:该模块确定初选集合G1中每个词gi与每个种子词Kj在正样本信息中的相关性,选取相关性大的词汇构成集合G2,并将结果输出到综合相关性选择模块;所述选取相关性大的词汇构成集合G2是指选取相关性大于阈值t3的词汇构成集合G2,过程如下:
1)初选集合G1中每个词gi与每个种子词Kj在正样本间的相关性定义为:
公式为: Re l ( g i , K j ) = f r e q ( g i , K j ) f r e q ( K j ) + f r e q ( g i ) - f r e q ( g i , K j ) ,
freq(gi,Kj)表示种子词Kj和词汇gi同时出现的正样本数,freq(Kj)表示包含种子词Kj的正样本数,freq(gi)表示包含词汇gi的正样本数量;
2)对集合G1中的每一个词gi,获取它与所有种子词{K1,K2,…,KM}的最大相关值Vmax_i=max{Rel(gi,k1),Rel(gi,k2),…,Rel(gi,KM)},选取Vmax_i>阈值t3的词,构成集合G2;其中阈值t3为经验值,取a*min(Rel(Ki,Kj),其中Ki和Kj为任意2个不同的种子词,a取[0.3,1],具体取值根据样本学习调整;
综合相关性判决模块:该模块确定集合G2中词汇的影响力,选取影响力大于阈值t4的词汇构成新集合G3,并将结果输出到单字合并模块;
单字合并模块:对集合G3中的单字运用排列组合合并成可能的词加入到集合G3并去除单字,最后将集合G3中的所有词加入到关键词扩充库中。
CN201310018004.8A 2013-01-17 2013-01-17 社交网络平台上话题关键词自适应扩充的方法及系统 Active CN103092956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310018004.8A CN103092956B (zh) 2013-01-17 2013-01-17 社交网络平台上话题关键词自适应扩充的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310018004.8A CN103092956B (zh) 2013-01-17 2013-01-17 社交网络平台上话题关键词自适应扩充的方法及系统

Publications (2)

Publication Number Publication Date
CN103092956A CN103092956A (zh) 2013-05-08
CN103092956B true CN103092956B (zh) 2016-02-10

Family

ID=48205521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310018004.8A Active CN103092956B (zh) 2013-01-17 2013-01-17 社交网络平台上话题关键词自适应扩充的方法及系统

Country Status (1)

Country Link
CN (1) CN103092956B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593386A (zh) * 2013-08-14 2014-02-19 北京觅缘信息科技有限公司 一种交友搜索解决方案
CN103455581B (zh) * 2013-08-26 2016-05-04 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN103631874B (zh) * 2013-11-07 2017-01-18 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN103631963B (zh) * 2013-12-18 2017-10-17 北京博雅立方科技有限公司 一种基于大数据的关键词优化处理方法及装置
CN103903164B (zh) * 2014-03-25 2017-06-06 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
WO2018040062A1 (en) * 2016-09-02 2018-03-08 Baidu.Com Times Technology (Beijing) Co., Ltd. Method and system for generating phrase blacklist to prevent certain content from appearing in search result in response to search queries
CN106776542B (zh) * 2016-11-23 2020-03-03 北京小米移动软件有限公司 用户反馈信息的关键词处理方法、装置及服务器
CN108733706B (zh) * 2017-04-20 2022-12-20 腾讯科技(深圳)有限公司 热度信息的生成方法和装置
CN107544959B (zh) * 2017-08-28 2021-01-22 北京奇艺世纪科技有限公司 一种评价对象的提取方法和装置
CN108228869B (zh) * 2018-01-15 2020-07-21 北京奇艺世纪科技有限公司 一种文本分类模型的建立方法及装置
CN108984519B (zh) * 2018-06-14 2022-07-05 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN110750698A (zh) * 2019-09-09 2020-02-04 深圳壹账通智能科技有限公司 知识图谱构建方法、装置、计算机设备及存储介质
CN111078893A (zh) * 2019-12-11 2020-04-28 竹间智能科技(上海)有限公司 一种大规模高效获取识别对话意图用语料的方法
CN112612875B (zh) * 2020-12-29 2023-05-23 重庆农村商业银行股份有限公司 一种查询词自动扩展方法、装置、设备及存储介质
CN112988999A (zh) * 2021-03-17 2021-06-18 平安科技(深圳)有限公司 佛学问答对的构建方法、装置、设备及存储介质
CN113312523B (zh) * 2021-07-30 2021-12-14 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器
CN117474703B (zh) * 2023-12-26 2024-03-26 武汉荟友网络科技有限公司 基于社交网络的话题智能推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110170A (zh) * 2011-03-18 2011-06-29 北京百度网讯科技有限公司 一种具有信息发布和搜索功能的系统及信息发布方法
CN102368262A (zh) * 2011-10-14 2012-03-07 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266162B2 (en) * 2005-10-31 2012-09-11 Lycos, Inc. Automatic identification of related search keywords
US8290975B2 (en) * 2008-03-12 2012-10-16 Microsoft Corporation Graph-based keyword expansion

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110170A (zh) * 2011-03-18 2011-06-29 北京百度网讯科技有限公司 一种具有信息发布和搜索功能的系统及信息发布方法
CN102368262A (zh) * 2011-10-14 2012-03-07 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Building Artificial Identities in Social Network Using Semantic;kaichen等;《Advances in Social Networks Analysis and Mining (ASONAM), 2011 International Conference on》;20110727;全文 *
Feature Analysis of Spammers in Social Networks with Active Honeypots:A Case Study of Chinese Microblogging Networks;yizhou等;《Advances in Social Networks Analysis and Mining (ASONAM), 2012 IEEE/ACM International Conference on》;20120829;全文 *
基于神经网络文本检索词的语义扩充;钱晓东等;《计算机工程》;20041015;第30卷(第20期);全文 *
查询扩展技术进展与展望;黄名选等;《计算机应用与软件》;20071130;第24卷(第11期);全文 *

Also Published As

Publication number Publication date
CN103092956A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103092956B (zh) 社交网络平台上话题关键词自适应扩充的方法及系统
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN101299217B (zh) 一种地图信息处理的方法、装置和系统
CN101876981B (zh) 一种构建知识库的方法及装置
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN103425763B (zh) 基于sns的用户推荐方法及装置
CN105095433A (zh) 实体推荐方法及装置
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
CN102129479B (zh) 一种基于概率潜在语义分析模型的万维网服务发现方法
CN101980199A (zh) 基于态势评估的网络热点话题发现方法及系统
CN103488724A (zh) 一种面向图书的阅读领域知识图谱构建方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN102662965A (zh) 一种自动发现互联网热点新闻主题的方法及系统
CN103853831A (zh) 一种基于用户兴趣的个性化搜索实现方法
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN107679035B (zh) 一种信息意图检测方法、装置、设备和存储介质
CN102622375A (zh) 第三方律师推荐智能匹配系统和方法
CN103186574A (zh) 一种搜索结果的生成方法和装置
CN102737022B (zh) 获取和搜索相关知识信息的方法及装置
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
CN103617213A (zh) 识别新闻网页属性特征的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181009

Address after: 211299 No. 368 zhe Ning Road, zhe Tang Town, Lishui Economic Development Zone, Nanjing, Jiangsu

Patentee after: Nanjing Ji Yun Information technology company limited

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: Shanghai Jiao Tong University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190103

Address after: 201100 Shanghai Minhang District, Jianchuan Road 951 Building 5 1 Floor

Patentee after: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD

Address before: 211299 No. 368 zhe Ning Road, zhe Tang Town, Lishui Economic Development Zone, Nanjing, Jiangsu

Patentee before: Nanjing Ji Yun Information technology company limited

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190814

Address after: 201100 Shanghai Minhang District, Jianchuan Road 951 Building 5 1 Floor

Co-patentee after: Xiamen Shang Ji Network Technology Co., Ltd.

Patentee after: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD

Address before: 201100 Shanghai Minhang District, Jianchuan Road 951 Building 5 1 Floor

Patentee before: SHANGHAI SHENYOU INTELLIGENT TECHNOLOGY CO., LTD

TR01 Transfer of patent right