CN105378717B - 用于对社交媒体的用户分类的方法、计算机程序和计算机 - Google Patents
用于对社交媒体的用户分类的方法、计算机程序和计算机 Download PDFInfo
- Publication number
- CN105378717B CN105378717B CN201480012959.5A CN201480012959A CN105378717B CN 105378717 B CN105378717 B CN 105378717B CN 201480012959 A CN201480012959 A CN 201480012959A CN 105378717 B CN105378717 B CN 105378717B
- Authority
- CN
- China
- Prior art keywords
- user
- profile
- content
- cluster
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
为了无需获取所有用户的内容就能根据内容相似性分类,提供一种用于聚类社交媒体中的多个用户的方法,其中将各个用户与一文本简档和文本内容相关联,该方法包含以下步骤:根据与一部分用户相关联的内容,为该部分用户的各个用户生成一个内容特征向量;根据内容特征向量,生成多个群集并且映射该多个群集与该部分用户;根据与映射到每个群集的该部分用户相关联的简档为该多个群集的各个群集生成第一简档特征向量;和根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户的各个用户划归入多个群集。
Description
技术领域
本发明涉及信息处理技术,更具体来说,涉及更有效地识别社交媒体中的用户集合的技术。
背景技术
随着社交媒体的广泛使用,按“偏好和兴趣”为社交媒体用户分类,用于市场营销,越来越广为人知。例如,这些分类被用来识别用户有可能购买的产品和服务,以及分割大型用户集合(按照相似兴趣的分类)。已经有人尝试根据年龄和政治倾向相似的用户在社交媒体上发布相似内容的假设来识别用户集合。例如,有人已经努力过用内容相似性来估计用户的年龄和政治倾向(非专利文献1和非专利文献2),这些努力已经取得了一定的成功。用类似的技术来估计具有共同偏好和兴趣的用户集合被认为在理论上是可能的。
现有技术文献
专利文献
专利文献1:特许4,898,938号公报
专利文献2:特开2000-148864号公报
非专利文献
非专利文献1:Pennacchiotti,M.、Popescu,A.-M.,2011年,“Democrats,Republicans and Starbucks Afficionados:User Classification in Twitter,”Proceedings of the 17th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining(KDD 2011),pp.430-438,2011.(“民主党人、共和党人和星巴克迷:推特中的用户分类”,第17届ACM SIGKDD知识发现和数据挖掘国际研讨会论文集,2011年,第430-438页)。
非专利文献2:Rao,D.、Yarowsky,D.、Shreevats,A.、Gupta,M.(2010),“Classifying Latent User Attributes in Twitter”Proceedings of the 2ndInternational Workshop on Search and Mining User-Generated Contents(SMUC2010),pp.37-44,2010.(“分类推特中的用户属性”,第二届用户生成内容的检索和挖掘国际研讨会论文集,2010年,第37-44页)。
非专利文献3:Twitter,“GET statuses/user_timeline”,[online],2013-02-12,Twitter[2013-02-25检索]。因特网URL<https://dev.twitter.com/docs/api/1.1/get/statuses/user_timeline>。
非专利文献4:Kriti Puniyani,Jacob Eisenstein,Shay Cohen,和Eric P.Xing(2010),“Social Links from Latent Topics in Microblogs”,Proceedings of theNAACL HLT 2010Workshop on Computational Linguistics in a World of SocialMedia(WSA'10).Association for Computational Linguistics,Stroudsburg,PA,USA,pp.19-20,2010.(“来自微博的潜在主题的社交链接”,2010年NAACL HLT社交媒体世界计算语言学会议,(美国宾夕法尼亚州斯特劳斯堡,计算语言学协会,第19-20页)。
发明内容
发明要解决的技术问题
现有技术需要大量的内容,但是,鉴于社交媒体的广泛使用,对API查询传输的数量有限制,并且,要确定大量(例如数以百万计的)用户之间的相似性,需要大量的时间来获得足够数量的案例(见非专利文献3)。
针对这一问题,本发明的目的是在无需获取大量的内容的情况下估计内容的相似性,以把社交媒体的用户分类。
本发明是发明人基于在研究这些问题时获得的对社交媒体的特点的深刻认识而作出的。社交媒体的用户们,除了通过他们发布的内容,还通过个人简档(profile)发生联系。个人简档是一种包括自我介绍的简短文本。已经观察到个人简档有包括与内容相关的信息(喜好和兴趣、年龄、职业等)的趋势。此外,由于每个用户的简档相比于内容(通常是每个用户一个)更少,许多用户的简档都可以在对发送和接收查询的限制范围内获得。然而,因为个人简档部分的文字量通常有限,且个人简档通常包括与作为内容张贴的主题没有直接关系的措辞,所以,单从个人简档信息,难以把用户们划归反映他们的内容的相似性的类别。
问题的解决方案
本发明利用这些深刻认识来提供无需获得所有用户的内容就能根据内容的相似性分类的手段。换言之,只从数量很少的用户获得内容,以首先把这些用户分类。然后,单独利用个人简档来把大量的额外用户指派到先前分类的集合。这样,不用从所有的用户获得大量的内容就能实现反映内容相似性的分类。
本发明是一种用计算机把各个用户与一文本简档和文本内容相关联的社交媒体中的多个用户划归入多个群集的方法,该方法包含下述步骤:根据与一部分用户相关联的内容,为该部分用户的各个用户生成内容特征向量;根据内容特征向量,生成多个群集并且映射该多个群集与该部分用户;根据与映射到各个群集的该部分用户相关联的简档为该多个群集的各个群集生成第一简档特征向量;以及根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户的各个用户划归入多个群集。
这里,社交媒体可以是微博,以及各个用户发布到微博的多个帖子的内容。此外,内容特征向量可以用多个帖子中包含的单词(word)作为元素。单词可以是帖子中包含的名词、动词或相关的措辞(dependent expression)。内容特征向量还可以向多个帖子中包含的各个单词分配一个重要性程度(得分),诸如出现频率。在聚类过程中用得分来比较特征向量。
并且,在生成多个群集的步骤中,可以通过对与该部分用户相关联的内容应用潜在狄利克雷分配(Latent Dirichlet Allocation)模型以及聚类在相同话题上可能使用的单词而生成该多个群集。并且,在映射该多个群集与该部分用户的步骤中,可以用与该部分用户相关联的内容中的聚类结果把该部分用户映射到各个群集。
并且,在生成第一简档特征向量的步骤中,可以根据与映射到每个群集的部分用户相关联的简档中的单词生成第一简档特征向量。单词可以是帖子中包含的名词、动词或相关措辞。这里,可以根据该单词是否是与映射到其他群集的部分用户相关联的简档中的单词相比而言可能出现的单词而生成第一简档特征向量。并且,该单词是与映射到其他群集的部分用户相关联的简档中的单词相比而言第T最可能出现的单词(T是自然数)。并且,在把其他用户的各个用户划归入多个类别的步骤中,根据第T最可能出现的单词是否出现在与其他用户相关联的简档中而把其他用户的各个用户划归入多个类别。
该方法也包含根据与除该部分用户以外的其他用户相关联的简档而为其他用户的各个用户生成第二简档特征向量的步骤。这里,在把其他用户的各个用户划归入多个类别的步骤中,根据第一简档特征向量和第二简档特征向量而把其他用户的各个用户划归入多个类别。
并且,可以根据第一简档特征向量和第二简档特征向量之间的相似度把一个用户划归入对应于具有最高相似度的第一简档特征向量的群集。并且,在把其他用户的各个用户划归该多个群集中的步骤中,可以允许把一个用户划归入多个群集。
并且,在把其他用户的各个用户划归该多个群集中的步骤中,不必使用与其他用户相关联的内容。并且,该部分用户的数目可以小于其他用户的数目,简档中的信息量也可少于该内容中的信息量。
该方法也可以包含通过网络连接托管社交媒体的服务器与把多个用户划归入多个群集的计算机的步骤。这里,该计算机接收该服务器响应于该计算机的请求而发送的信息。可以把可用的信息量限为单位时间的信息量。
该方法也可以包含通过重复其中该计算机接收托管计算机发送的信息的步骤而在该计算机的存储装置中存储与该部分用户相关联的内容和简档以及与其他用户相关联的简档的步骤。
如果将本发明理解为计算机程序或计算机系统,则显然可以提供与将本发明理解为如上所述的方法时的技术特征实质上相同的技术特征。
发明效果
本发明无需获得大量内容就能把社交媒体的用户分类,反映他们的内容的相似性。
附图说明
图1是用于解释微博系统的示意图。
图2是用于解释微博中的关注者-被关注者(follower-followed)关系的示意图。
图3是用于解释作为用户终端的智能手机和智能手机上显示的屏幕的示意图。
图4是用于解释在微博服务器内部的硬盘设备中存储的数据的结构的示意图。
图5是用于解释张贴的内容的类型的示意图。
图6是用于解释计算机的硬件配置的框图。
图7是用于解释计算机的功能模块配置的框图。
图8是用于解释由计算机执行的过程的流程图。
图9是用于解释聚类过程的示意图。
具体实施方式
实施例
以下参照附图说明本发明的优选实施例。然而,这些实施例并不限制本发明的范围。此外,实施例中所说明的所有的特征组合,未必是本发明的技术解决方案所必需的。此外,还应理解,本发明还有许多其他可能的实施方式,没有任何意图要把本发明的范围限制到这里所描述的内容。还应注意的是,实施例中所说明的所有的特征组合,未必是本发明的技术解决方案所必需的。在对所有的实施例的说明中,用相同的参考符号表示相同的元素(除非另有说明)。
图1是用于解释微博系统的示意图,该微博系统是社交媒体的一个例子。在这个系统中,微博服务器(托管社交媒体的服务器)2通过因特网4连接到用户终端,所以服务器与用户终端能互相通信。用户终端可以是具有通信功能的任何类型的计算机。除了图中所示的智能手机31、平板电脑32和(笔记本型)个人电脑33,用户终端的例子还包括图中未予示出的个人数字助理(PDA,个人信息终端)、机载电脑、以及上网本。
图2是用来解释微博中的关注者-被关注者关系的示意图。微博用户可以与好友、熟人和有相似兴趣和关注点的其他用户预先登记(pre-register),并自动接收这些用户发布的内容(文本内容)。登记(registering)被称为“关注”(following),关注关系可以是相互的关系,其中用户们互相关注,也可以是单向的关系,其中一个用户关注另一个用户。例如,图2中的箭头表示用户AAA和用户BBB互相关注,用户BBB关注用户CCC,用户CCC关注用户AAA。
图3是用于解释作为用户终端的智能手机31和智能手机上显示的屏幕的示意图。智能手机31的触摸屏上显示一个微博应用屏幕,该应用屏幕从上到下被划分为发源部分(home section)311、时间轴部分(timeline section)312和控制部分313。发源部分包括菜单按钮和表明用户AAA的时间轴被显示在时间轴部分312的信息。时间轴部分312从上到下显示来自用户AAA的内容部分312a和内容部分312b,以及来自用户BBB的内容部分312c。这些内容部分312a-c是按时间顺序显示的。换句话说,最上面的消息部分312a对应最新的内容。
图4是用于解释在微博服务器2内部的硬盘设备20、21和22中存储的数据的结构的示意图。存储在硬盘驱动器20中的内容表(图4(a))包括一个起始日期和时间字段(created_at),表示每个内容部分的发布日期和时间;一个用户ID字段(user_id),表示发布内容的用户;以及一个含有实际内容的文本(text)字段。文本字段中可能包含字符限数(例如140个字符)。存储在硬盘驱动器21中的用户关系表(图4(b)包括一个注册日期和时间字段(registered_at),表示关注者关系(follower relationship)的注册时间;一个关注用户ID字段(following_user_id),表示关注用户;以及被关注用户ID(followed_user_id)字段,表示被关注用户。存储在硬盘驱动器22中的简档表包括一个用户ID(user_id)字段,表示各个用户;各个用户的名称字段(未示出);各个用户的位置信息字段(未示出);以及各个用户的简档(profile)字段。
图5是用来解释发布的内容的类型的示意图。图5(a)解释典型的内容。这里,用户AAA向她自己的时间轴发布内容。这个内容被显示在用户AAA的时间轴中,以及关注用户AAA的用户(如图2所示例子中的用户BBB和用户CCC)的时间轴中。图5(b)解释回复内容。回复内容是对特定内容的回应。这个回复内容被显示在关注用户的时间轴以及被回复的用户的时间轴中。这里,用户BBB在回复来自用户AAA的内容,发布了回复内容(“你好。”)。这个回复内容被显示在用户BBB自己的时间轴以及关注用户BBB的用户(图2的例子中的用户AAA)的时间轴中。
图5(c)和图5(d)解释被转贴内容(reposted content)。用户CCC转发用户AAA在其自己的时间轴中显示的原创内容(“我已经开始发微博了。”),作为被转贴内容。转贴内容显示在关注用户CCC的用户(图2中的例子中的用户BBB)的时间轴中。在图5(c)中所示的第一模式中,转贴内容与原创用户的名称AAA一起显示在关注用户CCC的用户的时间轴中。在图5(d)所示的第二模式中,它与再操作(reoperation)用户CCC的名称一起显示。图5(e)解释引用的内容。用户CCC引用用户AAA显示在自己的时间轴中的原创内容(“我已经开始发微博了。”)并加上了自己对被转贴的引用内容的评论(“欢迎!”)。引用内容显示在关注用户CCC的用户的时间轴中。
图6是用于解释个人计算机1(分类多个群集的计算机)的硬件配置的示意图。计算机1的硬件配置包括(高速和低速)总线10、与总线10连接的CPU(算术和控制单元)11、RAM(随机存取存储器:存储设备)12、ROM(只读存储器:存储设备)13,HDD(硬盘驱动器:存储设备)14、通信接口15、以及输入/输出接口16。它还包括连接到输入/输出接口16的鼠标17、平板显示器(显示设备)18和键盘19。在这个解释中,计算机1采用典型的个人计算机体系结构。然而,CPU 11和HDD14可以是多路复用的,以期具有更高的数据处理性能和可用性。除桌面系统外,还可以使用其他类型的计算机系统。计算机1通过因特网(网络)4连接到微博服务器2,使计算机和服务器能够相互通信。
计算机1的软件配置包括操作系统(OS),用于提供基本功能、使用操作系统功能的应用软件、以及输入/输出设备的驱动软件。软件与各种类型的数据一起被加载到RAM 12,由CPU 11执行,使得计算机1作为一个整体能实现实现图7中所示的功能以及执行图8中所示的处理。
图7是用来解释计算机1的功能模块的框图。计算机1包括存储模块100、训练集群映射生成模块101、第一简档特征向量生成模块102、第二简档特征向量生成模块103和发帖(posting)集群映射生成模块104。
以下是各个模块的输入和输出数据。训练用户的简档和内容以及操作用户的简档,从通信接口15输入到存储模块100。训练用户的内容,从存储模块100输出到训练集群映射生成模块101,训练用户的简档被输出到第一简档特征向量生成模块102,操作用户的简档被输出到第二简档特征向量生成模块103。来自训练用户的内容,从存储模块100输入到训练群集映射生成模块101。训练用户的群集映射从训练群集映射生成模块101输出到第一简档特征向量生成模块102。训练用户的群集映射是从训练群集映射生成模块101输入的,训练用户的简档是从存储模块100输入到第一简档特征向量生成模块102的。第一简档特征向量是从第一简档特征向量生成模块102输出到操作集群映射生成模块104的。操作用户的简档从存储模块100输入到第二简档特征向量生成模块103。第二简档特征向量从第二简档特征向量生成模块103输出到操作集群映射生成模块104。来自第一简档特征向量生成模块102的第一简档特征向量和来自第二简档特征向量生成模块103的第二简档特征向量被输入到操作集群映射生成模块104。操作用户的集群映射从操作集群映射生成模块104输出到显示器18。
图8是用来解释计算机1执行的处理的流程图。图9是用来解释计算机1执行的聚类过程的示意图。以下参照图9说明图8所示的流程图。
首先,从计算机1向微博服务器2发送数据请求(S10)。然后,从服务器接收对应于该请求的数据(S20)。这里,从服务器2发往计算机1的数据,包括与训练用户(一些用户)相关联的内容(见图4(a))、以及与训练用户和操作用户(其他用户)相关联的简档(见图4(c))。通常,从微博服务器2获取数据的API请求的数量以及每次请求可获得的数据量是有限度的。因此,步骤S10和S20被重复执行,直到获得了必要的数据。所获得的数据被存储在存储模块100中。
训练用户(箭头A)的数量远小于操作用户(箭头D)的数量。例如,可以将一万个微博用户作为训练用户,将一百万个微博用户作为操作用户。此外,简档信息的量远小于内容信息的量。各个用户关联一个简档,而与单一用户关联的内容段(消息、帖子等)的数量可能数以千计。例如,可以将单一用户最近发布的一千个帖子作为与该用户相关联的内容。
下一步,根据与训练用户相关联的内容生成内容特征向量(S30)。更具体来说,训练群集映射生成模块101从与训练用户相关联的内容(多个)提取一个名词,并用作为一个元素的该单词出现的次数(该单词在其中出现的内容段的个数)生成特征向量。可以用任何自然语言处理技术来提取该名词。可以把该名词的出现次数看作该名词的重要性程度的指标。可以事先准备好重要性程度高的名词候选。除了名词或连同名词(along with nouns),还可以用自然语言处理技术来提取不是名词的措辞(expressions),诸如动词和相关措辞(dependent expressions)。
下一步,根据内容特征向量生成多个集群与训练用户的映射(S40,S50)。更具体来说,训练群集映射生成模块101把(训练用户,训练用户对应的内容特征向量)对集(sets ofpairs)插入一个聚类算法,得到群集的映射和各个训练用户的群集。这里的聚类算法可以是用内容特征向量之间的相似程度来确定训练用户之间的相似程度的任何算法。例如,在把名词用作单词时可以采用以下方式。首先,对与所有的训练用户相关联的所有的内容应用潜在狄利克雷分配(LDA),将可能被用在同一话题中的名词聚类。结果,可能被用在IT相关的话题中各组名词(网站、Android等)、可能被用在抚养孩子的话题中的各组名词(孩子、儿子等)、以及可能被用在韩国流行音乐相关的话题中的各组名词(韩国,Semi),被划入相同的群集。下一步,按照公式(1),把聚类内容中的名词的结果用于按照公式(1)把训练用户划归入各个群集(例如群集A-C)(箭头B)。
公式1
假设
cu:用户u所属的群集
C:全部群集
K:群集总数
Ncu:用户u的内容中属于群集c的名词的个数
Nu:用户u的内容中的名词的总数
α:平滑系数
接下来,根据与训练用户相关联的简档为各个群集生成第一简档特征向量(S60)。换言之,将集群的特征向量从内容切换到简档。第一简档特征向量的生成对应于各个集群中的训练用户的简档中的措辞的整合。更具体地说,第一简档特征向量生成模块102为各个群集生成第一简档特征向量,该第一简档特征向量用被聚类在各个群集中的训练用户的简档中出现的名词(简档措辞)表征该各个群集。例如,根据各个群集中的训练用户的简档段中出现的名词(简档措辞)获得一个tficf评分。这里,tficf评分是一个标志,其被与其他集群比较,以获得在某群集中的训练用户的简档中可能出现的措辞。tficf评分是用公式(2)计算的。tTficf评分中的最通用的T个措辞(T-most common expressions)是群集中典型的简档措辞,这些典型的简档措辞被用作一个元素来生成第一简档特征向量。在这个例子中,“工程师”,“IT”和“开发”是对应于群集A的典型的简档措辞。
公式2
假设
w:简档措辞
Mwc:划归入群集c中的、简档中包括w的用户的个数
Uc:划归入群集c中的用户的个数
接下来,根据与操作用户相关联的简档生成第二简档特征向量(S70)。更具体来说,第二简档特征向量生成模块103从与单一操作用户相关联的(单一)简档提取一个名词,并用出现的次数作为元素生成特征向量。可以用任何自然语言处理技术来提取名词。除了名词或连同名词,还可以用自然语言处理技术来提取不是名词的措辞,诸如动词和相关措辞。
接下来,根据第一简档特征向量和第二简档特征向量把各个操作用户划归入多个集群(S80)。换句话说,操作群集映射生成模块104比较对应于单一操作用户的第二简档特征向量与每个第一简档特征向量,把该操作用户划归入对应于最相似的特征向量的群集。这样,就可以根据至多一个简档段中的文本把操作用户划归入适当的集群,而不需要采集和分析与用户相关的内容。例如,在本例中,对应于群集A的典型简档措辞是“工程师”,“IT”和“开发”,所以将在简档段中用接近这些简档措辞的措辞(如”发布关于开发的益建议”和“基于web的研讨会”)来描述自己的操作用户划归入群集A。给定的措辞是否接近另一个措辞,可以用现有的语言处理技术确定,如在下文的改进例子中所述的那样。
改进的例子1
可以把将最典型的T个简档措辞中的来自tficf评分中的集群的任何简档措辞包括在简档中的操作用户划归入该集群。这里,可以将一个操作用户划归入多个群集。
改进的例子2
可以准备接收第一简档特征向量和输出群集的任何分类器(classifier),且可以在步骤S60中获知该分类器。这里,第二简档特征向量可以输入到分类器,输出的群集可以是分类结果。
在所有的情况(上述例子,改进的例子1和改进的例子2)中,由此产生的操作用户的结果群集可以输出到显示器18(S80)。
本发明可以用硬件单元、软件单元或硬件单元与软件单元二者的组合来体现。本发明不限于上述的优选实施例。本发明可以在包括固件、常驻软件、微码、解析微代码的软件中实现。
本发明还可以采取由计算机或任何其它指令执行系统使用的或与计算机或任何其它指令执行系统相关联的程序代码中的计算机程序的形式,以及计算机可读介质的形式。就目前的说明而言,计算机可读介质可以是任何能够控制、存储、传达、传输或传播由任何指令执行系统使用的或与任何指令执行系统或设备相关联的程序。更具体来说,上述的解析控制模块指的是指令执行系统或“计算机”。
计算机可读介质可以是电子、磁性、光学、电磁、红外或半导体系统(或设备)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、磁盘、可移动电脑软盘、随机存取存储器(RAM)、只读存储器(ROM),硬磁盘和光盘。目前,光盘包括只读光盘(CD-ROM)、读写光盘(CD-R/W)和DVD。
用于存储和/或执行程序代码的数据处理系统包括至少一个通过系统总线直接或间接连接到存储器单元的处理器。存储器单元包括在编程代码的实际执行过程中使用的本地存储器、海量存储设备、以及为减少在执行过程中需要从海量存储设备中读取程序代码的次数而提供的用来临时存储至少一些程序代码的高速缓冲存储器。
输入/输出(I/O)设备(包括但不限于键盘、鼠标和指点设备)可以通过中间的I/O控制器直接或间接地连接到系统。
此外,网络适配器可以连接到系统,数据处理系统可以通过中间的专用或公共网络连接到另一个数据处理系统、远程打印机、或存储设备。调制解调器、电缆调制解调器或以卡代表一小部分目前可用的网络适配器。
附图标记列表
1:个人电脑
11:CPU(算术和控制单元)
12:RAM(随机访问存储器:存储设备)
13:ROM(只读存储器:存储设备)
14:HDD(硬盘:存储设备)
15:通信接口
16:输入/输出接口
17:鼠标
18:平板显示器(显示设备)
2:微博服务器
20、21:硬盘设备
31:智能手机
32:平板电脑
33:(笔记本型)个人电脑
100:存储模块
101:训练群集映射生成模块
102:第一简档特征向量生成模块
103:第二简档特征向量生成模块
104:操作群集映射生成模块
Claims (20)
1.一种用计算机把社交媒体中的多个用户划归入多个群集的方法,该多个用户中的各个用户与文本简档和文本内容相关联,该方法包含下述步骤:
根据与一部分用户相关联的文本内容,为该部分用户的各个用户生成内容特征向量;
根据所述内容特征向量,生成多个群集;
根据所述内容特征向量,将该部分用户映射到该多个群集;
根据与映射到各个群集的该部分用户相关联的文本简档为该多个群集的各个群集生成第一简档特征向量;和
根据与除该部分用户以外的其他用户相关联的文本简档和第一简档特征向量,把其他用户中的各个用户划归入多个群集。
2.按照权利要求1的方法,其中,社交媒体是微博,文本内容是各个用户发布到微博的多个帖子。
3.按照权利要求2的方法,其中,内容特征向量用多个帖子中的单词作为元素。
4.按照权利要求3的方法,其中,内容特征向量用多个帖子中的单词的出现频率或重要程度作为元素。
5.按照权利要求1的方法,其中,在生成多个群集的步骤中,通过对与该部分用户相关联的文本内容应用潜在狄利克雷分配模型以及聚类在相同话题上可能使用的单词而生成该多个群集。
6.按照权利要求5的方法,其中,在映射该多个群集与该部分用户的步骤中,用与该部分用户相关联的文本内容中的聚类结果把该部分用户映射到各个群集。
7.按照权利要求1的方法,其中,在生成第一简档特征向量的步骤中,根据与映射到各个群集的部分用户相关联的文本简档中的单词生成第一简档特征向量。
8.按照权利要求7的方法,其中,根据该单词与映射到其他群集的部分用户相关联的文本简档中的单词相比而言是否可能出现而生成第一简档特征向量。
9.按照权利要求7的方法,其中,该单词是与映射到其他群集的部分用户相关联的文本简档中的单词相比而言第T最可能出现的单词中的任何单词,T是自然数。
10.按照权利要求9的方法,其中,在把其他用户的各个用户划归入多个群集的步骤中,根据第T最可能出现的单词是否出现在与其他用户相关联的文本简档中而把其他用户的各个用户划归入多个群集。
11.按照权利要求1的方法,进一步包含根据与除该部分用户以外的其他用户相关联的文本简档而为其他用户的各个用户生成第二简档特征向量的步骤;
在把其他用户的各个用户划归入多个群集的步骤中,根据第一简档特征向量和第二简档特征向量而把其他用户的各个用户划归入多个群集。
12.按照权利要求11的方法,其中,根据第一简档特征向量和第二简档特征向量之间的相似度把一个用户划归入对应于具有最高相似度的第一简档特征向量的群集。
13.按照权利要求1的方法,其中,在把其他用户的各个用户划归该多个群集中的步骤中,允许把一个用户划归入多个群集。
14.按照权利要求1的方法,其中,在把其他用户的各个用户划归该多个群集中的步骤中,不使用与其他用户相关联的文本内容。
15.按照权利要求1的方法,其中,该部分用户的数目小于其他用户的数目,并且,文本简档中的信息量少于文本内容中的信息量。
16.按照权利要求1的方法,进一步包含通过网络连接托管社交媒体的服务器与把多个用户划归入多个群集的计算机的步骤,该计算机接收该服务器响应于该计算机的请求而发送的信息。
17.按照权利要求15的方法,其中,信息量被限为单位时间的信息量。
18.按照权利要求16的方法,进一步包含通过重复其中该计算机接收该服务器发送的信息的步骤而在该计算机的存储装置中存储与该部分用户相关联的文本内容和文本简档以及与其他用户相关联的文本简档的步骤。
19.一种由计算机执行以实现权利要求1至18的任何一项的方法的计算机程序。
20.一种把各个用户与一文本简档和文本内容相关联的社交媒体中的多个用户划归入多个群集的计算机,该计算机包含:
用于根据与一部分用户相关联的文本内容,为该部分用户的各个用户生成一个内容特征向量的装置;
用于根据所述内容特征向量,生成多个群集;
用于根据所述内容特征向量将该部分用户映射到该多个群集的装置;
用于根据与映射到各个群集的该部分用户相关联的文本简档为该多个群集的各个群集生成一个第一简档特征向量的装置;和
用于根据与除该部分用户以外的其他用户相关联的文本简档和第一简档特征向量,把其他用户的各个用户划归入多个群集的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013049346 | 2013-03-12 | ||
JP2013-049346 | 2013-03-12 | ||
PCT/JP2014/055681 WO2014141976A1 (ja) | 2013-03-12 | 2014-03-05 | ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105378717A CN105378717A (zh) | 2016-03-02 |
CN105378717B true CN105378717B (zh) | 2019-11-15 |
Family
ID=51536640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480012959.5A Active CN105378717B (zh) | 2013-03-12 | 2014-03-05 | 用于对社交媒体的用户分类的方法、计算机程序和计算机 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9996611B2 (zh) |
JP (1) | JP5961320B2 (zh) |
CN (1) | CN105378717B (zh) |
GB (1) | GB2528595A (zh) |
WO (1) | WO2014141976A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6373767B2 (ja) * | 2015-01-26 | 2018-08-15 | Kddi株式会社 | 話題語ランキング装置、話題語ランキング方法、およびプログラム |
JP6544084B2 (ja) * | 2015-07-01 | 2019-07-17 | 富士通株式会社 | 群形成方法、群形成装置、及び群形成プログラム |
CN106095915A (zh) * | 2016-06-08 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | 用户身份的处理方法及装置 |
CN106469192B (zh) * | 2016-08-30 | 2021-07-30 | 北京奇艺世纪科技有限公司 | 一种文本相关性的确定方法及装置 |
US20180315414A1 (en) * | 2017-04-26 | 2018-11-01 | International Business Machines Corporation | Adaptive digital assistant and spoken genome |
CN107463703A (zh) * | 2017-08-16 | 2017-12-12 | 电子科技大学 | 基于信息增益的英文社交媒体账号分类方法 |
US20200073953A1 (en) * | 2018-08-30 | 2020-03-05 | Salesforce.Com, Inc. | Ranking Entity Based Search Results Using User Clusters |
US11789952B2 (en) | 2018-09-26 | 2023-10-17 | Salesforce, Inc. | Ranking enterprise search results based on relationships between users |
CN112685614B (zh) * | 2021-03-17 | 2021-06-18 | 中国电子科技集团公司第三十研究所 | 一种社交媒体机器人群体快速检测方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6356879B2 (en) | 1998-10-09 | 2002-03-12 | International Business Machines Corporation | Content based method for product-peer filtering |
JP2001265808A (ja) | 2000-03-22 | 2001-09-28 | Skysoft Inc | 情報検索システム及び情報検索方法 |
JP4418135B2 (ja) * | 2000-11-22 | 2010-02-17 | パナソニック株式会社 | グループ形成システム、グループ形成方法、およびグループ形成装置 |
US20020078054A1 (en) | 2000-11-22 | 2002-06-20 | Takahiro Kudo | Group forming system, group forming apparatus, group forming method, program, and medium |
JP2005115791A (ja) | 2003-10-09 | 2005-04-28 | Sony Corp | 情報検索方法、情報取得装置及びプログラム |
JP4179341B2 (ja) | 2006-06-01 | 2008-11-12 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
CN101819572A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种用户兴趣模型的建立方法 |
JP4898938B2 (ja) | 2010-06-08 | 2012-03-21 | 株式会社ソニー・コンピュータエンタテインメント | 情報提供システム及び情報提供方法 |
US8868651B2 (en) * | 2010-08-16 | 2014-10-21 | Avon Products, Inc. | Web community pre-population method and system |
JP2012168653A (ja) | 2011-02-10 | 2012-09-06 | M-Warp Inc | 情報提供システム |
JP2012221286A (ja) * | 2011-04-11 | 2012-11-12 | Kddi Corp | ユーザ分類装置、ユーザ分類方法、およびユーザ分類プログラム |
CN102354307A (zh) * | 2011-06-20 | 2012-02-15 | 深圳市多易得信息技术有限公司 | 一种帮助微博博主互相收听的方法及系统 |
CN102609460B (zh) * | 2012-01-13 | 2015-02-04 | 中国科学院计算技术研究所 | 微博客数据采集方法及系统 |
CN104254851A (zh) * | 2012-03-17 | 2014-12-31 | 海智网聚网络技术(北京)有限公司 | 用于向用户推荐内容的方法和系统 |
US9348886B2 (en) * | 2012-12-19 | 2016-05-24 | Facebook, Inc. | Formation and description of user subgroups |
-
2014
- 2014-03-05 GB GB1516917.0A patent/GB2528595A/en not_active Withdrawn
- 2014-03-05 CN CN201480012959.5A patent/CN105378717B/zh active Active
- 2014-03-05 JP JP2015505422A patent/JP5961320B2/ja active Active
- 2014-03-05 US US14/775,626 patent/US9996611B2/en active Active
- 2014-03-05 WO PCT/JP2014/055681 patent/WO2014141976A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
GB2528595A (en) | 2016-01-27 |
JP5961320B2 (ja) | 2016-08-02 |
US9996611B2 (en) | 2018-06-12 |
GB201516917D0 (en) | 2015-11-11 |
WO2014141976A1 (ja) | 2014-09-18 |
US20160063098A1 (en) | 2016-03-03 |
CN105378717A (zh) | 2016-03-02 |
JPWO2014141976A1 (ja) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105378717B (zh) | 用于对社交媒体的用户分类的方法、计算机程序和计算机 | |
US11797622B2 (en) | Text-to-media indexes on online social networks | |
JP6193518B2 (ja) | オンライン・ソーシャル・ネットワーク上での検索クエリ対話 | |
KR102049271B1 (ko) | 온라인 소셜 네트워크에서 검색 결과의 블렌딩 | |
KR101845434B1 (ko) | 온라인 소셜 네트워크에서 질의를 위한 검색 의도 | |
KR101671878B1 (ko) | 온라인 소셜 네트워크에서 질의를 위한 인버스 연산자의 사용 | |
US20130318156A1 (en) | Dynamic information streams in a social network platform | |
Hahmann et al. | Twitter location (sometimes) matters: Exploring the relationship between georeferenced tweet content and nearby feature classes | |
US10013480B2 (en) | Method and system for decomposing social relationships into domains of interactions | |
TW201205307A (en) | Method, apparatus and computer program product for efficiently sharing information | |
CN103999082B (zh) | 用于检测社交媒体中的社区的方法、计算机程序和计算机 | |
CN103391306A (zh) | 基于浏览器模块的用户交互方法和系统 | |
CA3208149A1 (en) | System and method for automated hashtag hierarchical ontology generation from social media data | |
Phan et al. | Tweet Integration by Finding the Shortest Paths on a Word Graph | |
Shen et al. | Method for the analysis of the preferences of network users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |