CN103999082B - 用于检测社交媒体中的社区的方法、计算机程序和计算机 - Google Patents

用于检测社交媒体中的社区的方法、计算机程序和计算机 Download PDF

Info

Publication number
CN103999082B
CN103999082B CN201280062988.3A CN201280062988A CN103999082B CN 103999082 B CN103999082 B CN 103999082B CN 201280062988 A CN201280062988 A CN 201280062988A CN 103999082 B CN103999082 B CN 103999082B
Authority
CN
China
Prior art keywords
message
user
communities
similarity
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280062988.3A
Other languages
English (en)
Other versions
CN103999082A (zh
Inventor
榎美纪
R.H.P.鲁迪
伊川洋平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103999082A publication Critical patent/CN103999082A/zh
Application granted granted Critical
Publication of CN103999082B publication Critical patent/CN103999082B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的目的是更精确地检测社交媒体中的社区。本发明是一种在其中多个用户的每一个传送消息的社交网络中使用计算机将多个用户聚类的方法。所述方法具有下列步骤:基于消息之间关系,从多个用户提取多个部分社区;基于属于一个部分社区的用户与属于多个部分社区中的其他部分社区的用户之间关系,计算指示两个部分社区之间相似度程度的第一相似度程度;在第一相似度程度高于预定义的第一阈值的条件下基于由属于两个部分社区的用户传送的消息中的用语,计算指示两个部分社区之间相似度程度的第二相似度程度;以及在第二相似度程度高于预定义的第二阈值的条件下整合两个部分社区以生成整合社区。

Description

用于检测社交媒体中的社区的方法、计算机程序和计算机
技术领域
本发明涉及一种信息处理技术,并且更具体地,其涉及一种用于更快和更精确地检测社交媒体中的社区(共享例如爱好和兴趣的属性的社交媒体用户组)的技术。
背景技术
结合社交媒体的广泛使用,存在从用户已在社交媒体上发送的信息提取社区和由那些社区共享的爱好和兴趣的商业需求。当将社交媒体上的全部信息作为目标时,各种成本将很高,因此通常执行从社交媒体采样的信息提取社区以及相关爱好和兴趣。通常,聚类(clustering)方法被用作用于提取社区以及相关爱好和兴趣的技术。具体地,提取信息内的词语、计算特征向量、以及基于那些向量执行聚类。
引用列表
专利文献
专利文献1:日本专利公报No.4369104
专利文献2:日本公开待审No.2009-301334
发明内容
技术问题
然而,使用这种先前的方法,与该正被采样的信息一致,出于下列原因存在对最初社区最可能相同的节点进行划分的危险。第一,与聚类无关的词语可被确认为特征向量的主分量。第二,不同于常见表示的词语的出现频率较小,并且从而它们对聚类的影响较小并且存在它们将不被拾取的可能性。第三,并且尤其对于微博,许多陈述涉及问候和日常活动,并且与预期目标不匹配的这些词语变为被包括在特征向量中。
本发明是其中考虑了这种问题的发明,并且其目的是提供一种能够更快速和更精确地检测社交媒体中的社区的技术。
本发明是一种通过使用计算机将社交媒体的多个用户聚类的方法,其中多个用户的每一个发送消息。所述方法包括下列步骤:基于同伴(companion)消息的关系,从多个用户提取多个部分社区;基于多个社区中属于一个部分社区的用户与属于其他部分社区的用户的关系,计算示出同伴部分社区的相似度的第一相似度程度;基于由属于两个部分社区的用户发送的消息内的词语并且在第一相似度高于预定第一阈值的条件下,计算示出同伴部分社区的相似度的第二相似度程度;以及在第二相似度高于预定第二阈值的条件下通过整合同伴部分社区创建整合社区。
这里,消息可以包括响应于从单个用户接收的单个消息由其他用户发送的其他消息,并且用于提取的步骤可以基于同伴消息是否与来自单个用户的所述单个消息和响应于所述单个消息接收的其他消息对应而从多个用户提取多个部分社区。此外,用于提取的步骤可以是<强连通分量(strong connected component)>或其可以是<p-clique>。
此外,社交媒体可以存储用户简档信息,并且用于计算第一相似度的步骤可以基于属于一个部分社区的用户的简档信息和属于其他部分社区的用户的简档信息之间的关系来计算第一相似度。
此外,社交媒体可以提供某个用户关注某个其他用户的功能,并且用于计算第一相似度的步骤基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被关注关系计算第一相似度。此外,第一相似度可以示出通过一些其他用户在属于一个部分社区的用户和属于其他部分社区的用户之间是否存在关注/被关注关系,用于计算第二相似度的步骤可以基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被关注关系计算第二相似度。
用于计算第二相似度的步骤可以基于由属于一个部分社区的用户发送的消息内的特征词语与由属于其他部分社区的用户发送的消息内的特征词语是否相似而计算第二相似度。这里,可以使用社区的消息的特征向量<tf*idf>提取特征词语。
此外,消息可以是从在规定条件下在社交媒体上发布的消息采样的消息。此外,消息也可以是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。此外,社交媒体可以是微博。
此外,社交媒体的宿主计算机可以通过网络连接到对多个用户聚类的计算机,并且进一步提供用于聚类计算机接收响应于来自聚类计算机的规定条件请求而从宿主(hosting)计算机发送的消息的步骤。可以进一步包括用于在聚类计算机的存储器装置中存储接收的消息的步骤。
所述方法可以进一步包括用于通过使用图形用户界面输出整合社区的步骤。此时,整合社区可以与特征词语一起输出。
显然,在其中本发明被理解为计算机程序和计算机系统的情况下,其提供与其中本发明被理解为上面描述的方法的情况基本上相同的技术特征。
发明的有利效果
通过使用本发明,能够更快速地和更精确地检测社交媒体中的社区。
附图说明
图1是解释微博(microblog)系统的概略图。
图2是解释微博的关注者和被关注的关系的概略图。
图3是用作用户终端的智能电话和相关屏幕显示的说明图。
图4是存储在微博服务器的硬盘设备中的数据的数据结构的说明图。
图5是发送的消息的类型的说明图。
图6是解释计算机的硬件结构的框图。
图7是解释由计算机执行的处理的流程图。
图8是用于从部分社区生成整合社区的处理的说明图。
具体实施方式
实施例
下列部分基于附图详细描述执行本发明的最佳模式,但下列实施例并未限制根据权利要求的范围的本发明,并且在实施例内描述的特征的整个组合对本发明的解决方式并非必要。可以通过许多不同模式执行本发明,并且没有理由其应被解释为限于对于实施例记录的内容。此外,应注意在实施例内描述的特征的整个组合对本发明的解决方式并非必要。贯穿实施例的整个描述相同标号应用于相同元件(当未另外指定时)。
图1是解释微博系统的概略图。该系统包括微博服务器2和用户终端,并且它们相互连接用于通过因特网4通信。用户终端可以是提供通信功能的任何模式的计算机。例如,附图中示出智能电话31、平板32和个人计算机(笔记本型)33,但是此外,虽然未示出,可以利用例如个人数字助理(PDA,移动信息设备)、车载计算机或笔记本计算机。
图2是解释微博的关注者和被关注的关系的概略图。微博的用户可以提前登记分享相同爱好或兴趣的其他用户,并且用户可以自动接收由那些其他用户发送的消息。该登记过程被称为“关注(to follow)”,并且相关关系可以是下列两种类型:其中涉及的用户都彼此关注,以及其中仅用户之一单方面关注其他用户。例如,图2中的箭头示出用户AAA和用户BBB彼此相互关注,而用户BBB单方面关注CCC,并且用户CCC单方面关注用户AAA。
图3是用作用户终端的智能电话31和相关屏幕显示的说明图。微博应用的屏幕显示在智能电话31的触摸屏上,并且应用屏幕从顶部顺序分成主页组件311、时间轴(timeline)组件312和操作组件313。在主页组件311内显示菜单按钮和时间轴组件312是用户AAA的时间轴的指示符。在时间轴组件312内从顶部顺序显示来自用户AAA的消息组件312a和312b以及来自用户BBB的消息组件312c。这些消息组件312a-312c沿时间序列显示。具体地,在最高位置处的消息组件312a对应于最新消息。
图4是存储在微博服务器2的硬盘设备20,21和22中的数据的数据结构的说明图。在存储在硬盘设备20中的消息表(图4(a))内,提供示出发送每一个消息的日期和时间的发送时间(created_at)、识别每一个消息的消息ID(id)、识别发送消息的用户的用户ID(user_id)和作为消息的内容的文本(text)。此外,可以设置文本的字符计数限制(例如140个字符或更少)。同时,在存储在硬盘设备21中的用户关系表(图4(b))内,提供示出登记关注关系的日期和时间的登记时间(registered_at)、识别作为关注来源(origin)的用户的关注来源用户ID(following_user_id)和识别作为关注目标的用户的关注目标用户ID(followed_user_id)。作为比较,在存储在硬盘22中的简档表(图4(c))内,提供用于识别每一个用户的用户ID(user_id)、每一个用户的名字(附图中未示出)、示出位置的位置信息(location)以及作为相关web页面地址的URL信息(url)。
图5是发送的消息类型的说明图。图5(a)描述正常消息。这里,用户AAA向她自己的时间轴发送消息,并且这些消息不仅显示在用户AAA的时间轴中,而且显示在关注用户AAA的那些用户的(在图2的示例中,用户BBB和用户CCC)时间轴中。图5(b)描述回复消息。回复消息是对特定消息的响应,并且其被显示在响应者的时间轴中和关注响应者的那些用户的时间轴中以及关注回复目标用户的那些用户的时间轴中。这里,用户BBB发送回复消息“嗯,你好。”作为对用户AAA的消息的响应,并且该回复消息显示在用户BBB的时间轴中以及关注用户BBB的用户(在图2的示例中,用户AAA)的时间轴中。
图5(c)和5(d)都描述复制消息的类型,并且它们示出作为复制消息重新发送显示在用户CCC的时间轴中的用户AAA来源消息“我第一次上微博”的形式。在两种情况下,复制消息显示在关注用户CCC的用户(在图2的示例中,用户BBB)的时间轴中,但是在图5(c)中示出的模式中,其以原始发布者用户AAA的名字显示在关注用户CCC的用户的时间轴中,并且在图5(d)中示出的第二模式中,其以转发发布者用户CCC的名字显示。图5(e)描述引用消息,这示出作为引用原始消息并且还包括用户CCC的新评论“欢迎!”的消息重新发送在用户CCC的时间线中显示的用户AAA起源消息“我第一次上微薄”的形式。所引用的消息显示在关注用户CCC的用户的时间轴中。
图6是解释计算机的硬件结构的框图。计算机1的硬件结构包括(低速或高速)总线10、连接到总线10的CPU(中央处理单元)11、RAM(随机存取存储器、存储器设备)12、ROM(只读存储器、存储器设备)13、HDD(硬盘驱动器、存储器设备)14、通信接口15和输入-输出接口16。进一步提供连接到输入-输出接口16的鼠标17、平板显示器(显示设备)18和键盘19。计算机1被描述为采用通用个人计算机架构,但在更高数据处理性能和可用性的情况下可以倍增例如CPU11和HDD14的组件。还可以利用各种其他类型的计算机系统代替桌面型计算机。
计算机1的软件结构包括提供基本功能的操作系统(OS)、利用OS的功能的应用软件和用于输入-输出设备的驱动器软件。这些软件中的每一个与各种数据一起被加载到RAM12中,并且由例如CPU11执行。计算机1作为一个单元执行图7中示出的处理。
图7是解释由计算机执行的处理的流程图。首先,从计算机1向微博服务器2发送条件(S1)。这可以是指定在期间发送消息的时间段的条件、指定在消息内包括特定关键字的条件、指定仅回复或重新发送消息的条件或结合这些参数的条件。然后,计算机1从微博服务器2接收符合上述条件的一组消息的数据(S2)。此时,同时接收符合条件的消息组的数据(图4(a))、和关于与这些消息相关的用户的数据(图4(b))、以及与消息相关的用户的简档(图4(c))是可以接受的。该接收数据存储在计算机1的HDD14中。
然后,基于同伴(companion)消息之间的关系从多个用户提取多个部分社区(S3)。这里,消息是响应于由单个用户发送的单个消息由其他用户发送的其他消息;换句话说,它们是回复消息(图5(b))、复制消息(图5(c)和图5(d))和引用消息中的任何一个。该提取执行通过由单个用户发送的单个消息和其他消息之间的关系定义的用户网络的深度优先搜索,并且因此其提取具有强连通分量的部分网络。图8(a)示出G1和G2,其中每一个都作为部分网络而提取。G1和G2每一个中的每一个圆圈示出单个用户,并且箭头示出在用户之间交换的消息。
然后,基于属于一个部分社区的用户和属于另一部分社区的用户之间的关系,计算示出社区同伴的相似度的第一相似度。这里,针对关注和被关注关系需要多少步骤而对属于一个部分社区的用户和属于其他部分社区的用户进行评估,并且由此计算步骤的数量,并且例如相关的倒数作为相似度程度。图8(b)示出部分网络G1和部分网络G2可以通过第三用户(单个人)使用两个步骤链接两个部分社区,作为第三用户与属于一个部分社区的用户的关注/被关注关系和第三用户与属于其他部分社区的用户的关注/被关注关系。此外,相似度程度为1/2(2的倒数)。基于属于一个部分社区的用户的简档信息和属于其他部分社区的用户的简档信息的关系来计算第一相似度也是可以接受的。例如,对于具有相同国家或行政区域(在位置信息中示出)的同伴用户可以将相似度设置为较高;或者,对于具有部分或完全匹配URL的同伴用户可以将相似度设置为较高。
然后,基于由属于两个部分社区的用户发送的消息内的词语并在第一相似度比预定第一阈值(例如,1/3)更高的条件下,计算示出两个部分社区同伴的相似度的第二相似度程度(S5)。这里,基于由属于一个部分社区的用户发送的消息内的特征词语与由属于其他部分社区的用户发送的消息内的特征词语是否相似来计算第二相似度。此外,通过使用特征向量提取而执行特征词语的深度优先搜索。执行<tf*idf>也是可以接受的。
然后,在第二相似度高于预定第二阈值的条件下,通过整合同伴部分社区而创建整合社区(S6)。图8(c)示出其中整合了部分网络G1和G2的条件,从而生成整合社区G1-G2。整合社区G1-G2可以使用平板显示器18上的图形用户界面输出,并且其可以与特征词语一起输出。
本发明能够采用完全硬件的实施例、或完全软件的实施例或包括硬件和软件两者的元件的实施例的形式。在优选实施例中,虽然未限于下列内容,本发明由包括固件、永久软件、微代码或语法解析微码的软件执行。
此外,本发明可以采用计算机、或任意命令执行系统、或计算机程序或提供用于与此相关的用途的程序代码的计算机可读介质的模式。在实现本发明的目的时,计算机可读介质可以是能够保存、存储、传送或传播用于任意命令执行系统、装置或设备或用于相关用途的程序的任意设备。具体地,上述语法解析控制模块结构化该任意命令执行系统或“计算机”。
介质可以是电子、磁、光、电磁、红外或半导体系统(或装置或设备)或传播介质。作为计算机可读介质的示例,可以提供半导体或固态存储器、磁带、可安装可拆卸计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性电磁盘、或光盘。作为光盘的当前示例,可以提供致密盘只读存储器(CD-ROM)、致密盘可读-可写存储器(CD-R/W)和DVD。
对于适用于存储、执行或存储和执行程序代码的数据处理系统,可以提供直接或通过系统总线间接链接到存储器元件的至少一个处理器。对于该存储器元件,可以提供在程序代码的实际执行过程期间使用的本地存储器或大容量存储器,或者为了减少在执行期间必须从大容量存储器设备读取的次数,可以提供为程序代码的至少部分提供临时存储的高速缓冲存储器。
输入-输出设备或I/O设备(例如键盘、显示器和指示设备,但不限于此)可以直接或通过中间I/O控制器链接到系统。
此外,网络适配器可以链接到系统,并且数据处理系统可以被布置为通过专用或公共网络的中介连接到另一数据处理系统、或远程打印机或存储器设备。当前可获得的网络适配器的部分是调制解调器、电缆调制解调器和以太网(R)卡。
参考标号列表
1:个人计算机。11:CPU(中央处理单元)。12:RAM(随机存取存储器、存储器设备)。13:ROM(只读存储器、存储器设备)。14:HDD(硬盘驱动器、存储器设备)。15:通信接口。16:输入-输出接口。17:鼠标。18:平板显示器(显示设备)。19键盘。2:微博服务器。20、21:硬盘驱动器。31:智能电话。32:平板。33:个人计算机(笔记本型计算机)。

Claims (15)

1.一种通过使用计算机对社交媒体的多个用户进行聚类的方法,其中多个用户的每一个发送消息;所述方法包括下列步骤:
基于同伴消息的关系,从多个用户提取多个部分社区,所述同伴消息包括响应于从单个用户接收的单个消息由其他用户发送的其他消息;
基于多个社区中属于一个部分社区的用户与属于其他部分社区的用户的关系,计算示出同伴部分社区的相似度的第一相似度程度;
基于由属于两个部分社区的用户发送的消息内的词语并且在第一相似度高于预定第一阈值的条件下,计算示出同伴部分社区的相似度的第二相似度程度;以及
在第二相似度高于预定第二阈值的条件下通过整合同伴部分社区创建整合社区;
其中,社交媒体提供某个用户关注某个其他用户的功能,并且用于计算第一相似度的步骤基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被关注关系计算第一相似度。
2.如权利要求1所述的方法,其中,用于提取的步骤基于同伴消息是否与来自单个用户的所述单个消息和响应于所述单个消息接收的其他消息对应而从多个用户提取多个部分社区。
3.如权利要求1所述的方法,其中,社交媒体存储用户简档信息,并且用于计算第一相似度的步骤基于属于一个部分社区的用户的简档信息和属于其他部分社区的用户的简档信息之间的关系来计算第一相似度。
4.如权利要求1所述的方法,其中,用于计算第二相似度的步骤基于由属于一个部分社区的用户发送的消息内的特征词语与由属于其他部分社区的用户发送的消息内的特征词语是否相似而计算第二相似度。
5.如权利要求4所述的方法,其中,通过创建消息的特征向量而提取特征词语。
6.如权利要求1所述的方法,其中,消息是在规定条件下从发布到社交媒体的消息采样的消息。
7.如权利要求1所述的方法,其中,消息是在包括规定关键字的条件下从在规定时间段内发布到社交媒体的消息聚类的消息。
8.如权利要求6所述的方法,其中,向社交媒体发布的计算机通过网络连接到将多个用户聚类的计算机,并且所述方法进一步包括聚类计算机接收响应于来自聚类计算机的规定条件请求而从发布计算机发送的消息的步骤。
9.如权利要求8所述的方法,其中,所述方法进一步包括用于在聚类计算机的存储器装置中存储接收的消息的步骤。
10.如权利要求1所述的方法,其中,社交媒体是微博。
11.如权利要求1所述的方法,其中,所述方法进一步包括用于通过使用图形用户界面输出整合社区的步骤。
12.如权利要求4所述的方法,其中,所述方法输出整合社区连同所述特征词语。
13.一种计算机可读介质,所述计算机可读介质包括程序代码,所述程序代码用于实现根据权利要求1-12中的任何一项的方法的全部步骤。
14.一种对社交媒体的多个用户聚类的计算机,其中多个用户的每一个发送消息;其中:
在计算机的存储器装置中存储消息;以及
所述计算机的计算控制装置执行:
基于同伴消息的关系,从多个用户提取多个部分社区,所述同伴消息包括响应于从单个用户接收的单个消息由其他用户发送的其他消息;
基于多个社区中属于一个部分社区的用户与属于其他部分社区的用户的关系,计算示出同伴部分社区的相似度的第一相似度程度;
基于由属于两个部分社区的用户发送的消息内的词语并且在第一相似度高于预定第一阈值的条件下,计算示出同伴部分社区的相似度的第二相似度程度;以及
在第二相似度高于预定第二阈值的条件下通过整合同伴部分社区创建整合社区;
其中,社交媒体提供某个用户关注某个其他用户的功能,并且用于计算第一相似度的步骤基于属于一个部分社区的用户和属于其他部分社区的用户之间的关注/被关注关系计算第一相似度。
15.如权利要求14所述的计算机,其中,存储在存储器装置中的消息是从发布到社交媒体的消息采样的消息。
CN201280062988.3A 2011-12-19 2012-11-22 用于检测社交媒体中的社区的方法、计算机程序和计算机 Expired - Fee Related CN103999082B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011276995 2011-12-19
JP2011-276995 2011-12-19
PCT/JP2012/080320 WO2013094361A1 (ja) 2011-12-19 2012-11-22 ソーシャル・メデイアにおけるコミュニティを検出する方法、コンピュータ・プログラム、コンピュータ

Publications (2)

Publication Number Publication Date
CN103999082A CN103999082A (zh) 2014-08-20
CN103999082B true CN103999082B (zh) 2017-09-12

Family

ID=48668260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280062988.3A Expired - Fee Related CN103999082B (zh) 2011-12-19 2012-11-22 用于检测社交媒体中的社区的方法、计算机程序和计算机

Country Status (5)

Country Link
US (2) US9659098B2 (zh)
JP (1) JP5893050B2 (zh)
CN (1) CN103999082B (zh)
DE (1) DE112012005307T5 (zh)
WO (1) WO2013094361A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013094361A1 (ja) 2011-12-19 2013-06-27 インターナショナル・ビジネス・マシーンズ・コーポレーション ソーシャル・メデイアにおけるコミュニティを検出する方法、コンピュータ・プログラム、コンピュータ
JP6182478B2 (ja) * 2014-02-28 2017-08-16 株式会社日立製作所 解析装置及び解析方法
CN106709800B (zh) * 2016-12-06 2020-08-11 中国银联股份有限公司 一种基于特征匹配网络的社团划分方法和装置
KR101810864B1 (ko) * 2017-02-06 2017-12-20 한양대학교 산학협력단 하이브리드 방식의 영향력 평가 방법 및 장치
CN110070287A (zh) * 2019-04-19 2019-07-30 西北工业大学 一种基于相似聚类及平均思想的动态任务分配方法
CN110674290B (zh) * 2019-08-09 2023-03-10 国家计算机网络与信息安全管理中心 一种用于重叠社区发现的关系预测方法、装置和存储介质
CN117785973A (zh) * 2023-12-11 2024-03-29 深圳鹏程未来技术有限公司 社区用户信息集成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278257A (zh) * 2005-05-10 2008-10-01 奈特希尔公司 用于分布式社区发现的方法和装置
JP2010286868A (ja) * 2009-06-09 2010-12-24 Nec Corp コミュニティ形成システム、そのコミュニティ形成装置、そのデータ処理方法およびコンピュータプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014349A (ja) 1999-06-28 2001-01-19 Nippon Telegr & Teleph Corp <Ntt> 協調情報フィルタリング用レイティングシステム
US8117281B2 (en) * 2006-11-02 2012-02-14 Addnclick, Inc. Using internet content as a means to establish live social networks by linking internet users to each other who are simultaneously engaged in the same and/or similar content
US7644144B1 (en) * 2001-12-21 2010-01-05 Microsoft Corporation Methods, tools, and interfaces for the dynamic assignment of people to groups to enable enhanced communication and collaboration
JP4369104B2 (ja) 2002-10-07 2009-11-18 みずほ情報総研株式会社 コミュニティ形成支援システム、その端末、サーバ及びプログラム
US7406459B2 (en) 2003-05-01 2008-07-29 Microsoft Corporation Concept network
JP2008107867A (ja) * 2006-10-23 2008-05-08 Hitachi Ltd コミュニティ抽出方法、コミュニティ抽出処理装置
JP2008140174A (ja) 2006-12-01 2008-06-19 Tmf Create:Kk コミュニケーションサービスシステム
JP2008257512A (ja) 2007-04-05 2008-10-23 Hitachi Ltd 情報提供装置およびプログラム
KR101527616B1 (ko) * 2007-05-15 2015-06-10 소씨얼 프로젝트, 아이엔씨. 소셜 네트워킹 온라인 커뮤니티를 생성하기 위한 시스템 및 방법
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest
JP2009301335A (ja) 2008-06-13 2009-12-24 Ricoh Co Ltd 画像処理装置、画像処理方法及びコンピュータプログラム
JP5159451B2 (ja) 2008-06-13 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション ネットワーク行動を分析する情報処理装置、分析システム、ネットワーク行動の分析方法およびプログラム
JP2010218353A (ja) * 2009-03-18 2010-09-30 Oki Electric Ind Co Ltd クラスタリング装置およびクラスタリング方法
US8838601B2 (en) * 2011-08-31 2014-09-16 Comscore, Inc. Data fusion using behavioral factors
WO2013094361A1 (ja) 2011-12-19 2013-06-27 インターナショナル・ビジネス・マシーンズ・コーポレーション ソーシャル・メデイアにおけるコミュニティを検出する方法、コンピュータ・プログラム、コンピュータ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278257A (zh) * 2005-05-10 2008-10-01 奈特希尔公司 用于分布式社区发现的方法和装置
JP2010286868A (ja) * 2009-06-09 2010-12-24 Nec Corp コミュニティ形成システム、そのコミュニティ形成装置、そのデータ処理方法およびコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种局部最优社区挖掘方法;吴龙庭等;《计算机应用研究》;20090831;第26卷(第8期);全文 *
基于兴趣相似度的社区结构发现算法研究;韩瑞凯等;《铁路计算机应用》;20101031;第19卷(第10期);全文 *

Also Published As

Publication number Publication date
WO2013094361A1 (ja) 2013-06-27
DE112012005307T5 (de) 2014-10-02
US10068009B2 (en) 2018-09-04
US20170154106A1 (en) 2017-06-01
CN103999082A (zh) 2014-08-20
US9659098B2 (en) 2017-05-23
JP5893050B2 (ja) 2016-03-23
JPWO2013094361A1 (ja) 2015-04-27
US20140337343A1 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
CN103999082B (zh) 用于检测社交媒体中的社区的方法、计算机程序和计算机
US10218657B2 (en) Method and system for providing private chat within a group chat
US9183535B2 (en) Social network model for semantic processing
US7827165B2 (en) Providing a social network aware input dictionary
JP5340584B2 (ja) 電子メッセージの読解を支援する装置及び方法
US20160328378A1 (en) Anaphora resolution for semantic tagging
US8788342B2 (en) Intelligent feature expansion of online text ads
CN104335607A (zh) 用于识别和建议表情符号的系统和方法
US20120062596A1 (en) Providing augmented reality information
CN105378717B (zh) 用于对社交媒体的用户分类的方法、计算机程序和计算机
US20150095127A1 (en) Interconnecting enhanced and diversified communications with commercial applications
US11010687B2 (en) Detecting abusive language using character N-gram features
CN108932066A (zh) 输入法获取表情包的方法、装置、设备和计算机存储介质
CN107491477A (zh) 一种表情符号搜索方法及装置
JP5121763B2 (ja) 感情推定装置、及び方法
JP2019091450A (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
CN110083677A (zh) 联系人的搜索方法、装置、设备及存储介质
CN113888285A (zh) 用户旅程分析方法、系统、存储介质及电子设备
CN108846098A (zh) 一种信息流摘要生成及展示方法
US20110223567A1 (en) Language and communication system
CN104011718B (zh) 用于选择识别的消息组的方法、计算机可读介质和计算机
KR101584225B1 (ko) 메신저의 대화 내용을 바탕으로 추천 검색어를 제공하는 방법과 시스템 및 기록 매체
CN116775815B (zh) 对话数据的处理方法、装置、电子设备及存储介质
JP2020135673A (ja) 投稿評価システム及び方法
JP7293743B2 (ja) 処理装置、処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170912

CF01 Termination of patent right due to non-payment of annual fee