CN105095228A - 一种社交消息的监测方法及装置 - Google Patents

一种社交消息的监测方法及装置 Download PDF

Info

Publication number
CN105095228A
CN105095228A CN201410175434.5A CN201410175434A CN105095228A CN 105095228 A CN105095228 A CN 105095228A CN 201410175434 A CN201410175434 A CN 201410175434A CN 105095228 A CN105095228 A CN 105095228A
Authority
CN
China
Prior art keywords
message
social
messages
social message
classes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410175434.5A
Other languages
English (en)
Inventor
陈雷
周项敏
何秀强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410175434.5A priority Critical patent/CN105095228A/zh
Priority to EP14890901.3A priority patent/EP3009942A4/en
Priority to PCT/CN2014/089942 priority patent/WO2015165230A1/zh
Publication of CN105095228A publication Critical patent/CN105095228A/zh
Priority to US15/147,684 priority patent/US10250550B2/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/234Monitoring or handling of messages for tracking messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供一种社交消息的监测方法及装置,涉及通信领域,能够解决社交网客户端不能主动发现社交事件的问题。具体的实现方法为:社交网服务器接收社交消息,得到所述社交消息的主题概率向量;将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性;将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中;当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。本发明用于实现对社交消息的监测。

Description

一种社交消息的监测方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种社交消息的监测方法及装置。
背景技术
近年来,社交媒体,如微博、微信、论坛、播客等,已经成为人们发布消息的重要途径。社交媒体的信息中往往包含着在事件发生过程中的各种重要资料和线索,通过消息及时发现和监控重大事件的发生及变化过程,能够提高对危机事件管理和决策的灵活性和实时性。
以新西兰昆士兰水灾为例,整个水灾过程从不同角度在Twitter(一种社交媒体的名称)上进行了实时呈现,例如发生了什么、在哪里发生、有谁参与、以及对周边环境的影响等。如下的事件都出现在Twitter上,“一艘游艇在布里斯班河正在沉没”、“港口重新开放”、“鲨鱼被冲到街道上”、“一些重要政府机构办公地区临时管制”等。及时发现上述事件对救灾及危机管理都有重大的意义。
现有的对社交消息进行发现的过程是:用户通过社交网客户端主动对社交消息进行查询、收集相关的社交事件。即对社交消息的获取需要通过人工输入的方式在社交网客户端中输入社交消息的基本信息,然后由浏览器或社交网客户端依据社交消息的基本信息搜索获取一个类别的社交消息。
在实现上述社交消息发现的过程中,由于对社交消息的获取是通过人工触发,这样社交网客户端并不能实现对社交消息的实时监测,因此社交网客户端不能主动发现互联网社交事件的更新。
发明内容
本发明的实施例提供一种社交消息的监测方法及装置,以实现对社交消息的实时监控,从而使社交网客户端能主动发现聚类的社交事件。
本发明的实施例采用如下技术方案:
第一方面,提供一种社交消息的监测方法,包括:
接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量;
将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,其中,所述代表消息为一个消息类中具有代表性的社交消息;
将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中;
当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
结合第一方面,在第一种可能的实现方式中,所述方法还包括:
若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述方法还包括:
从每一个消息类中选取代表消息;
其中,所述从每一个消息类中选取代表消息包括:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;或
在所述每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或
在所述每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;或
将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息;其中,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。
结合第一方面或第一方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量,包括:
接收所述社交消息,获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数;
利用隐含狄利克雷分布LDA算法对所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
结合第一方面或第一方面的第一种到第三种任一种可能的实现方式,在第四种可能的实现方式中,所述方法还包括:
对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性;
将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,具体包括:
计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵,得到所述社交消息与所述每个代表消息的主题消息相似性;
对所述主题消息相似性和用户相似性进行加权求和,得到所述社交消息与所述每个代表消息的相似性。
结合第一方面或第一方面的第一种到第四种任一种可能的实现方式,在第五种可能的实现方式中,所述方法还包括:
对任意一个消息类中的社交消息进行查找、插入、删除操作。
结合第一方面或第一方面的第一种到第五种任一种可能的实现方式,在第六种可能的实现方式中,所述对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量之前,还包括:
获取所述社交消息所属的领域,若所述社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息;
所述对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量,包括:
对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
第二方面,提供一种社交网服务器,用于监测社交消息,其特征在于,包括:
主题建模模块,用于接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量;
相似性获取模块,用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到所述社交消息与所述每个代表消息的主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,其中,所述代表消息为一个消息类中具有代表性的社交消息;
聚类模块,用于将所述社交消息存入相似性获取模块测量得到的与所述社交消息相似性最高的代表消息所在的消息类中;
聚类分析模块,用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
结合第二方面,在第一种可能的实现方式中,所述聚类模块还用于:
若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述社交网服务器还包括:
聚类操作模块,用于从每一个消息类中选取代表消息;
其中,聚类操作模块具体用于:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;或
在所述每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或
在所述每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;或
将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的代表消息,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。
结合第二方面或第二方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述主题建模模块包括:
参数收集单元,用于接收所述社交消息,获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数;
向量获取单元,用于利用隐含狄利克雷分布LDA算法对所述参数收集模块获取的社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
结合第二方面或第二方面的第一种到第三种任一种可能的实现方式,在第四种可能的实现方式中,所述社交网服务器还包括:
用户相似性测量模块,用于对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性;
所述相似性获取模块包括:
主题相似性测量单元,用于计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵,得到所述社交消息与所述每个代表消息的主题消息相似性;
相似性获取单元,用于对所述主题相似性获取模块得到的主题消息相似性和所述用户相似性模块得到的用户相似性进行加权求和,得到所述社交消息与所述每个代表消息的相似性。
结合第二方面或第二方面的第一种到第四种任一种可能的实现方式,在第五种可能的实现方式中,所述聚类操作模块还用于:
对任意一个消息类中的社交消息进行查找、插入、删除操作。
结合第二方面或第二方面的第一种到第五种任一种可能的实现方式,在第六种可能的实现方式中,所述社交网服务器还包括:
过滤模块,用于获取所述社交消息所属的领域,若所述社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息;
所述主题建模模块,具体用于:
对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
在上述方案中,社交网服务器接收社交消息,根据社交消息与每个代表消息的相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出该消息类,由于社交网服务器能够主动向社交网客户端输出消息类,实现了对社交消息的实时监测,使得社交网客户端能主动发现聚类的社交事件。
附图说明
图1为本发明的实施例提供的应用场景示意图;
图2为本发明的实施例提供的一种社交消息的检测方法的流程示意图;
图3为本发明的又一实施例提供的一种社交消息的检测方法的流程示意图;
图4为本发明的实施例提供的一种社交消息的存储结构示意图;
图5为本发明的实施例提供的一种社交消息的查找、插入和删除结构的示意图;
图6为本发明的实施例提供的一种社交网服务器的结构示意图;
图7为本发明的另一实施例提供的一种社交网服务器的结构示意图;
图8为本发明的又一实施例提供的一种社交网服务器的结构示意图;
图9为本发明的再一实施例提供的一种社交网服务器的结构示意图。
具体实施方式
下面将结合本发明的实施例中的附图,对本发明的实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例应用于社交网络系统,其中,参照图1所示,用户通过社交网客户端向社交网服务器上传社交消息(例如微博消息),若用户需要对上传的社交消息进行浏览或评论,则用户通过社交网客户端向社交网服务器发送浏览或评论上传的社交消息的请求,社交网服务器会处理客户端提供浏览或评论的业务,下传相应的社交消息或评论,并存储相应的评论,实现了用户与用户之间的互动。在本发明的实施例中,用户通过社交网客户端向社交网服务器上传社交消息,社交网服务器,对上传的社交消息进行主题建模分析,根据社交消息与每个代表消息的相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,若所述社交消息与所有代表消息的相似性均不超过预定阈值,则为所述社交消息新建一个消息类,当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出该消息类。这样,实现了对社交消息的实时监测。能够使该社交消息及时受到用户的关注。
具体的,参照图2所示,包括以下步骤:
101、接收社交消息,并对社交消息进行主题建模分析,得到社交消息的主题概率向量。
对于社交网服务器接收到的每一条社交消息,首先都进行主题建模分析,得到该社交消息的主题概率向量,并且该社交消息的主题概率向量与该社交消息始终保持对应存在的关系。其中,主题概率向量是该社交消息属于各个主题的概率所组成的向量,例如服务器中包括军事、财经、灾难、娱乐四个主题,接收到一条社交消息,对其进行主题建模分析,得到的主题概率向量包括四个概率(假设该主题概率向量为:{0.2、0.1、0.8、0.3}),这四个概率分别对应属于军事主题的概率、属于财经主题的概率、属于灾难主题的概率、属于娱乐主题的概率。
102、将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,其中,所述代表消息为一个消息类中具有代表性的社交消息。
得到主题相似性之后,还可以结合其他的相似性参数得到更精确的社交消息与每个代表消息的相似性。
103、将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中。
可选的,若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
从得到的社交消息与每个代表消息的相似性中,选取相似性最高的。并将社交消息存入该数值最高的相似性对应的代表消息所在的消息类中。若最高的所述社交消息与代表消息的相似性不超过预设的第一相似性阈值,说明所述社交消息不属于任一个现有的消息类。则新建一个消息类,将所述社交消息存入所述新建的消息类。
104、当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
当任一个消息类中的社交消息的数量达到第一阈值时,说明该消息类中的社交消息的数量足够多,满足输出的第一条件。
或者,当所述消息类中所述所有社交消息间的相似性中,超过预设的第二相似性阈值的社交消息间的相似性的数量,达到第二阈值时,则满足主题一致性,输出该消息类。其中,第二阈值也可以为一个比例,即超过预设的第二相似性阈值的社交消息间的相似性的数量达到总数量的一定比例时,满足主题一致性。
可选的,在对所述社交消息进行主题建模分析之前,还可以获取社交消息所属的领域,若社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
例如:预设的领域包括:政治、社会热点、灾难、金融。若接收到的社交消息的所属领域为娱乐,则过滤掉该社交消息。
可选的,还可以对任意一个消息类中的社交消息进行查找、插入、删除操作。
其中,运营商可以通过社交网服务器对社交网服务器中存储的社交消息进行查找、插入、删除操作。这样,提供了一种人工输入和输出社交消息或删除社交消息的方法,使社交消息的监测更加灵活。
在上述实施例中,社交网服务器接收社交消息,根据社交消息与每个代表消息的相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出该消息类,由于社交网服务器能够主动向社交网客户端输出消息类,实现了对社交消息的实时监测,使得社交网客户端能主动发现聚类的社交事件。
本发明的实施例提供一种社交消息的监测方法,参照图3所示,包括以下步骤:
201、接收社交消息,获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数。
202、利用隐含狄利克雷分布LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)算法可以对社交消息进行建模,其中,需要先指定主题的数量,再按照LDA算法计算出社交消息的主题概率向量,该主题概率向量包括社交消息属于每一个主题的概率。由于只使用社交消息的内容参数建模精确度低,所以再引入社交消息的时间参数和社交消息的空间参数提高精确度。其中,引入的社交消息的时间参数和社交消息的空间参数(空间参数分为:经度参数和纬度参数)可以设定为基于主题的贝塔分布,从而计算社交消息的主题概率向量。
203、从所有的消息类中选取代表消息。
具体的,以下提供四种选取方式:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;
或者,在每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或者,在每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;
或者,将每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。其中,加权平均的权值可以根据时间,空间,用户数量决定,例如:越近上传的社交消息权值越高;离发生地越近的地方的社交消息权值越高;用户数量(包括上传用户的数量、转发用户的数量、关注用户的数量)越多的社交消息权值越高。
204、计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵,得到所述社交消息与每个代表消息的主题消息相似性。
其中,主题的数量为n,社交消息P的主题概率向量P(1,2,……,n)和代表消息Q的主题概率向量Q(1,2,……,n)的相对熵计算公式为:
D KL ( P | | Q ) = Σ i P ( i ) log P ( i ) Q ( i )
其中,DKL(P||Q)代表P和Q的相对熵(Kullback–Leiblerdivergence,表示为DKL),P(i)为社交消息P的主题概率向量P(1,2,……,n)中的第i项,Q(i)为代表消息Q的主题概率向量Q(1,2,……,n)中的第i项。
205、对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表消息的用户相似性。
其中,社交消息P的用户为:P=<p1,p2,……,pi>,其中,p1,p2,……,pi为社交消息P的全部用户(上传用户、转发用户、回复用户),代表消息Q的用户为:Q=<q1,q2,……,qn>,其中,q1,q2,……,qn为代表消息Q的全部用户。社交消息与代表消息用户相似性计算公式为:
LCS ( P , Q ) = 0 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; i = 0 ; j = 0 LCS ( P i - 1 , Q j - i ) + 1 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; p i = q i max { LCS ( P i , Q j - 1 ) , LCS ( P i - 1 , Q j ) } &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; p i &NotEqual; q i
其中,LCS(P,Q)为社交消息P和代表消息Q最长公共子串(LongestCommonSubstring,简称LCS),这里,最长公共子串为最长公共用户串。若i=0或j=0时,社交消息P或代表消息Q为空用户,所以用户相似性为0。若pi=qj,社交消息P和代表消息Q的最后一个用户相等,则用户相似性为社交消息P的前i-1个用户和代表消息Q的前j-1个用户的最长公共用户串再加上1(相等的最后一个用户)。若pi≠qj,社交消息P和代表消息Q的最后一个用户不相等,则用户相似性为社交消息P的用户和代表消息Q的前j-1个用户的最长公共用户串与社交消息P的前i-1个用户和代表消息Q的用户的最长公共用户串中的较大值。
206、对所述主题消息相似性和用户相似性进行加权求和,得到所述社交消息与所述代表消息的相似性。
社交消息P和代表消息Q的相似性公式为:
D(P,Q)=ωDKL(P||Q)+(1-ω)LCS(P,Q)
其中,D(P,Q)为社交消息P和代表消息Q的相似性,ω为社交消息P与代表消息Q的主题相似性的权值;1-ω为社交消息P与代表消息Q的用户相似性的权值。
207、将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中,若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
其中,可以基于哈希数据结构来存储社交消息,参照图4所示,“排序事件类”存储每个消息类(图3中,消息类用E表示,第一个消息类为E1,第二个消息类为E2,……,第i个消息类为Ei;消息类Ei中的社交消息用hki1、hki2、……、hkin表示)的哈希地址,而“哈希字典”存储指向存储社交消息的硬盘存储块。消息类中的代表消息的地址存储在每个消息类的属性中,消息类支持快速索引及查找。该哈希数据结构支持社交消息的动态存储及删除。由于社交消息数据量极大,该哈希数据结构只存储最近一个时间段的社交消息,例如一个小时。
208、当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,输出所述消息类。
具体的,参照步骤104,这里就不再赘述。
可选的,还可以对任意一个消息类中的社交消息进行查找、插入、删除操作。
参照图5所示,提供一个与所有消息类相连的查找、插入、删除接口,用于对社交消息进行查找、插入、删除操作。接收输入指令(查找、插入、删除指令),响应这个指令,对相应的消息类中的社交消息进行查找、插入、删除操作。若输入指令为查找指令,则输出相应的社交消息;若输入指令为插入指令,则将社交消息插入相应的消息类中;若输入指令为删除指令,则删除相应的消息类或相应的消息类中删除指令指定的社交消息。
这样,提供了一种人工输入和输出社交消息的方法,使社交消息的监测更加灵活。
在上述实施例中,社交网服务器接收社交消息,根据社交消息与每个代表消息的相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出该消息类,由于社交网服务器能够主动向社交网客户端输出消息类,实现了对社交消息的实时监测,使得社交网客户端能主动发现聚类的社交事件。
本发明的实施例提供一种社交网服务器3,用于监测社交消息,参照图6所示,包括:
主题建模模块301,用于接收社交消息,并对社交消息进行主题建模分析,得到社交消息的主题概率向量。
对于接收到的每一条社交消息,首先都进行主题建模分析,得到该社交消息的主题概率向量,并且该社交消息的主题概率向量与该社交消息始终保持对应存在的关系。
可选的,参照图7所示,主题建模模块301包括:
参数收集单元301-1,用于接收社交消息,获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数;
向量获取单元301-2,用于利用LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析,得到社交消息的主题概率向量。
进一步的,所述社交网服务器3包括:
相似性获取模块302,用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性。
其中,所述代表消息为一个消息类中具有代表性的社交消息。得到主题相似性之后,还可以结合其他的相似性参数得到更精确的社交消息与每个代表消息的相似性。
进一步的,社交网服务器3,还包括:
聚类模块303,用于将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中,若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
聚类分析模块304,用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
当任一个消息类中的社交消息的数量达到第一阈值时,说明该消息类中的社交消息的数量足够多,满足输出的第一条件。
或者,当所述消息类中所述所有社交消息间的相似性中,超过预设的第二相似性阈值的社交消息间的相似性的数量,达到第二阈值时,则满足主题一致性,输出该消息类。其中,第二阈值也可以为一个比例,即超过预设的第二相似性阈值的社交消息间的相似性的数量达到总数量的一定比例时,满足主题一致性。
进一步可选的,参照图7所示,社交网服务器3,还包括:
聚类操作模块305,用于从所有的消息类中选取代表消息。
其中,代表消息为一个消息类中具有代表性的社交消息。其中,聚类操作模块储存消息类。
具体的,聚类操作模块305用于:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;
或者,在每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或者,在每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;
或者,将每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的代表消息,若有新的社交消息加入所述消息类,需要重新加权平均计算所述消息类的代表消息的主题概率向量。其中,加权平均的权值可以根据时间,空间,用户数量决定,例如:越近上传的社交消息权值越高;离发生地越近的地方的社交消息权值越高;用户数量(包括上传用户、转发用户、关注用户)越多的社交消息权值越高。
可选的,聚类操作模块305还用于:
对任意一个消息类中的社交消息进行查找、插入、删除操作。
其中,运营商可以对社交网服务器中存储的社交消息进行查找、插入、删除操作。这样,提供了一种人工输入和输出社交消息或删除社交消息的方法,使社交消息的监测更加灵活。
具体的,接收输入指令(查找、插入、删除指令),响应这个指令,对相应的消息类中的社交消息进行查找、插入、删除操作。若输入指令为查找指令,则输出相应的社交消息;若输入指令为插入指令,则将社交消息插入相应的消息类中;若输入指令为删除指令,则删除相应的消息类或相应的消息类中删除指令指定的社交消息。
可选的,图7中,社交网服务器3还包括:
用户相似性测量模块306,用于对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表.消息的用户相似性。
相似性获取模块302,包括:
主题相似性测量单元302-1,用于计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵,得到社交消息与每个代表消息的主题消息相似性。
相似性获取单元302-2,用于对所述主题相似性获取模块302-1得到的主题消息相似性和所述用户相似性模块306得到的用户相似性进行加权求和,得到所述社交消息与所述代表消息的相似性。
可选的,参照图8所示,该社交网服务器3还包括:
过滤模块307,用于获取社交消息所属的领域,若社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
例如:预设的领域包括:政治、社会热点、灾难、金融。若接收到的社交消息的所属领域为娱乐,则过滤掉该社交消息。
在上述实施例中,社交网服务器接收社交消息,根据社交消息与每个代表消息的相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出该消息类,由于社交网服务器能够主动向社交网客户端输出消息类,实现了对社交消息的实时监测,使得社交网客户端能主动发现聚类的社交事件。
本发明的实施例提供一种社交网服务器4,用于监测社交消息,参照图9所示,包括:处理器401、通信接口402、存储器403和总线404,其中处理器401、通信接口402、存储器403通过总线404连接,存储器403用于存储处理器处理的数据。
总线404可以是ISA(IndustryStandardArchitecture,工业标准体系结构)总线、PCI(PeripheralComponent,外部设备互连)总线或EISA(ExtendedIndustryStandardArchitecture,扩展工业标准体系结构)总线等。该总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中:
存储器403用于存储可执行程序代码,该程序代码包括计算机操作指令。存储器403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器401可能是一个中央处理器(CentralProcessingUnit,简称为CPU),或者是特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
处理器401,用于通过通信接口402接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
具体的,处理器401,用于通过通信接口402接收社交消息,获取社交消息的内容参数、社交消息的时间参数、社交消息的空间参数。
处理器401,用于利用隐含狄利克雷分布LDA算法对社交消息的内容参数、社交消息的时间参数、社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
进一步的,处理器401,还用于将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性。
其中,所述代表消息为一个消息类中具有代表性的社交消息。
得到主题相似性之后,还可以结合其他的相似性参数得到更精确的社交消息与每个代表消息的相似性。
可选的,处理器401还用于对比社交消息的用户与每个代表消息的用户得到社交消息与每个代表消息的用户相似性。
进一步的,处理器401,用于计算社交消息的主题概率向量与每个代表消息的主题概率向量的相对熵,得到所述社交消息与每个代表消息的主题消息相似性。
处理器401,用于对所述主题消息相似性和用户相似性进行加权求和,得到所述社交消息与所述代表消息的相似性。
其中,处理器401,还用于从所有的消息类中选取代表消息。
具体的,以下提供四种选取方式:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;
或者,在每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或者,在每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;
或者,将每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。其中,加权平均的权值可以根据时间,空间,用户数量决定,例如:越近上传的社交消息权值越高;离发生地越近的地方的社交消息权值越高;用户数量(包括上传用户的数量、转发用户的数量、关注用户的数量)越多的社交消息权值越高。
进一步的,处理器401,还用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,通过通信接口402向社交网客户端输出所述消息类。
当任一个消息类中的社交消息的数量达到第一阈值时,说明该消息类中的社交消息的数量足够多,满足输出的第一条件。
或者,当所述消息类中所述所有社交消息间的相似性中,超过预设的第二相似性阈值的社交消息间的相似性的数量,达到第二阈值时,则满足主题一致性,输出该消息类。其中,第二阈值也可以为一个比例,即超过预设的第二相似性阈值的社交消息间的相似性的数量达到总数量的一定比例时,满足主题一致性。
可选的,处理器401还用于:
对存储器403中存储的任意一个消息类中的社交消息进行查找、插入、删除操作。
其中,运营商可以对社交网服务器中存储的社交消息进行查找、插入、删除操作。这样,提供了一种人工输入和输出社交消息或删除社交消息的方法,使社交消息的监测更加灵活。
具体的,接收输入指令(查找、插入、删除指令),响应这个指令,对相应的消息类中的社交消息进行查找、插入、删除操作。若输入指令为查找指令,则输出相应的社交消息;若输入指令为插入指令,则将社交消息插入相应的消息类中;若输入指令为删除指令,则删除相应的消息类或相应的消息类中删除指令指定的社交消息。
可选的,处理器401还用于:
获取社交消息所属的领域,若社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息。社交网服务器可以对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
例如:预设的领域包括:政治、社会热点、灾难、金融。若接收到的社交消息的所属领域为娱乐,则过滤掉该社交消息。
在上述社交网服务器中,接收社交消息,根据社交消息与每个代表消息的相似性,将社交消息存入与该社交消息相似性最高的代表消息所在的消息类中,当任一消息类中的社交消息所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出该消息类,由于社交网服务器能够主动向社交网客户端输出消息类,实现了对社交消息的实时监测,使得社交网客户端能主动发现聚类的社交事件。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种社交消息的监测方法,其特征在于,包括:
接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量;
将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,其中,所述代表消息为一个消息类中具有代表性的社交消息;
将所述社交消息存入与所述社交消息相似性最高的代表消息所在的消息类中;
当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
从每一个消息类中选取代表消息;
其中,所述从每一个消息类中选取代表消息包括:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;或
在所述每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或
在所述每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;或
将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息;其中,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量,包括:
接收所述社交消息,获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数;
利用隐含狄利克雷分布LDA算法对所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性;
所述将所述社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,具体包括:
计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵,得到所述社交消息与所述每个代表消息的主题消息相似性;
对所述主题消息相似性和用户相似性进行加权求和,得到所述社交消息与所述每个代表消息的相似性。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
对任意一个消息类中的社交消息进行查找、插入、删除操作。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量之前,还包括:
获取所述社交消息所属的领域,若所述社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息;
所述对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量,包括:
对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
8.一种社交网服务器,用于监测社交消息,其特征在于,包括:
主题建模模块,用于接收社交消息,并对所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量;
相似性获取模块,用于将所述主题建模模块接收的社交消息的主题概率向量与每个代表消息的主题概率向量进行比较得到主题相似性,并依据所述主题相似性获取所述社交消息与所述每个代表消息的相似性,其中,所述代表消息为一个消息类中具有代表性的社交消息;
聚类模块,用于将所述社交消息存入相似性获取模块测量得到的与所述社交消息相似性最高的代表消息所在的消息类中;
聚类分析模块,用于当所述消息类中的社交消息的数量达到第一阈值或所述消息类中的社交消息主题一致时,向社交网客户端输出所述消息类。
9.根据权利要求8所述的社交网服务器,其特征在于,所述聚类模块还用于:
若所述社交消息与所述每个代表消息的相似性均不超过预设的第一相似性阈值,则新建一个消息类,将所述社交消息存入所述新建的消息类。
10.根据权利要求8或9所述的社交网服务器,其特征在于,所述社交网服务器还包括:
聚类操作模块,用于从每一个消息类中选取代表消息;
其中,聚类操作模块具体用于:
在每一个消息类中选择预设的时间内的社交消息作为代表消息,其中,不同的消息类中预设的时间可以不相同;或
在所述每一个消息类中选择预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的地点可以不相同;或
在所述每一个消息类中选择预设的时间内和预设的地点内的社交消息作为代表消息,其中,不同的消息类中预设的时间和预设的地点可以不相同;或
将所述每一个消息类中的所有的社交消息的主题概率向量进行加权平均,得到所述每一个消息类的代表消息的主题概率向量,在每一个消息类中选取与所述消息类的代表消息的主题概率向量匹配的社交消息作为代表消息;其中,若有新的社交消息加入所述消息类,重新进行加权平均计算所述消息类的代表消息的主题概率向量。
11.根据权利要求8-10任一项所述的社交网服务器,其特征在于,所述主题建模模块包括:
参数收集单元,用于接收所述社交消息,获取所述社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数;
向量获取单元,用于利用隐含狄利克雷分布LDA算法对所述参数收集模块获取的社交消息的内容参数、所述社交消息的时间参数、所述社交消息的空间参数进行主题建模分析,得到所述社交消息的主题概率向量。
12.根据权利要求8-11任一项所述的社交网服务器,其特征在于,所述社交网服务器还包括:
用户相似性测量模块,用于对比所述社交消息的用户与所述每个代表消息的用户得到所述社交消息与所述每个代表消息的用户相似性;
所述相似性获取模块包括:
主题相似性测量单元,用于计算所述社交消息的主题概率向量与所述每个代表消息的主题概率向量的相对熵,得到所述社交消息与所述每个代表消息的主题消息相似性;
相似性获取单元,用于对所述主题相似性获取模块得到的主题消息相似性和所述用户相似性模块得到的用户相似性进行加权求和,得到所述社交消息与所述每个代表消息的相似性。
13.根据权利要求8-12任一项所述的社交网服务器,其特征在于,所述聚类操作模块还用于:
对任意一个消息类中的社交消息进行查找、插入、删除操作。
14.根据权利要求8-13所述的社交网服务器,其特征在于,所述社交网服务器还包括:
过滤模块,用于获取所述社交消息所属的领域,若所述社交消息所属的领域不属于预设的领域,则剔除所述社交消息,得到过滤后的社交消息;
所述主题建模模块,具体用于:
对过滤后的所述社交消息进行主题建模分析,得到所述社交消息的主题概率向量。
CN201410175434.5A 2014-04-28 2014-04-28 一种社交消息的监测方法及装置 Pending CN105095228A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410175434.5A CN105095228A (zh) 2014-04-28 2014-04-28 一种社交消息的监测方法及装置
EP14890901.3A EP3009942A4 (en) 2014-04-28 2014-10-30 METHOD AND DEVICE FOR MONITORING SOCIAL CONTACT NOTIFICATIONS
PCT/CN2014/089942 WO2015165230A1 (zh) 2014-04-28 2014-10-30 一种社交消息的监测方法及装置
US15/147,684 US10250550B2 (en) 2014-04-28 2016-05-05 Social message monitoring method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410175434.5A CN105095228A (zh) 2014-04-28 2014-04-28 一种社交消息的监测方法及装置

Publications (1)

Publication Number Publication Date
CN105095228A true CN105095228A (zh) 2015-11-25

Family

ID=54358107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410175434.5A Pending CN105095228A (zh) 2014-04-28 2014-04-28 一种社交消息的监测方法及装置

Country Status (4)

Country Link
US (1) US10250550B2 (zh)
EP (1) EP3009942A4 (zh)
CN (1) CN105095228A (zh)
WO (1) WO2015165230A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242113B2 (en) 2016-10-13 2019-03-26 International Business Machines Corporation Modifying messages to be more discoverable on a social network
CN106815214B (zh) * 2016-12-30 2019-11-22 东软集团股份有限公司 最优主题数获取方法及装置
US10798534B2 (en) * 2017-05-31 2020-10-06 Inteliquent, Inc. Content-based routing and rating of messages in a telecommunications network
CN108090197B (zh) * 2017-12-22 2021-06-04 河南科技大学 一种多维社交网络的社区发现方法
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
CN102799625A (zh) * 2012-06-25 2012-11-28 华为技术有限公司 一种挖掘社交网络中话题核心圈的方法及系统
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3668647A (en) 1970-06-12 1972-06-06 Ibm File access system
CN1162789C (zh) * 2001-09-06 2004-08-18 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
US8671104B2 (en) * 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
CN101174273B (zh) * 2007-12-04 2010-06-23 清华大学 基于元数据分析的新闻事件检测方法
US9489495B2 (en) 2008-02-25 2016-11-08 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
WO2010008685A2 (en) * 2008-05-28 2010-01-21 Aptima, Inc. Systems and methods for analyzing entity profiles
CN101685464B (zh) * 2009-06-18 2011-08-24 浙江大学 基于社群潜在主题挖掘的自动图像标注的方法
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN101710333B (zh) * 2009-11-26 2012-07-04 西北工业大学 基于遗传算法的网络文本分割方法
CN101853298B (zh) * 2010-05-26 2012-08-15 上海大学 一种面向事件的查询扩展方法
WO2012088720A1 (en) * 2010-12-31 2012-07-05 Yahoo! Inc. Behavioral targeted social recommendations
KR101302599B1 (ko) * 2012-07-11 2013-09-02 정영민 모바일 소셜 네트워크 서비스 어플리케이션에서 그룹 관리 방법 및 그룹 관리 서버
WO2014066698A1 (en) * 2012-10-24 2014-05-01 Metavana, Inc. Method and system for social media burst classifications
US20150193889A1 (en) * 2014-01-09 2015-07-09 Adobe Systems Incorporated Digital content publishing guidance based on trending emotions
US20160203523A1 (en) * 2014-02-21 2016-07-14 Lithium Technologies, Inc. Domain generic large scale topic expertise and interest mining across multiple online social networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571853A (zh) * 2009-05-22 2009-11-04 哈尔滨工程大学 网络话题内容演化分析装置及分析方法
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN102799625A (zh) * 2012-06-25 2012-11-28 华为技术有限公司 一种挖掘社交网络中话题核心圈的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANGMIN ZHOU ET AL: ""Event detection over twitter social media streams"", 《VLDB JOURNAL》 *

Also Published As

Publication number Publication date
WO2015165230A1 (zh) 2015-11-05
US10250550B2 (en) 2019-04-02
US20160248724A1 (en) 2016-08-25
EP3009942A4 (en) 2016-08-03
EP3009942A1 (en) 2016-04-20

Similar Documents

Publication Publication Date Title
US8626835B1 (en) Social identity clustering
US9213943B2 (en) Parameter inference method, calculation apparatus, and system based on latent dirichlet allocation model
US9558196B2 (en) Automatic correlation of dynamic system events within computing devices
CN104717124B (zh) 一种好友推荐方法、装置及服务器
CN101699432B (zh) 基于排序策略的信息过滤系统
EP3918758A1 (en) Real-time event detection on social data streams
CN103440243B (zh) 一种教学资源推荐方法及其装置
Nasridinov et al. A decision tree-based classification model for crime prediction
CN105095228A (zh) 一种社交消息的监测方法及装置
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
CN102750346B (zh) 软件推荐方法和系统、终端设备
CN103580939A (zh) 一种基于账号属性的异常消息检测方法及设备
JP2023534696A (ja) ネットワークトポロジーにおけるアノマリー検知
Granskogen et al. Fake news detection: Network data from social media used to predict fakes
Elagib et al. Big data analysis solutions using MapReduce framework
CN104636386A (zh) 信息监控方法及装置
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN103823847A (zh) 一种关键词的扩充方法及装置
WO2018212929A1 (en) System and method for enabling related searches for live events in data streams
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
CN105975642A (zh) 一种基于网络大数据的舆情监控方法
CN107506473B (zh) 一种基于云计算的大数据检索方法
Taneja et al. On viewing SpaceX Starlink through the Social Media Lens
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
Lu et al. A method of SNS topic models extraction based on self-adaptively LDA modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151125

RJ01 Rejection of invention patent application after publication