CN109902216A - 一种基于社交网络的数据采集与分析方法 - Google Patents

一种基于社交网络的数据采集与分析方法 Download PDF

Info

Publication number
CN109902216A
CN109902216A CN201910158711.4A CN201910158711A CN109902216A CN 109902216 A CN109902216 A CN 109902216A CN 201910158711 A CN201910158711 A CN 201910158711A CN 109902216 A CN109902216 A CN 109902216A
Authority
CN
China
Prior art keywords
data
user
algorithm
microblogging
carries out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910158711.4A
Other languages
English (en)
Inventor
孙希延
刘莉慧
汪华登
罗笑南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910158711.4A priority Critical patent/CN109902216A/zh
Publication of CN109902216A publication Critical patent/CN109902216A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社交网络的数据采集与分析方法,包括以下步骤:(1)以数据采集模块采用Python中的Scrapy框架,构建微博爬虫系统,使用分布式爬虫算法获取微博社交网络中用户数据;(2)数据存储模块将用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中;(3)数据处理模块对用户原创内容的进行语义分析,进行用户的主题提取,对大量用户数据进行多维度挖掘分析、判别利用;(4)数据分析模块研究实现缺失属性信息推断算法,获取较全面的用户信息,实现社交网络用户画像。本发明通过大数据挖掘,获取有价值的信息,降低了大数据分析的成本。

Description

一种基于社交网络的数据采集与分析方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于社交网络的数据采集与分析方法。
背景技术
随着Web2.0网络应用与移动终端设备的发展,社交网络的普及率与使用率日益提高。相比传统网络应用形式,社交网络具有用户主体性强、网络特征多样、数据内容丰富、群体交互密切、信息传播迅速等特点。中国互联网用户数量已经跃居全球首位,互联网用户在社交网站或者各大门户网站平台每天产生大量的网络行为数据。特别是微信、微博、手环等即时通讯、自媒体工具以及个人状态感应设备的使用,更使得每个用户随时都可以产生数据,整个社会深度跨入“社交网络大数据”时代。信息技术的迅速发展,大幅度的提高了科研人员的计算能力,各类型的硬件存储设备也不断升级,逐步满足数据的存储要求。在软件层面,算法、架构和编程语言也层出不穷。软硬件技术的发展,更给大数据挖掘提供了可能。
对社交网络大数据进行挖掘,能获得反映真实世界及其中的人的各种宝贵信息。但同时,社会媒体中的数据也存在多源异构、个体间关系繁杂、信息传播突发等特点,给社会媒体分析提出了技术上的挑战。分析社交网络的结构规律、挖掘用户行为的特定模式、探索网络信息传播的内在机理、研究高效的社交网络分析与网络信息传播预测方法,有利于提升对在线社会媒体的科学认知水平和有效利用能力,所以通过数据挖掘方法获取社交网络中的大量其它有价值的信息,已成为非常值得研究的问题。
由于近年来深度学习的流行,而深度学习又需要数据去训练,因此对数据的采集需求又进一步加强。而当前传统系统和方法都不具备大数据分析处理能力,并且数据采集一直存在成本偏高和花费时间长的缺陷。传统数据挖掘技术采用可构建预测模型的算法,包括线性回归,决策树学习器,贝叶斯分类器和支持向量机等,但此类算法依然有待继续改善。
发明内容
针对现有技术的不足,本发明所解决的技术问题是如何低成本地从大规模社交网络中进行用户的主题提取,获取较全面的用户信息,实现社交网络用户画像。
为解决上述技术问题,本发明采用的技术方案是一种基于社交网络的数据采集与分析方法,包括以下步骤:
(1)以数据采集模块采用Python中的Scrapy框架,构建微博爬虫系统,使用分布式爬虫算法获取微博社交网络中用户账号信息、用户原创内容以及用户社交关系数据;
所述分布式爬虫算法,具体应用过程如下:
1)使用Python中的Scrapy框架,构建微博爬虫系统;
2)爬取用户微博账号,以user_id表示其字段类别,下载微博主页页面地址对应的网页文件,在回调函数中完成数据解析和判别;
3)账号自动登录,通过从数据库获取事先准备的多个微博账号和密码,使用Selenium+Phantomjs模拟登录微博平台,进行系统登录;
4)验证码的自动识别与验证,在登录过程中,获取验证码图片后,调用云打码平台提供的接口,提供验证码,接收云打码返回的验证码字符串,再在Phantomjs中模拟登录;登录过程中建立cookie池,通过爬虫框架中间件请求设计好的基于flask框架的接口,随机从数据库中返回JSON格式的新cookie,提供给Scrapy使用,来解决更换cookie的问题;
5)进行查重处理,在解析用户数据过程并进行存储的过程中,进行查重处理,即在分词之前,对文本进行一些预处理,解析每一个HTML格式的网页,提取用户个人及其所发表的关键文本信息,通过MD5算法进行文本的哈希运算进行文本信息的重复性判断和去重处理。
所述用户账号信息具体包括微博用户的性别、年龄、学历、地域、教育背景、工作经历、婚姻状态。
(2)数据存储模块将网络爬取的用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中;
(3)数据处理模块基于自然语言处理技术,对用户原创内容的进行语义分析,设计短文本主题提取算法,进行用户的主题提取,从时间序列、地域等角度对大量用户数据进行多维度挖掘分析,实现社交网络用户大数据的判别利用,具体过程如下:
1)对存储的数据进行数据清理;
2)使用隐式狄利克雷分布算法作为主题提取算法,将分词之后单个用户的微博数据合并,使用隐式狄利克雷分布算法进行主题提取训练;
3)针对合适时间粒度的微博进行主题提取,实现对微博文本数据进行主题提取和分类。
(4)最后数据分析模块研究实现缺失属性信息推断算法,获取较全面的用户信息,实现社交网络用户画像,具体过程如下:
对文本多样性及社交媒体结构复杂性问题,采用多源融合、多特征融合及机器学习分类功能为一体的算法,利用训练得到的模型和用户的已知特征,预测用户的未知特征,最终实现用户缺失的属性信息的推断。
与现有技术相比,本发明通过大数据挖掘,获取有价值的信息,降低了企业或其他单位大数据分析的成本,实用性强,易于推广。
附图说明
图1为本发明系统结构示意图;
图2为本发明流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明,但不是对本发明的限定。
图1示出了一种本发明系统结构示意,系统由以下几个功能组件构成:数据采集模块、数据存储模块、数据处理模块以及数据分析模块。
图2示出了本发明流程示意,种基于社交网络的数据采集与分析方法,包括以下步骤:
(1)以数据采集模块采用Python中的Scrapy框架,构建微博爬虫系统,使用分布式爬虫算法获取微博社交网络中用户账号信息、用户原创内容以及用户社交关系数据;
所述分布式爬虫算法,具体应用过程如下:
1)使用Python中的Scrapy框架,构建微博爬虫系统;
2)爬取用户微博账号,以user_id表示其字段类别,下载微博主页页面地址对应的网页文件,在回调函数中完成数据解析和判别;
3)账号自动登录,通过从数据库获取事先准备的多个微博账号和密码,使用Selenium+Phantomjs模拟登录微博平台,进行系统登录;
4)验证码的自动识别与验证,在登录过程中,获取验证码图片后,调用云打码平台提供的接口,提供验证码,接收云打码返回的验证码字符串,再在Phantomjs中模拟登录;登录过程中建立cookie池,通过爬虫框架中间件请求设计好的基于flask框架的接口,随机从数据库中返回JSON格式的新cookie,提供给Scrapy使用,来解决更换cookie的问题;
5)进行查重处理,在解析用户数据过程并进行存储的过程中,进行查重处理,即在分词之前,对文本进行一些预处理,解析每一个HTML格式的网页,提取用户个人及其所发表的关键文本信息,通过MD5算法进行文本的哈希运算进行文本信息的重复性判断和去重处理。
所述用户账号信息具体包括微博用户的性别、年龄、学历、地域、教育背景、工作经历、婚姻状态。
(2)数据存储模块将网络爬取的用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中;
数据存储模块针对微博用户数据及其结构特征,采用类JSON格式和NoSQL类型的MongoDB数据库进行数据存储,数据库设计依据如下:
(1)用户账号属性字段名称:user_info_page,含义:用户资料页面;
(2)用户账号属性字段名称:user_id,含义:用户id;
(3)用户账号属性字段名称:user_name,含义:用户名;
(4)用户账号属性字段名称:user_auth,含义:用户认证;
(5)用户账号属性字段名称:gender,含义:性别;
(6)用户账号属性字段名称:area,含义:地区;
(7)用户账号属性字段名称:birthday,含义:生日;
(8)用户账号属性字段名称:auth_info,含义:认证信息;
(9)用户账号属性字段名称:user_phone_url,含义:用户手机版主页地址;
(10)用户账号属性字段名称:user_internet_url,含义:用户互联网版主页地址;
(11)用户账号属性字段名称:vip_level,含义:VIP等级;
(12)用户账号属性字段名称:brief_introduction,含义:简介;
(13)用户账号属性字段名称:emotional_situation,含义:感情状况;
(14)用户账号属性字段名称:user_label,含义:用户标签;
(15)用户账号属性字段名称:educational_experience,含义:学习经历;
(16)用户账号属性字段名称:work_experience,含义:工作经历;
(17)用户账号属性字段名称:master,含义:达人;
(18)用户账号属性字段名称:user_weibo_count,含义:微博总数;
(19)用户账号属性字段名称:user_follower_count,含义:关注者总数;
(20)用户账号属性字段名称:user_follower_url,含义:关注者列表url;
(21)用户账号属性字段名称:user_fan_count,含义:粉丝总数;
(22)用户账号属性字段名称:user_fan_url,含义:粉丝列表url;
(23)用户账号属性字段名称:user_grouping_count,含义:用户组数;
(24)用户账号属性字段名称:user_grouping_url,含义:用户组url;
(25)用户账号属性字段名称:user_album_url,含义:相册地址。
(3)数据处理模块基于自然语言处理技术,对用户原创内容的进行语义分析,设计短文本主题提取算法,进行用户的主题提取,从时间序列、地域等角度对大量用户数据进行多维度挖掘分析,实现社交网络用户大数据的判别利用,具体过程如下:
1)对存储的数据进行数据清理;
2)使用隐式狄利克雷分布算法作为主题提取算法,将分词之后单个用户的微博数据合并,使用隐式狄利克雷分布算法进行主题提取训练;
3)针对合适时间粒度的微博进行主题提取,实现对微博文本数据进行主题提取和分类。
数据处理模块,在分词之前,将会在数据预处理阶段进行处理。文件中每个用户自注册微博起发表的所有微博都被爬取,每条微博被存储为一条数据记录。分词后的每个词对应微博的发表时间、对应的用户,对应用户的微博等信息,都会在分词后的结果中进行记录。分词之后,可以依据关键词对用户数据作分类,对这一类关键词相关的用户,进行重点记录和标注。考虑到微博这类社交媒体用户原创内容的“短文”特征及长期数据的“长文”特征,需选定合适的时间粒度,将微博数据合并后再进行主题提取。
聚类技术是信息检索领域的一个重要方面,利用它有效缩减搜索空间,加快检索速度,提高检索精度。先利用向量空间模型,把文档转换成高维空间中的向量,然后对这些向量聚类。由于微博中文文档没有词的边界,所以先用中文分词软件对文档进行分词处理,然后再把文档转换成向量,使用TF-IDF,通过特征词抽取后形成样本矩阵,再进行聚类,然后使用LDA隐式狄利克雷分布算法作为主题提取算法,对微博文本数据进行主题提取和分类。微博文档是由多个隐含主题构成,又是由若干个特定特征词构成,LDA模型忽略特征词的先后次序,从而简化主题模型的复杂性。将分词之后单个用户的微博数据合并,使用LDA算法进行主题提取训练,然后再针对合适时间粒度的微博进行主题提取。
(4)最后数据分析模块研究实现缺失属性信息推断算法,获取较全面的用户信息,实现社交网络用户画像,具体过程如下:
对文本多样性及社交媒体结构复杂性问题,采用多源融合、多特征融合及机器学习分类功能为一体的算法,利用训练得到的模型和用户的已知特征,预测用户的未知特征,最终实现用户缺失的属性信息的推断。
数据分析模块面对文本多样性及社交媒体结构复杂性问题,采用多源融合、多特征融合及机器学习分类功能为一体的算法,设计缺失属性信息推断算法,获取较全面的用户人口统计学信息,实现社交网络用户画像分析。以用户性别为例,首先提取用户自己填写的资料,比如注册时或者活动中填写的性别资料,这些数据准确率一般很高。其次提取用户的称谓,如文本中有提到的对方称呼,例如:XXX先生/女士,也比较具有参考作用。再根据用户姓名、名字特征等预测用户性别,这是一个二分类问题,可以提取用户的名字部分,然后用朴素贝叶斯分类器训练一个分类器。另外还有一些特征可以综合利用,比如在爬取的用户社交网络关系数据中,有用户“关注”和“粉丝”两类数据,可以得到用户的关系网络。用户的社交圈,很多程度上也能反映用户的性别,因此社交网络关系数据可以在多源融合的用户性别推断中占有较大的比重。把这些特征加入到逻辑回归分类器(Logistic RegressionClassifier)进行训练,也能提高一定的数据覆盖率。通过将数据集拆分成训练集和测试集,来作为训练的输入和模型测试的输入。以训练集作为输入,训练性别预测分类模型,并做封闭和开放测试,当封闭测试准确率和召回率均大于等于一定标准(如0.90)时,开放测试准确率和召回率大于等于一定标准值(如0.80)时,则训练结束。否则,继续迭代。在数据来源较多时,由于从每种来源提取的数据可信度是不同的,所以各个来源提取的数据应该给出一定的权重,约定一般为0-1之间的一个概率值,这样系统在做数据的自动合并时,可以做加权求和,并对结果进行归一化输出和存储,最后即可推断出用户缺失属性,获取较全面的用户信息,实现社交网络用户画像。
与现有技术相比,本发明通过大数据挖掘,获取有价值的信息,降低了企业或其他单位大数据分析的成本,实用性强,易于推广。
以上结合附图对本发明的实施方式做出了详细说明,但本发明不局限于所描述的实施方式。对于本领域技术人员而言,在不脱离本发明的原理和精神的情况下,对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

Claims (5)

1.一种基于社交网络的数据采集与分析方法,其特征在于,包括以下步骤:
(1)以数据采集模块采用Python中的Scrapy框架,构建微博爬虫系统,使用分布式爬虫算法获取微博社交网络中用户账号信息、用户原创内容以及用户社交关系数据;
(2)数据存储模块将网络爬取的用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中;
(3)数据处理模块基于自然语言处理技术,对用户原创内容的进行语义分析,设计短文本主题提取算法,进行用户的主题提取,从时间序列、地域等角度对大量用户数据进行多维度挖掘分析,实现社交网络用户大数据的判别利用;
(4)最后数据分析模块研究实现缺失属性信息推断算法,获取较全面的用户信息,实现社交网络用户画像。
2.根据权利要求1所述的基于社交网络的数据采集与分析方法,其特征在于,步骤(1)中,所述分布式爬虫算法,具体应用过程如下:
1)使用Python中的Scrapy框架,构建微博爬虫系统;
2)爬取用户微博账号,以user_id表示其字段类别,下载微博主页页面地址对应的网页文件,在回调函数中完成数据解析和判别;
3)账号自动登录,通过从数据库获取事先准备的多个微博账号和密码,使用Selenium+Phantomjs模拟登录微博平台,进行系统登录;
4)验证码的自动识别与验证,在登录过程中,获取验证码图片后,调用云打码平台提供的接口,提供验证码,接收云打码返回的验证码字符串,再在Phantomjs中模拟登录;登录过程中建立cookie池,通过爬虫框架中间件请求设计好的基于flask框架的接口,随机从数据库中返回JSON格式的新cookie,提供给Scrapy使用,来解决更换cookie的问题;
5)进行查重处理,在解析用户数据过程并进行存储的过程中,进行查重处理,即在分词之前,对文本进行一些预处理,解析每一个HTML格式的网页,提取用户个人及其所发表的关键文本信息,通过MD5算法进行文本的哈希运算进行文本信息的重复性判断和去重处理。
3.根据权利要求1所述的基于社交网络的数据采集与分析方法,其特征在于,步骤(1)中,所述用户账号信息具体包括微博用户的性别、年龄、学历、地域、教育背景、工作经历、婚姻状态。
4.根据权利要求1所述的基于社交网络的数据采集与分析方法,其特征在于,步骤(3)具体过程如下:
1)对存储的数据进行数据清理;
2)使用隐式狄利克雷分布算法作为主题提取算法,将分词之后单个用户的微博数据合并,使用隐式狄利克雷分布算法进行主题提取训练;
3)针对合适时间粒度的微博进行主题提取,实现对微博文本数据进行主题提取和分类。
5.根据权利要求1所述的基于社交网络的数据采集与分析方法,其特征在于,步骤(4)具体过程如下:
对文本多样性及社交媒体结构复杂性问题,采用多源融合、多特征融合及机器学习分类功能为一体的算法,利用训练得到的模型和用户的已知特征,预测用户的未知特征,最终实现用户缺失的属性信息的推断。
CN201910158711.4A 2019-03-04 2019-03-04 一种基于社交网络的数据采集与分析方法 Pending CN109902216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910158711.4A CN109902216A (zh) 2019-03-04 2019-03-04 一种基于社交网络的数据采集与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910158711.4A CN109902216A (zh) 2019-03-04 2019-03-04 一种基于社交网络的数据采集与分析方法

Publications (1)

Publication Number Publication Date
CN109902216A true CN109902216A (zh) 2019-06-18

Family

ID=66946176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910158711.4A Pending CN109902216A (zh) 2019-03-04 2019-03-04 一种基于社交网络的数据采集与分析方法

Country Status (1)

Country Link
CN (1) CN109902216A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949175A (zh) * 2019-03-26 2019-06-28 桂林电子科技大学 一种基于协同过滤和相似性度量的用户属性推断方法
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111241366A (zh) * 2019-12-25 2020-06-05 杭州龙席网络科技股份有限公司 一种基于saas的客户社媒监控方法
CN111368162A (zh) * 2019-06-27 2020-07-03 北京关键科技股份有限公司 基于社交关系网络的爬虫方法及装置
CN111554272A (zh) * 2020-04-27 2020-08-18 天津大学 一种面向中文语音识别的语言模型建模方法
CN111881337A (zh) * 2020-08-06 2020-11-03 成都信息工程大学 一种基于Scrapy框架的数据采集方法、系统及存储介质
CN111953740A (zh) * 2020-07-21 2020-11-17 冠群信息技术(南京)有限公司 一种基于selenium检查统计微博博主不活跃粉丝的方法
CN112000867A (zh) * 2020-08-17 2020-11-27 桂林电子科技大学 一种基于社交媒体平台的文本分类方法
CN112784983A (zh) * 2021-01-28 2021-05-11 邱戴飞 基于深度神经网络的身份信息预测模型训练方法及装置
CN113010572A (zh) * 2021-03-18 2021-06-22 杭州码全信息科技有限公司 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法
CN113536089A (zh) * 2021-07-07 2021-10-22 中国电子科技集团公司第五十四研究所 一种基于lbs定位的景区游客行为感知监测方法
CN113704502A (zh) * 2021-08-27 2021-11-26 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN114356985A (zh) * 2021-12-24 2022-04-15 深圳市傲天科技股份有限公司 信息估计方法、装置、设备及存储介质
CN114461930A (zh) * 2022-04-13 2022-05-10 四川大学 社交网络数据采集方法、装置及储存介质
CN115242455A (zh) * 2022-06-27 2022-10-25 山西西电信息技术研究院有限公司 一种基于云计算的社交网络即时信息安全监测系统及方法
CN115587263A (zh) * 2022-12-13 2023-01-10 中国人民解放军国防科技大学 基于社交网络数据的社会心理预测方法
CN118626701A (zh) * 2024-08-14 2024-09-10 一网互通(北京)科技有限公司 实时社交聆听数据挖掘方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161385A1 (en) * 2008-12-19 2010-06-24 Nxn Tech, Llc Method and System for Content Based Demographics Prediction for Websites
US20110225048A1 (en) * 2010-03-09 2011-09-15 Yahoo! Inc. Generating a user profile based on self disclosed public status information
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN105447129A (zh) * 2015-11-18 2016-03-30 腾讯科技(深圳)有限公司 个性化内容获取方法、用户属性挖掘方法、系统和装置
CN106126607A (zh) * 2016-06-21 2016-11-16 重庆邮电大学 一种面向社交网络的用户关系分析方法
US20170193533A1 (en) * 2015-12-31 2017-07-06 International Business Machines Corporation Automatic detection of user personality traits based on social media image posts
CN107169063A (zh) * 2017-05-03 2017-09-15 西安交通大学 一种基于社交信息的用户属性预测方法与系统
CN107368534A (zh) * 2017-06-21 2017-11-21 南京邮电大学 一种预测社交网络用户属性的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161385A1 (en) * 2008-12-19 2010-06-24 Nxn Tech, Llc Method and System for Content Based Demographics Prediction for Websites
US20110225048A1 (en) * 2010-03-09 2011-09-15 Yahoo! Inc. Generating a user profile based on self disclosed public status information
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN105447129A (zh) * 2015-11-18 2016-03-30 腾讯科技(深圳)有限公司 个性化内容获取方法、用户属性挖掘方法、系统和装置
US20170193533A1 (en) * 2015-12-31 2017-07-06 International Business Machines Corporation Automatic detection of user personality traits based on social media image posts
CN106126607A (zh) * 2016-06-21 2016-11-16 重庆邮电大学 一种面向社交网络的用户关系分析方法
CN107169063A (zh) * 2017-05-03 2017-09-15 西安交通大学 一种基于社交信息的用户属性预测方法与系统
CN107368534A (zh) * 2017-06-21 2017-11-21 南京邮电大学 一种预测社交网络用户属性的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
沈鹏飞: ""基于Spark的微博数据分析系统的设计和实现"", 《中国优秀硕士学位论文全文数据库》 *
黄秀: ""基于多模态社交媒体数据源的用户画像构建的研究"", 《中国优秀硕士学位论文全文数据库》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949175B (zh) * 2019-03-26 2023-05-05 桂林电子科技大学 一种基于协同过滤和相似性度量的用户属性推断方法
CN109949175A (zh) * 2019-03-26 2019-06-28 桂林电子科技大学 一种基于协同过滤和相似性度量的用户属性推断方法
CN111368162A (zh) * 2019-06-27 2020-07-03 北京关键科技股份有限公司 基于社交关系网络的爬虫方法及装置
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111241366A (zh) * 2019-12-25 2020-06-05 杭州龙席网络科技股份有限公司 一种基于saas的客户社媒监控方法
CN111554272A (zh) * 2020-04-27 2020-08-18 天津大学 一种面向中文语音识别的语言模型建模方法
CN111953740A (zh) * 2020-07-21 2020-11-17 冠群信息技术(南京)有限公司 一种基于selenium检查统计微博博主不活跃粉丝的方法
CN111881337A (zh) * 2020-08-06 2020-11-03 成都信息工程大学 一种基于Scrapy框架的数据采集方法、系统及存储介质
CN111881337B (zh) * 2020-08-06 2021-06-01 成都信息工程大学 一种基于Scrapy框架的数据采集方法、系统及存储介质
CN112000867A (zh) * 2020-08-17 2020-11-27 桂林电子科技大学 一种基于社交媒体平台的文本分类方法
CN112784983A (zh) * 2021-01-28 2021-05-11 邱戴飞 基于深度神经网络的身份信息预测模型训练方法及装置
CN113010572A (zh) * 2021-03-18 2021-06-22 杭州码全信息科技有限公司 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法
CN113536089A (zh) * 2021-07-07 2021-10-22 中国电子科技集团公司第五十四研究所 一种基于lbs定位的景区游客行为感知监测方法
CN113704502A (zh) * 2021-08-27 2021-11-26 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113704502B (zh) * 2021-08-27 2023-04-21 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN114356985A (zh) * 2021-12-24 2022-04-15 深圳市傲天科技股份有限公司 信息估计方法、装置、设备及存储介质
CN114356985B (zh) * 2021-12-24 2024-04-02 深圳市傲天科技股份有限公司 信息估计方法、装置、设备及存储介质
CN114461930A (zh) * 2022-04-13 2022-05-10 四川大学 社交网络数据采集方法、装置及储存介质
CN115242455A (zh) * 2022-06-27 2022-10-25 山西西电信息技术研究院有限公司 一种基于云计算的社交网络即时信息安全监测系统及方法
CN115242455B (zh) * 2022-06-27 2023-08-18 山西西电信息技术研究院有限公司 一种基于云计算的社交网络即时信息安全监测系统及方法
CN115587263A (zh) * 2022-12-13 2023-01-10 中国人民解放军国防科技大学 基于社交网络数据的社会心理预测方法
CN118626701A (zh) * 2024-08-14 2024-09-10 一网互通(北京)科技有限公司 实时社交聆听数据挖掘方法、装置及电子设备
CN118626701B (zh) * 2024-08-14 2024-10-18 一网互通(北京)科技有限公司 实时社交聆听数据挖掘方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109902216A (zh) 一种基于社交网络的数据采集与分析方法
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
US9449271B2 (en) Classifying resources using a deep network
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
CN110232109A (zh) 一种网络舆情分析方法以及系统
CN103294815B (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN107220386A (zh) 信息推送方法和装置
US11861319B2 (en) Chatbot conducting a virtual social dialogue
US10535106B2 (en) Selecting user posts related to trending topics on online social networks
CN109196496A (zh) 未知词预测器和内容整合的翻译器
CN104765729B (zh) 一种跨平台微博社区账户匹配方法
CN103870538B (zh) 针对用户进行个性化推荐的方法、用户建模设备及系统
CN103176982A (zh) 一种电子图书推荐的方法及系统
CN112104642B (zh) 一种异常账号确定方法和相关装置
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN116700839B (zh) 一种任务处理方法、装置、设备、存储介质及程序产品
CN106649498A (zh) 一种基于爬虫和文本聚类分析的网络舆情分析系统
CN111447575A (zh) 短信息推送方法、装置、设备及存储介质
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
US10885140B2 (en) Intelligent search engine
CN115248855A (zh) 文本处理方法及装置、电子设备、计算机可读存储介质
CN117132226A (zh) 一种用户行为审核管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190618