CN108021604A - 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法 - Google Patents
一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法 Download PDFInfo
- Publication number
- CN108021604A CN108021604A CN201710996465.0A CN201710996465A CN108021604A CN 108021604 A CN108021604 A CN 108021604A CN 201710996465 A CN201710996465 A CN 201710996465A CN 108021604 A CN108021604 A CN 108021604A
- Authority
- CN
- China
- Prior art keywords
- barrage
- main broadcaster
- server
- webcast
- dou
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,该方法的基本思想为:首先从服务器端获取直播网站某一直播领域的网页URL,根据该URL链接网页获取网页源代码,解析后获取主播的房间号和人气值以及服务器地址的列表,筛选出某个主播或人气高于一定值的多个主播,建立一个或多个爬虫线程分别爬取实时弹幕并保存在数据库中,之后对存储的数据进行数据分析并形成直观图。本发明能够实时爬取直播网站中某一位或多位高人气主播的弹幕信息,然后将爬取到的弹幕存入数据库中,并能够通过数据分析后生成的直观图,查看所爬取的主播和观众的互动度。此外,由于本发明采用定期发送心跳包的方式,因而能够实现对直播网站实时、持久的弹幕爬取。
Description
技术领域
本发明涉及一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法。
背景技术
随着直播行业的崛起和发展,直播网站成为又一大信息交流和数据交互的平台。直播网站作为新型的c2c电商平台,区别于传统的电子商务最主要的特点就是主播与观众之间实时的交流互动。而弹幕作为这种互动最主要的载体,蕴含着大量信息。想要直观的了解直播过程中信息的交流,对于弹幕的收集存储与分析就具有重要意义。
网络爬虫是按照一定的规则,自动抓取万维网信息的程序或脚本。网络检索功能源于互联网内容爆炸性发展所带来的对内容检索的需求。随着搜索引擎的发展,网络信息搜索已成为人们日常上网的必要内容。为了使得搜索引擎满足人们的需求,“网络机器人”应运而生。最初他们只被用来统计互联网上的服务器数量,随着逐步的发展,这些机器人开始能够检索网站域名,获取分析网页信息。由于专门用于检索信息的机器人像蜘蛛一样在网络空间上爬来爬去获取信息,网络爬虫的概念由此而来。利用网络爬虫不仅可以为搜索引擎采集网络信息,还可以定向采集某些网站的特定信息,例如直播平台的弹幕信息。
发明内容
本发明的目的在于提出一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,以便实时爬取直播网站中某一位或多位高人气主播的弹幕信息,将爬取到的弹幕存入数据库中,并能够通过数据分析后生成的直观图,查看所爬取的主播和观众的互动度。
本发明为了实现上述目的,采用如下技术方案:
一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,在PyCharm软件环境中实现。所述网络爬虫方法包括如下步骤:
s1.获取直播网站某一直播领域的网页URL,根据该URL链接网页获取网页源代码,解析后获取主播的房间号和人气值以及登录服务器地址的列表;
筛选出某个主播或其中人气高于一定值的多个主播;
s2.通过requests爬取经步骤s1筛选出的对应主播的房间号以及登录服务器的地址;
s3.与选中的登录服务器建立socket链接,模拟登录type@=loginreq发送请求,并接受服务器返回的响应数据,从中解析出弹幕服务器地址和端口号以及群组组号groupID;
s4.模拟登录弹幕服务器,建立一个或多个爬虫线程接受从弹幕服务器发来的弹幕数据;
s5.将提取的弹幕和主播信息存入Sqlite3数据库中;
s6.定期向服务器发送一次心跳包,若心跳包发送次数未达到设定值,执行步骤s2;
s7.利用python xlsxwriter库将Sqlite3数据库中的数据提取出来并分析生成直观图。
优选地,所述步骤s1具体为:利用requests库中get方法将网页抓取下来;
利用python lxml库中etree的Xpath方法对抓取下来的网页的文本部分利用正则表达式匹配,筛选出需要的信息:主播房间号、直播状态、登录服务器的地址和端口号。
优选地,所述步骤s3中,在用socket链接后模拟登陆弹幕服务器时要发送两次请求:
一次是socket模拟登录type@=loginreq向弹幕服务器发出登录请求;
另一次是socket模拟登录type@=loginreq向弹幕服务器发出加入group的请求。
优选地,所述步骤s4中,对返回的弹幕数据采用split函数进行分割。
优选地,所述步骤s5中,利用sql语句将弹幕和主播信息存入Sqlite3数据库中。
优选地,所述步骤s6中,调用time库的sleep函数定期向服务器发送keeplive请求。
优选地,所述步骤s6中,每隔20s向服务器发送一次心跳包。
本发明具有如下优点:
本发明基于python语言编写了面向斗鱼直播平台的基于广度优先算法的弹幕爬虫,实现了直播网页的信息解析,弹幕服务器的登录访问,弹幕信息的存储和多线程爬取等功能。该方法能够实时爬取直播网站中某一位或多位高人气主播的弹幕信息,将爬取到的弹幕存入数据库中,并能够通过数据分析后生成的直观图,查看所爬取的主播和观众的互动度。
附图说明
图1为本发明中一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法的设计框图;
图2为斗鱼TV网站服务器分布图;
图3为本发明中sqlite3数据库的实体关系图;
图4为本发明中sqlite3数据库的物理模型图;
图5为本发明sqlite3数据库中主播表的结构图;
图6为本发明sqlite3数据库中弹幕表的结构图;
图7为利用本发明方法得到的各领域人气主播统计图;
图8为利用本发明方法得到的王者荣耀人气主播互动调查图;
图9为利用本发明方法得到的英雄联盟人气主播互动调查图。
具体实施方式
本发明的设计思想如下:首先从服务器端获取直播网站某一直播领域的网页URL,根据该URL链接网页获取网页源代码,解析后获取主播的房间号和人气值以及服务器地址的列表。筛选出某个主播或人气高于一定值的多个主播,建立一个或多个爬虫线程分别爬取实时弹幕并保存在数据库中,之后对存储的数据进行数据分析并形成直观图。
针对上述设计思想,本发明给出了具体的设计框图(以多个主播为例),如图1所示:
1.首先获取要访问的网页URL;
2.获取网页源代码;
3.解析出主播信息列表;
4.判断主播的人气是否高于n,其中n为设定人气值,若是,则执行步骤5;若不是,则删除该主播信息;
5.判断线程是否存在,若存在,执行步骤6;若不存在,则执行步骤7;
6.激活爬虫线程,执行步骤8;
7.创建新的爬虫线程;
8.爬取房间的弹幕;
9.将弹幕存入数据库;
10.发送心跳包;
11.判断心跳包发送次数是否达到设定值,若是,则执行步骤12,若不是,转到步骤2。
12.将数据库中的数据提取出来并分析生成直观图。
根据以上设计框图,本发明给出了基于python语言的网络爬虫方法,以便能够实时爬取直播网站主播房间里弹幕,并将弹幕保存起来进行后续分析处理。
本发明基于python语言编写了面向斗鱼直播平台的基于广度优先算法的弹幕爬虫方法,以便实时爬取直播网站主播房间里弹幕。图2给出了斗鱼TV网站服务器分布图。
基于上述斗鱼直播平台,本发明中的弹幕爬虫方法需要完成如下几个目标:
1、通过requests爬取网页并解析出主播房间号和服务器登陆地址。
2、根据斗鱼TV网站服务器分布发送相应请求,并接受数据。
3、定期发送心跳包并循环接受返回数据,从中解析出弹幕数据和发送弹幕的用户昵称。
4、将提取的弹幕和主播信息存入Sqlite3数据库中。
5、利用python xlsxwriter库将存储在数据库中的数据提取出来并分析生成直观图。
根据以上设计目标,本发明给出了具体的弹幕爬虫方法,其包括如下步骤:
s1.获取直播网站某一直播领域的网页URL,根据该URL链接网页获取网页源代码,解析后获取主播的房间号和人气值以及登录服务器地址的列表;
筛选出某个主播或其中人气高于一定值的多个主播;
s2.通过requests爬取经步骤s1筛选出的对应主播的房间号以及登录服务器的地址;
s3.与选中的登录服务器建立socket链接,模拟登录type@=loginreq发送请求,并接受服务器返回的响应数据,从中解析出弹幕服务器地址和端口号以及群组组号groupID;
s4.模拟登录弹幕服务器,建立一个或多个爬虫线程接受从弹幕服务器发来的弹幕数据;
s5.将提取的弹幕和主播信息存入Sqlite3数据库中;
s6.定期向服务器发送一次心跳包,若心跳包发送次数未达到设定值,执行步骤s2;
s7.利用python xlsxwriter库将Sqlite3数据库中的数据提取出来并分析生成直观图。
上述各个步骤的设计具体如下:
步骤s1中编写staticRequests函数对网页进行抓取与分析:
首先要通过requests库中get方法将网页抓取下来。
利用python lxml库中etree的Xpath方法对抓取下来的网页的文本部分利用正则表达式匹配,筛选出需要的信息:主播房间号、直播状态、登录服务器的地址和端口号。
由于返回的服务器地址和端口号为多个,所以要对这部分数据进一步处理。
步骤s3中Socket模拟登陆:
经过网页抓取与分析步骤后,与选中的服务器建立socket链接,发送类型为type@=loginreq的登录请求。
模拟匿名登陆斗鱼TV,并接受服务器返回的响应数据,从中解析出弹幕服务器地址和端口号以及群组组号groupID。
斗鱼直播网站会在观众人数过多时采用分流方法,将用户分成若个群组。因此在用socket链接后模拟登陆弹幕服务器时要发送两次请求:
一次是类型为type@=loginreq的登录请求,格式如下:
msg='type@=loginreq/username@=/password@=/roomid@='+rid+'/\x00'
另一次是类型为type@=joingroup的加入群组请求,格式如下:
msg='type@=joingroup/rid@='+rid+'/gid@='+gid+'/\x00'
经过以上操作之后便链接到了弹幕服务器,能够接受从弹幕服务器发来的弹幕数据。
步骤s4中,通过1024端口循环接受弹幕服务器发来的数据时,在弹幕量大的时候几个信息是合在一起发送过来的,这时用split函数进行分割非常有必要。
'\xb2\x02'这个值可以用来对多个返回信息进行分割,其描述语言为:
chatmsgLst=self.sock.recv(1024).split(b'\xb2\x02')。
经过分析,类型为type@=chatmessage的是弹幕信息,content@=弹幕,snick@=昵称。
创建线程利用sql语句将弹幕信息存入Sqlite3数据库中。
步骤s6中,由于斗鱼TV存在检测用户行为的反爬虫机制,所以为了实现持久的弹幕爬取,需要定期向服务器发送一次心跳包。
编写keeplive()函数模块通过调用time库的sleep函数每隔20秒向服务器发送keeplive请求,消息格式为:msg='type@=keeplive/tick@='+str(int(time.time()))+'/\x00'。
此外,在步骤s4中通过抓取解析直播网站某一直播领域的网页,可以获取该直播领域内当前页面的在线主播信息,包括主播房间号、房间标题、主播人气值等。
将人气值过万的主播信息存在字典中,并创建多个线程分别爬取这些主播房间的弹幕。由于网页上主播人气值会动态更新,所以持续更新字典中人气主播的信息。并对那些人气过万的新主播创建新爬虫线程,人气值降低的主播结束该线程。
编写如下函数实现多线程爬取:
请求数据函数:负责请求分析页面拿到当前页面该直播领域在线的主播信息。
主播筛选函数:负责筛选出高人气主播,并把信息存入字典中。
爬虫线程函数:负责为高人气主播创建爬虫线程。
线程更新函数:负责更新主播字典并为新主播创建新的线程,若就线程有被挂起,重启该线程。
线程终止函数:负责杀死线程,结束那些人气值降低后的主播线程。
线程统计函数:负责从当前运行的所有线程中统计创建的爬虫线程。
本发明利用sqlite3数据库设计工具进行数据库设计,确定了如下实体及实体属性。
(1)主播实体:时间、主播昵称、主播房间标题、主播人气值、主播房间号。
(2)弹幕实体:时间、弹幕发送者昵称、弹幕、抓取弹幕的房间号。
实体建立之后,为了方便日后数据分析,建立实体关系图3如下。
在完成数据库逻辑设计后,将逻辑模型转化为物理模型,然后生成系统的数据库。为了生成数据库,本发明使用数据转化规则对数据库逻辑模型进行了转化。
为了将数据库逻辑模型转化为物理模型,本发明首先将逻辑设计阶段形成的数据库逻辑模型中的实体的属性名转化为了英文名称。转化规则如表1所示。
表1转化规则表
根据数据库逻辑模型,使用前面定义的属性名转化规则,本发明将逻辑模型转化为了数据库物理模型,如图4所示。
利用sql语句将抓取的弹幕和主播信息存入数据库中,建立如下两个数据库表:
(1)主播表(Zhubo)
主播表中存储着多位主播的相关信息,主播表的结构如图5所示。
(2)弹幕表(Tanmu)
弹幕表中存着所有抓取到的弹幕,以及该弹幕的相关信息,包括该条弹幕抓取的时间、发送用户的昵称、抓取该弹幕的房间号。一个主播房间内会抓取到多条弹幕,通过主播和弹幕各自的房间号实现一对多的关系。弹幕表结构如图6所示。
本发明中网页抓取与分析部分的具体实现过程如下:
1.编写网页抓取与分析函数,根据输入的主播房间号roomid,链接指定的网址和房间号形成需要的URL,爬取该URL对应的网页;
2.然后对网页进行分析,利用正则表达式从网页数据中匹配筛选出想要的信息:房间号、直播状态、IP地址、端口号,其中,task_roomid保存房间号,show_status保存直播状态,room_container保存IP地址和端口号。
3.将拿到的信息都存入logServer字典中。
本发明中接受群组编号和IP地址函数的具体实现过程如下:
编写组号获取函数,在准备请求信息格式时调用该函数,从接收到的服务器返回数据包中利用正则分割解析提取出分组号,用于登录弹幕服务器时加入分组。
本发明中固定请求格式准备的具体实现过程如下:
爬虫在模拟登陆时要向服务器发送固定格式的请求,需要提前准备。
该请求包括以下部分:
1、请求类型为type@=loginreq/,
2、用户名和密码(匿名登录都可设置为空),
3、直播房间id,
4、设备id(32位大写16进制)可由devid=uuid.uuid1().hex.swapcase()生成,
5、请求时间戳(秒)rt=str(int(time.time())),
6、vk(一种32密钥)由时间戳、设备id和'7oE9nPEG9xXV69phU31FYCLUagKeYtsF'三部分经MD5加密算法生成。Md5加密算法可从haslib库中调用。
编写函数建立与服务器的socket链接,访问地址和端口号从保存数据信息的字典中获取,根据上述固定的请求格式,利用从网页中解析提取的信息构建数据包,向服务器发送登录请求,获取返回数据,调用组号获取函数从中解析出组号,为向弹幕服务器发送请求做准备。
本发明中数据库连接和额sql语句部分的具体实现过程如下:
本发明采用的数据库是sqlite3,在sqlite3数据库中所有sql语句的执行都要在游标对象的参与下完成。连接数据库后创建游标对象。
编写sql语句存储时间、房间名称、弹幕内容、房间ID等信息。利用游标对象执行该sql语句。在完成对数据库操作后,要先关闭游标,然后提交事务,最后关闭数据库连接。
图7-图9示出了利用本发明网络爬虫方法得到的数据分析成果。通过该成果展示图,可以直观的查看主播的人气情况以及所爬取的主播和观众的互动度。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (7)
1.一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,在PyCharm软件环境中实现;所述网络爬虫方法包括如下步骤:
s1.获取直播网站某一直播领域的网页URL,根据该URL链接网页获取网页源代码,解析后获取主播的房间号和人气值以及登录服务器地址的列表;
筛选出某个主播或其中人气高于一定值的多个主播;
s2.通过requests爬取经步骤s1筛选出的对应主播的房间号以及登录服务器的地址;
s3.与选中的登录服务器建立socket链接,模拟登录type@=loginreq发送请求,并接受服务器返回的响应数据,从中解析出弹幕服务器地址和端口号以及群组组号groupID;
s4.模拟登录弹幕服务器,建立一个或多个爬虫线程接受从弹幕服务器发来的弹幕数据;
s5.将提取的弹幕和主播信息存入Sqlite3数据库中;
s6.定期向服务器发送一次心跳包,若心跳包发送次数未达到设定值,执行步骤s2;
s7.利用python xlsxwriter库将Sqlite3数据库中的数据提取出来并分析生成直观图。
2.根据权利要求1所述的一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,所述步骤s1具体为:利用requests库中get方法将网页抓取下来;
利用python lxml库中etree的Xpath方法对抓取下来的网页的文本部分利用正则表达式匹配,筛选出需要的信息:主播房间号、直播状态、登录服务器的地址和端口号。
3.根据权利要求1所述的一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,所述步骤s3中,在用socket链接后模拟登陆弹幕服务器时要发送两次请求:
一次是socket模拟登录type@=loginreq向弹幕服务器发出登录请求;
另一次是socket模拟登录type@=loginreq向弹幕服务器发出加入group的请求。
4.根据权利要求1所述的一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,所述步骤s4中,对返回的弹幕数据采用split函数进行分割。
5.根据权利要求1所述的一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,所述步骤s5中,利用sql语句将弹幕和主播信息存入Sqlite3数据库中。
6.根据权利要求1所述的一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,所述步骤s6中,调用time库的sleep函数定期向服务器发送keeplive请求。
7.根据权利要求1或6所述的一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法,其特征在于,所述步骤s6中,每隔20s向服务器发送一次心跳包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710996465.0A CN108021604A (zh) | 2017-10-24 | 2017-10-24 | 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710996465.0A CN108021604A (zh) | 2017-10-24 | 2017-10-24 | 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021604A true CN108021604A (zh) | 2018-05-11 |
Family
ID=62080336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710996465.0A Pending CN108021604A (zh) | 2017-10-24 | 2017-10-24 | 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021604A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086402A (zh) * | 2018-07-31 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | Android中弹幕头像URL的获取方法 |
CN109275014A (zh) * | 2018-09-13 | 2019-01-25 | 武汉斗鱼网络科技有限公司 | 一种链接弹幕的方法及移动终端 |
CN110096666A (zh) * | 2019-05-08 | 2019-08-06 | 上海泰豪迈能能源科技有限公司 | 数据处理的方法及装置 |
CN110418176A (zh) * | 2018-11-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 弹幕信息处理方法、装置、服务器及存储介质 |
CN110460865A (zh) * | 2019-07-23 | 2019-11-15 | 中国农业大学 | 大规模弹幕获取方法及装置 |
CN110929127A (zh) * | 2019-12-05 | 2020-03-27 | 广州市原象信息科技有限公司 | 一种淘宝直播投放效果分析的方法及计算机设备 |
CN112882847A (zh) * | 2021-02-24 | 2021-06-01 | 海南车智易通信息技术有限公司 | 一种弹幕消息处理方法、装置及系统 |
WO2023131326A1 (zh) * | 2022-01-07 | 2023-07-13 | 北京有竹居网络技术有限公司 | 直播处理方法、装置、电子设备、存储介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999549A (zh) * | 2012-09-25 | 2013-03-27 | 金博 | 一种实现网络爬虫任务的方法 |
CN105631030A (zh) * | 2015-12-30 | 2016-06-01 | 福建亿榕信息技术有限公司 | 一种通用的网络爬虫模拟登录方法及系统 |
CN106960042A (zh) * | 2017-03-29 | 2017-07-18 | 中国科学技术大学苏州研究院 | 基于弹幕语义分析的网络直播监督方法 |
-
2017
- 2017-10-24 CN CN201710996465.0A patent/CN108021604A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999549A (zh) * | 2012-09-25 | 2013-03-27 | 金博 | 一种实现网络爬虫任务的方法 |
CN105631030A (zh) * | 2015-12-30 | 2016-06-01 | 福建亿榕信息技术有限公司 | 一种通用的网络爬虫模拟登录方法及系统 |
CN106960042A (zh) * | 2017-03-29 | 2017-07-18 | 中国科学技术大学苏州研究院 | 基于弹幕语义分析的网络直播监督方法 |
Non-Patent Citations (2)
Title |
---|
RIEUSE: "Python爬虫日记八:利用API实时爬取斗鱼弹幕", 《HTTPS://WWW.JIANSHU.COM/P/6C7A9DB39028》 * |
无与童比: "记一次斗鱼TV弹幕爬虫经历(Ruby版本)", 《HTTPS://WWW.JIANSHU.COM/P/EF0225B6BB0E》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086402A (zh) * | 2018-07-31 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | Android中弹幕头像URL的获取方法 |
CN109275014A (zh) * | 2018-09-13 | 2019-01-25 | 武汉斗鱼网络科技有限公司 | 一种链接弹幕的方法及移动终端 |
CN109275014B (zh) * | 2018-09-13 | 2021-09-07 | 武汉斗鱼网络科技有限公司 | 一种链接弹幕的方法及移动终端 |
CN110418176A (zh) * | 2018-11-05 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 弹幕信息处理方法、装置、服务器及存储介质 |
CN110418176B (zh) * | 2018-11-05 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 弹幕信息处理方法、装置、服务器及存储介质 |
CN110096666A (zh) * | 2019-05-08 | 2019-08-06 | 上海泰豪迈能能源科技有限公司 | 数据处理的方法及装置 |
CN110460865A (zh) * | 2019-07-23 | 2019-11-15 | 中国农业大学 | 大规模弹幕获取方法及装置 |
CN110929127A (zh) * | 2019-12-05 | 2020-03-27 | 广州市原象信息科技有限公司 | 一种淘宝直播投放效果分析的方法及计算机设备 |
CN112882847A (zh) * | 2021-02-24 | 2021-06-01 | 海南车智易通信息技术有限公司 | 一种弹幕消息处理方法、装置及系统 |
WO2023131326A1 (zh) * | 2022-01-07 | 2023-07-13 | 北京有竹居网络技术有限公司 | 直播处理方法、装置、电子设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021604A (zh) | 一种爬取斗鱼直播网站主播房间里弹幕的网络爬虫方法 | |
US9183214B2 (en) | Method and apparatus for data storage and downloading | |
CN106897357A (zh) | 一种用于带验证分布式智能爬取网络信息的方法 | |
US20110275047A1 (en) | Seeking Answers to Questions | |
CN109729044B (zh) | 一种通用的互联网数据采集反反爬系统及方法 | |
CN107040816A (zh) | 一种客户端应用运行异常分析方法与装置 | |
CN109933701A (zh) | 一种基于多策略融合的微博数据获取方法 | |
CN103618701A (zh) | 一种进行网页游戏交互的方法和浏览器 | |
CN106503272B (zh) | 浏览器网页显示方法及装置 | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN108712426A (zh) | 基于用户行为埋点的爬虫识别方法及系统 | |
US10599654B2 (en) | Method and system for determining unique events from a stream of events | |
CN107341395A (zh) | 一种拦截爬虫的方法 | |
CN103744987B (zh) | 基于dom树匹配的视频网站媒资聚合方法和系统 | |
US20170017695A1 (en) | Question and answer information providing system, information processing device, and non-transitory computer-readable medium | |
CN106230809B (zh) | 一种基于url的移动互联网舆情监测方法及系统 | |
CN105992021A (zh) | 视频弹幕方法、装置及系统 | |
CN106921795A (zh) | 一种联系人数据管理方法及其系统 | |
CN107748753A (zh) | 一种基于双随机的抽取系统、方法及装置 | |
CN111104583A (zh) | 一种直播间推荐方法、存储介质、电子设备及系统 | |
US20170141994A1 (en) | Anti-leech method and system | |
CN113038153A (zh) | 金融直播违规检测方法、装置、设备及可读存储介质 | |
Scannell | 41 Managing Data from Social Media: The Indigenous Tweets Project | |
Falk | An ontology for threat intelligence | |
CN108549714B (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180511 |