发明内容
本发明的目的是提供一种基于URL的移动互联网舆情监测方法及系统,以解决操作不便、技术门槛高、无法还原真实内容以及无法对移动网络URL对应的内容进行采集的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于URL的移动互联网舆情监测方法,包括以下步骤:
从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
根据用户行为和偏好的分析结果进行舆情监测。
上述的移动互联网舆情监测方法,过滤还包括,对URL进行拼接:
对HOST字段是否为空进行判断,
若HOST字段不为空,则将HOST和URI拼接形成所述URL;
若HOST字段为空,则将服务器IP和URI拼接形成所述URL。
上述的移动互联网舆情监测方法,过滤具体为,
通过对URL对应的字段中的格式字段的分析,筛选符合格式要求的URL,得到选后URL;
将所述滤后URL对应的字段进行对比,若一致,归并为一个,得到唯一URL;
对所述唯一URL进行访问,得出访问反馈,根据访问反馈判断其是否有效,得到有效URL;
并按照如下表结构在URL库中进行存放:
{URL id,URL,是否有效}。
上述的移动互联网舆情监测方法,模拟移动端浏览器的操作包括以下步骤:
从所述URL库中获取移动端的型号;
根据所述移动端的型号模拟出相应的浏览器,生成移动端模拟环境。
上述的移动互联网舆情监测方法,移动端的型号包括,Palm OS、Linux、Android、iPhoneOS、Black BerryOS6.0、Windows Phone7。
上述的移动互联网舆情监测方法,所述采集结果按照如下表结构在媒体数据库中进行存放:
{网站id,域名,应用大类,应用小类};
所述应用大类,用以划分移动网络运营商所属的领域;
所述应用小类,用以确定移动网络运营商的APP应用程序的作用类型。
上述的移动互联网舆情监测方法,所述采集结果按照如下表结构在用户访问行为数据库中进行存放:
{用户id,URL id,移动端IMSI,用户地址,移动端型号,访问时间,访问次数};
所述用户地址,用以确定所述移动端的用户的地理位置;
所述访问时间,用以确定所述移动端的用户对URL访问的时间段;
所述访问次数,用以确定所述移动端的用户对URL对应的内容的访问热度。
上述的移动互联网舆情监测方法,根据采集结果进行移动端用户行为和偏好分析的方法具体为
确定基准关键词,根据基准关键词搜索有效URL对应的内容中与其相同的字词,并分类至相应的基准关键词类别下;
通过对基准关键词被访问的次数的比较,确定最高热度的基准关键词,并生成基准关键词排名。
上述的移动互联网舆情监测方法,,根据采集结果进行移动端用户行为和偏好分析还包括,
获得用户地址,将用户地址相同的聚集,并统计聚集的用户地址数目;
通过对用户地址数目的比较,确定用户的地理分布情况。
本发明还提供一种基于URL的移动互联网舆情监测系统,其特征在于,包括:
URL获取模块,从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
处理模块,建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
舆情监测模块,根据用户行为和偏好的分析结果进行舆情监测。
本发明的有益效果:
在上述技术方案中,本发明提供的一种基于URL的移动互联网舆情监测方法,包括有效URL的获得,将其与移动端IMSI关联,并模拟移动端浏览器,对有效URL进行爬虫采集。具备以下有益效果:
1)本舆情监测方法不需要人为控制,无需操作;用户不需要专业知识均可使用,技术门槛低;通过URL进行爬虫采集,不会出现需要还原报文内容的情况,从而避免了解密报文、接口对应等步骤。
2)通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
3)通过模拟移动端浏览器,创建了一个移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
在上述技术方案中,本发明还提供的一种基于URL的移动互联网舆情监测系统,包括:获取模块、处理模块、舆情监测模块,具备以下有益效果:
1)获取模块,通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
2)处理模块,通过模拟移动端浏览器处理,获得移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
3)舆情监测模块,通过分析结果生成舆情简报,从而实现舆情监测。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
如图1所示,本发明实施例提供的一种基于URL的移动互联网舆情监测方法,包括以下步骤:
S101、从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
移动网络运营商为给移动端消费者提供APP的商家;信令系统是指为完成特定的信令方式所使用的通信设备的主体;URL库是指通过移动端打开链接的同时记录的信息的存放库,URL库中记录的信息包括但不限于,移动端IMSI,流程始、终时间,应用大类、小类,上、下行流量,服务器IP、端口,移动端型号,URI,HOST,用户IP、地理位置等信息;有效URL是指通过URL库中记录的URI、HOST等信息拼接成URL,并将无意义的URL全部过滤,剩余的URL即为有效URL。具体的,经过移动网络运营商的授权获得API接口,通过API接口从信令系统中获取URL库,通过URL库中记录的URI、HOST等信息拼接成URL,并将无用的URL全部过滤,得到有效URL。使需要爬虫的URL量大大减小,提高了效率。
在一些实施例中,所述URL库被获得的同时,根据URL库中的记录的信息生成如下表格:
{移动端IMSI、流程开始时间、流程终止时间、应用大类、应用小类、上行流量、下行流量、服务器IP、服务器端口、移动端型号、URI、HOST、用户IP、用户地理位置}。
原URL库表:
在一些实施例中,所述移动网络运营商提供的APP包括但不限于,今日头条、微信、微博、QQ等软件。
在一些实施例中,应用大类为阅读,则应用小类为今日头条、微信新闻、微博头条、qq新闻等。
在一些实施例中,应用大类为即时,则应用小类为微信文字对话、qq文字对话、今日头条评论、微博头条评论、微博评论、微信朋友圈、qq空间等。
在一些实施例中,应用大类为通信,则应用小类为qq语音对话、微信语音对话、移动端间的通话等。
在一些实施例中,服务器通过设定时间定时对网络运营商的信令系统中的更新的URL库进行获取,若为获取到相应信息,表明没有更新,则程序中止;若获取到相应的信息,则继续执行程序。
在一些实施例中,所述设定时间可通过定时器、定时程序等方式设定,可根据实际的情况进行调整;如,1分钟获取一次、5分钟获取一次。
在一些实施例中,所述流程开始时间为程序开始执行的时间点,所述流程终止时间的程序执行完一遍的时间点;通过由始到终的时间段可以看出链接对应的内容的多少。
在一些实施例中,得到有效URL的同时,按照如下表对URL库进行设置:{URL id,URL,是否有效},即生成现URL库表。
现URL库表:
URL·id |
URL |
是否有效 |
□ |
□ |
|
□ |
□ |
|
□ |
□ |
|
S102、建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
移动端中IMSI为移动端的唯一识别码,是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息;爬虫采集是指对URL对应的内容进行全面采集,其为一个自动提取网页的程序;行为分析是指通过采集到的信息分析用户的访问习惯;偏好分析是指通过采集到的信息分析用户对URL对应的内容的喜好程度。具体的,通过原URL库表中搜寻到IMSI,再搜寻并获得处于同一行的有效URL,如此建立两者之间一一对应的关联关系,由于IMSI的唯一性,可以通过其确立移动端用户的唯一性,然后通过服务器对移动端型号进行分析,并创建一个符合该型号的浏览器运作环境,在该运作环境下,即可对有效URL进行爬虫采集,最后把采集来的信息通过分析,得到用户的访问习惯和对URL对应内容的喜好程度。使爬虫采集可以对移动网络中的URL进行采集,并且能进行用户行为习惯以及偏好分析,从而可向指定用户推送与其相符合的关键词,让用户体验更好。
在一些实施例中,所述移动端包括但不限于,平板电脑、智能手机、智能可穿戴设备、移动互联网舆情采集装置等。
在一些实施例中,所述移动端为智能手机,所述IMSI可用与智能手机相关的其他唯一标识ID替代;如,智能手机的号码、绑定与智能手机的用户的身份证信息。
在一些实施例中,所述URL库中的记录的移动端的型号包括,Palm OS、Linux、Android、iPhoneOS、Black BerryOS6.0、Windows Phone7。
在一些实施例中,根据移动端型号的不同,创建出不同的浏览器运作环境;如,移动端型号为iPhoneOS,则通过服务器创建基于iPhoneOS的浏览器运作环境。
在一些实施例中,所述爬虫为传统爬虫,从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
在一些实施例中,所述爬虫为聚焦爬虫,根据一定的网页分析算法过滤与关键词无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
在一些实施例中,所述关键词的对应内容的通过聚焦爬虫采集完成后,对其他关键词再进行聚焦爬虫采集,获得多个关键词的对应内容,并通过所有的关键词的对应内容进行用户行为偏好分析。
在一些实施例中,进行移动端用户行为和偏好分析后,按照如下表对媒体类型进行设置:{网站id,域名,应用大类,应用小类};
所述应用大类,用以确定移动网络运营商所属的领域;
所述应用小类,用以确定移动网络运营商APP的作用的类型。
媒体类型表:
网站id |
域名 |
应用大类 |
应用小类 |
□ |
□ |
□ |
□ |
□ |
□ |
□ |
□ |
□ |
□ |
□ |
□ |
在一些实施例中,进行移动端用户行为和偏好分析后,按照如下表对用户访问行为进行设置:{用户id,URL id,移动端IMSI,用户地址,移动端型号,访问时间,访问次数};
所述用户地址,用以确定移动端用户的地理位置;
所述访问时间,用以确定移动端用户对URL访问的时间段;
所述访问次数,用以确定移动端用户对URL对应的内容的访问热度。
用户访问表:
用户id |
url·id |
用户IMSI |
用户IP |
终端型号 |
访问时间 |
访问次数 |
|
□ |
□ |
□ |
□ |
|
□ |
|
□ |
□ |
□ |
□ |
|
□ |
|
□ |
□ |
□ |
□ |
|
□ |
在一些实施例中,根据移动端用户的地理位置,分析出移动端用户的地理分布情况;根据移动端用户对URL访问的时间段,分析出移动端用户的访问高峰时间段;根据移动端用户对URL对应的内容的访问热度,分析出关键词的排名情况。
在一些实施例中,所述APP的作用的类型为该APP的功能,如,微信具有即时发送文字信息、即时发送音频信息、朋友圈、微信新闻等功能,则表明该APP具有上述APP的作用的类型。
S103、根据用户行为和偏好的分析结果进行舆情监测。
舆情监测是指对舆论进行引导,为用户提供参考;具体的,根据上述的现URL库表、媒体类型表、用户访问表对用户行为偏好进行分析,根据分析结果对舆情进行监测,完成舆论引导、舆论遏制、为用户提供参考选项等的监测。
在上述技术方案中,本发明提供的一种基于URL的移动互联网舆情监测方法,包括有效URL的获得,将其与移动端IMSI关联,并模拟移动端浏览器,对有效URL进行爬虫采集。具备以下有益效果:
1)本舆情监测方法不需要人为控制,无需操作;用户不需要专业知识均可使用,技术门槛低;通过URL进行爬虫采集,不会出现需要还原报文内容的情况,从而避免了解密报文、接口对应等步骤。
2)通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
3)通过模拟移动端浏览器,创建了一个移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
如图2所示,本实施例提供的拼接的流程示意图,过滤还包括,对URL进行拼接:对HOST字段是否为空进行判断,
S201、若HOST字段不为空,则将HOST和URI拼接形成所述URL;
S202、若HOST字段为空,则将服务器IP和URI拼接形成所述URL。
HOST是指服务器网络地址;URI是指具体的地址。具体的,如果HOST中有字符,则通过拼接,将HOST和URI合并成一个完整的URL;如果HOST中没有字符,则通过拼接,将服务器IP和URI合并成一个完整的URL。
如图3所示,本实施例提供的过滤的流程示意图,过滤具体为,
S301、通过对URL对应的字段中的格式字段的分析,筛选符合格式要求的URL,得到选后URL;
格式要求,格式是html/htm/asp/php/jsp/aspx/shtml/json/xml等页面或目录路径的,符合格式要求;格式是jpg/gif/pngjs/css/RMVB/AVI等图像、视频或页面的,不符合格式要求。具体的,首先对URL进行第一步过滤:将URL中的格式字段提取,通过格式字段判断出该URL对应的内容为何种格式,把不符合格式要求的删除;如,URL中含有JPG字段,则删除。
S302、将所述选后URL对应的字段进行对比,若一致,归并为一个,得到唯一URL;
具体的,然后提取经过上述步骤获得的选后URL,并一一比对,若出现一致,则删除多余的只剩一个,获得唯一URL。避免了对相同的URL进行重复爬虫的情况的出现。
S303、对所述唯一URL进行访问,得出访问反馈,根据访问反馈判断其是否有效,得到有效URL;
具体的,最后将上述唯一URL进行逐一访问,若出现访问错误、无授权或禁止访问等信息,则将这些URL标注为无效;其他能够访问的URL标注为有效。通过以上三个步骤,使需要爬虫的URL量大大减小,提高了效率。
如图4所示,本实施例提供的模拟移动端浏览器操作的流程示意图,模拟移动端浏览器操作包括以下步骤:
S401、从所述URL库中获取移动端的型号;
S402、根据所述移动端的型号模拟出相应的浏览器,生成移动端模拟环境。
根据获得的URL库,从中获取设定时间内出现访问的所有移动端的型号,模拟这些移动端的型号的浏览器,生成不同的模拟环境,如,安卓系统模拟环境、ISO系统模拟环境等,并在这些模拟环境下分别对所有的有效URL进行爬虫采集。
如图5所示,本实施例提供的关键词排名的流程示意图,进行移动端用户行为和偏好分析还包括,
S501、确定基准关键词,根据基准关键词搜索有效URL对应的内容中与其相同的字词,并分类至相应的基准关键词类别下;
S502、通过对基准关键词被访问的次数的比较,确定最高热度的基准关键词,并生成基准关键词排名。
有效URL对应的内容包括但不限于,标题、正文、发布时间、媒体名称等信息。具体的,若基准关键词为足球、篮球,把出现“足球”的URL对应的内容分类至足球的类别下,把出现“篮球”的URL对应的内容分类至篮球类别下;通过用户访问表分别统计关键词“足球”、“篮球”被访问的次数,并且比较哪个关键词被访问的次数多,以确定关键词排名,如,“足球”为1000、“篮球”为877,则足球第一、篮球第二。若关键词为三个或三个以上,则按照上述步骤统计出相应的被访问次数,并给出具体的排名。
如图6所示,本实施例提供的用户分布分析的流程示意图,进行移动端用户行为和偏好分析还包括,
S601、获得用户地址,将用户地址相同的聚集,并统计聚集的用户地址数目;
S602、通过对用户地址数目的比较,确定用户的地理分布情况。
具体的,以“省”为单位,如“江苏省”、“河北省”,把在江苏省的移动端用户聚集在“江苏省”的类别下,把在河北省的移动用户聚集在“河北省”的类别下,并通过统计用户访问表中IMSI出现的次数确定“江苏省”、“河北省”类别下的用户地址数目;并且比较哪个用户地址数目多,从而确定用户地理分布情况,如,“江苏省”为1000,“河北省”为100,则认为在设定时间内江苏省对该运营商提供的APP的使用情况远好于河北省。若参与统计的为国内主流的省份,则根据上述步骤进行排名,并在地图上表明具体数字,或者以颜色的深浅表示APP的受欢迎程度。
如图7所示,本发明实施例还提供的一种基于URL的移动互联网舆情监测系统,包括:
URL获取模块10,从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
处理模块20,建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
舆情监测模块30,根据用户行为和偏好的分析结果进行舆情监测。
在上述技术方案中,本发明还提供的一种基于URL的移动互联网舆情监测系统,包括:获取模块、处理模块、舆情监测模块,具备以下有益效果:
1)URL获取模块10,通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
2)处理模块20,通过模拟移动端浏览器处理,获得移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
3)舆情监测模块30,通过分析结果生成舆情简报,从而实现舆情监测。
在一些实施例中,如图8所示,移动互联网舆情监测系统包括信令系统、URL过滤、爬虫采集、处理分析以及舆情门户,
所述信令系统用于从信令系统中获取URL库;
所述URL过滤为对所述URL库中得到的URL进行过滤得到有效URL;
所述爬虫采集为模拟移动端的浏览器,并对所述URL进行爬虫采集;
所述处理分析为进行移动端用户行为和偏好分析;
所述舆情门户用于根据用户行为和偏好的分析结果进行舆情监测。
具体的,经过移动网络运营商的授权获得API接口,通过API接口从信令系统中获取URL库,通过URL库中记录的URI、HOST等信息拼接成URL(拼接),并通过URL过滤(验证、去噪、归并)将无用的URL全部过滤,得到有效URL。爬虫采集分为:代理IP,通过服务器对移动端型号进行分析;模拟浏览器,并创建一个符合该型号的浏览器运作环境;模拟登录,在该运作环境下,即可对有效URL进行网络爬虫;打码验证,对采集来的信息打上识别码,并且通过采集来的信息生成现URL库表、媒体类型表、用户访问表。编码识别,识别所述识别码;内容提取,提取上述采集来的信息;对该信息进行语义、行为分析,通过上述表格对行为偏好进行分析,得到用户的访问习惯和对URL对应内容的喜好程度。舆情门户,根据行为偏好分析的结果对舆情进行汇总、生成舆情简报,并且用户通过此模块进行舆情查询等。
本实施例具体的步骤如下:
通过信令系统获取URL库:采用专用系统准实时读取运营商的信令系统中的URL库,可以设置比如1分钟、5分钟更新读取一次;
拼接:对这些URL进行拼接。需要将原有信令系统中HOST字段和URI字段拼接成一个完整的URL,如果HOST字段为空,将采用服务器IP字段代替;
去噪:去除无意义URL,如后缀为jpg/gif/png等图片文件、js/css等页面,保留后缀为html/htm/asp/php/jsp/aspx/shtml/json/xml等页面或目录路径。
归并:将多个相同的URL进行归并,但是用户信息不归并。
验证:验证URL有效性。系统自动访问该URL,得到返回代码,如果是错误、无授权或禁止访问等信息,将自动将该URL注明为“无效”;
移动端浏览器模拟:模拟手机端浏览器。建立移动端IMSI和经过拼接、去噪、归并、验证步骤的URL的关联,并根据信令系统中的手机终端型号模拟该型号手机的浏览器;
对经过拼接、去噪、归并、验证这些步骤后的URL进行爬虫采集:爬虫采集该URL的内容。提取该URL对应的标题、正文、发布时间、媒体名称等主要信息;
对采集来的信息分析处理:对这些信息内容进行关键词匹配和聚类,同时结合手机ISMI信息和用户IP信息,分析出某一个关键词的访问热度和访问用户分布情况。
舆情门户:根据行为偏好分析的结果对舆情进行汇总、生成舆情简报,并且用户通过此模块进行舆情查询等。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。