CN106230809A - 一种基于url的移动互联网舆情监测方法及系统 - Google Patents

一种基于url的移动互联网舆情监测方法及系统 Download PDF

Info

Publication number
CN106230809A
CN106230809A CN201610607182.8A CN201610607182A CN106230809A CN 106230809 A CN106230809 A CN 106230809A CN 201610607182 A CN201610607182 A CN 201610607182A CN 106230809 A CN106230809 A CN 106230809A
Authority
CN
China
Prior art keywords
url
mobile terminal
public sentiment
mobile
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610607182.8A
Other languages
English (en)
Other versions
CN106230809B (zh
Inventor
吴青松
何小兴
何志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fast Page Information Technology Co.,Ltd.
Original Assignee
Nanjing Fast Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fast Digital Technology Co Ltd filed Critical Nanjing Fast Digital Technology Co Ltd
Priority to CN201610607182.8A priority Critical patent/CN106230809B/zh
Publication of CN106230809A publication Critical patent/CN106230809A/zh
Application granted granted Critical
Publication of CN106230809B publication Critical patent/CN106230809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance

Landscapes

  • Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于URL的移动互联网舆情监测方法及系统,方法包括以下步骤:从移动网络运营商的信令系统中获取URL库,并对URL库中得到的URL进行过滤得到有效URL;建立移动端中IMSI与有效URL的关联,并模拟移动端浏览器的操作,根据有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;根据用户行为和偏好的分析结果进行舆情监测。本发明有益效果:1)不需要人为控制,无需操作;用户不需要专业知识均可使用,技术门槛低;2)让需要进行采集的URL量大大减小,使爬虫采集的压力大大减轻。3)使网络爬虫能够对移动网络URL中的内容进行有效的采集。

Description

一种基于URL的移动互联网舆情监测方法及系统
技术领域
本发明涉及移动互联网领域,具体涉及一种基于URL的移动互联网舆情监测方法及系统。
背景技术
随着互联网技术的不断发展,网络舆情的监测对于官方、个人、企业等都至关重要。通过对舆情的监测,相关人员、部门可全面掌握大众思想动态,做出正确舆论引导,有效遏制谣言、公共危机事件、非理性议论、负面思想、危险理论的传播。
网络舆情监测系统包括:舆情采集、自动分类聚类、主题检测、专题聚焦,通过上述系统实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为人员、部门提供参考。其中舆情采集为对舆情进行采集的过程,现有技术中,移动网络舆情采集的方法为:确定监测APP并安装于移动智能设备,与PC建立连接,通过抓包工具(如:EffeTech HTTP Sniffer)直接在APP中抓取http报文;一般网络舆情采集的方法为:海量获取URL,通过普通网络爬虫或者聚焦网络爬虫采集URL对应的内容。
现有技术的不足之处在于,必须借助PC机,操作不方便,技术门槛较高,针对密文传输或者通过JSON接口调用的数据无法还原出真实报文内容;且网络爬虫无法对移动网络URL对应的内容进行采集。
发明内容
本发明的目的是提供一种基于URL的移动互联网舆情监测方法及系统,以解决操作不便、技术门槛高、无法还原真实内容以及无法对移动网络URL对应的内容进行采集的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于URL的移动互联网舆情监测方法,包括以下步骤:
从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
根据用户行为和偏好的分析结果进行舆情监测。
上述的移动互联网舆情监测方法,过滤还包括,对URL进行拼接:
对HOST字段是否为空进行判断,
若HOST字段不为空,则将HOST和URI拼接形成所述URL;
若HOST字段为空,则将服务器IP和URI拼接形成所述URL。
上述的移动互联网舆情监测方法,过滤具体为,
通过对URL对应的字段中的格式字段的分析,筛选符合格式要求的URL,得到选后URL;
将所述滤后URL对应的字段进行对比,若一致,归并为一个,得到唯一URL;
对所述唯一URL进行访问,得出访问反馈,根据访问反馈判断其是否有效,得到有效URL;
并按照如下表结构在URL库中进行存放:
{URL id,URL,是否有效}。
上述的移动互联网舆情监测方法,模拟移动端浏览器的操作包括以下步骤:
从所述URL库中获取移动端的型号;
根据所述移动端的型号模拟出相应的浏览器,生成移动端模拟环境。
上述的移动互联网舆情监测方法,移动端的型号包括,Palm OS、Linux、Android、iPhoneOS、Black BerryOS6.0、Windows Phone7。
上述的移动互联网舆情监测方法,所述采集结果按照如下表结构在媒体数据库中进行存放:
{网站id,域名,应用大类,应用小类};
所述应用大类,用以划分移动网络运营商所属的领域;
所述应用小类,用以确定移动网络运营商的APP应用程序的作用类型。
上述的移动互联网舆情监测方法,所述采集结果按照如下表结构在用户访问行为数据库中进行存放:
{用户id,URL id,移动端IMSI,用户地址,移动端型号,访问时间,访问次数};
所述用户地址,用以确定所述移动端的用户的地理位置;
所述访问时间,用以确定所述移动端的用户对URL访问的时间段;
所述访问次数,用以确定所述移动端的用户对URL对应的内容的访问热度。
上述的移动互联网舆情监测方法,根据采集结果进行移动端用户行为和偏好分析的方法具体为
确定基准关键词,根据基准关键词搜索有效URL对应的内容中与其相同的字词,并分类至相应的基准关键词类别下;
通过对基准关键词被访问的次数的比较,确定最高热度的基准关键词,并生成基准关键词排名。
上述的移动互联网舆情监测方法,,根据采集结果进行移动端用户行为和偏好分析还包括,
获得用户地址,将用户地址相同的聚集,并统计聚集的用户地址数目;
通过对用户地址数目的比较,确定用户的地理分布情况。
本发明还提供一种基于URL的移动互联网舆情监测系统,其特征在于,包括:
URL获取模块,从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
处理模块,建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
舆情监测模块,根据用户行为和偏好的分析结果进行舆情监测。
本发明的有益效果:
在上述技术方案中,本发明提供的一种基于URL的移动互联网舆情监测方法,包括有效URL的获得,将其与移动端IMSI关联,并模拟移动端浏览器,对有效URL进行爬虫采集。具备以下有益效果:
1)本舆情监测方法不需要人为控制,无需操作;用户不需要专业知识均可使用,技术门槛低;通过URL进行爬虫采集,不会出现需要还原报文内容的情况,从而避免了解密报文、接口对应等步骤。
2)通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
3)通过模拟移动端浏览器,创建了一个移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
在上述技术方案中,本发明还提供的一种基于URL的移动互联网舆情监测系统,包括:获取模块、处理模块、舆情监测模块,具备以下有益效果:
1)获取模块,通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
2)处理模块,通过模拟移动端浏览器处理,获得移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
3)舆情监测模块,通过分析结果生成舆情简报,从而实现舆情监测。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的移动互联网舆情监测方法的流程示意图;
图2为本发明一优选实施例中的拼接的流程示意图;
图3为本发明一优选实施例中的过滤的流程示意图;
图4为本发明一优选实施例中的模拟移动端浏览器操作的流程示意图;
图5为本发明一优选实施例中的关键词排名的流程示意图;
图6为本发明一优选实施例中的用户分布分析的流程示意图;
图7为本发明实施例中的移动互联网舆情监测系统的流程示意图;
图8为本发明一优选实施例中的移动互联网舆情监测系统的流程示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
如图1所示,本发明实施例提供的一种基于URL的移动互联网舆情监测方法,包括以下步骤:
S101、从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
移动网络运营商为给移动端消费者提供APP的商家;信令系统是指为完成特定的信令方式所使用的通信设备的主体;URL库是指通过移动端打开链接的同时记录的信息的存放库,URL库中记录的信息包括但不限于,移动端IMSI,流程始、终时间,应用大类、小类,上、下行流量,服务器IP、端口,移动端型号,URI,HOST,用户IP、地理位置等信息;有效URL是指通过URL库中记录的URI、HOST等信息拼接成URL,并将无意义的URL全部过滤,剩余的URL即为有效URL。具体的,经过移动网络运营商的授权获得API接口,通过API接口从信令系统中获取URL库,通过URL库中记录的URI、HOST等信息拼接成URL,并将无用的URL全部过滤,得到有效URL。使需要爬虫的URL量大大减小,提高了效率。
在一些实施例中,所述URL库被获得的同时,根据URL库中的记录的信息生成如下表格:
{移动端IMSI、流程开始时间、流程终止时间、应用大类、应用小类、上行流量、下行流量、服务器IP、服务器端口、移动端型号、URI、HOST、用户IP、用户地理位置}。
原URL库表:
在一些实施例中,所述移动网络运营商提供的APP包括但不限于,今日头条、微信、微博、QQ等软件。
在一些实施例中,应用大类为阅读,则应用小类为今日头条、微信新闻、微博头条、qq新闻等。
在一些实施例中,应用大类为即时,则应用小类为微信文字对话、qq文字对话、今日头条评论、微博头条评论、微博评论、微信朋友圈、qq空间等。
在一些实施例中,应用大类为通信,则应用小类为qq语音对话、微信语音对话、移动端间的通话等。
在一些实施例中,服务器通过设定时间定时对网络运营商的信令系统中的更新的URL库进行获取,若为获取到相应信息,表明没有更新,则程序中止;若获取到相应的信息,则继续执行程序。
在一些实施例中,所述设定时间可通过定时器、定时程序等方式设定,可根据实际的情况进行调整;如,1分钟获取一次、5分钟获取一次。
在一些实施例中,所述流程开始时间为程序开始执行的时间点,所述流程终止时间的程序执行完一遍的时间点;通过由始到终的时间段可以看出链接对应的内容的多少。
在一些实施例中,得到有效URL的同时,按照如下表对URL库进行设置:{URL id,URL,是否有效},即生成现URL库表。
现URL库表:
URL·id URL 是否有效
S102、建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
移动端中IMSI为移动端的唯一识别码,是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息;爬虫采集是指对URL对应的内容进行全面采集,其为一个自动提取网页的程序;行为分析是指通过采集到的信息分析用户的访问习惯;偏好分析是指通过采集到的信息分析用户对URL对应的内容的喜好程度。具体的,通过原URL库表中搜寻到IMSI,再搜寻并获得处于同一行的有效URL,如此建立两者之间一一对应的关联关系,由于IMSI的唯一性,可以通过其确立移动端用户的唯一性,然后通过服务器对移动端型号进行分析,并创建一个符合该型号的浏览器运作环境,在该运作环境下,即可对有效URL进行爬虫采集,最后把采集来的信息通过分析,得到用户的访问习惯和对URL对应内容的喜好程度。使爬虫采集可以对移动网络中的URL进行采集,并且能进行用户行为习惯以及偏好分析,从而可向指定用户推送与其相符合的关键词,让用户体验更好。
在一些实施例中,所述移动端包括但不限于,平板电脑、智能手机、智能可穿戴设备、移动互联网舆情采集装置等。
在一些实施例中,所述移动端为智能手机,所述IMSI可用与智能手机相关的其他唯一标识ID替代;如,智能手机的号码、绑定与智能手机的用户的身份证信息。
在一些实施例中,所述URL库中的记录的移动端的型号包括,Palm OS、Linux、Android、iPhoneOS、Black BerryOS6.0、Windows Phone7。
在一些实施例中,根据移动端型号的不同,创建出不同的浏览器运作环境;如,移动端型号为iPhoneOS,则通过服务器创建基于iPhoneOS的浏览器运作环境。
在一些实施例中,所述爬虫为传统爬虫,从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
在一些实施例中,所述爬虫为聚焦爬虫,根据一定的网页分析算法过滤与关键词无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
在一些实施例中,所述关键词的对应内容的通过聚焦爬虫采集完成后,对其他关键词再进行聚焦爬虫采集,获得多个关键词的对应内容,并通过所有的关键词的对应内容进行用户行为偏好分析。
在一些实施例中,进行移动端用户行为和偏好分析后,按照如下表对媒体类型进行设置:{网站id,域名,应用大类,应用小类};
所述应用大类,用以确定移动网络运营商所属的领域;
所述应用小类,用以确定移动网络运营商APP的作用的类型。
媒体类型表:
网站id 域名 应用大类 应用小类
在一些实施例中,进行移动端用户行为和偏好分析后,按照如下表对用户访问行为进行设置:{用户id,URL id,移动端IMSI,用户地址,移动端型号,访问时间,访问次数};
所述用户地址,用以确定移动端用户的地理位置;
所述访问时间,用以确定移动端用户对URL访问的时间段;
所述访问次数,用以确定移动端用户对URL对应的内容的访问热度。
用户访问表:
用户id url·id 用户IMSI 用户IP 终端型号 访问时间 访问次数
在一些实施例中,根据移动端用户的地理位置,分析出移动端用户的地理分布情况;根据移动端用户对URL访问的时间段,分析出移动端用户的访问高峰时间段;根据移动端用户对URL对应的内容的访问热度,分析出关键词的排名情况。
在一些实施例中,所述APP的作用的类型为该APP的功能,如,微信具有即时发送文字信息、即时发送音频信息、朋友圈、微信新闻等功能,则表明该APP具有上述APP的作用的类型。
S103、根据用户行为和偏好的分析结果进行舆情监测。
舆情监测是指对舆论进行引导,为用户提供参考;具体的,根据上述的现URL库表、媒体类型表、用户访问表对用户行为偏好进行分析,根据分析结果对舆情进行监测,完成舆论引导、舆论遏制、为用户提供参考选项等的监测。
在上述技术方案中,本发明提供的一种基于URL的移动互联网舆情监测方法,包括有效URL的获得,将其与移动端IMSI关联,并模拟移动端浏览器,对有效URL进行爬虫采集。具备以下有益效果:
1)本舆情监测方法不需要人为控制,无需操作;用户不需要专业知识均可使用,技术门槛低;通过URL进行爬虫采集,不会出现需要还原报文内容的情况,从而避免了解密报文、接口对应等步骤。
2)通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
3)通过模拟移动端浏览器,创建了一个移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
如图2所示,本实施例提供的拼接的流程示意图,过滤还包括,对URL进行拼接:对HOST字段是否为空进行判断,
S201、若HOST字段不为空,则将HOST和URI拼接形成所述URL;
S202、若HOST字段为空,则将服务器IP和URI拼接形成所述URL。
HOST是指服务器网络地址;URI是指具体的地址。具体的,如果HOST中有字符,则通过拼接,将HOST和URI合并成一个完整的URL;如果HOST中没有字符,则通过拼接,将服务器IP和URI合并成一个完整的URL。
如图3所示,本实施例提供的过滤的流程示意图,过滤具体为,
S301、通过对URL对应的字段中的格式字段的分析,筛选符合格式要求的URL,得到选后URL;
格式要求,格式是html/htm/asp/php/jsp/aspx/shtml/json/xml等页面或目录路径的,符合格式要求;格式是jpg/gif/pngjs/css/RMVB/AVI等图像、视频或页面的,不符合格式要求。具体的,首先对URL进行第一步过滤:将URL中的格式字段提取,通过格式字段判断出该URL对应的内容为何种格式,把不符合格式要求的删除;如,URL中含有JPG字段,则删除。
S302、将所述选后URL对应的字段进行对比,若一致,归并为一个,得到唯一URL;
具体的,然后提取经过上述步骤获得的选后URL,并一一比对,若出现一致,则删除多余的只剩一个,获得唯一URL。避免了对相同的URL进行重复爬虫的情况的出现。
S303、对所述唯一URL进行访问,得出访问反馈,根据访问反馈判断其是否有效,得到有效URL;
具体的,最后将上述唯一URL进行逐一访问,若出现访问错误、无授权或禁止访问等信息,则将这些URL标注为无效;其他能够访问的URL标注为有效。通过以上三个步骤,使需要爬虫的URL量大大减小,提高了效率。
如图4所示,本实施例提供的模拟移动端浏览器操作的流程示意图,模拟移动端浏览器操作包括以下步骤:
S401、从所述URL库中获取移动端的型号;
S402、根据所述移动端的型号模拟出相应的浏览器,生成移动端模拟环境。
根据获得的URL库,从中获取设定时间内出现访问的所有移动端的型号,模拟这些移动端的型号的浏览器,生成不同的模拟环境,如,安卓系统模拟环境、ISO系统模拟环境等,并在这些模拟环境下分别对所有的有效URL进行爬虫采集。
如图5所示,本实施例提供的关键词排名的流程示意图,进行移动端用户行为和偏好分析还包括,
S501、确定基准关键词,根据基准关键词搜索有效URL对应的内容中与其相同的字词,并分类至相应的基准关键词类别下;
S502、通过对基准关键词被访问的次数的比较,确定最高热度的基准关键词,并生成基准关键词排名。
有效URL对应的内容包括但不限于,标题、正文、发布时间、媒体名称等信息。具体的,若基准关键词为足球、篮球,把出现“足球”的URL对应的内容分类至足球的类别下,把出现“篮球”的URL对应的内容分类至篮球类别下;通过用户访问表分别统计关键词“足球”、“篮球”被访问的次数,并且比较哪个关键词被访问的次数多,以确定关键词排名,如,“足球”为1000、“篮球”为877,则足球第一、篮球第二。若关键词为三个或三个以上,则按照上述步骤统计出相应的被访问次数,并给出具体的排名。
如图6所示,本实施例提供的用户分布分析的流程示意图,进行移动端用户行为和偏好分析还包括,
S601、获得用户地址,将用户地址相同的聚集,并统计聚集的用户地址数目;
S602、通过对用户地址数目的比较,确定用户的地理分布情况。
具体的,以“省”为单位,如“江苏省”、“河北省”,把在江苏省的移动端用户聚集在“江苏省”的类别下,把在河北省的移动用户聚集在“河北省”的类别下,并通过统计用户访问表中IMSI出现的次数确定“江苏省”、“河北省”类别下的用户地址数目;并且比较哪个用户地址数目多,从而确定用户地理分布情况,如,“江苏省”为1000,“河北省”为100,则认为在设定时间内江苏省对该运营商提供的APP的使用情况远好于河北省。若参与统计的为国内主流的省份,则根据上述步骤进行排名,并在地图上表明具体数字,或者以颜色的深浅表示APP的受欢迎程度。
如图7所示,本发明实施例还提供的一种基于URL的移动互联网舆情监测系统,包括:
URL获取模块10,从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
处理模块20,建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
舆情监测模块30,根据用户行为和偏好的分析结果进行舆情监测。
在上述技术方案中,本发明还提供的一种基于URL的移动互联网舆情监测系统,包括:获取模块、处理模块、舆情监测模块,具备以下有益效果:
1)URL获取模块10,通过过滤获得有效URL,过滤无用的链接,让需要进行采集的链接量减小,使爬虫采集的压力大大减轻。
2)处理模块20,通过模拟移动端浏览器处理,获得移动端的浏览器环境,在该环境下,使网络爬虫能够对移动网络URL中的内容进行有效的采集。
3)舆情监测模块30,通过分析结果生成舆情简报,从而实现舆情监测。
在一些实施例中,如图8所示,移动互联网舆情监测系统包括信令系统、URL过滤、爬虫采集、处理分析以及舆情门户,
所述信令系统用于从信令系统中获取URL库;
所述URL过滤为对所述URL库中得到的URL进行过滤得到有效URL;
所述爬虫采集为模拟移动端的浏览器,并对所述URL进行爬虫采集;
所述处理分析为进行移动端用户行为和偏好分析;
所述舆情门户用于根据用户行为和偏好的分析结果进行舆情监测。
具体的,经过移动网络运营商的授权获得API接口,通过API接口从信令系统中获取URL库,通过URL库中记录的URI、HOST等信息拼接成URL(拼接),并通过URL过滤(验证、去噪、归并)将无用的URL全部过滤,得到有效URL。爬虫采集分为:代理IP,通过服务器对移动端型号进行分析;模拟浏览器,并创建一个符合该型号的浏览器运作环境;模拟登录,在该运作环境下,即可对有效URL进行网络爬虫;打码验证,对采集来的信息打上识别码,并且通过采集来的信息生成现URL库表、媒体类型表、用户访问表。编码识别,识别所述识别码;内容提取,提取上述采集来的信息;对该信息进行语义、行为分析,通过上述表格对行为偏好进行分析,得到用户的访问习惯和对URL对应内容的喜好程度。舆情门户,根据行为偏好分析的结果对舆情进行汇总、生成舆情简报,并且用户通过此模块进行舆情查询等。
本实施例具体的步骤如下:
通过信令系统获取URL库:采用专用系统准实时读取运营商的信令系统中的URL库,可以设置比如1分钟、5分钟更新读取一次;
拼接:对这些URL进行拼接。需要将原有信令系统中HOST字段和URI字段拼接成一个完整的URL,如果HOST字段为空,将采用服务器IP字段代替;
去噪:去除无意义URL,如后缀为jpg/gif/png等图片文件、js/css等页面,保留后缀为html/htm/asp/php/jsp/aspx/shtml/json/xml等页面或目录路径。
归并:将多个相同的URL进行归并,但是用户信息不归并。
验证:验证URL有效性。系统自动访问该URL,得到返回代码,如果是错误、无授权或禁止访问等信息,将自动将该URL注明为“无效”;
移动端浏览器模拟:模拟手机端浏览器。建立移动端IMSI和经过拼接、去噪、归并、验证步骤的URL的关联,并根据信令系统中的手机终端型号模拟该型号手机的浏览器;
对经过拼接、去噪、归并、验证这些步骤后的URL进行爬虫采集:爬虫采集该URL的内容。提取该URL对应的标题、正文、发布时间、媒体名称等主要信息;
对采集来的信息分析处理:对这些信息内容进行关键词匹配和聚类,同时结合手机ISMI信息和用户IP信息,分析出某一个关键词的访问热度和访问用户分布情况。
舆情门户:根据行为偏好分析的结果对舆情进行汇总、生成舆情简报,并且用户通过此模块进行舆情查询等。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。

Claims (10)

1.一种基于URL的移动互联网舆情监测方法,其特征在于,包括以下步骤:
从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
根据用户行为和偏好的分析结果进行舆情监测。
2.根据权利要求1所述的移动互联网舆情监测方法,其特征在于,所述过滤还包括,对URL进行拼接:
对HOST字段是否为空进行判断,
若HOST字段不为空,则将HOST和URI拼接形成所述URL;
若HOST字段为空,则将服务器IP和URI拼接形成所述URL。
3.根据权利要求1所述的移动互联网舆情监测方法,其特征在于,所述过滤具体为,
通过对URL对应的字段中的格式字段的分析,筛选符合格式要求的URL,得到选后URL;
将所述选后URL对应的字段进行对比,若一致,归并为一个,得到唯一URL;
对所述唯一URL进行访问,得出访问反馈,根据访问反馈判断其是否有效,得到有效URL;
并按照如下表结构在URL库中进行存放:
{URL id,URL,是否有效}。
4.根据权利要求1所述的移动互联网舆情监测方法,其特征在于,所述模拟移动端浏览器的操作包括以下步骤:
从所述URL库中获取移动端的型号;
根据所述移动端的型号模拟出相应的浏览器,生成移动端模拟环境。
5.根据权利要求4所述的移动互联网舆情监测方法,其特征在于,所述移动端的型号包括,Palm OS、Linux、Android、iPhoneOS、Black BerryOS6.0、Windows Phone7。
6.根据权利要求1所述的移动互联网舆情监测方法,其特征在于,进所述采集结果按照如下表结构在媒体数据库中进行存放:
{网站id,域名,应用大类,应用小类};
所述应用大类,用以划分移动网络运营商所属的领域;
所述应用小类,用以确定移动网络运营商APP应用程序的作用类型。
7.根据权利要求1所述的移动互联网舆情监测方法,其特征在于,所述采集结果按照如下表结构在用户访问行为数据库中进行存放:
{用户id,URL id,移动端IMSI,用户地址,移动端型号,访问时间,访问次数};
所述用户地址,用以确定所述移动端的用户的地理位置;
所述访问时间,用以确定所述移动端的用户对URL访问的时间段;
所述访问次数,用以确定所述移动端的用户对URL对应的内容的访问热度。
8.根据权利要求7所述的移动互联网舆情监测方法,其特征在于,根据采集结果进行移动端用户行为和偏好分析的方法具体为:
确定基准关键词,根据基准关键词搜索有效URL对应的内容中与其相同的字词,并分类至相应的基准关键词类别下;
通过对基准关键词被访问的次数的比较,确定最高热度的基准关键词,并生成基准关键词排名。
9.根据权利要求7所述的移动互联网舆情监测方法,其特征在于,根据采集结果进行移动端用户行为和偏好分析还包括,
获得用户地址,将用户地址相同的聚集,并统计聚集的用户地址数目;
通过对用户地址数目的比较,确定用户的地理分布情况。
10.一种基于URL的移动互联网舆情监测系统,其特征在于,包括:
URL获取模块,从移动网络运营商的信令系统中获取URL库,并对所述URL库中得到的URL进行过滤得到有效URL;
处理模块,建立移动端中IMSI与所述有效URL的关联,并模拟移动端浏览器的操作,根据所述有效URL进行爬虫采集,根据采集结果进行移动端用户行为和偏好分析;
舆情监测模块,根据用户行为和偏好的分析结果进行舆情监测。
CN201610607182.8A 2016-07-27 2016-07-27 一种基于url的移动互联网舆情监测方法及系统 Active CN106230809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610607182.8A CN106230809B (zh) 2016-07-27 2016-07-27 一种基于url的移动互联网舆情监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610607182.8A CN106230809B (zh) 2016-07-27 2016-07-27 一种基于url的移动互联网舆情监测方法及系统

Publications (2)

Publication Number Publication Date
CN106230809A true CN106230809A (zh) 2016-12-14
CN106230809B CN106230809B (zh) 2019-11-19

Family

ID=57533871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610607182.8A Active CN106230809B (zh) 2016-07-27 2016-07-27 一种基于url的移动互联网舆情监测方法及系统

Country Status (1)

Country Link
CN (1) CN106230809B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280094A (zh) * 2017-01-06 2018-07-13 广州泰尔智信科技有限公司 应用上、下线数据统计方法及装置
CN110190983A (zh) * 2019-04-18 2019-08-30 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110321472A (zh) * 2019-06-12 2019-10-11 中国电子科技集团公司第二十八研究所 基于智能问答技术的舆情监测系统
CN110460592A (zh) * 2019-07-26 2019-11-15 杭州吉讯汇通科技有限公司 Url分析方法、装置、设备及介质
CN111193714A (zh) * 2019-12-06 2020-05-22 武汉极意网络科技有限公司 一种验证码打码平台自动化追踪方法及系统
CN111314298A (zh) * 2020-01-16 2020-06-19 北京金堤科技有限公司 验证识别方法和装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102855248A (zh) * 2011-06-29 2013-01-02 中国移动通信集团广西有限公司 一种用户特征信息的确定方法、装置及系统
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN103218412A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN104794161A (zh) * 2015-03-24 2015-07-22 浪潮集团有限公司 对网络舆情监控的方法
US20160006766A1 (en) * 2014-07-07 2016-01-07 Wins Co., Ltd. Method and apparatus for providing analysis service based on behavior in mobile network environment
EP3018620A1 (en) * 2014-11-07 2016-05-11 Alcatel Lucent Characterising user behaviour

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143224A (zh) * 2011-01-25 2011-08-03 张金海 基于手机上网用户行为的分析方法和装置
CN102855248A (zh) * 2011-06-29 2013-01-02 中国移动通信集团广西有限公司 一种用户特征信息的确定方法、装置及系统
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN103218412A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 舆情信息处理方法与装置
US20160006766A1 (en) * 2014-07-07 2016-01-07 Wins Co., Ltd. Method and apparatus for providing analysis service based on behavior in mobile network environment
EP3018620A1 (en) * 2014-11-07 2016-05-11 Alcatel Lucent Characterising user behaviour
CN104462213A (zh) * 2014-12-05 2015-03-25 成都逸动无限网络科技有限公司 一种基于大数据的用户行为分析方法及系统
CN104537097A (zh) * 2015-01-09 2015-04-22 成都布林特信息技术有限公司 微博舆情监测系统
CN104794161A (zh) * 2015-03-24 2015-07-22 浪潮集团有限公司 对网络舆情监控的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280094A (zh) * 2017-01-06 2018-07-13 广州泰尔智信科技有限公司 应用上、下线数据统计方法及装置
CN110190983A (zh) * 2019-04-18 2019-08-30 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110190983B (zh) * 2019-04-18 2022-05-10 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110321472A (zh) * 2019-06-12 2019-10-11 中国电子科技集团公司第二十八研究所 基于智能问答技术的舆情监测系统
CN110460592A (zh) * 2019-07-26 2019-11-15 杭州吉讯汇通科技有限公司 Url分析方法、装置、设备及介质
CN111193714A (zh) * 2019-12-06 2020-05-22 武汉极意网络科技有限公司 一种验证码打码平台自动化追踪方法及系统
CN111314298A (zh) * 2020-01-16 2020-06-19 北京金堤科技有限公司 验证识别方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106230809B (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN106230809B (zh) 一种基于url的移动互联网舆情监测方法及系统
CN104091276B (zh) 在线分析点击流数据的方法和相关装置及系统
CA2769946C (en) A method and system for efficient and exhaustive url categorization
CN103686237B (zh) 推荐视频资源的方法及系统
CN105142028B (zh) 面向三网融合的电视节目内容搜索与推荐方法
CN1917463B (zh) 基于用户操作特征对用户信息关联的方法
CN109902216A (zh) 一种基于社交网络的数据采集与分析方法
US11816172B2 (en) Data processing method, server, and computer storage medium
CN103605738A (zh) 网页访问数据统计方法及装置
CN103218431A (zh) 一种能识别网页信息自动采集的系统与方法
CN108052586A (zh) 舆情分析方法、系统、计算机设备和存储介质
CN108876058B (zh) 一种基于微博的新闻事件影响力预测方法
CN103631828A (zh) 确定访问路径的方法和装置、确定页面流失率的方法和系统
CN104462376A (zh) 用于弹幕媒体的信息提供方法及装置
CN112104642A (zh) 一种异常账号确定方法和相关装置
CN104809252A (zh) 互联网数据提取系统
CN103559315A (zh) 资讯筛选推送方法及装置
CN106294601B (zh) 数据处理方法和装置
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN104834739A (zh) 互联网信息存储系统
CN110008402A (zh) 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法
CN104765823A (zh) 一种网站数据采集的方法及装置
CN106934049B (zh) 一种新闻选题分析方法及装置
CN104008213B (zh) 一种网页信息更新发现与统计的方法和装置
CN103595747A (zh) 用户信息推荐方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200108

Address after: 210012 room 07, South 12 / F, building D2, No. 32, Dazhou Road, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Nanjing Shaoshao Technology Co.,Ltd.

Address before: Central Road, Gulou District of Nanjing city in Jiangsu province 210000 258 xinliji No. -27 building room 1202

Patentee before: NANJING KUAIYE DIGITAL TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230209

Address after: Room 03, South 8th Floor, Building D2, No. 32, Dazhou Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210000

Patentee after: Fast Page Information Technology Co.,Ltd.

Address before: Room 07, South 12th Floor, Building D2, No. 32, Dazhou Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee before: Nanjing Shaoshao Technology Co.,Ltd.