CN105528351A - 一种移动终端获取互联网信息的内容去重方法及系统 - Google Patents
一种移动终端获取互联网信息的内容去重方法及系统 Download PDFInfo
- Publication number
- CN105528351A CN105528351A CN201410513646.XA CN201410513646A CN105528351A CN 105528351 A CN105528351 A CN 105528351A CN 201410513646 A CN201410513646 A CN 201410513646A CN 105528351 A CN105528351 A CN 105528351A
- Authority
- CN
- China
- Prior art keywords
- content
- information
- data message
- mobile terminal
- storehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种移动终端获取互联网信息的内容去重方法及系统,包括:在移动终端的网络链接接口处接收到数据信息,对数据信息进行解析并与该移动终端用户的已获取信息库中存储的内容进行对比,判断与已获取信息库中的内容是否重复,如果是,则进行拦截,如果否,则将数据信息的内容存储在已获取信息库中。本发明的去重方法及系统,进行网页提取和内容指纹识别,识别用户重复获取的流量内容,在移动终端侧完成对用户的即时提醒,在网络侧完成手/自动两种模式的重复信息数据包拦截,由此实现面向终端用户的跨应用、跨系统的重复获取信息内容的拦截,能够提升用户流量使用体验,增加流量信息效用值,减轻运营商网络链路带宽资源不必要的占用。
Description
技术领域
本发明涉及移动通信技术领域,尤其涉及一种移动终端获取互联网信息的内容去重方法及系统。
背景技术
移动互联网时代,人们对随时随地能连接网络的移动终端越来越青睐。人们借助于五花八门的各式终端上的应用软件,实现网络通信到休闲娱乐、再到资讯的获取。目前,用户使用各类移动应用浏览网络信息的流程如图1所示。但是,目前越来越严重的信息同质化现象,不仅浪费人们浏览信息的时间,也在一定程度上造成了用户上网流量的价值损耗。目前,随着非结构化数据分析识别技术(包括且不限于文本识别、声音识别、图像识别以及视频属性识别等),统称为内容指纹识别技术的日益成熟。很多终端应用都已经在自身应用内部增加同质化内容去重功能,来提升用户体验。但随着终端应用的日益增多,跨应用、跨系统的内容重复就突显为最影响用户体验的关键问题。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种移动终端获取互联网信息的内容去重方法,在网络侧完成重复信息数据的拦截。
一种移动终端获取互联网信息的内容去重方法,包括:在移动终端的网络链接接口处接收到发送到移动终端的数据信息,对所述数据信息进行解析并将所述数据信息的内容与该终端用户的已获取信息库中存储的内容进行对比;判断所述数据信息的内容与所述已获取信息库中的内容是否重复,如果是,则对所述数据信息进行拦截,如果否,则将所述数据信息的内容存储在所述已获取信息库中。
根据本发明的一个实施例,进一步的,当判断所述数据信息的内容与所述已获取信息库中的内容重复时,则向移动终端侧发送内容重复指令;根据所述内容重复指令弹起提醒用户重复获取信息的视窗。
根据本发明的一个实施例,进一步的,设定信息遗忘记周期;当判断所述数据信息与所述已获取信息库中的内容重复时,判断所述数据信息获取的间隔是否超过所述信息遗忘周期,如果否,则对所述数据信息进行拦截;如果是,则将所述数据信息的内容存储在所述已获取信息库中。
根据本发明的一个实施例,进一步的,设定拦截模式,所述拦截模式包括:手动、自动模式;当为自动模式时,根据所述内容重复指令弹起提醒用户重复获取信息的视窗,并且自动对所述数据信息进行拦截;当为手动模式时,根据所述内容重复指令弹起提醒用户重复获取信息的视窗并弹出拦截选择按钮,根据用户的选择决定是否对所述数据信息进行拦截和将所述数据信息的内容存储在所述已获取信息库中。
根据本发明的一个实施例,进一步的,对发送到移动终端的数据包进行检测并解析,从所述数据包中获取识别信息,所述识别信息包括:协议类型、URL链接地址;对所述URL链接地址对应的网络页面进行抓取,并从所述页面中提取关键内容信息,根据所述关键内容信息建立所述页面的内容指纹,所述关键内容信息包括:标题、文本、图像、音频、视频。
根据本发明的一个实施例,进一步的,将所述页面的内容指纹与所述已获取信息库中存储的页面内容指纹进行比对,判断所述数据信息是否重复;如果否,则将所述页面的内容指纹存储在所述已获取信息库中;如果是,则对所述数据信息进行拦截。
根据本发明的一个实施例,进一步的,对从所述页面中提取的标题和内容进行分词处理获得多个关键词,将多个关键词进行排序并用符号进行拼接,采用MD5算法对拼接后的字符串进行运算,获取的MD5值为所述网页的内容指纹。
本发明要解决的一个技术问题是提供一种移动终端获取互联网信息的内容去重系统,在网络侧完成重复信息数据的拦截。
一种移动终端获取互联网信息的内容去重系统,包括:内容探测与拦截模块,位于网络侧,用于在移动终端的网络链接接口处接收到发送到移动终端的数据信息,对所述数据信息进行解析并将所述数据信息的内容与该终端用户的已获取信息库中存储的内容进行对比;判断所述数据信息的内容与所述已获取信息库中的内容是否重复,如果是,则对所述数据信息进行拦截,如果否,则将所述数据信息的内容存储在所述已获取信息库中。
根据本发明的一个实施例,进一步的,重复内容拦截模块,位于移动终端中;当所述内容探测与拦截模块判断所述数据信息的内容与所述已获取信息库中的内容重复时,则向移动终端侧发送内容重复指令;所述重复内容拦截模块根据所述内容重复指令弹起提醒用户重复获取信息的视窗。
根据本发明的一个实施例,进一步的,所述重复内容拦截模块,还用于设定信息遗忘记周期;当所述内容探测与拦截模块判断所述数据信息与所述已获取信息库中的内容重复时,所述内容探测与拦截模块判断所述数据信息获取的间隔是否超过所述信息遗忘周期,如果否,则所述内容探测与拦截模块对所述数据信息进行拦截;如果是,则所述内容探测与拦截模块将所述数据信息的内容存储在所述已获取信息库中。
根据本发明的一个实施例,进一步的,所述重复内容拦截模,还用于设定拦截模式,所述拦截模式包括:手动、自动模式;当为自动模式时,所述重复内容拦截模块根据所述内容重复指令弹起提醒用户重复获取信息的视窗,并且所述内容探测与拦截模块自动对所述数据信息进行拦截;当为手动模式时,所述重复内容拦截模块根据所述内容重复指令弹起提醒用户重复获取信息的视窗并弹出拦截选择按钮,所述内容探测与拦截模块根据用户的选择决定是否对所述数据信息进行拦截和将所述数据信息的内容存储在所述已获取信息库中。
根据本发明的一个实施例,进一步的,所述内容探测与拦截模块,还用于对发送到移动终端的数据包进行检测并解析,从所述数据包中获取识别信息,所述识别信息包括:协议类型、URL链接地址;对所述URL链接地址对应的网络页面进行抓取,并从所述页面中提取关键内容信息,根据所述关键内容信息建立所述页面的内容指纹,所述关键内容信息包括:标题、文本、图像、音频、视频。
根据本发明的一个实施例,进一步的,所述内容探测与拦截模块,还用于将所述页面的内容指纹与所述已获取信息库中存储的页面内容指纹进行比对,判断所述数据信息是否重复;如果否,则将所述页面的内容指纹存储在所述已获取信息库中;如果是,则对所述数据信息进行拦截。
根据本发明的一个实施例,进一步的,所述内容探测与拦截模块,还用于对从所述页面中提取的标题和内容进行分词处理获得多个关键词,将多个关键词进行排序并用符号进行拼接,采用MD5算法对拼接后的字符串进行运算,获取的MD5值为所述网页的内容指纹。
本发明的移动终端获取互联网信息的内容去重方法及系统,进行网页提取和内容指纹识别,识别用户重复获取的流量内容,在移动终端完成对用户的即时提醒,在网络侧完成手/自动两种模式的重复信息数据包拦截,在网络侧完成这些跨应用、跨系统的重复获取信息内容的拦截,提升用户流量使用体验,增加流量信息效用值,减轻运营商网络链路带宽资源不必要的占用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的移动终端获取数据的示意图;
图2为根据本发明的移动终端获取互联网信息的内容去重方法的一个实施例的流程图;
图3为根据本发明的移动终端获取互联网信息的内容去重方法的另一个实施例的流程图;
图4为根据本发明的移动终端获取互联网信息的内容去重系统的一个实施例的示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。
图2为根据本发明的移动终端获取互联网信息的内容去重方法的一个实施例的流程图,如图2所示:
步骤201,在移动终端的网络链接接口处接收到发送到移动终端的数据信息,对数据信息进行解析并将数据信息的内容与已获取信息库中存储的内容进行对比。
步骤202,判断数据信息的内容与已获取信息库中的内容是否重复,如果是,则对数据信息进行拦截,如果否,则将数据信息的内容存储在已获取信息库中。
在一个实施例中,当判断数据信息的内容与该终端用户的已获取信息库中的内容重复时,则向移动终端侧发送内容重复指令,根据内容重复指令弹起提醒用户重复获取信息的视窗。
在一个实施例中,对数据包的解析可以通过成熟的数据包嗅探工具,将OSI参考模型中的由上至下七层依次解析获得数据包信息;或者是在运营商的数据里可以取到用户访问网络的对端地址信息,通过网页反爬,可以获取相关目标地址网页信息。
在一个实施例中,已获取信息库存储的是针对此终端用户(手机号码)的已获取信息,当用户使用其它终端但未换号时,可以将其它终端获取的数据信息的内容与此已获取信息库中存储的内容进行对比。
本发明的移动终端获取互联网信息的内容去重方法,通过网络流量的深度包检测,识别用户重复获取的流量内容,为用户推送“已获知流量内容”的提醒,并在网络侧完成这些跨应用、跨系统的重复获取信息内容的拦截,提升用户流量使用体验,增加流量信息效用值,减轻运营商网络链路带宽资源不必要的占用。
在一个实施例中,设定信息遗忘记周期,当判断数据信息与已获取信息库中的内容重复时,判断数据信息获取的间隔是否超过信息遗忘周期,如果否,则对数据信息进行拦截;如果是,则将数据信息的内容存储在已获取信息库中。
信息遗忘周期实际是指该用户内容去重的时间间隔,是由用户在客户端自主设定的。例如,如果某用户设定自己的已获取信息遗忘周期为三个月,那么,网络端去重装置内仅对该用户最近三个月的已获取资讯信息进行重复性识别并拦截,如果用户三个月之前曾获取过的信息,再获取时,将会认定该信息已被用户遗忘,视作非重复信息可以重复获取。
在一个实施例中,设定拦截模式,拦截模式包括:手动、自动模式。当为自动模式时,根据内容重复指令弹起提醒用户重复获取信息的视窗,并且自动对数据信息进行拦截。当为手动模式时,根据内容重复指令弹起提醒用户重复获取信息的视窗并弹出拦截选择按钮,根据用户的选择对数据信息进行拦截或将数据信息的内容存储在已获取信息库中。
在一个实施例中,对发送到移动终端的数据包进行检测并解析,从数据包中获取识别信息,识别信息包括:协议类型、URL链接地址。根据URL链接地址抓取与URL链接地址对应的页面,并从页面中提取关键内容信息,根据关键内容信息建立页面的内容指纹,关键内容信息包括:标题、文本、图像、音频、视频。
在一个实施例中,将页面的内容指纹与已获取信息库中存储的页面内容指纹进行比对,判断数据信息是否重复。如果否,则将页面的内容指纹存储在已获取信息库中。
在一个实施例中,内容指纹识别技术,可以采用多种技术方案,具体分以下几类:
文本型网页内容指纹识别:通过将网页文本经过分词处理,去除常用感叹词、副词及虚词等停用词,利用关键分词词频函数(如:TFIDF等算法)来表征网页文本特征向量,适当的高维特征向量还可以通过降维等方式作进一步计算处理。这样每个网页文本的内容存储形式为一组特征向量,相似/重复网页内容的识别,主要通过计算文本特征向量的相似度来实现。
声音文件的网页内容指纹识别:国外有专门的音乐识别服务提供商.比较出名的有gracenote和AmpliFind等。平时接触互联网类似的成熟应用也很多,比如说soundhound,也有相关的专利文档。可以跳过它们的声音采集转换流程,直接进入声音指纹比对。具体原理主要是依据声音波谱转换后的数据文件比对。
图像文件的网页内容指纹识别:google已有相应的图片搜索服务,类似技术完备。
在一个实施例中,对从页面中提取的标题和内容进行分词处理获得多个关键词,将多个关键词进行排序并用符号进行拼接,采用MD5算法对拼接后的字符串进行运算,获取的MD5值为网页的指纹。
图3为根据本发明的移动终端获取互联网信息的内容去重方法的另一个实施例的流程图,如图3所示:
步骤301,用户在移动终端侧运行“重复内容拦截应用”。
步骤302,用户通过应用设定“已获取信息”遗忘周期和重复内容拦截方式。
步骤303,网络侧的“内容探测与拦截模块”进行数据包抓取,并对数据包进行深度包检测和解析。
步骤304,对数据包的解析结果进行内容指纹识别。
步骤305,判断数据包内容是否与用户已获取信息出现内容重复,如是则转入步骤309,如否则转入步骤306。
步骤306,当数据包内容与用户已获取信息不重复时,更新用户“已获取信息库”。
步骤307,网络侧的“内容探测与拦截模块”放行数据包。
步骤308,用户终端接收数据包。
步骤309,当数据包内容与用户已获取信息重复时,则判断该重复内容获取间隔是否超过遗忘周期,如是则转回步骤306,如否则转入步骤310。
步骤310,当重复流量获取间隔未超过遗忘周期时,终端侧“重复内容拦截应用”触发向用户的提醒。
步骤311,判断用户是否设定自动拦截,如是转入步骤312,如否转入步骤313。
步骤312,当判断用户预设是自动拦截时,则网络侧“内容探测与拦截模块”拦截数据包。
步骤313,当判断用户预设不是自动拦截时,则由用户确认是否拦截该重复信息数据包,如是转回步骤312,如否转回步骤306。
在一个实施例中,用户的移动终端上运行“重复信息拦截应用”,网络侧“信息探测与拦截模块”得到数据包抓取识别授权,拦截应用可在终端后台运行,不影响用户其它终端应用上网。用户可以通过应用设定信息遗忘记周期,及网络侧“重复信息探测与拦截系统”对重复获取的信息数据包实现拦截的模式。
通过深度包检测技术,识别数据包关键信息,关键信息包括且不限于数据包出接口、协议类型、URL链接地址等。利用URL链接地址反爬,提取网页相关内容,内容包括且不限于文本、图像、音频及视频,并建立相应的流量内容指纹。
通过对上述数据包内容建立内容指纹,与用户已获取信息库中的信息进行内容指纹的重复性比对,识别重复获取的流量内容。重复内容获取的时间间隔限定在用户设定已获取信息的遗忘周期内。
利用终端侧的“重复信息拦截应用”通过弹窗方式完成对用户重复信息的即时提醒。如果用户预设为自动拦截重复信息数据包,则提醒的同时网络侧自动实现拦截。如果用户预设手动拦截重复信息,则弹窗内同时提供用户确认是否拦截该重复信息数据包的按钮。
如图4所示,本发明提供一种移动终端获取互联网信息的内容去重系统,包括:内容探测与拦截模块41和重复内容拦截模块42。内容探测与拦截模块41位于网络侧,在移动终端的网络链接接口处接收到发送到移动终端的数据信息,内容探测与拦截模块41对数据信息进行解析并将数据信息的内容与已获取信息库中存储的内容进行对比。判断数据信息的内容与已获取信息库中的内容是否重复,如果是,则内容探测与拦截模块41对数据信息进行拦截,如果否,则内容探测与拦截模块41将数据信息的内容存储在已获取信息库中。
重复内容拦截模块42位于移动终端中。当内容探测与拦截模块41判断数据信息的内容与已获取信息库中的内容重复时,则向移动终端侧发送内容重复指令。重复内容拦截模块42根据内容重复指令弹起提醒用户重复获取信息的视窗。
在一个实施例中,重复内容拦截模块42设定信息遗忘记周期。当内容探测与拦截模块41判断数据信息与已获取信息库中的内容重复时,内容探测与拦截模块41判断数据信息获取的间隔是否超过信息遗忘周期,如果否,则内容探测与拦截模块41对数据信息进行拦截;如果是,则内容探测与拦截模块41将数据信息的内容存储在已获取信息库中。
在一个实施例中,重复内容拦截模42设定拦截模式,拦截模式包括:手动、自动模式。当为自动模式时,重复内容拦截模块42根据内容重复指令弹起提醒用户重复获取信息的视窗,并且内容探测与拦截模块41自动对数据信息进行拦截。当为手动模式时,重复内容拦截模块42根据内容重复指令弹起提醒用户重复获取信息的视窗并弹出拦截选择按钮,内容探测与拦截模块41根据用户的选择对数据信息进行拦截或将数据信息的内容存储在已获取信息库中。
在一个实施例中,内容探测与拦截模块41在终端的网络链路入接口处,完成数据包内容解析,对用户重复获取内容的数据包进行识别与标记,完成重复内容数据包的拦截。重复内容拦截模块42在移动终端后台运行,通过该模块预设已获取信息遗忘周期、手/自动拦截模式。当用户上网浏览,信息内容发生重复时,在终端界面作弹窗式“已获取内容”提醒。
在一个实施例中,内容探测与拦截模块41对发送到移动终端的数据包进行检测并解析,从数据包中获取识别信息,识别信息包括:协议类型、URL链接地址。根据URL链接地址抓取与URL链接地址对应的页面,并从页面中提取关键内容信息,根据关键内容信息建立页面的内容指纹,关键内容信息包括:标题、文本、图像、音频、视频。
在一个实施例中,内容探测与拦截模块41将页面的内容指纹与已获取信息库中存储的页面内容指纹进行比对,判断数据信息是否重复。如果否,则将页面的内容指纹存储在已获取信息库中。
在一个实施例中,内容探测与拦截模块41对从页面中提取的标题和内容进行分词处理获得多个关键词,将多个关键词进行排序并用符号进行拼接,采用MD5算法对拼接后的字符串进行运算,获取的MD5值为网页的内容指纹。
上述实施例提供的移动终端获取互联网信息的内容去重及系统,在网络链路的入接口处接收流量数据包,通过深度包检测,解析数据包关键信息;利用URL地址等数据包解析结果,进行网页提取和内容指纹识别,记录形成每个用户的“已接收信息库”;用户上网产生的流量,将与上述“已接收信息库”进行内容重复性比对。当识别出内容重复的数据包时,在移动终端完成对用户的即时提醒,在网络侧完成手/自动两种模式的重复信息数据包拦截,在网络侧完成这些跨应用、跨系统的重复获取信息内容的拦截,提升用户流量使用体验,增加流量信息效用值,减轻运营商网络链路带宽资源不必要的占用。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (14)
1.一种移动终端获取互联网信息的内容去重方法,其特征在于,包括:
在移动终端的网络链接接口处接收到发送到移动终端的数据信息,对所述数据信息进行解析并将所述数据信息的内容与该终端用户的已获取信息库中存储的内容进行对比;
判断所述数据信息的内容与所述已获取信息库中的内容是否重复,如果是,则对所述数据信息进行拦截,如果否,则将所述数据信息的内容存储在所述已获取信息库中。
2.如权利要求1所述的方法,其特征在于:
当判断所述数据信息的内容与所述已获取信息库中的内容重复时,则向移动终端侧发送内容重复指令;
根据所述内容重复指令弹起提醒用户重复获取信息的视窗。
3.如权利要求2所述的方法,其特征在于:
设定信息遗忘记周期;
当判断所述数据信息与所述已获取信息库中的内容重复时,判断所述数据信息获取的间隔是否超过所述信息遗忘周期,如果否,则对所述数据信息进行拦截;如果是,则将所述数据信息的内容存储在所述已获取信息库中。
4.如权利要求2或3所述的方法,其特征在于:
设定拦截模式,所述拦截模式包括:手动、自动模式;
当为自动模式时,根据所述内容重复指令弹起提醒用户重复获取信息的视窗,并且自动对所述数据信息进行拦截;
当为手动模式时,根据所述内容重复指令弹起提醒用户重复获取信息的视窗并弹出拦截选择按钮,根据用户的选择决定是否对所述数据信息进行拦截和将所述数据信息的内容存储在所述已获取信息库中。
5.如权利要求1所述的方法,其特征在于:
对发送到移动终端的数据包进行检测并解析,从所述数据包中获取识别信息,所述识别信息包括:协议类型、URL链接地址;
对所述URL链接地址对应的网络页面进行抓取,并从所述页面中提取关键内容信息,根据所述关键内容信息建立所述页面的内容指纹,所述关键内容信息包括:标题、文本、图像、音频、视频。
6.如权利要求5所述的方法,其特征在于:
将所述页面的内容指纹与所述已获取信息库中存储的页面内容指纹进行比对,判断所述数据信息是否重复;如果否,则将所述页面的内容指纹存储在所述已获取信息库中;如果是,则对所述数据信息进行拦截。
7.如权利要求5或6所述的方法,其特征在于:
对从所述页面中提取的标题和内容进行分词处理获得多个关键词,将多个关键词进行排序并用符号进行拼接,采用MD5算法对拼接后的字符串进行运算,获取的MD5值为所述网页的内容指纹。
8.一种移动终端获取互联网信息的内容去重系统,其特征在于,包括:
内容探测与拦截模块,位于网络侧,用于在移动终端的网络链接接口处接收到发送到移动终端的数据信息,对所述数据信息进行解析并将所述数据信息的内容与该终端用户的已获取信息库中存储的内容进行对比;判断所述数据信息的内容与所述已获取信息库中的内容是否重复,如果是,则对所述数据信息进行拦截,如果否,则将所述数据信息的内容存储在所述已获取信息库中。
9.如权利要求8所述的系统,其特征在于,还包括:
重复内容拦截模块,位于移动终端中;
当所述内容探测与拦截模块判断所述数据信息的内容与所述已获取信息库中的内容重复时,则向移动终端侧发送内容重复指令;
所述重复内容拦截模块根据所述内容重复指令弹起提醒用户重复获取信息的视窗。
10.如权利要求9所述的系统,其特征在于:
所述重复内容拦截模块,还用于设定信息遗忘记周期;
当所述内容探测与拦截模块判断所述数据信息与所述已获取信息库中的内容重复时,所述内容探测与拦截模块判断所述数据信息获取的间隔是否超过所述信息遗忘周期,如果否,则所述内容探测与拦截模块对所述数据信息进行拦截;如果是,则所述内容探测与拦截模块将所述数据信息的内容存储在所述已获取信息库中。
11.如权利要求9或10所述的系统,其特征在于:
所述重复内容拦截模,还用于设定拦截模式,所述拦截模式包括:手动、自动模式;
当为自动模式时,所述重复内容拦截模块根据所述内容重复指令弹起提醒用户重复获取信息的视窗,并且所述内容探测与拦截模块自动对所述数据信息进行拦截;
当为手动模式时,所述重复内容拦截模块根据所述内容重复指令弹起提醒用户重复获取信息的视窗并弹出拦截选择按钮,所述内容探测与拦截模块根据用户的选择决定是否对所述数据信息进行拦截和将所述数据信息的内容存储在所述已获取信息库中。
12.如权利要求8所述的系统,其特征在于:
所述内容探测与拦截模块,还用于对发送到移动终端的数据包进行检测并解析,从所述数据包中获取识别信息,所述识别信息包括:协议类型、URL链接地址;对所述URL链接地址对应的网络页面进行抓取,并从所述页面中提取关键内容信息,根据所述关键内容信息建立所述页面的内容指纹,所述关键内容信息包括:标题、文本、图像、音频、视频。
13.如权利要求12所述的系统,其特征在于:
所述内容探测与拦截模块,还用于将所述页面的内容指纹与所述已获取信息库中存储的页面内容指纹进行比对,判断所述数据信息是否重复;如果否,则将所述页面的内容指纹存储在所述已获取信息库中;如果是,则对所述数据信息进行拦截。
14.如权利要求13所述的系统,其特征在于:
所述内容探测与拦截模块,还用于对从所述页面中提取的标题和内容进行分词处理获得多个关键词,将多个关键词进行排序并用符号进行拼接,采用MD5算法对拼接后的字符串进行运算,获取的MD5值为所述网页的内容指纹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410513646.XA CN105528351A (zh) | 2014-09-29 | 2014-09-29 | 一种移动终端获取互联网信息的内容去重方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410513646.XA CN105528351A (zh) | 2014-09-29 | 2014-09-29 | 一种移动终端获取互联网信息的内容去重方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105528351A true CN105528351A (zh) | 2016-04-27 |
Family
ID=55770583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410513646.XA Pending CN105528351A (zh) | 2014-09-29 | 2014-09-29 | 一种移动终端获取互联网信息的内容去重方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105528351A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666525A (zh) * | 2020-06-17 | 2020-09-15 | 北京航天时代光电科技有限公司 | 一种信息拦截系统及方法 |
CN112084448A (zh) * | 2020-08-31 | 2020-12-15 | 北京金堤征信服务有限公司 | 相似信息处理方法以及装置 |
CN112990465A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学知识萃取方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938789A (zh) * | 2012-11-19 | 2013-02-20 | 江苏省公用信息有限公司 | 一种移动互联网手机应用下载组合分析方法和装置 |
CN103778163A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种基于指纹的网页快速去重算法 |
CN103902703A (zh) * | 2014-03-31 | 2014-07-02 | 辽宁四维科技发展有限公司 | 基于移动互联网访问的文本内容分类方法 |
CN103905436A (zh) * | 2014-03-14 | 2014-07-02 | 汉柏科技有限公司 | 一种防护app个人隐私收集的方法及装置 |
CN104065532A (zh) * | 2014-06-26 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种基于多路数据接入方式的未备案网站探寻方法及系统 |
-
2014
- 2014-09-29 CN CN201410513646.XA patent/CN105528351A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778163A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种基于指纹的网页快速去重算法 |
CN102938789A (zh) * | 2012-11-19 | 2013-02-20 | 江苏省公用信息有限公司 | 一种移动互联网手机应用下载组合分析方法和装置 |
CN103905436A (zh) * | 2014-03-14 | 2014-07-02 | 汉柏科技有限公司 | 一种防护app个人隐私收集的方法及装置 |
CN103902703A (zh) * | 2014-03-31 | 2014-07-02 | 辽宁四维科技发展有限公司 | 基于移动互联网访问的文本内容分类方法 |
CN104065532A (zh) * | 2014-06-26 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种基于多路数据接入方式的未备案网站探寻方法及系统 |
Non-Patent Citations (1)
Title |
---|
才书训、王雷震主编: "《网络商务信息的管理》", 30 September 2004 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666525A (zh) * | 2020-06-17 | 2020-09-15 | 北京航天时代光电科技有限公司 | 一种信息拦截系统及方法 |
CN111666525B (zh) * | 2020-06-17 | 2023-09-29 | 北京航天时代光电科技有限公司 | 一种信息拦截系统及方法 |
CN112084448A (zh) * | 2020-08-31 | 2020-12-15 | 北京金堤征信服务有限公司 | 相似信息处理方法以及装置 |
CN112084448B (zh) * | 2020-08-31 | 2024-05-07 | 北京金堤征信服务有限公司 | 相似信息处理方法以及装置 |
CN112990465A (zh) * | 2021-03-17 | 2021-06-18 | 平安科技(深圳)有限公司 | 佛学知识萃取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485507B (zh) | 一种软件推广作弊的检测方法、装置及系统 | |
CN104408102B (zh) | 用于网络热词与对象的关联度的数据处理方法和装置 | |
CN105530265B (zh) | 一种基于频繁项集描述的移动互联网恶意应用检测方法 | |
CN103401845B (zh) | 一种网址安全性的检测方法、装置 | |
CN106357416A (zh) | 一种群信息推荐方法、装置及终端 | |
CN105577528B (zh) | 一种基于虚拟机的微信公众号数据采集方法及装置 | |
CN106372202B (zh) | 文本相似度计算方法及装置 | |
CN111740923A (zh) | 应用识别规则的生成方法、装置、电子设备和存储介质 | |
CN109271793A (zh) | 物联网云平台设备类别识别方法及系统 | |
WO2017101652A1 (zh) | 网站页面间访问路径的确定方法及装置 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN109492118A (zh) | 一种数据检测方法及检测装置 | |
CN109412832B (zh) | 用户服务提供方法及系统 | |
CN105528351A (zh) | 一种移动终端获取互联网信息的内容去重方法及系统 | |
CN103020208B (zh) | 一种与移动终端相适应的搜索方法及装置 | |
CN107666404A (zh) | 宽带网络用户识别方法和装置 | |
CN110008419A (zh) | 网页去重方法、装置及设备 | |
CN107885449B (zh) | 一种拍照搜索方法、装置、终端设备和存储介质 | |
CN107862016B (zh) | 一种专题页面的配置方法 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
CN110830416A (zh) | 网络入侵检测方法和装置 | |
CN106844553B (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
CN105848155B (zh) | 一种终端非法刷机识别方法及装置 | |
CN108804559B (zh) | 一种移动应用内容获取方法及装置 | |
CN105099996B (zh) | 网站验证方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160427 |
|
RJ01 | Rejection of invention patent application after publication |