CN111209459A - 信息处理方法、装置、电子设备及存储介质 - Google Patents

信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111209459A
CN111209459A CN201911373456.1A CN201911373456A CN111209459A CN 111209459 A CN111209459 A CN 111209459A CN 201911373456 A CN201911373456 A CN 201911373456A CN 111209459 A CN111209459 A CN 111209459A
Authority
CN
China
Prior art keywords
website
crawling
information
characteristic information
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911373456.1A
Other languages
English (en)
Inventor
侯姗姗
秦俊锋
杨梦茹
张云蕾
周一枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911373456.1A priority Critical patent/CN111209459A/zh
Publication of CN111209459A publication Critical patent/CN111209459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例涉及网页技术领域,公开了一种信息处理方法,包括:获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。本发明还提出一种信息处理装置、电子设备以及一种计算机可读存储介质。本发明提供的信息处理方法、信息处理装置、电子设备以及计算机可读存储介质可以快速检测到网页中存在的特征信息,提高网页特征信息检测结果的可靠性。

Description

信息处理方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及网页技术领域,特别涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,网页的数量呈现爆发式增长,网页内的信息也越来越丰富。目前很多网页都添加了合作伙伴等第三方的站点链接,发明人发现,这些站点链接上的信息存在不可控性,当用户访问网页时若跳转至存在非法信息的站点,将极大的降低用户体验,甚至可能带来用户信息的泄露。但目前,通常通过人工审核的方式对网页及网页添加的第三方的站点链接是否存在不恰当的信息进行审核,由于通常第三方的站点链接会跟随热点更改,因此,通常需要在短时间内对大量信息进行审核,这种人工审核的方式效率不高,并且由于效率不高也会带来审核结果误差率高的问题,从而导致对网页内容检测结果的可靠性不高。
发明内容
本发明实施方式的目的在于提供一种信息处理方法、装置、电子设备及计算机可读存储介质,可以快速检测到网页中存在的特征信息,提高网页特征信息检测结果的可靠性。
为解决上述技术问题,本发明的实施方式提供了一种信息处理方法,所述方法包括:获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
本发明的实施方式还提供了一种信息处理装置,所述装置包括:获取模块,用于获取待检测网址以及获取所述待检测网址的链接网址;爬虫模块,用于爬取所述待检测网址和所述链接网址,得到爬虫结果;识别模块,用于识别所述爬虫结果中是否存在特征信息;保存模块,用于若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
本发明的实施方式还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的信息处理方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述信息处理。
本发明实施方式相对于现有技术而言,其获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。通过爬取待检测网址,从而能够快速全面的获取到待检测网址和链接网址的信息并识别是否存在特征信息,提高了检测网页中是否存在特征信息的效率和准确率,降低了错误率,提高了网页特征信息检测结果的可靠性,并且,本发明将准确的识别结果保存到不可被篡改的区块链中,进一步提高了网页特征信息检测结果的可靠性。
进一步地,本发明通过递归爬取待检测网址的方式,可以尽可能多的获取到链接网址,从而能够更加全面的获取到点击待检测网址之后的可能浏览到的页面信息,可以更全面的识别到特征信息是否存在,有利于提高检测的准确率。
优选地,所述获取所述待检测网址的链接网址包括:递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。
优选地,所述爬虫结果包含多条爬取记录,每条爬取记录包含爬取内容,所述识别所述爬虫结果中是否存在特征信息包括:通过爬取内容判断所述多条爬取记录中是否存在与预设特征信息匹配策略相匹配的目标爬取记录;若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,确定所述目标爬取记录中存在特征信息。
优选地,所述将所述爬虫结果中的特征信息保存至区块链中包括:将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;将所述特征信息识别记录保存在区块链的区块体中。
优选地,所述方法还包括:获取所述区块体对应的交易号,通过所述交易号回溯查找所述特征信息识别记录。
优选地,所述将所述爬虫结果中的特征信息保存至区块链中包括:将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;将所述所述特征信息识别记录保存在区块链的区块体中。
优选地,所述特征信息为敏感信息。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明第一实施例提供的信息处理方法的流程示意图;
图2为本发明第二实施例提供的信息处理装置的结构示意图;
图3为本发明第三实施例提供的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种信息处理方法。下面对本实施方式的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
请参见图1,图1为第一实施例提供的信息处理方法的流程示意图。本实施例中信息处理方法包括:
S1,获取待检测网址以及获取所述待检测网址的链接网址。
本实施例中,所述待检测网址是要进行检测的网站的地址,待检测网址的链接地址是指点击待检测网址中的内容之后跳转进入的网址。
一种可选实施例中,所述待检测网址和链接网址可以从与第三方的交互邮件中获取。
另一种可选实施例中,所述待检测网址和链接网址保存在文本文件中,则可以直接从文本文件中获取待检测网址以及链接网址。
另一可选实施例中,所述待检测网址和链接网址保存在表格文件中,如保存在excel中,则可以直接从表格文件中获取待检测网址以及链接网址。
又一种可选实施例中,所述待检测网址和链接网址可以先后获取,具体的,获取所述待检测网址的链接网址包括:递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。
具体的,递归爬取所述待检测网址,得到所述待检测链接网址的链接网址包括:扫描所述待检测网址的网页内容,获取所述网页内容中包含的网页链接标识符,获取所述网页链接标识符标识的网址为第一链接网址,以及获取第一链接网址中链接的第二链接网址,获取第二链接网址中链接的第三链接网址,以此类推。在具体实施时,可以获取存在的所有链接网址,也可以用户对待检测网站的历史点击深度确定递归的次数,其中,历史点击深度可以根据预设埋点的方法获取。
本实施例中,所述链接标识符包括但不限于www,https,http。
本实施例中,当将待检测网址保存在文本文件或表格文件中时,将通过待检测网址获取到链接网址之后,将链接网址也写入该文本文件或该表格文件中。
S2,爬取所述待检测网址和所述链接网址,得到爬虫结果。
在本实施例中,通过爬虫技术爬取待检测网址和链接网址以获取待检测网址和链接网址对应的网页内容。
具体的,获取到的爬虫结果可以包括待检测网址和链接网址中的文本内容、图片内容、动画内容等信息。
本发明一实施例中,将爬取到的爬虫结果保存在文本文件中,例如,保存在txt文档中。
在本发明一实施例中,爬虫结果可以包括多条爬虫记录。
进一步的,每条爬虫记录中可以包括爬取网址和爬取内容。
例如,爬取到的为文本内容时,爬虫记录中保存:“http://xxxx.com.cn|文本内容”,其中,通过管道符“|”区分爬取网址和爬取内容)
S3,识别所述爬虫结果中是否存在特征信息。
在本发明一实施例中,所述特征信息为敏感信息。
进一步的,所述敏感信息包括但不限于:暴力恐怖信息、政治敏感信息、低俗信息、色情信息、恶意推广信息、虚假广告信息。
在本发明一实施例中,对于文本内容可以通过特征词匹配的方式识别是否存在特征信息;对于图片内容可以通过特征向量匹配的方式识别是否存在特征信息;对于视频动画,可以获取视频动画中的一帧帧图像,进而通过将图像与特征向量匹配来确定是否存在特征信息。
在本发明另一实施例中,可以调用第三方敏感信息检测工具的功能接口,将爬虫结果传输给第三方敏感信息检测工具,并获取敏感信息检测工具的检测结果。
进一步的,在本发明另一实施例中,所述识别所述爬虫结果中是否存在特征信息包括:
通过爬取内容判断所述多条爬取记录中是否存在与预设特征信息匹配策略相匹配的目标爬取记录;
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,确定所述目标爬取记录中存在特征信息。
在本实施例中,所述预设特征信息匹配策略可以是用于检测是否存在特征信息的正则表达式,或者是多个关键词匹配等。
本实施例中,预设特征信息匹配策略的数量可以为一个或多个。
在本实施例中,当任意一条爬取记录存在与预设特征信息匹配策略之中的任意一个预设特征信息匹配策略相匹配时,即确定该爬取记录中含有特征信息,可以将该条爬取记录对应的爬取网址发送给监控人,以使监控人快速了解并及时处理。
当任意一条爬取记录与预设特征信息匹配策略之中的任意一个预设特征信息匹配策略都不匹配时,确定该爬取记录中不含有特征信息,确定该条爬取记录通过检测。
例如,预设特征信息匹配策略包括恶意推广关键词、虚假广告关键词、暴力恐怖关键词,将每条爬取记录的爬取内容分别与恶意推广关键词、虚假广告关键词、暴力恐怖关键词进行匹配,以确定每条爬取记录中是否存在恶意推广信息、虚假广告信息、暴力恐怖信息中的至少一项,当任意一条爬取内容存在恶意推广信息、虚假广告信息、暴力恐怖信息中的至少一项时,确定该目标爬取记录中含有敏感信息。
S4,若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
在本实施例中,爬虫结果中是属于爬虫结果中属于特征信息的内容,即区块链中保存的是爬虫结果中属于特征信息的内容。例如,爬虫结果中存在某一恶意推广信息时,保存爬虫结果中具体的恶意推广信息的内容。
在本实施例中,区块链是一个链式存储结构,区块就是该链式存储结构中的数据元素。区块链是一种去中心化的存储技术,具有不可篡改的特点,因此在本实施例中,通过区块链存储可以防止结果被篡改,结果的可靠性高。
进一步的,在本发明另一实施例中,所述将所述爬虫结果中的特征信息保存至区块链中包括:
将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;
将所述特征信息识别记录保存在区块链的区块体中。
本实施例中,爬取信息可以包括但不限于爬取时间戳、爬取网址、爬取到的属于特征信息的内容之中的一项或多项。
在本实施例中,将爬取信息和预设特征信息匹配策略进行内容拼接并保存在区块体中,是指在区块提中分别保存爬取信息和预设特征信息匹配策略,且此时保存的预设特征信息匹配策略是至少一个预设特征信息匹配策略之中检测到爬取记录中存在特征信息的匹配策略。
例如,在区块链的区块体中保存以下信息:
Figure BDA0002340302220000051
Figure BDA0002340302220000061
进一步的,所述爬取记录还包含爬取网址,所述爬取网址保存在表格文件中,所述将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接包括:
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,将所述预设特征信息匹配策略回写至所述表格文件中爬取网址的相应位置;
将所述表格文件中所有写有所述预设特征信息匹配策略的爬取网址对应的爬取信息和/或所述预设特征信息匹配策略进行内容拼接。
例如,表格文件中某一条爬取记录的爬取网址存在恶意推广,则在该条爬取网址之后写会用于恶意推广信息的预设特征信息匹配策略。
本实施例中,将检测到存在特征信息的预设特征信息匹配策略回写只表格文件中,从而从表格文件中可以快速批量的获取到存在特征信息的爬取内容,有利于快速批量保存信息。
进一步的,在本发明另一实施例中,所述方法还包括:
获取所述区块体对应的交易号,通过所述交易号回溯查找所述特征信息识别记录。
在本实施例中,每个区块体存在唯一对应的交易号,通过该交易号可以进行回溯查找,从而能够通过交易号的查找对检测结果的进行验证。
在本发明另一实施例中,所述方法还包括,显示回溯查找到的所述特征信息识别记录。
进一步的,在本发明另一实施例中,显示特征信息识别记录时还可以一并显示交易号。
通过本实施例,用户(如监控人)可以清楚直观的了解到在什么时间什么网址中存在怎样的特征信息。
本发明实施例中,获取待检测网址以及获取所述待检测网址的链接网址;爬取所述待检测网址和所述链接网址,得到爬虫结果;识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。通过爬取待检测网址,从而能够快速全面的获取到待检测网址和链接网址的信息并识别是否存在特征信息,提高了检测网页中是否存在特征信息的效率和准确率,降低了错误率,提高了网页特征信息检测结果的可靠性,并且,本发明将准确的识别结果保存到不可被篡改的区块链中,进一步提高了网页特征信息检测结果的可靠性。
进一步地,本发明通过递归爬取待检测网址的方式,可以尽可能多的获取到链接网址,从而能够更加全面的获取到点击待检测网址之后的可能浏览到的页面信息,可以更全面的识别到特征信息是否存在,有利于提高检测的准确率。
请参考图2,图2本发明第二实施例提供的信息处理装置的结构示意图。本实施方式中的信息处理装置包括:
获取模块210,用于获取待检测网址以及获取所述待检测网址的链接网址。
本实施例中,所述待检测网址是要进行检测的网站的地址,待检测网址的链接地址是指点击待检测网址中的内容之后跳转进入的网址。
一种可选实施例中,所述待检测网址和链接网址可以从与第三方的交互邮件中获取。
另一种可选实施例中,所述待检测网址和链接网址保存在文本文件中,则可以直接从文本文件中获取待检测网址以及链接网址。
另一可选实施例中,所述待检测网址和链接网址保存在表格文件中,如保存在excel中,则可以直接从表格文件中获取待检测网址以及链接网址。
又一种可选实施例中,所述待检测网址和链接网址可以先后获取,具体的,获取模块210获取所述待检测网址的链接网址包括:递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。
具体的,递归爬取所述待检测网址,得到所述待检测链接网址的链接网址包括:扫描所述待检测网址的网页内容,获取所述网页内容中包含的网页链接标识符,获取所述网页链接标识符标识的网址为第一链接网址,以及获取第一链接网址中链接的第二链接网址,获取第二链接网址中链接的第三链接网址,以此类推。在具体实施时,可以获取存在的所有链接网址,也可以用户对待检测网站的历史点击深度确定递归的次数,其中,历史点击深度可以根据预设埋点的方法获取。
本实施例中,所述链接标识符包括但不限于www,https,http。
本实施例中,当将待检测网址保存在文本文件或表格文件中时,将通过待检测网址获取到链接网址之后,将链接网址也写入该文本文件或该表格文件中。
爬虫模块220,用于爬取所述待检测网址和所述链接网址,得到爬虫结果。
在本实施例中,通过爬虫技术爬取待检测网址和链接网址以获取待检测网址和链接网址对应的网页内容。
具体的,获取到的爬虫结果可以包括待检测网址和链接网址中的文本内容、图片内容、动画内容等信息。
本发明一实施例中,将爬取到的爬虫结果保存在文本文件中,例如,保存在txt文档中。
在本发明一实施例中,爬虫结果可以包括多条爬虫记录。
进一步的,每条爬虫记录中可以包括爬取网址和爬取内容。
例如,爬取到的为文本内容时,爬虫记录中保存:“http://xxxx.com.cn|文本内容”,其中,通过管道符“|”区分爬取网址和爬取内容)
识别模块230,用于识别所述爬虫结果中是否存在特征信息。
在本发明一实施例中,所述特征信息为敏感信息。
进一步的,所述敏感信息包括但不限于:暴力恐怖信息、政治敏感信息、低俗信息、色情信息、恶意推广信息、虚假广告信息。
在本发明一实施例中,对于文本内容可以通过特征词匹配的方式识别是否存在特征信息;对于图片内容可以通过特征向量匹配的方式识别是否存在特征信息;对于视频动画,可以获取视频动画中的一帧帧图像,进而通过将图像与特征向量匹配来确定是否存在特征信息。
在本发明另一实施例中,可以调用第三方敏感信息检测工具的功能接口,将爬虫结果传输给第三方敏感信息检测工具,并获取敏感信息检测工具的检测结果。
进一步的,在本发明另一实施例中,所述识别模块230具体用于:
通过爬取内容判断所述多条爬取记录中是否存在与预设特征信息匹配策略相匹配的目标爬取记录;
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,确定与所述目标爬取记录中存在特征信息。
在本实施例中,所述预设特征信息匹配策略可以是用于检测是否存在特征信息的正则表达式,或者是多个关键词匹配等。
本实施例中,预设特征信息匹配策略的数量可以为一个或多个。
在本实施例中,当任意一条爬取记录存在与预设特征信息匹配策略之中的任意一个预设特征信息匹配策略相匹配时,即确定该爬取记录中含有特征信息,可以将该条爬取记录对应的爬取网址发送给监控人,以使监控人快速了解并及时处理。
当任意一条爬取记录与预设特征信息匹配策略之中的任意一个预设特征信息匹配策略都不匹配时,确定该爬取记录中不含有特征信息,确定该条爬取记录通过检测。
例如,预设特征信息匹配策略包括恶意推广关键词、虚假广告关键词、暴力恐怖关键词,将每条爬取记录的爬取内容分别与恶意推广关键词、虚假广告关键词、暴力恐怖关键词进行匹配,以确定每条爬取记录中是否存在恶意推广信息、虚假广告信息、暴力恐怖信息中的至少一项,当任意一条爬取内容存在恶意推广信息、虚假广告信息、暴力恐怖信息中的至少一项时,确定该目标爬取记录中含有敏感信息。
保存模块240,用于若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
在本实施例中,爬虫结果中是属于爬虫结果中属于特征信息的内容,即区块链中保存的是爬虫结果中属于特征信息的内容。例如,爬虫结果中存在某一恶意推广信息时,保存爬虫结果中具体的恶意推广信息的内容。
在本实施例中,区块链是一个链式存储结构,区块就是该链式存储结构中的数据元素。区块链是一种去中心化的存储技术,具有不可篡改的特点,因此在本实施例中,通过区块链存储可以防止结果被篡改,结果的可靠性高。
进一步的,在本发明另一实施例中,所述保存模块240包括:
信息拼接单元,用于将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;
保存单元,用于将所述特征信息识别记录保存在区块链的区块体中。
本实施例中,爬取信息可以包括但不限于爬取时间戳、爬取网址、爬取到的属于特征信息的内容之中的一项或多项。
在本实施例中,将爬取信息和预设特征信息匹配策略进行内容拼接并保存在区块体中,是指在区块提中分别保存爬取信息和预设特征信息匹配策略,且此时保存的预设特征信息匹配策略是至少一个预设特征信息匹配策略之中检测到爬取记录中存在特征信息的匹配策略。
例如,在区块链的区块体中保存以下信息:
Figure BDA0002340302220000091
进一步的,所述爬取记录还包含爬取网址,所述爬取网址保存在表格文件中,所述信息拼接单元具体用于:
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,将所述预设特征信息匹配策略回写至所述表格文件中爬取网址的相应位置;
将所述表格文件中所有写有所述预设特征信息匹配策略的爬取网址对应的爬取信息和/或所述预设特征信息匹配策略进行内容拼接。
例如,表格文件中某一条爬取记录的爬取网址存在恶意推广,则在该条爬取网址之后写会用于恶意推广信息的预设特征信息匹配策略。
本实施例中,将检测到存在特征信息的预设特征信息匹配策略回写只表格文件中,从而从表格文件中可以快速批量的获取到存在特征信息的爬取内容,有利于快速批量保存信息。
进一步的,在本发明另一实施例中,所述装置还包括:
查找模块,用于获取所述区块体对应的交易号,通过所述交易号回溯查找所述特征信息识别记录。
在本实施例中,每个区块体存在唯一对应的交易号,通过该交易号可以进行回溯查找,从而能够通过交易号的查找对检测结果的进行验证。
在本发明另一实施例中,所述装置还包括,显示模块,用于显示回溯查找到的所述特征信息识别记录。
进一步的,在本发明另一实施例中,显示特征信息识别记录时还可以一并显示交易号。
通过本实施例,用户(如监控人)可以清楚直观的了解到在什么时间什么网址中存在怎样的特征信息。
本发明实施例中,获取模块获取待检测网址以及获取所述待检测网址的链接网址;爬虫模块爬取所述待检测网址和所述链接网址,得到爬虫结果;识别模块识别所述爬虫结果中是否存在特征信息;若所述爬虫结果中存在特征信息,保存模块将所述爬虫结果中的特征信息保存至区块链中。通过爬取待检测网址,从而能够快速全面的获取到待检测网址和链接网址的信息并识别是否存在特征信息,提高了检测网页中是否存在特征信息的效率和准确率,降低了错误率,提高了网页特征信息检测结果的可靠性,并且,本发明将准确的识别结果保存到不可被篡改的区块链中,进一步提高了网页特征信息检测结果的可靠性。
进一步地,本发明通过递归爬取待检测网址的方式,可以尽可能多的获取到链接网址,从而能够更加全面的获取到点击待检测网址之后的可能浏览到的页面信息,可以更全面的识别到特征信息是否存在,有利于提高检测的准确率。
本发明第三实施例还提供一种电子设备。图3所示为本发明第三实施例提供的电子设备的内部结构示意图。
在本实施例中,所述电子设备3可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该电子设备3至少包括存储器31、处理器32,通信总线33,以及网络接口34。
其中,存储器31至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器31在一些实施例中可以是电子设备3的内部存储单元,例如该电子设备3的硬盘。存储器31在另一些实施例中也可以是电子设备3的外部存储设备,例如电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器31还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器31不仅可以用于存储安装于电子设备3的应用软件及各类数据,例如信息处理程序03的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器32在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器31中存储的程序代码或处理数据,例如执行信息处理程序03等。
通信总线33用于实现这些组件之间的连接通信。
网络接口34可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备3与其他电子设备之间建立通信连接。
可选地,该电子设备3还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选地用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备3中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有组件31-34以及信息处理程序03的电子设备3,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备3的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图3所示的电子设备3实施例中,存储器31中存储有信息处理程序03;处理器32执行存储器31中存储的信息处理程序03时实现如下步骤:
步骤一、获取待检测网址以及获取所述待检测网址的链接网址;
步骤二、爬取所述待检测网址和所述链接网址,得到爬虫结果;
步骤三、识别所述爬虫结果中是否存在特征信息;
步骤四、若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
此外,本发明第四实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序可被一个或多个处理器执行,以实现如下操作:
获取待检测网址以及获取所述待检测网址的链接网址;
爬取所述待检测网址和所述链接网址,得到爬虫结果;
识别所述爬虫结果中是否存在特征信息;
若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
获取待检测网址以及获取所述待检测网址的链接网址;
爬取所述待检测网址和所述链接网址,得到爬虫结果;
识别所述爬虫结果中是否存在特征信息;
若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
2.如权利要求1所述的信息处理方法,其特征在于,所述获取所述待检测网址的链接网址包括:
递归爬取所述待检测网址,得到所述待检测链接网址的链接网址。
3.如权利要求1或2所述的信息处理方法,其特征在于,所述爬虫结果包含多条爬取记录,每条爬取记录包含爬取内容,所述识别所述爬虫结果中是否存在特征信息包括:
通过爬取内容判断所述多条爬取记录中是否存在与预设特征信息匹配策略相匹配的目标爬取记录;
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,确定所述目标爬取记录中存在特征信息。
4.如权利要求3所述的信息处理方法,其特征在于,所述将所述爬虫结果中的特征信息保存至区块链中包括:
将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接,得到包含所述爬虫结果中的特征信息的特征信息识别记录;
将所述特征信息识别记录保存在区块链的区块体中。
5.如权利要求4所述的信息处理方法,其特征在于,所述方法还包括:
获取所述区块体对应的交易号,通过所述交易号回溯查找所述特征信息识别记录。
6.如权利要求4所述的信息处理方法,其特征在于,所述爬取记录还包含爬取网址,所述爬取网址保存在表格文件中,所述将存在特征信息的目标爬取记录的爬取信息和/或所述预设特征信息匹配策略进行内容拼接包括:
若存在与所述预设特征信息匹配策略相匹配的目标爬取记录,将所述预设特征信息匹配策略回写至所述表格文件中爬取网址的相应位置;
将所述表格文件中所有写有所述预设特征信息匹配策略的爬取网址对应的爬取信息和/或所述预设特征信息匹配策略进行内容拼接。
7.如权利要求1或2所述的信息处理方法,其特征在于,所述特征信息为敏感信息。
8.一种信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取待检测网址以及获取所述待检测网址的链接网址;
爬虫模块,用于爬取所述待检测网址和所述链接网址,得到爬虫结果;
识别模块,用于识别所述爬虫结果中是否存在特征信息;
保存模块,用于若所述爬虫结果中存在特征信息,将所述爬虫结果中的特征信息保存至区块链中。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的信息处理方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的信息处理方法。
CN201911373456.1A 2019-12-27 2019-12-27 信息处理方法、装置、电子设备及存储介质 Pending CN111209459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373456.1A CN111209459A (zh) 2019-12-27 2019-12-27 信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373456.1A CN111209459A (zh) 2019-12-27 2019-12-27 信息处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111209459A true CN111209459A (zh) 2020-05-29

Family

ID=70784070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373456.1A Pending CN111209459A (zh) 2019-12-27 2019-12-27 信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111209459A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9219719B1 (en) * 2012-09-21 2015-12-22 Google Inc. Automatic dynamic vetting of browser extensions and web applications
CN107579976A (zh) * 2017-09-06 2018-01-12 杭州安恒信息技术有限公司 自定义检测网站敏感信息的方法及装置
US20180191777A1 (en) * 2016-12-29 2018-07-05 Trust Ltd. System and method for detecting phishing web pages
CN108491420A (zh) * 2018-02-06 2018-09-04 平安科技(深圳)有限公司 网页爬取的配置方法、应用服务器及计算机可读存储介质
CN109298987A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种检测网络爬虫运行状态的方法及装置
CN109684469A (zh) * 2018-12-13 2019-04-26 平安科技(深圳)有限公司 敏感词过滤方法、装置、计算机设备及存储介质
CN110278212A (zh) * 2019-06-26 2019-09-24 中国工商银行股份有限公司 链接检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9219719B1 (en) * 2012-09-21 2015-12-22 Google Inc. Automatic dynamic vetting of browser extensions and web applications
US20180191777A1 (en) * 2016-12-29 2018-07-05 Trust Ltd. System and method for detecting phishing web pages
CN109298987A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种检测网络爬虫运行状态的方法及装置
CN107579976A (zh) * 2017-09-06 2018-01-12 杭州安恒信息技术有限公司 自定义检测网站敏感信息的方法及装置
CN108491420A (zh) * 2018-02-06 2018-09-04 平安科技(深圳)有限公司 网页爬取的配置方法、应用服务器及计算机可读存储介质
CN109684469A (zh) * 2018-12-13 2019-04-26 平安科技(深圳)有限公司 敏感词过滤方法、装置、计算机设备及存储介质
CN110278212A (zh) * 2019-06-26 2019-09-24 中国工商银行股份有限公司 链接检测方法及装置

Similar Documents

Publication Publication Date Title
US10380197B2 (en) Network searching method and network searching system
US7930299B2 (en) System and method for appending security information to search engine results
US8632013B2 (en) Information retrieval using decoded machine-readable optical codes
US20160117335A1 (en) Systems and methods for archiving media assets
CN110889045B (zh) 标签分析方法、装置及计算机可读存储介质
CN110309667B (zh) 一种网站暗链检测方法和装置
WO2021042508A1 (zh) 网页生成方法、装置、计算机设备和存储介质
CN110619103A (zh) 网页图文检测方法、装置及存储介质
WO2023051440A1 (zh) 信息展示方法、装置、电子设备及可读存储介质
US9665574B1 (en) Automatically scraping and adding contact information
CN106055567A (zh) 提供app商店搜索结果
CN113656737B (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN113641873B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN107329981B (zh) 页面检测的方法和装置
CN111797297B (zh) 页面数据处理方法、装置、计算机设备及存储介质
CN111158777B (zh) 组件调用方法、装置及计算机可读存储介质
CN113326462B (zh) H5页面的水印添加方法、服务器、计算机设备及存储介质
CN111209459A (zh) 信息处理方法、装置、电子设备及存储介质
US20180196811A1 (en) Systems and apparatuses for searching for property listing information based on images
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN114330240A (zh) Pdf文档解析方法、装置、计算机设备及存储介质
CN114461833A (zh) 图片取证方法、装置、计算机设备及存储介质
US11258845B2 (en) Browser management system, browser management method, browser management program, and client program
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN112417324A (zh) 基于Chrome的URL拦截方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination