CN111563211A

CN111563211A - 一种统一资源定位符提取方法、装置、设备和存储介质

Info

Publication number: CN111563211A
Application number: CN202010251493.1A
Authority: CN
Inventors: 吴汉桥
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-21

Abstract

本发明实施例提出了一种统一资源定位符提取方法、装置、设备和存储介质，该URL提取方法，通过确定待提取数据的开始字符；基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述待提取数据中的结束字符，所述特殊字符包括不属于URL中的字符；根据所述开始字符和所述结束字符，提取URL，由于该URL提取方法是对待提取数据直接确定URL的开始字符和结束字符，以实现对URL的提取，因此，避免了对网络通信的格式的要求，也不需要设置正则表达式，URL的提取准确性更高。

Description

一种统一资源定位符提取方法、装置、设备和存储介质

技术领域

本发明涉及统一资源定位符(Uniform Resource Locator，URL)提取技术领域，尤其涉及一种统一资源定位符提取方法、装置、电子设备和计算机存储介质。

背景技术

目前，针对URL提取方法主要包括以下两种：方案1，解析法，通过解析超文本标记语言(HyperText Markup Language，HTML)文档中可能携带有URL的特定标签，来提取文档中的URL；方案2，正则表达式提取法，通过扫描待提取数据确定是否有匹配正则表达式的URL，在确定有匹配正则表达式的URL时，提取正文中的URL，可以看出，方案1需要待提取数据符合HTML格式，且URL出现在特定的标签中才能正确的提取，在待提取数据不是HTML格式时，将会导致URL无法提取的问题；方案2消除了对待提取数据的格式的要求，只需扫描待提取数据中的内容是否有匹配正则表达式的URL并提取即可，但提取URL的准确性依赖于选择的正则表达式的准确性，且正则表达式提取URL时，对于URL的特殊情况可能引起性能问题。

发明内容

本发明实施例期望提供一种URL提取的技术方案，以解决现有技术中URL提取的准确性对正则表达式的准确性的依赖以及对于URL的特殊情况可能引起的性能问题。

本发明实施例提供了一种URL提取方法，所述方法包括：

确定待提取数据中的开始字符；

基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述待提取数据中的结束字符，所述特殊字符包括不属于URL中的字符；

根据所述开始字符和所述结束字符，提取URL。

可选地，所述根据预设的特殊字符确定所述待提取数据中的结束字符，包括：

在所述待提取数据中查找到所述预设的特殊字符的情况下，确定查找到的所述预设的特殊字符对应的前一个字符为所述结束字符。

在所述待提取数据中未查找到所述预设的特殊字符的情况下，确定所述待提取数据对应的最后一个字符为所述结束字符。

可选地，所述特殊字符是除数字和字母以外的字符。

可选地，所述确定待提取数据中的开始字符，包括：

在所述待提取数据中按照顺序查找第一个定位字符，所述定位字符表示预设的字符集合中的任一字符，确定查找到第一个定位字符为所述开始字符。

可选地，所述预设的字符集合包括字母和或/数字。

可选地，所述待提取数据包括邮件正文数据。

本发明实施例还提供了一种URL提取装置，所述装置包括：确定模块和提取模块，其中，

确定模块，用于确定待提取数据中的开始字符；

提取模块，用于基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述待提取数据中的结束字符，所述特殊字符包括不属于URL中的字符；根据所述开始字符和所述结束字符，提取URL。

可选地，所述提取模块用于根据预设的特殊字符确定所述待提取数据中的结束字符，包括：

在所述待提取数据中未查找到所述预设的特殊字符的情况下，确定所述网络通信数据对应的最后一个字符为所述结束字符。

可选地，所述特殊字符是除数字和字母以外的字符。

可选地，所述确定模块用于确定待提取数据中的开始字符，包括：

在所述待提取数据中按照顺序查找第一个定位字符，所述定位字符表示预设的字符集合中的任一字符，确定查找到的第一个定位字符为所述开始字符。

可选地，所述预设的字符集合包括字母和或/数字。

可选地，所述待提取数据包括邮件正文数据。

本发明实施例还提供了一种电子设备，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行上述任意一种所述的URL提取方法。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一种所述的URL提取方法。

可以看出，本发明实施例中的URL提取方法，确定待提取数据中的开始字符；基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述待提取数据中的结束字符，所述特殊字符包括不属于URL中的字符；根据所述开始字符和所述结束字符，提取URL，由于该URL提取方法是对待提取数据直接确定URL的开始字符和结束字符，以实现对URL的提取，因此，避免了对网络通信的格式的要求，也不需要设置正则表达式，URL的提取准确性更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本发明的实施例，并与说明书一起用于说明本发明的技术方案。

图1为本发明实施例的一种URL提取方法的流程图；

图2为本发明实施例的实现URL提取方法的系统示意图；

图3为本发明实施的另一种URL提取方法的流程图；

图4为本发明实施例的URL提取装置的组成结构示意图；

图5为本发明实施例的电子设备的结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其他要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

例如，本发明实施例提供的URL提取方法包含了一系列的步骤，但是本发明实施例提供的URL提取方法不限于所记载的步骤，同样地，本发明实施例提供的神URL提取装置包括了一系列模块，但是本发明实施例提供的装置不限于包括所明确记载的模块，还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。

本发明实施例可以应用于终端和服务器等硬件或硬件组成的计算机系统中，并可以与众多其它通用或专用计算系统环境或配置一起操作，或者可通过处理器运行计算机可执行代码的方式实现本发明实施例。这里，终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统，等等，服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

相关技术中，通过解析法来提取URL不仅需要待提取数据符合HTML格式，且需要URL出现在特定的标签中才能正确的提取，在待提取数据不是HTML格式时，将会导致URL无法提取的问题，且通过正则表达式法来提取URL，虽然消除了对待提取数据的格式的要求，只需扫描待提取数据中的内容是否有匹配正则表达式的URL并提取即可，但提取URL的准确性依赖于选择的正则表达式的准确性，且正则表达式提取URL时，对于URL的特殊情况可能引起性能问题。

为了解决上述技术问题，本发明实施例提出一种URL提取方法，图1为本发明实施例的一种URL提取方法的流程图，如图1所示，该流程可以包括：

步骤101：确定待提取数据中的开始字符。

在一种实施方式中，URL的开始字符可以是URL的第一个字母或数字，确定待提取数据中的开始字符的方式，可以是在所述待提取数据中按照顺序查找第一个定位字符，所述定位字符表示预设的字符集合中的任一字符，确定查找到的第一个定位字符为所述开始字符。所述预设的字符集合包括字母和或/数字，具体地，可以是在待提取数据中按照顺序扫描待提取数据，直到匹配到第一个字母或数字，确定查找到的第一个字母或数字为URL的开始字符，这里不对URL的开始字符进行具体限定，只要是待提取数据中匹配到的第一个字母或数字即可，例如，可以是在待提取数据中匹配到的第一个字母a。

步骤102：基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述待提取数据中的结束字符，所述特殊字符包括不属于URL中的字符；

在一种实施方式中，特殊字符可以是指不出现在URL中的所有字符，特殊字符可以是除数字和字母以外的字符，具体地，特殊字符可以是字符‘<’、‘>’、‘＝’或‘|’。URL的结束字符可以是URL的最后一个字母或数字，例如，结束字符可以是网络通信数据中的字母b或数字4。

根据预设的特殊字符确定所述待提取数据中的结束字符的实现方式，在一个示例中，可以是在所述待提取数据中查找到所述预设的特殊字符的情况下，确定查找到的所述预设的特殊字符对应的前一个字符为所述结束字符，具体地，可以从URL的开始字符开始顺序扫描待提取数据，直到扫描到第一个特殊字符，将扫描到的第一个特殊字符对应的前一字符确定为待提取数据中的结束字符，例如，从URL的开始字符‘c’开始顺序扫描待提取数据，直到扫描到第一个特殊字符‘＝’时，将字符‘＝’对应的前一字符‘5’确定为待提取数据中URL的结束字符；在另一个示例中，可以是在所述待提取数据中未查找到所述预设的特殊字符的情况下，确定所述待提取数据对应的最后一个字符为所述结束字符，具体地，可以是熊URL的开始字符开始顺序扫描待提取数据的正文，在未扫描到特殊字符的情况下，将待提取数据的最后一个字符确定为待提取数据中URL的结束字符；例如，从URL的第二字符b开始顺序扫描，直到扫描到‘<’、‘>’和‘|’中的任意一个字符时，然后将字符‘<’、‘>’或‘|’的前一字符‘2’确定为待提取数据的结束字符；当从URL的第二字符b开始顺序扫描，未扫描到‘<’、‘>’和‘|’中的任意一个字符时，将待提取数据的最后一个字符‘d’确定为待提取数据中URL的结束字符。

步骤103：根据所述开始字符和所述结束字符，提取URL。

在一种实施方式中，根据所述开始字符和所述结束字符，提取URL，可以是根据URL的开始字符和结束字符，提取URL的开始字符、URL开始字符与结束字符之间的字符串以及URL的结束字符，例如，提取URL的开始字符“1”、URL开始字符与结束字符之间的字符串“ajsk1382wc……”以及结束字符“o”。

在实际应用中，步骤101至步骤103可以利用电子设备中的处理器实现，上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital SignalProcessing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、FPGA、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

在当前的邮件安全领域，黑客通过在邮件正文中携带恶意域名或恶意的URL，并诱导用户点击携带恶意域名或恶意的URL，以实现对用户信息的攻击和窃取，且这种攻击和窃取手段已经变得越来越频繁，而为了抵御这种攻击和窃取的发生，则需要能够高效、准确地检测出正确的URL以及携带的恶意URL，目前各安全厂商针对邮件正文URL提取方式也各不相同，主要包括解析法和正则表达式提取法，对于解析法，由于邮件正文数据通过常用邮件协议如SMTP等协议传输时，在正常情况下邮件正文数据会根据用户使用的客户端被封装为HTML格式，而解析法正是解析HTML文档中可能携带有URL的特定标签，从而提取其中的URL，该方法的缺点是：解析法需要邮件正文的符合HTML格式，且URL出现在特定标签中才能正确的提取，在使用脚本等自己构造方式发送时可能出现不是以HTML格式发送的邮件正文，此时的提取就会失效；而对于正则表达式法，具体地可以通过正则表达式匹配提取URL的方式，去除了邮件正文的格式依赖，只需扫描邮件正文是否有匹配正则表达式的URL并提取即可，该方法的缺点是：提取URL的准确性依赖于正则表达式的好坏，且正则表达在处理URL特殊情况时可能引起性能问题。

其中，SMTP是一个相对简单的基于文本的协议，可以在其之上指定了一条消息的一个或多个接收者(在大多数情况下被确认是存在的)，然后消息文本会被传输，可以很简单地通过telnet程序来测试一个SMTP服务器。SMTP是一种用于创建网页的标准标记语言，常与层叠样式表(Cascading Style Sheets，CSS)、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面，网页浏览器可以读取HTML文件，并将其渲染成可视化网页，HTML描述了一个网站的结构语义随着线索的呈现，使之成为一种标记语言而非编程语言。

为解决上述技术问题，在本发明的一种实施例中，所述待提取数据包括邮件正文数据。

在一个示例中，可以通过对邮件数据进行解析，来获得邮件正文数据，具体地，可以通过对邮件数据进行安全解析来获得邮件正文数据，这里，安全解析可以是检测邮件数据中的恶意URL并阻断恶意URL数据进行传输的过程，例如，可以通过防火墙(ApplicationFirewall，AF)来实现对待提取数据的安全解析，对于邮件数据的安全解析实现方式，示例性地，对于发送至AF的邮件数据可以是通过邮件数据发送协议来对邮件数据解析，获得邮件正文数据，所述邮件数据发送协议可以是简单邮件传输协议(Simple Mail TransferProtocol，SMTP)SMTP，对于AF接收的邮件数据，可以是通过邮件数据接收协议来对邮件数据解析，所述邮件接收协议可以是邮局协议版本3(Post Office Protocol-Version 3，POP3)也可以是交互邮件访问协议(Internet Mail Access Protocol，IMAP)。对于邮件数据以外的其它数据，可以通过对应的其它协议来进行安全解析，例如，可以通过文件传输协议(File Transfer Protocol，FTP)来进行安全解析。

图2为本发明实施例的系统示意图，如图2所示，在客户端在和服务器进行通信传输网络数据时，来自客户端的网络通信数据会先经过中间防火墙AF，AF会检测网络通信数据中携带的恶意URL并阻断恶意数据传输，具体地，客户端向AF发送网络通信数据传输请求，AF响应客户端发送的数据传输请求，对网络通信数据进行安全解析并向服务器发送网络通信数据传输请求，服务器响应AF发送的数据传输请求。

图3为本发明实施例的另一种URL提取方法的流程图，如图3所示，当网络通信数据通过AF对网络通信数据进行安全解析后，识别出正文数据，然后从正文数据中提取URL，具体的提取流程可以包括：

步骤301：开始；

步骤302：待提取数据输入；

步骤303：扫描到URL开始字符；

扫描到URL开始字符的具体实现方式可以是，首先，设置字符标识start_pos为网络通信数据的正文数据的开始字符并进行初始化，初始化的过程可以是使得start_pos等于0；然后，按照所述正文数据的顺序移动字符标识，直到字符标识对应的数据为数字或字母时，将找到的第一个数字或字母的确定为URL的开始字符；

步骤304：从URL开始字符的下一个字符扫描，确定是否匹配到特殊字符？若是，执行步骤305；若否，执行步骤307；

步骤305：提取URL的开始字符到特殊字符的字符串作为URL；

步骤306：将扫描位置设置为特殊字符的下一个字符，并返回步骤303；

步骤307：提取URL的开始字符到结束字符的字符串作为URL；

步骤308：结束。

图4为本发明实施例的URL提取装置的组成结构示意图，如图4所示，该装置可以包括：确定模块401和提取模块402，其中，

确定模块401，用于确定待提取数据中的开始字符；

提取模块402，用于基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述网络通信数据中的结束字符，所述特殊字符包括不属于URL中的字符；根据所述开始字符和所述结束字符，提取URL。

可选地，所述提取模块402用于根据预设的特殊字符确定所述待提取数据中的结束字符，包括：

可选地，所述特殊字符是除数字和字母以外的字符。

可选地，所述确定模块401用于确定待提取数据中URL的开始字符，包括：

可选地，所述预设的字符集合包括字母和或/数字。

可选地，所述待提取数据是邮件正文数据。

实际应用中，确定模块401和提取模块402可以利用电子设备中的处理器实现，上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种视频处理方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种视频处理方法对应的计算机程序指令被一电子设备读取或被执行时，实现前述实施例的任意一种视频处理方法。

基于前述实施例相同的技术构思，参见图5，其示出了本发明实施例提供的一种电子设备，可以包括：存储器501和处理器502；其中，

所述存储器501，用于存储计算机程序和数据；

所述处理器502，用于执行所述存储器中存储的计算机程序，以实现前述实施例的任意一种URL提取方法。

在实际应用中，上述存储器501可以是易失性存储器(volatile memory)，例如RAM；或者非易失性存储器(non-volatile memory)，例如ROM，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器502提供指令和数据。

上述处理器502可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的增强现实云平台，用于实现上述处理器功能的电子器件还可以为其它，本发明实施例不作具体限定。

在一些实施例中，本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种统一资源定位符提取方法，其特征在于，所述方法包括：

确定待提取数据中的开始字符；

根据所述开始字符和所述结束字符，提取URL。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的特殊字符确定所述待提取数据中的结束字符，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据预设的特殊字符确定所述待提取数据中的结束字符，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述特殊字符是除数字和字母以外的字符。

5.根据权利要求1所述的方法，其特征在于，所述确定待提取数据中的开始字符，包括：

6.根据权利要求5所述的方法，其特征在于，所述预设的字符集合包括字母和或/数字。

7.根据权利要求1所述的方法，其特征在于，所述待提取数据包括邮件正文数据。

8.一种统一资源定位符提取装置，其特征在于，所述装置包括：确定模块和提取模块，其中，

确定模块，用于确定待提取数据中的开始字符；

9.一种电子设备，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行权利要求1-7任一项所述的统一资源定位符提取方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7任一项所述的统一资源定位符提取方法。