CN113268691B - 网站行业类型的分类方法、装置、电子装置和存储介质 - Google Patents

网站行业类型的分类方法、装置、电子装置和存储介质 Download PDF

Info

Publication number
CN113268691B
CN113268691B CN202110483710.4A CN202110483710A CN113268691B CN 113268691 B CN113268691 B CN 113268691B CN 202110483710 A CN202110483710 A CN 202110483710A CN 113268691 B CN113268691 B CN 113268691B
Authority
CN
China
Prior art keywords
industry type
website
industry
type
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110483710.4A
Other languages
English (en)
Other versions
CN113268691A (zh
Inventor
任亚倩
范渊
杨勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202110483710.4A priority Critical patent/CN113268691B/zh
Publication of CN113268691A publication Critical patent/CN113268691A/zh
Application granted granted Critical
Publication of CN113268691B publication Critical patent/CN113268691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种网站行业类型的分类方法、装置、电子装置和存储介质。其中,该网站行业类型的分类方法包括:获取待识别网站的网站信息,其中,网站信息包括待识别网站的网站名称和与待识别网站对应的网页中的框架图片;根据网站名称,确定待识别网站的第一行业类型;采用预设的图片类型识别模型对框架图片进行处理,得到与框架图片对应的第二行业类型,其中,预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型。通过本申请,解决了相关技术中网站行业类型识别率低的问题,提高了相关技术中网站行业类型识别率。

Description

网站行业类型的分类方法、装置、电子装置和存储介质
技术领域
本申请涉及网络安全领域,特别是涉及网站行业类型的分类方法、装置、电子装置和存储介质。
背景技术
在网络安全监控中,常常需要分析确定用户访问了哪些网页,以及网页的行业类型。其中,网站行业类型是指网站有规则的按照一定的科学依据,对该网站所从事和经营的模式来进行详细的类型划分。网站行业类型一般来说分为以下几种类型:金融网站、教育网站、个人网站、企业网站、社区网站等。一般来说每种类型的网站都有相似的网站结构和经营模式。
现有网站行业类型识别中,一般都是采用单一的html关键字来识别,这种方式关键字识别方式单一,错误率高,需要人工二次验证与错误数据分析,这增加了人工成本,使得网站行业类型识别率低。
目前针对相关技术中网站行业类型识别率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网站行业类型的分类方法、装置、电子装置和存储介质,以至少解决相关技术中网站行业类型识别率低的问题。
第一方面,本申请实施例提供了一种网站行业类型的分类方法,包括:
获取待识别网站的网站信息,其中,所述网站信息包括待识别网站的网站名称和与所述待识别网站对应的网页中的框架图片;
根据所述网站名称,确定所述待识别网站的第一行业类型;
采用预设的图片类型识别模型对所述框架图片进行处理,得到与所述框架图片对应的第二行业类型,其中,所述预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;
在所述第一行业类型中检测所述第二行业类型,并根据检测结果确定所述待识别网站的行业类型。
在其中一些实施例中,在所述第一行业类型中检测所述第二行业类型,并根据检测结果确定所述待识别网站的行业类型包括:
在所述第一行业类型中检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第二行业类型;
在所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型。
在其中一些实施例中,在所述第一行业类型中检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第二行业类型包括:
根据所述第二行业类型验证所述第一行业类型,并在所述第二行业类型验证所述第一行业类型为验证成功的情况下,确定所述待识别网站的行业类型包括所述第二行业类型。
在其中一些实施例中,在所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型包括:
根据所述第二行业类型验证所述第一行业类型,并在所述第二行业类型验证所述第一行业类型为未验证成功的情况下,确定所述待识别网站的行业类型包括所述第一行业类型。
在其中一些实施例中,所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型还包括:
根据所述第二行业类型验证所述第一行业类型,并在所述第二行业类型验证所述第一行业类型为未验证成功的情况下,生成所述待识别网站的行业类型的验证失败信息,并将所述验证失败信息发送给预设终端。
在其中一些实施例中,在采用预设的图片类型识别模型对所述框架图片进行处理,得到与所述框架图片对应的第二行业类型之前,所述方法还包括:
对所述框架图片进行去噪处理,得到去噪之后的所述框架图片。
在其中一些实施例中,根据所述网站名称,确定所述待识别网站的第一行业类型包括:
根据所述网站名称,确定所述网站名称中的关键词;
确定所述关键词在多个预设行业类型中的权重;
选取权重最高的预设行业类型作为所述待识别网站的第一行业类型。
第二方面,本申请实施例还提供了一种网站行业类型的分类装置,包括:
第一获取模块,用于获取待识别网站的网站信息,其中,所述网站信息包括待识别网站的网站名称和与所述待识别网站对应的网页中的框架图片;
确定模块,用于根据所述网站名称,确定所述待识别网站的第一行业类型;
处理模块,用于采用预设的图片类型识别模型对所述框架图片进行处理,得到与所述框架图片对应的第二行业类型,其中,所述预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;
检测模块,用于在所述第一行业类型中检测所述第二行业类型,并根据检测结果确定所述待识别网站的行业类型。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的网站行业类型的分类方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的网站行业类型的分类方法。
相比于相关技术,本申请实施例提供的网站行业类型的分类方法、装置、电子装置和存储介质,通过获取待识别网站的网站信息,其中,网站信息包括待识别网站的网站名称和与待识别网站对应的网页中的框架图片;根据网站名称,确定待识别网站的第一行业类型;采用预设的图片类型识别模型对框架图片进行处理,得到与框架图片对应的第二行业类型,其中,预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型的方式,解决了相关技术中网站行业类型识别率低的问题,提高了相关技术中网站行业类型识别率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网站行业类型的分类方法的终端的硬件结构框图;
图2是根据本申请实施例的网站行业类型的分类方法的流程图;
图3是根据本申请优选实施例的网站行业类型的分类方法的流程图;
图4是根据本申请实施例的电商行业类型的界面示意图;
图5是根据本申请实施例的医疗行业类型的界面示意图;
图6是根据本申请实施例的网站行业类型的分类装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是根据本申请实施例的网站行业类型的分类方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的网站行业类型的分类方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例提供了一种网站行业类型的分类方法,图2是根据本申请实施例的网站行业类型的分类方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取待识别网站的网站信息,其中,网站信息包括待识别网站的网站名称和与待识别网站对应的网页中的框架图片。
在本步骤中,每个待识别网站均有与之对应的网站名称,该网站名称的获取可以是在数据库中获取的,也可以是激活待识别网站获取的。待识别网站对应的网页中的框架图片可以是通过图片提取工具获取得到的。
步骤S202,根据网站名称,确定待识别网站的第一行业类型。
在本步骤中,可以根据网站名称中的关键词,来确定该网站的第一行业类型。
需要说明的是,行业类型可以包括但不限于:政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站。
步骤S203,采用预设的图片类型识别模型对框架图片进行处理,得到与框架图片对应的第二行业类型,其中,预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型。
在本步骤中,训练完备的训练完备的图片类型识别模型是在训练一定次数之后得到一个具有较高的框架图片识别率的模型,通过该模型去对框架图片进行识别,可以提高框架图片识别的准确率。
步骤S204,在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型。
在本步骤中,第二行业类型可以是第一行业类型的子行业类型,也可能是区别于第一行业的其他行业类型。
基于上述步骤S201至S205,通过根据待识别网站的网站名称,来初步确定待识别网站的第一行业类型,然后再根据训练完备的图片类型识别模型来识别待识别网站的框架图片的行业类型,并确定该框架图片的第二行业类型,最后再在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型的方式,来实现对待识别网站的行业类型的验证,以达到提高对待识别网站的行业类型的识别率的有益效果,解决了相关技术中网站行业类型识别率低的问题。
在其中一些实施例中,在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型可以包括如下步骤:
步骤1,在第一行业类型中检测到第二行业类型的情况下,确定待识别网站的行业类型包括第二行业类型。
在本步骤中,通过在第一行业类型中检测到第二行业类型的情况下,确定待识别网站的行业类型包括第二行业类型的方式,实现了对待识别网站的行业类型的检测,且通过第二行业类型进行检测的方式,提高了对待识别网站的行业类型的识别率,解决了相关技术中网站行业类型识别率低的问题。
步骤2,在第一行业类型中未检测到第二行业类型的情况下,确定待识别网站的行业类型包括第一行业类型。
在本步骤中,通过在第一行业类型中未检测到第二行业类型的情况下,确定待识别网站的行业类型包括第一行业类型的方式,实现了对待识别网站的行业类型的检测,且通过第二行业类型进行检测的方式,提高了对待识别网站的行业类型的识别率,解决了相关技术中网站行业类型识别率低的问题。
在其中一些实施例中,在第一行业类型中检测到第二行业类型的情况下,确定待识别网站的行业类型包括第二行业类型可以包括如下步骤:
步骤1,根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为验证成功的情况下,确定待识别网站的行业类型包括第二行业类型。
在本步骤中,通过根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为验证成功的情况下,确定待识别网站的行业类型包括第二行业类型的方式,进一步实现了对待识别网站的行业类型的验证,且通过第二行业类型进行验证的方式,可以提高对待识别网站的行业类型的识别率,解决了相关技术中网站行业类型识别率低的问题。
在其中一些实施例中,在第一行业类型中未检测到第二行业类型的情况下,确定待识别网站的行业类型包括第一行业类型可以包括步骤:
步骤1,根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为未验证成功的情况下,确定待识别网站的行业类型包括第一行业类型。
在本步骤中,通过根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为未验证成功的情况下,确定待识别网站的行业类型包括第一行业类型的方式,进一步实现了对待识别网站的行业类型的验证,且通过第二行业类型进行验证的方式,可以提高对待识别网站的行业类型的识别率,解决了相关技术中网站行业类型识别率低的问题。
在其中一些实施例中,第一行业类型中未检测到第二行业类型的情况下,确定待识别网站的行业类型包括第一行业类型还可以包括以下步骤:
步骤1,根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为未验证成功的情况下,生成待识别网站的行业类型的验证失败信息,并将验证失败信息发送给预设终端。
在本步骤中,通过在从第一行业类型中未检测到第二行业类型的情况下,生成待识别网站的行业类型的识别失败信息,并将识别失败信息发送给预设终端的方式,可以通知用户对该行业类型进行人工判定,以提高对网站的行业类型的识别率。
需要说明的是,预设终端可以是预先设定的IP地址、邮箱等。
上述实施例中的第二行业类型验证第一行业类型的方式可以是,识别第二行业类型与第一行业类型是否是行业类型,若是,则判定为同一类型,即等同于在从第一行业类型中检测到第二行业类型,若否,则判定为不相同,即等同于在从第一行业类型中未检测到第二行业类型。
在其中一些实施例中,在采用预设的图片类型识别模型对框架图片进行处理,得到与框架图片对应的第二行业类型之前,还可以包括以下步骤:
步骤1,对框架图片进行去噪处理,得到去噪之后的框架图片。
相关技术中的数字图片在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。因此,为了解决上述问题,在本步骤中,通过对框架图片进行去噪处理,以得到去噪之后的框架图片,可以减少或者避免图片中的噪声,以达到提高框架图片质量的有益效果。
需要说明的是,图片去噪是指减少数字图片中噪声的过程。
在其中一些实施例中,根据网站名称,确定待识别网站的第一行业类型还可以包括以下:
步骤1,确定网站名称中的关键词。
在本步骤中,确定网站名称的方式可以是通过去掉网站名称中的常用词。
步骤2,确定关键词在多个预设行业类型中的权重。
需要说明的是,每个行业类型中均有一些词在该行业类型中的权重,因此,在本步骤中,可以通过计算该关键词在每个不同的预设行业类型中的权重,以便于来确定该关键词所属于的行业类型。
步骤3,选取权重最高的预设行业类型作为待识别网站的第一行业类型。
在本步骤中,通过选取权重最高的预设行业类型作为待识别网站的第一行业类型的方式,可以提高带待识别网站的第一行业类型的识别率。
在一些实施例中,第一行业类型可以包括:政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站。需要说明的,该行业类型还可以根据用户的实际场景进行更改,以满足用户要求。同时第一行业类型并不局限于上述实施例中的行业类型。
在其中一些实施例中,预设的图片类型识别模型的训练过程可以包括如下步骤:
步骤1,获取图片训练样本集,其中,图片训练样本集包括:标记有不同行业类型的标签图片。
在本步骤中,为了便于训练,可以对不同行业类型的图片打上对应的行业类型标签。
步骤2,基于TensorFlow生成初始图片类型识别模型,其中,初始图片类型识别模型包括卷积神经网络。
需要说明的是,TensorFlow是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现。
步骤3,利用图片训练样本集样本训练初始图片类型识别模型的卷积神经网络,直至收敛,得到预设的图片类型识别模型。
在本步骤中,在根据图片训练样本集,训练初始图片类型识别模型之后,还需要确定该训练参数是否收敛,若否,则继续重复上述步骤2和步骤3,直至收敛,以得到一个具有较高的舆情文本信息的分类判别率的模型,进而提高预设的图片类型识别模型的行业类型识别率。
下面通过优选实施例对本申请实施例进行描述和说明。
图3是根据本申请优选实施例的网站行业类型的分类方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,根据待识别网站的网站名称,确定网站内容。
在本步骤中,首先获取主题title,将主题title分词指定的站点,获取全部的HTML内容,抓取其中的<title>标签,将标签内的内容提取出来,作为一个基准目标文本。在该基础上进行深化与扩展,如果该步骤没有抓取到相应的文本,之后的步骤会提供补充操作,最终实现网站与主题相关的标题文字。
获取待识别网站的网页的全篇文章中所有的文字、图片、分词后,去掉常用词,并计算占比,然后以此比例获取该到网站的title,在此的基础上可以将网站内容分成三种类型:
类型1,文本文字。
类型2,图片。
类型3,视频。
步骤S302,根据获取的网站内容,确定第一行业类型。
在步骤S302的基础上,抽离出大量的行业关键词,通过傅立叶转化的方式,将其中权重最高的分词文字和图片信息摘选出来,并选取权重由大到小的10%的图片内容。关于采用的傅立叶转化的方式,可以通过算法包实现了以下的功能,如一维和多维变换、纯粹的真实输入或输出数据的快速转换,真实偶数/奇数数据的变换:离散余弦变换(DCT)和离散正弦变换(DST),类型I-IV高效处理多个跨步变换等能力。
需要说明的是,该算法包可以由用户自己根据自身需要进行设定。
步骤S303,提取出该待识别网站的网页的框架图片。
在本步骤中,以以下行业类型的网站来进行描述和说明:
如图4所示,电商行业,其首页的网页框架图片的基本结构可以为:图片上方可以包括品牌logo、搜索、一级导航为主。其图片的主题内容可以分为左中右三块,左边可以为产品导航栏,中间可以为广告营销位,右边可以为功能入口,一屏内显示。需要说明的是,按键或鼠标下滑的内容可以为产品入口和底部信息。
如图5所示,医疗行业,其首页的网页框架图片的基本结构可以为:图片上方可以包括品牌logo,一级导航为主。图片的中间可以是营销位。图片的下部一般分为左中右,栏目列表、公告、新闻、合作伙伴等宣传内容。
在本实施例中,可以通过训练完备的图片类型识别
步骤S304,通过训练完备的图片类型识别模型(等同于上述实施例中的预设的图片类型识别模型)对框架图片识别分类,得到该框架图片的第二行业类型。
在本步骤中,训练完备的图片类型识别模型包括通过TensorFlow构建CNN采用卷积神经网络。
该训练完备的图片类型识别模型识别可以包括如下步骤:
步骤1,第一层是输入图片,接着使用2x2最大池化和修正线性函数(ReLU)的构建3个卷积层。
在本步骤中,输入图片的格式可以是4维张量:
(1),图片序号。
(2),每一图片的Y轴。
(3),每一图片的X轴。
(4),每一图片的通道(channel)。
步骤2,输出是另一个图片的格式为4维张量的图片。
在本步骤中,另一个图片的格式为4维张量可以包括:
(1),图像序号,与输入相同。
(2),每一图像的Y轴。如果使用2x2池化,接着输入图像的高和宽除以2。
(3),每一图像的X轴。
(4),由卷积滤波器生成的通道。
步骤3,在网络末端构建了2个全连接层。输入是一个2维的形状张量[num_images、num_inputs]。输出也是一个2维的形状张量[num_images、num_outputs]。
步骤4,平层(FlattenLayer)把4维向量减少至可输入到全连接层的2维。
步骤5,softmax层,归一化来自全连接层的输出,因此每一元素被限制在0与1之间,并且所有元素总和为1。
需要说明的是,以上步骤可以使用3个小型的卷积层和2个全连接层。通过以上步骤可以得到框架图片的行业属性与分类。
步骤S305,根据第二行业类型,对该待识别网站的第一行业类型进行验证。
在本实施例中,在提取待识别网站的行业类型的时候,使用了图片识别的方法,后来经过数据分析,进行二次行业类型识别,使得网站的行业类型识别的准确度又提高了,同时还可以减少人工核实的工作量。
本实施例还提供了一种网站行业类型的分类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本申请实施例的网站行业类型的分类装置的结构框图,如图6所示,该装置包括:
第一获取模块61,用于获取待识别网站的网站信息,其中,网站信息包括待识别网站的网站名称和与待识别网站对应的网页中的框架图片;
确定模块62,耦合至第一获取模块61,用于根据网站名称,确定待识别网站的第一行业类型;
处理模块63,耦合至确定模块62,用于采用预设的图片类型识别模型对框架图片进行处理,得到与框架图片对应的第二行业类型,其中,预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;
检测模块64,耦合至处理模块63,用于在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型。
在其中一些实施例中,检测模块64包括:第一确定单元,用于在第一行业类型中检测到第二行业类型的情况下,确定待识别网站的行业类型包括第二行业类型;第二确定单元,用于在第一行业类型中未检测到第二行业类型的情况下,确定待识别网站的行业类型包括第一行业类型。
在其中一些实施例中,第一确定单元包括:第一确定子单元,用于根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为验证成功的情况下,确定待识别网站的行业类型包括第二行业类型。
在其中一些实施例中,第二确定单元包括:第二确定子单元,用于根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为未验证成功的情况下,确定待识别网站的行业类型包括第一行业类型。
在其中一些实施例中,第二确定单元还包括:生成子单元,用于根据第二行业类型验证第一行业类型,并在第二行业类型验证第一行业类型为未验证成功的情况下,生成待识别网站的行业类型的验证失败信息,并将验证失败信息发送给预设终端。
在其中一些实施例中,该装置还包括:去噪模块,用于对框架图片进行去噪处理,得到去噪之后的框架图片。
在其中一些实施例中,确定模块62包括:第三确定单元,用于根据网站名称,确定网站名称中的关键词;第四确定单元,用于确定关键词在多个预设行业类型中的权重;选取单元,用于选取权重最高的预设行业类型作为待识别网站的第一行业类型。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S1,获取待识别网站的网站信息,其中,网站信息包括待识别网站的网站名称和与待识别网站对应的网页中的框架图片。
步骤S2,根据网站名称,确定待识别网站的第一行业类型。
步骤S3,采用预设的图片类型识别模型对框架图片进行处理,得到与框架图片对应的第二行业类型,其中,预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型。
步骤S4,在第一行业类型中检测第二行业类型,并根据检测结果确定待识别网站的行业类型。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的网站行业类型的分类方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种网站行业类型的分类方法。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种网站行业类型的分类方法,其特征在于,包括:
获取待识别网站的网站信息,其中,所述网站信息包括待识别网站的网站名称和与所述待识别网站对应的网页中的框架图片;
根据所述网站名称,确定所述待识别网站的第一行业类型;
采用预设的图片类型识别模型对所述框架图片进行处理,得到与所述框架图片对应的第二行业类型,其中,所述预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;
在所述第一行业类型中检测所述第二行业类型,并根据检测结果确定所述待识别网站的行业类型;其中,在所述第一行业类型中检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第二行业类型;在所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型。
2.根据权利要求1所述的网站行业类型的分类方法,其特征在于,在所述第一行业类型中检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第二行业类型包括:
根据所述第二行业类型验证所述第一行业类型,并在所述第二行业类型验证所述第一行业类型为验证成功的情况下,确定所述待识别网站的行业类型包括所述第二行业类型。
3.根据权利要求1所述的网站行业类型的分类方法,其特征在于,在所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型包括:
根据所述第二行业类型验证所述第一行业类型,并在所述第二行业类型验证所述第一行业类型为未验证成功的情况下,确定所述待识别网站的行业类型包括所述第一行业类型。
4.根据权利要求1所述的网站行业类型的分类方法,其特征在于,所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型还包括:
根据所述第二行业类型验证所述第一行业类型,并在所述第二行业类型验证所述第一行业类型为未验证成功的情况下,生成所述待识别网站的行业类型的验证失败信息,并将所述验证失败信息发送给预设终端。
5.根据权利要求1所述的网站行业类型的分类方法,其特征在于,在采用预设的图片类型识别模型对所述框架图片进行处理,得到与所述框架图片对应的第二行业类型之前,所述方法还包括:
对所述框架图片进行去噪处理,得到去噪之后的所述框架图片。
6.根据权利要求1所述的网站行业类型的分类方法,其特征在于,根据所述网站名称,确定所述待识别网站的第一行业类型包括:
根据所述网站名称,确定所述网站名称中的关键词;
确定所述关键词在多个预设行业类型中的权重;
选取权重最高的预设行业类型作为所述待识别网站的第一行业类型。
7.一种网站行业类型的分类装置,其特征在于,包括:
第一获取模块,用于获取待识别网站的网站信息,其中,所述网站信息包括待识别网站的网站名称和与所述待识别网站对应的网页中的框架图片;
确定模块,用于根据所述网站名称,确定所述待识别网站的第一行业类型;
处理模块,用于采用预设的图片类型识别模型对所述框架图片进行处理,得到与所述框架图片对应的第二行业类型,其中,所述预设的图片类型识别模型被训练为用于根据框架图片得到与该框架图片对应的行业类型;
检测模块,用于在所述第一行业类型中检测所述第二行业类型,并根据检测结果确定所述待识别网站的行业类型,其中,在所述第一行业类型中检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第二行业类型;在所述第一行业类型中未检测到所述第二行业类型的情况下,确定所述待识别网站的行业类型包括所述第一行业类型。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的网站行业类型的分类方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的网站行业类型的分类方法。
CN202110483710.4A 2021-04-30 2021-04-30 网站行业类型的分类方法、装置、电子装置和存储介质 Active CN113268691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110483710.4A CN113268691B (zh) 2021-04-30 2021-04-30 网站行业类型的分类方法、装置、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110483710.4A CN113268691B (zh) 2021-04-30 2021-04-30 网站行业类型的分类方法、装置、电子装置和存储介质

Publications (2)

Publication Number Publication Date
CN113268691A CN113268691A (zh) 2021-08-17
CN113268691B true CN113268691B (zh) 2022-07-22

Family

ID=77229785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110483710.4A Active CN113268691B (zh) 2021-04-30 2021-04-30 网站行业类型的分类方法、装置、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN113268691B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109344884A (zh) * 2018-09-14 2019-02-15 腾讯科技(深圳)有限公司 媒体信息分类方法、训练图片分类模型的方法及装置
CN112565250A (zh) * 2020-12-04 2021-03-26 中国移动通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10148700B2 (en) * 2016-06-30 2018-12-04 Fortinet, Inc. Classification of top-level domain (TLD) websites based on a known website classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109344884A (zh) * 2018-09-14 2019-02-15 腾讯科技(深圳)有限公司 媒体信息分类方法、训练图片分类模型的方法及装置
CN112565250A (zh) * 2020-12-04 2021-03-26 中国移动通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113268691A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN110543815B (zh) 人脸识别模型的训练方法、人脸识别方法、装置、设备及存储介质
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US11914639B2 (en) Multimedia resource matching method and apparatus, storage medium, and electronic apparatus
US9275307B2 (en) Method and system for automatic selection of one or more image processing algorithm
CN108491866B (zh) 色情图片鉴定方法、电子装置及可读存储介质
CN111104841A (zh) 暴力行为检测方法及系统
CN106897454B (zh) 一种文件分类方法及装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN109962975A (zh) 基于物体识别的信息推送方法、装置、电子设备及系统
CN112733057A (zh) 网络内容安全检测方法、电子装置和存储介质
CN115331150A (zh) 图像识别方法、装置、电子设备、存储介质
CN112883980A (zh) 一种数据处理方法及系统
Roy et al. Face sketch-photo recognition using local gradient checksum: LGCS
CN112199569A (zh) 一种违禁网址识别方法、系统、计算机设备及存储介质
CN112561074A (zh) 一种机器学习可解释方法、装置及存储介质
CN115687670A (zh) 图像搜索方法、装置、计算机可读存储介质及电子设备
CN114428881B (zh) 媒资视频的推送方法及装置、存储介质及电子设备
CN116266259A (zh) 图像文字结构化输出方法、装置、电子设备和存储介质
CN113822521B (zh) 题库题目的质量检测方法、装置及存储介质
JP5480008B2 (ja) マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法
CN113268691B (zh) 网站行业类型的分类方法、装置、电子装置和存储介质
WO2018120575A1 (zh) 网页主图识别方法和装置
CN111680708A (zh) 一种给图片加标签的方法和系统
CN115311098A (zh) 宠物医疗理赔信息推送方法及相关装置
CN115604158B (zh) 一种智能设备识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant