CN110807197A - 识别模型的训练方法及装置、风险网站识别方法及装置 - Google Patents

识别模型的训练方法及装置、风险网站识别方法及装置 Download PDF

Info

Publication number
CN110807197A
CN110807197A CN201911056718.1A CN201911056718A CN110807197A CN 110807197 A CN110807197 A CN 110807197A CN 201911056718 A CN201911056718 A CN 201911056718A CN 110807197 A CN110807197 A CN 110807197A
Authority
CN
China
Prior art keywords
website
sample
credible
recognition model
credibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911056718.1A
Other languages
English (en)
Inventor
陆梦倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911056718.1A priority Critical patent/CN110807197A/zh
Publication of CN110807197A publication Critical patent/CN110807197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供识别模型的训练方法及装置、风险网站识别方法及装置,其中,所述识别模型的训练方法包括:确定带标签的初始网站样本集,基于所述带标签的初始网站样本集对一种可信识别模型进行训练,得到所述一种可信识别模型;获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;基于所述带标签的初始网站样本集对另一种可信识别模型进行训练,得到所述另一种可信识别模型。

Description

识别模型的训练方法及装置、风险网站识别方法及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种识别模型的训练方法、一种风险网站识别方法。本说明书一个或者多个实施例同时涉及一种识别模型的训练装置,一种风险网站识别装置,两种计算设备,以及一种计算机可读存储介质。
背景技术
随着网络的发展与普及,人们通过网站进行交易已经成为常态,但是当前互联网中存在很多对网络交易的安全造成威胁的风险网站,这些风险网站的存在给社会带来了极大的危害,然而却屡禁不止。国家相关部门也对各大互联网公司进行了约谈,并加大了对网站内容的监管力度,要求各大互联网公司加强平台审核责任,强化内容建设。为打击这些风险网站,目前一些互联网公司在有风险交易发生时,通过识别到交易账号的异动去识别某网站是否有风险。
采用这种被动式的风险网站识别有点亡羊补牢,因此我们希望能够通过识别出风险网站,后续通过在该风险网站上寻找风险交易账号,在交易尚未发生时就率先防控。
发明内容
有鉴于此,本说明书施例提供了一种识别模型的训练方法、一种风险网站识别方法。本说明书一个或者多个实施例同时涉及一种识别模型的训练装置,一种风险网站识别装置,两种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种识别模型的训练方法,包括:
确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
可选的,所述至少两种模态包括图片模态和文本模态,
相应的,所述确定带标签的初始网站样本集之后,还包括:
基于所述图片模态获取所述带标签的初始网站样本集;或者
基于所述文本模态获取所述带标签的初始网站样本集。
可选的,确定通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型包括:
确定通过输入网站的图片模态和文本模态的网站信息对网站进行可信识别的至少两种可信识别模型。
可选的,所述基于所述图片模态获取所述带标签的初始网站样本集包括:
基于所述图片模态获取每个所述带标签的初始网站样本的网页截图;
基于所述带标签的初始网站样本的网页截图形成带标签的网页截图样本集。
可选的,所述基于所述文本模态获取所述带标签的初始网站样本集包括:
基于所述文本模态获取每个所述带标签的初始网站样本的网站文本信息;
基于所述带标签的初始网站样本的网站文本信息形成带标签的网站文本信息样本集。
可选的,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值包括:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页截图样本的可信度预测分值。
可选的,所述获取无标签的网站样本集之后,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值之前包括:
获取每个所述无标签的网站样本的网页截图;
基于所述无标签的网站样本的网页截图形成无标签的网页截图样本集;
相应的,所述基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值包括:
基于所述一种可信识别模型获得每个所述无标签的网页截图样本的可信度预测分值。
可选的,所述将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本包括:
将所述可信度预测分值满足预设阈值的所述无标签的网页截图样本集中的无标签的网页截图样本标记为带标签的标记网页截图样本;
基于所述带标签的标记网页截图样本标记对应的网站样本为带标签的标记网站样本。
可选的,所述将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,还包括:
基于所述文本模态获取所述带标签的初始网站样本集中每个所述初始网站样本和每个所述标记网站样本的网站文本信息;
基于每个所述初始网站样本和每个所述标记网站样本的网站文本信息形成带标签的网站文本信息样本集。
可选的,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值包括:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网站文本信息的可信度预测分值。
可选的,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值包括:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页文本信息样本的可信度预测分值。
可选的,所述获取无标签的网站样本集之后,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值之前包括:
获取每个所述无标签的网站样本的网站文本信息;
基于所述无标签的网站样本的网站文本信息形成无标签的网站文本信息样本集;
相应的,所述基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值包括:
基于所述一种可信识别模型获得每个所述无标签的网站文本信息样本的可信度预测分值。
可选的,所述将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本包括:
将所述可信度预测分值满足预设阈值的所述无标签的网站文本信息样本集中的无标签的网站文本信息样本标记为带标签的标记网站文本信息样本;
基于所述带标签的标记网站文本信息样本标记对应的网站样本为带标签的标记网站样本。
可选的,所述将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,还包括:
基于所述图片模态获取所述带标签的初始网站样本集中每个所述带标签的初始网站样本和每个标记网站样本的网页截图;
基于每个所述带标签的初始网站样本和每个标记网站样本的网页截图形成带标签的网页截图样本集。
可选的,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值包括:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网页截图样本的可信度预测分值。
根据本说明书实施例的第二方面,提供了一种风险网站识别方法,包括:
接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
可选的,所述至少两种模态包括图片模态和文本模态,
相应的,所述接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息包括:
接收待识别网站,并确定所述待识别网站的图片模态的网站信息;和
接收待识别网站,并确定所述待识别网站的文本模态的网站信息。
可选的,所述确定所述待识别网站的图片模态的网站信息包括:
获取所述待识别网站的网页截图,确定所述待识别网站的图片模态的网站信息。
可选的,所述确定所述待识别网站的文本模态的网站信息包括:
获取所述待识别网站的文本信息,确定所述待识别网站的文本模态的网站信息。
可选的,所述基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值包括:
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的网页截图的第一可信度预测分值。
可选的,所述基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值包括:
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的文本信息的第二可信度预测分值。
根据本说明书实施例的第三方面,提供了一种识别模型的训练装置,包括:
标签样本集以及识别模型确定模块,被配置为确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每个模态对应一个可信识别模型;
第一识别模型训练模块,被配置为基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
无标签样本集获取模块,被配置为获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
标记模块,被配置为将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
第二识别模型训练模块,被配置为基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
根据本说明书实施例的第四方面,提供了一种风险网站识别装置,包括:
网站接收模块,被配置为接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
第一可信度预测分值模块,被配置为基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
第二本可信度预测分值模块,被配置为基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
风险网站确定模块,被配置为在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
根据本说明书实施例的第六方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述识别模型的训练方法或实现任意一项所述风险网站识别方法的步骤。
本说明书一个或多个实施例提供了一种识别模型的训练方法,包括:确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型;基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值;
本说明书提供的所述识别模型的训练方法采用网站样本的双模态网站信息分别依次对至少两种可信识别模型进行训练,当采用有标签的网站样本的一种模态的网站信息对其中一种可信识别模型训练后,从无标签的网站样本中随机抽取一部分网站样本,利用训练完成的一种可信识别模型输出这部分抽取的网站样本的可信度预测分值,将这部分抽取的网站样本的可信度预测分值满足预设阈值的网站样本添加到有标签的网站样本中,切换另一种模态,对另一种可信识别模型进行训练,依次轮换,直至无标签的网站样本中没有满足预设阈值的网站样本结束,通过这种协同训练的联合训练方式,解决了网站样本数据不足的问题,能够更好的扩充可信度识别模型识别风险网站的形态。
附图说明
图1是本说明书一个实施例提供的第一种识别模型的训练方法的流程图;
图2是本说明书一个实施例提供的第二种识别模型的训练方法的流程图;
图3是本说明书一个实施例提供的第二种识别模型的训练方法的具体循环示意图;
图4是本说明书一个实施例提供的第一种风险网站识别方法的流程图;
图5是本说明书一个实施例提供的第二种风险网站识别方法的流程图;
图6是本说明书一个实施例提供的一种识别模型的训练装置的结构示意图;
图7是本说明书一个实施例提供的一种风险网站识别装置的结构示意图;
图8是本说明书一个实施例提供的第一种计算设备的框架图;
图9是本说明书一个实施例提供的第二种计算设备的框架图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
Co-training:协同训练,一种数据融合的半监督模型训练方案。
多模态:多种数据形态,例如图片数据、文本数据等。
数据融合:将不同视角、来源的数据进行融合,综合多角度信息得到判断。
图像模型:以图片数据作为输入的模型,例如卷积神经网络等。
文本模型:以文本数据作为输入的模型,例如长短期记忆网络(LSTM,Long Short-Term Memory)等。
在本说明书中,提供了一种识别模型的训练方法、一种风险网站识别方法,本说明书同时涉及一种识别模型的训练装置,一种风险网站识别装置,两种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的第一种识别模型的训练方法的流程图,包括步骤102至步骤110。
步骤102:确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型。
其中,所述标签包括白标签和黑标签;所述带标签的初始网站样本集中包括至少两个或两个以上的带白标签或者带黑标签的初始网站样本;而实际应用中,带白标签的初始网站样本可以理解为无风险的初始网站样本,例如已知是安全的网站,带黑标签的初始网站样本可以理解为有风险的初始网站样本,例如用户投诉的网站等。
具体的,输入网站的至少两种模态的网站信息可以理解为网站的至少两种模态的网站信息,例如图片模态的网站信息以及文本模态的网站信息等,通俗的理解,图片模态的网站信息可以理解为对网站的网页截图获取的包含网页内容的图片模态的网页、文本模态的网站信息可以理解为通过爬虫等方式获取对网站中的文字内容进行爬取获得的网站内容。
具体实施时,通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型可以实现下述两种对网站的可信识别:第一种,在其中一种可信识别模型中输入网站的图片模态的网站信息对该网站进行可信识别;第二种:在其中一种可信识别模型中输入网站的文本模态的网站信息对该网站进行可信识别。
此外,可信识别模型的种类数量根据网站信息的模态的数量确定;具体的,网站信息的模态的种类越多,对应的可信识别模型的种类也就越多;为了便于理解,本说明书实施例中,均以所述网站信息的模态包括图片模态和文本模态为例进行说明;而在网站信息的模态为图片模态的情况下,对应的可信识别模型可以为图像模型,在网站信息的模态为文本模态的情况下,对应的可信识别模型可以为文本模型。
具体的,每种模态对应一种可信识别模型,以所述模态包括图片模态和文本模态为例,若所述至少两种可信识别模型包括图像模型和文本模型,则所述图片模态对应图像模型,所述文本模态对应文本模型。
本说明书一个或多个实施例中,所述至少两种模态包括图片模态和文本模态,
相应的,所述确定带标签的初始网站样本集之后,还包括:
基于所述图片模态获取所述带标签的初始网站样本集;或者
基于所述文本模态获取所述带标签的初始网站样本集。
进一步的,确定通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型包括:
确定通过输入网站的图片模态和文本模态的网站信息对网站进行可信识别的至少两种可信识别模型。
具体实施时,先确定所述带标签的初始网站样本集和可信识别模型,其中,可信识别模型是基于获取的网站样本的至少两种模态的网站信息确定的,例如若网站信息是图片模态,则可信识别模型可以为图像模型;若网站信息是文本模态,则可信识别模型可以为文本模型。
本说明书一个或多个实施例中,在所述模态为图片模态的情况下,所述基于所述图片模态获取所述带标签的初始网站样本集包括:
基于所述图片模态获取每个所述带标签的初始网站样本的网页截图;
基于所述带标签的初始网站样本的网页截图形成带标签的网页截图样本集。
具体的,基于所述图片模态获取每个所述带标签的初始网站样本的网页截图可以理解为首先对每个初始网站样本的网页进行渲染后,获取每个所述带标签的初始网站样本的网页截图并保存;将每个初始网站样本的整张网页截图代替网页元素中的零碎图片作为对应的图像模型的输入,能够保留每个网站中网页的整体布局和结构信息,模拟人眼看到网页的时候能够捕捉的信息,且一个网页只对应一个图片,省去了图片标注的过程,此种情况下,若该网页截图为有风险就可以等价于对应的网站有风险。
本说明书一个或多个实施例中,在所述模态为文本模态的情况下,所述基于所述文本模态获取所述带标签的初始网站样本集包括:
基于所述文本模态获取每个所述带标签的初始网站样本的网站文本信息;
基于所述带标签的初始网站样本的网站文本信息形成带标签的网站文本信息样本集。
具体的,基于所述文本模态获取每个所述带标签的初始网站样本的网站文本信息可以理解为基于所述文本模态爬取每个所述带标签的初始网站样本的网站文本信息;将爬取到的网站的文本信息作为对应的文本模型的输入,通过爬取到的网站的文本信息,识别出有风险的文本信息以确定该网站是否存在风险。
步骤104:基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值。
以所述模态包括图片模态为例,本说明书一个或多个实施例中,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值包括:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页截图样本的可信度预测分值。
具体实施时,所述一种可信识别模型可以为图像模型;基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页截图样本的可信度预测分值可以理解为:
基于所述带标签的网页截图样本集对所述图像模型进行训练,得到所述图像模型,所述图像模型输出每个所述网页截图样本的可信度预测分值。
以所述模态包括文本模态为例,本说明书一个或多个实施例中,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值包括:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页文本信息样本的可信度预测分值。
具体实施时,所述一种可信识别模型可以为文本模型;基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页文本信息样本的可信度预测分值可以理解为:
基于所述带标签的网站文本信息样本集对所述文本模型进行训练,得到所述文本模型,所述文本模型输出每个所述网页文本信息样本的可信度预测分值。
步骤106:获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值。
实际应用中,在进行识别模型训练时,会采用一部分带标签的网站样本和一部分无标签的网站样本,而每次利用训练好的可信识别模型对无标签的网站样本进行打分时,只会随机抽取一小部分的无标签的网站样本进行打分,例如从一百个无标签的网站样本中随机抽取五个或十个等,避免一个可信识别模型的误判导致训练数据中混入大量错误数据,误导下一个可信识别模型的学习。
在所述模态为图片模态的情况下,所述获取无标签的网站样本集之后,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值之前包括:
获取每个所述无标签的网站样本的网页截图;
基于所述无标签的网站样本的网页截图形成无标签的网页截图样本集;
相应的,所述基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值包括:
基于所述一种可信识别模型获得每个所述无标签的网页截图样本的可信度预测分值。
具体实施时,所述一种可信识别模型可以为图像模型,所述基于所述一种可信识别模型获得每个所述无标签的网页截图样本的可信度预测分值可以理解为:
基于所述图像模型获得每个所述无标签的网页截图样本的可信度预测分值。
在所述模态为文本模态的情况下,所述获取无标签的网站样本集之后,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值之前包括:
获取每个所述无标签的网站样本的网站文本信息;
基于所述无标签的网站样本的网站文本信息形成无标签的网站文本信息样本集;
相应的,所述基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值包括:
基于所述一种可信识别模型获得每个所述无标签的网站文本信息样本的可信度预测分值。
具体实施时,所述一种可信识别模型可以为文本模型;基于所述一种可信识别模型获得每个所述无标签的网站文本信息样本的可信度预测分值可以理解为:
基于所述文本模型获得每个所述无标签的网站文本信息样本的可信度预测分值。
步骤108:将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中。
在所述模态包括图片模态的情况下,本说明书实施例中,所述将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本包括:
将所述可信度预测分值满足预设阈值的所述无标签的网页截图样本集中的无标签的网页截图样本标记为带标签的标记网页截图样本;
基于所述带标签的标记网页截图样本标记对应的网站样本为带标签的标记网站样本。
具体的,所述预设阈值根据实际应用情况进行设定,在此不做任何限定;所述可信度预测分值满足预设阈值可以理解为所述可信度预测分值大于等于预设阈值。
以预设阈值为5为例,若所述无标签的网页截图样本集中的无标签的网页截图样本基于所述一种可信识别模型获得的可信度预测分值为10,则该无标签的网页截图样本的可信度预测分值满足预设阈值,则可以将其标记为带标签的标记网页截图样本。
进一步的,所述将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,还包括:
基于所述文本模态获取所述带标签的初始网站样本集中每个所述初始网站样本和每个所述标记网站样本的网站文本信息;
基于每个所述初始网站样本和每个所述标记网站样本的网站文本信息形成带标签的网站文本信息样本集。
实际应用中,将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,切换所述模态,将所述图片模态切换为文本模态,然后获取带标签的初始网站样本和可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本的网站文本信息,形成带标签的网站文本信息样本集。
在所述模态包括文本模态的情况下,所述将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本包括:
将所述可信度预测分值满足预设阈值的所述无标签的网站文本信息样本集中的无标签的网站文本信息样本标记为带标签的标记网站文本信息样本;
基于所述带标签的标记网站文本信息样本标记对应的网站样本为带标签的标记网站样本。
具体的,所述预设阈值根据实际应用情况进行设定,在此不做任何限定;所述可信度预测分值满足预设阈值可以理解为所述可信度预测分值大于等于预设阈值。
以预设阈值为10为例,若所述无标签的网站文本信息样本集中的无标签的网站文本信息样本基于所述一种可信识别模型获得的可信度预测分值为5,则该无标签的网站文本信息样本的可信度预测分值不满足预设阈值,则不会将其标记为带标签的标记网页截图样本。
进一步的,所述将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,还包括:
基于所述图片模态获取所述带标签的初始网站样本集中每个所述带标签的初始网站样本和每个标记网站样本的网页截图;
基于每个所述带标签的初始网站样本和每个标记网站样本的网页截图形成带标签的网页截图样本集。
实际应用中,将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,切换所述模态,将所述文本模态切换为图片模态,然后获取带标签的初始网站样本和可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本的网页截图,形成带标签的网页截图样本集。
具体实施时,将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中可以理解为,将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本添加到带标签的初始网站样本集中,并在所述无标签的网站样本集中剔除。
步骤110:基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
仍以上述为例,在所述图片模态切换为文本模态的情况下,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值包括:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网站文本信息的可信度预测分值。
具体的,在所述图片模态切换为文本模态的情况下,所述另一种可信识别模型可以为文本模型;基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网站文本信息的可信度预测分值可以理解为:
基于所述带标签的网站文本信息样本集对所述文本模型进行训练,得到所述文本模型,所述文本模型输出每个所述带标签的初始网站样本的网站文本信息和标记网站样本的网站文本信息的可信度预测分值。
在所述图片模态切换为文本模态的情况下,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值包括:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网页截图样本的可信度预测分值。
具体的,在所述文本模态切换为图片模态的情况下,所述另一种可信识别模型可以为图像模型;基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网页截图样本的可信度预测分值可以理解为:
基于所述带标签的网站文本信息样本集对所述图像模型进行训练,得到所述图像模型,所述图像模型输出每个所述带标签的初始网站样本的网页截图和所述标记网站样本的网页截图的可信度预测分值。
本说明书实施例的所述识别模型的训练方法采用双模态的网站样本的网站信息分别依次对模型进行训练,当完成图片模态对应的图像模型或者文本模态对应的文本模型训练后,从无标签的网站样本中随机抽取一小部分网站样本,利用刚才训练完成的图像模型或者文本模型对这些抽出的无标签网站进行打分,即可信度预测分值预测,对其中得分具有高置信度的无标签网站样本,即可信度预测分值满足预设阈值的无标签网站样本,根据分值归入已知标签的网站样本集中,并从无标签网站样本集中剔除。然后切换模态,进行另一个模态(图片模态或文本模态)的模型(图像模型或文本模型)训练。依次轮换,直至无法从无标签网站样本中捞出更多高置信度的网站样本。其中,每次对无标签网站打分,都只随机抽取一小部分进行打分,这是为了避免一个模型的误判导致训练数据中混入大量错误数据,误导之后的模型学习,采用这种多模态Co-training可以补充原本不充分的训练样本。举例说明:文本模型学习到含有“返水”这个词的网站是风险网站,然后从无标签网站中抽一些网站进行检查,若发现有“返水”这个词,就认为该网站是风险网站,那么该风险网站就可以作为图像模型的训练样本使用,从而学习到这些新补充网站的图像特征,如此一来,模型可以学到更丰富的风险网站特征;
本说明书提供的识别模型的训练方法可以省去了大量人力标注工作,使模型的更新迭代更加快速便捷。因模型训练所需的数据更少,当新的风险网站形态出现时,通过少量的样本数据,就能对模型进行升级。并且一个网站的网页只做一个图片输入,保留了网站整个网页的结构信息,同时解决了对单张图片是否有风险难以界定的困扰,并且结合图片模态和文本模态,解决了仅靠单模态数据无法召回的风险网站形态,不论网站在文本或是图像上存在风险网站形态,都能够被识别到,采用Co-training的联合训练方式,能够更好地扩充模型以及扩大该模型识别的风险网站的形态。
参见图2和图3,以所述至少两种可信识别模型包括图像模型和文本模型为例,本说明书一个实施例提供了第二种识别模型的训练方法的流程图,包括步骤202至步骤212。
步骤202:确定带标签的初始网站样本集。
步骤204:获取每个所述带标签的初始网站样本的网页截图,并基于所述带标签的初始网站样本的网页截图形成带标签的网页截图样本集。
步骤206:基于所述带标签的网页截图样本集对所述图像模型进行训练,得到所述图像模型,所述图像模型输出每个所述网页截图样本的可信度预测分值。
步骤208:获取无标签的网站样本集中预设个数的无标签的网站样本的网页截图,然后通过所述图像模型输出每个所述无标签的网站样本的网页截图的可信度预测分值。
步骤210:切换至文本模态,确定带标签的初始网站样本集以及网页截图的可信度预测分值满足预设阈值的标记为带标签的网站样本,并获取这两种网站样本的网站文本信息形成带标签的网站文本信息集。
步骤212:基于所述带标签的网站文本信息集对所述文本模型进行训练,得到所述文本模型,所述文本模型输出每个所述网站文本信息的可信度预测分值,继续切换至图像模型,依据上述步骤对图像模型进行训练,依次轮换,直至所述无标签的网站样本集中的无标签的网站样本基于所述图像模型或者所述文本模型的可信度预测分值均不满足预设阈值结束。
本说明书实施例的所述识别模型的训练方法的具体循环过程可以参见图3,图3示出了通过带标签的初始网站样本集以及无标签的网站样本集对图像模型和文本模型进行交替训练的详细循环过程。
本说明书实施例的所述识别模型的训练方法采用图片模态和文本模态两种模态的网站样本的网站信息分别依次对模型进行训练,当完成图片模态对应的图像模型训练后,从无标签的网站样本中随机抽取一小部分网站样本,利用刚才训练完成的图像模型对这些抽出的无标签网站进行打分,即可信度预测分值预测,对其中得分具有高置信度的无标签网站样本,即可信度预测分值满足预设阈值的无标签网站样本,根据分值归入已知标签的网站样本集中,并从无标签网站样本集中剔除。然后切换模态,进行文本模态对应的文本模型训练。依次轮换,直至无法从无标签网站样本中捞出更多高置信度的网站样本,将样本网站的整页网页截图作为图像模型的输入,替代常规的网站图片爬取获得的图片数据,从而保留网页结构设计信息,采用图片和文本的双模态数据Co-training的方式训练识别模型,替代常规单模态数据训练,解决样本数据不充分的问题。
参见图4,图4示出了根据本说明书一个实施例提供的第一种风险网站识别方法的流程图,包括步骤402至步骤408。
步骤402:接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息。
实际应用中,待识别网站包括用户投诉网站或者是系统主动获取的网站等。
本说明书一个或多个实施例中,所述至少两种模态包括图片模态和文本模态,
相应的,所述接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息包括:
接收待识别网站,并确定所述待识别网站的图片模态的网站信息;和
接收待识别网站,并确定所述待识别网站的文本模态的网站信息。
具体的,所述确定所述待识别网站的图片模态的网站信息包括:
获取所述待识别网站的网页截图,确定所述待识别网站的图片模态的网站信息。
所述确定所述待识别网站的文本模态的网站信息包括:
获取所述待识别网站的文本信息,确定所述待识别网站的文本模态的网站信息。
实际应用中,首先接收待识别网站,然后获取所述待识别网站的网页截图,确定所述待识别网站的图片模态的网站信息,同时获取所述待识别网站的文本信息,确定所述待识别网站的文本模态的网站信息。
本说明书实施例中,获取所述待识别网站的两种模态的网站信息,可以在后续对待识别网站进行识别时提升识别结果准确率。
步骤404:基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值。
具体的,所述至少两种可信识别模型包括图像模型和文本模型,具体实施时,对图片模态的待识别网站的网站信息进行识别时采用图像模型,对文本模态的待识别网站的网站信息进行识别时采用文本模型。
本说明书一个或多个实施例中,所述基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值包括:
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的网页截图的第一可信度预测分值。
实际使用中,在所述模态包括图片模态的情况下,所述至少两种可信识别模型中的一种可信识别模型包括图像模型;
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的网页截图的第一可信度预测分值可以理解为:
基于预先训练的所述图像模型获得对应的所述待识别网站的网页截图的第一可信度预测分值。
步骤406:基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值。
本说明书一个或多个实施例中,所述基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值包括:
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的文本信息的第二可信度预测分值。
实际使用中,在所述模态包括文本模态的情况下,所述至少两种可信识别模型中的一种可信识别模型包括文本模型;
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的文本信息的第二可信度预测分值可以理解为:
基于预先训练的所述文本模型获得对应的所述待识别网站的文本信息的第二可信度预测分值。
步骤408:在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
实际应用中,所述预设条件包括但不限于所述第一可信度预测分值大于等于第一预设阈值、所述第二可信度预测分值大于等于第二预设阈值、所述第一可信度预测分值大于等于第一预设阈值并且所述第二可信度预测分值大于等于第二预设阈值;其中,所述第一预设阈值、第二预设阈值可以根据具体应用进行设置,在此不做任何限定。例如所述第一预设阈值为1,所述第二预设阈值为2,那么所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况则为,所述第一可信度预测分值大于等于1、所述第二可信度预测分值大于等于2、所述第一可信度预测分值大于等于1并且所述第二可信度预测分值大于等于2的情况。
仍以上述为例,预设条件包括所述第一可信度预测分值大于等于1并且所述第二可信度预测分值大于等于2,此时若所述第一可信度预测分值为3,所述第二可信度预测分值为5,则所述第一可信度预测分值和所述第二可信度预测分值均满足预设条件,则可以确定所述待识别网站为风险网站。
本说明书实施例提供的所述风险识别方法在接收到待识别网站之后,获取所述待识别网站的两种模态的网站信息,然后基于预先训练好的每种模态对应的可信识别模型输出该待识别网站的每种模态的网站信息的可信度预测分值,基于两个可信度预测分值确定出待识别网站是否为风险网站,采用这种双模态数据融合方式,替代单模态模型决策,提升结果准确率与召回率。
参见图5,图5示出了根据本说明书一个实施例提供的第二种风险网站识别方法的流程图,包括步骤502至步骤514。
步骤502:接收待识别网站。
步骤504:获取所述待识别网站的网页截图,确定所述待识别网站的图片模态的网站信息。
步骤506:获取所述待识别网站的文本信息,确定所述待识别网站的文本模态的网站信息。
具体实施时,所述步骤504和步骤506在执行时不分先后顺序,可以同时执行。
步骤508:基于预先训练的所述图像模型获得对应的所述待识别网站的网页截图的第一可信度预测分值。
步骤510:基于预先训练的所述文本模型获得对应的所述待识别网站的文本信息的第二可信度预测分值。
具体实施时,所述步骤508和步骤510在执行时不分先后顺序,可以同时执行。
步骤512:对基于所述图像模型和所述文本模型获得的第一可信度预测分值以及第二可信度预测分值进行数据融合。
具体的,数据融合分早期融合、中期融合、晚期融合。本说明书实施例采用晚期融合的方案,也就是对图像模型和文本模型的输出进行融合决策,最终实现风险网站的识别。晚期融合方案,简单的理解可以是一个策略:例如风险识别网站基于图像模型得分(即可信度预测分值)大于阈值1和/或基于文本模型得分大于阈值2。较复杂的可以是模型继承Ensamble,用两个得分训练一个融合模型,在此不做任何限定。
步骤514:在所述第一可信度预测分值大于1以及第二可信度预测分值大于3情况下,确定所述待识别网站为风险网站。
本说明书实施例提供的所述风险识别方法在接收到待识别网站之后,获取所述待识别网站的两种模态的网站信息,然后基于预先训练好的图像模型和文本模型获得该待识别网站图片模态以及文本模态下的可信度预测分值,基于两个可信度预测分值确定出待识别网站是否为风险网站,采用这种双模态数据融合方式,替代单模态模型决策,提升结果准确率与召回率。
参见图6,与上述识别模型的训练方法实施例相对应,本说明书还提供了一种识别模型的训练装置实施例,如图6所示,该装置包括:
标签样本集以及识别模型确定模块602,被配置为确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每个模态对应一个可信识别模型;
第一识别模型训练模块604,被配置为基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
无标签样本集获取模块606,被配置为获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
标记模块608,被配置为将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
第二识别模型训练模块610,被配置为基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
可选的,所述至少两种模态包括图片模态和文本模态,
相应的,所述装置,还包括:
第一获取模块,被配置为基于所述图片模态获取所述带标签的初始网站样本集;或者
第二获取模块,被配置为基于所述文本模态获取所述带标签的初始网站样本集。
可选的,所述标签样本集以及识别模型确定模块602,进一步被配置为:
确定通过输入网站的图片模态和文本模态的网站信息对网站进行可信识别的至少两种可信识别模型。
可选的,所述第一获取模块,进一步被配置为:
基于所述图片模态获取每个所述带标签的初始网站样本的网页截图;
基于所述带标签的初始网站样本的网页截图形成带标签的网页截图样本集。
可选的,所述第二获取模块,进一步被配置为包括:
基于所述文本模态获取每个所述带标签的初始网站样本的网站文本信息;
基于所述带标签的初始网站样本的网站文本信息形成带标签的网站文本信息样本集。
可选的,所述第一识别模型训练模块604,进一步被配置为:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页截图样本的可信度预测分值。
可选的,所述装置,还包括:
第三获取模块,被配置为获取每个所述无标签的网站样本的网页截图;
第一生成模块,被配置为基于所述无标签的网站样本的网页截图形成无标签的网页截图样本集;
相应的,所述无标签样本集获取模块606,进一步被配置为:
基于所述一种可信识别模型获得每个所述无标签的网页截图样本的可信度预测分值。
可选的,所述标记模块608,进一步被配置为:
将所述可信度预测分值满足预设阈值的所述无标签的网页截图样本集中的无标签的网页截图样本标记为带标签的标记网页截图样本;
基于所述带标签的标记网页截图样本标记对应的网站样本为带标签的标记网站样本。
可选的,所述装置,还包括:
第四获取模块,被配置为基于所述文本模态获取所述带标签的初始网站样本集中每个所述初始网站样本和每个所述标记网站样本的网站文本信息;
第二生成模块,被配置为基于每个所述初始网站样本和每个所述标记网站样本的网站文本信息形成带标签的网站文本信息样本集。
可选的,所述第二识别模型训练模块610,进一步被配置为:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网站文本信息的可信度预测分值。
可选的,所述第一识别模型训练模块604,进一步被配置为:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页文本信息样本的可信度预测分值。
可选的,所述装置,还包括:
第五获取模块,被配置为获取每个所述无标签的网站样本的网站文本信息;
第三生成模块,被配置为基于所述无标签的网站样本的网站文本信息形成无标签的网站文本信息样本集;
相应的,所述无标签样本集获取模块606,进一步被配置为:
基于所述一种可信识别模型获得每个所述无标签的网站文本信息样本的可信度预测分值。
可选的,所述标记模块608,进一步被配置为:
将所述可信度预测分值满足预设阈值的所述无标签的网站文本信息样本集中的无标签的网站文本信息样本标记为带标签的标记网站文本信息样本;
基于所述带标签的标记网站文本信息样本标记对应的网站样本为带标签的标记网站样本。
可选的,所述装置,还包括:
第六获取模块,被配置为基于所述图片模态获取所述带标签的初始网站样本集中每个所述带标签的初始网站样本和每个标记网站样本的网页截图;
第四生成模块,被配置为基于每个所述带标签的初始网站样本和每个标记网站样本的网页截图形成带标签的网页截图样本集。
可选的,所述第二识别模型训练模块610,进一步被配置为:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网页截图样本的可信度预测分值。
本说明书实施例的所述识别模型的训练装置采用双模态的网站样本的网站信息分别依次对模型进行训练,当完成图片模态对应的图像模型或者文本模态对应的文本模型训练后,从无标签的网站样本中随机抽取一小部分网站样本,利用刚才训练完成的图像模型或者文本模型对这些抽出的无标签网站进行打分,即可信度预测分值预测,对其中得分具有高置信度的无标签网站样本,即可信度预测分值满足预设阈值的无标签网站样本,根据分值归入已知标签的网站样本集中,并从无标签网站样本集中剔除。然后切换模态,进行另一个模态(图片模态或文本模态)的模型(图像模型或文本模型)训练。依次轮换,直至无法从无标签网站样本中捞出更多高置信度的网站样本。其中,每次对无标签网站打分,都只随机抽取一小部分进行打分,这是为了避免一个模型的误判导致训练数据中混入大量错误数据,误导之后的模型学习,采用这种多模态Co-training可以补充原本不充分的训练样本。举例说明:文本模型学习到含有“返水”这个词的网站是风险网站,然后从无标签网站中抽一些网站进行检查,若发现有“返水”这个词,就认为该网站是风险网站,那么该风险网站就可以作为图像模型的训练样本使用,从而学习到这些新补充网站的图像特征,如此一来,模型可以学到更丰富的风险网站特征。
上述为本实施例的一种识别模型的训练装置的示意性方案。需要说明的是,该识别模型的训练装置的技术方案与上述的识别模型的训练方法的技术方案属于同一构思,识别模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述识别模型的训练方法的技术方案的描述。
参见图7,与上述风险网站识别方法实施例相对应,本说明书还提供了一种风险网站识别装置实施例,如图7所示,该装置包括:
网站接收模块702,被配置为接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
第一可信度预测分值模块704,被配置为基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
第二本可信度预测分值模块706,被配置为基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
风险网站确定模块708,被配置为在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
可选的,所述至少两种模态包括图片模态和文本模态,
相应的,所述网站接收模块702,进一步被配置为:
接收待识别网站,并确定所述待识别网站的图片模态的网站信息;和
接收待识别网站,并确定所述待识别网站的文本模态的网站信息。
可选的,所述网站接收模块702,进一步被配置为:
获取所述待识别网站的网页截图,确定所述待识别网站的图片模态的网站信息。
可选的,所述网站接收模块702,进一步被配置为:
获取所述待识别网站的文本信息,确定所述待识别网站的文本模态的网站信息。
可选的,所述第一可信度预测分值模块704,进一步被配置为:
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的网页截图的第一可信度预测分值。
可选的,所述第二本可信度预测分值模块706,进一步被配置为:
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的文本信息的第二可信度预测分值。
本说明书实施例提供的所述风险识别装置在接收到待识别网站之后,获取所述待识别网站的两种模态的网站信息,然后基于预先训练好的每种模态对应的可信识别模型输出该待识别网站的每种模态的网站信息的可信度预测分值,基于两个可信度预测分值确定出待识别网站是否为风险网站,采用这种双模态数据融合方式,替代单模态模型决策,提升结果准确率与召回率。
上述为本实施例的一种风险网站识别装置的示意性方案。需要说明的是,该风险网站识别装置的技术方案与上述的风险网站识别方法的技术方案属于同一构思,风险网站识别装置的技术方案未详细描述的细节内容,均可以参见上述风险网站识别方法的技术方案的描述。
图8示出了根据本说明书一个实施例提供的第一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令:
确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
上述为本实施例的第一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的识别模型的训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述的识别模型的训练方法的技术方案的描述。
图9示出了根据本说明书一个实施例提供的第二种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
所述处理器920用于执行如下计算机可执行指令:
接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
上述为本实施例的第二种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的风险网站识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述的风险网站识别方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述识别模型的训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的识别模型的训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述识别模型的训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意一项所述风险网站识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的风险网站识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述风险网站识别方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (26)

1.一种识别模型的训练方法,包括:
确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
2.根据权利要求1所述的识别模型的训练方法,所述至少两种模态包括图片模态和文本模态,
相应的,所述确定带标签的初始网站样本集之后,还包括:
基于所述图片模态获取所述带标签的初始网站样本集;或者
基于所述文本模态获取所述带标签的初始网站样本集。
3.根据权利要求2所述的识别模型的训练方法,确定通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型包括:
确定通过输入网站的图片模态和文本模态的网站信息对网站进行可信识别的至少两种可信识别模型。
4.根据权利要求3所述的方法,所述基于所述图片模态获取所述带标签的初始网站样本集包括:
基于所述图片模态获取每个所述带标签的初始网站样本的网页截图;
基于所述带标签的初始网站样本的网页截图形成带标签的网页截图样本集。
5.根据权利要求3所述的方法,所述基于所述文本模态获取所述带标签的初始网站样本集包括:
基于所述文本模态获取每个所述带标签的初始网站样本的网站文本信息;
基于所述带标签的初始网站样本的网站文本信息形成带标签的网站文本信息样本集。
6.根据权利要求4所述的识别模型的训练方法,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值包括:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页截图样本的可信度预测分值。
7.根据权利要求6所述的识别模型的训练方法,所述获取无标签的网站样本集之后,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值之前包括:
获取每个所述无标签的网站样本的网页截图;
基于所述无标签的网站样本的网页截图形成无标签的网页截图样本集;
相应的,所述基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值包括:
基于所述一种可信识别模型获得每个所述无标签的网页截图样本的可信度预测分值。
8.根据权利要求7所述的识别模型的训练方法,所述将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本包括:
将所述可信度预测分值满足预设阈值的所述无标签的网页截图样本集中的无标签的网页截图样本标记为带标签的标记网页截图样本;
基于所述带标签的标记网页截图样本标记对应的网站样本为带标签的标记网站样本。
9.根据权利要求8所述的识别模型的训练方法,所述将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,还包括:
基于所述文本模态获取所述带标签的初始网站样本集中每个所述初始网站样本和每个所述标记网站样本的网站文本信息;
基于每个所述初始网站样本和每个所述标记网站样本的网站文本信息形成带标签的网站文本信息样本集。
10.根据权利要求9所述的识别模型的训练方法,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值包括:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网站文本信息的可信度预测分值。
11.根据权利要求5所述的识别模型的训练方法,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值包括:
基于所述带标签的网站文本信息样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述网页文本信息样本的可信度预测分值。
12.根据权利要求11所述的识别模型的训练方法,所述获取无标签的网站样本集之后,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值之前包括:
获取每个所述无标签的网站样本的网站文本信息;
基于所述无标签的网站样本的网站文本信息形成无标签的网站文本信息样本集;
相应的,所述基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值包括:
基于所述一种可信识别模型获得每个所述无标签的网站文本信息样本的可信度预测分值。
13.根据权利要求12所述的识别模型的训练方法,所述将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本包括:
将所述可信度预测分值满足预设阈值的所述无标签的网站文本信息样本集中的无标签的网站文本信息样本标记为带标签的标记网站文本信息样本;
基于所述带标签的标记网站文本信息样本标记对应的网站样本为带标签的标记网站样本。
14.根据权利要求13所述的识别模型的训练方法,所述将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中之后,还包括:
基于所述图片模态获取所述带标签的初始网站样本集中每个所述带标签的初始网站样本和每个标记网站样本的网页截图;
基于每个所述带标签的初始网站样本和每个标记网站样本的网页截图形成带标签的网页截图样本集。
15.根据权利要求14所述的识别模型的训练方法,所述基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值包括:
基于所述带标签的网页截图样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述带标签的网页截图样本的可信度预测分值。
16.一种风险网站识别方法,包括:
接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
17.根据权利要求16所述的风险网站识别方法,所述至少两种模态包括图片模态和文本模态,
相应的,所述接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息包括:
接收待识别网站,并确定所述待识别网站的图片模态的网站信息;和
接收待识别网站,并确定所述待识别网站的文本模态的网站信息。
18.根据权利要求17所述的风险网站识别方法,所述确定所述待识别网站的图片模态的网站信息包括:
获取所述待识别网站的网页截图,确定所述待识别网站的图片模态的网站信息。
19.根据权利要求17所述的风险网站识别方法,所述确定所述待识别网站的文本模态的网站信息包括:
获取所述待识别网站的文本信息,确定所述待识别网站的文本模态的网站信息。
20.根据权利要求18所述的风险网站识别方法,所述基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值包括:
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的网页截图的第一可信度预测分值。
21.根据权利要求19所述的风险网站识别方法,所述基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值包括:
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的文本信息的第二可信度预测分值。
22.一种识别模型的训练装置,包括:
标签样本集以及识别模型确定模块,被配置为确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每个模态对应一个可信识别模型;
第一识别模型训练模块,被配置为基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
无标签样本集获取模块,被配置为获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
标记模块,被配置为将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
第二识别模型训练模块,被配置为基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
23.一种风险网站识别装置,包括:
网站接收模块,被配置为接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
第一可信度预测分值模块,被配置为基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
第二本可信度预测分值模块,被配置为基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
风险网站确定模块,被配置为在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
24.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
确定带标签的初始网站样本集以及通过输入网站的至少两种模态的网站信息对网站进行可信识别的至少两种可信识别模型,其中,每种模态对应一种可信识别模型;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的一种可信识别模型进行训练,得到所述一种可信识别模型,所述一种可信识别模型输出每个所述初始网站样本的可信度预测分值;
获取无标签的网站样本集,并基于所述一种可信识别模型获得每个所述无标签的网站样本的可信度预测分值;
将所述可信度预测分值满足预设阈值的所述无标签的网站样本集中的无标签的网站样本标记为带标签的标记网站样本,并将所述带标签的标记网站样本添加至所述带标签的初始网站样本集中;
基于所述带标签的初始网站样本集对所述至少两种可信识别模型中的另一种可信识别模型进行训练,得到所述另一种可信识别模型,所述另一种可信识别模型输出每个所述初始网站样本和每个所述标记网站样本的可信度预测分值。
25.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
接收待识别网站,并确定所述待识别网站的至少两种模态的网站信息;
基于预先训练的至少两种可信识别模型中的一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中一种模态的网站信息的第一可信度预测分值;
基于预先训练的至少两种可信识别模型中的另一种可信识别模型获得对应的所述待识别网站的至少两种模态的网站信息中另一种模态的网站信息的第二可信度预测分值;
在所述第一可信度预测分值和/或所述第二可信度预测分值满足预设条件的情况下,确定所述待识别网站为风险网站。
26.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至15任意一项所述识别模型的训练方法的步骤或16至21任意一项所述风险网站识别方法的步骤。
CN201911056718.1A 2019-10-31 2019-10-31 识别模型的训练方法及装置、风险网站识别方法及装置 Pending CN110807197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911056718.1A CN110807197A (zh) 2019-10-31 2019-10-31 识别模型的训练方法及装置、风险网站识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911056718.1A CN110807197A (zh) 2019-10-31 2019-10-31 识别模型的训练方法及装置、风险网站识别方法及装置

Publications (1)

Publication Number Publication Date
CN110807197A true CN110807197A (zh) 2020-02-18

Family

ID=69489950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911056718.1A Pending CN110807197A (zh) 2019-10-31 2019-10-31 识别模型的训练方法及装置、风险网站识别方法及装置

Country Status (1)

Country Link
CN (1) CN110807197A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111932041B (zh) * 2020-10-09 2021-01-05 支付宝(杭州)信息技术有限公司 基于风险识别的模型训练方法、装置和电子设备
CN112749841A (zh) * 2020-12-30 2021-05-04 科大国创云网科技有限公司 一种基于自训练学习的用户口碑预测方法及系统
CN113780314A (zh) * 2020-05-20 2021-12-10 阿里巴巴集团控股有限公司 一种分类模型训练方法、装置和系统
CN114399816A (zh) * 2021-12-28 2022-04-26 北方工业大学 社区火灾风险感知方法及装置
CN114529993A (zh) * 2022-02-25 2022-05-24 支付宝(杭州)信息技术有限公司 图片识别方法及装置
CN115221523A (zh) * 2022-09-20 2022-10-21 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置
CN109617864A (zh) * 2018-11-27 2019-04-12 烟台中科网络技术研究所 一种网站识别方法及网站识别系统
CN110263824A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 模型的训练方法、装置、计算设备及计算机可读存储介质
CN110275958A (zh) * 2019-06-26 2019-09-24 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备
CN110334262A (zh) * 2019-06-06 2019-10-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置
CN109617864A (zh) * 2018-11-27 2019-04-12 烟台中科网络技术研究所 一种网站识别方法及网站识别系统
CN110263824A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 模型的训练方法、装置、计算设备及计算机可读存储介质
CN110334262A (zh) * 2019-06-06 2019-10-15 阿里巴巴集团控股有限公司 一种模型训练方法、装置及电子设备
CN110275958A (zh) * 2019-06-26 2019-09-24 北京市博汇科技股份有限公司 网站信息识别方法、装置和电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111368092B (zh) * 2020-02-21 2020-12-04 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN113780314A (zh) * 2020-05-20 2021-12-10 阿里巴巴集团控股有限公司 一种分类模型训练方法、装置和系统
CN111932041B (zh) * 2020-10-09 2021-01-05 支付宝(杭州)信息技术有限公司 基于风险识别的模型训练方法、装置和电子设备
CN112749841A (zh) * 2020-12-30 2021-05-04 科大国创云网科技有限公司 一种基于自训练学习的用户口碑预测方法及系统
CN114399816A (zh) * 2021-12-28 2022-04-26 北方工业大学 社区火灾风险感知方法及装置
CN114529993A (zh) * 2022-02-25 2022-05-24 支付宝(杭州)信息技术有限公司 图片识别方法及装置
CN115221523A (zh) * 2022-09-20 2022-10-21 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN115221523B (zh) * 2022-09-20 2022-12-27 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110807197A (zh) 识别模型的训练方法及装置、风险网站识别方法及装置
CN111079406B (zh) 自然语言处理模型训练方法、任务执行方法、设备及系统
CN111274815B (zh) 用于挖掘文本中的实体关注点的方法和装置
KR20170090345A (ko) 디지털 이미지의 시맨틱 태그의 획득 방법 및 장치
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN110609886A (zh) 一种文本分析方法及装置
CN111695344A (zh) 文本的标注方法和装置
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112188311A (zh) 用于确定新闻的视频素材的方法和装置
CN111274813B (zh) 语言序列标注方法、装置存储介质及计算机设备
CN112434746B (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN114266245A (zh) 一种实体链接方法及装置
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN116092101A (zh) 训练方法、图像识别方法、装置、设备及可读存储介质
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN115967549A (zh) 一种基于内外网信息传输的防泄密方法及其相关设备
CN114358313A (zh) 数据处理方法及装置
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
CN113569741A (zh) 图像试题的答案生成方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200218