CN112214707A - 网页内容表征方法、分类方法、装置及设备 - Google Patents

网页内容表征方法、分类方法、装置及设备 Download PDF

Info

Publication number
CN112214707A
CN112214707A CN202011064644.9A CN202011064644A CN112214707A CN 112214707 A CN112214707 A CN 112214707A CN 202011064644 A CN202011064644 A CN 202011064644A CN 112214707 A CN112214707 A CN 112214707A
Authority
CN
China
Prior art keywords
webpage
block
fusion
features
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011064644.9A
Other languages
English (en)
Inventor
高睿哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011064644.9A priority Critical patent/CN112214707A/zh
Publication of CN112214707A publication Critical patent/CN112214707A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种网页内容表征方法及分类方法、装置及设备,包括:针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;将从各个网页区块提取的多个单模态特征进行融合,得到每个网页区块的融合特征;通过预训练模型,利用多个网页区块的融合特征执行自监督预训练任务,以产出网页截图样本集的网页内容表征。

Description

网页内容表征方法、分类方法、装置及设备
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种网页内容表征方法、分类方法、装置及设备。
背景技术
在人机交互模式不断创新的今天,对某一场景或者主体的数据描述呈现出多种表现形式,包括文本、图片、音频、视频等非结构化模态形式、还包括传统的结构化数据。非法平台识别是互联网内容识别中的重要组成部分,也是支付风控场景中的重要内容。网页作为信息的一大载体是非法平台识别中的关键环节,网页内容由文本、图像、音频视频等多种模态的数据共同描述。
发明内容
本说明书实施例提供一种网页内容表征方法、分类方法、装置及设备,适应了网页场景的特殊性,以获得泛化能力较强的网页内容表征。
第一方面,本说明书实施例提供一种网页内容表征方法,包括:针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;将所述多个网页区块的各单模态特征进行融合,得到每个所述网页区块的融合特征;通过预训练模型,利用所述多个网页区块的融合特征执行自监督预训练任务,以产出所述网页截图样本集的网页内容表征。
第二方面,本说明书实施例提供一种网页分类方法,包括:获取待分类网页,所述待分类网页被分割为一个以上网页区块;通过已训练的网页分类模型,对所述待分类网页中每个网页区块提取单模态特征,并将同一网页区块的多个单模态特征进行融合,得到每个所述网页区块的融合特征;根据所述待分类网页中每个网页区块的融合特征,对所述待分类网页进行风险分类和/或行业分类。
第三方面,本说明书实施例提供一种网页内容表征装置,包括:特征提取单元,用于针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;特征融合单元,用于将所述多个网页区块的各单模态特征进行融合,得到每个所述网页区块的融合特征;预训练单元,用于通过预训练模型,利用所述多个网页区块的融合特征执行自监督预训练任务,以产出所述网页截图样本集的网页内容表征。
第四方面,本说明书实施例提供一种网页分类装置,包括:获取单元,用于获取待分类网页,所述待分类网页被分割为一个以上网页区块;分类单元,用于通过已训练的网页分类模型,对所述待分类网页中每个网页区块提取单模态特征,并将同一网页区块的多个单模态特征进行融合,得到每个所述网页区块的融合特征;根据所述待分类网页中每个网页区块的融合特征,对所述待分类网页进行风险分类和/或行业分类。
第五方面,本说明书实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第二方面所述方法。
第六方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或第二方面所述方法。
本说明书实施例提供的一个或者多个技术方案至少实现如下有益效果或者优点:
针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;将多个网页区块的各单模态特征进行融合,得到每个网页区块的融合特征;通过预训练模型,利用多个网页区块的融合特征执行自监督预训练任务,以产出网页截图样本集的网页内容表征。而不需要基于具体的风险、行业分类等任务标签进行端到端训练,因此,任意可以爬取文本及网页截图的网站均能作为样本参与预训练,因此在具体下游任务的样本量是小样本量时也是适配的,因此应用场景不受限与具体下游任务的样本量,且获得网页内容表征泛化能力更强,可应用于各种风险分类,各种行业分类等丰富的下游任务。
并且,对网页截图样本进行网页区块分割,适应性结合了网页场景的特殊性,能够更好的应对网页的图片类别多样,存在大量色彩块、不规则图形等情况,从而减少了标注及训练的处理成本
附图说明
图1为本说明书实施例中网页内容表征方法的流程图;
图2为本说明书实施例中针对原始网页截图分割网页区块的示意图;
图3为本说明书实施例中针对一个网页区块提取单模态特征的示意图;
图4为本说明书实施例中预训练框架示意图;
图5为本说明书实施例中网页内容表征装置的功能模块图;
图6为本说明书实施例中电子设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,本说明书实施例提供一种网页内容表征方法,可以应用于非法平台网页内容的风险巡检场景,比如用于识别网页内容是否存在博彩风险、非法投融资风险或者禁限售风险等。也可以应用于对商户进行行业识别的场景,基于商户的网页内容识别对应商户经营内容所属的行业类目,由此对商户更有针对性的管控。
参考图1所示,图1为本说明书实施例中网页内容表征方法的流程图,本说明书实施例提供的网页内容表示方法包括如下步骤:
S100、针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征。
需要说明的是,网页截图样本集中包含预先收集的多个网页截图样本,每个网页截图样本包含一个以上网页区块。具体的,可以是采用人工分割或者图像识别分割的方式,将每个网页截图样本根据网页结构分割出至少一个网页区块。
一、如果是采用人工方式分割网页区块,则在执行步骤S100之前还包括如下步骤:获取多个已预处理的网页截图样本;其中,每个网页截图样本的预处理是指的:每个网页截图样本已预先被人工分割为一个以上网页区块。
二、在执行步骤S100之前还包括如下步骤:获取多个原始网页截图;针对获取的每个原始网页截图,根据原始网页截图的网页结构进行网页分割,生成网页截图样本集,其中,网页截图样本集中每个网页截图样本被切割为至少一个网页区块。
如果是结合图像识别分割的方式对原始网页截图进行分割网页区块,则实现方式是:通过对每个原始网页截图进行图像识别,得到表征原始网页截图的网页结构的图像识别结果,根据图像识别结果将对应的原始网页截图分割为至少一个网页区块。比如,原始网页截图上仅有一张图片,无法细化出多个网页区块,则可以仅分割为一个网页区块。
由于不涉及具体类型的分类任务,任意可以获取的网页截图均可以收集作为预训练所需的原始网页截图。
在本说明书实施例中,不需要对任何一个网页截图样本中包含的网页区块的数量进行限定,因为网页截图样本的网页结构不同,分割出的网页区块数量也有所不同,因此不进行限定网页区块数量。
图2为本说明书实施例中针对原始网页截图分割网页区块的示意图,下面以图2中原始网页截图为例进行步骤S100的举例描述:根据网页截图将原始网页截图分割为五个网页区块(patch),从上至下依次为:网页区块patch1、网页区块patch2、网页区块patch3、网页区块patch4、网页区块patch5。
具体的,步骤S100包括如下细化步骤:针对来源于网页截图样本集的每个网页区块,分别提取每个网页区块的多种模态网页信息;并针对每个网页区块,从网页区块的每种模态网页信息提取对应的单模态特征。
具体的,针对来源于网页截图样本集的每个网页区块提取的多种模态网页信息包含:文本模态信息、图像模态信息以及布局位置信息。
其中,图像模态信息的提取具体是:直接将网页区块的图片区域作为图像模态信息;文本模态信息的提取具体是:通过图片文字识别工具(比如:OCR(Optical CharacterRecognition,光学字符识别)文字识别工具),从网页区块上识别出文字以得到文本模态信息;布局位置信息的提取具体是:基于网页区块所在的网页截图样本建立网页坐标系;基于网页坐标系确定网页区块在网页截图样本上所处的位置坐标;将位置坐标作为网页区块的布局位置信息。在对网页截图样本建立网页坐标系(比如:直角坐标系)之后,网页截图样本上的每个网页区块可以由一个二维的位置坐标表示。
下面以图2中的网页区块patch1为例,通过OCR文字识别工具提取到patch1中的文字模态信息为:“立即关注即尚卡服带您一起玩转信用卡”,将整个patch1图片作为图像模态信息。(x0,y0)为patch1的左上角坐标,(x1,y1)为patch1的右下角坐标,则基于左上角坐标(x0,y0)和右下角坐标(x1,y1)描述patch1的布局位置信息[(x0,y0),(x1,y1)]。以与上述举例同样的方式,可以提取到其他网页区块上的文本模态信息、图像模态信息以及布局位置信息。以实现将每个网页区块基于文本模态信息、图像模态信息以及布局位置信息进行描述。
需要说明的是,对于没有文字内容的网页区块则仅仅提取到图像模态信息及布局位置信息,则提取不到文本模态信息,因此,并非每个网页区块会提取到以上三种模态网页信息,而图像模态信息和布局位置信息是始终存在的。
针对从来源网页截图样本集的每个网页区块:在提取了网页区块的文本模态信息、图像模态信息以及布局位置信息之后,从网页区块的文本模态信息提取该网页区块的文本特征;从网页区块的图像模态信息提取该网页区块的图像特征;从网页区块的布局位置信息提取该网页区块的布局位置特征。
在具体实施时,可以通过BERT(Bidirectional Encoder Representations fromTransformers,基于转换器的双向编码表征)、LSTM(长短期记忆模型,long-short termmemory)和TextCNN(基于文本的卷积神经网络)模型中的任意一种模型从文本模态信息中提取文本特征,其中,文本特征可以表示为text embedding。可以通过resnet模型从图像模态信息中提取图像特征,其中,图像特征可以表示为mage embedding。每个网页区块的布局位置信息是一个二维坐标,对布局位置信息的预处理将二维坐标拆解成四维坐标信息,针对四维坐标信息分别以one hot形式表示,以得到对应的四维向量;接着,对这四维向量求和得到一个表示布局位置信息的一维向量,即得到了布局位置特征,其中,布局位置特征表示为position embedding。
在一可选的实施方式下,为了提高从网页区块提取单模态特征的准确性,对于从每个网页区块获取的每一种模态网页信息先进行预处理,针对预处理之后的模态网页信息再进行提取单模态特征。下面具体针对每种模态网页信息来讲:
从网页区块上提取的文本模态信息是原始文本数据,对文本模态信息的预处理包括:对提取的原始文本数据进行文本清洗、分词、过滤停用词等,以得到预处理后的文本模态信息。从每个网页区块上提取的图像模态信息是图片,且尺寸大小不一,因此对图像模态信息的预处理包括但不限于将提取的每个图像模态信息进行尺寸调整至目标尺寸。
以图2所示的原始网页截图中网页区块patch1为例,布局位置信息为二维坐标:[(x0,y0),(x1,y1)],将该二维坐标拆解成四维坐标(x0,y0,x1,y1),针对四维坐标信息(x0,y0,x1,y1)分别以独热编码(one hot)进行表示,得到对应的四维向量,接着,对四维向量求和得到一个表示布局位置信息的一维向量,即布局位置特征(position embedding)。
在具体实施时,从来源于网页截图样本集的每个网页区块中提取到的文本特征、图像特征、布局位置特征需要保持维度一致。其中,提取的布局位置特征通过全连接层来与文本特征、图像特征保持相同的特征维度。
参考图4,在具体实施时,继续以划分为五个网页区块的网页截图样本为例,针对每一个网页截图样本,将从同一网页截图样本的每个网页区块上提取的文本特征按照网页区块的顺序进行排序,可以在第一个向量位置添加标识符号(比如为cle符号),用于标识网页截图样本,形成针对网页截图样本的文本特征序列,同样处理方式,形成针对网页截图样本的图像特征序列和布局位置特征序列。
需要说明的是,对来源于网页截图样本集的每个网页区块进行单模态特征提取的实施方式可以是完全相同或者相似的,为了描述的简洁和清楚,下面,以图2中的网页区块patch1为例,结合图3所示,对从网页区块patch1上提取每种单模态特征的实施流程详细举例描述:
首先,从网页区块patch1提取多种模态网页信息:其中,提取的文本模态信息为“立即关注即尚卡服带您一起玩转信用卡”,提取的图像模态信息为整个patch1图片,提取的布局位置信息是二维坐标[(x0,y0),(x1,y1)]。
接着,通过BERT/LSTM/TEXTCNN中的任意一种模型将文本模态信息“立即关注即尚卡服带您一起玩转信用卡”进行编码,得到文本特征;通过Resnet模型将patch1图片进行图像编码,得到patch1图片的图像特征;通过对布局位置信息[(x0,y0),(x1,y1)]中的左上横坐标x0、左上纵坐标y0、右下横坐标x1、以及右下纵坐标y1分别以one hot形式表示,得到对应的四维向量,接着,对四维向量求和得到的一个表示布局位置信息的一维向量,即布局位置特征position embedding,通过全连接层使布局位置特征与文本特征以及图像特征保持相同的维度。
S102、将所述多个网页区块的各单模态特征进行融合,得到每个网页区块对应的融合特征。
具体的,在步骤S102中将从网页截图样本集提取的各个单模态特征进行融合是指不同类型单模态特征之间的融合,其中,不同类型单模态特征之间的融合包括如下两方面:
1、网页区块内不同类型单模态特征的融合:将来源于同一网页区块的多个单模态特征进行融合,得到作为正样本的融合特征。具体的,是将同一网页区块上提取的文本特征、图像特征以及布局位置特征进行融合,以得到针对该网页区块的多模态融合特征,以作为正样本;
2、网页区块间不同类型单模态特征的融合:将来源于不同网页区块的多个单模态特征进行融合,得到作为负样本的融合特征。具体的,可以是将从一个网页区块提取的文本特征随机与从另一个网页区块提取的图像特征和布局位置特征进行融合,得到一个不存在的网页区块(虚构网页区块)的多模态融合特征,以作为负样本。或者,也可以采用其他规律进行图、文特征匹配以产生负样本。
下面参考图2所示,进行生成负样本的举例:将网页区块patch1的文本模态信息“立即关注即尚卡服带您一起玩转信用卡”对应的文本特征与网页区块patch3上对应的图像特征、布局位置特征进行融合,产生一个图文随机匹配的负样本。但是在实际实施时,并不限于将来源于同一网页截图样本的不同网页区块之间进行图文匹配,还可以基于来源于不同网页截图样本的多个网页区块之间进行图文匹配。
其中,不同类型单模态特征之间进行融合的方式可以是求和、直接拼接或者乘积。其中,不同模态特征之间的求和是采用Transformer架构的预训练模型,在Transformer架构下基于自注意力(self-attention)机制将不同模态的单模态特征进行求和,得到多模态融合之后的融合特征;直接拼接方式是通过concat函数直接将图像特征、文本特征以及布局位置特征进行拼接,得到多模态融合之后的融合特征。
S104、通过预训练模型,根据所述多个网页区块的融合特征执行自监督预训练任务,以产出网页截图样本集的网页内容表征。
在步骤S104中,将步骤S102得到的多个网页区块的融合特征作为预训练模型的输入,预训练模型根据输入的多个网页区块的融合特征执行自监督预训练任务,产出针对网页截图样本集中每个网页截图样本的网页内容表征(每个网页截图样本的网页内容表征表示为web-content embedding,而web-content embedding中包含该网页截图样本中每个网页区块的融合特征)。
需要说明的是,对应于步骤S102中融合使用的是求和方式,则预训练模型的结构采用Transformer encoder,基于多个self-attention(自注意力机制)模块训练Transformer encoder模型,从而对应每个网页截图样本产出对应的网页内容表征。
通过预训练过程,产出的每个网页截图样本的网页内容表征是联合了多模态信息来对网页截图样本进行表征。
在一可选实施方式下,自监督预训练任务包括两个子预训练任务:对齐任务和网址分类任务。
则步骤S104中,预训练模型具体是进行如下预训练过程:利用所述多个网页区块的融合特征执行对齐任务;利用所述多个网页区块的融合特征执行网址分类任务;根据执行对齐任务和网址分类任务的预训练结果,产出网页截图样本集的网页内容表征。
下面进行对齐任务和网址分类任务的解释说明:
1、对齐任务是预训练模型根据输入的融合特征识别对应的图像模态信息、文本模态信息是否出自同一个网页区块。对齐任务的执行需要使用到正样本和负样本。
将所述多个网页区块的各个单模态特征进行融合,以得到多个作为正样本的融合特征和多个作为负样本的融合特征;基于多个作为正样本的融合特征和多个作为负样本的融合特征执行对齐任务。其中,正、负样本的生成过程已经在上一步骤S102中进行了说明,此处不再赘述。
2、执行网址分类任务不需要使用到上述生成的负样本,在步骤S102中,针对网页截图样本集中每个网页截图样本,将同一网页区块的多个单模态特征进行融合,得到网页截图样本中每个网页区块的融合特征。而网址分类任务是针对每一个网页截图样本执行网址分类任务。则根据网页截图样本中每个网页区块的融合特征,得到针对所述网页截图样本的融合特征序列;利用每个网页截图样本的融合特征序列,执行网址分类任务。
具体来讲,针对每个网页截图样本生成融合特征序列的实施流程可以如下:针对每个网页截图样本,将网页截图样本中同一网页区块的多个单模态特征进行融合,得到网页截图样本中每个网页区块的融合特征;针对每个网页截图样本,将网页截图样本中各网页区块的融合特征进行融合,得到该网页截图样本的融合特征序列。
需要说明的是,网址分类任务是一种很笼统的分类任务。比如,可以是对网址经营内容所属的行业类目进行分类的分类任务。
由于本说明书实施例不依赖于具体的风险任务标签产出的网页截图样本的网页内容表征具有较强的泛化能力。预训练不受限于具体任务的样本,任意可以爬取文本及网页截图的网站均能作为样本参与训练,因此更容易获得训练样本,因此适合在小样本任务上适配应用。并且,对网页截图分割为网页区块,不再需要基于目标检测技术ROI别图像中的RoIs(Region of Interests,感兴趣区)作为图像token,更适应网页场景的特殊性,同时结合网页区块的布局位置信息对页面进行更为全面的描述及特征。
基于上述自监督训练产出的网页内容表征泛化能力较强,可用于多种下游任务,例如可应用于识别网页内容是否涉及禁限售风险、非法投融资风险、赌博风险、识别对应商户经营内容所属行业等等下游任务。而产出的网页内容表征的应用具体可以有如下两种方式:
方式一:预训练模型的模型参数不作变动,将网页截图样本集的网页内容表征输入至网页分类模型;通过网页分类模型,利用网页截图样本集的网页内容表征进行风险分类和/或行业分类,得到网页截图样本集的分类结果。
方式一可以应用在需要对网页进行多方面识别的应用场景下,比如,需要根据网页内容对商户行业进行识别、且需要进行非法平台巡检。则可以不对预训练模型的模型参数作变动,而直接将产出的网页内容表征应用于各个下游的分类任务。
方式二:基于新的分类任务标签对预训练模型的模型参数进行调整,得到网页分类模型,其中,新的分类任务标签是包含风险分类标签和/或行业分类标签。如此,通过新的分类任务标签对预训练模型的模型参数进行调整,提高了模型在具体应用场景下的分类结果准确度。
需要说明的是,新的分类任务标签是具体业务场景下对应的分类任务标签。比如,产出的网页内容表征希望能够应用于风控子场景下进行识别非法平台网页内容。则基于对网页截图样本标记的非法平台标签/合法平台标签对预训练模态的模型参数进行微调,得到能够应用于风控子场景下识别非法平台网页内容的风控模型。比如,产出的网页内容表征希望能够应用于识别商户行业的子场景下。则基于对网页截图样本标记的行业类目标签对预训练模型的模型参数进行微调,得到能够识别商户的经营内容所属的行业类目的行业分类模型。
第二方面,基于同一发明构思,本说明书实施提供一种网页分类方法,包括:获取待分类网页,所述待分类网页被分割为一个以上网页区块;通过网页分类模型,对待分类网页中每个网页区块提取单模态特征,并将同一网页区块的多个单模态特征进行融合,得到每个网页区块的融合特征;根据待分类网页中每个网页区块的融合特征,对待分类网页进行风险分类和/或行业分类。其中,风险分类包括:博彩风险分类、非法投融资风险分类、禁限售风险分类中的一种或者多种。
举例来讲,在实际应用过程中,在某一电商平台获取到某一商户X的网页A之后,比如:通过网页分类模型识别出网页A所属的行业类目,比如,识别结果为母婴类目,则将商户X归类到母婴类目的排序列表里,便于分类管控商户。又比如:通过网页分类模型识别网页A的非法平台风险,比如,识别结果为存在禁限售风险,则对商户X进行对应处理或者向管理平台进行风险提醒。
第三方面,基于同一发明构思,本说明书实施例提供一种网页内容表征装置,参考图5所示,包括:
特征提取单元501,用于针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;
特征融合单元502,用于将所述多个网页区块的各单模态特征进行融合,得到每个网页区块对应的融合特征;
预训练单元503,用于通过预训练模型,利用所述多个网页区块的融合特征执行自监督预训练任务,以产出所述网页截图样本集的网页内容表征。
在一可选的实施方式下,该装置还包括:
截图获取单元,用于获取多个原始网页截图;
图片分割单元,用于针对所述多个原始网页截图,根据所述原始网页截图的网页结构进行网页分割,以生成所述网页截图样本集,其中,所述网页截图样本集中每个网页截图样本被分割为至少一个网页区块。
在一可选的实施方式下,特征提取单元501包括:
网页信息提取单元,用于针对所述多个网页区块中每个网页区块分别提取多种模态网页信息;
单模态特征提取单元,用于针对每个所述网页区块,从所述网页区块的每种模态网页信息提取对应的单模态特征。
在一可选的实施方式下,网页信息提取单元具体用于:
针对所述多个网页区块,提取每个所述网页区块的文本模态信息、图像模态信息以及布局位置信息。
在一可选的实施方式下,网页信息提取单元,具体用于:
针对每个所述网页区块,基于所述网页区块所在的网页截图样本建立网页坐标系,基于所述网页坐标系确定所述网页区块在所述网页截图样本上所处的位置坐标,将所述位置坐标作为所述网页区块的布局位置信息。
在一可选的实施方式下,单模态特征提取单元具体用于:
针对每个所述网页区块,从所述网页区块的文本模态信息提取所述网页区块的文本特征,从所述网页区块的图像模态信息提取所述网页区块的图像特征,从所述网页区块的布局位置信息提取所述网页区块的布局位置特征。
在一可选的实施方式下,所述自监督预训练任务包括对齐任务和网址分类任务;
所述预训练单元503,包括:
对齐预训练单元,用于利用所述多个网页区块的融合特征执行对齐任务;
分类预训练单元,用于利用所述多个网页区块的融合特征执行网址分类任务;
表征产出单元,用于根据执行所述对齐任务和所述网址分类任务的预训练结果,产出所述网页截图样本集的网页内容表征。
在一可选的实施方式下,特征融合单元502,具体用于:针对每个所述网页截图样本,对所述网页截图样本中同一网页区块的多个单模态特征进行融合,
得到所述网页截图样本中每个网页区块的融合特征;
分类预训练单元,具体用于:
将所述网页截图样本中各网页区块的融合特征进行融合,得到针对所述网页截图样本的融合特征序列;
利用每个所述网页截图样本的融合特征序列,执行所述网址分类任务。
在一可选的实施方式下,所述特征融合单元502,具体用于:
将所述多个网页区块的各单模态特征进行融合,以得到多个作为正样本的融合特征和多个作为负样本的融合特征;
对齐预训练单元,具体用于:
利用所述正样本和所述负样本执行所述对齐任务。
在一可选的实施方式下,特征融合单元502,具体用于:
针对所述多个网页区块,将同一网页区块的多个单模态特征进行融合,得到所述作为正样本的融合特征,将不同网页区块的多个单模态特征进行融合,得到所述作为负样本的融合特征。
第四方面,本说明书实施例提供一种网页分类装置,包括:获取单元,用于获取待分类网页,所述待分类网页被分割为一个以上网页区块;分类单元,用于通过已训练的网页分类模型,对所述待分类网页中每个网页区块提取单模态特征,并将同一网页区块的多个单模态特征进行融合,得到每个所述网页区块的融合特征;根据所述待分类网页中每个网页区块的融合特征,对所述待分类网页进行风险分类和/或行业分类。
第五方面,基于与前述第一方面或者第二方面所述方法实施例同样的发明构思,本说明书实施例还提供了一种电子设备,如图6所示,包括存储器604、一个或多个处理器602及存储在存储器604上并可在处理器602上运行的计算机程序,处理器602执行该程序时实现前文第一方面或者第二方面所述方法实施例中的方法步骤。
其中,在图6中,总线架构(用总线600来代表),总线600可以包括任意数量的互联的总线和桥,总线600将包括由处理器602代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线600还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口605在总线600和接收器601和发送器603之间提供接口。接收器601和发送器603可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器602负责管理总线600和通常的处理,而存储器604可以被用于存储处理器602在执行操作时所使用的数据。
可以理解的是,图6所示的结构仅为示意,本说明书实施例提供的电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
第六方面,基于与前述第一方面至第三方面中任一所述方法实施例同样的发明构思,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或者第二方面所述方法实施例中的方法步骤。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (24)

1.一种网页内容表征方法,包括:
针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;
将所述多个网页区块的各单模态特征进行融合,得到每个所述网页区块的融合特征;
通过预训练模型,利用所述多个网页区块的融合特征执行自监督预训练任务,以产出所述网页截图样本集的网页内容表征。
2.如权利要求1所述的方法,在所述针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征之前,还包括:
获取多个原始网页截图;
针对所述多个原始网页截图,根据所述原始网页截图的网页结构进行网页分割,以生成所述网页截图样本集,其中,所述网页截图样本集中每个网页截图样本被分割为至少一个网页区块。
3.如权利要求1或2所述的方法,所述针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征,包括:
针对所述多个网页区块中每个网页区块分别提取多种模态网页信息;
针对每个所述网页区块,从所述网页区块的每种模态网页信息提取对应的单模态特征。
4.如权利要求3所述的方法,所述针对所述多个网页区块中每个网页区块分别提取多种模态网页信息,包括:
针对所述多个网页区块,提取每个所述网页区块的文本模态信息、图像模态信息以及布局位置信息。
5.如权利要求4所述的方法,提取所述多个网页区块的布局位置信息,包括:
针对每个所述网页区块,基于所述网页区块所在的网页截图样本建立网页坐标系,基于所述网页坐标系确定所述网页区块在所述网页截图样本上所处的位置坐标,将所述位置坐标作为所述网页区块的布局位置信息。
6.如权利要求4所述的方法,所述针对每个所述网页区块,从所述网页区块的每种模态网页信息提取对应的单模态特征,包括:
针对每个所述网页区块,从所述网页区块的文本模态信息提取所述网页区块的文本特征,从所述网页区块的图像模态信息提取所述网页区块的图像特征,从所述网页区块的布局位置信息提取所述网页区块的布局位置特征。
7.如权利要求1-6中任一所述的方法,所述自监督预训练任务包括对齐任务和网址分类任务;
所述利用所述多个网页区块的融合特征执行自监督预训练任务,以产出所述网页截图样本集的网页内容表征,包括:
利用所述多个网页区块的融合特征执行对齐任务;
利用所述多个网页区块的融合特征执行网址分类任务;
根据执行所述对齐任务和所述网址分类任务的预训练结果,产出所述网页截图样本集的网页内容表征。
8.如权利要求7所述的方法,所述将所述多个网页区块的各单模态特征进行融合,得到每个所述网页区块的融合特征,包括:
针对每个网页截图样本,将所述网页截图样本中同一网页区块的多个单模态特征进行融合,得到所述网页截图样本中每个网页区块的融合特征;
所述利用所述多个网页区块的融合特征执行网址分类任务,包括:
针对每个网页截图样本,将所述网页截图样本中各网页区块的融合特征进行融合,得到所述网页截图样本的融合特征序列;
利用每个网页截图样本的融合特征序列,执行所述网址分类任务。
9.如权利要求7所述的方法,所述将所述多个网页区块的各单模态特征进行融合,得到每个所述网页区块的融合特征,包括:
将所述多个网页区块的各单模态特征进行融合,以得到多个作为正样本的融合特征和多个作为负样本的融合特征;
所述利用所述多个网页区块的融合特征执行对齐任务,包括:
利用所述正样本和所述负样本执行所述对齐任务。
10.如权利要求9所述的方法,所述将所述多个网页区块的各单模态特征进行融合,以得到多个作为正样本的融合特征和多个作为负样本的融合特征,包括:
针对所述多个网页区块,将同一网页区块的多个单模态特征进行融合,得到所述作为正样本的融合特征,将不同网页区块的多个单模态特征进行融合,得到所述作为负样本的融合特征。
11.一种网页分类方法,包括:
获取待分类网页,所述待分类网页被分割为一个以上网页区块;
通过已训练的网页分类模型,对所述待分类网页中每个网页区块提取单模态特征,并将同一网页区块的多个单模态特征进行融合,得到每个所述网页区块的融合特征;根据所述待分类网页中每个网页区块的融合特征,对所述待分类网页进行风险分类和/或行业分类。
12.一种网页内容表征装置,包括:
特征提取单元,用于针对来源于网页截图样本集的多个网页区块,提取每个网页区块的多个单模态特征;
特征融合单元,用于将所述多个网页区块的各单模态特征进行融合,得到每个所述网页区块的融合特征;
预训练单元,用于通过预训练模型,利用所述多个网页区块的融合特征执行自监督预训练任务,以产出所述网页截图样本集的网页内容表征。
13.如权利要求12所述的装置,还包括:
截图获取单元,用于获取多个原始网页截图;
图片分割单元,用于针对所述多个原始网页截图,根据所述原始网页截图的网页结构进行网页分割,以生成所述网页截图样本集,其中,所述网页截图样本集中每个网页截图样本被分割为至少一个网页区块。
14.如权利要求12或13所述的装置,所述特征提取单元,包括:
网页信息提取单元,用于针对所述多个网页区块中每个网页区块分别提取多种模态网页信息;
单模态特征提取单元,用于针对每个所述网页区块,从所述网页区块的每种模态网页信息提取对应的单模态特征。
15.如权利要求14所述的装置,所述网页信息提取单元,具体用于:
针对所述多个网页区块,提取每个所述网页区块的文本模态信息、图像模态信息以及布局位置信息。
16.如权利要求15所述的装置,所述网页信息提取单元,具体用于:
针对每个所述网页区块,基于所述网页区块所在的网页截图样本建立网页坐标系,基于所述网页坐标系确定所述网页区块在所述网页截图样本上所处的位置坐标,将所述位置坐标作为所述网页区块的布局位置信息。
17.如权利要求15所述的装置,所述单模态特征提取单元,具体用于:
针对每个所述网页区块,从所述网页区块的文本模态信息提取所述网页区块的文本特征,从所述网页区块的图像模态信息提取所述网页区块的图像特征,从所述网页区块的布局位置信息提取所述网页区块的布局位置特征。
18.如权利要求12-17中任一所述的装置,所述自监督预训练任务包括对齐任务和网址分类任务;
所述预训练单元,包括:
对齐预训练单元,用于利用所述多个网页区块的融合特征执行对齐任务;
分类预训练单元,用于利用所述多个网页区块的融合特征执行网址分类任务;
表征产出单元,用于根据执行所述对齐任务和所述网址分类任务的预训练结果,产出所述网页截图样本集的网页内容表征。
19.如权利要求18所述的装置,所述特征融合单元,具体用于:
针对每个网页截图样本,将所述网页截图样本中同一网页区块的多个单模态特征进行融合,得到所述网页截图样本中每个网页区块的融合特征;
所述分类预训练单元,具体用于:
针对每个网页截图样本,将所述网页截图样本中各网页区块的融合特征进行融合,得到所述网页截图样本的融合特征序列;
利用每个网页截图样本的融合特征序列,执行所述网址分类任务。
20.如权利要求18所述的装置,所述特征融合单元,具体用于:
将所述多个网页区块的各单模态特征进行融合,以得到多个作为正样本的融合特征和多个作为负样本的融合特征;
所述对齐预训练单元,具体用于:
利用所述正样本和所述负样本执行所述对齐任务。
21.如权利要求20所述的方法,所述特征融合单元,具体用于:
针对所述多个网页区块,将同一网页区块的多个单模态特征进行融合,得到所述作为正样本的融合特征,将不同网页区块的多个单模态特征进行融合,得到所述作为负样本的融合特征。
22.一种网页分类装置,包括:
获取单元,用于获取待分类网页,所述待分类网页被分割为一个以上网页区块;
分类单元,用于通过已训练的网页分类模型,对所述待分类网页中每个网页区块提取单模态特征,并将同一网页区块的多个单模态特征进行融合,得到每个所述网页区块的融合特征;根据所述待分类网页中每个网页区块的融合特征,对所述待分类网页进行风险分类和/或行业分类。
23.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-11中任一所述方法。
24.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-11中任一所述方法。
CN202011064644.9A 2020-09-30 2020-09-30 网页内容表征方法、分类方法、装置及设备 Pending CN112214707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011064644.9A CN112214707A (zh) 2020-09-30 2020-09-30 网页内容表征方法、分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011064644.9A CN112214707A (zh) 2020-09-30 2020-09-30 网页内容表征方法、分类方法、装置及设备

Publications (1)

Publication Number Publication Date
CN112214707A true CN112214707A (zh) 2021-01-12

Family

ID=74051688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011064644.9A Pending CN112214707A (zh) 2020-09-30 2020-09-30 网页内容表征方法、分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112214707A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949415A (zh) * 2021-02-04 2021-06-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN113011246A (zh) * 2021-01-29 2021-06-22 招商银行股份有限公司 票据分类方法、装置、设备及存储介质
CN113033534A (zh) * 2021-03-10 2021-06-25 北京百度网讯科技有限公司 建立票据类型识别模型与识别票据类型的方法、装置
CN113222022A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种网页分类识别方法及装置
CN113255767A (zh) * 2021-05-25 2021-08-13 深圳壹账通智能科技有限公司 票据分类方法、装置、设备及存储介质
CN115019328A (zh) * 2022-07-01 2022-09-06 支付宝(杭州)信息技术有限公司 内容风险识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN108804472A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页内容抽取方法、装置及服务器
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚天任 等: "《智能车辆理论与应用》", 华中科技大学出版社, pages: 135 - 137 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011246A (zh) * 2021-01-29 2021-06-22 招商银行股份有限公司 票据分类方法、装置、设备及存储介质
CN112949415A (zh) * 2021-02-04 2021-06-11 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN113033534A (zh) * 2021-03-10 2021-06-25 北京百度网讯科技有限公司 建立票据类型识别模型与识别票据类型的方法、装置
CN113033534B (zh) * 2021-03-10 2023-07-25 北京百度网讯科技有限公司 建立票据类型识别模型与识别票据类型的方法、装置
CN113222022A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种网页分类识别方法及装置
CN113255767A (zh) * 2021-05-25 2021-08-13 深圳壹账通智能科技有限公司 票据分类方法、装置、设备及存储介质
CN113255767B (zh) * 2021-05-25 2023-11-24 深圳壹账通智能科技有限公司 票据分类方法、装置、设备及存储介质
CN115019328A (zh) * 2022-07-01 2022-09-06 支付宝(杭州)信息技术有限公司 内容风险识别方法和系统

Similar Documents

Publication Publication Date Title
CN112214707A (zh) 网页内容表征方法、分类方法、装置及设备
CN110543892B (zh) 一种基于多层随机森林的零部件识别方法
CN108229478B (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
JP6994588B2 (ja) 顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体
CN105426356B (zh) 一种目标信息识别方法和装置
CN108960412B (zh) 图像识别方法、装置及计算机可读存储介质
Türkyılmaz et al. License plate recognition system using artificial neural networks
Iqbal et al. Coconut trees detection and segmentation in aerial imagery using mask region‐based convolution neural network
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
CN115294150A (zh) 一种图像处理方法和终端设备
Nezami et al. Pick-object-attack: Type-specific adversarial attack for object detection
CN111783812B (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
Kowalczuk et al. Training of deep learning models using synthetic datasets
CN117252947A (zh) 图像处理方法、装置、计算机、存储介质及程序产品
Srinivas et al. Facial Expression Detection Model of Seven Expression Types Using Hybrid Feature Selection and Deep CNN
CN116524261A (zh) 一种基于多模态小样本持续学习的图像分类方法及产品
Mohsin et al. Convolutional neural networks for real-time wood plank detection and defect segmentation
CN115713621A (zh) 一种利用文本信息的跨模态图像目标检测方法和装置
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质
Das et al. Object Detection on Scene Images: A Novel Approach
CN111914863A (zh) 目标检测方法、装置、终端设备及计算机可读存储介质
Kavati Deep learning-based pothole detection for intelligent transportation systems
CN113918769B (zh) 视频中关键动作标记方法、装置、设备及存储介质
Paruchuri et al. Facial Expression Recognition Model Using Deep CNN and Hybrid Feature Selection Pre-processing Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210112