CN116661803A

CN116661803A - 多模态网页模板的处理方法、装置和计算机设备

Info

Publication number: CN116661803A
Application number: CN202310943899.XA
Authority: CN
Inventors: 柯学; 吴崇正; 何福铿; 杨浩宇; 刘飚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-08-29
Anticipated expiration: 2043-07-31
Also published as: CN116661803B

Abstract

本申请设计人工智能领域，具体涉及一种多模态网页模板的处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取多模态网页模板的代码文件，通过网页渲染方式对代码文件进行解析，得到与代码文件相对应的代码节点树；根据代码节点树提取多模态网页模板中的多模态信息；对多模态信息中的每种信息分别进行特征提取，得到每种网页信息各自的模态特征；针对每两种网页信息，对所针对的两种网页信息的模态特征进行融合，得到与针对的两种网页信息对应的多模态融合特征；将融合得到的各多模态融合特征进行拼接，得到拼接融合特征，根据拼接融合特征确定多模态网页模板的模板标签。采用本方法能够提升所确定的模板标签的准确性。

Description

多模态网页模板的处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种多模态网页模板的处理方法、装置和计算机设备。

背景技术

随着互联网技术的发展，模板理解成为了一个重要的研究领域。模板理解是指对于一个给定的模板，通过对其进行分析和理解，从中提取出有用的信息，并基于提取出的有用的信息确定模板的标签。例如，模板具体可为网页模板，通过对网页模板进行分析和理解，可从网页模板中提取出有用的信息，进而基于提取出的有用的信息确定网页模板的标签。

目前，主要是从模板中提取出一种类别的信息，也即，从模板中提取出单模态信息，从而基于提取出的单模态信息来确定模板的标签。然而，单模态信息所蕴含的信息量是有限的，因此基于单模态信息所确定的标签的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升所生成的标签的准确性的多模态网页模板的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种多模态网页模板的处理方法，所述方法包括：

获取多模态网页模板的代码文件，并通过网页渲染方式对所述代码文件进行解析，得到与所述代码文件相对应的代码节点树；所述代码节点树中的每个节点对应所述代码文件中的一部分文件内容；

根据所述代码节点树提取所述多模态网页模板中的多模态信息；其中，所述多模态信息，至少包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息中的两种；

对所述多模态信息中的每种网页信息分别进行特征提取，得到所述多模态信息中的每种网页信息各自的模态特征；

针对所述多模态信息中的每两种网页信息，对所针对的两种网页信息的模态特征进行融合，得到与所述针对的两种网页信息对应的多模态融合特征；

将融合得到的各所述多模态融合特征进行拼接，得到拼接融合特征，并根据所述拼接融合特征确定所述多模态网页模板的模板标签。

第二方面，本申请还提供了一种多模态网页模板的处理装置，所述装置包括：

获取模块，用于获取多模态网页模板的代码文件，并通过网页渲染方式对所述代码文件进行解析，得到与所述代码文件相对应的代码节点树；所述代码节点树中的每个节点对应所述代码文件中的一部分文件内容；根据所述代码节点树提取所述多模态模板中的多模态信息；其中，所述多模态信息，至少包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息中的两种；

特征提取模块，用于对所述多模态信息中的每种网页信息分别进行特征提取，得到所述多模态信息中的每种网页信息各自的模态特征；

特征融合模块，用于针对所述多模态信息中的每两种网页信息，对所针对的两种网页信息的模态特征进行融合，得到与所述针对的两种网页信息对应的多模态融合特征；将融合得到的各所述多模态融合特征进行拼接，得到拼接融合特征，并根据所述拼接融合特征确定所述多模态网页模板的模板标签。

在其中一个实施例中，所述代码文件包括网页结构文件、网页功能实现文件和样式文件；所述获取模块还用于根据所述网页结构文件构建网页结构节点树；根据所述样式文件构建样式节点树；基于所述网页功能实现文件对所述网页结构节点树和所述样式节点树的树状结构进行调整，得到调整后的网页结构节点树和样式节点树；基于所述调整后的网页结构节点树和样式节点树，得到与所述代码文件相对应的代码节点树。

在其中一个实施例中，所述多模态信息包括属于文本类别的网页信息；所述获取模块还用于遍历所述代码节点树中的节点，并在遍历到的节点所对应的文件内容为文本的情况下，提取所述遍历到的节点所对应的文本；当遍历结束后，综合提取出的各所述文本，得到属于文本类别的网页信息。

在其中一个实施例中，所述多模态信息包括属于图像类别的网页信息和属于视频类别的网页信息；所述获取模块还用于遍历所述节点树中的节点，在所述遍历到的节点所对应的文件内容为链接的情况下，确定所述链接所指向的内容；在所述链接所指向的内容为图像或者视频的情况下，提取所述链接所指向的内容；当遍历结束后，综合提取出的各所述图像，得到属于图像类别的网页信息，并综合提取出的各所述视频，得到属于视频类别的网页信息。

在其中一个实施例中，所述多模态网页模板处理装置中运行有多模态网页模板处理模型；所述多模态网页模板处理模型包括文本特征提取模型、图像特征提取模型和视频特征提取模型；所述特征提取模块还包括文本特征提取模块，用于通过所述文本特征提取模型，对所述多模态信息中的属于文本类别的网页信息进行特征提取处理，得到所述属于文本类别的网页信息的模态特征；所述特征提取模块还包括图像特征提取模块，用于通过所述图像特征提取模型，对所述多模态信息中的属于图像类别的网页信息进行特征提取处理，得到所述属于图像类别的网页信息的模态特征；所述特征提取模块还包括视频提取模块，用于通过所述视频特征提取模型，对所述多模态信息中的属于视频类别的网页信息进行特征提取处理，得到所述属于视频类别的网页信息的模态特征。

在其中一个实施例中，所述文本特征提取模块还用于对所述多模态信息中的属于文本类别的网页信息进行编码，得到文本编码向量；对所述文本编码向量进行卷积处理，得到所述属于文本类别的网页信息的局部特征，并根据所述文本编码向量和所述属于文本类别的网页信息的局部特征，确定所述属于文本类别的网页信息的全局特征；将所述属于文本类别的网页信息的全局特征和局部特征进行融合，得到所述属于文本类别的网页信息的模态特征。

在其中一个实施例中，所述属于文本类别的网页信息包括至少一个分词；所述文本编码向量中包括所述至少一个分词各自对应的分量；所述文本特征提取模块还用于根据所述文本编码向量中的首个分量和所述属于文本类别的网页信息的局部特征，确定首个轮次输出的隐藏层向量；从所述首轮之后的第二轮次起的当前轮次中，根据前一轮次输出的隐藏层向量和所述文本编码向量中与所述当前轮次对应的分量，确定当前轮次输出的隐藏层向量；将下一轮次作为当前轮次，并返回至根据前一轮次输出的隐藏层向量和所述文本编码向量中与所述当前轮次对应的分量，确定当前轮次输出的隐藏层向量的步骤继续执行，直至满足预设停止条件时停止；根据在最后轮次输出的隐藏层向量，确定所述属于文本类别的网页信息的全局特征。

在其中一个实施例中，所述图像特征提取模块还用于对所述多模态信息中的属于图像类别的网页信息进行编码，得到图像编码向量；对所述图像编码向量进行卷积处理，得到所述属于图像类别的网页信息的局部特征，并将所述图像编码向量输入图像残差网络，得到所述属于图像类别的网页信息的全局特征；将所述属于图像类别的网页信息的局部特征和全局特征进行融合，得到所述属于图像类别的网页信息的模态特征。

在其中一个实施例中，所述视频特征提取模块还用于对所述多模态信息中的属于视频类别的网页信息进行编码，得到视频编码向量；对所述视频编码向量进行卷积处理，得到时空特征；将所述视频编码向量输入时序残差网络，得到时序残差特征；将所述时空特征和所述时序残差特征进行融合，得到所述属于视频类别的网页信息的模态特征。

在其中一个实施例中，所述针对的两种网页信息包括第一信息和第二信息；所述特征融合模块还用于通过注意力机制将所述第一信息的模态特征与所述第二信息的模态特征进行融合，得到第一中间融合特征；将所述第一中间融合特征与所述第一信息的模态特征进行融合，得到第二中间融合特征；将所述第一中间融合特征与所述第二信息的模态特征进行融合，得到第三中间融合特征；将所述第二中间融合特征与所述第三中间融合特征进行融合，得到与所述针对的两种信息对应的多模态融合特征。

在其中一个实施例中，所述特征融合模块还用于将所述第一信息的模态特征与所述第二信息的模态特征进行拼接，得到模态拼接特征；将所述模态拼接特征输入全连接层，得到全连接层输出结果；将所述全连接层输出结果输入激活函数，得到第一中间融合特征。

在其中一个实施例中，所述模板标签至少用于确定多模态模板所属的模板类别、模板评分或者各多模态模板之间的相似度。

在其中一个实施例中，所述多模态网页模板处理装置中运行有多模态网页模板处理模型；所述多模态网页模板处理装置还包括训练模块，用于获取样本多模态网页模板和与所述样本多模态网页模板相对应的样本标签；提取所述样本多模态网页模板中的多模态样本信息，并对所述多模态样本信息中的每种样本信息分别进行特征提取，得到所述多模态样本信息中的每种样本信息各自的样本模态特征；将所述多模态样本信息中的每两种样本信息的样本模态特征进行融合，得到多个样本多模态融合特征，并将各所述样本多模态融合特征进行拼接，得到样本拼接融合特征；根据所述样本拼接融合特征确定所述样本多模态模板的预测模板标签，通过所述预测模板标签和所述样本标签，对所述多模态处理模型进行训练，直至达到训练停止条件时停止。

在其中一个实施例中，所述样本标签包括各预设模板标签各自对应的标准概率值；所述预测模板标签包括各预设模板标签各自对应的预测概率值；针对多个预设模板标签中的每个预测模板标签，将对应于所针对的预设模板标签的标准概率值和预测概率值进行融合，得到与所述针对的预设模板标签对应的融合概率值；根据所述多个预设模板标签各自对应的融合概率值，确定多标签分类损失；基于所述多标签分类损失调整所述多模态网页处理模型的模型参数。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的任一种多模态网页模板处理方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一种多模态网页模板处理方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的任一种多模态网页模板处理方法中的步骤。

上述多模态网页模板的处理方法、装置、计算机设备、存储介质和计算机程序产品，当获取得到多模态网页模板的代码文件时，通过网页渲染的方式对代码文件进行解析，可得到与代码文件相对应的代码节点树。通过得到代码节点树，可基于该代码节点树提取多模态网页模板中的多模态信息，如此，便可对多模态信息中的每种网页信息分别进行特征提取，得到更加准确的每种网页信息各自的模态特征。通过得到每种网页信息各自的模态特征，可对每两种网页信息的模态特征进行特征融合，以得到包含两两交叉特征的多个多模态融合特征。通过得到多个多模态融合特征，可对各多模态融合特征进行拼接，以得到全面理解多模态信息的拼接融合特征，进而基于全面理解多模态信息的拼接融合特征得到准确的模板标签。

附图说明

图1为一个实施例中多模态网页模板的处理方法的应用环境图；

图2为一个实施例中多模态网页模板的处理方法的流程示意图；

图3为一个实施例中代码节点树的示意图；

图4为一个实施例中多模态网页模板的处理整体流程示示意图；

图5为一个实施例中不同类别的网页信息的示意图；

图6为一个实施例中提取文本的特征的示意图；

图7为一个实施例中提取图像的特征的示意图；

图8为一个实施例中提取视频的特征的示意图；

图9为一个实施例中特征融合的示意图；

图10为一个实施例中基于自注意力得到第一中间融合特征的示意图；

图11为一个具体实施例中多模态网页模板处理方法的流程示意图；

图12为一个实施例中多模态网页模板的处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的多模态网页模板处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。终端102和服务器104均可单独用于执行本申请实施例中提供的多模态网页模板处理方法。终端102和服务器104也可协同用于执行本申请实施例中提供的多模态网页模板处理方法。以终端102和服务器104可协同用于执行本申请实施例中提供的多模态网页模板处理方法为例进行说明，用户可通过终端102上传多模态模板，从而终端102可将用户上传的多模态模板发送至服务器104。当服务器104接收到多模态模板时，服务器104可对多模态模板进行处理，以得到该多模态模板的模板标签。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请设计云技术（Cloud technology），例如，本申请可通过云服务器来确定多模态模板的模板标签。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

需要说明的是，本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。本申请各实施例中提及的“多个”或“多份”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”，“多份”指“至少两份”。

在一个实施例中，如图2所示，提供了一种多模态网页模板的处理方法，以该方法应用于计算机设备为例进行说明。计算机设备可为图1中的终端或者服务器。多模态模板的处理方法包括以下步骤：

步骤202，获取多模态网页模板的代码文件，通过网页渲染方式对代码文件进行解析，得到与代码文件相对应的代码节点树；代码节点树中的每个节点对应代码文件中的一部分文件内容。

其中，多模态网页模板是指包括多种信息的网页模板，比如，多模态网页模板指的是包括至少两种不同类别信息的网页模板。模板是对使东西达到标准化、统一化、模式化的通用，或固定格式、版式的统称。网页模板具体可为一个具有预设风格、布局和元素组合的模板。

具体地，当需要生成多模态网页模板的模板标签时，计算机设备可获取多模态网页模板的代码文件，并按照网页渲染的方式对该代码文件进行解析，以得到与该代码文件相对应的代码节点树。比如，计算机设备中部署有文本解析工具，文本解析工具通过浏览器渲染的方式加载代码文件，以生成代码节点树。其中，代码节点树中的每个节点，对应于代码文件中的一部分文件内容。文件内容可为文本、链接或者标签，比如，当代码文件包括代码“<head><title>Sample Page</title><a>www.asc.c</a></head>”时，<a>、<head>、<title>即为标签，“Sample Page”即为文本，“www.asc.c”即为链接。从而参考图3，代码节点树中包括与<a>、<head>、<title>分别对应的节点，与“Sample Page”对应的节点，以及与“www.asc.c”对应的节点。图3示出了一个实施例中节点树的示意图。

步骤204，根据代码节点树提取多模态模板中的多模态信息；其中，多模态信息，至少包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息中的两种；

具体地，计算机设备可获取多模态网页模板，并从多模态网页模板中提取出多模态信息。其中，多模态信息包括至少两种不同类别的网页信息，比如，多模态信息可包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息。其中，属于文本类别的网页信息具体可为包括一个或者多个句子的文本。属于图像类别的网页信息具体可为包括一张或者多张图像的图像集。属于视频类别的网页信息具体可为包括一段或者多段视频的视频集。

在其中一个实施例中，计算机设备中部署有多模态信息提取模型，通过多模态信息提取模型可提取出多模态网页模板中的多模态信息。其中，多模态信息提取模型可为一个通过训练得到的机器学习网络。

在其中一个实施例中，多模态网页模板具体可为网页静态模板。网页静态模板是指不包含动画的模板。网页静态模板可包括网页形式的幻灯片模板、网页形式的公众号模板等。网页形式的幻灯片模板具体可为在线幻灯片模板，在该在线幻灯片模板中填写一些个性化信息后，即可得到完整的在线幻灯片。网页形式的公众号模板可为预先设计的在线文章模板，在该在线文章模板中填写一些个性化信息，即可得到待通过公众号发布的文章。

步骤206，对多模态信息中的每种网页信息分别进行特征提取，得到多模态信息中的每种网页信息各自的模态特征。

其中，模态特征是指对相应类别的网页信息进行特征提取后所得到的特征。

具体地，当得到多模态信息时，针对多模态信息中的每种网页信息，计算机设备均可对每种类别的网页信息进行特征提取处理，以得到每种网页信息各自的模态特征。比如，在多模态信息包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息时，计算机设备可对属于文本类别的网页信息进行特征提取处理，以得到属于文本类别的网页信息的模态特征。以及计算机设备可对属于图像类别的网页信息进行特征提取处理，以得到属于图像类别的网页信息的模态特征。计算机设备还可对属于视频类别的网页信息进行特征提取处理，以得到属于视频类别的网页信息的模态特征。

在其中一个实施例中，参考图4，计算机设备中部署有多模态网页模板处理模型。其中，多模态网页模板处理模型包括文本特征提取模型、图像特征提取模型和视频特征提取模型。当得到多模态信息时，计算机设备可将多模态信息中的属于文本类别的网页信息输入至文本特征提取模型，通过文本特征提取模型提取出属于文本类别的网页信息的模态特征。计算机设备可将多模态信息中的属于图像类别的网页信息输入至图像特征提取模型，通过图像特征提取模型提取出属于图像类别的网页信息的模态特征。以及计算机设备可将多模态信息中的属于视频类别的网页信息输入至视频特征提取模型，通过视频特征提取模型提取出属于视频类别的网页信息的模态特征。图4示出了一个实施例中多模态网页模板的处理整体流程示意图。

步骤208，针对多模态信息中的每两种网页信息，对所针对的两种网页信息的模态特征进行融合，得到与所针对的两种网页信息对应的多模态融合特征。

具体地，由于多模态信息中包括至少两种不同类别的网页信息，因此，为了学习每两种网页信息之间的交叉信息，针对多模态信息中的每两种网页信息，计算机设备可获取所针对的两种网页信息的模态特征，并对所针对的两种信息的模态特征进行融合，以得到所针对的两种网页信息的多模态融合特征。比如，在多模态信息中包括属于文本类别的网页信息T、属于图像类别的网页信息I和属于视频类别的网页信息V，以及得到属于文本类别的网页信息T的模态特征、属于图像类别的网页信息I的模态特征和属于视频类别的网页信息V的模态特征时，计算机设备可对和进行融合，得到T和I 的多模态融合特征；计算机设备可对和进行融合，得到T和V的多模态融合特征；计算机设备可对和进行融合，得到I和V的多模态融合特征。

在其中一个实施例中，参考图3，多模态网页模板处理模型包括多模态融合模型，通过多模态融合模型可将多模态信息中的每两种信息的模态特征进行融合，从而得到多个多模态融合特征。

在其中的一个实施例中，融合的方式包括但不限于是加权叠加、拼接等。

步骤208，将融合得到的各多模态融合特征进行拼接，得到拼接融合特征，并根据拼接融合特征确定所述多模态网页模板的模板标签。

具体地，多模态网页模板处理模型中的多模态融合模型将融合得到多模态融合特征进行拼接，得到拼接融合特征，并基于拼接融合特征得到多模态网页模板的模板标签。其中，模板标签是指模板的标签，模板标签具体可用于标注多模态网页模板的功能、所属类别等。比如，当多模态网页模板的模板标签为“娱乐”时，可认为该多模态网页模板为娱乐领域中的模板，当多模态网页模板的模板标签为“电商”时，可认为该多磨条模板为电商领域中的模板。

上述多模态网页模板的处理方法中，当获取得到多模态网页模板的代码文件时时，可通过网页渲染的方式对代码文件进行解析，可得到与代码文件相对应的代码节点树。通过得到代码节点树，可基于该代码节点树提取多模态网页模板中的多模态信息，如此，便可对多模态信息中的每种网页信息分别进行特征提取，得到更加准确的每种网页信息各自的模态特征。通过得到每种网页信息各自的模态特征，可对每两种网页信息的模态特征进行特征融合，以得到包含两两交叉特征的多个多模态融合特征。通过得到多个多模态融合特征，可对各多模态融合特征进行拼接，以得到全面理解多模态信息的拼接融合特征，进而基于全面理解多模态信息的拼接融合特征得到准确的模板标签。

此外，本申请通过将每种网页信息各自的模态特征进行融合，可实现多模态网页模板中不同模态特征的融合和处理。传统的模板理解方法大多只能处理单模态信息，对于多模态信息的处理能力较弱。而本申请提出的多模态网页模板的处理方法能够处理多模态信息，能够更加全面地理解模板。通过将文本、图片等多种形式的网页信息进行融合，能够提高模板理解的精度和效率，能够更加准确地提取有用的网页信息。

传统的模板理解方法大多采用单一的模型进行处理，对于复杂的模板处理能力较弱。而本专利提出了一种嵌套子模型。该嵌套子模型包括三个并行的特征提取模型、注意力机制层和特征转换层，从而基于三个并行地特征提取模型提取属于文本类别的网页信息的模态特征、属于图像类别的网页信息的模态特征和属于视频类别的网页信息的模态特征，并基于注意力机制层将提取出的每两种模态特征进行融合，得到多模态融合特征，以及基于特征转换层将各多模态融合特征进行拼接，得到拼接融合特征，进而基于拼接融合特征得到模板标签。通过嵌套子模型的方式，将模板的不同类别的网页信息分别进行处理，再将处理结果进行融合，能够更加全面地理解模板。通过嵌套子模型的设计，能够提高模板理解的精度和效率，能够更加准确地提取有用的网页信息。同时，该设计也能够提高模型的可扩展性和可维护性，方便后续的优化和改进。

并且通过嵌套子模型的方式，能够实现多模态网页模板的标注和理解。传统的模板理解方法大多采用基于机器学习或规则的方法，需要对模型进行训练和优化，且需要手动提取特征。而本专利提出的端到端的网络模型能够自动提取模态特征，能够更加准确地解多模态网页模板。通过嵌套子模型的方式，能够更加全面地标注和理解多模态静态模板。

在其中一个实施例中，代码文件包括网页结构文件、网页功能实现文件和样式文件；过网页渲染方式对代码文件进行解析，得到与代码文件相对应的代码节点树，包括：根据网页结构文件构建网页结构节点树；根据样式文件构建样式节点树；基于网页功能实现文件对网页结构节点树和样式节点树的树状结构进行调整，得到调整后的网页结构节点树和样式节点树；基于调整后的网页结构节点树和样式节点树，得到与代码文件相对应的代码节点树。文件内容具体地，当需要提取多模态网页模板中的多模态信息时，计算机设备可获取用以实现多模态网页模板的代码文件。例如，在多模态网页模板为网页模板时，计算机设备可获取编写该网页模板时所生成的代码文件。计算机设备中部署有文本解析工具，文本解析工具通过浏览器渲染的方式加载代码文件，以生成代码节点树。进一步地，当得到代码节点树时，计算机设备即可对代码节点树进行遍历，以提取多模态网页模板中的多模态信息。比如，计算机设备可利用回溯法递归遍历代码节点树中的每个节点，并根据节点所对应的文件内容，来确定多模态网页模板中的多模态信息。

在其中一个实施例中，在多模态网页模板为网页模板的情况下，

网页结构文件、网页功能实现文件和样式文件。其中，网页结构文件具体可为html 文件、网页功能实现文件具体可为js文件、样式文件具体可为css文件。html文件定义有网页的整体结构，网页功能实现文件用于对浏览器事件作出响应或者用于在页面中嵌入动态文本等，样式文件用于提供网页的样式。当获取得到网页结构文件时，文本解析工具可对网页结构文件进行解析，以生成与网页结构文件相对应的网页结构节点树，其中，网页结构节点树中的每个节点对应于网页结构文件中的一部分文件内容，比如，在网页结构节点树包括<html>、<head>时，网页结构节点树中即可有与<html>对应的节点，以及与< head>对应的节点。文本解析工具还可以对样式文件进行解析，以生成与样式文本相对应的样式节点树，相应的，样式节点树中的每个节点也对应于样式文本中的一部分文件内容。由于js文件会对样式节点树和网页结构节点树进行修改，因此，文本解析工具可运行js文件，以对样式节点树和网页结构节点树的树状结构进行调整，得到调整后的样式节点树和网页结构节点树。比如，当js文件指明在网页中的某个部位添加一个控件时，文本解析工具即可基于该js文件在网页结构节点树中的相应部位处增加一个节点。

进一步地，文本解析工具对调整后的样式节点树和网页结构节点树进行结合，确定样式节点树和网页结构节点树中相匹配的节点，得到多个节点对。容易理解地，节点对中的其中一个节点为样式节点树中的节点，另一个节点网页结构节点树中的节点，且这两个节点相匹配。进一步地，文本解析工具将节点对中的两个节点进行融合，以将两个节点合为一个节点，得到融合的节点，并基于融合的节点生成与代码文件相对应的代码节点树。

在其中一个实施例中，为了描述方便，将样式节点树中的节点称作样式节点，将网页结构节点树中的节点称作结构节点。当判断一个样式节点是否与另一个结构节点相匹配时，文本解析工具可判断样式节点所指向的文件内容与结构节点所指向的文件内容是否匹配。比如，在样式节点所指向的文件内容为<body>，且结构节点所指向的文件内容也为<body>时，即可确定该样式节点与该结构节点相匹配。当节点对中的样式节点和结构节点进行融合，以得到融合的节点时，该融合的节点即可包括样式节点的节点内容和结构节点的节点内容。比如，在结构节点的节点内容为“body”，样式节点的节点内容为“body，颜色：红色”时，融合得到的节点中的节点内容为“body，颜色：红色”。

在其中一个实施例中，由于代码节点树中的节点是基于网页结构节点树中的节点生成得到的，因此，代码节点树中的节点与网页结构树中的节点具有对应关系，因此，可基于网页结构树中的节点之间的连接关系，来确定代码节点树中的各节点之间的连接关系。比如，当网页结构节点树中的节点1与节点2相连接，且节点2为节点1的子节点，由于代码节点树中的节点3是基于节点1生成得到的，代码节点树中的节点4是基于节点2生成得到的，因此，可将节点4作为节点3的子节点。

上述实施例中，通过生成节点树，可基于代码节点树对代码文件中的各个文件内容均进行遍历，如此，便能全面地提取出多模态网页模板中各种类别的网页信息，减少遗漏提取信息的概率，使得最终得到的多模态信息更为准确。

在其中一个实施例中，多模态信息包括属于文本类别的网页信息；通过节点树提取属于文本类别的网页信息的步骤包括：遍历节点树中的节点，并在遍历到的节点所对应的文件内容为文本的情况下，提取遍历到的节点所对应的文本；当遍历结束后，综合提取出的各文本，得到属于文本类别的网页信息。

具体地，计算机设备对节点树中的节点进行遍历，并确定遍历到的节点所对应的文件内容，当该文件内容为文本时，则提取遍历到的节点所对应的文本。例如，在上述举例中，在遍历到的节点为与“Sample Page”相对应的节点时，由于“Sample Page”为一个文本，则提取“Sample Page”。当遍历结束时，则计算机设备综合提取出的各个文本，得到属于文本类别的网页信息。比如。参考图5，计算机设备可将各文本中的语句进行拼接，得到一个段落，该段落即为属于文本类别的网页信息。

在其中一个实施例中，计算机设备可根据节点中的标识来确定该节点所对应的文件内容是否为文本。例如，当遍历到的节点中具有目标标识“Text”时，计算机设备可确定以遍历到的节点为子节点的父节点，并确定该父节点所对应的文件内容，在该父节点所对应的文件内容为文本标识标签<title>时，则确定遍历到的节点所对应的文件内容为文本。

在其中一个实施例中，多模态信息包括属于图像类别的网页信息和属于视频类别的网页信息；通过节点树提取属于文本类别的网页信息和属于视频类别的网页信息的步骤包括：遍历节点树中的节点，在遍历到的节点所对应的文件内容为链接的情况下，确定链接所指向的内容；在链接所指向的内容为图像或者视频的情况下，提取链接所指向的内容；当遍历结束后，综合提取出的各图像，得到属于图像类别的网页信息，并综合提取出的各视频，得到属于视频类别的网页信息。

具体地，在遍历到的节点所对应的文件内容为链接时，则计算机设备确定该链接所指向的内容。其中，链接是指文本、图片或者视频等的资源定位符。链接所指向的内容即为该链接所定位至的内容。当确定遍历到的节点所对应的链接指向的内容时，计算机设备即可判断该链接指向内容是否为图像或者视频。在遍历到的节点所对应的链接指向图像时，提取遍历到的节点所对应的链接指向的图像；在遍历到的节点所对应的链接指向视频时，提取遍历到的节点所对应的链接指向的视频。当遍历结束时，计算机设备综合提取出的各图像，得到属于图像类别的网页信息，以及计算机设备综合提取出的各视频，得到属于视频类别的网页信息。比如，参考图5，计算机设备将提取出的各图像进行尺寸变换，以使提取出的各图像的尺寸一致，并将尺寸变换后的图像进行叠加，得到属于图像类别的网页信息。又比如，计算机设备将提取出的各视频进行拼接，以得到属于视频类别的网页信息。图5示出了一个实施例中不同类别的网页信息的示意图。

在其中一个实施例中，计算机设备可根据节点中的标识来确定该节点所对应的文件内容是否为链接。例如，当遍历到的节点中具有目标标识“Text”时，计算机设备可确定以遍历到的节点为子节点的父节点，并确定该父节点所对应的文件内容，在该父节点所对应的文件内容为文本标识标签<a>时，则确定遍历到的节点所对应的文件内容为链接。

在其中一个实施例中，当得到属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息时，计算机设备可综合属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息，得到多模态信息。

在其中一个实施例中，多模态信息具体可为一个JSON文件（JavaScript ObjectNotation，轻量级数据交换格式），该JSON文件中记载有属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息。

上述实施例中，通过确定遍历到的节点所对应的文件内容，可确定该文件内容是否为文本或者为链接，并在确定为文本或者链接时，提取文本，或者，提取链接所指向的图片或视频作，如此，便实现了信息的提取。

在其中一个实施例中，多模态网页模板的处理方法通过多模态网页模板处理模型执行；多模态网页模板处理模型包括文本特征提取模型、图像特征提取模型和视频特征提取模型；对多模态信息中的每种网页信息分别进行特征提取，得到多模态信息中的每种网页信息各自的模态特征，包括：通过文本特征提取模型，对多模态信息中的属于文本类别的网页信息进行特征提取处理，得到属于文本类别的网页信息的模态特征；通过图像特征提取模型，对多模态信息中的属于图像类别的网页信息进行特征提取处理，得到属于图像类别的网页信息的模态特征；通过视频特征提取模型，对多模态信息中的属于视频类别的网页信息进行特征提取处理，得到属于视频类别的网页信息的模态特征。

具体地，针对多模态信息中的每种网页信息，计算机设备均可确定与所针对的网页信息的类别对应的特征提取方式，并按照确定的特征提取方式，对所针对的网页信息进行特征提取处理，得到所针对的网页信息的模态特征。例如，在所针对的网页信息为属于文本类别的网页信息时，计算机设备可确定与属于文本类别的网页信息对应的特征提取方式，并按照与属于文本类别的网页信息对应的特征提取方式对属于文本类别的网页信息进行特征提取处理，得到属于文本类别的网页信息的模态特征。

在其中一个实施例中，参考图4，多模态信息中包括有属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息；可将多模态信息中的属于文本类别的网页信息输入至文本特征提取模型，通过文本特征提取模型来提取属于文本类别的网页信息中的特征；可将多模态信息中的属于图像类别的网页信息输入至图像特征提取模型，通过图像特征提取模型来提取属于图像类别的网页信息中的特征；可将多模态信息中的属于视频类别的网页信息输入至视频特征提取模型中，通过视频特征提取模型来提取属于视频类别的网页信息的特征。其中，文本特征提取模型、图像特征提取模型和视频特征提取模型，均为预先训练好的机器学习模型。

上述实施例中，通过设置多种特征提取方式，可确定每种网页信息各自适配的特征提取方式，从而基于适配的特征提取方式提升特征提取的准确性。

在其中一个实施例中，通过文本特征提取模型，对多模态信息中的属于文本类别的网页信息进行特征提取处理，得到属于文本类别的网页信息的模态特征，包括：对多模态信息中的属于文本类别的网页信息进行编码，得到文本编码向量；对文本编码向量进行卷积处理，得到属于文本类别的网页信息的局部特征，并根据文本编码向量和属于文本类别的网页信息的局部特征，确定属于文本类别的网页信息的全局特征；将属于文本类别的网页信息的全局特征和局部特征进行融合，得到属于文本类别的网页信息的模态特征。

具体地，针对多模态信息中的每种信息，在所针对的网页信息为属于文本类别的网页信息时，计算机设备可通过文本特征提取模型来提取该信息的特征。通过文本特征提取模型来提取所针对的网页信息的模态特征的过程可参考图6。文本特征提取模型包括卷积层、循环神经网络层、自注意力层。文本特征提取模型可对所针对的网页信息中的各分词进行编码，得到相应的文本编码向量，例如，采用one-hot编码方法对各分词进行编码，以得到相应的文本编码向量。

进一步地，文本特征提取模型将文本编码向量输入至卷积层（CNN，ConvolutionalNeural Networks），以通过卷积层对文本编码向量进行卷积处理，得到所针对的网页信息的局部特征。文本特征提取模型将所针对的网页信息的局部特征和文本编码向量输入至循环神经网络层（RNN，Recurrent NeuralNetwork），通过循环神经网络层对所针对的网页信息的局部特征和文本编码向量进行处理，得到所针对的网页信息的全局特征。文本特征提取模型将所针对的网页信息的局部特征和全局特征输入至自注意力层，以通过自注意力层对所针对的网页信息的局部特征和全局特征进行融合，得到融合结果，并将融合结果作为所针对的网页信息的模态特征。图6示出了一个实施例中提取文本的特征的示意图。

在其中一个实施例中，当得到所针对的网页信息的局部特征和全局特征时，自注意力层可确定局部特征的权重和全局特征的权重，并通过局部特征的权重和全局特征的权重对所针对的网页信息进行融合，得到相应的模态特征。

在其中一个实施例中，在所针对的网页信息为属于文本类别的网页信息的情况下，可通过下述公式提取所针对的网页信息的模态特征：

其中，CNN为通过卷积网络进行卷积处理；为所针对的网页信息的局部特征；RNN为通过循环神经网络进行处理；为所针对的网页信息的全局特征；T为文本编码向量；Attention为通过自注意力网络进行自注意力处理；为所针对的网页信息的模态特征。

在其中一个实施例中，在对所针对的网页信息进行编码之前，还可对所针对的网页信息进行预处理，包括去除停用词、分词、词干提取等操作。

上述实施例中，由于是提取所针对的网页信息的局部特征和全局特征，并对所针对的网页信息的局部特征和全局特征进行自注意力处理，可使得最终得到的模态特征更为准确。

在其中一个实施例中，属于文本类别的网页信息包括至少一个分词；文本编码向量中包括至少一个分词各自对应的分量；根据文本编码向量和属于文本类别的网页信息的局部特征，确定针对的网页信息的全局特征，包括：根据文本编码向量中的首个分量和属于文本类别的网页信息的局部特征，确定首个轮次输出的隐藏层向量；从首轮之后的第二轮次起的当前轮次中，根据前一轮次输出的隐藏层向量和文本编码向量中与当前轮次对应的分量，确定当前轮次输出的隐藏层向量；将下一轮次作为当前轮次，并返回至根据前一轮次输出的隐藏层向量和文本编码向量中与当前轮次对应的分量，确定当前轮次输出的隐藏层向量的步骤继续执行，直至满足预设停止条件时停止；根据在最后轮次输出的隐藏层向量，确定属于文本类别的网页信息的全局特征。

具体地，在所针对的网页信息为属于文本类别的网页信息时，循环神经网络层中的隐藏层可对所针对的网页信息的局部特征和文本编码向量中的首个分量进行处理，得到首轮次输出的隐藏层向量。循环神经网络层中的隐藏层可对首轮次输出的隐藏层向量和文本编码向量中的第二个分量进行处理，得到第二轮次输出的隐藏层向量。循环神经网络层中的隐藏层可对第二轮次输出的隐藏层向量和文本编码向量中的第三个分量进行处理，得到第三轮次输出的隐藏层向量。依次类推，直至得到最后轮次输出的隐藏层向量。其中，文本编码向量中包括与所针对的网页信息中的分词一一对应的分量，且分量在文本编码向量中的排序，可与分词在所针对的网页信息中的排序一致。隐藏层是把输入数据的特征抽象到另一个维度空间，来展现其更抽象化的特征的网络层。

进一步地，当将文本编码向量中的最后一个分量输入至隐藏层，以得到隐藏层输出的隐藏层向量时，即可认为达到的了预设停止条件。因此，当得到最后轮次输出的隐藏层向量时，循环神经网络层可将最后轮次输出的隐藏层向量作为所针对的网页信息的全局特征。

本实施例中，通过多轮次地输出隐藏层向量，使得循环神经网络层能够充分地学习到所针对的网页信息中的全局特征，从而使得提取出的全局特征更为准确。

在其中一个实施例中，通过图像特征提取模型，对多模态信息中的属于图像类别的网页信息进行特征提取处理，得到属于图像类别的网页信息的模态特征，包括：对多模态信息中的属于图像类别的网页信息进行编码，得到图像编码向量；对图像编码向量进行卷积处理，得到属于图像类别的网页信息的局部特征，并将图像编码向量输入图像残差网络，得到属于图像类别的网页信息的全局特征；将属于图像类别的网页信息的局部特征和全局特征进行融合，得到属于图像类别的网页信息的模态特征。

具体地，针对多模态信息中的每种信息，在所针对的网页信息为属于图像类别的网页信息时，计算机设备可通过图像特征提取模型来提取该信息的特征。通过图像特征提取模型来提取所针对的网页信息的模态特征的过程可参考图7。图像特征提取模型包括特征变换层、卷积层（CNN）、图像残差网络层（Residual）、特征融合层。图像特征提取模型可将所针对的网页信息输入特征变换层，以使特征变换层对所针对的网页信息进行编码，得到相应的图像编码向量。进一步地，图像特征提取模型可将图像编码向量输入至卷积层，以使卷积层对图像编码向量进行卷积处理，得到所针对的网页信息的局部特征。图像特征提取模型可将图像编码向量输入至图像残差网络层，通过图像残差网络层对图像编码向量进行处理，得到所针对的网页信息的全局特征。图像特征提取模型将所针对的网页信息的局部特征和全局特征输入至特征融合层，以通过特征融合层将所针对的网页信息的局部特征和全局特征进行融合，得到所针对的网页信息的模态特征。比如，特征融合层可将所针对的网页信息的局部特征和全局特征进行叠加，得到所针对的网页信息的模态特征。图7示出了一个实施例中提取图像的特征的示意图。

在其中一个实施例中，在所针对的网页信息为属于图像类别的网页信息的情况下，可通过下述公式提取所针对的网页信息的模态特征：

其中，I为文本编码向量；CNN为通过卷积层进行卷积处理；为所针对的网页信息的局部特征； Residual为通过图像残差网络进行处理；为所针对的网页信息的全局特征；为所针对的网页信息的模态特征。

在其中一个实施例中，在所针对的网页信息属于图像类别，且在对所针对的网页信息进行编码之前，还可以对所针对的网页信息进行预处理，例如，可缩放所针对的网页信息，对所针对的网页信息进行裁剪，增强所针对的网页信息等。

上述实施例中，由于是提取所针对的网页信息的局部特征和全局特征，并对所针对的网页信息的局部特征和全局特征进行融合，使得最终得到的模态特征更为准确。

在其中一个实施例中，通过视频特征提取模型，对多模态信息中的属于视频类别的网页信息进行特征提取处理，得到属于视频类别的网页信息的模态特征，包括：对多模态信息中的属于视频类别的网页信息进行编码，得到视频编码向量；对视频编码向量进行卷积处理，得到时空特征；将视频编码向量输入时序残差网络，得到时序残差特征；将时空特征和时序残差特征进行融合，得到属于视频类别的网页信息的模态特征。

具体地，针对多模态信息中的每种信息，在所针对的网页信息为属于视频类别的网页信息时，计算机设备可通过视频特征提取模型来提取该信息的特征。通过视频特征提取模型来提取所针对的网页信息的模态特征的过程可参考图8。视频特征提取模型包括特征变换层、时空卷积层（T-CNN）、时序残差网络层（T-Residual）、自注意力层。视频特征提取模型可将所针对的网页信息输入特征变换层，以使特征变换层对所针对的网页信息进行编码，得到相应的视频编码向量。进一步地，视频特征提取模型可将视频编码向量输入至时空卷积层，以使时空卷积层对视频编码向量进行卷积处理，得到所针对的网页信息的时空特征，其中，时空特征包括运动、形状、纹理特征等。视频特征提取模型可将视频编码向量输入至时序残差网络层，通过时序残差网络层对视频编码向量进行处理，得到所针对的网页信息的时序残差特征。视频特征提取模型将所针对的网页信息的时空特征和时序残差特征输入至自注意力层，以通过自注意力层将所针对的网页信息的局时空特征和时序残差特征进行融合，得到所针对的网页信息的模态特征。比如，自注意力层可确定局部特征的权重和全局特征的权重，并通过局部特征的权重和全局特征的权重对所针对的网页信息进行融合，得到相应的模态特征。图8示出了一个实施例中提取视频的特征的示意图。

在其中一个实施例中，在所针对的网页信息属于视频类别的情况下，可通过下述公式提取所针对的网页信息的模态特征：

其中，V为视频编码向量；TCNN为通过卷积层进行卷积处理；为所针对的网页信息的时空特征；TResidual为通过时序残差网络进行处理；为所针对的网页信息的时序残差特征；为所针对的网页信息的模态特征；Attention为通过自注意力网络进行自注意力处理。

在其中一个实施例中，在所针对的网页信息属于视频类别，且在对所针对的网页信息进行编码之前，还可以对所针对的网页信息进行预处理，例如，可缩放所针对的网页信息，对所针对的网页信息进行裁剪，增强所针对的网页信息等。

上述实施例中，由于是提取所针对的网页信息的时空特征和时序残差特征，使得对时空特征时序残差特征融合得到的模态特征既能够包括视频中的时序信息也能够包含时空信息，使得最终得到的模态特征所包含的内容更为丰富。

在其中一个实施例中，将每两个归属于不同形式的网页信息的模态特征进行融合，得到融合特征，包括：针对多模态信息中的每两种网页信息，通过注意力机制将针对的两种网页信息的模态特征进行融合，得到针对的两种网页信息所对应的融合特征。

具体地，当得到多模态信息中的每种网页信息各自的模态特征时，针对多模态信息中的每两种网页信息，可通过注意力机制将所针对的两种网页信息的模态特征进行融合，得到与所针对的两种网页信息相对应的融合特征。例如，在所针对的两种网页信息为属于文本类别的网页信息T和属于图像类别的网页信息I时，则通过注意力机制将信息T模态特征和信息I的进行融合。

在其中一个实施例中，参考图9，多模态网页模板处理模型可包括多模态融合模型，多模态融合模型可包括多个自注意力网络。可将多模态信息中的属于文本类别的网页信息输入至文本特征提取模型，以得到属于文本类别的网页信息的模态特征，并将多模态信息中的属于图像类别的网页信息输入至图像特征提取模型，以得到属于图像类别的网页信息的模态特征，以及将多模态信息中的属于视频类别的网页信息输入至视频特征提取模型，以得到属于视频类别的网页信息的模态特征。计算机设备对属于文本类别的网页信息的模态特征、属于图像类别的网页信息的模态特征以及属于视频类别的网页信息的模态特征进行两两组合，以输入至相应的自注意力网络，基于自注意力网络输出的结果，得到多模态融合特征。例如，计算机设备将（属于文本类别的网页信息的模态特征，属于图像类别的网页信息的模态特征）输入至自注意力网络1和自注意力网络2，基于自注意力网络1和自注意力网络2输出的结果，得到对属于文本类别的网页信息的模态特征和属于图像类别的网页信息的模态特征进行融合的多模态融合特征。计算机设备还可将（属于文本类别的网页信息的模态特征，属于视频类别的网页信息的模态特征）输入至自注意力网络3和自注意力网络4，基于自注意网络3和自注意力网络4输出的结果，得到对属于文本类别的网页信息的模态特征和属于视频类别的网页信息的模态特征进行融合的多模态融合特征。图9示出了一个实施例中特征融合的示意图。

上述实施例中，通过将不同类型的网页信息的模态特征进行两两融合，可学习到不同类型的网页信息之间的交叉特征，从而基于学习到的交叉特征输出更为准确的模板标签。

在其中一个实施例中，针对的两种网页信息包括第一信息和第二信息；针对多模态信息中的每两种网页信息，对所针对的两种网页信息的模态特征进行融合，得到与针对的两种对应的多模态融合特征，包括：通过注意力机制将第一信息的模态特征与第二信息的模态特征进行融合，得到第一中间融合特征；将第一中间融合特征与第一信息的模态特征进行融合，得到第二中间融合特征；将第一中间融合特征与第二信息的模态特征进行融合，得到第三中间融合特征；将第二中间融合特征与第三中间融合特征进行融合，得到信息对所对应的多模态融合特征。

具体地，将所针对的两个网页信息中的一个信息称作第一信息，将另一个称作第二信息，当需要将第一信息的模态特征与第二信息的模态特征进行融合时，例如，在属于文本类别的网页信息为第一信息，在属于图像类别的网页信息为第二信息，当需要将属于文本类别的网页信息的模态特征与属于图像类别的网页信息的模态特征进行融合时，计算机设备可将第一信息的模态特征以及第二信息的模态特征输入至两个自注意力网络，并通过其中一个自注意力网络对第一信息的模态特征和第二信息的模态特征进行融合，得到第一中间融合特征，将第一中间融合特征与第一信息的模态特征进行融合，得到第二中间融合特征。以及通过另一个自注意网络对第一信息的模态特征和第二信息的模态特征进行融合，得到第一中间融合特征，将第一中间融合特征与第二信息的模态特征进行融合，得到第三中间融合特征。例如，参考图9，计算机设备可将属于文本类别的网页信息的模态特征与属于图像类别的网页信息的模态特征输入至自注意力网络1和自注意力网络2，通过自注意力网络1，并基于自注意力机制，将属于文本类别的网页信息的模态特征与属于图像类别的网页信息的模态特征进行融合，得到第一中间融合特征，以及将第一中间融合特征与属于文本类别的网页信息的模态特征进行融合，得到第二中间融合特征。计算机设备通过自注意力网络2，并基于自注意力机制，将属于文本类别的网页信息的模态特征与属于图像类别的网页信息的模态特征进行融合，得到第一中间融合特征，以及将第一中间融合特征与属于图像类别的网页信息的模态特征进行融合，得到第三中间融合特征。

进一步地，计算机设备可将第二中间融合特征以及第三中间融合特征进行进一步地融合，以得到与所针对的两个信息相对应的多模态融合特征。其中，上述的融合可为将两个特征进行叠加或者拼接。

本实施例中，通过将第一信息的模态特征与第二信息的模态特征进行融合，可得到第一中间融合特征；通过得到第一中间融合特征，可将第一中间融合特征分别与第一信息的模态特征以及第二信息的模态特征进行融合，使得得到的第二中间融合特征和第三中间融合特征能够充分学习到第一信息和第二信息之间的交叉信息，从而通过将第二中间融合特征和第三中间融合特征进行融合，可得到包含第一信息和第二信息之间的交叉信息的多模态融合特征，如此，便可全面充分地对模态特征进行理解。

在其中一个实施例中，通过注意力机制将第一信息的模态特征与第二信息的模态特征进行融合，得到第一中间融合特征，包括：将第一信息的模态特征与第二信息的模态特征进行拼接，得到模态拼接特征；将模态拼接特征输入全连接层，得到全连接层输出结果；将全连接层输出结果输入激活函数，得到第一中间融合特征。

具体地，自注意力层包括特征拼接层、全连接层和激活层。参考图10，计算机设备通过特征拼接层（Concat）将第一信息的模态特征与第二信息的模态特征进行拼接，得到模态拼接特征，并通过全连接层（FC）对模态拼接特征进行处理，得到全连接特征，将全连接特征输入至激活层（Sigmoid），通过激活层中的激活函数对全连接特征进行处理，得到第一中间融合特征。图10示出了一个实施例中基于自注意力得到第一中间融合特征的示意图。

在其中一个实施例中，计算机设备可通过下述公式得到多模态融合特征：

其中，Attention为通过自注意力层进行自注意力处理；Sigmoid为通过激活层进行处理；FC为全连接层；Concat为特征拼接层；Feature1为第一信息的模态特征；Feature2 为第二信息的模态特征；为属于文本类别的网页信息的模态特征；为属于图像类别的网页信息的模态特征；为属于视频类别的网页信息的模态特征；为将属于文本类别的网页信息的模态特征与属于图像类别的网页信息的模态特征进行融合后得到的多模态融合特征；为将属于视频类别的网页信息的模态特征与属于图像类别的网页信息的模态特征进行融合后得到的多模态融合特征；为将属于文本类别的网页信息的模态特征与属于视频类别的网页信息的模态特征进行融合后得到的多模态融合特征。

在其中一个实施例中，在上述举例中，当得到多个多模态融合特征时，计算机设备可通过下述公式得到拼接融合特征Feat，其中Concat为特征拼接：

在其中一个实施例中，多模态网页模板至少包括网页静态模板；网页静态模板至少包括网页形式的公众号模板和网页形式的幻灯片模板中的一种；模板标签至少用于确定多模态网页模板所属的模板类别、模板评分或者各多模态网页模板之间的相似度。

具体地，当得到多个多模态融合特征时，可将各多模态融合特征进行拼接，得到拼接融合特征。进一步地没计算机设备通过全连接层对拼接融合特征进行处理，以输出多模态网页模板属于预设模板标签集中的每个预设模板标签的概率值。计算机设备将按照概率值由高至低的顺序对预设模板标签进行排序，得到预设模板标签序列，并将位于预设模板标签序列首位的预设模板标签，作为多模态网页模板的模板标签。比如，预设模板标签集中可设置有“业务1”、“业务2”和“业务3”这三个预设模板标签，当基于多模态信息确定多模态网页模板属于“业务1”的概率值为0.7，多模态网页模板属于“业务2”的概率值为0.1，多模态网页模板属于“业务3”的概率值为0.2时，可将“业务1”作为该多模态网页模板的模板标签。

当获取得到多个多模态网页模板各自的模板标签时，计算机设备还可根据多个多模态网页模板各自的模板标签对多个多模态网页模板进行分类，将具有相同模板标签的网页模板归为一类。或者，计算机设备可根据模板标签，确定各多模态网页模板之间的相似度。或者，一个多模态网页模板可包括有多个模板标签，计算机设备可基于该多模态网页模板的多个模板标签，确定该多模态网页模板的模板评分。例如，计算机设备可根据模板标签与分值之间的对应关系，确定多模态网页模板的每个模板标签各自的分值，并将获取的各分值进行加权求和，以得到该多模态网页模板的模板评分。

在其中一个实施例中，全连接层可通过下述公式返回候选标签的概率值：

其中，表示上述步骤中的深度学习网络模型，表示对模型输出的概率值进行排序，返回TopN的候选标签。y表示TopN的候选标签。

在其中一个实施例中，多模态网页模板处理方法由多模态网页模板处理模型执行；多模态网页模板处理模型的训练步骤包括：获取样本多模态网页模板和与样本多模态网页模板相对应的样本标签；提取样本多模态网页模板中的多模态样本信息，并对多模态样本信息中的每种样本信息分别进行特征提取，得到多模态样本信息中的每种样本信息各自的样本模态特征；将多模态样本信息中的每两种样本信息的样本模态特征进行融合，得到多个样本多模态融合特征，并将各样本多模态融合特征进行拼接，得到样本拼接融合特征；根据样本拼接融合特征确定样本多模态网页模板的预测模板标签，通过预测模板标签和样本标签，对多模态处理模型进行训练，直至达到训练停止条件时停止。

具体地，计算机设备在通过多模态网页模板处理模型进行处理之前，还可对该多模态网页模板处理模型进行训练。计算机设备可获取样本多模态网页模板和与样本多模态网页模板相对应的样本标签，并提取样本多模态网页模板中的多模态样本信息，对多模态样本信息中的每种样本信息分别进行特征提取，得到多模态样本信息中的每种样本信息各自的样本模态特征。计算机设备将多模态样本信息中的每两种样本信息的样本模态特征进行融合，得到多个样本多模态融合特征，并将各样本多模态融合特征进行拼接，得到样本拼接融合特征。计算机设备根据样本拼接融合特征确定样本多模态网页模板属于预设候选模板标签集中的每个候选模板标签的概率值，也即，确定样本多模态网页模板的预测模板标签，通过预测模板标签和样本标签构建多标签分类损失，通过多标签分类损失来调整多模态处理模型的模型参数，直至达到训练停止条件时停止。

在其中一个实施例中，多模态网页模板处理模型为一个嵌套子模型，嵌套子模型包括三个并行的特征提取模型、注意力机制层和特征转换层，从而基于三个并行地特征提取模型提取多模态网页模板中属于文本类别的样本信息的样本模态特征、属于图像类别的样本信息的样本模态特征和属于视频类别的样本信息的样本模态特征，并基于注意力机制层将提取出的每两种样本模态特征进行融合，得到样本多模态融合特征，以及基于特征转换层将各样本多模态融合特征进行拼接，得到样本拼接融合特征，进而基于样本拼接融合特征得到模板预测标签。其中，三个并行的特征提取模型为文本特征提取模型、图像特征提取模型和视频特征提取模型。图像特征提取模型中包括有图像残差网络。对于深的网络层，由于参数初始化一般更靠近0，这样在训练的过程中更新浅层网络的参数时，很容易随着网络的深入而导致梯度消失，浅层的参数无法更新。而通过图像残差网络可使得多个网络层中的冗余层完成恒等映射，实现跨层跳转连接，以解决深度神经网络训练过程中的梯度消失问题。在训练过程中，还会出现梯度爆炸的问题，梯度爆炸指神经网络训练过程中大的误差梯度不断累积，导致模型权重出现重大更新。而通过图像残差网络实现跨层跳转连接，也可够解决梯度爆炸问题。

相应的，视频特征提取模型包括有时序残差网络，通过时序残差网络也可以解决视频信息处理过程中的梯度消失和梯度爆炸问题。

在其中一个实施例中，样本标签包括各预设模板标签各自对应的标准概率值；预测模板标签包括各预设模板标签各自对应的预测概率值；通过预测模板标签和样本标签，对多模态处理模型进行训练，包括：针对多个预设模板标签中的每个预测模板标签，将与所针对的预设模板标签对应的标准概率值和预测概率值进行融合，得到与针对的预设模板标签对应的融合概率值；根据多个预设模板标签各自对应的融合概率值，确定多标签分类损失；基于多标签分类损失调整对多模态网页处理模型进行训练。具体地，预测模板标签包括样本多模态模板对应于各预设模板标签的预测概率值。比如，在预设模板标签集为“业务1”、“业务2”和“业务3”时，预测模板标签即可为[1，0，0]，其中，“1”、“0”、“0”均为上述的标准概率值。1代表样本多模态网页模板属于业务1下的网页模板；[1，0，0]中的第一个0代表代表样本多模态网页模板不属于业务2下的网页模板；[1，0，0]中的第二个0代表代表样本多模态网页模板不属于业务3下的网页模板。相应的，预测模板标签可为[0.7，0.1，0.2]，其中，“0.7”、 “0.1”、“0.2”均为上述的预测概率值；0.7代表样本多模态网页模板属于业务1下的网页模板的概率值为0.7；0.1代表代表样本多模态网页模板不属于业务2下的网页模板的概率值为0.1；0.2代表代表样本多模态网页模板不属于业务3下的网页模板的概率值为0.2。

进一步地，计算机设备可基于各标准概率值和各预测概率值来构建多标签分类损失，从而基于多标签分类损失来对模型进行训练。例如，计算机设备可将对应于同一个预测模板标签的预测概率和标准概率值进行融合，得到融合概率值，并基于各融合概率值确定多标签分类损失，通过调整多标签分类损失调整待训练的多模态网页处理模型的模型参数。

在其中一个实施例中，多标签分类损失可通过多标签分类损失函数得到，多标签分类损失函数可为如下公式：

其中，为预设模板标签集中的第i个预设模板标签的标准概率。k为预设模板标签集中的预设模板标签集的数量。Feat为样本拼接融合特征。

在其中一个实施例中，为了调整超参数，如网络的层数、每层网络神经元的数量等，我们将从日志中获取的数据集划分为训练集和验证集，通过在验证集上的效果去调整网络的超参数。

上述实施例中，通过对多模态网页模板处理模型进行训练，可使得训练得到的多模态网页模板处理模型能够输出更为准确的模板标签。

在其中一个具体实施例中，参考图11，图11提供了一种多模态网页模板处理方法，包括：

步骤1102，计算机设备获取多模态网页模板的代码文件；对代码文件进行解析，得到与代码文件对应的代码节点树；节点树中的每个节点对应代码文件中的一个文件内容。

步骤1104，计算机设备遍历代码节点树中的节点，并在遍历到的节点所对应的文件内容为文本的情况下，提取遍历到的节点所对应的文本；当遍历结束后，综合提取出的各文本，得到属于文本类别的网页信息。

步骤1106，计算机设备遍历代码节点树中的节点，在遍历到的节点所对应的文件内容为链接的情况下，确定链接所指向的内容；在链接所指向的内容为图像或者视频的情况下，提取链接所指向的内容；当遍历结束后，综合提取出的各图像，得到属于图像类别的网页信息，并综合提取出的各视频，得到属于视频类别的网页信息。

步骤1108，计算机设备综合属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息，得到多模态信息。

步骤1110，针对多模态信息中的每种类别的网页信息，在针对的网页信息属于文本类别的情况下，计算机设备对针对的网页信息进行编码，得到文本编码向量；对文本编码向量进行卷积处理，得到针对的网页信息的局部特征；根据文本编码向量和针对的网页信息的局部特征，确定针对的网页信息的全局特征；将针对的网页信息的全局特征和局部特征进行融合，得到针对的网页信息的模态特征。

步骤1112，在针对的网页信息属于图像类别的情况下，计算机设备对针对的网页信息进行编码，得到图像编码向量；对图像编码向量进行卷积处理，得到针对的网页信息的局部特征；将图像编码向量输入图像残差网络，得到针对的网页信息的全局特征，并将针对的网页信息的局部特征和全局特征进行融合，得到针对的网页信息的模态特征。

步骤1114，在针对的网页信息属于视频类别的情况下，计算机设备对针对的网页信息进行编码，得到视频编码向量；对视频编码向量进行卷积处理，得到时空特征；将视频编码向量输入时序残差网络，得到时序残差特征；将时空特征和时序残差特征进行融合，得到针对的网页信息的模态特征。

步骤1116，针对多模态信息中的每两种网页信息，计算机设备通过注意力机制将所针对的两种网页信息中的第一信息的模态特征与所针对的两种信息中的第二信息的模态特征进行融合，得到第一中间融合特征。

步骤1118，计算机设备将第一中间融合特征与第一信息的模态特征进行融合，得到第二中间融合特征，并将第一中间融合特征与第二信息的模态特征进行融合，得到第三中间融合特征；将第二中间融合特征与第三中间融合特征进行融合，得到信息对所对应的多模态融合特征。

步骤1120，计算机设备将融合得到的各多模态融合特征进行拼接，得到拼接融合特征，并根据拼接融合特征确定多模态网页模板的模板标签。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种应用场景，该应用场景应用上述的多模态网页模板的处理方法。具体地，该多模态网页模板的处理方法在该应用场景的应用如下：

多模态网页模板具体可为网页静态模板。当需要确定网页静态模板的模板标签时，计算机设备可将网页静态模板输入至多模态网页模板处理模型中，通过多模态网页模板处理模型对网页静态模板进行处理，输出网页静态模板的模板标签。当得到多个网页静态模板的模板标签时，计算机设备可根据模板标签对多个网页静态模板进行分类，得到多个类别的网页静态模板。从而当用户期望计算机设备向其推荐网页静态模板时，用户可在计算机设备中输入关键词，进而计算机设备可基于用户输入的关键词，从多个类别的网页静态模板中筛选出一个类别的网页静态模板，并将筛选出的网页静态模板推荐至用户。比如，计算机设备可基于模板标签，确定与电商相关的网页静态模板、与游戏相关的网页静态模板和与影视娱乐相关的网页静态模板。当用户在计算机设备中输入关键字“电商”时，计算机设备即可向用户返回与电商相关的网页静态模板，从而用户可从中选取所需的网页静态模板。

本申请还另外提供一种应用场景，该应用场景应用上述的多模态网页模板的处理方法。具体地，该多模态网页模板的处理方法在该应用场景的应用如下：

多模态网页模板具体可为网页形式的公众号模板，当获取得到网页形式的公众号模板时，计算机设备可将网页形式的公众号模板输入至多模态网页模板处理模型中，从而多模态网页模板处理模型可对公众号模板进行处理，输出公众号模板的模板标签。比如，当具有公众号模板1、公众号模板2和公众号模板3时，即可得到与公众号模板1对应的模板标签为甜品、与公众号模板2对应的模板标签为咖啡、与公众号模板3对应的模板标签为火锅。当用户期望通过公众号输出一篇包括文字、图像和视频的文章时，用户可在计算机设备中输入关键字，进而计算机设备可确定以该关键字为模板标签的公众号模板，并将确定的公众号模板推荐至用户。进而用户可从推荐的公众号模板中选择一个模板进行编辑，以得到待通过公众号发布的文章。比如，当用户期望通过公众号发布一篇关于甜片的文章时，即可输入关键字“甜品”，从而计算机设备可将具有“甜品”标签的公众号模板1发送至用户，进而用户可基于公众号模板1快速产出一篇有关甜品的文章。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的多模态网页模板的处理方法的应用不局限于上述场景。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的多模态网页模板的处理方法的多模态网页模板的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个多模态网页模板的处理装置实施例中的具体限定可以参见上文中对于多模态网页模板的处理方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种多模态网页模板的处理装置1200，包括：获取模块1202、特征提取模块104和特征融合模块1206：

获取模块1202，用于获取多模态网页模板的代码文件，并通过网页渲染方式对所述代码文件进行解析，得到与所述代码文件相对应的代码节点树；所述代码节点树中的每个节点对应所述代码文件中的一部分文件内容；根据所述代码节点树提取多模态网页模板中的多模态信息；多模态信息，至少包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息中的两种。

特征提取模块1204，用于对多模态信息中的每种网页信息分别进行特征提取，得到多模态信息中的每种网页信息各自的模态特征。

特征融合模块1206，用于针对多模态信息中的每两种网页信息，对所针对的两种网页信息的模态特征进行融合，得到与针对的两种网页信息对应的多模态融合特征；将融合得到的各多模态融合特征进行拼接，得到拼接融合特征，并根据拼接融合特征确定多模态网页模板的模板标签。

在其中一个实施例中，代码文件包括网页结构文件、网页功能实现文件和样式文件；获取模块1202还用于根据网页结构文件构建网页结构节点树；根据样式文件构建样式节点树；基于网页功能实现文件对所述网页结构节点树和样式节点树的树状结构进行调整，得到调整后的网页结构节点树和样式节点树；基于调整后的网页结构节点树和样式节点树，得到与代码文件相对应的代码节点树。

在其中一个实施例中，多模态信息包括属于文本类别的网页信息；获取模块1202还用于遍历节点树中的节点，并在遍历到的节点所对应的文件内容为文本的情况下，提取遍历到的节点所对应的文本；当遍历结束后，综合提取出的各文本，得到属于文本类别的网页信息。

在其中一个实施例中，多模态信息包括属于图像类别的网页信息和属于视频类别的网页信息；获取模块1202还用于遍历节点树中的节点，在遍历到的节点所对应的文件内容为链接的情况下，确定链接所指向的内容；在链接所指向的内容为图像或者视频的情况下，提取链接所指向的内容；当遍历结束后，综合提取出的各图像，得到属于图像类别的网页信息，并综合提取出的各视频，得到属于视频类别的网页信息。

在其中一个实施例中，多模态网页模板处理装置1200中运行有多模态网页模板处理模型；多模态网页模板处理模型包括文本特征提取模型、图像特征提取模型和视频特征提取模型；特征提取模块1204还包括文本特征提取模块，用于通过文本特征提取模型，对多模态信息中的属于文本类别的网页信息进行特征提取处理，得到属于文本类别的网页信息的模态特征；特征提取模块还包括图像特征提取模块，用于通过图像特征提取模型，对多模态信息中的属于图像类别的网页信息进行特征提取处理，得到属于图像类别的网页信息的模态特征；特征提取模块还包括视频提取模块，用于通过视频特征提取模型，对多模态信息中的属于视频类别的网页信息进行特征提取处理，得到属于视频类别的网页信息的模态特征。

在其中一个实施例中，文本特征提取模块还用于对多模态信息中的属于文本类别的网页信息进行编码，得到文本编码向量；对文本编码向量进行卷积处理，得到属于文本类别的网页信息的局部特征，并根据文本编码向量和属于文本类别的网页信息的局部特征，确定属于文本类别的网页信息的全局特征；将属于文本类别的网页信息的全局特征和局部特征进行融合，得到属于文本类别的网页信息的模态特征。

在其中一个实施例中，属于文本类别的网页信息包括至少一个分词；所述文本编码向量中包括所述至少一个分词各自对应的分量；文本特征提取模块还用于根据所述文本编码向量中的首个分量和所述属于文本类别的网页信息的局部特征，确定首个轮次输出的隐藏层向量；从所述首轮之后的第二轮次起的当前轮次中，根据前一轮次输出的隐藏层向量和所述文本编码向量中与所述当前轮次对应的分量，确定当前轮次输出的隐藏层向量；将下一轮次作为当前轮次，并返回至根据前一轮次输出的隐藏层向量和所述文本编码向量中与所述当前轮次对应的分量，确定当前轮次输出的隐藏层向量的步骤继续执行，直至满足预设停止条件时停止；根据在最后轮次输出的隐藏层向量，确定属于文本类别的网页信息的全局特征。

在其中一个实施例中，图像特征提取模块还用于对多模态信息中的属于图像类别的网页信息进行编码，得到图像编码向量；对图像编码向量进行卷积处理，得到属于图像类别的网页信息的局部特征，并将图像编码向量输入图像残差网络，得到属于图像类别的网页信息的全局特征；将属于图像类别的网页信息的局部特征和全局特征进行融合，得到属于图像类别的网页信息的模态特征。

在其中一个实施例中，视频特征提取模块还用于对多模态信息中的属于视频类别的网页信息进行编码，得到视频编码向量；对视频编码向量进行卷积处理，得到时空特征；将视频编码向量输入时序残差网络，得到时序残差特征；将时空特征和时序残差特征进行融合，得到属于视频类别的网页信息的模态特征。

在其中一个实施例中，针对的两种网页信息包括第一信息和第二信息；特征融合模块1206还用于通过注意力机制将第一信息的模态特征与第二信息的模态特征进行融合，得到第一中间融合特征；将第一中间融合特征与第一信息的模态特征进行融合，得到第二中间融合特征；将第一中间融合特征与第二信息的模态特征进行融合，得到第三中间融合特征；将第二中间融合特征与第三中间融合特征进行融合，得到与针对的两种信息对应的多模态融合特征。

在其中一个实施例中，特征融合模块1206还用于将第一信息的模态特征与第二信息的模态特征进行拼接，得到模态拼接特征；将模态拼接特征输入全连接层，得到全连接层输出结果；将全连接层输出结果输入激活函数，得到第一中间融合特征。

在其中一个实施例中，模板标签至少用于确定多模态网页模板所属的模板类别、模板评分或者各多模态网页模板之间的相似度。

在其中一个实施例中，多模态网页模板处理装置1200中运行有多模态网页模板处理模型；多模态网页模板处理装置还包括训练模块，用于获取样本多模态网页模板和与样本多模态网页模板相对应的样本标签；提取样本多模态网页模板中的多模态样本信息，并对多模态样本信息中的每种样本信息分别进行特征提取，得到多模态样本信息中的每种样本信息各自的样本模态特征；将多模态样本信息中的每两种样本信息的样本模态特征进行融合，得到多个样本多模态融合特征，并将各样本多模态融合特征进行拼接，得到样本拼接融合特征；根据样本拼接融合特征确定样本多模态网页模板的预测模板标签，通过预测模板标签和样本标签，对多模态处理模型进行训练，直至达到训练停止条件时停止。

在其中一个实施例中，样本标签包括各预设模板标签各自对应的标准概率值；预测模板标签包括各预设模板标签各自对应的预测概率值；训练模块还用于针对多个预设模板标签中的每个预测模板标签，将与所针对的预设模板标签对应的标准概率值和预测概率值进行融合，得到与针对的预设模板标签对应的融合概率值；根据多个预设模板标签各自对应的融合概率值，确定多标签分类损失；基于多标签分类损失调整多模态网页处理模型的模型参数。

上述多模态网页模板的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多模态网页模板的处理数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态网页模板的处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种多模态网页模板的处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13至图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的网页信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多模态网页模板的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述代码文件包括网页结构文件、网页功能实现文件和样式文件；所述通过网页渲染方式对所述代码文件进行解析，得到与所述代码文件相对应的代码节点树，包括：

根据所述网页结构文件构建网页结构节点树；

根据所述样式文件构建样式节点树；

基于所述网页功能实现文件对所述网页结构节点树和所述样式节点树的树状结构进行调整，得到调整后的网页结构节点树和样式节点树；

基于所述调整后的网页结构节点树和样式节点树，得到与所述代码文件相对应的代码节点树。

3.根据权利要求1所述的方法，其特征在于，所述多模态信息包括属于文本类别的网页信息；根据所述代码节点树提取属于文本类别的网页信息的步骤包括：

遍历所述代码节点树中的节点，并在遍历到的节点所对应的文件内容为文本的情况下，提取所述遍历到的节点所对应的文本；

当遍历结束后，根据提取出的各所述文本，得到属于文本类别的网页信息。

4.根据权利要求1所述的方法，其特征在于，所述多模态信息包括属于图像类别的网页信息和属于视频类别的网页信息；根据所述代码节点树提取属于文本类别的网页信息和属于视频类别的网页信息的步骤包括：

遍历所述代码节点树中的节点，在所述遍历到的节点所对应的文件内容为链接的情况下，确定所述链接所指向的内容；

在所述链接所指向的内容为图像或者视频的情况下，提取所述链接所指向的内容；

当遍历结束后，根据提取出的各所述图像，得到属于图像类别的网页信息，并根据提取出的各所述视频，得到属于视频类别的网页信息。

5.根据权利要求1所述的方法，其特征在于，所述多模态网页模板的处理方法通过多模态网页模板处理模型执行；所述多模态网页模板处理模型包括文本特征提取模型、图像特征提取模型和视频特征提取模型；所述对所述多模态信息中的每种网页信息分别进行特征提取，得到所述多模态信息中的每种网页信息各自的模态特征，包括：

通过所述文本特征提取模型，对所述多模态信息中的属于文本类别的网页信息进行特征提取处理，得到所述属于文本类别的网页信息的模态特征；

通过所述图像特征提取模型，对所述多模态信息中的属于图像类别的网页信息进行特征提取处理，得到所述属于图像类别的网页信息的模态特征；

通过所述视频特征提取模型，对所述多模态信息中的属于视频类别的网页信息进行特征提取处理，得到所述属于视频类别的网页信息的模态特征。

6.根据权利要求5所述的方法，其特征在于，所述对所述多模态信息中的属于文本类别的网页信息进行特征提取处理，得到所述属于文本类别的网页信息的模态特征，包括：

对所述多模态信息中的属于文本类别的网页信息进行编码，得到文本编码向量；

对所述文本编码向量进行卷积处理，得到所述属于文本类别的网页信息的局部特征；

根据所述文本编码向量和所述属于文本类别的网页信息的局部特征，确定所述属于文本类别的网页信息的全局特征；

将所述属于文本类别的网页信息的全局特征和局部特征进行融合，得到所述属于文本类别的网页信息的模态特征。

7.根据权利要求6所述的方法，其特征在于，所述属于文本类别的网页信息包括至少一个分词；所述文本编码向量中包括所述至少一个分词各自对应的分量；所述根据所述文本编码向量和所述属于文本类别的网页信息的局部特征，确定所述属于文本类别的网页信息的全局特征，包括：

根据所述文本编码向量中的首个分量和所述属于文本类别的网页信息的局部特征，确定首个轮次输出的隐藏层向量；

从所述首轮之后的第二轮次起的当前轮次中，根据前一轮次输出的隐藏层向量和所述文本编码向量中与所述当前轮次对应的分量，确定当前轮次输出的隐藏层向量；

将下一轮次作为当前轮次，并返回至根据前一轮次输出的隐藏层向量和所述文本编码向量中与所述当前轮次对应的分量，确定当前轮次输出的隐藏层向量的步骤继续执行，直至满足预设停止条件时停止；

根据在最后轮次输出的隐藏层向量，确定所述属于文本类别的网页信息的全局特征。

8.根据权利要求5所述的方法，其特征在于，所述对所述多模态信息中的属于图像类别的网页信息进行特征提取处理，得到所述属于图像类别的网页信息的模态特征，包括：

对所述多模态信息中的属于图像类别的网页信息进行编码，得到图像编码向量；

对所述图像编码向量进行卷积处理，得到所述属于图像类别的网页信息的局部特征；

将所述图像编码向量输入图像残差网络，得到所述属于图像类别的网页信息的全局特征；

将所述属于图像类别的网页信息的局部特征和全局特征进行融合，得到所述属于图像类别的网页信息的模态特征。

9.根据权利要求5所述的方法，其特征在于，所述对所述多模态信息中的属于视频类别的网页信息进行特征提取处理，得到所述属于视频类别的网页信息的模态特征，包括：

对所述多模态信息中的属于视频类别的网页信息进行编码，得到视频编码向量；

对所述视频编码向量进行卷积处理，得到时空特征；

将所述视频编码向量输入时序残差网络，得到时序残差特征；

将所述时空特征和所述时序残差特征进行融合，得到所述属于视频类别的网页信息的模态特征。

10.根据权利要求1所述的方法，其特征在于，所述针对的两种网页信息包括第一信息和第二信息；所述对所针对的两种网页信息的模态特征进行融合，得到与所述针对的两种网页信息对应的多模态融合特征，包括：

通过注意力机制将所述第一信息的模态特征与所述第二信息的模态特征进行融合，得到第一中间融合特征；

将所述第一中间融合特征与所述第一信息的模态特征进行融合，得到第二中间融合特征；

将所述第一中间融合特征与所述第二信息的模态特征进行融合，得到第三中间融合特征；

将所述第二中间融合特征与所述第三中间融合特征进行融合，得到与所述针对的两种信息对应的多模态融合特征。

11.根据权利要求10所述的方法，其特征在于，所述通过注意力机制将所述第一信息的模态特征与所述第二信息的模态特征进行融合，得到第一中间融合特征，包括：

将所述第一信息的模态特征与所述第二信息的模态特征进行拼接，得到模态拼接特征；

将所述模态拼接特征输入全连接层，得到全连接层输出结果；

将所述全连接层输出结果输入激活函数，得到第一中间融合特征。

12.根据权利要求1至11中的任一项所述的方法，其特征在于，所述多模态网页模板处理方法由多模态网页模板处理模型执行；所述多模态网页模板处理模型的训练步骤包括：

获取样本多模态网页模板和与所述样本多模态网页模板相对应的样本标签；

提取所述样本多模态网页模板中的多模态样本信息，并对所述多模态样本信息中的每种样本信息分别进行特征提取，得到所述多模态样本信息中的每种样本信息各自的样本模态特征；

将所述多模态样本信息中的每两种样本信息的样本模态特征进行融合，得到多个样本多模态融合特征，并将各所述样本多模态融合特征进行拼接，得到样本拼接融合特征；

根据所述样本拼接融合特征确定所述样本多模态模板的预测模板标签，通过所述预测模板标签和所述样本标签，对所述多模态网页处理模型进行训练，直至达到训练停止条件时停止。

13.根据权利要求12所述的方法，其特征在于，所述样本标签包括各预设模板标签各自对应的标准概率值；所述预测模板标签包括各预设模板标签各自对应的预测概率值；

所述通过所述预测模板标签和所述样本标签，对所述多模态处理模型进行训练，包括：

针对多个预设模板标签中的每个预测模板标签，将与所针对的预设模板标签对应的标准概率值和预测概率值进行融合，得到与所述针对的预设模板标签对应的融合概率值；

根据所述多个预设模板标签各自对应的融合概率值，确定多标签分类损失；

基于所述多标签分类损失调整所述多模态网页处理模型的模型参数。

14.一种多模态网页模板的处理装置，其特征在于，所述装置包括：

获取模块，用于获取多模态网页模板的代码文件，并通过网页渲染方式对所述代码文件进行解析，得到与所述代码文件相对应的代码节点树；所述代码节点树中的每个节点对应所述代码文件中的一部分文件内容；根据所述代码节点树提取所述多模态网页模板中的多模态信息；其中，所述多模态信息，至少包括属于文本类别的网页信息、属于图像类别的网页信息和属于视频类别的网页信息中的两种；

15.根据权利要求14所述的装置，其特征在于，所述特征提取模块包括：

文本特征提取模块，用于对所述多模态信息中的属于文本类别的网页信息进行特征提取处理，得到所述属于文本类别的网页信息的模态特征；

图像特征提取模块，用于对所述多模态信息中的属于图像类别的网页信息进行特征提取处理，得到所述属于图像类别的网页信息的模态特征；

视频特征提取模块，用于对所述多模态信息中的属于视频类别的网页信息进行特征提取处理，得到所述属于视频类别的网页信息的模态特征。

16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。