CN117093211A - 一种数据处理方法和相关装置 - Google Patents

一种数据处理方法和相关装置 Download PDF

Info

Publication number
CN117093211A
CN117093211A CN202310835237.0A CN202310835237A CN117093211A CN 117093211 A CN117093211 A CN 117093211A CN 202310835237 A CN202310835237 A CN 202310835237A CN 117093211 A CN117093211 A CN 117093211A
Authority
CN
China
Prior art keywords
template
features
feature
sample
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310835237.0A
Other languages
English (en)
Inventor
柯学
吴崇正
何福铿
杨浩宇
刘飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310835237.0A priority Critical patent/CN117093211A/zh
Publication of CN117093211A publication Critical patent/CN117093211A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开一种数据处理方法和相关装置,可以利用各个模板的模板特征进行相关性分析。对于任一模板而言,模板特征可以是对模板的素材特征以及模板的布局特征进行融合得到的,其中,素材特征可以表征模板所包括素材的情况,即素材特征可以表示素材本身的情况,布局特征可以表征素材在模板中的布局情况,具体可以反映素材在模板中的相对位置关系,故布局特征能够体现素材的上下文信息。相较于素材特征,基于素材特征和布局特征融合得到的模板特征能够更为准确、全面地反映模板的情况。基于此,相较于相关技术,本申请中基于各个模板的模板特征进行相关性分析的方式,不仅考虑了素材本身,还融合了素材的上下文信息,能够提高相关性分析的准确性。

Description

一种数据处理方法和相关装置
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据处理方法和相关装置。
背景技术
在数字化时代,基于互联网技术,通过终端上运行的网站、应用程序等向用户展示信息的方式已经越来越普及。
在实际应用中,为了能够更为便捷地利用网站或者应用程序展示信息,通常会设计、开发各种类型的模板,其中,模板可以是指具有固定格式的信息展示页面。针对需要展示的信息,可以利用模板快速生成用于展示该信息的页面,然后通过网站、应用程序等加载该页面的方式实现对信息的展示。可以理解的是,相关的模板往往在视觉的设计以及功能的开发等方面存在重叠,使得在应用相关的模板后,难以带给用户更好的视觉体验,从而难以吸引用户对信息进行浏览等。基于此,对于模板之间的相关性分析变得越来越重要,通过对模板之间的相关性进行分析,来评估模板之间的相关性,以及指导模板的设计与开发等。
然而,相关技术中采用的相关性分析方法,难以准确评估模板之间的相关性。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,在分析模板相关性时,不仅考虑了素材本身,还融合了素材的上下文信息,有利于提高相关性分析的准确性,相应得到的相关性结果能够更为准确地反映模板之间的相关性。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种数据处理方法,所述方法包括:
获取第一模板的第一模板特征,以及获取第二模板特征;所述第一模板特征是对所述第一模板的第一素材特征和所述第一模板的第一布局特征进行融合得到的,所述第二模板特征对应于第二模板,所述第二模板特征是对所述第二模板的第二素材特征和所述第二模板的第二布局特征进行融合得到的;
基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果。
又一方面,本申请实施例提供一种数据处理装置,所述装置包括获取单元和分析单元:
所述获取单元,用于获取第一模板的第一模板特征,以及获取第二模板特征;所述第一模板特征是对所述第一模板的第一素材特征和所述第一模板的第一布局特征进行融合得到的,所述第二模板特征对应于第二模板,所述第二模板特征是对所述第二模板的第二素材特征和所述第二模板的第二布局特征进行融合得到的;
所述分析单元,用于基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被计算机设备运行时,使得所述计算机设备执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,当其在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
由上述技术方案可以看出,在需要分析模板相关性时,可以首先获取第一模板的第一模板特征以及获取第二模板特征。其中,第一模板特征可以是对第一模板的第一素材特征和第一模板的第一布局特征进行融合得到的,第一素材特征可以用于表征第一模板所包括的第一素材的情况,第一布局特征可以用于表征第一素材在第一模板中的布局情况,故第一模板特征可以素材以及布局两个维度反映第一模板的情况。同样的,第二模板特征可以对应于第二模板,且第二模板特征可以是对第二模板的第二素材特征和第二模板的第二布局特征进行融合得到的,第二素材特征可以用于表征第二模板所包括的第二素材的情况,第二布局特征可以用于表征第二素材在第二模板中的布局情况,故第二模板特征可以从素材以及布局两个维度反映第二模板的情况。接着,可以基于第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,得到相关性结果。其中,模板特征在素材特征的基础上,融合了布局特征,由于布局特征能够反映素材在模板中的布局情况,具体可以是反映素材在模板中所处的相对位置关系,故布局特征能够体现素材的上下文信息,因此模板特征能够更为准确、全面地反映模板的情况。基于此,相较于相关技术中仅基于第一素材特征和第二素材特征进行相关性分析的方式,本申请中基于第一模板特征和第二模板特征进行相关性分析的方式,不仅考虑了素材本身,还融合了素材的上下文信息,有利于提高相关性分析的准确性,相应得到的相关性结果能够更为准确地反映第一模板和第二模板之间的相关性。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的应用场景示意图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3为本申请实施例提供的一种基于双塔模型的相关性分析模型的结构示意图;
图4为本申请实施例提供的一种确定文本特征的处理逻辑示意图;
图5为本申请实施例提供的一种确定图像特征的处理逻辑示意图;
图6为本申请实施例提供的一种确定布局特征的处理逻辑示意图;
图7为本申请实施例提供的一种静态模板相关性分析的逻辑示意图;
图8为本申请实施例提供的一种数据处理装置的结构图;
图9为本申请实施例提供的一种终端的结构图;
图10为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
模板作为一种信息展示页面,在需要展示信息时,可以直接利用模板快速便捷地生成用于展示相关信息的页面,正因模板应用时的便捷性,已被广泛应用在了各种场景中,常见的模板例如基于超文本5.0(Hyper Text Markup Language 5,H5)技术实现的H5模板等。在实际应用中,不同的模板可以带给用户不同体验,尤其带给用户不同的视觉体验,为了吸引用户以带给用户更好的体验,设计师和开发人员可以利用各种设计工具以及开发技术来创建各种模板。相应的,可以利用这些模板可以生成各种类型的信息展示页面,以及通过网站(如企业网站、电子商务网站等)、应用程序(如社交媒体平台应用程序等)等加载这些信息展示页面的方式实现对信息的展示。此外,在网站以及应用程序运行时,涉及对网站或者应用程序自身的展示(例如网站打开后所呈现的页面),也可以利用模板快速创建。基于此,利用模板的方式,作为一种快速、简单和经济高效的方式,具有极大的吸引力和竞争力。
可以理解的是,相关的模板往往在视觉的设计以及功能的开发等方面存在重叠,其中,相关的模板可以认为是存在相关性、较为相似的模板,正因为相关的模板之间存在重叠,使得在应用相关的模板后,难以带给用户更好的视觉体验,从而难以吸引用户对信息进行浏览等,这就导致了用户体验的下降以及模板在应用时的竞争力。基于此,对于模板之间的相关性分析变得越来越重要,通过对模板之间的相关性进行分析,来评估模板之间的相关性,以及指导模板的设计与开发等,具体可以是利用模板之间的相关性分析的结果,帮助设计师和开发人员更好地了解市场趋势以及用户需求,从而指导进行设计和开发。
通常,模板中可以包括信息展示的素材,例如文本、图像、视频等各种各样的素材。不同的模板,所包括的素材通常是不同的。例如,一个模板只包括文本这一种素材,另一个模板只包括图像这一种素材,可以认为这两个模板差异较大,相应在展示时,能够带给用户不同的体验。可见,模板所包括的素材是模板中十分重要的内容,能够反映模板的情况。基于此,在相关技术中,通过对模板所包括的素材进行分析,基于不同模板所包括的素材本身之间的差异情况来分析模板之间的相关性。具体的,一种方式主要是通过人工评估的方式,依赖于设计师和开发人员的经验知识,通过人工比较不同模板所包括素材本身的差异情况,来确定模板之间的相关性。然后,人工评估的方式存在主观性等误差,准确性以及效率都比较低。通常,人工评估的方式还需要花费大量的时间和资源,尤其是对于模板数量比较多的情况。在另一种方式中,对于任一模板,可以先对模板所包括的素材进行处理,得到素材特征,利用素材特征表征素材本身的情况。相应的,可以利用各个模板的素材特征来分析模板之间的相关性,利用这种方式有利于实现相关性分析的自动化进行。
可以理解的是,相关技术中,无论是人工评估的方式还是基于素材特征进行分析的方式,本质上所依据的仅仅只是素材本身。然而,在实际应用中,模板所包括的素材通常会按照一定的布局方式进行排列组织,不同的布局会产生不同的视觉效果,相应带给用户不同的体验。在设计开发模板时,通常对于不同模板,会设计不同的布局,以达到更好的视觉效果,带给用户更好地体验。可以理解的是,尽管素材本身相同,但在不同模板中所处的位置不同时,也会带来不同的视觉体验。例如,对于任意两个模板,尽管这两个模板所包括的素材本身是相同的,但是布局是不同的,如此在应用后可能会产生不同的效果。正因如此,相关技术中仅依据于素材本身进行相关性分析的方式,存在一定的局限性,主要表现在没有综合考虑素材的上下文信息。基于此,相关技术中仅依据素材本身进行相关性分析的方式,难以准确地评估模板之间的相关性。
为此,本申请实施例提供了一种数据处理方法和相关装置,在需要分析模板相关性时,可以利用各个模板的模板特征进行相关性分析。对于任一模板而言,模板特征可以是对模板的素材特征以及模板的布局特征进行融合得到的,其中,素材特征可以表征模板所包括素材的情况,即素材特征可以表示素材本身的情况,布局特征可以表征素材在模板中的布局情况,具体可以反映素材在模板中的相对位置关系,故布局特征能够体现素材的上下文信息。因此,相较于素材特征,基于素材特征和布局特征融合得到的模板特征能够更为准确、全面地反映模板的情况。基于此,相较于相关技术中仅依据素材本身进行相关性分析的方式,本申请中基于各个模板的模板特征进行相关性分析的方式,不仅考虑了素材本身,还融合了素材的上下文信息,能够提高相关性分析的准确性。相应的,基于模板特征进行相关性分析所得到的相关性结果,能够更为准确地反映模板之间的相关性,能够为设计与开发提供更为准确的指导。
具体的,相较于相关技术中采用人工评估的方式,采用本申请能够实现自动化地相关性分析,效率更高,且避免了人工评估存在主观等误差,准确性更高。相较于相关技术中基于素材特征进行相关性分析的方式,本申请中是基于模板特征进行相关性分析的,在考虑素材本身的基础上,还融合了素材的上下文信息,从而可以提高准确性。
本申请实施例所提供的数据处理方法可以通过计算机设备实施,该计算机设备可以是终端或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、音视频、辅助驾驶等。本申请实施例具体可以应用于各种需要分析模板相关性的场景,例如,模板相关性的离线预测场景、模板相关性的在线预测场景等。
需要说明的是,在本申请的具体实施方式中,进行数据处理的过程中有可能会涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户单独同意或者单独许可,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例提供的数据处理方法可以涉及人工智能技术,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。例如,本申请实施例可以是基于人工智能技术,利用相关性分析模型进行模板的相关性分析。又如,本申请实施例可以是利用人工智能技术实现本申请的数据处理方法的自动化执行,有利于提高数据处理的效率。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。在本申请实施例中主要可以涉及机器学习,例如,可以基于机器学习的方式对初始网络模型进行模型训练,以得到相关性分析模型。
云计算(Cloud Computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台),一般称为基础设施即服务(Infrastructure as a Service,IaaS)平台,在资源池中部署多种类型的虚拟资源,供外部选择使用。例如,在本申请实施例中,资源池可以是模板特征库,“云”中的资源可以是模板特征库中存储的模板特征,便于更快地完成对待上线模板的评估等。
图1示出了本申请实施例提供的数据处理方法的应用场景示意,在图1所示的场景中,以服务器100作为前述计算机设备的示例进行说明:
在需要分析模板相关性时,为了便于分析,服务器100可以首先获取第一模板的第一模板特征,以及获取第二模板特征,其中,第一模板特征可以反映第一模板的情况,第二模板特征可以对应于第二模板,用于反映第二模板的情况。基于此,便于后续可以利用第一模板特征和第二模板特征进行相关性分析。
具体的,第一模板特征可以是对第一模板的第一素材特征和第一模板的第一布局特征进行融合得到的,第一素材特征可以用于表征第一模板所包括的第一素材的情况,第一布局特征可以用于表征第一素材在第一模板中的布局情况,具体可以是反映第一素材在第一模板中所处的相对位置关系,能够体现第一素材的上下文信息,即第一模板特征可以素材以及布局两个维度反映第一模板的情况。同样的,第二模板特征可以是对第二模板的第二素材特征和第二模板的第二布局特征进行融合得到的,第二素材特征可以用于表征第二模板所包括的第二素材的情况,第二布局特征可以用于表征第二素材在第二模板中的布局情况,具体可以是反映第二素材在第二模板中所处的相对位置关系,能够体现第二素材的上下文信息,即第二模板特征可以从素材以及布局两个维度反映第二模板的情况。
接着,服务器100可以基于第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,得到相关性结果。其中,模板特征在素材特征的基础上,融合了布局特征,由于布局特征能够反映素材在模板中的布局情况,具体可以是反映素材在模板中所处的相对位置关系,故布局特征能够体现素材的上下文信息,正因如此,模板特征能够更为准确、全面地反映模板的情况。基于此,相较于相关技术中仅基于第一素材特征和第二素材特征进行相关性分析的方式,本申请中基于第一模板特征和第二模板特征进行相关性分析的方式,不仅考虑了素材本身,还融合了素材的上下文信息,有利于提高相关性分析的准确性,相应得到的相关性结果能够更为准确地反映第一模板和第二模板之间的相关性。
其中,相关性结果可以用于反映第一模板和第二模板之间的相关性。需要说明的是,针对如何设置相关性结果的形式,本申请不做任何限定。例如,为了更为简洁地明确二者是否相似,可以设置相关性结果的形式为“第一模板和第二模板相似”或者“第一模板和第二模板不相似”,如此便于简洁地明确二者是否相似。又如,为了更为直观地评估二者的相似程度,可以设置相关性结果的形式是“相似度”这种数值形式,相似度具体可以用于指示第一模板和第二模板之间的相似程度,通常,相似度越大,表明二者的相似程度越高。
需要说明的是,相关技术中还提供了一种基于模板分类器的相关性分析方式,具体的,可以基于机器学习和人工智能技术训练得到一个模板分类器,该模板分类器可以对模板进行分类。具体的,针对任一模板,可以将模板输入到模板分类器,通过模板分类器对模板中的素材进行自动识别,然后输出该模板的类别。接着,可以根据模板的类别来评估不同模板之间的相关性,例如对于两个模板,若通过模板分类器确定这两个模板的类别是相同的,则可以认为这两个模板存在相关性,是较为相似的,反之,若通过模板分类器确定这两个模板的类别是不同的,则可以认为这两个模板不存在相关性,二者不相似。然而,这种基于模板分类器的相关性分析方式也存在一定的局限性,主要表现在一个训练好的模板分类器,输出的类别的准确性受限于训练过程,如训练是所采用的样本只有三种类别,则在应用时,基于模板分类器所确定的类别只能是这三种类别中的一种。如此,可能存在分类错误的情况,尤其是对于本身的类别可能完全不是上述三种类别的模板,例如一些比较新的、未知的模板。若想要提高模板分类器的分类准确性,则需要大量的训练样本以及消耗比较多的计算资源。同时,这种基于类别进行相关性分析的方式,只能粗略地评估模板之间的相关性,难以量化模板之间的相似程度。
相较于相关技术上中基于模板分类器的相关性分析方式,采用本申请是直接对两个模板进行相关性分析,具有较高的准确性,同时,得到的相关性结果可以直接指示模板之间的相关性。在实际应用中,可以通过灵活设置相关性结果的方式,简单便捷地实现对模板之间的相似程度的量化。如,设置相关性结果可以是前述的“相似度”这种数值形式,则通过本申请提供的方式,得到相似度的数值,对模板之间的相似程度进行量化。同时,对于新的、未知的模板,也能采用本申请进行相关性分析,即,本申请提供的相关性分析方式能够快速地应用到新的、未知的模板。
图2为本申请实施例提供的一种数据处理方法的流程图,以服务器作为前述计算机设备的示例进行说明,所述方法包括S201-S202:
S201:获取第一模板的第一模板特征,以及获取第二模板特征。
在需要分析模板相关性时,例如,为了评估某一模板时,可以对该模板与其他模板进行相关性分析,以此来评估该模板的情况。在实际应用中,可以将需要评估的模板确定为第一模板,为了便于分析,服务器可以首先获取第一模板的第一模板特征以及获取第二模板特征。其中,第一模板特征可以反映第一模板的情况,第二模板特征可以对应于第二模板,用于反映第二模板的情况,第二模板可以是指其他模板。基于此,便于后续可以利用第一模板特征和第二模板特征进行相关性分析,完成相关性分析之后,便可以对第一模板的情况进行评估等。
具体的,第一模板特征可以是对第一模板的第一素材特征和第一模板的第一布局特征进行融合得到的,第一素材特征可以用于表征第一模板所包括的第一素材的情况,第一布局特征可以用于表征第一素材在第一模板中的布局情况,具体可以是反映第一素材在第一模板中所处的相对位置关系,能够体现第一素材的上下文信息,即第一模板特征可以素材以及布局两个维度反映第一模板的情况。同样的,第二模板特征可以是对第二模板的第二素材特征和第二模板的第二布局特征进行融合得到的,第二素材特征可以用于表征第二模板所包括的第二素材的情况,第二布局特征可以用于表征第二素材在第二模板中的布局情况,具体可以是反映第二素材在第二模板中所处的相对位置关系,能够体现第二素材的上下文信息,即第二模板特征可以从素材以及布局两个维度反映第二模板的情况。基于此,使得后续在利用第一模板特征和第二模板特征进行相关性分析时,能够得到更为准确的分析结果。
可见,针对任一模板,模板特征是素材特征和布局特征融合后得到的。需要说明的是,针对如何对素材特征和布局特征进行融合的方式,本申请不做任何限定。在实际应用中,可以采用拼接方式实现融合,具体的,模板特征可以通过如下公式确定:
Feat=Concat(FeatC,FeatS)
上式中,Feat可以是指模板特征,Concat可以是指拼接函数,用于对FeatC和FeatS进行拼接,FeatC可以是指素材特征,FeatS可以是指布局特征。
S202:基于第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,得到相关性结果。
在确定第一模板特征和第二模板特征后,服务器可以基于第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,得到相关性结果。其中,相关性结果可以用于反映第一模板和第二模板之间的相关性。由于在第一模板特征中,不仅考虑了第一素材本身,还融合了第一素材的上下文信息,故相较于第一素材特征,能够更为准确、全面,第二模板特征同理。正因如此,采用本申请基于第一模板特征和第二模板特征进行相关性分析的方式,有利于提高相关性分析的准确性,相应得到的相关性结果能够更为准确地反映第一模板和第二模板之间的相关性。
需要说明的是,针对如何基于第一模板特征和第二模板特征得到相关性结果的确定方式,本申请实施例不做任何限定。在实际应用中,为了得到不同形式的相关性结果,相应可以采用不同的确定方式。为了便于理解,本申请实施例以相关性结果的形式为前述的“相似度”这种数值形式为例,提供以下方式作为示例:
在实际应用中,第一模板特征可以用于体现第一模板的整体情况,第二模板特征可以用于体现第二模板的整体情况,在分析相关性时,可以采用相似度算法计算第一模板特征和第二模板特征之间的相似度,利用相似度反映二者的差异情况,从而体现出第一模板和第二模板的相似程度。常见的相似度算法可以包括余弦相似度算法、欧几里得距离算法以及杰卡德相似度(Jaccard)算法等。通过利用相似度算法的方式,能够快速确定第一模板和第二模板的相似程度,有利于提高效率。
在实际应用中,为了提高分析效率,可以利用基于机器学习和人工智能技术训练得到的相关性分析模型进行相关性分析,其中,相关性分析模型可以是预先训练好的。具体的,可以将得到的第一模板特征和第二模板特征输入相关性分析模型,然后通过相关性分析模型输出相关性结果。采用相关性分析模型的方式,针对任意两个模板的模板特征,均可以更高效地得到对应的相关性结果,有利于提高分析效率。
可以理解的是,模板特征的特征表达力将会影响反映模板情况的准确性,相应会影响到相关性结果的准确性。为了进一步提高模板特征的特征表达力,还可以在模板特征的基础上进行进一步的特征感知,然后利用特征感知后得到的特征进行相关性分析,通过增加特征感知的方式增强模板特征的特征表达力,有利于提高相关性结果的准确性。在实际应用中,相关性分析的目的在于评估第一模板和第二模板之间的相似性,可以理解的,两个模板存在的共性越多二者越相似,两个模板存在的个性越多二者越不相似,故可以从共性和个性这两个角度对模板特征进行进一步的特征感知。为了更好的理解,本申请实施例仍以前述的相关性分析模型为例进行说明:
为了便于从共性和个性这两个角度实现进一步的特征感知,可以设置相关性分析模型是具有私有-共享网络结构的模型,具体的,相关性分析模型可以包括特征提取层、融合层和输出层。其中,特征提取层可以包括共享网络层、第一个性网络层和第二个性网络层,在实际应用中,共享网络层、第一个性网络层和第二个性网络层可以采用多层感知器(Multilayer Perceptron,MLP)实现,为了便于区分,可以利用Feat_share表示共享网络层。具体的,共享网络层可以用于对第一模板特征和第二模板特征进行共性特征提取,关注二者的共性,第一个性网络层可以用于对第一模板特征进行个性特征提取,关注第一模板特征的个性,属于第一模板独立占有,第二个性网络层可以用于对第二模板特征进行个性特征提取,关注第二模板特征的个性,属于第二模板独立占有。融合层可以用于对个性和共性这两部分进行融合,便于在从个性和共性两个角度进行特征感知后依旧能从整体表达模板的情况,以及输出层可以用于输出最终的相关性结果。
相应的,前述的S202在具体实施时,可以先将第一模板特征和第二模板特征输入相关性分析模型。接着,可以根据第一模板特征,通过第一个性网络层进行个性特征提取得到第一模板的个性特征,第一模板的个性特征可以反映第一模板的个性情况,即可以反映第一模板所包括的独特信息。以及可以根据第二模板特征,通过第二个性网络层进行个性特征提取得到第二模板的个性特征,第二模板的个性特征可以反映第二模板的个性情况,即可以反映第二模板所包括的独特信息。以及可以根据第一模板特征和第二模板特征,通过共享网络层进行共性特征提取得到第一模板和第二模板对应的共性特征,共性特征可以反映第一模板和第二模板的共性情况,即可以反映二者所包括的通用信息。基于此,分别利用共享网络层、第一个性网络层以及第二个性网络层完成对第一模板特征、第二模板特征的共性与个性的进一步感知。接着,可以通过融合层对第一模板的个性特征和共性特征进行融合得到第一模板的第一整体特征,以及通过融合层对第二模板的个性特征和共性特征进行融合得到第二模板的第二整体特征。基于此,在完成进一步的特征感知后,通过融合使得依旧可以从整体表达模板的情况。最后,可以根据第一整体特征和第二整体特征,通过输出层对第一模板和第二模板进行相关性分析,输出相关性结果。基于此,能够在模板特征的基础上,进一步关注模板之间的个性与共性,进行进一步的特征感知,从而提高特征表达力,有利于提高相关性结果的准确性。
其中,相关性分析模型可以是预先训练好的,为了更好地理解,本申请实施例将对相关性分析模型的模型训练过程进行介绍。具体的,相关性分析模型可以通过如下方式获得:
首先,服务器可以获取多个训练样本对。其中,多个训练样本对中的每个训练样本对可以包括一个第一样本模板和一个第二样本模板,且每个训练样本对具有样本标签,样本标签可以用于标识每个训练样本对所包括的第一样本模板和第二样本模板之间的样本相关性结果。接着,服务器可以分别确定每个训练样本对所包括的第一样本模板对应的第一样本模板特征,以及每个训练样本对所包括的第二样本模板对应的第二样本模板特征,便于后续的模型训练。最后,服务器可以分别利用基于每个训练样本对确定出的第一样本模板特征和第二样本模板特征,对初始网络模型进行模型训练,直至满足模型训练结束条件,可以认为此时的初始网络模型具有良好的相关性分析效果,能够得到准确的相关性结果,故可以结束模型训练,相应的,可以得到相关性分析模型,其中,初始网络模型可以包括初始特征提取层、初始融合层和初始输出层,初始特征提取层可以包括初始共享网络层、第一初始个性网络层和第二初始个性网络层。在模型训练的过程中通过对初始共享网络层、第一初始个性网络层、第二初始个性网络层、初始融合层和初始输出层进行训练调参,当满足模型训练结束条件时,结束模型训练,得到对应相关性分析模型中的共享网络层、第一个性网络层、第二个性网络层、融合层和输出层。在实际的训练调参中,可以调整各层的超参数、各层的数量以及各层的网络神经元的数量等,例如,调整网络神经元的数量的方式可以是随机失活网络神经元。
在实际的模型训练过程中,可以是通过确定训练损失以及利用训练损失进行前述的训练调参。需要说明的是,针对确定训练损失的方式,本申请不做任何限定。例如,可以采用交叉熵损失这种方式确定训练损失,具体可以通过如下公式确定:
Loss=-y0*log(Sim1,2)+(1-y0)*log(1-Sim1,2)
上式中,Loss可以是指训练损失,y0可以是指训练样本对的样本标签,Sim1,2可以是指训练样本对所包括的第一样本模板和第二样本模板之间的预测相关性结果。
需要说明的是,针对如何获取训练样本对的方式,本申请不做任何限定。在实际应用中,为了解决模型训练中存在的过拟合和欠拟合的问题,可以构建正负样本对的方式确定前述的训练样本对,基于此得到的训练样本对既可以包括正训练样本对又可以包括负训练样本对,以解决模型训练中存在的过拟合的问题,以及可以灵活调整正训练样本对和负训练样本对的比例,以解决模型训练中存在的欠拟合问题。针对如何构建正训练样对与负训练样本对的方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在实际应用中,可以在业务(如信息展示业务)阶段使用模板,通常,不同业务所使用的模板多有不同,同一业务使用的模板多有相似。因此,在一种可能的实现方式中,可以根据模板的模板类型构建训练样本对。其中,模板类型可以用于指示模板所属的业务,例如,具体可以是根据业务的名称、类别、功能等确定的,即可以认为是基于业务中已有的先验信息确定的模板类型。在具体实施时,服务器可以首先获取多个第一待定样本模板,以及获取多个第二待定样本模板,多个第一待定样本模板和多个第二待定样本模板可以是各个业务中使用过的已有模板。接着,针对每个第一待定样本模板和每个第二待定样本模板,若确定第一待定样本模板的模板类型和第二待定样本模板的模板类型相同,可以认为第一待定样本模板和第二待定样本模板所属业务相同,在视觉的设计以及功能的开发等方面存在较多重叠,故可以认为二者相似,相应可以根据第一待定样本模板和第二待定样本模板生成第一正训练样本对,第一正训练样本对的样本标签可以用于标识第一待定样本模板和第二待定样本模板之间的样本相关性结果为相关。反之,若确定第一待定样本模板的模板类型和第二待定样本模板的模板类型不同,可以认为第一待定样本模板和第二待定样本模板所属业务不同,在视觉的设计以及功能的开发等方面少有重叠,故可以认为二者不相似,相应可以根据第一待定样本模板和第二待定样本模板生成第一负训练样本对,第一负训练样本对的样本标签可以用于标识第一待定样本模板和第二待定样本模板之间的样本相关性结果为不相关。最后,服务器可以根据第一正训练样本对和第一负训练样本对生成多个训练样本对。基于此,可以利用业务上已有的先验信息确定出的待定样本模板的模板类型构建训练样本对,同一模板类型的待定样本模板,两两构成第一正训练样本对,不同模板类型的待定样本模板,两两构成第一负训练样本对。对于任一待定样本模板,均可以循环利用与各个模板类型的待定样本模板构成正训练样本对或负训练样本对,如此,也可以将这种构建训练样本对的方式称为循环正负样本对构建方式,有利于提高待定样本模板的利用率。同时,采用循环正负样本对构建方式,使得前述的训练样本对中既可以包括第一正训练样本对又可以包括第一负训练样本对,有利于解决模型训练中存在的过拟合和欠拟合的问题。
为了使得训练样本对具有更高的准确性,在又一种可能的实现方式中,还可以采用独立样本加噪声的方式构建训练样本对。在具体实施时,服务器可以首先获取目标样本模板,一个目标样本模板可以是任一已有模板,例如可以是前述的多个第一待定样本模板或多个第二待定样本模板中的任一待定样本模板。接着,服务器可以对目标样本模板进行噪声添加处理,得到目标样本模板对应的噪声样本模板。通过添加噪声的方式可以对目标样本模板产生一定的影响,使之改变,对应得到噪声样板模板。接着,若确定在噪声添加处理的过程中添加的噪声小于或等于噪声阈值,表明添加的噪声比较小,相应对目标样本模板的影响比较小,使之改变的程度比较小,故可以认为噪声样本模板还是比较接近目标样本模板的,故可以根据目标样本模板和噪声样本模板生成第二正训练样本对,第二正训练样本对的样本标签可以用于标识目标样本模板和噪声样本模板之间的样本相关性结果为相关。反之,若确定在噪声添加处理的过程中添加的噪声大于噪声阈值,表明添加的噪声比较大,相应对目标样本模板的影响比较大,使之改变的程度比较大,故可以认为噪声样本模板与目标样本模板相比,已经发生了较大改变,故可以认为二者差异较大,对应可以根据目标样本模板和噪声样本模板生成第二负训练样本对,第二负训练样本对的样本标签可以用于标识目标样本模板和噪声样本模板之间的样本相关性结果为不相关。最后,服务器可以根据第二正训练样本对和第二负训练样本对生成多个训练样本对。基于此,可以利用任一独立样本,通过加噪声的方式构建正负训练样本对,更为客观。同时,采用采用独立样本加噪声的方式,使得前述的训练样本对中既可以包括第二正训练样本对又可以包括第二负训练样本对,有利于解决模型训练中存在的过拟合和欠拟合的问题。
需要说明的是,针对加噪声的方式,本申请不做任何限定。例如,可以通过加盐噪声的方式实现噪声添加。相应的,上述方式可以称为基于独立样本加盐噪声的正负训练样本对构建方式。
可以理解的是,在实际应用中,还可以同时采用上述两种训练样本对的方式,基于此,能够扩大训练样本对的数量,以及使得训练样本对更为全面,能够更加有效地实现模型训练,提高模型训练的效果,具体可以是提高相关性分析模型的性能和稳定性。
在实际应用中,为了保证相关性分析模型在应用阶段能够具有良好的相关性分析效果,还可以构建验证样本对,与训练样本对类似,每个验证样本对中可以包括一个第一验证模板和一个第二验证模板,且具有样本标签,该样本标签可以用于标识第一验证模板和第二验证模板之间的样本相关性结果。通常,可以从日志中获取原始数据集,然后将原始数据集划分为前述的训练样本对(即训练数据集)和验证样本对(即验证数据集)。接着,针对相关性分析模型,可以利用验证样本对进行验证,确保相关性分析模型确实具有良好的相关性分析效果。在实际的验证过程中,还可以根据对验证样本对的相关性分析效果调整相关性分析模型的超参数等,进一步提高模型训练效果。
在实际应用中,不同模板所包括的素材可能不同、素材的布局也可能不能,如此会使得模板对应的特征可能具有不同的特征维数。例如,第一模板特征和第二模板特征的特征维数可能不同,相应的,进一步进行特征感知得到的第一整体特征和第二整体特征的特征维数也可能不同。为了能够提高基于第一整体特征和第二整体特征进行相关性分析的准确性,可以先将第一整体特征和第二整体特征整合到相同的特征维数,然后再进行相关性分析。基于此,能够从相同的特征维数对二者进行比较,有利于提高相关性分析的准确性,相应得到的相关性结果更为准确。
在具体实施时,可以通过在前述的相关性分析模型中增设有全连接层(FullConnection,FC),利用全连接层实现特征维数的整合。具体的,相关性分析模型还可以包括全连接层,具体的,全连接层可以设置在融合层之后以及输出层之前,即,可以将融合层的输出确定为全连接层的输入,将全连接层的输出确定为输出层的输入。相应的,可以通过全连接层对第一整体特征进行特征整合,得到第一整体特征对应的目标特征,以及通过全连接层对第二整体特征进行特征整合,得到第二整体特征对应的目标特征,其中,第一整体特征对应的目标特征和第二整体特征对应的目标特征具有相同的特征维数。基于此,将二者整合到相同的特征维数,有利于提高后续的相关性分析。接着,可以根据第一整体特征对应的目标特征和第二整体特征对应的目标特征,通过输出层对第一模板和第二模板进行相关性分析,输出相关性结果。基于此,通过全连接层将第一整体特征和第二整体特征整合到相同维数,可以认为是将第一整体特征和第二整体特征映射到同一向量空间内,便于从相同的特征维数对二者进行比较,有利于提高相关性结果的准确性。
为了更好的理解,以根据第一整体特征对应的目标特征和第二整体特征对应的目标特征,通过输出层输出相关性结果为例,以及以输出层采用前述的余弦相似度算法为例进行说明,相应得到的相关性结果可以是前述的“相似度”这种数值形式。具体可以通过如下公式确定第一模板和第二模板的相似度:
上式中,Sima,b可以是指第一模板和第二模板的相似度,a可以是指第一整体特征对应的目标特征,b可以是指第二整体特征对应的目标特征,n可以是指第一整体特征对应的目标特征和第二整体特征对应的目标特征具有的特征维数,n为正整数,t为大于或等于1且小于或等于n的整数,可以表示n个特征维数中的第t个维,at可以是指a在第t维的特征分量,bt可以是指b在第t维的特征分量。
在上述采用相关性分析模型进行相关性分析的实施例中,需要说明的是,对于相关性分析模型的具体实现方式,本申请不做任何限定。在实际应用中,通常可以是对任意两个模板进行相关性分析,可以采用双塔模型的方式实现相关性分析模型。总体来说,在相关性分析模型具体的模型结构方面,可以采用深度学习技术,基于双塔模型设计相关性分析模型可以包括第一子模型和第二子模型,基于此,能够利用第一子模型和第二子模型分别处理第一模板特征和第二模板特征,有利于提高处理效率。
具体的,前述的融合层可以包括第一融合层和第二融合层,第一融合层可以用于对第一模板的个性特征和共性特征进行融合得到第一整体特征,第二融合层可以用于对第二模板的个性特征和共性特征进行融合得到第二整体特征。以及前述的全连接层可以包括第一全连接层和第二全连接层,第一全连接层可以用于对第一整体特征进行特征整合得到第一整体特征对应的目标特征,第二全连接层可以用于对第二整体特征进行特征整合得到第二整体特征对应的目标特征。相应的,共享网络层、第一个性网络层、第一融合层、第一全连接层和输出层可以构成前述的第一子模型,用于对第一模板特征进行处理,同样的,共享网络层、第二个性网络层、第二融合层、第二全连接层和输出层可以构成前述的第二子模型,用于对第二模板特征进行处理。其中,共享网络层以及输出层可以是第一子模型和第二子模型中的共用部分。基于此,采用双塔模型的方式设计相关性分析模型,能够利用第一子模型和第二子模型分别处理第一模板特征和第二模板特征,有利于提高处理效率。对应的,本申请实施例还提供了一种基于双塔模型的相关性分析模型的结构示意图,可以参见图3所示,图3示出了一种基于双塔模型的相关性分析模型的结构示意图。在利用第一模板特征和第二模板特征,通过图3所示的基于双塔模型的相关性分析模型进行相关性分析时,具体的处理过程可以结合图3所示以及参见前述介绍,此处不再赘述。
可以理解的是,在以上实施例中,针对不同情况介绍了模型结构有所不同的相关性分析模型,对此,在对前述的初始网络模型进行模型训练之前,可以对应于相关性分析模型的模型结构,对前述的初始网络模型的模型结构进行对应地调整,然后再对初始网络模型进行模型训练,从而使得完成模型训练后能够得到对应的相关性分析模型。
通过以上实施例,主要介绍了如何基于第一模板特征和第二模板特征进行相关性分析的内容。其中,需要说明的是,针对如何获取第一模板的第一模板特征、以及如何获取第二模板特征的方式,本申请不做任何限定。在实际应用中,需要分析模板相关性的场景不同,获取模板特征的方式可能有所不同。为了便于理解,本申请实施例分别以前述的模板相关性的离线预测场景以及模板相关性的在线预测场景为例,对应提供以下方式作为示例:
在模板相关性的离线预测场景中,具体可以是针对任意两个已知模板进行相关性分析,以此来评估这两个已知模板之间的相关性。为了便于分析,可以将这任意两个需要评估的模板分别确定为前述的第一模板和第二模板,然后采用本申请提供的方式进行相关性分析。可以理解的是,对于任一模板而言,模板特征均是素材特征与布局特征融合得到的,因此,在实际应用中,为了获取对应的模板特征,可以首先获取素材特征和布局特征,然后对素材特征与布局特征进行融合以得到模板特征。其中,素材特征可以是对模板所包括素材进行特征提取得到的,布局特征可以是对模板的布局信息进行特征提取得到,布局信息具体反映的是素材在模板中所处的相对位置关系。
在具体实施时,针对第一模板的第一模板特征,服务器可以先获取第一模板所包括的第一素材,以及获取第一素材在第一模板中的第一布局信息。其中,第一素材可以是指第一模板中所包括的、且用于表征第一模板情况的素材,第一布局信息可以反映第一素材在第一模板中所处的相对位置关系。基于此,便于确定对应的第一素材特征和第一布局特征。接着,服务器可以对第一素材进行特征提取得到第一素材特征,以及对第一布局信息进行特征提取得到第一布局特征。基于此,得到素材维度的第一素材特征以及布局维度的第一布局特征。最后,服务器可以对第一素材特征和第一布局特征进行融合,得到第一模板特征。基于此,实现获取第一模板的第一模板特征的目的。同样的,服务器可以首先确定第二模板,然后获取第二模板所包括的第二素材,以及获取第二素材在第二模板中的第二布局信息。其中,第二素材可以是指第二模板中所包括的、且用于表征第二模板情况的素材,第二布局信息可以反映第二素材在第二模板中所处的相对位置关系。接着,服务器可以对第二素材进行特征提取得到第二素材特征,以及对第二布局信息进行特征提取得到第二布局特征。基于此,得到素材维度的第二素材特征以及布局维度的第二布局特征。最后,服务器可以对第二素材特征和第二布局特征进行融合,得到第二模板特征。基于此,实现获取第二模板特征的目的。便于后续可以利用第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,以此来评估第一模板和第二模板之间的相关性。
在实际应用中,为了便于方便使用模板,通常会将已有的各个模板统一存储在模板库中,在需要使用时,可以从模板库中选择。随着模板的广泛应用,模板库中模板的数量也越来越多,为了更好地管理模板库,可以通过模板相关性的分析,对模板库中存储的诸多模板进行优化,具体可以是去除相似性较高的模板,由于模板库中的诸多模板都是已知的模板,相应可以将这种场景认为是一种典型的模板相关性的离线预测场景。通过将模板库中的任意两个模板确定为第一模板和第二模板的方式,进行相关性分析,后续便可以将具有相关性的多个模板仅保留其中的一个模板,实现对模板库的优化去重,便于模板库的管理等。
为了便于理解,以采用前述的基于双塔模型的相关性分析模型为例,针对离线预测场景,可以将第一模板的第一模板特征和第二模板的第二模板特征分别输入第一子模型与第二子模型中,即,启动双侧子模型,最终输出对应的相关性结果,如可以是第一模板和第二模板的余弦相似度的数值。
在实际应用中,还会设计开发一些新模板,可以理解的是,这些新模板在上线应用后能否吸引用户是评价这些新模板性能的重要指标。通常,设计比较新颖的模板更加能够吸引用户,新模板是否新颖同样可以通过模板相关性分析来评估。针对任一新模板,均可以采用在线预测的方式对新模板和已有模板进行相关性分析,相应可以将这种场景认为是一种典型的模板相关性的在线预测场景。
在模板相关性的在线预测场景中,前述的第一模板可以为待上线模板,即可以是指设计开发出来的新模板,此种场景下,前述的第二模板可以是指任一已有模板,相应也可以采用前述方式确定对应的第一模板特征和第二模板特征。此外,针对模板相关性的在线预测场景,为了能够更快地完成对待上线模板的评估,在实际应用中,还可以预先对已有模板进行处理得到对应的模板特征,以及将得到的模板特征存储在模板特征库中。基于此,针对在线预测场景,可以直接从模板特征库中获取对应的第二模板特征,然后进行相关性分析,有利于提高分析效率。其中,已有模板可以是指前述的模板库中存储的模板,相应的,在对模板库进行优化去重的过程中,可以将模板库中保留下来的那些已有模板的模板特征存储到模板特征库中,便于在线预测场景中调用等。
针对模板相关性的在线预测场景,以后者为例,在具体实施时,针对第一模板特征,服务器可以首先获取待上线模板所包括的第一素材,以及获取第一素材在待上线模板中的第一布局信息。接着,服务器可以对第一素材进行特征提取得到第一素材特征,以及对第一布局信息进行特征提取得到第一布局特征。最后,服务器可以对第一素材特征和第一布局特征进行融合,得到待上线模板的第一模板特征。基于此,通过特征提取、融合等处理,获取到待上线模板的第一模板特征。针对第二模板特征,服务器可以将模板特征库中包括的模板特征分别确定为第二模板特征,更为快速便捷。此时,第二模板可以为模板特征库中包括的模板特征所属的模板。基于此,有利于更为快速地完成对待上线模板的评估,提高效率。
为了便于理解,以采用前述的基于双塔模型的相关性分析模型为例,模板特征库中所存储的具体可以是各模板特征对应的目标特征。相应的,针对在线预测场景,可以将待上线模板输入第一子模型或第二子模型,即只需启动某一单侧的子模型。以及,还可以利用输出层获取模板特征库中所存储的模板特征对应的目标特征,然后进行相关性分析,以便对待上线模板进行评估。
可以理解的是,模板特征库中包括的目标特征数量通常可以是多个,不同模板特征所属的模板不同。针对待上线模板,通过上述的在线预测后,相应可以得到待上线模板分别与多个模板特征所属的模板之间的相关性结果,基于此,可以明确待上线模板与这多个模板的相似情况,以便对待上线模板进行评估,具体可以是评估待上线模板是否足够新颖等。在一种可能的实现方式中,可以从中筛选与待上线模板相似的模板,以便更高效地评估待上线模板。在具体实施时,
服务器可以首先基于待上线模板分别和多个模板特征所属的模板之间的相关性结果,从多个模板特征所属的模板中筛选待上线模板对应的相似模板,相似模板可以是指与待上线模板相似的模板。接着,服务器可以利用相似模板对待上线模板进行评估,得到评估结果。通常相似模板是多个模板特征所属的模板中的一部分,因此,仅利用相似模板对待上线模板进行评估,有利于降低计算量,提高评估效率。
需要说明的是,针对如何筛选相似模板的方式、以及如何利用相似模板对待上线模板进行评估的方式,本申请均不做限定。为了便于理解,本申请实施例提供以下方式作为示例:
以相关性结果为前述的“相似度”这一数值(例如可以是0~1之间的值)形式为例,可以将相似度大于相似度阈值(如相似度阈值为0.8)的模板确定为相似模板,便于快速确定相似模板。鉴于模板特征库中存储的模板特征,故为了获取对应的相似模板,可以利用特征检索的方式,具体可以是利用与待上线模板的模板特征相似度大于相似度阈值的模板特征,进行检索以便确定对应的模板,相应可以得到相似模板。
在实际应用中,相似模板的数量越多,表明待上线模板与已有模板的重叠比较大,难免不够新颖,同样的,相似模板的数量越少,表明已有模板中鲜少有待上线模板这样的模板,在应用后更可能带给用户更好的体验,可以认为待上线模板是比较新颖的。因此,在一种可能的实现方式中,可以根据相似模板的数量的多少对待上线模板进行评估,具体可以是评估是否新颖,若比较新颖则可以直接上线应用,反之,则还需对其进行调整优化。基于此,利用相似模板的数量的多少,能够更为简单便捷地完成对待上线模板的评估。
还需说明的是,对于任一模板,针对如何确定素材特征以及如何确定布局特征的方式,本申请均不做任何限定。为了便于理解,本申请实施例仍以前述的通过对模板所包括的素材进行特征提取得到素材特征以及对布局信息进行特征提取得到布局特征为例,进行更进一步的说明。
(1)首先,对模板所包括的素材进行特征提取得到素材特征的方式进行介绍,具体如下:
在实际应用中,模板所包括的素材的类型不同,对素材进行特征提取的方式可能有所差异。通常,模板所包括的素材可以是前述的文本这种类型的素材,也可以是前述的图像这种类型的素材,尤其是在前述的H5模板(如静态H5模板)中,文本和图像是较为常见的两种素材。相应的,后续将分别以素材可以是文本以及素材可以是图像为例,对确定素材特征的方式进行详细说明。
针对模板所包括的素材可以是文本的情况,相应的,首先可以提取模板中的文本,以便进行后续处理确定素材特征。例如,可以采用正则抽取的方式提取模板中的文本,此种方式中,提取出的文本通常可以是文本字符串这种形式。接着,在确定素材特征时,可以通过对文本进行向量化,通过向量化这种处理方式将文本表示称为文本向量,基于向量化得到的文本向量能够表达文本的情况,相应的,可以将得到的文本向量便确定为素材特征。在实际应用中,模板所包括的文本通常可以是一整段的文字内容,一整段的文字内容所表达的主题,通常可以利用从这段文字中提取的关键词来传达。因此,为了提高特征表达力,在一种可能的实现方式中,可以从文本以及文本对应的关键词这两个角度确定素材特征,以便提高特征表达力。具体的,服务器可以是先提取文本对应的关键词,然后分别对文本进行向量化得到文本向量,对文本对应的关键词进行向量化得到关键词向量,基于此,文本向量能够从文本整体的角度表达文本的情况,关键词向量能够从关键词的角度表达文本的情况。接着,服务器可以对文本向量和关键词向量进行融合,将融合后的向量确定为素材特征。基于此,能够从文本以及文本对应的关键词这两个角度确定素材特征,有利于丰富素材特征,从而提高素材特征的特征表达力。
在实际应用中,为了使得对文本向量和关键词向量进行融合得到的素材特征更为准确,在又一种可能的实现方式中,还可以基于文本向量和关键词向量,分别确定二者对应的特征权重,文本向量的特征权重能够表征文本向量表示文本情况时的准确性,关键词向量的特征权重能够表征关键词向量表示文本情况时的准确性。接着,便可以基于二者的特征权重实现对文本向量和关键词向量的融合。基于此,既能够从文本以及文本对应的关键词这两个角度考虑,还综合了特征权重,有利于提高素材特征的准确性。
为了更好地理解,以第一素材可以包括第一文本、第二素材可以包括第二文本为例,采用从文本以及关键词两个角度且结合二者的特征权重进行融合的方式,对确定第一素材特征和第二素材特征的过程进行介绍。在具体实施时,针对第一素材特征,服务器可以对第一文本进行向量化得到第一文本向量,以及对第一文本对应的第一关键词进行向量化得到第一关键词向量。基于此,第一文本向量作为对第一文本直接进行向量化得到的向量,能够从文本整体的角度表达第一文本的情况,而第一关键词向量作为对第一关键词进行向量化得到的向量,能够从关键词的角度表达第一文本的情况。接着,服务器可以根据第一文本向量和第一关键词向量,分别确定第一文本向量的特征权重和第一关键词向量的特征权重。其中,第一文本向量的特征权重能够表征第一文本向量表示第一文本情况时的准确性,第一关键词向量的特征权重能够表征第一关键词向量表示第一文本情况时的准确性。最后,服务器可以基于第一文本向量的特征权重和第一关键词向量的特征权重,对第一文本向量和第一关键词向量进行融合得到第一素材特征。基于此,有利于提高第一素材特征的准确性。同样的,针对第二素材特征,服务器可以对第二文本进行向量化得到第二文本向量,以及对第二文本对应的第二关键词进行向量化得到第二关键词向量。基于此,第二文本向量作为对第二文本直接进行向量化得到的向量,能够从文本整体的角度表达第二文本的情况,而第二关键词向量作为对第二关键词进行向量化得到的向量,能够从关键词的角度表达第二文本的情况。接着,服务器可以根据第二文本向量和第二关键词向量,分别确定第二文本向量的特征权重和第二关键词向量的特征权重。其中,第二文本向量的特征权重能够表征第二文本向量表示第二文本情况时的准确性,第二关键词向量的特征权重能够表征第二关键词向量表示第二文本情况时的准确性。最后,服务器可以基于第二文本向量的特征权重和第二关键词向量的特征权重,对第二文本向量和第二关键词向量进行融合得到第二素材特征。基于此,有利于提高第二素材特征的准确性。
需要说明的是,针对如何基于特征权重对文本向量和关键词向量进行融合的方式,本申请不做任何限定。在实际应用中,可以基于二者的特征权重,对二者进行加权融合,即,采用加权融合的方式将文本向量和关键词向量融合,具体可以通过如下公式实现:
FeatT=Scoreg,b*FeatT,b+Scoreg,e*FeatT,e
上式中,FeatT可以是指文本特征,若素材仅为文本,则可以将FeatT确定为前述的素材特征FeatC,Scoreg,b可以是指文本向量的特征权重,FeatT,b可以是指文本向量,Scoreg,e可以是指关键词向量的特征权重,FeatT,e可以是指关键词向量。
还需要说明的是,针对如何向量化以得到对应的文本向量、关键词向量的方式以及如何确定特征权重的方式,本申请均不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在实际应用中,随着机器学习和人工智能技术的不断发展,在对文本进行向量化以及文本对应的关键词进行向量化时,可以采用自然语言处理技术进行向量化,效率更高。具体的,例如可以采用基于自然语言处理技术训练得到的语义模型、嵌入网络等进行向量化。为了便于理解,以语义模型为基于变换器的双向编码器(Bidirectional EncoderRepresentations from Transformers,BERT)模型为例、以嵌入网络为MLP嵌入网络为例,在实际应用中,对于文本进行向量化时,可以采用BERT模型对文本进行向量化,得到文本向量,可以记作FeatT,b。对于文本对应的关键词进行向量化时,可以采用MLP嵌入网络对关键词进行向量化,得到关键词向量,可以记作FeatT,e。可以理解的是,无论是文本还是关键词,其形式均可以是字符串,故为了实现向量化,通常可以先对字符串进行编码,将字符串转换为数字化向量,以便进行后续的向量化。由于BERT模型自带编码功能,故对于文本,无需单独编码,可以直接将文本输入BERT模型即可,而对于MLP嵌入网络,可以采用例如独热编码(One-Hot Encoding,One-Hot编码)的方式对关键词进行编码,将编码后的结果输入MLP嵌入网络,进行后续的向量化。具体可以参见图4所示,图4示出了一种确定文本特征的处理逻辑示意图。在图4中,针对模板所包括的文本,可以将文本直接输入BERT模型,利用BERT模型输出文本向量,以及可以提取文本对应的关键词,然后将编码后的关键词输入MLP嵌入网络,利用MLP嵌入网络输出关键词向量,便于进行后续处理。
同样的,在确定文本向量的特征权重以及关键词向量的特征权重时,也可以利用基于机器学习和人工智能技术训练得到的神经网络实现,效率更高。例如,用于确定特征权重的神经网络可以是门控网络、注意力网络等。
为了便于理解,以门控网络为例进行介绍,在具体实施时,对于第一文本向量和第一关键词向量,可以首先将第一文本向量和第一关键词向量输入门控网络,接着,可以根据第一文本向量和第一关键词向量,通过门控网络分别确定第一文本向量的特征权重和第一关键词向量的特征权重。对于第二文本向量和第二关键词向量,可以首先将第二文本向量和第二关键词向量输入门控网络,接着,可以根据第二文本向量和第二关键词向量,通过门控网络分别确定第二文本向量的特征权重和第二关键词向量的特征权重。基于此,可以利用门控网络的方式,快速确定文本向量的特征权重以及关键词向量的特征权重。在实际应用中,利用门控网络可以通过如下公式确定特征权重:
Scoreg=Sigmoid(LR(Concat(FeatT,b,FeatT,e)))
上式中,Scoreg可以是指特征权重,Sigmoid可以是指映射函数,可以将LR(Concat(FeatT,b,FeatT,e))的值映射到0~1之间,LR可以是指逻辑回归模型,可以通过逻辑回归的方式分析FeatT,b和FeatT,e分别对应的特征权重,FeatT,b可以是指文本向量,FeatT,e可以是指关键词向量,Concat可以是指拼接函数,可以用于对FeatT,b和FeatT,e进行拼接。
需要说明的是,针对门控网络的设置,本申请不做任何限定。在实际应用中,由于门控网络的输入可以是向量化后的输出,因此,可以对应于所采用的向量化方式设置门控网络。例如,以前述的BERT模型对文本进行向量化、以前述的MLP嵌入网络对关键词进行向量化为例,对应的,可以对应于BERT模型设置有第一门控网络,对应于MLP嵌入网络设置有第二门控网络。在确定特征权重时,可以根据BERT模型输出的文本向量以及MLP嵌入网络输出的关键词向量,利用第一门控网络确定文本向量的特征权重,利用第二门控网络确定关键词向量的特征权重。基于此,对于文本与关键词采用不同的向量化方式时,可以设置与之对应的门控网络,便于更好地关注于各种向量化方式输出的向量的情况。具体可以参见图4所示,可以分别将BERT模型输出的文本向量以及MLP嵌入网络输出的关键词向量输入第一门控网络,利用第一门控网络输出文本向量的特征权重,以及分别将BERT模型输出的文本向量以及MLP嵌入网络输出的关键词向量输入第二门控网络,利用第二门控网络输出关键词向量的特征权重。
相应的,可以利用第一门控网络得到文本向量的特征权重并记作Scoreg,b,利用第二门控网络得到关键词向量的特征权重并记作Scoreg,e。接着,便可以基于Scoreg,b和Scoreg,e,采用前述的加权融合的方式对文本向量FeatT,b和关键词向量FeatT,e进行融合,得到前述的文本特征FeatT。具体可以参见图4所示,可以对BERT模型输出的文本向量与第一门控网络输出的文本向量的特征权重进行乘积,以及对MLP嵌入网络输出的关键词向量与第二门控网络输出的关键词向量的特征权重进行乘积,最后可以对两部分的乘积结果进行融合,得到文本特征。若素材仅包括文本,则可以将得到的文本特征直接确定为模板的素材特征。
通过以上实施例,对于模板所包括的素材可以是文本的情况,如何进行特征提取以得到素材特征的方式进行了详细说明。接着,针对模板所包括的素材可以是图像的情况进行说明。
针对模板所包括的素材可以是图像的情况,相应的,可以首先提取模板中所包括的图像,然后基于模板中所包括的图像进行图像特征提取。对应于素材可以是图像的情况,前述的第一素材可以包括第一图像,前述的第二素材可以包括第二图像,其中,第一图像可以是指第一模板中用于图像特征提取的那些图像,第二图像可以是指第二模板中用于图像特征提取的那些图像。在具体实施时,服务器可以对第一图像进行图像特征提取,将得到第一图像特征确定为第一素材特征,以及服务器可以对第二图像进行图像特征提取,将得到的第二图像特征确定为第二素材特征。基于图像特征提取,可以将图像的内容转换为能够表示图像内容的图像特征,以便进行后续处理。
需要说明的是,针对如何进行图像特征提取的方式,本申请不做任何限定。在实际应用中,为了提高图像特征提取的效率,可以利用基于机器学习和人工智能技术训练得到的卷积神经网络(Convolutional Neural Networks,CNN)对图像进行图像特征提取,以得到对应的图像特征,有利于提高图像特征提取的效率。
在实际应用中,进行图像特征提取的尺度不同,能够得到不同尺度的图像特征,不同尺度的图像特征在体现图像的内容时具有不同的表达力。因此,在一种可能的实现方式中,为了提高素材特征的特征表达力,可以对图像进行不同尺度的图像特征提取,并对得到的多尺度的图像特征进行融合,将融合后的图像特征确定为素材特征,基于此,由于融合了不同尺度的图像特征,使得融合后的素材特征能够更丰富,具有更好的特征表达力。在具体实施时,针对第一图像,服务器可以对第一图像进行不同尺度的图像特征提取,得到多尺度的第一图像特征,接着,服务器可以对多尺度的第一图像特征进行融合得到第一素材特征。例如,可以采用前述的拼接函数进行融合。同样的,针对第二图像,服务器可以对第二图像进行不同尺度的图像特征提取,得到多尺度的第二图像特征,接着,服务器可以对多尺度的第二图像特征进行融合得到第二素材特征。例如,可以采用前述的拼接函数进行融合。基于此,通过采用不同尺度的图像特征提取的方式,使得素材特征能够更丰富,具有更好的特征表达力。
为了更好的理解不同尺度的图像特征提取,本申请实施例以利用前述的CNN进行图像特征提取的方式为例进行说明。在实际应用中,不同的CNN通常具有不同大小的卷积核(如卷积核的大小可以是1*1、3*3等),不同大小的卷积核具有不同的感受野,在进行图像特征提取时,能够关注于的图像区域大小不同,从而实现对图像进行不同尺度的图像特征提取。因此,在一种可能的实现方式中,可以采用多个CNN(多个CNN对应的卷积核的大小各不相同)实现不同尺度的图像特征提取。
需要说明的是,针对第一图像的数量、第二图像的数量以及第一图像与第二图像的确定方式,本申请均不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
针对图像的数量方面,在实际应用中,第一图像的数量可以为多个,第二图像的数量可以为多个。以多个第一图像为例,在进行图像特征提取时,针对每个第一图像,首先可以对每个第一图像进行不同尺度的图像特征提取,得到每个第一图像对应的多尺度的第一图像特征。接着,可以对每个第一图像对应的多尺度的第一图像特征进行融合,得到每个第一图像对应的第一融合特征。最后,可以对对多个第一图像分别对应的第一融合特征进行融合得到第一素材特征。基于此,将多个图像的融合特征整合到素材特征,表达模板所包括图像的整体情况。针对多个第二图像,处理过程与多个第一图像类似,此处不再赘述。
针对图像的确定方式,为了能够全面地提取模板所包括的图像的特征,在一种可能的实现方式中,对于任一模板,可以将模板中所包括的全部图像确定为用于图像特征提取的图像。即,可以将第一模板中所包括的全部图像确定为第一图像,将第二模板中所包括的全部图像确定为第二图像。基于此,能够对全部图像进行图像特征提取,使得得到的素材特征能够全面反映图像的情况。
在实际应用中,图像在向用户传达信息时,不同图像尺寸的图像带给用户的视觉效果是不一样的。相应的,对于模板而言,可以认为图像尺寸满足尺寸条件的图像,在应用后能够起到主要的视觉传达作用,故,可以将这部分图像作为模板的主视觉图像,用于图像特征提取。也就是说,对于任一模板,可以从模板中所包括的全部图像中,筛选图像尺寸满足尺寸条件的图像确定为用于图像特征提取的图像。基于此,可以实现模板相关性分析,同时,由于图像数量的减少,可以降低计算量。在具体实施时,针对第一模板的第一图像和第二模板的第二图像,服务器可以首先获取第一模板所包括的第一待定图像,以及获取第二模板所包括的第二待定图像。其中,第一待定图像可以是指第一模板中所包括的全部图像,第二待定图像可以是指第二模板中所包括的全部图像。接着,服务器可以将第一待定图像中图像尺寸满足尺寸条件的第一待定图像确定为第一图像,以及将第二待定图像中图像尺寸满足尺寸条件的第二待定图像确定为第二图像。基于此,通过图像尺寸与尺寸条件相比较的方式,筛选满足尺寸条件的待定图像确定为用于图像特征提取的图像,可以减少图像数量,从而降低计算量。
其中,尺寸条件可以是预先配置好的,具体用于对待定图像的图像尺寸进行筛选,以得到满足从尺寸条件的待定图像。需要说明的是,针对如何配置尺寸条件的方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
通常,为了能够更为便捷地完成图像筛选,在一种可能的实现方式中,可以设置前述的用于作为模板的主视觉图像的数量,基于主视觉图像的数量配置尺寸条件。具体实施时,可以对模板中所包括的全部图像(即待定图像)按照图像尺寸进行排序,然后从中筛选出图像尺寸最大的N个确定为用于图像特征提取的图像。其中,N为正整数,用于表示主视觉图像的数量,具体例如可以是根据经验设置的。基于此,能够通过设置主视觉图像的数量的方式,便捷地完成图像筛选。
在实际应用中,图像尺寸能够准确表示一个图像的大小,故在又一种可能的实现方式中,可以配置尺寸条件为目标图像尺寸,其中,目标图像尺寸可以用于评估一个图像对于模板的视觉传达效果是否关键。具体的,图像尺寸大于或等于目标图像尺寸,可以认为这个图像对于模板的视觉传达效果较为关键,即满足尺寸条件,可以作为前述的主视觉图像,反之,图像尺寸小于目标图像尺寸,可以认为这个图像对于模板的视觉传达效果不太关键,即不满足尺寸条件,故可以不将其作为前述的主视觉图像。基于此,可以通过设置目标图像尺寸的方式完成图像筛选。
为了更好地理解图像特征提取过程,本申请实施例以前述的筛选模板中图像尺寸最大的N个待定图像进行图像特征提取、以及前述的采用多个CNN实现不同尺度的图像特征提取为例,提供了一种确定图像特征的处理逻辑示意图,可以参见图5所示,图5示出了一种确定图像特征的处理逻辑示意图。具体的,对于该模板,可以将模板所包括的待定图像确定为模板图像集合,基于各个待定图像的图像尺寸从中筛选图像尺寸最大的N个待定图像。接着,可以将筛选出来的N个待定图像输入k个(k为大于1的整数)CNN,即图5中示出的CNN1、CNN2、……、CNNk,利用k个CNN分别输出针对每个待定图像对应的k个尺度的图像特征。最后,可以通过融合得到该模板的图像特征,具体可以通过如下公式表示:
上式中,FeatI可以是指图像特征,若素材仅为图像,则可以将FeatI确定为前述的素材特征FeatC,Pooling可以是指池化,i可以是大于或等于1且小于或等于N的整数,可以是指N个待定图像中的第i个待定图像,k可以是指CNN的数量,k为大于1的整数,j可以是大于或等于1且小于或等于k的整数,可以是指k个CNN中的第j个CNN,Iij可以是指利用第j个CNN对第i个待定图像进行图像特征提取的结果。
可以理解的是,一个模板中的素材可以既包括文本又包括图像,此种情况,模板的素材特征可以既包括文本特征又包括图像特征,即素材特征可以是对文本特征和图像特征进行融合得到的。例如,以前述的文本特征FeatT、图像特征FeatI为例,此时,前述的素材特征FeatC可以是对FeatT和FeatI进行融合得到的。在实际应用中,针对既包括文本又包括图像的模板,在确定素材特征时,可以采用基于图像和文本的联合学习方式,提取对应的图像特征和文本特征,基于联合学习,可以实现对模板中不同素材之间的交互,有利于更加全面地学习模板的素材特征,以便能够更加全面地理解模板,提高对模板理解的精度和效率。此外,模板中还可能包括其他素材,以视频这种多媒体形式的素材为例,同样可以通过特征提取的方式,得到对应的视频特征,这种对视频进行特征提取的过程也可以称为是多媒体信息处理的过程。相应的,可以对视频特征与文本特征、图像特征进行融合得到对应的素材特征。对此,也可以认为是将模板所包括的各种模态的素材进行了融合,故对于确定素材特征的过程,可以称为是多模态素材的融合过程。
(2)接着,对布局信息进行特征提取得到布局特征的方式进行介绍,具体如下:
可以理解的是,基于布局信息确定布局特征的过程,主要可以包括如何获取布局信息以及针对如何对布局信息进行特征提取得到布局特征两部分。相应的,针对这两部分内容,本申请实施例提供以下方式作为示例。
针对第一部分“如何获取布局信息”的方式,在实际应用中,模板在设计开发时,可以利用组件标识素材所在的区域,在使用模板时,可以将素材填充到组件所标识的区域即可。故可以认为,模板中包括的组件的布局情况能够体现素材在模板中的布局情况,对于任一组件,通常可以通过组件对应的坐标尺寸来描述该组件位于模板中的哪里,即,组件对应的坐标尺寸能够体现组件的布局情况。因此,在一种可能的实现方式中,可以利用模板中包括的组件对应的坐标尺寸确定模板的布局信息。在具体实施时,针对第一布局信息,服务器可以获取第一模板中包括的第一组件对应的第一坐标尺寸,其中,第一组件可以是指第一模板中包括的组件,实际应用中,第一组件可以用于承载第一素材。接着,服务器可以根据第一坐标尺寸确定第一布局信息。同样的,针对第二布局信息,服务器可以获取第二模板中包括的第二组件对应的第二坐标尺寸,其中,第二组件可以是指第二模板中包括的组件,实际应用中,第二组件可以用于承载第二素材。接着,服务器可以根据第二坐标尺寸确定第二布局信息。基于此,提供了一种利用模板在包括的组件的坐标尺寸确定布局信息的方式,能够结合模板设计开发时利用组件标识素材所在区域的特点,便捷地确定出布局信息。
需要说明的是,对于任一组件的坐标尺寸,本申请不做任何限定。在实际应用中,组件的坐标尺寸用于描述该组件位于模板中的哪里,因此,在一种可能的实现方式中,可以以模板为参考建立坐标系,然后可以根据组件在模板中所处的位置,在坐标系中对应的坐标确定组件的坐标尺寸。在实际应用中,模板通常可以基于二维空间设计开发的,以及通常会设计组件的形状为矩形,相应的,坐标系可以是二维直角坐标系,以及坐标尺寸也可以是二维的。
为了更好地理解,以组件的形状为矩形为例,对于任一组件,在建立二维直角坐标系后,由于矩形的任一顶点能够体现组件在模板中所处的相对位置,矩形的长度和矩形的宽度分别可以是基于矩形的相邻两条边上的两个顶点确定的,能够体现组件的尺寸。因此,可以综合利用矩形的任一顶点以及矩形的长度、矩形的宽度确定为组件的坐标尺寸,能够准确表示组件在模板中所处的位置。具体的,以组件的形状为矩形、且任一顶点为矩形的左上角顶点为例,可以通过如下公式表示组件的坐标尺寸:
p=[w,h,l,r]
上式中,p可以是指组件的坐标尺寸,w可以是指矩形的长度,h可以是指矩形的宽度,l可以是指矩形的左上角顶点的横坐标,r可以是指矩形的左上角顶点的纵坐标。
还需说明的是,针对如何根据组件的坐标尺寸确定布局信息的具体实现方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
通常,一个模板在应用时需要展示的素材的数量可以是多个,相应的,为了提高模板在应用时的需求,在设计开发时,可以在一个模板中设计多个组件,相应在应用时,可以将多个素材分别填充到各个组件中。也就是说,前述的第一组件的数量可以为多个,同样的,第二组件的数量也可以为多个。可以理解的是,各个组件均对应有各自的坐标尺寸,但是对于模板而言,多个组件共同构成了模板的样式细节,多个组件共同体现模板的布局情况。因此,为了能够从整体反映模板的布局情况,在一种可能的实现方式中,可以对多个组件的坐标尺寸进行合并的方式得到布局信息。具体实施时,针对多个第一组件,首先,服务器可以获取多个第一组件分别在第一模板中的第一坐标尺寸,接着,服务器可以对多个第一组件分别在第一模板中的第一坐标尺寸进行合并,得到第一布局信息。同样的,针对多个第二组件,首先,服务器可以获取多个第二组件分别在第二模板中的第二坐标尺寸,接着,服务器可以对多个第二组件分别在第二模板中的第二坐标尺寸进行合并,得到第二布局信息。基于此,针对模板中包括的组件有多个的情况,可以通过对各个组件的坐标尺寸进行合并的方式确定布局信息,基于此,有利于勾勒多个组件在整个模板中所形成的布局情况,能够从整体反映模板的布局情况。
需要说明的是,针对如何对多个组件的坐标尺寸进行合并的方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在实际应用中,可以对多个组件的坐标尺寸进行直接合并,即,可以将各个组件的坐标尺寸简单地堆叠在一起,得到坐标尺寸集合。为了便于理解,仍以前述组件的形状为矩形、以及组件的坐标尺寸记作前述的p为例,针对M个组件(M为大于1的整数),M个组件分别对应的坐标尺寸可以记作p1、p2、……、pM,对M个组件的坐标尺寸进行直接合并,可以得到坐标尺寸集合P=(p1,p2,……,pM)。为了能够更为直观地反映M个组件的坐标尺寸,可以进行更进一步地合并,具体可以是将各个组件的坐标尺寸的各个参数进行合并。具体实施时,可以是将P=(p1,p2,……,pM)的pm替换为[wm,hm,lm,rm],其中,m可以是大于或等于1且小于或等于M的整数,pm可以是指M个组件中第m个组件对应的坐标尺寸。基于此,可以通过对M个组件的坐标尺寸进行合并的方式,将利用M个组件的坐标尺寸所体现的模板的样式转换为了二维空间内的坐标表达,可以记作S。基于此,有利于在二维空间内,从整体反映模板的样式与布局。
针对第二部分“如何对布局信息进行特征提取得到布局特征”的方式,在实际应用中,可以利用基于机器学习和人工智能技术训练得到的卷积层(例如可以是前述的CNN)对布局信息进行特征提取,得到布局特征,有利于提高效率。
可以理解的是,进行特征提取的尺度不同,能够得到不同尺度的特征,不同尺度的特征具有不同的特征表达力。因此,在一种可能的实现方式中,可以先对布局信息进行不同尺度的特征提取,然后对得到的多尺度的布局尺度特征进行融合。在具体实施时,针对第一布局信息,服务器可以对第一布局信息进行不同尺度的特征提取,得到多尺度的第一布局尺度特征。接着,服务器可以对多尺度的第一布局尺度特征进行融合得到第一布局特征。同样的,针对第二布局信息,服务器可以对第二布局信息进行不同尺度的特征提取,得到多尺度的第二布局尺度特征。接着,服务器可以对多尺度的第二布局尺度特征进行融合得到第二布局特征。基于此,通过采用不同尺度的特征提取的方式,由于融合了不同尺度的布局尺度特征,使得布局特征能够更丰富,具有更好的特征表达力。
在实际应用中,例如可以是采用Q个卷积层(例如可以是Q个CNN),实现不同尺度的特征提取,其中,Q可以是大于1的正整数,不同卷积层对应的卷积核的大小各不相同,如卷积核的大小可以是5*5、7*7等。为了便于理解,本申请实施例仍以前述的M个组件且各个组件的形状为矩形为例进行更进一步地说明。相应的,M个组件对应的布局信息可以是前述的基于M个组件的坐标尺寸进行合并得到的坐标表达S。在进行不同尺度的特征提取时,可以分别利用Q个卷积层对S进行特征提取,相应得到Q个布局尺度特征。最后,可以对Q个布局尺度特征进行融合得到对应的布局特征,例如可以通过池化的方式实现融合。具体的,可以通过如下公式确定:
上式中,Feats可以是指布局特征,Q可以是指卷积层的数量,q可以是大于或等于1且小于或等于Q的整数,可以是指Q个卷积层中的第q个卷积层,Kq可以是指第q个卷积层对应的卷积核的大小,Sq可以是指第q个卷积层进行特征提取得到的第q个布局尺度特征。
为了更好地理解,本申请实施例还提供了一种确定布局特征的处理逻辑示意图,可以参见图6所示,图6示出了一种确定布局特征的处理逻辑示意图。在图6中,首先通过虚线框所标注的部分示出了第一模板和第二模板的示例,以及通过实线框所标注的部分使出了基于坐标表达确定布局特征的过程。具体的,第一模板中包括的第一组件的数量M=4,具体可以是第一模板中的组件1、组件2、组件3和组件4,4个组件在第一模板中的布局情况可以参见图6所示。同样的,第二模板中包括的第二组件的数量M=5,具体可以是第二模板中的组件1、组件2、组件3、组件4和组件5,5个组件在第二模板中的布局情况可以参见图6所示。可以采用前述的对多个组件的坐标尺寸进行合并得到二维空间内的坐标表达S的方式,对第一模板中包括的4个组件的坐标尺寸进行合并得到坐标表达S1,对第二模板中包括的5个组件的坐标尺寸进行合并得到坐标表达S2。接着,针对第一模板和第二模板,分别可以利用坐标表达S1和坐标表达S2确定对应的布局特征。在实际应用中,可以从坐标表达S1和坐标表达S2中获取任一坐标表达确定为坐标表达S,输入Q个卷积层(具体可以包括图6中示出的卷积层1、卷积层2、……、卷积层Q),输出不同尺度的Q个布局尺度特征。最后,可以通过融合得到布局特征。若坐标表达S为第一模板的坐标表达S1,则对应得到第一模板的第一布局特征,若坐标表达S为第一模板的坐标表达S2,则对应得到第二模板的第二布局特征。
对于任一模板,在确定出素材特征和布局特征后,便可以对素材特征和布局特征进行融合以得到对应的模板特征。
为了更好地理解,以素材既包括文本又包括图像的模板为例,在融合得到模板特征时,一种可能的实现方式中,可以先将文本特征和图像特征进行融合得到对应的素材特征,接着对素材特征和布局特征进行融合得到模板特征,例如,均可以是采用前述的拼接方式实现融合。以文本特征为FeatT、图像特征为FeatI为例,可以利用拼接函数Concat对FeatT和FeatI进行拼接得到素材特征FeatC,接着,可以利用拼接函数Concat对FeatC和FeatS进行拼接得到模板特征Feat。基于此,采用两次拼接的方式得到模板特征。
此外,针对素材既包括文本又包括图像的模板,在又一种可能的实现方式中,还可以采用一次融合的方式得到模板特征,融合效率更高。具体的,模板特征可以通过下式确定:
Feat=Concat(FeatT,FeatI,FeatS)
上式中,Feat可以是指模板特征,Concat可以是指拼接函数,用于对FeatT、FeatI、和FeatS进行拼接,FeatT可以是指文本特征,FeatI可以是指图像特征,FeatS可以是指布局特征。
为了便于理解,本申请实施例以实际业务场景中真实的静态H5模板为例,即第一模板和第二模板都是前述的静态H5模板这种常见模板,以二者所包括的素材均可以是文本和图像为例,提供了一种静态模板相关性分析的逻辑示意图,参见图7所示,图7示出了一种静态模板相关性分析的逻辑示意图。具体的,针对第一模板,可以分别确定第一模板中的第一文本、第一图像以及第一布局信息,接着进行特征提取对应得到第一文本特征、第一图像特征以及第一布局特征,最后通过融合得到第一模板特征。针对第二模板,与第一模板的处理流程类似,便不赘述,相应可以得到第二模板特征。基于此,通过对模板中的文本、图像这两种不同模态的信息以及布局信息分别进行处理,能够有利于更加准确地提取有效的特征。得到第一模板特征和第二模板特征之后,可以将二者输入前述的基于双塔模型的相关性分析模型,以便进行相关性分析,并输出相关性结果。根据第一模板特征和第二模板特征,利用基于双塔模型的相关性分析模型进行相关性分析的过程,可以参见图3所示及相关说明,此处不再赘述。采用本申请,能够为实际业务场景中的静态H5模板的研究与应用提供有力的支持。
由上述技术方案可以看出,在需要分析模板相关性时,可以首先获取第一模板的第一模板特征以及获取第二模板特征。其中,第一模板特征可以是对第一模板的第一素材特征和第一模板的第一布局特征进行融合得到的,第一素材特征可以用于表征第一模板所包括的第一素材的情况,第一布局特征可以用于表征第一素材在第一模板中的布局情况,故第一模板特征可以素材以及布局两个维度反映第一模板的情况。同样的,第二模板特征可以对应于第二模板,且第二模板特征可以是对第二模板的第二素材特征和第二模板的第二布局特征进行融合得到的,第二素材特征可以用于表征第二模板所包括的第二素材的情况,第二布局特征可以用于表征第二素材在第二模板中的布局情况,故第二模板特征可以从素材以及布局两个维度反映第二模板的情况。接着,可以基于第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,得到相关性结果。其中,模板特征在素材特征的基础上,融合了布局特征,由于布局特征能够反映素材在模板中的布局情况,具体可以是反映素材在模板中所处的相对位置关系,故布局特征能够体现素材的上下文信息,因此模板特征能够更为准确、全面地反映模板的情况。基于此,相较于相关技术中仅基于第一素材特征和第二素材特征进行相关性分析的方式,本申请中基于第一模板特征和第二模板特征进行相关性分析的方式,不仅考虑了素材本身,还融合了素材的上下文信息,有利于提高相关性分析的准确性,相应得到的相关性结果能够更为准确地反映第一模板和第二模板之间的相关性。
需要说明的是,本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
基于图2对应实施例提供的数据处理方法,本申请实施例还提供一种数据处理装置800,所述数据处理装置800包括获取单元801和分析单元802:
所述获取单元801,用于获取第一模板的第一模板特征,以及获取第二模板特征;所述第一模板特征是对所述第一模板的第一素材特征和所述第一模板的第一布局特征进行融合得到的,所述第二模板特征对应于第二模板,所述第二模板特征是对所述第二模板的第二素材特征和所述第二模板的第二布局特征进行融合得到的;
所述分析单元802,用于基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果。
在一种可能的实现方式中,所述获取单元还用于:
获取所述第一模板所包括的第一素材,以及获取所述第一素材在所述第一模板中的第一布局信息;
对所述第一素材进行特征提取得到所述第一素材特征,以及对所述第一布局信息进行特征提取得到所述第一布局特征;
对所述第一素材特征和所述第一布局特征进行融合,得到所述第一模板特征;
确定所述第二模板;
获取所述第二模板所包括的第二素材,以及获取所述第二素材在所述第二模板中的第二布局信息;
对所述第二素材进行特征提取得到所述第二素材特征,以及对所述第二布局信息进行特征提取得到所述第二布局特征;
对所述第二素材特征和所述第二布局特征进行融合,得到所述第二模板特征。
在一种可能的实现方式中,所述获取单元还用于:
获取所述第一模板中包括的第一组件对应的第一坐标尺寸;所述第一组件用于承载所述第一素材;
根据所述第一坐标尺寸确定所述第一布局信息;
获取所述第二模板中包括的第二组件对应的第二坐标尺寸;所述第二组件用于承载所述第二素材;
根据所述第二坐标尺寸确定所述第二布局信息。
在一种可能的实现方式中,所述第一组件的数量为多个,所述第二组件的数量为多个,所述获取单元还用于:
获取多个所述第一组件分别在所述第一模板中的第一坐标尺寸;
对多个所述第一组件分别在所述第一模板中的第一坐标尺寸进行合并,得到所述第一布局信息;
获取多个所述第二组件分别在所述第二模板中的第二坐标尺寸;
对多个所述第二组件分别在所述第二模板中的第二坐标尺寸进行合并,得到所述第二布局信息。
在一种可能的实现方式中,所述获取单元还用于:
对所述第一布局信息进行不同尺度的特征提取,得到多尺度的第一布局尺度特征;
对所述多尺度的第一布局尺度特征进行融合得到所述第一布局特征;
对所述第二布局信息进行不同尺度的特征提取,得到多尺度的第二布局尺度特征;
对所述多尺度的第二布局尺度特征进行融合得到所述第二布局特征。
在一种可能的实现方式中,所述第一素材包括第一文本,所述第二素材包括第二文本,所述获取单元还用于:
对所述第一文本进行向量化得到第一文本向量,以及对所述第一文本对应的第一关键词进行向量化得到第一关键词向量;
根据所述第一文本向量和所述第一关键词向量,分别确定所述第一文本向量的特征权重和所述第一关键词向量的特征权重;
基于所述第一文本向量的特征权重和所述第一关键词向量的特征权重,对所述第一文本向量和所述第一关键词向量进行融合得到所述第一素材特征;
对所述第二文本进行向量化得到第二文本向量,以及对所述第二文本对应的第二关键词进行向量化得到第二关键词向量;
根据所述第二文本向量和所述第二关键词向量,分别确定所述第二文本向量的特征权重和所述第二关键词向量的特征权重;
基于所述第二文本向量的特征权重和所述第二关键词向量的特征权重,对所述第二文本向量和所述第二关键词向量进行融合得到所述第二素材特征。
在一种可能的实现方式中,所述获取单元还用于:
根据所述第一文本向量和所述第一关键词向量,通过门控网络分别确定所述第一文本向量的特征权重和所述第一关键词向量的特征权重;
根据所述第二文本向量和所述第二关键词向量,通过所述门控网络分别确定所述第二文本向量的特征权重和所述第二关键词向量的特征权重。
在一种可能的实现方式中,所述第一素材包括第一图像,所述第二素材包括第二图像,所述获取单元还用于:
对所述第一图像进行不同尺度的图像特征提取,得到多尺度的第一图像特征;
对所述多尺度的第一图像特征进行融合得到所述第一素材特征;
对所述第二图像进行不同尺度的图像特征提取,得到多尺度的第二图像特征;
对所述多尺度的第二图像特征进行融合得到所述第二素材特征。
在一种可能的实现方式中,所述获取单元还用于:
获取所述第一模板所包括的第一待定图像,以及获取所述第二模板所包括的第二待定图像;
将所述第一待定图像中图像尺寸满足尺寸条件的第一待定图像确定为所述第一图像,以及将所述第二待定图像中图像尺寸满足所述尺寸条件的第二待定图像确定为所述第二图像。
在一种可能的实现方式中,相关性分析模型包括特征提取层、融合层和输出层,所述特征提取层包括共享网络层、第一个性网络层和第二个性网络层,所述分析单元还用于:
根据所述第一模板特征,通过所述第一个性网络层进行个性特征提取得到所述第一模板的个性特征,根据所述第二模板特征,通过所述第二个性网络层进行个性特征提取得到所述第二模板的个性特征,以及根据所述第一模板特征和所述第二模板特征,通过所述共享网络层进行共性特征提取得到所述第一模板和所述第二模板对应的共性特征;
通过所述融合层对所述第一模板的个性特征和所述共性特征进行融合得到所述第一模板的第一整体特征,以及通过所述融合层对所述第二模板的个性特征和所述共性特征进行融合得到所述第二模板的第二整体特征;
根据所述第一整体特征和所述第二整体特征,通过所述输出层对所述第一模板和所述第二模板进行相关性分析,输出所述相关性结果。
在一种可能的实现方式中,所述相关性分析模型还包括全连接层,所述分析单元还用于:
通过所述全连接层对所述第一整体特征进行特征整合,得到所述第一整体特征对应的目标特征,以及通过所述全连接层对所述第二整体特征进行特征整合,得到所述第二整体特征对应的目标特征;所述第一整体特征对应的目标特征和所述第二整体特征对应的目标特征具有相同的特征维数;
根据所述第一整体特征对应的目标特征和所述第二整体特征对应的目标特征,通过所述输出层对所述第一模板和所述第二模板进行相关性分析,输出所述相关性结果。
在一种可能的实现方式中,所述相关性分析模型通过如下方式获得:
获取多个训练样本对;所述多个训练样本对中的每个训练样本对包括一个第一样本模板和一个第二样本模板,所述每个训练样本对具有样本标签,所述样本标签用于标识所述每个训练样本对所包括的第一样本模板和第二样本模板之间的样本相关性结果;
分别确定所述每个训练样本对所包括的第一样本模板对应的第一样本模板特征,以及所述每个训练样本对所包括的第二样本模板对应的第二样本模板特征;
分别利用基于所述每个训练样本对确定出的第一样本模板特征和第二样本模板特征,对初始网络模型进行模型训练,直至满足模型训练结束条件,得到所述相关性分析模型;所述初始网络模型包括初始特征提取层、初始融合层和初始输出层,所述初始特征提取层包括初始共享网络层、第一初始个性网络层和第二初始个性网络层。
在一种可能的实现方式中,所述获取单元还用于:
获取多个第一待定样本模板,以及获取多个第二待定样本模板;
针对每个第一待定样本模板和每个第二待定样本模板,若确定所述第一待定样本模板的模板类型和所述第二待定样本模板的模板类型相同,根据所述第一待定样本模板和所述第二待定样本模板生成第一正训练样本对;所述第一正训练样本对的样本标签用于标识所述第一待定样本模板和所述第二待定样本模板之间的样本相关性结果为相关;
若确定所述第一待定样本模板的模板类型和所述第二待定样本模板的模板类型不同,根据所述第一待定样本模板和所述第二待定样本模板生成第一负训练样本对;所述第一负训练样本对的样本标签用于标识所述第一待定样本模板和所述第二待定样本模板之间的样本相关性结果为不相关;
根据所述第一正训练样本对和所述第一负训练样本对生成所述多个训练样本对;
或者,获取目标样本模板;
对所述目标样本模板进行噪声添加处理,得到所述目标样本模板对应的噪声样本模板;
若确定在所述噪声添加处理的过程中添加的噪声小于或等于噪声阈值,根据所述目标样本模板和所述噪声样本模板生成第二正训练样本对;所述第二正训练样本对的样本标签用于标识所述目标样本模板和所述噪声样本模板之间的样本相关性结果为相关;
若确定在所述噪声添加处理的过程中添加的噪声大于所述噪声阈值,根据所述目标样本模板和所述噪声样本模板生成第二负训练样本对;所述第二负训练样本对的样本标签用于标识所述目标样本模板和所述噪声样本模板之间的样本相关性结果为不相关;
根据所述第二正训练样本对和所述第二负训练样本对生成所述多个训练样本对。
在一种可能的实现方式中,所述第一模板为待上线模板,所述获取单元还用于:
获取所述待上线模板所包括的第一素材,以及获取所述第一素材在所述待上线模板中的第一布局信息;
对所述第一素材进行特征提取得到所述第一素材特征,以及对所述第一布局信息进行特征提取得到所述第一布局特征;
对所述第一素材特征和所述第一布局特征进行融合,得到所述待上线模板的第一模板特征;
将模板特征库中包括的模板特征分别确定为所述第二模板特征;所述第二模板为所述模板特征库中包括的模板特征所属的模板。
在一种可能的实现方式中,所述模板特征库中包括的模板特征数量为多个,不同模板特征所属的模板不同,所述装置还包括筛选单元和评估单元:
所述筛选单元,用于基于所述待上线模板分别和多个所述模板特征所属的模板之间的相关性结果,从多个所述模板特征所属的模板中筛选所述待上线模板对应的相似模板;
所述评估单元,用于利用所述相似模板对所述待上线模板进行评估,得到评估结果。
由上述技术方案可以看出,在需要分析模板相关性时,可以首先获取第一模板的第一模板特征以及获取第二模板特征。其中,第一模板特征可以是对第一模板的第一素材特征和第一模板的第一布局特征进行融合得到的,第一素材特征可以用于表征第一模板所包括的第一素材的情况,第一布局特征可以用于表征第一素材在第一模板中的布局情况,故第一模板特征可以素材以及布局两个维度反映第一模板的情况。同样的,第二模板特征可以对应于第二模板,且第二模板特征可以是对第二模板的第二素材特征和第二模板的第二布局特征进行融合得到的,第二素材特征可以用于表征第二模板所包括的第二素材的情况,第二布局特征可以用于表征第二素材在第二模板中的布局情况,故第二模板特征可以从素材以及布局两个维度反映第二模板的情况。接着,可以基于第一模板特征和第二模板特征,对第一模板和第二模板进行相关性分析,得到相关性结果。其中,模板特征在素材特征的基础上,融合了布局特征,由于布局特征能够反映素材在模板中的布局情况,具体可以是反映素材在模板中所处的相对位置关系,故布局特征能够体现素材的上下文信息,因此模板特征能够更为准确、全面地反映模板的情况。基于此,相较于相关技术中仅基于第一素材特征和第二素材特征进行相关性分析的方式,本申请中基于第一模板特征和第二模板特征进行相关性分析的方式,不仅考虑了素材本身,还融合了素材的上下文信息,有利于提高相关性分析的准确性,相应得到的相关性结果能够更为准确地反映第一模板和第二模板之间的相关性。
本申请实施例还提供了一种计算机设备,该计算机设备可以是终端,以终端为智能手机为例:
图9示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图9,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文缩写:WiFi)模块970、处理器980、以及电源990等部件。输入单元930可包括触控面板931以及其他输入设备932,显示单元940可包括显示面板941,音频电路960可以包括扬声器961和传声器962。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器980是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行智能手机的各种功能和处理数据。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
在本实施例中,由智能手机中的处理器980执行的步骤可以基于图9所示的结构实现。
本申请实施例提供的计算机设备还可以是服务器,请参见图10所示,图10为本申请实施例提供的服务器1000的结构图,服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器,例如中央处理器(Central Processing Units,简称CPU)1022,以及存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本实施例中,服务器1000中的中央处理器1022可以执行以下步骤:
获取第一模板的第一模板特征,以及获取第二模板特征;所述第一模板特征是对所述第一模板的第一素材特征和所述第一模板的第一布局特征进行融合得到的,所述第二模板特征对应于第二模板,所述第二模板特征是对所述第二模板的第二素材特征和所述第二模板的第二布局特征进行融合得到的;
基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被计算机设备运行时,使得所述计算机设备执行前述各个实施例所述的数据处理方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (19)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一模板的第一模板特征,以及获取第二模板特征;所述第一模板特征是对所述第一模板的第一素材特征和所述第一模板的第一布局特征进行融合得到的,所述第二模板特征对应于第二模板,所述第二模板特征是对所述第二模板的第二素材特征和所述第二模板的第二布局特征进行融合得到的;
基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果。
2.根据权利要求1所述的方法,其特征在于,所述获取第一模板的第一模板特征,包括:
获取所述第一模板所包括的第一素材,以及获取所述第一素材在所述第一模板中的第一布局信息;
对所述第一素材进行特征提取得到所述第一素材特征,以及对所述第一布局信息进行特征提取得到所述第一布局特征;
对所述第一素材特征和所述第一布局特征进行融合,得到所述第一模板特征;
所述获取第二模板特征,包括:
确定所述第二模板;
获取所述第二模板所包括的第二素材,以及获取所述第二素材在所述第二模板中的第二布局信息;
对所述第二素材进行特征提取得到所述第二素材特征,以及对所述第二布局信息进行特征提取得到所述第二布局特征;
对所述第二素材特征和所述第二布局特征进行融合,得到所述第二模板特征。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一素材在所述第一模板中的第一布局信息,包括:
获取所述第一模板中包括的第一组件对应的第一坐标尺寸;所述第一组件用于承载所述第一素材;
根据所述第一坐标尺寸确定所述第一布局信息;
所述获取所述第二素材在所述第二模板中的第二布局信息,包括:
获取所述第二模板中包括的第二组件对应的第二坐标尺寸;所述第二组件用于承载所述第二素材;
根据所述第二坐标尺寸确定所述第二布局信息。
4.根据权利要求3所述的方法,其特征在于,所述第一组件的数量为多个,所述第二组件的数量为多个,所述获取所述第一模板中包括的第一组件对应的第一坐标尺寸,包括:
获取多个所述第一组件分别在所述第一模板中的第一坐标尺寸;
所述根据所述第一坐标尺寸确定所述第一布局信息,包括:
对多个所述第一组件分别在所述第一模板中的第一坐标尺寸进行合并,得到所述第一布局信息;
所述获取所述第二模板中包括的第二组件对应的第二坐标尺寸,包括:
获取多个所述第二组件分别在所述第二模板中的第二坐标尺寸;
所述根据所述第二坐标尺寸确定所述第二布局信息,包括:
对多个所述第二组件分别在所述第二模板中的第二坐标尺寸进行合并,得到所述第二布局信息。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一布局信息进行特征提取得到所述第一布局特征,包括:
对所述第一布局信息进行不同尺度的特征提取,得到多尺度的第一布局尺度特征;
对所述多尺度的第一布局尺度特征进行融合得到所述第一布局特征;
所述对所述第二布局信息进行特征提取得到所述第二布局特征,包括:
对所述第二布局信息进行不同尺度的特征提取,得到多尺度的第二布局尺度特征;
对所述多尺度的第二布局尺度特征进行融合得到所述第二布局特征。
6.根据权利要求2所述的方法,其特征在于,所述第一素材包括第一文本,所述第二素材包括第二文本,所述对所述第一素材进行特征提取得到所述第一素材特征,包括:
对所述第一文本进行向量化得到第一文本向量,以及对所述第一文本对应的第一关键词进行向量化得到第一关键词向量;
根据所述第一文本向量和所述第一关键词向量,分别确定所述第一文本向量的特征权重和所述第一关键词向量的特征权重;
基于所述第一文本向量的特征权重和所述第一关键词向量的特征权重,对所述第一文本向量和所述第一关键词向量进行融合得到所述第一素材特征;
所述对所述第二素材进行特征提取得到所述第二素材特征,包括:
对所述第二文本进行向量化得到第二文本向量,以及对所述第二文本对应的第二关键词进行向量化得到第二关键词向量;
根据所述第二文本向量和所述第二关键词向量,分别确定所述第二文本向量的特征权重和所述第二关键词向量的特征权重;
基于所述第二文本向量的特征权重和所述第二关键词向量的特征权重,对所述第二文本向量和所述第二关键词向量进行融合得到所述第二素材特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一文本向量和所述第一关键词向量,分别确定所述第一文本向量的特征权重和所述第一关键词向量的特征权重,包括:
根据所述第一文本向量和所述第一关键词向量,通过门控网络分别确定所述第一文本向量的特征权重和所述第一关键词向量的特征权重;
所述根据所述第二文本向量和所述第二关键词向量,分别确定所述第二文本向量的特征权重和所述第二关键词向量的特征权重,包括:
根据所述第二文本向量和所述第二关键词向量,通过所述门控网络分别确定所述第二文本向量的特征权重和所述第二关键词向量的特征权重。
8.根据权利要求2所述的方法,其特征在于,所述第一素材包括第一图像,所述第二素材包括第二图像,所述对所述第一素材进行特征提取得到所述第一素材特征,包括:
对所述第一图像进行不同尺度的图像特征提取,得到多尺度的第一图像特征;
对所述多尺度的第一图像特征进行融合得到所述第一素材特征;
所述对所述第二素材进行特征提取得到所述第二素材特征,包括:
对所述第二图像进行不同尺度的图像特征提取,得到多尺度的第二图像特征;
对所述多尺度的第二图像特征进行融合得到所述第二素材特征。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述第一模板所包括的第一待定图像,以及获取所述第二模板所包括的第二待定图像;
将所述第一待定图像中图像尺寸满足尺寸条件的第一待定图像确定为所述第一图像,以及将所述第二待定图像中图像尺寸满足所述尺寸条件的第二待定图像确定为所述第二图像。
10.根据权利要求1-9中任一所述的方法,其特征在于,相关性分析模型包括特征提取层、融合层和输出层,所述特征提取层包括共享网络层、第一个性网络层和第二个性网络层,所述基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果,包括:
根据所述第一模板特征,通过所述第一个性网络层进行个性特征提取得到所述第一模板的个性特征,根据所述第二模板特征,通过所述第二个性网络层进行个性特征提取得到所述第二模板的个性特征,以及根据所述第一模板特征和所述第二模板特征,通过所述共享网络层进行共性特征提取得到所述第一模板和所述第二模板对应的共性特征;
通过所述融合层对所述第一模板的个性特征和所述共性特征进行融合得到所述第一模板的第一整体特征,以及通过所述融合层对所述第二模板的个性特征和所述共性特征进行融合得到所述第二模板的第二整体特征;
根据所述第一整体特征和所述第二整体特征,通过所述输出层对所述第一模板和所述第二模板进行相关性分析,输出所述相关性结果。
11.根据权利要求10所述的方法,其特征在于,所述相关性分析模型还包括全连接层,所述根据所述第一整体特征和所述第二整体特征,通过所述输出层对所述第一模板和所述第二模板进行相关性分析,输出所述相关性结果,包括:
通过所述全连接层对所述第一整体特征进行特征整合,得到所述第一整体特征对应的目标特征,以及通过所述全连接层对所述第二整体特征进行特征整合,得到所述第二整体特征对应的目标特征;所述第一整体特征对应的目标特征和所述第二整体特征对应的目标特征具有相同的特征维数;
根据所述第一整体特征对应的目标特征和所述第二整体特征对应的目标特征,通过所述输出层对所述第一模板和所述第二模板进行相关性分析,输出所述相关性结果。
12.根据权利要求10所述的方法,其特征在于,所述相关性分析模型通过如下方式获得:
获取多个训练样本对;所述多个训练样本对中的每个训练样本对包括一个第一样本模板和一个第二样本模板,所述每个训练样本对具有样本标签,所述样本标签用于标识所述每个训练样本对所包括的第一样本模板和第二样本模板之间的样本相关性结果;
分别确定所述每个训练样本对所包括的第一样本模板对应的第一样本模板特征,以及所述每个训练样本对所包括的第二样本模板对应的第二样本模板特征;
分别利用基于所述每个训练样本对确定出的第一样本模板特征和第二样本模板特征,对初始网络模型进行模型训练,直至满足模型训练结束条件,得到所述相关性分析模型;所述初始网络模型包括初始特征提取层、初始融合层和初始输出层,所述初始特征提取层包括初始共享网络层、第一初始个性网络层和第二初始个性网络层。
13.根据权利要求12所述的方法,其特征在于,所述获取多个训练样本对,包括以下至少一种:
获取多个第一待定样本模板,以及获取多个第二待定样本模板;
针对每个第一待定样本模板和每个第二待定样本模板,若确定所述第一待定样本模板的模板类型和所述第二待定样本模板的模板类型相同,根据所述第一待定样本模板和所述第二待定样本模板生成第一正训练样本对;所述第一正训练样本对的样本标签用于标识所述第一待定样本模板和所述第二待定样本模板之间的样本相关性结果为相关;
若确定所述第一待定样本模板的模板类型和所述第二待定样本模板的模板类型不同,根据所述第一待定样本模板和所述第二待定样本模板生成第一负训练样本对;所述第一负训练样本对的样本标签用于标识所述第一待定样本模板和所述第二待定样本模板之间的样本相关性结果为不相关;
根据所述第一正训练样本对和所述第一负训练样本对生成所述多个训练样本对;
或者,获取目标样本模板;
对所述目标样本模板进行噪声添加处理,得到所述目标样本模板对应的噪声样本模板;
若确定在所述噪声添加处理的过程中添加的噪声小于或等于噪声阈值,根据所述目标样本模板和所述噪声样本模板生成第二正训练样本对;所述第二正训练样本对的样本标签用于标识所述目标样本模板和所述噪声样本模板之间的样本相关性结果为相关;
若确定在所述噪声添加处理的过程中添加的噪声大于所述噪声阈值,根据所述目标样本模板和所述噪声样本模板生成第二负训练样本对;所述第二负训练样本对的样本标签用于标识所述目标样本模板和所述噪声样本模板之间的样本相关性结果为不相关;
根据所述第二正训练样本对和所述第二负训练样本对生成所述多个训练样本对。
14.根据权利要求1所述的方法,其特征在于,所述第一模板为待上线模板,所述获取第一模板的第一模板特征,包括:
获取所述待上线模板所包括的第一素材,以及获取所述第一素材在所述待上线模板中的第一布局信息;
对所述第一素材进行特征提取得到所述第一素材特征,以及对所述第一布局信息进行特征提取得到所述第一布局特征;
对所述第一素材特征和所述第一布局特征进行融合,得到所述待上线模板的第一模板特征;
所述获取第二模板特征,包括:
将模板特征库中包括的模板特征分别确定为所述第二模板特征;所述第二模板为所述模板特征库中包括的模板特征所属的模板。
15.根据权利要求14所述的方法,其特征在于,所述模板特征库中包括的模板特征数量为多个,不同模板特征所属的模板不同,所述方法还包括:
基于所述待上线模板分别和多个所述模板特征所属的模板之间的相关性结果,从多个所述模板特征所属的模板中筛选所述待上线模板对应的相似模板;
利用所述相似模板对所述待上线模板进行评估,得到评估结果。
16.一种数据处理装置,其特征在于,所述装置包括获取单元和分析单元:
所述获取单元,用于获取第一模板的第一模板特征,以及获取第二模板特征;所述第一模板特征是对所述第一模板的第一素材特征和所述第一模板的第一布局特征进行融合得到的,所述第二模板特征对应于第二模板,所述第二模板特征是对所述第二模板的第二素材特征和所述第二模板的第二布局特征进行融合得到的;
所述分析单元,用于基于所述第一模板特征和所述第二模板特征,对所述第一模板和所述第二模板进行相关性分析,得到相关性结果。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1-15任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被计算机设备运行时,使得所述计算机设备执行权利要求1-15任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-15任一项所述的方法。
CN202310835237.0A 2023-07-07 2023-07-07 一种数据处理方法和相关装置 Pending CN117093211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310835237.0A CN117093211A (zh) 2023-07-07 2023-07-07 一种数据处理方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310835237.0A CN117093211A (zh) 2023-07-07 2023-07-07 一种数据处理方法和相关装置

Publications (1)

Publication Number Publication Date
CN117093211A true CN117093211A (zh) 2023-11-21

Family

ID=88774184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310835237.0A Pending CN117093211A (zh) 2023-07-07 2023-07-07 一种数据处理方法和相关装置

Country Status (1)

Country Link
CN (1) CN117093211A (zh)

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111061946B (zh) 场景化内容推荐方法、装置、电子设备及存储介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
US20170344822A1 (en) Semantic representation of the content of an image
US11360927B1 (en) Architecture for predicting network access probability of data files accessible over a computer network
CN110362663B (zh) 自适应多感知相似度检测和解析
WO2021155691A1 (zh) 用户画像生成方法、装置、存储介质及设备
US20210279279A1 (en) Automated graph embedding recommendations based on extracted graph features
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
WO2024041483A1 (zh) 一种推荐方法及相关装置
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN115115049A (zh) 神经网络模型的训练方法、装置、设备、介质及程序产品
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN117725220A (zh) 文档表征和文档检索的方法、服务器及存储介质
WO2024021685A1 (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
CN116956117A (zh) 一种标签识别的方法、装置、设备、存储介质及程序产品
CN116976353A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN117009621A (zh) 信息搜索方法、装置、电子设备、存储介质及程序产品
US11501071B2 (en) Word and image relationships in combined vector space
CN117093211A (zh) 一种数据处理方法和相关装置
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
CN116541517A (zh) 文本信息处理方法、装置、设备、软件程序以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication