CN115270778B - 标题简化方法、装置、设备和存储介质 - Google Patents
标题简化方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN115270778B CN115270778B CN202211027968.4A CN202211027968A CN115270778B CN 115270778 B CN115270778 B CN 115270778B CN 202211027968 A CN202211027968 A CN 202211027968A CN 115270778 B CN115270778 B CN 115270778B
- Authority
- CN
- China
- Prior art keywords
- features
- title
- extraction module
- coding
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种标题简化方法、装置、电子设备和存储介质。所述方法包括:获取资源对象待简化的原始标题和资源对象的配图;对配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征配图语义的配图编码特征;获取表征原始标题语义的标题编码特征,并对标题编码特征和配图编码特征进行融合,得到语义编码特征;根据语义编码特征获取资源对象简化后的标题。本公开中,既可以获取能够准确表征配图语义的配图编码特征,又可以通过结合配图编码特征和标题编码特征所生成语义编码特征获取简化后的标题,确保在保留关键信息的同时将无关信息去除,提高标题简化准确率。
Description
技术领域
本公开涉及计算机技术,尤其涉及一种标题简化方法、装置、电子设备和存储介质。
背景技术
随着互联网发展,用户可以在网络平台上了解各种资源对象的信息,并发送相关的请求获取到指定的资源对象,例如从电子商务平台上获取资源对象。为使用户快速获取到资源对象的关键信息,可以通过多个关键词构建出用于介绍资源对象的标题,但是在标题字数有限的情况下,往往需要对原始标题进行精简。
在相关技术中,在对资源对象的原始标题进行精简时,为保留原始标题中的关键信息,可以获取资源对象的品牌信息和实体类型,然后再结合原始标题、品牌信息和实体类型获取简化后的标题。
然而,该方式虽然能够使精简后的标题保留原始标题中与资源对象的品牌信息和实体类型相关的关键信息,但是为增加资源对象的浏览量,原始标题中往往会包含一些与资源对象不相关的内容,上述方式难以准确判断原始标题中哪些是无关信息,因此,仍然存在标题简化准确率较低的问题。
发明内容
本公开提供一种标题简化方法、装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中标题简化准确率较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种标题简化方法,包括:
获取资源对象待简化的原始标题和所述资源对象的配图;
对所述配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;
获取表征所述原始标题语义的标题编码特征,并对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;
根据所述语义编码特征获取所述资源对象简化后的标题。
在其中一个实施例中,所述基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征,包括:
将多个图像块特征输入到训练好的图像编码网络;所述图像编码网络中包括多个具有不同模块参数的特征提取模块;
由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,并将所述配图特征作为多个图像块特征输入到所述图像编码网络中的下一特征提取模块,以触发将所述图像编码网络中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个图像块特征各自的自注意力权重的步骤,直到所述图像编码网络中的最后一个特征提取模块输出对应的图像块特征;
基于各所述特征提取模块输出的配图特征和各所述特征提取模块的模块权重,获取表征所述配图语义的配图编码特征。
在其中一个实施例中,所述由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,包括:
基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处理,得到输入的多个图像块特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
基于所述多个图像块特征对应的查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重;
基于所述各图像块特征的自注意力权重和所述多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征。
在其中一个实施例中,所述获取表征所述原始标题语义的标题编码特征,包括:
对所述原始标题进行分词处理,并获取所述原始标题中各个分词对应的分词特征;
基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征;每个分词的自注意力权重为基于所述分词与所述原始标题中的其他分词的关联度确定的权重。
在其中一个实施例中,所述基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征,包括:
将多个分词特征输入到训练好的文本处理网络,所述编码器中包括多个具有不同模块参数的特征提取模块;
由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,并将所述标题特征作为多个分词特征输入到所述编码器中的下一特征提取模块,以触发将所述编码器中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个分词特征各自的自注意力权重的步骤,直到所述编码器中的最后一个特征提取模块输出对应的分词特征;
基于所述编码器中各特征提取模块输出的标题特征和所述编码器中各特征提取模块的模块权重,获取表征所述原始标题语义的标题编码特征。
在其中一个实施例中,所述由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,包括:
基于当前的特征提取模块对应的第二变换矩阵对输入的多个分词特征进行变换处理,得到输入的多个分词特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
基于所述多个分词特征对应的查询特征矩阵和键特征矩阵,确定各分词特征的自注意力权重;
基于各分词特征的自注意力权重和所述多个分词特征对应的值特征矩阵,获取所述编码器当前的特征提取模块确定的标题特征。
在其中一个实施例中,所述文本处理网络还包括解码器,所述根据所述语义编码特征获取所述资源对象简化后的标题,包括:
将所述语义编码特征输入到所述训练好的文本处理网络的解码器,由所述解码器获取所述语义编码特征对应的解码结果;
基于所述解码结果得到所述资源对象简化后的标题。
在其中一个实施例中,在所述获取资源对象待简化的原始标题和所述资源对象的配图之前,还包括:
获取训练资源对象待简化的原始训练标题中各个分词对应的训练分词特征,以及,获取训练配图编码特征;所述训练配图编码特征用于表征所述训练资源对象的配图对应的语义;
将多个训练分词特征输入到预训练的文本处理网络,由所述预训练的文本处理网络中的编码器对所述多个训练分词特征进行编码,得到表征所述原始训练标题语义的训练标题编码特征;
对所述训练配图编码特征和所述训练标题编码特征进行融合,并将融合后的编码特征输入到所述预训练的文本处理网络的解码器,由所述解码器对所述融合后的编码特征解码,得到预测的简化标题;
基于所述预测的简化标题与所述训练资源对象的简化标题标签之间的差异,调整所述预训练的文本处理网络的模型参数,直到满足训练结束条件,得到训练好的文本处理网络。
根据本公开实施例的第二方面,提供一种标题简化装置,包括:
配图获取单元,被配置为执行获取资源对象待简化的原始标题和所述资源对象的配图;
配图编码特征获取单元,被配置为执行对所述配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;
语义编码特征获取单元,被配置为执行获取表征所述原始标题语义的标题编码特征,并对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;
简化标题获取单元,被配置为执行根据所述语义编码特征获取所述资源对象简化后的标题。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一项所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
上述标题简化方法、装置、电子设备、存储介质和计算机程序产品中,可以获取资源对象待简化的原始标题和资源对象的配图,对配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征配图语义的配图编码特征,以及,可以获取表征原始标题语义的标题编码特征,进而可以对标题编码特征和配图编码特征进行融合,得到语义编码特征,并根据语义编码特征获取资源对象简化后的标题。本公开的方案,一方面,可以对资源对象的配图进行分割,根据每个图像块特征及其自注意力权重,得到能够准确表征配图语义的配图编码特征,另一方面,通过结合配图编码特征和标题编码特征所生成语义编码特征获取简化后的标题,能够在简化标题的过程中结合多种模态的信息确定原始标题中的关键信息,有效提高原始标题中关键信息识别的准确性,从而确保在保留关键信息的同时将无关信息去除,提高标题简化准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种标题简化方法的流程图。
图2是根据一示例性实施例示出的一种配图编码特征获取步骤的流程图。
图3是根据一示例性实施例示出的一种图像编码网络中特征提取模块获取配图特征的步骤的流程图。
图4是根据一示例性实施例示出的一种标题编码特征获取步骤的流程图。
图5是根据一示例性实施例示出的一种文本处理网络编码器中特征提取模块获取配图特征的步骤的流程图。
图6是根据一示例性实施例示出的一种训练文本处理网络的步骤的流程图。
图7是根据一示例性实施例示出的一种标题简化装置的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
图1是根据一示例性实施例示出的一种标题简化方法的流程图,该标题简化方法可以应用于终端,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图1所示,本实施例中的标题简化方法可以包括以下步骤。
在步骤S110中,获取资源对象待简化的原始标题和所述资源对象的配图。
其中,资源对象可以是在平台上进行介绍和推广的资源对,例如电子商务平台中的资源对象,用户在选中一个或多个资源对象后,可以将对应数值的资源转移给平台,从而获取到选中的资源对象。
资源对象待简化的原始标题可以是提供资源对象的账户针对资源对象所设置的标题,原始标题可以包括用于介绍资源对象属性信息的内容,当然,也可以包括该资源对象以外的其他资源对象的属性信息,例如,原始标题可以仅包括资源对象A的属性信息,或者,在包括资源对象A的属性信息时,还包括有其他资源对象B的属性信息。其中,其他资源对象可以是与资源对象相互替代的资源对象,例如资源对象“茶”以及其他资源对象“咖啡”,其他资源对象也可以是与资源对象互相补充的资源对象,例如资源对象“乒乓球”以及其他资源对象“乒乓球拍”。
资源对象的配图可以是用于介绍资源对象属性信息的图像,配图的配图内容可以包括资源对象的一种或多种属性信息。实际应用中,除了通过标题这一文字方式介绍资源对象的属性信息以外,还可以借助图像直观明了地介绍资源对象的多种属性信息。本实施例中的配图可以是针对资源对象上传的配图,例如资源对象的海报或介绍页面;也可以是从针对资源对象上传的视频中截取的视频帧,例如可以借助现有的计算机视觉技术对资源对象的推广视频进行分析,根据分析结果从推广视频中截取出与资源对象相关联的一帧或多帧视频作为资源对象的配图。
示例性地,资源对象的属性信息可以包括但不限于以下至少一种:名称、颜色、形状、材质、尺寸、品牌、实体类型、型号、使用场景、适用对象。
在本步骤中,可以获取资源对象待简化的原始标题,以及,获取资源对象的配图。
在步骤S120中,对配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征配图语义的配图编码特征。
其中,每个图像块的自注意力权重为基于图像块与配图中的其他图像块的关联度确定的权重;每个图像块的自注意力权重可以是基于自注意力机制(self-attention)得到。具体而言,每个图像块的自注意力权重可以基于对该图像块的关注度确定,而应该施加的关注度则可以根据当前图像块与其他图像块的关联性确定;配图中可以包括多种图像内容,但是可能并非配图中的所有图像内容都与配图所要表达的语义或配图主体相关,例如与要介绍的资源对象无关的图像背景,因此,针对配图中不同区域的图像内容所施加的关注度可以存在差异,若图像块与配图中的多个图像块相关联,可以确定该图像块与配图整体要表达的语义关联性高,因此可以施加更多的关注,若图像块与配图中的多个图像块都不相关,可以确定该图像块与配图整体要表达的语义内容并不相关,因此可以施加更少的关注。
在具体实现中,在获取资源对象的配图后,可以对配图进行图像分割并得到多个图像块,在进行图像分割时,可以将配图分割为多个大小相等的图像块,例如根据配图的像素大小分割为N*N个图像块。在得到多个图像块后,可以获取每个图像块对应的图像块特征以及每个图像块的自注意力权重,其中,图像块特征可以是用于表征对应图像块内容的特征信息,示例性地,可以将每一个图像块映射为固定维度的向量,并将该向量作为图像块特征。
进而,可以根据各图像块对应的图像块特征及其自注意力权重,得到可以表征配图语义的配图编码特征,其中,配图编码特征可以表达配图中重点关注的图像内容所对应的语义。通过根据每个图像块的自注意力权重调整每个图像块的图像块特征,并得到最终的配图编码特征,能够弱化与配图内容关联性较差的图像块(如与配图中多个图像块关联度都较低的、包含噪声内容的图像块)对应的图像块特征,同时强化与配图内容关联性较强的图像块(如与配图中多个图像块关联度都较高的、能够表达配图语义或与配图内容主题息息相关的图像块)的图像块特征,使得最终得到的配图编码特征能够准确反映配图实际表达的语义。
在步骤S130中,获取表征原始标题语义的标题编码特征,并对标题编码特征和配图编码特征进行融合,得到语义编码特征。
实际应用中,还可以对原始标题进行编码,得到原始标题的标题编码特征,该标题编码特征可以表征原始标题的语义。进而可以对已获取的标题编码特征和配图编码特征进行融合并得到语义编码特征,由此,可以根据来自不同模态的信息的编码特征获取到语义编码特征,即来自图像的配图编码特征和来自文本的标题编码特征共同构成了语义编码特征,实现了多模态信息的融合。
例如,若配图编码特征为Pi={p1,p2,…,pm},而标题编码特征为Tj={t1,t2,…,tn},可以将配图编码特征与标题编码特征进行拼接,得到Fk={t1,t2,…,tn,p1,p2,…,pm},该拼接后的编码特征则可以作为融合后得到的语义编码特征。
在步骤S140中,根据语义编码特征获取资源对象简化后的标题。
在获取到语义编码特征后,则可以根据特征融合后的语义编码特征获取资源对象简化后的标题,具体例如,可以对语义编码特征进行解码,并将解码结果作为资源对象简化后的标题。在本实施例中,通过同时根据语义编码特征中的配图编码特征和标题编码特征生成资源对象简化的标题,能够将资源对象配图的语义内容作为辅助信息,确定原始标题中关键的语义内容,也即可以使用一种模态下的信息(资源对象的配图)所对应的编码特征对另一模态下的信息(原始标题)所对应的编码特征进行印证、校验或补充,利用多种模态的信息对原始标题简化,从而在简化标题时确保将原始标题中的关键信息保留,同时将原始标题中的无关信息去除。相较于仅仅基于文本信息简化原始标题的方式,本实施例结合多种模态信息的标题简化方式能够有效提高最终得到的简化标题的准确性,使简化后的标题与资源对象适配。
上述标题简化方法中,可以获取资源对象待简化的原始标题和资源对象的配图,对配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征配图语义的配图编码特征,以及,可以获取表征原始标题语义的标题编码特征,进而可以对标题编码特征和配图编码特征进行融合,得到语义编码特征,并根据语义编码特征获取资源对象简化后的标题。本公开中,一方面,可以对资源对象的配图进行分割,根据每个图像块特征及其自注意力权重,得到能够准确表征配图语义的配图编码特征,另一方面,通过结合配图编码特征和标题编码特征所生成语义编码特征获取简化后的标题,能够在简化标题的过程中结合多种模态的信息确定原始标题中的关键信息,有效提高原始标题中关键信息识别的准确性,从而确保在保留关键信息的同时将无关信息去除,提高标题简化准确率。
在一示例性实施例中,如图2所示,在步骤S120中,基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征配图语义的配图编码特征,可以包括如下步骤:
在步骤S210中,将多个图像块特征输入到训练好的图像编码网络。
在步骤S220中,由图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,并将配图特征作为多个图像块特征输入到图像编码网络中的下一特征提取模块,以触发将图像编码网络中的下一特征提取模块作为当前的特征提取模块,返回执行获取输入的多个图像块特征各自的自注意力权重的步骤,直到图像编码网络中的最后一个特征提取模块输出对应的图像块特征。
其中,图像编码网络中当前的特征提取模块是图像编码网络中的每一特征提取模块。
具体实现中,可以预先训练图像编码网络,图像编码网络可以包括多个具有不同模块参数的特征提取模块,其中,多个特征提取模块可以分别对应于不同的子空间,可用于捕捉图像不同的特征。
在获取到多个图像块各自的图像块特征后,可以将获取到的多个图像块特征一起输入到图像编码网络,由图像编码网络中的多个特征提取模块依次对输入的多个图像块特征进行处理。具体地,图像编码网络中当前的特征提取模块在获取到输入的多个图像块特征后,可以获取多个图像块特征各自的自注意力权重,并由当前的特征提取模块基于多个图像块特征各自的自注意力权重以及输入的多个图像块特征确定配图特征,该配图特征可以理解为是由当前的特征提取模块所确定出的用于表征配图语义的特征。其中,配图特征的个数以及特征维度可以与输入的多个图像块特征的个数以及特征维度相同,则当前的特征提取模块在获取到配图特征后,可以将其作为多个图像块特征输入到图像编码网络中的下一特征提取模块,进而可以触发将图像编码网络中的下一特征提取模块作为当前的特征提取模块,返回执行获取输入的多个图像特征各自的自注意力权重的步骤,直到图像编码网络中的最后一个特征提取模块输出对应的图像特征。
在步骤S230中,基于各特征提取模块输出的配图特征和各特征提取模块的模块权重,获取表征配图语义的配图编码特征。
作为一示例,多个特征提取模块的模块权重可以构成权重矩阵。
图像编码网络中的每个特征提取模块在依次执行上述过程后,可以确定出每个特征提取模块所确定的配图特征,进而可以基于各特征提取模块输出的配图特征和各特征提取模块的模块权重,获取表征配图语义的配图编码特征。示例性地,可以根据如下所示的公式得到配图编码特征:
MultiHead(Q1,K1,V1)=Concat(headp1,...headph)WPO.
其中,MultiHead(Q1,K1,V1)为图像编码网络输出的配图编码特征,geadph为图像编码网络中第h个特征提取模块确定的配图特征,WPO为多个特征提取模块的模块权重构成的权重矩阵,Concat表示将多个特征提取模块输出的配图特征进行融合。
在本实施例中,可以由多个特征提取模块获取输入到特征提取模块中的多个图像块特征确定对应的配图特征,并基于各特征提取模块输出的配图特征和各特征提取模块的模块权重,获取表征配图语义的配图编码特征,能够使图像编码网络多角度地从配图中获取配图特征,丰富最终输出的配图编码特征所表征的图像语义。
在一示例性实施例中,如图3所示,在步骤S220中,由图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,可以包括如下步骤:
在步骤S310中,基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处理,得到输入的多个图像块特征对应的查询特征矩阵、键特征矩阵和值特征矩阵。
在实际应用中,训练好的图像编码网络中的每个特征提取模块,都可以具有一个对应的第一变换矩阵,当图像编码网络中当前的特征提取模块获取到输入的多个图像块特征后,可以采用第一变换矩阵对输入的多个图像块特征进行变换处理,得到多个图像块特征对应的查询特征矩阵(Q1)、键特征矩阵(K1)和值特征矩阵(V1)。
其中,第一变换矩阵可用于对输入的多个图像块特征进行线性变换,当前第i个特征提取模块的第一变换矩阵可以包括用于获取查询特征矩阵的变换矩阵用于获取键特征矩阵的变换矩阵/>以及用于获取值特征矩阵的/>输入的多个图像块特征可以构成图像块特征矩阵,通过三个变换矩阵分别对输入图像块特征矩阵进行线性变换后,当前的特征提取模块可以分别得到对应的查询特征矩阵/>键特征矩阵/>和值特征矩阵/>
在步骤S320中,基于多个图像块特征对应的查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重。
在获取到多个图像块特征对应的查询特征矩阵和键特征矩阵后,则可以结合查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重。在一示例中,可以通过如下公式获取多个图像块特征的自注意力权重H1:
其中,softmax为归一化函数,dK1为键特征矩阵的维度大小,H1可以是多个图像块特征的自注意力权重构成的矩阵。
在步骤S330中,基于各图像块特征的自注意力权重和多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征。
在获取到多个图像块特征的自注意力权重后,可以基于各图像块特征的自注意力权重和多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征,例如,如下公式所示,可以将多个图像块特征的自注意力权重构成的矩阵与值特征矩阵相乘,基于该矩阵相乘的结果得到当前特征提取模块确定的配图特征。
在本实施例中,可以基于各图像块特征的自注意力权重和多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征,从而每个特征提取模块在获取表征配图语义的配图特征时可以针对不同的图像块施加不同的关注,提高获取的配图特征所表征的语义准确度。
在一示例性实施例中,在步骤S130中,获取表征原始标题语义的标题编码特征,可以包括如下步骤:
对原始标题进行分词处理,并获取原始标题中各个分词对应的分词特征;基于各个分词的分词特征和各个分词的自注意力权重,获取表征原始标题语义的标题编码特征。
其中,每个分词的自注意力权重为基于分词与原始标题中的各分词的关联度确定的权重;每个分词的自注意力权重可以基于对该分词的关注度确定,而应该施加的关注度则可以根据当前分词与原始标题中其他分词的关联性确定。
实际应用中,出于多种原因,例如为了增加资源对象的浏览量,提供资源对象的账户在设置资源对象的原始标题时,其中可能包含了与资源对象无关的无关信息,当其他账户以该无关信息进行搜索时,则有可能浏览到该资源对象,因此,原始标题中可以包括多个分词,但是可能并非所有分词内容都与资源对象相关,例如原始标题中可能包含其他资源对象的属性信息,因此,针对原始标题中不同分词所施加的关注度可以存在差异,若分词与原始标题中的多个分词相关联,可以确定该分词与资源对象的关联性高,因此可以施加更多的关注,若分词与原始标题中的多个分词都不相关,可以确定该分词为不相关信息或弱相关信息,因此可以施加更少的关注。
在本步骤中,在获取到原始标题后,可以对原始标题进行分词处理,得到原始标题的多个分词,例如,若原始标题为中文,则可以以单个中文汉字为单位进行分词,将分割后得到的多个字作为分词结果。在获取到原始标题的多个分词后,可以获取每个分词的分词特征,其中,分词特征可以是表征该分词的特征,例如,可以获取分词的嵌入(embedding)向量作为分词特征,或者也可以获取分词的One-hot编码作为分词特征。在确定多个分词各自的分词特征后,可以获取各个分词的自注意力权重,并基于各个分词的分词特征和各个分词的自注意力权重,获取表征原始标题语义的标题编码特征。
在本实施例中,可以基于各个分词的分词特征和各个分词的自注意力权重,获取表征原始标题语义的标题编码特征,使得最终获取到的标题编码特征可以表达出与资源对象相关的分词的语义内容,而避免将无关信息的语义内容引入。
在一示例性实施例中,如图4所示,基于各个分词的分词特征和各个分词的自注意力权重,获取表征原始标题语义的标题编码特征,可以包括如下步骤:
在步骤S410中,将多个分词特征输入到训练好的文本处理网络。
在步骤S420中,由文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,并将标题特征作为多个分词特征输入到编码器中的下一特征提取模块,以触发将编码器中的下一特征提取模块作为当前的特征提取模块,返回执行获取输入的多个分词特征各自的自注意力权重的步骤,直到编码器中的最后一个特征提取模块输出对应的分词特征。
其中,文本处理网络编码器中当前的特征提取模块可以是编码器中的每一特征提取模块。
实际应用中,可以预先训练文本处理网络,文本处理网络可以包括编码器,该编码器可以包括多个具有不同模块参数的特征提取模块,多个特征提取模块可以分别对应于不同的子空间,可用于捕捉分词不同的特征。
在获取到多个分词各自的分词特征后,可以将获取到的多个分词特征一起输入到文本处理网络的编码器,由编码器中的多个特征提取模块依次对输入的多个分词特征进行处理。
具体地,编码器中当前的特征提取模块在获取到输入的多个分词特征后,可以获取多个分词特征各自的自注意力权重,并由当前的特征提取模块基于多个分词特征各自的自注意力权重以及输入的多个分词特征确定标题特征,该标题特征可以理解为是由当前的特征提取模块所确定出的用于表征原始标题语义的特征。其中,标题特征的个数以及特征维度可以与输入的多个分词特征的个数以及特征维度相同,则当前的特征提取模块在获取到标题特征后,可以将其作为多个分词特征输入到编码器中的下一特征提取模块,进而可以触发将编码器中的下一特征提取模块作为当前的特征提取模块,返回执行获取输入的多个分词特征各自的自注意力权重的步骤,直到编码器中的最后一个特征提取模块输出对应的分词特征。
在步骤S420中,基于编码器中各特征提取模块输出的标题特征和编码器中各特征提取模块的模块权重,获取表征原始标题语义的标题编码特征。
作为一示例,多个特征提取模块的模块权重可以构成权重矩阵。
编码器中的每个特征提取模块在依次执行上述过程后,可以确定出编码器中每个特征提取模块所确定的标题特征,进而可以基于各特征提取模块输出的标题特征和编码器中各特征提取模块的模块权重,获取表征原始标题语义的标题编码特征,并且,该标题编码特征可以是表征原始标题中,与资源对象相关信息的语义的特征。示例性地,可以根据如下所示的公式得到标题编码特征:
MultiHead(Q2,K2,V2)=Concat(headt1,...,headth)WTO
其中,MultiHead(Q2,K2,V2)为编码器输出的标题编码特征,headth为编码器中第h个特征提取模块确定的标题特征,WTO为多个特征提取模块的模块权重构成的权重矩阵,Concat表示将多个特征提取模块输出的标题特征进行融合。
在本实施例中,可以由多个特征提取模块获取输入到特征提取模块中的多个分词特征确定对应的标题特征,并基于各特征提取模块输出的标题特征和各特征提取模块的模块权重,获取表征原始标题语义的标题编码特征,能够使编码器多角度地从原始标题中获取标题特征,丰富最终输出的标题编码特征所表征的文本语义。
在一示例性实施例中,如图5所示,在步骤S420中,由文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,可以包括如下步骤:
在步骤S510中,基于当前的特征提取模块对应的第二变换矩阵对输入的多个分词特征进行变换处理,得到输入的多个分词特征对应的查询特征矩阵、键特征矩阵和值特征矩阵。
在实际应用中,训练好的编码器中的每个特征提取模块,都可以具有一个对应的第二变换矩阵,当编码器中当前的特征提取模块获取到输入的多个分词特征后,可以采用第二变换矩阵对输入的多个分词特征进行变换处理,得到多个分词特征对应的查询特征矩阵(Q2)、键特征矩阵(K2)和值特征矩阵(V2)。
其中,第二变换矩阵可用于对输入的多个分词特征进行线性变换,编码器中当前第i个特征提取模块的第二变换矩阵可以包括用于获取查询特征矩阵的变换矩阵用于获取键特征矩阵的变换矩阵/>以及用于获取值特征矩阵的/>输入的多个分词特征可以构成分词特征矩阵,通过三个变换矩阵分别对输入分词特征矩阵进行线性变换后,当前的特征提取模块可以分别得到对应的查询特征矩阵/>键特征矩矩阵/>和值特征矩阵/>
在步骤S520中,基于多个分词特征对应的查询特征矩阵和键特征矩阵,确定各分词特征的自注意力权重。
在获取到多个分词特征对应的查询特征矩阵和键特征矩阵后,则可以结合查询特征矩阵和键特征矩阵,确定各分词特征的自注意力权重。在一示例中,可以通过如下公式获取多个分词特征的自注意力权重H2:
其中,softmax归一化函数,dK2为键特征矩阵的维度大小,H2可以是多个分词特征的自注意力权重构成的矩阵。
在步骤S530中,基于各分词特征的自注意力权重和多个分词特征对应的值特征矩阵,获取编码器当前的特征提取模块确定的标题特征。
在获取到多个分词特征的自注意力权重后,可以基于各分词特征的自注意力权重和多个分词特征对应的值特征矩阵,获取当前的特征提取模块确定的标题特征,例如,如下公式所示,可以将多个分词特征的自注意力权重构成的矩阵与值特征矩阵相乘,基于该矩阵相乘的结果得到当前特征提取模块确定的配图特征。
在本实施例中,可以基于各分词特征的自注意力权重和多个分词特征对应的值特征矩阵,获取编码器当前特征提取模块确定的标题特征,从而每个特征提取模块在获取表征原始标题语义的标题特征时可以针对不同的分词施加不同的关注,提高获取的标题特征所表征的语义与资源对象的关联性。
在一示例性实施例中,文本处理网络还可以包括解码器,在步骤S140中,根据语义编码特征获取资源对象简化后的标题,可以包括:
将语义编码特征输入到训练好的文本处理网络的解码器,由解码器获取语义编码特征对应的解码结果;基于解码结果得到资源对象简化后的标题。
具体实现中,在获取到语义编码特征后,可以将语义编码特征输入到同一文本处理网络中的解码器,由解码器对语义编码特征进行解码,得到解码结果,并将该解码结果确定为资源对象简化后的标题。其中,该解码结果可以是语言种类与原始标题相同的、字数减少后的文本信息,解码结果对应的字数可以根据实际情况设定,从而可以将原始标题的字数限制在预设字数内。
在本实施例中,可以由同一文本处理网络中的解码器器获取语义编码特征对应的解码结果,基于解码结果得到资源对象简化后的标题,从而可以将语义编码特征再次还原为文本模态的信息,得到简化标题。
在一示例性实施例中,如图6所示,在步骤S110之前,所述方法还可以包括如下步骤:
在步骤S610中,获取训练资源对象待简化的原始训练标题中各个分词对应的训练分词特征,以及,获取训练配图编码特征。
其中,训练配图编码特征用于表征训练资源对象的配图对应的语义;训练资源对象可以是在平台上进行介绍和推广的资源对象,例如电子商务平台中的资源对象。
具体实现中,可以获取用于训练模型的训练资源对象以及训练资源对象的原始训练标题,原始训练标题可以是提供训练资源对象的账户针对资源对象所设置的标题,原始训练标题可以包括用于介绍资源对象属性信息的内容,也可以包括该训练资源对象以外的其他资源对象的属性信息。在获取到原始训练标题后,可以对原始训练标题进行分词处理并得到原始训练标题的多个分词,进而可以获取原始训练标题每个分词对应的特征,得到训练分词特征。
并且,还可以获取训练资源对象的配图所对应的训练配图编码,在一示例中,训练配图编码可以通过训练好的图像编码网络对训练资源对象的配图进行处理后得到。
在步骤S620中,将多个训练分词特征输入到预训练的文本处理网络,由预训练的文本处理网络中的编码器对多个训练分词特征进行编码,得到表征原始训练标题语义的训练标题编码特征。
作为一示例,预训练的文本处理网络可以是预训练模型Bart。
在获取到多个训练分词后,可以将训练分词特征输入到预训练的文本处理网络,由预训练的文本处理网络中的编码器对多个训练分词特征进行编码处理,得到表征原始训练标题语义的训练标题编码特征。以预训练的文本处理网络为预训练模型Bart作为示例,多个训练分词特征在输入到预训练模型Bart后,在由预训练模型Bart的6层编码器中的特征提取模块依次对输入的训练分词特征进行处理后,Bart的编码器可以输出训练标题编码特征。
在步骤S630中,对训练配图编码特征和训练标题编码特征进行融合,并将融合后的编码特征输入到预训练的文本处理网络的解码器,由解码器对所述融合后的编码特征解码,得到预测的简化标题。
在获取到训练配图编码特征后,可以将训练配图编码特征和训练标题编码特征融合,例如将两个特征拼接,进而可以将融合后的编码特征输入到预训练的文本处理网络的解码器,由解码器对融合后的编码特征进行解码,得到预测的简化标题。例如,可以将融合后的编码特征输入到Bart模型,由预训练模型Bart的6层解码器中的特征提取模块依次对输入的特征进行处理,通过自回归的方式得到解码结果,并将该解码结果作为预测的简化标题。
在步骤S640中,基于预测的简化标题与训练资源对象的简化标题标签之间的差异,调整预训练的文本处理网络的模型参数,直到满足训练结束条件,得到训练好的文本处理网络。
作为一示例,简化标题标前可以是人工对原始训练标题进行简化后的标题。
在获取到预测简化标题后,可以获取针对训练资源对象预先设置的简化标题标签,并确定预测的简化标题与训练资源对象的简化标题标签之间的差异,进而可以根据该差异调整预训练的文本处理网络的模型参数,直到满足训练结束条件,得到训练好的文本处理网络。
在本实施例中,通过对预训练的文本处理网络进行训练,可以获取得到能够生成简化标题的文本处理网络,提高网络训练效率。
为了使本领域技术人员能够更好地理解上述步骤,以下通过一个例子对本公开实施例加以示例性说明,但应当理解的是,本公开实施例并不限于此。
具体地,可以预先获取图像编码网络以及文本处理网络,例如,可以获取平台中多个训练资源对象及其原始训练标题,对预训练模型Bart的编码器和解码器进行训练,得到训练好的文本处理网络;同时,可以获取预训练模型ViT(Vision Transformer),并对其进行训练,得到图像编码网络。当然,在另外一些示例中,也可以使用其他模型,例如文本处理网络可以采用T5预训练模型进行训练,而图像编码网络可以是CLIP模型的图像编码器。
在得到训练好的图像编码网络和文本处理网络后,可以基于该图像编码网络和文本处理网络组成标题简化模型,该标题简化模型也可以称为多模态模型,标题简化模型可以基于与资源对象关联的两种不同模态的信息,即图像信息和文本信息,对资源对象的原始标题进行简化。具体而言,当接收到针对资源对象的原始标题的简化请求后,可以获取资源对象的配图以及原始标题,并将该配图和原始标题输入到标题简化模型中,标题简化模型在接收到原始标题和配图后,一方面,可以对该配图进行图像分割,获取分割后每个图像块的图像块特征,并将多个图像块的图像块特征输入到图像编码网络,通过图像编码网络中的多头自注意力机制,获取到配图编码特征Pi={p1,p2,…,pm};而另一方面,可以对原始标题进行分词,获取各个分词的分词特征后,可以输入到文本处理网络,通过文本处理网络中编码器的多头自注意力机制获取原始标题的标题编码特征Tj={t1,t2,…,tn}。
然后,可以对标题编码特征和配图编码特征进行融合,得到语义编码特征,并将语义编码特征输入到文本处理网络中的解码器,该解码器中包含经过自注意力处理的多个跨自注意力层。在解码器对语义编码特征进行解码后,可以根据解码结果得到资源对象简化后的标题。
通过结合资源对象的配图简化资源对象的原始标题,能够有效提升简化效果。表1示出了引入图像信息和不引入图像信息(仅使用文本信息)的情况下的标题简化指标,可以看到在引入图像信息的情况下,简化指标均得到提升。
表1
其中,Rouge指标的全称为Recall-Oriented Understudy for GistingEvaluation,是可以评估摘要自动生成效果的一组指标,其主要基于召回率(recall)确定。具体而言,Rouge指标可以包括Rouge-N和Rouge-L,Rouge-N可以统计N-gram上的召回率,并确定对应的Rouge-N结果,在N取不同值的情况下,则可以得到多种指标,例如在N取1以及N取2的情况下,则可以得到Rouge-1和Rouge-2的指标结果;而Rouge-L是考虑了自动生成的摘要和参考摘要之间的最长公共子序列的指标结果。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的标题简化方法的标题简化装置。
图7是根据一示例性实施例示出的一种标题简化装置框图。参照图7,该装置包括配图获取单元701,配图编码特征获取单元702,语义编码特征获取单元703和简化标题获取单元704。
配图获取单元701,被配置为执行获取资源对象待简化的原始标题和所述资源对象的配图;
配图编码特征获取单元702,被配置为执行对所述配图进行图像分割,并基于分割后得到的各个图像块对应的图像块特征以及各个图像块的自注意力权重,获取表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;
语义编码特征获取单元703,被配置为执行获取表征所述原始标题语义的标题编码特征,并对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;
简化标题获取单元704,被配置为执行根据所述语义编码特征获取所述资源对象简化后的标题。
在一示例性实施例中,所述配图编码特征获取单元702,包括:
图像块特征输入模块,被配置为执行将多个图像块特征输入到训练好的图像编码网络;所述图像编码网络中包括多个具有不同模块参数的特征提取模块;
配图特征提取模块,被配置为执行由所述图像编码网络中当前的特征提取模块获取输入的多个图像块特征各自的自注意力权重,基于所述多个图像块特征各自的自注意力权重和输入的多个图像块特征确定对应的配图特征,并将所述配图特征作为多个图像块特征输入到所述图像编码网络中的下一特征提取模块,以触发将所述图像编码网络中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个图像块特征各自的自注意力权重的步骤,直到所述图像编码网络中的最后一个特征提取模块输出对应的图像块特征;
图像特征编码模块,被配置为执行基于各所述特征提取模块输出的配图特征和各所述特征提取模块的模块权重,获取表征所述配图语义的配图编码特征。
在一示例性实施例中,所述配图特征提取模块,被配置为执行:
基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处理,得到输入的多个图像块特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
基于所述多个图像块特征对应的查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重;
基于所述各图像块特征的自注意力权重和所述多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征。
在一示例性实施例中,所述语义编码特征获取单元703,包括:
分词模块,被配置为执行对所述原始标题进行分词处理,并获取所述原始标题中各个分词对应的分词特征;
标题编码特征获取模块,被配置为执行基于所述各个分词的分词特征和各个分词的自注意力权重,获取表征所述原始标题语义的标题编码特征;每个分词的自注意力权重为基于所述分词与所述原始标题中的其他分词的关联度确定的权重。
在一示例性实施例中,所述标题编码特征获取模块,包括:
分词特征输入模块,被配置为执行将多个分词特征输入到训练好的文本处理网络的编码器,所述编码器中包括多个具有不同模块参数的特征提取模块;
标题特征提取模块,被配置为执行由所述文本处理网络编码器中当前的特征提取模块获取输入的多个分词特征各自的自注意力权重,基于所述多个分词特征各自的自注意力权重和输入的多个分词特征确定对应的标题特征,并将所述标题特征作为多个分词特征输入到所述编码器中的下一特征提取模块,以触发将所述编码器中的下一特征提取模块作为当前的特征提取模块,返回执行所述获取输入的多个分词特征各自的自注意力权重的步骤,直到所述编码器中的最后一个特征提取模块输出对应的分词特征;
文本特征编码模块,被配置为执行基于所述编码器中各特征提取模块输出的标题特征和所述编码器中各特征提取模块的模块权重,获取表征所述原始标题语义的标题编码特征。
在一示例性实施例中,所述标题特征提取模块,被配置为执行:
基于当前的特征提取模块对应的第二变换矩阵对输入的多个分词特征进行变换处理,得到输入的多个分词特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
基于所述多个分词特征对应的查询特征矩阵和键特征矩阵,确定各分词特征的自注意力权重;
基于各分词特征的自注意力权重和所述多个分词特征对应的值特征矩阵,获取所述编码器当前的特征提取模块确定的标题特征。
在一示例性实施例中,所述文本处理网络还包括解码器,所述简化标题获取单元704,被配置为执行:
将所述语义编码特征输入到所述训练好的文本处理网络的解码器,由所述解码器获取所述语义编码特征对应的解码结果;
基于所述解码结果得到所述资源对象简化后的标题。
在一示例性实施例中,所述装置还包括:
训练配图编码特征获取单元,被配置为执行获取训练资源对象待简化的原始训练标题中各个分词对应的训练分词特征,以及,获取训练配图编码特征;所述训练配图编码特征用于表征所述训练资源对象的配图对应的语义;
训练特征输入单元,被配置为执行将多个训练分词特征输入到预训练的文本处理网络,由所述预训练的文本处理网络中的编码器对所述多个训练分词特征进行编码,得到表征所述原始训练标题语义的训练标题编码特征;
预测简化标题获取单元,被配置为执行对所述训练配图编码特征和所述训练标题编码特征进行融合,并将融合后的编码特征输入到所述预训练的文本处理网络的解码器,由所述解码器对所述融合后的编码特征解码,得到预测的简化标题;
网络参数调整单元,被配置为执行基于所述预测的简化标题与所述训练资源对象的简化标题标签之间的差异,调整所述预训练的文本处理网络的模型参数,直到满足训练结束条件,得到训练好的文本处理网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
上述标题简化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图8是根据一示例性实施例示出的一种用于实现一种标题简化方法的电子设备800的框图。例如,电子设备800可以为服务器。参照图8,电子设备800包括处理组件820,其进一步包括一个或多个处理器,以及由存储器822所代表的存储器资源,用于存储可由处理组件820的执行的指令,例如应用程序。存储器822中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件820被配置为执行指令,以执行上述方法。
电子设备800还可以包括:电源组件824被配置为执行电子设备800的电源管理,有线或无线网络接口826被配置为将电子设备800连接到网络,和输入输出(I/O)接口828。电子设备800可以操作基于存储在存储器822的操作系统,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器822,上述指令可由电子设备800的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质,例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备800的处理器执行以完成上述方法。
需要说明的,上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种标题简化方法,其特征在于,包括:
获取资源对象待简化的原始标题,以及所述资源对象的配图;所述配图用于表征所述资源对象的至少一种属性信息,所述配图根据所述资源对象的海报、介绍页面和视频中的至少一种得到;
对所述配图进行图像分割,并将分割得到的多个图像块各自对应的图像块特征输入到图像编码网络,由所述图像编码网络基于每个特征提取模块的第一变换矩阵对输入到每个特征提取模块的多个图像块特征进行变换处理,根据变换处理结果确定所述多个图像块特征各自的自注意力权重,根据所述变换处理结果和所述自注意力权重确定每个特征提取模块输出的配图特征,并根据各特征提取模块输出的配图特征确定表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;
获取所述原始标题多个分词各自对应的分词特征,并将多个分词特征输入到编码器,由所述编码器基于每个特征提取模块的第二变换矩阵对输入到每个特征提取模块的多个分词特征进行变换处理,根据变换处理结果确定所述多个分词特征各自的自注意力权重,根据所述变换处理结果和所述自注意力权重确定每个特征提取模块输出的标题特征,并根据各特征提取模块输出的分词特征确定表征所述原始标题语义的标题编码特征;
对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;
将所述语义编码特征输入到预先训练好的文本处理网络的解码器,根据所述解码器输出的解码结果,得到所述资源对象简化后的标题,所述简化后的标题中被保留的至少部分标题内容,是基于所述配图表征的所述资源对象的属性信息确定的。
2.根据权利要求1所述的方法,其特征在于,所述将分割得到的多个图像块各自对应的图像块特征输入到图像编码网络,由所述图像编码网络基于每个特征提取模块的第一变换矩阵对输入到每个特征提取模块的多个图像块特征进行变换处理,根据变换处理结果确定所述多个图像块特征各自的自注意力权重,根据所述变换处理结果和所述自注意力权重确定每个特征提取模块输出的配图特征,并根据各特征提取模块输出的配图特征确定表征所述配图语义的配图编码特征,包括:
将多个图像块特征输入到训练好的图像编码网络;所述图像编码网络中包括多个具有不同模块参数的特征提取模块;
由所述图像编码网络基于当前的特征提取模块的第一变换矩阵,对输入到当前的特征提取模块多个图像块特征进行变换处理,根据变换处理结果确定所述多个图像块各自的自注意力权重,基于所述变换处理结果和所述自注意力权重确定对应的配图特征,并将所述配图特征作为多个图像块特征输入到所述图像编码网络中的下一特征提取模块,以触发将所述图像编码网络中的下一特征提取模块作为当前的特征提取模块,直到所述图像编码网络中的最后一个特征提取模块输出对应的配图特征;
基于各所述特征提取模块输出的配图特征和各所述特征提取模块的模块权重,获取表征所述配图语义的配图编码特征。
3.根据权利要求2所述的方法,其特征在于,所述对输入到当前的特征提取模块多个图像块特征进行变换处理,根据变换处理结果确定所述多个图像块各自的自注意力权重,基于所述变换处理结果和所述自注意力权重确定对应的配图特征,包括:
基于当前的特征提取模块对应的第一变换矩阵对输入的多个图像块特征进行变换处理,得到输入的多个图像块特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
基于所述多个图像块特征对应的查询特征矩阵和键特征矩阵,确定各图像块特征的自注意力权重;
基于所述各图像块特征的自注意力权重和所述多个图像块特征对应的值特征矩阵,获取当前的特征提取模块确定的配图特征。
4.根据权利要求1所述的方法,其特征在于,所述获取所述原始标题多个分词各自对应的分词特征,包括:
对所述原始标题进行分词处理,并获取所述原始标题中各个分词对应的分词特征。
5.根据权利要求1所述的方法,其特征在于,所述将多个分词特征输入到编码器,由所述编码器基于每个特征提取模块的第二变换矩阵对输入到每个特征提取模块的多个分词特征进行变换处理,根据变换处理结果确定所述多个分词特征各自的自注意力权重,根据所述变换处理结果和所述自注意力权重确定每个特征提取模块输出的标题特征,并根据各特征提取模块输出的分词特征确定表征所述原始标题语义的标题编码特征,包括:
将多个分词特征输入到训练好的文本处理网络的编码器,所述编码器中包括多个具有不同模块参数的特征提取模块;
由所述文本处理网络编码器基于当前的特征提取模块的第二变换矩阵,对输入到当前的特征提取模块的多个分词特征进行变换处理,根据变换处理结果确定所述多个分词特征各自的自注意力权重,基于所述变换处理结果和所述自注意力权重确定对应的标题特征,并将所述标题特征作为多个分词特征输入到所述编码器中的下一特征提取模块,以触发将所述编码器中的下一特征提取模块作为当前的特征提取模块,直到所述编码器中的最后一个特征提取模块输出对应的标题特征;
基于所述编码器中各特征提取模块输出的标题特征和所述编码器中各特征提取模块的模块权重,获取表征所述原始标题语义的标题编码特征。
6.根据权利要求5所述的方法,其特征在于,所述对输入到当前的特征提取模块的多个分词特征进行变换处理,根据变换处理结果确定所述多个分词特征各自的自注意力权重,基于所述变换处理结果和所述自注意力权重确定对应的标题特征,包括:
基于当前的特征提取模块对应的第二变换矩阵对输入的多个分词特征进行变换处理,得到输入的多个分词特征对应的查询特征矩阵、键特征矩阵和值特征矩阵;
基于所述多个分词特征对应的查询特征矩阵和键特征矩阵,确定各分词特征的自注意力权重;
基于各分词特征的自注意力权重和所述多个分词特征对应的值特征矩阵,获取所述编码器当前的特征提取模块确定的标题特征。
7.根据权利要求5所述的方法,其特征在于,在所述获取资源对象待简化的原始标题和所述资源对象的配图之前,还包括:
获取训练资源对象待简化的原始训练标题中各个分词对应的训练分词特征,以及,获取训练配图编码特征;所述训练配图编码特征用于表征所述训练资源对象的配图对应的语义;
将多个训练分词特征输入到预训练的文本处理网络,由所述预训练的文本处理网络中的编码器对所述多个训练分词特征进行编码,得到表征所述原始训练标题语义的训练标题编码特征;
对所述训练配图编码特征和所述训练标题编码特征进行融合,并将融合后的编码特征输入到所述预训练的文本处理网络的解码器,由所述解码器对所述融合后的编码特征解码,得到预测的简化标题;
基于所述预测的简化标题与所述训练资源对象的简化标题标签之间的差异,调整所述预训练的文本处理网络的模型参数,直到满足训练结束条件,得到训练好的文本处理网络。
8.根据权利要求1所述的方法,其特征在于,所述资源对象的属性信息包括以下至少一种:名称、颜色、形状、材质、尺寸、实体类型、型号、使用场景、适用对象。
9.一种标题简化装置,其特征在于,包括:
配图获取单元,被配置为执行获取资源对象待简化的原始标题,以及所述资源对象的配图;所述配图用于表征所述资源对象的至少一种属性信息,所述配图根据所述资源对象的海报、介绍页面和视频中的至少一种得到;
配图编码特征获取单元,被配置为执行对所述配图进行图像分割,并将分割得到的多个图像块各自对应的图像块特征输入到图像编码网络,由所述图像编码网络基于每个特征提取模块的第一变换矩阵对输入到每个特征提取模块的多个图像块特征进行变换处理,根据变换处理结果确定所述多个图像块特征各自的自注意力权重,根据所述变换处理结果和所述自注意力权重确定每个特征提取模块输出的配图特征,并根据各特征提取模块输出的配图特征确定表征所述配图语义的配图编码特征;每个图像块的自注意力权重为基于所述图像块与所述配图中的其他图像块的关联度确定的权重;
语义编码特征获取单元,被配置为执行获取所述原始标题多个分词各自对应的分词特征,并将多个分词特征输入到编码器,由所述编码器基于每个特征提取模块的第二变换矩阵对输入到每个特征提取模块的多个分词特征进行变换处理,根据变换处理结果确定所述多个分词特征各自的自注意力权重,根据所述变换处理结果和所述自注意力权重确定每个特征提取模块输出的标题特征,并根据各特征提取模块输出的分词特征确定表征所述原始标题语义的标题编码特征,并对所述标题编码特征和所述配图编码特征进行融合,得到语义编码特征;
简化标题获取单元,被配置为执行将所述语义编码特征输入到预先训练好的文本处理网络的解码器,根据所述解码器输出的解码结果,得到所述资源对象简化后的标题,所述简化后的标题中被保留的至少部分标题内容,是基于所述配图表征的所述资源对象的属性信息确定的。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027968.4A CN115270778B (zh) | 2022-08-25 | 2022-08-25 | 标题简化方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027968.4A CN115270778B (zh) | 2022-08-25 | 2022-08-25 | 标题简化方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270778A CN115270778A (zh) | 2022-11-01 |
CN115270778B true CN115270778B (zh) | 2023-10-17 |
Family
ID=83753696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211027968.4A Active CN115270778B (zh) | 2022-08-25 | 2022-08-25 | 标题简化方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270778B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446207A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 标题生成方法、装置、电子设备及存储介质 |
CN113157910A (zh) * | 2021-04-28 | 2021-07-23 | 北京小米移动软件有限公司 | 商品描述文本生成方法、装置及存储介质 |
CN113507608A (zh) * | 2021-06-09 | 2021-10-15 | 北京三快在线科技有限公司 | 图像编码方法、装置、电子设备 |
WO2021263238A1 (en) * | 2020-06-26 | 2021-12-30 | Google Llc | Retrosynthesis using neural networks |
CN114266840A (zh) * | 2021-12-21 | 2022-04-01 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114399775A (zh) * | 2022-01-21 | 2022-04-26 | 平安科技(深圳)有限公司 | 文档标题生成方法、装置、设备及存储介质 |
CN114491004A (zh) * | 2021-12-31 | 2022-05-13 | 北京五八信息技术有限公司 | 一种标题生成方法、装置、电子设备和存储介质 |
-
2022
- 2022-08-25 CN CN202211027968.4A patent/CN115270778B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021263238A1 (en) * | 2020-06-26 | 2021-12-30 | Google Llc | Retrosynthesis using neural networks |
CN112446207A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 标题生成方法、装置、电子设备及存储介质 |
CN113157910A (zh) * | 2021-04-28 | 2021-07-23 | 北京小米移动软件有限公司 | 商品描述文本生成方法、装置及存储介质 |
CN113507608A (zh) * | 2021-06-09 | 2021-10-15 | 北京三快在线科技有限公司 | 图像编码方法、装置、电子设备 |
CN114266840A (zh) * | 2021-12-21 | 2022-04-01 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114491004A (zh) * | 2021-12-31 | 2022-05-13 | 北京五八信息技术有限公司 | 一种标题生成方法、装置、电子设备和存储介质 |
CN114399775A (zh) * | 2022-01-21 | 2022-04-26 | 平安科技(深圳)有限公司 | 文档标题生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115270778A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7179183B2 (ja) | ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム | |
CN109508400B (zh) | 图文摘要生成方法 | |
CN110781347A (zh) | 一种视频处理方法、装置、设备以及可读存储介质 | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
WO2022188644A1 (zh) | 词权重的生成方法、装置、设备及介质 | |
CN112348111B (zh) | 视频中的多模态特征融合方法、装置、电子设备及介质 | |
CN113297891A (zh) | 视频信息处理方法、装置及电子设备 | |
CN113766299B (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
CN113392270A (zh) | 视频处理方法、装置、计算机设备以及存储介质 | |
CN111428025A (zh) | 文本摘要方法、装置、电子设备和存储介质 | |
CN110750679A (zh) | 一种基于关键词的视频搜索方法、系统、装置及存储介质 | |
CN110399473B (zh) | 为用户问题确定答案的方法和装置 | |
CN114186074A (zh) | 视频搜索词推荐方法、装置、电子设备及存储介质 | |
CN115270778B (zh) | 标题简化方法、装置、设备和存储介质 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN112256891A (zh) | 多媒体资源的推荐方法、装置、电子设备及存储介质 | |
CN116229313A (zh) | 标签构建模型的生成方法、装置、电子设备和存储介质 | |
CN115718904A (zh) | 文本处理方法及装置 | |
CN117009577A (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
CN116028669A (zh) | 一种基于短视频的视频搜索方法、装置、系统和存储介质 | |
CN113821677A (zh) | 一种生成封面图像的方法、装置、设备及存储介质 | |
CN108881950B (zh) | 一种视频处理的方法和装置 | |
CN116524524B (zh) | 一种内容识别方法、装置、设备及存储介质 | |
CN115205757B (zh) | 风险识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |