一种文案生成方法和装置
技术领域
本申请涉及文本处理领域,尤其涉及一种文案生成方法和装置。
背景技术
文案可以理解为使用语言文字来表现已制定的创意策略,在现有的多个业务场景中,通常都存在生成文案的需求。例如,在营销场景中,需要针对待营销的对象生成文案,以吸引用户关注,实现营销目的,再例如,在应用的版本更新场景中,需要针对应用的新版本生成文案,以体现新版本的特色,吸引更多用户下载或更新应用的新版本。
通常,在生成文案时,为了吸引更多用户的关注,同时避免用户的视觉疲劳,需要保证文案的多样性和新颖性,然而,在实际应用中,还缺少一种有效地方法可以实现上述目的。
发明内容
本申请实施例提供一种文案生成方法和装置,用于解决现有技术中无法有效地生成文案的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出一种文案生成方法,包括:
获取待生成的目标文案的关键词和业务属性;
从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
对所述多个目标片段进行组合,得到多个上下句对;
基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
第二方面,提出一种文案生成装置,包括:
获取单元,获取待生成的目标文案的关键词和业务属性;
搜索单元,从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
组合单元,对所述多个目标片段进行组合,得到多个上下句对;
确定单元,基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
第三方面,提出一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取待生成的目标文案的关键词和业务属性;
从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
对所述多个目标片段进行组合,得到多个上下句对;
基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取待生成的目标文案的关键词和业务属性;
从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
对所述多个目标片段进行组合,得到多个上下句对;
基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例提供的技术方案,在生成目标文案时,可以通过片段搜索的方式在预先确定的文案片段库中搜索与目标文案的关键词和业务属性对应的目标片段,通过片段重组的方式将搜索到的目标片段重新组合得到多个上下句对,这样,可以为后续生成目标文案提供丰富的候选,从而改善目标文案的多样性和新颖性;在得到多个上下句对后,由于可以通过上下句搭配度模型从多个上下句对中筛选候选句对,因此,可以为后续生成目标文案提供更具通顺性和合理搭配关系的上下句对,从而在改善目标文案的多样性和新颖性的基础上,可以有效地生成目标文案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例文案生成方法的流程示意图;
图2是本申请的一个实施例判别式深度学习网络模型的示意图;
图3是本申请的一个实施例文案生成方法的流程示意图;
图4是本申请的一个实施例电子设备的结构示意图;
图5是本申请的一个实施例文案生成装置的结构示意图。
具体实施方式
现有技术中,在生成文案时,通常可以基于待生成文案的关键词,从预先维护的文案库中搜索与关键词相关的文案,并将搜索到的文案作为待生成的文案。其中,文案库中存储有大量的原始文案,这些原始文案可以包括历史积累的文案(以下简称历史文案)以及从外部抓取的文案(例如,在网页中基于关键词搜索得到的文案)。
此外,在生成文案时,还可以基于生成文案的需求,从预先维护的文案模板库中搜索相应地文案模板,其中,文案模板中包括文案关键内容的通配符;在搜索得到文案模板后,可以基于生成文案的需求将文案模板中的通配符进行替换,进而得到待生成的文案。
然而,在实际应用中,在基于文案搜索的方式生成文案时,由于需要从文案库中搜索相关文案,因此,生成的文案会严重依赖文案库中原始文案的质量和数量,而在原始文案中,针对历史文案而言,历史文案的业务跨度通常比较大,每个业务下的文案数量通常较少且不具备新颖性,针对外部抓取的文案而言,其质量可控性通常较差,难以得到高质量的文案。
在基于文案模板搜索的方式生成文案时,虽然不需要依赖文案库中原始文案的质量和数量,但是,由于需要从文案模板库中搜索所需的文案模板,因此,生成的文案会严重依赖文案模板库中文案模板的数量和质量。此外,针对同一文案模板而言,在基于该模板生成不同业务的文案时,很难同时保证生成的文案的通顺性和业务特性,例如,若某个模板具备某个业务特性,则该模板将不具备其他业务特性,这样,在基于该模板生成其他业务的文案时,将会导致生成的文案不具备通顺性,反之,若某个模板不具备业务特性,则在基于该模板生成不同业务的文案时,虽然可以保证文案的通顺性,但是,由于模板不具备业务特性,因此,生成的文案并不能满足业务需求。
由此可见,在上述记载的基于文案搜索的方式和文案模板搜索的方式生成文案时,由于生成的文案受限于文案库中原始文案的质量和数量,以及文案模板库中文案模板的质量和数量,因此,不能有效地生成文案。
为了解决上述技术问题,本申请实施例提供一种文案生成方法和装置,该方法包括:获取待生成的目标文案的关键词和业务属性;从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;对所述多个目标片段进行组合,得到多个上下句对;基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
本申请实施例提供的技术方案,在生成目标文案时,可以通过片段搜索的方式在预先确定的文案片段库中搜索与目标文案的关键词和业务属性对应的目标片段,通过片段重组的方式将搜索到的目标片段重新组合得到多个上下句对,这样,可以为后续生成目标文案提供丰富的候选,从而改善目标文案的多样性和新颖性;在得到多个上下句对后,由于可以通过上下句搭配度模型从多个上下句对中筛选候选句对,因此,可以为后续生成目标文案提供更具通顺性和合理搭配关系的上下句对,从而在改善目标文案的多样性和新颖性的基础上,可以有效地生成目标文案。
此外,由于本申请实施例通过片段检索、片段重组和片段搭配度检测的方式得到用于生成目标文案的候选句对,因此,可以降低对文案库中原始文案质量和数量的依赖,还可以降低对文案模板库中文案模板质量和数量的依赖;由于本申请实施例无需生成文案模板,因此,可以减少生成文案模板的工作量,简化文案生成的步骤。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供的技术方案,可以用于多个业务场景中,例如,可以用于在营销场景中生成营销文案,也可以用于在应用的版本发布或更新的场景中生成应用或应用新版本的文案,等,这里不再一一举例说明。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请的一个实施例文案生成方法的流程示意图。所述文案生成方法如下所述。
S102:获取待生成的目标文案的关键词和业务属性。
在S102中,在需要生成目标文案时,可以基于目标文案的业务场景和生成目标文案的需求,获取得到目标文案的关键词和业务属性。其中,目标文案的业务属性可以是使用目标文案的业务场景所属的行业。
例如,想要生成某个产品的营销文案时,获取的关键词可以是该产品的某个功能或特征,获取的业务属性可以是该产品所属的行业,例如,理财、保险等。
在获取到目标文案的关键词和业务属性后,可以执行S104。
S104:从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段。
本实施例中,可以通过以下方式预先确定得到文案片段库:
首先,获取多个原始文案。
原始文案可以包括历史积累得到的历史文案以及从外部抓取的文案,该外部抓取的文案可以理解为通过非历史积累的方式获取到的文案,例如,通过文案的关键词从网络中搜索到的文案。
本实施例在获取多个原始文案时,为了便于后续生成不同业务属性下的目标文案,可以获取对应不同业务属性的多个原始文案。
其次,基于指定标点符号对多个原始文案进行拆分,得到多个片段。
指定标点符号可以包括半角和全角的逗号、分号、句号、问号、感叹号、省略号等。在基于指定标点符号对多个原始文案进行拆分时,以其中一个原始文案为例:
假设原始文案可以表示为:s=[p1,sep1,p2,sep2,...,sepT-1,pT],其中,pi表示构成原始文案的第i个片段,sepi表示pi和pi+1之间的指定标点符号,那么,在对该原始文案进行拆分后,可以得到p1、p2、……、pT共T个片段。
这样,通过对多个原始文案进行拆分,可以得到多个原始文案对应的多个片段。
可选地,在得到多个片段后,可以对多个片段进行去重处理,并基于去重后的多个片段执行后续操作。
再次,对多个片段进行分词处理,得到多个词语序列。
在对多个片段进行分词处理时,可以按照字义进行分词处理,进而得到多个词语序列。例如,假设片段为“瓜分两亿红包”,则按照字义进行分词处理后,可以得到词语序列“瓜分”、“两亿”和“红包”。
这样,通过对多个片段进行分词处理,可以得到多个片段对应的多个词语序列。
最后,建立多个原始文案的业务属性、对多个原始文案进行拆分后得到的多个片段以及对多个片段进行分词处理后得到的多个词语序列之间的映射关系,并将该映射关系存储在文案片段库中。
至此,可以得到文案片段库。
在得到文案片段库后,在获取到目标文案的关键词和业务属性时,可以将目标文案的关键词和业务属性作为搜索关键词,在文案片段库中搜索与目标文案的关键词和业务属性对应的多个片段。这里为了便于区分,可以将目标文案的关键词和业务属性对应的片段称为目标片段。
在文案片段库中搜索目标片段时,具体地,可以将目标文案的关键词和业务属性与文案片段库中的词语序列和业务属性进行匹配,若匹配成功,则可以将匹配成功的词语序列和业务属性对应的多个片段作为与目标文案的关键词和业务属性对应的多个目标片段。
在得到多个目标片段后,可以执行S106。
S106:对所述多个目标片段进行组合,得到多个上下句对。
在对多个目标片段进行组合时,可以对多个目标片段进行两两拼接。
在对两个目标片段进行拼接时,以多个目标片段中的第一目标片段和第二目标片段为例,拼接方式可以包括正向拼接和反向拼接中的至少一种,其中,正向拼接可以理解为将第二目标片段拼接在第一目标片段之后,反向拼接可以理解为将第一目标片段拼接在第二目标片段之后。
例如,在对目标片段1和目标片段2进行拼接时,正向拼接的结果为“目标片段1,目标片段2”,反向拼接的结果为“目标片段2,目标片段1”。
本实施例中,优选地,拼接方式可以包括正向拼接和反向拼接。
在对两个目标片段进行拼接后,可以得到相应的上下句对,仍以第一目标片段和第二目标片段为例,在对第一目标片段和第二目标片段进行正向拼接后,可以得到以第一目标片段为上句第二目标片段为下句的上下句对,在对第一目标片段和第二目标片段进行反向拼接后,可以得到以第二目标片段为上句第一目标片段为下句的上下句对。
这样,通过对多个目标片段进行两两拼接后,可以得到多个上下句对。其中,每个上下句对中均包括两个目标片段,一个目标片段为上句片段,另一个目标片段为下句片段。
在得到多个上下句对后,可以执行S108。
S108:基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
本实施例中,上下句搭配度模型可以用于确定上下句对的搭配度,具体可以通过以下方式预先训练得到:
首先,获取多个样本句对。
本实施例中,优选地,每个样本句对中可以包括两个片段,一个片段为上句片段,另一个片段为下句片段。
此外,多个样本句对中可以包括正样本句对和负样本句对,其中,正样本句对中包括的两个片段具有正确的搭配关系,负样本句对中包括的两个片段具有错误的搭配关系。
在获取多个样本句对时,一种实现方式可以包括:
第一:获取多个样本文案。
本实施例中,多个样本文案可以是上述S104中记载的多个原始文案,该原始文案中包括历史文案和外部抓取的文案。也可以是通过其他方式获取到的多个文案,这里不做具体限定。
第二:基于指定标点符号对多个样本文案进行拆分,得到多个样本片段。
指定标识符号可以与上述S104中记载的指定标点符号相同,可以包括半角和全角的逗号、分号、句号、问号、感叹号、省略号等。
在基于指定标点符号对多个样本文案进行拆分时,具体实现方式可以参见上述S104中对多个原始文案进行拆分的具体实现,这里不再重复说明。在对多个样本文案进行拆分后,可以得到多个片段,这里为了便于区分,可以将拆分后的多个片段表示为多个样本片段。
第三:对多个样本片段进行组合,得到样本句对。
在对多个样本片段进行组合时,可以对多个样本片段进行两两拼接,其中,拼接方式可以包括正向拼接和反向拼接中的至少一种,本实施例可以以拼接方式包括正向拼接和反向拼接为例进行说明。
本实施例中,样本句对可以包括正样本句对和负样本句对,在一种实现方式中,在对多个样本片段进行两两拼接时,可以包括以下步骤:
首先,可以基于半角和全角的逗号、句号,将在样本文案中存在上下句关系的两个样本片段进行正向拼接,得到正样本句对;其次,将在样本文案中不存在上下句关系的两个样本片段进行正向和反向拼接,以及将在样本文案中存在上下句关系的两个样本片段进行反向拼接,得到负样本句对;最后,将正样本句对和负样本句对的合集作为样本句对。
例如,假设样本文案包括文案1和文案2,文案1表示为“片段1,片段2”,文案2表示为“片段3,片段4”,那么,在对样本文案拆分后,可以得到4个样本片段,分别为片段1,片段2,片段3和片段4,对这4个样本片段进行两两拼接后,可以得到正样本句对:“片段1,片段2”和“片段3,片段4”,负样本句对:“片段2,片段1”,“片段4,片段3”,“片段1,片段3”,“片段1,片段4”,“片段2,片段3”,“片段2,片段4”,“片段3,片段1”,“片段4,片段1”,“片段3,片段2”,“片段4,片段2”,正样本句对和负样本句对的合集即为样本句对。
至此,基于上述记载的内容可以得到包括正样本句对和负样本句对的多个样本句对。
其次,构造判别式深度学习网络模型。
本实施例中,判别式深度学习网络模型可以包括表达层、卷积层、池化层、reshape层、匹配层和激活层,其中,表达层、匹配层和激活层的层数可以是一层,卷积层、池化层和reshape层的层数可以是一层,也可以是多层,本实施例以卷积层、池化层和reshape层的层数为一层进行说明。
最后,基于所述多个样本句对,对判别式深度学习网络模型进行训练,得到上下句搭配度模型。
在对判别式深度学习网络模型进行训练时,结合图2,具体实现方式可以包括:
第一:可以基于多个样本句对中包括的上句片段和下句片段,得到第一片段表达矩阵和第二片段表达矩阵。
本步骤可以在判别式深度学习网络模型的表达层中实现,其中,第一片段表达矩阵可以是样本句对中的上句片段(包括正样本句对中的上句片段和负样本句对中的上句片段)对应的片段表达矩阵,第二片段表达矩阵可以是样本句对中下句片段(包括正样本句对中的下句片段和负样本句对中的下句片段)对应的片段表达矩阵。
在基于样本句对中的上句片段得到第一片段表达矩阵时,首先,可以确定上句片段中包括的多个词语;其次,将多个词语映射为多个d维向量,其中,在将多个词语映射为多个d维向量时,具体实现方式可以参见现有技术中记载的方法,这里不再详细说明。
在得到多个d维向量后,基于多个d维向量可以构造得到第一片段表达矩阵。其中,第一片段表达矩阵可以表示为Md×T,d为向量的维度,具体大小可以根据实际情况确定,T为上句片段中包括的词语个数。
在得到第一片段表达矩阵后,可以基于相同的方法得到第二片段表达矩阵,详细过程这里不再重复说明。其中,第二片段表达矩阵可以表示为Md×P,d为向量的维度,与上述第一片段表达矩阵中的d含义相同,P为下句片段中包括的词语个数。
第二:对第一片段表达矩阵和第二片段表达矩阵进行卷积和池化处理,得到第一特征向量组和第二特征向量组。
本步骤可以在判别式深度学习网络模型中的卷积层和池化层实现。其中,第一特征向量组可以通过对第一片段表达矩阵进行卷积和池化处理得到,第二特征向量组可以通过对第二片段表达矩阵进行卷积和池化处理得到,
在对第一片段表达矩阵进行卷积和池化处理时,可以基于N个卷积核以及M个步长(step_size)进行处理,之后,可以得到第一特征向量组,该第一特征向量组中可以包括M个N维向量,具体可以表征样本句对中包括的上句片段的语言特征。
在得到第一特征向量组后,可以基于相同的方法得到第二特征向量组,其中,第二特征向量组中也可以包括M个N维向量,具体可以表征样本句对中包括的下句片段的语言特征。
第三:基于第一特征向量组和第二特征向量组,得到第一特征向量和第二特征向量。
本步骤可以在判别式深度学习网络模型中的reshape层中实现。其中,基于第一特征向量组可以得到第一特征向量,基于第二特征向量组可以得到第二特征向量。
在基于第一特征向量组得到第一特征向量时,可以对第一特征向量组中包括的M个N维向量分别进行reshape操作,即按照步长(step_size)从小到大对M个N维向量进行连接,在连接后,可以将M个N维向量转化为一个M×N维向量,该M×N维向量即为第一特征向量,第一特征向量可以表征上句片段特征。
在得到第一特征向量后,可以基于相同的方法得到第二特征向量,其中,第二特征向量也可以是M×N维向量,具体可以表征下句片段特征。
第四:基于预设系数矩阵,对所述第一特征向量和所述第二特征向量进行高维映射。
本步骤可以在判别式深度学习网络模型中的匹配层中实现,预设系数矩阵可以根据实际情况确定。
第五:基于激活函数对高维映射结果进行激活,得到所述多个样本句对的搭配度。
本步骤可以在判别式深度学习网络模型中的激活层中实现。
激活函数可以是sigmoid函数,在基于sigmoid函数对高维映射结果进行激活后,可以将高维映射结果映射到(0,1)的区间,区间(0,1)内的数值可以表示上句片段和下句片段的搭配度,其中,正样本句对中包括的上句片段和下句片段的搭配度可以表示为1,负样本句对中包括的上句片段和下句片段的搭配度可以表示为0。
当然,在对高维映射结果进行激活时,也可以使用其他激活函数,这里对其他激活函数不再一一举例说明。
在通过上述记载的内容对判别式深度学习网络模型进行训练后,可以得到上下句搭配度模型。
在得到上下句搭配度模型后,在基于上述S106得到多个上下句对时,可以基于上下句搭配模型确定多个上下句对中的候选句对,其中,候选句对可以用于生成目标文案,具体可以是多个上下句对中搭配度较高的一个或多个上下句对。
本实施例在基于上下句搭配模型确定候选句对时,具体实现方式包括:
首先,可以将多个上下句对输入上下句匹配度模型中,得到每个上下句对中包括的上句片段和下句片段的搭配度;其次,可以将多个上下句对的搭配度与预设搭配度阈值进行比较,确定搭配度大于或等于预设搭配度阈值的一个或多个上下句对,该一个或多个上下句对即为候选句对。其中,预设搭配度阈值可以根据实际需要确定,这里不做具体限定。
本实施例在确定候选句对后,还可以将候选句对按照搭配度从大到小的顺序进行排序,并将排序结果展示给文案决策人员,这样,文案决策人员可以根据排序结果以及生产目标文案的实际需求,选择其中一个或多个候选句对来生成目标文案。
本申请实施例提供的技术方案,在生成目标文案时,可以通过片段搜索的方式在预先确定的文案片段库中搜索与目标文案的关键词和业务属性对应的目标片段,通过片段重组的方式将搜索到的目标片段重新组合得到多个上下句对,这样,可以为后续生成目标文案提供丰富的候选,从而改善目标文案的多样性和新颖性;在得到多个上下句对后,由于可以通过上下句搭配度模型从多个上下句对中筛选用于生成目标文案的候选句对,因此,可以保证目标文案中上下句的通顺性和合理的搭配关系,在改善目标文案的多样性和新颖性的基础上,能够吸引更多用户的关注。
为了便于理解本申请实施例提供的整个技术方案,可以参见图3。图3为本申请的一个实施例文案生成方法的流程示意图,图3所示的实施例可以包括以下步骤。
S301:获取多个原始文案,多个原始文案对应不同的业务属性。
原始文案中可以包括历史积累得到的历史文案以及从外部抓取的文案,外部抓取的文案可以理解为通过非历史积累的方式获取到的文案,例如,通过文案的关键词从网络中搜索到的文案。
业务属性可以表征原始文案所适用的业务场景。
S302:基于指定标点符号对多个原始文案进行拆分,得到多个片段。
指定标点符号可以包括半角和全角的逗号、分号、句号、问号、感叹号、省略号等。
在对多个原始文案进行拆分时,具体实现方式可以参见图1所示实施例中相应步骤的具体实现,这里不再重复说明。
在对多个原始文案进行拆分后,可以得到多个原始文案对应的多个片段,其中,一个原始文案可以拆分得到一个或多个片段。
S303:对多个片段进行分词处理,得到多个词语序列。
在对多个片段进行分词处理时,可以根据片段的字义进行分词。在进行分词处理后,可以将得到多个词语序列。
S304:建立多个原始文案的业务属性、多个片段以及多个词语序列之间的映射关系,并将映射关系存储在文案片段库中。
S305:将多个原始文案拆分后的多个片段进行两两组合,得到多个样本句对。
在S305中,可以将S301中的获取的多个原始文案作为样本文案,将S302中将多个原始文案拆分后的多个片段作为样本片段,通过将样本片段进行两两组合,得到多个样本句对。具体实现方式可以参见图1所示实施例中相应步骤的具体实现,这里不再重复说明。
多个样本句对中包括正样本句对和负样本句对,其中,正样本句对中包括的上句片段和下句片段在原始文案中存在上下句关系,负样本句对中包括的上句片段和下句片段在原始文案中不存在上下句关系。
需要说明的是,本实施例中将S301中记载的原始文案作为样本文案,在其他实现方式中,还可以将其他文案作为样本文案,并基于其他文案得到样本句对。
S306:构造判别式深度学习网络模型。
判别式深度学习网络模型中可以包括表达层、卷积层、池化层、reshape层、匹配层和激活层。
S307:基于多个样本句对,对判别式深度学习网络模型进行训练,得到上下句搭配度模型。
具体训练过程请参见图1所示实施例中相应步骤的具体实现,这里不再重复说明。
S308:获取待生成的目标文案的关键词和业务属性。
这里可以基于目标文案的业务场景和生成目标文案的需求,获取得到目标文案的关键词和业务属性。
S309:从文案片段库中搜索与目标文案的关键词和业务属性对应的多个目标片段。
在搜索时,可以将目标文案的关键词和业务属性作为搜索关键词,并与文案片段库中的词语序列和业务属性进行匹配,若匹配成功,则可以将匹配成功的词语序列和业务属性对应的多个片段作为多个目标片段。
S310:对多个目标片段进行组合,得到多个上下句对。
在对多个目标片段进行组合时,可以对多个目标片段进行两两拼接,拼接方式可以包括正向拼接和反向拼接中的至少一种。优选地,拼接方式可以包括正向拼接和反向拼接。
在对多个目标片段进行两两拼接后,可以得到多个上下句对。
S311:基于上下句搭配度模型,确定多个上下句对的搭配度。
S312:将搭配度大于或等于预设搭配度阈值的上下句对作为候选句对,候选句对用于生成目标文案。
S313:将候选句对按照搭配度从大到小的顺序进行展示。
这里可以将候选句对按照搭配度从大到小的顺序展示给文案决策人员,这样,文案决策人员可以根据排序结果以及生产目标文案的实际需求,选择其中一个或多个候选句对来生成目标文案。
本申请实施例提供的技术方案,在生成目标文案时,由于可以通过片段检索、片段重组的方式得到多个上下句对,因此,可以为后续生成目标文案提供丰富的候选,从而改善目标文案的多样性和新颖性;在得到多个上下句对后,由于可以通过片段搭配度检测的方式得到候选句对,因此,可以为后续生成目标文案提供更具通顺性和合理搭配关系的上下句对,从而在改善目标文案的多样性和新颖性的基础上,可以有效地生成目标文案。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图4是本申请的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文案生成装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待生成的目标文案的关键词和业务属性;
从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
对所述多个目标片段进行组合,得到多个上下句对;
基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
上述如本申请图4所示实施例揭示的文案生成装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1和图3的方法,并实现文案生成装置在图1和图3所示实施例中的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1和图3所示实施例的方法,并具体用于执行以下操作:
获取待生成的目标文案的关键词和业务属性;
从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
对所述多个目标片段进行组合,得到多个上下句对;
基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
图5是本申请的一个实施例文案生成装置50的结构示意图。请参考图5,在一种软件实施方式中,所述文案生成装置50可包括:获取单元51、搜索单元52、组合单元53和确定单元54,其中:
获取单元51,获取待生成的目标文案的关键词和业务属性;
搜索单元52,从预先确定的文案片段库中搜索与所述关键词和业务属性对应的多个目标片段;
组合单元53,对所述多个目标片段进行组合,得到多个上下句对;
确定单元54,基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,所述候选句对用于生成所述目标文案。
可选地,所述文案片段库由所述搜索单元52通过以下方式确定得到:
获取多个原始文案,所述多个原始文案对应不同的业务属性;
基于指定标点符号对所述多个原始文案进行拆分,得到多个片段;
对所述多个片段进行分词处理,得到多个词语序列;
建立所述多个片段、所述多个词语序列以及所述业务属性之间的映射关系,并将所述映射关系存储在所述文案片段库中。
可选地,所述组合单元53,对所述多个目标片段进行组合,得到多个上下句对,包括:
对所述多个目标片段进行两两拼接,其中,第一目标片段和第二目标片段的拼接方式包括正向拼接和反向拼接中的至少一种。
可选地,所述上下句搭配度模型由所述确定单元54通过以下方式训练得到:
获取多个样本句对;
构建判别式深度学习网络模型,所述判别式深度学习网络模型中包括表达层、卷积层、池化层、reshape层、匹配层和激活层;
基于所述多个样本句对,对所述判别式深度学习网络模型进行训练,得到所述上下句搭配度模型。
可选地,所述确定单元54,获取多个样本句对,包括:
获取多个样本文案;
基于指定标点符号对所述多个样本文案进行拆分,得到多个样本片段;
对所述多个样本片段进行组合,得到所述多个样本句对。
可选地,所述确定单元54,基于所述多个样本句对,对所述判别式深度学习网络模型进行训练,包括:
基于所述多个样本句中包括的上句片段和下句片段,得到第一片段表达矩阵和第二片段表达矩阵;
对所述第一片段表达矩阵和所述第二片段表达矩阵进行卷积和池化处理,得到第一特征向量组和第二特征向量组;
对所述第一特征向量组和所述第二特征向量组进行特征提取,得到第一特征向量和第二特征向量;
基于预设系数矩阵,对所述第一特征向量和所述第二特征向量进行高维映射;
基于激活函数对高维映射结果进行激活,得到所述多个样本句对的搭配度。
可选地,所述确定单元54,基于预先训练得到的上下句搭配度模型,确定所述多个上下句对中的候选句对,包括:
基于所述上下句匹配度模型,确定所述多个上下句对的搭配度;
基于所述搭配度以及预设搭配度阈值,确定所述候选句对,所述候选句对的搭配度大于或等于所述预设搭配度阈值。
本申请实施例提供的文案生成装置50还可执行图1和图3的方法,并实现文案生成装置在图1和图3所示实施例的功能,本申请实施例在此不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。