CN111178018A

CN111178018A - 一种基于深度学习的目标软文的生成方法及装置

Info

Publication number: CN111178018A
Application number: CN201911403246.2A
Authority: CN
Inventors: 朱景涛; 沈艺; 齐康; 倪合强; 梁诗雯
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-19
Anticipated expiration: 2039-12-30
Also published as: WO2021135091A1; CA3166556A1; CN111178018B

Abstract

本发明公开了一种基于深度学习的目标软文的生成方法及装置，该方法包括：接收目标对象的相关信息，根据相关信息从标题库中匹配出若干条适配的目标标题，标题库中的标题由采集到的标题通过第三生成模型扩展而来；将目标标题输入到第一生成模型中，生成至少一个目标导语；根据相关信息以及预设规则生成至少一个符合预设结构的输入信息，将输入信息输入到第二生成模型中，生成至少一个目标正文；对目标标题、目标导语以及目标正文进行组装，获取多篇目标软文。本发明通过利用深度学习和自然语言处理技术，能够实现营销软文的自动化智能化多样化生成，节省运营人员的投入，提升营销软文的生产效率，有效的避免手写效率低下的问题，同时避免模板生成的呆板问题。

Description

一种基于深度学习的目标软文的生成方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于深度学习的目标软文的生成方法及装置。

背景技术

新产品在市场进行推广时经常会用到营销软文，营销软文通常由标题、导语和营销正文三部分组成。标题用生动简洁的语言表明营销的产品，引人入胜，导语起到引导性作用，引导消费方向，引出下面营销正文，营销正文则对产品进行介绍、推荐营销。

目前营销软文，无论是标题、导语，还是营销正文，多为商家运营人员手动编写，或者采用模板自动生成。这两种方法或多或少均存在不足：

对于手动编写，需要相关人员根据待营销的品类组织生动的语言手动编写营销软文，一旦需要短时间输出大量软文或拓展至较多品类时，往往存在生产效率低下的问题；

对于模板生成，虽然可以短时间内生成批量，但是生成的语句存在模式固定、呆板、多样化不足等问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于深度学习的目标软文的生成方法及装置，以克服现有技术中手动编写目标软文生产效率低下、模板生成目标软文语句模式固定、呆板、多样化不足等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

一方面，提供了一种基于深度学习的目标软文的生成方法，该方法包括如下步骤：

接收目标对象的相关信息，根据所述相关信息从标题库中匹配出若干条适配的目标标题，所述标题库中的标题由采集到的标题通过第三生成模型扩展而来；

将所述目标标题输入到第一生成模型中，生成至少一个目标导语；

根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息，将所述输入信息输入到第二生成模型中，生成至少一个目标正文；

对所述目标标题、所述目标导语以及所述目标正文进行组装，获取多篇目标软文。

进一步的，所述根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息，将所述输入信息输入到第二生成模型中，生成至少一个目标正文包括：

对所述相关信息进行分词处理，从获取到的第一分词结果中提取出满足预设条件的目标分词；

对所述目标分词进行重组，获取至少一个符合预设结构的输入信息；

将所述输入信息输入到第二生成模型中，生成至少一个目标正文。

进一步的，所述方法还包括标题库的构建过程，包括：

对采集到的若干第一样本标题进行分词处理，获取第二分词结果；

采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词；

将所述第二分词结果以及所述第一关键词输入到第三生成模型，获取多个新的标题，所述标题库由所述新的标题构成。

进一步的，所述标题库的构建过程还包括：

对所述第一关键词集合与所述第二分词结果取交集，获取输入数据集合；

将所述输入数据集合的数据作为输入，所述目标标题作为输出，基于预设算法训练出第三生成模型。

进一步的，所述方法还包括第一生成模型的构建过程，包括：

对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理；

采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词；

对所述第二关键词集合与每条分词后的所述第二样本标题取交集，获取目标关键词；

遍历每一所述第二样本标题，将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配，获取匹配成功导语作为当前第二样本标题的新的导语；

将所述第二样本标题作为输入，与所述第二样本标题对应的导语以及所述新的导语作为输出，基于预设算法训练出第一生成模型。

另一方面，提供了一种基于深度学习的目标软文的生成装置，所述装置包括：

标题匹配模块，用于接收目标对象的相关信息，根据所述相关信息从标题库中匹配出若干条适配的目标标题，所述标题库中的标题由采集到的标题通过第三生成模型扩展而来；

导语生成模块，用于将所述目标标题输入到第一生成模型中，生成至少一个目标导语；

正文生成模块，用于根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息，将所述输入信息输入到第二生成模型中，生成至少一个目标正文；

信息组装模块，对所述目标标题、所述目标导语以及所述目标正文进行组装，获取多篇目标软文。

进一步的，所述正文生成模块包括：

第一分词单元，用于对所述相关信息进行分词处理，从获取到的第一分词结果中提取出满足预设条件的目标分词；

分词重组单元，用于对所述目标分词进行重组，获取至少一个符合预设结构的输入信息；

正文生成单元，用于将所述输入信息输入到第二生成模型中，生成至少一个目标正文。

进一步的，所述装置还包括第一构建模块，包括：

第二分词单元，用于对采集到的若干第一样本标题进行分词处理，获取第二分词结果；

第一提取单元，用于采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词；

标题生成单元，用于将所述第二分词结果以及所述第一关键词输入到第三生成模型，获取多个新的标题，所述标题库由所述新的标题构成。

进一步的，所述第一构建模块还包括：

第一求交单元，用于对所述第一关键词集合与所述第二分词结果取交集，获取输入数据集合；

第一训练单元，用于将所述输入数据集合的数据作为输入，所述目标标题作为输出，基于预设算法训练出第三生成模型。

进一步的，所述装置还包括第二构建模块，包括：

第三分词单元，用于对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理；

第二提取单元，用于采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词；

第二求交单元，用于对所述第二关键词集合与每条分词后的所述第二样本标题取交集，获取目标关键词；

导语拓展单元，用于遍历每一所述第二样本标题，将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配，获取匹配成功导语作为当前第二样本标题的新的导语；

第二训练单元，用于将所述第二样本标题作为输入，与所述第二样本标题对应的导语以及所述新的导语作为输出，基于预设算法训练出第一生成模型。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明实施例提供的基于深度学习的目标软文的生成方法及装置，通过接收目标对象的相关信息，根据相关信息从标题库中匹配出若干条适配的目标标题，标题库中的标题由采集到的标题通过第三生成模型扩展而来，将目标标题输入到第一生成模型中，生成至少一个目标导语，根据相关信息以及预设规则生成至少一个符合预设结构的输入信息，将输入信息输入到第二生成模型中，生成至少一个目标正文，对目标标题、目标导语以及目标正文进行组装，获取多篇目标软文，利用深度学习和自然语言处理技术，能够实现营销软文的自动化智能化多样化生成，节省运营人员的投入，提升营销软文的生产效率，有效的避免手写效率低下的问题，同时避免模板生成的呆板问题；

2、本发明实施例提供的基于深度学习的目标软文的生成方法及装置，通过对采集到的若干第一样本标题进行分词处理，获取第二分词结果，采用预设的第一关键词提取方法从第一样本标题中提取出第一关键词，将所述第二分词结果以及所述第一关键词输入到第三生成模型，获取多个新的标题，利用现有的有限的标题拓展标题库中标题的数量；

3、本发明实施例提供的基于深度学习的目标软文的生成方法及装置，通过对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理，采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词，对所述第二关键词集合与每条分词后的所述第二样本标题取交集，获取目标关键词，遍历每一所述第二样本标题，将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配，获取匹配成功导语作为当前第二样本标题的新的导语，将所述第二样本标题作为输入，与所述第二样本标题对应的导语以及所述新的导语作为输出，基于预设算法训练出第一生成模型，拓展了导语生成模型的训练数据，避免了由于训练数据不足而容易导致过拟合、生成效果不佳等问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的基于深度学习的目标软文的生成方法的流程图；

图2是根据一示例性实施例示出的根据相关信息以及预设规则生成至少一个符合预设结构的输入信息，将输入信息输入到第二生成模型中，生成至少一个目标正文的流程图；

图3是根据一示例性实施例示出的标题库的构建过程的流程图；

图4是根据另一示例性实施例示出的标题库的构建过程的流程图；

图5是根据一示例性实施例示出的第一生成模型的构建过程的流程图；

图6是根据一示例性实施例示出的基于深度学习的目标软文的生成装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于深度学习的目标软文的生成方法，首先根据目标对象的相关信息从标题库中检索出适配的标题，再根据匹配出的标题和相关信息依次生成导语和营销语(即营销正文)，最后组装目标标题、导语和营销正文，输出多篇营销软文。本发明实施例中，生成导语和营销正文采用了Seq2Seq算法来实现，可以有效的避免手写效率低下的问题，同时避免模板生成的呆板。Seq2Seq是一种由编码器和解码器组成的生成架构，根据输入序列X来生成输出序列Y，在翻译、文本自动摘要和机器人自动问答等任务上有着广泛的运用。

图1是根据一示例性实施例示出的基于深度学习的目标软文的生成方法的流程图，参照图1所示，该方法包括如下步骤：

S1：接收目标对象的相关信息，根据所述相关信息从标题库中匹配出若干条适配的目标标题，所述标题库中的标题由采集到的标题通过第三生成模型扩展而来。

具体的，目标软文一般包含标题、导语和正文三部分。本发明实施例中的目标软文包括营销软文，以营销软文为例，营销软文包含标题、导语和正文三部分。本发明实施例中的目标对象的相关信息包括待生成目标软文的产品的标题、或待生成目标软文的目标对象的描述信息等，并且本发明实施例中，接收到的相关信息可以是用户输入的，并且用户输入的相关信息可以是一个或多个某品类产品的标题。在接收到用户输入的目标对象的相关信息后，根据预设的标题匹配方法(例如，分词后字符串匹配、相似度匹配等)，从标题库中匹配出若干条与该相关信息适配的目标标题，其中，标题库中的标题由采集到的标题通过第三生成模型扩展而来。这里需要说明的是，本发明实施例中，不对标题匹配方法做具体的限定，用户可以根据具体需求进行设置。

S2：将所述目标标题输入到第一生成模型中，生成至少一个目标导语。

具体的，本发明实施例中，第一生成模型是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。该模型的输入为上述目标标题，输出为与目标标题对应的目标导语，其中，第一生成模型输出的目标标语的数量可以一个，也可以是多个，这里不做限制。

S3：根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息，将所述输入信息输入到第二生成模型中，生成至少一个目标正文。

具体的，第二生成模型同样是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。本发明实施例中，为了使得第二生成模型输出的目标正文能够多样化，采用拓展第二生成模型的输入来实现。因此，在生成目标正文前，首先根据相关信息以及预设规则生成至少一个符合预设结构的输入信息，然后将获取到的输入信息输入到第二生成模型中，生成至少一个目标正文。其中，至少一个是指可以是一个，也可以是多个。

S4：对所述目标标题、所述目标导语以及所述目标正文进行组装，获取多篇目标软文。

具体的，最后，对组装目标标题以及通过上述步骤获取到的目标导语以及目标正文，获取多篇目标软文，以供用户参考选择。

参照图2所示，作为一种较优的实施方式，本发明实施例中，所述根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息，将所述输入信息输入到第二生成模型中，生成至少一个目标正文包括：

S101：对所述相关信息进行分词处理，从获取到的第一分词结果中提取出满足预设条件的目标分词。

具体的，通常，相关信息多为“修饰词+品类词”的结构，其中修饰词为品牌、功能、特性、材质等词语。本发明实施例中，采用重组修饰词的顺序的方式来拓展第二生成模型的输入，使得第二生成模型输出的目标正文能够多样化。因此，在生成目标正文前，需要先对相关信息进行分词处理，获取第一分词结果，然后从第一分词结果中提取出满足预设条件的目标分词。由于是采用的重组修饰词的顺序的方式来拓展第二生成模型的输入，因此这里满足预设条件的目标分词为第一分词结果中属于修饰词的分词。

S102：对所述目标分词进行重组，获取至少一个符合预设结构的输入信息。

具体的，本发明实施例中，可以根据实际需求预先设置一重组机制，例如，重组分词后的修饰词的顺序等。然后按照该重组机制对上述步骤获取到的目标分词进行重组，输出多个符合预设结构的输入信息。同样，预设结构可以是“修饰词+品类词”的结构，用户可以根据实际需求进行设置调整，这里不做具体限制。

S103：将所述输入信息输入到第二生成模型中，生成至少一个目标正文。

具体的，最后，将通过上述步骤获取到的输入信息输入到第二生成模型中，生成至少一个目标正文。

图3是根据一示例性实施例示出的标题库的构建过程的流程图，参照图3所示，作为一种较优的实施方式，本发明实施例中，标题库的构建过程，包括：

S201：对采集到的若干第一样本标题进行分词处理，获取第二分词结果。

具体的，本发明实施例中，在接收到目标对象的相关信息后，是采用根据相关信息从标题库中匹配的方式来获取适配的目标标题的，但是，在构建标题库的过程中，实际采集到的标题数量往往是有限的。为解决上述问题，本发明实施例中，采用利用对采集到的有限的标题进行拓展的方式，来增加标题库中标题的数量的。具体进行标题拓展时，首先对采集到的若干第一样本标题进行分词处理，获取第二分词结果。

S202：采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词。

具体的，然后采用预设的第一关键词提取方法从所述样本标题中提取出第一关键词，其中，用户可以根据实际需求设置第一关键词的提取比例(即第一关键词占样本标题的比例)。这里需要说明的是，本发明实施例中，不对第一关键词提取方法做具体的限定，用户可以根据实际需求进行设置，例如，采用TS-IDF算法等。

S203：将所述第二分词结果以及所述第一关键词输入到第三生成模型，获取多个新的标题，所述标题库由所述新的标题构成。

具体的，将上述步骤获取到的第二分词结果以及第一关键词作为第三生成模型的输入，得到的输出(输出为新的标题)即为根据目标标题获取到拓展标题，这些新的标题即构成本发明实施例提供的标题库。这里需要说明的是，本发明实施例中第三生成模型中可以采用集束搜索(BeamSearch)解码器，从而可以生成大量的标题。

图4是根据另一示例性实施例示出的标题库的构建过程的流程图，参照图4所示，作为一种较优的实施方式，本发明实施例中，所述标题库的构建过程包括：

S301：对采集到的若干第一样本标题进行分词处理，获取第二分词结果；

S302：采用预设的第一关键词提取方法从所述样本标题中提取出第一关键词；

S303：对所述第一关键词集合与所述第二分词结果取交集，获取输入数据集合；

S304：将所述输入数据集合的数据作为输入，所述目标标题作为输出，基于预设算法训练出第三生成模型；

S305：将所述第二分词结果以及所述第一关键词输入到第三生成模型，获取多个新的标题，所述标题库由所述新的标题构成。

具体的，这里的第三生成模型同样是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。在为第三生成模型准备训练数据时，可以对上述步骤获取到的第一关键词集合与第二分词结果进行取交集操作，获取输入数据集合，然后将该输入数据集合的数据作为输入，目标标题作为输出，基于预设算法(例如Seq2Seq算法)训练出第三生成模型。另外，步骤S301、S302以及步骤S305的具体实施过程可以参照上述步骤S201至S203的具体实施过程，这里不再一一赘述。

另外，还可以采用不同训练状态(即不同step或epoch)下的模型重复上述步骤，进一步拓展标题。该方法仅借助现有的标题(指第一样本标题)，采用特定的抽取方式构建输入、输出训练出第三生成模型，从而可以在短时间内获取大量句式灵活的标题，节省人力成本，提高生产效率。

图5是根据一示例性实施例示出的第一生成模型的构建过程的流程图，参照图5所示，作为一种较优的实施方式，本发明实施例中，所述方法还包括第一生成模型的构建过程，包括：

S401：对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理。

具体的，本发明实施例中，采用关键词匹配的方法挖掘标题与导语的内在关系，将一个标题与多个导语匹配对应，这样可以极大的拓展第一生成模型的训练数据，避免因训练数据不足导致过拟合、生成效果不佳等问题，有效的提升第一生成模型的生成效果。具体在实施时，首先预先采集一定量的标题-导语对，即采集若干第二样本标题以及与该第二样本标题对应的导语，然后第二样本标题以及与第二样本标题对应的导语对进行分词处理，分别获取其分词结果。

S402：采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词。

具体的，然后采用预设的第二关键词提取方法从第二样本标题中提取出第二关键词，其中，用户可以根据实际需求设置第二关键词的提取比例(即第二关键词占样本标题的比例)。这里需要说明的是，本发明实施例中，同样不对第二关键词提取方法做具体的限定，用户可以根据实际需求进行设置，例如，采用TF-IDF算法等。

S403：对所述第二关键词集合与每条分词后的所述第二样本标题取交集，获取目标关键词。

具体的，从每条第二样本标题中提取出的目标关键词，具体实施时，可以对第二关键词集合和每条分词后的第二样本标题进行取交集，将取交集的得到的结果作为目标关键词。

S404：遍历每一所述第二样本标题，将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配，获取匹配成功导语作为当前第二样本标题的新的导语。

具体的，预先根据实际需求设置一最优匹配准则，如按照匹配关键词数量进行排序，选取匹配关键词数量最多的前10条导语作为该标题对应的导语。遍历每条第二样本标题，利用每条第二样本标题的目标关键词到全量分词后的与导语中进行匹配，按照预先设置的最优匹配准则获取匹配成功的若干条导语作为当前第二样本标题的新的导语，这样可以极大拓展数据量。

S405：将所述第二样本标题作为输入，与所述第二样本标题对应的导语以及所述新的导语作为输出，基于预设算法训练出第一生成模型。

具体的，第一生成模型同样是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。最后将第二样本标题作为输入，与第二样本标题对应的导语以及上述步骤拓展出的新的导语作为输出，基于该预设的算法训练出第一生成模型。

图6是根据一示例性实施例示出的基于深度学习的目标软文的生成装置的结构示意图，参照图6所示，该装置包括：

标题匹配模块，用于接收目标对象的相关信息，根据所述相关信息从标题库中匹配出若干条适配的目标标题，所述标题库中的标题由采集到的标题扩展而来；

作为一种较优的实施方式，本发明实施例中，所述正文生成模块包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括第一构建模块，包括：

作为一种较优的实施方式，本发明实施例中，所述第一构建模块还包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括第二构建模块，包括：

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的基于深度学习的目标软文的生成装置在触发目标软文生成业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于深度学习的目标软文的生成装置与基于深度学习的目标软文的生成方法实施例属于同一构思，即该装置是基于该基于深度学习的目标软文的生成方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的目标软文的生成方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于深度学习的目标软文的生成方法，其特征在于，所述根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息，将所述输入信息输入到第二生成模型中，生成至少一个目标正文包括：

3.根据权利要求1或2所述的基于深度学习的目标软文的生成方法，其特征在于，所述方法还包括标题库的构建过程，包括：

4.根据权利要求3所述的基于深度学习的目标软文的生成方法，其特征在于，所述标题库的构建过程还包括：

5.根据权利要求1或2所述的基于深度学习的目标软文的生成方法，其特征在于，所述方法还包括第一生成模型的构建过程，包括：

6.一种基于深度学习的目标软文的生成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的基于深度学习的目标软文的生成装置，其特征在于，所述正文生成模块包括：

8.根据权利要求6或7所述的基于深度学习的目标软文的生成装置，其特征在于，所述装置还包括第一构建模块，包括：

9.根据权利要求8所述的基于深度学习的目标软文的生成装置，其特征在于，所述第一构建模块还包括：

10.根据权利要求6或7所述的基于深度学习的目标软文的生成装置，其特征在于，所述装置还包括第二构建模块，包括：