CN115238673A

CN115238673A - 文案的生成方法、装置、电子设备及存储介质

Info

Publication number: CN115238673A
Application number: CN202110437033.2A
Authority: CN
Inventors: 王逸凡; 鲍军威
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-10-25

Abstract

本申请提出一种文案的生成方法、装置以及电子设备，涉及自然语言处理技术领域，方法包括：获取目标对象的描述信息；根据所述目标对象的描述信息生成多个候选词，以及每个所述候选词的概率；对所述多个候选词进行分组以生成多个候选词组；分别根据所述多个候选词组之中候选词对应的概率生成多个所述候选词组对应的多个候选文案，其中，对于所述候选词组与其他候选词组重复的候选词进行概率衰减。由此，实现了基于相同的目标对象的描述信息自动生成多样化的文案，且生成的文案通顺、流畅，文案的生成效率高。

Description

文案的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文案的生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，自然语言处理技术在各种场景下起到了愈来愈重要的作用。比如，在电商领域，给定商品的属性等描述信息，通过自然语言处理技术，可以使得机器自动产生流畅的、富有含义的商品文案，从而解放人工，减少人工成本。

目前，常用的自动文案生成方法为，训练encoder-decoder(编码-解码)框架的深度学习模型，模型中的编码模块负责编码输入信息，比如商品属性等描述信息，解码模块根据输入信息内容进行解码，最终生成流程的文案。然而，由于深度学习模型训练完成后参数已经固定，在输入信息相同的情况下，模型的输出结果也是相同的，因此无法基于相同的输入信息自动生成多样化的文案。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

本申请提出一种文案的生成方法、装置、电子设备及存储介质，以解决相关技术中的文案生成方法无法基于相同的输入信息自动生成多样化的文案的技术问题。

本申请第一方面实施例提出了一种文案的生成方法，包括：获取目标对象的描述信息；根据所述目标对象的描述信息生成多个候选词，以及每个所述候选词的概率；对所述多个候选词进行分组以生成多个候选词组；分别根据所述多个候选词组之中候选词对应的概率生成多个所述候选词组对应的多个候选文案，其中，对于所述候选词组与其他候选词组重复的候选词进行概率衰减。

本申请第二方面实施例提出了一种文案的生成装置，包括：获取模块，用于获取目标对象的描述信息；第一生成模块，用于根据所述目标对象的描述信息生成多个候选词，以及每个所述候选词的概率；分组模块，用于对所述多个候选词进行分组以生成多个候选词组；第二生成模块，用于分别根据所述多个候选词组之中候选词对应的概率生成多个所述候选词组对应的多个候选文案，其中，对于所述候选词组与其他候选词组重复的候选词进行概率衰减。

本申请第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请第一方面实施例提出的文案的生成方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请第一方面实施例提出的文案的生成方法。

本申请第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本申请第一方面实施例提出的文案的生成方法。

本申请提出的技术方案，具有如下有益效果：

通过获取目标对象的描述信息后，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率，再对多个候选词进行分组以生成多个候选词组，进而分别根据多个候选词组之中候选词对应的概率生成多个候选词组对应的多个候选文案，其中，对于候选词组与其他候选词组重复的候选词进行概率衰减，实现了基于相同的目标对象描述信息自动生成多样化的文案，且生成的文案通顺、流畅，文案的生成效率高。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为标准束型解码的流程示意图；

图2为本申请实施例一所提供的文案的生成方法的流程示意图；

图3为本申请实施例二所提供的文案的生成方法的流程示意图；

图4为本申请实施例二所提供的文案的生成方法的示例图；

图5为本申请实施例二所提供的文案的生成方法的示例图；

图6为本申请实施例三所提供的文案的生成装置的结构示意图；

图7为本申请实施例四所提供的文案的生成装置的结构示意图；

图8示出了适于用来实现本申请实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

可以理解的是，目前常用的自动文案生成方法为，训练encoder-decoder(编码-解码)框架的深度学习模型，模型中的编码模块负责编码输入信息，比如商品属性等描述信息，解码模块根据输入信息内容进行解码，最终生成流程的文案。然而，由于深度学习模型训练完成后参数已经固定，在输入信息相同的情况下，模型的输出结果也是相同的，因此无法基于相同的输入信息自动生成多样化的文案。

相关技术中，通常采用两种方式，基于相同的输入信息生成多样化的文案。其中一种是在解码模块解码时加入随机扰动，从而使输出结果不相同，但由于随机扰动代表了不确定性与不稳定性，因此这种方式输出的结果往往是不通顺、不流畅的；另外一种是先生成一段描述信息，然后将此描述信息生成的所有词加入黑名单，下次再生成文案时，不允许生成黑名单中的词，但是这种方式需要多次运行编码-解码整个流程，因此效率不高，且这种方式过于粗暴，限定输出词这种设定条件过于严格，会导致输出的文案严重的不流畅。

本申请主要针对相关技术中的文案生成方法无法基于相同的输入信息自动生成多样化的文案的技术问题，提出一种文案的生成方法，该方法获取目标对象的描述信息后，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率，再对多个候选词进行分组以生成多个候选词组，进而分别根据多个候选词组之中候选词对应的概率生成多个候选词组对应的多个候选文案，其中，对于候选词组与其他候选词组重复的候选词进行概率衰减，通过这种方法实现了基于相同的目标对象描述信息自动生成多样化的文案，且生成的文案通顺、流畅，文案的生成效率高。

需要说明的是，本申请提出的文案的生成方法，是利用文案生成模型基于束型解码原理实现的。其中，文案生成模型为编码-解码框架。在示例性实施例中，文案生成模型可以包括顺序连接的基于自注意力机制的编码器、基于自注意力机制的解码器、线性层和softmax层。深度学习模型的编码器、解码器可以是CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Networks，循环神经网络)或Transformer结构，本申请对文案生成模型的结构不作限制，只需能够实现本申请中的文案的生成方法即可。

为了对本申请提出的文案的生成方法的具体过程进行说明，首先结合图1，以生成商品文案为例，对标准束型解码的工作原理以及流程进行说明。其中，图1为标准束型解码的流程示意图。

本实施例中，假设束型解码的解码宽度为2。其中，解码宽度是指每个时刻的候选词的数量。并且，假设要生成长度为2个词语的目标语句。其中，本申请实施例中将目标语句的两个词语按照解码的时序先后分别称为第一位置词语和第二位置词语。

具体的，可以预先生成候选词库，候选词库中包括多个词语，文案生成模型在解码目标语句的第一位置词语时，会生成候选词库中每个词语的概率，并对这些词语按照概率值从高到低的顺序进行排序。其中，生成第一位置词语时，候选词库中每个词语的概率，表征该词语为要生成的目标语句的第一位置词语的可能性。

参考图1，假设在解码第一位置词语时，“这台”这个词语的概率值是0.5，“这部”这个词语的概率值是0.2，且“这台”为候选词库包括的多个词语中概率值最大的词语，“这部”为候选词库包括的多个词语中概率值排在第二位的词语。由于假设束型解码的宽度为2，这表示每个时刻只能选择概率值排在前2位的词语作为目标语句的候选词，因此可以将“这台”和“这部”作为第一位置词语的候选词，并且可以忽略候选词库中的其他词，仅确定其他词的概率值之和即可。其中，图1中用虚线表示其他词对应的路径。

进一步的，可以解码目标语句的第二位置词语，在解码第二位置词语时，文案生成模型会生成候选词库中每个词语的概率，并对这些词语按照概率值从高到低的顺序进行排序。其中，生成第二位置词语时，候选词库中每个词语的概率，表征在目标语句的第一位置词语为特定词语时，该词语为目标句子的第二位置词语的可能性。比如，图1中“这台”后面的“AA”这个词语的概率，表征在目标语句的第一位置词语为“这台”时，“AA”这个词语为目标语句的第二位置词语的可能性。其中，“AA”表示商品的名称。

假设“这台”后面“AA”这个词语的概率值为0.3，“这台”后面“BB”这个词语的概率值为0.2，且这两个词语为候选词库包括的多个词语中概率值排在前两位的词语，其他所有词的概率值之和为0.5，可以将“AA”和“BB”作为第一位置词语为“这台”时，第二位置词语的候选词。类似的，“这部”后面“BB”这个词语的概率值为0.8，“全面屏”这个词语的概率值为0.1，且这两个词语为候选词库包括的多个词语中概率值排在前两位的词语，其他所有词的概率值之和为0.1，可以将“BB”和“全面屏”作为第一位置词语为“这部”时，第二位置词语的候选词。其中，“BB”表示商品的名称。

则根据图1可知，在生成目标词语包括的两个位置词语的过程中，共产生了实线所示的4条候选路径。其中，“开始解码”->“这台”->“AA”这条路径的概率为0.5*0.3＝0.15，“开始解码”->“这台”->“BB”这条路径的概率为0.5*0.2＝0.10，“开始解码”->“这部”->“BB”这条路径的概率为0.2*0.8＝0.16，“开始解码”->“这部”->“全面屏”这条路径的概率为0.2*0.1＝0.02。则可以选择概率最高的一条的路径“开始解码”->“这部”->“BB”，根据该路径确定目标语句为“这部BB”。

下面参考附图描述本申请实施例的文案的生成方法、装置、电子设备及存储介质。

图2为本申请实施例一所提供的文案的生成方法的流程示意图。

需要说明的是，本申请实施例以该文案的生成方法被配置于文案的生成装置中来举例说明，该文案的生成装置可以应用于任一电子设备中，以使该电子设备可以执行基于输入信息自动生成多样化的文案的功能。另外，本申请实施例提供的文案的生成方法，可以应用于生成任意类型的文案的场景，比如生成商品文案、生成个人简历的文案、生成团队介绍文案等，本申请对此不作限制。

其中，电子设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图2所示，该文案的生成方法可以包括以下步骤：

步骤201，获取目标对象的描述信息。

其中，目标对象的描述信息，为待生成文案的对象的描述信息。比如，生成商品文案时，目标对象为具体的商品，目标对象的描述信息可以包括商品的标识或名称等信息，以及描述商品属性的信息，比如商品的材质、规格、重量、价格、用途、风格、尺寸等信息，还可以包括其它任意与商品有关的信息；生成某用户的个人简历文案时，目标对象为该用户，目标对象的描述信息可以包括该用户的年龄、性别、爱好、教育背景、入职意向等任意与该用户有关的信息；生成团队介绍文案时，目标对象为该团队，目标对象的描述信息，可以包括该团队的名称、人数、口号、团队中每个用户的技能等任意与该团队有关的信息，本申请对目标对象的描述信息包括何种信息不作限制。

步骤202，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率。

其中，每个候选词的概率，可以表征对应候选词为目标语句中各词语的可能性。比如，候选词的概率，可以表征该候选词为目标语句中第一位置词语的可能性，或者表征在目标语句的第一位置词语为特定词语时，该候选词为目标语句的第二位置词语的可能性，等等。

在示例性实施例中，根据目标对象的描述信息生成多个候选词的过程可以为：对目标对象的描述信息进行编码以生成目标对象表征向量；根据目标对象表征向量查询候选词库以生成多个候选词，以及每个候选词的概率。

其中，目标对象表征向量，可以是将目标对象的描述信息作为整体进行编码后生成的目标对象的描述信息对应的目标对象表征向量，也可以是对目标对象的描述信息进行分词后，对每个分词结果分别进行编码生成的每个分词结果分别对应的表征向量，本申请对此不作限制。

在示例性实施例中，可以预先设置候选词库，候选词库中包括多个词语，从而在获取目标对象表征向量后，可以根据目标对象表征向量查询候选词库，以确定目标对象表征向量与候选词库中各词语的匹配度，并将各词语按照匹配度从高到低的顺序排序，从而将排序在前的预设数量的词语作为目标对象的描述信息对应的多个候选词，并根据该多个候选词中每个候选词与目标对象表征向量的匹配度，确定对应候选词的概率。

其中，预设数量，可以根据解码宽度，即每个时刻的候选词的数量确定。比如，解码宽度为4时，则对应的预设数量为4，解码宽度为2时，则对应的预设数量为2。

需要说明的是，上述根据目标对象的描述信息生成多个候选词以及每个候选词的概率的过程，仅是举例说明，在实际应用中，本领域技术人员可以根据需要采用相关技术中的任意候选词确定方式，根据目标对象的描述信息生成多个候选词以及每个候选词的概率，本申请对此不作限制。

步骤203，对多个候选词进行分组以生成多个候选词组。

步骤204，分别根据多个候选词组之中候选词对应的概率生成多个候选词组对应的多个候选文案，其中，对于候选词组与其他候选词组重复的候选词进行概率衰减。

可以理解的是，标准束型解码的流程中，解码目标语句中的每个词语时，在每个时刻均是根据解码宽度所允许的候选词数量，来确定候选词，进而根据候选词形成的路径选择概率最大的路径来生成文案，这种方式最终只能生成一个文案。

本申请中，可以将多个候选词进行分组，以生成多个候选词组，其中，对于候选词组中与其他候选词组重复的候选词进行概率衰减，并且根据概率衰减后的候选词的概率以及候选词库中其它词语的概率，对候选词组包括的各候选词进行更新，来保证每个候选词组中的候选词不同，进而根据每个候选词组，生成一个候选文案，由此，可以根据多个候选词组中候选词的概率，生成多个候选词组对应的多个候选文案，即最终要生成的目标文案。

本申请实施例的文案的生成方法，通过在标准束型解码的流程中加入分组的概念，组内遵从束型解码流程，组间对于重复候选词进行概率衰减，以降低其生成的概率，实现了基于相同的目标对象描述信息，自动一次性生成多个通顺、流畅的候选文案，且生成多样化文案的效率高。

本申请提供的文案的生成方法，获取目标对象的描述信息后，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率，再对多个候选词进行分组以生成多个候选词组，进而分别根据多个候选词组之中候选词对应的概率生成多个候选词组对应的多个候选文案，其中，对于候选词组与其他候选词组重复的候选词进行概率衰减，实现了基于相同的目标对象描述信息自动生成多样化的文案，且生成的文案通顺、流畅，文案的生成效率高。

下面结合图3，对本申请实施例中的文案的生成方法进行进一步说明。

图3为本申请实施例二所提供的文案的生成方法的流程示意图。如图3所示，该文案的生成方法包括以下步骤：

步骤301，获取目标对象的描述信息。

步骤302，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率。

其中，上述步骤301-302的具体实现过程及原理，可以参考上述实施例的描述，此处不再赘述。

步骤303，获取解码宽度，以及目标文案个数。

步骤304，根据解码宽度和目标文案个数对多个候选词进行分组以生成多个候选词组。

其中，多个候选词组为N个，N为正整数。解码宽度，是指每个时刻的候选词的数量。

在示例性实施例中，可以将目标文案个数，确定为候选词组个数，即需要生成多少个目标文案，则将多个候选词分为多少个候选词组。另外，可以设置候选词组包括多个候选词位置，其中，每个候选词位置，对应目标文案包括的一个词语，比如第一候选词位置对应目标文案的第一位置词语，表示第一候选词位置对应的候选词为目标文案的第一位置词语对应的候选词，候选词组中每个候选词位置在每个时刻对应的候选词的数量，可以根据解码宽度以及目标文案个数确定。

举例来说，假设解码宽度为4，目标文案个数为2，目标文案中包括的词语数量为2，则可以生成2个候选词组，每个候选词组中包括两个候选词位置，其中每个候选词组中每个候选词位置在每个时刻对应的候选词的数量，为解码宽度与目标文案个数的比值，即4/2。

步骤305，根据第i候选词组之中多个第i候选词的概率从多个第i候选词之中提取目标词，并将目标词添加至目标词列表，其中，i为小于N的正整数。

在示例性实施例中，每个候选词组包括多个候选词位置，每个候选词位置对应一个目标词列表。

针对第i候选词组中每个候选词位置，可以将候选词位置对应的第i候选词按照概率从高到低的顺序排列，并提取排在前面的预设个数的第i候选词作为目标词，进而将目标词添加至该候选词位置对应的目标词列表。

其中，从第i候选词组中某个候选词位置对应的第i候选词中提取目标词时，提取的第i候选词的预设个数，可以根据解码宽度及目标文案的个数确定。其中，可以将预设个数确定为解码宽度与目标文案的个数的比值。

举例来说，假设第i候选词包括2个候选词位置，每个候选词位置对应一个目标词列表，解码宽度与目标文案的个数的比值为3，则可以将第i候选词组中第一候选词位置对应的多个第i候选词，按照对应的概率值从高到低的顺序排列，并提取排在前面的3个第i候选词作为目标词，进而将目标词添加至第一候选词位置对应的目标词列表。类似的，可以将第i候选词组中第二候选词位置对应的多个第i候选词，按照对应的概率值从高到低的顺序排列，并提取排在前面的3个第i候选词作为目标词，进而将目标词添加至第二候选词位置对应的目标词列表。

步骤306，判断第i+1候选词组之中多个第i+1候选词是否与目标词列表之中的目标词重复，若是，则执行步骤307，否则，执行步骤309。

步骤307，对重复的第i+1候选词的概率进行概率衰减。

在示例性实施例中，可以判断第i+1候选词组中，每个候选词位置对应的第i+1候选词，是否与相同位置的目标词列表中的目标词重复，若重复，则对重复的第i+1候选词的概率进行概率衰减。

其中，对第i+1候选词的概率进行概率衰减的方式，可以为将第i+1候选词的概率与预设比例相乘。其中，预设比例为大于0且小于1的数值，比如，预设比例可以为0.4、0.3等。或者，对第i+1候选词的概率进行概率衰减的方式，也可以为将第i+1候选词的概率与预设概率作差。其中，预设概率可以为0.1、0.2等。本申请对概率衰减的方式不作限制，只需可以实现将候选词的概率减少即可。

步骤308，根据概率衰减之后的第i+1候选词组之中多个第i+1候选词的概率从多个第i+1候选词之中提取目标词，并将目标词添加至目标词列表。

步骤309，根据第i+1候选词组之中多个第i+1候选词的概率从多个第i+1候选词之中提取目标词，并将目标词添加至目标词列表。

在示例性实施例中，对重复的第i+1候选词的概率进行概率衰减后，针对第i+1候选词组中每个候选词位置，可以先根据衰减之后的该候选词位置对应的多个第i+1候选词的概率，以及候选词库中该候选词位置对应的其它词语的概率，对第i+1候选词组中该候选词位置对应的多个第i+1候选词进行更新，进而从更新后的第i+1候选词中提取目标词，并将目标词添加至目标词列表。进而该目标词列表可以用于判断是否对下一个候选词组中的候选词的概率进行概率衰减。其中，从更新后的第i+1候选词中提取目标词的方式与从第i候选词中提取目标词的方式相同，此处不再赘述。

在示例性实施例中，以对第i+1候选词组中第一候选词位置对应的多个第i+1候选词进行更新的过程为例，可根据衰减之后的第i+1候选词组之中第一候选词位置对应的多个第i+1候选词的概率，以及候选词库中第一候选词位置对应的其它词语的概率，将各词语按照概率值从高到低的顺序排序，从而将排序在前的预设个数的词语作为新的第i+1候选词，对第i+1候选词组中第一候选词位置对应的多个第i+1候选词进行更新。其中，预设个数，可以根据该第一候选词位置对应的候选词的数量确定。

需要说明的是，第i+1候选词组之中多个第i+1候选词与目标词列表之中的目标词不重复时，仍然根据原始的第i+1候选词组之中多个第i+1候选词的概率从多个第i+1候选词之中提取目标词，并将目标词添加至目标词列表。

在确定了每个候选词组中每个候选词位置对应的候选词后，针对每个候选词组中包括的各候选词位置对应的候选词形成的路径，可以从中选择概率最大的路径来生成一个候选文案，从而可以生成每个候选词组对应的一个候选文案，以生成多个候选文案。

下面结合图4，以生成商品文案为例，对根据本申请实施例提供的文案生成方法生成多个候选商品文案的过程进行说明。

首先假设解码宽度为4，即每个时刻的候选词的数量为4，并且假设最终要生成2个具有差异化的候选商品文案，候选商品文案中包括2个词语。则需要生成2个候选词组，每个候选词组中的每个候选词位置在每个时刻包括2个候选词。并且，提取并添加至目标词列表中的候选词的个数为2个。其中，图4中的黑色长实线为组与组的区分标志，假设上部分为第一组、下部分为第二组。解码时，可以按照先时序后组序的流程进行解码。即，在解码时，先解码第一组的第一位置词语，再解码第二组的第一位置词语，再解码第一组的第二位置词语，再解码第二组的第二位置词语。

具体的，假设“这台”和“这部”，是解码第一组的第一位置词语时，候选词库中排序在前两位的词语，概率分别是0.5和0.2，即第一候选词组中第一候选词位置包括“这台”和“这部”，由于需要提取并添加至目标词列表中的候选词的个数为2个，则可以将“这台”和“这部”添加至第一候选词位置对应的目标词列表S1中，得到S1＝[这台，这部]。

进一步的，可以解码第二组的第一位置词语，假设第二候选词组中第一候选词位置包括的候选词为“这台”和“这部”，由于这两个候选词和目标词列表S1中的目标词重复，则可以对这两个候选词的概率进行概率衰减，假设衰减方式是将概率值与预设比值p＝0.4相乘，则可以将“这台”的概率降低为0.2，将“这部”的概率降低为0.08。进一步的，可以根据概率衰减后的“这台”和“这部”的概率，以及候选词库中第一位置词语对应的其它词的概率，将各词语按照概率值从高到低的顺序排序，将排序在前的2个词语作为第二候选词组中第一候选词位置对应的新的候选词。参考图4，由于“AA”这个词与目标词列表S1中目标词不重复，没有进行概率衰减，排到了第二位，则新的第二候选词组中第一候选词位置对应的候选词为“这台”和“AA”，并且，可以将这两个候选词作为目标词，添加至目标词列表S1中，得到S1＝[这台，这部，这台，AA]。其中，“AA”表示商品名称。

进一步的，可以解码第一组的第二位置词语，假设第一候选词组中第二候选词位置对应的候选词包括：“这台”后面的“AA”和“BB”、“这部”后面的“BB”和“全面屏”，由于按照概率值从高到低的顺序排序，排在前两位的是“AA”和“BB”，则可以将“AA”和“BB”添加至第二候选词位置对应的目标词列表S2中，得到S2＝[AA，BB]。其中，“BB”表示商品名称。

进一步的，可以解码第二组的第二位置词语，假设第二候选词组中第二候选词位置包括：“这台”后面的“AA”和“BB”、“AA”后面的“BB”和“手机”，由于“AA”和“BB”，与目标词列表S2中的目标词重复，则可以对这两个候选词的概率进行概率衰减，得到图4所示的衰减后概率。进一步的，可以根据概率衰减后的“AA”和“BB”的概率，以及候选词库中第二候选词位置对应的其它词的概率，将各词语按照概率值从高到低的顺序排序，以对第二候选词组中第二候选词位置对应的候选词进行更新。假设更新后的第二候选词组中第二候选词位置对应的候选词，包括“这台”后面的“AA”和“BB”、“这部”后面的“BB”和“全面屏”，且将这几个候选词按照概率值从高到低的顺序排序，排序在前的2个词语为“BB”和“手机”，则可以将“BB”和“手机”作为目标词，添加至目标词列表S2中，得到S2＝[AA，BB，BB，手机]。

参考图4可知，各个候选词组中各个候选词位置对应的候选词形成了多条路径，针对第一候选词组中包括的各候选词位置对应的候选词形成的路径，可以从中选择概率最大的路径“开始解码”->“这部”->“BB”(图4中上部分的粗箭头所示)来生成一个候选商品文案，针对第二候选词组中包括的各候选词位置对应的候选词形成的路径，可以从中选择概率最大的路径“开始解码”->“AA”->“手机”(图4中下部分的粗箭头所示)来生成一个候选商品文案，从而可以生成2个候选商品文案。

下面结合图5，以生成团队介绍文案为例，对根据本申请实施例提供的文案生成方法生成多个候选团队介绍文案的过程进行说明。

首先假设解码宽度为4，即每个时刻的候选词的数量为4，并且假设最终要生成2个具有差异化的候选团队介绍文案，候选团队介绍文案中包括2个词语。则需要生成2个候选词组，每个候选词组中的每个候选词位置在每个时刻包括2个候选词。并且，提取并添加至目标词列表中的候选词的个数为2个。其中，图5中的黑色长实线为组与组的区分标志，假设上部分为第一组、下部分为第二组。解码时，可以按照先时序后组序的流程进行解码。即，在解码时，先解码第一组的第一位置词语，再解码第二组的第一位置词语，再解码第一组的第二位置词语，再解码第二组的第二位置词语。

具体的，假设“团队”和“这个”，是解码第一组的第一位置词语时，候选词库中排序在前两位的词语，概率分别是0.5和0.3，即第一候选词组中第一候选词位置包括“团队”和“这个”，由于需要提取并添加至目标词列表中的候选词的个数为2个，则可以将“团队”和“这个”添加至第一候选词位置对应的目标词列表S1中，得到S1＝[团队，这个]。

进一步的，可以解码第二组的第一位置词语，假设第二候选词组中第一候选词位置包括的候选词为“团队”和“这个”，由于这两个候选词和目标词列表S1中的目标词重复，则可以对这两个候选词的概率进行概率衰减，假设衰减方式是将概率值与预设比值p＝0.4相乘，则可以将“团队”的概率降低为0.2，将“这个”的概率降低为0.12。进一步的，可以根据概率衰减后的“团队”和“这个”的概率，以及候选词库中第一位置词语对应的其它词的概率，将各词语按照概率值从高到低的顺序排序，将排序在前的2个词语作为第二候选词组中第一候选词位置对应的新的候选词。参考图5，由于“CC”这个词与目标词列表S1中目标词不重复，没有进行概率衰减，排到了第二位，则新的第二候选词组中第一候选词位置对应的候选词为“团队”和“CC”，并且，可以将这两个候选词作为目标词，添加至目标词列表S1中，得到S1＝[团队，这个，团队，CC]。其中，“CC”表示团队名称。

进一步的，可以解码第一组的第二位置词语，假设第一候选词组中第二候选词位置对应的候选词包括：“团队”后面的“包括”和“口号”、“这个”后面的“团队”和“队伍”，由于按照概率值从高到低的顺序排序，排在前两位的是“包括”和“队伍”，则可以将“包括”和“队伍”添加至第二候选词位置对应的目标词列表S2中，得到S2＝[包括，队伍]。

进一步的，可以解码第二组的第二位置词语，假设第二候选词组中第二候选词位置包括：“团队”后面的“包括”和“口号”、“CC”后面的“成立”和“创立”，由于“包括”与目标词列表S2中的目标词重复，则可以对这个候选词的概率进行概率衰减，其中，假设“团队”后面的“包括”衰减后的概率为0.2。进一步的，可以根据概率衰减后的“包括”的概率，以及候选词库中第二候选词位置对应的其它词的概率，将各词语按照概率值从高到低的顺序排序，以对第二候选词组中第二候选词位置对应的候选词进行更新。假设更新后的第二候选词组中第二候选词位置对应的候选词，包括“团队”后面的“成立”和“口号”、“CC”后面的“成立”和“创立”，且将这几个候选词按照概率值从高到低的顺序排序，排序在前的2个词语为“成立”和“口号”，则可以将“成立”和“口号”作为目标词，添加至目标词列表S2中，得到S2＝[包括，团队，成立，口号]。

参考图5可知，各个候选词组中各个候选词位置对应的候选词形成了多条路径，针对第一候选词组中包括的各候选词位置对应的候选词形成的路径，可以从中选择概率最大的路径“开始解码”->“这个”->“团队”(图5中上部分的粗箭头所示)来生成一个候选团队介绍文案，针对第二候选词组中包括的各候选词位置对应的候选词形成的路径，可以从中选择概率最大的路径“开始解码”->“CC”->“成立”(图5中下部分的粗箭头所示)来生成一个候选团队介绍文案，从而可以生成2个候选团队介绍文案。

本申请实施例的文案的生成方法，获取目标对象的描述信息后，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率，获取解码宽度，以及目标文案个数，根据解码宽度和目标文案个数对多个候选词进行分组以生成多个候选词组，根据第i候选词组之中多个第i候选词的概率从多个第i候选词之中提取目标词，并将目标词添加至目标词列表，其中，i为小于N的正整数，判断第i+1候选词组之中多个第i+1候选词是否与目标词列表之中的目标词重复，如果重复，则对重复的第i+1候选词的概率进行概率衰减，根据概率衰减之后的第i+1候选词组之中多个第i+1候选词的概率从多个第i+1候选词之中提取目标词，并将目标词添加至目标词列表，如果不重复，则根据第i+1候选词组之中多个第i+1候选词的概率从多个第i+1候选词之中提取目标词，并将目标词添加至目标词列表。实现了基于相同的目标对象描述信息自动生成多样化的文案，且生成的文案通顺、流畅，文案的生成效率高。

图6为本申请实施例三所提供的文案的生成装置的结构示意图。

如图6所示，该文案的生成装置600可以包括：获取模块610、第一生成模块620、分组模块630和第二生成模块640。

其中，获取模块610，用于获取目标对象的描述信息；

第一生成模块620，用于根据目标对象的描述信息生成多个候选词，以及每个候选词的概率；

分组模块630，用于对多个候选词进行分组以生成多个候选词组；

第二生成模块640，用于分别根据多个候选词组之中候选词对应的概率生成多个候选词组对应的多个候选文案，其中，对于候选词组与其他候选词组重复的候选词进行概率衰减。

进一步地，在本申请实施例的一种可能的实现方式中，第一生成模块620，具体用于：

对目标对象的描述信息进行编码以生成目标对象表征向量；

根据目标对象表征向量查询候选词库以生成多个候选词，以及每个候选词的概率。

进一步地，在本申请实施例的一种可能的实现方式中，分组模块630，具体用于：

获取解码宽度，以及目标文案个数；

根据解码宽度和目标文案个数对多个候选词进行分组以生成多个候选词组。

进一步地，在本申请实施例的一种可能的实现方式中，多个候选词组为N个，N为正整数，其中，结合参考图7，在图6所示实施例的基础上，第二生成模块640，包括：

第一提取单元6410，用于根据第i候选词组之中多个第i候选词的概率从多个第i候选词之中提取目标词，并将目标词添加至目标词列表，其中，i为小于N的正整数；

判断单元6420，用于判断第i+1候选词组之中多个第i+1候选词是否与目标词列表之中的目标词重复；

衰减单元6430，用于在第i+1候选词组之中多个第i+1候选词与目标词列表之中的目标词重复时，对重复的第i+1候选词的概率进行概率衰减；

第二提取单元6440，用于根据概率衰减之后的所述第i+1候选词组之中多个第i+1候选词的概率从所述多个第i+1候选词之中提取目标词，并将目标词添加至目标词列表。

进一步地，在本申请实施例的一种可能的实现方式中，每个候选词组包括多个候选词位置，每个候选词位置对应一个目标词列表，其中，判断单元具体用于判断多个第i+1候选词是否与相同候选词位置的目标词列表之中的目标词重复。

需要说明的是，前述文案的生成方法实施例中的解释说明也适用于该实施例的文案的生成装置，此处不再赘述。

本申请实施例的文案的生成装置，获取目标对象的描述信息后，根据目标对象的描述信息生成多个候选词，以及每个候选词的概率，再对多个候选词进行分组以生成多个候选词组，进而分别根据多个候选词组之中候选词对应的概率生成多个候选词组对应的多个候选文案，其中，对于候选词组与其他候选词组重复的候选词进行概率衰减，实现了基于相同的目标对象描述信息自动生成多样化的文案，且生成的文案通顺、流畅，文案的生成效率高。

为了实现上述实施例，本申请还提出一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请前述实施例提出的文案的生成方法。

为了实现上述实施例，本申请还提出一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请前述实施例提出的文案的生成方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本申请前述实施例提出的文案的生成方法。

图8示出了适于用来实现本申请实施方式的示例性电子设备的框图。图8显示的电子设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图8中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文案的生成方法，其特征在于，包括：

获取目标对象的描述信息；

根据所述目标对象的描述信息生成多个候选词，以及每个所述候选词的概率；

对所述多个候选词进行分组以生成多个候选词组；

分别根据所述多个候选词组之中候选词对应的概率生成多个所述候选词组对应的多个候选文案，其中，对于所述候选词组与其他候选词组重复的候选词进行概率衰减。

2.如权利要求1所述的方法，其特征在于，所述根据所述目标对象的描述信息生成多个候选词，以及每个所述候选词的概率，包括：

对所述目标对象的描述信息进行编码以生成目标对象表征向量；

根据所述目标对象表征向量查询候选词库以生成所述多个候选词，以及每个所述候选词的概率。

3.如权利要求1所述的方法，其特征在于，所述对所述多个候选词进行分组以生成多个候选词组，包括：

获取解码宽度，以及目标文案个数；

根据所述解码宽度和所述目标文案个数对所述多个候选词进行分组以生成所述多个候选词组。

4.如权利要求1所述的方法，其特征在于，所述多个候选词组为N个，N为正整数，其中，所述分别根据所述多个候选词组之中候选词对应的概率生成多个所述候选词组对应的多个候选文案，包括：

根据第i候选词组之中多个第i候选词的概率从所述多个第i候选词之中提取目标词，并将所述目标词添加至目标词列表，其中，i为小于N的正整数；

判断第i+1候选词组之中多个第i+1候选词是否与所述目标词列表之中的目标词重复；

如果重复，则对重复的所述第i+1候选词的概率进行概率衰减；

根据概率衰减之后的所述第i+1候选词组之中多个第i+1候选词的概率从所述多个第i+1候选词之中提取目标词，并将所述目标词添加至目标词列表。

5.如权利要求4所述的方法，其特征在于，每个所述候选词组包括多个候选词位置，每个候选词位置对应一个目标词列表，其中，判断多个第i+1候选词是否与相同候选词位置的所述目标词列表之中的目标词重复。

6.一种文案的生成装置，其特征在于，包括：

获取模块，用于获取目标对象的描述信息；

第一生成模块，用于根据所述目标对象的描述信息生成多个候选词，以及每个所述候选词的概率；

分组模块，用于对所述多个候选词进行分组以生成多个候选词组；

第二生成模块，用于分别根据所述多个候选词组之中候选词对应的概率生成多个所述候选词组对应的多个候选文案，其中，对于所述候选词组与其他候选词组重复的候选词进行概率衰减。

7.如权利要求6所述的装置，其特征在于，所述第一生成模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述分组模块，具体用于：

获取解码宽度，以及目标文案个数；

9.如权利要求6所述的装置，其特征在于，所述多个候选词组为N个，N为正整数，其中，所述第二生成模块，包括：

第一提取单元，用于根据第i候选词组之中多个第i候选词的概率从所述多个第i候选词之中提取目标词，并将所述目标词添加至目标词列表，其中，i为小于N的正整数；

判断单元，用于判断第i+1候选词组之中多个第i+1候选词是否与所述目标词列表之中的目标词重复；

衰减单元，用于在所述第i+1候选词组之中多个第i+1候选词与所述目标词列表之中的目标词重复时，对重复的所述第i+1候选词的概率进行概率衰减；

第二提取单元，用于根据概率衰减之后的所述第i+1候选词组之中多个第i+1候选词的概率从所述多个第i+1候选词之中提取目标词，并将所述目标词添加至目标词列表。

10.如权利要求9所述的装置，其特征在于，每个所述候选词组包括多个候选词位置，每个候选词位置对应一个目标词列表，其中，所述判断单元具体用于判断多个第i+1候选词是否与相同候选词位置的所述目标词列表之中的目标词重复。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。