CN112446206A

CN112446206A - 一种菜谱标题的生成方法及装置

Info

Publication number: CN112446206A
Application number: CN201910761972.5A
Authority: CN
Inventors: 李旭瑞; 李红松; 王剑; 蓝金炯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-03-05

Abstract

本申请提供一种菜谱标题的生成方法及装置。所述生成方法，包括：针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词；根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列；根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题；将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。采用本申请提供的菜谱标题的生成方法，减少了数据在用于生成菜谱标题的网络中的处理时间。

Description

一种菜谱标题的生成方法及装置

技术领域

本申请涉及深度学习领域，具体涉及一种菜谱标题的生成方法及装置。

背景技术

利用自然语言处理(NLP，Natural Language Processing)等技术，针对菜谱等文本数据进行自动化处理，获得该文本数据的标题(如菜谱标题)，在各种生活类应用中的使用越来越广泛。例如，在一些生活类应用上有菜谱推荐，通过菜谱数据进行处理，自动生成能够吸引用户的菜谱标题。

现有技术中，一般使用Seq2Seq模型，或者指针网络(Pointer Networks)，或者指针生成器网络(PGN，Pointer-GeneratorNetworks)针对文本数据进(如菜谱数据)行处理，获得文本数据的标题(如菜谱标题)。

但是，将文本数据直接输入这些网络，进而生成文本数据的标题，存在着数据在网络中的处理时间过长的问题。

发明内容

本申请提供一种菜谱标题的生成方法及装置，以减少数据在用于生成菜谱标题的网络中的处理时间。

所述菜谱标题的生成方法，包括：

针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词；

根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列；

根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题；

将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。

可选的，所述针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词，包括：

针对待处理的菜谱源数据执行分词以及去停用词中的至少一种预处理操作，获得所述菜谱源数据的词语；

针对所述菜谱源数据的词语进行统计，获得所述词语的词频逆文本频率值；

根据所述词语的词频逆文本频率值，获得所述菜谱源数据中的关键词。

可选的，所述根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列，包括：

根据所述关键词在所述菜谱源数据中的词频值的大小，针对所述关键词进行排序，获得关键词序列；或者，

针对所述关键词执行随机排列组合操作，获得关键词序列；或者，

随机丢弃所述关键词中的至少一个关键词，获得关键词序列。

可选的，所述根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题，包括：

将所述关键词序列进行序列转换，获得所述菜谱源数据的生成标题；

针对所述生成标题以及所述菜谱源数据的原始标题执行命名实体识别，获得所述生成标题的第一命名实体以及所述原始标题的第二命名实体；

将所述第一命名实体和所述第二命名实体执行匹配操作，获得所述第一命名实体和所述第二命名实体的匹配度；

根据所述匹配度，获得所述菜谱源数据的候选标题。

根据所述生成标题的语法以及所述生成标题的风格，针对所述生成标题进行筛选，获得所述菜谱源数据的候选标题。

可选的，所述根据所述生成标题的语法以及所述生成标题的风格，针对所述生成标题进行筛选，获得所述菜谱源数据的候选标题，包括：

获得用于筛选所述生成标题的语法以及所述生成标题的风格的分类器模型；

将所述生成标题输入所述分类器模型，获得所述菜谱源数据的候选标题。

可选的，所述获得用于筛选所述生成标题的语法以及所述生成标题的风格的分类器模型，包括：

构建用于筛选所述生成标题的语法以及所述生成标题的风格的分类器；

将人工选取的优质标题，作为训练所述分类器的正样本；

针对所述正样本执行随机打乱顺序、随机丢弃词语以及随机增加词语中至少一种操作，将操作后的数据作为训练所述分类器的负样本；

利用所述正样本和所述负样本，针对所述分类器进行训练，获得用于筛选所述生成标题的语法以及所述生成标题的风格的分类器模型。

将所述生成标题进行敏感词过滤，获得所述菜谱源数据的候选标题。

可选的，所述将来自所述网络模型的候选标题进行融合处理，生成菜谱标题，包括：

获取来自第一网络模型的第一候选标题；

获取来自第二网络模型的第二候选标题；

根据指定的评分规则，针对所述第一候选标题和所述第二候选标题进行评分，获得所述第一候选标题的评分以及所述第二候选标题的评分；

根据所述第一候选标题的评分以及所述第二候选标题的评分，生成菜谱标题。

可选的，所述菜谱标题的生成方法，还包括：

根据所述菜谱源数据的标题与所述菜谱源数据之间的匹配程度，针对所述菜谱源数据的标题进行筛选，获得所述菜谱源数据的优化标题。

可选的，所述根据所述菜谱源数据的标题与所述菜谱源数据之间的匹配程度，针对所述菜谱源数据的标题进行筛选，获得所述菜谱源数据的优化标题，包括：

构建品质特征分类器；

训练所述品质特征分类器，获得品质特征分类器模型；

将所述菜谱源数据输入所述品质特征分类器模型，获得所述菜谱源数据的优化标题。

可选的，所述训练所述品质特征分类器，获得品质特征分类器模型，包括：

将第一菜谱源数据在所述网络模型的处理过程中被过滤掉的第一标题以及所述第一菜谱源数据，作为所述品质特征分类器的负样本；

将所述网络模型生成的第二菜谱源数据的第二标题以及所述第二菜谱源数据，作为所述品质特征分类器的正样本；

根据所述品质特征分类器的负样本和所述品质特征分类器的正样本，训练所述品质特征分类器，获得品质特征分类器模型。

可选的，所述根据所述品质特征分类器的负样本和所述品质特征分类器的正样本，训练所述品质特征分类器，获得品质特征分类器模型，包括：

将所述品质特征分类器的负样本和所述品质特征分类器的正样本进行K折交叉验证，获得所述品质特征分类器的训练样本；

利用所述品质特征分类器的训练样本，训练所述品质特征分类器，获得品质特征分类器模型。

可选的，所述菜谱标题的生成方法，还包括：

获取所述排列规则对应的网络模型。

可选的，所述获取所述排列规则对应的网络模型，包括：

构建指针生成器网络；

利用所述关键词序列针对所述指针生成器网络进行训练，获得所述排列规则对应的网络模型。

本申请提供一种菜谱标题的生成装置，包括：

提取单元，用于针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词；

调整单元，用于根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列；

获得单元，用于根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题；

生成单元，用于将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。

可选的，所述提取单元，具体用于：

可选的，所述调整单元，具体用于：

可选的，所述获得单元，具体用于：

根据所述匹配度，获得所述菜谱源数据的候选标题。

可选的，所述获得单元，还用于：

将人工选取的优质标题，作为训练所述分类器的正样本；

可选的，所述获得单元，还用于：

可选的，所述生成单元，具体用于：

获取来自第一网络模型的第一候选标题；

获取来自第二网络模型的第二候选标题；

可选的，所述菜谱标题的生成装置，还包括筛选单元，所述筛选单元用于：

可选的，所述筛选单元，具体用于：

构建品质特征分类器；

训练所述品质特征分类器，获得品质特征分类器模型；

可选的，所述筛选单元，还用于：

可选的，所述菜谱标题的生成装置，还包括网络模型获取单元，所述网络模型获取单元用于：

获取所述排列规则对应的网络模型。

可选的，所述网络模型获取单元，具体用于：

构建指针生成器网络；

本申请提供一种标题的生成方法，包括：

针对待处理的文本数据进行信息提取，获得所述文本数据中的关键词；

根据所述关键词，获得所述文本数据的标题。

可选的，所述根据所述关键词，获得所述文本数据的标题，包括：

根据所述关键词序列，获得所述文本数据的标题。

可选的，所述根据所述关键词序列，获得所述文本数据的标题，包括：

根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述文本数据的候选标题；

将来自所述网络模型的候选标题进行融合处理，生成所述文本数据的标题。

本申请提供一种电子设备，包括：

处理器；

以及.

存储器，用于存储计算机程序，该设备通过所述处理器运行该计算机程序后，执行如前任意一项所述方法。

本申请提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该程序被处理器运行，执行如前任意一项所述方法。

与现有技术相比，本申请具有如下优点：

本申请提供的菜谱标题的生成方法，针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词；根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列；根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题；将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。采用本申请提供的菜谱标题的生成方法，针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词，将关键词输入网络模型进行处理，减少了网络模型的输入数据的数量，从而提高了菜谱源数据在网络模型中的处理时间。同时，将来自排列规则对应的网络模型的候选标题进行融合处理，生成菜谱标题，还提高了生成的菜谱标题的覆盖率。

附图说明

图1是本申请提供的一种菜谱标题的生成方法的应用场景实施例示意图。

图2是本申请第一实施例提供的一种菜谱标题的生成方法的流程图。

图3是本申请第一实施例涉及的一种采用多模型并行生成框架用于生成菜谱标题的指针生成器网络模型的示意图。

图4是本申请第一实施例涉及的一种采用多模型并行生成框架的系统示意图。

图5是第二实施例提供的一种菜谱标题的生成装置的示意图。

图6是本申请第三实施例提供的一种标题的生成方法的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

为了使本领域的技术人员更好的理解本申请方案，首先对本申请的一个具体应用场景实施例进行详细描述。如图1所示，其为本申请提供的一种菜谱标题的生成方法的应用场景的实施例示意图。在具体实施过程中，可以由用户108-1通过客户端设备106-1上的客户端应用107-1，利用网络105向菜谱数据服务器109发送获取菜谱数据的指令，菜谱数据服务器109根据该指令向客户端应用107-1返回菜谱数据，客户端应用107-1将所述菜谱数据通过网络105发送到菜谱标题生成服务器100。所述菜谱标题生成服务器100收到菜谱数据后，将所述菜谱数据发送到提取单元101，所述提取单元101针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词。然后，通过调整单元102，根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列。接着，通过获得单元103，根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题。进而，通过生成单元104，将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。最后，菜谱标题生成服务器100将生成的菜谱源数据的标题返回到客户端应用107-1。

本申请第一实施例提供一种菜谱标题的生成方法。请参看图2，该图为本申请第一实施例的流程图。以下结合图2对本申请第一实施例进行详细说明。所述方法包括如下步骤：

步骤S201：针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词。

本步骤用于针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词。

所述针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词，包括：

下面的表1提供了从菜谱源数据中获得所述菜谱源数据中的关键词的一个例子。下面以表1为例，对于本步骤进行说明。

表1

所述分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。所述停用词是指在信息处理中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。所述词频逆文本频率值(TF-IDF，Term Frequency-Inverse Document Frequency)是一种用于信息检索与信息挖掘的常用加权术，用以评估字词对于语料库中的其中一份文件的重要程度。字词的重要性与它在文件中出现的次数成正比，与它在语料库中出现的频率成反比下降。由于这些概念是NLP中的常用技术手段，这里仅做简要说明，不再对词频逆文本频率值的计算方法进行举例说明。

首先，针对表1中待处理的菜谱源数据执行分词以及去停用词中的至少一种预处理操作，获得所述菜谱源数据的词语。从表1中可以看出，所述菜谱源数据可以包括菜谱的原标题(五花肉烧萝卜的做法)、制作步骤、心情故事、主要食材等，将这些数据拼接后，作为菜谱源数据。然后，针对所述菜谱源数据的词语进行统计，获得所述词语的词频逆文本频率值。最后，根据所述词语的词频逆文本频率值，获得表1中的关键词。

现有技术中，通常直接将菜谱源数据直接输入训练后的网络模型，获得菜谱的标题。同时，该网络模型的训练可以采用具有较好菜谱标题的菜谱样本源数据。

所述网络模型可以使用Seq2Seq模型，其主要思想是通过深度学习网络(通常采用RNN循环神经网络)，将输入的序列：X＝{x₁，x₂，...，x_n}映射为一个作为输出的序列：Y＝{y₁，y₂，...，y_m}，整个过程分为编码和解码两个环节。

编码器(Encoder)，以LSTM(Long Short-Term Memory)为例：编码过程将各类不同的输入序列X经过LSTM得到语境向量c。向量c通常为LSTM的最后一个隐藏向量h，或是多个隐藏向量的加权总和(注意力机制)。

h_t＝f(x_t，h_t-1)

c＝g(h₁，h₂，...，h_n)

解码器(Decoder)：编码完成之后，可以将语境向量c作为另一个LSTM的初始状态。当前的LSTM负责解码，通过自己保留的前一个状态s_t-1和输入前一个词y_t-1(在训练过程中为训练数据的前一个词，测试过程中为上一步预测的词)来得到当前的状态s_t，从而预测出当前概率最大的词。在测试中，通常采用Beam Search来获得更优的结果。

所述网络模型可以使用指针网络模型(Pointer Networks)，该网络模型是seq2seq模型的变种。该模型采用注意机制解决了可变大小输出字典的问题。它不依赖于解码的状态来得到解码的信息，而是直接依赖于注意力矩阵来从输入序列中挑选合适的词作为输出。这个特性使很适合用来解决抽取式文本摘要任务。

所述网络模型可以使用如图3所示的指针生成器网络模型(PGN，Pointer-Generator Networks)，该模型混合了seq2seq+attention模型以及Pointer Networks模型的优势。相比普通的seq2seq+attention模型，混合模型能够从原文中直接复制词语，因而可以提高摘要的准确率，并处理OOV(out-of-vocabulary)词语，同时还保留下了生成新词语的能力。图3中，给出了指针生成器网络模型处理从输入数据中获取摘要的过程。

虽然采用指针生成器网络模型，相对于seq2seq网络模型已经有了较好的改进，但是在菜谱标题生成过程中，仍然存在着训练和解码时间过长以及训练语料输入信息太多，导致模型学习能力下降的问题。本实施例提供的方法，针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词，将关键词作为各种网络模型的输入，从而解决或者部分解决了上述问题。

关键词作为各种网络模型的输入，能够很好地解决训练和解码时间过长的问题。设置输入端的网络输入的序列长度可以从几百以上缩短到Topk(例如，表1中的关键词数量为20个，即Topk为20)，整个网络的计算速度会加快。另外，由于时序网络的记忆能力毕竟有限，原来将几百个词一起输入给源端，会导致最前面的一些重要的词语信息弥散。通过关键词提取之后，输入词语传到末端最多只需要Topk步，很好的缓解了信息弥散。最后，为后续数据增强打下了基础。

步骤S202：根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列。

本步骤用于根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列。

所述根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列，包括：

在步骤S201中，已经将训练数据抽取成了关键词的形式。对于PGN网络来说，词语的位置对生成结果影响较大。理论上，PGN网络是能够学习到位置信息的。不过，对于同一套训练数据训练出来的模型很有可能产生过拟合，或者说训练数据的词语之间并没有明显的位置关系，导致模型学习不到相应信息。而由于深度学习存在一定的黑盒性质，导致很难确定到底什么样的排序信息对于网络的输入时最有效的。比如在当前场景中，抽取的关键词之间并不存在明显的位置关系，这就有可能导致某些信息没有被模型识别，导致在生成结果中缺失关键信息。这样缺乏关键信息的标题就被过滤掉了。针对这个问题，可以有两个思路。

第一种，是单纯的数据样本增强。即按多种思路对输入的关键词进行重新排列组合，作为丰富语料的手段。可行的方法有以下几种：

S202-1：根据关键词在菜谱源数据原标题、内容信息中词频、TF-IDF等指标从大到小排序。

S202-2：根据关键词在菜谱源数据原标题、内容信息中词频、TF-IDF等指标从小到大排序。

S202-3：将训练或者测试语料中的源端关键词随机打乱。每一次打乱都相当于一份新的语料。

S202-4：随机丢弃其中关键词中的部分词语(类似于深度学习中的drop out)。

这样，将所有新排序过的样本合并在一起。然后统一训练一个模型。这样训练出来的结果将具有更好的泛化性能。

另外一种，是多模型并行生成框架。单一模型生成的结果仍难以避免信息缺失的问题。为了更好地缓解信息缺失导致的覆盖率低的问题，我们这里提出多模型并行生成的框架。思路与上节数据增强的类似。也是分别将输入的关键词序列进行按指标权重排序、随机打乱、随机丢弃等操作。不同的是每套数据分别单独训练一个模型。然后在测试的时候，对同一个菜谱的标题，分别用多个模型去生成。在该并行框架中，每一个模型分别经历PGN生成和生成标题质量检验模型，并且分别独占GPU，互不影响操作。在框架图中，PT1～PT4这4种不同方式组成的数据分别经过并行运算单元之后，分别产出结果，再经过后续合并处理。

步骤S202采用多模型并行生成框架。请参考图4，其为一种菜谱标题的生成方法的系统示意图。图4中，401提供了四种排列规则(PT，Permutation)，PT1-PT4。其中，PT1可以采用S202-1，PT2可以采用S202-2，PT3可以采用S202-3，PT4可以采用S202-4。图4中的402为并行运算单元。该并行运算单元与PT1、PT2、PT3、PT4相对应。即每一个排列规则对应着一个并行运算单元。这些并行运算单元具有相同的网络组成结构(例如都包括预处理，关键词提取等)，但是其网络参数不同。

步骤S203：根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题。

本步骤用于根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题。

例如，在图4中，PT1对应的并行运算单元402中，在关键词提取后，获得关键词序列，将该关键词序列输入PGN模型进行处理，获得所述菜谱源数据的候选标题。

所述根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题，包括：

根据所述匹配度，获得所述菜谱源数据的候选标题。

以表1中的菜谱源数据为例，首先，将表1中的关键词序列通过训练好的PGN网络进行序列转换，获得所述菜谱源数据的生成标题(例如，白萝卜学会这样做，大人小孩都爱吃)。然后，为了防止生成标题中缺少菜谱的核心信息，我们在生成结果后按一定的规则进行检查。比如分别对生成的标题(为白萝卜学会这样做，大人小孩都爱吃)与原标题(五花肉烧萝卜的做法)再进行一次命名实体识别(NER，Named Entity Recognition)，然后进行NER实体匹配。如果生成的标题的NER实体从来没有出现在原标题的实体甚至内容关键词列表中，则认为关键信息缺失，并丢弃该条生成结果。

所述根据所述生成标题的语法以及所述生成标题的风格，针对所述生成标题进行筛选，获得所述菜谱源数据的候选标题，包括：

所述获得用于筛选所述生成标题的语法以及所述生成标题的风格的分类器模型，包括：

将人工选取的优质标题，作为训练所述分类器的正样本；

例如，在图4中，利用序列网络模型产出的生成标题有时会产出一些不通顺的语句，这些语句可以通过训练一个有效的语言模型来解决。训练样本可以使用内容库中大量的优质标题。该语言模型可以选用传统的Ngram统计语法模型，也可以使用基于RNN(recurrent neural network)的语言模型。这里采用的是利用Bert训练的语言模型(BertSeq LM Score Model)。

这里除了利用Bert训练了语言模型之外，还另外训练了一个筛选分类器模型(Bert Classfier)用来训练一个判别标题是否符合标准的模型。由于Bert是基于双向随机Mask机制训练的，有别于传统的语言模型。不过可以利用它构建一个分类器，判别生产的语句是否符合标准。这一方面包含了一定的语言信息在里面，另一方面也可以判别生成语句的风格是否符合标准。对于正样本，可以使用精心筛选过的吸引人的优质标题。负样本一方面可以将正样本中的标题采用随机打乱、随机丢弃词语、随机增加词语等操作进行构建。这部分负样本负责引导模型学习语法信息。另一方面，可以准备一批风格过于普通的标题(比如原始的菜谱标题)作为负样本。这部分负样本用于引导模型学习风格是否匹配。

训练好分类器之后，将生成模型产出的新标题经过分类器进行判别，仅保留分类器认为是优质的标题。

除了以上检验模型之外，还可以额外指定更多的过滤筛选模型。比如敏感词检验模型(Sensitive words Filter)用于判别生成的标题中是否包含涉黄、涉政或者广告语等敏感词，如果有则丢弃该结果。其他诸如此类的异常过滤模型这里暂且用一个统一的名称代替(Exception Rule Filter)。

步骤S204：将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。

本步骤用于将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。

以上经过了多轮模型或者规则的检测。会过滤掉一些不好的生成结果。这样一来就涉及到一个有效覆盖率的问题。即给定N条语句，返回有效的生成结果K条。如果有效覆盖率不高，那么会有很多菜谱标题得不到改进。

为了提高有效覆盖率，可以采用如下方法：

第一种，改变测试数据集中的关键词个数。原先训练数据的source端的关键词长度和测试数据source端的关键词长度一样长，都是TopK，比如例子里面的20。

通过适当增大测试数据source端提取关键词的个数，会在一定程度提升覆盖率。同等条件下，覆盖率随Length的增大，输出的覆盖率会加大。原因是增大关键词的个数能够更多可能地包含有效信息。不过当关键词个数到达一定数值之后，覆盖率达到顶峰，随后随着关键词个数的变大而下降。原因是获取关键词个数越多，核心词汇的信息被模型得到的关注越少，因此反而会导致性能下降。可见，选取合适的关键词长度可以有效提升覆盖率。

第二种，采用如图4所示的多模型并行生成框架。该多模型并行生成框架已经在前面的步骤中进行了说明，这里就不再赘述了。

所述将来自所述网络模型的候选标题进行融合处理，生成菜谱标题，包括：

获取来自第一网络模型的第一候选标题；

获取来自第二网络模型的第二候选标题；

将不同模型的生成结果进行合并。针对融合处理输出后的结果，多个模型对同一个菜谱源数据有可能有多个不同输出，制定了一些半经验的规则打分模型，将得分最高的结果输出，针对每个菜谱源数据筛选最合适的标题。

经过融合处理之后，再统一过一套生成标题质量品控分类器，保证最后标题的品质。

对同一套菜谱源数据集合，采用不同处理方式后，3个模型并行运行，可以有效提高覆盖率。同等准确率的情况下，将覆盖率提升140％以上(以关键词的个数len＝30为例，菜谱源数据的数量为2000的数据，原本单模型最高输出1030条，现在输出1489条)。请参考下图表2所示。

	PT1模型	PT2模型	PT3模型	融合处理	融合后覆盖率
						关键词个数20	880	894	865	1361	68％
关键词个数30	1011	1030	973	1489	74.50％
						关键词个数40	1088	1092	959	1531	76.50％
关键词个数50	1016	1105	1148	1558	78.00％

表2

所述菜谱标题的生成方法，还包括：

所述根据所述菜谱源数据的标题与所述菜谱源数据之间的匹配程度，针对所述菜谱源数据的标题进行筛选，获得所述菜谱源数据的优化标题，包括：

构建品质特征分类器；

训练所述品质特征分类器，获得品质特征分类器模型；

所述训练所述品质特征分类器，获得品质特征分类器模型，包括：

所述根据所述品质特征分类器的负样本和所述品质特征分类器的正样本，训练所述品质特征分类器，获得品质特征分类器模型，包括：

经过以上步骤融合处理之后，大部分标题已经很好了。但是为了进一步提升标题的质量，可以额外设定一些标准。比如词语重复度、TFIDF得分、异常模式出现度、生成标题与原标题匹配度(包括单字词语的匹配度、多字词语的匹配度)、生成标题与内容关键词匹配度(包括单字词语的匹配度、多字词语的匹配度)等等多个特征。这些人工计算的特征在上面的语法、风格分类器中是学习不到的。而语法、风格分类器只依赖生成的标题结果，而品控特征分类器不仅分析生成标题的质量，还会去比较生成的结果和原输入信息的匹配程度。

对这些特征可以设定一些规则进行打分，将得分低的标题过滤掉。这能在一定程度上提升准确率。不过规则打分模型基于较强的经验，并且后续可能会不断变化。于是尝试了构建分类器。相对于规则打分模型，分类器能够加强数据的非线性学习能力，具有更好的泛化性能。

在构建分类器的时候，最大的难点一个是定义特征，另一个是缺乏高质量的标注数据。由于训练数据达到上万条，全部人工看比较费力。

本实施例提供一种针对该类问题的数据标注处理方法。

首先将前期已经被异常规则、通顺度模型等过滤掉的数据认为是负样本。当前保留下来的数据认为是正样本。合并打乱后，进行K折交叉验证，将每次验证结果与标签相符合的数据保留下来。这样做的目的是尽可能的保留标注准确的样本。最后将所有保留下来的数据作为训练样本，训练模型。该分类器可以采用GBDT(Gradient Boosting DecisionTree)等常用的分类器模型。训练好分类器之后，对生成标题进行检测，只保留分类器认为是高质量的样本。最后，经过标题品控特征检验模型检验之后，保留下来的标题为最终结果。

所述菜谱标题的生成方法，还包括：

获取所述排列规则对应的网络模型。

所述获取所述排列规则对应的网络模型，包括：

构建指针生成器网络；

所述指针生成器网络可以参考图3。后台内容库已有的质量较好的数据，比如达人编写的一些美食日记，且具有较吸引人的标题。利用美食日记中的菜谱源数据，以及其标题，针对所述指针生成器网络进行训练，获得所述排列规则对应的网络模型。

在上述的实施例中，提供了一种菜谱标题的生成方法，与之相对应的，本申请还提供一种菜谱标题的生成装置。请参看图5，其为本申请的一种菜谱标题的生成装置实施例的示意图。由于本实施例，即第二实施例，基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供的一种菜谱标题的生成装置，包括：

提取单元501，用于针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词；

调整单元502，用于根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列；

获得单元503，用于根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题；

生成单元504，用于将来自所述网络模型的候选标题进行融合处理，生成菜谱标题。

本实施例中，所述提取单元，具体用于：

本实施例中，所述调整单元，具体用于：

本实施例中，所述获得单元，具体用于：

根据所述匹配度，获得所述菜谱源数据的候选标题。

本实施例中，所述获得单元，还用于：

将人工选取的优质标题，作为训练所述分类器的正样本；

本实施例中，所述获得单元，还用于：

本实施例中，所述生成单元，具体用于：

获取来自第一网络模型的第一候选标题；

获取来自第二网络模型的第二候选标题；

本实施例中，所述菜谱标题的生成装置，还包括筛选单元，所述筛选单元用于：

本实施例中，所述筛选单元，具体用于：

构建品质特征分类器；

训练所述品质特征分类器，获得品质特征分类器模型；

本实施例中，所述筛选单元，还用于：

本实施例中，所述菜谱标题的生成装置，还包括网络模型获取单元，所述网络模型获取单元用于：

获取所述排列规则对应的网络模型。

本实施例中，所述网络模型获取单元，具体用于：

构建指针生成器网络；

本申请第三实施例提供一种标题的生成方法，请参考图6，其为一种标题的生成方法的流程图。与第一实施例相比，本实施例中待处理的文本数据可以为菜谱源数据，也可以是其它文本信息。由于与第一实施例比较相近，这里仅做简要说明。所述生成方法包括：

步骤S601：针对待处理的文本数据进行信息提取，获得所述文本数据中的关键词。

步骤S602：根据所述关键词，获得所述文本数据的标题。

本实施例中，所述根据所述关键词，获得所述文本数据的标题，包括：

根据所述关键词序列，获得所述文本数据的标题。

本实施例中，所述根据所述关键词序列，获得所述文本数据的标题，包括：

本申请第四实施例提供一种电子设备，包括：

处理器；

以及，

存储器，用于存储计算机程序，该设备通过所述处理器运行该计算机程序后，执行本申请第一实施例以及本申请第三实施例提供的任意方法。

本申请第五实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该程序被处理器运行，执行本申请第一实施例以及本申请第三实施例提供的任意方法。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种菜谱标题的生成方法，其特征在于，包括：

2.根据权利要求1所述的菜谱标题的生成方法，其特征在于，所述针对待处理的菜谱源数据进行信息提取，获得所述菜谱源数据中的关键词，包括：

3.根据权利要求1所述的菜谱标题的生成方法，其特征在于，所述根据指定的排列规则，调整所述关键词之间的排列顺序，获得关键词序列，包括：

4.根据权利要求1所述的菜谱标题的生成方法，其特征在于，所述根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题，包括：

根据所述匹配度，获得所述菜谱源数据的候选标题。

5.根据权利要求1所述的菜谱标题的生成方法，其特征在于，所述根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题，包括：

6.根据权利要求5所述的菜谱标题的生成方法，其特征在于，所述根据所述生成标题的语法以及所述生成标题的风格，针对所述生成标题进行筛选，获得所述菜谱源数据的候选标题，包括：

7.根据权利要求6所述的菜谱标题的生成方法，其特征在于，所述获得用于筛选所述生成标题的语法以及所述生成标题的风格的分类器模型，包括：

将人工选取的优质标题，作为训练所述分类器的正样本；

8.根据权利要求1所述的菜谱标题的生成方法，其特征在于，所述根据所述关键词序列，利用与所述排列规则对应的网络模型，获得所述菜谱源数据的候选标题，包括：

9.根据权利要求1所述的菜谱标题的生成方法，其特征在于，所述将来自所述网络模型的候选标题进行融合处理，生成菜谱标题，包括：

获取来自第一网络模型的第一候选标题；

获取来自第二网络模型的第二候选标题；

10.根据权利要求1所述的菜谱标题的生成方法，其特征在于，还包括：

11.根据权利要求10所述的菜谱标题的生成方法，其特征在于，所述根据所述菜谱源数据的标题与所述菜谱源数据之间的匹配程度，针对所述菜谱源数据的标题进行筛选，获得所述菜谱源数据的优化标题，包括：

构建品质特征分类器；

训练所述品质特征分类器，获得品质特征分类器模型；

12.根据权利要求11所述的菜谱标题的生成方法，其特征在于，所述训练所述品质特征分类器，获得品质特征分类器模型，包括：

13.根据权利要求12所述的菜谱标题的生成方法，其特征在于，所述根据所述品质特征分类器的负样本和所述品质特征分类器的正样本，训练所述品质特征分类器，获得品质特征分类器模型，包括：

14.根据权利要求1所述的菜谱标题的生成方法，其特征在于，还包括：

获取所述排列规则对应的网络模型。

15.根据权利要求14所述的菜谱标题的生成方法，其特征在于，所述获取所述排列规则对应的网络模型，包括：

构建指针生成器网络；

16.一种菜谱标题的生成装置，其特征在于，包括：

17.一种标题的生成方法，其特征在于，包括：

根据所述关键词，获得所述文本数据的标题。

18.根据权利要求17所述的标题的生成方法，其特征在于，所述根据所述关键词，获得所述文本数据的标题，包括：

根据所述关键词序列，获得所述文本数据的标题。

19.根据权利要求18所述的标题的生成方法，其特征在于，所述根据所述关键词序列，获得所述文本数据的标题，包括：

20.一种电子设备，其特征在于，包括：

处理器；

以及，

存储器，用于存储计算机程序，该设备通过所述处理器运行该计算机程序后，执行如权利要求1-15、17-19任意一项所述方法。

21.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该程序被处理器运行，执行如权利要求1-15、17-19任意一项所述方法。