CN113392640A

CN113392640A - 一种标题确定方法、装置、设备及存储介质

Info

Publication number: CN113392640A
Application number: CN202011088694.0A
Authority: CN
Inventors: 费志辉; 李超; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-09-14
Anticipated expiration: 2040-10-13
Also published as: CN113392640B

Abstract

本申请实施例公开了一种标题确定方法、装置、设备以及存储介质，其中，该方法包括：设备获取待处理文本数据，并对待处理文本数据进行处理，生成参考标题，再通过对参考标题进行语句识别处理，得到标题通顺度，以及根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，进而根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题。采用上述方式，可以提高文章的标题的生成质量。

Description

一种标题确定方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种标题确定方法、装置、设备及存储介质。

背景技术

随着互联网技术的不断发展，用户对网络阅读的需求量呈指数增长，其网络阅读的内容包括新闻、电子书等等。在用户阅读的过程中，阅读的文章所对应的标题起着至关重要的作用。一个好质量的标题不仅要通顺，同时还要求标题与文章的相关性和事实的正确性，这样才能吸引用户的阅读兴趣。怎么生成文章的标题便是近年来的一个热点问题。

目前，大多数文章的标题是通过人工对文章内容进行阅读进行总结得出的，这样便会使得耗费的人力较大。因此，怎样提高文本标题的生成质量成为亟待解决的问题。

发明内容

本申请实施例提供了一种标题确定方法、装置、设备及存储介质，可以提高文章的标题的生成质量。

本申请实施一方面公开了一种标题确定方法，该方法包括：

获取待处理文本数据，并对所述待处理文本数据进行处理，生成参考标题；

对所述参考标题进行语句识别处理，得到标题通顺度，以及根据所述参考标题和所述待处理文本数据确定所述参考标题与所述待处理文本数据的匹配度；

根据所述标题通顺度和所述匹配度中的至少一种确定所述参考标题的参考评分，并在所述参考评分满足标题选择条件时，将所述参考标题确定为所述待处理文本数据对应的目标标题。

本申请实施一方面公开了一种标题确定装置，该装置包括：

获取单元，用于获取待处理文本数据，并对所述待处理文本数据进行处理，生成参考标题；

处理单元，用于对所述参考标题进行语句识别处理，得到标题通顺度，以及根据所述参考标题和所述待处理文本数据确定所述参考标题与所述待处理文本数据的匹配度；

确定单元，用于根据所述标题通顺度和所述匹配度中的至少一种确定所述参考标题的参考评分，并在所述参考评分满足标题选择条件时，将所述参考标题确定为所述待处理文本数据对应的目标标题。

在一种实现方式中，处理单元，具体用于：

采用第一策略对所述待处理文本数据进行处理，生成所述第一标题，以及采用第二策略对所述待处理文本数据进行处理，生成所述第二标题。

在一种实现方式中，确定单元，具体用于：

根据所述标题通顺度和所述匹配度中的至少一种确定所述第一标题的第一评分，以及确定所述第二标题的第二评分；

从所述第一评分和所述第二评分中确定参考评分；

所述在所述参考评分满足标题选择条件时，将所述参考标题确定为所述待处理文本数据对应的目标标题，包括：

在所述参考评分满足标题选择条件时，将所述参考评分对应的标题确定为所述待处理文本数据对应的目标标题。

在一种实现方式中，处理单元，具体用于：

调用标题生成模型采用第一策略对所述待处理文本数据进行处理，生成第一标题，以及调用标题生成模型采用第二策略对所述待处理文本数据进行处理，生成第二标题；

其中，所述匹配度包括相关度和准确度中的至少一种，所述对所述参考标题进行语句识别处理，得到标题通顺度，以及根据所述参考标题和所述待处理文本数据确定所述参考标题与所述待处理文本数据的匹配度，包括：

调用通顺度判别模型对所述参考标题进行语句识别处理，得到标题通顺度，和/或，调用相关度判别模型对所述参考标题和所述待处理文本数据进行处理，得到所述参考标题与所述待处理文本数据的相关度，和/或，调用准确度判别模型对所述参考标题和所述待处理文本数据进行处理，得到所述参考标题与所述待处理文本数据的准确度；

其中，所述标题生成模型是结合所述通顺度判别模型、所述相关度判别模型以及所述准确度判别模型中的至少一种训练得到的。

在一种实现方式中，获取单元，用于获取样本数据集，所述样本数据集包括多个训练文本数据；

处理单元，用于利用初始标题生成模型对所述多个训练文本数据进行处理，得到与所述多个训练文本数据相对应的多个标题数据集合，其中，各个标题数据集合包括采用第一策略生成的第一标题数据以及采用第二策略生成的第二标题数据；

所述处理单元，用于在所述多个标题数据集合不满足训练停止条件时，对所述初始标题生成模型中的模型参数进行调整；

确定单元，用于在调整参数后的初始标题生成模型输出的多个标题数据集合满足训练停止条件时，将调整参数后的初始标题生成模型确定为训练后的标题生成模型。

在一种实现方式中，确定单元，具体用于：

确定所述多个标题数据集合中满足收敛条件的标题数据集合的数量；

确定所述满足收敛条件的标题数据集合的数量与所述多个标题数据集合的总数量之间的比值；

当所述比值大于或等于第一预设数值时，确定所述多个标题数据集合满足训练停止条件。

在一种实现方式中，确定单元，用于确定待检测标题数据集合，所述待检测标题数据集合为所述多个标题数据集合中的任意一个；

处理单元，用于利用所述通顺度判别模型、所述相关度判别模型和所述准确度判别模型中的至少一种，计算所述待检测标题数据集合包括的采用第一策略生成的第一标题数据的评分，以及计算待检测标题数据集合包括的采用第二策略生成的第二标题数据的评分；

所述处理单元，用于根据所述第一标题数据的评分、所述第二标题数据的评分以及所述第一标题数据，计算初始标题生成模型的第一损失值，以及根据所述第二标题数据计算初始标题生成模型的第二损失值；

所述确定单元根据所述第一损失值和所述第二损失值确定所述待检测标题数据集合是否满足所述收敛条件。

在一种实现方式中，处理单元，用于利用模型损失函数对所述第一损失值和所述第二损失值进行计算，得到初始标题生成模型的目标损失值；

确定单元，用于当所述目标损失值小于或等于第二预设数值时，确定所述待检测标题数据集合满足所述收敛条件。

本申请实施例一方面公开了一种标题确定设备，所述标题确定设备包括存储器和处理器：所述存储器，用于存储计算机程序；所述处理器运行所述计算机程序，实现上述的标题确定方法。

本申请实施例提供一方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，执行上述的标题确定方法

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的标题确定方法。

本申请实施例中，标题确定设备获取待处理文本数据，并对待处理文本数据进行处理，生成参考标题，再通过对参考标题进行语句识别处理，得到标题通顺度，以及根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，进而根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题，通过上述实施例，可以提高文章的标题的生成质量，进一步，可以通过通顺度和匹配度中的任意一种来确定文章的标题，可以提高生成标题的灵活度，同时，本申请实施例是通过设备自动生成文章标题的，可以显著减少人工审核的难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种标题确定系统的架构示意图；

图2是本申请实施例公开的一种标题确定方法的流程示意图；

图3是本申请实施例公开的一种标题生成模型的训练方法的流程示意图；

图4a是本申请实施例公开的一种BERT模型结构的示意图；

图4b是本申请实施例公开的一种seq2seq模型结构的示意图；

图5是本申请实施例公开的一种标题确定装置的结构示意图；

图6是本申请实施例公开的一种标题确定设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的标题确定方法，还涉及人工智能技术：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请涉及人工智能技术下属的自然语言处理以及机器学习技术。其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

结合本申请实施例，标题确定设备获取待处理文本数据，通过机器学习以及自然语言处理的手段对待处理文本数据进行处理，生成参考标题，再通过对参考标题进行语句识别处理，得到标题通顺度，以及根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，进而根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题，通过上述实施例，可以提高文章的标题的生成质量，进一步，可以通过通顺度和匹配度中的任意一种来确定文章的标题，可以提高生成标题的灵活度，同时，本申请实施例是通过设备自动生成文章标题的，可以显著减少人工审核的难度。

请参见图1，图1为本发明实施例的一种标题确定系统的架构示意图，如图1所示，该标题确定系统的架构示意图100包括了标题确定设备101、存储平台102，其中，标题确定设备101主要用于模型的训练与模型的使用，标题确定设备101可以以可视化界面显示利用标题生成设备生成的标题信息，存储平台102主要是用于存储样本数据以及待处理文本数据等。

在一种可能的实现方式中，标题确定设备101从存储平台102中获取待处理文本数据，并对待处理文本数据进行处理，生成参考标题，再通过对参考标题进行语句识别处理，得到标题通顺度，以及根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，进而根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题，通过上述实施例，可以提高文章的标题的生成质量，进一步，可以通过通顺度和匹配度中的任意一种来确定文章的标题，可以提高生成标题的灵活度，同时，本申请实施例是通过设备自动生成文章标题的，可以显著减少人工审核的难度。

在一种可能的实现场景中，标题确定设备101从存储平台102中获取待处理文本数据，该存储平台可以互联网或者云存储中心，获取的待处理文本数据是没有标题的文章，在这种情况下，则标题确定设备101就将获取到的文章进行处理，生成一个参考标题，再根据用户需求选择对文章的标题的通顺度、以及文章与标题之间的相关度和准确度进行判断，并在结果满足标题选择条件时将生成的标题提供给用户，供用户进行选择。或者，标题确定设备自动生成文章标题，不需要用户的选择，直接将其发布在互联网上，以方便用户阅读。

在一种可能的实现场景中，标题确定设备101从存储平台102中获取待处理文本数据，该存储平台可以互联网或者云存储中心，获取的待处理文本数据是有标题的文章，但是标题确定设备101经过检测发文章的原标题与文章的相关性或者中准确度不够高，则在这种情况下，标题确定设备101就将该文章输入到训练好的标题生成模型中，生成一个新的标题，然后根据通顺度模型、相关度模型和准确度模型中至少一个模型对新的标题进行判断，进而确定出一个参考评分，在参考评分满足标题选择条件时，将该新的标题输出，以供用户选择使用。

通过本申请实施例标题确定方法，可以拓展标题生成的落地场景，该标题确定方法可以对标题的语句通顺性、相关性和事实正确性进行评价，从而不同维度更好地评估标题生成系统的性能。

对标题确定设备101进行解释，作为在此使用的“标题确定设备”包括但不限于用户设备、具有无线通信功能的手持式设备、车载设备、可穿戴设备或计算设备。示例性地，标题确定设备可以是手机(mobile phone)、平板电脑或带无线收发功能的电脑。标题确定设备还可以是虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制中的无线终端设备、无人驾驶中的无线终端设备、远程医疗中的无线终端设备、智能电网中的无线终端设备、智慧城市(smart city)中的无线终端设备、智慧家庭(smart home)中的无线终端设备等等。本申请实施例中，用于实现标题确定设备的功能的装置可以是终端；也可以是能够支持终端设备实现该功能的装置，例如芯片系统，该装置可以被安装在标题确定设备中。本申请实施例提供的技术方案中，以用于实现标题确定设备的功能的装置是标题确定设备为例，描述本申请实施例提供的技术方案。

请参见图2，图2为本申请实施例公开的一种标题确定方法的流程示意图，该方法可以包括以下步骤：

S201、标题确定设备获取待处理文本数据，并对待处理文本数据进行处理，生成参考标题。

在一种可能的实现方式中，标题确定设备从互联网或者云储存中获取待处理文本数据，这里的待处理文本数据可以包括没有标题的纯文本，也可以包括有标题的文本。标题确定设备获取到待处理文本数据后，对待处理文本数据进行处理，生成参考标题。具体可以是标题确定设备调用训练后的标题生成模型，将待处理文本数据输入标题生成模型，经过卷积神经处理后，输出待处理文本数据的参考标题。

S202、标题确定设备对参考标题进行语句识别处理，得到标题通顺度，以及根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度。

其中，通顺度指的是待处理文本信息的标题的每个字连接起来是能通顺的，匹配度包括相关度和准确度，相关度指的是待处理文本数据与标题之间的关联程度，准确度指的是标题所蕴含的待处理文本数据的正确程度。

在一种可能的实现方式中，标题确定设备对参考标题进行语句识别处理，得到标题的通顺度，具体可以是调用训练好的通顺度判断模型，将该参考标题输入通顺度判别模型进行处理，得到一个针对该参考标题的标题通顺度，标题通顺度以概率表示，其范围为0～1。相似地，标题确定设备根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，具体可以是标题确定设备调用相关度判别模型，将参考标题和待处理文本数据输入到相关度判别模型进行处理，得到参考标题与待处理文本数据的相关度，同样地，标题确定设备调用准确度度判别模型，将参考标题和待处理文本数据输入到准确度判别模型进行处理，得到参考标题与待处理文本数据的准确度。在一种可行的实施例中，可以根据不同的需求选择通顺度判别模型、相关度判别模型和准确度判别模型中的任意一个对参考标题进行判别，以得到相对应的判别结果。也可以是调用这三个模型分别对参考标题进行判别，得到三个判别结果，在这种情况下，更利于提高参考标题的生成质量。

例如，标题确定设备在得到参考标题后，若是开发者想要得到参考标题的标题通顺度，则调用已经训练好的通顺度判别模型对参数模型进行判别，得到一个判别分数。

S203、标题确定设备根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题。

其中，标题确定设备根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，具体指示的是，标题确定设备可以根据标题通顺度、相关度和准确度中的一种来确定参考标题的参考评分，也可以根据标题通顺度、相关度和准确度中两个来确定参考标题的参考评分，也可以是根据标题通顺度、相关度和准确度三者来确定参考标题的参考评分。标题选择条件为参考评分大于设定阈值，或者参考评分落在设定的数值区间。

进一步地，标题确定设备生成的参考标题第一标题和第二标题，其中，第一标题是采用第一策略对待处理文本数据进行处理得到的，第二标题是采用第二策略对待处理文本数据进行处理得到的。第一标题和第二标题可以包括标题字序列。在一些可能的实施方式中，第一策略指的是标题生成模型生成第一标题过程中采用的策略，在本申请实施中，可以是概率随机采样生成策略，第二策略指的是标题生成模型生成第二标题过程中采用的策略，在本申请实施中，可以是极大似然策略。

在一种可能的实现方式中，标题确定设备根据标题通顺度和匹配度中的至少一种来确定参考标题的参考评分具体为：标题确定设备根据标题通顺度和所述匹配度中的至少一种确定第一标题的第一评分，以及确定第二标题的第二评分。在这个过程中，标题确定设备可以根据标题通顺度和匹配度的重要程度为其分配相对应的权重，重要程度越高分配的权重值越高，其值可以是根据用户的需求进行设置的，标题确定设备根据标题通顺度和匹配度中的至少一种与相对应的权重进行加权求和得到一个评分，两种策略对应于两种评分，进而确定出参考评分。其中，可以根据第一评分分数和第二评分分数的高低来确定参考评分，若是第一评分的分数较大，则将第一评分作为参考评分。同理，若是第二评分的分数较大，则将第二评分作为参考评分。并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题。如参考评分大于设定阈值时，将参考标题确定为待处理文本数据对应的目标标题。

在一种可能的实现方式中，若是参考评分不满足标题选择条件，则可以将待处理文本数据进行重新处理，得到新的参考标题，进而得到新的参考评分，再根据新的参考评分来确定是否满足标题选择条件，若是满足，则将参考标题确定为待处理文本数据对应的目标标题。

其中，需要注意的是，上述的标题生成模型是结合通顺度判别模型、相关度判别模型和准确度判别模型中的至少一种训练得到的。

请参见图3，图3为本申请实施例公开的一种标题生成模型的训练方法的流程示意图，该方法主要阐述的是标题确定设备结合通顺度判别模型、相关度判别模型和准确度判别模型中的至少一种训练得到标题生成模型，具体的，该方法可以包括以下步骤：

S301、标题确定设备获取样本数据集，所述样本数据集包括多个训练文本数据。

其中，样本数据集包括多个训练文本数据，每一个训练文本数据都可以包括样本标题以及样本标题所对应的样本文章。该样本数据集主要用于训练初始标题生成模型，以使得标题生成模型为一个具有相对稳定参数的模型，进而可以使得标题确定设备根据该标题生成模型确定出文本的标题。

在一种可能的实现方式中，标题确定设备通过爬取等手段，并根据热点情况从互联网或者云存储中获取样本数据集。这里的热点情况指的是根据文章的热度，如点击量等。

S302、标题确定设备利用初始标题生成模型对多个训练文本数据进行处理，得到与多个训练文本数据相对应的多个标题数据集合，其中，各个标题数据集合包括采用第一策略生成的第一标题数据以及采用第二策略生成的第二标题数据。

在一种可能的实现方式中，标题确定设备利用初始标题生成模型对每一个训练文本数据进行处理，得到与，每一个训练文本数据对应的标题数据集合，即每一个训练文本数据对应一个标题数据集合，每一个标题数据包括各个标题字序列以及各个字序列对应的概率值。进一步地，每一个标题数据集合包括采用第一策略生成的第一标题数据和采用第二策略生成的第二标题数据，相同的，第一标题数据和第二数据可以是包括各个标题字序列以及各个字序列对应的概率值。其中，第一策略和第二策略已经在步骤S203中进行阐述了，这里就不再重复赘述了。

S303、在多个标题数据集合不满足训练停止条件时，标题确定设备对初始标题生成模型中的模型参数进行调整。

在一种可能的实现方式中，标题数据集合满足训练停止条件的判断方式主要为：首先，标题确定设备确定多个标题数据集合中满足收敛条件的标题数据集合的数量；其次，确定满足收敛条件的标题数据集合的数量与多个标题数据集合的总数量之间的比值；最后，若是该比值大于或等于第一预设数值时，标题生成设备确定多个标题数据集合满足训练停止条件，若是该比值小于第一预设数值时，则确定多个标题数据集合不满足训练停止条件。其中，第一预设数值的为0～1的值，在模型的训练过程中，其值越大，表明其训练得到的误差越小，可以设置成0.8、0.9或者1。

若是标题确定设备通过判断得知多个标题数据集合不满足停止条件时，则对初始标题生成模型的参数进行进一步调整，直到满足多个标题数据集合满足训练停止条件。

在一种可能的实现方式中，标题确定设备确定多个标题数据集合中的标题数据集合是否收敛的具体流程为：标题确定设备从多个标题数据集合中确定出待检测标题数据集合，待检测标题数据集合为多个标题数据集合中的任意一个；利用通顺度判别模型、相关度判别模型和准确度判别模型中的至少一种，计算该待检测标题数据集合包括的采用第一策略生成的第一标题数据的评分，以及计算待检测标题数据集合包括的采用第二策略生成的第二标题数据的评分；根据第一标题数据的评分、第二标题数据的评分以及第一标题数据，计算初始标题生成模型的第一损失值，标题确定设备获取样本数据集对应的真实标题，然后根据第二标题数据以及样本数据集对应的真实标题计算初始标题生成模型的第二损失值；再根据第一损失值和第二损失值确定待检测标题数据集合是否满足收敛条件。

其中，收敛条件可以指利用第一损失值和第二损失值计算的结果是否在某个数值区间，如果在该数值区间，则确定待检测标题数据集合收敛，若是不在该数值区间，则确定该待检测标题数据集合是不收敛的。进一步地，判断是否收敛可以是：标题确定设备利用模型损失函数对第一损失值和第二损失值进行计算，得到初始标题生成模型的目标损失值，当目标损失值小于或等于第二预设数值时，确定待检测标题数据集合满足所述收敛条件。在这种情况下，则标题确定设备可以选择对其他的标题数据集合进行收敛性判断，也可以将该标题数据集合对应的样本数据重新输入初始标题生成模型进行训练，得到新的标题数据集合。

上述过程还涉及到通顺度判别模型、相关度判别模型和准确度判别模型的训练。这三个模型的训练都利用了BERT模型，通过对调用BERT模型，然后利用正样本数据和负样本对BERT模型进行微调，以得到通顺度判别模型、相关度判别模型和准确度判别模型的训练。首先，对BERT模型进行介绍，BERT(Bidirectional Encoder Representations fromTransformers)模型，是基于双向Transformer编码器实现的，是一种预训练语言表示的方法，在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型，然后用这个模型去执行想做的NLP任务。

其中，BERT模型的架构图，如图4a所示，可以输出文本的向量化表示，其中，向量化表示是通过Transformer编码器而实现的，Transformer是一个基于Self-attention的Seq2seq模型，如图4b所示，Seq2Seq是一个Encoder-Deocder结构的模型，即输入是一个序列，输出也是一个序列，其中，Encoder将一个可变长度的输入序列变为固定长度的向量，Decoder将这个固定长度的向量解码成可变长度的输出序列。本申请实施例便是基于预训练模型BERT构建生成标题通顺度判别模型、相关度判别模型和准确度判断模型，可以通过Softmax回归模型来进行分类，以得到通顺度、相关度和准确度。

下面分别对各个模型的训练进行介绍。

1、通顺度判别模型的训练：

评估一个句子的通顺性往往使用的是语言模型，即计算这个句子在真实世界或语料库中的出现概率，这是一种基于传统统计学习的方法，不具备很好的泛化性能。本申请实施例提出构建一个标题通顺度分类数据集，采用预训练模型BERT，在该数据集上进行微调，训练出一个输出标题是否通顺的二分类的通顺度判别模型，具体为：标题确定模型首先在信息流图文数据库中抽取100万篇文章的标题数据，随机选择50万个标题作为分类模型的正样本数据集合，另外50万个标题分别采取打乱词顺序、随机删除词、使用任意词随机替换原标题中的词这三种方法，构建200万数量的不通顺标题作为负样本数据集合。然后使用中文预训练的BERT模型在此数据集上进行微调，得到最终的预测标题通顺度的通顺度判别模型。将正样本数据集合依次输入到BERT模型中，得到相对应的通顺度得分，在训练过程中，当输出的得分趋于一个稳定值，则可以停止训练了，对于正样本数据集合来说，所得到的通顺度得分越高越好。相同的，负样本数据集合也依次输入到BERT模型中，以得到相对应的负样本数据通顺度得分，当该得分趋于稳定值时，停止训练。在使用该通顺度判断模型时，输入的信息即为一个句子，在本申请实施中，输入的便是一个标题，然后通过该通顺度判别模型，便能得到一个通顺度得分。

2、相关度判别模型的训练：

相关度判别模型主要是评估标题与原文的相关性，是一个典型的文本匹配任务。该相关度判断模型的训练过程：标题确定设备首先构建正负样本数据集合，从信息流图文数据库中选择50万篇文章和标题作为相关度判别模型的正样本数据集合，然后再随机选择50万篇文章和不匹配的标题作为负样本数据集合，使用预训练BERT模型在这批数据集上进行微调，由此可以得到最终的预测标题与原文信息相关性的相关度判别模型。具体的，将正样本数据集合依次输入到BERT模型中，得到相对应的相关度得分，在训练过程中，当输出的得分趋于一个稳定值，则可以停止训练了，对于正样本数据集合来说，所得到的相关度得分越高越好。相同的，负样本数据集合也依次输入到BERT模型中，以得到相对应的负样本数据相关度得分，当该得分趋于稳定值时，停止训练。在使用该相关度判断模型时，输入的信息即为两个句子，在本申请实施中，输入的便是一个标题和一个文章，然后通过该相关度判别模型，便能得到一个相关度得分。由于BERT模型对输入的文本信息有字节的要求，因此，在获取样本数据集合的时候尽量会选择篇幅小的文章，或者，对于篇幅过长的文章会对文章进行预处理，包括截断处理等。

3、准确度判别模型的训练：

准确度判别模型是用来评估标题描述的关于文章的事实的正确性，本质上也是一个文本的语义匹配任务，但是与其他文本匹配任务不同，评估标题的正确性，不仅仅是计算标题与原文的相关性或者相似性，更重要的是需要判断原文能否蕴含出标题所携带的信息。该准确度判别模型的训练过程：首先，标题确定设备构建正负样本数据集合，正样本数据集合即为文章与原标题的集合，负样本数据集合构建：可以是对原标题采取翻译替换、实体数字替换、代词替换、否定替换、噪声注入等手段，将其转换为一个不符合原文事实的标题，该不符合原文事实的标题与文章的集合构成负样本数据集合，其中，要尽量保持不符合原文事实的标题的通顺性。最后，在预训练BERT模型上进行微调，训练出预测文章标题事实正确性的准确度判别模型。具体的，将正样本数据集合依次输入到BERT模型中，得到相对应的准确度得分，在训练过程中，当输出的得分趋于一个稳定值，则可以停止训练了，对于正样本数据集合来说，所得到的准确度得分越高越好。相同的，负样本数据集合也依次输入到BERT模型中，以得到相对应的负样本数据准确度得分，当该得分趋于稳定值时，停止训练。在使用该准确度判断模型时，输入的信息即为两个句子，在本申请实施中，输入的便是一个标题和一个文章，然后通过该准确度判别模型，便能得到一个准确度得分。

例如，假设第一策略为概率随机采样方式，第二策略为极大似然方式，通过概率随机采样方式生成的第一标题数据为

其中，i＝{1,2,…,n}，通过极大似然方式生成的第二标题数据为

其中，j＝{1,2,…,m}。示例性的，假设标题生成模型对样本数据进行训练后解码时生成的标题数据对应的向量分别为：{[0.3,0.3,0.4],[0.2,0.7,0.1],[0.6,0.3,0.1]}，字序列所对应非词典分别为{0:你，1:是，2:谁}。采用概率随机生成方式，按照概率分布的方式，例如得到一个序列<0.3,0.2,0.3>，则根据与词典的对应关系，可以得出第一标题为：你你是；采用极大似然方式，选择最大概率的词，例如得到的一个序列为<0.4,0.7,0.6>，则根据与词典的对应关系，可以得出第二标题为：谁是你。假设标题确定设备利用通顺度判别模型计算出第一标题数据的评分为r(y^s)＝0.3，假设标题确定设备利用通顺度判别模型计算出第二标题数据的评分为

则标题确定设备根据第一标题的评分、第二标题的评分以及第一标题数据得到的第一损失值可以利用公式(1)求出：

则根据公式(1)得出，根据上述r(y^s)＝0.3和

得到的对应的第一损失值L_rl＝(0.8-0.3)*[log(0.3)+log(0.2)+log(0.3)]，对应地，根据第二标题以及对应的真实标题得到的第二损失值可以利用公式(2)求出：

则结合由公式(2)与上述的第二标题数据的序列为<0.4,0.7,0.6>，可以得出第二损失值为L_ml＝-[log(0.4)+log(0.7)+log(0.6)]。

标题确定设备利用模型损失函数对第一损失值和第二损失值进行计算，得到初始标题生成模型的目标损失值。其中，损失函数可以利用公式(3)求出：

L_mixed＝γL_rl+(1-γ)L_ml (3)

则在该实例中，通过上述的L_ml、L_rl来确定目标损失值，当目标损失值小于或等于第二预设数值时，确定待检测标题数据集合满足所述收敛条件，则进一步根据满足收敛条件的标题数据集合的数量与多个标题数据集合的总数量之间的比值判断初始标题生成模型是否满足训练停止条件，若是满足，则得到标题生成模型。

S304、在调整参数后的初始标题生成模型输出的多个标题数据集合满足训练停止条件时，标题确定设备将调整参数后的初始标题生成模型确定为训练后的标题生成模型。

在一种可能的实现方式中，标题确定设备对初始标题生成模型的参数进行调整后，再进行判断是否满足训练停止条件，若是满足的情况下，则将该调整参数后的初始标题生成模型确定为训练后的标题生成模型。

本申请实施例中，标题确定设备获取样本数据集，该样本数据集包括多个训练文本数据，利用初始标题生成模型对多个训练文本数据进行处理，得到与多个训练文本数据相对应的多个标题数据集合，其中，各个标题数据集合包括采用第一策略生成的第一标题数据以及采用第二策略生成的第二标题数据，进一步地，在多个标题数据集合不满足训练停止条件时，标题确定设备对初始标题生成模型中的模型参数进行调整，在调整参数后的初始标题生成模型输出的多个标题数据集合满足训练停止条件时，标题确定设备将调整参数后的初始标题生成模型确定为训练后的标题生成模型。该实施例阐述的是标题确定设备结合通顺度判别模型、相关度判别模型和准确度判别模型中的至少一种训练得到标题生成模型，从而提高标题生成模型生成标题的质量，减少人工审核。

请参见图5，图5为本申请实施例提供的一种标题确定装置的结构示意图，该标题确定装置50包括：获取单元501、处理单元502、确定单元503，主要用于：

获取单元501，用于获取待处理文本数据，并对所述待处理文本数据进行处理，生成参考标题；

处理单元502，用于对所述参考标题进行语句识别处理，得到标题通顺度，以及根据所述参考标题和所述待处理文本数据确定所述参考标题与所述待处理文本数据的匹配度；

确定单元503，用于根据所述标题通顺度和所述匹配度中的至少一种确定所述参考标题的参考评分，并在所述参考评分满足标题选择条件时，将所述参考标题确定为所述待处理文本数据对应的目标标题。

在一种可能的实现方式中，所述参考标题包括第一标题和第二标题，所述处理单元502对所述待处理文本数据进行处理，生成参考标题时，具体用于：

在一种可能的实现方式中，所述确定单元503根据所述标题通顺度和所述匹配度中的至少一种确定所述参考标题的参考评分时，具体用于：

从所述第一评分和所述第二评分中确定参考评分；

所述确定单元503在所述参考评分满足标题选择条件时，将所述参考标题确定为所述待处理文本数据对应的目标标题时，具体用于：

在一种可能的实现方式中，所述处理单元502采用第一策略对所述待处理文本数据进行处理，生成第一标题，以及采用第二策略对所述待处理文本数据进行处理，生成第二标题时，具体用于：

在一种可能的实现方式中，所述获取单元501，还用于，获取样本数据集，所述样本数据集包括多个训练文本数据；

所述处理单元502，还用于，利用初始标题生成模型对所述多个训练文本数据进行处理，得到与所述多个训练文本数据相对应的多个标题数据集合，其中，各个标题数据集合包括采用第一策略生成的第一标题数据以及采用第二策略生成的第二标题数据；

所述处理单元502，还用于，在所述多个标题数据集合不满足训练停止条件时，对所述初始标题生成模型中的模型参数进行调整；

所述确定单元503，还用于，在调整参数后的初始标题生成模型输出的多个标题数据集合满足训练停止条件时，将调整参数后的初始标题生成模型确定为训练后的标题生成模型。

在一种可能的实现方式中，所述确定单元503，还用于：

在一种可能的实现方式中，所述确定单元503，还用于确定待检测标题数据集合，所述待检测标题数据集合为所述多个标题数据集合中的任意一个；

所述处理单元502，还用于：

利用所述通顺度判别模型、所述相关度判别模型和所述准确度判别模型中的至少一种，计算所述待检测标题数据集合包括的采用第一策略生成的第一标题数据的评分，以及计算待检测标题数据集合包括的采用第二策略生成的第二标题数据的评分；

根据所述第一标题数据的评分、所述第二标题数据的评分以及所述第一标题数据，计算初始标题生成模型的第一损失值，以及根据所述第二标题数据计算初始标题生成模型的第二损失值；

所述确定单元503，还用于，根据所述第一损失值和所述第二损失值确定所述待检测标题数据集合是否满足所述收敛条件。

在一种可能的实现方式中，所述确定单元503，用于根据所述第一损失值和所述第二损失值确定所述待检测标题数据集合是否满足所述收敛条件，包括：

利用模型损失函数对所述第一损失值和所述第二损失值进行计算，得到初始标题生成模型的目标损失值；

当所述目标损失值小于或等于第二预设数值时，确定所述待检测标题数据集合满足所述收敛条件。

本申请实施中，获取单元501获取待处理文本数据，处理单元502对待处理文本数据进行处理，生成参考标题，再通过对参考标题进行语句识别处理，得到标题通顺度，以及确定单元503根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，进而根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题，通过上述实施例，可以提高文章的标题的生成质量，进一步，可以通过通顺度和匹配度中的任意一种来确定文章的标题，可以提高生成标题的灵活度，同时，本申请实施例是通过设备自动生成文章标题的，可以显著减少人工审核的难度。

请参见图6，图6为本申请实施例提供的一种标题确定设备的装置示意图，该标题确定设备60至少包括处理器601以及存储器602。其中，处理器601以及存储器602可通过总线或者其它方式连接。存储器602可以包括计算机可读存储介质，存储器602用于存储计算机程序，计算机程序包括计算机指令，处理器601用于执行存储器602存储的计算机指令。处理器601(或称CPU(Central Processing Unit，中央处理器))是标题确定设备60的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是标题确定设备60中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器602既可以包括标题确定设备60中的内置存储介质，当然也可以包括标题确定设备60所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了标题确定设备60的操作系统。并且，在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的存储器602可以是高速RAM存储器，也可以是非不稳定的存储器(Non-VolatileMemory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器601的计算机可读存储介质。

在一种实现方式中，该标题确定设备60可以是图1所示的标题确定系统中的标题确定设备101；该存储器602中存储有第一计算机指令；由处理器601加载并执行存储器602中存放的第一计算机指令，以实现图2、图3所示方法实施例中的相应步骤；具体实现中，存储器602中的第一计算机指令由处理器601加载并执行如下步骤：

在一种可能的实现方式中，所述参考标题包括第一标题和第二标题，所述处理器601对所述待处理文本数据进行处理，生成参考标题，包括：

在一种可能的实现方式中，所述处理器601根据所述标题通顺度和所述匹配度中的至少一种确定所述参考标题的参考评分，具体用于：

根据所述标题通顺度和所述匹配度中的至少一种确定所述第一标题的第一评分，以及确定所述第二标题的第二评分；从所述第一评分和所述第二评分中确定参考评分；

所述处理器601，用于在所述参考评分满足标题选择条件时，将所述参考标题确定为所述待处理文本数据对应的目标标题，包括：

在一种可能的实现方式中，所述处理器601用于采用第一策略对所述待处理文本数据进行处理，生成第一标题，以及采用第二策略对所述待处理文本数据进行处理，生成第二标题，包括：

在一种可能的实现方式中，所述处理器601，还用于：

获取样本数据集，所述样本数据集包括多个训练文本数据；

利用初始标题生成模型对所述多个训练文本数据进行处理，得到与所述多个训练文本数据相对应的多个标题数据集合，其中，各个标题数据集合包括采用第一策略生成的第一标题数据以及采用第二策略生成的第二标题数据；

在所述多个标题数据集合不满足训练停止条件时，对所述初始标题生成模型中的模型参数进行调整；

在调整参数后的初始标题生成模型输出的多个标题数据集合满足训练停止条件时，将调整参数后的初始标题生成模型确定为训练后的标题生成模型。

在一种可能的实现方式中，所述处理器601，还用于：

确定所述多个标题数据集合中满足收敛条件的标题数据集合的数量；确定所述满足收敛条件的标题数据集合的数量与所述多个标题数据集合的总数量之间的比值；当所述比值大于或等于第一预设数值时，确定所述多个标题数据集合满足训练停止条件。

在一种可能的实现方式中，所述处理器601，还用于：

确定待检测标题数据集合，所述待检测标题数据集合为所述多个标题数据集合中的任意一个；

根据所述第一损失值和所述第二损失值确定所述待检测标题数据集合是否满足所述收敛条件。

在一种可能的实现方式中，所述处理器601根据所述第一损失值和所述第二损失值确定所述待检测标题数据集合是否满足所述收敛条件，具体用于：

利用模型损失函数对所述第一损失值和所述第二损失值进行计算，得到初始标题生成模型的目标损失值；当所述目标损失值小于或等于第二预设数值时，确定所述待检测标题数据集合满足所述收敛条件。

本申请实施例中，标题确定设备的处理器601获取待处理文本数据，并对待处理文本数据进行处理，生成参考标题，再通过对参考标题进行语句识别处理，得到标题通顺度，以及根据参考标题和待处理文本数据确定参考标题与待处理文本数据的匹配度，进而根据标题通顺度和匹配度中的至少一种确定参考标题的参考评分，并在参考评分满足标题选择条件时，将参考标题确定为待处理文本数据对应的目标标题，通过上述实施例，可以提高文章的标题的生成质量，进一步，可以通过通顺度和匹配度中的任意一种来确定文章的标题，可以提高生成标题的灵活度，同时，本申请实施例是通过设备自动生成文章标题的，可以显著减少人工审核的难度。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图2、图3流程图所对应实施例中的方法，因此，这里将不再进行赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种标题确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述参考标题包括第一标题和第二标题，所述对所述待处理文本数据进行处理，生成参考标题，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述标题通顺度和所述匹配度中的至少一种确定所述参考标题的参考评分，包括：

从所述第一评分和所述第二评分中确定参考评分；

4.根据权利要求2或3所述的方法，其特征在于，所述采用第一策略对所述待处理文本数据进行处理，生成第一标题，以及采用第二策略对所述待处理文本数据进行处理，生成第二标题，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取样本数据集，所述样本数据集包括多个训练文本数据；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一损失值和所述第二损失值确定所述待检测标题数据集合是否满足所述收敛条件，包括：

9.一种标题确定设备，其特征在于，所述标题确定设备包括：

存储器，用于存储计算机程序；

处理器，运行所述计算机程序；实现如权利要求1至8任一项所述的标题确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的标题确定方法。