CN110795930A

CN110795930A - 一种文章标题优化方法、系统、介质及设备

Info

Publication number: CN110795930A
Application number: CN201911015125.0A
Authority: CN
Inventors: 张莹; 闫成; 周明智
Original assignee: Entertainment Interactive Technology Beijing Co Ltd
Current assignee: Entertainment Interactive Technology Beijing Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-14

Abstract

本发明涉及一种文章标题优化方法、系统、介质及设备。该方法包括：通过数据抓取技术获取标题；将获取的标题按照设定指标划分为优秀标题和普通标题，建立优秀标题库和普通标题库；将待优化标题和获取的标题的文本进行分词；使用优秀标题的分词结果和普通标题的分词结果作为训练样本训练神经网络模型；将所有分词结果输入神经网络模型，得到每个标题对应的评分；计算获取的标题的评分的平均分；若待优化标题的评分低于平均分，则分别计算待优化标题与优秀标题的相似度；输出相似度排在前N位的优秀标题，作为修改待优化标题时的参考标题。本发明能够客观反映该标题的好坏，大大缩短了文章标题的撰写时间，并且在各行各业都能广泛应用。

Description

一种文章标题优化方法、系统、介质及设备

技术领域

本发明涉及文本处理领域，具体涉及一种文章标题优化方法、系统、介质及设备。

背景技术

目前，目前市面上对标题的优化工具，只是提供标题库参考和标题党常用词展示，这种优化方式只能对好标题进行定性的判别，无法对标题好坏进行分数化排序，这样首先会导致对标题好坏的评价过于主观，无法满足各行各业的广泛需求，其次也就无法对标题进行不断改善，并且撰写标题的时间较长。

发明内容

针对上述技术问题，本发明提供一种文章标题优化方法、系统、介质及设备。

本发明解决上述技术问题的技术方案如下：一种文章标题优化方法，包括：

通过数据抓取技术获取标题；

将获取的标题按照设定指标划分为优秀标题和普通标题，建立优秀标题库和普通标题库；

将待优化标题和获取的标题的文本进行分词；

使用优秀标题的分词结果和普通标题的分词结果作为训练样本训练神经网络模型；

将所有分词结果输入所述神经网络模型，得到每个标题对应的评分；

计算获取的标题的评分的平均分；

若待优化标题的评分低于平均分，则分别计算所述待优化标题与优秀标题的相似度；

输出相似度排在前N位的优秀标题，作为修改所述待优化标题时的参考标题。

本发明的有益效果是：通过收集大量标题数据，建立优秀标题库和普通标题库，并基于这些数据进行建模，任何一个需要评估的标题出现后，系统即可基于神经网络模型对该标题进行打分，能够客观反映该标题的好坏，然后基于该标题与优秀标题的相近程度给出可供参考的优秀标题，以便使用者借鉴优秀标题的写法对标题进行修改，大大缩短了文章标题的撰写时间，并且在各行各业都能广泛应用。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述将获取的标题按照设定指标划分为优秀标题和普通标题，具体包括：

将文章阅读数和/或评论数超过预设值的文章的标题划分为优秀标题，否则划分为普通标题。

进一步，所述将所有分词结果输入所述神经网络模型，得到每个标题对应的评分，具体包括：

将分词之后获得的词及词组合分别输入优秀标题库和普通标题库进行比对，得到相应的分值，把所有的分值按照神经网络算法进行计算，得到标题评分。

进一步，还包括：

当所述优秀标题库和普通标题库中的标题发生变化时，重新训练神经网络模型。

为实现上述发明目的，本发明还提供一种文章标题优化系统，包括：

获取模块，用于通过数据抓取技术获取标题；

建立模块，用于将获取的标题按照设定指标划分为优秀标题和普通标题，建立优秀标题库和普通标题库；

分词模块，用于将待优化标题和获取的标题的文本进行分词；

训练模块，用于使用优秀标题的分词结果和普通标题的分词结果作为训练样本训练神经网络模型；

评分模块，用于将所有分词结果输入所述神经网络模型，得到每个标题对应的评分；

第一计算模块，用于计算获取的标题的评分的平均分；

第二计算模块，用于若待优化标题的评分低于平均分，则分别计算所述待优化标题与优秀标题的相似度；

输出模块，用于输出相似度排在前N位的优秀标题，作为修改所述待优化标题时的参考标题。

进一步，所述建立模块，具体用于：

进一步，所述评分模块，具体用于：

进一步，还包括：

更新模块，用于当所述优秀标题库和普通标题库中的标题发生变化时，重新训练神经网络模型。

本发明还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述方法。

本发明还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

附图说明

图1为本发明实施例提供的一种文章标题优化方法的流程图；

图2为本发明实施例提供的一种文章标题优化系统的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种文章标题优化方法的流程图，如图1所示，该方法包括：

S1、通过数据抓取技术获取标题；

具体的，该步骤可通过网络爬虫等数据抓取技术自动收集网络上亿的标题，以便学习网民优秀标题的写法经验。

S2、将获取的标题按照设定指标划分为优秀标题和普通标题，建立优秀标题库和普通标题库；

具体的，该步骤中，可结合文章阅读数、评论数等反应文章热度的指标区分出两个库：一个是优秀标题库，一个是普通标题库，例如，将文章阅读数和/或评论数超过预设值的文章的标题划分为优秀标题，否则划分为普通标题。这样，优秀标题库是阅读数、评论数偏高的文章标题；普通标题库是阅读数、评论数中偏低的标题。

S3、将待优化标题和获取的标题的文本进行分词；

具体的，该步骤中，可采用智能分词接口将多个文章标题的文本进行分词，得到词和词组合。比如“如何让标题更吸引人“这样的文章标题会被分解为“如何”、“让”、“标题”、“更吸引人”这些词。

S4、使用优秀标题的分词结果和普通标题的分词结果作为训练样本训练神经网络模型；

具体的，神经网络模型具体的训练过程为现有技术，在此不再赘述。

S5、将所有分词结果输入所述神经网络模型，得到每个标题对应的评分；

具体的，基于对优秀标题库和普通标题库中的标题进行分词后产生的两个庞大的分词数据库，在判断标题是否优秀的时候，首先会对标题进行分词，然后把每个词及词组合放入两个库进行比对，分词结果中的词通过聚类、NLP（语义分析）等技术手段在优秀标题中与普通标题中都有相应的分值，把标题中所有词的分值按照神经网络算法进行计算，得出一个综合分，这个分就是标题的评分。

另外，还可靠NLP、深度学习算法辅助人工判断，比如长度、词性比例、修辞类型，对所有优秀标题进行多个维度的评分，以便满足用户个性化的需求。

S6、计算获取的标题的评分的平均分；

具体的，平均分会作为标题是否优秀的一个判断标准。这样不仅可以对标题好坏进行排序，还可以客观地给出一个标题是否优秀的评价结果。

S7、若待优化标题的评分低于平均分，则分别计算所述待优化标题与优秀标题的相似度；

具体的，若待优化标题的评分低于平均分，则说明该标题需要优化，通过相似度计算结果可以筛选出与待优化标题相近的优秀标题，相似度计算为现有技术，具体的计算过程在此不再赘述。

S8、输出相似度排在前N位的优秀标题，作为修改所述待优化标题时的参考标题。

本发明通过收集大量标题数据，建立优秀标题库和普通标题库，并基于这些数据进行建模，任何一个需要评估的标题出现后，系统即可基于神经网络模型对该标题进行打分，能够客观反映该标题的好坏，然后基于该标题与优秀标题的相近程度给出可供参考的优秀标题，以便使用者借鉴优秀标题的写法对标题进行修改，大大缩短了文章标题的撰写时间，并且在各行各业都能广泛应用。

可选地，在该实施例中，步骤S2，具体包括：

可选地，在该实施例中，步骤S5，具体包括：

可选地，在该实施例中，该方法还包括：

S9、当所述优秀标题库和普通标题库中的标题发生变化时，重新训练神经网络模型。

具体的，通过更新标题并重新训练神经网络模型，可以持续自学习新的优秀标题，从而不断优化评分结果。

图2为本发明实施例提供的一种文章标题优化系统的结构框图，如图2所示，该系统包括：

获取模块，用于通过数据抓取技术获取标题；

第一计算模块，用于计算获取的标题的评分的平均分；

可选地，在该实施例中，所述建立模块，具体用于：

可选地，在该实施例中，所述评分模块，具体用于：

可选地，在该实施例中，该系统还包括：

本发明实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使所述计算机执行上述方法实施例中的方法步骤；或者存储上述系统实施例的各个软件模块对应的指令。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法实施例中的方法步骤。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文章标题优化方法，其特征在于，包括：

通过数据抓取技术获取标题；

将待优化标题和获取的标题的文本进行分词；

计算获取的标题的评分的平均分；

2.根据权利要求1所述的一种文章标题优化方法，其特征在于，所述将获取的标题按照设定指标划分为优秀标题和普通标题，具体包括：

3.根据权利要求1所述的一种文章标题优化方法，其特征在于，所述将所有分词结果输入所述神经网络模型，得到每个标题对应的评分，具体包括：

4.根据权利要求1-3任一项所述的一种文章标题优化方法，其特征在于，还包括：

5.一种文章标题优化系统，其特征在于，包括：

获取模块，用于通过数据抓取技术获取标题；

第一计算模块，用于计算获取的标题的评分的平均分；

6.根据权利要求5所述的一种文章标题优化系统，其特征在于，所述建立模块，具体用于：

7.根据权利要求5所述的一种文章标题优化系统，其特征在于，所述评分模块，具体用于：

8.根据权利要求5-7任一项所述的一种文章标题优化系统，其特征在于，还包括：

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使所述计算机执行根据权利要求1至4任一项所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。