CN114881012A

CN114881012A - 基于自然语言处理的文章标题及内容的智能改写系统及方法

Info

Publication number: CN114881012A
Application number: CN202210375565.2A
Authority: CN
Inventors: 李宇飞; 李玉秀
Original assignee: Shenzhen Wangrui Technology Co ltd
Current assignee: Shenzhen Wangrui Technology Co ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-09

Abstract

本发明涉及计算机技术领域，公开了一种基于自然语言处理的文章标题及内容的智能改写系统及方法，包括数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块，基于数据抓取请求获取待改写文章，并提取文章标题和文章内容；对待改写文章进行识别，得到识别结果；获取预先训练好的自然语言处理模型，基于识别结果对待改写文章进行分词处理，并将分词处理得到的分词结果输入第一处理模型中，确定出待改写位置和待改写内容；将待改写位置和待改写内容输入第二处理模型中，以进行改写处理，输出改写后，作为目标文章；本发明通过模型实现对文章标题及内容的智能改写，从而提高改写后的文章质量，满足文章改写需求。

Description

基于自然语言处理的文章标题及内容的智能改写系统及方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于自然语言处理的文章标题及内容的智能改写系统及方法。

背景技术

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分；自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

随着生活节奏的加快，人们通常在短时间内完成一篇文章，因此导致文章质量难以得到保障，同时短时间内就无法思考出什么样的内容能够吸引用户，因此在文章完成后需要对文章的标题及内容进行优化或改写，现有的文章标题及内容改写多采用人工改写的方式，将某些词语改写为同义的另一些词语，改写后的标题或内容与原有的差别较小，从而影响文章质量，无法满足改写需求。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

有鉴于此，有必要针对存在影响文章质量和无法满足改写需求等的问题，提供一种基于自然语言处理的文章标题及内容的智能改写系统及方法。

为实现上述目的，本发明提供了一种基于自然语言处理的文章标题及内容的智能改写系统，包括数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块；

数据抓取模块，用于获取待改写文章，并提取所述待改写文章的文章标题和文章内容；

数据识别模块，用于对所述数据抓取模块得到所述待改写文章的文章标题和文章内容进行识别；

模型调用模块，用于调用出预先训练好的自然语言处理模型，所述自然语言处理模型包括第一处理模型和第二处理模型；

分词处理模块，用于对所述数据识别模型输出的内容进行分词处理，并将所述分词处理得到的分词结果输入所述第一处理模型中，确定出待改写位置和待改写内容；

改写处理模块，将所述待改写文章的待改写位置和待改写内容输入所述第二处理模型中，以对所述待改写文章进行改写处理。

结果输出模块，用于将所述改写处理模块输出的改写后的文章标题和文章内容，作为修改所述待改写文章的目标文章

在其中一个实施例中，所述数据抓取模块的输出端与所述数据识别模块的输入端相连接，所述数据识别模块的输出端与所述分词处理模块的输入端相连接，所述模型调用模块的输出端与所述分词处理模块、所述改写处理模块的输入端相连接，所述分词处理模块的输出端与所述改写处理模块的输入端相连接，所述改写处理模块的输出端与所述结果输出模块的输入端相连接。

在其中一个实施例中，所述数据抓取模块包括数据请求单元、数据选取单元、数据抓取单元、数据存储单元和数据可视化单元；

数据请求单元，用于接收数据抓取请求；

数据选取单元，用于根据所述数据请求单元获取到的数据抓取请求，从预设的文章种子集中选取对应的种子文件，并选择URL链接；

数据抓取单元，用于根据URL链接建立http链接，并与web服务器进行链接以进行抓取，得到抓取数据；

数据存储单元，用于存储所述数据抓取单元得到的抓取数据；

数据可视化单元，用于将所述抓取数据使用pyecharts进行数据可视化。

本发明还提供了一种基于自然语言处理的文章标题及内容的智能改写方法，所述基于自然语言处理的文章标题及内容的智能改写方法包括以下步骤：

接收数据抓取请求，基于所述数据抓取请求获取待改写文章，并提取所述待改写文章的文章标题和文章内容；

对所述待改写文章的文章标题和文章内容进行识别，得到识别结果，所述识别结果用于确定所述文章标题和文章内容中的长度特征、位置特征和重要性特征中的至少一种；

获取预先训练好的自然语言处理模型，所述自然语言处理模型包括第一处理模型和第二处理模型；

基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理，并将所述分词处理得到的分词结果输入所述第一处理模型中，确定出所述待改写文章的待改写位置和待改写内容；

将所述待改写文章的待改写位置和待改写内容输入所述第二处理模型中，以对所述待改写文章进行改写处理，输出改写后的文章标题和文章内容，作为修改所述待改写文章的目标文章。

在其中一个实施例中，所述接收数据抓取请求，基于所述数据抓取请求获取待改写文章，并提取所述待改写文章的文章标题和文章内容，包括：

接受数据抓取请求，所述数据抓取请求中至少包括待改写文章的数据抓取任务所需的资源配置参数；

响应于所述资源配置参数，从预设的文章种子集中选取对应的种子文件，并基于爬虫技术选择URL链接；

根据URL链接建立http链接，并与web服务器进行链接以进行抓取，得到抓取数据，对所述抓取数据进行解析，并保存到数据库中；

使用pyecharts进行数据可视化，以得到待改写文章，并提取所述待改写文章的文章标题和文章内容。

所述基于爬虫技术选择URL链接，包括：

将所述种子文件中的数据按照key进行分割并分配给TaskTracker；

提取出HTML的属性数据与内容数据，将抓取出来的URL链接进行汇集；

对所述URL链接进行操作处理，其中所述操作处理包括提取、去重中至少一种，以得到最终选择的URL链接。

在其中一个实施例中，所述对所述待改写文章的文章标题和文章内容进行识别，得到识别结果，包括：

对所述待改写文章的文章标题和文章内容进行预处理，得到结构和语义完整的结构化文本内容；

将预处理后的所述待改写文章输入LDA模型，LDA模型对所述待改写文章进行特征提取，得到多个主题特征；

分别对所述多个主题特征概率分布中的每一个主题特征概率分布下的词汇进行筛选，以得到主题抽取结果；

对所述主题抽取结果进行主题语义标注，以得到识别结果，所述识别结果用于确定所述文章标题和文章内容中的长度特征、位置特征和重要性特征中的至少一种。

在其中一个实施例中，所述基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理，包括：

获取所述待改写文章的文章标题和文章内容，并确定出所述文章标题和文章内容中的词条，以得到词条集合；

基于所述词条集合建立向切分词图，其中每个词条对应所述向切分词图中的一条有向边；

对所述有向边赋予权值，并确定出从起点到终点的所有路径，以求出长度值，

按照升序排序所有路径，以从所有路径中确定出最短路径，得到切分结果集，所述切分结果集为所述待改写文章分词处理得到的分词结果。

在其中一个实施例中，所述第一处理模型的生成过程如下：

获取训练样本集，所述训练样本集包括多个样本文本数据；

从所述多个样本文本数据的各个样本文本数据中提取对应的特征向量，其中所述特征向量包括将位置向量、段向量和词向量；

将所述特征向量输入预设的Bert模型中进行训练，得到第一处理模型。

在其中一个实施例中，所述第二处理模型的生成过程如下：

获取结果文本与原文组成的样本数据对，以作为训练数据，调用初始语言模型，并引入判别模型，其中所述判别模型以编码器表示为输入的由多层感知机组成；

将所述训练数据输入初始语言模型中，并批量进行数据采样，采用所述判别模型对所述初始语言模型进行参数调整，直至最终收敛，以输出所述第二处理模型。

本发明实施例带来了以下有益效果：

上述基于自然语言处理的文章标题及内容的智能改写系统及方法，通过数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块，接收数据抓取请求，基于所述数据抓取请求获取待改写文章，并提取所述待改写文章的文章标题和文章内容；对所述待改写文章的文章标题和文章内容进行识别，得到识别结果；获取预先训练好的自然语言处理模型；基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理，并将所述分词处理得到的分词结果输入所述第一处理模型中，确定出所述待改写文章的待改写位置和待改写内容；将所述待改写文章的待改写位置和待改写内容输入所述第二处理模型中，以对所述待改写文章进行改写处理，输出改写后的文章标题和文章内容，作为修改所述待改写文章的目标文章。本发明通过模型实现对文章标题及内容的智能改写，从而提高改写后的文章质量，满足文章改写需求。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明基于自然语言处理的文章标题及内容的智能改写系统的结构框图；

图2为本发明基于自然语言处理的文章标题及内容的智能改写方法的工作流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

实施例1:

如图1所示，一种基于自然语言处理的文章标题及内容的智能改写系统，包括数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块；，

数据抓取模块，用于获取待改写文章，并提取待改写文章的文章标题和文章内容；

数据识别模块，用于对数据抓取模块得到待改写文章的文章标题和文章内容进行识别；

模型调用模块，用于调用出预先训练好的自然语言处理模型，自然语言处理模型包括第一处理模型和第二处理模型；

分词处理模块，用于对数据识别模型输出的内容进行分词处理，并将分词处理得到的分词结果输入第一处理模型中，确定出待改写位置和待改写内容；

改写处理模块，将待改写文章的待改写位置和待改写内容输入第二处理模型中，以对待改写文章进行改写处理。

结果输出模块，用于将改写处理模块输出的改写后的文章标题和文章内容，作为修改待改写文章的目标文章

本发明中，数据抓取模块的输出端与数据识别模块的输入端相连接，数据识别模块的输出端与分词处理模块的输入端相连接，模型调用模块的输出端与分词处理模块、改写处理模块的输入端相连接，分词处理模块的输出端与改写处理模块的输入端相连接，改写处理模块的输出端与结果输出模块的输入端相连接。

实施例2：

其具有上述实施例的实施内容，其中，对于上述实施例的具体实施方式可参阅上述描述，此处的实施例不作重复详述；而在本申请实施例中，其与上述实施例的区别在于：

本发明中的数据抓取模块包括数据请求单元、数据选取单元、数据抓取单元、数据存储单元和数据可视化单元；

数据请求单元，用于接收数据抓取请求；

数据选取单元，用于根据数据请求单元获取到的数据抓取请求，从预设的文章种子集中选取对应的种子文件，并选择URL链接；

数据存储单元，用于存储数据抓取单元得到的抓取数据；

数据可视化单元，用于将抓取数据使用pyecharts进行数据可视化。

实施例3：

如图2所示，一种基于自然语言处理的文章标题及内容的智能改写方法，包括以下步骤：

接收数据抓取请求，基于数据抓取请求获取待改写文章，并提取待改写文章的文章标题和文章内容；

对待改写文章的文章标题和文章内容进行识别，得到识别结果，识别结果用于确定文章标题和文章内容中的长度特征、位置特征和重要性特征中的至少一种；

获取预先训练好的自然语言处理模型，自然语言处理模型包括第一处理模型和第二处理模型；

基于识别结果对待改写文章的文章标题和文章内容进行分词处理，并将分词处理得到的分词结果输入第一处理模型中，确定出待改写文章的待改写位置和待改写内容；

将待改写文章的待改写位置和待改写内容输入第二处理模型中，以对待改写文章进行改写处理，输出改写后的文章标题和文章内容，作为修改待改写文章的目标文章。

本发明中，第一处理模型的生成过程如下：获取训练样本集，训练样本集包括多个样本文本数据；从多个样本文本数据的各个样本文本数据中提取对应的特征向量，其中特征向量包括将位置向量、段向量和词向量；将特征向量输入预设的Bert模型中进行训练，得到第一处理模型。

本发明中，第二处理模型的生成过程如下：获取结果文本与原文组成的样本数据对，以作为训练数据，调用初始语言模型，并引入判别模型，其中判别模型以编码器表示为输入的由多层感知机组成；将训练数据输入初始语言模型中，并批量进行数据采样，采用判别模型对初始语言模型进行参数调整，直至最终收敛，以输出第二处理模型。

本发明中，将待改写文章以及其的目标文章上传至区块链网络中存储，由于区块链技术具有不可篡改性使得信息的真实性得到了保证，从而实现待改写文章以及其的目标文章的准确来源，保证待改写文章以及其的目标文章可追溯性。

实施例4：

接收数据抓取请求，基于数据抓取请求获取待改写文章，并提取待改写文章的文章标题和文章内容，包括：

接受数据抓取请求，数据抓取请求中至少包括待改写文章的数据抓取任务所需的资源配置参数；

响应于资源配置参数，从预设的文章种子集中选取对应的种子文件，并基于爬虫技术选择URL链接；

根据URL链接建立http链接，并与web服务器进行链接以进行抓取，得到抓取数据，对抓取数据进行解析，并保存到数据库中；

使用pyecharts进行数据可视化，以得到待改写文章，并提取待改写文章的文章标题和文章内容。

本发明中，基于爬虫技术选择URL链接，包括：将种子文件中的数据按照key进行分割并分配给TaskTracker；提取出HTML的属性数据与内容数据，将抓取出来的URL链接进行汇集；对URL链接进行操作处理，其中操作处理包括提取、去重中至少一种，以得到最终选择的URL链接。

实施例5：

对待改写文章的文章标题和文章内容进行识别，得到识别结果，包括：

对待改写文章的文章标题和文章内容进行预处理，得到结构和语义完整的结构化文本内容；其中预处理可以是指：将文章处理为PDF格式的文章，然后按照文章的内容，按照文章中的标识符、分割符等符号，结合各个文本的位置将文章按照段落的粒度组织起来，并去掉没有实际文本含义的符号，得到结构和语义完整的结构化文本内容，该结构化文本内容中包括多个段落文本。

将预处理后的待改写文章输入LDA模型，LDA模型对待改写文章进行特征提取，得到多个主题特征；

分别对多个主题特征概率分布中的每一个主题特征概率分布下的词汇进行筛选，以得到主题抽取结果；

对主题抽取结果进行主题语义标注，以得到识别结果，识别结果用于确定文章标题和文章内容中的长度特征、位置特征和重要性特征中的至少一种。

实施例6：

基于识别结果对待改写文章的文章标题和文章内容进行分词处理，包括：

获取待改写文章的文章标题和文章内容，并确定出文章标题和文章内容中的词条，以得到词条集合；

基于词条集合建立向切分词图，其中每个词条对应向切分词图中的一条有向边；

对有向边赋予权值，并确定出从起点到终点的所有路径，以求出长度值，

按照升序排序所有路径，以从所有路径中确定出最短路径，得到切分结果集，切分结果集为待改写文章分词处理得到的分词结果。

本发明还提供一种用于文章辩题及内容只能改写的计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述的。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于自然语言处理的文章标题及内容的智能改写系统，其特征在于，包括数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块；

改写处理模块，将所述待改写文章的待改写位置和待改写内容输入所述第二处理模型中，以对所述待改写文章进行改写处理；

结果输出模块，用于将所述改写处理模块输出的改写后的文章标题和文章内容，作为修改所述待改写文章的目标文章。

2.根据权利要求1所述的基于自然语言处理的文章标题及内容的智能改写系统，其特征在于，所述数据抓取模块的输出端与所述数据识别模块的输入端相连接，所述数据识别模块的输出端与所述分词处理模块的输入端相连接，所述模型调用模块的输出端与所述分词处理模块、所述改写处理模块的输入端相连接，所述分词处理模块的输出端与所述改写处理模块的输入端相连接，所述改写处理模块的输出端与所述结果输出模块的输入端相连接。

3.根据权利要求1所述的基于自然语言处理的文章标题及内容的智能改写系统，其特征在于，所述数据抓取模块包括数据请求单元、数据选取单元、数据抓取单元、数据存储单元和数据可视化单元；

数据请求单元，用于接收数据抓取请求；

4.基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述基于自然语言处理的文章标题及内容的智能改写方法包括以下步骤：

5.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述接收数据抓取请求，基于所述数据抓取请求获取待改写文章，并提取所述待改写文章的文章标题和文章内容，包括：

6.根据权利要求5所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述基于爬虫技术选择URL链接，包括：

7.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述对所述待改写文章的文章标题和文章内容进行识别，得到识别结果，包括：

8.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理，包括：

9.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述第一处理模型的生成过程如下：

获取训练样本集，所述训练样本集包括多个样本文本数据；

10.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述第二处理模型的生成过程如下：