CN113822067A

CN113822067A - 关键信息提取方法、装置、计算机设备及存储介质

Info

Publication number: CN113822067A
Application number: CN202110942645.7A
Authority: CN
Inventors: 刘杨; 熊焕卫
Original assignee: Donson Times Information Technology Co ltd
Current assignee: Donson Times Information Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-21

Abstract

本发明公开了一种关键信息提取方法、装置、计算机设备及介质，包括：基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章；对目标文章进行格式解析，得到目标文章的标题和正文；对正文进行文本信息提取，得到目标文本信息；将标题与目标文本信息作为融合特征，将目标文章作为基础特征，并将融合特征与基础特征输入到预设好的关键词筛选模型进行训练，得到初始关键词候选集；对初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并从目标序列中选取预设数量的关键词，作为目标关键词；基于目标关键词和目标文章，生成关键信息。采用本发明可提高关键信息提取的准确性。

Description

关键信息提取方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种关键信息提取方法、装置、计算机设备及介质。

背景技术

互联网能够给用户提供丰富的信息资源，随着互联网技术的飞速发展，越来越多的用户通过互联网获取想要的信息，为了方便用户获取最新资讯，自媒体站点每天都会新增大量文章，如何从大量的文章中找到自己想要的信息，成了一个亟待解决的难题。

现有方式中，通过集合搜索引擎的方式，根据用户的关键词或者预设的偏好信息，进行文章采集，再将每个采集到的文章的前面的几个语句以快照的形式展现给用户，但是这种方式对文章内容的概括准确度难以保证，使得用户在浏览时，还是需要逐个文章点击进去阅读才能获取文章的信息，耗费较多的时间，因而，亟需一种对文章关键信息准确抽取的方法。

发明内容

本发明实施例提供一种关键信息提取方法、装置、计算机设备和存储介质，以提高关键信息提取的精准程度。

为了解决上述技术问题，本申请实施例提供一种关键信息提取方法，包括：

基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章；

对所述目标文章进行格式解析，得到所述目标文章的标题和正文；

对所述正文进行文本信息提取，得到处理后的文本信息，并将所述处理后的文本信息作为目标文本信息；

将所述标题与所述目标文本信息作为融合特征，将所述目标文章作为基础特征，并将所述融合特征与所述基础特征输入到预设好的关键词筛选模型进行训练，得到初始关键词候选集，其中，所述训练好的关键词筛选模型为神经网络模型；

根据预设的优先级排序方式，对所述初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并按照从前往后的顺序，从所述目标序列中选取预设数量的关键词，作为目标关键词；

基于所述目标关键词和所述目标文章，生成所述关键信息。

可选地，所述基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章包括：

接收客户端发送的文章爬取请求，所述文章爬取请求包括待爬取的舆情文章对应的标签和发布时间范围；

采用广度优先策略，基于所述文章爬取请求，从自媒体站点进行文章爬取，得到每个初始文章对应的页面信息；

获取通过链接分析的方式，确定每个所述页面信息的网页权重；

根据每个所述页面信息的所述网页权重，确定目标网页；

基于预设的网页排名策略，计算每个所述目标网页的网页排名值，并根据所述网页排名值由大到小的顺序，对所述目标网页进行排序，得到目标页面队列；

依次抓取所述目标页面队列中每个所述目标网页对应的文章内容，得到所述目标文章。

可选地，所述训练好的关键词筛选模型为BERT网络模型。

可选地，所述对所述正文进行文本信息提取，得到处理后的文本信息，并将所述处理后的文本信息作为目标文本信息包括：

基于文本符号标识，对所述正文进行分段处理，得到每个段落对应的段落文本及段落文本对应的段落编号；

分别对每个所述段落文本进行自然语言语义识别，得到所述段落文本对应的段落大意，并基于所有所述段落大意，生成所述正文对应的摘要信息；

针对每个所述段落文本，采用N-gram模型进行分词处理，得到目标分词，并获取所述目标分词对应的段落编号，作为所述目标分词对应的位置信息，将每组所述目标分词和所述目标分词对应的位置信息，作为一组分词信息；

将所述分词信息和所述摘要信息作为所述目标文本信息。

可选地，在所述针对每个所述段落文本，采用N-gram模型进行分词处理，得到目标分词之前，所述方法还包括：

获取预设的训练语料库，并使用N-gram模型对所述预设的训练语料库进行分析，得到所述预设的训练语料库的词序列数据；

所述所述针对每个所述段落文本，采用N-gram模型进行分词处理，得到目标分词包括：

对所述段落文本进行分词解析，得到M个分词序列；

针对每个所述分词序列，依据所述预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

从M个所述分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的所述分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为所述目标分词。

可选地，所述基于所述目标关键词和所述目标文章，生成所述关键信息包括：

从所述目标文章中，获取包含所述目标关键词的语句，作为基础语句；

按照预设规则，对所述基础语句进行甄选，得到目标语句；

采用句式融合的方式，对所述目标语句进行融合，得到所述关键信息。

为了解决上述技术问题，本申请实施例还提供一种关键信息提取装置，包括：

数据爬取模块，用于基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章；

格式解析模块，用于对所述目标文章进行格式解析，得到所述目标文章的标题和正文；

信息处理模块，用于对所述正文进行文本信息提取，得到处理后的文本信息，并将所述处理后的文本信息作为目标文本信息；

关键词提取模块，用于将所述标题与所述目标文本信息作为融合特征，将所述目标文章作为基础特征，并将所述融合特征与所述基础特征输入到训练好的关键词筛选模型进行训练，得到初始关键词候选集，其中，所述训练好的关键词筛选模型为神经网络模型；

关键词筛选模块，用于根据预设的优先级排序方式，对所述初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并按照从前往后的顺序，从所述目标序列中选取预设数量的关键词，作为目标关键词；

关键信息生成模块，用于基于所述目标关键词和所述目标文章，生成所述关键信息。

可选地，所述数据爬取模块包括：

请求接收单元，用于接收客户端发送的文章爬取请求，所述文章爬取请求包括待爬取的舆情文章对应的标签和发布时间范围；

页面爬取单元，用于采用广度优先策略，基于所述文章爬取请求，从自媒体站点进行文章爬取，得到每个初始文章对应的页面信息；

权重评估单元，用于获取通过链接分析的方式，确定每个所述页面信息的网页权重；

目标页面确定单元，用于根据每个所述页面信息的所述网页权重，确定目标网页；

页面队列生成单元，用于基于预设的网页排名策略，计算每个所述目标网页的网页排名值，并根据所述网页排名值由大到小的顺序，对所述目标网页进行排序，得到目标页面队列；

内容抓取单元，用于依次抓取所述目标页面队列中每个所述目标网页对应的文章内容，得到所述目标文章。

可选地，所述信息处理模块包括：

分段单元，用于基于文本符号标识，对所述正文进行分段处理，得到每个段落对应的段落文本及段落文本对应的段落编号；

摘要生成单元，用于分别对每个所述段落文本进行自然语言语义识别，得到所述段落文本对应的段落大意，并基于所有所述段落大意，生成所述正文对应的摘要信息；

分词单元，用于针对每个所述段落文本，采用N-gram模型进行分词处理，得到目标分词，并获取所述目标分词对应的段落编号，作为所述目标分词对应的位置信息，将每组所述目标分词和所述目标分词对应的位置信息，作为一组分词信息；

结果确定单元，用于将所述分词信息和所述摘要信息作为所述目标文本信息。

可选地，在所述针对每个所述段落文本，采用N-gram模型进行分词处理，得到目标分词之前，该装置还包括：

词序列生成模块，用于获取预设的训练语料库，并使用N-gram模型对所述预设的训练语料库进行分析，得到预设的训练语料库的词序列数据；

所述分词单元包括：

分词解析子单元，用于对所述段落文本进行分词解析，得到M个分词序列；

概率计算子单元，用于针对每个所述分词序列，依据所述预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

目标分词确定子单元，用于从M个所述分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的所述分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为所述目标分词。

可选地，所述关键信息生成模块包括：

基础语句获取单元，用于从所述目标文章中，获取包含所述目标关键词的语句，作为基础语句；

目标语句甄选单元，用于按照预设规则，对所述基础语句进行甄选，得到目标语句；

句式融合单元，用于采用句式融合的方式，对所述目标语句进行融合，得到所述关键信息。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述关键信息提取方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述关键信息提取方法的步骤。

本发明实施例提供的关键信息提取方法、装置、计算机设备及存储介质，通过基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章；对目标文章进行格式解析，得到目标文章的标题和正文；对正文进行文本信息提取，得到处理后的文本信息，并将处理后的文本信息作为目标文本信息；将标题与目标文本信息作为融合特征，将目标文章作为基础特征，并将融合特征与基础特征输入到训练好的关键词筛选模型进行训练，得到初始关键词候选集；根据预设的优先级排序方式，对初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并按照从前往后的顺序，从目标序列中选取预设数量的关键词，作为目标关键词；基于目标关键词和目标文章，生成关键信息，实现根据文章标题和内容进行关键信息的快速抽取，有利于提高关键信息提取的准确性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的关键信息提取方法的一个实施例的流程图；

图3是根据本申请的关键信息提取装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的关键信息提取方法由服务器执行，相应地，关键信息提取装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2，图2示出本发明实施例提供的一种关键信息提取方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S201：基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章。

S202：对目标文章进行格式解析，得到目标文章的标题和正文。

具体地，根据爬取内容中对应文本的符号信息，例如换行符、分节符或者对应的页面元素等，对目标文章进行格式解析，得到目标文章的标题和正文，过滤掉无效信息，避免无效信息对后续的关键信息提取的干扰。

S203：对正文进行文本信息提取，得到处理后的文本信息，并将处理后的文本信息作为目标文本信息。

S204：将标题与目标文本信息作为融合特征，将目标文章作为基础特征，并将融合特征与基础特征输入到训练好的关键词筛选模型进行训练，得到初始关键词候选集，其中，训练好的关键词筛选模型为神经网络模型。

可选地，训练好的关键词筛选模型为BERT网络模型，BERT模型包括编码层和Transformer层。

进一步地，将融合特征与基础特征输入到训练好的关键词筛选模型进行训练，得到初始关键词候选集包括：

将融合特征与基础特征输入到训练好的关键词筛选模型中，通过BERT网络模型的编码层，对融合特征进行编码，得到初始编码，初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码；

通过BERT网络模型的Transformer层，对第二编码和第三编码进行特征提取，得到第二编码对应的第二特征，以及第三编码对应的第三特征；

计算第三特征与第二特征之间的相似度值，并将与第二特征相似度值小于第一预设阈值的第三特征，作为待筛选特征；

将待筛选特征对应的文本信息，作为初始候选集。

具体地，将融合特征和目标文章输入到训练好的关键词筛选模型，通过预设的BERT模型的编码层，对融合特征进行编码处理，得到初始编码，初始编码包括标题对应的第一编码、摘要对应的第二编码和文本信息对应的第三编码，再通过预设的BERT模型的Transformer层，对第二编码和第三编码进行特征提取，得到第二编码对应的第二特征，以及第三编码对应的第三特征，进而针对每个第三特征，计算该第三特征与第二特征的相似度，若相似度小于第一预设阈值，则将该相似度对应的第三特征，作为待筛选特征。

需要说明的是，训练好的关键词筛选模型，其训练样本来源于预先从舆情相关文章中选取并标记的数据特征。

其中，相似度的计算方式，具体包括但不限于：曼哈顿距离(ManhattanDistance)、欧式距离(Euclidean Distance)、余弦相似度(Cosine similarity)和闵氏距离(Minkowski distance)等。

其中，Transformer层是通过Transformer框架进行构建，Transformer框架是谷歌团队提出的自然语言处理的经典之作，Transformer可以增加到非常深的深度，并利用注意力机制实现快速并行，因而，Transformer框架相对于通常的卷积神经网络或者循环神经网络具有训练速度快，且识别率高的特点。

其中，第一预设阈值可根据实际情况进行设定，例如设为0.6，此处不作具体限制。

在本实施例中，通过采用训练好的BERT模型，对融合特征进行编码和特征提取，进而确定存在关联的文本信息的集合，作为初始候选集，减少了关键信息提取的范围，有利于提高关键信息提取的效率。

S205：根据预设的优先级排序方式，对初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并按照从前往后的顺序，从目标序列中选取预设数量的关键词，作为目标关键词。

S206：基于目标关键词和目标文章，生成关键信息。

本实施例中，基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章；对目标文章进行格式解析，得到目标文章的标题和正文；对正文进行文本信息提取，得到处理后的文本信息，并将处理后的文本信息作为目标文本信息；将标题与目标文本信息作为融合特征，将目标文章作为基础特征，并将融合特征与基础特征输入到训练好的关键词筛选模型进行训练，得到初始关键词候选集；根据预设的优先级排序方式，对初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并按照从前往后的顺序，从目标序列中选取预设数量的关键词，作为目标关键词；基于目标关键词和目标文章，生成关键信息，实现根据文章标题和内容进行关键信息的快速抽取，有利于提高关键信息提取的准确性和效率。

在一具体实施方式中，步骤S201中，基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章包括：

接收客户端发送的文章爬取请求，文章爬取请求包括待爬取的舆情文章对应的标签和发布时间范围；

采用广度优先策略，基于文章爬取请求，从自媒体站点进行文章爬取，得到每个初始文章对应的页面信息；

获取通过链接分析的方式，确定每个页面信息的网页权重；

根据每个页面信息的网页权重，确定目标网页；

基于预设的网页排名策略，计算每个目标网页的网页排名值，并根据网页排名值由大到小的顺序，对目标网页进行排序，得到目标页面队列；

依次抓取目标页面队列中每个目标网页对应的文章内容，得到目标文章。

具体地，当前舆情传播主要来源于网络，因而，本实施例将网络中的自媒体站点作为信息来源，采用网络爬取的方式，爬取目标文章。

其中，网络爬虫又称全网爬虫(Scalable Web Crawler)，爬行对象从一些种子URL(Uniform Resource Locator，统一资源定位符)扩充到整个Web(World Wide Web，全球广域网)，主要为门户站点搜索引擎和大型Web服务提供商采集数据。

由于网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略等。

其中，深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。

其中，广度优先策略是按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点。

优选地，本实施例采用的网络爬虫结构为URL队列的结构，采用的爬行策略为广度优先策略，以便提升爬取内容的质量和爬取的效率，具体过程可参考后续实施例的描述，为避免重复，此处不再赘述。

进一步地，在进行页面内容爬取之前，先对带爬取的站点进行Link分析，确认每个站点网页的权重，以便后续根据权重确定需要进行爬取的目标网页，服务端预设有参考权重，在计算出的网页权重大于预设的参考权重时，确认该网页具有爬取价值，将该网页确定为目标页面，进而通过预设的网页排名策略，计算每个目标网页的网页排名值，并根据网页排名值由大到小的顺序，对目标网页进行排序，得到目标页面队列，再根据目标页面队列中页面的顺序，对目标网页的内容进行爬取，得到目标网页中包含的文章信息。

其中，link分析是指对站点页面的基本特征进行分析。

在本实施例中，选取进行分析的基本特征包括但不限于：用户行为、网络拓扑和网页内容等。

其中，用户行为分析，主要是指分析用户对网页的访问频率、访问时长、点击率等网页数据，得到该站点页面的用户偏好程度和兴趣点；

其中，网络拓扑分析，包含对网页的外链、层次和等级等数据的分析。

其中，网页内容分析，包含对网页的外观、文本等内容特征数据的分析。

需要说明的是，本实施例通过对用户行为分析、网络拓扑分析和网页内容分析，得到三项分析结果，并对三项分析结果进行综合评估，得到站点的网页权重。综合评估的具体方式可以是通过预设的加权公式来实现，也可以根据实际需要进行设定，此处不做限定。

其中，预设的网页排名策略包括但不限于：PageRank策略、Hilltop算法、基于链接关系的排名(TrustRank)算法和ExpertRank等。

优选地，本实施例采用PageRank策略用以计算每个目标页面的网页排名值。

其中，PageRank策略，又称网页排名策略、Google左侧排名策略或佩奇排名策略，是一种由根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，PageRank值可以用来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的一个重要因素，根据PageRank值由大到小的方式进行排序，使得将重要级更高的页面排在前面，在后面进行内容爬取时，优先获取排名靠前的网页的信息。

在本实施例中，通过构建页面权重队列，进而根据页面权重队列中的顺序进行爬取，优先爬取重要信息，有利于提高爬取内容的质量和爬取效率。

在一具体实施方式中，步骤S203中，对正文进行文本信息提取，得到处理后的文本信息，并将处理后的文本信息作为目标文本信息包括：

基于文本符号标识，对正文进行分段处理，得到每个段落对应的段落文本及段落文本对应的段落编号；

分别对每个段落文本进行自然语言语义识别，得到段落文本对应的段落大意，并基于所有段落大意，生成正文对应的摘要信息；

针对每个段落文本，采用N-gram模型进行分词处理，得到目标分词，并获取目标分词对应的段落编号，作为目标分词对应的位置信息，将每组目标分词和目标分词对应的位置信息，作为一组分词信息；

将分词信息和摘要信息作为目标文本信息。

其中，N-gram模型是大词汇连续文字语义识别中常用的一种语言模型，利用上下文中相邻词间的搭配信息，在需要把连续无空格的文字转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，提高了词序列确定的准确性。

其中，目标分词对应的位置信息，是为了后续快速定位到目标分词所在的位置，具体可以划分到段落，或者，对短句进行标号作为定位，又或者，对每个目标分词对应的语句的第一个字符的位置进行标号定位，具体可根据实际情形选取任一种方式，此处不做限定。

其中，自然语言语义识别(Natural Language Processing，NLP)是人工智能(AI)的一个子领域，通过机器学习的方式，对自然语言进行理解解析，从而解决自然语言领域的一些问题，NLP主要应用范围包括但不限于：文本朗读(Text to speech)/语音合成(Speechsynthesis)、语音识别(Speech recognition)、中文自动分词(Chinese wordsegmentation)、词性标注(Part-of-speech tagging)、句法分析(Parsing)、文本分类(Text categorization)、信息检索(Information retrieval)、自动摘要(Automaticsummarization)和文字校对(Text-proofing)等。

在一具体实施方式中，在针对每个段落文本，采用N-gram模型进行分词处理，得到目标分词之前，方法还包括：

获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据；

针对每个段落文本，采用N-gram模型进行分词处理，得到目标分词包括：

对段落文本进行分词解析，得到M个分词序列；

针对每个分词序列，依据预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

从M个分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为目标分词。

其中，词序列是指由至少两个语料按照一定顺序组合而成的序列，词序列频度是指该词序列出现的次数占整个语料库中分词(Word Segmentation)出现次数的比例，这里的分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。例如，某个词序列“爱吃西红柿”在整个语料库中出现的次数为100次，整个语料库所有分词出现的次数之和为100000次，则词序列“爱吃西红柿”的词序列频度为0.0001。

值得说明的是，为了提高分词的精准程度和效率，在本实施例中，获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据的过程，可以在进行文章关键信息提取之前进行，并将得到的词序列数据进行存储，在需要对文章内容进行语义识别时，直接调用该词序列数据即可。

具体地，每个段落文本，断句方式不一样，理解出的语句可能存在差别，为保证语句理解的正确性，服务端在获取到段落文本后，针对其中的每个语句，获取该语句的M个分词序列的组成，M为所有可能出现的分词序列的总数。

其中，每个分词序列均是将一个基础语句进行划分得到的一种结果，得到的包含至少两个分词的文字序列。

例如，在一具体实施方式中，一基础语句为“今天真热”，对该基础语句进行解析，得到分词序列A为：“今天”、“真”、“热”，得到分词序列B为：“今”、“天真”、“热”等。

对分词序列计算发生概率具体可使用马尔科夫假设理论：第Y个词的出现只与前面Y-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计Y个词同时出现的次数得到。即：

P(T)＝P(W₁W₂...W_Y)＝P(W₁)P(W₂|W₁)...P(W_Y|W₁W₂...W_Y-1)公式(1)

其中，P(T)为整句出现的概率，P(W_Y|W₁W₂...W_Y-1)为第Y个分词出现在Y-1个分词组成的词序列之后的概率。

例如：在“中华民族是一个有着悠久文明历史的民族”这句话进行语音识别后，划分的一种分词序列为：“中华民族”、“是”、“一个”、“有着”、“悠久”、“文明”、“历史”、“的”、“民族”，一共出现了9个分词，当n＝9的时候，即计算“民族”这个分词在出现在“中华民族是一个有着悠久文明历史的”这个词序列之后的概率。

进一步地，针对每个分词序列，通过计算均得到一个发生概率，共得到M个分词序列的发生概率，将这M个分词序列的发生概率分别与预设概率阈值进行比较，选取大于或者等于预设概率阈值的发生概率，作为有效发生概率，进而找到有效发生概率对应的分词序列，将这些分词序列作为目标分词序列。

通过与预设概率阈值进行比较，过滤掉发生概率不符合要求的分词序列，从而使得选取的目标分词序列更为接近自然语言中表达的含义，提高了语义识别的准确率，有利于提高分词的准确性。

其中，预设概率阈值可根据实际情况进行提前设定，此处不作具体限制。

在本实施例中，通过获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据，方便后续计算发生概率时可直接使用词序列数据，从而节省了计算概率的时间，有利于提高分词效率，同时，对段落文本中的语句进行分词解析，得到M个分词序列，进而针对每个分词序列，依据预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率，再从M个分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为目标分词，确保分词的准确性，有利于提高后续通过目标分词进行关键信息抽取的精准程度。

在一具体实施方式中，步骤S206中，基于目标关键词和目标文章，生成关键信息包括：

从目标文章中，获取包含目标关键词的语句，作为基础语句；

按照预设规则，对基础语句进行甄选，得到目标语句；

采用句式融合的方式，对目标语句进行融合，得到关键信息。

其中，预设规则具体可以是通过对基础语句中包含的目标关键词数量由大到小进行排序，并根据排序结果，从前往后进行目标语句选取，直到选取到的目标语句中选取包含所有目标关键词为止。

其中，句式融合(sentence ensemble)是通过预设的语法规则，对句式进行检查修正，并对其中缺失的部分，根据语义进行补充完整，实现句子的完整性，预设的语法规则，是根据实际的语言，选取对应的语法，制定成对应的规则脚本。

其中，根据意思进行补充完整，具体可以是先对其进行语义识别，在根据句式中缺失的部分，补充相应关键词的方式，来实现句子的完整性，语义识别可采用自然语言处理的方式来实现，具体过程可参考前述实施例的描述，为避免重复，此处不再赘述。

本实施例中，通过结合原文和目标关键词，得到原文对应的语句，进而进行句式融合，实现快速准确对原文的关键信息进行概括。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例关键信息提取方法一一对应的关键信息提取装置的原理框图。如图3所示，该关键信息提取装置包括数据爬取模块31、格式解析模块32、信息处理模块33、关键词提取模块34、关键词筛选模块35和关键信息生成模块36。各功能模块详细说明如下：

数据爬取模块31，用于基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章；

格式解析模块32，用于对目标文章进行格式解析，得到目标文章的标题和正文；

信息处理模块33，用于对正文进行文本信息提取，得到处理后的文本信息，并将处理后的文本信息作为目标文本信息；

关键词提取模块34，用于将标题与目标文本信息作为融合特征，将目标文章作为基础特征，并将融合特征与基础特征输入到训练好的关键词筛选模型进行训练，得到初始关键词候选集，其中，训练好的关键词筛选模型为神经网络模型；

关键词筛选模块35，用于根据预设的优先级排序方式，对初始候选集中的每个关键词进行优先级排序，得到优先级由大到小的目标序列，并按照从前往后的顺序，从目标序列中选取预设数量的关键词，作为目标关键词；

关键信息生成模块36，用于基于目标关键词和目标文章，生成关键信息。

可选地，数据爬取模块31包括：

请求接收单元，用于接收客户端发送的文章爬取请求，文章爬取请求包括待爬取的舆情文章对应的标签和发布时间范围；

页面爬取单元，用于采用广度优先策略，基于文章爬取请求，从自媒体站点进行文章爬取，得到每个初始文章对应的页面信息；

权重评估单元，用于获取通过链接分析的方式，确定每个页面信息的网页权重；

目标页面确定单元，用于根据每个页面信息的网页权重，确定目标网页；

页面队列生成单元，用于基于预设的网页排名策略，计算每个目标网页的网页排名值，并根据网页排名值由大到小的顺序，对目标网页进行排序，得到目标页面队列；

内容抓取单元，用于依次抓取目标页面队列中每个目标网页对应的文章内容，得到目标文章。

可选地，信息处理模块33包括：

分段单元，用于基于文本符号标识，对正文进行分段处理，得到每个段落对应的段落文本及段落文本对应的段落编号；

摘要生成单元，用于分别对每个段落文本进行自然语言语义识别，得到段落文本对应的段落大意，并基于所有段落大意，生成正文对应的摘要信息；

分词单元，用于针对每个段落文本，采用N-gram模型进行分词处理，得到目标分词，并获取目标分词对应的段落编号，作为目标分词对应的位置信息，将每组目标分词和目标分词对应的位置信息，作为一组分词信息；

结果确定单元，用于将分词信息和摘要信息作为目标文本信息。

可选地，在针对每个段落文本，采用N-gram模型进行分词处理，得到目标分词之前，该装置还包括：

词序列生成模块，用于获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据；

该分词单元包括：

分词解析子单元，用于对段落文本进行分词解析，得到M个分词序列；

概率计算子单元，用于针对每个分词序列，依据预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

目标分词确定子单元，用于从M个分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为目标分词。

可选地，关键信息生成模块36包括：

基础语句获取单元，用于从目标文章中，获取包含目标关键词的语句，作为基础语句；

目标语句甄选单元，用于按照预设规则，对基础语句进行甄选，得到目标语句；

句式融合单元，用于采用句式融合的方式，对目标语句进行融合，得到关键信息。

关于关键信息提取装置的具体限定可以参见上文中对于关键信息提取方法的限定，在此不再赘述。上述关键信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的关键信息提取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种关键信息提取方法，其特征在于，包括：

基于所述目标关键词和所述目标文章，生成所述关键信息。

2.如权利要求1所述的关键信息提取方法，其特征在于，所述基于预设的爬取方式，从自媒体站点进行舆情文章的爬取，得到目标文章包括：

根据每个所述页面信息的所述网页权重，确定目标网页；

3.如权利要求1所述的关键信息提取方法，其特征在于，所述训练好的关键词筛选模型为BERT网络模型。

4.如权利要求1所述的关键信息提取方法，其特征在于，所述对所述正文进行文本信息提取，得到处理后的文本信息，并将所述处理后的文本信息作为目标文本信息包括：

将所述分词信息和所述摘要信息作为所述目标文本信息。

5.如权利要求4所述的关键信息提取方法，其特征在于，在所述针对每个所述段落文本，采用N-gram模型进行分词处理，得到目标分词之前，所述方法还包括：

对所述段落文本进行分词解析，得到M个分词序列；

6.如权利要求1至5任一项所述的关键信息提取方法，其特征在于，所述基于所述目标关键词和所述目标文章，生成所述关键信息包括：

按照预设规则，对所述基础语句进行甄选，得到目标语句；

7.一种关键信息提取装置，其特征在于，包括：

关键词提取模块，用于将所述标题与所述目标文本信息作为融合特征，将所述目标文章作为基础特征，并将所述融合特征与所述基础特征输入到预设好的关键词筛选模型进行训练，得到初始关键词候选集，其中，所述训练好的关键词筛选模型为神经网络模型；

8.如权利要求7所述的关键信息提取装置，其特征在于，所述数据爬取模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的关键信息提取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的关键信息提取方法。