CN112328928A

CN112328928A - 一种基于结构序列的文本脉络抽取方法及系统

Info

Publication number: CN112328928A
Application number: CN202011361478.9A
Authority: CN
Inventors: 李钊; 王瑞霜; 陈通; 卢凤; 胡传会; 魏静
Original assignee: Shandong Ecloud Information Technology Co ltd; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Ecloud Information Technology Co ltd; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-05

Abstract

本发明提供了一种基于结构序列的文本脉络抽取方法及系统，本发明通过分析文本序列的组织结构，匹配文本序列的结构规则，抽取文本序列各结构的对应文本内容构成文本脉络，实现对各类结构化序列文本主干内容的有效抽取，相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题，本发明使得结构序列的文本脉络提取实现了快速、高效获取，大大提高了工作效率，节省公司的人力成本，同时具有较高的准确率。

Description

一种基于结构序列的文本脉络抽取方法及系统

技术领域

本发明涉及文本抽取领域，特别是一种基于结构序列的文本脉络抽取方法及系统。

背景技术

在当今互联网、大数据时代，信息、资讯大多通过互联网媒介进行传播，因此数据的激增使得在最短时间内过滤、获取有效内容信息，成为大数据时代的迫切需求。

针对大篇幅文本序列，传统方式是采用摘要的办法获取核心内容，但是由于中文文本摘要技术仍处于研究阶段，对各种来源的文本序列生成摘要效果较差，无法准确获取文章的核心内容。因此，亟需一种针对大篇幅文本的主干内容抽取方法。

发明内容

本发明的目的是提供一种基于结构序列的文本脉络抽取方法及系统，旨在解决现有技术中大篇幅文本无法准确获取文章核心内容的问题，实现快速、高效获取文章核心脉络，提高工作效率。

为达到上述技术目的，本发明提供了一种基于结构序列的文本脉络抽取方法，所述方法包括以下操作：

对网页中html代码进行处理，得到带有文本结构的完整段落层级的结构序列文本；

对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则，根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配，输出满足一级脉络规则的文本序列及其索引，构造一级脉络存储的键值；

将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则，根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配，输出满足二级脉络规则的文本序列及其索引，构造二级脉络存储的键值；

整合一级脉络存储和二级脉络存储，将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值，输出结构序列文本的完整文本脉络。

优选地，所述对网页中html代码进行处理具体为：

滤除html代码中部分标签，输出带有html结构的文本序列，根据文本序列创建html迭代器，并合并部分标签，得到合并后的html迭代器，遍历html迭代器的各个节点，得到各节点对应的文本内容。

优选地，所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。

优选地，所述构造一级脉络存储的键值具体为：

将满足一级脉络规则的文本序列及其索引一一对应，以文本序列作为一级脉络存储的键，结构序列文本中获取索引取值区间的文本作为一级脉络存储的值。

优选地，所述构造二级脉络存储的键值具体为：

将满足二级脉络规则的文本序列及其索引一一对应，以文本序列作为二级脉络存储的键，从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值。

本发明还提供了一种基于结构序列的文本脉络抽取系统，所述系统包括：

结构序列文本获取模块，用于对网页中html代码进行处理，得到带有文本结构的完整段落层级的结构序列文本；

一级脉络构造模块，用于对具有完整段落层级的结构序列文本从一级脉络文本规则库中匹配序列文本对应的结构规则，根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配，输出满足一级脉络规则的文本序列及其索引，构造一级脉络存储的键值；

二级脉络构造模块，用于将一级脉络存储的结构序列文本从二级脉络文本规则库中匹配序列文本对应的结构规则，根据匹配的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配，输出满足二级脉络规则的文本序列及其索引，构造二级脉络存储的键值；

两级脉络整合模块，用于整合一级脉络存储和二级脉络存储，将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值，输出结构序列文本的完整文本脉络。

优选地，所述带有文本结构的完整段落层级的结构序列文本通过以下方式获得：

优选地，所述一级脉络存储的键值具体为：

满足一级脉络规则的文本序列及其索引一一对应，以文本序列作为一级脉络存储的键，结构序列文本中获取索引取值区间的文本作为一级脉络存储的值。

优选地，所述二级脉络存储的键值具体为：

满足二级脉络规则的文本序列及其索引一一对应，以文本序列作为二级脉络存储的键，从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明通过分析文本序列的组织结构，匹配文本序列的结构规则，抽取文本序列各结构的对应文本内容构成文本脉络，实现对各类结构化序列文本主干内容的有效抽取，相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题，本发明使得结构序列的文本脉络提取实现了快速、高效获取，大大提高了工作效率，节省公司的人力成本，同时具有较高的准确率。

附图说明

图1为本发明实施例中所提供的一种基于结构序列的文本脉络抽取方法流程图；

图2为本发明实施例中所提供的一种基于结构序列的文本脉络抽取方法逻辑示意图；

图3为本发明实施例中所提供的一种基于结构序列的文本脉络抽取系统框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种基于结构序列的文本脉络抽取方法及系统进行详细说明。

如图1、2所示，本发明公开了一种基于结构序列的文本脉络抽取方法，所述方法包括以下操作：

本发明实施例通过获取带有文本结构的互联网网页文本序列，从一级脉络文本规则库中匹配文本序列对应的结构规则，抽取文本一级脉络结构，再从二级脉络文本规则库中匹配文本序列各一级结构内容对应的二级脉络结构规则，抽取文本二级脉络结构，通过对一级脉络、二级脉络结构内容的抽取，输出结构化序列文本主干内容。

对网页中结构序列文本对应的html代码进行处理，输出具有完整段落层级的结构序列文本，具体过程如下：

将结构序列文本对应的html代码中的<style>、<scripts>、<comments>、<javascript>滤除，输出带有html结构的文本序列。将带有html结构的文本序列运用元素树elementTree方法创建html迭代器，输出结构序列文本html迭代器。将html迭代器中的<strong>、<span>、<b>、<font>标签进行合并，得到文本合并完整的html迭代器。遍历html迭代器的各个节点，得到各节点对应的文本内容，输出具有完整段落层级的结构序列文本。

将具有完整段落层级的结构序列文本，从一级脉络文本规则库中匹配文本序列对应的结构规则，输出文本一级脉络结构及内容，存储为一级脉络，具体过程如下：

对网页中结构序列文本对应的html代码进行处理，输出具有完整段落层级的结构序列文本通过人工总结、归纳结构序列文本的脉络规则，得到一级脉络规则，并总结为正则表达式，如表1所示：

表1

将结构序列文本和一级脉络规则中的每一条规则进行正则匹配，如果匹配成功，输出结构序列文本的一级脉络规则；若匹配失败，则没有文本一级脉络结构，直接输出具有完整段落层级的结构序列文本。根据匹配到的一级脉络规则将结构序列文本逐一进行正则匹配，并记录满足一级脉络规则的文本序列索引及其文本，输出文本序列、文本序列对应索引。将文本序列、文本序列对应索引进行一一对应，以文本序列作为一级脉络存储的键，结构序列文本中获取索引取值区间的文本作为一级脉络存储的值，输出一级脉络存储。

将输出的一级脉络存储，从二级脉络文本规则库中匹配文本序列对应的结构规则，输出文本二级脉络结构及内容，存储为二级脉络，具体过程如下：

构建二级脉络文本规则库，通过人工总结、归纳结构序列文本的脉络规则，得到二级脉络规则，并总结为正则表达式，如表2所示：

表2

将一级脉络存储中的文本与二级脉络规则中的每一条规则进行正则匹配，如果匹配成功，输出结构序列文本的二级脉络规则；如果匹配失败，则没有文本二级脉络结构，直接输出一级脉络存储。根据匹配到的二级脉络规则将一级脉络存储中每个键的值逐一进行正则匹配，并记录满足二级脉络规则的文本序列索引及其文本，输出文本序列、文本序列对应索引。将文本序列以及文本序列对应索引进行一一对应，以文本序列作为二级脉络存储的键，从一级脉络存储得到的结构序列文本中获取索引取值区间的文本作为二级脉络存储的值，输出二级脉络存储。

将一级脉络存储和二级脉络存储进行整合，将一级脉络中每个键的文本序列替换为二级脉络的对应文本序列键值，输出结构序列文本的完整文本脉络。

本发明实施例通过分析文本序列的组织结构，匹配文本序列的结构规则，抽取文本序列各结构的对应文本内容构成文本脉络，实现对各类结构化序列文本主干内容的有效抽取，相比现有技术中通过人工归纳总结大篇幅正文主干内容耗时费力且效率低的问题，本发明使得结构序列的文本脉络提取实现了快速、高效获取，大大提高了工作效率，节省公司的人力成本，同时具有较高的准确率。

如图3所示，本发明实施例还公开了一种基于结构序列的文本脉络抽取系统，所述系统包括：

对网页中结构序列文本对应的html代码进行处理，输出具有完整段落层级的结构序列文本通过人工总结、归纳结构序列文本的脉络规则，得到一级脉络规则，并总结为正则表达式。

构建二级脉络文本规则库，通过人工总结、归纳结构序列文本的脉络规则，得到二级脉络规则，并总结为正则表达式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于结构序列的文本脉络抽取方法，其特征在于，所述方法包括以下操作：

2.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法，其特征在于，所述对网页中html代码进行处理具体为：

3.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法，其特征在于，所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。

4.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法，其特征在于，所述构造一级脉络存储的键值具体为：

5.根据权利要求1所述的一种基于结构序列的文本脉络抽取方法，其特征在于，所述构造二级脉络存储的键值具体为：

6.一种基于结构序列的文本脉络抽取系统，其特征在于，所述系统包括：

7.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统，其特征在于，所述带有文本结构的完整段落层级的结构序列文本通过以下方式获得：

8.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统，其特征在于，所述一级脉络规则以及二级脉络规则均通过正则表达式进行表达。

9.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统，其特征在于，所述一级脉络存储的键值具体为：

10.根据权利要求6所述的一种基于结构序列的文本脉络抽取系统，其特征在于，所述二级脉络存储的键值具体为：