CN116484834A

CN116484834A - 基于层次结构的文章分割方法及系统

Info

Publication number: CN116484834A
Application number: CN202310332557.4A
Authority: CN
Inventors: 唐莫默; 王安宁; 王港深; 贾骏童; 丁吴倩; 唐茹冰; 宋梦茹; 余方圆; 许良; 王晶; 成佳娜
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-25

Abstract

本发明提供一种基于层次结构的文章分割方法及系统，涉及文章分割技术领域。本发明首先基于段落格式获取线上文章的所有格式‑内容对，然后基于该格式‑内容对对线上文章进行层次结构提取，最后基于层次结构和所有格式‑内容对进行文章分割。本发明基于网络线上文章的特性，提出了结合格式内容提取文字块、层次结构，而进行文章分割的方法，该方法有效提高了线上文章分割的效率，运算简洁，操作简单。

Description

基于层次结构的文章分割方法及系统

技术领域

本发明涉及文章分割技术领域，具体涉及一种基于层次结构的文章分割方法及系统。

背景技术

随着社交网络的快速发展，众多门户网站和微信公众号等线上平台均会发布大量关于行业信息的文章，实时自动跟踪检索与分析主流媒体平台的行业科技情报文章、数据，对于公司创新研发人员及时了解技术发展动向和技术发展趋势，具有十分重要的意义。然而，在数据处理过程中技术人员发现许多文章是由多个独立的子篇章组成的，而每个子篇章可能从属不同分类，将其分割成独立篇章是归纳信息的重要一步，有助于不同研究人员从其感兴趣的篇章内快速准确的获得有用信息和数据。所以将一整篇线上文章(线上平台常见多条新闻合成一篇的线上文章)精准分割为多个独立的子篇章，至关重要。

目前，相关技术主要是将印刷媒体页面分割为独立文章(即将印刷媒体页面分割成文章)，也有技术涉及图书馆电子书籍识别篇章。但上述方法多半运用图像识别技术等来划分文字块、标题等，进而进行文章的子篇章划分。

然而，上述根据印刷页面的图片来进行文章分割的方法，若用在网络线上文章，则需要对线上文章所涉及的所有网页对应的大量数据进行截图，然后再进行文章分割，该做法耗时费力；同时，使用一系列过滤和图像形态学操作来识别印刷媒体图像，其运算速度较慢，且需要大量训练集进行模型训练，效率不高且操作复杂。综上可知，现有的文章分割方法在对线上文章进行分割时存在分割效率低的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于层次结构的文章分割方法及系统，解决了现有的文章分割方法在对线上文章进行分割时存在文章分割效率低的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明首先提出了一种基于层次结构的文章分割方法，所述方法包括：

基于段落格式获取线上文章的所有格式-内容对；

基于所述格式-内容对对线上文章进行层次结构提取；

基于所述层次结构和所有所述格式-内容对对文章进行分割。

优选的，所述基于段落格式获取线上文章的所有格式-内容对包括：

利用beautifulsoup库对预先获取的线上文章的篇章的页面信息进行解析，提取每个篇章的段落内容以及标签里存储的段落格式信息，并将段落格式和段落内容进行匹配，形成格式-内容对。

优选的，在基于所述格式-内容对对线上文章进行层次结构提取之前，所述方法还包括：

将段落内容中包含内容最多的格式定义为该段落格式，并统一段落格式，对初始的格式-内容对进行修正，形成标准格式-内容对。

优选的，所述基于所述格式-内容对对线上文章进行层次结构提取包括：

S21、基于所述格式-内容对对线上文章进行文字成块以获取文字块；

S22、基于所述文字块向上查找，判断所述文字块是否存在上一级结构，若存在，则提取所述上一级结构的格式后并执行S23；若否，则终止向上查找，并执行S24；

S23、基于所述上一级结构的格式进行向下检验，若满足检验条件，则返回S21并更新所述文字块；若不满足，则终止向下检验，执行S24；

S24、终止操作，输出层次结构。

优选的，所述文字块包括正文文字块和段落文字块。

第二方面，本发明还提出了一种基于层次结构的文章分割系统，所述系统包括：

格式抓取模块，用于基于段落格式获取线上文章的所有格式-内容对；

层次结构提取模块，用于基于所述格式-内容对对线上文章进行层次结构提取；

篇章分割模块，用于基于所述层次结构和所有所述格式-内容对对文章进行分割。

优选的，所述格式抓取模块基于段落格式获取线上文章的所有格式-内容对包括：

优选的，在基于所述格式-内容对对线上文章进行层次结构提取之前，所述系统还包括：

段落格式修正模块，用于将段落内容中包含内容最多的格式定义为该段落格式，并统一段落格式，对初始的格式-内容对进行修正，形成标准格式-内容对。

优选的，所述层次结构提取模块基于所述格式-内容对对线上文章进行层次结构提取包括：

S24、终止操作，输出层次结构。

优选的，所述文字块包括正文文字块和段落文字块。

(三)有益效果

本发明提供了一种基于层次结构的文章分割方法及系统。与现有技术相比，具备以下有益效果：

本发明首先基于段落格式获取线上文章的所有格式-内容对，然后基于该格式-内容对对线上文章进行层次结构提取，最后基于层次结构和所有格式-内容对进行文章分割。本发明基于网络线上文章的特性(不仅可以爬取到内容，还可以爬取到内容具有的层次结构的格式信息，如字体、字号等)，提出了结合格式内容提取文字块、层次结构，而进行文章分割的方法，该方法有效提高了线上文章分割的效率，运算简洁，操作简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于层次结构的文章分割方法的流程图；

图2为本发明实施例中一种基于层次结构的文章分割方法的实施例图；

图3为本发明实施例中拥有多级标题和内容的分割示意图；

图4为本发明实施例中基于层次结构的文章分割结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于层次结构的文章分割方法及系统，解决了现有的文章分割方法在对线上文章进行分割时存在文章分割效率低的问题，实现了快速精准分割线上文章的目的。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

为了解决现有文章分割方法在对线上文章进行分割时存在文章分割效率低的问题，本申请的技术方案基于线上文章不仅可以爬取到内容，还可以爬取到内容具有的层次结构的格式信息的特性。本申请首先基于段落格式获取线上文章的所有格式-内容对，然后基于格式-内容对对线上文章进行层次结构提取，最后基于层次结构和所有格式-内容对进行文章分割。本发明的方法有效提高了线上文章分割的效率，运算简洁，操作简单。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

第一方面，本发明首先提出了一种基于层次结构的文章分割方法，参见图1，该方法包括：

S1、基于段落格式获取线上文章的所有格式-内容对；

S2、基于所述格式-内容对对线上文章进行层次结构提取；

S3、基于所述层次结构和所有所述格式-内容对对文章进行分割。

可见，本实施例首先基于段落格式获取线上文章的所有格式-内容对，然后基于该格式-内容对对线上文章进行层次结构提取，最后基于层次结构和所有格式-内容对进行文章分割。本实施例基于网络线上文章的特性(不仅可以爬取到内容，还可以爬取到内容具有的层次结构的格式信息，如字体、字号等)，提出了结合格式内容提取文字块、层次结构，而进行文章分割的方法，该方法有效提高了线上文章分割的效率，运算简洁，操作简单。

下面结合附图1-4，以及对S1-S3具体步骤的解释，来详细说明本发明一个实施例的实现过程。参见图1-2，本实施例具体过程为：

S1、基于段落格式获取线上文章的所有格式-内容对。

获得线上文章的内容和格式信息，形成格式-内容对。向网站(website)服务器发送访问请求，然后接收服务器响应的内容获得线上文章篇章的页面信息，然后再利用beautifulsoup库进行解析，提取每个篇章的段落内容以及</p>标签里存储的段落格式信息，该段落格式信息包括：字体、字号、颜色，最后将格式和内容进行匹配，匹配形式形如：“今日新闻xxxx”-“font-style(字体风格):微软雅黑，font-size:15px”。

修正格式-内容对中的段落格式，形成标准格式-内容对。在一个篇章中，同一个段落的内容是一个整体，但有时会出现关键词加粗、首句斜体等导致段落格式有多种，并不统一。因此，我们将该段落中包含内容最多的格式定义为该段落格式，从而统一段落格式，对初始格式-内容对进行修正，从而形成标准格式-内容对。

S2、基于所述格式-内容对对线上文章进行层次结构提取。

对于一篇线上文章，其子篇章一般存在有小标题和无小标题两种情况。假设有小标题，则小标题一定在正文之前，所以线上文章的所有正文块前面的格式是小标题格式，而往往小标题格式和正文格式不一样，也就是正文块前面所有的格式都是另一个格式；有些线上文章其没有小标题，但会在有些段落加一些其他格式的文字，这类线上文章符合正文块前面有其他格式，但不符合正文块前面所有的格式都是另一格式的要求。然而，子篇章标题格式(假设存在)往往不好确认，但正文格式往往是拥有最多字数的格式，其很容易确认。因此，可以基于正文格式向上查询来判断线上文章是否存在子篇章标题。

基于最大投票原则，通过统计各个格式对应的内容字数，选取字数最多的格式为正文格式，然后基于此，对整个线上文章进行层次结构提取。具体的，

S21、基于所述格式-内容对对线上文章进行文字成块以获取文字块；所述文字块包括正文文字块和段落文字块。

将上述已被拆分为格式-内容对的线上文章按照已经确定好的正文格式进行文字成块。例如，如果两个连在一起的正文格式相同的段落，则将它们组合在一起成为正文文字块。当确认了正文上一级还有其它格式，则将该格式和紧随其后的正文文字块组合成段落文字块，以此类推。

S22、基于所述文字块向上查找，判断所述文字块是否存在上一级结构，若存在，则提取所述上一级结构的格式后并执行S23；若否，则终止向上查找，并执行S24。

如果文字块(包括正文文字块或者段落文字块)有上一级结构，那么该结构应该存在于该文字块的上方。查找是否有格式符合：文字块上一段的内容均为此格式，如果符合该条件，则提取出这个格式，并进行下一步骤S23；若不存在则终止向上查找操作,并执行步骤S24。

S23、基于所述上一级结构的格式进行向下检验，若满足检验条件，则返回S21并更新所述文字块；若不满足，则终止向下检验，执行S24。

得到已存在文字块的潜在上一级格式，则进行向后检验，检验是否符合：所有为该格式的段落后面均为文字块。若满足该检验条件，即满足文字块的潜在上一级格式的段落后面均为文字块，则意味着该格式为文字块上一级格式，返回步骤S21并更新文字块；若不满足则终止向下检验操作,并执行步骤S24。

S24、终止操作，输出层次结构。

如果线上文章是具有多级标题的，则经过步骤S21-S24输出的层次结构为：正文格式、正文上一级标题的格式，上上级标题格式等组成的格式序列(s_1,s_2,…,s_k)。其中，s_k为正文格式，s_1表示第一级标题，s_2表示第二级标题......以此类推，如图3所示。

基于上述S2步骤得到线上文章格式的一个层次结构，然后通过S1格式抓取的格式-内容对和S2中的层次结构提取，便可以将线上文章的篇章进行分割。具体的，从线上文章篇章的最开始位置，即第一个格式-内容对，依次查找一级标题格式对应的内容，直至获得s_k对应的正文格式，并将其作为一个子篇章。再重复上述操作找到线上文章篇章中剩下的子篇章，实现线上文章的分割，如图4所示。

至此，则完成了本实施例一种基于层次结构的文章分割方法的全部流程。

实施例2：

第二方面，本发明还提供了一种基于层次结构的文章分割系统，该系统包括：

可选的，所述格式抓取模块基于段落格式获取线上文章的所有格式-内容对包括：

可选的，在基于所述格式-内容对对线上文章进行层次结构提取之前，所述系统还包括：

可选的，所述层次结构提取模块基于所述格式-内容对对线上文章进行层次结构提取包括：

S24、终止操作，输出层次结构。

可选的，所述文字块包括正文文字块和段落文字块。

可理解的是，本发明实施例提供的基于层次结构的文章分割系统与上述基于层次结构的文章分割方法相对应，其有关内容的解释、举例、有益效果等部分可以参照基于层次结构的文章分割方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于层次结构的文章分割方法，其特征在于，所述方法包括：

基于段落格式获取线上文章的所有格式-内容对；

基于所述格式-内容对对线上文章进行层次结构提取；

基于所述层次结构和所有所述格式-内容对对文章进行分割_。

2.如权利要求1所述的方法，其特征在于，所述基于段落格式获取线上文章的所有格式-内容对包括：

3.如权利要求1所述的方法，其特征在于，在基于所述格式-内容对对线上文章进行层次结构提取之前，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述格式-内容对对线上文章进行层次结构提取包括：

S24、终止操作，输出层次结构。

5.如权利要求4所述的方法，其特征在于，所述文字块包括正文文字块和段落文字块。

6.一种基于层次结构的文章分割系统，其特征在于，所述系统包括：

7.如权利要求6所述的系统，其特征在于，所述格式抓取模块基于段落格式获取线上文章的所有格式-内容对包括：

8.如权利要求6所述的系统，其特征在于，所述系统还包括：

段落格式修正模块，用于在基于所述格式-内容对对线上文章进行层次结构提取之前，将段落内容中包含内容最多的格式定义为该段落格式，并统一段落格式，对初始的格式-内容对进行修正，形成标准格式-内容对。

9.如权利要求6所述的系统，其特征在于，所述层次结构提取模块基于所述格式-内容对对线上文章进行层次结构提取包括：

S24、终止操作，输出层次结构。

10.如权利要求9所述的系统，其特征在于，所述文字块包括正文文字块和段落文字块。