CN114462424A

CN114462424A - 一种文章段落分析注释方法、系统、可读介质及设备

Info

Publication number: CN114462424A
Application number: CN202210376828.1A
Authority: CN
Inventors: 李根柱
Original assignee: Beijing Siyuan Zhitong Technology Co ltd
Current assignee: Beijing Siyuan Zhitong Technology Co ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-05-10
Anticipated expiration: 2042-04-12
Also published as: CN114462424B

Abstract

本发明提供了一种文章段落分析注释方法、系统、可读介质及设备。该方案包括获取待分析文章，进行语义采集生成为段落数据和词汇数据;根据所述词汇数据进行语义分析，生成近义词库;获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落;提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度;对每个段落中的词汇进行语义提取，生成语义转折段落;根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。该方案通过自动的分析和提取在文章中的段落、语句和词汇快速完成定位关键段落，分析每个句子的自创程度，并进行词频标记和语义转折标记。

Description

一种文章段落分析注释方法、系统、可读介质及设备

技术领域

本发明涉及文档分析技术领域，更具体地，涉及一种文章段落分析注释方法、系统、可读介质及设备。

背景技术

随着科技的发展，人人都能够写作，这导致在社交平台、微博、微信、期刊、报纸等各个场、景下的写作内容越来越多。在此种情况下，将会产生诸多的文章，但是，这些文章可能每个都存在其特点，若需要对于大量文档进行逐一的分析，需要花费大量的时间和精力，而且可能不能快速获知语义。因此，需要部分文档的分析方法，提升文档分析效率和准确度。

在本发明技术之前，现有的文档分析提取方法，较少能够真正实现在线的对于段落的关键信息和段落的语义和转折的提取。产生这一现象的原因是，现有的技术主要人员经验依靠于对于文档的整体性的分析，而整体的分析虽然能真正的提取出语义，但是每个分析的人员存在其主观的观点；此外，在分析过程中若出现多类型的数据存在近义词时，常常无法有效分析。

发明内容

鉴于上述问题，本发明提出了一种文章段落分析注释方法、系统、可读介质及设备，通过自动的分析和提取在文章中的段落、语句和词汇快速完成定位关键段落，分析每个句子的自创程度，并进行词频标记和语义转折标记。

根据本发明实施例第一方面，提供一种文章段落分析注释方法。

在一个或多个实施例中，优选地，所述一种文章段落分析注释方法包括：

获取待分析文章，进行语义采集生成为段落数据和词汇数据；

根据所述词汇数据进行语义分析，生成近义词库；

获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落；

提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度；

对每个段落中的词汇进行语义提取，生成语义转折段落；

根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。

在一个或多个实施例中，优选地，所述获取待分析文章，进行语义采集生成为段落数据和词汇数据，具体包括：

获取待分析文章，对文章进行段落分析，拆分为不同段落；

根据全部的段落进行词汇拆分，拆分为不同的词汇；

根据全部的段落进行语句拆分，拆分为不同的语句；

根据段落、词汇和语句进行实时编号，并生成为所述段落数据、所述词汇数据和语句数据。

在一个或多个实施例中，优选地，所述根据所述词汇数据进行语义分析，生成近义词库，具体包括：

根据所述语句数据，生成为全部的句子；

根据所述词汇数据，进行近义词提取，根据每个词汇的近义词，生成所述近义词库；

根据所述语句数据和所述段落数据，进行从属关系分析，形成每个句子对应的段落。

在一个或多个实施例中，优选地，所述获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落，具体包括：

获取所有的句子，确定每个句子的编号；

提取每个句子中的词汇，并根据词汇在所述近义词库中提取对应的近义词词库；

利用第一计算公式计算所有句子的关联程度；

确定分析段落，利用第二计算公式计算所述关键段关联程度；

对所述关键段关联程度最大的段落号保存为所述目标关键段落；

所述第一计算公式为：

G _i=COUNT(C _ia=C _ib)

其中，G _i为第i句关联程度，COUNT为计次模块，C _ia为第i句的第a词对应的近义词，C _ib为除第i句外全部词汇的近义词词库；

所述第二计算公式为：

其中，Z _key为所述关键段关联程度，max为取最大值函数，k为段落编号，S为全部段落编号的集合，n _k为第k段落的句子总数。

在一个或多个实施例中，优选地，所述提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度，具体包括：

设置第一预设权重和第二预设权重；

提取每个词汇出现的频率；

提取每个词汇对应的近义词的出现频率；

利用第三计算公式计算每个词汇的所述指示词词频；

利用第四计算公式计算每个句子的所述自创程度；

对所有的句子进行近义词替换，生成近义词转化后的句库，并标记所述近义词转化后的句库中全部的能够通过历史知识库查询到的句子为已有数据；

利用第五计算公式判断每个词汇是否为高频词汇；

利用第六计算公式计算每个句子是否为自创句子；

所述第三计算公式为：

Z _si=W ₁ P _j1+W ₂ P _j2

其中，Z _si为所述指示词词频，W ₁为第一预设权重，W ₂为第二预设权重，P _j1为第j个词汇的出现频率，P _j2为第j个词汇的近义词的出现频率；

所述第四计算公式为：

其中，K _z为所述自创程度，Y为已有数据的总数，J _Y为所述近义词转化后的句库的总数；

所述第五计算公式为：

Z _si> Z _{si_max} +20%*(Z _{si_max}-Z _{si_min})

其中，Z _{si_max}为所述指示词词频最大值，Z _{si_min}为所述指示词词频最小值；

所述第六计算公式为：

K _z>50%。

在一个或多个实施例中，优选地，所述对每个段落中的词汇进行语义提取，生成语义转折段落，具体包括：

提取段落之间的前后关系，并进行段落编号；

对每个段落中的词汇进行语义提取，生成每个词汇的正向均值；

判断全部的相邻段落是否满足第七计算公式，若不满足，则将对应的前段和后段标记为所述语义转折段落；

所述第七计算公式为：

其中，A为前段正向均值，B为后段正向均值，A _i为前段第i词汇正向程度，B _i为前段第i词汇正向程度，n ₁为前段词汇数，n ₂位后段词汇数，m ₀为第一预设系数，m ₂位第二预设系数。

在一个或多个实施例中，优选地，所述根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记，具体包括：

获取自主展示模式，其中，所述自主展示模式包括段落模式、语句模式和词汇模式；

当开启段落模式时，进行段落标记，自动将所述目标关键段落加粗；

当开启语句模式时，进行语句标记，自动根据所述自创程度显示为不同颜色；

当开启词汇模式时，进行词汇标记，标记每个词汇的所述指示词词频，并将高频词汇所在句子标记为关键语义句单独在分屏界面中安装前后顺序展示。

根据本发明实施例第二方面，提供一种文章段落分析注释系统。

在一个或多个实施例中，优选地，所述一种文章段落分析注释系统包括：

语义采集模块，用于获取待分析文章，进行语义采集生成为段落数据和词汇数据；

近义分析模块，用于根据所述词汇数据进行语义分析，生成近义词库；

关键分析模块，用于获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落；

程度判断模块，用于提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度；

语义转折模块，用于对每个段落中的词汇进行语义提取，生成语义转折段落；

自动注释模块，用于根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。

根据本发明实施例第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。

根据本发明实施例第四方面，提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现本发明实施例第一方面中任一项所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明方案中，通过自动的关键段关联程度提取方法自动的获得关键信息。

本发明方案中，通过自动进行分析示文章中的段落、语句和词汇上的具体注释，并在此基础上进行展示，实现实时在线文章的客观分析。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种文章段落分析注释方法的流程图。

图2是本发明一个实施例的一种文章段落分析注释方法中的获取待分析文章，进行语义采集生成为段落数据和词汇数据的流程图。

图3是本发明一个实施例的一种文章段落分析注释方法中的根据所述词汇数据进行语义分析，生成近义词库的流程图。

图4是本发明一个实施例的一种文章段落分析注释方法中的获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落的流程图。

图5是本发明一个实施例的一种文章段落分析注释方法中的提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度的流程图。

图6是本发明一个实施例的一种文章段落分析注释方法中的对每个段落中的词汇进行语义提取，生成语义转折段落的流程图。

图7是本发明一个实施例的一种文章段落分析注释方法中的根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记的流程图。

图8是本发明一个实施例的一种文章段落分析注释系统的结构图。

图9是本发明一个实施例中一种电子设备的结构图。

具体实施方式

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，提供了一种文章段落分析注释方法、系统、可读介质及设备。该方案通过自动的分析和提取在文章中的段落、语句和词汇快速完成定位关键段落，分析每个句子的自创程度，并进行词频标记和语义转折标记。

S101、获取待分析文章，进行语义采集生成为段落数据和词汇数据；

S102、根据所述词汇数据进行语义分析，生成近义词库；

S103、获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落；

S104、提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度；

S105、对每个段落中的词汇进行语义提取，生成语义转折段落；

S106、根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。

在本发明实施例中，通过自动的分析和提取在文章中的段落、语句和词汇，通过不同层级的单独的语义分析和近义词分析，快速完成定位关键段落，分析每个句子的自创程度，并进行词频标记和语义转折标记。

如图2所示，在一个或多个实施例中，优选地，所述获取待分析文章，进行语义采集生成为段落数据和词汇数据，具体包括：

S201、获取待分析文章，对文章进行段落分析，拆分为不同段落；

S202、根据全部的段落进行词汇拆分，拆分为不同的词汇；

S203、根据全部的段落进行语句拆分，拆分为不同的语句；

S204、根据段落、词汇和语句进行实时编号，并生成为所述段落数据、所述词汇数据和语句数据。

在本发明实施例中，为了能进行整个待分析文章进行系统分析，首先根据文章内容进行段落、语句和词汇的划分，并进行对应的编号生成为段落数据、词汇数据和语句数据。

如图3所示，在一个或多个实施例中，优选地，所述根据所述词汇数据进行语义分析，生成近义词库，具体包括：

S301、根据所述语句数据，生成为全部的句子；

S302、根据所述词汇数据，进行近义词提取，根据每个词汇的近义词，生成所述近义词库；

S303、根据所述语句数据和所述段落数据，进行从属关系分析，形成每个句子对应的段落。

在本发明实施例中，为了能实时进行段落、语句和词汇的在线关键程度分析，结合了具体段落中每个词汇的近义词，对于语句直接替换对应的近义词后，则可以形成对应的语句库，这些语句库是进行后续对比的基础。

如图4所示，在一个或多个实施例中，优选地，所述获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落，具体包括：

S401、获取所有的句子，确定每个句子的编号；

S402、提取每个句子中的词汇，并根据词汇在所述近义词库中提取对应的近义词词库；

S403、利用第一计算公式计算所有句子的关联程度；

S404、确定分析段落，利用第二计算公式计算所述关键段关联程度；

S405、对所述关键段关联程度最大的段落号保存为所述目标关键段落；

所述第一计算公式为：

G _i=COUNT(C _ia=C _ib)

所述第二计算公式为：

在本发明实施例中，为了能够实现对应关键段落的分析和注释，并结合自动的数据分析，完成实时的关键段的提取，提供了基于第一计算公式和第二计算公式的一种自动的关键段关联程度提取方法，结合该方法可以在不同的输入信号下，自动的获得关键信息。

如图5所示，在一个或多个实施例中，优选地，所述提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度，具体包括：

S501、设置第一预设权重和第二预设权重；

S502、提取每个词汇出现的频率；

S503、提取每个词汇对应的近义词的出现频率；

S504、利用第三计算公式计算每个词汇的所述指示词词频；

S505、利用第四计算公式计算每个句子的所述自创程度；

S506、对所有的句子进行近义词替换，生成近义词转化后的句库，并标记所述近义词转化后的句库中全部的能够通过历史知识库查询到的句子为已有数据；

S507、利用第五计算公式判断每个词汇是否为高频词汇；

S508、利用第六计算公式计算每个句子是否为自创句子；

所述第三计算公式为：

Z _si=W ₁ P _j1+W ₂ P _j2

所述第四计算公式为：

所述第五计算公式为：

Z _si> Z _{si_max} +20%5(Z _{si_max}-Z _{si_min})

所述第六计算公式为：

K _z>50%。

在本发明实施例中，在进行语义分析前，每个词汇都被赋予了一定的正向程度，这些正向程度信息确定后，根据全部的词汇进行前段正向程度的平均值计算，获得A，对于后段的正向程度进行计算，获得B，对比段时，可能数据量数不一致的，分别对应了词汇数量n1和n2，不转折的段落差别较小，转折段落差别在30%以上，这里的m0和m1为预先根据经验设定的系数。

图6是本发明一个实施例的一种文章段落分析注释方法中的对每个段落中的词汇进行语义提取，生成语义转折段落的流程图,具体包括：

S601、提取段落之间的前后关系，并进行段落编号；

S602、对每个段落中的词汇进行语义提取，生成每个词汇的正向均值；

S603、判断全部的相邻段落是否满足第七计算公式，若不满足，则将对应的前段和后段标记为所述语义转折段落；

所述第七计算公式为：

在本发明实施例中，为了自动展示文章中的段落、语句和词汇上的具体注释，并结合不同的注释需求命令，分别通过不同层级的单独的语义分析和近义词分析，快速完成定位关键段落，分析每个句子的自创程度，并进行词频标记和语义转折标记，自动进行文档中的注释和展示。

图7是本发明一个实施例的一种文章段落分析注释方法中的根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记的流程图,具体包括：

S701、获取自主展示模式，其中，所述自主展示模式包括段落模式、语句模式和词汇模式；

S702、当开启段落模式时，进行段落标记，自动将所述目标关键段落加粗；

S703、当开启语句模式时，进行语句标记，自动根据所述自创程度显示为不同颜色；

S704、当开启词汇模式时，进行词汇标记，标记每个词汇的所述指示词词频，并将高频词汇所在句子标记为关键语义句单独在分屏界面中安装前后顺序展示。

语义采集模块801，用于获取待分析文章，进行语义采集生成为段落数据和词汇数据；

近义分析模块802，用于根据所述词汇数据进行语义分析，生成近义词库；

关键分析模块803，用于获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落；

程度判断模块804，用于提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度；

语义转折模块805，用于对每个段落中的词汇进行语义提取，生成语义转折段落；

自动注释模块806，用于根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记。

在本发明实施例中，为了能够实现模块的在不同的平台下的设计，实现不同平台上的快速、高效的文章段落分析和注释，提供了6个标准化的模块，通过在不同平台上进行自动的数据采集、语义分析、在线注释，实现自动化的文章段落分析注释。

根据本发明实施例第四方面，提供一种电子设备。图9是本发明一个实施例中一种电子设备的结构图。图9所示的电子设备为通用文章段落分析注释装置，其包括通用的计算机硬件结构，其至少包括处理器901和存储器902。处理器901和存储器902通过总线903连接。存储器902适于存储处理器901可执行的指令或程序。处理器901可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器901通过执行存储器902所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线903将上述多个组件连接在一起，同时将上述组件连接到显示控制器904和显示装置以及输入／输出（I/O）装置905。输入／输出（I/O）装置905可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入／输出装置905通过输入／输出（I/O）控制器906与系统相连。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明方案中，通过自动进行分析文章中的段落、语句和词汇上的具体注释，并在此基础上进行展示，实现实时在线文章的客观分析。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文章段落分析注释方法，其特征在于，该方法包括：

根据所述词汇数据进行语义分析，生成近义词库；

对每个段落中的词汇进行语义提取，生成语义转折段落；

2.如权利要求1所述的一种文章段落分析注释方法，其特征在于，所述获取待分析文章，进行语义采集生成为段落数据和词汇数据，具体包括：

获取待分析文章，对文章进行段落分析，拆分为不同段落；

根据全部的段落进行词汇拆分，拆分为不同的词汇；

根据全部的段落进行语句拆分，拆分为不同的语句；

3.如权利要求2所述的一种文章段落分析注释方法，其特征在于，所述根据所述词汇数据进行语义分析，生成近义词库，具体包括：

根据所述语句数据，生成为全部的句子；

4.如权利要求1所述的一种文章段落分析注释方法，其特征在于，所述获取全部的句子，根据所述近义词库进行关键段关联程度计算，形成目标关键段落，具体包括：

获取所有的句子，确定每个句子的编号；

利用第一计算公式计算所有句子的关联程度；

所述第一计算公式为：

G _i=COUNT(C _ia=C _ib)

所述第二计算公式为：

5.如权利要求1所述的一种文章段落分析注释方法，其特征在于，所述提取每个词汇的出现频率，计算每个词汇的指示词词频和每个句子的自创程度，具体包括：

设置第一预设权重和第二预设权重；

提取每个词汇出现的频率；

提取每个词汇对应的近义词的出现频率；

利用第三计算公式计算每个词汇的所述指示词词频；

利用第四计算公式计算每个句子的所述自创程度；

利用第五计算公式判断每个词汇是否为高频词汇；

利用第六计算公式计算每个句子是否为自创句子；

所述第三计算公式为：

Z _si=W ₁ P _j1+W ₂ P _j2

所述第四计算公式为：

所述第五计算公式为：

Z _si> Z _{si_max} +20%*(Z _{si_max}-Z _{si_min})

所述第六计算公式为：

K _z>50%。

6.如权利要求1所述的一种文章段落分析注释方法，其特征在于，所述对每个段落中的词汇进行语义提取，生成语义转折段落，具体包括：

提取段落之间的前后关系，并进行段落编号；

所述第七计算公式为：

7.权利要求1所述的一种文章段落分析注释方法，其特征在于，所述根据所述语义转折段落、所述自创程度和所述目标关键段落进行在线的段落标记、语句标记和词汇标记，具体包括：

8.一种文章段落分析注释系统，其特征在于，该系统包括：

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7任一项所述的方法。