CN111813925A

CN111813925A - 一种基于语义的无监督自动摘要方法及系统

Info

Publication number: CN111813925A
Application number: CN202010677140.8A
Authority: CN
Inventors: 冷若冰; 蔡博克; 阚野; 张云; 张京鹏; 贲忠奇
Original assignee: Chaos Times Beijing Education Technology Co ltd
Current assignee: Chaos Times Beijing Education Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-23

Abstract

本发明提出了一种基于语义的无监督自动摘要方法及系统，涉及深度学习领域。一种基于语义的无监督自动摘要方法包括：获取预设语义表达模型并存储权重；定义正确答案的领域词；获取句子的语义表征向量；计算每个句子之间的语义相似度；根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；选取预设数量的句子作为摘要候选集；根据句法分析与领域词确定摘要；确定摘要候选集中得分最高的为最终摘要。其能够确保摘取出来的句子描述内容是和领域内容强相关的。此外本发明还提出了一种基于语义的无监督自动摘要系统，包括：第一获取模块、第一定义模块、第二获取模块、第一计算模块、第二计算模块、第一选取模块、第一确定模块和第二确定模块。

Description

一种基于语义的无监督自动摘要方法及系统

技术领域

本发明涉及深度学习领域，具体而言，涉及一种基于语义的无监督自动摘要方法及系统。

背景技术

现存的自动摘要技术主流分为有监督和无监督两种方式。

其中基于有监督的自动摘要方式，对于训练数据规模、训练数据的标注情况具有较高要求，在数据积累较少的情况下很难取得显著效果。并且基于有监督的方式，通过生成模型训练的自动只要模型，很难完整的从句首到句尾完整的将一段文字摘取出来。

基于无监督的摘要方式，适用于没有标注的数据，现有的方法是基于词语出现的频率的统计方式计算和比较一段文字或者文章的不同句子之间的相似程度，但是不能清晰的表达语义信息。

发明内容

本发明的目的在于提供一种基于语义的无监督自动摘要方法，其能够不需要大规模标注数据，使用开源算法训练语言模型，通过PageRank算法进行迭代计算，不需要任何标签数据。

本发明的另一目的在于提供一种基于语义的无监督自动摘要系统，其能够运行一种基于语义的无监督自动摘要方法。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种基于语义的无监督自动摘要方法，其包括如下步骤：获取预设语义表达模型并存储权重；定义正确答案的领域词；获取句子的语义表征向量；计算每个句子之间的语义相似度；根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；选取预设数量的句子作为摘要候选集；根据句法分析与领域词确定摘要；确定摘要候选集中得分最高的为最终摘要。

在本发明的一些实施例中，上述获取预设语义表达模型并存储权重之前还包括，训练预设语义表达模型。

在本发明的一些实施例中，上述根据BERT训练方式，迁移训练符合预设语料分布的BERT语义表达模型。

在本发明的一些实施例中，上述获取句子的语义表征向量之前还包括，根据正则表达式处理富文本信息；通过分段符进行段落划分。

在本发明的一些实施例中，上述还包括根据预设标点符号对每个段落进行分句。

在本发明的一些实施例中，上述根据句法分析与领域词确定摘要还包括，将定义正确答案的领域词加载到LTP算法中，得到的候选摘要集每句话的句法分析结果。

在本发明的一些实施例中，上述根据句法分析与领域词确定摘要之后还包括，若无法确定摘要，将无摘要作为输出结果。

第二方面，本申请实施例提供一种基于语义的无监督自动摘要系统，其包括第一获取模块，用于获取预设语义表达模型并存储权重；第一定义模块，用于定义正确答案的领域词；第二获取模块，用于获取句子的语义表征向量；第一计算模块，用于计算每个句子之间的语义相似度；第二计算模块，用于根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；第一选取模块，用于选取预设数量的句子作为摘要候选集；第一确定模块，用于根据句法分析与领域词确定摘要；第二确定模块，用于确定摘要候选集中得分最高的为最终摘要。

在本发明的一些实施例中，上述第一获取模块之前还包括训练模块，用于训练预设语义表达模型。

在本发明的一些实施例中，上述还包括用于存储计算机指令的至少一个存储器，与存储器通讯的至少一个处理器，其中当至少一个处理器执行计算机指令时，至少一个处理器使系统执行：获取模块、判断模块以及传输模块。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

1.相对于有监督方式抽取的摘要，本方法不需要大规模标注数据，使用开源BERT算法训练语言模型，通过PageRank算法进行迭代计算，不需要任何标签数据。由于使用文章内自带的标点符号进行分句判断，所以不存在摘取出来的摘要整体不成句的情况。

2.相对于传统的textrank无监督算法，我们引入了基于开源BERT算法训练的能够表达语义信息的句向量，同时，加入领域词对和基于语义分析方法的句法树，在满足领域内容的同时，确保摘取出来的句子的主要描述内容也是和领域内容强相关。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于语义的无监督自动摘要方法步骤示意图；

图2为本发明实施例提供的一种基于语义的无监督自动摘要方法详细步骤示意图；

图3为本发明实施例提供的一种基于语义的无监督自动摘要系统示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1所示为本申请实施例提供的一种基于语义的无监督自动摘要方法步骤示意图，包括如下步骤：

步骤S100，获取预设语义表达模型并存储权重；

具体的，利用机器学习模型的训练方式，迁移训练符合混沌大学语料分布的预设语义表达模型，并存储权重。

在一些实施方式中，通过开源算法机器学习模型的预训练方式，并结合混沌大学的课程“万字笔记”、学生的文章内容、“思维模型扑克牌”，并基于科大讯飞开源的中文机器学习模型，利用机器学习模型的训练方式，迁移训练符合混沌大学语料分布的语义表达模型，并存储权重。机器学习模型可以是，word2vec模型、RNN模型、LSTM+Attention模型、BERT模型等。

步骤S110，定义正确答案的领域词；

具体的，根据预设的知识内容，定义不同分析题目应用到的思维模型，并通过思维模型，定义思维模型关联的专有词汇。

在一些实施方式中，根据混沌大学创新学科知识内容，定义不同商业案例分析题目应用到的思维模型，并通过思维模型，定义思维模型关联的二级、三级知识专有词汇，其中这些词汇均为名词。

步骤S120，获取句子的语义表征向量；

具体的，通过语义表达模型，获取能够表示单个句子的句向量。

在一些实施方式中，以一篇学生文章的所有句子组成一个单位，通过步骤S100训练的语义表达模型，获取能够表示单个句子的句向量。每篇商业案例分析文章有多少个句子，就能获取到多少个能够表征句子语义信息的句向量。

步骤S130，计算每个句子之间的语义相似度；

具体的，通过余弦距离，计算每个句子之间的相似程度。

在一些实施方式中，通过余弦距离，可以计算不同句子之间在高维空间的距离，而距离的大小也直接反应了不同句子向量的相似程度，将余弦距离计算出来的数值，作为不同节点之间的边的权值。

步骤S140，根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；

具体的，使用PageRank算法对单篇文章的无向图进行收敛计算。

在一些实施方式中，基于步骤S130得到的单篇文章的以句子为节点，以余弦距离相似度为边权值的无向图，使用PageRank算法对单篇文章的无向图进行收敛计算，当本次迭代与上次迭代的数值小于某个阈值，或者迭代超过人为设定的最大迭代次数后，认为整个无向图已经收敛。

步骤S150，选取预设数量的句子作为摘要候选集；

具体的，收敛之后，选取本篇文章句子数量的前预设值的句子作为本篇文章的摘要候选集。

在一些实施方式中，在收敛之后，可以选取本篇文章句子数量的前20％、30％、40％的句子，如果遇到小数，则向上取整，作为本篇文章的摘要候选集。

步骤S160，根据句法分析与领域词确定摘要；

具体的，根据句法分析出更符合句子的语义表达方式，根据加载到LTP算法中的领域词确定摘要。

在一些实施方式中，句法分析能够分析一句话中，不同词语之间的修饰关系，更符合句子的语义表达方式，通过使用哈工大开源的LTP算法，将步骤S110中定义的领域词加载到LTP算法中，得到的候选句子集每句话的句法分析结果。

步骤S170，确定摘要候选集中得分最高的为最终摘要。

具体的，取得分最高的一句话，作为本篇文章的最终摘要作为输出。

在一些实施方式中，基于步骤S160得到了候选句子集，则判断候选句子集中通过步骤S150得到的句子得分，取得分最高的一句话，作为本篇文章的最终摘要进行输出。

实施例2

请参阅图2，图2为本发明实施例提供的一种基于语义的无监督自动摘要方法详细步骤示意图，包括如下步骤：

步骤S200，训练并获取基于混沌大学语义表达模型；

在一些实施方式中，通过开源算法模型BERT的预训练方式，并结合混沌大学的课程“万字笔记”、学生的文章内容、“思维模型扑克牌”，并基于科大讯飞开源的中文BERT模型，利用BERT的训练方式，迁移训练符合混沌大学语料分布的BERT语义表达模型，并存储权重。

步骤S210，定义混沌大学正确答案的领域词；

在一些实施方式中，根据混沌大学创新学科知识内容，定义不同商业案例分析题目应用到的思维模型，并通过思维模型，定义思维模型关联的二级、三级知识专有词汇，其中这些词汇均为名词。例如第二曲线、破局点、战略杠杆等。

步骤S220，对学生文章进行分句，并获取句子的语义表征向量；

在一些实施方式中，使用正则表达式，处理学生文章的富文本信息，并通过分段符，对学生文章进行段落划分。根据句号，逗号，问号，感叹号四种符号，对每个段落进行分句。通过统计所有句子的平均字数，将单个句子少于平均字数20％的句子剔除掉。基于上述步骤，可以一篇学生文章的所有句子组成一个单位，通过步骤S100训练的语义表征模型，获取能够表示单个句子的句向量。每篇商业案例分析文章有多少个句子，就能获取到多少个能够表征句子语义信息的句向量。

步骤S230，计算每个句子之间的语义相似程度；

在一些实施方式中，基于步骤S220，我们能够获得同一篇文章中不同句子的语义表征向量，以一篇文章为单位，我们将每句话看做一个节点。通过余弦距离，可以计算不同句子之间在高维空间的距离，而距离的大小也直接反应了不同句子向量的相似程度，将余弦距离计算出来的数值，作为不同节点之间的边的权值。

步骤S240，通过PageRank方法对整个图进行收敛计算；

在一些实施方式中，基于步骤S230得到的一篇文章的以句子为节点，以余弦距离相似度为边权值的无向图，使用PageRank算法对单篇文章的无向图进行收敛计算，当本次迭代与上次迭代的数值小于某个阈值，或者迭代超过人为设定的最大迭代次数后，认为整个无向图已经收敛。在收敛之后，选取本篇文章句子数量的前20％的句子(如果遇到小数，则向上取整)作为本篇文章的摘要候选集。

步骤S250，通过句法分析与领域词确定文章的摘要；

在一些实施方式中，句法分析能够分析一句话中，不同词语之间的修饰关系，更符合句子的语义表达方式。通过使用哈工大开源的LTP算法，将步骤②中定义的领域词加载到LTP算法中，获取上述中得到的候选句子集每句话的句法分析结果。并对于句子中存在我们定义的“ATT”(定中关系),“SBV”(主谓关系),“CMP”(动补结构),“VOB”(动宾关系)并且上述关系对应的定于修饰词、主语、补语、宾语为我们基于S210中定义的领域词，则认为这句话可以作为候选的摘要句子。

步骤S260，确定最终文章的摘要句子；

在一些实施方式中，如果经过步骤S250没有得到任何句子，则将无摘要作为输出结果；如果基于步骤S250得到了候选句子集，则判断候选句子集中通过步骤S240得到的句子得分，取得分最高的一句话，作为本篇文章的最终摘要进行输出。

实施例3

请参阅图3，图3为本申请实施例提供的一种基于语义的无监督自动摘要系统示意图。一种基于语义的无监督自动摘要系统包括：

第一获取模块，用于获取预设语义表达模型并存储权重；第一定义模块，用于定义正确答案的领域词；第二获取模块，用于获取句子的语义表征向量；第一计算模块，用于计算每个句子之间的语义相似度；第二计算模块，用于根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；第一选取模块，用于选取预设数量的句子作为摘要候选集；第一确定模块，用于根据句法分析与领域词确定摘要；第二确定模块，用于确定摘要候选集中得分最高的为最终摘要。

还包括存储器、处理器和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块，处理器通过执行存储在存储器内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。

其中，存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于语义的无监督自动摘要方法及系统，具有以下创新点：使用基于BERT开源算法在混沌大学语料上迁移学习得到的符合混沌大学语料分布的模型权重，并通过该权重获得学生文章一句话的句向量表征方法，并使用余弦距离计算两两句子之间的相似程度，作为无向图的边权重，用语义相似度信息替换传统textrank算法的基于统计信息的边权重；

在自定义领域词的基础上，使用句法分析的方法，通过定义的关系类型，获得的topN句子中进行筛选，符合“ATT”(定中关系),“SBV”(主谓关系),“CMP”(动补结构),“VOB”(动宾关系)并且该关系中含有自定义领域词的句子会被筛选出来，在这些句子中，选取得分最高的句子进行输出，作为单篇商业案例分析文章的摘要。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于语义的无监督自动摘要方法，其特征在于，包括如下步骤：

获取预设语义表达模型并存储权重；

定义正确答案的领域词；

获取句子的语义表征向量；

计算每个句子之间的语义相似度；

根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；

选取预设数量的句子作为摘要候选集；

根据句法分析与领域词确定摘要；

确定摘要候选集中得分最高的为最终摘要。

2.如权利要求1所述的一种基于语义的无监督自动摘要方法，其特征在于，在所述获取预设语义表达模型并存储权重之前还包括：

训练预设语义表达模型。

3.如权利要求2所述的一种基于语义的无监督自动摘要方法，其特征在于：根据BERT训练方式，迁移训练符合预设语料分布的BERT语义表达模型。

4.如权利要求1所述的一种基于语义的无监督自动摘要方法，其特征在于，在所述获取句子的语义表征向量之前还包括：

根据正则表达式处理富文本信息；

通过分段符进行段落划分。

5.如权利要求4所述的一种基于语义的无监督自动摘要方法，其特征在于，还包括：

根据预设标点符号对每个段落进行分句。

6.如权利要求1所述的一种基于语义的无监督自动摘要方法，其特征在于，所述根据句法分析与领域词确定摘要还包括：

将定义正确答案的领域词加载到LTP算法中，得到的候选摘要集每句话的句法分析结果。

7.如权利要求1所述的一种基于语义的无监督自动摘要方法，其特征在于，在所述根据句法分析与领域词确定摘要之后还包括：

若无法确定摘要，将无摘要作为输出结果。

8.一种基于语义的无监督自动摘要系统，其特征在于，包括：

第一获取模块，用于获取预设语义表达模型并存储权重；

第一定义模块，用于定义正确答案的领域词；

第二获取模块，用于获取句子的语义表征向量；

第一计算模块，用于计算每个句子之间的语义相似度；

第二计算模块，用于根据PageRank对以余弦距离相似度为边权值的无向图进行收敛计算；

第一选取模块，用于选取预设数量的句子作为摘要候选集；

第一确定模块，用于根据句法分析与领域词确定摘要；

第二确定模块，用于确定摘要候选集中得分最高的为最终摘要。

9.如权利要求8所述的一种基于语义的无监督自动摘要系统，其特征在于，在所述第一获取模块之前还包括：

训练模块，用于训练预设语义表达模型。

10.如权利要求8所述的一种基于语义的无监督自动摘要系统，其特征在于，还包括：

用于存储计算机指令的至少一个存储器；

与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述系统执行：获取模块、判断模块以及传输模块。