CN109670047A

CN109670047A - 一种抽象笔记生成方法、计算机装置及可读存储介质

Info

Publication number: CN109670047A
Application number: CN201811375280.9A
Authority: CN
Inventors: 王燕; 白培翔; 于灏; 韩晨; 崔刚; 刘虹
Original assignee: Inner Mongolia University; CERNET Corp
Current assignee: Inner Mongolia University; CERNET Corp
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-04-23
Anticipated expiration: 2038-11-19
Also published as: CN109670047B

Abstract

本发明适用于计算机领域，提供了一种抽象笔记生成方法、计算机装置及可读存储介质，该方法包括：提取演示文稿中的文本信息；按照预设的规则对所述文本信息进行预处理，获得特征文本信息；根据所述特征文本信息之间的关联关系，生成抽象笔记。本发明实施例提供的抽象笔记生成方法，通过提取演示文稿中的文本信息，并按照预设的规则对这些文本信息进行预处理，进一步获得这些文本信息的特征文本信息，并且根据这些特征文本信息之间的关联关系，对其进行系统的整理，得到各知识点关联性强的系统的知识架构（即抽象笔记），以便于学习者后续的深度学习、理解和记忆，从而提高了学习者的学习的效率和效果，提升了对学习资源的有效转化。

Description

一种抽象笔记生成方法、计算机装置及可读存储介质

技术领域

本发明属于计算机领域，尤其涉及一种抽象笔记生成方法、计算机装置及可读存储介质。

背景技术

近几年，在线学习、移动学习等数字化学习模式逐渐兴起，学习者可以通过学习平台浏览到丰富的课程资源，学习各种学科知识。为了促进对学习资料的理解与记忆，学习笔记就显得尤其重要了。采用放射性思维具体化的方式做笔记是一种比较高效的知识整理手段，这种方式不但能够加速资料的累积量，而且能将各种数据依据彼此间的关联性分层分类管理，使资料的储存、管理及应用更加系统化或者更有条理性，从而极大地提高了知识整理的效率。思维抽象笔记的放射性结构反映了大脑的自然结构，它对以笔记形式出现的知识体系进行快速构建与扩展，从而得到一张所有的相关的、有内在联系的清晰和准确的知识架构图，可以快速有效的进行知识的管理。它可以帮助我们学习、思考及解决问题，使我们的思考过程可视化，最大限度的使我们的大脑潜能得到开发。

目前的网络学习平台多，且网络学习资源十分丰富，学习者可以通过这些网络学习资源随时随地进行学习。在学习的过程中，学习者可能会对资料(如文稿等)进行标注或总结，并形成学习笔记，以更好地进行知识点的理解和记忆。然而，这些学习笔记中的知识点零零散散，不能形成一个系统的、关联性强的知识架构，因此，不能很好地帮助学习者提高后续深度学习和研究的效率和效果。

由此可见，如何将网络学习平台上的学习资料自动形成系统的、关联性强的知识架构，更好地帮助学习者提高学习效率和效果已经成为了未来网络学习平台的发展新趋势。

发明内容

本发明实施例提供一种抽象笔记生成方法，旨在提供一种可将网络学习平台上的学习资料(如演示文稿)自动形成系统的、关联性强的知识架构(即抽象笔记)的方法，以更好地帮助学习者提高学习效率和效果，弥补目前该方面的市场空白。

本发明实施例是这样实现的，一种抽象笔记生成方法，包括如下步骤：

提取演示文稿中的文本信息；

按照预设的规则对所述文本信息进行预处理，获得特征文本信息；

根据所述特征文本信息之间的关联关系，生成抽象笔记。

本发明实施例还提供一种计算机装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述抽象笔记生成方法的各步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述抽象笔记生成方法的各步骤。

本发明实施例提供的抽象笔记生成方法，通过提取演示文稿中的文本信息，并按照预设的规则对这些文本信息进行预处理，进一步获得这些文本信息的特征文本信息，并且根据这些特征文本信息之间的关联关系，对其进行系统的整理，得到各知识点关联性强的系统的知识架构(即抽象笔记)，以便于学习者后续的深度学习、理解和记忆，从而提高了学习者的学习的效率和效果，提升了对学习资源的有效转化，同时弥补目前该方面的市场空白，有利于推动网络学习资源的进一步优化升级。

附图说明

图1是本发明实施例一提供的抽象笔记生成方法的实现流程图；

图2是本发明实施例二提供的抽象笔记生成方法的实现流程图；

图3是本发明实施例三提供的抽象笔记生成方法的实现流程图；

图4是本发明实施例四提供的抽象笔记生成方法的实现流程图；

图5是本发明实施例五提供的抽象笔记生成方法的实现流程图；

图6a为本发明实施例提供的一种演示文稿的示意图一；

图6b为本发明实施例提供的一种演示文稿的示意图二；

图6c为本发明实施例提供的一种演示文稿的示意图三；

图7是本发明实施例提供的一种抽象笔记的记录形式；

图8是本发明实施例六提供的抽象笔记生成方法的实现流程图；

图9是本发明实施例提供的一种抽象笔记生成装置的结构示意图；

图10是本发明实施例提供的一种特征文本信息获取单元的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一关键文本信息称为第二关键文本信息，且类似地，可将第二关键文本信息称为第一关键文本信息。

本发明实施例提供的抽象笔记生成方法，通过对从演示文稿中提取出来的文本信息按预设的规则进行预处理，获得特征文本信息，并将这些特征文本信息按照它们之间的关联关系进行系统整理，自动形成系统的、关联性强的知识架构(即抽象笔记)，以便于学习者后续的深度学习、理解和记忆，更号地帮助学习者提高学习效率和效果。

图1示出了本发明实施例一提供的抽象笔记生成方法的实现流程，详述如下：

本发明实施例提供的抽象笔记生成方法，包括如下步骤：

在步骤S101中，提取演示文稿中的文本信息。

在本发明实施例中，演示文稿为网络学习平台上发布的PowerPoint文件(即PPT)。文本信息，是语言文字的实际运用形态，也就是指某种文件形式。文本中的文字所表达的内容是信息。简而言之，文本信息即text。

在本发明实施例中，一个演示文稿中可能包含有文字、符号、图片等内容。提取其中的文字内容。

在步骤S102中，按照预设的规则对所述文本信息进行预处理，获得特征文本信息。

在本发明实施例中，预设的规则包括对从上述演示文稿中提取出来的文本信息进行进一步的内容筛选、整合等处理。

在本发明实施例中，特征文本信息，是指按预设的规则对上述文本信息进行预处理后，得到更加精炼简洁的信息--反映演示文稿的内容主旨(主题)或者主要知识点等。

在步骤S103中，根据所述特征文本信息之间的关联关系，生成抽象笔记。

在本发明实施例中，一般来说，演示文稿在排版时，会按照一个知识脉络或架构进行安排。而根据在步骤S102中获得的演示文稿的整体知识点或主题/主旨等特征文本信息，将它们按照演示文稿的知识脉络或架构的关联关系，生成抽象笔记(即总的知识点架构图或表格等)。

在本发明实施例中，生成的抽象笔记上传至云端设备进行存储，不但可降低本地内存的占用率，保证本地设备的运行速率，同时可方便学习者随时随地获取相应的抽象笔记进行学习和理解记忆。

图2示出了本发明实施例二提供的抽象笔记生成方法的实现流程，详述如下：

本实施例与实施一基本相同，下面仅对其与实施例一的不同部分进行详细描述：

在本发明实施例中，上述步骤S101具体包括步骤S201。

在步骤S201中，按照所述演示文稿的脉络结构，提取所述演示文稿中所有文本信息。

在本发明实施例中，演示文稿的脉络结构大致分为封面、目录、转场页、内容、封底五个部分。其中，封面是演示文稿的序幕页；目录页，即是演示文稿主要展示问题的纲要；转场页，是目录到内容的过渡，目录内有几条“骨骼”，那就有几个转场页；内容页是演示文稿的主体；封底是演示文稿的闭幕页。一个完整的演示文稿一般都包括上述五个部分的内容。

在本发明的一个实施例中，可按照演示文稿的封面、目录、转场页、内容、封底，分别提取这五个部分的所有文本信息。具体的，可分别提取这五个部分的所有文字信息。

在本发明的一个实施例中，可先按照演示文稿的脉络结构进行文本信息的提取，再将该脉络结构中的各部分的文本信息进行依次排序，然后再依次提取各部分的特征文本信息，最后按照各部分的特征文本信息之间的关联关系关联起来，即可形成一个简练的、系统的、有层次的抽象笔记，以使学习者可根据该抽象笔记迅速掌握演示文稿的脉络结构和主旨内容，从而宏观地理解相关的知识点之间的联系，有助于启发学习者的大脑，提高学习效率和效果。

另一方面，通过按照演示文稿的脉络结构提取其中的所有文本信息，可以提高后续自动形成具有系统性、关联性强的知识架构的效率，同时可保证抽象笔记的质量和完整性。

图3示出了本发明实施例三提供的抽象笔记生成方法的实现流程，为了便于说明，图中仅示出了本实施例与实施例一的不同部分，详述如下：

本实施例与实施例一基本相同，其不同之处在于：上述步骤S102包括步骤S301、步骤S302、步骤S303、步骤S304以及步骤S305。

在步骤S301中，按照预设的第一规则对所述文本信息进行预处理，获得第一关键文本信息。

在步骤S302中，按照预设的第二规则对所述文本信息进行预处理，获得第二关键文本信息。

在本发明实施例中，第一规则和第二规则具体可指采用不同的算法对从演示文稿中提取出来的文本信息进行进一步的提取、筛选或整合处理，获得相对应的第一关键文本信息和第二关键文本信息。

而第一关键文本信息与第二关键文本信息可为包括演示文稿的文本信息中的主旨句(主题句/标题)、关键词、关键字等。

在本发明实施例中，步骤S301和步骤S302可同时执行，也可以先执行步骤S301，再执行步骤S302，或者先执行步骤S302，再执行步骤S301，在此不做限定。

在步骤S303中，判断所述第一关键文本信息与所述第二关键文本信息之间的相似度。

在本发明的一个实施例中，可通过判断第一关键文本信息与第二关键文本信息的一致性程度，比如，可通过比较两者的文本信息内容是否字符数相同，文字表达方式、意思是否相同来比较两者之间的相似度。

在步骤S304中，当所述第一关键文本信息与所述第二关键文本信息之间的相似度符合预设的条件时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息。

作为本发明的实施例，预设的条件可为‘第一关键文本信息与第二关键文本信息所表达的意思相同或相近’，那么当第一关键文本信息与第二关键文本信息之间的相似度符合该预设的条件时，将第一关键文本信息或者第二关键文本信息确定为特征文本信息。

示例性的，当获得的第一关键文本信息为‘互联网通信技术’，第二关键文本信息为‘互联网通信技术’或‘互联网通信’时，那么可认为第一关键文本信息与第二关键文本信息所表达的意思相同或相近。此时，可将‘互联网通信技术’或‘互联网通信’确定为特征文本信息。

在步骤S305中，当所述第一关键文本信息与所述第二关键文本信息之间的相似度不符合预设的条件时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息。

在本发明的一个实施例中，当获得的第一关键文本信息是‘年度大会’，第二关键文本信息是‘总结会’，那么可认为第一关键文本信息与第二关键文本信息所表达的意思不相同，即不符合预设的条件。此时可将第一关键文本信息和第二关键文本信息进行组合，生成特征文本信息。具体的组合方式可以为将第一关键文本信息与第二关键文本信息整合成具有明确含义的文本信息，如‘年度总结大会’—特征文本信息。

在本发明实施例中，上述步骤S301具体为：基于TextRank算法对所述文本信息进行预处理，获得第一关键文本信息。

其中，TextRank算法是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。具体的，TextRank算法是将文章表示为有权图，权重为句子间的相似度。在构建有权图时，将文章中的每个句子作为图中的节点，将上一步中计算出来的句子之间的相似度作为图中两个节点之间的边的权重。用于为文本生成关键字和摘要。

需要说明的是，本发明实施例中所采用的TextRank算法属于本领域的一种常规技术，其具体的算法流程在此不做赘述。

在本发明实施例中，基于TextRank算法对从演示文稿中提取出来的文本信息进行预处理—进一步提取出该文本信息中的关键词和自动摘要(即第一关键文本信息)。

示例性的，若从演示文稿中提取出来的文本信息为：开放系统互连参考模型OSI/RM，为了使不同体系结构的计算机网络都能互连，国际标准化组织ISO于1977年成立了专门机构研究该问题。他们提出了一个试图使各种计算机在世界范围内互连成网的标准框架，即著名的开放系统互连基本参考模型OSI/RM(Open SystemsInterconnection ReferenceModel)，简称为OSI。只要遵循OSI标准，一个系统就可以和位于世界上任何地方的、也遵循这同一标准的其他任何系统进行通信。

经过TextRank算法对上述文本信息进行预处理后，获得的第一关键文本信息为：开放系统互连参考模型OSI/RM。

在本发明实施例中，上述步骤S302具体为：基于自然语言处理算法对所述文本信息进行预处理，获得第二关键文本信息。

在本发明实施例中，利用自然语言生成式自动摘要算法对从演示文稿中提取出来的文本信息进行预处理，获得第二关键文本信息。具体的，自然语言处理算法是通过深度神经网络模型，构建编码和解码两个环节，将一个作为输入的序列映射为一个作为输出的序列。利用更长范围的序列全局的信息，并且综合序列上下文判断，推断出与序列相对应的另一种表述序列。

需要说明的是，本发明实施例所采用的自然语言处理算法属于本领域的一种常规技术，其具体的算法流程在此不做赘述。

结合前文所述的示例进行说明，利用自然语言生成式自动摘要算法进行预处理后得到的第二关键文本信息为：互连参考模型。

图4示出了本发明实施例四提供的抽象笔记生成方法的实现流程，为了便于说明，图中仅示出了本实施例与实施例三之间的不同之处，详述如下：

本实施例与实施例三基本相同，其不同之处在于：将上述步骤S303替换为步骤S401和步骤S402；将上述步骤S304替换为步骤S403；将上述步骤S305替换为步骤S404。

在步骤S401中，分别计算所述第一关键文本信息和所述第二关键文本信息的余弦值。

在本发明实施例中，第一关键文本信息和第二关键文本信息是一具有大小和方向的空间向量。利用余弦的计算公式分别计算出第一关键文本信息和第二关键文本信息的余弦值。

在步骤S402中，判断所述第一关键文本信息和所述第二关键文本信息之间的余弦值相似度。

在本发明的一个实施例中，假设第一关键文本信息和第二关键文本信息的余弦值分别为A和B，那么可以通过将A除以B或者B除以A得到一商值，此时可判断该商值是否在预设的阈值范围内来确定两者的相似度。

在本发明的另一个实施例中，也可以通过将A减去B或者B减去A得到一差值，通过判断该差值是否在预设的阈值范围内来确定两者的相似度。

可理解的是，本领域技术人员可以根据实际情况来设定第一关键文本信息的余弦值和第二关键文本信息的余弦值之间的比较方式，比如可以比较两余弦值之间的加和或乘积等，在此不做具体的限定。

在步骤S403中，当所述第一关键文本信息与所述第二关键文本信息之间的余弦值相似度符合预设的阈值范围时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息。

在本发明的一个实施例中，当第一关键文本信息与第二关键文本信息之间的余弦值的商值在预设的阈值范围(如0.7-0.9)内时，将第一关键文本信息或者第二关键文本信息确定为特征文本信息。

在步骤S404中，当所述第一关键文本信息与所述第二关键文本信息之间的余弦值相似度不符合预设的阈值范围时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息。

在本发明的一个实施例中，当第一关键文本信息与第二关键文本信息之间的余弦值的商值不在预设的阈值范围(如0.7-0.9)内时，将第一关键文本信息和第二关键文本信息进行组合，生成特征文本信息，以使该特征文本信息可更加完整的展示所要表达的信息内容。

在本发明的一个优选实施例中，上述步骤S305具体包括：提取出所述第一关键文本信息和所述第二关键文本信息的相同文本信息和不同文本信息；将所述相同文本信息和不同文本信息进行组合，生成特征文本信息。

在本发明实施例中，如果获得的第一关键文本信息为‘开放系统互连参考模型OSI/RM’，第二关键文本信息为‘互连参考模型’，那么可提取出第一关键文本信息与第二关键文本信息的相同文本信息为‘互连参考模型’，不同文本信息为‘开放系统OSI/RM’。

进一步的，将‘互连参考模型’和‘开放系统OSI/RM’进行组合形成具有明确含义的通顺的特征文本信息‘开放系统互连参考模型OSI/RM’。

图5示出了本发明实施例五提供的抽象笔记生成方法的实现流程，详述如下：

本实施例与实施例一基本相同，其不同之处在于：将上述步骤S103替换为步骤S501。

在步骤S501中，按照所述演示文稿的主题样式的层次关系，将所述特征文本信息进行依次递进排列，生成抽象笔记。

在本发明的一个实施例中，如图6a、6b和6c所示，一份关于专利法第11条的释义的演示文稿，图6a为专利法第11条的定义，图6b是针对其中的第一款做详细的解说，图6c是针对其中的第二款做详细的解说。这份演示文稿的主题样式的层次关系为定义—第一款的解说—第二款的解说。

进一步的，若提取的特征文本信息依次为：专利法第十一条定义；①专利法第11条第一款；②专利法第11条第二款，那么按照该份演示文稿的主题样式的层次关系，可将上述特征文本信息进行依次递进排列，生成抽象笔记为：专利法第11条的定义--专利法第11条第一款--专利法第11条第二款。

在本发明的优选实施例中，可以提取出来的特征文本信息的字体属性(如大小、样式等)将其进行划分，将相同属性或级别的特征文本信息按主题样式的层次从上到下进行顺序罗列，将不同属性或级别的特征文本信息按主题样式的层次从左到右进行依次罗列，生成列表形式的抽象笔记(如下表1)或树状图形式的抽象笔记(如图7所示)，从而使演示文稿的脉络更加有逻辑条理性，关联性更强，更加整洁明了。

优选的，在生成抽象笔记时，可以自动识别并将中文表达的数字转换成阿拉伯数字的形式。

表1

专利法第十一条定义

①专利法第11条第一款

②专利法第11条第二款

图8示出了本发明实施例提供的实施例六提供的抽象笔记生成方法的实现流程，为了便于说明，图中仅示出了本实施例与实施例一的不同之处，详述如下：

本实施例与实施例一基本相同，其不同之处在于，该方法还包括步骤S801、步骤S802、步骤S803和步骤S804。

在步骤S801中，当文件彻底删除功能处于开启状态时，则判断待删除的抽象笔记的大小是否符合预设的非彻底删除条件。

在本发明实施例中，文件彻底删除功能为conf文件下的global中设置功能。

在本发明实施例中，用待删除的抽象笔记为用户手动选中欲删除的抽象笔记。

在本发明实施例中，非彻底删除条件可为文件大小小于1M。

在步骤S802中，当所述待删除的抽象笔记的大小符合预设的非彻底删除条件时，将所述待删除的抽象笔记回收转移至隐藏目录中。

在本发明实施例中，可利用Ceph作为底层分布式文件存储系统，当Fuse客户端挂载成功后，使用挂载目录的默认存储池创建文件系统，在在文件系统根目录下，配置生成一个隐藏文件目录，该目录只在root用户下才可能查看，其他用户属于不可见状态。

在本发明实施例中，遍历用户选中的待删除的抽象笔记，当判断该待删除的抽象笔记的大小小于1M时，将该待删除的抽象笔记回收转移至隐藏目录中。

在本发明实施例中，当判断该待删除的抽象笔记的大小大于1M时，直接将该待删除的抽象笔记删除，以释放存储空间。

在步骤S803中，对所述隐藏目录进行扫描，并判断所述隐藏目录是否符合预设的清空条件。

在本发明实施例中，可在文件系统配置文件conf的global中设置参数：client_recycle_timeout_min＝1//最小1个小时；client_recycle_update_min＝1//定时扫描时间以小时为单位。如果修改client_recycle_timeout或者client_recycle_update配置参数，需要重新挂载init-client-backend进程客户端。

在本发明实施例中，预设的清空条件为:①隐藏目录的无效空间达到预设的界限(如70％等)；②隐藏目录的集群空闲率低于预设的阈值(如40％等)。

在本发明实施例中，根据上述设置参数对应的参数值对隐藏目录进行扫描，并进一步判断该隐藏目录的无效空间是否达到预设的界限，并且判断隐藏目录的集群空闲率(即集群IO的使用率)是否低于预设的阈值。

在步骤S804中，当判断所述隐藏目录符合预设的清空条件时，清空所述隐藏目录。

在本发明实施例中，当判断的结果为隐藏目录的无效空间达到预设的界限70％，并且隐藏目录的集群空闲率低于预设的阈值40％时，清空隐藏目录中的文件，释放空间，提高网络学习平台的流畅度。

图9示出了本发明实施例提供的一种抽象笔记生成装置的结构，为了便于说明，图中仅示出了与本实施例相关的部分，详述如下：

本发明实施例提供的抽象笔记生成装置，包括：提取单元91、特征文本信息获取单元92以及抽象笔记生产单元93。

提取单元91，用于提取演示文稿中的文本信息。

特征文本信息获取单元92，用于按照预设的规则对所述文本信息进行预处理，获得特征文本信息。

抽象笔记生成单元93，用于根据所述特征文本信息之间的关联关系，生成抽象笔记。

在本发明实施例中，一般来说，演示文稿在排版时，会按照一个知识脉络或架构进行安排。而根据特征文本信息获取单元92获得的演示文稿的整体知识点或主题/主旨等特征文本信息，将它们按照演示文稿的知识脉络或架构的关联关系，生成抽象笔记(即总的知识点架构图或表格等)。

本发明实施例提供的抽象笔记生成装置，通过提取演示文稿中的文本信息，并按照预设的规则对这些文本信息进行预处理，进一步获得这些文本信息的特征文本信息，并且根据这些特征文本信息之间的关联关系，对其进行系统的整理，得到各知识点关联性强的系统的知识架构(即抽象笔记)，以便于学习者后续的深度学习、理解和记忆，从而提高了学习者的学习的效率和效果，提升了对学习资源的有效转化，同时弥补目前该方面的市场空白，有利于推动网络学习资源的进一步优化升级。

在本发明实施例中，上述提取单元91具体用于：按照所述演示文稿的脉络结构，提取所述演示文稿中所有文本信息。

图10示出了本发明实施例提供的一种特征文本信息获取单元92的结构，为了便于说明，图中仅示出了与本实施例相关的部分，详述如下：

本发明实施例提供的特征文本信息获取单元92包括：第一关键文本信息获得模块921、第二关键文本信息获得模块922、判断模块923、第一确定模块924以及第二确定模块925。

第一关键文本信息获得模块921，用于按照预设的第一规则对所述文本信息进行预处理，获得第一关键文本信息。

第二关键文本信息获得模块922，用于按照预设的第二规则对所述文本信息进行预处理，获得第二关键文本信息。

判断模块923，用于判断所述第一关键文本信息与所述第二关键文本信息之间的相似度。

第一确定模块924，用于当所述第一关键文本信息与所述第二关键文本信息之间的相似度符合预设的条件时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息。

第二确定模块925，用于当所述第一关键文本信息与所述第二关键文本信息之间的相似度不符合预设的条件时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息。

在本发明实施例中，上述第一关键文本信息获得模块921，具体用于基于TextRank算法对所述文本信息进行预处理，获得第一关键文本信息。

其中，TextRank算法是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。本发明实施例中所采用的TextRank算法属于本领域的一种常规技术，其具体的算法流程在此不做赘述。

在本发明实施例中，上述第二关键文本信息获得模块922具体用于：基于自然语言处理算法对所述文本信息进行预处理，获得第二关键文本信息。

在本发明实施例中，利用自然语言生成式自动摘要算法对从演示文稿中提取出来的文本信息进行预处理，获得第二关键文本信息。

在本发明实施例中，上述判断模块923包括计算子模块和判断子模块。

计算子模块，用于分别计算所述第一关键文本信息和所述第二关键文本信息的余弦值。

判断子模块，用于判断所述第一关键文本信息和所述第二关键文本信息之间的余弦值相似度。

在本发明实施例中，上述第一确定模块924，具体用于当所述第一关键文本信息与所述第二关键文本信息之间的余弦值相似度符合预设的阈值范围时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息。

在本发明实施例中，上述第二确定模块925，具体用于当所述第一关键文本信息与所述第二关键文本信息之间的余弦值相似度不符合预设的阈值范围时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息。

在本发明的一个优选实施例中，第二确定模块925还用于提取出所述第一关键文本信息和所述第二关键文本信息的相同文本信息和不同文本信息；将所述相同文本信息和不同文本信息进行组合，生成特征文本信息。

本发明实施例还提供了一种计算机装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述抽象笔记生成方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述抽象笔记生成方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，所述计算机程序可以被分割成上述各个方法实施例提供的抽象笔记生成方法的各步骤，并由处理器执行。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抽象笔记生成方法，其特征在于，包括如下步骤：

提取演示文稿中的文本信息；

根据所述特征文本信息之间的关联关系，生成抽象笔记。

2.如权利要求1所述的抽象笔记生成方法，其特征在于，所述提取演示文稿中的文本信息的步骤，具体包括：

按照所述演示文稿的脉络结构，提取所述演示文稿中所有文本信息。

3.如权利要求1所述的抽象笔记生成方法，其特征在于，所述按照预设的规则对所述文本信息进行预处理，获得多个特征文本信息的步骤，具体包括：

按照预设的第一规则对所述文本信息进行预处理，获得第一关键文本信息；

按照预设的第二规则对所述文本信息进行预处理，获得第二关键文本信息；

判断所述第一关键文本信息与所述第二关键文本信息之间的相似度；

当所述第一关键文本信息与所述第二关键文本信息之间的相似度符合预设的条件时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息；

当所述第一关键文本信息与所述第二关键文本信息之间的相似度不符合预设的条件时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息。

4.如权利要求3所述的抽象笔记生成方法，其特征在于，所述按照预设的第一规则对所述文本信息进行预处理，获得第一关键文本信息的步骤，具体为：

基于TextRank算法对所述文本信息进行预处理，获得第一关键文本信息；

基于自然语言处理算法对所述文本信息进行预处理，获得第二关键文本信息。

5.如权利要求3所述的抽象笔记生成方法，其特征在于，所述判断所述第一关键文本信息与所述第二关键文本信息之间的相似度的步骤，具体包括：

分别计算所述第一关键文本信息和所述第二关键文本信息的余弦值；

判断所述第一关键文本信息和所述第二关键文本信息之间的余弦值相似度；

所述当所述第一关键文本信息与所述第二关键文本信息之间的相似度符合预设的条件时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息的步骤，具体包括：

当所述第一关键文本信息与所述第二关键文本信息之间的余弦值相似度符合预设的阈值范围时，将所述第一关键文本信息或者所述第二关键文本信息确定为特征文本信息；

所述当所述第一关键文本信息与所述第二关键文本信息之间的相似度不符合预设的条件时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息的步骤，具体包括：

当所述第一关键文本信息与所述第二关键文本信息之间的余弦值相似度不符合预设的阈值范围时，将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息。

6.如权利要求3所述的抽象笔记生成方法，其特征在于，所述将所述第一关键文本信息和所述第二关键文本信息进行组合，生成特征文本信息的步骤，具体包括：

提取出所述第一关键文本信息和所述第二关键文本信息的相同文本信息和不同文本信息；

将所述相同文本信息和不同文本信息进行组合，生成特征文本信息。

7.如权利要求1所述的抽象笔记生成方法，其特征在于，所述根据所述特征文本信息之间的关联关系，生成抽象笔记的步骤，具体包括：

按照所述演示文稿的主题样式的层次关系，将所述特征文本信息进行依次递进排列，生成抽象笔记。

8.如权利要求1所述的抽象笔记生成方法，其特征在于，所述方法还包括如下步骤：

当文件彻底删除功能处于开启状态时，则判断待删除的抽象笔记的大小是否符合预设的非彻底删除条件；

当所述待删除的抽象笔记的大小符合预设的非彻底删除条件时，将所述待删除的抽象笔记回收转移至隐藏目录中；

对所述隐藏目录进行扫描，并判断所述隐藏目录是否符合预设的清空条件；

当判断所述隐藏目录符合预设的清空条件时，清空所述隐藏目录。

9.一种计算机装置，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至8中任一项权利要求所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至8中任一项权利要求所述方法的步骤。