CN114912425A

CN114912425A - 演示文稿生成方法及装置

Info

Publication number: CN114912425A
Application number: CN202210535634.1A
Authority: CN
Inventors: 杨云
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-16

Abstract

本发明公开了一种演示文稿生成方法及装置，涉及人工智能技术领域，其中该方法包括：接收目标素材文本；根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词；应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，所述图模型的节点表示所述目标素材文本中的句子及其得分，两个节点之间的边表示两个句子之间的边权重；根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述目标素材文本对应的演示文稿。

Description

演示文稿生成方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及演示文稿生成方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着社会的快速发展，为了使用户更加快捷直观的获取信息，经常采用演示文稿(Microsoft Office PowerPoint，简称PPT)展示信息。

目前，从素材文本导出PPT的方式主要是通过WORD文档或WPS文档等软件导出PPT，这种方式是已有文本的纯复制，难以分析总结主题内容，导致制作耗费大量时间或简单的仅以文本堆砌形式呈现较多冗余内容的问题，不适用于素材较多、用户思路尚未清晰的情况，制作效率较低。

发明内容

本发明实施例提供一种演示文稿生成方法，用以提高演示文稿生成的效率，该方法包括：

接收目标素材文本；

根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词；

应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，所述图模型的节点表示所述目标素材文本中的句子及其得分，两个节点之间的边表示两个句子之间的边权重；

根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述目标素材文本对应的演示文稿。

进一步地，在所述根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词之前，还包括：

对所述目标素材文本进行文本分词处理；

根据预设的停用词过滤规则，过滤掉文本分词处理后的目标素材文本中的停用词。

进一步地，所述根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词，包括：

根据预设的主题模型，确定所述目标素材文本的主题词分布，该主题词分布包括：多个待筛选主题词及其各自在所述目标素材文本中出现的次数；

基于在所述目标素材文本中出现的次数对待筛选主题词排序，从多到少选取预设个数的待筛选主题词；

根据所述句向量模型和选取得到的待筛选主题词，确定所述主题词。

进一步地，所述应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，包括：

获取所述目标素材文本中任意两个句子之间的相似度、影响因子和主题词覆盖率，根据所述任意两个句子之间的相似度、影响因子和主题词覆盖率，确定任意两个句子之间的边权重；

应用TextRank排序算法和任意两个句子之间的边权重，确定每个句子的得分；

根据所述任意两个句子之间的边权重和每个句子的得分，构建所述图模型；

从所述图模型中选取得分最高的预设个数的节点对应的句子作为所述主题词在所述目标素材文本中对应的主题句。

本发明实施例还提供一种演示文稿生成装置，用以，该装置包括：

接收模块，用于接收目标素材文本；

主题词确定模块，用于根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词；

主题句确定模块，用于应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，所述图模型的节点表示所述目标素材文本中的句子及其得分，两个节点之间的边表示两个句子之间的边权重；

生成模块，用于根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述目标素材文本对应的演示文稿。

进一步地，所述的演示文稿生成装置，还包括：

分词模块，用于对所述目标素材文本进行文本分词处理；

过滤模块，用于根据预设的停用词过滤规则，过滤掉文本分词处理后的目标素材文本中的停用词。

进一步地，所述主题词确定模块包括：

第一确定单元，用于根据预设的主题模型，确定所述目标素材文本的主题词分布，该主题词分布包括：多个待筛选主题词及其各自在所述目标素材文本中出现的次数；

筛选单元，用于基于在所述目标素材文本中出现的次数对待筛选主题词排序，从多到少选取预设个数的待筛选主题词；

第二确定单元，用于根据所述句向量模型和选取得到的待筛选主题词，确定所述主题词。

进一步地，所述主题句确定模块，包括：

确定边权重单元，用于获取所述目标素材文本中任意两个句子之间的相似度、影响因子和主题词覆盖率，根据所述任意两个句子之间的相似度、影响因子和主题词覆盖率，确定任意两个句子之间的边权重；

确定得分单元，用于应用TextRank排序算法和任意两个句子之间的边权重，确定每个句子的得分；

构建单元，用于根据所述任意两个句子之间的边权重和每个句子的得分，构建所述图模型；

选取单元，用于从所述图模型中选取得分最高的预设个数的节点对应的句子作为所述主题词在所述目标素材文本中对应的主题句。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述演示文稿生成方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述演示文稿生成方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述演示文稿生成方法。

本发明实施例中的演示文稿生成方法及装置，与现有技术中通过WORD文档或WPS文字等软件导出PPT的技术方案相比，通过接收目标素材文本；根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词；应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，所述图模型的节点表示所述目标素材文本中的句子及其得分，两个节点之间的边表示两个句子之间的边权重；根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述目标素材文本对应的演示文稿，能够提高演示文稿生成的效率；具体地，可以快速分析文本素材，生成素材主题词句并最终实现一键导出PPT，可以极大的节省素材整理与分析时间，简洁直观的展示主题内容，避免内容呈现冗余；能够解决PPT制作者在面对繁多的文本素材时可能出现的因逻辑不清晰而难以分析总结主题内容，导致制作耗费大量时间和人工成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例中的演示文稿生成方法的流程示意图；

图2是本申请实施例中的演示文稿生成方法的步骤201和步骤202的流程示意图；

图3是本申请实施例中的演示文稿生成方法的步骤301至步骤303的流程示意图；

图4是本申请实施例中的演示文稿生成方法的步骤401至步骤404的流程示意图；

图5是本申请应用实例中的生成主题词过程的逻辑示意图；

图6是本申请应用实例中的生成主题句过程的逻辑示意图；

图7是本申请实施例中的演示文稿生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

为了便于对本方案的理解，首先，对与本方案相关的技术内容进行说明。

Jieba：一种第三方中文分词库，所支持分词模式包括精确模式、全模式、搜索引擎模式、paddle模式。

LDA：一种基于概率模型的主题模型，可以将文档集中每篇文档的主题以概率分布的形式给出。

Doc2vec：一种非监督学习算法，能从变长的文本(如句子、段落或文档)中学习得到固定长度的特征表示。

TextRank：一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元并建立图模型,利用投票机制对文本中重要成分进行排序来实现关键词句抽取。

现有技术中还有通过思维导图工具生成PPT的方式，需人工先行总结素材并设定文章大纲级别或制作思维导图，效率较低。

为了解决上述现有技术中存在的问题，本申请提供一种演示文稿生成方法及装置，在本申请中，可以将文本素材看作各种隐含主题的混合，基于LDA主题模型进行主题聚类，通过相似度计算得到最相关的主题词，使用TextRank算法在主题词的基础上提取素材关键句，最终导出生成的PPT；可以达到辅助用户总结文本素材、缩短制作PPT时间的目的。

需要说明的是，本申请公开的演示文稿生成方法及装置可用于金融技术领域，也可用于除金融技术领域之外的任意领域，本申请公开的演示文稿生成方法及装置的应用领域不做限定。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

为了提高演示文稿生成的效率，本实施例提供一种执行主体是演示文稿生成装置的演示文稿生成方法，该演示文稿生成装置包括但不限于服务器，如图1所示，该方法具体包含有如下内容：

步骤101：接收目标素材文本。

具体地，可以接收爬取的文本或者前端发送的素材文本，如，word文档和WPS文档等；所述目标素材文本的个数可以为多个。

步骤102：根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词。

具体地，所述句向量模型可以是Doc2vec模型；所述预设的主题模型可以是隐含狄利克雷分布(Latent Dirichlet Allocation，简称LDA)主题模型；每个目标素材文本可以对应多个主题，每个主题可以包含有一个或多个主题词。

步骤103：应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，所述图模型的节点表示所述目标素材文本中的句子及其得分，两个节点之间的边表示两个句子之间的边权重。

其中，每个主题词可以对应一个或多个主题句。

步骤104：根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述目标素材文本对应的演示文稿。

具体地，可以从python-pptx库中获取设定的演示文稿模板，模板里有相应的样式；所述预获取的模板填充规则可以根据实际需要进行设置，本申请对此不作限制。

举例来说，所述预获取的模板填充规则可以是，从所有主题词中提取出分布概率值最高的，将其设置在演示文稿模板首页的标题位置处，从所有主题句中获得分数最高的设置在演示文稿模板首页的副标题中，可以在演示文稿模板的不同的页设置不同主题下的主题词和主题句。

为了能够提高演示文稿生成的效率，减少演示文稿中的冗余信息，进而便于用户更加直观的了解金融机构的支付类型介绍信息，本申请提供一种金融机构支付类型介绍演绎文档生成方法的应用实例，具体描述如下：

接收前端发送的支付类型介绍文档集，所述支付类型介绍文档集包括：多种支付类型各自对应的介绍文档；

根据预设的主题模型和句向量模型，确定所述支付类型介绍文档集中的主题词；

应用预设的排序算法构建所述支付类型介绍文档集对应的图模型，根据所述图模型中的各个节点的得分，确定每个主题词在所述支付类型介绍文档集中对应的主题句，所述图模型的节点表示所述支付类型介绍文档集中的句子及其得分，两个节点之间的边表示两个句子之间的边权重；

根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述支付类型介绍文档集对应的演示文稿。

为了删除素材文本中的冗余数据，进一步提高生成演示文稿的效率，参见图2，在本申请一个实施例中，在步骤102之前，还包括：

步骤201：对所述目标素材文本进行文本分词处理。

具体地，可以应用jieba分词函数库对所述目标素材文本进行文本分词处理。

步骤202：根据预设的停用词过滤规则，过滤掉文本分词处理后的目标素材文本中的停用词。

具体地，停用词可以表示不携带有效信息，无分析价值的词，如虚词或专业领域的高频词。可根据实际需要设置停用词，如手工添加停用词txt文件；去除前一步文本分词处理得到词集中的停用词。

为了进一步提高确定主题词的可靠性，参见图3，在本申请一个实施例中，步骤102包括：

步骤301：根据预设的主题模型，确定所述目标素材文本的主题词分布，该主题词分布包括：多个待筛选主题词及其各自在所述目标素材文本中出现的次数。

步骤302：基于在所述目标素材文本中出现的次数对待筛选主题词排序，从多到少选取预设个数的待筛选主题词。

具体地，所述预设个数可以根据实际情况进行设置，本申请对此不作限制。

步骤303：根据所述句向量模型和选取得到的待筛选主题词，确定所述主题词。

具体地，可以应用所述句向量模型对选取得到的待筛选主题词进行文本向量化处理，得到多个词向量；对任意两个词向量进行相似度计算，选取值最大的前N个相似度对应的选取得到的待筛选主题词作为所述主题词。

为了进一步提高图模型的可靠性，进而提高生成演绎文档的可靠性，参见图4，在本申请一个实施例中，步骤103包括：

步骤401：获取所述目标素材文本中任意两个句子之间的相似度、影响因子和主题词覆盖率，根据所述任意两个句子之间的相似度、影响因子和主题词覆盖率，确定任意两个句子之间的边权重。

具体地，可以根据下式确定目标素材文本中的句子i和句子j之间的边权重：

其中，

表示句子相似度，

表示主题词覆盖率，λ₁和λ₂表示句子i和句子j各自的影响因子。

步骤402：应用TextRank排序算法和任意两个句子之间的边权重，确定每个句子的得分。

步骤403：根据所述任意两个句子之间的边权重和每个句子的得分，构建所述图模型。

步骤404：从所述图模型中选取得分最高的预设个数的节点对应的句子作为所述主题词在所述目标素材文本中对应的主题句。

具体地，所述预设个数可以根据实际需要进行设置，本申请对此不作限制；节点和句子一一对应；可以根据TextRank排序算法，对图模型中的各个节点的影响权重(即得分)进行迭代，对节点得分排名，提取主题句，TextRank排序算法如下所示：

其中，WS(V_i)表示句子V_i的得分(即影响权重)，d表示阻尼系数，In(V_i)表示指向给定节点V_i的节点集合；out(V_j)表示给定节点V_j所指向节点的集合。

为了进一步提高生成演示文稿的智能化程度，在本申请一个实施例中，在步骤102之前，还包括：

获取目标素材语音；应用预设的语音识别模型得到所述目标素材语音对应的文本，将所述文本确定为目标素材文本中的一个，所述预设的语音识别模型是基于ASRT语音识别模型预先训练得到的。

为了进一步说明本方案，本申请提供一种演示文稿生成方法的应用实例，具体描述如下：

(1)素材主题提取：进行素材文本预处理，如图5所示，使用ji_eba库进行文本分词并过滤其中停用词后，将分词结果进行LDA处理，使用D_oc2_vec算法将分词映射为向量，计算词的相似度，在完成词相似度计算后得到各主题对应的主题词。

(2)主题句生成：如图6所示，基于主题词分布、文本划分和文本相似度，构建图模型；迭代计算句子的影响权重直至收敛，比较各个句子的影响权重，生成主题句。

(3)导出PPT：借助python-pptx库获取设定模板，结合(2)中生成的主题词与主题句填写内容，分页生成PPT。

本发明实施例中还提供了一种演示文稿生成装置，如下面的实施例所述。由于该装置解决问题的原理与演示文稿生成方法相似，因此该装置的实施可以参见演示文稿生成方法的实施，重复之处不再赘述。

参见图7，本申请提供一种演示文稿生成装置的实施例，包括：

接收模块71，用于接收目标素材文本；

主题词确定模块72，用于根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词；

主题句确定模块73，用于应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，所述图模型的节点表示所述目标素材文本中的句子及其得分，两个节点之间的边表示两个句子之间的边权重；

生成模块74，用于根据预获取的演示文稿模板、模板填充规则、所述主题词和主题句，生成所述目标素材文本对应的演示文稿。

在本申请一个实施例中，所述的演示文稿生成装置，还包括：

分词模块，用于对所述目标素材文本进行文本分词处理；

在本申请一个实施例中，所述主题词确定模块包括：

在本申请一个实施例中，所述主题句确定模块，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种演示文稿生成方法，其特征在于，包括：

接收目标素材文本；

2.根据权利要求1所述的演示文稿生成方法，其特征在于，在所述根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词之前，还包括：

对所述目标素材文本进行文本分词处理；

3.根据权利要求1所述的演示文稿生成方法，其特征在于，所述根据预设的主题模型和句向量模型，确定所述目标素材文本中的主题词，包括：

4.根据权利要求1所述的演示文稿生成方法，其特征在于，所述应用预设的排序算法构建所述目标素材文本对应的图模型，根据所述图模型中各个节点的得分确定所述主题词在所述目标素材文本中对应的主题句，包括：

5.一种演示文稿生成装置，其特征在于，包括：

接收模块，用于接收目标素材文本；

6.根据权利要求5所述的演示文稿生成装置，其特征在于，还包括：

分词模块，用于对所述目标素材文本进行文本分词处理；

7.根据权利要求5所述的演示文稿生成装置，其特征在于，所述主题词确定模块包括：

8.根据权利要求5所述的演示文稿生成装置，其特征在于，所述主题句确定模块，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的演示文稿生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的演示文稿生成方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一项所述的演示文稿生成方法。