CN111859950A

CN111859950A - 一种自动化生成讲稿的方法

Info

Publication number: CN111859950A
Application number: CN202010559615.3A
Authority: CN
Inventors: 王子奕; 王文广; 陈运文; 贺梦洁; 王忠萌; 纪达麒
Original assignee: Datagrand Tech Inc
Current assignee: Datagrand Tech Inc
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-30

Abstract

本发明公开了一种自动化生成讲稿的方法，所述方法包括如下步骤：根据讲稿的主题词自互连网获取相关文本，处理所述文本以生成按照关键词分类的候选文档，根据讲稿段落预先设定的关键词找到相对应的多个候选文档，自候选文档中采样语句以生成讲稿段落内容。本发明快速生成高质量、可读性好、且具备一定篇幅的自然语言文本。

Description

一种自动化生成讲稿的方法

技术领域

本发明属于文本处理领域，具体涉及一种自动化生成讲稿的方法。

背景技术

随着自然语言理解的迅速发展，研究者越来越多地将目光投向文本生成这一自然语言处理的核心领域上。从任务输入的角度来看，文本生成大致可以分为从文本到文本的生成、从意义到文本的生成、从数据到文本的生成和从图像到文本的生成四大类。讲稿生成在多数场景下更接近于第二、三类，只需要使用者提供少量输入信息，系统便能自动生成满足约束条件的文本。

与过滤冗余成分、保留重要信息的句子压缩任务不同，讲稿生成的输入往往只包含极少语义片段，而输出结果要求是高质量、可读性好、且具备一定篇幅的自然语言文本，该项技术的挑战性不言而喻。仅从用户输入中提取语义表示在解决这类问题上显得十分无力，因此通常要借助大量外部信息。

模板法是讲稿生成中常用的方法，预留出供用户填充的讲稿片段，能够快速实现文本生成，但维护大量模板对人力需求较高，且主题的多变使得生成内容的多样化依旧难以得到保证。而基于深度学习的生成模型本身具有解码效率低、结果不可控等缺陷，同时实践中往往只有少量特定领域的标注数据，监督学习收效不高。

发明内容

针对现有技术中存在的问题，本发明提供一种自动化生成讲稿的方法，本发明部分实施例能够通过从大量语料中抽取契合给定主题与关键词的句子组织成完整篇章，不仅在一定程度克服了传统模板法带来的多样性缺失难题，也解决了生成式模型造成的输出结果不可控的问题。本发明包含以下步骤：S1.启动爬虫模块请求指定URLs下载原始语料；S2.从语料中抽取得分最高的若干句子，通过一定的规则映射到预设主题关键词下作为一篇候选文档存入数据库；S3.根据用户配置信息解析讲稿主题、段落关键词、段落字数等参数，在一定的约束条件下随机采样候选文档和候选句子组成段落，再拼接段落作为最终讲稿输出。

为实现上述目的，本发明采用以下技术方案：

一种自动化生成讲稿的方法，所述方法包括如下步骤：

根据讲稿的主题词自互连网获取相关文本，处理所述文本以生成按照关键词分类的候选文档，根据讲稿段落预先设定的关键词找到相对应的多个候选文档，自候选文档中采样语句以生成讲稿段落内容。

所述处理所述文本包括：结合Word2Vec和TextRank算法保留所述文本中重要性分值最高的若干句子，作为一篇候选文档

所述处理所述文本包括如下步骤：

1)对文本进行分句；

2)对每个句子进行分词，以Word2Vec词向量均值作为句子语义表示；

3)计算句子相似度矩阵；

4)根据TextRank迭代公式求解每个句子的重要性得分并按从高到低排序；

5)取重要性得分最高的若干句子组成一篇候选文档。

所述自候选文档中采样语句以生成讲稿段落内容包括如下步骤：

1)段落句集初始化为空；

2)在数据库中查询本段落关键词对应的所有候选文档；

3)从候选文档集中随机采样一篇候选文档，并将该候选文档从候选文档集中移除；

4)从步骤3)选择的候选文档中，随机采样一个句子加入本段落句集；

5)判断段落句集内的字数是否达到最大限制，如果是，结束流程，逐次拼接段落句集中句子输出段落内容；否则进行步骤6)；

6)判断前一个被采样到的句子是否为所属候选文档的尾句，如果是，返回步骤3)；否则进行步骤7)；

7)以预定的概率p继续从当前候选文档中位于前一个被选到的句子后的内容里采样下一个句子加入段落句集，以概率1-p跳出当前文档，返回步骤3)。

一种电子设备，包括：

处理器；以及

存有处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令实现任一所述方法。

一种计算机可读存储介质，所述可读存储介质存储有计算机指令，所述指令被处理器运行时实现任一所述方法的步骤。

一种自动化生成讲稿的系统，所述系统包括：

网络爬虫模块，所述网络爬虫模块根据讲稿的主题词自互连网获取相关文本；

信息抽取模块，所述信息抽取模块处理所述文本以生成按照关键词分类的候选文档；以及

讲稿生成模块，所述讲稿生成模块根据讲稿段落预先设定的关键词找到相对应的多个候选文档，自候选文档中采样语句以生成讲稿段落内容。

与现有技术相比，本发明的有益效果为：快速生成高质量、可读性好、且具备一定篇幅的自然语言文本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例整体的流程示意图。

图2为信息抽取模块的流程示意图。

图3为讲稿生成模块的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，本发明实施例首先从网络上大量讲稿范文及新闻时事语料中抽取对应主题下的重要信息储存至数据库，然后根据用户的配置采取规则和采样相结合的方式从表达特定主题和关键词的候选文档中挑选出合适的句子组合成段落，拼接段落组成讲稿，在模块设计上包括：

1)网络爬虫模块，根据主题词及URLs下载原始语料；

2)信息抽取模块，从非结构化文本中提取关键信息；

3)讲稿生成模块，采样文档和语句生成文章。

用户提供的输入主要包括：讲稿主题、各段落的关键词及字数。系统依次启动爬虫模块(可选)、抽取模块(可选)及生成模块，最后返回讲稿生成结果。

网络爬虫模块

用户可自行添加主题词以及与主题词相关的网页URLs，启用爬虫模块定期更新语料库。下载到的纯文本以XML格式存储，通过一定规则匹配为每个纯文本赋予特定关键词，该过程也可以由标注人员完成。

爬虫模块接收的输入包括：主题词、URLs以及关键词匹配规则，输出为包含主题词与关键词信息的文本。

信息抽取模块

信息抽取模块主要用于提取前一步获得的语料中的重要信息。对每一篇文本，采用Word2Vec+TextRank算法保留重要性分值最高的若干句子，作为表达该主题关键词的一篇候选文档。

TextRank是一种图算法，将段落中每个句子视作图的一个节点，若两个句子之间有相似性，认为对应的两个节点之间有一条无向有权边，权值是句子相似度。基于该图进行消息传递达到稳态(设定一个阈值，当本轮迭代后的节点分值相对上一轮的分数的变换量绝对值低于该阈值时，可以认为达到平稳状态)时便得到每个句子的重要性分值，句子得分的迭代计算公式如下：

在刻画句子相似度w_ji上，原TextRank算法以共现词的数量为基准。例如，节点v_i和v_j的相似度由下式计算：

本系统抽取模块引入Word2Vec预训练词向量，以两个句子特征表示间的夹角余弦作为相似度，在有先验知识的条件下以期获得更优效果：

信息抽取模块接收的输入包括带有主题词及关键词信息的文本，输出为压缩后的文本，主要步骤如下：

对原文本进行分句；

对每个句子进行分词，以Word2Vec词向量均值作为该句语义表示；

计算句子相似度矩阵；

根据TextRank迭代公式求解每个句子的重要性得分并按从高到低排序；

取Top-N个句子组成一篇文档。

讲稿生成模块

生成模块用于解析用户配置，包括选择的主题、为每个段落选择的关键词、段落字数等，输出由各段落组成的讲稿篇章。其中，段落生成按以下步骤进行：

1)段落句子集合初始化为空；

2)在数据库中查询本段落关键词对应的所有候选文档；

3)从候选文档集中随机采样一篇文档，并将该文档从候选文档集中移除；

4)从步骤3)选择的文档中，随机采样一个句子加入本段落句子集合；

5)判断段落句集内的字数是否达到最大限制，如果是，结束流程，逐次拼接集合中句子输出段落内容；否则进行步骤6)；

6)判断前一个被采样到的句子是否为所属文档的尾句，如果是，返回步骤3)；否则进行步骤7)；

以概率p继续从当前文档中位于前一个被选到的句子后的内容里采样下一个句子加入段落句集，以概率1-p跳出当前文档，返回步骤3)；

进一步地，用户输入讲稿主题，包含一个自然段，确定段落关键词，字数为300。接下来进行如下操作：

1)选择是否启动爬虫模块获取与该主题相关的语料，通过在一些搜索引擎中检索主题词，抓取返回结果中URLs，或由用户自行指定。下载到表达该主题的语料后，根据一些规则映射将其划分到特定的关键词下；

2)选择是否启动信息抽取模块从1)中的语料里提取关键信息。

将获得的片段作为一篇用于讲稿生成的候选文档，同其主题词、关键词信息一道写入数据库；

3)启动讲稿生成模块以段落为单位进行文本生成。由于本例只有一个段落，因此从数据库中查询所有具有与用户输入主题、关键词均相同的文档，采样文档及句子拼接成段落，作为讲稿生成的结果输出。

尽管上述实施例已对本发明作出具体描述，但是对于本领域的普通技术人员来说，应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进，这些修改和改进都在本发明的精神以及范围之内。

Claims

1.一种自动化生成讲稿的方法，其特征在于，所述方法包括如下步骤：根据讲稿的主题词自互连网获取相关文本，处理所述文本以生成按照关键词分类的候选文档，根据讲稿段落预先设定的关键词找到相对应的多个候选文档，自候选文档中采样语句以生成讲稿段落内容。

2.根据权利要求1所述的自动化生成讲稿的方法，其特征在于，所述处理所述文本包括：结合Word2Vec和TextRank算法保留所述文本中重要性分值最高的若干句子，作为一篇候选文档。

3.根据权利要求2所述的自动化生成讲稿的方法，其特征在于，所述处理所述文本包括如下步骤：

1)对文本进行分句；

3)计算句子相似度矩阵；

5)取重要性得分最高的若干句子组成一篇候选文档。

4.根据权利要求1所述的自动化生成讲稿的方法，其特征在于，所述自候选文档中采样语句以生成讲稿段落内容包括如下步骤：

1)段落句集初始化为空；

2)在数据库中查询本段落关键词对应的所有候选文档；

5.一种电子设备，其特征在于，包括：

处理器；以及

存有处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令实现权利要求1-4中任一所述方法。

6.一种计算机可读存储介质，其特征在于，所述可读存储介质存储有计算机指令，所述指令被处理器运行时实现权利要求1-4中任一所述方法的步骤。

7.一种自动化生成讲稿的系统，其特征在于，所述系统包括：