CN111859950A - 一种自动化生成讲稿的方法 - Google Patents

一种自动化生成讲稿的方法 Download PDF

Info

Publication number
CN111859950A
CN111859950A CN202010559615.3A CN202010559615A CN111859950A CN 111859950 A CN111859950 A CN 111859950A CN 202010559615 A CN202010559615 A CN 202010559615A CN 111859950 A CN111859950 A CN 111859950A
Authority
CN
China
Prior art keywords
lecture
sentence
paragraph
candidate
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010559615.3A
Other languages
English (en)
Inventor
王子奕
王文广
陈运文
贺梦洁
王忠萌
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Tech Inc
Original Assignee
Datagrand Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Tech Inc filed Critical Datagrand Tech Inc
Priority to CN202010559615.3A priority Critical patent/CN111859950A/zh
Publication of CN111859950A publication Critical patent/CN111859950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动化生成讲稿的方法,所述方法包括如下步骤:根据讲稿的主题词自互连网获取相关文本,处理所述文本以生成按照关键词分类的候选文档,根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。本发明快速生成高质量、可读性好、且具备一定篇幅的自然语言文本。

Description

一种自动化生成讲稿的方法
技术领域
本发明属于文本处理领域,具体涉及一种自动化生成讲稿的方法。
背景技术
随着自然语言理解的迅速发展,研究者越来越多地将目光投向文本生成这一自然语言处理的核心领域上。从任务输入的角度来看,文本生成大致可以分为从文本到文本的生成、从意义到文本的生成、从数据到文本的生成和从图像到文本的生成四大类。讲稿生成在多数场景下更接近于第二、三类,只需要使用者提供少量输入信息,系统便能自动生成满足约束条件的文本。
与过滤冗余成分、保留重要信息的句子压缩任务不同,讲稿生成的输入往往只包含极少语义片段,而输出结果要求是高质量、可读性好、且具备一定篇幅的自然语言文本,该项技术的挑战性不言而喻。仅从用户输入中提取语义表示在解决这类问题上显得十分无力,因此通常要借助大量外部信息。
模板法是讲稿生成中常用的方法,预留出供用户填充的讲稿片段,能够快速实现文本生成,但维护大量模板对人力需求较高,且主题的多变使得生成内容的多样化依旧难以得到保证。而基于深度学习的生成模型本身具有解码效率低、结果不可控等缺陷,同时实践中往往只有少量特定领域的标注数据,监督学习收效不高。
发明内容
针对现有技术中存在的问题,本发明提供一种自动化生成讲稿的方法,本发明部分实施例能够通过从大量语料中抽取契合给定主题与关键词的句子组织成完整篇章,不仅在一定程度克服了传统模板法带来的多样性缺失难题,也解决了生成式模型造成的输出结果不可控的问题。本发明包含以下步骤:S1.启动爬虫模块请求指定URLs下载原始语料;S2.从语料中抽取得分最高的若干句子,通过一定的规则映射到预设主题关键词下作为一篇候选文档存入数据库;S3.根据用户配置信息解析讲稿主题、段落关键词、段落字数等参数,在一定的约束条件下随机采样候选文档和候选句子组成段落,再拼接段落作为最终讲稿输出。
为实现上述目的,本发明采用以下技术方案:
一种自动化生成讲稿的方法,所述方法包括如下步骤:
根据讲稿的主题词自互连网获取相关文本,处理所述文本以生成按照关键词分类的候选文档,根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。
所述处理所述文本包括:结合Word2Vec和TextRank算法保留所述文本中重要性分值最高的若干句子,作为一篇候选文档
所述处理所述文本包括如下步骤:
1)对文本进行分句;
2)对每个句子进行分词,以Word2Vec词向量均值作为句子语义表示;
3)计算句子相似度矩阵;
4)根据TextRank迭代公式求解每个句子的重要性得分并按从高到低排序;
5)取重要性得分最高的若干句子组成一篇候选文档。
所述自候选文档中采样语句以生成讲稿段落内容包括如下步骤:
1)段落句集初始化为空;
2)在数据库中查询本段落关键词对应的所有候选文档;
3)从候选文档集中随机采样一篇候选文档,并将该候选文档从候选文档集中移除;
4)从步骤3)选择的候选文档中,随机采样一个句子加入本段落句集;
5)判断段落句集内的字数是否达到最大限制,如果是,结束流程,逐次拼接段落句集中句子输出段落内容;否则进行步骤6);
6)判断前一个被采样到的句子是否为所属候选文档的尾句,如果是,返回步骤3);否则进行步骤7);
7)以预定的概率p继续从当前候选文档中位于前一个被选到的句子后的内容里采样下一个句子加入段落句集,以概率1-p跳出当前文档,返回步骤3)。
一种电子设备,包括:
处理器;以及
存有处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令实现任一所述方法。
一种计算机可读存储介质,所述可读存储介质存储有计算机指令,所述指令被处理器运行时实现任一所述方法的步骤。
一种自动化生成讲稿的系统,所述系统包括:
网络爬虫模块,所述网络爬虫模块根据讲稿的主题词自互连网获取相关文本;
信息抽取模块,所述信息抽取模块处理所述文本以生成按照关键词分类的候选文档;以及
讲稿生成模块,所述讲稿生成模块根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。
与现有技术相比,本发明的有益效果为:快速生成高质量、可读性好、且具备一定篇幅的自然语言文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例整体的流程示意图。
图2为信息抽取模块的流程示意图。
图3为讲稿生成模块的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,本发明实施例首先从网络上大量讲稿范文及新闻时事语料中抽取对应主题下的重要信息储存至数据库,然后根据用户的配置采取规则和采样相结合的方式从表达特定主题和关键词的候选文档中挑选出合适的句子组合成段落,拼接段落组成讲稿,在模块设计上包括:
1)网络爬虫模块,根据主题词及URLs下载原始语料;
2)信息抽取模块,从非结构化文本中提取关键信息;
3)讲稿生成模块,采样文档和语句生成文章。
用户提供的输入主要包括:讲稿主题、各段落的关键词及字数。系统依次启动爬虫模块(可选)、抽取模块(可选)及生成模块,最后返回讲稿生成结果。
网络爬虫模块
用户可自行添加主题词以及与主题词相关的网页URLs,启用爬虫模块定期更新语料库。下载到的纯文本以XML格式存储,通过一定规则匹配为每个纯文本赋予特定关键词,该过程也可以由标注人员完成。
爬虫模块接收的输入包括:主题词、URLs以及关键词匹配规则,输出为包含主题词与关键词信息的文本。
信息抽取模块
信息抽取模块主要用于提取前一步获得的语料中的重要信息。对每一篇文本,采用Word2Vec+TextRank算法保留重要性分值最高的若干句子,作为表达该主题关键词的一篇候选文档。
TextRank是一种图算法,将段落中每个句子视作图的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一条无向有权边,权值是句子相似度。基于该图进行消息传递达到稳态(设定一个阈值,当本轮迭代后的节点分值相对上一轮的分数的变换量绝对值低于该阈值时,可以认为达到平稳状态)时便得到每个句子的重要性分值,句子得分的迭代计算公式如下:
Figure RE-GDA0002658054870000051
在刻画句子相似度wji上,原TextRank算法以共现词的数量为基准。例如,节点vi和vj的相似度由下式计算:
Figure RE-GDA0002658054870000061
本系统抽取模块引入Word2Vec预训练词向量,以两个句子特征表示间的夹角余弦作为相似度,在有先验知识的条件下以期获得更优效果:
Figure RE-GDA0002658054870000062
Figure RE-GDA0002658054870000063
Figure RE-GDA0002658054870000064
信息抽取模块接收的输入包括带有主题词及关键词信息的文本,输出为压缩后的文本,主要步骤如下:
对原文本进行分句;
对每个句子进行分词,以Word2Vec词向量均值作为该句语义表示;
计算句子相似度矩阵;
根据TextRank迭代公式求解每个句子的重要性得分并按从高到低排序;
取Top-N个句子组成一篇文档。
讲稿生成模块
生成模块用于解析用户配置,包括选择的主题、为每个段落选择的关键词、段落字数等,输出由各段落组成的讲稿篇章。其中,段落生成按以下步骤进行:
1)段落句子集合初始化为空;
2)在数据库中查询本段落关键词对应的所有候选文档;
3)从候选文档集中随机采样一篇文档,并将该文档从候选文档集中移除;
4)从步骤3)选择的文档中,随机采样一个句子加入本段落句子集合;
5)判断段落句集内的字数是否达到最大限制,如果是,结束流程,逐次拼接集合中句子输出段落内容;否则进行步骤6);
6)判断前一个被采样到的句子是否为所属文档的尾句,如果是,返回步骤3);否则进行步骤7);
以概率p继续从当前文档中位于前一个被选到的句子后的内容里采样下一个句子加入段落句集,以概率1-p跳出当前文档,返回步骤3);
进一步地,用户输入讲稿主题,包含一个自然段,确定段落关键词,字数为300。接下来进行如下操作:
1)选择是否启动爬虫模块获取与该主题相关的语料,通过在一些搜索引擎中检索主题词,抓取返回结果中URLs,或由用户自行指定。下载到表达该主题的语料后,根据一些规则映射将其划分到特定的关键词下;
2)选择是否启动信息抽取模块从1)中的语料里提取关键信息。
将获得的片段作为一篇用于讲稿生成的候选文档,同其主题词、关键词信息一道写入数据库;
3)启动讲稿生成模块以段落为单位进行文本生成。由于本例只有一个段落,因此从数据库中查询所有具有与用户输入主题、关键词均相同的文档,采样文档及句子拼接成段落,作为讲稿生成的结果输出。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。

Claims (7)

1.一种自动化生成讲稿的方法,其特征在于,所述方法包括如下步骤:根据讲稿的主题词自互连网获取相关文本,处理所述文本以生成按照关键词分类的候选文档,根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。
2.根据权利要求1所述的自动化生成讲稿的方法,其特征在于,所述处理所述文本包括:结合Word2Vec和TextRank算法保留所述文本中重要性分值最高的若干句子,作为一篇候选文档。
3.根据权利要求2所述的自动化生成讲稿的方法,其特征在于,所述处理所述文本包括如下步骤:
1)对文本进行分句;
2)对每个句子进行分词,以Word2Vec词向量均值作为句子语义表示;
3)计算句子相似度矩阵;
4)根据TextRank迭代公式求解每个句子的重要性得分并按从高到低排序;
5)取重要性得分最高的若干句子组成一篇候选文档。
4.根据权利要求1所述的自动化生成讲稿的方法,其特征在于,所述自候选文档中采样语句以生成讲稿段落内容包括如下步骤:
1)段落句集初始化为空;
2)在数据库中查询本段落关键词对应的所有候选文档;
3)从候选文档集中随机采样一篇候选文档,并将该候选文档从候选文档集中移除;
4)从步骤3)选择的候选文档中,随机采样一个句子加入本段落句集;
5)判断段落句集内的字数是否达到最大限制,如果是,结束流程,逐次拼接段落句集中句子输出段落内容;否则进行步骤6);
6)判断前一个被采样到的句子是否为所属候选文档的尾句,如果是,返回步骤3);否则进行步骤7);
7)以预定的概率p继续从当前候选文档中位于前一个被选到的句子后的内容里采样下一个句子加入段落句集,以概率1-p跳出当前文档,返回步骤3)。
5.一种电子设备,其特征在于,包括:
处理器;以及
存有处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令实现权利要求1-4中任一所述方法。
6.一种计算机可读存储介质,其特征在于,所述可读存储介质存储有计算机指令,所述指令被处理器运行时实现权利要求1-4中任一所述方法的步骤。
7.一种自动化生成讲稿的系统,其特征在于,所述系统包括:
网络爬虫模块,所述网络爬虫模块根据讲稿的主题词自互连网获取相关文本;
信息抽取模块,所述信息抽取模块处理所述文本以生成按照关键词分类的候选文档;以及
讲稿生成模块,所述讲稿生成模块根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。
CN202010559615.3A 2020-06-18 2020-06-18 一种自动化生成讲稿的方法 Pending CN111859950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010559615.3A CN111859950A (zh) 2020-06-18 2020-06-18 一种自动化生成讲稿的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010559615.3A CN111859950A (zh) 2020-06-18 2020-06-18 一种自动化生成讲稿的方法

Publications (1)

Publication Number Publication Date
CN111859950A true CN111859950A (zh) 2020-10-30

Family

ID=72987421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010559615.3A Pending CN111859950A (zh) 2020-06-18 2020-06-18 一种自动化生成讲稿的方法

Country Status (1)

Country Link
CN (1) CN111859950A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733515A (zh) * 2020-12-31 2021-04-30 贝壳技术有限公司 文本生成方法、装置、电子设备及可读存储介质
CN116069936A (zh) * 2023-02-28 2023-05-05 北京朗知网络传媒科技股份有限公司 一种数码传媒文章的生成方法和装置
CN116611417A (zh) * 2023-05-26 2023-08-18 浙江兴旺宝明通网络有限公司 一种文章自动生成方法、系统、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
KR101508260B1 (ko) * 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
CN107077460A (zh) * 2014-09-30 2017-08-18 微软技术许可有限责任公司 结构化样本创作内容
CN110188349A (zh) * 2019-05-21 2019-08-30 清华大学深圳研究生院 一种基于抽取式多文档摘要方法的自动化写作方法
US20190354595A1 (en) * 2018-05-21 2019-11-21 Hcl Technologies Limited System and method for automatically summarizing documents pertaining to a predefined domain
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
KR101508260B1 (ko) * 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN107077460A (zh) * 2014-09-30 2017-08-18 微软技术许可有限责任公司 结构化样本创作内容
CN105183710A (zh) * 2015-06-23 2015-12-23 武汉传神信息技术有限公司 一种文档摘要自动生成的方法
US20190354595A1 (en) * 2018-05-21 2019-11-21 Hcl Technologies Limited System and method for automatically summarizing documents pertaining to a predefined domain
CN110188349A (zh) * 2019-05-21 2019-08-30 清华大学深圳研究生院 一种基于抽取式多文档摘要方法的自动化写作方法
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733515A (zh) * 2020-12-31 2021-04-30 贝壳技术有限公司 文本生成方法、装置、电子设备及可读存储介质
CN116069936A (zh) * 2023-02-28 2023-05-05 北京朗知网络传媒科技股份有限公司 一种数码传媒文章的生成方法和装置
CN116611417A (zh) * 2023-05-26 2023-08-18 浙江兴旺宝明通网络有限公司 一种文章自动生成方法、系统、计算机设备和存储介质
CN116611417B (zh) * 2023-05-26 2023-11-21 浙江兴旺宝明通网络有限公司 一种文章自动生成方法、系统、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN108538294B (zh) 一种语音交互方法及装置
CN111859950A (zh) 一种自动化生成讲稿的方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN112101041A (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN115048944A (zh) 一种基于主题增强的开放域对话回复方法及系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN116881425A (zh) 一种通用型文档问答实现方法、系统、设备及存储介质
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN111159405A (zh) 基于背景知识的讽刺检测方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112528653B (zh) 短文本实体识别方法和系统
CN110888976B (zh) 一种文本摘要生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination