CN112632950A - Ppt生成方法、装置、设备及计算机可读存储介质 - Google Patents

Ppt生成方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112632950A
CN112632950A CN202011644169.2A CN202011644169A CN112632950A CN 112632950 A CN112632950 A CN 112632950A CN 202011644169 A CN202011644169 A CN 202011644169A CN 112632950 A CN112632950 A CN 112632950A
Authority
CN
China
Prior art keywords
ppt
target
content
text content
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011644169.2A
Other languages
English (en)
Inventor
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011644169.2A priority Critical patent/CN112632950A/zh
Publication of CN112632950A publication Critical patent/CN112632950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语义解析,提供一种PPT生成方法、装置、设备及计算机可读存储介质。本发明先根据目标文字内容自动确定出其主题类型,便于初步确定最终需要生成的PPT的主题类型;通过分析目标文字内容的内在语义得到内容标签,使得能够进一步挖掘出目标文字内容的内在语义;通过将主题类型与内容标签相结合来筛选出匹配的目标PPT模板,使得筛选出来的目标PPT模板高度适配于目标文字内容;最后基于目标文字内容和目标PPT模板自动生成用户所需的目标PPT,无需人为操作即可自动生成符合用户预期的目标PPT文件,从而大大提高了PPT的生成效率。此外,本发明还涉及区块链技术,上述目标PPT可存储于区块链中。

Description

PPT生成方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种PPT生成方法、装置、设备及计算机可读存储介质。
背景技术
目前在网页上生成一个PPT文件主要有两种方式。第一种,静态PPT下载。这种方式是通过预先制作好PPT文件,然后将其上传至系统中。当有用户点击下载时,即可下载到预先制作好的PPT文件。但通过这种方式下载得到的PPT文件,无论是哪个用户下载,或是下载多少次,所能够得到的PPT文件都固定不变,也即是PPT的内容和模板不会变化。第二种,动态PPT下载。这种方式是用户在页面上选择PPT模板,再在页面表单上填写PPT模板中空白处对应的内容,最后由系统进行合成,即可生成用户所需的PPT文件,也即是PPT的内容和模板都可以由用户基于实际需求任意搭配。但用户采用这种方式进行PPT制作时,需要全程人工填写内容且需要特别注意自己所填的内容与模板中空白处内容的对应关系,一旦填错就会生成不符合预期的PPT文件。上述种种情况均反映出现有的PPT生成方式效率低下的技术问题。
发明内容
本发明的主要目的在于提供一种PPT生成方法、装置、设备及计算机可读存储介质,旨在解决现有的PPT生成方式效率低下的技术问题。
为实现上述目的,本发明提供一种PPT生成方法,所述PPT生成方法包括以下步骤:
获取目标文字内容,确定出所述目标文字内容的主题类型;
分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;
结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。
可选地,所述分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签,包括:
利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量;
将所述词向量、位置向量与邻接语义向量作为所述内在语义,输入预训练语言模型,得到所述内在语义对应的内容标签。
可选地,所述利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量,包括:
利用预设word2vec模型获取所述词向量,并利用预设transformer模型中的正弦波获取所述位置向量;
基于所述TF-IDF算法与命名实体识别技术,得到用于获取所述目标文字内容的邻接语义向量的目标备选词集合;
基于预设长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述目标文字内容的邻接语义向量。
可选地,所述结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,包括:
从所述PPT模板库中确定出与所述主题类型对应的初始PPT模板,并获取所述初始PPT模板的版块标题;
将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板。
可选地,所述将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板,包括:
获取所述内容标签与所述版块标题的相似度,将所述相似度超出预设相似度阈值的版块标题对应的初始PPT模板作为待选PPT模板;
根据所述内容标签将所述目标文字内容划分为若干文字区域,并将每一所述文字区域与所述待选PPT模板的相应版块进行关联;
获取每一所述文字区域的字数以及所述相应版块的字数容量,以将与每一所述文字区域的字数相匹配的字数容量对应的待选PPT模板作为所述目标PPT模板。
可选地,所述获取目标文字内容,确定所述目标文字内容的主题类型,包括:
在接收到PPT生成指令时,基于所述PPT生成指令获取原始文件,并提取出所述原始文件中的目标文字内容;
利用预训练的文档主题生成模型,得到所述目标文字内容的主题类型。
可选地,所述基于所述目标文字内容与所述目标PPT模板生成目标PPT,包括:
将所述目标文字内容对应到所述目标PPT模板的相应版块中,并结合所述目标文字内容与所述目标PPT模板渲染合成目标PPT,其中,所述目标PPT存储于区块链中。
此外,为实现上述目的,本发明还提供一种PPT生成装置,所述PPT生成装置包括:
主题类型确定模块,用于获取目标文字内容,确定所述目标文字内容的主题类型;
内容标签生成模块,用于分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;
目标PPT生成模块,用于结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。
可选地,所述内容标签生成模块包括:
邻接语义获取单元,用于利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量;
内在语义获取单元,用于将所述词向量、位置向量与邻接语义向量作为所述内在语义,输入预训练语言模型,得到所述内在语义对应的内容标签。
可选地,所述邻接语义获取单元还用于:
利用预设word2vec模型获取所述词向量,并利用预设transformer模型中的正弦波获取所述位置向量;
基于所述TF-IDF算法与命名实体识别技术,得到用于获取所述目标文字内容的邻接语义向量的目标备选词集合;
基于预设长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述目标文字内容的邻接语义向量。
可选地,所述目标PPT生成模块包括:
版块标题获取单元,用于从所述PPT模板库中确定出与所述主题类型对应的初始PPT模板,并获取所述初始PPT模板的版块标题;
目标模板获取单元,用于将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板。
可选地,所述目标模板获取单元还用于:
待选模块确定单元,用于获取所述内容标签与所述版块标题的相似度,将所述相似度超出预设相似度阈值的版块标题对应的初始PPT模板作为待选PPT模板;
区域版块确定单元,用于根据所述内容标签将所述目标文字内容划分为若干文字区域,并将每一所述文字区域与所述待选PPT模板的相应版块进行关联;
目标模板确定单元,用于获取每一所述文字区域的字数以及所述相应版块的字数容量,以将与每一所述文字区域的字数相匹配的字数容量对应的待选PPT模板作为所述目标PPT模板。
可选地,所述主题类型确定模块包括:
目标内容提取单元,用于在接收到PPT生成指令时,基于所述PPT生成指令获取原始文件,并提取出所述原始文件中的目标文字内容;
文字主题利用预训练的文档主题生成模型,得到所述目标文字内容的主题类型。
可选地,所述目标PPT生成模块包括:
渲染合成单元,用于将所述目标文字内容对应到所述目标PPT模板的相应版块中,并结合所述目标文字内容与所述目标PPT模板渲染合成目标PPT,其中,所述目标PPT存储于区块链中。
此外,为实现上述目的,本发明还提供一种PPT生成设备,所述PPT生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的PPT生成程序,其中所述PPT生成程序被所述处理器执行时,实现如上述的PPT生成方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有PPT生成程序,其中所述PPT生成程序被处理器执行时,实现如上述的PPT生成方法的步骤。
本发明提供一种PPT生成方法、装置、设备及计算机可读存储介质,所述PPT生成方法先根据目标文字内容自动确定出其主题类型,便于初步确定最终需要生成的PPT的主题类型;通过分析目标文字内容的内在语义得到内容标签,使得能够进一步挖掘出目标文字内容的内在语义;通过将主题类型与内容标签相结合来筛选出匹配的目标PPT模板,使得筛选出来的目标PPT模板高度适配于目标文字内容;最后基于目标文字内容和目标PPT模板自动生成用户所需的目标PPT,无需人为操作即可自动生成符合用户预期的PPT文件,从而解决了现有的PPT生成方式效率低下的技术问题。
附图说明
图1为本发明实施例方案中涉及的PPT生成设备的硬件结构示意图;
图2为本发明PPT生成方法第一实施例的流程示意图;
图3为本发明PPT生成装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的PPT生成方法主要应用于PPT生成设备,该PPT生成设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的PPT生成设备的硬件结构示意图。本发明实施例中,PPT生成设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对PPT生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及PPT生成程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的PPT生成程序,并执行本发明实施例提供的PPT生成方法。
基于上述硬件结构,提出本发明PPT生成方法的各个实施例。
目前在网页上生成一个PPT文件主要有两种方式。第一种,静态PPT下载。这种方式是通过预先制作好PPT文件,然后将其上传至系统中。当有用户点击下载时,即可下载到预先制作好的PPT文件。但通过这种方式下载得到的PPT文件,无论是哪个用户下载,或是下载多少次,所能够得到的PPT文件都固定不变,也即是PPT的内容和模板不会变化。第二种,动态PPT下载。这种方式是用户在页面上选择PPT模板,再在页面表单上填写PPT模板中空白处对应的内容,最后由系统进行合成,即可生成用户所需的PPT文件,也即是PPT的内容和模板都可以由用户基于实际需求任意搭配。但用户采用这种方式进行PPT制作时,需要全程人工填写内容且需要特别注意自己所填的内容与模板中空白处内容的对应关系,一旦填错就会生成不符合预期的PPT文件。上述种种情况均反映出现有的PPT生成方式效率低下的技术问题。
为解决上述问题,本发明提供一种PPT生成方法,即先根据目标文字内容自动确定出其主题类型,便于初步确定最终需要生成的PPT的主题类型;通过分析目标文字内容的内在语义得到内容标签,使得能够进一步挖掘出目标文字内容的内在语义;通过将主题类型与内容标签相结合来筛选出匹配的目标PPT模板,使得筛选出来的目标PPT模板高度适配于目标文字内容;最后基于目标文字内容和目标PPT模板自动生成用户所需的目标PPT,无需人为操作即可自动生成符合用户预期的PPT文件,从而解决了现有的PPT生成方式效率低下的技术问题。
参照图2,图2为本发明PPT生成方法第一实施例的流程示意图。
本发明第一实施例提供一种PPT生成方法,所述PPT生成方法包括以下步骤:
步骤S10,获取目标文字内容,确定出所述目标文字内容的主题类型;
在本实施例中,本方法应用于终端。目标文字内容为用户确定的需要放在PPT中进行展示的文字内容。在实际情况下,该文字内容可以呈现在文本、图片、PDF文件等不同类型的文件中,需要终端对其进行提取。主题类型指的是目标文字内容所反映的内容主题,例如,常见的主题类型有工作总结、年度汇报、培训分享等。
用户可通过上传包含目标文字内容的文件,或是在页面指定位置编辑输入目标文字内容等的方式将目标文字内容发送给终端,终端在提取到或是直接获取到用于生成PPT的目标文字内容后,可通过寻找关键词的方式,或是将目标文字内容输入预训练模型的方式确定出目标文字内容的主题类型。寻找关键词的方式具体可为:将常见的主题类型作为预设关键词,在目标文字内容中寻找是否存在一个或多个预设关键词,若仅存在一个预设关键词,则将此预设关键词作为该目标文字内容的主题类型;若存在多个预设关键词,则优先选择出现频率高的预设关键词作为该目标文字内容的主题类型。后一种方式将在第三实施例中详细介绍,在此不做赘述。
步骤S20,分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;
在本实施例中,内在语义包括目标文字内容中词语、句子、以及不同句子之间的语义信息。内容标签为能够表明目标文字内容的内在语义的关键词或是关键词组。常见的内容标签可为产品名称、工作规划、历史回顾、感谢致辞等。
终端在获取到目标文字内容后,除了要确定其主题类型之外,还需要对其内在语义进行分析,并将分析得出的内在语义凝练成一个或多个内容标签。具体的内在语义分析方式通常采用自然语言处理的相关算法和/或模型对目标文字内容从词语层面到句子层面再到跨句层面深度挖掘语义信息,然后终端再将挖掘出的内在语义转化成一个或多个关键词,作为能够示意目标文字内容的内在语义的内容标签。
需要说明的是,由于一份目标文字内容中通常会表达多重含义,也即是通常需要标记多个内容标签,因此可根据内容标签将同一份目标文字内容中封袋文字进行区域划分,每一区域文字与一个内容标签相关联。
步骤S30,结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。
在本实施例中,预设PPT模板库可为存储在本地的PPT模板库,也可为需要联网访问的PPT模板库。预设PPT模板库中预存有常用的PPT模板,每个PPT模板都会标明其适用的场景类别。目标PPT模板指的是最终选出的与当前的目标文字内容最相匹配的PPT模板。目标PPT指的是将目标文字内容适应性整合至目标PPT模板后所合成的能够满足用户预期的PPT文件。
终端在得到目标文字内容的主题类型与内容标签后,需要将两者结合,并以此为标准在预设的PPT模板库中进行筛选,以筛选出与目标文字内容最相匹配的PPT模板,也即是上述目标PPT模板。终端在确定出目标PPT模板后,即可将目标文字内容整合进目标PPT模板中,最终得到的PPT文件即为上述目标PPT。
需要说明的是,由于一个PPT中除了文字通常还存在图片、音频或者视频,因此在终端处理完成文字部分之后,用户可在目标PPT上进一步加工,将需要添加的图片、音频、视频等内容添加在目标PPT中,以对目标PPT进行完善。
在本实施例中,本发明通过获取目标文字内容,确定出所述目标文字内容的主题类型;分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。通过上述方式,本发明先根据目标文字内容自动确定出其主题类型,便于初步确定最终需要生成的PPT的主题类型;通过分析目标文字内容的内在语义得到内容标签,使得能够进一步挖掘出目标文字内容的内在语义;通过将主题类型与内容标签相结合来筛选出匹配的目标PPT模板,使得筛选出来的目标PPT模板高度适配于目标文字内容;最后基于目标文字内容和目标PPT模板自动生成用户所需的目标PPT,无需人为操作即可自动生成符合用户预期的PPT文件,从而解决了现有的PPT生成方式效率低下的技术问题。
进一步地,基于上述图2所示的第一实施例,提出本发明PPT生成方法的第二实施例。本实施例中,步骤S20包括:
利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量;
将所述词向量、位置向量与邻接语义向量作为所述内在语义,输入预训练语言模型,得到所述内在语义对应的内容标签。
在本实施例中,词频-逆文档频率算法即TF-IDF(term frequency–inversedocument frequency)算法,词向量通常可采用主流word2vec、glove等公开模型获取,位置向量通常可采用transformer里提到的正弦波获取。
终端使用TF-IDF算法,生成目标文字内容对应的TF-IDF属性队列。终端将目标文字内容转换为词向量矩阵,对每一词序列进行词性分析,得到目标文字内容对应的词性频率属性队列。终端使用命名实体识别技术,识别目标文字内容中每一语句序列的实体,并结合预设知识图谱三元组,得到目标文字内容对应的实体共现频率属性队列。终端结合TF-IDF属性队列、词性频率属性队列与实体共现频率属性队列,得到目标备选词集合。最后,终端即可将三类向量汇总作为目标文字内容对应的内在语义。最终每个词的输入向量为词向量、位置向量、邻接语义向量三者相加而成。终端将目标文字内容的内在语义直接作为预训练语言模型的输入,即可获得其对应的内容标签。
进一步地,所述利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量,包括:
利用预设word2vec模型获取所述词向量,并利用预设transformer模型中的正弦波获取所述位置向量;
基于所述TF-IDF算法与命名实体识别技术,得到用于获取所述目标文字内容的邻接语义向量的目标备选词集合;
基于预设长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述目标文字内容的邻接语义向量。
在本实施例中,用主流word2vec模型获取词向量,可采用transformer里提到的正弦波获取位置向量,以上两类向量的获取方式均为本领域的常规技术手段。具体获取过程在此不做赘述。
由于每个句子中的单词的重要程度是不一样的,终端对句子中每个单词计算邻接语义向量的开销很大,因此设置目标备选计算词集合,以对单词进行筛选。终端对于目标备选计算词集合的计算主要过程为:
对语料采取操作,去除停用词、助词、感叹词;具体地,设目标文字内容中第i个句子为Xi,句子Xi中的第j个单词标记为Xij。统计每个句子Xi中单词出现频率和逆文档频率,即TF-IDF,按照从低到高排序,形成TF-IDF属性队列,队列中位置ID从1开始计数,下一个位置依次加1。对于TF-IDF值相等的单词,其在队列中的位置ID为同一个ID;对句子中每个单词Xij均进行词性分析,统计每种词性所占比例,按照从低到高排序,形成词性频率属性队列,队列中位置ID从1开始计数,下一个位置依次加1。对于词性频率相等的单词,其在队列中的位置ID为同一个ID;以知识图谱,实践中可以FreeBase等为参照,通过命名实体识别(NER,Named Entity Recognition)技术识别句子中的实体。统计句子中每个实体与其它实体共同出现在知识图谱三元组中的频率,从低到高排序,形成实体共现频率属性队列,队列中位置ID从1开始计数,下一个位置依次加1。对于共现频率相等的名词,其在实体共现频率属性队列中的位置ID为同一个ID;对句子中单词Xij,取其在上述三类属性队列中位置ID的乘积,并排序,得到最后的备选计算词队列,在训练过程中每一轮可设置不同阈值,例如20%,意为取前20%的单词进入目标备选计算词集合。
进一步地,所述结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,包括:
从所述PPT模板库中确定出与所述主题类型对应的初始PPT模板,并获取所述初始PPT模板的版块标题;
将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板。
在本实施例中,预设PPT模板库中预存有本领域常用的PPT模板,每个PPT模板都会标明对应的主题标签。通常一个PPT模板中会分为几大版块,每一版块会标明对应的版块标题,例如“标题”、“总结”、“规划”等。终端先利用目标文字内容的主题类型在PPT模板库中进行第一轮筛选,将符合主题类型的PPT模板作为初始PPT模板,然后再利用内容标签在初始PPT模板中进行第二轮筛选,将与内容标签相匹配的初始PPT模板作为目标PPT模板。上述目标PPT模板的个数可以为一个也可以为多个。
进一步地,所述将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板,包括:
获取所述内容标签与所述版块标题的相似度,将所述相似度超出预设相似度阈值的版块标题对应的初始PPT模板作为待选PPT模板;
根据所述内容标签将所述目标文字内容划分为若干文字区域,并将每一所述文字区域与所述待选PPT模板的相应版块进行关联;
获取每一所述文字区域的字数以及所述相应版块的字数容量,以将与每一所述文字区域的字数相匹配的字数容量对应的待选PPT模板作为所述目标PPT模板。
在本实施例中,以当前目标文字内容是一段年终总结演讲稿,主题类型为年终总结类型为例。终端则从PPT模板库中筛选出年终总结主体的PPT模板作为初始PPT模板。终端获取每一初始PPT模板中各大版块的标题,将版块标题与年终总结演讲稿的内容标签进行匹配。具体的匹配方式可为欧氏距离、余弦距离、哈密尔顿距离等相似度算法,以计算出两者之间的相似度。由于内容标签与版块标题通常为短文本,因此优选相似度算法为余弦相似度算法。以余弦相似度算法为例,首先终端需要对内容标签与版块标题进行分词,例如,终端首先可借助分词工具将内容标题分词得到分词列表1;同时将版块标题分词得到分词列表2,再将分词列表1与分词列表2放入同一集合中,分别计算内容标签与版块标题对于这一集合中的词的词频,以生成内容标签与版块标题各自的词频向量。终端最后计算内容标签与版块标题的两个词频向量之间的余弦相似度,值越大就表示越相似。终端将当前计算得到的两者之间的相似度与预设的相似度阈值进行比较,超出预设相似度阈值的配对即为相匹配的内容标签-版块标题对。例如,当前所得到的年终总结的内容标签包括:“产品名称”、“两个规划”、“主题”。而某一初始PPT模板中的版块标题包括:“标题(产品名称)”、“内容1(规划)”、“内容2(规划)”、“内容3(主题)”,则上述初始PPT模板即可与目标文字内容相匹配,作为目标PPT模板。在目标PPT模板不止一个时,终端可将多个目标模板显示出来,以供用户在此之中进行选择。
根据内容标签将目标文字内容划分为若干文字区域的具体方式为:将内容标签对应的内在语义在目标文字内容中映射的文字部分作为属于该内容标签对应的文字区域。例如,当前的目标文字内容共分为4个段落,且在步骤S21-S22中已得到目标文字内容的3个内容标签:产品名称、宣传规划与传播主题。在得到内容标签后,终端可将目标文字内容中参与内容标签提取的内容进行标记,例如,“产品名称”这一内容标签是基于第一段落得到,则将第一段落标记为第一文字区域;“宣传规划”这一内容标签是基于第二段落与第三段落得到,则将第二段落与第三段落标记为第二文字区域,“传播主题”这一内容标签是基于第四段落得到,则将第四段落标记为第三文字区域。在此终端只需识别先前的区域标注,即可直接得到各个内容标签在目标文字内容中所对应的文字区域。
而在终端识别出各个内容标签对应在目标文字内容中的各个文字区域后,建立各个文字区域与其对应内容标签相匹配的版块标题之间的映射关系,即可将各个文字区域对应到待选PPT模板的相应版块中。例如,与“产品名称”这一内容标签相匹配的版块标题为“标题名称”,与这一内容标签对应的文字区域为目标文字内容中第一段落,则建立第一段落与版块标题“标题名称”之间的映射关系,以将第一段落的文字内容划归到名称为“标题名称”的PPT版块中。
作为一种实施方式,终端还可根据目标文字内容的字数对PPT模板进一步进行筛选。例如,年终总结演讲稿一共500字,其中,“产品名称”标签对应的内容字数为20,“规划1”标签对应的内容字数为150字,“规划2”标签对应的字数为200,“主题”标签对应的内容字数为“130”。终端获取待选PPT模板中每一版块所能容纳的字数容量,选取目标文字内容中各标签对应内容字数占对应版块容量的70%-90%的待选模板作为目标PPT模板,以保证内容呈现的美观性,或是将所有待选PPT模板显示出来,将字数符合要求的PPT模板优先显示并对应显示推荐标识,以便向用户进行推荐。
进一步地,通过深入挖掘目标文字内容的词向量、位置向量与邻接语义向量,并将其结合作为内在语义,使得最终得到的内容标签能够更加准确地表示目标文字内容的实际含义;通过利用目标文字内容的主题类型、内容标签对PPT模板进行多轮筛选,使得最终所选出的PPT模板能够更加贴合目标文字内容;通过进一步考虑到PPT模板中每一版块的字数容量与目标文字内容的匹配性,使得最终所选出的目标PPT模板能够兼具美观性与实用性。
进一步地,基于上述图2所示的第一实施例,提出本发明PPT生成方法的第三实施例。本实施例中,步骤S10包括:
在接收到PPT生成指令时,基于所述PPT生成指令获取原始文件,并提取出所述原始文件中的目标文字内容;
利用预训练的文档主题生成模型,得到所述目标文字内容的主题类型。
在本实施例中,终端从文本文件中直接获取其中的文字内容作为上述目标文字内容,或是将其他格式的文件进行文本转换后再从中获取文字内容作为上述目标文字内容,再提取出目标文字内容中的关键词,根据关键词确定出目标文字内推的主题类型;或是直接将目标文字内容输入预训练的文档主题生成模型,由模型直接输出目标文字内容的主题类型。
具体地,终端接收PPT生成指令。其中,该指令可由用户基于实际需求在当前向终端所发起,也可为终端根据预设程序自动发起,本实施例不做具体限制。终端根据该指令确定出包含目标文字内容的原始文字内容文件,例如,用户可在页面上编辑一段文字,编辑完成后点击页面中的预设按键,终端即对应生成包含用户当前编辑文件的原始文字内容文件,用户点击按键即相当于向终端发送一PPT生成指令,终端在接收到该指令时,即可从该指令中获取,或是找到该指令所指向的原始文字内容文件。在原始文字内容文件为非文本文件时,将其进行格式转换,得到文本类型的原始文件,则可直接提取出原始文件中的文字内容。在此之前,终端可先收集大量的相关领域的带主题标签的文字材料作为训练数据集,以训练出适用于该领域的文档主题生成矩阵,然后即可将待识别的目标文字内容直接作为预训练模型的输入,模型即可直接输出目标文字内容所对应的文字主题。其中,文档主题生成模型(LDA,Latent Dirichlet Allocation),包含词、主题和文档三层结构。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。
进一步地,所述基于所述目标文字内容与所述目标PPT模板生成目标PPT,包括:
将所述目标文字内容对应到所述目标PPT模板的相应版块中,并结合所述目标文字内容与所述目标PPT模板渲染合成目标PPT,其中,所述目标PPT存储于区块链中。
在本实施例中,终端在确定出最终的目标PPT模板后,可根据上述已建立的各个文字区域与其对应内容标签相匹配的版块标题之间的映射关系,将文字区域中的文字复制到对应的版块中。例如,将目标文字内容中的第一段落的文字复制到“标题名称版块”;将第二段落的文字复制到“规划1”版块;将第三段落复制到“规划2”版块;将第四段落的文字复制到“主题总结”版块。终端可通过默认设置将其进行渲染合成,也可向用户提供可选样式,并根据用户的选择将其进行渲染合成,得到最终的目标PPT文件,需要说明的是,若最终生成的目标PPT文件为多个,则需要将其对比显示给用户,以供用户在其中进行挑选。
需要强调的是,为进一步保证上述目标PPT的私密和安全性,上述目标PPT还可以存储于一区块链的节点中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
进一步地,通过利用预训练的文档主题生成模型,使得能够快速准确得得到目标文字内容的主题类型,从而提高了主题类型的获取效率;通过结合目标文字内容与目标PPT模板渲染合成目标PPT,提高了PPT生成的效率以及自动化程度。
此外,如图3所示,为实现上述目的,本发明还提供一种PPT生成装置,所述PPT生成装置包括:
主题类型确定模块10,用于获取目标文字内容,确定所述目标文字内容的主题类型;
内容标签生成模块20,用于分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;
目标PPT生成模块30,用于结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。
本发明还提供一种PPT生成设备。
所述PPT生成设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的PPT生成程序,其中所述PPT生成程序被所述处理器执行时,实现如上所述的PPT生成方法的步骤。
其中,所述PPT生成程序被执行时所实现的方法可参照本发明PPT生成方法的各个实施例,此处不再赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有PPT生成程序,其中所述PPT生成程序被处理器执行时,实现如上述的PPT生成方法的步骤。
其中,PPT生成程序被执行时所实现的方法可参照本发明PPT生成方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种PPT生成方法,其特征在于,所述PPT生成方法包括:
获取目标文字内容,确定出所述目标文字内容的主题类型;
分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;
结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。
2.如权利要求1所述的PPT生成方法,其特征在于,所述分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签,包括:
利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量;
将所述词向量、位置向量与邻接语义向量作为所述内在语义,输入预训练语言模型,得到所述内在语义对应的内容标签。
3.如权利要求2所述的PPT生成方法,其特征在于,所述利用预设转换模型获取所述目标文字内容的词向量与位置向量,并基于TF-IDF算法分析所述目标文字内容的跨句语义,以得到所述目标文字内容的邻接语义向量,包括:
利用预设word2vec模型获取所述词向量,并利用预设transformer模型中的正弦波获取所述位置向量;
基于所述TF-IDF算法与命名实体识别技术,得到用于获取所述目标文字内容的邻接语义向量的目标备选词集合;
基于预设长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述目标文字内容的邻接语义向量。
4.如权利要求1所述的PPT生成方法,其特征在于,所述结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,包括:
从所述PPT模板库中确定出与所述主题类型对应的初始PPT模板,并获取所述初始PPT模板的版块标题;
将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板。
5.如权利要求4所述的PPT生成方法,其特征在于,所述将所述内容标签与所述版块标题进行匹配,以将所述内容标签相匹配的版块标题所在的初始PPT模板作为所述目标PPT模板,包括:
获取所述内容标签与所述版块标题的相似度,将所述相似度超出预设相似度阈值的版块标题对应的初始PPT模板作为待选PPT模板;
根据所述内容标签将所述目标文字内容划分为若干文字区域,并将每一所述文字区域与所述待选PPT模板的相应版块进行关联;
获取每一所述文字区域的字数以及所述相应版块的字数容量,以将与每一所述文字区域的字数相匹配的字数容量对应的待选PPT模板作为所述目标PPT模板。
6.如权利要求1所述的PPT生成方法,其特征在于,所述获取目标文字内容,确定所述目标文字内容的主题类型,包括:
在接收到PPT生成指令时,基于所述PPT生成指令获取原始文件,并提取出所述原始文件中的目标文字内容;
利用预训练的文档主题生成模型,得到所述目标文字内容的主题类型。
7.如权利要求1-6中任一项所述的PPT生成方法,其特征在于,所述基于所述目标文字内容与所述目标PPT模板生成目标PPT,包括:
将所述目标文字内容对应到所述目标PPT模板的相应版块中,并结合所述目标文字内容与所述目标PPT模板渲染合成目标PPT,其中,所述目标PPT存储于区块链中。
8.一种PPT生成装置,其特征在于,所述PPT生成装置包括:
主题类型确定模块,用于获取目标文字内容,确定所述目标文字内容的主题类型;
内容标签生成模块,用于分析所述目标文字内容的内在语义,并生成与所述内在语义对应的内容标签;
目标PPT生成模块,用于结合所述主题类型与所述内容标签,从预设PPT模板库中选择出与所述目标文字内容相匹配的目标PPT模板,以基于所述目标文字内容与所述目标PPT模板生成目标PPT。
9.一种PPT生成设备,其特征在于,所述PPT生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的PPT生成程序,其中所述PPT生成程序被所述处理器执行时,实现如权利要求1至7中任一项所述的PPT生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有PPT生成程序,其中所述PPT生成程序被处理器执行时,实现如权利要求1至7中任一项所述的PPT生成方法的步骤。
CN202011644169.2A 2020-12-31 2020-12-31 Ppt生成方法、装置、设备及计算机可读存储介质 Pending CN112632950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011644169.2A CN112632950A (zh) 2020-12-31 2020-12-31 Ppt生成方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011644169.2A CN112632950A (zh) 2020-12-31 2020-12-31 Ppt生成方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112632950A true CN112632950A (zh) 2021-04-09

Family

ID=75291011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011644169.2A Pending CN112632950A (zh) 2020-12-31 2020-12-31 Ppt生成方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112632950A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268971A (zh) * 2021-06-23 2021-08-17 中国平安人寿保险股份有限公司 演示报告智能生成方法、装置、计算机设备及存储介质
CN115994527A (zh) * 2023-03-23 2023-04-21 广东聚智诚科技有限公司 一种基于机器学习的ppt自动生成系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268971A (zh) * 2021-06-23 2021-08-17 中国平安人寿保险股份有限公司 演示报告智能生成方法、装置、计算机设备及存储介质
CN115994527A (zh) * 2023-03-23 2023-04-21 广东聚智诚科技有限公司 一种基于机器学习的ppt自动生成系统

Similar Documents

Publication Publication Date Title
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
WO2020103899A1 (zh) 用于生成图文信息的方法和用于生成图像数据库的方法
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
US20150331847A1 (en) Apparatus and method for classifying and analyzing documents including text
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
JP2020005309A (ja) 動画編集サーバおよびプログラム
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
WO2019245033A1 (ja) 動画編集サーバおよびプログラム
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
JP2020065307A (ja) サーバおよびプログラム、動画配信システム
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2022187507A (ja) 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム
CN117436417A (zh) 演示文稿生成方法、装置、电子设备和存储介质
CN110888940B (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN114564938A (zh) 文档的解析方法及装置、存储介质和处理器
CN107665442A (zh) 获取目标用户的方法及装置
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법
JP2020108162A (ja) サーバおよびプログラム
KR102435244B1 (ko) 음성 정보의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 장치
US11995394B1 (en) Language-guided document editing
US20240152695A1 (en) Automatically generating graphic design variants from input text
CN115022668B (zh) 基于直播的视频生成方法和装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination