CN111930976A - 演示文稿生成方法、装置、设备及存储介质 - Google Patents
演示文稿生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111930976A CN111930976A CN202010686330.6A CN202010686330A CN111930976A CN 111930976 A CN111930976 A CN 111930976A CN 202010686330 A CN202010686330 A CN 202010686330A CN 111930976 A CN111930976 A CN 111930976A
- Authority
- CN
- China
- Prior art keywords
- file
- processed
- demonstration
- presentation
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012545 processing Methods 0.000 claims description 52
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 19
- 230000002349 favourable effect Effects 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 230000008676 import Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000012736 patent blue V Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
- G06F16/4387—Presentation of query results by the use of playlists
- G06F16/4393—Multimedia presentations, e.g. slide shows, multimedia albums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
Abstract
本申请实施例公开了一种演示文稿生成方法、装置、设备及存储介质,其中,一种演示文稿方法包括:获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息,根据该至少两个关键词对待处理文件进行划分,得到至少两个文本片段;从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板;将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。在本方案中,可根据用户输入的文本信息生成目标演示文件,提高了演示文稿生成的效率。本申请涉及人工智能中的图像识别技术,同时本申请适用于智慧政务、智慧教育等领域,有利于推动智慧城市的建设。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种演示文稿生成方法、装置、设备及存储介质。
背景技术
随着办公软件的普遍推广,演示文稿被广泛应用于社会生活的方方面面,例如,演示文稿被应用于工作汇报、企业宣传、产品推介、婚礼庆典、项目竞标、管理咨询、教育培训等领域。目前,演示文稿的制作主要是通过人工将图片、文字等元素填充到预设的模板,但是,这种方式需要耗费较高的人力成本,而且在一些情况下模板与内容无法很好的融合,需要用户反复调整模板才能达到预期的效果,从而导致演示文稿生成效率较低。
发明内容
本申请实施例提供一种演示文稿方法、装置、设备及存储介质,可提高生成演示文稿的效率。
第一方面,本申请实施例提供了一种演示文稿方法,该方法包括:
获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
其中,所述特征属性信息包括所述待处理文件中的关键词的数量,所述从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板,包括:
根据所述待处理文件中的关键词的数量确定所述至少两个文本片段中的文本片段数量;
获取所述演示文件模板库中每个演示文件模板所包括的演示文稿的数量;
将所述演示文件模板库中所包括的演示文本的数量,与所述文本片段数量相同的演示文件模板,确定为所述目标演示文件模板。
其中,所述特征属性信息包括所述待处理文件的主题,所述从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板,包括:
获取所述演示文件模板库中的每个演示文件模板的主题;
分别确定所述演示文件模板库中的每个演示文件模板的主题,与所述待处理文件的主题之间的匹配度;
从所述演示文件模板库中选择匹配度最大的演示文件模板,作为所述目标演示文件模板。
其中,所述特征属性信息包括所述待处理文件所属的领域,所述从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板,包括:
根据所述待处理文件所属的领域,预测所述待处理文件对应的演示文件的属性信息,所述待处理文件对应的演示文件的属性信息包括所述待处理文件对应的演示文件的排版信息以及颜色信息;
获取所述演示文件模板库中每个演示文件模板的属性信息,所述每个演示文件模板的属性信息包括所述每个演示文件模板的排版信息以及颜色信息;
将所述演示文件模板库中演示文件模板的属性信息,与所述待处理文件对应的演示文件的属性信息匹配度最大的演示文件模板,确定为所述目标演示文件模板。
其中,所述将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件,包括:
获取所述至少两个文本片段中每个文本片段的关键词在所述待处理文件中的位置信息;
根据所述位置信息,对所述至少两个文本片段进行排序;
将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
其中,所述将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件,包括:
获取所述至少两个文本片段中每两个文本片段的关键词之间的从属关系;
根据所述从属关系,对所述至少两个文本片段进行排序;
将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
其中,所述将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件,包括:
获取所述至少两个文本片段中每个文本片段对应的文本特征信息;
根据所述每个文本片段对应的文本特征信息确定所述每个文本片段的预处理方式,所述预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种;
根据所述每个文本片段的预处理方式对所述每个文本片段进行处理,得到处理后的至少两个文本片段;
将所述处理后的至少两个文本片段导入至所述目标演示文件模板中,得到所述目标演示文件。
第二方面,本申请实施例提供了一种演示文稿生成装置,该装置包括:
获取模块,用于获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
划分模块,用于根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
识别模块,用于从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
导入模块,用于将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
其中,识别模块包括:
第一确定单元,用于根据所述待处理文件中的关键词的数量确定所述至少两个文本片段中的文本片段数量;
第一获取单元,用于获取所述演示文件模板库中每个演示文件模板所包括的演示文稿的数量;
第二确定单元,用于将所述演示文件模板库中所包括的演示文本的数量,与所述文本片段数量相同的演示文件模板,确定为所述目标演示文件模板。
其中,识别模块还包括:
第二获取单元,用于获取所述演示文件模板库中的每个演示文件模板的主题;
第三确定单元,用于分别确定所述演示文件模板库中的每个演示文件模板的主题,与所述待处理文件的主题之间的匹配度;
选择单元,用于从所述演示文件模板库中选择匹配度最大的演示文件模板,作为所述目标演示文件模板。
其中,所述识别模块还包括:
预测单元,用于根据所述待处理文件所属的领域,预测所述待处理文件对应的演示文件的属性信息,所述待处理文件对应的演示文件的属性信息包括所述待处理文件对应的演示文件的排版信息以及颜色信息;
第三获取单元,用于获取所述演示文件模板库中每个演示文件模板的属性信息,所述每个演示文件模板的属性信息包括所述每个演示文件模板的排版信息以及颜色信息;
第四确定单元,用于将所述演示文件模板库中演示文件模板的属性信息,与所述待处理文件对应的演示文件的属性信息匹配度最大的演示文件模板,确定为所述目标演示文件模板。
其中,所述导入模块包括:
第四获取单元,用于获取所述至少两个文本片段中每个文本片段的关键词在所述待处理文件中的位置信息;
第一排序单元,用于根据所述位置信息,对所述至少两个文本片段进行排序;
第一导入单元,用于将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
其中,所述导入模块还包括:
第五获取单元,用于获取所述至少两个文本片段中每两个文本片段的关键词之间的从属关系;
第二排序单元,用于根据所述从属关系,对所述至少两个文本片段进行排序;
第二导入单元,用于将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
其中,所述导入模块还包括:
第六获取单元,用于获取所述至少两个文本片段中每个文本片段对应的文本特征信息;
第五确定单元,用于根据所述每个文本片段对应的文本特征信息确定所述每个文本片段的预处理方式,所述预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种;
处理单元,用于根据所述每个文本片段的预处理方式对所述每个文本片段进行处理,得到处理后的至少两个文本片段;
第三导入单元,用于将所述处理后的至少两个文本片段导入至所述目标演示文件模板中,得到所述目标演示文件。
第三方面,本申请实施例提供了一种电子设备,该设备包括:处理器,适于实现一条或一条以上指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由所述处理器加载并执行如下步骤:
获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括:所述计算机存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如下步骤:
获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
本申请实施例中,通过获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息;根据至少两个关键词对待处理文件进行划分,得到至少两个文本片段;从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板;将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。在本方案中,根据上述至少两个关键词对待处理文件进行划分,得到至少两个文本片段,有利于生成每个文件片段对应的演示文稿。并识别出与待处理文件的特征属性信息匹配的目标演示文件模板,将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件,即目标演示文件中包括每个文本片段对应的演示文稿。生成目标演示文件的整个过程中无需人工参与,可提高演示文稿生成的效率以及灵活性;并确保演示文稿生成的准确率性、切题性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种演示文稿生成方法的流程示意图;
图2是本申请实施例提供的一种将至少两个文本片段导入目标演示文件模板方法的示意图;
图3是本申请实施例提供的另一种演示文稿生成方法的流程示意图;
图4是本申请实施例提供的一种演示文稿生成装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请涉及人工智能中的图像识别技术,利用图像识别技术将图像自动转换为演示文稿,不需要人工参与,可提高生成演示文稿的效率以及准确度;本申请可适用于智慧政务、智慧教育等领域,有利于推动智慧城市的建设。
请参见图1,是本申请实施例提供的一种演示文稿生成方法的流程示意图,本申请实施例可由电子设备来执行,该演示文稿生成方法包括以下步骤S101~S104。
S101,获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息。
在本申请实施例中,待处理文件是用户提供用于制作目标演示文件的文本文件,待处理文件中包含目标演示文件中每一页演示文稿对应的内容信息。可以通过LDA模型提取出待处理文件中的关键词,获得待处理文件中的至少两个关键词;并对待处理文件中的标题以及内容进行分析,得到待处理文件的特征属性信息。上述LDA模型是指文档主题生成模型,用来推测文档的主题分布,可以根据主题分布进行文本分类。该待处理文件的特征属性信息包括待处理文件所属的领域、待处理文件中的关键词的数量以及待处理文件的主题中的至少一种;其中,待处理文件所属的领域包括科技、教育、政党、金融、旅游等等,待处理文件的主题包括工作总结、结婚恋爱、毕业答辩、入职培训等等。
S102,根据上述至少两个关键词对待处理文件进行划分,得到至少两个文本片段。
可以将关键词在待处理文件中的段落,作为该关键词对应的文本片段;或者,可以根据关键词在待处理文件中的位置,对待处理文件进行划分,得到至少两个文本片段。文本片段对应的长度可以相同,也可以不相同;一个文本片段与至少一个关键词相对应,即文本片段对应的关键词可以是指该文本片段的主题,不同文本片段对应的关键词可以不相同。
进一步,步骤S102包括:获取至少两个关键词中每两个相邻关键词之间的相似度,将相似度大于相似度阈值的关键词在待处理文件中对应的段落划分至同一个文本片段中,得到至少两个文本片段,两个相邻关键词可以位于相邻段落,或者位于同一段落。通过根据关键词的相似度对待处理文件进行划分,可以提高对待处理文件划分的准确度。
上述获取至少两个关键词中每两个相邻关键词之间的相似度,包括:采用距离算法获取至少两个关键词中每两个相邻关键词之间的距离,根据距离确定获取至少两个关键词中每两个相邻关键词之间的相似度。其中,两个相邻关键词之间距离越大,则两个相邻关键词之间相似度越小;两个相邻关键词之间距离越小,则两个相邻关键词之间相似度越大。距离算法可包括闵可夫斯基距离、曼哈顿距离、曼哈顿距离以及切比雪夫距离中的至少一种。
可选的,可以根据上述至少两个关键词对待处理文件进行划分,得到至少两个候选文本片段;根据至少两个候选文件片段生成上述至少两个文本片段。其中,得到至少两个候选文本片段后,可以对该至少两个候选文本片段是否为新主题句进行判断。若候选文本片段为新主题句,则将候选文本片段确定为文本片段;若候选文本片段不为新主题句,则重新获取该候选文本片段的关键词,再判断重新获取关键词后的候选文本片段是否为新主题句。其中,可以根据每个候选文本片段的文本含义和每个候选文本片段对应的关键词的词含义,对每个候选文本片段是否为新主题句进行判断。例如,可以根据BERT模型,对每个候选文本片段是否为新主题句进行判断。BERT模型是指一种预训练语言表示的方法,在大量文本语料(维基百科)上训练了一个通用的“语言理解”模型,然后根据这个模型可以对候选文本片段进行分类,以及对候选文本是否为新主题句进行判断。可以获取每个候选文本片段的文本向量,并将每个关键词,以及每个关键词对应的候选文本片段的文本向量输入BERT模型中,得到1/0指示结果。每个候选文本片段的文本向量可以在BERT模型的训练过程中获得,每个候选文件片段的文本向量用于描述文本片段的全局语义信息。BERT模型会根据每个关键词的词含义和每个关键词对应的候选文本片段的文本向量,对每个候选文本片段是否为新主题句进行判断,BERT模型会输出1/0的指示结果确定每个候选文本片段是否为新主题句。若BERT模型输出1指示结果,则说明该候选文本片段为新主题句,则将该候选文本片段确定为文本片段;若BERT模型输出0指示结果,则说明该候选文本片段不为新主题句,则重新获取该候选文本片段的关键词,再判断重新获取关键词后的候选文本片段是否为新主题句。
S103,从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板。
演示文件模板库中包括多种演示文件模板,每种演示文件模板包括多张演示文稿,不同演示文件模板所包括的演示文稿的张数不一致;和/或,不同演示文件模板的颜色信息以及排版信息可以不相同,因此,不同演示文件模板适用于不同领域,或者,不同演示文件模板适用于不同的主题;或者,不同演示文件模板适用于生成不同长度的文本文件对应演示文件。
获取待处理文件的特征属性信息后,在演示文件模板库中,识别出与待处理文件的特征属性信息匹配的目标演示文件模板,根据该目标演示文件模板,生成待处理文件对应的目标演示文件。
可选的,上述特征属性信息包括待处理文件中的关键词的数量,可以根据待处理文件中的关键词的数量确定至少两个文本片段中的文本片段数量;获取演示文件模板库中每个演示文件模板所包括的演示文稿的数量;将演示文件模板库中所包括的演示文本的数量,与文本片段数量相同的演示文件模板,确定为目标演示文件模板。
可以根据待处理文件中关键词的数量,在演示文件模板库中确定目标演示文件模板。首先可以根据待处理文件的关键词的数量确定至少两个文本片段的文本片段数量,至少一个关键词对应一个文本片段,即将至少一个关键词对应的语句划分为一个文本片段。再获取目标演示文件模板库中每个演示文件模板所包括的演示文稿数量,将演示文件模板库中所包括的演示文件的数量,与文本片段数量相同的演示文件模板,确定为目标演示文件模板。其中,若演示文件模板库中所包括的演示文件的数量,与文本片段数量相同的演示文件模板有多个,则可以根据待处理文件的文本内容、用户指定或者随机挑选其中一个确定为目标演示文件模板。
可选的,上述特征属性信息包括所述待处理文件的主题,可以获取演示文件模板库中的每个演示文件模板的主题;分别确定演示文件模板库中的每个演示文件模板的主题,与待处理文件的主题之间的匹配度;从演示文件模板库中选择匹配度最大的演示文件模板,作为目标演示文件模板。
获取待处理文件后,可以根据待处理文件的文本内容获取待处理文件的主题,如工作总结、结婚恋爱、毕业答辩、入职培训等等,其中,并对待处理文件中的标题以及内容进行分析,获取待处理文件的主题。再获取演示文件模板库中每个演示文件模板的主题,分别确定演示文件模板库中每个演示文件模板对应的主题,与待处理文件的主题之间的匹配度。将演示文件模板库中演示文件模板的主题,与待处理文件的主题之间的匹配度最大的演示文件模板,作为目标演示文件模板。可以预先在演示文件模板库中存入多个主题的演示文件模板,一个演示文件模板对应一个主题。
可选的,上述特征属性信息包括所述待处理文件所属的领域,可以根据待处理文件所属的领域,预测待处理文件对应的演示文件的属性信息,待处理文件对应的演示文件的属性信息包括待处理文件对应的演示文件的排版信息以及颜色信息;获取演示文件模板库中每个演示文件模板的属性信息,每个演示文件模板的属性信息包括每个演示文件模板的排版信息以及颜色信息;将演示文件模板库中演示文件模板的属性信息,与待处理文件对应的演示文件的属性信息匹配度最大的演示文件模板,确定为目标演示文件模板。
可以根据待处理文件所属的领域,在演示文件模板库中确定待处理文件对应的目标演示文件模板。可以根据待处理文件所属的领域,预测待处理文件对应的演示文件的属性信息,待处理文件对应的演示文件的属性信息包括待处理文件对应的演示文件的排版信息以及颜色信息。待处理文件所属的领域可以为科技、教育、政党、金融、旅游等等,如若待处理文件所属的领域为旅游类,预测该旅游类的待处理文件对应的演示文件的排版信息是对开排版,即页面的一半用于展示景色,页面的一半用于介绍该景色,或者多图排版等等。以及该旅游类的待处理文件对应的演示文件的颜色信息应该比较清新,如天蓝色、绿色等等。再获取演示文件模板库中每一个演示文件模板的属性信息,每一个演示文件模板的属性信息包括每个演示文件模板的排版信息以及颜色信息。将演示文件模板库中每一个演示文件模板的属性信息,与待处理文件对应的演示文件的属性信息进行匹配,获得匹配度最大的演示文件模板,将该匹配度最大的演示文件模板作为目标演示文件模板。
S104,将上述至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。
根据待处理文件的至少两个关键词对待处理文件进行划分,得到至少两个文本片段,以及获得目标演示文件模板后,将至少两个文本片段导入目标演示文件模板中,得到目标演示文件。目标演示文件模板包括多张演示文稿的模板,可以按照预设顺序将至少两个文本片段导入目标演示文件模板中,得到目标演示文件,即按照文本片段的排序,将至少两个文本片段中每个文本片段导入目标演示文件模板对应的演示文稿模板中,得到每个文件片段对应的演示文稿,根据每个演示文稿生成目标演示文件。预设顺序可以是根据至少两个文本片段中每个文本片段的关键词在待处理文件中的位置信息获得,可以根据该预设顺序将至少两个文本片段导入目标演示文件模板中。如有三个文本片段,即文本片段1、文本片段2、文本片段3,三个文本为片段之间排序为文本片段1先于文本片段2,文本片段2先于文本片段3。可以根据该三个文本片段之间的排序将该三个文本片段依次导入目标演示文件模板中,即文本片段1导入目标演示文件模板中的第一张演示文稿模板,文本片段2导入目标演示文件模板中的第二张演示文稿模板中,文本片段3导入目标演示文件模板中的第三张演示文稿模板中。当然,也可以根据每个文本片段的排版信息和文本信息,在目标演示文件模板中选择演示文稿模板,如文本片段4中有四个小标题,则可以在目标演示文件模板中选择有四个小标题样式的演示文稿模板。
其中,如图2所示,是本申请实施例提供的一种将至少两个文本片段导入目标演示文件模板方法的示意图,如图2所示,本申请实施例提供的一种将至少两个文本片段导入目标演示文件模板方法包括步骤S21-S23。
S21,获取至少两个文本片段中每个文本片段的关键词在待处理文件中的位置信息。
若待处理文件中的文本内容是用户根据需要展示内容的展示顺序进行收集的,则可以获取至少两个文本片段中每个文本片段对应的关键词所在待处理文件中的位置信息,并记录每个文本片段对应的关键词所在待处理文件中的位置信息。
S22,根据关键词在该处理文件中的位置信息,对至少两个文本片段进行排序。
S23,将排序后的至少两个文本片段依次导入至目标演示文件模板中,得到目标演示文件。
根据关键词所在待处理文件中的位置信息,获得至少两个关键词的先后顺序,根据该至少两个关键词的先后顺序,确定该至少两个关键词对应的至少两个文本片段的排序顺序,对至少两个文本片段进行排序。
目标演示文件模板中的各个演示文稿之间是有固定的先后顺序的,则将排序后的至少两个文本片段依次导入目标演示文件模板中,得到目标演示文件。
可选的,获取至少两个文本片段中每个文本片段对应的文本特征信息;根据每个文本片段对应的文本特征信息确定每个文本片段的预处理方式,该预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种;根据每个文本片段的预处理方式对每个文本片段进行处理,得到处理后的至少两个文本片段;将处理后的至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。
可以获取至少两个文本片段中每个文本片段对应的文本特征信息,根据每个文本片段对应的文本特征信息确定每个文本片段的预处理方式。该文本片段的文本特征信息包括文本片段的文本长度信息、文本片段的层级标题信息、文本片段的文字是否错误信息等等,该预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种。根据每个文本片段的预处理方式对每个文本片段进行处理,得到处理后的至少两个文本片段。如可以根据每一个文本片段的文本长度信息,对于文本长度过长的文本片段,可以根据TextRank(提取关键词)文本摘要的方法进行简化处理,并删减其中一些多余的文字,保证每一个文本片段的内容不会太累赘,提高每一个文本片段的可读性。对于文本片段中一些句子太长部分进行拆分,是每个句子之间读起来更加通顺。同时根据文本片段的层级标题信息,以及每一个文本片段的整体内容、每一个层级标题下的整体内容,利用seq2seq和Pointer-Generator Network,为每一个文本片段中每一段内容生成一个标题。Seq2seq是机器学习里用于自然语言处理的一个算法簇,主要应用于语言翻译,图像字幕,会话模型和文本摘要提取,Pointer-Generator Network(指针产生网络)也是应用于文本摘要提取。另外,也对每一个文本片段中的文字信息进行校正,将每一个文本片段中错误的文字以及错误的标点符号进行校正。将处理后的至少两个文本片段导入目标演示文件模板中,得到目标演示文件。
其中,将至少两个文本片段导入目标演示文件模板中时,可以根据每一个文本片段的排版信息以及文本内容,在目标演示文件模板中选择合适的演示文稿。如一个文本片段中包含四个小标题,则在目标演示文件模板中选择含有四个小标题的演示文稿。并且除了待处理文件中每一个文本片段对应的演示文稿页外,还会根据待处理文件的主题,设置开头页,根据待处理文件中每一个文本片段的内容设置目录页,以及设置结尾页,完成完整的目标演示文件。另外,完成目标演示文件后,将目标演示文件呈现为用户,可以接受用户对目标演示文件中对每一个演示文稿的颜色、字体以及内容进行调整的指令,目标演示文件中的每一个演示文稿都可以接受对图标的形状、线框的样式等进行个性化调整,最后获得最终版的目标演示文件。
可选的,本申请中的电子设备可以是指区块链中的任一节点设备,所谓区块链是一种分布式数据存储、点对点传输(P2P传输)、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库;区块链可由多个借由密码学串接并保护内容的串连交易记录(又称区块)构成,用区块链所串接的分布式账本能让多方有效纪录交易,且可永久查验此交易(不可篡改)。其中,共识机制是指区块链网络中实现不同节点之间建立信任、获取权益的数学算法;也就是说,共识机制是区块链各网络节点共同认可的一种数学算法。本申请可利用区块链的共识机制,来实现根据待处理文件生成目标演示文件,可提高还原目标演示文件的准确度。
例如,区块链中的各个节点设备对上述步骤S101~S104的执行结果进行共识验证,每个步骤的执行结果均被共识验证通过,则可以确定生成目标演示文件准确度比较高;如果存在步骤的执行结果未被共识验证通过,则可以确定生成目标演示文件的准确度比较低,则节点设备可以再次执行上述步骤S101~S104,重新获取目标演示文件。或者,区块链中的各个节点设备可以对目标演示文件(即仅对步骤S104的执行结果)进行共识验证,如果共识验证通过,则确定目标演示文件的准确度比较高;如果共识验证未通过,则确定目标演示文件的准确度比较低,节点设备可再次执行上述步骤S101~S104,重新获取目标演示文件。
本申请实施例中,通过获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息;根据至少两个关键词对待处理文件进行划分,得到至少两个文本片段;从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板;将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。在本方案中,根据上述至少两个关键词对待处理文件进行划分,得到至少两个文本片段,有利于生成每个文件片段对应的演示文稿。其中,会对每一个文本片段中的内容进行简化处理、拆分处理、校正处理或者排版处理,简化并校正每一个文本片段的内容,提高生成目标演示文件的准确性。并识别出与待处理文件的特征属性信息匹配的目标演示文件模板,将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件,目标演示文件中包括每个文本片段对应的演示文稿。生成目标演示文件的整个过程中无需人工参与,直接输出生成结果,可提高演示文稿生成的效率以及灵活性,并确保演示文稿生成的准确率性、切题性。
请参见图3,是本申请实施例提供的另一种演示文稿生成方法的流程示意图,本申请实施例电子设备来执行,该另一种演示文稿生成方法包括以下步骤S201~S206。
S201,获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息。
S202,根据至少两个关键词对待处理文件进行划分,得到至少两个文本片段。
S203,从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板。
在本申请实施例中,该另一种演示文稿生成方法步骤S201~S203中的内容可以参看图1所示的内容,本申请实施例不再累述。
S204,获取至少两个文本片段中每两个文本片段的关键词之间的从属关系。
S205,根据每两个文本片段的关键词之间的从属关系,对至少两个文本片段进行排序。
S206,将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到目标演示文件。
可以根据BERT模型获取至少两个文本片段中每两个文本片段对应的关键词之间的从属关系,该从属关系可以是指各个关键词之间的包含关系以及先后关系。可根据每两个文本片段的关键词之间的从属关系确定至少两个文本片段之间的先后顺序,并根据该先后顺序对至少两个文本片段进行排序。例如该待处理文件是关于某个地方的旅游宣传,若文本片段1对应的关键词为某个地方的历史文化,文本片段2对应的关键词为某个地方民国时期的故事,由于历史文化包含某个时期的文化,因此,文本片段1对应的关键词的排列顺序位于文本片段2对应的关键词的排列顺序之前。根据每两个文本片段的关键词之间的从属关系,对至少两个文本片段进行排序,将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到目标演示文件,提高演示文稿的准确度。
本申请实施例中,通过获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息;根据至少两个关键词对待处理文件进行划分,得到至少两个文本片段;从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板;将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。在本方案中,根据上述至少两个关键词对待处理文件进行划分,得到至少两个文本片段,有利于生成每个文件片段对应的演示文稿。其中,会对每一个文本片段中的内容进行简化处理、拆分处理、校正处理或者排版处理,简化并校正每一个文本片段的内容,提高生成目标演示文件的准确性。并识别出与待处理文件的特征属性信息匹配的目标演示文件模板,将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件,目标演示文件中包括每个文本片段对应的演示文稿。将至少两个文本片段导入目标演示文件模板中时,会根据至少两个文本片段中每两个文本片段的关键词之间的从属关系,对至少两个文本片段进行排序,再将排序后的至少两个文本片段导入目标演示文件模板中,使目标演示文件中的任意两个演示文稿之间具有合理的先后顺序,提高目标演示文件生成的准确率。并且在生成目标演示文件的整个过程中无需人工参与,直接输出生成结果,可提高演示文稿生成的效率以及灵活性,并确保演示文稿生成的准确率性、切题性。
请参见图4,是本申请实施例提供的一种演示文稿生成装置的结构示意图,本申请实施例的所述演示文稿生成装置可以在上述提及的电子设备中。本实施例中,该数据处理装置包括以:
获取模块11,用于获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
划分模块12,用于根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
识别模块13,用于从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
其中,识别模块13包括:第一确定单元、第一获取单元、第二确定单元。
第一确定单元,用于根据所述待处理文件中的关键词的数量确定所述至少两个文本片段中的文本片段数量;
第一获取单元,用于获取所述演示文件模板库中每个演示文件模板所包括的演示文稿的数量;
第二确定单元,用于将所述演示文件模板库中所包括的演示文本的数量,与所述文本片段数量相同的演示文件模板,确定为所述目标演示文件模板。
其中,识别模块13还包括:第二获取单元、第三确定单元、选择单元。
第二获取单元,用于获取所述演示文件模板库中的每个演示文件模板的主题;
第三确定单元,用于分别确定所述演示文件模板库中的每个演示文件模板的主题,与所述待处理文件的主题之间的匹配度;
选择单元,用于从所述演示文件模板库中选择匹配度最大的演示文件模板,作为所述目标演示文件模板。
其中,所述识别模块13还包括:预测单元、第三获取单元、第四确定单元。
预测单元,用于根据所述待处理文件所属的领域,预测所述待处理文件对应的演示文件的属性信息,所述待处理文件对应的演示文件的属性信息包括所述待处理文件对应的演示文件的排版信息以及颜色信息;
第三获取单元,用于获取所述演示文件模板库中每个演示文件模板的属性信息,所述每个演示文件模板的属性信息包括所述每个演示文件模板的排版信息以及颜色信息;
第四确定单元,用于将所述演示文件模板库中演示文件模板的属性信息,与所述待处理文件对应的演示文件的属性信息匹配度最大的演示文件模板,确定为所述目标演示文件模板。
导入模块14,用于将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
其中,所述导入模块14包括:第四获取单元、第一排序单元、第一导入单元。
第四获取单元,用于获取所述至少两个文本片段中每个文本片段的关键词在所述待处理文件中的位置信息;
第一排序单元,用于根据所述位置信息,对所述至少两个文本片段进行排序;
第一导入单元,用于将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
其中,所述导入模块14还包括:第五获取单元、第二排序单元、第二导入单元。
第五获取单元,用于获取所述至少两个文本片段中每两个文本片段的关键词之间的从属关系;
第二排序单元,用于根据所述从属关系,对所述至少两个文本片段进行排序;
第二导入单元,用于将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
其中,所述导入模块14还包括:第六获取单元、第五确定单元、处理单元、第三导入单元。
第六获取单元,用于获取所述至少两个文本片段中每个文本片段对应的文本特征信息;
第五确定单元,用于根据所述每个文本片段对应的文本特征信息确定所述每个文本片段的预处理方式,所述预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种;
处理单元,用于根据所述每个文本片段的预处理方式对所述每个文本片段进行处理,得到处理后的至少两个文本片段;
第三导入单元,用于将所述处理后的至少两个文本片段导入至所述目标演示文件模板中,得到所述目标演示文件。
本申请实施例中,通过获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息;根据至少两个关键词对待处理文件进行划分,得到至少两个文本片段;从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板;将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。在本方案中,根据上述至少两个关键词对待处理文件进行划分,得到至少两个文本片段,有利于生成每个文件片段对应的演示文稿。其中,会对每一个文本片段中的内容进行简化处理、拆分处理、校正处理或者排版处理,简化并校正每一个文本片段的内容,提高生成目标演示文件的准确性。并识别出与待处理文件的特征属性信息匹配的目标演示文件模板,将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件,目标演示文件中包括每个文本片段对应的演示文稿。将至少两个文本片段导入目标演示文件模板中时,会根据至少两个文本片段中每两个文本片段的关键词之间的从属关系,对至少两个文本片段进行排序,再将排序后的至少两个文本片段导入目标演示文件模板中,使目标演示文件中的任意两个演示文稿之间具有合理的先后顺序,提高目标演示文件生成的准确率。并且在生成目标演示文件的整个过程中无需人工参与,直接输出生成结果,可提高演示文稿生成的效率以及灵活性,并确保演示文稿生成的准确率性、切题性。
请参见图5,是本申请实施例提供的一种电子设备的结构示意图,如图5所示的本实施例中的电子设备可以包括:一个或多个处理器21;一个或多个输入装置22,一个或多个输出装置23和存储器24。上述处理器21、输入装置22、输出装置23和存储器24通过总线25连接。
所处理器21可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入装置22可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出装置23可以包括显示器(LCD等)、扬声器等,输出装置23可以输出校正处理后的数据表。
该存储器24可以包括只读存储器和随机存取存储器,并向处理器21提供指令和数据。存储器24的一部分还可以包括非易失性随机存取存储器,存储器24用于存储计算机程序,所述计算机程序包括程序指令,处理器21用于执行存储器24存储的程序指令,以用于执行一种演示文稿生成方法,即用于执行以下操作:
获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
可选的,处理器21用于执行存储器24存储的程序指令,用于执行以下操作:
根据所述待处理文件中的关键词的数量确定所述至少两个文本片段中的文本片段数量;
获取所述演示文件模板库中每个演示文件模板所包括的演示文稿的数量;
将所述演示文件模板库中所包括的演示文本的数量,与所述文本片段数量相同的演示文件模板,确定为所述目标演示文件模板。
可选的,处理器21用于执行存储器24存储的程序指令,用于执行以下操作:
获取所述演示文件模板库中的每个演示文件模板的主题;
分别确定所述演示文件模板库中的每个演示文件模板的主题,与所述待处理文件的主题之间的匹配度;
从所述演示文件模板库中选择匹配度最大的演示文件模板,作为所述目标演示文件模板。
可选的,处理器21用于执行存储器24存储的程序指令,用于执行以下操作:
根据所述待处理文件所属的领域,预测所述待处理文件对应的演示文件的属性信息,所述待处理文件对应的演示文件的属性信息包括所述待处理文件对应的演示文件的排版信息以及颜色信息;
获取所述演示文件模板库中每个演示文件模板的属性信息,所述每个演示文件模板的属性信息包括所述每个演示文件模板的排版信息以及颜色信息;
将所述演示文件模板库中演示文件模板的属性信息,与所述待处理文件对应的演示文件的属性信息匹配度最大的演示文件模板,确定为所述目标演示文件模板。
可选的,处理器21用于执行存储器24存储的程序指令,用于执行以下操作:
获取所述至少两个文本片段中每个文本片段的关键词在所述待处理文件中的位置信息;
根据所述位置信息,对所述至少两个文本片段进行排序;
将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
可选的,处理器21用于执行存储器24存储的程序指令,用于执行以下操作:
获取所述至少两个文本片段中每两个文本片段的关键词之间的从属关系;
根据所述从属关系,对所述至少两个文本片段进行排序;
将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
可选的,处理器21用于执行存储器24存储的程序指令,用于执行以下操作:
获取所述至少两个文本片段中每个文本片段对应的文本特征信息;
根据所述每个文本片段对应的文本特征信息确定所述每个文本片段的预处理方式,所述预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种;
根据所述每个文本片段的预处理方式对所述每个文本片段进行处理,得到处理后的至少两个文本片段;
将所述处理后的至少两个文本片段导入至所述目标演示文件模板中,得到所述目标演示文件。
本申请实施例中所描述的处理器21、输入装置22、输出装置23可执行本申请实施例提供的演示文稿生成方法的第一实施例和第二实施例中所描述的实现方式,也可执行本申请实施例所描述的电子设备的实现方式,在此不再赘述。
本申请实施例中,通过获取待处理文件中的至少两个关键词,以及待处理文件的特征属性信息;根据至少两个关键词对待处理文件进行划分,得到至少两个文本片段;从演示文件模板库中,识别与待处理文件的特征属性信息匹配的目标演示文件模板;将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件。在本方案中,根据上述至少两个关键词对待处理文件进行划分,得到至少两个文本片段,有利于生成每个文件片段对应的演示文稿。其中,会对每一个文本片段中的内容进行简化处理、拆分处理、校正处理或者排版处理,简化并校正每一个文本片段的内容,提高生成目标演示文件的准确性。并识别出与待处理文件的特征属性信息匹配的目标演示文件模板,将至少两个文本片段导入至目标演示文件模板中,得到目标演示文件,目标演示文件中包括每个文本片段对应的演示文稿。将至少两个文本片段导入目标演示文件模板中时,会根据至少两个文本片段中每两个文本片段的关键词之间的从属关系,对至少两个文本片段进行排序,再将排序后的至少两个文本片段导入目标演示文件模板中,使目标演示文件中的任意两个演示文稿之间具有合理的先后顺序,提高目标演示文件生成的准确率。并且在生成目标演示文件的整个过程中无需人工参与,直接输出生成结果,可提高演示文稿生成的效率以及灵活性,并确保演示文稿生成的准确率性、切题性。
本申请实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现如图1及图3实施例中所示的演示文稿生成方法。
所述计算机可读存储介质可以是前述任一实施例所述的电子设备的内部存储单元,例如控制设备的硬盘或内存。所述计算机可读存储介质也可以是所述控制设备的外部存储设备,例如所述控制设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述控制设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述控制设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
作为示例,上述计算机可读存储介质可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的控制设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的控制设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例是示意性的,例如,所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种演示文稿生成方法,其特征在于,包括:
获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
2.根据权利要求1所述的方法,其特征在于,所述特征属性信息包括所述待处理文件中的关键词的数量,所述从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板,包括:
根据所述待处理文件中的关键词的数量确定所述至少两个文本片段中的文本片段数量;
获取所述演示文件模板库中每个演示文件模板所包括的演示文稿的数量;
将所述演示文件模板库中所包括的演示文本的数量,与所述文本片段数量相同的演示文件模板,确定为所述目标演示文件模板。
3.根据权利要求1所述的方法,其特征在于,所述特征属性信息包括所述待处理文件的主题,所述从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板,包括:
获取所述演示文件模板库中的每个演示文件模板的主题;
分别确定所述演示文件模板库中的每个演示文件模板的主题,与所述待处理文件的主题之间的匹配度;
从所述演示文件模板库中选择匹配度最大的演示文件模板,作为所述目标演示文件模板。
4.根据权利要求1所述的方法,其特征在于,所述特征属性信息包括所述待处理文件所属的领域,所述从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板,包括:
根据所述待处理文件所属的领域,预测所述待处理文件对应的演示文件的属性信息,所述待处理文件对应的演示文件的属性信息包括所述待处理文件对应的演示文件的排版信息以及颜色信息;
获取所述演示文件模板库中每个演示文件模板的属性信息,所述每个演示文件模板的属性信息包括所述每个演示文件模板的排版信息以及颜色信息;
将所述演示文件模板库中演示文件模板的属性信息,与所述待处理文件对应的演示文件的属性信息匹配度最大的演示文件模板,确定为所述目标演示文件模板。
5.根据权利要求1所述的方法,其特征在于,所述将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件,包括:
获取所述至少两个文本片段中每个文本片段的关键词在所述待处理文件中的位置信息;
根据所述位置信息,对所述至少两个文本片段进行排序;
将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
6.根据权利要求1所述的方法,其特征在于,所述将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件,包括:
获取所述至少两个文本片段中每两个文本片段的关键词之间的从属关系;
根据所述从属关系,对所述至少两个文本片段进行排序;
将排序后的至少两个文本片段依次导入至所述目标演示文件模板中,得到所述目标演示文件。
7.根据权利要求1所述的方法,其特征在于,所述将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件,包括:
获取所述至少两个文本片段中每个文本片段对应的文本特征信息;
根据所述每个文本片段对应的文本特征信息确定所述每个文本片段的预处理方式,所述预处理方式包括简化处理、拆分处理、校正处理、排版处理中的至少一种;
根据所述每个文本片段的预处理方式对所述每个文本片段进行处理,得到处理后的至少两个文本片段;
将所述处理后的至少两个文本片段导入至所述目标演示文件模板中,得到所述目标演示文件。
8.一种演示文稿生成装置,其特征在于,包括:
获取模块,用于获取待处理文件中的至少两个关键词,以及所述待处理文件的特征属性信息,所述特征属性信息包括所述待处理文件所属的领域、所述待处理文件中的关键词的数量以及所述待处理文件的主题中的至少一种;
划分模块,用于根据所述至少两个关键词对所述待处理文件进行划分,得到至少两个文本片段,一个文本片段与至少一个关键词相对应;
识别模块,用于从演示文件模板库中,识别与所述待处理文件的特征属性信息匹配的目标演示文件模板;
导入模块,用于将所述至少两个文本片段导入至所述目标演示文件模板中,得到目标演示文件。
9.一种电子设备,其特征在于,包括:
处理器,适于实现一条或一条以上指令;以及,
计算机可读存储介质,所述计算机可读存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由所述处理器加载并执行如权利要求1-7任一项所述的演示文稿生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或者一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如权利要求1-7任一项所述的演示文稿生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010686330.6A CN111930976A (zh) | 2020-07-16 | 2020-07-16 | 演示文稿生成方法、装置、设备及存储介质 |
PCT/CN2020/118349 WO2021139242A1 (zh) | 2020-07-16 | 2020-09-28 | 演示文稿生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010686330.6A CN111930976A (zh) | 2020-07-16 | 2020-07-16 | 演示文稿生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111930976A true CN111930976A (zh) | 2020-11-13 |
Family
ID=73313954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010686330.6A Pending CN111930976A (zh) | 2020-07-16 | 2020-07-16 | 演示文稿生成方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111930976A (zh) |
WO (1) | WO2021139242A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547474A (zh) * | 2022-04-21 | 2022-05-27 | 北京泰迪熊移动科技有限公司 | 一种数据搜索方法、系统、电子设备及存储介质 |
WO2023071242A1 (zh) * | 2021-11-01 | 2023-05-04 | 深圳前海微众银行股份有限公司 | 一种文本生成方法及装置、存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003208083A (ja) * | 2002-01-11 | 2003-07-25 | Nippon Telegr & Teleph Corp <Ntt> | 教材作成方法及び装置及び教材作成プログラム及び教材作成プログラムを格納した記憶媒体 |
US20130275433A1 (en) * | 2011-01-13 | 2013-10-17 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
CN105528332A (zh) * | 2014-10-23 | 2016-04-27 | 珠海金山办公软件有限公司 | 一种演示文稿的处理方法及装置 |
CN105701082A (zh) * | 2016-01-13 | 2016-06-22 | 刘敏 | 演示文档的自动排版方法及系统 |
CN105740213A (zh) * | 2014-12-10 | 2016-07-06 | 珠海金山办公软件有限公司 | 一种演示文稿模板提供方法及装置 |
CN105786784A (zh) * | 2014-12-23 | 2016-07-20 | 珠海金山办公软件有限公司 | 一种演示文稿模板更换方法及装置 |
CN108287927A (zh) * | 2018-03-05 | 2018-07-17 | 北京百度网讯科技有限公司 | 用于获取信息的方法及装置 |
CN108509405A (zh) * | 2018-04-11 | 2018-09-07 | 北京深度智耀科技有限公司 | 一种演示文稿的生成方法、装置以及设备 |
US20180336183A1 (en) * | 2017-05-22 | 2018-11-22 | International Business Machines Corporation | Deep Embedding for Natural Language Content Based on Semantic Dependencies |
CN109885816A (zh) * | 2019-01-18 | 2019-06-14 | 泰康保险集团股份有限公司 | 演示文稿的制作方法、装置与存储介质 |
CN110489735A (zh) * | 2018-05-14 | 2019-11-22 | 成都野望数码科技有限公司 | 一种演示文稿生成方法、装置及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491426A (zh) * | 2016-10-25 | 2017-12-19 | 宝沃汽车(中国)有限公司 | Ppt报告的自动生成方法及系统 |
CN110390091A (zh) * | 2018-04-18 | 2019-10-29 | 成都野望数码科技有限公司 | 一种排版文档生成方法、装置及设备 |
CN109033049B (zh) * | 2018-06-29 | 2022-06-10 | 平安科技(深圳)有限公司 | Ppt文档的生成方法及装置、存储介质、终端 |
-
2020
- 2020-07-16 CN CN202010686330.6A patent/CN111930976A/zh active Pending
- 2020-09-28 WO PCT/CN2020/118349 patent/WO2021139242A1/zh active Application Filing
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003208083A (ja) * | 2002-01-11 | 2003-07-25 | Nippon Telegr & Teleph Corp <Ntt> | 教材作成方法及び装置及び教材作成プログラム及び教材作成プログラムを格納した記憶媒体 |
US20130275433A1 (en) * | 2011-01-13 | 2013-10-17 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
CN105528332A (zh) * | 2014-10-23 | 2016-04-27 | 珠海金山办公软件有限公司 | 一种演示文稿的处理方法及装置 |
CN105740213A (zh) * | 2014-12-10 | 2016-07-06 | 珠海金山办公软件有限公司 | 一种演示文稿模板提供方法及装置 |
CN105786784A (zh) * | 2014-12-23 | 2016-07-20 | 珠海金山办公软件有限公司 | 一种演示文稿模板更换方法及装置 |
CN105701082A (zh) * | 2016-01-13 | 2016-06-22 | 刘敏 | 演示文档的自动排版方法及系统 |
US20180336183A1 (en) * | 2017-05-22 | 2018-11-22 | International Business Machines Corporation | Deep Embedding for Natural Language Content Based on Semantic Dependencies |
CN108287927A (zh) * | 2018-03-05 | 2018-07-17 | 北京百度网讯科技有限公司 | 用于获取信息的方法及装置 |
CN108509405A (zh) * | 2018-04-11 | 2018-09-07 | 北京深度智耀科技有限公司 | 一种演示文稿的生成方法、装置以及设备 |
CN110489735A (zh) * | 2018-05-14 | 2019-11-22 | 成都野望数码科技有限公司 | 一种演示文稿生成方法、装置及设备 |
CN109885816A (zh) * | 2019-01-18 | 2019-06-14 | 泰康保险集团股份有限公司 | 演示文稿的制作方法、装置与存储介质 |
Non-Patent Citations (1)
Title |
---|
沈伟;李宁;李娟;: "基于SMIL的演示文稿表现技术研究", 北京信息科技大学学报(自然科学版), no. 2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023071242A1 (zh) * | 2021-11-01 | 2023-05-04 | 深圳前海微众银行股份有限公司 | 一种文本生成方法及装置、存储介质 |
CN114547474A (zh) * | 2022-04-21 | 2022-05-27 | 北京泰迪熊移动科技有限公司 | 一种数据搜索方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021139242A1 (zh) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN111737499B (zh) | 基于自然语言处理的数据搜索方法及相关设备 | |
WO2019200783A1 (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN112287914B (zh) | Ppt视频段提取方法、装置、设备及介质 | |
CN111680634B (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN112257613B (zh) | 体检报告信息结构化提取方法、装置及计算机设备 | |
CN112380825B (zh) | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 | |
CN110569335A (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN111930976A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
CN112667802A (zh) | 业务信息录入方法、装置、服务器和存储介质 | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN117077679A (zh) | 命名实体识别方法和装置 | |
CN116755688A (zh) | 组件处理方法、装置、计算机设备及存储介质 | |
CN111753108B (zh) | 演示文稿生成方法、装置、设备及介质 | |
CN113486171B (zh) | 一种图像处理方法及装置、电子设备 | |
CN110674721A (zh) | 一种试卷版面公式自动检测的方法 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
US20150169523A1 (en) | Smart Scoring And Filtering of User-Annotated Geocoded Datasets | |
CN112541505B (zh) | 文本识别方法、装置以及计算机可读存储介质 | |
CN115346095A (zh) | 视觉问答方法、装置、设备及存储介质 | |
CN112149391B (zh) | 信息处理方法、信息处理装置、终端设备及存储介质 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |