CN115906776A - 文档制作方法、装置、终端及存储介质 - Google Patents

文档制作方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN115906776A
CN115906776A CN202211435405.9A CN202211435405A CN115906776A CN 115906776 A CN115906776 A CN 115906776A CN 202211435405 A CN202211435405 A CN 202211435405A CN 115906776 A CN115906776 A CN 115906776A
Authority
CN
China
Prior art keywords
document
word
materials
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211435405.9A
Other languages
English (en)
Inventor
郭小燕
闫佳文
郝雪
谷晓斌
毕会静
刘哲
蒋春悦
姚程亮
丁建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Training Center of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Training Center of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Training Center of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211435405.9A priority Critical patent/CN115906776A/zh
Publication of CN115906776A publication Critical patent/CN115906776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明涉及文档处理技术领域,尤其涉及一种文档制作方法、装置、终端及存储介质,本发明方法首先获取输入信息;然后,根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材;接着,根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料,最后,从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档。本发明方法通过文档数据库找到约束条件最为匹配的素材,匹配度佳,通过模板,调整格式,获得目标文档,提高了操作效率,减少了不必要的资源消耗。

Description

文档制作方法、装置、终端及存储介质
技术领域
本发明涉及文档处理技术领域,尤其涉及一种文档制作方法、装置、终端及存储介质。
背景技术
现有市场上没有一款专业的解决PPT、word、音频、视频等文档智能制作的软件,比如:电力行业制作PPT的成本很高,制作一个优秀的PPT课件,都是按页计价,往往一个优秀的课件就需要成百上千,再比如:很多word稿件都具有统一的模式或格式,而在稿件初稿撰写的过程中就需要耗费很大的人力、精力。文中的文档泛指PPT、word、音频、视频等各类输出型文档。
申请号为:CN202010883833.2,名称为文档自动化生成方法、装置及计算机存储介质、电子设备的中国发明专利,公开了一种文档自动化生成方法、装置及计算机存储介质、电子设备,包括:获取利用第一语言编写的数据定义指令,用于指定待生成文档中的数据处理所需的数据源和处理方式;获取利用第一语言编写的数据解读指令和内容生成指令,用于指定待生成文档中的依赖数据定义指令执行的数据处理结果动态产生的文档内容和格式;将所述数据定义指令、数据解读指令和内容生成指令转换为计算机可执行的第二语言;由计算机执行第二语言的数据定义指令,获取数据处理结果,再由计算机执行第二语言的数据解读指令和内容生成指令,生成文档。采用本申请中的方案,基于数据、内容及格式的文档生成方式可以按需或周期性地自动生成文档,提高了文档制作效率,且易用性和灵活性高。
申请号为:CN202111323248.8,名称为:一种文档自动化生成方法和系统的中国发明专利,公开了一种文档自动化生成方法和系统,涉及数据处理的技术领域,包括:获取样本文档模板,并对样本文档模板中的内容进行分类,并对为分类添加动态标识数据,得到适配文件,其中,分类的类型包括:段落,表格和可视化图例;提取适配文件中的目标文件,其中,目标文件包括:第一目标文件和第二目标文件,其中,第一目标为文件为包含段落和/或表格的文件,第二目标文件为包含可视化图例的id的文件;对目标文件中的动态标识数据进行动态转置,得到目标适配文件;在获取到用户发送的需求文件之后,确定出需求文件对应的目标适配文件,并基于目标适配文件构建目标文档,解决了现有的文档自动化生成的方法和系统的开发成本较高的技术问题。
现有技术中,对文档的素材的搜集和分类精度不高,因此,影响最终获得的文档的质量。
基于此,需要开发设计出一种文档制作方法。
发明内容
本发明实施方式提供了一种文档制作方法、装置、终端及存储介质,用于解决现有技术中文档制作过程中内容匹配度不佳的问题。
第一方面,本发明实施方式提供了一种文档制作方法,包括:
获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;
根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;
根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料;
从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
在一种可能实现的方式中,所述文档数据库中的多个待选素材包括多个文字素材编码,所述文字素材编码的获取过程包括:
获取文字素材;
对文字素材进行分词,获得多个词组;
根据所述多个词组以及词向量库,获取对应所述多个词组的文字素材编码,其中,所述词向量库中包括有多个与词组相对应的词向量,所述词向量库中语义相近的词组编码相邻设置,所述文字素材编码包括有与所述多个词组相对应的多个词向量以及文字素材标识码,所述文字素材编码的多个词向量按照所述多个词组的排列顺序排列。
在一种可能实现的方式中,当所述多个约束条件中包括文字素材约束时,所述从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,包括:
对所述文字素材约束进行分词,获得多个约束词组;
根据所述多个约束词组以及所述词向量库,获取对应所述多个约束词组的多个约束词向量;
根据所述多个约束词向量以及所述文档数据库中的多个文字素材编码,确定多个待选文字素材。
在一种可能实现的方式中,所述根据所述多个约束词向量以及所述文档数据库中的多个文字素材编码,确定多个待选文字素材,包括:
根据所述多个约束词向量、所述文档数据库中的多个文字素材编码以及第一公式,获得多个匹配系数,其中,第一公式为:
Figure BDA0003946497450000031
式中,Si为对应第i个文字素材编码的匹配系数,an为第n个约束词向量,bn为第i个文字素材编码的第n个词向量;
根据所述多个匹配系数值,从所述文档数据库中获取预设数量的文字素材,作为所述多个待选文字素材,其中,所述多个待选文字素材所对应的匹配系数值最大。
在一种可能实现的方式中,所述文档数据库中的多个待选素材包括多个图片素材编码,所述图片素材编码的获取过程包括:
获取图片素材;
将所述图片素材送入识别模型中,获取图片素材中包含的多个目标名称;
根据所述多个目标名称以及词向量库,获取对应所述图片素材的图片素材编码,其中,所述词向量库中包括有多个与词组相对应的词向量,所述词向量库中语义相近的词组编码相邻设置,所述图片素材编码包括有与所述多个目标名称词组相对应的多个词向量以及图片素材标识码。
在一种可能实现的方式中,所述识别模型基于CNN神经网络模型构建,经过训练后获得,所述识别模型包括有:输入层、卷积层、池化层、全连接层以及输出层,所述卷积层接受所述输入层的输入,所述池化层接受卷积层的输入,所述全连接层的输入与所述池化层的输出连接,所述输出层的输入与所述全连接层的输出连接,所述训练步骤包括:
获取多个样本图片以及多个标签,其中,所述多个标签与所述多个图片相对应,所述多个标签表示所述多个样本图片中包含的目标名称;
将所述多个样本图片输入到所述识别模型中,获取所述识别模型的多个识别输出;
根据所述多个识别输出与所述多个标签之间的偏差,通过反向传播算法,调整所述识别模型的参数,直至所述多个识别输出与所述多个标签之间的偏差小于阈值。
在一种可能实现的方式中,所述根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,包括:
所述目标模板设有图片位置以及文字格式;
将所述图文材料中的图片,根据所述目标模板的图片位置的大小,对所述图片进行旋转、拉伸以及缩放;
将所述图片放置于所述图片位置;
根据所述文字格式,将所述图文材料中的文字进行格式化操作后,放置于所述目标模板的文字位置。
8.一种文档制作装置,其特征在于,用于实现如权利要求1-7任一项所述的文档制作方法,所述文档制作装置包括:
输入信息模块,用于获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;
素材匹配模块,用于根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;
图文选取模块,用于根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料;
以及,
文档生成模块,用于从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
第二方面,本发明实施方式提供了一种文档制作装置,用于实现如上第一方面或第一方面的任一种可能的实现方式所述的文档制作方法,所述文档制作装置包括:
输入信息模块,用于获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;
素材匹配模块,用于根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;
图文选取模块,用于根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料;
以及,
文档生成模块,用于从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
第三方面,本发明实施方式提供了一种终端,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
第四方面,本发明实施方式提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
本发明实施方式与现有技术相比存在的有益效果是:
本发明实施方式公开了的一种文档制作方法,其首先获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;然后,根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;接着,根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料,最后,从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。本发明方法通过文档数据库找到约束条件最为匹配的素材,匹配度佳,通过模板,调整格式,获得目标文档,提高了操作效率,减少了不必要的资源消耗。
附图说明
为了更清楚地说明本发明实施方式中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施方式提供的文档制作方法的流程图;
图2是本发明实施方式提供的CNN神经网络模型的基本结构图;
图3是本发明实施方式提供的文档制作装置功能框图;
图4是本发明实施方式提供的终端功能框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施方式。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施方式中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施方式来进行说明。
下面对本发明的实施例作详细说明,本实例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
图1为本发明实施方式提供的文档制作方法的流程图。
如图1所示,其示出了本发明实施方式提供的文档制作方法的实现流程图,详述如下:
在步骤101中,获取输入信息,其中,所述输入信息包括目标文档的多个约束条件。
在步骤102中,根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材。
在一些实施方式中,所述所述文档数据库中的多个待选素材包括多个文字素材编码,所述文字素材编码的获取过程包括:
获取文字素材;
对文字素材进行分词,获得多个词组;
根据所述多个词组以及词向量库,获取对应所述多个词组的文字素材编码,其中,所述词向量库中包括有多个与词组相对应的词向量,所述词向量库中语义相近的词组编码相邻设置,所述文字素材编码包括有与所述多个词组相对应的多个词向量以及文字素材标识码,所述文字素材编码的多个词向量按照所述多个词组的排列顺序排列。
在一些实施方式中,当所述多个约束条件中包括文字素材约束时,所述从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,包括:
对所述文字素材约束进行分词,获得多个约束词组;
根据所述多个约束词组以及所述词向量库,获取对应所述多个约束词组的多个约束词向量;
根据所述多个约束词向量以及所述文档数据库中的多个文字素材编码,确定多个待选文字素材。
在一些实施方式中,所述根据所述多个约束词向量以及所述文档数据库中的多个文字素材编码,确定多个待选文字素材,包括:
根据所述多个约束词向量、所述文档数据库中的多个文字素材编码以及第一公式,获得多个匹配系数,其中,第一公式为:
Figure BDA0003946497450000081
式中,Si为对应第i个文字素材编码的匹配系数,an为第n个约束词向量,bn为第i个文字素材编码的第n个词向量;
根据所述多个匹配系数值,从所述文档数据库中获取预设数量的文字素材,作为所述多个待选文字素材,其中,所述多个待选文字素材所对应的匹配系数值最大。
示例性地,文档通常包括两个方面,文字部分和图片部分,也就是多数为图文文档,当然,还有一部分可能插入有音频。对于文档的制作来说,文字素材的获取和图片素材的获取,是文档制作过程中的重要一步。
对于文字素材方面,本发明实施方式提供了一种文档数据库,数据库中包括有多个文字素材和多个图片素材。其中,文字素材通过编码的形式,对文字素材进行标识。
为了便于根据输入的约束信息进行查找,编码其代表了文字素材的语义。其具体实现来说,就是将文字素材根据语义进行编码化,首先是对文字素材进行分词,获得的多个词组通过词向量库查阅,获得分词的向量。对于语义相近的词组,两个词的编码相近,而语义相反的词则符号与其相反。例如:“美丽”、“漂亮”两个词的向量就十分接近,“丑陋”与“美丽”两个词的向量互为相反。将多个词组向量化以后,根据词组在文字素材中的位置,就确定了文字素材的编码。
对于通过约束找到素材来说,约束同样经过分词后得到约束词组,约束词组再通过词向量库,得到对应的约束词向量。约束词向量与文档数据库中的编码进行匹配,获得匹配系数,系数值越大,说明约束与文字素材越相近,也就找到了相应的素材。
具体来说匹配系数通过下式获得:
Figure BDA0003946497450000091
式中,Si为对应第i个文字素材编码的匹配系数,an为第n个约束词向量,bn为第i个文字素材编码的第n个词向量;
将多个匹配系数排序,取预设数量的、最大的匹配系数所对应的文字素材,作为待选文字素材。
在一些实施方式中,所述文档数据库中的多个待选素材包括多个图片素材编码,所述图片素材编码的获取过程包括:
获取图片素材;
将所述图片素材送入识别模型中,获取图片素材中包含的多个目标名称;
根据所述多个目标名称以及词向量库,获取对应所述图片素材的图片素材编码,其中,所述词向量库中包括有多个与词组相对应的词向量,所述词向量库中语义相近的词组编码相邻设置,所述图片素材编码包括有与所述多个目标名称词组相对应的多个词向量以及图片素材标识码。
在一些实施方式中,所述识别模型基于CNN神经网络模型构建,经过训练后获得,所述识别模型包括有:输入层、卷积层、池化层、全连接层以及输出层,所述卷积层接受所述输入层的输入,所述池化层接受卷积层的输入,所述全连接层的输入与所述池化层的输出连接,所述输出层的输入与所述全连接层的输出连接,所述训练步骤包括:
获取多个样本图片以及多个标签,其中,所述多个标签与所述多个图片相对应,所述多个标签表示所述多个样本图片中包含的目标名称;
将所述多个样本图片输入到所述识别模型中,获取所述识别模型的多个识别输出;
根据所述多个识别输出与所述多个标签之间的偏差,通过反向传播算法,调整所述识别模型的参数,直至所述多个识别输出与所述多个标签之间的偏差小于阈值。
示例性地,对于图片素材,是识别其图片内包含的内容,并赋予其素材编码实现的。
在识别图片的内容后,就获得了图片中内容的名称,这些名称根据词向量库获取名称的向量,多个名称的向量组合后,就可以作为图片素材的编码的主要部分。
对于识别模型来说,一种应用中,基于CNN神经网络模型构建,如图2所示,包括有输入层、卷积层、池化层、全连接层以及输出层。通过将图片数据化后,送入模型中,识别其内容。该模型需要进行训练才能完成最后的构建。具体来说,就是获得多个样本,将样本送入模型获得模型识别结果,如果识别结果偏差超过设定的值,则调整模型各个层的参数,一般来说可以通过反向传播算法、遗传算法对参数进行修正,当识别的误差小于阈值,则说明训练成功。
在步骤103中,根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料。
在步骤104中,从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
在一些实施方式中,步骤104包括:
所述目标模板设有图片位置以及文字格式;
将所述图文材料中的图片,根据所述目标模板的图片位置的大小,对所述图片进行旋转、拉伸以及缩放;
将所述图片放置于所述图片位置;
根据所述文字格式,将所述图文材料中的文字进行格式化操作后,放置于所述目标模板的文字位置。
在通过选择文档素材后,就可以获得初稿,而初稿进行图片、文字格式化操作后,就可以获得最终的文档。
本发明文档制作方法实施方式,其首先获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;然后,根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;接着,根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料,最后,从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。本发明方法通过文档数据库找到约束条件最为匹配的素材,匹配度佳,通过模板,调整格式,获得目标文档,提高了操作效率,减少了不必要的资源消耗。
应理解,上述实施方式中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施方式的实施过程构成任何限定。
以下为本发明的装置实施方式,对于其中未详尽描述的细节,可以参考上述对应的方法实施方式。
图3是本发明实施方式提供的文档制作装置功能框图,参照图3,文档制作装置3包括:输入信息模块301、素材匹配模块302、图文选取模块303以及文档生成模块304。
输入信息模块301,用于获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;
素材匹配模块302,用于根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;
图文选取模块303,用于根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料;
以及,
文档生成模块304,用于从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
图4是本发明实施方式提供的终端的功能框图。如图4所示,该实施方式的终端4包括:处理器400和存储器401,所述存储器401中存储有可在所述处理器400上运行的计算机程序402。所述处理器400执行所述计算机程序402时实现上述各个文档制作方法及实施方式中的步骤,例如图1所示的步骤101至步骤104。
示例性的,所述计算机程序402可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器401中,并由所述处理器400执行,以完成本发明。
所述终端4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端4可包括,但不仅限于,处理器400、存储器401。本领域技术人员可以理解,图4仅仅是终端4的示例,并不构成对终端4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端4还可以包括输入输出设备、网络接入设备、总线等。
所称处理器400可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器401可以是所述终端4的内部存储单元,例如终端4的硬盘或内存。所述存储器401也可以是所述终端4的外部存储设备,例如所述终端4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器401还可以既包括所述终端4的内部存储单元也包括外部存储设备。所述存储器401用于存储所述计算机程序402以及所述终端4所需的其他程序和数据。所述存储器401还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
在上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述或记载的部分,可以参见其它实施方式的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施方式描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施方式中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法及装置实施方式的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上所述实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档制作方法,其特征在于,包括:
获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;
根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;
根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料;
从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
2.根据权利要求1所述的文档制作方法,其特征在于,所述文档数据库中的多个待选素材包括多个文字素材编码,所述文字素材编码的获取过程包括:
获取文字素材;
对文字素材进行分词,获得多个词组;
根据所述多个词组以及词向量库,获取对应所述多个词组的文字素材编码,其中,所述词向量库中包括有多个与词组相对应的词向量,所述词向量库中语义相近的词组编码相邻设置,所述文字素材编码包括有与所述多个词组相对应的多个词向量以及文字素材标识码,所述文字素材编码的多个词向量按照所述多个词组的排列顺序排列。
3.根据权利要求2所述的文档制作方法,其特征在于,当所述多个约束条件中包括文字素材约束时,所述从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,包括:
对所述文字素材约束进行分词,获得多个约束词组;
根据所述多个约束词组以及所述词向量库,获取对应所述多个约束词组的多个约束词向量;
根据所述多个约束词向量以及所述文档数据库中的多个文字素材编码,确定多个待选文字素材。
4.根据权利要求3所述的文档制作方法,其特征在于,所述根据所述多个约束词向量以及所述文档数据库中的多个文字素材编码,确定多个待选文字素材,包括:
根据所述多个约束词向量、所述文档数据库中的多个文字素材编码以及第一公式,获得多个匹配系数,其中,第一公式为:
Figure FDA0003946497440000021
式中,Si为对应第i个文字素材编码的匹配系数,an为第n个约束词向量,bn为第i个文字素材编码的第n个词向量;
根据所述多个匹配系数值,从所述文档数据库中获取预设数量的文字素材,作为所述多个待选文字素材,其中,所述多个待选文字素材所对应的匹配系数值最大。
5.根据权利要求1所述的文档制作方法,其特征在于,所述文档数据库中的多个待选素材包括多个图片素材编码,所述图片素材编码的获取过程包括:
获取图片素材;
将所述图片素材送入识别模型中,获取图片素材中包含的多个目标名称;
根据所述多个目标名称以及词向量库,获取对应所述图片素材的图片素材编码,其中,所述词向量库中包括有多个与词组相对应的词向量,所述词向量库中语义相近的词组编码相邻设置,所述图片素材编码包括有与所述多个目标名称词组相对应的多个词向量以及图片素材标识码。
6.根据权利要求5所述的文档制作方法,其特征在于,所述识别模型基于CNN神经网络模型构建,经过训练后获得,所述识别模型包括有:输入层、卷积层、池化层、全连接层以及输出层,所述卷积层接受所述输入层的输入,所述池化层接受卷积层的输入,所述全连接层的输入与所述池化层的输出连接,所述输出层的输入与所述全连接层的输出连接,所述训练步骤包括:
获取多个样本图片以及多个标签,其中,所述多个标签与所述多个图片相对应,所述多个标签表示所述多个样本图片中包含的目标名称;
将所述多个样本图片输入到所述识别模型中,获取所述识别模型的多个识别输出;
根据所述多个识别输出与所述多个标签之间的偏差,通过反向传播算法,调整所述识别模型的参数,直至所述多个识别输出与所述多个标签之间的偏差小于阈值。
7.根据权利要求1-6任一项所述的文档制作方法,其特征在于,所述根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,包括:
所述目标模板设有图片位置以及文字格式;
将所述图文材料中的图片,根据所述目标模板的图片位置的大小,对所述图片进行旋转、拉伸以及缩放;
将所述图片放置于所述图片位置;
根据所述文字格式,将所述图文材料中的文字进行格式化操作后,放置于所述目标模板的文字位置。
8.一种文档制作装置,其特征在于,用于实现如权利要求1-7任一项所述的文档制作方法,所述文档制作装置包括:
输入信息模块,用于获取输入信息,其中,所述输入信息包括目标文档的多个约束条件;
素材匹配模块,用于根据所述多个约束条件,从文档数据库中获取与所述多个约束条件相匹配的多个待选素材,其中,所述文档数据库中包括有多个预设的素材;
图文选取模块,用于根据所述文档的类型,从所述多个待选素材中选取多个目标素材,形成图文材料;
以及,
文档生成模块,用于从模板库中,选取目标模板,以及,根据所述目标模板对所述图文材料进行格式化调整,获得目标文档,其中,所述模板库中包括有多个文档模板。
9.一种终端,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述方法的步骤。
CN202211435405.9A 2022-11-16 2022-11-16 文档制作方法、装置、终端及存储介质 Pending CN115906776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211435405.9A CN115906776A (zh) 2022-11-16 2022-11-16 文档制作方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211435405.9A CN115906776A (zh) 2022-11-16 2022-11-16 文档制作方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN115906776A true CN115906776A (zh) 2023-04-04

Family

ID=86476039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211435405.9A Pending CN115906776A (zh) 2022-11-16 2022-11-16 文档制作方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN115906776A (zh)

Similar Documents

Publication Publication Date Title
US20060277159A1 (en) Accuracy in searching digital ink
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
US11599727B2 (en) Intelligent text cleaning method and apparatus, and computer-readable storage medium
CN113569833A (zh) 基于文本文档的文字识别方法、装置、设备及存储介质
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN115917613A (zh) 文档中文本的语义表示
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN112328655A (zh) 文本标签挖掘方法、装置、设备及存储介质
CN116303537A (zh) 数据查询方法及装置、电子设备、存储介质
CN114936565A (zh) 主旨信息提取方法及装置
CN117173730A (zh) 一种基于多模态信息的文档图像智能分析及处理方法
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN115410212B (zh) 多模态模型的训练方法、装置、计算机设备及存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN113743052B (zh) 一种融合多模态的简历版面分析方法及装置
CN115906776A (zh) 文档制作方法、装置、终端及存储介质
CN116798044A (zh) 文本识别方法、装置,以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination