CN112329417A - 海报制作方法、装置、计算机设备及存储介质 - Google Patents
海报制作方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112329417A CN112329417A CN202011188457.1A CN202011188457A CN112329417A CN 112329417 A CN112329417 A CN 112329417A CN 202011188457 A CN202011188457 A CN 202011188457A CN 112329417 A CN112329417 A CN 112329417A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text
- preset
- poster
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种海报制作方法、装置、计算机设备及存储介质,涉及人工智能技术领域,可应用于智慧政务中以推动智慧城市的建设。其中,方法包括:接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;通过预设的TextRank算法获取所述知识文本的摘要;通过预设的主题模型从所述知识文本中提取关键词;通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,从而能够根据确定的知识主题快速准确的构建海报,提高海报的制作效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种海报制作方法、装置、计算机设备及存储介质。
背景技术
海报可以通过图片、色彩、文字等元素,搭配构图及风格处理的手法,将枯燥冗长的内容赋予新的生命力。海报能让人形成深刻印象、带动感官触动,极大提升阅读满足感、并最终强化观念,促成消费。通过海报进行的精准营销的未来大趋势。
目前海报的生产效率,比较低下。通常,需要运营人员手动花费大量精力对知识内容进行提炼,改写。设计师们则往往会因为这样一些简单的需求,付出相当多的时间,比如修改文案、查找每天不同配图、填充模板内容的成本,甚至是因为投放的尺寸比例各处不一,还需要大量的做人工裁切调整等工作,难以快速响应内容运营的需求。
发明内容
本发明实施例提供了一种海报制作方法、装置、计算机设备及存储介质,旨在解决现有海报制作方法效率低下的问题。
第一方面,本发明实施例提供了一种海报制作方法,其包括:
接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
通过预设的TextRank算法获取所述知识文本的摘要;
通过预设的主题模型从所述知识文本中提取关键词;
通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
第二方面,本发明实施例还提供了一种海报制作装置,其包括:
接收单元,用于接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
获取单元,用于通过预设的TextRank算法获取所述知识文本的摘要;
提取单元,用于通过预设的主题模型从所述知识文本中提取关键词;
预测单元,用于通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
合成单元,用于将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种海报制作方法、装置、计算机设备及存储介质。其中,方法包括:接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;通过预设的TextRank算法获取所述知识文本的摘要;通过预设的主题模型从所述知识文本中提取关键词;通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,从而能够根据确定的知识主题快速准确的构建海报,提高海报的制作效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种海报制作方法的应用场景示意图;
图2为本发明实施例提供的一种海报制作方法的流程示意图;
图3为本发明实施例提供的一种海报制作方法的子流程示意图;
图4为本发明实施例提供的一种海报制作方法的子流程示意图;
图5为本发明实施例提供的一种海报制作方法的子流程示意图;
图6为本发明实施例提供的一种海报制作方法的子流程示意图;
图7为本发明实施例提供的一种海报制作方法的子流程示意图;
图8为本发明实施例提供的一种海报制作装置的示意性框图;
图9为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
本发明实施例提出的技术方案可应用于智慧政务中以推动智慧城市的建设。例如,制作宣传海报等场景中。
请参阅图1,图1是本发明实施例提供的海报制作方法的流程示意图。如图所示,该方法包括以下步骤S1-S5。
S1,接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本。
具体实施中,接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本。
本发明中,知识主题有用户输入,知识主题即所要制作的海报的主题。在确定了主题后,则获取与所述知识主题相关联的知识文本。具体地,可从互联网中获取与所述知识主题相关联的知识文本。或者从知识图谱中获取与所述知识主题相关联的知识文本。
参见图2,在一实施例中,以上步骤S1具体包括:S11-S12。
S11,通过预设的网络爬虫程序到预设的网站中爬取与所述知识主题相关联的文本内容。
具体实施中,通过预设的网络爬虫程序到预设的网站中爬取与所述知识主题相关联的文本内容。
网站由用户预先根据实际情况设定,本发明对此不做具体限定。例如,用户要制作的海报是与保险相关的,则可设定保险相关的网站。
S12,将爬取到的文本内容合并以得到所述知识文本。
具体实施中,将爬取到的文本内容合并以得到所述知识文本。
具体地,通常能够从网站中爬取到多个与所述知识主题相关联的文本内容。因此,可将爬取到的多个与所述知识主题相关联的文本内容合并后得到所述知识文本。
同时,也可以根据关联度从高到低的顺序从多个与所述知识主题相关联的文本内容中选取预设数量的文本内容进行合并后得到所述知识文本。
参见图3,在一实施例中,以上步骤S1具体包括:S101-S102。
S101,从预设的知识图谱中获取与所述知识主题相关联的文本内容。
具体实施中,预先构建知识图谱。在接收到用户输入的知识主题时,从所述知识图谱中获取与所述知识主题相关联的文本内容。
S102,将获取到的文本内容合并以得到所述知识文本。
具体实施中,将获取到的文本内容合并以得到所述知识文本。
具体地,通常能够从知识图谱中获取到多个与所述知识主题相关联的文本内容。因此,可将获取到的多个与所述知识主题相关联的文本内容合并后得到所述知识文本。
同时,也可以根据关联度从高到低的顺序从多个与所述知识主题相关联的文本内容中选取预设数量的文本内容进行合并后得到所述知识文本。
S2,通过预设的TextRank算法获取所述知识文本的摘要。
具体实施中,通过预设的TextRank算法获取所述知识文本的摘要。
TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现摘要的提取。
参见图4,在一实施例中,以上步骤S2具体包括:S21-S23。
S21,对所述知识文本进行预处理以得到多个候选句子。
具体实施中,在获得知识文本后,需要对所述知识文本进行预处理以得到多个候选句子。
具体地,预处理包括对知识文本进行分句和分词,分句指的是根据标点符号将知识文本拆分成若干个句子,例如,根据句号、问号以及感叹号进行拆分。分词是通过分词工具(例如,jieba分词工具)将句子划分成若干个词组。例如,将“儿童教育保险属于储蓄险”进行分词得到“儿童教育保险/属于/储蓄险”。
S22,通过预设的TextRank算法分别计算各所述候选句子的权重。
具体实施中,通过预设的TextRank算法分别计算各所述候选句子的权重。具体地,TextRank是一种利用局部词汇之间关系对句子进行排序和抽取的算法,通过句子的相似度经过多次迭代传播从而得到句子的权重。
需要说明的是,TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现摘要的提取。
具体地,首先,将知识文本表示为一个有向有权图G=(V,E),由点集合V和边集合E组成。图中任两点Vi,Vj之间边的权重为wji,对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的权重WS(Vi)的定义如下:
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。使用TextRank算法计算图中各点的得分时,需要给图中的点指定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取0.0001。
S23,按照权重由高到低的顺序选取预设数量的候选句子组成所述知识文本的摘要。
具体实施中,按照权重由高到低的顺序选取预设数量的候选句子组成所述知识文本的摘要。
需要说明的是,预设数量可由本领域技术人员根据实际情况进行设定,例如,在一实施例中,设定为5。即挑选权重前五的候选句子组成知识文本的摘要。
S3,通过预设的主题模型从所述知识文本中提取关键词。
具体实施中,预设的主题模型可例如为LDA(LatentDirichletAllocation,隐狄利克雷分配)模型以及PLSA(ProbabilisticLatentSemanticAnalysis,概率潜在语义分析)模型。通过LDA模型或者PLSA模型可以从所述知识文本中提取至少一个关键词。
参见图5,在一实施例中,以上步骤S3具体包括:S31-S34。
S31,通过预设的分词工具对所述知识文本进行分词处理以得到分词集合。
具体实施中,通过预设的分词工具(例如,jieba分词工具)对所述知识文本进行分词处理以得到分词集合。分词集合中包含对所述知识文本进行分词处理后得到的词语。
S32,将所述分词集合中的停止词去除后剩余的词语作为候选关键词。
具体实施中,将所述分词集合中的停止词去除后剩余的词语作为候选关键词。
需要说明的是,停止词(stopword),常为介词、副词或连词等。例如,"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。停止词本身没有实际含义,因此去除以减少计算量以及干扰。
S33根据预设的主题模型获取各候选关键词为主题词的概率。
具体实施中,根据预设的主题模型中以获取各候选关键词为主题词的概率。具体的,主题模型(例如,LDA模型或者PLSA模型)分别计算各候选关键词为主题词的概率。候选关键词概率越高,说明其越有可能为主题词。
具体地,在一实施例中,通过LDA模型计算。为了便于描述,定义知识文本为D,D包括多个文档d(文本内容),候选关键词(Topic)集合为T。
D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设文档d有n个单词。
D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC),LDA以D作为输入。
对每个D中的文档d,对应到不同Topic的概率θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
对每个T中的topict,生成不同单词的概率φt<pw1,...,pwm>,其中,pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到topict的VOC中第i个单词的数目,N表示所有对应到topic的单词总数。
LDA的核心公式如下:
p(w|d)=p(w|t)*p(t|d)
其中,p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。
实际上,利用当前的θd和φt,可以为一个文档d中的一个单词计算它对应任意一个Topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。然后,如果这个更新改变了这个单词所对应的Topic,就会反过来影响θd和φt。
LDA算法开始时,先随机地给θd和φt赋值(对所有的d和t)。具体学习过程如下:
1.针对一个特定的文档ds中的第i单词wi,如果令该单词对应的topic为tj,可以把上述公式改写为:
pj(wi|ds)=p(wi|tj)*p(tj|ds)
2.枚举T中的topic,得到所有的pj(wi|ds),其中j取值1~k。然后可以根据这些概率值结果为ds中的第i个单词wi选择一个topic。
3.如果ds中的第i个单词wi在这里选择了一个与原先不同的topic,就会对θd和φt有影响(根据前面提到过的这两个向量的计算公式可以很容易知道)。它们的影响又会反过来影响对上面提到的p(w|d)的计算。对D中所有的d中的所有w进行一次p(w|d)的计算并重新选择topic看作一次迭代。这样进行n次循环迭代之后,就会收敛到LDA所需要的结果了。
收敛后,LDA输出主题词的概率分布,根据概率分布确定候选关键词为主题词的概率。
S34,按照概率从高到低的顺序选取预设数量的候选关键词作为关键词。
具体实施中,按照概率从高到低的顺序选取预设数量的候选关键词作为关键词。
需要说明的是,预设数量可由本领域技术人员根据实际情况进行设定,例如在一实施例中,预设数量设定为5。则在该实施例中,按照概率从高到低的顺序选取5个候选关键词作为关键词。
S4,通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图。
具体实施中,通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图。
首先,采用大量训练样本来对文本分类模型进行训练,使得文本分类模型具有预测关键词的分类标签的能力。
在接收到关键词时,则通过预训练的文本分类模型预测关键词的分类标签。在获取了所述关键词的分类标签后,根据所述分类标签为所述关键词匹配插图。
文本分类模型可具体为bert模型,或者也可以采用其他文本分类模型,本发明对此不做具体限定。
参见图6,在一实施例中,以上步骤S4具体包括:S41-S43。
S41,通过预设的词向量训练工具获取所述关键词的词向量。
具体实施中,通过预设的词向量训练工具获取所述关键词的词向量。
词向量训练工具可例如为word2vec。word2vec是一种自然语言处理工具,其作用就是将自然语言中的字词转为计算机可以理解的词向量。
传统的词向量容易受维数灾难的困扰,且任意两个词之间都是孤立的,不能体现词和词之间的关系,因此本实施例采用word2vec来得到词向量,其可通过计算向量之间的距离来体现词与词之间的相似性。
或者,在其他实施例中,可采用其他词向量工具对所述检索词样本分词集合以及答案词样本分词集合进行词向量训练,本发明对此不作具体限定。
S42,将所述词向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述词向量的分类标签。
具体实施中,将所述词向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述词向量的分类标签。
文本分类模型可例如为BERT模型以及textCNN模型。以上给出的文本分类模型仅仅是一个示例,本领域技术人员还可以采用其他类型的文本分类模型,这并不会超出本发明的保护范围。
可以理解地,首先通过大量标注了分类标签的训练样本来对文本分类模型进行训练,使得文本分类模型具有预测关键词所属的分类标签的能力。然后,通过训练后的文本分类模型预测所述词向量的分类标签。
S43,根据所述分类标签为所述关键词匹配插图。
具体实施中,根据所述分类标签为所述关键词匹配插图。
例如,预先建立插图数据库,插图数据库用于储存各分类标签对应的插图。在确定的关键词的分类标签后,在插图数据库中查找关键词的分类标签所对应的插图作为与所述关键词匹配的插图。
S5,将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
具体实施中,预先构建海报模板。之后将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
参见图7,在一实施例中,所述海报模板设有标题填充位、摘要填充位以及插图填充位,以上步骤S5具体包括:S51-S52。
S51,分别将所述知识主题、所述文本摘要以及所述插图填充到所述海报模板的标题填充位、摘要填充位以及插图填充位中。
具体实施中,分别将所述知识主题、所述文本摘要以及所述插图填充到所述海报模板的标题填充位、摘要填充位以及插图填充位中。
S52,在所述海报模板中添加预设的水印以及日期。
具体实施中,在所述海报模板中添加预设的水印以及日期。从而标识海报的出处以及生成日期。
本发明实施例的技术方案,接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;通过预设的TextRank算法获取所述知识文本的摘要;通过预设的主题模型从所述知识文本中提取关键词;通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,从而能够根据确定的知识主题快速准确的构建海报,提高海报的制作效率。
图8是本发明实施例提供的一种海报制作装置的示意性框图。如图8所示,对应于以上海报制作方法,本发明还提供一种海报制作装置。该海报制作装置包括用于执行上述海报制作方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图8,该海报制作装置包括接收单元、获取单元、提取单元、预测单元以及合成单元。
接收单元,用于接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
获取单元,用于通过预设的TextRank算法获取所述知识文本的摘要;
提取单元,用于通过预设的主题模型从所述知识文本中提取关键词;
预测单元,用于通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
合成单元,用于将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
在一实施例中,所述获取与所述知识主题相关联的知识文本,包括:
通过预设的网络爬虫程序到预设的网站中爬取与所述知识主题相关联的文本内容;
将爬取到的文本内容合并以得到所述知识文本。
在一实施例中,所述获取与所述知识主题相关联的知识文本,包括:
从预设的知识图谱中获取与所述知识主题相关联的文本内容;
将获取到的文本内容合并以得到所述知识文本。
在一实施例中,所述通过预设的TextRank算法获取所述知识文本的摘要,包括:
对所述知识文本进行预处理以得到多个候选句子;
通过预设的TextRank算法分别计算各所述候选句子的权重;
按照权重由高到低的顺序选取预设数量的候选句子组成所述知识文本的摘要。
在一实施例中,通过预设的主题模型从所述知识文本中提取关键词,包括:
通过预设的分词工具对所述知识文本进行分词处理以得到分词集合;
将所述分词集合中的停止词去除后剩余的词语作为候选关键词;
根据预设的主题模型获取各候选关键词为主题词的概率;
按照概率从高到低的顺序选取预设数量的候选关键词作为关键词。
在一实施例中,所述通过预训练的文本分类模型预测所述关键词的分类标签,包括:
通过预设的词向量训练工具获取所述关键词的词向量;
将所述词向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述词向量的分类标签。
在一实施例中,所述海报模板设有标题填充位、摘要填充位以及插图填充位,所述将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,包括:
分别将所述知识主题、所述文本摘要以及所述插图填充到所述海报模板的标题填充位、摘要填充位以及插图填充位中;
在所述海报模板中添加预设的水印以及日期。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述海报制作装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述海报制作装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是终端。其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种海报制作方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种海报制作方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
通过预设的TextRank算法获取所述知识文本的摘要;
通过预设的主题模型从所述知识文本中提取关键词;
通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
在一实施例中,所述获取与所述知识主题相关联的知识文本,包括:
通过预设的网络爬虫程序到预设的网站中爬取与所述知识主题相关联的文本内容;
将爬取到的文本内容合并以得到所述知识文本。
在一实施例中,所述获取与所述知识主题相关联的知识文本,包括:
从预设的知识图谱中获取与所述知识主题相关联的文本内容;
将获取到的文本内容合并以得到所述知识文本。
在一实施例中,所述通过预设的TextRank算法获取所述知识文本的摘要,包括:
对所述知识文本进行预处理以得到多个候选句子;
通过预设的TextRank算法分别计算各所述候选句子的权重;
按照权重由高到低的顺序选取预设数量的候选句子组成所述知识文本的摘要。
在一实施例中,通过预设的主题模型从所述知识文本中提取关键词,包括:
通过预设的分词工具对所述知识文本进行分词处理以得到分词集合;
将所述分词集合中的停止词去除后剩余的词语作为候选关键词;
根据预设的主题模型获取各候选关键词为主题词的概率;
按照概率从高到低的顺序选取预设数量的候选关键词作为关键词。
在一实施例中,所述通过预训练的文本分类模型预测所述关键词的分类标签,包括:
通过预设的词向量训练工具获取所述关键词的词向量;
将所述词向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述词向量的分类标签。
在一实施例中,所述海报模板设有标题填充位、摘要填充位以及插图填充位,所述将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,包括:
分别将所述知识主题、所述文本摘要以及所述插图填充到所述海报模板的标题填充位、摘要填充位以及插图填充位中;
在所述海报模板中添加预设的水印以及日期。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
通过预设的TextRank算法获取所述知识文本的摘要;
通过预设的主题模型从所述知识文本中提取关键词;
通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
在一实施例中,所述获取与所述知识主题相关联的知识文本,包括:
通过预设的网络爬虫程序到预设的网站中爬取与所述知识主题相关联的文本内容;
将爬取到的文本内容合并以得到所述知识文本。
在一实施例中,所述获取与所述知识主题相关联的知识文本,包括:
从预设的知识图谱中获取与所述知识主题相关联的文本内容;
将获取到的文本内容合并以得到所述知识文本。
在一实施例中,所述通过预设的TextRank算法获取所述知识文本的摘要,包括:
对所述知识文本进行预处理以得到多个候选句子;
通过预设的TextRank算法分别计算各所述候选句子的权重;
按照权重由高到低的顺序选取预设数量的候选句子组成所述知识文本的摘要。
在一实施例中,通过预设的主题模型从所述知识文本中提取关键词,包括:
通过预设的分词工具对所述知识文本进行分词处理以得到分词集合;
将所述分词集合中的停止词去除后剩余的词语作为候选关键词;
根据预设的主题模型获取各候选关键词为主题词的概率;
按照概率从高到低的顺序选取预设数量的候选关键词作为关键词。
在一实施例中,所述通过预训练的文本分类模型预测所述关键词的分类标签,包括:
通过预设的词向量训练工具获取所述关键词的词向量;
将所述词向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述词向量的分类标签。
在一实施例中,所述海报模板设有标题填充位、摘要填充位以及插图填充位,所述将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,包括:
分别将所述知识主题、所述文本摘要以及所述插图填充到所述海报模板的标题填充位、摘要填充位以及插图填充位中;
在所述海报模板中添加预设的水印以及日期。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种海报制作方法,其特征在于,包括:
接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
通过预设的TextRank算法获取所述知识文本的摘要;
通过预设的主题模型从所述知识文本中提取关键词;
通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
2.根据权利要求1所述的海报制作方法,其特征在于,所述获取与所述知识主题相关联的知识文本,包括:
通过预设的网络爬虫程序到预设的网站中爬取与所述知识主题相关联的文本内容;
将爬取到的文本内容合并以得到所述知识文本。
3.根据权利要求1所述的海报制作方法,其特征在于,所述获取与所述知识主题相关联的知识文本,包括:
从预设的知识图谱中获取与所述知识主题相关联的文本内容;
将获取到的文本内容合并以得到所述知识文本。
4.根据权利要求1所述的海报制作方法,其特征在于,所述通过预设的TextRank算法获取所述知识文本的摘要,包括:
对所述知识文本进行预处理以得到多个候选句子;
通过预设的TextRank算法分别计算各所述候选句子的权重;
按照权重由高到低的顺序选取预设数量的候选句子组成所述知识文本的摘要。
5.根据权利要求1所述的海报制作方法,其特征在于,通过预设的主题模型从所述知识文本中提取关键词,包括:
通过预设的分词工具对所述知识文本进行分词处理以得到分词集合;
将所述分词集合中的停止词去除后剩余的词语作为候选关键词;
根据预设的主题模型获取各候选关键词为主题词的概率;
按照概率从高到低的顺序选取预设数量的候选关键词作为关键词。
6.根据权利要求1所述的海报制作方法,其特征在于,所述通过预训练的文本分类模型预测所述关键词的分类标签,包括:
通过预设的词向量训练工具获取所述关键词的词向量;
将所述词向量输入到预训练的文本分类模型中,以由所述文本分类模型预测所述词向量的分类标签。
7.根据权利要求1所述的海报制作方法,其特征在于,所述海报模板设有标题填充位、摘要填充位以及插图填充位,所述将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报,包括:
分别将所述知识主题、所述文本摘要以及所述插图填充到所述海报模板的标题填充位、摘要填充位以及插图填充位中;
在所述海报模板中添加预设的水印以及日期。
8.一种海报制作装置,其特征在于,包括:
接收单元,用于接收用户输入的知识主题,并获取与所述知识主题相关联的知识文本;
获取单元,用于通过预设的TextRank算法获取所述知识文本的摘要;
提取单元,用于通过预设的主题模型从所述知识文本中提取关键词;
预测单元,用于通过预训练的文本分类模型预测所述关键词的分类标签,并根据所述分类标签为所述关键词匹配插图;
合成单元,用于将所述知识主题、所述文本摘要以及所述插图添加到预设的海报模板中以合成海报。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188457.1A CN112329417A (zh) | 2020-10-30 | 2020-10-30 | 海报制作方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011188457.1A CN112329417A (zh) | 2020-10-30 | 2020-10-30 | 海报制作方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329417A true CN112329417A (zh) | 2021-02-05 |
Family
ID=74296731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011188457.1A Pending CN112329417A (zh) | 2020-10-30 | 2020-10-30 | 海报制作方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329417A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194615A (zh) * | 2023-11-02 | 2023-12-08 | 国网浙江省电力有限公司 | 企业合规数据处理方法及平台 |
-
2020
- 2020-10-30 CN CN202011188457.1A patent/CN112329417A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194615A (zh) * | 2023-11-02 | 2023-12-08 | 国网浙江省电力有限公司 | 企业合规数据处理方法及平台 |
CN117194615B (zh) * | 2023-11-02 | 2024-02-20 | 国网浙江省电力有限公司 | 企业合规数据处理方法及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717017B (zh) | 一种处理语料的方法 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN108334891B (zh) | 一种任务型意图分类方法及装置 | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
CN111930929B (zh) | 一种文章标题生成方法、装置及计算设备 | |
CN111324752B (zh) | 基于图神经网络结构建模的图像与文本检索方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
US11023503B2 (en) | Suggesting text in an electronic document | |
US20080162528A1 (en) | Content Management System and Method | |
CN111737560B (zh) | 内容搜索方法、领域预测模型训练方法、装置及存储介质 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN114595327A (zh) | 数据增强方法和装置、电子设备、存储介质 | |
CN113360646A (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
CN111666376A (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN117688163B (zh) | 基于指令微调和检索增强生成的在线智能问答方法及装置 | |
CN114969520A (zh) | 基于标签信息和商品属性的商品推荐方法、系统及设备 | |
CN113569011A (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
US20190155913A1 (en) | Document search using grammatical units |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |