CN111178018A - 一种基于深度学习的目标软文的生成方法及装置 - Google Patents
一种基于深度学习的目标软文的生成方法及装置 Download PDFInfo
- Publication number
- CN111178018A CN111178018A CN201911403246.2A CN201911403246A CN111178018A CN 111178018 A CN111178018 A CN 111178018A CN 201911403246 A CN201911403246 A CN 201911403246A CN 111178018 A CN111178018 A CN 111178018A
- Authority
- CN
- China
- Prior art keywords
- target
- title
- word segmentation
- titles
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013135 deep learning Methods 0.000 title claims abstract description 35
- 230000003044 adaptive effect Effects 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 98
- 238000000605 extraction Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000003607 modifier Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于深度学习的目标软文的生成方法及装置,该方法包括:接收目标对象的相关信息,根据相关信息从标题库中匹配出若干条适配的目标标题,标题库中的标题由采集到的标题通过第三生成模型扩展而来;将目标标题输入到第一生成模型中,生成至少一个目标导语;根据相关信息以及预设规则生成至少一个符合预设结构的输入信息,将输入信息输入到第二生成模型中,生成至少一个目标正文;对目标标题、目标导语以及目标正文进行组装,获取多篇目标软文。本发明通过利用深度学习和自然语言处理技术,能够实现营销软文的自动化智能化多样化生成,节省运营人员的投入,提升营销软文的生产效率,有效的避免手写效率低下的问题,同时避免模板生成的呆板问题。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于深度学习的目标软文的生成方法及装置。
背景技术
新产品在市场进行推广时经常会用到营销软文,营销软文通常由标题、导语和营销正文三部分组成。标题用生动简洁的语言表明营销的产品,引人入胜,导语起到引导性作用,引导消费方向,引出下面营销正文,营销正文则对产品进行介绍、推荐营销。
目前营销软文,无论是标题、导语,还是营销正文,多为商家运营人员手动编写,或者采用模板自动生成。这两种方法或多或少均存在不足:
对于手动编写,需要相关人员根据待营销的品类组织生动的语言手动编写营销软文,一旦需要短时间输出大量软文或拓展至较多品类时,往往存在生产效率低下的问题;
对于模板生成,虽然可以短时间内生成批量,但是生成的语句存在模式固定、呆板、多样化不足等问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于深度学习的目标软文的生成方法及装置,以克服现有技术中手动编写目标软文生产效率低下、模板生成目标软文语句模式固定、呆板、多样化不足等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
一方面,提供了一种基于深度学习的目标软文的生成方法,该方法包括如下步骤:
接收目标对象的相关信息,根据所述相关信息从标题库中匹配出若干条适配的目标标题,所述标题库中的标题由采集到的标题通过第三生成模型扩展而来;
将所述目标标题输入到第一生成模型中,生成至少一个目标导语;
根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文;
对所述目标标题、所述目标导语以及所述目标正文进行组装,获取多篇目标软文。
进一步的,所述根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文包括:
对所述相关信息进行分词处理,从获取到的第一分词结果中提取出满足预设条件的目标分词;
对所述目标分词进行重组,获取至少一个符合预设结构的输入信息;
将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
进一步的,所述方法还包括标题库的构建过程,包括:
对采集到的若干第一样本标题进行分词处理,获取第二分词结果;
采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词;
将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
进一步的,所述标题库的构建过程还包括:
对所述第一关键词集合与所述第二分词结果取交集,获取输入数据集合;
将所述输入数据集合的数据作为输入,所述目标标题作为输出,基于预设算法训练出第三生成模型。
进一步的,所述方法还包括第一生成模型的构建过程,包括:
对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理;
采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词;
对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词;
遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语;
将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型。
另一方面,提供了一种基于深度学习的目标软文的生成装置,所述装置包括:
标题匹配模块,用于接收目标对象的相关信息,根据所述相关信息从标题库中匹配出若干条适配的目标标题,所述标题库中的标题由采集到的标题通过第三生成模型扩展而来;
导语生成模块,用于将所述目标标题输入到第一生成模型中,生成至少一个目标导语;
正文生成模块,用于根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文;
信息组装模块,对所述目标标题、所述目标导语以及所述目标正文进行组装,获取多篇目标软文。
进一步的,所述正文生成模块包括:
第一分词单元,用于对所述相关信息进行分词处理,从获取到的第一分词结果中提取出满足预设条件的目标分词;
分词重组单元,用于对所述目标分词进行重组,获取至少一个符合预设结构的输入信息;
正文生成单元,用于将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
进一步的,所述装置还包括第一构建模块,包括:
第二分词单元,用于对采集到的若干第一样本标题进行分词处理,获取第二分词结果;
第一提取单元,用于采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词;
标题生成单元,用于将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
进一步的,所述第一构建模块还包括:
第一求交单元,用于对所述第一关键词集合与所述第二分词结果取交集,获取输入数据集合;
第一训练单元,用于将所述输入数据集合的数据作为输入,所述目标标题作为输出,基于预设算法训练出第三生成模型。
进一步的,所述装置还包括第二构建模块,包括:
第三分词单元,用于对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理;
第二提取单元,用于采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词;
第二求交单元,用于对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词;
导语拓展单元,用于遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语;
第二训练单元,用于将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的基于深度学习的目标软文的生成方法及装置,通过接收目标对象的相关信息,根据相关信息从标题库中匹配出若干条适配的目标标题,标题库中的标题由采集到的标题通过第三生成模型扩展而来,将目标标题输入到第一生成模型中,生成至少一个目标导语,根据相关信息以及预设规则生成至少一个符合预设结构的输入信息,将输入信息输入到第二生成模型中,生成至少一个目标正文,对目标标题、目标导语以及目标正文进行组装,获取多篇目标软文,利用深度学习和自然语言处理技术,能够实现营销软文的自动化智能化多样化生成,节省运营人员的投入,提升营销软文的生产效率,有效的避免手写效率低下的问题,同时避免模板生成的呆板问题;
2、本发明实施例提供的基于深度学习的目标软文的生成方法及装置,通过对采集到的若干第一样本标题进行分词处理,获取第二分词结果,采用预设的第一关键词提取方法从第一样本标题中提取出第一关键词,将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,利用现有的有限的标题拓展标题库中标题的数量;
3、本发明实施例提供的基于深度学习的目标软文的生成方法及装置,通过对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理,采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词,对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词,遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语,将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型,拓展了导语生成模型的训练数据,避免了由于训练数据不足而容易导致过拟合、生成效果不佳等问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的基于深度学习的目标软文的生成方法的流程图;
图2是根据一示例性实施例示出的根据相关信息以及预设规则生成至少一个符合预设结构的输入信息,将输入信息输入到第二生成模型中,生成至少一个目标正文的流程图;
图3是根据一示例性实施例示出的标题库的构建过程的流程图;
图4是根据另一示例性实施例示出的标题库的构建过程的流程图;
图5是根据一示例性实施例示出的第一生成模型的构建过程的流程图;
图6是根据一示例性实施例示出的基于深度学习的目标软文的生成装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于深度学习的目标软文的生成方法,首先根据目标对象的相关信息从标题库中检索出适配的标题,再根据匹配出的标题和相关信息依次生成导语和营销语(即营销正文),最后组装目标标题、导语和营销正文,输出多篇营销软文。本发明实施例中,生成导语和营销正文采用了Seq2Seq算法来实现,可以有效的避免手写效率低下的问题,同时避免模板生成的呆板。Seq2Seq是一种由编码器和解码器组成的生成架构,根据输入序列X来生成输出序列Y,在翻译、文本自动摘要和机器人自动问答等任务上有着广泛的运用。
图1是根据一示例性实施例示出的基于深度学习的目标软文的生成方法的流程图,参照图1所示,该方法包括如下步骤:
S1:接收目标对象的相关信息,根据所述相关信息从标题库中匹配出若干条适配的目标标题,所述标题库中的标题由采集到的标题通过第三生成模型扩展而来。
具体的,目标软文一般包含标题、导语和正文三部分。本发明实施例中的目标软文包括营销软文,以营销软文为例,营销软文包含标题、导语和正文三部分。本发明实施例中的目标对象的相关信息包括待生成目标软文的产品的标题、或待生成目标软文的目标对象的描述信息等,并且本发明实施例中,接收到的相关信息可以是用户输入的,并且用户输入的相关信息可以是一个或多个某品类产品的标题。在接收到用户输入的目标对象的相关信息后,根据预设的标题匹配方法(例如,分词后字符串匹配、相似度匹配等),从标题库中匹配出若干条与该相关信息适配的目标标题,其中,标题库中的标题由采集到的标题通过第三生成模型扩展而来。这里需要说明的是,本发明实施例中,不对标题匹配方法做具体的限定,用户可以根据具体需求进行设置。
S2:将所述目标标题输入到第一生成模型中,生成至少一个目标导语。
具体的,本发明实施例中,第一生成模型是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。该模型的输入为上述目标标题,输出为与目标标题对应的目标导语,其中,第一生成模型输出的目标标语的数量可以一个,也可以是多个,这里不做限制。
S3:根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
具体的,第二生成模型同样是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。本发明实施例中,为了使得第二生成模型输出的目标正文能够多样化,采用拓展第二生成模型的输入来实现。因此,在生成目标正文前,首先根据相关信息以及预设规则生成至少一个符合预设结构的输入信息,然后将获取到的输入信息输入到第二生成模型中,生成至少一个目标正文。其中,至少一个是指可以是一个,也可以是多个。
S4:对所述目标标题、所述目标导语以及所述目标正文进行组装,获取多篇目标软文。
具体的,最后,对组装目标标题以及通过上述步骤获取到的目标导语以及目标正文,获取多篇目标软文,以供用户参考选择。
参照图2所示,作为一种较优的实施方式,本发明实施例中,所述根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文包括:
S101:对所述相关信息进行分词处理,从获取到的第一分词结果中提取出满足预设条件的目标分词。
具体的,通常,相关信息多为“修饰词+品类词”的结构,其中修饰词为品牌、功能、特性、材质等词语。本发明实施例中,采用重组修饰词的顺序的方式来拓展第二生成模型的输入,使得第二生成模型输出的目标正文能够多样化。因此,在生成目标正文前,需要先对相关信息进行分词处理,获取第一分词结果,然后从第一分词结果中提取出满足预设条件的目标分词。由于是采用的重组修饰词的顺序的方式来拓展第二生成模型的输入,因此这里满足预设条件的目标分词为第一分词结果中属于修饰词的分词。
S102:对所述目标分词进行重组,获取至少一个符合预设结构的输入信息。
具体的,本发明实施例中,可以根据实际需求预先设置一重组机制,例如,重组分词后的修饰词的顺序等。然后按照该重组机制对上述步骤获取到的目标分词进行重组,输出多个符合预设结构的输入信息。同样,预设结构可以是“修饰词+品类词”的结构,用户可以根据实际需求进行设置调整,这里不做具体限制。
S103:将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
具体的,最后,将通过上述步骤获取到的输入信息输入到第二生成模型中,生成至少一个目标正文。
图3是根据一示例性实施例示出的标题库的构建过程的流程图,参照图3所示,作为一种较优的实施方式,本发明实施例中,标题库的构建过程,包括:
S201:对采集到的若干第一样本标题进行分词处理,获取第二分词结果。
具体的,本发明实施例中,在接收到目标对象的相关信息后,是采用根据相关信息从标题库中匹配的方式来获取适配的目标标题的,但是,在构建标题库的过程中,实际采集到的标题数量往往是有限的。为解决上述问题,本发明实施例中,采用利用对采集到的有限的标题进行拓展的方式,来增加标题库中标题的数量的。具体进行标题拓展时,首先对采集到的若干第一样本标题进行分词处理,获取第二分词结果。
S202:采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词。
具体的,然后采用预设的第一关键词提取方法从所述样本标题中提取出第一关键词,其中,用户可以根据实际需求设置第一关键词的提取比例(即第一关键词占样本标题的比例)。这里需要说明的是,本发明实施例中,不对第一关键词提取方法做具体的限定,用户可以根据实际需求进行设置,例如,采用TS-IDF算法等。
S203:将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
具体的,将上述步骤获取到的第二分词结果以及第一关键词作为第三生成模型的输入,得到的输出(输出为新的标题)即为根据目标标题获取到拓展标题,这些新的标题即构成本发明实施例提供的标题库。这里需要说明的是,本发明实施例中第三生成模型中可以采用集束搜索(BeamSearch)解码器,从而可以生成大量的标题。
图4是根据另一示例性实施例示出的标题库的构建过程的流程图,参照图4所示,作为一种较优的实施方式,本发明实施例中,所述标题库的构建过程包括:
S301:对采集到的若干第一样本标题进行分词处理,获取第二分词结果;
S302:采用预设的第一关键词提取方法从所述样本标题中提取出第一关键词;
S303:对所述第一关键词集合与所述第二分词结果取交集,获取输入数据集合;
S304:将所述输入数据集合的数据作为输入,所述目标标题作为输出,基于预设算法训练出第三生成模型;
S305:将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
具体的,这里的第三生成模型同样是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。在为第三生成模型准备训练数据时,可以对上述步骤获取到的第一关键词集合与第二分词结果进行取交集操作,获取输入数据集合,然后将该输入数据集合的数据作为输入,目标标题作为输出,基于预设算法(例如Seq2Seq算法)训练出第三生成模型。另外,步骤S301、S302以及步骤S305的具体实施过程可以参照上述步骤S201至S203的具体实施过程,这里不再一一赘述。
另外,还可以采用不同训练状态(即不同step或epoch)下的模型重复上述步骤,进一步拓展标题。该方法仅借助现有的标题(指第一样本标题),采用特定的抽取方式构建输入、输出训练出第三生成模型,从而可以在短时间内获取大量句式灵活的标题,节省人力成本,提高生产效率。
图5是根据一示例性实施例示出的第一生成模型的构建过程的流程图,参照图5所示,作为一种较优的实施方式,本发明实施例中,所述方法还包括第一生成模型的构建过程,包括:
S401:对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理。
具体的,本发明实施例中,采用关键词匹配的方法挖掘标题与导语的内在关系,将一个标题与多个导语匹配对应,这样可以极大的拓展第一生成模型的训练数据,避免因训练数据不足导致过拟合、生成效果不佳等问题,有效的提升第一生成模型的生成效果。具体在实施时,首先预先采集一定量的标题-导语对,即采集若干第二样本标题以及与该第二样本标题对应的导语,然后第二样本标题以及与第二样本标题对应的导语对进行分词处理,分别获取其分词结果。
S402:采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词。
具体的,然后采用预设的第二关键词提取方法从第二样本标题中提取出第二关键词,其中,用户可以根据实际需求设置第二关键词的提取比例(即第二关键词占样本标题的比例)。这里需要说明的是,本发明实施例中,同样不对第二关键词提取方法做具体的限定,用户可以根据实际需求进行设置,例如,采用TF-IDF算法等。
S403:对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词。
具体的,从每条第二样本标题中提取出的目标关键词,具体实施时,可以对第二关键词集合和每条分词后的第二样本标题进行取交集,将取交集的得到的结果作为目标关键词。
S404:遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语。
具体的,预先根据实际需求设置一最优匹配准则,如按照匹配关键词数量进行排序,选取匹配关键词数量最多的前10条导语作为该标题对应的导语。遍历每条第二样本标题,利用每条第二样本标题的目标关键词到全量分词后的与导语中进行匹配,按照预先设置的最优匹配准则获取匹配成功的若干条导语作为当前第二样本标题的新的导语,这样可以极大拓展数据量。
S405:将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型。
具体的,第一生成模型同样是采用预设的算法(例如Seq2Seq算法)预先训练的自然语言处理模型。最后将第二样本标题作为输入,与第二样本标题对应的导语以及上述步骤拓展出的新的导语作为输出,基于该预设的算法训练出第一生成模型。
图6是根据一示例性实施例示出的基于深度学习的目标软文的生成装置的结构示意图,参照图6所示,该装置包括:
标题匹配模块,用于接收目标对象的相关信息,根据所述相关信息从标题库中匹配出若干条适配的目标标题,所述标题库中的标题由采集到的标题扩展而来;
导语生成模块,用于将所述目标标题输入到第一生成模型中,生成至少一个目标导语;
正文生成模块,用于根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文;
信息组装模块,对所述目标标题、所述目标导语以及所述目标正文进行组装,获取多篇目标软文。
作为一种较优的实施方式,本发明实施例中,所述正文生成模块包括:
第一分词单元,用于对所述相关信息进行分词处理,从获取到的第一分词结果中提取出满足预设条件的目标分词;
分词重组单元,用于对所述目标分词进行重组,获取至少一个符合预设结构的输入信息;
正文生成单元,用于将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
作为一种较优的实施方式,本发明实施例中,所述装置还包括第一构建模块,包括:
第二分词单元,用于对采集到的若干第一样本标题进行分词处理,获取第二分词结果;
第一提取单元,用于采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词;
标题生成单元,用于将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
作为一种较优的实施方式,本发明实施例中,所述第一构建模块还包括:
第一求交单元,用于对所述第一关键词集合与所述第二分词结果取交集,获取输入数据集合;
第一训练单元,用于将所述输入数据集合的数据作为输入,所述目标标题作为输出,基于预设算法训练出第三生成模型。
作为一种较优的实施方式,本发明实施例中,所述装置还包括第二构建模块,包括:
第三分词单元,用于对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理;
第二提取单元,用于采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词;
第二求交单元,用于对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词;
导语拓展单元,用于遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语;
第二训练单元,用于将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的基于深度学习的目标软文的生成方法及装置,通过接收目标对象的相关信息,根据相关信息从标题库中匹配出若干条适配的目标标题,标题库中的标题由采集到的标题通过第三生成模型扩展而来,将目标标题输入到第一生成模型中,生成至少一个目标导语,根据相关信息以及预设规则生成至少一个符合预设结构的输入信息,将输入信息输入到第二生成模型中,生成至少一个目标正文,对目标标题、目标导语以及目标正文进行组装,获取多篇目标软文,利用深度学习和自然语言处理技术,能够实现营销软文的自动化智能化多样化生成,节省运营人员的投入,提升营销软文的生产效率,有效的避免手写效率低下的问题,同时避免模板生成的呆板问题;
2、本发明实施例提供的基于深度学习的目标软文的生成方法及装置,通过对采集到的若干第一样本标题进行分词处理,获取第二分词结果,采用预设的第一关键词提取方法从第一样本标题中提取出第一关键词,将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,利用现有的有限的标题拓展标题库中标题的数量;
3、本发明实施例提供的基于深度学习的目标软文的生成方法及装置,通过对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理,采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词,对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词,遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语,将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型,拓展了导语生成模型的训练数据,避免了由于训练数据不足而容易导致过拟合、生成效果不佳等问题。
需要说明的是:上述实施例提供的基于深度学习的目标软文的生成装置在触发目标软文生成业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于深度学习的目标软文的生成装置与基于深度学习的目标软文的生成方法实施例属于同一构思,即该装置是基于该基于深度学习的目标软文的生成方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的目标软文的生成方法,其特征在于,所述方法包括如下步骤:
接收目标对象的相关信息,根据所述相关信息从标题库中匹配出若干条适配的目标标题,所述标题库中的标题由采集到的标题通过第三生成模型扩展而来;
将所述目标标题输入到第一生成模型中,生成至少一个目标导语;
根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文;
对所述目标标题、所述目标导语以及所述目标正文进行组装,获取多篇目标软文。
2.根据权利要求1所述的基于深度学习的目标软文的生成方法,其特征在于,所述根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文包括:
对所述相关信息进行分词处理,从获取到的第一分词结果中提取出满足预设条件的目标分词;
对所述目标分词进行重组,获取至少一个符合预设结构的输入信息;
将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
3.根据权利要求1或2所述的基于深度学习的目标软文的生成方法,其特征在于,所述方法还包括标题库的构建过程,包括:
对采集到的若干第一样本标题进行分词处理,获取第二分词结果;
采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词;
将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
4.根据权利要求3所述的基于深度学习的目标软文的生成方法,其特征在于,所述标题库的构建过程还包括:
对所述第一关键词集合与所述第二分词结果取交集,获取输入数据集合;
将所述输入数据集合的数据作为输入,所述目标标题作为输出,基于预设算法训练出第三生成模型。
5.根据权利要求1或2所述的基于深度学习的目标软文的生成方法,其特征在于,所述方法还包括第一生成模型的构建过程,包括:
对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理;
采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词;
对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词;
遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语;
将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型。
6.一种基于深度学习的目标软文的生成装置,其特征在于,所述装置包括:
标题匹配模块,用于接收目标对象的相关信息,根据所述相关信息从标题库中匹配出若干条适配的目标标题,所述标题库中的标题由采集到的标题通过第三生成模型扩展而来;
导语生成模块,用于将所述目标标题输入到第一生成模型中,生成至少一个目标导语;
正文生成模块,用于根据所述相关信息以及预设规则生成至少一个符合预设结构的输入信息,将所述输入信息输入到第二生成模型中,生成至少一个目标正文;
信息组装模块,对所述目标标题、所述目标导语以及所述目标正文进行组装,获取多篇目标软文。
7.根据权利要求6所述的基于深度学习的目标软文的生成装置,其特征在于,所述正文生成模块包括:
第一分词单元,用于对所述相关信息进行分词处理,从获取到的第一分词结果中提取出满足预设条件的目标分词;
分词重组单元,用于对所述目标分词进行重组,获取至少一个符合预设结构的输入信息;
正文生成单元,用于将所述输入信息输入到第二生成模型中,生成至少一个目标正文。
8.根据权利要求6或7所述的基于深度学习的目标软文的生成装置,其特征在于,所述装置还包括第一构建模块,包括:
第二分词单元,用于对采集到的若干第一样本标题进行分词处理,获取第二分词结果;
第一提取单元,用于采用预设的第一关键词提取方法从所述第一样本标题中提取出第一关键词;
标题生成单元,用于将所述第二分词结果以及所述第一关键词输入到第三生成模型,获取多个新的标题,所述标题库由所述新的标题构成。
9.根据权利要求8所述的基于深度学习的目标软文的生成装置,其特征在于,所述第一构建模块还包括:
第一求交单元,用于对所述第一关键词集合与所述第二分词结果取交集,获取输入数据集合;
第一训练单元,用于将所述输入数据集合的数据作为输入,所述目标标题作为输出,基于预设算法训练出第三生成模型。
10.根据权利要求6或7所述的基于深度学习的目标软文的生成装置,其特征在于,所述装置还包括第二构建模块,包括:
第三分词单元,用于对采集到的若干第二样本标题以及与所述第二样本标题对应的导语对进行分词处理;
第二提取单元,用于采用预设的第二关键词提取方法从所述第二样本标题中提取出第二关键词;
第二求交单元,用于对所述第二关键词集合与每条分词后的所述第二样本标题取交集,获取目标关键词;
导语拓展单元,用于遍历每一所述第二样本标题,将所述目标关键词与全量分词后的与所述第二样本标题对应的导语中进行匹配,获取匹配成功导语作为当前第二样本标题的新的导语;
第二训练单元,用于将所述第二样本标题作为输入,与所述第二样本标题对应的导语以及所述新的导语作为输出,基于预设算法训练出第一生成模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911403246.2A CN111178018B (zh) | 2019-12-30 | 2019-12-30 | 一种基于深度学习的目标软文的生成方法及装置 |
CA3166556A CA3166556A1 (en) | 2019-12-30 | 2020-06-19 | Method and device for generating target advertorial based on deep learning |
PCT/CN2020/097007 WO2021135091A1 (zh) | 2019-12-30 | 2020-06-19 | 一种基于深度学习的目标软文的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911403246.2A CN111178018B (zh) | 2019-12-30 | 2019-12-30 | 一种基于深度学习的目标软文的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178018A true CN111178018A (zh) | 2020-05-19 |
CN111178018B CN111178018B (zh) | 2024-03-26 |
Family
ID=70650585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911403246.2A Active CN111178018B (zh) | 2019-12-30 | 2019-12-30 | 一种基于深度学习的目标软文的生成方法及装置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111178018B (zh) |
CA (1) | CA3166556A1 (zh) |
WO (1) | WO2021135091A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135091A1 (zh) * | 2019-12-30 | 2021-07-08 | 苏宁易购集团股份有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN115409000A (zh) * | 2022-11-02 | 2022-11-29 | 浪潮通信信息系统有限公司 | 一种热点人物软文自动生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503255A (zh) * | 2016-11-15 | 2017-03-15 | 科大讯飞股份有限公司 | 基于描述文本自动生成文章的方法及系统 |
CN109388745A (zh) * | 2018-06-15 | 2019-02-26 | 云天弈(北京)信息技术有限公司 | 一种批量文章自动写作系统 |
CN109460447A (zh) * | 2018-11-29 | 2019-03-12 | 上海文军信息技术有限公司 | 一种营销软文识别方法 |
CN109992764A (zh) * | 2017-12-29 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种文案生成方法及装置 |
CN110162623A (zh) * | 2019-04-15 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 软文自动生成方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246710A (zh) * | 2013-04-22 | 2013-08-14 | 张经纶 | 一种多媒体旅游游记的自动生成方法及装置 |
CN106777193B (zh) * | 2016-12-23 | 2020-04-10 | 李鹏 | 一种自动撰写特定稿件的方法 |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
CN111178018B (zh) * | 2019-12-30 | 2024-03-26 | 苏宁云计算有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
-
2019
- 2019-12-30 CN CN201911403246.2A patent/CN111178018B/zh active Active
-
2020
- 2020-06-19 CA CA3166556A patent/CA3166556A1/en active Pending
- 2020-06-19 WO PCT/CN2020/097007 patent/WO2021135091A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503255A (zh) * | 2016-11-15 | 2017-03-15 | 科大讯飞股份有限公司 | 基于描述文本自动生成文章的方法及系统 |
CN109992764A (zh) * | 2017-12-29 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种文案生成方法及装置 |
CN109388745A (zh) * | 2018-06-15 | 2019-02-26 | 云天弈(北京)信息技术有限公司 | 一种批量文章自动写作系统 |
CN109460447A (zh) * | 2018-11-29 | 2019-03-12 | 上海文军信息技术有限公司 | 一种营销软文识别方法 |
CN110162623A (zh) * | 2019-04-15 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 软文自动生成方法、装置、计算机设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135091A1 (zh) * | 2019-12-30 | 2021-07-08 | 苏宁易购集团股份有限公司 | 一种基于深度学习的目标软文的生成方法及装置 |
CN115409000A (zh) * | 2022-11-02 | 2022-11-29 | 浪潮通信信息系统有限公司 | 一种热点人物软文自动生成方法及装置 |
CN115409000B (zh) * | 2022-11-02 | 2023-01-24 | 浪潮通信信息系统有限公司 | 一种热点人物软文自动生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021135091A1 (zh) | 2021-07-08 |
CA3166556A1 (en) | 2021-07-08 |
CN111178018B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106534548B (zh) | 语音纠错方法和装置 | |
CN107039034B (zh) | 一种韵律预测方法及系统 | |
CN106653052A (zh) | 虚拟人脸动画的生成方法及装置 | |
CN110287489A (zh) | 文本生成方法、装置、存储介质和电子设备 | |
CN107273358B (zh) | 一种基于管道模式的端到端英文篇章结构自动分析方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN101458681A (zh) | 语音翻译方法和语音翻译装置 | |
CN109801349B (zh) | 一种声音驱动的三维动画角色实时表情生成方法和系统 | |
CN104951219B (zh) | 一种移动终端文本输入的方法及移动终端 | |
CN106202056B (zh) | 中文分词场景库更新方法和系统 | |
CN110717045A (zh) | 一种基于信访信件概况的信件要素自动提取方法 | |
CN108363693A (zh) | 文本处理方法和装置 | |
CN110264997A (zh) | 语音断句的方法、装置和存储介质 | |
CN111178018A (zh) | 一种基于深度学习的目标软文的生成方法及装置 | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN110413779B (zh) | 一种针对电力行业的词向量训练方法及其系统、介质 | |
Popescu-Belis et al. | GPoeT: a language model trained for rhyme generation on synthetic data | |
Prutskov | Algorithmic provision of a universal method for word-form generation and recognition | |
CN115186812A (zh) | 基于书面语的模型训练方法及装置 | |
CN113963306A (zh) | 基于人工智能的课件片头制作方法和装置 | |
Gudmundsson et al. | Swedish Natural Language Processing with Long Short-term Memory Neural Networks: A Machine Learning-powered Grammar and Spell-checker for the Swedish Language | |
CN111708896A (zh) | 一种应用于生物医学文献的实体关系抽取方法 | |
CN110738040B (zh) | 一种评论扩展方法及系统 | |
CN110852104A (zh) | 家谱的识别方法及装置、存储介质、处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |