CN112487151A - 文案生成方法及装置、存储介质与电子设备 - Google Patents

文案生成方法及装置、存储介质与电子设备 Download PDF

Info

Publication number
CN112487151A
CN112487151A CN202011475011.7A CN202011475011A CN112487151A CN 112487151 A CN112487151 A CN 112487151A CN 202011475011 A CN202011475011 A CN 202011475011A CN 112487151 A CN112487151 A CN 112487151A
Authority
CN
China
Prior art keywords
corpus
language
document
case
hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011475011.7A
Other languages
English (en)
Inventor
刘曙铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202011475011.7A priority Critical patent/CN112487151A/zh
Publication of CN112487151A publication Critical patent/CN112487151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本公开提供了一种文案生成方法、文案生成装置、计算机可读存储介质与电子设备,涉及自然语言处理技术领域。该文案生成方法包括:获取第一文案语料,根据所述第一文案语料生成初始文案集合,所述初始文案集合中每个文案配置有标签;获取第二文案语料,从所述第二文案语料中提取热点词,得到热点词集合;将所述初始文案集合与所述热点词集合组合,生成目标文案集合。本公开提高了文案生成的效率及文案的新颖性。

Description

文案生成方法及装置、存储介质与电子设备
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种文案生成方法、文案生成装置、计算机可读存储介质与电子设备。
背景技术
自然语言生成是自然语言处理以及计算语言学领域中一个基础且富有挑战性的任务。
现有的文案生成方法大致包括:基于大数据技术生成文案、基于统计机器翻译概率(Statistical Machine Translation,SMT)模型生成文案、基于主题生成文案等。
然而,现有的文案生成方法生成文案的效率较低,且所生成的文案新颖性低。
发明内容
本公开提供了一种文案生成方法、文案生成装置、计算机可读存储介质与电子设备,进而至少在一定程度上改善相关技术中文案生成效率及文案新颖性较低的问题。
根据本公开的第一方面,提供一种文案生成方法,包括:获取第一文案语料,根据所述第一文案语料生成初始文案集合,所述初始文案集合中每个文案配置有标签;获取第二文案语料,从所述第二文案语料中提取热点词,得到热点词集合;将所述初始文案集合与所述热点词集合组合,生成目标文案集合。
根据本公开的第二方面,提供一种文案生成装置,包括:有条件文案生成模块,用于获取第一文案语料,根据所述第一文案语料生成初始文案集合,所述初始文案集合中每个文案配置有标签;热点词获取模块,用于获取第二文案语料,从所述第二文案语料中提取热点词,得到热点词集合;文案组合模块,用于将所述初始文案集合与所述热点词集合组合,生成目标文案集合。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的文案生成方法及其可能的实施方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的文案生成方法及其可能的实施方式。
本公开的技术方案具有以下有益效果:
一方面,通过从第一文案语料中生成初始文案集合,可以实现自动生成文案的目的,解决了人工编写文案带来的问题,提高了文案编写的效率和稳定性;另一方面,由于生成的初始文案集合中每个文案都配置有标签,带标签的文案不仅有利于文案的归类,也有利于用户迅速获取需要的文案族,提高了文案生成和搜索的效率;再一方面,通过提取热点词,获取热点词集合,可以为生成的文案添加热点词,以提高所生成文案的质量,提高文案的新颖性和转换率,以满足客户的需求。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中一种文案生成方法的流程图;
图2示出本示例性实施方式中一种BERT模型的结构示意图;
图3示出本示例性实施方式中BERT模型中的特征经过归一化操作的流程示意图;
图4示出本示例性实施方式中第二种提取热点词的流程图;
图5(a)示出本示例性实施方式中用户搜索行为示意图;
图5(b)示出本示例性实施方式中将用户搜索行为映射到二维向量空间中的示意图;
图6示出本示例性实施方式中另一种文案生成方法的流程图;
图7示出本示例性实施方式的一种文案生成装置的结构示意图;
图8示出本示例性实施方式的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,下面所有的术语“第一”、“第二”仅是为了区分的目的,不应作为本公开内容的限制。
随着互联网技术的迅速发展,以及文案生成软件的成熟,通过文案生成系统或装置来自动生成文案越来越得到人们的关注。例如,以广告型的文案为例,广告主通常需要灵活多变、高质量且吸引人的文案来吸引用户的注意力,从而获取更好的广告转化效果。
然而,随着各种需求的不同,常常需要编写出大量的文案去更新迭代。因此也需要投入大量的文案编写人工成本,并且,文案质量的好坏还与文案编写人员的经验强相关,由于文案编写人员的不稳定性使得最终编写出的文案质量也容易受到较大的影响。
基于此,本公开示例性实施方式提供了一种文案生成方法,下面结合图1对本公开示例性实施方式的文案生成方法进行具体说明。如图1所示,该文案生成方法可以包括:
步骤S110,获取第一文案语料,根据第一文案语料生成初始文案集合,初始文案集合中每个文案配置有标签。
本公开的示例性实施方式中,根据第一文案语料生成初始文案集合,主要是通过有条件文案生成模块来生成初始文案集合。例如,通过基于BERT(Bidirectional EncoderRepresentation from Transformers)模型的有条件文案生成模块,该模块主要是使用BERT模型来完成文案生成任务。BERT模型是基于Transformer的双向编码模型,分成预训练和微调两个阶段。预训练阶段是使用海量的文案数据进行无监督学习任务,主要目的是学习语言学知识。微调阶段则是使用当前任务领域数据来提供给模型学习,让模型适配当前任务。
对于有条件文案生成模块而言,提供给BERT模型的训练数据是第一文案语料,该第一文案语料可以是文案和生成文案的条件。此处的文案可以是人工完成的文案,也可以是现有的数据库中所存有的文案,提供给模型作为训练语料,最终的目的是让模型也学会编写文案。
而生成文案的条件则有多种元素组成,比如标签、类别等。如果把标签作为生成文案的条件,那么可以将文案根据标签划分成很多种类,比如有传奇游戏的文案、东方仙侠游戏的文案、捕鱼游戏的文案和口腔医护的文案。此时的有条件文案生成模块可以根据标签来生成当前任务对应的文案。而对于某个文案来说,如果这个文案是一款传奇游戏的广告型文案,那么就可以以传奇游戏这个标签作为条件来生成传奇游戏对应的文案,这个文案就可以作为传奇游戏的广告型文案来使用,从而完成了文案的生成,并且获得的多个文案可以组成初始文案集合,而该初始文案集合中的每个文案都是配置有标签的文案,例如,配置有同一标签的文案,也可以是配置有不同标签的文案,本公开示例性实施方式对此不作特殊限定。
带标签的文案不仅有利于文案的归类,也有利于用户迅速获取需要的文案族,提高了文案生成和搜索的效率。
参照图2,示出了本公开示例性实施方式中的BERT模型的结构示意图;如图2所示,BERT模型的输入是第一文案语料,输入的第一文案语料首先会转化成三层的向量数据:词编码、句子对关系编码和位置编码;然后会将三层向量数据按位相加;最后会通过12层Transformer层得到对应的输出,得到768维度的向量。
由于BERT模型底层是基于Transformer作为特征抽取器来抽取特征的,而Transformer又分成编码器和解码器两大部分。BERT中的Transformer主要使用的是层规范化(Layer Normalization,LN)中的正则化方法,其目的是把一些不重要的复杂信息损失掉,从而降低模型学习的难度以及过拟合的风险,加速模型收敛,让分布稳定下来。
Layer Normalization主要是基于一个特征进行归一化操作。对应的归一化计算公式是:
Figure BDA0002834955900000051
其中,x是特征,E(x)是x的均值,Var(x)是x的方差,ε是为了防止方差为0时产生无效计算而引入的常数,γ和β都是网络层的参数。模型中输入的特征x会先减去x的均值E(x),然后除以x的方差Var(x),同时经过网络层参数γ和β的变换最后得到归一化之后的特征y。图3示出了特征经过归一化操作的流程示意图。
本公开示例性实施方式中,将文案生成条件转化成网络层的γ和β参数矩阵以供模型学习,从而通过网络层参数来指导模型进行有条件的学习。因为BERT是预训练好的模型,所以模型中的网络参数不能轻易改动。但是Transformer中的两组参数γ和β主要作用是对特征进行缩放和偏置操作,可以对这两个参数进行调整。并且由于参数量不大,所以不会对模型内部已经学到的知识有太多的影响。基于这个原因,本示例性实施方式中通过将条件添加到LN层来生成文案,从而完成有条件的文案生成任务。
此处需要说明的是,除过使用BERT模型来完成文案生成任务外,还可以使用其他类似模型完成文案的生成,本公开示例性实施方式对此不作特殊限定。
步骤S120,获取第二文案语料,从第二文案语料中提取热点词,得到热点词集合。
生成的文案的质量好坏与文案的新颖性强相关,新颖的信息内容才能更吸引人们的关注。特别对于广告型文案而言,一条新颖的广告型文案可以吸引更多用户去关注该广告,从而有效提升文案的转化效果。
本公开示例性实施方式中,通过从第二文案语料中获取热点词,可以将文案的新颖性问题考虑其中,从而可以提高所生成文案的新颖性,使得文案更具有实用价值。
在本示例性实施方式中,第二文案语料可以是从网页上获取的现有比较流行的文案词组,或者是关注度比较高的网页文案中获取的词组等,汇集而成的,而从第二文案语料中获取热点词的方法则主要有以下三种:
第一种,统计第二文案语料中每个语料的点击率,将第二文案语料中点击率超过阈值的语料确定为热点词。其中,点击率是文案被点击次数与文案的曝光次数的比值,反映了网页上某一文案的受关注程度和吸引程度。
文案被投放的时候,特别是广告型文案被投放到网络上的时候,通过统计学的方法获取用户点击率较高的广告型文案作为获取含有新颖性的广告型文案,是一种最直接简便的方法。在实际应用中,点击率高的文案通常也都含有热点词。因此,通过获取点击率比较高的文案,可以获得当下比较流行的热点词。
在实际应用中,阈值的大小可以根据实际需要设置,例如,阈值可以为80%、90%等,本公开示例性实施方式对此不作特殊限定。
参照图4,示出了本公开示例性实施方式中第二种提取热点词的流程图;如图4所示,该第二种获取热点词的方法包括:
步骤S410,获取用户搜索日志数据,对搜索日志数据进行清洗,获得第二文案语料。
清洗指的是将搜索日志数据中不完整的数据,或者说乱码数据删除掉的操作。在数据分析之前需要进行数据处理、数据录入并把数据清洗干净,以保证数据的质量,减少最终结果的误差率。本公开示例性实施方式中,采用SPARK/HIVE等大数据计算引擎对用户底层搜索日志数据进行清洗后,可以作为提取热点词的第二文案语料来使用。需要说明的是,其他的大数据计算引擎均纳入本公开的保护范围之内。
在得到第二文案语料后,通过获取第二文案语料中每个语料的内容,可以根据每个语料的内容来提取热点词,具体包括:
步骤S420,对第二文案语料中每个语料进行分类,获得数据类别语料。
在对用户搜索数据进行了清洗之后,还需要使用文案分类的方法将作为第二文案语料的用户搜索数据进行分类,得到各个搜索词的类别,根据类别去搜索热点词,搜索的准确度更高。
具体分类过程中,可以根据用户搜索数据中的语料的目的进行分类,也可以根据用户搜索数据中的语料的词性来分类,此处的词性可以包括竞品词、通用词和人群词等;还可以根据用户搜索数据中的语料的长短来分类,例如,核心词和长尾词等。具体的分类类别可以根据实际情况设置,本公开示例性实施方式对此不作限定。
步骤S430,对数据类别语料进行分词,并去除停用词,获得关键词。
在对用户搜索数据中的语料分类之后,便于对数据进行分析处理,还需要对语料进行分词,去除掉停用词等没有实际意义的词,以获得关键词,使得用户搜索数据更加简明扼要,并表达核心信息。
在实际应用中,可以使用NLP(Nature Language Process,自然语言处理)领域常用的结巴分词,来完成对用户搜索数据进行分词、并去除其中的停用词的操作。
步骤S440,根据关键词出现的频率确定热点词。
在实际应用中,语料的重要性其实是随着它出现的次数成正比增加的,因此,通过获取关键词所出现的频率,可以确定该词是不是重要的词,是不是人们所关心的热点词。
本公开示例性实施方式中,通过TF(Term Frequency,词频)算法可以对上述关键词进行聚类挖掘,从而找到不同的数据类别所对应的热点词。
本公开示例性实施方式提供的第二种提取热点词的方法,主要是基于语料内容的角度,通过文案分类和TF算法来挖掘热点词。通过将文案和当前的用户搜索热点相结合,这样的文案更容易引起用户的共鸣,从而提升文案转化的效果。
第三种,获取第二文案语料中每个语料的用户行为数据,根据用户行为数据确定热点词。
在上述两种获取热点词的方法中,都存在着表现形式轻微不同,但是含意相同的语料,例如,很多用户都对当前的电影《金刚川》感兴趣,其中一部分用户搜索“金刚川很好看”,还有一部分用户搜索“金刚川很赞”。如果从统计语料点击率的角度来分析,这是两条不同的用户搜索;如果从语料内容的角度来分析,这也是两条不同的用户搜索内容。但这两条用户搜索内容所表达的含意其实是相同的,都表达的是对金刚川的兴趣,热点词也都是金刚川。
基于此,为了更高效地挖掘热点词,避免很多重复工作,可以对表现形式轻微不同,但是含意相同的语料进行聚类,以便于在同一类中只进行一次热点词搜索即可。
本公开示例性实施方式中,可以先获取第二文案语料中每个语料的用户行为数据,再根据用户行为数据确定用户搜索热点,将含意相似的用户搜索热点进行聚类,以获得热点词。从而可以避免出现重复性的热点词。
在本示例性实施方式中,用户行为数据可以是用户的搜索次数,即用户对当前语料在预设时间段内的搜索次数,搜索次数越高的语料就是用户搜索热点,可以确定为热点词。其中,预设时间段可以是一周、五天或三天等,本示例性实施方式对此不作限定。
在实际应用中,可以借助图模型Node2vec的结构性特点,基于用户行为数据的角度来获取热点词。利用Node2vec的结构性特征可以得到用户的热门搜索和冷门搜索的图向量,然后基于图向量去聚类得到用户搜索热点,即热点词。
参考图5(a),示出了本公开示例性实施方式中用户搜索行为示意图;参照图5(b),示出了本公开示例性实施方式中将用户搜索行为映射到二维向量空间中的示意图。
图5(a)中展示了用户搜索序列转化得到的图,例如,用户先搜索了1,然后搜索了4,那么图5(a)中就会有从节点1到节点4的有向图,该从节点1到节点4的向量侧边的权重3则代表了从节点1到节点4的搜索次数。将用户搜索行为的序列信息转化成有向有权图,然后设置Node2vec的超参数p和q来使用广度优先算法(Breath First Search,BFS)以得到二维的向量。将得到的二维向量经过归一化操作(x-min)/(max-x)映射到0-1的空间中,可以得到图5(b)所示的结果。从图5(b)可以看出,边缘节点0,1,2,5,6,8和局部中心节点3,7,4,9被完全区分开来,而其中的局部中心节点对应的就是用户搜索热点。最后,将局部中心节点进行聚类,通过聚类算法得到用户搜索热点,以最终挖掘得到热点词。
通过上述三种方法获得热点词后,即可将上述热点词聚合成热点词集合,以供后续使用。
步骤S130,将初始文案集合与热点词集合组合,生成目标文案集合。
在上述获得了初始文案集合和热点词集合之后,为了增加初始文案集合中文案的新颖性,可以对该文案与热点词进行组合,以获得热点文案,达到更好的文案转化效果。
具体的组合方式可以根据热点词的词性来确定,例如,根据热点词是形容词、动词、名词、副词,还是感叹词等来确定热点词在文案中的合适位置,以获得热点文案。
综上所述,本示例性实施方式提供的一种文案生成方法,一方面,通过从第一文案语料中生成初始文案集合,可以实现自动生成文案的目的,解决了人工编写文案带来的问题,提高了文案编写的效率和稳定性;另一方面,由于生成的初始文案集合中每个文案都配置有标签,带标签的文案不仅有利于文案的归类,也有利于用户迅速获取需要的文案族,提高了文案生成和搜索的效率;再一方面,通过提取热点词,获取热点词集合,可以为生成的文案添加热点词,以提高所生成文案的质量,提高文案的新颖性和转换率;又一方面,通过基于BERT模型的有条件文案生成模型来完成文案的生成任务,文案的生成的速度更快,出错率低。
在上述文案生成方法的基础上,本公开示例性实施方式还提供了另一种文案生成方法,用于生成与上述生成的文案相似的文案。参照图6,示出了本公开示例性实施方式的另一种文案生成方法的流程示意图,如图6所示,该文案生成方法可以包括:
步骤S110,获取第一文案语料,根据第一文案语料生成初始文案集合,初始文案集合中每个文案配置有标签。
步骤S120,获取第二文案语料,从第二文案语料中提取热点词,得到热点词集合。
步骤S130,将初始文案集合与热点词集合组合,生成目标文案集合。
步骤S640,对目标文案集合中的文案进行扩充,获得与目标文案集合中的文案内容相似的相似文案,构成相似目标文案集合。
其中,步骤S110-S130的具体内容已经在上述实施方式中进行了详细说明,本示例性实施方式对此不再赘述。
对于步骤S640而言,相似文案有以下两种应用场景:
第一种,生成的相似文案可以作为下一次的训练语料用在文案生成中。由于基于BERT模型的有条件文案生成模型在微调阶段需要一定量的文案训练语料,训练语料的数量越多质量越高,生成的文案也会越好。而实际的业务场景中经常会遇到训练语料不足的情况,而本示例性实施方式生成的相似文案就可以对训练语料进行扩充,以起到增强训练语料的作用。
第二种,在获得用户满意的文案后,当用户想要获得更多类似的文案时,可以通过生成相似文案,以满足用户多元化的需求,还能有效解决用户审美疲劳的问题。
本示例性实施方式中,可以使用SIMBERT模型,利用BERT模型学到的语言学知识对目标文案集合中的文案进行扩充,获得与目标文案集合中的文案内容相似的相似文案,构成相似目标文案集合。此处所使用的语料数据格式是相似语句对,比如sentence_a和sentence_b是一组相似语句,那么将它们拼接成[CLS]sentence_a[SEP]sentence_b[SEP]和[CLS]sentence_a[SEP]sentence_a[SEP]都加入模型中去训练,这样就变成了一个相似句的生成任务。比如我们输入一条传奇游戏的广告型文案:“经典传奇,爆率高!”,那么就会生成和文案相似的传奇游戏的其他广告型文案,如表1所示:
表1
这款传奇,爆率超高!
这款传奇,爆率99.8!
传奇手游,骨灰级玩家力荐
这传奇,爆率9.8,无vip
传奇手游,骨灰级玩家推荐
经典传奇手游,爆率全开!
这款传奇,打小怪爆神装!
通过使用SIMBERT模型可以在现有少量的文案中扩充更多的相似文案,然后,还可以基于现有的文案和扩充的相似文案根据需求进一步扩充,从而得到更多的文案语料。
基于SIMBERT模型生成的相似文案最核心的作用是基于模板生成更多的文案,不仅可以增加有条件文案生成模型的训练语料,还可以根据用户的定制化需求来生成特定形式特定条件的文案,满足用户的多元化需求。
综上所述,本示例性实施方式提供的另一种文案生成方法,基于SIMBERT和BERT相结合的文案生成方法可以更好地满足用户需求,节约文案撰写的人力物力,并且还能保证文案的撰写质量。使用基于BERT的有条件文案生成模型可以利用BERT预训练和微调两阶段模型中海量文案学习到的语言学知识来应用到文案的生成中,将标签类型、特定的关键词等作为条件去生成特定的文案,满足用户的定制化需求。使用模型生成文案稳定性也较好,不断迭代,可以很好的解决因为文案撰写人员经验、阅历不同和变动导致的文案质量层次不齐问题。使用TF算法和Node2vec图模型分别从内容角度和用户行为数据角度来挖掘热点词,从而作为条件去生成文案,可以有效提升生成文案的新颖性和有趣性,从而提升文案的转化效果。
使用SIMBERT模型来基于文案模板生成相似文案,一方面可以增加模型训练需要的训练语料,另一方面可以根据用户的特殊需求增加某一文案模板的文案数量,可以有效降低用户的审美疲劳,最终提升文案的转化效果。整个方案可以有效利用现有的文案根据用户的多样化需求生成定制化的文案,可以稳定输出更多高质量高可靠性的文案,有效降低文案撰写的人力物力消耗,生成更多高质量的文案,降低成本的同时提升文案的转化效果,达到降本增收的目的。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
本公开的示例性实施方式还提供一种文案生成装置。如图7所示,该文案生成装置700可以包括:
有条件文案生成模块710,用于获取第一文案语料,根据所述第一文案语料生成初始文案集合,所述初始文案集合中每个文案配置有标签;
热点词获取模块720,用于获取第二文案语料,从所述第二文案语料中提取热点词,得到热点词集合;
文案组合模块730,用于将所述初始文案集合与所述热点词集合组合,生成目标文案集合。
上述装置中各部分的具体细节在方法部分实施方式中已经详细说明,因而不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤,例如可以执行图1或图6中任意一个或多个步骤。
该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本公开的示例性实施方式还提供了一种电子设备,下面参考图8对该电子设备进行说明。应当理解,图8显示的电子设备800仅仅是一个示例,不应对本本公开实施方式的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,存储单元存储有程序代码,程序代码可以被处理单元810执行,使得处理单元810执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元810可以执行如图2所示的方法步骤等。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备800也可以与一个或多个外部设备870(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims (13)

1.一种文案生成方法,其特征在于,包括:
获取第一文案语料,根据所述第一文案语料生成初始文案集合,所述初始文案集合中每个文案配置有标签;
获取第二文案语料,从所述第二文案语料中提取热点词,得到热点词集合;
将所述初始文案集合与所述热点词集合组合,生成目标文案集合。
2.根据权利要求1所述的文案生成方法,其特征在于,所述方法,还包括:
对所述目标文案集合中的文案进行扩充,获得与所述目标文案集合中的文案内容相似的相似文案,构成相似目标文案集合。
3.根据权利要求1所述的文案生成方法,其特征在于,根据所述第一文案语料生成初始文案集合包括:
根据所述第一文案语料,通过基于BERT的有条件文案生成模型生成所述初始文案集合。
4.根据权利要求1所述的文案生成方法,其特征在于,从所述第二文案语料中提取热点词包括:
统计所述第二文案语料中每个语料的点击率;
将所述第二文案语料中点击率超过阈值的语料确定为所述热点词。
5.根据权利要求1所述的文案生成方法,其特征在于,获取第二文案语料,从所述第二文案语料中提取热点词包括:
获取用户搜索日志数据,对所述搜索日志数据进行清洗,获得所述第二文案语料;
获取所述第二文案语料中每个语料的内容,根据所述内容提取所述热点词。
6.根据权利要求5所述的文案生成方法,其特征在于,获取所述第二文案语料中每个语料的内容,根据所述内容提取所述热点词包括:
对所述第二文案语料中每个语料进行分类,获得数据类别语料;
对所述数据类别语料进行分词,并去除停用词,获得关键词;
根据所述关键词出现的频率确定所述热点词。
7.根据权利要求1所述的文案生成方法,其特征在于,从所述第二文案语料中提取热点词包括:
获取所述第二文案语料中每个语料的用户行为数据,根据所述用户行为数据确定所述热点词。
8.根据权利要求7所述的文案生成方法,其特征在于,获取预设时间段内,用户对所述第二文案语料中每个语料的搜索次数,将所述搜索次数确定为所述用户行为数据。
9.根据权利要求7所述的文案生成方法,其特征在于,根据所述用户行为数据确定所述热点词包括:
根据所述用户行为数据确定用户搜索热点;
将含意相似的所述用户搜索热点进行聚类,获得所述热点词。
10.一种文案生成装置,其特征在于,包括:
有条件文案生成模块,用于获取第一文案语料,根据所述第一文案语料生成初始文案集合,所述初始文案集合中每个文案配置有标签;
热点词获取模块,用于获取第二文案语料,从所述第二文案语料中提取热点词,得到热点词集合;
文案组合模块,用于将所述初始文案集合与所述热点词集合组合,生成目标文案集合。
11.根据权利要求10所述的文案生成装置,其特征在于,还包括:
相似文案生成模块,用于对所述目标文案集合中的文案进行扩充,获得与所述目标文案集合中的文案内容相似的相似文案,构成相似目标文案集合。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的文案生成方法。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任一项所述的文案生成方法。
CN202011475011.7A 2020-12-14 2020-12-14 文案生成方法及装置、存储介质与电子设备 Pending CN112487151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011475011.7A CN112487151A (zh) 2020-12-14 2020-12-14 文案生成方法及装置、存储介质与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011475011.7A CN112487151A (zh) 2020-12-14 2020-12-14 文案生成方法及装置、存储介质与电子设备

Publications (1)

Publication Number Publication Date
CN112487151A true CN112487151A (zh) 2021-03-12

Family

ID=74916271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011475011.7A Pending CN112487151A (zh) 2020-12-14 2020-12-14 文案生成方法及装置、存储介质与电子设备

Country Status (1)

Country Link
CN (1) CN112487151A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535927A (zh) * 2021-07-30 2021-10-22 杭州网易智企科技有限公司 获取相似文本的方法、介质、装置和计算设备
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN117391776A (zh) * 2023-10-17 2024-01-12 北京维科维众科技发展有限公司 广告投放方法及装置、电子设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033266A (zh) * 2018-07-09 2018-12-18 北京三快在线科技有限公司 信息投放方法、装置、电子设备及计算机可读介质
CN109522531A (zh) * 2017-09-18 2019-03-26 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN110245350A (zh) * 2019-05-29 2019-09-17 阿里巴巴集团控股有限公司 文案改写与更新方法、装置及设备
CN110263161A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 一种信息的处理方法、装置及设备
CN110555199A (zh) * 2018-06-01 2019-12-10 北京百度网讯科技有限公司 基于热点素材的文章生成方法、装置、设备及存储介质
CN110852793A (zh) * 2019-10-28 2020-02-28 北京深演智能科技股份有限公司 文案推荐方法及装置、电子设备
CN111768234A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN111832275A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522531A (zh) * 2017-09-18 2019-03-26 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN110555199A (zh) * 2018-06-01 2019-12-10 北京百度网讯科技有限公司 基于热点素材的文章生成方法、装置、设备及存储介质
CN109033266A (zh) * 2018-07-09 2018-12-18 北京三快在线科技有限公司 信息投放方法、装置、电子设备及计算机可读介质
CN110245350A (zh) * 2019-05-29 2019-09-17 阿里巴巴集团控股有限公司 文案改写与更新方法、装置及设备
CN110263161A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 一种信息的处理方法、装置及设备
CN110852793A (zh) * 2019-10-28 2020-02-28 北京深演智能科技股份有限公司 文案推荐方法及装置、电子设备
CN111768234A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN111832275A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535927A (zh) * 2021-07-30 2021-10-22 杭州网易智企科技有限公司 获取相似文本的方法、介质、装置和计算设备
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN117391776A (zh) * 2023-10-17 2024-01-12 北京维科维众科技发展有限公司 广告投放方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US11544474B2 (en) Generation of text from structured data
US11070879B2 (en) Media content recommendation through chatbots
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN112487151A (zh) 文案生成方法及装置、存储介质与电子设备
Shankar et al. An overview and empirical comparison of natural language processing (NLP) models and an introduction to and empirical application of autoencoder models in marketing
US20130060769A1 (en) System and method for identifying social media interactions
US20110078554A1 (en) Webpage entity extraction through joint understanding of page structures and sentences
Ruokolainen et al. A comparative study of minimally supervised morphological segmentation
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
CN111859092A (zh) 文本语料扩增方法、装置、电子设备及存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
WO2024036840A1 (zh) 基于主题增强的开放域对话回复方法及系统
CN111414561A (zh) 用于呈现信息的方法和装置
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Qian et al. Tri-Training for authorship attribution with limited training data: a comprehensive study
Chen et al. Sentiment analysis of animated film reviews using intelligent machine learning
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
Wang et al. Rom: A requirement opinions mining method preliminary try based on software review data
Doitch et al. Perturbation based learning for structured NLP tasks with application to dependency parsing
CN114722267A (zh) 信息推送方法、装置及服务器
CN111753533B (zh) 标题文本生成方法、装置、计算机存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination