发明内容
有鉴于此,本申请实施例提供了一种标题生成方法、装置、电子设备和存储介质,以提高媒体内容投放的准确性。
第一方面,本申请实施例提供了一种标题生成方法,包括:
对于每个用户,获取该用户的用户画像数据;
将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率,其中,所述预设位置为目标标题包括的各个字符位置;
根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题。
可选地,所述用户画像数据包括:
该用户的性别、该用户在预设年龄段中所归属的年龄段、该用户所在区域、该用户的移动终端的操作系统类型、为该用户设定的兴趣标签。
可选地,所述将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率,包括:
对所述原始标题进行切字处理,得到所述原始标题包括的各个字符;
查询所述原始标题包括的各个字符在所述目标字典中对应的第一ID,以及所述用户画像数据包括的各项属性数据在所述目标字典中对应的第二ID;
将所述第一ID和所述第二ID作为输入参数输入到transformer模型,得到所述目标字典中的多个字符分别在各预设位置上的概率。
可选地,所述根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题,包括:
按照所述预设位置在所述目标标题中的先后顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中的第一个位置上的目标字符依据概率采样从所述目标字典中确定;所述目标标题中位于所述第一个位置之后的目标字符依据概率采样和位于该目标字符之前的字符的语义从所述目标字典中确定,直至得到最后一个目标字符。
可选地,所述方法还包括:
获取目标标题训练样本在所述用户画像数据包括的各项属性上的点击率;
根据所述点击率,确定所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据;
使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本;
使用所述模型训练样本对所述概率预测模型进行训练。
可选地,所述使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本,包括:
对所述原始标题训练样本进行切字处理,得到所述原始标题训练样本包括的各个字符;
查询所述原始标题训练样本包括的各个字符在所述目标字典中对应的第三ID,以及所述用户画像数据包括的各项属性上最高点击率对应的属性数据在所述目标字典中对应的第四ID;
使用所述第三ID和所述第四ID构建所述模型训练样本。
可选地,所述目标标题训练样本和所述原始标题训练样本归属于同一文案计划。
可选地,所述使用所述模型训练样本对所述概率预测模型进行训练,包括:
将所述模型训练样本作为输入参数,输入到所述概率预测模型中,得到用于表示输出语句的矩阵;
确定用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值的变化范围位于预设范围内。
第二方面,本申请实施例提供了一种标题生成装置,包括:
获取单元,用于对于每个用户,获取该用户的用户画像数据;
概率计算单元,用于将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率,其中,所述预设位置为目标标题包括的各个字符位置;
生成单元,用于根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题。
可选地,所述用户画像数据包括:
该用户的性别、该用户在预设年龄段中所归属的年龄段、该用户所在区域、该用户的移动终端的操作系统类型、为该用户设定的兴趣标签。
可选地,所述概率计算单元用于将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率时,包括:
对所述原始标题进行切字处理,得到所述原始标题包括的各个字符;
查询所述原始标题包括的各个字符在所述目标字典中对应的第一ID,以及所述用户画像数据包括的各项属性数据在所述目标字典中对应的第二ID;
将所述第一ID和所述第二ID作为输入参数输入到transformer模型,得到所述目标字典中的多个字符分别在各预设位置上的概率。
可选地,所述生成单元用于根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题时,包括:
按照所述预设位置在所述目标标题中的先后顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中的第一个位置上的目标字符依据概率采样从所述目标字典中确定;所述目标标题中位于所述第一个位置之后的目标字符依据概率采样和位于该目标字符之前的字符的语义从所述目标字典中确定,直至得到最后一个目标字符。
可选地,该装置还包括:
训练单元,用于获取目标标题训练样本在所述用户画像数据包括的各项属性上的点击率;以及,用于根据所述点击率,确定所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据;以及,用于使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本;以及,用于使用所述模型训练样本对所述概率预测模型进行训练。
可选地,所述训练单元用于使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本时,包括:
对所述原始标题训练样本进行切字处理,得到所述原始标题训练样本包括的各个字符;
查询所述原始标题训练样本包括的各个字符在所述目标字典中对应的第三ID,以及所述用户画像数据包括的各项属性上最高点击率对应的属性数据在所述目标字典中对应的第四ID;
使用所述第三ID和所述第四ID构建所述模型训练样本。
可选地,所述目标标题训练样本和所述原始标题训练样本归属于同一文案计划。
可选地,所述训练单元用于使用所述模型训练样本对所述概率预测模型进行训练时,包括:
将所述模型训练样本作为输入参数,输入到所述概率预测模型中,得到用于表示输出语句的矩阵;
确定用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值的变化范围位于预设范围内。
第三方面,本公开实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面所述的标题生成方法的步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面所述的标题生成方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请中,先获取各用户的用户画像数据,然后将该用户的用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符在各预设位置上的概率,然后根据上述得到的概率,从目标字典中选择出目标字符,以得到按照目标字符的选择顺序构成的目标标题,在上述方法中,是将用户画像数据和原始标题作为概率预测模型的输入参数的,因此在将用户画像数据和原始标题作为输入参数输入到概率预测模型中后,可以将目标字典中分别与用户画像数据和原始标题相匹配的字符确定为概率较高的字符,进一步的,在上述方法中,是以原始标题为标题方向,以用户画像数据为标题匹配依据从目标字典中确定各个字符在各预设位置上的概率,从而得到目标标题,因此得到的目标标题不仅包括原始标题中的实体内容,还能够与用户画像数据相匹配,由于不同的用户对应的用户画像是不同的,因此通过上述方法可以为不同的用户提供不同的目标标题,并且,生成的目标标题还是与用户的偏好相匹配的,进而有利于提高媒体内容投放的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
媒体内容(如:广告和文章等)在投放给用户之前,需要先确定媒体内容的媒体内容标题,在将媒体内容投放给用户之后,在用户的用户端上会显示该媒体内容的媒体内容标题,用户可以根据媒体内容标题的内容来确定是否打开该媒体内容。在目前技术中,在对多个用户投放同一媒体内容时,投放的媒体内容标题是相同的,这样会使多个用户的用户端上显示相同的媒体内容标题内容,但是,对于某一产品的媒体内容标题,不同的用户对媒体内容标题的关注点是不同的,以商品为例,有些用户关注商品的质量、有些用户关注商品的价格、有些用户关注的是是否引起其他人注意,还有些用户关注的是是否包邮等,因此,当媒体内容标题中包含用户的关注点时,用户大概率会打开该媒体内容进行查看,当媒体内容标题中不包含用户的关注点时,用户大概率不会打开该媒体内容进行查看,进而,对于同一媒体内容,当多个用户采用相同的媒体内容标题进行投放时,会降低媒体内容投放的准确性,进而会降低该媒体内容的点击率。
考虑到用户的关注点跟用户的偏好具有很大关系,而用户的偏好可以根据用户画像数据确定出来,因此为了解决上述问题,本申请提供了一种标题生成方法、装置、电子设备和存储介质,将各用户的用户画像数据和原始标题作为概率预测模型的输入参数,来确定各用户的目标标题,在上述方法中,是以原始标题为标题方向,以用户画像数据为标题匹配依据从目标字典中确定各个字符在各预设位置上的概率,从而得到目标标题,因此得到的目标标题不仅包括原始标题中的实体内容,还能够与用户画像数据相匹配,从而可以得到与用户的偏好相匹配的目标标题,并且还可以为不同的用户提供不同的目标标题,因此有利于提高媒体内容投放的准确性。
需要说明的是,本申请实施例中的用户为将要投放目标媒体内容的用户,关于将要投放目标媒体内容的用户的确定方式可以根据实际需要进行设定,举例说明,平台可以根据用户在平台上的行为信息为该用户设置标签,然后根据为用户设置的标签,将该用户的UID(User Identification,用户身份标识)设置到对应的人群包中,从而可以得到多个人群包,然后平台根据媒体内容投放商设定的媒体内容投放人群,确定出多个目标人群包,然后从多个目标人群包中圈选出符合要求的用户,以作为将要投放目标媒体内容的用户,例如:当平台根据用户在平台上的行为信息确定该用户的年龄为18岁、所在位置为北京,兴趣爱好为骑行时,将该用户的UID设置到18岁对应的人群包、北京对应的人群包和骑行对应的人群包中,当媒体内容投放商在该平台投放目标媒体内容为自行车,目标媒体内容的投放人群为18岁爱好骑行的北京青年时,确定出来的人群包包括:18岁对应的人群包、北京对应的人群包和骑行对应的人群包,然后对上述三个人群包进行圈选,得到同时存在于上述三个人群包的用户,并将圈选出来的用户作为将要投放目标媒体内容的用户,或者是将整个平台下的用户都作为将要投放目标媒体内容的用户等,具体确定将要投放目标媒体内容的用户的方法在此不做具体限定。
需要再次说明的是,本申请实施例中的原始标题为目标媒体内容的初始标题,所有将要投放目标媒体内容的用户对应的原始标题是相同的,原始标题可以是媒体内容投放商设定的。
以下是对本申请实施例的详细说明。
实施例一
图1为本申请实施例一提供的一种标题生成方法的流程示意图,如图1所示,该标题生成方法包括以下步骤:
步骤101、对于每个用户,获取该用户的用户画像数据。
步骤102、将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率,其中,所述预设位置为目标标题包括的各个字符位置。
步骤103、根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题。
具体的,媒体内容投放商在投放媒体内容之前需要给出一个完整媒体内容,该媒体内容包括媒体内容正文和媒体内容标题(即:原始标题),以衣服为例,媒体内容正文为售卖该衣服的页面中的内容,媒体内容标题为“这衣服太好看了,高档,不起球,货到付款”,以家用轿车为例,媒体内容正文为售卖该轿车的页面中的内容,媒体内容标题为“这轿车大气,有面,可分期慢慢还!”,在得到上述的完整媒体内容后,需要根据媒体内容中的原始标题得到与各个用户对应的目标标题之后再进行投放。
在得到原始标题后,先确定出各用户的用户画像数据,以及设定将要生成的目标标题的最大字数,其中,用户画像数据包括的属性可以有:用户性别、年龄、所在城市等内容,在确定出各用户的用户画像数据和目标标题的最大字数后,对于每个用户,将该用户的用户画像数据和原始标题作为输入参数输入到概率预测模型中,然后利用概率预测模型得到目标字典中各个字符在最大字数的标题上的各预设位置上的概率,例如:当设定的目标标题的最大字数为20个时,在将该用户的用户画像数据和原始标题作为输入参数输入到概率预测模型后,可以得到目标字典中的各个字符在第一个字符位置上的概率,目标字典中的各个字符在第二个字符位置上的概率,直至得到目标字典中的各个字符在第二十个字符位置上的概率,由于目标字典中不同字符在不同字符位置上与输入参数的关联程度不同,因此对于同一个字符位置,得到的目标字典中的各个字符的概率是不同的,并且对于不同字符位置,目标字典中的同一字符的概率也是不同的,以目标字典中的“我”和“他”这两字符为例,当目标标题的最大字数为5时,对于第一个字符位置,“我”的概率可能是0.9,“他”的概率可能为0.8,对于第二字符位置,“我”的概率可能是0.7,“他”的概率可能为0.8,对于第三字符位置,“我”的概率可能是0.1,“他”的概率可能为0.3,对于第四字符位置,“我”的概率可能是0.5,“他”的概率可能为0.9,对于第五字符位置,“我”的概率可能是0.1,“他”的概率可能为0.8。
在得到目标字典中各个字符在最大字数的标题上的各预设位置上的概率后,根据上述得到的概率,从目标字典中选择出目标字符,然后按照目标字符在目标标题的字符位置上的位置生成目标标题,例如:目标标题的最大字数为20,确定出来的目标字符数量可能为10个,或者也可能为15个,并且,每个目标字符都对应一个字符位置,且目标字符是按照字符位置的先后顺序依次确定出来的,因此可以根据目标字符的选择顺序构成目标题目。
在上述方法中,是将用户画像数据和原始标题作为概率预测模型的输入参数的,因此在将用户画像数据和原始标题作为输入参数输入到概率预测模型中后,可以将目标字典中分别与用户画像数据和原始标题相匹配的字符确定为概率较高的字符,进一步的,在上述方法中,是以原始标题为标题方向,以用户画像数据为标题匹配依据从目标字典中确定各个字符在各预设位置上的概率,从而得到目标标题,因此得到的目标标题不仅包括原始标题中的实体内容,还能够与用户画像数据相匹配,例如:原始标题为:这衣服太好看了,高档,不起球,货到付款,用户画像数据包括的属性有:性别:女,年龄:18-24岁,地点:北京,得到的目标标题可能为:穿这款衣服,合身漂亮!舒适,不臃肿!北京99元4件,得到的目标标题中包括衣服这个实体,并且目标标题中还包括与各属性相匹配的内容,因此生成的目标标题是与该用户的偏好相匹配的,因此有利于提高该用户点击该目标标题的概率,并且,由于不同的用户对应的用户画像是不同的,因此通过上述方法可以为不同的用户提供不同的目标标题,以原始标题为:这衣服太好看了,高档,不起球,货到付款为例,对于其他用户得到的目标标题可能为:超漂亮的外套,同时都夸这衣服好,北京限时买一送一,由于针对不同的用户会生成不同的目标标题,且该目标标题是与对应的用户的偏好相匹配的,因此各用户点击其对应的目标标题的概率都会较大,从而有利于提高媒体内容投放的准确性。
在得到目标标题后,可以将目标标题作为媒体内容标题和媒体内容正文封装成媒体内容投放给与该目标标题对应的用户的用户端。
需要说明的是,各用户的用户画像数据可以根据该用户在平台上的行为数据和注册数据进行确定,关于用户画像数据的具体得到方式在此不做具体限定。
需要再次说明的是,输入参数在输入概率预测模型前可以根据实际需要对输入参数进行转换,例如:确定出用户画像数据整体对应的向量和原始标题对应的向量,然后对上述两个向量进行拼接处理,将拼接后的向量输入到概率预测模型中,或者是先确定出用户画像数据包括的各属性的向量,以及对原始标题进行切词处理后得到的原始标题包括的各个词的词向量,然后将上述两种向量输入到概率预测模型中,关于输入参数在输入到概率预测模型之前进行何种处理在此不做具体限定,并且,关于具体使用的概率预测模型在此不做具体限定。
需要提醒的是,关于目标标题的最大字数可以根据实际需要进行设定,在此不做具体限定。
需要再次说明的是,用户在点击用户端上显示的媒体内容标题后,可以在用户端上直接显示媒体内容内容,例如:产品说明,或者也可以在用户端上进行跳转后显示媒体内容内容,例如:产品售卖的页面,关于用户在点击用户端上显示的媒体内容标题后的显示内容在此不做具体限定。
在一个可行的实施方案中,所述用户画像数据包括:该用户的性别、该用户在预设年龄段中所归属的年龄段、该用户所在区域、该用户的移动终端的操作系统类型、为该用户设定的兴趣标签。
具体的,当用户画像数据包括上述属性时,可以针对上述所有的属性来针对性的生成目标标题,从而使生成的目标标题更加符合用户的需求,以用户画像数据包括的属性为:性别:女,年龄:18-24岁,地点:北京,得到的目标标题为:穿这款衣服,合身漂亮!舒适,不臃肿!北京99元4件,该用户为年轻的女性,并且可能非常注重仪表,同时该用户所在的地区为生活品质较高的地区,因此上述生成的目标标题不仅满足了年轻女性的基本需求,还兼顾了该用户穿着感受,以及该用户所在地区售卖方式等内容,因此生成的目标标题能够直击该用户的痛点,从而使该用户大概率点击该媒体内容,从而有利于提高媒体内容投放的准确性。
需要说明的是,用户画像数据还可以包括其他属性,例如:职业,关于用户画像数据具体包含的属性可以根据实际需要进行设定,在此不做具体限定。
在一个可行的实施方案中,图2为本申请实施例一提供的另一种标题生成方法的流程示意图,如图2所示,在执行步骤102时,可以通过以下步骤实现:
步骤201、对所述原始标题进行切字处理,得到所述原始标题包括的各个字符。
步骤202、查询所述原始标题包括的各个字符在所述目标字典中对应的第一ID(Identification,身份标识),以及所述用户画像数据包括的各项属性数据在所述目标字典中对应的第二ID。
步骤203、将所述第一ID和所述第二ID作为输入参数输入到transformer模型,得到所述目标字典中的多个字符分别在各预设位置上的概率。
具体的,目标字典中包括的各个字符都配置有对应的ID,通过ID可以找到目标字典中对应的字符,为了降低数据处理量,可以先对原始标题进行切字处理,得到原始标题包括的各个字符,然后查询各个字符在目标字典中对应的第一ID,以及用户画像数据包括的各项属性数据在目标字典中对应的第二ID,例如:媒体内容标题包括的字符为“这”、“衣服”、“太”、“好”、“看”、“了”,用户画像数据包括的各项属性数据为“女”、“18”、“北京”时,分别从目标字典中确定上述字符对应的ID,然后将确定出来的ID输入到transformer模型,以得到目标字典中的各个字符在各预设位置上的概率,在上述方法中使用ID对字符进行替换,并且ID的表示方式比字符的表示方式更加简单,因此有利于降低数据处理量。
在一个可行的实施方案中,在执行步骤103时,按照所述预设位置在所述目标标题中的先后顺序,从所述目标字典中依次确定所述目标字符;其中,所述目标标题中的第一个位置上的目标字符依据概率采样从所述目标字典中确定;所述目标标题中位于所述第一个位置之后的目标字符依据概率采样和位于该目标字符之前的字符的语义从所述目标字典中确定,直至得到最后一个目标字符。
具体的,在确定出目标字典中的各个字符在各字符位置上的概率后,需要先从目标字典中确定第一个字符位置上的目标字符,在确定第一个字符位置上的目标字符时,可以直接通过概率采样的方式从目标字典中确定,在确定出第一个字符位置上的目标字符后,再从目标字典中确定第二个字符位置上的目标字符,在确定第二个字符位置上的目标字符时依据第一个字符位置上的目标字符的语义,通过概率采样的方式从目标字典中确定,使得第二个字符位置上的目标字符和第一个字符位置上的目标字符具有语义关系,从目标字典中确定第三个字符位置上的目标字符时,在确定第三个字符位置上的目标字符时依据前两个字符位置上的目标字符的语义,通过概率采样的方式从目标字典中确定,使得第三个字符位置上的目标字符和前两个字符位置上的目标字符具有语义关系,以此类推,直至得到最后一个目标字符。
需要说明的是,本申请实施例中设定了目标标题的最大字数,最后一个目标字符所在的字符位置位于最大字符位置之前,例如:最大字数为20时,根据语义,最后一个目标字符所在字符位置可能是第8个字符位置,或者也可能是第10个字符位置。
在一个可行的实施方案中,图3为本申请实施例一提供的另一种标题生成方法的流程示意图,如图3所示,在执行步骤101之前,该方法还包括以下步骤:
步骤301、获取目标标题训练样本在所述用户画像数据包括的各项属性上的点击率。
步骤302、根据所述点击率,确定所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据。
步骤303、使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本。
步骤304、使用所述模型训练样本对所述概率预测模型进行训练。
具体的,在使用概率预测模型之前,需要对概率预测模型进行训练,在对概率预测模型进行训练时,需要先构建模型训练样本。在构建一个模型训练样本之前,先设定原始标题训练样本,以及与该原始标题训练样本对应的目标标题训练样本,然后将目标标题训练样本投放出去,并获取该目标标题训练样本在用户画像数据包括的各项属性上的点击率,然后确定出各项属性上点击率最高的属性数据,例如:当原始标题训练样本为“这衣服太好看了,高档,不起球,货到付款”,目标标题训练样本为“穿这款衣服,合身漂亮!舒适,不臃肿!北京99元4件”时,将该目标标题训练样本投放出去后,性别女的点击率为2%,性别男的点击率为1%,年龄在18岁以下的点击率为1%,年龄在18-24岁以下的点击率为1%,年龄在24-30岁以下的点击率为2%,确定出来的属性数据为:年龄在24-30岁的女性,通过上述方式确定出该目标标题训练样本投放效果最好的属性数据。
在确定出各目标标题训练样本投放效果最好的属性数据后,对于每个目标标题训练样本,将与该目标标题训练样本对应的原始标题训练样本和该目标标题训练样本投放效果最好的属性数据构建为一个模型训练样本,以目标标题训练样本为“穿这款衣服,合身漂亮!舒适,不臃肿!北京99元4件”,原始标题训练样本为“这衣服太好看了,高档,不起球,货到付款”为例,确定出目标标题训练样本投放效果最好的属性数据为:年龄在24-30岁的女性后,然后使用“这衣服太好看了,高档,不起球,货到付款”和年龄在24-30岁的女性来构建模型训练样本,得到的模型训练样本为:这衣服太好看了,高档,不起球,货到付款+24-30岁女性,然后使用上述得到的模型训练样本对概率预测模型进行训练。
需要说明的是,在对概率预测模型进行训练时,每个模型训练样本可以使用多次,关于具体的训练方式在此不做具体限定。
在一个可行的实施方案中,图4为本申请实施例一提供的另一种标题生成方法的流程示意图,如图4所示,在执行步骤303时,可以通过以下步骤实现:
步骤401、对所述原始标题训练样本进行切字处理,得到所述原始标题训练样本包括的各个字符。
步骤402、查询所述原始标题训练样本包括的各个字符在所述目标字典中对应的第三ID,以及所述用户画像数据包括的各项属性上最高点击率对应的属性数据在所述目标字典中对应的第四ID。
步骤403、使用所述第三ID和所述第四ID构建所述模型训练样本。
关于图4所示内容的详细原理可参考图2所示内容的相关说明,在此不再详细说明,通过上述方法可以降低数据处理量,加快数据处理速度。
在一个可行的实施方案中,所述目标标题训练样本和所述原始标题训练样本归属于同一文案计划。
具体的,在设定原始标题训练样本,以及与该原始标题训练样本对应的目标标题训练样本时,该原始标题训练样本和该目标标题训练样本是基于同一个文案计划主题下的标题,以衣服为例,原始标题训练样本可以为“这衣服太好看了,高档,不起球,货到付款”,目标标题训练样本可以为“穿这款衣服,合身漂亮!舒适,不臃肿!北京99元4件”,或者是“超漂亮的外套,同时都夸这衣服好,北京限时买一送一”,以家用轿车为例,原始标题训练样本可以为“这轿车大气,有面,可分期慢慢还!”,目标标题训练样本可以为“终于可以有自己的车子了,还可以分期付款,太棒了!”,按照上述方式设定原始标题训练样本和目标标题训练样本后,可以使模型训练样本中的内容比较统一,从而达到较好的训练效果。
在一个可行的实施方案中,图5为本申请实施例一提供的另一种标题生成方法的流程示意图,如图5所示,在执行步骤304时,可以通过以下步骤实现:
步骤501、将所述模型训练样本作为输入参数,输入到所述概率预测模型中,得到用于表示输出语句的矩阵。
步骤502、确定用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值。
步骤503、将所述损失值作为输入参数,输入到指定的反向传播算法中。
步骤504、使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值的变化范围位于预设范围内。
具体的,在将模型训练样本输入到概率预测模型后,概率预测模型对模型训练样本进行处理后可以得到输出语句的矩阵,该矩阵能够表示输出语句,即:输出的标题,为了使输出的标题与设定的目标标题训练样本比较接近,需要计算输出语句的矩阵和目标标题训练样本对应的矩阵之间的损失值,然后将损失值作为输入参数通过反向传播算法对概率预测模型中的可学习参数进行调整,以上为一次训练过程,在经过多次训练后,可以对可学习参数进行调整,并且每次调整后都可以减小输出的语句的矩阵与目标标题训练样本对应的矩阵之间的损失值,直至损失值预设范围内,此时则完成了训练,使用训练完成的概率预测模型再次得到的输出语句能够与目标标题训练样本基本相同,或者能够表示基本相同的语义,从而在使用训练完成的概率预测模型生成目标标题时,可以使目标标题与预想的标题基本一致。
实施例二
图6为本申请实施例二提供的一种标题生成装置的结构示意图,如图6所示,该装置包括:
获取单元61,用于对于每个用户,获取该用户的用户画像数据;
概率计算单元62,用于将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率,其中,所述预设位置为目标标题包括的各个字符位置;
生成单元63,用于根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题。
在一个可行的实施方案中,所述用户画像数据包括:
该用户的性别、该用户在预设年龄段中所归属的年龄段、该用户所在区域、该用户的移动终端的操作系统类型、为该用户设定的兴趣标签。
在一个可行的实施方案中,所述概率计算单元62用于将所述用户画像数据和原始标题作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的多个字符分别在各预设位置上的概率时,包括:
对所述原始标题进行切字处理,得到所述原始标题包括的各个字符;
查询所述原始标题包括的各个字符在所述目标字典中对应的第一ID,以及所述用户画像数据包括的各项属性数据在所述目标字典中对应的第二ID;
将所述第一ID和所述第二ID作为输入参数输入到transformer模型,得到所述目标字典中的多个字符分别在各预设位置上的概率。
在一个可行的实施方案中,所述生成单元63用于根据所述概率,从所述目标字典中选择出目标字符,以得到按照所述目标字符的选择顺序构成的目标标题时,包括:
按照所述预设位置在所述目标标题中的先后顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中的第一个位置上的目标字符依据概率采样从所述目标字典中确定;所述目标标题中位于所述第一个位置之后的目标字符依据概率采样和位于该目标字符之前的字符的语义从所述目标字典中确定,直至得到最后一个目标字符。
在一个可行的实施方案中,图7为本申请实施例二提供的另一种标题生成装置的结构示意图,如图7所示,该装置还包括:
训练单元64,用于获取目标标题训练样本在所述用户画像数据包括的各项属性上的点击率;以及,用于根据所述点击率,确定所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据;以及,用于使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本;以及,用于使用所述模型训练样本对所述概率预测模型进行训练。
在一个可行的实施方案中,所述训练单元64用于使用原始标题训练样本和所述目标标题训练样本在所述用户画像数据包括的各项属性上最高点击率对应的属性数据构建模型训练样本时,包括:
对所述原始标题训练样本进行切字处理,得到所述原始标题训练样本包括的各个字符;
查询所述原始标题训练样本包括的各个字符在所述目标字典中对应的第三ID,以及所述用户画像数据包括的各项属性上最高点击率对应的属性数据在所述目标字典中对应的第四ID;
使用所述第三ID和所述第四ID构建所述模型训练样本。
在一个可行的实施方案中,所述目标标题训练样本和所述原始标题训练样本归属于同一文案计划。
在一个可行的实施方案中,所述训练单元64用于使用所述模型训练样本对所述概率预测模型进行训练时,包括:
将所述模型训练样本作为输入参数,输入到所述概率预测模型中,得到用于表示输出语句的矩阵;
确定用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的用于表示输出语句的矩阵和所述目标标题训练样本对应的矩阵之间的损失值的变化范围位于预设范围内。
关于实施例二的原理说明可参考实施例一的相关解释,在此不做具体限定。
通过上述方法可以为不同的用户提供不同的目标标题,并且,生成的目标标题还是与用户的偏好相匹配的,进而有利于提高媒体内容投放的准确性。
实施例三
图8为本申请实施例三提供的一种电子设备的结构示意图,包括:处理器801、存储介质802和总线803,所述存储介质802存储有所述处理器801可执行的机器可读指令,当电子设备运行上述的标题生成方法时,所述处理器801与所述存储介质802之间通过总线803通信,所述处理器801执行所述机器可读指令,以执行实施例一中任一所述的方法的步骤。
实施例四
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中任一所述的方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。