具体实施方式
现在将参考各实施例讨论本文描述的主题。应当理解的是,讨论这些实施例仅是为了使得本领域技术人员能够更好地理解并且实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者例子的限制。可以在不脱离权利要求书的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个实施例可以根据需要,省略、替换或者添加各种过程或组件。
目前,可以通过互联网向用户终端传送各种各样的信息。例如,可以向用户终端传送文案,使得用户能够方便地了解文案所描述的对象,从而达到推广该对象的目的。在本文中,对象可以指代可交易或可推荐的东西,比如实体或虚拟商品、服务等等。
然而,如果盲目地向用户终端传送信息,不仅可能干扰用户,而且所传送的信息也很容易被用户忽略,达不到相应的信息提供效果。
鉴于此,本说明书提供了一种用于信息处理的技术方案。在该技术方案中,主要针对文案中包括的文本信息进行处理。
下面将结合具体实施例来详细描述该技术方案。
图1是根据一个实施例的用于信息处理的方法的示意性流程图。
如图1所示,在步骤102中,可以确定针对对象的文案的M条候选文本信息,M可以是大于1的正整数。
M条候选文本信息至少可以包括第一组候选文本信息和第二组候选文本信息。
第一组候选文本信息可以是基于K条初始文本信息的评估数据而从K条初始文本信息中选择的。K条初始文本信息可以是基于该对象的素材信息生成的。K条初始文本信息的评估数据可以用于指示目标用户对K条初始文本信息的预期偏好度。K可以为正整数。
第二组候选文本信息可以包括与该对象相关的新词汇。例如,新词汇在针对该对象的历史文案中的使用频率可以低于预定阈值。该预定阈值可以是根据实际需求、具体应用场景等等来确定的。
在步骤104中,可以向测试用户的用户终端发送M条候选文本信息,以便在用户终端上向测试用户呈现M条候选文本信息。
例如,测试用户可以是目标用户中的一部分用户。关于测试用户的选择、具体数量等可以根据实际需求、应用场景等等各种因素来确定。
通常,被安装在用户终端上的应用程序(可以简称为APP)在用户终端上运行时,其可以包括显示页面。显示页面可以包括用于呈现文案的区域,该区域通常可以被称为渠道。也就是说,渠道可以包括在该显示页面中用于呈现文案的区域。例如,在用于移动支付的应用程序中,渠道可以包括位于首页的中间区域,这种情况下,目标用户可以包括使用该应用程序的普通用户。再例如,渠道可以包括位于该应用程序的其它频道页的中间区域,比如“理财”频道页的中间区域,在这种情况下,目标用户可以包括更为关注理财的用户。因此,在本文中,目标用户可以理解为渠道的目标用户。
那么,可以理解的是,在步骤104中,可以向安装在测试用户的用户终端的应用程序发送M条候选文本信息,这样可以通过渠道向测试用户呈现M条候选文本信息。
在步骤106中,可以从用户终端获取测试用户对M条候选文本信息的操作行为数据。例如,操作行为数据可以指示测试用户对M条候选文本信息的点击率。
在步骤108中,可以基于操作行为数据,从M条候选文本信息中选择N条候选文本信息,作为要应用于文案的最终文本信息。N可以为正整数。
在该技术方案中,一方面,可以至少基于目标用户的预期偏好度和新词汇这两个因素来确定针对文案的候选文本信息,能够确保候选文本信息的多样性并且避免数据稀疏问题。另一方面,可以通过向测试用户传送候选文本信息,然后基于测试用户对候选文本信息的操作行为数据来选择要应用于文案的最终文本信息,能够确保最终得到的文案的可靠性和精准性,由此能够向目标用户提供其感兴趣的信息,有效地提升用户体验并且避免资源浪费。
例如,在对象为商品时,这种技术方案能够有效地提升目标用户对文案的点击行为,进而提升商品的推广效果。
可以理解的是,步骤104和106实际上是在小流量上进行在线测试,这可以采用各种适用的算法来实现,例如,可以基于在线多臂老虎机(multi-arm bandit,MAB)算法来实现小流量在线测试。
在一个实施例中,在步骤102中提到的素材信息可以包括对象的卖点、与对象相关的热词、用户对文本信息的偏好元素等等。可以根据对象的详情和/或点评数据、用户对历史文案中的历史文本信息的操作行为数据(例如,点击率)、历史文本信息等各种适用的信息来得到对象的素材信息。可以理解的是,为了便于描述,在本文中将在历史文案中包括的文本信息称为历史文本信息。
比如,可以通过分词和词频-逆向文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)等技术,来挖掘对象的详情数据或点评数据等中的核心词汇,从而确定对象的卖点。再比如,可以对历史文本信息进行分词,并且解析用户的操作行为数据,来得到与对象相关的热词。再比如,可以通过解析用户对不同历史文本信息的点击行为,并且通过比较各个历史文本信息之间的差异,从而确定用户对文本信息的偏好元素。
在一个实施例中,在步骤102中,可以至少基于对象的素材信息来生成基础文本信息。例如,可以基于对象的素材信息来生成基础文本信息,例如,基础文本信息可以用于描述该对象。
或者,可以基于对象的素材信息与针对目标用户的权益信息的组合来生成基础文本信息,例如,基础文本信息可以描述该对象以及目标用户的权益。权益信息通常可以指示为用户分配的权益,比如,促销价格、优惠券等等。针对不同的用户,权益信息有可能是不同的。比如,针对上述目标用户的优惠券可以是100元,而针对其他用户的优惠券可以是50元。可以在基础文本信息中体现这样的权益信息。
之后,可以基于相似关键词库对基础文本信息进行扩充,来得到上述K条初始文本信息。
相似关键词库可以包括与基础文本信息中的关键词相似的关键词。当然,相似关键词库还可以包括各种关键词,比如与上述对象或类似对象相关的各种相似词汇。比如,可以基于历史文本信息、与对象相关的情景语料库等,通过分词、关键词提取、词性标注、词向量生成(例如,通过word2vec工具)等各种处理技术,来获得关键词向量。然后,可以基于适用的向量距离算法来计算同词性关键词之间的距离,从而得到各个关键词的同词性相似关键词,由此构建相似关键词库。
这样,通过基于多样的数据来得到对象的素材信息,并且通过相似关键词库来扩展基于对象的素材信息生成的基础文本信息,能够得到丰富的初始文本信息,并且也能够保证文本信息的质量。
在一个实施例中,在步骤102中,K条初始文本信息的评估数据可以是利用偏好模型来确定的。评估数据可以用于指示目标用户对K条初始文本信息的预期偏好度。例如,可以首先利用偏好模型来预估单个目标用户对各条初始文本信息的偏好度,然后将各个目标用户的偏好度进行综合分析,从而得到目标用户对各条初始文本信息的偏好度,在本文中为了便于描述,将该偏好度称为预期偏好度。
偏好模型可以是基于以下各项中的至少一项,通过各种适用的机器学习算法来构建的:历史文本信息的文本特征、渠道的时序特征、历史文本信息的时序特征、目标用户的属性特征、渠道的属性特征、该对象的属性特征、目标用户对历史文本信息的操作行为标签数据等。
例如,可以通过对历史文本信息进行分词,将其转换为词向量,然后通过将词向量进行加权得到历史文本信息的文本特征。结合渠道的目标用户在某个时间段内对历史文本信息的点击量,可以获得渠道的时序特征和历史文本信息的时序特征。目标用户的属性特征可以包括目标用户的年龄、职业、性别等各种特征。渠道的属性特征可以包括目标用户在一时间段内在该渠道上的曝光次数、目标用户的点击数量、该渠道是否是目标用户的常访问渠道等等。对象的属性特征可以包括颜色、大小、功能等等各种特征。目标用户对历史文本信息的操作行为标签数据可以包括带有“点击”、“未点击”等标签的数据。
偏好模型可以基于数据的积累而不断地更新,以便进一步提高偏好模型的预测准确度。
在一个实施例中,在步骤102中,可以从K条初始文本信息中选择预期偏好度最高的前J条初始文本信息作为第一组候选文本信息,其中J为正整数。例如,可以按照目标用户的预期偏好度从高到低的次序,对K条初始文本信息进行排序。然后,可以选择前一条或多条初始文本信息作为第一组候选文本信息。比如,可以选择预期偏好度最高的第一条初始文本信息作为第一组候选文本信息,或者可以选择预期偏好度最高的前两条或三条初始文本信息作为第一组候选文本信息。第一组候选文本信息的数量可以是预先设定的,或者可以根据实际需求或应用场景等各种因素来动态地决定。
在一个实施例中,除了上述两组候选文本信息之外,还可以考虑历史文本信息。具体地,上述M条候选文本信息还可以包括第三组候选文本信息。第三组候选文本信息可以包括历史文本信息中的目标用户的操作行为最多的前L条历史文本信息,L为正整数。例如,操作行为可以包括点击行为。操作行为可以使用点击率来度量。比如,可以按照目标用户的点击率从高到低的次序,将历史文本信息进行排序。然后,可以选择点击率最高的一条历史文本信息作为第三组候选文本信息,或者可以选择点击率最高的前两条或三条历史文本信息作为第三组候选文本信息。第三组候选文本信息的数量可以是预先设定的,或者可以根据实际需求或应用场景等各种因素来动态地决定。
可见,在该实施例中,M条候选文本信息综合考虑了目标用户的预期偏好度、与对象相关的新词汇以及历史文本信息,这样,不仅能够确保候选文本信息的多样性,而且使得要应用于文案的最终文本信息更为可靠和精准。这样,能够确保向目标用户传送其感兴趣的信息,有效地提升用户体验并且避免资源浪费。
在一个实施例中,在步骤108中,可以从M条候选文本信息中选择测试用户的操作行为最多的前N条候选文本信息作为N条最终文本信息。例如,可以按照测试用户的点击行为从高到低的次序,对M条候选文本信息进行排序。然后,可以选择前N条候选文本信息作为N条最终文本信息。N的取值可以是预先设定的,或者可以根据实际需求或应用场景等各种因素来动态地决定。
可见,通过依据小范围的在线测试结果来确定最终文本信息,能够确保最终文本信息对于目标用户而言更有针对性,从而能够提升用户体验并且避免资源浪费。
在一个实施例中,还可以构建可用文本信息库。可用文本信息库可以包括能够应用于针对该对象的文案的若干条文本信息。
例如,可以基于上述操作行为数据,确定在M条候选文本信息中测试用户所偏好的文本特点。比如,通过分析测试用户对M条候选文本信息的点击行为,和/或进一步结合M条候选文本信息之间的差异,能够确定测试用户对文本特点的偏好倾向性,比如对新词汇、网络热词等的偏好倾向性,关于对象的功能、价格等属性的偏好倾向性等等。
可以基于测试用户所偏好的文本特点,对K条初始文本信息进行优化,从而得到优化后的文本信息。比如,可以将用户所偏好的文本特点添加到初始文本信息中(比如可以将新词汇添加到初始文本信息中),可以从初始文本信息中删除用户不太感兴趣的文本特点,等等。然后,可以将优化后的文本信息存储到可用文本信息库中。这样,通过不断的优化或更新,可用文本信息库可以提供丰富且更为精准的文本信息。
在一个实施例中,第二组候选文本信息可以是从可用文本信息库中选择的。由于可用文本信息库是通过依据在线实验结果来不断优化得到的,这样,从其中选择的候选文本信息的质量也更为可靠。
在一个实施例中,在步骤108之后,还可以基于最终文本信息来生成最终文案。具体地,可以从用于渠道的历史图样中选择目标用户的操作行为最多的图样作为最终图样。例如,可以按照目标用户的点击行为从高到低的次序,将各个历史图样进行排序。然后,可以选择排在最前面的图样作为最终图样。例如,图样可以包括排版、配色、背景等等元素。
然后可以将N条最终文本信息与最终图样进行组合,生成针对该对象的文案。之后,可以向目标用户的用户终端发送该文案。如前所述,用户终端上可以安装各种应用程序。渠道可以包括在应用程序的显示页面中用于呈现文案的区域。例如,可以向安装在目标用户的用户终端上的应用程序发送所生成的文案,使得通过渠道向目标用户呈现该文案。
这样,可以通过结合历史最优图样来生成文案,能够进一步提升文案对于目标用户的针对性。
为了帮助本领域技术人员更好地理解上述技术方案,下面结合具体例子来描述上述技术方案。应当理解的是,下面的例子仅是说明性的,而非对上述技术方案进行限制。
图2A是根据一个实施例的用于文本信息生成的过程的示意性流程图。
如图2A所示,在步骤202A中,可以获取对象的素材信息和针对目标用户的权益信息。
例如,如前所述,可以根据对象的详情和/或点评数据、目标用户对历史文本信息的操作行为数据、历史文本信息等等各种适用的信息来得到该对象的素材信息。针对目标用户的权益信息可以预先设定的。
在步骤204A中,可以基于对象的素材信息和针对目标用户的权益信息,生成基础文本信息。
在步骤206A中,可以基于相似关键词库对基础文本信息进行扩充,以生成K条初始文本信息。
例如,如前所述,可以利用相似关键词来替换基础文本信息中的关键词,从而形成初始文本信息。
可见,在该实施例中,通过考虑多种多样的数据,使得生成的文本信息更为丰富。
图2B是根据一个实施例的用于文案处理的过程的示意性流程图。
如图2B所示,在步骤202B中,可以基于K条初始文本信息的评估数据,来从K条初始文本信息中选择第一组候选文本信息。评估数据可以指示目标用户对K条初始文本信息的预期偏好度。
例如,如前所述,可以从K条初始文本信息中选择预期偏好度最高的一条或多条初始文本信息作为第一组候选文本信息。评估数据可以是利用预先构建的偏好模型来确定的。
在步骤204B中,可以从可用文本信息库中选择第二组候选文本信息。
例如,第二组候选文本信息可以包括与该对象相关的新词汇,例如在针对该对象的历史文案中的使用频率低于预定阈值的词汇。
在步骤206B中,可以从历史文案中的历史文本信息中选择第三组候选文本信息。
例如,第三组候选文本信息可以包括历史文本信息中的目标用户的操作行为最多的一条或多条历史文本信息。
在步骤208B中,可以向测试用户的用户终端发送第一组候选文本信息、第二组候选文本信息和第三组候选文本信息。例如,测试用户可以是目标用户中的一部分用户。
例如,可以向在测试用户的用户终端上安装的应用程序发送这些候选文本信息,这样可以通过渠道来向测试用户呈现这些候选文本信息。
在步骤210B中,可以从测试用户的用户终端获取测试用户对三组候选文本信息的操作行为数据。例如,操作行为数据可以指示测试用户对三组候选文本信息的点击率。
在步骤212B中,可以基于操作行为数据,从M条候选文本信息中选择N条候选文本信息作为最终文本信息。N可以为正整数。
例如,可以确定测试用户对三组候选文本信息的点击率,然后从中选择点击率最高的前N条候选文本信息作为N条最终文本信息。例如,N的取值可以2或3。
在步骤214B中,可以确定最终图样。
例如,可以从用于渠道的历史图样中选择点击率最高的一个图样,作为最终图样。
在步骤216B中,可以基于N条最终文本信息和最终图样,生成针对该对象的文案。
例如,可以将N条最终文本信息和最终图样进行组合,从而生成文案。
在步骤218B中,可以向目标用户的用户终端发送该文案,以便通过渠道来向目标用户呈现该文案。
可见,在该实施例中,在针对小范围用户进行在线测试时,基于预期偏好度、新词汇、历史文本信息这三个方面来选择候选文本信息,不仅能够确保候选文本信息的多样性,而且能够确保最终文本信息的可靠性和精准性,这样也使得所得到的文案对于目标用户而言更有针对性,由此能够为目标用户提供其感兴趣的信息,避免资源浪费。
图3是根据一个实施例的用于信息处理的装置的示意性框图。
如图3所示,装置300可以包括第一确定单元302、发送单元304、获取单元306和选择单元308。
第一确定单元302可以确定针对对象的文案的M条候选文本信息,其中,M条候选文本信息至少可以包括第一组候选文本信息和第二组候选文本信息,M为大于1的正整数。
第一组候选文本信息可以是基于K条初始文本信息的评估数据而从K条初始文本信息中选择的。K条初始文本信息可以是基于对象的素材信息生成的。K条初始文本信息的评估数据可以用于指示目标用户对K条初始文本信息的预期偏好度,K为正整数。
第二组候选文本信息可以包括与对象相关的新词汇,新词汇在针对对象的历史文案中的使用频率低于预定阈值。
发送单元304可以向测试用户的用户终端发送M条候选文本信息,以便在用户终端上向测试用户呈现M条候选文本信息。
获取单元306可以从用户终端获取测试用户对M条候选文本信息的操作行为数据。
选择单元308可以基于操作行为数据,从M条候选文本信息中选择N条候选文本信息,作为要应用于文案的最终文本信息,其中N为正整数。
在该技术方案中,一方面,可以至少基于目标用户的预期偏好度和新词汇这两个因素来确定针对文案的候选文本信息,能够确保候选文本信息的多样性并且避免数据稀疏问题。另一方面,可以通过向测试用户传送候选文本信息,然后基于测试用户对候选文本信息的操作行为数据来选择要应用于文案的最终文本信息,能够确保最终得到的文案的可靠性和精准性,由此能够向目标用户提供其感兴趣的信息,有效地提升用户体验并且避免资源浪费。
在一个实施例中,M条候选文本信息还可以包括第三组候选文本信息。第三组候选文本信息可以包括历史文案中的目标用户的操作行为最多的前L条历史文本信息,L为正整数。
在一个实施例中,选择单元308可以从M条候选文本信息中选择测试用户的操作行为最多的前N条候选文本信息。
在一个实施例中,装置300还可以包括第二确定单元310、优化单元312和存储单元314。
第二确定单元310可以基于操作行为数据,确定在M条候选文本信息中测试用户所偏好的文本特点。优化单元312可以基于测试用户所偏好的文本特点,对K条初始文本信息进行优化,以得到优化后的文本信息。存储单元314可以将优化后的文本信息存储在可用文本信息库中。
在一个实施例中,第二组候选文本信息可以是从可用文本信息库中选择的。
在一个实施例中,第一组候选文本信息可以包括K条初始文本信息中的目标用户的预期偏好度最高的前J条初始文本信息,J为正整数。
在一个实施例中,评估数据可以是利用偏好模型来确定的。偏好模型可以是基于以下各项中的至少一项来构建的:历史文案中的历史文本信息的文本特征、渠道的时序特征、历史文本信息的时序特征、目标用户的属性特征、渠道的属性特征、对象的属性特征、目标用户对历史文本信息的操作行为标签数据。渠道可以包括在应用程序的显示页面中用于呈现文案的区域,应用程序可以被安装在目标用户的用户终端上。
在一个实施例中,第一确定单元302可以基于以下信息,生成基础文本信息:素材信息、或者素材信息与针对目标用户的权益信息的组合。第一确定单元302可以基于相似关键词库对基础文本信息进行扩充,以生成K条初始文本信息。相似关键词库可以包括与基础文本信息中的关键词相似的关键词。
在一个实施例中,装置300还可以包括生成单元316。选择单元308可以从用于渠道的历史图样中选择目标用户的操作行为最多的图样作为最终图样。生成单元316可以基于最终图样和最终文本信息,生成文案。发送单元304可以向目标用户的用户终端发送文案,以便通过渠道向目标用户呈现文案。
装置300的各个单元可以执行图1-2B的方法实施例中的相应步骤,因此,为了描述的简洁,装置300的各个单元的具体操作和功能此处不再赘述。
上述装置300可以采用硬件实现,也可以采用软件实现,或者可以通过软硬件的组合来实现。例如,装置300在采用软件实现时,其可以通过其所在设备的处理器将存储器(比如非易失性存储器)中对应的可执行指令读取到内存中运行来形成。
图4是根据一个实施例的用于信息处理的计算设备的硬件结构图。如图4所示,计算设备400可以包括至少一个处理器402、存储器404、内存406和通信接口408,并且至少一个处理器402、存储器404、内存406和通信接口408经由总线410连接在一起。至少一个处理器402执行在存储器404中存储或编码的至少一个可执行指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器404中存储的可执行指令在被至少一个处理器402执行时,使得计算设备实现以上结合图1-2B描述的各种过程。例如,通信接口408可以用于实现上述发送单元和获取单元的功能。处理器402可以用于实现上述第一确定单元、选择单元、第二确定单元、优化单元、存储单元和生成单元的功能。
计算设备400可以采用本领域任何适用的形式来实现,例如,其包括但不限于台式计算机、膝上型计算机、智能电话、平板计算机、消费电子设备、可穿戴智能设备等等。
本说明书的实施例还提供了一种机器可读存储介质。该机器可读存储介质可以存储有可执行指令,可执行指令在被机器执行时使得机器实现上面参照图1-2B描述的方法实施例的具体过程。
例如,机器可读存储介质可以包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、静态随机存取存储器(Static Random Access Memory,SRAM)、硬盘、闪存等等。
应当理解的是,本说明书中的各个实施例均采用递进的方式来描述,各个实施例之间相同或相似的部分相互参见即可,每个实施例重点说明的都是与其它实施例的不同之处。例如,对于上述关于装置的实施例、关于计算设备的实施例以及关于机器可读存储介质的实施例而言,由于它们基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上文对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分别由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
在整个本说明书中使用的术语“示例性”意味着“用作例子、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开内容的实施例的可选实施方式,但是,本公开内容的实施例并不限于上述实施方式中的具体细节,在本公开内容的实施例的技术构思范围内,可以对本公开内容的实施例的技术方案进行多种变型,这些变型均属于本公开内容的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的例子和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。