CN113343084A - 发文关键字段推送方法、装置、存储介质及计算机设备 - Google Patents

发文关键字段推送方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN113343084A
CN113343084A CN202110575040.9A CN202110575040A CN113343084A CN 113343084 A CN113343084 A CN 113343084A CN 202110575040 A CN202110575040 A CN 202110575040A CN 113343084 A CN113343084 A CN 113343084A
Authority
CN
China
Prior art keywords
key field
text
prediction
content
target author
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110575040.9A
Other languages
English (en)
Inventor
于吉士
邵佳帅
张子实
谭孟泷
陈松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110575040.9A priority Critical patent/CN113343084A/zh
Publication of CN113343084A publication Critical patent/CN113343084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种发文关键字段推送方法、装置、存储介质及计算机设备,其中方法包括:获取针对目标作者的至少一个预测关键字段;基于预先训练的发文能力模型获取各预测关键字段对应的发文能力值,并基于预先训练的发文质量模型获取各预测关键字段对应的发文质量值;基于各发文能力值以及各发文质量值,得到目标作者针对各预测关键字段对应的发文潜力值;基于各发文潜力值在至少一个预测关键字段中确定针对目标作者的发文关键字段,并向目标作者推送发文关键字段。采用本申请,提高所推送的发文关键字段准确性,提高内容平台的收益,进而保证内容平台的扩展。

Description

发文关键字段推送方法、装置、存储介质及计算机设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种发文关键字段推送方法、装置、存储介质及 计算机设备。
背景技术
随着计算机技术不断的开发和完善,手机、电脑等终端已经成为人们日常生活中必不可 少的设备,通过装载在终端中的内容应用,可以在内容平台上创作发文内容,而内容平台负 责将这些发文内容进行个性化分发以供用户浏览。通常,内容平台通过向作者推送发文关键 字段来指导作者发布发文内容,以达到调配平台内容供给的目的。然而,目前发文关键字段 的推送准确性不高,导致影响作者收益,进而影响了内容平台的扩展。
发明内容
本申请提供一种发文关键字段推送方法、存储介质及设备,提高了所推送的发文关键字 段的准确性,使得作者基于这些发文关键字段所创作的发文内容有足够的流量,能够保证作 者收益,间接提高了内容平台的收益,进而保证了内容平台的扩展。
第一方面,本申请实施例提供一种发文关键字段推送方法,包括:
获取针对目标作者的至少一个预测关键字段;
基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力值,并基于预先 训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
基于各所述发文能力值以及各所述发文质量值,得到所述目标作者针对各所述预测关键 字段对应的发文潜力值;
基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所述目标作者的发文 关键字段,并向所述目标作者推送所述发文关键字段。
第二方面,本申请实施例提供一种发文关键字段推送装置,包括:
预测字段获取模块,用于获取针对目标作者的至少一个预测关键字段;
发文值确定模块,用于基于预先训练的发文能力模型获取各所述预测关键字段对应的 发文能力值,并基于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
潜力值确定模块,用于基于各所述发文能力值以及各所述发文质量值,得到所述目标 作者针对各所述预测关键字段对应的发文潜力值;
发文字段推送模块,用于基于各所述发文潜力值在所述至少一个预测关键字段中确定 针对所述目标作者的发文关键字段,并向所述目标作者推送所述发文关键字段。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条 指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第四方面,本申请实施例提供一种计算机设备,包括:处理器和存储器;其中,所述存 储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。
在本申请实施例中,通过预先训练的发文能力模型和发文质量模型获取针对目标作者的 一个或多个预测关键字段的发文能力值以及发文质量值,从而得到每个预测关键字段的发文 潜力值,通过发文潜力值作为有效指标在至少一个预测关键字段中确定针对目标作者的发文 关键字段,并推送给目标作者,从而可以指导作者发布发文内容,提高了所推送的发文关键 字段的准确性,使得作者基于这些发文关键字段所创作的发文内容有足够的流量,能够保证 作者收益,间接提高了内容平台的收益,进而保证了内容平台的扩展。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一 些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他的附图。
图1为本申请实施例提供的一种发文关键字段推送的系统架构图;
图2为本申请实施例提供的一种发文关键字段推送方法的流程示意图;
图3为本申请实施例提供的一种发文关键字段推送方法的流程示意图;
图4为本申请实施例提供的一种发文关键字段推送方法的框架示意图;
图5为本申请实施例提供的一种发文关键字段推送装置的结构示意图;
图6为本申请实施例提供的一种发文关键字段推送装置的结构示意图;
图7为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附 图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本 申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出 创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,为本申请实施例提供了一种发文关键字段推送的系统架构图。如图1所示, 本申请实施例提供的发文关键字段推送方法可以应用于内容平台的场景中,所述内容平台中 存在作者、用户、发文内容这三个实体,其中,作者为内容平台提供发文内容,用户在内容 平台中浏览发文内容,发文内容与用户进行精准匹配,从实体结构可以具体划分为作者终端 设备、用户终端设备以及内容服务设备,作者终端设备与内容服务设备,以及用户终端设备 与内容服务设备之间可以通过网络相互连接。
作者终端设备具体可以为作者产生发文内容的设备,可以包括但不限于手机、个人电脑、 笔记本电脑、车载设备、可穿戴设备等具备内容生产功能在内的终端设备;所述用户终端设 备具体可以为用户浏览发文内容的设备,可以包括但不限于手机、个人电脑、笔记本电脑、 车载设备、可穿戴设备等具备内容浏览功能在内的终端设备;所述内容服务设备具体可以为 搭载了内容平台,且对作者产生的发文内容进行存储的后台服务设备,例如:服务器、服务 集群等;发文内容具体可以为由多媒体数据所组成的内容,多媒体数据可以包括但不限于视 频、图片、文字等。
本申请实施例以发文关键字段推送装置为执行主体,发文关键字段推送装置具体可以为 系统架构中的内容服务设备,也可以为内容服务设备中发文关键字段推送应用程序,具体提 供了一种发文关键字段推送方法,其中,发文关键字段推送装置获取针对目标作者的至少一 个预测关键字段,基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力 值,并基于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值,然后基于 各所述发文能力值以及各所述发文质量值,得到所述目标作者标识针对各所述预测关键字段 对应的发文潜力值,最后基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所 述目标作者标识的发文关键字段,向所述目标作者推送所述发文关键字段。通过预先训练的 发文能力模型和发文质量模型获取针对目标作者标识的一个或多个预测关键字段的发文能 力值以及发文质量值,从而得到每个预测关键字段的发文潜力值,通过发文潜力值作为有效 指标在至少一个预测关键字段中确定针对目标作者的发文关键字段,并推送给目标作者,从 而可以指导作者发布发文内容,提高了所推送的发文关键字段的准确性,使得作者基于这些 发文关键字段所创作的发文内容有足够的流量,能够保证作者收益,间接提高了内容平台的 收益,进而保证了内容平台的扩展。
基于图1所示的系统架构,下面将结合图2-图4,对本申请实施例提供的发文关键字段 推送方法进行详细介绍。
请参见图2,为本申请实施例提供了一种发文关键字段推送方法的流程示意图。如图2 所示,所述方法可以包括以下步骤S101-步骤S104。
S101,获取针对目标作者的至少一个预测关键字段;
作者可通过作者标识表示,作者标识具体可以为作者在内容平台中的唯一标识,用于表 示作者身份,所述目标作者可以为作者标识中的任一标识。
发文关键字段推送装置可根据预设的规则生成针对目标作者的至少一个预测关键字段。 具体可以从当前时段的热词、目标作者发布内容的总阅读量、粉丝增长率、发文量、发文频 次等多个维度生成预测关键字段。
预测关键字段具体可以为历史发布内容中的关键词,可以包括正预测样本、和负预测样 本。
S102,基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力值,并基 于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
可以理解的是,发文能力模型用于输出预测关键字段的发文能力值,该发文能力值可以 用于衡量作者能否对预测关键字段发文,例如,发文能力值为0,表明目标作者不会对该预 测关键字段发文,发文能力值为1,表明目标作者会对该预测关键字段发文。发文质量模型 用于输出预测关键字段的发文质量值,该发文质量值可以用于衡量作者对预测关键字段的发 文效果好坏,例如,发文质量值为3,属于0-5的范围,表明目标作者对该预测关键字段的 发文效果较差,发文能力值为8,属于6-10的范围,表明目标作者会对该预测关键字段的发 文效果较好。
其中,需要对发文能力模型和发文质量模型预先进行训练,两者训练方式类似,需要基 于不同的训练样本进行训练。
具体的,发文关键字段推送装置获取目标作者在设定时间段内的历史发布内容,基于历 史发布内容的特征信息确定至少一个样本关键字段,同时,提取目标作者对应的第一特征信 息、各内容关键字段的第二特征信息以及目标作者对各内容关键字段的第三特征信息,然后 基于至少一个样本关键字段、目标作者对应的第一特征信息、各内容关键字段的第二特征信 息目标作者对各内容关键字段的第三特征信息生成训练样本,对发文能力模型/发文质量模 型进行训练,从而得到训练完成的发文能力模型/发文质量模型。所述设定时间段可以依据 内容关键字段的实际获取需求进行设置。所述内容关键字段具体可以为历史发布内容中的关 键词。
针对发文能力模型,第一特征信息主要为作者发文活跃度,具体为发文数量,第二特征 信息主要为该内容关键字段在站内的发文数量,第三特征信息主要为作者对于该内容关键字 段的发文数量。
针对发文质量模型,第一特征信息主要为作者受读者的重视程度,即作者的所有发文阅 读量,第二特征信息主要为该内容关键字段在站内的发文阅读量,第三特征信息主要为作者 对于该内容关键字段的发文阅读量。
需要说明的是,发文能力模型/发文质量模型可以为逻辑回归,树模型,深度神经网络 模型等。由于训练样本数据量庞大,为提高训练效率,可采用分布式训练方式对发文能力模 型/发文质量模型进行训练。
S103,基于各所述发文能力值以及各所述发文质量值,得到所述目标作者针对各所述预 测关键字段对应的发文潜力值;
所述发文潜力值为综合发文能力值和发文质量值得到的结果,可以用于表示目标作者针 对各预测关键字段的综合发文能力。针对内容平台中的每一个作者,均可以计算各作者针对 各预测关键字段的发文潜力值。
S104,基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所述目标作者的 发文关键字段,向所述目标作者推送所述发文关键字段。
在可行的实现方式中,发文关键字段推送装置可以在所述至少一个预测关键字段中获取 发文潜力值大于设定阈值的目标关键字段,进而将所述目标关键字段确定为所述目标作者对 应的发文关键字段。或者,发文关键字段推送装置将各个预测关键字段按照发文潜力值从高 到低的顺序进行排序,并选取发文潜力值排列在前的K(K≥1)个关键字段作为所述目标作 者标识对应的发文关键字段。或者,当预测关键字段的数据量较小时,可以全部作为所述目 标作者对应的发文关键字段。
可选的,对于不同作者,其喜好所接收的内容形式不同,因此可以对发文关键字段进行 相应的内容形式的封装,以得到目标作者喜好的发文关键字段的展示形态,提升了作者发文 的积极性。发文关键字段推送装置可以获取所述目标作者对应的字段封装方式,发文关键字 段推送装置可以采用所述字段封装方式对所述发文关键字段进行封装,以得到所述目标作者 对应的发文关键字段。内容平台可以预先记录目标作者对应的字段封装方式,所述字段封装 方式可以包括但不限于关键字段(例如:XX明星)、关键字段和相关热词(例如:XX明 星#YY明星)、关键字段组(例如:薯片、烟薯、红薯)、关键字段话题(例如:#秋天吃 什么#)、关键字段专属形式(例如:专属关键词XX明星)等。
具体的,发文关键字段推送装置可以将所述发文关键字段推送至所述目标作者对应的作 者终端设备中。
对于不同作者的活跃程度,发文关键字段推送装置还可以选择相应的推送方式对发文关 键字段进行推送,例如:对于内容平台中资历较深的作者,可以无需花费过多的成本指导其 进行发文,因此可以通过站内信的方式推送发文关键字段;而对于内容平台中的新作者,则 需要通过站外的方式引导其进入内容平台中产生发文内容,因此可以通过短信、征文活动、 社群等方式推送发文关键字段。可选的,发文关键字段推送装置可以预先记录有目标作者对 应的活跃信息,发文关键字段推送装置在对发文关键字段进行推送之前,可以获取目标作者 对应的活跃信息,并采用所述活跃信息对应的推送方式对所述发文关键字段进行推送。
在本申请实施例中,通过预先训练的发文能力模型和发文质量模型获取针对目标作者的 一个或多个预测关键字段的发文能力值以及发文质量值,从而得到每个预测关键字段的发文 潜力值,通过发文潜力值作为有效指标在至少一个预测关键字段中确定针对目标作者的发文 关键字段,并推送给目标作者,从而可以指导作者发布发文内容,提高了所推送的发文关键 字段的准确性,使得作者基于这些发文关键字段所创作的发文内容有足够的流量,能够保证 作者收益,间接提高了内容平台的收益,进而保证了内容平台的扩展。
请参见图3,为本申请实施例提供了一种发文关键字段推送方法的流程示意图。如图3 所示,所述方法可以包括以下步骤S201-步骤S218。
S201,获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容中各内容 关键字段的活跃信息确定至少一个第一样本关键字段;
发文关键字段推送装置可以在内容服务设备中获取目标作者在设定时间段内的历史发 布内容,所述设定时间段可以依据内容关键字段的实际获取需求进行设置,例如:对于需求 近期热词的情形,可以将设定时间段设置为相对较短的时间,如1周,使得所获取的数据量 小,可以快速确定近期热词;而对于需求预估作者发文潜力的词的情形,可以将设定时间段 设置为相对较长的时间,如1年,使得所获取的历史发布内容较为全面,保证统计的词语的 准确性。
发文关键字段推送装置可以基于所获取的目标作者在设定时间段内的历史发布内容,进 一步获取至少一个内容关键字段,所述内容关键字段具体可以为历史发布内容的关键词。可 以理解的是,历史发布内容可以为至少一个发文内容,每个发文内容可以对应一个或多个内 容关键字段,发文关键字段推送装置可以对目标作者在设定时间段内的历史发布内容中的所 有内容关键字段均进行提取。可以采用词聚类文本关键词抽取方式、摘要抽取算法等方式进 行内容关键字段的提取。
发文关键字段推送装置在获取到历史发布内容的内容关键字段后,还可以进一步进行内 容关键字段的筛选,确保了内容关键字段提取的准确性。
进一步的,可以统计每个内容关键字段的活跃信息(如活跃度,即通过目标作者对该内 容关键字段的发文频率衡量),根据活跃度的大小确定第一样本关键字段。其中,活跃度高 的内容关键字段为第一正样本关键字段,活跃度低的内容关键字段为第一负样本关键字段。 而活跃度的高低可根据所统计的活跃度与设定的活跃度阈值的大小进行比较,如活跃度大于 活跃度阈值,即为活跃度高,活跃度小于活跃度阈值,即为活跃度低。
S202,提取所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量 以及所述目标作者对各所述内容关键字段的发文数量;
发文关键字段推送装置可以通过目标作者的总发文数量、发文频次等维度统计目标作者 对应的发文活跃度。例如,目标作者注册内容平台至今共1年,总发文数量为100,定义发 文活跃度阈值=48/年,那么目标作者对应的发文活跃度为发文活跃。
发文关键字段推送装置可以分别以上述提取的每个内容关键字段作为搜索关键词在站 内进行搜索,统计每个内容关键字段对应的发文内容数量,作为该内容关键字段在站内的总 发文数量。可以理解的是,站内用于表示发文内容是在内容平台中产生的,在站内搜索,即 为对所有作者的发布内容进行搜索。
发文关键字段推送装置可以分别以上述提取的每个内容关键字段以及目标作者作为搜 索关键词在站内进行搜索,从而在目标作者发布的所有发文内容中统计每个内容关键字段对 应的发文内容数量,作为目标作者对各所述内容关键字段的发文数量。
S203,将所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内 容关键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量按照 预设格式进行组合,得到至少一个第一字段链;
一种可行的预设格式为:目标作者-内容关键字段ID-正样本/负样本-目标作者对应的发 文活跃度-内容关键字段在站内的总发文数量-目标作者对内容关键字段的发文数量。按照上 述预设格式依次填充,将填充后的结果作为第一字段链,包括至少一个。例如,第一字段链 可以为:作者A-词1-正样本-发文活跃-500-10;或,作者A-词2-负样本-发文活跃-300-2。
S204,将各所述第一字段链分别转换为第一特征编码,采用各所述第一特征编码对发文 能力模型进行训练,得到训练完成的发文能力模型;
将第一字段链转换为第一特征编码,实际为格式转换过程,即进行离散化处理的过程, 也就是将第一字段链中的各个字段转换为对应的编号。
例如,目标作者通过ID表示,正样本通过1表示,负样本通过0表示,发文活跃度0~1 千表示为1,1千~2千表示为2等规则,依据实际情况将对应编号替换到第一字段链中,从而可以得到相应的第一特征编码。
将所得到的第一特征编码作为训练样本,输入至发文能力模型中,当模型收敛时,从而 实现对该模型的训练。所述模型可以为逻辑回归,树模型,深度神经网络模型等。
需要说明的是,当训练样本较多时,可采用分布式训练方式训练模型,可以较大地加快 模型训练速度。
所述分布式训练方式即为数据并行化,也就是不同的设备有同一个模型的多个副本,每 个设备分配到训练样本的一部分,然后将所有设备的计算结果按照某种方式进行合并,从而 同步模型参数。
S205,获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的用户反 馈信息,在所述历史发布内容的各内容关键字段中确定至少一个第二样本关键字段;
发文关键字段推送装置可以在内容服务设备中获取目标作者在设定时间段内的历史发 布内容,所述设定时间段可以依据内容关键字段的实际获取需求进行设置。
发文关键字段推送装置可以基于所获取的目标作者在设定时间段内的历史发布内容,进 一步获取至少一个内容关键字段,所述内容关键字段具体可以为历史发布内容的关键词。可 以理解的是,历史发布内容可以为至少一个发文内容,每个发文内容可以对应一个或多个内 容关键字段,发文关键字段推送装置可以对目标作者在设定时间段内的历史发布内容中的所 有内容关键字段均进行提取。
同时,针对所获取的每个历史发布内容,提取用户阅读后的用户反馈信息,例如可以包 括用户评论内容、用户评论数量、好评和差评的占比、点赞数量、转发数量等。
进一步的,综合用户反馈信息确定上述提取的各内容关键字段的发文效果,并根据发文 效果确定第二样本关键字段。其中,发文效果较好的内容关键字段为第二正样本关键字段, 发文效果较差的内容关键字段为第二负样本关键字段。
S206,提取所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅 读量以及所述目标作者对各所述内容关键字段的发文阅读量;
发文关键字段推送装置可以统计目标作者所发布的发文内容的阅读量的总和,作为目标 作者对应的总发文阅读量。
发文关键字段推送装置可以分别以上述提取的每个内容关键字段作为搜索关键词在站 内进行搜索,统计每个内容关键字段对应的发文内容的发文阅读量,并将这些发文阅读量进 行相加,得到该内容关键字段在站内的总发文阅读量。可以理解的是,在站内搜索,即为对 所有作者的发布内容进行搜索。
发文关键字段推送装置可以分别以上述提取的每个内容关键字段以及目标作者作为搜 索关键词在站内进行搜索,从而在目标作者发布的所有发文内容中统计每个内容关键字段对 应的发文阅读量,作为目标作者对各所述内容关键字段的发文阅读量。
S207,将所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述 内容关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读 量按照预设格式进行组合,得到至少一个第二字段链;
一种可行的预设格式为:目标作者-内容关键字段ID-正样本/负样本-目标作者对应的总 发文阅读量-内容关键字段在站内的总发文阅读量-目标作者对内容关键字段的发文阅读量。 按照上述预设格式依次填充,将填充后的结果作为第二字段链,包括至少一个。例如,第一 字段链可以为:作者A-词1-正样本-300万-3亿-10万;或,作者A-词2-负样本-100万-1亿 -1000。
S208,将各所述第二字段链分别转换为第二特征编码,采用各所述第二特征编码对发文 质量模型进行训练,得到训练完成的发文质量模型;
将第二字段链转换为第二特征编码,实际为格式转换过程,即进行离散化处理的过程, 也就是将第二字段链中的各个字段转换为对应的编号。
例如,目标作者通过ID表示,正样本通过1表示,负样本通过0表示,阅读量0~1万表示为1,1万~2万表示为2等规则,依据实际情况将对应编号替换到第二字段链中,从而可以得到相应的第二特征编码。
将所得到的第二特征编码作为训练样本,输入至发文质量模型中,当模型收敛时,从而 实现对该模型的训练。所述模型可以为逻辑回归,树模型,深度神经网络模型等。
需要说明的是,当训练样本较多时,可采用分布式训练方式训练模型,可以较大地加快 模型训练速度。
S209,获取针对目标作者的至少一个预测关键字段;
作者可通过作者标识表示,作者标识具体可以为作者在内容平台中的唯一标识,用于表 示作者身份,所述目标作者可以为作者中的任一。
发文关键字段推送装置可根据预设的规则生成针对目标作者的至少一个预测关键字段。 具体可以从当前时段的热词、目标作者发布内容的总阅读量、粉丝增长率、发文量、发文频 次等多个维度生成预测关键字段。
预测关键字段具体可以为历史发布内容中的关键词,通过对同一个预测关键字段从活跃 度以及用户反馈信息的维度进行分析,确定该预测关键字段针对发文能力模型为正预测样本 还是负预测样本,以及确定该预测关键字段针对发文质量模型为正预测样本还是负预测样 本。
S210,获取所述目标作者对应的发文活跃度、各所述预测关键字段在站内的总发文数量 以及所述目标作者对各所述预测关键字段的发文数量;
发文关键字段推送装置可以通过目标作者的总发文数量、发文频次等维度统计目标作者 对应的发文活跃度。
发文关键字段推送装置可以分别以上述每个预测关键字段作为搜索关键词在站内进行 搜索,统计每个预测关键字段对应的发文内容数量,作为该预测关键字段在站内的总发文数 量。可以理解的是,在站内搜索,即为对所有作者的发布内容进行搜索。
发文关键字段推送装置可以分别以上述每个预测关键字段以及目标作者作为搜索关键 词在站内进行搜索,从而在目标作者发布的所有发文内容中统计每个预测关键字段对应的发 文内容数量,作为目标作者对各所述预测关键字段的发文数量。
S211,将所述至少一个预测关键字段,所述目标作者对应的总发文数量、各所述预测关 键字段在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数量按照预设 格式进行组合,得到至少一个第一预测字段链;
具体的,可按照S203的格式将各预测关键字段,所述目标作者对应的总发文数量、各 所述预测关键字段在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数 量进行组合,生成至少一个第一预测字段链。
S212,将各所述第一预测字段链分别转换为第一预测特征编码,采用所述发文能力模型 对各所述第一预测特征编码进行分布式预测,得到各所述第一预测关键字段对应的发文能力 值;
同样的,第一预测字段链转换为第一预测特征编码的方式与第一字段链转换为第一特征 编码的方式相同,此处不再赘述。
将所得到的第一预测特征编码输入至已训练完成的发文能力模型中,从而输出对各第一 预测关键字段对应的发文能力值author_ability_score。
需要说明的是,当第一预测特征编码的数据量较大时,可采用分布式方式进行预测,与 分布式训练方式相同。
S213,获取所述目标作者对应的总发文阅读量、各所述预测关键字段在站内的总发文阅 读量以及所述目标作者对各所述预测关键字段的发文阅读量;
发文关键字段推送装置可以统计目标作者所发布的发文内容的阅读量的总和,作为目标 作者对应的总发文阅读量。
发文关键字段推送装置可以分别以上述每个预测关键字段作为搜索关键词在站内进行 搜索,统计每个预测关键字段对应的发文内容的发文阅读量,并将这些发文阅读量进行相加, 得到该预测关键字段在站内的总发文阅读量。可以理解的是,在站内搜索,即为对所有作者 的发布内容进行搜索。
发文关键字段推送装置可以分别以上述每个预测关键字段以及目标作者作为搜索关键 词在站内进行搜索,从而在目标作者发布的所有发文内容中统计每个预测关键字段对应的发 文阅读量,作为目标作者对各所述预测关键字段的发文阅读量。
S214,将所述至少一个预测关键字段,所述目标作者对应的总发文阅读量、各所述预测 关键字段在站内的总发文阅读量以及所述目标作者对各所述预测关键字段的发文阅读量按 照预设格式进行组合,得到至少一个第二预测字段链;
具体的,可按照S207的格式将各预测关键字段,所述目标作者对应的总发文数量、各 所述预测关键字段在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数 量进行组合,生成至少一个第二预测字段链。
S215,将各所述第二预测字段链分别转换为第二预测特征编码,采用所述发文质量模型 对各所述第二预测特征编码进行分布式预测,得到各所述第二预测关键字段对应的发文质量 值;
同样的,第二预测字段链转换为第二预测特征编码的方式与第二字段链转换为第二特征 编码的方式相同,此处不再赘述。
将所得到的第二预测特征编码输入至已训练完成的发文质量模型中,从而输出对各第二 预测关键字段对应的发文质量值author_quality_score。
需要说明的是,当第二预测特征编码的数据量较大时,可采用分布式方式进行预测,与 分布式训练方式相同。
S216,将各所述预测关键字段对应的发文能力值以及发文质量值相乘,得到所述目标作 者针对各所述预测关键字段分别对应的发文潜力值;
对于同一个预测关键字段,其对应的发文潜力值Final_score=author_ability_score* author_quality_score。
因此,可按照上述方式计算得到各预测关键字段分别对应的发文潜力值。
可选的,发文能力值与发文质量值可以分别对应不同的权重因子,可以依据实际需求选 择相应的因子组合。
S217,按照各所述发文潜力值从高到低的顺序对所述至少一个预测关键字段进行排序;
按照发文潜力值Final_score的高低,从高到低的顺序对所有的预测关键字段进行排序, 以便从中选取满足条件的预测关键字段。
S218,将排列在前的目标个数的预测关键字段确定为针对所述目标作者的发文关键字 段,向所述目标作者对应的目标作者推送所述发文关键字段。
为了较好的指导作者发文,通常选择数量合适且发文关键字段准确的字段推送给作者。 因此,可在排序后的预测关键字段中选取前几个(如5个)作为针对所述目标作者的发文关 键字段进行推送。
当然,若按照发文潜力值Final_score的高低,从低到高的顺序对所有的预测关键字段进 行排序,那么选取排列在后的目标个数的预测关键字段作为针对所述目标作者的发文关键字 段进行推送。
其中,可采用不同的推送策略进行推送,具体可参见S104,此处不再赘述。
在本申请实施例中,通过基于目标作者在设定时间段内的历史发布内容获取的一个或多 个第一样本关键字段,以及提取的目标作者对应的发文活跃度、各内容关键字段在站内的总 发文数量以及目标作者对各内容关键字段的发文数量,训练发文能力模型。同时,通过基于 目标作者在设定时间段内的历史发布内容获取的一个或多个第二样本关键字段,以及提取的 目标作者对应的总发文阅读量、各内容关键字段在站内的总发文阅读量以及目标作者对各所 述内容关键字段的发文阅读量,训练发文质量模型。再采用这两个模型分别得到针对目标作 者的至少一个预测关键字段的发文能力值和发文质量值,进而将两者相乘后得到每个预测关 键字段的发文潜力值,然后选出其中发文潜力值排列在前的几个预测关键字段作为发文关键 字段推送给目标作者。以发文潜力值作为有效指标进行推送,在提高推送准确性的同时,可 以提升作者的收益。另外,作者能够根据内容平台的指导,进行发文,既能抓住内容平台供 需的需求,又能根据自己能力进行创作,还能发布质量较高的发文内容,增加了内容平台中 的发文内容的产生,进而保证了内容平台的扩展作者的发文量,同时,作者的发文数量以及 个人等级得到了显著提升。此外,根据内容平台的用户需要定向生产了内容,用户可以阅读 到更喜欢的内容,体验和粘性都会增加。通过对发文关键字段进行相应内容形式的封装,以 得到目标作者喜好的发文关键字段的展示形态,提升了作者发文的积极性。
请参见图4,为本申请实施例提供了一种发文关键字段推送方法的框架示意图。如图4 所示,针对目标作者在设定时间段内发生的用户行为,包括目标作者发布内容,可以提取用 户行为中的内容关键字段。
通过对内容关键字段进行字段分析,例如:作者发文活跃度,可以确定第一训练样本, 并从作者维度(目标作者对应的发文活跃度)、词维度(各内容关键字段在站内的总发文数 量)、作者对词的维度(目标作者对各内容关键字段的发文数量)挖掘第一特征,集合第一 训练样本以及第一特征,进行特征转换后,训练发文能力模型。
通过对用户行为进行分析,例如:用户阅读作者发布的发文内容所反馈的用户反馈信息, 可以确定第二训练样本,并从作者维度(目标作者对应的总发文阅读量)、词维度(各内容 关键字段在站内的总发文阅读量)、作者对词的维度(目标作者对各内容关键字段的发文阅 读量)挖掘第二特征,集合第二训练样本以及第二特征,进行特征转换后,训练发文质量模 型。
获取预测关键字段,结合发文能力模型以及发文质量模型,分别得到预测关键字段对应 的发文潜力值,进而通过发文潜力值确定适配作者的发文关键字段。
最终可以基于作者的活跃程度确定个性化的推送方式,例如:站内信、短信、征文活动、 社群等推送方式,并通过作者将发文关键字段推送给作者。
在本申请实施例中,通过发文能力值和发文质量值计算每个作者对每个预测关键字段的 发文潜力值,以该发文潜力值作为发文关键字段的推送指标,提高了推送给每个作者的发文 关键字段的准确性,并可以有效指导作者发布内容发文内容,使得作者的发文可以吸引更多 的用户进行浏览,提高了作者的阅读量和粉丝数量。而对于内容平台中的用户,由于采用了 该发文关键字段推送框架,使得内容平台中可以定向产生相应的热点内容,用户可以浏览到 更多更高质量的发文内容,提升了内容平台的用户体验和用户粘性,有效的提升了内容平台 中用户的留存率以及停留时长,保证了内容平台的扩展。
基于图1所示的系统架构,下面将结合图5-图6,对本申请实施例提供的发文关键字段推送设备进行详细介绍。需要说明的是,图5-图6中的发文关键字段推送设备,用于执行本申请图2-图4所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图2-图4所示的实施例。
请参见图5,为本申请实施例提供了一种发文关键字段推送装置的结构示意图。如图5 所示,本申请实施例的所述发文关键字段推送装置1可以包括:预测字段获取模块11、发文 值确定模块12、潜力值确定模块13和发文字段推送模块14。
预测字段获取模块11,用于获取针对目标作者的至少一个预测关键字段;
发文值确定模块12,用于基于预先训练的发文能力模型获取各所述预测关键字段对应的 发文能力值,并基于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
潜力值确定模块13,用于基于各所述发文能力值以及各所述发文质量值,得到所述目标 作者针对各所述预测关键字段对应的发文潜力值;
发文字段推送模块14,用于基于各所述发文潜力值在所述至少一个预测关键字段中确定 针对所述目标作者的发文关键字段,并向所述目标作者推送所述发文关键字段。
可选的,如图6所示,所述装置1还包括:
样本字段确定模块15,用于获取目标作者在设定时间段内的历史发布内容,基于所述历 史发布内容的特征信息确定至少一个样本关键字段;
特征信息提取模块16,用于提取所述目标作者对应的第一特征信息、各所述内容关键字 段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息;
模型训练模块17,用于基于所述至少一个样本关键字段、所述目标作者对应的第一特征 信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三 特征信息对发文能力模型和发文质量模型进行训练,得到训练完成的发文能力模型和发文质 量模型。
可选的,所述样本字段确定模块15,具体用于:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容中各内容关键字 段的活跃信息确定至少一个第一样本关键字段;
所述特征信息提取模块16,具体用于:
提取所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所 述目标作者对各所述内容关键字段的发文数量;
所述模型训练模块17,具体用于:
基于所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关 键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量对发文能 力模型进行训练,得到训练完成的发文能力模型。
可选的,所述模型训练模块17,具体用于:
将所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关键 字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量按照预设格 式进行组合,得到至少一个第一字段链;
将各所述第一字段链分别转换为第一特征编码,采用各所述第一特征编码对发文能力模 型进行训练,得到训练完成的发文能力模型。
可选的,所述样本字段确定模块15,具体用于:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的用户反馈信 息,在所述历史发布内容的各内容关键字段中确定至少一个第二样本关键字段;
所述特征信息提取模块16,具体用于:
提取所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以 及所述目标作者对各所述内容关键字段的发文阅读量;
所述模型训练模块17,具体用于:
基于所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容 关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量对 发文质量模型进行训练,得到训练完成的发文质量模型。
可选的,所述模型训练模块17,具体用于:
将所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容关 键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量按照 预设格式进行组合,得到至少一个第二字段链;
将各所述第二字段链分别转换为第二特征编码,采用各所述第二特征编码对发文质量模 型进行训练,得到训练完成的发文质量模型。
可选的,所述发文值确定模块12,具体用于:
获取所述目标作者对应的发文活跃度、各所述预测关键字段在站内的总发文数量以及所 述目标作者对各所述预测关键字段的发文数量;
将所述至少一个预测关键字段,所述目标作者对应的总发文数量、各所述预测关键字段 在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数量按照预设格式进 行组合,得到至少一个第一预测字段链;
将各所述第一预测字段链分别转换为第一预测特征编码,采用所述发文能力模型对各所 述第一预测特征编码进行预测,得到各所述第一预测关键字段对应的发文能力值。
可选的,所述发文值确定模块12,具体用于:
获取所述目标作者对应的总发文阅读量、各所述预测关键字段在站内的总发文阅读量以 及所述目标作者对各所述预测关键字段的发文阅读量;
将所述至少一个预测关键字段,所述目标作者对应的总发文阅读量、各所述预测关键字 段在站内的总发文阅读量以及所述目标作者对各所述预测关键字段的发文阅读量按照预设 格式进行组合,得到至少一个第二预测字段链;
将各所述第二预测字段链分别转换为第二预测特征编码,采用所述发文质量模型对各所 述第二预测特征编码进行预测,得到各所述第二预测关键字段对应的发文质量值。
可选的,所述潜力值确定模块13,具体用于:
将各所述预测关键字段对应的发文能力值以及发文质量值相乘,得到所述目标作者针对 各所述预测关键字段分别对应的发文潜力值。
可选的,所述发文字段推送模块14,具体用于:
按照各所述发文潜力值从高到低的顺序对所述至少一个预测关键字段进行排序;
将排列在前的目标个数的预测关键字段确定为针对所述目标作者的发文关键字段。
在本申请实施例中,通过基于目标作者在设定时间段内的历史发布内容获取的一个或多 个第一样本关键字段,以及提取的目标作者对应的发文活跃度、各内容关键字段在站内的总 发文数量以及目标作者对各内容关键字段的发文数量,训练发文能力模型。同时,通过基于 目标作者在设定时间段内的历史发布内容获取的一个或多个第二样本关键字段,以及提取的 目标作者对应的总发文阅读量、各内容关键字段在站内的总发文阅读量以及目标作者对各所 述内容关键字段的发文阅读量,训练发文质量模型。再采用这两个模型分别得到针对目标作 者的至少一个预测关键字段的发文能力值和发文质量值,进而将两者相乘后得到每个预测关 键字段的发文潜力值,然后选出其中发文潜力值排列在前的几个预测关键字段作为发文关键 字段推送给目标作者。以发文潜力值作为有效指标进行推送,在提高推送准确性的同时,可 以提升作者的收益。另外,作者能够根据内容平台的指导,进行发文,既能抓住内容平台供 需的需求,又能根据自己能力进行创作,还能发布质量较高的发文内容,增加了内容平台中 的发文内容的产生,进而保证了内容平台的扩展作者的发文量,同时,作者的发文数量以及 个人等级得到了显著提升。此外,根据内容平台的用户需要定向生产了内容,用户可以阅读 到更喜欢的内容,体验和粘性都会增加。通过对发文关键字段进行相应内容形式的封装,以 得到目标作者喜好的发文关键字段的展示形态,提升了作者发文的积极性。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条程序 指令,所述程序指令适于由处理器加载并执行如上述图2-图4所示实施例的方法步骤,具体 执行过程可以参见图2-图4所示实施例的具体说明,在此不进行赘述。
请参见图7,为本申请实施例提供了一种计算机设备的结构示意图。如图7所示,所述 计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,输入输出接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这 些组件之间的连接通信。其中,网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器 (non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个 位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005 中可以包括操作系统、网络通信模块、输入输出接口模块以及发文关键字段推送应用程序。
在图7所示的计算机设备1000中,输入输出接口1003主要用于为用户提供输入的接口, 获取用户输入的数据。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的发文关键字段推送应 用程序,并具体执行以下操作:
获取针对目标作者的至少一个预测关键字段;
基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力值,并基于预先 训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
基于各所述发文能力值以及各所述发文质量值,得到所述目标作者针对各所述预测关键 字段对应的发文潜力值;
基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所述目标作者的发文 关键字段,并向所述目标作者推送所述发文关键字段。
可选的,所述处理器1001在执行获取针对目标作者的至少一个预测关键字段之前,还 执行以下操作:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的特征信息确定 至少一个样本关键字段;
提取所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述 目标作者对各所述内容关键字段的第三特征信息;
基于所述至少一个样本关键字段、所述目标作者对应的第一特征信息、各所述内容关键 字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息对发文能力 模型和发文质量模型进行训练,得到训练完成的发文能力模型和发文质量模型。
可选的,所述处理器1001在执行获取目标作者在设定时间段内的历史发布内容,基于 所述历史发布内容的特征信息确定至少一个样本关键字段时,具体执行以下操作:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容中各内容关键字 段的活跃信息确定至少一个第一样本关键字段;
所述处理器1001在执行所述提取所述目标作者对应的第一特征信息、各所述内容关键 字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息时,具体执行 以下操作:
提取所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所 述目标作者对各所述内容关键字段的发文数量;
所述处理器1001在执行基于所述至少一个样本关键字段、所述目标作者对应的第一特 征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第 三特征信息对发文能力模型进行训练,得到训练完成的发文能力模型时,具体执行以下操作:
基于所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关 键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量对发文能 力模型进行训练,得到训练完成的发文能力模型。
可选的,所述处理器1001在执行基于所述至少一个第一样本关键字段、所述目标作者 对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所述目标作者对各所述内 容关键字段的发文数量对发文能力模型进行训练,得到训练完成的发文能力模型时,具体执 行以下操作:
将所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关键 字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量按照预设格 式进行组合,得到至少一个第一字段链;
将各所述第一字段链分别转换为第一特征编码,采用各所述第一特征编码对发文能力模 型进行训练,得到训练完成的发文能力模型。
可选的,所述处理器1001在执行获取目标作者在设定时间段内的历史发布内容,基于 所述历史发布内容的特征信息确定至少一个样本关键字段时,具体执行以下操作:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的用户反馈信 息,在所述历史发布内容的各内容关键字段中确定至少一个第二样本关键字段;
所述处理器1001在执行提取所述目标作者对应的第一特征信息、各所述内容关键字段 的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息时,具体执行以下 操作:
提取所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以 及所述目标作者对各所述内容关键字段的发文阅读量;
所述处理器1001在执行基于所述至少一个样本关键字段、所述目标作者对应的第一特 征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第 三特征信息对发文质量模型进行训练,得到训练完成的发文质量模型时,具体执行以下操作:
基于所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容 关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量对 发文质量模型进行训练,得到训练完成的发文质量模型。
可选的,所述处理器1001在执行基于所述至少一个第二样本关键字段、所述目标作者 对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以及所述目标作者对各所 述内容关键字段的发文阅读量对发文质量模型进行训练,得到训练完成的发文质量模型时, 具体执行以下操作:
将所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容关 键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量按照 预设格式进行组合,得到至少一个第二字段链;
将各所述第二字段链分别转换为第二特征编码,采用各所述第二特征编码对发文质量模 型进行训练,得到训练完成的发文质量模型。
可选的,所述处理器1001在执行基于预先训练的发文能力模型获取各所述预测关键字 段对应的发文能力值时,具体执行以下操作:
获取所述目标作者对应的总发文数量、各所述预测关键字段在站内的总发文数量以及所 述目标作者对各所述预测关键字段的发文数量;
将所述至少一个预测关键字段,所述目标作者对应的总发文数量、各所述预测关键字段 在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数量按照预设格式进 行组合,得到至少一个第一预测字段链;
将各所述第一预测字段链分别转换为第一预测特征编码,采用所述发文能力模型对各所 述第一预测特征编码进行预测,得到各所述第一预测关键字段对应的发文能力值。
可选的,所述处理器1001在执行基于预先训练的发文质量模型获取各所述预测关键字 段对应的发文质量值时,具体执行以下操作:
获取所述目标作者对应的总发文阅读量、各所述预测关键字段在站内的总发文阅读量以 及所述目标作者对各所述预测关键字段的发文阅读量;
将所述至少一个预测关键字段,所述目标作者对应的总发文阅读量、各所述预测关键字 段在站内的总发文阅读量以及所述目标作者对各所述预测关键字段的发文阅读量按照预设 格式进行组合,得到至少一个第二预测字段链;
将各所述第二预测字段链分别转换为第二预测特征编码,采用所述发文质量模型对各所 述第二预测特征编码进行预测,得到各所述第二预测关键字段对应的发文质量值。
可选的,所述处理器1001在执行基于各所述发文能力值以及各所述发文质量值,得到 所述目标作者针对各所述预测关键字段分别对应的发文潜力值时,具体执行以下操作:
将各所述预测关键字段对应的发文能力值以及发文质量值相乘,得到所述目标作者针对 各所述预测关键字段分别对应的发文潜力值。
可选的,所述处理器1001在执行基于各所述发文潜力值在所述至少一个预测关键字段 中确定针对所述目标作者的发文关键字段时,具体执行以下操作:
按照各所述发文潜力值的高低顺序对所述至少一个预测关键字段进行排序;
将排列在前的目标个数的预测关键字段确定为针对所述目标作者的发文关键字段。
在本申请实施例中,以发文潜力值作为有效指标进行推送,在提高推送准确性的同时, 可以提升作者的收益。另外,作者能够根据内容平台的指导,进行发文,既能抓住内容平台 供需的需求,又能根据自己能力进行创作,还能发布质量较高的发文内容,增加了内容平台 中的发文内容的产生,进而保证了内容平台的扩展作者的发文量,同时,作者的发文数量以 及个人等级得到了显著提升。此外,根据内容平台的用户需要定向生产了内容,用户可以阅 读到更喜欢的内容,体验和粘性都会增加。通过对发文关键字段进行相应内容形式的封装, 以得到目标作者喜好的发文关键字段的展示形态,提升了作者发文的积极性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计 算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程 序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、 只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因 此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (13)

1.一种发文关键字段推送方法,其特征在于,包括:
获取针对目标作者的至少一个预测关键字段;
基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力值,并基于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
基于各所述发文能力值以及各所述发文质量值,得到所述目标作者针对各所述预测关键字段对应的发文潜力值;
基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所述目标作者的发文关键字段,并向所述目标作者推送所述发文关键字段。
2.根据权利要求1所述的方法,其特征在于,所述获取针对目标作者的至少一个预测关键字段之前,还包括:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的特征信息确定至少一个样本关键字段;
提取所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息;
基于所述至少一个样本关键字段、所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息对发文能力模型和发文质量模型进行训练,得到训练完成的发文能力模型和发文质量模型。
3.根据权利要求2所述的方法,其特征在于,所述获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的特征信息确定至少一个样本关键字段,包括:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容中各内容关键字段的活跃信息确定至少一个第一样本关键字段;
所述提取所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息,包括:
提取所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量;
所述基于所述至少一个样本关键字段、所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息对发文能力模型进行训练,得到训练完成的发文能力模型,包括:
基于所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量对发文能力模型进行训练,得到训练完成的发文能力模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量对发文能力模型进行训练,得到训练完成的发文能力模型,包括:
将所述至少一个第一样本关键字段、所述目标作者对应的发文活跃度、各所述内容关键字段在站内的总发文数量以及所述目标作者对各所述内容关键字段的发文数量按照预设格式进行组合,得到至少一个第一字段链;
将各所述第一字段链分别转换为第一特征编码,采用各所述第一特征编码对发文能力模型进行训练,得到训练完成的发文能力模型。
5.根据权利要求2所述的方法,其特征在于,所述获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的特征信息确定至少一个样本关键字段,包括:
获取目标作者在设定时间段内的历史发布内容,基于所述历史发布内容的用户反馈信息,在所述历史发布内容的各内容关键字段中确定至少一个第二样本关键字段;
所述提取所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述目标作者标识对各所述内容关键字段的第三特征信息,包括:
提取所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量;
所述基于所述至少一个样本关键字段、所述目标作者对应的第一特征信息、各所述内容关键字段的第二特征信息以及所述目标作者对各所述内容关键字段的第三特征信息对发文质量模型进行训练,得到训练完成的发文质量模型,包括:
基于所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量对发文质量模型进行训练,得到训练完成的发文质量模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量对发文质量模型进行训练,得到训练完成的发文质量模型,包括:
将所述至少一个第二样本关键字段、所述目标作者对应的总发文阅读量、各所述内容关键字段在站内的总发文阅读量以及所述目标作者对各所述内容关键字段的发文阅读量按照预设格式进行组合,得到至少一个第二字段链;
将各所述第二字段链分别转换为第二特征编码,采用各所述第二特征编码对发文质量模型进行训练,得到训练完成的发文质量模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力值,包括:
获取所述目标作者对应的发文活跃度、各所述预测关键字段在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数量;
将所述至少一个预测关键字段,所述目标作者对应的总发文数量、各所述预测关键字段在站内的总发文数量以及所述目标作者对各所述预测关键字段的发文数量按照预设格式进行组合,得到至少一个第一预测字段链;
将各所述第一预测字段链分别转换为第一预测特征编码,采用所述发文能力模型对各所述第一预测特征编码进行预测,得到各所述第一预测关键字段对应的发文能力值。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述基于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值,包括:
获取所述目标作者对应的总发文阅读量、各所述预测关键字段在站内的总发文阅读量以及所述目标作者对各所述预测关键字段的发文阅读量;
将所述至少一个预测关键字段,所述目标作者对应的总发文阅读量、各所述预测关键字段在站内的总发文阅读量以及所述目标作者对各所述预测关键字段的发文阅读量按照预设格式进行组合,得到至少一个第二预测字段链;
将各所述第二预测字段链分别转换为第二预测特征编码,采用所述发文质量模型对各所述第二预测特征编码进行预测,得到各所述第二预测关键字段对应的发文质量值。
9.根据权利要求1所述的方法,其特征在于,所述基于各所述发文能力值以及各所述发文质量值,得到所述目标作者针对各所述预测关键字段对应的发文潜力值,包括:
将各所述预测关键字段对应的发文能力值以及发文质量值相乘,得到所述目标作者针对各所述预测关键字段对应的发文潜力值。
10.根据权利要求1所述的方法,其特征在于,所述基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所述目标作者的发文关键字段,包括:
按照各所述发文潜力值从高到低的顺序对所述至少一个预测关键字段进行排序;
将排列在前的目标个数的预测关键字段确定为针对所述目标作者的发文关键字段。
11.一种发文关键字段推送装置,其特征在于,包括:
预测字段获取模块,用于获取针对目标作者的至少一个预测关键字段;
发文值确定模块,用于基于预先训练的发文能力模型获取各所述预测关键字段对应的发文能力值,并基于预先训练的发文质量模型获取各所述预测关键字段对应的发文质量值;
潜力值确定模块,用于基于各所述发文能力值以及各所述发文质量值,得到所述目标作者针对各所述预测关键字段对应的发文潜力值;
发文字段推送模块,用于基于各所述发文潜力值在所述至少一个预测关键字段中确定针对所述目标作者的发文关键字段,并向所述目标作者推送所述发文关键字段。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-10任一项所述方法的步骤。
13.一种计算机设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-10任一项所述方法的步骤。
CN202110575040.9A 2021-05-25 2021-05-25 发文关键字段推送方法、装置、存储介质及计算机设备 Pending CN113343084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575040.9A CN113343084A (zh) 2021-05-25 2021-05-25 发文关键字段推送方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575040.9A CN113343084A (zh) 2021-05-25 2021-05-25 发文关键字段推送方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN113343084A true CN113343084A (zh) 2021-09-03

Family

ID=77471410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575040.9A Pending CN113343084A (zh) 2021-05-25 2021-05-25 发文关键字段推送方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN113343084A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110137177A (ko) * 2010-06-16 2011-12-22 주식회사 다음커뮤니케이션 키워드 추천 장치 및 키워드 추천 방법
JP2013218441A (ja) * 2012-04-05 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 特徴キーワード推薦装置及び方法及びプログラム
CN110377701A (zh) * 2019-07-02 2019-10-25 北京奇艺世纪科技有限公司 一种热词处理方法、装置、电子设备及存储介质
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和系统
CN111291258A (zh) * 2020-01-20 2020-06-16 北京无限光场科技有限公司 搜索热词的推荐方法、装置、电子设备及可读介质
CN112802454A (zh) * 2020-12-31 2021-05-14 大众问问(北京)信息科技有限公司 一种唤醒词的推荐方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110137177A (ko) * 2010-06-16 2011-12-22 주식회사 다음커뮤니케이션 키워드 추천 장치 및 키워드 추천 방법
JP2013218441A (ja) * 2012-04-05 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 特徴キーワード推薦装置及び方法及びプログラム
CN110377701A (zh) * 2019-07-02 2019-10-25 北京奇艺世纪科技有限公司 一种热词处理方法、装置、电子设备及存储介质
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和系统
CN111291258A (zh) * 2020-01-20 2020-06-16 北京无限光场科技有限公司 搜索热词的推荐方法、装置、电子设备及可读介质
CN112802454A (zh) * 2020-12-31 2021-05-14 大众问问(北京)信息科技有限公司 一种唤醒词的推荐方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
US10685186B2 (en) Semantic understanding based emoji input method and device
US10380249B2 (en) Predicting future trending topics
CN107291780B (zh) 一种用户评论信息展示方法和装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN105069102A (zh) 信息推送方法和装置
CN107526718B (zh) 用于生成文本的方法和装置
CN110727868A (zh) 对象推荐方法、装置和计算机可读存储介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
WO2022262487A1 (zh) 一种表单生成方法、装置、设备及介质
CN112733042A (zh) 推荐信息的生成方法、相关装置及计算机程序产品
KR102328934B1 (ko) 댓글 크롤링을 이용한 온라인 광고 방법 및 온라인 광고 시스템
CN111723295A (zh) 一种内容分发方法、装置和存储介质
CN112581162A (zh) 资讯内容展示方法、装置、存储介质以及终端
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111414471B (zh) 用于输出信息的方法和装置
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
KR101752474B1 (ko) 지식 공유 서비스 제공 장치, 방법 및 컴퓨터 프로그램
CN111460267B (zh) 对象识别方法、装置和系统
CN113761194A (zh) 信息流的互动处理方法、装置、电子设备
CN113204624A (zh) 一种多特征融合的文本情感分析模型及装置
Bhattacharyya et al. An emoticon-based sentiment aggregation on metaverse related tweets
CN116188120A (zh) 一种有声书的推荐方法、装置、系统及存储介质
CN113343084A (zh) 发文关键字段推送方法、装置、存储介质及计算机设备
CN110852078A (zh) 生成标题的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination