CN112182379B - 数据处理方法、电子设备及介质 - Google Patents

数据处理方法、电子设备及介质 Download PDF

Info

Publication number
CN112182379B
CN112182379B CN202011041965.7A CN202011041965A CN112182379B CN 112182379 B CN112182379 B CN 112182379B CN 202011041965 A CN202011041965 A CN 202011041965A CN 112182379 B CN112182379 B CN 112182379B
Authority
CN
China
Prior art keywords
information
data
click
channel
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011041965.7A
Other languages
English (en)
Other versions
CN112182379A (zh
Inventor
蔡文渊
骆玮璐
潘翔
张坤坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hipu Intelligent Information Technology Co ltd
Original Assignee
Shanghai Hipu Intelligent Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hipu Intelligent Information Technology Co ltd filed Critical Shanghai Hipu Intelligent Information Technology Co ltd
Priority to CN202011041965.7A priority Critical patent/CN112182379B/zh
Publication of CN112182379A publication Critical patent/CN112182379A/zh
Application granted granted Critical
Publication of CN112182379B publication Critical patent/CN112182379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据处理方法、电子设备及介质,方法包括:步骤S1、获取信息浏览数据;步骤S2、为数据处理模型设定模型参数的初始值;步骤S3、对信息浏览特征向量序列进行信息编码处理,得到呈现中间特征序列
Figure DDA0002706904630000011
步骤S4、对
Figure DDA0002706904630000012
进行解码处理,得到点击中间特征序列
Figure DDA0002706904630000013
基于Si获取xj对应的预测点击概率
Figure DDA0002706904630000014
基于
Figure DDA0002706904630000015
和实际点击概率zj确定第一损失函数Lc;步骤S5、获取预测信息推送结果概率
Figure DDA0002706904630000016
和第二损失函数Lv;步骤S6、基于获取的测试集获取当前模型精度,若低于预设的精度阈值,则基于Lc和Lv调整所述模型参数,返回执行步骤S1,否则,执行步骤S7;步骤S7、获取当前模型对应的A1、A2,基于A1和A2确定每一通道对应的权重。本发明能够高效、准确地获取到不同通道对于推送结果数据的权重。

Description

数据处理方法、电子设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、电子设备及介质。
背景技术
数据处理领域是计算机领域的重要分支。在计算机领域中,根据呈现方式,数据可以包括文本数据、图像数据、音频数据、视频数据等多种;根据存储方式,数据可以被存储到数据库、文本文件、特定格式文件(例如.doc/.xls)等;根据数据形成的方式,可以包括静态数据和动态数据,动态数据尤其是随时间变化的数据,例如通过路由器交换机等网络设备获取的信息推送数据、通过GPS或北斗等采集的设备LBS数据、等。数据处理可以为“正向处理”,例如利用某种算法处理图像,使之更清晰,也可以为“逆向处理”,例如在已知合成图像的清楚下,通过计算机程序分离合成图像所使用的多个原始图像。再如,在信息推送场景中,信息通常可以通过多种通道进行推送,选择目标通道对信息进行推送时,需要根据已有的信息推送结果数据逆向获取到不同通道对于推送结果数据的权重,基于每一通道对于推送结果数据的权重选择目标通道。
静态数据的“逆向处理”相对容易。动态数据之间也会存在关联关系,但因为动态数据多是随时间变化的数据,需要考虑时间维度对关联关系的影响,不仅会占用较多的计算机存储资源、检索资源、运算处理资源,而且处理精度也不够理想,随着智能化时代的到来,信息推送应用越来越广泛,因此,如何高效准确地通过数据的“逆向处理”,获取到不同通道对于推送结果数据的权重,成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种数据处理方法、电子设备及介质,能够高效、准确地获取到不同通道对于推送结果数据的权重。
根据本发明第一方面,提供了一种数据处理方法,包括:
步骤S1、从预设的数据库中获取n条信息浏览数据{G1,G2...Gn}组成训练集,
Figure BDA0002706904610000021
i=1,2...n,Gi共有mi个信息浏览特征向量,分别为
Figure BDA0002706904610000022
按照对应的时间戳顺序排列,构成信息浏览特征向量序列,Xj表示Gi的第j个信息浏览特征向量,j=1,2,3...mi,所述信息浏览特征向量Xj包括呈现特征向量xj和实际点击概率zj,yi为Gi的实际信息推送结果概率;
步骤S2、为预设的数据处理模型设定模型参数的初始值,所述模型参数包括呈现权重向量矩阵A1、点击权重向量A2、呈现中间特征向量初始值h0、点击中间特征向量初始值s0,平衡系数λ,其中,通道呈现权重向量A1的元素用于表示信息推送通道的呈现权重,通道点击权重向量A2的元素用于表示信息推送通道的点击权重;
步骤S3、以
Figure BDA0002706904610000023
作为所述模型的输入,基于呈现中间特征向量初始值h0对信息浏览特征向量序列
Figure BDA0002706904610000024
进行信息编码处理,得到呈现中间特征序列
Figure BDA0002706904610000025
步骤S4、基于点击中间特征向量初始值s0
Figure BDA0002706904610000026
进行解码处理,得到点击中间特征序列
Figure BDA0002706904610000027
基于Si获取xj对应的预测点击概率
Figure BDA0002706904610000028
基于所述n条信息浏览数据对应的所有的预测点击概率
Figure BDA0002706904610000029
和实际点击概率zj确定第一损失函数Lc
步骤S5、基于所述呈现中间特征序列Hi、通道呈现权重向量A1、点击中间特征序列Si、通道点击权重向量A2确定Gi对应的预测信息推送结果概率
Figure BDA00027069046100000210
基于所述n条信息浏览数据的预测信息推送结果概率
Figure BDA00027069046100000211
和实际信息推送结果概率yi确定第二损失函数Lv
步骤S6、从预设的数据库获取q条信息浏览数据{Q1,Q2...Qq}组成测试集,对当前数据处理模型进行测试,获取当前模型精度,若当前模型模型精度低于预设的精度阈值,则基于Lc和Lv调整所述模型参数,返回执行步骤S1,否则,执行步骤S7;
步骤S7、获取当前模型对应的通道呈现权重向量A1、通道点击权重向量A2,基于A1和A2确定每一通道对应的权重。
根据本发明第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明第一方面所述的方法。
根据本发明第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本发明第一方面所述的方法。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种数据处理方法、电子设备及介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明能够高效准确地通过数据的“逆向处理”,基于多条信息浏览数据获取到不同通道对于推送结果数据的权重。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明一实施例提供的数据处理方法示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数据处理方法、电子设备及介质的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种数据处理方法,如图1所示,包括以下步骤:
步骤S1、从预设的数据库中获取n条信息浏览数据{G1,G2...Gn}作为训练集,
Figure BDA0002706904610000031
i=1,2...n,Gi共有mi个信息浏览特征向量,分别为
Figure BDA0002706904610000032
按照对应的时间戳顺序排列,构成信息浏览特征序列,Xj表示Gi的第j个信息浏览特征向量,j=1,2,3...mi,所述信息浏览特征向量Xj包括呈现特征向量xj和实际点击概率zj,yi为Gi的实际信息推送结果概率;
其中,每个信息浏览特征向量中对应一个通道向量,所述通道是指用于推送信息的传输路径。呈现特征向量用于表示该信息通道向量所呈现的信息特征,点击概率用于表示该通道所呈现的信息特征被点击的概率,可以理解的是,实际点击概率为0或者1,该通道呈现的信息未被点击,实际概率为0,该通道呈现的信息被点击,实际概率为1。
步骤S2、为预设的数据处理模型设定模型参数的初始值,所述模型参数包括呈现权重向量矩阵A1、点击权重向量A2、呈现中间特征向量初始值h0、点击中间特征向量初始值s0,平衡系数λ0,其中,通道呈现权重向量A1的元素用于表示信息推送通道的呈现权重,通道点击权重向量A2的元素用于表示信息推送通道的点击权重;
步骤S3、以
Figure BDA0002706904610000041
作为所述模型的输入,基于呈现中间特征向量初始值h0对信息浏览特征向量序列
Figure BDA0002706904610000042
进行信息编码处理,得到呈现中间特征序列
Figure BDA0002706904610000043
可以理解的是,输入的所述信息浏览特征向量Xj包括呈现特征向量xj和实际点击概率zj,但在进行编码处理时,只需处理浏览特征向量序列
Figure BDA0002706904610000044
无需处理实际点击概率zj,当进入步骤S4后,再基于实际点击概率zj和预测点击概率
Figure BDA0002706904610000045
确定第一损失函数Lc
步骤S4、基于点击中间特征向量初始值s0
Figure BDA0002706904610000046
进行解码处理,得到点击中间特征序列
Figure BDA0002706904610000047
基于Si获取xj对应的预测点击概率
Figure BDA0002706904610000048
基于所述n条信息浏览数据对应的所有的预测点击概率
Figure BDA0002706904610000049
和实际点击概率zj确定第一损失函数Lc
步骤S5、基于所述呈现中间特征序列Hi、通道呈现权重向量A1、点击中间特征序列Si、通道点击权重向量A2确定Gi对应的预测信息推送结果概率
Figure BDA00027069046100000410
基于所述n条信息浏览数据的预测信息推送结果概率
Figure BDA00027069046100000411
和实际信息推送结果概率yi确定第二损失函数Lv
其中,呈现权重向量A1的每一元素,分别代表
Figure BDA00027069046100000412
对应通道向量的呈现信息对于信息推送结果达到预设目标的重要程度;点击权重向量A2的每一元素分别代表
Figure BDA0002706904610000051
对应通道向量的点击信息对于信息推送结果达到预设目标的重要程度。
步骤S6、从预设的数据库获取q条信息浏览数据{Q1,Q2...Qq}组成测试集,对当前数据处理模型进行测试,获取当前模型精度,若当前模型模型精度低于预设的精度阈值,则基于Lc和Lv调整所述模型参数,返回执行步骤S1,否则,执行步骤S7;
这样可以避免仅通过测试集进行训练造成的对测试集的数据依赖过大,导致模型精确度低。可以理解的是,为了进一步提高模型训练精确度,还可将通过集检测判断当前模型精确度和通过损失函数判断当前模型精确度两种方式结合来判断。
步骤S7、获取当前模型对应的通道呈现权重向量A1、通道点击权重向量A2,基于A1和A2确定每一通道对应的权重。
作为上述实施例的变形,步骤S6可替换为、根据Lc和Lv判断是否需要调整所述模型参数,若需要,则基于Lc和Lv调整所述模型参数,返回执行步骤S1,否则,执行步骤S7;通过调整模型参数使得模型精确度符合预设需求,例如,通过调整呈现权重向量A1、通道点击权重向量A2拟合真实的信息浏览特征序列,最终获得贴近实际情况的呈现权重向量A1、通道点击权重向量A2。通过损失函数判断当前模型精确度以及调整模型参数,具有高可靠性,且处理效率很高。
从预设的数据库获取q条信息浏览数据{G1,G2...Gn}组成测试集,对当前数据处理模型进行测试,获取当前模型精度,若当前模型模型精度低于预设的精度阈值,则基于Lc和Lv调整所述模型参数,返回执行步骤S1,否则,执行步骤S7。
本发明实施例能够高效准确地通过数据的“逆向处理”,基于多条信息浏览数据获取到不同通道对于推送结果数据的权重,本发明实施例基于信息呈现和信息点击两种特征结合起来获取到不同通道对于推送结果数据的权重,提高了获取结果的可靠性和准确度。
作为一种示例,所述方法还包括:步骤S10、构建所述预设数据库,具体包括:
步骤S101、获取不同终端的信息呈现数据和信息推送结果数据,所述信息呈现数据包括呈现信息ID、呈现设备ID、通道ID、信息点击数据、呈现时间戳,所述信息推送结果包括“0”或“1”,“0”表示未达到预设信息推送目标,“1”表示达到预设信息推送目标;
其中,终端可以物理实现为智能手机、PAD等能够安装应用程序(例如APP)的移动设备。
步骤S102、根据用户ID与设备ID的关联关系获取每一用户ID对应的信息呈现数据和信息推送结果数据;
可以理解的是,一个用户ID可以对应多个设备ID,通过步骤S102可以将统一用户在不同设备上浏览的信息搜集起来,再通过步骤S103得到对应的信息浏览数据
步骤S103、根据呈现时间戳将每个信息推送结果对应的信息呈现数据按照时间先后的顺序组成时间序列,并存储在所述数据库的记录中,构建所述预设数据库。
模型训练过程中,正样本和负样本的比例设置对模型精确度会有直接影响,比例过高或过低均会降低模型的精确度,影响数据处理的结果,因此要将正样本和负样本的比例设置在合理范围,以提高模型训练的精确度,作为一种实施例,正样本和负样本的比例设置为(1:4,1:2),优选的,可将正所述步骤1中,所获取的n条信息浏览数据所述正样本数据和负样本数据的比例为1:3,其中,正样本数据对应的信息推送结果为“1”,负样本数据对应的推送结果为“0”。
在上述变形实施例中,测试集数据所选择的数量会影响模型训练的精确度和训练效率,如果测试集选择数据过多,会降低模型训练效率,过少,降低模型训练的精确度,因此可以将训练集和测试集数据的比例设置为(3:1,5:1),优选地,所述训练集数据条数与所述测试集条数比例为4:1,需要说明的是,所述训练集数据和所述测试集数据为不同的信息浏览数据,这样可以避免模型对大量相同数据的依赖性,提高模型训练的精度,从而提高了数据处理结果的准确性。
作为一种实施例,所述步骤S3包括:
步骤S301、基于信息浏览特征向量序列上一时刻的呈现中间特征向量hj-1和当前时刻的信息浏览特征向量xj进行信息编码处理,确定当前时刻的呈现中间特征向量:
hj=fe(xj,hj-1)
其中,fe()为预设的编码函数,作为一种示例,fe()为长短期记忆网络(LSTM)的编码函数。
步骤S302、基于呈现中间特征向量hj确定呈现中间特征序列
Figure BDA0002706904610000071
作为一种实施例,所述步骤S4中、基于点击中间特征向量初始值s0
Figure BDA0002706904610000072
进行解码处理,得到点击中间特征序列
Figure BDA0002706904610000073
包括:
步骤S401、基于信息浏览特征向量序列上一时刻的点击中间特征向量sj-1和预测点击概率
Figure BDA0002706904610000074
以及
Figure BDA0002706904610000075
确定当前时刻的点击中间特征向量:
Figure BDA0002706904610000076
其中,fd()为预设的解码函数,作为一种示例,fd()为长短期记忆网络(LSTM)的解码函数。
步骤S402、基于点击中间特征向量sj确定点击中间特征序列
Figure BDA0002706904610000077
步骤S4中、基于Si获取xj对应的预测点击概率
Figure BDA0002706904610000078
包括:
步骤S411、基于Si
Figure BDA0002706904610000079
获取xj对应的预测点击概率:
Figure BDA00027069046100000710
其中,g()为预设的感知机模型函数,其核心公式是激活方程为
Figure BDA00027069046100000711
上述过程中,编码函数采用上一时刻的呈现中间特征向量hj-1和当前时刻的信息浏览特征向量xj确定当前时刻的呈现中间特征向量hj;解码函数基于信息浏览特征向量序列上一时刻的点击中间特征向量sj-1和预测点击概率
Figure BDA00027069046100000712
以及
Figure BDA00027069046100000713
确定当前时刻的点击中间特征向量;基于Si
Figure BDA00027069046100000714
获取xj对应的预测点击概率
Figure BDA00027069046100000715
可以动态调整相邻里两个信息浏览特征向量之间的关系,以提高模型训练的效率和精度,从而提高数据处理的效率和精确度
作为一种实施例,所述步骤S4中,基于所述n条信息浏览数据对应的所有的预测点击概率和实际点击概率确定第一损失函数L1,包括:
Figure BDA00027069046100000716
作为一种实施例,所述步骤S5中,所述基于所述呈现中间特征序列Hi、通道呈现权重向量A1、点击中间特征序列Si、通道点击权重向量A2确定Gi对应的预测信息推送结果概率
Figure BDA0002706904610000081
包括:
步骤S501、基于呈现中间特征序列Hi、通道呈现权重向量A1获取呈现参数:
C1=A1(h1,h2,……,hmi)
步骤S502、基于点击中间特征序列Si、通道点击权重向量A2获取点击参数:
C2=A2(s1,s2,……,smi)
步骤S503、基于呈现参数和点击参数获取预测信息推送结果概率
Figure BDA0002706904610000082
Figure BDA0002706904610000083
作为一种实施例,所述基于所述n条信息浏览数据的预测信息推送结果概率
Figure BDA0002706904610000084
和实际信息推送结果概率yi确定第二损失函数Lv,包括:
Figure BDA0002706904610000085
作为一种实施例,所述步骤S6中,所述包括:
步骤S611、将测试集中的每条信息浏览数据中的信息浏览特征向量序列输入当前的数据处理模型,得到对应的预测信息推送结果概率;
步骤S612、基于每条信息浏览数据对应的预测信息推送结果概率和实际信息推送结果概率确定该条信息浏览数据对应的模型精确度;
步骤S613、基于所述测试集中所有信息浏览数据对应的模型精确度确定当前模型的精确度。
通过构建测试集来判断当前模型的精度,可以避免仅通过测试集进行训练造成的对测试集的数据依赖过大,导致模型精确度低,提高模型训练结果的精确度,从而提高数据处理结果的精确度。
在上述变形实施例中,所述步骤S6中包括:
步骤S601、连续获取M个Lc和Lv,若连续M个Lc和Lv均逐渐变小,且变化幅度小于预设的变化阈值,则判断不需要调整模型参数,否则,进入步骤S602调整模型参数;
步骤S602、基于Lc和Lv确定模型参数的调整幅度,基于所述调整幅度调整模型参数,然后返回步骤S1。
基于Lc和Lv来判断模型参数能够快速准确判断当前模型是否需要调整,以及确定模型参数的调整幅度,提高了模型训练的精确度和效率,从而提高了数据处理的精确度和效率。
作为一种实施例,所述步骤S7中,获取当前模型对应的通道呈现权重向量A1、通道点击权重向量A2,基于A1和A2确定每一通道对应的权重:
Attrk=(1-λd)A1kdA2k
其中,Attrk为第k个通道的权重,A1k为A1中第k个通道的通道呈现权重值,A2k表示A2中第k个通道的通道点击权重值,λd为当前模型的平衡系数,k=1,2,3...K,K为通道总数。
本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明实施例所述的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机指令用于执行本发明实施例所述的方法。
在一种具体应用场景中,所述信息可以为广告信息,通过本发明实施例可以获取到不同的信息通道对推送广告信息达到预设目标的权重,为下一步广告推送提供有力参考。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
步骤S1、从预设的数据库中获取n条信息浏览数据{G1,G2...Gn}组成训练集,
Figure FDA0003077180880000011
Gi共有mi个信息浏览特征向量,分别为
Figure FDA0003077180880000012
按照对应的时间戳顺序排列,构成信息浏览特征向量序列,Xj表示Gi的第j个信息浏览特征向量,j=1,2,3...mi,所述信息浏览特征向量Xj包括呈现特征向量xj和实际点击概率zj,yi为Gi的实际信息推送结果概率;
步骤S2、为预设的数据处理模型设定模型参数的初始值,所述模型参数包括呈现权重向量矩阵A1、点击权重向量A2、呈现中间特征向量初始值h0、点击中间特征向量初始值s0,平衡系数λ,其中,通道呈现权重向量A1的元素用于表示信息推送通道的呈现权重,通道点击权重向量A2的元素用于表示信息推送通道的点击权重;
步骤S3、以
Figure FDA0003077180880000013
作为所述模型的输入,基于呈现中间特征向量初始值h0对信息浏览特征向量序列
Figure FDA0003077180880000014
进行信息编码处理,得到呈现中间特征序列
Figure FDA0003077180880000015
步骤S4、基于点击中间特征向量初始值s0
Figure FDA0003077180880000016
进行解码处理,得到点击中间特征序列
Figure FDA0003077180880000017
基于Si获取xj对应的预测点击概率
Figure FDA0003077180880000018
基于所述n条信息浏览数据对应的所有的预测点击概率
Figure FDA0003077180880000019
和实际点击概率zj确定第一损失函数Lc
所述步骤S4包括:
步骤S401、基于信息浏览特征向量序列上一时刻的点击中间特征向量sj-1和预测点击概率
Figure FDA00030771808800000110
以及
Figure FDA00030771808800000111
确定当前时刻的点击中间特征向量:
Figure FDA00030771808800000112
其中,fd()为预设的解码函数,作为一种示例,fd()为长短期记忆网络的解码函数;
步骤S402、基于点击中间特征向量sj确定点击中间特征序列
Figure FDA00030771808800000113
步骤S411、基于Si
Figure FDA00030771808800000114
获取xj对应的预测点击概率:
Figure FDA00030771808800000115
其中,g()为预设的感知机模型函数;
所述步骤S4中,基于所述n条信息浏览数据对应的所有的预测点击概率和实际点击概率确定第一损失函数L1,包括:
Figure FDA0003077180880000021
步骤S5、基于所述呈现中间特征序列Hi、通道呈现权重向量A1、点击中间特征序列Si、通道点击权重向量A2确定Gi对应的预测信息推送结果概率
Figure FDA0003077180880000022
基于所述n条信息浏览数据的预测信息推送结果概率
Figure FDA0003077180880000023
和实际信息推送结果概率yi确定第二损失函数Lv
所述步骤S5包括:
步骤S501、基于呈现中间特征序列Hi、通道呈现权重向量A1获取呈现参数:
C1=A1(h1,h2,……,hmi)
步骤S502、基于点击中间特征序列Si、通道点击权重向量A2获取点击参数:
C2=A2(s1,s2,……,smi)
步骤S503、基于呈现参数和点击参数获取预测信息推送结果概率
Figure FDA0003077180880000024
Figure FDA0003077180880000025
所述基于所述n条信息浏览数据的预测信息推送结果概率
Figure FDA0003077180880000026
和实际信息推送结果概率yi确定第二损失函数Lv,包括:
Figure FDA0003077180880000027
步骤S6、从预设的数据库获取q条信息浏览数据{Q1,Q2...Qq}组成测试集,对当前数据处理模型进行测试,获取当前模型精度,若当前模型的模型精度低于预设的精度阈值,则基于Lc和Lv调整所述模型参数,返回执行步骤S1,否则,执行步骤S7;
步骤S7、获取当前模型对应的通道呈现权重向量A1、通道点击权重向量A2,基于A1和A2确定每一通道对应的权重。
2.根据权利要求1所述的方法,其特征在于,
所述方法还包括:步骤S10、构建所述预设的数据库,具体包括:
步骤S101、获取不同终端的信息呈现数据和信息推送结果数据,所述信息呈现数据包括呈现信息ID、呈现设备ID、通道ID、信息点击数据、呈现时间戳,所述信息推送结果包括“0”或“1”,“0”表示未达到预设信息推送目标,“1”表示达到预设信息推送目标;
步骤S102、根据用户ID与设备ID的关联关系获取每一用户ID对应的信息呈现数据和信息推送结果数据;
步骤S103、根据呈现时间戳将每个信息推送结果对应的信息呈现数据按照时间先后的顺序组成时间序列,并存储在所述数据库的记录中,构建所述预设的数据库。
3.根据权利要求2所述的方法,其特征在于,
所述步骤S1中,所述训练集中,正样本数据和负样本数据的比例为1:3,其中,正样本数据对应的信息推送结果为“1”,负样本数据对应的推送结果为“0”。
4.根据权利要求1所述的方法,其特征在于,
所述训练集数据和所述测试集数据为不同的信息浏览数据,所述训练集数据条数与所述测试集条数比例为4:1。
5.根据权利要求1所述的方法,其特征在于,
所述步骤S6中,所述从预设的数据库获取q条信息浏览数据{G1,G2...Gn}组成测试集,对当前数据处理模型进行测试,获取当前模型精度,包括:
步骤S611、将测试集中的每条信息浏览数据中的信息浏览特征向量序列输入当前的数据处理模型,得到对应的预测信息推送结果概率;
步骤S612、基于每条信息浏览数据对应的预测信息推送结果概率和实际信息推送结果概率确定该条信息浏览数据对应的模型精确度;
步骤S613、基于所述测试集中所有信息浏览数据对应的模型精确度确定当前模型的精确度。
6.根据权利要求1所述的方法,其特征在于,
所述步骤S6中,所述基于Lc和Lv调整所述模型参数,包括:
基于Lc和Lv确定模型参数的调整幅度,基于所述调整幅度调整模型参数。
7.根据权利要求1所述的方法,其特征在于,
所述步骤S7中,所述基于A1和A2确定每一通道对应的权重包括:
Attrk=(1-λd)A1kdA2k
其中,Attrk为第k个通道的权重,A1k为A1中第k个通道的通道呈现权重值,A2k表示A2中第k个通道的通道点击权重值,λd为当前模型的平衡系数,k=1,2,3...K,K为通道总数。
8.一种电子设备,其特征在于,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行前述权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行前述权利要求1-7中任一项所述的方法。
CN202011041965.7A 2020-09-28 2020-09-28 数据处理方法、电子设备及介质 Active CN112182379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011041965.7A CN112182379B (zh) 2020-09-28 2020-09-28 数据处理方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011041965.7A CN112182379B (zh) 2020-09-28 2020-09-28 数据处理方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN112182379A CN112182379A (zh) 2021-01-05
CN112182379B true CN112182379B (zh) 2021-07-13

Family

ID=73945206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011041965.7A Active CN112182379B (zh) 2020-09-28 2020-09-28 数据处理方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN112182379B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168980A (zh) * 2016-07-26 2016-11-30 合网络技术(北京)有限公司 多媒体资源推荐排序方法及装置
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572734B (zh) * 2013-10-23 2019-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统
CN108228579A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 网络交互系统
CN111225282B (zh) * 2019-12-30 2021-04-02 重庆特斯联智慧科技股份有限公司 一种基于大数据的视频信息推荐方法、系统和可读存储介质
CN111325579A (zh) * 2020-02-25 2020-06-23 华南师范大学 一种广告点击率预测方法
CN111563770A (zh) * 2020-04-27 2020-08-21 杭州金智塔科技有限公司 一种基于特征差异化学习的点击率预估方法
CN111625681A (zh) * 2020-05-27 2020-09-04 深圳市易链信息技术有限公司 一种基于大数据的视频信息推荐方法、系统和可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168980A (zh) * 2016-07-26 2016-11-30 合网络技术(北京)有限公司 多媒体资源推荐排序方法及装置
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Match to Rank Model for Personalized Click-Through Rate Prediction;Ze Lyu等;《The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20)》;20200403;第34卷(第1期);全文 *

Also Published As

Publication number Publication date
CN112182379A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US11531867B2 (en) User behavior prediction method and apparatus, and behavior prediction model training method and apparatus
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN107704506B (zh) 智能应答的方法和装置
US20230401833A1 (en) Method, computer device, and storage medium, for feature fusion model training and sample retrieval
CN110390056B (zh) 大数据处理方法、装置、设备及可读存储介质
US20170169330A1 (en) Method and Electronic Device for Displaying Play Content in Smart Television
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN112231516B (zh) 视频摘要生成模型的训练方法、视频摘要生成方法及装置
EP4379574A1 (en) Recommendation method and apparatus, training method and apparatus, device, and recommendation system
CN112307243B (zh) 用于检索图像的方法和装置
CN112182382B (zh) 数据处理方法、电子设备及介质
CN113868523A (zh) 推荐模型训练方法、电子设备及存储介质
CN112182379B (zh) 数据处理方法、电子设备及介质
KR20210090706A (ko) 정렬
CN108009150B (zh) 一种基于循环神经网络的输入方法及装置
JP2021033994A (ja) テキスト処理方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN111612783B (zh) 一种数据质量评估方法及系统
CN111783453B (zh) 文本的情感信息处理方法及装置
CN117688390A (zh) 内容匹配方法、装置、计算机设备、存储介质和程序产品
CN113360744B (zh) 媒体内容的推荐方法、装置、计算机设备和存储介质
CN112182381B (zh) 数据处理方法、电子设备及介质
CN107508705A (zh) 一种http元素的资源树构建方法及计算设备
CN113515701A (zh) 信息推荐方法及装置
CN113298083A (zh) 一种数据处理方法及装置
CN105786791A (zh) 数据主题获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 401, 2-6 / F, No.5 Lane 541, Wenshui East Road, Hongkou District, Shanghai 200434

Applicant after: Shanghai hipu Intelligent Information Technology Co.,Ltd.

Address before: Room 401, 2-6 / F, No.5 Lane 541, Wenshui East Road, Hongkou District, Shanghai 200434

Applicant before: Shanghai Honglu Data Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant