CN112328899B - 信息处理方法、信息处理装置、存储介质与电子设备 - Google Patents
信息处理方法、信息处理装置、存储介质与电子设备 Download PDFInfo
- Publication number
- CN112328899B CN112328899B CN202011356436.6A CN202011356436A CN112328899B CN 112328899 B CN112328899 B CN 112328899B CN 202011356436 A CN202011356436 A CN 202011356436A CN 112328899 B CN112328899 B CN 112328899B
- Authority
- CN
- China
- Prior art keywords
- information
- push
- feature data
- candidate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 118
- 230000006399 behavior Effects 0.000 claims description 63
- 238000012360 testing method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 36
- 238000013145 classification model Methods 0.000 claims description 30
- 238000013136 deep learning model Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种信息处理方法、信息处理装置、计算机可读存储介质与电子设备,属于信息处理技术领域。所述方法包括:获取推送对象的特征数据;确定各候选推送信息的类别,根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据;对所述中间特征数据进行处理,得到所述推送对象与所述候选推送信息的关联度增量;根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息。本公开可以提高信息推送的准确率。
Description
技术领域
本公开涉及信息处理技术领域,尤其涉及一种信息处理方法、信息处理装置、计算机可读存储介质与电子设备。
背景技术
随着互联网技术等的发展,用户获取信息的方式变得非常便捷和快速,但与此同时,由于信息体量的庞大,用户获取有效信息的效率反而降低了许多。因此,为了向用户提供更为优质的服务,诸多互联网厂商都试图向用户推送其感兴趣的内容,使用户可以根据推送信息选择相应的业务。
现有的信息推送方法主要是通过分析用户的历史行为数据,将用户可能感兴趣的内容推送给用户。而分析用户的历史行为数据主要是根据规则模型确定用户偏好的,以RFM模型(一种客户价值分析模型)为例,主要是根据用户的行为数据制定规则,分析用户类型,并根据具体的用户属性选择对应的推送内容。然而,这种方法主要依赖于人为制定的规则,且人为制定规则主要是基于操作人员对用户的历史行为数据的统计分析,个人主观性较强,并且上述方法并没有考虑推送内容对用户偏好的影响,难以确定推送行为对用户的影响程度,因此,信息推送的准确率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种信息处理方法、信息处理装置、计算机可读存储介质与电子设备,进而至少在一定程度上改善现有技术中信息推送准确率不高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种信息处理方法,所述方法包括:获取推送对象的特征数据;确定各候选推送信息的类别,根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据;对所述中间特征数据进行处理,得到所述推送对象与所述候选推送信息的关联度增量;根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息。
在本公开的一种示例性实施方式中,所述获取推送对象的特征数据包括:获取所述推送对象的日志数据;获取所述推送对象的日志数据;根据所述日志数据确定在预设时段内所述推送对象与各所述候选推送信息之间是否存在关联关系;在确定所述推送对象与各所述候选推送信息之间存在关联关系时,提取所述推送对象的画像数据和所述推送对象的与各所述候选推送信息相关的行为数据,得到所述推送对象的特征数据;其中,所述关联关系包括所述推送对象与各所述候选推送信息之间是否存在对应的推送历史。
在本公开的一种示例性实施方式中,所述确定各候选推送信息的类别包括:获取所述候选推送信息的信息特征数据,生成所述信息特征数据的特征向量;计算各所述特征向量的相似度;将所述相似度大于相似度阈值的特征向量所对应的候选推送信息划分为一个类别,以确定所述各候选推送信息的类别。
在本公开的一种示例性实施方式中,所述生成所述信息特征数据的特征向量,包括:将所述信息特征数据输入至预先训练的Wide&Deep模型中的Wide线性模型中;以及将所述信息特征数据进行降维处理,得到低维信息特征数据,并将所述低维信息特征数据输入至所述Wide&Deep模型中的Deep深度学习模型中;对所述Wide线性模型和所述Deep深度学习模型进行联合训练,得到所述信息特征数据的特征向量。
在本公开的一种示例性实施方式中,所述根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据,包括:将所述类别中全部所述候选推送信息的信息特征数据与所述推送对象的特征数据进行拼接,得到所述中间特征数据。
在本公开的一种示例性实施方式中,所述对所述中间特征数据进行处理,得到所述推送对象与所述候选推送信息的关联度增量,包括:将具有与所述推送对象相关的推送历史的所述候选推送信息确定为第一类推送信息,将其余的所述候选推送信息确定为第二类推送信息;将所述第一类推送信息对应的所述中间特征数据确定为第一类中间特征数据,将所述第二类推送信息对应的所述中间特征数据确定为第二类中间特征数据;采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述侯选推送信息的关联度增量。
在本公开的一种示例性实施方式中,所述训练模型包括第一分类模型和第二分类模型,所述采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述侯选推送信息的关联度增量,包括:将所述第一类中间特征数据划分为训练集和测试集,确定所述推送对象具有选择行为的候选推送信息,并根据确定结果设置所述训练集的标签值;将所述第二类中间特征数据划分为训练集和测试集,确定所述推送对象具有选择行为的候选推送信息,并根据确定结果设置所述训练集的标签值;采用第一分类模型训练所述第一类中间特征数据的测试集,得到所述推送对象与所述候选推送信息的第一关联度;采用第二分类模型训练所述第二类中间特征数据的测试集,得到所述推送对象与所述候选推送信息的第二关联度;将所述第一关联度和所述第二关联度的差值确定为所述推送对象与所述候选推送信息的关联度增量。
在本公开的一种示例性实施方式中,所述采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述侯选推送信息的关联度增量,包括:将所述第一类中间特征数据划分为训练集和测试集,以及将所述第二类中间特征数据划分为训练集和测试集;设置联合选择条件,根据所述联合选择条件设置所述第一类中间特征数据的训练集和所述第二类中间特征数据的训练集的标签值,得到第三类中间特征数据;采用预先确定的训练模型训练所述第三类中间特征数据中的测试集,得到所述推送对象与所述侯选推送信息的关联度增量;其中,所述联合选择条件包括在所述第一类中间特征数据中所述推送对象对所述候选推送信息存在选择行为,以及在所述第二类中间特征数据中所述推送对象对所述候选推送信息不存在选择行为。
在本公开的一种示例性实施方式中,所述根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息,包括:将所述关联度增量大于预设阈值的候选推送信息确定为所述目标推送信息。
根据本公开的第二方面,提供一种信息处理装置,所述信息处理装置包括:获取模块,用于获取推送对象的特征数据;确定模块,用于确定各候选推送信息的类别,根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据;处理模块,用于对所述中间特征数据进行处理,得到所述推送对象与所述候选推送信息的关联度增量;筛选模块,用于根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息。
在本公开的一种示例性实施方式中,所述获取模块用于获取所述推送对象的日志数据,根据所述日志数据确定在预设时段内所述推送对象与各所述候选推送信息之间是否存在关联关系,在确定所述推送对象与各所述候选推送信息之间存在关联关系时,提取所述推送对象的画像数据和所述推送对象的与各所述候选推送信息相关的行为数据,得到所述推送对象的特征数据,其中,所述关联关系包括所述推送对象与各所述候选推送信息之间是否存在对应的推送历史。
在本公开的一种示例性实施方式中,所述确定模块用于获取所述候选推送信息的信息特征数据,生成所述信息特征数据的特征向量,计算各所述特征向量的相似度,将所述相似度大于相似度阈值的特征向量所对应的候选推送信息划分为一个类别,以确定所述各候选推送信息的类别。
在本公开的一种示例性实施方式中,所述确定模块还用于将所述信息特征数据输入至预先训练的Wide&Deep模型中的Wide线性模型中,以及将所述信息特征数据进行降维处理,得到低维信息特征数据,并将所述低维信息特征数据输入至所述Wide&Deep模型中的Deep深度学习模型中,对所述Wide线性模型和所述Deep深度学习模型进行联合训练,得到所述信息特征数据的特征向量。
在本公开的一种示例性实施方式中,所述确定模块还用于将所述类别中全部所述候选推送信息的信息特征数据与所述推送对象的特征数据进行拼接,得到所述中间特征数据。
在本公开的一种示例性实施方式中,所述处理模块用于将具有与所述推送对象相关的推送历史的所述候选推送信息确定为第一类推送信息,将其余的所述候选推送信息确定为第二类推送信息,将所述第一类推送信息对应的所述中间特征数据确定为第一类中间特征数据,将所述第二类推送信息对应的所述中间特征数据确定为第二类中间特征数据,采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述侯选推送信息的关联度增量。
在本公开的一种示例性实施方式中,所述训练模型包括第一分类模型和第二分类模型,所述处理模块还用于将所述第一类中间特征数据划分为训练集和测试集,确定所述推送对象具有选择行为的候选推送信息,并根据确定结果设置所述训练集的标签值,将所述第二类中间特征数据划分为训练集和测试集,确定所述推送对象具有选择行为的候选推送信息,并根据确定结果设置所述训练集的标签值,采用第一分类模型训练所述第一类中间特征数据的测试集,得到所述推送对象与所述候选推送信息的第一关联度,采用第二分类模型训练所述第二类中间特征数据的测试集,得到所述推送对象与所述候选推送信息的第二关联度,将所述第一关联度和所述第二关联度的差值确定为所述推送对象与所述候选推送信息的关联度增量。
在本公开的一种示例性实施方式中,所述处理模块还用于将所述第一类中间特征数据划分为训练集和测试集,以及将所述第二类中间特征数据划分为训练集和测试集,设置联合选择条件,根据所述联合选择条件设置所述第一类中间特征数据的训练集和所述第二类中间特征数据的训练集的标签值,得到第三类中间特征数据,采用预先确定的训练模型训练所述第三类中间特征数据中的测试集,得到所述推送对象与所述侯选推送信息的关联度增量,其中,所述联合选择条件包括在所述第一类中间特征数据中所述推送对象对所述候选推送信息存在选择行为,以及在所述第二类中间特征数据中所述推送对象对所述候选推送信息不存在选择行为。
在本公开的一种示例性实施方式中,所述筛选模块用于将所述关联度增量大于预设阈值的候选推送信息确定为所述目标推送信息。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种信息处理方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一种信息处理方法。
本公开具有以下有益效果:
根据本示例性实施方式中的信息处理方法、信息处理装置、计算机可读存储介质和电子设备,可以通过获取推送对象的特征数据,确定各候选推送信息的类别,根据各类别中全部候选推送信息的信息特征数据和上述推送对象的特征数据生成中间特征处理,对该中间特征数据进行处理,得到上述推送对象与候选推送信息之间的关联度增量,从而根据该关联度增量,从上述候选推送信息中筛选出与上述推送对象相匹配的目标推送信息。一方面,本示例性实施方式通过确定推送对象与候选推送信息的关联度增量,并根据该关联度增量从全部候选推送信息中筛选出与推送对象相匹配的目标推送信息,可以将推送对象对候选推送信息的兴趣度数值化,并且也可以提高确定推送信息的准确率;另一方面,通过根据对应类别中全部候选推送信息的信息特征数据和推送对象的特征数据生成中间特征数据,可以通过其他各候选推送信息的信息特征数据扩充候选推送信息的信息特征数据,增强模型在相似类别的候选推送信息中的泛化能力,进一步提高确定推送信息的准确率;再一方面,通过中间特征数据与关联度增量实现了推送对象的特征数据与候选推送信息的信息特征数据之间的关联,从而打通了数据壁垒,便于后续系统中的服务器读取与调用相关数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本示例性实施方式中一种信息处理方法的流程图;
图2示出本示例性实施方式中一种特征数据的示意图;
图3示出本示例性实施方式中一种生成信息特征数据的特征向量的示意图;
图4示出本示例性实施方式中一种信息处理方法的子流程图;
图5示出本示例性实施方式中另一种信息处理方法的子流程图;
图6示出本示例性实施方式中一种确定关联度增量的方法示意图;
图7示出本示例性实施方式中另一种确定关联度增量的方法示意图;
图8示出本示例性实施方式中另一种信息处理方法的流程图;
图9示出本示例性实施方式中一种信息处理装置的结构框图;
图10示出本示例性实施方式中一种用于实现上述方法的计算机可读存储介质;
图11示出本示例性实施方式中一种用于实现上述方法的电子设备。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
相关技术的一种方案中,可以通过数学建模的方法学习用户的历史行为数据,具体来说,可以用数学模型学习用户与某推送内容的历史行为数据,然后用分类的方法确定对上述推送内容可能感兴趣的人群,如可以用监督分类的方法对用户的历史行为数据设置标签,并用数学分析的方法指定出感兴趣和不感兴趣的标准来选择样本数据,这种方法减少了对推送结果的人工干预,但由于推送结果高度依赖于数学模型,并且也不能确定用户对推送内容的兴趣是来源于用户本身,或是来源于推送行为,也就是说,无法确定用户对推送行为的敏感度,因此,推送准确率也不高。
鉴于前述的各种问题,本公开的示例性实施方式首先提供了一种信息处理方法。该方法可以确定与推送对象相匹配的推送信息,例如,在购物类应用中,可以确定与用户匹配度较高的商品信息。本示例性实施方式中,推送对象是需要向其推送信息的用户,可以是一个或多个用户。
图1示出了本示例性实施方式的一种流程,可以包括以下步骤S110~S140:
步骤S110.获取推送对象的特征数据。
其中,推送对象的特征数据可以包括推送对象的基本信息,如性别、年龄、职业、所在地,也可以包括推送对象的其他数据,如推送对象的画像数据等,该画像数据可以是根据推送对象的偏好、习惯和行为等信息而抽象出来的标签化用户数据,简单来讲,就是通过对推送对象的信息进行分析而得出的高度精炼的特征标识,例如可以包括推送对象的行为习惯,如关注的物品品类、选择物品的时间段分布等。
通常,推送对象的特征数据可以由特定的数据库或数据平台存储。因此,通过相应的数据接口可以直接获取推送对象的特征数据,例如,可以以推送对象的对象标识等为索引,从上述数据库或数据平台获取推送对象的特征数据。
在一种可选的实施方式中,信息推送服务器可以通过第一接口从第一数据库读取推送对象的特征数据。
在实际应用中,推送对象对信息的关注行为的影响因素大致可以分为两类,一类是自身兴趣度,另一类则是推送行为。也就是说,推送对象可以基于自身的兴趣查看相关信息,也可以是在接收到相关信息的推送信息后查看相关信息。因此,为了进一步分析各影响因素对推送对象的影响程度,在一种可选的实施方式中,步骤S110可以通过以下方式实现:
获取上述推送对象的日志数据;
根据上述日志数据确定在预设时段内上述推送对象与各候选推送信息之间是否存在关联关系;
在确定上述推送对象与各候选推送信息之间存在关联关系时,提取推送对象的画像数据和该推送对象的与上述各候选推送信息相关的行为数据,得到上述推送对象的特征数据;
其中,候选推送信息可以是需要向推送对象推送的信息,可以根据业务场景包括多种类型,例如,对于购物类应用,候选推送信息可以是某种物品的信息,可以包括物品描述和价格等,对于活动类应用,候选推送信息可以是某种活动的信息,如可以包括活动名称、活动内容和时间、地点等;日志数据是记录推送对象行为数据的过程性事件记录数据,每一条日志数据都可以看做是一次推送对象的行为事件;推送对象与各候选推送信息之间的关联关系可以包括推送对象与各候选推送信息之间是否存在对应的推送历史,例如,若在过去一段时间内,推送对象A1曾接收到候选推送信息B1,则可以确定推送对象A1与其所接收到的候选推送信息B1之间在上述时间段内存在关联关系;反之,若在过去一段时间内,推送对象A1未接收到上述候选推送信息B1,则可以确定推送对象A1与上述候选推送信息B1之间在上述时间段内不存在关联关系;推送对象的画像数据可以包括推送对象的行为习惯、对象类型,如推送对象选择物品的性格类型、社会属性,如家庭关系、职业类型等;与候选推送信息相关的行为数据可以是推送对象对候选推送信息的搜索、点击、收藏、购买、关注或评论等的行为数据;预设时段一般可以由开发人员根据使用需求和操作经验等自行设置,例如可以设置为一周、一个月等。
通过获取推送对象的日志数据,可以根据该日志数据确定在预设时段内上述推送对象与各候选推送信息之间是否存在关联关系,即是否存在对应的推送历史,从而提取推送对象的画像数据和该推送对象的与各候选推送信息相关的行为数据,得到上述推送对象的特征数据。
例如,参考图2所示,可以根据日志数据确定推送对象与各候选推送信息之间是否存在对应的推送历史,将推送对象和候选推送信息划分为两类:存在推送历史的a类数据和不存在推送历史的b类数据;同时,更为详细的,可以在存在推送历史的推送对象和候选推送信息中,进一步确定存在推送历史的条件下,推送对象是否产生了关于对应候选推送信息的行为数据,例如,在推送对象接收到候选推送信息的条件下,确定该推送对象与其所接收到的候选推送信息之间是否存在点击、关注或购买等任意一种或多种行为,相应地,也可以在不存在推送历史的推送对象和候选推送信息中,进一步确定在不存在推送历史的条件下,推送对象是否产生了关于对应候选推送信息的行为数据,从而将获取到的日志数据划分为四种类型:T1(存在推送历史,且产生行为数据)、T2(存在推送历史,但未产生行为数据)、T3(不存在推送历史,但产生行为数据)和T4(不存在推送历史,也未产生行为数据)。在确定推送对象与候选推送信息之间的推送关系后,可以进一步提取推送对象的画像数据和该推送对象的与候选推送信息之间相关的行为数据,例如,在确定推送对象A1与候选推送信息B1之间不存在推送历史时,可以获取推送对象A1的画像数据和该推送对象A1与候选推送信息B1之间相关的行为数据。
实际上,通过上述根据推送对象和各候选推送信息的关联关系得到推送对象的特征数据的方法,可以得到推送对象自身的特征数据和推送对象关于候选推送信息的信息特征数据,且推送对象关于候选推送信息的信息特征数据可以表示推送对象与各候选推送信息之间是否存在对应的推送历史,以及在推送对象接收到候选推送信息后,是否产生关于该候选推送信息的行为数据。
步骤S120.确定各候选推送信息的类别,根据上述类别中全部候选推送信息的信息特征数据和推送对象的特征数据生成中间特征数据。
其中,候选推送信息的类别可以用于表示与推送对象相关的某一类具有相似或相同特点的候选推送信息,在同一类别的候选推送信息中,推送对象对各候选推送信息的数据呈现出一定相似性,例如,对于购物类应用而言,同一类别的候选推送信息可以是同一类物品,如服装类、电器类等的推送信息,推送对象对该类物品的行为数据,如在购买量和购买金额等特征数据中呈现出一定相似性;候选推送信息的信息特征数据可以包括推送对象关于该候选推送信息的行为特征,如点击次数、购买量、购买金额和行为时间分布等,也可以包括推送对象关于一个或多个候选推送信息的统计特征,如可以是对相同类别的候选推送信息的点击总次数、平均次数等;中间特征数据可以是由候选推送信息的信息特征数据和推送对象的特征数据生成的用于分析推送对象对各候选推送信息的偏好程度的特征数据。
本示例性实施方式中,候选推送信息的信息特征数据和生成的中间特征数据均可以存储在与上述推送对象的特征数据相同的数据库或数据平台中。在一些情况下,为了提高数据管理的效率,候选推送信息的信息特征数据和生成的中间特征数据也可以存储在不同的数据库中,例如,候选推送信息的信息特征数据可以存储在第二数据库中,中间特征数据可以存储在第三数据库中;或者信息特征数据与中间特征数据存储在同一数据库中。
在一种可选的实施方式中,信息推送服务器可以通过第二接口从第二数据库读取候选推送信息的信息特征数据。
通过确定各候选推送信息的类别,按照候选推送信息在某种属性,如推送对象对候选推送信息的点击次数、购买量等属性上的相似性将候选推送信息划分为多个类别。由于推送对象对同一类别中的候选推送信息具有相似性,因此,可以将同一类别中的全部候选推送信息的信息特征数据和推送对象的特征数据均作为推送对象的中间特征数据。
在一种可选的实施方式中,信息推送服务器可以将中间特征数据写入第三数据库,也可以将中间特征数据写入第一数据库,例如在第一数据库中对推送对象设置新属性(或新字段),将中间特征数据写入新属性下,如按照推送对象的对象标识对应写入。
为了便于确定各候选推送信息的类别,减少人为判断的主观性,在一种可选的实施方式中,步骤S120中确定各候选推送信息的类别可以通过以下方式实现:
获取上述候选推送信息的信息特征数据,生成该信息特征数据的特征向量;
计算各特征向量的相似度;
将上述相似度大于相似度阈值的特征向量所对应的候选推送信息划分为一个类别,以确定各候选推送信息的类别。
其中,信息特征数据的特征向量是指该信息特征数据的向量表示;相似度阈值一般可以根据操作人员的经验或数据分析的需求进行设置,例如可以设置为0.7、0.8或0.9等。
通过获取候选推送信息的信息特征数据,可以将该信息特征数据转换成对应的特征向量,例如,可以按照一定顺序排列信息特征数据中的各个特征,将信息特征数据转换为对应的特征向量;进一步的,若信息特征数据中存在非数值型特征,也可以采用特定的编码方式对信息特征数据中的每个特征进行编码,从而将转换后的数值型特征按照一定顺序排列为特征向量。在得到信息特征数据的特征向量后,可以通过计算各特征向量之间的相似度,如欧氏距离、余弦相似度、相关系数等,来将相似度大于预设的相似度阈值的特征向量所对应的候选推送信息划分为一个类别。通过上述方法可以将全部候选推送信息划分为一个或多个类别,由此可以确定上述各候选推送信息所属的类别。
进一步的,在生成信息特征数据的特征向量时,考虑到若信息特征数据的特征维数较大,容易造成计算量的暴涨,因此,为了降低信息特征数据的维数,在一种可选的实施方式中,上述生成信息特征数据的特征向量的方法可以通过以下方式实现:
将上述信息特征数据输入至预先训练的Wide&Deep模型中的Wide线性模型中;以及
将上述信息特征数据进行降维处理,得到低维信息特征数据,并将该低维信息特征数据输入至上述Wide&Deep模型中的Deep深度学习模型中;
对上述Wide线性模型和Deep深度学习模型进行联合训练,得到上述信息特征数据的特征向量。
其中,Wide&Deep模型是一种兼具记忆能力和泛化能力的网络模型,主要包括Wide线性模型和Deep深度学习模型,其中,Wide线性模型主要用于处理高维稀疏特征,其输入可以是信息特征数据中推送对象关于各候选推送信息的信息特征数据,也可以是推送对象关于一个或多个候选推送信息的统计特征数据,Wide线性模型所具有的记忆能力能够通过信息特征数据中的历史数据推测出与历史数据关联性较强的数据;Deep深度学习模型可以是一个多层感知机,可以负责处理信息特征数据中的低维稠密特征,Deep深度学习模型所具有的泛化能力可以通过信息特征数据中的历史数据以及数据相关性的迁移,预测出之前几乎从未出现过的新的数据。
如图3所示,通过将上述信息特征数据输入至预先训练的Wide&Deep模型中的Wide线性模型中,可以通过上述信息特征数据和该Wide线性模型所具备的记忆能力分析出推送对象对哪些候选推送信息较为敏感;将上述信息特征数据进行降维处理,可以减小信息特征数据中的特征维度,避免在通过Deep深度学习模型进行训练时产生计算失败的问题,通过上述Deep深度学习模型,可以综合分析出推送对象还可能感兴趣的候选推送信息。进一步的,在通过上述Wide线性模型和Deep深度学习模型分别对上述信息特征数据进行训练后,为了使两种模型的性能达到相对平衡的状态,可以将上述两种模型进行联合训练,具体的,可以对上述两种模型的输出结果加权求和,并将经过加权求和后得到的结果输入至预设的损失函数,如中,最终在通过上述Wide&Deep模型得到的损失值小于预设值或迭代次数达到预设次数时停止训练,将此时得到的信息特征数据的低维信息特征数据转换为上述信息特征数据的特征向量。其中,损失函数一般可以选择一般逻辑损失函数,相应的,也可以选择其他损失函数,本示例性实施方式对此不做特殊限定。
在一种可选的实施方式中,在使用上述Wide&Deep模型之前,可以对该Wide&Deep模型预先进行训练,具体的,可以获取推送对象的历史特征数据,并将获取到的历史特征数据划分为训练集和验证集,通过该训练集对该Wide&Deep模型进行训练,而后再通过验证集对训练后的Wide&Deep模型进行验证。
本示例性实施方式中,候选推送信息的信息特征数据和推送对象的特征数据实际上分别表达了两种维度的特征数据,即候选推送信息维度和推送对象维度,因此,为了融合两种信息维度的特征数据,在一种可选的实施方式中,可以通过将上述类别中全部候选推送信息的信息特征数据与推送对象的特征数据进行拼接,得到上述中间特征数据。例如,可以按照推送对象和候选推送信息的对应关系,构建中间特征数据的矩阵,将矩阵中的每一行数据作为由某个推送对象的特征数据和某候选推送信息的信息特征数据串接而成的特征数据,每一列可以表示确定的特征,如推送对象的性别、候选推送信息的选择次数等。
进一步的,在生成中间特征数据时,由于推送对象的特征数据可以包括推送对象的画像数据和推送对象的与各候选推送信息相关的行为数据,因此,如图4所示,上述生成中间特征数据的方法可以通过步骤S410~S430实现:
步骤S410.将推送对象的样本数据与行为数据进行拼接,得到上述推送对象的第一过渡特征。
步骤S420.将推送对象的第一过渡特征与画像数据进行拼接,得到上述推送对象的第二过渡特征。
步骤S430.将推送对象的第二过渡特征与候选推送信息的信息特征数据进行拼接,得到上述推送对象的中间特征数据。
其中,推送对象的样本数据可以包括推送对象的基本信息等预先得到的特征数据。
步骤S130.对上述中间特征数据进行处理,得到推送对象与候选推送信息的关联度增量。
其中,关联度增量可以用于表示推送对象与候选推送信息的匹配度,也可以用于表示推送对象对候选推送信息的兴趣度,关联度增量越高,说明推送对象与候选推送信息的匹配度越高,推送对象对候选推送信息的兴趣度越高;反之,说明推送对象与候选推送信息的匹配度越低,推送对象对候选推送信息的兴趣度越低。
由于上述中间特征数据可以包括候选推送信息的信息特征数据和推送对象的特征数据,通过对中间特征数据进行处理,如可以按照一定标准将推送对象对各候选推送信息的关注行为转换为数值型的关联度,从而分析得到推送对象与各候选推送信息之间的关联度增量。
为了确定推送行为对推送对象的影响程度,在一种可选的实施方式中,如图5所示,步骤S130可以通过以下步骤S510~S530实现:
步骤S510.将具有与上述推送对象相关的推送历史的候选推送信息确定为第一类推送信息,将其余的候选推送信息确定为第二类推送信息。
步骤S520.将上述第一类推送信息对应的中间特征数据确定为第一类中间特征数据,将上述第二类推送信息对应的中间特征数据确定为第二类中间特征数据。
步骤S530.采用预先确定的训练模型对上述第一类中间特征数据和上述第二类中间特征数据进行训练,得到上述推送对象与上述候选推送信息的关联度增量。
通过确定第一类推送信息和第二类推送信息,可以将候选推送信息划分为具有推送历史的信息和不具有推送历史的信息,而第一类推送信息对应的中间特征数据,即第一类中间特征数据则是曾接收到候选推送信息的推送对象的中间特征数据,第二类中间特征数据则是不曾接收到候选推送信息的推送对象的中间特征数据。在得到第一类中间特征数据和第二类中间特征数据后,可以采用预先确定的训练模型对上述第一类中间特征数据和第二类中间特征数据进行训练,从而得到各推送对象与各候选推送信息的关联度,并由此得到各推送对象与各候选推送信息的关联度增量。
具体的,在一种可选的实施方式中,步骤S530可以通过以下方式实现:
将上述第一类中间特征数据划分为训练集和测试集,确定上述推送对象具有选择行为的候选推送信息,并根据确定结果设置上述训练集的标签值;
将上述第二类中间特征数据划分为训练集和测试集,确定上述推送对象具有选择行为的候选推送信息,并根据确定结果设置上述训练集的标签值;
采用第一分类模型训练上述第一类中间特征数据的测试集,得到上述推送对象与候选推送信息的第一关联度;
采用第二分类模型训练上述第二类中间特征数据的测试集,得到上述推送对象与候选推送信息的第二关联度;
将上述第一关联度和上述第二关联度的差值确定为上述推送对象与候选推送信息的关联度增量。
其中,训练集可以用于训练模型,测试集可以用于对完成训练的模型进行测试,在时间序列维度,测试集的时间点一般可以大于训练集;推送对象对候选推送信息的选择行为可以包括点击、关注、搜索候选推送信息等任意一种或多种;第一分类模型可以是任意一种监督式分类模型,如XGBoost(Extreme Gradient Boosting,一种分类模型)算法、SVM(Support Vector Machine,支持向量机)算法、神经网络模型等;第二分类模型也可以是任意一种监督式分类模型,根据实际需求,第二训练模型可以与上述第一训练模型相同,也可以与上述第一训练模型不同。
为了提高训练方法的准确率,可以将上述第一类中间特征数据划分为训练集和测试集,并确定推送对象具有选择行为的候选推送信息,例如,可以在第一类中间特征数据中确定各推送对象存在搜索、关注、收藏等选择行为中的任意一种或多种的候选推送信息,以此方式确定推送对象具有选择行为的候选推送信息和不具有选择行为的候选推送信息,从而根据确定后的结果设置第一类中间特征数据中训练集的标签值,如假设标签值为Y,则可以将训练集中推送对象具有选择行为的候选推送信息的信息特征数据的标签值Y设置为1,将训练集中推送对象不具有选择行为的候选推送信息的信息特征数据的标签值Y设置为0;相应的,采用与上述方法相类似的方法可以设置第二类中间特征数据中训练集的标签值。
在设置标签值后,可以采用第一分类模型训练上述第一类中间特征数据中的测试集,采用第二分类模型训练上述第二类中间特征数据中的测试集,并通过第一分类模型得到上述推送对象和候选推送信息的第一关联度,通过第二分类模型得到上述推送对象和候选推送信息的第二关联度。由此,可以通过上述第一关联度和第二关联度得到上述推送对象和候选推送信息之间的关联度增量,例如,可以将上述第一关联度和第二关联度的差值确定为上述推送对象和候选推送信息的关联度增量。具体的,图6示出了一种通过第一分类模型和第二分类模型计算关联度增量的方法,如图所示,对第一类中间特征数据T而言,推送对象对候选推送信息的第一关联度为PT=P(Y=1|X,T);对第二类中间特征数据C而言,推送对象对候选推送信息的第二关联度PC=P(Y=1|X,C),由此,推送对象和候选推送信息的关联度增量τ=PT-PC。
进一步的,为了减少采用两种分类模型所需要使用的计算时间,提升计算效率,在一种可选的实施方式中,步骤S530也可以通过以下方式实现:
将上述第一类中间特征数据划分为训练集和测试集,以及将上述第二类中间特征数据划分为训练集和测试集;
设置联合选择条件,根据该联合选择条件设置上述第一类中间特征数据的训练集和上述第二类中间特征数据的训练集的标签值,得到第三类中间特征数据;
采用预先确定的训练模型训练上述第三类中间特征数据中的测试集,得到上述推送对象与候选推送信息的关联度增量。
其中,上述联合选择条件可以包括在上述第一类中间特征数据中上述推送对象对候选推送信息存在选择行为,以及在上述第二类中间特征数据中上述推送对象对候选推送信息不存在选择行为,例如,假设Z为联合选择条件的标签,则Z=1的条件可以是Y=1 user∈T,且Y=0 user∈C,对于上述第一类中间特征数据和第二类中间特征数据中的其余特征数据,则可以设置为Z=0。
图7示出了一种通过预先确定的训练模型得到关联度增量的另一种方法,如图所示,可以通过将第一类中间特征数据和第二类中间特征数据分别划分为训练集和测试集,并根据联合选择条件设置上述第一类中间特征数据和第二类中间特征数据中训练集的标签值,得到第三类中间特征数据,按照预先确定的训练模型训练上述第三类中间特征数据中的测试集,得到上述推送对象与候选推送信息的关联度增量τ。
以XGBoost模型为例,该算法是一个多模型融合的提升树模型,在训练时,可以采用前向分步算法,每次迭代之前都通过学习一棵CART(一种分类树)树来拟合之前的t-1棵树的预测结果与训练样本真实值的残差,而XGBoost模型在损失函数上采用了二阶泰勒展开,并加入了正则项,默认处理缺失值,支持特征维数的并行,即可以并行查找特征分割点,因而在较大程度上提升了训练速度。其中,XGBoos模型的目标函数如下式(1)所示:
其中,l为损失函数,t表示叶子节点数,i表示样本顺序,k表示树的顺序,Ω(fk)表示树的复杂度,值越小复杂度越低,泛化能力越强;xi表示第i个样本,yi表示第i个样本值,表示第i个样本的预测值,/> 的意义是,前t-1棵树的预测值加上第t棵树的函数值,即为当前第t棵树的预测值,且ft(xi)需要进行二阶泰勒展开。
本示例性实施方式中,可以训练一个XGBoost模型,通过转换标签的方式生成一个新的标签Z,从而可以通过一个统一的XGBoost模型计算上述推送对象与候选推送信息的关联度增量。在具体实现过程中,假设特征X与上述第一类中间特征数据和第二类中间特征数据是相互独立的,则有下式(2):
同理可得P(C|X)=P(C)。
进一步的,可以假设P(T)=P(C)=0.5,可推知: 由于τ=PT-PC,则τ=2P(Z=1|X)-1。
在一种可选的实施方式中,信息推送服务器可以在第一数据库、第二数据库与第三数据库中的任一中生成二维表,其中一个维度为推送对象,另一个维度为候选推送信息,将推送对象与候选推送信息的关联度增量写入二维表中。该二维表也可以链接到第一数据库的推送对象的特征数据表后,或者链接到第二数据库的信息特征数据表后。由此,实现了推送对象的特征数据与候选推送信息的信息特征数据的打通与关联。后续信息推送服务器可以按照特定的周期或者满足特定条件时更新上述二维表,以便于通过读取二维表的数据,获取信息推送的相关信息,无需分别去第一数据库与第二数据库中读取数据,提高了效率。
步骤S140.根据上述关联度增量,从候选推送信息中筛选出与上述推送对象匹配的目标推送信息。
在得到上述关联度增量后,可以根据该关联度增量筛选出候选推送信息中与上述推送对象匹配的目标推送信息,例如,可以将关联度增量最大的候选推送信息确定为对应推送对象的目标推送信息。通过这种方式,可以确定对候选推送信息兴趣度较高,且对该候选推送信息的推送行为敏感度较高的推送对象,该推送对象对于上述目标推送信息产生选择行为的可能性最高,因此可以提高推送信息的准确率。
在一种可选的实施方式中,步骤S140可以通过将上述关联度增量大于预设阈值的候选推送信息确定为上述目标推送信息实现。其中,预设阈值可以由操作人员根据经验自行设置,例如可以设置为0.5、0.6等。
进一步的,本示例性实施方式还提供了另一种流程,如图8所示,可以包括以下步骤S810~S870:
步骤S810.获取推送对象的特征数据。
其中,推送对象的特征数据可以包括推送对象的基本信息、画像数据和关于各候选推送信息的行为数据等。
步骤S820.获取候选推送信息的信息特征数据,生成该信息特征数据的特征向量,并计算各特征向量之间的相似性,以确定各候选推送信息的类别。
其中,上述信息特征数据可以包括对应候选推送信息的信息特征数据,也可以包括多个候选推送信息的交叉特征数据,如可以包括相同类别中候选推送信息的统计特征数据等。
步骤S830.确定候选推送信息所属类别中全部候选推送信息的信息特征数据,如各候选推送信息的信息特征数据和相似候选推送信息之间的统计特征数据等。
通过确定候选推送信息所属类别中全部候选推送信息的信息特征数据,可以通过相似候选推送信息的信息特征数据生成为具体某个候选推送信息的信息特征数据,因而可以增加可供分析的候选推送信息的信息特征数据量,提高确定目标推送信息的准确率。
步骤S840.根据上述类别中全部候选推送信息的信息特征数据和推送对象的特征数据生成中间特征数据。
具体的,可以对上述全部候选推送信息的信息特征数据和推送对象的特征数据进行拼接,生成中间特征数据。
步骤S850.生成预先确定的训练模型。
具体的,可以基于某种特定的分类算法模型,将上述中间特征数据划分为训练集和测试集,根据上述推送对象对各候选推送信息是否产生搜索、关注、收藏等任意一种或多种选择行为,来设置上述训练集的标签值,从而在每次训练后,根据上述标签值计算上述算法模型得到的预测值和真实的标签值之间的误差值,或者也可以计算上述算法模型的评估指标,如准确率、召回率等。经过多次训练,使模型的性能达到较佳的水平,如通过上述算法模型得到的误差值小于一定阈值,或者也可以是当通过上述算法模型所得到的准确率达到一定阈值,如0.9等时,则可以将此时得到的算法模型作为上述预先确定的训练模型。
步骤S860.通过上述预先确定的训练模型训练上述中间特征数据,得到上述推送对象和候选推送信息的关联度增量。
步骤S870.根据上述关联度增量确定目标推送信息。
在确定目标推送信息后,可以将该目标推送信息发送至对应的推送对象,以使其根据接收到的目标推送信息进行相应的业务行为。
综上,根据本示例性实施方式中的信息处理方法,可以通过获取推送对象的特征数据,确定各候选推送信息的类别,根据各类别中全部候选推送信息的信息特征数据和上述推送对象的特征数据生成中间特征处理,对该中间特征数据进行处理,得到上述推送对象与候选推送信息之间的关联度增量,从而根据该关联度增量,从上述候选推送信息中筛选出与上述推送对象相匹配的目标推送信息。一方面,本示例性实施方式通过确定推送对象与候选推送信息的关联度增量,并根据该关联度增量从全部候选推送信息中筛选出与推送对象相匹配的目标推送信息,可以将推送对象对候选推送信息的兴趣度数值化,并且也可以提高确定推送信息的准确率;另一方面,通过根据对应类别中全部候选推送信息的信息特征数据和推送对象的特征数据生成中间特征数据,可以通过其他各候选推送信息的信息特征数据扩充候选推送信息的信息特征数据,增强模型在相似类别的候选推送信息中的泛化能力,进一步提高确定推送信息的准确率;再一方面,通过中间特征数据与关联度增量实现了推送对象的特征数据与候选推送信息的信息特征数据之间的关联,从而打通了数据壁垒,便于后续系统中的服务器读取与调用相关数据。
更进一步的,本示例性实施方式还提供了一种信息处理装置,参考图9所示,信息处理装置900可以包括:获取模块910,可以用于获取推送对象的特征数据;确定模块920,可以用于确定各候选推送信息的类别,根据类别中全部候选推送信息的信息特征数据和推送对象的特征数据生成中间特征数据;处理模块930,可以用于对中间特征数据进行处理,得到推送对象与候选推送信息的关联度增量;筛选模块940,可以用于根据关联度增量,从候选推送信息中筛选出与推送对象匹配的目标推送信息。
在本公开的一种示例性实施方式中,获取模块910可以用于获取推送对象的日志数据,根据日志数据确定在预设时段内推送对象与各候选推送信息之间是否存在关联关系,在确定推送对象与各候选推送信息之间存在关联关系时,提取推送对象的画像数据和推送对象的与各候选推送信息相关的行为数据,得到推送对象的特征数据,其中,关联关系包括推送对象与各候选推送信息之间是否存在对应的推送历史。
在本公开的一种示例性实施方式中,确定模块920可以用于获取候选推送信息的信息特征数据,生成信息特征数据的特征向量,计算各特征向量的相似度,将相似度大于相似度阈值的特征向量所对应的候选推送信息划分为一个类别,以确定各候选推送信息的类别。
在本公开的一种示例性实施方式中,确定模块920还可以用于将信息特征数据输入至预先训练的Wide&Deep模型中的Wide线性模型中,以及将信息特征数据进行降维处理,得到低维信息特征数据,并将低维信息特征数据输入至Wide&Deep模型中的Deep深度学习模型中,对Wide线性模型和Deep深度学习模型进行联合训练,得到信息特征数据的特征向量。
在本公开的一种示例性实施方式中,确定模块920还可以用于将类别中全部候选推送信息的信息特征数据与推送对象的特征数据进行拼接,得到中间特征数据。
在本公开的一种示例性实施方式中,处理模块930可以用于将具有与推送对象相关的推送历史的候选推送信息确定为第一类推送信息,将其余的候选推送信息确定为第二类推送信息,将第一类推送信息对应的中间特征数据确定为第一类中间特征数据,将第二类推送信息对应的中间特征数据确定为第二类中间特征数据,采用预先确定的训练模型对第一类中间特征数据和第二类中间特征数据进行训练,得到推送对象与侯选推送信息的关联度增量。
在本公开的一种示例性实施方式中,上述训练模型可以包括第一分类模型和第二分类模型,处理模块930还可以用于将第一类中间特征数据划分为训练集和测试集,确定推送对象具有选择行为的候选推送信息,并根据确定结果设置训练集的标签值,将第二类中间特征数据划分为训练集和测试集,确定推送对象具有选择行为的候选推送信息,并根据确定结果设置训练集的标签值,采用第一分类模型训练第一类中间特征数据的测试集,得到推送对象与候选推送信息的第一关联度,采用第二分类模型训练第二类中间特征数据的测试集,得到推送对象与候选推送信息的第二关联度,将第一关联度和第二关联度的差值确定为推送对象与候选推送信息的关联度增量。
在本公开的一种示例性实施方式中,处理模块930还可以用于将第一类中间特征数据划分为训练集和测试集,以及将第二类中间特征数据划分为训练集和测试集,设置联合选择条件,根据联合选择条件设置第一类中间特征数据的训练集和第二类中间特征数据的训练集的标签值,得到第三类中间特征数据,采用预先确定的训练模型训练第三类中间特征数据中的测试集,得到推送对象与侯选推送信息的关联度增量,其中,联合选择条件包括在第一类中间特征数据中推送对象对候选推送信息存在选择行为,以及在第二类中间特征数据中推送对象对候选推送信息不存在选择行为。
在本公开的一种示例性实施方式中,筛选模块940可以用于将关联度增量大于预设阈值的候选推送信息确定为目标推送信息。
上述装置中各模块的具体细节在方法部分实施方式中已经详细说明,未披露的方案细节内容可以参见方法部分的实施方式内容,因而不再赘述。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图10所示,描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品1000可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本公开的示例性实施方式还提供了一种能够实现上述方法的电子设备。下面参照图11来描述根据本公开的这种示例性实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来任何限制。
如图11所示,电子设备1100可以以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130和显示单元1140。
其中,存储单元1120存储有程序代码,程序代码可以被处理单元1110执行,使得处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,处理单元1110可以执行图1、图4至8所示的方法步骤等。
存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1121和/或高速缓存存储单元1122,还可以进一步包括只读存储单元(ROM)1123。
存储单元1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1124,这样的程序模块1125包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例性实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开示例性实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (11)
1.一种信息处理方法,其特征在于,所述方法包括:
获取推送对象的特征数据;
确定各候选推送信息的类别,根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据;
将具有与所述推送对象相关的推送历史的所述候选推送信息确定为第一类推送信息,将其余的所述候选推送信息确定为第二类推送信息;将所述第一类推送信息对应的所述中间特征数据确定为第一类中间特征数据,将所述第二类推送信息对应的所述中间特征数据确定为第二类中间特征数据;采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述候选推送信息的关联度增量;
根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息。
2.根据权利要求1所述的方法,其特征在于,所述获取推送对象的特征数据包括:
获取所述推送对象的日志数据;
根据所述日志数据确定在预设时段内所述推送对象与各所述候选推送信息之间是否存在关联关系;
在确定所述推送对象与各所述候选推送信息之间存在关联关系时,提取所述推送对象的画像数据和所述推送对象的与各所述候选推送信息相关的行为数据,得到所述推送对象的特征数据;
其中,所述关联关系包括所述推送对象与各所述候选推送信息之间是否存在对应的推送历史。
3.根据权利要求1所述的方法,其特征在于,所述确定各候选推送信息的类别包括:
获取所述候选推送信息的信息特征数据,生成所述信息特征数据的特征向量;
计算各所述特征向量的相似度;
将所述相似度大于相似度阈值的特征向量所对应的候选推送信息划分为一个类别,以确定所述各候选推送信息的类别。
4.根据权利要求3所述的方法,其特征在于,所述生成所述信息特征数据的特征向量,包括:
将所述信息特征数据输入至预先训练的Wide&Deep模型中的Wide线性模型中;以及
将所述信息特征数据进行降维处理,得到低维信息特征数据,并将所述低维信息特征数据输入至所述Wide&Deep模型中的Deep深度学习模型中;
对所述Wide线性模型和所述Deep深度学习模型进行联合训练,得到所述信息特征数据的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据,包括:
将所述类别中全部所述候选推送信息的信息特征数据与所述推送对象的特征数据进行拼接,得到所述中间特征数据。
6.根据权利要求1所述的方法,其特征在于,所述训练模型包括第一分类模型和第二分类模型,所述采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述候选推送信息的关联度增量,包括:
将所述第一类中间特征数据划分为训练集和测试集,确定所述推送对象具有选择行为的候选推送信息,并根据确定结果设置所述训练集的标签值;
将所述第二类中间特征数据划分为训练集和测试集,确定所述推送对象具有选择行为的候选推送信息,并根据确定结果设置所述训练集的标签值;
采用第一分类模型训练所述第一类中间特征数据的测试集,得到所述推送对象与所述候选推送信息的第一关联度;
采用第二分类模型训练所述第二类中间特征数据的测试集,得到所述推送对象与所述候选推送信息的第二关联度;
将所述第一关联度和所述第二关联度的差值确定为所述推送对象与所述候选推送信息的关联度增量。
7.根据权利要求1所述的方法,其特征在于,所述采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述候选推送信息的关联度增量,包括:
将所述第一类中间特征数据划分为训练集和测试集,以及将所述第二类中间特征数据划分为训练集和测试集;
设置联合选择条件,根据所述联合选择条件设置所述第一类中间特征数据的训练集和所述第二类中间特征数据的训练集的标签值,得到第三类中间特征数据;
采用预先确定的训练模型训练所述第三类中间特征数据中的测试集,得到所述推送对象与所述候选推送信息的关联度增量;
其中,所述联合选择条件包括在所述第一类中间特征数据中所述推送对象对所述候选推送信息存在选择行为,以及在所述第二类中间特征数据中所述推送对象对所述候选推送信息不存在选择行为。
8.根据权利要求1所述的方法,其特征在于,所述根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息,包括:
将所述关联度增量大于预设阈值的候选推送信息确定为所述目标推送信息。
9.一种信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取推送对象的特征数据;
确定模块,用于确定各候选推送信息的类别,根据所述类别中全部所述候选推送信息的信息特征数据和所述推送对象的特征数据生成中间特征数据;
处理模块,用于将具有与所述推送对象相关的推送历史的所述候选推送信息确定为第一类推送信息,将其余的所述候选推送信息确定为第二类推送信息;将所述第一类推送信息对应的所述中间特征数据确定为第一类中间特征数据,将所述第二类推送信息对应的所述中间特征数据确定为第二类中间特征数据;采用预先确定的训练模型对所述第一类中间特征数据和所述第二类中间特征数据进行训练,得到所述推送对象与所述候选推送信息的关联度增量;
筛选模块,用于根据所述关联度增量,从所述候选推送信息中筛选出与所述推送对象匹配的目标推送信息。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011356436.6A CN112328899B (zh) | 2020-11-27 | 2020-11-27 | 信息处理方法、信息处理装置、存储介质与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011356436.6A CN112328899B (zh) | 2020-11-27 | 2020-11-27 | 信息处理方法、信息处理装置、存储介质与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328899A CN112328899A (zh) | 2021-02-05 |
CN112328899B true CN112328899B (zh) | 2024-04-16 |
Family
ID=74309208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011356436.6A Active CN112328899B (zh) | 2020-11-27 | 2020-11-27 | 信息处理方法、信息处理装置、存储介质与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328899B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668812B (zh) * | 2021-03-16 | 2021-06-01 | 西南石油大学 | 产量确定方法、确定装置、计算机可读存储介质和处理器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018192491A1 (zh) * | 2017-04-20 | 2018-10-25 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN109670080A (zh) * | 2018-12-21 | 2019-04-23 | 深圳创维数字技术有限公司 | 一种影视标签的确定方法、装置、设备及存储介质 |
WO2019174395A1 (zh) * | 2018-03-13 | 2019-09-19 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法、装置及设备 |
WO2020001106A1 (zh) * | 2018-06-25 | 2020-01-02 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
CN111046275A (zh) * | 2019-11-19 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的用户标签确定方法及装置、存储介质 |
CN111400603A (zh) * | 2020-03-20 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种信息推送方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-11-27 CN CN202011356436.6A patent/CN112328899B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018192491A1 (zh) * | 2017-04-20 | 2018-10-25 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
WO2019174395A1 (zh) * | 2018-03-13 | 2019-09-19 | 阿里巴巴集团控股有限公司 | 一种信息推荐的方法、装置及设备 |
WO2020001106A1 (zh) * | 2018-06-25 | 2020-01-02 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
CN109670080A (zh) * | 2018-12-21 | 2019-04-23 | 深圳创维数字技术有限公司 | 一种影视标签的确定方法、装置、设备及存储介质 |
CN111046275A (zh) * | 2019-11-19 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的用户标签确定方法及装置、存储介质 |
CN111400603A (zh) * | 2020-03-20 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种信息推送方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
互联网信息资源用户获取优化推送仿真研究;崔艳萍;阎知知;王小巍;彭媛;;计算机仿真(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112328899A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114298417A (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
CN106447066A (zh) | 一种大数据的特征提取方法和装置 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN112669096B (zh) | 对象推荐模型训练方法以及装置 | |
CN111754278A (zh) | 物品推荐方法、装置、计算机存储介质和电子设备 | |
CN113239173B (zh) | 问答数据的处理方法、装置、存储介质与电子设备 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
Bouzidi et al. | Deep learning-based automated learning environment using smart data to improve corporate marketing, business strategies, fraud detection in financial services, and financial time series forecasting | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
CN113837843B (zh) | 产品推荐方法、装置、介质及电子设备 | |
CN114595323B (zh) | 画像构建、推荐、模型训练方法、装置、设备及存储介质 | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
Haridasan et al. | Arithmetic Optimization with Deep Learning Enabled Churn Prediction Model for Telecommunication Industries. | |
CN114065063A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN112328899B (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN117911079A (zh) | 一种个性化商户营销智能推荐方法和系统 | |
CN117971947A (zh) | 一种基于用户端多源数据贯通与业务融合的系统及方法 | |
CN117422490A (zh) | 用户流失预测方法、装置、设备、介质和程序产品 | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
CN116029766A (zh) | 用户交易决策识别方法、激励策略优化方法、装置和设备 | |
Poornima et al. | Prediction of water consumption using machine learning algorithm | |
CN113377640B (zh) | 解释业务场景下模型的方法、介质、装置和计算设备 | |
CN111127057A (zh) | 一种多维用户画像恢复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant before: Jingdong Digital Technology Holding Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |