CN117667999A - 数据推送方法、装置、计算机设备及计算机可读存储介质 - Google Patents
数据推送方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117667999A CN117667999A CN202311701835.5A CN202311701835A CN117667999A CN 117667999 A CN117667999 A CN 117667999A CN 202311701835 A CN202311701835 A CN 202311701835A CN 117667999 A CN117667999 A CN 117667999A
- Authority
- CN
- China
- Prior art keywords
- vector
- dimension
- target
- mapping
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 572
- 238000013507 mapping Methods 0.000 claims abstract description 125
- 238000004590 computer program Methods 0.000 claims description 23
- 230000006399 behavior Effects 0.000 description 15
- 230000009467 reduction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据推送方法、装置、计算机设备及计算机可读存储介质。包括:获取待推送数据;基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量;基于目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息;将特征向量与目标参考向量,输入至数据推送模型,输出待推送对象对应的推送参考信息。采用本方法能够有效节省数据推送在线系统的存储资源。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据推送方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,对数据潜在分布的规律进行数据分析与预测的序列建模技术,越来越广泛应用于多个不同的领域,例如根据用户在应用软件上的操作行为来评估用户兴趣等,然而针对超长序列建模,如何优化数据推送模型的在线数据推送性能,对于超长序列建模的应用价值具有重要意义。
现有技术中,通常是基于SIM(Search-based Interest Model,基于搜索的兴趣模型),但该方法在进行长序列建模时受计算负担的限制以及实际在线系统中的存储的限制的局限性较大。
发明内容
基于此,有必要针对上述技术问题,提供一种数据推送方法、装置、计算机设备及计算机可读存储介质,能够有效节省数据推送在线系统的存储资源。
第一方面,本申请提供了一种数据推送方法,包括:
获取待推送数据;
基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量,目标向量的维度低于特征向量的维度;
基于目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息,向量索引表包括各个参考向量关联信息及对应映射关系的索引向量,目标参考向量关联信息对应的目标参考向量的向量维度大于索引向量的向量维度;目标参考向量用于表征待推送对象对应历史访问对象的属性特征;
将特征向量与目标参考向量,输入至数据推送模型,输出待推送对象对应的推送参考信息,推送参考信息用于表征待推送数据与待推送对象之间的匹配程度。
第二方面,本申请还提供了一种数据推送装置,包括:
映射模块,用于获取待推送数据;基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量,目标向量的维度低于特征向量的维度;
检索模块,用于基于目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息,向量索引表包括各个参考向量关联信息及对应映射关系的索引向量,目标参考向量关联信息对应的参考向量的向量维度大于索引向量的向量维度;参考向量用于表征待推送对象对应历史访问对象的属性特征;
推送模块,用于将特征向量与参考向量,输入至数据推送模型,输出待推送对象对应的推送参考信息,推送参考信息用于表征待推送数据与待推送对象之间的匹配程度。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法的步骤。
上述数据推送方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过将待推送数据对应的特征向量的维度特征确定与之对应的目标维度,并基于该目标维度,将特征向量映射为以目标维度为映射维度的目标向量,完成向量的降维映射,再以该目标向量为索引在向量索引表中进行检索,从而快速确定对应的参考向量,其中对于向量索引表的构建是基于对历史对象序列中各个历史对象对应的参考向量,进行向量的降维映射,并基于映射后的向量与对应降维前的参考向量的关联关系生成的,因而当历史对象对应的数据量较大时,也即进行长序列建模时,通过建立向量的索引机制利用较低维度的目标向量就能快速获取对应高维度的参考向量,优化线上检索性能,有效节省数据推送在线系统的线上存储资源。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中数据推送方法的流程示意图;
图2为一个实施例中数据推送装置的结构框图;
图3为一个实施例中计算机设备的内部结构图;
图4为一个实施例中另一个计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种数据推送方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S102,获取待推送数据。
其中,待推送数据的数据类别可以是视频、音频、图片以及文字等,具体类别视特定的软件应用或网页而定。
具体地,计算机设备在数据库或线上网络中获取对应的数据资源,将其作为待推送数据。
步骤S104,基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量。
其中,目标向量的维度低于特征向量的维度,目标向量的维度与目标维度相同,可以理解的是将特征向量进行向量映射生成对应的目标向量,是将向量从高维映射到低维的映射。
具体地,计算机设备获取向量映射对应的向量映射规则,再根据待推送数据对应特征向量的维度,对照向量映射规则进行查询得到当前待推送数据对应特征向量所要映射到的目标维度,最后再基于该目标维度,来对特征向量进行降维映射,具体向量映射的方法可以是通过将哈希函数来完成,将待推荐数据对应的特征向量输入至目标哈希函数,输出低维的目标向量,该目标向量可以准确表征对应的特征向量的存储位置信息。
可以理解的是,特征向量与目标向量之间的对应关系为多对一的关系,即多个不同的待推荐数据对应的特征向量可以映射为同一个目标向量,而该同一个目标向量可以作为一组向量集的索引标识,也就是可以通过特征向量对应的目标向量进行索引,进而确定与待推荐数据对应的一组目标向量集,而该目标向量集的向量与待推荐数据的特征向量间的匹配程度,用于衡量/评估该待推荐数据的推荐指数。
步骤S106,基于目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息。
其中,向量索引表包括各个参考向量关联信息及对应映射关系的索引向量,目标参考向量关联信息对应的目标参考向量的向量维度大于索引向量的向量维度;参考向量用于表征待推送对象对应历史访问对象的属性特征。
具体地,计算机设备针对上述步骤中确定的目标向量,与向量索引表中的各个索引向量进行匹配,根据匹配的索引向量确定与该索引向量对应的目标参考向量关联信息。
步骤S108,将特征向量与目标参考向量,输入至数据推送模型,输出待推送对象对应的推送参考信息。
其中,数据推送模型用于分析特征向量与目标参考向量间语义的关联/匹配性的模型,数据推送模型包括但不限于是各种常用神经网络模型,如卷积神经网络模型、小波神经网络模型或径向基神经网络模型等,推送参考信息用于表征待推送数据与待推送对象之间的匹配程度。
具体地,计算机设备根据上述步骤确定的目标参考向量关联信息,获取/确定对应的目标参考向量,再与待推荐数据对应的特征向量,合并输入数据推送模型,以使数据推送模型对待推送数据与对应的历史对象序列间的关联性/匹配度进行评估,输出待推送对象对应的推送参考信息。
本实施例中,通过将待推送数据对应的特征向量的维度特征确定与之对应的目标维度,并基于该目标维度,将特征向量映射为以目标维度为映射维度的目标向量,完成向量的降维映射,再以该目标向量为索引在向量索引表中进行检索,从而快速确定对应的参考向量,其中对于向量索引表的构建是基于对历史对象序列中各个历史对象对应的参考向量,进行向量的降维映射,并基于映射后的向量与对应降维前的参考向量的关联关系生成的,因而当历史对象对应的数据量较大时,也即进行长序列建模时,通过建立向量的索引机制利用较低维度的目标向量就能快速获取对应高维度的参考向量,优化线上检索性能,有效节省数据推送在线系统的线上存储资源。
在一个实施例中,基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量,包括:获取向量映射规则;基于向量映射规则中的存储资源利用率,确定与待推送数据对应的特征向量的维度对应的目标维度;根据目标维度对特征向量进行向量映射,生成对应的目标向量。
其中,向量映射规则表征不同向量维度的映射与映射后的维度所占用的存储资源利用率的关联关系,目标维度小于特征向量的维度,目标向量的维度与目标维度相匹配。
具体地,计算机设备从数据库中获取向量映射规则,通过该向量映射规则获知不同待推送数据的特征向量的维度特征,其对应不同较低映射维度时,所映射后的向量在内存中的数据的占用情况与利用效率(资源利用率),将向量映射规则中该资源利用率最高所对应的维度确定为目标维度,最后再利用哈希函数对待推荐数据的特征向量完成映射,得到维度与目标维度相匹配的目标向量。
本实施例中,通过获取向量映射规则;基于向量映射规则中的存储资源利用率,确定与待推送数据对应的特征向量的维度对应的目标维度;根据目标维度对特征向量进行向量映射,生成对应的目标向量,从而完成将高维向量映射为低维向量,使得后续通过建立向量的索引机制利用较低维度的目标向量就能快速获取对应高维度的参考向量,有效节省数据推送在线系统的线上存储资源。
在一个实施例中,基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量,包括:根据待推送数据对应的数据类别,获取与数据类别对应的目标映射规则;根据待推送数据对应特征向量的维度以及目标映射规则,确定对应的目标维度;基于目标维度对特征向量进行向量映射,生成对应的目标向量。
其中,不同的数据类别对应不同的映射规则,数据类别包括音频类别、视频类别、图片类别以及字符类别等。
可以理解的是,不同的数据类别所包含的语义特征的丰富性、复杂程度可能存在不同,其待推送数据对应的特征向量维度可能存在差异,因此应根据特定的数据类别对应有不同的向量映射规则。
具体地,计算机设备基于当前待推送数据的数据类别,确定该数据类别对应的目标映射规则,再将待推送数据的特征向量的维度与该目标映射规则进行匹配,进而确定该数据类别下待推送数据对应的目标维度,最后将待推送数据的特征向量映射为目标维度下的目标向量,从而完成向量从高维到低维的映射。
本实施例中,根据待推送数据对应的数据类别,获取与数据类别对应的目标映射规则;根据待推送数据对应特征向量的维度以及目标映射规则,确定对应的目标维度;基于目标维度对特征向量进行向量映射,生成对应的目标向量,从而可以有效区分待推送数据的数据类别,有针对性地自动选择对应映射规则,确定更匹配的目标映射规则,使得根据映射后的目标向量所进行的索引机制,更能有效提升线上检索性能,提高检索效率。
在一个实施例中,基于目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息之前,还包括:获取历史对象序列;基于历史对象序列中各个历史对象,生成对应的第一向量;对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量;将各个历史对象的第一向量与其对应映射后的向量建立关联关系,并基于关联关系生成向量索引表。
其中,历史对象序列是基于针对目标应用的各个历史操作事件确定的历史对象所构成的序列,例如用户在软件应用或网页上的点击操作,将该点击操作对应的点击视频/图片/链接等作为历史对象,一起构成历史对象序列,第一向量用于表征对应历史对象的属性特征,关联关系可以是第一向量的存储地址与对应映射后向量间的对应关系。
具体地,计算机设备从数据库中获取到目标用户对应的历史对象序列,并将历史对象序列中的各个历史对象输入至语义向量模型,输出各个历史对象对应的第一向量,其中该语义向量模型用于根据所输入的对象数据,提取其所表示的语义特征,再将各个历史对象对应的第一向量映射为对应得低维向量,再将每个历史对象对应的第一向量与其对应映射后的低维向量之间建立关联/对应关系,最后将各个历史对象对应的第一向量与对应低维向量间的关联关系,生成与该目标用户对应的向量索引表。
本实施例中,通过获取历史对象序列;基于历史对象序列中各个历史对象,生成对应的第一向量;对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量;将各个历史对象的第一向量与其对应映射后的向量建立关联关系,并基于该关联关系生成向量索引表,从而使得本申请数据推送方法可以基于该低维向量作为索引而替代线上存储的高维第一向量,完成线上数据的高效查询的同时有效降低对推送系统在线存储资源的占用情况,提高线上检索性能。
在一个实施例中,基于历史对象序列中各个历史对象,生成对应的第一向量,包括:获取与历史对象序列匹配的向量生成规则;根据历史对象序列的长度与向量生成规则,确定对应的第一维度;基于第一维度以及历史对象序列中的各个历史对象,生成对应的第一向量。
其中,向量生成规则用于表征对象向量维度与存储资源利用率的关联关系,对象向量是表征历史对象序列中对应历史对象的语义特征的向量,第一向量的维度与第一维度相匹配。
具体地,计算机设备根据历史对象序列确定并获取匹配的向量生成规则,再由历史对象序列的长度特征,在该历史对象序列进行查询,确定在该历史对象序列长度下对应在线资源利用率最高所对应的第一维度,再将历史对象输入已训练好的向量提取网络,输出与该历史对象对应的第一向量,需要说明的是该向量提取网络是输出维度为第一维度的网络,该向量提取网络是根据前述步骤中确定的第一维度与历史对象序列确定的。
本实施例中,通过获取与历史对象序列匹配的向量生成规则;根据历史对象序列的长度与向量生成规则,确定对应的第一维度;基于第一维度以及历史对象序列中的各个历史对象,生成对应的第一向量,从而实现根据目标用户对应的历史对象序列的长度,自动确定第一向量的维度,当进行长序列建模时,可以适宜性地调整所构建的历史对象对应向量长度,进而确保在该长度下的第一向量,更能有效表征历史对象属性含义的同时,减轻对线上存储资源和检索的压力。
在一个实施例中,对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量,包括:根据各第一向量对应的属性特征进行向量划分,得到多个向量集;将每个向量集对应的第一向量映射为同一个映射向量,得到各个向量集对应的映射向量。
其中,同一个向量集的第一向量具有相同的属性特征,不同向量集对应的映射向量不同。
可以理解的是,第一向量的维度高于映射向量的维度,从第一向量映射为对应的映射向量为降维的向量映射,由于第一向量的维度较高,因而第一向量相对于低维的映射向量而言,可以表征的语义信息更为丰富与具体,而映射向量所表征的语义范围较大而不具体,例如第一向量可以表示某网页数据中的汽车、汽车零部件或与汽车相关的品牌概览数据等,而将其映射为同一个映射向量后,该映射向量所表征的语义含义可以是汽车概念。
具体地,计算机设备按照各第一向量对应历史对象的属性特征进行分类,具体可以是计算各第一向量间的余弦相似度,按照余弦相似度对各第一向量进行向量划分,得到多个向量集,再针对每个向量集中的第一向量进行映射,得到每个向量集对应的映射向量,该映射向量用于后续根据待推送数据对对应第一向量进行检索时的索引向量。
本实施例中,通过根据各第一向量对应的属性特征进行向量划分,得到多个向量集;将每个向量集对应的第一向量映射为同一个映射向量,得到各个向量集对应的映射向量,从而实现了在长序列建模场景下对于长序列历史数据按属性特征进行划分,为后续基于映射向量构建向量索引表提供了数据结构上的基础,提高生成索引向量的准确性与可靠性。
在一个实施例中,对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量,包括:根据第一向量的维度确定对应的待映射维度,并基于待映射维度对各个历史对象对应的第一向量进行向量映射,生成对应的索引向量;
将各个历史对象的第一向量与其对应映射后的向量建立关联关系,并基于关联关系生成向量索引表,包括:基于各个历史对象的第一向量所对应的关联信息以及对应的索引向量,生成历史对象序列对应的向量索引表。
其中,索引向量的维度小于第一向量的维度,索引向量的维度与待映射维度相匹配,第一向量的关联信息可以是标识对应第一向量存储位置的信息。
可以理解的是,当取不同的第一向量的维度与映射后向量的待映射维度时,对应在线上推送系统的数据存储与数据检索的算法复杂度不同,因而使得线上推送系统的性能不同。
具体地,计算机设备基于各个历史对象对应的第一向量的维度,从在线数据存储与检索的性能的方面,来选取/确定对应的待映射维度,再对各个历史对象对应的第一向量进行向量映射,生成对应的索引向量,以使该索引向量的维度与待映射维度相同,最后再基于各第一向量的关联信息及其对应的索引向量,生成对应的向量索引表。
本实施例中,通过根据第一向量的维度确定对应的待映射维度,并基于待映射维度对各个历史对象对应的第一向量进行向量映射,生成对应的索引向量,基于各个历史对象的第一向量所对应的关联信息以及对应的索引向量,生成历史对象序列对应的向量索引表,从而完成较长向量向较短向量的转换/映射,使得后续在线推送系统基于较低维度的索引向量所进行的在线数据检索的存储于检索性能大大提升,进而提高线上推送系统的数据处理效率。
本申请还提供一种应用场景,该应用场景应用上述的数据推送方法。具体地,该数据推送方法在该应用场景的应用如下:
随着计算机技术的发展以及对各种软件应用业务进行更深入的优化,需要通过长序列建模方法来对用户的长期兴趣进行刻画,而对于长序列建模方案而言,如何解决线上性能问题具有十分重要的意义。
现有基于SIM的模型,直接通过目标查找的方式直接对在线存储的用户行为序列对应的所有特征向量进行检索,该方法对于线上实时数据检索压力与存储压力都较大,致使在线数据推送系统的业务性能较低。
本实施例中,将较长的用户行为序列(对应前述历史对象序列)中各行为对象(对应前述历史对象)输入至向量提取模型,输出各个行为对象对应的参考向量,根据当前软件应用对应的具体场景以及行为对象参考向量的维度,确定待映射桶编号(对应目标向量)的目标维度大小,将各个行为对象对应的参考向量,输入哈希函数映射得到各个对应的桶编号,其中,桶编号的维度小于参考向量的维度,特别地,在生成对应的桶编号时,是基于对应参考向量的语义特征进行有针对性地映射的,即具有相同语义特征的参考向量被映射进同一个桶编号内。
将各个桶编号对应的参考向量拼接在一起,构成表征用户的兴趣特征的序列,将各个参考向量对应的存储地址信息与对应的桶编号进行关联得到关联信息,并基于该关联信息构建向量索引表,通过该向量索引表可以由较低维度的桶编号进行检索,快速确定对应的参考向量。
在线推送系统中,计算机设备获取待推送数据,并将该待推送数据输入向量提取模型,输出该待推送数据对应的特征向量;将该特征向量输入哈希函数得到对应桶的检索序列(对应前述检索向量),再基于该检索序列在向量索引表中进行查询,得到对应历史行为对象的参考向量,最后将该待推送数据对应的特征向量与对应历史行为对象的参考向量,一并输入至数据推送模型,输出对应的待推送对象对应的推送参考信息,其中推送参考信息用于表征待推送数据与待推送对象之间的匹配程度。
举例说明:
计算机设备将用户行为序列中的每个行为对象对应的参考向量,通过哈希函数映射成5个桶编号,其中每个桶的维度是2,并由各个桶对应的参考向量进行拼接,构建一维的向量列表[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],因此根据预设向量索引规则,取对应的桶编号就能获取对应的参考向量,例如0号桶是[0.1,0.2],2号桶是[0.5,0.6]等;
计算机设备获取历史的用户行为序列对应的一维向量列表[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],获取待推送数据对应的特征向量,再由该特征向量经过哈希函数的映射,得到对应的桶检索序列[0,3],再基于该桶检索序列确定用户行为序列一维向量列表中对应的参考向量[0.1,0.2]与[0.7,0.8],最后将待推送数据对应的特征向量与对应的参考向量[0.1,0.2]与[0.7,0.8]输入至兴趣评估模型,输出待推送数据与用户行为序列中的行为对象的关联程度。
本实施例中,通过将待推送数据对应的特征向量的维度特征确定与之对应的桶的目标维度,并基于该目标维度,将特征向量映射为以目标维度为映射维度的桶编号,完成向量的降维映射,再以该桶编号为索引在向量索引表中进行检索,从而快速确定对应的参考向量,其中对于向量索引表的构建是基于对历史对象序列中各个历史对象对应的参考向量,进行向量的降维映射,并基于映射后的向量与对应降维前的参考向量的关联关系生成的,因而当历史对象对应的数据量较大时,也即进行长序列建模时,通过建立向量的索引机制利用较低维度的目标向量就能快速获取对应高维度的参考向量,优化线上检索性能,有效节省数据推送在线系统的线上存储资源。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据推送方法的数据推送装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据推送装置实施例中的具体限定可以参见上文中对于数据推送方法的限定,在此不再赘述。
在一个实施例中,如图2所示,提供了一种数据推送装置200,包括:映射模块202、检索模块204以及推送模块206,其中:
映射模块202,用于获取待推送数据;基于待推送数据对应特征向量的维度,确定目标维度,并基于目标维度对特征向量进行向量映射,生成对应的目标向量,目标向量的维度低于特征向量的维度;
检索模块204,用于基于目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息,向量索引表包括各个参考向量关联信息及对应映射关系的索引向量,目标参考向量关联信息对应的参考向量的向量维度大于索引向量的向量维度;参考向量用于表征待推送对象对应历史访问对象的属性特征;
推送模块206,用于将特征向量与参考向量,输入至数据推送模型,输出待推送对象对应的推送参考信息,推送参考信息用于表征待推送数据与待推送对象之间的匹配程度。
在一个实施例中,映射模块202还用于获取向量映射规则;基于向量映射规则中的存储资源利用率,确定与待推送数据对应的特征向量的维度对应的目标维度;根据目标维度对特征向量进行向量映射,生成对应的目标向量,其中向量映射规则表征不同向量维度的映射与映射后的维度所占用的存储资源利用率的关联关系,目标维度小于特征向量的维度,目标向量的维度与目标维度相匹配。
在一个实施例中,映射模块202还用于根据待推送数据对应的数据类别,获取与数据类别对应的目标映射规则;根据待推送数据对应特征向量的维度以及目标映射规则,确定对应的目标维度;基于目标维度对特征向量进行向量映射,生成对应的目标向量,其中,不同的数据类别对应不同的映射规则。
在一个实施例中,检索模块204还用于获取历史对象序列,历史对象序列是基于针对目标应用的各个历史操作事件确定的历史对象所构成的序列;基于历史对象序列中各个历史对象,生成对应的第一向量,第一向量用于表征对应历史对象的属性特征;对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量;将各个历史对象的第一向量与其对应映射后的向量建立关联关系,并基于关联关系生成向量索引表。
在一个实施例中,检索模块204还用于获取与历史对象序列匹配的向量生成规则;根据历史对象序列的长度与向量生成规则,确定对应的第一维度;基于第一维度以及历史对象序列中的各个历史对象,生成对应的第一向量,其中,向量生成规则用于表征对象向量维度与存储资源利用率的关联关系,对象向量是表征历史对象序列中对应历史对象的语义特征的向量,第一向量的维度与第一维度相匹配。
在一个实施例中,检索模块204还用于根据各第一向量对应的属性特征进行向量划分,得到多个向量集,其中同一个向量集的第一向量具有相同的属性特征;将每个向量集对应的第一向量映射为同一个映射向量,得到各个向量集对应的映射向量,其中不同向量集对应的映射向量不同。
在一个实施例中,检索模块204还用于根据第一向量的维度确定对应的待映射维度,并基于待映射维度对各个历史对象对应的第一向量进行向量映射,生成对应的索引向量,索引向量的维度小于第一向量的维度,索引向量的维度与所述待映射维度相匹配;基于各个历史对象的第一向量所对应的关联信息以及对应的索引向量,生成历史对象序列对应的向量索引表。
上述数据推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史对象序列数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据推送方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据推送方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3和图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据推送方法,其特征在于,所述方法包括:
获取待推送数据;
基于所述待推送数据对应特征向量的维度,确定目标维度,并基于所述目标维度对所述特征向量进行向量映射,生成对应的目标向量,所述目标向量的维度低于所述特征向量的维度;
基于所述目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息,所述向量索引表包括各个参考向量关联信息及对应映射关系的索引向量,所述目标参考向量关联信息对应的目标参考向量的向量维度大于所述索引向量的向量维度;所述目标参考向量用于表征待推送对象对应历史访问对象的属性特征;
将所述特征向量与所述目标参考向量,输入至数据推送模型,输出所述待推送对象对应的推送参考信息,所述推送参考信息用于表征所述待推送数据与所述待推送对象之间的匹配程度。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待推送数据对应特征向量的维度,确定目标维度,并基于所述目标维度对所述特征向量进行向量映射,生成对应的目标向量,包括:
获取向量映射规则,所述向量映射规则表征不同向量维度的映射与映射后的维度所占用的存储资源利用率的关联关系;
基于所述向量映射规则中的存储资源利用率,确定与所述待推送数据对应的特征向量的维度对应的目标维度,所述目标维度小于所述特征向量的维度;
根据所述目标维度对所述特征向量进行向量映射,生成对应的目标向量,所述目标向量的维度与所述目标维度相匹配。
3.根据权利要求1所述的方法,其特征在于,所述基于所述待推送数据对应特征向量的维度,确定目标维度,并基于所述目标维度对所述特征向量进行向量映射,生成对应的目标向量,包括:
根据所述待推送数据对应的数据类别,获取与所述数据类别对应的目标映射规则,其中,不同的数据类别对应不同的映射规则;
根据所述待推送数据对应特征向量的维度以及所述目标映射规则,确定对应的目标维度;
基于所述目标维度对所述特征向量进行向量映射,生成对应的目标向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息之前,还包括:
获取历史对象序列,所述历史对象序列是基于针对目标应用的各个历史操作事件确定的历史对象所构成的序列;
基于所述历史对象序列中各个历史对象,生成对应的第一向量,所述第一向量用于表征对应历史对象的属性特征;
对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量;
将各个历史对象的第一向量与其对应映射后的向量建立关联关系,并基于所述关联关系生成所述向量索引表。
5.根据权利要求4所述的方法,其特征在于,所述基于所述历史对象序列中各个历史对象,生成对应的第一向量,包括:
获取与所述历史对象序列匹配的向量生成规则,所述向量生成规则用于表征对象向量维度与存储资源利用率的关联关系,所述对象向量是表征所述历史对象序列中对应历史对象的语义特征的向量;
根据所述历史对象序列的长度与所述向量生成规则,确定对应的第一维度;
基于所述第一维度以及所述历史对象序列中的各个历史对象,生成对应的第一向量,所述第一向量的维度与所述第一维度相匹配。
6.根据权利要求4所述的方法,其特征在于,所述对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量,包括:
根据所述各第一向量对应的属性特征进行向量划分,得到多个向量集,其中同一个向量集的第一向量具有相同的属性特征;
将每个向量集对应的第一向量映射为同一个映射向量,得到各个向量集对应的映射向量,其中不同向量集对应的映射向量不同。
7.根据权利要求4所述的方法,其特征在于,所述对各个历史对象对应的第一向量进行向量映射,生成对应映射后的向量,包括:
根据所述第一向量的维度确定对应的待映射维度,并基于所述待映射维度对所述各个历史对象对应的第一向量进行向量映射,生成对应的索引向量,所述索引向量的维度小于所述第一向量的维度,所述索引向量的维度与所述待映射维度相匹配;
所述将各个历史对象的第一向量与其对应映射后的向量建立关联关系,并基于所述关联关系生成所述向量索引表,包括:
基于所述各个历史对象的第一向量所对应的关联信息以及对应的索引向量,生成所述历史对象序列对应的向量索引表。
8.一种数据推送装置,其特征在于,所述装置包括:
映射模块,用于获取待推送数据;基于所述待推送数据对应特征向量的维度,确定目标维度,并基于所述目标维度对所述特征向量进行向量映射,生成对应的目标向量,所述目标向量的维度低于所述特征向量的维度;
检索模块,用于基于所述目标向量与向量索引表的索引向量进行匹配,并基于匹配结果确定对应的目标参考向量关联信息,所述向量索引表包括各个参考向量关联信息及对应映射关系的索引向量,所述目标参考向量关联信息对应的目标参考向量的向量维度大于所述索引向量的向量维度;所述参考向量用于表征待推送对象对应历史访问对象的属性特征;
推送模块,用于将所述特征向量与所述目标参考向量,输入至数据推送模型,输出所述待推送对象对应的推送参考信息,所述推送参考信息用于表征所述待推送数据与所述待推送对象之间的匹配程度。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311701835.5A CN117667999A (zh) | 2023-12-11 | 2023-12-11 | 数据推送方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311701835.5A CN117667999A (zh) | 2023-12-11 | 2023-12-11 | 数据推送方法、装置、计算机设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117667999A true CN117667999A (zh) | 2024-03-08 |
Family
ID=90067951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311701835.5A Pending CN117667999A (zh) | 2023-12-11 | 2023-12-11 | 数据推送方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117667999A (zh) |
-
2023
- 2023-12-11 CN CN202311701835.5A patent/CN117667999A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
CN116522003B (zh) | 基于嵌入表压缩的信息推荐方法、装置、设备和介质 | |
CN116911867A (zh) | 问题处理方法、装置、计算机设备和存储介质 | |
CN116303657A (zh) | 群体画像生成方法、装置、计算机设备和存储介质 | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN116975359A (zh) | 资源处理方法、资源推荐方法、装置和计算机设备 | |
CN117667999A (zh) | 数据推送方法、装置、计算机设备及计算机可读存储介质 | |
CN116882408B (zh) | 变压器图模型的构建方法、装置、计算机设备和存储介质 | |
CN116866419A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN118170867A (zh) | 业务内容获取方法、装置、计算机设备、介质和程序产品 | |
CN114547066A (zh) | 核电业务数据的标准化方法、装置和计算机设备 | |
CN115409576A (zh) | 产品推荐方法、装置、计算机设备及其存储介质 | |
CN117312892A (zh) | 用户聚类方法、装置、计算机设备和存储介质 | |
CN116881543A (zh) | 金融资源对象推荐方法、装置、设备、存储介质和产品 | |
CN116861326A (zh) | 报表分类方法、装置、计算机设备、存储介质和程序产品 | |
CN116910115A (zh) | 客群查询方法、装置、计算机设备和存储介质 | |
CN118132656A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN117319475A (zh) | 通信资源推荐方法、装置、计算机设备和存储介质 | |
CN117874006A (zh) | 一种数据建模方法 | |
CN115659022A (zh) | 资源推送数据处理方法、装置、计算机设备和存储介质 | |
CN118229251A (zh) | 邮件检索展示方法、装置、计算机设备和存储介质 | |
CN115935933A (zh) | 一种清单分析方法、装置、计算机设备和存储介质 | |
CN117033451A (zh) | 搜索方法、装置、计算机设备和存储介质 | |
CN116881297A (zh) | 缓存内容排序方法、装置、计算机设备和存储介质 | |
CN117992575A (zh) | 文本匹配方法、装置、计算机设备、存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |