CN110287202B - 数据更新方法、装置、电子设备及存储介质 - Google Patents

数据更新方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110287202B
CN110287202B CN201910408807.1A CN201910408807A CN110287202B CN 110287202 B CN110287202 B CN 110287202B CN 201910408807 A CN201910408807 A CN 201910408807A CN 110287202 B CN110287202 B CN 110287202B
Authority
CN
China
Prior art keywords
updated
feature vector
feature
vector
calculation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910408807.1A
Other languages
English (en)
Other versions
CN110287202A (zh
Inventor
高倩
黎江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910408807.1A priority Critical patent/CN110287202B/zh
Publication of CN110287202A publication Critical patent/CN110287202A/zh
Application granted granted Critical
Publication of CN110287202B publication Critical patent/CN110287202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2329Optimistic concurrency control using versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据更新方法、装置、电子设备及存储介质,其中,该方法包括:在监测到向量计算模型更新完成时刻,确定对第一特征向量库中的特征向量进行更新;根据第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,第一待更新特征向量集合包含至少一个待更新特征向量;根据更新后的向量计算模型,获取第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。本发明通过设置水位机制,以向量计算模型更新完成时刻为最低水位,将该最低水位与特征向量产出时间进行比较,准确判断需要更新的特征向量,有效保证了特征向量与向量计算模型的一致性。

Description

数据更新方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据更新方法、装置、电子设备及存储介质。
背景技术
随着机器学习技术的快速发展,机器学习已被广泛应用。在机器学习应用中,需要采用向量计算模型将文档、查询(Query)、视频、图片等物料通过模型计算表示为特征向量,并存储至特征向量库中,之后,特征向量库可应用到应用系统中进行近邻召回,例如,应用到信息检索系统、应用到推荐系统进行个性化推荐、应用到视频和图像相似度计算中等等。由于物料持续新增或者向量计算模型版本的更新,需更新特征向量库。
现有技术中,针对特征向量库的更新,通常不会回溯数据,因此,导致特征向量库中长期保留多个版本的特征向量,特征向量库与向量计算模型的一致性较差。
发明内容
本发明提供一种数据更新方法、装置、电子设备及存储介质,以实现特征向量库与向量计算模型保持较高的一致性。
第一方面,本发明提供一种数据更新方法,包括:
在监测到向量计算模型版本更新完成时,确定对第一特征向量库中的特征向量进行更新;
根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,所述第一待更新特征向量集合包含至少一个第一待更新特征向量;
根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
可选地,所述根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,包括:
将所述第一特征向量库中的每个特征向量,将特征向量携带的时间戳在所述向量计算模型更新完成时刻之前的特征向量,确定为第一待更新特征向量。
可选地,所述方法还包括:
根据所述向量计算模型更新完成时刻之后,实时增量更新的特征向量,确定第二待更新特征向量集合,所述第二待更新特征向量集合包含至少一个第二待更新特征向量;
相应地,所述方法,还包括:
根据更新后的向量计算模型,实时获取所述第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,其中,所述第二待更新特征向量按照时间戳顺序排列。
可选地,所述方法,还包括:
若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻满足预设规则,则停止根据实时增量更新的特征向量,确定第二待更新特征向量。
可选地,所述根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量,包括:
采用批量更新的方式,根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量。
可选地,所述根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量,包括:
采用参数服务器,根据更新后的向量计算模型,对所述第一待更新特征向量集合中的第一待更新特征向量进行批量更新,获取所述第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量。
可选地,所述方法还包括:
将所述第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量、以及所述第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,存储至第二特征向量库中。
可选地,所述方法还包括:
在特征向量更新完成之前,采用所述第一特征向量库进行应用系统的线上服务,在特征向量更新完成之后,采用所述第二特征向量库进行应用系统的线上服务。
第二方面,本发明提供一种数据更新装置,包括:
监测模块,用于在监测到向量计算模型进行版本更新完成时,确定对第一特征向量库中的特征向量进行更新;
第一确定模块,用于根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,所述第一待更新特征向量集合包含至少一个第一待更新特征向量;
更新模块,用于根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器以及计算机程序指令;
所述存储器存储所述计算机程序指令;
所述处理器执行所述计算机程序指令以执行第一方面所述的方法。
第四方面,本发明还提供一种存储介质,包括:程序;
所述程序在被处理器执行时,以执行第一方面所述的方法。
本发明提供一种数据更新方法、装置、电子设备及存储介质,其中,该方法包括:在监测到向量计算模型更新完成时刻,确定对第一特征向量库中的特征向量进行更新;进一步,根据第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,第一待更新特征向量集合包含至少一个待更新特征向量;接着,根据更新后的向量计算模型,获取第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。本发明通过设置水位机制,以向量计算模型更新完成时刻为最低水位,将该最低水位与第一特征向量库中的特征向量产出时间进行比较,准确判断需要更新的特征向量,有效保证了特征向量与向量计算模型的一致性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的数据更新方法实施例一的流程示意图;
图2为本发明提供的数据更新方法实施例二的流程示意图;
图3为本发明提供的数据更新方法实施例三的流程示意图;
图4为本发明提供的数据更新方法架构示意图;
图5为本发明提供的数据更新装置实施例一的结构示意图;
图6为本发明提供的数据更新装置实施例二的结构示意图;
图7为本发明提供的数据更新装置实施例三的结构示意图;
图8为本发明提供的电子设备实施例一的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在机器学习应用中,需要采用向量计算模型将文档、查询(Query)、视频、图片等物料表示为特征向量,将该特征向量存储至特征向量库中,之后,该特征向量库可以应用于应用系统中进行临近召回,例如:应用到信息检索系统中,推荐系统中,视频和图片理解系统中。这里以信息检索系统为例进行详细说明:在信息检索系统中,用户输入关键词,向量计算模型将该关键词表示为特征向量,之后,再将该特征向量与特征向量库中存储的特征向量进行匹配,将特征向量库中相似度较高的特征向量确定为目标特征向量,之后将该目标特征向量对应的物料返回各用户。
为了能够提供更好的服务,由于物料不断增加,或者向量计算模型版本更新,需要对特征向量库中存储的特征向量进行更新。现有技术中,在对特征向量库进行更新时,基本不会回溯数据,因此,导致特征向量库中长期保留多个版本的特征向量,特征向量库与向量计算模型的一致性较差。
图1为本发明提供的数据更新方法实施例一的流程示意图。本发明实施例提供的数据更新方法的执行主体可以为本发明提供的数据更新装置,该装置可以通过任意的软件和/或硬件的方式实现。
示例性地,该装置可以为终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统,服务器计算机系统,手持或膝上设备,基于微处理器、CPU、GPU的系统,可编程消费电子产品,网络个人电脑,小型计算机系统,大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
如图1所示,本实施例的方法包括:
S101、在监测到向量计算模型版本更新完成时,确定对第一特征向量库中的特征向量进行更新。
具体地,第一特征向量库为应用系统在提供线上服务时当前状态下正在使用的特征向量库。由于向量计算模型在应用的过程中常常会进行算法优化,因此,为保证应用系统在线上使用的向量计算模型与第一特征向量库中特征向量的版本一致,需要对向量计算模型的版本变化进行监测。在监测到向量计算模型版本更新完成时,确定对第一特征向量库中存储的特征向量进行更新。
一种可能的实现方式,通过监测应用系统中正在使用的向量计算模型的版本号是否发生变化,以确定向量计算模型是否在进行版本更新。具体地,在监测到向量计算模型版本更新完成时刻,电子设备生成更新指令,该更新指令用于指示第一特征向量库进行全量更新。
另一种可能的实现方式,在监测到向量计算模型版本更新完成时,电子设备发出提示消息,该提示消息用于表示当前状态下向量计算模型版本更新已经完成,是否对第一特征向量库进行全量更新。在用户根据提示消息确认需要对第一特征向量库进行更新之后,电子设备生成更新指令,该更新指令用于指示第一特征向量库进行全量更新。其中,用户确认可以是用户手动输入的,也可以是语音输入的,或者还可以是其他方式输入的,本发明对此不做限制。
S102、根据第一特征向量库中各特征向量携带的时间戳以及向量计算模型更新完成时刻,确定第一待更新特征向量集合。
具体地,各原始物料数据在进行特征向量产出时,均携带时间戳,该时间戳用于表示特征向量产出时间,且该时间戳还能够反映在进行特征向量产出时所采用的向量计算模型的版本。可选地,各原始物料数据对应的特征向量在产出时可携带向量计算模型版本信息。当时间戳处于向量计算模型更新完成时刻之前,则该特征向量产出时所采用的向量计算模型的版本必然与更新后的向量计算模型的版本不一致,因此,将第一特征向量库中存储的特征向量携带的时间戳与向量计算模型更新完成时刻进行比较,即可准确判断该特征向量是否需要进行更新。
一种可能的实现方式,针对第一特征向量库中存储的所有特征向量,将特征向量携带的时间戳与向量计算模型更新完成时刻进行比较,将其中时间戳处于向量计算模型更新完成时刻之前的特征向量,确定为第一待更新特征向量,从而确定第一待更新特征向量集合。可选地,在第一待更新特征向量集合中,可根据第一待更新特征向量携带的时间戳,将所有第一待更新特征向量按照小时间窗文件的方式存储,以供后续更新时按照小时间窗文件进行批量导入。当然,在实际应用中,第一待更新特征向量集合中,各第一待更新特征向量也可不按照时间戳顺序排列,本发明实施例对此不做限制。
本步骤中,通过将向量计算模型更新完成时刻设置为最低水位,以此来确定第一待更新特征向量集合,能够较大范围地对第一特征向量库的特征向量进行更新,使特征向量库与向量计算模型保持较高的一致性。
S103、根据更新后的向量计算模型,获取第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
由于在第一特征向量库中存储的特征向量与原始物料数据之间具有一一对应的关系,因此,首先,根据第一待更新特征向量集合中的第一待更新特征向量,确定该第一待更新特征向量对应的原始物料数据,之后,采用更新后的向量计算模型,对第一待更新特征向量对应的原始物料数据重新进行计算,以获取第一待更新特征向量对应的更新后的特征向量。通过对第一待更新特征向量集合中的所有第一待更新特征向量对应的原始物料数据进行重新计算,从而获取所有第一待更新特征向量分别对应的更新后的特征向量。
可选地,对第一待更新特征向量集合进行更新可采用批量更新的方式。
示例性地,对第一待更新特征向量集合进行更新采用批量更新的方式,可通过以下方式实现:
采用参数服务器(Parameter Server),根据更新后的向量计算模型,对第一待更新特征向量集合中的第一待更新特征向量进行批量更新,获取第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量。其中,参数服务器(ParameterServer)是一个分布式并发计算架构,在实际工作过程中,参数服务器分为两个节点:参数服务器节点和计算节点,其中,参数服务器节点用于存储多个实例,即更新后的向量计算模型会存储在参数服务器节点中,当然,更新前的多个版本的向量计算模型也可并发地存储在参数服务器节点中,计算节点用于具体特征向量计算。
具体地,采用参数服务器对第一待更新特征向量集合中包含的第一待更新特征向量进行批量更新时,计算节点并发地导入多个第一待更新特征向量对应的原始物料数据,该原始物料数据均为结构化数据,计算节点并请求参数服务器节点以获得更新后的向量计算模型,然后,根据更新后的向量计算模型以及第一待更新特征向量对应的原始物料数据进行计算,得到第一待更新特征向量对应的更新后的特征向量,并且更新后的特征向量在计算节点批量产出。其中,若第一待更新特征向量集合中是以小时间窗文件的方式存储,那么,计算节点可每次导入小时间窗文件中包含的第一待更新特征向量对应的原始物料数据。
采用参数服务器架构,对第一待更新特征向量集合中包含的第一待更新特征向量进行批量更新,能够有效提高数据处理效率。
本实施例中,首先,在监测到向量计算模型更新完成时刻,确定对第一特征向量库中的特征向量进行更新;进一步,根据第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,第一待更新特征向量集合包含至少一个待更新特征向量;接着,根据更新后的向量计算模型,获取第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。本实施例通过设置水位机制,以向量计算模型更新完成时刻为最低水位,将该最低水位与特征向量产出时间进行比较,准确判断需要更新的特征向量,有效保证了特征向量与向量计算模型的一致性。
另外,采用参数服务器对第一待更新特征向量进行批量更新,能够有效提高数据处理效率。
图2为本发明提供的数据更新方法实施例二的流程示意图。如图2所示,本实施例的方法包括:
S201、在监测到向量计算模型版本更新完成时,确定对第一特征向量库中的特征向量进行更新。
S202、根据第一特征向量库中各特征向量携带的时间戳以及向量计算模型更新完成时刻,确定第一待更新特征向量集合。
S203、根据更新后的向量计算模型,获取第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
本实施例中步骤S201至步骤S203分别于图1所示实施例中步骤S101至S103类似,可参照图1所示实施例中的详细描述,此处不再赘述。
在步骤S203之后,还可以包括以下步骤:
S204、根据向量计算模型更新完成时刻之后,实时增量更新的特征向量,确定第二待更新特征向量集合,其中,第二待更新特征向量集合中包含至少一个第二待更新特征向量。
由向量计算模型版本更新完成时刻之后,可能由于物料新增,因此,第一特征向量库中可能还存在增量更新的特征向量。为保证特征向量与向量计算模型的高度一致性,因此,还需要对向量计算模型更新完成时刻之后产出的特征向量进行实时更新。
一种可能的实现方式,根据在向量计算模型更新完成时刻之后,实时增量更新的特征向量,实时添加至第二待更新特征向量集合中。在第二待更新特征向量集合中,各第二待更新特征向量按照时间戳顺序排列,也就是说,在本步骤中,以向量计算模型更新完成时刻为起始时刻,随着时间的推移,实时增量更新的特征向量均添加至第二待更新特征向量集合中,该第二待更新特征向量集合可以数据管道的形式存在,在数据管道中各第二待更新特征向量按照其携带的时间戳顺序排列,时间戳较早的排在队头,时间戳较晚的排在队尾。本步骤中,第二待更新特征向量可能会随着时间推移动态增加,以流式的方式接入并且实时更新。
S205、根据更新后的向量计算模型,实时获取第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量。
具体地,根据第二待更新特征向量集合(即数据管道)中的第二待更新特征向量,确定该第二待更新特征向量对应的原始物料数据,之后,采用更新后的向量计算模型,对第二待更新特征向量对应的原始物料数据重新进行计算,以获取第二待更新特征向量对应的更新后的特征向量。通过依次对第二待更新特征向量集合中的第二待更新特征向量进行重新计算,从而实时获取所有第二待更新特征向量分别对应的更新后的特征向量。
需要说明的是,本实施例中的方法,步骤S202与步骤S204可并行执行,也可按本实施例中的所示由步骤S202至步骤S205的顺序执行,或者,还可先执行步骤S204、S205,再执行步骤S202、S203。本实施例仅为其中一种实现方式的示例,并不是对步骤S202至步骤S205的执行顺序的限制。
S206、若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻满足预设规则,则停止根据实时增量更新的特征向量,确定第二待更新特征向量。
其中,该预设规则为停止根据实时增量更新的特征向量确定第二待更新特征向量的条件,预设规则可以为预设时长。一种可能的实现方式,若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻之间的时长小于该预设时长,则停止根据实时增量更新的特征向量确定第二待更新特征向量;若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻之间的时长大于或等于该预设时长,则继续根据实时增量更新的特征向量确定第二待更新特征向量,直至当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻之间的时长小于预设时长,则停止根据实时增量更新的特征向量确定第二待更新特征向量。
另一种可能的实现方式,若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻之间的时长小于或等于该预设时长,则停止根据实时增量更新的特征向量确定第二待更新特征向量;若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻之间的时长大于该预设时长,则继续根据实时增量更新的特征向量确定第二待更新特征向量,直至当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻之间的时长小于或等于预设时长,则停止根据实时增量更新的特征向量确定第二待更新特征向量。
本步骤中,通过将当前时刻正在更新的第二待更新特征向量携带的时间戳设置为最高水位,保证了在向量计算模型更新完成时刻之后增量更新的特征向量也能够与更新后的向量计算模型保持一致性。
本实施例,通过设置水位机制,以向量计算模型更新完成时刻为最低水位,将该最低水位与特征向量产出时间进行比较,准确判断在向量计算模型更新完成时刻之前需要更新的特征向量,进一步,通过将当前时刻设置为最高水位,将该最高水位与特征向量产出时间进行比较,准确判断在向量计算模型更新完成时刻之后之后新增的特征向量以流式方式进行实时更新,有效保证了特征向量与向量计算模型的一致性,且保证了数据的完备性。
图3为本发明提供的数据更新方法实施例三的流程示意图。如图3所示,本实施例的方法在图2所示的基础上步骤S206、若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻满足预设规则,则停止根据实时增量更新的特征向量,确定第二待更新特征向量之后,还包括以下步骤:
S207、将第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量、以及第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,存储至第二特征向量库中。
一种可能的实现方式,将更新后的特征向量单独存储至第二特征向量库中,第一特征向量库与第二特征向量库是两个独立的库,由于第二特征向量库并未覆盖第一特征向量库,且第二特征向量库中存储的特征向量仅对应一个版本的向量计算模型,为应用系统的线上的数据服务进行多版本访问提供基础。
可以理解的是,每次进行特征向量库的更新时,更新后的特征向量均存储至一个新的特征向量库中,由于并未覆盖原先的特征向量库,且每个特征向量库仅对应一个版本的向量计算模型,有效保证了特征向量库与向量计算模型的高度一致性。
可以理解的是,在步骤S206之后,当停止根据增量更新的特征向量确定第二待更新特征向量之后,新增的特征向量均是采用更新后的向量计算模型进行计算得到的,这些新增的特征向量可直接存储至第二特征向量库中。
进一步地,在实际应用中,为保证特征向量库更新过程中,应用系统的线上服务不受影响,在特征向量更新完成之前,采用所述第一特征向量库进行应用系统的线上服务,在特征向量更新完成之后,采用所述第二特征向量库进行应用系统的线上服务。
图4为本发明提供的数据更新方法的思想架构图。参照图4所示,本发明实施例提供的数据更新方法包括两部分,批量更新部分和增量更新部分,下面针对批量更新和增量更新分别进行详细介绍:
批量更新:
针对批量更新部分,当确定第一待更新特征向量集合之后,参数服务器的计算节点批量导入第一待更新特征向量对应的原始物料数据进行原始物料组装,计算节点并向参数服务器节点请求更新后的向量计算模型,之后再根据更新后的向量计算模型进行计算,并批量产出更新后的特征向量,批量产出的更新后的特征向量通过批量存储接口存储至第二特征向量库(即对应图4中的向量容器)。且更新后的特征向量在产出时,同时会产出最低水位(产出时间戳)以及模型版本信息。
增量更新:
针对增量更新的部分,在线上服务所使用的向量计算模型更新完成时刻之后,实时增量更新的特征向量,根据特征向量携带的时间戳是否处于向量计算模型更新完成时刻之后,确定其是否为第二待更新特征向量,若是,则确定第二待更新特征向量对应的原始物料数据,将该原始物料数据添加至物料更新模块,物料更新模块对原始物料数据进行组装,得到结构化数据,并将结构化数据添加至物料数据管道中,实时更新模块从物料数据管道中导入原始物料数据对应的结构化数据,并调用线上使用的更新后的向量计算模型对该结构化数据进行重新计算,生成更新后的特征向量,其中,更新后的特征向量携带时间戳以及模型版本信息。接着,更新后的特征向量通过向量队列管道,以及增量存储接口,存储至第二特征向量库(即对应图4中的向量容器)。
需要说明的是,本发明各实施例中,无论是批量更新还是增量更新,更新后的特征向量均携带时间戳以及模型版本信息。
图5为本发明提供的数据更新装置实施例一的结构示意图。如图5所示,本实施例的装置50包括:监测模块51、第一确定模块52以及第一更新模块53。
其中,监测模块51,用于在监测到向量计算模型进行版本更新完成时,确定对第一特征向量库中的特征向量进行更新。
第一确定模块52,用于根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,所述第一待更新特征向量集合包含至少一个第一待更新特征向量。
第一更新模块53,用于根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
可选地,第一确定模块52,具体用于将所述第一特征向量库中的每个特征向量,将特征向量携带的时间戳在所述向量计算模型更新完成时刻之前的特征向量,确定为第一待更新特征向量。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在图5所示实施例的基础上,可选地,第一更新模块53,可采用批量更新的方式,根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量。
可选地,第一更新模块53,具体用于采用参数服务器(Parameter Server),根据更新后的向量计算模型,对所述第一待更新特征向量集合中的各个第一待更新特征向量进行批量更新,获取所述第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量。
图6为本发明提供的数据更新装置实施例二的结构示意图。如图6所示,本实施例的装置60在图5所示实施例的基础上,还包括:第二确定模块54。
其中,第二确定模块54,用于根据所述向量计算模型更新完成时刻之后,实时增量更新的特征向量,确定第二待更新特征向量集合,所述第二待更新特征向量集合包含至少一个第二待更新特征向量。
相应地,所述装置60还包括:第二更新模块55,还用于根据更新后的向量计算模型,实时获取所述第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,其中,所述第二待更新特征向量按照时间戳顺序排列。
在一些实施例中,第二确定模块54,还用于若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻满足预设规则,则停止根据实时增量更新的特征向量,确定第二待更新特征向量。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明提供的数据更新装置实施例三的结构示意图。如图7所示,本实施例的装置70,在图6所示实施例的基础上,还包括:存储模块56。
其中,存储模块56,具体用于将所述第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量、以及所述第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,存储至第二特征向量库中。
在实际应用中,在特征向量更新完成之前,采用所述第一特征向量库进行应用系统的线上服务,在特征向量更新完成之后,采用所述第二特征向量库进行应用系统的线上服务。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明提供的电子设备实施例一的结构示意图。如图8所示,本实施例的电子设备80包括:存储器81、处理器82以及计算机程序。
其中,计算机程序存储在存储器81中,并被配置为由处理器82执行以实现图1或图3任一实施例所示的数据更新方法。相关说明可以对应参见图1以及图3的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
其中,本实施例中,存储器81和处理器82通过总线83连接。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本发明图1或图3任一实施例所示的显示配置方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
最后应说明的是:尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种数据更新方法,其特征在于,包括:
在监测到向量计算模型版本更新完成时,确定对第一特征向量库中的特征向量进行更新;
根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,所述第一待更新特征向量集合包含至少一个第一待更新特征向量,所述第一待更新特征向量按照时间戳顺序排列;
根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,包括:
将所述第一特征向量库中的每个特征向量,将特征向量携带的时间戳在所述向量计算模型更新完成时刻之前的特征向量,确定为第一待更新特征向量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述向量计算模型更新完成时刻之后,实时增量更新的特征向量,确定第二待更新特征向量集合,所述第二待更新特征向量集合包含至少一个第二待更新特征向量;
相应地,所述方法,还包括:
根据更新后的向量计算模型,实时获取所述第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,其中,所述第二待更新特征向量按照时间戳顺序排列。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若当前时刻更新的第二待更新特征向量携带的时间戳与当前时刻满足预设规则,则停止根据实时增量更新的特征向量,确定第二待更新特征向量。
5.根据权利要求1所述的方法,其特征在于,所述根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量,包括:
采用批量更新的方式,根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个特征向量分别对应的更新后的特征向量,包括:
采用参数服务器,根据更新后的向量计算模型,对所述第一待更新特征向量集合中的第一待更新特征向量进行批量更新,获取所述第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述第一待更新特征向量集合中各个第一待更新特征向量分别对应的更新后的特征向量、以及所述第二待更新特征向量集合中各个第二待更新特征向量分别对应的更新后的特征向量,存储至第二特征向量库中。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在特征向量更新完成之前,采用所述第一特征向量库进行应用系统的线上服务,在特征向量更新完成之后,采用所述第二特征向量库进行应用系统的线上服务。
9.一种数据更新装置,其特征在于,包括:
监测模块,用于在监测到向量计算模型进行版本更新完成时,确定对第一特征向量库中的特征向量进行更新;
第一确定模块,用于根据所述第一特征向量库中各个特征向量携带的时间戳以及所述向量计算模型更新完成时刻,确定第一待更新特征向量集合,其中,所述第一待更新特征向量集合包含至少一个第一待更新特征向量,所述第一待更新特征向量按照时间戳顺序排列;
更新模块,用于根据更新后的向量计算模型,获取所述第一待更新特征向量集合中的各个第一待更新特征向量分别对应的更新后的特征向量。
10.一种电子设备,其特征在于,包括:存储器、处理器以及计算机程序指令;
所述存储器存储所述计算机程序指令;
所述处理器执行所述计算机程序指令以执行如权利要求1至8任一项所述的方法。
11.一种存储介质,其特征在于,包括:程序;
所述程序在被处理器执行时,以执行如权利要求1至8任一项所述的方法。
CN201910408807.1A 2019-05-16 2019-05-16 数据更新方法、装置、电子设备及存储介质 Active CN110287202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910408807.1A CN110287202B (zh) 2019-05-16 2019-05-16 数据更新方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910408807.1A CN110287202B (zh) 2019-05-16 2019-05-16 数据更新方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110287202A CN110287202A (zh) 2019-09-27
CN110287202B true CN110287202B (zh) 2022-02-15

Family

ID=68002434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910408807.1A Active CN110287202B (zh) 2019-05-16 2019-05-16 数据更新方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110287202B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956129A (zh) * 2019-11-28 2020-04-03 重庆中星微人工智能芯片技术有限公司 用于生成人脸特征向量的方法、装置、设备和介质
CN112800181A (zh) * 2021-02-08 2021-05-14 深圳追一科技有限公司 文本检索方法、装置、计算机设备和存储介质
CN114399058B (zh) * 2022-03-25 2022-06-10 腾讯科技(深圳)有限公司 一种模型更新的方法、相关装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488705A (zh) * 2013-09-06 2014-01-01 电子科技大学 个性化推荐系统的用户兴趣模型增量更新方法
CN106484447A (zh) * 2015-08-28 2017-03-08 中兴通讯股份有限公司 一种更新数据包的制作方法及装置
CN109002314A (zh) * 2018-09-29 2018-12-14 深圳市元征科技股份有限公司 软件更新方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
US10769255B2 (en) * 2015-11-11 2020-09-08 Samsung Electronics Co., Ltd. Methods and apparatuses for adaptively updating enrollment database for user authentication
CN107563201B (zh) * 2017-09-08 2021-01-29 北京奇宝科技有限公司 基于机器学习的关联样本查找方法、装置及服务器
CN109379215A (zh) * 2018-09-26 2019-02-22 郑州云海信息技术有限公司 一种网卡固件更新方法、装置及设备
CN111400584A (zh) * 2020-03-16 2020-07-10 南方科技大学 联想词的推荐方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488705A (zh) * 2013-09-06 2014-01-01 电子科技大学 个性化推荐系统的用户兴趣模型增量更新方法
CN106484447A (zh) * 2015-08-28 2017-03-08 中兴通讯股份有限公司 一种更新数据包的制作方法及装置
CN109002314A (zh) * 2018-09-29 2018-12-14 深圳市元征科技股份有限公司 软件更新方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"文本分类检索技术在工程中的应用";刘晓丽 等;《无线电工程》;20081005;第58-61页 *

Also Published As

Publication number Publication date
CN110287202A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287202B (zh) 数据更新方法、装置、电子设备及存储介质
US10346206B2 (en) System, method and computer program product for resource management in a distributed computation system
US11243936B2 (en) Selectively requesting updated data values
CN108205469B (zh) 一种基于MapReduce的资源分配方法及服务器
US11900263B2 (en) Augmenting neural networks
US10664743B2 (en) Modeling a subject process by machine learning with adaptive inputs
US8589313B2 (en) Real-time license metering of a provisioned application in a cloud computing environment
CN111858576A (zh) 实时消息处理方法、系统、装置、存储介质及电子设备
CN113312553A (zh) 一种用户标签的确定方法和装置
CN110689137B (zh) 参数确定方法、系统、介质和电子设备
US11429596B2 (en) Update for configuration file
CN113377424B (zh) 一种安装包处理方法、装置以及设备
TWI579709B (zh) Instantly analyze the scene file and automatically fill the cloud of the cloud system and methods
CN114157578A (zh) 网络状态预测方法及装置
CN111078263A (zh) 基于Drools规则引擎的热部署方法、系统、服务器及存储介质
CN113129049B (zh) 用于模型训练和应用的文件配置方法和系统
CN113031986B (zh) 特征比对算法动态加载方法、装置、终端及介质
US11741192B2 (en) Increasing trust formation and reduce oversight costs for autonomous agents
US11281653B2 (en) Selectively sending updated data values
CN114461647A (zh) 指标生成方法、装置、计算机设备和存储介质
CN113779082A (zh) 一种更新数据的方法和装置
US20200341784A1 (en) Method and system for managing and using data confidence in a decentralized computing platform
CN113806033A (zh) 用于任务系统的任务执行方法、装置、服务器和介质
CN116451965A (zh) 业务请求的处理方法、装置、计算机设备及存储介质
CN114936193A (zh) 共享数据处理方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant