CN115544033A - 查重向量库更新、数据查重方法、装置、设备和介质 - Google Patents

查重向量库更新、数据查重方法、装置、设备和介质 Download PDF

Info

Publication number
CN115544033A
CN115544033A CN202211116817.6A CN202211116817A CN115544033A CN 115544033 A CN115544033 A CN 115544033A CN 202211116817 A CN202211116817 A CN 202211116817A CN 115544033 A CN115544033 A CN 115544033A
Authority
CN
China
Prior art keywords
data
vector
vector data
initial
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211116817.6A
Other languages
English (en)
Other versions
CN115544033B (zh
Inventor
张阳
刘雪梅
胡伯良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitai Fangyuan High Technology Co Ltd
Original Assignee
Beijing Haitai Fangyuan High Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haitai Fangyuan High Technology Co Ltd filed Critical Beijing Haitai Fangyuan High Technology Co Ltd
Priority to CN202211116817.6A priority Critical patent/CN115544033B/zh
Publication of CN115544033A publication Critical patent/CN115544033A/zh
Application granted granted Critical
Publication of CN115544033B publication Critical patent/CN115544033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种查重向量库更新、数据查重方法、装置、计算机设备和存储介质,涉及数据处理领域。该查重向量库更新方法包括:从当前查重向量库中对待查向量数据进行查重检索,得到与所述待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,所述当前查重向量库中包括多个数据类别,每个所述数据类别中包含初始向量数据以及基于所述初始向量数据新增的新增向量数据;分别确定各所述相似向量数据在所述当前查重向量库中所属数据类别,得到多个目标类别;将各所述目标类别中的新增向量数据更新为所述待查向量数据,得到新的查重向量库。解决了目前的在线数据查重效果均较差的技术问题,达到了提高在线查重效果的目的。

Description

查重向量库更新、数据查重方法、装置、设备和介质
技术领域
本申请涉及数据处理技术领域,具体地,涉及一种查重向量库更新、数据查重方法、装置、计算机设备和存储介质。
背景技术
数据查重是一种较为常用的数据处理服务,被广泛应用于各行各业。在线数据查重需要同时满足时效性与准确性,即需要满足在线查重的要求,同时又需要将新进入的数据及时更新至查重向量库中以便后续可以查询检索到。
目前的数据查重主要包括两种方式:第一种方式,基于训练查重模型进行查重,这种方式准确性高,但是因为需要不断重新训练模型,时效性较低;第二种方式,基于向量数据进行查重,该种方式时效性较高,但是准确性较差。
因此,目前的在线数据查重效果均较差。
发明内容
本申请实施例中提供了一种查重向量库更新、数据查重方法、装置、计算机设备和存储介质。
本申请实施例的第一个方面,提供了一种查重向量库更新方法,包括:
从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,当前查重向量库中包括多个数据类别,每个数据类别中包含初始向量数据以及基于初始向量数据新增的新增向量数据;
分别确定各相似向量数据在当前查重向量库中所属数据类别,得到多个目标类别;
将各目标类别中的新增向量数据更新为待查向量数据,得到新的查重向量库。
在本申请一个可选实施例中,在从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据之前,该方法还包括:
对初始查重向量库中的各初始向量数据进行聚类处理,得到多个初始类别集合;其中,每个初始类别集合中包含多个初始向量数据;
针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据;
对多个新增向量数据与所有的初始向量数据重新进行聚类处理,得到多个新的类别集合;
基于新的类别集合中的各向量数据生成当前查重向量库。
在本申请一个可选实施例中,聚类处理为层次聚类处理。
在本申请一个可选实施例中,在基于新的类别集合中的各向量数据生成当前查重向量库之前,该方法还包括:
确定多个新的类别集合的新的层次数量、新的集合数量,以及各新的类别集合中向量数据的新的数据数量;对应地,基于新的类别集合中的各向量数据生成当前查重向量库,包括:
若新的层次数量与多个初始类别集合的初始层次数量相同,且多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值小于预设比值,则基于新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
在本申请一个可选实施例中,基于新的类别集合中的各向量数据生成当前查重向量库,还包括:
若多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值不小于预设比值,则调整对每个初始类别集合中的多个初始向量数据分别进行数据增强处理的增强参数;
重新确定新的新增向量数据,直至新的新增向量数据与初始向量数据的比值小于预设比值,则基于新的新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
在本申请一个可选实施例中,针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据,包括:
针对每个初始类别集合,根据预设的增强比例与初始类别集合中初始向量数据的总数量计算初始类别集合中需要进行数据增强的增强数量;
针对每个初始类别集合,对初始类别集合中的初始向量数据进行数据增强处理,得到增强数量的新增向量数据。
在本申请一个可选实施例中,针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据,包括:
根据预先配置的噪音参数对每个初始类别集合中的多个初始向量数据分别进行数据噪声增强,得到各初始类别集合中的多个新增向量数据。
本申请实施例的第二个方面,提供了一种数据查重方法,包括:
对待查数据进行向量化处理,得到待查向量数据;
从新的查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,新的查重向量库是根据如上任一项的查重向量库更新方法对当前查重向量库进行更新得到的。
在本申请一个可选实施例中,还包括:若待查向量数据不存在于多个相似向量数据中,则基于如上任一项的查重向量库更新方法对新的查重向量库进行更新。
本申请实施例的第三个方面,提供了一种查重向量库更新装置,包括:
第一查重模块,用于从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,当前查重向量库中包括多个数据类别,每个数据类别中包含初始向量数据以及基于初始向量数据新增的新增向量数据;
确定模块,用于分别确定各相似向量数据在当前查重向量库中所属数据类别,得到多个目标类别;
更新模块,用于将各目标类别中的新增向量数据更新为待查向量数据,得到新的查重向量库。
在本申请一个可选实施例中,第一查重模块还用于:
对初始查重向量库中的各初始向量数据进行聚类处理,得到多个初始类别集合;其中,每个初始类别集合中包含多个初始向量数据;
针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据;
对多个新增向量数据与所有的初始向量数据重新进行聚类处理,得到多个新的类别集合;
基于新的类别集合中的各向量数据生成当前查重向量库。
在本申请一个可选实施例中,聚类处理为层次聚类处理。
在本申请一个可选实施例中,确定模块还用于:
确定多个新的类别集合的新的层次数量、新的集合数量,以及各新的类别集合中向量数据的新的数据数量;
若新的层次数量与多个初始类别集合的初始层次数量相同,且多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值小于预设比值,则基于新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
在本申请一个可选实施例中,确定模块用于:
若多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值不小于预设比值,则调整对每个初始类别集合中的多个初始向量数据分别进行数据增强处理的增强参数;
重新确定新的新增向量数据,直至新的新增向量数据与初始向量数据的比值小于预设比值,则基于新的新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
在本申请一个可选实施例中,第一查重模块用于:
针对每个初始类别集合,根据预设的增强比例与初始类别集合中初始向量数据的总数量计算初始类别集合中需要进行数据增强的增强数量;
针对每个初始类别集合,对初始类别集合中的初始向量数据进行数据增强处理,得到增强数量的新增向量数据。
在本申请一个可选实施例中,第一查重模块用于:
根据预先配置的噪音参数对每个初始类别集合中的多个初始向量数据分别进行数据噪声增强,得到各初始类别集合中的多个新增向量数据。
本申请实施例的第四个方面,提供了一种数据查重装置,包括:
处理模块,用于对待查数据进行向量化处理,得到待查向量数据;
第二查重模块,用于从新的查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,新的查重向量库是根据如上任一项的查重向量库更新方法对当前查重向量库进行更新得到的。
在本申请一个可选实施例中,第二查重模块还用于:
若待查向量数据不存在于多个相似向量数据中,则基于如上任一项的查重向量库更新方法对新的查重向量库进行更新。
本申请实施例的第五个方面,提供了一种计算机设备,包括:包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上任一项方法的步骤。
本申请实施例的第六个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如上任一项的方法的步骤。
上述查重向量库更新方法先从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据,然后分别确定各相似向量数据在当前查重向量库中所属数据类别得到多个目标类别后,将各目标类别中的新增向量数据更新为待查向量数据,即可得到新的查重向量库。第一方面,使用待查向量数据对查重向量库进行实时更新后可以方便后续进行数据查重时可以查询检索到新更新进查重向量库的向量数据,使得在线查重准确性更高;第二方面,可以在在线查重之前基于待查询数据对向量库进行实时的离线更新,数据更新时效性更高,且离线更新不会影响在线查询的效率;即本申请实施例从时效性与准确性两个维度共同来提高在线查重的效果,从而解决了目前在线数据查重效果均较差的技术问题,达到了提高在线查重时效性与准确性的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一个实施例提供的查重向量库更新方法的应用场景示意图;
图2为本申请一个实施例提供的查重向量库更新方法的流程示意图;
图3为本申请一个实施例提供的查重向量库更新方法的流程示意图;
图4为本申请一个实施例提供的查重向量库更新方法的流程示意图;
图5为本申请一个实施例提供的数据查重方法的流程示意图;
图6为本申请一个实施例提供的查重向量库更新装置结构示意图;
图7为本申请一个实施例提供的数据查重装置结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现,目前的数据查重效果均较差。针对上述问题,本申请实施例中提供了一种查重向量库更新方法、数据查重方法,进而提高数据查重的效果。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下对本申请实施例提供的查重向量库更新方法、数据查重方法的应用环境作简要说明:
示例性的,图1为本申请实施例提供的计算机设备的结构示意图。该计算机设备可以是终端。如图1所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置(图1中未示出)。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质例如可以为磁盘。非易失性存储介质中存储有文件(可以为待处理的文件,也可以为处理后的文件)、操作系统和计算机程序等。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种查重向量库更新方法或数据查重方法。
请参见图2,以下实施例以上述计算机设备为执行主体,将本申请实施例提供的方法应用于上述计算机设备中的查重向量库进行实时更新为例进行具体说明。本申请实施例提供的查重向量库更新方法包括如下步骤201-步骤203:
步骤201、从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据。
其中,当前查重向量库中包含多个向量数据,该多个向量数据包括多个数据类别,不同数据类别是指按照设定的划分规则进行类别划分后的数据集合,具体划分可以由开发人员按照实际需要进行划分,也可以由计算机设备基于例如聚类算法等方式进行自动划分,本申请实施例不作具体限定。每个类别集合中包含多个向量数据,每个数据类别中包含初始向量数据以及基于初始向量数据新增的新增向量数据。其中,初始向量数据是指初始查重向量库中的向量数据,新增向量数据是指基于数据增强方法对初始向量数据进行数据增强后得到的向量数据。也就是说,该当前查重向量库本质为在初始查重向量库的基础上进行了数据增强后形成的样本数量大于初始查重向量库的一个新的查重向量库。
数据查重的本质即为将待查数据与查重向量库中的各向量数据进行相似度计算,并提取出相似度最高的若干个数据或数据包作为查重结果,即本申请实施例从查重向量库中对待查向量数据进行查重检索,即可得到与待查向量数据的相似度大于预设阈值,例如大于80%的多个向量数据作为查重结果,即作为该相似向量数据。
步骤202、分别确定各相似向量数据在当前查重向量库中所属数据类别,得到多个目标类别。
当前查重向量库中的多个向量数据包括多个数据类别,每个数据类别作为一个类别集合,例如包含集合1、集合2与集合3,每个集合中包含多个向量数据。计算机设备在得到相似向量数据后可以根据向量数据的类别标识等快速的确定其所属的集合,例如属于集合1,那么集合1即为该目标类别。
步骤203、将各目标类别中的新增向量数据更新为待查向量数据,得到新的查重向量库。
每个数据类别作为一个类别集合,每个类别集合中包含多个向量数据,包括初始向量数据与新增向量数据。如上步骤202中,若目标类别为集合1,那么将集合1中的新增向量数据替换为待查向量数据,集合1中的初始向量数据为原有的真实数据,不进行调整。更新后的所有的向量数据,包含各类别集合中的所有初始向量数据、未被更新的新增向量数据,以及新替换进来的待查向量数据一起构成了新的查重向量库。随着查重次数的不断增长,初始查重向量库或者当前查重向量库中新增的向量数据逐渐被替换掉,形成真实的向量数据的集合。需要解释的是,在每次查重过程中只对新增的向量数据进行替换更新,例如本次查重过程中将新增向量数据1更新为待查向量数据1,那么待查向量数据1已经属于真实向量数据,而非通过上述数据增强处理得到的新增向量数据,因此在下次查重时将不再对该基于待查向量数据1更新得到的新增的真实的向量数据进行更新,而仅对通过数据增强处理后得到的,原来未被更新的新增向量数据继续进行更新。
本申请实施例提供的查重向量库更新方法先从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据,然后分别确定各相似向量数据在当前查重向量库中所属数据类别得到多个目标类别后,将各目标类别中的新增向量数据更新为待查向量数据,即可得到新的查重向量库。因此,使用待查向量数据对查重向量库进行实时更新后可以方便后续进行数据查重时可以查询检索到新更新进查重向量库的向量数据,使得在线查重准确性更高。即本申请实施例从时效性与准确性两个维度共同来提高在线查重的效果,从而解决了目前在线数据查重效果均较差的技术问题,达到了提高在线查重时效性与准确性的技术效果。
在本申请一个可选实施例中,该待查向量数据不处于该当前查重向量库中,即从当前查重向量库中对待查向量数据进行查重检索,未查重得到与该待查向量数据相同的向量数据,仅查重得到了与待查向量数据的相似度大于预设阈值的多个相似向量数据,再基于本申请实施例提供的查重向量库更新方法对当前查重向量库进行更新。相反,从当前查重向量库中对待查向量数据进行查重检索得到了与该待查向量数据相同的向量数据,则可以不对该当前查重向量库进行更新,以节省计算资源,提高在线查重效率。
请参见图3,在本申请一个可选实施例中,在上述步骤201、从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据之前,上述实施例提供的查重向量库更新方法还包括如下步骤301-步骤304:
步骤301、对初始查重向量库中的各初始向量数据进行聚类处理,得到多个初始类别集合。
该初始查重向量库是指在进行聚类处理与查重之前的数据样本库,或者预训练数据库,该初始查重向量库中包含多个初始向量数据。计算机设备对该多个初始向量数据利用K-means(K均值)等聚类模型等进行聚类处理,然后即可得到多个初始类别集合,每个初始类别集合中包含多个初始向量数据。需要解释的是,在聚类过程中,可以采用自顶向下或者自下而上等任意聚类方法,聚类距离可采用最大距离、最小距离、平均距离、均值距离、中间距离、重心距离等,本申请实施例不作任何限定。
步骤302、针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据。
例如多个初始类别集合包含集合1、集合2与集合3,计算机设备先针对集合1中的多个初始向量数据进行数据增强,得到多个第一新增向量数据,该第一新增向量数据与集合1中原有的多个初始向量数据构成了新的集合1;同理,得到多个第二新增向量数据与新的集合2,以及多个第三新增向量数据与新的集合3,最后该第一新增向量数据、第二新增向量数据与第三新增向量数据的集合即构成了上述多个新增向量数据。数据增强处理可以采用噪声增强、模糊增强、剪裁、差值等增强方式,在此不作穷举,可根据实际情况具体选择。
步骤303、对多个新增向量数据与所有的初始向量数据重新进行聚类处理,得到多个新的类别集合;
继续上述步骤302中的示例,新的集合1、新的集合2与新的集合3中均包含有原有的初始向量数据以及新增的向量数据,在本步骤中也就是对得到的新的集合1、新的集合2与新的集合3中的所有向量数据进行聚类处理,以得到新的类别集合。聚类处理可以采用上述步骤301中示例的方式,在此不作赘述。
步骤304、基于新的类别集合中的各向量数据生成当前查重向量库。
在进行聚类处理后各类别集合中所有的向量数据均属于同一类别,每一类别集合对应也有属于该类别的类别标识,基于该新的类别集合中的各向量数据即可构建得到上述步骤203中所使用的当前查重向量库。需要解释的是,该查重向量库并非传统方法中的数据集合,而是在内部通过该新的类别集合进行类别划分后形成的具有不同类别的查重向量库。
本申请实施例先对初始查重向量库中的各初始向量数据进行聚类处理得到多个初始类别集合,然后针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,通过针对每个初始类别集合中分别进行数据增强,最后基于新的类别集合中的各向量数据构建新的查重向量库,从而实现对查重向量库进行离线更新,避免影响在线查重的时延,在保障查重向量库实时更新的前提下进一步保障在线查重的查重效率。本申请实施例可以在在线查重之前基于待查询数据对查重向量库进行实时的离线更新,数据更新时效性更高,且离线更新不会影响在线查询的效率。
在本申请一个可选实施例中,上述聚类处理为层次聚类处理。
层次聚类可以在不同层次对数据集进行划分,从而形成树形的聚类结构,数据集划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。随着我们自下而上遍历聚类结构,聚类的数目越来越少,由于整个聚类树都保存了,用户可以选择查看聚类树的任意层次上的聚类,本实施例采用层次聚类方法对初始类别集合中的多个初始向量数据,以及多个新增向量数据与所有的初始向量数据进行聚类处理,在后续检索过程中可以按照聚类类别进行检索和查重向量库的更新,大大提高后期进行数据查重和数据检索的效率。
在本申请一个可选实施例中,在上述步骤304、基于新的类别集合中的各向量数据生成当前查重向量库之前,上述实施例提供的查重向量库更新方法还包括如下步骤:
确定多个新的类别集合的新的层次数量、新的集合数量,以及各新的类别集合中向量数据的新的数据数量。
如上步骤中的示例,在进行层次聚类处理后形成树形的聚类结构,聚类结构包括多个聚类层次,每个聚类层次中包括多个聚类集合,计算机设备确定该聚类结构的层次,得到新的层次数量L1,新的集合数量C1,以及每个新的类别集合中新的数据数量M1
本申请实施例通过确定多个新的类别集合的新的层次数量与新的集合数量,以及各新的类别集合中向量数据的新的数据数量,为后续在构建查重向量库时,也就是进行查重向量库更新时提供评判依据,从而提高查重向量库更新的可靠性,进而提高本申请实施例数据查重的可靠性。
对应地,上述步骤304、基于新的类别集合中的各向量数据生成当前查重向量库,包括如下两种情况:
第一种情况,若新的层次数量与多个初始类别集合的初始层次数量相同,且多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值小于预设比值,则基于新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
第二种情况,若多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值不小于预设比值,则调整对每个初始类别集合中的多个初始向量数据分别进行数据增强处理的增强参数;
重新确定新的新增向量数据,直至新的新增向量数据与初始向量数据的比值小于预设比值,则基于新的新增向量数据对初始向量库进行更新,得到当前向量库。
例如,多个初始类别集合的初始层次数量为L0,初始类别集合的初始集合数量为C0,多个新的类别集合的新的层次数量为L1,新的类别集合的新的集合数量为C1,预设比值为n,则:
若(C1-C0)/C0小于n,则基于新增向量数据对初始查重向量库进行更新,得到包含有新增向量数据与原有初始向量数据的当前查重向量库。
若(C1-C0)/C0大于或等于n,则重新调整数据增强的增强参数,例如数据增强采用的是噪声增强,则调整对应的噪音参数,重新进行数据增强,得到新的增强向量数据,并采用上述方式重新构成新的类别集合,并重新确定新增向量数据与初始向量数据的比值,直至该比值小于预设比值,再基于新的新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
本申请实施例通过多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值与预设比值之间的相对大小来确定是否需要对查重向量库进行更新,以控制更新程度,可靠性更高,可以进一步提高本申请实施例数据查重的可靠性。
请参见图4,在本申请一个可选实施例中,上述步骤302、针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据,包括如下步骤401-步骤402:
步骤401、针对每个初始类别集合,根据预设的增强比例与初始类别集合中初始向量数据的总数量计算初始类别集合中需要进行数据增强的增强数量。
步骤402、针对每个初始类别集合,对初始类别集合中的初始向量数据进行数据增强处理,得到增强数量的新增向量数据。
其中,该增强数量是针对一个初始类别集合而言,即为在该初始类别集合当前的初始向量数据的基础上需要增加的向量数据的数量。例如可以根据如下公式(1)计算得到该增强数量:
N=M×r(1)
公式(1)中,N为增强数量,M为一个初始类别集合中初始向量数据的数量,r为预设的增强比例。该增强比例可以根据实际情况灵活配置,本申请实施例不作具体限定,例如可以根据在线查重的业务访问量进行预估。
在根据实际需求,也就是该预设的增强比例确定得到需要进行数据增强的增强数量,然后基于该增强数量对各初始类别集合进行数据增强处理,可以保障新增向量数据可以有规律有秩序的增强,使得基于该新增向量数据得到的新的查重向量库的更新程度可控,避免出现数据暴增而浪费过多的存储资源和计算资源,进一步提高本申请实施例数据查重方法的可靠性与稳定性。
在本申请一个可选实施例中,上述步骤302、针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据,包括如下步骤:
根据预先配置的噪音参数对每个初始类别集合中的多个初始向量数据分别进行数据噪声增强,得到各初始类别集合中的多个新增向量数据。
该噪音参数是指在进行噪声增强时用于表征增强程度的参数,本申请实施例通过噪声增强对初始类别集合中的向量数据进行数据增强,可以使得现有的有限的向量数据产生更多的向量数据,进而增加数据向量的数量以及多样性,提升模型鲁棒性,进而丰富新的查重向量库,进而提高基于该新的查重向量库进行数据查重的准确性。
请参见图5,本申请一个实施例提供了一种数据查重方法,包括如下步骤501-步骤502:
步骤501、对待查数据进行向量化处理,得到待查向量数据。
例如,可以使用预先训练得到的向量化模型将待查数据转换为向量数据,也就是例如128字符、256字符等预设长度的向量。该向量化模型例如可以使用Bert(Bidirectional Encoder Representation from Transformers,一种预训练的语言表征模型),Albert(一种轻量级的BERT模型),UniLM(一种自然语言理解与生成的统一预训练语言模型),Roberta(obustly optimized BERT approach,一种语言模型),Sentence Bert(一种语言模型)等各类预训练模型。需要说明的是,若待查询数据为多组数据,对该待查询数据进行向量化处理后形成一个包含多组待查向量数据的向量库A。当然在进行向量化处理之前也可以对待查数据进行文本格式处理、清洗,分词,停用词去除等预处理,以进一步提高向量化处理的效率,以及提高得到的待查向量数据的数据清洁度。
步骤502、从新的查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据。
其中,新的查重向量库是根据如上述任一项的查重向量库更新方法对当前查重向量库进行更新得到的,该新的查重向量库的有益效果已经在上述实施例中详细阐述,在此不作赘述。
本申请实施例提供的数据查重方法先对待查数据进行向量化处理,得到待查向量数据后从新的查重向量库中对待查向量数据进行查重检索得到查重结果准确性更高,且对查重数据的实时离线更新不会影响在线查重的效率。
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参见图6,为了实现上述查重向量库更新方法,本申请的一个实施例中提供一种查重向量库更新装置600。图6示出了查重向量库更新装置600的示意性架构图,包括:第一查重模块610、确定模块620与更新模块630,其中:
该第一查重模块610,用于从当前查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,当前查重向量库中包括多个数据类别,每个数据类别中包含初始向量数据以及基于初始向量数据新增的新增向量数据;
该确定模块620,用于分别确定各相似向量数据在当前查重向量库中所属数据类别,得到多个目标类别;
该更新模块630,用于将各目标类别中的新增向量数据更新为待查向量数据,得到新的查重向量库。
在本申请一个可选实施例中,该第一查重模块610还用于,对初始查重向量库中的各初始向量数据进行聚类处理,得到多个初始类别集合;其中,每个初始类别集合中包含多个初始向量数据;针对每个初始类别集合中的多个初始向量数据分别进行数据增强处理,得到多个新增向量数据;对多个新增向量数据与所有的初始向量数据重新进行聚类处理,得到多个新的类别集合;基于新的类别集合中的各向量数据生成当前查重向量库。
在本申请一个可选实施例中,聚类处理为层次聚类处理。
在本申请一个可选实施例中,该第一查重模块610具体用于,确定多个新的类别集合的新的层次数量、新的集合数量,以及各新的类别集合中向量数据的新的数据数量;若新的层次数量与多个初始类别集合的初始层次数量相同,且多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值小于预设比值,则基于新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
在本申请一个可选实施例中,该第一查重模块610具体用于,若多个新的类别集合的新的集合数量与多个初始类别集合的初始集合数量的比值不小于预设比值,则调整对每个初始类别集合中的多个初始向量数据分别进行数据增强处理的增强参数;重新确定新的新增向量数据,直至新的新增向量数据与初始向量数据的比值小于预设比值,则基于新的新增向量数据对初始查重向量库进行更新,得到当前查重向量库。
在本申请一个可选实施例中,该第一查重模块610具体用于,针对每个初始类别集合,根据预设的增强比例与初始类别集合中初始向量数据的总数量计算初始类别集合中需要进行数据增强的增强数量;针对每个初始类别集合,对初始类别集合中的初始向量数据进行数据增强处理,得到增强数量的新增向量数据。
在本申请一个可选实施例中,该第一查重模块610具体用于,根据预先配置的噪音参数对每个初始类别集合中的多个初始向量数据分别进行数据噪声增强,得到各初始类别集合中的多个新增向量数据。
请参见图7,为了实现上述数据查重方法,本申请的一个实施例中提供一种数据查重装置700。图7示出了数据查重装置700的示意性架构图,包括:处理模块710与第二查重模块720,其中:
该处理模块710,用于对待查数据进行向量化处理,得到待查向量数据;
该第二查重模块720,用于从新的查重向量库中对待查向量数据进行查重检索,得到与待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,新的查重向量库是根据如上述任一项的查重向量库更新方法对当前查重向量库进行更新得到的。
关于上述查重向量库更新装置600与数据查重装置700的具体限定可以参见上文中对于查重向量库更新方法与数据查重方法的限定,在此不再赘述。上述查重向量库更新装置600与数据查重装置700中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备的内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现如上的一种查重向量库更新方法或数据查重方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可以实现如上一种查重向量库更新方法或数据查重方法中的任一步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种查重向量库更新方法,其特征在于,包括:
从当前查重向量库中对待查向量数据进行查重检索,得到与所述待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,所述当前查重向量库中包括多个数据类别,每个所述数据类别中包含初始向量数据以及基于所述初始向量数据新增的新增向量数据;
分别确定各所述相似向量数据在所述当前查重向量库中所属数据类别,得到多个目标类别;
将各所述目标类别中的新增向量数据更新为所述待查向量数据,得到新的查重向量库。
2.根据权利要求1所述的查重向量库更新方法,其特征在于,在所述从当前查重向量库中对待查向量数据进行查重检索,得到与所述待查向量数据的相似度大于预设阈值的多个相似向量数据之前,所述方法还包括:
对初始查重向量库中的各所述初始向量数据进行聚类处理,得到多个初始类别集合;其中,每个所述初始类别集合中包含多个所述初始向量数据;
针对每个所述初始类别集合中的所述多个初始向量数据分别进行数据增强处理,得到多个所述新增向量数据;
对多个所述新增向量数据与所有的所述初始向量数据重新进行聚类处理,得到多个新的类别集合;
基于所述新的类别集合中的各向量数据生成所述当前查重向量库。
3.根据权利要求2所述的查重向量库更新方法,其特征在于,在所述基于所述新的类别集合中的各向量数据生成所述当前查重向量库之前,所述方法还包括:
确定所述多个新的类别集合的新的层次数量、新的集合数量,以及各所述新的类别集合中向量数据的新的数据数量;对应地,所述基于所述新的类别集合中的各向量数据生成所述当前查重向量库,包括:
若所述新的层次数量与所述多个初始类别集合的初始层次数量相同,且所述多个新的类别集合的新的集合数量与所述多个初始类别集合的初始集合数量的比值小于预设比值,则基于所述新增向量数据对所述初始查重向量库进行更新,得到所述当前查重向量库。
4.根据权利要求2所述的查重向量库更新方法,其特征在于,所述基于所述新的类别集合中的各向量数据生成所述当前查重向量库,还包括:
若所述多个新的类别集合的所述新的集合数量与所述多个初始类别集合的所述初始集合数量的比值不小于预设比值,则调整对每个所述初始类别集合中的所述多个初始向量数据分别进行数据增强处理的增强参数;
重新确定新的新增向量数据,直至所述新的新增向量数据与所述初始向量数据的比值小于所述预设比值,则基于所述新的新增向量数据对所述初始查重向量库进行更新,得到所述当前查重向量库。
5.根据权利要求2所述的查重向量库更新方法,其特征在于,所述针对每个所述初始类别集合中的所述多个初始向量数据分别进行数据增强处理,得到多个新增向量数据,包括:
针对每个所述初始类别集合,根据预设的增强比例与所述初始类别集合中所述初始向量数据的总数量计算所述初始类别集合中需要进行数据增强的增强数量;
针对每个所述初始类别集合,对所述初始类别集合中的所述初始向量数据进行数据增强处理,得到所述增强数量的所述新增向量数据。
6.一种数据查重方法,其特征在于,包括:
对待查数据进行向量化处理,得到待查向量数据;
从新的查重向量库中对所述待查向量数据进行查重检索,得到与所述待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,所述新的查重向量库是根据如权利要求1-5任一项所述的查重向量库更新方法对当前查重向量库进行更新得到的。
7.一种查重向量库更新装置,其特征在于,包括:
第一查重模块,用于从当前查重向量库中对待查向量数据进行查重检索,得到与所述待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,所述当前查重向量库中包括多个数据类别,每个所述数据类别中包含初始向量数据以及基于所述初始向量数据新增的新增向量数据;
确定模块,用于分别确定各所述相似向量数据在所述当前查重向量库中所属数据类别,得到多个目标类别;
更新模块,用于将各所述目标类别中的新增向量数据更新为所述待查向量数据,得到新的查重向量库。
8.一种数据查重装置,其特征在于,包括:
处理模块,用于对待查数据进行向量化处理,得到待查向量数据;
第二查重模块,用于从新的查重向量库中对所述待查向量数据进行查重检索,得到与所述待查向量数据的相似度大于预设阈值的多个相似向量数据;其中,所述新的查重向量库是根据如上权利要求1-5任一项所述的查重向量库更新方法对当前查重向量库进行更新得到的。
9.一种计算机设备,包括:包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202211116817.6A 2022-09-14 2022-09-14 查重向量库更新、数据查重方法、装置、设备和介质 Active CN115544033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211116817.6A CN115544033B (zh) 2022-09-14 2022-09-14 查重向量库更新、数据查重方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211116817.6A CN115544033B (zh) 2022-09-14 2022-09-14 查重向量库更新、数据查重方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115544033A true CN115544033A (zh) 2022-12-30
CN115544033B CN115544033B (zh) 2023-08-15

Family

ID=84727607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211116817.6A Active CN115544033B (zh) 2022-09-14 2022-09-14 查重向量库更新、数据查重方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115544033B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595065A (zh) * 2023-05-09 2023-08-15 上海任意门科技有限公司 内容重复识别方法、装置、系统和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN111966856A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 图片数据处理方法、装置、电子设备和存储介质
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113535906A (zh) * 2021-07-28 2021-10-22 广东电网有限责任公司 一种电力领域隐患事件文本分类方法及其相关装置
US20220270397A1 (en) * 2019-11-20 2022-08-25 Guangdong Oppo Mobile Telecommunication Corp., Ltd. Image processing method and device, equipment, and computer-readable storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
US20220270397A1 (en) * 2019-11-20 2022-08-25 Guangdong Oppo Mobile Telecommunication Corp., Ltd. Image processing method and device, equipment, and computer-readable storage medium
CN111966856A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 图片数据处理方法、装置、电子设备和存储介质
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113535906A (zh) * 2021-07-28 2021-10-22 广东电网有限责任公司 一种电力领域隐患事件文本分类方法及其相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595065A (zh) * 2023-05-09 2023-08-15 上海任意门科技有限公司 内容重复识别方法、装置、系统和存储介质
CN116595065B (zh) * 2023-05-09 2024-04-02 上海任意门科技有限公司 内容重复识别方法、装置、系统和存储介质

Also Published As

Publication number Publication date
CN115544033B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN106096727B (zh) 一种基于机器学习的网络模型构造方法及装置
CN109496322B (zh) 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置
US11334671B2 (en) Adding adversarial robustness to trained machine learning models
CN110428137B (zh) 一种风险防控策略的更新方法及装置
KR20210032140A (ko) 뉴럴 네트워크에 대한 프루닝을 수행하는 방법 및 장치
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN111967271A (zh) 分析结果的生成方法、装置、设备及可读存储介质
EP3766021A1 (en) Cluster compression for compressing weights in neural networks
CN116644804B (zh) 分布式训练系统、神经网络模型训练方法、设备和介质
CN113312175A (zh) 一种算子确定、运行方法及装置
CN111444956A (zh) 低负载信息预测方法、装置、计算机系统及可读存储介质
US20220383036A1 (en) Clustering data using neural networks based on normalized cuts
CN115544033B (zh) 查重向量库更新、数据查重方法、装置、设备和介质
WO2018224165A1 (en) Device and method for clustering a set of test objects
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112765468A (zh) 一种个性化用户服务定制方法和装置
CN109147868A (zh) 蛋白质功能预测方法、装置、设备及存储介质
CN109117475A (zh) 一种文本改写的方法以及相关设备
CN116310385A (zh) 3d点云数据中的单一数据集域泛化方法
CN109977977A (zh) 一种识别潜在用户的方法及对应装置
CN106648891A (zh) 基于MapReduce模型的任务执行方法和装置
CN114564523B (zh) 针对智慧虚拟场景的大数据漏洞分析方法及云端ai系统
WO2023147140A1 (en) Routing to expert subnetworks in mixture-of-experts neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant