CN116595065A - 内容重复识别方法、装置、系统和存储介质 - Google Patents

内容重复识别方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN116595065A
CN116595065A CN202310521997.4A CN202310521997A CN116595065A CN 116595065 A CN116595065 A CN 116595065A CN 202310521997 A CN202310521997 A CN 202310521997A CN 116595065 A CN116595065 A CN 116595065A
Authority
CN
China
Prior art keywords
vector
library
content
node
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310521997.4A
Other languages
English (en)
Other versions
CN116595065B (zh
Inventor
谢江
尹顺顺
李孟霖
张璐
陶明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Renyimen Technology Co ltd
Original Assignee
Shanghai Renyimen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Renyimen Technology Co ltd filed Critical Shanghai Renyimen Technology Co ltd
Priority to CN202310521997.4A priority Critical patent/CN116595065B/zh
Publication of CN116595065A publication Critical patent/CN116595065A/zh
Application granted granted Critical
Publication of CN116595065B publication Critical patent/CN116595065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种内容重复识别方法、装置、系统和存储介质,涉及查重技术。该方法包括:获取内容对应的编码向量;在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容;以及将编码向量插入到一个节点的检索库以及存储在存储设备中,其中,该存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。本公开能够在实现重复识别的同时,剔除检索库中已过期的向量,解决动态时间区间向量检索库更新的问题,提高了在海量数据的快插快查场景下的服务稳定性以及性能。

Description

内容重复识别方法、装置、系统和存储介质
技术领域
本公开涉及查重技术,尤其涉及一种内容重复识别方法、装置、系统和存储介质。
背景技术
开源的向量检索框架,支持在既定的海量编码检索库下实现高性能的向量检索。但是,对于向量快插快查场景,相关技术中的向量检索框架容易引发服务过载崩溃,或者,面临海量数据下的性能瓶颈问题。
发明内容
本公开要解决的一个技术问题是,提供一种内容重复识别方法、装置、系统和存储介质,能够在实现内容查重的同时,解决动态时间区间向量检索库更新的问题。
根据本公开一方面,提出一种内容重复识别方法,包括:获取内容对应的编码向量;在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容;以及将编码向量插入到一个节点的检索库以及存储在存储设备中,其中,该存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。
在一些实施例中,将编码向量和对应的时间存储在存储设备中,其中,存储设备定时对存储的编码向量进行检测,删除已过期的编码向量。
在一些实施例中,接收各个节点的检索库在完成与存储设备进行数据同步重启后的反馈,其中,反馈包括检索库量级信息。
在一些实施例中,将编码向量插入到一个节点的检索库包括:以多个节点的检索库量级平衡为目标,将编码向量插入到一个节点的检索库。
在一些实施例中,在存在与编码向量匹配的样本的情况下,在缓存中标记编码向量与匹配的样本的对应关系。
在一些实施例中,在内容为文本的情况下,在分布式检索库中,查询与编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的样本。
在一些实施例中,在内容为图像的情况下,对图像做特征分类处理;在图像为预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第三阈值的样本;以及在图像为非预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第四阈值的样本,其中,第四阈值小于第三阈值。
在一些实施例中,在存在与所述编码向量匹配的样本的情况下,向业务侧反馈重复标记。
根据本公开的另一方面,还提出一种内容重复识别装置,包括:获取模块,被配置为获取内容对应的编码向量;查询模块,被配置为在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容;以及插入模块,被配置为将编码向量插入到一个节点的检索库以及存储在存储设备中,存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步;以及反馈模块,被配置为在存在与编码向量匹配的样本的情况下,向业务侧反馈重复标记。
根据本公开的另一方面,还提出一种内容重复识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的内容重复识别方法。
根据本公开的另一方面,还提出一种内容重复识别系统,包括上述实施例中的内容重复识别装置;分布式检索库,被配置为根据存储设备内存储的数据进行同步;以及存储设备,被配置为定时对存储的编码向量进行检测,删除已过期的编码向量。
根据本公开的另一方面,还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如上述的内容重复识别方法。
本公开实施例中,在多个检索库中查询与内容对应的编码向量匹配的样本,将编码向量插入到一个检索库并进行存储,从而维护动态时间区域内的向量检索,并且由于存储设备只存储预定时间的数据,且每个节点的检索库定时根据存储设备进行更新同步,因此,能够在实现重复识别的同时,剔除检索库中已过期的向量,解决动态时间区间向量检索库更新的问题,提高了在海量数据的快插快查场景下的服务稳定性以及性能。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的内容重复识别方法的一些实施例的流程示意图;
图2为本公开的内容重复识别方法的另一些实施例的流程示意图;
图3为本公开的内容重复识别方法的另一些实施例的流程示意图;
图4为本公开的内容重复识别方法的另一些实施例的流程示意图;
图5为本公开的内容重复识别方法的另一些实施例的流程示意图;
图6为本公开的内容重复识别方法的另一些实施例的流程示意图;
图7为本公开的内容重复识别方法的另一些实施例的流程示意图;
图8为本公开的内容重复识别装置的一些实施例的结构示意图;
图9为本公开的内容重复识别装置的另一些实施例的结构示意图;以及
图10为本公开的内容重复识别装置的另一些实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
Milvus向量检索框架,支持向量检索库内容的插入、删除、查询,faiss向量检索框架,则只支持向量检索库内容的插入、查询,在固定的内容编码检索库下,通过milvus、faiss向量检索框架,都可实现针对固定文本或图像编码库的检索查重。
但是,由于机器内存有限的原因,以及从业务角度出发,对于站内新产出的内容,我们更关注于它是否与最近时间段内的内容有重复,因此需要维护动态时间区域内的向量检索,而在维护时间区间时,不仅需要将新的编码向量插入到检索库中,也需要将过期的向量在检索库中剔除,所以需要在向量的存储以及检索引擎的定时重启上制定策略。
本公开适用于向量快插快查场景,即对于获取到的文本、图像的实时向量编码,不仅需要在历史的内容库中检索以判断是否存在相似内容,也需要将此向量插入到内容检索库中以达到更新检索库的目的。能够实现动态时间区域的编码库更新,并且能够实现该场景下服务的稳定性以及提高服务性能。
图1为本公开的内容重复识别方法的一些实施例的流程示意图。
在步骤110,获取内容对应的编码向量。
在一些实施例中,内容包括文本和图像中的至少一项。
在一些实施例中,通过模型获取文本或图像对应的编码向量。
例如,针对文本,选择bert模型,该bert模型的输入为一段文字,bert模型会结合输入文字的位置信息对数据进行编码。使用bert模型的注意力分数作为权重,得到基于注意力分数的加权和作为表征文本的特征向量,从而对文字信息进行理解,最终输出为576维的编码向量。
再例如,针对图像,选择resnet101模型,该resnet101模型能够充分地提取图片的信息,模型的输入为单张图片,输出为2048维的编码向量。
在步骤120,在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容。
在一些实施例中,针对文本,在分布式检索库中,查询与编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的样本。
在一些实施例中,针对图像,对图像做特征分类处理;在图像为预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第三阈值的样本;以及在图像为非预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第四阈值的样本,其中,第四阈值小于第三阈值。
在一些实施例中,中控服务器在接收到向量查询请求时,将各个节点引擎检索得到的结果都返回至中控服务器,中控服务器汇总所有结果后,进行下一步决策。例如,如图2所示,在检索引擎1-n中进行检测,每个检索引擎将检索库检索的数据反馈至中控服务器。该检测引擎例如为faiss引擎。
在步骤130,将编码向量插入到一个节点的检索库以及存储在存储设备中,其中,存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。
将编码向量插入到检索库,便于后续检索,作为后续查重的依据。
在一些实施例中,以多个节点的检索库量级平衡为目标,将编码向量插入到一个节点的检索库。
例如,中控服务器在接收到向量插入的请求时,通过id(标识)取余、随机选择等手段,维持各个节点引擎的检索库量级平衡,将编码向量插入至某检索库。如图3所示,对id取余等于n-1,将编码向量插入到检索引擎1-n的中的一个引擎的检索库中。
在一些实施例中,将编码向量存储在存储设备中,存储设备为硬盘,相比于将编码向量存储在数据库中,在硬盘调取数据效率更高。
在一些实施例中,无论该编码向量是否与检索库中的向量完全一样或相似,都将该编码向量插入到检索库中,并进行存储,将该编码向量作为检索样本,以便后续检索时使用。
在一些实施例中,每个节点对应一个存储设备,在更新每个节点的检索库时,直接将该节点对应的存储设备中的编码向量同步至对应的检索库。
在一些实施例中,多个节点共用一个存储设备,例如,一个存储设备包括多个存储区域,每个存储区域对应一个节点标识,根据节点标识,将预定存储区域的编码向量同步至对应的检索库。
在一些实施例中,编码中存储的编码向量携带日期信息。例如,以日期为该编码向量的名称,便于后续去除已过期的编码向量。
在一些实施例中,在存在与编码向量匹配的样本的情况下,向业务侧反馈重复标记,避免在业务侧发布大量重复的信息,影响客户体验。
在不存在与编码向量匹配的样本的情况下,可不作处理,或者向业务侧反馈无重复消息。
在上述实施例中,在多个检索库中查询与内容对应的编码向量匹配的样本,将编码向量插入到一个检索库并进行存储,从而维护动态时间区域内的向量检索,并且由于存储设备只存储预定时间的数据,且每个节点的检索库定时根据存储设备进行更新同步,因此,能够剔除检索库中已过期的向量,解决在海量数据的快插快查场景下服务稳定性以及服务性能问题。
图4为本公开的内容重复识别方法的另一些实施例的流程示意图。
在步骤410,将编码向量和对应的时间存储在存储设备中,其中,存储设备定时对存储的编码向量进行检测,删除已过期的编码向量。
在步骤420,接收各个节点的检索库在完成与存储设备进行数据同步重启后的反馈,其中,反馈包括检索库量级信息。
在一些实施例中,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步重启。
在一些实施例中,如图5所示,中控服务器接收到整体同步请求,通过定时调度程序,由中控服务器在每日的服务低峰期发起同步重启,各个节点的检索引擎1-n,加载当前节点对应的硬盘内所存储的所有向量。各节点加载完毕后,将同步结果反馈至中控服务器,完成同步重启,后续,各检索库可正常插入向量。
在一些实施例中,每个节点的检索库定时将检索库量级反馈至中控服务器,由中控服务器根据检索库量级平衡为原则,在对应的检索库中插入编码向量。
在上述实施例中,由于检索库不支持内容的删减,通过同步重启,将检索库中已过期的数据删除,降低了内存,能够解决动态时间区间向量检索库更新的问题。
图6为本公开的内容重复识别方法的另一些实施例的流程示意图。该实施例中,以文本为例进行介绍。
在步骤610,获取站内帖子内容,传递文本内容。
在一些实施例中,站内用户帖子产出内容,通过实时kafka消息流传递文本内容。
在步骤620,对文本内容进行编码。
在一些实施例中,文本内容通过模型完成编码,通过kafka发送编码消息流作为文本内容的表示。
在步骤630,分布式检索服务,查询与编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的文本。
例如,在检索库中寻找最相似的前10个样本,遍历10个样本,若编码相似度大于既定阈值,且最长公共子序列的长度除以query文本的长度占比大于0.5,则认为这些样本为相似文本。各个检索引擎将检索得到的结果都返回至中控服务器,中控服务器汇总所有结果后,进行下一步决策。
中控服务器将编码id进行取余,进而将编码插入到一个检索库中,或者随机将编码插入到一个检索库中。
在步骤640,在缓存中标记编码向量与匹配的文本的对应关系。
例如,在redis中写入每两个相似文本的对应关系。
在一些实施例中,删除缓存中过期的对应关系,避免缓存中存储过多的数据。
在步骤650,中控服务器发送重复标记。
例如,通过kafka消息发送相似标记。
在步骤660,业务侧完成去重、过滤等需求。
在一些实施例中,该实施例还包括步骤670和680。
在步骤670,服务重启同步,后续执行步骤680和步骤630。
例如,每日凌晨定时对中控服务发出重启请求。
在步骤680,删除过期数据,完成动态时间区间数据更新。
例如,重启前,检测各个节点硬盘内存储的向量日期是否过期,若过期则删除向量,之后完成各个节点的引擎重启,并将重启结果以及各个节点的检索库量级返回中控服务器。
在上述实施例中,结合编码相似度计算以及最长公共子序列计算,在分布式检索框架的支持下,达成动态时间区域内的海量文本内容查重,另外,由于定时进行检索库和硬盘的重启,能够解决动态时间区间向量检索库更新的问题,进而提高了快插快查场景下服务的稳定性。
图7为本公开的内容重复识别方法的另一些实施例的流程示意图。该实施例中,以文本为例进行介绍。
在步骤710,获取站内帖子内容,传递图像内容。
在一些实施例中,站内用户帖子产出内容,通过实时kafka消息流传递图像内容。
在步骤720,对图像内容进行编码。
在一些实施例中,图像内容通过模型完成编码,通过kafka发送编码消息流作为图像内容的表示。
在步骤730,分布式检索服务,查询与编码向量相似度大于阈值,并结合图像特征完成过滤,得到相似样本。
例如,在检索库中寻找最相似的前10个样本,遍历10个样本,若编码相似度大于既定阈值,在人像、截图等类别做出特殊处理,若不被过滤则算作相似图片。
在步骤740,在缓存中标记编码向量与匹配的图像的对应关系。
例如,在redis中写入每两个相似图像的对应关系。
在一些实施例中,删除缓存中过期的对应关系,避免缓存中存储过多的数据。
在步骤750,中控服务器发送重复标记。
例如,通过kafka消息发送相似标记。
在步骤760,业务侧完成去重、过滤等需求。
在一些实施例中,该实施例还包括步骤770和780。
在步骤770,服务重启同步,后续执行步骤780和步骤730。
例如,每日凌晨定时对中控服务发出重启请求。
在步骤780,删除过期数据,完成动态时间区间数据更新。
例如,重启前,检测各个节点硬盘内存储的向量日期是否过期,若过期则删除向量,之后完成各个节点的引擎重启,并将重启结果以及各个节点的检索库量级返回中控服务器。
在上述实施例中,结合编码相似度计算、图像特征分类等方法,在分布式检索框架的支持下,达成动态时间区域内的海量文本内容查重,另外,由于定时进行检索库和硬盘的重启,能够解决动态时间区间向量检索库更新的问题,进而提高了快插快查场景下服务的稳定性。
图8为本公开的内容重复识别装置的一些实施例的结构示意图,该装置包括获取模块810、查询模块820和插入模块830。该装置例如为中控服务器。
向量获取模块810被配置为获取内容对应的编码向量。
在一些实施例中,内容包括文本和图像中的至少一项。
在一些实施例中,通过模型获取文本或图像对应的编码向量。
查询模块820被配置为在分布式检索库中查询与编码向量匹配的样本,识别是否存在重复内容。
在一些实施例中,针对文本,在分布式检索库中,查询与编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的样本。
在一些实施例中,针对图像,对图像做特征分类处理;在图像为预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第三阈值的样本;以及在图像为非预定类别的情况下,在分布式检索库中,查询与编码向量相似度大于第四阈值的样本,其中,第四阈值小于第三阈值。
插入模块830被配置为将编码向量插入到一个节点的检索库以及存储在存储设备中,存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。
在一些实施例中,插入模块830以多个节点的检索库量级平衡为目标,将编码向量插入到一个节点的检索库。
在一些实施例中,插入模块830将编码向量和对应的时间存储在存储设备中,其中,存储设备定时对存储的编码向量进行检测,删除已过期的编码向量。
在一些实施例中,如图9所示,该装置还包括同步重启模块910,被配置为接收各个节点的检索库在完成与存储设备进行数据同步重启后的反馈,其中,反馈包括检索库量级信息。
在一些实施例中,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步重启。
在一些实施例中,如图9所示,该装置还包括关系标记模块920,被配置为在存在与编码向量匹配的样本的情况下,在缓存中标记编码向量与匹配的样本的对应关系。
在上述实施例中,在分布式检索框架下,检索到与编码向量重复的向量,并且,将编码向量插入到检索库中并将该编码向量存储在存储设备中,便于后续检索,由于存储设备定时删除已过期数据,并定时更新检索库中的向量,解决了动态时间区间向量检索库更新的问题。
在一些实施例中,该装置还包括反馈模块930,被配置为在存在与编码向量匹配的样本的情况下,向业务侧反馈重复标记。避免在业务侧发布大量重复内容,影响客户体验。
图10为本公开的内容重复识别装置的另一些实施例的结构示意图,该装置1000包括存储器1010和处理器1020。其中:存储器1010可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上述实施例中的指令。处理器1020耦接至存储器1010,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器1020用于执行存储器中存储的指令。
在一些实施例中,处理器1020通过BUS总线1030耦合至存储器1010。该装置1000还可以通过存储接口1040连接至外部存储系统1050以便调用外部数据,还可以通过网络接口1060连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,在实现内容查重的同时,解决了动态时间区间向量检索库更新的问题,并且,能够提高服务的稳定性。
在本公开的一些实施例中,还包括一种内容重复识别系统,该系统包括上述实施例中的内容重复识别装置,还包括分布式检索库和存储设备。
分布式检索库被配置为根据存储设备内存储的数据进行同步。例如,每天凌晨与对应的存储设备上的数据进行同步,去除已过期的向量,从而能够避免检索库因信息过大而崩溃。
存储设备被配置为定时对存储的编码向量进行检测,删除已过期的编码向量。便于分布式检索库的动态更新。
在一些实施例中,每个节点对应一个存储设备,在更新每个节点的检索库时,直接将该节点对应的存储设备中的编码向量同步至对应的检索库。
在一些实施例中,多个节点共用一个存储设备,例如,一个存储设备包括多个存储区域,每个存储区域对应一个节点标识,根据节点标识,将预定存储区域的编码向量同步至对应的检索库。
在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (10)

1.一种内容重复识别方法,包括:
获取内容对应的编码向量;
在分布式检索库中查询与所述编码向量匹配的样本,识别是否存在重复内容;以及
将所述编码向量插入到一个节点的检索库以及存储在存储设备中,其中,所述存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。
2.根据权利要求1所述的内容重复识别方法,还包括:
将所述编码向量和对应的时间存储在所述存储设备中,其中,所述存储设备定时对存储的编码向量进行检测,删除已过期的编码向量;和/或
接收各个节点的检索库在完成与所述存储设备进行数据同步重启后的反馈,其中,所述反馈包括检索库量级信息。
3.根据权利要求1所述的内容重复识别方法,其中,将所述编码向量插入到一个节点的检索库包括:
以多个节点的检索库量级平衡为目标,将所述编码向量插入到一个节点的检索库。
4.根据权利要求1所述的内容重复识别方法,还包括:
在存在与所述编码向量匹配的样本的情况下,在缓存中标记所述编码向量与所述匹配的样本的对应关系。
5.根据权利要求1至4任一所述的内容重复识别方法,其中,在分布式检索库中查询与所述编码向量匹配的样本包括:
在所述内容为文本的情况下,在分布式检索库中,查询与所述编码向量相似度大于第一阈值,且最长公共子序列的长度占比大于第二阈值的样本;和/或
在所述内容为图像的情况下,对所述图像做特征分类处理;
在所述图像为预定类别的情况下,在分布式检索库中,查询与所述编码向量相似度大于第三阈值的样本;以及
在所述图像为非预定类别的情况下,在分布式检索库中,查询与所述编码向量相似度大于第四阈值的样本,其中,所述第四阈值小于所述第三阈值。
6.根据权利要求1至4任一所述的内容重复识别方法,还包括:
在存在与所述编码向量匹配的样本的情况下,向业务侧反馈重复标记。
7.一种内容重复识别装置,包括:
获取模块,被配置为获取内容对应的编码向量;
查询模块,被配置为在分布式检索库中查询与所述编码向量匹配的样本,识别是否存在重复内容;以及
插入模块,被配置为将所述编码向量插入到一个节点的检索库以及存储在存储设备中,所述存储设备存储预定时间内的数据,每个节点的检索库定时根据相应节点对应的存储设备内存储的数据进行同步。
8.一种内容重复识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的内容重复识别方法。
9.一种内容重复识别系统,包括:
权利要求7或8所述的内容重复识别装置;
分布式检索库,被配置为根据存储设备内存储的数据进行同步;以及
存储设备,被配置为定时对存储的编码向量进行检测,删除已过期的编码向量。
10.一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至7任一项所述的内容重复识别方法。
CN202310521997.4A 2023-05-09 2023-05-09 内容重复识别方法、装置、系统和存储介质 Active CN116595065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310521997.4A CN116595065B (zh) 2023-05-09 2023-05-09 内容重复识别方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310521997.4A CN116595065B (zh) 2023-05-09 2023-05-09 内容重复识别方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
CN116595065A true CN116595065A (zh) 2023-08-15
CN116595065B CN116595065B (zh) 2024-04-02

Family

ID=87598458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310521997.4A Active CN116595065B (zh) 2023-05-09 2023-05-09 内容重复识别方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN116595065B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218441A (zh) * 2013-04-22 2013-07-24 北京邮电大学 一种基于内容和反馈的图像检索方法
CN112364080A (zh) * 2020-11-13 2021-02-12 武汉长江通信智联技术有限公司 一种面向海量向量库的快速检索系统及方法
CN112527948A (zh) * 2020-12-08 2021-03-19 上海大智慧财汇数据科技有限公司 基于句子级索引的数据实时去重方法及系统
US20210224264A1 (en) * 2020-01-17 2021-07-22 nference, inc. Systems and methods for mapping a term to a vector representation in a semantic space
CN114529741A (zh) * 2022-02-18 2022-05-24 飞书深诺数字科技(上海)股份有限公司 一种图片去重方法、装置及电子设备
CN114996484A (zh) * 2022-06-10 2022-09-02 瀚博半导体(上海)有限公司 数据检索方法和装置、数据处理方法和装置、设备及介质
CN115455083A (zh) * 2022-09-20 2022-12-09 上海太美数字科技有限公司 查重方法、装置、电子设备及计算机存储介质
CN115544033A (zh) * 2022-09-14 2022-12-30 北京海泰方圆科技股份有限公司 查重向量库更新、数据查重方法、装置、设备和介质
CN115730116A (zh) * 2021-08-31 2023-03-03 华为技术有限公司 一种数据检索方法及相关设备
CN116010669A (zh) * 2023-01-18 2023-04-25 深存科技(无锡)有限公司 向量库重训练的触发方法、装置、检索服务器及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218441A (zh) * 2013-04-22 2013-07-24 北京邮电大学 一种基于内容和反馈的图像检索方法
US20210224264A1 (en) * 2020-01-17 2021-07-22 nference, inc. Systems and methods for mapping a term to a vector representation in a semantic space
CN112364080A (zh) * 2020-11-13 2021-02-12 武汉长江通信智联技术有限公司 一种面向海量向量库的快速检索系统及方法
CN112527948A (zh) * 2020-12-08 2021-03-19 上海大智慧财汇数据科技有限公司 基于句子级索引的数据实时去重方法及系统
CN115730116A (zh) * 2021-08-31 2023-03-03 华为技术有限公司 一种数据检索方法及相关设备
CN114529741A (zh) * 2022-02-18 2022-05-24 飞书深诺数字科技(上海)股份有限公司 一种图片去重方法、装置及电子设备
CN114996484A (zh) * 2022-06-10 2022-09-02 瀚博半导体(上海)有限公司 数据检索方法和装置、数据处理方法和装置、设备及介质
CN115544033A (zh) * 2022-09-14 2022-12-30 北京海泰方圆科技股份有限公司 查重向量库更新、数据查重方法、装置、设备和介质
CN115455083A (zh) * 2022-09-20 2022-12-09 上海太美数字科技有限公司 查重方法、装置、电子设备及计算机存储介质
CN116010669A (zh) * 2023-01-18 2023-04-25 深存科技(无锡)有限公司 向量库重训练的触发方法、装置、检索服务器及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李超;陈世强;谢坤武;向军;: "实时Web内容重复识别及排序系统的设计与实现", 计算机工程与设计, no. 03, 16 March 2011 (2011-03-16) *

Also Published As

Publication number Publication date
CN116595065B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN109684333B (zh) 一种数据存储及裁剪方法、设备和存储介质
US9792340B2 (en) Identifying data items
US11349680B2 (en) Method and apparatus for pushing information based on artificial intelligence
US8140495B2 (en) Asynchronous database index maintenance
CN111506771B (zh) 一种视频检索方法、装置、设备及存储介质
US20140351273A1 (en) System and method for searching information
CN108334514B (zh) 数据的索引方法以及装置
CN105373541A (zh) 数据库的数据操作请求的处理方法和系统
CN110515895B (zh) 大数据存储系统中对数据文件进行关联存储的方法及系统
CN106161193B (zh) 一种邮件处理方法、装置和系统
CN110597630A (zh) 一种分布式系统中内容资源的处理方法及系统
CN111737443A (zh) 答案文本的处理方法和装置、关键文本的确定方法
CN106407288B (zh) 一种信息同步更新的方法及系统
CN116595065B (zh) 内容重复识别方法、装置、系统和存储介质
CN111382180B (zh) 一种本地缓存的数据清除方法和装置
CN111046246B (zh) 标签更新方法及装置、分布式存储系统
JP2004151855A (ja) 電子文書検索システム
CN112148920A (zh) 数据管理方法
CN111046077A (zh) 数据的获取方法及装置、存储介质、终端
CN106682197B (zh) 一种搜索缓存更新方法及装置
CN107169065B (zh) 一种特定内容的去除方法和装置
CN107070987B (zh) 用于分布式对象存储系统的数据获取方法及系统
US20130110807A1 (en) Intranet search, search engine and terminal equipment
CN111143582B (zh) 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN110929002B (zh) 相似文章去重的方法、装置、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant