CN116340551A - 一种相似内容确定方法和装置 - Google Patents

一种相似内容确定方法和装置 Download PDF

Info

Publication number
CN116340551A
CN116340551A CN202211649784.1A CN202211649784A CN116340551A CN 116340551 A CN116340551 A CN 116340551A CN 202211649784 A CN202211649784 A CN 202211649784A CN 116340551 A CN116340551 A CN 116340551A
Authority
CN
China
Prior art keywords
content
target
candidate
similar
candidate similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211649784.1A
Other languages
English (en)
Inventor
郝锟鹏
庞锋
贾遂宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202211649784.1A priority Critical patent/CN116340551A/zh
Publication of CN116340551A publication Critical patent/CN116340551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种相似内容确定方法,包括:按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容。

Description

一种相似内容确定方法和装置
技术领域
本发明涉及搜索领域,尤其涉及一种相似内容确定方法和装置。
背景技术
目前主流相似计算技术多基于视频相似、文本相似、图片相似等单维度计算,在所有候选集中仅考察目标维度是否存在相似内容,若无则判断为非重复物料;
现有技术中,也存在部分多媒体内容相似计算技术,但也仅是基于图文维度,图、文分别进行相似度计算,对图片对相似判断设定阈值,相似图片对达到一定数量才认定为图片内容相似,而后再考虑文本内容相似性,视频内容则单独进行相似判断。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
在进行内容相似计算时,将各相似维度单独计算相似度并单独进行相似判断导致误判率高的问题。
发明内容
本发明实施例提供一种相似内容确定方法和装置,也是一种基于多模态相似内容确定方法和装置,解决了在进行内容相似计算时,将各相似维度单独计算相似度并单独进行相似判断导致误判率高的问题。
为达上述目的,一方面,本发明实施例提供一种相似内容确定方法,包括:
按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;
针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;
根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;
根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容;
其中,所述候选相似内容集合包括至少一个候选相似内容;按所述内容类别从每个候选相似内容中获取每种内容类别各自对应的至少一个候选相似子内容,针对每个候选相似内容的每种内容类别,将所述内容类别所对应的至少一个候选相似子内容向量化,得到所述内容类别对应的至少一个候选相似子内容向量。
另一方面,本发明实施例提供一种相似内容确定装置,包括:
目标子内容获取单元,用于按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;
目标子内容向量化单元,用于针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;
多模态相似度确定单元,用于根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;
相似内容确定单元,用于根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容;
其中,所述候选相似内容集合包括至少一个候选相似内容;按所述内容类别从每个候选相似内容中获取每种内容类别各自对应的至少一个候选相似子内容,针对每个候选相似内容的每种内容类别,将所述内容类别所对应的至少一个候选相似子内容向量化,得到所述内容类别对应的至少一个候选相似子内容向量。
上述技术方案具有如下有益效果:通过分别计算各候选相似内容与目标内容的多模态相似度,进一步确定目标内容的相似内容,实现了将多个相似维度结合确定相似内容,避免依据多个相似维度单独与各维度的预设阈值依次比较确定相似内容,从而显著降低了相似内容分析的误判率;具体地,通过分别计算各候选相似内容与目标内容在各内容类别对应的相似得分,并综合候选相似内容的各内容类别对应的相似得分得出每个候选相似内容的整体相似度,并根据整体相似度确定目标内容的相似内容,实现了将多个相似维度结合得到整体相似度进而确定相似内容,避免依据多个相似维度单独与各维度的预设阈值依次比较确定相似内容。本申请使用综合的整体相似度显著降低了相似内容分析的误判率。具体地,本申请通过结合文本、图片、视频相结合得到整体相似度,从而充分体现了文本、图片、视频内容所记载的信息之间的相关关系,依据由此得到的整体相似度识别相似内容显著降低了误判率。进一步地,在进行相似性判断前,通过对候选内容进行过滤得到候选相似内容,显著减少相似性比较的工作量,提高识别相似内容的效率。进一步地,通过限制候选内容的时效性,使用最近一段时间内的目标内容作为候选内容,从而达到能自适应随时间或社会流行趋势变化的目标内容的相似内容识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例之一的一种相似内容确定方法的流程图;
图2是本发明实施例之一的一种相似内容确定装置的架构图;
图3是本发明实施例之一的一种相似内容确定方法的另一流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
名词解释:
文本生成模型,采用BERT模型,基于谷歌2017年发布的Transformer架构,通过联合调节所有层中的双向Transformer来训练预训练深度双向表示。它由对Transformer的编码器进行堆叠而成。每个编码器都包含了两个子层,第一个子层是多头注意力层,可以在对某个特定字进行编码时,也可以注意到其它字;第二个子层则是前向反馈层。
图片向量生成模型,采用对比学习技术,通过对原始图像进行增强得到正样本对,通过infoNCE loss进行对比学习,得到128维向量。
视频向量生成模型,对视频进行解码抽帧得到图像序列,对序列进行均分切割得到片段,对与每一个片段采用对比学习抽取128维向量。
Faiss相似性搜索库,是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。
发明人针对现有技术进行分析,发现了现有技术的如下问题:
现有技术针对多图内容判断相似性时,由于先判断各图片组相似度是否达到阈值,再判断相似图片组是否达到所需数量。两个预设值的存在导致在部分图片组相似度临近但未达到阈值的多图内容被误判为不相似;
现有技术在针对视频内容判断相似性时,往往只考虑视频本身,忽略了视频标题、配文中的信息量。当视频的标题、配文含有一定信息量时,文本与视频内容一致、多张含有视频关键帧截图的图文内容和该视频内容的信息量差异几乎可以忽略。现有技术因为缺乏对视频内容文本的处理所以无法针对上述情况判断两类内容相似性;
现有技术在判断目标内容是否重复时往往需要将目标内容与候选集内容进行对比计算,而候选集存在大小与资源利用率的取舍——候选集过大,在非重复内容上浪费过多计算量,同时降低了相似内容的检索效率;候选集过小则无法包含相应相似内容的概率会增大。同时,由于相似性判断基于一对一的限制,无法对大量的重复内容的情况进行较好的聚类、统一。
针对发明人发现的上述问题,发明人提出了本发明技术方案。
以下对本发明实施例进行说明:
一方面,如图1所示,本发明实施例提供一种相似内容确定方法,包括:
步骤S11:按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;
步骤S12:针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;
步骤S13:根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;
步骤S14:根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容;
其中,所述候选相似内容集合包括至少一个候选相似内容;按所述内容类别从每个候选相似内容中获取每种内容类别各自对应的至少一个候选相似子内容,针对每个候选相似内容的每种内容类别,将所述内容类别所对应的至少一个候选相似子内容向量化,得到所述内容类别对应的至少一个候选相似子内容向量。
在一些实施例中,当前接收到即将被本发明实施例处理的内容作为目标内容;在本次处理之前的历史上已经处理过的确定了相似内容的目标内容是历史目标内容,候选相似内容集合中的候选相似内容可以根据项目需要预先构建,例如各种媒体内容或者广告商发布的广告内容,还可以来自历史目标内容;目标内容的内容类别可以依据目标内容的具体特征以及具体的相似内容识别需求建立分类的规则。从目标内容中获取分别属于各内容类别的目标子内容。不同内容类别的目标子内容可以使用相同或不同的向量化方法进行向量化。候选相似内容根据与目标内容相同的内容类别获取候选相似子内容;并且候选相似内容的各内容类别包含的候选相似子内容也使用与目标内容的同一内容类别相同的向量化方法进行向量化,从而得到候选相似内容的各内容类别包含的候选相似子内容对应的候选相似子内容向量。在确定了目标内容的相似内容后,根据确定得到的目标内容以及其相似内容确定向用户展示的内容以及目标内容和相似内容向用户展示的频次。例如当目标内容存在相似内容,则由于在具体的应用中,相似内容可能已经被展示过,设置有多个相似内容被展示过,此时由于目标内容的多个相似内容展示的总次数达到了预设的相似展示次数,本次将不再展示目标内容。
本发明实施例具有如下技术效果:通过分别计算各候选相似内容与目标内容的由内容类别对应的多模态相似度,进一步确定目标内容的相似内容,实现了将多个相似维度结合确定相似内容,避免依据多个相似维度单独与各维度的预设阈值依次比较确定相似内容,从而显著降低了相似内容分析的误判率。
进一步地,所述内容类别包括:文本、图片、视频;
所述针对每种内容类别,将所述内容类别所包含的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量,包括:
在所述目标内容包括文本的情况下,将所述目标内容中的全部文本向量化为对应的目标文本向量;
在所述目标内容包括图片情况下,将所述目标内容中的至少一个图片分别对应向量化为至少一个目标图片向量;
在所述目标内容包括视频情况下,将所述目标内容中的视频向量化为对应的目标视频片段向量序列;
其中,所述目标子内容向量包括:目标文本向量、目标图片向量、和/或目标视频片段向量序列。
在一些实施例中,将目标内容按文本、图片和/或视频进行分类;目标内容由文本、图片和/或视频中的一种、两种或多种任意组合构成;目标内容中的全部文本作为一个整体,并且将文本向量化为目标文本向量;目标内容中的每个图片分别对应向量化为对应的目标图片向量;目标内容中的视频按预设视频时间长度进行分段得到至少一个视频片段,分别对每个视频片段进行向量化得到对应的目标视频片段向量,按各视频片段在原视频中的顺序将目标视频片段向量构成目标视频片段向量序列。向量化的方法有很多,包括但不限于利用BERT模型、图片向量生成模型、视频向量生成模型,对目标内容(如一条仅包含文本内容的微博、一条含有多张图片及文本内容的微博或者一条含有视频内容及文本内容的微博等)的文本、全部图片、全部视频片段分别生成对应数量的向量。
本发明实施例具有如下技术效果:通过结合文本、图片、视频相结合得到候选相似内容与目标内容之间的多模态相似度,从而充分体现了文本、图片、视频内容所记载的信息之间的相关关系,显著降低了误判率。
进一步地,所述根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度,包括:
针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分;
将所述候选相似内容的所有内容类别各自对应的相似得分作为所述候选相似内容与所述目标内容之间的多模态相似度。
在一些实施例中,具体地,通过候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量之间的距离来衡量候选相似内容的所述内容类别对应的相似得分,从而确定了该候选相似内容在各内容类别上相对于目标内容的相似的分;对于候选相似内容集合中的所有候选相似内容,都得到每个后选相似内容在各自内容类别上相对于目标内容的相似的分,从而可以得到每个候选相似内容与目标内容之间的多模态相似度。
进一步地,所述针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分,包括:
根据所述目标内容中的全部文本的文本属性生成文本置信参数;
针对每个候选相似内容,将所述目标文本向量与所述候选相似内容的全部文本对应的候选相似文本向量的距离作为文本向量距离,并且将所述文本向量距离与所述文本置信参数的乘积作为所述候选相似内容和所述目标内容中的文本对应的相似得分;
其中,所述候选相似文本向量是通过对所述候选相似内容中的全部文本向量化后得到的向量。优选地,所述候选相似文本向量是所述候选相似内容对应的历史目标内容中的全部文本对应的目标文本向量。
在一些实施例中,文本属性包括但不限于文本所属领域和/或文本长度等,可以根据目标内容所属领域对文本内容要求的严格或宽松确定文本置信参数,领域要求的越严,文本长度越长,距离计算越不准确,文本置信参数越大;例如在新闻领域中几百字的文本新闻,其主要内容在文本上,则置信参数设置为2,其他领域可能是1;再例如,如果文本长度小于60字符,文本置信参数为0.5,如果文本长度小于100字符,文本置信参数为1,如果文本长度大于100字符,则文本置信参数为2。文本置信参数的具体数值可以通过对收集到的历史数据的调试或拟合得到。候选相似内容的文本对应的相似文本向量使用与相似目标内容的文本相同的向量化方法得到。每个具有文本内容的候选相似内容都对应得到文本对应的相似得分。
本发明实施例具有如下技术效果:通过文本置信参数有针对性的根据应用场景对相似文本向量与目标文本向量的距离计算结果进行调整,使文本对应的相似得分更准确。
进一步地,所述针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分,包括:
针对每个候选相似内容,针对所述目标内容中的每张图片对应的目标图片向量,计算所述目标图片向量与所述候选相似内容中的每张图片对应的候选相似图片向量的距离,并选择计算得到的距离中的最小距离作为所述目标图片向量对应的目标图片距离初值,并根据所述目标图片向量所对应图片的图片属性生成所述目标图片向量对应的第一图片置信参数,使用所述目标图片距离初值与所述第一图片置信参数的乘积作为所述目标图片向量对应的目标图片距离;
针对每个候选相似内容,针对所述候选相似内容中的每张图片对应的候选相似图片向量,计算所述候选相似图片向量与所述目标内容中的每张图片对应的目标图片向量的距离,并选择计算得到的距离中的最小距离作为所述候选相似图片向量对应的候选相似图片距离初值,并根据所述最小距离所对应的所述目标内容中的图片的图片属性生成第二图片置信参数,使用所述候选相似图片距离初值与所述第二图片置信参数的乘积作为所述候选相似图片向量对应的候选相似图片距离;
针对每个候选相似内容,根据所述目标内容的图片数与所述候选相似内容的图片数确定数量差异参数;
针对每个候选相似内容,根据以下公式(1)计算所述候选相似内容的所有图片整体对应的相似得分:
Figure BDA0004009889250000081
其中:pic_score为候选相似内容的所有图片整体对应的相似得分;paramnum为数量差异参数;pic_disi为目标内容中的第i个图片对应的目标图片向量对应的目标图片距离;n为目标内容中的图片数;recall_pic_disj为候选相似内容中的第j个图片对应的候选相似图片向量对应的候选相似图片距离;m为候选相似内容中的图片数;
其中,所述候选相似内容中的每张图片对应的候选相似图片向量是通过将所述候选相似内容中的所述图片对应向量化得到的向量;优选地,所述候选相似图片向量是所述候选相似内容对应的历史目标内容中的图片对应的目标图片向量。
进一步地,所述针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分,包括:
针对每个候选相似内容中的视频对应的候选相似视频片段向量序列,计算所述候选相似视频片段向量序列中的每段候选相似视频片段向量与所述目标内容中的视频对应的目标视频片段向量序列中的每段目标视频片段向量的距离;并且,
从计算得到的距离中选择大于或等于视频片段相似阈值的距离对应的目标视频片段向量作为相似片段,选择所述目标内容对应的最长的连续的相似片段作为所述候选相似内容对应的相似主体;并且,
以所述候选相似内容对应的相似主体中的目标视频片段向量对应的所述计算得到的距离中的最大值作为所述候选相似内容中的视频的相似得分;
其中,所述候选相似内容中的视频对应的候选相似视频片段向量序列是通过将所述候选相似内容中的视频向量化得到的视频片段向量序列;优选地,所述候选相似视频片段向量序列是所述候选相似内容对应的历史目标内容中的视频对应的目标视频片段向量序列。
进一步地,所述根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容,包括:
针对每个候选相似内容,将所述候选相似内容的所有内容类别各自对应的相似得分加权求和,得到所述候选相似内容的整体相似度;
根据每个所述候选相似内容的整体相似度与预设相似度阈值确定所述目标内容的相似内容。
在一些实施例中,综合考虑各内容类别各自对应的相似得分,具体地,针对每个候选相似内容,将所述候选相似内容的文本对应的相似得分、图片对应的相似得分和/或视频对应的相似得分经加权求和并经偏置后得到所述候选相似内容的整体相似度。整体相似度从整体上反映了候选相似内容与目标内容的相似程度,通过设定预设相似度阈值选择出于目标内容最相近的一个或多个候选项相似内容作为目标内容的相似内容。各相似得分对应的权值可以根据对具体行业的历史数据的分析确定或者通过具体行业的历史数据构建训练数据集经过训练拟合得到以通过具体行业的数据得到能体现具体行业的偏向的权值。例如在微博中可能更关注文本从而使文本的权重更大、在广告中可能更关注图片和视频从而使图片和视频的权重更大、在新闻中可能更关注文本和视频从而是文本和视频的权重更大等等;综合考虑各内容类别各自对应的相似得分并且通过权值控制各内容类别的权重,提高相似内容确定的准确性。
进一步地,所述根据每个所述候选相似内容的整体相似度与预设相似度阈值确定所述目标内容的相似内容,包括:
如果所有候选相似内容中存在相应的整体相似度小于预设相似度阈值的候选相似内容,则将整体相似度小于预设相似度阈值的候选相似内容作为初选相似内容;并且将初选相似内容中相应的整体相似度最小的候选相似内容作为所述目标内容的相似内容;否则,
将所述目标内容自身设置为所述目标内容的相似内容。
进一步地,所述目标内容和所述候选相似内容都具有自身id和相似特征id属性;
所述将初选相似内容中相应的整体相似度最小的候选相似内容作为所述目标内容的相似内容,包括:
将初选相似内容中相应的整体相似度最小的候选相似内容的相似特征id赋值给所述目标内容的相似特征id;
所述将所述目标内容自身设置为所述目标内容的相似内容,包括:
将所述目标内容的自身id赋值给所述目标内容的相似特征id。
在一些实施例中,通过目标内容的相似特征id设置为与其内容相似的候选相似内容的相似特征id或其自身id,可以实现所有具有相似内容的候选相似内容和目标内容都具有相同的相似特征id,从而可以根据相似特征id找出所有具有相似内容的候选相似内容和目标内容,可以根据指定相似特征id快速地从所有历史目标内容中检索出的指定相似特征id对应的全部相似内容。
进一步地,所述候选相似内容集合的生成方法,包括:
将候选内容集合中的所有候选内容的同一内容类别对应的所有候选子内容对应的所有候选子内容向量,设置为所述内容类别对应的候选子内容向量集合;
针对每种内容类别对应的候选子内容向量集合,利用Faiss对所述内容类别对应的候选子内容向量集合进行聚类得到所述内容类别对应的候选子内容向量集合的至少一个聚类中心;
针对所述目标内容的每种内容类别对应的至少一个目标子内容向量,计算所述目标子内容向量与同一所述内容类别对应的候选子内容向量集合的至少一个聚类中心中的每个聚类中心的距离值,并选取距离值最小的K个聚类中心作为所述目标子内容向量对应的K个聚类中心;并且,
针对所述目标子内容向量对应的K个聚类中心中的每个聚类中心,计算所述聚类中心对应的聚类中每个候选子内容向量与所述目标子内容向量的距离,将计算得到的距离中符合指定召回条件的距离对应的所述候选子内容向量对应的候选内容作为候选相似内容;
其中,所述候选内容为已确定相似内容的历史目标内容;所述候选内容的每种内容类别对应的至少一个候选子内容向量为历史目标内容的同一内容类别对应的至少一个目标子内容向量;
所述内容类别对应的候选子内容向量集合由所有候选内容的同一所述内容类别对应的所有候选子内容各自对应的候选子内容向量构成。
在一些实施例中,聚类中心的生成由Faiss参照kmeans聚类算法来生成。例如1000个候选图片向量,设定生成总共100个聚类中心,设定选择其中与目标图片向量距离最近的10个聚类中心,10即为K,K数值的确定取决于检索效率与检索效果的权衡,但K一定小于等于总聚类中心数,总聚类中心数一定小于等于候选图片向量数;并且在选取针对每个目标子内容向量各自对应的K个聚类中心的过程中,各目标子内容向量相互之间没有影响,例如目标内容下有2个图片,每个图片都单独去确定自己对应的K个聚类中心,比如图片1和100个聚类中心去计算,找到图片1对应的最近的K个聚类中心;图片2和100个聚类中心去计算,找到图片2对应的最近的K个聚类中心,目标图片之间不互相影响
随着时间流逝,会积累大量的历史目标内容从而构成了庞大的候选内容集合,通过确定与目标内容最相关的聚类,并进一步从最相关的聚类中确定最相关的候选相似内容,可以在保证比较精度的情况下显著缩小进行相似内容比较的次数,提高效率。
进一步地,所述方法还包括:
将确定了相似内容的所述目标内容作为候选内容加入所述候选内容集合;
将所述候选内容集合中距离当前时间超过预设时间长度的候选内容从所述候选内容集合中移除。
在一些实施例中,按最近时间的预设时间长度更新候选内容,在某些内容存在变化趋势的场景中,例如微博中的某些热点话题的变化等,可以使候选内容跟随最新的趋势。
另一方面,如图2所示,本身发明实施例提供一种相似内容确定装置,包括:
目标子内容获取单元21,用于按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;
目标子内容向量化单元22,用于针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;
多模态相似度确定单元23,用于根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;
相似内容确定单元24,用于根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容;
其中,所述候选相似内容集合包括至少一个候选相似内容;按所述内容类别从每个候选相似内容中获取每种内容类别各自对应的至少一个候选相似子内容,针对每个候选相似内容的每种内容类别,将所述内容类别所对应的至少一个候选相似子内容向量化,得到所述内容类别对应的至少一个候选相似子内容向量。
进一步地,所述内容类别包括:文本、图片、视频;
所述目标子内容向量化单元22,包括:
文本向量化模块,用于在所述目标内容包括文本的情况下,将所述目标内容中的全部文本向量化为对应的目标文本向量;
图片向量化模块,用于在所述目标内容包括图片情况下,将所述目标内容中的至少一个图片分别对应向量化为至少一个目标图片向量;和/或,
视频向量化模块,用于在所述目标内容包括视频情况下,将所述目标内容中的视频向量化为对应的目标视频片段向量序列;
其中,所述目标子内容向量包括:目标文本向量、目标图片向量、和/或目标视频片段向量序列。
进一步地,所述多模态相似度确定单元23,包括:
相似得分确定模块,用于针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分;
多模态相似度确定模块,用于将所述候选相似内容的所有内容类别各自对应的相似得分作为所述候选相似内容与所述目标内容之间的多模态相似度。
进一步地,所述相似得分确定模块,包括:
文本置信参数生成模块,用于根据所述目标内容中的全部文本的文本属性生成文本置信参数;
文本相似得分计算模块,用于针对每个候选相似内容,将所述目标文本向量与所述候选相似内容的全部文本对应的候选相似文本向量的距离作为文本向量距离,并且将所述文本向量距离与所述文本置信参数的乘积作为所述候选相似内容和所述目标内容中的文本对应的相似得分;
其中,所述候选相似文本向量是通过对所述候选相似内容中的全部文本向量化后得到的向量,优选地所述候选相似文本向量是所述候选相似内容对应的历史目标内容中的全部文本对应的目标文本向量。
进一步地,所述相似得分确定模块,包括:
目标图片距离计算模块,用于针对每个候选相似内容,针对所述目标内容中的每张图片对应的目标图片向量,计算所述目标图片向量与所述候选相似内容中的每张图片对应的候选相似图片向量的距离,并选择计算得到的距离中的最小距离作为所述目标图片向量对应的目标图片距离初值,并根据所述目标图片向量所对应图片的图片属性生成所述目标图片向量对应的第一图片置信参数,使用所述目标图片距离初值与所述第一图片置信参数的乘积作为所述目标图片向量对应的目标图片距离;
候选相似图片距离计算模块,用于针对每个候选相似内容,针对所述候选相似内容中的每张图片对应的候选相似图片向量,计算所述候选相似图片向量与所述目标内容中的每张图片对应的目标图片向量的距离,并选择计算得到的距离中的最小距离作为所述候选相似图片向量对应的候选相似图片距离初值,并根据所述最小距离所对应的所述目标内容中的图片的图片属性生成第二图片置信参数,使用所述候选相似图片距离初值与所述第二图片置信参数的乘积作为所述候选相似图片向量对应的候选相似图片距离;
数量差异参数确定模块,用于针对每个候选相似内容,根据所述目标内容的图片数与所述候选相似内容的图片数确定数量差异参数;
图片得分计算模块,用于针对每个候选相似内容,根据以下公式(1)计算所述候选相似内容的所有图片整体对应的相似得分;
其中,所述候选相似内容中的每张图片对应的候选相似图片向量是通过将所述候选相似内容中的所述图片对应向量化得到的向量;优选地,所述候选相似图片向量是所述候选相似内容对应的历史目标内容中的图片对应的目标图片向量。
进一步地,所述相似得分确定模块,包括:
视频片段距离计算模块,用于针对每个候选相似内容中的视频对应的候选相似视频片段向量序列,计算所述候选相似视频片段向量序列中的每段候选相似视频片段向量与所述目标内容中的视频对应的目标视频片段向量序列中的每段目标视频片段向量的距离;并且,
相似主体确定模块,用于从计算得到的距离中选择大于或等于视频片段相似阈值的距离对应的目标视频片段向量作为相似片段,选择所述目标内容对应的最长的连续的相似片段作为所述候选相似内容对应的相似主体;并且,
视频得分确定模块,用于以所述候选相似内容对应的相似主体中的目标视频片段向量对应的所述计算得到的距离中的最大值作为所述候选相似内容中的视频的相似得分;
其中,所述候选相似内容中的视频对应的候选相似视频片段向量序列是通过将所述候选相似内容中的视频向量化得到的视频片段向量序列;优选地,所述候选相似视频片段向量序列是所述候选相似内容对应的历史目标内容中的视频对应的目标视频片段向量序列。
进一步地,所述相似内容确定单元24,包括:
整体相似度确定模块,用于针对每个候选相似内容,将所述候选相似内容的所有内容类别各自对应的相似得分加权求和,得到所述候选相似内容的整体相似度;
相似度比较确定相似内容模块,用于根据每个所述候选相似内容的整体相似度与预设相似度阈值确定所述目标内容的相似内容。
进一步地,所述相似度比较确定相似内容模块,包括:
整理相似度比较模块,用于如果所有候选相似内容中存在相应的整体相似度小于预设相似度阈值的候选相似内容,则触发第一相似内容确定模块,否则触发第二相似内容确定模块;
所述第一相似内容确定模块,用于将整体相似度小于预设相似度阈值的候选相似内容作为初选相似内容;并且将初选相似内容中相应的整体相似度最小的候选相似内容作为所述目标内容的相似内容;
所述第二相似内容确定模块,用于将所述目标内容自身设置为所述目标内容的相似内容。
进一步地,所述目标内容和所述候选相似内容都具有自身id和相似特征id属性;
所述第一相似内容确定模块,还用于将初选相似内容中相应的整体相似度最小的候选相似内容的相似特征id赋值给所述目标内容的相似特征id;
所述第二相似内容确定模块,还用于将所述目标内容的自身id赋值给所述目标内容的相似特征id。
进一步地,所述装置还包括:候选相似内容集合生成单元;
所述候选相似内容集合生成单元,包括:
候选子内容向量集合生成模块,用于将候选内容集合中的所有候选内容的同一内容类别对应的所有候选子内容对应的所有候选子内容向量,设置为所述内容类别对应的候选子内容向量集合;
聚类中心确定模块,用于针对每种内容类别对应的候选子内容向量集合,利用Faiss对所述内容类别对应的候选子内容向量集合进行聚类得到所述内容类别对应的候选子内容向量集合的至少一个聚类中心;
聚类中心选择模块,用于针对所述目标内容的每种内容类别对应的至少一个目标子内容向量,计算所述目标子内容向量与同一所述内容类别对应的候选子内容向量集合的至少一个聚类中心中的每个聚类中心的距离值,并选取距离值最小的K个聚类中心作为所述目标子内容向量对应的K个聚类中心;并且,
候选相似内容确定模块,用于针对所述目标子内容向量对应的K个聚类中心中的每个聚类中心,计算所述聚类中心对应的聚类中每个候选子内容向量与所述目标子内容向量的距离,将计算得到的距离中符合指定召回条件的距离对应的所述候选子内容向量对应的候选内容作为候选相似内容;
其中,所述候选内容为已确定相似内容的历史目标内容;所述候选内容的每种内容类别对应的至少一个候选子内容向量为历史目标内容的同一内容类别对应的至少一个目标子内容向量;
所述内容类别对应的候选子内容向量集合由所有候选内容的同一所述内容类别对应的所有候选子内容各自对应的候选子内容向量构成。
进一步地,所述装置还包括:
第一候选内容集合更新模块,用于将确定了相似内容的所述目标内容作为候选内容加入所述候选内容集合;
第二候选内容集合更新模块,用于将所述候选内容集合中距离当前时间超过预设时间长度的候选内容从所述候选内容集合中移除。
本发明实施例具有如下技术效果:通过分别计算各候选相似内容与目标内容的多模态相似度,进一步确定目标内容的相似内容,实现了将多个相似维度结合确定相似内容,避免依据多个相似维度单独与各维度的预设阈值依次比较确定相似内容,从而显著降低了相似内容分析的误判率;具体地,通过分别计算各候选相似内容与目标内容在各内容类别对应的相似得分,并综合候选相似内容的各内容类别对应的相似得分得出每个候选相似内容的整体相似度,并根据整体相似度确定目标内容的相似内容,实现了将多个相似维度结合得到整体相似度进而确定相似内容,避免依据多个相似维度单独与各维度的预设阈值依次比较确定相似内容。本申请使用综合的整体相似度显著降低了相似内容分析的误判率。具体地,本申请通过结合文本、图片、视频相结合得到整体相似度,从而充分体现了文本、图片、视频内容所记载的信息之间的相关关系,依据由此得到的整体相似度识别相似内容显著降低了误判率。进一步地,在进行相似性判断前,通过对候选内容进行过滤得到候选相似内容,显著减少相似性比较的工作量,提高识别相似内容的效率。进一步地,通过限制候选内容的时效性,使用最近一段时间内的目标内容作为候选内容,从而达到能自适应随时间或社会流行趋势变化的目标内容的相似内容识别。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
如图3所示,以下对本发明实施例进行说明:
向量生成:
利用BERT模型、图片向量生成模型、视频向量生成模型,对目标内容(如一条仅包含文本内容的微博、一条含有多张图片及文本内容的微博或者一条含有视频内容及文本内容的微博等)的文本、全部图片、全部视频片段分别生成对应数量的向量。基于历史目标内容的文本、全部图片、全部视频片段向量生成三个相应的候选集。目标内容是当前正在计算相似内容的目标内容,历史目标内容是历史上已经计算过相似内容的目标内容。由历史目标内容构成了候选内容集合,每个候选内容所包含的文本、全部图片和/或全部视频片段分别向量化为向量并且分别保存在文本、全部图片和/或视频片段相应的向量候选集中。候选内容与其包含的文本、全部图片和/或视频片段相应的向量相互关联,可通过候选内容检索到其包含的文本、全部图片和/或视频片段相应的向量,也可以通过其包含的文本、全部图片和/或视频片段相应的向量检索到对应的候选内容。
相似向量召回:
对三个候选集,利用Faiss中indexivfflat函数分别对候选集向量进行聚类,生成相应数量的聚类中心,选取其中距离最近的K个聚类中心,计算目标向量与K个聚类中心下所有向量的距离(图、文为欧式距离,视频片段为余弦距离),对于距离符合召回条件的(图、文为小于第一预设距离阈值,视频片段为大于等于第二预设距离),认为其为目标向量的候选相似向量。记录目标向量的候选相似向量、对应的历史内容及相应距离。
文本、图片、视频分别判断相似度:
文本相似度text_score的确定:
主要基于目标文本向量与候选相似向量的距离text_dis,同时参考目标内容的文本长度生成相应的文本置信参数text_param;对于文本置信参数可根据领域严格或松确定,领域要求的越严(例如新闻中文本几百字,主要内容在文本上,置信参数设置为2,其他领域可能是1),文本长度越长,距离计算越不准确,则文本置信参数越大;例如如果文本长度小于60,则文本置信参数为0.5,如果文本长度小于100,则置信参数1,如果文本长度大于100则文本置信参数为2;在具体项目中,文本置信参数可利用历史数据调试得到。根据以下公式(2)确定每个候选相似内容的文本对应的得分:
text_score=text_dis*text_param (2)
其中,text_score是候选相似内容的文本对应的得分;text_dis是候选相似内容对应的候选相似文本向量与目标文本向量的距离;text_param是根据目标内容的文本属性确定的文本置信参数;
根据上述方法,每个候选相似内容都对应得到一个文本对应的相似得分。
图片相似度pic_score的确定:
针对目标内容下的每张图片,计算目标内容下的该图片对应的目标图片向量与候选相似内容下每张图片对应的候选相似图片向量的距离pic_disi,并且根据目标内容下的该图片的图片类型(长图、字图、表情包图片等)确定第一图片置信参数pic_parami(例如正常情况第一图片置信参数为1,当目标内容下的该图片为长图、子图或表情包时设置为5到10),并如公式(3)使用第一图片置信参数对距离pic_disi进行修正:
pic_disi=pic_disi*pic_parami (3)
经上述过程,针对任一个候选相似内容,都得到一组pic_disi距离值即目标图片距离分别与目标内容下的每张图片相对应;假设目标内容中的图片数是n,则i取值从1到n;
对候选相似内容下每张图片同样与目标内容下的每张图片进行上述距离计算,记录与该图片最相近的距离recall_pic_disj;针对人一个候选相似内容,都得到一组recall_pic_disj距离值即候选相似图片距离分别与该候选相似内容下的每张图片相对应;假设候选相似内容中的图片数是m,则j取值从1到m;
根据目标内容的图片数n与候选相似内容的图片数m确定数量差异参数paramnum;数量差异参数可以利用历史数据拟合得到,并且可以结合具体应用场景的需求根据运行效果进行修正,例如在某些场景下如果目标内容的图片数量小于该候选内容的图片数量则数量差异参数设置为0.7,否则设置为0.3。
该候选相似内容的图片相似度pic_score计算方式如公式(1)所示。
根据上述方法,每个候选相似内容都对应得到了图片对应的相似得分。
视频相似度video_score的确定:
将目标内容、候选相似内容的视频片段与已收集的视频制式化开头、结尾片段库进行比对,对识别出的制式化视频开头、结尾片段进行删除;对剩余目标内容各视频片段与候选相似内容各视频片段的向量进行余弦距离计算,当该距离video_dis大于或等于视频片段相似阈值时,认为两片段为相似片段;选择目标内容中最长的连续相似片段,视为目标内容与候选相似内容的相似主体;该相似主体所有视频片段对应的video_dis中最大的距离pic_dismax,即为视频相似度即该候选内容的视频对应的相似得分,即将pic_dismax的值作为video_score的值。
文本、图片、视频相似度融合得到整体相似度final_score:
判断目标内容的内容类型,如纯图片、图-文、视频-文等内容,根据目标内容类型以及上述的文本、图片、视频相似度确定各类内容在参与融合计算时的文本权重xtext、图片权重xpic、视频权重xvideo以及补偿参数b;文本权重、图片权重、视频权重以及补偿参数可以根据具体应用场景下的历史数据拟合得到。
根据文本长度、图片类型(长图、字图、表情包图片等)、目标内容与候选相似内容图片数量差异、是否属于某些特定领域、是否与候选相似目标存在领域交集等因素,对权重比例xtext,xpic,xvideo以及补偿参数b进行调整;例如在一些领域,根据重要程度调整权重,新闻领域文本更重要,把新闻领域的数据拿出来调整权重,使用测试数据检验相似文本是否能计算出来,从而确定文本权重、图片权重、视频权重以及补偿参数。
整体相似度final_score为各内容类型的相似度(或相似得分)加权值,如公式4所示:
final_score=xtext*text_score+xpic*pic_score+xvideo*(1-video_score)+b(4)
其中,final_score为该候选相似内容对应的整体相似度;text_score为该候选相似内容的文本对应的相似得分;pic_score为该候选相似内容的图片对应的相似得分;video_score为该候选相似内容的视频对应的相似得分;xtext为文本权重;xpic为图片权重;xvideo为视频权重;b为补偿参数。
重复内容的确定与聚类
对目标内容的候选相似内容进行筛选,对于整体相似度final_score小于预设相似度阈值的候选相似内容,认为其目标内容的为相似内容,若无满足条件的相似内容,则认为目标内容为原创内容,相似特征为目标内容的自身id;对于存在相似内容的目标内容,对该目标内容的所有候选相似内容根据整体相似度final_score进行排序,取final_score最小的候选相似内容的相似特征id,作为目标内容的相似特征id。
任意两个拥有相同相似特征id的内容,视为重复内容。
候选集的过期
针对历史目标内容,当该历史内容与目标内容检索时间大于预设时间t时,该历史内容对应的文本、图片、视频向量应从候选内容集合中过期删除,确保候选内容集合始终维持在一个稳定量级上,保证聚类效果的准确以及信息处理的高效。
本发明技术方法具有如下技术效果:现有技术在判断视频内容时往往会忽略视频内容所含有的文本信息,导致部分文本信息为主的视频内容无法与文本或者图文类型的相似内容进行正确的相似判断。本申请通过在整体相似度判断阶段针对视频-文本内容引入文本相似距离的方式,填补了文本内容与视频内容、图文内容与视频内容相似性判断的空白,提升了目标内容在相似性判断时的准确性。
进一步地,现有技术在判断是否存在相似内容时往往面临着效果与效率的取舍——过大的候选内容集合会降低检索效率同时也浪费计算资源;过小的候选内容集合则无法有效包含相似内容导致判断错误。本申请有效利用了向量检索工具Faiss以及相似内容相似特征id传递的功能,利用Faiss先聚类再根据相似聚类中心进行匹配的功能,在适量扩大了候选内容集合、保证检索结果的准确;同时利用候选内容集合过期功能减少了不必要的计算量,提升了检索效率;同时利用相似内容相似特征id传递的功能,保证即使原创内容早已不存在于候选内容集合中,但是目标内容同样能根据候选集中的相似内容与原创内容相匹配;同时基于该功能,当存在多条互为相似的相似内容时,特征相似id可以成功判断出该类内容互为相似。
进一步地,现有技术针对多图内容判断相似性时,对于相似图片组达到一定数量的要求过于死板,导致部分相似内容可能仅在部分图片组上存在略高于阈值的极小差异,但由于严格的图片组相似数量要求被误判为不相似。而本申请在计算图片相似度时打破了相似图片组的概念,仅关注该张图片与候选相似内容所有图片中的最小距离,在最终计算图片相似度时通过平均计算分摊由少量阈值临界图片造成的误判风险;同时引入数量差异参数,在目标内容与候选相似内容图片数量存在差异时能对图片相似度进行可靠度加权。
综上,本申请在视频内容相似性判断时引入文本内容提升相似判断准确性;利用Faiss、候选集过期功能、相似内容相似特征id传递功能对大规模、长时间、大量重复内容进行高效、准确的重复聚类在保持效果的基础上提高了效率;针对提升了多图内容相似性判断的效果。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种相似内容确定方法,其特征在于,包括:
按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;
针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;
根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;
根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容;
其中,所述候选相似内容集合包括至少一个候选相似内容;按所述内容类别从每个候选相似内容中获取每种内容类别各自对应的至少一个候选相似子内容,针对每个候选相似内容的每种内容类别,将所述内容类别所对应的至少一个候选相似子内容向量化,得到所述内容类别对应的至少一个候选相似子内容向量。
2.如权利要求1所述的相似内容确定方法,其特征在于,所述内容类别包括:文本、图片、视频;
所述针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量,包括:
在所述目标内容包括文本的情况下,将所述目标内容中的全部文本向量化为对应的目标文本向量;
在所述目标内容包括图片情况下,将所述目标内容中的至少一个图片分别对应向量化为至少一个目标图片向量;
在所述目标内容包括视频情况下,将所述目标内容中的视频向量化为对应的目标视频片段向量序列;
其中,所述目标子内容向量包括:目标文本向量、目标图片向量、和/或目标视频片段向量序列。
3.如权利要求2所述的相似内容确定方法,其特征在于,所述根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度,包括:
针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分;
将所述候选相似内容的所有内容类别各自对应的相似得分作为所述候选相似内容与所述目标内容之间的多模态相似度。
4.如权利要求3所述的相似内容确定方法,其特征在于,所述针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分,包括:
根据所述目标内容中的全部文本的文本属性生成文本置信参数;
针对每个候选相似内容,将所述目标文本向量与所述候选相似内容的全部文本对应的候选相似文本向量的距离作为文本向量距离,并且将所述文本向量距离与所述文本置信参数的乘积作为所述候选相似内容和所述目标内容中的文本对应的相似得分;
其中,所述候选相似文本向量是通过对所述候选相似内容中的全部文本向量化后得到的向量。
5.如权利要求3所述的相似内容确定方法,其特征在于,所述针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分,包括:
针对每个候选相似内容,针对所述目标内容中的每张图片对应的目标图片向量,计算所述目标图片向量与所述候选相似内容中的每张图片对应的候选相似图片向量的距离,并选择计算得到的距离中的最小距离作为所述目标图片向量对应的目标图片距离初值,并根据所述目标图片向量所对应图片的图片属性生成所述目标图片向量对应的第一图片置信参数,使用所述目标图片距离初值与所述第一图片置信参数的乘积作为所述目标图片向量对应的目标图片距离;
针对每个候选相似内容,针对所述候选相似内容中的每张图片对应的候选相似图片向量,计算所述候选相似图片向量与所述目标内容中的每张图片对应的目标图片向量的距离,并选择计算得到的距离中的最小距离作为所述候选相似图片向量对应的候选相似图片距离初值,并根据所述最小距离所对应的所述目标内容中的图片的图片属性生成第二图片置信参数,使用所述候选相似图片距离初值与所述第二图片置信参数的乘积作为所述候选相似图片向量对应的候选相似图片距离;
针对每个候选相似内容,根据所述目标内容的图片数与所述候选相似内容的图片数确定数量差异参数;
针对每个候选相似内容,根据以下公式计算所述候选相似内容的所有图片整体对应的相似得分:
Figure FDA0004009889240000031
其中:pic_score为候选相似内容的所有图片整体对应的相似得分;paramnum为数量差异参数;pic_disi为目标内容中的第i个图片对应的目标图片向量对应的目标图片距离;n为目标内容中的图片数;recall_pic_disj为候选相似内容中的第j个图片对应的候选相似图片向量对应的候选相似图片距离;m为候选相似内容中的图片数;
其中,所述候选相似内容中的每张图片对应的候选相似图片向量是通过将所述候选相似内容中的所述图片对应向量化得到的向量。
6.如权利要求3所述的相似内容确定方法,其特征在于,所述针对所述候选相似内容集合中的每个候选相似内容,根据所述候选相似内容的每种内容类别对应的至少一个候选相似子内容向量与所述目标内容的同一内容类别对应的至少一个目标子内容向量的距离,计算所述候选相似内容的所述内容类别对应的相似得分,包括:
针对每个候选相似内容中的视频对应的候选相似视频片段向量序列,计算所述候选相似视频片段向量序列中的每段候选相似视频片段向量与所述目标内容中的视频对应的目标视频片段向量序列中的每段目标视频片段向量的距离;并且,
从计算得到的距离中选择大于或等于视频片段相似阈值的距离对应的目标视频片段向量作为相似片段,选择所述目标内容对应的最长的连续的相似片段作为所述候选相似内容对应的相似主体;并且,
以所述候选相似内容对应的相似主体中的目标视频片段向量对应的所述计算得到的距离中的最大值作为所述候选相似内容中的视频的相似得分;
其中,所述候选相似内容中的视频对应的候选相似视频片段向量序列是通过将所述候选相似内容中的视频向量化得到的视频片段向量序列。
7.如权利要求3所述的相似内容确定方法,其特征在于,所述根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容,包括:
针对每个候选相似内容,将所述候选相似内容的所有内容类别各自对应的相似得分加权求和,得到所述候选相似内容的整体相似度;
根据每个所述候选相似内容的整体相似度与预设相似度阈值确定所述目标内容的相似内容。
8.如权利要求7所述的相似内容确定方法,其特征在于,所述根据每个所述候选相似内容的整体相似度与预设相似度阈值确定所述目标内容的相似内容,包括:
如果所有候选相似内容中存在相应的整体相似度小于预设相似度阈值的候选相似内容,则将整体相似度小于预设相似度阈值的候选相似内容作为初选相似内容;并且将初选相似内容中相应的整体相似度最小的候选相似内容作为所述目标内容的相似内容;否则,
将所述目标内容自身设置为所述目标内容的相似内容。
9.如权利要求1所述的相似内容确定方法,其特征在于,所述候选相似内容集合的生成方法,包括:
将候选内容集合中的所有候选内容的同一内容类别对应的所有候选子内容对应的所有候选子内容向量,设置为所述内容类别对应的候选子内容向量集合;
针对每种内容类别对应的候选子内容向量集合,利用Faiss对所述内容类别对应的候选子内容向量集合进行聚类得到所述内容类别对应的候选子内容向量集合的至少一个聚类中心;
针对所述目标内容的每种内容类别对应的至少一个目标子内容向量,计算所述目标子内容向量与同一所述内容类别对应的候选子内容向量集合的至少一个聚类中心中的每个聚类中心的距离值,并选取距离值最小的K个聚类中心作为所述目标子内容向量对应的K个聚类中心;并且,
针对所述目标子内容向量对应的K个聚类中心中的每个聚类中心,计算所述聚类中心对应的聚类中每个候选子内容向量与所述目标子内容向量的距离,将计算得到的距离中符合指定召回条件的距离对应的所述候选子内容向量对应的候选内容作为候选相似内容;
其中,所述候选内容为已确定相似内容的历史目标内容;所述候选内容的每种内容类别对应的至少一个候选子内容向量为历史目标内容的同一内容类别对应的至少一个目标子内容向量;
所述内容类别对应的候选子内容向量集合由所有候选内容的同一所述内容类别对应的所有候选子内容各自对应的候选子内容向量构成。
10.一种相似内容确定装置,其特征在于,包括:
目标子内容获取单元,用于按内容类别从目标内容中获取每种内容类别各自对应的至少一个目标子内容;
目标子内容向量化单元,用于针对每种内容类别,将所述内容类别所对应的至少一个目标子内容向量化,得到所述内容类别对应的至少一个目标子内容向量;
多模态相似度确定单元,用于根据候选相似内容集合中候选相似内容的每种内容类别对应的至少一个候选相似子内容向量、以及所述目标内容的每种内容类别对应的至少一个目标子内容向量,确定所述候选相似内容与所述目标内容之间的多模态相似度;
相似内容确定单元,用于根据候选相似内容集合中每个所述候选相似内容与所述目标内容之间的多模态相似度,从所述候选相似内容集合中确定与所述目标内容相匹配的相似内容;
其中,所述候选相似内容集合包括至少一个候选相似内容;按所述内容类别从每个候选相似内容中获取每种内容类别各自对应的至少一个候选相似子内容,针对每个候选相似内容的每种内容类别,将所述内容类别所对应的至少一个候选相似子内容向量化,得到所述内容类别对应的至少一个候选相似子内容向量。
CN202211649784.1A 2022-12-21 2022-12-21 一种相似内容确定方法和装置 Pending CN116340551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211649784.1A CN116340551A (zh) 2022-12-21 2022-12-21 一种相似内容确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211649784.1A CN116340551A (zh) 2022-12-21 2022-12-21 一种相似内容确定方法和装置

Publications (1)

Publication Number Publication Date
CN116340551A true CN116340551A (zh) 2023-06-27

Family

ID=86881010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211649784.1A Pending CN116340551A (zh) 2022-12-21 2022-12-21 一种相似内容确定方法和装置

Country Status (1)

Country Link
CN (1) CN116340551A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797405A (zh) * 2023-06-29 2023-09-22 华腾建信科技有限公司 基于参建各方数据互通的工程数据处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797405A (zh) * 2023-06-29 2023-09-22 华腾建信科技有限公司 基于参建各方数据互通的工程数据处理方法及系统
CN116797405B (zh) * 2023-06-29 2023-12-19 华腾建信科技有限公司 基于参建各方数据互通的工程数据处理方法及系统

Similar Documents

Publication Publication Date Title
US9449271B2 (en) Classifying resources using a deep network
WO2017012491A1 (zh) 一种图像高维特征的相似比较方法及装置
US8630972B2 (en) Providing context for web articles
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
US8064641B2 (en) System and method for identifying objects in video
CN105653700A (zh) 视频检索方法及系统
CN109063611B (zh) 一种基于视频语义的人脸识别结果处理方法和装置
US20130039545A1 (en) System and method of object recognition and database population for video indexing
CN111651636A (zh) 视频相似片段搜索方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN116340551A (zh) 一种相似内容确定方法和装置
KR20090020005A (ko) 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
CN114898182A (zh) 一种基于目标检测学习算法的图片数据筛选方法及系统
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
CN113395584B (zh) 一种视频数据处理方法、装置、设备以及介质
CN114880572B (zh) 新闻客户端智能推荐系统
CN112069331B (zh) 一种数据处理、检索方法、装置、设备及存储介质
CN113688708A (zh) 一种基于概率特征的人脸识别方法、系统及存储介质
CN113535895A (zh) 搜索文本处理方法、装置、电子设备及介质
KR101271171B1 (ko) 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법
CN116822502B (zh) 网页内容识别方法、装置、计算机设备和存储介质
Lin et al. Video retrieval for shot cluster and classification based on key feature set
CN116483946B (zh) 数据处理方法、装置、设备及计算机程序产品
CN115795023B (zh) 文档推荐方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination