CN111651577B - 跨媒体数据关联分析模型训练、数据关联分析方法及系统 - Google Patents

跨媒体数据关联分析模型训练、数据关联分析方法及系统 Download PDF

Info

Publication number
CN111651577B
CN111651577B CN202010485925.5A CN202010485925A CN111651577B CN 111651577 B CN111651577 B CN 111651577B CN 202010485925 A CN202010485925 A CN 202010485925A CN 111651577 B CN111651577 B CN 111651577B
Authority
CN
China
Prior art keywords
data
model
manifold
mode
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010485925.5A
Other languages
English (en)
Other versions
CN111651577A (zh
Inventor
张强
闫龙川
张开强
蒋从锋
高德荃
赵子岩
吕强
黄震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Global Energy Interconnection Research Institute, Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010485925.5A priority Critical patent/CN111651577B/zh
Publication of CN111651577A publication Critical patent/CN111651577A/zh
Application granted granted Critical
Publication of CN111651577B publication Critical patent/CN111651577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨媒体数据关联分析模型训练、数据关联分析方法及系统。在判别模型层的无监督哈希学习中将潜在的多模态数据流形元组考虑在内,充分挖掘了跨模态数据间的关联性,在生成模型中去拟合这种流形分布,生成拟合后的流形元组供判别器判断。同时,利用判别模型层、生成模型层组成的对抗网络,结合强化学习层对解决对抗网络面对的离散数据梯度传播问题;通过对抗网络提高了判别器判断多模态数据元组与用户查询请求相关性的能力,显著提高了预测与用户查询请求的关联数据的能力,对于在线用户查询请求的检索系统可以显著提高其检索速度。

Description

跨媒体数据关联分析模型训练、数据关联分析方法及系统
技术领域
本发明涉及跨媒体数据信息检索技术领域,具体涉及一种跨媒体数据关联分析模型训练、数据关联分析方法及系统。
背景技术
随着数字经济的快速发展,互联网应用服务的普及,海量用户生产数据呈指数级增长,数据内容包括图像、文本、音频和视频。跨媒体数据关联分析广泛用于跨媒体数据信息检索,当用户提交一个查询请求,信息检索系统计算模态间相似性,然后返回与此查询请求相关联的多模态数据,用户的查询请求通常是多模态,比如提交关键字查询实例,检索系统反馈与关键字有关的图像、音视频等多媒体数据,提交图像查询实例,查询与图像匹配的文本、图像等多媒体数据。
当多媒体数据存储在关系型数据库中时,多媒体数据具有结构化特征,检索系统通过关键字一对一匹配能够精确查询所需要的数据,但是,目前互联网产生的多媒体数据规模庞大,而且具有非结构化特征,没有清晰的语义结构,比如电商网站中商品的评价、朋友圈的图片、抖音小视频等,所以利用传统的方法把多模态数据标注后,存储在数据库进行检索时,会耗费大量存储和计算成本,而且无法满足用户的查询请求和用户的查询体验。随着神经网络和深度学习的快速发展,业界普遍做法是利用深度神经网络训练出一个根据给定的查询请求,生成相关联多媒体数据的生成模型,或者是训练出一个判别模型,能够根据给定的查询请求和多媒体数据特征预测出他们之间的相似性,但是在面对大量未标注的多模态数据时,生成模型无法精确的拟合查询请求的分布,判别模型也因为无法在这些未标注数据中获取有价值的特征,而导致判别模型预测出的关联数据与预期不符。
由于涉及异构多模态数据语义鸿沟、高维度特征、缺少样本标签等问题,现有的工作只能够解决成对或同构多模态数据分析问题,即对同类别但不同模态或不同类别同模态的数据进行关联分析,但面对异构多模态即不同类别而且不同模态的数据时,无法有效的进行跨模态数据关联分析,在跨媒体数据检索中,用户提交的查询请求具有不确定性,不同时间段提交的查询请求的数据模态、数量都不相同,使得预测与查询请求关联性不符,检索准确度不高。
发明内容
因此,本发明提供的一种跨媒体数据关联分析模型训练、数据关联分析方法及系统,克服现有技术中跨模态数据关联性的预测结果与查询请求的关联数据不符,检索准确度不高的缺陷。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种跨媒体数据关联分析模型训练方法,所述关联分析模型包括:特征提取层、判别模型层、生成模型层及强化学习层,所述跨媒体数据关联分析模型训练方法包括:
特征提取层基于用户查询请求实时获取待识别多媒体数据库中多模态数据的原始特征;
对判别模型层进行预训练产生奖励值;
利用生成模型层对多模态数据的原始特征进行多模态哈希特征提取,生成器根据提取的多模态哈希特征、强化学习层提供的动作值,更新多模态数据元组、强化学习层的状态值及生成模型参数,其中,强化学习层的动作值用于指导生成器选择与用户查询请求关联性最大的多模态数据元组,其是根据奖励值、状态值的更新获取,奖励值用于表征多模态数据元组和多模态流形元组之间的相似性,状态值用于表征当前的生成模型层中多模态哈希特征的输入状态;
判别模型利用多模态数据的原始特征,生成多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组,提取多模态数据流形元组的多模态哈希特征;判别器根据判别模型生成的多模态哈希特征及生成模型更新后的多模态数据元组,更新判别模型参数及奖励值,直至判别网络参数值收敛。
在一实施例中,对判别模型进行预训练产生奖励值的步骤,包括:
判别模型通过对多模态数据的原始特征构建多模态流形关联图;
基于多模态流形关联图产生多模态数据流形元组;
根据多模态数据流形元组产生判别边界,判别器对判别边界进行多模态哈希特征提取,产生奖励值。
在一实施例中,产生判别边界的多模态流形元组包括:与用户请求流形相同的流形元组、与用户请求流形不同的非流形元组。
在一实施例中,采用无监督跨模态哈希学习提取多模态哈希特征。
在一实施例中,多模态数据的原始特征包括:图像原始特征、音频原始特征、文本原始特征及视频原始特征。
第二方面,本发明实施例提供一种跨媒体数据关联分析方法,包括:
获取用户的查询请求队列;
将所述用户的查询请求队列输入本发明实施例第一方面的跨媒体数据关联分析模型训练方法,生成的跨媒体数据关联分析模型的判别模型层中,得到与用户查询请求队列相关性分数大于预设期望值时的多模态数据元组。
第三方面,本发明实施例提供一种跨媒体数据关联分析模型训练系统,包括:
多模态数据的原始特征提取模块,用于基于用户查询请求,实时获取待识别多媒体数据库中多模态数据的原始特征;
判别模型预训练模块,用于对判别模型层进行预训练产生奖励值;
生成模型指导模块,利用生成模型层对多模态数据的原始特征进行多模态哈希特征提取,生成器根据提取的多模态哈希特征、强化学习层提供的动作值,更新多模态数据元组、强化学习层的状态值及生成模型参数,其中,强化学习层的动作值用于指导生成器选择与用户查询请求关联性最大的多模态数据元组,其是根据奖励值、状态值的更新获取,奖励值用于表征多模态数据元组和多模态流形元组之间的相似性,状态值用于表征当前的生成模型层中多模态哈希特征的输入状态;
判别模型输出模块,用于利用多模态数据的原始特征,生成多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组,提取多模态数据流形元组的多模态哈希特征;判别器根据判别模型生成的多模态哈希特征及生成模型更新后的多模态数据元组,更新判别模型参数及奖励值,直至判别网络参数值收敛。
第四方面,本发明实施例提供一种跨媒体数据关联分析系统,包括:
用户的查询请求队列获取模块,用于获取用户的查询请求队列;
跨媒体数据关联分析模块,用于将用户的查询请求队列输入本发明实施例第一方面的所述的跨媒体数据关联分析模型训练方法,生成的跨媒体数据关联分析模型的判别模型层中,得到与用户查询请求队列相关性分数大于预设期望值时的多模态数据元组。
第五方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的跨媒体数据关联分析模型训练方法或本发明实施例第二方面所述的跨媒体数据关联分析方法。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的跨媒体数据关联分析模型训练方法或本发明实施例第二方面所述的跨媒体数据关联分析方法。
本发明技术方案,具有如下优点:
1、本发明提供的跨媒体数据关联分析模型训练、数据关联分析方法及系统,将多模态流形关联图间潜在的多模态数据流形元组考虑在内,充分挖掘跨模态数据间的关联性,在判别模型层的无监督哈希学习中将潜在的多模态数据流形元组考虑在内,充分挖掘了跨模态数据间的关联性,在生成模型中去拟合这种流形分布,生成拟合后的流形元组供判别器判断。利用判别模型层、生成模型层组成的对抗网络,提高了判别器判断多模态数据元组与用户查询请求相关性的能力,同时,结合强化学习层对解决对抗网络面对的离散数据梯度传播问题,提高了在线查询请求的检索系统的速度,显著提高了预测与查询请求的关联数据的能力。
2、本发明提供的跨媒体数据关联分析模型训练、数据关联分析方法及系统,采用无监督跨模态哈希学习提取多模态哈希特征,利用无监督跨模态哈希学习有效的保留跨模态数据间的语义关联信息,减少有限长度哈希码的储存成本,提高检索效率,利用无监督哈希学习不仅考虑了同构和异构模态间的关联性,同时考虑多模态数据间共同存在的信息,这些共存信息一般流形相同,既可以充分保留多模态数据间的语义,也能够节约人工标注的成本。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的跨媒体数据关联分析模型训练方法的一个具体示例的流程图;
图2为本发明实施例提供的跨媒体数据关联分析模型训练方法的另一个具体示例的示意图;
图3为本发明实施例提供的跨媒体数据关联分析模型训练系统的模块组成图;
图4为本发明实施例提供的跨媒体数据关联分析模型训练系统的终端一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种跨媒体数据关联分析模型训练方法,所述关联分析模型包括:特征提取层、判别模型层、生成模型层及强化学习层,利用判别模型层、生成模型层组成的对抗网络,同时结合强化学习层对解决对抗网络面对的离散数据梯度传播问题,如图1所示,包括如下步骤:
步骤S1:特征提取层基于用户查询请求实时获取待识别多媒体数据库中多模态数据的原始特征。
在本发明实施例中,如图2所示,特征提取层用于提取多模态数据的原始语义特征,特征提取基于词袋模型和全连接网络,提取的多模态数据的原始特征包括:图像原始特征、音频原始特征、文本原始特征及视频原始特征,仅以此举例,但是不以此为限,在实际应用中根据不同需求做相应选择;图像、音频、视频及文本的特征提取基于卷积神经网络,其中音频语义需要对音频数据进行声学特征提取,视频语义需要获取视频的关键帧再进行底层特征提取,仅以此举例,但是不以此为限,在实际应用中根据实际需求做相应处理。
步骤S2:对判别模型层进行预训练产生奖励值。
在本发明实施例中,对判别模型进行预训练产生奖励值的步骤,包括:判别模型通过对多模态数据的原始特征构建多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组。
判别模型首先接受来自特征提取层的多模态数据的原始特征和查询请求,然后对多模态数据的原始特征利用K近邻算法构造单模态数据关联图,模态间距离的计算为测地距离,测地距离是根据最短路径算法计算出模态间的最短路径,而不是欧拉距离(模态间的直线距离)。虽然测地距离大于等于欧拉距离,但是这更能反映模态间的真实相关性。先计算所有数据点的最近邻,把数据点到最近邻的距离设置为1,数据点到非K近邻的点设置为无穷大,然后通过最短路径算法(例如Dijkstra算法)更新数据点之间的距离,使得特征数据点之间的距离为测地距离,有效的测量了单模态数据点间的距离,保留了语义信息。
获得单模态关联图后,判别模型层对于所有的单模态关联图,如果两个不同模态的数据节点存在共同信息,则把这两个数据节点融合,融合前数据节点的点边关系依然存在,所有的数据点的根据共存信息融合完成时,形成了多模态流形关联图,多模态流形关联图能够跨不同模态捕获潜在的流形结构,所以模态不同但流形相同的数据有极低的汉明距离,产生与查询请求关联的多模态数据流形元组能够引导判别模型的训练,能够提高查询关联性最高数据的准确性和速度。
根据多模态数据流形元组产生判别边界,包括:与用户请求流形相同的流形元组、与用户请求流形不同的非流形元组,判别器对判别边界进行多模态哈希特征提取,其多模态哈希特征提取在哈希学习层获取二进制哈希码,将选取的两个元组都要获得二进制哈希码再输入判别器,产生奖励值,使得判别模型有基本的判别能力。
在本发明实施例中,判别模型根据用户查询请求和多模态数据元组的相关系分数来表示,表示公式为:
fφ(XG,q)=max(0,m+||h(q)-h(XM)||2-||h(q)-h(XG)||2)
其中φ为判别模型的参数,||·||2是用户查询请求q与多模态数据元组XG或多模态数据流形元组XM内各模态数据的平均距离,m为防止产生非正数分数的偏置值,(q)、(XM)、(XG)分别为查询请求q,多模态数据流形元组XM、多模态数据元组XG的哈希码实数值。根据fφ(XG,q)表达式可知,fφ(XG,q)值越小,查询请求和多模态数据元组的关联性越大。
判别模型层中的判别器是一个全连接的深度神经网络,其目的是区分多模态数据元组和多模态数据流形元组哪才是与查询请求关联性最大,根据相关性分数确定,相关性分数转化为损失函数,通过神经网络后向传播,更新判别模型参数。由于本发明中生成器输入的多模态数据流形元组是在多模态流形关联图选取的,与查询请求的关联性最大,所以判别模型训练初期能够清晰的区分多模态数据元组和多模态数据流形元组,当初始化判别模型后,判别器还没有判断多模态数据元组和多模态数据流形元组的能力,所以要进行预训练。
判别模型预训练时,判别器在多模态流形关联图中选择一个与用户查询请求q流形相同的流形元组,以及流形不同的元组进行判别模型的预训练,以确定判别边界,计算训练过程中损失函数的计算公式为:
Loss(q,XM,XN)=max(0,m+||h(q)-h(XM)||2-||h(q)-h(XN)||2)
其中,XN表示多模态流形关联图中与查询请求不相关的元组,可以发现Loss(q,XM,XN)=fφ(XN,q),训练过程中利用损失函数在判别网络反向传播更新判别模型参数φ,判别模型的预训练中,输入与查询请求的关联性最大流形元组和关联性低的非流形元组,判别器对多模态流形元组给的分数接近于0,但对多模态非流形元组给的分数接近于1,因此训练了判别模型的判定边界,产生初始的奖励值,使得判别模型有基本的判别能力。
步骤S3:利用生成模型层对多模态数据的原始特征进行多模态哈希特征提取,生成器根据提取的多模态哈希特征、强化学习层提供的动作值,更新多模态数据元组、强化学习层的状态值及生成模型参数,其中,强化学习层的动作值用于指导生成器选择与用户查询请求关联性最大的多模态数据元组,其是根据奖励值、状态值的更新获取,奖励值用于表征多模态数据元组和多模态流形元组之间的相似性,状态值用于表征当前的生成模型层中多模态哈希特征的输入状态;
在本发明实施例中,生成器是一个全连接的深度神经网络,对多模态数据的原始特征进行,即向生成器输入在哈希学习层提取多模态哈希特征的多模态数据哈希码和用户的查询请求时,生成器根据强化层中智能体的动作值预测出与用户查询请求相似性最大的多模态数据哈希码,根据预测结果组成生成多模态数据元组供判别器判断。
在本发明实施例中,生成器根据用户查询请求和判别模型反馈的奖励,值,预测出和用户查询请求相关性最大的多模态数据元组,根据生成模型参数相关参数计算,计算生成模型预测概率的公式为:
Figure BDA0002519064200000111
其中,θ为生成网络参数,i表示单模态数据索引值,
Figure BDA0002519064200000112
表示根据用户查询请求q和奖励值r生成的单模态数据,组合全部生成的单模态数据即为数据多媒体元组。
在本发明实施例中,当训练生成模型时,判别模型固定,可以用判别模型给出的奖励值
Figure BDA0002519064200000113
强化学习来指导生成模型训练,奖励值为
Figure BDA0002519064200000114
计算生成模型进行训练的公式为:
Figure BDA0002519064200000115
其中,θ*表示生成模型的生成网络参数为最优参数,φ*为判别模型已训练的判别网络参数值为最优参数值,j为查找请求索引值,
Figure BDA0002519064200000121
为根据用户查询请求qj预测数据多模态数据元组XG的可能性。当表达式最小化训练时,
Figure BDA0002519064200000122
越大越好,反映了生成模型的训练目的,最大化查询请求与数据多媒体元组的相关性,最小化判别模型的判断能力。
步骤S4:判别模型利用多模态数据的原始特征,生成多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组,提取多模态数据流形元组的多模态哈希特征;判别器根据判别模型生成的多模态哈希特征及生成模型更新后的多模态数据元组,更新判别模型参数及奖励值,直至判别网络参数值收敛。
在本发明实施例中,判别器是一个全连接的深度神经网络,其目的是区分与数据多媒体元组和流形元组哪个才是与查询请求关联性最大的元组,更新判别模型参数及奖励值,直至判别网络参数值收敛。当训练判别模型时,生成模型已经生成了多模态元组,同时判别器会在关联图中选择与查询请求相似性最大的流形元组,然后判别器判断多媒体数据元组和多媒体数据流形元组是否与查询请求真实相关。
判别模型可以利用查询请求q和多模态数据元组XG的相关性分数fφ(XG,q)来预测数据多媒体元组的概率,概率计算公式为:
Figure BDA0002519064200000123
其中,fφ(XG,q)来表示判别模型,在判别模型的神经网络中,输出层的激活函数为
Figure BDA0002519064200000124
即可预测出与查询请求q相关性最大的元组。
在本发明实施例中,训练判别模型时,生成模型固定,计算训练判别模型的判别网络参数值公式为:
Figure BDA0002519064200000131
其中,
Figure BDA0002519064200000132
表示x是判别器根据
Figure BDA0002519064200000133
在多模态流形关联图上选择的单模态数据,所有选择的单模态数据
Figure BDA0002519064200000134
组合为多模态数据流形元组XM
Figure BDA0002519064200000135
表示在多模态流形关联图上选择与查询qj相关联单模态数据
Figure BDA0002519064200000136
的概率,计算公式为:
Figure BDA0002519064200000137
判别模型的最优值为φ*,即为判别网络参数值,根据判别模型参数计算,训练结束时,判别网络参数值收敛,所以输出到强化学习层的奖励值为
Figure BDA0002519064200000138
判别模型训练表达式最大化训练时,
Figure BDA0002519064200000139
越大越好,这也反映了判别模型的目的,最大化流形元组与用户查询请求的相关性,即最大化判断模型的判断能力。
本发明实施例中提供的跨媒体数据关联分析模型训练方法,将多模态流形关联图间潜在的多模态数据流形元组考虑在内,充分挖掘了跨模态数据间的关联性,利用判别模型层、生成模型层组成的对抗网络,同时,结合强化学习层对解决对抗网络面对的离散数据梯度传播问题;通过对抗网络提高了判别器判断多模态数据元组与用户查询请求相关性的能力,显著提高了预测与用户查询请求的关联数据的能力,对于在线用户查询请求的检索系统可以显著提高其检索速度。
本发明实施例还提供一种跨媒体数据关联分析方法,包括:获取用户查询请求队列;将所述用户查询请求队列输入上述的跨媒体数据关联分析模型训练方法,生成的跨媒体数据关联分析模型的判别模型层中,得到与用户查询请求队列相关性分数大于预设期望值时的多模态数据元组。
本发明实施例中提供的跨媒体数据关联分析方法,通过对抗网络提高了判别器判断多模态数据元组与用户查询请求队列相关性的能力,显著提高了预测与用户查询请求的关联数据的能力,对于在线用户查询请求的检索系统可以显著提高其检索速度。
实施例2
本发明实施例提供一种跨媒体数据关联分析模型训练系统,如图3所示,包括:
多模态数据的原始特征提取模块1,用于基于用户查询请求,实时获取待识别多媒体数据库中多模态数据的原始特征;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
判别模型预训练模块2,用于对判别模型层进行预训练产生奖励值;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
生成模型指导模块3,利用生成模型层对多模态数据的原始特征进行多模态哈希特征提取,生成器根据提取的多模态哈希特征、强化学习层提供的动作值,更新多模态数据元组、强化学习层的状态值及生成模型参数,其中,强化学习层的动作值用于指导生成器选择与用户查询请求关联性最大的多模态数据元组,其是根据奖励值、状态值的更新获取,奖励值用于表征多模态数据元组和多模态流形元组之间的相似性,状态值用于表征当前的生成模型层中多模态哈希特征的输入状态;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
判别模型输出模块4,用于利用多模态数据的原始特征,生成多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组,提取多模态数据流形元组的多模态哈希特征;判别器根据判别模型生成的多模态哈希特征及生成模型更新后的多模态数据元组,更新判别模型参数及奖励值,直至判别网络参数值收敛;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
本发明实施例提供一种跨媒体数据关联分析模型训练系统,将多模态流形关联图间潜在的多模态数据流形元组考虑在内,充分挖掘了跨模态数据间的关联性,利用判别模型层、生成模型层组成的对抗网络,同时结合强化学习层对解决对抗网络面对的离散数据梯度传播问题;通过对抗网络提高了判别器判断多模态数据元组与用户查询请求相关性的能力,显著提高了预测与用户查询请求的关联数据的能力,对于在线用户查询请求的检索系统可以显著提高其检索速度。
本发明实施例还提供一种跨媒体数据关联分析系统,用户的查询请求队列获取模块,用于获取用户的查询请求队列;跨媒体数据关联分析模块,用于将用户的查询请求队列输入实施例1中的跨媒体数据关联分析模型训练方法,生成的跨媒体数据关联分析模型的判别模型层中,得到与用户查询请求队列相关性分数大于预设期望值时的多模态数据元组。
本发明实施例中提供的跨媒体数据关联分析系统,通过对抗网络提高了判别器判断多模态数据元组与用户查询请求队列相关性的能力,显著提高了预测与用户查询请求的关联数据的能力,对于在线用户查询请求的检索系统可以显著提高其检索速度。
实施例3
本发明实施例提供一种终端,如图4所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的跨媒体数据关联分析模型训练方法或实施例1中的跨媒体数据关联分析方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的跨媒体数据关联分析模型训练方法或实施例1中的跨媒体数据关联分析方法。
其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:central processingunit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的跨媒体数据关联分析模型训练方法或实施例1中的跨媒体数据关联分析方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的跨媒体数据关联分析模型训练方法或实施例1中的跨媒体数据关联分析方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种跨媒体数据关联分析模型训练方法,其特征在于,所述关联分析模型包括:特征提取层、判别模型层、生成模型层及强化学习层,所述跨媒体数据关联分析模型训练方法包括:
特征提取层基于用户查询请求实时获取待识别多媒体数据库中多模态数据的原始特征;
对判别模型层进行预训练产生奖励值;
利用生成模型层对多模态数据的原始特征进行多模态哈希特征提取,生成器根据提取的多模态哈希特征、强化学习层提供的动作值,更新多模态数据元组、强化学习层的状态值及生成模型参数,其中,强化学习层的动作值用于指导生成器选择与用户查询请求关联性最大的多模态数据元组,其是根据奖励值、状态值的更新获取,奖励值用于表征多模态数据元组和多模态流形元组之间的相似性,状态值用于表征当前的生成模型层中多模态哈希特征的输入状态;
判别模型利用多模态数据的原始特征,生成多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组,提取多模态数据流形元组的多模态哈希特征;判别器根据判别模型生成的多模态哈希特征及生成模型更新后的多模态数据元组,更新判别模型参数及奖励值,直至判别网络参数值收敛;
对判别模型进行预训练产生奖励值的步骤,包括:判别模型通过对多模态数据的原始特征构建多模态流形关联图;基于多模态流形关联图产生多模态数据流形元组;根据多模态数据流形元组产生判别边界,判别器对判别边界进行多模态哈希特征提取,产生奖励值;
多模态数据的原始特征包括:图像原始特征、音频原始特征、文本原始特征及视频原始特征。
2.根据权利要求1所述的跨媒体数据关联分析模型训练方法,其特征在于,产生判别边界的多模态流形元组包括:与用户请求流形相同的流形元组、与用户请求流形不同的非流形元组。
3.根据权利要求1所述的跨媒体数据关联分析模型训练方法,其特征在于,采用无监督跨模态哈希学习提取多模态哈希特征。
4.一种跨媒体数据关联分析方法,其特征在于,包括:
获取用户的查询请求队列;
将所述用户的查询请求队列输入根据权利要求1-3任一所述的跨媒体数据关联分析模型训练方法,生成的跨媒体数据关联分析模型的判别模型层中,得到与用户查询请求队列相关性分数大于预设期望值时的多模态数据元组。
5.一种跨媒体数据关联分析模型训练系统,其特征在于,包括:
多模态数据的原始特征提取模块,用于基于用户查询请求,实时获取待识别多媒体数据库中多模态数据的原始特征;
判别模型预训练模块,用于对判别模型层进行预训练产生奖励值;
生成模型指导模块,利用生成模型层对多模态数据的原始特征进行多模态哈希特征提取,生成器根据提取的多模态哈希特征、强化学习层提供的动作值,更新多模态数据元组、强化学习层的状态值及生成模型参数,其中,强化学习层的动作值用于指导生成器选择与用户查询请求关联性最大的多模态数据元组,其是根据奖励值、状态值的更新获取,奖励值用于表征多模态数据元组和多模态流形元组之间的相似性,状态值用于表征当前的生成模型层中多模态哈希特征的输入状态;
判别模型输出模块,用于利用多模态数据的原始特征,生成多模态流形关联图,基于多模态流形关联图产生多模态数据流形元组,提取多模态数据流形元组的多模态哈希特征;判别器根据判别模型生成的多模态哈希特征及生成模型更新后的多模态数据元组,更新判别模型参数及奖励值,直至判别网络参数值收敛;
对判别模型进行预训练产生奖励值的步骤,包括:判别模型通过对多模态数据的原始特征构建多模态流形关联图;基于多模态流形关联图产生多模态数据流形元组;根据多模态数据流形元组产生判别边界,判别器对判别边界进行多模态哈希特征提取,产生奖励值;
多模态数据的原始特征包括:图像原始特征、音频原始特征、文本原始特征及视频原始特征。
6.一种跨媒体数据关联分析系统,其特征在于,包括:
用户的查询请求队列获取模块,用于获取用户的查询请求队列;
跨媒体数据关联分析模块,用于将用户的查询请求队列输入根据权利要求1-3任一所述的跨媒体数据关联分析模型训练方法,生成的跨媒体数据关联分析模型的判别模型层中,得到与用户查询请求队列相关性分数大于预设期望值时的多模态数据元组。
7.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-3任一所述的跨媒体数据关联分析模型训练方法或权利要求4所述的跨媒体数据关联分析方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-3任一所述的跨媒体数据关联分析模型训练方法或权利要求4所述的跨媒体数据关联分析方法。
CN202010485925.5A 2020-06-01 2020-06-01 跨媒体数据关联分析模型训练、数据关联分析方法及系统 Active CN111651577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485925.5A CN111651577B (zh) 2020-06-01 2020-06-01 跨媒体数据关联分析模型训练、数据关联分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485925.5A CN111651577B (zh) 2020-06-01 2020-06-01 跨媒体数据关联分析模型训练、数据关联分析方法及系统

Publications (2)

Publication Number Publication Date
CN111651577A CN111651577A (zh) 2020-09-11
CN111651577B true CN111651577B (zh) 2023-04-21

Family

ID=72344626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485925.5A Active CN111651577B (zh) 2020-06-01 2020-06-01 跨媒体数据关联分析模型训练、数据关联分析方法及系统

Country Status (1)

Country Link
CN (1) CN111651577B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023212964A1 (zh) * 2022-05-06 2023-11-09 北京小米移动软件有限公司 一种双向时延状态信息的处理方法、装置及可读存储介质
CN116010609B (zh) * 2023-03-23 2023-06-09 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN105718532A (zh) * 2016-01-15 2016-06-29 北京大学 一种基于多深度网络结构的跨媒体排序方法
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111026887A (zh) * 2019-12-09 2020-04-17 武汉科技大学 一种跨媒体检索的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120626B2 (en) * 2002-11-15 2006-10-10 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN105718532A (zh) * 2016-01-15 2016-06-29 北京大学 一种基于多深度网络结构的跨媒体排序方法
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN111026887A (zh) * 2019-12-09 2020-04-17 武汉科技大学 一种跨媒体检索的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张鸿 ; 吴飞 ; 庄越挺 ; .跨媒体相关性推理与检索研究.计算机研究与发展.2008,(05),全文. *
金汉均 ; 段贝贝 ; .卷积神经网络在跨媒体检索中的应用研究.电子测量技术.2018,(07),全文. *

Also Published As

Publication number Publication date
CN111651577A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN108829757B (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
JP7216021B2 (ja) 機械学習モデルを迅速に構築し、管理し、共有するためのシステム及び方法
US10713317B2 (en) Conversational agent for search
CN110019732B (zh) 一种智能问答方法以及相关装置
CN107797984B (zh) 智能交互方法、设备及存储介质
JP5171813B2 (ja) ローカルなワードホイーリング/Webサーチのための人口統計に基づく分類
CN109033156B (zh) 一种信息处理方法、装置及终端
US11586838B2 (en) End-to-end fuzzy entity matching
CN107507073A (zh) 基于信任扩展和列表级排序学习的服务推荐方法
CN111651577B (zh) 跨媒体数据关联分析模型训练、数据关联分析方法及系统
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
US11308146B2 (en) Content fragments aligned to content criteria
KR102355152B1 (ko) 콘텐트 검색을 위한 방법 및 그 전자 장치
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
CN110442741B (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN115269854B (zh) 基于主题和结构感知神经网络的虚假新闻检测方法
CN110020141A (zh) 一种基于改进聚类和Spark框架的个性化推荐方法及系统
CN117094395B (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
US20230094730A1 (en) Model training method and method for human-machine interaction
CN108389113B (zh) 一种协同过滤推荐方法和系统
CN114707007B (zh) 一种图像文本检索方法、装置及计算机存储介质
Liang et al. O3ERS: an explainable recommendation system with online learning, online recommendation, and online explanation
CN114626378B (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN116595125A (zh) 一种基于知识图检索的开放域问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210112

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant after: INFORMATION COMMUNICATION COMPANY OF STATE GRID SHANDONG ELECTRIC POWER Co.

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

Applicant before: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

GR01 Patent grant
GR01 Patent grant