CN114238439B - 一种基于联合嵌入的任务驱动关系型数据视图推荐方法 - Google Patents

一种基于联合嵌入的任务驱动关系型数据视图推荐方法 Download PDF

Info

Publication number
CN114238439B
CN114238439B CN202111527276.1A CN202111527276A CN114238439B CN 114238439 B CN114238439 B CN 114238439B CN 202111527276 A CN202111527276 A CN 202111527276A CN 114238439 B CN114238439 B CN 114238439B
Authority
CN
China
Prior art keywords
view
data set
task
visual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111527276.1A
Other languages
English (en)
Other versions
CN114238439A (zh
Inventor
朱敏
李龙兴
田伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111527276.1A priority Critical patent/CN114238439B/zh
Publication of CN114238439A publication Critical patent/CN114238439A/zh
Application granted granted Critical
Publication of CN114238439B publication Critical patent/CN114238439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于联合嵌入的任务驱动关系型数据视图推荐方法,采集人类真实数据集及与之对应的可视化视图数据,通过数据集处理及可视化分析任务定义,构建数据集‑分析任务‑可视化视图语料库;通过特征工程,构建数据集级别特征提取方法;通过构建联合嵌入学习框架,分别通过数据集‑分析任务子网络、可视化视图子网络,提取数据集‑分析任务及可视化视图的嵌入表示,通过共享的神经网络实现数据集‑分析任务到可视化视图的跨模态的检索;构建多因素融合到视图推荐方法,通过基于相似度的初步推荐,及通过融合基于标注的视图任务匹配度、基于用户行为度量的用户偏好实现的推荐微调方法,最终实现了任务驱动的符合用户偏好的表格数据视图推荐。

Description

一种基于联合嵌入的任务驱动关系型数据视图推荐方法
技术领域
本发明涉及信息可视化、机器学习技术领域,具体为一种基于联合嵌入的任务驱动关系型数据视图推荐方法。
背景技术
随着大数据时代的来临,信息科学领域面临着一个巨大挑战:数据爆炸。人们获取数据和信息的能力越来越强,但是人们对于数据的处理和分析能力并不能与之相匹配,两者之间产生了越来越激烈的矛盾。因此,越来越多的研究人员或者数据分析师通过使用数据可视化工具和技术对将要分析的数据进行展示,从而发现数据中真正有价值的信息,获得对数据更深的洞察力。
人们对于可视化重要性的认识大大提高,同时可视化数据类型的多样性也促进了大量可视化工具的涌现。然而,目前大部分可视化工具多依赖于通过代码或拖拽来手动进行可视化图表的创建,这些工具的学习成本较高。此外,由于存在多种多样的可视化视图及方案,使得一个数据集可以通过不同的可视化视图来展示,以及日益增长的可视分析需求(如数据展示、数据质量管理、趋势分析等)也越来越趋于复杂化,这导致数据分析人员越来越难以针对他们的数据集和可视分析任务,准确地选择合适的可视化视图。从而导致了越来越多的领域专家缺乏大量时间或背景知识来学习并使用这些复杂的可视化工具。
因此,可视化推荐系统得以迅速发展。如何能够高效的对数据集进行分析,并自动对从数据集中选取所要展示的数据维度和图表的类型,并自动的生成有效的、可用的、有意义的可视化图表对降低用户使用成本、提高数据分析效率有重要意义。因此,如何构建一套准确、高效的可视化推荐方法成为当今可视化领域研究的主要方向。
但目前关于可视化推荐技术的研究方法仍存在不足之处。现有研究在进行可视化方法推荐时,大多只考虑了数据集特征对推荐结果的影响,缺失了对可视分析任务的考虑。机器学习方法应用在自动可视化领域中才刚刚起步,还未找到一种较为成熟的机器学习方法去对可视化方法进行推荐,以避免基于规则的推荐系统的冷启动问题。另一方面,现有研究所使用的数据集都是基于规则生成的,而不是现实生活中分析人员所真正使用的。现有方法还未打通从数据集、分析任务到最终的可视化图表的流程,缺乏端到端的框架。
发明内容
本发明所要解决的技术问题是针对关系型数据,提出一种端到端的面向数据-任务与可视化视图关联的联合嵌入学习框架,该框架将视图推荐问题抽象为匹配问题,针对数据集、分析任务、视图进行全面的嵌入表征,从而实现从数据集和分析任务到视图的最佳匹配。实现融合数据特征、可视分析任务、用户偏好的多因素的视图推荐。
为解决上述技术问题,本发明采用的技术方案是:
一种基于联合嵌入的任务驱动关系型数据视图推荐方法,包括以下步骤:
S1:确定数据类型,并对视图推荐问题进行抽象
确定数据类型为:可视化视图图像数据集、可视化视图所使用的数据集及将要完成的可视分析任务数据,即数据集-可视分析任务样本集;将视图推荐问题抽象为数据集-可视分析任务到可视化视图的跨模态检索问题;
S2:数据集级别的特征提取
通过特征工程,对需要被可视化的数据集进行特征提取;构建特征时分别构建单列特征和列与列间特征,使用聚合函数,对单列特征和列与列间进行聚合,得到能够表征整个数据集的高维特征向量;
S3:构建联合嵌入学习框架
构建双路网络架构的联合嵌入学习框架,包含三个关键部分:构建数据集-任务子网络、构建可视化视图子网络和构建共享参数的全连接神经网络;在训练过程中,所述数据集-任务子网络和可视化视图子网络独立训练,学习出针对于各自模态的嵌入向量;共享参数的全连接神经网络将上述两个子网络的嵌入向量映射到公共隐式向量空间,从而构建数据集-分析任务与可视化视图间的语义相关性;
S4:根据多因素融合的可视化方案推荐方法生成视图推荐列表
构建融合数据特征、分析任务和用户偏好的视图推荐算法:首先基于步骤S2特征提取方法,对数据集进行特征提取,然后对分析任务进行向量表征,通过计算各视图的推荐评分得到初始Top-2N视图推荐列表;最后,基于用户偏好对初始Top-2N视图推荐列表进行微调,最终生成Top-N的视图推荐列表。
进一步的,在步骤S1中,可视化视图类别数据包括:
六种简单视图:散点图、柱状图、折线图、饼图、面积图和热力图;
两种分布视图:箱线图和直方图;
两种金融视图:烛柱图和OHLC图;
两种定制视图:桑基图和平行坐标图;
所述可视分析任务包括:检索数据集中某一属性的值、依据条件进行过滤、根据聚合函数计算派生值、查找数据集中的极值、对数据集的某一属性进行排序、确定数据集中某一属性的取值范围、表征数据集的分布、寻找异常、聚类、相关性分析;所述可视分析任务通过一个10维向量进行表征;
所述跨模态检索问题为对于给定的数据集和分析任务,检索推荐的图表类型。
更进一步的,在步骤S2中,数据集级别的特征提取具体为:
S2.1:单列特征构建
数据集中的每一列,即数据集中的每一个属性,通过81个单列特征进行描述;并将该单列特征分为四类:
维度特征D:表示某一列属性所具有的行数;
类型特征T:描述列属性的类型,包括类别属性、时序属性和数值属性;
数值特征V1:描述列内值的统计和结构信息;
名称特征N1:描述列的名称;
S2.2:列与列间特征构建
使用30个列与列之间特征来描述列与列之间的关系;并将该列与列之间特征分为两类:数值特征V2和名称特征N2;
S2.3:特征融合
基于提取到的单列特征和列与列之间特征,使用16个聚合函数对这些单列特征和列与列之间特征进行聚合,得到一个841维的特征向量用于对整个数据集进行表征。
更进一步的,在步骤S3中,构建联合嵌入学习框架具体为:
S3.1:构建可视化视图子网络
所述可视化视图子网络选用Inception-ResNet-v2网络模型,该子网络的输入为一张描述可视化视图的RGB图像,将Inception-ResNet-v2网络架构中最后一层的全连接层设置为输出一个512维的嵌入向量,用于表征每张输入的可视化视图;
S3.2:构建数据集-任务子网络
所述数据集-任务子网络选用具有3层隐藏层的全连接神经网络;将表征分析任务的10维向量和步骤S2.3中得到的描述数据集特征的841维向量拼接后得到一个851维向量,将该向量作为数据集-任务子网络的输入,最终输出一个512维的嵌入向量,用于对数据集-分析任务进行表征;
S3.3:构建共享参数的全连接神经网络
所述共享参数的全连接神经网络结构含有3层隐藏层,用于将步骤S3.1和步骤S3.2得到的两个512维嵌入向量映射到一个数据集-分析任务和可视化视图的联合嵌入空间,最终分别生成一个256维的嵌入向量对两种模态的数据进行表征。
更进一步的,设置三种损失函数对不同模态的嵌入向量进行规范化处理,以加强联合嵌入的表征能力;所述三种损失函数为:
(1)基于排名约束的损失函数:
锚定一个经过L2正则化的<数据集-任务,可视化视图>嵌入向量正样本对<a,o>,其负样本为:
a′=argmini≠ad(i,o)和o′=argminj≠od(a,j)
基于排名约束的损失函数如下所示:
Lr=[α1+d(a,o)-d(a,o′)]+31-d(o,o′)]++[α2+d(o,a)-d(o,a′)]+42-d(a,a′)]+
式中:d(x)表示欧几里得距离函数;i是任意一个非锚定数据集-任务样本;j是任意一个非锚定可视化视图样本;α1、α2、β1和β2分别为预定义的边界值;λ3和λ4分别为超参数;其中[·]+满足[·]+=max(·,0);
(2)基于ID约束的损失函数:
采用基于ID约束的损失函数对联合嵌入的学习进行监督,如下所示:
Figure BDA0003409425870000051
式中:N为训练样本数量;若样本i正确预测为o,则y(i)=1,反之y(i)=0;
Figure BDA0003409425870000054
为样本i预测正确的概率;
(3)基于中心约束的损失函数:
基于中心约束的损失函数用于最小化类内方差,如下所示:
Figure BDA0003409425870000052
Figure BDA0003409425870000053
式中:N为训练样本数量;Ny是类别y的样本的数量;cy为类别y的样本集合;xk为集合cy第k个训练样本的特征向量;cyk为类别y的第k个训练样本的中心向量;
对三种损失函数进行结合,最终的损失函数如下所示:
L=Lr1Lid2Lcen
式中:λ1和λ2为超参数。
更进一步的,在步骤S4中,所述多因素融合的可视化方案推荐方法具体为:
S4.1:根据用户给定的数据集,进行数据集级别特征提取;
S4.2:根据用户给定分析任务,对分析任务进行向量表征;
S4.3:对数据集特征向量与分析任务表征向量拼接,并依次输入两个全连接神经网络,进行两次降维,得到表征数据集-分析任务的嵌入表示;
S4.4:根据所述表征数据集-分析任务的嵌入表示,从语料库中通过相似度计算得到推荐视图评分;
S4.5:根据所述推荐视图评分,并生成初始Top-2N视图推荐列表;
S4.6:基于视图和分析任务匹配度及用户偏好,对所述初始Top-2N视图推荐列表进行微调,最终得到Top-N视图推荐列表。
更进一步的,所述从语料库中通过相似度计算得到推荐视图评分,其中相似度计算公式如下:
Figure BDA0003409425870000061
式中:A,B为n维向量;Ae,Be为向量在第e个分量上的取值。
更进一步的,对所述初始Top-2N视图推荐列表进行微调依据加权排名具体计算公式如下:
rvd=w1Dataset(v,d)+w2Task(v,t)+w3Preference(v,u)
式中:Dataset(v,d)表示可视化视图v在数据集d上的表现效果评分,Task(v,t)表示可视化视图v在可视分析任务t的表现力评分,Preference(v,u)表示用户u对于可视化视图v的偏好度;w1,w2,w3分别表示数据集、可视分析任务、用户偏好在最终推荐评分中的权重,它们满足下式:
Figure BDA0003409425870000062
其中,对于Task(v,t),通过数据标注,对于每一个可视化视图v在每一个分析务t上,都有取值范围是1-5的评分;对于Preference(v,u),针对用户偏好对推荐结果的印象,是通过用户的浏览行为、点赞行为、拷贝行为转化为对某个可视化的喜好程度。
与现有技术相比,本发明的有益效果是:
1)现有可视化推荐方法,大多只考虑了数据集的特征对推荐结果的影响,缺失了对可视分析任务的考虑。本发明通过构建双路联合嵌入学习框架,将视图推荐任务转化为数据集及可视分析任务到可视化视图的跨模态检索问题,天然的将数据集特征和分析任务整合在一起,能使推荐结果更符合用户所选择的分析任务。
2)现有工作大多停留在如何去进行可视化推荐,还未打通数据集、分析任务到最重可视化图表的流程。本发明构建的端到端框架,实现了从数据集输入、分析任务选择到视图推荐的全流程,建立了数据-任务与可视化视图的联系和匹配识别能力。
附图说明
图1为数据集级别特征提取方法。
图2为联合嵌入框架的网络结构。
图3为多因素融合的视图推荐方法。
图4为基于联合嵌入的任务驱动关系型数据视图推荐方法框架。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明通过嵌入学习方法,通过对数据集-分析任务和视图进行向量表征,建立了数据-分析任务与可视化视图之间的关联关系,构建任务驱动的关系型数据视图推荐方法。技术方案包括:数据及问题抽象、数据集级别的特征提取、联合嵌入学习框架构建、多因素融合的可视化方案推荐方法构建,具体如下:
一、数据及问题抽象
为了学习数据集-分析任务与可视化视图的映射关系。包含两类数据:数据集-分析任务样本集,可视化视图样本集合。两类数据均来自公开的真实数据。
数据集为需要被分析的表格数据。
分析任务在本发明种用10维向量表征,包含下列10种常用的分析任务:检索数据集中某一属性的值、依据条件进行过滤、根据聚合函数计算派生值、查找数据集中的极值、对数据集的某一属性进行排序、确定数据集中某一属性的取值范围、表征数据集的分布、寻找异常、聚类和相关性分析。
可视化视图包含12种常用图表类型,如表1:
表1包含的12种视图
Figure BDA0003409425870000081
本发明将将可视化视图的推荐问题抽象为一个跨模态检索问题,具体问题定义如下:
给定可视化样本集为
Figure BDA0003409425870000082
数据集-分析任务样本集为
Figure BDA0003409425870000083
类标集为C=[c1,c2,···,cn]∈Rc×n,构造训练集为O={oi=[xi,vi,ci].i=1,2,···,n}。如果{xi,vi}属于第j类,则cij=1,否则cij=0。样本对
Figure BDA0003409425870000084
给出了可视化视图模态和数据集-分析任务模态间的语义对应关系。
设测试集T={tk=[xk,vk].k=1,2,···,m},其中
Figure BDA0003409425870000091
和/>
Figure BDA0003409425870000092
是两种不同模态样本。跨模态检索问题的目标就是学习到一种跨模态的相似性度量sim(·),对于给定的查询xq∈X,返回最相似的另一模态样本:vq=minsim(xq-vt)。
二、数据集级别的特征提取
如图1所示,本发明采用的数据特征提取方法,会对数据集的每一列构建81个特征,对列于列间关系构建30个特征,并通过聚合函数对两类特征进行融合,生成841维的向量对整个数据集进行表征。
a)特征选择
对数据集中的每一列(即数据集中的每一个属性)通过81个特征进行描述,如表2所示。这些特征可以分为四类:维度特征(D)表示了某一列属性所具有的行数;类型特征(T)描述了列属性的类型:类别属性、时序属性、数值属性;数值特征(V1)描述了列内值的统计和结构信息;名称特征(N1)描述了列的名称。
表2单列特征
Figure BDA0003409425870000093
Figure BDA0003409425870000101
使用30个特征描述列与列间关系,如表3所示。这些特征被分为两类:数值特征(V2)和名称特征(N2)。
表3列与列间特征
Figure BDA0003409425870000102
b)特征融合
基于上述所提取的单列特征和列与列之间的特征,本文使用表4中所示的16个聚合函数对这些单列特征和列与列之间的特征进行聚合,从而得到了一个841维的特征向量用于对整个数据集进行表征,如图1所示。
表4用于特征融合的聚合函数
Figure BDA0003409425870000111
三、联合嵌入学习框架
a)网络架构
图2描述了本发明所提出的联合嵌入学习框架的双路网络架构,其中包含3个最关键的部分:数据集-任务子网络、可视化视图子网络、共享参数的全连接神经网络结构。其中,数据集-任务子网络和可视化视图子网络在训练过程中分别训练,具有各自独立的网络参数,从而可以学习出针对于各自模态的嵌入向量。对于共享参数的全连接网络而言,具有相同的网络参数,用于将从上述两个子网络中得到的嵌入向量映射到一个公共的隐式向量空间,进而建立起数据集-分析任务与可视化视图之间的语义相关性。
下面将对三个网络结构进行详细的阐述。
步骤1:本发明首先进行语料库构建,语料库来自收集的人类真实生成数据集及视图,包含数据集-可视分析任务样本和对应的可视化视图样本集合,数据集-可视分析任务样本和视图样本通过设置相同ID进行匹配。
步骤2:通过ID对语料库进行批采样,构建N个样本对作为训练集,每一个样本对包含一个数据集-可视分析任务样本和一个与之对应的可视化视图。
步骤3:采用Inception-ResNet-v2(Szegedy C,Ioffe S,Vanhoucke V,etal.Inception-v4,Inception-ResNet and the Impact of Residual Connections onLearning[C].Proceedings of the 31st AAAI Conference on ArtificialIntelligence.San Francisco:AAAI Press,2017:4278-4284.)网络模型作为可视化视图子网络,用于提取可视化视图特征。并将Inception-ResNet-v2网络架构中最后一层的全连接层设置为输出一个512维的嵌入向量,用于表征每张输入的可视化视图。
步骤4:本发明构建数据集-任务子网络构建数据集-任务的向量表征,具体分为如下步骤:
步骤4.1:通过上文提到的特征提取方法,对数据集进行特征提取,得到841维的数据集表征向量d。
步骤4.2:通过10维向量t,对分析任务进行表征。
步骤4.3:将分析任务表征向量t拼接在数据集表征向量d后,构建851维的数据集-分析任务表征向量。
步骤4.4:如图1,将表征向量输入数据集-任务子网络。该网络是一个具有3层隐藏层的全连接神经网络,用于将描述数据集-分析任务的851维向量进行降维,最终输出一个512维的嵌入向量,对数据集-任务进行表征。
步骤5:如图1,本文构建共享参数的全连接神经网络FCNN2,将步骤3和步骤4得到的跨模态表征向量作为输入,将两个512维的嵌入向量映射到一个数据集-分析任务和可视化视图的联合嵌入空间,它们两个之间的网络参数共享,最终分别生成一个256维的嵌入向量对两种模态数据进行表征。
b)损失函数设计
本发明设计三种新颖的损失函数,分别是:基于排名约束的损失函数、基于ID约束的损失函数和基于中心约束的损失函数。这些损失函数对不同模态的嵌入向量进行规范化处理,从而加强联合嵌入的表征能力。下面将依次对这三种损失函数展开详细的介绍:
基于排名约束的损失函数:
本发明所设计的排名约束损失函数是双向的,可以更好地提升所训练出的嵌入向量的表征能力。在检索任务中,根据评级指标R@1,负样本(hardest negative)往往是决定成功与否的关键所在,因此,本文将重点放在负样本的训练上。给定一个经过L2正则化的<数据集-任务,可视化视图>嵌入向量正样本对<a,o>,其负样本为:
a′=argmini≠ad(i,o)和o′=argminj≠od(a,j),排名约束损失函数如下所示:
基于排名约束的损失函数如下所示:
Lr=[α1+d(a,o)-d(a,o′)]+31-d(o,o′)]++[α2+d(o,a)-d(o,a′)]+42-d(a,a′)]+
式中:d(x)表示欧几里得距离函数;i是任意一个非锚定数据集-任务样本;j是任意一个非锚定可视化视图样本;α1、α2、β1和β2为预定义的边界值;λ3和λ4别超参数;其中[·]+满足[·]+=max(·,0)。
由于排名损失函数是双向且对称的,下面将从数据集-任务到可视化视图角度说明其功能。对于一个给定的批采样(mini-batch),其中包含N个数据集-任务嵌入向量和N个可视化视图嵌入向量。对于锚定的数据集-任务嵌入向量a,正可视化视图样本的嵌入o到a的距离应该小于a到负可视化视图样本嵌入o′的距离:
d(a,o)<d(a.o′)-α1
式中:o和o′具有不同的ID,α1为预定义的边界。
此外,o和o′的距离还应该大于预定义的边界β1
d(o,o′)>β1
基于ID约束的损失函数:
本发明使用了基于ID约束的损失函数对联合嵌入的学习进行监督,如下所示:
Figure BDA0003409425870000141
式中:N为训练样本数量;若样本i正确预测为o,则y(i)=1,反之y(i)=0;
Figure BDA0003409425870000144
为样本i预测正确的概率。
基于中心约束的损失函数:
基于中心约束的损失函数用于最小化类内方差,如下所示:
Figure BDA0003409425870000142
Figure BDA0003409425870000143
式中:N为训练样本数量;Ny是类别y的样本的数量;cy为类别y的样本集合;xk为集合cy第k个训练样本的特征向量;cyk为类别y的第k个训练样本的中心向量。
对三种损失函数进行结合,最终的损失函数如下所示。
L=Lr1Lid2Lcen
c)框架实现与参数设置
本发明所提出的联合嵌入学习框架中涉及神经网络的部分均使用PyTorch来实现,将动量衰减值(momentum decay value)和权重衰减值(weight decay value)分别设置为0.9和0.0005,同时,对数衰减学习率设置初始值为10-3,衰减步长设置为10-8。对于损失函数中所涉及的超参数,设定为λ1=1,λ2=0.001,λ3=λ4=0.1。此外,设置边界值为α1=α2=0.6,β1=β2=0.2。
四、多因素融合的可视化方案推荐方法:
a)问题定义:
本发明的视图推荐方法将可视化推荐的过程定义为:给定可视化视图集合V={v1,v2,···,vn},对于待可视化的数据d∈D={d1,d2,···,dm},算法对可视化视图v1在数据集d上的表现效果进行推荐打分rvid为:
rvid=score(vi,q)
根据推荐评分从高到低的顺序,对可视化视图进行排序,将排序列表中Top-N的可视化视图作为放入视图推荐结果列表,如下所示:
[vr1,vr2,····,vrn]=argTopN{score(vi,d)}
在视图推荐结果列表中,可视化视图是按照在给定数据集上的推荐评分进行排序的。对于推荐结果列表中位置越靠前的可视化视图,被推荐使用的可能性越大。
b)算法流程:
如图3所示,展示了本发明所提出的多因素融合的可视化方案推荐算法流程。
具体步骤如下:
步骤1:用户输入数据集和分析任务。
步骤2:对数据集进行特征提取,用841维特征向量表示。
步骤3:将用户指定的分析任务实用10维向量表示。
步骤4:将步骤2和步骤3的向量进行拼接,依次输入图2所示的训练好的数据集任务子网络FCNN1和共享参数的全连接神经网络FCNN2,最终得到256位的嵌入。
步骤5:根据嵌入,从语料库中根据相似度计算各视图推荐评分。相似度计算公式如下:
Figure BDA0003409425870000161
式中:A,B为n维向量;Ae,Be为向量在第e个分量上的取值。
步骤6:根据步骤四的推荐度评分,生成初始的Top-2N视图推荐列表。
步骤7:对视图和分析任务匹配度及用户偏好进行度量,并对初始推荐列表进行微调。微调方法依据加权排名得到,具体计算公式如下:
rvd=w1Dataset(v,d)+w2Task(v,t)+w3Preference(v,u)
式中:u为用户,t为可视分析任务。
其中,Dataset(v,d)表示可视化视图v在数据集d上的表现效果评分,Task(v,t)表示可视化视图v在分析任务t的表现力评分,Preference(v,u)表示用户u对于可视化视图v的偏好度。w1,w2,w3分别表示数据集、可视分析任务、用户偏好在最终推荐评分中的权重,它们满足下式:
Figure BDA0003409425870000162
其中,对于Task(v,t),通过数据标注,对于每一个可视化视图在v在每一个分析务t上,都有取值范围是1-5的评分。
其中,对于Preference(v,u),针对用户偏好对推荐结果的印象,是通过用户的浏览行为、点赞行为、拷贝行为转化为对某个可视化的喜好程度,本发明对这三种行为进行加权处理,用户所浏览过的可视化视图类型比重为0.2,点赞过的可视化视图类型比重为0.3,拷贝过的可视化视图类型为0.5,最终得到用户对某一类型可视化视图的喜好程度。

Claims (8)

1.一种基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,包括以下步骤:
S1:确定数据类型,并对视图推荐问题进行抽象
确定数据类型为:可视化视图图像数据集、可视化视图所使用的数据集及将要完成的可视分析任务数据,即数据集-可视分析任务样本集;将视图推荐问题抽象为数据集-可视分析任务到可视化视图的跨模态检索问题;
S2:数据集级别的特征提取
通过特征工程,对需要被可视化的数据集进行特征提取;构建特征时分别构建单列特征和列与列间特征,使用聚合函数,对单列特征和列与列间进行聚合,得到能够表征整个数据集的高维特征向量;
S3:构建联合嵌入学习框架
构建双路网络架构的联合嵌入学习框架,包含三个关键部分:构建数据集-任务子网络、构建可视化视图子网络和构建共享参数的全连接神经网络;在训练过程中,所述数据集-任务子网络和可视化视图子网络独立训练,学习出针对于各自模态的嵌入向量;共享参数的全连接神经网络将上述两个子网络的嵌入向量映射到公共隐式向量空间,从而构建数据集-分析任务与可视化视图间的语义相关性;
S4:根据多因素融合的可视化方案推荐方法生成视图推荐列表
构建融合数据特征、分析任务和用户偏好的视图推荐算法:首先基于步骤S2特征提取方法,对数据集进行特征提取,然后对分析任务进行向量表征,通过计算各视图的推荐评分得到初始Top-2N视图推荐列表;最后,基于用户偏好对初始Top-2N视图推荐列表进行微调,最终生成Top-N的视图推荐列表。
2.根据权利要求1所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,在步骤S1中,可视化视图类别数据包括:
六种简单视图:散点图、柱状图、折线图、饼图、面积图和热力图;
两种分布视图:箱线图和直方图;
两种金融视图:烛柱图和OHLC图;
两种定制视图:桑基图和平行坐标图;
所述可视分析任务包括:检索数据集中某一属性的值、依据条件进行过滤、根据聚合函数计算派生值、查找数据集中的极值、对数据集的某一属性进行排序、确定数据集中某一属性的取值范围、表征数据集的分布、寻找异常、聚类、相关性分析;所述可视分析任务通过一个10维向量进行表征;
所述跨模态检索问题为对于给定的数据集和分析任务,检索推荐的图表类型。
3.根据权利要求2所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,在步骤S2中,数据集级别的特征提取具体为:
S2.1:单列特征构建
数据集中的每一列,即数据集中的每一个属性,通过81个单列特征进行描述;并将该单列特征分为四类:
维度特征D:表示某一列属性所具有的行数;
类型特征T:描述列属性的类型,包括类别属性、时序属性和数值属性;
数值特征V1:描述列内值的统计和结构信息;
名称特征N1:描述列的名称;
S2.2:列与列间特征构建
使用30个列与列之间特征来描述列与列之间的关系;并将该列与列之间特征分为两类:数值特征V2和名称特征N2;
S2.3:特征融合
基于提取到的单列特征和列与列之间特征,使用16个聚合函数对这些单列特征和列与列之间特征进行聚合,得到一个841维的特征向量用于对整个数据集进行表征。
4.根据权利要求3所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,在步骤S3中,构建联合嵌入学习框架具体为:
S3.1:构建可视化视图子网络
所述可视化视图子网络选用Inception-ResNet-v2网络模型,该子网络的输入为一张描述可视化视图的RGB图像,将Inception-ResNet-v2网络架构中最后一层的全连接层设置为输出一个512维的嵌入向量,用于表征每张输入的可视化视图;
S3.2:构建数据集-任务子网络
所述数据集-任务子网络选用具有3层隐藏层的全连接神经网络;将表征分析任务的10维向量和步骤S2.3中得到的描述数据集特征的841维向量拼接后得到一个851维向量,将该向量作为数据集-任务子网络的输入,最终输出一个512维的嵌入向量,用于对数据集-分析任务进行表征;
S3.3:构建共享参数的全连接神经网络
所述共享参数的全连接神经网络结构含有3层隐藏层,用于将步骤S3.1和步骤S3.2得到的两个512维嵌入向量映射到一个数据集-分析任务和可视化视图的联合嵌入空间,最终分别生成一个256维的嵌入向量对两种模态的数据进行表征。
5.根据权利要求4所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,设置三种损失函数对不同模态的嵌入向量进行规范化处理,以加强联合嵌入的表征能力;所述三种损失函数为:
(1)基于排名约束的损失函数:
锚定一个经过L2正则化的<数据集-任务,可视化视图>嵌入向量正样本对<a,o>,其负样本为:
a′=argmini≠ad(i,o)和o′=argminj≠od(a,j)
基于排名约束的损失函数如下所示:
Lr=[α1+d(a,o)-d(a,o′)]+31-d(o,o′)]++[α2+d(o,a)-d(o,a′)]+42-d(a,a′)]+
式中:d(x)表示欧几里得距离函数;i是任意一个非锚定数据集-任务样本;j是任意一个非锚定可视化视图样本;α1、α2、β1和β2为预定义的边界值;λ3和λ4分别为超参数;其中[·]+满足[·]+=max(·,0);
(2)基于ID约束的损失函数:
采用基于ID约束的损失函数对联合嵌入的学习进行监督,如下所示:
Figure FDA0003409425860000041
式中:N为训练样本数量;若样本i正确预测为o,则y(i)=1,反之y(i)=0;
Figure FDA0003409425860000042
为样本i预测正确的概率;
(3)基于中心约束的损失函数:
基于中心约束的损失函数用于最小化类内方差,如下所示:
Figure FDA0003409425860000043
Figure FDA0003409425860000044
式中:N为训练样本数量;Ny是类别y的样本的数量;cy为类别y的样本集合;xk为集合cy第k个训练样本的特征向量;
Figure FDA0003409425860000051
为类别y的第k个训练样本的中心向量;
对三种损失函数进行结合,最终的损失函数如下所示:
L=Lr1Lid2Lcen
式中:λ1和λ2为超参数。
6.根据权利要求1所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,在步骤S4中,所述多因素融合的可视化方案推荐方法具体为:
S4.1:根据用户给定的数据集,进行数据集级别特征提取;
S4.2:根据用户给定分析任务,对分析任务进行向量表征;
S4.3:对数据集特征向量与分析任务表征向量拼接,并依次输入两个全连接神经网络,进行两次降维,得到表征数据集-分析任务的嵌入表示;
S4.4:根据所述表征数据集-分析任务的嵌入表示,从语料库中通过相似度计算得到推荐视图评分;
S4.5:根据所述推荐视图评分,并生成初始Top-2N视图推荐列表;
S4.6:基于视图和分析任务匹配度及用户偏好,对所述初始Top-2N视图推荐列表进行微调,最终得到Top-N视图推荐列表。
7.根据权利要求6所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,所述从语料库中通过相似度计算得到推荐视图评分,其中相似度计算公式如下:
Figure FDA0003409425860000052
式中:A,B为n维向量;Ae,Be为向量在第e个分量上的取值。
8.根据权利要求6所述的基于联合嵌入的任务驱动关系型数据视图推荐方法,其特征在于,对所述初始Top-2N视图推荐列表进行微调依据加权排名具体计算公式如下:
rvd=w1Dataset(v,d)+w2Task(v,t)+w3Preference(v,u)
式中:Dataset(v,d)表示可视化视图v在数据集d上的表现效果评分,Task(v,t)表示可视化视图v在可视分析任务t的表现力评分,Preference(v,u)表示用户u对于可视化视图v的偏好度;w1,w2,w3分别表示数据集、可视分析任务、用户偏好在最终推荐评分中的权重,它们满足下式:
Figure FDA0003409425860000061
其中,对于Task(v,t),通过数据标注,对于每一个可视化视图v在每一个分析务t上,都有取值范围是1-5的评分;对于Preference(v,u),针对用户偏好对推荐结果的印象,是通过用户的浏览行为、点赞行为、拷贝行为转化为对某个可视化的喜好程度。
CN202111527276.1A 2021-12-14 2021-12-14 一种基于联合嵌入的任务驱动关系型数据视图推荐方法 Active CN114238439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111527276.1A CN114238439B (zh) 2021-12-14 2021-12-14 一种基于联合嵌入的任务驱动关系型数据视图推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111527276.1A CN114238439B (zh) 2021-12-14 2021-12-14 一种基于联合嵌入的任务驱动关系型数据视图推荐方法

Publications (2)

Publication Number Publication Date
CN114238439A CN114238439A (zh) 2022-03-25
CN114238439B true CN114238439B (zh) 2023-03-28

Family

ID=80755808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111527276.1A Active CN114238439B (zh) 2021-12-14 2021-12-14 一种基于联合嵌入的任务驱动关系型数据视图推荐方法

Country Status (1)

Country Link
CN (1) CN114238439B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092577B (zh) * 2023-01-09 2024-01-05 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024083A1 (en) * 2017-08-04 2019-02-07 Nokia Technologies Oy ARTIFICIAL NEURONAL NETWORK
WO2020028382A1 (en) * 2018-07-30 2020-02-06 Memorial Sloan Kettering Cancer Center Multi-modal, multi-resolution deep learning neural networks for segmentation, outcomes prediction and longitudinal response monitoring to immunotherapy and radiotherapy
CN111476319A (zh) * 2020-05-08 2020-07-31 网易(杭州)网络有限公司 商品推荐方法、装置、存储介质和计算设备
CN112364245A (zh) * 2020-11-20 2021-02-12 浙江工业大学 基于异构信息网络嵌入的Top-K电影推荐方法
CN112507246A (zh) * 2020-12-13 2021-03-16 天津大学 一种融合全局和局部社会兴趣影响的社会推荐方法
CN113222775A (zh) * 2021-05-28 2021-08-06 北京理工大学 融合多模态信息及权重张量的用户身份关联方法
CN113515942A (zh) * 2020-12-24 2021-10-19 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN113590900A (zh) * 2021-07-29 2021-11-02 南京工业大学 一种融合动态知识图谱的序列推荐方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100400B2 (en) * 2018-02-15 2021-08-24 Adobe Inc. Generating visually-aware item recommendations using a personalized preference ranking network
US20200012939A1 (en) * 2018-07-07 2020-01-09 Massachusetts Institute Of Technology Methods and Apparatus for Visualization Recommender
US20210065066A1 (en) * 2019-08-30 2021-03-04 Google Llc Machine-Learned State Space Model for Joint Forecasting
US20210342490A1 (en) * 2020-05-04 2021-11-04 Cerebri AI Inc. Auditable secure reverse engineering proof machine learning pipeline and methods

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024083A1 (en) * 2017-08-04 2019-02-07 Nokia Technologies Oy ARTIFICIAL NEURONAL NETWORK
WO2020028382A1 (en) * 2018-07-30 2020-02-06 Memorial Sloan Kettering Cancer Center Multi-modal, multi-resolution deep learning neural networks for segmentation, outcomes prediction and longitudinal response monitoring to immunotherapy and radiotherapy
CN111476319A (zh) * 2020-05-08 2020-07-31 网易(杭州)网络有限公司 商品推荐方法、装置、存储介质和计算设备
CN112364245A (zh) * 2020-11-20 2021-02-12 浙江工业大学 基于异构信息网络嵌入的Top-K电影推荐方法
CN112507246A (zh) * 2020-12-13 2021-03-16 天津大学 一种融合全局和局部社会兴趣影响的社会推荐方法
CN113515942A (zh) * 2020-12-24 2021-10-19 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN113222775A (zh) * 2021-05-28 2021-08-06 北京理工大学 融合多模态信息及权重张量的用户身份关联方法
CN113590900A (zh) * 2021-07-29 2021-11-02 南京工业大学 一种融合动态知识图谱的序列推荐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Jakub Špaňhel等.Learning feature aggregation in temporal domain for re-identification.《Computer Vision and Image Understanding》.2020,第192卷1-6. *
Saining Xie等.Aggregated Residual Transformations for Deep Neural Networks.《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》.2017,1492-1500. *
刘慧婷;纪强;刘慧敏;赵鹏.基于双层注意力机制的联合深度推荐模型.华南理工大学学报(自然科学版).2020,(第06期),101-109. *
李志义;黄子风;许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述.情报学报.2018,(第04期),86-99. *
柴玉梅;员武莲;王黎明;刘箴.基于双注意力机制和迁移学习的跨领域推荐模型.计算机学报.2020,(第10期),136-154. *

Also Published As

Publication number Publication date
CN114238439A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
WO2019015246A1 (zh) 图像特征获取
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN107766933A (zh) 一种解释卷积神经网络的可视化方法
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN110765781B (zh) 一种领域术语语义知识库人机协同构建方法
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN116186381A (zh) 智能检索推荐方法及系统
CN114238439B (zh) 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN113869034B (zh) 基于强化依赖图的方面情感分类方法
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
CN114662652A (zh) 一种基于多模态信息学习的专家推荐方法
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Li et al. Knowledge topic-structure exploration for online innovative knowledge acquisition
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质
Zheng Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University
Kong et al. A method of data analysis based on division-mining-fusion strategy
Zhou et al. Data mining method based on rough set and fuzzy neural network
Xu et al. Similarmf: a social recommender system using an embedding method
Ali et al. A brief analysis of data mining techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant