CN112925963B - 数据推荐方法和装置 - Google Patents

数据推荐方法和装置 Download PDF

Info

Publication number
CN112925963B
CN112925963B CN201911241226.XA CN201911241226A CN112925963B CN 112925963 B CN112925963 B CN 112925963B CN 201911241226 A CN201911241226 A CN 201911241226A CN 112925963 B CN112925963 B CN 112925963B
Authority
CN
China
Prior art keywords
data
samples
user
data set
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911241226.XA
Other languages
English (en)
Other versions
CN112925963A (zh
Inventor
李国琪
姜伟浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201911241226.XA priority Critical patent/CN112925963B/zh
Publication of CN112925963A publication Critical patent/CN112925963A/zh
Application granted granted Critical
Publication of CN112925963B publication Critical patent/CN112925963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Abstract

本申请公开了一种数据推荐方法和装置,属于大数据处理技术领域。本申请可以通过获取目标使用者的使用者信息,并根据该目标使用者的使用者信息和数据推荐模型,确定为该目标使用者推荐的包括多个第一数据集的第一推荐列表,相较于人工查找的方式,本方案以一种智能推荐的方式,可以更加快速地为目标使用者推荐数据集。并且,由于该数据推荐模型是根据多个数据集样本、使用过该多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到的,因此,通过该数据推荐模型可以为该目标使用者推荐更为合适的数据集。

Description

数据推荐方法和装置
技术领域
本申请涉及大数据处理技术领域,特别涉及一种数据推荐方法和装置。
背景技术
当前,存储在数据库中的数据集日益增加。使用者可以根据需求,从数据库中存储的海量的数据集中获取目标数据集。例如,一个公司的数据库中可以包括诸如工资表、员工信息表、采购表、业绩表等数据集,使用者可以在需要的时候,从该数据库中获取目标数据集。
在相关技术中,当使用者从数据库中获取目标数据集时,使用者需要根据自身知道的一些关键词,人工从数据库中海量的数据集中按照目录、文件命名等进行查找。由于数据库中存储的数据集体系庞大、类型繁杂,使用者可能对数据库中存储的数据集了解不够,对文件命名的规则也了解较少,因此,往往要查看多个目录或文件才能找到想要的目标数据集,查找速度很慢。另外,使用者根据自身知道的一些关键词,可能会从数据库中查找到多个感兴趣的数据集,使用者可以从这几个数据集中选择一个数据集作为获取的目标数据集,这种情况下,由于这几个数据集的数据质量可能有高有低,且这几个数据集的数据规模可能也相差较大,因此,使用者最终获取的目标数据集的数据质量可能较低、数据规模也可能不合适。
由上述可知,如何快速有效地从海量的数据集中获取到适合使用者的目标数据集,仍是当前大数据处理技术领域的一个难题,因此,亟需一种智能的数据推荐方法,以快速高效地推荐数据集给使用者。
发明内容
本申请提供了一种数据推荐方法和装置,可以解决相关技术中人工方式获取目标数据集的速度较慢、且获取到的目标数据集的可能不合适的问题。所述技术方案如下:
一方面,提供了一种数据推荐方法,所述方法包括:
获取目标使用者的使用者信息;
根据所述目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,所述第一推荐列表包括为所述目标使用者推荐的多个第一数据集;
其中,所述数据推荐模型是根据多个数据集样本、使用所述多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到,所述使用日志数据包括所述多个使用者样本的历史使用记录。
可选地,所述根据所述目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,包括:
通过所述数据推荐模型对所述目标使用者的使用者信息进行处理,得到第二推荐列表,所述第二推荐列表包括多个第二数据集;
根据第一特征集、第二特征集、第三特征集和所述第二推荐列表,确定所述第一推荐列表,所述多个第一数据集和所述第二数据集存在交集;
其中,所述第一特征集包括所述多个数据集样本的特征信息,所述第二特征集包括所述多个使用者样本的属性信息,所述多个使用者样本的属性信息从所述多个使用者样本的使用者信息中提取得到,所述第三特征集包括所述多个使用者样本与多个数据集样本之间的关联关系、所述多个数据集样本中各个数据集样本的关联关系以及多个使用者样本中各个使用者样本之间的关联关系。
可选地,所述根据所述目标使用者的使用者信息和数据推荐模型,确定第一推荐列表之前,还包括:
根据所述多个数据集样本,确定第一特征集;
根据所述多个使用者样本的使用者信息,确定第二特征集;
根据所述使用日志数据、所述第一特征集和所述第二特征集,确定第三特征集;
根据所述第一特征集、所述第三特征集和所述使用日志数据,确定所述数据推荐模型。
可选地,所述根据所述多个数据集样本,确定所述第一特征集,包括:
确定所述多个数据集样本中每个数据集样本的数据规模信息,所述数据规模信息包括相应数据集样本内包含的数据样本数量和数据样本的属性数量;
根据所述多个数据集样本中每个数据集样本内包含的数据的错误率,确定所述相应数据集样本的数据质量得分;
获取所述多个数据集样本中每个数据集样本对应的数据业务标签;
将所述多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息;
将包含有所述多个数据集样本的特征信息的集合作为所述第一特征集。
可选地,所述根据所述使用日志数据、所述第一特征集和所述第二特征集,确定第三特征集,包括:
根据所述使用日志数据,生成图谱结构,所述图谱结构用于表征所述多个使用者样本和多个数据集样本之间的关联关系;
根据所述使用日志数据,确定所述多个数据集样本中每个数据集样本的链接值,所述链接值用于指示相应数据集样本与所述多个数据集样本中剩余数据集样本之间的关联关系;
根据所述第一特征集、所述第二特征集和所述使用日志数据,确定所述多个使用者样本中每两个使用者样本之间的相似度和所述多个数据集样本中每两个数据集样本之间的相似度;
将包含有所述图谱结构、每个数据集样本的链接值、所述多个使用者样本中每两个使用者样本之间的相似度、所述多个数据集样本中每两个数据集样本之间的相似度的集合作为所述第三特征集。
可选地,所述根据所述第一特征集、所述第三特征集和所述使用日志数据,确定所述数据推荐模型,包括:
根据所述第一特征集、所述第三特征集和所述使用日志数据,确定训练集,所述训练集包括多个训练样本,所述多个训练样本中的每个训练样本包括所述多个使用者样本中的一个使用者样本的使用者信息,以及相应使用者样本使用所述多个数据集样本中的每个数据集样本的使用概率;
根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果;
根据每个训练样本对应的模型预测结果,确定所述基础数据推荐模型的模型评价数据;
如果所述模型评价数据不满足预设条件,根据所述模型评价数据、所述第一特征集、所述第三特征集和所述使用日志数据,对所述训练集进行更新,返回所述根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果的步骤,直到所述模型评价数据满足所述预设条件时,将最后一次得到的基础数据推荐模型作为所述数据推荐模型。
可选地,所述根据所述目标使用者的使用者信息和数据推荐模型,确定第一推荐列表之后,还包括:
获取所述目标使用者在使用目标数据集时产生的目标使用记录,所述目标数据集是所述目标使用者在所述第一推荐列表包括的多个第一数据集中选择的数据集;
将所述目标使用记录作为所述目标使用者的历史使用记录添加至所述使用日志数据中。
另一方面,提供了一种数据推荐装置,所述装置包括:
第一获取模块,用于获取目标使用者的使用者信息;
第一确定模块,用于根据所述目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,所述第一推荐列表包括为所述目标使用者推荐的多个第一数据集;
其中,所述数据推荐模型是根据多个数据集样本、使用所述多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到,所述使用日志数据包括所述多个使用者样本的历史使用记录。
可选地,所述第一确定模块包括:
处理子模块,用于通过所述数据推荐模型对所述目标使用者的使用者信息进行处理,得到第二推荐列表,所述第二推荐列表包括多个第二数据集;
第一确定子模块,用于根据第一特征集、第二特征集和第三特征集和所述第二推荐列表,确定所述第一推荐列表,所述多个第一数据集和所述第二数据集存在交集;
其中,所述第一特征集包括所述多个数据集样本的特征信息,所述第二特征集包括所述多个使用者样本的属性信息,所述多个使用者样本的属性信息从所述多个使用者样本的使用者信息中提取得到,所述第三特征集包括所述多个使用者样本与多个数据集样本之间的关联关系、所述多个数据集样本中各个数据集样本的关联关系以及多个使用者样本中各个使用者样本之间的关联关系。
可选地,所述装置还包括:
第二确定模块,用于根据所述多个数据集样本,确定第一特征集;
第三确定模块,用于根据所述多个使用者样本的使用者信息,确定第二特征集;
第四确定模块,用于根据所述使用日志数据、所述第一特征集和所述第二特征集,确定第三特征集;
第五确定模块,用于根据所述第一特征集、所述第三特征集和所述使用日志数据,确定所述数据推荐模型。
可选地,所述第二确定模块包括:
第二确定子模块,用于确定所述多个数据集样本中每个数据集样本的数据规模信息,所述数据规模信息包括相应数据集样本内包含的数据样本数量和数据样本的属性数量;
第三确定子模块,用于根据所述多个数据集样本中每个数据集样本内包含的数据的错误率,确定所述相应数据集样本的数据质量得分;
获取子模块,用于获取所述多个数据集样本中每个数据集样本对应的数据业务标签;
第四确定子模块,用于将所述多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息;
第五确定子模块,用于将包含有所述多个数据集样本的特征信息的集合作为所述第一特征集。
可选地,所述第四确定模块包括:
生成子模块,用于根据所述使用日志数据,生成图谱结构,所述图谱结构用于表征所述多个使用者样本和多个数据集样本之间的关联关系;
第六确定子模块,用于根据所述使用日志数据,确定所述多个数据集样本中每个数据集样本的链接值,所述链接值用于指示相应数据集样本与所述多个数据集样本中剩余数据集样本之间的关联关系;
第七确定子模块,用于根据所述第一特征集、所述第二特征集和所述使用日志数据,确定所述多个使用者样本中每两个使用者样本之间的相似度和所述多个数据集样本中每两个数据集样本之间的相似度;
第八确定子模块,用于将包含有所述图谱结构、每个数据集样本的链接值、所述多个使用者样本中每两个使用者样本之间的相似度、所述多个数据集样本中每两个数据集样本之间的相似度的集合作为所述第三特征集。
可选地,所述第五确定模块具体用于:
根据所述第一特征集、所述第三特征集和所述使用日志数据,确定训练集,所述训练集包括多个训练样本,所述多个训练样本中的每个训练样本包括所述多个使用者样本中的一个使用者样本的使用者信息,以及相应使用者样本使用所述多个数据集样本中的每个数据集样本的使用概率;
根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果;
根据每个训练样本对应的模型预测结果,确定所述基础数据推荐模型的模型评价数据;
如果所述模型评价数据不满足预设条件,根据所述模型评价数据、所述第一特征集、所述第三特征集和所述使用日志数据,对所述训练集进行更新,返回所述根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果的步骤,直到所述模型评价数据满足所述预设条件时,将最后一次得到的基础数据推荐模型作为所述数据推荐模型。
可选地,所述装置还包括:
第二获取模块,用于获取所述目标使用者在使用目标数据集时产生的目标使用记录,所述目标数据集是所述目标使用者在所述第一推荐列表包括的多个第一数据集中选择的数据集;
添加模块,用于将所述目标使用记录作为所述目标使用者的历史使用记录添加至所述使用日志数据中。
另一方面,提供了一种数据推荐设备,所述数据推荐设备包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的程序,以实现上述所述数据推荐方法的步骤。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述所述数据推荐方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的数据推荐方法的步骤。
本申请提供的技术方案至少可以带来以下有益效果:
在本申请中,可以通过获取目标使用者的使用者信息,并根据该目标使用者的使用者信息和数据推荐模型,确定为该目标使用者推荐的包括多个第一数据集的第一推荐列表,相较于人工查找的方式,本方案以一种智能推荐的方式,可以更加快速地为目标使用者推荐数据集。并且,由于该数据推荐模型是根据多个数据集样本、使用过该多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到的,因此,通过该数据推荐模型可以为该目标使用者推荐更为合适的数据集。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据推荐方法所涉及的实施环境示意图;
图2是本申请实施例提供的一种数据推荐方法的流程图;
图3是本申请实施例提供的一种确定第一特征集的方法的流程图;
图4是本申请实施例提供的一种确定第三特征集的方法的流程图;
图5是本申请实施例提供的一种确定数据推荐模型的方法的流程图;
图6是本申请实施例提供的一种数据推荐装置的结构示意图;
图7是本申请实施例提供的一种数据推荐设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的数据推荐方法进行详细的解释说明之前,先对本申请实施例提供的应用场景和实施环境进行介绍。
当前,存储在数据库中的数据集日益增加。使用者可以根据需求,从数据库中存储的海量的数据集中获取目标数据集。例如,一个公司的数据库中可以包括诸如工资表、员工信息表、采购表、业绩表等数据集,使用者可以通过本申请实施例提供的数据推荐设备登录公司的系统,之后,数据推荐设备可以根据本申请提供的数据推荐方法为使用者推荐数据集,使用者可以从推荐的多个数据集中选择目标数据集进行使用。例如,可以为公司财务部的人员推荐各个部门的工资表,为公司高管推荐各个部门的业绩表等。
图1是本申请实施例提供的数据推荐方法所涉及的实施环境图,如图1所示,该实施环境包括数据库服务器101、模型训练端102和客户端103,数据库服务器101、模型训练端102和客户端103中的任意两个设备可以以有线或无线方式连接以进行通信。
其中,数据库服务器101可以用于存储各种样本数据。模型训练端102可以用于从数据库服务器101中获取样本数据,并根据本申请实施例提供的训练方法,以及获取的数据,得到数据推荐模型。之后,可以将得到的数据推荐模型部署在模型训练端102或者客户端103。客户端103可以用于接收使用者触发的获取请求,该获取请求携带使用客户端103的使用者的使用者信息,当数据推荐模型部署在模型训练端102时,客户端103可以将该获取请求发送至模型训练端102,模型训练端102可以根据该获取请求和数据推荐模型,确定一个推荐列表,并将该推荐列表返回给客户端103。当数据推荐模型部署在客户端103时,客户端103可以直接根据该使用者的使用者信息和该数据推荐模型,得到一个推荐列表。此外,客户端103还可以用于生成使用记录,将使用记录上传至数据库服务器101中,客户端103还可以用于将使用者创建的数据集样本和使用者信息等数据上传至数据库服务器101中。
在这种情况下,数据库服务器101可以是一台服务器,还可以由几台服务器构成的服务器集群,还可以是一个云存储服务中心。模型训练端102可以是一台终端设备、一台服务器等,还可以是由多台服务器构成的服务器集群,还可以是一个云计算服务中心。客户端103可以是手机、智能手机、掌上电脑PPC(Pocket PC)、平板电脑、台式电脑、笔记本电脑等。
在本申请实施例中,还可以将图1所示的数据库服务器和模型训练端的功能集成在一台设备,可以将这台设备成为数据训练端,这种情况下,该实施环境可以包括数据训练端和客户端,数据训练端和客户端可以以有线或无线方式连接以进行通信。其中,数据训练端可以用于实现上述介绍的数据库服务器101和模型训练端102的功能,客户端可以用于实现上述介绍的客户端103的功能,这里不再赘述。
在这种情况下,数据训练端可以是一台服务器,还可以是由多台服务器构成的服务器集群,还可以是一个云计算服务中心。客户端可以是手机、智能手机、掌上电脑PPC(Pocket PC)、平板电脑、台式电脑、笔记本电脑等。
可选地,在本申请实施例中,前述数据库服务器、模型训练端和客户端的所有功能还可以集成在一台设备中。
本领域技术人员应能理解上述任一设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
接下来对本申请实施例提供的数据推荐方法进行详细的解释说明。
图2是本申请实施例提供的一种数据推荐方法的流程图,接下来将以图1示出的实施环境中数据推荐模型部署在模型训练端为例,来对本申请实施例提供的数据推荐方法进行介绍。该方法可以应用于图1所示的模型训练端。请参考图2,该方法包括如下步骤:
步骤201:获取目标使用者的使用者信息。
由前面对图1示出的实施环境的相关介绍可知,在本申请实施例中,目标使用者可以通过客户端登录公司的系统,此时,会触发客户端向模型训练端发送获取请求,该获取请求携带目标使用者的使用者信息,模型训练端可以接收客户端发送的该获取请求,进而获取该获取请求中携带的目标使用者的使用者信息。
需要说明的是,目标使用者的使用者信息可以包括目标使用者的使用者标识,还可以包括目标使用者的属性信息,例如部门、岗位、部门涉及业务等属性信息。在一些实施例中,模型训练端获取到目标使用者的使用者信息还可以包括目标使用者登录公司系统时的当前时间信息。
步骤202:根据该目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,第一推荐列表包括为该目标使用者推荐的多个第一数据集。
在本申请实施例中,模型训练端可以根据该目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,第一推荐列表包括为该目标使用者推荐的多个第一数据集。
在本申请实施例中,数据推荐模型是根据多个数据集样本、使用多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到。基于此,在根据该目标使用者的使用者信息和数据推荐模型,确定第一推荐列表之前,还需要先根据机器学习算法来训练得到数据推荐模型。
可选地,模型训练端可以根据多个数据集样本确定第一特征集,根据多个使用者样本的使用者信息确定第二特征集,根据使用日志数据、第一特征集和第二特征集,确定第三特征集,然后可以根据第一特征集、第三特征集和使用日志数据,确定数据推荐模型。
其中,第一特征集包括多个数据集样本的特征信息,第二特征集包括多个使用者样本的属性信息,多个使用者样本的属性信息可以从多个使用者样本的使用者信息中提取得到,第三特征集包括多个使用者样本与多个数据集样本之间的关联关系、多个数据集样本中各个数据集样本的关联关系以及多个使用者样本中各个使用者样本之间的关联关系。
在本申请实施例中,数据库服务器中可以存储有多个数据集样本、多个使用者样本的使用者信息、多个使用者样本的使用日志数据。模型训练端可以从数据库服务器中获取这些数据。
需要说明的是,确定第一特征集、确定第二特征集这两个步骤的执行顺序可以任意,本申请实施例对此不作限定。
接下来将对本申请实施例中确定第一特征集、确定第二特征集、确定第三特征集的实现方式进行详细的介绍。
在本申请实施例中,参见图3,根据多个数据集样本确定第一特征集的方法可以包括步骤301至步骤305。
步骤301:确定多个数据集样本中每个数据集样本的数据规模信息,数据规模信息包括相应数据集样本内包含的数据样本数量和数据样本的属性数量。
在本申请实施例中,可以通过统计每个数据集样本内包括的数据样本数量和数据样本的属性数量,来确定多个数据集样本中每个数据集样本的数据规模信息,也即是数据规模信息可以包括相应数据集样本内包含的数据样本数量和数据样本的属性数量。
本申请实施例中的数据集样本可以是表格形式,通常一个表格的每一行可以为一个数据样本,每一列为一种属性,这种情况下,可以统计每个数据集样本的行数和列数,将行数作为相应数据集样本内包含的数据样本数量,将列数作为相应数据集样本内包含的数据样本的属性数量。
示例性地,假设一个数据集样本为一个采购表,该采购表的每一行为一个数据样本,每一列为一种属性,可以将该采购表的行数作为该采购表内包含的数据样本数量,将该采购表的列数作为该采购表内包含的数据样本的属性数量。
需要说明的是,在本申请实施例中,由于多个数据集样本中包括的各个数据集样本的数据规模可能相差很大,为了使计算的数值的量级不至于相差太多,可以将每个数据集样本的数据规模信息包括的数据样本数量和数据样本的属性数量进行压缩处理。例如,可以对数据样本数量和属性数量分别取对数,或者分别取数据样本数量和属性数量的平方根。或者,考虑到数据样本数量远大于属性数量,也可以对数据样本数量取对数,对属性数量取平方根值,这样可以将数据样本数量和属性数量压缩到量级相差不大的范围利于数据处理。
示例性地,假设一个数据集样本内包含的数据有100万行、1000列,可以将log(100万)作为该数据集样本内包含的数据样本数量,将
Figure BDA0002306283520000111
作为该数据集样本内包含的数据样本的属性数量。
步骤302:根据多个数据集样本中每个数据集样本内包含的数据的错误率,确定相应数据集样本的数据质量得分。
在本申请实施例中,多个数据集样本中的任一数据集样本中可能存在数据缺失、数据错误等情况,模型训练端可以统计每个数据集样本中缺失的数据的数量和错误的数据的数量,根据缺失的数据的数量和错误的数据的数量,得到相应数据集样本内包含的数据的错误率,根据每个数据集样本内包含的数据的错误率确定相应数据集样本的数据质量得分。
需要说明的是,可以根据事先设定的一些规则或条件,来判断每个数据集样本内包含的数据是否错误。另外,本申请实施例中的数据集样本可以为表格形式,可以统计表格中数据缺失和数据错误的单元格占所有单元格的比例,将该比例作为相应数据集样本内包含的数据的错误率。或者,本申请实施例也可以确定缺失数据数量和错误数据数量的总和,确定该总和与数据集样本包含的所有数据的数量总和的比例,将该比例作为数据集样本内包含的数据的错误率。
在确定每个数据集样本内包含的数据的错误率之后,可以为错误率较低的数据集样本确定一个较高的数据质量得分。例如,可以将用1减去错误率得到的正确率作为相应数据集样本的数据质量得分,又或者可以将用1除以错误率得到的值作为相应数据集样本的数据质量得分,或者还可以通过其他方法确定数据质量得分,保证可以为错误率低的数据集样本确定一个高的数据质量得分即可。
示例性地,假设一个数据集样本为一张工资表,工资数据范围规定为0-10000,若该工资表中某个单元格为空,可以确定该单元格缺失数据,若该工资表中某个单元格的工资数据为负数,可以确定该单元格的数据错误。假设统计出该工资表中缺失的数据的数量加上错误的数据的数量为1000个,该工资表一共包括1000行、100列,也即是共有100000个单元格,可以确定该工资表内包含的数据的错误率为0.01,可以将正确率0.99作为该工资表的数据质量得分。
可选地,由前述步骤301中的介绍可知,为了方便计算,可以将数据样本数量和属性数量进行压缩处理。基于此,在压缩处理之后,可以用每个数据集样本内包含的错误缺失数据之和除以压缩处理之后的数据样本数量和属性数量之和,作为每个数据集样本内包含的数据的错误率,此时,可以通过一个转换计算为错误率较低的数据集样本确定一个较高的数据质量得分。
需要说明的是,还可以事先通过人工的方式统计多个数据集样本中每个数据集样本的数据缺失情况和数据错误情况,进而根据人工统计的数据缺失情况和数据错误情况,参考上述方法来确定每个数据集样本内包含的数据的错误率。
步骤303:获取多个数据集样本中每个数据集样本对应的数据业务标签。
在本申请实施例中,多个数据集样本中每个数据集样本可以对应有数据业务标签,模型训练端可以在获取多个数据集样本时,同时还可以获取每个数据集样本对应的数据业务标签。
需要说明的是,在本申请实施例中,可能存在某些数据集样本没有对应的数据业务标签,此时,可以通过识别这些数据集样本中的数据,为这些数据集样本确定数据业务标签。或者还可以事先通过人工方式为每个数据集样本确定对应的数据业务标签。
此外,在本申请实施例中,每个数据集样本对应的数据业务标签可以包括一个或多个标签,例如,一张工资表的数据业务标签可以包括工资、采购部这两个标签,该数据业务标签可以用于表征该数据集样本为采购部的一张工资表。
步骤304:将多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息。
在本申请实施例中,可以将多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息。
步骤305:将包含有多个数据集样本的特征信息的集合作为第一特征集。
需要说明的是,步骤301、302和303这三个步骤可以串行执行,也可以并行执行,这三个步骤的执行顺序可以任意,本申请实施例对此不作限定。
接下来介绍本申请实施例中根据多个使用者样本的使用者信息确定第二特征集的方法。在本申请实施例中,数据库服务器中存储的多个使用者样本的使用者信息可以是以表格形式存储的,还可能有一部分是以文本形式存储的。对于表格形式的使用者信息,模型训练端可以提取相应使用者信息包括的属性信息,对于文本形式的使用者信息,模型训练端可以识别并提取文本中包括的属性信息。然后模型训练端可以将识别和提取到的多个使用者样本的属性信息,作为第二特征集。
示例性地,使用者样本的属性信息可以包括性别、年龄、岗位、部门、部门涉及业务等信息。每个属性信息可以是文本形式,也可以是数字或者字母代码等形式,本申请实施例对此不作限定。
在本申请实施例中,模型训练端确定第一特征集和第二特征集之后,还可以根据使用日志数据、第一特征集和第二特征集,确定第三特征集。参见图4,本申请实施例中确定第三特征集的方法可以包括步骤401至步骤404。
步骤401:根据使用日志数据,生成图谱结构,图谱结构用于表征多个使用者样本和多个数据集样本之间的关联关系。
在本申请实施例中,使用日志数据可以包括多个历史使用记录,每个历史使用记录包括一个使用者信息和相应使用者使用过的数据集样本,可以根据多个历史使用记录,生成图谱结构,该图谱结构可以用于表征多个使用者样本和多个数据集样本之间的关联关系。
需要说明的是,图谱结构可以是以图的数据结构进行存储的,在本申请实施例中,图谱结构包括节点和边,一个节点可以是指一个数据集样本或一个使用者样本,边可以指示各个节点之间的连接关系。根据多个历史使用记录,统计提取每个数据集样本和使用过相应数据集样本的所有使用者,将每个数据集样本与使用过相应数据集样本的所有使用者样本进行关联,生成图谱结构。图谱结构可以用于表征多个使用者样本和多个数据集样本之间的关联关系,关联关系可以是一阶或二阶关联关系,其中,一阶关联关系可以是指相关联的两个节点之间存在直接关系,二阶关联关系可以是指相关联的两个节点之间存在间接关系。
示例性地,假设根据历史使用记录,确定数据集样本1被使用者a和使用者b使用过,数据集样本2被使用者b和使用者c使用过,生成的图谱结构的节点可以包括a、b、c、1、2。该图谱结构可以用于表征该使用者a、使用者b、使用者c和数据集样本1、数据集样本2之间的关联关系,其中,使用者a和使用者b均使用过数据集样本1,也即是使用者a和使用者b之间存在一阶关联关系,使用者a和使用者b均与数据集样本1之间存在一阶关联关系,又由于使用者b和使用者c均使用过数据集样本2,也即是使用者c也与使用者b存在一阶关联关系。由于使用者a和使用者b存在一阶关联关系,使用者b和使用者c存在一阶关联关系,所以使用者a和使用者c存在间接关系,也即是使用者a和使用者c之间存在二阶关联关系。同理,使用者a和数据集样本2也存在间接关系,也即是使用者a和数据集样本2之间存在二阶关联关系。同样地,使用者c和数据集样本1之间也存在二阶关联关系。基于此,可以计算出图谱结构中各个节点的边,以及各节点之间的一阶或二阶关系。
步骤402:根据使用日志数据,确定多个数据集样本中每个数据集样本的链接值,链接值用于指示相应数据集样本与多个数据集样本中剩余数据集样本之间的关联关系。
由前述可知,使用日志数据包括多个历史使用记录,每个历史使用记录包括一个使用者信息和相应使用者使用过的数据集样本,在本申请实施例中,每个历史使用记录还可以包括相应使用者使用过的数据集样本之间的链接关系,例如,该使用者本次是通过点击数据集样本1的链接跳转到数据集样本2所在页面而使用的数据集样本2,也即是数据集样本1与数据集样本2之间存在链接关系。
模型训练端可以根据使用日志数据,确定多个数据集样本之间的链接关系,并通过图挖掘算法,确定每个数据集样本的链接值。
需要说明的是,在本申请实施例中,图挖掘算法可以是pagerank(网页排名)算法、图卷积算法等。当图挖掘算法是pagerank算法时,可以通过该算法对多个数据集样本之间的链接关系进行处理,计算得到每个数据集样本的pr值,并将该pr值作为相应数据集样本的链接值。
步骤403:根据第一特征集、第二特征集和使用日志数据,确定多个使用者样本中每两个使用者样本之间的相似度和多个数据集样本中每两个数据集样本之间的相似度。
在本申请实施例中,模型训练端可以根据第一特征集、第二特征集和使用日志数据,确定多个使用者样本中每两个使用者样本之间的相似度和多个数据集样本中每两个数据集样本之间的相似度。其中,多个使用者样本中每两个使用者样本之间的相似度可以表征多个使用者样本中各个使用者样本之间的关联关系,多个数据集样本中每两个数据集样本之间的相似度可以用于表征多个数据集样本中各个数据集样本的关联关系。
模型训练端可以根据第二特征集和使用日志数据,确定多个使用者样本中每两个使用者样本之间的相似度。
其中,第二特征集是根据多个使用者样本的使用者信息确定的,第二特征集包括多个使用者样本的属性信息,使用日志数据包括多个历史使用记录。模型训练端可以通过计算多个使用者样本的属性信息的相似度,确定多个使用者样本中每两个使用者样本之间的第一使用者相似度,还可以根据多个历史使用记录计算每两个使用者样本使用过的数据集样本之间的相似度,将该相似度作为相应两个使用者样本之间的第二使用者相似度。然后可以根据每两个使用者样本的第一使用者相似度和第二使用者相似度,确定多相应地两个使用者样本之间的相似度。
其中,可以是将两个使用者样本的第一使用者相似度与第二使用者相似度相加作为这两个使用者样本之间的相似度。还可以是将两个使用者样本的第一使用者相似度与第二使用者相似度进行加权计算,得到这两个使用者样本之间的相似度。其中,加权计算的两个权重可以为预设的两个数值。
模型训练端还可以根据第一特征集和使用日志数据,确定多个数据集样本中每两个数据集样本之间的相似度。
在本申请实施例中,第一特征集包括多个数据集样本的特征信息,可以根据多个数据集样本的特征信息,确定每两个数据集样本之间的第一数据集相似度,其中,可以计算每两个数据集样本对应的数据业务标签之间的数据业务相似度,将该数据业务相似度作为相应两个数据集样本之间的第一数据集相似度,或者还可以再计算每两个数据集样本对应的数据质量得分之间的数据质量相似度,计算每两个数据集样本对应的数据规模信息之间的数据规模相似度,将每两个数据集样本之间的数据业务相似度、数据质量相似度和数据规模相似度进行加权计算,得到相应两个数据集样本之间的第一数据集相似度。其中,加权计算的三个权重可以为预设的三个数值,需要说明的是,由于数据业务标签相比于数据质量得分和数据规模信息,更能体现数据集样本之间的相似度,因此,数据业务相似度对应的权重可以相对较大。
在得到每两个数据集样本之间的第一数据集相似度之后,可以再根据使用日志数据,确定每两个数据集样本之间的第二数据集相似度。其中,对于任意两个数据集样本,可以根据多个历史使用记录计算使用过这两个数据集样本的使用者之间的相似度,将该相似度作为这两个数据集样本之间的第二数据集相似度。之后,可以将每两个数据集样本对应的第一数据集相似度和第二数据集相似度进行加权计算,得到相应两个数据集样本之间的相似度。其中,加权计算的两个权重可以是预设的两个数值。
前面介绍了模型训练端根据前述根据第一特征集、第二特征集和使用日志数据,确定每两个使用者样本之间的相似度和每两个数据集样本之间的相似度,在本申请实施例中,模型训练端还可以根据第一特征集、第二特征集和使用者日志数据,确定每个使用者样本与每个数据集样本之间的相似度。其中,每个使用者样本与每个数据集样本之间的相似度可以用于表征多个使用者样本与多个数据集样本之间的关联关系。
示例性地,可以根据历史使用记录,确定每个使用者样本与每个数据集样本之间的第一相似度,根据每两个数据集样本之间的相似度,对第一相似度进行调整,得到每个使用者样本与每个数据集样本之间的第二相似度。
例如,假设使用者a使用过数据集样本1和数据集样本2,未使用过数据集样本3,计算得到的使用者a与数据集样本1和数据集样本2之间的第一相似度均较高,得到的使用者a与数据集样本3之间的第一相似度较低,如果数据集样本1与数据集样本3之间的相似度较高,可以将使用者a与数据集样本3之间的第一相似度调高。
在得到每个使用者样本与每个数据集样本之间的第二相似度之后,还可以根据每两个使用者样本之间的相似度,对第二相似度进行调整,得到每个使用者样本与每个数据集样本之间的第三相似度。之后,可以将每个使用者样本与每个数据集样本之间的第三相似度,作为每个使用者样本与每个数据集样本之间的相似度。
例如,假设已经得到使用者a与数据集样本1和数据集样本2之间的第二相似度,且使用者b与数据集样本2之间的第二相似度较高,使用者a和使用者b之间的相似度也较高,这样可以将使用者a与数据集样本2之间的第二相似度调高。
需要说明的是,前述计算相似度的方法中使用的距离公式可以是欧式距离、曼哈顿距离、皮尔逊相似度等,计算相似度时可以先将参与计算的各个数据转换为向量形式,然后根据距离公式进行计算各个数据之间的相似度。
步骤404:将包含有图谱结构、每个数据集样本的链接值、多个使用者样本中每两个使用者样本之间的相似度、多个数据集样本中每两个数据集样本之间的相似度的集合作为第三特征集。
需要说明的是,本申请实施例中生成图谱结构、确定每个数据集样本的链接值、确定多个使用者样本中每两个使用者样本之间的相似度和多个数据集样本中每两个数据集样本之间的相似度,这四个步骤的执行顺序可以任意,也可以顺序执行,也可以并行执行,本申请实施例对此不作限定。
在本申请实施例中,在确定第一特征集、第二特征集、第三特征集之后,还可以根据第一特征集、第三特征集和使用日志数据,确定数据推荐模型。参见图5,本申请实施例中确定数据推荐模型的方法可以包括步骤501至步骤506。
步骤501:根据第一特征集、第三特征集和使用日志数据,确定训练集,训练集包括多个训练样本,多个训练样本中的每个训练样本包括多个使用者样本中的一个使用者样本的使用者信息,以及相应使用者样本使用多个数据集样本中的每个数据集样本的使用概率。
在本申请实施例中,模型训练端可以根据第一特征集包括的多个数据集样本的特征信息、第三特征集包括的各种关联关系、以及使用日志数据包括的历史使用记录,确定训练集。
由前述可知,第一特征集可以包括每个数据集样本的数据质量得分、数据规模信息、数据业务标签,第三特征集可以包括图谱结构、每个数据集样本的链接值、多个使用者样本中每两个使用者样本之间的相似度、多个数据集样本中每两个数据集样本之间的相似度,使用日志数据可以包括多个历史使用记录,每个历史使用记录可以包括一个使用者样本的使用者信息和该使用者使用过的数据集样本。基于此,首先可以根据历史使用记录,确定多个使用者样本中的每个使用者样本的使用者信息,以及相应使用者样本使用多个数据集样本中的每个数据集样本的使用记录。其中,使用记录可以用于指示是否使用过相应数据集样本。然后可以根据层次分析法,对第一特征集、第三特征集以及使用日志数据进行处理,得到每个使用者样本使用每个数据集样本的使用概率。可以将多个使用者样本中的一个使用者样本的使用者信息、以及相应使用者样本使用多个数据集样本中的每个数据集样本的使用概率,作为一个训练样本,从而得到多个训练样本。
步骤502:根据训练集,确定基础数据推荐模型和多个训练样本中每个训练样本对应的模型预测结果。
在本申请实施例中,在得到训练集之后,可以根据该训练集,确定基础数据推荐模型,以及多个训练样本中每个训练样本对应的模型预测结果。预测结果可以是每个使用者样本使用每个数据集样本的预测使用概率。
需要说明的是,本申请实施例中的训练过程可以是有监督学习的过程。模型训练端可以构建一个多分类的神经网络,例如,卷积神经网络等,并使用训练集对该神经网络进行迭代训练,最终确定基础数据推荐模型。或者模型训练端可以根据对训练集进行学习,确定多个二分类器,再经过强化学习确定一个多分类器,例如,adaboost分类器、xgboost分类器、随机森林分类器等多分类器,将确定的多分类器作为基础数据推荐模型。也即是本申请实施例中模型训练端可以根据各种机器学习算法来确定基础数据推荐模型,本申请实施例对此不作限定。
步骤503:根据每个训练样本对应的模型预测结果,确定基础数据推荐模型的模型评价数据。
在本申请实施例中,模型训练端还可以根据每个训练样本对应的模型预测结果,确定该基础数据推荐模型的模型评价数据,也即是对基础数据推荐模型进行模型评估。
需要说明的是,本申请实施例中对基础数据推荐模型进行模型评估的准则可以有多种,也即是模型评价数据可以有多种,例如,模型评价数据可以包括准确率、精确率、召回率、F值(综合评价值)、ROC(Receiver Operating Characteristic,接受者工作特征)曲线等评价数据中的一种或多种。
步骤504:判断模型评价数据是否满足预设条件。
在本申请实施例中,得到基础数据推荐模型的模型评价数据之后,可以判断模型评价数据是否满足预设条件,如果模型评价数据满足预设条件,则可以执行步骤505,如果不满足预设条件,则可以执行步骤506。
需要说明的是,预设条件可以是预设的准确率阈值、精准率阈值等。例如预设的准确率阈值可以为95%。
步骤505:将得到的基础数据推荐模型作为数据推荐模型。
步骤506:根据模型评价数据、第一特征集、第三特征集和使用日志数据,对训练集进行更新,返回步骤502。
如果模型评价数据不满足预设条件,模型训练端可以根据模型评价数据、第一特征集、第三特征集和使用日志数据,对训练集进行更新,返回步骤502,也即是根据更新后的训练集重新确定基础数据推荐模型。
另外,如果模型评价数据不满足预设条件,还可以调整初始化参数,例如,调整学习速率等,之后再根据训练集重新确定基础数据推荐模型。或者可以是既调整初始化参数,又更新训练集,之后根据更新后的训练集重新确定基础数据推荐模型。又或者还可以根据更新后的训练集对基础数据推荐模型进行调优训练。也即是本申请实施例中可以结合使用机器学习模型训练相关的各种调优方法来确定数据推荐模型。
前面介绍了模型训练端得到数据推荐模型的方法,在得到数据推荐模型的情况下,当模型训练端获取到目标使用者的使用者信息时,可以根据目标使用者的使用者信息和该数据推荐模型,确定第一推荐列表。其中,第一推荐列表包括为该目标使用者推荐的多个第一数据集。
需要说明的是,在本申请实施例中,可以直接将目标使用者的使用者信息作为数据推荐模型的输入,通过该数据推荐模型对该目标使用者的使用者信息进行处理,得到第二推荐列表,第二推荐列表包括多个第二数据集。此时,模型训练端可以直接将该第二推荐列表作为第一推荐列表。
可选地,模型训练端也可以在得到第二推荐列表之后,根据第一特征集、第二特征集、第三特征集和第二推荐列表,确定第一推荐列表。此时,多个第一数据集和第二数据集存在交集。
在本申请实施例中,模型训练端在得到第二推荐列表之后,可以根据层次分析法,对第一特征集包括的多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签进行处理,得到多个数据集样本中每个数据集样本的数据集得分排序,根据层次分析法对第三特征集进行处理,得到多个使用者样本中每个使用者信息和多个数据集样本中每个数据集样本之间的得分排序。然后根据每个数据集样本的数据集得分排序、多个使用者样本中每个使用者信息和多个数据集样本中每个数据集样本之间的得分排序、以及多个使用者样本的属性信息,对第二推荐列表进行调整,将调整之后的第二推荐列表作为第一推荐列表。
模型训练端在确定第一推荐列表之后,可以将第一推荐列表发送给客户端,客户端可以将第一推荐列表进行显示,以指示目标使用者可以从第一推荐列表中选择数据集进行使用。
在本申请实施例中,由前述可知,使用日志数据可以包括多个历史使用记录,如果客户端检测到目标使用者对第一推荐列表包括的多个第一数据集中的目标数据集进行了选择,客户端还可以获取目标使用者在使用目标数据集时产生的目标使用记录,将目标使用记录作为目标使用者的历史使用记录添加至使用日志数据中,以使后续可以根据使用日志数据中新添加的历史使用记录对第三特征集、数据推荐模型等进行调整。其中,目标数据集是目标使用者在第一推荐列表包括的多个第一数据集中选择的数据集。
需要说明的是,由前述可知,使用日志数据会不断进行更新,另外,使用者也可能会对多个数据集样本进行添加、删除、修改等操作,还可能会对多个使用者的使用者信息进行添加、删除、修改等操作,也即是多个数据集样本和多个使用者样本的使用者信息也可能会进行更新。基于此,可以事先预设一个周期时长,每隔一个周期时长,模型训练端可以根据更新后的多个数据集样本、多个使用者的使用者信息、以及使用日志数据,对第一特征集、第二特征集、第三特征集以及数据推荐模型进行相应的更新调整,保证模型训练端可以根据最新的数据向使用者推荐合适的数据集。
前面以图1所示的实施环境为例对本申请实施例提供的数据推荐方法进行了介绍,也即是介绍了当实施环境中包括数据库服务器、模型训练端和客户端时,本申请实施例提供的数据推荐方法的实现方式。由前述对本申请实施例的实施环境的相关介绍可知,当实施环境包括数据训练端和客户端时,数据训练端可以实现数据库服务器和模型训练端的所有功能,这种情况下,数据训练端可以直接从自身的数据库中获取多个数据集样本、多个使用者样本的使用者信息,以及使用日志数据,并根据前述相关实现方式实现本申请实施例提供的数据推荐方法。当实施环境仅为一台独立的数据推荐设备时,也即,该数据推荐设备可以同时实现数据库服务器、模型训练端和客户端的所有功能,这种情况下,当目标使用者通过数据推荐设备登录公司的系统时,数据推荐设备可以直接获取该目标使用者的使用者信息,数据推荐设备自身的数据库中也存储有多个数据集样本、多个使用者样本的使用者信息,以及使用日志数据,这样,数据推荐设备也可以根据前述相关实现方式实现本申请实施例提供的数据推荐方法。
综上所述,在本申请实施例中,可以通过获取目标使用者的使用者信息,并根据该目标使用者的使用者信息和数据推荐模型,确定为该目标使用者推荐的包括多个第一数据集的第一推荐列表,相较于人工查找的方式,本方案以一种智能推荐的方式,可以更加快速地为目标使用者推荐数据集。并且,由于该数据推荐模型是根据多个数据集样本、使用过该多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到的,因此,通过该数据推荐模型可以为该目标使用者推荐更为合适的数据集。
图6是本申请实施例提供的一种数据推荐装置的结构示意图,该数据推荐装置可以由软件、硬件或者两者的结合实现成为数据推荐设备的部分或者全部,数据推荐设备可以为图1所示的数据推荐设备。请参考图6,该装置600包括:第一获取模块601和第一确定模块602。
第一获取模块601,用于获取目标使用者的使用者信息;
第一确定模块602,用于根据目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,第一推荐列表包括为目标使用者推荐的多个第一数据集;
其中,数据推荐模型是根据多个数据集样本、使用多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到,使用日志数据包括多个使用者样本的历史使用记录。
可选地,第一确定模块602包括:
处理子模块,用于通过数据推荐模型对目标使用者的使用者信息进行处理,得到第二推荐列表,第二推荐列表包括多个第二数据集;
第一确定子模块,用于根据第一特征集、第二特征集和第三特征集和第二推荐列表,确定第一推荐列表,多个第一数据集和第二数据集存在交集;
其中,第一特征集包括多个数据集样本的特征信息,第二特征集包括多个使用者样本的属性信息,多个使用者样本的属性信息从多个使用者样本的使用者信息中提取得到,第三特征集包括多个使用者样本与多个数据集样本之间的关联关系、多个数据集样本中各个数据集样本的关联关系以及多个使用者样本中各个使用者样本之间的关联关系。
可选地,该装置600还包括:
第二确定模块,用于根据多个数据集样本,确定第一特征集;
第三确定模块,用于根据多个使用者样本的使用者信息,确定第二特征集;
第四确定模块,用于根据使用日志数据、第一特征集和第二特征集,确定第三特征集;
第五确定模块,用于根据第一特征集、第三特征集和使用日志数据,确定数据推荐模型。
可选地,第二确定模块包括:
第二确定子模块,用于确定多个数据集样本中每个数据集样本的数据规模信息,数据规模信息包括相应数据集样本内包含的数据样本数量和数据样本的属性数量;
第三确定子模块,用于根据多个数据集样本中每个数据集样本内包含的数据的错误率,确定相应数据集样本的数据质量得分;
获取子模块,用于获取多个数据集样本中每个数据集样本对应的数据业务标签;
第四确定子模块,用于将多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息;
第五确定子模块,用于将包含有多个数据集样本的特征信息的集合作为第一特征集。
可选地,第四确定模块包括:
生成子模块,用于根据使用日志数据,生成图谱结构,图谱结构用于表征多个使用者样本和多个数据集样本之间的关联关系;
第六确定子模块,用于根据使用日志数据,确定多个数据集样本中每个数据集样本的链接值,链接值用于指示相应数据集样本与多个数据集样本中剩余数据集样本之间的关联关系;
第七确定子模块,用于根据第一特征集、第二特征集和使用日志数据,确定多个使用者样本中每两个使用者样本之间的相似度和多个数据集样本中每两个数据集样本之间的相似度;
第八确定子模块,用于将包含有图谱结构、每个数据集样本的链接值、多个使用者样本中每两个使用者样本之间的相似度、多个数据集样本中每两个数据集样本之间的相似度的集合作为第三特征集。
可选地,第五确定模块具体用于:
根据第一特征集、第三特征集和使用日志数据,确定训练集,训练集包括多个训练样本,多个训练样本中的每个训练样本包括多个使用者样本中的一个使用者样本的使用者信息,以及相应使用者样本使用多个数据集样本中的每个数据集样本的使用概率;
根据训练集,确定基础数据推荐模型和多个训练样本中每个训练样本对应的模型预测结果;
根据每个训练样本对应的模型预测结果,确定基础数据推荐模型的模型评价数据;
如果模型评价数据不满足预设条件,根据模型评价数据、第一特征集、第三特征集和使用日志数据,对训练集进行更新,返回通过根据训练集,确定基础数据推荐模型和多个训练样本中每个训练样本对应的模型预测结果的步骤,直到模型评价数据满足预设条件时,将最后一次得到的基础数据推荐模型作为数据推荐模型。
可选地,该装置600还包括:
第二获取模块,用于获取目标使用者在使用目标数据集时产生的目标使用记录,目标数据集是目标使用者在第一推荐列表包括的多个第一数据集中选择的数据集;
添加模块,用于将目标使用记录作为目标使用者的历史使用记录添加至使用日志数据中。
综上所述,在本申请实施例中,可以通过获取目标使用者的使用者信息,并根据该目标使用者的使用者信息和数据推荐模型,确定为该目标使用者推荐的包括多个第一数据集的第一推荐列表,相较于人工查找的方式,本方案以一种智能推荐的方式,可以更加快速地为目标使用者推荐数据集。并且,由于该数据推荐模型是根据多个数据集样本、使用过该多个数据集样本的多个使用者样本的使用者信息以及使用日志数据训练得到的,因此,通过该数据推荐模型可以为该目标使用者推荐更为合适的数据集。
需要说明的是:上述实施例提供的数据推荐装置在数据推荐时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据推荐装置与数据推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本申请实施例提供的一种数据推荐设备700的结构框图。该数据推荐设备700可以是手机、平板电脑、笔记本电脑或台式电脑等,还可以是一台服务器,或者多台服务器构成的服务器集群。前述实施例中配置有数据推荐模型的模型训练端即可以通过该数据推荐设备来实现。该数据推荐设备700还可能被称为用户设备、便携式数据推荐设备、膝上型数据推荐设备、台式数据推荐设备等其他名称。
通常,数据推荐设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的数据推荐方法。
在一些实施例中,数据推荐设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它数据推荐设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个设置于数据推荐设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在数据推荐设备700的不同表面或呈折叠设计;在其他一些实施例中,显示屏705可以是柔性显示屏,设置在数据推荐设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在数据推荐设备的前面板,后置摄像头设置在数据推荐设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在数据推荐设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位数据推荐设备700的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源709用于为数据推荐设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图7中示出的结构并不构成对数据推荐设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中数据推荐方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的数据推荐方法的步骤。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种数据推荐方法,其特征在于,所述方法包括:
根据多个数据集样本,确定第一特征集;
根据多个使用者样本的使用者信息,确定第二特征集;
根据使用日志数据,生成图谱结构,所述使用日志数据包括所述多个使用者样本的历史使用记录,所述图谱结构用于表征所述多个使用者样本和所述多个数据集样本之间的关联关系;
根据所述使用日志数据,确定所述多个数据集样本中每个数据集样本的链接值,所述链接值用于指示相应数据集样本与所述多个数据集样本中剩余数据集样本之间的关联关系;
根据所述第一特征集、所述第二特征集和所述使用日志数据,确定所述多个使用者样本中每两个使用者样本之间的相似度和所述多个数据集样本中每两个数据集样本之间的相似度;
将包含有所述图谱结构、每个数据集样本的链接值、所述多个使用者样本中每两个使用者样本之间的相似度、所述多个数据集样本中每两个数据集样本之间的相似度的集合作为第三特征集;
根据所述第一特征集、所述第三特征集和所述使用日志数据,确定数据推荐模型;
获取目标使用者的使用者信息;
根据所述目标使用者的使用者信息和所述数据推荐模型,确定第一推荐列表,所述第一推荐列表包括为所述目标使用者推荐的多个第一数据集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标使用者的使用者信息和所述数据推荐模型,确定第一推荐列表,包括:
通过所述数据推荐模型对所述目标使用者的使用者信息进行处理,得到第二推荐列表,所述第二推荐列表包括多个第二数据集;
根据所述第一特征集、所述第二特征集、所述第三特征集和所述第二推荐列表,确定所述第一推荐列表,所述多个第一数据集和所述第二数据集存在交集;
其中,所述第一特征集包括所述多个数据集样本的特征信息,所述第二特征集包括所述多个使用者样本的属性信息,所述多个使用者样本的属性信息从所述多个使用者样本的使用者信息中提取得到,所述第三特征集包括所述多个使用者样本与多个数据集样本之间的关联关系、所述多个数据集样本中各个数据集样本的关联关系以及多个使用者样本中各个使用者样本之间的关联关系。
3.根据权利要求1所述的方法,其特征在于,所述根据多个数据集样本,确定第一特征集,包括:
确定所述多个数据集样本中每个数据集样本的数据规模信息,所述数据规模信息包括相应数据集样本内包含的数据样本数量和数据样本的属性数量;
根据所述多个数据集样本中每个数据集样本内包含的数据的错误率,确定所述相应数据集样本的数据质量得分;
获取所述多个数据集样本中每个数据集样本对应的数据业务标签;
将所述多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息;
将包含有所述多个数据集样本的特征信息的集合作为所述第一特征集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征集、所述第三特征集和所述使用日志数据,确定数据推荐模型,包括:
根据所述第一特征集、所述第三特征集和所述使用日志数据,确定训练集,所述训练集包括多个训练样本,所述多个训练样本中的每个训练样本包括所述多个使用者样本中的一个使用者样本的使用者信息,以及相应使用者样本使用所述多个数据集样本中的每个数据集样本的使用概率;
根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果;
根据每个训练样本对应的模型预测结果,确定所述基础数据推荐模型的模型评价数据;
如果所述模型评价数据不满足预设条件,根据所述模型评价数据、所述第一特征集、所述第三特征集和所述使用日志数据,对所述训练集进行更新,返回所述根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果的步骤,直到所述模型评价数据满足所述预设条件时,将最后一次得到的基础数据推荐模型作为所述数据推荐模型。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标使用者的使用者信息和所述数据推荐模型,确定第一推荐列表之后,还包括:
获取所述目标使用者在使用目标数据集时产生的目标使用记录,所述目标数据集是所述目标使用者在所述第一推荐列表包括的多个第一数据集中选择的数据集;
将所述目标使用记录作为所述目标使用者的历史使用记录添加至所述使用日志数据中。
6.一种数据推荐装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标使用者的使用者信息;
第一确定模块,用于根据所述目标使用者的使用者信息和数据推荐模型,确定第一推荐列表,所述第一推荐列表包括为所述目标使用者推荐的多个第一数据集;
所述装置还包括:
第二确定模块,用于根据多个数据集样本,确定第一特征集;
第三确定模块,用于根据多个使用者样本的使用者信息,确定第二特征集;
第四确定模块,用于根据使用日志数据、所述第一特征集和所述第二特征集,确定第三特征集,所述使用日志数据包括所述多个使用者样本的历史使用记录;
第五确定模块,用于根据所述第一特征集、所述第三特征集和所述使用日志数据,确定所述数据推荐模型;
其中,所述第四确定模块包括:
生成子模块,用于根据所述使用日志数据,生成图谱结构,所述图谱结构用于表征所述多个使用者样本和多个数据集样本之间的关联关系;
第六确定子模块,用于根据所述使用日志数据,确定所述多个数据集样本中每个数据集样本的链接值,所述链接值用于指示相应数据集样本与所述多个数据集样本中剩余数据集样本之间的关联关系;
第七确定子模块,用于根据所述第一特征集、所述第二特征集和所述使用日志数据,确定所述多个使用者样本中每两个使用者样本之间的相似度和所述多个数据集样本中每两个数据集样本之间的相似度;
第八确定子模块,用于将包含有所述图谱结构、每个数据集样本的链接值、所述多个使用者样本中每两个使用者样本之间的相似度、所述多个数据集样本中每两个数据集样本之间的相似度的集合作为所述第三特征集。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
处理子模块,用于通过所述数据推荐模型对所述目标使用者的使用者信息进行处理,得到第二推荐列表,所述第二推荐列表包括多个第二数据集;
第一确定子模块,用于根据第一特征集、第二特征集和第三特征集和所述第二推荐列表,确定所述第一推荐列表,所述多个第一数据集和所述第二数据集存在交集;
其中,所述第一特征集包括所述多个数据集样本的特征信息,所述第二特征集包括所述多个使用者样本的属性信息,所述多个使用者样本的属性信息从所述多个使用者样本的使用者信息中提取得到,所述第三特征集包括所述多个使用者样本与多个数据集样本之间的关联关系、所述多个数据集样本中各个数据集样本的关联关系以及多个使用者样本中各个使用者样本之间的关联关系。
8.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:
第二确定子模块,用于确定所述多个数据集样本中每个数据集样本的数据规模信息,所述数据规模信息包括相应数据集样本内包含的数据样本数量和数据样本的属性数量;
第三确定子模块,用于根据所述多个数据集样本中每个数据集样本内包含的数据的错误率,确定所述相应数据集样本的数据质量得分;
获取子模块,用于获取所述多个数据集样本中每个数据集样本对应的数据业务标签;
第四确定子模块,用于将所述多个数据集样本中每个数据集样本的数据质量得分、数据规模信息、数据业务标签,作为相应数据集样本的特征信息;
第五确定子模块,用于将包含有所述多个数据集样本的特征信息的集合作为所述第一特征集。
9.根据权利要求6所述的装置,其特征在于,所述第五确定模块具体用于:
根据所述第一特征集、所述第三特征集和所述使用日志数据,确定训练集,所述训练集包括多个训练样本,所述多个训练样本中的每个训练样本包括所述多个使用者样本中的一个使用者样本的使用者信息,以及相应使用者样本使用所述多个数据集样本中的每个数据集样本的使用概率;
根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果;
根据每个训练样本对应的模型预测结果,确定所述基础数据推荐模型的模型评价数据;
如果所述模型评价数据不满足预设条件,根据所述模型评价数据、所述第一特征集、所述第三特征集和所述使用日志数据,对所述训练集进行更新,返回所述根据所述训练集,确定基础数据推荐模型和所述多个训练样本中每个训练样本对应的模型预测结果的步骤,直到所述模型评价数据满足所述预设条件时,将最后一次得到的基础数据推荐模型作为所述数据推荐模型。
10.一种数据推荐设备,其特征在于,所述设备包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1-5任一所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述方法的步骤。
CN201911241226.XA 2019-12-06 2019-12-06 数据推荐方法和装置 Active CN112925963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911241226.XA CN112925963B (zh) 2019-12-06 2019-12-06 数据推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241226.XA CN112925963B (zh) 2019-12-06 2019-12-06 数据推荐方法和装置

Publications (2)

Publication Number Publication Date
CN112925963A CN112925963A (zh) 2021-06-08
CN112925963B true CN112925963B (zh) 2022-11-22

Family

ID=76161627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241226.XA Active CN112925963B (zh) 2019-12-06 2019-12-06 数据推荐方法和装置

Country Status (1)

Country Link
CN (1) CN112925963B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法
CN110266745A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 基于深度网络的信息流推荐方法、装置、设备及存储介质
CN110276446A (zh) * 2019-06-26 2019-09-24 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN110287421A (zh) * 2019-06-28 2019-09-27 北京金山安全软件有限公司 一种信息内容推荐方法、装置及电子设备
CN110532469A (zh) * 2019-08-26 2019-12-03 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016201631A1 (en) * 2015-06-17 2016-12-22 Yahoo! Inc. Systems and methods for online content recommendation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336832A (zh) * 2013-07-10 2013-10-02 中国科学院自动化研究所 基于质量元数据的视频分类器构造方法
CN110266745A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 基于深度网络的信息流推荐方法、装置、设备及存储介质
CN110276446A (zh) * 2019-06-26 2019-09-24 北京百度网讯科技有限公司 模型训练和选择推荐信息的方法和装置
CN110287421A (zh) * 2019-06-28 2019-09-27 北京金山安全软件有限公司 一种信息内容推荐方法、装置及电子设备
CN110532469A (zh) * 2019-08-26 2019-12-03 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112925963A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN109918669B (zh) 实体确定方法、装置及存储介质
CN111914113A (zh) 一种图像检索的方法以及相关装置
US20190163767A1 (en) Image processing method, image processing device, computer device, and computer readable storage medium
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN110196833B (zh) 应用程序的搜索方法、装置、终端及存储介质
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN110942046A (zh) 图像检索方法、装置、设备及存储介质
CN111061803A (zh) 任务处理方法、装置、设备及存储介质
CN109889325B (zh) 校验方法、装置、电子设备及介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN111090877B (zh) 数据生成、获取方法及对应的装置、存储介质
CN110866114B (zh) 对象行为的识别方法、装置及终端设备
CN109902089B (zh) 利用异构索引的查询方法、装置、电子设备及介质
CN110929137B (zh) 文章推荐方法、装置、设备及存储介质
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN112925963B (zh) 数据推荐方法和装置
CN114117206B (zh) 推荐模型处理方法、装置、电子设备及存储介质
CN112232890B (zh) 数据处理方法、装置、设备及存储介质
CN113222771B (zh) 一种基于知识图谱确定目标群体的方法、装置及电子设备
CN114358102A (zh) 数据分类方法、装置、设备及存储介质
CN110720104B (zh) 一种语音信息处理方法、装置及终端
CN111625737A (zh) 一种标签展示方法、装置、设备和存储介质
CN111259161B (zh) 本体建立方法、装置及存储介质
CN113838479B (zh) 单词发音评测方法、服务器及系统
CN110178130B (zh) 一种生成相册标题的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant