CN108256083A - 基于深度学习的内容推荐方法 - Google Patents

基于深度学习的内容推荐方法 Download PDF

Info

Publication number
CN108256083A
CN108256083A CN201810059345.2A CN201810059345A CN108256083A CN 108256083 A CN108256083 A CN 108256083A CN 201810059345 A CN201810059345 A CN 201810059345A CN 108256083 A CN108256083 A CN 108256083A
Authority
CN
China
Prior art keywords
data
attribute
key
index
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810059345.2A
Other languages
English (en)
Inventor
李垚霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Boruide Science & Technology Co Ltd
Original Assignee
Chengdu Boruide Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Boruide Science & Technology Co Ltd filed Critical Chengdu Boruide Science & Technology Co Ltd
Priority to CN201810059345.2A priority Critical patent/CN108256083A/zh
Publication of CN108256083A publication Critical patent/CN108256083A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度学习的内容推荐方法,该方法包括:分析要构建特征索引的数据,若已构建的索引中没有当前数据,则在高层特征索引中构建一个新的特征索引对象;判断新增数据的特征属性数值类型,若是数值型数据,则为其创建R树特征索引;若是文本型属性则为其构建逆向特征索引结构;若已构建的特征索引中若存在当前属性,则不再向特征索引高层增加新的对象,只将当前属性的数据添加到低层相应的特征索引中;重复以上步骤,直到为所有的数据构建特征索引完成。本发明提出了一种基于深度学习的内容推荐方法,针对分布式环境的数据节点,提高了数据挖掘的效率。

Description

基于深度学习的内容推荐方法
技术领域
本发明涉及数据,特别涉及一种基于深度学习的内容推荐方法。
背景技术
在大规模的分布式数据节点中执行数据的聚集和分析需要设计高效的数据挖掘方法。在目前的相关技术中,传统集中式数据管理和搜索方法,面临着单点故障、可扩展性差等问题,无法满足分布式环境下灵活、可扩展及健壮的数据挖掘需求。因此,如何采用非集中式的数据节点管理和数据挖掘方法,以满足构建数据服务的可扩展数据节点管理与数据聚集和分析需求,仍是一个有挑战性的难题。此外,现有大数据并行计算框架在数据索引阶段,数据查询时间和成本有待改进,而且若采用传统的并行排序归并,则数据特征字段分布不均匀,在连接阶段效率将明显下降。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于深度学习的内容推荐方法,包括:
分析要构建特征索引的数据,若已构建的索引中没有当前数据,则在高层特征索引中构建一个新的特征索引对象;
判断新增数据的特征属性数值类型,若是数值型数据,则为其创建R树特征索引;若是文本型属性则为其构建逆向特征索引结构;
若已构建的特征索引中若存在当前属性,则不再向特征索引高层增加新的对象,只将当前属性的数据添加到低层相应的特征索引中;
重复以上步骤,直到为所有的数据构建特征索引完成。
优选地,所述高层特征索引是为数据特征集中的特征属性所构建的索引,所述低层特征索引是为高层的特征属性所对应的键值所构建的索引。
优选地,所述逆向特征索引结构中具体包含Aij、Fileid、Pos、Freq四部分信息,表示的含义分别为:(1)Aij为第i个特征属性键的第j个特征属性键值,i∈[1,n1]、j∈[1,m],n1为文本属性的个数,m为第i个属性键包含的属性数值的个数;(2)Fileid为包含查询特征词的文件ID,Fileid是唯一的;(3)Pos为包含查询特征词文件所在的位置;(4)Freq为查询特征词在数据特征集中出现的频率。
优选地,对于所述R树特征索引,实际键值均存储在R树特征索引结构的非叶子对象中,且叶子对象都是有序排列且包含特征索引文件的三部分信息RS、Pos、Fileid,分别表示的含义是:(1)RS为第R个特征属性键的第S个属性键值,R∈[1,n2]、S∈[1,p],n2为数据特征集中包含的数值特征属性的个数,P为第R个属性键的特征数量;(2)Pos为包含此属性数值的文件所在的位置信息;(3)Fileid为包含查询特征词的文件ID。
优选地,在索引查询过程中,将特征数据表中的键值key_id作为查询算法的输入值,输出为布尔值,具体过程如下:
(1)将root、key_id、层号level作为输入参数,调用搜索函数lookup(root,key_id,level),将搜索结果赋值给叶节点记录;
(2)若叶节点记录为空,则直接返回空值;否则,返回真正的搜索结果rid;
将当前块作为搜索函数lookup的输入,key为搜索键和level为初始层数,可能包含搜索键key的叶子记录作为函数的输出。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于深度学习的内容推荐方法,针对分布式环境的数据节点,方便用户通过匹配服务描述信息来使用数据,提高了数据挖掘的效率;为通过使用云端服务提供的计算资源或存储资源来开发构建数据服务提供了一个可行的方案。
附图说明
图1是根据本发明实施例的基于深度学习的内容推荐方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于深度学习的内容推荐方法。图1是根据本发明实施例的基于深度学习的内容推荐方法流程图。
本发明的数据特征挖掘系统包括存储子系统、特征分类子系统、可信密钥子系统、特征挖掘子系统、任务调度子系统。
可信密钥子系统用于保证数据按身份认证结果来获取,包括密钥生成、身份验证和解密;密钥生成算法如下:
1)将数据划分为多个密钥字符串长度大小的块;
2)用0~26范围的整数取代明文和密钥的每个字符,空格符=00,A=01,...,Z=26;
3)对明文的每个块,将其每个字符用对应的计算值取代,所述对应的计算值为将对应字符的整数编码与密钥中相应位置的字符的整数编码相加后除27再取余所得到的值;
4)将用对应的计算值取代的字符再用其等价字符替代;
所述身份验证通过用户登录和声纹验证实现;身份验证成功的用户即可通过解密模块获得密钥,完成解密;
存储子系统包括存储模块和容灾模块,所述存储模块认证所需进行信息存储的网络中的节点,构建所存储信息的信任关系,以分布在分布式环境下的数据为基础,对特征数据进行封装存储,采用复合式特征索引结构,对文本型数据和数值型数据产生较快的查询速度;所述容灾模块用于数据丢失或者遭到破坏的情况下恢复数据;
所述存储模块在传统索引的基础上,将数据特征集中的数据属性键和属性数值划分开来,构建双层特征索引结构。首先为数据特征集中数据的属性构建高层索引。其次对高层特征属性所对应的键值构建特征索引,若是数值型数据就构建R树特征索引结构,若是文本型数据就构建逆向特征索引。当对数值型数据进行范围查询时,就会直接定位到低层的树形特征索引完成,减小数据查询时间和成本。
高层树形特征索引针对数据特征集中所包含的特征属性构建,在该层索引中数据的具体特征属性全部存储在非叶子对象中,而R树的所有叶子对象中则存储三部分信息Ai、Pcat、Psi,表示的含义分别为:(1)Ai是索引数据特征集的具体特征属性,其中n为所有特征属性的个数,i∈[1,n];(2)Pcat表示的是指针类型;(3)Psi为指向低层特征索引的指针,根据数据类型的不同,该指针指向不同的特征索引结构,即指向逆向文档表表头或R树的根节点。
低层特征索引是为高层的特征属性所对应的键值所构建的索引,包括为数值型数据构建的R树特征索引结构和为文本型数据构建的逆向文档表特征索引。实际键值均存储在R树特征索引结构的非叶子对象中,且叶子对象都是有序排列且包含特征索引文件的三部分信息RS、Pos、Fileid,分别表示的含义是:(1)RS为第R个特征属性键的第S个属性键值,R∈[1,n2]、S∈[1,p],n2为数据特征集中包含的数值特征属性的个数,P为第R个属性键的特征数量。(2)Pos为包含此属性数值的文件所在的位置信息。(3)Fileid为包含查询特征词的文件ID。
逆向特征索引分为两个部分,第一部分是由不同索引词构成的特征索引表,记录了不同的文本关键字以及它们的相关信息。第二部分记录了出现过每个索引词的文档集合以及其存储地址。逆向特征索引结构中具体包含Aij、Fileid、Pos、Freq四部分信息,表示的含义分别为:(1)Aij为第i个特征属性键的第j个特征属性键值,i∈[1,n1]、j∈[1,m],n1为文本属性的个数,m为第i个属性键包含的属性数值的个数。(2)Fileid为包含查询特征词的文件ID,Fileid是唯一的。(3)Pos为包含查询特征词文件所在的位置。(4)Freq为查询特征词在数据特征集中出现的频率。特征索引的创建过程如下:
步骤1、首先分析要构建特征索引的数据,若已构建的索引中没有当前数据,则在复合式特征索引的高层构建一个新的特征索引对象;
步骤2、判断新增数据的特征属性数值类型,若是数值型数据,则为其创建R树特征索引;若是文本型属性则为其构建逆向特征索引结构;
步骤3、重复执行步骤1,之前构建的特征索引中若存在当前属性,则不再向特征索引高层增加新的对象,只将该属性的数据添加到低层相应的特征索引中;
步骤4重复以上步骤,直到为所有的数据构建特征索引完成为止。
在索引查询时,首先分析查询条件得到特征词,将查询特征词转交给索引词库,若索引标志位为假,返回空值表示索引文件中不存在所要查询的特征数据,若为真则判断该查询词返回结果的数据类型,根据不同类型定位到不同特征索引,读取该特征词的ID以及包含特征词文档数量,通过这些得到查询条件的相关信息。再根据特征词ID读取R树特征索引或逆向索引中的内容,整合得到的检索内容,最后与检索条件进行相关性比较,对查询结果排序得到最终结果返回给用户。将特征数据表中的键值key_id作为查询算法的输入值,输出为布尔值,具体过程如下:
(1)将root、key_id、层号level作为输入参数,调用搜索函数lookup(root,key_id,level),将搜索结果赋值给叶节点记录;
(2)若叶节点记录为空,则直接返回空值;否则,返回真正的搜索结果rid;
将当前块作为搜索函数lookup的输入,key为搜索键,level为初始层数,可能包含搜索键key的叶子记录作为函数的输出,具体过程如下:
(3.1)若当前所在的是叶节点,则采用二分搜索算法搜索key键,并给出搜索结果。
(3.2)若当前块不是叶节点,则执行步骤(3.3)到(3.6)。
(3.3)按当前块和key值,选择含有键值的子树,获得子节点的块号。
(3.4)在缓冲区中根据块号读出它所包含的子节点块。
(3.5)若找到的子节点块是叶节点,则返回(3.1)。
(3.6)若该子节点块为分支块,则将子节点块、key、level均减1作为新的输入,递归调用函数返回输出结果。
所述特征分类子系统用于采用聚类的方法对特征数据进行分类管理;本发明采用以下类数量确定方法。首先定义估计密度:
其中,Xtr,Xte分别表示对原始数据进行随机划分所得的特征训练集和特征测试集;C(Xtr,k)表示特征训练集的聚类过程,共聚成k类;Ak1,Ak2,…,Akk表示特征测试集自身聚成的k类,i,i’是同一个类中的样本点,nkj是Akj中样本点的个数;D[C(Xtr,k),Xte]表示一个k×k矩阵,其第i行和第i’列的元素取0或1,取值0表示不在同一类,取值1表示用特征训练集对:i和i’进行聚类;ps(k)表示类数量为k时聚类结果的估计密度。
估计密度计算过程如下:
(1)将待聚类原始数据随机分成特征训练集和特征测试集;
(2)取类数量为k,对上述两个子集进行聚类,聚类结果记为I型聚类;
(3)用特征训练集的聚类结果对特征测试集进行判别,结果记为II型聚类;
(4)在特征测试集自身聚成的第k个类中,考查任一对样本点i和i’是否在II型聚类中被误分在不同的类,并记录被正确划分的比例;
(5)在k个比例构成中,最小者即为当前类数量k下的估计密度。
以估计密度为优化函数,类数量和变量子集为影响估计密度的因子,通过选择合适的类数量和变量子集,使估计密度最大化。
针对特征数据字段分布不均匀在哈希连接阶段效率下降的问题,本发明基于特征字段存储的MapReduce数据查询的哈希连接算法,使MapReduce分布式环境下的字段在每个节点上分布均匀,提高数据处理效率。将查询执行投影操作转变为每个节点上的特征字段操作,减少了重复访问同表带来的I/O浪费。在特征字段存储中,下推的目标对象具体到某个特征字段,每个特征字段相当于一个由(lineid,value)组成的小表。
为了解决数据不均衡问题,在MapReduce分布式计算框架中首先在底层设计一个新的文件格式HMF,使得若存在用户HMF文件集合:O(F)={f1,f2,...,fn},将当前节点集合为P={γ1,γ2,...,γx},其对应节点的虚拟计算节点集合Λ={v(γ1),v(γ2),...,v(γx)}。v(γi)表示虚拟计算节点与真实计算节点的映射关系。
基于哈希算法的并行计算实现步骤包括:
步骤1.将整个哈希值空间组织成一个虚拟的首尾相接的环;
步骤2.将计算节点的网络地址的方式作为关键字哈希,每个节点确定其在哈希空间上的位置;
步骤3.将HMF文件用哈希函数映射到哈希空间的一个值,沿该值向后,将遇到的第一个节点作为处理节点;
步骤4.在Map阶段,当根据HMF搜索节点时,找到的是虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;
步骤5:在连接阶段,收集每个节点的负载数据,一旦发现有不平衡情况,该节点所映射的簇则重新分配给新节点,新节点数量根据负载情况确定。替代后原节点资源回收,以便再次分配;
步骤6:当每个节点的哈希连接完成后,新节点和原节点数据一同交由Reduce阶段做合并,最后输出查询结果。
在哈希连接中,两个关系R和S,其元组数为分别为TR和TS,而且TR>TS。一个哈希函数将初始划分S映射到B个簇,簇的序号为:1,2,…,B,R和S的公共属性分别是A1,A2,…Ak,对于分布在m节点上的关系R的连接属性Ai的分量,散列运算后,确定应该到第B个簇中去匹配。
上述哈希连接的优化过程分为两个阶段:构建和连接。
在构建阶段:每个节点的Map任务,选择出其中一个表作为哈希连接基表,来构建哈希表,将参与连接操作的连接属性作为hashkey,读取在HMF文件系统中基表的连接属性字段到MapReduce分布式系统的节点内存中,然后,对连接字段的所有键值,进行哈希函数操作。
经过Hash处理过的基表连接列,连同数据一起存放到该内存中开辟的一块专门存放此类数据空间。然后,依据不同的哈希函数值,对基表进行划分簇操作。每个簇中包括所有相同哈希函数值的基表数据。
在连接阶段:在每个节点上将进行哈希连接的事实表作为被基表,将其要做连接的数据字段从HMF中依次分批读取,并且对连接属性字段做散列运算,确定应该到哪个簇中去搜索,应用Hash检索算法,定位到适当的簇上;
在定位到的簇中,按精确匹配得到符合条件的行号。对每个节点符合条件的行号,由Reduce做合并,在HMF文件系统中,读取SQL语句中涉及的查询列,最后输出查询结果。
因为算法的搜索范围已经缩小,进行匹配的成功率精确度高。匹配操作是在内存中进行,速度较合并排序时要快很多,实现了优化目的。
为了降低偶然因子的影响,优选地,首先将数据特征集随机分为若干等分,将每一等分依次作为特征测试集,求出各自的估计密度后,再取其平均值为这一类数量下的估计密度。基于改进估计密度的层次聚类方法对实例中数据的聚类结果是可信且有实际意义的,较常规聚类方法更适宜用来进行数据的聚类分析。
所述特征挖掘子系统在已验证的安全云环境下从数据层中分散在云平台中各处的数据提供者处搜索并匹配满足应用需求的特征数据,并通过聚集和分析整理形成待处理的特征数据;在建模阶段用于采用存储集群对分布式环境下的计算节点进行建模,在各非本地节点之间进行特征数据的共享,搜索并匹配满足应用需求的特征数据;设xi为存储集群中的一个节点,{xi1,xi2,…xim}为xi的非本地节点集,PLi为本地资源池,PNi为非本地节点数据池,i∈[1,n],n为存储集群包含节点的总数,m表示非本地节点的个数,m<n;
在进行数据的共享时采用基于非本地节点间的数据协议:当xi加入P2P网络时,将xi与{xi1,xi2,…xim}构建连接,xi进一步根据PLi中的服务信息,创建共享特征数据,并将所述共享特征数据转发给所有非本地节点xim进行共享,若存储集群中的任一节点接收到一个共享特征数据时,根据共享特征数据的ID信息判断是否接收过所述共享特征数据,若已接收过,丢弃所述共享特征数据,若首次接收,则根据共享特征数据的数据和节点位置信息,更新PNi中的内容,并根据共享特征数据的有效性标识,决定转发或丢弃所述共享特征数据,其中,数据需要定期在非本地节点之间进行同步;
在资源搜索时,具体执行的操作为:设发起共享请求Mj的节点为xj,在xj的非本地节点集合中按照概率pj随机挑选出的节点集为pj×{xj1,xj2,…xjm},j∈[1,n];当节点xi收到xj发送的共享请求Mj时,检查PNi和PLi中是否含有满足共享请求Mj的特征数据,若是,根据所述特征数据和数据所在节点的位置信息,创建查询的响应消息并根据xj的位置信息,将所述响应信息返回给xj,然后将xj的有效性标识减1,若xj的有效性标识为0,丢弃共享请求Mj,若不为0,采用EM算法计算pj×{xj1,xj2,…xjm}中各节点的期望值,将共享请求Mj转发给pj×{xj1,xj2,…xjm}中期望值最大的节点;设定期望值的计算公式为:
Enew=Eold+αElearn+β×I[Nxjμ(t)(Txjμ-T’xjμ)/(Txjμ×T’xjμ)]×(Nxjμ(t))/Txjμ
其中,Enew表示E的新值,Eold表示E的旧值,Elearn表示被学习的值,α表示学习速率,β表示拥塞因子,Nxjμ(t)表示时刻t节点x的缓存队列中待处理的共享请求消息数,T’xjμ表示pj×{xj1,xj2,…xjm}中的节点x处理一条共享请求消息所规定的时间,Txjμ表示pj×{xj1,xj2,…xjm}中的节点x处理一条共享请求消息实际所需的时间;函数I[x]在x>0时取值为1,x≤0时取值为0;
所述任务调度子系统对数据处理过程进行任务调度,将复杂的数据处理计算任务拆分至一组功能单一且独立的子任务,并为子任务匹配满足其需求的云端服务资源池,形成服务组合方案,以获得数据处理过程中所需的存储资源或计算资源;根据生成的数据服务的任务调度,执行服务组合方案的估计:
(1)、根据云端服务资源池SPv和对应的服务质量历史记录,进行CSγ的效率函数X的建模并根据应用实例初始化模型中效率函数的各参数,设由任务调度对应的约束为对应的服务质量约束为C={C1,C2,..,Cd},每个子任务Gv对应的资源池SPv共有mv个服务,对于云端服务资源池SPv中的每一个服务SP,其包含的历史记录个数为L,由SPv形成的第γ个可行的服务组合方案为CSγ,ω∈[1,mv],定义服务模型为:
其中,QoSmax(k)为第k维度的服务质量最大值,QoSmin(k)为第k维度的服务质量最小值,d为对应于的最大维度,qd()为优化函数,SPRh为隶属于SP的历史记录,xvω-h表示模型中效率函数的参数;
(2)、根据效率函数值按从小到大的顺序对各可行服务组合方案进行排序,选择前Z个可行服务组合方案作为优选服务组合方案,Z的取值根据应用实例进行设定;
(3)、对每一组优选服务组合方案计算其效率函数值的平均值;
(4)、选择效率函数值的平均值为最大的优选服务组合方案作为最优的服务组合方案;
记录优选服务组合方案的效率函数值和最优的服务组合方案,并将其作为样本进行学习,若新的优选服务组合方案已经出现过,则直接调用其函数值。
以网络话题数据挖掘为例,本发明在所构建的索引结构的基础上,用训练特征集对测试特征集进行表达时每个训练特征集对样本空间构造的贡献值的不同,采用σ(Ic)Vc矩阵构造新的稀疏表达词库,其中σ(Ic)是每类训练特征集,Vc为词库贡献值矩阵;在稀疏表达约束中加入分类集中约束项,使得相同类别的样本在总数较少的空间内能够聚集在一起,有效挖掘复杂数据的隐藏特征。本发明基于大数据的网络话题挖掘方法包含以下步骤:
步骤一:采用后向神经网络对话题文本提取话题特征。
步骤二:输入训练特征集,采用包含C个类型的文章样本训练分类词库,训练特征集空间用I表示,表示为I=[I1,I2,…,Ic,…,IC]∈RD×N,D表示训练特征集的特征维度,N是训练特征集总个数,Ii表示第i类样本,定义Ni表示每类训练特征集数量,则N=N1+N2+,…+Nc+…+NC
步骤三:对训练特征集进行正则化,得到正则化的训练特征集集I;
步骤四:对每一类训练特征集分别训练其词库,训练词库的过程为:
1、取出第c类样本Ic,将Ic映射到核子空间σ(Ic);
2、稀疏编码词库σ(Ic)Vc的训练需要满足约束条件,所述约束条件的优化函数为:
式中,α为稀疏编码中稀疏项约束的约束系数,δ为编码词库Ic中分类聚集约束的约束系数,Sc为第c类核子空间训练特征集的特征矩阵,其第m列表示核子空间样本对构造词库中每个词条的贡献值,词库Bc=σ(Ic)Vc,σ表示样本在核子空间中的映射。
3、对步骤2中约束条件的优化函数进行求解:首先对Vc和Sc进行初始化,随机生成两个矩阵,其中,Vc是Nc×K矩阵,Sc是K×Nc矩阵,K是词库大小;然后,交替迭代更新Vc和Sc,求取最优的贡献值矩阵Vc和特征矩阵Sc,使得优化函数值最小,将每一类训练特征集的贡献值矩阵Vc放置到一个单位矩阵当中,获得贡献值矩阵V,该贡献值矩阵W即为分类词库;其具体求解过程为:
(1)固定Vc,更新Sc;将Vc代入约束条件的优化函数,即优化函数转化为:
对Sc矩阵中的每一个元素进行更新,使优化函数最优,即定义Sc中的第k行第n列的元素,即求取最优的特征矩阵Sc
(2)固定求取的特征矩阵Sc,更新贡献值矩阵Vc,即优化函数转化为:
f(Wc)=||σ(Ic)-σ(Ic)Vc Sc||2
对贡献值矩阵Vc的每一列逐次进行更新,更新某一列时,其余列则为固定值;
遍历Vc的每一列来更新Vc的贡献值;
(3)迭代更新上述步骤(1)和步骤(2)来更新Sc和Vc的贡献值,当上述优化函数值f(Vc,Sc)趋于稳定时,更新完毕;
(4)依次训练每一类训练特征集的特征矩阵Sc和贡献值矩阵Vc
(5)通过每一类训练特征集的贡献值矩阵Vc获得维数为N行C×K列的贡献值矩阵V,即为分类词库。
步骤三:对文本进行识别,其步骤为:
(一)采用后向神经网络提取待识别测试特征集的文本特征,定义y标识测试样本话题的特征。
(二)使用已获得的贡献值矩阵V,对测试特征集文本特征σ(y)进行预测,获取预测函数,获取的预测函数为:
f(s)=||σ(y)-σ(I)s×Vc||2+2αs
式中,s表示测试特征集σ(y)的稀疏编码,σ(I)表示训练特征集I在核子空间的映射。
(三)求核子空间σ(y)在每类样本所构成样本空间的预测误差,用r(c)表示,其表达式为:
r(c)=||σ(y)-σ(Ic)Vc Sc||2
(五)比较核子空间σ(y)和每类样本的预测误差,待识别文本则属于预测误差最小的类别。
综上所述,本发明提出了一种基于深度学习的内容推荐方法,针对分布式环境的数据节点,方便用户通过匹配服务描述信息来使用数据,提高了数据挖掘的效率;为通过使用云端服务提供的计算资源或存储资源来开发构建数据服务提供了一个可行的方案。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (5)

1.一种基于深度学习的内容推荐方法,其特征在于,包括:
分析要构建特征索引的数据,若已构建的索引中没有当前数据,则在高层特征索引中构建一个新的特征索引对象;
判断新增数据的特征属性数值类型,若是数值型数据,则为其创建R树特征索引;若是文本型属性则为其构建逆向特征索引结构;
若已构建的特征索引中若存在当前属性,则不再向特征索引高层增加新的对象,只将当前属性的数据添加到低层相应的特征索引中;
重复以上步骤,直到为所有的数据构建特征索引完成。
2.根据权利要求1所述的方法,其特征在于,所述高层特征索引是为数据特征集中的特征属性所构建的索引,所述低层特征索引是为高层的特征属性所对应的键值所构建的索引。
3.根据权利要求1所述的方法,其特征在于,所述逆向特征索引结构中具体包含Aij、Fileid、Pos、Freq四部分信息,表示的含义分别为:(1)Aij为第i个特征属性键的第j个特征属性键值,i∈[1,n1]、j∈[1,m],n1为文本属性的个数,m为第i个属性键包含的属性数值的个数;(2)Fileid为包含查询特征词的文件ID,Fileid是唯一的;(3)Pos为包含查询特征词文件所在的位置;(4)Freq为查询特征词在数据特征集中出现的频率。
4.根据权利要求1所述的方法,其特征在于,对于所述R树特征索引,实际键值均存储在R树特征索引结构的非叶子对象中,且叶子对象都是有序排列且包含特征索引文件的三部分信息RS、Pos、Fileid,分别表示的含义是:(1)RS为第R个特征属性键的第S个属性键值,R∈[1,n2]、S∈[1,p],n2为数据特征集中包含的数值特征属性的个数,P为第R个属性键的特征数量;(2)Pos为包含此属性数值的文件所在的位置信息;(3)Fileid为包含查询特征词的文件ID。
5.根据权利要求1所述的方法,其特征在于,在索引查询过程中,将特征数据表中的键值key_id作为查询算法的输入值,输出为布尔值,具体过程如下:
(1)将root、key_id、层号level作为输入参数,调用搜索函数lookup(root,key_id,level),将搜索结果赋值给叶节点记录;
(2)若叶节点记录为空,则直接返回空值;否则,返回真正的搜索结果rid;
将当前块作为搜索函数lookup的输入,key为搜索键和level为初始层数,可能包含搜索键key的叶子记录作为函数的输出。
CN201810059345.2A 2018-01-22 2018-01-22 基于深度学习的内容推荐方法 Pending CN108256083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810059345.2A CN108256083A (zh) 2018-01-22 2018-01-22 基于深度学习的内容推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810059345.2A CN108256083A (zh) 2018-01-22 2018-01-22 基于深度学习的内容推荐方法

Publications (1)

Publication Number Publication Date
CN108256083A true CN108256083A (zh) 2018-07-06

Family

ID=62741967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810059345.2A Pending CN108256083A (zh) 2018-01-22 2018-01-22 基于深度学习的内容推荐方法

Country Status (1)

Country Link
CN (1) CN108256083A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947889A (zh) * 2021-03-09 2021-06-11 中科驭数(北京)科技有限公司 一种归并排序方法及装置
CN114707039A (zh) * 2022-03-29 2022-07-05 安徽体育运动职业技术学院 一种基于海量数据快速数据治理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331497A (zh) * 2014-11-19 2015-02-04 中国科学院自动化研究所 一种利用向量指令并行处理文件索引的方法及装置
CN106484813A (zh) * 2016-09-23 2017-03-08 广东港鑫科技有限公司 一种大数据分析系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331497A (zh) * 2014-11-19 2015-02-04 中国科学院自动化研究所 一种利用向量指令并行处理文件索引的方法及装置
CN106484813A (zh) * 2016-09-23 2017-03-08 广东港鑫科技有限公司 一种大数据分析系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947889A (zh) * 2021-03-09 2021-06-11 中科驭数(北京)科技有限公司 一种归并排序方法及装置
CN114707039A (zh) * 2022-03-29 2022-07-05 安徽体育运动职业技术学院 一种基于海量数据快速数据治理方法

Similar Documents

Publication Publication Date Title
US9805079B2 (en) Executing constant time relational queries against structured and semi-structured data
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
US8655805B2 (en) Method for classification of objects in a graph data stream
JP2021510429A (ja) 知識および自然言語処理を統合するための機械学習
CN105653691B (zh) 信息资源管理方法及管理装置
CN106815310A (zh) 一种对海量文档集的层次聚类方法及系统
CN110390352A (zh) 一种基于相似性哈希的图像暗数据价值评估方法
CN109241278A (zh) 科研知识管理方法及系统
CN108228787A (zh) 按照多级类目处理信息的方法和装置
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN110019751A (zh) 机器学习模型修改和自然语言处理
CN113222181A (zh) 一种面向k-means聚类算法的联邦学习方法
Abdelli et al. A novel and efficient index based web service discovery approach
CN108256083A (zh) 基于深度学习的内容推荐方法
CN107066328A (zh) 大规模数据处理平台的构建方法
CN108256086A (zh) 数据特征统计分析方法
CN108280176A (zh) 基于MapReduce的数据挖掘优化方法
CN107193940A (zh) 大数据优化分析方法
CN107844536A (zh) 应用程序选择的方法、装置和系统
CN104462480B (zh) 基于典型性的评论大数据挖掘方法
CN105205172A (zh) 一种数据库检索方法
CN107180017A (zh) 一种样本序列化方法和装置
Zaman et al. Selecting key person of social network using skyline query in MapReduce framework
CN105808745B (zh) 一种数据检索方法及服务器
CN113157882B (zh) 以用户语义为中心的知识图谱路径检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180706

WD01 Invention patent application deemed withdrawn after publication