CN114003635A - 一种推荐信息获取方法、装置、设备及产品 - Google Patents

一种推荐信息获取方法、装置、设备及产品 Download PDF

Info

Publication number
CN114003635A
CN114003635A CN202111138575.6A CN202111138575A CN114003635A CN 114003635 A CN114003635 A CN 114003635A CN 202111138575 A CN202111138575 A CN 202111138575A CN 114003635 A CN114003635 A CN 114003635A
Authority
CN
China
Prior art keywords
searched
feature
item
sample
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111138575.6A
Other languages
English (en)
Other versions
CN114003635B (zh
Inventor
周怡
蒿杰
历宁
孙亚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xintiao Technology Guangzhou Co ltd
Institute of Automation of Chinese Academy of Science
Guangdong Institute of Artificial Intelligence and Advanced Computing
Original Assignee
Xintiao Technology Guangzhou Co ltd
Institute of Automation of Chinese Academy of Science
Guangdong Institute of Artificial Intelligence and Advanced Computing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xintiao Technology Guangzhou Co ltd, Institute of Automation of Chinese Academy of Science, Guangdong Institute of Artificial Intelligence and Advanced Computing filed Critical Xintiao Technology Guangzhou Co ltd
Priority to CN202111138575.6A priority Critical patent/CN114003635B/zh
Publication of CN114003635A publication Critical patent/CN114003635A/zh
Application granted granted Critical
Publication of CN114003635B publication Critical patent/CN114003635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种推荐信息获取方法、装置、设备及产品,涉及信息检索技术领域,该方法包括以下步骤:将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息,本发明在减少计算量的同时实现检索过程更高的准确率。

Description

一种推荐信息获取方法、装置、设备及产品
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种推荐信息获取方法、装置、设备及产品。
背景技术
用户通过互联网进行网页浏览过程中,通常会采用相似度搜索的方法,获取推荐信息,即数据库将相似度搜索的结果作为推荐信息反馈给用户,以便用户了解相关的信息。在相似度检索中,例如识别数据库中的相似图像或网上的类似文件,给定一个搜索项、一个相似度度量和一个包含任意数量项的数据库,目标是从数据库中检索与搜索项最相似的项的排序列表,即从数据库中检索出与搜索项相似度最高的一项或者在相似度度量范围内的子集。当数据是高维的(例如图像或文档),而数据库很大(以百万或数十亿计的条目为单位),这在计算上是一个具有挑战性的问题。因此,在相似度检索中需要解决计算量大以及快速检索的问题。
现有技术中,一般的哈希编码算法将高维特征映射到低维空间中,容易出现哈希编码冲突问题,使得低维空间表达的数据有限。但是,一种称为局部敏感哈希(LocalitySensitive Hashing,LSH)的哈希方案,它是一种针对海量高维数据的快速最近邻查找算法,在信息检索、数据挖掘以及推荐系统等应用中,如果使用线性查找,那么对于低维数据效率尚可,而对于高维数据,就显得非常耗时了。为了解决这样的问题,出现了LSH算法,LSH使得2个相似度很高的数据以较高的概率映射成同一个哈希(hash)值,实现局部敏感性,LSH最根本的作用,就是能高效处理海量高维数据的最近邻问题。在此基础上,出现了基于随机投影的局部敏感哈希(Fly Local Sensitive Hash,FLSH)算法,FLSH是一种受果蝇嗅觉电路启发的算法,已证明该算法可生成哈希码,性能优于经典算法。FLSH算法在具有局部敏感性的同时,能够将高维空间映射到更高维空间,然而,由于FLSH使用随机投影(RandomProjection,RP),因此无法从数据中学习。
综上,能够将复杂的高维特征映射到一个更高维的特征空间中,并且进行重复学习的哈希方案是目前相似度搜索领域亟待解决的重要课题。
发明内容
本发明提供一种推荐信息获取方法、装置、设备及产品,用以解决现有技术中相似度搜索算法无法进行重复学习的缺陷,实现在减少计算量的同时实现检索过程更高的准确率。
本发明提供一种推荐信息获取方法,包括以下步骤:
将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
根据本发明提供的一种推荐信息获取方法,所述相似度搜索模型包括特征处理层、特征投影层和特征抑制层;
其中,所述特征处理层用于对所述待搜索项进行特征处理;
所述特征投影层用于基于所述随机投影矩阵,对从所述待搜索项进行特征处理得到的所述第一维度特征向量进行高维随机投影;
所述特征抑制层用于对所述第一维度特征向量进行高维随机投影得到的第二维度特征向量进行稀疏。
根据本发明提供的一种推荐信息获取方法,所述特征处理层包括特征抽取层、抑制因子层和标准化处理层;
其中,所述特征抽取层用于对所述待搜索项进行特征抽取;
所述抑制因子层用于基于从所述待搜索项进行特征抽取得到特征向量获取抑制因子;
所述标准化处理层用于基于所述抑制因子,对所述特征向量进行标准化处理。
根据本发明提供的一种推荐信息获取方法,所述将待搜索项输入至相似度搜索模型中,得到所述待搜索项对应的稀疏编码,具体包括以下步骤:
将所述待搜索项输入至所述特征处理层中,得到所述特征处理层输出的所述待搜索项的所述第一维度特征向量;
将所述第一维度特征向量和所述随机投影矩阵输入至所述特征投影层中,得到所述特征投影层输出的所述第二维度特征向量;
将所述第二维度特征向量输入至所述特征抑制层中,得到所述特征抑制层输出的所述待搜索项的所述稀疏编码。
根据本发明提供的一种推荐信息获取方法,所述将所述待搜索项输入至所述特征处理层中,得到所述特征处理层输出的所述待搜索项的所述第一维度特征向量,具体包括以下步骤:
将所述待搜索项输入至所述特征处理层的所述特征抽取层中,得到所述特征抽取层输出的所述待搜索项的特征向量;
将所述特征向量输入至所述特征处理层的所述抑制因子层中,得到所述抑制因子层输出的所述抑制因子;
将所述抑制因子和所述特征向量输入至所述特征处理层的所述标准化处理层中,得到标准化处理层输出的所述待搜索项的第一维度特征向量。
根据本发明提供的一种推荐信息获取方法,所述相似度搜索模型通过以下步骤训练得到:
获取所述样本搜索项的所述样本随机投影矩阵;
将所述样本搜索项和所述样本随机投影矩阵作为训练使用的输入数据,采用深度学习中无监督学习的训练方式,得到用于生成所述待搜索项的所述稀疏编码的所述相似度搜索模型;其中,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重。
本发明还提供一种推荐信息获取装置,包括:
获取模块,用于将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
检索模块,用于基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述推荐信息获取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述推荐信息获取方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述推荐信息获取方法的步骤。
本发明提供的推荐信息获取方法、装置、设备及产品,通过相似度模型得到稀疏编码,并基于稀疏编码去得到信息存储数据库输出的待搜索项对应的推荐信息,相似度搜索模型在基于果蝇嗅觉回路机制的基础上,成为一种基于突触可塑性机制的稀疏哈希编码算法,具体的,相似度搜索模型能将复杂的高维特征映射到一个更高维的特征空间中,并在重复学习过程中通过调整相应的随机投影矩阵的权重,使得相似度搜索模型能够学习到数据的差异性,保持类内变化的同时增强类间变化,在减少计算量的同时实现检索过程更高的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的推荐信息获取方法的流程示意图;
图2是本发明提供的推荐信息获取方法中相似度搜索模型具体的结构示意图;
图3是本发明提供的推荐信息获取方法中特征处理层具体的结构示意图;
图4是本发明提供的推荐信息获取方法中步骤S100具体的流程示意图;
图5是本发明提供的推荐信息获取方法中步骤S110具体的流程示意图;
图6是本发明提供的推荐信息获取装置的结构示意图;
图7是本发明提供的推荐信息获取装置中获取模块具体的结构示意图;
图8是本发明提供的推荐信息获取装置中第一获取单元具体的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的推荐信息获取方法,该方法包括以下步骤:
S100、将待搜索项输入至相似度搜索模型中,得到相似度搜索模型输出的待搜索项对应的稀疏编码。
本发明提供的相似度搜索模型是基于样本搜索项以及样本搜索项对应的样本随机投影矩阵训练得到的,样本随机矩阵为具有权重的矩阵,且,每次训练结束后会生成训练权重,并将训练权重作为下次训练时样本随机矩阵的样本权重,即在前一次训练结束后,会生成一个新的权重也就是训练权重,并利用这个生成的训练权重去更新样本随机投影矩阵的样本权重,因此,每次训练时,样本搜索项输入时对应的样本随机投影矩阵的样本权重均可以进行调整,使得该相似度搜索模型能够学习到数据的差异性,保持类内变化的同时增强类间变化,以复现神经元的突触可塑性机制。
该方法中,相似度搜索模型用于基于稀疏的第二维度特征向量,得到待搜索项的稀疏编码,第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,第一维度特征向量是基于待搜索项进行特征处理得到的,因此,第二维度特征向量的维度高于第一维度特征向量,是相对于高维的第一维度特征向量而言更高维的特征向量。
S200、基于稀疏编码,利用最近邻搜索(Approximate Nearest Neighbor,ANN),得到信息存储数据库输出的待搜索项对应的推荐信息。
在步骤S100得到稀疏编码后,作为待搜索项的标签,与信息存储数据库中已经存在的标签计算欧式空间的距离,然后基于该距离能够得到与待搜索项距离最近的集合,该集合可以为一项或者多项,即从信息存储数据库中检索出与搜索项相似度最高的一项或者在相似度度量范围内的子集。
例如,对于给定的样本a以及样本b分别对应的标签稀疏编码V4,计算欧氏空间的距离d。
d=dist(V4(a),V4(b))
请参阅图2,具体的,本发明提供的相似度搜索模型包括特征处理层、特征投影层和特征抑制层。特征处理层用于对待搜索项进行特征处理;特征投影层(KC层)用于基于随机投影矩阵,对从待搜索项进行特征处理得到的第一维度特征向量进行高维随机投影;特征抑制层(APL层)用于对第一维度特征向量进行高维随机投影得到的第二维度特征向量进行稀疏。
请参阅图3,更具体的,特征处理层包括特征抽取层(ORN层)、抑制因子层(LN层)和标准化处理层(PN层),特征抽取层用于对待搜索项进行特征抽取;抑制因子层用于基于从待搜索项进行特征抽取得到特征向量获取抑制因子;标准化处理层用于基于抑制因子,对特征向量进行标准化处理。
本发明的推荐信息获取方法,通过相似度模型得到稀疏编码,并基于稀疏编码去得到信息存储数据库输出的待搜索项对应的推荐信息,相似度搜索模型在基于果蝇嗅觉回路机制的基础上,成为一种基于突触可塑性机制的稀疏哈希编码算法,具体的,相似度搜索模型能将复杂的高维特征映射到一个更高维的特征空间中,并在重复学习过程中通过调整相应的随机投影矩阵的权重,使得相似度搜索模型能够学习到数据的差异性,保持类内变化的同时增强类间变化,在减少计算量的同时实现检索过程更高的准确率。
下面结合图4描述本发明的推荐信息获取方法,步骤S100具体包括以下步骤:
S110、将待搜索项输入至特征处理层中,得到特征处理层输出的待搜索项的第一维度特征向量V2
S120、将第一维度特征向量V2和随机投影矩阵M1输入至特征投影层中,得到特征投影层输出的第二维度特征向量V3
Figure BDA0003283155340000081
其中,Wij表示随机投影矩阵M1中第j行第i列的项,d表示组成第二维度特征向量V3的元素总数,m表示组成特征向量V1的元素总数。
V3=M1×V2=[y0,y1,..,yd-1]T
其中,yi表示组成第二维度特征向量V3的第i个元素,第二维度特征向量V3共有d个元素,且i≤d。
S130、将第二维度特征向量V3输入至特征抑制层中,得到特征抑制层输出的待搜索项的稀疏编码V4。步骤S130中特征抑制层起到稀疏作用。
V4=WTA(V3)
Figure BDA0003283155340000091
其中,V4[i]表示组成稀疏编码V4的第i个元素,V3[i]表示组成第二维度特征向量V3的第i个元素。
在特征抑制层可以采用赢者通吃(WTA)的神经元抑制策略(Anterior PairedLateral,APL)策略来减少投影后的数据的特征维数,以此来抑制特征投影层传来的第二维度特征向量V3,例如可以仅保留约5%的活性,即保留前k个最大值,得到最终的输出向量也就是稀疏编码V4
下面结合图5描述本发明的推荐信息获取方法,步骤S110具体包括以下步骤:
S111、将待搜索项输入至特征处理层的特征抽取层中,得到特征抽取层输出的待搜索项的特征向量V1
V1=[x0,x1,..,xm-1]T
其中,xi表示组成特征向量V1的第i个元素,特征向量V1共有m个元素,且i≤m。
步骤S111这一过程中,对于图像数据进行特征提取时,可以采用卷积神经网络(Convolutional Neural Networks,CNN)模型进行特征化处理,将CNN模型提取的特征作为输入;对于文本数据进行特征提取时,可以采用TF-IDF等或者词频处理方式,以将文本数据生成词向量,并以词向量的形式作为输入。
S112、将特征向量输入至特征处理层的抑制因子层中,得到抑制因子层输出的抑制因子s。具体的,步骤S112中,将每个输入的特征向量V1中各个元素xi的平方总和作为输入到标准化处理层的抑制因子s。
Figure BDA0003283155340000101
S113、将抑制因子s和特征向量V1输入至特征处理层的标准化处理层中,得到标准化处理层输出的待搜索项的第一维度特征向量V2。步骤S113中起到标准化作用,可以降低各个维度特征变化范围过大产生的负面影响。
Figure BDA0003283155340000102
在该方法中,相似度搜索模型通过以下步骤训练得到:
A100、获取样本搜索项的样本随机投影矩阵M2,且,不同的样本搜索项的样本随机投影矩阵M2携带的权重不同。
wij←wij+αyi(xj-yiwij)
其中,xj表示组成第一维度特征向量V2的第j个元素,yi表示组成第二维度特征向量V3的第i个元素,α为更新权重的学习率。该权重即为标准化处理层和特征投影层连接节点的权重,因此,在训练过程可以调整标准化处理层和特征投影层连接节点的权重。
在本实施例中,是通过基于赫布定律的oja′s rule生成样本随机投影矩阵M2的权重。
A200、将样本搜索项和样本随机投影矩阵M2作为训练使用的输入数据,采用深度学习中无监督学习的训练方式,得到用于生成待搜索项的稀疏编码V4的相似度搜索模型。
下面对本发明提供的推荐信息获取装置进行描述,下文描述的推荐信息获取装置与上文描述的推荐信息获取方法可相互对应参照。
下面结合图6描述本发明的推荐信息获取装置,该装置包括:
获取模块100,用于将待搜索项输入至相似度搜索模型中,得到待搜索项对应的稀疏编码。
本发明提供的相似度搜索模型是基于样本搜索项以及样本搜索项对应的样本随机投影矩阵训练得到的,样本随机矩阵为具有权重的矩阵,且,每次训练结束后会生成训练权重,并将训练权重作为下次训练时样本随机矩阵的样本权重,即在前一次训练结束后,会生成一个新的权重也就是训练权重,并利用这个生成的训练权重去更新样本随机投影矩阵的样本权重,因此,每次训练时,样本搜索项输入时对应的样本随机投影矩阵的样本权重均可以进行调整,使得该相似度搜索模型能够学习到数据的差异性,保持类内变化的同时增强类间变化,以复现神经元的突触可塑性机制。
该装置中,相似度搜索模型用于基于稀疏的第二维度特征向量,得到待搜索项的稀疏编码,第二维度特征向量是基于携带权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,第一维度特征向量是基于待搜索项进行特征处理得到的,因此,第二维度特征向量的维度高于第一维度特征向量,是相对于高维的第一维度特征向量而言更高维的特征向量。
检索模块200,用于基于稀疏编码,利用ANN,得到信息存储数据库输出的待搜索项对应的推荐信息。
在获取模块100得到稀疏编码后,作为待搜索项的标签,与信息存储数据库中已经存在的标签计算欧式空间的距离,然后基于该距离能够得到与待搜索项距离最近的集合,该集合可以为一项或者多项,即从信息存储数据库中检索出与搜索项相似度最高的一项或者在相似度度量范围内的子集。
具体的,本发明提供的相似度搜索模型包括特征处理层、特征投影层和特征抑制层。特征处理层用于对待搜索项进行特征处理;特征投影层(KC层)用于基于随机投影矩阵,对从待搜索项进行特征处理得到的第一维度特征向量进行高维随机投影;特征抑制层(APL层)用于对第一维度特征向量进行高维随机投影得到的第二维度特征向量进行稀疏。
更具体的,特征处理层包括特征抽取层(ORN层)、抑制因子层(LN层)和标准化处理层(PN层),特征抽取层用于对待搜索项进行特征抽取;抑制因子层用于基于从待搜索项进行特征抽取得到特征向量获取抑制因子;标准化处理层用于基于抑制因子,对特征向量进行标准化处理。
本发明的推荐信息获取装置,通过相似度模型得到稀疏编码,并基于稀疏编码去得到信息存储数据库输出的待搜索项对应的推荐信息,相似度搜索模型在基于果蝇嗅觉回路机制的基础上,成为一种基于突触可塑性机制的稀疏哈希编码算法,具体的,相似度搜索模型能将复杂的高维特征映射到一个更高维的特征空间中,并在重复学习过程中通过调整相应的随机投影矩阵的权重,使得相似度搜索模型能够学习到数据的差异性,保持类内变化的同时增强类间变化,在减少计算量的同时实现检索过程更高的准确率。
下面结合图7描述本发明的推荐信息获取装置,获取模块100具体包括:
第一获取单元110,用于将待搜索项输入至特征处理层中,得到特征处理层输出的待搜索项的第一维度特征向量V2
第二获取单元120,用于将第一维度特征向量V2和随机投影矩阵M1输入至特征投影层中,得到特征投影层输出的第二维度特征向量V3
Figure BDA0003283155340000121
其中,Wij表示随机投影矩阵M1中第j行第i列的项,d表示组成第二维度特征向量V3的元素总数,m表示组成特征向量V1的元素总数。
V3=M1×V2=[y0,y1,..,yd-1]T
其中,yi表示组成第二维度特征向量V3的第i个元素,第二维度特征向量V3共有d个元素,且i≤d。
第三获取单元130,用于将第二维度特征向量V3输入至特征抑制层中,得到特征抑制层输出的待搜索项的稀疏编码V4。第三获取单元130中特征抑制层起到稀疏作用。
V4=WTA(V3)
Figure BDA0003283155340000131
其中,V4[i]表示组成稀疏编码V4的第i个元素,V3[i]表示组成第二维度特征向量V3的第i个元素。
在特征抑制层可以采用赢者通吃(WTA)的APL策略来减少投影后的数据的特征维数,以此来抑制特征投影层传来的第二维度特征向量V3,例如可以仅保留约5%的活性,即保留前k个最大值,得到最终的输出向量也就是稀疏编码V4
下面结合图8描述本发明的推荐信息获取装置,第一获取单元110具体包括:
抽取单元111,用于将待搜索项输入至特征处理层的特征抽取层中,得到特征抽取层输出的待搜索项的特征向量V1
V1=[x0,x1,..,xm-1]T
其中,xi表示组成特征向量V1的第i个元素,特征向量V1共有m个元素,且i≤m。
抽取单元111这一模块中,对于图像数据进行特征提取时,可以采用CNN模型进行特征化处理,将CNN模型提取的特征作为输入;对于文本数据进行特征提取时,可以采用TF-IDF等或者词频处理方式,以将文本数据生成词向量,并以词向量的形式作为输入。
因子获取单元112,用于将特征向量输入至特征处理层的抑制因子层中,得到抑制因子层输出的抑制因子s。具体的,因子获取单元112中,将每个输入的特征向量V1中各个元素xi的平方总和作为输入到标准化处理层的抑制因子s。
Figure BDA0003283155340000141
标准化单元113,用于将抑制因子s和特征向量V1输入至特征处理层的标准化处理层中,得到标准化处理层输出的待搜索项的第一维度特征向量V2。标准化单元113中起到标准化作用,可以降低各个维度特征变化范围过大产生的负面影响。
Figure BDA0003283155340000142
在该装置中,相似度搜索模型通过以下步骤训练得到:
权重调整模块300,用于获取样本搜索项的样本随机投影矩阵M2,且,不同的样本搜索项的样本随机投影矩阵M2携带的权重不同。
wij←wij+αyi(xj-yiwij)
其中,xj表示组成第一维度特征向量V2的第j个元素,yi表示组成第二维度特征向量V3的第i个元素,α为更新权重的学习率。该权重即为标准化处理层和特征投影层连接节点的权重,因此,在训练过程可以调整标准化处理层和特征投影层连接节点的权重。
在本实施例中,是通过基于赫布定律的oja′s rule生成样本随机投影矩阵M2的权重。
训练模块400,用于将样本搜索项和样本随机投影矩阵M2作为训练使用的输入数据,采用深度学习中无监督学习的训练方式,得到用于生成待搜索项的稀疏编码V4的相似度搜索模型。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行推荐信息获取方法,该方法包括以下步骤:
S100、将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
S200、基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的以执行推荐信息获取方法,该方法包括以下步骤:
S100、将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
S200、基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的以执行推荐信息获取方法,该方法包括以下步骤:
S100、将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
S200、基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种推荐信息获取方法,其特征在于,包括以下步骤:
将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于具有权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
2.根据权利要求1所述的推荐信息获取方法,其特征在于,所述相似度搜索模型包括特征处理层、特征投影层和特征抑制层;
其中,所述特征处理层用于对所述待搜索项进行特征处理;
所述特征投影层用于基于所述随机投影矩阵,对从所述待搜索项进行特征处理得到的所述第一维度特征向量进行高维随机投影;
所述特征抑制层用于对所述第一维度特征向量进行高维随机投影得到的第二维度特征向量进行稀疏。
3.根据权利要求2所述的推荐信息获取方法,其特征在于,所述特征处理层包括特征抽取层、抑制因子层和标准化处理层;
其中,所述特征抽取层用于对所述待搜索项进行特征抽取;
所述抑制因子层用于基于从所述待搜索项进行特征抽取得到特征向量获取抑制因子;
所述标准化处理层用于基于所述抑制因子,对所述特征向量进行标准化处理。
4.根据权利要求3所述的推荐信息获取方法,其特征在于,所述将待搜索项输入至相似度搜索模型中,得到所述待搜索项对应的稀疏编码,具体包括以下步骤:
将所述待搜索项输入至所述特征处理层中,得到所述特征处理层输出的所述待搜索项的所述第一维度特征向量;
将所述第一维度特征向量和所述随机投影矩阵输入至所述特征投影层中,得到所述特征投影层输出的所述第二维度特征向量;
将所述第二维度特征向量输入至所述特征抑制层中,得到所述特征抑制层输出的所述待搜索项的所述稀疏编码。
5.根据权利要求4所述的推荐信息获取方法,其特征在于,所述将所述待搜索项输入至所述特征处理层中,得到所述特征处理层输出的所述待搜索项的所述第一维度特征向量,具体包括以下步骤:
将所述待搜索项输入至所述特征处理层的所述特征抽取层中,得到所述特征抽取层输出的所述待搜索项的特征向量;
将所述特征向量输入至所述特征处理层的所述抑制因子层中,得到所述抑制因子层输出的所述抑制因子;
将所述抑制因子和所述特征向量输入至所述特征处理层的所述标准化处理层中,得到标准化处理层输出的所述待搜索项的第一维度特征向量。
6.根据权利要求3所述的推荐信息获取方法,其特征在于,所述相似度搜索模型通过以下步骤训练得到:
获取所述样本搜索项的所述样本随机投影矩阵;
将所述样本搜索项和所述样本随机投影矩阵作为训练使用的输入数据,采用深度学习中无监督学习的训练方式,得到用于生成所述待搜索项的所述稀疏编码的所述相似度搜索模型;其中,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重。
7.一种推荐信息获取装置,其特征在于,包括:
获取模块,用于将待搜索项输入至相似度搜索模型中,得到所述相似度搜索模型输出的所述待搜索项对应的稀疏编码;其中,所述相似度搜索模型是基于样本搜索项以及所述样本搜索项对应的样本随机投影矩阵训练得到的,所述样本随机矩阵为具有样本权重的矩阵,且,每次训练结束后会生成训练权重,并将所述训练权重作为下次训练时所述样本随机矩阵的所述样本权重;
检索模块,用于基于所述稀疏编码,利用最近邻搜索,得到信息存储数据库输出的所述待搜索项对应的推荐信息;
其中,所述相似度搜索模型用于基于稀疏的第二维度特征向量,得到所述待搜索项的所述稀疏编码,所述第二维度特征向量是基于携带权重的随机投影矩阵将第一维度特征向量投影到高维空间得到的,所述第一维度特征向量是基于所述待搜索项进行特征处理得到的,所述第二维度特征向量的维度高于所述第一维度特征向量。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述推荐信息获取方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述推荐信息获取方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述推荐信息获取方法的步骤。
CN202111138575.6A 2021-09-27 2021-09-27 一种推荐信息获取方法、装置、设备及产品 Active CN114003635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111138575.6A CN114003635B (zh) 2021-09-27 2021-09-27 一种推荐信息获取方法、装置、设备及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111138575.6A CN114003635B (zh) 2021-09-27 2021-09-27 一种推荐信息获取方法、装置、设备及产品

Publications (2)

Publication Number Publication Date
CN114003635A true CN114003635A (zh) 2022-02-01
CN114003635B CN114003635B (zh) 2023-01-31

Family

ID=79921743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111138575.6A Active CN114003635B (zh) 2021-09-27 2021-09-27 一种推荐信息获取方法、装置、设备及产品

Country Status (1)

Country Link
CN (1) CN114003635B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN109739999A (zh) * 2019-01-16 2019-05-10 福建师范大学 一种高效的果蝇神经网络哈希搜索wmsn数据方法
CN111078911A (zh) * 2019-12-13 2020-04-28 宁波大学 一种基于自编码器的无监督哈希方法
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503106A (zh) * 2016-10-17 2017-03-15 北京工业大学 一种基于深度学习的图像哈希索引构建方法
CN109739999A (zh) * 2019-01-16 2019-05-10 福建师范大学 一种高效的果蝇神经网络哈希搜索wmsn数据方法
CN111078911A (zh) * 2019-12-13 2020-04-28 宁波大学 一种基于自编码器的无监督哈希方法
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANGYI MA ET AL.: "Large-scale Image Retrieval with Sparse Binary Projections", 《PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
张丽萍等: "基于稀疏自编码的无监督哈希算法", 《液晶与显示》 *

Also Published As

Publication number Publication date
CN114003635B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN108491817A (zh) 一种事件检测模型训练方法、装置以及事件检测方法
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN105930413A (zh) 相似度模型参数的训练方法、搜索处理方法及对应装置
CN111291165B (zh) 训练词向量嵌入模型的方法及装置
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
CN113496277A (zh) 用于检索图像的神经网络装置及其操作方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN111310462A (zh) 用户属性的确定方法、装置、设备及存储介质
US20210365719A1 (en) System and method for few-shot learning
CN109597906A (zh) 图像检索方法及装置
CN115827990B (zh) 搜索方法及装置
CN114003635B (zh) 一种推荐信息获取方法、装置、设备及产品
JP5971722B2 (ja) ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
CN115063604B (zh) 特征提取模型训练、目标重识别方法及装置
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
CN112884053B (zh) 基于图文混合特征的网站分类方法、系统、设备及介质
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN111814061B (zh) 药品搜索方法及系统
CN112988699B (zh) 模型训练方法、数据标签的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant