CN108804429A - 一种基于深度学习的访客搜索行为特征提取方法 - Google Patents

一种基于深度学习的访客搜索行为特征提取方法 Download PDF

Info

Publication number
CN108804429A
CN108804429A CN201710281437.0A CN201710281437A CN108804429A CN 108804429 A CN108804429 A CN 108804429A CN 201710281437 A CN201710281437 A CN 201710281437A CN 108804429 A CN108804429 A CN 108804429A
Authority
CN
China
Prior art keywords
search
visitor
data
matrix
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710281437.0A
Other languages
English (en)
Inventor
林正春
梁文庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Original Mdt Infotech Ltd
Original Assignee
Guangdong Original Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Original Mdt Infotech Ltd filed Critical Guangdong Original Mdt Infotech Ltd
Priority to CN201710281437.0A priority Critical patent/CN108804429A/zh
Publication of CN108804429A publication Critical patent/CN108804429A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的访客搜索行为特征提取方法,包括以下步骤:A、记录访客搜索访问的历史记录,并根据搜索关键词的先后顺序建立搜索记录矩阵T,在搜索记录矩阵T中每个搜索关键词均关联有与前一次搜索关键词的逻辑关系、本次关键词搜索结果的浏览时间、本次搜索使用的关键词的点击率、本次关键词搜索的效果评估系数;B、对搜索记录矩阵T中与搜索关键词关联的各数据进行归一化处理,得到矩阵T′;C、对矩阵T′中的特征数据进行提取;D、对提取的特征数据进行关联组合,形成不同访客搜索行为的特征集合。本发明能够解决现有技术的不足,提高了访客搜索行为特征提取的准确度。

Description

一种基于深度学习的访客搜索行为特征提取方法
技术领域
本发明涉及互联网数据分析技术领域,尤其是一种基于深度学习的访客搜索行为特征提取方法。
背景技术
在通常的网络搜索技术中,用户搜索行为是指用户通过搜索获取自己感兴趣的内容的行为。通过对用户搜索行为的分析,可以提高搜索结果对于不同用户的针对性,实现搜索结果的精确投放。现有的搜索行为分析方法,仅仅是对搜索行为的简单记录和分类存储对比,由于直接从数据库中获取的数据中夹杂着大量的干扰数据,这就导致现有的分析方法对于搜索行为的真实意图判断偏差较大,导致搜索结果投放的优化效果一般。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的访客搜索行为特征提取方法,能够解决现有技术的不足,提高了访客搜索行为特征提取的准确度。
为解决上述技术问题,本发明所采取的技术方案如下。
一种基于深度学习的访客搜索行为特征提取方法,包括以下步骤:
A、记录访客搜索访问的历史记录,并根据搜索关键词的先后顺序建立搜索记录矩阵T,在搜索记录矩阵T中每个搜索关键词均关联有与前一次搜索关键词的逻辑关系、本次关键词搜索结果的浏览时间、本次搜索使用的关键词的点击率、本次关键词搜索的效果评估系数;
B、对搜索记录矩阵T中与搜索关键词关联的各数据进行归一化处理,得到矩阵T′;
C、对矩阵T′中的特征数据进行提取;
D、对提取的特征数据进行关联组合,形成不同访客搜索行为的特征集合。
作为优选,步骤A中,将搜索结束前浏览时间小于设定阈值的搜索关键词删除。
作为优选,步骤B中,对数据进行归一化的方法为,
其中,vj为归一化之前的数据,v′j为归一化之后的数据,为归一化之前的数据平均值,Ej为归一化函数,xi为同一类数据不同数据值之间的偏差值,yi为同一关键词下不同类数据之间的关联度,k1为比例系数,
Ej=∫1vj(1+k2)r
其中,l为包含vj的检索路径,作为积分路径,r为vj的权重因子,k2为比例系数。
作为优选,步骤B中,对归一化之后的数据进行模糊化处理;
Δτ=|v′j-t|,
其中,t为模糊化参考值,h为判断阈值,是数据平均值,v″j是模糊化的数据值。
作为优选,步骤C中,建立迭代函数f,对步骤B处理后的搜索记录矩阵T′进行迭代处理,直至搜索记录矩阵T′的任意两个特征向量之间的欧氏距离小于阈值,提取其特征向量中的各元素值作为特征数据,
其中,k3为比例系数。
作为优选,步骤D中,通过数据遍历的方式对特征数据进行关联组合处理,处理的结果满足以下条件,
同一特征集合的特征数据满足相同的关联函数关系,不同特征集合之间保持有唯一的映射关系,且所有映射关系均不具有线性相关的关系。
采用上述技术方案所带来的有益效果在于:本发明将待处理数据进行统一的采集和归一化,为后续处理提供了便利;同时降低了不同数据形式之间在后续处理过程中数据提取的不确定性。经过数据的迭代处理,可以将数据特征与非特征元素充分分离,并且集中化,从而提高数据特征提取的有效性。本发明提供的搜索行为特征提取方法可以从海量的搜索数据中快速、准确地提取出关键的特征数据,从而为搜索结果的展示和投放提供准确的参考依据。
具体实施方式
本发明的一个具体实施方式包括以下步骤:
A、记录访客搜索访问的历史记录,并根据搜索关键词的先后顺序建立搜索记录矩阵T,在搜索记录矩阵T中每个搜索关键词均关联有与前一次搜索关键词的逻辑关系、本次关键词搜索结果的浏览时间、本次搜索使用的关键词的点击率、本次关键词搜索的效果评估系数;
B、对搜索记录矩阵T中与搜索关键词关联的各数据进行归一化处理,得到矩阵T′;
C、对矩阵T′中的特征数据进行提取;
D、对提取的特征数据进行关联组合,形成不同访客搜索行为的特征集合。
步骤A中,将搜索结束前浏览时间小于设定阈值的搜索关键词删除。
步骤B中,对数据进行归一化的方法为,
其中,vj为归一化之前的数据,v′j为归一化之后的数据,为归一化之前的数据平均值,Ej为归一化函数,xi为同一类数据不同数据值之间的偏差值,yi为同一关键词下不同类数据之间的关联度,k1为比例系数,
其中,l为包含vj的检索路径,作为积分路径,r为vj的权重因子,k2为比例系数。
步骤B中,对归一化之后的数据进行模糊化处理;
Δτ=|v′j-t|,
其中,t为模糊化参考值,h为判断阈值,是数据平均值,v″j是模糊化的数据值。
步骤C中,建立迭代函数f,对步骤B处理后的搜索记录矩阵T′进行迭代处理,直至搜索记录矩阵T′的任意两个特征向量之间的欧氏距离小于阈值,提取其特征向量中的各元素值作为特征数据,
其中,k3为比例系数。
步骤D中,通过数据遍历的方式对特征数据进行关联组合处理,处理的结果满足以下条件,
同一特征集合的特征数据满足相同的关联函数关系,不同特征集合之间保持有唯一的映射关系,且所有映射关系均不具有线性相关的关系。
在对新的访客搜索进行特征提取时,使用已提取特征的历史数据与新搜索进行对比,根据对比结果选取最接近的历史数据所对应的特征数据作为新搜索的特征预测值。当新搜索的特征提取出来后,与特征预测值进行比对,根据比对差异对历史数据所对应的特征集合进行修正,从而提高特征集合反应搜索行为特征的准确度。
将每次修正的过程生成一个修正映射,将修正映射的历史数据进行拟合,使用拟合后的修正映射对步骤C中使用的T′进行带入计算,得到修正后的T′,使用修正后的T′进行步骤C所述的处理。利用修正过程对T′进行反馈修正,可在步骤C进行处理前对数据所包含的偏差进行抑制,从而提高特征提取精度。
上述描述仅作为本发明可实施的技术方案提出,不作为对其技术方案本身的单一限制条件。

Claims (6)

1.一种基于深度学习的访客搜索行为特征提取方法,其特征在于包括以下步骤:
A、记录访客搜索访问的历史记录,并根据搜索关键词的先后顺序建立搜索记录矩阵T,在搜索记录矩阵T中每个搜索关键词均关联有与前一次搜索关键词的逻辑关系、本次关键词搜索结果的浏览时间、本次搜索使用的关键词的点击率、本次关键词搜索的效果评估系数;
B、对搜索记录矩阵T中与搜索关键词关联的各数据进行归一化处理,得到矩阵T′;
C、对矩阵T′中的特征数据进行提取;
D、对提取的特征数据进行关联组合,形成不同访客搜索行为的特征集合。
2.根据权利要求1所述的基于深度学习的访客搜索行为特征提取方法,其特征在于:步骤A中,将搜索结束前浏览时间小于设定阈值的搜索关键词删除。
3.根据权利要求1所述的基于深度学习的访客搜索行为特征提取方法,其特征在于:步骤B中,对数据进行归一化的方法为,
其中,vj为归一化之前的数据,v′j为归一化之后的数据,为归一化之前的数据平均值,Ej为归一化函数,xi为同一类数据不同数据值之间的偏差值,yi为同一关键词下不同类数据之间的关联度,k1为比例系数,
Ej=∫lvj(1+k2)r
其中,l为包含vj的检索路径,作为积分路径,r为vj的权重因子,k2为比例系数。
4.根据权利要求3所述的基于深度学习的访客搜索行为特征提取方法,其特征在于:步骤B中,对归一化之后的数据进行模糊化处理;
Δτ=|v′j-t|,
其中,t为模糊化参考值,h为判断阈值,是数据平均值,v″j是模糊化的数据值。
5.根据权利要求4所述的基于深度学习的访客搜索行为特征提取方法,其特征在于:步骤C中,建立迭代函数f,对步骤B处理后的搜索记录矩阵T′进行迭代处理,直至搜索记录矩阵T′的任意两个特征向量之间的欧氏距离小于阈值,提取其特征向量中的各元素值作为特征数据,
其中,k3为比例系数。
6.根据权利要求5所述的基于深度学习的访客搜索行为特征提取方法,其特征在于:步骤D中,通过数据遍历的方式对特征数据进行关联组合处理,处理的结果满足以下条件,
同一特征集合的特征数据满足相同的关联函数关系,不同特征集合之间保持有唯一的映射关系,且所有映射关系均不具有线性相关的关系。
CN201710281437.0A 2017-04-26 2017-04-26 一种基于深度学习的访客搜索行为特征提取方法 Pending CN108804429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710281437.0A CN108804429A (zh) 2017-04-26 2017-04-26 一种基于深度学习的访客搜索行为特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710281437.0A CN108804429A (zh) 2017-04-26 2017-04-26 一种基于深度学习的访客搜索行为特征提取方法

Publications (1)

Publication Number Publication Date
CN108804429A true CN108804429A (zh) 2018-11-13

Family

ID=64068859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710281437.0A Pending CN108804429A (zh) 2017-04-26 2017-04-26 一种基于深度学习的访客搜索行为特征提取方法

Country Status (1)

Country Link
CN (1) CN108804429A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489525A (zh) * 2019-08-09 2019-11-22 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN103714120A (zh) * 2013-12-03 2014-04-09 上海河广信息科技有限公司 一种从用户url访问记录中提取用户兴趣话题的系统
CN104036012A (zh) * 2014-06-24 2014-09-10 中国科学院计算技术研究所 字典学习、视觉词袋特征提取方法及检索系统
CN104598557A (zh) * 2015-01-05 2015-05-06 华为技术有限公司 数据栅格化、用户行为分析的方法和装置
CN105631029A (zh) * 2015-12-30 2016-06-01 芜湖乐锐思信息咨询有限公司 基于用户主观行为分析的网络监控系统
US20160259857A1 (en) * 2015-03-06 2016-09-08 Microsoft Technology Licensing, Llc User recommendation using a multi-view deep learning framework

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN103714120A (zh) * 2013-12-03 2014-04-09 上海河广信息科技有限公司 一种从用户url访问记录中提取用户兴趣话题的系统
CN104036012A (zh) * 2014-06-24 2014-09-10 中国科学院计算技术研究所 字典学习、视觉词袋特征提取方法及检索系统
CN104598557A (zh) * 2015-01-05 2015-05-06 华为技术有限公司 数据栅格化、用户行为分析的方法和装置
US20160259857A1 (en) * 2015-03-06 2016-09-08 Microsoft Technology Licensing, Llc User recommendation using a multi-view deep learning framework
CN105631029A (zh) * 2015-12-30 2016-06-01 芜湖乐锐思信息咨询有限公司 基于用户主观行为分析的网络监控系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
詹智财: "基于卷积神经网络的视频语义概念分析", 《江苏大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489525A (zh) * 2019-08-09 2019-11-22 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN107944035B (zh) 一种融合视觉特征和用户评分的图像推荐方法
DE102017011260A1 (de) Markieren großer Bilder unter Nutzung einer Bild-mit-Thema-Einbettung
CN103593474B (zh) 基于深度学习的图像检索排序方法
CN106021329A (zh) 基于用户相似度的稀疏数据协同过滤推荐方法
CN106874258B (zh) 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN103810299A (zh) 基于多特征融合的图像检索方法
CN104200206B (zh) 一种基于双角度排序优化的行人重识别方法
CN105095625B (zh) 点击率预估模型建立方法、装置及信息提供方法、系统
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN113422761B (zh) 基于对抗学习的恶意社交用户检测方法
CN109871454A (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN107247739A (zh) 一种基于因子图的金融公报文本知识提取方法
CN103729462B (zh) 一种基于稀疏表示处理遮挡的行人检索方法
CN107391594B (zh) 一种基于迭代视觉排序的图像检索方法
CN108038166A (zh) 一种基于词项主客观偏向性的中文微博情感分析方法
CN105589916B (zh) 显式和隐式兴趣知识的提取方法
CN108804429A (zh) 一种基于深度学习的访客搜索行为特征提取方法
CN111160859A (zh) 一种基于svd++和协同过滤的人力资源岗位推荐方法
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
CN106095811A (zh) 一种基于最优编码的监督离散哈希的图像检索方法
CN102915311A (zh) 搜索方法及系统
CN111523680B (zh) 一种基于Fredholm学习和对抗学习的域适应方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181113

WD01 Invention patent application deemed withdrawn after publication