CN105677828A - 基于大数据的用户信息处理方法 - Google Patents

基于大数据的用户信息处理方法 Download PDF

Info

Publication number
CN105677828A
CN105677828A CN201610003689.2A CN201610003689A CN105677828A CN 105677828 A CN105677828 A CN 105677828A CN 201610003689 A CN201610003689 A CN 201610003689A CN 105677828 A CN105677828 A CN 105677828A
Authority
CN
China
Prior art keywords
word
language material
user
page
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610003689.2A
Other languages
English (en)
Inventor
董政
吴文杰
陈露
李学生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Mo Yun Science And Technology Ltd
Original Assignee
Chengdu Mo Yun Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Mo Yun Science And Technology Ltd filed Critical Chengdu Mo Yun Science And Technology Ltd
Priority to CN201610003689.2A priority Critical patent/CN105677828A/zh
Publication of CN105677828A publication Critical patent/CN105677828A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供了一种基于大数据的用户信息处理方法,该方法包括:对网站日志数据进行处理后,提取交易业务,通过聚类得到推荐候选集合;通过用户的当前会话获取当前行为特征,将行为特征与聚类后的集合进行计算,确定推荐列表。本发明提出了一种基于大数据的用户信息处理方法,基于文本特征挖掘用户兴趣,并准确跟踪用户在访问电商网站的过程中的需求变化,为用户提供有效的内容个性化推送。

Description

基于大数据的用户信息处理方法
技术领域
本发明涉及大数据挖掘,特别涉及一种基于大数据的用户信息处理方法。
背景技术
互联网技术日新月异的发展,以及计算机的普及,造就了巨大数量网民的同时,也正逐步的改变着人们的生活方式,网上购物便是其中之一。良好的用户体验成为了电商网站经营者的重要研发项目。如何为用户提供更优质的信息和服务对电商网站至关重要,优质的服务能很好的抓住用户,降低用户的流失率同时,可以吸引新的用户加入。而优质信息的提供就包括主动的向用户推荐他们潜在需求的商品。就目前电商网站运行的实际情况来看,电商站点在有针对性地提供产品和服务信息方面做得不够,用户不能快速地获得所需信息;并且电商网站不能快捷地帮助用户在其站点上找到感兴趣的产品和服务,用户很容易产生转向访问其它站点的动机。电商网站个性化推荐根据用户的喜好、历史访问留下的信息以及其他相似用户的相关信息,已经成为当前电商中的热门研究领域之一。此外,传统的个性化推荐算法在实际的应用中具备良好的性能,但是当用户真正的浏览电商网站的过程中,需求会发生一定的变化,而现有方案对这种变化的跟踪并不精确。从而无法提升推荐满意度。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的用户信息处理方法,包括:
对网站日志数据进行处理后,提取交易业务,通过聚类得到推荐候选集合;
通过用户的当前会话获取当前行为特征,将行为特征与聚类后的集合进行计算,确定推荐列表。
优选地,在经过数据过滤后,将网站日志转化成一系列的交易业务文本页面集,将文本页面集用特征词集进行表示,即提取页面文本中代表主题含义的关键词组成的特征词集,该提取特征词集的过程包括提取特征词条、计算特征词条的权值以及选择特征词条;
其中,用于聚类的交易业务是推荐候选集合,该集合中的每一个交易业务均由一系列页面组成,代表用户的兴趣特征和浏览的商品;当前用户会话被进行特征化后与该候选集合进行相似性计算,计算后得到最大相似的交易业务集后,将其包含的页面推荐至当前用户;
优选地,所述提取特征词条之前,通过以下过程完成分词:
定义标注集合,建立语料词库,将被标注好的语料以及人工设置的特征模板作为机器学习工具的输入,机器学习的结果输出特征集,该特征集用于对未被标记的文本进行标记,最后用得到的标记对该文本进行分割;
设C={c1,c2…cn}为待分词的中文句,ci表示句中的第i个中文字;L={l1,l2…ln}为在句C上的语料识别结果的标记序列,li表示中文字ci在语料中的位置标记,SW={sw1,sw2…swm}为句C的语料串序列,该字词串序列上的识别结果为R={r1,r2…rm},ri代表语料swi在词中出现的位置标记,L’和R’分别表示在中文句C上最大可能的语料分割和词的分割,则将分词任务转换为求解如下最大概率:
<L’,R’>=argmaxP(L,R|C)=argmaxP(R|SW)P(L|C)
其中P(R|SW)和P(L|C)都是在一个观测序列上有关序列标记的概率值,定义其概率分布为
P ( R | S W ) P ( L | C )
= 1 Z R ( S W ) exp ( &Sigma; j = 1 m &Sigma; k = 1 K R &lambda; k f k ( R , S W , j ) ) &times; 1 Z L ( C ) exp ( &Sigma; j = 1 n &Sigma; k = 1 K L &mu; k g k ( L , C , i ) )
m和n分别是句C中语料和字的个数,ZR(SW)和ZL(C)是正则化因数,λk和μk分别是第1层和第2层条件随机场的参数,fk和gk对应第1层和第2层条件随机场的特征函数;这样将中文分词问题转换为两层的条件随机场的序列标注问题;第1层用来学习基于字的语料的标注,第2层用来学习基于语料的词的标注。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于大数据的用户信息处理方法,基于文本特征挖掘用户兴趣,并准确跟踪用户在访问电商网站的过程中的需求变化,为用户提供有效的内容个性化推送。。
附图说明
图1是根据本发明实施例的基于大数据的用户信息处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于大数据的用户信息处理方法。图1是根据本发明实施例的基于大数据的用户信息处理方法流程图。
本发明的模型框架分为两大部分,网站日志的挖掘和当前用户的会话处理。网站日志挖掘经过数据处理、交易业务提取以及特征化表示,经过聚类分析形成推荐的候选集合;对于用户的当前会话根据日志挖掘的方式,挖掘出当前行为兴趣的特点,利用相应的匹配方法与聚类后的集合计算,给出推荐列表。聚类后交易业务是推荐候选集合,该集合中的每一个交易业务均由一系列页面组成,代表用户的兴趣特征和浏览的商品。当前用户会话被进行特征化后与其进行相似性计算,计算后得到最大相似的交易业务集后,将其包含的页面推荐至当前用户。
网页文本挖掘是从大量网页文本文档集合C中发现隐含的模式P的过程M。在经过数据过滤后,网站日志被转化成了一系列的交易业务文本页面集,以下进一步将文本页面集用特征词集进行表示。用特征词集来表示网页文本的过程就是文本特征化,即提取页面文本中代表主题含义的关键词,关键词组成的集合就是特征词集。标准的特征化过程包括提取特征词条、计算特征词条的权值以及选择特征词条。特征词条的提取要做好分词;按照分词算法计算后所产生的特征词条组成一个特征词条候选集合,对这些特征词条进行权重的计算,词条出现的位置决定它们的权重不同;最后对集合中的候选特征词条进行筛选,可以根据权重等信息选出最能代表文本页面的词条构成特征词集合。
通过对网页网站日志进行预处理后,可以读取用户点击浏览页面文本信息。获取这些文本信息之后的工作对这些信息进行分词,以便形成适合的特征词条来满足接下来的聚类分析工作。
本发明采用基于语料的分词,分为两个步骤:第1步是利用训练语料构建语料词库;第2步是利用语料词库和初始测试语料构建测试语料。方法首要任务是定义标注集合,建立语料词库,将被标注好的语料以及人工设置的特征模板作为机器学习工具的输入,机器学习的结果输出一套特征集,该特征集可对未被标记的文本进行标记,最后用得到的标记对该文本进行分割。
设C={c1,c2…cn}为待分词的中文句,ci表示句中的第i个中文字;L={l1,l2…ln}为在句C上的语料识别结果的标记序列,li表示中文字ci在语料中的位置标记,SW={sw1,sw2…swm}为句C的语料串序列,该字词串序列上的识别结果为R={r1,r2…rm},ri代表语料swi在词中出现的位置标记,L’和R’分别表示在中文句C上最大可能的语料分割和词的分割。则分词任务转换为求解如下最大概率:
<L’,R’>=argmaxP(L,R|C)=argmaxP(R|SW)P(L|C)
P(R|SW)和P(L|C)都是在一个观测序列上有关序列标记的概率值,因此,定义它们的概率分布为
P ( R | S W ) P ( L | C ) = 1 Z R ( S W ) exp ( &Sigma; j = 1 m &Sigma; k = 1 K R &lambda; k f k ( R , S W , j ) ) &times; 1 Z L ( C ) exp ( &Sigma; j = 1 n &Sigma; k = 1 K L &mu; k g k ( L , C , i ) )
m和n分别是句C中语料和字的个数,ZR(SW)和ZL(C)是正则化因数,λk和μk分别是第1层和第2层条件随机场的参数,fk和gk对应第1层和第2层条件随机场的特征函数。这样就将中文分词问题转换为两层的条件随机场的序列标注问题。第1层用来学习基于字的语料的标注,第2层用来学习基于语料的词的标注。该方法消除了可能的语料跨越标记错误。
在确定了文本分词之后,就可以建立网页文本的特征表示,将网页文本转化成一种类似关系数据且能表现网页文本内容的结构化形式,即网页文本特征的提取。本发明应用的提取方法将文档分割成为不同的部分,在特征词条查找匹配页面时,将目标页面集划分为相关页面和无关页面,用p(D|R)表示特征词对页面D的相关性概率,p(D|NR)表示特征词对页面D的无关性概率;若p(D|R)>p(D|NR),则页面D确定为相关页面,否者确定为无关页面;利用特征词在相关页面中出现的概率与在无关页面中出现的概率进行相关性值的计算:
w=Σlog(pi(1-si)/(si(1-pi)))
其中p(D|R)/p(D|NR)=∏pi(1-si)/(si(1-pi)),pi为特征词ti在相关页面中出现的概率,si为特征词ti在无关页面中出现的概率;
令R表示相关页面的个数,C-R代表无关页面个数。对于特征词ti,包含该特征词的页面个数为ci,相关页面为ri,包含该特征词的无关页面个数为ci-ri
计算特征词ti在相关页面中出现的概率pi=ri/R,在无关页面中出现的概率si=(ci-ri)/(C-R),选择的平滑参数0.5和0.1,平滑后公式如下:
pi=(ri+0.5)/(R+1.0)
si=(ci-ri+0.5)/(C-R+1.0)
得到相关性值:
w=Σlog(((ri+0.5)/(R-ri+0.5))/((ci-ri+0.5)/(C-R)-(ci-ri)+0.5))
将页面分解成为不同的部分,考虑特征词在不同部分内权重的计算:
wi=Σlog((TF/k+TF)((ri+0.5)/(R-ri+0.5))/((ci-ri+0.5)/(C-R)-(ci-ri)+0.5))
其中TF包括特征词条在不同部分出现的词频以及在不同部分的权重信息;其具体的表达式如下:
T F = &Sigma; k = 1 u v k f u B u
B u = ( 1 - b u ) + ul u avul u &times; b u
其中,将一个页面文档分为u个不同的部分,vk是每个部分的权重,fu代表特征词在第u个部分中出现的词频数,ulu代表第u个部分的实际长度,avulu是指在页面集合中该部分的平均长度;k和bu是调节因数,分别用来调节特征词在页面文档的词频和用来对当前部分进行调节,最终得到相应的特征词条在文档集中的权重wi
在上文对页面文本特征提取的基础上,本发明继续对交易业务进行特征化表示,形成结构化的存储形式,便于个性化推荐系统处理。在经过对交易业务的结构化表示后,为了挖掘推荐信息,提供精确的推荐结果,需要进行相应的聚类处理。
首先对每一个单独的页面进行特征词条提取,进而上升到该交易业务的所有页面。根据特征词条出现的频率可以发现用户的兴趣爱好和浏览过的相关商品信息。在组成交易业务的页面链接关系中,以链接关系为主线,分析链接前后页面的关键特征词的变化,进而及时的提取用户当前兴趣爱好的迁移。故对交易业务的特征词条表示的第一步是汇总交易业务所有页面的特征表示。
在对单个页面进行特征词提取后,得到单个页面的特征词集合T={t1,t2…tn},预先设定提取n个特征词条;在一个交易业务中页面集合表示为P={p1,p2…pm},每个不同的页面用其相对应的唯一URL地址进行单独识别。交易业务的特征词条根据空间向量初步形成矩阵关系。交易业务的特征词条更进一步的表示可以转化为特征词条的权重。所以此时将单个页面pi使用特征词条的权重表示为如下关系:
pi={tw<tl,pi>,tw<t2,pi>tw<ti,pi>,…tw<tn,pi>}。这里的权重tw选择计算如下:
tw<ti,pi>=Σlog((TF/k+TF)((ri+0.5)/(R-ri+0.5))/((ci-ri+0.5)/(C-R)-(ci-ri)+0.5))
利用这种表示方式,将交易业务页面集合P表示为关联矩阵Q。
对于某一个符合用户潜在需求的中意商品,用户在浏览该页面时会停留相对较长的时间。给出基于停留时间的权重表示如下:交易业务集表示为S={s1,s2…sq}共q个交易业务,交易业务集S与页面P之间的访问关系可通过访问权重w<pi,sj>表示,形成关联矩阵N。该访问权重是基于停留时间的,w<pi,sj>=timei/contentj
即停留时间time与访问页面的文本长度大小content之间的比值。
将基于特征词频和停留时间的关联矩阵矩阵Q和N进行矩阵相乘运算,可以得出新的关联矩阵Q’,作为最终的交易业务特征化表示,矩阵中的每个元素表示交易业务和特征词条之间的权重关系,并且作为对交易业务进行聚类的输入值。
聚类的目的是在相似性的基础之上将目标数据进行分类。每次将两个旧类合并成一个新类,直到最终合并成一个类为止。每合并一次,则在距离矩阵中删除相对应的行与列。描述如下:
步骤1:初始共设有N个类,每个类由一个对象类形成。令顺序号m=0,L(m)=0;
步骤2:在距离矩阵D中寻找最小距离d[(r),(s)]=mind[(i),G)]。
步骤:3将两个类(r)和(s)合并成一个新类(r,s);令m=m+l,L(m)=d[(r),(s)]。
步骤4:更新距离矩阵D:将表示类(r)和类(s)的行列删除,同时加入表示新类(r,s)的行列;同时定义新类(r,s)与各旧类(k)的距离为d[(k),(r,s)]=mind[(k),(r)],d[(k),(s)]。
步骤5反复步骤2-4,直到所有对象合并成一个类为止。
对于词条重合度的信息度量,本发明获取两个集合A和B的交集元素在A,B的并集中所占的比例,用符号J(A,B)表示。在计算列之间的权重比例相似度时,在计算出的交集中,计算各词条权重的差,单独出现在一列中的词条,其自身的权重就记为该词条的权重差,汇总所有词条的差值的和,此时设定数值为二者之间的距离。迭代计算完成聚类。
对关联矩阵Q’进行分层聚类处理后,可以得到TC={tc1,tc2,…,tck),即基于特征词条的交易聚类。为了是推荐规则更加精确,还需要对TC集合进行相应的转换,转换为附有权重的页面集合,该集合将是最直接的推荐候选集合。最终形成基于交易业务聚类转换的网页文档集合可以表示为Tcp={pc1,pc2…,pck},pci是指对交易业务聚类tci通过计算所有页面的权重而得出的文本文档,该权重计算的过程如下,该文档是推荐候选页面集,其可以通过权重进行如下的关系表示:Pci={<pi,w’<pi,pci>>|pi∈P)。
w , < p i , pc i > = &Sigma; p i &Element; t c &Sigma; j = 1 n t w < t j , p i > / &Sigma; p i &Element; t c &Sigma; j = 1 n t w < t j , p i >
w’<pi,pci>代表页面pi在文本文档pci中的权重。最终,通过对交易业务进行特征化表示、分层聚类以及聚类结果的相应转换过程,得到了文本挖掘后的网页文本文档集合对其进行进一步的优化,利用w’<pi,pci>得出新的关联矩阵Q”。
当当前用户进入网站后产生一系列的访问页面,这些页面同样需要进行特征词条提取和页面停留时间计算等特征化表示。对于用户访问形成的当前会话,同样需要利用网页网站日志进行本次会话的跟踪,并将跟踪的结果进行网页文本文档预处理,形成用特征词条及其权重表示的网页文本文档集合。处理过的当前用户会话表示为U={u1,u2,…,um},每个u表示页面在当前用户会话中的权重,使用多重链表进行存储。针对当前用户会话U,每一个页面p的推荐值由两部分组成。第一部分是用户会话与文本文档计算的余弦相似值,第二部分是页面p在文本文档中的权重。如果页面p出现在当前用户会话U中,即待推荐给用户的页面中,存在用户已经访问过的页面,那么不再将其列入推荐列表。
具体的推荐值用Rec表示rec(p,U)=Sim(U,pc)×w’<p,pc>
其中 S i m ( U , p c ) = &Sigma; i = 1 m u i &times; w &prime; < p i , p c > &Sigma; ( u i ) 2 &times; &Sigma; ( w &prime; < p i , p c > ) 2
通过对交易业务分层聚类后转换的网页文本文档有多个,所以产生的候选推荐页面也有多个,此时进一步对推荐的网页文本经过过滤处理,然后形成推荐集。过滤的方式可以设定阈值e,小于该阈值的推荐页面不被列入推荐集。
最后对所有推荐值进行排序,选取排在推荐集前段的作为推荐结果。
综上所述,本发明提出了一种基于大数据的用户信息处理方法,基于文本特征挖掘用户兴趣,并准确跟踪用户在访问电商网站的过程中的需求变化,为用户提供有效的内容个性化推送。。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种基于大数据的用户信息处理方法,其特征在于,包括:
对网站日志数据进行处理后,提取交易业务,通过聚类得到推荐候选集合;
通过用户的当前会话获取当前行为特征,将行为特征与聚类后的集合进行计算,确定推荐列表。
2.根据权利要求1所述的方法,其特征在于,在经过数据过滤后,将网站日志转化成一系列的交易业务文本页面集,将文本页面集用特征词集进行表示,即提取页面文本中代表主题含义的关键词组成的特征词集,该提取特征词集的过程包括提取特征词条、计算特征词条的权值以及选择特征词条;
其中,用于聚类的交易业务是推荐候选集合,该集合中的每一个交易业务均由一系列页面组成,代表用户的兴趣特征和浏览的商品;当前用户会话被进行特征化后与该候选集合进行相似性计算,计算后得到最大相似的交易业务集后,将其包含的页面推荐至当前用户。
3.根据权利要求2所述的方法,其特征在于,所述提取特征词条之前,通过以下过程完成分词:
定义标注集合,建立语料词库,将被标注好的语料以及人工设置的特征模板作为机器学习工具的输入,机器学习的结果输出特征集,该特征集用于对未被标记的文本进行标记,最后用得到的标记对该文本进行分割;
设C={c1,c2…cn}为待分词的中文句,ci表示句中的第i个中文字;L={l1,l2…ln}为在句C上的语料识别结果的标记序列,li表示中文字ci在语料中的位置标记,SW={sw1,sw2…swm}为句C的语料串序列,该字词串序列上的识别结果为R={r1,r2…rm},ri代表语料swi在词中出现的位置标记,L’和R’分别表示在中文句C上最大可能的语料分割和词的分割,则将分词任务转换为求解如下最大概率:
<L’,R’>=argmaxP(L,R|C)=argmaxP(R|SW)P(L|C)
其中P(R|SW)和P(L|C)都是在一个观测序列上有关序列标记的概率值,定义其概率分布为
m和n分别是句C中语料和字的个数,ZR(SW)和ZL(C)是正则化因数,λk和μk分别是第1层和第2层条件随机场的参数,fk和gk对应第1层和第2层条件随机场的特征函数;这样将中文分词问题转换为两层的条件随机场的序列标注问题;第1层用来学习基于字的语料的标注,第2层用来学习基于语料的词的标注。
CN201610003689.2A 2016-01-04 2016-01-04 基于大数据的用户信息处理方法 Pending CN105677828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610003689.2A CN105677828A (zh) 2016-01-04 2016-01-04 基于大数据的用户信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610003689.2A CN105677828A (zh) 2016-01-04 2016-01-04 基于大数据的用户信息处理方法

Publications (1)

Publication Number Publication Date
CN105677828A true CN105677828A (zh) 2016-06-15

Family

ID=56298866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610003689.2A Pending CN105677828A (zh) 2016-01-04 2016-01-04 基于大数据的用户信息处理方法

Country Status (1)

Country Link
CN (1) CN105677828A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428474A (zh) * 2018-03-30 2018-08-21 四川斐讯信息技术有限公司 一种基于室内空气情况推荐运动方案的方法及系统
CN111259223A (zh) * 2020-02-17 2020-06-09 北京国新汇金股份有限公司 基于情感分析模型的新闻推荐和文本分类方法
CN113344674A (zh) * 2021-06-28 2021-09-03 平安信托有限责任公司 基于用户购买力的产品推荐方法、装置、设备及存储介质
CN113469786A (zh) * 2021-06-29 2021-10-01 深圳市点购电子商务控股股份有限公司 物品推荐的方法、装置、计算机设备和存储介质
CN114463067A (zh) * 2022-02-11 2022-05-10 深圳市聚商鼎力网络技术有限公司 一种基于大数据的用户浏览行为的用户兴趣建模方法
CN116523572A (zh) * 2023-06-28 2023-08-01 悦享星光(北京)科技有限公司 一种基于客户行为特征的客户挖掘方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张建伟: "基于WEB文本挖掘的电子商务网站个性化推荐研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428474A (zh) * 2018-03-30 2018-08-21 四川斐讯信息技术有限公司 一种基于室内空气情况推荐运动方案的方法及系统
CN111259223A (zh) * 2020-02-17 2020-06-09 北京国新汇金股份有限公司 基于情感分析模型的新闻推荐和文本分类方法
CN113344674A (zh) * 2021-06-28 2021-09-03 平安信托有限责任公司 基于用户购买力的产品推荐方法、装置、设备及存储介质
CN113469786A (zh) * 2021-06-29 2021-10-01 深圳市点购电子商务控股股份有限公司 物品推荐的方法、装置、计算机设备和存储介质
CN114463067A (zh) * 2022-02-11 2022-05-10 深圳市聚商鼎力网络技术有限公司 一种基于大数据的用户浏览行为的用户兴趣建模方法
CN116523572A (zh) * 2023-06-28 2023-08-01 悦享星光(北京)科技有限公司 一种基于客户行为特征的客户挖掘方法及系统
CN116523572B (zh) * 2023-06-28 2023-09-08 悦享星光(北京)科技有限公司 一种基于客户行为特征的客户挖掘方法及系统

Similar Documents

Publication Publication Date Title
Salloum et al. Mining social media text: extracting knowledge from Facebook
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN105677828A (zh) 基于大数据的用户信息处理方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN105045875B (zh) 个性化信息检索方法及装置
CN103455487B (zh) 一种搜索词的提取方法及装置
CN105677825A (zh) 客户端浏览操作的分析方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN102254039A (zh) 一种基于搜索引擎的网络搜索方法
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN107357793A (zh) 信息推荐方法和装置
CN108920521B (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN101706812B (zh) 一种文档的检索方法和装置
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN104899229A (zh) 基于群体智能的行为聚类系统
CN111125538B (zh) 一个利用实体信息增强个性化检索效果的搜索方法
CN115098650B (zh) 基于历史数据模型的评论信息分析方法及相关装置
JP2022035314A (ja) 情報処理装置及びプログラム
CN113407729B (zh) 一种面向司法的个性化案例推荐方法及系统
CN112215629A (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN115481313A (zh) 一种基于文本语义挖掘的新闻推荐方法
Chi et al. Expert identification based on dynamic LDA topic model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615