CN112862567B - 一种在线展会的展品推荐方法与系统 - Google Patents
一种在线展会的展品推荐方法与系统 Download PDFInfo
- Publication number
- CN112862567B CN112862567B CN202110212939.4A CN202110212939A CN112862567B CN 112862567 B CN112862567 B CN 112862567B CN 202110212939 A CN202110212939 A CN 202110212939A CN 112862567 B CN112862567 B CN 112862567B
- Authority
- CN
- China
- Prior art keywords
- exhibit
- user
- category
- sequence
- exhibits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种在线展会的展品推荐方法与系统,包括:通过对用户历史行为数据的收集与分析,建立用户画像;将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;对推荐结果进行混合,得到最终的结果。本发明从多个角度获得推荐结果并加以混合,可以提升对用户进行针对性服务的质量。
Description
技术领域
本发明涉及大数据分析与处理领域,特别涉及一种在线展会的展品推荐方法与系统。
背景技术
随着电子商务规模的不断扩大,“推荐系统”这一概念也应运而生。面对琳琅满目的商品,顾客在寻找自己所需要购买的商品需要耗费大量的时间,这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。推荐系统是一种在海量数据挖掘基础上的一种高级商务智能平台,其最基本的功能在于帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
在线展会是一种在经济全球化背景下发展的产物,其具有成本低,数据对接方便等优点,可做到时时办展、处处参展,特别为季节性商品提供了更好的销售渠道。影响力更大,全行业全企业参与,企业仅付出较低成本,就能够得到与展会相关的商业信息。安全环保,线下展会产生巨量的会展垃圾,造成资源浪费。便于展后宣传与积累。线上展会可网上以各种方式向国内外无限传播、永不落幕。
在线展会不是简单将传统会展搬到互联网上,目前其在数据挖掘与分析的技术很不完善,需要在在逐步索中前进。线上展会除了要运用现代通讯技术、计算机软件技术完整实现传统线下展会的所有功能外,更需要充分利用大数据、人工智能等先进的技术,用创新的思维实现展会的的价值延伸,去解决将来遇到的更多的难题、更丰富的应用。
发明内容
本发明的目的在于克服现有技术的不足,提出一种在线展会的展品推荐方法与系统,从多个角度获得推荐结果并加以混合,得到用户未来最可能感兴趣的展品,能够提升对用户进行针对性服务的质量。
本发明采用如下技术方案:
一方面,一种在线展会的展品推荐方法,包括:
基于用户的历史搜索记录、历史浏览记录和收藏记录,获取包括展品名称的用户行为数据;对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果;基于所述分词结果,获得用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵,并将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户画像;
将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;所述展品信息包括展品名称、展品类别及展品介绍信息;
将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;
基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;
对上述步骤的推荐结果进行混合,得到最终推荐的结果。
优选的,将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐,具体包括:
将用户词云与展品数据库中的展品信息进行基于公共子字符串的算法进行关键词相似度匹配,获得所有用户词云的候选推荐展品集,将候选推荐展品集进行整合,去掉重复的结果,再对剩余的集合根据展品的热度进行降序排序,取前预设条结果作为推荐结果;所述展品的热度为展品在预设天数内被浏览的总次数。
优选的,所述将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,具体包括:
将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行欧式距离计算作为相似度量,如下:
其中,d(V1,V2)表示欧式距离;V1=(x1,x2,...,xK)表示用户的展品类别偏爱程度向量;V2=(y1,y2,...,yK)表示用户画像数据库中的一其它用户的展品类别偏爱程度向量;K表示展品类别。
优选的,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测,具体包括:
假设展品的类别数量为K,即用户的展品类别浏览趋势转移矩阵M的阶数为K,要产生的序列长度为l,则序列的第一个元素为用户的展品类别偏爱程度向量的最大分量所对应的展品类别,且对于序列的第i个元素Ci,第i+1个元素的值由以下两个值决定:一,Ci转移至其余类别的概率向量,即矩阵M的第i行对应的行向量,记为V=(P1,P2,...,PK);二,一个范围为[0,1]的随机浮点数,记为R;则序列生成的具体流程如下:
S1041,初始化序列第一个元素C1为用户的展品类别偏爱程度向量的最大分量所对应的展品类别;
S1042,对于其余的元素,记当前要产生序列元素下标为j(1≤j≤K),找到下标j满足以下公式:
通过上述公式产生随机数,结合用户的展品类别浏览趋势转移矩阵来产生浏览趋势序列的下一个元素。
优选的,基于用户的历史搜索记录、用户的历史浏览记录和用户的收藏记录,获取包括展品名称的用户行为数据,具体包括:
采用等权重的方法,对用户的历史搜索记录、用户的历史浏览记录和用户的收藏记录进行混合,获取包括展品名称的用户行为数据。
优选的,对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果,具体包括:
针对展品名称的字符串S中出现的所有的长度为1,2,3...,L的子字串S’,判断其是否为符合中文语法的短语,如果是,则将其存入集合V中;
基于集合V,找到满足能够构成原字符串S的组合s1,s2,s3,...,sn,记为A;对于A中的每一个si(i∈[1,n]),求解下式:P(S)=P(s1,s2,...,sn)=P(s1)P(s2|s1)P(s3|s1,s2)…P(sn|s1s2…sn-1),其中P(si|s1s2...sn-1)代表第i个单词si在前i-1单词出现的情况下的条件概率,此处P(si|s1s2...sn-1)的值从包含了所有展品的详细信息文本的语料库中得到,计算得到的P(S)值用于衡量分词方案的合理性;
获取具有最大P(S)所对应的组合A,作为最佳分词方案。
优选的,基于所述分词结果,获得用户的展品类别偏爱程度向量,具体包括:
基于所述用户行为数据中的展品名称进行分类统计,获取各类别的次数,分别为C1,C2,...,Ck,K属于自然数,则用户的展品类别偏爱程度向量由如下公式表示:
上述公式表示用户搜索、浏览和收藏的展品记录中的每一个类别的概率所构成的向量,代表用户对不同类别展品的喜爱程度。
优选的,基于所述分词结果,获得用户的展品类别浏览趋势转移矩阵,具体包括:
令用户搜索、浏览和收藏的展品记录中的类别序列为B1,B2,...,BK,则矩阵的计算公式如下:
其中,pi,j代表从类别序号为Bi的展品转移到类别序号为Bj的次数除以从类别序号为Bi的展品转移到其它K个展品类别的次数之和。
另一方面,一种在线展会的展品推荐系统,包括:
用户画像获取模块,基于用户的历史搜索记录、历史浏览记录和收藏记录,获取包括展品名称的用户行为数据;对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果;基于所述分词结果,获得用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵,并将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户画像;
用户词云匹配模块,用于将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;所述展品信息包括展品名称、展品类别及展品介绍信息;
用户行为相似度匹配模块,用于将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;
用户浏览趋势预测模块,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;
推荐结果混合模块,对用户词云匹配模块、用户行为相似度匹配模块和用户浏览趋势预测模块的推荐结果进行混合,得到最终推荐的结果。
与现有技术相比,本发明的有益效果如下:
本发明通过对用户历史行为数据的收集与分析,建立用户画像,并从多个角度来预测用户可能喜爱的展品并加以推荐;基于本发明可以知道用户最感兴趣的热门关键词、浏览类别偏好以及浏览趋势;本发明相对于现有技术,数据的收集与分析更具有合理,可以从一定程度上弥补了现有技术模型精度参差不齐的问题,且本发明提出的推荐方法从模型的多个角度进行推荐结果的计算并加以混合,可以提升对用户进行针对性服务的质量。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下列举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。
附图说明
图1为本发明方法的流程图;
图2为本发明系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步的详细描述。
参见图1所示,一种在线展会的展品推荐方法,包括:
S101,基于用户的历史搜索记录、历史浏览记录和收藏记录,获取包括展品名称的用户行为数据;对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果;基于所述分词结果,获得用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵,并将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户画像;
S102,将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;所述展品信息包括展品名称、展品类别及展品介绍信息;
S103,将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;
S104,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;
S105,对S102、S103和S104的推荐结果进行混合,得到最终推荐的结果。
需要说明的是,所述的用户指推荐目标用户。用户画像数据库包括了推荐目标用户的画像数据,还包括了其他用户的画像数据。
具体的,S101中,本发明方法从三个角度进行数据收集:
一,用户的历史搜索记录:包含了用户最近搜索的展品的名称;
二,用户的历史浏览记录:包含了用户历史浏览的展品的名称以及浏览的时间;
三,用户的收藏记录:包含了用户所收藏的展品的名称以及展品被收藏的时间。
针对用户的历史搜索记录,本实施例选择用户最近搜索的50条记录作为依据。
针对用户的历史浏览记录,本发明对用户最近一周的所有浏览记录进行过滤,挑选出用户近期内最感兴趣的记录。为此本发明设置了对用户的浏览行为与兴趣评分之间的得分表,具体地,对于每一个浏览记录,其兴趣得分与浏览停留时间、滑动范围、浏览重复次数等决定。
针对浏览停留时间,可定义了五个兴趣等级,五个等级分别对应五个不同的评分。
一,如果浏览时间小于5秒,则认为用户对该展品完全不感兴趣,令其兴趣评分为20。
二,如果浏览时间大于5秒小于15秒,则认为用户对该展品感兴趣程度一般,令其兴趣评分为40。
三,如果浏览时间大于15秒小于30秒,则认为用户对该展品具有一定的兴趣,令其兴趣评分为60。
四,如果浏览时间大于30秒小于60秒,则认为用户对该展品较为感兴趣,令其兴趣评分为80。
五,如果浏览时间大于60秒,则认为用户对该展品极其感兴趣,令其兴趣评分为100。
针对用户的收藏记录,可定义了三个权重等级。
一,针对0-7天内的收藏记录,其能最好地代表用户最近的喜好信息,因此其权重等级为3。
二,针对8-15天内的收藏记录,其能从一定程度上代表用户先前的喜好信息,因此其权重等级为2。
三,针对15-30天内的收藏记录,其仅能代表一小部分用户先前的喜好信息,因此其权重等级为1。
针对上述三个权重等级,本实施例根据权重从用户的收藏记录中选出50个用户收藏过的展品。
针对从三个角度收集到的用户对于展品的历史行为,本发明采用等权重的方式,对其进行混合,得到用户的行为数据。具体地,从三个角度出发收集到150条行为数据分别包括:50条包含了用户最近搜索的展品名称的用户的历史搜索记录,50条包含了用户历史浏览的展品的名称以及浏览的时间的历史浏览记录,以及50条包含了用户所收藏的展品的名称以及展品被收藏时间的记录。
需要说明的是,数据收集的时间范围、收集的数量以及针对不同的场景下多等级的用户兴趣量化值(权重)均可根据实际需要进行调整,以历史浏览记录为例,对于某个展品,如果用户浏览该展品的时间越久,说明用户对该展品的感兴趣程度越高,因此本实施例对某个展品的浏览时间的长短进行区间划分,即不同的浏览时间区间代表了不同的兴趣程度作为权重。
针对用户的行为数据,本发明进一步对其进行分词分析。传统的分词技术有:基于字符串匹配的方法,基于统计的方法,其中较为经典的模型为N元统计模型,通过结合上下文信息,用于预测将要出现的下一个词出现的概率,具体地,假设有一个句子有n个词构成,第n个词的出现只与前面的n-1个词相关,而与其他任何词都不相关,整句的概率是各个词出现概率的乘积。
使用N元模型进行分词分析,对所述用户行为数据中的展品名称进行分词分析,获得分词结果,具体包括:
a,针对展品名称的字符串S中出现的所有的长度为1,2,3...,L的子字串S’,判断其是否为符合中文语法的短语,如果是,则将其存入集合V中;
b,基于集合V,找到满足能够构成原字符串S的组合s1,s2,s3,...,sn,记为A;对于A中的每一个si(i∈[1,n]),求解下式:P(S)=P(s1,s2,...,sn)=P(s1)P(s2|s1)P(s3|s1,s2)…P(sn|s1,s2…sn-1),其中P(si|s1,s2,...,sn-1)代表第i个单词si在前i-1单词出现的情况下的条件概率,此处P(si|s1,s2,...,sn-1)的值从包含了所有展品的详细信息文本的语料库中得到,计算得到的P(S)值用于衡量分词方案的合理性;
c,获取具有最大P(S)所对应的组合A,作为最佳分词方案。
关于N元模型的详细介绍可参见https://blog.csdn.net/h__ang/article/ details/88372626。
为了更好地阐述上述分词步骤的过程,以下进行举例说明说明:以一条记录“展品和服务”为例,可以符合中文语法的分词方案有:{‘展品’,‘和服’,‘务’},{‘展品’,‘和’,‘服务’}。不符合中文语法的分词方案有{‘展品和’,‘服务’}等。为了确定最佳的方案,下一步对不同的分词方案进行P(S)值计算,在此,本方案从统计展品的介绍文本中计算P(‘和服’|‘展品’),P(‘务’|‘和服’),P(‘和’|‘展品’),P(‘服务’|‘和’),从而计算P(S)值并将P(S)较大的方案作为最佳分词方案。
进一步的,针对用户词云的构建,本发明针对用户行为数据的分词信息中的每一个单词出现的次数进行统计,得到一个单词-频率数组并将该数组按照频率由大到小排序,然后取前M个单词作为用户的词云。假设M=3,用户行为数据的分词信息中,词语“高中”,“英语”,“数学”,“书籍”,“资料”出现的次数分别10,8,5,3,2次,则该用户的词云为“高中”,“英语”,“数学”。
为了计算用户的展品类别偏爱程度向量与用户的展品类别浏览趋势转移矩阵,本发明首先对数据库所有展品进行了分类操作,假如一共有K个类别。
针对用户的展品类别偏爱程度向量的求解,本实施例首先对用户行为数据中用户近期浏览的展品进行类别比例统计。具体地,假如在14天内,用户浏览每一个类别的展品的次数分别为C1,C2,...,Ck,K属于自然数,则用户的展品类别偏爱程度向量由如下公式表示:
上述公式表示用户近期搜索、浏览和收藏的展品记录中的每一个类别的概率所构成的向量,代表用户对不同类别展品的喜爱程度。
如下以一具体实施例对展品的分类及偏好进行简单说明。比如用户行为数据中,包含“英语资料”,“数学资料”,“物理辅导资料”,“化肥”,则它们的类别分别为:“教育”,“教育”,“教育”,“农业”,如果只有两种类别,那么统计结果为:3个教育,1个农业,偏好向量C为(0.75,0.25)。
进一步的,基于所述分词结果,获得用户的展品类别浏览趋势转移矩阵,具体包括:
假设14天内用户搜索、浏览和收藏的展品记录中的类别序列为B1,B2,...,BK,则矩阵的计算公式如下:
其中,pi,j代表从类别序号为Bi的展品转移到类别序号为Bj的次数除以从类别序号为Bi的展品转移到其它K个展品类别的次数之和。
进一步的,将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户画像。
所述S102中,将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐,具体包括:
将用户词云与展品数据库中的展品信息进行基于公共子字符串的算法进行关键词相似度匹配,获得所有用户词云的候选推荐展品集,将候选推荐展品集进行整合,去掉重复的结果,再对剩余的集合根据展品的热度进行降序排序,取前预设条结果作为推荐结果;所述展品的热度为展品在预设天数内被浏览的总次数。
一实施例中,假设用户词云包括“高中”,“英语”,“数学”等词语,以词语“英语”为例,对于数据库中的展品,假如展品名称包含了“英语”这个词语,则称该展品为候选推荐展品,然后对于词语“英语”得到的候选推荐展品的集合,称之为候选推荐展品集。对所有用户词云中的词语找到其候选推荐展品集后,将所有的集合进行整合,去掉重复的结果,并对上述集合根据展品的热度降序排序,如取前100条作为推荐结果,此处展品的热度为该展品近14天被浏览的总次数。
所述S103中,将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,具体包括:
将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行欧式距离计算作为相似度量,如下:
其中,d(V1,V2)表示欧式距离;V1=(x1,x2,...,xK)表示用户的展品类别偏爱程度向量;V2=(y1,y2,...,yK)表示用户画像数据库中的一其它用户的展品类别偏爱程度向量;K表示展品类别。
通过距离计算,可以得到推荐目标用户与其他用户的相似度,一实施例取10个最为相似的用户,将他们最近浏览的10个展品作为推荐结果,最后可以得到100个推荐的展品。
所述S104中,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测,具体包括:
假设展品的类别数量为K,即用户的展品类别浏览趋势转移矩阵M的阶数为K,要产生的序列长度为l,则序列的第一个元素为用户的展品类别偏爱程度向量的最大分量所对应的展品类别,且对于序列的第i个元素Ci,第i+1个元素的值由以下两个值决定:一,Ci转移至其余类别的概率向量,即矩阵M的第i行对应的行向量,记为V=(P1,P2,...,PK);二,一个范围为[0,1]的随机浮点数,记为R;则序列生成的具体流程如下:
S1041,初始化序列第一个元素C1为用户的展品类别偏爱程度向量的最大分量所对应的展品类别;
S1042,对于其余的元素,记当前要产生序列元素下标为j(1≤j≤K),找到下标j满足以下公式:
通过上述公式产生随机数,结合用户的展品类别浏览趋势转移矩阵来产生浏览趋势序列的下一个元素。
为了更好地阐述上述步骤,下面进行举例说明,假设类别数K=2,包括“教育”和“农业”两个类别,用户的展品类别浏览趋势转移矩阵为用户的展品类别偏爱程度向量为(0.75,0.25),其最大分量的值为0.75,则浏览趋势序列的第一个元素为“教育”。下一步骤,产生一个0-1的随机数,则分以下两种情况:一,假如为0.6,满足关系0<=0.6<=0.8,则浏览趋势序列的第二个元素为“教育”;二,假如为0.9,满足关系0+0.8<=0.9<=1,则浏览趋势序列的第二个元素为“农业”。通过当前产生的元素,浏览趋势转移矩阵以及随机数,以此类推,可以产生浏览趋势序列。
通过上述步骤得到了用户的浏览趋势转移序列后,下一步,对序列中每一个元素所对应的展品类别,结合展品数据库中的热度排行信息,得到100个推荐的展品。
如上示例,通过上述三个步骤得到了300个推荐的展品,对该300个推荐的展品进行去重操作,然后根据权重的方式对它们进行混合(默认为等权重),作为最终推荐结果推送给用户。
需要说明的是,本发明方法的可通过软件APP实现,具体可运行在计算机、手机等载体上。
参见图2所示,一种在线展会的展品推荐系统,包括:
用户画像获取模块201,基于用户的历史搜索记录、历史浏览记录和收藏记录,获取包括展品名称的用户行为数据;对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果;基于所述分词结果,获得用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵,并将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户的画像;
用户词云匹配模块202,用于将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;所述展品信息包括展品名称、展品类别及展品介绍信息;
用户行为相似度匹配模块203,用于将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;
用户浏览趋势预测模块204,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;
推荐结果混合模块205,对用户词云匹配模块、用户行为相似度匹配模块和用户浏览趋势预测模块的推荐结果进行混合,得到最终推荐的结果。
一种在线展会的用户画像建模系统的具体实现与一种在线展会的用户画像建模方法中的实现相同,本发明不再重复说明。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (6)
1.一种在线展会的展品推荐方法,其特征在于,包括:
步骤1,基于用户的历史搜索记录、历史浏览记录和收藏记录,获取包括展品名称的用户行为数据;对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果;基于所述分词结果,获得用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵,并将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户画像;
步骤2,将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;所述展品信息包括展品名称、展品类别及展品介绍信息;
步骤3,将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;
步骤4,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;
对上述步骤2、步骤3和步骤4的推荐结果进行混合,得到最终推荐的结果;
基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测,具体包括:
假设展品的类别数量为K,即用户的展品类别浏览趋势转移矩阵M的阶数为K,要产生的序列长度为l,则序列的第一个元素为用户的展品类别偏爱程度向量的最大分量所对应的展品类别,且对于序列的第i个元素Ci,第i+1个元素的值由以下两个值决定:一,Ci转移至其余类别的概率向量,即矩阵M的第i行对应的行向量,记为V=(P1,P2,...,PK);二,一个范围为[0,1]的随机浮点数,记为R;则序列生成的具体流程如下:
S1041,初始化序列第一个元素C1为用户的展品类别偏爱程度向量的最大分量所对应的展品类别;
S1042,对于其余的元素,记当前要产生序列元素下标为j,其中,1≤j≤K,找到下标j满足以下公式:
通过上述公式产生随机数,结合用户的展品类别浏览趋势转移矩阵来产生浏览趋势序列的下一个元素;
基于所述分词结果,获得用户的展品类别偏爱程度向量,具体包括:
基于所述用户行为数据中的展品名称进行分类统计,获取各类别的次数,分别为A1,A2,...,Ak,K属于自然数,则用户的展品类别偏爱程度向量由如下公式表示:
上述公式表示用户搜索、浏览和收藏的展品记录中的每一个类别的概率所构成的向量,代表用户对不同类别展品的喜爱程度;
基于所述分词结果,获得用户的展品类别浏览趋势转移矩阵,具体包括:
令用户搜索、浏览和收藏的展品记录中的类别序列为B1,B2,...,BK,则矩阵的计算公式如下:
其中,pi,j代表从类别序号为Bi的展品转移到类别序号为Bj的次数除以从类别序号为Bi的展品转移到其它K个展品类别的次数之和。
2.根据权利要求1所述的在线展会的展品推荐方法,其特征在于,将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐,具体包括:
将用户词云与展品数据库中的展品信息进行基于公共子字符串的算法进行关键词相似度匹配,获得所有用户词云的候选推荐展品集,将候选推荐展品集进行整合,去掉重复的结果,再对剩余的集合根据展品的热度进行降序排序,取前预设条结果作为推荐结果;所述展品的热度为展品在预设天数内被浏览的总次数。
4.根据权利要求1所述的在线展会的展品推荐方法,其特征在于,基于用户的历史搜索记录、用户的历史浏览记录和用户的收藏记录,获取包括展品名称的用户行为数据,具体包括:
采用等权重的方法,对用户的历史搜索记录、用户的历史浏览记录和用户的收藏记录进行混合,获取包括展品名称的用户行为数据。
5.根据权利要求1所述的在线展会的展品推荐方法,其特征在于,对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果,具体包括:
针对展品名称的字符串S中出现的所有的长度为1,2,3...,L的子字符串S’,判断其是否为符合中文语法的短语,如果是,则将其存入集合U中;
基于集合U,找到满足能够构成字符串S的组合s1,s2,s3,...,sn,记为O;对于O中的每一个si(i∈[1,n]),求解下式:P(S)=P(s1,s2,...,sn)=P(s1)P(s2|s1)P(s3|s1,s2)…P(sn|s1,s2…sn-1),其中P(si|s1,s2...si-1)代表第i个单词si在前i-1单词出现的情况下的条件概率,此处P(si|s1,s2...si-1)的值从包含了所有展品的详细信息文本的语料库中得到,计算得到的P(S)值用于衡量分词方案的合理性;
获取具有最大P(S)所对应的组合O,作为最佳分词方案。
6.一种在线展会的展品推荐系统,其特征在于,包括:
用户画像获取模块,基于用户的历史搜索记录、历史浏览记录和收藏记录,获取包括展品名称的用户行为数据;对所述用户行为数据中的展品名称进行分词分析,获得每一个展品对应的分词结果;基于所述分词结果,获得用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵,并将所述用户的词云、展品类别偏爱程度向量及展品类别浏览趋势转移矩阵共同作为用户画像;
用户词云匹配模块,用于将用户的词云与展品数据库中的展品信息进行相似度计算,找到包括预设个最符合用户词云的展品进行推荐;所述展品信息包括展品名称、展品类别及展品介绍信息;
用户行为相似度匹配模块,用于将用户的展品类别偏爱程度向量与用户画像数据库中的其它用户的展品类别偏爱程度向量进行相似度计算,找到预设个最为相似的用户,将他们最近浏览的预设个展品进行推荐;
用户浏览趋势预测模块,基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测;对于序列中的每一个元素,找到当前类别中最热门的展品进行推荐;
推荐结果混合模块,对用户词云匹配模块、用户行为相似度匹配模块和用户浏览趋势预测模块的推荐结果进行混合,得到最终推荐的结果;
基于用户的展品类别浏览趋势转移矩阵,产生一个只包括展品类别的序列作为预测,具体包括:
假设展品的类别数量为K,即用户的展品类别浏览趋势转移矩阵M的阶数为K,要产生的序列长度为l,则序列的第一个元素为用户的展品类别偏爱程度向量的最大分量所对应的展品类别,且对于序列的第i个元素Ci,第i+1个元素的值由以下两个值决定:一,Ci转移至其余类别的概率向量,即矩阵M的第i行对应的行向量,记为V=(P1,P2,...,PK);二,一个范围为[0,1]的随机浮点数,记为R;则序列生成的具体流程如下:
S1041,初始化序列第一个元素C1为用户的展品类别偏爱程度向量的最大分量所对应的展品类别;
S1042,对于其余的元素,记当前要产生序列元素下标为j,其中,1≤j≤K,找到下标j满足以下公式:
通过上述公式产生随机数,结合用户的展品类别浏览趋势转移矩阵来产生浏览趋势序列的下一个元素;
基于所述分词结果,获得用户的展品类别偏爱程度向量,具体包括:
基于所述用户行为数据中的展品名称进行分类统计,获取各类别的次数,分别为A1,A2,...,Ak,K属于自然数,则用户的展品类别偏爱程度向量由如下公式表示:
上述公式表示用户搜索、浏览和收藏的展品记录中的每一个类别的概率所构成的向量,代表用户对不同类别展品的喜爱程度;
基于所述分词结果,获得用户的展品类别浏览趋势转移矩阵,具体包括:
令用户搜索、浏览和收藏的展品记录中的类别序列为B1,B2,...,BK,则矩阵的计算公式如下:
其中,pi,j代表从类别序号为Bi的展品转移到类别序号为Bj的次数除以从类别序号为Bi的展品转移到其它K个展品类别的次数之和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110212939.4A CN112862567B (zh) | 2021-02-25 | 2021-02-25 | 一种在线展会的展品推荐方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110212939.4A CN112862567B (zh) | 2021-02-25 | 2021-02-25 | 一种在线展会的展品推荐方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862567A CN112862567A (zh) | 2021-05-28 |
CN112862567B true CN112862567B (zh) | 2022-12-23 |
Family
ID=75989967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110212939.4A Active CN112862567B (zh) | 2021-02-25 | 2021-02-25 | 一种在线展会的展品推荐方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862567B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468444B (zh) * | 2021-07-19 | 2022-06-24 | 智筑科技(吉林省)有限公司 | 一种基于数字可视化的线上云展厅智能管理系统 |
CN113989792A (zh) * | 2021-10-29 | 2022-01-28 | 天津大学 | 一种基于融合特征的文物推荐算法 |
CN117033800A (zh) * | 2023-10-08 | 2023-11-10 | 法琛堂(昆明)医疗科技有限公司 | 一种可视化云上展览系统的智能交互方法及系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617540B (zh) * | 2013-10-17 | 2017-01-11 | 浙江大学 | 一种追踪用户兴趣变化的电子商务推荐方法 |
CN104537114B (zh) * | 2015-01-21 | 2018-05-15 | 清华大学 | 个性化推荐方法 |
CN105824912A (zh) * | 2016-03-15 | 2016-08-03 | 平安科技(深圳)有限公司 | 基于用户画像的个性化推荐方法和装置 |
CN105976161A (zh) * | 2016-04-29 | 2016-09-28 | 随身云(北京)信息技术有限公司 | 一种基于时间轴上的智能推荐日历及基于用户的呈现方法 |
CN108665333B (zh) * | 2017-03-31 | 2021-04-30 | 北京京东尚科信息技术有限公司 | 商品推荐方法、装置、电子设备和存储介质 |
CN107832297B (zh) * | 2017-11-09 | 2021-02-02 | 电子科技大学 | 一种面向特征词粒度的领域情感词典构建方法 |
CN108280198B (zh) * | 2018-01-29 | 2021-03-02 | 口碑(上海)信息技术有限公司 | 榜单生成方法及装置 |
US11269900B2 (en) * | 2018-05-04 | 2022-03-08 | Visa International Service Association | Transition regularized matrix factorization for sequential recommendation |
CN109064285B (zh) * | 2018-08-02 | 2021-02-02 | 西北大学 | 一种获得商品推荐序列及商品推荐方法 |
CN110532479A (zh) * | 2019-09-05 | 2019-12-03 | 北京思维造物信息科技股份有限公司 | 一种信息推荐方法、装置及设备 |
CN111125495A (zh) * | 2019-12-19 | 2020-05-08 | 京东方科技集团股份有限公司 | 一种信息推荐方法、设备及存储介质 |
CN111768268B (zh) * | 2020-06-15 | 2022-12-20 | 北京航空航天大学 | 一种基于本地化差分隐私的推荐系统 |
-
2021
- 2021-02-25 CN CN202110212939.4A patent/CN112862567B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112862567A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN112862567B (zh) | 一种在线展会的展品推荐方法与系统 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN107944986B (zh) | 一种o2o商品推荐方法、系统及设备 | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN105243087B (zh) | It资讯聚合阅读个性化推荐方法 | |
CN104268292B (zh) | 画像系统的标签词库更新方法 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN110717098A (zh) | 基于元路径的上下文感知用户建模方法、序列推荐方法 | |
CN108665333A (zh) | 商品推荐方法、装置、电子设备和存储介质 | |
Eliyas et al. | Recommendation systems: Content-based filtering vs collaborative filtering | |
CN105159910A (zh) | 信息推荐方法和装置 | |
CN109740152A (zh) | 文本类目的确定方法、装置、存储介质和计算机设备 | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
CN105468649B (zh) | 一种待展示对象匹配的判断方法及其装置 | |
CN112612951B (zh) | 一种面向收益提升的无偏学习排序方法 | |
CN107729453A (zh) | 一种提取中心产品词的方法和装置 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN117593089A (zh) | 信用卡推荐方法、装置、设备、存储介质及程序产品 | |
CN115222433A (zh) | 一种信息推荐方法、装置及存储介质 | |
Wang et al. | Sotagrec: A combined tag recommendation approach for stack overflow | |
Joung et al. | Importance-performance analysis of product attributes using explainable deep neural network from online reviews | |
CN104615685B (zh) | 一种面向网络话题的热度评价方法 | |
CN113987159A (zh) | 一种推荐信息确定方法、装置、电子设备及存储介质 | |
CN115168700A (zh) | 一种基于预训练算法的信息流推荐方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |