CN105608116B - 基于交互历史数据的个性化推荐方法 - Google Patents

基于交互历史数据的个性化推荐方法 Download PDF

Info

Publication number
CN105608116B
CN105608116B CN201510925924.7A CN201510925924A CN105608116B CN 105608116 B CN105608116 B CN 105608116B CN 201510925924 A CN201510925924 A CN 201510925924A CN 105608116 B CN105608116 B CN 105608116B
Authority
CN
China
Prior art keywords
user
session
theme
distribution
theme distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510925924.7A
Other languages
English (en)
Other versions
CN105608116A (zh
Inventor
董政
吴文杰
陈露
李学生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguan Shuke Chengdu Network Technology Co ltd
Original Assignee
Chengdu Mo Yun Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Mo Yun Science And Technology Ltd filed Critical Chengdu Mo Yun Science And Technology Ltd
Priority to CN201510925924.7A priority Critical patent/CN105608116B/zh
Publication of CN105608116A publication Critical patent/CN105608116A/zh
Application granted granted Critical
Publication of CN105608116B publication Critical patent/CN105608116B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于交互历史数据的个性化推荐方法,该方法包括:通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并确定会话发起用户,向会话参与用户推送会话发起用户。本发明提出了一种基于交互历史数据的个性化推荐方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。

Description

基于交互历史数据的个性化推荐方法
技术领域
本发明涉及大数据,特别涉及一种基于交互历史数据的个性化推荐方法。
背景技术
随着信息技术和网络技术的高速发展,互联网己经表现为了去中心化,开放,共享的特点,这些特点影响并改变着人们的生活方式。互联网已经不再只是用户发布消息和获取消息的媒介,更多的是人与人之间的交流互动平台。随着社交网络的出现与发展,社交网络开始拥有庞大的用户群体,并且用户在社交网络上可以表达自己的观点,频繁地更新微博,将自己感兴趣的信息分享给好友,不断添加自己感兴趣的用户扩展自己的爱好群等。如此海量的数据让用户很容易迷失在信息的海洋中,要想更快、更准确地寻找到用户自己需要的数据变得更加的困难。基于传统的搜索获取信息的推送方式己经不适合。价值高、可靠性强的信息无法展示在它感兴趣的用户面前。目前没有有效方法对这些数据进行深度分析并挖掘深层次的有用信息,为用户提供个性化的推送服务。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于交互历史数据的个性化推荐方法,包括:
通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并确定会话发起用户,向会话参与用户推送会话发起用户。
优选地,所述通过API分布式抓取历史会话数据,进一步包括:
搭建分布式并行数据抓取架构,该架构包括采集服务器和事务分配服务器,所述采集服务器按照预定的时间间隔,触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库中,所述ID数据库用于存储ID,为后续的用户维度和会话维度作为ID缓存;并且用于实现重复控制,防止重复抓取相同的用户和会话,如果检测到已经抓取过的用户和会话则不再调用API接口去抓取,也不再将数据保存在分布式数据库,设置了事务分配服务器,每台抓取客户端向事务服务器申请ID事务,将信息抓取后存入分布式数据库后再向事务服务器申请ID;如果有抓取需求的改变,则根据事务的需要增加或减少客户端。
优选地,所述利用会话主题分布确定用户的兴趣特征,进一步包括:
将用户的每个会话的主题用主题分布概率来表示,表示为会话的特征向量;通过训练得到的会话主题分布,提取用户主题分布;所述提取用户主题分布通过以下两种方法之一来实现,将每个用户所发表的会话集合并成一个文档,重新训练一个用户模型,从而训练计算得到一个用户主题分布参数;或者,得到每个用户的每条会话的主题分布,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于交互历史数据的个性化推荐方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
附图说明
图1是根据本发明实施例的基于交互历史数据的个性化推荐方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于交互历史数据的个性化推荐方法。图1是根据本发明实施例的基于交互历史数据的个性化推荐方法流程图。
本发明的方法基于会话数据采集、会话主题分类、会话发起用户提取和会话发起用户推送。会话数据采集架构通过API分布式抓取需要的数据,为会话发起用户推送提供资源。会话主题分类通过文本挖掘为每个会话确定一个主题,会话发起用户提取通过会话主题分布矩阵转换为用户主题分布矩阵,作为用户的兴趣特征,对用户的特征行为进行统计,结合用户的关注数和被关注数两个特征对用户进行分类,将用户分为会话参与用户和会话发起用户。通过会话发起用户的提取,为推送算法找到推送的主体;所述会话发起用户推送通过推送算法将会话参与用户感兴趣的会话发起用户推送给会话参与用户,本发明还结合高影响力用户和主题之间的关联关系,可以挖掘会话参与用户的潜在主题爱好。
为了快速准确获取会话数据,本发明搭建分布式并行数据抓取架构。系统架构由两部分组成,在一定的时间间隔上,采集服务器触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库中。ID数据库提供两个功能,一个是存储ID,为后续的用户维度和会话维度作为ID缓存。第二个是为了实现重复控制,防止重复抓取相同的用户和会话,如果检测到已经抓取过的用户和会话就不会调用API接口去抓取,也不会将数据保存在分布式数据库,设置了事务分配服务器,每台抓取客户端向事务服务器申请ID事务,将信息抓取后存入分布式数据库后再向事务服务器申请ID。如果有抓取需求的改变,可以根据事务的需要适当增加或减少客户端,而不需要更改整个系统的架构。
为消除歧义性进一步挖掘潜在语义,所以在第一步的时候通过数据清洗将无用数据清除,提高会话数据的质量。分词和主题提取是会话内容分析的基础,通过数据预处理和分词,将会话的内容信息转化为结构向量。
抓取下来的数据是结构化的数据,必须对需要的信息进行会话文本信息的提取还有进行一些文本处理工作。具体的处理有以下几种。(1)通过收集缩写词和全称的映射表,对会话的内容进行替换处理;(2)将表情符号和无意义字符进行过滤处理;(3)从用户会话中提取代表会话的主题以及目标用户信息。
采用的是条件随机场算法进行中文分词。在分词系统中输入会话的内容,然后经过会话预处理、分词算法后,输出的会话数据就变成一条条的词条序列,词与词之间是用空格分割开来。
在每个领域上都有一些专门从事某个方向的用户,本发明称作会话发起用户。这些会话发起用户可能是信息传播的关键中介,也可能是热点信息的来源。会话发起用户在社交网络中起到消息传播的作用,他们能够制造关于某些主题的会话和转发某些主题的会话,大部分主题会话都是会话参与用户会选择关注的感兴趣的内容,会引发用户更多地去转发。
本发明将用户的每个会话的主题都用主题分布概率来表示,这样主题的个数一般控制在比较小的一个范围内,就可以用一个比较低维度的向量来表示会话的特征向量。同理,需要通过训练得到的会话主题分布来提取用户主题分布以此来刻画用户的兴趣爱好。
通过两种方法可以获取,第一种是将每个用户所发表的会话集合并成一个文档,重新训练一个用户模型,从而训练计算得到一个用户主题分布参数。第二种是得到每个用户的每条会话的主题分布情况,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题。
对会话发起用户的提取是通过会话用户的被关注数、关注人数和发布的会话数等信息为标准来进行定量分析。然后针对不同的特征对用户进行群体分类。本发明聚合每个用户的被关注数,通过设定被关注数的阈值来增加和减少来计算用户的平均被关注数。通过决策树对会话发起用户和会话参与用户进行分类。
作为推送方法之一,基于内容的会话发起用户推送是计算会话参与用户与会话发起用户之间的兴趣向量的相似度,下面分两步完成。根据本发明前面的算法,得到每个会话参与用户和会话发起用户的兴趣矩阵,表示的是每个用户会话集合在每个主题下的会话比值。度量会话参与用户up和会话发起用户ut之间的主题分布比值向量Vp和Vt的相似度。
sim(up,ut)=(Vp·Vt)/|Vp|·|Vt|
将相似度高于预定阈值的会话发起用户作为推送的候选集推送给会话参与用户。
可选地,在前一个算法产生的结果基础上,再进行推送结果的优化。根据每个会话发起用户的社交关系(即会话发起用户之间的社会社交关系)和所发起会话的主题比值,估计出每个主题下的高影响力用户。设主题T下的一个会话发起用户ut。该主题下会话发起用户总数为Nu,该用户发的会话总数Wu,包含主题T的会话数Nw,则会话发起用户的影响力计算如下:
imp(ut)=(ut/Nu)*(Wu/Nw)
根据会话发起用户的推送列表,统计会话发起用户比值最多的主题,然后推送该主题下的会话发起用户。
聚合会话发起用户所发起会话的统计并进行会话发起用户的关联分析,根据关联规则,统计每个主题相邻的主题对应影响力比较大的会话发起用户。最具影响力的相邻会话发起用户,相邻会话发起用户的影响力计算从两方面,一个是相邻会话发起用户自己的主题发布能力,另外一个是相邻会话发起用户在该主题下的被关注程度。假设主题a的关联主题是b,则主题a中关注主题b的会话发起用户集合U中,对每个会话发起用户u属于U,对主题a的影响力imp(u→a)如下式计算:
impa(u→a)=imp(u)*∏i∈Uimp(i)
将每个主题下影响力值impa最大的会话发起用户加入到所述候选集中,推送给会话参与用户。
综上所述,本发明提出了一种基于交互历史数据的个性化推荐方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (2)

1.一种基于交互历史数据的个性化推荐方法,其特征在于,包括:
通过API分布式抓取历史会话数据,通过文本挖掘为每个会话确定一个主题,利用会话主题分布确定用户的兴趣特征,统计用户的特征行为并确定会话发起用户,向会话参与用户推送会话发起用户;
所述统计用户的特征行为并确定会话发起用户,进一步包括:通过会话主题分布矩阵转换为用户主题分布矩阵,作为用户的兴趣特征,对用户的特征行为进行统计,结合用户的关注数和被关注数两个特征对用户进行分类,将用户分为会话参与用户和会话发起用户;
对会话发起用户的提取是通过会话用户的被关注数、关注人数和发布的会话数为标准来进行定量分析,然后针对不同的特征对用户进行群体分类;聚合每个用户的被关注数,通过设定被关注数的阈值来增加和减少的计算用户的平均被关注数;通过决策树对会话发起用户和会话参与用户进行分类;
该方法还包括计算会话参与用户与会话发起用户之间的兴趣向量的相似度,再得到每个会话参与用户和会话发起用户的兴趣矩阵,表示每个用户会话集合在每个主题下的会话比值;度量会话参与用户up和会话发起用户ut之间的主题分布比值向量Vp和Vt的相似度;
sim(up,ut)=(Vp·Vt)/|Vp|·|Vt|
将相似度高于预定阈值的会话发起用户作为推送的候选集推送给会话参与用户。
2.根据权利要求1所述的方法,其特征在于,所述利用会话主题分布确定用户的兴趣特征,进一步包括:
将用户的每个会话的主题用主题分布概率来表示,表示为会话的特征向量;通过训练得到的会话主题分布,提取用户主题分布;所述提取用户主题分布通过以下两种方法之一来实现,将每个用户所发表的会话集合并成一个文档,重新训练一个用户模型,从而训练计算得到一个用户主题分布参数;或者,得到每个用户的每条会话的主题分布,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题。
CN201510925924.7A 2015-12-14 2015-12-14 基于交互历史数据的个性化推荐方法 Expired - Fee Related CN105608116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510925924.7A CN105608116B (zh) 2015-12-14 2015-12-14 基于交互历史数据的个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510925924.7A CN105608116B (zh) 2015-12-14 2015-12-14 基于交互历史数据的个性化推荐方法

Publications (2)

Publication Number Publication Date
CN105608116A CN105608116A (zh) 2016-05-25
CN105608116B true CN105608116B (zh) 2019-03-15

Family

ID=55988056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510925924.7A Expired - Fee Related CN105608116B (zh) 2015-12-14 2015-12-14 基于交互历史数据的个性化推荐方法

Country Status (1)

Country Link
CN (1) CN105608116B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097412A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 物品推荐方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968798A (zh) * 2010-09-10 2011-02-09 中国科学技术大学 基于在线软约束lda算法的社区推荐方法
CN102609465A (zh) * 2012-01-16 2012-07-25 武汉大学 基于潜在社群的信息推荐方法
CN103778260A (zh) * 2014-03-03 2014-05-07 哈尔滨工业大学 一种个性化微博信息推荐系统和方法
CN104182449A (zh) * 2013-05-20 2014-12-03 Tcl集团股份有限公司 基于用户兴趣建模的个性化视频推荐系统和方法
CN104572797A (zh) * 2014-05-12 2015-04-29 深圳市智搜信息技术有限公司 基于主题模型的个性化服务推荐系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968798A (zh) * 2010-09-10 2011-02-09 中国科学技术大学 基于在线软约束lda算法的社区推荐方法
CN102609465A (zh) * 2012-01-16 2012-07-25 武汉大学 基于潜在社群的信息推荐方法
CN104182449A (zh) * 2013-05-20 2014-12-03 Tcl集团股份有限公司 基于用户兴趣建模的个性化视频推荐系统和方法
CN103778260A (zh) * 2014-03-03 2014-05-07 哈尔滨工业大学 一种个性化微博信息推荐系统和方法
CN104572797A (zh) * 2014-05-12 2015-04-29 深圳市智搜信息技术有限公司 基于主题模型的个性化服务推荐系统和方法

Also Published As

Publication number Publication date
CN105608116A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107665708A (zh) 智能语音交互方法及系统
CN107111611A (zh) 区分歧义表达以增强用户体验
CN109145114B (zh) 基于Kleinberg在线状态机的社交网络事件检测方法
CN105989550A (zh) 一种在线服务评价信息确定方法及设备
CN106649410B (zh) 一种获取聊天回复内容的方法及装置
CN107392782A (zh) 基于word2Vec的社团构建方法、装置及计算机处理设备
CN112037775B (zh) 语音识别方法、装置、设备及存储介质
CN107392392A (zh) 基于深度学习的微博转发预测方法
CN109597926A (zh) 一种基于社交媒体突发事件的信息获取方法及系统
Skorniakov et al. Make Social Networks Clean Again: Graph Embedding and Stacking Classifiers for Bot Detection.
Mcswiney Far-Right Recruitment and Mobilization on Facebook: The Case of Australia
CN105608116B (zh) 基于交互历史数据的个性化推荐方法
CN110704612B (zh) 一种社交群体发现方法、装置和存储介质
Ferraccioli et al. TextWiller@ SardiStance, HaSpeede2: Text or Con-text? A smart use of social network data in predicting polarization
CN103297389B (zh) 人机对话方法及装置
CN109635138B (zh) 一种基于相似相貌的社交关系建立方法与系统
CN105068988B (zh) 多维度和多粒度情感分析方法
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
Sun et al. Joint topic-opinion model for implicit feature extracting
CN105574107A (zh) 基于用户偏好的内容定制推送方法
CN114399998B (zh) 语音处理方法、装置、设备、存储介质及程序产品
CN109658279A (zh) 基于亲密度和信誉度的社交网络关系推荐方法
CN111026835B (zh) 一种聊天主题检测方法、装置、存储介质
CN105512303A (zh) 基于大数据分析的内容呈现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200116

Address after: 571924 3001, floor 2, building A17, Hainan Ecological Software Park, hi tech industry demonstration zone, old town, Chengmai County, Haikou City, Hainan Province

Patentee after: Hainan anmaiyun Technology Co.,Ltd.

Address before: China high tech Zone of Chengdu City, Sichuan province 610041 Road 99, 7 Building 3 layer 312-315

Patentee before: CHENGDU BAIYUN SCIENCE & TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201225

Address after: No. 1608, 16th floor, building 1, 333 Dehua Road, high tech Zone, Chengdu, Sichuan 610000

Patentee after: Delu Power Technology (Chengdu) Co.,Ltd.

Address before: 571924 3001, 2nd floor, building A17, Hainan Ecological Software Park, hi tech Industrial Demonstration Zone, Laocheng Town, Chengmai County, Haikou City, Hainan Province

Patentee before: Hainan anmaiyun Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211123

Address after: No. 505, 5th floor, building 6, No. 599, shijicheng South Road, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan 610000

Patentee after: Zhongguan Shuke (Chengdu) Network Technology Co.,Ltd.

Address before: No. 1608, 16th floor, building 1, 333 Dehua Road, high tech Zone, Chengdu, Sichuan 610000

Patentee before: Delu Power Technology (Chengdu) Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190315