CN105574107A - 基于用户偏好的内容定制推送方法 - Google Patents
基于用户偏好的内容定制推送方法 Download PDFInfo
- Publication number
- CN105574107A CN105574107A CN201510925498.7A CN201510925498A CN105574107A CN 105574107 A CN105574107 A CN 105574107A CN 201510925498 A CN201510925498 A CN 201510925498A CN 105574107 A CN105574107 A CN 105574107A
- Authority
- CN
- China
- Prior art keywords
- user
- session
- theme
- session setup
- force value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于用户偏好的内容定制推送方法,该方法包括:抓取并预处理历史会话文本,提取用户主题分布,根据用户偏好特征计算会话发起用户的影响力值,然后根据所述影响力值将会话发起用户推送给会话参与用户。本发明提出了一种基于用户偏好的内容定制推送方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
Description
技术领域
本发明涉及大数据,特别涉及一种基于用户偏好的内容定制推送方法。
背景技术
随着信息技术和网络技术的高速发展,互联网己经表现为了去中心化,开放,共享的特点,这些特点影响并改变着人们的生活方式。互联网已经不再只是用户发布消息和获取消息的媒介,更多的是人与人之间的交流互动平台。随着社交网络的出现与发展,社交网络开始拥有庞大的用户群体,并且用户在社交网络上可以表达自己的观点,频繁地更新微博,将自己感兴趣的信息分享给好友,不断添加自己感兴趣的用户扩展自己的爱好群等。如此海量的数据让用户很容易迷失在信息的海洋中,要想更快、更准确地寻找到用户自己需要的数据变得更加的困难。基于传统的搜索获取信息的推送方式己经不适合。价值高、可靠性强的信息无法展示在它感兴趣的用户面前。目前没有有效方法对这些数据进行深度分析并挖掘深层次的有用信息,为用户提供个性化的推送服务。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于用户偏好的内容定制推送方法,包括:
抓取并预处理历史会话文本,提取用户主题分布,根据用户偏好特征计算会话发起用户的影响力值,然后根据所述影响力值将会话发起用户推送给会话参与用户。
优选地,所述抓取并预处理历史会话文本,进一步包括:
按照预定的时间间隔触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并且用于实现重复控制,接收每台抓取客户端申请的事务,将信息抓取后存入分布式数据库后再向事务服务器申请;通过数据清洗将无用数据清除,采用条件随机场算法进行中文分词,通过数据预处理和分词将会话的内容信息转化为结构向量;收集缩写词和全称的映射表,对会话的内容进行替换处理;将无意义字符进行过滤处理;从用户会话中提取代表会话的主题以及目标用户信息;在分词系统中输入会话的内容,将输出的会话数据转换为词条序列;
所述提取用户主题分布进一步包括:得到每个用户的每条会话的主题分布,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题;
根据每个会话发起用户的社交关系和所发起会话的主题比值,估计每个主题下的高影响力值用户;若主题T下的会话发起用户ut在该主题下会话发起用户总数为Nu,该用户发的会话总数Wu,包含主题T的会话数Nw,则会话发起用户的影响力值计算为:
imp(ut)=(ut/Nu)*(Wu/Nw)
根据会话发起用户的推送列表,统计会话发起用户比值最多的主题,然后推送该主题下的会话发起用户;
获取每个主题下会话发起用户对关联主题的影响力值,若主题a的关联主题是b,则主题a中关注主题b的会话发起用户集合U中,对每个会话发起用户u属于U,对主题a的影响力值imp(u→a)如下式计算:
impa(u→a)=imp(u)*∏i∈Uimp(i)
将每个主题下影响力值impa最大的会话发起用户推送给会话参与用户。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于用户偏好的内容定制推送方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
附图说明
图1是根据本发明实施例的基于用户偏好的内容定制推送方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于用户偏好的内容定制推送方法。图1是根据本发明实施例的基于用户偏好的内容定制推送方法流程图。
本发明的方法基于会话数据采集、会话主题分类、会话发起用户提取和会话发起用户推送。会话数据采集架构通过API分布式抓取需要的数据,为会话发起用户推送提供资源。会话主题分类通过文本挖掘为每个会话确定一个主题,会话发起用户提取通过会话主题分布矩阵转换为用户主题分布矩阵,作为用户的兴趣特征,对用户的特征行为进行统计,结合用户的关注数和被关注数两个特征对用户进行分类,将用户分为会话参与用户和会话发起用户。通过会话发起用户的提取,为推送算法找到推送的主体;所述会话发起用户推送通过推送算法将会话参与用户感兴趣的会话发起用户推送给会话参与用户,本发明还结合高影响力值用户和主题之间的关联关系,可以挖掘会话参与用户的潜在主题爱好。
为了快速准确获取会话数据,本发明搭建分布式并行数据抓取架构。系统架构由两部分组成,在一定的时间间隔上,采集服务器触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库中。ID数据库提供两个功能,一个是存储ID,为后续的用户维度和会话维度作为ID缓存。第二个是为了实现重复控制,防止重复抓取相同的用户和会话,如果检测到已经抓取过的用户和会话就不会调用API接口去抓取,也不会将数据保存在分布式数据库,设置了事务分配服务器,每台抓取客户端向事务服务器申请ID事务,将信息抓取后存入分布式数据库后再向事务服务器申请ID。如果有抓取需求的改变,可以根据事务的需要适当增加或减少客户端,而不需要更改整个系统的架构。
为消除歧义性进一步挖掘潜在语义,所以在第一步的时候通过数据清洗将无用数据清除,提高会话数据的质量。分词和主题提取是会话内容分析的基础,通过数据预处理和分词,将会话的内容信息转化为结构向量。
抓取下来的数据是结构化的数据,必须对需要的信息进行会话文本信息的提取还有进行一些文本处理工作。具体的处理有以下几种。(1)通过收集缩写词和全称的映射表,对会话的内容进行替换处理;(2)将表情符号和无意义字符进行过滤处理;(3)从用户会话中提取代表会话的主题以及目标用户信息。
采用的是条件随机场算法进行中文分词。在分词系统中输入会话的内容,然后经过会话预处理、分词算法后,输出的会话数据就变成一条条的词条序列,词与词之间是用空格分割开来。
在每个领域上都有一些专门从事某个方向的用户,本发明称作会话发起用户。这些会话发起用户可能是信息传播的关键中介,也可能是热点信息的来源。会话发起用户在社交网络中起到消息传播的作用,他们能够制造关于某些主题的会话和转发某些主题的会话,大部分主题会话都是会话参与用户会选择关注的感兴趣的内容,会引发用户更多地去转发。
本发明将用户的每个会话的主题都用主题分布概率来表示,这样主题的个数一般控制在比较小的一个范围内,就可以用一个比较低维度的向量来表示会话的特征向量。同理,需要通过训练得到的会话主题分布来提取用户主题分布以此来刻画用户的兴趣爱好。
通过两种方法可以获取,第一种是将每个用户所发表的会话集合并成一个文档,重新训练一个用户模型,从而训练计算得到一个用户主题分布参数。第二种是得到每个用户的每条会话的主题分布情况,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题。
对会话发起用户的提取是通过会话用户的被关注数、关注人数和发布的会话数等信息为标准来进行定量分析。然后针对不同的特征对用户进行群体分类。本发明聚合每个用户的被关注数,通过设定被关注数的阈值来增加和减少来计算用户的平均被关注数。通过决策树对会话发起用户和会话参与用户进行分类。
作为推送方法之一,基于内容的会话发起用户推送是计算会话参与用户与会话发起用户之间的兴趣向量的相似度,下面分两步完成。根据本发明前面的算法,得到每个会话参与用户和会话发起用户的兴趣矩阵,表示的是每个用户会话集合在每个主题下的会话比值。度量会话参与用户up和会话发起用户ut之间的主题分布比值向量Vp和Vt的相似度。
sim(up,ut)=(Vp·Vt)/|Vp|·|Vt|
将相似度高于预定阈值的会话发起用户作为推送的候选集推送给会话参与用户。
可选地,在前一个算法产生的结果基础上,再进行推送结果的优化。根据每个会话发起用户的社交关系(即会话发起用户之间的社会社交关系)和所发起会话的主题比值,估计出每个主题下的高影响力值用户。设主题T下的一个会话发起用户ut。该主题下会话发起用户总数为Nu,该用户发的会话总数Wu,包含主题T的会话数Nw,则会话发起用户的影响力值计算如下:
imp(ut)=(ut/Nu)*(Wu/Nw)
根据会话发起用户的推送列表,统计会话发起用户比值最多的主题,然后推送该主题下的会话发起用户。
聚合会话发起用户所发起会话的统计并进行会话发起用户的关联分析,根据关联规则,统计每个主题相邻的主题对应影响力值比较大的会话发起用户。最具影响力值的相邻会话发起用户,相邻会话发起用户的影响力值计算从两方面,一个是相邻会话发起用户自己的主题发布能力,另外一个是相邻会话发起用户在该主题下的被关注程度。假设主题a的关联主题是b,则主题a中关注主题b的会话发起用户集合U中,对每个会话发起用户u属于U,对主题a的影响力值imp(u→a)如下式计算:
impa(u→a)=imp(u)*∏i∈Uimp(i)
将每个主题下影响力值impa最大的会话发起用户加入到所述候选集中,推送给会话参与用户。
综上所述,本发明提出了一种基于用户偏好的内容定制推送方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (2)
1.一种基于用户偏好的内容定制推送方法,其特征在于,包括:
抓取并预处理历史会话文本,提取用户主题分布,根据用户偏好特征计算会话发起用户的影响力值,然后根据所述影响力值将会话发起用户推送给会话参与用户。
2.根据权利要求1所述的方法,其特征在于,所述抓取并预处理历史会话文本,进一步包括:
按照预定的时间间隔触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并且用于实现重复控制,接收每台抓取客户端申请的事务,将信息抓取后存入分布式数据库后再向事务服务器申请;通过数据清洗将无用数据清除,采用条件随机场算法进行中文分词,通过数据预处理和分词将会话的内容信息转化为结构向量;收集缩写词和全称的映射表,对会话的内容进行替换处理;将无意义字符进行过滤处理;从用户会话中提取代表会话的主题以及目标用户信息;在分词系统中输入会话的内容,将输出的会话数据转换为词条序列;
所述提取用户主题分布进一步包括:得到每个用户的每条会话的主题分布,根据每个用户会话集合中的每段会话,发现每个用户每条会话占最大比重的主题,统计用户所有会话的主题;
根据每个会话发起用户的社交关系和所发起会话的主题比值,估计每个主题下的高影响力值用户;若主题T下的会话发起用户ut在该主题下会话发起用户总数为Nu,该用户发的会话总数Wu,包含主题T的会话数Nw,则会话发起用户的影响力值计算为:
imp(ut)=(ut/Nu)*(Wu/Nw)
根据会话发起用户的推送列表,统计会话发起用户比值最多的主题,然后推送该主题下的会话发起用户;
获取每个主题下会话发起用户对关联主题的影响力值,若主题a的关联主题是b,则主题a中关注主题b的会话发起用户集合U中,对每个会话发起用户u属于U,对主题a的影响力值imp(u→a)如下式计算:
impa(u→a)=imp(u)*∏i∈Uimp(i)
将每个主题下影响力值impa最大的会话发起用户推送给会话参与用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510925498.7A CN105574107A (zh) | 2015-12-14 | 2015-12-14 | 基于用户偏好的内容定制推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510925498.7A CN105574107A (zh) | 2015-12-14 | 2015-12-14 | 基于用户偏好的内容定制推送方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105574107A true CN105574107A (zh) | 2016-05-11 |
Family
ID=55884238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510925498.7A Pending CN105574107A (zh) | 2015-12-14 | 2015-12-14 | 基于用户偏好的内容定制推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574107A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651427A (zh) * | 2016-10-13 | 2017-05-10 | 中国工商银行股份有限公司 | 基于用户行为的数据关联方法 |
CN106682204A (zh) * | 2016-12-30 | 2017-05-17 | 中南大学 | 一种基于众包的语义提取方法 |
-
2015
- 2015-12-14 CN CN201510925498.7A patent/CN105574107A/zh active Pending
Non-Patent Citations (1)
Title |
---|
陈舜华: "社交网络中的主题用户推荐算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651427A (zh) * | 2016-10-13 | 2017-05-10 | 中国工商银行股份有限公司 | 基于用户行为的数据关联方法 |
CN106651427B (zh) * | 2016-10-13 | 2020-02-11 | 中国工商银行股份有限公司 | 基于用户行为的数据关联方法 |
CN106682204A (zh) * | 2016-12-30 | 2017-05-17 | 中南大学 | 一种基于众包的语义提取方法 |
CN106682204B (zh) * | 2016-12-30 | 2020-08-07 | 中南大学 | 一种基于众包的语义提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9716765B2 (en) | Information push method and apparatus | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
JP2017153078A5 (ja) | 人工知能学習システム、返答中継システム、および人工知能学習方法 | |
CN102646122B (zh) | 一种学术社交网络的自动构建方法 | |
CN110162717A (zh) | 一种推荐好友的方法和设备 | |
KR20160059486A (ko) | 연속적인 소셜 커뮤니케이션을 위한 시스템 및 방법 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN105447147A (zh) | 一种数据处理方法及装置 | |
CN113988314A (zh) | 一种选择客户端的分簇联邦学习方法及系统 | |
CN104317804A (zh) | 发布投票信息的方法和装置 | |
CN107784327A (zh) | 一种基于gn的个性化社区发现方法 | |
CN104077412A (zh) | 一种基于多Markov链的微博用户兴趣预测方法 | |
CN105577504A (zh) | 建立通信通道的方法和装置 | |
CN110390109B (zh) | 分析多条群聊消息间关联关系的方法和装置 | |
CN110297967B (zh) | 兴趣点确定方法、装置、设备及计算机可读存储介质 | |
CN105740323A (zh) | 基于资源特征和用户喜好的资源匹配推荐方法和系统 | |
CN111557014A (zh) | 提供多个个人资料的方法及系统 | |
CN105574107A (zh) | 基于用户偏好的内容定制推送方法 | |
CN114547439A (zh) | 基于大数据和人工智能的业务优化方法及电子商务ai系统 | |
CN111949820B (zh) | 视频关联兴趣点的处理方法、装置及电子设备 | |
CN110704612B (zh) | 一种社交群体发现方法、装置和存储介质 | |
CN113420230A (zh) | 基于群聊的匹配咨询推送方法、相关装置、设备及介质 | |
CN105512303A (zh) | 基于大数据分析的内容呈现方法 | |
CN103297389B (zh) | 人机对话方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160511 |