CN112231593A - 一种金融资讯智能推荐系统 - Google Patents

一种金融资讯智能推荐系统 Download PDF

Info

Publication number
CN112231593A
CN112231593A CN202011469913.XA CN202011469913A CN112231593A CN 112231593 A CN112231593 A CN 112231593A CN 202011469913 A CN202011469913 A CN 202011469913A CN 112231593 A CN112231593 A CN 112231593A
Authority
CN
China
Prior art keywords
news
pool
user
probability
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011469913.XA
Other languages
English (en)
Other versions
CN112231593B (zh
Inventor
尹扬
郭鹏华
朱峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Suntime Information Technology Co ltd
Original Assignee
Shanghai Suntime Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Suntime Information Technology Co ltd filed Critical Shanghai Suntime Information Technology Co ltd
Priority to CN202011469913.XA priority Critical patent/CN112231593B/zh
Publication of CN112231593A publication Critical patent/CN112231593A/zh
Priority to PCT/CN2021/080155 priority patent/WO2022126873A1/zh
Application granted granted Critical
Publication of CN112231593B publication Critical patent/CN112231593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种金融资讯智能推荐系统,包括:新闻特征向量计算模块,配置为计算各新闻的特征向量;用户特征向量计算模块,配置为计算各用户的特征向量;多维度新闻池创建模块,配置为创建多个维度的新闻池,并对各新闻池中的新闻排序;新闻推荐模块,配置为计算各新闻池的采样概率,根据所述采样概率对各新闻池进行采样,将采样得到的新闻池中排在第一位的新闻推荐给用户。本发明解决了现有技术中资讯推荐功能单一、无法推荐同时具有多样性、新颖性、准确率高、个性化以及时效性强的资讯的问题,本发明既能向用户主动推送符合用户投资偏好的新闻资讯,又能向用户提供各种内容丰富和及时的信息,及时捕捉瞬息万变的投资机会。

Description

一种金融资讯智能推荐系统
技术领域
本发明涉及资讯推荐技术领域,特别涉及一种金融资讯智能推荐系统。
背景技术
随着经济社会和互联网等相关技术的发展,金融领域的各种新闻资讯和信息成爆炸式的增长。广大投资者面对每天都在产生的海量资讯信息,很难找到自己需要的有用信息并根据这些信息快速地做出投资决策。为了让投资者能快速获得对自己有用的金融信息,通过新闻推荐系统主动向投资者推荐符合投资者偏好特征的新闻资讯是一个良好的途径。但由于金融资讯具有很强的时效性(如突发事件和突发投资热点等)和多维度性(如宏观和微观等),传统的基于相关内容的推荐很难向投资者提供及时有用的投资信息和投资机会。
已有的推荐算法主要有:基于内容相关度的推荐算法、基于协同过滤的推荐算法、基于流行度的推荐算法以及基于模型的推荐算法等。
基于内容相关度的推荐算法:通过分析用户行为以及新闻的文本内容,分别对用户和新闻标注能够代表用户和新闻特征的关键词(主题词),然后将这些关键词通过tf-idf等计算词权重的算法分别组成用户和新闻的特征向量,这些特征向量就代表了各个用户和各篇新闻的特征。然后再用余弦相似度等方法计算用户向量和新闻向量之间的相似度,再根据这些相似度向用户推荐与用户相似度较大的新闻。基于内容相关度的推荐算法有一个最大的弊端就是容易产生同质化推荐,即一直给用户推荐同一类内容的新闻并进入死循环,失去了推荐内容的多样性和新颖性。
基于协同过滤的推荐算法:分析各个用户对item的评价(通过浏览记录和购买记录等);依据用户对item的评价计算得出所有用户之间的相似度;选出与当前用户最相似的N个用户;将这N个用户评价最高并且当前用户又没有浏览过的item推荐给当前用户。基于协同过滤的推荐算法也有很多不足之处:1.冷启动问题,即对于新用户和新item,推荐无法进行;2.该算法的准确性依赖于大量的准确用户数据,如果用户数据较少则会导致推荐不准确甚至推荐无法进行;3.在一些item生存周期短(如新闻和广告等)的系统中,由于更新速度快,大量item不会有用户评分,造成评分矩阵稀疏,不利于这些内容的推荐。
基于流行度的推荐算法:根据点击量、页面访问量、独立访客量以及分享率等数据按某种热度排序,并推荐给用户。这种算法的优点是简单,适用于刚注册的新用户。缺点是无法针对用户提供个性化的推荐。
基于模型的推荐算法:通过诸如机器学习的方法构建模型,然后用大量已有的用户行为数据、购买记录和用户的各种特征属性等对所构建的模型进行训练和数据拟合,然后向训练好的模型输入待推荐用户的各特征属性,模型输出最终的推荐结果。该算法的缺点是:需要大量的用户历史行为数据,并且需要反复的人工干预进行属性的组合和筛选(即特征工程)。同时,由于新闻的时效性,模型也需要反复的训练更新,以适应变化。
由于金融资讯具有很强的时效性和多维度性,并且不同的投资者有不同的投资偏好和投资逻辑,上述的任何一种推荐算法都很难向投资者提供及时有用的投资信息和投资机会。
因此有必要提供一种金融资讯智能推荐系统,以解决现有技术中资讯推荐功能单一、无法推荐同时具有多样性、新颖性、准确率高、个性化以及时效性强的资讯的问题。
发明内容
本发明的目的在于提供一种金融资讯智能推荐系统,以解决现有技术中资讯推荐功能单一、无法推荐同时具有多样性、新颖性、准确率高、个性化以及时效性强的资讯的问题。
为了解决现有技术中存在的问题,本发明提供了一种金融资讯智能推荐系统,包括:
新闻特征向量计算模块,配置为计算各新闻的特征向量;
用户特征向量计算模块,配置为计算各用户的特征向量;
多维度新闻池创建模块,配置为创建多个维度的新闻池,并对各新闻池中的新闻排序;
新闻推荐模块,配置为计算各新闻池的采样概率,根据所述采样概率对各新闻池进行采样,将采样得到的新闻池中排在第一位的新闻推荐给用户。
可选的,在所述金融资讯智能推荐系统中,计算各新闻的特征向量的方式为:
提取数据库中各新闻内所有的主题词;
计算各主题词的权重和一周期内的动态逆文档频率;
计算各新闻的特征向量V,特征向量V为N维向量,N为数据库中所有主题词总数,特征向量V的一位对应一个主题词,其中,各新闻中任一主题词对应的向量的位值等于该主题词的权重和该主题词一周期内的动态逆文档频率的乘积。
可选的,在所述金融资讯智能推荐系统中,
一周期包括20天、30天或40天;
逆文档频率为Inverse Document Frequency,即idf。
可选的,在所述金融资讯智能推荐系统中,用户特征向量计算模块中,各用户的特征向量的计算方式为:
Figure 845818DEST_PATH_IMAGE001
其中,Vs为各用户的特征向量,Vp为用户历史阅读新闻的特征向量、Vd用户已点击不喜欢的新闻的特征向量,Vt为用户已点击不喜欢的主题词的特征向量,||Vd||2为特征向量Vd的2-范数,Normalize(Vp)和Normalize(Vd)分别为特征向量Vp和Vd归一化后的向量,B和E为计算参数,η为新闻数量惩罚函数。
可选的,在所述金融资讯智能推荐系统中,
Vp、Vd和Vt均为N维特征向量,N为数据库中所有主题词总数,特征向量的一位对应一个主题词;
Vp特征向量的任一位等于用户历史阅读新闻中对应主题词的权重乘以该主题词一周期内的动态逆文档频率;
Vd特征向量的任一位等于用户已点击不喜欢的新闻中对应主题词的权重乘以该主题词一周期内的动态逆文档频率;
Vt特征向量的任一位等于用户已点击不喜欢的主题词的权重乘以该主题词一周期内的动态逆文档频率。
可选的,在所述金融资讯智能推荐系统中,多维度新闻池创建模块中维度类型包括但不限于:宏观、盘前、午评、资金流入流出、投资热点、热点主题新闻、点击榜、自选股、国际时政及财经、基金频道、港股及外围市场。
可选的,在所述金融资讯智能推荐系统中,
热点主题新闻池,先计算热点主题新闻池内各热点主题的热点概率,依据热点概率对所述热点主题新闻池内各热点主题进行采样,将采样得到的热点主题所对应的最新的新闻依次排序;
点击榜新闻池中新闻按照用户的点击量进行排序;
时效性较强的新闻池中新闻按照新闻的发布时间倒序排序,即,发布时间越新的新闻越排在前面,时效性较强的新闻池包括盘前、午评和资金流入流出;
其余新闻池中新闻按照新闻的特征向量和用户的特征向量的相似度排序,依据相似度的高低依次排序。
可选的,在所述金融资讯智能推荐系统中,所述热点主题新闻池内各热点主题的热点概率的计算方式为:
计算各热点主题的热点概率;
对计算得到的热点主题的热点概率进行归一化处理;
其中各热点主题的热点概率的计算方式为:
Figure 434801DEST_PATH_IMAGE002
对热点主题的热点概率进行归一化处理的计算方式为:
Figure 602608DEST_PATH_IMAGE003
其中,K为待采样的热点主题的个数,j表示热度值排第j位的热点主题,
Figure 833607DEST_PATH_IMAGE004
为热点 主题j未归一化的采样概率,power为计算参数,q(j)为热点主题j归一化后的采样概率,hj 为热点主题j的热度值,hK为第K位的热点主题的热度值,即hK为热点主题中最低热度值所对 应热点主题的热度值。
可选的,在所述金融资讯智能推荐系统中,计算各新闻池的采样概率的方式为:
计算待推荐金融资讯用户与各新闻池中排在第一位的新闻的相似概率;
定义附加概率;
根据相似概率和附加概率计算得到各新闻池的采样概率;
根据所述采样概率对各新闻池进行采样;
将采样得到的新闻池中排在第一位的新闻推荐给用户。
可选的,在所述金融资讯智能推荐系统中,
相似概率的计算方式为:
Figure 127228DEST_PATH_IMAGE005
其中,i表示任一新闻池,Padjusti为待推荐金融资讯用户与该新闻池中排在第一位的 新闻的相似概率,simi为待推荐金融资讯用户与该新闻池中排在第一位的新闻的相似度, Pinitiali为预设的该新闻池的初始概率,C和
Figure 418270DEST_PATH_IMAGE006
为计算参数;
附加概率的计算方式为:
Figure 338952DEST_PATH_IMAGE007
其中,i表示任一新闻池,Padditionali为该新闻池归一化后的附加概率,m为当前可采样的新闻池总数;
采样概率的计算方式为:
Figure 108063DEST_PATH_IMAGE008
其中,i表示任一新闻池,Pi为该新闻池的采样概率,Padjusti为待推荐金融资讯用户与该新闻池中排在第一位的新闻的相似概率,Padditionali为该新闻池归一化后的附加概率。
在本发明所提供的金融资讯智能推荐系统中,通过建立符合金融领域特点和投资需求的各种维度的新闻池,实现了向用户推送多维度、多层次和多样性的新闻;本发明通过采样概率的统计学方法,从多个维度(多个新闻池)动态地对新闻进行概率采样,采样概率可以动态的由用户相似度(即用户偏好)、新闻热度以及业务逻辑等因素决定,这样就能够在向用户推送符合用户偏好和兴趣新闻的同时,又能向用户推送准确且及时有用的投资信息和投资机会。
附图说明
图1为本发明实施例提供的金融资讯智能推荐系统的模块图;
图2为本发明实施例提供的金融资讯智能推荐系统中的推荐流程图。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
在下文中,如果本文所述的方法包括一系列步骤,则本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法中。
由于金融资讯具有很强的时效性和多维度性,并且不同的投资者有不同的投资偏好和投资逻辑,现有推荐算法都很难向投资者提供及时有用的投资信息和投资机会。
因此有必要提供一种金融资讯智能推荐系统,如图1和2所示,图1为本发明实施例提供的金融资讯智能推荐系统的模块图;图2为本发明实施例提供的金融资讯智能推荐系统中的推荐流程图,所述金融资讯智能推荐系统包括:
新闻特征向量计算模块,配置为计算各新闻的特征向量;
用户特征向量计算模块,配置为计算各用户的特征向量;
多维度新闻池创建模块,配置为创建多个维度的新闻池,并对各新闻池中的新闻排序;
新闻推荐模块,配置为计算各新闻池的采样概率,根据所述采样概率对各新闻池进行采样,将采样得到的新闻池中排在第一位的新闻推荐给用户。
本发明解决了现有技术中资讯推荐功能单一、无法推荐同时具有多样性、新颖性、准确率高、个性化以及时效性强的资讯的问题,本发明既能向用户主动推送符合用户投资偏好的新闻资讯,又能向用户提供各种内容丰富和及时的信息,及时捕捉瞬息万变的投资机会。
具体的,计算各新闻的特征向量的方式为:
通过TextRank等算法提取数据库中各新闻内所有的主题词;
计算各主题词的权重和一周期内的动态逆文档频率,其中,各主题词的权重可以根据计算所得或经验所得,一周期包括20天、30天或40天,优选一周期为30天,逆文档频率为Inverse Document Frequency,即idf;
最后计算各新闻的特征向量V,特征向量V为N维向量,N为数据库中所有主题词总数,特征向量V的一位对应一个主题词,其中,各新闻中任一主题词对应的向量的位值等于该主题词的权重和该主题词一周期内的动态逆文档频率的乘积,用公式表示即为:V[w]=theme_weight(w)×idf(w),其中V[w]为各新闻中任一主题词对应的向量的位值,theme_weight(w)为该主题词的权重,idf(w)为该主题词一周期内的动态逆文档频率。
进一步的,用户特征向量计算模块中,各用户的特征向量的计算方式为:
Figure 735485DEST_PATH_IMAGE009
其中,Vs为各用户的特征向量,Vp为用户历史阅读新闻的特征向量、Vd用户已点击不喜欢的新闻的特征向量,Vt为用户已点击不喜欢的主题词的特征向量,||Vd||2为特征向量Vd的2-范数,Normalize(Vp)和Normalize(Vd)分别为特征向量Vp和Vd归一化后的向量,B和E为计算参数,η为新闻数量惩罚函数。
进一步的,||Vd||2 的计算公式为:
Figure 463007DEST_PATH_IMAGE010
,其中,
Figure 605406DEST_PATH_IMAGE011
Figure 375611DEST_PATH_IMAGE012
的r个分量;
Normalize(Vp)和Normalize(Vd)的计算公式为:
Figure 231440DEST_PATH_IMAGE013
Figure 864285DEST_PATH_IMAGE014
其中,
Figure 228401DEST_PATH_IMAGE015
Figure 604893DEST_PATH_IMAGE016
的r个分量,
Figure 738066DEST_PATH_IMAGE017
Figure 547671DEST_PATH_IMAGE018
的r个分量, ||Vp||2为特征向量Vp的2-范数,||Vd||2为特征向量Vd的2-范数。
η(||Vd||2)的计算公式为:
Figure 399083DEST_PATH_IMAGE019
其中,
Figure 500638DEST_PATH_IMAGE020
Figure 285054DEST_PATH_IMAGE021
为计算参数,设计该惩罚函数的原因是:当用户刚开始使用不喜欢新 闻的功能时,只点了很少的几个新闻,这时由于向量范数很小,归一化后每一个分量偏大, 导致一开始屏蔽力度太强,所以需要让向量乘以一个很小的惩罚函数,以使得每个分量变 小一点。而随着不喜欢新闻功能使用的增多,不喜欢新闻的向量的范数随之增大,从而η(|| Vd||2)趋近于1,就会很快减小惩罚力度。
较佳的,各用户中的用户历史阅读新闻、用户已点击不喜欢的新闻和用户已点击不喜欢的主题词会在更新用户的特征向量前衰减,或者随着时间衰减,从而给新的用户行为更大的权重,以便适应用户阅读兴趣的变化,并且,还可以将已经推送过的新闻、用户已点击不喜欢的新闻和用户已点击不喜欢的主题词所对应的新闻在推荐过程中去除。
再进一步的,在所述金融资讯智能推荐系统中,
下列Vp、Vd和Vt均为N维特征向量,N为数据库中所有主题词总数,特征向量的一位对应一个主题词;
Vp特征向量的任一位等于用户历史阅读新闻中对应主题词的权重乘以该主题词一周期内的动态逆文档频率;
Vd特征向量的任一位等于用户已点击不喜欢的新闻中对应主题词的权重乘以该主题词一周期内的动态逆文档频率;
Vt特征向量的任一位等于用户已点击不喜欢的主题词的权重乘以该主题词一周期内的动态逆文档频率。
在所述金融资讯智能推荐系统中,为了向用户推送内容丰富和不同维度的新闻,本发明通过分类算法或分类器自动将新闻分为多个大类,因此维度新闻池创建模块中维度类型包括但不限于:宏观、盘前、午评、资金流入流出、投资热点、热点主题新闻、点击榜、自选股、国际时政及财经、基金频道、港股及外围市场。
较佳的,热点主题新闻池中,先计算热点主题新闻池内各热点主题的热点概率,依据热点概率对所述热点主题新闻池内各热点主题进行采样,将采样得到的热点主题所对应的最新的新闻依次排序,热点主题的热度值越高,采样概率越大,该热点主题的新闻被优先推荐的可能性就越大;点击榜新闻池中新闻按照用户的点击量进行排序,点击量越高的新闻表明该新闻越受欢迎或者越重要,排序越靠前;时效性较强的新闻池中新闻按照新闻的发布时间倒序排序,即,发布时间越新的新闻越排在前面,以保证将重大财经消息可以尽快推送给用户,时效性较强的新闻池包括盘前、午评和资金流入流出;其余新闻池中新闻按照新闻的特征向量和用户的特征向量的相似度排序,依据相似度的高低依次排序,相似度越大的新闻越符合用户的阅读或投资偏好,排序越靠前,以使新闻推荐模块尽可能地优先将这些新闻推送给用户,较佳的,每一新闻池中的每一篇新闻都通过新闻特征向量和用户特征向量计算每一篇新闻与每一个用户的余弦相似度。
进一步的,所述热点主题新闻池内各热点主题的热点概率的计算方式为:
计算各热点主题的热点概率;
对计算得到的热点主题的热点概率进行归一化处理;
其中,各热点主题的热点概率的计算方式为:
Figure 525281DEST_PATH_IMAGE022
对热点主题的热点概率进行归一化处理的计算方式为:
Figure 129568DEST_PATH_IMAGE023
其中,K为待采样的热点主题的个数,j表示热度值排第j位的热点主题,
Figure 131021DEST_PATH_IMAGE024
为热点主 题j未归一化的采样概率,power为计算参数,q(j)为热点主题j归一化后的采样概率,hj为 热点主题j的热度值,hK为第K位的热点主题的热度值,即hK为热点主题中最低热度值所对应 热点主题的热度值。
可选的,在所述金融资讯智能推荐系统中,新闻推荐模块相当于整个金融资讯智能推荐系统的大脑中枢,新闻推荐模块采用概率采样技术结合时间决定最终何时、向何用户推荐何种新闻。进一步的,请继续参考图2,计算各新闻池的采样概率的方式为:
计算待推荐金融资讯用户与各新闻池中排在第一位的新闻的相似概率;
定义附加概率;
根据相似概率和附加概率计算得到各新闻池的采样概率;
根据所述采样概率对各新闻池进行采样;
将采样得到的新闻池中排在第一位的新闻推荐给用户。
可选的,在所述金融资讯智能推荐系统中,
相似概率的计算方式为:
Figure 504364DEST_PATH_IMAGE025
其中,i表示任一新闻池,Padjusti为待推荐金融资讯用户与该新闻池中排在第一位的 新闻的相似概率,simi为待推荐金融资讯用户与该新闻池中排在第一位的新闻的相似度, Pinitiali为预设的该新闻池的初始概率,Pintiali具体值根据业务场景和各新闻池的重要 性决定,C和
Figure 853175DEST_PATH_IMAGE026
为计算参数;各新闻池的采样概率会随其排在第一位的新闻的相似概率的 增大而快速增大,也就是如果某个新闻池排在第一位的新闻的相似概率明显大于其他新闻 池排在第一位的新闻的相似概率,则该新闻池的该篇新闻会被优先采样到,因为相似度大 表明该篇新闻更符合用户的阅读和投资偏好。
进一步的,由于像热点主题新闻池和点击榜新闻池中的新闻,尽管可能与用户特征向量的相似度不是很大,为了让用户及时了解当前热点或者让用户发现新的兴趣点,也需要向用户积极推送该类新闻,即本发明定义了附加概率,以增加这类新闻的推荐率。
附加概率的计算方式为:
Figure 148021DEST_PATH_IMAGE027
其中,i表示任一新闻池,Padditionali为该新闻池归一化后的附加概率,m为当前可采样的新闻池总数;附加概率为归一化后概率,所以这一附加概率不会受其他新闻池采样概率的影响,保证了在任何情况下这类新闻都能积极地向用户推送,其推送力度主要取决于这一附加概率。
采样概率的计算方式为:
Figure 624002DEST_PATH_IMAGE028
其中,i表示任一新闻池,Pi为该新闻池的采样概率,Padjusti为待推荐金融资讯用户与该新闻池中排在第一位的新闻的相似概率,Padditionali为该新闻池归一化后的附加概率,得到各新闻池的采样概率后,根据所述采样概率对各新闻池进行采样,将采样得到的新闻池中排在第一位的新闻推荐给用户。
最后,新闻推荐模块按照以下逻辑和步骤向用户推荐新闻:对于时效性较强的新闻池(如盘前、午评以及下周展望等),设定特定的推送时间,如盘前推送时间为股市交易日0点到开盘前,午评为股市交易日11:30-13:00,在这些时间段,优先向用户推送这些新闻,其他时间段不向用户推送这些新闻;然后,根据前述计算好的各个新闻池的采样概率对新闻池进行采样,如果某个新闻池被采样到,则将该新闻池中排在第一位的新闻优先推送给用户。
本发明所提供的推荐系统推送了既符合用户兴趣偏好(房价和房地产)的新闻资讯,又向用户推送了各种内容丰富和及时的新闻资讯(如当前的热门事件、最新重要宏观经济数据和突发金融事件等)。
综上,在本发明所提供的金融资讯智能推荐系统中,通过建立符合金融领域特点和投资需求的各种维度的新闻池,实现了向用户推送多维度、多层次和多样性的新闻;本发明通过采样概率的统计学方法,从多个维度(多个新闻池)动态地对新闻进行概率采样,采样概率可以动态的由用户相似度(即用户偏好)、新闻热度以及业务逻辑等因素决定,这样就能够在向用户推送符合用户偏好和兴趣新闻的同时,又能向用户推送准确且及时有用的投资信息和投资机会。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (10)

1.一种金融资讯智能推荐系统,其特征在于,包括:
新闻特征向量计算模块,配置为计算各新闻的特征向量;
用户特征向量计算模块,配置为计算各用户的特征向量;
多维度新闻池创建模块,配置为创建多个维度的新闻池,并对各新闻池中的新闻排序;
新闻推荐模块,配置为计算各新闻池的采样概率,根据所述采样概率对各新闻池进行采样,将采样得到的新闻池中排在第一位的新闻推荐给用户。
2.如权利要求1所述的金融资讯智能推荐系统,其特征在于,计算各新闻的特征向量的方式为:
提取数据库中各新闻内所有的主题词;
计算各主题词的权重和一周期内的动态逆文档频率;
计算各新闻的特征向量V,特征向量V为N维向量,N为数据库中所有主题词总数,特征向量V的一位对应一个主题词,其中,各新闻中任一主题词对应的向量的位值等于该主题词的权重和该主题词一周期内的动态逆文档频率的乘积。
3.如权利要求2所述的金融资讯智能推荐系统,其特征在于,
一周期包括20天、30天或40天;
逆文档频率为Inverse Document Frequency,即idf。
4.如权利要求3所述的金融资讯智能推荐系统,其特征在于,用户特征向量计算模块中,各用户的特征向量的计算方式为:
Figure 642991DEST_PATH_IMAGE002
其中,Vs为各用户的特征向量,Vp为用户历史阅读新闻的特征向量、Vd用户已点击不喜欢的新闻的特征向量,Vt为用户已点击不喜欢的主题词的特征向量,||Vd||2为特征向量Vd的2-范数,Normalize(Vp)和Normalize(Vd)分别为特征向量Vp和Vd归一化后的向量,B和E为计算参数,η为新闻数量惩罚函数。
5.如权利要求4所述的金融资讯智能推荐系统,其特征在于,
Vp、Vd和Vt均为N维特征向量,N为数据库中所有主题词总数,特征向量的一位对应一个主题词;
Vp特征向量的任一位等于用户历史阅读新闻中对应主题词的权重乘以该主题词一周期内的动态逆文档频率;
Vd特征向量的任一位等于用户已点击不喜欢的新闻中对应主题词的权重乘以该主题词一周期内的动态逆文档频率;
Vt特征向量的任一位等于用户已点击不喜欢的主题词的权重乘以该主题词一周期内的动态逆文档频率。
6.如权利要求1所述的金融资讯智能推荐系统,其特征在于,多维度新闻池创建模块中维度类型包括但不限于:宏观、盘前、午评、资金流入流出、投资热点、热点主题新闻、点击榜、自选股、国际时政及财经、基金频道、港股及外围市场。
7.如权利要求6所述的金融资讯智能推荐系统,其特征在于,
热点主题新闻池,先计算热点主题新闻池内各热点主题的热点概率,依据热点概率对所述热点主题新闻池内各热点主题进行采样,将采样得到的热点主题所对应的最新的新闻依次排序;
点击榜新闻池中新闻按照用户的点击量进行排序;
时效性较强的新闻池中新闻按照新闻的发布时间倒序排序,即,发布时间越新的新闻越排在前面,时效性较强的新闻池包括盘前、午评和资金流入流出;
其余新闻池中新闻按照新闻的特征向量和用户的特征向量的相似度排序,依据相似度的高低依次排序。
8.如权利要求7所述的金融资讯智能推荐系统,其特征在于,所述热点主题新闻池内各热点主题的热点概率的计算方式为:
计算各热点主题的热点概率;
对计算得到的热点主题的热点概率进行归一化处理;
其中各热点主题的热点概率的计算方式为:
Figure 684153DEST_PATH_IMAGE004
对热点主题的热点概率进行归一化处理的计算方式为:
Figure 192625DEST_PATH_IMAGE006
其中,K为待采样的热点主题的个数,j表示热度值排第j位的热点主题,
Figure 745835DEST_PATH_IMAGE008
为热点主 题j未归一化的采样概率,power为计算参数,q(j)为热点主题j归一化后的采样概率,hj为 热点主题j的热度值,hK为第K位的热点主题的热度值,即hK为热点主题中最低热度值所对应 热点主题的热度值。
9.如权利要求1所述的金融资讯智能推荐系统,其特征在于,计算各新闻池的采样概率的方式为:
计算待推荐金融资讯用户与各新闻池中排在第一位的新闻的相似概率;
定义附加概率;
根据相似概率和附加概率计算得到各新闻池的采样概率;
根据所述采样概率对各新闻池进行采样;
将采样得到的新闻池中排在第一位的新闻推荐给用户。
10.如权利要求9所述的金融资讯智能推荐系统,其特征在于,
相似概率的计算方式为:
Figure DEST_PATH_IMAGE010
其中,i表示任一新闻池,Padjusti为待推荐金融资讯用户与该新闻池中排在第一位的 新闻的相似概率,simi为待推荐金融资讯用户与该新闻池中排在第一位的新闻的相似度, Pinitiali为预设的该新闻池的初始概率,C和
Figure DEST_PATH_IMAGE012
为计算参数;
附加概率的计算方式为:
Figure DEST_PATH_IMAGE014
其中,i表示任一新闻池,Padditionali为该新闻池归一化后的附加概率,m为当前可采样的新闻池总数;
采样概率的计算方式为:
Figure DEST_PATH_IMAGE016
其中,i表示任一新闻池,Pi为该新闻池的采样概率,Padjusti为待推荐金融资讯用户与该新闻池中排在第一位的新闻的相似概率,Padditionali为该新闻池归一化后的附加概率。
CN202011469913.XA 2020-12-15 2020-12-15 一种金融资讯智能推荐系统 Active CN112231593B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011469913.XA CN112231593B (zh) 2020-12-15 2020-12-15 一种金融资讯智能推荐系统
PCT/CN2021/080155 WO2022126873A1 (zh) 2020-12-15 2021-03-11 一种金融资讯智能推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011469913.XA CN112231593B (zh) 2020-12-15 2020-12-15 一种金融资讯智能推荐系统

Publications (2)

Publication Number Publication Date
CN112231593A true CN112231593A (zh) 2021-01-15
CN112231593B CN112231593B (zh) 2021-03-12

Family

ID=74123585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011469913.XA Active CN112231593B (zh) 2020-12-15 2020-12-15 一种金融资讯智能推荐系统

Country Status (2)

Country Link
CN (1) CN112231593B (zh)
WO (1) WO2022126873A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126873A1 (zh) * 2020-12-15 2022-06-23 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304128B (zh) * 2023-03-01 2023-12-15 微众梦想科技(北京)有限公司 基于大数据的多媒体资讯推荐系统
CN116932920B (zh) * 2023-09-18 2023-12-12 青岛理工大学 基于大数据的健康科普资料精准推荐方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN103744918A (zh) * 2013-12-27 2014-04-23 东软集团股份有限公司 基于垂直领域的微博搜索排序方法及系统
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法
CN107885886A (zh) * 2017-12-07 2018-04-06 百度在线网络技术(北京)有限公司 对信息推荐结果排序的方法、装置及服务器
US20180158164A1 (en) * 2016-12-07 2018-06-07 Tata Consultancy Services Limited System and method for context and sequence aware recommendation
CN108334575A (zh) * 2018-01-23 2018-07-27 北京三快在线科技有限公司 一种推荐结果排序修正方法及装置,电子设备
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN111368203A (zh) * 2020-03-09 2020-07-03 电子科技大学 一种基于图神经网络的新闻推荐方法及其系统
CN111382349A (zh) * 2018-12-29 2020-07-07 广州市百果园网络科技有限公司 信息推荐方法、装置、计算机设备和存储介质
CN111428133A (zh) * 2020-03-19 2020-07-17 腾讯科技(北京)有限公司 基于人工智能的推荐方法、装置、电子设备及存储介质
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234B (zh) * 2012-08-31 2015-04-22 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN104166668B (zh) * 2014-06-09 2018-02-23 南京邮电大学 基于folfm模型的新闻推荐系统及方法
US20160055541A1 (en) * 2014-08-21 2016-02-25 Everyday Health Inc. Personalized recommendation system and methods using automatic identification of user preferences
CN112231593B (zh) * 2020-12-15 2021-03-12 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN103744918A (zh) * 2013-12-27 2014-04-23 东软集团股份有限公司 基于垂直领域的微博搜索排序方法及系统
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置
US20180158164A1 (en) * 2016-12-07 2018-06-07 Tata Consultancy Services Limited System and method for context and sequence aware recommendation
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法
CN107885886A (zh) * 2017-12-07 2018-04-06 百度在线网络技术(北京)有限公司 对信息推荐结果排序的方法、装置及服务器
CN108334575A (zh) * 2018-01-23 2018-07-27 北京三快在线科技有限公司 一种推荐结果排序修正方法及装置,电子设备
CN111382349A (zh) * 2018-12-29 2020-07-07 广州市百果园网络科技有限公司 信息推荐方法、装置、计算机设备和存储介质
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN111368203A (zh) * 2020-03-09 2020-07-03 电子科技大学 一种基于图神经网络的新闻推荐方法及其系统
CN111428133A (zh) * 2020-03-19 2020-07-17 腾讯科技(北京)有限公司 基于人工智能的推荐方法、装置、电子设备及存储介质
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
POOJA AKULWAR等: "Bayesian Probabilistic Matrix Factorization- A dive towards Recommendation", 《2016 INTERNATIONAL CONFERENCE ON INVENTIVE COMPUTATION TECHNOLOGIES (ICICT)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126873A1 (zh) * 2020-12-15 2022-06-23 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统

Also Published As

Publication number Publication date
CN112231593B (zh) 2021-03-12
WO2022126873A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN112231593B (zh) 一种金融资讯智能推荐系统
Chehal et al. Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN108154395A (zh) 一种基于大数据的客户网络行为画像方法
US20170371965A1 (en) Method and system for dynamically personalizing profiles in a social network
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN111061962A (zh) 一种基于用户评分分析的推荐方法
CN107357793A (zh) 信息推荐方法和装置
CN107193883B (zh) 一种数据处理方法和系统
US11682060B2 (en) Methods and apparatuses for providing search results using embedding-based retrieval
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
Barberá et al. Methodological challenges in estimating tone: Application to news coverage of the US economy
Wei et al. Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments
WO2017107010A1 (zh) 基于事件回测的信息分析系统及方法
Duan et al. A hybrid intelligent service recommendation by latent semantics and explicit ratings
Lazarevic et al. Machine learning driven course recommendation system
Rana et al. An introduction to basic concepts on recommender systems
Zafar Ali Khan et al. Hybrid Collaborative Fusion Based Product Recommendation Exploiting Sentiments from Implicit and Explicit Reviews
WO2021060967A1 (en) A system and method for predictive analytics of articles
Ye et al. A collaborative neural model for rating prediction by leveraging user reviews and product images
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Huang Research on recommendation technology based on user portrait
CN117556118B (zh) 基于科研大数据预测的可视化推荐系统及方法
Zhang et al. A deep recommendation framework for completely new users in mashup creation
Rahman et al. A conceptual model for the E-commerce application recommendation framework using exploratory search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant