基于大数据的多媒体资讯推荐系统
技术领域
本发明属于互联网数据信息个性化推荐技术领域,具体是基于大数据的多媒体资讯推荐系统。
背景技术
多媒体(Multimedia),在计算机系统中,组合两种或两种以上媒体的一种人机交互式信息交流和传播媒体。使用的媒体包括文字、图片、照片、声音(包含音乐、语音旁白、特殊音效)、动画和影片,以及程式所提供的互动功能。
专利公开号为CN106407420A的发明公开了一种多媒体资源的推荐方法及系统,该方法包括:建立与多媒体库对应的文本向量矩阵和标签向量矩阵;获得文本向量矩阵的文本约减矩阵以及标签向量矩阵的标签约减矩阵;在确定用户播放的当前多媒体文件后,根据文本约减矩阵和标签约减矩阵,确定当前多媒体文件与所述多媒体库中其他多媒体文件的多媒体相似度;根据多媒体库中多媒体文件对应的多媒体相似度,确定作为待推荐资源推荐给用户的多媒体文件。利用该方法,避免了多媒体资源推荐过程中的冷启动问题,还解决了多媒体资源推荐过程中文本同义词及一词多义对多媒体文件相似度计算的影响,从而提高了多媒体文件的匹配度,进而提高了多媒体资源推荐的准确性。
而在用户对多媒体资讯进行浏览时,在众多的信息中仅仅只由标题来确定是否为用户所感兴趣的内容时,会存在通过标题赚取流量数据,使用户在点进去之后发现并非为自己所感兴趣的内容,但系统会根据用户所点击的内容进行推荐,从而使系统对用户的个性化推荐的可靠性降低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出了基于大数据的多媒体资讯推荐系统,用于解决上述所提出的技术问题。
为实现上述目的,根据本发明的第一方面的实施例提出基于大数据的多媒体资讯推荐系统,包括:
目标信息获取模块,用于获取到目标用户对系统推送资讯的浏览信息,之后目标信息获取模块将所获取的目标用户的浏览信息传输至数据信息推算模块;
资讯内容识别模块,用于对资讯内容进行识别,先将系统推送资讯分为正文内容和互动区,先将正文内容及正文中所带的标签进行关键词提取得到特征主题,然后将互动区中的无效信息进行过滤和折叠从而得到有效信息评论,之后资讯内容识别模块将识别的内容传输至数据信息推算模块;
数据信息推算模块,用于根据用户浏览信息和资讯内容进行过程分析,先对高频用户的浏览信息进行分析处理得到阅读平均速度,然后根据用户的平均阅读速度与阅读预估时长赋予对应的权重,再通过公式对高频用户在互动区中的活跃值进行获取,得到高频用户对资讯特征主题的兴趣值,再通过检测低频用户对资讯在目标时间内的点击值,得到目标点击率,之后数据信息推算模块将所获得的结果传输至智能推荐模块;
智能推荐模块,用于对数据信息推算模块中的过程分析的结果进行目标资讯推荐。
优选的,所述目标用户包括高频用户和低频用户,所述高频用户指在本平台中浏览累积时间超过预设值X1的用户,低频用户包括首次登录本平台的用户和在本平台中浏览总时长小于预设值X1的用户。
优选的,所述资讯内容识别模块具体的识别方式为:
步骤一:将系统推送资讯分为正文内容和互动区,之后数据信息推送模块先识别正文内容中的基础信息,所述基础信息指资讯主题、文章长度和正文中所带的标签,将资讯主题与正文所带的标签进行关键词提取,得到本篇资讯的特征主题;
步骤二:对系统推送资讯中的互动区中的无效信息进行过滤和识别,同时对互动信息中无意义评论进行自动折叠;
之后对互动区中文字的重合度进行运算得到互动区内容的相似值Sp;
当存在任意N条评论的相似值Sp超过预设值Sy时,预设值Sy具体的值由相关人员经验设定,此时代表互动区存在若干个相似评论,将相关的互动内容标记为无效信息并进行信息折叠和忽略,此时折叠后所剩下的互动信息即为有效互动信息。
优选的,所述数据信息推算模块中对高频用户进行过程分析的方式为:
S1:先对高频用户的浏览信息进行处理,提取在周期时间T内高频用户对系统推荐资讯中的所浏览的正文基础信息和浏览时长,周期时间T具体设置为一周,将基础信息中的文章长度标记为Wi,对正文内容的浏览时长标记为Tzi,其中i表示系统所推荐的资讯中不同的特征主题;
S2:对文章长度Wi和正文内容浏览时长Tzi分别进行累积之后再采取均值处理,获取到高频用户在单位时间内的阅读平均速度Ta;
S3:由高频用户点开的系统推荐资讯中的正文内容的长度Wi,采用公式Ty=Wi×Ta获得高频用户对本篇资讯正文的阅读预估时长Ty;
将预估时长Ty小于阅读平均速度Ta的资讯赋予权重为a1,将预估时长Ty大于等于阅读平均速度Ta的资讯赋予权重为a2,其中a1小于a2;
S4:同时提取到高频用户对系统推荐资讯i的互动信息中的翻阅时长Tpi和在系统推荐资讯i的互动区中的互动频率fi,再将系统推荐资讯中有效互动信息进行量化并标记为Pi;
S5:通过
得到对高频用户在互动区的活跃值Hi,k表示互动频率的权重,具体k值根据实际情况设定;
S6:将高频用户对正文内容和互动信息的活跃值采取公式Qi=Hi×A得到资讯i对高频用户的对本条资讯特征主题的兴趣值Qi,其中A表示a1或a2,具体为阅读预估时长与阅读平均速度所对应的权重。
优选的,所述数据信息推算模块中对低频用户进行过程分析的方式为:
先根据低频用户的登录信息对低频用户进行热点资讯推荐,然后对获取低频用户在目标时间内对热点资讯的点击值,所述目标时间设置具体设置为5min,将点击值标记为D,且用户进入热点资讯后浏览时长超过预设值X1时,目标时间停止计时,此时开始对浏览时长进行计时;
之后将低频用户对浏览时长超过预设值X1的点击次数标记为潜在兴趣点击值Dq,将潜在兴趣点击值Dq除以目标时间内的点击次数D得到推荐资讯的目标点击率Dm;
之后获取到每个目标时间的目标点击率Dm,将相邻时间段的目标点击率Dm进行相减,得到目标点击率的变化值,将变化值为正值的数值标记为正增长,将变化值为负值的数值标记为负增长。
优选的,所述智能推荐模块的推荐方式为:
提取目标用户的兴趣值或目标点击率的变化值,先对高频用户的兴趣值进行处理,将高频用户的兴趣值与资讯的特征主题进行结合,从而对高频用户进行资讯推荐,之后对低频用户的目标点击率的变化值进行分析,当变化值出现负增长时,根据低频用户的对热点资讯的浏览时长及热点资讯的特征主题进行结合,及时更换对低频用户的热点资讯所推荐的特征主题。
与现有技术相比,本发明的有益效果是:资讯内容识别模块将所推荐的内容分为正文内容和评论内容,先对正文内容进行基础信息识别,再对评论内容中的无效信息进行处理折叠,之后将剩下的互动信息标记为有效互动信息,数据信息推算模块通过对高频用户的对正文内容的阅读平均速度进行获取,然后根据用户的平均阅读速度与阅读预估时长赋予对应的权重,再通过公式对高频用户在互动区的活跃值进行获取,得到高频用户对资讯特征主题的兴趣值,再通过检测低频用户对资讯在目标时间内的点击值,得到目标点击率,通过对目标点击率的变化值进行观察,使智能推荐模块对目标用户进行资讯推荐,提高了系统对用户推荐的精确度。
附图说明
图1为本发明系统框架原理图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本申请提供了基于大数据的多媒体资讯推荐系统,包括目标信息获取模块、资讯内容识别模块、数据信息推算模块、智能推荐模块;
所述目标信息获取模块用于获取到目标用户对系统推送资讯的浏览信息,所述目标用户指使用本平台的用户,具体的目标用户包括高频用户和低频用户,所述高频用户指用户对本平台中使用频率较高,即高频用户指在本平台中浏览累积时间超过预设值X1的用户,低频用户包括首次登录本平台的用户和在本平台中浏览总时长小于预设值X1的用户,所述浏览信息主要包括目标用户对资讯的浏览时间和浏览频率;
目标信息获取模块将所获取的用户的浏览信息上传至数据信息推算模块;
所述资讯内容识别模块用于对资讯内容进行识别,具体的识别方式为:
步骤一:将系统推送资讯分为正文内容和互动区,之后数据信息推送模块先识别正文内容中的基础信息,所述基础信息指资讯主题、文章长度和正文中所带的标签,将资讯主题与正文所带的标签进行关键词提取,得到本篇资讯的特征主题;
步骤二:对系统推送资讯中的互动区中的无效信息进行过滤,即对评论内容进行识别,将互动信息中无意义评论进行自动折叠,所述无意义评论指无实义词语在一条互动信息中占比为80%以上,所述无实义词语具体包括有感叹词语、表情和符号,具体的无实义词语通过相关人员在系统内进行预先设置;
同时对评论内容中文字的重合度进行运算得到评论内容相似值Sp;
当存在任意N条评论的相似值Sp超过预设值Sy时,预设值Sy具体的值由相关人员经验设定,此时代表互动区存在存在若干个相似评论,将相关的评论内容标记为无效信息并进行信息折叠和忽略,此时折叠后所剩下的互动信息为有效互动信息;
之后资讯内容识别模块将基础信息和有效互动信息上传至数据信息推算模块;
所述数据信息推算模块用于根据目标信息获取模块和资讯内容识别模块所传输的用户浏览信息和资讯内容,对用户的浏览信息进行过程分析,从而对用户的喜好的资讯进行个性化推荐,具体的过程分析方式为:
S1:先对高频用户的浏览信息进行处理,提取在周期时间T内高频用户对系统推荐资讯中的所浏览的正文基础信息和浏览时长,周期时间T具体设置为一周,将基础信息中的文章长度标记为Wi,对正文内容的浏览时长标记为Tzi,其中i表示系统所推荐的资讯中不同的特征主题;
S2:对文章长度Wi和正文内容浏览时长Tzi分别进行累积之后再采取均值处理,获取到高频用户在单位时间内的阅读平均速度Ta;
S3:由高频用户点开的系统推荐资讯中的正文内容的长度Wi,采用公式Ty=Wi×Ta获得高频用户对本篇资讯正文的阅读预估时长Ty;
将预估时长Ty小于阅读平均速度Ta的资讯赋予权重为a1,将预估时长Ty大于等于阅读平均速度Ta的资讯赋予权重为a2,其中a1小于a2;
S4:同时提取到高频用户对系统推荐资讯i的互动信息中的翻阅时长Tpi和在系统推荐资讯i的互动区中的互动频率fi,再将系统推荐资讯中有效互动信息进行量化并标记为Pi;
S5:通过
得到对高频用户在互动区的活跃值Hi,k表示互动频率的权重,具体k值根据实际情况设定;
S6:将高频用户对正文内容和互动信息的活跃值采取公式Qi=Hi×A得到资讯i对高频用户的对本条资讯特征主题的兴趣值Qi,其中A表示a1或a2,具体为阅读预估时长与阅读平均速度所对应的权重;
S7:再通过对低频用户的登录信息进行处理,得到低频用户的对推荐资讯的浏览率,对低频用户的浏览信息处理的具体过程包括:
先根据低频用户的登录信息对低频用户进行热点资讯推荐,所述登录信息包括年龄、性别或职业信息等;
然后对获取低频用户在目标时间内对热点资讯的点击值,所述目标时间设置具体设置为5min,此处对热点资讯的点击率指低频用户的在目标时间内,对所推荐的热点资讯的点击次数,将点击值标记为D,且用户进入热点资讯后浏览时长超过预设值X1时,目标时间停止计时,预设值X1根据具体情况设定,此时开始对浏览时长进行计时;
之后将低频用户对浏览时长超过预设值X1的点击次数标记为潜在兴趣点击值Dq,将潜在兴趣点击值Dq除以目标时间内的点击次数D得到推荐资讯的目标点击率Dm;
之后获取到每个目标时间的目标点击率Dm,将相邻时间段的目标点击率Dm进行相减,得到目标点击率的变化值,将变化值为正值的数值标记为正增长,将变化值为负值的数值标记为负增长;
数据信息推算模块将过程分析的结果传输至智能推荐模块,智能推荐模块对数据信息推算模块中的过程分析的结果进行目标资讯推荐,智能推荐模块对目标资讯推荐的具体过程为:
提取目标用户的兴趣值或目标点击率的变化值,先对高频用户的兴趣值进行处理,将高频用户的兴趣值与资讯的特征主题进行结合,从而对高频用户进行资讯推荐,之后对低频用户的目标点击率的变化值进行分析,当变化值出现负增长时,根据低频用户的对热点资讯的浏览时长及热点资讯的特征主题进行结合,从而及时更换对低频用户的热点资讯所推荐的特征主题。
上述公式中的部分数据均是去除量纲取其数值计算,公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式;公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。
本发明的工作原理:先通过目标信息获取模块将目标用户分为高频用户和低频用户,然后资讯内容识别模块将所推荐的内容分为正文内容和评论内容,先对正文内容进行基础信息识别,再对评论内容中的无效信息进行处理折叠,之后将剩下的互动信息标记为有效互动信息,数据信息推算模块通过对高频用户的对正文内容的阅读平均速度进行获取,然后根据用户的平均阅读速度与阅读预估时长赋予对应的权重,再通过公式对高频用户在互动区的活跃值进行获取,得到高频用户对资讯特征主题的兴趣值,再通过检测低频用户对资讯在目标时间内的点击值,得到目标点击率,通过对目标点击率的变化值进行观察,使智能推荐模块对目标用户进行资讯推荐。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。