CN112417302B - 一种基于大数据的资讯内容智能分析推荐处理系统 - Google Patents
一种基于大数据的资讯内容智能分析推荐处理系统 Download PDFInfo
- Publication number
- CN112417302B CN112417302B CN202011444241.7A CN202011444241A CN112417302B CN 112417302 B CN112417302 B CN 112417302B CN 202011444241 A CN202011444241 A CN 202011444241A CN 112417302 B CN112417302 B CN 112417302B
- Authority
- CN
- China
- Prior art keywords
- information
- browsing
- preference
- level
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于大数据的资讯内容智能分析推荐处理系统,包括资讯采集模块、资讯初步处理模块、资讯分类存储模块、资讯类别数据库、资讯存储数据库、用户信息获取模块,用户浏览偏好分析模块、分析服务器和智能推荐终端,本发明通过在各新闻资讯网站采集各条资讯,对采集的资讯进行处理和分类存储,并获取用户注册基本信息及历史浏览记录,进而获取预测偏好资讯类别和浏览偏好资讯类别,并根据以上分析用户偏好资讯类别,最后通过智能推荐终端将分析的用户偏好资讯类别下的资讯内容推送给用户,实现了对资讯的智能推荐,使得推荐的资讯内容与用户偏好匹配度高,节约了用户寻找自身偏好资讯的时间,增强了用户使用体验感。
Description
技术领域
本发明属于资讯推荐处理技术领域,具体涉及一种基于大数据的资讯内容智能分析推荐处理系统。
背景技术
随着互联网的高速发展,网络新闻资讯已经成为人们获取资讯的重要途径。传统的新闻门户网站虽然拥有海量信息,却只是扮演信息集合的角色。用户只能被动式地浏览网站提供的资讯,不得不花费大量时间在海量新闻资讯中查找自己关心的新闻资讯。如何为每个用户提供快捷准确、满足个人偏好的资讯,已成为众多业内人士日益关注的问题,鉴于此,本发明设计一种基于大数据的资讯内容智能分析推荐处理系统。
发明内容
本发明的目的在于提出一种基于大数据的资讯内容智能分析推荐处理系统,通过在各新闻资讯网站采集各条资讯,对采集的资讯进行处理和分类存储,并获取用户注册基本信息及历史浏览记录,进而获取预测偏好资讯类别和浏览偏好资讯类别,结合分析服务器根据以上分析用户偏好资讯类别,最后通过智能推荐终端将分析得出的用户偏好资讯类别下的资讯内容推送给用户,解决了背景技术提到的问题。
本发明的目的可以通过以下技术方案实现:
一种基于大数据的资讯内容智能分析推荐处理系统,其特征在于:包括资讯采集模块、资讯初步处理模块、资讯分类存储模块、资讯类别数据库、资讯存储数据库、用户信息获取模块,用户浏览偏好分析模块、分析服务器和智能推荐终端;
所述资讯采集模块用于通过网络爬虫系统从各新闻资讯网站上爬取各条资讯,并将爬取的各条资讯发送至资讯初步处理模块;
所述资讯初步处理模块用于对爬取的各条资讯的内容进行断句和分词处理,得到分词后的各个词组,并根据得到的各条资讯对应的分词词组提取资讯关键词,同时将提取的每条资讯对应的资讯关键词发送至资讯分类存储模块;
所述资讯分类存储模块接收资讯初步处理模块发送的每条资讯对应的资讯关键词,并提取资讯类别数据库中各种资讯类别对应的资讯关键词,同时将每条资讯对应的资讯关键词与各种资讯类别对应的资讯关键词进行逐一对比,筛选每条资讯对应的资讯类别,并根据筛选的资讯类别,获取同一资讯类别下的各条资讯,以此得到各资讯类别下的各条资讯,并获取各条资讯对应的发布时间,进而分类存储在资讯存储数据库中;
所述用户信息获取模块用于根据用户在新闻资讯平台的登录账号,获取用户注册基本信息和历史浏览记录,其中用户注册基本信息包括年龄和性别,并将获取的用户注册基本信息发送至分析服务器,将用户历史浏览记录发送至用户浏览偏好分析模块;
所述用户浏览偏好分析模块根据接收的用户在新闻资讯平台的历史浏览记录分析用户浏览偏好资讯类别,其中用户浏览偏好分析模块包括历史浏览资讯筛选模块、资讯特征参数统计模块和浏览偏好资讯类别分析模块;
所述历史浏览资讯筛选模块用于根据预设的浏览时间段,从接收的历史浏览记录中筛选预设浏览时间段内的各条历史浏览资讯,并对筛选的各条历史浏览资讯根据浏览完成时间点的先后顺序,对各条历史浏览资讯进行编号,依次标记为1,2,...i,...,n;
所述资讯特征参数统计模块根据标记的各条历史浏览资讯统计浏览时长,并对标记的各条历史浏览资讯内容进行断句、分词和提取资讯关键词处理,得到各条历史浏览资讯对应的资讯类别,资讯特征参数统计模块将得到的各条历史浏览资讯对应的浏览时长和资讯类别构建资讯特征参数集合Xw (xw1,xw2,...,xwi,...xwn),xwi表示为第i条历史浏览资讯的资讯特征参数对应的信息,w表示为资讯特征参数,w=wt,wc,wt、wc分别表示为浏览时长和资讯类别;
所述浏览偏好资讯类别分析模块用于根据资讯特征参数统计模块构建的资讯特征参数集合分析用户浏览偏好资讯类别,其具体分析过程包括以下步骤:
S1:提取资讯特征参数集合中每条历史浏览资讯对应的资讯类别,对相同资讯类别下的历史浏览资讯进行统计,并对相同资讯类别个数进行统计,且每个相同资讯类别记为浏览候选偏好资讯类别,统计各浏览候选偏好资讯类别对应的历史浏览资讯总条数及每条历史浏览资讯的编号;
S2:将统计的各浏览候选偏好资讯类别下的每条历史浏览资讯的编号与资讯特征参数集合中每条历史浏览资讯对应的浏览时长进行匹配,获取各浏览候选偏好资讯类别下的每条历史浏览资讯对应的浏览时长,并将各浏览候选偏好资讯类别下的每条历史浏览资讯对应的浏览时长进行累加,得到各浏览候选偏好资讯类别对应的浏览总时长;
S3:将S1统计的各浏览候选偏好资讯类别对应的历史浏览资讯总条数和S2 得到的各浏览候选偏好资讯类别对应的浏览总时长,构建浏览候选偏好资讯类别偏好参数集合Cs(cs1,cs2,...,csj,...csm),csj表示为第j个浏览候选偏好资讯类别对应的偏好参数,s表示为偏好参数,s=sk,st,sk、st分别表示为历史浏览资讯总条数,浏览总时长;
S4:根据S3构建的浏览候选偏好资讯类别偏好参数集合统计各浏览候选偏好资讯类别对应的浏览偏好值,并发送至分析服务器;
所述分析服务器接收用户信息获取模块发送的用户注册基本信息,根据接收的用户注册基本信息预测偏好资讯类别,并获取预测偏好资讯类别对应的预测偏好值,同时分析服务器接收用户浏览偏好分析模块发送的各浏览候选偏好资讯类别对应的浏览偏好值,并将预测偏好资讯类别与各浏览候选偏好资讯类别进行匹配,若预测偏好资讯类别与各浏览候选偏好资讯类别中某个浏览候选偏好资讯类别相同,则匹配成功,表明预测偏好资讯类别与浏览偏好资讯类别相关,此时将该预测偏好资讯类别对应的预测偏好值与其匹配成功的浏览候选偏好资讯类别对应的浏览偏好值进行叠加,得到该浏览候选偏好资讯类别对应的综合偏好值,同时将该浏览候选偏好资讯类别对应的综合偏好值与其他浏览候选偏好资讯类别对应的浏览偏好值按照从大到小进行排序,取排在前三位的浏览候选偏好资讯类别,其中排在第一位的浏览候选偏好资讯类别记为一级偏好资讯类别,排在第二位的记为二级偏好资讯类别,排在第三位的记为三级偏好资讯类别,并统计一级、二级和三级偏好资讯类别对应的偏好系数,分析服务器将获得的一级、二级和三级偏好资讯类别及对应的偏好系数发送至智能推荐终端,若预测偏好资讯类别与各浏览候选偏好资讯类别中所有浏览候选偏好资讯类别均不相同,则匹配失败,表明预测偏好资讯类别与浏览偏好资讯类别不相关,此时将各浏览候选偏好资讯类别对应的浏览偏好值按照从大到小进行排序,取排在前三位的浏览候选偏好资讯类别,其中排在第一位的浏览候选偏好资讯类别记为一级偏好资讯类别,排在第二位的记为二级偏好资讯类别,排在第三位的记为三级偏好资讯类别,并统计一级、二级和三级偏好资讯类别对应的偏好系数,分析服务器将获得的一级、二级和三级偏好资讯类别及对应的偏好系数发送至智能推荐终端;
所述智能推荐终端接收分析服务器发送的一级、二级和三级偏好资讯类别,从资讯存储数据库存储的各种资讯类别下的各条资讯中筛选一级、二级和三级偏好资讯类别对应的资讯类别下的各条资讯,并根据接收的一级、二级和三级偏好资讯类别对应的偏好系数,按照预设的每天资讯推荐总条数,计算一级、二级和三级偏好资讯类别对应的资讯推荐条数,且根据计算的结果从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯,使得挑选的有效资讯条数符合其对应的资讯推荐条数,进而智能推荐终端将挑选的有效资讯推送给用户。
根据本发明的一种能够实现的方式,所述历史浏览资讯筛选模块中筛选预设浏览时间段内的各条历史浏览资讯的具体方法包括以下步骤:
H1:根据预设的浏览时间段及筛选开始时间点,得到筛选的截止时间点;
H2:根据接收的用户所有历史浏览记录,从中提取用户每条历史浏览记录对应的浏览完成时间点;
H3:将提取的用户每条历史浏览记录对应的浏览完成时间点与筛选开始时间点和截止时间点进行匹配,判断用户每条历史浏览记录对应的浏览完成时间点是否在筛选的开始和截止时间点内,若在,则保留用户该条历史浏览记录,若不在,则去除用户该条历史浏览记录,直至该用户登录账号内的所有历史浏览记录全部被匹配完成;
H4:从保留的用户各条历史浏览记录中提取对应各条历史浏览记录的历史浏览资讯,得到预设浏览时间段内的各条历史浏览资讯。
根据本发明的一种能够实现的方式,所述资讯特征参数统计模块根据标记的各条历史浏览资讯统计浏览时长的方法具体为从标记的各条历史浏览资讯对应的浏览记录中提取浏览开始时间点和结束时间点,将浏览结束时间点减去浏览开始时间点即可获取各条历史浏览资讯对应的浏览时长。
根据本发明的一种能够实现的方式,所述各浏览候选偏好资讯类别对应的浏览偏好值的计算公式为Qj表示为第j种浏览候选偏好资讯类别对应的浏览偏好值,cstj表示为第j种浏览候选偏好资讯类别对应的浏览总时长,cskj表示为第j种浏览候选偏好资讯类别对应的历史浏览资讯总条数,t0、 k0分别表示为预设的时长和资讯条数值。
根据本发明的一种能够实现的方式,所述分析服务器根据用户注册基本信息进行预测偏好资讯类别及获取预测偏好资讯类别对应预测偏好值的过程如下:
W1:从用户注册基本信息中提取用户性别,并将提取的用户性别与预先设置的预测偏好资讯类别库中存储的男性偏好各资讯类别和女性偏好各资讯类别进行对比,筛选出该用户性别对应的各偏好资讯类别;
W2:从用户注册基本信息中提取用户年龄,并按照预设的年龄段划分方式,获取该用户年龄对应的年龄段,同时根据预设的该用户性别对应的各偏好资讯类别中各年龄段的偏好占比,将该用户年龄对应的年龄段与该用户性别对应的各偏好资讯类别中各年龄段的偏好占比进行对比,筛选该用户年龄段在该用户性别对应的各偏好资讯类别中的偏好占比;
W3:将筛选得到的该用户年龄段在该用户性别对应的各偏好资讯类别中的偏好占比进行相关对比,筛选偏好占比最大的偏好资讯类别,作为预测偏好资讯类别,并将该最大偏好占比数作为预测偏好资讯类别对应的预测偏好值。
根据本发明的一种能够实现的方式,所述一级、二级和三级偏好资讯类别对应的偏好系数计算公式为 表示为一级、二级、三级偏好资讯类别对应的偏好系数,Qε表示为一级、二级、三级偏好资讯类别对应的浏览偏好值,ε=Ⅰ、Ⅱ、Ⅲ,Ⅰ、Ⅱ、Ⅲ分别表示为一级、二级、三级。
根据本发明的一种能够实现的方式,所述智能推荐终端从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯的方法为设置有效时间段,并获取一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯的发布时间,同时查看各条资讯的发布时间是否在设置的有效时间段内,若在设置的有效时间段内,则将挑选该条资讯,若不在设置的有效时间段内,则放弃该条资讯。
本发明的有益效果如下:
1.本发明通过资讯采集模块采集各新闻资讯网站的资讯,对采集的资讯进行处理和分类存储,并根据用户在新闻资讯平台的登录账号获取用户注册基本信息及历史浏览记录,进而获取预测偏好资讯类别和浏览偏好资讯类别,结合分析服务器根据以上分析用户偏好资讯类别,最后通过智能推荐终端将分析得出的用户偏好资讯类别下的资讯内容推送给用户,实现了对资讯的智能推荐,使得给用户推荐的资讯内容与用户偏好匹配度高,并节约了用户寻找自身偏好新闻资讯的时间,增强了用户使用体验感。
2.本发明通过结合用户注册基本信息获取的预测偏好资讯类别和用户历史浏览记录获取的浏览偏好资讯类别进行统一分析,使得分析得到的用户偏好资讯类别能够综合反映该用户对资讯类别的偏好,并将分析得到的用户偏好资讯类别进行偏好等级分级,筛选一级、二级、三级用户偏好资讯类别,避免了只推荐一级偏好资讯类别带来的推荐片面性,体现了推荐内容的全面性。
3.本发明通过从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯,保障了用户接收资讯的时效性,避免推荐的无效资讯对用户的干扰。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的结构框图;
图2为本发明的用户浏览偏好分析模块结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种基于大数据的资讯内容智能分析推荐处理系统,包括资讯采集模块、资讯初步处理模块、资讯分类存储模块、资讯类别数据库、资讯存储数据库、用户信息获取模块,用户浏览偏好分析模块、分析服务器和智能推荐终端。
资讯采集模块用于通过网络爬虫系统从各新闻资讯网站上爬取各条资讯,并将爬取的各条资讯发送至资讯初步处理模块。
资讯初步处理模块用于对爬取的各条资讯的内容进行断句和分词处理,得到分词后的各个词组,并根据得到的各条资讯对应的分词词组提取资讯关键词,同时将提取的每条资讯对应的资讯关键词发送至资讯分类存储模块。
资讯分类存储模块接收资讯初步处理模块发送的每条资讯对应的资讯关键词,并提取资讯类别数据库中各种资讯类别对应的资讯关键词,同时将每条资讯对应的资讯关键词与各种资讯类别对应的资讯关键词进行逐一对比,筛选每条资讯对应的资讯类别,并根据筛选的资讯类别,获取同一资讯类别下的各条资讯,以此得到各资讯类别下的各条资讯,并获取各条资讯对应的发布时间,进而分类存储在资讯存储数据库中。
资讯类别数据库用于存储各种资讯类别对应的资讯关键词。
资讯存储数据库用于存储各资讯类别下的各条资讯及各条资讯的发布时间。
本实施例中通过对分类后各种资讯类别下的各条资讯获取其发布时间,为后面智能推荐终端挑选有效资讯提供参考依据。
用户信息获取模块用于根据用户在新闻资讯平台的登录账号,获取用户注册基本信息和历史浏览记录,其中用户注册基本信息包括年龄和性别,并将获取的用户注册基本信息发送至分析服务器,将用户历史浏览记录发送至用户浏览偏好分析模块。
用户浏览偏好分析模块用于根据用户在新闻资讯平台的近期历史浏览记录分析用户浏览偏好资讯类别,其中用户浏览偏好分析模块包括历史浏览资讯筛选模块、资讯特征参数统计模块和浏览偏好资讯类别分析模块;
历史浏览资讯筛选模块用于根据预设的浏览时间段,从接收的用户历史浏览记录中筛选预设浏览时间段内的各条历史浏览资讯,其具体筛选方法包括以下步骤:
H1:根据预设的浏览时间段及筛选开始时间点,得到筛选的截止时间点;
H2:根据接收的用户所有历史浏览记录,从中提取用户每条历史浏览记录对应的浏览完成时间点;
H3:将提取的用户每条历史浏览记录对应的浏览完成时间点与筛选开始时间点和截止时间点进行匹配,判断用户每条历史浏览记录对应的浏览完成时间点是否在筛选的开始和截止时间点内,若在,则保留用户该条历史浏览记录,若不在,则去除用户该条历史浏览记录,直至该用户登录账号内的所有历史浏览记录全部被匹配完成;
H4:从保留的用户各条历史浏览记录中提取对应各条历史浏览记录的历史浏览资讯,得到预设浏览时间段内的各条历史浏览资讯,并对筛选的各条历史浏览资讯根据浏览完成时间点的先后顺序,对各条历史浏览资讯进行编号,依次标记为1,2,...i,...,n。
本实施例通过从用户所有历史浏览记录中筛选预设浏览时间段内的历史浏览资讯,避免筛选出过早的历史浏览资讯影响对用户浏览偏好资讯类别的判断。
资讯特征参数统计模块根据标记的各条历史浏览资讯统计浏览时长,其统计浏览时长的方法具体为从标记的各条历史浏览资讯对应的浏览记录中提取浏览开始时间点和结束时间点,将浏览结束时间点减去浏览开始时间点即可获取各条历史浏览资讯对应的浏览时长,并对标记的各条历史浏览资讯内容进行断句、分词和提取资讯关键词处理,得到各条历史浏览资讯对应的资讯类别,资讯特征参数统计模块将得到的各条历史浏览资讯对应的浏览时长和资讯类别构建资讯特征参数集合Xw(xw1,xw2,...,xwi,...xwn),xwi表示为第i条历史浏览资讯的资讯特征参数对应的信息,w表示为资讯特征参数,w=wt,wc,wt、wc分别表示为浏览时长和资讯类别。
浏览偏好资讯类别分析模块用于根据资讯特征参数统计模块构建的资讯特征参数集合分析用户浏览偏好资讯类别,其具体分析过程包括以下步骤:
S1:提取资讯特征参数集合中每条历史浏览资讯对应的资讯类别,对相同资讯类别下的历史浏览资讯进行统计,并对相同资讯类别个数进行统计,且每个相同资讯类别记为浏览候选偏好资讯类别,统计各浏览候选偏好资讯类别对应的历史浏览资讯总条数及每条历史浏览资讯的编号;
S2:将统计的各浏览候选偏好资讯类别下的每条历史浏览资讯的编号与资讯特征参数集合中每条历史浏览资讯对应的浏览时长进行匹配,获取各浏览候选偏好资讯类别下的每条历史浏览资讯对应的浏览时长,并将各浏览候选偏好资讯类别下的每条历史浏览资讯对应的浏览时长进行累加,得到各浏览候选偏好资讯类别对应的浏览总时长;
S3:将S1统计的各浏览候选偏好资讯类别对应的历史浏览资讯总条数和S2 得到的各浏览候选偏好资讯类别对应的浏览总时长,构建浏览候选偏好资讯类别偏好参数集合Cs(cs1,cs2,...,csj,...csm),csj表示为第j个浏览候选偏好资讯类别对应的偏好参数,s表示为偏好参数,s=sk,st,sk、st分别表示为历史浏览资讯总条数,浏览总时长;
S4:根据S3构建的浏览候选偏好资讯类别偏好参数集合统计各浏览候选偏好资讯类别对应的浏览偏好值Qj表示为第j种浏览候选偏好资讯类别对应的浏览偏好值,cstj表示为第j种浏览候选偏好资讯类别对应的浏览总时长,cskj表示为第j种浏览候选偏好资讯类别对应的历史浏览资讯总条数, t0、k0分别表示为预设的时长和资讯条数值,浏览偏好资讯类别分析模块将统计的各浏览候选偏好资讯类别对应的浏览偏好值发送至分析服务器。
本实施例获取的各浏览候选偏好资讯类别对应的浏览偏好值为后期进行浏览候选偏好资讯类别偏好分级提供参考依据。
所述分析服务器接收用户信息获取模块发送的用户注册基本信息,根据接收的用户注册基本信息预测偏好资讯类别,并获取预测偏好资讯类别对应的预测偏好值,其进行预测偏好资讯类别及获取预测偏好资讯类别对应预测偏好值的过程如下:
W1:从用户注册基本信息中提取用户性别,并将提取的用户性别与预先设置的预测偏好资讯类别库中存储的男性偏好各资讯类别和女性偏好各资讯类别进行对比,筛选出该用户性别对应的各偏好资讯类别;
W2:从用户注册基本信息中提取用户年龄,并按照预设的年龄段划分方式,获取该用户年龄对应的年龄段,同时根据预设的该用户性别对应的各偏好资讯类别中各年龄段的偏好占比,将该用户年龄对应的年龄段与该用户性别对应的各偏好资讯类别中各年龄段的偏好占比进行对比,筛选该用户年龄段在该用户性别对应的各偏好资讯类别中的偏好占比;
W3:将筛选得到的该用户年龄段在该用户性别对应的各偏好资讯类别中的偏好占比进行相关对比,筛选偏好占比最大的偏好资讯类别,作为预测偏好资讯类别,并将该最大偏好占比数作为预测偏好资讯类别对应的预测偏好值。
同时分析服务器接收用户浏览偏好分析模块发送的各浏览候选偏好资讯类别对应的浏览偏好值,并将预测偏好资讯类别与各浏览候选偏好资讯类别进行匹配,若预测偏好资讯类别与各浏览候选偏好资讯类别中某个浏览候选偏好资讯类别相同,则匹配成功,表明预测偏好资讯类别与浏览偏好资讯类别相关,此时将该预测偏好资讯类别对应的预测偏好值与其匹配成功的浏览候选偏好资讯类别对应的浏览偏好值进行叠加,得到该浏览候选偏好资讯类别对应的综合偏好值,同时将该浏览候选偏好资讯类别对应的综合偏好值与其他浏览候选偏好资讯类别对应的浏览偏好值按照从大到小进行排序,取排在前三位的浏览候选偏好资讯类别,其中排在第一位的浏览候选偏好资讯类别记为一级偏好资讯类别,排在第二位的记为二级偏好资讯类别,排在第三位的记为三级偏好资讯类别,并统计一级、二级和三级偏好资讯类别对应的偏好系数,分析服务器将获得的一级、二级和三级偏好资讯类别及对应的偏好系数发送至智能推荐终端,若预测偏好资讯类别与各浏览候选偏好资讯类别中所有浏览候选偏好资讯类别均不相同,则匹配失败,表明预测偏好资讯类别与浏览偏好资讯类别不相关,此时将各浏览候选偏好资讯类别对应的浏览偏好值按照从大到小进行排序,取排在前三位的浏览候选偏好资讯类别,其中排在第一位的浏览候选偏好资讯类别记为一级偏好资讯类别,排在第二位的记为二级偏好资讯类别,排在第三位的记为三级偏好资讯类别,并统计一级、二级和三级偏好资讯类别对应的偏好系数,分析服务器将获得的一级、二级和三级偏好资讯类别及对应的偏好系数发送至智能推荐终端,其中一级、二级和三级偏好资讯类别对应的偏好系数的计算公式为 表示为一级、二级、三级偏好资讯类别对应的偏好系数,Qε表示为一级、二级、三级偏好资讯类别对应的浏览偏好值,ε=Ⅰ、Ⅱ、Ⅲ,Ⅰ、Ⅱ、Ⅲ分别表示为一级、二级、三级。
本实施例通过结合用户注册基本信息获取的预测偏好资讯类别和用户历史浏览记录获取的浏览偏好资讯类别进行统一分析,使得分析得到的用户偏好资讯类别能够综合反映该用户对资讯类别的偏好,并将分析得到的用户偏好资讯类别进行偏好等级分级,筛选一级、二级、三级用户偏好资讯类别,避免了只推荐一级偏好资讯类别带来的推荐片面性,体现了推荐内容的全面性。
智能推荐终端接收分析服务器发送的一级、二级和三级偏好资讯类别,从资讯存储数据库存储的各种资讯类别下的各条资讯中筛选一级、二级和三级偏好资讯类别对应的资讯类别下的各条资讯,并根据接收的一级、二级和三级偏好资讯类别对应的偏好系数,按照预设的每天资讯推荐总条数,计算一级、二级和三级偏好资讯类别对应的资讯推荐条数Fε表示为一级、二级、三级偏好资讯类别对应的资讯推荐条数,F0表示为预设的每天资讯推荐总条数,且根据计算的结果从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯,其挑选有效资讯的方法为设置有效时间段,并获取一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯的发布时间,同时查看各条资讯的发布时间是否在设置的有效时间段内,若在设置的有效时间段内,则将挑选该条资讯,若不在设置的有效时间段内,则放弃该条资讯,并使得挑选的有效资讯条数符合其对应的资讯推荐条数,进而智能推荐终端将挑选的有效资讯推送给用户,使得给用户推荐的资讯内容与用户偏好匹配度高,并节约了用户寻找自身偏好新闻资讯的时间,增强了用户使用体验感。
本实施例通过从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯,保障了用户接收资讯的时效性,避免推荐的无效资讯对用户的干扰。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (8)
1.一种基于大数据的资讯内容智能分析推荐处理系统,其特征在于:包括资讯采集模块、资讯初步处理模块、资讯分类存储模块、资讯类别数据库、资讯存储数据库、用户信息获取模块,用户浏览偏好分析模块、分析服务器和智能推荐终端;
所述资讯采集模块用于通过网络爬虫系统从各新闻资讯网站上爬取各条资讯,并将爬取的各条资讯发送至资讯初步处理模块;
所述资讯初步处理模块用于对爬取的各条资讯的内容进行断句和分词处理,得到分词后的各个词组,并根据得到的各条资讯对应的分词词组提取资讯关键词,同时将提取的每条资讯对应的资讯关键词发送至资讯分类存储模块;
所述资讯分类存储模块接收资讯初步处理模块发送的每条资讯对应的资讯关键词,并提取资讯类别数据库中各种资讯类别对应的资讯关键词,同时将每条资讯对应的资讯关键词与各种资讯类别对应的资讯关键词进行逐一对比,筛选每条资讯对应的资讯类别,并根据筛选的资讯类别,获取同一资讯类别下的各条资讯,以此得到各资讯类别下的各条资讯,并获取各条资讯对应的发布时间,进而分类存储在资讯存储数据库中;
所述用户信息获取模块用于根据用户在新闻资讯平台的登录账号,获取用户注册基本信息和历史浏览记录,其中用户注册基本信息包括年龄和性别,并将获取的用户注册基本信息发送至分析服务器,将用户历史浏览记录发送至用户浏览偏好分析模块;
所述用户浏览偏好分析模块根据接收的用户在新闻资讯平台的历史浏览记录分析用户浏览偏好资讯类别,其中用户浏览偏好分析模块包括历史浏览资讯筛选模块、资讯特征参数统计模块和浏览偏好资讯类别分析模块;
所述历史浏览资讯筛选模块用于根据预设的浏览时间段,从接收的历史浏览记录中筛选预设浏览时间段内的各条历史浏览资讯,并对筛选的各条历史浏览资讯根据浏览完成时间点的先后顺序,对各条历史浏览资讯进行编号,依次标记为1,2,...i,...,n;
所述资讯特征参数统计模块根据标记的各条历史浏览资讯统计浏览时长,并对标记的各条历史浏览资讯内容进行断句、分词和提取资讯关键词处理,得到各条历史浏览资讯对应的资讯类别,资讯特征参数统计模块将得到的各条历史浏览资讯对应的浏览时长和资讯类别构建资讯特征参数集合 Xw(xw1,xw2,...,xwi,...xwn) , xwi表示为第i条历史浏览资讯的资讯特征参数对应的信息,w表示为资讯特征参数,w=wt,wc,wt、wc分别表示为浏览时长和资讯类别;
所述浏览偏好资讯类别分析模块用于根据资讯特征参数统计模块构建的资讯特征参数集合分析用户浏览偏好资讯类别,其具体分析过程包括以下步骤:
S1:提取资讯特征参数集合中每条历史浏览资讯对应的资讯类别,对相同资讯类别下的历史浏览资讯进行统计,并对相同资讯类别个数进行统计,且每个相同资讯类别记为浏览候选偏好资讯类别,统计各浏览候选偏好资讯类别对应的历史浏览资讯总条数及每条历史浏览资讯的编号;
S2:将统计的各浏览候选偏好资讯类别下的每条历史浏览资讯的编号与资讯特征参数集合中每条历史浏览资讯对应的浏览时长进行匹配,获取各浏览候选偏好资讯类别下的每条历史浏览资讯对应的浏览时长,并将各浏览候选偏好资讯类别下的每条历史浏览资讯对应的浏览时长进行累加,得到各浏览候选偏好资讯类别对应的浏览总时长;
S3:将S1统计的各浏览候选偏好资讯类别对应的历史浏览资讯总条数和S2得到的各浏览候选偏好资讯类别对应的浏览总时长,构建浏览候选偏好资讯类别偏好参数集合Cs(cs1,cs2,...,csj,...csm),csj表示为第j个浏览候选偏好资讯类别对应的偏好参数,s表示为偏好参数,s=sk,st,sk、st分别表示为历史浏览资讯总条数,浏览总时长;
S4:根据S3构建的浏览候选偏好资讯类别偏好参数集合统计各浏览候选偏好资讯类别对应的浏览偏好值,并发送至分析服务器;
所述分析服务器接收用户信息获取模块发送的用户注册基本信息,根据接收的用户注册基本信息预测偏好资讯类别,并获取预测偏好资讯类别对应的预测偏好值,同时分析服务器接收用户浏览偏好分析模块发送的各浏览候选偏好资讯类别对应的浏览偏好值,并将预测偏好资讯类别与各浏览候选偏好资讯类别进行匹配,若预测偏好资讯类别与各浏览候选偏好资讯类别中某个浏览候选偏好资讯类别相同,则匹配成功,表明预测偏好资讯类别与浏览偏好资讯类别相关,此时将该预测偏好资讯类别对应的预测偏好值与其匹配成功的浏览候选偏好资讯类别对应的浏览偏好值进行叠加,得到该浏览候选偏好资讯类别对应的综合偏好值,同时将该浏览候选偏好资讯类别对应的综合偏好值与其他浏览候选偏好资讯类别对应的浏览偏好值按照从大到小进行排序,取排在前三位的浏览候选偏好资讯类别,其中排在第一位的浏览候选偏好资讯类别记为一级偏好资讯类别,排在第二位的记为二级偏好资讯类别,排在第三位的记为三级偏好资讯类别,并统计一级、二级和三级偏好资讯类别对应的偏好系数,分析服务器将获得的一级、二级和三级偏好资讯类别及对应的偏好系数发送至智能推荐终端,若预测偏好资讯类别与各浏览候选偏好资讯类别中所有浏览候选偏好资讯类别均不相同,则匹配失败,表明预测偏好资讯类别与浏览偏好资讯类别不相关,此时将各浏览候选偏好资讯类别对应的浏览偏好值按照从大到小进行排序,取排在前三位的浏览候选偏好资讯类别,其中排在第一位的浏览候选偏好资讯类别记为一级偏好资讯类别,排在第二位的记为二级偏好资讯类别,排在第三位的记为三级偏好资讯类别,并统计一级、二级和三级偏好资讯类别对应的偏好系数,分析服务器将获得的一级、二级和三级偏好资讯类别及对应的偏好系数发送至智能推荐终端;
所述智能推荐终端接收分析服务器发送的一级、二级和三级偏好资讯类别,从资讯存储数据库存储的各种资讯类别下的各条资讯中筛选一级、二级和三级偏好资讯类别对应的资讯类别下的各条资讯,并根据接收的一级、二级和三级偏好资讯类别对应的偏好系数,按照预设的每天资讯推荐总条数,计算一级、二级和三级偏好资讯类别对应的资讯推荐条数,且根据计算的结果从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯,使得挑选的有效资讯条数符合其对应的资讯推荐条数,进而智能推荐终端将挑选的有效资讯推送给用户。
2.根据权利要求1所述的一种基于大数据的资讯内容智能分析推荐处理系统,其特征在于:所述历史浏览资讯筛选模块中筛选预设浏览时间段内的各条历史浏览资讯的具体方法包括以下步骤:
H1:根据预设的浏览时间段及筛选开始时间点,得到筛选的截止时间点;
H2:根据接收的用户所有历史浏览记录,从中提取用户每条历史浏览记录对应的浏览完成时间点;
H3:将提取的用户每条历史浏览记录对应的浏览完成时间点与筛选开始时间点和截止时间点进行匹配,判断用户每条历史浏览记录对应的浏览完成时间点是否在筛选的开始和截止时间点内,若在,则保留用户该条历史浏览记录,若不在,则去除用户该条历史浏览记录,直至该用户登录账号内的所有历史浏览记录全部被匹配完成;
H4:从保留的用户各条历史浏览记录中提取对应各条历史浏览记录的历史浏览资讯,得到预设浏览时间段内的各条历史浏览资讯。
3.根据权利要求1所述的一种基于大数据的资讯内容智能分析推荐处理系统,其特征在于:所述资讯特征参数统计模块根据标记的各条历史浏览资讯统计浏览时长的方法具体为从标记的各条历史浏览资讯对应的浏览记录中提取浏览开始时间点和结束时间点,将浏览结束时间点减去浏览开始时间点即可获取各条历史浏览资讯对应的浏览时长。
5.根据权利要求1所述的一种基于大数据的资讯内容智能分析推荐处理系统,其特征在于:所述分析服务器根据用户注册基本信息进行预测偏好资讯类别及获取预测偏好资讯类别对应预测偏好值的过程如下:
W1:从用户注册基本信息中提取用户性别,并将提取的用户性别与预先设置的预测偏好资讯类别库中存储的男性偏好各资讯类别和女性偏好各资讯类别进行对比,筛选出该用户性别对应的各偏好资讯类别;
W2:从用户注册基本信息中提取用户年龄,并按照预设的年龄段划分方式,获取该用户年龄对应的年龄段,同时根据预设的该用户性别对应的各偏好资讯类别中各年龄段的偏好占比,将该用户年龄对应的年龄段与该用户性别对应的各偏好资讯类别中各年龄段的偏好占比进行对比,筛选该用户年龄段在该用户性别对应的各偏好资讯类别中的偏好占比;
W3:将筛选得到的该用户年龄段在该用户性别对应的各偏好资讯类别中的偏好占比进行相关对比,筛选偏好占比最大的偏好资讯类别,作为预测偏好资讯类别,并将该最大偏好占比数作为预测偏好资讯类别对应的预测偏好值。
8.根据权利要求1所述的一种基于大数据的资讯内容智能分析推荐处理系统,其特征在于:所述智能推荐终端从一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯中挑选有效资讯的方法为设置有效时间段,并获取一级、二级和三级偏好资讯类别对应资讯类别下的各条资讯的发布时间,同时查看各条资讯的发布时间是否在设置的有效时间段内,若在设置的有效时间段内,则将挑选该条资讯,若不在设置的有效时间段内,则放弃该条资讯。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444241.7A CN112417302B (zh) | 2020-12-08 | 2020-12-08 | 一种基于大数据的资讯内容智能分析推荐处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011444241.7A CN112417302B (zh) | 2020-12-08 | 2020-12-08 | 一种基于大数据的资讯内容智能分析推荐处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417302A CN112417302A (zh) | 2021-02-26 |
CN112417302B true CN112417302B (zh) | 2021-06-04 |
Family
ID=74775591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011444241.7A Active CN112417302B (zh) | 2020-12-08 | 2020-12-08 | 一种基于大数据的资讯内容智能分析推荐处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417302B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158048A (zh) * | 2021-04-22 | 2021-07-23 | 武汉申子仟电子商务有限公司 | 一种基于特征识别的移动互联网浏览内容智能推荐方法、系统、设备及存储介质 |
CN113139857B (zh) * | 2021-05-17 | 2022-05-17 | 上海读客数字信息技术有限公司 | 电子商务平台商家店铺智能管理方法、系统、设备和计算机存储介质 |
CN114065038A (zh) * | 2021-11-17 | 2022-02-18 | 中国银行股份有限公司 | 基于大数据的头条资讯推荐方法及装置 |
CN114116982A (zh) * | 2021-11-30 | 2022-03-01 | 中国建设银行股份有限公司 | 一种内容分发的方法、系统、设备、存储介质和程序产品 |
CN115630173B (zh) * | 2022-09-08 | 2023-08-18 | 湖北华中电力科技开发有限责任公司 | 一种基于兴趣度分析的用户数据管理方法 |
CN115187344B (zh) * | 2022-09-13 | 2022-12-09 | 南通久拓智能装备有限公司 | 基于大数据的用户偏好分析识别方法 |
CN116304351B (zh) * | 2023-03-29 | 2024-02-02 | 陕西维纳数字科技股份有限公司 | 一种基于大数据的智能数据信息统计管理系统及方法 |
CN117421478A (zh) * | 2023-10-19 | 2024-01-19 | 上海网萌网络科技有限公司 | 一种基于数据分析的用户行为分析系统及方法 |
CN118132821A (zh) * | 2024-03-05 | 2024-06-04 | 苏州嘟米信息科技有限公司 | 一种基于大数据分析的网络信息分类存储系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216965A (zh) * | 2014-08-21 | 2014-12-17 | 北京金山安全软件有限公司 | 信息推荐方法和装置 |
CN106202393A (zh) * | 2016-07-08 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 媒体信息推送方法及装置 |
WO2017071464A1 (zh) * | 2015-10-29 | 2017-05-04 | 广州神马移动信息科技有限公司 | 推荐活动信息方法和装置、计算设备及机器可读存储介质 |
CN107332879A (zh) * | 2017-06-05 | 2017-11-07 | 广东欧珀移动通信有限公司 | 一种信息推送的方法、移动终端及存储介质 |
CN108415996A (zh) * | 2018-02-13 | 2018-08-17 | 北京奇虎科技有限公司 | 一种新闻信息推送方法、装置及电子设备 |
CN109977320A (zh) * | 2019-04-08 | 2019-07-05 | 北京网聘咨询有限公司 | 资讯推送方法及系统 |
CN111444428A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
CN111475716A (zh) * | 2020-03-26 | 2020-07-31 | 威比网络科技(上海)有限公司 | 在线课程推荐方法、系统、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4358219B2 (ja) * | 2006-11-21 | 2009-11-04 | 株式会社東芝 | 番組情報提供装置、番組情報提供方法及びそのプログラム |
CN105095355B (zh) * | 2015-06-19 | 2018-10-19 | 小米科技有限责任公司 | 网站推荐方法及装置 |
CN107818166A (zh) * | 2017-11-07 | 2018-03-20 | 暴风集团股份有限公司 | 一种资讯推荐方法、装置、服务器及系统 |
CN110188268A (zh) * | 2019-05-21 | 2019-08-30 | 浙江工商大学 | 一种基于标签和时间信息的个性化推荐方法 |
-
2020
- 2020-12-08 CN CN202011444241.7A patent/CN112417302B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216965A (zh) * | 2014-08-21 | 2014-12-17 | 北京金山安全软件有限公司 | 信息推荐方法和装置 |
WO2017071464A1 (zh) * | 2015-10-29 | 2017-05-04 | 广州神马移动信息科技有限公司 | 推荐活动信息方法和装置、计算设备及机器可读存储介质 |
CN106202393A (zh) * | 2016-07-08 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 媒体信息推送方法及装置 |
CN107332879A (zh) * | 2017-06-05 | 2017-11-07 | 广东欧珀移动通信有限公司 | 一种信息推送的方法、移动终端及存储介质 |
CN108415996A (zh) * | 2018-02-13 | 2018-08-17 | 北京奇虎科技有限公司 | 一种新闻信息推送方法、装置及电子设备 |
CN109977320A (zh) * | 2019-04-08 | 2019-07-05 | 北京网聘咨询有限公司 | 资讯推送方法及系统 |
CN111475716A (zh) * | 2020-03-26 | 2020-07-31 | 威比网络科技(上海)有限公司 | 在线课程推荐方法、系统、设备及存储介质 |
CN111444428A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Recommending News Based on Hybrid User Profile, Popularity,Trends, and Location;Suraj Natarajan 等;《2016 International Conference on Collaboration Technologies and Systems》;20161104;204-211 * |
移动新闻推荐技术及其应用研究综述;孟祥武 等;《计算机学报》;20160430;第39卷(第4期);685-703 * |
Also Published As
Publication number | Publication date |
---|---|
CN112417302A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417302B (zh) | 一种基于大数据的资讯内容智能分析推荐处理系统 | |
CN112348602B (zh) | 一种基于大数据的广告自动化投放管理系统 | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN106375369B (zh) | 基于用户行为分析的移动Web业务推荐方法及协同推荐系统 | |
CN112381578B (zh) | 一种基于行为特征识别的互联网广告智能推荐管理系统 | |
CN111191122A (zh) | 一种基于用户画像的学习资源推荐系统 | |
CN103744928B (zh) | 一种基于历史访问记录的网络视频分类方法 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN102760151B (zh) | 开源软件获取与搜索系统的实现方法 | |
US20170185680A1 (en) | Chinese website classification method and system based on characteristic analysis of website homepage | |
CN106776567B (zh) | 一种互联网大数据分析提取方法及系统 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN110287292A (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN113282817A (zh) | 基于网页搜索引擎数据分析的网页内容智能收藏处理方法、系统及计算机存储介质 | |
CN102156746A (zh) | 搜索引擎的性能评价方法 | |
CN113158048A (zh) | 一种基于特征识别的移动互联网浏览内容智能推荐方法、系统、设备及存储介质 | |
CN103729374B (zh) | 一种信息搜索方法及搜索引擎 | |
CN102306178A (zh) | 视频推荐方法及装置 | |
CN112687402A (zh) | 基于人工智能的智慧医疗互联网大数据处理方法及智能云服务平台 | |
CN113159363B (zh) | 一种基于历史新闻报道的事件趋势预测方法 | |
CN116662525A (zh) | 一种基于异构图神经网络的金融司法知识关联方法及系统 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
Sudhakar et al. | Web User Profile Generation and Discovery Analysis using LSTM Architecture | |
Sajid et al. | Sequential pattern finding: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |