CN106372113B - 新闻内容的推送方法及系统 - Google Patents

新闻内容的推送方法及系统 Download PDF

Info

Publication number
CN106372113B
CN106372113B CN201610704731.3A CN201610704731A CN106372113B CN 106372113 B CN106372113 B CN 106372113B CN 201610704731 A CN201610704731 A CN 201610704731A CN 106372113 B CN106372113 B CN 106372113B
Authority
CN
China
Prior art keywords
news
content
news content
user
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610704731.3A
Other languages
English (en)
Other versions
CN106372113A (zh
Inventor
倪博溢
窦宏辰
马文利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201610704731.3A priority Critical patent/CN106372113B/zh
Publication of CN106372113A publication Critical patent/CN106372113A/zh
Priority to PCT/CN2017/091258 priority patent/WO2018036272A1/zh
Application granted granted Critical
Publication of CN106372113B publication Critical patent/CN106372113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种新闻内容的推送方法,包括:在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将属性数据发送给控制服务器;控制服务器根据预先确定的分析规则对属性数据进行分析,以分析出该用户对应的阅读标签;控制服务器从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;控制服务器将获取的新闻内容推送给该用户的客户端。本发明还公开了一种新闻内容的推送系统。本发明使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。

Description

新闻内容的推送方法及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种新闻内容的推送方法及系统。
背景技术
现有的移动设备app的资讯板块多是通过抓取新闻源消息,加以简单分类、编辑后转发。这种现有方式的缺陷在于:一、新闻客户群不明确、针对性不强;二、新闻内容重复,以及直接复制会带来版权问题。
发明内容
本发明的主要目的在于提供一种新闻内容的推送方法及系统,旨在解决新闻客户群不明确、针对性不强以及新闻内容重复、容易产生版权纠纷的技术问题。
本发明提供的新闻内容的推送方法包括:
A、在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,所述客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
B、所述控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
C、所述控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
D、所述控制服务器将获取的新闻内容推送给该用户的所述客户端。
优选地,所述步骤D替换为:
所述控制服务器与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
所述控制服务器将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
优选地,于所述步骤B之后,该方法还包括:
所述控制服务器实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
优选地,所述预先确定的分析模型为逻辑回归模型,所述逻辑回归模型的训练过程如下:
E、获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
F、从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
G、对训练集和测试集中的各个新闻样本进行分词处理;
H、对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
I、将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
J、将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并重新执行步骤F、G、H、I和J,直到测试的准确率大于等于预设阈值。
优选地,所述预先确定的分析规则包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
优选地,所述阅读标签还包括偏好的阅读时间段,所述预先确定的分析规则还包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。
优选地,所述步骤D包括:
所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;
所述控制服务器将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
优选地,所述步骤D包括:
所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;
所述控制服务器将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
优选地,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。
此外,本发明进一步提供的新闻内容的推送系统包括客户端和控制服务器,所述客户端包括新闻内容监控模块,所述控制服务器包括分析模块、获取模块和推送模块;
所述新闻内容监控模块用于在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
所述分析模块用于根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
所述获取模块用于实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
所述推送模块用于将获取的新闻内容推送给该用户的所述客户端。
优选地,所述推送模块包括:
确定单元,用于与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
第一推送单元,用于将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
优选地,所述推送模块还用于实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
优选地,所述预先确定的分析模型为逻辑回归模型,所述新闻内容监控模块包括:
新闻样本获取单元,用于获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
训练集提取单元,用于从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
分词处理单元,用于对训练集和测试集中的各个新闻样本进行分词处理;
训练参数生成单元,用于对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
回归模型生成单元,用于将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
测试单元,用于将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并返回调用所述新闻样本获取单元、训练集提取单元、分词处理单元、训练参数生成单元以及回归模型生成单元,直到测试的准确率大于等于预设阈值。
优选地,所述预先确定的分析规则包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
优选地,所述阅读标签还包括偏好的阅读时间段,所述预先确定的分析规则还包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。
优选地,所述推送模块包括:
第一解析单元,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
第一排序单元,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第一插入单元,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;
第二推送单元,用于将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
优选地,所述推送模块包括:
第二解析单元,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
第二排序单元,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第二插入单元,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;
第三推送单元,用于将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
优选地,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。
本发明提供的新闻内容的推送方法及系统,通过在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器,然后控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别,然后控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容,并将获取的新闻内容推送给该用户的所述客户端,从而使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。
附图说明
图1为本发明新闻内容的推送方法第一实施例的流程示意图;
图2为本发明新闻内容的推送方法第二实施例的流程示意图;
图3为本发明新闻内容的推送方法第三实施例的流程示意图;
图4为本发明新闻内容的推送方法第四实施例中新闻内容推送步骤的细化流程示意图;
图5为本发明新闻内容的推送方法第五实施例中新闻内容推送步骤的细化流程示意图;
图6为本发明新闻内容的推送系统第一实施例的功能模块示意图;
图7为本发明新闻内容的推送系统中新闻内容监控模块的细化功能模块示意图;
图8为本发明新闻内容的推送系统第二实施例中推送模块的细化功能模块示意图;
图9为本发明新闻内容的推送系统第四实施例中推送模块的细化功能模块示意图;
图10为本发明新闻内容的推送系统第五实施例中推送模块的细化功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种新闻内容的推送方法。参照图1,图1为本发明新闻内容的推送方法第一实施例的流程示意图,本发明提出的新闻内容的推送方法包括以下步骤:
步骤S10,在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,所述客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
在本实施例中,客户端可以为手机、平板电脑、笔记本以及所有可以联网的终端等。客户端的新闻内容监控模块可以实时或定时监测浏览器是否处于运行状态以及在浏览器处于运行状态时,浏览器是否在访问新闻服务器,以及是否获取新闻服务器上的新闻内容。在新闻内容监控模块监测到浏览器获取新闻服务器上的新闻内容时,则新闻内容监控模块记录该新闻内容的属性数据。
可选的,预先确定的分析模型为逻辑回归模型,所述逻辑回归模型的训练过程如下:
E、获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
可选的,预设数量可以设置的足够大,以确保分析的准确性。例如,预设数量可以设置为50万份。预设的关键词例如可以为美元加息、人民币汇率、房价调控等,具体可以根据实际需要进行设置。
F、从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
第一预设比例可以根据实际需要进行设置,例如可以设置为70%。因此,则将剩余的30%的新闻样本数据作为测试集。
G、对训练集和测试集中的各个新闻样本进行分词处理;
例如,对各个新闻样本的新闻文本,由一个词库作为基础,以词频为标准,获得最有可能的一个分词方案,如可以将“南京市长江大桥”,划分为:“南京市/长江/大桥”。
H、对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
预设类型特征例如可以为词频、词序等特征。训练参数例如可以为数字或者数列,常见的训练参数转化方法包括TF-IDF(词频-逆文档频率)方法,即将每个词赋予一个维度,每篇文章在这个维度上的值是“该词出现在本文中的概率”/“出现该词的文章频率”。
I、将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
J、将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并重新执行步骤F、G、H、I和J,直到测试的准确率大于等于预设阈值。
预设阈值的大小可以根据实际需要进行设置,例如可以为95%。
本实施例提供的预先确定的分析模型,能够准确的进行新闻内容的属性数据分析,准确性和可靠性较高。
步骤S20,所述控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
例如,阅读标签可以为体育、娱乐、房产等。
在本实施例中,预先确定的分析规则可以包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
第一预设时间例如可以为最近7天内。新闻类别例如可以为体育类新闻。第一预设阈值例如可以为10次。即,在用户在最近7天内若阅读体育类新闻的次数大于10次,则认为体育新闻类别为该用户偏好的新闻类别。
第二预设时间例如可以为最近90天内,新闻类别例如可以为体育类新闻,第二预设阈值例如可以为30次。即,在用户在最近90天内阅读体育类新闻的次数大于30次,则认为体育新闻类别为该用户偏好的新闻类别。
进一步的,基于上述,所述阅读标签还可以包括偏好的阅读时间段,所述预先确定的分析规则还可以包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;第三预设时间例如可以为最近6天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第三预设阈值例如可以为4次。即,若用户在最近6天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于4次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;第四预设时间例如可以为最近5天,时间段例如可以为8:30—9:30,第四预设阈值例如可以为8次。即,若用户在最近5天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于8次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;第五预设时间例如可以为最近80天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第五预设阈值例如可以为14次。即,若用户在最近80天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于14次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。第六预设时间例如可以为最近85天,时间段例如可以为8:30—9:30,第六预设阈值例如可以为28次。即,若用户在最近85天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于28次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
步骤S30,所述控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
步骤S40,所述控制服务器将获取的新闻内容推送给该用户的所述客户端。
例如,若该用户对应的阅读标签表明偏好的新闻类别为体育,则所述控制服务器实时或者定时从至少一个新闻服务器获取属于体育类别且还未被推送给该用户的新闻内容,并将获取的新闻内容推送至客户端。
本发明提供的新闻内容的推送方法,通过在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器,然后控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别,然后控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容,并将获取的新闻内容推送给该用户的所述客户端,从而使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。
进一步的,基于本发明新闻内容的推送方法的第一实施例,本发明还提出了新闻内容的推送方法的第二实施例,参照图2,图2为本发明新闻内容的推送方法第二实施例的流程示意图,在本实施例中,与第一实施例不同的是,所述步骤S40替换为:
步骤S401,所述控制服务器与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
步骤S402,所述控制服务器将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
在本实施例中,社交服务器例如可以为微信服务器、QQ服务器、微博服务器等。若该用户的微信群中有一个足球群,则该足球群中的其他用户均可以称之为与该用户属于同一社交群组的其他用户。若该用户偏好的新闻类别为体育新闻类别,则该足球群中的其他用户很可能偏好的新闻类别也为体育新闻类别。因此,可以将服务器获取的与体育阅读标签关联的新闻内容推送给该用户的客户端,并同时推送给确定出的足球群中的其他用户的客户端。
本实施例通过确定用户的社交群组的其他用户,并根据该用户的阅读习惯向其社交群组的其他用户推送新闻内容,从而进一步扩大了新闻客户群,更有效地实现了根据用户的阅读习惯有针对性的推送新闻内容。
进一步的,基于本发明新闻内容的推送方法的第一或第二实施例,本发明还提出了新闻内容的推送方法的第三实施例,参照图3,图3为本发明新闻内容的推送方法第三实施例的流程示意图,在本实施例中,与第一或第二实施例不同的是,于所述步骤S20之后,该方法还包括:
步骤S50,所述控制服务器实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
在本实施例中,例如,理财类标签可以对应设置金融产品业务,若用户的阅读标签为理财类标签,则该用户的理财类标签相关联的业务为金融产品业务,可以将该金融产品业务推送给用户的客户端。
本实施例通过根据用户的阅读习惯向用户推送关联的业务,从而进一步扩大了推送数据的范围,并给用户带来了便利,也给商家带来了经济效益。
进一步的,基于本发明新闻内容的推送方法的第一至第三任一实施例,本发明还提出了新闻内容的推送方法的第四实施例,参照图4,图4为本发明新闻内容的推送方法第四实施例中新闻内容推送步骤的细化流程示意图,在本实施例中,与第一至第三实施例不同的是,所述步骤S40包括:
步骤S403,所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。
步骤S404,所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
步骤S405,所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
步骤S406,所述控制服务器将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
进一步的,基于本发明新闻内容的推送方法的第一至第三任一实施例,本发明还提出了新闻内容的推送方法的第五实施例,参照图5,图5为本发明新闻内容的推送方法第五实施例中新闻内容推送步骤的细化流程示意图,在本实施例中,与第一至第三实施例不同的是,所述步骤S40包括:
步骤S407,所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。延伸性内容可以为与相关频率新闻内容关联的内容。
步骤S408,所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
步骤S409,所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
步骤S410,所述控制服务器将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容的延伸性内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
本发明进一步提供一种新闻内容的推送系统。参照图6,图6为本发明新闻内容的推送系统第一实施例的功能模块示意图,本发明提供的新闻内容的推送系统包括客户端100和控制服务器200,所述客户端100包括新闻内容监控模块110,所述控制服务器200包括分析模块210、获取模块220和推送模块230;
所述新闻内容监控模块110用于在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
在本实施例中,客户端可以为手机、平板电脑、笔记本以及所有可以联网的终端等。客户端的新闻内容监控模块可以实时或定时监测浏览器是否处于运行状态以及在浏览器处于运行状态时,浏览器是否在访问新闻服务器,以及是否获取新闻服务器上的新闻内容。在新闻内容监控模块监测到浏览器获取新闻服务器上的新闻内容时,则新闻内容监控模块记录该新闻内容的属性数据。
可选的,所述预先确定的分析模型为逻辑回归模型,参照图7,图7为本发明新闻内容的推送系统中新闻内容监控模块的细化功能模块示意图,所述新闻内容监控模块110包括:
新闻样本获取单元111,用于获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
可选的,预设数量可以设置的足够大,以确保分析的准确性。例如,预设数量可以设置为50万份。预设的关键词例如可以为美元加息、人民币汇率、房价调控等,具体可以根据实际需要进行设置。
训练集提取单元112,用于从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
第一预设比例可以根据实际需要进行设置,例如可以设置为70%。因此,则将剩余的30%的新闻样本数据作为测试集。
分词处理单元113,用于对训练集和测试集中的各个新闻样本进行分词处理;
例如,对各个新闻样本的新闻文本,由一个词库作为基础,以词频为标准,获得最有可能的一个分词方案,如可以将“南京市长江大桥”,划分为:“南京市/长江/大桥”。
训练参数生成单元114,用于对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
预设类型特征例如可以为词频、词序等特征。训练参数例如可以为数字或者数列,常见的训练参数转化方法包括TF-IDF(词频-逆文档频率)方法,即将每个词赋予一个维度,每篇文章在这个维度上的值是“该词出现在本文中的概率”/“出现该词的文章频率”。
回归模型生成单元115,用于将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
测试单元116,用于将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并返回调用所述新闻样本获取单元111、训练集提取单元112、分词处理单元113、训练参数生成单元114以及回归模型生成单元115,直到测试的准确率大于等于预设阈值。
预设阈值的大小可以根据实际需要进行设置,例如可以为95%。
本实施例提供的预先确定的分析模型,能够准确的进行新闻内容的属性数据分析,准确性和可靠性较高。
所述分析模块210用于根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
例如,阅读标签可以为体育、娱乐、房产等。
在本实施例中,预先确定的分析规则可以包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
第一预设时间例如可以为最近7天内。新闻类别例如可以为体育类新闻。第一预设阈值例如可以为10次。即,在用户在最近7天内若阅读体育类新闻的次数大于10次,则认为体育新闻类别为该用户偏好的新闻类别。
第二预设时间例如可以为最近90天内,新闻类别例如可以为体育类新闻,第二预设阈值例如可以为30次。即,在用户在最近90天内阅读体育类新闻的次数大于30次,则认为体育新闻类别为该用户偏好的新闻类别。
进一步的,基于上述,所述阅读标签还可以包括偏好的阅读时间段,所述预先确定的分析规则还可以包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;第三预设时间例如可以为最近6天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第三预设阈值例如可以为4次。即,若用户在最近6天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于4次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;第四预设时间例如可以为最近5天,时间段例如可以为8:30—9:30,第四预设阈值例如可以为8次。即,若用户在最近5天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于8次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;第五预设时间例如可以为最近80天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第五预设阈值例如可以为14次。即,若用户在最近80天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于14次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。第六预设时间例如可以为最近85天,时间段例如可以为8:30—9:30,第六预设阈值例如可以为28次。即,若用户在最近85天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于28次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
所述获取模块220用于实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
所述推送模块230用于将获取的新闻内容推送给该用户的所述客户端。
例如,若该用户对应的阅读标签表明偏好的新闻类别为体育,则所述控制服务器实时或者定时从至少一个新闻服务器获取属于体育类别且还未被推送给该用户的新闻内容,并将获取的新闻内容推送至客户端。
本发明提供的新闻内容的推送系统,通过在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器,然后控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别,然后控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容,并将获取的新闻内容推送给该用户的所述客户端,从而使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。
进一步的,基于本发明新闻内容的推送系统的第一实施例,本发明还提出了新闻内容的推送系统的第二实施例,参照图8,图8为本发明新闻内容的推送系统第二实施例中推送模块的细化功能模块示意图,在本实施例中,与第一实施例不同的是,所述推送模块230包括:
确定单元2311,用于与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
第一推送单元2312,用于将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
在本实施例中,社交服务器例如可以为微信服务器、QQ服务器、微博服务器等。若该用户的微信群中有一个足球群,则该足球群中的其他用户均可以称之为与该用户属于同一社交群组的其他用户。若该用户偏好的新闻类别为体育新闻类别,则该足球群中的其他用户很可能偏好的新闻类别也为体育新闻类别。因此,可以将服务器获取的与体育阅读标签关联的新闻内容推送给该用户的客户端,并同时推送给确定出的足球群中的其他用户的客户端。
本实施例通过确定用户的社交群组的其他用户,并根据该用户的阅读习惯向其社交群组的其他用户推送新闻内容,从而进一步扩大了新闻客户群,更有效地实现了根据用户的阅读习惯有针对性的推送新闻内容。
进一步的,基于本发明新闻内容的推送系统的第一或第二实施例,本发明还提出了新闻内容的推送系统的第三实施例,在本实施例中,与第一或第二实施例不同的是,所述推送模块230还用于实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
在本实施例中,例如,理财类标签可以对应设置金融产品业务,若用户的阅读标签为理财类标签,则该用户的理财类标签相关联的业务为金融产品业务,可以将该金融产品业务推送给用户的客户端。
本实施例通过根据用户的阅读习惯向用户推送关联的业务,从而进一步扩大了推送数据的范围,并给用户带来了便利,也给商家带来了经济效益。
进一步的,基于本发明新闻内容的推送系统的第一至第三任一实施例,本发明还提出了新闻内容的推送系统的第四实施例,参照图9,图9为本发明新闻内容的推送系统第四实施例中推送模块的细化功能模块示意图,在本实施例中,与第一至第三实施例不同的是,所述推送模块230包括:
第一解析单元232,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。
第一排序单元233,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第一插入单元234,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
第二推送单元235,用于将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
进一步的,基于本发明新闻内容的推送系统的第一至第三任一实施例,本发明还提出了新闻内容的推送系统的第五实施例,参照图10,图10为本发明新闻内容的推送系统第五实施例中推送模块的细化功能模块示意图,在本实施例中,与第一至第三实施例不同的是,所述推送模块230包括:
第二解析单元236,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。延伸性内容可以为与相关频率新闻内容关联的内容。
第二排序单元237,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第二插入单元238,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
第三推送单元239,用于将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容的延伸性内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (14)

1.一种新闻内容的推送方法,其特征在于,所述新闻内容的推送方法包括:
A、在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,所述客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
B、所述控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
C、所述控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
D、所述控制服务器将获取的新闻内容推送给该用户的所述客户端,包括:
根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;
将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
2.如权利要求1所述的新闻内容的推送方法,其特征在于,所述步骤D替换为:
所述控制服务器将获取的新闻内容推送给该用户的所述客户端,包括:
根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序
进行排序;
在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;
将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
3.如权利要求1或2所述的新闻内容的推送方法,其特征在于,于所述步骤B之后,该方法还包括:
所述控制服务器实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
4.如权利要求1或2所述的新闻内容的推送方法,其特征在于,所述预先确定的分析模型为逻辑回归模型,所述逻辑回归模型的训练过程如下:
E、获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
F、从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
G、对训练集和测试集中的各个新闻样本进行分词处理;
H、对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
I、将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
J、将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并重新执行步骤F、G、H、I和J,直到测试的准确率大于等于预设阈值。
5.如权利要求1或2所述的新闻内容的推送方法,其特征在于,所述预先确定的分析规则包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
6.如权利要求5所述的新闻内容的推送方法,其特征在于,所述阅读标签还包括偏好的阅读时间段,所述预先确定的分析规则还包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。
7.如权利要求1或2所述的新闻内容的推送方法,其特征在于,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将所述多个新闻内容中其他时间点发布的新闻内容作为与该原始新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。
8.一种新闻内容的推送系统,其特征在于,所述新闻内容的推送系统包括客户端和控制服务器,所述客户端包括新闻内容监控模块,所述控制服务器包括分析模块、获取模块和推送模块;
所述新闻内容监控模块用于在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
所述分析模块用于根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
所述获取模块用于实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
所述推送模块,包括:
第一解析单元,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
第一排序单元,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第一插入单元,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;
第一推送单元,用于将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
9.如权利要求8所述的新闻内容的推送系统,其特征在于,所述推送模块包括的各单元相应替换为:
第二解析单元,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
第二排序单元,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第二插入单元,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;
第二推送单元,用于将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
10.如权利要求8或9所述的新闻内容的推送系统,其特征在于,所述推送模块还用于实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
11.如权利要求8或9所述的新闻内容的推送系统,其特征在于,所述预先确定的分析模型为逻辑回归模型,所述新闻内容监控模块包括:
新闻样本获取单元,用于获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
训练集提取单元,用于从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
分词处理单元,用于对训练集和测试集中的各个新闻样本进行分词处理;
训练参数生成单元,用于对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
回归模型生成单元,用于将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
测试单元,用于将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并返回调用所述新闻样本获取单元、训练集提取单元、分词处理单元、训练参数生成单元以及回归模型生成单元,直到测试的准确率大于等于预设阈值。
12.如权利要求8或9任一项所述的新闻内容的推送系统,其特征在于,所述预先确定的分析规则包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
13.如权利要求12所述的新闻内容的推送系统,其特征在于,所述阅读标签还包括偏好的阅读时间段,所述预先确定的分析规则还包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。
14.如权利要求8或9所述的新闻内容的推送系统,其特征在于,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将所述多个新闻内容中其他时间点发布的新闻内容作为与该原始新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。
CN201610704731.3A 2016-08-22 2016-08-22 新闻内容的推送方法及系统 Active CN106372113B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610704731.3A CN106372113B (zh) 2016-08-22 2016-08-22 新闻内容的推送方法及系统
PCT/CN2017/091258 WO2018036272A1 (zh) 2016-08-22 2017-06-30 新闻内容的推送方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610704731.3A CN106372113B (zh) 2016-08-22 2016-08-22 新闻内容的推送方法及系统

Publications (2)

Publication Number Publication Date
CN106372113A CN106372113A (zh) 2017-02-01
CN106372113B true CN106372113B (zh) 2018-03-20

Family

ID=57879426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610704731.3A Active CN106372113B (zh) 2016-08-22 2016-08-22 新闻内容的推送方法及系统

Country Status (2)

Country Link
CN (1) CN106372113B (zh)
WO (1) WO2018036272A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372113B (zh) * 2016-08-22 2018-03-20 上海壹账通金融科技有限公司 新闻内容的推送方法及系统
CN107038256B (zh) 2017-05-05 2018-06-29 平安科技(深圳)有限公司 基于数据源的业务定制装置、方法及计算机可读存储介质
CN107682385A (zh) * 2017-05-10 2018-02-09 平安科技(深圳)有限公司 基于线上线下一体化服务的方法及设备、存储介质
CN107332905A (zh) * 2017-06-30 2017-11-07 广州优视网络科技有限公司 信息推送方法、装置及服务器
CN107635143B (zh) * 2017-11-06 2020-05-05 四川长虹电器股份有限公司 基于观看行为预测用户在电视上追剧的方法
CN107888679A (zh) * 2017-11-09 2018-04-06 广东小天才科技有限公司 内容推送方法、内容推送装置及终端
CN108427761B (zh) * 2018-03-21 2022-01-14 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN108874887A (zh) * 2018-05-10 2018-11-23 河海大学常州校区 一种基于用户新闻浏览的大数据分析统计系统及方法
CN108734348A (zh) * 2018-05-14 2018-11-02 广东心里程教育集团有限公司 一种自动推送在线课程的方法和系统
CN108810095A (zh) * 2018-05-18 2018-11-13 歌尔科技有限公司 一种新闻推送方法和装置
CN109067838B (zh) * 2018-06-29 2021-10-19 聚好看科技股份有限公司 一种数据的推送方法和装置
CN110955823B (zh) * 2018-09-26 2023-04-25 阿里巴巴集团控股有限公司 信息推荐方法、装置
CN109698975A (zh) * 2019-01-16 2019-04-30 上海哔哩哔哩科技有限公司 新内容实时播放方法、装置及存储介质
CN112445967B (zh) * 2019-08-30 2023-09-26 腾讯科技(深圳)有限公司 信息推送的方法、装置、可读存储介质及信息推送系统
CN111159566A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 金融市场产品的资讯推送方法及装置
CN111310048B (zh) * 2020-02-25 2023-06-20 西安电子科技大学 基于多层感知机的新闻推荐方法
CN111708879A (zh) * 2020-05-11 2020-09-25 北京明略软件系统有限公司 针对事件的文本聚合方法、装置及计算机可读存储介质
CN111683119A (zh) * 2020-05-19 2020-09-18 南京数娱天下网络科技有限公司 一种基于云平台的新闻阅读系统
CN111753197B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 新闻要素的提取方法、装置、计算机设备和存储介质
CN114817730B (zh) * 2022-05-06 2023-06-20 成都坐联智城科技有限公司 一种大数据情境下的资讯活动信息推荐系统及方法
CN115277835A (zh) * 2022-08-01 2022-11-01 网易(杭州)网络有限公司 信息推送方法、装置、存储介质及电子设备
CN116074378B (zh) * 2023-04-06 2023-06-16 西南石油大学 一种互联网信息的推送方法和系统
CN116226539B (zh) * 2023-05-04 2023-07-18 浙江保融科技股份有限公司 一种自动化内容推荐方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
JP2012190417A (ja) * 2011-03-14 2012-10-04 Nippon Telegr & Teleph Corp <Ntt> 情報推薦処理装置、方法及びプログラム
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103559265A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种手机客户端个性化推送方法
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079824A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种用户兴趣偏好向量生成系统和方法
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
US8489515B2 (en) * 2009-05-08 2013-07-16 Comcast Interactive Media, LLC. Social network based recommendation method and system
US9171089B2 (en) * 2010-11-16 2015-10-27 John Nicholas and Kristin Gross Trust Message distribution system and method
CN103389975A (zh) * 2012-05-07 2013-11-13 腾讯科技(深圳)有限公司 一种新闻推荐方法及系统
CN104199874B (zh) * 2014-08-20 2018-07-31 哈尔滨工程大学 一种基于用户浏览行为的网页推荐方法
CN105512326B (zh) * 2015-12-23 2019-03-22 成都品果科技有限公司 一种图片推荐的方法及系统
CN106372113B (zh) * 2016-08-22 2018-03-20 上海壹账通金融科技有限公司 新闻内容的推送方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694659A (zh) * 2009-10-20 2010-04-14 浙江大学 基于多主题追踪的个性化网络新闻推送方法
JP2012190417A (ja) * 2011-03-14 2012-10-04 Nippon Telegr & Teleph Corp <Ntt> 情報推薦処理装置、方法及びプログラム
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103559265A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种手机客户端个性化推送方法
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN105224699A (zh) * 2015-11-17 2016-01-06 Tcl集团股份有限公司 一种新闻推荐方法及装置

Also Published As

Publication number Publication date
CN106372113A (zh) 2017-02-01
WO2018036272A1 (zh) 2018-03-01

Similar Documents

Publication Publication Date Title
CN106372113B (zh) 新闻内容的推送方法及系统
CN107766371B (zh) 一种文本信息分类方法及其装置
CN104731971B (zh) 一种校园个性化掌上服务及用户行为习惯分析的实现方法
CN104317839B (zh) 生成报表模板的方法和装置
CN104598518B (zh) 一种内容的推送方法和装置
CN106126524B (zh) 信息推送方法和装置
CN110781668B (zh) 文本信息的类型识别方法及装置
CN105306495B (zh) 用户识别方法和装置
CN107657048A (zh) 用户识别方法及装置
US9582835B2 (en) Apparatus, system, and method for searching for power user in social media
CN109635259A (zh) 一种电子试卷生成方法、装置、设备和存储介质
CN102982027A (zh) 提取文档中内容的方法和装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN107977678A (zh) 用于输出信息的方法和装置
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN113038153B (zh) 金融直播违规检测方法、装置、设备及可读存储介质
CN106230809A (zh) 一种基于url的移动互联网舆情监测方法及系统
CN112445897A (zh) 文本类数据大规模分类标注方法、系统、装置及存储介质
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN106528566A (zh) 日志文件的输出方法、服务器及客户端
CN113609390A (zh) 信息分析方法及装置、电子设备和计算机可读存储介质
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法
WO2015093651A1 (en) Method and system for managing a wordgraph
CN109460417A (zh) 一种错题本生成方法、装置、服务器及计算机存储介质
CN111143688B (zh) 一种基于移动新闻客户端的评估方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200030 Shanghai City Kai Xuhui District No. 166, 9 layers and 10 layers

Applicant after: ONECONNECT FINANCIAL TECHNOLOGY Co.,Ltd. (SHANGHAI)

Address before: 200135 Pudong, Pudong New Area, China (Shanghai) free trade zone, No. 2250 South Road, Shanghai, building 2, room D121

Applicant before: Shanghai one track Internet Technology Co.,Ltd.

Address after: 200135 Pudong, Pudong New Area, China (Shanghai) free trade zone, No. 2250 South Road, Shanghai, building 2, room D121

Applicant after: Shanghai one track Internet Technology Co.,Ltd.

Address before: 200135 Pudong, Pudong New Area, China (Shanghai) free trade zone, No. 2250 South Road, Shanghai, building 2, room D121

Applicant before: SHANGHAI YIZHANGTONG INTERNET TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180525

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee after: ONECONNECT FINANCIAL TECHNOLOGY Co.,Ltd. (SHANGHAI)

Address before: 200030 Xuhui District, Shanghai Kai Bin Road 166, 9, 10 level.

Patentee before: ONECONNECT FINANCIAL TECHNOLOGY Co.,Ltd. (SHANGHAI)

TR01 Transfer of patent right