发明内容
本发明的主要目的在于提供一种新闻内容的推送方法及系统,旨在解决新闻客户群不明确、针对性不强以及新闻内容重复、容易产生版权纠纷的技术问题。
本发明提供的新闻内容的推送方法包括:
A、在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,所述客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
B、所述控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
C、所述控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
D、所述控制服务器将获取的新闻内容推送给该用户的所述客户端。
优选地,所述步骤D替换为:
所述控制服务器与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
所述控制服务器将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
优选地,于所述步骤B之后,该方法还包括:
所述控制服务器实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
优选地,所述预先确定的分析模型为逻辑回归模型,所述逻辑回归模型的训练过程如下:
E、获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
F、从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
G、对训练集和测试集中的各个新闻样本进行分词处理;
H、对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
I、将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
J、将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并重新执行步骤F、G、H、I和J,直到测试的准确率大于等于预设阈值。
优选地,所述预先确定的分析规则包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
优选地,所述阅读标签还包括偏好的阅读时间段,所述预先确定的分析规则还包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。
优选地,所述步骤D包括:
所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;
所述控制服务器将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
优选地,所述步骤D包括:
所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;
所述控制服务器将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
优选地,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。
此外,本发明进一步提供的新闻内容的推送系统包括客户端和控制服务器,所述客户端包括新闻内容监控模块,所述控制服务器包括分析模块、获取模块和推送模块;
所述新闻内容监控模块用于在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
所述分析模块用于根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
所述获取模块用于实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
所述推送模块用于将获取的新闻内容推送给该用户的所述客户端。
优选地,所述推送模块包括:
确定单元,用于与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
第一推送单元,用于将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
优选地,所述推送模块还用于实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
优选地,所述预先确定的分析模型为逻辑回归模型,所述新闻内容监控模块包括:
新闻样本获取单元,用于获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
训练集提取单元,用于从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
分词处理单元,用于对训练集和测试集中的各个新闻样本进行分词处理;
训练参数生成单元,用于对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
回归模型生成单元,用于将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
测试单元,用于将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并返回调用所述新闻样本获取单元、训练集提取单元、分词处理单元、训练参数生成单元以及回归模型生成单元,直到测试的准确率大于等于预设阈值。
优选地,所述预先确定的分析规则包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
优选地,所述阅读标签还包括偏好的阅读时间段,所述预先确定的分析规则还包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。
优选地,所述推送模块包括:
第一解析单元,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
第一排序单元,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第一插入单元,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;
第二推送单元,用于将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
优选地,所述推送模块包括:
第二解析单元,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
第二排序单元,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第二插入单元,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;
第三推送单元,用于将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
优选地,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。
本发明提供的新闻内容的推送方法及系统,通过在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器,然后控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别,然后控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容,并将获取的新闻内容推送给该用户的所述客户端,从而使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种新闻内容的推送方法。参照图1,图1为本发明新闻内容的推送方法第一实施例的流程示意图,本发明提出的新闻内容的推送方法包括以下步骤:
步骤S10,在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,所述客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
在本实施例中,客户端可以为手机、平板电脑、笔记本以及所有可以联网的终端等。客户端的新闻内容监控模块可以实时或定时监测浏览器是否处于运行状态以及在浏览器处于运行状态时,浏览器是否在访问新闻服务器,以及是否获取新闻服务器上的新闻内容。在新闻内容监控模块监测到浏览器获取新闻服务器上的新闻内容时,则新闻内容监控模块记录该新闻内容的属性数据。
可选的,预先确定的分析模型为逻辑回归模型,所述逻辑回归模型的训练过程如下:
E、获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
可选的,预设数量可以设置的足够大,以确保分析的准确性。例如,预设数量可以设置为50万份。预设的关键词例如可以为美元加息、人民币汇率、房价调控等,具体可以根据实际需要进行设置。
F、从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
第一预设比例可以根据实际需要进行设置,例如可以设置为70%。因此,则将剩余的30%的新闻样本数据作为测试集。
G、对训练集和测试集中的各个新闻样本进行分词处理;
例如,对各个新闻样本的新闻文本,由一个词库作为基础,以词频为标准,获得最有可能的一个分词方案,如可以将“南京市长江大桥”,划分为:“南京市/长江/大桥”。
H、对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
预设类型特征例如可以为词频、词序等特征。训练参数例如可以为数字或者数列,常见的训练参数转化方法包括TF-IDF(词频-逆文档频率)方法,即将每个词赋予一个维度,每篇文章在这个维度上的值是“该词出现在本文中的概率”/“出现该词的文章频率”。
I、将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
J、将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并重新执行步骤F、G、H、I和J,直到测试的准确率大于等于预设阈值。
预设阈值的大小可以根据实际需要进行设置,例如可以为95%。
本实施例提供的预先确定的分析模型,能够准确的进行新闻内容的属性数据分析,准确性和可靠性较高。
步骤S20,所述控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
例如,阅读标签可以为体育、娱乐、房产等。
在本实施例中,预先确定的分析规则可以包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
第一预设时间例如可以为最近7天内。新闻类别例如可以为体育类新闻。第一预设阈值例如可以为10次。即,在用户在最近7天内若阅读体育类新闻的次数大于10次,则认为体育新闻类别为该用户偏好的新闻类别。
第二预设时间例如可以为最近90天内,新闻类别例如可以为体育类新闻,第二预设阈值例如可以为30次。即,在用户在最近90天内阅读体育类新闻的次数大于30次,则认为体育新闻类别为该用户偏好的新闻类别。
进一步的,基于上述,所述阅读标签还可以包括偏好的阅读时间段,所述预先确定的分析规则还可以包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;第三预设时间例如可以为最近6天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第三预设阈值例如可以为4次。即,若用户在最近6天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于4次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;第四预设时间例如可以为最近5天,时间段例如可以为8:30—9:30,第四预设阈值例如可以为8次。即,若用户在最近5天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于8次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;第五预设时间例如可以为最近80天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第五预设阈值例如可以为14次。即,若用户在最近80天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于14次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。第六预设时间例如可以为最近85天,时间段例如可以为8:30—9:30,第六预设阈值例如可以为28次。即,若用户在最近85天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于28次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
步骤S30,所述控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
步骤S40,所述控制服务器将获取的新闻内容推送给该用户的所述客户端。
例如,若该用户对应的阅读标签表明偏好的新闻类别为体育,则所述控制服务器实时或者定时从至少一个新闻服务器获取属于体育类别且还未被推送给该用户的新闻内容,并将获取的新闻内容推送至客户端。
本发明提供的新闻内容的推送方法,通过在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器,然后控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别,然后控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容,并将获取的新闻内容推送给该用户的所述客户端,从而使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。
进一步的,基于本发明新闻内容的推送方法的第一实施例,本发明还提出了新闻内容的推送方法的第二实施例,参照图2,图2为本发明新闻内容的推送方法第二实施例的流程示意图,在本实施例中,与第一实施例不同的是,所述步骤S40替换为:
步骤S401,所述控制服务器与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
步骤S402,所述控制服务器将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
在本实施例中,社交服务器例如可以为微信服务器、QQ服务器、微博服务器等。若该用户的微信群中有一个足球群,则该足球群中的其他用户均可以称之为与该用户属于同一社交群组的其他用户。若该用户偏好的新闻类别为体育新闻类别,则该足球群中的其他用户很可能偏好的新闻类别也为体育新闻类别。因此,可以将服务器获取的与体育阅读标签关联的新闻内容推送给该用户的客户端,并同时推送给确定出的足球群中的其他用户的客户端。
本实施例通过确定用户的社交群组的其他用户,并根据该用户的阅读习惯向其社交群组的其他用户推送新闻内容,从而进一步扩大了新闻客户群,更有效地实现了根据用户的阅读习惯有针对性的推送新闻内容。
进一步的,基于本发明新闻内容的推送方法的第一或第二实施例,本发明还提出了新闻内容的推送方法的第三实施例,参照图3,图3为本发明新闻内容的推送方法第三实施例的流程示意图,在本实施例中,与第一或第二实施例不同的是,于所述步骤S20之后,该方法还包括:
步骤S50,所述控制服务器实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
在本实施例中,例如,理财类标签可以对应设置金融产品业务,若用户的阅读标签为理财类标签,则该用户的理财类标签相关联的业务为金融产品业务,可以将该金融产品业务推送给用户的客户端。
本实施例通过根据用户的阅读习惯向用户推送关联的业务,从而进一步扩大了推送数据的范围,并给用户带来了便利,也给商家带来了经济效益。
进一步的,基于本发明新闻内容的推送方法的第一至第三任一实施例,本发明还提出了新闻内容的推送方法的第四实施例,参照图4,图4为本发明新闻内容的推送方法第四实施例中新闻内容推送步骤的细化流程示意图,在本实施例中,与第一至第三实施例不同的是,所述步骤S40包括:
步骤S403,所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。
步骤S404,所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
步骤S405,所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
步骤S406,所述控制服务器将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
进一步的,基于本发明新闻内容的推送方法的第一至第三任一实施例,本发明还提出了新闻内容的推送方法的第五实施例,参照图5,图5为本发明新闻内容的推送方法第五实施例中新闻内容推送步骤的细化流程示意图,在本实施例中,与第一至第三实施例不同的是,所述步骤S40包括:
步骤S407,所述控制服务器根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。延伸性内容可以为与相关频率新闻内容关联的内容。
步骤S408,所述控制服务器对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
步骤S409,所述控制服务器在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
步骤S410,所述控制服务器将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容的延伸性内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
本发明进一步提供一种新闻内容的推送系统。参照图6,图6为本发明新闻内容的推送系统第一实施例的功能模块示意图,本发明提供的新闻内容的推送系统包括客户端100和控制服务器200,所述客户端100包括新闻内容监控模块110,所述控制服务器200包括分析模块210、获取模块220和推送模块230;
所述新闻内容监控模块110用于在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器;
在本实施例中,客户端可以为手机、平板电脑、笔记本以及所有可以联网的终端等。客户端的新闻内容监控模块可以实时或定时监测浏览器是否处于运行状态以及在浏览器处于运行状态时,浏览器是否在访问新闻服务器,以及是否获取新闻服务器上的新闻内容。在新闻内容监控模块监测到浏览器获取新闻服务器上的新闻内容时,则新闻内容监控模块记录该新闻内容的属性数据。
可选的,所述预先确定的分析模型为逻辑回归模型,参照图7,图7为本发明新闻内容的推送系统中新闻内容监控模块的细化功能模块示意图,所述新闻内容监控模块110包括:
新闻样本获取单元111,用于获取预设数量的新闻样本数据,并采用人工方式对该用户阅读的新闻进行分类,以获得各个分类对应的新闻样本数据集合,或者,通过预设的关键词搜集新闻,以获得各个预设关键词对应的新闻样本数据集合;
可选的,预设数量可以设置的足够大,以确保分析的准确性。例如,预设数量可以设置为50万份。预设的关键词例如可以为美元加息、人民币汇率、房价调控等,具体可以根据实际需要进行设置。
训练集提取单元112,用于从各个所述新闻样本数据集合中提取出第一预设比例的新闻样本数据作为训练集,并将各个所述新闻样本数据集合中剩余的新闻样本数据作为测试集;
第一预设比例可以根据实际需要进行设置,例如可以设置为70%。因此,则将剩余的30%的新闻样本数据作为测试集。
分词处理单元113,用于对训练集和测试集中的各个新闻样本进行分词处理;
例如,对各个新闻样本的新闻文本,由一个词库作为基础,以词频为标准,获得最有可能的一个分词方案,如可以将“南京市长江大桥”,划分为:“南京市/长江/大桥”。
训练参数生成单元114,用于对分词处理后的新闻文本特征提取,以提取出各个新闻文本中各个分词按照在文本中的预设类型特征,并将各个新闻文本对应的预设类型特征转化成所述逻辑回归模型的训练参数;
预设类型特征例如可以为词频、词序等特征。训练参数例如可以为数字或者数列,常见的训练参数转化方法包括TF-IDF(词频-逆文档频率)方法,即将每个词赋予一个维度,每篇文章在这个维度上的值是“该词出现在本文中的概率”/“出现该词的文章频率”。
回归模型生成单元115,用于将训练集中的各个新闻文本对应的训练参数输入到所述逻辑回归模型中进行训练,以生成待用于进行新闻内容的属性数据分析的逻辑回归模型;
测试单元116,用于将测试集中的各个新闻文本对应的训练参数输入到生成的逻辑回归模型中以进行测试,若测试的准确率大于等于预设阈值,则结束训练,或者,若测试的准确率小于预设阈值,则增加新闻样本数据,并返回调用所述新闻样本获取单元111、训练集提取单元112、分词处理单元113、训练参数生成单元114以及回归模型生成单元115,直到测试的准确率大于等于预设阈值。
预设阈值的大小可以根据实际需要进行设置,例如可以为95%。
本实施例提供的预先确定的分析模型,能够准确的进行新闻内容的属性数据分析,准确性和可靠性较高。
所述分析模块210用于根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别;
例如,阅读标签可以为体育、娱乐、房产等。
在本实施例中,预先确定的分析规则可以包括:
若第一预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第一预设阈值,则确定该新闻类别为偏好的新闻类别;
若第二预设时间内,该用户针对一个新闻类别下的新闻内容的阅读次数大于第二预设阈值,则确定该新闻类别为偏好的新闻类别,所述第二预设时间大于所述第一预设时间。
第一预设时间例如可以为最近7天内。新闻类别例如可以为体育类新闻。第一预设阈值例如可以为10次。即,在用户在最近7天内若阅读体育类新闻的次数大于10次,则认为体育新闻类别为该用户偏好的新闻类别。
第二预设时间例如可以为最近90天内,新闻类别例如可以为体育类新闻,第二预设阈值例如可以为30次。即,在用户在最近90天内阅读体育类新闻的次数大于30次,则认为体育新闻类别为该用户偏好的新闻类别。
进一步的,基于上述,所述阅读标签还可以包括偏好的阅读时间段,所述预先确定的分析规则还可以包括:
若第三预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第三预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第三预设时间与所述第一预设时间相同或者不同;第三预设时间例如可以为最近6天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第三预设阈值例如可以为4次。即,若用户在最近6天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于4次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第四预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第四预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第四预设时间与所述第一预设时间相同或者不同;第四预设时间例如可以为最近5天,时间段例如可以为8:30—9:30,第四预设阈值例如可以为8次。即,若用户在最近5天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于8次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
若第五预设时间内,该用户在一个时间段,针对一个新闻类别下的新闻内容的阅读次数大于第五预设阈值,则确定该时间段是该用户针对该新闻类别的偏好的阅读时间段,所述第五预设时间与所述第二预设时间相同或者不同;第五预设时间例如可以为最近80天,时间段例如可以为8:30—9:30,新闻类别例如可以为体育新闻类别,第五预设阈值例如可以为14次。即,若用户在最近80天内的8:30—9:30的时间段内,累计阅读体育新闻类别的次数大于14次,则认为时间段8:30—9:30为该用户针对体育新闻类别的偏好的阅读时间段。
若第六预设时间内,该用户在一个时间段,针对所有新闻类别下的新闻内容的阅读次数大于第六预设阈值,则确定该时间段是该用户针对所有新闻类别的偏好的阅读时间段,所述第六预设时间与所述第二预设时间相同或者不同。第六预设时间例如可以为最近85天,时间段例如可以为8:30—9:30,第六预设阈值例如可以为28次。即,若用户在最近85天内的8:30—9:30的时间段内,累计阅读所有新闻类别的次数大于28次,则认为时间段8:30—9:30为该用户针对所有新闻类别的偏好的阅读时间段。
所述获取模块220用于实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容;
所述推送模块230用于将获取的新闻内容推送给该用户的所述客户端。
例如,若该用户对应的阅读标签表明偏好的新闻类别为体育,则所述控制服务器实时或者定时从至少一个新闻服务器获取属于体育类别且还未被推送给该用户的新闻内容,并将获取的新闻内容推送至客户端。
本发明提供的新闻内容的推送系统,通过在用户通过客户端的浏览器系统访问新闻服务器阅读新闻内容时,客户端的新闻内容监控模块按照预先确定的分析模型分析并记录该用户阅读的新闻内容的属性数据,并实时或者定时将记录的新闻内容的属性数据发送给控制服务器,然后控制服务器根据预先确定的分析规则对接收的该用户对应的新闻内容的属性数据进行分析,以分析出该用户对应的阅读标签,所述阅读标签包括偏好的新闻类别,然后控制服务器实时或者定时从至少一个新闻服务器获取与该用户对应的阅读标签关联的新闻内容,并将获取的新闻内容推送给该用户的所述客户端,从而使得控制服务器能够明确新闻客户群,并根据用户的阅读习惯有针对性的推送新闻内容,避免了新闻内容的重复,避免了新闻内容版权纠纷的现象产生。
进一步的,基于本发明新闻内容的推送系统的第一实施例,本发明还提出了新闻内容的推送系统的第二实施例,参照图8,图8为本发明新闻内容的推送系统第二实施例中推送模块的细化功能模块示意图,在本实施例中,与第一实施例不同的是,所述推送模块230包括:
确定单元2311,用于与多个社交服务器通信连接,确定出与该用户属于同一社交群组的其他用户;
第一推送单元2312,用于将获取的新闻内容推送给该用户的所述客户端,及/或,推送给确定出的其他用户的客户端。
在本实施例中,社交服务器例如可以为微信服务器、QQ服务器、微博服务器等。若该用户的微信群中有一个足球群,则该足球群中的其他用户均可以称之为与该用户属于同一社交群组的其他用户。若该用户偏好的新闻类别为体育新闻类别,则该足球群中的其他用户很可能偏好的新闻类别也为体育新闻类别。因此,可以将服务器获取的与体育阅读标签关联的新闻内容推送给该用户的客户端,并同时推送给确定出的足球群中的其他用户的客户端。
本实施例通过确定用户的社交群组的其他用户,并根据该用户的阅读习惯向其社交群组的其他用户推送新闻内容,从而进一步扩大了新闻客户群,更有效地实现了根据用户的阅读习惯有针对性的推送新闻内容。
进一步的,基于本发明新闻内容的推送系统的第一或第二实施例,本发明还提出了新闻内容的推送系统的第三实施例,在本实施例中,与第一或第二实施例不同的是,所述推送模块230还用于实时或者定时按照预先确定的阅读标签和业务类型的关联关系,确定出与该用户对应的阅读标签关联的业务,并将确定出的业务推送给该用户的所述客户端。
在本实施例中,例如,理财类标签可以对应设置金融产品业务,若用户的阅读标签为理财类标签,则该用户的理财类标签相关联的业务为金融产品业务,可以将该金融产品业务推送给用户的客户端。
本实施例通过根据用户的阅读习惯向用户推送关联的业务,从而进一步扩大了推送数据的范围,并给用户带来了便利,也给商家带来了经济效益。
进一步的,基于本发明新闻内容的推送系统的第一至第三任一实施例,本发明还提出了新闻内容的推送系统的第四实施例,参照图9,图9为本发明新闻内容的推送系统第四实施例中推送模块的细化功能模块示意图,在本实施例中,与第一至第三实施例不同的是,所述推送模块230包括:
第一解析单元232,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。
第一排序单元233,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第一插入单元234,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的标题及/或链接网址按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
第二推送单元235,用于将各个带有关联的延伸新闻内容的标题及/或链接网址的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
进一步的,基于本发明新闻内容的推送系统的第一至第三任一实施例,本发明还提出了新闻内容的推送系统的第五实施例,参照图10,图10为本发明新闻内容的推送系统第五实施例中推送模块的细化功能模块示意图,在本实施例中,与第一至第三实施例不同的是,所述推送模块230包括:
第二解析单元236,用于根据预先确定的解析规则,对获取的新闻内容进行解析,以解析出各个原始新闻内容,及与各个原始新闻内容关联的延伸新闻内容,及各个延伸新闻内容中的延伸性内容;
在本实施例中,可选的,所述预先确定的解析规则包括:
若多个新闻内容对应同一个标题信息,则将发布时间最早的新闻内容作为原始新闻内容,并将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;
若一个新闻内容的标题信息出现在至少一个其他新闻内容的预先确定的位置,所述预先确定的位置的内容格式是第一预设格式,且该新闻内容的标题信息与各个所述其他新闻内容的标题信息不一致,则确定该新闻内容为原始新闻内容,而将各个所述其他新闻内容作为与该新闻内容关联的延伸新闻内容;在本实施例中,预先确定的位置例如可以为第一段位置。第一预设格式例如可以为“原标题:XXX”。
在各个延伸新闻内容中,确定出预设位置的第二预设格式的内容,并将确定出的第二预设格式的内容作为对应的延伸性内容。预设位置例如可以为正文的第一段及第二段。第二预设格式例如可以为包括“XXX援引XXX报道XXX”、“据XX报道”、“XXX E地点F月G日电(例如,中新网重庆4月21日电)”等字段的格式。
延伸新闻内容例如可以为对原始新闻内容进行论述的相关评论新闻内容。延伸性内容可以为与相关频率新闻内容关联的内容。
第二排序单元237,用于对各个原始新闻内容关联的延伸新闻内容按照发布时间的先后顺序进行排序;
第二插入单元238,用于在各个原始新闻内容页面的预设位置,将关联的所有延伸新闻内容的延伸性内容按照对应的排序顺序插入;预设位置例如可以设置为页面最下方的空白位置。
第三推送单元239,用于将各个带有关联的延伸新闻内容的延伸性内容的原始新闻内容发送给该用户的所述客户端。
本实施例通过进一步根据用户的阅读习惯确定原始新闻内容以及与原始新闻内容关联的延伸新闻内容的延伸性内容,从而进一步扩大了推送数据的范围,使得推送的新闻内容更加丰富,更加符合用户的阅读习惯。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。