CN110955816B

CN110955816B - 基于内容标签的聚合主题内容的方法

Info

Publication number: CN110955816B
Application number: CN201911089325.0A
Authority: CN
Inventors: 李森和
Original assignee: GUANGZHOU JIANHE NETWORK TECHNOLOGY CO LTD
Current assignee: GUANGZHOU JIANHE NETWORK TECHNOLOGY CO LTD
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2022-11-08
Anticipated expiration: 2039-11-08
Also published as: CN110955816A

Abstract

本发明属于信息技术内容处理领域，尤其是一种基于内容标签的聚合主题内容的方法，针对现有的泛在网络中的信息资源呈爆炸式增长，造成信息资源的重复和过载问题，从而影响用户获取和利用信息资源，并且网络的文章内容参差不齐，大多文章是都是挂羊头卖狗肉，这让追求某个品牌，某个话题内容的用户找不整体高质量的文章的问题，现提出如下方案，其包括以下步骤：S1：基于“内外网内容信息”进行标签聚合主题内容流程处理，然后执行S2；S2：基于“内外网内容信息”储存于分布式发布订阅消息系统中，本发明基于根据不同的扎堆属性、主题来进行内容的聚合，使用户更好的找到相关的内容，也为用户提供更好、更高质量的文章。

Description

基于内容标签的聚合主题内容的方法

技术领域

本发明涉及信息技术内容处理技术领域，尤其涉及一种基于内容标签的聚合主题内容的方法。

背景技术

随着互联网技术的不断发展，在互联网上传播的信息量不断的增多，人们越来越喜欢在互联网上浏览各类文章以及文章评论，同时也随着生活水平的提高，人们对文章内容的追求也精益求精；但目前，泛在网络中的信息资源呈爆炸式增长，造成信息资源的重复和过载问题，从而影响用户获取和利用信息资源，并且网络的文章内容参差不齐，大多文章是都是挂羊头卖狗肉，这让追求某个品牌，某个话题内容的用户找不整体高质量的文章；信息组织能使泛在网络中复杂无序的原始信息变成一个有序、精良的信息系统，减轻信息过载的负面影响。内容聚合作为适应泛在网络环境下信息组织的有效模式，对泛在网络中的海量信息进行挑选、分析、归类，最后为用户提供有价值的、更具针对性的信息；

因此，本发明基于根据不同的扎堆属性、主题来进行内容的聚合，使用户更好的找到相关的内容，也为用户提供更好、更高质量的文章。

发明内容

本发明的目的是为了解决现有技术中存在泛在网络中的信息资源呈爆炸式增长，造成信息资源的重复和过载问题，从而影响用户获取和利用信息资源，并且网络的文章内容参差不齐，大多文章是都是挂羊头卖狗肉，这让追求某个品牌，某个话题内容的用户找不整体高质量的文章的缺点，而提出的基于内容标签的聚合主题内容的方法。

为了实现上述目的，本发明采用了如下技术方案：

基于内容标签的聚合主题内容的方法，包括以下步骤：

S1：基于“内外网内容信息”进行标签聚合主题内容流程处理，然后执行S2；

S2：基于“内外网内容信息”储存于分布式发布订阅消息系统中，实现标签聚合主题内容过程中创建对应的消费者以获取内容信息，如果获取到内容信息则执行S3；

S3：判断文章是否符合指定的基础条件，如果符合条件则执行S4，否则则记录log记录；

S4：获取启用符合的扎堆基本信息，如果有符合的扎堆信息，则执行S5，否则则记录log记录；

S5：检查文章是否符合本地媒体原创数据原创内容，符合则执行S6，否则则记录log记录；

S6：检查文章是否已入过对应的扎堆，如果不存在则继续执行S7，否则则记录log记录；

S7：判断文章是否符合媒体绑定，符合则执行S9，进行内容的simhash去重复，入堆，如果不符合则继续执行S8；

S8：根据对应的堆绑定的标签进行匹配和作者过滤，如果符合则执行S9，进行去重复入堆，否则则记录log记录；

S9：进行内容的simhash去重复，入堆；

S10：对内容信息进行判断，按照内容进行分类。

优选的，所述S1中，内外网内容信息由ZAKER全网数据信息、微信数据信息和微博信息组成，“内外网内容信息”储存于一种高吞吐量的分布式发布订阅消息储存系统中，用以实现专利范例过程中可便捷获取内容信息。

优选的，所述S9中，不同的内容simhash值，根据动态海明距离来去重，让入堆内容根据不同的性质入堆准确率提高，根据不同堆的动态海明距离来准入分发内容。

优选的，所述S9中，对入堆的内容信息的字数进行检索，根据字数进行初步排列，然后对内容信息进行分类，信息分类可按照行业进行分类。

优选的，所述S10中，用户根据自身需求对建立类目，将入堆文章按照类别放入对应的类目内进行存储。

优选的，所述S3中，判断文章是否符合指定的基础条件，然后对文章的来源进行记录，并将文章的来源打上标签，并按照文章来源频率对ZAKER全网数据信息、微信数据信息和微博信息进行分级，判断出符合基础条件的文章在哪里出现的频率最高，后续可重点在该内容来源处获取文章。

优选的，所述S3中，对基础条件进行预设，对文章进行审核，并将审核结果与预设值进行对比，不符合的文章进行标记，后续内容先与不符合文章进行匹配，发现重复可直接剔除。

优选的，所述S3中，判断文章是否符合指定的基础条件，并对文章的安全性进行检索，如果发生文章有违法信息，对文章进行记录，进行举报。

与现有技术相比，本发明的有益效果在于：

本方案判断文章所属媒体是否是绑定指定堆，这更好的让内容更加统一，提高用户堆文章的阅读兴趣；

不同的内容simhash值，根据动态海明距离来去重，让入堆内容根据不同的性质入堆准确率提高；

运用simhash去重加根据不同堆的动态海明距离来准入分发内容；

本发明基于根据不同的扎堆属性、主题来进行内容的聚合，使用户更好的找到相关的内容，也为用户提供更好、更高质量的文章。

附图说明

图1为本发明实施例实现过程中内容标签聚合主题内容所需的内容信息来源流程图、内容信息与“内容标签的聚合主题内容的方法”的联系流程图；

图2为本发明提出的基于内容标签的聚合主题内容的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例一

参照图1，基于内容标签的聚合主题内容的方法，包括如下步骤：

S1、利用ZAKER全网数据信息，根据关键词采集百度数据信息、采集微信数据信息、采集微博信息，在本专利研究中统称为“内外网内容信息”，基于以上内容信息进行标签聚合主题内容流程处理，“内外网内容信息”储存于一种高吞吐量的分布式发布订阅消息储存系统中，用以实现专利范例过程中可便捷获取内容信息，然后执行S2。

S2、基于“内外网内容信息”储存于分布式发布订阅消息系统中，实现标签聚合主题内容过程中创建对应的消费者以获取内容信息。如果获取到内容信息则执行S1。

实施例二

参照图2，基于内容标签的聚合主题内容的方法，包括以下步骤：

S3：判断文章是否符合指定的基础条件，如果符合条件则执行S4，判断文章是否符合指定的基础条件，然后对文章的来源进行记录，并将文章的来源打上标签，并按照文章来源频率对ZAKER全网数据信息、微信数据信息和微博信息进行分级，判断出符合基础条件的文章在哪里出现的频率最高，后续可重点在该内容来源处获取文章，对基础条件进行预设，对文章进行审核，并将审核结果与预设值进行对比，不符合的文章进行标记，后续内容先与不符合文章进行匹配，发现重复可直接剔除，判断文章是否符合指定的基础条件，并对文章的安全性进行检索，如果发生文章有违法信息，对文章进行记录，进行举报；

S4：获取启用符合的扎堆基本信息，如果有符合的扎堆信息，则执行S5；

S5：检查文章是否符合本地媒体原创数据原创内容，符合则执行S6；

S6：检查文章是否已入过对应的扎堆，如果不存在则继续执行S7；

S8：根据对应的堆绑定的标签进行匹配和作者过滤，如果符合则执行S9，进行去重复入堆；

S9：进行内容的simhash去重复，入堆，不同的内容simhash值，根据动态海明距离来去重，让入堆内容根据不同的性质入堆准确率提高，根据不同堆的动态海明距离来准入分发内容，对入堆的内容信息的字数进行检索，根据字数进行初步排列，然后对内容信息进行分类，信息分类可按照行业进行分类；

S10：对内容信息进行判断，按照内容进行分类，用户根据自身需求对建立类目，将入堆文章按照类别放入对应的类目内进行存储。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于内容标签的聚合主题内容的方法，其特征在于，包括以下步骤：

S3：判断文章是否符合指定的基础条件，如果符合条件则执行S4；

S9：进行内容的simhash去重复，入堆；

S10：对内容信息进行判断，按照内容进行分类；

内外网内容信息由ZAKER全网数据信息、微信数据信息和微博信息组成，“内外网内容信息”储存于一种高吞吐量的分布式发布订阅消息储存系统中；

所述S9中，不同的内容simhash值，根据动态海明距离来去重，让入堆内容根据不同的性质入堆准确率提高，根据不同堆的动态海明距离来准入分发内容；

所述S9中，对入堆的内容信息的字数进行检索，根据字数进行初步排列，然后对内容信息进行分类，信息分类可按照行业进行分类；

所述S3中，判断文章是否符合指定的基础条件，然后对文章的来源进行记录，并将文章的来源打上标签，并按照文章来源频率对ZAKER全网数据信息、微信数据信息和微博信息进行分级，判断出符合基础条件的文章在哪里出现的频率最高；

所述S3中，对基础条件进行预设，对文章进行审核，并将审核结果与预设值进行对比，不符合的文章进行标记，后续内容先与不符合文章进行匹配，发现重复直接剔除。

2.根据权利要求1所述的基于内容标签的聚合主题内容的方法，其特征在于，所述S10中，用户根据自身需求对建立类目，将入堆文章按照类别放入对应的类目内进行存储。

3.根据权利要求1所述的基于内容标签的聚合主题内容的方法，其特征在于，所述S3中，判断文章是否符合指定的基础条件，并对文章的安全性进行检索，如果发生文章有违法信息，对文章进行记录，进行举报。