CN110955816B - 基于内容标签的聚合主题内容的方法 - Google Patents
基于内容标签的聚合主题内容的方法 Download PDFInfo
- Publication number
- CN110955816B CN110955816B CN201911089325.0A CN201911089325A CN110955816B CN 110955816 B CN110955816 B CN 110955816B CN 201911089325 A CN201911089325 A CN 201911089325A CN 110955816 B CN110955816 B CN 110955816B
- Authority
- CN
- China
- Prior art keywords
- content
- information
- articles
- article
- executing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Abstract
本发明属于信息技术内容处理领域,尤其是一种基于内容标签的聚合主题内容的方法,针对现有的泛在网络中的信息资源呈爆炸式增长,造成信息资源的重复和过载问题,从而影响用户获取和利用信息资源,并且网络的文章内容参差不齐,大多文章是都是挂羊头卖狗肉,这让追求某个品牌,某个话题内容的用户找不整体高质量的文章的问题,现提出如下方案,其包括以下步骤:S1:基于“内外网内容信息”进行标签聚合主题内容流程处理,然后执行S2;S2:基于“内外网内容信息”储存于分布式发布订阅消息系统中,本发明基于根据不同的扎堆属性、主题来进行内容的聚合,使用户更好的找到相关的内容,也为用户提供更好、更高质量的文章。
Description
技术领域
本发明涉及信息技术内容处理技术领域,尤其涉及一种基于内容标签的聚合主题内容的方法。
背景技术
随着互联网技术的不断发展,在互联网上传播的信息量不断的增多,人们越来越喜欢在互联网上浏览各类文章以及文章评论,同时也随着生活水平的提高,人们对文章内容的追求也精益求精;但目前,泛在网络中的信息资源呈爆炸式增长,造成信息资源的重复和过载问题,从而影响用户获取和利用信息资源,并且网络的文章内容参差不齐,大多文章是都是挂羊头卖狗肉,这让追求某个品牌,某个话题内容的用户找不整体高质量的文章;信息组织能使泛在网络中复杂无序的原始信息变成一个有序、精良的信息系统,减轻信息过载的负面影响。内容聚合作为适应泛在网络环境下信息组织的有效模式,对泛在网络中的海量信息进行挑选、分析、归类,最后为用户提供有价值的、更具针对性的信息;
因此,本发明基于根据不同的扎堆属性、主题来进行内容的聚合,使用户更好的找到相关的内容,也为用户提供更好、更高质量的文章。
发明内容
本发明的目的是为了解决现有技术中存在泛在网络中的信息资源呈爆炸式增长,造成信息资源的重复和过载问题,从而影响用户获取和利用信息资源,并且网络的文章内容参差不齐,大多文章是都是挂羊头卖狗肉,这让追求某个品牌,某个话题内容的用户找不整体高质量的文章的缺点,而提出的基于内容标签的聚合主题内容的方法。
为了实现上述目的,本发明采用了如下技术方案:
基于内容标签的聚合主题内容的方法,包括以下步骤:
S1:基于“内外网内容信息”进行标签聚合主题内容流程处理,然后执行S2;
S2:基于“内外网内容信息”储存于分布式发布订阅消息系统中,实现标签聚合主题内容过程中创建对应的消费者以获取内容信息,如果获取到内容信息则执行S3;
S3:判断文章是否符合指定的基础条件,如果符合条件则执行S4,否则则记录log记录;
S4:获取启用符合的扎堆基本信息,如果有符合的扎堆信息,则执行S5,否则则记录log记录;
S5:检查文章是否符合本地媒体原创数据原创内容,符合则执行S6,否则则记录log记录;
S6:检查文章是否已入过对应的扎堆,如果不存在则继续执行S7,否则则记录log记录;
S7:判断文章是否符合媒体绑定,符合则执行S9,进行内容的simhash去重复,入堆,如果不符合则继续执行S8;
S8:根据对应的堆绑定的标签进行匹配和作者过滤,如果符合则执行S9,进行去重复入堆,否则则记录log记录;
S9:进行内容的simhash去重复,入堆;
S10:对内容信息进行判断,按照内容进行分类。
优选的,所述S1中,内外网内容信息由ZAKER全网数据信息、微信数据信息和微博信息组成,“内外网内容信息”储存于一种高吞吐量的分布式发布订阅消息储存系统中,用以实现专利范例过程中可便捷获取内容信息。
优选的,所述S9中,不同的内容simhash值,根据动态海明距离来去重,让入堆内容根据不同的性质入堆准确率提高,根据不同堆的动态海明距离来准入分发内容。
优选的,所述S9中,对入堆的内容信息的字数进行检索,根据字数进行初步排列,然后对内容信息进行分类,信息分类可按照行业进行分类。
优选的,所述S10中,用户根据自身需求对建立类目,将入堆文章按照类别放入对应的类目内进行存储。
优选的,所述S3中,判断文章是否符合指定的基础条件,然后对文章的来源进行记录,并将文章的来源打上标签,并按照文章来源频率对ZAKER全网数据信息、微信数据信息和微博信息进行分级,判断出符合基础条件的文章在哪里出现的频率最高,后续可重点在该内容来源处获取文章。
优选的,所述S3中,对基础条件进行预设,对文章进行审核,并将审核结果与预设值进行对比,不符合的文章进行标记,后续内容先与不符合文章进行匹配,发现重复可直接剔除。
优选的,所述S3中,判断文章是否符合指定的基础条件,并对文章的安全性进行检索,如果发生文章有违法信息,对文章进行记录,进行举报。
与现有技术相比,本发明的有益效果在于:
本方案判断文章所属媒体是否是绑定指定堆,这更好的让内容更加统一,提高用户堆文章的阅读兴趣;
不同的内容simhash值,根据动态海明距离来去重,让入堆内容根据不同的性质入堆准确率提高;
运用simhash去重加根据不同堆的动态海明距离来准入分发内容;
本发明基于根据不同的扎堆属性、主题来进行内容的聚合,使用户更好的找到相关的内容,也为用户提供更好、更高质量的文章。
附图说明
图1为本发明实施例实现过程中内容标签聚合主题内容所需的内容信息来源流程图、内容信息与“内容标签的聚合主题内容的方法”的联系流程图;
图2为本发明提出的基于内容标签的聚合主题内容的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
参照图1,基于内容标签的聚合主题内容的方法,包括如下步骤:
S1、利用ZAKER全网数据信息,根据关键词采集百度数据信息、采集微信数据信息、采集微博信息,在本专利研究中统称为“内外网内容信息”,基于以上内容信息进行标签聚合主题内容流程处理,“内外网内容信息”储存于一种高吞吐量的分布式发布订阅消息储存系统中,用以实现专利范例过程中可便捷获取内容信息,然后执行S2。
S2、基于“内外网内容信息”储存于分布式发布订阅消息系统中,实现标签聚合主题内容过程中创建对应的消费者以获取内容信息。如果获取到内容信息则执行S1。
实施例二
参照图2,基于内容标签的聚合主题内容的方法,包括以下步骤:
S3:判断文章是否符合指定的基础条件,如果符合条件则执行S4,判断文章是否符合指定的基础条件,然后对文章的来源进行记录,并将文章的来源打上标签,并按照文章来源频率对ZAKER全网数据信息、微信数据信息和微博信息进行分级,判断出符合基础条件的文章在哪里出现的频率最高,后续可重点在该内容来源处获取文章,对基础条件进行预设,对文章进行审核,并将审核结果与预设值进行对比,不符合的文章进行标记,后续内容先与不符合文章进行匹配,发现重复可直接剔除,判断文章是否符合指定的基础条件,并对文章的安全性进行检索,如果发生文章有违法信息,对文章进行记录,进行举报;
S4:获取启用符合的扎堆基本信息,如果有符合的扎堆信息,则执行S5;
S5:检查文章是否符合本地媒体原创数据原创内容,符合则执行S6;
S6:检查文章是否已入过对应的扎堆,如果不存在则继续执行S7;
S7:判断文章是否符合媒体绑定,符合则执行S9,进行内容的simhash去重复,入堆,如果不符合则继续执行S8;
S8:根据对应的堆绑定的标签进行匹配和作者过滤,如果符合则执行S9,进行去重复入堆;
S9:进行内容的simhash去重复,入堆,不同的内容simhash值,根据动态海明距离来去重,让入堆内容根据不同的性质入堆准确率提高,根据不同堆的动态海明距离来准入分发内容,对入堆的内容信息的字数进行检索,根据字数进行初步排列,然后对内容信息进行分类,信息分类可按照行业进行分类;
S10:对内容信息进行判断,按照内容进行分类,用户根据自身需求对建立类目,将入堆文章按照类别放入对应的类目内进行存储。
本发明基于根据不同的扎堆属性、主题来进行内容的聚合,使用户更好的找到相关的内容,也为用户提供更好、更高质量的文章。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.基于内容标签的聚合主题内容的方法,其特征在于,包括以下步骤:
S1:基于“内外网内容信息”进行标签聚合主题内容流程处理,然后执行S2;
S2:基于“内外网内容信息”储存于分布式发布订阅消息系统中,实现标签聚合主题内容过程中创建对应的消费者以获取内容信息,如果获取到内容信息则执行S3;
S3:判断文章是否符合指定的基础条件,如果符合条件则执行S4;
S4:获取启用符合的扎堆基本信息,如果有符合的扎堆信息,则执行S5;
S5:检查文章是否符合本地媒体原创数据原创内容,符合则执行S6;
S6:检查文章是否已入过对应的扎堆,如果不存在则继续执行S7;
S7:判断文章是否符合媒体绑定,符合则执行S9,进行内容的simhash去重复,入堆,如果不符合则继续执行S8;
S8:根据对应的堆绑定的标签进行匹配和作者过滤,如果符合则执行S9,进行去重复入堆;
S9:进行内容的simhash去重复,入堆;
S10:对内容信息进行判断,按照内容进行分类;
内外网内容信息由ZAKER全网数据信息、微信数据信息和微博信息组成,“内外网内容信息”储存于一种高吞吐量的分布式发布订阅消息储存系统中;
所述S9中,不同的内容simhash值,根据动态海明距离来去重,让入堆内容根据不同的性质入堆准确率提高,根据不同堆的动态海明距离来准入分发内容;
所述S9中,对入堆的内容信息的字数进行检索,根据字数进行初步排列,然后对内容信息进行分类,信息分类可按照行业进行分类;
所述S3中,判断文章是否符合指定的基础条件,然后对文章的来源进行记录,并将文章的来源打上标签,并按照文章来源频率对ZAKER全网数据信息、微信数据信息和微博信息进行分级,判断出符合基础条件的文章在哪里出现的频率最高;
所述S3中,对基础条件进行预设,对文章进行审核,并将审核结果与预设值进行对比,不符合的文章进行标记,后续内容先与不符合文章进行匹配,发现重复直接剔除。
2.根据权利要求1所述的基于内容标签的聚合主题内容的方法,其特征在于,所述S10中,用户根据自身需求对建立类目,将入堆文章按照类别放入对应的类目内进行存储。
3.根据权利要求1所述的基于内容标签的聚合主题内容的方法,其特征在于,所述S3中,判断文章是否符合指定的基础条件,并对文章的安全性进行检索,如果发生文章有违法信息,对文章进行记录,进行举报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089325.0A CN110955816B (zh) | 2019-11-08 | 2019-11-08 | 基于内容标签的聚合主题内容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089325.0A CN110955816B (zh) | 2019-11-08 | 2019-11-08 | 基于内容标签的聚合主题内容的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110955816A CN110955816A (zh) | 2020-04-03 |
CN110955816B true CN110955816B (zh) | 2022-11-08 |
Family
ID=69976644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911089325.0A Active CN110955816B (zh) | 2019-11-08 | 2019-11-08 | 基于内容标签的聚合主题内容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110955816B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243087A (zh) * | 2015-09-09 | 2016-01-13 | 浙江网新恒天软件有限公司 | It资讯聚合阅读个性化推荐方法 |
US9860337B1 (en) * | 2013-03-14 | 2018-01-02 | Amazon Technologies, Inc. | Machine-based identification of content with differing opinions |
CN107577688A (zh) * | 2017-04-25 | 2018-01-12 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662595A (zh) * | 2012-04-18 | 2012-09-12 | 广州坚和网络科技有限公司 | 用于移动终端屏幕的杂志式图文混排方法 |
CN105930539A (zh) * | 2016-06-27 | 2016-09-07 | 北京百度网讯科技有限公司 | 话题订阅方法和装置 |
CN108959515A (zh) * | 2018-06-28 | 2018-12-07 | 网易传媒科技(北京)有限公司 | 原创数据保护方法、介质、装置和计算设备 |
CN109241297B (zh) * | 2018-07-09 | 2022-04-19 | 广州品唯软件有限公司 | 一种内容分类聚合方法、电子设备、存储介质及引擎 |
CN110347782A (zh) * | 2019-07-18 | 2019-10-18 | 知者信息技术服务成都有限公司 | 文章查重方法、装置和电子设备 |
-
2019
- 2019-11-08 CN CN201911089325.0A patent/CN110955816B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9860337B1 (en) * | 2013-03-14 | 2018-01-02 | Amazon Technologies, Inc. | Machine-based identification of content with differing opinions |
CN105243087A (zh) * | 2015-09-09 | 2016-01-13 | 浙江网新恒天软件有限公司 | It资讯聚合阅读个性化推荐方法 |
CN107577688A (zh) * | 2017-04-25 | 2018-01-12 | 上海市互联网信息办公室 | 基于媒体信息采集的原创文章影响力分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110955816A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342404A1 (en) | System and method for indexing electronic discovery data | |
US10565244B2 (en) | System and method for text categorization and sentiment analysis | |
US20140108406A1 (en) | Computer-Implemented System and Method For Generating A Reference Set Via Clustering | |
US20170262753A1 (en) | Computer implemented system for automating the generation of a business decision analytic model | |
CN110019792A (zh) | 文本分类方法及装置和分类器模型训练方法 | |
WO2019128124A1 (zh) | 一种文本质量指标获取方法及装置 | |
WO2019196226A1 (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
US20130006996A1 (en) | Clustering E-Mails Using Collaborative Information | |
CN102799647A (zh) | 网页去重方法和设备 | |
CN109271489A (zh) | 一种文本检测方法及装置 | |
CN111259221A (zh) | 基于区块链的实现舆情处理的方法、设备、介质及系统 | |
CN112579155A (zh) | 代码相似性检测方法、装置以及存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN102945246A (zh) | 网络信息数据的处理方法及装置 | |
Radovanović et al. | Review spam detection using machine learning | |
CA3131157A1 (en) | System and method for text categorization and sentiment analysis | |
CN109472017A (zh) | 获得待生成裁判文书本院认为段相关信息的方法及装置 | |
CN102591920A (zh) | 对文档管理系统中的文档集合进行分类的方法以及系统 | |
CN110955816B (zh) | 基于内容标签的聚合主题内容的方法 | |
CN105786929B (zh) | 一种信息监测方法及装置 | |
Lei et al. | Automatically classify chinese judgment documents utilizing machine learning algorithms | |
CN109117434A (zh) | 裁判文书检索方法、装置、存储介质及处理器 | |
Truskinger et al. | Decision support for the efficient annotation of bioacoustic events | |
CN110647845A (zh) | 一种发票数据识别装置、相关方法及相关装置 | |
CN109359274A (zh) | 一种对批量生成的字符串进行识别的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |