CN111881277A - 多维度高度可定制的新闻聚合方法 - Google Patents
多维度高度可定制的新闻聚合方法 Download PDFInfo
- Publication number
- CN111881277A CN111881277A CN202010732996.0A CN202010732996A CN111881277A CN 111881277 A CN111881277 A CN 111881277A CN 202010732996 A CN202010732996 A CN 202010732996A CN 111881277 A CN111881277 A CN 111881277A
- Authority
- CN
- China
- Prior art keywords
- news
- literature
- field
- user
- syndication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002776 aggregation Effects 0.000 title abstract description 8
- 238000004220 aggregation Methods 0.000 title abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims description 22
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 abstract 1
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多维度高度可定制的新闻聚合方法,包含:获取若干网络媒体的新闻文献;对每一份新闻文献进行预处理;对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段;将结构化处理后的新闻文献存入数据库并构建索引;接收用户的配置信息,配置信息包含至少一个检索字段限定;根据用户设定的配置信息从数据库中检索符合条件的新闻文献;将匹配到的新闻文献发送至用户。本发明的有益之处在于提供的多维度高度可定制的新闻聚合方法,将多个网络媒体的新闻文献数据都聚集在一起进行结构化,定义新闻文献的检索字段,用户可以根据这些检索字段进行自定义配置,设定自己关注的新闻。
Description
技术领域
本发明涉及一种多维度高度可定制的新闻聚合方法。
背景技术
新闻聚合是指收集互联网各类媒体、网站(如今日头条、人民网、新华网等)的新闻和消息,然后以某种方式过滤筛选后呈现终端用户。
现有的新闻聚合的例子如各大资讯类app:今日头条、一点资讯、腾讯新闻和网易新闻等,主要提供了频道或者栏目订阅的功能,用户订阅后,可以进到相应栏目中查看相关的新闻。但只能查看订阅的该app下的文章,因此,数据来源不够丰富,预定的频道或者栏目粒度较粗,且不能自定义。
发明内容
为解决现有技术的不足,本发明提供了一种可以解决上述问题的多维度高度可定制的新闻聚合方法。
为了实现上述目标,本发明采用如下的技术方案:
一种多维度高度可定制的新闻聚合方法,包含以下步骤:
获取若干网络媒体的新闻文献;
对每一份新闻文献进行预处理;
对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段;
将结构化处理后的新闻文献存入数据库并构建索引;
接收用户的配置信息,配置信息包含至少一个检索字段限定;
根据用户设定的配置信息从数据库中检索符合条件的新闻文献;
将匹配到的新闻文献发送至用户。
进一步地,对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法为:
提取新闻文献的文献来源、关键词和实体信息;
分析新闻文献得到新闻文献的情感指数和业务领域标签;
将文献来源、关键词、实体信息、情感指数和业务领域标签关联至对应的新闻文献将其作为新闻文献的检索字段。
进一步地,当网络媒体是社交媒体时,提取出的文献来源还包含发布账号;
用户在配置文献来源字段时,可以针对社交媒体设定若干具体的发布账号。
进一步地,关键词包含标题关键词和正文关键词;
用户在配置关键词字段时可以分别设定标题关键词字段和正文关键词字段。
进一步地,对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法还包括:
分析新闻文献得到新闻文献的信息摘要;
提取信息摘要的摘要关键词并将摘要关键词关联至对应的新闻文献将其作为新闻文献的检索字段;
用户在配置关键词字段时可以分别设定标题关键词字段、正文关键词字段和摘要关键词字段。
进一步地,实体信息包含主要实体和次要实体;
用户在配置实体信息字段时可以分别设定主要实体字段和次要实体字段。
进一步地,经过分析得到的新闻文献的情感指数包含:正面情感、中性情感和负面情感;
用户在配置情感指数字段时可以从正面情感、中性情感和负面情感中选择至少一种。
进一步地,经过分析得到的新闻文献的情感指数为大于等于负100且小于等于100之间的具体数值;
用户在配置情感指数字段时可以设定一个或多个情感指数范围。
进一步地,经过分析得到的业务领域标签包含若干第一层级标签,每个第一层级标签还包含若干第二层级标签;
用户在配置业务领域标签字段时可以分别设定第一层级标签字段和对应的第二层级标签字段。
进一步地,对每一份新闻文献进行预处理的具体方法为:
对新闻文献的正文进行提纯;
对新闻文献进行去重,保留最优的一份。
本发明的有益之处在于提供的多维度高度可定制的新闻聚合方法,将多个网络媒体的新闻文献数据都聚集在一起进行结构化,定义新闻文献的检索字段,用户可以根据这些检索字段进行自定义配置,设定自己关注的新闻。
本发明的有益之处还在于提供的多维度高度可定制的新闻聚合方法,还对新闻文献进行摘要信息提取,并提取出摘要关键词,提高用户的检索信息的配置维度,使得检索结果更加精确。
本发明的有益之处还在于提供的多维度高度可定制的新闻聚合方法,在进行数据预处理时,对相似的文章进行去重处理,并且通过算法规则,保留最优的一份。可以减小后期新闻文献检索时的数据处理量。
附图说明
图1是本发明的多维度高度可定制的新闻聚合方法的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种多维度高度可定制的新闻聚合方法,包含以下步骤:S1:获取若干网络媒体的新闻文献。S2:对每一份新闻文献进行预处理。S3:对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段。S4:将结构化处理后的新闻文献存入数据库并构建索引。S5:接收用户的配置信息,配置信息包含至少一个检索字段限定。S6:根据用户设定的配置信息从数据库中检索符合条件的新闻文献。S7:将匹配到的新闻文献发送至用户。通过以上步骤,将多个网络媒体的新闻文献数据都聚集在一起进行结构化,定义新闻文献的检索字段,用户可以根据这些检索字段进行自定义配置,设定自己关注的新闻。以下具体介绍上述步骤。
具体而言,首先获取网络媒体的新闻文献数据,具体的,可以通过爬虫爬取和向第三方购买的方式获取多种数据源的新闻文献。这些新闻文献覆盖了多个网络媒体,比如今日头条、网易新闻以及腾讯新闻等。具体的,网络媒体的个数可以根据实际需求进行选择。一般情况下,获取的新闻文献数据需要覆盖绝大多数媒体机构的新闻数据,确保数据的全面性。
获取到新闻文献后,首先对这些新闻文献进行预处理,预处理的具体方法为:
对新闻文献的正文进行提纯,对新闻文献的正文做去电头电尾、无意义前后缀处理。
再对新闻文献进行去重,保留最优的一份。具体的,使用文章判重算法,去除掉重复的新闻文献,重复的新闻文献只保留一篇。使用择优算法保留最优的文章,择优算法可以具体设定。如内容相似的文章,根据字数多少,网络媒体来源的权重等维度进行判定,进而选择一份最优的新闻文献进行保留。
对新闻文献进行预处理后,对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段。将结构化处理后的新闻文献存入数据库并构建索引。用户可以针对不同的字段进行检索配置,再根据用户的配置信息从数据库中搜索对应的新闻文献返回至用户。具体的,用户通过手持智能设备设定配置信息。将新闻文献返回至用户可以是将匹配到的新闻文献的标题列表返回至用户,在用户选择具体的新闻文献的标题时,向用户发送对应的新闻文献。
在本发明中,对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法为:
提取新闻文献的文献来源、关键词和实体信息。分析新闻文献得到新闻文献的情感指数和业务领域标签。将文献来源、关键词、实体信息、情感指数和业务领域标签关联至对应的新闻文献将其作为新闻文献的检索字段。具体而言:
(1)文献来源是指发布该新闻文献的网络媒体。如,当前的这份新闻文献是由今日头条发布的,则,该新闻文献的文献来源为今日头条。当网络媒体是社交媒体时,提取出的文献来源还包含发布账号。比如,当前的新闻文献为新浪微博账号为12345678发布的文章,则该新闻文献的文献来源标注为:新浪微博-12345678。因此,当网络媒体是社交媒体时,用户在配置文献来源字段时,可以针对社交媒体设定若干具体的发布账号。
(2)基于新闻文献的标题和正文使用自然语言处理相关算法提取关键词。优选的是,关键词包含针对标题提取的标题关键词和针对正文提取的正文关键词。用户在配置关键词字段时可以分别设定标题关键词字段和正文关键词字段。
优选的是,对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法还包括:分析新闻文献得到新闻文献的信息摘要。提取信息摘要的摘要关键词并将摘要关键词关联至对应的新闻文献将其作为新闻文献的检索字段。用户在配置关键词字段时可以分别设定标题关键词字段、正文关键词字段和摘要关键词字段。
可以理解的是,可以通过人工分析或算法分析,对当前的新闻文献进行信息摘要总结得到该新闻文献的信息摘要。信息摘要通过简短的文字概括了一份新闻文献的核心内容。用户在配置关键词字段时,还可以配置摘要关键词字段。从摘要关键词字段设定关键词,获得的结果更加精确。
(3)基于新闻文献的标题和正文使用算法提取实体信息。优选的,提取出的实体信息包含人物、机构、地域等主要实体以及景区、事件、地标、影视等次要实体。用户在配置实体信息字段时可以分别设定主要实体字段和次要实体字段。
(4)可以通过情感判定算法对新闻文献的标题和正文进行分析,得到该新闻文献的情感度。在本发明中,经过分析得到的新闻文献的情感指数包含:正面情感、中性情感和负面情感。用户在配置情感指数字段时可以从正面情感、中性情感和负面情感中选择至少一种。
作为另一种可选的实施方式,经过分析得到的新闻文献的情感指数为大于等于负100且小于等于100之间的具体数值。其中,负值表示负面情感,值越大表示负面情感越大。用户在配置情感指数字段时可以设定一个或多个情感指数范围。
(5)经过分析得到的业务领域标签包含若干第一层级标签,每个第一层级标签还包含若干第二层级标签。如,第一层标签为突发事件,与突发事件对应的第二层标签为:交通事故、洪涝灾害、火灾、台风、地震等。用户在配置业务领域标签字段时可以分别设定第一层级标签字段和对应的第二层级标签字段。
(6)对每一份新闻文献进行结构化处理以定义新闻文献的多个检索字段的具体方法还包括:
提取新闻文献的发布时间并将发布时间关联至对应的新闻文献将其作为新闻文献的检索字段。用户在配置发布时间字段时可以选择发布时间的范围。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种多维度高度可定制的新闻聚合方法,其特征在于,包含以下步骤:
获取若干网络媒体的新闻文献;
对每一份所述新闻文献进行预处理;
对每一份所述新闻文献进行结构化处理以定义所述新闻文献的多个检索字段;
将结构化处理后的所述新闻文献存入数据库并构建索引;
接收用户的配置信息,所述配置信息包含至少一个检索字段限定;
根据用户设定的所述配置信息从所述数据库中检索符合条件的所述新闻文献;
将匹配到的所述新闻文献发送至用户。
2.根据权利要求1所述的多维度高度可定制的新闻聚合方法,其特征在于,
所述对每一份所述新闻文献进行结构化处理以定义所述新闻文献的多个检索字段的具体方法为:
提取所述新闻文献的文献来源、关键词和实体信息;
分析所述新闻文献得到所述新闻文献的情感指数和业务领域标签;
将所述文献来源、所述关键词、所述实体信息、所述情感指数和所述业务领域标签关联至对应的所述新闻文献将其作为所述新闻文献的检索字段。
3.根据权利要求2所述的多维度高度可定制的新闻聚合方法,其特征在于,
当所述网络媒体是社交媒体时,提取出的所述文献来源还包含发布账号;
用户在配置文献来源字段时,可以针对社交媒体设定若干具体的发布账号。
4.根据权利要求2所述的多维度高度可定制的新闻聚合方法,其特征在于,
所述关键词包含标题关键词和正文关键词;
用户在配置关键词字段时可以分别设定标题关键词字段和正文关键词字段。
5.根据权利要求4所述的多维度高度可定制的新闻聚合方法,其特征在于,
所述对每一份所述新闻文献进行结构化处理以定义所述新闻文献的多个检索字段的具体方法还包括:
分析所述新闻文献得到所述新闻文献的信息摘要;
提取所述信息摘要的摘要关键词并将所述摘要关键词关联至对应的所述新闻文献将其作为所述新闻文献的检索字段;
用户在配置关键词字段时可以分别设定标题关键词字段、正文关键词字段和摘要关键词字段。
6.根据权利要求2所述的多维度高度可定制的新闻聚合方法,其特征在于,
所述实体信息包含主要实体和次要实体;
用户在配置实体信息字段时可以分别设定主要实体字段和次要实体字段。
7.根据权利要求2所述的多维度高度可定制的新闻聚合方法,其特征在于,
经过分析得到的所述新闻文献的情感指数包含:正面情感、中性情感和负面情感;
用户在配置情感指数字段时可以从所述正面情感、所述中性情感和所述负面情感中选择至少一种。
8.根据权利要求2所述的多维度高度可定制的新闻聚合方法,其特征在于,
经过分析得到的所述新闻文献的情感指数为大于等于负100且小于等于100之间的具体数值;
用户在配置情感指数字段时可以设定一个或多个情感指数范围。
9.根据权利要求2所述的多维度高度可定制的新闻聚合方法,其特征在于,
经过分析得到的所述业务领域标签包含若干第一层级标签,每个所述第一层级标签还包含若干第二层级标签;
用户在配置业务领域标签字段时可以分别设定第一层级标签字段和对应的第二层级标签字段。
10.根据权利要求1所述的多维度高度可定制的新闻聚合方法,其特征在于,
所述对每一份所述新闻文献进行预处理的具体方法为:
对所述新闻文献的正文进行提纯;
对所述新闻文献进行去重,保留最优的一份。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732996.0A CN111881277A (zh) | 2020-07-27 | 2020-07-27 | 多维度高度可定制的新闻聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732996.0A CN111881277A (zh) | 2020-07-27 | 2020-07-27 | 多维度高度可定制的新闻聚合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881277A true CN111881277A (zh) | 2020-11-03 |
Family
ID=73200672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010732996.0A Pending CN111881277A (zh) | 2020-07-27 | 2020-07-27 | 多维度高度可定制的新闻聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881277A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080034056A1 (en) * | 2006-07-21 | 2008-02-07 | At&T Corp. | System and method of collecting, correlating, and aggregating structured edited content and non-edited content |
CN104484431A (zh) * | 2014-12-19 | 2015-04-01 | 合肥工业大学 | 一种基于领域本体的多源个性化新闻网页推荐方法 |
CN105022827A (zh) * | 2015-07-23 | 2015-11-04 | 合肥工业大学 | 一种面向领域主题的Web新闻动态聚合方法 |
CN109033358A (zh) * | 2018-07-26 | 2018-12-18 | 李辰洋 | 新闻聚合与智能实体关联的方法 |
-
2020
- 2020-07-27 CN CN202010732996.0A patent/CN111881277A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080034056A1 (en) * | 2006-07-21 | 2008-02-07 | At&T Corp. | System and method of collecting, correlating, and aggregating structured edited content and non-edited content |
CN104484431A (zh) * | 2014-12-19 | 2015-04-01 | 合肥工业大学 | 一种基于领域本体的多源个性化新闻网页推荐方法 |
CN105022827A (zh) * | 2015-07-23 | 2015-11-04 | 合肥工业大学 | 一种面向领域主题的Web新闻动态聚合方法 |
CN109033358A (zh) * | 2018-07-26 | 2018-12-18 | 李辰洋 | 新闻聚合与智能实体关联的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5879260B2 (ja) | マイクロブログメッセージの内容を分析する方法及び装置 | |
CN105488092B (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
Marine-Roig | Online travel reviews: A massive paratextual analysis | |
CN112486917A (zh) | 从多个微博自动生成信息丰富的内容的方法以及系统 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
Sundermann et al. | Privileged contextual information for context-aware recommender systems | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
CN109460477B (zh) | 信息收集分类系统和方法及其检索和集成方法 | |
CN108875065A (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN104182465A (zh) | 一种基于网络的大数据处理方法 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN111447575B (zh) | 短信息推送方法、装置、设备及存储介质 | |
CN111143394B (zh) | 知识数据处理方法、装置、介质及电子设备 | |
CN108121721A (zh) | 意图识别方法及装置 | |
WO2023273303A1 (zh) | 基于树模型的事件影响度获取方法、装置及计算机设备 | |
Chardonnens et al. | Mining user queries with information extraction methods and linked data | |
US11438346B2 (en) | Restrict transmission of manipulated content in a networked environment | |
Rony et al. | A large-scale study of social media sources in news articles | |
Shim et al. | A study on the effect of the document summarization technique on the fake news detection model | |
CN111881277A (zh) | 多维度高度可定制的新闻聚合方法 | |
CN106933993B (zh) | 一种资讯处理方法及装置 | |
Rani et al. | A sentiment analysis system for social media using machine learning techniques: Social enablement | |
CN113325959A (zh) | 一种输入语料的推荐方法和装置 | |
Bharathi et al. | Sentiment Classification of Tourist’s Opinion on Tourist Places of Interest in South India using Tweet Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |