CN110851562A

CN110851562A - 一种信息获取方法和系统、设备及存储介质

Info

Publication number: CN110851562A
Application number: CN201910762979.9A
Authority: CN
Inventors: 徐艺
Original assignee: Hunan Zheng Yu Software Technology Development Co Ltd
Current assignee: Hunan Zheng Yu Software Technology Development Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2020-02-28

Abstract

本发明公开了一种信息获取方法和系统、设备及存储介质，属于信息技术领域。数据采集模块、中文分词模块、中文名词打分模块、热点提取模块、内容推荐模块和相似度文档推荐模块，其中，数据采集模块，用于定向抓取数据对象的文档内容，并发送给热点提取模块；中文分词模块，用于提取数据对象的文档内容中的中文名称；中文名词打分模块，用于筛选数据对象的文档内容中的关键词；热点提取模块，用于对数据对象的文档内容关键词评分后提取涉及到的热点；内容推荐模块，用于推荐与数据对象关联的内容；相似度分析模块，用于计算数据对象的文档内容之间的相似性。通过采集数据对象的文档内容信息，提取关键字、热点及其之间的关联性，有选择的推荐文档内容给用户，避免信息冗余。

Description

一种信息获取方法和系统、设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种信息获取方法和系统、设备及存储介质。

背景技术

现代科学技术每天都在改变着世界，影响着人们的生活和工作方式。尤其是近年来，移动互联网、大数据、云计算等新型技术的迅猛发展，人们在网络空间从事的活动范围不断扩大，微博、微信、微视等新的互联网应用模式出现，使得人们已经进入了大数据时代和信息消费时代，随着Web2.0技术的不断发展，涌现出各类基于社会关系和群体智慧特征的网络平台，如搜索引擎、博客、微信、微博、论坛等，互联网表现出了显著的社会化特征。人们可以通过多种网络平台获取视频、图像、文本、声音等多媒体资源，并进行传播、发布；从中国互联网络信息中心的《中国互联网络发展状况统计报告》中看出,截止2014 年6月，中国网民数量已达6.32亿，互联网普及率达46.9％，较2013年底提高了1.1个百分点。其中手机上网的网民比例占83.4％，相比2013年底上升了 2.4个百分点，首次超越传统PC上网的比例(80.9％)。互联网的普及率呈现快速上升趋势，尤其是移动互联网的发展将带动整体互联网发展，网民生活已全面“网络化”。

互联网规模的不断扩大，随之而来的是网络信息资源的爆炸式增长，但面对互联网浩如烟海的信息资源，如何有效地快速获取自己所需或用户感兴趣的内容，真正使互联网上海量的网络信息资源得以充分利用，并推动信息消费，依然是一个急需解决的难题。通过深入分析互联网搜索相关技术，发现一个问题：信息获取的冗余程度较高。在日常工作生活中，不难发现同类信息或表述相同的网络新闻、资讯等信息在各大互联网站反复的出现。这种大量同类信息的重复出现，导致用户在获取所需精准信息的时间过长，进一步影响用户的体验心理。在信息化水平快速增长的今天，对精准信息快速准确的把握，才能有效充分利用信息的价值，促进信息消费。因此，帮助用户去除网络冗余信息，提高信息检索速度，获取精准信息，节约时间是一个需解决的问题。一些组织部门在筛选不同信息文档也同样存在上述问题，信息获取的冗余程度较高。这一问题亟待解决。

发明内容

1.发明要解决的技术问题

为了克服上述技术问题，本发明提供了一种信息获取方法和系统、设备及存储介质。通过采集数据对象的文档内容信息，提取关键字、热点及其之间的关联性，有选择的推荐文档内容给用户，避免信息冗余。

2.技术方案

为解决上述问题，本发明提供的技术方案为：

第一方面，本发明提供了一种信息获取系统，包括数据采集模块、中文分词模块、中文名词打分模块、热点提取模块、内容推荐模块和相似度文档推荐模块，其中，数据采集模块，用于定向抓取数据对象的文档内容，并发送给热点提取模块；中文分词模块，用于提取数据对象的文档内容中的中文名称；中文名词打分模块，用于筛选数据对象的文档内容中的关键词；热点提取模块，用于对数据对象的文档内容关键词评分后提取涉及到的热点；内容推荐模块，用于推荐与数据对象关联的内容；相似度分析模块，用于计算数据对象的文档内容之间的相似性。

优选地，所述定向抓取数据对象的文档内容包括各领域的信息内容。

优选地，所述提取数据对象的文档内容中的中文名称，采用中文分词IKAnalyzer，并搭配收集的数据对象领域的中文词库。

优选地，所述中文名词打分模块通过TF-IDF权重打分算法，计算数据对象的文档内容中每个词语的权重，筛选出其中的关键词。

优选地，所述相似度分析模块利用余弦距离算法，计算数据对象的文档内容之间的相似性。

第二方面，本发明提供了一种信息获取方法，包括：定向抓取数据对象的文档内容；提取数据对象的文档内容中的中文名称；筛选数据对象的文档内容中的关键词；对数据对象的文档内容关键词评分后提取涉及到的热点；计算数据对象的文档内容之间的相似性；推荐与数据对象关联的内容。

优选地，所述定向抓取数据对象的文档内容包括各领域的信息内容；所述提取数据对象的文档内容中的中文名称，采用中文分词IKAnalyzer，并搭配收集的数据对象领域的中文词库。

优选地，所述筛选数据对象的文档内容中的关键词；通过TF-IDF权重打分算法，计算数据对象的文档内容中每个词语的权重，筛选出其中的关键词；所述计算数据对象的文档内容之间的相似性；利用余弦距离算法，计算数据对象的文档内容之间的相似性。

第三方面，本发明提供了一种设备，所述设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如以上所述的方法。

第四方面，本发明提供了一种存储有计算机程序的存储介质，该程序被处理器执行时实现如以上任一项所述的方法。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

通过采集数据对象的文档内容信息，提取关键字、热点及其之间的关联性，有选择的推荐文档内容给用户，避免信息冗余。

附图说明

图1为本发明实施例1提供的一种信息获取方法的流程图。

图2为本发明实施例2提供的一种信息获取系统的结构示意图。

图3为热点推荐方法的流程示意图。

图4为内容推荐方法的流程示意图。

图5为相似提案推荐方法的流程示意图。

图6为本发明的一种设备结构示意图。

具体实施方式

为进一步了解本发明的内容，结合附图及实施例对本发明作详细描述。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

本发明中所述的第一、第二等词语，是为了描述本发明的技术方案方便而设置，并没有特定的限定作用，均为泛指，对本发明的技术方案不构成限定作用。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

如图1所示，本发明提供了一种信息获取系统，包括数据采集模块、中文分词模块、中文名词打分模块、热点提取模块、内容推荐模块和相似度文档推荐模块，其中，数据采集模块，用于定向抓取数据对象的文档内容，并发送给热点提取模块；中文分词模块，用于提取数据对象的文档内容中的中文名称；中文名词打分模块，用于筛选数据对象的文档内容中的关键词；热点提取模块，用于对数据对象的文档内容关键词评分后提取涉及到的热点；内容推荐模块，用于推荐与数据对象关联的内容；相似度分析模块，用于计算数据对象的文档内容之间的相似性。

所述定向抓取数据对象的文档内容包括各领域的信息内容。所述提取数据对象的文档内容中的中文名称，采用中文分词I KAna l yzer，并搭配收集的数据对象领域的中文词库。所述中文名词打分模块通过TF-I DF权重打分算法，计算数据对象的文档内容中每个词语的权重，筛选出其中的关键词。

所述相似度分析模块利用余弦距离算法，计算数据对象的文档内容之间的相似性。

实施例2

本实施例提供了一种信息获取方法，如图2所示，包括：定向抓取数据对象的文档内容；从网页上定向抓取数据对象的文档；提取数据对象的文档内容中的中文名称；筛选数据对象的文档内容中的关键词；对数据对象的文档内容关键词评分后提取涉及到的热点；计算数据对象的文档内容之间的相似性；推荐与数据对象关联的内容。

所述定向抓取数据对象的文档内容包括各领域的信息内容；所述提取数据对象的文档内容中的中文名称，采用中文分词I KAna lyzer，并搭配收集的数据对象领域的中文词库。

所述筛选数据对象的文档内容中的关键词；通过TF-I DF权重打分算法，计算数据对象的文档内容中每个词语的权重，筛选出其中的关键词；所述计算数据对象的文档内容之间的相似性；利用余弦距离算法，计算数据对象的文档内容之间的相似性。

实施例3

人员A与B在提交建议和提案时，因为没有合适的数据参考，往往依靠主观命题，提交的建议和提案反映不了真正的民情民生。或者没有相关的参考资料，提交的建议和提案缺乏相关数据的支撑，所以质量不高。甚至提交的建议和提案与其他人员提交的内容重复，造成了人力物力的浪费。

本实施例提出一种信息获取系统，包括数据采集模块、中文分词模块、中文名词打分模块、热点提取模块、内容推荐模块和相似度文档推荐模块，其中，数据采集模块，用于定向抓取数据，并发送给热点提取模块；中文分词模块，用于提取提案中的中文名称；中文名词打分模块，用于筛选提案中的关键词；热点提取模块，用于对文档内容关键词评分后提取涉及到的热点；内容推荐模块，用于推荐资讯政策内容；相似度分析模块，用于计算文档之间的相似性。

所述定向抓取数据包括抓取网络问政、法律法规、政府政策文件和政府要闻数据。所述提取提案中的中文名称，采用中文分词I KAna lyzer，并搭配收集的中文词库。所述中文名词打分模块通过TF-I DF权重打分算法，计算提案中每个词语的权重，筛选出其中的关键词。所述相似度分析模块利用余弦距离算法，计算文档之间的相似性。其中，数据采集模块：通过部署互联网爬虫，定向抓取数据，形成大数据中心，为人员A与B履职提供数据支撑。

中文分词模块：采用中文分词I KAna l yzer，并搭配近几年来收集的中文词库，可准确的将提案中的中文名称提取出来。

中文名词打分模块：通过TF-I DF权重打分算法，计算提案中每个词语的权重，筛选出其中的关键词。

热点提取模块：通过自定义的热点主题库，对文档内容关键词评分后提取涉及到热点。

内容推荐模块：根据选定的主题、栏目，推荐相关的资讯政策等内容。

相似度分析模块：利用余弦距离算法，计算文档之间的相似性。

相应地，一种提高人员提案质量的方法，热点推荐方法、内容推荐方法和相似提案推荐方法，通过以上所述的一种提升人员建议和人员提案质量的系统，根据热点推荐方法，推荐热点主题给人员选择，人员A选择过热点主题后开始撰写建议或提案，撰写过程中，所述系统根据内容推荐方法推荐与主题相关的资讯政策内容，在撰写完成时，根据相似提案推荐方法，参考系统内其他人员是否已经提交过相似的内容，来决定是否要修改文档。

如图3所示，所述的热点推荐方法为：数据采集中心定向数据，形成数据中心，发送给热点提取模块，根据数据分析引擎，将民情热点推荐给人员A以供选择。

如图4所示，所述的内容推荐方法为：人员A选择某一热点主题后，内容推荐模块根据热点内容，到数据中心匹配相当的文档，包括政策、数据和法律法规，推荐给人员AA。

如图5所示，所述相似提案推荐方法为：人员A编写建议或提案，相似度分析模块根据建议或提案库，利用余弦距离算法，计算相似建议或提案，推荐相似建议和提案供人员A参考。

结合图3、4和5所示，人员A提交建议或提案时，通过系统推荐的一系列热点主题，选择其中自己感兴趣或者擅长的话题，拟定相关题目后开始撰写建议或提案。撰写过程中，系统会推荐与主题相关的法律法规、政策文件以及相关的数据指标等内容，作为该建议或提案的数据参考。在编写完成时，人员A 再通过相似文档推荐模块，参考系统内其他人员是否已经提交过相似的内容，来决定是否要修改文档，从而提高建议或提案的质量。

本发明通过抓取网络上民情民生数据，利用大数据分析，提炼出民情热点供人员参考。并且通过提案去重算法，判断内容是否与其他的建议或提案内容相似，来避免提交重复建议和提案，从而达到提高建议和提案质量的效果。

实施例4

一种设备，所述设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如以上所述的方法。

一种存储有计算机程序的存储介质，该程序被处理器执行时实现如以上实施例所述的方法。

图6为本发明一实施例提供的一种设备的结构示意图。

如图6所示，作为另一方面，本申请还提供了一种设备500，包括一个或多个中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有设备500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510 也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本申请公开的实施例，上述任一实施例描述的方法可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行上述任一实施例描述的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

作为又一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例的装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，该程序被一个或者一个以上的处理器用来执行描述于本申请的方法。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以通过执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以通过专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，各所述单元可以是设置在计算机或移动智能设备中的软件程序，也可以是单独配置的硬件装置。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离本申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息获取系统，其特征在于，包括数据采集模块、中文分词模块、中文名词打分模块、热点提取模块、内容推荐模块和相似度文档推荐模块，其中，数据采集模块，用于定向抓取数据对象的文档内容，并发送给热点提取模块；中文分词模块，用于提取数据对象的文档内容中的中文名称；中文名词打分模块，用于筛选数据对象的文档内容中的关键词；热点提取模块，用于对数据对象的文档内容关键词评分后提取涉及到的热点；内容推荐模块，用于推荐与数据对象关联的内容；相似度分析模块，用于计算数据对象的文档内容之间的相似性。

2.根据权利要求1所述的一种信息获取系统，其特征在于，所述定向抓取数据对象的文档内容包括各领域的信息内容。

3.根据权利要求1所述的一种信息获取系统，其特征在于，所述提取数据对象的文档内容中的中文名称，采用中文分词I KAnalyzer，并搭配收集的数据对象领域的中文词库。

4.根据权利要求1所述的一种信息获取系统，其特征在于，所述中文名词打分模块通过TF-IDF权重打分算法，计算数据对象的文档内容中每个词语的权重，筛选出其中的关键词。

5.根据权利要求1-4任一项所述的一种信息获取系统，其特征在于，所述相似度分析模块利用余弦距离算法，计算数据对象的文档内容之间的相似性。

6.一种信息获取方法，其特征在于，包括：

定向抓取数据对象的文档内容；

提取数据对象的文档内容中的中文名称；

筛选数据对象的文档内容中的关键词；

对数据对象的文档内容关键词评分后提取涉及到的热点；

计算数据对象的文档内容之间的相似性；

推荐与数据对象关联的内容。

7.根据权利要求6所述的一种信息获取方法，其特征在于，所述定向抓取数据对象的文档内容包括各领域的信息内容；所述提取数据对象的文档内容中的中文名称，采用中文分词I KAnalyzer，并搭配收集的数据对象领域的中文词库。

8.根据权利要求1所述的一种信息获取方法，其特征在于，所述筛选数据对象的文档内容中的关键词；通过TF-IDF权重打分算法，计算数据对象的文档内容中每个词语的权重，筛选出其中的关键词；所述计算数据对象的文档内容之间的相似性；利用余弦距离算法，计算数据对象的文档内容之间的相似性。

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求6-8中任一项所述的方法。

10.一种存储有计算机程序的存储介质，其特征在于，该程序被处理器执行时实现如权利要求6-8中任一项所述的方法。