CN113065051A - 一种可视化农业大数据分析交互系统 - Google Patents
一种可视化农业大数据分析交互系统 Download PDFInfo
- Publication number
- CN113065051A CN113065051A CN202110363313.3A CN202110363313A CN113065051A CN 113065051 A CN113065051 A CN 113065051A CN 202110363313 A CN202110363313 A CN 202110363313A CN 113065051 A CN113065051 A CN 113065051A
- Authority
- CN
- China
- Prior art keywords
- agricultural
- url
- data
- big data
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Marine Sciences & Fisheries (AREA)
- General Health & Medical Sciences (AREA)
- Agronomy & Crop Science (AREA)
- Mining & Mineral Resources (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Animal Husbandry (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种可视化农业大数据分析交互系统,涉及智慧农业领域。本发明通过农业大数据抓取系统对互联网上现存web服务器的,且是公开的农业数据进行合法的抓取,抓取数据类别包括:农业资讯、农业政策、投资资讯、产量数据、消费链数据等,并对这些数据进行可视化处理,让使用者能多方位、跟踪式地对农业数据进行可视化观察,对农业大数据进行广度和深度覆盖;通过农业资讯大数据可视化系统对文本化的农业资讯信息进行集中且自动更新,自动维护的展示,农业生产大数据可视化系统通过气泡图能对农业生产过程中的数据进行直观的展示,农产品消费链大数据可视化系统通过桑基图对农产品销售过程进行追踪式的展示。
Description
技术领域
本发明涉及智慧农业领域,尤其涉及一种可视化农业大数据分析交互系统。
背景技术
随着智慧农业的普及和发展,农业生产销售过程中产生了大量的数据,这些数据本身不具备什么具体意义,但是将这些数据进行整合分析以后,能得到许多指导性的信息,例如:统计历年的棉花产量和价格曲线的对应关系,就可以通过今年棉花的价格曲线推测棉花产量,但是这些数据不经处理直接观察的话,很难发现其中的联系和作用,但将这些数据以视图的方式直观体现的化话,其中的规律和发展趋势便变得一目了然。
针对农业大数据可视化,公开号为CN112269956A的发明专利申请提供了一种本发明提供了一种基于机器学习引擎的农业大数据搜索结果呈现的方法,该方法包括:基于用户的当前搜索词,在农业大数据库中搜索到与所属当前搜索词匹配的农业信息,并附带的将搜索结果以过程逻辑可视化的方法呈现,即本装置对农业信息搜索过程的质量以准确度、相关度、过滤度、成熟度、新鲜度五大维度进行评估,以量化评分的形式在搜索结果中附加呈现,同时,本发明针对农业大数据搜索,提供了一种机器学习引擎装置,该装置可以为农业大数据搜索结果过程逻辑可视化提供技术支撑。
上述申请对数字化的数据具有较直观的展示,但是,农业领域的大数据包括的不只是数字化的数据,例如在农业生产前,国家的政策部署、企业的投资资讯、区域性的灾害气候讯息都是对农业生产起着指导性作用,又如,农业生产后的销售加工环节,我们关系的是农产品的销售去向以及加工去向,这些通过简单的数字数据加工难以进行直观的展示,且数据来源依靠已存在的统计数据,无法做到数据与时俱进,无法做到对数据进行自我更新和扩展。
因此,有必要提供一种新的,能分别对农业资讯大数据、农业生产大数据、农产品消费链大数据进行直观可视化展示,且具备数据自我更新扩展的一种可视化农业大数据分析交互系统来解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供一种可视化农业大数据分析交互系统,涉及智慧农业领域。所述可视化农业大数据分析交互包括农业大数据抓取系统、农业资讯大数据可视化系统、农业生产大数据可视化系统、农产品消费链大数据可视化系统和可视化交互系统,本发明通过农业大数据抓取系统对互联网上现存web服务器的,且是公开的农业数据进行合法的抓取,抓取数据类别包括:农业资讯、农业政策、投资资讯、产量数据、消费链数据等,并对这些数据进行可视化处理,使使用者能多方位、跟踪式地对农业数据进行可视化观察,对农业大数据进行广度和深度覆盖;通过农业资讯大数据可视化系统对文本化的农业资讯信息进行集中且自动更新,自动维护的展示,农业生产大数据可视化系统通过气泡图能对农业生产过程中的数据进行直观的展示,农产品消费链大数据可视化系统通过桑基图对农产品销售过程进行追踪式的展示。
本发明提供的一种可视化农业大数据分析交互系统,包括农业大数据抓取系统、农业资讯大数据可视化系统、农业生产大数据可视化系统、农产品消费链大数据可视化系统和可视化交互系统。
作为更加具体的解决方案,所述农业大数据抓取系统通过数据爬虫对互联网上现存web服务器的,且是公开的农业数据进行合法的抓取、过滤和存储操作。
作为更加具体的解决方案,所述农业大数据抓取系统包括农业资讯数据抓取端、农业生产数据抓取端、农产品消费链数据抓取端和大数据存储端。
作为更加具体的解决方案,所述大数据存储端包括Redis数据库和Hadoop数据库,所述大数据存储端用于对农业资讯数据抓取端、农业生产数据抓取端和农产品消费链数据抓取端产生的数据进行分类存储。
作为更加具体的解决方案,所述农业资讯数据抓取端用于抓取指定权威资讯站点上农业领域的资讯信息并保存至大数据存储端的Redis数据库中,且定时对Redis数据库中的数据进行更新。
作为更加具体的解决方案,所述农业生产数据抓取端用于抓取互联网上农业生产领域的数据信息,并将数据信息对应的对象、数值和单位进行解析并保存至Hadoop数据库中;
所述农产品消费链数据抓取端用于抓取指定根数据源站点上的农产品消费链数据,且通过消费链数据构建溯源链表并保存至Hadoop数据库中。
作为更加具体的解决方案,所述农业资讯大数据可视化系统将所述农业资讯数据抓取端提供的农业领域的资讯信息按照地域、内容和发布日期进行分类可视化显示。
作为更加具体的解决方案,所述农业生产大数据可视化系统将所述农业生产数据抓取端抓取的农业生产大数据通过整理分类形成气泡图,并对进行可视化显示。
作为更加具体的解决方案,所述农产品消费链大数据可视化系统将所述农产品消费链数据抓取端提供的农产品消费链数据通过桑基图进行可视化显示。
作为更加具体的解决方案,所述可视化交互系统能提取农业资讯关键词、农业生产关键词和农产品消费链关键词,并将关键词进行关联串接,通过关联串结构建交互超链接。
作为更加具体的解决方案,所述农业资讯数据抓取端用于对现存web服务器的,且是公开的农业资讯信息进行合法的抓取,所述农业资讯数据抓取端为增量式网络爬虫端,包括页面爬行模块、初始URL集合、URL子集合、Hash去重模块、临时保存区、查重区、Rdis数据库和调度模块,所述调度模块将页面爬行模块、初始URL集合、URL子集合、Hash去重模块、临时保存区、查重区和Rdis数据库按照如下步骤进行调度:
S1通过页面爬行模块对初始URL集合中的目标URL进行内容爬取,并筛取关键内容保存至临时保存区;
S2调度Hash去重模块对临时保存区中的每一个关键内容分别进行Hash赋值并得到关键内容的Hash指针;
S3得到目标URL关键内容的所有Hash指针后,通过关键内容的Hash指针集合生成目标URL的Hash值;
S4将目标URL的Hash作为key元素,目标URL中所有关键内容作为value元素保存到Rdis数据库中,并更新key_value对照表;
S5对初始URL集合中所有目标URL进行S1至S4步骤,生成初始URL集合的key_value对照表;
S6通过页面爬行模块遍历爬取初始URL集合中所有子URL,并将所有子URL作为目标URL保存至URL子集合中;
S7对URL子集合中所有目标URL进行S1至S4步骤,并生成URL子集合的key_value对照表;
S8通过页面爬行模块爬取所有目标URL的历史更新频率,将平均每24小时更新不小于一次的目标URL保存至快URL集中,将平均每24小时更新小于一次的目标URL保存至慢URL集中;
S9通过页面爬行模块对快URL集中的目标URL每1个小时进行一次关键内容爬取,对慢URL集中的目标URL每6个小时进行一次关键内容爬取,并保存至查重区;
S10调度Hash去重模块对临时保存区中的每一个关键内容分别进行Hash赋值并得到关键内容的查重Hash指针;
S11得到目标URL关键内容的所有查重Hash指针后,通过关键内容的查重Hash指针集合生成目标URL的查重Hash值;
S12将目标URL的查重Hash值和保存在Rdis数据库中的指针进行比对,若相同,则目标URL的关键内容并未发生变化;若不相同,则目标URL的关键内容发生变化;
S13将关键内容发生变化的目标URL的查重Hash值作为key元素替换Rdis数据库中原有的key元素,将发生变化的关键内容作为value元素替换替换Rdis数据库中原有的value元素,并更新key_value对照表;
S14重复S1至S13步骤,历遍所有初始URL集合和URL子集合,保持更新。
作为更加具体的解决方案,所述农业生产数据抓取端用于对现存web服务器的,且是公开的农业生产过程中产生的信息进行合法的抓取,所述农业生产数据抓取端为聚焦式网络爬虫端,包括页面爬行模块、主题语意词典、关键词过滤器、数值解析器、URL检索器、临时保存区、待爬URL队列、Hadoop数据库和调度模块;所述调度模块将页面爬行模块、主题语意词典,关键词过滤器,数值解析器,初始URL集合,待爬URL队列、Hadoop数据库按照如下步骤进行调度:
S15将农业生产主题的语意树保存至主题语意词典中;
S16通过URL检索器按照农业生产主题的语意树的层次关系进行分层语意检索,并将内容符合当前检索语意的URL保存至待爬URL队列中;
S17通过页面爬行模块对待爬URL队列中的目标URL进行文本内容爬取,并将重要文本内容保存至临时保存区;
S18关键词过滤器对临时保存区中的重要本文进行关键词检索;
S19将含有目标关键词的重要本文送至数值解析器,数值解析器将关键词对应的数值和单位进行解析并保存至Hadoop数据库。
作为更加具体的解决方案,农产品消费链数据抓取端用于对现存web服务器的,且是公开的农产品在消费链流通所产生的信息进行合法的抓取,农产品消费链数据抓取端是深层式网络爬虫端,包括页面爬行模块、根URL集、URL子集、数据过滤器、区块链追溯模块、Hadoop数据库、溯源链表和调度模块;所述调度模块将页面爬行模块、根URL集、URL子集、数据过滤器、Hash追溯模块、溯源链表和Hadoop数据库按照如下步骤进行调度:
S20选取根URL集中的一个根URL作为目标URL;
S21通过页面爬行模块对目标URL进行关键内容识别,并将关键内容保存至临时保存区;
S22数据过滤器对临时保存区中的关键内容进行数据过滤,通过主词确定数据对象,通过副词确定对象流向,并保存至Hadoop数据库中;
S23通过Hash追溯模块为每一个数据对象生成对应Hash指针;
S24通过页面爬行模块爬取当前目标URL中包含的子URL,并保存至URL子集中;
S25选取URL子集中的一个子URL作为目标URL;
S26执行S21至S24步骤直至目标URL中再无子URL;
S27通过Hash指针生成追溯链末端Hash值;
S28将末端Hash值写入溯源链表中,并保存至Hadoop数据库中;
S29通过执行S20至S28步骤遍历根URL所有子URL的指针路径,直至描绘出根URL集中每一个根URL的子URL的指针路径;
S30通过溯源链表的Hash指针指向关系生成Merkle树。
作为更加具体的解决方案,所述农业资讯数据抓取端通过农业资讯大数据可视化系统进行分类可视化显示,所述农业资讯数据抓取端包括分类栏、条目栏和显示栏,所述分类栏包括地域选项、内容选项和发布日期选项,所述条目栏用于显示资讯选项条目,所述显示栏用于显示选项条目内容。
作为更加具体的解决方案,所述分类可视化显示包括如下步骤:
S31通过key_value对照表找到所有选项条目的key元素;
S32通过key元素中保存的Hash值找到Hash时间戳;
S33根据Hash时间戳确定选项条目的发布日期;
S34通过key_value对照表找到所有选项条目的value元素;
S35通过value元素确定选项条目的关键内容;
S36通过地域关键词和对内容关键词对选项条目的关键内容进行检索;
S37若在选项条目的关键内容中检索到与地域关键词匹配的词条,则为选项条目贴上对应的地域标签;
S38若在选项条目的关键内容中检索到与内容关键词匹配的词条,则为选项条目贴上对应的内容标签;
S39通过分类栏获取用户地域选项、内容选项和发布日期的设定值;
S40将地域标签、内容标签和发布日期满足地域选项、内容选项和发布日期的设定值的选项条目通过条目栏进行显示;
S41将用户选中的选项条目通过显示栏进行具体内容显示。
作为更加具体的解决方案,所述农业生产大数据可视化系统通过如下步骤得到农业生产大数据的气泡图:
S42读取Hadoop数据库中农业生产大数据;
S43为农业生产大数据中每一个关键词建立一个气泡项;
S44将关键词对应数值的单位进行单位统一化;
S45将统一后的数值和单位植入对应关键词的气泡项参数中;
S46将每一个气泡项按照对应参数进行逐一显示。
作为更加具体的解决方案,所述农产品消费链大数据可视化系统通过如下步骤得到农产品消费链大数据的桑基图:
S47读取Hadoop数据库中农产品消费链数据;
S48为每一个主词建立一个数据对象;
S49通过主词对应的副词确定数据对象的数据流向;
S50将数据对象作为桑基图中的起始对象,通过数据流向确定桑基图的流量路径;
S51将起始对象和流量路径进行可视化显示。
作为更加具体的解决方案,所述可视化交互系统是基于光标控制的交互系统,包括光标、关联词和可视化项;所述光标用于选择用户想要进行可视化的关联词,关联词用于对显示内容进行归类,可视化项通过光标点击关联词进行调用,所述可视化项包括资讯、生产和消费链。
与相关技术相比较,本发明提供的用于一种可视化农业大数据分析交互系统具有如下有益效果:
1、本发明通过农业大数据抓取系统对互联网上现存web服务器的,且是公开的农业数据进行合法的抓取,抓取数据类别包括:农业资讯、农业政策、投资资讯、产量数据、消费链数据等,并对这些数据进行可视化处理,使使用者能多方位、跟踪式地对农业数据进行可视化观察,对农业大数据进行广度和深度覆盖;
2、本发明通过农业资讯大数据可视化系统对文本化的农业资讯信息进行集中且自动更新,自动维护的展示,农业生产大数据可视化系统通过气泡图能对农业生产过程中的数据进行直观的展示,农产品消费链大数据可视化系统通过桑基图对农产品销售过程进行追踪式的展示;
3、本发明利用Redis数据库的去重特性对需要进行增量更新的农业资讯信息进行保存,对体量大,处理难度高的农业生产大数据和农产品消费链大数据通过Hadoop数据库进行保存极大的提高了系统的反应速度和鲁棒性。
附图说明
图1为本发明提供的一种可视化农业大数据分析交互系统的较佳实施例系统流程图;
图2为本发明提供的农业资讯大数据可视化系统的较佳实施例示意图;
图3为本发明提供的农业生产大数据可视化系统的较佳实施例示意图;
图4为本发明提供的农产品消费链大数据可视化系统的较佳实施例示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1至图4所示,本发明提供的一种可视化农业大数据分析交互系统,包括农业大数据抓取系统、农业资讯大数据可视化系统、农业生产大数据可视化系统、农产品消费链大数据可视化系统和可视化交互系统。
作为本实施例更进一步的解决方案,如图1所示,所述农业大数据抓取系统通过数据爬虫对互联网上现存web服务器的,且是公开的农业数据进行合法的抓取、过滤和存储操作;所述农业大数据抓取系统包括农业资讯数据抓取端、农业生产数据抓取端、农产品消费链数据抓取端和大数据存储端;所述大数据存储端包括Redis数据库和Hadoop数据库,所述大数据存储端用于对农业资讯数据抓取端、农业生产数据抓取端和农产品消费链数据抓取端产生的数据进行分类存储;所述农业资讯数据抓取端用于抓取指定权威资讯站点上农业领域的资讯信息并保存至大数据存储端的Redis数据库中,且定时对Redis数据库中的数据进行更新;所述农业生产数据抓取端用于抓取互联网上农业生产领域的数据信息,并将数据信息对应的对象、数值和单位进行解析并保存至Hadoop数据库中;所述农产品消费链数据抓取端用于抓取指定根数据源站点上的农产品消费链数据,且通过消费链数据构建溯源链表并保存至Hadoop数据库中;所述农业资讯大数据可视化系统将所述农业资讯数据抓取端提供的农业领域的资讯信息按照地域、内容和发布日期进行分类可视化显示;所述农业生产大数据可视化系统将所述农业生产数据抓取端抓取的农业生产大数据通过整理分类形成气泡图,并对进行可视化显示;所述农产品消费链大数据可视化系统将所述农产品消费链数据抓取端提供的农产品消费链数据通过桑基图进行可视化显示;所述可视化交互系统能提取农业资讯关键词、农业生产关键词和农产品消费链关键词,并将关键词进行关联串接,通过关联串结构建交互超链接。
具体的,农业生产销售过程可分为前期政策投资引导层,中期农业生产层和后期的农产品消费加工的消费链层,不管是在前期的政策投资引导还是后期的农产品消费加工环节都会产生海量的农业大数据,而每一层的大数据有不同的数据特点:
对于第一层前期政策投资引导层,这些方面的数据往往是存在于一些权威的发布机构的网站上,例如农业资讯网、现代农业投资网、三农资讯网等,这些网站每天都会更新许多新鲜的农业资讯,涵盖农业政策,农业投资,农业趋势等等,针对这些网站的大数据采集,我们需要采用“集中采集”和“增量采集”,所谓“集中采集”就是对权威网址上的农业资讯进行详尽细致的采集,这样能做到排除虚假资讯和无用资讯的问题,而“增量采集”是指我们关心的是具备时效的资讯,这些资讯往往是近期更新或者近期新发布的,我们针对这些数据需要保持实时更新,以便实时掌握最新资讯,要实现“集中采集”和“增量采集”,本实施例采用的方法是通过基于增量式网络爬虫的农业资讯数据抓取端来实现的。
作为本实施例更进一步的解决方案,所述农业资讯数据抓取端用于对现存web服务器的,且是公开的农业资讯信息进行合法的抓取,所述农业资讯数据抓取端为增量式网络爬虫端,包括页面爬行模块、初始URL集合、URL子集合、Hash去重模块、临时保存区、查重区、Rdis数据库和调度模块。
需要说明的是:页面爬行模块能对目标URL对应的页面进行数据爬取,是数据爬虫的核心模块,初始URL集合中保存着如:农业资讯网、现代农业投资网、三农资讯网等权威农业资讯发布网站的URL,而URL子集合是用于对初始URL集合中的子URL进行深挖保证深度资讯也被爬取的关键所在,Hash去重模块是实现增量保存的关键,原理可以简述为:通过页面爬行模块对目标URL进行内容爬取,爬取的内容可分为无效内容和关键内容,无效内容指的是一些广告、页面设置、装饰栏等,关键内容指的是如:资讯标题、正文内容等具备实质内容价值的内容,这些内容也通常存在于页面的内容框和title里,我们爬取关键内容并保存至临时保存区,而Hash去重模块会为每一个重要内容一个Hash指针,再根据关键内容的Hash指针集合生成目标URL的Hash值,并将目标URL的Hash作为key元素,目标URL中所有关键内容作为value元素保存到Rdis数据库中,并更新key_value对照表,当URL对应的关键内容发生变化以后,对应的URL的Hash值也发生了变化,此时通过key_value就能找出Hash值发生变化的URL,由于Rdis数据库能自动删除重复的部分,所以我们直接将现在的所有关键内容作为value元素保存到Rdis数据库中,不需要检查,Rdis数据库就能将重复的部分删除,至更新发生变化的部分或者新增的部分。
作为本实施例更进一步的解决方案,所述调度模块将页面爬行模块、初始URL集合、URL子集合、Hash去重模块、临时保存区、查重区和Rdis数据库按照如下步骤进行调度:
S1通过页面爬行模块对初始URL集合中的目标URL进行内容爬取,并筛取关键内容保存至临时保存区;
S2调度Hash去重模块对临时保存区中的每一个关键内容分别进行Hash赋值并得到关键内容的Hash指针;
S3得到目标URL关键内容的所有Hash指针后,通过关键内容的Hash指针集合生成目标URL的Hash值;
S4将目标URL的Hash作为key元素,目标URL中所有关键内容作为value元素保存到Rdis数据库中,并更新key_value对照表;
S5对初始URL集合中所有目标URL进行S1至S4步骤,生成初始URL集合的key_value对照表;
S6通过页面爬行模块遍历爬取初始URL集合中所有子URL,并将所有子URL作为目标URL保存至URL子集合中;
S7对URL子集合中所有目标URL进行S1至S4步骤,并生成URL子集合的key_value对照表;
S8通过页面爬行模块爬取所有目标URL的历史更新频率,将平均每24小时更新不小于一次的目标URL保存至快URL集中,将平均每24小时更新小于一次的目标URL保存至慢URL集中;
S9通过页面爬行模块对快URL集中的目标URL每1个小时进行一次关键内容爬取,对慢URL集中的目标URL每6个小时进行一次关键内容爬取,并保存至查重区;
S10调度Hash去重模块对临时保存区中的每一个关键内容分别进行Hash赋值并得到关键内容的查重Hash指针;
S11得到目标URL关键内容的所有查重Hash指针后,通过关键内容的查重Hash指针集合生成目标URL的查重Hash值;
S12将目标URL的查重Hash值和保存在Rdis数据库中的指针进行比对,若相同,则目标URL的关键内容并未发生变化;若不相同,则目标URL的关键内容发生变化;
S13将关键内容发生变化的目标URL的查重Hash值作为key元素替换Rdis数据库中原有的key元素,将发生变化的关键内容作为value元素替换替换Rdis数据库中原有的value元素,并更新key_value对照表;
S14重复S1至S13步骤,历遍所有初始URL集合和URL子集合,保持更新。
作为本实施例更进一步的解决方案,所述农业生产数据抓取端用于对现存web服务器的,且是公开的农业生产过程中产生的信息进行合法的抓取,所述农业生产数据抓取端为聚焦式网络爬虫端,包括页面爬行模块、主题语意词典、关键词过滤器、数值解析器、URL检索器、临时保存区、待爬URL队列、Hadoop数据库和调度模块。
需要说明的是:聚焦式网络爬虫端与增量式网络爬虫端不同,它关心的是一个主题或者领域的浅层信息,当将第一层的信息采集完成后才会对下一层的信息进行采集,采用聚焦式网络爬虫端是考虑到了像甘肃省土豆产量、江苏省西红柿产量、台湾省凤梨产量这些信息通常不存在于一个或者几个网站中,通常是零碎分布在各个农业相关的网站中,对此我们就得采用广撒网、网状扩张的方式进行爬取,主题语意词典用于将需要爬取的主题词放入,这里我们选取的农业生产主题的语意树安层次的先后顺序包括蔬菜,水果,谷物等,蔬菜类别下面又包括大头菜,油麦菜等,像树一样慢慢展开,关键词过滤器类似于百度搜索的关键词检索,可以通过百度,360搜索等提供的API进行使用,通过关键词过滤器对主题语意词典中的主题词进行检索能发掘与主题词关联的URL,将这些URL加入待爬URL队列中,页面爬行模块对待爬URL队列中的文本内容进行爬取,数值解析器对关键词对应的数值和单位进行解析并保存至Hadoop数据库,单位包括万吨、吨、千克等,如“甘肃省进行生产土豆3800万吨”,数值解析器就能解析关键词“土豆”,数值“3800”,单位“万吨”,由于这些数据量大,且需要统一单位和进行数据分析,本实施例采用Hadoop数据库对数据进行保存。
作为本实施例更进一步的解决方案,所述调度模块将页面爬行模块、主题语意词典、关键词过滤器、数值解析器、URL检索器、临时保存区、待爬URL队列、Hadoop数据库按照如下步骤进行调度:
S15将农业生产主题的语意树保存至主题语意词典中;
S16通过URL检索器按照农业生产主题的语意树的层次关系进行分层语意检索,并将内容符合当前检索语意的URL保存至待爬URL队列中;
S17通过页面爬行模块对待爬URL队列中的目标URL进行文本内容爬取,并将重要文本内容保存至临时保存区;
S18关键词过滤器对临时保存区中的重要本文进行关键词检索;
S19将含有目标关键词的重要本文送至数值解析器,数值解析器将关键词对应的数值和单位进行解析并保存至Hadoop数据库。
作为本实施例更进一步的解决方案,农产品消费链数据抓取端用于对现存web服务器的,且是公开的农产品在消费链流通所产生的信息进行合法的抓取,农产品消费链数据抓取端是深层式网络爬虫端,包括页面爬行模块、根URL集、URL子集、数据过滤器、区块链追溯模块、Hadoop数据库、溯源链表和调度模块。
需要说明的是:深层式网络爬虫端又与聚焦式网络爬虫端和增量式网络爬虫端不同,它关注的是数据的流动和去向,它会将一个根URL挖缺到底直到再无子URL出现,这个和农产品消费链不谋而合,农产品消费链也是从产出、加工最后到消费者手里也是一条线走到底,所以我们通过深层式网络爬虫端对消费链大数据进行爬取,根URL集中保存着一些端口数据的URL,例如一些供应链公司的公开URL,通过这些根URL我们能爬取到农产品的来源,通过页面爬行模块能爬取根URL的内容和包括的子URL,子URL中通常包括农产品的去向;加工成什么制品;销往哪里;每一级通常对应一级的子URL,我们通过对每一级的URL生成Hash值,就能得到农产品的流量结构,并生成Merkle树。
所述调度模块将页面爬行模块、根URL集、URL子集、数据过滤器、Hash追溯模块、溯源链表和Hadoop数据库按照如下步骤进行调度:
S20选取根URL集中的一个根URL作为目标URL;
S21通过页面爬行模块对目标URL进行关键内容识别,并将关键内容保存至临时保存区;
S22数据过滤器对临时保存区中的关键内容进行数据过滤,通过主词确定数据对象,通过副词确定对象流向,并保存至Hadoop数据库中;
S23通过Hash追溯模块为每一个数据对象生成对应Hash指针;
S24通过页面爬行模块爬取当前目标URL中包含的子URL,并保存至URL子集中;
S25选取URL子集中的一个子URL作为目标URL;
S26执行S21至S24步骤直至目标URL中再无子URL;
S27通过Hash指针生成追溯链末端Hash值;
S28将末端Hash值写入溯源链表中,并保存至Hadoop数据库中;
S29通过执行S20至S28步骤遍历根URL所有子URL的指针路径,直至描绘出根URL集中每一个根URL的子URL的指针路径;
S30通过溯源链表的Hash指针指向关系生成Merkle树。
作为本实施例更进一步的解决方案,如图2所示,所述农业资讯数据抓取端通过农业资讯大数据可视化系统进行分类可视化显示,所述农业资讯数据抓取端包括分类栏、条目栏和显示栏,所述分类栏包括地域选项、内容选项和发布日期选项,所述条目栏用于显示资讯选项条目,所述显示栏用于显示选项条目内容。
作为本实施例更进一步的解决方案,所述分类可视化显示包括如下步骤:
S31通过key_value对照表找到所有选项条目的key元素;
S32通过key元素中保存的Hash值找到Hash时间戳;
S33根据Hash时间戳确定选项条目的发布日期;
S34通过key_value对照表找到所有选项条目的value元素;
S35通过value元素确定选项条目的关键内容;
S36通过地域关键词和对内容关键词对选项条目的关键内容进行检索;
S37若在选项条目的关键内容中检索到与地域关键词匹配的词条,则为选项条目贴上对应的地域标签;
S38若在选项条目的关键内容中检索到与内容关键词匹配的词条,则为选项条目贴上对应的内容标签;
S39通过分类栏获取用户地域选项、内容选项和发布日期的设定值;
S40将地域标签、内容标签和发布日期满足地域选项、内容选项和发布日期的设定值的选项条目通过条目栏进行显示;
S41将用户选中的选项条目通过显示栏进行具体内容显示。
作为本实施例更进一步的解决方案,如图3所示,所述农业生产大数据可视化系统通过如下步骤得到农业生产大数据的气泡图:
S42读取Hadoop数据库中农业生产大数据;
S43为农业生产大数据中每一个关键词建立一个气泡项;
S44将关键词对应数值的单位进行单位统一化;
S45将统一后的数值和单位植入对应关键词的气泡项参数中;
S46将每一个气泡项按照对应参数进行逐一显示。
作为本实施例更进一步的解决方案,如图4所示,所述农产品消费链大数据可视化系统通过如下步骤得到农产品消费链大数据的桑基图:
S47读取Hadoop数据库中农产品消费链数据;
S48为每一个主词建立一个数据对象;
S49通过主词对应的副词确定数据对象的数据流向;
S50将数据对象作为桑基图中的起始对象,通过数据流向确定桑基图的流量路径;
S51将起始对象和流量路径进行可视化显示。
作为本实施例更进一步的解决方案,所述可视化交互系统是基于光标控制的交互系统,包括光标、关联词和可视化项;所述光标用于选择用户想要进行可视化的关联词,关联词用于对显示内容进行归类,可视化项通过光标点击关联词进行调用,所述可视化项包括资讯、生产和消费链。
需要说明的是:以农业资讯大数据可视化系统为例,当农业资讯大数据可视化系统显示一条资讯的内容是“甘肃省进行生产土豆3800万吨”,“土豆”作为关联词,当用户将鼠标移动到“土豆”上并点击,文字下方就会出现“资讯”、“生产”和“消费链”三个可视化项,点击“资讯”就会出现与土豆相关的资讯信息,点击“生产”就会出现土豆相关的气泡图,当点击“消费链”时,就会出现土豆的桑基图。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种可视化农业大数据分析交互系统,其特征在于,包括农业大数据抓取系统、农业资讯大数据可视化系统、农业生产大数据可视化系统、农产品消费链大数据可视化系统和可视化交互系统;
所述农业大数据抓取系统通过数据爬虫对互联网上现存web服务器的,且是公开的农业数据进行合法的抓取、过滤和存储操作;所述农业大数据抓取系统包括农业资讯数据抓取端、农业生产数据抓取端、农产品消费链数据抓取端和大数据存储端;
所述大数据存储端包括Redis数据库和Hadoop数据库,所述大数据存储端用于对农业资讯数据抓取端、农业生产数据抓取端和农产品消费链数据抓取端产生的数据进行分类存储;
所述农业资讯数据抓取端用于抓取指定权威资讯站点上农业领域的资讯信息并保存至大数据存储端的Redis数据库中,且定时对Redis数据库中的数据进行更新;
所述农业生产数据抓取端用于抓取互联网上农业生产领域的数据信息,并将数据信息对应的对象、数值和单位进行解析并保存至Hadoop数据库中;
所述农产品消费链数据抓取端用于抓取指定根数据源站点上的农产品消费链数据,且通过消费链数据构建溯源链表并保存至Hadoop数据库中;
所述农业资讯大数据可视化系统将所述农业资讯数据抓取端提供的农业领域的资讯信息按照地域、内容和发布日期进行分类可视化显示;
所述农业生产大数据可视化系统将所述农业生产数据抓取端抓取的农业生产大数据通过整理分类形成气泡图,并对进行可视化显示;
所述农产品消费链大数据可视化系统将所述农产品消费链数据抓取端提供的农产品消费链数据通过桑基图进行可视化显示;
所述可视化交互系统能提取农业资讯关键词、农业生产关键词和农产品消费链关键词,并将关键词进行关联串接,通过关联串结构建交互超链接。
2.根据权利要求1所述的一种可视化农业大数据分析交互系统,其特征在于,所述农业资讯数据抓取端用于对现存web服务器的,且是公开的农业资讯信息进行合法的抓取,所述农业资讯数据抓取端为增量式网络爬虫端,包括页面爬行模块、初始URL集合、URL子集合、Hash去重模块、临时保存区、查重区、Rdis数据库和调度模块,所述调度模块将页面爬行模块、初始URL集合、URL子集合、Hash去重模块、临时保存区、查重区和Rdis数据库按照如下步骤进行调度:
S1通过页面爬行模块对初始URL集合中的目标URL进行内容爬取,并筛取关键内容保存至临时保存区;
S2调度Hash去重模块对临时保存区中的每一个关键内容分别进行Hash赋值并得到关键内容的Hash指针;
S3得到目标URL关键内容的所有Hash指针后,通过关键内容的Hash指针集合生成目标URL的Hash值;
S4将目标URL的Hash作为key元素,目标URL中所有关键内容作为value元素保存到Rdis数据库中,并更新key_value对照表;
S5对初始URL集合中所有目标URL进行S1至S4步骤,生成初始URL集合的key_value对照表;
S6通过页面爬行模块遍历爬取初始URL集合中所有子URL,并将所有子URL作为目标URL保存至URL子集合中;
S7对URL子集合中所有目标URL进行S1至S4步骤,并生成URL子集合的key_value对照表;
S8通过页面爬行模块爬取所有目标URL的历史更新频率,将平均每24小时更新不小于一次的目标URL保存至快URL集中,将平均每24小时更新小于一次的目标URL保存至慢URL集中;
S9通过页面爬行模块对快URL集中的目标URL每1个小时进行一次关键内容爬取,对慢URL集中的目标URL每6个小时进行一次关键内容爬取,并保存至查重区;
S10调度Hash去重模块对临时保存区中的每一个关键内容分别进行Hash赋值并得到关键内容的查重Hash指针;
S11得到目标URL关键内容的所有查重Hash指针后,通过关键内容的查重Hash指针集合生成目标URL的查重Hash值;
S12将目标URL的查重Hash值和保存在Rdis数据库中的指针进行比对,若相同,则目标URL的关键内容并未发生变化;若不相同,则目标URL的关键内容发生变化;
S13将关键内容发生变化的目标URL的查重Hash值作为key元素替换Rdis数据库中原有的key元素,将发生变化的关键内容作为value元素替换替换Rdis数据库中原有的value元素,并更新key_value对照表;
S14重复S1至S13步骤,历遍所有初始URL集合和URL子集合,保持更新。
3.根据权利要求1所述的一种可视化农业大数据分析交互系统,其特征在于,所述农业生产数据抓取端用于对现存web服务器的,且是公开的农业生产过程中产生的信息进行合法的抓取,所述农业生产数据抓取端为聚焦式网络爬虫端,包括页面爬行模块、主题语意词典、关键词过滤器、数值解析器、URL检索器、临时保存区、待爬URL队列、Hadoop数据库和调度模块;所述调度模块将页面爬行模块、主题语意词典,关键词过滤器,数值解析器,初始URL集合,待爬URL队列、Hadoop数据库按照如下步骤进行调度:
S15将农业生产主题的语意树保存至主题语意词典中;
S16通过URL检索器按照农业生产主题的语意树的层次关系进行分层语意检索,并将内容符合当前检索语意的URL保存至待爬URL队列中;
S17通过页面爬行模块对待爬URL队列中的目标URL进行文本内容爬取,并将重要文本内容保存至临时保存区;
S18关键词过滤器对临时保存区中的重要本文进行关键词检索;
S19将含有目标关键词的重要本文送至数值解析器,数值解析器将关键词对应的数值和单位进行解析并保存至Hadoop数据库。
4.根据权利要求1所述的一种可视化农业大数据分析交互系统,其特征在于,农产品消费链数据抓取端用于对现存web服务器的,且是公开的农产品在消费链流通所产生的信息进行合法的抓取,农产品消费链数据抓取端是深层式网络爬虫端,包括页面爬行模块、根URL集、URL子集、数据过滤器、区块链追溯模块、Hadoop数据库、溯源链表和调度模块;所述调度模块将页面爬行模块、根URL集、URL子集、数据过滤器、Hash追溯模块、溯源链表和Hadoop数据库按照如下步骤进行调度:
S20选取根URL集中的一个根URL作为目标URL;
S21通过页面爬行模块对目标URL进行关键内容识别,并将关键内容保存至临时保存区;
S22数据过滤器对临时保存区中的关键内容进行数据过滤,通过主词确定数据对象,通过副词确定对象流向,并保存至Hadoop数据库中;
S23通过Hash追溯模块为每一个数据对象生成对应Hash指针;
S24通过页面爬行模块爬取当前目标URL中包含的子URL,并保存至URL子集中;
S25选取URL子集中的一个子URL作为目标URL;
S26执行S21至S24步骤直至目标URL中再无子URL;
S27通过Hash指针生成追溯链末端Hash值;
S28将末端Hash值写入溯源链表中,并保存至Hadoop数据库中;
S29通过执行S20至S28步骤遍历根URL所有子URL的指针路径,直至描绘出根URL集中每一个根URL的子URL的指针路径;
S30通过溯源链表的Hash指针指向关系生成Merkle树。
5.根据权利要求1与权利要求2所述的一种可视化农业大数据分析交互系统,其特征在于,所述农业资讯数据抓取端通过农业资讯大数据可视化系统进行分类可视化显示,所述农业资讯数据抓取端包括分类栏、条目栏和显示栏,所述分类栏包括地域选项、内容选项和发布日期选项,所述条目栏用于显示资讯选项条目,所述显示栏用于显示选项条目内容。
6.根据权利要求5所述的一种可视化农业大数据分析交互系统,其特征在于,所述分类可视化显示包括如下步骤:
S31通过key_value对照表找到所有选项条目的key元素;
S32通过key元素中保存的Hash值找到Hash时间戳;
S33根据Hash时间戳确定选项条目的发布日期;
S34通过key_value对照表找到所有选项条目的value元素;
S35通过value元素确定选项条目的关键内容;
S36通过地域关键词和对内容关键词对选项条目的关键内容进行检索;
S37若在选项条目的关键内容中检索到与地域关键词匹配的词条,则为选项条目贴上对应的地域标签;
S38若在选项条目的关键内容中检索到与内容关键词匹配的词条,则为选项条目贴上对应的内容标签;
S39通过分类栏获取用户地域选项、内容选项和发布日期的设定值;
S40将地域标签、内容标签和发布日期满足地域选项、内容选项和发布日期的设定值的选项条目通过条目栏进行显示;
S41将用户选中的选项条目通过显示栏进行具体内容显示。
7.根据权利要求1与权利要求3所述的一种可视化农业大数据分析交互系统,其特征在于,所述农业生产大数据可视化系统通过如下步骤得到农业生产大数据的气泡图:
S42读取Hadoop数据库中农业生产大数据;
S43为农业生产大数据中每一个关键词建立一个气泡项;
S44将关键词对应数值的单位进行单位统一化;
S45将统一后的数值和单位植入对应关键词的气泡项参数中;
S46将每一个气泡项按照对应参数进行逐一显示。
8.根据权利要求1与权利要求4所述的一种可视化农业大数据分析交互系统,其特征在于,所述农产品消费链大数据可视化系统通过如下步骤得到农产品消费链大数据的桑基图:
S47读取Hadoop数据库中农产品消费链数据;
S48为每一个主词建立一个数据对象;
S49通过主词对应的副词确定数据对象的数据流向;
S50将数据对象作为桑基图中的起始对象,通过数据流向确定桑基图的流量路径;
S51将起始对象和流量路径进行可视化显示。
9.根据权利要求1所述的一种可视化农业大数据分析交互系统,其特征在于,所述可视化交互系统是基于光标控制的交互系统,所述可视化交互系统包括光标、关联词和可视化项;所述光标用于选择用户想要进行可视化的关联词,所述可视化项通过光标点击关联词进行调用,所述可视化项包括资讯、生产和消费链。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110363313.3A CN113065051B (zh) | 2021-04-02 | 2021-04-02 | 一种可视化农业大数据分析交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110363313.3A CN113065051B (zh) | 2021-04-02 | 2021-04-02 | 一种可视化农业大数据分析交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065051A true CN113065051A (zh) | 2021-07-02 |
CN113065051B CN113065051B (zh) | 2022-04-15 |
Family
ID=76565587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110363313.3A Active CN113065051B (zh) | 2021-04-02 | 2021-04-02 | 一种可视化农业大数据分析交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065051B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601604A (zh) * | 2022-11-29 | 2023-01-13 | 西南石油大学(Cn) | 一种基于长短时记忆网络的多任务微泡轨迹追踪方法 |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376421A (zh) * | 2014-11-24 | 2015-02-25 | 常州市农畜水产品质量监督检验测试中心 | 基于可视化图形技术的农产品数字化生产管理系统及其方法 |
CN104953671A (zh) * | 2015-07-08 | 2015-09-30 | 安徽农业大学 | 作为物联网移动节点的农用履带机器人电源自治装置 |
CN105677918A (zh) * | 2016-03-03 | 2016-06-15 | 浪潮软件股份有限公司 | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
CN107908794A (zh) * | 2017-12-15 | 2018-04-13 | 广东工业大学 | 一种数据挖掘的方法、系统、设备及计算机可读存储介质 |
US20180342020A1 (en) * | 2017-05-24 | 2018-11-29 | Remote Grid Pte. Ltd. | System, method and apparatus for management of agricultural resource |
CN109543067A (zh) * | 2018-11-19 | 2019-03-29 | 陕西西普数据通信股份有限公司 | 基于人工智能的企业生产状况实时监控分析系统 |
CN109657121A (zh) * | 2018-12-09 | 2019-04-19 | 佛山市金穗数据服务有限公司 | 一种基于网络爬虫的Web页面信息采集方法及装置 |
CN109710618A (zh) * | 2018-12-29 | 2019-05-03 | 北京航天云路有限公司 | 知识图谱数据关系分离的混合存储方法及系统 |
CN109738664A (zh) * | 2019-01-30 | 2019-05-10 | 华南农业大学 | 一种防水的农机履带驱动轮转速无线测量系统及测量方法 |
CN109918429A (zh) * | 2019-01-21 | 2019-06-21 | 武汉烽火众智智慧之星科技有限公司 | 基于Redis的Spark数据处理方法及系统 |
CN110147400A (zh) * | 2019-05-10 | 2019-08-20 | 青岛建邦供应链股份有限公司 | 基于大数据的跨行业数据资源整合系统 |
CN110413681A (zh) * | 2019-08-01 | 2019-11-05 | 上海胜泰信息技术有限公司 | 一款Web端基于大数据技术的可视化数据处理方法 |
CN110413861A (zh) * | 2019-07-23 | 2019-11-05 | 中南民族大学 | 基于网络爬虫的链接提取方法、装置、设备及存储介质 |
CN110472596A (zh) * | 2019-08-20 | 2019-11-19 | 同舟智慧(威海)科技发展有限公司 | 一种农业精细化种植及灾害预防控制系统 |
CN110866166A (zh) * | 2019-11-14 | 2020-03-06 | 北京京航计算通讯研究所 | 面向海量数据采集的分布式网络爬虫性能优化系统 |
CN111324797A (zh) * | 2020-02-20 | 2020-06-23 | 民生科技有限责任公司 | 一种高速精准获取数据的方法和装置 |
CN112085241A (zh) * | 2019-06-12 | 2020-12-15 | 江苏汇环环保科技有限公司 | 一种基于机器学习的环境大数据分析和决策平台 |
CN112241864A (zh) * | 2019-07-16 | 2021-01-19 | 中移(苏州)软件技术有限公司 | 一种信息处理方法、装置和计算机可读存储介质 |
CN112269912A (zh) * | 2020-11-18 | 2021-01-26 | 布瑞克农业大数据科技集团有限公司 | 一种农业大数据价格预警管理系统及方法 |
CN112269956A (zh) * | 2020-11-11 | 2021-01-26 | 北大荒浪潮信息有限公司 | 一种基于机器学习引擎的农业大数据搜索结果呈现的方法和装置 |
CN112347243A (zh) * | 2019-08-06 | 2021-02-09 | 傅天信 | 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法 |
CN112395276A (zh) * | 2020-11-13 | 2021-02-23 | 中国人寿保险股份有限公司 | 一种数据比对方法及相关设备 |
-
2021
- 2021-04-02 CN CN202110363313.3A patent/CN113065051B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376421A (zh) * | 2014-11-24 | 2015-02-25 | 常州市农畜水产品质量监督检验测试中心 | 基于可视化图形技术的农产品数字化生产管理系统及其方法 |
CN104953671A (zh) * | 2015-07-08 | 2015-09-30 | 安徽农业大学 | 作为物联网移动节点的农用履带机器人电源自治装置 |
CN105677918A (zh) * | 2016-03-03 | 2016-06-15 | 浪潮软件股份有限公司 | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106709052A (zh) * | 2017-01-06 | 2017-05-24 | 电子科技大学 | 一种基于关键词的主题网络爬虫设计方法 |
US20180342020A1 (en) * | 2017-05-24 | 2018-11-29 | Remote Grid Pte. Ltd. | System, method and apparatus for management of agricultural resource |
CN107908794A (zh) * | 2017-12-15 | 2018-04-13 | 广东工业大学 | 一种数据挖掘的方法、系统、设备及计算机可读存储介质 |
CN109543067A (zh) * | 2018-11-19 | 2019-03-29 | 陕西西普数据通信股份有限公司 | 基于人工智能的企业生产状况实时监控分析系统 |
CN109657121A (zh) * | 2018-12-09 | 2019-04-19 | 佛山市金穗数据服务有限公司 | 一种基于网络爬虫的Web页面信息采集方法及装置 |
CN109710618A (zh) * | 2018-12-29 | 2019-05-03 | 北京航天云路有限公司 | 知识图谱数据关系分离的混合存储方法及系统 |
CN109918429A (zh) * | 2019-01-21 | 2019-06-21 | 武汉烽火众智智慧之星科技有限公司 | 基于Redis的Spark数据处理方法及系统 |
CN109738664A (zh) * | 2019-01-30 | 2019-05-10 | 华南农业大学 | 一种防水的农机履带驱动轮转速无线测量系统及测量方法 |
CN110147400A (zh) * | 2019-05-10 | 2019-08-20 | 青岛建邦供应链股份有限公司 | 基于大数据的跨行业数据资源整合系统 |
CN112085241A (zh) * | 2019-06-12 | 2020-12-15 | 江苏汇环环保科技有限公司 | 一种基于机器学习的环境大数据分析和决策平台 |
CN112241864A (zh) * | 2019-07-16 | 2021-01-19 | 中移(苏州)软件技术有限公司 | 一种信息处理方法、装置和计算机可读存储介质 |
CN110413861A (zh) * | 2019-07-23 | 2019-11-05 | 中南民族大学 | 基于网络爬虫的链接提取方法、装置、设备及存储介质 |
CN110413681A (zh) * | 2019-08-01 | 2019-11-05 | 上海胜泰信息技术有限公司 | 一款Web端基于大数据技术的可视化数据处理方法 |
CN112347243A (zh) * | 2019-08-06 | 2021-02-09 | 傅天信 | 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法 |
CN110472596A (zh) * | 2019-08-20 | 2019-11-19 | 同舟智慧(威海)科技发展有限公司 | 一种农业精细化种植及灾害预防控制系统 |
CN110866166A (zh) * | 2019-11-14 | 2020-03-06 | 北京京航计算通讯研究所 | 面向海量数据采集的分布式网络爬虫性能优化系统 |
CN111324797A (zh) * | 2020-02-20 | 2020-06-23 | 民生科技有限责任公司 | 一种高速精准获取数据的方法和装置 |
CN112269956A (zh) * | 2020-11-11 | 2021-01-26 | 北大荒浪潮信息有限公司 | 一种基于机器学习引擎的农业大数据搜索结果呈现的方法和装置 |
CN112395276A (zh) * | 2020-11-13 | 2021-02-23 | 中国人寿保险股份有限公司 | 一种数据比对方法及相关设备 |
CN112269912A (zh) * | 2020-11-18 | 2021-01-26 | 布瑞克农业大数据科技集团有限公司 | 一种农业大数据价格预警管理系统及方法 |
Non-Patent Citations (2)
Title |
---|
王文生等: "农业大数据及其应用展望", 《江苏农业科学》 * |
黄红星等: "基于可视化技术的农业资源数据管理系统开发", 《农业网络信息》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601604A (zh) * | 2022-11-29 | 2023-01-13 | 西南石油大学(Cn) | 一种基于长短时记忆网络的多任务微泡轨迹追踪方法 |
CN115601604B (zh) * | 2022-11-29 | 2023-04-07 | 西南石油大学 | 一种基于长短时记忆网络的多任务微泡轨迹追踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113065051B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1899800B1 (en) | Schema and etl tools for structured and unstructured data | |
EP1899855B1 (en) | System and method of making unstructured data available to structured data analysis tools | |
US10235421B2 (en) | Systems and methods for facilitating the gathering of open source intelligence | |
US8935197B2 (en) | Systems and methods for facilitating open source intelligence gathering | |
US20070011183A1 (en) | Analysis and transformation tools for structured and unstructured data | |
US20050203860A1 (en) | Product selection expert system | |
WO2012054788A1 (en) | Method and system for performing a comparison | |
CN108229810A (zh) | 基于网络信息资源的行业分析系统及方法 | |
US7849096B2 (en) | Multiple parameter data media search in a distributed network | |
CN106503211A (zh) | 面向信息发布类网站的移动版自动生成的方法 | |
US20150269138A1 (en) | Publication Scope Visualization and Analysis | |
CN113065051B (zh) | 一种可视化农业大数据分析交互系统 | |
CN111626568A (zh) | 知识库构建方法、装置和知识搜索方法、系统 | |
JP2014102626A (ja) | レコメンド装置、プログラム、および方法 | |
JP2009140241A (ja) | 情報検索サーバ、情報検索方法及びプログラム | |
CN106372123A (zh) | 一种基于标签的相关内容推荐方法和系统 | |
Donig et al. | Web archive analytics: Blind spots and silences in distant readings of the archived web | |
Scharl et al. | Extraction and interactive exploration of knowledge from aggregated news and social media content | |
Shete et al. | Auto approach for extracting relevant data using machine learning | |
KR101236998B1 (ko) | 성장 식물형 키워드 시스템 | |
Neeli et al. | Automated data mining from web servers using perl script | |
Palomino et al. | Instability in search engine results: lessons learned in the context of horizon scanning applications | |
Kumaresan et al. | A framework for extraction of journal information from scientific publishers web site | |
Agrawal et al. | Eshopmonitor: A web content monitoring tool | |
Nanayakkara | Real estate investment information system using data mining from web data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |