CN117575171B - 一种基于数据分析的粮食形势智能评估系统 - Google Patents
一种基于数据分析的粮食形势智能评估系统 Download PDFInfo
- Publication number
- CN117575171B CN117575171B CN202410030068.8A CN202410030068A CN117575171B CN 117575171 B CN117575171 B CN 117575171B CN 202410030068 A CN202410030068 A CN 202410030068A CN 117575171 B CN117575171 B CN 117575171B
- Authority
- CN
- China
- Prior art keywords
- data
- word
- grain
- article
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 29
- 238000007405 data analysis Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013480 data collection Methods 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 52
- 230000008451 emotion Effects 0.000 claims description 40
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000012271 agricultural production Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000007667 floating Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012854 evaluation process Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 235000013339 cereals Nutrition 0.000 description 68
- 230000008569 process Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000001556 precipitation Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 240000008042 Zea mays Species 0.000 description 2
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 2
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 235000005822 corn Nutrition 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 229920002472 Starch Polymers 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 235000011868 grain product Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 235000019698 starch Nutrition 0.000 description 1
- 239000008107 starch Substances 0.000 description 1
- 230000036561 sun exposure Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Mining & Mineral Resources (AREA)
- Quality & Reliability (AREA)
- Animal Husbandry (AREA)
- Game Theory and Decision Science (AREA)
- Marine Sciences & Fisheries (AREA)
- Operations Research (AREA)
- Agronomy & Crop Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于数据分析的粮食形势智能评估系统,包括以下模块:数据收集模块,用于进行数据收集;数据处理模块,用于对采集到的数据进行清洗和预处理;数据分析模块,用于对消费者对粮食形势的关注度数据进行分析,获取消费者对粮食形势的关注度评分;智能评估模块,用于对数据收集模块采集的数据、数据处理模块处理后的数据和数据分析模块产生的评分数据进行建模评估,获取粮食形势评估分。本发明基于数据分析的方法,能够对粮食形势进行有效评估。
Description
技术领域
本发明涉及粮食数据分析评估领域,具体涉及一种基于数据分析的粮食形势智能评估系统。
背景技术
传统的粮食形势评估主要依赖于经验判断和人工调查,存在主观性高、信息滞后、评估周期长等问题。随着信息技术和数据分析的快速发展,利用大数据和人工智能技术进行粮食形势评估成为可能。
公开号为CN108694584A的发明专利申请公开了一种基于区块链的粮食溯源与激励的方法以及系统。该方法包括:建立由监管平台、收购平台、收储平台、生产企业平台以及消费者组成的区块链网络;消费者基于智能合约根据获取的溯源数据做出评价反馈。该方法解决的技术问题是:市面上的粮食产品基本无法溯源使得消费者无法对该产品的原来来源产生信心。
发明内容
本申请实施例的目的在于提供了一种基于数据分析的粮食形势智能评估系统,利用大数据和人工智能技术进行粮食形势评估。
第一方面,本申请实施例提供了一种基于数据分析的粮食形势智能评估系统,包括以下模块:
数据收集模块,用于进行数据收集,收集的数据包括第一数据和第二数据,所述第一数据为粮食统计机构向公众发布的数据,所述第二数据为粮食设备采集的数据,第一数据包括:农业生产数据、市场价格数据、气象数据、农田覆盖数据、粮食质量数据;第二数据包括:无人机航拍数据、物联网实时追踪和监控数据、区块链可信生产数据、消费者对粮食的关注度数据;所述第一数据和第二数据为按照时间顺序排列的数据,具有时间标记;
数据处理模块,用于对采集到的数据进行清洗和预处理,所述预处理包括对第一数据和第二数据进行融合;
数据分析模块,用于对消费者对粮食的关注度数据进行分析,获取消费者对粮食的关注度评分;具体包括:
构建粮食相关关键词数据集合,包括:构建粮食语境词语集合、构建情感语境词语集合;
对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据进行分词处理,获取文章词语向量,计算各个文档的词语向量与情感语境词语集合的相关度,获取语料属性类别分数;
基于文章的浏览量对各篇文章与情感语境词语集合的对应语料属性类别分数进行加权方式的处理,最终导出消费者对粮食的关注度评分,具体包括:
消费者对粮食的关注度评分P的计算方式为:
,
其中,M ai 为第ai篇文章的语料属性类别分数,W ai 为第ai篇文章的浏览量;
智能评估模块,用于对数据收集模块采集的数据、数据处理模块处理后的数据和数据分析模块产生的关注度评分进行建模评估,获取粮食形势评估分。
优选地,所述数据预处理包括对机构统计数据和现实统计数据的融合具体包括,针对第一数据和第二数据中同样类别的条目:在一定时段内,如果第一数据对应条目的数据不存在,则将第二数据对应条目的数据作为最终的融合数据输出;如果第二数据对应条目的数据不存在,则将第一数据对应条目的数据作为最终的融合数据输出;如果第一数据对应条目的数据和第二数据对应条目的数据都存在,则将二者进行加权平均作为最终的融合数据输出;
优选地,所述预处理包括对第一数据和第二数据进行融合的计算方式为:
,
其中,A(t n )为t n 时刻的第一数据值,a(t n )为t n 时刻的第二数据值,NaN表示该数据为异常值,A out (t n )为t n 时刻的融合值。
优选地,构建粮食语境词语集合包括:对涉及粮食方面的中文词语进行收集;构建情感语境词语集合包括:对表示情感态度的词语进行收集归纳,分为5个类别:积极、较积极、普通、较消极、消极,形成情感词语词库;词语集合的获取方式包括:人工筛选标注,机器自动标注。
优选地,对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据进行分词处理,获取文章词语向量,计算各个文档的词语向量与情感词语数据集的相关度,获取语料属性类别分数具体包括:
针对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据,使用jieba分词工具,将整篇文章进行全部分词,统计分词后各个词语出现的频次,获取词频最高的前100个词语,使用Bert算法计算这100个词语的词语向量,每个向量长度为1512,即含有512个浮点数,
在此基础上用以下公式计算文章的词语向量:
,
其中为第b个词语向量,D为文章的词语向量,/>表示文章的词语向量中的512个浮点数;
所述语料属性类别分数Mai的计算方式为:
,
其中,Mai为第ai篇文章的语料属性类别分数,
,
以上公式中,C1~C5表示文章与所述情感语境词语集合中5个类别的各词语向量计算余弦相关度,score[max()]为获取最大的余弦相关度的词语向量所属的语料属性类别的语料属性类别分数,D为当前文章的词语向量,S1~S5为预先设置的5个类别的标准情感词语向量,为点积运算,/>分别表示向量D和/>的模长。
优选地,获取粮食形势评估分具体包括:基于卷积神经网络对评估过程进行建模,经过深度学习训练,最终获取粮食形势评估分;
优选地,卷积神经网络具体结构为:将某一时间段内的第一数据和第二数据各项条目作为多个特征通道输入;采用卷积层包含通道数为32的33卷积核与最大池化层完成特征提取与特征筛选,选择卷积层包含通道数64的3/>3卷积核以及最大池化层进一步提取数值特征与减小权重参数,最后经过扁平化一维展开,输入3层全连接层,最后使用softmax分类器。
与现有技术相比,本发明收集了粮食统计机构向公众发布的数据和粮食设备采集的数据,包括权威机构发布的数据和真实环境中设备采集的数据,有效提高了统计数据的全面性;本发明还采用了消费者对粮食的关注度数据,通过了解消费者对粮食的情感和关注度,可以提供更全面和多维度的信息,帮助更准确地评估粮食形势;统计数据信息可能存在滞后性,而现实统计数据信息的及时性较高,本发明将二者进行时间尺度融合能够为智能评估提供更精准的数据;本发明使用基于词语向量的算法来获取消费者对粮食的关注度;深度学习深层神经网络的方法,能够提供泛化性高的智能评估的效果,因此提高了评估结果的可靠性。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的基于数据分析的粮食形势智能评估系统框图。
图2是根据本公开的对消费者对粮食的关注度数据进行分析流程图。
具体实施方式
为使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定此发明。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
请参阅图1,本发明提供基于数据分析的粮食形势智能评估系统,包括以下模块,
数据收集模块100,用于进行数据收集,收集的数据包括第一数据和第二数据,所述第一数据为机构统计数据,所述第二数据为现实统计数据,第一数据包括:农业生产数据、市场价格数据、气象数据、农田覆盖数据、粮食质量数据;第二数据包括:无人机航拍数据、物联网实时追踪和监控数据、区块链可信生产数据、消费者对粮食的关注度数据;
在一些实施例中,机构统计数据可以通过从农业调查机构、市场监测机构、价格监测平台等渠道获取;现实统计数据可以通过现实环境中的传感器信息采集、分享、采购来获取。
机构统计数据具体包括:农业生产数据、气象数据、农田覆盖数据、市场价格数据、粮食质量数据。
其中农业生产数据包括:产量:记录各种粮食作物的产量,表示农业生产的总量和效益;农业技术水平:记录农业生产中使用的技术和方法,如灌溉方式、施肥措施、农药使用情况等;劳动力投入:记录农业生产中投入的劳动力数量和工作时间,反映劳动力对生产的贡献。
气象数据包括:温度:记录不同时间点的气温数据,可以包括日最高温度、日最低温度、平均温度等;降水量:记录不同时间点的降水量数据,可以包括日降水量、月降水量、年降水量等;相对湿度:记录不同时间点的相对湿度数据,反映空气中水分含量的多少;风速和风向:记录不同时间点的风速和风向数据,描述风的强度和方向;日照时数:记录不同时间点的日照时数数据,反映太阳光照射的持续时间;大气压力:记录不同时间点的大气压力数据,描述大气的压强情况。
农田覆盖数据包括:种植面积:记录不同农作物的种植面积数据,包括小麦、稻谷、玉米等主要粮食作物的种植面积;农作物分布:记录农田的农作物种植类型;农田利用类型:记录不同农田的利用类型,包括耕地、牧草地、林地等,反映土地利用的情况。
市场价格数据包括:批发价格:记录粮食在批发市场上的价格,通常以每单位重量(如每吨)计算;零售价格:记录粮食在零售市场上的价格,通常以每单位重量(如每公斤)计算;期货价格:记录粮食期货合约的价格,反映市场对未来粮食供求关系的预期;进口和出口价格:记录粮食的进口和出口价格,反映国际市场上的供求关系和贸易活动。
粮食质量数据包括:粮食的品种、等级、病虫害、水分含量、蛋白质含量、淀粉含量、脂肪含量等。
现实统计数据包括:无人机航拍数据、物联网实时追踪和监控数据、区块链可信生产数据、消费者对粮食的关注度数据。
在一些实施例中,无人机航拍数据是通过农业航拍无人机在现实农田地区拍摄来获取的,能够反映真实的农田覆盖和农作物生长情况;物联网实时追踪和监控数据能够对粮食的储存、运输、加工等环节进行实时追踪和监控,能够真实反映农作物的生产量、销售量、加工量;区块链可信生产数据能够对粮食的储存、运输、加工等环节进行可信溯源,能够真实反映农作物的生产量、销售量、加工量。无人机航拍数据、物联网实时追踪和监控数据、区块链可信生产数据可以通过现实环境中的传感器信息采集、分享、采购来获取。
在一些实施例中,现实统计数据还应用了消费者对粮食的关注度数据,通过对粮食方面移动互联网媒体数据和互联网搜索数据的收集和分析,可以了解消费者对粮食的情感和关注度。
在一些实施例中,对移动互联网媒体数据和互联网搜索数据的收集,具体包括:对移动互联网媒体,例如好友私域媒体、电子留言板论坛、文章自媒体、短视频自媒体等应用的文章内容、浏览量、文章发布时间、用户评论内容、评论发布时间、短视频中的音频转换的文字、浏览量、短视频发布时间进行采集;对互联网热搜数据,例如各大新闻网站和门户网站的热搜排行榜新闻内容、浏览量、文章发布时间进行采集。基于这些网络关注度数据,可以从中提取与粮食相关的信息进行分析。
数据处理模块200,用于对采集到的数据进行清洗和预处理,所述清洗包括去除重复数据、异常值和不完整数据;所述预处理包括对第一数据和第二数据进行融合。
清洗和预处理过程能够去除数据中的噪声和异常值,确保数据的准确性和可靠性。同时,数据整合过程将不同数据源的信息进行融合,形成综合的数据集,为后续的分析和评估提供基础。
在一些实施例中,数据清洗包括去除重复数据、异常值和不完整数据,确保数据的准确性和完整性。去除重复数据即对所有数据进行重复性检测,对于多份一样的数据,例如时间和数据值完全一样的,仅保留一份数据,删除剩余重复的数据;并且对于数据中数据值不在正常合理取值集合内的数据,例如数据的年月日不在合理时间区间,数据值不在合理区间的,进行删除处理,对不完整的数据进行合理修复,例如时间数据仅有年月没有具体日期的,将日期修补到本月一日,如果不能修复则进行删除处理。
无人机航拍数据等现实统计数据同样能够反映机构统计数据,因此对现实统计数据的再加工处理,从而便于后续将机构统计数据和现实统计数据融合。
在一些实施例中,数据预处理包括对现实统计数据的再加工,包括:基于无人机航拍的农田图片获取种植面积,使用OpenCV软件检测图像中的Harris角点,获取角点坐标,角点部分即农田作业区域的边界顶点,农田多边形分解为多个三角形,设农田作业区域的角点为A、B、C、D,设A点的坐标为X1,Y1,B点的坐标为X2,Y2,C点的坐标为(0,0),则由勾股定理得三角形ABC的计算公式:
,/>,
,
,
在此基础上只需要计算ABC,BCD两个三角形的面积和,然后相加就是ABCD四边形的面积,对于多边形也可以采用类似的方法进行计算,在此基础上,基于航拍地图的比例尺即可计算对应农田的种植面积,例如比例尺为1:10,则种植面积为SABCD100。
在一些实施例中,基于无人机航拍的农田图片获取农田利用类型,包括:在使用OpenCV软件检测图像中的Harris角点所连接的边界范围内,获取农田图像,提取农田图像的图像特征,与现有数据库中的特征进行对比,进而得到农田利用类型,具体包括使用OpenCV获取农田部分图像灰度图和颜色图在特征点的SURF特征,SURF特征是一个高维向量,能够表示农田部分图像的特点,将SURF特征和现有数据库中耕地、牧草地、林地等标准特征进行比对,比对误差最小的即是对应的耕地、牧草地、林地农田利用类型。
在一些实施例中,还对物联网实时追踪和监控数据、区块链可信生产数据进行进一步加工,具体包括:获取物联网监控数据和区块链可信生产数据的流水单数据,统计单位时间内例如一天或一个月的农产品流水数量、金额数量等,将其转存为农业生产产量数据、农产品价格、成交量等数据。
可以理解,机构统计数据是农业调查机构、市场监测机构、价格监测平台等渠道发布的数据,统计数据信息可能存在滞后性,一些情况下不能及时反映粮食方面的最新信息,而现实统计数据来自现实环境中的传感器信息采集,信息的及时性较高,因此,将二者进行融合能够有效提高农业信息的准确性,从而为后续智能评估提供更精准的数据。
在一些实施例中,数据预处理包括对机构统计数据和现实统计数据的融合,具体包括:设数据参数例如为机构统计数据中的农产品流水数量A=(A(t 1 ), A(t 2 )…, A(t n )) ;现实统计数据中的农产品流水数量a=(a(t 1 ), a(t 2 )…, a(t n )),则:
,
以上公式中NaN表示数据中异常值的参数,以上公式表示在数据融合的过程中,如果在现实统计数据的某一个时间点对应没有机构统计数据,或是机构统计数据的某一个时间点对应没有现实统计数据,则将二者的数据互相补充,而如果在同一个时间点二者都有数据,则以官方发布的机构统计数据和现实统计数据的以往数据进行加权平均,取n-2,n-1,n三个时间点的数据进行高斯融合加权,从而能够获取更精细和健壮的统计参数。
在一些实施例中,在各项处理完成后,使用数据库保存这些数据,具体包括:对于时间、数值类数据,使用结构化数据库,例如MySQL、SQLServer等进行保存,结构化数据库对于逻辑结构清晰的数据具有容易保存、查询速度快的优势;对于文档类数据,使用非结构化数据库mongodb、redis等进行保存,非结构化数据库对文档类数据能够进行有效查询,文档查询性能优于结构化数据库。
数据分析模块300,用于对消费者对粮食的关注度数据进行分析,获取消费者对粮食的关注度评分。
在一些实施例中,本发明采用基于词语特征量的方式来对移动互联网媒体数据和互联网搜索数据进行分析,请参阅图2,具体包括:
S301,构建粮食相关关键词数据集合,包括:构建粮食语境词语集合、构建情感语境词语集合。
在一些实施例中,对涉及粮食方面的词语进行收集整理,以下列举一个词库集合:(小麦、稻谷、玉米、农作物、亩产量);构建情感词语数据集,公众对粮食的关注度显示在文章内容所采用的词语上,因此对表示情感态度的词语进行收集归纳,形成情感词语词库,以下列举一个词库集合(高兴、开心、乐观、犹豫)。
情感词语词库采用5分制方法,将用户的语料属性设定为5个类别,具体如下:
分数 | 类别 |
2 | 积极 |
1 | 较积极 |
0 | 普通 |
-1 | 较消极 |
-2 | 消极 |
针对每个类别选定一组情感词语,本领域技术人员知晓,所述词库集合可以通过人工筛选收集的方式获取,也可以通过机器方法从大量语料中筛选比对来自动获取。
S302,对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据进行分词处理,获取文章词语向量,计算各个文档的词语向量与情感词语数据集的相关度,获取语料属性类别。
在一些实施例中,对获取到的移动互联网媒体数据和互联网搜索数据也就是各个文档数据进行分词处理,使用jieba分词工具,将整篇文章进行全部分词,统计分词后各个词语出现的频次,获取词频最高的前100个词语,使用Bert算法计算这100个词语的词语向量,Bert算法是一种NLP算法,是在海量的语料的基础上运行自监督学习方法为每个单词学习具备稀疏性的特征表示,每个向量长度为1512,即含有512个浮点数。假设获取到的100个词语向量为/>,/>,... ,/>,对于每个词语向量,例如/>均含有512个稀疏性的特征表示,则在此基础上计算各个文档的词语向量:
,
该计算方式是将词语向量进行向量和计算并进行归一化处理,求得的结果能够综合反映整篇文档词频最高的前100个词语所表示的内容的高维空间特征,因此也就作为了整篇文档的词语向量。
S303,基于文章的播放量对各篇文章与情感词语数据集的对应语料属性类别分数进行加权方式的处理,最终导出消费者对粮食的关注度。
在一些实施例中,设当前文档的词语向量为D, 情感词语数据集的标准情感词语向量为E则:
,
其中为点积运算,/>分别表示他们的模长,余弦相关度越接近1则表示各个文档的词语向量与情感词语数据集的相关度越强。
基于前述方法,可以遍历移动互联网媒体和互联网搜索文档数据来获取一定时间段内的各篇文章与情感词语数据集的相关度。
所述语料属性类别分数Mai的计算方式为:
,
其中,Mai为第ai篇文章的语料属性类别分数,
,
以上公式中,C1~C5表示文章与情感词语数据集中5分制的5个类别的各词语向量计算余弦相关度,score[max()]为获取最大的余弦相关度的词语向量所属的语料属性类别的语料属性类别分数,D为当前文档的词语向量,S1~S5为预先设置的5分制的5个类别的标准情感词语向量,为点积运算,/>分别表示向量D和/>的模长。
在上述方法中,计算各篇文章的词语向量与情感词语数据集中5分制的5个类别的各词语向量计算余弦相关度,得到文章与情感词语数据集的相关度C1~C5,然后对C1~C5的大小进行排序,选取最大值对应的语料属性类别,作为文章对应的语料属性类别分数,例如相关度最大值对应的语料属性为“较积极”,则文章对应的情感分数为1分。
在一些实施例中,基于文章的播放量、浏览量对各篇文章与情感词语数据集的对应语料属性类别分数进行加权方式的处理,最终导出消费者对粮食的关注度:
例如,设置各篇文章的情感分数分别为(M1,M2,…,Mai), 各篇文章的浏览量分别为(W1,W2,…,Wai),则最终导出消费者对粮食的关注度P为:
,
以上公式表示对各篇文章与情感词语数据集的对应分数进行归一化加权,最终获取导出消费者对粮食的关注度评分P。
智能评估模块400,用于对数据收集模块采集的数据、数据处理模块处理后的数据和数据分析模块产生的评分数据进行建模评估,获取粮食形势评估分。
在一些实施例中,基于卷积神经网络对评估过程进行建模,经过深度学习训练,最终获取到粮食形势评估分。使用标准偏差归一化方法对序列数据进行归一化,计算参数序列的平均值和标准差,对参数序列进行标准差缩放和平均值偏置调整。归一化使得具有不同意义的数据之间可以进行一定的比较。
在一些实施例中,本发明采用卷积神经网络(CNN)作为一种前馈多层递阶网络,可以从原始数据中捕获具有代表性的信息和模式,共包含3层结构,即卷积层、池化层和全连接层,卷积层主要用于寻找输入层的局部关系,提取抽象特征,其运算公式为:
,
公式中,为卷积算子;/>为输入数据,其中下标i表示第i个输入数据,/>为激活函数;/>为输出第j个卷积特征图;/>为第i卷积层中第j个卷积核的权重;/>为第j个卷积核的偏置。池化层的作用是逐渐降低输入维数,提取特征中的关键点以减少训练时间,并提高提取特征的鲁棒性。全连接层则用以融合主要信息,最终由分类器决策输出类别概率。
根据前述的网络结构选择某一时间段内的机构统计数据和现实统计数据作为单位数据输入,例如可以包含种植面积、农产品流水数量、温度、消费者对粮食的关注度等多个特征通道;随后采用卷积层包含通道数为32的33卷积核与最大池化层完成特征提取与特征筛选,再选择卷积层包含通道数64的3/>3卷积核以及最大池化层进一步提取数值特征与减小权重参数,最后经过flatten扁平化一维展开,输入3层全连接层进一步深化提取特征。
卷积计算的具体结构为:
y = Softmax(F c 3(Conv(Pooling(Conv(Pooling(/> )))))),
其中y表示卷积训练输出特征决策, Softmax 表示softmax层,Fc 3表示3个全连接层,Conv、Pooling 分别表示卷积和池化的过程,/>表示卷积算子,该卷积层经过了2层卷积与池化。
机构统计数据和现实统计数据划分为训练样本、测试样本、验证样本,利用数据作为卷积神经网络输入数据进行2层卷积与池化训练和测试,并在网络最后采用softmax分类器得到获取到粮食形势评估分,评估等级具体划分如下:
分数 | 安全状况 |
2 | 安全 |
1 | 较安全 |
0 | 一般安全 |
-1 | 较不安全 |
-2 | 不安全 |
在一些实施例中,本发明使用PyTorch开源深度学习框架在完成卷积神经网络模型的搭建。使用PyTorch的深度学习训练采用Adam优化算法,得到网络学习误差曲线,在学习误差不断降低,最终达到目标学习误差时,停止训练过程,最终获得卷积神经网络模型权重参数。在获得学习完成后的权重参数后,利用卷积神经网络前向传递,即可对粮食形势评估分进行预测。
在一些实施例中,本发明还包括可视化展示模块500:用于将数据收集模块采集的数据、数据处理模块处理后的数据和数据分析模块产生的评分数据以及智能评估模块智能评估的结果以可视化的形式呈现;这样的可视化展示方式使得评估结果更直观、易于理解和应用,帮助用户快速了解粮食形势。
在一些实施例中,可视化展示包括大数据展示大屏,显示的内容包括:
散点图,用于展示两个变量之间的关系,比如农田覆盖数据和产量之间的关系;热力图,用于展示数据的密度和分布情况,比如不同地区的粮食产量或市场价格的热度分布等;地理信息系统(GIS)地图,将数据与地理位置相结合,用地图形式展示农田分布、产量分布、市场价格等信息;仪表盘和指标卡:用于汇总和展示关键指标和重要信息,比如总产量、平均价格、质量指标等;并且用户可以通过交互操作,对评估结果进行进一步详细展示。可视化展示方式可以通过数据可视化工具和编程语言(如Python的Matplotlib和Seaborn库、R语言的ggplot2库、Tableau等)来实现。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于数据分析的粮食形势智能评估系统,其特征在于,包括以下模块:
数据收集模块,用于进行数据收集,收集的数据包括第一数据和第二数据,所述第一数据为粮食统计机构向公众发布的数据,所述第二数据为粮食设备采集的数据,第一数据包括:农业生产数据、市场价格数据、气象数据、农田覆盖数据、粮食质量数据;第二数据包括:无人机航拍数据、物联网实时追踪和监控数据、区块链可信生产数据、消费者对粮食的关注度数据;所述第一数据和第二数据为按照时间顺序排列的数据,具有时间标记;
数据处理模块,用于对采集到的数据进行清洗和预处理,所述预处理包括对第一数据和第二数据进行融合;
数据分析模块,用于对消费者对粮食的关注度数据进行分析,获取消费者对粮食的关注度评分;具体包括:
构建粮食相关关键词数据集合,包括:构建粮食语境词语集合、构建情感语境词语集合;
对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据进行分词处理,获取文章词语向量,计算各个文档的词语向量与情感语境词语集合的相关度,获取语料属性类别分数;
基于文章的浏览量对各篇文章与情感语境词语集合的对应语料属性类别分数进行加权方式的处理,最终导出消费者对粮食的关注度评分,具体包括:
消费者对粮食的关注度评分P的计算方式为:
,
其中,M ai 为第ai篇文章的语料属性类别分数,W ai 为第ai篇文章的浏览量;
智能评估模块,用于对数据收集模块采集的数据、数据处理模块处理后的数据和数据分析模块产生的关注度评分进行建模评估,获取粮食形势评估分。
2.如权利要求1所述的智能评估系统,其特征在于:所述预处理包括对第一数据和第二数据进行融合具体包括,针对第一数据和第二数据中同样类别的条目:在一定时段内,如果第一数据对应条目的数据不存在,则将第二数据对应条目的数据作为最终的融合数据输出;如果第二数据对应条目的数据不存在,则将第一数据对应条目的数据作为最终的融合数据输出;如果第一数据对应条目的数据和第二数据对应条目的数据都存在,则将二者进行加权平均作为最终的融合数据输出。
3.如权利要求2所述的智能评估系统,其特征在于:所述预处理包括对第一数据和第二数据进行融合的计算方式为:
,
其中,A(t n ) 为t n 时刻的第一数据值,a(t n )为t n 时刻的第二数据值,NaN表示该数据为异常值,A out (t n ) 为t n 时刻的融合值。
4.如权利要求1所述的智能评估系统,其特征在于:构建粮食语境词语集合包括:对涉及粮食方面的中文词语进行收集;构建情感语境词语集合包括:对表示情感态度的词语进行收集归纳,分为5个类别:积极、较积极、普通、较消极、消极,形成情感词语词库;词语集合的获取方式包括:人工筛选标注,机器自动标注。
5.如权利要求1所述的智能评估系统,其特征在于:对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据进行分词处理,获取文章词语向量,计算各个文档的词语向量与情感词语数据集的相关度,获取语料属性类别分数具体包括:
针对获取到的移动互联网媒体数据和互联网搜索数据中的文章数据,使用jieba分词工具,将整篇文章进行全部分词,统计分词后各个词语出现的频次,获取词频最高的前100个词语,使用Bert算法计算这100个词语的词语向量,每个向量长度为1512,即含有512个浮点数,
在此基础上用以下公式计算文章的词语向量:
,
其中为第b个词语向量,D为文章的词语向量,/>表示文章的词语向量中的512个浮点数;
所述语料属性类别分数Mai的计算方式为:
,
其中,Mai为第ai篇文章的语料属性类别分数,
,
以上公式中,C1~C5表示文章与所述情感语境词语集合中5个类别的各词语向量计算余弦相关度,score[max()]为获取最大的余弦相关度的词语向量所属的语料属性类别的语料属性类别分数,D为当前文章的词语向量,S1~S5为预先设置的5个类别的标准情感词语向量,为点积运算,/>分别表示向量D和/>的模长。
6.如权利要求1所述的智能评估系统,其特征在于:获取粮食形势评估分具体包括:基于卷积神经网络对评估过程进行建模,经过深度学习训练,最终获取到粮食形势评估分。
7.如权利要求6所述的智能评估系统,其特征在于:卷积神经网络具体结构为:将某一时间段内的第一数据和第二数据各项条目作为多个特征通道输入;采用卷积层包含通道数为32的33卷积核与最大池化层完成特征提取与特征筛选,选择卷积层包含通道数64的3/>3卷积核以及最大池化层进一步提取数值特征与减小权重参数,最后经过扁平化一维展开,输入3层全连接层,最后使用softmax分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410030068.8A CN117575171B (zh) | 2024-01-09 | 2024-01-09 | 一种基于数据分析的粮食形势智能评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410030068.8A CN117575171B (zh) | 2024-01-09 | 2024-01-09 | 一种基于数据分析的粮食形势智能评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117575171A CN117575171A (zh) | 2024-02-20 |
CN117575171B true CN117575171B (zh) | 2024-04-05 |
Family
ID=89888396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410030068.8A Active CN117575171B (zh) | 2024-01-09 | 2024-01-09 | 一种基于数据分析的粮食形势智能评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117575171B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575171B (zh) * | 2024-01-09 | 2024-04-05 | 湖南工商大学 | 一种基于数据分析的粮食形势智能评估系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN109241429A (zh) * | 2018-09-05 | 2019-01-18 | 食品安全与营养(贵州)信息科技有限公司 | 一种食品安全舆情监控方法及系统 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110910151A (zh) * | 2019-11-20 | 2020-03-24 | 江苏顺飞信息科技有限公司 | 一种质量追溯系统及追溯方法 |
CN111242416A (zh) * | 2019-12-29 | 2020-06-05 | 航天信息股份有限公司 | 一种汽车运输过程粮食质量安全评估方法及系统 |
CN111291198A (zh) * | 2020-03-12 | 2020-06-16 | 重庆仙桃易云数据有限公司 | 基于大数据的经济形势指数分析方法、系统及计算机可读介质 |
CN112434226A (zh) * | 2020-12-15 | 2021-03-02 | 易研信息科技有限公司 | 一种网络舆情监测预警方法 |
WO2022018574A1 (en) * | 2020-07-22 | 2022-01-27 | Sidharth Naresh Sogani | System and method for assessment of crypto and digital assests |
CN117575171A (zh) * | 2024-01-09 | 2024-02-20 | 湖南工商大学 | 一种基于数据分析的粮食形势智能评估系统 |
-
2024
- 2024-01-09 CN CN202410030068.8A patent/CN117575171B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109241429A (zh) * | 2018-09-05 | 2019-01-18 | 食品安全与营养(贵州)信息科技有限公司 | 一种食品安全舆情监控方法及系统 |
CN110910151A (zh) * | 2019-11-20 | 2020-03-24 | 江苏顺飞信息科技有限公司 | 一种质量追溯系统及追溯方法 |
CN111242416A (zh) * | 2019-12-29 | 2020-06-05 | 航天信息股份有限公司 | 一种汽车运输过程粮食质量安全评估方法及系统 |
CN111291198A (zh) * | 2020-03-12 | 2020-06-16 | 重庆仙桃易云数据有限公司 | 基于大数据的经济形势指数分析方法、系统及计算机可读介质 |
WO2022018574A1 (en) * | 2020-07-22 | 2022-01-27 | Sidharth Naresh Sogani | System and method for assessment of crypto and digital assests |
CN112434226A (zh) * | 2020-12-15 | 2021-03-02 | 易研信息科技有限公司 | 一种网络舆情监测预警方法 |
CN117575171A (zh) * | 2024-01-09 | 2024-02-20 | 湖南工商大学 | 一种基于数据分析的粮食形势智能评估系统 |
Non-Patent Citations (2)
Title |
---|
基于网络爬虫的粮食舆情分析与研究;赵奇;CNKI优秀硕士学位论文全文库;20200603;全文 * |
基于自然语言处理的高校舆情情感倾向分析模型的研究;王啸楠;尹辉平;;鞍山师范学院学报;20200807(第04期);40-44 * |
Also Published As
Publication number | Publication date |
---|---|
CN117575171A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | The future of Internet of Things in agriculture: Plant high-throughput phenotypic platform | |
CN117575171B (zh) | 一种基于数据分析的粮食形势智能评估系统 | |
CN114066242A (zh) | 一种企业风险的预警方法及装置 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
CN114565826A (zh) | 一种农业病虫害识别诊断方法、系统及装置 | |
Feng et al. | A cellular automata model based on nonlinear kernel principal component analysis for urban growth simulation | |
Jeong et al. | A systemic approach to exploring an essential patent linking standard and patent maps: Application of generative topographic mapping (GTM) | |
Sakharova et al. | Issues of tree species classification from LiDAR data using deep learning model | |
Reyana et al. | Accelerating Crop Yield: Multisensor Data Fusion and Machine Learning for Agriculture Text Classification | |
CN117314006A (zh) | 一种智能化数据分析方法及系统 | |
Prasomphan | Rice Bacterial Infection Detection Using Ensemble Technique on Unmanned Aerial Vehicles Images. | |
Littidej et al. | Spatial Predictive Modeling of the Burning of Sugarcane Plots in Northeast Thailand with Selection of Factor Sets Using a GWR Model and Machine Learning Based on an ANN-CA | |
Pham et al. | California wildfire prediction using machine learning | |
CN116778391A (zh) | 一种多模态作物病害表型协同分析模型及装置 | |
CN116629904A (zh) | 一种基于大数据的客户分层匹配方法 | |
Aishwarya et al. | Data mining analysis for precision agriculture: A comprehensive survey | |
CN113537645B (zh) | 基于机器学习融合卫星与天气数据的大豆产量预测方法 | |
Wang | Forecasting and identifying the meteorological and hydrological conditions favoring the occurrence of severe hazes in Beijing and Shanghai using deep learning | |
Swaminathan et al. | A computational framework for modelling and analyzing ice storms | |
Li et al. | Early drought plant stress detection with bi-directional long-term memory networks | |
Vagh | An investigation into the effect of stochastic annual rainfall on crop yields in South Western Australia | |
CN114693367A (zh) | 一种农产品价格大数据监测与可视化系统及方法 | |
Umar et al. | The ontology model for selecting quality melons uses hidden semantic data based on melon knowledge domains | |
APAMPA | Food Security and the Climate Crisis: A Data Driven Analysis of the Nigerian Situation from 2011 To 2020 | |
Wang et al. | Evaluating the Efficiency of the Classifier Method When Analysing the Sales Data of Agricultural Products |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |