CN114429398B - 数据驱动的新型农业经营主体可信等级生成方法及装置 - Google Patents
数据驱动的新型农业经营主体可信等级生成方法及装置 Download PDFInfo
- Publication number
- CN114429398B CN114429398B CN202210353146.9A CN202210353146A CN114429398B CN 114429398 B CN114429398 B CN 114429398B CN 202210353146 A CN202210353146 A CN 202210353146A CN 114429398 B CN114429398 B CN 114429398B
- Authority
- CN
- China
- Prior art keywords
- data
- credit
- model
- training
- credibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 134
- 238000011156 evaluation Methods 0.000 claims abstract description 94
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 32
- 238000010801 machine learning Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000000586 desensitisation Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012098 association analyses Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000000556 factor analysis Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 36
- 230000008901 benefit Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012271 agricultural production Methods 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 230000002079 cooperative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 244000144972 livestock Species 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 244000144977 poultry Species 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
Abstract
本发明提供一种数据驱动的新型农业经营主体可信等级生成方法及装置,该方法包括:从多个数据源获取下属各经营主体相关的评价数据;根据不同信用评级指标集,基于评价数据计算出每个经营主体的所有信用评级指标值;将评级指标值输入至预设的可信等级划分模型,输出每个经营主体的可信等级;构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理;其中,可信等级划分模型是根据每个信用服务器基于本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局训练后得到。该方法可保障本地数据隐私,较好地解决了模型训练中的数据孤岛、数据隐私等问题,并使信用评级结果更客观、准确地反映经营主体信用状况。
Description
技术领域
本发明涉及智能农业信息处理领域,尤其涉及一种数据驱动的新型农业经营主体可信等级生成方法及装置。
背景技术
近年来,以家庭农场、专业大户、农民合作社、农业产业化龙头企业等为代表的各类新型农业经营主体在保障粮食安全和促进农业农村经济发展中发挥了重要作用,已逐步成为保障农民稳定增收、农产品有效供给的重要力量。与此同时,新型农业经营主体也普遍面临着经营规模偏小、运作不规范、管理水平不高、缺乏有效抵押物等问题,再加之农业生产经营具有周期长、收效慢、效益低、自然和市场风险高等特点,使得实行严格风险管控和追求收益的市场化金融体系很难真正对农业经营主体提高便捷的服务,而现有农村金融资源供给无法满足新型农业经营主体发展的资金需求。
当前形势下,建立以信用信息共享和大数据分析为基础的新型农业经营主体评价体系,有助于缩小新型农业经营主体与金融机构、政府、农户等相关利益主体之间的信息不对称性问题。一方面,可以提高新型农业经营主体的融资效率,另一方面,有助于政府机构对各类新型农业经营主体的分级分类管理,促进决策效率。
随着物联网等技术的发展,数据通常不再由单一主体管理而是分布在多个参与方。当前基于机器学习的信用评级模型需要在汇集各方数据的情况下对模型进行训练。然而,由于法律政策、经济利益等因素影响, 各参与方之间面临着不愿、不敢、不能共享数据的困境,严重阻碍了基于数据驱动的机器学习可信等级生成的广泛应用。
发明内容
针对现有技术存在的问题,本发明提供一种数据驱动的新型农业经营主体可信等级生成方法及装置。
本发明提供一种数据驱动的新型农业经营主体可信等级生成方法,包括:每个信用服务器定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中;根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值;将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理;其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再利用所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级。
根据本发明提供的一种数据驱动的新型农业经营主体可信等级生成方法,所述定期从多个数据源分别获取下属各经营主体相关的评价数据之前,还包括:根据每个下属经营主体的属性信息,生成全局唯一的标识符,基于所述标识符为每个下属经营主体建立信用档案;其中,所述属性信息包括经营主体类型、统一社会信用代码、地域编码和校验码。
根据本发明提供的一种数据驱动的新型农业经营主体可信等级生成方法,所述定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中,包括:定期向各数据源服务器发送数据查询指令;所述数据查询指令用于各数据源服务器收到数据查询指令后,检索出符合查询条件的评价数据集R,并计算出评价数据集R的消息摘要,以及利用私钥对消息摘要/>进行加密得到消息摘要/>,并将评价数据集R和加密后的消息摘要/>发送给信用服务器;接收数据源服务器发送的包括评价数据集R和消息摘要/>的数据包,计算数据集R的消息摘要得到/>,使用公钥对消息摘要/>进行解密,得到/>;若/>与/>的值相等,则数据真实性验证通过,提取评价数据存储到每个经营主体对应的唯一信用档案中。
根据本发明提供的一种数据驱动的新型农业经营主体可信等级生成方法,所述定期从多个数据源分别获取下属各经营主体相关的评价数据之后,存储在每个经营主体对应的唯一信用档案中之前,还包括:对所获取的所有评价数据进行预处理,所述预处理包括动态脱敏、数据清洗、缺失值处理、噪声数据处理、数据归一化和标准化中任意一种或多种;对所获取的所有评价数据进行数据融合,所述数据融合包括综合运用本体对齐、实体链接、冲突解决和关系推演技术,对不同来源的评价数据进行语义关联,消除不同来源数据之间的异构性;其中,所述信用档案,按评价数据来源渠道或权属关系分组后,被分散存储在若干个分布式信用服务器中。
根据本发明提供的一种数据驱动的新型农业经营主体可信等级生成方法,所述将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型之前,还包括:从多个数据源服务器中分别获取各经营主体相关的评价数据,并确定每个经营主体的可信等级,将每个经营主体的评价数据和对应的可信等级的组合作为本地的训练样本;基于本地训练样本,对初始的可信等级划分模型进行本地训练;将可信等级划分模型本地训练后的模型信息发送到由多个信用服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有信用服务器中选出全局服务器,所述全局服务器用于根据每个信用服务器发送的模型信息,计算全局模型的梯度,并生成包括全局模型梯度新的新区块;每个数据源服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;其中,所述模型信息包括模型参数、损失函数值和训练时间。
根据本发明提供的一种数据驱动的新型农业经营主体可信等级生成方法,所述基于本地训练样本,对初始的可信等级划分模型进行本地训练,包括:根据如下损失函数,基于本地训练样本,对初始的可信等级划分模型进行本地训练:
;
其中,为模型参数/>对单个训练样本/>的代价函数;/>表示第i个训练样本的信用评级指标向量,/>表示i个训练样本的可信等级;/>表示第/>个信用服务器;/>为第/>个信用服务器本地模型上的训练样本数;为第/>个信用服务器本地模型上的数据样本集合;/>为参数向量/>的/>范数;/>为正则化参数;
相应地,所述根据每个信用服务器发送的模型信息,计算全局模型的梯度,包括基于如下损失函数计算全局梯度:
;
其中,为参与训练的信用服务器总个数,所有信用服务器本地模型上的总样本数为/>;/>为第/>轮迭代时全局模型的损失函数,/>是第/>轮迭代时的模型参数,为第/>个本地模型在第/>轮迭代时的预测值与真实值的离差平方和,/>表示i个训练样本的可信等级预测值;/>为所有本地模型在第/>轮迭代时的离差平方和的总和,/>为预设常数。
根据本发明提供的一种数据驱动的新型农业经营主体可信等级生成方法,所述根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理,包括:从信用档案中抽取每个经营主体的实体、实体之间的关系以及实体的属性信息,构建各经营主体的知识图谱;根据知识图谱,可视化展示经营主体的信用信息,所述信用信包括:名称、类型、位置、可信等级、风险大小,以及不同经营主体之间的关联关系;通过知识推理,对知识图谱中的缺失属性进行补全,并为所有经营主体建立用户画像。
本发明还提供一种数据驱动的新型农业经营主体可信等级生成装置,包括:数据采集模块,用于定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中;指标计算模块,用于根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值;等级生成模块,用于将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;知识图谱模块,用于根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理;其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再利用所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级值。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据驱动的新型农业经营主体可信等级生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据驱动的新型农业经营主体可信等级生成方法。
本发明提供的数据驱动的新型农业经营主体可信等级生成方法及装置,从多个数据源分别获取下属各经营主体相关的评价数据,从而实现多源异构评价数据的获取,提高评价准确性。通过每个信用服务器根据多个本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局更新,可在保障本地数据隐私的前提下对基于机器学习的可信等级划分模型进行联合训练,不仅较好地解决了模型训练中的数据孤岛、数据隐私等问题,而且可使信用评级结果更能客观、准确地反映新型农业经营主体的信用状况,有助于提升新型农业经营主体信用评级的智能化水平。在此基础上,再将所有可信等级基于知识图谱进行表达视化展示,进一步提高经营主体信用情况相关信息的获取效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据驱动的新型农业经营主体可信等级生成方法的流程示意图;
图2是本发明提供的数据驱动的新型农业经营主体可信等级生成装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图3描述本发明的数据驱动的新型农业经营主体可信等级生成方法及装置。图1是本发明提供的数据驱动的新型农业经营主体可信等级生成方法的流程示意图,如图1所示,本发明提供数据驱动的新型农业经营主体可信等级生成方法,包括:
101、每个信用服务器定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中。
新型农业经营主体的类型,包括:专业大户、家庭农场、农民合作社、农业产业化龙头企业。
其中,专业大户是指主要从事某种单一的农产品的初级生产为主,其规模大于普通小农户的经营主体。通常包括:种养大户和农机大户。
家庭农场是指以家庭成员为主要劳动力,从事农业规模化、集约化、商品化生产经营,并以农业收入为家庭主要收入来源的新型农业经营主体。与专业大户相比,其产业链较长,集约化、专业化程度较高,并非简单的从事初级的农产品生产。
农民合作社是在农村家庭承包经营基础上,同类农产品的生产经营者或者同类农业生产经营服务的提供者、利用者,自愿联合、民主管理的互助性经济组织。
农业产业化龙头企业是指以农产品加工或流通为主,通过各种利益联结机制与农户相联系,带动农户进入市场,使农产品生产、加工、销售有机结合、相互促进,在规模和经营指标上达到规定标准并经政府有关部门认定的企业。
其中,评价数据包括:
工商信息类,包括:主体名称、统一社会信用代码、主体类型、经营状态、曾用名、注册资本、法定代表人、成立日期、核准日期、营业期限起止日、登记机关、注册地址、经营范围、人员规模。
资产状况类,包括:当前的资产总额、所有者权益合计,以及上年的营业总额、利润总额、主营业务收入额、净利润、纳税总额、负债总额。
人员装备类:实际从业人数、专业技术人员数量、高级职称人员数量、中级职称人员数量、初级职称人员数量、技术装备数量、原值1万以上的技术装备数量、技术装备原值总额。
知识产权类,包括:拥有的国际专利数、国内专利数,获得的新技术或新产品数,参与制定的标准规范数。
业务状况类,包括:业务种类数、累计经营年限、业务涉及的县区数、业务涉及乡镇数、政府项目入围情况、取得的商标数、累计获得奖励奖项数、信息化服务水平、产学研合作情况、上年/累计服务农户数、上年/累计服务农田面积、上年/累计服务畜禽头数、上年/累计服务养殖面积、上年经济社会效益、招投标信息。
经营风险类:行政许可信息、行政处罚信息、政府约谈信息、产品召回信息、列入经营异常名录信息、列入严重违法失信名单信息、涉诉案件信息、被执行人信息、债务/债券、担保风险。
管理能力类,包括:客服人员数量、客服信息化水平、客服最大响应时间,以及上年度的客户首次问题解决率、客户投诉解决速度、客户投诉解决满意率。
公众评价类,包括:上年度的客户满意率、服务好评率、服务中评率、服务差评率、被投诉次数、被省级以上媒体曝光次数、抽样调查满意度、线上影响力。
在实际应用中,信用服务器可以通过调用数据接口、网络爬虫、人工导入等方式定期从多个数据源获取与新型农业经营主体相关的数据信息。相关信息通常包括:工商登记信息、生产经营信息、财务信息、知识产权信息、信贷信息、资产抵押信息、行政许可信息、监管执法信息、消费维权信息、公众舆情信息。数据来源渠道通常包括:自身上报或披露、市场监管机构、征信机构、政府通报、消费者协会、行业协会、专业评测机构、统计调查数据、媒体报道、社交媒体。
为全面、准确地反映新型农业经营主体的信用状况,需要将内部的结构化数据与外部的非结构化数据相结合使用。其中,外部的非结构化数据可使用网络主题爬虫程序从特定网站上抓取农业社会化服务领域相关的信息,特定网站通常包括:政府类网站、行业资讯网站、新闻门户、社交媒体、网络论坛、搜索引擎等类型的Web站点。
其中,本发明实施例中包括多个信用服务器,各自管理下属的多个经营主体。多个信用服务器之间可进行通信,以实现103中使用到模型的训练。
102、根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值。
在选取信用评级指标时,一般根据经营主体的类型分别选取指标。首先,从信用档案记载的几类信息中选取一些有代表性的指标,得到初选指标集;然后,再对初选指标集进行筛选和约简,得到最终的新型农业经营主体信用评级指标集,筛选和约简方法包括:大数据关联规则挖掘、聚类分析、层次分析法、因子分析法、灰色关联分析法中任意一种或多种。
优选地,本实施例包括基础信息、专业技能、运营状况、管理能力和公众评价五个维度选择评级指标,以此得到信用评级指标集。
具体而言,在一个实施例中,所述信用评级指标集,包括基础信息、专业技能、运营状况、管理能力和公众评价五个维度的指标。其中,基础信息维度,包括:主体类型、累计经营年限、净资产、从业人数、业务种类数、业务涉及的县区数、政府项目入围情况、取得的商标数中至少一种。专业技能维度,包括:专业技术人员数量及其从业年限、技术装备数量及其原值、参与制定的标准规范数、拥有的专利数、获得的新技术新产品数、信息化服务水平、产学研合作情况中至少一种。运营状况维度,包括:年均服务农户数、业务涉及乡镇数、年均服务农田面积、年均服务畜禽头数、年均服务养殖面积、年均营业收入、年均净利润、所获奖励奖项数、累计服务农户数、累计服务村镇数、累计服务农田面积、经济社会效益中至少一种。管理能力维度,包括:客服响应时间、客户首次问题解决率、客户投诉解决速度、客户投诉解决满意率、被行政处罚次数、被通报批评次数、被投诉次数、涉诉案件数、是否曾被纳入“失信被执行人”名单、是否被列入经营异常名单、是否被列入行业黑名单中至少一种。公众评价维度,包括:客户满意率、服务好评率、服务中评率、服务差评率、抽样调查满意度、综合影响力、网络口碑、品牌知名度、社会美誉度中至少一种。
实际应用中,需要按同一量纲对信用档案中记载的原始数据进行再次预处理,以得到所有经营主体的信用评级指标值。包括:动态脱敏、缺失值处理、数据归一化和标准化中任意一种或多种。
进一步地,数据归一化方法包括:
若评估指标为正向指标,则/>;若评估指标/>为逆向指标,则/>;若评估指标/>为适度指标,则/>。
其中,为第/>个经营主体的第/>个指标归一化后的值,/>为第/>个经营主体的第个指标的原始值,/>为所有数据中第/>个指标的最大值,/>为所有数据中第个指标的最小值,/>为第/>个指标的理想值。
103、将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级。
实际应用中,既可以将所有类型的经营主体作为一个整体进行信用评级,也可以按主体类型分别对每种类型的经营主体进行信用评级。
其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级。
具体而言,每个信用服务器基于所属的经营主体数据进行本地训练,本地训练后,将本地训练的训练参数发送给网络中的其他信用服务器。基于所有信用服务器的训练参数进行全局更新,得到最终的模型训练参数,每个信用服务器采用最终的模型训练参数,形成上述预设的基于机器学习的可信等级划分模型。其中,每个信用服务器的模型结构相同。
104、根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理。
本实施例提供的数据驱动的新型农业经营主体可信等级生成方法从多个数据源分别获取下属各经营主体相关的评价数据,从而实现多源异构评价数据的获取,提高评价准确性。通过每个信用服务器根据多个本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局更新,可在保障本地数据隐私的前提下对基于机器学习的可信等级划分模型进行联合训练,不仅较好地解决了模型训练中的数据孤岛、数据隐私等问题,而且可使信用评级结果更能客观、准确地反映新型农业经营主体的信用状况,有助于提升新型农业经营主体信用评级的智能化水平。在此基础上,再将所有可信等级基于知识图谱进行表达视化展示,进一步提高经营主体信用情况相关信息的获取效率。
在一个实施例中,所述定期从多个数据源分别获取下属各经营主体相关的评价数据之前,还包括:根据每个下属经营主体的属性信息,生成全局唯一的标识符UID,基于所述标识符UID为每个下属经营主体建立信用档案;其中,所述属性信息包括:经营主体类型、统一社会信用代码、地域编码和校验码。
UID由一组由数字或字母组成的字符串,是每一经营主体电子信用档案的身份识别码,用于唯一标识每一经营主体的电子信用档案数据。UID通常是由计算机根据预定义规则自动生成的,编码结构中通常包括主体类型、统一社会信用代码、地域编码和校验码等信息,以确保全局唯一。
在一个实施例中,所述定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中,包括:定期向各数据源服务器发送数据查询指令;所述数据查询指令用于各数据源服务器收到数据查询指令后,检索出符合查询条件的评价数据集R,并计算出评价数据集R的消息摘要,以及利用私钥对消息摘要进行加密得到消息摘要/>,并将评价数据集R和加密后的消息摘要/>发送给信用服务器;接收数据源服务器发送的包括评价数据集R和消息摘要/>的数据包,计算数据集R的消息摘要得到/>,使用公钥对消息摘要/>进行解密,得到/>;若/>与/>的值相等,则数据真实性验证通过,提取评价数据存储到在每个经营主体对应的唯一信用档案中。
为防止数据在传输过程中被篡改,保证数据的真实性和准确性,本发明实施例对从多个数据源获取的数据进行真实性验证。验证过程包括上述过程。其中,数据源服务器可利用RSA算法的私钥对消息摘要进行加密得到/>,并将数据集R和加密后的消息摘要/>一同打包发送给中心服务器。中心服务器收到数据源服务器发来的数据包后,重新计算数据集R的消息摘要得到/>;并使用RSA算法的公钥对数据源服务器发来的已加密的消息摘要进行解密,得到/>。
在一个实施例中,所述定期从多个数据源分别获取下属各经营主体相关的评价数据之后,存储在每个经营主体对应的唯一信用档案中之前,还包括:对所获取的所有评价数据进行预处理,所述预处理包括动态脱敏、数据清洗、缺失值处理、噪声数据处理、数据归一化和标准化中任意一种或多种;对所获取的所有评价数据进行数据融合,所述数据融合包括综合运用本体对齐、实体链接、冲突解决和关系推演技术,对不同来源的评价数据进行语义关联,消除不同来源数据之间的异构性;其中,所述信用档案,按评价数据来源渠道或权属关系分组后,被分散存储在若干个分布式信用服务器中。
对于通过真实性验证的数据,还需要对其进行预处理,包括上述提到的一种或多种。为了消除多源异构数据的异质性,还需要对所获取的多源异构大数据进行数据融合操作。实际应用中,可通过构建领域本体,借助领域本体的语义功能实现特征词之间的语义转换与合并。例如:对于特征词“农村合作社”、“农民合作社”、“农民专业合作社”,则认为是同一特征词。
数据预处理和数据融合操作完成后,将所获取的信用数据添加到经营主体的电子信用档案数据库中。为了保护数据隐私和数据产权,本发明中的信用档案数据是基于分布式存储架构进行存储的,一般按数据来源或数据权属分组后,分散存储在若干台信用服务器上。只有数据提供者才可以访问自己提供的那部分数据,不同数据提供者之间无法查看彼此的数据,从而保证数据安全。
在一个实施例中,所述将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型之前,还包括:从多个数据源服务器中分别获取各经营主体相关的评价数据,并确定每个经营主体的可信等级,将每个经营主体的评价数据和对应的可信等级的组合作为本地的训练样本;基于本地训练样本,对初始的可信等级划分模型进行本地训练;将可信等级划分模型本地训练后的模型信息发送到由多个信用服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有信用服务器中选出全局服务器,所述全局服务器用于根据每个信用服务器发送的模型信息,计算全局模型的梯度,并生成包括全局模型梯度新的新区块;每个数据源服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;其中,所述模型信息包括模型参数、损失函数值和训练时间。
具体而言,上述基于机器学习的可信等级划分模型,是在所有信用服务器不共享本地原始数据的情况下利用分布式数据与算力进行联合训练得到。为了保护数据隐私,本发明实施例的模型在训练过程中是利用区块链存储和更新模型信息。模型训练过程包括:
(1)本地模型初始化:为所有信用服务器上的本地模型设置初始化参数。
(2)本地模型训练:所有信用服务器分别基于本地数据进行训练,经过若干次本地迭代后,得到更新后的本地模型参数。
(3)本地模型上传:信用服务器向附近关联的区块链网络上的信用服务器上传本地模型信息,包括:模型参数、损失函数差值,还可包括模型计算时间。
(4)交叉验证:附近关联的所有信用服务器将上述信用服务器上传的本地模型信息进行广播传递和验证,验证通过后将其记录在区块链网络中相关信用服务器的候选块中。
(5)块生成与广播:通过共识机制从区块链网络上的所有信用服务器中通过共识机制选举领导者,负责计算全局模型的梯度并生成新区块,对新区块的合法性进行验证后,并向区块链网络上的其他信用服务器全网发送ACK标识广播通过验证的区块。
(6)全局本地模型下载更新:每个信用服务器从附近关联的区块链网络上的服务器下载新区块,从中获取全局模型的梯度,进而更新本地模型。
进一步地,全局模型与每个本地模型都是使用的同一类型的机器学习方法,各模型都具有相同类型的参数。实际应用中,每个本地模型既可以是卷积神经网络、循环神经网络、生成对抗网络、决策树、贝叶斯、支持向量机、条件随机场等任一方法实现的单分类器;也可以是基于集成学习思想实现的组合分类器,包括:随机森林、bagging、boosting。优选地,可以利用遗传算法或粒子群算法寻找模型的初始化参数。
进一步地,共识机制包括:工作量证明机制、权益证明机制、股份授权证明机制和Pool验证池。
本发明的数据驱动的新型农业经营主体可信等级生成方法,可有效对每个信用服务器的数据隐私进行保护。
在一个实施例中,所述基于本地训练样本,对初始的可信等级划分模型进行本地训练,包括:根据如下损失函数,基于本地训练样本,对初始的可信等级划分模型进行本地训练:
;
其中,为模型参数/>对单个训练样本/>的代价函数;/>表示第i个训练样本的信用评级指标向量,/>表示i个训练样本的可信等级;/>表示第/>个信用服务器;/>为第/>个信用服务器本地模型上的训练样本数;为第/>个信用服务器上的数据样本集合;/>为参数向量/>的范数;/>为正则化参数。
相应地,所述根据每个信用服务器发送的模型信息,计算全局模型的梯度,包括基于如下损失函数计算全局梯度:
;
其中,为参与训练的信用服务器总个数,所有信用服务器本地模型上的总样本数为/>;/>为第/>轮迭代时全局模型的损失函数,/>是第/>轮迭代时的模型参数,为第/>个本地模型在第/>轮迭代时的预测值与真实值的离差平方和,/>为所有本地模型在第/>轮迭代时的离差平方和的总和,/>为预设常数。
其中,共有个数据服务器(本地模型)参与训练,第/>个本地模型上的数据样本数为/>,所有本地模型上的总样本数为/>,待优化目标函数为/>,其中/>为/>的假设空间。本地模型的训练目标是使其损失函数最小,即:
;
进一步地,在定义全局模型的总体损失函数时,既要考虑每个本地模型中样本数据量,又要考虑其每次迭代时的模型性能,为此将全局模型的总体损失函数的计算公式定义为上述形式。/>为内置常数,一般取值为0.5。
优选地,可采用随机梯度下降算法以最小化本地模型的损失函数。经过轮迭代后,第/>个本地模型的参数更新可表示为:
;
其中,为第/>个本地模型在第/>轮时的参数值,/>为第/>个本地模型在第轮时的参数值,/>为全局模型在第/>轮迭代时的梯度,/>为学习率。
在一个实施例中,所述根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理,包括:从信用档案中抽取每个经营主体的实体、实体之间的关系以及实体的属性信息,构建各经营主体的知识图谱;根据知识图谱,可视化展示经营主体的信用信息,所述信用信包括:名称、类型、位置、可信等级、风险大小,以及不同经营主体之间的关联关系;通过知识推理,对知识图谱中的缺失属性进行补全,并为所有经营主体建立用户画像。
具体而言,可以基于本体技术从信用档案数据中抽取实体、实体之间的关系以及实体的属性信息,实现新型农业经营主体知识图谱的自动构建。
利用知识图谱,可视化展示经营主体的信用信息,包括:名称、类型、位置、可信等级、风险大小,以及不同经营主体之间的关联关系。同时,通过知识推理,对知识图谱中的缺失属性进行补全;通过知识推理,为所有经营主体建立用户画像;通过知识推理,实现对新型农业经营主体信用信息的自动问答。
下面对本发明提供的数据驱动的新型农业经营主体可信等级生成装置进行描述,下文描述的数据驱动的新型农业经营主体可信等级生成装置与上文描述的数据驱动的新型农业经营主体可信等级生成方法可相互对应参照。
图2是本发明提供的数据驱动的新型农业经营主体可信等级生成装置的结构示意图,如图2所示,该数据驱动的新型农业经营主体可信等级生成装置包括:数据采集模块201、指标计算模块202和等级生成模块203。其中,数据采集模块201用于定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中;指标计算模块202用于根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值;等级生成模块203用于将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;知识图谱模块204用于根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理;其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级。
在一个装置实施例中,还包括:档案生成模块,用于定期从多个数据源分别获取下属各经营主体相关的评价数据之前:根据每个下属经营主体的属性信息,生成全局唯一的标识符,基于所述标识符为每个下属经营主体建立信用档案;其中,所述属性信息包括经营主体类型、统一社会信用代码、地域编码和校验码。
在一个装置实施例中,数据采集模块201具体用于:定期向各数据源服务器发送数据查询指令;所述数据查询指令用于各数据源服务器收到数据查询指令后,检索出符合查询条件的评价数据集R,并计算出评价数据集R的消息摘要,以及利用私钥对消息摘要进行加密得到消息摘要/>,并将评价数据集R和加密后的消息摘要/>发送给信用服务器;接收数据源服务器发送的包括评价数据集R和消息摘要/>的数据包,计算数据集R的消息摘要得到/>,使用公钥对消息摘要/>进行解密,得到/>;若/>与/>的值相等,则数据真实性验证通过,提取评价数据存储到每个经营主体对应的唯一信用档案中。
在一个装置实施例中,还包括:预处理模块,用于定期从多个数据源分别获取下属各经营主体相关的评价数据之后,存储在每个经营主体对应的唯一信用档案中之前:对所获取的所有评价数据进行预处理,所述预处理包括动态脱敏、数据清洗、缺失值处理、噪声数据处理、数据归一化和标准化中任意一种或多种;对所获取的所有评价数据进行数据融合,所述数据融合包括综合运用本体对齐、实体链接、冲突解决和关系推演技术,对不同来源的评价数据进行语义关联,消除不同来源数据之间的异构性;其中,所述信用档案,按评价数据来源渠道或权属关系分组后,被分散存储在若干个分布式信用服务器中。
在一个装置实施例中,还包括区块链模块,用于:从多个数据源服务器中分别获取各经营主体相关的评价数据,并确定每个经营主体的可信等级,将每个经营主体的评价数据和对应的可信等级的组合作为本地的训练样本;基于本地训练样本,对初始的可信等级划分模型进行本地训练;将可信等级划分模型本地训练后的模型信息发送到由多个信用服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有信用服务器中选出全局服务器,所述全局服务器用于根据每个信用服务器发送的模型信息,计算全局模型的梯度,并生成包括全局模型梯度新的新区块;每个数据源服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;其中,所述模型信息包括模型参数、损失函数值和训练时间。
在一个装置实施例中,区块链模块具体用于:根据如下损失函数,基于本地训练样本,对初始的可信等级划分模型进行本地训练:
;
其中,为模型参数/>对单个训练样本/>的代价函数;/>表示第i个训练样本的信用评级指标向量,/>表示i个训练样本的可信等级;/>表示第/>个信用服务器;/>为第/>个信用服务器本地模型上的训练样本数;为第/>个信用服务器上的数据样本集合;/>为参数向量/>的范数;/>为正则化参数。
相应地,基于如下损失函数计算全局梯度:
;
其中,为参与训练的信用服务器总个数;所有信用服务器本地模型上的总样本数为/>,/>为第/>轮迭代时全局模型的损失函数,/>是第/>轮迭代时的模型参数,为第/>个本地模型在第/>轮迭代时的预测值与真实值的离差平方和,/>表示第i个训练样本的可信等级预测值,/>为所有本地模型在第/>轮迭代时的离差平方和的总和,/>为预设常数。
在一个装置实施例中,所述知识图谱模块,具体用于:从信用档案中抽取每个经营主体的实体、实体之间的关系以及实体的属性信息,构建各经营主体的知识图谱;根据知识图谱,可视化展示经营主体的信用信息,所述信用信包括:名称、类型、位置、可信等级、风险大小,以及不同经营主体之间的关联关系;通过知识推理,对知识图谱中的缺失属性进行补全,并为所有经营主体建立用户画像。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例所提供的数据驱动的新型农业经营主体可信等级生成装置,其实现原理及产生的技术效果和前述数据驱动的新型农业经营主体可信等级生成方法实施例相同,为简要描述,数据驱动的新型农业经营主体可信等级生成装置实施例部分未提及之处,可参考前述数据驱动的新型农业经营主体可信等级生成方法实施例中相应内容。
图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行数据驱动的新型农业经营主体可信等级生成方法,该方法包括:每个信用服务器定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中;根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值;将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理;其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据驱动的新型农业经营主体可信等级生成方法,该方法包括:每个信用服务器定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中;根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值;将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理;其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再根据所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种数据驱动的新型农业经营主体可信等级生成方法,其特征在于,包括:
每个信用服务器定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中,包括:
定期向各数据源服务器发送数据查询指令;所述数据查询指令用于各数据源服务器收到数据查询指令后,检索出符合查询条件的评价数据集R,并计算出评价数据集R的消息摘要,以及利用私钥对消息摘要/>进行加密得到消息摘要/>,并将评价数据集R和加密后的消息摘要/>发送给信用服务器;
接收数据源服务器发送的包括评价数据集R和消息摘要的数据包,计算数据集R的消息摘要得到/>,使用公钥对消息摘要进行解密,得到/>;
若与/>的值相等,则数据真实性验证通过,提取评价数据存储到每个经营主体对应的唯一信用档案中;
根据预设的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值,包括:
从每个经营主体对应的唯一信用档案中,选取初选指标集,并采用大数据关联规则挖掘、聚类分析、层次分析法、因子分析法、灰色关联分析法中任意一种或多种,对所述初选指标集进行筛选和约简处理,获取所述信用评级指标集;所述信用评级指标集中包括基础信息、专业技能、运营状况、管理能力和公众评价五个维度的指标数据;
采用动态脱敏、缺失值处理、数据归一化和标准化中任意一种或多种,对每个所述经营主体对应的所述信用评级指标集中指标数据进行预处理,得到每个所述经营主体的信用评级指标值;
将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;
根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理,包括:
从信用档案中抽取每个经营主体的实体、实体之间的关系以及实体的属性信息,构建各经营主体的知识图谱;
根据知识图谱,可视化展示经营主体的信用信息,所述信用信包括:名称、类型、位置、可信等级、风险大小,以及不同经营主体之间的关联关系;
通过知识推理,对知识图谱中的缺失属性进行补全,并为所有经营主体建立用户画像;
其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再利用所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级;
所述将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型之前,还包括:
从多个数据源服务器中分别获取各经营主体相关的评价数据,并确定每个经营主体的可信等级,将每个经营主体的评价数据和对应的可信等级的组合作为本地的训练样本;
基于本地训练样本,对初始的可信等级划分模型进行本地训练;
将可信等级划分模型本地训练后的模型信息发送到由多个信用服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有信用服务器中选出全局服务器,所述全局服务器用于根据每个信用服务器发送的模型信息,计算全局模型的梯度,并生成包括全局模型梯度新的新区块;
每个数据源服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;
其中,所述模型信息包括模型参数、损失函数值和训练时间;
所述基于本地训练样本,对初始的可信等级划分模型进行本地训练,包括:
根据如下损失函数,基于本地训练样本,对初始的可信等级划分模型进行本地训练:
;
其中,为模型参数/>对单个训练样本/>的代价函数;/>表示第i个训练样本的信用评级指标向量,/>表示i个训练样本的可信等级;/>表示第/>个信用服务器;/>为第/>个信用服务器本地模型上的训练样本数;为第/>个信用服务器上的数据样本集合;/>为参数向量/>的/>范数;/>为正则化参数;
相应地,所述根据每个信用服务器发送的模型信息,计算全局模型的梯度,包括基于如下损失函数计算全局梯度:
;
其中,为参与训练的信用服务器总个数,所有信用服务器本地模型上的总样本数为;/>为第/>轮迭代时全局模型的损失函数,/>是第/>轮迭代时的模型参数,为第/>个本地模型在第/>轮迭代时的预测值与真实值的离差平方和,/>表示i个训练样本的可信等级预测值,/>为所有本地模型在第/>轮迭代时的离差平方和的总和,/>为预设常数。
2.根据权利要求1所述的数据驱动的新型农业经营主体可信等级生成方法,其特征在于,所述定期从多个数据源分别获取下属各经营主体相关的评价数据之前,还包括:
根据每个下属经营主体的属性信息,生成全局唯一的标识符,基于所述标识符为每个下属经营主体建立信用档案;
其中,所述属性信息包括经营主体类型、统一社会信用代码、地域编码和校验码。
3.根据权利要求1所述的数据驱动的新型农业经营主体可信等级生成方法,其特征在于,所述定期从多个数据源分别获取下属各经营主体相关的评价数据之后,存储在每个经营主体对应的唯一信用档案中之前,还包括:
对所获取的所有评价数据进行预处理,所述预处理包括动态脱敏、数据清洗、缺失值处理、噪声数据处理、数据归一化和标准化中任意一种或多种;
对所获取的所有评价数据进行数据融合,所述数据融合包括综合运用本体对齐、实体链接、冲突解决和关系推演技术,对不同来源的评价数据进行语义关联,消除不同来源数据之间的异构性;
其中,所述信用档案,按评价数据来源渠道或权属关系分组后,被分散存储在若干个分布式信用服务器中。
4.一种数据驱动的新型农业经营主体可信等级生成装置,其特征在于,包括:
数据采集模块,用于定期从多个数据源分别获取下属各经营主体相关的评价数据,并存储在每个经营主体对应的唯一信用档案中,包括:
定期向各数据源服务器发送数据查询指令;所述数据查询指令用于各数据源服务器收到数据查询指令后,检索出符合查询条件的评价数据集R,并计算出评价数据集R的消息摘要,以及利用私钥对消息摘要/>进行加密得到消息摘要/>,并将评价数据集R和加密后的消息摘要/>发送给信用服务器;
接收数据源服务器发送的包括评价数据集R和消息摘要的数据包,计算数据集R的消息摘要得到/>,使用公钥对消息摘要/>进行解密,得到/>;
若与/>的值相等,则数据真实性验证通过,提取评价数据存储到每个经营主体对应的唯一信用档案中;
指标计算模块,用于根据预设置的不同经营主体类型所对应的信用评级指标集,基于对应信用档案中的评价数据,计算出每个经营主体的所有信用评级指标值,包括:
从每个经营主体对应的唯一信用档案中,选取初选指标集,并采用大数据关联规则挖掘、聚类分析、层次分析法、因子分析法、灰色关联分析法中任意一种或多种,对所述初选指标集进行筛选和约简处理,获取所述信用评级指标集;所述信用评级指标集中包括基础信息、专业技能、运营状况、管理能力和公众评价五个维度的指标数据;
采用动态脱敏、缺失值处理、数据归一化和标准化中任意一种或多种,对每个所述经营主体对应的所述信用评级指标集中指标数据进行预处理,得到每个所述经营主体的信用评级指标值;
等级生成模块,用于将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型,输出每个经营主体的可信等级;
知识图谱模块,用于根据所有经营主体的可信等级,构建经营主体知识图谱,对经营主体的信用信息进行可视化表达和知识推理,包括:
从信用档案中抽取每个经营主体的实体、实体之间的关系以及实体的属性信息,构建各经营主体的知识图谱;
根据知识图谱,可视化展示经营主体的信用信息,所述信用信包括:名称、类型、位置、可信等级、风险大小,以及不同经营主体之间的关联关系;
通过知识推理,对知识图谱中的缺失属性进行补全,并为所有经营主体建立用户画像;
其中,所述可信等级划分模型,是根据每个信用服务器基于本地训练数据进行本地训练后,再利用所有信用服务器的训练参数进行全局协同训练后得到;所述本地训练数据,为标准可信等级和对应信用评级指标值的组合;所述标准可信等级为每个信用服务器下属经营主体已确定的不同可信等级;
所述将每个经营主体的所有信用评级指标值,分别输入至预设的基于机器学习的可信等级划分模型之前,还包括:
从多个数据源服务器中分别获取各经营主体相关的评价数据,并确定每个经营主体的可信等级,将每个经营主体的评价数据和对应的可信等级的组合作为本地的训练样本;
基于本地训练样本,对初始的可信等级划分模型进行本地训练;
将可信等级划分模型本地训练后的模型信息发送到由多个信用服务器构成的区块链网络中,以用于区块链网络根据共识机制从所有信用服务器中选出全局服务器,所述全局服务器用于根据每个信用服务器发送的模型信息,计算全局模型的梯度,并生成包括全局模型梯度新的新区块;
每个数据源服务器从所述新区块中,获取全局模型的梯度,对本地模型进行更新;
其中,所述模型信息包括模型参数、损失函数值和训练时间;
所述基于本地训练样本,对初始的可信等级划分模型进行本地训练,包括:
根据如下损失函数,基于本地训练样本,对初始的可信等级划分模型进行本地训练:
;
其中,为模型参数/>对单个训练样本/>的代价函数;/>表示第i个训练样本的信用评级指标向量,/>表示i个训练样本的可信等级;/>表示第/>个信用服务器;/>为第/>个信用服务器本地模型上的训练样本数;为第/>个信用服务器上的数据样本集合;/>为参数向量/>的/>范数;/>为正则化参数;
相应地,所述根据每个信用服务器发送的模型信息,计算全局模型的梯度,包括基于如下损失函数计算全局梯度:
;
其中,为参与训练的信用服务器总个数,所有信用服务器本地模型上的总样本数为;/>为第/>轮迭代时全局模型的损失函数,/>是第/>轮迭代时的模型参数,为第/>个本地模型在第/>轮迭代时的预测值与真实值的离差平方和,/>表示i个训练样本的可信等级预测值,/>为所有本地模型在第轮迭代时的离差平方和的总和,/>为预设常数。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述数据驱动的新型农业经营主体可信等级生成方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述数据驱动的新型农业经营主体可信等级生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353146.9A CN114429398B (zh) | 2022-04-06 | 2022-04-06 | 数据驱动的新型农业经营主体可信等级生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353146.9A CN114429398B (zh) | 2022-04-06 | 2022-04-06 | 数据驱动的新型农业经营主体可信等级生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114429398A CN114429398A (zh) | 2022-05-03 |
CN114429398B true CN114429398B (zh) | 2023-12-22 |
Family
ID=81314433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210353146.9A Active CN114429398B (zh) | 2022-04-06 | 2022-04-06 | 数据驱动的新型农业经营主体可信等级生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114429398B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564145B (zh) * | 2022-11-17 | 2023-06-30 | 北京市农林科学院信息技术研究中心 | 基于分布式数据的农作物品种产量预测方法及装置 |
CN117291649B (zh) * | 2023-11-27 | 2024-02-23 | 云南电网有限责任公司信息中心 | 一种集约化的营销数据处理方法及系统 |
CN117829689B (zh) * | 2024-03-05 | 2024-05-14 | 顺通信息技术科技(大连)有限公司 | 一种基于云计算的经营数据筛选方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951079A (zh) * | 2020-08-14 | 2020-11-17 | 国网电子商务有限公司 | 一种基于知识图谱的信用评级方法、装置及电子设备 |
CN112131275A (zh) * | 2020-09-23 | 2020-12-25 | 中国科学技术大学智慧城市研究院(芜湖) | 全息城市大数据模型和知识图谱的企业画像构建方法 |
CN112270597A (zh) * | 2020-11-10 | 2021-01-26 | 恒安嘉新(北京)科技股份公司 | 业务处理、信用评价模型训练方法、装置、设备及介质 |
CN114492929A (zh) * | 2021-12-23 | 2022-05-13 | 江南大学 | 一种基于XGboost的金融信贷企业信用预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112930545A (zh) * | 2019-02-19 | 2021-06-08 | 算话智能科技有限公司 | 信用评估的系统和方法 |
-
2022
- 2022-04-06 CN CN202210353146.9A patent/CN114429398B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951079A (zh) * | 2020-08-14 | 2020-11-17 | 国网电子商务有限公司 | 一种基于知识图谱的信用评级方法、装置及电子设备 |
CN112131275A (zh) * | 2020-09-23 | 2020-12-25 | 中国科学技术大学智慧城市研究院(芜湖) | 全息城市大数据模型和知识图谱的企业画像构建方法 |
CN112270597A (zh) * | 2020-11-10 | 2021-01-26 | 恒安嘉新(北京)科技股份公司 | 业务处理、信用评价模型训练方法、装置、设备及介质 |
CN114492929A (zh) * | 2021-12-23 | 2022-05-13 | 江南大学 | 一种基于XGboost的金融信贷企业信用预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114429398A (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114429398B (zh) | 数据驱动的新型农业经营主体可信等级生成方法及装置 | |
Hall et al. | From green technology development to green innovation: inducing regulatory adoption of pathogen detection technology for sustainable forestry | |
US20150242856A1 (en) | System and Method for Identifying Procurement Fraud/Risk | |
Luo et al. | Overview of intelligent online banking system based on HERCULES architecture | |
Stuit et al. | Smart, commodified and encoded: Blockchain technology for environmental sustainability and nature conservation | |
CN115422173A (zh) | 金融信贷领域的数据治理方法及系统 | |
US20060212303A1 (en) | System and method for litigation risk management | |
Shukla et al. | Data and its dimensions | |
Benschop et al. | Statistical disclosure control: A practice guide | |
Finlay et al. | The criminal justice administrative records system: A next-generation research data platform | |
Ferrara et al. | Fairness-aware machine learning engineering: how far are we? | |
Liu et al. | Understanding privacy and data protection issues in learning analytics using a systematic review | |
Challender et al. | Identifying species likely threatened by international trade on the IUCN Red List can inform CITES trade measures | |
Alassafi et al. | A validation of security determinants model for cloud adoption in Saudi organisations’ context | |
Badawy | Data-driven framework for evaluating digitization and artificial intelligence risk: a comprehensive analysis | |
Jia et al. | Application of machine learning in enterprise risk management | |
Zhou et al. | Evaluation of the Development of Fintech‐Served Real Economy Based on Fintech Improvement | |
CN114912538A (zh) | 信息推送模型训练方法和信息推送方法、装置及设备 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
Jamil et al. | Secure Hydrogen Production Analysis and Prediction Based on Blockchain Service Framework for Intelligent Power Management System | |
Nguyen | Exploring input enhancements big data analysts need to improve a credit qualification model to support large banks in their risk management operations | |
Wang et al. | [Retracted] Application of the Data Mining Model in Smart Mobile Education | |
Nagel et al. | Archetypes of community-based pond aquaculture in Indonesia: applying the social-ecological systems framework to examine sustainability tradeoffs | |
Wijesekara | Ethical Knowledge Sharing Leveraging Blockchain: An Overview | |
US20240006061A1 (en) | Data currency system for digital human healthcare and medical data exchange, analytics, and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |