CN109918358A - 一种全球贸易大数据处理方法 - Google Patents
一种全球贸易大数据处理方法 Download PDFInfo
- Publication number
- CN109918358A CN109918358A CN201910047930.5A CN201910047930A CN109918358A CN 109918358 A CN109918358 A CN 109918358A CN 201910047930 A CN201910047930 A CN 201910047930A CN 109918358 A CN109918358 A CN 109918358A
- Authority
- CN
- China
- Prior art keywords
- data
- state
- country
- trade
- report
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本数据处理方法可以提高数据报道国家的数据准确度,生成无数据国家的相关数据库,方便支持智能系统的复杂分析。主要步骤:1、对国家或地区、贸易方式、商品或服务类型等做统一编码设计;2、对各个国家(或地区)国际贸易数据,对应找出各个贸易伙伴国与该国的各类商品或服务的进出口数据;3、将各个有数据的国家或地区的贸易数据,与经过步骤2形成的新数据进行合并,建立数据集;4、将每个数据报道国的数据和其他数据报道国形成的与该国相关的新数据对比改进;5、对无数据国家或地区形成新的进出口数据库;6、将改进后的数据报道国数据库和新形成的无数据国家数据库合并为全球贸易数据库。
Description
技术领域
本发明属于信息技术领域,具体涉及全球贸易大数据的数据处理方法。
背景技术
大数据时代,如何快速准确识别所需要的数据信息和高效使用这些数据信息,是影响研究、分析、决策等工作效率和效果的关键环节。然而,目前的全球贸易大数据系统最多能查询160多个国家地区的相关数据,且基本没有较复杂的数据分析功能。如果按照本发明的数据处理方法,不仅可以在一定程度修正数据误差,而且可以较准确推算无数据国家的相关数据。
发明内容
本发明的目的是提供一种全球贸易大数据处理方法。
一、为了克服现有技术中的不足,本发明提供了一种全球贸易大数据处 理方法,该方法可以提高各个数据报道国家的数据准确度,同时,生成每个 无数据国家的相关数据。解决方案如下:
步骤1:对贸易的国家或地区、贸易的方式、涉及的商品或服务类型等做 统一编码设计处理。这一步主要是分析主要相关编码的规律和相互间的关系, 在此基础上找到将各种编码系统转化到设定统一编码的方法,为不同编码的贸 易数据来源间的合并、统计等奠定基础。
统一编码的设计方法可以有3种思路:(1)如果数据来源可以从统一编码 中完全获取,可以借用该编码。如目前的海关数据分类标准具有大量数据源, 可以采用这一较通用的编码。(2)如果目前的多个编码间存在补充的关系,则 设计包括这些编码的统一编码。如目前的海关标准存在多个升级版,相互间存 在补充关系,如果要分析历史数据,就必须设计包括H1、H2、H3、H4在内的 统一标准。(3)如果目前的多个编码是独立关系,可以有2个解决办法:一是 以应用较广泛的标准为统一编码,分析其他编码与这一编码的关系,建立转化 对应关系;二是,建立一个新标准,里面包含多个编码的特征信息,然后按照 特征信息建立新标准与其他标准的对应关系。
步骤2:对统一编码后的各个国家(或地区)国际贸易数据(包括各个年 度、月度等)。通过对应关系分别形成一套涉及该国与其他国家地区贸易的新 数据,具体方法是:对应找出各个贸易伙伴国与该国的各个具体商品或服务的 进出口数据,显然,进出口方向要选择与数据报道国相反。如:中国报道的数 据中,假设中国进口俄罗斯石油100亿美元,对应形成的新数据,俄罗斯出口 中国石油100亿美元。
步骤3:将各个有数据的国家或地区的贸易数据,经过步骤2形成的新数据 进行合并,建立一个数据集。显然,在这个数据集中,由于数据报道国间相互 形成新数据,如果两个国家均没有漏报数据,两国间相同商品进出口贸易数据 会出现两条,如果两个国家中有一个国家出现漏报数据,则两国间相同商品进 出口贸易数据只会出现1条。而无数据报道的国家或地区,只有该国与各个数 据报道国间的数据,且同商品同国家同进出口类型(进口或出口)的数据只可 能出现1条。当然无数据报道国间的贸易数据会缺失。
步骤4:将每个数据报道国的报道数据和其他数据报道国形成的与该国相 关的新数据对比改进。改进规则是:如果出现两个相同类型的数据,相等时选 其一;不相等时只取数据较大者,以弥补该国在某个数据出现少统计的误差; 如果出现单个数据,就取该数据。这种情况可能出现在一个国家有相关统计, 而伙伴国无相关统计的情况。加入这个数据,有利于填补漏统计国家的相关数 据。完成后,得到改进后的各个数据报道国的贸易数据库。显然,改进后的数 据较原始数据更加准确和完整。
步骤5:对无数据国家或地区而言,只有新形成的数据,是约160个数据报 道国家与该国的贸易数据集,因此,不可能出现两个同类型的数据,没有选择 问题。但是,这样做的结果是形成了各个无数据国家的进出口数据库。当然, 数据中缺少了该国与其他无数据国家间的贸易数据,但160个左右的主要数据 报道国家的贸易额占全球贸易数据的95%以上,因此,用这套数据分析该国的 贸易情况,应该具有较高的准确度。
步骤6:将改进后的数据报道国数据库和新形成的无数据国家数据库,合 并为涉及所有国家或地区的全球贸易数据库。由于统一编码、数据准确度提高、 无数据国家数据库的形成等原因,经过上述方法处理后形成的全球贸易数据 库,显然具有查询范围更广、数据更加完成和准确、数据库更容易通过现代信 息技术更新和方便支持相关智能分析系统的复杂分析等优点。
二、本方法还能够在内容或形式上做如下变动:
(1)添加或减少数据数据处理方法的步骤;
(2)改变各个步骤的排列;
(3)改变各个步骡的名称,但本质内容相同或相似;
(4)将流程结构或核心步骤放到其他系统中;
(5)该方法在其他类似特征数据处理中的应用。
(6)既可以用数据报道国的改进数据库与无数据国的新生数据库组成 全球贸易数据库,也可以用数据报道国的原始数据库与无数据国的新生 数据库组成全球贸易数据库。
三、本发明能够实现的主要功能和主要应用价值
(1)改进和完善各个有数据国家的贸易数据库。
(2)为无贸易报道数据库的国家建立贸易数据库。
(3)由于国家地区、贸易方式、贸易品类等实现各个国家统一编码,方 便软件获取各个具体的数据,几乎可以使数据实现各种模型进行复杂的 数据分析。提高了数据库的利用率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的 限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何 熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示 的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发 明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以 上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方 案的保护范围之内。
四、附图说明
说明书的附图1是涉及各国的全球贸易大数据库建立的方法、逻辑思路和数据处理流程图。
Claims (7)
1.全球贸易大数据处理方法的主要流程结构
步骤1:对贸易的国家或地区、贸易的方式、涉及的商品或服务类型等做统一编码设计处理。这一步主要是分析主要相关编码的规律和相互间的关系,在此基础上找到将各种编码系统转化到设定统一编码的方法,为不同编码的贸易数据来源间的合并、统计等奠定基础。
统一编码的设计方法可以有3种思路:(1)如果数据来源可以从统一编码中完全获取,可以借用该编码。如目前的海关数据分类标准具有大量数据源,可以采用这一较通用的编码。(2)如果目前的多个编码间存在补充的关系,则设计包括这些编码的统一编码。如目前的海关标准存在多个升级版,相互间存在补充关系,如果要分析历史数据,就必须设计包括H1、H12、H3、H4在内的统一标准。(3)如果目前的多个编码是独立关系,可以有2个解决办法:一是以应用较广泛的标准为统一编码,分析其他编码与这一编码的关系,建立转化对应关系;二是,建立一个新标准,里面包含多个编码的特征信息,然后按照特征信息建立新标准与其他标准的对应关系。
步骤2:对统一编码后的各个国家(或地区)国际贸易数据(包括各个年度、月度等)。通过对应关系分别形成一套涉及该国与其他国家地区贸易的新数据,具体方法是:对应找出各个贸易伙伴国与该国的各个具体商品或服务的进出口数据,显然,进出口方向要选择与数据报道国相反。如:中国报道的数据中,假设中国进口俄罗斯石油100亿美元,对应形成的新数据,俄罗斯出口中国石油100亿美元。
步骤3:将各个有数据的国家或地区的贸易数据,与经过步骤2形成的新数据进行合并,建立一个数据集。显然,在这个数据集中,由于数据报道国间相互形成新数据,如果两个国家均没有漏报数据,两国间相同商品进出口贸易数据会出现两条,如果两个国家中有一个国家出现漏报数据,则两国间相同商品进出口贸易数据只会出现1条。而无数据报道的国家或地区,只有该国与各个数据报道国间的数据,且同商品同国家同进出口类型(进口或出口)的数据只可能出现1条。当然无数据报道国间的贸易数据会缺失。
步骤4:将每个数据报道国的报道数据和其他数据报道国形成的与该国相关的新数据对比改进。改进方法和规则是:如果出现两个相同类型的数据,相等时选其一;不相等时只取数据较大者,以弥补该国在某个数据出现少统计的误差;如果出现单个数据,就取该数据。这种情况可能出现在一个国家有相关统计,而伙伴国无相关统计的情况。加入这个数据,有利于填补漏统计国家的相关数据。完成后,得到改进后的各个数据报道国的贸易数据库。显然,改进后的数据较原始数据更加准确和完整。
步骤5:对无数据国家或地区而言,只有新形成的数据,是约160个数据报道国家与该国的贸易数据集,因此,不可能出现两个同类型的数据,没有选择问题。但是,这样做的结果是形成了各个无数据国家的进出口数据库。当然,数据中缺少了该国与其他无数据国家间的贸易数据,但160个左右的主要数据报道国家的贸易额占全球贸易数据的95%以上,因此,用这套数据分析该国的贸易情况,应该具有较高的准确度。
步骤6:将改进后的数据报道国数据库和新形成的无数据国家数据库,合并为涉及所有国家或地区的全球贸易数据库。由于统一编码、数据准确度提高、无数据国家数据库的形成等原因,经过上述方法处理后形成的全球贸易数据库,显然具有查询范围更广、数据更加完成和准确、数据库更容易通过现代信息技术更新和方便支持相关智能分析系统的复杂分析等优点。
2.对国家地区、贸易方式、品类等的编码进行统一的方法
统一设计方法主要有两个方面需要保护:(1)如果目前的多个编码间存在补充的关系,则设计包括这些编码的统一编码。如目前的海关标准存在多个升级版,相互间存在补充关系,如果要分析历史数据,就必须设计包括H1、H2、H3、H4在内的统一标准。(2)如果目前的多个编码是独立关系,可以有2个解决办法:一是以应用较广泛的标准为统一编码,分析其他编码与这一编码的关系,建立转化对应关系;二是,建立一个新标准,里面包含多个编码的特征信息,然后按照特征信息建立新标准与其他标准的对应关系。
3.贸易新数据的生成方法
对统一编码后的各个国家(或地区)国际贸易数据(包括各个年度、月度等)。通过对应关系分别形成一套涉及该国与其他国家地区贸易的新数据,具体方法是:对应找出各个贸易伙伴国与该国的各个具体商品或服务的进出口数据,显然,进出口方向要选择与数据报道国相反。如:中国报道的数据中,假设中国进口俄罗斯石油100亿美元,对应形成的新数据,俄罗斯出口中国石油100亿美元。
4.对数据报道国的数据进行改进的方法
将每个数据报道国的报道数据和其他数据报道国形成的与该国相关的新数据对比改进。改进方法和规则是:如果出现两个相同类型的数据,相等时选其一;不相等时只取数据较大者,以弥补该国在某个数据出现少统计的误差;如果出现单个数据,就取该数据。这种情况可能出现在一个国家有相关统计,而伙伴国无相关统计的情况。加入这个数据,有利于填补漏统计国家的相关数据。完成后,得到改进后的各个数据报道国的贸易数据库。显然,改进后的数据较原始数据更加准确和完整。
5.对无数据国家或地区建立贸易数据库的方法
经过步骤2形成新数据后,对无数据国家或地区而言,只有新形成的数据,是约160个数据报道国家与该国的贸易数据集,因此,不可能出现两个同类型的数据,没有选择问题。但是,这样做的结果是形成了各个无数据国家的进出口数据库。当然,数据中缺少了该国与其他无数据国家间的贸易数据,但160个左右的主要数据报道国家的贸易额占全球贸易数据的95%以上,因此,用这套数据分析该国的贸易情况,应该具有较高的准确度。
6.全球贸易数据库的关键方法
方法1:用改进的各个数据报道国的贸易数据库与步骤5形成的无数据国家新数据库合并组建;方法2:直接用数据报道国的原始数据库与步骤5形成的无数据国家新数据库合并组建。
7.本方法在内容或形式上的如下变动
(1)添加或减少数据数据处理方法的步骤;
(2)改变各个步骤的排列;
(3)改变各个步骤的名称,但本质内容相同或相似。
(4)将本方法的流程结构或核心步骤放到其他系统中。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910047930.5A CN109918358A (zh) | 2019-01-21 | 2019-01-21 | 一种全球贸易大数据处理方法 |
CN201910690373.9A CN110471903B (zh) | 2019-01-21 | 2019-07-29 | 异构系统节点信息汇总、贸易数据库生成方法和装置 |
CN201910691278.0A CN110348647B (zh) | 2019-01-21 | 2019-07-29 | 一种全球贸易大数据智能分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910047930.5A CN109918358A (zh) | 2019-01-21 | 2019-01-21 | 一种全球贸易大数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109918358A true CN109918358A (zh) | 2019-06-21 |
Family
ID=66960407
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910047930.5A Pending CN109918358A (zh) | 2019-01-21 | 2019-01-21 | 一种全球贸易大数据处理方法 |
CN201910690373.9A Active CN110471903B (zh) | 2019-01-21 | 2019-07-29 | 异构系统节点信息汇总、贸易数据库生成方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910690373.9A Active CN110471903B (zh) | 2019-01-21 | 2019-07-29 | 异构系统节点信息汇总、贸易数据库生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109918358A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110471948A (zh) * | 2019-07-10 | 2019-11-19 | 北京交通大学 | 一种基于历史数据挖掘的海关报关商品智能归类方法 |
CN112508362A (zh) * | 2020-11-24 | 2021-03-16 | 江苏省质量和标准化研究院 | 产品出口信息处理方法、装置、电子设备及存储介质 |
CN112712229A (zh) * | 2019-10-24 | 2021-04-27 | 王立宇 | 多区域贸易分析系统与方法 |
CN118484451A (zh) * | 2024-07-16 | 2024-08-13 | 大连瀚闻资讯有限公司 | 一种用于国际贸易统计数据大规模运算的数据预处理方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184122A (zh) * | 2020-10-12 | 2021-01-05 | 上海电机系统节能工程技术研究中心有限公司 | 供应链数据管理方法和供应链管理系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9501503B2 (en) * | 2013-05-09 | 2016-11-22 | Microsoft Technology Licensing, Llc | Inferring entity attribute values |
CN107908733A (zh) * | 2017-11-14 | 2018-04-13 | 童友俊 | 一种全球贸易数据的查询方法,装置及系统 |
CN108492200B (zh) * | 2018-02-07 | 2022-06-17 | 中国科学院信息工程研究所 | 一种基于卷积神经网络的用户属性推断方法和装置 |
-
2019
- 2019-01-21 CN CN201910047930.5A patent/CN109918358A/zh active Pending
- 2019-07-29 CN CN201910690373.9A patent/CN110471903B/zh active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110471948A (zh) * | 2019-07-10 | 2019-11-19 | 北京交通大学 | 一种基于历史数据挖掘的海关报关商品智能归类方法 |
CN112712229A (zh) * | 2019-10-24 | 2021-04-27 | 王立宇 | 多区域贸易分析系统与方法 |
CN112508362A (zh) * | 2020-11-24 | 2021-03-16 | 江苏省质量和标准化研究院 | 产品出口信息处理方法、装置、电子设备及存储介质 |
CN112508362B (zh) * | 2020-11-24 | 2024-04-23 | 江苏省质量和标准化研究院 | 产品出口信息处理方法、装置、电子设备及存储介质 |
CN118484451A (zh) * | 2024-07-16 | 2024-08-13 | 大连瀚闻资讯有限公司 | 一种用于国际贸易统计数据大规模运算的数据预处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110471903A (zh) | 2019-11-19 |
CN110471903B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918358A (zh) | 一种全球贸易大数据处理方法 | |
CN110383319B (zh) | 大规模异构数据摄取和用户解析 | |
CN108062484A (zh) | 一种基于数据敏感特征和数据库元数据的分类分级方法 | |
CN107885760A (zh) | 一种基于多种语义的知识图谱表示学习方法 | |
CN109299200A (zh) | 将数据模型转换为数据库的方法、装置及设备 | |
CN102982416A (zh) | 一种绩效考核的通用实现模型 | |
CN105677332A (zh) | 软件开发需求管理系统 | |
CN108595621A (zh) | 一种虚开增值税发票的预警分析方法及系统 | |
CN105912666A (zh) | 一种面向云平台的混合结构数据高性能存储、查询方法 | |
CN111897891B (zh) | 数据处理方法及装置 | |
CN109446221A (zh) | 一种基于语义分析的交互式数据探查方法 | |
CN113987210B (zh) | 一种船舶产业知识图谱构建与分析方法 | |
Dong et al. | Data-anonymous encoding for text-to-SQL generation | |
CN109753658A (zh) | 交互方法和装置 | |
Huang et al. | The next generation operational data historian for iot based on informix | |
CN110348647B (zh) | 一种全球贸易大数据智能分析系统及方法 | |
CN115357678A (zh) | 一种基于结构化自然语言规则的gis自动审查方法与系统 | |
Yu et al. | A novel tree-based neural network for android code smells detection | |
CN105573984B (zh) | 社会经济指标的识别方法及装置 | |
CN109543712B (zh) | 时态数据集上的实体识别方法 | |
Eslampanah | Identifying Strategies and Applicable Policies to Improve the Standardization and Quality Management System to Achieve the Vision of the Islamic Republic of Iran in the Horizon of 1404 | |
CN110716913A (zh) | 一种Kafka与Elasticsearch数据库数据的互相迁移方法 | |
CN103309888A (zh) | 电子地图的数据的验证方法和验证装置 | |
CN110135509A (zh) | 一种基于神经网络的智能金融信用评分方法 | |
CN110147396A (zh) | 一种映射关系生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190621 |
|
WD01 | Invention patent application deemed withdrawn after publication |