CN109918358A

CN109918358A - 一种全球贸易大数据处理方法

Info

Publication number: CN109918358A
Application number: CN201910047930.5A
Authority: CN
Inventors: 罗斌; 罗暘洋
Original assignee: Beijing Andi Technology Co Ltd
Current assignee: Beijing Andi Technology Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-06-21
Also published as: CN110471903A; CN110471903B

Abstract

本数据处理方法可以提高数据报道国家的数据准确度，生成无数据国家的相关数据库，方便支持智能系统的复杂分析。主要步骤：1、对国家或地区、贸易方式、商品或服务类型等做统一编码设计；2、对各个国家(或地区)国际贸易数据，对应找出各个贸易伙伴国与该国的各类商品或服务的进出口数据；3、将各个有数据的国家或地区的贸易数据，与经过步骤2形成的新数据进行合并，建立数据集；4、将每个数据报道国的数据和其他数据报道国形成的与该国相关的新数据对比改进；5、对无数据国家或地区形成新的进出口数据库；6、将改进后的数据报道国数据库和新形成的无数据国家数据库合并为全球贸易数据库。

Description

一种全球贸易大数据处理方法

技术领域

本发明属于信息技术领域，具体涉及全球贸易大数据的数据处理方法。

背景技术

大数据时代，如何快速准确识别所需要的数据信息和高效使用这些数据信息，是影响研究、分析、决策等工作效率和效果的关键环节。然而，目前的全球贸易大数据系统最多能查询160多个国家地区的相关数据，且基本没有较复杂的数据分析功能。如果按照本发明的数据处理方法，不仅可以在一定程度修正数据误差，而且可以较准确推算无数据国家的相关数据。

发明内容

本发明的目的是提供一种全球贸易大数据处理方法。

一、为了克服现有技术中的不足，本发明提供了一种全球贸易大数据处理方法，该方法可以提高各个数据报道国家的数据准确度，同时，生成每个无数据国家的相关数据。解决方案如下：

步骤1：对贸易的国家或地区、贸易的方式、涉及的商品或服务类型等做统一编码设计处理。这一步主要是分析主要相关编码的规律和相互间的关系，在此基础上找到将各种编码系统转化到设定统一编码的方法，为不同编码的贸易数据来源间的合并、统计等奠定基础。

统一编码的设计方法可以有3种思路：(1)如果数据来源可以从统一编码中完全获取，可以借用该编码。如目前的海关数据分类标准具有大量数据源，可以采用这一较通用的编码。(2)如果目前的多个编码间存在补充的关系，则设计包括这些编码的统一编码。如目前的海关标准存在多个升级版，相互间存在补充关系，如果要分析历史数据，就必须设计包括H1、H2、H3、H4在内的统一标准。(3)如果目前的多个编码是独立关系，可以有2个解决办法：一是以应用较广泛的标准为统一编码，分析其他编码与这一编码的关系，建立转化对应关系；二是，建立一个新标准，里面包含多个编码的特征信息，然后按照特征信息建立新标准与其他标准的对应关系。

步骤2：对统一编码后的各个国家(或地区)国际贸易数据(包括各个年度、月度等)。通过对应关系分别形成一套涉及该国与其他国家地区贸易的新数据，具体方法是：对应找出各个贸易伙伴国与该国的各个具体商品或服务的进出口数据，显然，进出口方向要选择与数据报道国相反。如：中国报道的数据中，假设中国进口俄罗斯石油100亿美元，对应形成的新数据，俄罗斯出口中国石油100亿美元。

步骤3：将各个有数据的国家或地区的贸易数据，经过步骤2形成的新数据进行合并，建立一个数据集。显然，在这个数据集中，由于数据报道国间相互形成新数据，如果两个国家均没有漏报数据，两国间相同商品进出口贸易数据会出现两条，如果两个国家中有一个国家出现漏报数据，则两国间相同商品进出口贸易数据只会出现1条。而无数据报道的国家或地区，只有该国与各个数据报道国间的数据，且同商品同国家同进出口类型(进口或出口)的数据只可能出现1条。当然无数据报道国间的贸易数据会缺失。

步骤4：将每个数据报道国的报道数据和其他数据报道国形成的与该国相关的新数据对比改进。改进规则是：如果出现两个相同类型的数据，相等时选其一；不相等时只取数据较大者，以弥补该国在某个数据出现少统计的误差；如果出现单个数据，就取该数据。这种情况可能出现在一个国家有相关统计，而伙伴国无相关统计的情况。加入这个数据，有利于填补漏统计国家的相关数据。完成后，得到改进后的各个数据报道国的贸易数据库。显然，改进后的数据较原始数据更加准确和完整。

步骤5：对无数据国家或地区而言，只有新形成的数据，是约160个数据报道国家与该国的贸易数据集，因此，不可能出现两个同类型的数据，没有选择问题。但是，这样做的结果是形成了各个无数据国家的进出口数据库。当然，数据中缺少了该国与其他无数据国家间的贸易数据，但160个左右的主要数据报道国家的贸易额占全球贸易数据的95％以上，因此，用这套数据分析该国的贸易情况，应该具有较高的准确度。

步骤6：将改进后的数据报道国数据库和新形成的无数据国家数据库，合并为涉及所有国家或地区的全球贸易数据库。由于统一编码、数据准确度提高、无数据国家数据库的形成等原因，经过上述方法处理后形成的全球贸易数据库，显然具有查询范围更广、数据更加完成和准确、数据库更容易通过现代信息技术更新和方便支持相关智能分析系统的复杂分析等优点。

二、本方法还能够在内容或形式上做如下变动：

(1)添加或减少数据数据处理方法的步骤；

(2)改变各个步骤的排列；

(3)改变各个步骡的名称，但本质内容相同或相似；

(4)将流程结构或核心步骤放到其他系统中；

(5)该方法在其他类似特征数据处理中的应用。

(6)既可以用数据报道国的改进数据库与无数据国的新生数据库组成全球贸易数据库，也可以用数据报道国的原始数据库与无数据国的新生数据库组成全球贸易数据库。

三、本发明能够实现的主要功能和主要应用价值

(1)改进和完善各个有数据国家的贸易数据库。

(2)为无贸易报道数据库的国家建立贸易数据库。

(3)由于国家地区、贸易方式、贸易品类等实现各个国家统一编码，方便软件获取各个具体的数据，几乎可以使数据实现各种模型进行复杂的数据分析。提高了数据库的利用率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

四、附图说明

说明书的附图1是涉及各国的全球贸易大数据库建立的方法、逻辑思路和数据处理流程图。

Claims

1.全球贸易大数据处理方法的主要流程结构

统一编码的设计方法可以有3种思路：(1)如果数据来源可以从统一编码中完全获取，可以借用该编码。如目前的海关数据分类标准具有大量数据源，可以采用这一较通用的编码。(2)如果目前的多个编码间存在补充的关系，则设计包括这些编码的统一编码。如目前的海关标准存在多个升级版，相互间存在补充关系，如果要分析历史数据，就必须设计包括H1、H12、H3、H4在内的统一标准。(3)如果目前的多个编码是独立关系，可以有2个解决办法：一是以应用较广泛的标准为统一编码，分析其他编码与这一编码的关系，建立转化对应关系；二是，建立一个新标准，里面包含多个编码的特征信息，然后按照特征信息建立新标准与其他标准的对应关系。

步骤3：将各个有数据的国家或地区的贸易数据，与经过步骤2形成的新数据进行合并，建立一个数据集。显然，在这个数据集中，由于数据报道国间相互形成新数据，如果两个国家均没有漏报数据，两国间相同商品进出口贸易数据会出现两条，如果两个国家中有一个国家出现漏报数据，则两国间相同商品进出口贸易数据只会出现1条。而无数据报道的国家或地区，只有该国与各个数据报道国间的数据，且同商品同国家同进出口类型(进口或出口)的数据只可能出现1条。当然无数据报道国间的贸易数据会缺失。

步骤4：将每个数据报道国的报道数据和其他数据报道国形成的与该国相关的新数据对比改进。改进方法和规则是：如果出现两个相同类型的数据，相等时选其一；不相等时只取数据较大者，以弥补该国在某个数据出现少统计的误差；如果出现单个数据，就取该数据。这种情况可能出现在一个国家有相关统计，而伙伴国无相关统计的情况。加入这个数据，有利于填补漏统计国家的相关数据。完成后，得到改进后的各个数据报道国的贸易数据库。显然，改进后的数据较原始数据更加准确和完整。

2.对国家地区、贸易方式、品类等的编码进行统一的方法

统一设计方法主要有两个方面需要保护：(1)如果目前的多个编码间存在补充的关系，则设计包括这些编码的统一编码。如目前的海关标准存在多个升级版，相互间存在补充关系，如果要分析历史数据，就必须设计包括H1、H2、H3、H4在内的统一标准。(2)如果目前的多个编码是独立关系，可以有2个解决办法：一是以应用较广泛的标准为统一编码，分析其他编码与这一编码的关系，建立转化对应关系；二是，建立一个新标准，里面包含多个编码的特征信息，然后按照特征信息建立新标准与其他标准的对应关系。

3.贸易新数据的生成方法

对统一编码后的各个国家(或地区)国际贸易数据(包括各个年度、月度等)。通过对应关系分别形成一套涉及该国与其他国家地区贸易的新数据，具体方法是：对应找出各个贸易伙伴国与该国的各个具体商品或服务的进出口数据，显然，进出口方向要选择与数据报道国相反。如：中国报道的数据中，假设中国进口俄罗斯石油100亿美元，对应形成的新数据，俄罗斯出口中国石油100亿美元。

4.对数据报道国的数据进行改进的方法

将每个数据报道国的报道数据和其他数据报道国形成的与该国相关的新数据对比改进。改进方法和规则是：如果出现两个相同类型的数据，相等时选其一；不相等时只取数据较大者，以弥补该国在某个数据出现少统计的误差；如果出现单个数据，就取该数据。这种情况可能出现在一个国家有相关统计，而伙伴国无相关统计的情况。加入这个数据，有利于填补漏统计国家的相关数据。完成后，得到改进后的各个数据报道国的贸易数据库。显然，改进后的数据较原始数据更加准确和完整。

5.对无数据国家或地区建立贸易数据库的方法

经过步骤2形成新数据后，对无数据国家或地区而言，只有新形成的数据，是约160个数据报道国家与该国的贸易数据集，因此，不可能出现两个同类型的数据，没有选择问题。但是，这样做的结果是形成了各个无数据国家的进出口数据库。当然，数据中缺少了该国与其他无数据国家间的贸易数据，但160个左右的主要数据报道国家的贸易额占全球贸易数据的95％以上，因此，用这套数据分析该国的贸易情况，应该具有较高的准确度。

6.全球贸易数据库的关键方法

方法1：用改进的各个数据报道国的贸易数据库与步骤5形成的无数据国家新数据库合并组建；方法2：直接用数据报道国的原始数据库与步骤5形成的无数据国家新数据库合并组建。

7.本方法在内容或形式上的如下变动

(1)添加或减少数据数据处理方法的步骤；

(2)改变各个步骤的排列；

(3)改变各个步骤的名称，但本质内容相同或相似。

(4)将本方法的流程结构或核心步骤放到其他系统中。