CN109388633B

CN109388633B - 一种数据清洗方法

Info

Publication number: CN109388633B
Application number: CN201810959495.9A
Authority: CN
Inventors: 辅小红; 唐诚
Original assignee: Yancheng Youyi Data Co ltd
Current assignee: Yancheng Youyi Data Co ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2021-09-28
Anticipated expiration: 2038-08-22
Also published as: CN109388633A

Abstract

本发明公开了一种数据清洗方法，包括：确定二维数据表中预设区域分别对应的区域坐标；其中，所述预设区域包括：行表头所在区域和列表头所在区域；通过预设自然语言处理算法对所述区域坐标对应区域内的内容进行读取解析；并根据解析结果，确定所述预设区域内容分别归属的表头属性；将各表头属性的值和对应数据值作为一行或一列写入所述一维数据表中，得到清洗后的一维数据表。本发明自动化程度高，人力成本低，且可处理海量复杂格式的年鉴数据，效果更好。

Description

一种数据清洗方法

技术领域

本发明涉及计算机数据处理，尤其涉及一种数据清洗方法。

背景技术

统计年鉴的数据非常繁复，主要包括国民经济核算、人口、就业人员和工资、固定资产投资和房地产、对外经济贸易、能源、财政、价格指数、人民生活、城市概况、资源和环境、农业、工业、建筑业、运输和邮电、社会消费品零售总额、批发和零售业、住宿和餐饮业、旅游业、金融业、教育、科技、卫生、社会服务、文化、体育、公共管理社会保障及其他等信息。由于各地统计年鉴数据所采用的的统计制度和统计标准有所差别，并且统计年鉴是以网页或者pdf形式展示的，数据格式不统一，对于后期的统计分析工作效率影响显著。所以，需要对网络中得到的年鉴数据进行清洗，转化为结构化数据。针对年鉴数据的清洗，目前经常采用的方法有下面几种：

(1)、人工清洗

人工清洗的方法是最原始的清洗方法，该方法的优点是精度高，缺点是该方法需要的人力成本大，检测速度慢，标准存在差异，面对海量的统计年鉴数据，效果并不理想。

(2)、OCR识别

OCR识别技术速度快，但是对于结构复杂的表格形式，OCR识别方法不能生效，所以OCR识别不能完成对年鉴数据的清洗工作。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种数据清洗方法,本发明自动化程度高，人力成本低，且可处理海量复杂格式的年鉴数据，效果更好。

技术方案：本发明所述的数据清洗方法包括：

确定二维数据表中预设区域分别对应的区域坐标；其中，所述预设区域包括：行表头所在区域和列表头所在区域；

通过预设自然语言处理算法对所述区域坐标对应区域内的内容进行读取解析；并

根据解析结果，确定所述预设区域内容分别归属的表头属性；

将各表头属性的值和对应数据值作为一行或一列写入所述一维数据表中，得到清洗后的一维数据表。

其中，确定二维数据表中预设区域分别对应的区域坐标，包括：

确定所述二维数据表中，不同填充色对应的区域；并

根据不同填充色对应的区域分别对应的区域坐标的坐标值特征，确定所述二维数据表中预设区域分别对应的区域坐标；或者

根据预先设置的不同填充色分别与不同预设区域之间的对应关系，确定所述二维数据表中预设区域分别对应的区域坐标。

其中，根据解析结果，确定所述预设区域内容分别归属的表头属性，包括：

根据所述列表头所在区域对应的区域坐标，以及所述行表头所在区域对应的区域坐标，确定所述列表头所在区域以及所述行表头所在区域邻接处坐标；

在所述邻接处插入预设行表格，并在所述预设行表格的行表头分别写入表头属性；其中，所述预设行数量与表头属性数量相同；

根据解析得到的各列表头的语义，在对应列表头所归属的表头属性所在行，与该对应列表头所在列共同标识的表格中写入对应列表头的名称；

根据所述列表头所在区域对应的区域坐标，确定所述列表头所在区域最后一列坐标；

在所述最后一列之后插入预设列表格，并在所述预设列表格的列表头分别写入表头属性；其中，所述预设列数量与表头属性数量相同；

根据解析得到的各行表头的语义，在对应行表头所归属的表头属性所在列，与该对应行表头所在行共同标识的表格中写入对应行表头的名称。

进一步的，所述预设区域还包括：所述二维数据表中表标题所在区域；

根据解析结果，确定所述预设区域内容分别归属的表头属性，包括：

根据所述列表头所在区域对应的区域坐标，确定所述列表头所在区域最后一列；

在所述最后一列之后预设列与所述表标题所在区域所占行中第一预设行共同标识的表格中写入表头属性；其中，所述预设列数量与表头属性数量相同；

根据解析得到的构成表标题的词语语义，在对应词语所归属表头属性所在列，与所述表标题所占行中第二预设行共同标识的表格中写入对应词语。

其中，根据解析得到的各列表头的语义，在对应列表头所归属的表头属性所在行，与该对应列表头所在列共同标识的表格中写入对应列表头的名称，包括：

根据表格合并属性，确定包括母表头和子表头的列表头；

针对每个子表头，根据解析得到的该子表头和该子表头对应母表头的语义，在该子表头所归属的表头属性所在行，与该子表头所在列共同标识的表格中，写入对应母表头与该子表头的组合名称；

根据解析得到的各行表头的语义，在对应行表头所归属的表头属性所在列，与该对应行表头所在行共同标识的表格中写入对应行表头的名称，包括：

确定行表头中内容的位置缩进值；

针对缩进值达到预设缩进阈值的待处理行表头，按照预设查找方向查找缩进值未达到所述预设缩进阈值的行表头；并

将查找到的首个行表头确定为该待处理行表头的上一层级行表头；

根据解析得到的该上一层级行表头和该待处理行表头的语义，确定该待处理行表头归属的表头属性；并

在该表头属性所在列与该待处理行表头所在行共同标识的表格中写入该上一层级行表头和该待处理行表头的组合名称。

进一步的，将各表头属性的值和对应数据值作为一行或一列写入所述一维数据表中，包括：

将所述表头属性和数据作为一维数据表的表头；

确定各表头属性所在行和列对应的区域坐标；

对所述区域坐标中的内容进行读取，将读取的各表头属性的值，分别作为所述一维数据表中对应表头的对应值，写入所述一维数据表的对应位置，确保所述二维数据表中任一行表头、任一列表头、及该任一行表头和该任一列表头标识的数据值在所述一维数据表中位于同一行或者同一列。

进一步的，确定各表头属性所在行和列对应的区域坐标，包括：

确定各表头属性所在行和列对应的不同填充色分别对应的区域；

将不同填充色分别对应区域的区域坐标确定为对应表头属性所在行和列对应的区域坐标；

其中，同一表头属性对应的行和列具有相同的填充色，不同表头属性对应的行和列具有不同的填充色。

有益效果：本发明与现有技术相比，其显著优点是：本发明的数据清洗方法自动化程度高，人力成本低，且可处理海量复杂格式的年鉴数据，将其转化为结构化数据，效果更好。

附图说明

图1是本发明的一个实施例的流程示意图；

图2是网页形式的统计年鉴展示图；

图3是xls格式的统计年鉴展示图；

图4是经过步骤S3处理后得到的统计年鉴展示图；

图5是结构化的统计年鉴展示图。

具体实施方式

实施例1

如图1所示，本实施例提供了一种数据清洗方法，包括以下步骤：

S1、确定二维数据表中预设区域分别对应的区域坐标，所述预设区域包括行表头所在区域和列表头所在区域。

该步骤具体包括：确定所述二维数据表中，不同填充色对应的区域,并根据不同填充色对应的区域分别对应的区域坐标的坐标值特征，确定所述二维数据表中预设区域分别对应的区域坐标；或者根据预先设置的不同填充色分别与不同预设区域之间的对应关系，确定所述二维数据表中预设区域分别对应的区域坐标。

例如，对于统计年鉴进行数据清洗时，首先将原始统计年鉴转换为xls格式的二维数据表，原始统计年鉴如图2所示，xls格式的二维数据表如图3所示，然后查看行表头所在区域和列表头所在区域是否已填充颜色，若填充颜色了，则根据填充颜色区分出不同区域，然后根据行表头区域或列表头区域的坐标值特征，确定表中行表头或列表头区域的区域坐标，即确定行表头或列表头所在区域位于表中第几行第几列，若没有填充颜色，则将行表头或列表头所在区域填充为不同颜色，例如，预先设置不同填充色与区域之间的对应关系为：表标题填充紫色，列表头填充蓝色，行表头填充绿色，忽略数据(无意义数据：如单位，代码等)填充黄色，然后按照这个设置来填充相应颜色，则后续处理就可以根据预先设置的对应关系确定各区域的区域坐标。

S2、通过预设自然语言处理算法对所述区域坐标对应区域内的内容进行读取解析。

S3、根据解析结果，确定所述预设区域内容分别归属的表头属性。该步骤具体包括：

S31、根据所述列表头所在区域对应的区域坐标，以及所述行表头所在区域对应的区域坐标，确定所述列表头所在区域以及所述行表头所在区域邻接处坐标；例如，参考图3，列表头所在区域以及行表头所在区域邻接处坐标为第8行和第9行之间；

S32、在所述邻接处插入预设行表格，并在所述预设行表格的行表头分别写入表头属性；接上例，则在第8行和第9行之间插入4行，分别位于第9-12行，这4行的表头属性分别为地区指标、时间指标、单位指标和未知指标，并分别写入对应行表头，如图4所示；

S33、根据解析得到的各列表头的语义，在对应列表头所归属的表头属性所在行，与该对应列表头所在列共同标识的表格中写入对应列表头的名称；具体步骤为：根据表格合并属性，确定包括母表头和子表头的列表头；针对每个子表头，根据解析得到的该子表头和该子表头对应母表头的语义，在该子表头所归属的表头属性所在行，与该子表头所在列共同标识的表格中，写入对应母表头与该子表头的组合名称。其中，表格合并属性具体为：当上一行的表头是由两个或以上小单元格合并后的大单元格，则该表头为母表头，其下一行的对应位置的小单元格即为属于该母表头的子表头。得到母表头和子表头后，就在子表头所归属的表头属性所在行，与该子表头所在列共同标识的表格中，写入母表头与该子表头的组合名称，作为对应表头属性值。例如，参考图4，第C列的列表头为“一五时期firstFIVE Year Plan Period”，该表头没有母表头，解析该表头得知其为时间语义，故该属性为时间指标，将表头名称写入时间指标所在行、第C列的单元格中，其他列表头进行同样处理；

S34、根据所述列表头所在区域对应的区域坐标，确定所述列表头所在区域最后一列坐标；

S35、在所述最后一列之后插入预设列表格，并在所述预设列表格的列表头分别写入表头属性；其中，所述预设列数量与表头属性数量相同；例如，图4中列表头所在区域最后一列为第N列，则在第N列之后插入4列，分别位于第O-R列，这4列的表头属性可以分别为地区指标、时间指标、单位指标和未知指标，并分别写入对应列表头；

S36、根据解析得到的各行表头的语义，在对应行表头所归属的表头属性所在列，与该对应行表头所在行共同标识的表格中写入对应行表头的名称。具体步骤为：确定行表头中内容的位置缩进值；针对缩进值达到预设缩进阈值的待处理行表头，按照预设查找方向查找缩进值未达到所述预设缩进阈值的行表头；并将查找到的首个行表头确定为该待处理行表头的上一层级行表头；根据解析得到的该上一层级行表头和该待处理行表头的语义，确定该待处理行表头归属的表头属性；并在该表头属性所在列与该待处理行表头所在行共同标识的表格中写入该上一层级行表头和该待处理行表头的组合名称。例如，参考图4，首先获取每个行表头中内容的位置缩进值，可以得到“年末总人口”“工农业总产量”“农业总产量”“工业总产量”“轻工业”“重工业”等行表头的内容缩进值，对于“农业总产量”和“工业总产量”行表头其缩进值达到预设缩进阈值，因此向上查找，查找到的首个行表头为“工农业总产量”，将其确定为“农业总产量”和“工业总产量”的上一层级行表头，根据解析得到的“工农业总产量”以及“农业总产量”和“工业总产量”行表头的语义，确定“农业总产量”和“工业总产量”行表头归属的表头属性为未知指标，则在“农业总产量”行的未知指标列的单元格中写入“工农业总产量-农业总产量”，同理，“工业总产量”行的未知指标列的单元格中写入“工农业总产量-工业总产量”，同理可以得到“工业总产量”行表头为“轻工业”“重工业”行表头的上一层级表头，则对应未知指标列的单元格中分别写入“工农业总产量-工业总产量-轻工业”和“工农业总产量-工业总产量-重工业”。

S4、将各表头属性的值和对应数据值作为一行或一列写入所述一维数据表中，得到清洗后的一维数据表。具体包括：

S41、将所述表头属性和数据作为一维数据表的表头；即建立一个一维数据表，表头为各表头属性和数据，如图5所示，图5中，表头按照行来写入，第一行即为表头，所述“数据”采用文字“值”来表示；

S42、确定二维数据表中各表头属性所在行和列对应的区域坐标；具体步骤为：确定各表头属性所在行和列对应的不同填充色分别对应的区域；将不同填充色分别对应区域的区域坐标确定为对应表头属性所在行和列对应的区域坐标；其中，在步骤S3中确定了预设区域内容分别归属的表头属性后，将同一表头属性对应的行和列填充相同的颜色，不同表头属性对应的行和列填充不同的颜色。

S43、对所述区域坐标中的内容进行读取，将读取的各表头属性的值，分别作为所述一维数据表中对应表头的对应值，写入所述一维数据表的对应位置，确保所述二维数据表中任一行表头、任一列表头、及该任一行表头和该任一列表头标识的值在所述一维数据表中位于同一行或者同一列。最后得到的清洗后的结构化一维数据表如图5所示，按照行来写入。

实施例2

如图2所示，本实施例提供了另外一种数据清洗方法，与实施例1的不同之处在于：本实施例中步骤S1中的预设区域还包括所述二维数据表中表标题所在区域，以及在步骤S36之后还包括步骤：

S37、根据所述列表头所在区域对应的区域坐标，确定所述列表头所在区域最后一列；

S38、在所述最后一列之后预设列与所述表标题所在区域所占行中第一预设行共同标识的表格中写入表头属性；其中，所述预设列数量与表头属性数量相同；

S39、根据解析得到的构成表标题的词语语义，在对应词语所归属表头属性所在列，与所述表标题所占行中第二预设行共同标识的表格中写入对应词语。

例如，如图4所示。表标题为“1-6各时期国民经济主要指标年平均增长速度”以及对应英文和单位，在表标题区域的最后一列增加4个单元格，分别填入地区指标、时间指标、单位指标和表标题内容这四个表头属性，对表标题解析后，将解析的内容分别填入对应表头属性的下一行。另外，在清洗后的一维数据表中，也可以根据地区指标、时间指标、单位指标和表标题内容这四个表头属性生成对应的表头，再将对应的值填入对应的位置，这里不再赘述。

以上所揭露的仅为本发明的较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据清洗方法，其特征在于，包括：

根据解析结果，确定所述预设区域内容分别归属的表头属性；具体包括：根据所述列表头所在区域对应的区域坐标，以及所述行表头所在区域对应的区域坐标，确定所述列表头所在区域以及所述行表头所在区域邻接处坐标；在所述邻接处插入预设行表格，并在所述预设行表格的行表头分别写入表头属性；其中，所述预设行数量与表头属性数量相同；根据解析得到的各列表头的语义，在对应列表头所归属的表头属性所在行，与该对应列表头所在列共同标识的表格中写入对应列表头的名称；根据所述列表头所在区域对应的区域坐标，确定所述列表头所在区域最后一列坐标；在所述最后一列之后插入预设列表格，并在所述预设列表格的列表头分别写入表头属性；其中，所述预设列数量与表头属性数量相同；根据解析得到的各行表头的语义，在对应行表头所归属的表头属性所在列，与该对应行表头所在行共同标识的表格中写入对应行表头的名称；

将各表头属性的值和对应数据值作为一行或一列写入一维数据表中，得到清洗后的一维数据表，具体包括以下步骤：将所述表头属性和数据作为一维数据表的表头；确定二维数据表中各表头属性所在行和列对应的区域坐标；对所述区域坐标中的内容进行读取，将读取的各表头属性的值，分别作为所述一维数据表中对应表头的对应值，写入所述一维数据表的对应位置，确保所述二维数据表中任一行表头、任一列表头、及该任一行表头和该任一列表头标识的数据值在所述一维数据表中位于同一行或者同一列。

2.根据权利要求1所述的数据清洗方法，其特征在于，确定二维数据表中预设区域分别对应的区域坐标，包括：

确定所述二维数据表中，不同填充色对应的区域；并

3.根据权利要求1或2所述的数据清洗方法，其特征在于，所述预设区域还包括：所述二维数据表中表标题所在区域；

4.根据权利要求1所述的数据清洗方法，其特征在于，根据解析得到的各列表头的语义，在对应列表头所归属的表头属性所在行，与该对应列表头所在列共同标识的表格中写入对应列表头的名称，包括：

根据表格合并属性，确定包括母表头和子表头的列表头；

确定行表头中内容的位置缩进值；

5.根据权利要求1所述的数据清洗方法，其特征在于，确定各表头属性所在行和列对应的区域坐标，包括：