CN110019169B - 一种数据处理的方法及装置 - Google Patents

一种数据处理的方法及装置 Download PDF

Info

Publication number
CN110019169B
CN110019169B CN201711489494.4A CN201711489494A CN110019169B CN 110019169 B CN110019169 B CN 110019169B CN 201711489494 A CN201711489494 A CN 201711489494A CN 110019169 B CN110019169 B CN 110019169B
Authority
CN
China
Prior art keywords
data
attribute
data field
column
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711489494.4A
Other languages
English (en)
Other versions
CN110019169A (zh
Inventor
王晓春
马军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shanxi Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711489494.4A priority Critical patent/CN110019169B/zh
Publication of CN110019169A publication Critical patent/CN110019169A/zh
Application granted granted Critical
Publication of CN110019169B publication Critical patent/CN110019169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理的方法及装置,其中方法包括:获取待处理数据;所述待处理数据按行排列;识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;对属性与所在列的属性不同的数据字段进行修正处理。

Description

一种数据处理的方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及一种数据处理的方法及装置。
背景技术
大数据环境下,以数据仓库为例,数据仓库建设过程中,为避免得到错误结论,数据的准确性至关重要。数据在输入、获得、集成传输过程中,由于数据的来源不同,可能会出现一定比例的错误数据。而错误的数据不仅会带来数据库自身高额的维护费用,而且更容易导致企业由此做出错误的预测分析,对企业的长远发展方向影响深远。
因此,如何高效和准确的提取大数据中不同数据的信息,成为一个亟待解决的问题。
发明内容
本申请实施例提供一种数据处理的方法及装置,用以解决现有技术中由于错误数据的存在,导致无法高效和准确的提取数据信息的问题。
本申请实施例提供一种数据处理的方法,所述方法包括:
获取待处理数据;所述待处理数据按行排列;
识别所述待处理数据的每个数据字段的属性及位置;
按照数据字段在行内的位置,确定所述数据字段所属的列位置;
根据同一列中的各数据字段的属性,确定该列的属性;
对属性与所在列的属性不同的数据字段进行修正处理。
一种可能的实现方式,所述对属性与所在列的属性不同的数据字段进行修正处理,包括:
若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置;
若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段,并按照列的属性确定所述多个数据字段的在行内的位置。
一种可能的实现方式,所述识别合并后的数据字段的属性,包括:
将各列的属性确定为为所述待处理数据的属性集合中的属性;
从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
一种可能的实现方式,所述根据同一列中的各数据字段的属性,确定该列的属性,包括:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。
一种可能的实现方式,所述对属性与所在列的属性不同的数据字段进行修正处理,还包括:
将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段与后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据,并将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
一种可能的实现方式,所述所述对属性与所在列的属性不同的数据字段进行修正处理之后,还包括:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;
按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
本申请实施例提供一种数据处理的装置,所述装置包括:
获取单元,用于获取待处理数据;所述待处理数据按行排列;
处理单元,用于识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;对属性与所在列的属性不同的数据字段进行修正处理。
一种可能的实现方式,所述处理装置还用于:
若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置;
若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段,并按照列的属性确定所述多个数据字段的在行内的位置。
一种可能的实现方式,所述处理单元还用于:
将各列的属性确定为为所述待处理数据的属性集合中的属性;
从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
一种可能的实现方式,所述处理单元还用于:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。
一种可能的实现方式,所述处理单元还用于:
将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段与后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据,并将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
一种可能的实现方式,所述处理单元还用于:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
本申请实施例提供一种数据处理的方法及装置,通过获取待处理数据;所述待处理数据按行排列;识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;解决了由于数据的结构划分错误,导致属性无法识别的问题,有效提高了数据的识别效率,根据确定的列的属性,对属性与所在列的属性不同的数据字段进行修正处理,可以有效提高数据修复的能力。
附图说明
图1为本申请实施例提供的一种数据处理的方法的流程示意图;
图2为本申请实施例提供的一种数据处理的装置的结构示意图。
具体实施方式
现有技术中,对数据的处理只是简单的过滤掉不能识别的信息,而保留可以识别的信息。但是由于互联网上的数据结构通常是半结构化的数据,数据结构不统一,在经过不同的系统时,信息不可避免的出现错误,无法识别,导致数据中的信息丢失,为大数据的信息获取造成了很多困难。
本申请实施例提供一种数据处理的方法,如图1所示,为本申请实施例提供的一种数据处理的方法流程示意图,包括以下步骤:
步骤101:获取待处理数据;所述待处理数据按行排列;
步骤102:识别所述待处理数据的每个数据字段的属性及位置;
步骤103:按照数据字段在行内的位置,确定所述数据字段所属的列位置;
步骤104:根据同一列中的各数据字段的属性,确定该列的属性;
步骤105:对属性与所在列的属性不同的数据字段进行修正处理。
在步骤101中,所述待处理数据可以为根据需要,将需要处理的数据文件转换为预设编码格式的待处理数据。所述需要处理的数据文件可以为互联网上公开的数据,也可以是允许人工导入需要处理的文件。
在具体实施过程中,可以包括以下步骤:
步骤一、确定待处理的数据文件的文件格式类型;
步骤二、若确定所述待处理数据文件的文件格式类型为压缩文件格式类型,则将所述待处理数据文件解压缩,并存储为可读文件格式类型,执行步骤三;
步骤三、若确定所述待处理数据文件的文件格式为可读文件格式类型,则读取所述待处理数据文件中的数据,并将所述数据转换为预设编码格式的待处理数据。
在步骤一中,所述待处理数据文件的文件格式类型可以根据压缩文件格式类型,和可读文件格式类型进行划分;
一种可能的实现方式,可以根据文件后缀识别所述文件格式类型。
在具体实施过程中,可以根据正则表达式识别所述待处理数据文件的文件后缀,并匹配识别所述文件格式类型。
举例来说,所述压缩文件的格式的后缀名可以包括Gz、Rar、7z、Zip、Jar等,可读文件格式可以包括Mdb、Mdf、Pdf、Rtf、Docx、Xsl、Db、sql、csv、Doc、txt等。
在步骤二中,可以包括以下步骤:
步骤一、根据所述压缩文件格式类型,将所述待处理数据文件解压缩;
步骤二、识别所述解压缩后的所述待处理数据文件中的所有文件的文件格式类型;
步骤三、若确定所述待处理数据文件存在多层压缩文件格式类型的数据文件,则对文件目录及其目录内的数据文件进行解压缩。
一种可能的实现方式,对所述多层压缩文件格式类型的数据文件,可以通过层序遍历的方式,读取所述待处理数据文件的文件目录中的所有数据文件,并将其中识别所述压缩文件格式类型的文件进行解压缩。
举例来说,在具体实施过程中,可以包括以下步骤:
步骤一、根据识别的所述待处理数据文件的后缀名,确定所述待处理数据文件的解压缩方式;
步骤二、读取解压缩后的所述待处理数据文件,获得所述待处理数据文件的目录下的所有文件名,建立所述待处理数据文件的目录。
步骤三、逐个读取所述待处理数据文件的目录,确定目录中的所有文件的文件格式类型;
一种可能的实现方式,可以根据文件后缀识别所述文件格式类型。
步骤四、若确定所述文件格式类型为压缩文件格式类型,则根据确定的压缩文件格式,将所述文件解压缩,并将解压缩后的文件存储至同名文件夹中,并将所述同名文件夹存储至所述目录中。
步骤五、若确定所述文件格式类型为可读文件格式类型,则记录所述文件的文件格式类型以及所述文件的路径;
所述记录的所述文件的路径可以为该文件的绝对路径。
步骤六、若确定为所述文件格式类型为文件夹,则将该文件夹内的所有文件存入所述待处理数据文件的目录中;并记录每个文件的绝对路径。
在步骤三中,可以包括以下步骤读取所述可读文件格式类型的所述待处理数据文件:
步骤一、若确定所述可读文件格式类型的所述待处理数据文件包括多层文件,可以通过层序遍历的方式,读取所述待处理数据文件的文件目录中的所有数据文件。
其中,所述层序遍历的方式,可以与解压缩的读取方式相同,在此不再赘述。
一种可能的实现方式,可以根据确定的所述待处理数据文件的目录,读取所有可读文件。
步骤二、通过对后缀名识别,将所述待处理数据文件的文件格式类型转换为预设编码格式的文件。
为了提高数据处理的准确性,本申请实施例中,还可将数据中的编码转换为预设格式的编码的文件。例如,txt文件,sql文件以及其他格式化的数据文件。
举例来说,所述可读文件格式类型可以包括:表格类型(例如Xsl、Xslx),文档类型(例如,Doc、Docx),网页类型,数据库类型,例如,Mdb,等。
在具体实施过程中,可以将不同文件格式类型的可读取文件按行读出,将对应格式进行转换,并存储至预设格式的编码格式的文件中。
例如,读取表格类型文件可以包括以下步骤:
步骤一、获得所述待处理数据文件的表单总数;
步骤二、逐行读取所述待处理数据的表单中的数据。
步骤三、获得每一个数据的类型,将不同种类数据读出,并存储至同名的预设格式的编码格式的文件中。
例如,文档类型文件可以包括以下步骤:
步骤一、若确定所述文档类型文件中的数据包括文本格式,则确定所述文本格式的数据的文档读取范围;
步骤二、根据确定的文档读取范围,逐个读取所述文档读取范围中的数据,并存储至同名的预设格式的编码格式的文件中。
步骤三、若确定所述文档类型文件中的数据包括表格格式,则确定所述表格格式的读取范围;
步骤四、根据确定的表格读取范围,逐行读取每个表格内的数据,并以行为单位,存储至同名的预设格式的编码格式的文件中。
例如,根据不同的分隔符区分所述不同行的表格内的数据。
举例来说,数据库类型文件可以包括以下步骤:
步骤一、根据数据库类型文件创建对象,读取所述数据库类型文件内的所有表单;
步骤二、针对每个表单,在每个表单内统计表单内的数据行数;
步骤三、在每行内分别读出每行的数据,以行为单位存储至同名的预设格式的编码格式的文件中。
考虑数据的安全性以及增加对所述待处理数据文件的存储和处理的速度,可以使用分布式数据库对所述待处理数据文件的存储和处理。分布式数据库distributeddatabase;简称DDB)是指数据分存在计算机网络中的各台计算机上的数据库。分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。分布式数据库能够动态地增添存储节点以实现存储容量的线性扩展。分布式数据库可以及时响应大规模用户的读/写请求,能对海量数据进行随机读/写。分布式数据库可以提供较高的容错机制,能够实现对数据的冗余备份,保证数据和服务的高度可靠性。
不同的文件格式类型需要采用不同的文件处理方法,因此,本申请实施例中,可以对压缩文件类型以及可读文件类型的待处理数据文件进行分别处理,以提高数据的处理速度。在具体实施过程中,可以通过消息队列,发送和接收数据。具体的,可以通过建立多个进程,并行调用执行不同文件内传来的数据。通过调用函数对并发消息的控制及调度,完成不同进程之间并发通信,提高程序健壮性,解决了效率问题。避免了串行执行文件出错程序停止以及执行效率底下问题。
可选的,可以将所述待处理数据文件维护成任务队列,以实现文件的多进程读取以及处理。所述处理方式包括解压缩所述待处理数据文件,将所述待处理数据文件转换为预设编码格式的文件。
为提高识别的准确率,一种可能的实现方式,可以将不能解压缩或不能读取的所述待处理数据文件,返回至用户界面,通过人工识别的方式,确定所述不能读取的文件格式类型,并确定所述文件格式类型的识别方式。
在步骤102中,识别所述待处理数据的每个数据字段的属性及位置;
一种可能的实现方式,通过正则式匹配,确定每行数据中的每个数据字段的属性及位置;其中每个数据字段为根据预设的分隔符对每行数据进行划分确定的。
在具体实施过程中,可以根据所述待处理数据文件中的未识别的分隔符进行人工识别后,更新所述预设的分隔符,以提高识别效率和识别精度。
一种可能的实现方式,包括以下步骤:
步骤一、对所述待处理数据进行逐行读取;
在具体实施过程中,可以根据识别出的分隔符,确定每行数据中的每个数据字段;并确定每个数据字段的数据长度、位置以及类型信息。
其中,一种可能的实现方式,将每一行中的每个数据字段的属性标识的初值设置为0,即该数据字段还没有被识别出来。
步骤二、将所述待处理数据中的每个数据字段根据使用正则匹配方法识别属性,将识别出的属性标识设置为1;表示该数据字段的属性已经识别出来。
一种可能的实现方式,所述属性识别的顺序可以根据预设的优先级识别顺序确定。正则匹配的识别顺序影响着识别准确性。通过将判别越准确的属性设置为优先级高的属性,以提高识别效率和识别的准确度。
再例如,一种可能的实现方式,若确定一个预设优先级的属性在某一行中缺失,则确定该行数据不可用,取消对该行数据的识别,以提高数据的识别效率。
步骤103中,按照每个数据字段在行内的位置,确定所述数据字段所属的列位置;
具体的,可以包括以下步骤:
步骤一、根据分隔符标识每行数据中每个数据字段的位置;
步骤二、将不同行在同一位置上的数据字段作为一列。
步骤104中,根据同一列中的各数据字段的属性,确定该列的属性;
一种可能的实现方式,所述根据同一列中的各数据字段的属性,确定该列的属性,包括:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。例如,所述第一阈值为70%。
在现有技术的属性识别中,仅通过预设的属性特征库进行匹配,识别的准确率难以保证。本申请实施例中,通过对列属性的识别,提高了对所述待处理数据的特异性处理。根据所述列属性,对每行数据进行识别,可以提高属性特征库对所述待处理数据的识别的准确度。
步骤105:对属性与所在列的属性不同的数据字段进行修正处理。
所述修正处理可以为通过对数据进行去重,格式转换,合并,分割等方式对未识别出的数据和识别出的多个属性的数据字段进行修正。
一种可能的实现方式,根据优先级属性清除掉无效的待处理数据;
一种可能的实现方式,根据确定的列的属性,将同一行中,同一属性中的重复的数据删除。
针对分割符导致一个属性的数据字段分割为2个数据字段,从而不能识别的数据字段,一种可能的实现方式,可以包括以下步骤:
步骤一、若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性;
在具体实施过程中,一种可能的实现方式,可以包括以下步骤:
步骤一、将各列的属性确定为所述待处理数据的属性集合中的属性;
步骤二、从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
例如,若确定数据字段为18800,其后一个数据字段为4567,将2个数据字段合并,合并后的数据字段为188004567,可以确定该合并后的数据字段为手机号码。
步骤二、按照列的属性确定所述合并后的数据字段在行内的位置。
例如,将该合并后的数据字段“188004567”添加至该数据字段所在的行中,列的属性为手机号码的位置。
针对数据字段中缺少必要的分隔符导致所述数据字段中出现多个属性,一种可能的实现方式,可以包括以下步骤:
步骤一、若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段;
步骤二、按照列的属性确定所述多个数据字段的在行内的位置。
举例来说,若确定所述数据字段为“李露1880015497”,则确定所述数据字段的属性包括姓名和手机号码2个属性;将所述数据字段分割为2个数据字段“李露”“1880015497”,并将“李露”添加至根据所述数据字段所在的行中,列的属性为姓名的位置;将“1880015497”添加至根据所述数据字段所在的行中,列的属性为手机号码的位置。
针对数据由于回车等分隔符导致将一个数据字段分为2个不能识别的数据字段,或者其中一个数据字段不能识别,一种可能的实现方式,可以包括以下步骤:
步骤一、将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段或后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据;
步骤二、将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并;
步骤三、识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
例如,若前一行数据的最后一个数据字段为“和平区文安路”为可以识别的属性,后一行的第一个数据字段为“21-3”,该字段为不能识别的属性;将两个数据字段合并,合并后的数据字段为“和平区文安路21-3”;该合并后的数据字段可以识别为地址的属性,表明该相邻的2行数据应为同一行的数据,并将相邻2行的数据合并为一行数据。并根据确定的列的属性,将所述合并后的同一行的数据的属性排列为确定的列的属性的位置。
一种可能的实现方式,所述对属性与所在列的属性不同的数据字段进行修正处理之后,还包括:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;
按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
例如,若确定出的列的属性为:日期,节日,身份证号,地名,邮箱名,固定电话;则可以根据日期,电话,身份证号,地名,邮箱名,节日的顺序,对每一行的数据进行重新排列。若某一属性在一行中没有,则可以设置为缺省状态。
一种可能的实现方式,针对无法进行修正处理的数据字段,确定为识别失败的数据字段,并将所述数据字段返回至用户界面,由用户输入属性。
通过标签的判断去根据其特征解读列属性,并相互反馈结果,相互校正,可以大大提高识别准确率。用列属性识别标签,用标签来完善列属性识别特征库。针对程序识别精度不高问题,采用列属性与标签相互反馈机制。
将下载得到的一系列待规格化数据进行解析,识别其中的列属性及分隔符,尽量更改或者补全数据中的一些显而易见的错误以及缺失数据,最终将清洗之后得到高质量的数据。
在本申请实施例中,对待处理数据进行解析,识别其中的列的属性,并根据识别出的列的数据对每行数据进行修正,以获得高质量的数据。对所述待处理数据进行有用数据的提取,提高了数据识别的效率,进一步提高了数据挖掘、分析的准确性。
基于同样的发明构思,本申请实施例还提供一种数据处理的装置,如图2所示。
本申请实施例提供一种数据处理的装置,所述装置包括:
获取单元201,用于获取待处理数据;所述待处理数据按行排列;
处理单元202,用于识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;对属性与所在列的属性不同的数据字段进行修正处理。
一种可能的实现方式,处理装置202还用于:
若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置;
若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段,并按照列的属性确定所述多个数据字段的在行内的位置。
一种可能的实现方式,处理单元202还用于:
将各列的属性确定为为所述待处理数据的属性集合中的属性;
从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
一种可能的实现方式,所述处理单元还用于:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。
一种可能的实现方式,处理单元202还用于:
将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段与后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据,并将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
一种可能的实现方式,处理单元202还用于:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
本申请实施例提供一种数据处理的方法及装置,通过获取待处理数据;所述待处理数据按行排列;识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;解决了由于数据的结构划分错误,导致属性无法识别的问题,有效提高了数据的识别效率,根据确定的列的属性,对属性与所在列的属性不同的数据字段进行修正处理,可以有效提高数据修复的能力。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种数据处理的方法,其特征在于,所述方法包括:
获取待处理数据;所述待处理数据按行排列;
识别所述待处理数据的每个数据字段的属性及位置;
按照数据字段在行内的位置,确定所述数据字段所属的列位置;
根据同一列中的各数据字段的属性,确定该列的属性;
对属性与所在列的属性不同的数据字段进行修正处理。
2.如权利要求1所述的方法,其特征在于,所述对属性与所在列的属性不同的数据字段进行修正处理,包括:
若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置;
若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段,并按照列的属性确定所述多个数据字段的在行内的位置。
3.如权利要求2所述的方法,其特征在于,所述识别合并后的数据字段的属性,包括:
将各列的属性确定为所述待处理数据的属性集合中的属性;
从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
4.如权利要求1所述的方法,其特征在于,所述根据同一列中的各数据字段的属性,确定该列的属性,包括:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。
5.如权利要求1所述的方法,其特征在于,所述对属性与所在列的属性不同的数据字段进行修正处理,还包括:
将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段与后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据,并将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
6.如权利要求1-5任一项所述的方法,其特征在于,所述对属性与所在列的属性不同的数据字段进行修正处理之后,还包括:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;
按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
7.一种数据处理的装置,其特征在于,所述装置包括:
获取单元,用于获取待处理数据;所述待处理数据按行排列;
处理单元,用于识别所述待处理数据的每个数据字段的属性及位置;按照数据字段在行内的位置,确定所述数据字段所属的列位置;根据同一列中的各数据字段的属性,确定该列的属性;对属性与所在列的属性不同的数据字段进行修正处理。
8.如权利要求7所述的装置,其特征在于,所述处理装置还用于:
若所述数据字段的属性为未识别的,则将所述数据字段与相邻的数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置;
若所述数据字段的属性为多个,则将所述数据字段分割为与所述多个属性中与每个属性相对的多个数据字段,并按照列的属性确定所述多个数据字段的在行内的位置。
9.如权利要求8所述的装置,其特征在于,所述处理单元还用于:
将各列的属性确定为所述待处理数据的属性集合中的属性;
从所述待处理数据的属性集合中确定所述合并后的数据字段的属性。
10.如权利要求7所述的装置,其特征在于,所述处理单元还用于:
将同一列的各数据字段的属性占该列识别出的多个属性的比例大于第一阈值的属性,确定为该列的属性。
11.如权利要求7所述的装置,其特征在于,所述处理单元还用于:
将所述待处理数据中相邻行的数据中,前一行数据的最后一个数据字段与后一行的第一个数据字段为未识别属性的数据字段,则将所述相邻行的数据合并为一行数据,并将所述前一行数据的最后一个数据字段与所述后一行的第一个数据字段合并,识别合并后的数据字段的属性,并按照列的属性确定所述合并后的数据字段在行内的位置。
12.如权利要求7-11任一项所述的装置,其特征在于,所述处理单元还用于:
对列进行重整,重整后的每列具有一个属性且按照同一属性的数据字段的数量进行列的排序;按照所述各数据字段的属性及重整后的列,调整所述各数据字段所在的行内位置,得到调整后的所述待处理数据。
CN201711489494.4A 2017-12-29 2017-12-29 一种数据处理的方法及装置 Active CN110019169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711489494.4A CN110019169B (zh) 2017-12-29 2017-12-29 一种数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711489494.4A CN110019169B (zh) 2017-12-29 2017-12-29 一种数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN110019169A CN110019169A (zh) 2019-07-16
CN110019169B true CN110019169B (zh) 2021-04-13

Family

ID=67187251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711489494.4A Active CN110019169B (zh) 2017-12-29 2017-12-29 一种数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN110019169B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569289B (zh) * 2019-09-11 2020-06-02 星环信息科技(上海)有限公司 基于大数据的列数据处理方法、设备及介质
CN110765236A (zh) * 2019-10-09 2020-02-07 中国人民解放军国防科技大学 一种非结构化海量数据的预处理方法及系统
CN113064888B (zh) * 2021-03-25 2021-12-07 珠海格力电器股份有限公司 数据校对方法、装置和系统、服务器、设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1420429A (zh) * 2001-11-13 2003-05-28 奥弗图尔服务公司 广告者在按位付费搜索系统中管理搜索列表的系统和方法
CN101290622A (zh) * 2007-04-20 2008-10-22 鸿富锦精密工业(深圳)有限公司 数据库清洗系统及方法
CN104035966A (zh) * 2014-05-16 2014-09-10 百度在线网络技术(北京)有限公司 一种提供扩展搜索项的方法与装置
CN104317812A (zh) * 2014-09-25 2015-01-28 株洲南车时代电气股份有限公司 一种lkj基础数据自动生成方法和系统
CN104462362A (zh) * 2014-12-08 2015-03-25 曙光信息产业(北京)有限公司 一种数据存储、查询、加载方法及装置
CN105677870A (zh) * 2016-01-11 2016-06-15 浙江慧脑信息科技有限公司 一种侧边分类索引设置方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6734971B2 (en) * 2000-12-08 2004-05-11 Lael Instruments Method and apparatus for self-referenced wafer stage positional error mapping
US10366333B2 (en) * 2016-06-17 2019-07-30 Sap Se Inference-based assignment of data type to data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1420429A (zh) * 2001-11-13 2003-05-28 奥弗图尔服务公司 广告者在按位付费搜索系统中管理搜索列表的系统和方法
CN101290622A (zh) * 2007-04-20 2008-10-22 鸿富锦精密工业(深圳)有限公司 数据库清洗系统及方法
CN104035966A (zh) * 2014-05-16 2014-09-10 百度在线网络技术(北京)有限公司 一种提供扩展搜索项的方法与装置
CN104317812A (zh) * 2014-09-25 2015-01-28 株洲南车时代电气股份有限公司 一种lkj基础数据自动生成方法和系统
CN104462362A (zh) * 2014-12-08 2015-03-25 曙光信息产业(北京)有限公司 一种数据存储、查询、加载方法及装置
CN105677870A (zh) * 2016-01-11 2016-06-15 浙江慧脑信息科技有限公司 一种侧边分类索引设置方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A hybrid approach for efficient anomaly detection using metaheuristic methods;Tamer F Ghanem 等;《Journal of advanced research》;20160731;第609-619页 *
一种基于属性的异常点检测算法;刘洪涛 等;《计算机科学》;20050523;第32卷(第5期);第164-166页 *
测验 Q 矩阵的修正方法及其比较研究;宋丽红 等;《江西师范大学学报(自然科学版)》;20151118;第39卷(第6期);第164-166页 *

Also Published As

Publication number Publication date
CN110019169A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US20180137134A1 (en) Data snapshot acquisition method and system
US9953102B2 (en) Creating NoSQL database index for semi-structured data
CN111339041A (zh) 文件解析入库、文件生成方法及装置
CN111400408A (zh) 数据同步方法、装置、设备及存储介质
CN110019169B (zh) 一种数据处理的方法及装置
CN106909595B (zh) 一种数据迁移方法及装置
CN107391532B (zh) 数据过滤的方法和装置
CN113535856A (zh) 数据同步方法及系统
CN114385760A (zh) 增量数据实时同步的方法、装置、计算机设备及存储介质
CN112559475A (zh) 数据实时捕获和传输方法及系统
CN109669975B (zh) 一种工业大数据处理系统及方法
CN111680017A (zh) 一种数据同步的方法及装置
CN114722119A (zh) 数据同步方法及系统
CN106469152A (zh) 一种基于etl的文件处理方法及系统
CN112965939A (zh) 一种文件合并方法、装置和设备
CN113177090A (zh) 数据处理方法及装置
CN115858493A (zh) 一种数据迁移方法、装置、电子设备及可读存储介质
US11243777B2 (en) Process stream replication for content management system synchronization
CN116628274B (zh) 一种针对图数据库的数据写入方法、设备及介质
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN114297204A (zh) 一种异构数据源的数据存储、检索方法及装置
CN108108478B (zh) 数据格式转换方法、系统及电子设备
CN111694801A (zh) 一种应用于故障恢复的数据去重方法和装置
CN115470235A (zh) 一种数据处理方法、装置以及设备
CN117874002A (zh) 一种用于异构数据迁移的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant