CN111046632B - 一种数据提取转换方法、系统、存储介质及电子设备 - Google Patents
一种数据提取转换方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111046632B CN111046632B CN201911201132.XA CN201911201132A CN111046632B CN 111046632 B CN111046632 B CN 111046632B CN 201911201132 A CN201911201132 A CN 201911201132A CN 111046632 B CN111046632 B CN 111046632B
- Authority
- CN
- China
- Prior art keywords
- header
- sample data
- data
- name
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 21
- 238000013075 data extraction Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据提取转换方法、系统、存储介质及电子设备,其方法包括:读取表格文件的表头名称和对应的样例数据;根据同义词映射表对所述表头名称进行标准化得到标准表头名称;分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;当所述标准表头名称与对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;对所述标准化表头进行行为分析,识别对应的行为类别;根据所述行为类别生成相应的匹配模型。本发明将表头数据做标准化和属性的匹配,可以在模型匹配的过程中减少大量的工作。
Description
技术领域
本发明涉及计算机数据处理领域,尤指一种数据提取转换方法、系统、存储介质及电子设备。
背景技术
在数据治理中,数据的来源是多样的,表格数据文件是其中的一种常见类型。
在表格数据文件的处理中,由于文件内包含的内容不同,在将其转化为实体和关系模型时,对每种数据文件往往需要做多次配置,而数据文件的类型繁多,配置的工作量巨大。
发明内容
本发明的目的是提供一种数据提取转换方法、系统、存储介质及电子设备,实现将表头数据做标准化和属性的匹配,可以在模型匹配的过程中减少大量的工作。
本发明提供的技术方案如下:
本发明提供一种数据提取转换方法,包括:
读取表格文件的表头名称和对应的样例数据;
根据同义词映射表对所述表头名称进行标准化得到标准表头名称;
分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;
当所述标准表头名称与对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
对所述标准化表头进行行为分析,识别对应的行为类别;
根据所述行为类别生成相应的匹配模型。
进一步的,读取表格文件的表头名称和对应的样例数据之前还包括:
获取表头名称以及对应的同义表头名称;
根据所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称。
进一步的,读取表格文件的表头名称和对应的样例数据之前还包括:
分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
识别所述样例数据的类别字段具体包括:
将所述数据特征与所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段。
进一步的,分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段之后还包括:
当所述标准表头名称与对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
本发明还提供一种数据提取转换系统,包括:
数据读取模块,读取表格文件的表头名称和对应的样例数据;
标准化模块,根据同义词映射表对所述数据读取模块得到的所述表头名称进行标准化得到标准表头名称;
字段识别模块,分析所述数据读取模块得到的各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;
表头生成模块,当所述标准化模块得到的所述标准表头名称与所述字段识别模块得到的对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
行为分析模块,对所述表头生成模块得到的所述标准化表头进行行为分析,识别对应的行为类别;
模型生成模块,根据所述行为分析模块得到的所述行为类别生成相应的匹配模型。
进一步的,还包括:
表头获取模块,获取表头名称以及对应的同义表头名称;
映射表生成模块,根据所述表头获取模块获取的所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称。
进一步的,还包括:
特征分析模块,分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
所述字段识别模块,将所述数据特征与所述特征分析模块得到的所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段。
进一步的,还包括:
提示模块,当所述标准化模块得到的所述标准表头名称与所述字段识别模块得到的对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任一项方法。
本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的任一项方法。
通过本发明提供的一种数据提取转换方法、系统、存储介质及电子设备,实现将表头数据做标准化和属性的匹配,可以在模型匹配的过程中减少大量的工作。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种数据提取转换方法、系统、存储介质及电子设备的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种数据提取转换方法的一个实施例的流程图;
图2是本发明一种数据提取转换方法的另一个实施例的流程图;
图3是本发明一种数据提取转换系统的一个实施例的结构示意图。
具体实施方式
为了能够更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对照说明书附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并且获得其他的实施方式。
为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种数据提取转换方法,包括:
S100读取表格文件的表头名称和对应的样例数据;
S200根据同义词映射表对所述表头名称进行标准化得到标准表头名称;
S300分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;
S400当所述标准表头名称与对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
S500对所述标准化表头进行行为分析,识别对应的行为类别;
S600根据所述行为类别生成相应的匹配模型。
具体的,本实施例中,将若干个表格文件上传至系统,选取其中任意一个表格数据进行分析。表格文件包含两类数据,一类为表头,表示数据类型,另一类为表头对应的样例数据,是表头对应的数据类型的具体距离说明,如表头名称为姓名,对应的样例数据则为张三、李四等。
读取上传的表格文件的表头名称和对应的样例数据,根据同义词映射表将各个表头名称进行标准化和统一化,得到标准表头名称,例如,将身份证、身份证号以及身份证号码统一标准化为标准表头名称身份证号码。
分析各表头名称下对应的所有的样例数据的数据特征,识别样例数据的目标类别字段,以其中任意一个表头名称下对应的样例数据为例进行说明,其余的样例数据按照相同的方法进行分析。例如,选取表头名称为姓名的对应的样例数据,统计所有选取的样例数据进行分析,对其文字种类、文字数量以及文字组成等等都进行分析,如文字种类为中文,文字数量为2-10,文字组成为姓氏开头,则将对应的样例数据的目标类别字段定义为姓名字段。
识别判断标准表头名称与对应的样例数据的目标类别字段的属性,如果两者为同一属性,则生成带属性的标准化表头。例如,表头名称为姓名,对应的样例数据为姓名字段,则两者属于同一属性,生成带属性的标准化表头姓名,其属性为姓名。
对标准化表头进行行为分析,识别对应的行为类别,即识别各个标准化表头所属的行为类别,同一标准化表头可以属于多个行为类别。例如,标准化表头姓名可以为人员档案类,也可以为行程类,标准化表头金额可以为账单类。各个属性的标准化表头可以基于预设的行为类别表进行分析,其中行为类别表可以是人工进行分配,或者也可以是系统分析多个同一行为类别的数据,统计分析其中所包括的表头类型,将其中出现过的表头类型归属为对应行为类别。最后分别根据各个行为类别生成相应的匹配模型,例如账单类对应的匹配模块。
本发明对表格文件分析后,将表头名称做标准化和属性的匹配,以及将样例数据进行属性分析,从而可以在后面的实体/关系模型的匹配中,减少大量的工作。
优选地,在本发明另外的实施例中,S300分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段之后还包括:S700当所述标准表头名称与对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
具体的,识别判断标准表头名称与对应的样例数据的目标类别字段的属性,如果两者非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。其中,两者非同一属性可能是两者属性明确但是相互之间不同,也可能是至少其中之一的属性不明确,无法判断。
用户通过终端设备查看属性不一致的表头名称和对应的样例数据,以及其所属的表格文件,然后进行处理。通过终端设备获取用户基于上述的属性不一致的表头名称和对应的样例数据的操作信息。
如果是两者中至少一个属性不明确,则根据用户的操作信息标记其属性,进而再进行行为分析以及后续的步骤,同时将相应的表头名称以及对应的样例数据的数据特点记录到相应的预设表中。例如,如果是表头名称的属性不明确,根据用户的操作信息进行识别,如果是同义词映射表已有的属性类型,则将该表头名称添加至相应的类别,如果是不是同义词映射表已有的属性类型,则将该表头名称作为新的类别添加。
如果是两者属性明确但不同,并且确实是表头名称以及对应的样例数据相互匹配错误,则在相应的表格文件中进行修改。另外如果是两者属性明确但不同,但是是其中一个属性分析错误,则根据用户的操作信息进行更改,并更新相应的预设表,例如同义词映射表中收录的表头名称属性对应错误。
本发明的另一个实施例,是上述的实施例的优化实施例,如图2所示,本实施例与上述的实施例相比,主要改进在于,S100读取表格文件的表头名称和对应的样例数据之前包括:
S010获取表头名称以及对应的同义表头名称;
S020根据所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称;
S030分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
S300分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段具体包括:
S310分析各表头名称下对应的样例数据的数据特征;
S320将所述数据特征与所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段。
具体的,本实施例中,系统中存在有如下前置条件和资源,需要建立相应的同义词映射表以及类别字段特征表。其中,用于常见表头中同义词的映射,将不规则的表头命名,标准化为同义名称,如果该表中没有的字段,则沿用其原名。类别字段特征表为属于某一类表头名称的样例数据共同的数据特征。
获取表头名称以及对应的同义表头名称,同义表头名称可以是表头名称的同义词、近义词以及缩略词,还可以是通过语义分析之后语义相同的词语,例如身份证、身份证号以及身份证号码等。根据表头名称和同义表头名称生成同义词映射表,在该同义词映射表中将表头名称与相应的同一表头名称进行关联,并选取其中任意一个表头名称作为标准表头名称。选取标准表头名称的规则可以是根据表头名称的长度决定,也可以基于在若干个表格问价那种出现的频率决定。
分析属于同一类别字段的样例数据,得出各类别字段的类别特征,类别字段可以分为两大类,一类为标签类,其特点为一个表头名称对应的样例数据的数据类型个数有限,例如表头名称性别对应的样例数据只有男或女两类。另一类为非标签类,一个表头名称对应的样例数据相互之间各不相同。此外,再进一步分别细化标签类和非标签类下类别字段的分类以及类别特征。之后根据类别特征生成类别字段特征表,在类别字段特征表建立各类别字段与相应的类别特征的关联关系。
读取上传的表格文件的表头名称和对应的样例数据,根据同义词映射表将各个表头名称进行标准化和统一化,得到标准表头名称。分析各表头名称下对应的样例数据的数据特征,将数据特征与类别字段特征表中的类别特征进行匹配,匹配相符则为样例数据的目标类别字段。
识别判断标准表头名称与对应的样例数据的目标类别字段的属性,如果两者为同一属性,则生成带属性的标准化表头。对标准化表头进行行为分析,识别对应的行为类别,分别根据各个行为类别生成相应的匹配模型。
本发明中首先基于样本分析得到同义表头名称和类别字段特征表,便于在后续的分析过程中能够根据同义表头名称和类别字段特征表快速确定表头名称和样例数据的属性,加快数据提取转换效率。
本发明的一个实施例,如图3所示,一种数据提取转换系统100,包括:
表头获取模块110,获取表头名称以及对应的同义表头名称;
映射表生成模块120,根据所述表头获取模块110获取的所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称。
特征分析模块130,分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
数据读取模块140,读取表格文件的表头名称和对应的样例数据;
标准化模块150,根据同义词映射表对所述数据读取模块140得到的所述表头名称进行标准化得到标准表头名称;
字段识别模块160,分析所述数据读取模块140得到的各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;
所述字段识别模块160,将所述数据特征与所述特征分析模块130得到的所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段;
表头生成模块170,当所述标准化模块150得到的所述标准表头名称与所述字段识别模块160得到的对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
行为分析模块180,对所述表头生成模块170得到的所述标准化表头进行行为分析,识别对应的行为类别;
模型生成模块190,根据所述行为分析模块180得到的所述行为类别生成相应的匹配模型。
提示模块195,当所述标准化模块150得到的所述标准表头名称与所述字段识别模块160得到的对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
具体的,本实施例中,系统中存在有如下前置条件和资源,需要建立相应的同义词映射表以及类别字段特征表。其中,用于常见表头中同义词的映射,将不规则的表头命名,标准化为同义名称,如果该表中没有的字段,则沿用其原名。类别字段特征表为属于某一类表头名称的样例数据共同的数据特征。
获取表头名称以及对应的同义表头名称,同义表头名称可以是表头名称的同义词、近义词以及缩略词,还可以是通过语义分析之后语义相同的词语,例如身份证、身份证号以及身份证号码等。根据表头名称和同义表头名称生成同义词映射表,在该同义词映射表中将表头名称与相应的同一表头名称进行关联,并选取其中任意一个表头名称作为标准表头名称。选取标准表头名称的规则可以是根据表头名称的长度决定,也可以基于在若干个表格问价那种出现的频率决定。
分析属于同一类别字段的样例数据,得出各类别字段的类别特征,类别字段可以分为两大类,一类为标签类,其特点为一个表头名称对应的样例数据的数据类型个数有限,例如表头名称性别对应的样例数据只有男或女两类。另一类为非标签类,一个表头名称对应的样例数据相互之间各不相同。此外,再进一步分别细化标签类和非标签类下类别字段的分类以及类别特征。之后根据类别特征生成类别字段特征表,在类别字段特征表建立各类别字段与相应的类别特征的关联关系。
将若干个表格文件上传至系统,选取其中任意一个表格数据进行分析。表格文件包含两类数据,一类为表头,表示数据类型,另一类为表头对应的样例数据,是表头对应的数据类型的具体距离说明,如表头名称为姓名,对应的样例数据则为张三、李四等。
读取上传的表格文件的表头名称和对应的样例数据,根据同义词映射表将各个表头名称进行标准化和统一化,得到标准表头名称,例如,将身份证、身份证号以及身份证号码统一标准化为标准表头名称身份证号码。
分析各表头名称下对应的所有的样例数据的数据特征,识别样例数据的目标类别字段,以其中任意一个表头名称下对应的样例数据为例进行说明,其余的样例数据按照相同的方法进行分析。例如,选取表头名称为姓名的对应的样例数据,统计所有选取的样例数据进行分析,对其文字种类、文字数量以及文字组成等等都进行分析,如文字种类为中文,文字数量为2-10,文字组成为姓氏开头,则将对应的样例数据的目标类别字段定义为姓名字段。
识别判断标准表头名称与对应的样例数据的目标类别字段的属性,如果两者为同一属性,则生成带属性的标准化表头。例如,表头名称为姓名,对应的样例数据为姓名字段,则两者属于同一属性,生成带属性的标准化表头姓名,其属性为姓名。
对标准化表头进行行为分析,识别对应的行为类别,即识别各个标准化表头所属的行为类别,同一标准化表头可以属于多个行为类别。例如,标准化表头姓名可以为人员档案类,也可以为行程类,标准化表头金额可以为账单类。各个属性的标准化表头可以基于预设的行为类别表进行分析,其中行为类别表可以是人工进行分配,或者也可以是系统分析多个同一行为类别的数据,统计分析其中所包括的表头类型,将其中出现过的表头类型归属为对应行为类别。最后分别根据各个行为类别生成相应的匹配模型,例如账单类对应的匹配模块。
识别判断标准表头名称与对应的样例数据的目标类别字段的属性,如果两者非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。其中,两者非同一属性可能是两者属性明确但是相互之间不同,也可能是至少其中之一的属性不明确,无法判断。
用户通过终端设备查看属性不一致的表头名称和对应的样例数据,以及其所属的表格文件,然后进行处理。通过终端设备获取用户基于上述的属性不一致的表头名称和对应的样例数据的操作信息。
如果是两者中至少一个属性不明确,则根据用户的操作信息标记其属性,进而再进行行为分析以及后续的步骤,同时将相应的表头名称以及对应的样例数据的数据特点记录到相应的预设表中。例如,如果是表头名称的属性不明确,根据用户的操作信息进行识别,如果是同义词映射表已有的属性类型,则将该表头名称添加至相应的类别,如果是不是同义词映射表已有的属性类型,则将该表头名称作为新的类别添加。
如果是两者属性明确但不同,并且确实是表头名称以及对应的样例数据相互匹配错误,则在相应的表格文件中进行修改。另外如果是两者属性明确但不同,但是是其中一个属性分析错误,则根据用户的操作信息进行更改,并更新相应的预设表,例如同义词映射表中收录的表头名称属性对应错误。
本发明对表格文件分析后,将表头名称做标准化和属性的匹配,以及将样例数据进行属性分析,从而可以在后面的实体/关系模型的匹配中,减少大量的工作。
本发明的一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一实施例中的所有方法步骤或部分方法步骤。
本发明实现上述的实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明的一个实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一实施例中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种数据提取转换方法,其特征在于,包括:
分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
读取表格文件的表头名称和对应的样例数据;
根据同义词映射表对所述表头名称进行标准化得到标准表头名称;
分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;具体包括:将所述数据特征与所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段;
当所述标准表头名称与对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
对所述标准化表头进行行为分析,识别对应的行为类别;
根据所述行为类别生成相应的匹配模型。
2.根据权利要求1所述的数据提取转换方法,其特征在于,读取表格文件的表头名称和对应的样例数据之前还包括:
获取表头名称以及对应的同义表头名称;
根据所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称。
3.根据权利要求1所述的数据提取转换方法,其特征在于,分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段之后还包括:
当所述标准表头名称与对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
4.一种数据提取转换系统,其特征在于,包括:
特征分析模块,分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
数据读取模块,读取表格文件的表头名称和对应的样例数据;
标准化模块,根据同义词映射表对所述数据读取模块得到的所述表头名称进行标准化得到标准表头名称;
字段识别模块,分析所述数据读取模块得到的各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;具体包括:将所述数据特征与所述特征分析模块得到的所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段;
表头生成模块,当所述标准化模块得到的所述标准表头名称与所述字段识别模块得到的对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
行为分析模块,对所述表头生成模块得到的所述标准化表头进行行为分析,识别对应的行为类别;
模型生成模块,根据所述行为分析模块得到的所述行为类别生成相应的匹配模型。
5.根据权利要求4所述的数据提取转换系统,其特征在于,还包括:
表头获取模块,获取表头名称以及对应的同义表头名称;
映射表生成模块,根据所述表头获取模块获取的所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称。
6.根据权利要求4所述的数据提取转换系统,其特征在于,还包括:
提示模块,当所述标准化模块得到的所述标准表头名称与所述字段识别模块得到的对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。
8.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911201132.XA CN111046632B (zh) | 2019-11-29 | 2019-11-29 | 一种数据提取转换方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911201132.XA CN111046632B (zh) | 2019-11-29 | 2019-11-29 | 一种数据提取转换方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046632A CN111046632A (zh) | 2020-04-21 |
CN111046632B true CN111046632B (zh) | 2023-11-10 |
Family
ID=70234219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911201132.XA Active CN111046632B (zh) | 2019-11-29 | 2019-11-29 | 一种数据提取转换方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046632B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114613516B (zh) * | 2020-12-29 | 2022-12-06 | 医渡云(北京)技术有限公司 | 文本的标准化处理方法、装置、电子设备及计算机介质 |
CN113221548A (zh) * | 2021-04-01 | 2021-08-06 | 深圳市猎芯科技有限公司 | 基于机器学习的bom表识别方法、装置、计算机设备及介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1031981A2 (en) * | 1999-02-25 | 2000-08-30 | Sony Corporation | Data transmission |
JP2007058724A (ja) * | 2005-08-26 | 2007-03-08 | Fuji Xerox Co Ltd | ドキュメント処理装置 |
CN104156340A (zh) * | 2014-07-11 | 2014-11-19 | 公安部交通管理科学研究所 | 一种数据报表的封装及展现方法 |
CN104298726A (zh) * | 2014-09-26 | 2015-01-21 | 惠州市亿能电子有限公司 | 一种基于数据库的bms数据存储系统及其方法 |
WO2016023471A1 (zh) * | 2014-08-11 | 2016-02-18 | 张锐 | 手写输入字符的处理、数据拆分和合并及编解码处理方法 |
CN106855851A (zh) * | 2015-12-08 | 2017-06-16 | 中国移动通信集团公司 | 知识抽取方法及装置 |
CN107562949A (zh) * | 2017-09-20 | 2018-01-09 | 深圳易嘉恩科技有限公司 | 实现合并报表Excel模板写入数据库的方法 |
CN108182245A (zh) * | 2017-12-28 | 2018-06-19 | 北京锐安科技有限公司 | 人对象属性分类知识图谱的构建方法及装置 |
CN109254969A (zh) * | 2018-08-31 | 2019-01-22 | 平安科技(深圳)有限公司 | 数据表处理方法、装置、设备及存储介质 |
CN109408555A (zh) * | 2018-09-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 数据类型识别方法及装置、数据入库方法及装置 |
CN109522452A (zh) * | 2018-11-13 | 2019-03-26 | 南京烽火星空通信发展有限公司 | 一种海量半结构化数据的处理方法 |
CN109558440A (zh) * | 2018-10-18 | 2019-04-02 | 平安科技(深圳)有限公司 | 数据批量处理方法、装置、计算机设备及存储介质 |
CN109656985A (zh) * | 2018-09-27 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 数据导入方法、系统、终端及存储介质 |
CN110457302A (zh) * | 2019-07-31 | 2019-11-15 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
-
2019
- 2019-11-29 CN CN201911201132.XA patent/CN111046632B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1031981A2 (en) * | 1999-02-25 | 2000-08-30 | Sony Corporation | Data transmission |
JP2007058724A (ja) * | 2005-08-26 | 2007-03-08 | Fuji Xerox Co Ltd | ドキュメント処理装置 |
CN104156340A (zh) * | 2014-07-11 | 2014-11-19 | 公安部交通管理科学研究所 | 一种数据报表的封装及展现方法 |
WO2016023471A1 (zh) * | 2014-08-11 | 2016-02-18 | 张锐 | 手写输入字符的处理、数据拆分和合并及编解码处理方法 |
CN104298726A (zh) * | 2014-09-26 | 2015-01-21 | 惠州市亿能电子有限公司 | 一种基于数据库的bms数据存储系统及其方法 |
CN106855851A (zh) * | 2015-12-08 | 2017-06-16 | 中国移动通信集团公司 | 知识抽取方法及装置 |
CN107562949A (zh) * | 2017-09-20 | 2018-01-09 | 深圳易嘉恩科技有限公司 | 实现合并报表Excel模板写入数据库的方法 |
CN108182245A (zh) * | 2017-12-28 | 2018-06-19 | 北京锐安科技有限公司 | 人对象属性分类知识图谱的构建方法及装置 |
CN109254969A (zh) * | 2018-08-31 | 2019-01-22 | 平安科技(深圳)有限公司 | 数据表处理方法、装置、设备及存储介质 |
CN109408555A (zh) * | 2018-09-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 数据类型识别方法及装置、数据入库方法及装置 |
CN109656985A (zh) * | 2018-09-27 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 数据导入方法、系统、终端及存储介质 |
CN109558440A (zh) * | 2018-10-18 | 2019-04-02 | 平安科技(深圳)有限公司 | 数据批量处理方法、装置、计算机设备及存储介质 |
CN109522452A (zh) * | 2018-11-13 | 2019-03-26 | 南京烽火星空通信发展有限公司 | 一种海量半结构化数据的处理方法 |
CN110457302A (zh) * | 2019-07-31 | 2019-11-15 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
Non-Patent Citations (1)
Title |
---|
韩昱."标准化+"数据安全管理体系的建设策略研究.《第16届中国标准化论坛论文集》.2019,136-146. * |
Also Published As
Publication number | Publication date |
---|---|
CN111046632A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635117B (zh) | 一种基于知识图谱识别用户意图方法及装置 | |
CN108256591B (zh) | 用于输出信息的方法和装置 | |
CN110287247B (zh) | 基于银联系统的数据存储方法、装置、设备及存储介质 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
US20200184210A1 (en) | Multi-modal document feature extraction | |
CN109408555B (zh) | 数据类型识别方法及装置、数据入库方法及装置 | |
CN111046632B (zh) | 一种数据提取转换方法、系统、存储介质及电子设备 | |
CN109726388A (zh) | Pdf文件解析方法、装置、设备及计算机可读存储介质 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
CN111209931A (zh) | 数据处理方法、平台、终端设备及存储介质 | |
CN114817968B (zh) | 无特征数据的路径追溯方法、装置、设备及存储介质 | |
CN110765101A (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
US20190147104A1 (en) | Method and apparatus for constructing artificial intelligence application | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN112580108A (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN112579931A (zh) | 网络访问分析方法、装置、计算机设备和存储介质 | |
CN107506407B (zh) | 一种文件分类、调用的方法及装置 | |
CN112069269B (zh) | 基于大数据和多维特征的数据溯源方法及大数据云服务器 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN111783425A (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN113901075A (zh) | 生成sql语句的方法、装置、计算机设备及存储介质 | |
CN111695031A (zh) | 基于标签的搜索方法、装置、服务器及存储介质 | |
CN109815317B (zh) | 一种排序学习方法、系统、计算机可读存储介质及设备 | |
CN110580243A (zh) | 一种文件比对方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |