CN104424263B - 一种数据记录的处理方法及装置 - Google Patents
一种数据记录的处理方法及装置 Download PDFInfo
- Publication number
- CN104424263B CN104424263B CN201310384765.5A CN201310384765A CN104424263B CN 104424263 B CN104424263 B CN 104424263B CN 201310384765 A CN201310384765 A CN 201310384765A CN 104424263 B CN104424263 B CN 104424263B
- Authority
- CN
- China
- Prior art keywords
- translation
- rule
- data
- field
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种数据记录的处理方法及装置,其中,所述方法包括:识别需要进行字段翻译的目标数据记录的数据类型;选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值;将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。采用本发明,可以根据配置的翻译规则来完成数据记录中字段的翻译,不必编写复杂的翻译代码,可移植性较好。
Description
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种数据记录的处理方法及装置。
背景技术
对于互联网中大量出现的各种各样的数据,运营商可以通过数据统计的方式对各条数据进行统计,以便于对用户的行为进行分析,基于分析结果,运营商可以对提供的服务以及各类型的应用进行改进,提高服务质量。
现有的数据统计中,一般需要先从数据中提取出本次统计所关注的关键内容,将这些关键内容作为数据记录中的一个元素记录到特定类型格式的数据记录中,例如,在一条用于记录用户行为的数据记录中,可以包括用户设备的IP地址、用户所使用的应用程序标识以及发起数据访问的次数等关键内容。根据数据记录中的这些关键内容,可以较好地统计出不同用户的应用程序使用以及数据访问的需求。
在对获取到的大量数据记录进行统计之前,一般还包括一个字段翻译的步骤,即根据数据记录中各个当前字段记录的数据,翻译出一些新的字段,这些新的字段的值可以进一步地方便对用户行为进行更为细致的统计。例如,在上述的包括用户设备的IP地址、用户所使用的应用程序标识以及发起数据访问的次数等关键内容的数据记录中,有必要通过用户设备的IP地址字段,新增加一个该IP地址所属的区域的字段,即通过该IP地址,翻译确定出该IP地址所在城市,该翻译确定出的城市值添加到原数据记录中,从而翻译得到新的包括用户设备的IP地址、用户所使用的应用程序标识、发起数据访问的次数以及所在城市的数据记录。
在现有的用于进行数据翻译与统计的mapreduce架构中,一般由其中的map(映射)模块来进行数据翻译,而由reduce(化简)模块来完成数据统计。通过map模块,在需要针对特定类型的数据内容进行翻译时,需要进行数据统计的用户针对本次统计的数据编写相关翻译代码来实现,翻译逻辑较为复杂,不易实现,并且可移植性较差。
发明内容
本发明实施例所要解决的技术问题在于,提供一种数据记录的处理方法、装置及系统,可通过简单、快速地实现数据记录的字段翻译。
为了解决上述技术问题,本发明实施例提供了一种数据记录的处理方法,其特征在于,包括:
识别需要进行字段翻译的目标数据记录的数据类型;
选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值;
将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
相应地,本发明实施例还提供了一种数据记录的处理装置,包括:
识别模块,用于识别需要进行字段翻译的目标数据记录的数据类型;
翻译模块,用于选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值;
添加模块,用于将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
本发明实施例能够基于数据记录的数据类型以及预先配置的翻译规则,完成该数据记录中相关字段的翻译,得到新的字段,不必编写复杂的翻译代码,配置方式灵活,可移植性较好,提高了数据记录的字段翻译效率以及数据统计的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种数据记录的处理方法的流程示意图;
图2是本发明实施例的基于字典表翻译规则的数据记录的处理方法的流程示意图;
图3是本发明实施例的基于字典表翻译规则查找新字段值的示意图;
图4是本发明实施例的基于四则运算翻译规则的数据记录的处理方法的流程示意图;
图5是本发明实施例的基于插件翻译规则的数据记录的处理方法的流程示意图;
图6是本发明实施例的一种数据记录的处理装置的结构示意图;
图7是图6中的翻译模块的一种结构示意图;
图8是图6中的翻译模块的另一种结构示意图;
图9是图6中的翻译模块的又一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例的一种数据记录的处理方法的流程示意图,本发明实施例的所述方法可应用在用于对各种类型的数据进行统计的服务器中,具体的,所述方法包括:
S101:识别需要进行字段翻译的目标数据记录的数据类型。
对于进行数据统计的数据记录,一般包括维度字段和/或数据字段,维度字段用来标识一条数据记录中的一些字段,这些字段即所谓数据的key(关键数据),一条记录中可以有多个维度字段,在数据统计时可以对这些字段进行数据合并;数据字段用来记录指标数据的字段,例如一些延时、丢包、访问次数等,在统计中可以对这些字段进行求和、求平均、求最大值等操作。
数据记录的类型具体可以为数据记录的格式类型,如下表1所示即记录了一种数据类型的目标数据记录:
表1:
维度1 | 维度2 | 数据1 | 数据2 | 数据3 |
在所述S101中,根据其中的维度字段和数据字段的个数以及位置,可以确定出需要进行字段翻译的目标数据记录的数据类型。
S102:选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值。
在本发明实施例中,翻译规则包括字典表翻译规则、四则运算翻译规则以及插件翻译规则。本发明实施例所述的字典表翻译规则中,字典表是一个映射表,可以将维度字段作为关键字key在字典表中进行搜索以查找对应的内容,将查找到的内容作为数据记录中的新内容即新的维度字段;四则运算翻译规则是通过一定的四则运算公式,具体对数据字段的内容进行运算,得到新的数据,将该新的数据作为数据记录中的新内容即新的数据字段;插件翻译规则是通过一个接口,将处理相应类型的数据记录的插件存储在指定位置,在字段翻译时根据记录的插件存储位置、所需参数来执行对应的插件得到新的内容,将该新的数据作为数据记录中的新内容即新的数据或维度字段。
在所述S102中,翻译得到新字段值包括:基于预置的字典表查找的方式翻译得到新字段值、基于四则运算的计算方式翻译得到新字段值、基于插件运算的方式翻译得到新字段值中的任一种或多种可以得到。
也就是说,通过字典表,可以根据数据记录中一个或者多个字段的值(具体内容)作为关键字,可以从字典表中查找到新字段值;通过四则运算,例如预置的“(数据1+数据2)*100/数据4”运算,可以得到新字段值;或者通过预先配置的一个插件,也可运算得到新字段值。
S103:将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
将新字段值添加到所述目标数据记录中的相应位置即可构成新的数据记录,例如,通过上述表1的内容,可以得到如下表2所示的新数据记录。
表1:
维度1 | 维度2 | 数据1 | 数据2 | 数据3 | 新维度3 | 新数据4 |
基于添加了新字段值的新数据记录,在进行后续统计时,可以得到更具有针对性的统计结果。在执行所述S103后,还可以按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
本发明实施例能够基于数据记录的数据类型以及预先配置的翻译规则,完成该数据记录中相关字段的翻译,得到新的字段,不必编写复杂的翻译代码,配置方式灵活,可移植性较好,提高了数据记录的字段翻译效率以及数据统计的效率。
再请参见图2,是本发明实施例的基于字典表翻译规则的数据记录的处理方法的流程示意图,本发明实施例的所述方法可应用于服务器中,具体的,所述方法包括:
S201:识别需要进行字段翻译的目标数据记录的数据类型;
具体基于所述目标数据记录的格式以及格式中每一个字段的内容完成数据类型的识别。
S202:从预先配置的字典表翻译规则中选取与所述目标数据记录的数据类型匹配的查找规则;
在本发明实施例中,为了更全面准确地对字段进行翻译得到新字段,在配置字典表翻译规则时,所述字典表翻译规则中设置有多种数据类型对应的查找规则、多个字典表以及字典表和数据的关联关系,其中:
查找规则中记录有本规则适用的数据类型、本规则所使用的字典表标识、翻译的新字段在字典表的位置以及翻译的新字段在数据记录中的记录位置;
字典表中包括字典表的标识和至少一组成映射关系的数据元素;
字段关联关系中包括:关联数据类型标识与字典表标识,作为字段翻译基础的数据在数据记录中的位置的第一位置标识与在字典表中的位置的第二位置标识。
具体的,为相应的数据类型配置的查找规则的一种较为具体的表现方式可以如下表3所示。
表3:
描述字段 | 含义 |
dataID | 标识新翻译出的字段是属于哪一个数据类型。 |
fieldNO | 标识该字段在记录中的位置。 |
fieldname | 字段的名称。 |
fieldType | 标识字段是维度字段,还是数据字段。 |
dataType | 字段的数据类型。 |
translateType | 翻译规则的类型。 |
translateID | 指定针对本字段如何进行翻译的规则。 |
translateSource | 根据规则从哪个参数中获得翻译出来的数值。 |
对应地,上述的dataID具体的表示了本规则适用的数据类型,translateID具体的表示了本规则所使用的字典表标识,fieldNO具体表示了翻译的新字段在数据记录中的记录位置,translateSource翻译的新字段在字典表的位置,具体的,例如下表4所示,为其中一种数据类型即dataID为1000000的数据记录的描述形式:
表4:
相应地,对应于上述的查找规则,所述的字典表具体则可以采用如下表5所示的格式。
表5:
如下表6为ID=1的字典表的一种具体表现形式。
根据上述的字典表及其相应的数据库的IP地址、数据库的名称,执行sql语句后可以得到一个数据表,具体格式如下表7所示:
表7:
keyfield1 | keyfield2 | value1 | value2 |
“维度1” | “维度2” | “新维度3” | “其他数据” |
“维度xx” | “维度yy” | “value_xx” | “value_yy” |
“dimetion_xx” | “dimetion_yy” | “xx_value” | “yy_value” |
在表7中,第2至4行的内容为具体的数据元素,例如IP地址、主机名、位置区域等具体数据。例如,第三行的内容依次可以为:维度xx为192.168.55.1的IP地址,维度yy为192.168.55.122,value_xx为深圳大厦,那么基于该字典表,在对某条相应标识的数据记录进行翻译时,根据该条数据记录中位置在0和1的值为192.168.55.1,192.168.55.122的字段,可以翻译得到新字段值为深圳大厦。
对应的字段关联关系则可以参考如下表8所示。
表8:
描述字段 | 含义 |
dataId | 关联的数据格式。 |
dictId | 关联的字典表Id。 |
keyName | 字典表的key。 |
fieldNo | 对应数据记录的字段位置。 |
具体的,上述包括数据类型标识dataId,字典表标识dictId,第一位置标识fieldNo以及第二位置标识keyName。以上述的标识为1的字典表对应的字段关联关系具体可参见下述表9和表10的内容。
表9:
描述字段 | 值 |
dataId | 100000 |
dictId | 1 |
keyName | keyField1 |
fieldNo | 0 |
表10:
描述字段 | 值 |
dataId | 100000 |
dictId | 1 |
keyName | keyField2 |
fieldNo | 1 |
在配置好上述的表项,通过相互查找的方式即可得到新字段值并设置到对应的目标数据记录中。
S203:获取预先配置的字典表翻译规则中所述选取的查找规则中的字典表标识所指示的字典表。
即根据查找规则的表3中translateID,确定本次所使用的字典表。
S204:根据所述目标数据记录的数据类型和所述选取的查找规则中的字典表标识,确定出字段关联关系;
即根据表8中的dataId和dictId确定出相应的关联关系表。
S205:根据选取的查找规则和所述确定出的字段关联关系,从所述获取的字典表中提取出用于记录到所述目标数据中的新字段的字段值。
根据所述目标数据记录中各字段的值以及位置,在上述的查找规则和确定出的字段关联关系中进行查找,提取出用于记录到所述目标数据中的新字段的字段值
在本发明实施例中,所述S205具体可以包括:
基于确定的字段关联关系,将所述目标数据记录中的由所述确定出的字段关联关系的第一位置标识所指示的数据确定为关键字;
根据确定的关键字在所述获取的字典表中的由所述确定出的字段关联关系的第二位置标识所指示的数据中进行搜索;
当搜索到字典表中与该关键字相同的数据时,确定出该相同的数据对应的字典表中的一组成映射关系的数据元素;
根据选取的查找规则中包括的翻译的新字段在字典表的位置的指示,从确定出的一组成映射关系的数据元素中提取相应位置的数据元素,将该数据元素的值作为用于记录到所述目标数据中的新字段的字段值。
其中,所述S202至S205对应于图1的实施例中的S102。
S206:将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
请参见图3,给出了基于选取的查找规则和所述确定出的字段关联关系,从所述获取的字典表中提取出用于记录到所述目标数据中的新字段的字段值的实现过程。
在执行了所述S206后,本发明实施例的所述方法还可以包括按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
通过配置的字段表翻译规则,可以基于数据记录的数据类型以及数据记录中各字段的位置以及字段值,快速地查找得到新字段值,并不需要用户编写具有复制逻辑的代码,较好地提高了数据翻译的效率。
再请参见图4,是本发明实施例的基于四则运算翻译规则的数据记录的处理方法的流程示意图,本发明实施例的所述方法可应用于服务器中,具体的,所述方法包括:
S301:识别需要进行字段翻译的目标数据记录的数据类型;
具体基于所述目标数据记录的格式以及格式中每一个字段的内容完成数据类型的识别。
S302:从预先配置的四则运算翻译规则中选取与所述目标数据记录的数据类型匹配的运算规则。所述运算规则记录有本规则适用的数据类型、运算表达式以及翻译的新字段在数据记录中的记录位置。
在本发明实施例中,四则运算翻译规则所对应的格式可以参考下述表11。
表11:
描述字段 | 含义 |
dataID | 标识新翻译出的字段是属于哪一个数据类型。 |
fieldNO | 标识该字段在记录中的位置。 |
fieldname | 字段的名称。 |
fieldType | 标识字段是维度字段,还是数据字段。 |
dataType | 字段的数据类型。 |
translateType | 翻译规则的类型。 |
translateID | 指定针对本字段如何进行翻译的规则。 |
translateSource | 根据规则从哪个参数中获得翻译出来的数值。 |
其中,dataID表示本规则适用的数据类型,translateSource表示运算表达式,fieldNO在翻译的新字段在数据记录中的记录位置。
如下表12所示,为其中一种数据类型即dataID为1000000的数据记录的描述形式:
表12:
S303:根据所述目标数据记录中各字段的值以及位置,按照所述选取的运算规则中的运算表达式进行运算,得到新字段值。
即根据所述目标数据记录中各字段的值以及位置,通过上述的四则运算进行加、减、乘、除运算,得到相应的平均值。所述S302和S303对应于图1实施例中的S102。
S304:将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
在执行了所述S304后,本发明实施例的所述方法还可以包括按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
根据数据记录的类型以及四则预算的翻译规则,可以快速地运算得到一个新的字段的值,不需要用户编写具有复制逻辑的代码,较好地提高了数据翻译的效率,特别是在需要对数据记录中数据字段进行求和、求平均等情况下,基本能够实现最为快速的翻译,提高翻译效率以及统计效率。
再请参见图5,是本发明实施例的基于插件翻译规则的数据记录的处理方法的流程示意图,本发明实施例的所述方法可应用于服务器中,具体的,所述方法包括:
S401:识别需要进行字段翻译的目标数据记录的数据类型。
具体基于所述目标数据记录的格式以及格式中每一个字段的内容完成数据类型的识别。
S402:从预先配置的插件翻译规则中选取与所述目标数据记录的数据类型匹配的插件规则。
所述插件规则中记录有本规则适用的数据类型、本规则的翻译插件的存储地址、本规则的翻译插件所使用的参数在数据记录中的位置以及翻译的新字段在数据记录中的记录位置。
所述插件规则是对使用者提供一个可编程的接口,通过编写程序来实现字段间的翻译。插件规则的配置和字典表规则的配置大体相似,需要配置插件的路径,插件的输入参数,插件与数据格式的关联关系,数据翻译的配置等。
使用插件需要编写一段程序,这段程序在数据翻译时将会被调用。这个翻译程序的具体接口规范可以为:int translate_process(dataId,in_array,out_array),其中dataId是表示数据格式的dataId,in_array输入的各个字段的值。out_array则是翻译后的结果值,函数的返回值表示此次翻译是否成功。
S403:调用由选取的插件规则中记录的翻译插件的存储地址所指示的翻译插件。
S404:将所述目标数据记录中由所述插件规则中的翻译插件所使用的参数在数据记录中的位置所指示位置的数据值作为输入参数,通过调用的翻译插件进行翻译,得到新字段值。
根据所述目标数据记录中各字段的值以及位置,并根据翻译插件,翻译得到新字段值。
S405:将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
所述S402至S404对应于图1实施例中的S102。在执行了所述S405后,本发明实施例的所述方法还可以包括:按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
本发明实施例在配置翻译规则时,提供了插件接口,基于数据记录的数据类型以及插件翻译规则,可以快速地翻译得到新字段值,较好地提高了数据翻译的效率。
下面对本发明实施例的一种数据记录的处理装置进行详细描述。
请参见图6,是本发明实施例的一种数据记录的处理装置的结构示意图,本发明实施例的所述装置可以设置在服务器中,具体的,所述装置包括:
识别模块1,用于识别需要进行字段翻译的目标数据记录的数据类型;
翻译模块2,用于选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值;
添加模块3,用于将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置。
对于进行数据统计的数据记录,一般包括维度字段和/或数据字段,维度字段用来标识一条数据记录中的一些字段,这些字段即所谓数据的key(关键数据),一条记录中可以有多个维度字段,在数据统计时可以对这些字段进行数据合并;数据字段用来记录指标数据的字段,例如一些延时、丢包、访问次数等,在统计中可以对这些字段进行求和、求平均、求最大值等操作。
所述识别模块1根据其中的维度字段和数据字段的个数以及位置,可以确定出需要进行字段翻译的目标数据记录的数据类型。
在本发明实施例中,所述翻译模块2所采用的翻译规则包括字典表翻译规则、四则运算翻译规则以及插件翻译规则中的任一种或者多种的组合。本发明实施例所述的字典表翻译规则中,字典表是一个映射表,可以将维度字段作为关键字key在字典表中进行搜索以查找对应的内容,将查找到的内容作为数据记录中的新内容即新的维度字段;四则运算翻译规则是通过一定的四则运算公式,具体对数据字段的内容进行运算,得到新的数据,将该新的数据作为数据记录中的新内容即新的数据字段;插件翻译规则是通过一个接口,将处理相应类型的数据记录的插件存储在指定位置,在字段翻译时根据记录的插件存储位置、所需参数来执行对应的插件得到新的内容,将该新的数据作为数据记录中的新内容即新的数据或维度字段。
其中,所述翻译模块2在翻译得到新字段值时,具体用于基于预置的字典表查找的方式翻译得到新字段值、基于四则运算的计算方式翻译得到新字段值、基于插件运算的方式翻译得到新字段值中的任一种或多种。
具体的,当预先配置的翻译规则包括字典表翻译规则时,所述翻译模块2具体可以通过如图7所示的结构翻译得到新字段值,包括:
第一选取单元21,用于从预先配置的字典表翻译规则中选取与所述目标数据记录的数据类型匹配的查找规则;
获取单元22,用于获取预先配置的字典表翻译规则中所述选取的查找规则中的字典表标识所指示的字典表;
确定单元23,用于根据所述目标数据记录的数据类型和所述选取的查找规则中的字典表标识,确定出字段关联关系;
提取单元24,用于根据选取的查找规则和所述确定出的字段关联关系,从所述获取的字典表中提取出用于记录到所述目标数据中的新字段的字段值。
其中,所述字典表翻译规则中设置有多种数据类型对应的查找规则、多个字典表以及字典表和数据的关联关系,其中:
查找规则中记录有本规则适用的数据类型、本规则所使用的字典表标识、翻译的新字段在字典表的位置以及翻译的新字段在数据记录中的记录位置;
字典表中包括字典表的标识和至少一组成映射关系的数据元素;
字段关联关系中包括:数据类型标识与字典表标识,作为字段翻译基础的数据在数据记录中的位置的第一位置标识与在字典表中的位置的第二位置标识。
所述翻译模块2通过所述的第一选取单元21、获取单元22、确定单元23以及提取模块24完成新字段的翻译可以参考上述图1至图2的实施例的描述。
其中,所述提取单元24具体的可以包括:
提取子单元,用于基于确定的字段关联关系,将所述目标数据记录中的由所述确定出的字段关联关系的第一位置标识所指示的数据确定为关键字;
搜索子单元,用于根据确定的关键字在所述获取的字典表中的由所述确定出的字段关联关系的第二位置标识所指示的数据中进行搜索;
确定子单元,用于当搜索到字典表中与该关键字相同的数据时,确定出该相同的数据对应的字典表中的一组成映射关系的数据元素;
提取子单元,用于根据选取的查找规则中包括的翻译的新字段在字典表的位置的指示,从确定出的一组成映射关系的数据元素中提取相应位置的数据元素,将该数据元素的值作为用于记录到所述目标数据中的新字段的字段值。
当所述预先配置的翻译规则包括四则运算翻译规则时,所述翻译模块2具体可以通过如图8所示的结构翻译得到新字段值,包括:
第二选取单元25,用于从预先配置的四则运算翻译规则中选取与所述目标数据记录的数据类型匹配的运算规则;
计算单元26,用于根据所述目标数据记录中各字段的值以及位置,按照所述选取的运算规则中的运算表达式进行运算,得到新字段值。
在所述四则运算翻译规则中设置有多种数据类型对应的运算规则,其中,所述运算规则记录有本规则适用的数据类型、运算表达式以及翻译的新字段在数据记录中的记录位置。
所述翻译模块2通过所述的第二选取单元25和计算单元26实现新字段的翻译可以参考上述图1和图4对应实施例的描述。
当所述预先配置的翻译规则包括插件翻译时,如图8所示,所述翻译模块2具体可以通过如图9所示的结构翻译得到新字段值,包括:
第三选取单元27,用于从预先配置的插件翻译规则中选取与所述目标数据记录的数据类型匹配的插件规则;
调用单元28,用于调用由选取的插件规则中记录的翻译插件的存储地址所指示的翻译插件;
插件执行单元29,用于将所述目标数据记录中由所述插件规则中的翻译插件所使用的参数在数据记录中的位置所指示位置的数据值作为输入参数,通过调用的翻译插件进行翻译,得到新字段值。
所述插件翻译规则中设置有多种数据类型对应的插件规则以及翻译插件,其中:所述插件规则中记录有本规则适用的数据类型、本规则的翻译插件的存储地址、本规则的翻译插件所使用的参数在数据记录中的位置以及翻译的新字段在数据记录中的记录位置。
所述翻译模块2通过所述第三选取单元27、调用单元28以及插件执行单元29完成新字段的翻译可以参考上述图1或图5对应实施例的描述。
进一步可选地,如图6所示,本发明实施例的所述装置还可以包括:
存储模块4,用于按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
所述存储模块4可以将翻译得到新字段直接存储或者进行数据统计处理后再存储到指定位置的数据库中。根据配置中的入库规则,将生成的新的数据记录或者统计结果存储到存储系统中,可以支持多样的存储,如mysql,hdfs,redis等不同类型存储系统的存储。
本发明实施例能够基于数据记录的数据类型以及预先配置的翻译规则,完成该数据记录中相关字段的翻译,得到新的字段,不必编写复杂的翻译代码,配置方式灵活,可移植性较好,提高了数据记录的字段翻译效率以及数据统计的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可基于数据记录的数据类型以及预置的各种翻译规则完成数据记录中新字段的翻译流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (20)
1.一种数据记录的处理方法,其特征在于,包括:
识别需要进行字段翻译的目标数据记录的数据类型;
选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值;
将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置;
预先配置的翻译规则包括字典表翻译规则,所述字典表翻译规则中设置有多种数据类型对应的查找规则,查找规则中记录有本规则适用的数据类型、本规则所使用的字典表标识、翻译的新字段在字典表的位置以及翻译的新字段在数据记录中的记录位置。
2.如权利要求1所述的方法,其特征在于,所述根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值中,翻译得到新字段值包括:
基于预置的字典表查找的方式翻译得到新字段值、基于四则运算的计算方式翻译得到新字段值、基于插件运算的方式翻译得到新字段值中的任一种或多种。
3.如权利要求1或2所述的方法,其特征在于,所述字典表翻译规则中设置有多个字典表以及字典表和数据的关联关系,其中:
字典表中包括字典表的标识和至少一组成映射关系的数据元素;
字段关联关系中包括:数据类型标识与字典表标识,作为字段翻译基础的数据在数据记录中的位置的第一位置标识与在字典表中的位置的第二位置标识。
4.如权利要求3所述的方法,其特征在于,所述选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值,包括:
从预先配置的字典表翻译规则中选取与所述目标数据记录的数据类型匹配的查找规则;
获取预先配置的字典表翻译规则中所述选取的查找规则中的字典表标识所指示的字典表;
根据所述目标数据记录的数据类型和所述选取的查找规则中的字典表标识,确定出字段关联关系;
根据选取的查找规则和所述确定出的字段关联关系,从所述获取的字典表中提取出用于记录到所述目标数据中的新字段的字段值。
5.如权利要求4所述的方法,其特征在于,所述根据选取的查找规则和所述确定出的字段关联关系,从所述获取的字典表中提取出用于记录到所述目标数据中的新字段的字段值,包括:
基于确定的字段关联关系,将所述目标数据记录中的由所述确定出的字段关联关系的第一位置标识所指示的数据确定为关键字;
根据确定的关键字在所述获取的字典表中的由所述确定出的字段关联关系的第二位置标识所指示的数据中进行搜索;
当搜索到字典表中与该关键字相同的数据时,确定出该相同的数据对应的字典表中的一组成映射关系的数据元素;
根据选取的查找规则中包括的翻译的新字段在字典表的位置的指示,从确定出的一组成映射关系的数据元素中提取相应位置的数据元素,将该数据元素的值作为用于记录到所述目标数据中的新字段的字段值。
6.如权利要求1或2所述的方法,其特征在于,预先配置的翻译规则包括四则运算翻译规则,所述四则运算翻译规则中设置有多种数据类型对应的运算规则,其中,
所述运算规则记录有本规则适用的数据类型、运算表达式以及翻译的新字段在数据记录中的记录位置。
7.如权利要求6所述的方法,其特征在于,所述选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值,包括:
从预先配置的四则运算翻译规则中选取与所述目标数据记录的数据类型匹配的运算规则;
根据所述目标数据记录中各字段的值以及位置,按照所述选取的运算规则中的运算表达式进行运算,得到新字段值。
8.如权利要求1或2所述的方法,其特征在于,预先配置的翻译规则包括插件翻译,所述插件翻译规则中设置有多种数据类型对应的插件规则以及翻译插件,其中:
所述插件规则中记录有本规则适用的数据类型、本规则的翻译插件的存储地址、本规则的翻译插件所使用的参数在数据记录中的位置以及翻译的新字段在数据记录中的记录位置。
9.如权利要求8所述的方法,其特征在于,所述选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值,包括:
从预先配置的插件翻译规则中选取与所述目标数据记录的数据类型匹配的插件规则;
调用由选取的插件规则中记录的翻译插件的存储地址所指示的翻译插件;
将所述目标数据记录中由所述插件规则中的翻译插件所使用的参数在数据记录中的位置所指示位置的数据值作为输入参数,通过调用的翻译插件进行翻译,得到新字段值。
10.如权利要求1所述的方法,其特征在于,还包括:
按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者
按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
11.一种数据记录的处理装置,其特征在于,包括:
识别模块,用于识别需要进行字段翻译的目标数据记录的数据类型;
翻译模块,用于选取与所述数据类型匹配的预先配置的翻译规则,根据选取的翻译规则,并根据所述目标数据记录中各字段的值以及位置,翻译得到新字段值;
添加模块,用于将所述翻译得到的新字段值添加到所述目标数据记录中由所述选取的翻译规则指示的位置;
预先配置的翻译规则包括字典表翻译规则,所述字典表翻译规则中设置有多种数据类型对应的查找规则,查找规则中记录有本规则适用的数据类型、本规则所使用的字典表标识、翻译的新字段在字典表的位置以及翻译的新字段在数据记录中的记录位置。
12.如权利要求11所述的装置,其特征在于,
所述翻译模块在翻译得到新字段值时,用于基于预置的字典表查找的方式翻译得到新字段值、基于四则运算的计算方式翻译得到新字段值、基于插件运算的方式翻译得到新字段值中的任一种或多种。
13.如权利要求11或12所述的装置,其特征在于,所述字典表翻译规则中设置有多个字典表以及字典表和数据的关联关系,其中:
字典表中包括字典表的标识和至少一组成映射关系的数据元素;
字段关联关系中包括:数据类型标识与字典表标识,作为字段翻译基础的数据在数据记录中的位置的第一位置标识与在字典表中的位置的第二位置标识。
14.如权利要求13所述的装置,其特征在于,所述翻译模块包括:
第一选取单元,用于从预先配置的字典表翻译规则中选取与所述目标数据记录的数据类型匹配的查找规则;
获取单元,用于获取预先配置的字典表翻译规则中所述选取的查找规则中的字典表标识所指示的字典表;
确定单元,用于根据所述目标数据记录的数据类型和所述选取的查找规则中的字典表标识,确定出字段关联关系;
提取单元,用于根据选取的查找规则和所述确定出的字段关联关系,从所述获取的字典表中提取出用于记录到所述目标数据中的新字段的字段值。
15.如权利要求14所述的装置,其特征在于,所述提取单元包括:
提取子单元,用于基于确定的字段关联关系,将所述目标数据记录中的由所述确定出的字段关联关系的第一位置标识所指示的数据确定为关键字;
搜索子单元,用于根据确定的关键字在所述获取的字典表中的由所述确定出的字段关联关系的第二位置标识所指示的数据中进行搜索;
确定子单元,用于当搜索到字典表中与该关键字相同的数据时,确定出该相同的数据对应的字典表中的一组成映射关系的数据元素;
提取子单元,用于根据选取的查找规则中包括的翻译的新字段在字典表的位置的指示,从确定出的一组成映射关系的数据元素中提取相应位置的数据元素,将该数据元素的值作为用于记录到所述目标数据中的新字段的字段值。
16.如权利要求11或12所述的装置,其特征在于,预先配置的翻译规则包括四则运算翻译规则,所述四则运算翻译规则中设置有多种数据类型对应的运算规则,其中,
所述运算规则记录有本规则适用的数据类型、运算表达式以及翻译的新字段在数据记录中的记录位置。
17.如权利要求16所述的装置,其特征在于,所述翻译模块包括:
第二选取单元,用于从预先配置的四则运算翻译规则中选取与所述目标数据记录的数据类型匹配的运算规则;
计算单元,用于根据所述目标数据记录中各字段的值以及位置,按照所述选取的运算规则中的运算表达式进行运算,得到新字段值。
18.如权利要求11或12所述的装置,其特征在于,预先配置的翻译规则包括插件翻译,所述插件翻译规则中设置有多种数据类型对应的插件规则以及翻译插件,其中:
所述插件规则中记录有本规则适用的数据类型、本规则的翻译插件的存储地址、本规则的翻译插件所使用的参数在数据记录中的位置以及翻译的新字段在数据记录中的记录位置。
19.如权利要求18所述的装置,其特征在于,所述翻译模块包括:
第三选取单元,用于从预先配置的插件翻译规则中选取与所述目标数据记录的数据类型匹配的插件规则;
调用单元,用于调用由选取的插件规则中记录的翻译插件的存储地址所指示的翻译插件;
插件执行单元,用于将所述目标数据记录中由所述插件规则中的翻译插件所使用的参数在数据记录中的位置所指示位置的数据值作为输入参数,通过调用的翻译插件进行翻译,得到新字段值。
20.如权利要求11所述的装置,其特征在于,还包括:
存储模块,用于按照预置的入库规则将对进行字段翻译后的目标数据记录进行数据统计后的统计结果存储到数据库;或者按照预置的入库规则将进行字段翻译后的目标数据记录存储到数据库中以便于进行数据统计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310384765.5A CN104424263B (zh) | 2013-08-29 | 2013-08-29 | 一种数据记录的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310384765.5A CN104424263B (zh) | 2013-08-29 | 2013-08-29 | 一种数据记录的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104424263A CN104424263A (zh) | 2015-03-18 |
CN104424263B true CN104424263B (zh) | 2019-03-01 |
Family
ID=52973248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310384765.5A Active CN104424263B (zh) | 2013-08-29 | 2013-08-29 | 一种数据记录的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104424263B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260475B (zh) * | 2015-10-30 | 2019-08-16 | 努比亚技术有限公司 | 一种数据查找方法、数据存储方法及相应装置 |
CN105426541B (zh) * | 2015-12-23 | 2019-03-08 | 北京奇虎科技有限公司 | 一种通用数据的存储方法和装置 |
CN105677353A (zh) * | 2016-01-08 | 2016-06-15 | 北京物思创想科技有限公司 | 特征抽取方法、机器学习方法及其装置 |
CN108460034B (zh) * | 2017-02-17 | 2020-08-04 | 平安科技(深圳)有限公司 | 保单分保合约查询匹配方法和装置 |
CN107402978A (zh) * | 2017-07-04 | 2017-11-28 | 第四范式(北京)技术有限公司 | 拼接数据记录的方法及装置 |
CN109992790B (zh) * | 2017-12-29 | 2023-09-29 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN108536437A (zh) * | 2018-03-30 | 2018-09-14 | 上海嘉银金融科技股份有限公司 | 一种业务规则的生成方法和装置 |
CN109240998B (zh) * | 2018-08-24 | 2022-03-01 | 网宿科技股份有限公司 | 可配置的文件解析方法 |
CN109508244B (zh) * | 2018-10-18 | 2021-03-12 | 北京新唐思创教育科技有限公司 | 数据处理方法及计算机可读介质 |
CN109783523B (zh) * | 2019-01-24 | 2022-02-25 | 广州虎牙信息科技有限公司 | 一种数据处理方法、装置、设备和存储介质 |
CN110502542B (zh) * | 2019-08-01 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种提高数据处理速度的优化方法及装置 |
CN112445316A (zh) * | 2019-08-27 | 2021-03-05 | 无锡江南计算技术研究所 | 基于向量计算的编译时低功耗优化方法 |
CN112347794B (zh) * | 2020-10-27 | 2023-06-09 | 深圳前海微众银行股份有限公司 | 数据翻译方法、装置、设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452549A (zh) * | 2008-12-04 | 2009-06-10 | 金蝶软件(中国)有限公司 | 一种主数量与辅数量之间的转换方法及主辅数量转换系统 |
CN101504662A (zh) * | 2009-03-13 | 2009-08-12 | 北大方正集团有限公司 | 一种转换数据的方法及装置 |
CN102012935A (zh) * | 2010-12-06 | 2011-04-13 | 江西省电力公司信息通信中心 | 通过Excel对系统之间数据治理的方法 |
CN103176989A (zh) * | 2011-12-21 | 2013-06-26 | 中国银联股份有限公司 | 基于数据字典和可变规则的数据库表级比较方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8478706B2 (en) * | 2009-01-30 | 2013-07-02 | Ab Initio Technology Llc | Processing data using vector fields |
-
2013
- 2013-08-29 CN CN201310384765.5A patent/CN104424263B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452549A (zh) * | 2008-12-04 | 2009-06-10 | 金蝶软件(中国)有限公司 | 一种主数量与辅数量之间的转换方法及主辅数量转换系统 |
CN101504662A (zh) * | 2009-03-13 | 2009-08-12 | 北大方正集团有限公司 | 一种转换数据的方法及装置 |
CN102012935A (zh) * | 2010-12-06 | 2011-04-13 | 江西省电力公司信息通信中心 | 通过Excel对系统之间数据治理的方法 |
CN103176989A (zh) * | 2011-12-21 | 2013-06-26 | 中国银联股份有限公司 | 基于数据字典和可变规则的数据库表级比较方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104424263A (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104424263B (zh) | 一种数据记录的处理方法及装置 | |
EP2597573B1 (en) | Test data generation | |
CN108268586B (zh) | 跨多数据表的数据处理方法、装置、介质和计算设备 | |
CN110896488B (zh) | 一种直播间的推荐方法以及相关设备 | |
CN109491857B (zh) | 一种基于规则引擎的数据监控方法、系统及终端设备 | |
CN107463709A (zh) | 一种基于多数据源的etl处理方法及装置 | |
KR102227593B1 (ko) | 학습-기반 그룹 태깅을 위한 시스템 및 방법 | |
CN106815226A (zh) | 文本匹配方法和装置 | |
CN111625545A (zh) | 数据融合方法、数据融合装置及存储介质 | |
CN106991090A (zh) | 舆情事件实体的分析方法及装置 | |
CN109471893B (zh) | 网络数据的查询方法、设备及计算机可读存储介质 | |
JP7015319B2 (ja) | データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム | |
CN109471874A (zh) | 数据分析方法、设备及存储介质 | |
CN110674413B (zh) | 用户关系挖掘方法、装置、设备和存储介质 | |
CN111091883B (zh) | 一种医疗文本处理方法、装置、存储介质及设备 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110457704B (zh) | 目标字段的确定方法、装置、存储介质及电子装置 | |
CN105468770A (zh) | 一种数据处理方法及系统 | |
CN105447032A (zh) | 用于处理消息与订阅信息方法和系统 | |
US10929441B1 (en) | System and techniques for data record merging | |
CN104572921B (zh) | 一种跨数据中心的数据同步方法和装置 | |
WO2016119508A1 (zh) | 基于Spark系统的大规模对象识别方法 | |
CN106803202B (zh) | 一种待测试交易记录的提取方法和装置 | |
CN109542986B (zh) | 网络数据的要素归一化方法、装置、设备及存储介质 | |
JPWO2019123704A1 (ja) | データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190731 Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Co-patentee after: Tencent cloud computing (Beijing) limited liability company Patentee after: Tencent Technology (Shenzhen) Co., Ltd. Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403 Patentee before: Tencent Technology (Shenzhen) Co., Ltd. |
|
TR01 | Transfer of patent right |