具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种日志数据的处理方法,如图1所示,该方法具体步骤包括:
101、根据异构日志数据表中包含的行为构成要素设置同构行为数据表的数据结构,并根据该同构行为数据表的数据结构生成行为数据转换代码框架。
异构日志数据表是指多个数据表的数据结构存在较大的不同,如字段个数、顺序、名称等内容,因此,这些日志数据表中所包含的行为数据,即使是相同的行为信息,但在不同数据表中就会有不同的数据存储结构,导致获取和使用的不便。本步骤就是要在从异构日志数据表中获取行为数据信息之前,设置一个统一的表示行为数据的数据结构,通过该数据结构来存储不同日志数据表中的行为数据信息。
设置同构行为数据表的数据结构需要定义不同行为的分类,以及描述一个行为的行为构成要素。一般情况下,能够完整、全面地描述一个行为所必须的要素包括:行为主体、时间、环境、行为客体、场景、事件,这6个基本行为构成要素。通过对行为的分类可以将不同日志数据表中的行为数据信息进行有效的分组,而通过对行为构成要素的排列组合就可以确定一个通用的描述行为数据信息的数据结构。将该数据结构应用于行为数据表中就可以得到同构行为数据表。
同构行为数据表的生成,需要基于通用行为数据信息的数据结构所编制的行为数据转换代码框架。而行为数据转换代码框架的编制,还需要对行为数据信息中的各个行为构成要素进行有效的编码,以供该代码框架能够形成可执行的有效代码生成同构行为数据表。因此,本步骤中,还需要设置行为构成要素的编码规则,以及行为数据表的命名规则。其中,行为数据表的命名规则用于定义所生成的同构行为数据表的名称,而一个优秀的命名规则能够让用户以最简单的检索方式获取所需要数据表。
可见,本步骤是对同构行为数据表的数据结构标准进行定义,同时根据所定义的数据结构制定相应的行为数据转换代码框架,为后续的行为数据的采集、转化设置标准。
102、解析异构日志数据表内的行为数据信息。
由于异构日志数据表是指多个具有不同数据结构的日志数据表中的一个,并且该日志数据表包含有用户至少一种的行为数据信息,因此,在解析异构日志数据表内的行为数据信息时,需要对每个异构日志数据表逐个地进行行为数据信息的解析。
其中,在解析行为数据信息时,需要根据步骤101中所设置的相关标准进行解析,包括有:根据101中设置的行为分类确定行为数据信息的具体类别,分析该行为数据信息中对应行为构成要素的各个字段的取值,再根据对应的编码规则对该行为数据信息中的各个行为构成要素进行有效编码,以及对该行为数据信息最终所存储的同构行为数据表根据命名规则确定对应的数据表名称。
103、将行为数据信息添加到行为数据转换代码框架内的对应位置中,得到数据转换的可执行代码。
行为数据转换代码框架能够根据添加的行为数据信息生成一组可执行代码。需要说明的是,该行为数据转换代码框架所添加的行为数据信息应为同一行为类别下的行为信息,也就是说,在向代码框架中所添加的行为数据信息可以是源自不同日志数据表中的行为信息数据,但这些行为信息数据需要满足属于同一个行为类别。虽然该行为数据转换代码框架不能同时添加不同类别的行为数据信息,但该行为据转换代码框架能够适用于各种不同种类的行为数据信息的转换,即能够将同一类的行为数据信息生成一个同构行为数据表,也可以通过多次执行将不同类别的行为数据生成多张同构行为数据表,每一张数据表中存储的是同一类别的行为数据信息。因此,该行为数据转换代码框架适用于所规定的所有类别的行为数据,具有一定的通用性。在实际应用中,该行为数据转换代码框架的通用性就体现在应用该框架进行行为数据转换的用户可以将该框架应用于不同的业务场景中,而无需根据不同的业务需求制定不同的代码框架。
104、执行可执行代码得到一张以相同数据结构存储行为数据信息的同构行为数据表。
执行步骤103得到的可执行代码,将所输入的同一类行为数据信息按照步骤101所设定的数据结构生成一张同构行为数据表。需要说明的是,所谓的同构行为数据表,是指具有相同的数据结构并且存储行为数据的数据表,每次执行该可执行代码都会得到相应行为类别的行为数据表,通过反复执行该可执行代码,能够得到存储有不同行为类别数据的行为数据表,而这些行为数据表都具有相同的数据结构,因此,在本发明实施例中是将这些具有相同数据结构的多张行为数据表称为同构行为数据表。
结合上述的实现方式可以看出,本发明实施例所采用的一种日志数据的处理方法,通过建立统一的行为数据的数据结构标准,将日志数据表中的行为数据信息进行提取、分类、存储为标准的同构行为数据表。能够将用户在各种网站、计算机应用、手持设备应用及其他介质中进行操作时所生成的包含有行为数据信息的众多异构日志数据处理为具有清晰分类标准,以及统一、规范的数据结构的行为数据。以使得数据工程师具有了一套统一的行为数据的处理方法,不再需要针对不同的业务开发数据结构不同的行为数据表,提高行为数据表的开发及使用效率。同时,对于行为数据的使用者,由于行为数据信息被处理为相同的数据结构并根据统一的命名规则进行命名存储,使得使用者能够根据统一的检索规则进行数据检索,降低了数据消费者的使用门槛,并且,由于同构行为数据表所具有的良好通用性,使得使用者不需要再对数据表进行修改或加工,减少了数据表副本的出现,也大大降低了企业存储数据的成本。
为了更加详细地说明本发明提出的一种日志数据的处理方法,本发明实施例将对上述步骤的具体实现逐一说明,尤其说明对同构行为数据表的数据结构进行设置的具体过程,如图2所示,该方法具体包括:
201、根据异构日志数据表中包含的行为构成要素设置同构行为数据表的数据结构。
具体设置同构行为数据表的数据结构主要从如下几个方面进行:
1、根据异构日志数据表中的行为种类按照层级递进关系设置行为分类规则。
本发明实施例中所设置的行为种类是根据异构日志数据表中所含有的行为种类确定的,在实际应用中,行为分类规则中的行为种类一般是根据客户(企业)在所有业务中所产生的所有行为种类确定的。因此,在定义该分类规则时,应尽量全面地统计所有的行为种类,确保在该分类规则中能够涵盖用户操作产生的所有行为。
在确定行为种类后,将这些行为种类按照层级递进的关系确立行为关系,具体可通过N级类目的方式进行表示,根据具体的场景,N可以灵活取值,以能容易地归类各种行为为原则,如图3所示的一种N级行为的分类方法,同一级的行为可以对应不同的行为场景,将第一级到第N级的行为串联起来即可表示用户的一个具体行为。例如,当N取值为3时,行为被分为三级,第一级中可以设置消费、出行、娱乐等不同的行为大类,第二级是对第一级的细化,如在消费中还包括线上购物、生活便民消费等,第三级则是对第二级的进一步细化,如在线上购物中还可分为支付、收藏、浏览等行为。如此,对于一个在网上购买商品的行为,可以通过层级递进的串联就可以表示为“消费-线上购物-支付”这样一个行为。通过这种N级类目所表示的行为,就能够区分出异构日志数据表中的行为数据信息,并将属于同一种的行为生成一张同构行为数据表。
设置行为分类规则的目的在于明确地区分不同种类的行为,另每一种行为都有一个唯一的表示方式,同时也可以方便用户根据该行为分类规则检索所需的行为数据信息。
2、设置描述行为数据信息的行为构成要素。
本发明实施例中所设置的行为构成要素,采用行为主体、时间、环境、行为客体、场景、事件这6个基本要素来描述一个行为的基本数据信息,其中,前5个要素均是用来描述“事件”要素的,而“行为客体”要素是指行为实施的对象,一个具体的行为可以对应多个客体,例如:小A在店铺B购买了一件商品C,“店铺B”和“商品C”是该购买行为的客体;“环境”要素进一步包括用户行为发生的地点、媒介信息(例如设备类型、网络类型等)和天气信息;“场景”要素即用户发生行为的网站名、应用名或应用内的功能名,比如:小A在网店上购买了一件商品,那么场景即“网店”。
需要说明的是,当无法根据已有信息获取某个要素的信息时,可以将对应要素的取值置为空。一般情况下,大部分的行为均可拆解为这6个基本行为构成要素,例如:“小A周日上午在家里用手机通过口碑外卖APP购买了一份黄焖鸡米饭”,所对应的6个要素可以拆解为:行为主体:小A;时间:周日上午;环境(地点):家;环境(媒介):手机;环境(天气):给定描述中没有提到天气信息,故为空;事件:购买;行为客体:黄焖鸡米饭;场景:口碑外卖APP。由此可见,该方法具有普遍通用性。
3、根据行为分类规则和行为构成要素确定同构行为数据表的数据结构。
针对分类规则中所存在的行为种类,根据上述的6个行为构成要素就可以设置一个标准的同构行为数据表的数据结构,如表1所示,对于其中的字段名中带有attr的字段,可根据需要自定义字段的物理意义和对这些字段进行新的命名(对于不带attr关键词的字段,为了一致性考虑,则不建议更换名称),原则是所设置的字段能满足绝大多数应用场景的需求。
其中,时间、环境、行为客体要素的字段可根据应用场景进行自定义设置。例如:时间要素字段,除了最基础的时间戳外,还可以有“是否工作日”、“星期”等字段;环境要素字段中的地点字段,除了最基础的经纬度外,还可以有“省份”、“城市”、“区域”等字段;环境要素字段中的媒介字段可以包括“设备型号”、“设备操作系统”、“网络类型”等;环境要素字段中的天气字段可以包括“天气状况”、“温度”、“空气质量”等;行为客体要素字段用于描述某个具体行为的客体属性,例如:小A在网店购买了一件商品,那么描述商品和店铺的字段均可以出现在客体要素字段中。
表1:同构行为数据表的数据结构示例
4、设置行为构成要素的编码规则。
通过设置编码规则不仅可以区分同构行为数据表中的不同行为数据信息,更重要的是在后续的行为数据转换代码框架中需要添加对应的编码信息。
由于时间与环境要素自身就具有较明显的区别,因此,本发明实施例中主要是对行为主体、行为客体、场景和事件这4个要素设置编码规则。具体规则方案如下:
(1)、行为主体编码方案
一般地,网站、计算机应用、手持设备应用及其他介质均有自己的账户体系,可将对应的账户id作为主体编码。通常,同一个公司旗下可能会有多个产品,这些产品通常拥有各自的账户体系,如果需要对整个公司的行为数据进行统一管理,就有必要将不同的账户体系映射到同一套体系中,并以统一映射后的账户id作为主体编码。例如:某公司的产品A和产品B拥有不同的账户体系,可以将产品B的账户体系映射到账户A的账户体系中,最后统一用产品A的账户体系表示产品A和产品B中的用户行为,具体的映射方法也被广泛应用属于现有技术,具体实现不在此赘述。
(2)、行为客体编码方案
根据客体对象的个数进行顺序编码,即直接对网站、计算机应用、手持设备应用及其他介质中存在的对象进行顺序编号,采用n位阿拉伯数字编码(n的取值可根据对象的多少来定,通常可取值2)。例如:商品可编码为01,店铺编码为02,等等。
(3)、场景编码方案
根据不同一级事件类目中的所有场景进行顺序编码,从s01进行顺序编码。
(4)、事件编码方案
主要是基于行为分类规则以及场景对事件进行编码,即将事件中各级行为的编码以及场景编码进行拼接,以达到对该事件生成一个唯一编码。其中,加入场景编码主要是考虑到相同行为可能会在不同场景下产生。
这是因为,当场景唯一时,单独使用事件中各级行为的编码拼接就可以对该事件进行唯一表示。但当场景有多个时,由于同一个行为可能出现在不同的“场景”中,例如:某公司旗下有3款线上购物类的消费产品,分别是产品A,产品B和产品C。产品A、产品B和产品C即对应3种不同的场景,用户在这3种场景中均会产生支付行为,如果直接对各级行为类目的编码进行简单拼接(假如三级类目分别为:消费-线上购物-支付,且“消费”的编码为101,“线上购物”的编码为01,“支付”的编码为07,那么直接拼接后得到编码1010107),则用户在3个不同场景中的支付事件编码是一样的,无法区分该支付行为是在哪个场景下产生的,使得事件编码失去唯一性。因此,针对多场景的情况,可以在事件编码中加入场景编码,例如产品A对应的场景编码为s01,产品B对应的场景编码为s02,产品C对应的场景编码为s03,此时即可明确区分不同场景中的相同行为,三个不同场景中的相同事件编码依次为:1010107s01,1010107s02,1010107s03。
(5)、设置行为数据表的命名规则。
根据行为数据表中包含的行为分类的层级类目以及场景名设置行为数据表的名称。具体的命名规则是:对每级行为类目和场景名分别设置一个缩写,针对某个具体的行为,将各级行为类目的缩写及场景的缩写以“_”符号拼接即可。例如,行为以3级类目进行表示,各级类目的缩写分别为level1,level2和level3,场景的缩写为scene,那么可将对应的行为表命名为:pre_level1_level2_level3_scene_suffix,其中pre和suffix部分可以自定义给定。其中,当行为是“消费-O2O-支付”时,所对应的各级类目的缩写可以是:csm(消费)、o2o(O2O)、pay(支付),场景为“口碑”,所对应的缩写为koubei,那么,记录该行为的行为表的名称就可以命名为:dwd_csm_o2o_pay_koubei_di,其中,dwd表示该行为数据表在对应企业中所处的数据架构层,di表示该行为数据表的属性(如日增量表、全量表、维度表等等)。这样命名的好处在于:如果数据的使用者希望检索所有属于场景scene的行为表,那么只检索“scene”关键词即可得到想要的所有表;如果数据的使用者希望得到所有属于“level1”类目的行为表,只检索“level1”关键词即可得到想要的所有表,如此可以大大提升了数据使用者检索数据表的效率。
202、根据同构行为数据表的数据结构生成行为数据转换代码框架。
根据表1所示的同构行为数据表的数据结构,本发明实施例对应该数据结构给出一个行为数据转换代码框架的示例伪代码以供参考,如表2所示。
表2:行为数据转换代码框架的示例伪代码
203、解析异构日志数据表内的行为数据信息。
针对每个异构日志数据表进行的解析内容主要包括:
1、根据行为分类规则确定异构日志数据表中行为数据信息所属的分类,得到该行为对应的一级事件名,二级事件名和三级事件名,以及场景名。其中,所获取的事件名的级别是根据日志数据中的行为数据信息与分类规则的对应关系所确定的,应根据实际情况确定行为所对应的行为事件名。
2、解析行为数据信息中对应行为构成要素的字段,即能直接或间接描述表1中数据结构的字段。
3、根据行为构成要素的编码规则对解析得到的字段进行编码,得到具有唯一性的编码。
4、根据行为数据表的命名规则对该行为数据信息对应生成的同构行为数据表进行命名。
204、将行为数据信息添加到行为数据转换代码框架内的对应位置中,得到数据转换的可执行代码。
将步骤203所解析出的行为数据信息添加到行为数据转换代码框架内的对应位置中,其中,解析得到的行为构成要素的字段包括有能直接或间接描述表1中数据结构的字段。对于添加这些字段的内容需要根据如下的流程进行操作:
1、判断表2中行为数据转换代码框架中需要加入的字段信息是否存在于解析的行为数据信息中。其中,加入表2中的字段的内容是以加粗的字体进行显示。即判断来源表中的某字段所表达的行为要素内容与表2中所需的行为要素内容是否相同。
2、若存在,就将该字段信息添加至表2中,需要说明的是,在添加前还需要对该字段信息进行进一步核实,确认该字段信息所表达的意思相同,即该字段所表达的行为要素内容,相同则可不做任何处理直接添加,若不同,则需要对该字段信息进行处理,得到符合表2中字段信息所要表达意思的取值后再添加到表2中。例如,可以根据经纬度的信息计算得到事件发生的省份、城市等信息,其具体的处理方式将在下面的举例中加以说明。
3、若不存在,就在表2的对应位置中赋空值。
完成上述的行为数据信息加载后,表2中的代码框架就生成了一套可执行代码。
205、执行可执行代码得到一张以相同数据结构存储行为数据信息的同构行为数据表。
执行步骤204所生成的可执行代码,就可以生成一张以相同数据结构存储行为数据信息的同构行为数据表。
结合上述的方法,根据本发明实施例提出的一种日志数据的处理方法,以下将以实际应用进行举例说明:
假设企业A拥有很多种不同的业务及产品,涵盖了日常生活的方方面面(消费、社交、金融等),针对该企业生成同构行为数据的流程如下:
第一,对企业A用户的行为进行分类,根据假设,对企业A的用户行为分类采用3级比较合适。假定如图4所示的行为分类是适用于企业A的一种行为分类方法。
其中一级行为可分为8个大类:消费、出行、社交、金融活动、求助、账户操作、娱乐、公益行为。二级行为可针对业务情况进行细分,例如“消费”下面可再细分为线上购物、O2O消费和生活便民消费;三级行为需要根据特定的产品功能进行细分,例如线上购物可以再分为搜索、浏览、收藏、支付等行为。
第二,对用户行为进行6要素定义,所定义的6个基本行为构成要素为:行为主体、时间、环境、行为客体、场景、事件。并根据所定义的6要素制定一种适用于企业A的同构的行为表数据结构,如下表3所示:
表3:企业A的同构的行为表数据结构示例
与表1相比,其中的带有attr关键词的字段可以根据业务需要灵活决定字段的物理意义和对这些字段进行新的命名。对本例来说,对不同的业务,可以对object_attr_1系列的字段灵活决定字段的物理意义和对这些字段进行新的命名。表3里面已经将表1中部分带有attr关键词的字段进行了改变,例如time_is_workday和time_week分别代替了表1中的time_attr_1和time_attr_2,目的是可以从字段命名直观体会其代表的物理意义。
第三,设置适用于企业A的行为主体、行为客体、场景和事件要素的编码方案及行为数据表命名方案。
行为主体编码:采用企业A中应用最广泛的账户体系Z作为行为主体编码,如企业A有多套不同的账户体系,统一映射为账户体系Z。
行为客体编码:直接对网站、计算机应用、手持设备应用及其他介质中存在的对象进行顺序编号,采用2位阿拉伯数字编码,如表4所示:
表4:一种适用于企业A的行为客体编码方案
客体名 |
客体编码 |
未知 |
00 |
用户 |
01 |
搜索词 |
02 |
商品 |
03 |
店铺 |
04 |
广告 |
05 |
页面 |
06 |
消息 |
07 |
订单 |
08 |
评价内容 |
09 |
路线 |
10 |
…… |
…… |
其中,对行为客体对象的名称采用自定义的方式设置,其数量则根据企业A的业务情况来确定,不做上限设定。
场景编码:对不同一级行为类目中的所有场景从s01进行顺序编码,例如企业A的所有产品中,属于“消费”类别的有3个,分别是产品A,产品B和产品C;属于“出行”类别的有2个,分别是产品D和产品E。那么在“消费”类别下,对A,B,C三个产品对应的场景编码为s01,s02和s03;同样地,在“出行”类别下,对D和E两个产品对应的场景编码为s01和s02。如后续有新的产品出现,在所属的一级行为类目中直接顺序增加即可。
事件编码:由于企业A的场景很多,故采用如下事件编码方案:基于所述的行为分类方法对事件进行编码,并加入场景编码,以区分不同场景中的相同行为。
行为数据表命名方案:假如某3级类目的缩写分别为level1,level2和level3,场景的缩写为scene,那么可将对应的行为表命名为:
pre_level1_level2_level3_scene_suffix,其中pre和suffix部分可以自定义设置。
第四,根据第二步所设定的行为数据表的数据结构,制定通用的行为数据信息转换代码框架,该代码框架的示例伪代码如表5所示:
表5:企业A行为数据信息转换代码框架的示例伪代码
第五,解析异构日志数据表中的行为数据信息。
假定待处理的异构日志数据表中的数据描述的是用户在A场景中的消费-线上购物-支付行为,且部分字段信息如表6所示:
表6:异构日志数据表示例
针对表6的异构日志数据表,需要根据图4中的分类方法确定该异构日志数据表中描述的用户行为所属的类别,得到该行为对应的一级事件名(消费),二级事件名(线上购物)和三级事件名(支付),以及解析出场景名(A场景)。
再从该异构日志数据表(表6)中解析得到能直接或间接描述行为数据表的数据结构(表3)的字段;对表6而言,所有的9个字段均是能直接或间接描述表3中所述的行为数据表的数据结构的字段;
按照第三步对行为主体、行为客体、场景和事件的编码规则,对各自对应的字段分别生成唯一的编码,并根据命名规范对所生成的行为数据表进行命名(例如可以命名为:dwd_csm_osh_pay_di,其中dwd为表名的前缀部分,csm表示消费,osh表示线上购物,pay表示支付,di是表名的后缀部分)。
第六,将第五步解析得到的全部信息相应填充到代码框架表5中对应位置。
其中,将解析得到的能直接或间接描述行为数据表的数据结构的字段,根据以下3种情况将每个来源字段对应添加到表5中的process()函数:
1、若来源表(异构日志数据表)中某字段的值可以直接拿来用,那么process()函数对来源字段的值不进行任何处理,直接将该值赋值给目标表(表3)的相应字段;例如,来源日志表中的userid字段的取值可以直接作为目标表中的user_id字段值,来源日志表中的time字段的取值可以直接作为目标表中的time_stamp字段值,来源日志表中的longitude字段的取值可以直接作为目标表中的env_loc_longitude字段值,来源日志表中的latitude字段的取值可以直接作为目标表中的env_loc_latitude字段值,来源日志表中的os字段的取值可以直接作为目标表中的env_medium_device_os字段值,来源日志表中的network字段的取值可以直接作为目标表中的env_medium_network字段值,来源日志表中的pay_total_amt字段的取值可以直接作为目标表中的object_attr_1字段值,来源日志表中的pay_real_amt字段的取值可以直接作为目标表中的object_attr_2字段值,来源日志表中的shop_name字段的取值可以直接作为目标表中的object_attr_3字段值。
2、若来源表中不存在所需的数据,那么process()函数直接返回空值,并赋值给目标表的相应字段;对于表6所示的例子而言,来源表中没有可以用来描述目标表中env_weather,env_weather_temp,env_weather_air_quality,env_medium_device_type和env_medium_channel_entry这5个字段,因此对应的process()函数直接返回空值。
3、若来源表中存在某字段,但其值需要进行一些处理方可使用,那么process()函数对来源字段值进行特定处理后,再赋值给目标表的相应字段。对于表6所示的例子而言,可以对来源日志表中time字段值进行相应计算得到目标表所需的time_is_workday和time_week字段,对来源日志表中的longitude和latitude字段值进行相应计算得到目标表所需的env_loc_province_id,env_loc_province_name,env_loc_city_id和env_loc_city_name4个字段。
将所有解析得到的全部信息相应填充到代码框架表5中对应位置后,该代码框架就可以形成得到同构行为数据表的可执行代码。
第七,执行根据表5生成的可执行代码,生成一张包含有多张异构日志数据表中具有相同行为种类的同构行为数据表,如表7所示:
表7:同构行为数据表的数据结构示例
其中,表6中的数据信息记录在该表的第100数据中。并且,在第一条数据中字段longitude、latitude和os的值为空值,有可能是因为在来源异构日志数据表中并没有记录与这3个字段相关的信息内容。
进一步的,作为对上述方法的实现,本发明实施例提供了一种日志数据的处理装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图5所示,具体包括:
设置单元31,用于根据异构日志数据表中包含的行为构成要素设置同构行为数据表的数据结构,所述异构日志数据表是具有不同数据结构的多张日志数据表;
生成单元32,用于根据所述设置单元31设置的同构行为数据表的数据结构生成行为数据转换代码框架;
解析单元33,用于解析所述异构日志数据表内的行为数据信息;
添加单元34,用于将所述解析单元33得到的行为数据信息添加到所述生成单元32生成的行为数据转换代码框架内的对应位置中,得到数据转换的可执行代码;
执行单元35,用于执行所述添加单元34生成的可执行代码得到一张以相同数据结构存储行为数据信息的同构行为数据表。
进一步的,如图6所示,所述设置单元31包括:
第一设置模块311,用于根据所述异构日志数据表中的行为种类按照层级递进关系设置行为分类规则;
第二设置模块312,用于设置描述所述行为数据信息的行为构成要素;
确定模块313,用于根据所述第一设置模块设置311的行为分类规则和所述第二设置模块312设置的行为构成要素确定同构行为数据表的数据结构;
第三设置模块314,用于设置所述行为构成要素的编码规则,以便区分同构行为数据表中的不同行为数据信息;
第四设置模块315,用于设置所述行为数据表的命名规则。
进一步的,所述第二设置模块312设置的描述行为数据信息的行为构成要素包括:行为主体、时间、环境、行为客体、场景、事件。
进一步的,所述第三设置模块314还用于:
对行为客体要素的编码是根据客体对象的个数进行顺序编码;
对场景要素的编码是根据不同一级事件类目中的所有场景进行顺序编码;
对事件要素的编码是将所述事件中各级行为的编码以及场景编码进行拼接,以达到对所述事件生成一个唯一编码。
进一步的,所述第四设置模块315还用于,根据所述行为数据表中包含的行为分类的层级类目以及场景名设置所述行为数据表的名称。
进一步的,如图6所示,所述解析单元33包括:
确定模块331,用于根据所述行为分类规则确定所述异构日志数据表中行为数据信息所属的分类;
解析模块332,用于解析所述行为数据信息中对应行为构成要素的字段;
编码模块333,用于根据所述行为构成要素的编码规则对所述字段进行编码;
命名模块334,用于根据所述行为数据表的命名规则对所述行为数据信息对应生成的同构行为数据表进行命名。
进一步的,如图6所示,所述添加单元34包括:
判断模块341,用于判断所述行为数据转换代码框架中需要加入的字段信息是否存在于所述行为数据信息中;
添加模块342,用于当所述判断模块341判断存在所述字段信息时,将所述字段信息添加至所述行为数据转换代码框架内的对应位置中;
赋值模块343,用于当所述判断模块341判断不存在所述字段信息时,在所述行为数据转换代码框架内的对应位置中赋空值。
进一步的,所述添加模块342还用于,根据所述行为数据转换代码框架所需字段信息的取值要求,对所述行为数据信息中对应的字段信息进行处理后再添加至所述行为数据转换代码框架内的对应位置中。
综上所述,本发明实施例所采用的日志数据的处理方法及装置,通过建立统一的行为数据的数据结构标准,将日志数据表中的行为数据信息进行提取、分类、存储为标准的同构行为数据表。能够将用户在各种网站、计算机应用、手持设备应用及其他介质中进行操作时所生成的包含有行为数据信息的众多异构日志数据处理为具有清晰分类标准,以及统一、规范的数据结构的行为数据。以使得数据工程师具有了一套统一的行为数据的处理方法,不再需要针对不同的业务开发数据结构不同的行为数据表,提高行为数据表的开发及使用效率。同时,对于行为数据的使用者,由于行为数据信息被处理为相同的数据结构并根据统一的命名规则进行命名存储,使得使用者能够根据统一的检索规则进行数据检索,降低了消费者的使用门槛,并且,由于同构行为数据表所具有的良好通用性,使得使用者不需要再对数据表进行修改或加工,减少了数据表副本的出现,也大大降低了企业存储数据的成本。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。