数据分析方法及装置
技术领域
本申请涉及数据处理领域,尤其涉及一种数据分析方法及装置。
背景技术
随着信息技术的快速发展,手机、平板电脑、计算机等终端设备得到了广泛的应用,而安装在终端设备上的各种业务平台也得到了快速的发展,并得到了广泛的应用。并且,针对每种业务类型,一般都会存在多个相应的业务平台,例如,购物类业务平台、导航类业务平台、外卖类业务平台等。
而针对具有相同业务类型的不同的业务平台,可能会存在某些重叠的业务,因此,为了便于业务平台的运营或者发展,可能会需要与其他业务平台上的信息进行比较。现阶段,一般通过人业务平台进行相关数据的搜索并比较,效率较低、并且容易出错。
因此,亟需提出一种数据分析方法,以实现高效的对不同业务平台上的数据进行比较。
发明内容
本说明书实施例的目的是提供一种数据分析方法及装置,在获取到每个待分析业务平台上与目标对象相关的原始数据后,通过对该原始数据进行语义分析的方式,确定目标对象的属性相关信息,从而将该目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,实现了不同平台上相关数据的自动化分析,提高了数据比较的效率,并且准确性较高。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供了一种数据分析方法,包括:
分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,所述待分析业务平台具有相同类型的业务;
对所述原始数据进行语义分析,以确定所述目标对象在每个所述待分析业务平台上的属性相关信息;
将所述目标对象在每个所述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
本说明书实施例还提供了一种数据分析方法,包括:
获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,所述第一类业务平台与所述第二类业务平台具有相同类型的业务;从所述第一类业务平台上获取的所述第一原始数据的数据格式为标准格式;
对所述第一原始数据进行语义分析,确定所述商品优惠信息在所述第一类业务平台上的第一属性相关信息;以及对所述第二原始数据进行格式标准化处理和语义分析,确定所述商品优惠信息在所述第二类业务平台上的第二属性相关信息;
比较所述第一属性相关信息和所述第二属性相关信息,得到所述商品优惠信息在所述第一类业务平台和所述第二类业务平台上的优惠程度。
本说明书实施例还提供了一种数据分析装置,包括:
第一获取模块,分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,所述待分析业务平台具有相同类型的业务;
分析模块,对所述原始数据进行语义分析,以确定所述目标对象在每个所述待分析业务平台上的属性相关信息;
第一比较模块,将所述目标对象在每个所述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
本说明书实施例还提供了一种数据分析装置,包括:
第二获取模块,获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,所述第一类业务平台与所述第二类业务平台具有相同类型的业务;从所述第一类业务平台上获取的所述第一原始数据的数据格式为标准格式;
处理模块,对所述第一原始数据进行语义分析,确定所述商品优惠信息在所述第一类业务平台上的第一属性相关信息;以及对所述第二原始数据进行格式标准化处理和语义分析,确定所述商品优惠信息在所述第二类业务平台上的第二属性相关信息;
第二比较模块,比较所述第一属性相关信息和所述第二属性相关信息,得到所述商品优惠信息在所述第一类业务平台和所述第二类业务平台上的优惠程度。
本说明书实施例还提供了一种数据分析设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,所述待分析业务平台具有相同类型的业务;
对所述原始数据进行语义分析,以确定所述目标对象在每个所述待分析业务平台上的属性相关信息;
将所述目标对象在每个所述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
本说明书实施例还提供了一种数据分析设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,所述第一类业务平台与所述第二类业务平台具有相同类型的业务;从所述第一类业务平台上获取的所述第一原始数据的数据格式为标准格式;
对所述第一原始数据进行语义分析,确定所述商品优惠信息在所述第一类业务平台上的第一属性相关信息;以及对所述第二原始数据进行格式标准化处理和语义分析,确定所述商品优惠信息在所述第二类业务平台上的第二属性相关信息;
比较所述第一属性相关信息和所述第二属性相关信息,得到所述商品优惠信息在所述第一类业务平台和所述第二类业务平台上的优惠程度。
本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,所述待分析业务平台具有相同类型的业务;
对所述原始数据进行语义分析,以确定所述目标对象在每个所述待分析业务平台上的属性相关信息;
将所述目标对象在每个所述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,所述第一类业务平台与所述第二类业务平台具有相同类型的业务;从所述第一类业务平台上获取的所述第一原始数据的数据格式为标准格式;
对所述第一原始数据进行语义分析,确定所述商品优惠信息在所述第一类业务平台上的第一属性相关信息;以及对所述第二原始数据进行格式标准化处理和语义分析,确定所述商品优惠信息在所述第二类业务平台上的第二属性相关信息;
比较所述第一属性相关信息和所述第二属性相关信息,得到所述商品优惠信息在所述第一类业务平台和所述第二类业务平台上的优惠程度。
通过本实施例中的技术方案,在获取到每个待分析业务平台上与目标对象相关的原始数据后,通过对该原始数据进行语义分析的方式,确定目标对象的属性相关信息,从而将该目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,实现了不同平台上相关数据的自动化分析,提高了数据比较的效率,并且准确性较高。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的数据分析方法的第一种方法流程图;
图2为本说明书实施例提供的数据分析方法的第二种方法流程图;
图3为本说明书实施例提供的数据分析方法的第三种方法流程图;
图4为本说明书实施例提供的数据分析方法的流程示意图;
图5为本说明书实施例提供的数据分析方法的第四种方法流程图;
图6为本说明书实施例提供的数据分析装置的第一种模块组成示意图;
图7为本说明书实施例提供的数据分析装置的第二种模块组成示意图;
图8为本说明书实施例提供的数据分析设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书实施例提供了一种数据分析方法,通过本说明书实施例提供的方法,可以实现对不同业务平台上的数据进行自动化分析、比较,提高了数据分析、比较的效率和准确性。
图1为本说明书实施例提供的数据分析方法的第一种方法流程图,图1所示的方法至少包括如下步骤:
步骤102,分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,上述待分析业务平台具有相同类型的业务。
其中,上述待分析业务平台可以为安装在手机、平板电脑、计算机等终端设备上的应用程序;上述目标对象可以为待分析业务平台上的优惠券、商品、店铺、用户评论信息等。
待分析业务平台的业务类型相同具有相同类型的业务,一般指的是待分析业务平台可以处理某种相同类型的业务。例如,购物类业务平台、外卖类业务平台、导航类业务平台等。
具体的,在本说明书实施例中,可以利用网络爬虫爬取待分析业务平台上与目标对象相关的原始数据。例如,可以采用Nutch、Crawler4j、WebMagic、Scrapy、WebCollector等分布式开源框架从待分析业务平台上爬取与目标对象相关的原始数据。
另外,在通过网络爬虫从各待分析业务平台上爬取数据时,一般爬取的为该待分析业务平台上的网页原始数据,针对不同的待分析业务平台,数据的格式可能不同,因此,通过网络爬虫从各个待分析业务平台上采集的数据格式可能并不相同,例如,从某个待分析业务平台上爬取的原始数据可能为超文本标记语言(HyperText Markup Language,HTML)格式,从另外一个待分析业务平台上爬取的原始数据可能为JSON格式。这样,不利于后续数据分析比较的过程,并且,某些格式的数据不能直接进行利用,可能会影响后续数据分析比较结果的准确性。
因此,在本说明书实施例中,在获取到各待分析业务平台上与目标对象相关的原始数据后,还需要对上述原始数据进行格式标准化处理,即将各个待分析业务平台所对应的原始数据的格式转换为统一的格式。具体的,本说明书实施例提供的方法还包括:
针对每个原始数据,对该原始数据进行解析,生成上述目标对象所对应的结构化数据;并对上述结构化数据的数据格式进行格式标准化处理。
在本说明书实施例中,由于是对各个待分析业务平台上与目标对象相关的数据进行比较,因此,为了便于后续对与目标对象相关的数据进行分析,在本说明书实施例中,可以对上述每个原始数据进行解析,从每个原始数据中提取出与目标对象相关的信息,并根据提取出的相关信息生成针对目标对象的结构化数据。
具体的,生成针对目标对象的结构化数据可以为以表格的形式展示与目标对象相关的信息。
为便于理解,下述将举例进行说明。
例如,在一种具体实施方式中,需要对某些业务平台上所投放的优惠券信息进行比较,即上述目标对象为各个平台上的优惠券。首先,可以通过网络爬虫分别从上述各个平台上采集的与优惠券相关的原始数据,一个平台对应一个原始数据,其中,该原始数据可以包括优惠券的优惠信息以及优惠券的适用店铺信息。然后,对爬取的原始数据进行解析,提取出与优惠券相关的字段,具体的,可以为优惠券的名称、优惠券的优惠信息、优惠券的有效期限、优惠券的适用条件、优惠券的适用店铺以及该店铺的地理位置信息等字段。在提取到上述优惠券相关信息后,将上述提取的信息以表格的形式进行展示,即得到针对目标对象的结构化数据。
另外,在将目标对象在各个待分析业务平台上的原始数据转换为结构化数据后,由于各个待分析业务平台的数据的数据格式可能并不相同,因此,为了便于后续进行数据分析比较,还需要对结构化数据的数据格式进行格式标准化处理。上述数据格式一般包括数据的字体、大小写、简繁字体、数字的表示方式以及字符全半角等内容。
在具体实施时,可以预先设置标准数据格式,在将原始数据转换为结构化数据后,将结构化数据中各个字段的数据格式统一转换为标准数据格式,从而实现数据格式的格式标准化处理。
在本说明书实施例中,通过将原始数据转换为结构化数据,与目标对象相关的数据可以以表格的形式进行展示,内容清晰,便于后续对数据进行分析、比较;另外,通过对各个结构化数据的数据格式进行格式标准化处理,可以将各个待分析业务平台所对应的数据格式转化为统一格式,便于后续进行数据分析和比较,从而可以防止由于数据格式不一致而导致的数据分析出错的情况的发生。
步骤104,对上述原始数据进行语义分析,以确定目标对象在每个待分析业务平台上的属性相关信息。
其中,上述属性相关信息可以为目标对象的各个属性,以及各个属性所对应的属性值。
在上述步骤104中,对上述原始数据进行语义分析,以确定目标对象在每个待分析业务平台上的属性相关信息,具体包括如下步骤一、步骤二和步骤三;
步骤一、根据每个待分析业务平台所对应的原始数据确定目标对象在每个待分析业务平台上的原始属性的属性值;
步骤二、对目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定目标对象的目标属性在每个待分析业务平台上所对应的属性值;其中,上述目标属性包括原始属性以及原始属性的相关属性;
步骤三、建立待分析业务平台与目标对象的目标属性在该待分析业务平台上的属性值之间的映射关系,得到目标对象在每个待分析业务平台上的属性相关信息。
在本说明书实施例中,可以在执行上述步骤104之前,执行上述数据结构化以及格式标准化的步骤。
若是在执行步骤104之前,已经执行了数据结构化以及格式标准化的步骤,则在上述步骤一中,确定目标对象在每个待分析业务平台上的原始属性的属性值,可以从原始数据所对应的结构化数据中读取该结构化数据中的各个字段,将各个字段确定为目标对象的原始属性,将各个字段所对应的内容确定为目标对象的原始属性的属性值。
为便于理解,下述将举例进行说明。
例如,若是上述目标对象为优惠券,则目标对象的原始属性可以为优惠券的名称、优惠券的优惠信息、优惠券的有效期限、优惠券的适用条件、优惠券的适用店铺以及该店铺的地理位置信息等字段,而原始属性的属性值可以为各个字段的具体内容。如:优惠券的有效期限为2018年7月13日至2018年7月27日,原始属性为优惠券的有效期限,该原始属性的属性值为2018年7月13日至2018年7月27日。
在本说明书实施例中,由于在不同的待分析业务平台上,目标对象的原始属性的属性值的描述方式或者目标对象的原始属性可能会有所不同。例如,以目标对象为优惠券为例,针对优惠券的适用店铺而言,若是针对同一个店铺,有的业务平台可能使用该店铺的英文名称,有的业务平台可能使用该店铺的中文名称。因此,需要通过上述步骤二将目标对象在每个待分析业务平台上的属性都转换成相同的属性,并且各个属性的属性值采用统一语言进行描述。
具体的,在上述步骤二中,对目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定目标对象的目标属性在每个待分析业务平台上所对应的属性值,包括以下中的一项或多项:
1)、将目标对象的第一原始属性在每个待分析业务平台上的属性值进行相似度匹配,将相同的属性值采用设定语言进行描述;并将使用设定语言描述后的第一原始属性的属性值确定为目标对象的目标属性的属性值;
2)、将目标对象的第二原始属性在每个待分析业务平台上的属性值与目标属性的属性特征数据库进行文本相似度匹配,根据相似度匹配结果确定第二原始属性的关联属性的属性值;并将第二属性的关联属性的属性值确定为目标对象的目标属性的属性值;
3)、基于目标对象的第三原始属性的属性值,采用预设分类算法对目标对象进行分类,确定目标对象的类型;并将目标对象的类型确定为目标对象的目标属性的属性值;
4)、将目标对象的第四原始属性在每个待分析业务平台上的属性值与建立的描述语言的特征模板数据库进行匹配,根据匹配结果采用设定描述语言描述第四原始属性的属性值;并将采用设定描述语言描述后的第四原始属性的属性值确定为目标对象的目标属性的属性值。
需要说明的是,在本说明书实施例中,可以只采用上述1)、2)、3)和4)中的一项对目标对象的各个原始属性进行语义分析,也可以采用上述1)、2)、3)和4)中的两项或者多项分别对目标对象的不同的原始属性进行语义分析,或者,还可以采用上述1)、2)、3)和4)中的两项或者多项的组合对目标对象的某个原始属性进行语义分析。
下面将分别详细介绍上述1)、2)、3)和4)中每种语义分析的具体实现过程。
在1)中,上述第一原始属性可以为目标对象的原始属性中的任意一个属性,通过执行上述1)中的过程,可以将某个原始属性在各个待分析业务平台上的相同属性值采用统一的方式进行描述,从而便于后续在进行属性相关信息的比较时,可以判断该原始属性在哪些待分析平台上的属性值相同,从而进一步提高后续比较的准确性,防止由于同一属性值的描述方式不同而导致比较出错的情况的发生。
在本说明书实施例中,上述将第一原始属性在每个待分析业务平台上的属性值进行相似度匹配,可以采用余弦相似度、jacard相似度等算法实现。
在具体实施时,可以分别从各个待分析业务平台所对应的原始数据中提取与第一原始属性的属性值相关联的信息,将与该属性值相关联的信息记为该属性值的相关文本。然后分别计算待分析业务平台所对应的相关文本中任意两个相关文本中字的交集以及字的并集,然后计算交集中的字的个数与并集中的字的个数的比值,将该比值记为两个相关文本之间的相似度值,然后将该相似度值与预设相似度阈值进行比较,若是该相似度值大于预设相似度阈值,则认为第一原始属性在上述两个待分析业务平台上的属性值相同。
在另外一种实施方式中,还可以通过如下方式计算第一原始属性在各个待分析业务平台上的属性值的相似度值,为便于描述,下述将以计算第一原始属性在两个待分析业务平台上的属性值的相似度值为例进行描述,两个待分析业务平台分别记为第一待分析业务平台和第二待分析业务平台。
如将从第一待分析业务平台所对应的原始数据中提取的与第一原始属性的属性值相关联的特征信息记为第一特征信息集合,其中,第一特征信息集合中包括多个子特征信息,可以记为第一子特征信息1、第一子特征信息2、第一子特征信息N,其中,N为正整数。将从第二待分析业务平台所对应的原始数据中提取的与第一原始属性的属性值相关联的特征信息记为第二特征信息集合,其中,第二特征信息集合中包括多个子特征信息,可以记为第二子特征信息1、第二子特征信息2、第二子特征信息M,其中,M为正整数,且M的取值可以与N相同,也可以与N不相同。
然后分别计算第一特征信息集合中与第二特征信息集合中同一类型的子特征信息之间的子相似度值,并给各个子相似度值进行加权,然后计算各个子相似度值之间的加权和,将该加权和作为第一原始属性在第一待分析业务平台上的属性值与在第二待分析业务平台上的属性值之间的相似度值。将该相似度值与预设相似度阈值进行比较,若是该相似度值大于预设相似度值,则认为第一原始属性在上述两个待分析业务平台上的属性值相同。
具体的,上述在计算两个待分析业务平台上的各个子特征信息之间的子相似度值时,可以将各个子特征信息看作一个特征文本,然后计算对应的特征文本之间的相似度值,将对应的特征本文之间的相似度值看作是子特征信息之间的相似度值。
为便于理解,下述将举例进行说明。
例如,若是上述目标对象为优惠券,上述第一原始属性为优惠券的适用店铺,需要判断优惠券在第一待分析业务平台上的适用店铺以及在第二待分析业务平台上的适用店铺是否为相同的店铺。因此,可以分别从第一待分析业务平台所对应的原始数据中以及第二待分析业务平台所对应的原始数据中获取与该优惠券的适用店铺相关的信息,如店铺地址、店铺名称、店铺经纬度、店铺电话号码等信息。然后,根据上述店铺相关信息计算优惠券的适用店铺在第一代分析业务平台以及第二待分析业务平台上的相似度值,若是相似度值大于预设相似度阈值,则认为优惠券在上述两个待分析业务平台上的适用店铺为相同的店铺。
在一种具体应用场景中,可以是在不同的待分析业务平台上,同一个店铺使用不同的语言进行描述,如,若是在某个待分析业务平台上,优惠券的适用店铺为莎莎,在另外一个待分析业务平台上,优惠券的适用店铺为SASA,而SASA为莎莎的英文名称,若是根据两个店铺的地址、店铺的经纬度、店铺的电话号码等信息计算出上述两个店铺的相似度值大于或等于预设相似度阈值,则可以确定为上述名称为莎莎和名称为SASA的两个店铺是为相同店铺。
在上述2)中,上述第二原始属性可以包括目标对象的任意一个或者多个原始属性。由于在某些情况下,直接从原始数据中获取到的原始数据并不是后续进行数据分析、比较所需要的属性,因此,可以通过对获取到的原始属性进行分析,推导出与该原始属性相关联的关联属性。因此,在本说明书实施例中,通过执行上述2)的过程,可以根据目标对象的某一个或者多个原始属性,确定出目标对象的某个间接属性的属性值,该间接属性则为上述第二原始属性的相关属性,也即目标对象的目标属性。
在本说明书实施例中,可以预先建立针对目标对象的目标属性的属性特征数据库,在该属性特征数据库中存储有各个目标属性的特征关键词。
在具体实施时,可以将第二原始属性的属性值与上述属性特征数据库中的各个特征关键词进行相似度匹配,将相似度值大于或等于预设相似度阈值的特征关键词所对应的目标属性确定为第二原始属性的关联属性,并将该目标属性的属性值确定为第二属性的关联属性的属性值。
为便于理解,下述将举例进行说明。
例如,在一种具体实施方式中,上述目标对象为优惠券,上述第二原始属性可以为优惠券的优惠信息以及优惠券的适用店铺,上述第二属性的关联属性可以为优惠券的适用品牌,因此,可以将优惠券的优惠信息和优惠券的适用店铺与属性特征数据库中的各个品牌关键词进行相似度匹配,将相似度匹配大于预设相似度阈值的品牌关键词所对应的品牌确定为优惠券的适用品牌。
以711便利店为例,属性特征数据库中,可以存储有711便利店与711、seven-eleven、7-11等关键词的映射关系。
在3)中,上述目标对象的目标属性则为目标对象的类型。具体的,在执行上述3)的过程中,可以基于文本分类算法对目标对象进行分类,例如,采用fasttext文本分类算法,fasttext文本分类算法属于半监督学习算法,采用该算法不需要训练特征。
例如,若是上述目标对象为优惠券,则优惠券的类型可以分为满减券、折扣券、赠品券及其他等。
在4)中,上述第四原始属性可以为目标对象的原始属性中的任意一个原始属性。在某些情况下,同一属性的相同属性值可能会采用不同的描述方式进行描述,为了便于后续进行不同待分析业务平台上的目标对象的属性相关信息的比较,可以将相同属性值转换为统一的描述方式。
具体的,可以预先设置有目标对象的第四原始属性的属性值所对应的多种设定描述语言的特征模板数据库,在执行上述4)的过程中,可以将上述第四原始属性在每个待分析业务平台上的属性值与设定描述语言的特征模板数据库中的各个特征模板进行相似度匹配,采用相似度值大于预设相似度值的特征模板所对应的设定描述语言对第四原始属性的属性值进行描述。
为便于理解,下述将举例进行说明。
例如,上述目标属性为优惠券,上述第四原始属性可以为优惠券的优惠信息,经过上述4)处理后的属性可以为优惠券的优惠额度。具体的,在上述建立的描述语言的特征模板数据库中会存储有优惠券的常用的折扣信息的特征模板。例如,针对9折券,上述特征模板数据库中存储的特征模板可能为“满xx金额立减10%、满xx金额享9折优惠、全场9折优惠等”。
在进行相似度匹配时,可以采用正则表达式抽取优惠券信息中的与优惠折扣相关的文本特征,例如,提取的文本特征可以为立减10%、9折等,然后将提取的文本特征与特征模板数据库中的各个特征模板进行相似度匹配,从而确定出优惠券的折扣,并采用设定描述语言对优惠券的折扣进行描述。
还例如,上述目标属性为优惠券,上述第四原始属性可以为优惠券的有效期限。在不同的待分析业务平台上,有效期限的描述语言可能并不相同,例如,有的描述可以为“领取当日有效”、“自领取日起xx天内有效”、“有效期限为2018.5.17~2018.6.1”等多种描述方式。为了便于后续进行数据的分析比较,针对该种情况,上述建立的描述语言的特征模板数据库中会存储有优惠券的有效期限常用的特征模板。例如,上述特征模板数据库中存储的特征模版可能为“xxxx年xx月xx日至xxxx年xx月xx日”、“即日起至xxxx年xx月xx日”等。在进行相似度匹配时,可以提取每个待分析业务平台上与优惠券的有效期限相关的文本特征,将提取的文本特征与上述特征模板数据库中的各个特征模板进行相似度匹配,从而确定出优惠券的优惠期限,并采用设定描述语言对优惠券的优惠期限进行描述。
具体的,在上述步骤三中,可以针对每个待分析业务平台,建立该待分析业务平台与目标对象的目标在该待分析业务平台上的属性值的映射关系。
例如,以模板对象为优惠券为例,通过上述步骤三建立的映射关系的一种可能的形式如表1所示。
表1
平台标识 |
适用品牌 |
优惠券类型 |
优惠额度 |
平台1 |
莎莎 |
折扣券 |
九折券 |
平台2 |
711 |
折扣券 |
八五折券 |
当然,在表1只是示例性说明,并不构成对本说明实施例中所建立的映射关系的限定。
步骤106,将目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
具体的,在步骤106中,在将目标对象在各个待分析业务平台上的属性相关信息进行比较时,可以将上述属性相关信息中的其中几个目标属性作为条件属性,将某个目标属性作为比对属性,比较不同待分析业务平台上条件属性的属性值相同的比对属性的属性值,从而确定比对属性在各个待分析业务平台上的属性值的比较情况。
例如,目标对象为优惠券,目标对象的目标属性包括优惠券的适用店铺、该店铺的地理位置信息、优惠券的适用品牌以及优惠券的优惠额度等,则比较各个待分析业务平台上优惠券的优惠程度时,可以将优惠券的适用店铺、该店铺的地理位置信息以及优惠券的适用品牌作为条件属性,将优惠券的优惠额度作为比对属性,比较条件属性值相同的待分析业务平台上优惠券的优惠额度,从而确定条件属性值相同的待分析业务平台上优惠券的优惠程度。
在一种具体实施方式中,上述待分析业务平台包括第一类业务平台和第二类业务平台;其中,第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与目标对象相关的原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台;
相应的,在该种情况下,上述步骤106中,将目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,得到比较结果,包括:
将目标对象在第一类业务平台上的属性相关信息与目标对象在每个第二类业务平台上的属性相关信息进行比较,确定目标对象在第一类业务平台上的属性相关信息与在各个第二类业务平台上的属性相关信息的比较结果信息。
可以理解,上述提到的第二类业务平台为第一类业务平台以外的业务平台,可以指的是,第二类业务平台为待分析业务平台中除第一类业务平台以外的业务平台。
在一种具体应用场景中,某些平台为了提升自身的竞争力,可以将自身的业务平台与其他具有相同类型业务的业务平台进行比较;在该种情况下,可以将自身的业务平台记为第一类业务平台,将其他具有相同类型业务的业务平台记为第二类业务平台。
若是上述待分析业务平台包括一个第一类业务平台,则只需要将目标对象在该第一类业务平台上的属性相关信息与其在其他各个第二类业务平台上的属性相关信息进行比对即可;若是上述待分析业务平台包括多个第一类业务平台,则需要分别将目标对象在每个第一类业务平台上的属性相关信息与在其他各个第二类业务平台上的属性相关信息进行比对即可。
在一种具体实施方式中,若是上述待分析业务平台包括第一类业务平台和第二类业务平台,针对该种情况,本说明书实施例提供的数据分析方法的具体实现过程如图2所示。图2示出了本说明书实施例提供的数据分析方法的第二种方法流程图,图2所示的方法至少包括如下步骤:
步骤202,通过网络爬虫爬取第二类业务平台上与目标对象相关的第一原始数据。
步骤204,对第一原始数据进行解析,生成针对目标对象所对应的结构化数据。
步骤206,对上述结构化数据进行格式标准化处理,得到第二类业务平台所对应的第一标准数据。
步骤208,获取第一类业务平台上与目标对象相关的第二标准数据。
步骤210,分别对第一标准数据和第二标准数据进行语义分析,确定目标对象在第二类业务平台上的第二属性相关信息,以及目标对象在第一类业务平台上的第一属性相关信息。
步骤212,将第一属性相关信息与第二属性相关信息进行比较,得到比较结果。
其中,图2所对应实施例中各个步骤的具体实现过程与图1所对应实施例中各个步骤的具体实现过程相同,因此,图2所对应实施例中各个步骤的具体实现过程可参考图1所对应实施例,此处不再赘述。
本说明书实施例提供的数据分析方法,在获取到每个待分析业务平台上与目标对象相关的原始数据后,通过对该原始数据进行语义分析的方式,确定目标对象的属性相关信息,从而将该目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,实现了不同平台上相关数据的自动化分析,提高了数据比较的效率,并且准确性较高。
对应于上述图1、图2所对应实施例提供的数据分析方法,基于相同的思路,本说明书实施例还提供了一种数据分析方法,图3为本说明书实施例提供的数据分析方法的第三种方法流程图,针对图3所示的方法,这里重点介绍与图1、图2所对应实施例的不同之处,相同之处可参考图1、图2所对应实施例,此处不再赘述。如图3所示,该方法至少包括如下步骤:
步骤302,获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,第一类业务平台与第二类业务平台具有相同类型的业务;从第一类业务平台上获取的第一原始数据的数据格式为标准格式。
其中,第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与上述商品优惠信息相关的第一原始数据为标准格式,上述第二类业务平台为第一类业务平台以外的业务平台。
具体的,在本说明书实施例中,可以通过网络爬虫从第二类业务平台上爬取与商品优惠相关的第二原始数据。第二原始数据的具体获取过程可以参考图1、图2所对应实施例,此处不再赘述。
另外,上述获取第一类业务平台上与商品优惠信息相关的第一原始数据,可以是直接从第一类业务平台上读取与商品优惠信息相关的数据。
在本说明书实施例中,上述商品优惠信息可以为优惠券。
步骤304,对第一原始数据进行语义分析,确定上述商品优惠信息在第一类业务平台上的第一属性相关信息;以及对第二原始数据进行格式标准化处理和语义分析,确定上述商品优惠信息在第二类业务平台上的第二属性相关信息。
其中,上述步骤304的具体实现过程可参考图1、图2所对应实施例,此处不再赘述。
在一种具体应用场景中,具体的,若是上述目标对象为优惠券;
相应的,上述目标对象的属性相关信息可以为以下信息中的一种或多种:
优惠券的适用店铺、该店铺的地理位置信息、优惠券的适用品牌、优惠券的优惠类型、优惠券的优惠额度以及优惠券的有效期限。
步骤306,比较第一属性相关信息和第二属性相关信息,得到上述商品优惠信息在第一类业务平台和第二类业务平台上的优惠程度。
具体的,在本说明书实施例中若是上述商品优惠信息为优惠券,则上述步骤中,比较第一属性相关信息和第二属性相关信息,得到上述商品优惠信息在第一类业务平台和第二类业务平台上的优惠程度,具体包括如下步骤(A)和步骤(B);
步骤(A)、筛选出当前第一类业务平台与第二类业务平台上处于有效期限内的有效优惠券;
步骤(B)、将第一类业务平台与第二类业务平台中,适用于相同店铺、相同商户的有效优惠券的优惠额度进行比较,以确定上述有效优惠券在第一类业务平台和第二类业务平台上的优惠程度;其中,其中,相同的店铺为属于同一个地理位置的同一个店铺。
可以理解的是,针对折扣类型的优惠券,一般折扣越低则优惠券的优惠程度越高;针对满减类型的优惠券,若是减掉金额与满足金额的比例越大,则优惠券的优惠程度越高。
例如,若是上述优惠券为满298减60,则该优惠券的减掉金额为60,满足金额为298。
具体的,上述优惠券可以为商家投放的优惠券,也可以为商家投放的优惠券。
在某种具体应用场景中,若是在比较商家投放的优惠券时,为了更准确的比较同一个商家在不同的业务平台上投放的优惠券的优惠程度,还可以将该优惠券所适用的商品的定价考虑在内,对于定价相同的商品,针对折扣类型的优惠券,一般折扣越低优惠券的优惠程度越高;针对满减类型的优惠券,若是减掉金额与满足金额的比例越大,则优惠券的优惠程度越高;若是商品的定价不同,在确定商家优惠券的优惠程度时,可以将优惠后商品的最终价格考虑在内。
在本说明书实施例中,通过比较各待分析业务平台上述优惠券的优惠程度,可以便于待分析业务平台调整自身的运营策略或者与商家沟通争取较大的优惠程度,从而提升自身的竞争力。
图4示出了本说明书实施例提供的数据分析方法的一种流程示意图,在图4所示的流程图中,通过分布式数据采集平台从各个第二类业务平台采集该业务平台上与优惠券相关的原始数据,其中,该原始数据可以包括商户信息和优惠信息;其中,该分布式数据采集平台可以为网络爬虫,例如,Nutch、Crawler4j、WebMagic、Scrapy、WebCollector等分布式开源框架。
在分布式数据采集平台采集到各个第二类业务平台上的原始数据后,将该原始数据发送给数据结构化、标准化处理层,由其将上述原始数据转换为结构化数据,并对该结构化数据进行格式标准化处理,得到针对第二类业务平台的标准化数据。
在数据结构化、标准化处理层将第二类业务平台上的优惠券相关的原始数据转化成标准化数据后,将该标准化数据发送给语义识别层,由语义识别层对该标准化数据进行语义识别,以对该标准化数据进行同店铺识别、品牌识别、折扣识别、优惠券类型识别以及有效期限识别等,得到优惠券在第二类业务平台上的第一属性相关信息。
另外,语义识别层直接从内部数据平台获取内部数据平台上与优惠券相关的原始数据,其中,该原始数据的数据格式为标准格式,可以直接由语义识别层对该标准格式的原始数据进行语义识别,具体的识别内容同样为同店铺识别、品牌识别、折扣识别、优惠券类型识别以及有效期限识别等,得到优惠券在第一类业务平台上的第二属性相关信息。
最后由语义识别层将识第一属性相关信息和第二属性相关信息发送给多平台数据比对层,由对平台数据比对层对第一属性相关信息和第二属性相关信息进行比对,从而确定出优惠券在第二类业务平台和第一类业务平台上的优惠程度。
其中,上述第一类业务平台为预先指定的业务平台,第二类业务平台为第一类业务平台以外的业务平台。
为便于理解本说明书实施例提供的数据分析方法,下述将以“商品优惠信息”为“优惠券”为例,介绍本说明书实施例提供的数据分析方法。
图5为本说明书实施例提供的数据分析方法的第四种方法流程图,图5所示的方法至少包括如下步骤:
步骤502,采集第二类业务平台上与优惠券相关的第一原始数据。
其中,在本说明书实施例中,可以通过网络爬虫从第二类业务平台上爬取第一原始数据。具体的,上述第一原始数据可以包括优惠券的优惠信息和优惠券的适用品牌信息。
步骤504,将上述第一原始数据转换成结构化数据。
其中,所谓结构化数据,则指的是以表格的形式展示的数据。
步骤506,对上述结构化数据的数据格式进行格式标准化处理,得到第二类业务平台上与优惠券相关的第一标准数据。
上述数据格式可以包括结构化数据中各个字符的字体、全半角等格式
步骤508,获取第一类业务平台上与优惠券相关的第二标准数据。
其中,上述第二标准数据为直接从第一类业务平台上获取的原始数据,该原始数据为结构化数据、且结构化数据的格式为标准格式。
步骤510,对上述第一标准数据和第二标准数据进行语义识别,以得到优惠券在第二类业务平台上的第二属性相关信息,以及优惠券在第一类业务平台上的第一属性相关信息。
其中,上述语义识别的内容包括同店铺识别、品牌识别、优惠券折扣识别、优惠券类型识别以及优惠券的有效期限识别等信息。
上述第一属性相关信息和第二属性相关信息可以包括以下信息中的一种或多种:
优惠券的适用店铺、店铺的地理位置信息、优惠券的适用品牌、优惠券的优惠类型、优惠券的优惠额度以及优惠券的有效期限。
步骤512,筛选出第二类业务平台和第一类业务平台上处于有效期限内的有效优惠券。
步骤514,将第二类业务平台与第一类业务平台中,适用于相同店铺、相同商户的有效优惠券的优惠额度进行比较,以确定有效优惠券在第二类业务平台和在第一类业务平台上的优惠程度。
其中,相同的店铺为属于同一个地理位置的同一个店铺。
其中,图5所对应的实施例中各个方法步骤的具体实现过程与图1至图4所对应实施例中各个步骤的具体实现过程相同,各个步骤的具体实现过程可参考图1至图4所对应实施例中各个步骤的具体实现过程,此处不再赘述。
本说明书实施例提供的数据分析方法,在获取到第一类业务平台上与商品优惠信息相关的第一原始数据以及获取到第二类业务平台上与商品优惠信息相关的第二原始数据后,通过对第一原始数据进行语义分析的方式,确定商品优惠信息在第一类业务平台上的第一属性相关信息,以及对第二原始数据进行格式化标准处理和语义分析,确定商品优惠信息在第二类业务平台上的第二属性相关信息,然后将第一属性相关信息与第二属性相关信息进行比较,得到商品优惠信息在第一类业务平台和第二类业务平台上的优惠程度。本说明书实施例,实现了第一类业务平台与第二类业务平台上商品优惠信息的自动化分析,提高了商品优惠信息比较的效率,并且准确性较高,便于业务平台运营者及时调整优惠策略,提高竞争力。
对应于本说明书实施例提供的数据分析方法,基于相同的思路,本申请实施例还提供了一种数据分析装置,用于执行本申请实施例所提供的数据分析方法,图6为本说明书实施例提供的数据分析方法的第一种模块组成示意图,图6所示的装置,包括:
第一获取模块601,用于分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,上述待分析业务平台具有相同类型的业务;
分析模块602,用于对上述原始数据进行语义分析,以确定上述目标对象在每个上述待分析业务平台上的属性相关信息;
第一比较模块603,用于将上述目标对象在每个上述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
可选的,本说明书实施例提供的装置,还包括:
生成模块,用于针对每个上述原始数据,对该原始数据进行解析,生成上述目标对象所对应的结构化数据;
处理模块,用于对上述结构化数据的数据格式进行格式标准化处理。
可选的,上述分析模块602,具体用于:
根据每个待分析业务平台所对应的原始数据确定上述目标对象在每个待分析业务平台上的原始属性的属性值;对上述目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定上述目标对象的目标属性在每个待分析业务平台上所对应的属性值;其中,上述目标属性包括上述原始属性以及上述原始属性的相关属性;建立待分析业务平台与目标对象的目标属性在该待分析业务平台上的属性值之间的映射关系,得到上述目标对象在每个待分析业务平台上的属性相关信息。
可选的,上述分析模块602,还具体用于执行以下中的一项或多项:
将上述目标对象的第一原始属性在每个上述待分析业务平台上的属性值进行相似度匹配,并将相同的属性值采用设定语言进行描述;并将使用设定语言进行描述后的第一原始属性的属性值确定为上述目标对象的目标属性的属性值;
将上述目标对象的第二原始属性在每个待分析业务平台上的属性值与目标属性的属性特征数据库进行文本相似度匹配,根据相似度匹配结果确定上述第二原始属性的关联属性的属性值;并将上述第二原始属性的关联属性的属性值确定为上述目标对象的目标属性的属性值;
基于上述目标对象的第三原始属性的属性值,采用预设分类算法对上述目标对象进行分类,确定上述目标对象的类型;并将上述目标对象的类型确定为上述目标对象的目标属性的属性值;
将上述目标对象的第四原始属性在每个待分析业务平台上的属性值与建立的描述语言的特征模板数据库进行匹配,根据匹配结果采用设定描述语言描述上述第四原始属性的属性值;并将采用上述设定描述语言描述后的上述第四原始属性的属性值确定为上述目标对象的目标属性的属性值。
可选的,上述待分析业务平台包括第一类业务平台和第二类业务平台;其中,上述第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与目标对象下关的原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台;
上述第一比较模块603,具体用于:
将上述目标对象在上述第一类业务平台上的属性相关信息与上述目标对象在每个上述第二类业务平台上的属性相关信息进行比较,确定上述目标对象在上述第一类业务平台上的属性相关信息与在各个上述第二类业务平台的属性相关信息的比较结果。
本说明书实施例提供的数据分析装置,在获取到每个待分析业务平台上与目标对象相关的原始数据后,通过对该原始数据进行语义分析的方式,确定目标对象的属性相关信息,从而将该目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,实现了不同平台上相关数据的自动化分析,提高了数据比较的效率,并且准确性较高。
对应于本说明书实施例提供的数据分析方法,基于相同的思路,本申请实施例还提供了一种数据分析装置,用于执行本申请实施例所提供的数据分析方法,图7为本说明书实施例提供的数据分析方法的第二种模块组成示意图,图7所示的装置,包括:
第二获取模块701,获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,上述第一类业务平台与上述第二类业务平台具有相同类型的业务;从上述第一类业务平台上获取的上述第一原始数据的数据格式为标准格式;
处理模块702,对上述第一原始数据进行语义分析,确定上述商品优惠信息在上述第一类业务平台上的第一属性相关信息;以及对上述第二原始数据进行格式标准化处理和语义分析,确定上述商品优惠信息在上述第二类业务平台上的第二属性相关信息;
第二比较模块703,比较上述第一属性相关信息和上述第二属性相关信息,得到上述商品优惠信息在上述第一类业务平台和上述第二类业务平台上的优惠程度。
可选的,第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与商品优惠信息相关的第一原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台。
可选的,上述商品优惠信息为优惠券;
上述第一属性相关信息和上述第二属性相关信息包括以下信息中的一种或多种:
上述优惠券的适用店铺、上述店铺的地理位置信息、上述优惠券的适用品牌、上述优惠券的优惠类型、上述优惠券的优惠额度以及上述优惠券的有效期限。
可选的,上述第二比较模块703,具体用于:
筛选出上述第一类业务平台与上述第二类业务平台上当前处于有效期限内的有效优惠券;
将上述第一类业务平台与上述第二类业务平台中,适用于相同店铺、相同商户的有效优惠券的优惠额度进行比较,以确定上述有效优惠券在上述第一类业务平台和上述第二类业务平台上的优惠程度;其中,其中,上述相同的店铺为属于同一个地理位置的同一个店铺。
本说明书实施例提供的数据分析装置,在获取到第一类业务平台上与商品优惠信息相关的第一原始数据以及获取到第二类业务平台上与商品优惠信息相关的第二原始数据后,通过对第一原始数据进行语义分析的方式,确定商品优惠信息在第一类业务平台上的第一属性相关信息,以及对第二原始数据进行格式化标准处理和语义分析,确定商品优惠信息在第二类业务平台上的第二属性相关信息,然后将第一属性相关信息与第二属性相关信息进行比较,得到商品优惠信息在第一类业务平台和第二类业务平台上的优惠程度。本说明书实施例,实现了第一类业务平台与第二类业务平台上商品优惠信息的自动化分析,提高了商品优惠信息比较的效率,并且准确性较高,便于业务平台运营者及时调整优惠策略,提高竞争力。
进一步地,基于上述图1至图5所示的方法,本说明书实施例还提供了一种数据分析设备,如图8所示。
数据分析设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据分析设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在数据分析设备上执行存储器802中的一系列计算机可执行指令。数据分析设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806等。
在一个具体的实施例中,数据分析设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据分析设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,上述待分析业务平台具有相同类型的业务;
对上述原始数据进行语义分析,以确定上述目标对象在每个上述待分析业务平台上的属性相关信息;
将上述目标对象在每个上述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
可选的,计算机可执行指令在被执行时,还可以实现如下步骤:
针对每个上述原始数据,对该原始数据进行解析,生成上述目标对象所对应的结构化数据;并对上述结构化数据的数据格式进行格式标准化处理。
可选的,计算机可执行指令在被执行时,上述对上述原始数据进行语义分析,以确定上述目标对象在每个待分析业务平台上的属性相关信息,包括:
根据每个待分析业务平台所对应的原始数据确定上述目标对象在每个待分析业务平台上的原始属性的属性值;
对上述目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定上述目标对象的目标属性在每个待分析业务平台上所对应的属性值;其中,上述目标属性包括上述原始属性以及上述原始属性的相关属性;
建立上述待分析业务平台与上述目标对象的目标属性在上述待分析业务平台上的属性值之间的映射关系,得到上述目标对象在每个待分析业务平台上的属性相关信息。
可选的,计算机可执行指令在被执行时,上述对上述目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定上述目标对象的目标属性在每个待分析业务平台上所对应的属性值,包括以下中的一项或多项:
将上述目标对象的第一原始属性在每个上述待分析业务平台上的属性值进行相似度匹配,并将相同的属性值采用设定语言进行描述;并将使用设定语言进行描述后的第一原始属性的属性值确定为上述目标对象的目标属性的属性值;
将上述目标对象的第二原始属性在每个待分析业务平台上的属性值与目标属性的属性特征数据库进行文本相似度匹配,根据相似度匹配结果确定上述第二原始属性的关联属性的属性值;并将上述第二原始属性的关联属性的属性值确定为上述目标对象的目标属性的属性值;
基于上述目标对象的第三原始属性的属性值,采用预设分类算法对上述目标对象进行分类,确定上述目标对象的类型;并将上述目标对象的类型确定为上述目标对象的目标属性的属性值;
将上述目标对象的第四原始属性在每个待分析业务平台上的属性值与建立的描述语言的特征模板数据库进行匹配,根据匹配结果采用设定描述语言描述上述第四原始属性的属性值;并将采用上述设定描述语言描述后的上述第四原始属性的属性值确定为上述目标对象的目标属性的属性值。
可选的,计算机可执行指令在被执行时,上述待分析业务平台包括第一类业务平台和第二类业务平台;其中,上述第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与目标对象下关的原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台;
上述将上述目标对象在上述每个上述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果,包括:
将上述目标对象在上述第一类业务平台上的属性相关信息与上述目标对象在每个上述第二类业务平台上的属性相关信息进行比较,确定上述目标对象在上述第一类业务平台上的属性相关信息与在各个上述第二类业务平台的属性相关信息的比较结果。
本说明书实施例提供的数据分析设备,在获取到每个待分析业务平台上与目标对象相关的原始数据后,通过对该原始数据进行语义分析的方式,确定目标对象的属性相关信息,从而将该目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,实现了不同平台上相关数据的自动化分析,提高了数据比较的效率,并且准确性较高。
在一个具体的实施例中,数据分析设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据分析设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,上述第一类业务平台与上述第二类业务平台具有相同类型的业务;从上述第一类业务平台上获取的上述第一原始数据的数据格式为标准格式;
对上述第一原始数据进行语义分析,确定上述商品优惠信息在上述第一类业务平台上的第一属性相关信息;以及对上述第二原始数据进行格式标准化处理和语义分析,确定上述商品优惠信息在上述第二类业务平台上的第二属性相关信息;
比较上述第一属性相关信息和上述第二属性相关信息,得到上述商品优惠信息在上述第一类业务平台和上述第二类业务平台上的优惠程度。
可选的,计算机可执行指令在被执行时,第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与商品优惠信息相关的第一原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台。
可选的,计算机可执行指令在被执行时,上述商品优惠信息为优惠券;
上述第一属性相关信息或上述第二属性相关信息包括以下信息中的一种或多种:
上述优惠券的适用店铺、上述店铺的地理位置信息、上述优惠券的适用品牌、上述优惠券的优惠类型、上述优惠券的优惠额度以及上述优惠券的有效期限。
可选的,计算机可执行指令在被执行时,上述比较上述第一属性相关信息和上述第二属性相关信息,得到上述商品优惠信息在上述第一类业务平台和上述第二类业务平台上的优惠程度,包括:
筛选出当前上述第一类业务平台与上述第二类业务平台上处于有效期限内的有效优惠券;
将上述第一类业务平台与上述第二类业务平台中,适用于相同店铺、相同商户的有效优惠券的优惠额度进行比较,以确定上述有效优惠券在上述第一类业务平台和上述第二类业务平台上的优惠程度;其中,其中,上述相同的店铺为属于同一个地理位置的同一个店铺。
本说明书实施例提供的数据分析设备,在获取到第一类业务平台上与商品优惠信息相关的第一原始数据以及获取到第二类业务平台上与商品优惠信息相关的第二原始数据后,通过对第一原始数据进行语义分析的方式,确定商品优惠信息在第一类业务平台上的第一属性相关信息,以及对第二原始数据进行格式化标准处理和语义分析,确定商品优惠信息在第二类业务平台上的第二属性相关信息,然后将第一属性相关信息与第二属性相关信息进行比较,得到商品优惠信息在第一类业务平台和第二类业务平台上的优惠程度。本说明书实施例,实现了第一类业务平台与第二类业务平台上商品优惠信息的自动化分析,提高了商品优惠信息比较的效率,并且准确性较高,便于业务平台运营者及时调整优惠策略,提高竞争力。
进一步地,基于上述图1至图5所示的方法,本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
分别获取每个待分析业务平台上与目标对象相关的原始数据;其中,上述待分析业务平台具有相同类型的业务;
对上述原始数据进行语义分析,以确定上述目标对象在每个上述待分析业务平台上的属性相关信息;
将上述目标对象在每个上述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,还可以实现如下流程:
针对每个上述原始数据,对该原始数据进行解析,生成上述目标对象所对应的结构化数据;并对上述结构化数据的数据格式进行格式标准化处理。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述对上述原始数据进行语义分析,以确定上述目标对象在每个待分析业务平台上的属性相关信息,包括:
根据每个待分析业务平台所对应的原始数据确定上述目标对象在每个待分析业务平台上的原始属性的属性值;
对上述目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定上述目标对象的目标属性在每个待分析业务平台上所对应的属性值;其中,上述目标属性包括上述原始属性以及上述原始属性的相关属性;
建立上述待分析业务平台与上述目标对象的目标属性在上述待分析业务平台上的属性值之间的映射关系,得到上述目标对象在每个待分析业务平台上的属性相关信息。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述对上述目标对象在每个待分析业务平台上的原始属性的属性值进行语义分析,确定上述目标对象的目标属性在每个待分析业务平台上所对应的属性值,包括以下中的一项或多项:
将上述目标对象的第一原始属性在每个上述待分析业务平台上的属性值进行相似度匹配,并将相同的属性值采用设定语言进行描述;并将使用设定语言进行描述后的第一原始属性的属性值确定为上述目标对象的目标属性的属性值;
将上述目标对象的第二原始属性在每个待分析业务平台上的属性值与目标属性的属性特征数据库进行文本相似度匹配,根据相似度匹配结果确定上述第二原始属性的关联属性的属性值;并将上述第二原始属性的关联属性的属性值确定为上述目标对象的目标属性的属性值;
基于上述目标对象的第三原始属性的属性值,采用预设分类算法对上述目标对象进行分类,确定上述目标对象的类型;并将上述目标对象的类型确定为上述目标对象的目标属性的属性值;
将上述目标对象的第四原始属性在每个待分析业务平台上的属性值与建立的描述语言的特征模板数据库进行匹配,根据匹配结果采用设定描述语言描述上述第四原始属性的属性值;并将采用上述设定描述语言描述后的上述第四原始属性的属性值确定为上述目标对象的目标属性的属性值。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述待分析业务平台包括第一类业务平台和第二类业务平台;其中,上述第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与目标对象下关的原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台;
上述将上述目标对象在上述每个上述待分析业务平台上所对应的属性相关信息进行比较,得到比较结果,包括:
将上述目标对象在上述第一类业务平台上的属性相关信息与上述目标对象在每个上述第二类业务平台上的属性相关信息进行比较,确定上述目标对象在上述第一类业务平台上的属性相关信息与在各个上述第二类业务平台的属性相关信息的比较结果。
本说明书实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,在获取到每个待分析业务平台上与目标对象相关的原始数据后,通过对该原始数据进行语义分析的方式,确定目标对象的属性相关信息,从而将该目标对象在每个待分析业务平台上所对应的属性相关信息进行比较,实现了不同平台上相关数据的自动化分析,提高了数据比较的效率,并且准确性较高。
进一步地,基于上述图1至图5所示的方法,本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取第一类业务平台上与商品优惠信息相关的第一原始数据,以及获取第二类业务平台上与商品优惠信息相关的第二原始数据;其中,上述第一类业务平台与上述第二类业务平台具有相同类型的业务;从上述第一类业务平台上获取的上述第一原始数据的数据格式为标准格式;
对上述第一原始数据进行语义分析,确定上述商品优惠信息在上述第一类业务平台上的第一属性相关信息;以及对上述第二原始数据进行格式标准化处理和语义分析,确定上述商品优惠信息在上述第二类业务平台上的第二属性相关信息;
比较上述第一属性相关信息和上述第二属性相关信息,得到上述商品优惠信息在上述第一类业务平台和上述第二类业务平台上的优惠程度。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,第一类业务平台为预先指定的业务平台,从第一类业务平台获取的与商品优惠信息相关的第一原始数据为标准格式,第二类业务平台为第一类业务平台以外的业务平台。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述商品优惠信息为优惠券;
上述第一属性相关信息或上述第二属性相关信息包括以下信息中的一种或多种:
上述优惠券的适用店铺、上述店铺的地理位置信息、上述优惠券的适用品牌、上述优惠券的优惠类型、上述优惠券的优惠额度以及上述优惠券的有效期限。
可选的,该存储介质存储的计算机可执行指令在被处理器执行时,上述比较上述第一属性相关信息和上述第二属性相关信息,得到上述商品优惠信息在上述第一类业务平台和上述第二类业务平台上的优惠程度,包括:
筛选出当前上述第一类业务平台与上述第二类业务平台上处于有效期限内的有效优惠券;
将上述第一类业务平台与上述第二类业务平台中,适用于相同店铺、相同商户的有效优惠券的优惠额度进行比较,以确定上述有效优惠券在上述第一类业务平台和上述第二类业务平台上的优惠程度;其中,其中,上述相同的店铺为属于同一个地理位置的同一个店铺。
本说明书实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,在获取到第一类业务平台上与商品优惠信息相关的第一原始数据以及获取到第二类业务平台上与商品优惠信息相关的第二原始数据后,通过对第一原始数据进行语义分析的方式,确定商品优惠信息在第一类业务平台上的第一属性相关信息,以及对第二原始数据进行格式化标准处理和语义分析,确定商品优惠信息在第二类业务平台上的第二属性相关信息,然后将第一属性相关信息与第二属性相关信息进行比较,得到商品优惠信息在第一类业务平台和第二类业务平台上的优惠程度。本说明书实施例,实现了第一类业务平台与第二类业务平台上商品优惠信息的自动化分析,提高了商品优惠信息比较的效率,并且准确性较高,便于业务平台运营者及时调整优惠策略,提高竞争力。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。