CN111581479A - 一站式数据处理的方法、装置、存储介质及电子设备 - Google Patents
一站式数据处理的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111581479A CN111581479A CN202010392157.9A CN202010392157A CN111581479A CN 111581479 A CN111581479 A CN 111581479A CN 202010392157 A CN202010392157 A CN 202010392157A CN 111581479 A CN111581479 A CN 111581479A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- data
- evaluation
- determining
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000011156 evaluation Methods 0.000 claims abstract description 113
- 238000013507 mapping Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000007619 statistical method Methods 0.000 claims abstract description 16
- 230000009193 crawling Effects 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种一站式数据处理的方法、装置、存储介质及电子设备,其中,该方法包括:获取不同数据源的多个车辆数据,对多个车辆数据进行关系映射,确定不同数据源的统一映射对应关系;根据统一映射对应关系对多个车辆数据进行统计分析,确定车辆的销量数据,并确定车辆的评价标签;根据评价标签生成车辆的车辆画像信息。通过本发明实施例提供的技术方案,可以对多个数据源的车辆数据进行汇总,能够汇聚海量数据;基于不同数据源的统一映射对应关系将不同数据源的车辆数据进行统一映射,从而能够准确确定车辆的销量数据,并生成相应的车辆画像,方便用户快速查询获取到所需的信息,能够为用户提供高效、准确的车辆信息。
Description
技术领域
本发明涉及数据处理的技术领域,具体而言,涉及一种一站式数据处理的方法、装置、存储介质及电子设备。
背景技术
随着互联网技术的发展,多个主流媒体建立了不同的社区和网站,其分别发布汽车的销量数据、新闻等,也进而分散了用户对汽车的评价内容。当用户需要了解某车型的信息时,需要浏览多个网站才能够比较全面地获知所需的信息。而不同网站之间的内容存在重复,浪费了用户时间,效率较低;且在缺乏适当引导的情况下,用户由于缺乏对数据的熟悉,也增加了准确获知信息的难度,使得用户花费了大量时间和精力后仍然可能错过许多有用信息。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种一站式数据处理的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种一站式数据处理的方法,包括:
获取不同数据源的多个车辆数据,对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系;
根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的销量数据,并确定所述车辆的评价标签;
根据所述评价标签生成所述车辆的车辆画像信息。
在一种可能的实现方式中,所述获取不同数据源的多个车辆数据包括:
基于不同爬取方式分别对所述数据源进行爬取处理,爬取所述数据源的车辆数据,所述车辆数据包括车辆销售数据、车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,所述爬取方式用于爬取所述车辆数据中的一项数据。
在一种可能的实现方式中,所述对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系,包括:
分别确定不同所述数据源的车辆数据中的关键字,所述关键字包括车辆关键字和/或评价关键字;
基于反链接和笛卡尔积对所述车辆数据中的关键字进行关系映射,生成所述关键字的统一映射对应关系。
在一种可能的实现方式中,所述确定所述车辆的评价标签包括:
对所述车辆数据进行句法依存处理,提取出所述车辆的评价标签。
在一种可能的实现方式中,根据所述评价标签生成所述车辆的车辆画像信息包括:
预先确定层级化的评价参数,并确定与所述车辆的最底层评价参数相对应的评价标签;
对与所述最底层评价参数相对应的所有所述评价标签进行统计处理,将数量最多的评价标签作为所述最底层评价参数的有效评价标签,并根据所述车辆的所有最底层评价参数的有效评价标签生成所述车辆的车辆画像信息。
在一种可能的实现方式中,在所述确定不同数据源的统一映射对应关系之后,该方法还包括:
根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的指数信息;其中,车辆数据包括车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,所述指数信息相应地包括曝光指数、活跃指数、搜索指数、关注指数中的一项或多项。
在一种可能的实现方式中,该方法还包括:
在所述数据源发生数据更新时,获取更新后的新增车辆数据;
根据所述新增车辆数据实时对所述车辆的销量数据和所述车辆的车辆画像信息进行更新。
第二方面,本发明实施例还提供了一种一站式数据处理的装置,包括:
关系映射模块,用于获取不同数据源的多个车辆数据,对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系;
统计分析模块,用于根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的销量数据,并确定所述车辆的评价标签;
画像模块,用于根据所述评价标签生成所述车辆的车辆画像信息。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的一站式数据处理的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的一站式数据处理的方法。
本发明实施例上述第一方面提供的方案中,可以对多个数据源的车辆数据进行汇总,能够汇聚海量数据;基于不同数据源的统一映射对应关系将不同数据源的车辆数据进行统一映射,从而能够准确确定车辆的销量数据,同时基于评价标签生成相应的车辆画像,方便用户快速查询获取到所需的信息,能够为用户提供高效、准确的车辆信息。通过不同的爬取方式可以爬取到不同类的车辆数据,可以提前对车辆数据进行分类,实现对销售、曝光、评论等不同层级数据的精确划分。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种一站式数据处理的方法的流程图;
图2示出了本发明实施例所提供的车辆画像的一种示意图;
图3示出了本发明实施例所提供的一种一站式数据处理的装置的结构示意图;
图4示出了本发明实施例所提供的用于执行一站式数据处理的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种一站式数据处理的方法,将多个数据源的数据进行整合,进行一站式地统一处理,生成统一处理结果,方便用户进行查询。参见图1所示,该方法包括:
步骤101:获取不同数据源的多个车辆数据,对多个车辆数据进行关系映射,确定不同数据源的统一映射对应关系。
本发明实施例中,不同的数据源中均会存在与车辆相关的数据,即车辆数据,本实施例中从不同数据源中分别获取车辆数据,从而可以实现数据统一、整合。本实施例中,可以采取网络爬虫爬取的方式从数据源中获取车辆数据。由于不同的数据源可能会采用不同的表达方式,本实施例中通过对不同数据源的车辆数据进行关系映射,可以确定不同数据源不同表达方式之间的关联,即可以确定不同数据源的统一映射对应关系,将不同的表达方式映射为统一的方式,从而形成统一的输出口径。
本实施例中,车辆数据可以包含多种数据,每一种数据均可采用一种爬虫进行爬取。具体的,上述步骤“获取不同数据源的多个车辆数据”可以包括:基于不同爬取方式分别对数据源进行爬取处理,爬取数据源的车辆数据,车辆数据包括车辆销售数据、车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,爬取方式用于爬取车辆数据中的一项数据。本实施例中,设置多种爬取方式分别对不同种的车辆数据进行爬取;例如,车辆数据包括车辆销售数据和车辆评论数据,则可以设置两种爬取方式A和B,由爬取方式A爬取车辆销售数据,由爬取方式B爬取车辆评论数据,基于爬取的到的车辆销售数据和车辆评论数据可以生成车辆数据。本实施例中基于多种爬取方式分别对每一类的车辆数据进行爬取,可以提前对车辆数据进行分类,从而使得后续能够对每一类车辆数据进行有针对性地处理,能够为用户提供高效、准确的车辆信息。
可选的,由于不同数据源中的数据会存在重复等问题,本实施例中可以先对获取到的数据进行预处理,将预处理后的数据作为最终所需的车辆数据。具体的,可以采用Sqoop技术,将不同数据源的数据统一抽取存放在数据平台中,之后通过ETL(Extract-Transform-Load,抽取、转换、加载)工具等清洗掉脏数据。
步骤102:根据统一映射对应关系对多个车辆数据进行统计分析,确定车辆的销量数据,并确定车辆的评价标签。
本发明实施例中,将多个数据源的车辆数据进行统计分析,即可确定车辆的销量数据。其中,如上所述,由于不同数据源可能采用不同的表达方式,故需要基于该统一映射对应关系将不同数据源的车辆数据进行统一,从而可以准确确定车辆的销量数据。本实施例中,可以以车型为单位确定销售数据,也可以以车系为单位确定销售数据,或者以车辆品牌为单位确定销售数据、以燃料类型为单位确定销售数据等,具体基于实际需求而定。
同时,车辆数据中含有评价车辆的新闻、或者用户对车辆的评论,基于该信息可以确定车辆的评价标签。本实施例中,该评价标签用于对车辆进行整体评价或部分评价。例如,该评价标签可以整体评价的标签,如“性价比高”、“油耗少”等,也可以是对车辆局部部件进行的评价,即部分评价,如内饰有“真皮座椅”等。可选的,可以对车辆数据进行句法依存处理,基于句法依存处理的结果提取出车辆的评价标签。
步骤103:根据评价标签生成车辆的车辆画像信息。
本发明实施例中,在确定车辆的评价标签之后,即可基于所有的评价标签生成相应的车辆画像信息,该车辆画像信息用于表示该车辆整体和/或局部的属性,方便用户基于该车辆画像信息快速获取到所需的信息,例如车辆的价格区间、油耗等。本实施例中,车辆画像信息可以以车辆画像的形式表示,一种车辆画像的示意图可参见图2所示,其中,图2中以雷达图和词云图表示该车辆画像,也可采用其他形式,本实施例不做限定。
本发明实施例提供的一种一站式数据处理的方法,可以对多个数据源的车辆数据进行汇总,能够汇聚海量数据;基于不同数据源的统一映射对应关系将不同数据源的车辆数据进行统一映射,从而能够准确确定车辆的销量数据,同时基于评价标签生成相应的车辆画像,方便用户快速查询获取到所需的信息。
在上述实施例的基础上,上述步骤101“对多个车辆数据进行关系映射,确定不同数据源的统一映射对应关系”包括:
步骤A1:分别确定不同数据源的车辆数据中的关键字,关键字包括车辆关键字和/或评价关键字。
步骤A2:基于反链接和笛卡尔积对车辆数据中的关键字进行关系映射,生成关键字的统一映射对应关系。
本发明实施例中,不同数据源会采用不同的表达方式,本实施例提取出车辆数据中的关键字,并生成关键字的统一映射对应关系,从而可以形成不同关键字的统一口径,使得后续能够对车辆数据进行准确处理。其中,该关键字可以是车辆关键字,该车辆关键字为描述车辆型号或参数等的关键词。例如,对于某车型,数据源A可以用该车型的中文名称表示,数据源B用该车型的英文名称表示,数据源C用约定俗成的别称或外号等表示等,即三个数据源A、B、C用三种关键词分别表示同一车型,基于该关键词的统一映射对应关系即可确定这三种关键词均表示同一车型。或者,该关键字为评价关键字,评价关键字为用户对车辆评价时所用的关键字。例如,“有操控性”、“操纵感强”、“操控性好”等,均可以作为是对操控性能的褒义评价。
本实施例中,在确定关键词之后,可以基于反链接和笛卡尔积对关键字进行关系映射。例如,可以将不同数据源的不同关键词作为搜索关键词,基于现有的搜索引擎可以定位到能够搜索到的了链接,若不同关键词定位的链接相同,则可认为这些不同的关键词之间存在关联,可以生成统一映射对应关系。对数据进行匹配时,基于笛卡尔积实现数据库中表与表之间的连接;其中笛卡尔积算法本身是现有的成熟技术,此处不做详述。
本实施例中,该统一映射对应关系可以将均存在关联的多个关键词作为一组,也可采用其他方式记录,本实施例对此不做限定。
可选的,上述步骤103“根据评价标签生成车辆的车辆画像信息”包括:
步骤B1:预先确定层级化的评价参数,并确定与车辆的最底层评价参数相对应的评价标签。
本发明实施例中,预先设置层级化的评价参数,即该评价参数基于包含关系可以分为多层,用于对车辆进行评价划分。例如,该评价参数可以分为两级,一级评价参数为车辆的总体参数,如“动力”、“外观”等,二级评价参数为对一级评价参数的进一步细分,如二级评价参数“颜色”、“内饰”等是对“外观”的进一步细分。最底层评价参数即为最底层的评价参数,或者说是叶子节点的评价参数;若评价参数分为两级,则二级评价参数即为最底层评价参数。同时,基于句法依存等方法可以确定与该最底层评价参数相对应的评价标签。
步骤B2:对与最底层评价参数相对应的所有评价标签进行统计处理,将数量最多的评价标签作为最底层评价参数的有效评价标签,并根据车辆的所有最底层评价参数的有效评价标签生成车辆的车辆画像信息。
本实施例中,不同数据源的车辆数据中会存在对该底层评价参数的多种评价,即存在多个评价标签;同时,由于某数据源可能存在多个用户,该数据源的车辆数据中也会存在对该底层评价参数的多种评价,本实施例中将所有评价标签进行统计,从而可以确定数量最多的评价标签,并将该数量最多的评价标签作为最底层评价参数的有效评价标签。此外,车辆会设有多个最底层评价参数,基于多个最底层评价参数的有效评价标签即可完整地表征车辆特性,即可以生成该车辆的车辆画像信息。
在上述实施例的基础上,在步骤101“确定不同数据源的统一映射对应关系”之后,该方法还包括确定车辆指数信息的过程,具体的,该过程包括:
步骤C1:根据统一映射对应关系对多个车辆数据进行统计分析,确定车辆的指数信息;其中,车辆数据包括车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,指数信息相应地包括曝光指数、活跃指数、搜索指数、关注指数中的一项或多项。
本发明实施例中,如上所述,可以基于不同的爬取方式分别获取多种车辆数据,如上述的车辆销售数据,基于该车辆销售数据即可确定相应的销量数据;此外,还可以爬取得到车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据等,给予相应的车辆数据即可统计出相应的指数信息。例如,基于车辆曝光数据可以统计得到曝光指数、基于车辆搜索数据可以统计得到搜索指数等。本实施例中基于该指数信息可以对不同车型或车系的车辆进行对比,可以确定用户比较关注的车辆等。
可选的,该方法还包括:
步骤D1:在数据源发生数据更新时,获取更新后的新增车辆数据。
步骤D2:根据新增车辆数据实时对车辆的销量数据和车辆的车辆画像信息进行更新。
本发明实施例中,当数据源的数据更新时,可以爬取到更新后的数据,即新增车辆数据;之后基于该新增车辆数据即可对车辆的销量数据和车辆的车辆画像信息进行更新。其中,可以采用azkaban任务调度技术等,将每天的新增车辆数据标签化后,增量更新车系画像。
本发明实施例提供的一种一站式数据处理的方法,可以对多个数据源的车辆数据进行汇总,能够汇聚海量数据;基于不同数据源的统一映射对应关系将不同数据源的车辆数据进行统一映射,从而能够准确确定车辆的销量数据,同时基于评价标签生成相应的车辆画像,方便用户快速查询获取到所需的信息,能够为用户提供高效、准确的车辆信息。通过不同的爬取方式可以爬取到不同类的车辆数据,可以提前对车辆数据进行分类,实现对销售、曝光、评论等不同层级数据的精确划分。
以上详细介绍了一站式数据处理的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种一站式数据处理的装置,参见图3所示,包括:
关系映射模块31,用于获取不同数据源的多个车辆数据,对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系;
统计分析模块32,用于根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的销量数据,并确定所述车辆的评价标签;
画像模块33,用于根据所述评价标签生成所述车辆的车辆画像信息。
在上述实施例的基础上,所述关系映射模块31获取不同数据源的多个车辆数据包括:
基于不同爬取方式分别对所述数据源进行爬取处理,爬取所述数据源的车辆数据,所述车辆数据包括车辆销售数据、车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,所述爬取方式用于爬取所述车辆数据中的一项数据。
在上述实施例的基础上,所述关系映射模块31对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系,包括:
分别确定不同所述数据源的车辆数据中的关键字,所述关键字包括车辆关键字和/或评价关键字;
基于反链接和笛卡尔积对所述车辆数据中的关键字进行关系映射,生成所述关键字的统一映射对应关系。
在上述实施例的基础上,所述统计分析模块32确定所述车辆的评价标签包括:
对所述车辆数据进行句法依存处理,提取出所述车辆的评价标签。
在上述实施例的基础上,所述画像模块33根据所述评价标签生成所述车辆的车辆画像信息包括:
预先确定层级化的评价参数,并确定与所述车辆的最底层评价参数相对应的评价标签;
对与所述最底层评价参数相对应的所有所述评价标签进行统计处理,将数量最多的评价标签作为所述最底层评价参数的有效评价标签,并根据所述车辆的所有最底层评价参数的有效评价标签生成所述车辆的车辆画像信息。
在上述实施例的基础上,该装置还包括指数信息确定模块;
在所述关系映射模块31确定不同数据源的统一映射对应关系之后,该指数信息确定模块用于:
根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的指数信息;其中,车辆数据包括车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,所述指数信息相应地包括曝光指数、活跃指数、搜索指数、关注指数中的一项或多项。
在上述实施例的基础上,该装置还包括:更新模块;
所述更新模块用于:在所述数据源发生数据更新时,获取更新后的新增车辆数据;根据所述新增车辆数据实时对所述车辆的销量数据和所述车辆的车辆画像信息进行更新。
本发明实施例提供的一种一站式数据处理的装置,可以对多个数据源的车辆数据进行汇总,能够汇聚海量数据;基于不同数据源的统一映射对应关系将不同数据源的车辆数据进行统一映射,从而能够准确确定车辆的销量数据,同时基于评价标签生成相应的车辆画像,方便用户快速查询获取到所需的信息,能够为用户提供高效、准确的车辆信息。通过不同的爬取方式可以爬取到不同类的车辆数据,可以提前对车辆数据进行分类,实现对销售、曝光、评论等不同层级数据的精确划分。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的一站式数据处理的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的一站式数据处理的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换的实施方式,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种一站式数据处理的方法,其特征在于,包括:
获取不同数据源的多个车辆数据,对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系;
根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的销量数据,并确定所述车辆的评价标签;
根据所述评价标签生成所述车辆的车辆画像信息。
2.根据权利要求1所述的方法,其特征在于,所述获取不同数据源的多个车辆数据包括:
基于不同爬取方式分别对所述数据源进行爬取处理,爬取所述数据源的车辆数据,所述车辆数据包括车辆销售数据、车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,所述爬取方式用于爬取所述车辆数据中的一项数据。
3.根据权利要求1所述的方法,其特征在于,所述对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系,包括:
分别确定不同所述数据源的车辆数据中的关键字,所述关键字包括车辆关键字和/或评价关键字;
基于反链接和笛卡尔积对所述车辆数据中的关键字进行关系映射,生成所述关键字的统一映射对应关系。
4.根据权利要求1所述的方法,其特征在于,所述确定所述车辆的评价标签包括:
对所述车辆数据进行句法依存处理,提取出所述车辆的评价标签。
5.根据权利要求1所述的方法,其特征在于,根据所述评价标签生成所述车辆的车辆画像信息包括:
预先确定层级化的评价参数,并确定与所述车辆的最底层评价参数相对应的评价标签;
对与所述最底层评价参数相对应的所有所述评价标签进行统计处理,将数量最多的评价标签作为所述最底层评价参数的有效评价标签,并根据所述车辆的所有最底层评价参数的有效评价标签生成所述车辆的车辆画像信息。
6.根据权利要求1所述的方法,其特征在于,在所述确定不同数据源的统一映射对应关系之后,还包括:
根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的指数信息;其中,车辆数据包括车辆曝光数据、车辆点击数据、车辆搜索数据、车辆评论数据中的一项或多项,所述指数信息相应地包括曝光指数、活跃指数、搜索指数、关注指数中的一项或多项。
7.根据权利要求1所述的方法,其特征在于,还包括:
在所述数据源发生数据更新时,获取更新后的新增车辆数据;
根据所述新增车辆数据实时对所述车辆的销量数据和所述车辆的车辆画像信息进行更新。
8.一种一站式数据处理的装置,其特征在于,包括:
关系映射模块,用于获取不同数据源的多个车辆数据,对多个所述车辆数据进行关系映射,确定不同数据源的统一映射对应关系;
统计分析模块,用于根据所述统一映射对应关系对多个所述车辆数据进行统计分析,确定车辆的销量数据,并确定所述车辆的评价标签;
画像模块,用于根据所述评价标签生成所述车辆的车辆画像信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-7任意一项所述的一站式数据处理的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任意一项所述的一站式数据处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392157.9A CN111581479B (zh) | 2020-05-11 | 2020-05-11 | 一站式数据处理的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392157.9A CN111581479B (zh) | 2020-05-11 | 2020-05-11 | 一站式数据处理的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581479A true CN111581479A (zh) | 2020-08-25 |
CN111581479B CN111581479B (zh) | 2021-04-13 |
Family
ID=72112160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010392157.9A Expired - Fee Related CN111581479B (zh) | 2020-05-11 | 2020-05-11 | 一站式数据处理的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581479B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767440A (zh) * | 2020-09-03 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的车辆画像方法、计算机设备和存储介质 |
CN112182212A (zh) * | 2020-09-27 | 2021-01-05 | 广州汽车集团股份有限公司 | 一种网络车辆碰撞数据的处理方法及系统 |
CN112733017A (zh) * | 2020-12-30 | 2021-04-30 | 青岛海尔科技有限公司 | 一种标签管理方法、装置、存储介质及电子装置 |
CN113282683A (zh) * | 2021-05-21 | 2021-08-20 | 青岛海尔科技有限公司 | 设备画像的确定方法、装置、存储介质及电子装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727464A (zh) * | 2008-10-29 | 2010-06-09 | 北京搜狗科技发展有限公司 | 获取别称匹配对的方法及装置 |
CN106844403A (zh) * | 2015-12-07 | 2017-06-13 | 北京国双科技有限公司 | 信息处理方法和装置 |
CN107544994A (zh) * | 2016-06-27 | 2018-01-05 | 北京国双科技有限公司 | 关联数据的处理方法和装置 |
CN107608961A (zh) * | 2017-09-08 | 2018-01-19 | 广州汪汪信息技术有限公司 | 基于视角的情感分析方法、电子设备、存储介质、系统 |
CN107944060A (zh) * | 2018-01-02 | 2018-04-20 | 天津大学 | 一种面向汽车垂直网站的产品信息检索方法 |
CN108932255A (zh) * | 2017-05-25 | 2018-12-04 | 北京万集科技股份有限公司 | 一种车辆综合能力分析方法及装置 |
CN109829033A (zh) * | 2017-11-23 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 数据展示方法和终端设备 |
CN110427547A (zh) * | 2018-04-26 | 2019-11-08 | 观相科技(上海)有限公司 | 一种基于行业特征的搜索系统及搜索方法 |
-
2020
- 2020-05-11 CN CN202010392157.9A patent/CN111581479B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727464A (zh) * | 2008-10-29 | 2010-06-09 | 北京搜狗科技发展有限公司 | 获取别称匹配对的方法及装置 |
CN106844403A (zh) * | 2015-12-07 | 2017-06-13 | 北京国双科技有限公司 | 信息处理方法和装置 |
CN107544994A (zh) * | 2016-06-27 | 2018-01-05 | 北京国双科技有限公司 | 关联数据的处理方法和装置 |
CN108932255A (zh) * | 2017-05-25 | 2018-12-04 | 北京万集科技股份有限公司 | 一种车辆综合能力分析方法及装置 |
CN107608961A (zh) * | 2017-09-08 | 2018-01-19 | 广州汪汪信息技术有限公司 | 基于视角的情感分析方法、电子设备、存储介质、系统 |
CN109829033A (zh) * | 2017-11-23 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 数据展示方法和终端设备 |
CN107944060A (zh) * | 2018-01-02 | 2018-04-20 | 天津大学 | 一种面向汽车垂直网站的产品信息检索方法 |
CN110427547A (zh) * | 2018-04-26 | 2019-11-08 | 观相科技(上海)有限公司 | 一种基于行业特征的搜索系统及搜索方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767440A (zh) * | 2020-09-03 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱的车辆画像方法、计算机设备和存储介质 |
CN112182212A (zh) * | 2020-09-27 | 2021-01-05 | 广州汽车集团股份有限公司 | 一种网络车辆碰撞数据的处理方法及系统 |
CN112182212B (zh) * | 2020-09-27 | 2024-06-07 | 广州汽车集团股份有限公司 | 一种网络车辆碰撞数据的处理方法及系统 |
CN112733017A (zh) * | 2020-12-30 | 2021-04-30 | 青岛海尔科技有限公司 | 一种标签管理方法、装置、存储介质及电子装置 |
CN113282683A (zh) * | 2021-05-21 | 2021-08-20 | 青岛海尔科技有限公司 | 设备画像的确定方法、装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111581479B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581479B (zh) | 一站式数据处理的方法、装置、存储介质及电子设备 | |
Wang et al. | Billion-scale commodity embedding for e-commerce recommendation in alibaba | |
US7580926B2 (en) | Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy | |
Chen et al. | A flexible assembly retrieval approach for model reuse | |
US9317533B2 (en) | Adaptive image retrieval database | |
Sun et al. | Ranking-based clustering of heterogeneous information networks with star network schema | |
Yan et al. | Fast business process similarity search | |
US20060155751A1 (en) | System and method for document analysis, processing and information extraction | |
JP4750456B2 (ja) | エンハンストドキュメント取り出しのためのコンテンツ伝播 | |
US20070214133A1 (en) | Methods for filtering data and filling in missing data using nonlinear inference | |
US7818323B2 (en) | Discovering topical structures of databases | |
CN106202514A (zh) | 基于Agent的突发事件跨媒体信息的检索方法及系统 | |
CN100462969C (zh) | 利用互联网为公众提供和查询信息的方法 | |
WO2010056723A1 (en) | Method and system for semantic distance measurement | |
CN106407445B (zh) | 一种基于url的非结构化数据资源标识和定位方法 | |
US11727058B2 (en) | Unsupervised automatic taxonomy graph construction using search queries | |
CN115659008B (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
Xu et al. | KIPTC: a kernel information propagation tag clustering algorithm | |
Lieberam-Schmidt | Analyzing and influencing search engine results: business and technology impacts on Web information retrieval | |
Taha et al. | BusSEngine: a business search engine | |
Arora et al. | A synonym based approach of data mining in search engine optimization | |
Liaqat et al. | Applying uncertain frequent pattern mining to improve ranking of retrieved images | |
CN114625973B (zh) | 一种匿名信息跨域推荐方法、装置、电子设备及存储介质 | |
Wu | Automating Knowledge Distillation and Representation from Richly Formatted Data | |
Rana et al. | Analysis of web mining technology and their impact on semantic web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210413 |