CN111814023B - 一种汽车车型网络价格监测系统 - Google Patents

一种汽车车型网络价格监测系统 Download PDF

Info

Publication number
CN111814023B
CN111814023B CN202010750740.2A CN202010750740A CN111814023B CN 111814023 B CN111814023 B CN 111814023B CN 202010750740 A CN202010750740 A CN 202010750740A CN 111814023 B CN111814023 B CN 111814023B
Authority
CN
China
Prior art keywords
data
automobile
price
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010750740.2A
Other languages
English (en)
Other versions
CN111814023A (zh
Inventor
孙一帅
李奏换
龚鹤皋
陈楚豪
郭建铮
梁维新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wilson Information Technology Co ltd
Original Assignee
Guangzhou Wilson Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wilson Information Technology Co ltd filed Critical Guangzhou Wilson Information Technology Co ltd
Priority to CN202010750740.2A priority Critical patent/CN111814023B/zh
Publication of CN111814023A publication Critical patent/CN111814023A/zh
Application granted granted Critical
Publication of CN111814023B publication Critical patent/CN111814023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种汽车车型网络价格监测系统,数据采集模块通过爬虫技术从汽车网站采集汽车车型网络价格数据并存储至预置数据库;数据同步模块将预置数据库的网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS;数据预处理模块将HDFS的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据;数据计算模块根据预置计算规则对预处理后的汽车车型网络价格数据进行计算;可视化模块对计算结果进行可视化,解决了现有的汽车车型价格的获取和处理采用人工处理,存在数据采集和处理时间长,处理效率低的技术问题。

Description

一种汽车车型网络价格监测系统
技术领域
本申请涉及数据处理技术领域,尤其涉及一种汽车车型网络价格监测系统。
背景技术
目前,汽车市场竞争日益激烈,越来越多的汽车品牌进入市场,给企业新产品定价决策的制定带来了风险和不确定性。现有技术中,企业或用户主要是通过人工浏览相关汽车信息网站来获取汽车车型价格,人工录入到数据表中,再进行数据汇总和分析,存在数据采集和处理时间长,处理效率低的技术问题。
发明内容
本申请提供了一种汽车车型网络价格监测系统,用于解决现有的汽车车型价格的获取和处理采用人工处理,存在数据采集和处理时间长,处理效率低的技术问题。
有鉴于此,本申请第一方面提供了一种汽车车型网络价格监测系统,包括:
数据采集模块,用于基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将所述汽车车型网络价格数据存储至预置数据库;
数据同步模块,用于将所述预置数据库中的所述汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS;
数据预处理模块,用于将所述HDFS中的所述汽车车型网络价格数据加载到Hive表,对所述Hive表中的所述汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据;
数据计算模块,用于根据预置计算规则对所述预处理后的汽车车型网络价格数据进行相关计算,得到计算结果;
可视化模块,用于对所述计算结果进行可视化。
可选的,所述数据采集模块具体用于:
基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将所述汽车车型网络价格数据存储至预置数据库,并更新采集状态表;
其中,所述采集状态表用于监测汽车网站的各所述汽车车型网络价格数据是否完成采集或是否完成同步。
可选的,所述数据同步模块具体用于:
根据所述采集状态表,确定所述预置数据库中未同步的汽车车型网络价格数据;
将所述未同步的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS,并更新所述采集状态表。
可选的,还包括:
异常监测模块,用于对采集各所述汽车车型网络价格数据的过程进行监测,当监测到采集数据异常时,发送告警信息给所述数据采集模块。
可选的,所述数据计算模块,包括:
网络优惠计算子模块,用于基于所述预处理后的汽车车型网络价格数据计算各车型汽车的最大网络优惠或网络优惠平均值;
相应的,所述可视化模型,具体用于对各车型汽车在第一预置时间段内的所述最大网络优惠或所述网络优惠平均值进行可视化,得到各车型汽车在所述第一预置时间段内的所述最大网络优惠的走势图或所述网络优惠平均值的走势图。
可选的,所述数据计算模块,还包括:
折扣率计算子模块,用于基于所述预处理后的汽车车型网络价格数据计算各车型汽车的折扣率;
相应的,所述可视化模型,具体用于对各车型汽车在第二预置时间段内的所述折扣率进行可视化,得到各车型汽车在所述第二预置时间段内的所述折扣率的走势图。
可选的,还包括:
报价决策模块,用于对所述预处理后的汽车车型网络价格数据进行数据分析,得到各车型汽车的价格信息,使得汽车厂商根据各车型汽车的所述价格信息获取竞争车型汽车的所述价格信息,并制定所述汽车厂商的汽车的网络价格,所述价格信息包括最高价格、最低价格、平均价格、价格的中位数或价格的众数。
可选的,还包括:
不规范报价监测模块,用于监测所述预处理后的汽车车型网络价格数据,当所述预处理后的汽车车型网络价格数据高于第一预置阈值或低于第二预置阈值时,对所述预处理后的汽车车型网络价格数据进行不规范报价标记。
可选的,所述数据计算模块,还包括:
占比计算子模块,用于计算各车型汽车的不规范报价的占比;
相应的,所述可视化模块,具体用于对各车型汽车的所述不规范报价的占比进行可视化。
可选的,所述可视化模块具体用于:
根据汽车车型或区域对各车型汽车的所述不规范报价的占比进行可视化。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种汽车车型网络价格监测系统,包括:数据采集模块,用于基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将汽车车型网络价格数据存储至预置数据库;数据同步模块,用于将预置数据库中的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS;数据预处理模块,用于将HDFS中的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据;数据计算模块,用于根据预置计算规则对预处理后的汽车车型网络价格数据进行相关计算,得到计算结果;可视化模块,用于对计算结果进行可视化。
本申请中的汽车车型网络价格监测系统,通过数据采集模块基于网络爬虫技术从各汽车网站采集汽车车型网络价格数据,并存储至预置数据库中,避免了人工采集和录入汽车车型网络价格数据,提高了数据采集效率;数据同步模块将各汽车车型网络价格数据同步到分布式文件系统HDFS,方便统一存储和处理大批量数据;数据预处理模块将HDFS中的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,基于大数据平台对大批量的汽车车型网络价格数据进行过滤、匹配和汇总等预处理,提高了数据的处理效率,保证了数据的准确性;数据计算模块根据预置计算规则对预处理后的汽车车型网络价格数据进行相关计算并通过可视化模块对计算结果进行可视化,方便对各车型汽车的汽车车型网络价格数据进行监测和查询,从而解决了现有的汽车车型价格的获取和处理采用人工处理,存在数据采集和处理时间长,处理效率低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种汽车车型网络价格监测系统的一个结构示意图;
图2为本申请实施例提供的一种汽车车型网络价格监测系统的另一个结构示意图。
具体实施方式
本申请提供了一种汽车车型网络价格监测系统,用于解决现有的汽车车型价格的获取和处理采用人工处理,存在数据采集和处理时间长,处理效率低的技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种汽车车型网络价格监测系统的一个实施例,包括:
数据采集模块100,用于基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将汽车车型网络价格数据存储至预置数据库。
数据同步模块101,用于将预置数据库中的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS。
数据预处理模块102,用于将HDFS中的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据。
数据计算模块103,用于根据预置计算规则对预处理后的汽车车型网络价格数据进行相关计算,得到计算结果。
可视化模块104,用于对计算结果进行可视化。
需要说明的是,数据采集模块100可以基于网络爬虫技术,从各汽车网站(汽车厂商官网、汽车之家或易车的指定网站等)采集各汽车车型网络价格数据,将汽车车型网络价格数据存储至预置数据库,汽车车型网络价格数据为各车型汽车在网站上的网络报价。具体的,数据采集模块100通过预先配置的页面解析规则,对保存的网站的页面进行解析,将解析得到的页面数据转换为结构化数据,并将结构化数据存储在预置数据库中,本申请实施例中优选将汽车车型网络价格数据存储至MySQL数据库,其中,采集字段包括:汽车网站名称、网站ID、车型型号ID、车型名称、报价日期、经销商名称、经销商ID、城市名称、城市ID或车型网络价格等。本申请实施例中的数据采集模块100可以采用增量采集,即每天定时采集所需要的数据,例如,每天中午12点,开始采集当天的汽车车型网络价格数据,还可以设置采集时间为2个小时。不同汽车网站采集到的数据,分别存储在不同的数据表中,例如,汽车网站A的数据可以存储在MySQL数据库的数据表table_a中,汽车网站B的数据可以存储在MySQL数据库的数据表table_b中,这两个数据表的表结构是一样的。
本申请实施例中的汽车车型网络价格监测系统部署Hadoop大数据平台,安装所需的大数据组件HDFS、Hive、Impala,并安装kettle数据同步工具,配置数据同步的输入端为MySQL数据库,数据同步的输出端为分布式文件系统HDFS,通过数据同步模块101将MySQL数据库中的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS,将海量的汽车车型网络价格数据存储在分布式文件系统HDFS中,具有高容错,适合批处理和大数据的处理,支持水平扩展,可以保证数据的可靠性,并且将大批量的汽车车型网络价格数据统一存储在分布式文件系统HDFS中,统一集中处理。本申请实施例中的数据同步模块101可以采用增量同步,即每天定时同步数据。
数据预处理模块102将HDFS中的汽车车型网络价格数据加载到Hive表,例如,对于汽车网站A在HDFS上的数据文件table_a.txt,加载到Hive表pre_table_net_price_a,对于汽车网站B在HDFS上的数据文件table_b.txt,加载到Hive表pre_table_net_price_b。通过数据预处理模块102对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,从而实现对不同网站数据进行过滤、匹配和汇总。
数据预处理模块102可以将Hive表中的经销商ID为空的异常数据、汽车型号ID为空的异常数据过滤掉,减少无效的数据量,提高后续数据的处理效率。例如,对于汽车网站A的数据,把车型型号ID值为空的异常数据或经销商ID为空的异常数据过滤掉,过滤后的数据保存在Hive表pre_table_net_price_tmp_a;对于汽车网站B的数据,把车型型号ID值为空的异常数据或经销商ID为空的异常数据过滤掉,过滤后的数据保存在Hive表pre_table_net_price_tmp_b。数据预处理模块102还可以根据经销商维度表的经销商ID对各网站的数据进行过滤,只保留经销商维度表存在的经销商ID的数据,过滤掉不在经销商维度表中的经销商ID的数据,并将处理后的数据存储在临时表中,其中,经销商维度表预先设置在监测系统中,针对不同的网址,设置有对应的经销商维度表。
数据预处理模型102还可以根据采集字段(汽车网站名称、网站ID、车型型号ID、车型名称、报价日期、经销商名称、经销商ID、城市名称、城市ID或车型网络价格)过滤掉重复的数据,减少无效的数据量。例如,对于汽车网站A的数据,对经过异常值过滤后的Hive表pre_table_net_price_tmp_a,根据汽车网站名称、网站ID、车型型号ID、车型名称、报价日期、经销商名称、经销商ID、城市名称、城市ID或车型网络价格,这些采集字段,删除掉重复值,以过滤重复的数据,过滤掉重复值后,将数据保存到Hive表pre_table_net_price_tmp_distinct_a;对于汽车网站B的数据,对经过异常值过滤后的Hive表pre_table_net_price_tmp_b,根据汽车网站名称、网站ID、车型型号ID、车型名称、报价日期、经销商名称、经销商ID、城市名称、城市ID或车型网络价格,这些采集字段,删除掉重复值,以过滤重复的数据,过滤掉重复值后,将数据保存到Hive表pre_table_net_price_tmp_distinct_b。
本申请中的监测系统,针对不同的网址,还设置有对应的车型型号匹配维度表,车型型号匹配维度表中一个车型型号可以对应汽车网站上多个不同车型型号,属于一对多的对应关系,这样的处理方式,可以将网站上多个类似的车型型号归类到同一个车型型号。例如,在汽车网站A中,长安福特·福睿斯·2019款·改款·1.5L·自动质享型(胎压监测)·国Ⅵ,对应的车型型号ID为41838,长安福特·福睿斯·2019款·改款·1.5L·自动质享型·国Ⅵ,对应的车型型号ID为3992,在本监测系统的车型型号匹配维度表table_model_a中,这两种车型对应的车型型号ID均为10557。因此,数据预处理模块102对Hive表中的汽车车型网络价格数据进行车型型号匹配的具体过程可以为:数据预处理模块102匹配汽车网站A的车型型号数据时,根据汽车网站A的网站名称,确定对应的车型型号匹配维度表为table_model_a,采用车型型号匹配维度表table_model_a将类似的车型型号统一修改为table_model_a中对应的车型型号,例如将车型型号ID:41838和车型型号ID:3992统一修改为车型型号ID:10557,并将处理后的数据存储在临时表table_net_price_tmp_a中;同样的,对于汽车网站B,根据汽车网站B的网站名称,确定对应的车型型号匹配维度表为table_model_b,采用车型型号匹配维度表table_model_b将类似的车型型号统一修改为table_model_b中对应的车型型号,并将处理后的数据存储在临时表table_net_price_tmp_b中。
数据预处理模块102将经过上述处理后的所有数据汇总到Hive的结果表table_net_price,Hive的结果表table_net_price是一个分区表,可以按天分区,这样处理,方便查询时,可以按天查询,使得该汽车车型网络价格监测系统具备很快的查询速度。
数据计算模块103根据预置计算规则对预处理后的汽车车型网络价格数据进行相关计算,得到计算结果,将计算结果存储在Hive的结果表中,可视化模块104对计算结果进行可视化,用户可以使用大数据查询工具Impala进行快速查询,并通过可视化模型104进行展示。
本申请实施例中的汽车车型网络价格监测系统,通过数据采集模块基于网络爬虫技术从各汽车网站采集汽车车型网络价格数据,并存储至预置数据库中,避免了人工采集和录入汽车车型网络价格数据,提高了数据采集效率;数据同步模块将各汽车车型网络价格数据同步到分布式文件系统HDFS,方便统一存储和处理大批量数据;数据预处理模块将HDFS中的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,基于大数据平台对大批量的汽车车型网络价格数据进行过滤、匹配和汇总等预处理,提高了数据的处理效率,保证了数据的准确性;数据计算模块根据预置计算规则对预处理后的汽车车型网络价格数据进行相关计算并通过可视化模块对计算结果进行可视化,方便对各车型汽车的汽车车型网络价格数据进行监测和查询,从而解决了现有的汽车车型价格的获取和处理采用人工处理,存在数据采集和处理时间长,处理效率低的技术问题。
以上为本申请提供的一种汽车车型网络价格监测系统的一个实施例,以下为本申请提供的一种汽车车型网络价格监测系统的另一个实施例。
为了便于理解,请参阅图2,本申请提供的一种汽车车型网络价格监测系统的另一个实施例,包括:
数据采集模块200,用于基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将汽车车型网络价格数据存储至预置数据库。
数据同步模块201,用于将预置数据库中的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS。
数据预处理模块202,用于将HDFS中的汽车车型网络价格数据加载到Hive表,对Hive表中的汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据。
数据计算模块203,用于根据预置计算规则对预处理后的汽车车型网络价格数据进行相关计算,得到计算结果。
可视化模块204,用于对计算结果进行可视化。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统中的数据采集模块200具体用于:
基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将汽车车型网络价格数据存储至预置数据库,并更新采集状态表;
其中,采集状态表用于监测汽车网站的各汽车车型网络价格数据是否完成采集或是否完成同步。
需要说明的是,数据采集模块200基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将汽车车型网络价格数据存储至预置数据库,并更新采集状态表net_price_status中的状态值,将采集后的数据的状态值更新为0,采集状态表net_price_status中的状态值为0时,表示数据已经采集完成,但还没有同步;采集状态表net_price_status中的状态值为1时,表示数据已经同步完成。采集状态表net_price_status的结构可以为(报价日期,状态值),例如,采集状态表(20200101,1)、(20200102,1)、(20200103,0),表示数据最后采集到20200103,从20200104开始,往后的数据都还没有采集,而20200101和20200102数据已经完成采集和完成同步,20200103数据完成采集,但还未完成同步。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统中的数据同步模块201具体用于:
根据采集状态表,确定预置数据库中未同步的汽车车型网络价格数据;
将未同步的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS,并更新采集状态表。
需要说明的是,本申请实施例可以采用增量采集数据和增量同步数据,即每天定时采集所需要的数据,定时同步数据,例如,每天中午12点开始采集当天的数据,每天下午2点,定时同步数据任务开始执行。数据同步模块201同步数据时,首先读取采集状态表net_price_status中的状态值,当采集状态表net_price_status中的状态值有0值,该数据采集完还未同步,数据同步模块201正常同步该数据,将所有状态值为0的日期的数据都进行同步,并更新采集状态表net_price_status,将同步后的数据的状态值更新为1,还可以发送数据同步成功信息给数据采集模块200。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统,还包括:
异常监测模块205,用于对采集各汽车车型网络价格数据的过程进行监测,当监测到采集数据异常时,发送告警信息给数据采集模块200。
需要说明的是,本申请实施例中的监测系统设置有异常监测模块205,异常监测模块205对采集各汽车车型网络价格数据的过程进行监测,当监测到采集数据异常时,发送告警信息给数据采集模块200。异常监测模块205可以通过实时监测采集状态表中的状态值来实时监测数据采集过程,当监测到采集状态表中的报价日期数据的状态值没有数值时,就判断当天的数据采集出现了异常,发送告警信息给数据采集模块200,使得数据采集模块200重新采集该数据。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统中的数据计算模块203,包括:
网络优惠计算子模块2031,用于基于预处理后的汽车车型网络价格数据计算各车型汽车的最大网络优惠或网络优惠平均值。
相应的,可视化模型204,具体用于对各车型汽车在第一预置时间段内的最大网络优惠或网络优惠平均值进行可视化,得到各车型汽车在第一预置时间段内的最大网络优惠的走势图或网络优惠平均值的走势图。
网络优惠计算子模块2031基于预处理后的汽车车型网络价格数据计算各车型汽车的最大网络优惠或网络优惠平均值,以计算最大网络优惠为例进行说明,通常汽车厂商的网络价格有相应的指导价格,例如,基于预处理后的汽车车型网络价格数据得到某款车型汽车,厂商指导价为10万,最低网络报价为9.4万,网络优惠计算子模块2031计算得到这款车的最大网络优惠为9.4-10=-0.6万,最大网络优惠值越小,表示网络优惠越大。相应的,可视化模型204对各车型汽车在第一预置时间段内的最大网络优惠进行可视化,得到各车型汽车在第一预置时间段内的最大网络优惠的走势图,以便用户查看,第一预置时间段可以根据实际需要进行设置,在此不做具体的限定。网络优惠计算子模块2031还可以对计算后的各车型汽车的最大网络优惠或网络优惠平均值进行排序,相应的,可视化模型204可以根据该排序对各车型汽车的最大网络优惠或网络优惠平均值进行排序进行可视化。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统中的数据计算模块203,还包括:
折扣率计算子模块2032,用于基于预处理后的汽车车型网络价格数据计算各车型汽车的折扣率;
相应的,可视化模型204,具体用于对各车型汽车在第二预置时间段内的折扣率进行可视化,得到各车型汽车在第二预置时间段内的折扣率的走势图。
需要说明的是,当用户想查询各车型汽车的优惠力度时,可以查询各车型汽车的折扣率,折扣率越大,表示优惠力度越大。其中,折扣率的计算公式为:
折扣率=(厂商指导价-网络报价)/厂商指导价*100%;
用户通过可视化模块204可以查看各车型汽车在第二预置时间段内的折扣率的走势图,第二预置时间段可以根据实际需要进行设置,在此不做具体的限定,第二预置时间可以与第一预置时间段相同或不相同。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统,还包括:
报价决策模块206,用于对预处理后的汽车车型网络价格数据进行数据分析,得到各车型汽车的价格信息,使得汽车厂商根据各车型汽车的价格信息获取竞争车型汽车的价格信息,并制定汽车厂商的汽车的网络价格,价格信息包括最高价格、最低价格、平均价格、价格的中位数或价格的众数。
需要说明的是,汽车厂商可以通过报价决策模块206对预处理后的汽车车型网络价格数据进行数据分析,得到各车型汽车的价格信息,进而筛选得到竞争车型汽车的价格信息,其中,价格信息包括最高价格、最低价格、平均价格、价格的中位数或价格的众数,汽车厂商可以根据竞争车型汽车的这些价格信息,再结合自己车型的具体情况,制定一个具备有竞争力的汽车车型网络价格,使得自己的车型汽车处于有利的竞争位置,具体如何根据价格信息制定汽车的网络报价,可以根据实际情况进行制定,在此不做具体的限定。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统,还包括:
不规范报价监测模块207,用于监测预处理后的汽车车型网络价格数据,当预处理后的汽车车型网络价格数据高于第一预置阈值或低于第二预置阈值时,对预处理后的汽车车型网络价格数据进行不规范报价标记。
需要说明的是,汽车厂商的网络价格有个指导价格,不规范报价监测模块207用于监测预处理后的汽车车型网络价格数据,当监测到预处理后的汽车车型网络价格数据高于第一预置阈值或低于第二预置阈值时,就判定该预处理后的汽车车型网络价格数据是不规范报价,对该预处理后的汽车车型网络价格数据进行不规范报价标记,第一预置阈值和第二预置阈值基于指导价格制定,例如,第一预置阈值可以设置为大于或等于指导价格,但不超过指导价格的5%的值,第二预置阈值可以设置为小于指导价格的某个值。
相应的,可视化模块204还可以对这些不规范报价的车型汽车进行可视化展示,以便汽车厂商的市场监督人员对这些不规范报价的车型汽车的厂商进行重点监督,以维护汽车市场的车型网络价格秩序。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统中的数据计算模块203,还包括:
占比计算子模块2033,用于计算各车型汽车的不规范报价的占比。
相应的,可视化模块204,具体用于对各车型汽车的不规范报价的占比进行可视化。
需要说明的是,标注得到不规范报价的数据后,还可以进一步处理和分析,可以通过占比计算子模块2033计算各车型汽车的不规范报价的占比,某车型汽车的不规范报价的占比为不规范报价的数量与网络报价的总数量的比值。相应的,通过可视化模块204对各车型汽车的不规范报价的占比进行可视化,以便汽车厂商的市场监督人员重点监督,可以找到不规范报价占比高的汽车经销商,进行重点约束。在计算得到不规范报价的占比后,还可以根据不规范报价的占比的大小对各车型汽车进行排序,对排在前N名的车型汽车可以进行重点标记,以便用户查询时,可以快速地了解到这些车型汽车的报价异常,谨慎考虑是否购买该车型汽车;还可以根据各车型汽车的不规范报价的占比对各车型汽车进行可靠性评价。
作为进一步地改进,本申请实施例中的汽车车型网络价格监测系统中的可视化模块204具体用于:
根据汽车车型或区域对各车型汽车的不规范报价的占比进行可视化。
需要说明的是,可视化模块204还可以根据汽车车型对各车型汽车的不规范报价的占比进行可视化,还可以分车型提供不同网站的汽车报价数据;还可以分区域展示各车型汽车的不规范报价的占比,或者分区域展示预处理后的汽车车型网络价格数据,可以采用图表的方式进行可视化。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种汽车车型网络价格监测系统,其特征在于,包括:
数据采集模块,用于基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将所述汽车车型网络价格数据存储至预置数据库;
数据同步模块,用于将所述预置数据库中的所述汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS;
数据预处理模块,用于将所述HDFS中的所述汽车车型网络价格数据加载到Hive表,对所述Hive表中的所述汽车车型网络价格数据依次进行异常值过滤、重复值过滤、车型型号匹配和汇总,得到预处理后的汽车车型网络价格数据;
所述数据预处理模块对所述Hive表中的所述汽车车型网络价格数据进行车型型号匹配的具体过程为:所述数据预处理模块在匹配汽车网站的车型型号数据时,根据该汽车网站的网站名称,确定对应的车型型号匹配维度表,采用所述车型型号匹配维度表将类似的车型型号统一修改为该车型型号匹配维度表中对应的车型型号,并将处理后的数据存储在临时表中,其中,不同的汽车网站设置有对应的所述车型型号匹配维度表,所述车型型号匹配维度表中一个车型型号对应汽车网站上多个不同车型型号;
数据计算模块,用于根据预置计算规则对所述预处理后的汽车车型网络价格数据进行相关计算,得到计算结果;
可视化模块,用于对所述计算结果进行可视化;
不规范报价监测模块,用于监测所述预处理后的汽车车型网络价格数据,当所述预处理后的汽车车型网络价格数据高于第一预置阈值或低于第二预置阈值时,对所述预处理后的汽车车型网络价格数据进行不规范报价标记;
所述数据计算模块包括:
占比计算子模块,用于计算各车型汽车的不规范报价的占比;
相应的,所述可视化模块,具体用于对各车型汽车的所述不规范报价的占比进行可视化;
所述数据计算模块,还包括:
网络优惠计算子模块,用于基于所述预处理后的汽车车型网络价格数据计算各车型汽车的最大网络优惠或网络优惠平均值;
相应的,所述可视化模型,具体用于对各车型汽车在第一预置时间段内的所述最大网络优惠或所述网络优惠平均值进行可视化,得到各车型汽车在所述第一预置时间段内的所述最大网络优惠的走势图或所述网络优惠平均值的走势图;
所述数据计算模块,还包括:
折扣率计算子模块,用于基于所述预处理后的汽车车型网络价格数据计算各车型汽车的折扣率;
相应的,所述可视化模型,具体用于对各车型汽车在第二预置时间段内的所述折扣率进行可视化,得到各车型汽车在所述第二预置时间段内的所述折扣率的走势图。
2.根据权利要求1所述的汽车车型网络价格监测系统,其特征在于,所述数据采集模块具体用于:
基于网络爬虫技术从各汽车网站采集各汽车车型网络价格数据,将所述汽车车型网络价格数据存储至预置数据库,并更新采集状态表;
其中,所述采集状态表用于监测汽车网站的各所述汽车车型网络价格数据是否完成采集或是否完成同步。
3.根据权利要求2所述的汽车车型网络价格监测系统,其特征在于,所述数据同步模块具体用于:
根据所述采集状态表,确定所述预置数据库中未同步的汽车车型网络价格数据;
将所述未同步的汽车车型网络价格数据同步到Hadoop大数据平台的分布式文件系统HDFS,并更新所述采集状态表。
4.根据权利要求1所述的汽车车型网络价格监测系统,其特征在于,还包括:
异常监测模块,用于对采集各所述汽车车型网络价格数据的过程进行监测,当监测到采集数据异常时,发送告警信息给所述数据采集模块。
5.根据权利要求1所述的汽车车型网络价格监测系统,其特征在于,还包括:
报价决策模块,用于对所述预处理后的汽车车型网络价格数据进行数据分析,得到各车型汽车的价格信息,使得汽车厂商根据各车型汽车的所述价格信息获取竞争车型汽车的所述价格信息,并制定所述汽车厂商的汽车的网络价格,所述价格信息包括最高价格、最低价格、平均价格、价格的中位数或价格的众数。
6.根据权利要求1所述的汽车车型网络价格监测系统,其特征在于,所述可视化模块具体用于:
根据汽车车型或区域对各车型汽车的所述不规范报价的占比进行可视化。
CN202010750740.2A 2020-07-30 2020-07-30 一种汽车车型网络价格监测系统 Active CN111814023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010750740.2A CN111814023B (zh) 2020-07-30 2020-07-30 一种汽车车型网络价格监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010750740.2A CN111814023B (zh) 2020-07-30 2020-07-30 一种汽车车型网络价格监测系统

Publications (2)

Publication Number Publication Date
CN111814023A CN111814023A (zh) 2020-10-23
CN111814023B true CN111814023B (zh) 2021-06-15

Family

ID=72863367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010750740.2A Active CN111814023B (zh) 2020-07-30 2020-07-30 一种汽车车型网络价格监测系统

Country Status (1)

Country Link
CN (1) CN111814023B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469095A (zh) * 2015-11-17 2016-04-06 电子科技大学 一种基于车型图像的模式集直方图的车型识别方法
CN108108657A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100832604B1 (ko) * 2000-05-30 2008-05-27 시스테무.로케이션 가부시키가이샤 차량 재판매가격 분석장치
US20090006543A1 (en) * 2001-08-20 2009-01-01 Masterobjects System and method for asynchronous retrieval of information based on incremental user input
US20060074702A1 (en) * 2004-10-06 2006-04-06 Schuette Thomas A Method and system for managing a fleet of vehicles
CN103268336A (zh) * 2013-05-13 2013-08-28 刘峰 一种快数据和大数据结合的数据处理方法及其系统
CN103279879A (zh) * 2013-05-29 2013-09-04 浙江搜车客网络技术有限公司 一种在线二手汽车估价的方法
CN105787064A (zh) * 2016-03-01 2016-07-20 广州铭诚计算机科技有限公司 一种基于大数据的挖掘平台构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469095A (zh) * 2015-11-17 2016-04-06 电子科技大学 一种基于车型图像的模式集直方图的车型识别方法
CN108108657A (zh) * 2017-11-16 2018-06-01 浙江工业大学 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法

Also Published As

Publication number Publication date
CN111814023A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN110909986A (zh) 基于知识图谱的疑似实际控制人的风险识别方法及系统
CN111833018A (zh) 一种科技项目的专利分析方法及系统
CN111814023B (zh) 一种汽车车型网络价格监测系统
CN114416703A (zh) 数据完整性自动监控方法、装置、设备及介质
CN111737233A (zh) 数据监控方法及装置
CN104320674A (zh) 网络视频片段的监测方法和装置
DE102004016930A1 (de) Erzeugen eines Stichprobenplans zum Testen erzeugten Inhalts
CN111210324A (zh) 一种基于并行计算的通用发票数据处理方法及系统
CN115983582A (zh) 一种数据分析方法和能耗管理系统
CN111598470B (zh) 一种配网物资市场价格采集及监测预警方法及系统
CN114647496A (zh) 指标核对方法、装置、设备及计算机可读存储介质
CN114579895A (zh) 一种配网主站图模多系统同步更新方法及相关装置
CN114662952A (zh) 一种行为数据的评价方法、装置、设备及存储介质
CN114510462A (zh) 软件研发效能的度量方法、平台、系统、设备和介质
CN113806343A (zh) 一种车联网数据质量的评估方法和系统
CN112632173A (zh) 海量数据下基于etl的尽职调查数据分析系统及方法
CN116029600B (zh) 一种车辆质效比的评价方法
CN110866037A (zh) 一种报文的过滤方法及装置
CN112150248B (zh) 一种基于批流融合的挂货量统计方法、系统、装置
CN115658787A (zh) 一种数据处理方法、装置、电能表及存储介质
CN114090935A (zh) 数据采集方法及装置
CN116703154A (zh) 一种对电力系统工程流程异常环节的实时预警的方法及系统
CN111966762B (zh) 指标采集方法以及装置
CN115983709A (zh) 数据价值评价方法、装置、终端及存储介质
CN111312377A (zh) 一种基于大数据的医疗器械采购监管系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Network Price Monitoring System for Automobile Models

Granted publication date: 20210615

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Panyu branch

Pledgor: Guangzhou Wilson Information Technology Co.,Ltd.

Registration number: Y2024980009437

PE01 Entry into force of the registration of the contract for pledge of patent right