CN113515559A - 一种电商平台销售商品品牌形成品牌池的方法 - Google Patents
一种电商平台销售商品品牌形成品牌池的方法 Download PDFInfo
- Publication number
- CN113515559A CN113515559A CN202110793276.XA CN202110793276A CN113515559A CN 113515559 A CN113515559 A CN 113515559A CN 202110793276 A CN202110793276 A CN 202110793276A CN 113515559 A CN113515559 A CN 113515559A
- Authority
- CN
- China
- Prior art keywords
- brand
- brands
- commerce platform
- pool
- commodities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据挖掘和分析处理领域,具体提供了一种电商平台销售商品品牌形成品牌池的方法,将电商平台的商品公开信息进行爬虫获取后,将商品的品牌信息整理提取,结合商品及分词技术,可以将名称相近的品牌加以区分,同一品牌进行统一编码,并形成映射关系;不同品牌进行不同编码加以区分,从而形成完整的品牌池。与现有技术相比,本发明将各个电商平台上所涉及商品的品牌进行规范化整理,形成品牌池,后续若对品牌在各大电商平台销售额情况进行大数据统计时可以统一与整理,方便快捷。
Description
技术领域
本发明涉及大数据挖掘和分析处理领域,具体提供一种电商平台销售商品品牌形成品牌池的方法。
背景技术
品牌是商家与消费者快速建立信任的有益桥梁,所以品牌的分析是分析目前的消费零售市场不可或缺的一部分。数据爆炸的时代,各种各样的品牌如雨后春竹般涌现,面对形形色色的品牌,大数据行业进行品牌分析则需要对电商平台的品牌进行整理与规范化。而品牌不似商标一般规整,不同商家,不同平台对于同一品牌的叫法不一。不同行业,不同厂家存在品牌重名问题;品牌没有统一的规范化处理办法,使得大数据行业对于品牌销售情况的统计与归纳变的非常困难。
针对以上问题,需要对品牌进行规范化处理,建立品牌池,解决治理杂乱无章的品牌,形成统一规范化品牌,从而有利于品牌的进一步统计与分析。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的电商平台销售商品品牌形成品牌池的方法。
本发明解决其技术问题所采用的技术方案是:
一种电商平台销售商品品牌形成品牌池的方法,将电商平台的商品公开信息进行爬虫获取后,将商品的品牌信息整理提取,结合商品及分词技术,可以将名称相近的品牌加以区分,同一品牌进行统一编码,并形成映射关系;
不同品牌进行不同编码加以区分,从而形成完整的品牌池。
进一步的,具体的步骤如下:
S1、获取电商平台销售商品及商品品牌信息;
S2、选取每个平台每个品牌销售额靠前的若干商品;
S3、对商品利用分词技术进行分词,将商品名称拆解成若干关键词;
S4、统计各个关键词的出现频率,选取出现频率较高的若干关键词作为品牌的代表词;
S5、将相似品牌按照匹配程度进行判断;
S6、区分后,对同一品牌进行统一编码;
S7、对品牌进行以上处理,形成规范化的品牌池。
作为优选,在步骤S1中,电商平台品牌信息中仅研究包含品牌名称和品牌ID的情况。
进一步的,在步骤S4中,对关键词进行统计之前,要去除关键词的脏数据,包括标点符号、数字和语气助词。
进一步的,在步骤S5中,首先,当匹配程度为两个品牌选取的关键词有一半以上相同时,即认为是同一个品牌,然后,再通过品牌商品所属行业加以辅助进行进一步的判断。
进一步的,在步骤S5中,首先,当匹配程度为两个品牌选取的关键词有三分之一以上相同时,即认为品牌有较大可能为同一品牌,然后,再通过品牌商品所属行业加以辅助进行进一步的判断。
进一步的,在步骤S5中,首先,当匹配程度为两个品牌选取的关键词有三分之一以下相同时,即认为不属于同一品牌,然后,再通过品牌商品所属行业加以辅助进行进一步的判断。
进一步的,在步骤S6中,根据匹配程度加以区分后,形成带有映射关系的品牌池是指对同一品牌进行统一编码,形成该编码与平台ID、平台名称、平台内品牌名称的对应,并规范化中文英文名称。
进一步的,所述的品牌池指各个电商平台的品牌整合,形成一个带有与各个电商平台、电商平台命名的品牌、电商平台命名的品牌ID关联的品牌池;
可以根据品牌池将所爬取的商品按照品牌进行归纳整理,从而从品牌的维度进行统计分析。
本发明的一种电商平台销售商品品牌形成品牌池的方法和现有技术相比,具有以下突出的有益效果:
本发明将各个电商平台上所涉及商品的品牌进行规范化整理,形成品牌池,后续若对品牌在各大电商平台销售额情况进行大数据统计时可以统一与整理,方便快捷。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种电商平台销售商品品牌形成品牌池的方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种电商平台销售商品品牌形成品牌池的方法,将电商平台的商品公开信息进行爬虫获取后,将商品的品牌信息整理提取,结合商品及分词技术,可以将名称相近的品牌加以区分,同一品牌进行统一编码,并形成映射关系;不同品牌进行不同编码加以区分,从而形成完整的品牌池。
具体步骤如下:
S1、获取电商平台销售商品及商品品牌信息,其中有的电商平台品牌信息包含品牌名称和品牌ID,有的电商平台品牌信息只包含品牌名称,此处仅研究包含品牌名称和品牌ID的情况。
S2、选取每个平台每个品牌销售额靠前的若干商品,此实施例中选取10个。
S3、对商品利用分词技术进行分词,将商品名称拆解成若干关键词。
S4、对关键词去除脏数据,包括去除标点符号、数字和语气组词等,再统计各个关键词的出现频率,选取出现频率较高的若干关键词作为品牌的代表词,此处选取10个。
S5、将品牌ID不同,名称类似,如英文名称一致、中文名称一致或者品牌名称一致的品牌进行代表词比较,按照匹配程度对品牌进行判断。
匹配程度大于5,即两个品牌10个关键词有5个即以上相同,即认为是同一个品牌,再通过品牌商品所属行业加以辅助判断;
匹配程度在3到5之间,即两个品牌10个关键词有3~5个关键词相同,即认为是同一个品牌,再通过品牌商品所属行业加以辅助判断;
匹配程度小于3,即两个品牌10个关键词有3个或者3个以下关键词相同,即认为不属于同一品牌,再通过品牌商品所属行业加以辅助判断。
S6、区分后,对同一品牌进行统一编码;
S7、对品牌进行以上处理,形成规范化的品牌池。形成该编码与平台ID、平台名称、平台内品牌名称的对应,并规范化中文英文名称:例如可表示为英文名称/中文名称,对不同品牌进行不同编码,记录各自的对应关系。
其中,品牌池是指将各个电商平台的品牌整合,形成一个带有与各个电商平台、电商平台命名的品牌、电商平台命名的品牌ID关联的品牌池。
可以根据品牌池,快速的将所爬取的商品按照品牌进行归纳整理,从而可以从品牌的维度进行统计分析,例如品牌的市场影响力、各个行业的代表品牌、品牌的新兴规律等分析。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种电商平台销售商品品牌形成品牌池的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种电商平台销售商品品牌形成品牌池的方法,其特征在于,将电商平台的商品公开信息进行爬虫获取后,将商品的品牌信息整理提取,结合商品及分词技术,可以将名称相近的品牌加以区分,同一品牌进行统一编码,并形成映射关系;
不同品牌进行不同编码加以区分,从而形成完整的品牌池。
2.根据权利要求1所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,具体的步骤如下:
S1、获取电商平台销售商品及商品品牌信息;
S2、选取每个平台每个品牌销售额靠前的若干商品;
S3、对商品利用分词技术进行分词,将商品名称拆解成若干关键词;
S4、统计各个关键词的出现频率,选取出现频率较高的若干关键词作为品牌的代表词;
S5、将相似品牌按照匹配程度进行判断;
S6、区分后,对同一品牌进行统一编码;
S7、对品牌进行以上处理,形成规范化的品牌池。
3.根据权利要求2所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,在步骤S1中,电商平台品牌信息中仅研究包含品牌名称和品牌ID的情况。
4.根据权利要求3所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,在步骤S4中,对关键词进行统计之前,要去除关键词的脏数据,包括标点符号、数字和语气助词。
5.根据权利要求4所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,在步骤S5中,首先,当匹配程度为两个品牌选取的关键词有一半以上相同时,即认为是同一个品牌,然后,再通过品牌商品所属行业加以辅助进行进一步的判断。
6.根据权利要求5所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,在步骤S5中,首先,当匹配程度为两个品牌选取的关键词有三分之一以上相同时,即认为品牌有较大可能为同一品牌,然后,再通过品牌商品所属行业加以辅助进行进一步的判断。
7.根据权利要求6所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,在步骤S5中,首先,当匹配程度为两个品牌选取的关键词有三分之一以下相同时,即认为不属于同一品牌,然后,再通过品牌商品所属行业加以辅助进行进一步的判断。
8.根据权利要求7所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,在步骤S6中,根据匹配程度加以区分后,形成带有映射关系的品牌池是指对同一品牌进行统一编码,形成该编码与平台ID、平台名称、平台内品牌名称的对应,并规范化中文英文名称。
9.根据权利要求8所述的一种电商平台销售商品品牌形成品牌池的方法,其特征在于,所述的品牌池指各个电商平台的品牌整合,形成一个带有与各个电商平台、电商平台命名的品牌、电商平台命名的品牌ID关联的品牌池;
可以根据品牌池将所爬取的商品按照品牌进行归纳整理,从而从品牌的维度进行统计分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110793276.XA CN113515559A (zh) | 2021-07-14 | 2021-07-14 | 一种电商平台销售商品品牌形成品牌池的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110793276.XA CN113515559A (zh) | 2021-07-14 | 2021-07-14 | 一种电商平台销售商品品牌形成品牌池的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515559A true CN113515559A (zh) | 2021-10-19 |
Family
ID=78066809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110793276.XA Pending CN113515559A (zh) | 2021-07-14 | 2021-07-14 | 一种电商平台销售商品品牌形成品牌池的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515559A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325550A1 (en) * | 2012-06-04 | 2013-12-05 | Unmetric Inc. | Industry specific brand benchmarking system based on social media strength of a brand |
WO2014167516A1 (en) * | 2013-04-11 | 2014-10-16 | Brandshield Ltd. | Device, system, and method of protecting brand names and domain names |
CN108763220A (zh) * | 2018-06-08 | 2018-11-06 | 山东汇贸电子口岸有限公司 | 一种快速识别大量电商商品品牌的方法 |
CN108984577A (zh) * | 2018-02-07 | 2018-12-11 | 广州集创佳禾知识产权运营有限公司 | 一种基于机器识别的线上商品专利获取方法及系统 |
CN110148007A (zh) * | 2018-08-27 | 2019-08-20 | 深圳码隆科技有限公司 | 商品信息检测方法、装置、计算机设备和存储介质 |
CN110827049A (zh) * | 2018-08-09 | 2020-02-21 | 珠海格力电器股份有限公司 | 一种数据推送方法及装置 |
CN111949639A (zh) * | 2019-05-17 | 2020-11-17 | 上海树融数据科技有限公司 | 品牌库创建方法及系统、品牌查询与分析平台 |
-
2021
- 2021-07-14 CN CN202110793276.XA patent/CN113515559A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130325550A1 (en) * | 2012-06-04 | 2013-12-05 | Unmetric Inc. | Industry specific brand benchmarking system based on social media strength of a brand |
WO2014167516A1 (en) * | 2013-04-11 | 2014-10-16 | Brandshield Ltd. | Device, system, and method of protecting brand names and domain names |
CN108984577A (zh) * | 2018-02-07 | 2018-12-11 | 广州集创佳禾知识产权运营有限公司 | 一种基于机器识别的线上商品专利获取方法及系统 |
CN108763220A (zh) * | 2018-06-08 | 2018-11-06 | 山东汇贸电子口岸有限公司 | 一种快速识别大量电商商品品牌的方法 |
CN110827049A (zh) * | 2018-08-09 | 2020-02-21 | 珠海格力电器股份有限公司 | 一种数据推送方法及装置 |
CN110148007A (zh) * | 2018-08-27 | 2019-08-20 | 深圳码隆科技有限公司 | 商品信息检测方法、装置、计算机设备和存储介质 |
CN111949639A (zh) * | 2019-05-17 | 2020-11-17 | 上海树融数据科技有限公司 | 品牌库创建方法及系统、品牌查询与分析平台 |
Non-Patent Citations (2)
Title |
---|
刘国华 等: "《新零售时代 打造电商与实体店融合的新生态》", 企业管理出版社, pages: 85 * |
张艳丰;李贺;彭丽徽;: "基于模糊情感计算的商品在线评论用户品牌转换意向研究", 现代图书情报技术, no. 05, pages 68 - 75 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100211551A1 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN108875727B (zh) | 图文标识的检测方法及装置、存储介质、处理器 | |
CN108596759A (zh) | 贷款申请信息检测方法及服务器 | |
CN114140007A (zh) | 一种风险企业的识别方法、装置及存储介质 | |
CN112966100B (zh) | 一种数据分类分级模型的训练方法、装置及电子设备 | |
CN112131348B (zh) | 基于文本和图像相似度防止项目重复申报的方法 | |
Sihombing et al. | Fake review detection on yelp dataset using classification techniques in machine learning | |
CN110443290A (zh) | 一种基于大数据的产品竞争关系量化生成方法及装置 | |
CN112330328A (zh) | 一种基于特征提取的信用卡欺诈检测方法 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN114626024A (zh) | 一种基于区块链的互联网侵权视频低耗检测方法及系统 | |
Sumanth et al. | Analysis of credit card fraud detection using machine learning techniques | |
CN113837844A (zh) | 一种多级联下游企业推荐系统、方法及可存储介质 | |
CN116881687B (zh) | 一种基于特征提取的电网敏感数据识别方法及装置 | |
CN113515559A (zh) | 一种电商平台销售商品品牌形成品牌池的方法 | |
US20230245122A1 (en) | Systems and methods for automatically generating fraud strategies | |
KR102476785B1 (ko) | 인공지능 기반 위조 상품 탐지를 위한 이미지 라이브러리 시스템 및 가품 탐지 방법 | |
CN114741592A (zh) | 一种基于多模型融合的产品推荐方法、设备及介质 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN114169926A (zh) | 基于用户评论的商品数据分析方法、系统、设备和介质 | |
CN113157948A (zh) | 非结构化数据的审计方法、电子设备及存储介质 | |
CN111784182A (zh) | 资产信息处理方法和装置 | |
TWM601397U (zh) | 客戶分群服務客製化行銷系統 | |
Goel et al. | Classification Of Positive And Negative Fake Online Reviews Using Machine Learning Techniques | |
KR102470248B1 (ko) | 위조품 식별을 위한 자연어 처리 방법 및 위조품 탐지 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211019 |