CN108763220A - 一种快速识别大量电商商品品牌的方法 - Google Patents

一种快速识别大量电商商品品牌的方法 Download PDF

Info

Publication number
CN108763220A
CN108763220A CN201810584737.0A CN201810584737A CN108763220A CN 108763220 A CN108763220 A CN 108763220A CN 201810584737 A CN201810584737 A CN 201810584737A CN 108763220 A CN108763220 A CN 108763220A
Authority
CN
China
Prior art keywords
brand
commodity
dictionary
large amount
brands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810584737.0A
Other languages
English (en)
Inventor
姜明鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Shandong Hui Trade Electronic Port Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Hui Trade Electronic Port Co Ltd filed Critical Shandong Hui Trade Electronic Port Co Ltd
Priority to CN201810584737.0A priority Critical patent/CN108763220A/zh
Publication of CN108763220A publication Critical patent/CN108763220A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种快速识别大量电商商品品牌的方法,属于大数据处理领域,本发明通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。通过深度学习,省掉了大量的人工标注,节约了时间。

Description

一种快速识别大量电商商品品牌的方法
技术领域
本发明涉及大数据处理技术,尤其涉及一种快速识别大量电商商品品牌的方法。
背景技术
随着互联网的普及,网络购物的优点更加突出,日益成为一种重要的购物形式,淘宝、天猫、京东等电商平台的兴起,网络购物已经成为基本的购物途径之一,由此产生的大量商品数据则包含巨大的价值,为许多大数据研究人员所关注。
网购逐渐被越来越多的人认可,网购流程的网址导航类,主要涵盖生活的方方面面网址,购物等,人们可以通过这些网址导航到相应的网站去购物消费。
商品寻找是网上购物比较麻烦的事情,有人说搜索,但大多数搜索引擎有两个缺点,局限性和趋利性,局限性指只有被搜索引擎抓到的信息才有显示;趋利性指竞价排名,打广告的并不一定就是好的东西,不打广告的你可能点击不到。而且搜索排名可以弄虚作假,难免"中套"。购物寻找官方品牌商品可以浏览官方网店大全网站。
由于商品的品牌是多数人通过搜索查询的重要的关键词之一,所有从大量商品标题中识别商品的品牌成了一个新的需求。
发明内容
为了解决以上技术问题,本发明提出了一种快速识别大量电商商品品牌的方法,在大量商品名称中准确判断某商品的所属品牌,解决一些商品数据没有品牌要素的问题。
本发明的技术方案是:
本方法采取多种技术融合而成,包含中文分词技术、深度学习等。
一种快速识别大量电商商品品牌的方法,通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。
主要包括如下几个步骤:
步骤1:首先从权威网站寻找商标和品牌以及品牌的简称等品牌数据,入库作为词典。
步骤2:将所有需要识别品牌的商品标题入库
步骤3:使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
步骤4:对于步骤3中没有识别出品牌的商品,抽取一定量数据使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集。
步骤5:使用开源的TensorFlow框架,对积累到一定量的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。
本发明的有益效果是
通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配,可以快速有效的避免歧义问题,比如某品牌包含另一品牌的情况。再通过深度学习,消除了一些特殊品牌的特殊含义,比如深蓝牌,也可以作为一种商品的颜色描述。综合来看,通过上述几步,词典可以逐步完善,通过深度学习,省掉了大量的人工标注,节约了80%的时间。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种快速识别大量电商商品品牌的方法,
主要包括如下几个步骤:
步骤1:首先从权威网站寻找商标和品牌以及品牌的简称等品牌数据,入库作为词典。
步骤2:将所有需要识别品牌的商品标题入库
步骤3:使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
步骤4:对于步骤3中没有识别出品牌的商品,抽取一定量数据使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集。
步骤5:使用开源的TensorFlow框架,对积累到一定量的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。

Claims (3)

1.一种快速识别大量电商商品品牌的方法,其特征在于,通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。
2.根据权利要求1所述的方法,其特征在于,具体包括如下内容:
1)首先从权威网站寻找商标和品牌以及品牌的简称数据,入库作为词典;
2)将所有需要识别品牌的商品标题入库;
3)使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
3.根据权利要求2所述的方法,其特征在于,还包括:
对于3)中没有识别出品牌的商品,抽取数据并使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集;
使用开源的TensorFlow框架,对积累到的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。
CN201810584737.0A 2018-06-08 2018-06-08 一种快速识别大量电商商品品牌的方法 Pending CN108763220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810584737.0A CN108763220A (zh) 2018-06-08 2018-06-08 一种快速识别大量电商商品品牌的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810584737.0A CN108763220A (zh) 2018-06-08 2018-06-08 一种快速识别大量电商商品品牌的方法

Publications (1)

Publication Number Publication Date
CN108763220A true CN108763220A (zh) 2018-11-06

Family

ID=64000512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810584737.0A Pending CN108763220A (zh) 2018-06-08 2018-06-08 一种快速识别大量电商商品品牌的方法

Country Status (1)

Country Link
CN (1) CN108763220A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515559A (zh) * 2021-07-14 2021-10-19 浪潮卓数大数据产业发展有限公司 一种电商平台销售商品品牌形成品牌池的方法
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN106909663A (zh) * 2017-02-27 2017-06-30 杭州泰指尚科技有限公司 基于标签用户品牌偏好行为预测方法及其装置
CN107330752A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 识别品牌词的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN106909663A (zh) * 2017-02-27 2017-06-30 杭州泰指尚科技有限公司 基于标签用户品牌偏好行为预测方法及其装置
CN107330752A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 识别品牌词的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭少友著: "《上下文检索理论与实践》", 31 May 2009, 兵器工业出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515559A (zh) * 2021-07-14 2021-10-19 浪潮卓数大数据产业发展有限公司 一种电商平台销售商品品牌形成品牌池的方法
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统

Similar Documents

Publication Publication Date Title
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
US7627559B2 (en) Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8171021B2 (en) Query identification and association
CN110942337A (zh) 一种基于互联网大数据的精准旅游营销方法
US8682882B2 (en) System and method for automatically identifying classified websites
US20050278309A1 (en) System and method for mining and searching localized business-marketing and informational data
US20170053213A1 (en) Method and system for filtering goods evaluation information
CN102541971A (zh) 将登广告者目标映射到关键字
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN107679103B (zh) 用于实体的属性分析方法及系统
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
CN103377249A (zh) 关键词投放方法及系统
CN108428166A (zh) 基于卷积神经网络的体貌特征识别分类的服装推荐系统
CN107958406A (zh) 查询数据的获取方法、装置及终端
CN110597987A (zh) 一种搜索推荐方法及装置
CN104036008B (zh) 关键词竞争分析方法及装置
KR20080026948A (ko) 연관 키워드 그룹 추출 방법
CN106339898A (zh) 一种基于互联网大数据的产品创新方法
CN108763220A (zh) 一种快速识别大量电商商品品牌的方法
US11416502B2 (en) Method and apparatus for mining offline resources
CN112434173A (zh) 搜索内容输出方法、装置、计算机设备及可读存储介质
CN107085573B (zh) 热点信息的获取方法及装置
CN109472025B (zh) 菜品名称提取方法及装置
CN115827951A (zh) 网页内容的优化方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190709

Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707

Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd.

Address before: 250100 S06 Floor, No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant before: SHANDONG HUIMAO ELECTRONIC PORT Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication