CN108763220A - 一种快速识别大量电商商品品牌的方法 - Google Patents
一种快速识别大量电商商品品牌的方法 Download PDFInfo
- Publication number
- CN108763220A CN108763220A CN201810584737.0A CN201810584737A CN108763220A CN 108763220 A CN108763220 A CN 108763220A CN 201810584737 A CN201810584737 A CN 201810584737A CN 108763220 A CN108763220 A CN 108763220A
- Authority
- CN
- China
- Prior art keywords
- brand
- commodity
- dictionary
- large amount
- brands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种快速识别大量电商商品品牌的方法,属于大数据处理领域,本发明通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。通过深度学习,省掉了大量的人工标注,节约了时间。
Description
技术领域
本发明涉及大数据处理技术,尤其涉及一种快速识别大量电商商品品牌的方法。
背景技术
随着互联网的普及,网络购物的优点更加突出,日益成为一种重要的购物形式,淘宝、天猫、京东等电商平台的兴起,网络购物已经成为基本的购物途径之一,由此产生的大量商品数据则包含巨大的价值,为许多大数据研究人员所关注。
网购逐渐被越来越多的人认可,网购流程的网址导航类,主要涵盖生活的方方面面网址,购物等,人们可以通过这些网址导航到相应的网站去购物消费。
商品寻找是网上购物比较麻烦的事情,有人说搜索,但大多数搜索引擎有两个缺点,局限性和趋利性,局限性指只有被搜索引擎抓到的信息才有显示;趋利性指竞价排名,打广告的并不一定就是好的东西,不打广告的你可能点击不到。而且搜索排名可以弄虚作假,难免"中套"。购物寻找官方品牌商品可以浏览官方网店大全网站。
由于商品的品牌是多数人通过搜索查询的重要的关键词之一,所有从大量商品标题中识别商品的品牌成了一个新的需求。
发明内容
为了解决以上技术问题,本发明提出了一种快速识别大量电商商品品牌的方法,在大量商品名称中准确判断某商品的所属品牌,解决一些商品数据没有品牌要素的问题。
本发明的技术方案是:
本方法采取多种技术融合而成,包含中文分词技术、深度学习等。
一种快速识别大量电商商品品牌的方法,通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。
主要包括如下几个步骤:
步骤1:首先从权威网站寻找商标和品牌以及品牌的简称等品牌数据,入库作为词典。
步骤2:将所有需要识别品牌的商品标题入库
步骤3:使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
步骤4:对于步骤3中没有识别出品牌的商品,抽取一定量数据使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集。
步骤5:使用开源的TensorFlow框架,对积累到一定量的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。
本发明的有益效果是
通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配,可以快速有效的避免歧义问题,比如某品牌包含另一品牌的情况。再通过深度学习,消除了一些特殊品牌的特殊含义,比如深蓝牌,也可以作为一种商品的颜色描述。综合来看,通过上述几步,词典可以逐步完善,通过深度学习,省掉了大量的人工标注,节约了80%的时间。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种快速识别大量电商商品品牌的方法,
主要包括如下几个步骤:
步骤1:首先从权威网站寻找商标和品牌以及品牌的简称等品牌数据,入库作为词典。
步骤2:将所有需要识别品牌的商品标题入库
步骤3:使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
步骤4:对于步骤3中没有识别出品牌的商品,抽取一定量数据使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集。
步骤5:使用开源的TensorFlow框架,对积累到一定量的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。
Claims (3)
1.一种快速识别大量电商商品品牌的方法,其特征在于,通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。
2.根据权利要求1所述的方法,其特征在于,具体包括如下内容:
1)首先从权威网站寻找商标和品牌以及品牌的简称数据,入库作为词典;
2)将所有需要识别品牌的商品标题入库;
3)使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
3.根据权利要求2所述的方法,其特征在于,还包括:
对于3)中没有识别出品牌的商品,抽取数据并使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集;
使用开源的TensorFlow框架,对积累到的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810584737.0A CN108763220A (zh) | 2018-06-08 | 2018-06-08 | 一种快速识别大量电商商品品牌的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810584737.0A CN108763220A (zh) | 2018-06-08 | 2018-06-08 | 一种快速识别大量电商商品品牌的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763220A true CN108763220A (zh) | 2018-11-06 |
Family
ID=64000512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810584737.0A Pending CN108763220A (zh) | 2018-06-08 | 2018-06-08 | 一种快速识别大量电商商品品牌的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763220A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515559A (zh) * | 2021-07-14 | 2021-10-19 | 浪潮卓数大数据产业发展有限公司 | 一种电商平台销售商品品牌形成品牌池的方法 |
CN113592512A (zh) * | 2021-07-22 | 2021-11-02 | 上海普洛斯普新数字科技有限公司 | 一种线上商品身份唯一性识别确认系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838744A (zh) * | 2012-11-22 | 2014-06-04 | 百度在线网络技术(北京)有限公司 | 一种查询词需求分析的方法及装置 |
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
CN106909663A (zh) * | 2017-02-27 | 2017-06-30 | 杭州泰指尚科技有限公司 | 基于标签用户品牌偏好行为预测方法及其装置 |
CN107330752A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 识别品牌词的方法和装置 |
-
2018
- 2018-06-08 CN CN201810584737.0A patent/CN108763220A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
CN103838744A (zh) * | 2012-11-22 | 2014-06-04 | 百度在线网络技术(北京)有限公司 | 一种查询词需求分析的方法及装置 |
CN106909663A (zh) * | 2017-02-27 | 2017-06-30 | 杭州泰指尚科技有限公司 | 基于标签用户品牌偏好行为预测方法及其装置 |
CN107330752A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 识别品牌词的方法和装置 |
Non-Patent Citations (1)
Title |
---|
郭少友著: "《上下文检索理论与实践》", 31 May 2009, 兵器工业出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515559A (zh) * | 2021-07-14 | 2021-10-19 | 浪潮卓数大数据产业发展有限公司 | 一种电商平台销售商品品牌形成品牌池的方法 |
CN113592512A (zh) * | 2021-07-22 | 2021-11-02 | 上海普洛斯普新数字科技有限公司 | 一种线上商品身份唯一性识别确认系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
US7627559B2 (en) | Context-based key phrase discovery and similarity measurement utilizing search engine query logs | |
US8171021B2 (en) | Query identification and association | |
CN110942337A (zh) | 一种基于互联网大数据的精准旅游营销方法 | |
US8682882B2 (en) | System and method for automatically identifying classified websites | |
US20050278309A1 (en) | System and method for mining and searching localized business-marketing and informational data | |
US20170053213A1 (en) | Method and system for filtering goods evaluation information | |
CN102541971A (zh) | 将登广告者目标映射到关键字 | |
CN106776860A (zh) | 一种搜索摘要生成方法及装置 | |
CN107679103B (zh) | 用于实体的属性分析方法及系统 | |
CN105468649B (zh) | 一种待展示对象匹配的判断方法及其装置 | |
CN103377249A (zh) | 关键词投放方法及系统 | |
CN108428166A (zh) | 基于卷积神经网络的体貌特征识别分类的服装推荐系统 | |
CN107958406A (zh) | 查询数据的获取方法、装置及终端 | |
CN110597987A (zh) | 一种搜索推荐方法及装置 | |
CN104036008B (zh) | 关键词竞争分析方法及装置 | |
KR20080026948A (ko) | 연관 키워드 그룹 추출 방법 | |
CN106339898A (zh) | 一种基于互联网大数据的产品创新方法 | |
CN108763220A (zh) | 一种快速识别大量电商商品品牌的方法 | |
US11416502B2 (en) | Method and apparatus for mining offline resources | |
CN112434173A (zh) | 搜索内容输出方法、装置、计算机设备及可读存储介质 | |
CN107085573B (zh) | 热点信息的获取方法及装置 | |
CN109472025B (zh) | 菜品名称提取方法及装置 | |
CN115827951A (zh) | 网页内容的优化方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190709 Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707 Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co.,Ltd. Address before: 250100 S06 Floor, No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province Applicant before: SHANDONG HUIMAO ELECTRONIC PORT Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |
|
RJ01 | Rejection of invention patent application after publication |