CN112632273A - 一种基于社交电商公开文本信息的商品细粒度分类方法 - Google Patents

一种基于社交电商公开文本信息的商品细粒度分类方法 Download PDF

Info

Publication number
CN112632273A
CN112632273A CN202011141195.3A CN202011141195A CN112632273A CN 112632273 A CN112632273 A CN 112632273A CN 202011141195 A CN202011141195 A CN 202011141195A CN 112632273 A CN112632273 A CN 112632273A
Authority
CN
China
Prior art keywords
text
social
catalog
commodity
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011141195.3A
Other languages
English (en)
Other versions
CN112632273B (zh
Inventor
陈轶
张文
崔浩亮
牛少彰
王让定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast Digital Economic Development Research Institute
Original Assignee
Southeast Digital Economic Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast Digital Economic Development Research Institute filed Critical Southeast Digital Economic Development Research Institute
Priority to CN202011141195.3A priority Critical patent/CN112632273B/zh
Publication of CN112632273A publication Critical patent/CN112632273A/zh
Application granted granted Critical
Publication of CN112632273B publication Critical patent/CN112632273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了种基于社交电商公开文本信息的商品细粒度分类方法,它解决了现有技术中标准难以统一等诸多弊端的问题。其方法包括:从数据库读取社交电商对于商品的公开描述文本信息,根据商品属性建立一级目录标签,并根据标签的不同将文本信息分成若干类数据集;参照一级目录标签,选择商品公开描述文本中与一级目录标签为被包含关系的名称性词语作为其二级目录标签;对社交电商公开文本进行词性标注,存储名词性词语,根据文本在上述一级目录标签中的分类结果调用该一级目录下的二级目录标签数据,并检索该名词性词语与二级目录中相同的标签数据,得到文本所属细粒度类别。本发明优点在于在相对较少的数据集条件下对商品进行细粒度自动分类。

Description

一种基于社交电商公开文本信息的商品细粒度分类方法
技术领域
本发明涉及电商数据处理技术领域,具体涉及一种基于社交电商公开文本信息的商品细粒度分类方法。
背景技术
移动互联网的快速发展使得社交电商这一零售群体逐步走向大众的视野。社交电商相比于传统电商缺乏有力的平台管理和商品描述上的约束,这使得服务提供商对他们的客户缺乏系统性了解,当中就包括社交电商售卖商品所属的类别。
目前,多数电子商务平台采用手动分类的方式按照商品属性进行分类。这种方式存在人力成本过高、标准难以统一等诸多弊端。如果采用人工智能算法对社交电商公开文本进行自动分类,则会存在商品细粒度类别过多,难以完成文本分类模型所需规模的数据收集工作。
发明内容
鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于社交电商公开文本的商品细粒度分类处理方法,可以实现在相对较少的数据集条件下对商品进行细粒度的自动分类。
为实现以上目的,本发明采用如下技术方案:
一种基于社交电商公开文本信息的商品细粒度分类方法,包括以下步骤:
步骤S1:从数据库读取社交电商对于商品的公开描述文本信息,根据商品属性建立一级目录标签,并根据标签的不同将文本信息分成若干类数据集;
步骤S2:参照一级目录标签,选择商品公开描述文本中与一级目录标签为被包含关系的名称性词语作为其二级目录标签;
步骤S3:对社交电商公开文本进行词性标注,存储名词性词语,根据文本在上述一级目录标签中的分类结果调用该一级目录下的二级目录标签数据,并检索该名词性词语与二级目录中相同的标签数据,得到文本所属细粒度类别。
在上述的一种基于社交电商公开文本信息的商品细粒度分类处理方法中,在S1中,所述的商标属性参照已公开的购物网站的一级目录分类。
在上述的一种基于社交电商公开文本信息的商品细粒度分类处理方法中,将S1中的数据集分成训练集、测试集和验证集并利用文本分类算法对训练集、测试集和验证集分别进行模型训练、测试和验证。
在上述的一种基于社交电商公开文本信息的商品细粒度分类处理方法中,所述的文本分类算法包括BERT、LSTM、TextCNN中的一种或多种。
在上述的一种基于社交电商公开文本信息的商品细粒度分类处理方法中,分类模型训练完成后对文本类别进行预测。
本发明的优点:与直接利用文本分类模型对社交电商公开文本进行分类相比,实现相同细粒度分类所需数据量较小;可以解决二级目标标签对应的数据较少所导致的文本分类模型直接作用于二级目录分类时训练数据收集困难的问题;先进行文本粗粒度分类,再在分类结果对应的二级目录标签中进行检索可以极大地减小检索范围,同时避免不同领域商品拥有一样的名称,例如,名词“苹果”既可以是手机通讯也可以是生鲜。
附图说明
附图1为本发明提供的社交电商公开文本细粒度分类流程示意图;
具体实施方式
以下采用本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
参见附图1,本发明一实施例提供的一种基于社交电商公开文本信息的商品细粒度分类方法,包括:
步骤S1:从数据库读取社交电商对于商品的公开描述文本信息,根据商品属性建立一级目录标签,并根据标签的不同将文本信息分成若干类数据集,其中所述的商标属性参照已公开的购物网站的一级目录分类,例如京东、淘宝等购物网站,一级目录分类可以是手机通讯、户外运动、生鲜、美妆护肤、家居日用、医药保健、珠宝首饰等等。
步骤S2:将S1中的数据集分成训练集、测试集和验证集,并使用文本分类算法对该数据集分别进行算法模型训练调优。所述的文本分类算法包括BERT、LSTM、TextCNN中的一种或多种。
步骤S3:对S1中文本数据集进行词性标注。基于一级目录标签,选择与一级目录标签为被包含关系的名称性词语作为该文本的二级目录标签。词性标注可以使用jieba、xmnlp等开源软件包提供的算法模块。
步骤S4:算法推理推测时,使用S2中训练完成的模型对社交电商公开文本信息进行推理得到一级目标标签。使用词性标注对该文本进行处理得到名词性词语,并在该一级目录标签下的二级目录标签中检索是否有与该名词性词语相同的标签。若有,则二级目录标签即该社交电商公开文本所属的细粒度类别;若无,则类别标记为其他。
例如:一级目录标签为手机通讯,二级目录标签为华为、苹果、三星、联想、努比亚、vivo、OPPO等细粒度标签。
本发明技术基础为社交电商服务平台收集了大量描述商品特性的公开文本信息,并且由内在的类别组织结构。
从对应数据库读取部分社交电商对于商品的公开描述文本信息,并根据商品属性参照京东等购物网站的一级目录分类对其进行标签标记。形式如下所示:<手机通讯,三星美版骁龙处理器价格一口3999>。
根据标签的不同将文本信息分成N类建立数据集,并按照6:2:2的比例将数据集分成训练集、测试集和验证集。其中比例分布可以根据实际情况做适当调整。
利用文本分类算法对采集得到的数据集进行模型训练、验证和测试。文本分类算法包含但不限于BERT、LSTM、TextCNN等。以BERT算法为例,BERT由12层编码网络构成,在通用语料库如维基百科上进行自监督训练得到模型。当下游任务为文本分类时,则在12层编码网络后增加全连接层和softMax层用于分类任务,数据集为上述收集到的数据集。
分类模型训练完成后对文本类别进行预测。例如,社交电商公开文本--贵妃芒果今日的货品质杠杠的1斤中果50元包邮,分类得到的一级目录标签为生鲜。
根据文本信息所在一级目录分类的不同,提取商品对应的名词建立二级目录标签,例如:一级目录标签为生鲜,二级目录标签则为芒果、苹果、香蕉、葡萄、火龙果等等。
对社交电商公开文本进行词性标注,只存储名词性词语。例如,社交电商公开文本--贵妃芒果今日的货品质杠杠的1斤中果50元包邮,对其进行词性标注后名词性词语为贵妃、芒果、品质、中果。在一级目录标签为生鲜的二级目录标签中检索上述词语,可以匹配到“芒果”二级目录标签。因此,“芒果”就是该社交电商公开文本的细粒度分类结果。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于社交电商公开文本信息的商品细粒度分类方法,其特征在于,包括以下步骤:
步骤S1:从数据库读取社交电商对于商品的公开描述文本信息,根据商品属性建立一级目录标签,并根据标签的不同将文本信息分成若干类数据集;
步骤S2:对社交电商公开文本进行词性标注,参照一级目录标签,选择商品公开描述文本中与一级目录标签为被包含关系的名称性词语作为其二级目录标签;
步骤S3:根据文本在上述一级目录标签中的分类结果调用该一级目录下的二级目录标签数据,并检索该名词性词语与二级目录中相同的标签数据,得到文本所属细粒度类别。
2.根据权利要求1所述的一种基于社交电商公开文本信息的商品细粒度分类方法,其特征在于,在S1中,所述的商标属性参照已公开的购物网站的一级目录分类。
3.根据权利要求1所述的一种基于社交电商公开文本信息的商品细粒度分类方法,其特征在于,将S1中的数据集分成训练集、测试集和验证集并利用文本分类算法对训练集、测试集和验证集分别进行模型训练、测试和验证。
4.根据权利要求3所述的一种基于社交电商公开文本信息的商品细粒度分类方法,其特征在于,所述的文本分类算法包括BERT、LSTM、TextCNN中的一种或多种。
5.根据权利要求3所述的一种基于社交电商公开文本信息的商品细粒度分类方法,其特征在于,分类模型训练完成后对文本类别进行预测。
6.根据权利要求1所述的一种基于社交电商公开文本信息的商品细粒度分类方法,其特征在于,在S2中使用jieba或xmblp开源软件包提供的算法模板进行词性标注。
CN202011141195.3A 2020-10-23 2020-10-23 一种基于社交电商公开文本信息的商品细粒度分类方法 Active CN112632273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011141195.3A CN112632273B (zh) 2020-10-23 2020-10-23 一种基于社交电商公开文本信息的商品细粒度分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011141195.3A CN112632273B (zh) 2020-10-23 2020-10-23 一种基于社交电商公开文本信息的商品细粒度分类方法

Publications (2)

Publication Number Publication Date
CN112632273A true CN112632273A (zh) 2021-04-09
CN112632273B CN112632273B (zh) 2023-03-31

Family

ID=75302947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011141195.3A Active CN112632273B (zh) 2020-10-23 2020-10-23 一种基于社交电商公开文本信息的商品细粒度分类方法

Country Status (1)

Country Link
CN (1) CN112632273B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626466A (zh) * 2021-08-10 2021-11-09 深圳市玄羽科技有限公司 基于工业互联网的物料管理方法、系统及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130067319A1 (en) * 2011-09-06 2013-03-14 Locu, Inc. Method and Apparatus for Forming a Structured Document from Unstructured Information
CN108596637A (zh) * 2018-04-24 2018-09-28 北京航空航天大学 一种电商服务问题自动发现系统
CN110083678A (zh) * 2019-03-12 2019-08-02 平安科技(深圳)有限公司 一种电商平台商品匹配方法、装置及可读存储介质
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法
CN111563168A (zh) * 2020-03-03 2020-08-21 天津蒙比利埃创新网络科技有限公司 一种基于ai知识图谱算法用于通关商品智能归类的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130067319A1 (en) * 2011-09-06 2013-03-14 Locu, Inc. Method and Apparatus for Forming a Structured Document from Unstructured Information
CN108596637A (zh) * 2018-04-24 2018-09-28 北京航空航天大学 一种电商服务问题自动发现系统
CN110083678A (zh) * 2019-03-12 2019-08-02 平安科技(深圳)有限公司 一种电商平台商品匹配方法、装置及可读存储介质
CN110287329A (zh) * 2019-07-04 2019-09-27 刘凡 一种基于商品文本分类的电商类目属性挖掘方法
CN111563168A (zh) * 2020-03-03 2020-08-21 天津蒙比利埃创新网络科技有限公司 一种基于ai知识图谱算法用于通关商品智能归类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUI FU ET AL.: "Auto-acquisition method for fine-grained semantic relations of commodity", 《2012 9TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (FSKD 2012) 》 *
傅魁等: "基于机器学习的商品本体细粒度语义知识获取", 《武汉理工大学学报 ( 信息与管理工程版 )》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626466A (zh) * 2021-08-10 2021-11-09 深圳市玄羽科技有限公司 基于工业互联网的物料管理方法、系统及计算机存储介质

Also Published As

Publication number Publication date
CN112632273B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN111767368B (zh) 一种基于实体链接的问答知识图谱构建方法及存储介质
KR102286415B1 (ko) 제품수명주기에 따른 수명주기별 온라인과 오프라인 정보분석 서비스 시스템
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN111753092B (zh) 一种数据处理方法、模型训练方法、装置及电子设备
CN107257970A (zh) 从结构化和非结构化数据源进行的问题回答
CN107832338B (zh) 一种识别核心产品词的方法和系统
Lee et al. Technology opportunity discovery using deep learning-based text mining and a knowledge graph
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
Özdağoğlu et al. A predictive filtering approach for clarifying bibliometric datasets: an example on the research articles related to industry 4.0
US20180336507A1 (en) Cognitive risk analysis system for risk identification, modeling and assessment
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN114462556B (zh) 企业关联产业链分类方法、训练方法、装置、设备和介质
Bilge et al. Research trends analysis using text mining in construction management: 2000–2020
CN112632273B (zh) 一种基于社交电商公开文本信息的商品细粒度分类方法
KR102051064B1 (ko) 인공지능 기반 맞춤형 제품 추천 정보 시스템 장치 및 방법
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
CN115905705A (zh) 基于工业大数据的工业算法模型推荐方法
Fischbach et al. Automatic eSG assessment of companies by mining and evaluating media coverage data: NLP approach and tool
Wu et al. [Retracted] Using the Mathematical Model on Precision Marketing with Online Transaction Data Computing
KR20230104788A (ko) 기 학습된 객체 분류 모델 기반 데이터 분류 및 저장방법, 장치 및 컴퓨터프로그램
CN114547313A (zh) 资源类型识别方法以及装置
Rosewelt et al. Fine-grained sentiment analysis using neural networks to identify guest preferences based on online reviews
Kokol Software quality: A historical and synthetic content analysis
CN111858930A (zh) 一种社交电商用户画像的建立方法
Iftikhar et al. Amazon products reviews classification based on machine learning, deep learning methods and BERT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant