CN112836031A - 面向电商领域的问题判别方法 - Google Patents

面向电商领域的问题判别方法 Download PDF

Info

Publication number
CN112836031A
CN112836031A CN202110141146.8A CN202110141146A CN112836031A CN 112836031 A CN112836031 A CN 112836031A CN 202110141146 A CN202110141146 A CN 202110141146A CN 112836031 A CN112836031 A CN 112836031A
Authority
CN
China
Prior art keywords
data set
training
commerce
training data
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110141146.8A
Other languages
English (en)
Inventor
王勤勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tanyu Technology Co ltd
Original Assignee
Hangzhou Weier Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Weier Network Technology Co ltd filed Critical Hangzhou Weier Network Technology Co ltd
Priority to CN202110141146.8A priority Critical patent/CN112836031A/zh
Publication of CN112836031A publication Critical patent/CN112836031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向电商领域的问题判别方法,该方法包含以下步骤:获取训练数据集;对训练数据集进行打标签;通过打标签后的数据集对分类模型进行训练;接收当前买家发送的问题;将问题输入训练好的分类模型得到分类结果。本发明的面向电商领域的问题判别方法,能够很好的区别和发现商品级长尾问题和非商品级长尾问题,并根据问题的具体类型去做不同的处理,极大的提高智能客服机器人的智能化回复,从而提高了用户体验。

Description

面向电商领域的问题判别方法
技术领域
本发明涉及一种面向电商领域的问题判别方法。
背景技术
通常在电商客服领域,为了应对日益增长的买家咨询需求,商家一般会聘请大量的客服人员来处理各种需求,由此带来了高的人工成本。
为了解决此问题,客服机器人应运而生。客服机器人可以为商家店铺降低运营成本,提高运营效率。客服机器人通过自然语言处理技术智能化的处理买家各种文本需求。
现有的客服机器人都只能处理简单且重复性较高的问题,然而现实中占比较多的长尾问题和尤其重要的关于商品询问的问题不能发现和解决。
发明内容
本发明提供了一种面向电商领域的问题判别方法,采用如下的技术方案:
一种面向电商领域的问题判别方法,包含以下步骤:
获取训练数据集;
对训练数据集进行打标签,标签包括商品级长尾问题和非商品级长尾问题;
通过打标签后的数据集对分类模型进行训练;
接收当前买家发送的问题;
将问题输入训练好的分类模型得到分类结果。
进一步地,获取训练数据集的具体方法为:
获取若干买家发送的历史语料信息;
从历史语料信息中识别出所有用户提问;
从用户提问中识别出长尾问题作为训练数据集。
进一步地,在获取若干买家发送的历史语料信息后,对历史语料信息进行预处理。
进一步地,对训练数据集进行打标签的具体方法为:
将训练数据集中的用户提问分别打上商品级长尾问题和非商品级长尾问题两类标签。
进一步地,通过打标签后的数据集对分类模型进行训练的具体方法为:
将训练数据集按比例分为训练集、验证集和测试集;
通过训练集和验证集预训练分类模型;
通过测试集对分类模型进行测试。
进一步地,将训练数据集按6:2:2的比例分为训练集、验证集和测试集。
进一步地,在对训练数据集进行打标签之后,面向电商领域的问题判别方法还包括;获取商品属性关键词表;
将关键词表作为辅助信息配合打标签后的数据集对分类模型进行训练。
进一步地,获取商品属性关键词表的具体方法为:
使用商品名称、商品卖点和商品描述等非结构化数据信息,通过分词、词频等方法得到若干关键词组成商品属性关键词表。
进一步地,在得到分类结果后,面向电商领域的问题判别方法还包括:
根据分类结果选择对应的答复策略回复当前买家的问题。
本发明的有益之处在于所提供的面向电商领域的问题判别方法,能够很好的区别和发现商品级长尾问题和非商品级长尾问题,并根据问题的具体类型去做不同的处理,极大的提高智能客服机器人的智能化回复,从而提高了用户体验。
本发明的有益之处还在于所提供的面向电商领域的问题判别方法,为了避免人工打标的质量不够高且人工达标的数据的量级较少对分类模型训练带来的影响,使用商品的属性关键词作为辅助信息,用来减少对标注数据的依赖。模型预训练过程中,增大关键词权重,进而得到更好的分类模型。
附图说明
图1是本发明的面向电商领域的问题判别方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种面向电商领域的问题判别方法,主要包含以下步骤:S1:获取训练数据集。S2:对训练数据集进行打标签,标签包括商品级长尾问题和非商品级长尾问题。S3:通过打标签后的数据集对分类模型进行训练。S4:接收当前买家发送的问题。S5:将问题输入训练好的分类模型得到分类结果。根据上述步骤,能够识别出用户所提问题的类别,具体的,识别出用户的问题是商品级长尾问题和非商品级长尾问题,并根据问题的具体类型去做不同的处理,极大的提高智能客服机器人的智能化回复。以下具体介绍上述步骤。
对于步骤S1:获取训练数据集。
具体的,获取训练数据集的具体方法为:获取若干买家发送的历史语料信息。从历史语料信息中识别出所有用户提问。从用户提问中识别出长尾问题作为训练数据集。
优选的,在获取若干买家发送的历史语料信息后,对历史语料信息进行预处理。
对于步骤S2:对训练数据集进行打标签,标签包括商品级长尾问题和非商品级长尾问题。
对训练数据集进行打标签的具体方法为:将训练数据集中的用户提问分别打上商品级长尾问题和非商品级长尾问题两类标签。
对于步骤S3:通过打标签后的数据集对分类模型进行训练。
具体而言,将训练数据集按比例分为训练集、验证集和测试集。通过训练集和验证集预训练分类模型。通过测试集对分类模型进行测试。分类模型会输出预测的类别标签以及预测概率,本发明给每一个类别都设定了对应概率阈值,只有预测概率高于对应阈值才会判断为对应类别。
可以理解的是,训练数据集可以根据需要按照不同的比例划分成训练集、验证集和测试集。在本发明中,将训练数据集按6:2:2的比例分为训练集、验证集和测试集。
对于步骤S4:接收当前买家发送的问题。
对于步骤S5:将问题输入训练好的分类模型得到分类结果。
在训练好模型后,接收当前买家发送的问题,并将问题输入训练好的分类模型得到分类结果。
在得到分类结果后,面向电商领域的问题判别方法还包括:根据分类结果选择对应的答复策略回复当前买家的问题。
可以理解的是,可以预先针对商品级长尾问题和非商品级长尾问题分别设置不同的答复策略,当得到分类结果后,根据分类结果选择对应的答复策略。
作为一种可选的方式,在对训练数据集进行打标签之后,面向电商领域的问题判别方法还包括。获取商品属性关键词表。将关键词表作为辅助信息配合打标签后的数据集对分类模型进行训练。
可以理解的是,人工打标的质量无法得到保证,且人工达标的数据的量级较少。因此,仅通过人工打标的数据对分类模型进行训练的效果无法得到保证。为了提高分类模型的分类准确度,在本发明中,使用商品的属性关键词作为辅助信息,用来减少对标注数据的依赖。模型预训练过程中,增大关键词权重,进而得到更好的分类模型。
具体的,获取商品属性关键词表的具体方法为:使用商品名称、商品卖点和商品描述等非结构化数据信息,通过分词、词频等方法得到若干关键词组成商品属性关键词表。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (9)

1.一种面向电商领域的问题判别方法,其特征在于,包含以下步骤:
获取训练数据集;
对所述训练数据集进行打标签,所述标签包括商品级长尾问题和非商品级长尾问题;
通过打标签后的所述数据集对分类模型进行训练;
接收当前买家发送的问题;
将所述问题输入训练好的所述分类模型得到分类结果。
2.根据权利要求1所述的面向电商领域的问题判别方法,其特征在于,
所述获取训练数据集的具体方法为:
获取若干买家发送的历史语料信息;
从所述历史语料信息中识别出所有用户提问;
从所述用户提问中识别出长尾问题作为所述训练数据集。
3.根据权利要求2所述的面向电商领域的问题判别方法,其特征在于,
在所述获取若干买家发送的历史语料信息后,对所述历史语料信息进行预处理。
4.根据权利要求2所述的面向电商领域的问题判别方法,其特征在于,
对所述训练数据集进行打标签的具体方法为:
将所述训练数据集中的用户提问分别打上所述商品级长尾问题和所述非商品级长尾问题两类标签。
5.根据权利要求4所述的面向电商领域的问题判别方法,其特征在于,
通过打标签后的所述数据集对分类模型进行训练的具体方法为:
将所述训练数据集按比例分为训练集、验证集和测试集;
通过所述训练集和所述验证集预训练所述分类模型;
通过所述测试集对所述分类模型进行测试。
6.根据权利要求5所述的面向电商领域的问题判别方法,其特征在于,
将所述训练数据集按6:2:2的比例分为所述训练集、所述验证集和所述测试集。
7.根据权利要求1所述的面向电商领域的问题判别方法,其特征在于,
在所述对所述训练数据集进行打标签之后,所述面向电商领域的问题判别方法还包括;获取商品属性关键词表;
将所述关键词表作为辅助信息配合所述打标签后的所述数据集对所述分类模型进行训练。
8.根据权利要求7所述的面向电商领域的问题判别方法,其特征在于,
所述获取商品属性关键词表的具体方法为:
使用商品名称、商品卖点和商品描述等非结构化数据信息,通过分词、词频等方法得到若干关键词组成所述商品属性关键词表。
9.根据权利要求1-8任一所述的面向电商领域的问题判别方法,其特征在于,
在得到所述分类结果后,所述面向电商领域的问题判别方法还包括:
根据所述分类结果选择对应的答复策略回复当前买家的问题。
CN202110141146.8A 2021-02-01 2021-02-01 面向电商领域的问题判别方法 Pending CN112836031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141146.8A CN112836031A (zh) 2021-02-01 2021-02-01 面向电商领域的问题判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141146.8A CN112836031A (zh) 2021-02-01 2021-02-01 面向电商领域的问题判别方法

Publications (1)

Publication Number Publication Date
CN112836031A true CN112836031A (zh) 2021-05-25

Family

ID=75931439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141146.8A Pending CN112836031A (zh) 2021-02-01 2021-02-01 面向电商领域的问题判别方法

Country Status (1)

Country Link
CN (1) CN112836031A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021562B (zh) * 2016-05-31 2019-05-24 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法
US20200034482A1 (en) * 2018-07-26 2020-01-30 International Business Machines Corporation Verifying and correcting training data for text classification
CN111897963A (zh) * 2020-08-06 2020-11-06 沈鑫 一种基于文本信息和机器学习的商品分类方法
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021562B (zh) * 2016-05-31 2019-05-24 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
US20200034482A1 (en) * 2018-07-26 2020-01-30 International Business Machines Corporation Verifying and correcting training data for text classification
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法
CN111897963A (zh) * 2020-08-06 2020-11-06 沈鑫 一种基于文本信息和机器学习的商品分类方法
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法

Similar Documents

Publication Publication Date Title
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN110222272B (zh) 一种潜在客户挖掘与推荐方法
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN107491433A (zh) 基于深度学习的电商异常金融商品识别方法
CN110489457B (zh) 基于图像识别的商品信息分析方法、系统及存储介质
CN107133315B (zh) 一种基于语义分析的智能媒介推荐方法
US8793201B1 (en) System and method for seeding rule-based machine learning models
CN111667337A (zh) 一种商品评价的排序方法和系统
CN107679103B (zh) 用于实体的属性分析方法及系统
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
CN113592512A (zh) 一种线上商品身份唯一性识别确认系统
CN110704803A (zh) 目标对象的评估值计算方法及装置、存储介质、电子设备
CN116579351B (zh) 一种用户评价信息的分析方法及装置
CN112395528B (zh) 文本标签判别方法、装置、电子设备及存储介质
CN111126038A (zh) 信息获取模型生成方法、装置及信息获取方法、装置
CN112836031A (zh) 面向电商领域的问题判别方法
CN107886233B (zh) 客服的服务质量评价方法和系统
CN115660756A (zh) 一种电商商品的价格监测方法、装置、设备和介质
CN115269633A (zh) 一种基于cad图纸智能查询商品的方法
CN114266594A (zh) 一种基于东南亚跨境电商平台的大数据分析方法
CN112560408A (zh) 一种文本标注方法、装置、终端及存储介质
CN113570427A (zh) 一种提取识别线上或系统商品特征信息的系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230426

Address after: 104058, No. 2-10, No. 311 Huangpu Avenue Middle, Tianhe District, Guangzhou City, Guangdong Province, 510000

Applicant after: Guangzhou Tanyu Technology Co.,Ltd.

Address before: 601-5, 1382 Wenyi West Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Weier Network Technology Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210525

WD01 Invention patent application deemed withdrawn after publication