CN110096574B

CN110096574B - 电商评论分类任务中数据集的建立和后续优化及扩充方案

Info

Publication number: CN110096574B
Application number: CN201910375040.7A
Authority: CN
Inventors: 郑圆; 丁丁; 李平章; 王航
Original assignee: Shanghai Baozun eCommerce Ltd
Current assignee: Shanghai Baozun eCommerce Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2023-08-15
Anticipated expiration: 2039-05-07
Also published as: CN110096574A

Abstract

本发明涉及一种电商评论分类任务中数据集的建立和后续优化及扩充方案，其特征在于，包括如下步骤：S1.对收集到的评论进行预处理；S2.利用人工标注平台按照步骤S1制定的标注规范进行标注，生成最初的数据集；S3.将步骤S1中预处理后的大量无标签的电商评论作为语料，采用Skip‑Gram模型训练出适用于电商评论的词向量，用于后续的模型训练，和数据集的扩充和优化；S4.利用词向量对现有数据集进行扩充；S5.利用模型的实际自动标注结果，结合词向量对现有数据集进行优化；S6.重复步骤S3至步骤S5，以实现数据集的持续更新。其优点表现在：降低人工标注耗费的时间和人力，同时在最初的数据集生成之后，能够进行持续的扩充和优化以满足后续自然语言处理的要求。

Description

电商评论分类任务中数据集的建立和后续优化及扩充方案

技术领域

本发明涉及机器学习和自然语言处理领域技术领域，具体地说，是一种电商评论分类任务中数据集的建立和后续优化及扩充方案。

背景技术

数据集的建立是利用机器学习对自然语言进行分析的技术中的最重要的前置工作之一，数据集的准确度以及泛化程度直接影响到通过其训练出的模型在实际应用中表现的优劣。

目前用于自然语言处理的数据集，很大一部分来自于开源的语料库，例如百度百科、人民日报、新浪微博等。这些的语料库的共同特点是所用语言大多是书面语，用词正式，语病较少。而电商评论为非正式的网络用语，偏口语化，风格随意，并且评论中经常会出现错字，病句等情况，也会包括表情符号等用于表达情感的非文本内容。因此直接使用现有的开源语料库对电商评论进行分析并非能取得理想的效果。

当开源的语料库无法满足需求时，另一种方式是借助标注平台对大量文本进行的人工标注，从而生成满足特定要求的数据集。这种方案的缺点也很明显，人工标注是一个缓慢的过程，需要大量人力进行长时间重复的标注行为，过程中将不可避免的产生标注错误。而且由于每个人对标注标准的理解不同，标注的结果也可能会产生的偏差，两方面都将对生成数据集的准确性产生影响。

另一方面，当数据集建立之后，后续的业务需求可能会对数据集的内容进行增加或删除，也会对已有的标注结果进行修改，这些改动对时间和人力都会有不小的要求。

中国专利文献：CN201810971800.6，申请日2018.08.24，专利名称为：一种中文商品虚假评论数据集的自动生成方法。公开了一种中文商品虚假评论数据集的自动生成方法，包括如下步骤：a)将事先采集到的商品评论数据读入内存；b)利用分词工具对评论进行分词，得到评论文本的词序列表示；c)对给定范围内的商品评论两两之间进行文本相似度的比较，得到商品虚假评论集合Rf1中；d)对Rf1中的评论执行关联查询，得到商品虚假评论结果集R1；e)提取给定范围内商品评论对应的评论人的名称信息；f)对评论人名称进行分析，找出符合一定规律特征的系列评论人名称，对虚假评论人执行关联查询，得到商品虚假评论结果集R2；g)最后，合并R1和R2，得到最终的商品虚假评论数据集。

上述专利文献的一种中文商品虚假评论数据集的自动生成方法，采用将读入的商品评论数据与给定范围内的商品评论两两之间进行文本相似度的比较，得到商品虚假评论集合，该发明完全自动化检测和识别商品评论数据中的虚假评论，无需人工干预和标注，自动生成商品虚假评论数据集。但是关于一种通过在人工标注的基础上，利用电商评论本身的一些特性，降低人工标注耗费的时间和人力，同时在最初的数据集生成之后，能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案目前则没有相关的报道。

综上所述，亟需一种通过在人工标注的基础上，利用电商评论本身的一些特性，降低人工标注耗费的时间和人力，同时在最初的数据集生成之后，能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案。

发明内容

本发明的目的是针对现有技术中的不足，提供一种通过在人工标注的基础上，利用电商评论本身的一些特性，降低人工标注耗费的时间和人力，同时在最初的数据集生成之后，能够进行持续的扩充和优化以满足后续自然语言处理的要求的一种电商评论分类任务中数据集的建立和后续优化及扩充方案。

为实现上述目的，本发明采取的技术方案是：

一种电商评论分类任务中数据集的建立和后续优化及扩充方案，其特征在于，包括如下步骤：

S1.对收集到的评论进行预处理，随后对其进行分析，建立一套初步的标签体系，同时为每个标签制定标注规范；

S2.随机采样一部分评论，利用人工标注平台按照步骤S1制定的标注规范进行标注，生成最初的数据集；

S3.将步骤S1中预处理后的大量无标签的电商评论作为语料，采用Skip-Gram模型训练出适用于电商评论的词向量，用于后续的模型训练，和数据集的扩充和优化；

S4.利用词向量对现有数据集进行扩充；

S5.利用模型的实际自动标注结果，结合词向量对现有数据集进行优化；

S6.重复步骤S3至步骤S5，以实现数据集的持续更新。

作为一种优选的技术方案，步骤S1中根据商品所属不同行业，分类收集对应的电商评论，例如，运动、服饰。

作为一种优选的技术方案，步骤S3中结合词向量和数据集里已有的评论数据，找出每一标签相关联的所有关键词，从而在步骤S1中的无标签评论中筛选出特征明显的评论，加入到已有的数据集中，实现数据集的扩充。

作为一种优选的技术方案，对S5中自动标注的结果进行人工审核，针对因数据集的缺失而造成的对应评论无法正确识别其对应标签的情况，对数据进行完善。

本发明优点在于：

1、对数据集的维护人数从原先的5人，减少至现在的1-2人。

2、人数的减少，降低了数据集中因个人对标注规范理解的不同而产生的标注差异。

3、当对数据集的标签有增加或者修改的需求时，可以快速的增加对应的评论数据，避免多次重复的利用人工标注平台为新增标签单独增加评论数据。

附图说明

附图1是本发明总流程图。

具体实施方式

下面结合附图对本发明提供的具体实施方式作详细说明。

实施例1

请参看附图1，图1为本发明总流程图。本发明电商评论分类任务中数据集的建立和后续优化及扩充方案具体步骤如下：

S1、初始数据集的建立：

S11、根据商品所属不同行业(运动、服饰等)，分类收集对应的电商评论，并进行初步的数据清洗；随后根据评论内容，建立一套标签体系，同时为每个标签制定标注规范；

S12、随机采样一部分评论，利用人工标注平台按照S11制定的标注规范进行标注，生成最初的数据集；

S2、对数据集中已存在的标签对应的评论数量进行扩充：

S21、将S11收集的大量无标签评论数据作为语料，通过Skip-Gram模型进行训练，获得适用于电商评论的词向量；

S22、结合词向量和数据集里已有的评论数据，找出每一标签相关联的所有关键词；从而在S11里的无标签评论中筛选出特征明显的评论，加入到已有数据集中，实现数据集的扩充；

S3、当数据集有新增标签后，能够采取S2类似的方式为新增的标签快速大量的增加相应的评论数据；

S4、数据集的优化：

S41、S22和S3中生成的数据集将用于模型训练，利用训练的结果对无标签的评论进行自动标注；

S42、对标注的结果进行人工审核；

S43、针对因数据集的缺失而造成的对应评论无法正确识别其对应标签的情况，对数据集进行完善；

S5、对于新增的无标签评论，重复S2-S4的步骤，实现数据集的持续自我完善。

本方案投入应用后，已经实现了以下的技术效果：

1.对数据集的维护人数从原先的5人，减少至现在的1-2人；

2.人数的减少，降低了数据集中因个人对标注规范理解的不同而产生的标注差异；

3.当对数据集的标签有增加或者修改的需求时，可以快速的增加对应的评论数据，避免多次重复的利用人工标注平台为新增标签单独增加评论数据。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种电商评论分类任务中数据集的建立和后续的优化及扩充方法，其特征在于，包括如下步骤：

S11、根据商品所属不同行业，分类收集对应的电商评论，并进行初步的数据清洗；随后根据评论内容，建立一套标签体系，同时为每个标签制定标注规范；

S2.对数据集中已存在的标签对应的评论数量进行扩充；

S21.将S11收集的大量无标签评论数据作为语料，通过Skip-Gram模型进行训练，获得适用于电商评论的词向量；

S3、当数据集有新增标签后，S2步骤为新增的标签快速大量的增加相应的评论数据；

S4、数据集的优化：

S42、对标注的结果进行人工审核；