CN110222176A

CN110222176A - 一种文本数据的清洗方法、系统及可读存储介质

Info

Publication number: CN110222176A
Application number: CN201910440449.2A
Authority: CN
Inventors: 魏树桂; 左赛; 陈兵; 闫振河; 赵楠
Original assignee: Suningcom Group Co Ltd
Current assignee: Suningcom Group Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-10

Abstract

本发明公开了一种文本数据的清洗方法、系统及可读存储介质。本发明通过对筛选出的一部分商品标题数据的处理构建白名单，而后根据白名单的规则对全部商品标题数据进行过滤进而产生用于修正白名单中疑难数据的黑名单并更新白名单，如此对黑名单和白名单进行迭代以致最终获得符合要求的训练模型样本数据，输出该数据。本发明通过多次对白名单和黑名单的迭代，能够使得用于过滤的窗口规则更佳准确，使得输出的训练模型数据的覆盖度和准确度约达到95％，远高于现有技术。本发明的迭代方法，其能够减少获取训练模型样本数据过程中人工参与的工作量，因而速度更快。

Description

一种文本数据的清洗方法、系统及可读存储介质

技术领域

本发明涉及数据处理，具体而言涉及一种文本数据的清洗方法、系统及可读存储介质。

背景技术

电商系统中需要对商品标题进行大数据分类检测。其需要通过自然语言处理的方式，从商品标题中按照一定的规则提取相应信息，根据该信息对商品标题进行分类判断，将其归属于相应的类别。在该商品分类检测前期，需要根据训练模型样本数据获得分类检测所需的提取规则。

但是，目前在电商大数据的商品分类检测领域，该提取规则所基于的分类训练模型数据，一般需要采用人工逐条标注的方式进行清洗而获得。其处理效率不高。以常规的人工逐条标注的方式进行数据清洗，对于有1万+个类目下数据总量1亿+的商品标题数据，清洗起来几乎不可能完成，而且无法持续进行查错与补齐，训练模型样本数据覆盖度和准确度也只能做到70％。

而与此同时，在电商大数据的商品分类领域，需要进行上述预处理的样本训练数据的数量又极大(约有1亿条)。人工逐条标注效率不高。如果采用抽样的方式进行人工标注则会严重影响训练模型样本数据的准确性。训练模型样本数据的质量是影响商品分类准确性最重要的因素之一。现有做法不管是从保证数据的准确性，还是从保证数据的广度上均不能满足要求。

发明内容

本发明针对现有技术的不足，提供一种文本数据的清洗方法、系统及可读存储介质，用于对商品标题数据进行清洗预处理，以获得商品分类检测前期所基于的训练模型样本数据。

本发明具体采用如下技术方案：

第一方面，本发明实施例采用一种文本数据的清洗方法，用于处理商品标题数据，步骤包括：

处理商品标题数据中的一部分数据以构建白名单；

对全部商品标题数据进行过滤；

根据过滤所得的数据，更新所述白名单和/或创建黑名单；

根据所述白名单和/或黑名单重复上述过滤的步骤并进一步更新所述白名单或创建黑名单，直至过滤后获得符合要求的训练模型样本数据，输出该数据。

结合第一方面，作为第一种可实施的技术方案，构建所述白名单时，处理的所述商品标题数据由以下步骤获得：

筛选商品标题数据大于N条的类目；

从筛选出的每一个类目中分别随机抽样出n条商品标题数据，其中n<N。

结合第一方面，作为第二种可实施的技术方案，处理所述商品标题数据的步骤包括：

对所述商品标题数据进行离散化处理，以获得该商品标题数据的至少一个关键词；

建立所述关键词与该商品标题数据所属类目的对应关系，构建所述白名单。

结合第一方面的第二种可实施的技术方案，作为第三种可实施的技术方案，所述处理所述商品标题数据的步骤还包括：

建立所述关键词与该商品标题数据所属类目的对应关系之后，人工对该对应关系进行校对和调整，形成过滤窗口，根据该过滤窗口构建所述白名单。

结合第一方面的第三种可实施的技术方案，作为第四种可实施的技术方案，所述人工对所述对应关系进行的调整包括：

删除对应关系错误的关键词和/或补全明显缺失的关键词。

结合第一方面、第一种可实施的技术方案、第二种可实施的技术方案、第三种可实施的技术方案或者第四种可实施的技术方案，作为第五种可实施的技术方案，所述关键词包括：该商品标题数据所对应的商品名称和属性；

每一个类目至少对应有一个白名单，所述白名单包含有对应该类目的多个关键词的组合。

结合第一方面、第一种可实施的技术方案、第二种可实施的技术方案、第三种可实施的技术方案或者第四种可实施的技术方案，作为第六种可实施的技术方案，根据过滤所得的数据，更新所述白名单和/或创建黑名单的步骤包括：

根据过滤所得的数据通过tf-idf方式生成训练模型；

通过贝叶斯算法用生成的所述训练模型进行预测，生成预测数据；

人工抽查所述预测数据，调整类目归属错误的所述预测数据，并根据调整的规则更新所述白名单和/或创建黑名单。

第二方面，本发明实施例提供一种文本数据的清洗系统，包括：

类目整理模块，用于筛选商品标题数据大于N条的类目；

物品词提取模块，用于从筛选出的每一个类目中分别随机抽样出n条商品标题数据；

过滤干预模块，用于处理所述物品词提取模块所筛选出的商品标题数据以构建白名单；

跨类目数据挖掘补全模块，用于对全部商品标题数据进行过滤；并在过滤所得的训练模型样本数据符合要求时输出该训练模型样本数据；

可持续优化模块，用于根据过滤所得的数据，更新所述白名单和/或创建黑名单。

结合第二方面，作为第一种可实施的技术方案，所述的文本数据的清洗系统，还包括有人机交互接口，所述人机交互接口连接所述过滤干预模块和所述可持续优化模块，

所述过滤干预模块还用于根据人工对所述商品标题数据的关键词与该商品标题数据所属类目的对应关系进行校对和调整，形成过滤窗口，根据该过滤窗口构建所述白名单；

所述可持续优化模块具体用于：首先，根据过滤所得的数据通过tf-idf方式生成训练模型；然后，通过贝叶斯算法用生成的所述训练模型进行预测，生成预测数据；最后，人工抽查所述预测数据，调整类目归属错误的所述预测数据，并根据调整的规则更新所述白名单和/或创建黑名单。

第三方面，本发明实施例提供一种可读存储介质，其上存储有能够被处理器执行的程序指令，该程序指令被执行时实现前述的方法的步骤。

有益效果

本发明，通过对筛选出的一部分商品标题数据的处理构建白名单，而后根据白名单的规则对全部商品标题数据进行过滤进而产生用于修正白名单中疑难数据的黑名单。如此，本发明通过多次对白名单和黑名单的迭代，能够使得用于过滤的窗口规则更佳准确，使得输出的训练模型数据的覆盖度和准确度约达到95％，远高于现有技术。

进一步，本发明通过白名单和黑名单进行过滤处理时所基于的窗口规则包括有多次迭代而获得的若干关键词或关键词的组合，组合内的关键词具有逻辑联系需同时出现在商品标题数据中才能够将该商品标题数据归集到对应的类目中。本发明处理过程所基于的关键词通过离散化处理而获得，包括有对应商品的名称和属性，因而能够更佳准确的反应商品标题数据和类目的对应关系，进一步提高本发明的准确率。

本发明对于白名单和黑名的迭代可通过人机交互接口，根据人工的筛选、校对和调整实现，进一步的克服了机械训练所带来的误差。同时，由于本发明对大部分商品标题数据的处理都通过算法自动进行，人工仅需对校对出的有问题的数据进行调整，以更新白名单和黑名单，因此，本发明的处理效率远高于传统方式。本发明能够兼顾效率和准确率，同时还满足了对数据的广度的要求，达到了很好的过滤效果，能够大大提升后续商品分类处理的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并与本发明的实施例一起，用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的文本数据的清洗方法的示意图；

图2是本发明的文本数据的清洗系统的模块框图；

图3是本发明的一种实现方式下对商品标题数据进行处理的流程图；

图4是本发明中待预测的商品标题数据的实例；

图5是本发明的一种实现方式下部分类目关键字白名单表；

图6是本发明的一种实现方式下部分类目关键字黑名单表。

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明中所述的“和/或”的含义指的是各自单独存在或两者同时存在的情况均包括在内。

本发明中所述的“连接”的含义可以是部件之间的直接连接也可以是部件间通过其它部件的间接连接。

图1为根据本发明的一种文本数据的清洗方法，用于对商品标题数据进行数据清洗，以便后期利用清洗所获得的数据进行训练以进行商品分类。具体而言，本发明的文本数据的清洗方法，其步骤包括：

处理商品标题数据中的一部分数据，例如，通过中文分词技术处理商品标题数据大于N条的类目中的n条商品标题数据，根据分词技术所离散化而得到的关键词，构建关键词与类目的对应关系以获得白名单；

对全部商品标题数据进行过滤；

根据过滤所得的数据，通过例如人工判断并将物品词及属性词进行组合或删除的方式，更新所述白名单和/或创建黑名单；

由此，本发明对通过白名单表过滤后，仍然无法处理的某些商品标题数据，对这些疑难数据增加类目黑名单表进行处理。在黑、白名单中巧妙的利用“+”的逻辑，将多个关键词关联成更多属性的过滤窗口以实现对商品标题数据的准确辨识。并且，在这种实现方式下，本发明在清洗后还可以进一步通过对全部商品标题数据进行过滤实现对数据缺失的类目进行补全，从而达到很好的过滤效果。

参考图2，上述的清洗步骤可通过一个文本数据的清洗系统实现。该系统可集成或运行在计算机中或搭载在服务器上。该系统包括：

类目整理模块，用于筛选商品标题数据大于N条的类目；

物品词提取模块，用于从筛选出的每一个类目中分别随机抽样出n条商品标题数据；其中n<N，N通常可选取指500或以上，n可以选取为100或其他适合的数据量；

可持续优化模块，用于根据过滤所得的数据，更新所述白名单和/或创建黑名单；

以及，人机交互接口。所述的人机交互接口连接所述过滤干预模块和所述可持续优化模块，以使得：所述过滤干预模块能够用于根据人工对所述商品标题数据的关键词与该商品标题数据所属类目的对应关系进行校对和调整，形成过滤窗口，根据该过滤窗口构建所述白名单；

并使得所述可持续优化模块可具体进行如下的步骤：首先，根据过滤所得的数据通过tf-idf方式生成训练模型；然后，通过贝叶斯算法用生成的所述训练模型进行预测，生成预测数据；最后，人工抽查所述预测数据，调整类目归属错误的所述预测数据，并根据调整的规则更新所述白名单和/或创建黑名单。

所述的人机交互接口可包括键盘、鼠标、显示装置、触控装置等在内的实体的交互装置，也可包括供远程获取的人机交互数据进入该系统的数据接口、模拟接口或软件接口。

所述的过滤干预模块具体能够：对所述商品标题数据进行中文分词技术中的离散化处理，以获得该商品标题数据的至少一个关键词；并根据关键词之间的组合关系，采用“+”的逻辑将同一类目下的不同关键词进行组合，建立所述关键词与该商品标题数据所属类目的对应关系，构建所述白名单。

由此，本专利通过中文分词技术对不同类目下标题的关键字信息进行抽取，得到类目关键词白名单表，而后通过人机交互接口根据人工所校验出的错误的预测数据，新增和纠正黑、白名单以更新名单所对应的过滤窗口规则。

有了以上这些规则，通过将上述各模块以程序代码的方式在计算机或服务器上执行，将很容易的对类目数量1万+，数据总量1亿+的数据进行清洗。清洗过程中，经过多次迭代，本发明即可达到理想的过滤效果，获得比现有人工逐条标注更为理想的数据。

针对图4所示例的待预测商品标题数据，具体而言，上述的模块之间可通过图3所示的方式进行交互：

首先，类目整理模块从商品库中获取全部商品数据，包括分散在1万+个类目中的总数据量达到1亿+条的商品标题数据；而后，对各个类目下的商品标题数据的数量进行统计，筛选出类目下商品标题数据条数超过N＝500条的类目，作为以下过滤及预测所基于的已筛选类目。已筛选类目中的商品标题数据可见图4，每个标题都有一个与之对应的类目，但标题放在这个类目下是否合适就需要预测系统去判断。

第二步，物品词提取模块在每个已筛选类目下各随机或按照不特定的规律抽取n＝100条商品标题数据。

第三步，过滤干预模块将第二步中所得的商品标题数据进行离散化，实现分词，并将分词所获得的物品词、属性词等关键词与原本商品标题数据所属类目进行对应，以构建白名单。这里的离散化可以采用中文分词技术，将原本的类目标题数据离散。比如，上一步中我们在抽取了已筛选类目及其下100条数据，获得了标题为“麦瑞思背带毛呢连衣裙秋冬2017新款韩版女装两件套装裙修身显瘦打底裙潮mar pairs”、类目为“服饰鞋帽#女装/女士精品#连衣裙#连衣裙”的商品标题数据，用中文分词技术对标题进行处理后，会输出离散后的关键词为“背带毛呢连衣裙两件套装裙打底裙”的一个商品标题数据，将其对应为该类目下的一条白名单。由此，“服饰鞋帽#女装/女士精品#连衣裙#连衣裙”类目所对应的白名单中就包括有上述离散所获得的关键词：背带毛呢连衣裙两件套装裙打底裙等。

第四步，通过人机交互接口人工校对过滤干预模块所获得的类目所对应的白名单，将其中归类错误的关键词删除，将特定属性词与物品词用“+”相连，形成一种过滤窗口(例如：毛呢+连衣裙、背带+连衣裙)，并补全明显缺失的物品词，更新类目关键字的白名单。

第五步，跨类目数据挖掘补全模块利用上述的白名单对全部1亿+个如图4所示的数据进行初步过滤，得到过滤后数据。同时，通过人机交互接口进一步的对过滤后所得训练模型样本数据不足100条的类目进行数据补全。补全的数据根据相应的类目关键词通过可持续优化模块更新白名单或新建黑名单。其中的黑名单和白名单相反，用于标记白名单中不属于该类目下但容易判断错误的疑难关键词。

如此，循环所述的第三步至第五步，去过滤完的所有数据集中无差别查找，查找过程中不设类目限制，去过滤掉的数据中根据白名单和黑名单的限制去查找相关符合的标题数据，并追加至相应类目下。如此反复，直至获得符合95％准确率要求的训练模型样本数据为止。输出最终的训练模型样本数据。

在一种更为具体的实现方式下，上述对于可持续优化模块中更新所述白名单和/或创建黑名单的过程具体可采用如下的方式：

首先，根据过滤所得的数据通过tf-idf方式生成训练模型；

然后，通过贝叶斯算法用生成的所述训练模型进行预测，生成预测数据；

最终，人工方式随机抽查不同类目下的所述预测数据，标注其结果，汇总错误预测数据，按照预测错误数据去人工检查此类目下关键词及窗口规则是否符合要求，对不好处理的类目调整类目其中归属错误的预测数据，并根据调整的规则更新所述白名单和/或根据调整的规则相应的新增类目关键词黑名单，并增加相应的窗口规则。比如：比如图5、6中的第一条类目数据“家装建材及五金#五金/工具#机械五金#法兰”类目下会有很多法兰绒衣服的错误标题数据会对系统产生干扰，法兰绒衣服的错误标题数据仅通过白名单方式不好去除，因此针对其设置一条黑名单，就可以修正白名单的不足。

上述对于黑、白名单对应规则的创建、更新过程，以图5或图6中的第一行，取其中的“家装建材及五金#五金/工具#机械五金#法兰”为例：

物品词提取模块会对此类目下数据进行抽样并通过过滤干预模块分词，通过标注“白名单”得到图5中所列出的部分白名单表；

跨类目数据挖掘补全模块可通过服务器上的过滤脚本程序实现，其用于对全部的原始数据进行类目匹配(此例中，对全部商品标题数据按照“家装建材及五金#五金/工具#机械五金#法兰”的类目进行白名单的过滤筛选匹配)。成功后，再进行商品标题关键字匹配，如果任意一个关键字，例如，“法兰”“法兰盘”)在标题中，认为数据是正确的，否则认为是错误的；

当数据过滤完成，并按照关键词白名单的对应关系生成训练模型数据后，我们用此模型进行预测时会发现系统容易将“法兰绒衣服”的标题数据归集到“家装建材及五金#五金/工具#机械五金#法兰”的类目。此时，人工查看过滤数据发现会有此类目，即，其过滤所获得的训练模型样本数据中存在大量法兰绒衣服的标题。于是我们基于这种状况进一步的创建类目关键字的黑名单表，如图6中的第一行，将法兰绒衣服的标题排除在“家装建材及五金#五金/工具#机械五金#法兰”的类目以外。

由此，本发明利用类目关键词白名单、黑名单及其对应的窗口过滤规则，通过离散处理分词技术对不同类目下的商品标题进行抽样分词；根据分词所获得的关键词(物品词+特定属性词)创建对应该类目的白名单表；利用白名单过滤得到第一批过滤后的训练模型样本数据，并通过第一批数据得到训练模型，用此模型对待预测的全部商品标题数据进行类目预测。而后随机抽样类目预测所得数据进行人工标定，对预测错误的数据，创建类目关键词黑名单表；对过滤数据量不达标的类目，通过白名单、黑名单及窗口规则的方式去其他类目中补全数据，持续迭代进行数据的过滤。本发明通过三次或以上的迭代后，训练模型样本数据的覆盖度和准确度约能达到95％。

通过维护白名单、黑名单表以及更新图5中第四行的“短款”+“外套”，这种标题中必须有这两个关键词同时出现的组合才认为数据正确的类目匹配规则，本发明将类目与商品标题数据之间的关系通过两张表及表中的窗口(即，关键词之间“+”的逻辑关系)建立联系，并随时根据模型预测结果进行更新，达到很好的数据清洗效果。以上仅为本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种文本数据的清洗方法，用于处理商品标题数据，其特征在于，步骤包括：

处理商品标题数据中的一部分数据以构建白名单；

对全部商品标题数据进行过滤；

根据过滤所得的数据，更新所述白名单和/或创建黑名单；

2.如权利要求1所述的文本数据的清洗方法，其特征在于，构建所述白名单时，处理的所述商品标题数据由以下步骤获得：

筛选商品标题数据大于N条的类目；

3.如权利要求1所述的文本数据的清洗方法，其特征在于，处理所述商品标题数据的步骤包括：

4.如权利要求3所述的文本数据的清洗方法，其特征在于，处理所述商品标题数据的步骤还包括：

5.如权利要求4所述的文本数据的清洗方法，其特征在于，人工对所述对应关系进行的调整包括：

删除对应关系错误的关键词和/或补全明显缺失的关键词。

6.如权利要求1-5任一所述的文本数据的清洗方法，其特征在于，所述关键词包括：该商品标题数据所对应的商品名称和属性；

7.如权利要求1-5任一所述的文本数据的清洗方法，其特征在于，根据过滤所得的数据，更新所述白名单和/或创建黑名单的步骤包括：

根据过滤所得的数据通过tf-idf方式生成训练模型；

8.一种文本数据的清洗系统，其特征在于，包括：

类目整理模块，用于筛选商品标题数据大于N条的类目；

9.如权利要求8所述的文本数据的清洗系统，还包括有人机交互接口，所述人机交互接口连接所述过滤干预模块和所述可持续优化模块，所述过滤干预模块还用于根据人工对所述商品标题数据的关键词与该商品标题数据所属类目的对应关系进行校对和调整，形成过滤窗口，根据该过滤窗口构建所述白名单；

10.一种可读存储介质，其上存储有能够被处理器执行的程序指令，该程序指令被执行时实现权利要求1至7任一所述的方法的步骤。