CN108491390A

CN108491390A - 一种干线物流货物名称自动识别分类方法

Info

Publication number: CN108491390A
Application number: CN201810262980.0A
Authority: CN
Inventors: 于文志; 罗竞佳; 王东
Original assignee: Jiangsu Manyun Software Technology Co Ltd
Current assignee: Jiangsu Manyun Software Technology Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-09-04

Abstract

本发明公开了一种干线物流货物名称自动识别分类方法，包括如下步骤：a）创建货源数据库，货源数据中包括货物ID和货物名称，依据货物名称创建货物类别，为每个货物类别创建货物名称字典；b）随机抽取货源数据，标识每条货源数据的货物类别，对货源数据进行归类、清洗；c）为清洗后的数据构建稀疏矩阵；d）对稀疏矩阵进行tf‑idf特征处理；e）采用分类模型得出预测结果，进行预测分类。本发明基于朴素贝叶斯算法的自然语言识别，对货物名称自动识别后进行分类，大大提高了货物名称识别分类的精准度，节约了大量的时间，降低了大量的人工成本，同时提高了货主的使用体验度。

Description

一种干线物流货物名称自动识别分类方法

技术领域

本发明属于计算机领域，涉及自然语言处理领域，尤其涉及一种干线物流货物名称自动识别分类方法。

背景技术

随着公路运输的快速发展，在公路干线物流领域，交易和流通变得越来越频繁和重要，现有的干线物流货物分类体系复杂，需要用户人工填写货物类别，耗费较多的时间且存在分类准确度完全依赖用户经验的情况。

随着物联网技术的迅猛发展，使得对货物名称自动识别成为可能，使得计算机来自动处理各种货源数据变得可能。因此，采用物联网技术来对现有的货物名称进行识别，就能解决上述的各种问题，大大提高了货物名称识别分类的精准度，节约了大量的时间，降低了大量的人工成本，同时提高了货主的使用体验度。

发明内容

为了解决上述问题，本发明公开了一种干线物流货物名称自动识别方法，基于朴素贝叶斯算法的自然语言识别，对货物名称自动识别后进行分类。

为了达到上述目的，本发明的技术方案如下：

一种干线物流货物名称自动识别分类方法，包括如下步骤：

a）创建货源数据库，货源数据中包括货物ID和货物名称，依据货物名称创建货物类别，为每个货物类别创建货物名称字典；

b）随机抽取货源数据，标识每条货源数据的货物类别，对货源数据进行归类、清洗；

c）为清洗后的数据构建稀疏矩阵；

d）对稀疏矩阵进行tf-idf特征处理；

e）采用分类模型得出预测结果，进行预测分类。

优选的，所述步骤b）中对数据进行清洗是对货源数据进行中文文本预处理，采用正则表达式只提取中文信息后，对提取的中文文本进行切词。

优选的，在所述对提取的中文文本进行切词前加入所述步骤a）中的货物名称字典。

优选的，对所述步骤d）中tf-idf值低的词进行过滤处理，并创建停用词字典。

优选的，获取维基百科的中文网页作为语料库，使用gensim训练word2vec模型，将所述步骤a）中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词，扩充为2级货物名称字典。

优选的，所述步骤e）中的分类模型是朴素贝叶斯模型。

优选的，根据所述步骤e）中得出的预测结果，调整添加所述步骤a）中的货物名称字典和所述停用词字典的内容。

与现有技术相比，本发明的有益效果是：

本发明所述的一种干线物流货物名称自动识别分类方法，通过对货源数据的清洗，对未分类的数据进行重新分类，实现了根据货物名称自动对货物分类的功能，其分类均准度均达到百分之九十以上，同时减少了货主使用APP发货时选择货物类别的步骤，也省去了APP后台客服人工填写货物类别的时间，节约了大量的时间，降低了大量的人工成本，同时提高了货主的使用体验度。

附图说明

图1 是本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基本本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明公开一种干线物流货物名称自动识别分类方法，包括如下步骤：

S1创建货源数据库，货源数据中包括货物ID和货物名称，依据货物名称创建货物类别，为每个货物类别创建货物名称字典；

本实施例中提到的货物类别是根据国家现有物流运输标准结合常用干线物流常用的货物名称而确定的，其确定的标准是以能覆盖常见货源种类为准。本实施例中所述货物类别数量为22个，具体为：设备电气、配件、建材装饰、本材、石材矿产、饲料、食品、酒水饮料、百货、水果、生鲜蔬菜、种子树苗、煤炭、家装家具、化肥、化工、粮食、快递、钢铁铝件、重货、泡货、普货，将这22个类别分别用阿拉伯数字1至22表示。

S2随机抽取1200条货源数据，标识每条货源数据的唯一货物类别，把货源数据进行归类后，将这1200条货源数据作为训练集合，进行货源数据的清洗，提高数据的质量。具体的是把包含有阿拉伯数字、标点符号、英文注释、拼音等各种格式不统一的货源名称数据进行中文文本预处理。采用正则表达式只提取货源数据中的中文信息，随后采用jieba中文切词将得到的中文文本信息切分成一个一个单独的词，成功的对货物名称进行中文分词，达到自动识别字词句含义的效果。为了防止货物名称被错误的拆分，要在切词前要加入本实施例步骤S1中的货物名称字典，确保货源数据能成功的与货物名称字典匹配。

S3将由所述步骤S2中得到的切词文本采用数学向量空间表示，并构建稀疏矩阵，加快自动识别分类的速度；

S4对稀疏矩阵进行tf-idf特征处理，确定每个词的权重。根据tfidf值的高低对切词得到的词进行过滤处理，创建停用词字典，将tfidf值低的词添加入停用词字典，所述停用词字典包含中文常用停用词汇和货物名称中的常见词汇。tf是词频，即每个词的出现频率统计；idf是逆向文件频率，其数学公式为：

其中，N为总文件数目，N（x）为包含该词之文件的数目，

为了方便处理，本实施例中采用scikit-learn包中的TfidfVectorizer进行tf-idf计算。

为了扩充所述步骤S1中的货物名称字典，拉取维基百科的中文网页作为语料库，使用gensim训练word2vec模型，将所述步骤S1中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词，扩充为2级货物名称字典。word2vec模型是用于词向量计算的工具，可以在百万数量级的词典和上亿的数据集上进行高效训练，得到的训练结果—词向量，可以很好地度量词与词之间的相似性。

S5测试所述步骤S1、所述步骤S2，所述步骤S4中得到的数据，使其规范化便于训练模型使用。采用朴素贝叶斯模型作为分类模型，朴素贝叶斯模型具有最小误差率的优点，其原理为：将中文文本预处理之后得到的词向量x作为输入量，计算在x情况下结果y属于不同类别的概率，取概率最大的类别作为y预测结果，其数学公式为：

根根条件独立假设可得：

又因为P(X)的概率在输入量相同的情况下值为常数，所以:

即在算出所有货物类别的先验概率和所有词在相应货物类别下的后验概率乘积情况下，取其概率值最大的货物类别作为预测分类。

进一步的，根据所述步骤S5中得出的预测结果，调整添加所述步骤S1中的货物名称字典和所述步骤S4中的停用词字典的内容。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围有所附权利要求及其等同物限定。

Claims

1.一种干线物流货物名称自动识别分类方法，其特征在于：包括如下步骤：

c）为清洗后的数据构建稀疏矩阵；

d）对稀疏矩阵进行tf-idf特征处理；

e）采用分类模型得出预测结果，进行预测分类。

2.根据权利要求1所述的一种干线物流货物名称自动识别分类方法，其特征在于：所述步骤b）中对数据进行清洗是对货源数据进行中文文本预处理，采用正则表达式只提取中文信息后，对提取的中文文本进行切词。

3.根据权利要求2所述的一种干线物流货物名称自动识别分类方法，其特征在于：在所述对提取的中文文本进行切词前加入所述步骤a）中的货物名称字典。

4.根据权利要求2所述的一种干线物流货物名称自动识别分类方法，其特征在于：对所述步骤d）中tf-idf值低的词进行过滤处理，并创建停用词字典。

5.根据权利要求1所述的一种干线物流货物名称自动识别分类方法，其特征在于：获取维基百科的中文网页作为语料库，使用gensim训练word2vec模型，将所述步骤a）中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词，扩充为2级货物名称字典。

6.根据权利要求1所述的一种干线物流货物名称自动识别分类方法，其特征在于：所述步骤e）中的分类模型是朴素贝叶斯模型。

7.根据权利要求4和6所述的一种干线物流货物名称自动识别分类方法，其特征在于：根据所述步骤e）中得出的预测结果，调整添加所述步骤a）中的货物名称字典和所述停用词字典的内容。