CN108491390A - 一种干线物流货物名称自动识别分类方法 - Google Patents

一种干线物流货物名称自动识别分类方法 Download PDF

Info

Publication number
CN108491390A
CN108491390A CN201810262980.0A CN201810262980A CN108491390A CN 108491390 A CN108491390 A CN 108491390A CN 201810262980 A CN201810262980 A CN 201810262980A CN 108491390 A CN108491390 A CN 108491390A
Authority
CN
China
Prior art keywords
goods
description
source
data
main line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810262980.0A
Other languages
English (en)
Inventor
于文志
罗竞佳
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201810262980.0A priority Critical patent/CN108491390A/zh
Publication of CN108491390A publication Critical patent/CN108491390A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种干线物流货物名称自动识别分类方法,包括如下步骤:a)创建货源数据库,货源数据中包括货物ID和货物名称,依据货物名称创建货物类别,为每个货物类别创建货物名称字典;b)随机抽取货源数据,标识每条货源数据的货物类别,对货源数据进行归类、清洗;c)为清洗后的数据构建稀疏矩阵;d)对稀疏矩阵进行tf‑idf特征处理;e)采用分类模型得出预测结果,进行预测分类。本发明基于朴素贝叶斯算法的自然语言识别,对货物名称自动识别后进行分类,大大提高了货物名称识别分类的精准度,节约了大量的时间,降低了大量的人工成本,同时提高了货主的使用体验度。

Description

一种干线物流货物名称自动识别分类方法
技术领域
本发明属于计算机领域,涉及自然语言处理领域,尤其涉及一种干线物流货物名称自动识别分类方法。
背景技术
随着公路运输的快速发展,在公路干线物流领域,交易和流通变得越来越频繁和重要,现有的干线物流货物分类体系复杂,需要用户人工填写货物类别,耗费较多的时间且存在分类准确度完全依赖用户经验的情况。
随着物联网技术的迅猛发展,使得对货物名称自动识别成为可能,使得计算机来自动处理各种货源数据变得可能。因此,采用物联网技术来对现有的货物名称进行识别,就能解决上述的各种问题,大大提高了货物名称识别分类的精准度,节约了大量的时间,降低了大量的人工成本,同时提高了货主的使用体验度。
发明内容
为了解决上述问题,本发明公开了一种干线物流货物名称自动识别方法,基于朴素贝叶斯算法的自然语言识别,对货物名称自动识别后进行分类。
为了达到上述目的,本发明的技术方案如下:
一种干线物流货物名称自动识别分类方法,包括如下步骤:
a)创建货源数据库,货源数据中包括货物ID和货物名称,依据货物名称创建货物类别,为每个货物类别创建货物名称字典;
b)随机抽取货源数据,标识每条货源数据的货物类别,对货源数据进行归类、清洗;
c)为清洗后的数据构建稀疏矩阵;
d)对稀疏矩阵进行tf-idf特征处理;
e)采用分类模型得出预测结果,进行预测分类。
优选的,所述步骤b)中对数据进行清洗是对货源数据进行中文文本预处理,采用正则表达式只提取中文信息后,对提取的中文文本进行切词。
优选的,在所述对提取的中文文本进行切词前加入所述步骤a)中的货物名称字典。
优选的,对所述步骤d)中tf-idf值低的词进行过滤处理,并创建停用词字典。
优选的,获取维基百科的中文网页作为语料库,使用gensim训练word2vec模型,将所述步骤a)中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词,扩充为2级货物名称字典。
优选的,所述步骤e)中的分类模型是朴素贝叶斯模型。
优选的,根据所述步骤e)中得出的预测结果,调整添加所述步骤a)中的货物名称字典和所述停用词字典的内容。
与现有技术相比,本发明的有益效果是:
本发明所述的一种干线物流货物名称自动识别分类方法,通过对货源数据的清洗,对未分类的数据进行重新分类,实现了根据货物名称自动对货物分类的功能,其分类均准度均达到百分之九十以上,同时减少了货主使用APP发货时选择货物类别的步骤,也省去了APP后台客服人工填写货物类别的时间,节约了大量的时间,降低了大量的人工成本,同时提高了货主的使用体验度。
附图说明
图1 是本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基本本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开一种干线物流货物名称自动识别分类方法,包括如下步骤:
S1创建货源数据库,货源数据中包括货物ID和货物名称,依据货物名称创建货物类别,为每个货物类别创建货物名称字典;
本实施例中提到的货物类别是根据国家现有物流运输标准结合常用干线物流常用的货物名称而确定的,其确定的标准是以能覆盖常见货源种类为准。本实施例中所述货物类别数量为22个,具体为:设备电气、配件、建材装饰、本材、石材矿产、饲料、食品、酒水饮料、百货、水果、生鲜蔬菜、种子树苗、煤炭、家装家具、化肥、化工、粮食、快递、钢铁铝件、重货、泡货、普货,将这22个类别分别用阿拉伯数字1至22表示。
S2随机抽取1200条货源数据,标识每条货源数据的唯一货物类别,把货源数据进行归类后,将这1200条货源数据作为训练集合,进行货源数据的清洗,提高数据的质量。具体的是把包含有阿拉伯数字、标点符号、英文注释、拼音等各种格式不统一的货源名称数据进行中文文本预处理。采用正则表达式只提取货源数据中的中文信息,随后采用jieba中文切词将得到的中文文本信息切分成一个一个单独的词,成功的对货物名称进行中文分词,达到自动识别字词句含义的效果。为了防止货物名称被错误的拆分,要在切词前要加入本实施例步骤S1中的货物名称字典,确保货源数据能成功的与货物名称字典匹配。
S3将由所述步骤S2中得到的切词文本采用数学向量空间表示,并构建稀疏矩阵,加快自动识别分类的速度;
S4对稀疏矩阵进行tf-idf特征处理,确定每个词的权重。根据tfidf值的高低对切词得到的词进行过滤处理,创建停用词字典,将tfidf值低的词添加入停用词字典,所述停用词字典包含中文常用停用词汇和货物名称中的常见词汇。tf是词频,即每个词的出现频率统计;idf是逆向文件频率,其数学公式为:
其中,N为总文件数目,N(x)为包含该词之文件的数目,
为了方便处理,本实施例中采用scikit-learn包中的TfidfVectorizer进行tf-idf计算。
为了扩充所述步骤S1中的货物名称字典,拉取维基百科的中文网页作为语料库,使用gensim训练word2vec模型,将所述步骤S1中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词,扩充为2级货物名称字典。word2vec模型是用于词向量计算的工具,可以在百万数量级的词典和上亿的数据集上进行高效训练,得到的训练结果—词向量,可以很好地度量词与词之间的相似性。
S5测试所述步骤S1、所述步骤S2,所述步骤S4中得到的数据,使其规范化便于训练模型使用。采用朴素贝叶斯模型作为分类模型,朴素贝叶斯模型具有最小误差率的优点,其原理为:将中文文本预处理之后得到的词向量x作为输入量,计算在x情况下结果y属于不同类别的概率,取概率最大的类别作为y预测结果,其数学公式为:
根根条件独立假设可得:
又因为P(X)的概率在输入量相同的情况下值为常数,所以:
即在算出所有货物类别的先验概率和所有词在相应货物类别下的后验概率乘积情况下,取其概率值最大的货物类别作为预测分类。
进一步的,根据所述步骤S5中得出的预测结果,调整添加所述步骤S1中的货物名称字典和所述步骤S4中的停用词字典的内容。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围有所附权利要求及其等同物限定。

Claims (7)

1.一种干线物流货物名称自动识别分类方法,其特征在于:包括如下步骤:
a)创建货源数据库,货源数据中包括货物ID和货物名称,依据货物名称创建货物类别,为每个货物类别创建货物名称字典;
b)随机抽取货源数据,标识每条货源数据的货物类别,对货源数据进行归类、清洗;
c)为清洗后的数据构建稀疏矩阵;
d)对稀疏矩阵进行tf-idf特征处理;
e)采用分类模型得出预测结果,进行预测分类。
2.根据权利要求1所述的一种干线物流货物名称自动识别分类方法,其特征在于:所述步骤b)中对数据进行清洗是对货源数据进行中文文本预处理,采用正则表达式只提取中文信息后,对提取的中文文本进行切词。
3.根据权利要求2所述的一种干线物流货物名称自动识别分类方法,其特征在于:在所述对提取的中文文本进行切词前加入所述步骤a)中的货物名称字典。
4.根据权利要求2所述的一种干线物流货物名称自动识别分类方法,其特征在于:对所述步骤d)中tf-idf值低的词进行过滤处理,并创建停用词字典。
5.根据权利要求1所述的一种干线物流货物名称自动识别分类方法,其特征在于:获取维基百科的中文网页作为语料库,使用gensim训练word2vec模型,将所述步骤a)中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词,扩充为2级货物名称字典。
6.根据权利要求1所述的一种干线物流货物名称自动识别分类方法,其特征在于:所述步骤e)中的分类模型是朴素贝叶斯模型。
7.根据权利要求4和6所述的一种干线物流货物名称自动识别分类方法,其特征在于:根据所述步骤e)中得出的预测结果,调整添加所述步骤a)中的货物名称字典和所述停用词字典的内容。
CN201810262980.0A 2018-03-28 2018-03-28 一种干线物流货物名称自动识别分类方法 Pending CN108491390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810262980.0A CN108491390A (zh) 2018-03-28 2018-03-28 一种干线物流货物名称自动识别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810262980.0A CN108491390A (zh) 2018-03-28 2018-03-28 一种干线物流货物名称自动识别分类方法

Publications (1)

Publication Number Publication Date
CN108491390A true CN108491390A (zh) 2018-09-04

Family

ID=63316467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810262980.0A Pending CN108491390A (zh) 2018-03-28 2018-03-28 一种干线物流货物名称自动识别分类方法

Country Status (1)

Country Link
CN (1) CN108491390A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242036A (zh) * 2018-09-25 2019-01-18 艾凯克斯(嘉兴)信息科技有限公司 一种基于tf-idf思想计算产品结构相似性的方法
CN109447334A (zh) * 2018-10-19 2019-03-08 江苏满运软件科技有限公司 货源信息的数据降维方法、装置、电子设备、存储介质
CN109710712A (zh) * 2018-12-17 2019-05-03 中国人民公安大学 一种基于案件要素分析的犯罪热点特征挖掘方法及系统
CN110619363A (zh) * 2019-09-17 2019-12-27 陕西优百信息技术有限公司 物料数据长描述对应小类名称分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242036A (zh) * 2018-09-25 2019-01-18 艾凯克斯(嘉兴)信息科技有限公司 一种基于tf-idf思想计算产品结构相似性的方法
CN109447334A (zh) * 2018-10-19 2019-03-08 江苏满运软件科技有限公司 货源信息的数据降维方法、装置、电子设备、存储介质
CN109447334B (zh) * 2018-10-19 2021-07-16 江苏满运物流信息有限公司 货源信息的数据降维方法、装置、电子设备、存储介质
CN109710712A (zh) * 2018-12-17 2019-05-03 中国人民公安大学 一种基于案件要素分析的犯罪热点特征挖掘方法及系统
CN110619363A (zh) * 2019-09-17 2019-12-27 陕西优百信息技术有限公司 物料数据长描述对应小类名称分类方法

Similar Documents

Publication Publication Date Title
CN106156204B (zh) 文本标签的提取方法和装置
CN108491390A (zh) 一种干线物流货物名称自动识别分类方法
Lu et al. Rated aspect summarization of short comments
Sauper et al. Content models with attitude
US9454602B2 (en) Grouping semantically related natural language specifications of system requirements into clusters
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
Gojali et al. Aspect based sentiment analysis for review rating prediction
CN106599054A (zh) 一种题目分类及推送的方法及系统
US20100205198A1 (en) Search query disambiguation
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104050556B (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
Shetty et al. Automatic extractive text summarization using K-means clustering
CN108829780A (zh) 文本检测方法、装置、计算设备及计算机可读存储介质
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN109471946A (zh) 一种中文文本的分类方法及系统
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN110060132B (zh) 基于细粒度数据的可解释商品推荐方法
Koumpouri et al. Evaluation of four approaches for" sentiment analysis on movie reviews" the kaggle competition
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
Alhakiem et al. Aspect-based sentiment analysis on twitter using logistic regression with fasttext feature expansion
CN108563647A (zh) 一种基于评论情感分析的汽车销量预测方法
Liapakis A sentiment lexicon-based analysis for food and beverage industry reviews. The Greek language paradigm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904

RJ01 Rejection of invention patent application after publication