CN110209811A

CN110209811A - 一种商品自动分类方法及系统

Info

Publication number: CN110209811A
Application number: CN201910360318.3A
Authority: CN
Inventors: 何秋
Original assignee: Shanghai Ari Market Consulting Ltd By Share Ltd
Current assignee: Shanghai Iresearch Business Consulting Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-09-06
Anticipated expiration: 2039-04-30
Also published as: CN110209811B

Abstract

本发明提供一种商品自动分类方法及系统，包括一数据库以及一数据处理系统。所述数据处理系统包括：第一样本采集单元、第一样本分类单元、第一分类器构建单元、第二样本采集单元、第二样本分类单元、第二分类器构建单元、被检测样本采集单元以及商品类别判断单元。本发明通过结合自然语言处理技术以及大数据，可以有效解决了传统商品分类效率低等问题；并且通过将特征筛选方法引入系统中，更进一步的提高商品分类的效率。

Description

一种商品自动分类方法及系统

技术领域

本发明设计自然语言处理技术领域，特别涉及一种商品自动分类方法及系统。

背景技术

信息化时代的来临使得人们的生活步入数字化的轨道；商品信息的管理也迈入数字化、科技化、移动化的阶段。电商平台商品类别众多，随着大数据时代的来临，商品数据信息迎来了数据大爆炸，其中电商平台管理商品信息最重要的步骤就是商品的分类。

传统的商品类别分类一般是根据人为的主观意识或者生活经验对商品进行分类，主要通过对商品的标题信息进行简单的分类。由于个人认知不同，这容易导致对商品的分类不够准确。并且，如果人为的去处理商品的分类，这严重的影响了工作效率。

短文本分类是浅层自然语言处理领域的一个分支，其处理对象为各种形式的短文本语料，近年来已经得到快速的发展，并取得了一定的研究成果。但是到目前为止，还没有一套统一的文本分类的系统可以解决各种类型的文本分类问题，特别是在文本特征处理方面。文本特征处理是文本分类的基础，对最终的分类效果有着直接影响，因此对于不同的文本分类基础，选择合适的特征处理方法尤为重要。

因此，急需提出一种商品自动分类方法及系统，通过现有的自然语言处理技术以及大数据，可以提高商品自动分类的效率。可以解决商品自动分类效率低，不够准确等问题。

发明内容

本发明的目的在于，提供一种商品自动分类方法及系统，通过结合自然语言处理技术以及大数据，可以有效解决了传统商品分类效率低等问题；并且通过将特征筛选引入系统中，更进一步的提高商品分类的效率。

为解决上述技术问题，本发明提供一种商品自动分类方法，包括如下步骤：数据库建立步骤，录入两个以上不同种类的商品信息数据至一数据库，每一商品信息数据包括商品的第一类别、第二类别以及文本标题；第一样本采集步骤，从所述数据库中采集第一样本，每一第一样本包括不同第一类别的商品的第一类别以及文本标题；第一样本分类步骤，将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类；第一分类器构建步骤，利用两个以上第一训练样本训练并构建第一分类器；第二样本采集步骤，从所述数据库中采集N组第二样本，每组第二样本包括两个以上商品的第二类别以及文本标题，同组别第二样本的商品的第一类别相同，N为第一类别的数量；第二样本分类步骤，将每一组所述第二样本随机分成第二训练样本及第二测试样本两类；第二分类器构建步骤，利用每一组两个以上第二训练样本训练并构建N个第二分类器，分别对应每一种第一类别；被检测样本采集步骤，采集一被检测商品样本的待检测文本标题；以及商品类别判断步骤，所述第一分类器读取被检测商品的文本标题，判断所述被检测商品的第一类别；根据所述被检测商品的第一类别选择一第二分类器，读取被检测商品的文本标题，判断所述被检测商品的第二类别。

进一步地，所述第一分类器构建步骤，包括如下步骤:初级第一分类器构建步骤，利用两个以上第一训练样本训练并构建初级第一分类器；第一验证步骤，根据至少一第一测试样本对所述第一初级分类器进行验证；初级第一分类器优化步骤，根据第一验证步骤的验证结果优化初级第一分类器，获得所述第一分类器；所述第二分类器构建步骤，包括如下步骤:初级第二分类器构建步骤，利用两个以上第二训练样本训练并构建初级第二分类器；第二验证步骤，根据至少一第二测试样本对所述第二初级分类器进行验证；初级第二分类器优化步骤，根据第二验证步骤的验证结果优化初级第二分类器，获得所述第二分类器。

进一步地，所述第一样本采集步骤，包括如下步骤：标题文本获取步骤，从数据库中读取若干不同第一类别商品的文本标题，并记录每一商品的第一类别；第一样本预处理步骤，将所属相同第一类别商品的文本标题放于同一集合，并对每一集合中所有文本标题进行分词处理，获得不同第一类别集合中商品的文本标题的第一特征分词；第一数据化样本生成步骤，生成两个以上数据化样本，每一数据化样本包括第一类别以及多个第一特征分词集合；所述第二样本采集步骤，包括如下步骤：标题文本获取步骤，从所述数据库中读取N组文本标题，并记录每一商品的第二类别，每组文本标题的第一类别相同；第二样本预处理步骤，将所属相同第二类别商品的文本标题放于同一集合，并对各集合中所有文本标题进行分词处理，获得N组不同第二类别集合中商品标题文本的第二特征分词；第二数据化样本生成步骤，生成两个以上数据化样本，每一数据化样本包括第二类别以及多个第二特征分词集合。

进一步地，在所述第一样本数据预处理步骤中，所述第一样本数据的分词处理采用结巴中文自动分词算法；在所述第二样本数据预处理步骤中，所述第二样本数据的分词处理采用结巴中文自动分词算法。

进一步地，所述第一样本采集步骤中，在所述第一样本数据预处理步骤之后，还包括第一特征分词筛选步骤，筛选所述第一特征分词，将与商品特征无关的第一特征分词滤除；所述第二样本采集步骤中，在所述第二样本数据预处理步骤之后，还包括第二特征分词筛选步骤，筛选所述第二特征分词，将与商品特征无关的第二特征分词滤除。

进一步地，所述初级第一分类器构建步骤，包括如下步骤：词频计算步骤，在不同的第一类别的前提下，计算每一第一特征分词集合中各个词语出现的次数，并将该次数除以该集合的词语总数；逆向文件频率计算步骤，将所有第一特征分词集合数量分别除以不同词语出现的频次，并除以所有并进行取对数操作；第一权重计算步骤，将第一类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及初级第一分类器生成步骤，根据所述每一词语的权重生成初级第一分类器；所述初级第二分类器构建步骤，包括如下步骤：词频计算步骤，在不同的第二类别的前提下，计算每一第二特征分词集合中不同词语出现的次数，并将该次数除以该集合的词语总数；逆向文件频率计算步骤，在相同的第一类别前提，将第二特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；第二权重计算步骤，将第二类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及初级第二分类器生成步骤，根据所述每一词语的权重生成初级第二分类器。

进一步地，所述第一验证步骤，包括如下步骤：输入第一测试样本步骤，输入X个第一测试样本至初级第一分类器，获取X个第一结果；第一比对步骤，将所述X个第一结果与所述X个第一测试样本的X个第一类别比较，统计与所述第一类别不一致的第一结果的个数Y；第一错误样本分类步骤，根据Y个错误样本被错分的第一类别，统计所述Y个错误样被错分到相同的第一类别的样本个数；计算步骤，计算第一错误率，所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值；所述第二验证步骤，包括如下步骤：输入第二测试样本步骤，输入X个第二测试样本至初级第二分类器，获取X个第二结果；第二比对步骤，将所述X个第二结果与所述X个第二测试样本的X个第二类别比较，统计与所述第二类别不一致的第二结果的个数Y；第二错误样本分类步骤，根据Y个错误样本被错分的第二类别，统计所述Y个错误样被错分到相同的第二类别的样本个数；计算步骤，计算第二错误率，所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。

进一步地，所述初级第一分类器优化步骤，包括如下步骤：放大步骤，将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算得到一放大功率；第一权重调整步骤，将所述放大功率与所述初级第一分类器的权重相乘，获得第一优化权重；以及第一分类器生成步骤，根据所述每一词语的第一优化权重生成所述第一分类器；所述初级第二分类器优化步骤，包括如下步骤：放大步骤，将所述第二错误率放大一定的预设倍数，并将放大后的第二错误率进行取对数运算得到一放大功率；第二权重调整步骤，将所述放大功率与所述初级第二分类器的权重相乘，获得第二优化权重；以及第二分类器生成步骤，根据所述每一词语的第二优化权重生成所述第二分类器。

进一步地，所述被检测样本采集步骤，包括如下步骤：被检测商品获取步骤，在数据库中读取被检测商品的文本标题；被检测商品预处理步骤，对被检测商品的文本标题进行分词处理，得到特征分词；被检测商品筛选特征步骤，对得到的特征分词进行筛选，滤除与商品特征无关的特征分词，得到检测特征分词集合；被检测数据化样本生成步骤，生成一被检测数据化样本，包括所述被检测商品的检测特征分词集合。

进一步地，在所述被检测样本预处理步骤中，所述被检测样商品的标题文本的分词处理采用结巴中文自动分词算法。

进一步地，所述商品类别判断步骤，包括如下步骤：初级第一分类器判断步骤，根据检测特征分词集合查找初级第一权重，分别计算该集合中每一个第一类别的初级第一权重和值，该初级第一权重和值为第一类别相同的所有分词的初级第一权重的总和，取初级第一权重和值最大的第一类别为初级第一结果；第一分类器判断步骤，根据初级第一结果，调用该初级第一结果对应的所有类别错误率，针对其错误率对应的第一类别调整权重，根据检测特征分词集合查找第一权重，分别计算该集合中每一个第一类别的第一权重和值，该第一权重和值为第一类别相同的所有分词的第一权重的总和，取第一权重和值最大的第一类别为第一结果；初级第二分类器调用步骤，根据所述第一结果调用相对应的初级第二分类器，调用的初级第二分类器的第一类别与所述第一结果一致；初级第二分类器判断步骤，根据检测特征分词集合查找初级第二权重，分别计算该集合中每一个第二类别的初级第二权重和值，该初级第二权重和值为第二类别相同的所有分词的初级第二权重的总和，取初级第二权重和值最大的第二类别为初级第二结果；第二分类器判断步骤，根据初级第二结果，调用该初级第二结果对应的所有类别错误率，针对其错误率对应的第一类别调整权重，根据检测特征分词集合查找第二权重，分别计算该集合中每一个第二类别的第二权重和值，该第二权重和值为第二类别相同的所有分词的第二权重的总和，取第二取权重和值最大的第二类别为第二结果。

进一步地，所述商品类别判断步骤，还包括如下步骤：第一分类器判断步骤在特定情况下为非必须步骤，当所述初级第一结果无对应类别错误率，则不会调用第一分类器判断步骤，此时初级第一分类器即为第一分类器，初级第一结果即为第一结果；第二分类器判断步骤在特定情况下为非必须步骤，当所述初级第二结果无对应类别错误率，则不会调用第二分类器判断步骤，此时初级第二分类器即为第二分类器，初级第二结果即为第二结果。

进一步地，所述第一分类器判断步骤之前，包括如下步骤：初级第一分类器判断步骤，根据检测特征分词集合查找初级第一权重，分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值，所述初级第一权重和值最大的第一类别为初级第一结果；初级第一分类器调整步骤，调用所述初级第一结果所述对应的所有第一类别的错误率，调整所述第一错误率对应的初级第一权重得到第一权重；在所述第二分类器判断步骤之前，包括如下步骤：初级第二分类器判断步骤，根据所述检测特征分词集合查找初级第二权重，分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值，所述初级第二权重和值最大的第二类别为初级第二结果；初级第二分类器调整步骤，根据初级第二结果对应的所有第二类别错误率，调整所述第二错误率所对应的初级第二权重得到第二权重。

本发明还提供一种商品自动分类系统，包括一数据库以及一数据处理系统；所述数据库具有两个以上不同种类的商品信息数据至，每一商品信息数据包括商品的第一类别、第二类别以及文本标题；所述数据处理系统包括：第一样本采集单元，用以从所述数据库中采集第一样本，每一第一样本包括不同第一类别的商品的第一类别以及文本标题；第一样本分类单元，用以将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类；第一分类器构建单元，用以将两个以上第一训练样本训练并构建第一分类器；第二样本采集单元，用以从所述数据库中采集N组第二样本，每组第二样本包括两个以上商品的第二类别以及文本标题，同组别第二样本的商品的第一类别相同，N为第一类别的数量；第二样本分类单元，用以将每一组所述第二样本随机分成第二训练样本及第二测试样本两类；第二分类器构建单元，用以将每一组两个以上第二训练样本训练并构建N个第二分类器，分别对应每一种第一类别；被检测样本采集单元，用以采集一被检测商品样本的待检测文本标题；以及商品类别判断单元，用以调用所述第一分类器读取被检测商品的文本标题，判断所述被检测商品的第一类别；根据所述被检测商品的第一类别选择一第二分类器，读取被检测商品的文本标题，判断所述被检测商品的第二类别。

进一步地，所述第一分类器构建单元包括:初级第一分类器构建单元，用以将两个以上第一训练样本训练并构建初级第一分类器；第一验证单元，用以将至少一第一测试样本对所述第一初级分类器进行验证；初级第一分类器优化单元，根据第一验证单元得到的验证结果优化初级第一分类器，获得所述第一分类器；所述第二分类器构建单元包括:初级第二分类器构建单元，用以将两个以上第二训练样本训练并构建初级第二分类器；第二验证单元，用以将至少一第二测试样本对所述第二初级分类器进行验证；初级第二分类器优化单元，根据第二验证单元得到的验证结果优化初级第二分类器，获得所述第二分类器。

进一步地，所述第一样本采集单元包括：标题文本获取单元，从数据库中读取若干不同第一类别商品的文本标题，并记录每一商品的第一类别；第一样本预处理单元，用以将所属相同第一类别商品的文本标题放于同一集合，并对每一集合中所有文本标题进行分词处理，获得不同第一类别集合中商品的文本标题的第一特征分词；第一数据化样本生成单元，用以生成两个以上数据化样本，每一数据化样本包括第一类别以及多个第一特征分词集合；所述第二样本采集单元包括：标题文本获取单元，从所述数据库中读取N组文本标题，并记录每一商品的第二类别，每组文本标题的第一类别相同；第二样本预处理单元，用以将所属相同第二类别商品的文本标题放于同一集合，并对各集合中所有文本标题进行分词处理，获得N组不同第二类别集合中商品标题文本的第二特征分词；第二数据化样本生成单元，用以生成两个以上数据化样本，每一数据化样本包括第二类别以及多个第二特征分词集合。

进一步地，所述第一样本数据的分词处理采用结巴中文自动分词算法；每一组第二样本数据的分词处理采用结巴中文自动分词算法。

进一步地，所述第一样本采集单元还包括第一特征分词筛选单元，筛选所述第一特征分词，将与商品特征无关的第一特征分词滤除；所述第二样本采集单元还第二特征分词筛选单元，筛选所述第二特征分词，将与商品特征无关的第二特征分词滤除。

进一步地，所述初级第一分类器构建单元，包括：词频计算单元，在不同的第一类别的前提下，用以计算每一第一特征分词集合中各个词语出现的次数；逆向文件频率计算单元，用以计算每个词语在第一特征分词集合中的低文件频率，通过将所有第一特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；第一权重计算单元，用以将第一类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及初级第一分类器生成单元，用以根据所述每一词语的权重生成初级第一分类器；所述初级第二分类器构建单元，包括：词频计算单元，在不同的第二类别的前提下，用以计算每一第二特征分词集合中不同词语出现的次数；逆向文件频率计算单元，用以计算每个词语在第二特征分词集合中的低文件频率，通过将所有第二特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；第二权重计算单元，用以将第二类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及初级第二分类器生成单元，根据所述每一词语的权重生成初级第二分类器。

进一步地，所述第一验证单元包括：输入第一测试样本单元，输入X个第一测试样本至初级第一分类器，获取X个第一结果；第一比对单元，将所述X个第一结果与所述X个第一测试样本的X个第一类别比较，统计与所述第一类别不一致的第一结果的个数Y；第一错误样本分类单元，根据Y个错误样本被错分的第一类别，统计所述Y个错误样被错分到相同的第一类别的样本个数；计算单元，计算第一错误率，所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值；所述第二验证单元包括：输入第二测试样本单元，输入X个第二测试样本至初级第二分类器，获取X个第二结果；第二比对单元，将所述X个第二结果与所述X个第二测试样本的X个第二类别比较，统计与所述第二类别不一致的第二结果的个数Y；第二错误样本分类单元，根据Y个错误样本被错分的第二类别，统计所述Y个错误样被错分到相同的第二类别的样本个数；计算单元，计算第二错误率，所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。。

进一步地，所述初级第一分类器优化单元包括：放大单元，将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算得到一放大功率；第一权重调整单元，将所述放大功率与所述初级第一分类器的权重相乘，获得第一优化权重；以及第一分类器生成单元，根据所述每一词语的第一优化权重生成所述第一分类器；所述初级第二分类器优化单元，包括：放大单元，将所述第二错误率放大一定的预设倍数，并将放大后的第二错误率进行取对数运算得到一放大功率；第二权重调整单元，将所述放大功率与所述初级第二分类器的权重相乘，获得第二优化权重；以及第二分类器生成单元，根据所述每一词语的第二优化权重生成所述第二分类器。

进一步地，所述被检测样本采集单元，包括：被检测商品获取单元，用以在数据库中读取被检测商品的文本标题；被检测商品预处理单元，用以对被检测商品的文本标题进行分词处理，得到特征分词；被检测商品筛选特征单元，用以对得到的特征分词进行筛选，滤除与商品特征无关的特征分词，得到检测特征分词集合；被检测数据化样本生成单元，用以生成一被检测数据化样本，包括所述被检测商品的检测特征分词集合。

进一步地，所述被检测样商品的文本标题的分词处理采用结巴中文自动分词算法。

进一步地，所述商品类别判断单元，包括：第一分类器判断单元，根据检测特征分词集合查找第一权重，分别计算该集合中每一个第一类别的第一权重和值，该第一权重和值为第一类别相同的所有分词的第一权重的总和，取第一权重和值最大的第一类别为第一结果；第二分类器调用单元，根据所述第一结果调用相对应的第二分类器，调用的第二分类器的第一类别与所述第一结果一致；第二分类器判断单元，根据检测特征分词集合查找第二权重，分别计算该集合中每一个第二类别的第二权重和值，该第二权重和值为第二类别相同的所有分词的第二权重的总和，取第二取权重和值最大的第二类别为第二结果。

进一步地，所述商品类别判断单元，还包括：初级第一分类器判断单元，根据检测特征分词集合查找初级第一权重，分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值，所述初级第一权重和值最大的第一类别为初级第一结果；初级第一分类器调整单元，调用所述初级第一结果所述对应的所有第一类别的错误率，调整所述第一错误率对应的初级第一权重得到第一权重；初级第二分类器判断单元，根据所述检测特征分词集合查找初级第二权重，分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值，所述初级第二权重和值最大的第二类别为初级第二结果；初级第二分类器调整单元，根据初级第二结果对应的所有第二类别错误率，调整所述第二错误率所对应的初级第二权重得到第二权重。

本发明的有益效果是：本发明提供了一种商品自动分类方法及系统，与传统的人工分类不同，本发明采用了现热门的自然语言文本处理，通过大数据进行对训练样本集训练模型得到分类器；并通过测试集对分类器进行调整得到最优的分类器，克服了人工分类的效率低，并且所述商品自动分类系统具有较高的准确率。

在现有的文本分类系统中，并没有一个分类系统能够完整的适应各个分类场景中，因为在自然语言处理中，每个种类的文本特征不同。大量的特征会给系统带来复杂的程序。本发明采用了特征筛选，将与商品分类无关的特滤除，进一步提高所述商品自动分类系统的效率。

附图说明

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明提供商品自动分类系统的功能模块图；

图2为本发明提供第一样本采集单元的功能模块图；

图3为本发明提供第一分类器构建单元的功能模块图；

图4为本发明提供初级第一分类器构建单元的功能模块图；

图5为本发明提供第一验证单元的功能模块图；

图6为本发明提供初级第一分类器优化单元的功能模块图；

图7为本发明提供第二样本采集单元的功能模块图；

图8为本发明提供第二分类器构建单元的功能模块图；

图9为本发明提供初级第二分类器构建单元的功能模块图；

图10为本发明提供第二验证单元的功能模块图；

图11为本发明提供初级第二分类器优化单元的功能模块图；

图12为本发明提供被检测样本采集单元的功能模块图；

图13为本发明提供商品类别判断单元的功能模块图；

图14为本发明提供商品自动分类方法的流程图；

图15为本发明提供第一样本采集步骤的流程图；

图16为本发明提供第一分类器构建步骤的流程图；

图17为本发明提供初级第一分类器构建步骤的流程图；

图18为本发明提供第一验证步骤的流程图；

图19为本发明提供初级第一分类器优化步骤的流程图；

图20为本发明提供第二样本采集步骤的流程图；

图21为本发明提供第二分类器构建步骤的流程图；

图22为本发明提供初级第二分类器构建步骤的流程图；

图23为本发明提供第二验证步骤的流程图；

图24为本发明提供初级第二分类器优化步骤的流程图；

图25为本发明提供被检测样本采集步骤的流程图；

图26为本发明提供商品类别判断步骤的流程图；

商品自动分类系统100

数据库110；处理器120；数据处理系统200；

第一样本采集单元21；第一样本分类单元22；第一分类器构建单元23；

第二样本采集单元24；第二样本分类单元25；第二分类器构建单元26；

被检测样本采集单元27；商品类别判断单元28；标题文本获取单元211；

第一样本预处理单元212；第一数据化样本生成单元213；初级第一分类器

构建单元231；第一验证单元232；初级第一分类器优化单元233；

词频计算单元2311；逆向文件频率计算单元2312；第一权重计算单元2313；

初级第一分类器生成单元2314；输入第一测试样本单元2321；

第一比对单元2322；计算单元2323；放大单元2331；第一权重调整单元2332；

第一分类器生成单元2333；标题文本获取单元241；第二样本预处理单元

242；第二数据化样本生成单元243；初级第二分类器构建单元261；

第二验证单元262；初级第二分类器优化单元263；词频计算单元2611；

逆向文件频率计算单元2612；第二权重计算单元2613；初级第二分类器生

成单元2614；输入第二测试样本单元2621；第二比对单元2622；

计算单元2623；放大单元2631；第二权重调整单元2632；第二分类器生成

单元2633；被检测商品获取单元271；被检测商品预处理单元272；被检测

商品筛选特征单元273；被检测数据化样本生成单元274；第一分类器判断

单元281；第二分类器调用单元282；第二分类器调用单元283。

具体实施方式

以下是各实施例的说明是参考附加的图式，用以例示本发明可以用湿湿的特定实施例。本发明所提到的方向用语，例如上、下、前、后、左、右、内、外、侧等，仅是参考附图式的方向。本发明提到的元件名称，例如第一、第二等，仅是区分不同的元部件，可以更好的表达。在图中，结构相似的单元以相同标号表示。

本文将参照附图来详细描述本发明的实施例。本发明可以表现为许多不同形式，本发明不应仅被解释为本文阐述的具体实施例。本发明提供这些实施例是为了解释本发明的实际应用，从而使本领域其他技术人员能够理解本发明的各种实施例和适合于特定预期应用的各种修改方案。

如图1所示，本发明提供一种商品自动分类系统，包括一数据库110以及一数据处理系统200。

所述数据库110具有两个以上不同种类的商品信息数据至，每一商品信息数据包括商品的第一类别、第二类别以及文本标题；所述数据库110一般安装在计算机端或者存放在服务器端。所述数据处理系统200通过CPU处理器120分发指令进行各个单元的功能操作。

假定数据库110中商品共有两个第一类别：数码产品和个人护理。在数码产品下有包含第二类别：电脑、手机、相机；在个人护理下有包含第二类别：牙膏、洗面奶、纸巾；数据库110中存储的商品结构[文本标题，第一类别，第二类别]。

例如：

文本标题	第一类别	第二类别
			智能数码相机	数码产品	相机
碱性木炭牙膏	个人护理	牙膏

所述数据处理系统200包括：第一样本采集单元21、第一样本分类单元22、第一分类器构建单元23、第二样本采集单元24、第二样本分类单元25、第二分类器构建单元26、被检测样本采集单元27以及商品类别判断单元28。

第一样本采集单元21用以从所述数据库110中采集第一样本，每一第一样本包括不同第一类别的商品的第一类别以及文本标题。

如图2所示，所述第一样本采集单元21具体包括：标题文本获取单元211、第一样本预处理单元212以及第一数据化样本生成单元213。

标题文本获取单元211用以从数据库110中读取若干不同第一类别商品的文本标题，并记录每一商品的第一类别；第一样本预处理单元212用以将所属相同第一类别商品的文本标题放于同一集合，并对每一集合中所有文本标题进行分词处理，获得不同第一类别集合中商品的文本标题的第一特征分词；第一特征分词筛选单元，筛选所述第一特征分词，将与商品特征无关的第一特征分词滤除；第一数据化样本生成单元213用以生成两个以上数据化样本，每一数据化样本包括第一类别以及多个第一特征分词集合。

所述第一样本数据的分词处理采用结巴中文自动分词算法，所述结巴中文自动分词算法包括精确模式、全模式以及搜索引擎模式。

第一样本分类单元22用以将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类。

如图3所示，第一分类器构建单元23用以将两个以上第一训练样本训练并构建第一分类器。所述第一分类器构建单元23具体包括:初级第一分类器构建单元231、第一验证单元232以及初级第一分类器优化单元233。

初级第一分类器构建单元231用以将两个以上第一训练样本训练并构建初级第一分类器；第一验证单元232用以将至少一第一测试样本对所述第一初级分类器进行验证；初级第一分类器优化单元233根用以据第一验证单元232得到的验证结果优化初级第一分类器，最终获得所述第一分类器。

如图4所示，所述初级第一分类器构建单元231包括：词频计算单元2311、逆向文件频率计算单元2312、第一权重计算单元2313以及初级第一分类器生成单元2314。

词频计算单元2311用以在不同的第一类别的前提下，计算每一第一特征分词集合中各个词语出现的次数；逆向文件频率计算单元2312用以计算每个词语在第一特征分词集合中的低文件频率，通过将所有第一特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；第一权重计算单元2313用以将第一类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；初级第一分类器生成单元2314，根据所述每一词语的权重生成初级第一分类器。

如图5所示，所述第一验证单元232包括：输入第一测试样本单元2321、第一比对单元2322、第一错误样本分类单元2323以及计算单元2324。

输入第一测试样本单元2321，输入X个第一测试样本至初级第一分类器，获取X个第一结果；第一比对单元2322将所述X个第一结果与所述X个第一测试样本中的X个第一类别分类比较，统计与所述第一类别不一致的第一结果的个数Y；第一错误样本分类单元2323，根据Y个错误样本被错分的第一类别，统计所述Y个错误样被错分到相同的第一类别的样本个数；计算单元2324，计算第一错误率，所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值。

具体的讲，Y个样本的数量记作E，记Y个样本被错分到m个类别中，则每个被错分的类别中有Ei(i∈[1，m])个样本，此时E＝E1+E2+…+Ei；

所述第一错误率计算公式:Ri＝Ei/X*100。

如图6所示，所述初级第一分类器优化单元233包括：放大单元2331、第一权重调整单元2332以及第一分类器生成单元2333。

放大单元2331用以将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算操作得到一放大功率；第一权重调整单元2332用以将所述放大功率与待检测样本相对应的所述初级第一分类器的权重相乘进行权重调整，获得第一优化权重；所述第一分类器生成单元2333根据所述每一词语的第一优化权重生成所述第一分类器；所述放大系数为15～25，最优为20，也可以为18、19、22或24。

第二样本采集单元24用以从所述数据库110中采集N组第二样本，每组第二样本包括两个以上商品的第二类别以及文本标题，同组别第二样本的商品的第一类别相同，N为第一类别的数量。

如图7所示，所述第二样本采集单元24具体包括：标题文本获取单元241、第二样本预处理单元242以及第二数据化样本生成单元243。

标题文本获取单元241用以从所述数据库110中读取N组文本标题，并记录每一商品的第二类别，每组文本标题的第一类别相同；第二样本预处理单元242用以将所属相同第二类别商品的文本标题放于同一集合，并对各集合中所有文本标题进行分词处理，获得N组不同第二类别集合中商品标题文本的第二特征分词；第二特征分词筛选单元，筛选所述第二特征分词，将与商品特征无关的第二特征分词滤除；第二数据化样本生成单元243用以生成两个以上数据化样本，每一数据化样本包括第二类别以及多个第二特征分词集合。

每一组第二样本数据的分词处理采用结巴中文自动分词算法，所述结巴中文自动分词算法包括精确模式、全模式以及搜索引擎模式。

第二样本分类单元25用以将每一组所述第二样本随机分成第二训练样本及第二测试样本两类；

第二分类器构建单元26用以将每一组两个以上第二训练样本训练并构建N个第二分类器，分别对应每一种第一类别。

如图8所示，所述第二分类器构建单元26包括初级第二分类器构建单元261、第二验证单元262以及初级第二分类器优化单元263。

初级第二分类器构建单元261用以将两个以上第二训练样本训练并构建初级第二分类器；第二验证单元262用以将至少一第二测试样本对所述第二初级分类器进行验证；初级第二分类器优化单元263用以根据第二验证单元262得到的验证结果优化初级第二分类器，最终获得所述第二分类器。

如图9所示，所述初级第二分类器构建单元261包括：词频计算单元2611、逆向文件频率计算单元2612、第二权重计算单元2613以及初级第二分类器生成单元2614。

词频计算单元2611用以在不同的第二类别的前提下，计算每一第二特征分词集合中不同词语出现的次数；逆向文件频率计算单元2612用以计算每个词语在第一特征分词集合中的低文件频率，通过将所有第一特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；第二权重计算单元2613用以将第二类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；初级第二分类器生成单元2614根据所述每一词语的权重生成初级第二分类器。

如图10所示，所述第二验证单元262包括：输入第二测试样本单元2621、第二比对单元2622、第二错误样本分类单元2623以及计算单元2624。

输入第二测试样本单元2621，输入X个第二测试样本至初级第二分类器，获取X个第二结果；第二比对单元2622用以将将所述X个第二结果与所述X个第二测试样本中的X个第二类别分类比较，统计与所述第二类别不一致的第二结果的个数Y；第二错误样本分类单元2623，根据Y个错误样本被错分的第二类别，统计所述Y个错误样被错分到相同的第二类别的样本个数；计算单元2624，计算第二错误率，所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。

Y个样本的数量记作E，记Y个样本被错分到m个类别中，则每个被错分的类别中有Ei(i∈[1，m])个样本，此时E＝E1+E2+…+Ei；

所述第一错误率计算公式:Ri＝Ei/X*100。

如图11所示，所述初级第二分类器优化单元263包括：放大单元2631、第二权重调整单元2632以及第二分类器生成单元2633。

放大单元2631用以将将所述第一错误率放大一定的预设倍数，并将放大后的第二错误率进行取对数运算操作得到一放大功率；第二权重调整单元2632用以将所述放大功率与待检测样本相对应的所述初级第二分类器的权重相乘进行权重调整，获得第二优化权重；第二分类器生成单元2633，根据所述每一词语的第二优化权重生成所述第二分类器；所述放大系数为15～25，最优为20，也可以为18、19、22或24。

如图12所示，被检测样本采集单元27用以采集一被检测商品样本的待检测文本标题；所述被检测样本采集单元27包括：被检测商品获取单元271、被检测商品预处理单元272、被检测商品筛选特征单元273以及被检测数据化样本生成单元274。

被检测商品获取单元271用以在数据库110中读取被检测商品的标题文本信息；被检测商品预处理单元272用以对被检测商品的文本标题进行分词处理，得到特征分词；被检测商品筛选特征单元273用以对得到的特征分词进行筛选，滤除与商品特征无关的特征分词，得到检测特征分词集合；被检测数据化样本生成单元274用以生成一被检测数据化样本，包括所述被检测商品的检测特征分词集合。

所述被检测样商品的文本标题的分词处理采用结巴中文自动分词算法；所述结巴中文自动分词算法包括精确模式、全模式以及搜索引擎模式。

商品类别判断单元28用以调用所述第一分类器读取被检测商品的文本标题，判断所述被检测商品的第一类别；根据所述被检测商品的第一类别选择一第二分类器，读取被检测商品的文本标题，判断所述被检测商品的第二类别。

如图13所示，所述商品类别判断单元28，包括：初级第一分类器判断单元281、初级第一分类器调整单元282、第一分类器判断单元283、第二分类器调用单元284、初级第二分类器判断单元285、初级第二分类器调整单元286以及第二分类器调用单元287。

初级第一分类器判断单元281，根据检测特征分词集合查找初级第一权重，分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值，所述初级第一权重和值最大的第一类别为初级第一结果；

初级第一分类器调整单元282，调用所述初级第一结果所述对应的所有第一类别的错误率，调整所述第一错误率对应的初级第一权重得到第一权重；

第一分类器判断单元283，根据检测特征分词集合中的分词查找第一权重，分别计算该集合中每一个第一类别的第一权重和值，该第一权重和值为第一类别相同的所有分词的第一权重的总和，取第一权重和值最大的第一类别为第一结果。

第二分类器调用单元284，根据所述第一结果调用相对应的第二分类器，调用的第二分类器的第一类别与所述第一结果的第一类别相对应一致；

初级第二分类器判断单元285，根据所述检测特征分词集合查找初级第二权重，分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值，所述初级第二权重和值最大的第二类别为初级第二结果；

初级第二分类器调整单元286，根据初级第二结果对应的所有第二类别错误率，调整所述第二错误率所对应的初级第二权重得到第二权重。

第二分类器判断单元287，根据检测特征分词集合中的分词查找与第二分类器的第二权重，分别计算该集合中每一个第二类别的第二权重和值，该第二权重和值为第二类别相同的所有分词的第二权重的总和，取第二取权重和值最大的第二类别为第二结果。

初级第一分类器调整单元282以及第一分类器判断单元283以及在特定情况下为非必须单元，当所述初级第一结果无对应类别错误率，则不会调用第一分类器判断单元283以及初级第一分类器调整单元282，此时初级第一分类器即为第一分类器，初级第一结果即为第一结果。初级第二分类器调整单元286以及第二分类器判断单元287在特定情况下为非必须单元，当所述初级第二结果无对应类别错误率，则不会调用第二分类器判断单元287以及初级第二分类器调整单元286，此时初级第二分类器即为第二分类器，初级第二结果即为第二结果。

本发明提供了一种商品自动分类系统100，与传统的人工分类不同，本发明采用了现热门的自然语言文本处理，通过大数据进行对训练样本集训练模型得到分类器；并通过测试集对分类器进行调整得到最优的分类器，克服了人工分类的效率低，并且所述商品自动分类系统100具有较高的准确率。

在现有的文本分类系统中，并没有一个分类系统能够完整的适应各个分类场景中，因为在自然语言处理中，每个种类的文本特征不同。大量的词语特征会给系统带来复杂的程序。本发明采用了特征筛选方法，将与商品分类无关的特滤除，进一步提高所述商品自动分类系统100的效率。

如图14所示，为了更好地阐述所述商品自动分类系统100，本发明还提供一种商品自动分类方法，包括如下步骤S1～S8。

S1、数据库建立步骤，录入两个以上不同种类的商品信息数据至一数据库110，每一商品信息数据包括商品的第一类别、第二类别以及文本标题；

S2、第一样本采集步骤，从所述数据库110中采集第一样本，每一第一样本包括不同第一类别的商品的第一类别以及文本标题。

如图15所示，所述第一样本采集步骤，包括如下步骤S21～S24。

S21、标题文本获取步骤，从数据库110中读取若干不同第一类别商品的文本标题，并记录每一商品的第一类别。

S22、第一样本预处理步骤，将所属相同第一类别商品的文本标题放于同一集合，并对每一集合中所有文本标题进行分词处理，获得不同第一类别集合中商品的文本标题的第一特征分词；所述第一样本数据的分词处理采用结巴中文自动分词算法。所述结巴中文自动分词算法包括精确模式、全模式以及搜索引擎模式。

S23、第一特征分词筛选步骤，筛选所述第一特征分词，将与商品特征无关的第一特征分词滤除。

S24、第一数据化样本生成步骤，生成两个以上数据化样本，每一数据化样本包括第一类别以及多个第一特征分词集合。

S3、第一样本分类步骤，将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类。

S4、第一分类器构建步骤，利用两个以上第一训练样本训练并构建第一分类器；如图16所示，所述第一分类器构建步骤，包括如下步骤S41～S43。

S41、初级第一分类器构建步骤，利用两个以上第一训练样本训练并构建初级第一分类器；如图17所示，所述初级第一分类器构建步骤，包括如下步骤S411～S414：S411、词频计算步骤，在不同的第一类别的前提下，计算每一第一特征分词集合中各个词语出现的次数，并将该次数除以该集合的词语总数；S412、逆向文件频率计算步骤，过将所有第一特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；S413、第一权重计算步骤，将第一类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；S414、初级第一分类器生成步骤，根据所述每一词语的权重生成初级第一分类器。

S42、第一验证步骤，根据至少一第一测试样本对所述第一初级分类器进行验证；如图18所示，所述第一验证步骤，包括如下步骤S421～S424：S421、输入第一测试样本步骤，输入X个第一测试样本至初级第一分类器，获取X个第一结果；S422、第一比对步骤，将所述X个第一结果与所述X个第一测试样本的X个第一类别比较，统计与所述第一类别不一致的第一结果的个数Y；S423、第一错误样本分类步骤，根据Y个错误样本被错分的第一类别，统计所述Y个错误样被错分到相同的第一类别的样本个数；S424、计算步骤，计算第一错误率，所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值。

Y个样本的数量记作E，记Y个样本被错分到m个类别中，则每个被错分的类别中有Ei(i∈[1，m])个样本，此时E＝E1+E2+…+Ei。

所述第一错误率计算公式:Ri＝Ei/X*100。

S43、初级第一分类器优化步骤，根据第一验证步骤的验证结果优化初级第一分类器，获得所述第一分类器；如图19所示，所述初级第一分类器优化步骤，包括如下步骤：S431、放大步骤，将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算得到一放大功率；S432、第一权重调整步骤，将所述放大功率与所述初级第一分类器的权重相乘，获得第一优化权重；S433、第一分类器生成步骤，根据所述每一词语的第一优化权重生成所述第一分类器；所述放大系数为15～25，最优为20。

S5、第二样本采集步骤，从所述数据库110中采集N组第二样本，每组第二样本包括两个以上商品的第二类别以及文本标题，同组别第二样本的商品的第一类别相同，N为第一类别的数量；

如图20所示，所述第二样本采集步骤，包括如下步骤S51～S54。

S51、标题文本获取步骤，从所述数据库110中读取N组文本标题，并记录每一商品的第二类别，每组文本标题的第一类别相同。

S52、第二样本预处理步骤，将所属相同第二类别商品的文本标题放于同一集合，并对各集合中所有文本标题进行分词处理，获得N组不同第二类别集合中商品标题文本的第二特征分词；所述第二样本数据的分词处理采用结巴中文自动分词算法；所述结巴中文自动分词算法包括精确模式、全模式以及搜索引擎模式。

S53、第二特征分词筛选步骤，筛选所述第二特征分词，将与商品特征无关的第二特征分词滤除。

S54、第二数据化样本生成步骤，生成两个以上数据化样本，每一数据化样本包括第二类别以及多个第二特征分词集合。

S6、第二样本分类步骤，将每一组所述第二样本随机分成第二训练样本及第二测试样本两类。

S7、第二分类器构建步骤，利用每一组两个以上第二训练样本训练并构建N个第二分类器，分别对应每一种第一类别；如图21所示，所述第二分类器构建步骤，包括如下步骤S61～S63。

S71、初级第二分类器构建步骤，利用两个以上第二训练样本训练并构建初级第二分类器；如图22所示，所述初级第二分类器构建步骤，包括如下步骤S711～S714：S711、词频计算步骤，在不同的第二类别的前提下，计算每一第二特征分词集合中不同词语出现的次数，并将该次数除以该集合的词语总数；S712、逆向文件频率计算步骤，将所有第一特征分词集合数量分别除以不同词语出现的频次，并进行取对数操作；S713、第二权重计算步骤，将第二类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；S714、初级第二分类器生成步骤，根据所述每一词语的权重生成初级第二分类器。

S72、第二验证步骤，根据至少一第二测试样本对所述第二初级分类器进行验证；如图23所示，所述第二验证步骤，包括如下步骤S721～S724：S721、输入X个第二测试样本至初级第二分类器，获取X个第二结果；S722、第一比对步骤，将所述X个第二结果与所述X个第二测试样本的X个第二类别比较，统计与所述第二类别不一致的第二结果的个数Y；S723、第二错误样本分类步骤，根据Y个错误样本被错分的第二类别，统计所述Y个错误样被错分到相同的第二类别的样本个数；S724、计算步骤，计算第二错误率，所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。

所述第一错误率计算公式:Ri＝Ei/X*100。

S73、初级第二分类器优化步骤，根据第二验证步骤的验证结果优化初级第二分类器，获得所述第二分类器。如图24所示，所述初级第二分类器优化步骤，包括如下步骤S731～S732：S731、将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算得到一放大功率；S732、第二权重调整步骤，将所述放大功率与所述初级第二分类器的权重相乘，获得第二优化权重；S733、第二分类器生成步骤，根据所述每一词语的第二优化权重生成所述第二分类器；所述放大系数为15～25，最优为20。

S8、被检测样本采集步骤，采集一被检测商品样本的待检测文本标题；如图25所示，所述被检测样本采集步骤，包括如下步骤S81～S84。

S81、被检测商品获取步骤，在数据库110中读取被检测商品的标题文本信息。

S82、被检测商品预处理步骤，对被检测商品的标题文本进行分词处理，得到特征分词；所述被检测样商品的标题文本的分词处理采用结巴中文自动分词算法；所述结巴中文自动分词算法包括精确模式、全模式以及搜索引擎模式。

S83、被检测商品筛选特征步骤，对得到的特征分词进行筛选，滤除与商品特征无关的特征分词，得到检测特征分词集合。

S84、被检测数据化样本生成步骤，生成一被检测数据化样本，包括所述被检测商品的检测特征分词集合。

商品类别判断步骤，所述第一分类器读取被检测商品的文本标题，判断所述被检测商品的第一类别；根据所述被检测商品的第一类别选择一第二分类器，读取被检测商品的文本标题，判断所述被检测商品的第二类别。

如图26所示，所述商品类别判断步骤，包括如下步骤S91～S97。

S91、初级第一分类器判断步骤，根据检测特征分词集合查找初级第一权重，分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值，所述初级第一权重和值最大的第一类别为初级第一结果。

S92、初级第一分类器调整步骤，调用所述初级第一结果所述对应的所有第一类别的错误率，调整所述第一错误率对应的初级第一权重得到第一权重。

S93、第一分类器判断步骤，根据检测特征分词集合查找第一权重，分别计算该集合中每一个第一类别的第一权重和值，该第一权重和值为第一类别相同的所有分词的第一权重的总和，取第一权重和值最大的第一类别为第一结果；

S94、初级第二分类器调用步骤，根据所述第一结果调用相对应的初级第二分类器，调用的初级第二分类器的第一类别与所述第一结果一致；

S95、初级第二分类器判断步骤，根据所述检测特征分词集合查找初级第二权重，分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值，所述初级第二权重和值最大的第二类别为初级第二结果；

S96、初级第二分类器调整步骤，根据初级第二结果对应的所有第二类别错误率，调整所述第二错误率所对应的初级第二权重得到第二权重

S97、第二分类器判断步骤，根据检测特征分词集合查找第二权重，分别计算该集合中每一个第二类别的第二权重和值，该第二权重和值为第二类别相同的所有分词的第二权重的总和，取第二取权重和值最大的第二类别为第二结果；

初级第一分类器调整步骤以及第一分类器步骤以及在特定情况下为非必须步骤，当所述初级第一结果无对应类别错误率，则不会调用第一分类器判断捕捉以及初级第一分类器调整步骤，此时初级第一分类器即为第一分类器，初级第一结果即为第一结果。初级第二分类器调整捕捉以及第二分类器判断步骤在特定情况下为非必须单元，当所述初级第二结果无对应类别错误率，则不会调用第二分类器判断步骤以及初级第二分类器调整步骤，此时初级第二分类器即为第二分类器，初级第二结果即为第二结果。

本发明还提供了一种商品自动分类方法，采用了现热门的自然语言文本处理，通过大数据进行对训练样本集训练模型得到分类器；并通过测试集对分类器进行调整得到最优的分类器，克服了人工分类的效率低，并且所述商品自动分类系统100具有较高的准确率。

并且本发明采用了特征筛选方法，将与商品分类无关的特滤除，进一步提高所述商品自动分类系统100的效率。

为了能够更进一步理解本发明的原理，如下将举出一实施例对本发明作进一步阐释。

第一步，建立商品数据库110，其中，数据库110中存储商品信息数据的结构[文本标题，第一类别，第二类别]，例如表1。

表1.部分数据库商品信息数据表

文本标题	第一类别	第二类别
			智能数码相机	数码产品	相机
智能单反数码照相机	数码产品	相机
			现代金属U盘8G内存	数码产品	U盘
菲力智能电动剃须刀	个人护理	电动剃须刀
			植物精粹牙膏	个人护理	牙膏
碱性牙膏	个人护理	牙膏
			男士润肤乳液保湿露	美妆	面霜
防水防汗不脱色持久眉笔	美妆	眉笔

第二步，从商品数据库中采集信息，主要采集[文本标题，第二类别]作为第一样本。主要通过所述第一样本采集步骤，得到如表2的第一特征分词集合。

表2.第一特征分词集合

第一类别	第一特征分词集合
		数码产品	智能，数码，相机，智能，单反，数码，照相机，U盘，8G，内存
个人护理	智能，电动，剃须刀，植物，精粹，牙膏，碱性，菲力，牙膏
		美妆	男士，润肤，乳液，保湿露，不脱色，持久，眉笔

第三步，将第一样本分成第一训练样本以及第一测试样本。

第四步，通过所述第一分类器构建步骤搭建分类器，主要是计算每个特征分词的权重值，结果如表3。其中，权重计算公式如下：

其中，X₁代表特征分词在集合中出现的频次，Y₁代表集合中所有特征分词的数量；Y₂代表出现特征分词的集合的频次，X₂代表所有第一特征分词集合总数。

表3.第一特征分词权重表

第一类别	特征分词	权重
			数码产品	智能	0.0352182518111
数码产品	数码	0.0352182518111
			数码产品	相机	0.047712125472
数码产品	单反	0.047712125472
			数码产品	…
个人护理	智能	0.0195656954506
			个人护理	电动	0.0530134727466
个人护理	牙膏	0.106026945493
			个人护理	菲力	0.136026945493
个人护理	…
			美妆	男士	0.0681601792457
美妆	润肤	0.0681601792457
			美妆	乳液	0.0681601792457
美妆	保湿露	0.0681601792457
			美妆	…	…

此时使用第一分类器进行预测，对商品第一类别进行分类，假定一级类别为“美妆”的商品共有1345个，其中有51个商品被分到“个人护理”，则“美妆”商品被分到“个人护理”的错误率为51/1345*100＝3.7918，其中，错误率计算公式为如下：

其中，I₁为测试样本集中该商品原本为第一类别A却被分到第一类别B的数量，I₂为测试样本集中为第一类别A的商品总数。

经计算可得到第一类别的错误率如表4。

表4.第一分类器的分类错误率

原始第一类别	预测错误类别	错误率
			美妆	个人护理	3.7918
个人护理	美妆	1.0389
			数码产品	个人护理	1.8375
…	…	…

根据表4重新计算某些类别的分词的权重，计算公式为如下：

W＝W₁*log₁₀(c*n) 公式(3)

其中，W₁为原第一分类器中分词的权重，c为错误率，n为放大系数；n的值一般为20，也可根据实际情况进行调整。

第五步，进行第二样本采集步骤，根据表1可知，本实施例需要采集3组第二样本，每一第二样本数据与第一类别相对应，在其它实施例中根据第一类别的数量进行分组采集。下面以第一类别为数码产品训练第二分类器为例，第二样本如表4。

表5.第一类别为数码产品第二样本

文本标题	一级类别	二级类别
			智能数码相机	数码产品	相机
智能单反数码照相机	数码产品	相机
			现代金属U盘8G内存	数码产品	U盘

对表5中第二样本做分词处理，并且过滤无关特征分词，得到如表6结果：

表6.第二特征分词集合

第六步，将每一组所述第二样本随机分成第二训练样本及第二测试样本两类。

第七步，通过所述第一分类器构建步骤搭建分类器，主要是计算每个特征分词的权重值，结果如表6。其中，权重计算公式与公式1相同。

表6.第二特征分子权重表

相机	智能	0.0860085701897
			相机	数码	0.0860085701897
相机	相机	0.0430042850949
			相机	单反	0.0430042850949
相机	…	…
			U盘	U盘	0.100343331888
U盘	8G	0.100343331888
			U盘	内存	0.100343331888

第八步，采集一被检测商品样本的待检测文本标题，商品名称为“菲力智能单反相机”；则进行特征分词处理并滤除多余特征，可以得到特征分词集合{菲力，智能，单反，相机}。

第九步，调用第一分类器进行判断，可得到该商品在三个类别中分别获得权重值和为：数码产品：0.13064250275，个人护理：0.1555926409436美妆：0。

此时计算到“菲力智能单反相机”在个人护理中分值最高，但由于数码产品被分到个人护理存在1.8375的错误率，美妆被分到个人护理存在3.7918的错误率，需要根据公式(3)重新调整权重并再次求和。1)“数码产品”权重重新计算(扩大系数默认20)：

菲力：0+0*log₁₀(1.8375*20)＝0。

智能：0.0352182518111*(1+log₁₀(1.8375*20))＝0.09034387908084651。

单反：0.047712125472*(1+log₁₀(1.8375*20))＝0.12239388023723463。

相机：0.047712125472*(1+log₁₀(1.8375*20))＝0.12239388023723463。

再次求和得到该商品名在“数码产品”类别中的权重为：0.3351316395553158。

2)“美妆”权重重新计算(扩大系数默认20)：

菲力：0+0*log₁₀(3.7918*20)＝0。

智能：0+0*log₁₀(3.7918*20)＝0。

单反：0+0*log₁₀(3.7918*20)＝0。

相机：0+0*log₁₀(3.7918*20)＝0。

再次求和得到该商品名在“彩妆”类别中的权重为：0。

此时各该商品在各类别中的权重分别为：彩妆(0)、个人护理(0.1555926409436)、数码产品(0.3351316395553158)，再次比较各类别的权重，该商品在数码产品类别中权重值最高，，最终“菲力智能单反相机”商品第一类别被分到“数码产品”中；再根据第一类别的结果调用第二类别分类器，可得到该商品类别中在第二分类器中分别获得权重值和为，相机：0.172017140379，U盘：0。此时可将“菲力智能单反相机”归入二级类别“相机”中。因此所述商品自动分类系统100将输出如下结果：

第一分类结果：数码产品；第二分类结果：相机。

应当指出，对于经充分说明的本发明来说，还可具有多种变换及改型的实施方案，并不局限于上述实施方式的具体实施例。上述实施例仅仅作为本发明的说明，而不是对发明的限制。总之，本发明的保护范围应包括那些对于本领域普通技术人员来说显而易见的变换或替代以及改型。

Claims

1.一种商品自动分类方法，其特征在于，包括如下步骤：

数据库建立步骤，录入两个以上不同种类的商品信息数据至一数据库，每一商品信息数据包括商品的第一类别、第二类别以及文本标题；

第一样本采集步骤，从所述数据库中采集第一样本，每一第一样本包括不同第一类别的商品的第一类别以及文本标题；

第一样本分类步骤，将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类；

第一分类器构建步骤，利用两个以上第一训练样本训练并构建第一分类器；

第二样本采集步骤，从所述数据库中采集N组第二样本，每组第二样本包括两个以上商品的第二类别以及文本标题，同组别第二样本的商品的第一类别相同，N为第一类别的数量；

第二样本分类步骤，将每一组所述第二样本随机分成第二训练样本及第二测试样本两类；

第二分类器构建步骤，利用每一组两个以上第二训练样本训练并构建N个第二分类器，分别对应每一种第一类别；

被检测样本采集步骤，采集一被检测商品样本的待检测文本标题；以及

2.如权利要求1所述的商品自动分类方法，其特征在于，

所述第一分类器构建步骤，包括如下步骤:

初级第一分类器构建步骤，利用两个以上第一训练样本训练并构建初级第一分类器；

第一验证步骤，根据至少一第一测试样本对所述第一初级分类器进行验证；

初级第一分类器优化步骤，根据第一验证步骤的验证结果优化初级第一分类器，获得所述第一分类器；

所述第二分类器构建步骤，包括如下步骤:

初级第二分类器构建步骤，利用两个以上第二训练样本训练并构建初级第二分类器；

第二验证步骤，根据至少一第二测试样本对所述第二初级分类器进行验证；

初级第二分类器优化步骤，根据第二验证步骤的验证结果优化初级第二分类器，获得所述第二分类器。

3.如权利要求1所述的商品自动分类方法，其特征在于，

所述第一样本采集步骤，包括如下步骤：

标题文本获取步骤，从数据库中读取若干不同第一类别商品的文本标题，并记录每一商品的第一类别；

第一样本预处理步骤，将所属相同第一类别商品的文本标题放于同一集合，并对每一集合中所有文本标题进行分词处理，获得不同第一类别集合中商品的文本标题的第一特征分词；

第一数据化样本生成步骤，生成两个以上数据化样本，每一数据化样本包括第一类别以及多个第一特征分词集合；

所述第二样本采集步骤，包括如下步骤：

标题文本获取步骤，从所述数据库中读取N组文本标题，并记录每一商品的第二类别，每组文本标题的第一类别相同；

第二样本预处理步骤，将所属相同第二类别商品的文本标题放于同一集合，并对各集合中所有文本标题进行分词处理，获得N组不同第二类别集合中商品标题文本的第二特征分词；

第二数据化样本生成步骤，生成两个以上数据化样本，每一数据化样本包括第二类别以及多个第二特征分词集合。

4.如权利要求3所述的商品自动分类方法，其特征在于，

在所述第一样本数据预处理步骤中，所述第一样本数据的分词处理采用结巴中文自动分词算法；

在所述第二样本数据预处理步骤中，所述第二样本数据的分词处理采用结巴中文自动分词算法。

5.如权利要求3所述的商品自动分类方法，其特征在于，

所述第一样本采集步骤中，在所述第一样本数据预处理步骤之后，还包括

第一特征分词筛选步骤，筛选所述第一特征分词，将与商品特征无关的第一特征分词滤除；

所述第二样本采集步骤中，在所述第二样本数据预处理步骤之后，还包括

第二特征分词筛选步骤，筛选所述第二特征分词，将与商品特征无关的第二特征分词滤除。

6.如权利要求2所述的商品自动分类方法，其特征在于，

所述初级第一分类器构建步骤，包括如下步骤：

词频计算步骤，在不同的第一类别的前提下，计算每一第一特征分词集合中各个词语出现的次数，并将所述在第一特征分词集合中出现的次数除以所述第一特征分词集合的词语总数；

逆向文件频率计算步骤，将所有第一特征分词集合数量分别除以不同词语出现在不同集合的频次，并进行取对数操作；

第一权重计算步骤，将第一类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及

初级第一分类器生成步骤，根据所述每一词语的权重生成初级第一分类器；

所述初级第二分类器构建步骤，包括如下步骤：

词频计算步骤，在不同的第二类别的前提下，计算每一第二特征分词集合中不同词语出现的次数，并将所述在第二特征分词集合中出现的次数除以所述第二特征分词集合的词语总数；

逆向文件频率计算步骤，在相同的第一类别前提，将第二特征分词集合数量分别除以不同词语出现在不同集合的频次，并进行取对数操作；

第二权重计算步骤，将第二类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及

初级第二分类器生成步骤，根据所述每一词语的权重生成初级第二分类器。

7.如权利要求6所述的商品自动分类方法，其特征在于，

所述第一验证步骤，包括如下步骤：

输入第一测试样本步骤，输入X个第一测试样本至初级第一分类器，获取X个第一结果；

第一比对步骤，将所述X个第一结果与所述X个第一测试样本的X个第一类别比较，统计与所述第一类别不一致的第一结果的个数Y；

第一错误样本分类步骤，根据Y个错误样本被错分的第一类别，统计所述Y个错误样被错分到相同的第一类别的样本个数；

计算步骤，计算第一错误率，所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值；

所述第二验证步骤，包括如下步骤：

输入第二测试样本步骤，输入X个第二测试样本至初级第二分类器，获取X个第二结果；

第二比对步骤，将所述X个第二结果与所述X个第二测试样本的X个第二类别比较，统计与所述第二类别不一致的第二结果的个数Y；

第二错误样本分类步骤，根据Y个错误样本被错分的第二类别，统计所述Y个错误样被错分到相同的第二类别的样本个数；

计算步骤，计算第二错误率，所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。

8.如权利要求7所述的商品自动分类方法，其特征在于，

所述初级第一分类器优化步骤，包括如下步骤：

放大步骤，将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算得到一放大功率；

第一权重调整步骤，将所述放大功率与所述初级第一分类器的权重相乘，获得第一优化权重；以及

第一分类器生成步骤，根据所述每一词语的第一优化权重生成所述第一分类器；

所述初级第二分类器优化步骤，包括如下步骤：

放大步骤，将所述第二错误率放大一定的预设倍数，并将放大后的第二错误率进行取对数运算得到一放大功率；

第二权重调整步骤，将所述放大功率与所述初级第二分类器的权重相乘，获得第二优化权重；以及

第二分类器生成步骤，根据所述每一词语的第二优化权重生成所述第二分类器。

9.如权利要求1所述的商品自动分类方法，其特征在于，

所述被检测样本采集步骤，包括如下步骤：

被检测商品获取步骤，在数据库中读取被检测商品的文本标题；

被检测商品预处理步骤，对被检测商品的文本标题进行分词处理，得到特征分词；

被检测商品筛选特征步骤，对得到的特征分词进行筛选，滤除与商品特征无关的特征分词，得到检测特征分词集合；

被检测数据化样本生成步骤，生成一被检测数据化样本，包括所述被检测商品的检测特征分词集合。

10.如权利要求9所述的商品自动分类方法，其特征在于，

在所述被检测样本预处理步骤中，

所述被检测样商品的标题文本的分词处理采用结巴中文自动分词算法。

11.如权利要求1所述的商品自动分类方法，其特征在于，

所述商品类别判断步骤，包括如下步骤：

第一分类器判断步骤，根据检测特征分词集合查找第一权重，分别计算该集合中每一个第一类别的第一权重和值，该第一权重和值为第一类别相同的所有分词的第一权重的总和，取第一权重和值最大的第一类别为第一结果；

第二分类器调用步骤，根据所述第一结果调用相对应的第二分类器，调用的第二分类器的第一类别与所述第一结果一致；

第二分类器判断步骤，根据检测特征分词集合查找第二权重，分别计算该集合中每一个第二类别的第二权重和值，该第二权重和值为第二类别相同的所有分词的第二权重的总和，取第二取权重和值最大的第二类别为第二结果。

12.如权利要求11所述的商品自动分类方法，其特征在于，

所述第一分类器判断步骤之前，包括如下步骤：

初级第一分类器判断步骤，根据检测特征分词集合查找初级第一权重，分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值，所述初级第一权重和值最大的第一类别为初级第一结果；

初级第一分类器调整步骤，调用所述初级第一结果所述对应的所有第一类别的错误率，调整所述第一错误率对应的初级第一权重得到第一权重；

在所述第二分类器判断步骤之前，包括如下步骤：

初级第二分类器判断步骤，根据所述检测特征分词集合查找初级第二权重，分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值，所述初级第二权重和值最大的第二类别为初级第二结果；

初级第二分类器调整步骤，根据初级第二结果对应的所有第二类别错误率，调整所述第二错误率所对应的初级第二权重得到第二权重。

13.一种商品自动分类系统，其特征在于，包括一数据库以及一数据处理系统；

所述数据库具有两个以上不同种类的商品信息数据至，每一商品信息数据包括商品的第一类别、第二类别以及文本标题；

所述数据处理系统包括：

第一样本采集单元，用以从所述数据库中采集第一样本，每一第一样本包括不同第一类别的商品的第一类别以及文本标题；

第一样本分类单元，用以将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类；

第一分类器构建单元，用以将两个以上第一训练样本训练并构建第一分类器；

第二样本采集单元，用以从所述数据库中采集N组第二样本，每组第二样本包括两个以上商品的第二类别以及文本标题，同组别第二样本的商品的第一类别相同，N为第一类别的数量；

第二样本分类单元，用以将每一组所述第二样本随机分成第二训练样本及第二测试样本两类；

第二分类器构建单元，用以将每一组两个以上第二训练样本训练并构建N个第二分类器，分别对应每一种第一类别；

被检测样本采集单元，用以采集一被检测商品样本的待检测文本标题；以及

商品类别判断单元，用以调用所述第一分类器读取被检测商品的文本标题，判断所述被检测商品的第一类别；根据所述被检测商品的第一类别选择一第二分类器，读取被检测商品的文本标题，判断所述被检测商品的第二类别。

14.如权利要求13所述的商品自动分类系统，其特征在于，

所述第一分类器构建单元包括:

初级第一分类器构建单元，用以将两个以上第一训练样本训练并构建初级第一分类器；

第一验证单元，用以将至少一第一测试样本对所述第一初级分类器进行验证；

初级第一分类器优化单元，根据第一验证单元得到的验证结果优化初级第一分类器，获得所述第一分类器；

所述第二分类器构建单元包括:

初级第二分类器构建单元，用以将两个以上第二训练样本训练并构建初级第二分类器；

第二验证单元，用以将至少一第二测试样本对所述第二初级分类器进行验证；

初级第二分类器优化单元，根据第二验证单元得到的验证结果优化初级第二分类器，获得所述第二分类器。

15.如权利要求13所述的商品自动分类系统，其特征在于，

所述第一样本采集单元包括：

标题文本获取单元，从数据库中读取若干不同第一类别商品的文本标题，并记录每一商品的第一类别；

第一样本预处理单元，用以将所属相同第一类别商品的文本标题放于同一集合，并对每一集合中所有文本标题进行分词处理，获得不同第一类别集合中商品的文本标题的第一特征分词；

第一数据化样本生成单元，用以生成两个以上数据化样本，每一数据化样本包括第一类别以及多个第一特征分词集合；

所述第二样本采集单元包括：

标题文本获取单元，从所述数据库中读取N组文本标题，并记录每一商品的第二类别，每组文本标题的第一类别相同；

第二样本预处理单元，用以将所属相同第二类别商品的文本标题放于同一集合，并对各集合中所有文本标题进行分词处理，获得N组不同第二类别集合中商品标题文本的第二特征分词；

第二数据化样本生成单元，用以生成两个以上数据化样本，每一数据化样本包括第二类别以及多个第二特征分词集合。

16.如权利要求15所述的商品自动分类系统，其特征在于，

所述第一样本数据的分词处理采用结巴中文自动分词算法；

每一组第二样本数据的分词处理采用结巴中文自动分词算法。

17.如权利要求15所述的商品自动分类系统，其特征在于，还包括

所述第一样本采集单元还包括第一特征分词筛选单元，筛选所述第一特征分词，将与商品特征无关的第一特征分词滤除；

所述第二样本采集单元还第二特征分词筛选单元，筛选所述第二特征分词，将与商品特征无关的第二特征分词滤除。

18.如权利要求14所述的商品自动分类系统，其特征在于，

所述初级第一分类器构建单元包括：

词频计算单元，在不同的第一类别的前提下，用以计算每一第一特征分词集合中各个词语出现的次数，并将该次数除以该集合的词语总数；

逆向文件频率计算单元，用以计算每个词语在第一特征分词集合中的逆向文件频率，通过将所有第一特征分词集合数量分别除以不同词语出现在不同集合的频次，并进行取对数操作；

第一权重计算单元，用以将第一类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及

初级第一分类器生成单元，用以根据所述每一词语的权重生成初级第一分类器；

所述初级第二分类器构建单元包括：

词频计算单元，在不同的第二类别的前提下，用以计算每一第二特征分词集合中不同词语出现的次数，并将该次数除以该集合的词语总数；

逆向文件频率计算单元，用以计算每个词语在第二特征分词集合中的逆向文件频率，通过将所有第二特征分词集合数量分别除以不同词语出现在不同集合的频次，并进行取对数操作；

第二权重计算单元，用以将第二类别下不同词语的词频与逆向文件频率相乘，获得每一词语的权重；以及

初级第二分类器生成单元，根据所述每一词语的权重生成初级第二分类器。

19.如权利要求18所述的商品自动分类系统，其特征在于，

所述第一验证单元包括：

输入第一测试样本单元，输入X个第一测试样本至初级第一分类器，获取X个第一结果；

第一比对单元，将所述X个第一结果与所述X个第一测试样本的X个第一类别比较，统计与所述第一类别不一致的第一结果的个数Y；

第一错误样本分类单元，根据Y个错误样本被错分的第一类别，统计所述Y个错误样被错分到相同的第一类别的样本个数；

计算单元，计算第一错误率，所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值；

所述第二验证单元包括：

输入第二测试样本单元，输入X个第二测试样本至初级第二分类器，获取X个第二结果；

第二比对单元，将所述X个第二结果与所述X个第二测试样本的X个第二类别比较，统计与所述第二类别不一致的第二结果的个数Y；

第二错误样本分类单元，根据Y个错误样本被错分的第二类别，统计所述Y个错误样被错分到相同的第二类别的样本个数；

计算单元，计算第二错误率，所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。

20.如权利要求19所述的商品自动分类系统，其特征在于，

所述初级第一分类器优化单元包括：

放大单元，将所述第一错误率放大一定的预设倍数，并将放大后的第一错误率进行取对数运算得到一放大功率；

第一权重调整单元，将所述放大功率与所述初级第一分类器的权重相乘，获得第一优化权重；以及

第一分类器生成单元，根据所述每一词语的第一优化权重生成所述第一分类器；

所述初级第二分类器优化单元包括：

放大单元，将所述第二错误率放大一定的预设倍数，并将放大后的第二错误率进行取对数运算得到一放大功率；

第二权重调整单元，将所述放大功率与所述初级第二分类器的权重相乘，获得第二优化权重；以及

第二分类器生成单元，根据所述每一词语的第二优化权重生成所述第二分类器。

21.如权利要求13所述的商品自动分类方法，其特征在于，

所述被检测样本采集单元包括：

被检测商品获取单元，用以在数据库中读取被检测商品的文本标题；

被检测商品预处理单元，用以对被检测商品的文本标题进行分词处理，得到特征分词；

被检测商品筛选特征单元，用以对得到的特征分词进行筛选，滤除与商品特征无关的特征分词，得到检测特征分词集合；

被检测数据化样本生成单元，用以生成一被检测数据化样本，包括所述被检测商品的检测特征分词集合。

22.如权利要求21所述的商品自动分类方法，其特征在于，

所述被检测样商品的文本标题的分词处理采用结巴中文自动分词算法。

23.如权利要求13所述的商品自动分类方法，其特征在于，

所述商品类别判断单元包括：

第一分类器判断单元，根据检测特征分词集合查找第一权重，分别计算该集合中每一个第一类别的第一权重和值，该第一权重和值为第一类别相同的所有分词的第一权重的总和，取第一权重和值最大的第一类别为第一结果；

第二分类器调用单元，根据所述第一结果调用相对应的第二分类器，调用的第二分类器的第一类别与所述第一结果一致；

第二分类器判断单元，根据检测特征分词集合查找第二权重，分别计算该集合中每一个第二类别的第二权重和值，该第二权重和值为第二类别相同的所有分词的第二权重的总和，取第二取权重和值最大的第二类别为第二结果。

24.如权利要求23所述的商品自动分类方法，其特征在于，

所述商品类别判断单元，还包括：

初级第一分类器判断单元，根据检测特征分词集合查找初级第一权重，分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值，所述初级第一权重和值最大的第一类别为初级第一结果；

初级第一分类器调整单元，调用所述初级第一结果所述对应的所有第一类别的错误率，调整所述第一错误率对应的初级第一权重得到第一权重；

初级第二分类器判断单元，根据所述检测特征分词集合查找初级第二权重，分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值，所述初级第二权重和值最大的第二类别为初级第二结果；

初级第二分类器调整单元，根据初级第二结果对应的所有第二类别错误率，调整所述第二错误率所对应的初级第二权重得到第二权重。