CN103778205B - 一种基于互信息的商品分类方法和系统 - Google Patents
一种基于互信息的商品分类方法和系统 Download PDFInfo
- Publication number
- CN103778205B CN103778205B CN201410015607.7A CN201410015607A CN103778205B CN 103778205 B CN103778205 B CN 103778205B CN 201410015607 A CN201410015607 A CN 201410015607A CN 103778205 B CN103778205 B CN 103778205B
- Authority
- CN
- China
- Prior art keywords
- commodity
- feature words
- classification
- feature
- merchandise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于互信息的商品分类方法,其包括以下步骤:从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据包括某一电子商务网站中所有的商品标题及相应的商品类别;对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。通过本发明避免了对商品分类时各个特征词之间的相互依赖;解决各个分类中数据存在交集的情况,并且降低了计算量。
Description
技术领域
本发明涉及数据挖掘领域,具体地说,是涉及一种基于互信息的商品分类方法和系统。
背景技术
随着电子信息技术的飞速发展,数据挖掘已经深入到各个领域,尤其对于电子商务领域,高效的商品自动分类方法对管理电子商务中海量的商品信息至关重要。
但是,现有技术中对于描述词过于相近的商品往往会给出错误分类,这是因为它们的特征相互依赖,或者说有些特征由其他特征决定,因此会产生这种错误分类,比如,“联想笔记本电脑”、“笔记本(电脑图案)”,则会被认为属于同一类商品。
另外,由于商品分类中,很多分类数据有交集的现象,比如服装中,分为女装与男装,而其中与户外运动相关的服装鞋帽又都被划分为户外运动类,与运动器械等又被划分到一类,因此这种交叠分类的现象给产品的分类造成极大的困难,传统的分类方法不能简单、高效的解决其分类问题。
发明内容
为了解决上述问题,本发明结合商品信息的特征,提供简单高效的解决方案,避免了由于特征组合对分类带来的干扰,同时可以保证以较高的效率完成在线分类任务。
依据本发明的一个方面,一种基于互信息的商品分类方法,其包括以下步骤:
从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别;
对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;
将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
可选地,所述构建训练集合的步骤还包括:
在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词;
分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
可选地,在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
可选地,在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库。
可选地,在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词,之后对过滤出的特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
可选地,在对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词之后,对所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
可选地,计算相关度值的公式为:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数。
依据本发明的另一方面,提供一种基于互信息的商品分类系统,其包括:
构建模块,用于从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别;
分词模块,用于对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;
分类模块,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
可选地,所述分词模块还用于在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词。
可选地,所述商品分类系统还包括挑选模块,用于在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
可选地,所述商品分类系统还包括过滤模块,用于对在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库。
可选地,所述过滤模块还用于对一个新商品进行分词处理后的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
可选地,所述商品分类系统还包括计算模块,用于分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
可选地,计算相关度值的公式为:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数。
根据本发明的实施例可以看出,本发明对于一件新商品,只使用特征词与商品类别的相关度值作为预测分类的基本值,这样避免了对商品分类时各个特征词之间的相互依赖。同时,本发明能够解决各个分类中数据存在交集的情况,因为是单独使用商品的特征词在分类中的相关度,不同的分类中同样的特征词相关度是不一样的,同时结合描述商品的多个特征词便能够准确的计算该商品的分类。另外,由于待预测的分类有限,则对一个商品进行分类时计算量比较小,该方法可以作为在线程序提供服务。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一种实施例的基于互信息的商品分类方法流程图。
图2示出了本发明实施例的一种基于互信息的商品分类系统原理图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,其所述描述乃以说明本发明的一般原则为目的,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制,本发明的保护范围当视所附权利要求所界定者为准。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
另外,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包括”或“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
为了说清楚本发明的实施例,首先先提及与本发明有关的相关技术:
1.数据挖掘(Data mining)与分类
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。分类,则是数据挖掘中的一个重要环节。分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法的应用非常广泛,银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。
2.文本分类技术描述
文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导,即一定数量的已分类好的训练文本或者实例,分类系统从训练文本中获取必要的信息,构造分类器。
在文本处理领域,通常采用向量空间模型(Vector Space Model,VSM)表示文本,一篇文本可以表示为一个n维向量(w1,w2,...,wn),其中wi(i=1,2,...,n)表示第i个特征项(Feature)的权重,n是特征项的个数,特征项可以是字、词、短语或者某种概念,本发明实施例中采用词作为特征项,故称为特征词或特征值。
权重有多种计算方法,最简单的是布尔权重,即权重为1(该特征词在文本中出现)或者0(该特征词没有在文本中出现)。在本发明中,VSM中的权重计算采用词频来表示,即用该特征词在文本中出现的次数来表示权重。
文本分类抽象为一般的描述:设类别总数为|C|,cj表示第j(j=1,2,...,|C|)类提供给分类器的训练集(训练集中的文本都已经过人工分类)包含|D|篇文本,特征空间(f1,f2,...,fn),n为特征数量,每篇文本表示为di=(wi1,wi2,...,win),i=1,2,...,|D|。一篇待分类文本泛化表示为dx=(wx1,wx2,...,wxn),任务是将dx分到相应的类别中去。
3.中文分词技术
中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词,就是把一个句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符,而在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在这种分界符,因此中文词汇的分割要复杂困难得多。随着汉语自动分词系统的关注度不断提高,各种分词系统也不断建立,分词系统在运行速度、准确度等方面都已经具有了研究应用的价值,其中最有代表性为中科院的分词工具ICTCLAS。ICTCLAS分词工具基于PDAT大规模知识库管理技术,分词速度单机996KB/s,分词精度98.45%,本发明实施例中采用了ICTCLAS3.0对网页文本进行分词处理。
4.特征选择方法
训练集合中包含了大量的词汇,如果把这些词都作为特征词,将带来一系列问题。首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢;其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大。因此要降低向量的维数,选择那些有代表意义的词作为特征词。先对文本进行预处理,去掉那些常用的对分类用处不大的词,比如去掉那些不能反应商品特征的词,如停用词(也叫停止词,stop word),然后采用某种特征选择方法对所有的词排序,选出排在前面的一定数量的词作为特征词。常用的特征选择方法有:文档频次(DF),互信息(MI),信息增益(IG),χ2统计量、相对熵(CE)。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
如图1所示,一种基于互信息的商品分类方法,包括如下步骤:
步骤S110,从网站服务器数据库中提取相关数据构建训练集合,其中,相关数据为某一电子商务网站中所有的商品标题及与商品标题相对应的商品类别。训练集合也可以称为商品标题集合,构建的训练集合中包含了某一电子商务网站中所有的商品标题及与商品标题相对应的商品类别。
步骤S120,对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词。具体的,使用分词技术对商品标题进行分词处理,使用分词结果作为商品的特征词,用相应特征词来描述该商品。
步骤S130,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
基于图1的原理,更详细的分类方法如下所述:
步骤S110,从网站服务器数据库中提取某一电子商务网站中所有的商品标题及对应的商品类别,构建训练集合。训练集合可以是简单的仅由所有的商品标题和商品类别组成的数据集合,也可以是一种复杂的数据集合,复杂的训练集合可以为后续新商品的分类提供更高的计算效率,具体的,构建复杂的训练集合的步骤如下:
第一步,从网站服务器数据库中提取某一电子商务网站中所有的商品标题及对应的商品类别。
第二步,对提取出的所有商品标题使用分词技术分别进行分词处理,使用分词处理后的结果作为商品的特征词。由于并不是所有特征词都是用来描述商品本身特征的,为了提高后续对新商品进行分类时的计算效率的,还可以对所有商品标题的所有特征词做进一步处理,构造特征词库,特征词库也可以称作特性信息库,其内包含有经过分词处理后所得到的反映商品信息的特征词,这样,某一商品可以用特征词库中的相应特征词来描述。
构造特征词库的方法有多种,比如,一种构造方法为对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库,其中,预设值是可以根据先验概率得到的经验值,也可以是人为设定的值。具体的:
在此假设商品标题为L,其具体格式由C1C2C3…Ck-1Ck构成,其中Ci(i=1,2,…,k)为一个汉字或英文单词,k为标题字符长度;
之后,对标题L进行分词,得到词语集合{C1C2,C2C3,...,Ck-1Ck},在该词语集合中,将CiCi+1视为一个词,并用W表示;
之后,遍历训练集中所有的商品标题,统计每个词W出现的次数Count(W);
然后,设定一个阈值CT,如果Count(W)≥CT(即,词W出现的次数大于设定的阀值CT),则W一定为特征词;
从而,得到的所有特征词W构成的特征词库{W1,W2,…,Wn}。
特征词库的另一种构造方法是对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,比如过滤掉那些对于分类没有意义的停用词(比如助词、副词、介词、连接词等等)、广告词、含义相同或描述重复的词等等,仅保留描述了商品特征的特征词构造特征词库。这些对商品特征描述没有意义的词可以根据设定的程序自动去除,只需定期更新需要被去除的词库即可,这样不仅能节省大量的存储空间,还能有效提高运算速度,因为毕竟一些商品标题上的很多信息,比如广告或宣传信息“降价促销”、“仅限三天”等等对新商品的分类毫无疑义。
特征词库的第三种构造方法是基于上述两种方法的结合,具体为:对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,仅保留描述了商品特征的特征词,之后对过滤出来的特征词进行词频统计,挑选词频高于预设值的词构造特征词库。第三种方法与前两种方法相比,又能进一步的提高后续新商品分类的计算效率。
第三步,利用互信息分别计算一个商品类别中的所有特征词与其他商品类别的相关度值,得到相关度值的集合,至此,训练集合构建完毕。相关度值的集合在后续新商品分类时,所需的相关度值可以直接从相关度值集合中调用,使新商品分类时的计算效率大大提高。
互信息衡量的是某个词和类别之间的统计独立关系,某个词和某个类别传统的互信息定义如下:
互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。
特征词和类别的互信息体现了特征词与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。互信息没有考虑特征出现的频率,这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲,某一特征的互信息越大,说明它与该主题的贡献概率越大,因此,以互信息作为提取特征的评价时应选互信息最大的若干个特征。
为了说清楚本发明如何利用互信息计算相关度值,得到相关度值集合进而完成训练集合的构建,现假设有A、B、C三个商品类别,其中包括的商品特征词分别为:a1、a2、a3,b1、b2、b3,c1、c2、c3,表格更直观的表达为:
类别 | 特征词 |
A | a1、a2、a3 |
B | b1、b2、b3 |
C | c1、c2、c3 |
分别计算一个商品类别中的所有特征词与其他商品类别的相关度值:
即,首先计算商品类别A中的所有特征词a1、a2、a3与商品类别B、C的相关度值,即,a1、a2、a3与B计算的相关度值为Ba1、Ba2、Ba3,a1、a2、a3与C计算的相关度值为Ca1、Ca2、Ca3;
然后再计算商品类别B中的所有特征词b1、b2、b3与商品类别A、C的相关度值,即,b1、b2、b3与A计算的相关度值为Ab1、Ab2、Ab3,b1、b2、b3与C计算的相关度值为Cb1、Cb2、Cb3;
最后再计算商品类别C中的所有特征词c1、c2、c3与商品类别A、B的相关度值,即,c1、c2、c3与A计算的相关度值为Ac1、Ac2、Ac3,c1、c2、c3与B计算的相关度值为Bc1、Bc2、Bc1;
这样,得到相关度值集合{Ba1,Ba2,Ba3,Ca1,Ca2,Ca3,…,Bc1,Bc1,Bc1},相关度值集合可为后续新商品的分类提供有效的数据支持,提高计算效率。
本发明利用互信息计算相关度值的公式如下:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数,为了计算方便,通常选择自然对数e或10作为底数。
步骤S120,预测一个新商品类别,先对该新商品的商品名称进行分词处理,获取该商品名称的所有特征词。
接着进行步骤S130,分别计算该商品中的所有特征词在训练集合的每个分类中的相关度值,使用该分类中所有特征词相关度值的和作为商品在该分类中的得分,最后得分最高的类别即为该商品的分类。
在本发明中,训练过程和新商品分类过程的计算方式都是一样的,均可采用互信息的方式计算,使用一个计算模块,只不过训练过程计算的是先验概率,新商品分类过程计算的是后验概率。即:
在新商品分类过程中利用互信息计算相关度值的公式如下:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数,为了计算方便,通常选择自然对数e或10作为底数。
之后将每一商品类别中相关度值的和作为该商品类别的得分,最后得分最高的类别即为该商品的分类。
为了更好的理解本发明,下面举一个具体事例来进一步说明本发明的分类方法:
实施例一:假设某一电子商务网站中所有的商品标题一共10个,从网站服务器数据库中提取该网站的10个商品标题构建训练集合。具体的,使用分词技术对提取出的10个商品标题分别进行分词处理,过滤掉没有描述商品特征的特征词,保留描述了商品信息的特征词,之后对过滤出来的特征词进行词频统计,挑选词频高于预设值的词构造特征词库如下表所示。
商品类别 | 特征词 |
手机 | 索尼,手机,WCDMA,GSM |
手机 | iphone,手机,黑色 |
手机 | 诺基亚,1020,黄色 |
手机 | 三星,9300,白色 |
笔记本 | 索尼,超级本,黑色 |
笔记本 | macbook,air |
服装 | 康尔健野,冲锋衣,防风防水,情侣款 |
服装 | 女装,条纹,连衣裙,黑色 |
服装 | 女装,针织衫,低领 |
服装 | 韩版,蕾丝,雪纺,连衣裙,黑色 |
现在需要预测新商品“黑色iphone苹果手机新上市”的类别,首先对此新商品的商品名称进行分词处理,得到特征词:黑色,iphone,苹果,手机,新上市。去除含义重复的词及广告词/宣传语,得到能有效描述该商品的最终特征词:黑色,iphone,手机。
(1)计算示例商品所有特征词在上面商品类别的手机类别中的相关度值:
特征词“黑色”出现的概率:p(黑色)=4/10=0.4;
特征词“iphone”出现的概率:p(iphone)=1/10=0.1;
特征词“手机”出现的概率:p(手机)=2/10=0.2;
特征词“黑色”在手机类别中出现的条件概率:p(黑色|手机)=1/4=0.25;
特征词“iphone”在手机类别中出现的条件概率:p(iphone|手机)=1/4=0.25;
特征词“手机”在手机类别中出现的条件概率:p(手机|手机)=2/4=0.5;
为了计算方便,计算相关度值的计算公式均以e为底计算,即:
I(x,y)=ln(p(x|y))–ln(p(x)),则
特征词“黑色”在手机类的相关度值为:I(黑色,手机)=ln(p(黑色|手机))-ln(p(黑色))=-1.3863+0.9163=-0.47。
特征词“iphone”在手机类的相关度值为:I(iphone,手机)=ln(p(iphone|手机))-ln(p(iphone))=-1.3863+2.3026=0.9163;
特征词“手机”在手机类的相关度值为:I(手机,手机)=ln(p(手机|手机))-ln(p(手机))=-0.6931+1.6094=0.9163;
使用手机类别中所有特征词相关度值的和作为该商品在手机商品类别中的得分:
Class(手机)=0.9163+0.9163-0.47=1.3626;
(2)同理,计算示例商品所有特征词在上面商品类别的笔记本类别中的相关度值:
p(黑色)=1/10=0.4;p(iphone)=0.1;p(手机)=0.2;
p(黑色|笔记本)=1/2=0.5;p(iphone|笔记本)=0;p(手机|笔记本)=0;
I(黑色,笔记本)=ln0.5-ln0.4=-0.6931+0.9163=0.2232;
I(iphone,笔记本)=0(由于ln0不存在,所以对此情况本相关值一律默认为0);
I(手机,笔记本)=0
使用笔记本类别中所有特征词相关度值的和作为该商品在笔记本类别中的得分:Class(笔记本)=0.0+0.0+0.2232=0.2232;
(3)同理,计算示例商品所有特征词在上面商品类别的服装类别中的相关度值:
p(黑色)=1/10=0.4;p(iphone)=0.1;p(手机)=0.2;
p(黑色|服装)=2/4=0.5;p(iphone|服装)=0;p(手机|服装)=0;
I(黑色,服装)=ln0.5-ln0.4=-0.6931+0.9163=0.2232;
I(iphone,服装)=0;I(手机,服装)=0
使用笔记本类别中所有特征词相关度值的和作为该商品在笔记本类别中的得分:Class(服装)=0.0+0.0+0.2232=0.2232;
最后得分最高的商品类别即为示例商品的类别,根据上述计算,由于手机类别的得分最高,即本示例商品的分类为“手机”类别。
实施例二:实施例二的举例依然基于实施例一的假设,其区别在于构建训练集合的不同,具体的:
依然假设某一电子商务网站中所有的商品标题一共10个,从网站服务器数据库中提取该网站的10个商品标题构建训练集合。具体的,使用分词技术对提取出的10个商品标题分别进行分词处理,过滤掉没有描述商品特征的特征词,保留描述了商品信息的特征词,之后对过滤出来的特征词进行词频统计,挑选词频高于预设值的词构造特征词库如下表所示。
商品类别 | 特征词 |
手机 | 索尼,手机,WCDMA,GSM |
手机 | iphone,手机,黑色 |
手机 | 诺基亚,1020,黄色 |
手机 | 三星,9300,白色 |
笔记本 | 索尼,超级本,黑色 |
笔记本 | macbook,air |
服装 | 康尔健野,冲锋衣,防风防水,情侣款 |
服装 | 女装,条纹,连衣裙,黑色 |
服装 | 女装,针织衫,低领 |
服装 | 韩版,蕾丝,雪纺,连衣裙,黑色 |
之后,利用互信息分别计算一个商品类别中的所有特征词与其他商品类别的相关度值,构建相关度值集合,由于相关度值的计算与新商品分类时相关度值的计算一样,在实施例一种有了具体的计算过程,所以本实施例中仅简述如下:
为了计算方便,计算相关度值的公式与实施例一一样,均以e为底计算,即:I(x,y)=ln(p(x|y))–ln(p(x))。利用此公式构建的相关度值集合如下(由于计算方法相同,在本实施例中对数据集合仅节选某几条数据列出,不再一一赘述计算):
I(索尼,手机)=ln0.25-ln0.2=-1.3863+1.6094=0.2231;
I(手机,手机)=ln0.5-ln0.2=-0.6931+1.6094=0.9163;
I(WCDMA,手机)=ln0.25-ln0.1=-1.3863+2.3026=0.9163;
I(GSM,手机)=ln0.25-ln0.1=0.9163;
I(iphone,手机)=ln0.25-ln0.1=0.9163;
……
I(索尼,笔记本)=ln0.5-ln0.2=-0.6931+1.6094=0.9163;
……
I(黑色,笔记本)=ln0.5-ln0.4=-0.6931+0.9163=0.2232;
……
因此,训练集合中的数据包含了通过上述互信息算法计算得到的相关度值集合数据,为后续在新商品分类时能有更快的分类速度提供调用基础。
现在同样预测新商品“黑色iphone苹果手机新上市”的类别,首先对此新商品的商品名称进行分词处理,得到特征词:黑色,iphone,苹果,手机,新上市。去除含义重复的词及广告词/宣传语,得到能有效描述该商品的最终特征词:黑色,iphone,手机。
通过调用训练集合中的相关度值集合的数据,得到下表:首行代表特征词,首列代表类别,中间代表相应的相关度值:
iphone | 手机 | 黑色 | |
手机 | 0.9163 | 0.9163 | -0.47 |
笔记本 | 0 | 0 | 0.2232 |
服装 | 0 | 0 | 0.2232 |
使用每个分类中所有特征词相关度值的和作为商品在该分类中的得分:
Class(手机)=0.9163+0.9163-0.47=1.3626;
Class(笔记本)=0.0+0.0+0.2232=0.2232;
Class(服装)=0.0+0.0+0.2232=0.2232。
最后得分最高的商品类别即为示例商品的类别,根据上述计算,由于手机类别的得分最高,即本示例商品的分类为“手机”类别。
综上所述,本发明的方法解决了分类中某些分类存在交集的情况下分类复杂的问题,克服了传统分类方法中分类对象的特征相互依赖对分类算法的影响,能够保证以较高的效率完成在线分类任务。
图2为本发明的另一个实施例,如图2所示,一种基于互信息的商品分类系统200,由于其原理与图1一样,在此仅作简略说明,不再赘述。该商品分类系统200包括:
构建模块210,用于从网站服务器数据库中提取相关数据构建训练集合,其中,相关数据为某一电子商务网站中所有的商品标题及与商品标题相对应的商品类别。训练集合也可以称为商品标题集合,构建的训练集合中包含了某一电子商务网站中所有的商品标题及与商品标题相对应的商品类别。
分词模块220,用于对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词。具体的,使用分词技术对商品标题进行分词处理,使用分词结果作为商品的特征词,用相应特征词来描述该商品;分词模块220还用于在构建训练集合之后,对所述训练集合中的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词。
分类模块230,用于分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,得分最高的商品类别作为该商品的类别。
在图2基础上的另一个实施例具体为,一种基于互信息的商品分类系统,该商品分类系统包括:
构建模块,用于从网站服务器数据库中提取相关数据构,相关数据为某一电子商务网站中所有的商品标题及与所述商品标题相对应的商品类别。
分词模块,用于在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词,使用分词处理的结果作为商品的特征词,所述特征词用来描述该商品;还用于对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词。
过滤模块,用于对在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库;还用于对一个新商品进行分词处理后的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
挑选模块,用于在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库
计算模块,用于分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
分类模块,用于分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,得分最高的商品类别作为该商品的类别。
需要说明的是,本发明实施例提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (15)
1.一种基于互信息的商品分类方法,其包括以下步骤:
从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别;所述训练集合至少包括由商品标题和商品类别组成的数据集合;
对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;
在对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词之后,对所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词;
利用商品的特征词与所述特征词在一个商品类别中的互信息计算该商品的特征词在一个商品类别中的相关度值;
将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
2.根据权利要求1所述基于互信息的商品分类方法,其特征在于,所述构建训练集合的步骤还包括:
在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词。
3.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
4.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库。
5.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词,之后对过滤出的特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
6.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
7.根据权利要求1或6所述基于互信息的商品分类方法,其特征在于:
计算相关度值的公式为:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a是自然对数e、10或2。
8.根据权利要求1或6所述基于互信息的商品分类方法,其特征在于:
计算相关度值的公式为:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a是任意数。
9.一种基于互信息的商品分类系统,其包括:
构建模块,用于从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别;所述训练集合至少包括由商品标题和商品类别组成的数据集合;
分词模块,用于对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;
过滤模块,用于对在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库;
计算模块,利用商品的特征词与所述特征词在一个商品类别中的互信息计算该商品的特征词在一个商品类别中的相关度值;
分类模块,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
10.根据权利要求9所述基于互信息的商品分类系统,其特征在于:
所述分词模块还用于在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词。
11.根据权利要求10所述基于互信息的商品分类系统,其特征在于:
所述商品分类系统还包括挑选模块,用于在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
12.根据权利要求9所述基于互信息的商品分类系统,其特征在于:
所述过滤模块还用于对一个新商品进行分词处理后的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
13.根据权利要求9所述基于互信息的商品分类系统,其特征在于:
所述商品分类系统还包括计算模块,用于分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
14.如权利要求9或13所述基于互信息的商品分类系统,其特征在于:
计算相关度值的公式为:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a是自然对数e、10或2。
15.如权利要求9或13所述基于互信息的商品分类系统,其特征在于:
计算相关度值的公式为:
I(x,y)=loga(p(x|y))-loga(p(x));
其中,I(x,y)代表相关度值,p(x)代表特征词x在所有商品类别中出现的概率;p(x|y)代表特征词x在商品类别y中出现的条件概率;底数a是任意数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015607.7A CN103778205B (zh) | 2014-01-13 | 2014-01-13 | 一种基于互信息的商品分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015607.7A CN103778205B (zh) | 2014-01-13 | 2014-01-13 | 一种基于互信息的商品分类方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103778205A CN103778205A (zh) | 2014-05-07 |
CN103778205B true CN103778205B (zh) | 2018-07-06 |
Family
ID=50570440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410015607.7A Expired - Fee Related CN103778205B (zh) | 2014-01-13 | 2014-01-13 | 一种基于互信息的商品分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103778205B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915377A (zh) * | 2015-05-07 | 2015-09-16 | 亿赞普(北京)科技有限公司 | 一种外文业务对象类别标签的添加方法和装置 |
CN105095396A (zh) * | 2015-07-03 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 模型创建方法、质量评估方法及装置 |
CN104966204A (zh) * | 2015-07-06 | 2015-10-07 | 无锡天脉聚源传媒科技有限公司 | 一种网络店铺的生成方法和装置 |
CN107092600B (zh) * | 2016-02-17 | 2021-06-11 | 阿里巴巴集团控股有限公司 | 一种信息识别方法及装置 |
CN106096609B (zh) * | 2016-06-16 | 2019-03-19 | 武汉大学 | 一种基于ocr的商品查询关键字自动生成方法 |
CN108021579B (zh) * | 2016-10-28 | 2021-10-15 | 上海优扬新媒信息技术有限公司 | 信息输出方法及装置 |
TWI666598B (zh) * | 2016-12-01 | 2019-07-21 | 財團法人資訊工業策進會 | 存貨管理系統與存貨管理方法 |
CN107871144A (zh) * | 2017-11-24 | 2018-04-03 | 税友软件集团股份有限公司 | 发票商品名分类方法、系统、设备及计算机可读存储介质 |
CN108280124B (zh) * | 2017-12-11 | 2020-12-04 | 北京三快在线科技有限公司 | 产品分类方法及装置,排行榜生成方法及装置,电子设备 |
CN108540525A (zh) * | 2018-02-12 | 2018-09-14 | 合肥柏隆科技发展有限公司 | 一种基于消息推送的智能化橱柜调控方法 |
CN108595418A (zh) * | 2018-04-03 | 2018-09-28 | 上海透云物联网科技有限公司 | 一种商品分类方法及系统 |
CN110135463A (zh) * | 2019-04-18 | 2019-08-16 | 微梦创科网络科技(中国)有限公司 | 一种商品推送方法及装置 |
CN110209811B (zh) * | 2019-04-30 | 2023-09-22 | 上海艾瑞数科商务咨询有限公司 | 一种商品自动分类方法及系统 |
CN110895781A (zh) * | 2019-10-29 | 2020-03-20 | 北京三快在线科技有限公司 | 菜品类别推荐方法、装置、电子设备及存储介质 |
TWI734456B (zh) * | 2020-04-29 | 2021-07-21 | 正修學校財團法人正修科技大學 | 製程能力評估方法 |
CN112287042A (zh) * | 2020-11-22 | 2021-01-29 | 长沙修恒信息科技有限公司 | 一种erp系统中物料名称处理系统 |
CN113361787A (zh) * | 2021-06-11 | 2021-09-07 | 上海跨境电子商务公共服务有限公司 | 商品归类系统、方法、存储介质及终端 |
CN113674054B (zh) * | 2021-08-13 | 2023-12-05 | 青岛海信智慧生活科技股份有限公司 | 商品类别的配置方法、装置及系统 |
CN113779243A (zh) * | 2021-08-16 | 2021-12-10 | 深圳市世强元件网络有限公司 | 一种商品自动分类方法、装置及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250409A (ja) * | 2007-03-29 | 2008-10-16 | Nec Corp | 典型文分析装置、その方法及びそのプログラム |
CN102207961A (zh) * | 2011-05-25 | 2011-10-05 | 盛乐信息技术(上海)有限公司 | 一种网页自动分类方法及装置 |
CN103294798A (zh) * | 2013-05-27 | 2013-09-11 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
-
2014
- 2014-01-13 CN CN201410015607.7A patent/CN103778205B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008250409A (ja) * | 2007-03-29 | 2008-10-16 | Nec Corp | 典型文分析装置、その方法及びそのプログラム |
CN102207961A (zh) * | 2011-05-25 | 2011-10-05 | 盛乐信息技术(上海)有限公司 | 一种网页自动分类方法及装置 |
CN103294798A (zh) * | 2013-05-27 | 2013-09-11 | 北京尚友通达信息技术有限公司 | 基于二元切词和支持向量机的商品自动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103778205A (zh) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778205B (zh) | 一种基于互信息的商品分类方法和系统 | |
CN108629687B (zh) | 一种反洗钱方法、装置及设备 | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN109684627A (zh) | 一种文本分类方法及装置 | |
CN108053030A (zh) | 一种开放领域的迁移学习方法及系统 | |
CN104915327A (zh) | 一种文本信息的处理方法及装置 | |
KR102104316B1 (ko) | 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN107193915A (zh) | 一种企业信息分类方法及装置 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN112307860A (zh) | 图像识别模型训练方法和装置、图像识别方法和装置 | |
CN107861945A (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN107679209B (zh) | 分类表达式生成方法和装置 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN109684467A (zh) | 一种文本的分类方法及装置 | |
CN112801784A (zh) | 一种数字货币交易所的比特币地址挖掘方法及装置 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN106775694A (zh) | 一种软件配置代码制品的层次分类方法 | |
CN109033078B (zh) | 语句类别识别方法及装置、存储介质、处理器 | |
CN105095203B (zh) | 同义词的确定、搜索方法及服务器 | |
CN104991920A (zh) | 标签的生成方法及装置 | |
CN106776531B (zh) | 语料处理方法及装置 | |
CN111798286B (zh) | 物品搭配方法、物品搭配模型的构建方法和计算机 | |
CN107463564A (zh) | 服务器中数据的特征分析方法和装置 | |
CN110968685B (zh) | 商品名称的归集方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180706 Termination date: 20220113 |