CN102929937A

CN102929937A - 基于文本主题模型的商品分类的数据处理方法

Info

Publication number: CN102929937A
Application number: CN2012103663746A
Authority: CN
Inventors: 刘德建; 陈宏展; 欧宁; 吴拥民; 陈澄宇
Original assignee: FUZHOU BOYUAN WIRELESS NETWORK TECHNOLOGY Co Ltd
Current assignee: Baidu com Times Technology Beijing Co Ltd
Priority date: 2012-09-28
Filing date: 2012-09-28
Publication date: 2013-02-13
Anticipated expiration: 2032-09-28
Also published as: CN102929937B

Abstract

本发明提供一种基于文本主题模型的商品分类的数据处理方法，对分词系统的通用词库中导入业务相关的中英文词汇，并针对品牌及常见商品英文，导入业务相关的白名英文单词；进一步扩充分词系统的停用词词库；对商品的描述文字部分进行分词，继而使每个商品拥有一个顺序无关的词袋；根据对分词结果进行统计后，得到频率较高的非常用词汇，以此构建一优先词库；并指定总体分类数量并设置相关参数，执行快速Gibbs抽样，并获得潜在语义关联，分别与所述优先词库、通用词库以及停用词词库比较，再对比较结果进行计算，得出商品最可能的分类并利用词袋对分类进行标识。本发明考虑到潜在语义，降低编辑人员主观因素的影响，使商品分类更为准确。

Description

基于文本主题模型的商品分类的数据处理方法

【技术领域】

本发明涉及一种电子商务的数据处理技术，涉及一种基于文本主题模型的商品分类的数据处理方法。

【背景技术】

在互联网的电子商务市场上，现有的商品分类系统都是通过网站编辑进行手工分类。存在3个问题：1）大量的商品可能会导致过多人力的消耗；2）一个商品可能具有多个类别属性，可以分到多个类别，而人工分类会因编辑个人对事物属性理解的不到位或其对事物的某些偏见导致最终分类效果并不理想；3）对某个商品进行分类时，编辑无法准确地给出一个该分类的可信度。

2011-9-21公开的，公开号为102193936A的中国发明专利揭示了一种数据分类方法及装置，该方法为：获取需要进行分类的各商品的相关数据，并提取出其中的商品标题；对各商品标题分别进行分词划分，并确定各分词的权重，其中，各分词的权重用于表示该分词的历史出现频率；针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列；将针对各商品选取的分词序列进行比较，并将分词序列相同的商品的相关数据进行合并。这样，大大减少了需要处理的商品相关数据的数量，可以在较短时间内迅速、准确地实现商品分类，从而有效提高了商品分类流程的执行效率，降低了商品相关数据的管理复杂度，也减轻了系统的运算负荷。但该专利仍存在如下不足：

1、其仅针对商品标题文本进行分析，而未针对商品相关的所有文本，包括商品简述，购买用户评论等；

2、其使用文本分词方法是为了得出关键词（分词结果）并通过出现频率确定其权重，这种分类的结果不会很精确；

3、并未考虑文本的潜在语义问题，因此仅能从商品类型层面对其进行分类合并；

4、需要对分词结果人工编辑各商品的主属性，该方法依赖编辑人员的个人经验，由于编辑人员信息不足，可能导致结果偏离客观事实。

【发明内容】

本发明要解决的技术问题，在于提供一种基于文本主题模型的商品分类的数据处理方法，考虑到潜在语义，降低编辑人员主观因素的影响，使商品分类更为准确。

本发明是这样实现的：一种基于文本主题模型的商品分类的数据处理方法，包括：步骤10、对分词系统的通用词库中导入业务相关的中英文词汇，并针对品牌及常见商品英文，导入业务相关的白名英文单词；同时，进一步扩充分词系统的停用词词库；步骤20、基于上一个步骤提供的分词系统，对商品的描述文字部分进行分词，继而使每个商品拥有一个顺序无关的词袋；步骤30、根据对分词结果进行统计后，得到频率较高的非常用词汇，以此构建一优先词库；并指定总体分类数量并设置相关参数，执行快速Gibbs抽样，并获得潜在语义关联，分别与所述优先词库、通用词库以及停用词词库比较，再对比较结果进行计算，得出商品最可能的分类并利用词袋对分类进行标识。

进一步的，所述步骤20之前，还可包括步骤10’、先人工将商品简单地分进具有明显差异的大类；且所述步骤10’与步骤10无先后顺序之分。

进一步的，所述步骤30中是根据TF-IDF算法过滤出对商品描述贡献较大的关键词，并统计得到频率较高的非常用词汇，以此构建一优先词库，其中，所述TF-IDF算法是先采用通用词典进行分词，然后统计每件商品文本描述中每个词的出现次数以及每个词在所有商品中出现的次数，然后通过TF-IDF公式

计算出每件商品中每个词的权重，根据阈值保留高权重的词放入优先词库，式中，tf_ij表示文档i中词汇j出现的频率，n_ij表示j在文档i中出现的次数，分母则是文档j中所有字词出现的次数之和；再用逆向文档频率idf_j计算一个词普遍重要性的度量，计算式为：

{idf}_{i} = \log \frac{| D |}{| {d : d &ni; t_{i}} |},

其中，|D|是文档总数，分母是包含词t_i的文档数目；

tfid_ij权值w_ij计算公式为：

w_ij＝tf_i，j*idf_j*，

该权值即为词j在文档i中的TF-IDF值，该值表明了词j能够在多大程度上反映文档i的内容。

进一步的，本发明还包括步骤40、对商品的描述进行分析，分析时假设所有商品的描述是一个LDA主题模型，LDA主题模型是一个三层贝叶斯概率模型，包含词、主题和文档三层结构，文档到主题服从Dirichlet分布，主题到词服从多项式分布，LDA模型对每一个商品描述的文档，从主题分布中抽取一个主题赋予给一个商品，并从上述被抽到的主题所对应的词的分布中抽取一个词，重复上述过程直至遍历商品文档中的每一个词，由此得出的计算结果是，可以对每件商品赋予相关度最高的A个主题，A为可变阈值，同时可得出每个主题中各关键字对主题的贡献度，抽取对商品主题贡献度最高的10个关键词作为商品的主要属性，并以此计算各商品之间的相似度。

本发明具有如下优点：本发明采用的LDA（Latent Dirichlet Allocation）模型，LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。由于本发明考虑到潜在语义，降低编辑人员主观因素的影响，使商品分类更为准确。

【附图说明】

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法一较佳实施例的执行流程图。

【具体实施方式】

本发明的基于文本主题模型的商品分类的数据处理方法，包括：

步骤10’、先人工将商品简单地分进具有明显差异的大类；

步骤10、对分词系统的通用词库中导入业务相关的中英文词汇，并针对品牌及常见商品英文，导入业务相关的白名英文单词；同时，进一步扩充分词系统的停用词词库；

其中，所述步骤10’与步骤10无先后顺序之分。

步骤20、基于上一个步骤提供的分词系统，对商品的描述文字部分进行分词，继而使每个商品拥有一个顺序无关的词袋；

步骤30、根据对分词结果进行统计后，根据TF-IDF算法过滤出对商品描述贡献较大的关键词，并统计得到频率较高的非常用词汇，以此构建一优先词库；并指定总体分类数量并设置相关参数，执行快速Gibbs抽样，并获得潜在语义关联，分别与所述优先词库、通用词库以及停用词词库比较，再对比较结果进行计算，得出商品最可能的分类并利用词袋对分类进行标识。

其中，TF-IDF算法是一种简单快捷的文档特征词抽取方法，通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency-inversedocument frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。TF-IDF其主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse DocumentFrequency)是指，如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。使用TF-IDF可以计算某个关键字在某篇文章里面的重要性，可以用此关键词来表达文档所包含的含义。词频Term Frequency(tf_ij)表示文档i中词汇j出现的频率，计算公式如下：

{tf}_{i, j} = \frac{n_{i, j}}{{&Sum;}_{k} n_{k, j}}

其中n_ij表示j在文档i中出现的次数，分母则是文档j中所有字词出现的次数之和。

再用逆向文档频率Inverse Document Frequency(idf_j)计算一个词普遍重要性的度量，由下面的式子计算：

{idf}_{i} = \log \frac{| D |}{| {d : d &ni; t_{i}} |},

其中，|D|是文档总数，分母是包含词t_i的文档数目。

tfidf_ij权值w_ij计算公式为：

w_ij＝tf_i，j*idf_j*

Gibbs抽样是计算LDA主题模型参数的一种数学实现方法。在本发明中我们采用的是改进的快速Gibbs抽样方法。在实现LDA主题模型的时候，其中和潜在语义关连的两个重要参数在数学上很难直接求解，Gibbs抽样是通过蒙特卡罗方法（即类积分方法，通过大量的循环随机抽样，利用上一次计算结果作为先验概率，之后再计算后验概率，根据贝叶斯和统计学相关理论，在循环次数足够多的时候其计算结果将逼近真实值）。快速Gibbs抽样则进一步利用了真实文本数据往往会在循环计算一定次数后逐渐聚合到前几十个主题这个特性，进一步降低了Gibbs采样的计算时间。因此，可以认为在本专利中Gibbs抽样是实现LDA主题模型的必须算法。虽然也有其他算法可以实现LDA主题模型，但是目前在理论上快速Gibbs抽样是最好的一种实现方式。

分词系统主要是将连续的中文文本切分为几个能够表述语义的词语，例如，文本描述：“来自美国高校的智商测验。据说哈佛的精英也做不出来几道，快来尝试一下这个超搞的测验吧！”通过文本过滤和分词系统将给出如下词语：“智商测验美国高校智商测验哈佛精英尝试搞测验”。将连续中文文本进行分词几乎是进行所有自然语言处理方法处理中文文本必须的步骤。在经过分词之后，才能使用LDA模型对文本进行分类（聚类）。分词的实现同样也牵涉到语言模型的学习问题，但因为和本专利的主要内容关系不大，并且分词系统是一个目前理论较为成熟的系统，差别只在于以何种数学模型学习不同领域的语料，所以在此仅作为一个步骤陈述。

步骤40、对商品的描述进行分析，分析时假设所有商品的描述是一个LDA主题模型，LDA主题模型是一个三层贝叶斯概率模型，包含词、主题和文档三层结构，文档到主题服从Dirichlet分布，主题到词服从多项式分布，LDA模型对每一个商品描述的文档，从主题分布中抽取一个主题赋予给一个商品，并从上述被抽到的主题所对应的词的分布中抽取一个词，重复上述过程直至遍历商品文档中的每一个词，由此得出的计算结果是，可以对每件商品赋予相关度最高的A个主题，A为可变阈值，同时可得出每个主题中各关键字对主题的贡献度，抽取对商品主题贡献度最高的10个关键词作为商品的主要属性，并以此计算各商品之间的相似度。

就此完成二级分类，当然，本发明另一个实施例中，没有步骤10’，那么，步骤10到40可以是完成一级分类。

现举例说明本发明的分类过程：例子：

商品1摘要：360是一款安全软件，利润可观。

商品2摘要：诺顿是一款安全软件，也能够杀毒。

商品3摘要：symantec的诺顿软件，是一款安全软件。

商品4摘要：华尔街时报是一本金融杂志，提供经济相关内容，帮助企业获取利润。

商品5摘要：《货币战争》世界经济危机往往潜伏在巨额的利润之下。

商品6摘要：《每天懂点经济学》在金融上，国企的利润高，央企的利润也高，但税收更高。

经过分词和文本过滤后，结果为：

商品1：360安全软件利润

商品2：诺顿安全软件杀毒

商品3：symantec诺顿软件安全软件

商品4：华尔街时报金融杂志经济帮助企业利润

商品5：货币战争世界经济危机潜伏利润

商品6：每天懂点经济学金融国企利润央企利润税收

经过快速Gibbs采样并整理后得出的结果（主题数设置为2）：

主题1具有2个核心词汇分别为--→软件：0.306813安全：0.230301

主题2具有2个核心词汇分别为--→利润：0.224874经济：0.109885

属于主题1的商品有3个--→

商品1->隶属于本主题的概率为0,970061

商品2->隶属于本主题的概率为0,999749

商品3->隶属于本主题的概率为0,999801

属于主题2的商品有3个--→

商品4->隶属于本主题的概率为0,999833

商品5->隶属于本主题的概率为0,998183

商品6->隶属于本主题的概率为0,999833

这里可以明显看出前三件商品对主题1的隶属度很高（超过0.8的阈值），而后三件商品对主题2的隶属度很高，因此运算结果将商品分为2类。由于参考样例商品数量较少，这里把Gibbs抽样的循环抽样设置为2000次。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于文本主题模型的商品分类的数据处理方法，其特征在于：包括：

步骤30、根据对分词结果进行统计后，得到频率较高的非常用词汇，以此构建一优先词库；并指定总体分类数量并设置相关参数，执行快速Gibbs抽样，并获得潜在语义关联，分别与所述优先词库、通用词库以及停用词词库比较，再对比较结果进行计算，得出商品最可能的分类并利用词袋对分类进行标识。

2.根据权利要求1所述的基于文本主题模型的商品分类的数据处理方法，其特征在于：所述步骤20之前，还包括

步骤10’、先人工将商品简单地分进具有明显差异的大类；

且所述步骤10’与步骤10无先后顺序之分。

3.根据权利要求1所述的基于文本主题模型的商品分类的数据处理方法，其特征在于：

所述步骤30中是根据TF-IDF算法过滤出对商品描述贡献较大的关键词，并统计得到频率较高的非常用词汇，以此构建一优先词库，其中，所述TF-IDF算法是先采用通用词典进行分词，然后统计每件商品文本描述中每个词的出现次数以及每个词在所有商品中出现的次数，然后通过TF-IDF公式

计算出每件商品中每个词的权重，根据阈值保留高权重的词放入优先词库，式中，tf_ij表示文档i中词汇j出现的频率，n_ij表示j在文档i中出现的次数，分母则是文档j中所有字词出现的次数之和；

再用逆向文档频率idf_i计算一个词普遍重要性的度量，计算式为：

{idf}_{i} = \log \frac{| D |}{| {d : d &ni; t_{i} |},

其中，|D|是文档总数，分母是包含词t_i的文档数目；

tfidf_ij权值w_ij计算公式为：

w_ij＝tf_i，j*idf_j，

4.根据权利要求1所述的基于文本主题模型的商品分类的数据处理方法，其特征在于：还包括