CN108596637B

CN108596637B - 一种电商服务问题自动发现系统

Info

Publication number: CN108596637B
Application number: CN201810371912.8A
Authority: CN
Inventors: 赵吉昌; 王珊珊; 孙孟晗
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-05-06
Anticipated expiration: 2038-04-24
Also published as: CN108596637A

Abstract

本发明提出一种电商服务问题自动发现系统，其特征在于包括：特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块；所述特征词提取模块，完成对文本中出现的有意义词的提取。所述文本分类模块，完成对单条文本的初步分类；所述一级属性发现模块，完成基于词性的电商服务问题一级属性关键词的确定；所述二级属性提取模块，实现电商服务问题二级属性的自动发现；建立二级属性备选集合；基于情绪词典对二级属性统计与排序，统计在文本中，从而有助于针对性的改进和提高电商服务质量。

Description

一种电商服务问题自动发现系统

技术领域

本发明涉及一种电商服务问题自动发现系统，尤其涉及一种适用于对有关电商服务问题的文本进行分类统计、语义分析，并基于文本的情感倾向自动发现电商服务问题的系统

背景技术

随着互联网的发展，电子商务发展迅速，2017年，全国网上零售额达到7.18万亿元人民币，同比增长32.2％，增速较上一年提高了6个百分点。与传统商务相比，电子商务具有交易虚拟化、交易成本低、交易效率高、交易透明化等特点，消费者可以在网络上发布关于电商服务质量的文本，但由于每个人的表述都有所不同，并且数据量太大，逐个阅读每个文本的所有内容将耗费大量时间。现有技术中，由于有关电商服务问题的文本数量太多，很难逐条读完，用户无法在短时间内了解电商服务中的问题，并且由于对于电商服务的问题发现存在滞后性，电商无法短时间内获取消费者对于电商服务的反馈信息，从而针对性的改进和提高服务质量。

发明内容

本发明提供一种电商服务问题自动发现系统，包括：特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块；所述特征词提取模块，完成对文本中出现的有意义词的提取：对已经标记的典型文本进行分词并去除停用词之后，根据词语出现频次排序，得到特征词。所述文本分类模块，完成对单条文本的初步分类：利用逻辑回归分类器对有关电商服务问题的文本进行分类，分类结果分为物流、产品、售后、营销四类；所述一级属性发现模块，完成基于词性的电商服务问题一级属性关键词的确定，为二级属性的自动发现提供数据基础；所述二级属性提取模块，实现电商服务问题二级属性的自动发现；建立二级属性备选集合；基于情绪词典对二级属性统计与排序，并进行统计。

本发明能够从海量数据中统计出各个产品的质量问题，使用户能在短时间内了解电商服务的具体问题，并能使制造者能够在短时间内了解自己的何种产品出现了质量问题，有助于针对性的改进和提高产品质量。

附图说明

图1为本发明的组成框图；

图2为本发明中的特征词提取模块实现流程图；

图3为本发明中的文本分类模块实现流程图；

图4为本发明中的一级属性发现模块实现流程图；

图5为本发明中的二级属性提取模块实现流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明系统包括特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块。

所述特征词提取模块，完成对文本中出现的有意义词的提取：对已经标记的典型文本进行分词并去除停用词之后，根据词语出现频次排序，得到特征词。

所述文本分类模块，完成对单条文本的初步分类：利用逻辑回归分类器对有关电商服务问题的文本进行分类，分类结果分为物流、产品、售后、营销四类；

所述一级属性发现模块，完成基于词性的电商服务问题一级属性关键词的确定，为二级属性的自动发现提供数据基础；

所述二级属性提取模块，实现电商服务问题二级属性的自动发现；建立二级属性备选集合；基于情绪词典对二级属性统计与排序，统计在文本中，电商服务问题的分布和消费者的情绪特点，为商家或管理者提供文本概况或画像。

如图2所示，所述特征词提取模块的具体实现过程为：

步骤2a，对已标注的文本进行分词；

步骤2b，去除其中的停用词；

步骤2c，按词语出现频次统计得到所有的特征词。

如图3所示，所述文本分类模块中使用所述逻辑回归分类器对有关电商服务问题的文本进行分类的具体实现过程为：

步骤3a，手工标记部分典型的文本，作为该文本的类别标注；

步骤3b，将特征词提取模块得到的特征词，作为特征集；

步骤3c，从电商网站的商品评论获取的有关电商服务问题的文本数据中去掉重复和无效的数据，作为训练数据；

步骤3d，利用特征集将已标注的数据、训练数据转为向量，并以此训练逻辑回归分类器；

步骤3e，使用所训练的逻辑回归分类器对文本进行分类。

如图4所示，所述基于词性的一级属性发现模块中基于词性的问题一级属性关键词确定，具体实现为：对不同类别相关文本进行分词处理，所述类别包括物流、产品、售后、营销，过滤停用词，筛选其中词性为名词的词语，统计频次并按照降序排序，作为关键词集合，由此得到不同类别商品问题的一级属性及其对应关键词。

如图5所示，所述二级属性提取模块中二级属性备选集合的建立，具体实现为：

步骤5a，将文本分类模块获得的不同类别相关文本下属的一级属性关键词作为二级属性备选集合建立模块的输入；

步骤5b，将所输入的一级属性关键词所对应的文本类别进行分词处理，并过滤停用词，每条文本生成一个分词列表；

步骤5c，使用滑动窗口方法，取窗口长度为2，遍历步骤5b中生成的本文本分词列表，若窗口中包含所输入关键词，进一步判断窗口内除关键词外的词语的情感倾向，过滤积极情感词，建立词组组成的二级属性备选集合。

所述二级属性提取模块中基于情绪词典对二级属性统计与排序时，设定文本长度和语义密度阈值，进行判断后进行相应处理，当文本长度长，且语义密度大时，则使用文本情感倾向度统计方法，当反之文本长度短，且语义密度低时，则使用情绪词典区分情感词统计方法。

所述二级属性提取模块中文本情感倾向度统计方法，首先进行基于情绪词典的文本情绪倾向标记，其中所使用的情感字典从外部获取，所述情感字典包括HowNet、NTUSD；随后基于文本负面情感倾向度对二级属性的排序与提取。

所述二级属性提取模块中基于情绪词典的文本情绪倾向标记，具体实现为：

步骤8a，导入包含积极情感词与消极情感词的情绪词典；

步骤8b，遍历所述特征词提取模块中获得的文本分词列表，计算每条文本对应列表中包含的积极情感词数量p，包含的消极情感词数量n；

步骤8c，计算并标记每条文本所对应的负面情感倾向度w＝n/(p+n)。

所述二级属性提取模块中基于文本的负面情感倾向度对二级属性的排序与提取，具体实现为：

步骤9a，将特定一级属性关键词对应的二级备选集合作为模块输入；

步骤9b，遍历集合中某词组在文本文件中出现的所有文本，对每条文本对应的负面情感倾向度求和，数值作为该词组的消极指数；

步骤9c，得到某一级属性对应的全部备选二级属性词组的消极指数，根据消极指数对备选二级属性进行降序排序；

步骤9d，排序靠前的备选二级属性输出，作为目标属性的问题发现结果。

所述二级属性提取模块中基于情绪词典区分情感词统计方法，具体实现为：

步骤10a，将特定一级属性关键词对应的二级备选集合作为模块输入；

步骤10b，遍历集合中某关键词在备选集合中出现的所有词组，对词组中的非关键词词汇进行基于情绪词典的情绪判断，如该词属于消极词汇，则记频次为2；若为积极词汇，记频次为0；若为中性词，记频次为1；

步骤10c，生成所有词组的对应频次，并进行降序排序。

一实施例中，所述特征词提取模块，对文本进行分词，得到文本中出现的有意义的高频词的词语，所述特征词提取模块的处理过程为：

步骤1，将文本记为t_P，进行分词得到单词向量(w_p,1，w_p,2，…w_p,j)，其中w_p,j为文本t_p对应的单词向量的第j个单词，j为正整数；

步骤2，将停用词列表记为S，特征词字典记为F，若w_p,j不在S中且不在F中，则将w_p,j加入F并将其value值设为1，若w_p,j不在S中且在F中，则将其value值设为value+1；

步骤3，处理完所有的已标记文本，得到一个特征词key，词频为value值的字典，利用value降序排列可得到出现频率高的特征词作为特征集。

所述文本分类模块，对文本进行初步的分类，分为物流、产品、售后、营销四类，所述分类步骤为：

步骤1，首先人工筛选部分典型文本，并手工标注为物流、产品、售后、营销四类，分别定义为0,1,2,3类；

步骤2，人工标注的文本作为逻辑回归分类器的训练数据对模型进行更新。

假设样本{t,C}在训练过程中需要计算单条文本t_P属于类别C_p的概率P(C_p|t_p)，可通过下面逻辑函数处理：

其中，所述θ是模型参数，也就是回归系数，所述σ函数为sigmoid函数。所述逻辑函数P是由下面的对数几率(也就是t_p属于的C_p可能性和不属于该类的可能性的比值的对数)变换得到：

步骤3，设C＝C_p时y_p＝1,否则y_p＝0.每一个观察到的样本{t_p,C_p}出现的概率是：PC_p，

得到似然函数：

为了得到所述θ的值，逻辑回归分类器中使用最大似然算法，即求模型中使得似然函数最大的系数θ^*；

步骤4，下一步进行优化求解，利用公式：

得到最优解；进而得到优化的逻辑回归分类器，并用来对其余未标记的数据进行分类。

所述一级属性发现模块实现基于词性的电商服务问题一级属性关键词的确定，所述具体实现步骤为：

步骤1，将文本t_P进行分词后得到(w_p,1，w_p,2，…w_p,j)单词向量，其中w_p,j为文本t_p对应的单词向量的第j个单词；

步骤2，将停用词列表记为S，关键词字典记为A，若w_p,j不在S中且不在A中并词性为名词，则将w_p,j加入A并将其value设为1，若w_p,j不在S中且在A中,并词性为名词，则将其value设为value+1；

步骤3，处理完所有的已标记文本，得到字典A，对字典A按照键值value进行降序排序，得到最终词典F,获得一级属性关键词词典。

步骤1，将导入的文本分词列表L导入，文本记为t_P，对应词列表(w_p,1，w_p,2，…w_p,j)，所述w_p,j为文本t_p对应的文本分词列表中的第j个单词；

步骤2，积极情感字典为P，消极情感字典为N，遍历所述文本分词列表L中的文本词列表，计算t_P的负面情感倾向,记初始p＝n＝0：遍历t_P词列表(w_p,1，w_p,2，…w_p,j)，若w_i在P内，则p设为p+1,若在N内，则n设为n+1；遍历结束得到t_p负面情感倾向k_p＝n/(p+n)。

步骤3，将待搜索的词语记为s,二级属性字典记为D，遍历文本列表L，遍历文本t_P对应词列表，若w_i＝s，则生成词组c₁＝w_i-1+w_i和c₂＝w_i+w_i+1，并对该文本词列表停止遍历，将c₁与c₂按照如下原则加入字典D：若词组c中不在D中，则将c加入D并将其value设为value+k_i,i为正整数。

步骤4，得到字典D，对字典D按照键值value进行降序排序，得到最终词典DF,输出得到二级属性发现结果。

基于情绪词典区分情感词统计方法，具体实现为：

步骤1，将导入的文本分词列表L导入，文本记为t_P，对应词列表(w_p,1，w_p,2，…w_p,j)，其中w_p,j为文本t_p对应的文本分词列表中的第j个单词；

步骤2，待搜索的词语为s,二级属性字典记为D，积极情感字典为P，消极情感字典为N，遍历文本列表L，遍历文本t_P对应词列表，若w_i＝s，则生成词组c₁＝w_i-1+w_i和c₂＝w_i+w_i+1，将c₁与c₂按照如下原则加入字典D，记初始value＝0：若w_i-1在N内，则value＝value+2,若w_i-1不在N内且不在P内，则value＝value+1。

步骤3，得到字典D，对字典D按照value值进行降序排序，得到最终词典DF,输出得到二级属性发现结果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电商服务问题自动发现系统，其特征在于包括：特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块；

所述特征词提取模块，完成对文本中出现的有意义词的提取：对已经标记的典型文本进行分词并去除停用词之后，根据词语出现频次排序，得到特征词；

所述二级属性提取模块，实现电商服务问题二级属性的自动发现；利用文本建立word2vec模型和岭回归分类模型对情感字典进行扩充；利用滑动窗口法建立二级属性备选集合；基于情绪词典对二级属性统计与排序，并进行统计；

所述文本分类模块中使用所述逻辑回归分类器对有关电商服务问题的文本进行分类的具体实现过程为：

步骤1a，手工标记部分典型的文本，分为物流、产品、售后、营销四类，作为该文本的类别标注；

步骤1b，将特征词提取模块得到的特征词，作为特征集；

步骤1c，从电商网站的商品评论获取的有关电商服务问题的文本数据中去掉重复和无效的数据，作为训练数据；

步骤1d，利用特征集将已标注的数据、训练数据转为向量，并以此训练逻辑回归分类器；

步骤1e，使用所训练的逻辑回归分类器对文本进行分类。

2.根据权利要求1所述的一种电商服务问题自动发现系统，其特征在于：所述特征词提取模块的具体实现过程为：

步骤2a，对已标注的文本进行分词；

步骤2b，去除其中的停用词；

步骤2c，按词语出现频次统计得到所有的特征词。

3.根据权利要求1所述的一种电商服务问题自动发现系统，其特征在于：所述基于词性的一级属性发现模块中基于词性的问题一级属性关键词确定，具体实现为：

对不同类别相关文本进行分词处理，所述类别包括物流、产品、售后、营销，过滤停用词，筛选其中词性为名词的词语，统计频次并按照降序排序，作为关键词集合，由此得到不同类别商品问题的一级属性及其对应关键词。

4.根据权利要求1所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中利用文本建立word2vec模型和岭回归分类模型对情感字典进行扩充，具体实现为：

步骤4a，利用典型文本训练word2vec模型；

步骤4b，从外部获取情感字典，包括HowNet、NTUSD，并将已有情感字典作为种子词；

步骤4c，建立岭回归分类模型对情感字典进行扩充。

5.根据权利要求1所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中二级属性备选集合的建立，具体实现为：

6.根据权利要求1所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中基于情绪词典对二级属性统计与排序时，设定文本长度和语义密度阈值，进行判断后进行相应处理，当文本长度长，且语义密度大时，则使用文本情感倾向度统计方法，当反之文本长度短，且语义密度低时，则使用情绪词典区分情感词统计方法。

7.根据权利要求6所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中文本情感倾向度统计方法，首先进行基于扩充后的情绪词典的文本情绪倾向标记；随后基于文本负面情感倾向度对二级属性的排序与提取。

8.根据权利要求6所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中基于情绪词典的文本情绪倾向标记，具体实现为：

步骤8a，导入扩充后的包含积极情感词与消极情感词的情绪词典；

9.根据权利要求7所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中基于文本的负面情感倾向度对二级属性的排序与提取，具体实现为：

10.根据权利要求8所述的一种电商服务问题自动发现系统，其特征在于：所述二级属性提取模块中基于情绪词典区分情感词统计方法，具体实现为：

步骤10c，生成所有词组的对应频次，并进行降序排序。