CN105893350A

CN105893350A - 一种电子商务中文本评论质量的评价方法与系统

Info

Publication number: CN105893350A
Application number: CN201610199813.7A
Authority: CN
Inventors: 钟将; 邓忠; 郭卫丽
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-24
Anticipated expiration: 2036-03-31
Also published as: CN105893350B

Abstract

本发明公开了一种电子商务中商品评论质量的评估方法。首先通过抓取评论数据构建产品评论文档；然后使用主题分析模型建立商品类别、主题与主题包含特征词之间的关联关系；使用形式概念分析模型构造以商品类别为对象和主题为属性的虚拟概念格；从而构建评论质量评估模型；最后获取评论数据并对评论数据进行分词操作；将分词输入到评论质量评估模型进行评论数据的质量评估；输出质量评估结果。该方法可将商品评论质量的评估结果按从大到小排序推荐给用户，能更加客观的辅助用户的购物决定。通过四个量化指标来评估评论与商品的相关性、全面性、细节性和专业性，即可得出评论的质量评估结果，然后便可以此结果提供给用户参照。

Description

一种电子商务中文本评论质量的评价方法与系统

技术领域

本发明涉及电子商务领域，特别是一种电子商务中文本评论质量的评价方法与系统。

背景技术

伴随着社会信息化发展的加快，特别是互联网的高速发展，电子商务作为较先进的商业模式在国内快速兴起，但是假货、质量较差商品的盛行也在持续的困扰着在网上购物的人们。用户需要一种更加客观的方法来评价商品评论的质量，从而从商品的评论中选出质量较高的评论为用户在网上购物提供参考。评论质量这一概念指的是在排除了评论发起人感情色彩的因素后，根据评论内容与评论所属商品的相关性、评论内容的全面性、细节性等指标对评论进行评估进而得出的评估结果。

目前还没有一种有效的对评论质量进行评价的方法或者系统，传统的处理用评论数据的方法有以下几种：

(1)基于评论发生时间排序的方式：这种评论数据的展示方式是根据评论发生的时间来进行排序的，后发生的评论排在最前面，好处是可以让用户直观的知道商品评论发生的时间，但是对评论的质量及有效性没有进行评估。

(2)基于好评等级的筛选方式：通常情况，对商品的评论一般为好评、中评和差评的分级形式。这种评论数据的筛选方式可以方便用户查看对应好评等级的评论，在用户购物过程中能起到一定的参考作用。但这种方式展示的评论实质仍然还是对商品本身的评论，它并没有对评论的质量进行评价。

因此，需要一种用于评价评论数据质量的方法和系统，给用户提供一种更加客观的方法去评价商品评论的质量，从而从商品的评论中选出质量较高的评论为用户在网上购物提供参考。

发明内容

本发明的目的就是提供一种电子商务中文本评论质量的评价方法与系统。

本发明的目的是通过这样的技术方案实现的：

本发明提供的一种电子商务中文本评论质量的评价方法，包括以下步骤：

抓取评论数据，同时将评论数据按商品类别来进行分类构建产品评论文档；

使用主题分析模型建立商品类别、主题与主题包含特征词之间的关联关系；

使用形式概念分析模型构造以商品类别为对象和主题为属性的虚拟概念格；

构建评论质量评估模型；

获取评论数据并对评论数据进行分词操作；

将分词输入到评论质量评估模型进行评论数据的质量评估；

输出质量评估结果。

进一步，所述产品评论文档是通过以下步骤来构建的：

按产品类型将评论数据进行分类；

判断评论数据是否与产品满足预设对应关系，如果满足，则将评论数据存放于评论文档；

所述主题分析模型是通过以下表达式来进行的：

p (w | t) = Σ_{i = 1}^{t} p (w | t_{i}) * p (t_{i} | d);

其中，p(w|t_i)是特征词对应主题t_i的概率，p(t_i|d)是主题t_i在文档d中的概率；

所述主题及特征词的筛选按照以下公式进行约束：

T＝T∪t_i，其中i＝1，2，3，…，ω；

W＝W∪w_j，其中

其中，T是选出的主题的集合，ω是用于筛选主题数的阈值；W是从对应每个主题中选出的特征词的集合，是从对应主题筛选特征词数目的阈值。

进一步，所述虚拟概念格是基于FCA形式概念分析模型来构建的，具体步骤如下：

按照以下公式构造以主题为属性和商品类别为对象的形式背景：

K＝(G，M，I)；

其中，G是对象集合，M是属性集合；若对象g具有属性m则可表示为：

(g，m)∈I；

而形式背景I上的任意一个二元组(g，m)称为一个形式概念，简称概念；同时再对形式背景上的偏序关系形式化描述如下：

&ForAll; (G_{i}, M_{i}) &Element; I, &ForAll; (G_{j}, M_{j}) &Element; I;

满足则；

(G_i，M_i)≤(G_j，M_j)；

构造出形式背景I；在形式背景I基础上构造出具有父子关系及层次结构的虚拟概念格；

再采用FCA形式概念分析模型下的相关约简算法，得到约简后的虚拟概念格。

进一步，所述评论数据的分词过程按照以下公式来进行：

e_{i} &DoubleLeftRightArrow; W_{e_{i}};

e_i表示待评估质量的任意一条评论，表示评论分词后提取的所有特征词的集合。

接着将与虚拟概念格中同类商品包含主题下的特征词进行匹配，存在匹配的词，则将对应主题的标志位置为1；

评论e_i对应的产品p_i满足：

p_{i} &SubsetEqual; c_{j};

类别C_j包含的所有主题表示为T_j，T_j包含的任意主题t对应的词的集合为W_t，若：

满足

则

其中，flag(t)将满足条件的主题所在的概念标志置为1，同时将评论e_i匹配的主题表示为

进一步，所述评论质量评估模型按照以下内容来构建的：

构建评论质量评估模型的相关性，所述相关性为评论与被评论商品之间的相关性；所述评论与商品的相关性通过两个指标判断：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配；

满足上述任一标准，则认为评论与商品是相关的，将相关性指标置为1：

则relation(e_i)＝1；

构建评论质量评估模型的全面性，所述全面性为评论内容涉及的广度；全面性的量化标准定义如下：

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{j});

其中，评论e_i所属类别C_j包含的所有主题表示为T_j，定义count(T_j)表示T_j的总数目；表示评论e_i匹配主题的数目；

构建评论质量评估模型的细节性，所述细节性为评论匹配概念的细节性；所述细节性指标描述如下：

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j});

式中，deep(t_k)指的是主题t_k在虚拟概念格中的深度，deep_max(c_j)指的是评论e_i所属类别C_j包含主题的最大深度；

构建评论质量评估模型的专业性，所述专业性为用户对被评论商品所在领域的专业度，所述专业度从两个方面来量化：

通过用户购买该类商品的次数，与用户购物的总次数的比值；

所述专业性按照以下公式来进行表示：

prof₁＝scount(e_i)/scount；

prof₂＝deep_max(e_i)/deep_max；

profess(e_i)＝α*prof₁+(1-α)prof₂；

其中，scount(e_i)指的是用户购买评论e_i所属类别商品的次数，scount表示用户总的购物次数；deep_max(e_i)表示评论e_i匹配的概念在概念格中的最大深度，deep_max表示虚拟概念格的最大深度；α是用于调整两种指标所占比重的参数；

所述评论质量评估模型按照以下公式来建立：

q(e_i)＝β*relation(e_i)+γ*Wide(e_i)+δ*detail(e_i)+θ*profess(e_i)；

β+γ+δ+θ＝1；

其中，β、γ、δ、θ为用于调整四个评估标准所占权重的因子。

本发明还提供了一种电子商务中文本评论质量的评价系统，包括：

产品评论文档构建模块，用于抓取评论数据，同时将评论数据按商品类别来进行分类构建产品评论文档；

主题分析模块，用于使用主题分析模型建立商品类别、主题与主题包含特征词之间的关联关系；

虚拟概念格构造模块，用于使用形式概念分析模型构造以商品类别为对象和主题为属性的虚拟概念格；

评论质量评估模块，用于构建评论质量评估模型；

分词模块，用于获取评论数据并对评论数据进行分词操作；

输入模块，用于将分词输入到评论质量评估模型进行评论数据的质量评估；

输出模块，用于输出质量评估结果。

进一步，所述产品评论文档构建模块中的产品评论文档是通过以下步骤来构建的：

按产品类型将评论数据进行分类；

所述主题分析模块中的主题分析模型是通过以下表达式来进行的：

p (w | t) = Σ_{t - 1}^{t} p (w | t_{i}) * p (t_{i} | d);

其中，p(w|t_i)是特征词对应主题ti的概率，p(t_i|d)是主题t_i在文档d中的概率；

所述主题及特征词的筛选按照以下公式进行约束：

T＝T∪t_i，其中i＝1，2，3，...，…ω；

W＝W∪w_f，其中

进一步，所述虚拟概念格构造模块中的虚拟概念格是基于FCA形式概念分析模型来构建的，

具体步骤如下：

K＝(G，M，I)；

(g，m)∈I；

&ForAll; (G_{i}, M_{i}) &Element; I, &ForAll; (G_{j}, M_{j}) &Element; I;

满足则；

(G_i，M_i)≤(G_jM_j)；

进一步，所述分词模块中的评论数据的分词过程按照以下公式来进行：

e_{i} &DoubleLeftRightArrow; W_{e_{i}};

评论e_i对应的产品p_i满足：

p_{i} &SubsetEqual; c_{j};

满足

则

进一步，所述评论质量评估模块中的评论质量评估模型按照以下内容来构建的：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配；

则relation(e_i)＝1；

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{j});

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j});

所述专业性按照以下公式来进行表示：

prof₁-scount(e_i)/scount；

prof₂-deep_max(e_i)/deep_max；

profess(e_i)-α*prof₁+(1-α)prof₂；

所述评论质量评估模型按照以下公式来建立：

q(e_i)＝β*relation(e_i)+γ*wide(e_i)+δ*detail(e_i)+θ*profess(s_i)；

β+γ+δ+θ-1；

由于采用了上述技术方案，本发明具有如下的优点：

本发明提供的电子商务中商品评论质量的评估方法，与目前的基于时间排序或者好评等级划分的评论系统不同，本发明提出的方法是基于对评论自身的质量进行评估的方法。该方法可以将商品评论质量的评估结果按从大到小排序推荐给用户，能更加客观的辅助用户的购物决定。本发明采用主题分析模型对同一商品类别下的评论进行主题分析，建立起商品类别、产品、主题的关联关系。接着对主题分析提取的主题采用FCA形式概念分析模型构造出对应虚拟概念格。然后即可利用构造的虚拟概念格进行评论的质量评估。对于评论质量的评估模型，本发明提出了四个指标予以量化，一是评论与商品的相关性；另一是评论在虚拟概念格中匹配概念的全面性；三是评论内容的细节性；四是专业性指标，指的是评论用户的专业性和评论自身的专业性。最后对上述四个指标赋予一定的权重因子，即可得出评论的质量评估结果，然后便可以此结果提供给用户参照。

本评价方法用于评价评论数据质量，给用户提供一种更加客观的方法去评价商品评论的质量，从而从商品的评论中选出质量较高的评论为用户在网上购物提供参考。这里提出的评论质量这一概念指的是在排除了评论发起人感情色彩的因素后，根据评论内容与评论所属商品的相关性、评论内容的全面性、细节性等指标对评论进行评估进而得出的评估结果。

附图说明

本发明的附图说明如下。

图1是评论质量评估方法的处理流程。

图2是商品类别、主题与词的关联关系。

图3是实施案例商品类别、主题、特征词的关联关系。

图4是实施案例部分商品类别与主题构造的虚拟概念格。

图5是电子商务中文本评论质量的评价系统原理框图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1

如图所示，本实施例提供的一种电子商务中文本评论质量的评价方法，包括以下步骤：

构建评论质量评估模型；

获取评论数据并对评论数据进行分词操作；

将分词输入到评论质量评估模型进行评论数据的质量评估；

输出质量评估结果。

所述产品评论文档是通过以下步骤来构建的：

按产品类型将评论数据进行分类；

所述主题分析模型是通过以下表达式来进行的：

p (w | t) - Σ_{i = 1}^{t} p (w | t_{i}) * p (t_{i} | d);

所述主题及特征词的筛选按照以下公式进行约束：

T＝T∪t_i，其中i＝1，2，3，...，ω；

W＝W∪w_j，其中

所述虚拟概念格是基于FCA形式概念分析模型来构建的，具体步骤如下：

K-(G，M，I)；

(g，m)∈I；

&ForAll; (G_{i}, M_{i}) &Element; I, &ForAll; (G_{j}, M_{j}) &Element; I;

满足则；

(G_i，M_i)≤(G_jM_j)；

利用K＝(G，M，I)式、(g，m)∈I式构造出形式背景I；

在形式背景I基础上继续利用和(G_i，M_i)≤(G_j，M_j)式，就能构造出具有父子关系及层次结构的虚拟概念格；

所述评论数据的分词过程按照以下公式来进行：

e_{i} &DoubleLeftRightArrow; W_{e_{i}};

评论e_i对应的产品P_i满足：

p_{i} &SubsetEqual; c_{j};

满足

则

flag(t)将满足满足的主题所在的概念标志置为1，同时将评论e_i匹配的主题表示为

所述评论质量评估模型按照以下内容来构建的：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配；

则relation(e_i)-1；

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{j});

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j});

所述专业性按照以下公式来进行表示：

prof₁＝scount(e_i)/scount；

prof₂＝deep_max(e_i)/deep_max；

profess(e_i)＝α*prof₁+(1-α)prof₂；

所述评论质量评估模型按照以下公式来建立：

q(e_i)-β*relation(e_i)+γ*wide(e_i)+δ*detail(e_i)+θ*profess(e_i)；

β+γ+δ+θ＝1；

本实施例还提供了一种电子商务中文本评论质量的评价系统，包括产品评论文档构建模块、主题分析模块、虚拟概念格构造模块、评论质量评估模块、分词模块、输入模块、输出模块；产品评论文档构建模块，用于抓取评论数据，同时将评论数据按商品类别来进行分类构建产品评论文档；

评论质量评估模块，用于构建评论质量评估模型；

分词模块，用于获取评论数据并对评论数据进行分词操作；

输出模块，用于输出质量评估结果。

所述产品评论文档构建模块中的产品评论文档是通过以下步骤来构建的：

按产品类型将评论数据进行分类；

p (w | t) = Σ_{i = 1}^{t} p (w | t_{i}) * p (t_{i} | d);

所述主题及特征词的筛选按照以下公式进行约束：

T＝T∪t_i，其中i＝1，2，3，...，ω；

W＝W∪w_j，其中

所述虚拟概念格构造模块中的虚拟概念格是基于FCA形式概念分析模型来构建的，具体步骤如下：

K＝(G，M，I)；

(g，m)∈I；

&ForAll; (G_{i}, M_{i}) &Element; I, &ForAll; (G_{j}, M_{j}) &Element; I;

满足则；

(G_i，M_i)≤(G_j，M_j)；

利用K＝(G，M，I)、(g，m)∈I构造出形式背景I；

在形式背景I基础上继续利用(G_i，M_i）≤（G_j，M_j)，就能构造出具有父子关系及层次结构的虚拟概念格；

所述分词模块中的评论数据的分词过程按照以下公式来进行：

e_{i} &DoubleLeftRightArrow; W_{e_{i}};

评论e_i对应的产品p_i满足：

p_{i} &SubsetEqual; c_{j};

满足

则

所述评论质量评估模块中的评论质量评估模型按照以下内容来构建的：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配；

则relation(e_i)＝1；

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{j});

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j});

式中，deep(t_k)指的是主题t_k在虚拟概念格中的深度，deep_max(c_j)指的是评论c_i所属类别C_j包含主题的最大深度；

所述专业性按照以下公式来进行表示：

prof₁＝scouunt(e_i)/scount；

prof₂＝deep_max(e_i)/deep_max；

profess(e_i)＝α*prof₁+(1-α)prof₂；

所述评论质量评估模型按照以下公式来建立：

q(e_i)＝β*relatian(e_i)+γ*wide(e_i)+δ*detail(e_i)+θ*profess(e_i)；

β+γ+δ+θ＝1；

实施例2

本实施例提供的交易评论质量的评估系统可以实现对交易评论质量客观性评价。并可以将评估质量较高的评论推荐给交易用户，以便用户在交易是进行参考。

系统包含产品评论文档构建模块，通过该模块，完成对从网络抓取的评论数据预处理的工作，即实现评论数据按产品类别来进行分类。

系统包含基于评论文档的主题分析模块，该模块通过使用主题分析模型实现对产品评论主题的提取，并以这些主题建立起商品类别、主题、主题包含词语之间的关联关系。

系统包含基于商品类别与主题的虚拟概念格构造模块，该模块用于构造以商品类别为对象，主题为属性的虚拟概念格。

系统包含基于虚拟概念格的评论质量评估模块，该模块以权利要求4中所述模块构造的虚拟概念格为基础，定义了一个评估评论质量的模型。该模型从评论与产品的相关性、评论涉及主题的全面性、评论内容行细节性以及评论的专业性四个方面予以评价。

实施例3

本实施例提供的电子商务中文本评论质量的评价方法，是针对评论本身的质量进行评价的方法。该方法将在评论与商品的相关性，评论自身的全面性以及评论人员在商品所涉及领域的专业度等方面对评论的质量进行评价。最后评论质量评价的值越大说明评论质量越高，对用户越具有参考性。

本实施例提供的评论质量评价系统，处理流程如图1所示，其中主要包含四个模块：产品评论文档构建模块；基于评论文档的主题分析模块；基于商品类别与主题的虚拟概念格构造模块；基于虚拟概念格的评论质量评估模块。

1)产品评论文档构建模块，实现评论数据按产品的分类。定义:p表示产品，m表示产品类别总数；E表示所有评论数据的集合，e表示具体的一条评论，n表示评论数据总数；d表示存放评论的文档；函数y＝f(x)表示评论x与产品y的对应关系。将该模块的处理过程可形式化描述如下：

若p_i＝f(e_j)则 (1)

d_i＝d_i∪e_j (2)

j-j+1 (3)

因为任意一条评论必然是与某种产品关联的，所有当(1)式满足时，就能将满足条件的评论添加到对应的评论文档中。重复上述(1)-(3)式直到遍历完所有的评论，实现评论按产品分类的处理过程。其中，i＝1，2，3，…，m；j＝1，；，3，…，n。

2)基于评论文档的主题分析模块，该模块使用主题分析模型来得到不同产品评论涉及的主题，从而以此为基础建立起商品类别与评论包含主题之间的关联关系。由于用户在发起一条评论的时候，用户会从与产品相关的至少一个或多个主题，如产品的尺寸、质量以及使用体验等方面出发对产品进行评论，所以该模块才可以使用主题分析模型来对产品评论进行主题分析。该模块使用主题分析模型的一种，即LDA(Latent Dirichlet Allocation)主题模型来进行主题分析,LDA主题模型的核心表达式是：

p (w | t) = Σ_{i - 1}^{t} p (w | t_{i}) * p (t_{i} | d) - - - (4)

其中，p(w|t_i)是词对应主题t_i的概率，p(t_i|d)是主题t_i在文档d中的概率。通过使用主题模型分析后，就能建立文档、主题、词之间的关联关系。由上一模块知，文档与产品类别是一一对应的，而每种产品都是属于某种商品类别的，因此最终就能建立起商品类别、主题、词之间的关联关系。它们的关系如图2所示。其中c表示商品类别，r表示商品类别总数。另外，在主题分析时对主题及特征词(待选主题及特征词按概率倒序排序)的筛选存在以下约束：

T＝T∪t_i，其中i＝1，2，3，...，ω (5)

W＝W∪w_j，其中

3)基于商品类别与主题的虚拟概念格构造模块，用于构造以商品类别为对象，主题为属性的虚拟概念格。概念格是基于FCA(formula concept analysis)形式概念分析模型构造的。构建概念格之前，首先需要构造一个主题为属性，商品类别为对象的形式背景。形式背景可以形式化描述如下：

K＝(G，M，I) (7)

其中，G是对象集合，M是属性集合。同时，若对象g具有属性m则可表示为：

(g，m)∈I (8)

而形式背景I上的任意一个二元组(g，m)称为一个形式概念(简称概念)。同时再对形式背景上的偏序关系形式化描述如下：

&ForAll; (G_{i}, M_{i}) &Element; I, &ForAll; (G_{j}, M_{j}) &Element; I - - - (9)

满足则(10)

(G_i，M_i)≤(G_j，M_j) (11)

利用(7)式、(8)式即可构造出形式背景I，在形式背景I基础上继续利用(9)-(11)式，就能构造出具有父子关系及层次结构的虚拟概念格，再采用FCA形式概念分析模型下的相关约简算法，即可得出约简后的虚拟概念格。

4)基于虚拟概念格的评论质量评估模块，用于对一条新的评论的质量进行评估。评估标准是评论包含特征词在概念格中匹配的主题或者概念在概念格中的深度，以及通过评论本身与商品之间的相关性、匹配主题的面性和评论发起用户在该商品领域的专业性等标准进行评估。评估之前，先将需要评估质量的某一条评论进行分词，假设分词后的评论能完整表达评论本身的含义，则可将评论分词过程表达如下：

e_{i} &DoubleLeftRightArrow; W_{e_{i}} - - - (12)

c_i表示待评估质量的任意一条评论，表示评论分词后提取的所有特征词的集合。接着将与上一模块构造的虚拟概念格中同类商品包含主题下的特征词进行匹配，存在匹配的词，则将对应主题的标志位置为1。评论e_i对应的产品p_i满足：

p_{i} &SubsetEqual; c_{j} - - - (13)

满足

则

(15)式的flag(t)将满足(13)、(14)式的主题所在的概念标志置为1，同时将评论e_i匹配的主题表示为

现对评论质量的评估模型描述如下：

相关性，指的是评论与被评论商品之间的相关性。评论与商品的相关性通过两个指标判断：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配。

则relation(e_i)＝1 (16)

全面性，指的是评论内容涉及的广度。由(15)式可知评论e_i所属类别C_j包含的所有主题表示为T_j，定义count(T_j)表示T_j的总数目；表示评论e_i匹配主题的数目，则可将全面性的量化标准定义如下：

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{i}) - - - (17)

细节性，指的是评论匹配概念的细节性。由模块(3)虚拟概念格的构造模块可知，其构造的概念格包含节点之间具有父子关系及层级结构。概念在概念格中的深度越深，其描述的概念越具体，反之越抽象。层次较深的概念高层次较浅概念的抽象过程，就如具体某一种商品，到商品类别，再到商品大类抽象的过程。因此，在评估评论的细节性时，是通过计算匹配概念的平均深度与评论所属商品类别包含概念的最大深度的比值来进行量化的，计算出的结果越大，评论的内容更细致。可将细节性指标描述如下：

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j}) - - - (18)

式中deep(t_k)指的是主题t_k在虚拟概念格中的深度,deep_max(C_j)指的是评论e_i所属类别C_j包含主题的最大深度。

专业性，指的是用户对被评论商品所在领域的专业度，以及评论本身的专业度。因此该指标可以从两个方面来量化：

以(15)式匹配的概念的最大深度来表示，其所在层次越深，概念越具体，即评论本身越专业。

将上述评估方法形式化，可表示如下：

prof₁＝scouunt(e_i)/scount(19)

prof₂＝deep_max(e_i)/deep_max(20)

profess(e_i)＝α*prof₁+(1-α)prof₂(21)

(18)式的scount(e_i)指的是用户购买评论e_i所属类别商品的次数，scount表示用户总的购物次数；(19)式deep_max(e_i)表示评论e_i匹配的概念在概念格中的最大深度，deep_max表示虚拟概念格的最大深度；(20)式中的α是用于调整两种指标所占比重的参数。

现将(16)、(17)、(18)、(21)式合并，即可得出评论质量q(e_i)的评估办法,(21)式中的β、γ、δ、θ是用于调整四个评估标准所占权重的因子：

q(e_i)＝β↑relation(e_i)+γ*wide(e_i)+

δ*detail(e_i)+θ*profess(e_i)(22)

β+γ+δ+θ＝1(23)

实施例4

本发明实施案例的评论数据分析样本来自某电商平台，共抓取了电脑办公、礼品箱包和手机数码等八个大类共1837569条商品评论。其中，一级大类8种，二级分类31钟，三级分类共有116类。本发明的实施案例将按前述的四个模块进行实施：

步骤S01，将抓取的评论数据按产品进行分类，按照(1)-(3)式所述的步骤，完成同一产品的评论放入同一文档中的工作，同时文档名也以产品名称来命名。

步骤S02，将步骤S01分类的评论文档作为输入，进行主题分析。主题分析算法采用LDA主题分析模型。通过(4)式，LDA主题分析模型的核心式子建立起评论文档、主题、特征词之间的关联关系。如前所述，每类商品与每种商品的评论文档是一对多的关系，因此在LDA主题分析之后就建立起了商品类别、主题、特征词之间关联关系。本发明实施案例所建立的关联关系如图3所示。这里将(5)、(6)式中的ω和取值如下：

表示提取概率最大的前80主题，每个主题分别以概率最大的前50词为特征词。

步骤S03，在步骤S02处理之后，以图3所示关联关系中的商品类别为对象、主题为属性并根据(7)式构建形式背景I。由于商品类别之间本身是存在包含于被包含关系的，所有形式背景I包含的概念之间是存在偏序关系的。根据(9)-(11)式描述的概念之间的偏序关系，构造出具有父子关系与层次结构的虚拟概念格。由于数据量较大，这里选取20种商品类别、10个主题构造出如图4所示的虚拟概念格(图4并非完整的虚拟概念格)。

步骤S04，该步骤实现任意待评估评价在虚拟概念格中的匹配过程。根据(12)式，对待评估的评价进行分词并获取等价的特征词的集合然后将获取的特征词在概念格中进行匹配，满足(13)-(15)式的概念，即认为是匹配成功的概念，进而即可获取对应匹配成功的主题

步骤S05，该步骤将利用本发明提出的评论质量评估模型，以步骤S04匹配的主题为输入，实现对任意评论质量的评估过程。

首先根据(16)式，只要满足评论与商品相关性指标中任意一条标准，即可将评论的相关性指标置为1，否则置为0。

接着是全面性指标，根据(17)式可知是通过计算匹配主题的总数与评论所属商品类别包含主题的总数来表示，这里的商品类别指的是共116种三级商品类别中的一种。

然后根据(18)式描述的方法，即通过计算匹配概念的平均深度与评论所属商品类别包含概念的最大深度的比值来实现评论细节性指标的评估。

第四是专业性指标，专业性指标自身也有两个评估标准。(19)式计算的用户购买待评估评论所在类别商品的次数与其购物总次数是其中之一；另一个根据(20)式，通过计算匹配概念的最大深度与虚拟概念格的最大深度的比值来表示。在计算专业性指标值的时候，(20)表示的因素更能反映评价本身的专业性，因此将(21)式中的α取值如下：

α＝0.2 (25)；

上述四个指标计算得出之后，分别赋予一定的权重并求和，即可得出评论质量的评估结果。考虑到评论本身与商品的相关度对一条评论的重要性，所以相关性指标的权重的值取为0.45，各评估指标权重取值如下：

β-0.45，γ-0.15，δ-0.2，θ-0.2(26)

将(26)式代入(22)即得出了本实施案例评论质量评估模型的计算公式。该表达式计算出的值是一个小于1，大于0的数，其值越接近1，表示评论质量的评估结果越好，反之越差。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种电子商务中文本评论质量的评价方法，其特征在于：包括以下步骤：

构建评论质量评估模型；

获取评论数据并对评论数据进行分词操作；

将分词输入到评论质量评估模型进行评论数据的质量评估；

输出质量评估结果。

2.如权利要求1所述的电子商务中文本评论质量的评价方法，其特征在于：所述产品评论文档是通过以下步骤来构建的：

按产品类型将评论数据进行分类；

所述主题分析模型是通过以下表达式来进行的：

p (w | t) = Σ_{i = 1}^{t} p (w | t_{i}) * p (t_{i} | d);

所述主题及特征词的筛选按照以下公式进行约束：

T＝T∪t_i，其中i＝1，2，3，...，ω；

W＝W∪w_j，其中

3.如权利要求1所述的电子商务中文本评论质量的评价方法，其特征在于：所述虚拟概念格是基于FCA形式概念分析模型来构建的，具体步骤如下：

K＝(G，M，I)；

(g，m)∈I；

&ForAll; (G_{i}, M_{i}) &Subset; I, &ForAll; (G_{j}, M_{j}) &Subset; I;

满足则；

(G_i，M_i)≤(G_j，M_j)；

4.如权利要求1所述的电子商务中文本评论质量的评价方法，其特征在于：所述评论数据的分词过程按照以下公式来进行：

e_{i} &DoubleLeftRightArrow; W_{e_{i}};

c_i表示待评估质量的任意一条评论，表示评论分词后提取的所有特征词的集合。

评论e_i对应的产品p_i满足：

p_{i} &SubsetEqual; c_{j};

满足

则

5.如权利要求1所述的电子商务中文本评论质量的评价方法，其特征在于：所述评论质量评估模型按照以下内容来构建的：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配；

则relation(e_i)＝1；

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{j});

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j});

所述专业性按照以下公式来进行表示：

prof₁＝scount(e_i)/scount；

prof₂＝deep_max(e_i)/deep_max；

profess(e_i)＝α*prof₁+(1-α)prof₂；

所述评论质量评估模型按照以下公式来建立：

q(e_i)＝β*relation(e_i)+γ*wide(e_i)+δ*detail(e_i)+θ*profess(e_i)；

β+γ+δ+θ＝1；

6.一种电子商务中文本评论质量的评价系统，其特征在于：包括产品评论文档构建模块、主题分析模块、虚拟概念格构造模块、评论质量评估模块、分词模块、输入模块和输出模块；

所述产品评论文档构建模块，用于抓取评论数据，同时将评论数据按商品类别来进行分类构建产品评论文档；

所述主题分析模块，用于使用主题分析模型建立商品类别、主题与主题包含特征词之间的关联关系；

所述虚拟概念格构造模块，用于使用形式概念分析模型构造以商品类别为对象和主题为属性的虚拟概念格；

所述评论质量评估模块，用于构建评论质量评估模型；

所述分词模块，用于获取评论数据并对评论数据进行分词操作；

所述输入模块，用于将分词输入到评论质量评估模型进行评论数据的质量评估；

所述输出模块，用于输出质量评估结果。

7.如权利要求6所述的电子商务中文本评论质量的评价系统，其特征在于：所述产品评论文档构建模块中的产品评论文档是通过以下步骤来构建的：

按产品类型将评论数据进行分类；

p (w | t) = Σ_{i = 1}^{t} p (w | t_{i}) * p (t_{i} | d);

所述主题及特征词的筛选按照以下公式进行约束：

T＝T∪t_i，其中i＝1，2，3，...，ω；

W＝W∪w_j，其中

8.如权利要求6所述的电子商务中文本评论质量的评价系统，其特征在于：所述虚拟概念格构造模块中的虚拟概念格是基于FCA形式概念分析模型来构建的，具体步骤如下：

K-(G，M，I)；

(g，m)∈I；

而形式背景I上的任意一个二元组(g,m)称为一个形式概念，简称概念；同时再对形式背景上的偏序关系形式化描述如下：

&ForAll; (G_{i}, M_{i}) &Element; I, &ForAll; (G_{j}, M_{j}) &Element; I;

满足则；

(G_i，M_i)≤(G_jM_j)；

9.如权利要求6所述的电子商务中文本评论质量的评价系统，其特征在于：所述分词模块中的评论数据的分词过程按照以下公式来进行：

e_{i} &DoubleLeftRightArrow; W_{e_{i}};

评论e_i对应的产品p_i满足：

p_{i} &SubsetEqual; c_{j};

满足

则

10.如权利要求6所述的电子商务中文本评论质量的评价系统，其特征在于：所述评论质量评估模块中的评论质量评估模型按照以下内容来构建的：

评论分词后的结果与商品信息是否匹配；

评论分词后的结果在虚拟概念格中是否匹配；

则relation(e_i)＝1；

w i d e (e_{i}) = c o u n t (T_{e_{i}}) / c o u n t (T_{j});

\det a i l (e_{i}) = (Σ_{k = 1}^{c o u n t (T_{e_{i}})} d e e p (t_{k})) / c o u n t (T_{j}) / {deep}_{\max} (c_{j});

所述专业性按照以下公式来进行表示：

prof₁＝scount(e_i)/scount；

prof₂＝deep_max(e_i)/deep_max；

profess(e_i)＝α*prof₁+(1-α)prof₂；

所述评论质量评估模型按照以下公式来建立：

q(e_i)＝β*relation(e_i)+γ*wide(e_i)+δ*detail(e_i)+θ*profess(e_i)；

β+γ+δ+θ＝1；