CN107909401A

CN107909401A - 一种基于大数据技术的满意度测算方法

Info

Publication number: CN107909401A
Application number: CN201711123281.XA
Authority: CN
Inventors: 阮敬
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-04-13

Abstract

本发明提供一种基于大数据技术的满意度测算方法，所述方法包括：针对待分析的产品，获取所述待分析的产品在指定网站中的所有评论信息；基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，及基于所述实体的量化结果；所述显变量信息为根据所述待分析的产品预先确定的，所述量化结果包括：每一条评论信息的得分向量；对所述量化结果进行标准化处理，获得标准化输出结果；将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型，获得用于测算满意度的信息。上述方法速度快、成本低、数据量大，获取的信息能够为产品及其对应的品牌提升带来更重要的现实意义和应用价值。

Description

一种基于大数据技术的满意度测算方法

技术领域

本发明涉及数据处理技术，具体涉及一种基于大数据技术的满意度测算方法。

背景技术

顾客满意度分析是一项比较成熟的技术，在学界和业内都有着广泛的应用。传统的顾客满意度分析是通过线上、线下调查问卷或访谈等调研方式收集顾客对产品的满意度以及相关指标信息。通过量表来获得顾客对产品各方面满意程度的打分，也经常使用如结构方程模型的方法进行进一步分析。

传统的顾客满意度分析基本是以调查为主来收集顾客对产品的满意度及想法，其优势在于企业(或开展此调研的群体)可以自行设计问卷，将自己关注和想要研究的方面、指标包含在量表中，其目的性很强，通常可以比较有针对性的获取到想要的信息。但其局限性也在于使用调查这种方式。调查方式有很多不可控因素，如抽样框设计困难、调查员因素、被调查者因素等等诸多方面，可能导致被调查者所填写的信息并不是心中的真实想法，比如被调查者敷衍了事，或者由于调查员在身边而不好意思给出真实想法，调查员没有按照调查方案进行调查而选择了一些捷径等等。这一系列原因可能会导致最终的分析结果有偏差。而且调查的成本也比较高，很难获取大量的数据，或者需要为大量数据付出高额成本。

即，传统数据收集方式很难较为准确的反映出消费者针对产品或服务的真实感受，往往受限于问卷调查或CATI调查方式获取数据的局限，很难获取大规模的基础数据进行更深层次的研究。

发明内容

针对现有技术中的问题，本发明提供一种基于大数据技术的满意度测算方法。

第一方面，本发明提供一种基于大数据技术的满意度测算方法，包括：

针对待分析的产品，获取所述待分析的产品在指定网站中的所有评论信息；

基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，及基于所述实体的量化结果；所述显变量信息为根据所述待分析的产品预先确定的，所述量化结果包括：每一条评论信息的得分向量；

对所述量化结果进行标准化处理，获得标准化输出结果；

将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型，获取用于测算满意度的信息。

可选地，基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，及基于所述实体的量化结果，包括：

针对每一个子产品，对该子产品对应的所有评论信息进行预处理，获取预处理后的所有评论信息；

针对预处理后的所有评论信息，筛选词频大于预设阈值且与该子产品的显变量信息关联的实体；

基于筛选的所述实体和预设的多个分值映射关系，采用自然语言处理技术处理每一条预处理后的评论信息；获得每一条评论信息的得分向量；

其中，所述多个分值映射关系包括下述的一种或多种：情感倾向方向的分值映射关系、情感倾向度的分值映射关系、普通实体的分值映射关系和特殊实体的分值映射关系。

可选地，对所述量化结果进行标准化处理，获得标准化输出结果，包括：

对量化结果进行归一化处理，得到归一化后的量化结果；

查看归一化后的量化结果中至少一条评论信息对应的子结果是否存在数据离群值；

若存在，则对存在数据离群值的子结果进行修正处理，得到修正后的量化结果；以及

针对修正后的量化结果，若存在至少一条评论信息对应的子结果包括负值元素，则对该负值元素进行正向化处理，得到正向化处理后的量化结果；

针对正向化处理后的量化结果，若存在至少一条评论信息对应的子结果响应于所有实体存在缺失，则对缺失部分进行插补，得到标准化输出结果；

或者，

查看量化结果中至少一条评论信息对应的子结果是否存在数据离群值；

若存在，则对存在数据离群值的子结果进行修正处理，得到修正后的结果；以及

针对修正后的结果，若存在至少一条评论信息对应的子结果包括负值元素，则对该负值元素进行正向化处理，得到正向化处理后的结果；

针对正向化处理后的结果，若存在至少一条评论信息对应的子结果响应于所有实体存在缺失，则对缺失部分进行插补，得到插补后的结果；

对插补后的结果进行归一化处理，得到标准化输出结果。

对量化结果中的缺失元素的表示形式进行统一，并去除量化结果中各子结果中存在的数据离群值，以及正向化处理量化结果中各子结果中存在的负值，得到量化结果A；

根据量化结果A中每一评论信息所属的网站、产品分类号和/或产品编号对量化结果A中的子结果求均值，根据均值结果，生成结果B；

判断结果B中的子结果是否存在缺失元素，若存在，则采用缺失值插补方式插补结果B，得到结果B’；

对结果B’添加行标签，生成结果D；

对结果D进行归一化处理，获得标准化输出结果。

可选地，所述采用缺失值插补方式插补结果B，包括：

采用K近邻法插补方式插补结果B；

或者，

所述采用缺失值插补方式插补结果B，包括：

从结果B中选择无缺失元素的两个以上的子结果，生成结果C0；

采用结果C0插补存在缺失元素的结果B，得到结果B’。

可选地，获取所述待分析的产品在指定网站中的所有评论信息，包括：

通过网络爬虫技术获取所述待分析的产品在指定网站中的所有评论信息。

可选地，所述针对每一个子产品，对该子产品对应的所有评论信息进行预处理，获取预处理后的所有评论信息，包括：

针对每一个子产品对应的所有评论信息，清洗掉所有评论信息中信息完全相同的评论、清洗掉网站给出的默认评论、清洗掉采用非文字类表达的评论信息，以及清洗掉在同一条评论信息中的重复信息，将清洗后的评论信息作为预处理后的所有评论信息。

可选地，将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型的步骤之前，包括：

与所述待分析的产品对应的显变量信息、隐变量信息和获取的所述实体，采用结构方程模型建立所述待分析的产品的满意度模型。

可选地，用于测算满意度的信息包括：所述隐变量信息对应的得分，所述隐变量信息对应的优势因素、劣势因素和/或优先改进因素。

第二方面，本发明提供一种基于大数据技术的满意度测算装置，包括：

用于存储多个指令的存储器和用于执行所述存储器中指令的处理器；

所述处理器执行所述指令，包括：

对所述量化结果进行标准化处理，获得标准化输出结果；

可选地，基于筛选的所述实体和预设的多个分值映射关系，采用自然语言处理技术处理每一条预处理后的评论信息；获得每一条评论信息的得分向量，包括：

根据得分向量中的各组成词所占的权重，和权重对应的赋值规则，建立多个分值映射关系。

本发明具有的有益效果如下：

本发明实施例中通过网络以低成本方式获取高容量的产品评论信息，进而基于大数据技术对产品评论信息进行分析，获得量化结果，进而将量化结果作为待分析产品的满意度模型的输入数据，获取到用于测算满意度的信息，获取信息的处理速度更快，且结果更准确，分析更全面，同时，基于测算满意度的信息还可为当前分析产品的品牌提升提供更重要的现实意义和应用价值。

附图说明

图1和图2A分别为本发明一种实施例提供的基于大数据技术的满意度测算方法的流程示意图；

图2B为图2A的方法流程图中的部分流程示意图；

图3为本发明实施例中量化结果的处理的过程示意图；

图4为本发明实施例中示出的满意度模型的平面结果图；

图5为本发明实施例中示出的某一类产品的隐变量、显变量和实体之间的关系示意图；

图6为本发明实施例中示出的绩效分析的示意图；

图7为本发明一实施例提供的满意度测算装置的结构示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1示出了本发明一实施例提供的基于大数据技术的满意度测算方法的流程示意图，如图1所示，本实施例的方法包括如下步骤：

101、针对待分析的产品，获取所述待分析的产品在指定网站中的所有评论信息。

举例来说，本实施例中可通过网络爬虫技术获取所述待分析的产品在指定网站中的所有评论信息。

例如，针对电器数码类产品，可获取京东、淘宝、苏宁等指定网站中电器数码产品的所有评论信息。

本实施例中研究的不仅仅是品牌，而更是聚集到“品类”，比如电器数码类，美妆护肤类等产品。本实施例中每一待分析的产品均各自对应有各自的显变量信息、隐变量信息，显变量信息对应的实体表(如步骤102中确定的显变量的实体组成的实体表)。

应说明的是，不同产品的实体是不同的，为此，本实施例中通过下述步骤获取实体的量化结果进行满意度分析，更好的能够体现产品自己的特性，进而对于绩效分析以及其他优势、劣势因素等分析提供便利。

102、基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，及基于所述实体的量化结果。

本步骤中的显变量信息可为根据所述待分析的产品预先确定的，所述量化结果包括：每一条评论信息的得分向量，如表1。

表1某条评论量化到显变量上的量化结果样例

103、对所述量化结果进行标准化处理，获得标准化输出结果。

举例来说，标准化处理可包括去除离群值、缺失数值/缺失元素插补、负值正向化处理等。

104、将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型，获得用于测算满意度的信息。

举例来说，本实施例中用于测算满意度的信息包括：隐变量信息对应的得分，隐变量信息对应的优势因素、劣势因素和/或优先改进因素等。如图6所示的基于测算满意度的信息的绩效分析的示意图。

需要说明的是，本实施例中各步骤均是通过计算机程序实现的，可以是手机端的计算机程序，或者是电脑的计算机程序，本实施例不对其限定。

本实施例中通过网络以低成本方式获取高容量的产品评论信息，进而基于大数据技术对产品评论信息进行分析，获得量化结果，进而将量化结果作为待分析产品的满意度模型的输入数据，获取到用于测算满意度的信息，获取信息的处理速度更快，且结果更准确，分析更全面，同时，基于测算满意度的信息还可为当前分析产品的品牌提升提供更重要的现实意义和应用价值。

由于网络数据获取的速度快、成本低、数据量大，较传统调查方式有着无法比拟的效率方面的优势。

上述方法从用户体验方面，非常方便，且能够带来比传统技术更准确的结果，同时能够及时满足用户的需求，且能够基于用户设置的条件，获取匹配条件的结果信息。

图2A示出了本发明另一实施例提供的基于大数据技术的满意度测算方法的流程示意图，如图2A所示，本实施例的方法包括如下步骤：

201、针对待分析的产品，通过网络爬虫技术获取所述待分析的产品的所有评论信息。

具体地，通过网络爬虫技术爬取全网目标产品的顾客评论文本信息以及其他相关信息，如评论人ID、评论人在来源网站的等级、评论时间、评论来源网站、设备终端、评论人IP地址所在省份等。

202、基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，然后，依据所获取的实体进行量化，即获取基于所述实体的量化结果。

本步骤中，量化过程就是要将实体、情感词、程度词进行组合、计算，得到每条评论在各个实体上的得分。如下的表4、表3、和表2所示的内容，其中表4展示了部分最高级程度副词词典(most)的部分内容，表2展示了情感倾向方向赋分的内容，表3展示了情感倾向度赋分的内容。

本实施例中的显变量信息为根据待分析的产品预先确定的，后续的隐变量信息也是预先根据待分析的产品确定的。

本实施例中获取与所述显变量信息关联的实体，这一步最关键的是需要从评论中找出产品的属性，所谓属性，就是一个产品的主要特征，也是顾客通常会比较关注的方面，可以把它看做调查问卷中量表涉及到的信息或指标，这些属性，可理解为“实体”。

例如可通过对全部评论进行词频统计，高频率出现的属性则为大众关注的属性，再通过进一步的人工筛选，剔除或合并一些属性，得到实体表，即属性信息表，然后在评论中匹配实体。

本实施例中的“实体”是通过自然语言处理与文本量化技术从爬取的数据中根据研究经验抽取而得。即通过爬取的评论进行词频统计，词频高的实体就是顾客所关注的方面，再根据需求，经过人为的筛选得到最终的实体。

本实施例中，每个显变量下实体得分的加总(一般都可加权)就是显变量的得分，即通过实体的得分，可以得到显变量的得分。

显变量得分表是针对每一条评论信息的，有了实体表，实体的分值，情感词库和情感词分值，就可以在每一条评论中搜索匹配实体，并给出得分，而实体都属于显变量，对于每条评论，其每个显变量中实体的得分加总就是该显变量的得分，而所有显变量得分组成的向量就是该评论的得分。

本实施例中的步骤202可包括下述的子步骤，如图2B所示：

2021、针对每一个子产品，对该子产品对应的所有评论信息进行预处理，获取预处理后的所有评论信息。

例如，针对每一个子产品对应的所有评论信息，清洗掉所有评论信息中信息完全相同的评论(可能是由于刷评论者直接复制其他评论得到的)、清洗掉网站给出的默认评论；清洗掉采用非文字类表达的评论信息(如表情、符号、火星文等无用信息)，以及清洗掉在同一条评论信息中的重复信息(如“很好很好很好很好”这种凑字数的评论等)，将清洗后的评论信息作为预处理后的所有评论信息。

通常，合理的数据清洗可以保证数据的质量，为此，本实施例在量化之前均需要对爬去的所有评论信息进行清洗。

2022、针对预处理后的所有评论信息，筛选词频大于预设阈值且与该子产品的显变量信息关联的实体。

本实施例中，对于不同的产品，实体可群为普通实体和特殊实体，下述步骤中也可以通过在确定实体后量化之前对实体也进行评分，例如，对普通实体，赋0分即可，对于特殊实体，可根据具体情况以及专家议价来进行有针对性的打分。

比如对于电脑而言，“屏幕”、“速度”这样的实体就是普通实体，评论可以是“屏幕很好”或“屏幕很差”，但是对于“死机”、“蓝屏”这样的实体，可认为是特殊实体，因为这些实体本身就有代表电脑本身的质量问题，应该赋予负分。打分情况也是人为制定的。

2023、基于筛选的所述实体和预设的多个分值映射关系，采用自然语言处理技术处理每一条预处理后的评论信息；获得每一条评论信息的得分向量。

举例来说，上述多个分值映射关系可包括下述的一种或多种：情感倾向方向的分值映射关系(如表2)、情感倾向度的分值映射关系(如表3)、普通实体的分值映射关系和特殊实体的分值映射关系等。

本实施例中情感倾向分析是通过情感词和程度副词对评论进行更加精确、细致的量化，如“一般”、“好”、“非常好”就应当代表不同的积极情感。

表2情感倾向方向赋分

表3情感倾向程度赋分

表4部分最高级程度词

本实施例中情感词的打分为现有的内容，本实施例中采用专家打分的方式对实体打分。实体表、普通特殊实体的划分及打分、情感词的确定和打分都是在量化过程之前确定的。

可理解的是，上述子步骤的2023中还可包括：

该处的得分向量可为任意可确定的或预先确定获取的得分向量，通常情感词/情感倾向词所占的权重比较大，为此，可根据权重对应的赋值规则，建立分值映射关系，分值映射关系可包括上述的情感倾向方向的分值映射关系(如表2)、情感倾向度的分值映射关系(如表3)。

也就是说，一条评论信息中，情感词/情感倾向词、副词等的组合影响着该条评论信息的得分，使得分向量正向化或负向化。

本实施例中采用自然语言处理技术每一条预处理后的评论信息，自然语言处理技术为当前处于文本类语言的常用技术，可参照现有内容。

203、对所述量化结果进行标准化处理，获得标准化输出结果。

也就是说，对量化结果依次进行离群值处理，正向化处理、缺失数值插补(如缺失值插补方式插补)处理，并归一化后，得到标准化输出结果。即本实施例中的标准化输出结果无缺失数值/缺失元素，且均属于0-100内数值。

另外，本实施例的标准化输出结果符合满意度模型的输入数据格式的结果。

204、根据所述待分析的产品预先确定的显变量信息、隐变量信息和获取的所述实体，采用ACSI模型建立所述待分析的产品的满意度模型。

本实施例中，可根据待分析产品的相关信息对美国客户满意度指数模型(ACSI模型)进行调整，如显变量的选择变化，路径的增删等。图4示出了一种满意度模型的平面图。

在图4中，形象、期望质量、满意度、感知质量、忠诚度、感知价值等属于产品的隐变量，deta1、deta2、…deta5属于随机误差项，矩形框中的信息如i1-i4、c1、c2、eq1-eq3、pq1-pq3、csi1-csi3、l1-l3、pv1、pv2等属于产品的隐变量对应的可观测到的显变量，如i1-i4为隐变量“形象”的可观测的显变量，c1、c2为隐变量“抱怨度”的可观测的显变量等，e1-e20等属于产品的实体，每一个显变量对应的实体等。

现有技术中，对应图4中的矩形框中的可观测到的显变量均是通过问卷调查的形式进行主动收集数据，并利用主观加权等方法进行打分。相比较于现有技术，本实施例中利用网络爬虫技术收集海量评论数据，并基于大数据技术进行自动分析计算获得客观标准化输出结果。

为更好的理解本实施例，图5示出了针对某一类产品的隐变量、显变量和实体之间的关系示意图。

205、将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型，获得用于测算满意度的信息。

相对于传统顾客满意度分析模式的缺陷，大数据顾客满意度分析的优势得以体现。当今互联网、电商发展迅速，绝大部分产品都在电商网站上有售卖，且有为数不少的使用者评论。这些评论绝大多数都是由用户自愿、自主的发布到网站上，给出自己的看法，同时也为之后购买的用户提供建议和参考，较通过调查主动采集数据的方式，这种通过获取被动数据得到的数据更加客观，且数据量更大，获取成本更低。

网络评论数据/评论信息大多以非结构的文本数据为主，但如今文本分析技术比较成熟，故可以很好的对其进行处理。同时，传统顾客满意度分析一般只能分析到宏观层面，如使用现有技术的ACSI模型时最细分析颗粒度只能到“显变量”为止，而本实施例中结合大数据技术，会用“实体”(即产品细节)来表征显变量，因此得到的结论是更加细致的，可落实性更强的。

在一种可选的实现场景中，上述的步骤203可具体包括下述的图中未示出的子步骤：

2031、对量化结果进行归一化处理，得到归一化后的量化结果；

2032、查看归一化后的量化结果中至少一条评论信息对应的子结果是否存在数据离群值；

2033、若存在，则对存在数据离群值的子结果进行修正处理，得到修正后的量化结果。

应说明的是修正后的量化结果指的是包括所有子结果，即包括需要进行修正处理的子结果，也包括不需要进行修正处理的子结果。

2034、针对修正后的量化结果，若存在至少一条评论信息对应的子结果包括负值元素，则对该负值元素进行正向化处理，得到正向化处理后的量化结果。

该步骤中的正向化处理后的量化结果也是包括所有子结果，即包括进行正向化处理的子结果，也包括无需进行正向化处理得到子结果。

2035、针对正向化处理后的量化结果，若存在至少一条评论信息对应的子结果响应于所有实体存在缺失，则对缺失部分进行插补，得到标准化输出结果。

在另一种可选的实现场景中，上述的步骤203可具体包括下述的图中未示出的子步骤：

2031a、查看量化结果中至少一条评论信息对应的子结果是否存在数据离群值；

2032a、若存在，则对存在数据离群值的子结果进行修正处理，得到修正后的结果。

该步骤中的修正后的结果也是包括修正处理后的子结果和无需修正处理的子结果。

2033a、针对修正后的结果，若存在至少一条评论信息对应的子结果包括负值元素，则对该负值元素进行正向化处理，得到正向化处理后的结果。

2034a、针对正向化处理后的结果，若存在至少一条评论信息对应的子结果响应于所有实体存在缺失，则对缺失部分进行插补(例如，采用缺失值插补方式进行插补)，得到插补后的结果。

2035a、对插补后的结果进行归一化处理，得到标准化输出结果。

在第三种可选的实现场景中，如图3所示，上述的步骤203可具体包括下述的子步骤：

2031b、对量化结果进行缺失数值的表示形式进行统一、去除数据离群值，以及负值正向化处理，得到量化结果A。

在部分表格中缺失数值采用“NA”，或者部分表格中缺失数值采用“N”，为后续能够合理的缺失数值插补，将所有缺失数值的表示形式可统一为“NA”。

2032b、根据量化结果中每一评论信息所属的网站、产品分类号和/或产品编号对量化结果A中的子结果求均值，根据均值结果，生成结果B。

2033b、判断结果B中的子结果是否存在缺失值，若存在，则采用缺失值插补方式插补结果B，得到结果B’。

由于实体是很丰富、充足的，但是一条评论是不可能覆盖全部实体的，甚至连一半都不会覆盖，因此每一条得分记录基本上会存在缺失数值，故需要进行缺失数值的插补。

举例来说，采用缺失值插补方式插补结果B，可具体为采用K近邻法插补方式插补结果B，例如，从结果B中选择无缺失元素的子结果，生成结果C0；采用结果C0插补存在缺失元素的结果B，得到结果B’。

2034b、对结果B’添加行标签，生成结果D；

2035b、对结果D归一化处理，获得标准化输出结果。

也就是说，上述各显变量得分的数值一般会是比较小的浮点数(一般在10以内)，为了让得分统一范围，且与满意度的百分制统一标准，应当对这个得分表的数据进行尺度变换，将得分映射到0-100分，可以通过公式1实现，得到最终的得分表即标准化输出结果。

在图3所示中，结果A、结果B、结果B’、结果D可为表格形式的结果。

具体地，图3中表A0是从原始评论数据根据实体进行匹配，将评论映射到各个实体上，并得到评论在每个实体上的得分。表A1与表A0本质相同，只是将缺失值的表示方式进行统一，方便处理，表A2是在表A1的基础上对极大值或者超过某一个阈值的得分进行处理(当作缺失值)，这个步骤是在减小长评论导致的得分极值，然后对顾客抱怨得分进行正向化(乘以-1)；每个品牌都有三个维度：1、来源于哪个网站；2、有哪些经典系列(如：某品牌主营手机系列、电脑产品、电脑配件，则其有3个系列)；3、每个经典系列中选择了哪些产品(即之前数据爬取时选定的产品)(这个是在爬取数据之前就确定的，要确定爬哪个类别的商品，从哪些网站爬，爬他的哪些系列，比如电器数码类，分为国内和国外品牌，从网站1、网站2、网站n等获取评论，比如第一个要爬的品牌是国内电器数码的苹果，那么需要确定爬苹果的哪些系列的产品，如手机、笔记本电脑、音乐播放器，然后按照这三个维度进行目标商品的选择)，之所以进行这样的分类，是因为同一网站的同一系列中的同一个产品，大多数顾客的评价是相近的，这样分类后可以使用距离相近的数据对缺失数据/数值进行插补，更加合理。按照这三个维度将评论分类(其实这里是对评论的得分记录进行分类)再求均值得到了表B；若B不存在缺失值，则添加各行标签(即前文中的三个维度)生成表D，将表D的数值标准化到0-100生成表E。

表A部分结构举例

from

type

obs

i1

eq1

eq2

pq1

pq2

pq3

pv1

csi1

complaint

l1

网站1

1

None

0

None

网站1

1

None

0

4

None

0

None

网站2

1

None

0

None

网站3

1

None

网站1

1

4

None

6

None

4

None

7

-2

None

网站3

1

4

None

0

None

0

29

None

-2

None

表B部分结构包含的内容

from

type

obs

i1

eq1

eq2

pq1

pq2

pq3

pv1

csi1

complaint

l1

网站1

1

None

0

None

网站2

1

2

1

None

1

None

2

None

上述表A、B包含品牌中每条评论来源的网站from，所述系列type，产品型号obs以及各个显变量的分值。表B是表A按列求均值得到的，这里没有展示完整的表各，只展示了一小部分。

图3中求均值获得表B的过程可以理解为求每一个产品(或者说来源于每个网站的每个型号的产品的得分向量)，正常来说，一个产品有成千上万的评论，满意度模型没有这么大的数据承载力，且这些数据是一个稀疏数据，按照类别求均值可以在一定程度上解决稀疏问题，也可以将数据量减小，将数据量的量级聚合在结构方程模型可以承受的范围内。举个例子，拿苹果手机iPhone7来说，这个求均值的过程就是分别求得网站1、网站2、网站3……网站n等n个网站中iPhone7手机的评论得分的均值，比如n个网站在指定时间范围内iPhone7产品中各有10000条评论，那么经过实体匹配和量化，会得到n个网站中各10000个得分向量，然后分别对这些向量求均值，得到n个得分向量，以此类推，继续对其他产品重复该过程。

另外，若表B中存在缺失数值，先删除缺失变量达到5个的行(因为这些行缺失5个及以上的显变量，说明该评论太短，或几乎不涉及到实体表中的实体，对分析属于基本无效的数据，故进行剔除)，根据每条记录所述的经典系列和产品型号求出均值，生成表C0，若表C0不存在缺失值，直接使用表C0对表B进行插补(使用表C0在各个显变量下的得分替换表B中每条得分记录对应显变量下的NA)；若表C0存在缺失，使用k近邻法插补表C0得到表C1，则表C1必然是无缺失的数据，再用表C1插补表B，得到无缺失的表B，然后如前所述，最终生成表E。

对于缺失变量大于等于预设值如5的评论，予以删除该评论行，小于5个的按照图3的流程进行插补；

插补过程如下：首先根据品牌的经典系列和型号两个维度可以得到每个产品的得分向量(在各个显变量下的得分，组成一个向量)，不同经典系列和型号这两个维度相当于一个索引，每个索引对应于一个产品，每个索引也对应了一条得分向量，所有的得分向量汇总成的表C0，如果表C0无缺失数值，那么对于表B中含有缺失值的得分向量，在其缺失位置，使用表C0中对应的向量中对应的显变量得分进行插补，若表C0有缺失数值，则先用k近邻法对表C0插补，然后再用表C0对表B进行插补。

上述的插补方式主要是保证数据更准确，使得最后获得的测算满意度的信息更合理。

上述表C0结构与表A、表B相同，只是表C0是根据经典系列、产品型号两个维度进行求均值的，如果表C0有缺失，再对表C0使用k近邻法插补，得到表C1，表C0或表C1应当是没有缺失值的，每一个得分向量前带着其索引，即所属经典系列、产品型号，然后对于表B中有缺失的数据，查看其所属经典系列、产品型号，在表C0或表C1中查找属经典系列、产品型号相同的得分向量，用找到的得分向量中对应的显变量得分去插补表B中目标向量缺失的显变量得分。

当得到标准化后的表E时，即有了各个产品在各个显变量下的得分表(每一行即是某网站中的某个品牌的某经典系列下的某个具体产品，换言之，有多少个目标产品，表E就应当有多少行得分记录)，其实这个表就相当于调查问卷中的量表。将该表E作为满意度模型的输入数据。

上述三种获取标准化输出结果的场景中，由于实体是很丰富、充足的，但是一条评论是不可能覆盖全部实体的，甚至连一半都不会覆盖，因此每一条得分记录基本上会存在缺失数值，故需要进行插补。

在插补之前应当对数据离群值进行处理，一条长篇大论的评论可能会覆盖很多实体，甚至覆盖显变量对应的全部实体，那么这条评论在各个实体上的打分可能会有离群现象，应当事先设定阈值，超出阈值的分数作为缺失值处理，或是设置最大值，将超出阈值的得分修正为最大值(离群值对量化结果的影响比较大，因此一定要进行处理)。另外，满意度模型中“顾客抱怨”这一显变量的得分一般是负值，应当先进行正向化处理。

经过这一系列处理后，再开始进行缺失数据的处理。比如说100万条评论，这些评论的长度(即包含的字符数量)中位数或平均数为20，而有几条评论是长评论，长达一百多字甚至二百多字，一个正常的20字的评论中可能包含了100个实体中的2个或3个，而这些长评论可能会包含十几个二十几个实体，那么这些长评论以很大的可能性会得到远远高于短评论的分数。这是如果不进行处理，就会出现长评论得分远高于短评论的情况，影响分析。缺失数据一定不能直接删除，因为几乎不肯能有一条评论可以覆盖全部的实体，所以全部的评论几乎都存在缺失，如果贸然删除缺失数据，那么绝大部分数据都用不上了，是极大的浪费。

本实施例的数据来源于全网，可以先按照网站来源、产品系列和产品型号对研究对象的评论进行分类，得到每个类别的平均分(平均分矩阵即图3中的表B)。如果每个类别的平均得分表中仍存在缺失，就是用k近邻方法进行插补，然后依据该表对先前进行过离群值、负值处理的数据进行插补，得到不含缺失值的得分表。

也就是说，同一个类别的商品评论，不管它的来源网站是哪个，所述系列是哪个，型号是什么，只要这些评论都是一个类别(如电器数码)，那他们所对应的显变量，实体就都是同一套。

针对上述的步骤204可详细说明如下：

现有技术中都是直接使用结构方程模型如CSI模型或者ACSI模型。现有技术的结构方程模型主要考虑变量之间的关系，这种关系可以是隐变量之间的关系，也可是隐变量与显变量之间的关系，关系的形式既可以是因果关系，也可以是相关关系(如果是相关关系的话还可以是正相关关系或负相关关系)。上述关系可以通过线性结构关系(LISREL)、偏最小二乘法(PLS)等方法估计出来。结构方程模型的路径系数就是上面提到的通过模型估计出来的变量之间的关系，是考察变量间关系大小和方向的元素。可以根据路径系数确定变量的影响力。

而本实施例中对结构方程模型进行修正，将实体映射到结构方程模型的显变量上。

本实施例预先明确实体、显变量、隐变量的关系，即将各个实体按照其所反映的特征或属性归入对应显变量中(参见图5)。也就是说，将实体划分到其应当属于的显变量中，比如反映产品质量的实体应当划入“感知质量”，反映商品价值、价格的实体划入“感知价值”等。

其次，根据预先明确的关系，修正结构方程模型，获得满意度模型。

本实施例中满意度模型通常可以根据实际分析需求进行有针对性的调整，包括企业形象(Image)、感知价值(Perceived Value)、期望质量(Expect Quality)、感知质量(Perceived Quality)、顾客满意度(Costumer's Satisfaction Index)、顾客抱怨(Complaint)和顾客忠诚(Loyalty)等诸多方面的隐变量。

根据显变量得分表可以估计出满意度模型结果，然后就可以计算隐变量的得分(是的，通过对比不同品牌在各个隐变量上的得分可以比较出不同品牌在不同方面的优势劣势，并提出建设性意见)。

满意度的改进绩效是受其影响因素的测评表现值及其对满意度的总体影响(直接影响和间接影响的总和)共同决定的。主要寻找对满意度总体影响力较大但其测评表现值较低的因素进行改进；而对满意度的总体影响力也较大，测评表现值较高的因素和指标可以作为参照。

如图6所示。一般情况下，感知质量会成为优先改进因素，以电器数码产品和美妆护肤产品，感知质量落入了优先改进因素区域，而两者感知质量中的一部分实体如图6所示，从图6也可以看出，大数据方法下的满意度分析可以落实到实体，对于满意度提升实施路径的可落地性更强。

满意度绩效分析的基本目的是找出提升满意度的路径，传统方法其分析颗粒度只能到显变量一级，如通过绩效分析，可以知道需要提升“感知质量”隐变量中的“产品或服务质量”，但就是不知道提升产品或服务质量的那个或哪些具体方面。而本实施例通过实体与显变量和隐变量的映射关系，就可以找出满意度提升的具体方面，从而提升了传统满意度绩效分析的颗粒度，更具有可操作性。

上述基于大数据技术的满意度测算方法，基于网络中的评论信息，可以以很低的成本获取容量很高的数据，通过大规模的数据分析，为产品或服务及其对应的品牌提升带来更重要的现实意义和应用价值。

传统满意度模型是用显变量与隐变量的关系来进行分析，而大数据满意度模型将显变量更具体到了“实体”上，比传统满意度模型更加具体，比如隐变量感知质量用三个显变量pq1，pq2，pq3进行表征，而pq1、pq2、pq3用实体(如物流速度、售后以及具体的质量指标)表征，评论信息量化成数值得分信息也是通过实体实现，是对传统满意度模型的重大改进。

也就是说，电商网站有很多产品在售，每个产品也有不少的评论信息，通过获取这些评论信息，加以自然语言处理技术、统计方法与模型的配合，可以得到有效的模型与结论。

图7示出了本发明一个实施例提供的满意度测算装置的结构示意图。如图7所示，本实施例的满意度测算装置可为终端，如移动终端或电子产品的固定终端，该满意度测算装置可包括：处理器71和存储有计算机程序指令的存储器72；

其中，处理器71加载并执行所述计算机程序指令时实现如图1至图3所述的方法，例如，针对待分析的产品，获取所述待分析的产品在指定网站中的所有评论信息；基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，及基于所述实体的量化结果；所述显变量信息为根据所述待分析的产品预先确定的，所述量化结果包括：每一条评论信息的得分向量；对所述量化结果进行标准化处理，获得标准化输出结果；将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型，获取用于测算满意度的信息。

具体地，上述处理器71可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器72可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器72可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器72可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器72可在综合网关容灾设备的内部或外部。在特定实施例中，存储器72是非易失性固态存储器。在特定实施例中，存储器72包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器71通过读取并执行存储器72中存储的计算机程序指令，以实现上述实施例中的任意一种应用NFV技术承载终端综合管理业务的方法。

在一个示例中，满意度测算装置还可包括通信接口73和总线74。其中，如图7所示，处理器71、存储器72、通信接口73通过总线74连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

在本发明所提供的几个实施例中，应该理解到，所揭露的相关装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于大数据技术的满意度测算方法，其特征在于，包括：

对所述量化结果进行标准化处理，获得标准化输出结果；

2.根据权利要求1所述的方法，其特征在于，基于预先确定的显变量信息，对所述所有评论信息进行处理，获取与所述显变量信息关联的实体，及基于所述实体的量化结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述量化结果进行标准化处理，获得标准化输出结果，包括：

对量化结果进行归一化处理，得到归一化后的量化结果；

或者，

对插补后的结果进行归一化处理，得到标准化输出结果。

4.根据权利要求1或2所述的方法，其特征在于，对所述量化结果进行标准化处理，获得标准化输出结果，包括：

对结果B’添加行标签，生成结果D；

对结果D进行归一化处理，获得标准化输出结果。

5.根据权利要求4所述的方法，其特征在于，所述采用缺失值插补方式插补结果B，包括：

采用K近邻法插补方式插补结果B；

或者，

所述采用缺失值插补方式插补结果B，包括：

采用结果C0插补存在缺失元素的结果B，得到结果B’。

6.根据权利要求1或2所述的方法，其特征在于，获取所述待分析的产品在指定网站中的所有评论信息，包括：

7.根据权利要求2所述的方法，其特征在于，所述针对每一个子产品，对该子产品对应的所有评论信息进行预处理，获取预处理后的所有评论信息，包括：

8.根据权利要求1所述的方法，其特征在于，将所述标准化输出结果输入预先建立的对应所述待分析产品的满意度模型的步骤之前，包括：

9.根据权利要求8所述的方法，其特征在于，

用于测算满意度的信息包括：所述隐变量信息对应的得分，所述隐变量信息对应的优势因素、劣势因素和/或优先改进因素。

10.根据权利要求2所述的方法，其特征在于，基于筛选的所述实体和预设的多个分值映射关系，采用自然语言处理技术处理每一条预处理后的评论信息；获得每一条评论信息的得分向量，包括：

11.一种基于大数据技术的满意度测算装置，其特征在于，包括：

所述处理器执行所述指令，包括：

对所述量化结果进行标准化处理，获得标准化输出结果；