CN113032554A

CN113032554A - 一种决策系统和计算机可读存储介质

Info

Publication number: CN113032554A
Application number: CN201911347054.4A
Authority: CN
Inventors: 曹源
Original assignee: TCL Research America Inc
Current assignee: TCL Corp; TCL Research America Inc
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-06-25

Abstract

本申请适用于数据分析技术领域，提供了一种决策系统和计算机可读存储介质。包括：采集模块、情感分析模块和观点挖掘模块，采集模块，用于采集目标产品的评论集；情感分析模块，用于对评论集中的每个评论进行情感分析，输出正面情绪的评论子集和负面情绪的评论子集；观点挖掘模块，用于对每个评论子集分别进行观点挖掘，输出第一决策参考信息，第一决策参考信息包括每个评论子集的至少两个主题信息，至少两个主题信息用于指示目标产品的正面评论点或者负面评论点。

Description

一种决策系统和计算机可读存储介质

技术领域

本申请属于数据分析技术领域，尤其涉及一种决策系统和计算机可读存储介质。

背景技术

近年来家电市场竞争日趋激烈，家用电器产品逐步趋向网络化、智能化方向发展，更新换代速度越来越快，因此持续改善产品设计和质量是提高竞争力的重要手段。而用户评论是产品决策方获得市场反馈的重要参考依据。

目前，决策团队通常需要人为的分析用户评论，依赖于专家的经验提取产品的优点、缺点、需求点以及用户对产品的使用感受等，并基于统计模型进行数据分析，获得决策参考信息，进而基于决策参考信息制定产品设计策略、市场营销策略等。因此，目前的决策方式普遍具有人工耗费大、决策效率低的问题。

发明内容

本申请实施例提供了一种决策系统和计算机可读存储介质，可以解决决策过程中人工耗费大和决策效率低的问题。

第一方面，本申请实施例提供了一种决策系统，一种决策系统，包括采集模块、情感分析模块和观点挖掘模块，采集模块，用于采集目标产品的评论集；情感分析模块，用于对采集模块采集的评论集中的每个评论进行情感分析，输出正面情绪的评论子集和负面情绪的评论子集；观点挖掘模块，用于对情感分析模块输出的每个评论子集分别进行观点挖掘，输出第一决策参考信息，第一决策参考信息包括每个评论子集的至少两个主题信息，至少两个主题信息用于指示目标产品的正面评论点或者负面评论点。

本申请提供的决策系统能够自动采集目标产品的评论集，并自动分析和挖掘出评论集中涉及到的正面评论点和负面评论点，而无需依赖于目标产品所属领域内专家的经验，进行人工分析，从而决策过程中的人工耗费，提高了决策效率。且对于决策方来说，能够通过决策系统获得具备及时性的决策参考信息，迅速掌握目标产品。

可选的，若评论集中待进行情感分析的评论为文本评论，情感分析模块对文本评论进行情感分析，包括：对文本评论进行前序处理，得到文本评论的多个分词；将多个分词进行词嵌入处理，得到第一词向量序列；将第一词向量序列输入已训练的对抗模型进行对抗处理，得到第二词向量序列；将第二词向量序列输入已训练的双向长短期记忆Bi-LSTM模型进行文本分类处理，得到第三词向量序列；计算第三词向量序列中的每个词向量的第一权重系数；根据第一权重系数对第三词向量序列中的词向量进行加权计算，得到第三词向量序列的特征向量；对特征向量进行分类处理，得到文本评论的综合评分；若综合评分小于第一阈值，则将文本评论划分到负面情绪的评论子集；或者，若综合评分大于第二阈值，则将文本评论划分到正面情绪的评论子集，第一阈值小于或者等于第二阈值。

可选的，若评论集中待进行情感分析的评论为语音评论，情感分析模块对语音评论进行情感分析，包括：根据语音评论的音量和语速，确定语音评论的语音评分；将语音评论转换为文本评论；对文本评论进行前序处理，得到文本评论的多个分词；将多个分词进行词嵌入处理，得到第一词向量序列；将第一词向量序列输入已训练的对抗模型进行对抗处理，得到第二词向量序列；将第二词向量序列输入已训练的Bi-LSTM模型进行文本分类处理，得到第三词向量序列；计算第三词向量序列中的每个词向量的第一权重系数；根据第一权重系数对第三词向量序列中的词向量进行加权计算，得到第三词向量序列的特征向量；对特征向量进行分类处理，得到文本评论的文本评分；根据预设的第二权重系数对文本评分和语音评分进行加权计算，得到综合评分；若综合评分小于第一阈值，则将文本评论划分到负面情绪的评论子集；或者，若综合评分大于第二阈值，则将文本评论划分到正面情绪的评论子集，第一阈值小于或者等于第二阈值。

可选的，情感分析模块，还用于根据每个评论的综合评分，生成并输出第二决策参考信息，第二决策参考信息用于指示评论集的负面情绪程度、正面情绪程度、好评率和/或差评率。

可选的，观点挖掘模块对评论子集进行观点挖掘，包括：计算评论子集中每个文本评论中的每个特征词的概率分布；根据每个文本评论所包含的特征词的数量和预设的第三阈值，将评论子集中的文本评论划分为短文本和长文本；基于每个特征词的概率分布，利用第一采样算法对对短文本进行采样，以及利用第二采样算法对长文本进行采样，获取评论子集的至少两个主题，第一采样算法的收敛速度与第二采样算法的收敛速率不同；对至少两个主题进行去重处理；对去重处理后的至少两个主题中的每个主题所包括的特征词进行压缩处理，得到每个主题的主题信息，主题信息包括所属主题中压缩后的多个高频词。

可选的，第一采样算法为吉布斯采样算法，第二采样算法为梅特罗波利斯－黑斯廷斯采样算法。

可选的，采集模块，还用于采集目标产品的销售数据，销售数据包括销售价格和销售量；决策系统还包括量价分析模块，量价分析模块，用于根据销售数据生成并输出第三决策参考信息，第三决策参考信息用于指示目标产品的量价趋势。

可选的，目标产品为智能家电产品，采集模块，还用于采集目标产品的运行数据，运行数据包括目标产品的开机状态数据、关机状态数据和/或故障警告数据；决策系统还包括运行监测模块，运行监测模块，用于根据运行数据生成并输出第四决策参考信息，第四决策参考信息用于指示目标产品的运行状态。

可选的，决策系统还包括通信模块，通信模块，用于接收终端设备发送的请求信息，并向终端设备发送与请求信息对应的决策参考信息。

第二方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述决策系统的功能。

第三方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备实现上述第一方面中任一项所述的决策系统的功能。

可以理解的是，上述第二方面至第三方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的决策系统的应用场景示意图；

图2是本申请一实施例提供的云端服务器的结构示意图；

图3是本申请一实施例提供的决策系统的结构示意图一；

图4是本申请一实施例提供的增强型情感分析(Advanced Sentiment Analysis，A-SentiAnaly)算法模型的算法结构示意图；

图5是本申请一实施例提供的增强型观点挖掘(Advanced View Point Mining，A-VPM)算法模型的算法结构的示意图；

图6是本申请一实施例提供的决策系统的结构示意图二；

图7是本申请一实施例提供的量价分析的流程示意图；

图8是本申请一实施例提供的运行监测的流程示意图；

图9是本申请一实施例提供的决策系统的结构示意图三。

具体实施方式

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。例如，“A和或B”是指单独存在“A”、单独存在“B”或者存在“A和B”这三种情况。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请提供决策系统是一种针对产品市场(例如，家电产品市场)调研的自动化分析系统，也可以称为市场雷达系统。针对目标产品，能够实时采集大量的用户评论，并对用户评论中涉及到的评论点(目标产品的优点、缺点、需求点等)进行分析和挖掘，自动生成决策参考信息，为决策团队提供数据支持，从而降低了人工耗费，优化了决策过程，提高了决策效率。

参见图1，本申请提供的决策系统部署在云端，决策方可以利用任意类型的终端设备均访问该决策系统，以获取该决策系统输出的决策参考信息。例如，该决策系统可以是云端服务器或者云端服务器集群。也可以是集成在云端服务器或者云端服务器集群上的功能模块或者芯片，以使得云端服务器或者云端服务器集群能够实现该决策系统的功能。

参见图2，为本申请提供的一种云端服务器20的结构示意图。云端服务器20包括至少一个处理器201、至少一个存储器202、至少一个通信接口203以及总线204。处理器201通过总线204与存储器202和通信接口203连接。图2中仅示出一个处理器201、存储器202和通信接口203。

本申请实施例中的处理器201，可以包括如下至少一种类型：中央处理单元(Central Processing Unit，CPU)，该处理器201还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例中的存储器202，在一些实施例中可以是云端服务器20的内部存储单元，例如云端服务器20的硬盘或内存。存储器202在另一些实施例中也可以是云端服务器20的外部存储设备，例如云端服务器20上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器202还可以既包括云端服务器20的内部存储单元也包括外部存储设备。

存储器202用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等能够实现决策系统的功能的计算机程序，并由处理器201来控制执行。被执行的各类计算机程序代码也可被视为是处理器201的驱动程序。例如，处理器201用于执行存储器202中存储的计算机程序代码，从而使得云端服务器20实现本申请提供的决策系统的功能。存储器202还可以用于暂时地存储已经输出或者将要输出的数据，例如决策参考信息。

通信接口203用于云端服务器20与其它通信设备(例如，移动终端、购物平台的服务器、目标产品所属企业的网络留言平台的服务器、目标产品的售后服务平台的服务器、智能家电等)建立通信连接，并在处理器201的控制下，与其他通信设备进行信息交互。例如，云端服务器20通过通信接口203与移动终端交互决策参考信息，云端服务器20通过通信接口203从购物平台网络留言平台的服务器、售后服务平台的服务器、购物平台的服务器等获取目标产品的用户评论、销售数据等。在本申请实施例中，所述通信连接可包括各类接口、传输线或总线等，本实施例对此不做限定。

下面通过具体实施例，对本申请提供的决策系统进行示例性的说明。

示例性的，如图3所示，为本申请提供的一种决策系统30的一个实施例的结构示意图。该决策系统30包括采集模块301、情感分析模块302和观点挖掘模块303。

采集模块301，用于采集目标产品的评论集。

其中，评论集中的评论可以来自网络购物平台，也可以来自目标产品所属企业的网络留言平台，还可以来自该目标产品的售后服务平台。采集302可以周期性地从网络销售平台、网络留言平台和/或售后服务平台采集周期内各个平台所收集到的评论。或者，可以建立数据反馈机制，由网络销售平台、网络留言平台和/或售后服务平台周期性地向采集模块301反馈周期内收集到的评论。

例如，采集模块301中包括爬虫工具，采集模块301可以通过爬虫工具从网络销售平台、网络留言平台爬取目标产品的用户评论。采集到的评论集中的评论可以是文本评论，也可以是语音评论(例如，售后服务平台所采集到电话录音，或者现场咨询/反馈录音等)。

采集模块301采集到目标产品的评论集后，将评论集输入到情感分析模块302。

情感分析模块302，用于对评论集中的每个评论进行情感分析，输出正面情绪的评论子集和负面情绪的评论子集。

情感分析模块302包括能够对评论集进行情感分析的算法模型，例如基于深度神经网络训练得到的情感分析(Sentiment Analysis，SA)算法模型。情感分析模块302在采集到评论集后，即可利用情感分析算法模型对该评论集进行情感分析，确定评论集中每个评论的用户情感倾向，例如，倾向于正面情绪还是倾向于负面情绪，或者是相对中立的情绪。然后将倾向于正面情绪的评论的文本内容划分到正面情绪的评论子集，将倾向于负面情绪的评论的文本内容划分到负面情绪的评论子集，并输出正面情绪的评论子集和负面情绪的评论子集至观点挖掘模块303。

需要说明的是，若评论集中的评论为语音评论，则情感分析模块302可以将该语音评论转化为文本评论，然后将得到的文本评论划分到相应情绪倾向的评论子集中，以便于观点挖掘模块303进行观点挖掘。

观点挖掘模块303，用于对每个评论子集分别进行观点挖掘，输出第一决策参考信息。

在本申请中，观点挖掘模块303包括能够对文本进行主题挖掘的算法模型，例如，基于深度神经网络模型训练得到的观点挖掘(View Point Mining，VPM)算法。观点挖掘模块303利用VPM算法对情感分析模块302输出的每个评论子集进行观点挖掘。首先确定评论子集中潜在的主题个数，以及每个主题上特征词的概率分布，然后将潜在的主题聚合成至少两个主题，并确定每个主题的主题信息，包括每个主题下的多个高频词(即在该主题中出现的概率最高的多个特征词)。

观点挖掘模块303将确定的每个评论子集的至少两个主题信息作为第一决策参考信息输出。每个主题信息用于指示目标产品的正面评论点(即目标产品的优点)或者负面评论点(即目标产品的缺点)。可以理解的时，观点挖掘模块303从正面情绪的评论子集挖掘出的主题信息，用于指示目标产品的正面评论点，从负面情绪的评论子集挖掘出的主题信息，用于指示目标产品的负面评论点。

示例性的，假设观点挖掘模块303利用VPM算法对正面情绪的评论子集进行观点挖掘后，得到3个正面情绪的主题信息，分别为如下表1所示主题1、主题2和主题3的主题信息。

表1

主题1	主题2	主题3
			很好	不错	安装
送货	的	了
			快	东西	师傅
就是	还不错	自己
			好	平台	企业
加热	企业	的
			速度	价格	元
很快	感觉	没有
			服务	很不错	售后
非常	值得	上门

根据表1可以看出，主题1的主题信息指示的目标产品的优点为加热速度快；主题2的主题信息指示的目标产品的优点为价格合适，值得购买；主题3的主题信息指示的目标产品的优点为售后人员上门安装。

观点挖掘模块303利用VPM算法对负面情绪的评论子集进行观点挖掘后，得到3个负面情绪的主题信息，分别为如下表2所示主题4、主题5和主题6的主题信息。

表2

主题4	主题5	主题6
			安装	就是	了
师傅	不错	的
			企业	加热	东西
元	不知道	没有
			送货	不过	平台
售后	有点	自己
			服务	还可以	还是
不好	使用	但是
			上门	速度	这个
好	吧	可以

根据表2可以看出，主题4的主题信息指示的目标产品的缺点为安装收费高，售后服务不好；主题5的主题信息指示的目标产品的缺点为加热速度不错，但是可能热度不满足需求；主题6的主题信息指示的目标产品的缺点为从购物平台购买，需要用户自己安装。

可以理解的是，决策系统30输出的如表1和表2所示的第一决策参考信息，能够辅助决策方获知的决策建议为：(1)在保持目标产品加热速度快、价格实惠的优点的基础上，对目标产品的加热档位进行改进，从整体上提升质量；2)提升安装人员及客服人员的整体素质，提高服务质量，减少安装过程中的乱收费等问题。

可以看出，本申请提供的决策系统30能够自动采集目标产品的评论集，并自动分析和挖掘出评论集中涉及到的正面评论点和负面评论点，而无需依赖于目标产品所属领域内专家的经验，进行人工分析，从而决策过程中的人工耗费，提高了决策效率。

且对于决策方来说，能够通过决策系统30获得具备及时性的决策参考信息，迅速掌握目标产品的市场反馈，进而迅速对市场反馈进行响应，提高目标产品的市场竞争力。

下面针对上述情感分析模块302执行情感分析的过程，以及观点挖掘模块303执行观点挖掘的过程进行示例性的说明。

对于情感分析模块302，可以采用传统情感分析算法模型执行情感分析操作，例如LSTM算法模型、GRU算法模型等。也可以采用其他能够实现情感分析操作的算法模型。例如，本申请提供的增强型情感分析(Advanced Sentiment Analysis，A-SentiAnaly)算法模型。

示例性的，如图4所示，为本申请提供的增强型情感分析(Advanced SentimentAnalysis，A-SentiAnaly)算法模型的算法结构，包括语音识别模块、前序处理模块、词向量生成模块、情感分类模块、分类输出模块。

语音识别模块用于将采集模块301输入的语音评论转换为文本评论，并对语音评论的音量和语速计算该语音评论的语音评分。在本申请中，语音识别模块包括基于深度神经网络训练得到的ASR-C算法模型。语音识别模块在接收到语音评论后，将语音评论输入ASR-C算法模型中进行计算，可以得到该语音评论所对应的文本评论以及语音评分。

示例性的，ASR-C算法模型中基于音量和语速计算语音评分的算法可以如下表3所示：

表3

语音识别模块将文本评论输出至前序处理模块，将语音评分输出至分类输出模块。

前序处理模块用于对输入的文本评论(可以是来自采集模块301输出的文本评论或者语音识别模块输出的文本评论)进行前序处理，包括停用词过滤、文本去重、机械语料压缩去词、短句删除、分词等处理操作，得到文本评论的多个分词。例如，该文本评论是中文评论，那么得到的分词即为中文分词。

词向量生成模块可以包括已训练的词嵌入模型(例如，Word2Vec模型)和对抗(dversarial)模型。词向量生成模块可以先利用词嵌入模型将输入的每个分词转化为词向量，得到第一词向量序列。然后将第一词向量序列输入对抗模型中进行对抗处理，得到第二词向量序列。

其中，对抗模型是在词嵌入模型的输出结果(假设为词向量序列1)上添加对抗样本(假设为词向量序列2)训练而成。例如，在对抗模型的训练过程中，针对用于训练的文本评论，对抗模型利用该文本评论中每个分词的频率计算每个分词的权重，然后基于该权重将文本评论的分词转换为词向量序列2。该文本评论经过词嵌入模型处理后得到的词向量序列1。对抗模型分别计算词向量序列1和词向量序列2的二元交叉熵损失(loss)值，然后将两个损失值相加后得到综合损失值。当该综合损失值达到最优时，对抗模型训练完成。

当采用已训练的对抗模型对词嵌入模型的输出的第一词向量序列进行对抗处理后，能够将第一词向量序列正则化(得到第二词向量序列)，消除词嵌入模型出现过拟合现象时造成的影响。

词向量生成模块得到第二词向量序列后，将第二词向量序列输入情感分类模块。

情感分类模块包括Bi-LSTM模型和注意力层。其中，Bi-LSTM模型用于对第二词向量序列进行文本分类处理，提取第二词向量序列中的向前信息和向后信息，并将向前信息和向后信息进行相结合，得到第三词向量序列。

注意力层可以采用注意力机制，计算第第三词向量序列中的每个词向的量第一权重系数；然后根据第一权重系数对第三词向量序列中的词向量进行加权计算，得到第三词向量序列的特征向量。

分类输出模块用于计算每个评论(语音评论或者文本评论)的综合评分，并基于综合评分将评论的文本评论划分到对应情绪分类的评论子集中。

其中，分类输出模块包括分类算法模型，例如softmax算法模型。分类输出模块将情感分类模块输出的特征向量输入softmax算法模型进行计算，即可得到文本评论的文本评分。

若分类输出模块未接收到与该文本评论对应的语音评分，则直接确定该文本评分为该文本评论的综合评分。若分类输出模块接收到与该文本评论对应的语音评分，则可以根据预设的第二权重系数对文本评分和语音评分进行加权计算，得到综合评分。例如，第二权重系数包括文本评分的权重系数为0.7，和语音评分的权重系数为0.3。即分类输出模块可以将0.7的文本评分和0.3的语音评分相加，得到语音评论的综合评分。

分类输出模块中设置有第一阈值和第二阈值，第一阈值小于或者等于第二阈值。例如，第一阈值为0.4，第二阈值为0.6。或者，第一阈值和第二阈值相等，即第一阈值和第二阈值为一个阈值，为0.5。

若综合评分小于第一阈值，分类输出模块则可以将评论的文本评论划分到负面情绪的评论子集；或者，若综合评分大于第二阈值，分类输出模块则可以评论的文本评论划分到正面情绪的评论子集。所述第一阈值小于或者等于所述第二阈值。若综合评分大于或者等于第一阈值，且小于或者等于第二阈值，则可以将评论的文本评论划分到中立情绪的评论子集，或者直接丢弃该评论。

值得说明的是，相对于采用传统情感分析算法模型，采用本申请提供的A-SentiAnaly算法模型，能够提高评论中情感倾向的分析准确度。

可选的，分类输出模块还可以包括统计算法模型，分类输出模块在计算出评论集中每个评论的综合评分后，利用统计算法模型对得到的每个评论的综合评分进行统计分析，生成第二决策参考信息。其中，第二决策参考信息可以包括各类统计分析示意图或者分析数据，用于指示评论集的负面情绪程度、正面情绪程度、好评率和/或差评率等。

示例性的，分类输出模块利用统计算法模型，根据每个评论的综合评分计算好评率(也就是正面情绪的评论子集中的评论个数占评论集中评论个数的比例)，和/或差评率(负面情绪的评论子集中的评论个数占评论集中评论个数的比例)，得到好评率和/或差评率的示意图(例如，圆饼图)。根据正面情绪的评论子集中的评论的综合评分，生成正面情绪的评分示意图(例如，折线图、柱状图等)。根据负面情绪的评论子集中的评论的综合评分，生成负面情绪的评分示意图(例如，折线图、柱状图等)。

分类输出模块输出的第二决策参考信息可以用于辅助决策方获知用户对目标产品的情感倾向。

示例性的，以传统情感分析算法中的LSTM算法模型和GRU算法模型为例。可以基于相同的训练集和测试集对LSTM算法模型、GRU算法模型和A-SentiAnaly算法模型训练。其中，训练集和测试集由人工标记分类的正面情绪子集和负面情绪子集构成。例如，采集到评论集后，分工划分为为正面情绪子集和负面情绪子集。然后将70％的正面情绪子集和负面情绪子集作为训练集，将30％的正面情绪子集和负面情绪子集作为测试集。利用训练集分别对LSTM算法模型、GRU算法模型和A-SentiAnaly算法模型进行初步训练。然后利用测试集对完成训练的LSTM算法模型、GRU算法模型和A-SentiAnaly算法模型进行参数调优。

然后，以交叉熵损失函数(categorical_crossentropy loss)作为模型的损失函数，优化算法选择adam算法，基于测试集分别对完成初步训练的LSTM算法模型、GRU算法模型和A-SentiAnaly算法模型训练20轮(Epoch)。每一轮训练的损失(loss)和准确率(accuracy)的对比结果可以如下表4所示：

表4

基于表4可以看出，相比于LSTM算法模型、GRU算法模型，采用本申请提供的A-SentiAnaly算法模型，能够获得较高的分析准确率。

对于观点挖掘模块303，可以采用传统观点挖掘算法模型执行情感分析操作，例如BOW算法模型、LDA算法模型、Skip-Gram算法模型、PV-DM算法模型、PV-DBOM算法模型、TWE算法模型等。也可以采用其他能够实现观点挖掘操作的算法模型。例如，本申请提供的增强型观点挖掘(Advanced View Point Mining，A-VPM)算法模型。

示例性的，参见图5，为本申请提供的A-VPM算法模型的算法结构，包括概率计算模块、混合采样模块、主题压缩模块。

其中，概率计算模块用于计算评论子集中每个文本评论中的每个特征词的概率分别。

假设，评论子集中的每个特征词通过一个L维向量w表示，例如，w＝(1,0,0,...,0,0)表示一个特征词。若一个文本包括N个特征词，分别为特征词w₁,w₂,...,w_N，则该文本评论可以表示为d＝(w₁,w₂,...,w_N)。评论子集D由M篇文本评论构成，则评论子集D可以表示为D＝(d₁,d₂,...,d_M)。

概率计算模块可以根据评论子集中的文本评论以及每个文本评论包含的特征词，计算每一个特征词在每一篇文本评论中的概率分布，并输出至混合采样模块。

例如，其中，假设评论子集中包括I个特征词，w_i表示评论子集中第i个特征词，1≤i≤I。评论子集中包括J个文本评论，d_j表示评论子集中第j个文本评论，1≤j≤J。特征词w_i在文本评论d_j中的概率可以表示为P(w_i|d_j)。

混合采样模块用于将评论子集中的文本评论划分为短文本和长文本，然后基于I个特征词的概率分布，对短文本和长文本进行迭代采样，获取评论子集的多个主题。

示例性的，混合采样模块中设置有第三阈值，混合采样模块将包含的特征词的数量大于第三阈值的文本评论划分为长文本，将包含的特征词的数量小于等于第三阈值的文本评论划分为短文本。例如，第三阈值设置为30，当文本评论包含的特征词的数量大于30个时，该文本评论即为长文本，当文本评论包含的特征词的数量小于或者等于30个时，该文本评论即为短文本。

混合采样模块中包括预设的采样模型。例如，采样模型表示为如下公式：

其中，K表示评论子集中的J个评论文本中分布的主题个数，K≥2，K的具体数值可以根据实际所需的主题数进行设置。那么，评论子集中的第s个主题表示为z_s。P(w_i|z_s)表示特征词w_i在主题z_s中的概率。P(z_s|d_j)表示主题z_s在文本评论d_j的概率。

假设，采样模型收敛条件为：K个主题在每个文本评论中的概率分布满足狄利克雷分布(Dirichlet distribution)，I个特征词在每个主题中的概率分布满足狄利克雷分布。

那么，混合采样模块基于指定的K值，将I个特征词P(w_i|d_j)依次带入公式(1)中对每个文本评论进行采样，直至模型收敛。

一种可能实现方式为，基于每个特征词的概率分布，混合采样模块可以利用第一采样算法对短文本进行采样，利用第二采样算法对长文本进行采样。

其中，第一采样算法和第二采样算法为收敛速度不同的采样算法。例如，第一采样算法为Gibbs采样算法，第二采样算法为Metropolis-Hastings采样算法。

混合采样模块将最后一次迭代(采样模型收敛时)输出的至少两个(即K个)主题，输出至主题压缩模块。

主题压缩模块用于对至少两个主题进行去重处理。然后对处理后的至少两个主题中的每个主题所包括的特征词进行压缩处理，得到每个主题的主题信息，主题信息包括所属主题中压缩后的多个高频词。

示例性的，主题压缩模块包括相似性算法和不相交集合(Disjoint-Set)算法。其中，相似性算法可以为杰卡德相似性(Jaccard similarity)算法或者加权杰卡德相似性(Weighted Jaccard similarity)算法。

主题压缩模块首先利用相似性算法计算任意两个主题中的前Q个特征词(即在主题中概率最大的Q个特征词)的相似性。若相似性相似性大于等于预设的相似性，则确定这两个主题为冗余主题对。

获得至少两个主题中的所有冗余主题对后，主题压缩模块利用不相交集合(Disjoint-Set)算法，对所有冗余主题对进行去重处理，得到处理后的至少两个主题。

主题压缩模块得到去重后的至少两个主题后，即可对该至少两个主题进行压缩处理，确定每个主题压缩后的多个高频词，得到每个主题的主题信息。

一种可能的实现方式为，主题压缩模块可以统计每个主题下P(w|z)最高的多个特征词，作为该主题的多个高频词。例如，确定每个主题下P(w|z)最高的10个特征词，作为该主题的10高频词，得到该主题的主题信息。

或者，主题压缩模块也可以确定每个主题下P(w|z)大于等于预设概率的特征词，作为该主题的高频词。然后将确定的多个高频词作为该主题的主题信息。

另一种可能的实现方式为，统计每个主题中包含的特征词的总个数，并计算每个特征词在该主题中出现的个数占总个数的占比。确定占比大于预设占比阈值的特征词为该主题的高频词，从而获得该主题的主题信息。值得说明的是，相比于传统的观点挖掘算法模型，采用本申请提供的A-VPM算法模型，能够提高观点挖掘过程的准确率、精确度和召回率。

示例性的，基于相同的测试集以及测试条件，对BOW算法模型、LDA算法模型、Skip-Gram算法模型、PV-DM算法模型、PV-DBOM算法模型、TWE算法模型以及A-VPM算法模型进行测试，得到的精确率(Precison)、准确率(Accuracy)、召回率(Recal)以及F测量(F-measure)的测试结果对比如下表5所示：

表5

算法模型	准确率	精确率	召回率	F-measure
					BOW	79.7	79.5	79	79.2
LDA	72.2	70.8	70.7	70.7
					Skip-Gram	75.4	75.1	74.7	74.9
PV-DM	72.4	72.1	71.5	71.8
					PV-DBOW	75.4	74.9	74.3	74.6
TWE	81.5	81.2	80.6	80.9
					A-VPM	85.6	85.4	82.2	83.7

基于表5可以看出，相比于BOW算法模型、LDA算法模型、Skip-Gram算法模型、PV-DM算法模型、PV-DBOM算法模型以及TWE算法模型，采用本申请提供的A-VPM算法模型能够获得较高的精确率、准确率、召回率以及F测量值。

值得说明的是，本申请提供的决策系统30还包括扩展模块，可以顺应于产品市场调研的需求，动态扩展其他功能模块。

例如，参见图6，该决策系统30还可以包括量价分析模块304、和/或运行监测模块305等。

示例性的，如图7所示，采集模块301还用于采集目标产品的销售数据，包括目标产品的销售量和销售价格。

其中，采集模块301可以从网络销售平台和/或目标产品的售后服务平台，获取目标产品的销售数据。然后将采集到的销售数据输出值量价分析模块304。

量价分析模块304，用于根据采集模块301输出的销售数据生成并输出第三决策参考信息，第三决策参考信息可以包括销售量随销售价格变化的曲线图，该第三决策参考信息用于指示目标产品的量价趋势。

示例性的，量价分析模块304中包括统计算法模型，量价分析模块304可以利用统计算法模型，对目标产品的销售量和销售价格进行统计，销售量随销售价格变化的曲线图。

量价分析模块304输出的第三决策参考信息可以辅助决策方获知对目标产品的量价趋势，以便于确定合理的销售价格。

示例性的，参见图8，当目标产品为智能家电产品时，采集模块301还用于采集目标产品的运行数据，该运行数据包括目标产品的开机状态数据、关机状态数据和/或故障警告数据等。

例如，采集模块301可以从目标产品的售后服务平台获取目标产品的运行数据，也可以直接采集智能家电产品上报的运行数据。采集模块301采集到运行数据后，将该运行数据输出值运行监测模块305。

运行监测模块305，用于根据运行数据生成并输出第四决策参考信息，第四决策参考信息可以包括目标产品的开机状态分析图表、关机状态分析图表、故障警告分析图表，用于指示目标产品的运行状态。

示例性的，运行监测模块305中包括统计算法模型，运行监测模块305可以利用统计算法模型对目标产品的运行数据进行计算。例如，对目标产品的开机状态数据进行统计，得到目标产品的开机时间随时间的变化曲线图。对目标产品的关机状态数据进行统计，得到目标产品的关机时间随时间的变化曲线图。对目标产品的故障警告数据进行统计，得到目标产品的各个故障点的故障概率统计表等。

运行监测模块305输出的第四决策参考信息可以辅助决策方获知对目标产品的运行状态，以便于制定合理的质量改善决策。

在本申请中，决策系统30生成决策参考信息(例如，上文种第一决策参考信息、第二决策参考信息、第三决策参考信息、第四决策参考信息)后，即可将决策参考信息保存在本地，以便于决策方通过终端设备获取决策信息。

值得说明的时，决策系统30能够基于数据采集规律，实时更新本地保存的决策参考信息，以保证决策系统30提供给决策方的决策参考信息具有时效性。

示例性的，参见图9，决策系统30还可以通信模块306，该通信模块306，用于接收终端设备发送的请求信息，并向终端设备发送与请求信息对应的决策参考信息。

示例性的，请求信息可以用于向决策系统30请求下发一种或者多种类型的决策参考信息。例如，请求信息指示了请求下发目标产品的第二决策参考信息、第四决策参考信息、第一决策参考信息。那么，通信模块306在接收到请求信息后，可以从本地存储的决策参考信息中查询目标产品的第二决策参考信息、第四决策参考信息、第一决策参考信息，并发送给终端设备。

所属领域的技术人员可以清楚地了解到，本申请提供的决策辅助系统30的各个模块，可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述决策系统30的功能。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述决策系统30的功能。

所述决策系统30的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述决策系统30的功能。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种决策系统，其特征在于，包括采集模块、情感分析模块和观点挖掘模块，

所述采集模块，用于采集目标产品的评论集；

所述情感分析模块，用于对所述评论集中的每个评论进行情感分析，输出正面情绪的评论子集和负面情绪的评论子集；

所述观点挖掘模块，用于对每个评论子集分别进行观点挖掘，输出第一决策参考信息，所述第一决策参考信息包括所述每个评论子集的至少两个主题信息，所述至少两个主题信息用于指示所述目标产品的正面评论点或者负面评论点。

2.根据权利要求1所述的决策系统，其特征在于，若所述评论集中待进行情感分析的评论为文本评论，所述情感分析模块对所述文本评论进行情感分析，包括：

对所述文本评论进行前序处理，得到所述文本评论的多个分词；

将所述多个分词进行词嵌入处理，得到第一词向量序列；

将所述第一词向量序列输入已训练的对抗模型进行对抗处理，得到第二词向量序列；

将所述第二词向量序列输入已训练的双向长短期记忆Bi-LSTM模型进行文本分类处理，得到第三词向量序列；

计算所述第三词向量序列中的每个词向量的第一权重系数；

根据所述第一权重系数对所述第三词向量序列中的词向量进行加权计算，得到所述第三词向量序列的特征向量；

对所述特征向量进行分类处理，得到所述文本评论的综合评分；

若所述综合评分小于第一阈值，则将所述文本评论划分到所述负面情绪的评论子集；或者，若所述综合评分大于第二阈值，则将所述文本评论划分到所述正面情绪的评论子集，所述第一阈值小于或者等于所述第二阈值。

3.根据权利要求1所述的决策系统，其特征在于，若所述评论集中待进行情感分析的评论为语音评论，所述情感分析模块对所述语音评论进行情感分析，包括：

根据所述语音评论的音量和语速，确定所述语音评论的语音评分；

将所述语音评论转换为文本评论；

将所述多个分词进行词嵌入处理，得到第一词向量序列；

将所述第一词向量序列输入已训练的对抗模型进行处理，得到第二词向量序列，所述对抗模型用于将所述第一词向量序列正则化；

将所述第二词向量序列输入已训练的Bi-LSTM模型进行文本分类处理，得到第三词向量序列；

计算所述第三词向量序列中的每个词向量的第一权重系数；

对所述特征向量进行分类处理，得到所述文本评论的文本评分；

根据预设的第二权重系数对所述文本评分和所述语音评分进行加权计算，得到综合评分；

4.根据权利要求2或3所述的决策系统，其特征在于，

所述情感分析模块，还用于根据所述每个评论的综合评分，生成并输出第二决策参考信息，所述第二决策参考信息用于指示所述评论集的负面情绪程度、正面情绪程度、好评率和/或差评率。

5.根据权利要求1所述的决策系统，其特征在于，所述观点挖掘模块对所述评论子集进行观点挖掘，包括：

计算所述评论子集中每个文本评论中的每个特征词的概率分布；

根据所述每个文本评论所包含的特征词的数量和预设的第三阈值，将所述评论子集中的文本评论划分为短文本和长文本；

基于所述每个特征词的概率分布，利用第一采样算法对对所述短文本进行采样，以及利用第二采样算法对所述长文本进行采样，获取所述评论子集的至少两个主题，所述第一采样算法的收敛速度与所述第二采样算法的收敛速率不同；

对所述至少两个主题进行去重处理；

对去重处理后的所述至少两个主题中的每个主题所包括的特征词进行压缩处理，得到所述每个主题的主题信息，所述主题信息包括所属主题中压缩后的多个高频词。

6.根据权利要求5所述的决策系统，其特征在于，所述第一采样算法为吉布斯采样算法，所述第二采样算法为梅特罗波利斯－黑斯廷斯采样算法。

7.根据权利要求1所述的决策系统，其特征在于，

所述采集模块，还用于采集所述目标产品的销售数据，所述销售数据包括销售价格和销售量；

所述决策系统还包括量价分析模块，

所述量价分析模块，用于根据所述销售数据生成并输出第三决策参考信息，所述第三决策参考信息用于指示所述目标产品的量价趋势。

8.根据权利要求1所述的决策系统，其特征在于，所述目标产品为智能家电产品，

所述采集模块，还用于采集所述目标产品的运行数据，所述运行数据包括所述目标产品的开机状态数据、关机状态数据和/或故障警告数据；

所述决策系统还包括运行监测模块，

所述运行监测模块，用于根据所述运行数据生成并输出第四决策参考信息，所述第四决策参考信息用于指示所述目标产品的运行状态。

9.根据权利要求1所述的决策系统，其特征在于，所述决策系统还包括通信模块，

所述通信模块，用于接收终端设备发送的请求信息，并向所述终端设备发送与所述请求信息对应的决策参考信息。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的决策系统的功能。