CN112837091A

CN112837091A - 基于分类器的信息处理方法、装置及存储介质

Info

Publication number: CN112837091A
Application number: CN202110120628.5A
Authority: CN
Inventors: 邱戴飞; 范勇; 王凌波
Original assignee: Hangzhou Giant Intelligent Technology Co ltd
Current assignee: Hangzhou Giant Intelligent Technology Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-25

Abstract

本发明提供一种基于分类器的信息处理方法、装置及存储介质，包括：通过情感分类器对获取的评论数据进行一级处理，若判断评论数据为差评则对所述评论数据进行差评标记；通过差评大类分类器对差评标记后的评论数据进行二级处理，判断评论数据属于的大类后将其属于的大类对评论数据进行大类标记；通过差评子类分类器对大类标记后的评论数据进行三级处理，判断所述评论数据属于的子类后将其属于的子类对评论数据进行子类标记，每个差评大类分类器关联有至少一个差评子类分类器。情感分类器、差评大类分类器以及差评子类分类器分别基于深度神经网络的模型构成。其中，深度神经网络的模型为RNN结构模型、CNN结构模型以及DNN结构模型中的任意一种或多种。

Description

基于分类器的信息处理方法、装置及存储介质

技术领域

本发明涉及技术，尤其涉及一种基于分类器的信息处理方法、装置及存储介质。

背景技术

在大数据时代，企业要从获取的数据中尽量挖掘出有用信息，用户的评论是获取用户反馈，定位业务问题的重要数据来源。但是用户的评论文本往往不够结构化。使得计算机等设备在对评论文本等信息进行等处理时无法的到其中的有用信息，进而无法确定具体的业务问题。

发明内容

本发明实施例提供一种基于分类器的信息处理方法、装置及存储介质，采用由粗到细的树状分类器级联结构，可以对评论文本信息进行处理，确认具体的业务问题，进行良好的反馈。

本发明实施例的第一方面，提供一种基于分类器的信息处理方法，包括：

通过情感分类器对获取的评论数据进行一级处理，若判断所述评论数据为差评则对所述评论数据进行差评标记；

通过差评大类分类器对差评标记后的评论数据进行二级处理，判断所述评论数据属于的大类后将其属于的大类对评论数据进行大类标记；

通过差评子类分类器对大类标记后的评论数据进行三级处理，判断所述评论数据属于的子类后将其属于的子类对评论数据进行子类标记，其中，每个差评大类分类器关联有至少一个差评子类分类器。

可选地，在第一方面的一种可能实现方式中，所述情感分类器、差评大类分类器以及差评子类分类器分别基于深度神经网络的模型构成；

所述深度神经网络的模型为RNN结构模型、CNN结构模型以及DNN结构模型中的任意一种或多种。

可选地，在第一方面的一种可能实现方式中，所述RNN结构模型包括6层，结构包括：

第一层是Embedding layer，节点数为embedding_dim；

第二，三层分别是双向LSTM构成的RNN层，节点数分别为hidden_dim；

第四层是全连接层，节点数为hidden_dim，激励函数为relu函数；

第五层是dropout层，keep_prob为0.8；

第六层是输出层，节点数为1，激励函数为sigmoid函数；

其中，embedding_dim，hidden_dim为可配置参数，embedding_dim为64，hidden_dim为128。

可选地，在第一方面的一种可能实现方式中，所述CNN结构模型包括7层，结构包括：

第一层是Embedding layer，节点数为embedding_dim；

第二层是dropout层，keep_prob为0.8；

第三层为1维卷积层，卷积数为256，卷积核大小为5；

第四层是全局池化层；

第五层是全连接层，节点数为hidden_dim；

第六层为dropout层，keep_prob为0.8；

第7层为输出层，节点数为1，激励函数为sigmoid函数；

可选地，在第一方面的一种可能实现方式中，所述DNN结构模型包括5层，结构包括：

第一层是embedding layer，输入长度为300；

第二层是个展开层，将300个embedding拼接成一个向量；

第三，四层分别是全连接层，节点数分别为128，64，激励函数是relu函数；

第五层为输出层，节点数是1，激励函数为sigmoid函数。

可选地，在第一方面的一种可能实现方式中，所述RNN结构模型、CNN结构模型以及DNN结构模型分别通过以下步骤进行训练，包括：

选取为Adam的优化器，其中learning_rate为1e-3，训练过程中监控accuracy及precision指标，在数据集上迭代至少20个批次，当误差函数连续5次没有下降则停止训练；

在3种模型训练完成后，选取精度最高的模型部署成web服务。

可选地，在第一方面的一种可能实现方式中，获取任意一个店铺和\或商品的评论数据，统计该所有评论数据中被差评标记的评论数据的数量；

将被差评标记的评论数据的数量与评论数据的总量进行计算，得到店铺和\或商品好评率或差评率中的任意一种或多种，生成走势图。

可选地，在第一方面的一种可能实现方式中，获取任意一个店铺和\或商品所有被大类标记的评论数据；

将所有被大类标记的评论数据基于其本身的不同标记进行计算生成大类维度的占比图；

获取任意一个店铺和\或商品所有被子类标记的评论数据；

将所有被子类标记的评论数据基于其本身的不同标记进行计算生成子类维度的占比图。

本发明实施例的第二方面，提供一种基于分类器的信息处理装置，包括：

一级分类模块，用于通过情感分类器对获取的评论数据进行一级处理，若判断所述评论数据为差评则对所述评论数据进行差评标记；

二级分类模块，用于通过差评大类分类器对差评标记后的评论数据进行二级处理，判断所述评论数据属于的大类后将其属于的大类对评论数据进行大类标记；

三级分类模块，用于通过差评子类分类器对大类标记后的评论数据进行三级处理，判断所述评论数据属于的子类后将其属于的子类对评论数据进行子类标记，其中，每个差评大类分类器关联有至少一个差评子类分类器。

本发明实施例的第三方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

本发明提供的一种基于分类器的信息处理方法、装置及存储介质，采用由粗到细的树状分类器级联结构，可以对评论文本信息进行处理，确认具体的业务问题，进行良好的反馈。其通过三级设置的分类器依次对评论数据进行筛选、标记，达到对每个评论数据进行细分的目的，实现精准定位评论数据所对应问题的效果，实用性较强。

附图说明

图1为基于分类器的信息处理方法的流程图；

图2为分类器的连接结构示意图；

图3为基于分类器的信息处理装置的结构图；

图4为数据分析展示示意图的第一种情况；

图5为数据分析展示示意图的第二种情况；

图6为数据分析展示示意图的第三种情况。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种基于分类器的信息处理方法，如图1所示其流程图，包括：

步骤S110、通过情感分类器对获取的评论数据进行一级处理，若判断所述评论数据为差评则对所述评论数据进行差评标记。

步骤S120、通过差评大类分类器对差评标记后的评论数据进行二级处理，判断所述评论数据属于的大类后将其属于的大类对评论数据进行大类标记。

步骤S130、通过差评子类分类器对大类标记后的评论数据进行三级处理，判断所述评论数据属于的子类后将其属于的子类对评论数据进行子类标记，其中，每个差评大类分类器关联有至少一个差评子类分类器。

本发明，通过三级设置的分类器依次对评论数据进行筛选、标记，达到对每个评论数据进行细分的目的，实现精准定位评论数据所对应问题的效果，实用性较强。

其中，如图2所示，情感分类器、差评大类分类器以及差评子类分类器的分布示意图。其中差评大类分类器以及差评子类分类器可以分别为多个，其中每一组差评子类分类器可以是一个差评大类分类器的子集。本发明提供的由粗到细的树状分类器级联结构，该结构既能简化问题分析，也能提高分类效率和精度，是一种分治的思想。相比于单个多标签的模型，这种级联的分类器每个分类器需要关注的问题本身更加地简单，模型也更容易训练，单个模型需要的训练数据大幅降低。

在一个实施例中，情感分类器、差评大类分类器以及差评子类分类器分别基于深度神经网络的模型构成。其中，深度神经网络的模型为RNN结构模型、CNN结构模型以及DNN结构模型中的任意一种或多种。

在一个实施例中，所述RNN结构模型包括6层，结构包括：

第一层是Embedding layer，节点数为embedding_dim；

第五层是dropout层，keep_prob为0.8；

第六层是输出层，节点数为1，激励函数为sigmoid函数；

Embedding layer用于将文字在字典中的序号转换成embedding_dim大小的密集向量，作为一种更好的特征形式。双向LSTM构成的RNN层用于学习上下文的依赖。全连接层用于承接，Dropout层用于防止过拟合。最后到达输出层通过sigmoid激励函数将值转换成0-1之间的概率。

在一个实施例中，所述CNN结构模型包括7层，结构包括：

第一层是Embedding layer，节点数为embedding_dim；

第二层是dropout层，keep_prob为0.8；

第三层为1维卷积层，卷积数为256，卷积核大小为5；

第四层是全局池化层；

第五层是全连接层，节点数为hidden_dim；

第六层为dropout层，keep_prob为0.8；

第7层为输出层，节点数为1，激励函数为sigmoid函数；

Embedding layer用于将文字在字典中的序号转换成embedding_dim大小的密集向量，作为一种更好的特征形式。Dropout层用于防止过拟合。卷积层通过训练的卷积核作为特征提取器，对名字组成的特征向量提取特征，相比于手动提取特征更加地自动化。池化层将不同卷积核提取的特征进行合并。全连接层进一步压缩特征，Dropout层用于防止过拟合。输出层通过sigmoid激励函数将值转换成0-1之间的概率。CNN结构的另外一个特点是计算量相比RNN和DNN要少，训练和推断时更快。

在一个实施例中，所述DNN结构模型包括5层，结构包括：

第一层是embedding layer，输入长度为300；

第二层是个展开层，将300个embedding拼接成一个向量；

第五层为输出层，节点数是1，激励函数为sigmoid函数。

由于名大部分长度都是1和2，少量可以达到3，所以可以固定输入长度为3。DNN的结构采取的是直接将名字序列经过embedding layer出来的向量拼接成一个向量，利用后续的全连接层逐层抽象。输出层通过sigmoid激励函数将值转换成0-1之间的概率。DNN模型结构上更加简洁。

在一个实施例中，所述RNN结构模型、CNN结构模型以及DNN结构模型分别通过以下步骤进行训练，包括：

在3种模型训练完成后，选取精度最高的模型部署成web服务。

在一个实施例中，获取任意一个店铺和\或商品的评论数据，统计该所有评论数据中被差评标记的评论数据的数量；

在一个实施例中，获取任意一个店铺和\或商品所有被大类标记的评论数据；

获取任意一个店铺和\或商品所有被子类标记的评论数据；

本发明还提供一种基于分类器的信息处理装置，如图3所示，包括：

本发明通过级联多个分类器由粗到细自动分析评论数据，将非结构化的评论数据处理成结构化数据，从而定位具体业务问题，系统还提供了一种评论数据结构化展示的方法。分类器可以分为3层，呈树状结构，第一层是情感分析分类器，第二层是差评大类分类器，第三层是差评子类分类器。一条文本评论数据经过第一层分类器被分类成好评和差评；差评结果会经过第二层差评大类分类器处理，4个大类(产品，物流，服务，赠品)分类器分别给评论数据进行打标；当大类分类器的分类结果超过预设的阈值，会被打上该类标签，认为该条评论数据属于该类问题，评论数据会被提交到大类分类器连接着的子类分类器，进一步细化问题。例如产品大类会细分成(产品变质，品质较差，口感味道，商品效期，性价比)5个子类。

评论数据经过分类器处理后，由粗到细地被打上标签，对于好评数据经过情感分析分类器处理之后不会被进一步处理；而对于差评数据会进一步经过4个大类分类器打标，被特定大类分类器打上标的评论数据会进一步被大类分类器连接着的子类分类器进一步打标。例如一条差评数据：“牛排片很薄，都是筋。客服态度很差”会被情感分析分类器打上差评的标签，进一步会被产品，服务两个大类分类器打上各自的标签。产品，服务连接的子类分类器会进一步对评论打标。比如产品下的子类分类器会给评论打上“品质较差”的标，服务下的子类分类器会给评论打上“客服售后”的标。经过以上处理，这条评论数据就会转换成结构化数据，首先是条差评数据，差评原因属于产品，服务的“品质较差”和“客服售后”。

每个分类器都是基于深度神经网络的模型。主要流程包括数据预处理，模型定义，模型训练，模型部署。

数据集预处理。将获取到的数据集进行标注，打上多个标签。将样本中所有的字符根据出现频率倒序排列，选取前vocab_size-1的高频字，再加上＂<PAD>＂用于表示填充字符，建立词汇表。同时将数据集按照80％，10％，10％的比例随机划分为训练集，验证集和测试集。

神经网络模型定义。根据网络结构可以分为3种模型：RNN，CNN，DNN。其中RNN结构的模型有6个layers，第一层是Embedding layer，节点数为embedding_dim；第二，三层是双向LSTM构成的RNN层，节点数为hidden_dim；第四层是全连接层，节点数为hidden_dim，激励函数为relu函数；第五层是dropout层，keep_prob为0.8；第六层是输出层，节点数为1，激励函数为sigmoid函数。embedding_dim，hidden_dim为可配置参数，embedding_dim为64，hidden_dim为128。CNN结构的模型有7个layers，第一层也是Embedding layer，节点数为embedding_dim；第二层是dropout层，keep_prob为0.8；第三层为1维卷积层，卷积数为256，卷积核大小为5；第四层是全局池化层；第五层是全连接层，节点数为hidden_dim；第六层为dropout层，keep_prob为0.8；第7层为输出层，节点数为1，激励函数为sigmoid函数。embedding_dim，hidden_dim为可配置参数，embedding_dim为64，hidden_dim为128。DNN结构的模型有5层，第一层同样是embedding layer，输入长度为300；第二层是个展开层，将300个embedding拼接成一个向量；第三，四层为全连接层，节点数分别为128，64，激励函数是relu函数；第五层为输出层，节点数是1，激励函数为sigmoid函数。

编译模型，选取优化器为Adam，learning_rate为1e-3，训练过程中监控accuracy,precision指标。总共在数据集上迭代20个批次，当误差函数连续5次没有下降则停止训练。训练完成后，选取3种结构中精度最优的模型，将模型部署成web服务。

将非结构化的评论数据转化成结构化的数据之后，本发明还提供一种数据分析展示的方法，结果数据进行统计后以看板的形式展示：看板提供按照店铺，商品，统计出好评，如图4所示差评率按天的走势图(折线图展示)；如图5所示，对于差评数据提供按照店铺，以商品为维度的特定时间段的大类，子类占比图(饼图展示)；对于差评数据提供按照店铺，如图6所示以商品为维度，在特定时间段的类别数量的按天走势图(折线图展示)。大类，子类的饼图和走势图在展示上采用分层联动的方式实现，即首先展示的是大类的结果，每个大类可以交互式点击进入对应的子类页面，点击子类则进入对应的评论详情页面。该看板提供了一种由粗到细的结果展示方式，可以用来监控针对用户的服务质量变化趋势以及发现业务流程上的改动对用户体验的影响。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于分类器的信息处理方法，其特征在于，包括：

2.根据权利要求1所述的信息处理方法，其特征在于，

所述情感分类器、差评大类分类器以及差评子类分类器分别基于深度神经网络的模型构成；

3.根据权利要求2所述的信息处理方法，其特征在于，

所述RNN结构模型包括6层，结构包括：

第一层是Embedding layer，节点数为embedding_dim；

第五层是dropout层，keep_prob为0.8；

第六层是输出层，节点数为1，激励函数为sigmoid函数；

4.根据权利要求2所述的信息处理方法，其特征在于，

所述CNN结构模型包括7层，结构包括：

第一层是Embedding layer，节点数为embedding_dim；

第二层是dropout层，keep_prob为0.8；

第三层为1维卷积层，卷积数为256，卷积核大小为5；

第四层是全局池化层；

第五层是全连接层，节点数为hidden_dim；

第六层为dropout层，keep_prob为0.8；

第7层为输出层，节点数为1，激励函数为sigmoid函数；

5.根据权利要求2所述的信息处理方法，其特征在于，

所述DNN结构模型包括5层，结构包括：

第一层是embedding layer，输入长度为300；

第二层是个展开层，将300个embedding拼接成一个向量；

第五层为输出层，节点数是1，激励函数为sigmoid函数。

6.根据权利要求2所述的信息处理方法，其特征在于，

所述RNN结构模型、CNN结构模型以及DNN结构模型分别通过以下步骤进行训练，包括：

在3种模型训练完成后，选取精度最高的模型部署成web服务。

7.根据权利要求1所述的信息处理方法，其特征在于，

获取任意一个店铺和\或商品的评论数据，统计该所有评论数据中被差评标记的评论数据的数量；

8.根据权利要求1所述的信息处理方法，其特征在于，

获取任意一个店铺和\或商品所有被大类标记的评论数据；

获取任意一个店铺和\或商品所有被子类标记的评论数据；

9.一种基于分类器的信息处理装置，其特征在于，包括：

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至8任一所述的方法。