CN108763199A

CN108763199A - 文本反馈信息的排查方法及装置

Info

Publication number: CN108763199A
Application number: CN201810456686.3A
Authority: CN
Inventors: 衣建中
Original assignee: Zhejiang Koubei Network Technology Co Ltd
Current assignee: Zhejiang Koubei Network Technology Co Ltd
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-11-06

Abstract

本发明公开了一种文本反馈信息的排查方法及装置。其中，方法包括：接收来自商家或用户的文本反馈信息；对文本反馈信息进行处理，得到对应的特征向量；将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；根据处理端标签，将文本反馈信息推送给相应的处理端。基于本发明提供的方案，利用分类预测模型能够及时准确地确定文本反馈信息对应的处理端标签，使得相应的处理端能够及时获知所商家或用户反馈的信息，并及时处理，避免人工确定文本反馈信息对应的处理端标签而导致的遗漏、不及时以及分类错误等问题，解放人力，节省人工成本。

Description

文本反馈信息的排查方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种文本反馈信息的排查方法及装置。

背景技术

商家或用户在使用产品的过程中不可避免的会遇到各种问题，以商家或用户使用口碑应用为例，商家在使用口碑应用时会在口碑应用上创建活动商品，在活动结束后，需要将相应的商品下架，就可能存在商品无法下架的情况，当遇到问题时，商家会向口碑客服/运营负责人反馈所遇到的问题，例如，商品没有锁定，但是无法下架，通常情况下，是由客服/运营负责人在获知商家或用户反馈的信息后，通过理解将相应的问题发送给对应的处理端进行处理。

由于口碑流量的上升，出现的问题数量和种类也逐渐增多，客服/运营负责人，接收到对应问题进行分发的需求越来越多，就会出现信息无法及时被分发给相应的处理端，以及分发错误的情况，加上信息比较多，容易错过一些重要的问题，而且还极大地消耗了人力。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本反馈信息的排查方法及装置。

根据本发明的一个方面，提供了一种文本反馈信息的排查方法，方法基于经过训练的分类预测模型执行，包括：

接收来自商家或用户的文本反馈信息；

对文本反馈信息进行处理，得到对应的特征向量；

将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；

根据处理端标签，将文本反馈信息推送给相应的处理端。

可选地，在将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签之前，方法还包括：

判断是否存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息；

若是，则将历史文本反馈信息对应的排查方案返回给商家或用户；

若否，则将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

可选地，对文本反馈信息进行处理，得到对应的特征向量进一步包括：

对文本反馈信息进行分词处理，得到多个分词词语；

对多个分词词语进行停用词去除处理，筛选得到至少一个特征词；

根据至少一个特征词，生成特征向量。

可选地，对多个分词词语进行停用词去除处理，筛选得到至少一个特征词进一步包括：

从多个分词词语中选择一未曾被选择过的分词词语，判断停用词词库中是否存在与分词词语相匹配的词语；

若否，则将分词词语确定为特征词。

可选地，分类预测模型训练所用的样本包含：多个文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果。

可选地，分类预测模型的训练过程包括：

获取预设数量的文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果，对文本反馈信息样本进行分词处理，得到多个分词词语；

对多个分词词语进行停用词去除处理，得到与预设数量的文本反馈信息样本对应的特征词列表；

针对每一个文本反馈信息样本，根据特征词列表生成特征向量；

根据特征向量以及与文本反馈信息样本对应的处理端标注结果进行样本训练得到分类预测模型。

根据本发明的另一方面，提供了一种文本反馈信息的排查装置，装置基于经过训练的分类预测模型执行，包括：

接收模块，适于接收来自商家或用户的文本反馈信息；

处理模块，适于对文本反馈信息进行处理，得到对应的特征向量；

分类预测模块，适于将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；

推送模块，适于根据处理端标签，将文本反馈信息推送给相应的处理端。

可选地，装置还包括：判断模块，适于判断是否存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息；

返回模块，适于若存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则将历史文本反馈信息对应的排查方案返回给商家或用户；

分类预测模块进一步适于：若不存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

可选地，处理模块进一步包括：

第一分词处理单元，适于对文本反馈信息进行分词处理，得到多个分词词语；

第一停用词去除处理单元，适于对多个分词词语进行停用词去除处理，筛选得到至少一个特征词；

第一生成单元，适于根据至少一个特征词，生成特征向量。

可选地，第一停用词去除处理单元进一步适于：

若否，则将分词词语确定为特征词。

可选地，装置还包括：分类预测模型训练模块；

分类预测模型训练模块包括：

第二分词处理单元，适于获取预设数量的文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果，对文本反馈信息样本进行分词处理，得到多个分词词语；

第二停用词去除处理单元，适于对多个分词词语进行停用词去除处理，得到与预设数量的文本反馈信息样本对应的特征词列表；

第二生成单元，适于针对每一个文本反馈信息样本，根据特征词列表生成特征向量；

训练单元，适于根据特征向量以及与文本反馈信息样本对应的处理端标注结果进行样本训练得到分类预测模型。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述文本反馈信息的排查方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述文本反馈信息的排查方法对应的操作。

根据本发明提供的方案，接收来自商家或用户的文本反馈信息；对文本反馈信息进行处理，得到对应的特征向量；将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；根据处理端标签，将文本反馈信息推送给相应的处理端。基于本发明提供的方案，利用分类预测模型能够及时准确地确定文本反馈信息对应的处理端标签，使得相应的处理端能够及时获知所商家或用户反馈的信息，并及时处理，避免人工确定文本反馈信息对应的处理端标签而导致的遗漏、不及时以及分类错误等问题，解放人力，节省人工成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的文本反馈信息的排查方法的流程示意图；

图2示出了根据本发明另一个实施例的文本反馈信息的排查方法的流程示意图；

图3示出了根据本发明一个实施例的文本反馈信息的排查装置的结构示意图；

图4示出了根据本发明一个实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

文本反馈信息排查指业务中针对商户或用户提出的问题，寻找处理端进行问题定位和解决。本发明的发明人发现，现有的文本反馈信息排查都是由客服或者运营人员将文本反馈信息推送给相应的处理端，众所周知，人工排查很容易出现分发错误以及未将某一文本反馈信息分发出去的现象，而且当文本反馈信息量比较大时，还会延长分发时间，导致处理端无法及时处理商户或用户反馈的问题。

鉴于上述问题，本发明的发明人提出了利用分类预测模型确定文本反馈信息对应的处理端标签的方法，其中，分类预测模型是经过大量样本训练得到的，样本组成形式为(文本反馈信息样本，处理端标签)，具体地，可以采用以下方法进行训练：

a)获取预设数量的文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果，对所述文本反馈信息样本进行分词处理，得到多个分词词语。

在进行模型训练之前，需要先获取预设数量的文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果，针对每一个文本反馈信息样本，需要先对文本反馈信息样本进行分词处理，将文本反馈信息样本切分为多个分词词语，其中，分词处理指将一个汉字序列切分成一个一个单独的词，现有技术中有多种切分词方法，例如，基于字符串匹配的分词方法，基于理解的分词方法和基于统计的分词方法等。本领域技术人员能够根据需求进行选取，或是综合使用多种方法。

b)对多个分词词语进行停用词去除处理，得到与所述预设数量的文本反馈信息样本对应的特征词列表。

在对所获取的文本反馈信息样本进行分词处理，得到多个分词词语之后，由于分词词语中可能包含一些无意义的词语和标点符号，而这些无意义的词语和标点符号对于生成特征向量无任何意义，而且还会影响训练的准确性，因此，需要去除多个分词词语中的无意义的词语和标点符号，也就是说，需要对多个分词词语进行停用词去除处理，停用词去除处理之后得到的分词词语称为特征词，具体地，可以将每一个分词词语与停用词词库进行匹配，判断停用词词库中是否存在与分词词语相匹配的词语，若存在与该分词词语相匹配的词语，则确定该分词词语是停用词；若不存在与该分词词语相匹配的词语，则确定该分词词语不是停用词。

在去除停用词之后，得到预设数量的文本反馈信息样本对应的特征词列表，特征词列表是所有样本中，未被筛选过滤掉的分词词语的集合。

c)针对每一个文本反馈信息样本，根据特征词列表生成特征向量。

特征词列表是所有样本的特征词的集合，根据文本反馈信息样本，可以得到每一个文本反馈信息样本对应的特征词，因此，可以根据特征词列表及该文本反馈信息样本对应的至少一个特征词，生成每一个文本反馈信息样本对应的特征向量，特征向量的维度是根据特征词列表中特征词的数量确定的，针对一个文本反馈信息样本，若该文本反馈信息样本存在相应的特征词，则该特征词对应的维度的特征值为1，若该文本反馈信息样本不存在相应的特征词，则该特征词对应的维度的特征值为0，得到每一个文本反馈信息样本对应的特征向量。

d)根据所述特征向量以及与文本反馈信息样本对应的处理端标注结果进行样本训练得到分类预测模型。

在得到每一个文本反馈信息样本对应的特征向量后，根据所生成的特征向量以及与文本反馈信息样本对应的处理端标注结果进行样本训练得到分类预测模型，具体地，可以利用朴素贝叶斯模型、多分类SVM、决策树进行模型训练。

下面结合具体实例进行说明，为了便于说明，下面以三个样本为例进行分类预测模型训练，实际的模型训练需要采用大量的样本，训练样本组成形式为(文本反馈信息，处理端标签)，针对于口碑应用(当然还可以是其他产品)，文本反馈信息是所接收到的商户或用户反馈的问题描述，处理端标签是历史上最终处理该问题的开发者，在训练样本中，处理端就是每个样本的分类：

在本实例中获取到的样本分别如下：

i.“看一下商品无法下架的问题，这边看快排工具是没有活动锁定的，但商户后台不能下架”；处理端标签A，对应的标志值为0

ii.“在活动里面有xxx条报名信息，实际门店只有xxx家”；处理端标签B，对应的标志值为1

iii.“销售工作台平台活动聚划算报名入口，新增商品，新建商品，无法提交”；处理端标签C，对应的标志值为2。

分别对上述文本反馈信息样本进行分词处理，例如，可以采用结巴分词，经过分词处理后，第i个样本的分词结果如下：

'看','一下','商品','无法','下架','的','问题',',','这边','看快','排','工具','是','没有','活动','锁定','的','，','但','商户','后台','不能','下架'；

第ii个样本的分词结果如下：

'在','活动','里面','有','xxx','条','报名','信息',',','实际','门店','只有','xxx','家'；

第iii个样本的分词结果如下：

'销售','工作台','平台','活动','聚划算','报名','入口',','新增','商品',',','新建','商品',',','无法','提交'。

由于所得到的分词结果中包含较多的停顿词和标点符号，(如“的”，”,”等)，因此，需要利用停用词词库(stopwords.txt)对停顿词和标点符号进行筛除，去除无意义的停顿词和标点符号，具体步骤如下：

将每个分词词语与停用词词库里的词语进行对比，如果若存在与该分词词语相匹配的词语，则确定该分词词语是停用词，不将该分词词语加入特征向量；若不存在与该分词词语相匹配的词语，则确定该分词词语不是停用词，可以确定该词语是特征词，将其加入特征词向量中，具体可以如下代码实现：

feature_words＝[]

if word not in stopwords_set:

feature_words.append(word)

在对所有样本进行停用词去除处理之后，得到所有样本的特征词列表，比如根据上述三个样本，特征词列表如下：

<class'list'>:['商品','活动','无法','下架','报名','一下','问题','看快','工具','没有','锁定','商户','后台','不能','里面','xxx','信息','实际','门店','销售','工作台','平台','聚划算','入口','新增','新建','提交']

对应三个样本，其特征向量分别为：

样本i的特征向量为：

<class'list'>:[1,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0]

样本ii的特征向量为：

<class'list'>:[0,1,0,0,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0]

样本iii的特征向量为：

<class'list'>:[1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]

根据上述三个样本的特征向量进行训练，得到分类预测模型，例如，classifier＝MultinomialNB().fit(train_feature_list,train_class_list)，其中，train_feature_list为上文中所有样本特征向量的集合，train_class_list表示每个特征向量所表示的样本的处理端标签，classifier即为根据朴素贝叶斯模型训练得到的分类预测模型。

下面结合具体实例介绍文本反馈信息的排查方法具体实现过程：

图1示出了根据本发明一个实施例的文本反馈信息的排查方法的流程示意图。该方法基于经过训练的分类预测模型执行，如图1所示，该方法包括以下步骤：

步骤S100，接收来自商家或用户的文本反馈信息。

商家或用户在使用产品(例如，应用、虚拟服务或者其它实际的物品等)过程中可能会遇到各种各样的问题，在遇到问题后，商家或用户通常会选择以书面形式反馈所出现的问题，这里，商家或用户针对问题的文字描述称之为文本反馈信息。

在本发明实施例中，会向商家或用户提供问题反馈页面，商家或用户进入该页面中，输入所遇到的问题，用户点击“发送按钮”或“回车按钮”等视为反馈了相应的问题，服务端接收来自商家或用户的文本反馈信息。

步骤S101，对文本反馈信息进行处理，得到对应的特征向量。

在接收到文本反馈信息之后，需要对文本反馈信息进行处理，例如，分词处理、停用词去除处理，针对处理后的文本反馈信息，生成特征向量，其中，特征向量的每一特征值的取值为0或1。

步骤S102，将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

在得到文本反馈信息对应的特征向量之后，可以将特征向量输入至经过训练的分类预测模型，利用该分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签，其中，处理端标签是处理相应问题的处理端的名称。

在本发明实施例中，使用分类预测模型的优势在于能够及时准确地确定文本反馈信息对应的处理端标签，避免人工确定文本反馈信息对应的处理端标签而导致的遗漏、不及时以及分类错误等问题，解放人力，节省人工成本。

步骤S103，根据处理端标签，将文本反馈信息推送给相应的处理端。

在得到处理端标签之后，根据处理端标签，将文本反馈信息推送给相应的处理端，由该处理端解答商户或用户的问题。

根据本发明上述实施例提供的方法，接收来自商家或用户的文本反馈信息；对文本反馈信息进行处理，得到对应的特征向量；将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；根据处理端标签，将文本反馈信息推送给相应的处理端。基于本发明提供的方案，利用分类预测模型能够及时准确地确定文本反馈信息对应的处理端标签，使得相应的处理端能够及时获知所商家或用户反馈的信息，并及时处理，避免人工确定文本反馈信息对应的处理端标签而导致的遗漏、不及时以及分类错误等问题，解放人力，节省人工成本。

图2示出了根据本发明另一个实施例的文本反馈信息的排查方法的流程示意图。该方法基于经过训练的分类预测模型执行，如图2所示，该方法包括以下步骤：

步骤S200，接收来自商家或用户的文本反馈信息。

本步骤的具体实现请参照图1所示实施例中的步骤S100。下面结合具体实例进行说明，用户在使用口碑应用时，可能会遇到的问题为例，用户在口碑应用中领取了店铺红包，然而到店使用时，该红包却无法使用，该用户则会在问题反馈页面中，文字输入所遇到的问题，例如，已领取了店铺红包，但是到店付款时，红包在该店铺无法抵扣，用户点击“发送按钮”或“回车按钮”等视为反馈了相应的问题，服务端接收来自用户的文本反馈信息为：已领取了店铺红包，但是到店付款，红包在该商家店铺无法抵扣。为描述更清楚，在后续描述过程中，以文本反馈信息为：已领取了店铺红包，但是到店付款时，红包在该店铺无法抵扣为例进行说明。

步骤S201，对文本反馈信息进行分词处理，得到多个分词词语。

在接收到文本反馈信息之后，需要先对文本反馈信息进行分词处理，将文本反馈信息切分为多个分词词语，其中，分词处理指将一个汉字序列切分成一个一个单独的词，现有技术中有多种切分词方法，例如，基于字符串匹配的分词方法，基于理解的分词方法和基于统计的分词方法等。本领域技术人员能够根据需求进行选取，或是综合使用多种方法。

其中，结巴分词是一种常用的分词算法，该算法支持以下分词模式：

1、精确模式，试图将句子最精确地切开，适合文本分析；

2、全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；

3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

利用结巴分词可以提升分词结果的准确性，本发明实施例利用结巴分词对文本反馈信息：已领取了店铺红包，但是到店付款，红包在该商家店铺无法抵扣进行分词处理，得到的分词结果为：‘已’、‘领取’、‘了’、‘店铺’、‘红包’‘，’‘但是’、‘到店’、‘付款’、‘时’、‘，’‘红包’、‘在’、‘该’、‘店铺’、‘无法’、‘抵扣’。

在对文本反馈信息进行分词处理，得到多个分词词语之后，由于分词词语中可能包含一些无意义的词语和标点符号，而这些无意义的词语和标点符号对于生成特征向量无任何意义，而且还会影响分类结果，因此，需要去除多个分词词语中的无意义的词语和标点符号，也就是说，需要对多个分词词语进行停用词去除处理，停用词去除处理之后得到的分词词语称为特征词，具体地，可以利用步骤S202-步骤S205中的方法对多个分词词语进行停用词去除处理：

步骤S202，从多个分词词语中选择一未曾被选择过的分词词语，判断停用词词库中是否存在与分词词语相匹配的词语，若是，则执行步骤S203；若否，则执行步骤S204。

为了减少停用词对分类的影响，可以预先设置一个停用词词库，停用词词库存储有作为停用词的词语，根据这个停用词词库可以将多个分词词语中的停用词剔除掉，从而有助于后续分类。

具体地，从多个分词词语中选择一未曾被选择过的分词词语，判断停用词词库中是否存在与分词词语相匹配的停用词，若存在与该分词词语相匹配的词语，则确定该分词词语是停用词；若不存在与该分词词语相匹配的词语，则确定该分词词语不是停用词。

步骤S203，将分词词语确定为非特征词。

在根据步骤S202判断出停用词词库中存在与该分词词语相匹配的词语的情况下，确定该分词词语是停用词，那么将该分词词语确定为非特征词。

步骤S204，将该分词词语确定为特征词。

在根据步骤S202判断出停用词词库中不存在与该分词词语相匹配的词语的情况下，确定该分词词语不是停用词，那么将该分词词语确定为特征词。其中，特征词为生成特征向量时所使用的词语，这些词都具有实际的意义，能够帮助理解所反馈的问题，因此，在生成特征向量时也是必不可少的。

在从多个分词词语中选择了分词词语之后，需要记录分词词语的选择状态，例如，已被选择过，这样，方便从多个分词词语中选择未曾被选择过的分词词语。

步骤S205，判断多个分词词语是否都被选择过；若是，则执行步骤S206；若否，则跳转执行步骤S202。

根据所记录的分词词语的选择状态确定多个分词词语是否已都被选择过，若是，则说明停用词去除处理结束，可以继续执行后续方法步骤，若否，则说明多个分词词语还有分词词语未进行停用词筛选，需要从多个分词词语中选择一未曾被选择过的分词词语，判断停用词词库中是否存在与分词词语相匹配的词语。

针对步骤S201中得到的多个分词词语：‘已’、‘领取’、‘了’、‘店铺’、‘红包’‘，’‘但是’、‘到店’、‘付款’、‘时’、‘，’‘红包’、‘在’、‘该’、‘店铺’、‘无法’、‘抵扣’，执行步骤S202-步骤S205中的方法，最后得到特征词为：‘领取’、‘店铺’、‘红包’、‘到店’、‘付款’、‘无法’、‘抵扣’。

步骤S206，根据至少一个特征词，生成特征向量。

在得到至少一个特征词之后，根据该特征词生成特征向量，其中，特征向量的维度是根据所有训练样本的特征词的数量确定的，对于特征词：‘领取’、‘店铺’、‘红包’、‘到店’、‘付款’、‘无法’、‘抵扣’，其在特征向量中相应维度的特征值赋值为1，其他维度赋值为0，得到最终的特征向量。

步骤S207，判断是否存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，若是，则执行步骤S208；若否，则执行步骤S209。

在本发明实施例中，可以将商家或用户反馈的历史文本反馈信息以及处理端所给出的排查方案关联存储至排查信息库，以便于当有相似或相同的问题反馈时，可以快速地将对应的排查方案返回给商家或用户。

因此，在得到新的文本反馈信息对应的特征向量之后，可以计算该新的文本反馈信息对应的特征向量与排查信息库中存储的历史文本反馈信息对应的特征向量之间的相似度，例如，可以利用夹角余弦算法计算相似度，这里仅是举例说明，还可以使用其他计算算法；还可以直接计算该文本反馈信息与历史文本反馈信息之间的相似度，这里不做具体限定。其中，历史文本反馈信息对应的特征向量可以参见步骤S201-步骤S206中的方法得到。

在计算得到相似度之后，通过判断相似度是否大于或等于预设阈值，确定是否存在相似或相同的历史文本反馈信息，若存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则说明过去有商家或用户反馈过相似或相同的问题；若不存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则说明过去没有商家或用户反馈过相似或相同的问题，是一个新的问题。

步骤S208，将历史文本反馈信息对应的排查方案返回给商家或用户。

根据步骤S207判断出存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息的情况下，可以将历史文本反馈信息对应的排查方案返回给商家或用户，从而提升了排查速度和效率。

步骤S209，将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

若不存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则说明过去没有商家或用户反馈过相似或相同的问题，是一个新的问题，需要确定该文本反馈信息对应的处理端标签。

具体地，在得到文本反馈信息对应的特征向量之后，可以将特征向量输入至经过训练的分类预测模型，利用该分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签，其中，处理端标签是处理相应问题的处理端的名称，分类预测模型可以是朴素贝叶斯模型或决策树模型等。

步骤S210，根据处理端标签，将文本反馈信息推送给相应的处理端。

根据本发明上述实施例提供的方法，通过文本反馈信息进行分词处理、停用词去除处理，利用处理之后的词语生成特征向量，提高了特征向量的准确性，这样，基于该特征向量所确定文本反馈信息对应的处理端标签更准确，另外，本发明抛弃了人工分配文本反馈信息的方法，而是利用分类预测模型确定文本反馈信息对应的处理端标签，保证了文本反馈信息能够及时地、准确地分发给对应的处理端，避免人工确定文本反馈信息对应的处理端标签而导致的遗漏、不及时以及分类错误等问题，解放人力，节省人工成本；另外，本发明在确定存在与所述文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息的情况下，将所述历史文本反馈信息对应的排查方案返回给商家或用户，提升了排查处理速度，进一步提升了商家或用户的体验。

图3示出了根据本发明一个实施例的文本反馈信息的排查装置的结构示意图。如图3所示，该装置包括：接收模块300、处理模块310、分类预测模块320、推送模块330。

接收模块300，适于接收来自商家或用户的文本反馈信息。

处理模块310，适于对文本反馈信息进行处理，得到对应的特征向量。

分类预测模块320，适于将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

推送模块330，适于根据处理端标签，将文本反馈信息推送给相应的处理端。

可选地，该装置还包括：判断模块340，适于判断是否存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息；

返回模块350，适于若存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则将历史文本反馈信息对应的排查方案返回给商家或用户；

分类预测模块320进一步适于：若不存在与文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

可选地，处理模块310进一步包括：第一分词处理单元311，适于对文本反馈信息进行分词处理，得到多个分词词语；

第一停用词去除处理单元312，适于对多个分词词语进行停用词去除处理，筛选得到至少一个特征词；

第一生成单元313，适于根据至少一个特征词，生成特征向量。

可选地，第一停用词去除处理单元312进一步适于：从多个分词词语中选择一未曾被选择过的分词词语，判断停用词词库中是否存在与分词词语相匹配的词语；

若否，则将分词词语确定为特征词。

可选地，装置还包括：分类预测模型训练模块360；

分类预测模型训练模块包括：第二分词处理单元361，适于获取预设数量的文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果，对所述文本反馈信息样本进行分词处理，得到多个分词词语；

第二停用词去除处理单元362，适于对所述多个分词词语进行停用词去除处理，得到与所述预设数量的文本反馈信息样本对应的特征词列表；

第二生成单元363，适于针对每一个文本反馈信息样本，根据所述特征词列表生成特征向量；

训练单元364，适于根据所述特征向量以及与文本反馈信息样本对应的处理端标注结果进行样本训练得到分类预测模型。

根据本发明上述实施例提供的装置，接收来自商家或用户的文本反馈信息；对文本反馈信息进行处理，得到对应的特征向量；将特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；根据处理端标签，将文本反馈信息推送给相应的处理端。基于本发明提供的方案，利用分类预测模型能够及时准确地确定文本反馈信息对应的处理端标签，使得相应的处理端能够及时获知所商家或用户反馈的信息，并及时处理，避免人工确定文本反馈信息对应的处理端标签而导致的遗漏、不及时以及分类错误等问题，解放人力，节省人工成本。

本发明实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文本反馈信息的排查方法。

图4示出了根据本发明实施例六的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述文本反馈信息的排查方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述任意方法实施例中的文本反馈信息的排查方法。程序410中各步骤的具体实现可以参见上述文本反馈信息的排查实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文本反馈信息的排查设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文本反馈信息的排查方法，所述方法基于经过训练的分类预测模型执行，包括：

接收来自商家或用户的文本反馈信息；

对所述文本反馈信息进行处理，得到对应的特征向量；

将所述特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；

根据所述处理端标签，将所述文本反馈信息推送给相应的处理端。

2.根据权利要求1所述的方法，其中，在将所述特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签之前，所述方法还包括：

判断是否存在与所述文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息；

若是，则将所述历史文本反馈信息对应的排查方案返回给商家或用户；

若否，则将所述特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

3.根据权利要求1或2所述的方法，其中，所述对所述文本反馈信息进行处理，得到对应的特征向量进一步包括：

对所述文本反馈信息进行分词处理，得到多个分词词语；

对所述多个分词词语进行停用词去除处理，筛选得到至少一个特征词；

根据所述至少一个特征词，生成特征向量。

4.根据权利要求3所述的方法，其中，所述对多个分词词语进行停用词去除处理，筛选得到至少一个特征词进一步包括：

从所述多个分词词语中选择一未曾被选择过的分词词语，判断停用词词库中是否存在与所述分词词语相匹配的词语；

若否，则将所述分词词语确定为特征词。

5.根据权利要求1-4中任一项所述的方法，其中，所述分类预测模型训练所用的样本包含：多个文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果。

6.根据权利要求1-5中任一项所述的方法，其中，所述分类预测模型的训练过程包括：

获取预设数量的文本反馈信息样本以及与文本反馈信息样本对应的处理端标注结果，对所述文本反馈信息样本进行分词处理，得到多个分词词语；

对所述多个分词词语进行停用词去除处理，得到与所述预设数量的文本反馈信息样本对应的特征词列表；

针对每一个文本反馈信息样本，根据所述特征词列表生成特征向量；

根据所述特征向量以及与文本反馈信息样本对应的处理端标注结果进行样本训练得到分类预测模型。

7.一种文本反馈信息的排查装置，所述装置基于经过训练的分类预测模型执行，包括：

接收模块，适于接收来自商家或用户的文本反馈信息；

处理模块，适于对所述文本反馈信息进行处理，得到对应的特征向量；

分类预测模块，适于将所述特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签；

推送模块，适于根据所述处理端标签，将所述文本反馈信息推送给相应的处理端。

8.根据权利要求7所述的装置，其中，所述装置还包括：

判断模块，适于判断是否存在与所述文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息；

返回模块，适于若存在与所述文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则将所述历史文本反馈信息对应的排查方案返回给商家或用户；

所述分类预测模块进一步适于：若不存在与所述文本反馈信息的相似度大于或等于预设阈值的历史文本反馈信息，则将所述特征向量输入至分类预测模型进行分类预测，得到文本反馈信息对应的处理端标签。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的文本反馈信息的排查方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的文本反馈信息的排查方法对应的操作。