CN104778184A

CN104778184A - 一种确定反馈关键词的方法和装置

Info

Publication number: CN104778184A
Application number: CN201410018491.2A
Authority: CN
Inventors: 刘杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2015-07-15

Abstract

本发明公开了一种确定反馈关键词的方法和装置，属于互联网技术领域。所述方法包括：获取多个反馈文本；根据各反馈文本之间的词的相关度，对所述各反馈文本进行分类；对于得到的每个类，根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词。采用本发明，可以提高问题定位的准确性。

Description

一种确定反馈关键词的方法和装置

技术领域

本发明涉及互联网技术领域，特别涉及一种确定反馈关键词的方法和装置。

背景技术

随着终端技术的飞速发展，个人计算机、手机、智能电视等终端设备得到了广泛的推广和应用。在终端设备中使用的应用程序也随之得到了快速的发展，种类越来越丰富，数量越来越庞大。

应用程序的开发者在发行一个新的应用程序或应用程序的新版本以后，一般会对应用程序的使用情况进行研究分析。相应的做法是通过产品论坛、用户上传意见、微博等渠道，获取各用户的反馈意见，一般是反馈文本的形式。然后根据预先存储的多个关键词（如好用、垃圾、死机等），对获取的多条反馈文本进行分类，将与同一关键词匹配的各反馈文本分为一类，并将匹配出的关键词作为反馈关键词。基于反馈关键词，工作人员可以进一步分析，确定应用程序的使用情况，如市场反响如何、出现了哪些问题等。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

通过上述方法确定反馈关键词的过程中，使用预先存储的多个关键词，往往不能反映新出现的问题，例如，某应用程序新推出了语音功能，出现了一个问题是语音只能播放一半，通过已存的关键词不能反映这个问题。这样，会导致问题定位的准确性较差。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种确定反馈关键词的方法和装置，以提高问题定位的准确性。所述技术方案如下：

一方面，提供了一种确定反馈关键词的方法，所述方法包括：

获取多个反馈文本；

根据各反馈文本之间的词的相关度，对所述各反馈文本进行分类；

对于得到的每个类，根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词。

另一方面，提供了一种确定反馈关键词的装置，所述装置包括：

获取模块，用于获取多个反馈文本；

分类模块，用于根据各反馈文本之间的词的相关度，对所述各反馈文本进行分类；

确定模块，用于对于得到的每个类，根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，获取多个反馈文本，根据各反馈文本之间的词的相关度，对各反馈文本进行分类，对于得到的每个类，根据类内的反馈文本所包含的各词在类内的出现次数，在此各词中，确定反馈关键词，这样，可以及时对新出现的问题建立新的分类，并确定出相应的反馈关键词，能够定位新出现的问题，从而，可以提高问题定位的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的确定反馈关键词的方法流程图；

图2是本发明实施例提供的确定反馈关键词的装置结构示意图；

图3是本发明实施例提供的服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种确定反馈关键词的方法，如图1所示，该方法的处理流程可以包括如下的步骤：

步骤101，获取多个反馈文本。

步骤102，根据各反馈文本之间的词的相关度，对各反馈文本进行分类。

步骤103，对于得到的每个类，根据类内的反馈文本所包含的各词在类内的出现次数，在此各词中，确定反馈关键词。

实施例二

本发明实施例提供了一种确定反馈关键词的方法，该方法的执行主体可以为任意具有处理能力的设备，优选的，执行主体可以为网络侧设置的用于进行用户反馈分析的服务器。本实施例中，以执行主体为服务器为例进行方案的详细说明，其它设备的情况与之类似，本实施例中不再累述。

下面将结合具体的处理方式，对图1所示的处理流程进行详细的说明，内容可以如下：

步骤101，获取多个反馈文本。

其中，反馈文本可以是用户反馈的对某产品（如某应用程序）的使用情况的信息，此反馈的信息为文本形式的信息。

在实施中，在某应用程序（如即时通信应用、视频播放应用、游戏应用等）上线之后，运行并使用了该应用程序的用户会在使用过程中遇到各种各样的情况，用户可以通过多种渠道反馈自己的使用情况的信息，例如，在应用程序中可以设置反馈选项，打开反馈选项后，可以显示反馈窗口，用户在其中可以输入反馈文本，如“软件很好用”、“启动界面经常卡死”等，又例如，用户可以在各种网站的产品论坛中，发帖或在其他人的帖子下面进行回复，输入相应的反馈文本，还例如，用户可以对该应用程序的官方微博发表的博文进行回复，输入相应的反馈文本。对于用户直接在应用程序中输入反馈文本的情况，应用程序会将反馈文本发送给网络侧，服务器即可以直接获取到用户输入的反馈文本。对于论坛和微博的情况，服务器可以从相应的产品论坛的服务器中获取到大量用户的反馈文本，还可以从微博服务器中获取大量用户的反馈文本。还有很多获取反馈文本的方式，本发明实施例中不一一例举。

其中，相关度可以是记录词与词之间的相关程度的参数。不同词之间的相关度的数值可以根据算法的需求预先设置，例如，“卡死”和“无反应”可以设置较高的相关度，“卡死”和“好用”可以设置较低的相关度，或者，相关度也可以根据算法公式的训练过程来确定。根据两个反馈文本之间词的相关度，可以确定两个反馈文本的语义的相关程度。不同的算法中得到的相关度的数值可能不同。

在实施中，可以先对获取到的所有反馈文本进行分词处理，分词处理的过程可以是先根据预先建立的词库，将文本划分为一个一个的词，然后去除掉一些对语义影响较小的词，一般可以保留名词、动词等词。然后，基于预设的语义分析算法，根据反馈文本之间的词的相关度，计算各反馈文本之间的相关度。将相关度较高的反馈文本归为一类，将相关度较低的反馈文本归到不同类。这里，预设的语义分析算法可以根据需求任意设置，如PLSA（Probability LatentSemantic Analysis，概率潜在语义分析）算法等。

在基于语义分析算法对反馈文本进行分类时，可以对分类的粒度进行控制，控制粒度的方式有很多，优选的，可以预先设置一个分类数目，根据各反馈文本之间的词的相关度，和预设的分类数目，对各反馈文本进行分类。在实施中，在PLSA算法中，可以将相关度等效为一种距离，将分布较为集中（距离较近，相关度较高）的多个反馈文本划在一类中，这样，基于预设的分类数目，可以确定同类的反馈文本之间相关度的要求，进而可以确定如何分类。

其中，出现次数可以是某词在某个类的所有反馈文本中总共出现的次数。反馈关键词是用于反映一类反馈文本的核心语义的词。例如，某一类反馈文本中包括“软件很好用”、“比较好用”、“非常好用”、“还好”等反馈文本，其中“好用”一词的出现次数很高，相应的反馈关键词就可以确定为“好用”。对于上述分类过程得到的每个类，都可以确定出一个到多个反馈关键词，以供工作人员分析应用程序的使用情况，例如，某类反馈文本对应的反馈关键词为“好用”，或者，某一类反馈文本对应的反馈关键词为“卡死”，或者，某一类反馈文本对应的反馈关键词为“语音”、“播放”和“一半”，等等。

具体的，确定反馈关键词的处理方式可以多种多样，例如，可以选取出现次数在各词的出现次数总和中的比例超过预设阈值的词，作为反馈关键词。优选的，以下给出了几种可行的确定反馈关键词的处理方式：

方式一

首先，对类内的反馈文本进行分词处理。

在实施中，对于每个类，可以获取类内的所有反馈文本，分别进行分词处理，分词处理的过程可以是先根据预先建立的词库，将文本划分为一个一个的词，然后去除掉一些对语义影响较小的词，一般可以保留名词、动词等词。

然后，确定分词处理得到的各词在类内的出现次数。

在实施中，对于上述类内的所有反馈文本进行分词处理得到的所有词，可以统计每个词在该类内的这些反馈文本中的出现次数，例如，A词出现了100次，B词出现了50次，C词出现了10次等。

最后，将出现次数最高的预设数目个词，确定为反馈关键词。

其中，预设数目是预先设置的每类反馈文本对应的反馈关键词的数目，如1、2、3、4等。通过一定数量的反馈关键词就可以大体的反映反馈文本的语义。

在实施中，可以根据上述确定出的各词的出现次数的多少，对各词进行由出现次数多到少的排序，将排在最前面的预设数目个（如2个）词作为反馈关键词。

方式二

首先，根据预设的至少一个词组，对类内的反馈文本进行前向分词处理。

其中，前向分词处理是指在分词使用的词库中加入一些预设的词组，在进行分词的过程中，保持这些词组的完整性。

在实施中，对于每个类，可以获取类内的所有反馈文本，分别进行前向分词处理，在分词的词库中预先加入至少一个预设的词组，如“显示不完整”、“播放不全”、“播放一半”等，将文本划分为一个一个的词，并保留上述词组的完整性，然后去除掉一些对语义影响较小的词，一般可以保留名词、动词等词，以及上述词组。

然后，确定前向分词处理得到的各词或词组在类内的出现次数。

具体的处理过程与方式一类似，可以参见方式一中的相关说明，此处不再累述。

最后，将出现次数最高的预设数目个词和/或词组，确定为反馈关键词。

在实施中，可以根据上述确定出的各词和/或词组的出现次数的多少，对各词和/或词组进行由出现次数多到少的排序，将排在最前面的预设数目个（如2个）词和/或词组作为反馈关键词。确定出来的反馈关键词可以包括词，也可以包括词组。

方式三

首先，按照预设的分词长度，对类内的反馈文本进行分词处理。

在实施中，这种按固定的分词长度进行分词处理的方式可称为定长分词处理。在文本中，按固定的分词长度从前向后取字符，例如，反馈文本为“软件很好用”，分词长度为3，那么可以分为“软件很”、“件很好”、“很好用”三个词。

然后，确定分词处理得到的各词在类内的出现次数。

实施例三

基于相同的技术构思，本发明实施例还提供了一种确定反馈关键词的装置，如图2所示，所述装置包括：

获取模块210，用于获取多个反馈文本。

分类模块220，用于根据各反馈文本之间的词的相关度，对所述各反馈文本进行分类。

确定模块230，用于对于得到的每个类，根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词。

优选的，所述分类模块220，用于：

根据各反馈文本之间的词的相关度，和预设的分类数目，对所述各反馈文本进行分类。

优选的，所述确定模块230，用于：

对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

优选的，所述确定模块230，用于：

根据预设的至少一个词组，对类内的反馈文本进行前向分词处理；

确定前向分词处理得到的各词或词组在类内的出现次数；

将出现次数最高的预设数目个词和/或词组，确定为反馈关键词。

优选的，所述确定模块230，用于：

按照预设的分词长度，对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

实施例四

图3是本发明实施例提供的服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（centralprocessing units，CPU）1922（例如，一个或一个以上处理器）和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930（例如一个或一个以上海量存储设备）。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器1900可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取多个反馈文本；

优选的，所述根据各反馈文本之间的词的相关度，对所述各反馈文本进行分类，包括：

优选的，所述根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词，包括：

对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

确定前向分词处理得到的各词或词组在类内的出现次数；

按照预设的分词长度，对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

需要说明的是：上述实施例提供的确定反馈关键词的装置在确定反馈关键词时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定反馈关键词的装置与确定反馈关键词的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定反馈关键词的方法，其特征在于，所述方法包括：

获取多个反馈文本；

2.根据权利要求1所述的方法，其特征在于，所述根据各反馈文本之间的词的相关度，对所述各反馈文本进行分类，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词，包括：

对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

4.根据权利要求1所述的方法，其特征在于，所述根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词，包括：

确定前向分词处理得到的各词或词组在类内的出现次数；

5.根据权利要求1所述的方法，其特征在于，所述根据类内的反馈文本所包含的各词在类内的出现次数，在所述各词中，确定反馈关键词，包括：

按照预设的分词长度，对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

6.一种确定反馈关键词的装置，其特征在于，所述装置包括：

获取模块，用于获取多个反馈文本；

7.根据权利要求6所述的装置，其特征在于，所述分类模块，用于：

8.根据权利要求6所述的装置，其特征在于，所述确定模块，用于：

对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。

9.根据权利要求6所述的装置，其特征在于，所述确定模块，用于：

确定前向分词处理得到的各词或词组在类内的出现次数；

10.根据权利要求6所述的装置，其特征在于，所述确定模块，用于：

按照预设的分词长度，对类内的反馈文本进行分词处理；

确定分词处理得到的各词在类内的出现次数；

将出现次数最高的预设数目个词，确定为反馈关键词。