CN105740232A

CN105740232A - 一种自动提取反馈热点的方法和装置

Info

Publication number: CN105740232A
Application number: CN201610060514.5A
Authority: CN
Inventors: 路远; 林惠娟; 杨丽霞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2016-07-06

Abstract

本发明提供了一种自动提取反馈热点的方法和装置。其中方法包括：预处理从评估区间获取的反馈信息以得到分词集合；依据分词的出现频率确定评估区间的分词集合中各分词的分值；根据反馈信息的属性对各分词的分值进行校正；基于校正后的分值确定作为反馈热点的分词。本发明通过自动提取反馈热点，且在自动提取过程中基于反馈信息中分词的分值及分值校正结果从而确定作为反馈热点的分词，可以节省由人工进行反馈热点提取所耗费的人力资源，并且提高了从大量反馈信息中提取反馈热点的提取准确率。

Description

一种自动提取反馈热点的方法和装置

【技术领域】

本发明涉及计算机技术领域，尤其涉及一种自动提取反馈热点的方法和装置。

【背景技术】

在互联网产品中，用户反馈是一个重要的信息源。通过分析用户反馈信息，可以得到当前的产品缺陷及用户新的需求。这些信息对于产品的修正及未来发展方向都有极为重要的参考意义。

通常对用户反馈信息进行分析的方式是通过人工来实现的，即通过人手工的对一个时间段内的用户反馈信息进行处理。

处理流程一般为：对于一个时间段内的用户反馈进行分析，确定其重要程度；根据重要程度得出当前的反馈热点问题，反馈热点问题包括：

a)新出现的问题或者需求，急需跟踪处理的问题。

b)已知但未解决的问题，但是被多位用户重复提及的。

上述流程仅适用于用户反馈量较少的情况。对于产品用户量级较大的情况，如日均反馈量超过500条，对这些反馈进行全面的人工分析需要大量的人力。因此对于这种情况，只能采用抽样的方式，然后再有人工对抽样的反馈信息进行处理。

对大数据的抽样是一个已知的信息提取方式，确实能够反映一个统计学上的问题趋势。但是在热点的提取上却不合适，比如如果需要从10000条用户反馈中发现一个热点问题，当热点问题涉及的反馈数是个位数时，是容易被遗漏的。即抽样能够发现较多的问题，但是会遗漏极少数但有价值的反馈。

然而现有技术中无论是通过人工全面挖掘反馈热点，还是通过人工抽样挖掘反馈热点，其所挖掘的结果都不一定合理，有意义，不一定是真正关注的热点。

【发明内容】

本发明提供了一种自动提取反馈热点的方法和装置，解决因人工处理大量反馈信息从而提取反馈热点造成的人力消耗大，且提取的反馈热点准确率不高的问题。

具体技术方案如下：

本发明提供了一种自动提取反馈热点的方法，所述方法包括：

预处理从评估区间获取的反馈信息以得到分词集合；

依据分词的出现频率确定评估区间的分词集合中各分词的分值；

根据反馈信息的属性对各分词的分值进行校正；

基于校正后的分值确定作为反馈热点的分词。

根据本发明一优选实施例，所述预处理包括：

依据分词词典对评估区间的反馈信息进行分词处理；

去除反馈信息中无意义或者重复的内容。

根据本发明一优选实施例，所述去除反馈信息中无意义或者重复的内容包括：

确定评估区间的反馈信息中分词的个数，如果分词的个数小于或等于预定值，则删除该反馈信息；或者，

对于具有相同反馈人ID以及投诉人ID的N个反馈信息，仅保留N个反馈信息中的任一个反馈信息，其中所述N为大于等于2的正整数；或者，

对评估区间的反馈信息之间的首尾进行字符串匹配，如果字符串匹配成功，则仅保留字符串匹配的反馈信息中的任一个反馈信息；或者，

对评估区间的反馈信息之间进行语义相似度计算，如果相似度高于预定值，则仅保留相似度高于预定值的反馈信息中的任一个反馈信息。

根据本发明一优选实施例，所述依据分词的出现频率确定评估区间的分词集合中各分词的分值包括：

对评估区间的分词集合中分词的出现频率进行统计；

依据分词在评估区间的分词集合中出现频率由高到低的顺序，赋予分词由低到高的第一权重；

依据分词在评估区间的各反馈信息中出现频率由高到低的顺序，赋予分词由高到低的第二权重；

根据评估区间的分词集合中分词的第一和第二权重确定各分词的分值。

根据本发明一优选实施例，所述反馈信息的属性包括反馈信息的出现时间标记，反馈信息的来源ID，或者反馈信息中各分词的内容。

根据本发明一优选实施例，所述根据反馈信息的属性对各分词的分值进行校正包括：

预处理从训练区间获取的反馈信息以得到分词集合，其中所述评估区间或所述训练区间是通过反馈信息的出现时间标记来区分的；

对训练区间的分词集合中分词的出现频率进行统计；

依据训练区间中分词的出现频率由高到低的顺序，为评估区间中的对应分词按照由低到高的顺序赋予第三权重；

基于第三权重对各分词的分值进行校正。

将分词的来源ID与预设的来源列表进行匹配以确定第四权重，其中所述来源列表维护有各反馈来源与权重的对应关系；

基于第四权重对各分词的分值进行校正。

将分词的内容与黑名单进行匹配；

将与黑名单匹配的分词的分值置为0。

根据本发明一优选实施例，在确定作为反馈热点的分词之后，将属于同一反馈信息的作为反馈热点的分词划分为一个分词组。

根据本发明一优选实施例，所述方法还包括：将提取的反馈热点存入数据库中，根据查询请求为用户呈现所述数据库中的反馈热点。

本发明还提供了一种自动提取反馈热点的装置，所述装置包括：

预处理单元，用于预处理从评估区间获取的反馈信息以得到分词集合；

分值确定单元，用于依据分词的出现频率确定评估区间的分词集合中各分词的分值；

校正单元，用于根据反馈信息的属性对各分词的分值进行校正；

热点确定单元，用于基于校正后的分值确定作为反馈热点的分词。

根据本发明一优选实施例，所述预处理单元包括：

分词单元，用于依据分词词典对评估区间的反馈信息进行分词处理；

去除单元，用于去除反馈信息中无意义或者重复的内容。

根据本发明一优选实施例，所述去除单元具体执行如下操作：

根据本发明一优选实施例，所述分值确定单元具体执行如下操作：

对评估区间的分词集合中分词的出现频率进行统计；

根据本发明一优选实施例，所述校正单元包括时间校正单元，用于：

对训练区间的分词集合中分词的出现频率进行统计；

基于第三权重对各分词的分值进行校正。

根据本发明一优选实施例，所述校正单元包括来源校正单元，用于：

基于第四权重对各分词的分值进行校正。

根据本发明一优选实施例，所述校正单元包括黑名单校正单元，用于：

将分词的内容与黑名单进行匹配；

将与黑名单匹配的分词的分值置为0。

根据本发明一优选实施例，所述装置还包括分组单元，用于在热点确定单元确定作为反馈热点的分词之后，将属于同一反馈信息的作为反馈热点的分词划分为一个分词组。

根据本发明一优选实施例，所述装置还包括：存储单元，用于将提取的反馈热点存入数据库中；以及查询单元，用于根据查询请求为用户呈现所述数据库中的反馈热点。

由以上技术方案可以看出，本发明通过自动提取反馈热点，且在自动提取过程中基于反馈信息中分词的分值及分值校正结果从而确定作为反馈热点的分词，可以节省由人工进行反馈热点提取所耗费的人力资源，并且提高了从大量反馈信息中提取反馈热点的提取准确率。

【附图说明】

图1为本发明实施例一提供的一种自动提取反馈热点的方法流程图；

图2为本发明实施例一提供的一种划分训练区间和评估区间的示意图；

图3为本发明实施例一提供的一种为用户呈现的查询结果的示意图；

图4为本发明实施例二提供的一种自动提取反馈热点的装置结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的一种自动提取反馈热点的方法流程图，如图1所示，该方法可以包括以下步骤：

101、预处理从评估区间获取的反馈信息以得到分词集合。

由于反馈热点跟具体的时间段有关，在某一时间段能够成为反馈热点的词汇，在另一时间段同样的词汇却不一定能成为反馈热点。因此本发明主要是选取某一时间段的大量原始反馈信息进行处理，以从原始反馈信息中获得该时间段可以进一步分析的数据，以为确定反馈热点作准备。其中，将选取的用于获得反馈热点数据的这一时间段称为评估区间，由评估区间的反馈信息可以反映在该时间段内的反馈热点。

该步骤可以进一步细分为a、依据分词词典对评估区间的反馈信息进行分词处理；以及b、去除反馈信息中无意义或者重复的内容。

a、依据分词词典对评估区间的反馈信息进行分词处理可以包括：

具体地，将在评估区间获取的反馈信息与分词词典进行匹配，利用反馈信息中与分词词典匹配的分词构成分词集合。

优选地，由于所需要提取的反馈热点通常为了反映在反馈历史中极少出现，但现在经常出现的新词汇，因此可以将从当前时刻开始最近一段时间作为评估区间，从而截取该段时间内的反馈信息，通过截取的该段时间内的反馈信息以帮助进行最近热点问题的分析。

例如，将最近1个月作为评估区间，可以获取最近1个月的反馈信息，并且，将其中的一个例如“客服说买了他们的符咒就能中六合彩，骗人的……”的反馈信息进行分词处理，可以利用普通分词词典得到如下分词：客服/说/买/他们/符咒/能/中/六合/彩/骗人。

所获取的反馈信息具有其各自的属性，反馈信息的属性可以包括反馈信息的出现时间标记，反馈信息的来源ID，或者反馈信息中各分词的内容。

反馈信息的出现时间标记表示该反馈信息是什么时候发表的，例如在具体的年月日以及具体的分钟、秒被发表；反馈信息的来源ID表示该反馈信息的用户反馈渠道，例如有产品内部植入的反馈渠道，或者官方反馈渠道、或者微博、微信反馈渠道等等；反馈信息中各分词的内容即将反馈信息进行分词处理后所得到的各分词本身，例如前述对一个反馈信息进行分词处理所得到的分词内容是客服、说、买、他们、符咒等。

另外，在进行分词处理之前，可以预先维护一个分词词典，该分词词典可以包括普通分词词典、为提取某一领域的反馈热点而涉及的专业技术词典、或者为了从反馈信息中提取反馈热点所专门维护的词典等。不限于此，只要该分词词典记录了所有包含能够反映反馈热点的词语，则均属于本发明所保护的分词词典类型。

由于本发明中所应用的技术对词频敏感，对数据的干净程度要求较高，因此在对反馈信息进行分词后，还可以去除反馈信息中无意义的脏数据，或者去除重复的内容，即，

b、去除反馈信息中无意义或者重复的内容：

其中，可以确定反馈信息中分词的个数，如果分词的个数小于或等于预定值，则删除该反馈信息。

通过该方式，可以清洗反馈信息中的无意义内容。

具体地，无意义内容可以包括手敲随机乱码、过短的反馈等内容。

对于这些无意义内容，由于乱码并不包括在对反馈信息进行分词处理所得到的分词中，且根据统计经验，反馈信息写的越短就越通用，一般不会是新的问题，因此可以统计在一个反馈信息中分词的个数，并将分词的个数与预设的预定值进行比较，如果分词的个数小于或等于该预定值，则认为该反馈信息是无意义的内容，进而删除该反馈信息。从而可以利用长度预定值对反馈信息长度的进行限制去除无意义的反馈信息，

优选地，可以将预定值设为15，从而删除一个反馈信息中分词的个数小于等于15的反馈信息。

在去除无意义的内容外，还可以去除重复的内容。

该重复的内容可以包括同一反馈人或者马甲账号反复提交的同样的内容，反馈信息之间的雷同内容，以及相似内容等。

其中，可以对于具有相同反馈人ID以及投诉人ID的N个反馈信息，仅保留N个反馈信息中的任一个反馈信息。通过该方式，可以去除同一反馈人或者马甲账号反复提交的同样的内容。其中所述N为大于等于2的正整数。

具体地，如果是一个反馈人对一个投诉人的多次举报，则这种举报即使内容不尽相同，但反馈热点也基本上相同，因此，可以先通过反馈关系来排除反馈热点基本上相同的重复内容。

对于是否存在同样的反馈关系，可以通过比较各反馈信息之间反馈人ID以及投诉人ID来确定。

如果通过比较发现两个或多个反馈信息之间具有相同的反馈关系，则仅保留该两个或多个反馈信息中的任一个反馈信息，删除反馈关系相同的其余反馈信息。

例如，如果反馈人W对投诉人A反馈一次，对投诉人B反馈两次，对投诉人C反馈一次，则可以删除对投诉人B的一次反馈信息，而仅保留对投诉人B的一个反馈信息。

或者，可以对反馈信息之间的首尾进行字符串匹配，如果字符串匹配成功，则仅保留字符串匹配的反馈信息中的任一个反馈信息。通过该方式，可以去除反馈信息之间的雷同内容。

具体地，雷同内容可以指反馈信息为不同反馈人之间复制/粘贴或者接近复制/粘贴的内容。

对于复制/粘贴或者接近复制/粘贴的内容，可以对反馈信息之间的首部和尾部分别进行字符串匹配，如果两个或多个反馈信息的头部和尾部的内容完全一致，即字符串匹配成功，可以认为该两个或多个反馈信息属于复制/粘贴或者接近复制/粘贴的内容，因此仅保留字符串匹配的反馈信息中的任一个反馈信息，而删除其余首尾部相同的反馈信息。

或者，可以对反馈信息之间进行语义相似度计算，如果相似度高于预定值，则仅保留相似度高于预定值的反馈信息中的任一个反馈信息。

具体地，可以运用PLSA(ProbabilityLatentSemanticAnalysis，概率潜语义分析)算法计算各反馈信息之间的语义相似度，如果经计算发现语义相似度超过预定值，则仅保留相似度高于预定值的反馈信息中的一个反馈信息，而删除相似度高于预定值的反馈信息中的其余反馈信息。

通过上述方式，可以排除反馈信息中内容语义相似度较高的内容，从而在进行随后的词频计算确定反馈热点时，不会由于相似内容的反馈信息而对词频的计算精度造成干扰，保证反馈热点的准确性。而前述对同一反馈人或者马甲账号反复提交的同样的内容，反馈信息之间的雷同内容的排除方式，也同样能够达到上述效果。

由于上述三种去除重复内容的方式所处理的数据量不断增大，因此可以使上述三种方式按照数据处理量由小到大的顺序依次执行，例如可以先用简单的数据处理排除无意义的内容，再排除雷同的内容，并且在排除雷同以后再进行相似内容的排除，从而尽可能以较小的数据处理量来逐渐删除重复的内容。

当然，也可以依据情况以并列或者选择的方式使用上述一种或几种方式，其均在本发明的保护范围内。

102、依据分词的出现频率确定评估区间的分词集合中各分词的分值。

具体地，该步骤可以利用步骤101所得到的评估区间的分词集合，对分词集合中分词的出现频率进行统计，从而根据词频确定分词集合中分词的热度。

也就是说，该步骤中主要通过词频来确定反馈热点。当一个词在评估区间的全部分词集合中出现的次数越多，则其更可能接近于无意义的的粘结性词，从而无法指代一个具有代表性的含义；而当一个词在评估区间的各反馈信息中出现的次数越多，则说明是各反馈者反复强调的内容，则其更可能接近于反馈热点。因此可以依据一个词在分词集合中出现的次数设置第一权重，以及依据同一个词在各反馈信息中出现的次数设置第二权重，从而综合考虑一个词的第一权重和第二权重来确定该词为反馈热点的概率，该概率可以由分值来表示。

即，可以依据分词在评估区间的分词集合中出现频率由高到低的顺序，赋予分词由低到高的第一权重；依据分词在评估区间的各反馈信息中出现频率由高到低的顺序，赋予分词由高到低的第二权重；根据评估区间的分词集合中分词的第一和第二权重确定各分词的分值。

本发明参考了传统的TF-IDF算法(TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降)，并针对本发明所处理的具体的反馈信息特性对该算法进行了改进(通常而言TF-IDF算法作为文档的分类器，一个文档的长度在千字之上，但是用户反馈信息平均而言只有100字左右)，通过考虑一个分词在分词集合中的权重以及该词在各反馈信息中的权重，从而计算该词的分值。相比于传统的仅考虑一个分词在所有文档中以及一个分词在一篇文档中的出现概率的TF-IDF算法，通过本发明的分值计算方式来确定可能的反馈热点，可以使其更符合反馈信息平均在100字左右的用户反馈数据的特性。

103、根据反馈信息的属性对各分词的分值进行校正。

本发明基于背景技术中所述的反馈热点问题的内容发现，在反馈信息中如果包括新出现的词汇，即在反馈历史中极少出现的词汇，或者如果某一词汇是在多人的反馈信息中均出现的，但不是如“公司”“联系”等在反馈信息中常出现的词汇，则这些词汇很有可能是热点词汇，基于上述思路，因此可以使用校正步骤，基于反馈信息中能够作为反馈热点的词汇的特点，对分词的分值进行校正。

根据反馈信息的属性对各分词的分值进行校正的方式可以细分为三种：

第一种是根据历史数据对结果进行修正，即：预处理从训练区间获取的反馈信息以得到分词集合，其中所述评估区间或所述训练区间是通过反馈信息的出现时间标记来区分的；对训练区间的分词集合中分词的出现频率进行统计；依据训练区间中分词的出现频率由高到低的顺序，为评估区间中的对应分词按照由低到高的顺序赋予第三权重；基于第三权重对各分词的分值进行校正。

第二种是多渠道的信息的线性加权，即：将分词的来源ID与预设的来源列表进行匹配以确定第四权重，其中所述来源列表维护有各反馈来源与权重的对应关系；基于第四权重对各分词的分值进行校正。

第三种是对固定排除词的排除，即：将分词的内容与黑名单进行匹配；将与黑名单匹配的分词的分值置为0。

对于第一种方式，该方式主要是考虑到由于本发明要分析的是某一时间段，即评估区间的热点问题，而如果在待分析的时间段之前的历史时间段中经常出现某些词汇，则这些词汇不会是当前时间段新出现的词汇，因此也不会将其作为反馈热点，因此，可以对当前时间段之前的历史时间段的反馈信息进行计算，如果计算发现历史时间段中的某词汇的出现次数相对于其他词汇的出现次数徒增，则说明该词汇不适合作为当前时间段的新词汇，即反馈热点，因此可以将该词汇的第三权重赋予一个较小的值，从而根据该历史数据修改该词汇作为反馈热点的分值。

历史时间段是用来评估热词新的程度，如果在历史时间段内大量出现的词，则在评估区间会得到较低的分数，因为其已经不够新，反之亦然。

在技术实现上，可以将时间段划分成训练区间(历史时间段)和评估区间(待分析时间段)两部分，训练区间收集了历史的反馈信息，而评估区间收集的是当前要分析的反馈信息，可以根据训练区间的反馈信息中各分词的出现频率来修正当前要分析的反馈信息中分词的分值。

训练区间的时间长度和评估区间的时间长度没有必然联系，二者的时间长度可以根据需要而任意设定，例如训练区间的时间长度可以设置为三个月、半年等，而评估区间的时间长度可以设置为一个月、两周等。

图2示出了一种划分训练区间和评估区间的示意图。如图2所示，可以将7-10月这三个月间的反馈信息作为训练区间的训练类，分析这三个月的反馈信息所构成的分词集合中各分词的出现频率，如果在该段时间内分词的出现频率越高，则为其赋予越低的第三权重，如果在该段时间内分词的出现频率越低，则为其赋予越高的第三权重，经过三个月的训练区间的加权，从而得到该词汇相应的权重，进而通过该权重来对评估区间为10-11月的评估区间的反馈信息的分词分值进行校正。

通过这种方式，能够更准确的确定10-11月这一评估区间的反馈信息中能够作为反馈热点的反馈信息的词汇。

在步骤101中已经提及，由反馈信息具有出现时间标记这一属性，因此优选地，可以根据反馈信息的出现时间标记将反馈信息划分到训练区间或评估区间。

优选地，利用训练区间分词的权重来校正评估类中对应分词的分值可以通过以下公式来实现：

公式(1)：

result＝vA*vB*tfB(1)

说明：

result为分词在被校正后的最终分值；

tf为termfrequency的缩写,tfB表示该词在评估区间不同反馈信息中独立出现的次数(通常，由于每个反馈信息较短，因此可以默认为一个词在一个反馈信息中仅会出现一次，当然根据实际情况也可以对一个词在一个反馈信息中出现次数的默认值进行其他设定)；

vA为在“训练区间”该词的权重(第三权重)；(计算方法见公式(2))

vB为在“评估区间”该词在评估区间的分词集合中的出现频率。(计算方法见公式(3)或(4))

公式(2)：分值的计算公式

vA＝idfA³(2)

vB＝idfB³(3)

idfA为该词在训练区间的分词集合中出现的次数；

idfB为该词在评估区间的分词集合中出现的次数。

其中tf、idf参考传统的tf、idf计算公式。

如果该词仅在评估区间出现，不存在于训练区间，则计算vA时利用公式(4)代替公式(2)

vA＝log₂ ^{(feedback_count)}(4)

feedback_count指的是训练区间全部的反馈信息个数

对于第二种方式，可以将分词的来源ID与预设的来源列表进行匹配以确定第四权重，其中所述来源列表维护有各反馈来源与权重的对应关系；基于第四权重对各分词的分值进行校正。

具体地，由于反馈信息可能来源于不同的数据库、服务器或者计算机终端等，当用户反馈的渠道不唯一时，比如有产品内部植入的反馈渠道，和微博上官微手机的反馈渠道两个渠道时，可以基于反馈信息的来源标识符ID，考虑对不同渠道的分词结果进行加权修正，比如将权重偏重于系统内部系统等。

可以预先建立一个来源列表，将各反馈来源及与各来源对应的权重系数维护于该来源列表中。该权重系数可以是根据需要而任意设置的。

当获得反馈信息时，可以将反馈信息的来源ID与来源列表中的反馈来源进行匹配，从而将匹配的反馈来源所对应的权重系数作为第四权重。进而，依据第四权重对已经计算好的分词分值进行校正。

对于第三种方式，由于有一些词汇并不希望它作为反馈热点，如人名，地名等，因此可以采用黑名单的方式将其强制排除。

具体地，可以预先建立并维护人名词表、地名词表等黑名单列表，然后将分词集合中的分词与黑名单的内容进行比较，当有分词与黑名单内容匹配时，则不论该分词目前的分值为多少，均永久的将其分值替换为0，从而将该分词从分词集合中强制排除。

104、基于校正后的分值确定作为反馈热点的分词。

该步骤中，当确定了分词集合中各分词的最终分数后，可以对各分词依据分数由大到小的顺序排序，并且将排在前M位的分词作为反馈热点提供给用户。其中，M为大于等于1的正整数。

105、在通过步骤104确定作为反馈热点的分词后，还可以将属于同一反馈信息的作为反馈热点的分词划分为一个分词组。

具体地，考虑到单一的热词并不便于理解，可以对于计算完分值的热词进行结合，如某些热词来源于相同的用户反馈，说明这些词汇具有强关联性，则将其组合为同一个词进行考虑。

如“符咒”，“六合”两个词均属于反馈热点，且他们出现于同一反馈信息，则可以将其合并为“符咒,六合”，从而为用户直观的表明由分词所指代的更加明确的含义。

106、将提取的反馈热点存入数据库中，根据查询请求为用户呈现所述数据库中的反馈热点。

该步骤中，可以将由步骤104确定的反馈热点或者由步骤105分组的反馈热点存储到数据库中，并且记录该反馈热点所反映的评估区间，当用户以评估区间或者热点反馈词等作为查询请求查询数据库时，可以从数据库中调取相应的反馈热点或者反馈信息并呈现给用户。

其中，可以以多种方式为用户呈现反馈热点或反馈信息。

如表1，其表明了可以以分词组的形式为用户提供反馈热点。

表1

其中分词列的各行表明了来自同一反馈信息的分词组，分词分值列的各行表明了在分词组中得分最高的分词的分值，分词出现次数列的各行表明了该得分最高的分词在多少个反馈信息中出现过(如果在一个反馈信息中出现就记一次)。

当然，还可以采用其他方式来为用户呈现所确定的反馈热点，例如逐条的为用户呈现包含反馈热点的反馈信息，并将反馈热点加粗来进行强调。

图3为本发明实施例一提供的一种为用户呈现的查询结果的效果图。如图3所示，可以将包含反馈热点“符咒”，“六合”的反馈信息的内容呈现给用户，从而能够使用户直观的理解反馈热点所表达的含义。

实施例二、

图4为本发明实施例二提供的一种自动提取反馈热点的装置结构示意图，如图4所示，该装置包括：

预处理单元201，用于预处理从评估区间获取的反馈信息以得到分词集合。

预处理单元201还包括分词单元2011和去除单元2012，其中，

分词单元2011，用于依据分词词典对评估区间的反馈信息进行分词处理。

具体地，分词单元2011将在评估区间获取的反馈信息与分词词典进行匹配，利用反馈信息中与分词词典匹配的分词构成分词集合。

另外，在进行分词处理之前，可以预先维护一个分词词典，只要该分词词典记录了所有包含能够反映反馈热点的词语，则均属于本发明所保护的分词词典类型。

由于本发明中所应用的技术对词频敏感，对数据的干净程度要求较高，因此在对反馈信息进行分词后，还可以使用去除单元2012去除反馈信息中无意义的脏数据，或者去除重复的内容，即，

去除单元2012，用于去除反馈信息中无意义或者重复的内容。

其中，去除单元2012可以确定反馈信息中分词的个数，如果分词的个数小于或等于预定值，则删除该反馈信息。

通过该方式，可以清洗反馈信息中的无意义内容。

在去除无意义的内容外，还可以去除重复的内容。

或者，去除单元2012可以对反馈信息之间的首尾进行字符串匹配，如果字符串匹配成功，则仅保留字符串匹配的反馈信息中的任一个反馈信息。通过该方式，可以去除反馈信息之间的雷同内容。

或者，去除单元2012可以对反馈信息之间进行语义相似度计算，如果相似度高于预定值，则仅保留相似度高于预定值的反馈信息中的任一个反馈信息。

其中，可以运用PLSA(ProbabilityLatentSemanticAnalysis，概率潜语义分析)算法计算各反馈信息之间的语义相似度，如果经计算发现语义相似度超过预定值，则仅保留相似度高于预定值的反馈信息中的任一个反馈信息，而删除相似度高于预定值的反馈信息中的其余反馈信息。

分值确定单元202，用于依据分词的出现频率确定评估区间的分词集合中各分词的分值。

具体地，分值确定单元202可以利用预处理单元201所得到的评估区间的分词集合，对分词集合中分词的出现频率进行统计，从而根据词频确定分词集合中分词的热度。

也就是说，分值确定单元202主要通过词频来确定反馈热点。当一个词在评估区间的全部分词集合中出现的次数越多，则其更可能接近于无意义的的粘结性词，从而无法指代一个具有代表性的含义；而当一个词在评估区间的各反馈信息中出现的次数越多，则说明是各反馈者反复强调的内容，则其更可能接近于反馈热点。因此可以依据一个词在分词集合中出现的次数设置第一权重，以及依据同一个词在各反馈信息中出现的次数设置第二权重，从而综合考虑一个词的第一权重和第二权重来确定该词为反馈热点的概率，该概率可以由分值来表示。

即，分值确定单元202可以依据分词在评估区间的分词集合中出现频率由高到低的顺序，赋予分词由低到高的第一权重；依据分词在评估区间的各反馈信息中出现频率由高到低的顺序，赋予分词由高到低的第二权重；根据评估区间的分词集合中分词的第一和第二权重确定各分词的分值。

本发明参考了传统的TF-IDF算法，并针对本发明所处理的具体的反馈信息特性对该算法进行了改进，通过考虑一个分词在分词集合中的权重以及该词在各反馈信息中的权重，从而计算该词的分值，可以使其更符合用户反馈数据的特性。

校正单元203，用于根据反馈信息的属性对各分词的分值进行校正。

校正单元203可以进一步包括：

时间校正单元2031，用于预处理从训练区间获取的反馈信息以得到分词集合，其中所述评估区间或所述训练区间是通过反馈信息的出现时间标记来区分的；对训练区间的分词集合中分词的出现频率进行统计；依据训练区间中分词的出现频率由高到低的顺序，为评估区间中的对应分词按照由低到高的顺序赋予第三权重；基于第三权重对各分词的分值进行校正。

来源校正单元2032，用于将分词的来源ID与预设的来源列表进行匹配以确定第四权重，其中所述来源列表维护有各反馈来源与权重的对应关系；基于第四权重对各分词的分值进行校正。

黑名单校正单元2033，用于将分词的内容与黑名单进行匹配；将与黑名单匹配的分词的分值置为0。

时间校正单元2031主要是考虑到由于本发明要分析的是某一时间段，即评估区间的热点问题，而如果在待分析的时间段之前的历史时间段中经常出现某些词汇，则这些词汇不会是当前时间段新出现的词汇，因此也不会将其作为反馈热点，因此，可以对当前时间段之前的历史时间段的反馈信息进行计算，如果计算发现历史时间段中的某词汇的出现次数相对于其他词汇的出现次数徒增，则说明该词汇不适合作为当前时间段的新词汇，即反馈热点，因此可以将该词汇的第三权重赋予一个较小的值，从而根据该历史数据修改该词汇作为反馈热点的分值。

在技术实现上，时间校正单元2031，可以将时间段划分成训练区间(历史时间段)和评估区间(待分析时间段)两部分，训练区间收集了历史的反馈信息，而评估区间收集的是当前要分析的反馈信息，可以根据训练区间的反馈信息中各分词的出现频率来修正当前要分析的反馈信息中分词的分值。

训练区间的时间长度和评估区间的时间长度没有必然联系，二者的时间长度可以根据需要而任意设定。

优选地，可以根据反馈信息的出现时间标记将反馈信息划分到训练区间或评估区间。

优选地，利用训练区间分词的权重来校正评估区间中对应分词的分值所利用的公式与实施例一中所利用的公式(1)至(4)完全相同，在此不再赘述。

对于来源校正单元2032，由于反馈信息可能来源于不同的数据库、服务器或者计算机终端等，当用户反馈的渠道不唯一时，比如有产品内部植入的反馈渠道，和微博上官微手机的反馈渠道两个渠道时，因此来源校正单元2032可以基于反馈信息的来源标识符ID，考虑对不同渠道的分词结果进行加权修正，比如将权重偏重于系统内部系统等。

当获得反馈信息时，可以将反馈信息的来源ID与预设的来源列表中的反馈来源进行匹配，其中所述来源列表维护有各反馈来源与权重的对应关系，从而将匹配的反馈来源所对应的权重系数作为第四权重。进而，依据第四权重对已经计算好的分词分值进行校正。

对于黑名单校正单元2033，由于有一些词汇并不希望它作为反馈热点，如人名，地名等，因此黑名单校正单元2033可以采用黑名单的方式将其强制排除。

具体地，可以预先建立并维护人名词表、地名词表等黑名单列表，然后黑名单校正单元2033将分词集合中的分词与黑名单的内容进行比较，当有分词与黑名单内容匹配时，则不论该分词目前的分值为多少，均永久的将其分值替换为0，从而将该分词从分词集合中强制排除。

热点确定单元204，用于基于校正后的分值确定作为反馈热点的分词。

热点确定单元204可以在确定了分词集合中各分词的最终分数后，对各分词依据分数由大到小的顺序排序，并且将排在前M位的分词作为反馈热点提供给用户。其中，M为大于等于1的正整数。

分组单元205，用于在通过热点确定单元204确定作为反馈热点的分词后，将属于同一反馈信息的作为反馈热点的分词划分为一个分词组。

具体地，考虑到单一的热词并不便于理解，可以利用分组单元205对计算完分值的热词进行结合，如某些热词来源于相同的用户反馈，说明这些词汇具有强关联性，则将其组合为同一个词进行考虑。

存储单元206和查询单元207，其中存储单元206用于将提取的反馈热点存入数据库中，查询单元207用于根据查询请求为用户呈现所述数据库中的反馈热点。

具体地，存储单元206可以将提取的反馈热点存储到数据库中，并且记录该反馈热点所反映的评估区间，当用户以评估区间或者热点反馈词等作为查询请求以通过查询单元207查询数据库时，查询单元207可以从数据库中调取相应的反馈热点或者反馈信息以呈现给用户。

其中，可以以多种方式为用户呈现反馈热点或反馈信息。

其呈现方式可以以分词组的形式为用户提供反馈热点，如实施例一的表1所示；或者还可以采用逐条的为用户呈现包含反馈热点的反馈信息，并将反馈热点加粗来进行强调，如实施例一提供的图3所示，再此不再赘述。

本发明可以典型的应用到任何论坛、推广或者聊天室等的举报系统中，由于通过网络可以收到个数在1000条/天之上的举报，其中存在大量的有意义举报，尤其是用户对于非法经营的举报，因此风险控制系统需要着重关注这些举报的热点。本发明解决了如何从大量反馈信息中智能提取这些热点的问题，能够在极少人力干预的情况下对热点问题进行提取，从而可以使风险控制系统从这些热点中了解有哪些新的诈骗手段或者诈骗方式，以便通知相关部分制定新的规章制度以杜绝这种诈骗，或者提醒用户相应信息。

本发明解决问题的手段从结果来看是能够根据“词”的热度来给出一个时间段包含热度最高的词的用户反馈，根据热词的分数的排序，可以在有限的人工处理能力下优先评估这些热度高的反馈。

经过评估，通过执行本发明的自动提取反馈热点的方法和装置，利用其提取的排名在前300的用户热点反馈即可覆盖新出现的线上风险。即使用本发明的方法和装置可以达到准确提取反馈热点的有益技术效果。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种自动提取反馈热点的方法，其特征在于，所述方法包括：

预处理从评估区间获取的反馈信息以得到分词集合；

根据反馈信息的属性对各分词的分值进行校正；

基于校正后的分值确定作为反馈热点的分词。

2.根据权利要求1所述的方法，其特征在于，所述预处理包括：

依据分词词典对评估区间的反馈信息进行分词处理；

去除反馈信息中无意义或者重复的内容。

3.根据权利要求2所述的方法，其特征在于，所述去除反馈信息中无意义或者重复的内容包括：

4.根据权利要求1所述的方法，其特征在于，所述依据分词的出现频率确定评估区间的分词集合中各分词的分值包括：

对评估区间的分词集合中分词的出现频率进行统计；

5.根据权利要求1所述的方法，其特征在于，所述反馈信息的属性包括反馈信息的出现时间标记，反馈信息的来源ID，或者反馈信息中各分词的内容。

6.根据权利要求5所述的方法，其特征在于，所述根据反馈信息的属性对各分词的分值进行校正包括：

对训练区间的分词集合中分词的出现频率进行统计；

基于第三权重对各分词的分值进行校正。

7.根据权利要求5所述的方法，其特征在于，所述根据反馈信息的属性对各分词的分值进行校正包括：

基于第四权重对各分词的分值进行校正。

8.根据权利要求5所述的方法，其特征在于，所述根据反馈信息的属性对各分词的分值进行校正包括：

将分词的内容与黑名单进行匹配；

将与黑名单匹配的分词的分值置为0。

9.根据权利要求1所述的方法，其特征在于，在确定作为反馈热点的分词之后，将属于同一反馈信息的作为反馈热点的分词划分为一个分词组。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：将提取的反馈热点存入数据库中，根据查询请求为用户呈现所述数据库中的反馈热点。

11.一种自动提取反馈热点的装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述预处理单元包括：

去除单元，用于去除反馈信息中无意义或者重复的内容。

13.根据权利要求12所述的装置，其特征在于，所述去除单元具体执行如下操作：

14.根据权利要求11所述的装置，其特征在于，所述分值确定单元具体执行如下操作：

对评估区间的分词集合中分词的出现频率进行统计；

15.根据权利要求11所述的装置，其特征在于，所述反馈信息的属性包括反馈信息的出现时间标记，反馈信息的来源ID，或者反馈信息中各分词的内容。

16.根据权利要求15所述的装置，其特征在于，所述校正单元包括时间校正单元，用于：

对训练区间的分词集合中分词的出现频率进行统计；

基于第三权重对各分词的分值进行校正。

17.根据权利要求15所述的装置，其特征在于，所述校正单元包括来源校正单元，用于：

基于第四权重对各分词的分值进行校正。

18.根据权利要求15所述的装置，其特征在于，所述校正单元包括黑名单校正单元，用于：

将分词的内容与黑名单进行匹配；

将与黑名单匹配的分词的分值置为0。

19.根据权利要求11所述的装置，其特征在于，所述装置还包括分组单元，用于在热点确定单元确定作为反馈热点的分词之后，将属于同一反馈信息的作为反馈热点的分词划分为一个分词组。

20.根据权利要求11-19任一项所述的装置，其特征在于，所述装置还包括：存储单元，用于将提取的反馈热点存入数据库中；以及查询单元，用于根据查询请求为用户呈现所述数据库中的反馈热点。