CN107193872B

CN107193872B - 问答数据处理方法及装置

Info

Publication number: CN107193872B
Application number: CN201710247233.5A
Authority: CN
Inventors: 卢道和; 陈刚; 周杰; 陈朝亮; 杨海军
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2021-04-23
Anticipated expiration: 2037-04-14
Also published as: CN107193872A

Abstract

本发明公开了一种问答数据处理方法，所述方法包括：将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；提取出数量排在前面预设位数的各类问题；将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；将各类问题以及从知识库中返回的答案展示在显示界面中。本发明还公开了一种问答数据处理装置。本发明便于及时了解当前的热点问题，有利于舆情监测。

Description

问答数据处理方法及装置

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种问答数据处理方法及装置。

背景技术

随着计算机技术的发展，用户使用计算机产生的数据与日俱增。尤其是随着各类APP和各类公众号的增多，每天产生的问答数据也非常多。

目前，对于用户在APP和公众号中产生的海量问题数据，机器人客服和人工客服一般都会予以答复，但是对于海量问答数据，并没有及时进行归类分析和舆情监测，导致无法及时得知当前的热点问题。

发明内容

本发明的主要目的在于提出一种问答数据处理方法及装置，旨在实现对海量问答数据进行归类分析和舆情监测。

为实现上述目的，本发明提供的一种问答数据处理方法，所述问答数据处理方法包括：

将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；

提取出数量排在前面预设位数的各类问题；

将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；

将各类问题以及从知识库中返回的答案展示在显示界面中。

优选地，所述将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类的步骤之前，所述问答数据处理方法还包括：

从知识库中提取出长度大于预设字节的问题；

对提取的各个问题进行去停用词处理；

对处理后的各个问题进行分词，并将分词后的各个问题与预设的无意义词进行比对，以筛选出与无意义词的相似度小于预设相似度的问题；

将筛选出的各个问题作为待进行相似度匹配的各个问题。

优选地，所述将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类的步骤包括：

按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对；

在检测到有问题与其它问题的相似度达到所述预设阈值时，将所述问题与所述其它问题归为一类，并将所述问题与所述其它问题打上标记信息；

将剩余未归类的每个问题依此与其它未归类的问题进行相似度的比对，以实现各个问题的归类。

优选地，所述将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案的步骤之后，所述问答数据处理方法还包括：

将知识库返回的各类问题的答案与服务器数据库中对应的各类问题的预存答案进行分析比较，以确定知识库返回的各类问题的答案是否与对应的预存答案达到预设匹配度；

若有问题的答案与对应的预存答案未达到预设匹配度，则将知识库返回的答案转至人工处理，由人工进行核对、纠偏和标注。

优选地，所述若有问题的答案与对应的预存答案未达到预设匹配度，则将知识库返回的答案转至人工处理，由人工进行核对、纠偏和标注的步骤之后，所述问答数据处理方法还包括：

若接收到人工基于所述问题进行核对、纠偏和标注后的答案，根据所述答案更新所述问题的预设答案以及所述知识库。

此外，为实现上述目的，本发明还提出一种问答数据处理装置，所述问答数据处理装置包括：

处理模块，用于将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；

提取模块，用于提取出数量排在前面预设位数的各类问题；

匹配模块，用于将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；

展示模块，用于将各类问题以及从知识库中返回的答案展示在显示界面中。

优选地，所述提取模块，还用于从知识库中提取出长度大于预设字节的问题；

所述处理模块，还用于对提取的各个问题进行去停用词处理；

所述问答数据处理装置还包括：

分词筛选模块，用于对处理后的各个问题进行分词，并将分词后的各个问题与预设的无意义词进行比对，以筛选出与无意义词的相似度小于预设相似度的问题；

所述处理模块，还用于将筛选出的各个问题作为待进行相似度匹配的各个问题。

优选地，所述处理模块包括：

比对单元，用于按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对；

处理单元，用于在检测到有问题与其它问题的相似度达到所述预设阈值时，将所述问题与所述其它问题归为一类，并将所述问题与所述其它问题打上标记信息；

归类单元，用于将剩余未归类的每个问题依此与其它未归类的问题进行相似度的比对，以实现各个问题的归类。

优选地，所述问答数据处理装置还包括：

确定模块，用于将知识库返回的各类问题的答案与服务器数据库中对应的各类问题的预存答案进行分析比较，以确定知识库返回的各类问题的答案是否与对应的预存答案达到预设匹配度；

转接模块，用于若有问题的答案与对应的预存答案未达到预设匹配度，则将知识库返回的答案转至人工处理，由人工进行核对、纠偏和标注。

优选地，所述问答数据处理装置还包括：

更新模块，用于若接收到人工基于所述问题进行核对、纠偏和标注后的答案，根据所述答案更新所述问题的预设答案以及所述知识库。

本发明提出的问答数据处理方法及装置，先将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量，然后提取出数量排在前面预设位数的各类问题，再将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案，最终将各类问题以及从知识库中返回的答案展示在显示界面中，便于及时了解当前的热点问题，有利于舆情监测。

附图说明

图1为本发明问答数据处理方法第一实施例的流程示意图；

图2为图1中步骤S10的细化流程示意图；

图3为本发明问答数据处理方法第二实施例的流程示意图；

图4为本发明问答数据处理方法第三实施例的流程示意图；

图5为本发明问答数据处理装置第一实施例的功能模块示意图；

图6为图5中处理模块10的细化功能模块示意图；

图7为本发明问答数据处理装置第二实施例的功能模块示意图；

图8为本发明问答数据处理装置第三实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的解决方案主要是：先将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量，然后提取出数量排在前面预设位数的各类问题，再将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案，最终将各类问题以及从知识库中返回的答案展示在显示界面中。以实现对海量问答数据进行归类分析和舆情监测。

本发明提供一种问答数据处理方法。

参照图1，图1为本发明问答数据处理方法第一实施例的流程示意图。

在本实施例中，所述问答数据处理方法包括：

将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；提取出数量排在前面预设位数的各类问题；将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；将各类问题以及从知识库中返回的答案展示在显示界面中。

在本实施例中，所述知识库指的是客服知识库，如APP应用的客服知识库，或者是公众号的客服知识库。

所述“将知识库中提取出的各个问题进行相似度匹配”的步骤之前，先在知识库中对原始各个问题进行清洗，具体地，所述问答数据处理方法还包括：

步骤A，从知识库中提取出长度大于预设字节的问题；

步骤B，对提取的各个问题进行去停用词处理；

步骤C，对处理后的各个问题进行分词，并将分词后的各个问题与预设的无意义词进行比对，以筛选出与无意义词的相似度小于预设相似度的问题；

步骤D，将筛选出的各个问题作为待进行相似度匹配的各个问题。

即，先从知识库中提取出长度大于预设字节的问题，其中，每两个字节表示一个文字，所述预设字节的具体数值不做限定，根据实际情况设置。在提取出长度大于预设字节的问题之后，对提取的各个问题进行去停用词处理，所述停用词包括：语气助词、副词、介词、连接词、英文字符、数字、数学字符和标点符号等等，对提取的各个问题进行去停用词处理后，再对处理后的各个问题进行分词，然后将分词后的各个问题与预设的无意义词进行比对，其中，所述预设的无意义词包括：“好吧”、“OK”、“知道了”、“谢谢”、“哦哦”、“您好”、“你好”等等。将分词后的各个问题与预设的无意义词进行比对之后，筛选出与无意义词的相似度小于预设相似度的问题，所述预设相似度同样不做限定，根据实际情况设置。在筛选出与无意义词的相似度小于预设相似度的问题之后，后续即可对筛选出的各个问题进行相似度匹配。

应当理解，本实施例对问题进行去停用词处理，再进一步筛选出与无意义词的相似度小于预设相似度的问题，相当于是对问题去除一些字符和词语干扰，以便后续进行问题匹配时，准确性更高。

以下是本实施例中逐步实现问答数据处理的具体步骤：

步骤S10，将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；

即，在知识库中筛选出与无意义词的相似度小于预设相似度的问题之后，将筛选出的各个问题之间进行相似度匹配，以实现将相似度大于预设阈值的问题归为一类。具体地，参照图2，所述步骤S10包括：

步骤S11，按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对；

步骤S12，在检测到有问题与其它问题的相似度达到所述预设阈值时，将所述问题与所述其它问题归为一类，并将所述问题与所述其它问题打上标记信息；

步骤S13，将剩余未归类的每个问题依此与其它未归类的问题进行相似度的比对，以实现各个问题的归类。

本实施例中，筛选出与无意义词的相似度小于预设相似度的问题之后，可以按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对，其中，所述预设顺序包括：各个问题的先后排列顺序。即，先将第一个问题与第一个问题之后的其它各个问题进行比对，若检测到第一个问题与其它问题中若有类似的，就第一个问题与其它问题归为一类并打上标记信息，然后再将剩余的未归类的问题进行比对。

为更清楚理解本实施例，举例如下：

当前知识库中筛选出的问题有10个，10个问题都已经分词了，从第1个问题开始，将第1个问题和后面的9个问题进行相似度的匹配，若检测到第1个问题只与第3个问题和第5个问题的相似度大于预设阈值，则可将第1个问题、第3个问题和第5个问题归为一类，如归为X类，并将第1个问题、第3个问题和第5个问题打上标记信息，如打上“*”的标记信息，同时，将X类的数量累计为三个。应当理解，打上标记信息的问题后面不再与其它问题进行相似度比对。此后，将第2个问题再与剩余的第4个问题、第6-10个问题进行比对，具体的比对方式与上述一致，最终实现各个问题的归类。

步骤S20，提取出数量排在前面预设位数的各类问题；

在对知识库中筛选出的各个问题归类之后，先对各类问题按照数量的顺序依次排列，然后提取出数量排在前面预设位数的各类问题，所述预设位数不做限定如提取出数量排在前20位的各类问题。

步骤S30，将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；

在本实施例中，在提取出各类问题之后，将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案。

步骤S40，将各类问题以及从知识库中返回的答案展示在显示界面中。

在本实施例中，将各类问题都匹配出答案之后，优选以报表的形式，将各类问题以及匹配的答案按照预设顺序展示在显示界面中，所述预设顺序优选是数量的顺序，即问题的累计数量越多，就排在越前面。本实施例中，所述报表包括表格、图表、视图等等。

本实施例提出的问答数据处理方法，先将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量，然后提取出数量排在前面预设位数的各类问题，再将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案，最终将各类问题以及从知识库中返回的答案展示在显示界面中，便于及时了解当前的热点问题，有利于舆情监测。

进一步地，基于第一实施例提出本发明问答数据处理方法的第二实施例。在本实施例中，所述步骤S30之后，参照图3，所述问答数据处理方法还包括：

步骤S50，将知识库返回的各类问题的答案与服务器数据库中对应的各类问题的预存答案进行分析比较，以确定知识库返回的各类问题的答案是否与对应的预存答案达到预设匹配度；

步骤S60，若有问题的答案与对应的预存答案未达到预设匹配度，则将知识库返回的答案转至人工处理，由人工进行核对、纠偏和标注。

即，在知识库中得到各个问题匹配的答案之后，为了保证问答数据处理的准确性，可以到部署知识库引擎的服务器数据库中，基于http协议探测接口进行探测，以将知识库返回的各类问题的答案与服务器数据库中对应的各类问题的预存答案进行分析比较，以确定知识库返回的各类问题的答案是否与对应的预存答案达到预设匹配度，若探测到问题的答案与对应的预存答案达到预设匹配度，如80％，认为探测成功，说明该知识库中问题的答案准确度较高，此时不做其它操作。

若检测到有问题的答案与对应的预存答案未达到预设匹配度，可以直接将所述问题的答案转至人工处理，由人工进行核对、纠偏和标注。

进一步地，为了防止答案比对过程由于外界因素导致出错，可进行二次探测，若二次探测后该问题的答案与对应的预存答案仍然未达到预设匹配度，则可将所述问题的答案转至人工处理，并邮件或信息通知系统运维人员，由系统运维人员对该问题的答案进行核对、纠偏和标注。

在本实施例中，将问题匹配的答案，与部署知识库引擎的服务器数据库中该问题对应的预存答案进行比对，相当于是对知识库中的答案进行验证，若有问题可以及时修正，提高了问答数据处理的准确性。

进一步地，基于第二实施例提出本发明问答数据处理方法的第三实施例。在本实施例中，所述步骤S60之后，参照图4，所述问答数据处理方法还包括：

步骤S70，若接收到人工基于所述问题进行核对、纠偏和标注后的答案，根据所述答案更新所述问题的预设答案以及所述知识库。

在本实施例中，若接收到人工基于所述问题进行核对、纠偏和标注后的答案，则根据所述答案更新所述问题的预设答案，然后再基于更新后的答案更新所述知识库，即用更新后的答案替换知识库中所述问题匹配的答案，从而提高后续问题匹配的准确性。

应当理解，本实施例中，根据用户输入的标注信息更新知识库中的答案，后续针对该类问题，可以提高问题回答的准确性，相当于是即时训练知识库，提高知识库引擎对问题与答案匹配的准确性。

本发明进一步提供一种问答数据处理装置。

参照图5，图5为本发明问答数据处理装置第一实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图5所示功能模块图仅仅是一个较佳实施例的示例图，本领域的技术人员围绕图5所示的问答数据处理装置的功能模块，可轻易进行新的功能模块的补充；各功能模块的名称是自定义名称，仅用于辅助理解该问答数据处理装置的各个程序功能块，不用于限定本发明的技术方案，本发明技术方案的核心是，各自定义名称的功能模块所要达成的功能。

在本实施例中，所述问答数据处理装置包括：

处理模块10，用于将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；

提取模块20，用于提取出数量排在前面预设位数的各类问题；

匹配模块30，用于将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；

展示模块40，用于将各类问题以及从知识库中返回的答案展示在显示界面中。

所述处理模块10“将知识库中提取出的各个问题进行相似度匹配”之前，先在知识库中对原始各个问题进行清洗，具体地，由所述提取模块20、所述处理模块10、分词筛选模块实现，其中：

所述提取模块20，还用于从知识库中提取出长度大于预设字节的问题；

所述处理模块10，还用于对提取的各个问题进行去停用词处理；

所述处理模块10，还用于将筛选出的各个问题作为待进行相似度匹配的各个问题。

即，所述提取模块20先从知识库中提取出长度大于预设字节的问题，其中，每两个字节表示一个文字，所述预设字节的具体数值不做限定，根据实际情况设置。在提取出长度大于预设字节的问题之后，所述处理模块10对提取的各个问题进行去停用词处理，所述停用词包括：语气助词、副词、介词、连接词、英文字符、数字、数学字符和标点符号等等，对提取的各个问题进行去停用词处理后，分词筛选模块再对处理后的各个问题进行分词，然后将分词后的各个问题与预设的无意义词进行比对，其中，所述预设的无意义词包括：“好吧”、“OK”、“知道了”、“谢谢”、“哦哦”、“您好”、“你好”等等。将分词后的各个问题与预设的无意义词进行比对之后，筛选出与无意义词的相似度小于预设相似度的问题，所述预设相似度同样不做限定，根据实际情况设置。在筛选出与无意义词的相似度小于预设相似度的问题之后，后续所述处理模块10即可对筛选出的各个问题进行相似度匹配。

以下是本实施例中逐步实现问答数据处理的各个模块的具体功能：

其中，所述处理模块10，用于将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；

即，在知识库中筛选出与无意义词的相似度小于预设相似度的问题之后，所述处理模块10将筛选出的各个问题之间进行相似度匹配，以实现将相似度大于预设阈值的问题归为一类。具体地，参照图6，所述处理模块10包括：

比对单元11，用于按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对；

处理单元12，用于在检测到有问题与其它问题的相似度达到所述预设阈值时，将所述问题与所述其它问题归为一类，并将所述问题与所述其它问题打上标记信息；

归类单元13，用于将剩余未归类的每个问题依此与其它未归类的问题进行相似度的比对，以实现各个问题的归类。

本实施例中，筛选出与无意义词的相似度小于预设相似度的问题之后，比对单元11可以按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对，其中，所述预设顺序包括：各个问题的先后排列顺序。即，处理单元12先将第一个问题与第一个问题之后的其它各个问题进行比对，若检测到第一个问题与其它问题中若有类似的，归类单元13就第一个问题与其它问题归为一类并打上标记信息，然后再将剩余的未归类的问题进行比对。为更清楚理解本实施例，举例如下：

其中，所述提取模块20，用于提取出数量排在前面预设位数的各类问题；

在对知识库中筛选出的各个问题归类之后，先对各类问题按照数量的顺序依次排列，然后所述提取模块20提取出数量排在前面预设位数的各类问题，所述预设位数不做限定如提取出数量排在前20位的各类问题。

其中，所述匹配模块30，用于将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案；

在本实施例中，在提取出各类问题之后，所述匹配模块30将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案。

其中，所述展示模块40，用于将各类问题以及从知识库中返回的答案展示在显示界面中。

在本实施例中，将各类问题都匹配出答案之后，所述展示模块40优选以报表的形式，将各类问题以及匹配的答案按照预设顺序展示在显示界面中，所述预设顺序优选是数量的顺序，即问题的累计数量越多，就排在越前面。本实施例中，所述报表包括表格、图表、视图等等。

本实施例提出的问答数据处理装置，先将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量，然后提取出数量排在前面预设位数的各类问题，再将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案，最终将各类问题以及从知识库中返回的答案展示在显示界面中，便于及时了解当前的热点问题，有利于舆情监测。

进一步地，基于第一实施例提出本发明问答数据处理装置的第二实施例。在本实施例中，参照图7，所述问答数据处理装置还包括：

确定模块50，用于将知识库返回的各类问题的答案与服务器数据库中对应的各类问题的预存答案进行分析比较，以确定知识库返回的各类问题的答案是否与对应的预存答案达到预设匹配度；

转接模块60，用于若有问题的答案与对应的预存答案未达到预设匹配度，则将知识库返回的答案转至人工处理，由人工进行核对、纠偏和标注。

即，在知识库中得到各个问题匹配的答案之后，为了保证问答数据处理的准确性，确定模块50可以到部署知识库引擎的服务器数据库中，基于http协议探测接口进行探测，以将知识库返回的各类问题的答案与服务器数据库中对应的各类问题的预存答案进行分析比较，以确定知识库返回的各类问题的答案是否与对应的预存答案达到预设匹配度，若探测到问题的答案与对应的预存答案达到预设匹配度，如80％，认为探测成功，说明该知识库中问题的答案准确度较高，此时不做其它操作。

若检测到有问题的答案与对应的预存答案未达到预设匹配度，转接模块60可以直接将所述问题的答案转至人工处理，由人工进行核对、纠偏和标注。

进一步地，为了防止答案比对过程由于外界因素导致出错，可进行二次探测，若二次探测后该问题的答案与对应的预存答案仍然未达到预设匹配度，则转接模块60可将所述问题的答案转至人工处理，并邮件或信息通知系统运维人员，由系统运维人员对该问题的答案进行核对、纠偏和标注。

进一步地，基于第二实施例提出本发明问答数据处理装置的第三实施例。在本实施例中，参照图8，所述问答数据处理装置还包括：

更新模块70，用于若接收到人工基于所述问题进行核对、纠偏和标注后的答案，根据所述答案更新所述问题的预设答案以及所述知识库。

在本实施例中，若接收到人工基于所述问题进行核对、纠偏和标注后的答案，则更新模块70根据所述答案更新所述问题的预设答案，然后再基于更新后的答案更新所述知识库，即用更新后的答案替换知识库中所述问题匹配的答案，从而提高后续问题匹配的准确性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种问答数据处理方法，其特征在于，所述问答数据处理方法包括：

从知识库中提取出长度大于预设字节的问题；

对提取的各个问题进行去停用词处理；

将筛选出的各个问题作为待进行相似度匹配的各个问题；

提取出数量排在前面预设位数的各类问题；

将各类问题以及从知识库中返回的答案展示在显示界面中；

其中，所述将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类的步骤包括：按照预设顺序，将知识库中提取出的每个问题与其它问题进行分词比对；

将剩余未归类的每个问题依次与其它未归类的问题进行相似度的比对，以实现各个问题的归类，其中，打上标记信息的问题不与所述其它未归类的问题进行相似度的比对。

2.如权利要求1所述的问答数据处理方法，其特征在于，所述将提取的各类问题到知识库中进行查询，以得到从知识库中返回的各类问题的答案的步骤之后，所述问答数据处理方法还包括：

3.如权利要求2所述的问答数据处理方法，其特征在于，所述若有问题的答案与对应的预存答案未达到预设匹配度，则将知识库返回的答案转至人工处理，由人工进行核对、纠偏和标注的步骤之后，所述问答数据处理方法还包括：

4.一种问答数据处理装置，其特征在于，所述问答数据处理装置包括：

提取模块，用于从知识库中提取出长度大于预设字节的问题；

处理模块，用于对提取的各个问题进行去停用词处理；

所述处理模块，用于将筛选出的各个问题作为待进行相似度匹配的各个问题；

所述处理模块，用于将知识库中提取出的各个问题进行相似度匹配，以将相似度大于预设阈值的问题归为一类，并累计每一类问题的数量；

所述提取模块，用于提取出数量排在前面预设位数的各类问题；

展示模块，用于将各类问题以及从知识库中返回的答案展示在显示界面中；

其中，所述处理模块包括：

归类单元，用于将剩余未归类的每个问题依次与其它未归类的问题进行相似度的比对，以实现各个问题的归类。

5.如权利要求4所述的问答数据处理装置，其特征在于，所述问答数据处理装置还包括：

6.如权利要求5所述的问答数据处理装置，其特征在于，所述问答数据处理装置还包括：