CN105005564B

CN105005564B - 一种基于问答平台的数据处理方法和装置

Info

Publication number: CN105005564B
Application number: CN201410156263.1A
Authority: CN
Inventors: 刘华生; 张阔; 顾思宇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2019-09-03
Anticipated expiration: 2034-04-17
Also published as: CN105005564A

Abstract

本发明提供一种基于问答平台的数据处理方法和装置，以解决数据挖掘的效率和精度较低的问题。所述的方法包括：对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度；根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，得到各问题簇；分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对，其中，同一问题簇内的各关键词具有相关性。通过答案数据的相似度分析可以消除答案数据中的噪声，同时减少了对答案数据中不相关数据的处理，有效地量化了问题的相似性，既提高了数据的处理效率，又提高了数据处理的精度。

Description

一种基于问答平台的数据处理方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于问答平台的数据处理方法和一种基于问答平台的数据处理装置。

背景技术

问答平台为用户提供的一个交流平台，用户可以在问答平台接受专家和其他网民等用户的帮助，同时也尽力给其他用户提供有效的帮助。问答平台的内容都是由用户产生，经过统计和挖掘，可以获得各方面有价值的信息。

基于问答平台挖掘相关实体时，通常是抽取问答平台中对同一个话题的相关问题，然后根据不同用户针对同一问题的回答来挖掘出相关的实体信息。例如，有关电动车的话题，对于问答平台中的问题1“买什么牌子的电动车最划算？”，用户A回答：“爱玛最近降价很多”；用户B回答：“我的是雅迪，挺不错”。对于问题2“什么牌的电动车最省电？”，用户A回答：“爱玛的很费电”；用户B回答：“绿源的骑一周基本没问题。”由此可以得知“爱玛”“雅迪”和“绿源”都是相关实体的关键词。

但是，对于同一个问题，各用户的回答可能包含有很多不相关数据或者噪声，会导致数据挖掘的效率和精度较低。其中一种是由于答案数据对应的数据量往往过大，且不易量化答案的相关性，而导致产生很多不相关数据的计算，该计算并过程没有实际价值，进而导致数据挖掘的效率较低。例如，对于上述问题1，用户可能产生的不相关回答有“电动车老得充电不实用”、“骑自行车的飘过”等。还有一种是由于问题的不准确而导致回答中包含较多噪声答案，进而导致挖掘的精度下降。例如，对于上述问题2“买什么牌子的车最划算？”，由于问题本身不明确，用户可能回答“爱玛”、“宝马”、“雅马哈”等不同种类的车的品牌，而实际上，它们分别是电动车、汽车和摩托车的品牌，在数据挖掘中通过统计词频等操作后“爱玛”、“宝马”、“雅马哈”等都会被算作是相关实体，产生混淆的概念，使得数据挖掘结果不准确，数据分析效率往往偏低。

发明内容

本发明实施例所要解决的技术问题是提供一种基于问答平台的数据处理方法，以解决数据挖掘的效率和精度较低的问题。

相应的，本发明实施例还提供了一种基于问答平台的数据处理装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明公开了一种基于问答平台的数据处理方法，包括：对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度；根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，得到各问题簇；分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对，其中，同一问题簇内的各关键词具有相关性。

可选的，所述对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度，包括：对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取，获取答案数据的特征词汇；根据所述特征词汇计算各答案数据之间的相似度。

可选的，所述根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，包括：根据所述问答平台记录的各项问题与答案数据之间的对应关系，分别查找每个答案数据对应的问题；按照所述各答案数据之间的相似度，对预设类别内的各项问题进行聚类，获取所述预设类别下聚类得到的各问题簇。

可选的，所述分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成相关词对，包括：按照预设的实体词列表对同一问题簇的各项问题进行文本匹配，提取与所述实体词列表匹配的各关键词构成相关词对。

可选的，所述提取所述问题簇中由各问题的关键词所构成的相关词对，还包括：统计问题簇中每个关键词在问题和/或答案数据中出现的频次；采用出现的频次达到第一阈值的关键词构成相关词集合；记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

可选的，还包括：从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词，并在所述当前浏览页面中推荐所述相关词。

可选的，还包括：提取当前浏览页面中的关键词，以及所述关键词在页面中的位置权重；在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合；将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词；按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序，按照排序结果在所述当前浏览页面中推荐所述相关词。

可选的，所述对从问答平台获取的各答案数据分别进行文本分析之前，还包括：从问答平台中获取问题以及问题对应的答案数据；对每个问题和对应的答案数据的文本进行特征提取；依据提取得到的特征对所述问题和答案数据进行分类，将所述问题和答案数据分别划分到既定的预设类别中。

本发明实施例还公开了一种基于问答平台的数据处理装置，包括：分析模块，用于对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度；聚类模块，用于根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，得到各问题簇；生成模块，用于分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对，其中同一问题簇内的各关键词具有相关性。

可选的，所述分析模块，包括：特征提取子模块，用于对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取，获取答案数据的特征词汇；相似度计算子模块，用于根据所述特征词汇计算各答案数据之间的相似度。

可选的，所述聚类模块，包括：查找子模块，用于根据所述问答平台记录的各项问题与答案数据之间的对应关系，分别查找每个答案数据对应的问题；聚类子模块，用于按照所述各答案数据之间的相似度，对预设类别内的各项问题进行聚类，获取所述预设类别下聚类得到的各问题簇。

可选的，所述生成模块，用于按照预设的实体词列表对同一问题簇的各项问题的文本进行匹配，提取与所述实体词列表匹配的各关键词构成相关词对。

可选的，所述生成模块，还用于统计问题簇中每个关键词在问题和/或答案数据中出现的频次；采用出现的频次达到第一阈值的关键词构成相关词集合；记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

可选的，还包括：推荐模块，用于从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词，并在所述当前浏览页面中推荐所述相关词。

可选的，还包括：提取模块，用于提取当前浏览页面中的实体词，以及所述实体词在页面中的位置权重；所述推荐模块，用于在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合；将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词；按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序，按照排序结果在所述当前浏览页面中推荐所述相关词。

可选的，还包括：预处理模块，用于从问答平台中获取问题以及问题对应的答案数据；对每个问题和对应的答案数据的文本进行特征提取；依据提取得到的特征对所述问题和答案数据进行分类，将所述问题和答案数据分别划分到既定的预设类别中。

与现有技术相比，本发明实施例包括以下优点：

通过对问答平台的答案数据进行文本分析确定各答案数据的相似度，然后根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照相似度分别对各答案数据对应的问题进行聚类，得到各问题簇，再分别从每个问题簇中提取具有相关性的相关词构成相关词对。对由于问题不精确而导致答案数据中噪声较大的情况，通过答案数据的相似度分析可以消除答案数据中的噪声，同时减少了对答案数据中不相关数据的处理，有效地量化了问题的相似性，既提高了数据的处理效率，又提高了数据处理的精度。

附图说明

图1是本发明的一种基于问答平台的数据处理方法实施例的步骤流程图；

图2是本发明的一种基于问答平台的数据处理方法可选实施例的步骤流程图；

图3是本发明实施例提供的基于该相关词进行推荐的方法流程图；

图4是本发明一种基于问答平台的数据处理装置实施例的结构框图；

图5是本发明一种基于问答平台的数据处理装置可选实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，提出一种基于问答平台的数据处理方法，以解决数据挖掘的效率和精度较低的问题。通过对问答平台的答案数据分别进行文本分析确定各答案数据的相似度，然后根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照相似度分别对各答案数据对应的问题进行聚类，得到各问题簇，再分别从每个问题簇中提取具有相关性的相关词构成相关词对。对由于问题不精确而导致答案数据中噪声较大的情况，通过答案数据的相似度分析可以消除答案数据中的噪声，同时减少了对答案数据中不相关数据的处理，有效地量化了问题的相似性，既提高了数据的处理效率，又提高了数据处理的精度。

参照图1，示出了本发明的一种基于问答平台的数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度。

问答平台用于对自然语言进行处理和信息检索，为用户提供的一个交流平台，用户可以在问答平台中进行提问，也可以回答其他用户的问题。通用的问答平台如百度知道、新浪爱问、搜搜问问、车问网、雅虎知识堂等。

对于问答平台中数据的挖掘，可以从问答平台中获取问题以及答案数据，然后对各答案数据分别进行文本分析，即对答案数据的文本进行分析处理，如分词，又如确定不同答案数据中词条的相似度等，从而通过分析处理获取各答案数据的相似度。

步骤102，根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，得到各问题簇。

问答平台中各项问题和答案数据之间是具有对应关系的，即答案数据往往是对某一问题的回答，因此从问答平台中挖掘数据时要记录各项问题与答案数据之间的对应关系，然后按照该对应关系确定答案数据对应的问题，再以各答案数据的之间相似度作为该答案数据对应问题之间的相似度，对问题进行聚类等到同一类别的问题簇，即彼此之间具有相似性的问题的集合。

步骤103，分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对。

提取出具有相关性的问题构成问题簇后，对问题簇中各项问题的文本进行分析，通过对文本的分词等处理获取其中的关键词，如实体词，以及实体词的描述词等。其中，实体指的是不仅可触知的而且是有形的，即实际存在的物体，实体词指的是实际存在的物体的名称，如电动车、电视、手机等。实体词的描述词可以是形容词等描述的词汇，如耐用、皮实、红色等。

由于同一问题簇中各项问题具有相关性，因此从同一问题簇的各项问题中提取的关键词也具有相关性。

综上所述，通过对问答平台的答案数据分别进行文本分析确定各答案数据的相似度，然后根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照相似度分别对各答案数据对应的问题进行聚类，得到各问题簇，再分别从每个问题簇中提取具有相关性的相关词构成相关词对。对由于问题不精确而导致答案数据中噪声较大的情况，通过答案数据的相似度分析可以消除答案数据中的噪声，同时减少了对答案数据中不相关数据的处理，有效地量化了问题数据的相似性，既提高了数据的处理效率，又提高了数据处理的精度。

实施例二

在上述实施例的基础上，本实施例进一步论述对问答平台的数据挖掘处理过程。

参照图2，示出了本发明的一种基于问答平台的数据处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤201，从问答平台中获取问题以及问题对应的答案数据。

步骤202，对每个问题和对应的答案数据的文本进行特征提取。

步骤203，依据提取得到的特征对所述问题和答案数据进行分类，将所述问题和答案数据分别划分到既定的预设类别中。

从问答平台中获取问题及其对应的答案数据，并且采用问题和问题对应所有的答案数据的数据结构进行存储，即按照各项问题与答案数据之间的对应关系对应存储问题和答案数据。

本实施例中以从问答平台中的各项问题数据中提取实体词为例进行论述，为了提高推荐相关词的相关性，预先设定了问答平台中各项问题的分类类别，如汽车、电动车、图书等等。对获取的每个问题及对应的答案数据的文本进行特征提取，如分别提取问题和答案数据中的特征词汇，依据特征词汇对问题和对应答案数据进行分类，将问题和对应答案数据分至既定的某一预设类别中。如从问题和对应答案数据中提取出“电动车”、“雅迪”、“爱玛”等特征词汇，可以确定将其分入预设类别电动车中，并将分类后的问题和对应答案数据存入问答数据库中。

例如，对于某一问答平台，系统首先抓取该问答平台的所有数据，形成问题和对应答案数据的数据结构进行存储。对所有的问答数据按既定的预设类别进行分类，对于问题1“绿源电动车电池价格”、问题2“天能电动车蓄电池价格”和问题3“爱玛电动车电瓶价格”，根据这些问题标题和答案数据的文本内容提取特征词汇，这三个问题都会被分类至电动车类，将问题和对应的分类存入问答数据库中。

步骤204，对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取，获取答案数据的特征词汇。

步骤205，根据所述特征词汇计算各答案数据之间的相似度。

确定既定的预设类别后，可以对同一类别中各答案数据进行文本特征提取，如在提取特征词汇时可以采用计算关键词的词频-逆向文件频率(Term Frequency–InverseDocument Frequency，TF-IDF)方法获得文本中的关键词，并使用LDA(Latent DirichletAllocation)模型计算答案数据的主题，从而形成每个问题对应的答案特征，即提取答案数据的特征词汇。利用各答案特征来计算答案数据的文本之间的相似度，作为各答案数据之间的相似度。

其中，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

LDA模型是一个集合概率模型，主要用于处理离散的数据集合，主要用在数据挖掘中的文本挖掘(text mining)和自然语言处理中，可以用来降低数据的维度的，如LDA模型可以是一个贝叶斯概率模型。

步骤206，根据所述问答平台记录该预设类别内的各项问题与答案数据之间的对应关系，分别查找每个各答案数据对应的问题。

步骤207，按照所述各答案数据之间的相似度，对预设类别内的各项问题进行聚类，获取所述预设类别下聚类得到的各问题簇。

查找提取数据时记录的各项问题与答案数据之间的对应关系，查找出各答案数据对应的问题，利用各答案特征所计算的答案数据之间的相似度，作为答案数据对应问题之间的相似度。

获取每个预设类别下的所有问题之间的相似度，对该预设类别内的各项问题进行聚类，如采用kmeans或knn等聚类算法进行聚类。通过聚类获取的聚类结果中，所述预设类别下每个簇所包含的是答案特征相似的所有问题的集合，即所述预设类别下答案相似的各问题簇。

如上例的三个问题，通过对这三个问题对应的答案数据进行文本分析，其中均包含“48v”、“20A”、“三元”、“电池”等共有的特征词汇。然后通过特征抽取和文本相似度计算可知，三个问题的答案文本具有一定的相似度。因此，在对所有问题的答案进行聚类时，这三个问题会被放进电动车分类下的同一个问题簇。

获取问题簇之后，可以分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成相关词对。

实际上从问题簇中提取关键词构成相关词对的方法很多。例如，对每个问题簇中的各项问题的文本进行的语句进行划分，再对每个语句进行分词提取得到相应的词汇，然后按照各词汇的出现频率等进行权重打分，从而通过复现频率等方式判定各关键词，得到相关词对。又如采用如下述步骤208的方法构成相关词对。

步骤208，按照预设的实体词列表对同一问题簇的各项问题进行文本匹配，提取与所述实体词列表匹配的各关键词构成相关词对。

本实施例中，预先对每个预设类别配置相应的实体列表，如对百科平台，电商购物网站，垂直信息网页等的数据内容进行挖掘获取实体列表，又如对相似回答的不同问题进行分词，提取其中的名词并进行统计和标注生成实体列表。

采用该实体列表对同一问题簇内的各项问题进行文本的匹配抽取，提取与所述实体词列表匹配的各关键词构成相关词对。其中，关键词中也包括实体词的描述词，可以与该关键词一同构成相关词对。因此，相关词对为多个关键词构成的集合，其中的各关键词互为相关词，可在被调用时互为推荐。

本发明一个可选实施例中，提取关键词构成相关词对的步骤还包括：统计问题簇中每个关键词在问题和/或答案数据中出现的频次；采用出现的频次达到第一阈值的关键词构成相关词集合；记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

统计问题簇中每个关键词在问题的频次，以及该关键词在答案数据中出现的频次，将关键词在问题中出现的频次，或关键词在答案数据中出现的频次，或关键词在问题和答案中出现的频次作为该关键词的频次，采用各关键词的频次与第一阈值进行比较，将出现的频次达到第一阈值的关键词构成相关词集合。并且，在相关词对中记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

如上述确定三个问题的问题簇后，可以进一步对问答平台中电动车类的更多其他答案数据文本分析，得到大量有“电池”、“电动车”、“时速”、“寿命”、“安全”等描述的相似答案。对这些相似答案对应的提问进行分词、名词提取及词频统计，可以得到“爱玛”、“雅迪”、“绿源”等电动车品牌的相关词集合。将得到的相关词集合及相应的频次信息存入相关词对中。

通过上述处理，可以对问答平台中提取的关联的问题和答案数据进行处理，通过对答案数据的文本特征提取，滤除答案数据中的噪声，并采用特征词汇计算各答案数据之间的相似度，减少答案数据的不相关性。通过答案的相似度量化问题的相似度，在通过答案数据间的相似度对问题进行聚类，得到具有相关性的问题簇。

通过上述数据挖掘处理步骤，可以得到基于问答平台而形成的相关词对，可以将该相关词对应用到很多不同的领域中。一个可选实施例中，从所述相关词对中查找与页面当前浏览中提取的各关键词具有相关性的相关词，并在所述页面中进行推荐。即对当前浏览页面进行分析，获取其中的关键词，然后在相关词对中查找该与该关键词具有相关性的相关词，并在所述页面中推荐所述相关词。

下面采用实施例论述基于该相关词进行推荐的步骤流程，如图3所示。

步骤301，提取当前浏览页面中的关键词，以及所述关键词在页面中的位置权重。

从浏览器中获得用户正在浏览页面的原始内容，或者从快照获取用户可浏览的新闻或信息等最终页的原始内容。对页面的原始内容，包括标题和正文等使用贝叶斯分类器进行文本分类，获知该页面在所有预设类别中所属的类别。然后对该原始内容进行分句、分词等操作获取关键词，又如使用该类别既有实体词列表对标题和正文进行匹配，获得页面中的关键词，并记录关键词在文中的位置。

步骤302，在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合。

步骤303，将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词。

本实施例中从问题中提取的关键词限定与输入关键词具有相同的分类，对页面中提取的每个关键词，在相关词对中查找包含该关键词的各个相关词集合。将所有相关词集合中的各关键词进行合并，分别获取相关词对中存储的每个关键词的频次，选取频次较高的足够数量的相关词作为可能的推荐候选。可以采用关键词的频次与第二阈值进行比较，将频次达到第二预置的关键词作为提取的关键词的相关词。

步骤304，按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序，按照排序结果在所述当前浏览页面中推荐所述相关词。

选取频次较高的足够数量的相关词作为可能的推荐候选时，可以仅按照频次由高到低对关键词进行排序。也可以根据关键词的频次，以及提取的关键词在最终页中出现的位置的重要程度对关键词进行排序，进一步，对于存在用户行为日志的情况，根据该用户对推荐相关词的点击行为等数据，对关键词的排序进行调整和优化。

依据排序结果选取其中的前N个相关词作为推荐候选，生成该关键词的推荐内容，对推荐内容进行展示。如将推荐内容拼接在用户浏览的最终页面的下方进行推荐展现，或者在浏览器探索引擎的下边缘弹出横幅进行推荐，进一步用户点击推荐相关词后还可以触发搜索查询等操作。

基于上述电动车类别的数据处理过程，当用户正在访问“五迪电动车”的介绍页面或者商品页面，使用实体词列表可以从网页的标题中获知“五迪”的实体词。用“五迪”去相关实体库中查找，即可以获得相关实体推荐候选，包括“雅迪”、“绿源”等电动车品牌。进行排序后，可以在浏览器下方弹出横幅，出现对应品牌电动车的查询词等信息。

同时由于相关词还包括该实体词的描述词，因此在构成推荐候选时，可以是相关词的组合，如“雅迪电动车耐用吗？”，“绿源电动车都有什么颜色？”等。

综上，确定关键词后之后，还可以基于该相关词对获取当前页面中展示的关键词的相关词，从而基于该相关词进行推荐、查询等，便于用户减少相关词汇的输入、查询等操作，简化数据查询处理流程，提高查询效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

在上述实施例的基础上，本实施例还提供了一种基于问答平台的数据处理装置。

参照图4，示出了本发明一种基于问答平台的数据处理装置实施例的结构框图，具体可以包括如下模块：

分析模块401，用于对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度；

聚类模块402，用于根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度对分别各答案数据对应的问题进行聚类，得到各问题簇；

生成模块403，用于对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对，其中同一问题簇内的各关键词具有相关性。

综上所述，通过对问答平台的答案数据进行文本分析确定各答案数据的相似度，然后根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照相似度分别对各答案数据对应的问题进行聚类，得到各问题簇，再分别从每个问题簇中提取具有相关性的相关词构成相关词对。对由于问题不精确而导致答案数据中噪声较大的情况，通过答案数据的相似度分析可以消除答案数据中的噪声，同时减少了对答案数据中不相关数据的处理，有效地量化了问题的相似性，既提高了数据的处理效率，又提高了数据处理的精度。

参照图5，示出了本发明一种基于问答平台的数据处理装置可选实施例的结构框图。

本发明一个可选实施例中，所述分析模块401，包括：特征提取子模块4011，用于对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取，获取答案数据的特征词汇；相似度计算子模块4012，用于根据所述特征词汇计算各答案数据之间的相似度。

本发明一个可选实施例中，所述聚类模块402，包括：查找子模块4021，用于根据所述问答平台记录的各项问题与答案数据之间的对应关系，分别查找所述每个答案数据对应的问题；聚类子模块4022，用于按照所述各答案数据之间的相似度，对预设类别内的各项问题进行聚类，获取所述预设类别下聚类得到的各问题簇。

本发明一个可选实施例中，所述生成模块403，用于按照预设的实体词列表对同一问题簇的各项问题的文本进行匹配，提取与所述实体词列表匹配的各关键词构成相关词对。

本发明一个可选实施例中，所述生成模块403，还用于统计问题簇中每个关键词在问题和/或答案数据中出现的频次；采用出现的频次达到第一阈值的关键词构成相关词集合；在相关词对中记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

本发明一个可选实施例中，所述的装置还包括：推荐模块404，用于从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词，并在所述当前浏览页面中推荐所述相关词。

本发明一个可选实施例中，所述的装置还包括：提取模块405，用于提取当前浏览页面中的实体词，以及所述实体词在页面中的位置权重；所述推荐模块404，用于在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合；将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词；按照所述关键词在页面中的位置和所述相关词出现的频次对所述相关词进行排序，按照排序结果在所述当前浏览页面中推荐所述相关词。

本发明一个可选实施例中，所述的装置还包括：预处理模块406，用于从问答平台中获取问题以及问题对应的答案数据；对每个问题和对应的答案数据的文本进行特征提取；依据提取得到的特征对所述问题和答案数据进行分类，将所述问题和答案数据分别划分到既定的预设类别中。

综上所述，通过上述数据挖掘处理步骤，可以得到基于问答平台而形成的相关词对，可以将该相关词对应用到很多不同的领域中。一个可选实施例中，从所述相关词对中查找与页面当前浏览中提取的各关键词具有相关性的相关词，并在所述页面中推荐所述相关词。即对当前浏览页面进行分析，获取其中的关键词，然后在相关词对中查找该与关键词具有相关性的相关词，并在所述页面中推荐所述相关词。

其次，确定关键词后之后，还可以基于该相关词对获取当前页面中展示的该关键词的相关词，从而基于该相关词进行推荐、查询等，便于用户减少相关词汇的输入、查询等操作，简化数据查询处理流程，提高查询效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于问答平台的数据处理方法和一种基于问答平台的数据处理装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于问答平台的数据处理方法，其特征在于，包括：

对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度；

根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，得到各问题簇；

分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对，其中，同一问题簇内的各关键词具有相关性。

2.根据权利要求1所述的方法，其特征在于，所述对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度，包括：

对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取，获取答案数据的特征词汇；

根据所述特征词汇计算各答案数据之间的相似度。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，包括：

根据所述问答平台记录的各项问题与答案数据之间的对应关系，分别查找每个答案数据对应的问题；

按照所述各答案数据之间的相似度，对预设类别内的各项问题进行聚类，获取所述预设类别下聚类得到的各问题簇。

4.根据权利要求1所述的方法，其特征在于，所述分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成相关词对，包括：

按照预设的实体词列表对同一问题簇的各项问题进行文本匹配，提取与所述实体词列表匹配的各关键词构成相关词对。

5.根据权利要求1或4所述的方法，其特征在于，所述提取所述问题簇中由各问题的关键词所构成的相关词对，还包括：

统计问题簇中每个关键词在问题和/或答案数据中出现的频次；

采用出现的频次达到第一阈值的关键词构成相关词集合；

记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

6.根据权利要求1所述的方法，其特征在于，还包括：

从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词，并在所述当前浏览页面中推荐所述相关词。

7.根据权利要求6所述的方法，其特征在于，还包括：

提取当前浏览页面中的关键词，以及所述关键词在页面中的位置权重；

在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合；

将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词；

按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序，按照排序结果在所述当前浏览页面中推荐所述相关词。

8.根据权利要求1或2所述的方法，其特征在于，所述对从问答平台获取的各答案数据分别进行文本分析之前，还包括：

从问答平台中获取问题以及问题对应的答案数据；

对每个问题和对应的答案数据的文本进行特征提取；

依据提取得到的特征对所述问题和答案数据进行分类，将所述问题和答案数据分别划分到既定的预设类别中。

9.一种基于问答平台的数据处理装置，其特征在于，包括：

分析模块，用于对从问答平台获取的各答案数据分别进行文本分析，确定各答案数据的相似度；

聚类模块，用于根据所述问答平台记录的各项问题与答案数据之间的对应关系，按照所述相似度分别对各答案数据对应的问题进行聚类，得到各问题簇；

生成模块，用于分别对每个问题簇中的各项问题进行文本分析，提取所述问题簇中由各问题的关键词所构成的相关词对，其中同一问题簇内的各关键词具有相关性。

10.根据权利要求9所述的装置，其特征在于，所述分析模块，包括：

特征提取子模块，用于对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取，获取答案数据的特征词汇；

相似度计算子模块，用于根据所述特征词汇计算各答案数据之间的相似度。

11.根据权利要求9或10所述的装置，其特征在于，所述聚类模块，包括：

查找子模块，用于根据所述问答平台记录的各项问题与答案数据之间的对应关系，分别查找每个答案数据对应的问题；

聚类子模块，用于按照所述各答案数据之间的相似度，对预设类别内的各项问题进行聚类，获取所述预设类别下聚类得到的各问题簇。

12.根据权利要求9所述的装置，其特征在于：

所述生成模块，用于按照预设的实体词列表对同一问题簇的各项问题的文本进行匹配，提取与所述实体词列表匹配的各关键词构成相关词对。

13.根据权利要求9或12所述的装置，其特征在于：

所述生成模块，还用于统计问题簇中每个关键词在问题和/或答案数据中出现的频次；采用出现的频次达到第一阈值的关键词构成相关词集合；记录各相关词集合，以及所述相关词集合内每个关键词出现的频次。

14.根据权利要求9所述的装置，其特征在于，还包括：

推荐模块，用于从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词，并在所述当前浏览页面中推荐所述相关词。

15.根据权利要求14所述的装置，其特征在于，还包括：

提取模块，用于提取当前浏览页面中的实体词，以及所述实体词在页面中的位置权重；

所述推荐模块，用于在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合；将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词；按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序，按照排序结果在所述当前浏览页面中推荐所述相关词。

16.根据权利要求9或10所述的装置，其特征在于，还包括：

预处理模块，用于从问答平台中获取问题以及问题对应的答案数据；对每个问题和对应的答案数据的文本进行特征提取；依据提取得到的特征对所述问题和答案数据进行分类，将所述问题和答案数据分别划分到既定的预设类别中。