CN106547734A

CN106547734A - 一种问句信息处理方法及装置

Info

Publication number: CN106547734A
Application number: CN201610918002.8A
Authority: CN
Inventors: 谢瑜; 张昊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-03-29
Anticipated expiration: 2036-10-21
Also published as: CN106547734B

Abstract

本发明公开了一种问句信息处理方法及装置，其中，该方法包括：获取语料数据，提取其中的问句信息；对问句信息进行预处理和分词处理，得到问句信息的特征词；获取特征词的词向量，并根据词向量构造问句信息的句向量；对问句信息进行至少一次的第一聚类处理，得到S个第一聚类集；分别对每个第一聚类集进行第二聚类处理，其中，第二聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当最大相似度值大于或等于预设值时，将第M个问句信息聚类到最大相似度值对应的问句信息组中；当最大相似度值小于或等于预设值时，将第M个问句信息作为第K+1个问句信息组，K小于或等于M‑1。

Description

一种问句信息处理方法及装置

技术领域

本发明涉及信息处理领域，特别是涉及一种问句信息处理方法及装置。

背景技术

在现有技术中，智能问答知识库中包括了多个知识点，在将新的知识点添加到知识库中时，需要人工审核领域语料，从语料中提取知识点，并创建知识点的标准问、多个扩展问和答案。但是，上述知识点的创建方法由于是通过人工审核，需要耗费大量的人力物力财力，并且效率低下。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问句信息处理方法及装置。

为解决上述技术问题，一方面，本发明提供一种问句信息处理方法，包括：

获取语料数据，提取其中的问句信息；

对所述问句信息进行预处理和分词处理，得到所述问句信息的特征词；

获取所述特征词的词向量，并根据所述词向量构造所述问句信息的句向量；

对所述问句信息进行至少一次的第一聚类处理，以得到S个第一聚类集，所述S为预设的正整数；

分别对每个所述第一聚类集进行第二聚类处理，其中，所述第二聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于或等于预设值时，将第M个问句信息聚类到所述最大相似度值对应的问句信息组中；当所述最大相似度值小于或等于预设值时，将第M个问句信息作为第K+1个问句信息组，所述K小于或等于M-1。

另一方面，本发明还提供了一种问句信息处理装置，包括：

问句信息获取模块，用于获取语料数据，提取其中的问句信息；

预处理和分词模块，用于对所述问句信息进行预处理和分词处理，得到所述问句信息的特征词；

向量获取模块，用于获取所述特征词的词向量，并根据所述词向量构造所述问句信息的句向量；

初次聚类模块，用于对所述问句信息进行至少一次的第一聚类处理，以得到S个第一聚类集，所述S为预设的正整数；

再次聚类模块，用于分别对每个所述第一聚类集进行第二聚类处理，其中，所述第二聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于或等于预设值时，将第M个问句信息聚类到所述最大相似度值对应的问句信息组中；当所述最大相似度值小于或等于预设值时，将第M个问句信息作为第K+1个问句信息组，所述K小于或等于M-1。

本发明有益效果如下：

通过对提取的问句信息进行两次聚类处理，两次聚类处理后实现了大数据量问题集的精确聚类，且还可以将不同问题集设置在不同的平台上，解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题，能够提高在知识库中添加知识点的效率，避免了人力资源的浪费。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1是本发明实施例中问句信息处理方法的流程图；

图2是本发明实施例中问句信息处理方法的详细处理的流程图；

图3是本发明实施例中问句信息处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术人工审核语料耗费大量的人力物力财力并且效率低下的问题，本发明提供了一种问句信息处理方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种问句信息处理方法，图1是本发明实施例的问句信息处理方法的流程图，如图1所示，根据本发明实施例的问句信息处理方法包括如下处理：

步骤101，获取语料数据，提取其中的问句信息。

在本发明实施例中，所述语料数据包括背景语料和/或预定领域预定数量的问题集。例如，智能问答日志、从互联网爬取的问答数据。其中，智能问答日志是指：用户在使用智能问答系统过程中产生的交互日志，每条日志至少包括：用户的问句信息以及系统反馈的答案信息。此外，在从互联网爬取问答数据时，可以从论坛、网络百科、网络知道上爬取问答数据。在获取了语料数据之后，可以从语料数据中将问句信息进行提取。

步骤102，对所述问句信息进行预处理和分词处理，得到所述问句信息的特征词。

在步骤102中，进行预处理和分词处理具体包括如下处理：去除问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对问句信息进行分词处理，得到问句信息的原始特征词，过滤原始特征词中的停用词，得到问句信息的特征词。在实际应用中，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

在本发明实施例中，进行了分词处理得到问句信息的特征词，还可以进一步对该特征词进行过滤处理，具体地，过滤处理采用以下任一种或两种方式：方式一：根据词性对特征词进行过滤，保留名词、动词以及形容词；方式二：根据频次对特征词进行过滤，保留频次大于频次阈值的特征词，其中，频次是指特征词在语料数据中出现的频率或者次数。

优选地，在步骤102之后，可以通过新词发现方法获取问句信息中的新词，并根据新词重新进行分词处理，此外，还可以通过同义词发现方法从问句信息中获取语义相同的词语，以用于后续的相似度值计算。例如，后续在进行相似度计算时，如果通过同义词发现方法确认两个词为同义词，则会提高最后的语义相似度值的准确率。

具体地，分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。新词发现方法具体可以包括：互信息、共现概率、信息熵等方法，利用新词发现方法可以获取新的词语，根据获取的信的词语可以更新分词词典，那么在进行分词处理时，可以根据更新后的分词词典进行分词，增加了分词处理的准确率。同义词发现方法具体可以包括：W2V和编辑距离等方法，利用同义词发现方法可以发现具有相同含义的词语，例如：通过同义词发现方法发现组合词、简化词是同义词，那么后续进行语义相似度值计算时，根据发现的同义词就可以提高语义相似度值计算的准确率。

需要说明的是，在本发明实施例中，进行预处理和分词后得到的特征词尽量保持词的顺序不变，从而保证后续计算词向量和句向量的准确性。

步骤103，获取所述特征词的词向量，并根据所述词向量构造所述问句信息的句向量。

在本发明实施例中，获取特征词的词向量的方式包括：

将进行过滤处理之前问句信息的特征词输入向量模型，获取向量模型输出的特征词的词向量；从词向量中获取与过滤处理后保留的特征词相对应的词向量。

其中，在实际应用中，上述向量模型可以包括：word2vector模型。

在步骤103中，获取句向量的具体构造方法包括以下之一：

方式一：将单个问句信息中的所有特征词的词向量进行矢量叠加并取平均值，获取问句信息的句向量；

方式二：根据特征词的个数和词向量的维度、以及相应问句信息中出现的特征词的词向量，获取该问句信息的句向量，其中，句向量的维度是特征词的个数与词向量的维度的乘积，句向量的维度值为：未在相应问句信息中出现的特征词所对应的维度值为0，在相应问句信息中出现的特征词所对应的维度值为该特征词的词向量；

方式三：根据特征词的个数、以及相应问句信息中出现的特征词的TF-IDF值，获取该问句信息的句向量，其中，句向量的维度是特征词的个数，句向量的维度值为：未在相应问句信息中出现的特征词的维度值为0，在相应问句信息中出现的特征词的维度值为该特征词的TF-IDF值。

在方式三中，特征词的TF-IDF值通过以下方式获取：

1、将语料数据中包括的问句总数目除以包含特征词的问句的数目，将得到的商取对数得到特征词的IDF值；

2、计算特征词在对应问句中出现的频率，确定TF值；

3、将TF值乘以IDF值得到特征词的TF-IDF值。

步骤104，对所述问句信息进行至少一次的第一聚类处理，以得到S个第一聚类集，所述S为预设的正整数。第一聚类处理包括：获取第N个问句信息的句向量与已聚类的P个问句信息组的句向量平均值之间的最大相似度值，将第N个问句信息聚类到所述最大相似度值对应的问句信息组中；其中，所述P小于等于所述第一聚类数量。

本实施例在第一聚类处理之前，可以不需要预先确定聚类结果的数目，即当聚类处理后得到P个问句信息组时，P数值是自动聚类的结果，在聚类之前并不清楚也没有限定聚类的结果，从而实现了自动聚类。

在对所述问句信息进行一次的第一聚类处理时，第一聚类处理采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法。

在步骤104中，其得到S个第一聚类集的具体过程如下：

对所述问句信息进行一次第三聚类处理，得到S个第三聚类集；判断S个第三聚类集中包括的所述问句信息的数量是否均在预设范围内；当是时，则将所述S个第三聚类集作为所述S个第一聚类集；否则，对所述问句信息的数量超过预设范围的所述第三聚类集进行第四聚类处理，以得到多个第四聚类集，并进行调整处理以将部分数目的第四聚类集移动至所述问句信息的数量小于预设范围的第三聚类集中，不断重复第四聚类处理以及调整处理，直至每个第三聚类集中包括的所述问句信息的数量均在预设范围内，最后将S个新的第三聚类集作为所述S个第一聚类集。其中，第三聚类处理采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法；第四聚类处理的方法与第三聚类处理或第二聚类处理相同。

实现时，可以分别采用一个不同平台对一个所述第一聚类集进行第二聚类处理，则上述的预设范围在实现时就可以是可使用的平台的数量。如果有s个可操作平台，则采用其中一个平台做第一次聚类处理，再将S-1个聚类集分别发送给其他s-1个可操作平台；若有s+1个可操作平台，则采用一个平台做第一次聚类处理，后将S个聚类集发送给其他的s个可操作平台。

步骤105，分别对每个所述第一聚类集进行第二聚类处理，其中，所述第二聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于或等于预设值时，将第M个问句信息聚类到所述最大相似度值对应的问句信息组中；当所述最大相似度值小于或等于预设值时，将第M个问句信息作为第K+1个问句信息组，所述K小于或等于M-1。

上述第二聚类处理为改进的k-means算法，其避免了传统的k-means算法中K值选择难的问题。该算法是指对问句依次进行聚类；K值从1开始递增，并且在此过程中不断更新中心点来实现整个聚类。第二聚类处理具体包括：

对T个句向量Q_T进行聚类，其中T≥M，M≥2；

初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类问题集的初始值为{1，[Q₁]}；

依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

下面以对Q₂聚类进行举例说明：计算Q₂与Q₁的语义相似度I，若相似度I大于0.9(根据需求设定预设值)，则认为Q₂和Q₁属于同一个类，此时K＝1不变，P0更新为Q₁和Q₂的向量平均值，聚类的问题集为{1，[Q₁，Q₂]}；若相似度I不满足要求，则Q₂和Q₁属于不同的类，此时K＝2，P0＝Q₁，P1＝Q₂，聚类的问题集为{1，[Q₁]}，{2，[Q₂]}。

处理时，将第二聚类处理聚类后的所述问句信息作为扩展问设置在不同平台上，分别为每个问句信息组设置一个标准问以及答案，形成一个知识点。需要说明的是，第二聚类后的问句信息作为知识点的扩展问，为了形成一个真正的知识点，还可以分别为每个问句信息组设置一个标准问以及答案。其中的标准问可以是扩展问中的一个，也可以是扩展问之外的问法。通过上述处理，每个知识点中均包括一个标准问、至少一个扩展问、以及对应的答案。

在本发明实施例中，为了提高聚类处理的正确率，在第一聚类处理后或第二聚类处理后，还可以计算聚类处理的准确率，如果准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整预设值、或者调整分词词典。在本发明实施例中，计算聚类处理的准确率时，可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。

例如，如果聚类处理的准确率小于预定准确率阈值，则可能是由于预设值设置的准确，可以调整预设值，也可能是在分词时出现问题，导致相似度计算的不准确，此时可以调整分词词典，或者可以直接对已聚类的问句信息进行合并和/或拆分，这些处理都可以使聚类处理更加准确。

聚类问题集的聚合是确定“问题-答案”对的基础技术和重要的步骤。本发明实施例通过两次聚类能够简便且准确地聚合领域内的问题集。具体体现在以下几个方面：

可以根据平台的数量对聚类处理的过程进行控制，保证多个平台的情况下每个平台都有一定数量的问题集，做到了均衡负载。

第二聚类处理采用改进的k-means算法的实现更简洁。传统的k-means算法中有几大难题，其中K值的选择就是其中之一，它通常是通过经验来确定的。因此，传统的k-means更适合于待聚类数据属于较少类别(K<10)的情况。但是，实际上，尤其是在问答领域内，问题集数据属于较多类别(几百种甚至几千种)。本发明实施例改进算法避免了K值的选择难题，具有更好的适用性。

以下结合附图，对本发明实施例的上述技术方案进行详细说明。

图2是本发明实施例的问句信息处理方法的详细处理的流程图，如图2所示，具体包括如下处理：

步骤200，获取背景语料和某一领域大数据量的问题集，形成语料数据，并从该语料数据中提取问句信息。

步骤201，对问句信息进行预处理和分词处理，得到所述问句信息的特征词：去除所述问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对所述问句信息进行分词处理，得到所述问句信息的原始特征词，过滤所述原始特征词中的停用词，得到所述问句信息的特征词。

步骤202，将问句信息的特征词输入向量化模型。

步骤203，从向量化模型获取词向量。

步骤204，采用矢量叠加或者词袋模型的方式，根据词向量构造问句信息的句向量。

步骤205，获取句向量。

步骤206，采用经典k-means算法对问句向量进行一次聚类处理，以得到K个聚类集，即K个子问题集。此处，K为除去经典k-means算法平台之后的平台数。

步骤207，在每个平台上对其对应的子问题集进行再次聚类处理，其中，聚类处理算法采用改进的k-means算法。

通过运用本发明实施例上述方法，解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题，能够提高在知识库中添加知识点的效率，避免了人力资源的浪费。

装置实施例

根据本发明的实施例，提供了一种问句信息处理装置，图3是本发明实施例的问句信息处理装置的结构示意图，如图3所示，根据本发明实施例的问句信息处理装置包括：问句信息获取模块30、预处理和分词模块32、向量获取模块33、初次聚类模块34和再次聚类模块35，以下对本发明实施例的各个模块进行详细的说明。

问句信息获取模块30，用于获取语料数据，提取其中的问句信息；

预处理和分词模块32，用于对所述问句信息进行预处理和分词处理，得到所述问句信息的特征词。

实现时，预处理和分词模块32进行预处理和分词处理具体包括如下处理：去除问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对问句信息进行分词处理，得到问句信息的原始特征词，过滤原始特征词中的停用词，得到问句信息的特征词。在实际应用中，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

在本发明实施例中，还可以进一步包括过滤模块，在进行了分词处理得到问句信息的特征词后，过滤模块还可以进一步对该特征词进行过滤处理，具体地，过滤处理采用以下任一种或两种方式：方式一：根据词性对特征词进行过滤，保留名词、动词以及形容词；方式二：根据频次对特征词进行过滤，保留频次大于频次阈值的特征词，其中，频次是指特征词在语料数据中出现的频率或者次数。

在本发明实施例中，还可以进一步包括新词同义词发现模块(图中未示出)，新词同义词发现模块可以通过新词发现方法获取问句信息中的新词，并根据新词重新进行分词处理，此外，还可以通过同义词发现方法从问句信息中获取语义相同的词语，以用于后续的相似度值计算。例如，后续在进行相似度计算时，如果通过同义词发现方法确认两个词为同义词，则会提高最后的语义相似度值的准确率。

向量获取模块33，用于获取所述特征词的词向量，并根据所述词向量构造所述问句信息的句向量。

在本发明实施例中，向量获取模块33获取特征词的词向量的方式包括：向量获取模块33将进行过滤处理之前问句信息的特征词输入向量模型，获取向量模型输出的特征词的词向量；从词向量中获取与过滤处理后保留的特征词相对应的词向量。其中，在实际应用中，上述向量模型可以包括：word2vector模型。

向量获取模块33获取句向量的具体构造方法包括以下之一：

方式一：向量获取模块33将单个问句信息中的所有特征词的词向量进行矢量叠加并取平均值，获取问句信息的句向量；

方式二：向量获取模块33根据特征词的个数和词向量的维度、以及相应问句信息中出现的特征词的词向量，获取该问句信息的句向量，其中，句向量的维度是特征词的个数与词向量的维度的乘积，句向量的维度值为：未在相应问句信息中出现的特征词所对应的维度值为0，在相应问句信息中出现的特征词所对应的维度值为该特征词的词向量；

方式三：向量获取模块33根据特征词的个数、以及相应问句信息中出现的特征词的TF-IDF值，获取该问句信息的句向量，其中，句向量的维度是特征词的个数，句向量的维度值为：未在相应问句信息中出现的特征词的维度值为0，在相应问句信息中出现的特征词的维度值为该特征词的TF-IDF值。

在方式三中，特征词的TF-IDF值通过以下方式获取：

2、计算特征词在对应问句中出现的频率，确定TF值；

3、将TF值乘以IDF值得到特征词的TF-IDF值。

初次聚类模块34，用于对所述问句信息进行至少一次的第一聚类处理，以得到S个第一聚类集，所述S为预设的正整数。所述初次聚类模块34的第一聚类处理具体采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法。所述初次聚类模块34具体用于：获取第N个问句信息的句向量与已聚类的P个问句信息组的句向量平均值之间的最大相似度值，将第N个问句信息聚类到所述最大相似度值对应的问句信息组中；其中，所述P小于等于所述第一聚类数量。

所述初次聚类模块34具体包括：

第一聚类单元(图中未示出)，用于对所述问句信息进行一次第三聚类处理，得到S个第三聚类集；数量判断单元(图中未示出)，用于判断S个第三聚类集中包括的所述问句信息的数量是否均在预设范围内；第一确定单元，用于在所述数量均在所述预设范围内时，将所述S个第三聚类集作为所述S个第一聚类集；第二聚类单元(图中未示出)，用于在所述数量不均在所述预设范围内时，对所述问句信息的数量超过预设范围的所述第三聚类集进行第四聚类处理，以得到多个第四聚类集；第二确定单元(图中未示出)，用于进行调整处理以将部分数目的第四聚类集移动至所述问句信息的数量小于预设范围的第三聚类集中，不断重复第四聚类处理以及调整处理，直至每个第三聚类集中包括的所述问句信息的数量均在预设范围内，最后将S个新的第三聚类集作为所述S个第一聚类集。

上述第三聚类处理采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法；第四聚类处理的方法与第三聚类处理或第二聚类处理相同。

再次聚类模块35，用于分别对每个所述第一聚类集进行第二聚类处理，其中，所述第二聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于或等于预设值时，将第M个问句信息聚类到所述最大相似度值对应的问句信息组中；当所述最大相似度值小于或等于预设值时，将第M个问句信息作为第K+1个问句信息组，所述K小于或等于M-1。

设置时，可以分别采用一个不同平台设置所述。上述再次聚类模块35采用的第二聚类处理为改进的k-means算法，其避免了传统的k-means算法中K值选择难的问题。该算法是指对问句依次进行聚类；K值从1开始递增，并且在此过程中不断更新中心点来实现整个聚类。再次聚类模块35包括：

第三聚类单元(图中未示出)，用于对T个句向量Q_T进行聚类，其中T≥M，M≥2；初始化单元(图中未示出)，用于初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类问题集的初始值为{1，[Q₁]}；第四聚类单元(图中未示出)，用于依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

本发明实施例还包括知识点生成模块(图中未示出)，具体地，第二聚类处理聚类后的问句信息作为知识点的扩展问，为了形成一个真正的知识点，知识点生成模块分别为每个问句信息组设置一个标准问以及答案。其中的标准问可以是扩展问中的一个，也可以是扩展问之外的问法。通过上述处理，每个知识点中均包括一个标准问、至少一个扩展问、以及对应的答案。

在本发明实施例中，还包括优化模块(图中未示出)，具体地，为了提高聚类处理的正确率，在第一聚类处理后或第二聚类处理后，还可以计算聚类处理的准确率，如果准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整预设值、或者调整分词词典。在本发明实施例中，计算聚类处理的准确率时，可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。

综上所述，本发明实施例通过对提取的问句信息进行两次聚类处理，两次聚类处理后实现了大数据量问题集的精确聚类，且还可以将不同问题集设置在不同的平台上，解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题，能够提高在知识库中添加知识点的效率，避免了人力资源的浪费。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种问句信息处理方法，其特征在于，包括：

获取语料数据，提取其中的问句信息；

2.如权利要求1所述的问句信息处理方法，其特征在于，对所述问句信息进行一次的第一聚类处理，第一聚类处理采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法。

3.如权利要求1所述的问句信息处理方法，其特征在于，对所述问句信息进行至少一次的第一聚类处理，以得到S个第一聚类集包括：

对所述问句信息进行一次第三聚类处理，得到S个第三聚类集；

判断S个第三聚类集中包括的所述问句信息的数量是否均在预设范围内；

当是时，则将所述S个第三聚类集作为所述S个第一聚类集；

否则，对所述问句信息的数量超过预设范围的所述第三聚类集进行第四聚类处理，以得到多个第四聚类集，并进行调整处理以将部分数目的第四聚类集移动至所述问句信息的数量小于预设范围的第三聚类集中，不断重复第四聚类处理以及调整处理，直至每个第三聚类集中包括的所述问句信息的数量均在预设范围内，最后将S个新的第三聚类集作为所述S个第一聚类集。

4.如权利要求3所述的问句信息处理方法，其特征在于，第三聚类处理采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法；第四聚类处理的方法与第三聚类处理或第二聚类处理相同。

5.如权利要求1所述的问句信息处理方法，其特征在于，第一聚类处理的方法为：获取第N个问句信息的句向量与已聚类的P个问句信息组的句向量平均值之间的最大相似度值，将第N个问句信息聚类到所述最大相似度值对应的问句信息组中；其中，所述P小于等于所述第一聚类数量。

6.如权利要求1所述的问句信息处理方法，其特征在于，分别采用一个不同平台对一个所述第一聚类集进行第二聚类处理。

7.如权利要求1所述的问句信息处理方法，其特征在于，所述第二聚类处理的方法具体包括：

对T个句向量Q_T进行聚类，其中T≥M，M≥2；

8.如权利要求1所述的问句信息处理方法，其特征在于，所述语料数据包括：背景语料和/或预定领域预定数量的问题集。

9.如权利要求1至8中任一项所述的问句信息处理方法，其特征在于，对所述问句信息进行预处理和分词处理之后，所述方法还包括：

通过新词发现方法获取所述问句信息中的新词，并根据所述新词重新进行分词处理，通过同义词发现方法从所述问句信息中获取语义相同的词语，以用于后续的相似度值计算。

10.如权利要求1所述的问句信息处理方法，其特征在于，对所述问句信息进行预处理和分词处理具体，包括：

去除所述问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对所述问句信息进行分词处理，得到所述问句信息的原始特征词，过滤所述原始特征词中的停用词，得到所述问句信息的特征词。

11.如权利要求1所述的问句信息处理方法，其特征在于，得到所述问句信息的特征词之后，所述方法进一步包括：采用以下任一种或两种方式对所述特征词进行过滤处理：

根据词性对所述特征词进行过滤，保留名词、动词以及形容词；

根据频次对所述特征词进行过滤，保留频次大于频次阈值的特征词。

12.如权利要求1或11所述的问句信息处理方法，其特征在于，获取所述特征词的词向量具体包括：

将所述问句信息的特征词输入向量模型，获取所述向量模型输出的所述特征词的词向量。

13.如权利要求11所述的问句信息处理方法，其特征在于，获取所述特征词的词向量具体包括：

将进行过滤处理之前所述问句信息的特征词输入向量模型，获取所述向量模型输出的所述特征词的词向量；

从所述词向量中获取与过滤处理后保留的特征词相对应的词向量。

14.如权利要求1所述的问句信息处理方法，其特征在于，根据所述词向量构造所述问句信息的句向量的具体构造方法包括以下之一：

将单个问句信息中的所有特征词的词向量进行矢量叠加，获取所述问句信息的句向量；

根据所述特征词的个数和词向量的维度、以及相应问句信息中出现的特征词的词向量，获取该问句信息的句向量，其中，所述句向量的维度是特征词的个数与词向量的维度的乘积，所述句向量的维度值为：未在相应问句信息中出现的特征词所对应的维度值为0，在相应问句信息中出现的特征词所对应的维度值为该特征词的词向量；

根据所述特征词的个数、以及相应问句信息中出现的特征词的TF-IDF值，获取该问句信息的句向量，其中，所述句向量的维度是特征词的个数，所述句向量的维度值为：未在相应问句信息中出现的特征词的维度值为0，在相应问句信息中出现的特征词的维度值为该特征词的TF-IDF值。

15.如权利要求1所述的问句信息处理方法，其特征在于，所述方法还包括：将第二聚类处理聚类后的所述问句信息作为扩展问设置在不同平台上，分别为每个问句信息组设置一个标准问以及答案，形成一个知识点。

16.如权利要求1所述的问句信息处理方法，其特征在于，在第一聚类处理后或第二聚类处理后，所述方法还包括：计算所述聚类处理的准确率，如果所述准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整所述预设值、或者调整分词词典。

17.一种问句信息处理装置，其特征在于，包括：

18.如权利要求17所述的问句信息处理装置，其特征在于，所述初次聚类模块的第一聚类处理具体采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法。

19.如权利要求17所述的问句信息处理装置，其特征在于，所述初次聚类模块包括：

第一聚类单元，用于对所述问句信息进行一次第三聚类处理，得到S个第三聚类集；

数量判断单元，用于判断S个第三聚类集中包括的所述问句信息的数量是否均在预设范围内；

第一确定单元，用于在所述数量均在所述预设范围内时，将所述S个第三聚类集作为所述S个第一聚类集；

第二聚类单元，用于在所述数量不均在所述预设范围内时，对所述问句信息的数量超过预设范围的所述第三聚类集进行第四聚类处理，以得到多个第四聚类集；

第二确定单元，用于进行调整处理以将部分数目的第四聚类集移动至所述问句信息的数量小于预设范围的第三聚类集中，不断重复第四聚类处理以及调整处理，直至每个第三聚类集中包括的所述问句信息的数量均在预设范围内，最后将S个新的第三聚类集作为所述S个第一聚类集。

20.如权利要求19所述的问句信息处理装置，其特征在于，第三聚类处理采用以下一种或多种的组合：kmeans算法、谱聚类算法和基于密度的聚类算法；第四聚类处理的方法与第三聚类处理或第二聚类处理相同。

21.如权利要求17所述的问句信息处理装置，其特征在于，所述初次聚类模块具体用于：获取第N个问句信息的句向量与已聚类的P个问句信息组的句向量平均值之间的最大相似度值，将第N个问句信息聚类到所述最大相似度值对应的问句信息组中；其中，所述P小于等于所述第一聚类数量。

22.如权利要求17所述的问句信息处理装置，其特征在于，分别采用一个不同平台设置所述再次聚类模块。

23.如权利要求17所述的问句信息处理装置，其特征在于，所述再次聚类模块包括：

第三聚类单元，用于对T个句向量Q_T进行聚类，其中T≥M，M≥2；

初始化单元，用于初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类问题集的初始值为{1，[Q₁]}；

第四聚类单元，用于依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

24.如权利要求17所述的问句信息处理装置，其特征在于，所述问句信息获取模块的所述语料数据包括：背景语料和/或预定领域预定数量的问题集。

25.如权利要求17至24所述的问句信息处理装置，其特征在于，所述装置进一步包括：

新词同义词发现模块，用于通过新词发现方法获取所述问句信息中的新词，并根据所述新词重新进行分词处理，通过同义词发现方法从所述问句信息中获取语义相同的词语，以用于后续的相似度值计算。

26.如权利要求17所述的问句信息处理装置，其特征在于，所述预处理和分词模块，具体用于：

27.如权利要求17所述的问句信息处理装置，其特征在于，所述装置进一步包括：

过滤模块，用于在得到所述问句信息的特征词之后，采用以下任一种或两种方式对所述特征词进行过滤处理：

28.如权利要求17或27所述的问句信息处理装置，其特征在于，所述向量获取模块具体用于：

29.如权利要求27所述的问句信息处理装置，其特征在于，所述向量获取模块具体用于：

30.如权利要求17所述的问句信息处理装置，其特征在于，所述向量获取模块具体用于：

采用以下之一的具体构造方法，根据所述词向量构造所述问句信息的句向量：

31.如权利要求17所述的问句信息处理装置，其特征在于，所述装置进一步包括：

知识点生成模块，用于将第二聚类处理聚类后的所述问句信息作为扩展问设置在不同平台上，分别为每个问句信息组设置一个标准问以及答案，形成一个知识点。

32.如权利要求17所述的问句信息处理装置，其特征在于，所述装置进一步包括：

优化模块，用于在第一聚类处理后或第二聚类处理后，计算所述聚类处理的准确率，如果所述准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整所述预设值、或者调整分词词典。