CN105955965A

CN105955965A - 问句信息处理方法及装置

Info

Publication number: CN105955965A
Application number: CN201610452734.2A
Authority: CN
Inventors: 谢瑜; 张昊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2016-09-21

Abstract

本发明公开了一种问句信息处理方法及装置。该方法包括：获取语料数据，提取其中的问句信息；对问句信息进行预处理和分词处理，得到问句信息的特征词；获取特征词的词向量，并根据词向量构造问句信息的句向量；根据相似度计算对问句信息进行聚类处理，聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当最大相似度值大于预设值时，将第M个问句信息聚类到最大相似度值对应的问句信息组中；当最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，K小于或等于M‑1。借助于本发明的技术方案，能够提高在知识库中添加知识点的效率，避免了人力资源的浪费。

Description

问句信息处理方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种问句信息处理方法及装置。

背景技术

在现有技术中，智能问答知识库中包括了多个知识点，在将新的知识点添加到知识库中时，需要人工审核领域语料，从语料中提取知识点，并创建知识点的标准问、多个扩展问和答案。但是，上述知识点的创建方法由于是通过人工审核，需要耗费大量的人力物力财力，并且效率低下。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问句信息处理方法及装置。

本发明提供一种问句信息处理方法，包括：

获取语料数据，提取其中的问句信息；

对问句信息进行预处理和分词处理，得到问句信息的特征词；

获取特征词的词向量，并根据词向量构造问句信息的句向量；

根据相似度计算对问句信息进行聚类处理，聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当最大相似度值大于预设值时，将第M个问句信息聚类到最大相似度值对应的问句信息组中；当最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，K小于或等于M-1。

本发明还提供了一种问句信息处理装置，包括：

获取模块，用于获取语料数据，提取其中的问句信息；

预处理和分词模块，用于对问句信息进行预处理和分词处理，得到问句信息的特征词；

向量获取模块，用于获取特征词的词向量，并根据词向量构造问句信息的句向量；

聚类模块，用于根据相似度计算对问句信息进行聚类处理，聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当最大相似度值大于预设值时，将第M个问句信息聚类到最大相似度值对应的问句信息组中；当最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，K小于或等于M-1。

本发明有益效果如下：

通过根据相似度计算对提取的问句信息进行自动聚类处理，并动态调整中心点，解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题，能够提高在知识库中添加知识点的效率，避免了人力资源的浪费。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的问句信息处理方法的流程图；

图2是本发明实施例的问句信息处理方法的详细处理的流程图；

图3是本发明实施例的问句信息处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术人工审核语料耗费大量的人力物力财力并且效率低下的问题，本发明提供了一种问句信息处理方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种问句信息处理方法，图1是本发明实施例的问句信息处理方法的流程图，如图1所示，根据本发明实施例的问句信息处理方法包括如下处理：

步骤101，获取语料数据，提取其中的问句信息。

在本发明实施例中，语料数据可以包括智能问答日志和/或从互联网爬取的问答数据。其中，智能问答日志是指：用户在使用智能问答系统过程中产生的交互日志，每条日志至少包括：用户的问句信息以及系统反馈的答案信息。此外，在从互联网爬取问答数据时，可以从论坛、网络百科、网络知道上爬取问答数据。在获取了语料数据之后，可以从语料数据中将问句信息进行提取。

步骤102，对问句信息进行预处理和分词处理，得到问句信息的特征词。

在步骤102中，进行预处理和分词处理具体包括如下处理：去除问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对问句信息进行分词处理，得到问句信息的原始特征词，过滤原始特征词中的停用词，得到问句信息的特征词。在实际应用中，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

在本发明实施例中，进行了分词处理得到问句信息的特征词，还可以进一步对该特征词进行过滤处理，具体地，过滤处理采用以下任一种或两种方式：方式一：根据词性对特征词进行过滤，保留名词、动词以及形容词；方式二：根据频次对特征词进行过滤，保留频次大于频次阈值的特征词，其中，频次是指特征词在语料数据中出现的频率或者次数。

优选地，在步骤102之后，可以通过新词发现方法获取问句信息中的新词，并根据新词重新进行分词处理，此外，还可以通过同义词发现方法从问句信息中获取语义相同的词语，以用于后续的相似度值计算。例如，后续在进行相似度计算时，如果通过同义词发现方法确认两个词为同义词，则会提高最后的语义相似度值的准确率。

具体地，分词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。新词发现方法具体可以包括：互信息、共现概率、信息熵等方法，利用新词发现方法可以获取新的词语，根据获取的信的词语可以更新分词词典，那么在进行分词处理时，可以根据更新后的分词词典进行分词，增加了分词处理的准确率。同义词发现方法具体可以包括：W2V和编辑距离等方法，利用同义词发现方法可以发现具有相同含义的词语，例如：通过同义词发现方法发现组合词、简化词是同义词，那么后续进行语义相似度值计算时，根据发现的同义词就可以提高语义相似度值计算的准确率。

需要说明的是，在本发明实施例中，进行预处理和分词后得到的特征词尽量保持词的顺序不变，从而保证后续计算词向量和句向量的准确性。

步骤103，获取特征词的词向量，并根据词向量构造问句信息的句向量。

在本发明实施例中，获取特征词的词向量的方式包括：

将进行过滤处理之前问句信息的特征词输入向量模型，获取向量模型输出的特征词的词向量；从词向量中获取与过滤处理后保留的特征词相对应的词向量。

其中，在实际应用中，上述向量模型可以包括：word2vector模型。

在步骤103中，获取句向量的具体构造方法包括以下之一：

方式一：将单个问句信息中的所有特征词的词向量进行矢量叠加并取平均值，获取问句信息的句向量；

方式二：根据特征词的个数和词向量的维度、以及相应问句信息中出现的特征词的词向量，获取该问句信息的句向量，其中，句向量的维度是特征词的个数与词向量的维度的乘积，句向量的维度值为：未在相应问句信息中出现的特征词所对应的维度值为0，在相应问句信息中出现的特征词所对应的维度值为该特征词的词向量；

方式三：根据特征词的个数、以及相应问句信息中出现的特征词的TF-IDF值，获取该问句信息的句向量，其中，句向量的维度是特征词的个数，句向量的维度值为：未在相应问句信息中出现的特征词的维度值为0，在相应问句信息中出现的特征词的维度值为该特征词的TF-IDF值。

在方式三中，特征词的TF-IDF值通过以下方式获取：

1、将语料数据中包括的问句总数目除以包含特征词的问句的数目，将得到的商取对数得到特征词的IDF值；

2、计算特征词在对应问句中出现的频率，确定TF值；

3、将TF值乘以IDF值得到特征词的TF-IDF值。

步骤104，根据相似度计算对问句信息进行聚类处理，聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当最大相似度值大于预设值时，将第M个问句信息聚类到最大相似度值对应的问句信息组中；当最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，K小于或等于M-1。

本实施例在进行聚类处理之前，并不需要预先确定聚类结果的数目，即当聚类处理后得到K个问句信息组时，K数值是自动聚类的结果，在聚类之前并不清楚也没有限定聚类的结果，从而实现了自动聚类。

此外，本实施例将语义相似度值比较高的问句聚类在一个问句信息组中，从而可以将一个问句信息组中的问句作为同一个知识点的拓展问，采用这样的方法建立包括多个知识点的问答知识库，可以提高问答的准确率。

在步骤104中，采用改进的k-means算法实现问句的聚类：改进的k-means算法避免了传统的k-means算法中K值选择难的问题。该算法是指对问句依次进行聚类；K值从1开始递增，并且在此过程中不断更新中心点来实现整个聚类。聚类处理具体包括：

对T个句向量Q_T进行聚类，其中T≥M，M≥2；其中，T个句向量为：Q₁，Q₂，…，Q_T。

初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点P_K-1的初始值为P₀，P₀＝Q₁，Q₁表示第1个句向量，聚类问题集的初始值为{1，[Q₁]}；

依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

下面以对Q₂聚类进行举例说明：计算Q₂与Q₁的语义相似度I，若相似度I大于0.9(根据需求设定预设值)，则认为Q₂和Q₁属于同一个类，此时K＝1不变，P0更新为Q₁和Q₂的向量平均值，聚类的问题集为{1，[Q₁，Q₂]}；若相似度I不满足要求，则Q₂和Q₁属于不同的类，此时K＝2，P0＝Q₁，P1＝Q₂，聚类的问题集为{1，[Q₁]}，{2，[Q₂]}。

采用上述方法依次对剩余其他问句进行聚类完成的同时可以得到K最终值。

需要说明的是，在本发明实施例中，聚类问题集中所有句向量的向量平均值的计算方法包括：假设聚类问题集中当前有N个问句向量，该N个问句向量的向量平均值为A，那么，当将一个问句向量B新聚类到该聚类问题集中时，可以通过以下公式计算：新的向量平均值＝(A*N+B)/(N+1)。

需要说明的是，聚类后的问句信息作为知识点的扩展问，为了形成一个真正的知识点，还可以分别为每个问句信息组设置一个标准问以及答案。其中的标准问可以是扩展问中的一个，也可以是扩展问之外的问法。通过上述处理，每个知识点中均包括一个标准问、至少一个扩展问、以及对应的答案。

在本发明实施例中，为了提高聚类处理的正确率，还可以计算聚类处理的准确率，如果准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整预设值、或者调整分词词典。在本发明实施例中，计算聚类处理的准确率时，可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。

例如，如果聚类处理的准确率小于预定准确率阈值，则可能是由于预设值设置的准确，可以调整预设值，也可能是在分词时出现问题，导致相似度计算的不准确，此时可以调整分词词典，或者可以直接对已聚类的问句信息进行合并和/或拆分，这些处理都可以使聚类处理更加准确。

从上述描述可以看出，本发明实施例对所有语料数据进行预处理后分词，利用词频特征对背景语料进行特征词选择以降低维度，并利用word2vector模型得到待聚类问题集的词向量，且利用词向量通过矢量叠加或变形的词袋模型得到句向量；最后，利用改进的k-means算法实现聚类。

聚类问题集的聚合是确定“问题-答案”对的基础技术和重要的步骤。本发明实施例能够简便且有效地聚合领域内的问题集。具体体现在以下几个方面：

改进的k-means算法的实现更简洁。传统的k-means算法中有几大难题，其中K值的选择就是其中之一，它通常是通过经验来确定的。因此，传统的k-means更适合于待聚类数据属于较少类别(K<10)的情况。但是，实际上，尤其是在问答领域内，问题集数据属于较多类别(几百种甚至几千种)。本发明实施例改进算法避免了K值的选择难题，具有更好的适用性。

另外，与现有的问题集聚合的方案相比，本发明实施例具有更高的效率和更好的准确率。现有的问题集聚合的方案的不足之处有两点：其一，各个类的中心点较多，因此需要较多的运算量，对于较大的问题集聚合效率较低；其二，待聚类问句和各个类别之间的语义距离是计算句与句之间的距离，因此具有较大的偶然性，导致准确率不高。

基于现有方案存在的两点不足，本发明实施例采用动态调整中心点的方法，它是对每个问句的分类都会更新对应类的语义中心点，即各个类的中心点是所有属于该类的平均。因此，各个类的中心点只有一个，可以提高效率；并且，待聚类问句和各个类别之间的语义距离是计算该问句和各个类别的语义中心点的距离，因此准确率较高。

以下结合附图，对本发明实施例的上述技术方案进行详细说明。

图2是本发明实施例的问句信息处理方法的详细处理的流程图，如图2所示，具体包括如下处理：

步骤200，获取智能问答日志以及从互联网爬取的问答数据，形成语料数据，并从该语料数据中提取问句信息；

步骤201，对问句信息进行预处理和分词处理，得到所述问句信息的特征词：去除所述问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对所述问句信息进行分词处理，得到所述问句信息的原始特征词，过滤所述原始特征词中的停用词，得到所述问句信息的特征词。

步骤202，将问句信息的特征词输入word2vector模型；

步骤203，从word2vector模型获取词向量；

步骤204，采用矢量叠加或者词袋模型的方式，根据词向量构造问句信息的句向量；

步骤205，获取句向量；

步骤206，根据句向量确定待聚类的句向量Q₁，Q₂，…，Q_T；

步骤207，初始K值、中心点P_K-1、以及聚类问题集{K，[P_K-1]}，其中，K＝1，中心点P_K-1的初始值为P₀，P₀＝Q₁，聚类问题集的初始值为{1，[Q₁]}；

步骤208，进行聚类处理，判断当前聚类的句向量Q_i是否1＜i＜T(T为待聚类的句向量的总个数)，如果判断为是，执行步骤209，否则，结束操作；

步骤209，计算Q_i和每个聚类问题集的中心点的相似度，并找到相似度最大的中心点P_j；

步骤210，判断Q_i和P_j之间的语义相似度是否大于或等于预设值，优选地，在本实例中，预设值可以为0.9，如果判断为是，执行步骤212，否则，执行步骤211；

步骤211，另K+＝1，P_j+1＝Q_i，新增加聚类问题集C_j+1＝[Q_j]；

步骤212，保持K不变，P_j＝(…，Q_i)，C_j＝[…，Q_j]；

步骤213，另i+＝1，执行步骤208。

综上所述，借助于本发明实施例的技术方案，通过根据相似度计算对提取的问句信息进行自动聚类处理，并动态调整中心点，解决了现有技术中人工审核语料耗费大量的人力物力财力并且效率低下的问题，能够提高在知识库中添加知识点的效率，避免了人力资源的浪费。

装置实施例

根据本发明的实施例，提供了一种问句信息处理装置，图3是本发明实施例的问句信息处理装置的结构示意图，如图3所示，根据本发明实施例的问句信息处理装置包括：获取模块30、预处理和分词模块32、向量获取模块34以及聚类模块36，以下对本发明实施例的各个模块进行详细的说明。

获取模块30，用于获取语料数据，提取其中的问句信息。

预处理和分词模块32，用于对问句信息进行预处理和分词处理，得到问句信息的特征词。

预处理和分词模块32进行预处理和分词处理具体包括如下处理：去除问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对问句信息进行分词处理，得到问句信息的原始特征词，过滤原始特征词中的停用词，得到问句信息的特征词。在实际应用中，上述标点可以是问号、叹号、分号或句号，也就是说，可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。

在本发明实施例中，还可以进一步包括过滤模块，在进行了分词处理得到问句信息的特征词后，过滤模块还可以进一步对该特征词进行过滤处理，具体地，过滤处理采用以下任一种或两种方式：方式一：根据词性对特征词进行过滤，保留名词、动词以及形容词；方式二：根据频次对特征词进行过滤，保留频次大于频次阈值的特征词，其中，频次是指特征词在语料数据中出现的频率或者次数。

在本发明实施例中，还可以进一步包括新词同义词发现模块，新词同义词发现模块可以通过新词发现方法获取问句信息中的新词，并根据新词重新进行分词处理，此外，还可以通过同义词发现方法从问句信息中获取语义相同的词语，以用于后续的相似度值计算。例如，后续在进行相似度计算时，如果通过同义词发现方法确认两个词为同义词，则会提高最后的语义相似度值的准确率。

向量获取模块34，用于获取特征词的词向量，并根据词向量构造问句信息的句向量。

在本发明实施例中，向量获取模块34获取特征词的词向量的方式包括：

向量获取模块34将进行过滤处理之前问句信息的特征词输入向量模型，获取向量模型输出的特征词的词向量；从词向量中获取与过滤处理后保留的特征词相对应的词向量。

在步骤103中，向量获取模块34获取句向量的具体构造方法包括以下之一：

方式一：向量获取模块34将单个问句信息中的所有特征词的词向量进行矢量叠加并取平均值，获取问句信息的句向量；

方式二：向量获取模块34根据特征词的个数和词向量的维度、以及相应问句信息中出现的特征词的词向量，获取该问句信息的句向量，其中，句向量的维度是特征词的个数与词向量的维度的乘积，句向量的维度值为：未在相应问句信息中出现的特征词所对应的维度值为0，在相应问句信息中出现的特征词所对应的维度值为该特征词的词向量；

方式三：向量获取模块34根据特征词的个数、以及相应问句信息中出现的特征词的TF-IDF值，获取该问句信息的句向量，其中，句向量的维度是特征词的个数，句向量的维度值为：未在相应问句信息中出现的特征词的维度值为0，在相应问句信息中出现的特征词的维度值为该特征词的TF-IDF值。

在方式三中，特征词的TF-IDF值通过以下方式获取：

2、计算特征词在对应问句中出现的频率，确定TF值；

3、将TF值乘以IDF值得到特征词的TF-IDF值。

聚类模块36，用于根据相似度计算对问句信息进行聚类处理，聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当最大相似度值大于预设值时，将第M个问句信息聚类到最大相似度值对应的问句信息组中；当最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，K小于或等于M-1。

本实施例在聚类模块36进行聚类处理之前，并不需要预先确定聚类结果的数目，即当聚类处理后得到K个问句信息组时，K数值是自动聚类的结果，在聚类之前并不清楚也没有限定聚类的结果，从而实现了自动聚类。

聚类模块36采用改进的k-means算法实现问句的聚类：改进的k-means算法避免了传统的k-means算法中K值选择难的问题。该算法是指对问句依次进行聚类；K值从1开始递增，并且在此过程中不断更新中心点来实现整个聚类。聚类模块36的聚类处理具体包括：

下面以对Q₂聚类进行举例说明：聚类模块36计算Q₂与Q₁的语义相似度I，若相似度I大于0.9(根据需求设定预设值)，则认为Q₂和Q₁属于同一个类，此时K＝1不变，P0更新为Q₁和Q₂的向量平均值，聚类的问题集为{1，[Q₁，Q₂]}；若相似度I不满足要求，则Q₂和Q₁属于不同的类，此时K＝2，P0＝Q₁，P1＝Q₂，聚类的问题集为{1，[Q₁]}，{2，[Q₂]}。

本发明实施例还包括知识点生成模块，具体地，聚类后的问句信息作为知识点的扩展问，为了形成一个真正的知识点，知识点生成模块分别为每个问句信息组设置一个标准问以及答案。其中的标准问可以是扩展问中的一个，也可以是扩展问之外的问法。通过上述处理，每个知识点中均包括一个标准问、至少一个扩展问、以及对应的答案。

在本发明实施例中，还包括优化模块，具体地，为了提高聚类处理的正确率，还可以计算聚类处理的准确率，如果准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整预设值、或者调整分词词典。在本发明实施例中，计算聚类处理的准确率时，可以依据给出的每个聚类处理是否正确的指示来确定聚类处理的准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种问句信息处理方法，其特征在于，包括：

获取语料数据，提取其中的问句信息；

对所述问句信息进行预处理和分词处理，得到所述问句信息的特征词；

获取所述特征词的词向量，并根据所述词向量构造所述问句信息的句向量；

根据相似度计算对所述问句信息进行聚类处理，所述聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于预设值时，将第M个问句信息聚类到所述最大相似度值对应的问句信息组中；当所述最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，所述K小于或等于M-1。

2.如权利要求1所述的问句信息处理方法，其特征在于，对所述问句信息进行预处理和分词处理具体包括：

去除所述问句信息中的无效格式，并将其余问句信息的格式统一为文本格式，过滤敏感词、和/或脏词所对应的问句信息，将过滤后的问句信息按照标点划分为多行，并根据分词词典对所述问句信息进行分词处理，得到所述问句信息的原始特征词，过滤所述原始特征词中的停用词，得到所述问句信息的特征词。

3.如权利要求1所述的问句信息处理方法，其特征在于，得到所述问句信息的特征词之后，所述方法进一步包括：采用以下任一种或两种方式对所述特征词进行过滤处理：

根据词性对所述特征词进行过滤，保留名词、动词以及形容词；

根据频次对所述特征词进行过滤，保留频次大于频次阈值的特征词。

4.如权利要求1或3所述的问句信息处理方法，其特征在于，获取所述特征词的词向量具体包括：

将所述问句信息的特征词输入向量模型，获取所述向量模型输出的所述特征词的词向量。

5.如权利要求3所述的问句信息处理方法，其特征在于，获取所述特征词的词向量具体包括：

将进行过滤处理之前所述问句信息的特征词输入向量模型，获取所述向量模型输出的所述特征词的词向量；

从所述词向量中获取与过滤处理后保留的特征词相对应的词向量。

6.如权利要求1所述的问句信息处理方法，其特征在于，根据所述词向量构造所述问句信息的句向量的具体构造方法包括以下之一：

将单个问句信息中的所有特征词的词向量进行矢量叠加，获取所述问句信息的句向量；

根据所述特征词的个数和词向量的维度、以及相应问句信息中出现的特征词的词向量，获取该问句信息的句向量，其中，所述句向量的维度是特征词的个数与词向量的维度的乘积，所述句向量的维度值为：未在相应问句信息中出现的特征词所对应的维度值为0，在相应问句信息中出现的特征词所对应的维度值为该特征词的词向量；

根据所述特征词的个数、以及相应问句信息中出现的特征词的TF-IDF值，获取该问句信息的句向量，其中，所述句向量的维度是特征词的个数，所述句向量的维度值为：未在相应问句信息中出现的特征词的维度值为0，在相应问句信息中出现的特征词的维度值为该特征词的TF-IDF值。

7.如权利要求1所述的问句信息处理方法，其特征在于，所述聚类处理具体包括：

对T个句向量Q_T进行聚类，其中T≥M，M≥2；

依次对剩下的Q_T进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

8.如权利要求1所述的问句信息处理方法，其特征在于，对所述问句信息进行预处理和分词处理之后，所述方法还包括：

通过新词发现方法获取所述问句信息中的新词，并根据所述新词重新进行分词处理，通过同义词发现方法从所述问句信息中获取语义相同的词语，以用于后续的相似度值计算。

9.如权利要求1所述的问句信息处理方法，其特征在于，所述方法还包括：将聚类后的所述问句信息作为扩展问，分别为每个问句信息组设置一个标准问以及答案，形成一个知识点。

10.如权利要求1所述的问句信息处理方法，其特征在于，所述方法还包括：计算所述聚类处理的准确率，如果所述准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整所述预设值、或者调整分词词典。

11.如权利要求1所述的问句信息处理方法，其特征在于，所述语料数据包括智能问答日志和/或从互联网爬取的问答数据。

12.一种问句信息处理装置，其特征在于，包括：

获取模块，用于获取语料数据，提取其中的问句信息；

预处理和分词模块，用于对所述问句信息进行预处理和分词处理，得到所述问句信息的特征词；

向量获取模块，用于获取所述特征词的词向量，并根据所述词向量构造所述问句信息的句向量；

聚类模块，用于根据相似度计算对所述问句信息进行聚类处理，所述聚类处理包括：分别获取第M个问句信息的句向量与已聚类的K个问句信息组的句向量平均值之间的最大相似度值，当所述最大相似度值大于预设值时，将第M个问句信息聚类到所述最大相似度值对应的问句信息组中；当所述最大相似度值小于预设值时，将第M个问句信息作为第K+1个问句信息组，所述K小于或等于M-1。

13.如权利要求12所述的问句信息处理装置，其特征在于，所述预处理和分词模块具体用于：

14.如权利要求12所述的问句信息处理装置，其特征在于，所述装置进一步包括：

过滤模块，用于在所述预处理和分词模块得到所述问句信息的特征词之后，采用以下任一种或两种方式对所述特征词进行过滤处理：

15.如权利要求12或14所述的问句信息处理装置，其特征在于，所述向量获取模块具体用于：

16.如权利要求14所述的问句信息处理装置，其特征在于，所述向量获取模块具体用于：

17.如权利要求12所述的问句信息处理装置，其特征在于，所述向量获取模块具体用于：

采用以下之一的具体构造方法，根据所述词向量构造所述问句信息的句向量：

18.如权利要求12所述的问句信息处理装置，其特征在于，所述聚类模块具体用于：

对T个句向量QT进行聚类，其中T≥M，M≥2；

初始K值、中心点PK-1、以及聚类问题集{K，[PK-1]}，其中，K表示聚类的类别数，K的初始值为1，中心点PK-1的初始值为P0，P0＝Q1，Q1表示第1个句向量，聚类问题集的初始值为{1，[Q1]}；

依次对剩下的QT进行聚类，计算当前句向量与每个聚类问题集的中心点的相似度，如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值，则将当前句向量聚类到相应的聚类问题集中，保持K值不变，将相应的中心点更新为聚类问题集中所有句向量的向量平均值，相应的聚类问题集为{K，[句向量的向量平均值]}；如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值，则令K＝K+1，增加新的中心点，所述新的中心点的值为当前句向量，并增加新的聚类问题集{K，[当前句向量]}。

19.如权利要求12所述的问句信息处理装置，其特征在于，所述装置进一步包括：

新词同义词发现模块，用于所述预处理和分词模块对所述问句信息进行预处理和分词处理之后，通过新词发现方法获取所述问句信息中的新词，并根据所述新词重新进行分词处理，通过同义词发现方法从所述问句信息中获取语义相同的词语，以用于后续的相似度值计算。

20.如权利要求12所述的问句信息处理装置，其特征在于，所述装置进一步包括：

知识点生成模块，用于将聚类后的所述问句信息作为扩展问，分别为每个问句信息组设置一个标准问以及答案，形成一个知识点。

21.如权利要求12所述的问句信息处理装置，其特征在于，所述装置进一步包括：

优化模块，用于计算所述聚类处理的准确率，如果所述准确率小于预定准确率阈值，则对已聚类的问句信息进行合并和/或拆分、调整所述预设值、或者调整分词词典。

22.如权利要求12所述的问句信息处理装置，其特征在于，所述语料数据包括智能问答日志和/或从互联网爬取的问答数据。