CN106844530A

CN106844530A - 一种问答对分类模型的训练方法和装置

Info

Publication number: CN106844530A
Application number: CN201611249261.2A
Authority: CN
Inventors: 庞伟
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-06-13

Abstract

本发明实施例提供了一种问答对分类模型的训练方法和装置，该方法包括：获取问答对数据；从所述问答对数据中提取问答对特征；根据所述问答对数据的质量对所述问答对数据标注分类标签；采用所述问答对特征与所述分类标签训练问答对分类模型。使用问答对数据的质量自动标注大量训练集，训练问答对分类模型进行分类，即预测质量分，避免人工策略，从而避免了人工策略利用的特征信息少，用户主动反馈率低，依赖提问者的主观判断，广告作弊现象严重，用户对新的问答对数据和历史的问答对数据的反馈信息不平衡导致策略不稳定等问题，在历史的问答对数据和新产生的问答对数据上，都取得较好的预测准确率。

Description

一种问答对分类模型的训练方法和装置

技术领域

本发明涉及计算机处理的技术领域，特别是涉及一种问答对分类模型的训练方法和一种问答对分类模型的训练装置。

背景技术

目前，网络上具有许多互动式的问答平台，用户在问答平台上提出自己的问题，问答平台发动其他用户来回答，解决提问者的疑问。

问答平台积累了大量的用户，产生海量的问答对数据(即问题与答案)，其中，问答对数据的质量有高有低，一个低质量的问答对数据的价值较低，影响用户体验，而高质量的问答对数据，是问答平台的重要数据资源。

为挖掘出高质量的问答对数据，传统的方法是基于人工策略计算质量分，通过提问者或其他用户对答案的反馈信息设计一个策略，来判定问答对数据的质量。

例如，在问答平台上设置互动按钮，赞标签和踩标签，供其他用户交互，当提问者把答案设置为“最佳答案”，或者，赞标签被点击的数量超过踩标签被点击的数量时，可以判定这个答案是一个质量较好的答案。

但是，人工策略利用的特征信息少，用户主动反馈率低，依赖提问者的主观判断，广告作弊现象严重，用户对新的问答对数据和历史的问答对数据的反馈信息不平衡导致策略不稳定，导致问答对数据的准确率较低。

尤其是，新产生的问答对数据，因为缺少用户反馈，问答对数据的准确率更低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种问答对分类模型的训练方法和相应的一种问答对分类模型的训练装置。

依据本发明的一个方面，提供了一种问答对分类模型的训练方法，包括：

获取问答对数据；

从所述问答对数据中提取问答对特征；

根据所述问答对数据的质量对所述问答对数据标注分类标签；

采用所述问答对特征与所述分类标签训练问答对分类模型。

可选地，所述问答对特征包括如下的一种或多种：

提问者特征、回答者特征、问答对文本语义特征、问答对数字特征、用户反馈特征。

可选地，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对配对特征；

所述从所述问答对数据中提取问答对特征的步骤包括：

查找所述问题中的词项与所述答案中的词项共现的词对；

统计所述共现的词对的数量，作为问答对配对特征。

可选地，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对最小路由距离；

所述从所述问答对数据中提取问答对特征的步骤包括：

从所述问题中提取关键词，生成问题关键词集合；

从所述答案中提取关键词，生成答案关键词集合；

计算所述问题关键词集合和所述答案关键词集合之间相似度；

将所述相似度进行累积，获得问答对最小路由距离。

可选地，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对句子相似度；

所述从所述问答对数据中提取问答对特征的步骤包括：

将所述问题转换为第一句子向量；

将所述答案转换为第二句子向量；

计算所述第一句子向量与所述第二句子向量之间的相似度，作为问答对句子相似度。

可选地，所述根据所述问答对数据的质量对所述问答对数据标注分类标签的步骤包括：

查找搜索所述问答对数据时记录的搜索记录数据；

根据所述搜索记录数据对所述问答对数据标注分类标签。

可选地，所述根据所述搜索记录数据对所述问答对数据标注分类标签的步骤包括：

挖掘所述问答对数据在搜索关键词下的平均点击权重；

挖掘所述问答对数据在搜索关键词下的最后一次点击权重；

采用所述平均点击权重和所述最后一次点击权重拟合连续分值；

将所述连续分值离散化为分类标签。

可选地，所述挖掘所述问答对数据在搜索关键词下的平均点击权重的步骤包括：

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下的点击分值；

采用所述点击分值计算所述地址在指定的搜索关键词下的点击分值分布信息；

采用所述点击分值分布信息计算所述问答对数据在搜索关键词下的平均点击权重。

可选地，所述计算所述地址在指定的搜索关键词下的点击分值的步骤包括：

统计所述地址在指定的关键词下的点击次数；

统计指定的关键词的搜索次数；

采用所述点击次数与所述搜索次数计算所述地址在指定的搜索关键词下的点击分值。

可选地，所述挖掘所述问答对数据在搜索关键词下的最后一次点击权重的步骤包括：

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下最后一次点击分值；

采用所述最后一次点击分值计算所述问答对数据在搜索关键词下的最后一次点击权重；

可选地，所述计算所述地址在指定的搜索关键词下最后一次点击分值的步骤包括：

统计所述地址在指定的关键词下最后一次的点击次数；

统计指定的关键词的搜索次数；

采用所述最后一次的点击次数与所述搜索次数计算所述地址在指定的搜索关键词下最后一次点击分值。

可选地，在所述根据所述问答对数据的质量对所述问答对数据标注分类标签的步骤之后，所述方法还包括：

对所述问答对特征进行归一化处理。

可选地，所述对所述问答对特征进行归一化处理的步骤包括：

统计每一维问答对特征的平均值和标准差；

将每一维问答对特征减去所述平均值、除以所述标准差。

根据邻近的问答对数据对当前的问答对数据的分类标签进行调整。

可选地，所述根据邻近的问答对数据对当前的问答对数据的分类标签进行调整的步骤包括：

将所述问答对数据进行聚类；

对于每一个问答对数据，选择聚类后的N个近邻的问答对数据；

计算当前的问答对数据与所述近邻的问答对数据之间的距离；

基于所述距离重新拟合分类标签。

可选地，还包括：

识别所述问答对特征对于所述问答对分类模型的重要程度；

对重要程度最高的M个问答对特征进行扩展，获得扩展后的问答对特征，返回执行所述根据所述问答对数据的质量对所述问答对数据标注分类标签的步骤。

根据本发明的另一方面，提供了一种问答对分类模型的训练装置，包括：

问答对数据获取模块，适于获取问答对数据；

问答对特征提取模块，适于从所述问答对数据中提取问答对特征；

分类标签标注模块，适于根据所述问答对数据的质量对所述问答对数据标注分类标签；

模型训练模块，适于采用所述问答对特征与所述分类标签训练问答对分类模型。

可选地，所述问答对特征包括如下的一种或多种：

所述问答对特征提取模块还适于：

查找所述问题中的词项与所述答案中的词项共现的词对；

统计所述共现的词对的数量，作为问答对配对特征。

所述问答对特征提取模块还适于：

从所述问题中提取关键词，生成问题关键词集合；

从所述答案中提取关键词，生成答案关键词集合；

将所述相似度进行累积，获得问答对最小路由距离。

所述问答对特征提取模块还适于：

将所述问题转换为第一句子向量；

将所述答案转换为第二句子向量；

可选地，所述分类标签标注模块还适于：

查找搜索所述问答对数据时记录的搜索记录数据；

根据所述搜索记录数据对所述问答对数据标注分类标签。

可选地，所述分类标签标注模块还适于：

挖掘所述问答对数据在搜索关键词下的平均点击权重；

挖掘所述问答对数据在搜索关键词下的最后一次点击权重；

将所述连续分值离散化为分类标签。

可选地，所述分类标签标注模块还适于：

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下的点击分值；

可选地，所述分类标签标注模块还适于：

统计所述地址在指定的关键词下的点击次数；

统计指定的关键词的搜索次数；

可选地，所述分类标签标注模块还适于：

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下最后一次点击分值；

可选地，所述分类标签标注模块还适于：

统计所述地址在指定的关键词下最后一次的点击次数；

统计指定的关键词的搜索次数；

可选地，还包括：

归一化模块，适于对所述问答对特征进行归一化处理。

可选地，所述归一化模块还适于：

统计每一维问答对特征的平均值和标准差；

将每一维问答对特征减去所述平均值、除以所述标准差。

可选地，还包括：

分类标签调整模块，适于根据邻近的问答对数据对当前的问答对数据的分类标签进行调整。

可选地，所述分类标签调整模块还适于：

将所述问答对数据进行聚类；

基于所述距离重新拟合分类标签。

可选地，还包括：

重要程度识别模块，适于识别所述问答对特征对于所述问答对分类模型的重要程度；

问答对特征扩展模块，适于对重要程度最高的M个问答对特征进行扩展，获得扩展后的问答对特征，返回调用所述模型训练模块。

本发明实施例提出了基于机器学习的质量分计算方法，综合利用问答对数据的各种维度的问答对特征，使用问答对数据的质量自动标注大量训练集，训练问答对分类模型进行分类，即预测质量分，避免人工策略，从而避免了人工策略利用的特征信息少，用户主动反馈率低，依赖提问者的主观判断，广告作弊现象严重，用户对新的问答对数据和历史的问答对数据的反馈信息不平衡导致策略不稳定等问题，在历史的问答对数据和新产生的问答对数据上，都取得较好的预测准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种问答对分类模型的训练方法的步骤流程图；

图2示出了根据本发明一个实施例的另一种问答对分类模型的训练方法的步骤流程图；

图3示出了根据本发明一个实施例的一种问答对分类模型的训练装置的结构框图；以及

图4示出了根据本发明一个实施例的另一种问答对分类模型的训练装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种问答对分类模型的训练方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取问答对数据。

问答对数据(Questin&Answer，Q&A)，包括问题与答案。

例如，问题“珠穆朗玛峰有多高？”与答案“8844米”组成一个问答对数据。

由于问答对数据具有一个或多个答案，因此，一个问题与一个或多个答案可以组成一个或多个问答对数据。

步骤102，从所述问答对数据中提取问答对特征。

在本发明实施例中，通过特征工程，从问答对数据中提取问答对特征，即体现问答对数据特征的信息。

在具体实现中，问答对特征包括如下的一种或多种：

1、提问者特征

提问者特征为提出问题的用户(即提问者)的特征，例如：

Answer_count_questioner	提问者所回答答案数量
		Question_posted_count	提问者所提问题数量
bestA_count_questioner	提问者所回答的最佳答案数量
		bestA_ratio_questioner	提问者所回答的最佳答案占比

2、回答者特征

回答者特征为回答问题的用户(即回答者)的特征，例如：

bestA_ratio_answerer	回答者在一个季度内的最佳答案占比
		A_count_answerer	回答者在一个季度内的答案数量
bestA_ratio_answerer	回答者在一个季度内的最佳答案数量
		Q_count_answerer	回答者在一个季度内所提问题数量
Status_answerer	回答者在问答网站上的身份
		Accept_percent_answerer	回答者的答案在问答网站上的被采纳率

3、问答对文本语义特征

问答对文本语义特征为问答对数据的语义的特征。

在本发明实施例的一个示例中，问答对文本语义特征包括问答对配对特征(topic_focus_count_qa)，则在此示例中，步骤102可以包括如下子步骤：

子步骤1021，查找所述问题中的词项与所述答案中的词项共现的词对；

子步骤1022，统计所述共现的词对的数量，作为问答对配对特征。

问答对配对特征是一个数字特征，是指问题和答案共现的词对的数量。

在挖掘时生成一个配对词典，在大量的问答对数据中，统计问题中的实体词项和焦点词项等词项，与答案中词项共现的词对。

例如，问题“珠穆朗玛峰有多高”中，“珠穆朗玛峰”是问题主体(即实体词项)、“有多高”是问题焦点(即焦点词项)，与答案中的“8848”、“8848米”是高频的共现的词对。

由于问题有很多种不同的问法，因此，这个特征为共现词对的数量，例如：

问题中词项	答案中词项	统计指标
			珠穆朗玛峰	8848	2.759 2.951 5.710 211 3466 1230
珠穆朗玛峰	8844	10.255 10.752 21.007 408 3466 1419
			珠穆朗玛峰	8848米	0.477 0.534 1.011 78 3466 231
珠穆朗玛峰	8844米	0.282 0.316 0.598 73 3466 134
			是多少	8848米	0.000 0.000 0.000 1 45878 231
是多少	8848	0.000 0.000 0.000 2 45878 1230
			是多少	008848米	0.000 0.000 0.000 2 45878 3

在本发明实施例的另一个示例中，问答对文本语义特征包括问答对最小路由距离(Word_mover_distance)，则在此示例中，步骤102可以包括如下子步骤：

子步骤1023，从所述问题中提取关键词，生成问题关键词集合；

子步骤1024，从所述答案中提取关键词，生成答案关键词集合；

子步骤1025，计算所述问题关键词集合和所述答案关键词集合之间相似度；

子步骤1026，将所述相似度进行累积，获得问答对最小路由距离。

在本示例中，问答对最小路由距离可以为问题关键词集合和答案关键词集合之间的笛卡尔积的累加和。

先计算问题关键词集合和答案关键词集合中两两词项的相似度(如余弦相似度)，再累加成一个数值。

例如，在问题关键词集合选择前5个词项，答案关键词集合选择前15个，计算75对词项的余弦相似度，累加到一起即获得该问答对最小路由距离。

在本发明实施例的另一个示例中，问答对文本语义特征包括问答对句子相似度(Cosine_sim_qa)，则在此示例中，步骤102可以包括如下子步骤：

子步骤1027，将所述问题转换为第一句子向量；

子步骤1028，将所述答案转换为第二句子向量；

子步骤1029，计算所述第一句子向量与所述第二句子向量之间的相似度，作为问答对句子相似度。

在本示例中，问题作为句子向量，答案作为句子向量，即可计算两个句子向量之间的相似度(如余弦相似度)。

3、问答对数字特征

问答对数字特征为问题与答案的数字化的信息的特征，例如：

4、用户反馈特征。

用户反馈特征为其他用户(非提问者、回答者)对问答对数据的反馈信息的特征。

当然，上述判断处理方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他问答对特征，本发明实施例对此不加以限制。另外，除了上述问答对特征外，本领域技术人员还可以根据实际需要采用其它问答对特征，本发明实施例对此也不加以限制。

步骤103，根据所述问答对数据的质量对所述问答对数据标注分类标签。

本发明实施例中，可以将问答对数据的质量划分为多个档次，分别对应多个分类标签，将质量作为一个多分类的问题。

例如，把质量分设定为三个档次：好、一般、差，分别对应三个分类标签：4、2、0。

在本发明的一个实施例中，步骤103可以包括如下子步骤：

子步骤1031，查找搜索所述问答对数据时记录的搜索记录数据；

子步骤1032，根据所述搜索记录数据对所述问答对数据标注分类标签。

在本发明实施例中，由于用户在搜索引擎进行搜索时，经常搜索到问答网站的问答对数据作为搜索结果，记录用户对该问答对数据的操作，可以形成搜索记录数据，存储在搜索引擎的日志session log中。

由于用户的行为可以在一定程度上体现该问答对数据的质量，因此，可以通过搜索记录数据对问答对数据标注分类标签。

在本发明的一个实施例中，子步骤1032进一步可以包括如下子步骤：

子步骤10321，挖掘所述问答对数据在搜索关键词(query)下的平均点击权重(avg_click_docwei)。

在本发明实施例的一个示例中，子步骤10321进一步可以包括如下子步骤：

子步骤103211，记录问答对数据(pair)所属网页的地址，如URL(UniformResource Locator，统一资源定位符)。

需要说明的是，一个问答对数据是一个文档，即一个URL。

子步骤103212，计算地址在指定的搜索关键词(query)下的点击分值(score)。

在一种计算方式中，可以统计地址(URL)在指定的关键词(query)下的点击次数(click，即query_url_pair的计数)

统计指定的关键词(query)的搜索次数(search_count)。

采用点击次数与搜索次数计算地址在指定的搜索关键词下的点击分值，例如，点击次数与点击次数之间的乘积，该乘积与搜索次数的比值，作为点击分值，即score＝click*click/search_count。

子步骤103213，采用点击分值(score)计算地址(URL)在指定的搜索关键词下的点击分值分布信息(dwei)。

例如，dwei＝score/norm*100，其中，norm是归一化因子

子步骤103214，采用所述点击分值分布信息计算所述问答对数据在搜索关键词下的平均点击权重(avg_click_docwei)。

例如，其中，n是点击该地址(URL)的关键词(query)数量。

子步骤10322，挖掘所述问答对数据在搜索关键词下的最后一次点击权重(last_click_docwei)。

在本发明实施例的一个示例中，子步骤10322进一步可以包括如下子步骤：

子步骤103221，记录所述问答对数据(pair)所属网页的地址(URL)。

子步骤103222，计算所述地址在指定的搜索关键词下最后一次点击分值(last_click_score)。

在一种计算方式中，可以统计地址(URL)在指定的关键词(query)下最后一次的点击次数(last_click)。

统计指定的关键词(query)的搜索次数(search_count)。

采用最后一次的点击次数(last_click)与搜索次数(search_count)计算地址在指定的搜索关键词(query)下最后一次点击分值(last_click_score)。

例如，最后一次的点击次数与最后一次的点击次数之间的乘积，该乘积与搜索次数的比值，作为点击分值，即last_click_score＝last_click*last_click/search_count。

子步骤103223，采用所述最后一次点击分值(last_click_score)计算所述问答对数据在搜索关键词下的最后一次点击权重(last_click_docwei)。

例如，对最后一次点击分值配置预设的权重，即可获得最后一次点击权重，如last_click_docwei＝0.60*last_click_score。

子步骤10323，采用所述平均点击权重和所述最后一次点击权重拟合连续分值(QA_score)。

在具体实现中，将平均点击权重和最后一次点击权重相加即可获得连续分值，即QA_score＝avg_click_docwei+last_click_docwei。

子步骤10324，将所述连续分值离散化为分类标签(label)。

将连续分值(QA_score)离散化指之后的值，即可作为分类标签(label)。

例如，将连续分值(QA_score)离散化成4、2或0，表示问答对数据的质量为好、一般或差。

步骤104，采用所述问答对特征与所述分类标签训练问答对分类模型。

由于随机森林(Random Forest，RF)是一类集成学习算法，对缺失数据和非平衡的数据比较稳健，因此，在本发明实施例中，可以选择随机森林模型对问答对特征与分类标签训练问答对分类模型，该问答对分类模型可以用于对问答对数据进行分类(即划分质量档次)，在新的问答对数据和历史的问答对数据中都可以取得较好的效果。

当然，除了随机森林之外，还可以采用其他方式训练问答对分类模型，例如，SVM(Support Vector Machine，支持向量机)、CNN(Convolutional Neural Network，卷积神经网络)，等等，本发明实施例对此不加以限制。

参照图2，示出了根据本发明一个实施例的另一种问答对分类模型的训练方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取问答对数据。

步骤202，从所述问答对数据中提取问答对特征。

步骤203，根据所述问答对数据的质量对所述问答对数据标注分类标签。

步骤204，对所述问答对特征进行归一化处理。

在本发明实施例中，对问答对数据的多维(如24维)特征进行规范化，对每一维特征做归一化。

在具体实现中，统计每一维问答对特征的平均值和标准差，将每一维问答对特征减去平均值、除以标准差，保存平均值和标准差用于模型预测时使用。

本发明实施例中的归一化可以使随机噪音信息正负相抵，强化有效特征的作用，有效训练随机森林等模型，得到更好的泛化能力。

步骤205，根据邻近的问答对数据对当前的问答对数据的分类标签进行调整。

由于用户的点击行为中可能存在噪音，拟合到的分类标签(label)也可能存在噪音，因此，在本发明实施例中，可以微调分类标签(label)的分布。

在具体实现中，具有相似问答对特征的问答对数据，其续分值(QA_score)也接近，离散化时可能因阈值选择不当导致标签不一样，因此，可以通过近邻的问答对数据对当前的问答对数据的分类标签进行调整。

在本发明的一个实施例中，步骤205可以包括如下子步骤：

子步骤2051，将所述问答对数据进行聚类；

子步骤2052，对于每一个问答对数据，选择聚类后的N个近邻的问答对数据；

子步骤2053，计算当前的问答对数据与所述近邻的问答对数据之间的距离；

子步骤2054，基于所述距离重新拟合分类标签。

在本发明实施例中，可以利用KNN(k-Nearest Neighbor algorithm，K最邻近结点算法)等算法，将问答对数据进行聚类。

对每一个问答对数据，选择N(N为正整数，如100)个近邻的问答对数据，计算问答对数据与近邻的问答对数据的距离(如欧氏距离)。

使用基于欧氏距离的高斯核加权等算法，重新拟合分类标签(label)的值，再离散化成分类标签，有效降低了分类标签(label)中的噪音信息。

步骤206，采用所述问答对特征与所述分类标签训练问答对分类模型。

在一个示例中，可以收集约5千万个问答对数据，从中随机选择50万个问答对数据，用于训练随机森林模型。

在随机森林模型中，使用200棵树，树的深度50，模型的oobrmse(out-of-bagestimate，衡量RF模型的预测误差的方法)约0.652314，在新的问答对数据和旧的问答对数据上的预测平均准确率可达81％。

步骤207，识别所述问答对特征对于所述问答对分类模型的重要程度。

步骤208，对重要程度最高的M个问答对特征进行扩展，获得扩展后的问答对特征，返回执行步骤206。

对于问答对分类模型，可以分析了每一问答对特征的重要性。

在一个示例中，10个重要的问答对特征如下表所示：

其中，回答者特征和问答对文本语义特征大多在这10个重要的问答对特征内，对预测问答对数据的质量(即分类)起到有效的作用。

在步骤206中随机森林模型使用24个基本的问答对特征(即扩展前的问答对特征)，模型在在新的问答对数据和旧的问答对数据上的预测平均准确率可达81％。

对基本的问答对特征采用笛卡儿积变换的方式进行扩展，获得M(M为正整数)个扩展的问答对特征，表示与基本的问答对特征之间的交互效果，表达基本的问答对特征与扩展的问答对特征之间的协同作用，扩大了问答对分类模型的泛化能力，从而提高问答对分类模型的预测准确率。

如果选择前10个重要的问答对特征做笛卡儿积变换，扩展45个问答对特征，部分扩展的问答对特征如下：

基本的问答对特征和扩展的问答对特征共69个特征，重新训练随机深林模型，其它参数不变，模型的oobrmse约0.414505，模型预测平均准确率增加3个百分点，达到84％。

特征扩展后的问答对模型在新的问答对数据和旧的问答对数据上的预测平均准确率可达84％，优于基于人工策略的传统方法在旧的问答对数据上的准确率74％，而且，传统方法无法应用到新的问答对数据的预测。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了根据本发明一个实施例的一种问答对分类模型的训练装置的结构框图，具体可以包括如下模块：

问答对数据获取模块301，适于获取问答对数据；

问答对特征提取模块302，适于从所述问答对数据中提取问答对特征；

分类标签标注模块303，适于根据所述问答对数据的质量对所述问答对数据标注分类标签；

模型训练模块304，适于采用所述问答对特征与所述分类标签训练问答对分类模型。

在具体实现中，所述问答对特征包括如下的一种或多种：

在本发明实施例的一个示例中，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对配对特征；

所述问答对特征提取模块302还适于：

查找所述问题中的词项与所述答案中的词项共现的词对；

统计所述共现的词对的数量，作为问答对配对特征。

在本发明实施例的另一个示例中，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对最小路由距离；

所述问答对特征提取模块302还适于：

从所述问题中提取关键词，生成问题关键词集合；

从所述答案中提取关键词，生成答案关键词集合；

将所述相似度进行累积，获得问答对最小路由距离。

在本发明实施例的另一个示例中，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对句子相似度；

所述问答对特征提取模块302还适于：

将所述问题转换为第一句子向量；

将所述答案转换为第二句子向量；

在本发明的一个实施例中，所述分类标签标注模块303还适于：

查找搜索所述问答对数据时记录的搜索记录数据；

根据所述搜索记录数据对所述问答对数据标注分类标签。

挖掘所述问答对数据在搜索关键词下的平均点击权重；

挖掘所述问答对数据在搜索关键词下的最后一次点击权重；

将所述连续分值离散化为分类标签。

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下的点击分值；

统计所述地址在指定的关键词下的点击次数；

统计指定的关键词的搜索次数；

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下最后一次点击分值；

统计所述地址在指定的关键词下最后一次的点击次数；

统计指定的关键词的搜索次数；

参照图4，示出了根据本发明一个实施例的另一种问答对分类模型的训练装置的结构框图，具体可以包括如下模块：

问答对数据获取模块401，适于获取问答对数据；

问答对特征提取模块402，适于从所述问答对数据中提取问答对特征；

分类标签标注模块403，适于根据所述问答对数据的质量对所述问答对数据标注分类标签；

归一化模块404，适于对所述问答对特征进行归一化处理。

分类标签调整模块405，适于根据邻近的问答对数据对当前的问答对数据的分类标签进行调整。

模型训练模块406，适于采用所述问答对特征与所述分类标签训练问答对分类模型。

重要程度识别模块407，适于识别所述问答对特征对于所述问答对分类模型的重要程度；

问答对特征扩展模块408，适于对重要程度最高的M个问答对特征进行扩展，获得扩展后的问答对特征，返回调用所述模型训练模块406。

在本发明的一个实施例中，所述归一化模块404还适于：

统计每一维问答对特征的平均值和标准差；

将每一维问答对特征减去所述平均值、除以所述标准差。

在本发明的一个实施例中，所述分类标签调整模块405还适于：

将所述问答对数据进行聚类；

基于所述距离重新拟合分类标签。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的问答对分类模型的训练设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种问答对分类模型的训练方法，包括：

获取问答对数据；

从所述问答对数据中提取问答对特征；

采用所述问答对特征与所述分类标签训练问答对分类模型。

2.如权利要求1所述的方法，其特征在于，所述问答对特征包括如下的一种或多种：

3.如权利要求1-2任一项所述的方法，其特征在于，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对配对特征；

所述从所述问答对数据中提取问答对特征的步骤包括：

查找所述问题中的词项与所述答案中的词项共现的词对；

统计所述共现的词对的数量，作为问答对配对特征。

4.如权利要求1-3任一项所述的方法，其特征在于，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对最小路由距离；

所述从所述问答对数据中提取问答对特征的步骤包括：

从所述问题中提取关键词，生成问题关键词集合；

从所述答案中提取关键词，生成答案关键词集合；

将所述相似度进行累积，获得问答对最小路由距离。

5.如权利要求1-4任一项所述的方法，其特征在于，所述问答对数据包括问题与答案，所述问答对文本语义特征包括问答对句子相似度；

所述从所述问答对数据中提取问答对特征的步骤包括：

将所述问题转换为第一句子向量；

将所述答案转换为第二句子向量；

6.如权利要求1-5任一项所述的方法，其特征在于，所述根据所述问答对数据的质量对所述问答对数据标注分类标签的步骤包括：

查找搜索所述问答对数据时记录的搜索记录数据；

根据所述搜索记录数据对所述问答对数据标注分类标签。

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据所述搜索记录数据对所述问答对数据标注分类标签的步骤包括：

挖掘所述问答对数据在搜索关键词下的平均点击权重；

挖掘所述问答对数据在搜索关键词下的最后一次点击权重；

将所述连续分值离散化为分类标签。

8.如权利要求1-7任一项所述的方法，其特征在于，所述挖掘所述问答对数据在搜索关键词下的平均点击权重的步骤包括：

记录所述问答对数据所属网页的地址；

计算所述地址在指定的搜索关键词下的点击分值；

9.如权利要求1-8任一项所述的方法，其特征在于，所述计算所述地址在指定的搜索关键词下的点击分值的步骤包括：

统计所述地址在指定的关键词下的点击次数；

统计指定的关键词的搜索次数；

10.一种问答对分类模型的训练装置，包括：

问答对数据获取模块，适于获取问答对数据；