CN104573000B

CN104573000B - 基于排序学习的自动问答装置及方法

Info

Publication number: CN104573000B
Application number: CN201510007539.4A
Authority: CN
Inventors: 薛锐青
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2015-01-07
Filing date: 2015-01-07
Publication date: 2017-11-14
Anticipated expiration: 2035-01-07
Also published as: CN104573000A

Abstract

本发明公开了一种基于排序学习的自动问答装置及方法。该方法包括：构建问答库，该问答库包括多个预设查询和与每个预设查询一一对应的问答集；根据问答库中包括的预设查询和问答集，为每个预设查询构建训练样本，并对训练样本进行正负例标注；根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；利用所构建的所有排序训练数据进行排序学习，得出针对问答库的问答排序模型；接收用户查询，并根据用户查询从问答库中筛选与用户查询有关的候选问答集；以及利用问答排序模型对候选问答集进行排序。通过排序学习过程，可以自动拟合出特征权值，无需人工参与，且使问答排序模型更为可靠和准确。

Description

基于排序学习的自动问答装置及方法

技术领域

本发明涉及自动问答领域，具体地，涉及一种基于排序学习的自动问答装置及方法。

背景技术

自动问答是一种能够自动回答问题的机制。通用的自动问答机制，首先根据用户查询从问答库中筛选出若干候选问答对，然后计算所述用户查询与每个候选问答对之间的各种特征参数，然后利用这些特征参数、以及每种特征参数的特征权值来得出所述用户查询与各个候选问答对之间的相似度，最后，根据所得出的相似度来对这些候选问答对进行排序。

然而，在现有的自动问答机制中，上面提到的特征权值，一般由开发人员根据经验或先验知识进行设定。一旦增加了某项特征参数，就需要开发人员重新手动调整每项特征参数的特征权值，这就大大增加开发人员的维护工作量，并且不利于特征扩展。另外，随着问答库的更新，可能造成特征分布发生改变，必须调整原有特征权值才能较好的拟合用户意图。如果完全由人工调整完成，则开发人员维护压力大，维护成本高，且实时性不好。

发明内容

本发明的目的是提供一种基于排序学习的自动问答装置及方法，该装置及方法能够利用机器学习方法，自动构建问答排序模型，从而实现特征权值的自动计算。

为了实现上述目的，本发明提供一种基于排序学习的自动问答方法，该方法包括：步骤a：构建问答库，该问答库包括多个预设查询和与每个预设查询一一对应的问答集；步骤b：根据所述问答库中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注；步骤c：根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；步骤d：利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库的问答排序模型；步骤e：接收用户查询，并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集；以及步骤f：利用所述问答排序模型对所述候选问答集进行排序。

优选地，在所述步骤b中，通过以下方式为每个预设查询构建训练样本，并对所述训练样本进行正负例标注：针对每个预设查询，将该预设查询与和其对应的问答集构建为针对该预设查询的训练样本，并将该训练样本标注为正例；针对每个预设查询，从所述问答库中确定与该预设查询有关的候选问答集，该候选问答集包括与该预设查询相对应的问答集和若干其他问答集，将该预设查询与所述若干其他问答集一一构建为针对该预设查询的训练样本，并将该训练样本标注为负例。

优选地，在所述步骤c中，通过以下方式为每个预设查询构建排序训练数据：针对每个预设查询，确定针对该预设查询的训练样本的特征参数集，并根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对该预设查询的排序训练数据。

优选地，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及通过以下方式确定所述特征参数集：针对每个训练样本，分别计算该训练样本中的预设查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出该训练样本的相关性特征参数子集；获取该训练样本中的问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出该训练样本的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出该训练样本的所述特征参数集。

优选地，在所述步骤f中，通过以下方式对所述候选问答集进行排序：确定所述用户查询与筛选出的每个候选问答集之间的特征参数集；将所述特征参数集输入至所述问答排序模型，以利用所述问答排序模型对所述每个候选问答集进行排序。

优选地，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及通过以下方式确定所述特征参数集：针对每个候选问答集，分别计算所述用户查询与该候选问答集、以及与该候选问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出所述用户查询与该候选问答集的相关性特征参数子集；获取该候选问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出所述用户查询与该候选问答集的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出所述用户查询与该候选问答集的所述特征参数集。

优选地，针对不同领域，利用所述步骤a～所述步骤d为每个领域构建一问答库以及针对该问答库的问答排序模型；以及所述方法还包括：步骤g：接收来自用户的领域选择信息，并根据该领域选择信息确定与用户选择的领域对应的问答库；在所述步骤e中，接收所述用户查询，并根据所述用户查询从与所述用户选择的领域对应的问答库中筛选与所述用户查询有关的候选问答集；以及在所述步骤f中，利用针对与所述用户选择的领域对应的问答库的问答排序模型对与所述用户查询有关的所述候选问答集进行排序。

本发明还提供一种基于排序学习的自动问答装置，该装置包括：建库端，该建库端包括：问答库构建模块，用于构建问答库，该问答库包括多个预设查询和与每个预设查询一一对应的问答集；训练样本构建模块，用于根据所述问答库中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注；排序训练数据构建模块，用于根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；问答排序模型构建模块，用于利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库的问答排序模型；检索端，该检索端包括：检索模块，用于接收用户查询，并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集；以及排序模块，用于利用所述问答排序模型对所述候选问答集进行排序。

优选地，所述训练样本构建模块通过以下方式为每个预设查询构建训练样本，并对所述训练样本进行正负例标注：针对每个预设查询，将该预设查询与和其对应的问答集构建为针对该预设查询的训练样本，并将该训练样本标注为正例；针对每个预设查询，从所述问答库中确定与该预设查询有关的候选问答集，该候选问答集包括与该预设查询相对应的问答集和若干其他问答集，将该预设查询与所述若干其他问答集一一构建为针对该预设查询的训练样本，并将该训练样本标注为负例。

优选地，该装置还包括第一特征计算模块；以及所述排序训练数据构建模块通过以下方式为每个预设查询构建排序训练数据：针对每个预设查询，调用所述第一特征计算模块确定针对该预设查询的训练样本的特征参数集，并根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对该预设查询的排序训练数据。

优选地，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及所述第一特征计算模块通过以下方式确定所述特征参数集：针对每个训练样本，分别计算该训练样本中的预设查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出该训练样本的相关性特征参数子集；获取该训练样本中的问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出该训练样本的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出该训练样本的所述特征参数集。

优选地，该装置还包括第二特征计算模块；以及所述排序模块通过以下方式对所述候选问答集进行排序：调用所述第二特征计算模块确定所述用户查询与筛选出的每个候选问答集之间的特征参数集；将所述特征参数集输入至所述问答排序模型，以利用所述问答排序模型对所述每个候选问答集进行排序。

优选地，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及所述第二特征计算模块通过以下方式确定所述特征参数集：针对每个候选问答集，分别计算所述用户查询与该候选问答集、以及与该候选问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出所述用户查询与该候选问答集的相关性特征参数子集；获取该候选问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出所述用户查询与该候选问答集的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出所述用户查询与该候选问答集的所述特征参数集。

优选地，该装置包括多个建库端，每个建库端对应一个领域，为所对应的领域构建问答库和针对该问答库的问答排序模型；以及所述检索端中的所述检索模块还用于接收来自用户的领域选择信息，并根据该领域选择信息确定与用户选择的领域对应的问答库，以及根据所述用户查询从与所述用户选择的领域对应的问答库中筛选与所述用户查询有关的候选问答集；以及所述排序模块利用针对与所述用户选择的领域对应的问答库的问答排序模型对与所述用户查询有关的所述候选问答集进行排序。

在上述技术方案中，可以根据构建的问答库中的预设查询和问答集，构建出排序训练数据，并基于机器学习的方法，利用所构建的排序训练数据进行排序学习，从而自动构建出问答排序模型。通过排序学习过程，可以自动计算出各项特征参数的特征权值，无需开发人员进行手动设定，从而降低了人工参与成本，并且实时性好。即使增加或减少特征参数、或者因问答库发生更新而导致特征参数的分布发生变化，也可以通过上述排序学习过程自动拟合出新的特征权值，从而适应这种特征参数的变化，且保证构建出的问答排序模型的可靠性和准确性。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1示出了根据本发明的实施方式的基于排序学习的自动问答方法的流程图；

图2示出了根据本发明的实施方式的基于排序学习的自动问答装置的示意图；

图3示出了根据本发明的另一实施方式的基于排序学习的自动问答装置的示意图；以及

图4示出了根据本发明的另一实施方式的基于排序学习的自动问答装置的示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1示出了根据本发明的实施方式的基于排序学习的自动问答方法的流程图。如图1所示，该方法可以包括：步骤a：构建问答库，该问答库可以包括多个预设查询和与每个预设查询一一对应的问答集；步骤b：根据所述问答库中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注；步骤c：根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；步骤d：利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库的问答排序模型；步骤e：接收用户查询，并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集；以及步骤f：利用所述问答排序模型对所述候选问答集进行排序。

具体地，首先，在步骤a中，可以构建问答库，该问答库可以包括多个预设查询和与每个预设查询一一对应的问答集。在本发明中，每个问答集可以包括标准问题、标准答案、扩展问题及扩展答案。其中，扩展问题和扩展答案是在标准问题和标准答案的基础上同义扩展而得的信息，目的是将同义的问答信息打包在一起，作为一个问答集被整体反馈给用户，从而使得每个问答集的信息更为全面。

接下来，在步骤b中，根据所述问答库中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注。具体地，可通过以下方式为每个预设查询构建训练样本，并对所述训练样本进行正负例标注：针对每个预设查询，将该预设查询与和其对应的问答集构建为针对该预设查询的训练样本，并将该训练样本标注为正例；针对每个预设查询，从所述问答库中确定与该预设查询有关的候选问答集，该候选问答集包括与该预设查询相对应的问答集和若干其他问答集，将该预设查询与所述若干其他问答集一一构建为针对该预设查询的训练样本，并将该训练样本标注为负例。

例如，假设构建的问答库中包括100个预设查询和相对应的100个问答集。那么可以首先针对第1个预设查询，将该第1个预设查询和与其对应的第1个问答集构建为一训练样本，并将该训练样本标注为正例。之后，针对该第1个预设查询，从问答库中筛选出与该第1个预设查询有关的候选问答集。可以通过多种方式来筛选候选问答集。在本发明的一个示例实施方式中，可以通过分词共现率这一参数来筛选候选问答集。例如，针对该第1个预设查询，可以确定出其与问答库中的100个问答集之间的分词共现率。然后，根据分词共现率对这100个问答集进行排序，挑选出排名靠前的预定数量(例如，20个)的问答集，作为与该第1个预设查询有关的候选问答集。可以权衡最终构建的排序训练数据量以及所需模型精度来设定所述预定数量。所挑选出的与该第1个预设查询有关的候选问答集中，包括问答库中原本与该第1个预设查询对应的第1个问答集，以及若干其他问答集。那么，将该第1个预设查询与这些若干其他问答集一一构建为针对该第1个预设查询的训练样本，并将该训练样本标注为负例，即，表明这些问答集与第1个预设查询之间的相关性小于同该第1个预设查询对应的第1个问答集。例如，假设候选问答集的数量为20个，那么针对第1个预设查询，总共可以构建出1个标注为正例的训练样本，以及19个标准为负例的训练样本。

针对问答库中的每个预设查询都进行上述过程，这样，就可以得出针对每个预设查询的训练样本，并对每个训练样本进行正负例标注。

之后，进行步骤c，根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据。具体地，可以通过以下方式为每个预设查询构建排序训练数据：针对每个预设查询，确定针对该预设查询的训练样本的特征参数集，并根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对该预设查询的排序训练数据。

在本发明中，所述特征参数集可以包括相关性特征参数子集和重要性特征参数子集。其中，相关性特征参数子集是由多个相关性特征参数组成的，所述相关性特征参数能够表明在一个训练样本中的预设查询与该训练样本中的问答集之间的相关性。

例如，所述相关性特征参数可以包括以下中的至少一者：“查询与问答集”间的分词共现数量；“查询与问答集”间的单字共现数量；“查询与问答集”间的命名实体识别共现数量；“查询与问答集”间的分词共现比例；“查询与问答集”间的单字共现比例；逆向词频赋权的“查询与问答集”间的分词共现数量；逆向词频赋权的“查询与问答集”间的单字共现数量；逆向词频加权的“查询与问答集”间的分词共现比例；逆向词频加权的“查询与问答集”间的单字共现比例；“查询与问答集”间的分词空间向量模型；“查询与问答集”间的单字空间向量模型；词频、逆向词频加权的“查询与问答集”间的分词空间向量模型；词频、逆向词频加权的“查询与问答集”间的单子空间向量模型；在二元独立模型(BIM)基础上推导出的BM25模型(分成粒度)；LMIR模型(分词粒度)：LMIR模型(单字粒度)，等等。以上任一相关性特征参数的具体计算方法均是本领域的技术人员公知的，因此，本发明在此不进行详细描述。

如上所述，在本发明中，每个问答集可以包括标准问题、标准答案、扩展问题及扩展答案。这样，每个问答集就可以分成五个部分：标准问题部分、标准答案部分、扩展问题部分、扩展答案部分以及整个问答集部分。可以采用不同的标识来区分一个问答集中的标准问题、标准答案、扩展问题和扩展答案。

在本发明的一个优选实施方式中，在确定一个训练样本中的预设查询与该训练样本中的问答集之间的相关性特征参数的时候，不仅要确定出预设查询与整个问答集部分之间的预设类型的相关性特征参数，而且还要就同种相关性特征参数，再分别针对预设查询与标准问题部分、与标准答案部分、与扩展问题部分、以及与扩展答案部分之间进行计算。也就是说，假设要确定三种类型的相关性特征参数(可以选自以上列出的相关性特征参数)，记为c1、c2和c3。那么，需要分别针对标准问题部分、标准答案部分、扩展问题部分、扩展答案部分、以及整个问答集部分这五个部分，计算出预设查询与它们的这三种类型的相关性特征参数。例如，针对标准问题部分计算出的相关性特征参数记为C1(c1,c2,c3)，针对标准答案部分计算出的相关性特征参数记为C2(c1,c2,c3)，针对扩展问题部分计算出的相关性特征参数记为C3(c1,c2,c3)，针对扩展答案部分计算出的相关性特征参数记为C4(c1,c2,c3)以及针对整个问答集部分计算出的相关性特征参数记为C5(c1,c2,c3)。那么，对于该训练样本而言，其特征参数集中的相关性特征参数子集由上述五部分的相关性特征参数组合而成，即，(C1，C2，C3，C4，C5)，该子集中包括十五项相关性特征参数。

针对上述五部分分别确定与查询的相关性特征参数，是出于同一相关性特征参数在不同的部分中可能具有不同的区分度的考虑。例如，假设针对分词共现数量这一特征参数，由于标准问题通常较短，里面包含的信息量相对较少，因此，其在标准问题中能够具有较高的区分度。然而，其在标准答案中的区分度可能并不高，因为标准答案通常较长，分词在该标准答案中出现的频率可能较高。此时，如果将该特征在这两部分中所占权重视为相同，则对标准问题部分而言是不公平的。通过针对上述五部分分别确定与查询的相关性特征参数，可以全面衡量每种相关性特征参数在不同部分中所起的作用，进而提高之后构建出的问答排序模型的精度。

如上所述，训练样本的特征参数集中还可以包括重要性特征参数子集。其中，重要性特征参数子集是由多个重要性特征参数组成的。所述重要性特征参数能够表明在一个训练样本中的问答集对于用户使用而言的重要程度。例如，所述重要性特征参数可以包括以下中的至少一者：问答集的点击次数，问答集的时效性、用户行为偏好等等。这些重要性特征参数可以通过挖掘用户的检索日志来获取，或者预先存储在构建的问答库中。应当理解的是，如何通过挖掘用户的检索日志来获取上述重要性特征参数的方法有多种，并且是本领域的技术人员公知的，对此，本发明在此不进行详细描述。

区别于相关性特征参数是针对问答集的上述五部分的，在本发明中，重要性特征参数仅针对整个问答集部分。可以将针对整个问答集部分的若干重要性特征参数组成重要性特征参数子集。例如，假设要确定问答集的两项重要性特征参数，记为K1和K2，那么，重要性特征子集可以由这两项重要性特征参数组合而成，即，(K1，K2)。

通过在训练样本的特征参数集中引入问答集的重要性特征参数，可以使得在进行问答排序时能够充分考虑用户对问答集的实际使用情况，从而使得构建的问答排序模型和所得的排序结果更切合用户的实际使用需求，并可以实现针对不同的用户使用情况来定制不同的问答排序模型。

之后，就可以将所得到的相关性特征参数子集和重要性特征参数子集进行组合，得出训练样本的特征参数集。例如，以上述示例为例，所得到的特征参数集可以为T(C1，C2，C3，C4，C5，K1，K2)。

在确定出每个训练样本的特征参数集之后，就可以根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对每个预设查询的排序训练数据，以用于构建问答排序模型。

在本发明中，问答排序模型是基于Pairwise的排序模型。该模型将排序问题转化为二元分类问题。即，在给定查询下，基于Pairwise的排序模型只考虑两个问答集之间相关度的相对顺序。对于两个问答集qa1和qa2，如果查询和qa1的相关性高于查询和qa2的相关性，那么{qa1,qa2}作为一个整体被标注+1；反之则{qa1,qa2}作为一个整体被标注-1。用上述方法两两比较所有问答集的相对顺序，就可以得到给定查询下所有问答集的相关性顺序。上述给{qa1,qa2}标注+1/-1的过程是典型的二元分类问题。有大量经典的二元分类算法可供套用，本发明中选用svm(支持向量机)作为分类器。

针对每个预设查询而言，可以根据该预设查询的每个训练样本的特征参数集、以及这些训练样本的正负例标注，构建针对该预设查询的排序训练数据。例如，假设针对问答库中的第1个预设查询而言，第一训练样本为(query，QA1)，并且该第一训练样本被标注为正例；第二训练样本为(query，QA2)，并且该第二训练样本被标注为负例；第三训练样本为(query，QA3)，并且该第三训练样本被标注为负例(在该示例中仅以三个训练样本为例进行说明，省略了该第1个预设查询的其余训练样本示例)。其中，QA1表示问答库中与第1个预设查询query对应的问答集。QA2表示从问答库中筛选出的与第1个预设查询query有关的候选问答集中除QA1之外的若干其他问答集中的一个问答集；以及QA3表示所述若干其他问答集中的另一问答集。此外，还假设确定出的第一训练样本的特征参数集为T1，第二训练样本的特征参数集为T2，第三训练样本的特征参数集为T3。这样，可以构建出四组排序训练数据，分别是{T1，T2，+1}，{T2，T1，-1}，{T1，T3，+1}，以及{T3，T1，-1}。依照此方法可以构建出针对第1个预设查询的所有排序训练数据。仍以上述示例为例，假设筛选出的候选问答集为20个，那么可以构建出1个正例训练样本和19个反例训练样本，这样，针对该第1个预设查询，最终可以构建出19×2个排序训练数据。

之后，针对其他每个预设查询均进行上述过程，从而构建出针对每个预设查询的排序训练数据。仍以上述示例为例，假设问答库中包括100个预设查询，并且筛选出的候选问答集为20个，那么针对问答库中的所有预设查询，总共可以构建出100×19×2个排序训练数据。

构建出所有训练数据之后，就可以进行步骤d，利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库的问答排序模型。排序学习过程实质上是特征参数集中的各项特征参数的权值计算的过程。由此，可以实现特征权值的自动计算，无需开发人员进行权值的手动设定，从而降低了人工参与成本，并且实时性好。即使增加或减少特征参数、或者因问答库发生更新而导致特征参数的分布发生变化，都可以通过上述排序学习过程自动拟合出新的特征权值，从而适应这种特征参数的变化，且保证构建出的问答排序模型的可靠性和准确性。

上述步骤a～步骤d可以在线下完成，即，所述步骤a～步骤d主要用于在线下完成问答库的构建和问答排序模型的构建。

在构建出问答排序模型之后，进行步骤e，接收用户查询，并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集；以及步骤f：利用所述问答排序模型对所述候选问答集进行排序。这两个步骤是线上完成的，主要利用线下构建的问答库和问答排序模型来为用户提供线上自动问答服务。

具体地，在接收到用户查询之后，可以对用户查询进行问句分析，得出该用户查询包括的分词。然后，根据所述分词，从问答库中筛选出与所述用户查询有关的候选问答集。筛选方法与上面描述的在线下完成的筛选与预设查询有关的候选问答集的方法相一致，对此，本发明在此不进行赘述。

在获得与所述用户查询有关的候选问答集之后，在所述步骤f中，可以通过以下方式对这些候选问答集进行排序：确定所述用户查询与筛选出的每个候选问答集之间的特征参数集；将所述特征参数集输入至所述问答排序模型，以利用所述问答排序模型对所述每个候选问答集进行排序。

所述用户查询与线上筛选出的每个候选问答集之间的特征参数集也可以包括相关性特征参数子集和重要性特征参数子集，并且也可以通过以下方式确定所述特征参数集：针对每个候选问答集，分别计算所述用户查询与该候选问答集、以及与该候选问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出所述用户查询与该候选问答集的相关性特征参数子集；获取该候选问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出所述用户查询与该候选问答集的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出所述用户查询与该候选问答集的所述特征参数集。

上述在线上完成的特征参数集的确定过程同上面描述的在线下完成的确定每个训练样本的特征参数集的方法相一致，对此，本发明不再进行详细描述。

在得出用户查询与线上筛选出的每个候选问答集之间的特征参数集之后，将这些特征参数集输入至所述问答排序模型，利用所述问答排序模型对所述每个候选问答集进行排序，并得出排序结果。利用通过排序学习得出的问答排序模型进行问答集排序，可以使排序结果更为准确和可靠。

此外，在本发明的一个优选实施方式中，可以针对不同领域，利用所述步骤a～所述步骤d为每个领域构建一问答库以及针对该问答库的问答排序模型。也就是说，在本发明中，线下为每个领域所构建的问答库和问答排序模型都是该领域专属的。并且，所述方法还可以包括：步骤g(未示出)：接收来自用户的领域选择信息，并根据该领域选择信息确定与用户选择的领域对应的问答库。在这种情况下，在所述步骤e中，接收所述用户查询，并根据所述用户查询从与所述用户选择的领域对应的问答库中筛选与所述用户查询有关的候选问答集；以及在所述步骤f中，利用针对与所述用户选择的领域对应的问答库的问答排序模型对与所述用户查询有关的所述候选问答集进行排序。

也就是说，在线上不仅要接收用户查询，还要接收用户的领域选择信息。根据用户的领域选择信息，可以确定出用户要使用的问答库和问答排序模型。之后，根据用户查询在线上从确定出的用户要使用的问答库中筛选出与用户查询有关的候选问答集，并利用确定出的用户要使用的问答排序模型对这些候选问答集进行排序。通过分领域分别构建问答库和问答排序模型，可以实现根据领域的问答排序模型的定制，从而便于领域迁移。

图2示出了根据本发明的实施方式的基于排序学习的自动问答装置的示意图。如图2所示，该装置可以包括：建库端10，该建库端10可以包括：问答库构建模块101，用于构建问答库102，该问答库102包括多个预设查询和与每个预设查询一一对应的问答集；训练样本构建模块103，用于根据所述问答库102中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注；排序训练数据构建模块104，用于根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；问答排序模型构建模块105，用于利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库102的问答排序模型；检索端20，该检索端20可以包括：检索模块201，用于接收用户查询，并根据所述用户查询从所述问答库102中筛选与所述用户查询有关的候选问答集；以及排序模块202，用于利用所述问答排序模型对所述候选问答集进行排序。

在本发明中，问答库102和问答排序模型的构建可在线下完成，而检索端20可以利用线下构建的问答库102和问答排序模型来为用户提供线上自动问答服务。

所述训练样本构建模块103可以通过以下方式为每个预设查询构建训练样本，并对所述训练样本进行正负例标注：针对每个预设查询，将该预设查询与和其对应的问答集构建为针对该预设查询的训练样本，并将该训练样本标注为正例；针对每个预设查询，从所述问答库中确定与该预设查询有关的候选问答集，该候选问答集包括与该预设查询相对应的问答集和若干其他问答集，将该预设查询与所述若干其他问答集一一构建为针对该预设查询的训练样本，并将该训练样本标注为负例。

图3示出了根据本发明的另一实施方式的基于排序学习的自动问答装置的示意图。如图3所示，该自动问答装置还可以包括第一特征计算模块30；以及所述排序训练数据构建模块104可以通过以下方式为每个预设查询构建排序训练数据：针对每个预设查询，调用所述第一特征计算模块30确定针对该预设查询的训练样本的特征参数集，并根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对该预设查询的排序训练数据。

训练样本的特征参数集可以包括相关性特征参数子集和重要性特征参数子集，并且所述问答库中的每个问答集可以包括标准问题、标准答案、扩展问题及扩展答案。在这种情况下，所述第一特征计算模块30可以通过以下方式确定所述特征参数集：针对每个训练样本，分别计算该训练样本中的预设查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出该训练样本的相关性特征参数子集；获取该训练样本中的问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出该训练样本的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出该训练样本的所述特征参数集。

此外，如图3所示，该自动问答装置还可以包括第二特征计算模块40；以及所述排序模块202可以通过以下方式对所述候选问答集进行排序：调用所述第二特征计算模块40确定所述用户查询与筛选出的每个候选问答集之间的特征参数集；将所述特征参数集输入至所述问答排序模型，以利用所述问答排序模型对所述每个候选问答集进行排序。

用户查询与线上筛选出的每个候选问答集之间的特征参数集也可以包括相关性特征参数子集和重要性特征参数子集。此外，所述问答库中的每个问答集可以包括标准问题、标准答案、扩展问题及扩展答案。在这种情况下，所述第二特征计算模块40可以通过以下方式确定所述特征参数集：针对每个候选问答集，分别计算所述用户查询与该候选问答集、以及与该候选问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出所述用户查询与该候选问答集的相关性特征参数子集；获取该候选问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出所述用户查询与该候选问答集的重要性特征参数子集；以及将所述相关性特征参数子集和所述重要性特征子集进行组合，得出所述用户查询与该候选问答集的所述特征参数集。

在本发明中，第一特征计算模块30为线下特征计算模块，第二特征计算模块40为线上特征计算模块。不过应当理解的是，虽然采用了不同的表述，但是二者进行特征计算的方法和原理是相一致的。

优选地，为了实现针对领域定制问答库和问答排序模型，如图4所示，所述自动问答装置可以包括多个建库端(例如，建库端101-10n)，每个建库端可以对应一个领域，为所对应的领域构建问答库(例如，问答库1021-102n)和针对该问答库的问答排序模型；以及所述检索端20中的所述检索模块201还用于接收来自用户的领域选择信息，并根据该领域选择信息确定与用户选择的领域对应的问答库，以及根据所述用户查询从与所述用户选择的领域对应的问答库中筛选与所述用户查询有关的候选问答集；以及所述排序模块202利用针对与所述用户选择的领域对应的问答库的问答排序模型对与所述用户查询有关的所述候选问答集进行排序。

也就是说，在本发明中，一个检索端20可以对应多个建库端101-10n以及多个问答库1021-102n。根据用户的领域选择信息，检索端20可以确定与哪个建库端和哪个问答库建立关联，例如，在图4中，与问答库1021和建库端101建立关联。之后，就可以从关联的问答库1021中筛选与用户查询有关的候选问答集，以及利用关联的建库端101中构建的问答排序模型来对这些候选问答集进行排序，并最终得出排序结果。通过分领域分别构建问答库和问答排序模型，可以实现根据领域的问答排序模型的定制，从而便于领域迁移。

综上所述，在本发明提供的自动问答方法及装置中，可以根据构建的问答库中的预设查询和问答集，构建出排序训练数据，并基于机器学习的方法，利用所构建的排序训练数据进行排序学习，从而自动构建出问答排序模型。通过排序学习过程，可以自动计算出各项特征参数的特征权值，无需开发人员进行手动设定，从而降低了人工参与成本，并且实时性好。即使增加或减少特征参数、或者因问答库发生更新而导致特征参数的分布发生变化，都可以通过上述排序学习过程自动拟合出新的特征权值，从而适应这种特征参数的变化，且保证构建出的问答排序模型的可靠性和准确性。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于排序学习的自动问答方法，其特征在于，该方法包括：

步骤a：构建问答库，该问答库包括多个预设查询和与每个预设查询一一对应的问答集；

步骤b：根据所述问答库中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注；

步骤c：根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；

步骤d：利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库的问答排序模型；

步骤e：接收用户查询，并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集；以及

步骤f：利用所述问答排序模型对所述候选问答集进行排序；

其中，在所述步骤b中，通过以下方式为每个预设查询构建训练样本，并对所述训练样本进行正负例标注：

针对每个预设查询，将该预设查询与和其对应的问答集构建为针对该预设查询的训练样本，并将该训练样本标注为正例；

针对每个预设查询，从所述问答库中确定与该预设查询有关的候选问答集，该候选问答集包括与该预设查询相对应的问答集和若干其他问答集，将该预设查询与所述若干其他问答集一一构建为针对该预设查询的训练样本，并将该训练样本标注为负例。

2.根据权利要求1所述的方法，其特征在于，在所述步骤c中，通过以下方式为每个预设查询构建排序训练数据：

针对每个预设查询，确定针对该预设查询的训练样本的特征参数集，并根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对该预设查询的排序训练数据。

3.根据权利要求2所述的方法，其特征在于，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及通过以下方式确定所述特征参数集：

针对每个训练样本，分别计算该训练样本中的预设查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出该训练样本的相关性特征参数子集；

获取该训练样本中的问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出该训练样本的重要性特征参数子集；以及

将所述相关性特征参数子集和所述重要性特征子集进行组合，得出该训练样本的所述特征参数集；

其中，所述相关性特征参数能够表明在一个训练样本中的预设查询与该训练样本中的问答集之间的相关性；所述重要性特征参数能够表明在一个训练样本中的问答集对于用户使用而言的重要程度。

4.根据权利要求1所述的方法，其特征在于，在所述步骤f中，通过以下方式对所述候选问答集进行排序：

确定所述用户查询与筛选出的每个候选问答集之间的特征参数集；

将所述特征参数集输入至所述问答排序模型，以利用所述问答排序模型对所述每个候选问答集进行排序。

5.根据权利要求4所述的方法，其特征在于，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及通过以下方式确定所述特征参数集：

针对每个候选问答集，分别计算所述用户查询与该候选问答集、以及与该候选问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数，并将所计算出的同种相关性特征参数进行组合，得出所述用户查询与该候选问答集的相关性特征参数子集；

获取该候选问答集的重要性特征参数，并将所获取的重要性特征参数进行组合，得出所述用户查询与该候选问答集的重要性特征参数子集；以及

将所述相关性特征参数子集和所述重要性特征子集进行组合，得出所述用户查询与该候选问答集的所述特征参数集；

6.根据权利要求1-5中任一权利要求所述的方法，其特征在于，针对不同领域，利用所述步骤a～所述步骤d为每个领域构建一问答库以及针对该问答库的问答排序模型；以及所述方法还包括：

步骤g：接收来自用户的领域选择信息，并根据该领域选择信息确定与用户选择的领域对应的问答库；

在所述步骤e中，接收所述用户查询，并根据所述用户查询从与所述用户选择的领域对应的问答库中筛选与所述用户查询有关的候选问答集；以及

在所述步骤f中，利用针对与所述用户选择的领域对应的问答库的问答排序模型对与所述用户查询有关的所述候选问答集进行排序。

7.一种基于排序学习的自动问答装置，其特征在于，该装置包括：

建库端，该建库端包括：

问答库构建模块，用于构建问答库，该问答库包括多个预设查询和与每个预设查询一一对应的问答集；

训练样本构建模块，用于根据所述问答库中包括的所述预设查询和所述问答集，为每个预设查询构建训练样本，并对所述训练样本进行正负例标注；

排序训练数据构建模块，用于根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注，为每个预设查询构建排序训练数据；

问答排序模型构建模块，用于利用所构建的所有排序训练数据进行排序学习，得出针对所述问答库的问答排序模型；

检索端，该检索端包括：

检索模块，用于接收用户查询，并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集；以及

排序模块，用于利用所述问答排序模型对所述候选问答集进行排序；

其中，所述训练样本构建模块通过以下方式为每个预设查询构建训练样本，并对所述训练样本进行正负例标注：

8.根据权利要求7所述的装置，其特征在于，该装置还包括第一特征计算模块；以及所述排序训练数据构建模块通过以下方式为每个预设查询构建排序训练数据：

针对每个预设查询，调用所述第一特征计算模块确定针对该预设查询的训练样本的特征参数集，并根据所确定出的特征参数集、以及所述训练样本的正负例标注，构建针对该预设查询的排序训练数据。

9.根据权利要求8所述的装置，其特征在于，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及所述第一特征计算模块通过以下方式确定所述特征参数集：

10.根据权利要求7所述的装置，其特征在于，该装置还包括第二特征计算模块；以及所述排序模块通过以下方式对所述候选问答集进行排序：

调用所述第二特征计算模块确定所述用户查询与筛选出的每个候选问答集之间的特征参数集；

11.根据权利要求10所述的装置，其特征在于，所述特征参数集包括相关性特征参数子集和重要性特征参数子集；所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案；以及所述第二特征计算模块通过以下方式确定所述特征参数集：

12.根据权利要求7-11中任一权利要求所述的装置，其特征在于，该装置包括多个建库端，每个建库端对应一个领域，为所对应的领域构建问答库和针对该问答库的问答排序模型；以及所述检索端中的所述检索模块还用于接收来自用户的领域选择信息，并根据该领域选择信息确定与用户选择的领域对应的问答库，以及根据所述用户查询从与所述用户选择的领域对应的问答库中筛选与所述用户查询有关的候选问答集；以及

所述排序模块利用针对与所述用户选择的领域对应的问答库的问答排序模型对与所述用户查询有关的所述候选问答集进行排序。