CN102903008B

CN102903008B - 用于计算机问答的方法及系统

Info

Publication number: CN102903008B
Application number: CN201110215092.1A
Authority: CN
Inventors: 张雷; 裘照明; 倪渊
Original assignee: International Business Machines Corp
Current assignee: Oriental concept Limited
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2016-05-18
Anticipated expiration: 2031-07-29
Also published as: US20130029307A1; US9020862B2; CN102903008A

Abstract

本发明提出了一种用于计算机问答的方法及系统，包括：接收多个待训练问题，获取每个问题的候选答案集合；确定所述候选答案集合包含正确答案的部分问题，用该部分问题对应的候选答案的第一特征集合构成第一输入训练数据集；对所述第一输入训练数据集进行机器学习得到第一数学模型；计算全部待训练问题的候选答案的第一置信度，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合；对所述多个待训练问题的第二特征集合构成的第二输入训练数据集进行机器学习得到第二数学模型。采用本发明的技术方案可以对现有的问题系统进行改善。

Description

用于计算机问答的方法及系统

技术领域

本发明涉及用于计算机问答领域，特别是涉及一种改善了的计算机问答的机器学习方法和系统，以及对新问题进行回应的方法和系统。

背景技术

问答系统(QuestionAnsweringSystem)，又称人机对话系统(HumanMachineConversation，HMC)，是指系统接受用户以自然语言形式描述的提问，从大量结构化、半结构化或者非结构化的数据中，获取能回答此自然语言形式问句的准确、简洁、个性化的答案。

问答系统在各个领域中发挥着越来越重要的作用，例如，在保健/生命科学领域，可以辅助诊断、医疗自助等；在零售/消费领域，可用于呼叫中心(call-center)，自助服务等；在企业的商业智能(BI)领域，也可以辅助企业的决策。

然而，在现有技术中，当正确的答案未包含在候选答案集合中时，由于这些数据与机器学习无关，导致无论如何训练模型，都不能找到这些问题的正确答案，使得机器学习难于获得好的分辨力。由此可见，现有的问答方法及系统仍然存在着改进的空间。

发明内容

根据本发明的第一个方面，提供了一种用于计算机问答的机器学习方法，包括：接收多个待训练问题，获取每个问题的候选答案集合；确定所述候选答案集合包含正确答案的部分问题，用该部分问题对应的候选答案的第一特征集合构成第一输入训练数据集；对所述第一输入训练数据集进行机器学习得到第一数学模型，所述第一数学模型用于根据所述第一特征集合计算所述候选答案为正确答案的第一置信度；计算全部待训练问题的候选答案的第一置信度，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合；对所述多个待训练问题的第二特征集合构成的第二输入训练数据集进行机器学习得到第二数学模型，所述第二数学模型用于根据所述第二特征集合计算所述候选答案为正确答案的第二置信度。

根据本发明的第二个方面，提供了一种对新问题进行回应的方法，包括：接收所述新问题，获取该新问题的候选答案集合；提取所述新问题的候选答案的第一特征集合，并应用前述之方法得到的第一数学模型计算所述新问题的候选答案的第一置信度，所述第一特征集合与所述第一数学模型相对应；提取所述新问题的候选答案的第二特征集合，并应用前述之方法得到的第二数学模型计算所述新问题的候选答案的第二置信度，所述第二特征集合与所述第二数学模型相对应；根据所述新问题的候选答案的第二置信度对所述新问题进行回应。

根据本发明的第三个方面，提供了一种用于计算机问答的机器学习系统，包括：配置为接收多个待训练问题，获取每个问题的候选答案集合的装置；配置为确定所述候选答案集合包含正确答案的部分问题，用该部分问题对应的候选答案的第一特征集合构成第一输入训练数据集的装置；配置为对所述第一输入训练数据集进行机器学习得到第一数学模型的装置，所述第一数学模型用于根据所述第一特征集合计算所述候选答案为正确答案的第一置信度；配置为计算全部待训练问题的候选答案的第一置信度的装置，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合；配置为对所述多个待训练问题的第二特征集合构成的第二输入训练数据集进行机器学习得到第二数学模型的装置，所述第二数学模型用于根据所述第二特征集合计算候选答案为正确答案的第二置信度。

根据本发明的第四个方面，提供了一种对新问题进行回应的系统，包括：配置为接收所述新问题，获取该新问题的候选答案集合的装置；配置为提取所述新问题的候选答案的第一特征集合，并应用前述之系统得到的第一数学模型计算所述新问题的候选答案的第一置信度的装置，所述第一特征集合与所述第一数学模型相对应；配置为提取所述新问题的候选答案的第二特征集合，并应用前述之系统得到的第二数学模型计算所述新问题的候选答案的第二置信度的装置，所述第二特征集合与所述第二数学模型相对应；配置为根据所述新问题的候选答案的第二置信度对所述新问题进行回应的装置。

附图说明

所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是，通过参照附图阅读下面对说明性的实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点，在附图中：

图1示出了用来实现本发明实施方式的示例性计算系统。

图2示出了本发明的机器学习方法流程示意图。

图3示出了回答新问题的工作流程示意图。

图4示出了图3中步骤304的另一种实施方式的示意图。

具体实施例

所属技术领域的技术人员知道，本发明可以体现为系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质(mediumofexpression)中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，计算机可读存储介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式，包括-但不限于-电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的任何一种计算机可读介质。

包含在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括-但不限于-无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。要明白的是，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

现参看图1，示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如所示，计算机系统100可以包括：CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中，与系统总线104耦合的有CPU101、RAM102、ROM103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

现在参看图2，示出了用于问答系统中的机器学习的流程图，包括：

步骤201，接收多个待训练问题，获取每个问题的候选答案集合。

对每一个待训练的问题，可采用现有的候选答案生成算法生成该问题的候选答案集合，所述候选答案集合包括至少一个候选答案。在一个实施例中，通过抽取该问题中的关键字，用该关键字检索相关的文档，然后在文档中寻找和问题最相近的段落，进而识别段落中出现的命名实体，并把这些命名实体作为候选答案。

步骤202，确定所述候选答案集合包含正确答案的部分问题，用该部分问题对应的候选答案的第一特征集合构成第一输入训练数据集

在一个实施例中，可以将所述多个待训练问题划分G1和G2两组问题，其中，G1的候选答案集合中包括正确答案，其中，G2的候选答案集合中不包括正确答案。在该实施例中，是通过确定G1组来确定所述候选答案集合包含正确答案的部分问题。G2可选为较难回答的问题。然而，所属领域技术人员明了，在该步骤中只要确定出所述候选答案集合包含正确答案的部分问题即可，并不必然要确定出上述第二组问题。

表1

为了便于说明问题、候选答案集以及第一特征集合的关系，可参看表1，问题q_1相对应的候选答案集合包括n个候选答案(c_1，c_2...c_n)，每个候选答案的第一特征值集合均包括m个第一特征(f_1，f_2.....f_m)，因此，表1的每一行表示了一个候选答案以及相对应的第一特征集合(F1)，即，第一特征集合是与候选答案是一一对应的关系。

在一个实施例中，第一特征集合(F1)中的第一特征在现有的答系统中常用的判断候选答案是否正确的特征中选择其中的一个或多个，例如：

F10：候选答案的类型和待训练问题类型的匹配程度；

F11：候选答案周围的文字和待训练问题文字在字面上的相似性；

F12：候选答案在搜索结果中得到的相似性得分；

F13：候选答案的时间特征和待训练问题中出现的时间的匹配程度；

F14：候选答案地理位置和待训练问题中出现的地理位置的匹配程度。

参看表2的最后列，第一特征集中还可包括候选答案是否正确的信息。

在训练阶段，G1可包括大量的待训练问题，用G1中全部待训练问题的候选答案的第一特征集合构成机器学习算法的第一输入训练数据集(D1)，D1中的每个实例对应了一个候选答案的第一特征集合。

步骤203，对所述第一输入训练数据集进行机器学习得到第一数学模型，所述第一数学模型用于根据所述第一特征集合计算所述候选答案为正确答案的第一置信度。

其中，第一置信度是候选答案为正确答案的预测概率。在训练第一数学模型M1时，具体可选用任何一种现有的机器学习算法，例如决策树、支持向量机、贝叶斯、逻辑斯蒂回归算法等方法，具体的训练方法是本领域的技术人员所熟知的，均可在关于机器学习的教科书中找到，在此不作赘述。

步骤204，计算全部待训练问题候选答案的第一置信度，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合。

将M1应用到所有的待训练问题的候选答案上，确定出每个候选答案为正确答案的第一置信度。为了便于第二特征集的提取，作为可选的步骤，可将每个待训练问题下的候选答案按照第一置信度进行排序后得到候选答案排序列表(candidatelist)，即，搜集到的候选答案集合是无序的，按照置信度排序后得到候选答案列表是有序的。

所述第二特征集合(F2)针对的是每个待训练问题，与每个问题的关系是一一对应的。作为本申请一个改进，通过F2特征，以每个问题的候选答案集的整体作为考察对象，能够提供比F1更多的关于问题是否找到正确答案的线索。具体的，第二特征可选用与所述第一置信度有关的特征以及与所述第一特征集有关的特征。以下示出一些第二特征集合(F2)中的特征类型以及这些特征类型的含义：

F20：第一置信度的最大值。该特征的值越大说明排在第一位的候选答案正确的概率越大，从而间接说明找到问题的正确答案的可能性越大。

F21：第一置信度的最大值与次大值之差。该特征值是排在第一位和第二位的候选答案之间的第一置信度值之差。该特征值越大说明最佳答案与次佳答案之间的差别比较大，系统能够较好的区分它们，而不是被混淆。所以，该特征值越大，可说明问题找到正确答案的可能性大。

F22：第一置信度的平均值。该特征值越大/小，说明整体上候选答案是正确的概率就越大/小，间接说明问题越容易/困难，从而间接说明找到正确答案的可能性越大/小。

F23：第一特征集合中某些重要特征的平均值。

F24：第一特征集合中某些重要特征的标准差。

在第一特征集合(F1)中，还存在着某些重要的第一特征，这些重要的特征往往对于问题是否找到正确答案有很大帮助，例如关于类型匹配程度的特征(F10)。因此，这些重要特征的平均值能够反映出候选答案集合的整体可靠性。而这些重要特征的标准差则可以反映了特征值的分散程度，分散的越大，说明候选答案之间的差别比较容易区分，问题越有可能找到正确答案。对于F1中重要特征值的识别可以根据第一数学模型M1的结果进行判断，现有的机器学习算法提供了现成的方法来识别重要的特征，例如，在一个实施例中，可采用信息获取率(InformationGain)指标评价特征值的重要程度，在关于机器学习方法的教科书中，也可以找到该指标的具体计算方法，在此不作赘述。

所属领域技术人员在此基础上当然还能够想到其它类型的第二特征值作为替代的方式。

步骤205，对所述多个待训练问题的第二特征集合构成的第二输入训练数据集进行机器学习得到第二数学模型，所述第二数学模型用于根据所述第二特征集合计算所述候选答案为正确答案的第二置信度。

所有待训练问题的第二特征集(F2)构成第二输入训练数据集(D2)。以D2作为输入，使用现有的机器学习算法，例如决策树、支持向量机、贝叶斯等方法，得到用于计算候选答案的第二置信度的第二数学模型(M2)。

至此，通过两个学习阶段得到了两个数学模型M1和M2，而且图2所示的机器学习方法既可以在线进行也可以离线进行。

图3所示出的是应用图2所示的方法训练出的两个数学模型对新问题进行回应的步骤，包括：

步骤301，接收输入的新问题，获取该新问题的候选答案集合。

在该步骤中，对于任何一个输入的新问题，应用与训练阶段相同或不同的候选答案生成算法生成该问题的候选答案集合。

步骤302，提取所述新问题的候选答案的第一特征集合，进而应用所述第一数学模型计算所述新问题的候选答案的第一置信度。该步骤中的第一特征集合与所述第一数学模型相对应的特征集合，即，该步骤中的第一特征集合的选择需要与训练第一数学模型时所确定的第一特征集合相一致。明显的，对于新问题而言，并不知道候选答案的正确与否，因此，所述新问题的候选答案的第一特征集合不会包括该候选答案正确与否的信息。作为可选的步骤，在提取所述第二特征集合之前，根据所述第一置信度对所述待训练问题的候选答案进行排序，得到候选答案的排序列表，可便于计算F2特征。

步骤303，提取所述新问题的候选答案的第二特征集合，进而应用所述第二数学模型计算所述新问题的候选答案的第二置信度。该步骤中的第二特征集合与所述第二数学模型相对应的特征集合，即，该步骤中的第二特征集合的选择需要与训练第二数学模型时所确定的第二特征集合相一致。在一个实施例中，作为可选的步骤，在提取所述新问题的候选答案的第二特征集合之前，根据所述新问题的候选答案的第一置信度对所述待新问题的候选答案进行排序，进而在候选答案的排序列表的基础上，可便于计算F2特征集合中的每个特征值。

步骤304，根据所述新问题的候选答案的第二置信度对所述新问题作出回应。

在该步骤的一个实施例中，可直接将具备最大的第二置信度S’的候选答案作为该问题的答案。

图4示出了步骤304的另一种实施方式，包括如下步骤：

步骤401，确定所述新问题的候选答案的第二置信度中的最大值S’；

步骤402，响应于所述新问题的候选答案的第二置信度中的最大值超过预先设定的阈值，进入步骤403用对应的候选答案进行回答，否则，进入步骤404放弃回答。用户可根据实际应用的偏好，设置所述阈值，例如，在对问题回答准确性要求高的应用中，可设置较大的阈值。

对照于图2所示的机器学习流程，本申请还公开了一种用于计算机问答的机器学习系统，包括：

配置为接收多个待训练问题，获取每个问题的候选答案集合的装置；

配置为确定所述候选答案集合包含正确答案的部分问题，用该部分问题对应的候选答案的第一特征集合构成第一输入训练数据集的装置；

配置为对所述第一输入训练数据集进行机器学习得到第一数学模型的装置，所述第一数学模型用于根据所述第一特征集合计算所述候选答案为正确答案的第一置信度；

配置为计算全部问题候选答案的第一置信度，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合的装置；

配置为对所述多个待训练问题的第二特征集合构成的第二输入训练数据集进行机器学习得到第二数学模型的装置，所述第二数学模型用于根据所述第二特征集合计算所述候选答案为正确答案的第二置信度。

在本发明的一个实施方式中，所述第一特征集合包括以下特征的一种或多种：所述候选答案和所述待训练问题所问类型的匹配程度；所述候选答案周围的文字和所述待训练问题文字的字面相似性；所述候选答案的时间特征和所述待训练问题中出现时间的匹配程度；所述候选答案的地理位置信息和所述待训练问题中出现地理位置的匹配程度。

按照本发明的另一个实施方式，所述第一特征集合还包括所述候选答案是否为正确答案的信息。

在本发明的一个实施方式中，所述第二特征集合包括以下特征的一种或多种：所述第一置信度的最大值；所述第一置信度的最大值与次大值的差；所述第一置信度的平均值；所述第一特征集合中重要特征的平均值；所述第一特征集合中重要特征的标准差。

在本发明的一个实施方式中，在提取所述第二特征集合之前，根据所述第一置信度对所述待训练问题的候选答案进行排序。

对照于图3所示的对新问题进行回应的流程，本发明还公开了一种用前述机器学习系统得到的数学模型对新问题进行回应的系统，包括：

配置为接收所述新问题，获取该新问题的候选答案集合的装置；

配置为提取所述新问题的候选答案的第一特征集合，并应用第一数学模型计算所述新问题的候选答案的第一置信度的装置；

配置为提取所述新问题的候选答案的第二特征集合，并应用第二数学模型计算所述新问题的候选答案的第二置信度的装置；

配置为根据所述新问题的候选答案的第二置信度对所述新问题进行回应的装置。

在一个实施方式中，在上述对新问题进行回应的系统中，还包括：配置为在提取所述新问题的候选答案的第二特征集合之前，根据所述新问题的候选答案的第一置信度对所述待新问题的候选答案进行排序的装置。

在本发明的一个实施方式中，在上述对新问题进行回应的系统中，所述对新问题进行回应是：响应于所述新问题的候选答案的第二置信度中的最大值超过预先设定的阈值，用对应的候选答案进行回答，否则放弃回答。

现以一个具体的实施例对图2所示的机器学习方法来说明M1、M2两个数学模型的训练过程。在这个实施例中，共接收n个待训练问题(Q1～Qn)，并获取每个问题的候选答案集合，例如，其中的一个问题Qi问到“谁发明了电灯？”，参看表2，该问题的候选答案集有3个候选答案。

接下来，在该n个待训练问题中确定出候选答案集合包含正确答案的部分问题(G1)。以Qi为例，如表2所示，问题Qi的候选答案集合中包括正确答案，应该是属于G1组的问题。在训练阶段，除了Qi外，G1中还包括其它符合上述条件的待训练问题，例如Q1，Qj等。

表2

Qi	F10	F11	F12	F13	F14	是否正确
							亚历山大	0.8	0.1	0.3	0.1	0	否
爱迪生	0.9	0.8	0.9	0.8	0	是
							牛顿	0.8	0.5	0.7	0.6	0	否

在该实施例中，每个候选答案的第一特征集F1包括F10，F11，F12，F13，F14以及候选答案是否正确的信息，其中，F1特征集合包括特征类型如下：

F10：候选答案的类型和待训练问题类型的匹配程度；

F12：候选答案在搜索结果中得到的相似性得分；

对于G1组中的其它问题，例如Q1，Qj，均可参考表2的方式得到候选答案集合及其候选答案所对应的F1特征集。

表3

最终，如表3所示，将所有G1组中待训练问题的所有候选答案的第一特征集，组合在一起构成用于机器学习算法的第一输入训练数据集D1。

进而，对D1进行机器学习得到第一数学模型(M1)，M1用于根据F1特征计算候选答案的第一置信度。在该实施例中采用逻辑斯蒂回归算法对D1进行机器学习后，得到具有如下形式的第一数学模型M1：

P1＝1/(1+exp(w0*F10+w1*F11+w2*F12+w3*F13+w4*F14))

其中w0，w1，w2，w3和w4是训练得到的权重值，p则是候选答案为正确答案的第一置信度(预测概率)。

表4

Q1	F10	F11	F12	F13	F14	置信度	是否正确
								爱迪生	0.9	0.8	0.9	0.8	0	0.8	是
牛顿	0.8	0.5	0.7	0.6	0	0.3	否
								亚历山大	0.5	0.1	0.3	0.1	0	0.2	否

进一步，将M1应用到Q1～Qn所有问题的候选答案上，得到每个候选答案是正确答案的第一置信度。参看表4，是所计算得到的问题Qi的候选答案的第一置信度，表4还根据第一置信度对每个问题下的候选答案进行排序后得到的候选答案排序列表。

然后，针对每个问题提取与其候选答案的第一置信度以及第一特征集合相关的第二特征集合(F2)。在该实施例中，待训练问题的F2特征集合中包括如下各个特征(括号内是待训练问题Qi的F2特征)：

第一置信度的最大值(F20＝0.8)；

第一置信度的最大值与次大值的差(F21＝0.8-0.3＝0.5)；

第一置信度的平均值(F22＝(0.8+0.3+0.2)/3＝0.043)；

F1特征集合中重要特征(例如F10)的平均值(F23＝(0.9+0.8+0.5)/3＝0.733)；

F1特征集合中重要特征(例如F10)的标准差(F24＝sqrt(((0.9-0.733)^2+(0.8-0.733)^2+(0.5-0.733)^2)/3)＝0.167)；

进而，得到待训练问题Qi的第二特征值集合：F2(Qi)：＜0.8，0.5，0.043，0.733，0.167＞。

由于第二特征集合的计算是针对Q1～Qn全部待训练问题的，还需计算出其它待训练问题的第二特征集合，例如，F2(Q1)，F2(Qj)以及F2(Qn)。然后，根据所有待训练问题的第二特征集合构成第二输入训练数据集(D2)，如下所示：

F2(Q1)：<…，…，…，…，…>

…

F2(Qi)：<0.8，0.5，0.043，0.733，0.167>

…

F2(Qj)：<…，…，…，…，…>

…

F2(Qn)：<…，…，…，…，…>

最后，以D2作为输入，使用现有的机器学习算法，例如决策树、支持向量机、贝叶斯等方法，得到第二数学模型M2。在该实施例中同样可以采用逻辑斯蒂回归算法得到具有如下形式的第二数学模型M2：

P2＝1/(1+exp(y0*F20+y1*F21+y2*F22+y3*F23+y4*F24))

其中y0，y1，y2，y3和y4是训练得到的权重值，P2则是可根据第二特征集合计算所述候选答案为正确答案的第二置信度。

在根据M1、M2两个数学模型对新问题进行回答的过程中，可参考上述各个步骤首先获取该新问题的候选答案集合，然后，提取所述新问题的候选答案的第一特征集合，并应用所得到的第一数学模型M1计算这个新问题的候选答案的第一置信度；进而，提取所述新问题的候选答案的第二特征集合，并应用第二数学模型计算所述新问题的候选答案的第二置信度；最后，根据所述新问题的候选答案的第二置信度对所述新问题进行回应。

采用本发明的技术方案可以在获取第一数学模型的时，可以移除无正确答案的待训练问题所施加的不必要的限定，使得训练数据更为平衡。应用第二特征集合训练的第二数学模型也有助于改善对新问题的回答。

以上参照附图描述了根据本发明的实施例的计算机问答的方法及系统。应指出的是，以上描述仅为示例，而不是对本发明的限制。附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于计算机问答的机器学习方法，包括：

接收多个待训练问题，获取每个问题的候选答案集合；

确定所述候选答案集合包含正确答案的部分问题，用该部分问题对应的候选答案的第一特征集合构成第一输入训练数据集；

对所述第一输入训练数据集进行机器学习得到第一数学模型，所述第一数学模型用于根据所述第一特征集合计算所述候选答案为正确答案的第一置信度；

计算全部待训练问题的候选答案的第一置信度，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合；

对所述多个待训练问题的第二特征集合构成的第二输入训练数据集进行机器学习得到第二数学模型，所述第二数学模型用于根据所述第二特征集合计算所述候选答案为正确答案的第二置信度。

2.如权利要求1所述的方法，其特征在于，所述第一特征集合包括以下特征的一种或多种：

所述候选答案和所述待训练问题所问类型的匹配程度；

所述候选答案周围的文字和所述待训练问题文字的字面相似性；

所述候选答案的时间特征和所述待训练问题中出现时间的匹配程度；

所述候选答案的地理位置信息和所述待训练问题中出现地理位置的匹配程度。

3.如权利要求1或2所述的方法，其特征在于，所述第一特征集合还包括所述候选答案是否为正确答案的信息。

4.如权利要求1或2所述的方法，其特征在于，所述第二特征集合包括以下特征的一种或多种：

所述第一置信度的最大值；

所述第一置信度的最大值与次大值的差；

所述第一置信度的平均值；

所述第一特征集合中重要特征的平均值；

所述第一特征集合中重要特征的标准差。

5.如权利要求1所述的方法，其特征在于，在提取所述第二特征集合之前，根据所述第一置信度对所述待训练问题的候选答案进行排序。

6.一种对新问题进行回应的方法，包括：

接收所述新问题，获取该新问题的候选答案集合；

提取所述新问题的候选答案的第一特征集合，并应用权利要求1之方法得到的第一数学模型计算所述新问题的候选答案的第一置信度，所述第一特征集合与所述第一数学模型相对应；

提取所述新问题的候选答案的第二特征集合，并应用权利要求1之方法得到的第二数学模型计算所述新问题的候选答案的第二置信度，所述第二特征集合与所述第二数学模型相对应；

根据所述新问题的候选答案的第二置信度对所述新问题进行回应。

7.如权利要求6所述的方法，其特征在于，在提取所述新问题的候选答案的第二特征集合之前，根据所述新问题的候选答案的第一置信度对所述新问题的候选答案进行排序。

8.如权利要求6所述的方法，其特征在于，所述对新问题进行回应是：

响应于所述新问题的候选答案的第二置信度中的最大值超过预先设定的阈值，用对应的候选答案进行回答，否则，放弃回答。

9.一种用于计算机问答的机器学习系统，包括：

配置为计算全部待训练问题的候选答案的第一置信度，并针对每个问题提取与所述第一置信度以及所述第一特征集合相关的第二特征集合的装置；

10.如权利要求9所述的机器学习系统，其特征在于，所述第一特征集合包括以下特征的一种或多种：

所述候选答案和所述待训练问题所问类型的匹配程度；

11.如权利要求9或10所述的机器学习系统，其特征在于，所述第一特征集合还包括所述候选答案是否为正确答案的信息。

12.如权利要求9或10所述的机器学习系统，其特征在于，所述第二特征集合包括以下特征的一种或多种：

所述第一置信度的最大值；

所述第一置信度的最大值与次大值的差；

所述第一置信度的平均值；

所述第一特征集合中重要特征的平均值；

所述第一特征集合中重要特征的标准差。

13.如权利要求9的机器学习系统，其特征在于，在提取所述第二特征集合之前，根据所述第一置信度对所述待训练问题的候选答案进行排序。

14.一种对新问题进行回应的系统，包括：

配置为提取所述新问题的候选答案的第一特征集合，并应用权利要求9之系统得到的第一数学模型计算所述新问题的候选答案的第一置信度的装置，所述第一特征集合与所述第一数学模型相对应；

配置为提取所述新问题的候选答案的第二特征集合，并应用权利要求9之系统得到的第二数学模型计算所述新问题的候选答案的第二置信度的装置，所述第二特征集合与所述第二数学模型相对应；

15.如权利要求14所述对新问题进行回应的系统，还包括：

配置为在提取所述新问题的候选答案的第二特征集合之前，根据所述新问题的候选答案的第一置信度对所述新问题的候选答案进行排序的装置。

16.如权利要求15所述对新问题进行回应的系统，其特征在于，所述对新问题进行回应是：