CN110399467A

CN110399467A - 提供用于自然语言问答系统的训练数据的方法和设备

Info

Publication number: CN110399467A
Application number: CN201810362548.9A
Authority: CN
Inventors: 张驰; 郭心语; 李安新; 陈岚; 赵军; 刘康; 何世柱
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2019-11-01
Also published as: JP2019192246A

Abstract

本发明提供了用于自然语言问答系统的训练数据的方法和设备、计算机可读存储介质以及自然语言问答系统。所述方法包括：接收原始训练数据，所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案；确定所述多个答案的数据质量；基于所述数据质量，将所述多个答案标记为第一类实例或第二类实例；从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合；对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据，其中所述第一类实例在经排序的所述多个实例组合中的比例单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例单调减少。

Description

提供用于自然语言问答系统的训练数据的方法和设备

技术领域

本发明涉及人工智能领域，更具体地，本发明涉及提供用于自然语言问答系统的训练数据的方法和设备、计算机可读存储介质以及自然语言问答系统。

背景技术

近年来，随着计算机技术的不断发展，人工智能在许多领域中的应用越来越广泛。自然语言问答系统是人工智能在人类的自然语言处理中的一种应用，其能够接受用户以自然语言形式描述的提问，并能从大量的异构数据中查找或推断出用户问题的答案，且以自然语言的形式提供答案。借助于自然语言问答系统，用户可以用自然语言提出问题，并且获得准确且流利的自然语言回答，使得用户可以更便捷地获得知识。

在自然语言问答系统中，通常需要预先将训练数据输入到诸如神经网络等的分类器中进行训练。当接收到用户以自然语言提出的问题时，可以利用训练好的分类器或预设的规则对输入问题进行分析，以从预先建立的知识库中查找或推断得到相应的答案，并且最终以自然语言的形式向用户推送问题答案。在现有的自然语言问答系统中，对训练数据的质量要求非常严格，通常需要使用高质量数据进行训练才能够取得较好的训练效果，因此在训练阶段会直接筛除低质量数据。然而，训练数据在当今大数据时代极其珍贵，未充分利用低质量数据进行训练意味着丢失了许多有价值的信息，导致需要从数量极其庞大的样本数据中筛选。

因此，希望提供一种能够合理使用高质量数据和低质量数据从而提供用于自然语言问答系统中自然语言生成任务的训练数据的方法和设备，以便利用该训练数据更好地对自然语言问答系统中的自然语言生成模型进行训练，使用户可以更便捷更全面更交互友好地获得知识。

发明内容

鉴于上述问题，本发明提供用于自然语言问答系统的训练数据的方法和设备、计算机可读存储介质以及自然语言问答系统。

根据本发明的一个实施例，提供了一种提供用于自然语言问答系统的训练数据的方法，包括：接收原始训练数据，所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案；确定所述多个答案的数据质量；基于所述数据质量，将所述多个答案标记为第一类实例或第二类实例；从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合；对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据，其中所述第一类实例在经排序的所述多个实例组合中的比例单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例单调减少。

根据本发明的另一实施例，提供了一种提供用于自然语言问答系统的训练数据的设备，包括：数据接收单元，配置为接收原始训练数据，所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案；质量确定单元，配置为确定多个答案的数据质量；标记单元，配置为基于所述数据质量将所述多个答案标记为第一类实例或第二类实例；组合单元，配置为从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合；排序单元，配置为对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据；以及训练数据提供单元，配置为向自然语言问答系统提供所述经排序的所述多个实例组合，其中所述第一类实例在经排序的所述多个实例组合中的比例单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例单调减少。

根据本发明的又一实施例，提供了一种提供用于自然语言问答系统的训练数据的设备，包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，当所述计算机可读指令被所述处理器运行时执行根据本发明的实施例的提供用于自然语言问答系统的训练数据的方法。

根据本发明的又一实施例，提供了一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时执行根据本发明的实施例的提供用于自然语言问答系统的训练数据的方法。

根据本发明的又一实施例，提供了一种自然语言问答系统，包括：自然语言问答训练设备，配置为从根据本发明的实施例的提供用于自然语言问答系统的训练数据的设备接收训练数据，并且利用所述训练数据进行机器学习；以及自然语言答案提供设备，配置为接收用户输入的问题，并且利用被训练的机器以自然语言形式提供与用户输入的问题对应的答案。

根据本发明实施例的用于自然语言问答系统的训练数据的方法和设备、计算机可读存储介质以及自然语言问答系统，能够合理地利用高质量数据和低质量数据进行组合，并且基于课程学习理论设置高质量数据和低质量数据在各个实例组合中的比例，从而充分且合理利用了语料库中的训练数据，并且能够提高分类器模型训练的精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是图示根据本发明实施例的提供用于自然语言问答系统的训练数据的方法的流程图。

图2是图示根据本发明实施例的从所述多个答案中选择第一类实例和第二类实例进行组合以获得多个实例组合的示意图。

图3是图示根据本发明实施例的第一类实例和第二类实例的比例所满足的幂函数关系的示意图。

图4示出了根据本发明实施例的提供用于自然语言问答系统的训练数据的设备的功能配置框图。

图5示出了根据本发明实施例的提供用于自然语言问答系统的训练数据的设备的功能配置框图。

图6示出了根据本发明实施例的自然语言问答系统的功能配置框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先对根据本发明实施例的提供用于自然语言问答系统的训练数据的技术的基本思想进行简单介绍。如先前所述，现有的自然语言问答系统的训练阶段，仅仅利用高质量数据进行训练而筛除掉低质量数据，浪费了大量的训练数据。因此，期望能够合理使用高质量数据和低质量数据从而充分获得其中蕴含的信息，从高质量数据和低质量数据中各选择一部分进行组合以获得多个实例组合作为训练数据，避免造成训练数据的浪费。此外，本发明的提供训练数据的技术进一步结合课程学习理论对高质量数据和低质量数据在各个实例组合中的比例进行合理设置并且对其进行排序，从而提供适合于机器以从易到难的方式高效且准确地完成学习的训练数据。

以下，将参考附图详细描述本发明的实施例。

图1是图示根据本发明实施例的提供用于自然语言问答系统的训练数据的方法的流程图。如图1所示，根据本发明实施例的提供用于自然语言问答系统的训练数据的方法包括以下步骤。

在步骤S101中，接收原始训练数据，所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案。在本发明的实施例中，可以从不同的来源获得原始训练数据。例如，可以从“百度知道”等网站获得自然语言语料库的原始训练数据输入。又例如，可以从存储多个用户的历史问题/答案的服务器等设备处获得原始训练数据输入。

原始训练数据可以是问题答案对形式的数据，包括至少一个问题和相对应的多个答案。表1例示了原始训练数据中的一个问题“鲁迅的原名叫什么？”和与之相对应的8个答案。应理解的是，所接收的原始数据中的问题和答案的数量可以根据实际需求进行选择，本发明不以此为限。

表1

在步骤S102中，确定所述多个答案的数据质量。应理解的是，原始训练数据可能包含有多个问题和对应的多个答案，其中的答案可能是高质量的数据或者低质量的数据。例如，低质量数据可能是含有噪声的或者是片面的答案，高质量数据可能是较为全面且通顺的答案。为了下文所描述的选择不同类别的答案实例进行组合，首先应当确定各个答案的数据质量。在本发明的实施例中，可以根据不同的判别标准确定多个答案的数据质量。以下从词法(lexical)分析和句法(sentential)分析两个方面，描述本发明中确定所述多个答案的数据质量的示例性方法。

根据本发明的一个方面，可以采用对所述多个答案进行词法分析的方法，确定所述多个答案的数据质量。词法分析是指将字符序列转换为词语序列并进行分析的过程，由此可以基于答案中出现的各个词语来确定答案的数据质量。例如，可以对所述多个答案进行词法分析，确定其中出现的各个词语的词频。然后，基于所述各个词语的词频以及预设的阈值，将所述多个答案标记为高质量答案或低质量答案。

作为利用词法分析确定数据质量的一个实施例，可以对所述多个答案进行词法分析，确定其中出现的各个词语的词频。然后，可以确定各个词语的词频是否落入一预定的词频区间。最后，将包含落入该词频区间的词语的答案作为高质量答案，并且将不包含落入该词频区间的词语的答案作为低质量答案。

结合上述表1中的示例问答对描述，可以预先设定一词频区间，将“周树人”或“周樟寿”等词语标记为落入该词频区间，而将其它的助词和虚词等标记为未落入该词频区间。进而，可以将含有“周树人”或“周樟寿”的答案确定为高质量答案，且将不含有“周树人”或“周樟寿”的答案确定为低质量答案，由此实现对各个答案的数据质量的确定。

本发明人认识到，上述实施例中将词语划分为落入该词频区间与未落入该词频区间两类的分类方式会将大多数答案确定为高质量答案，导致将原本可能是低质量的答案判别为高质量，使数据质量划分的准确度稍有下降。为了更准确地对数据的质量进行确定，本发明的技术方案可以进一步细化各个词语的词频的判别标准，将上述实施例中的落入该词频区间的范围进一步划分为两种类别的词频，以便基于各个答案中所包含词语所对应的更多种词频来确定数据的质量。

作为利用词法分析确定数据质量的另一个实施例，可以将所述各个词语的词频和预定的词频阈值比较，将所述各个词语标记为高频词、低频词和极低频词其中之一。然后，可以将所述多个答案中的包含低频词的答案确定为高质量答案，并且将所述多个答案中的仅包含高频词和/或极低频词而不包含低频词的答案确定为低质量答案。

结合上述表1中的示例问答对描述，一般来说，含有“周树人”的答案是一般大众所知晓的答案，因而“周树人”可能在各个答案中出现的频次较高。然而，真理往往掌握在少数人手中，虽然“周樟寿”出现的频次低于“周树人”，但含有“周樟寿”的答案更倾向于是准确且全面的答案。鉴于此，可以预先设定至少两个词频判别阈值，将“周树人”标记为高频词，将“周樟寿”标记为低频词，而将其它的助词和虚词等标记为极低频词。进而，可以将含有“周樟寿”的答案确定为高质量答案，且将不含有“周樟寿”的答案确定为低质量答案，由此更准确地确定各个答案的数据质量。

根据本发明的另一个方面，可以采用对所述多个答案进行句法分析的方法，确定所述多个答案数据质量。句法是衡量语句中的表语、修饰语和其它词之间的关系等语句结构性能的指标，句法得分决定了答案是否对于用户来说具有良好的可读性和可理解性，因此句法得分能够反映出答案的数据质量。以下描述根据本发明实施例的采用句法分析确定多个答案的数据质量的方法。

作为利用句法分析确定数据质量的一个实施例，可以对所述多个答案进行句法分析，确定所述多个答案的语句得分。然后，基于所述语句得分，将所述多个答案标记为高质量答案或低质量答案。例如，可以采用Stanford Parser工具(可参见https://nlp.stanford.edu/software/lex-parser.shtml)评估各个答案在句法上的性能，以确定各个答案的语句得分。相应地，可以预先设定一句法判别阈值，将语句得分超过该阈值的答案确定为高质量答案，将语句得分未超过该阈值的答案确定为低质量答案，由此实现对各个答案的数据质量的确定。

通常来说，句法好的答案所对应的句法得分较高。然而，本发明人认识到，简短词语所对应的句法得分同样较高，但这些简短词语在表达上和结构完整性上不如语句更容易被用户所接受和理解。因此，可以在获得各个答案的句法得分之后，进一步确定各个答案是否可能属于简短词语，并据此对各个句法得分进行加权，最终减少简短词语答案在句法得分高的答案之中的比例。

作为利用句法分析确定数据质量的另一个实施例，在确定了所述多个答案的语句得分之后，可以进一步确定所述多个答案的语句长度。然后，基于所述语句长度，对所述多个答案的语句得分加权。最后，基于加权后的语句得分，将所述多个答案标记为高质量答案或低质量答案。

结合上述表1中的示例问答对描述，答案3-8所对应的句法得分相对较高，然而其中的答案3和4是简短词语，因此其句法性能和结构完整性较差。根据本发明的实施例的方法，可以对上述答案3和4进行加权以减少其句法得分，通过这种方式可以降低简短词语答案所占的比例。类似地，在对其余各个答案进行加权之后，可以基于加权后的各个句法得分，更准确地确定各个答案的数据质量。

在步骤S103中，基于所述数据质量，将所述多个答案标记为第一类实例或第二类实例。考虑到合理利用不同质量类别的数据可以充分利用珍贵的训练数据，本发明可以在确定各个答案的数据质量之后，将各个答案标记为不同的质量类别，以便于后续从不同质量类别答案中各选择一部分以组合得到用来进行机器学习的训练数据实例组合。例如，可以将上述确定的高质量答案标记为第一类实例，并且将上述确定的低质量答案标记为第二类实例。

在步骤S104中，从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合。以下结合图2描述该步骤的示意性过程。

图2是图示根据本发明实施例的从所述多个答案中选择第一类实例和第二类实例进行组合以获得多个实例组合的示意图。如图2所示，分别从多个答案中选择第一类实例和第二类实例进行组合，以分别获得实例组合1至实例组合N。应理解的是，图2中的图形并不是按比例绘制，而仅是对从第一类实例和第二类实例中各选择一部分进行组合的示意性的描述。此外，各个实例组合中的训练实例的总数可以相同或者可以不相同，本发明不以此为限。在分别从第一类实例和第二类实例中各选择一部分进行组合以获得多个训练数据实例组合之后，便可以利用这些实例组合结合所对应的问题进行机器学习以得到准确的训练模型，以下详细描述本发明结合课程学习思想来设定各个实例组合中第一类实例和第二类实例的比例以及对各个实例组合进行排序的方法。

机器学习是人工智能领域中研究计算机如何模拟或实现人类的学习行为以获取新的知识或技能的技术，其借助于训练数据不断地改善自身的性能。由于语言是人类区别于其它物种的根本标志，利用机器学习实现自然语言的处理则体现了人工智能的最高任务与境界。本发明人认识到，对于人类的学习和认知过程而言，是通过“课程学习”的方式接受教育的，即，谨慎地优先学习简单的知识，然后逐步过渡到对于相对较难的知识的学习。考虑到机器学习与人类学习过程的可比拟性，本发明人将人类的认知学习过程应用于机器学习中，将学习对象(例如，训练数据等)按其难易程度进行分类，使机器利用训练数据从易到难开展学习，从而完成自然语言问答系统中复杂的学习任务。以下详细描述如何选择各个实例组合中不同类别实例的比例，以提供可供机器结合所对应的问题进行课程学习的训练数据。

返回图1，在步骤S105中，对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据，其中所述第一类实例在经排序的所述多个实例组合中的比例单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例单调减少。例如，各类实例在经排序的多个实例组合中的比例可以以线性方式单调增加或减少。

结合图2描述，经排序的多个实例组合可以对应于如图2所示的实例组合1至示例组合N，而实例组合1至示例组合N则分别为自然语言问答系统在时间顺序上的各次训练的训练数据。例如，实例组合1可以是对应于自然语言问答系统的第一次训练的训练数据，而实例组合N可以是对应于自然语言问答系统的最后一次训练的训练数据。进一步地，第一类实例在经排序的多个实例组合中的比例单调增加(即，随着组合的编号而单调增加)，而第二类实例在经排序的所述多个实例组合中的比例单调减少(即，随着组合的编号而单调减少)。进而，当这些经排序的实例组合按照时间顺序被输入到自然问答系统中待学习的机器时，可以结合所对应的问题通过多次训练实现机器从易到难的学习过程。

通常来说，低质量数据包含的有价值信息相对较少，是比较容易学习的数据，高质量数据包含的有价值信息相对较多，是比较难以学习的数据。根据本发明的上述实例组合排序方法，使得对应于训练次数的增加，训练数据的实例组合中的低质量数据单调减少且高质量数据单调增加，由此可以从简单数据逐步过渡到困难数据进行训练，以使得机器更高效且准确地完成机器学习。

优选地，可以对用于第一次训练和用于最后一次训练的实例组合中的第一类实例和第二类示例的相对数量关系进一步进行设置，以实现更好的机器训练效果。例如，可以按照如下方式设置第一实例组合(实例组合1)与最后一个实例组合(实例组合N)中的两类实例的相对数量关系：在经排序的多个实例组合中的第一实例组合中，第一类实例少于第二类实例，在经排序的多个实例组合中的最后一个实例组合中，第一类实例多于第二类实例。根据上述设定规则，初始训练时的第一类实例(对应于高质量的简单实例)相对较少而第二类实例(对应于低质量的简单实例)相对较多，而且第一类实例的比例随着实例组合的编号单调增加且第二类实例的比例随着实例组合的编号单调减少，最终训练时的第一类实例相对较多而第二类实例相对较少，以此方式形成的实例组合更便于机器以课程学习方式被训练，从而得到更加准确的训练模型。可选的，可以将第一类实例和第二类示例的相对数量关系设定为：初始训练时的第一类实例比例很小，且随着对应的训练次数增加而逐步增大，结束训练时第一类实例比例远大于第二类示例。

本发明人还认识到，除了第一类实例的比例的单调增加且第二类实例的比例的单调减少的设定规则之外，这两类实例的比例的增加率/减少率同样对于机器学习的训练效果十分重要。鉴于此，本发明提出了按照以下的规则来设置各类实例的比例的增加率/减少率：第一类实例在经排序的多个实例组合中的比例的增长率随着经排序的多个实例组合的编号单调增加，并且第二类实例在经排序的多个实例组合中的比例的降低率随着经排序的多个实例组合的编号单调增加。通过此规则对各个实例的比例的增加率/减少率进行设置，相对于各个实例的以线性方式增加/减少的比例的方式而言，可以使机器更加高效且准确地完成机器学习。以下描述根据本发明实施例的上述规则所采用的两类实例在各个实例组合中的比例的公式。

根据本发明的一个实施例，第一类实例和第二类实例在经排序的多个实例组合中的比例与经排序的多个实例组合的编号满足幂函数关系。例如，第一类实例和第二类实例的比例可以满足以下公式(1)和(2)中的关系：

ω₂＝1-ω₁ (2)

其中，ω₁代表第一类实例在经排序的多个实例组合中的比例，ω₂代表第二类实例在经排序的多个实例组合中的比例，epoch_t代表第t次训练即对应于第t个实例组合，epoch代表总训练次数即对应于实例组合的总数，其中0≤ω₁≤1且0≤ω₂≤1。以下结合图3描述该示例性的函数关系。

图3是图示根据本发明实施例的第一类实例和第二类实例的比例所满足的幂函数关系的示意图。如图3所示，对应于初始几次训练，第一类实例所占的比例较低而第二类实例所占的比例较高；随着训练次数的增加，第一类实例的比例逐渐增加且第二类实例的比例逐渐降低；对应于最后几次训练，第一类实例所占的比例较高而第二类实例所占的比例较低。此外，从曲线还可以看出，第一类实例的比例单调增加的增长率(曲线的斜率)也逐渐增加，而且第二类实例的比例单调减少的降低率(曲线的斜率)也逐渐增加。根据上述设定规则对第一类数据和第二类数据进行组合和排序，可以实现更好的训练效果。

根据本发明的另一个实施例，第一类实例和第二类实例在经排序的多个实例组合中的比例与经排序的多个实例组合的编号满足指数函数关系。例如，第一类实例和第二类实例的比例可以满足以下公式(3)和(4)中的关系：

ω₂＝1-ω₁ (4)

其中，ω₁代表第一类实例在经排序的多个实例组合中的比例，ω₂代表第二类实例在经排序的多个实例组合中的比例，epoch_t代表第t次训练即对应第t个实例组合，epoch代表总训练次数即对应于实例组合的总数，a为表示指数函数的递增速度的待定系数，b为表示指数函数的位移的待定系数，且a和b被选择以使得满足0≤ω₁≤1且0≤ω₂≤1。与上述满足幂函数关系的比例选择类似地，满足指数函数关系同样可以实现较好的训练效果。

本领域技术人员可以理解的是，虽然以上列举了幂函数和指数函数两种函数关系来说明本发明中第一类实例和第二类实例的比例选择，但本发明不以此为限，本领域技术人员还可以将第一类实例和第二类实例的比例选择为符合其它非线性函数关系，以提供更适合机器以课程学习方式被训练的训练数据。

以上详细描述了根据本发明实施例的提供用于自然语言问答系统的训练数据的方法。根据本发明实施例的提供用于自然语言问答系统的训练数据的方法，能够合理地利用高质量数据和低质量数据进行组合，并且基于课程学习理论设置高质量数据和低质量数据在各个实例组合中的比例，从而充分且合理利用了语料库中的训练数据，并且能够提高分类器模型训练的精度。

下面，将参照图4来描述根据本发明实施例的提供用于自然语言问答系统的训练数据的设备。图4示出了根据本发明实施例的提供用于自然语言问答系统的训练数据的设备的功能配置框图。如图4所示，提供用于自然语言问答系统的训练数据的设备400可以包括：数据接收单元401、质量确定单元402、标记单元403、组合单元404、排序单元405和训练数据提供单元406。所述各部件的具体功能和操作与上文中针对图1-图3描述的基本相同，因此为了避免重复，在下文中仅对所述设备进行简要的描述，而省略对相同细节的详细描述。

数据接收单元401配置为接收原始训练数据。所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案。在本发明的实施例中，数据接收单元401可以从不同的来源获得原始训练数据。例如，数据接收单元401可以从“百度知道”等网站获得自然语言语料库的原始训练数据输入。又例如，数据接收单元401从可以存储多个用户的历史问题/答案的服务器等设备处获得原始训练数据输入。

质量确定单元402配置为确定多个答案的数据质量。例如，质量确定单元402可以基于词法分析和句法分析中的至少一种方法，确定多个答案的数据质量，具体细节在此不予赘述。

标记单元403配置为基于所述数据质量将所述多个答案标记为第一类实例或第二类实例。例如，标记单元403可以将所确定的高质量答案标记为第一类实例，并且将所确定的低质量答案标记为第二类实例。

组合单元404配置为从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合。例如，组合单元404可以按照图2所示的方式，从所述多个答案中选择第一类实例和第二类实例进行组合以获得多个实例组合。

排序单元405配置为对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据。所述第一类实例在经排序的所述多个实例组合中的比例单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例单调减少。例如，排序单元405可以基于课程学习思想来设定各个实例组合中第一类实例和第二类实例的比例以及对各个实例组合进行排序，具体细节在此不予赘述。

训练数据提供单元406配置为向自然语言问答系统提供所述经排序的所述多个实例组合。例如，训练数据提供单元406可以将经排序的训练数据提供给待学习的机器，以便其结合相应的问题从易到难进行学习。作为机器学习的示例，可以将经排序的数据提供给诸如序列到序列(seq2seq)模型、对抗(adversarial)训练模型等需要训练的分类器模型，从而经过训练得到高准确度的训练模型，诸如得到训练好的长短期记忆网络(LSTM,LongShort-Term Memory)、生成式对抗网络(GAN,Generative Adversarial Networks)等，以便后续在自然语言问答系统中基于训练好的模型向用户推送以自然语言形式表达的答案。关于序列到序列模型、对抗训练模型的细节在此不予赘述。此外，虽然以上列举了序列到序列模型、对抗训练模型等分类器模型，本领域技术人员还可以根据需要采用其它学习模型用于自然问答系统中的机器学习。

以上详细描述了根据本发明实施例的提供用于自然语言问答系统的训练数据的设备。根据本发明实施例的提供用于自然语言问答系统的训练数据的设备，能够合理地利用高质量数据和低质量数据进行组合，并且基于课程学习理论设置高质量数据和低质量数据在各个实例组合中的比例，从而充分且合理利用了语料库中的训练数据，并且能够提高分类器模型训练的精度。

下面，将参照图5来描述根据本发明实施例的提供用于自然语言问答系统的训练数据的设备。图5示出了根据本发明实施例的提供用于自然语言问答系统的训练数据的设备的功能配置框图。如图5所示，提供用于自然语言问答系统的训练数据的设备500可以包括：存储器501和处理器502。应当注意，图5所示的提供用于自然语言问答系统的训练数据的设备500的组件和结构只是示例性的，而非限制性的，根据需要，设备500也可以具有其它组件和结构，例如输入装置和输出装置等。

存储器501可以是各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个非暂时性计算机可读指令，以用于由处理器502执行。

处理器502可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制设备500中的其它组件以执行期望的功能。处理器502可以运行存储器501中所存储的指令，以实现上文所述的本发明的实施例的功能以及/或者其它期望的功能。例如，处理器502可以运行存储器501中所存储的指令，以执行根据根据本发明实施例的提供用于自然语言问答系统的训练数据的方法。

下面，将描述根据本发明实施例的计算机可读存储介质。所述计算机可读存储介质用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时执行根据本发明的实施例的提供用于自然语言问答系统的训练数据的方法。所述计算机可读存储介质可以包括易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

下面，将参照图6来描述根据本发明实施例的自然语言问答系统。图6示出了根据本发明实施例的自然语言问答系统的功能配置框图。如图6所示，自然语言问答系统600可以包括：自然语言问答训练设备601和自然语言答案提供设备602。应当注意，图6所示的自然语言问答系统600的组件和结构只是示例性的，而非限制性的，根据需要，自然语言问答系统600也可以具有其它组件和结构，例如输入装置和输出装置等。

自然语言问答训练设备601是有待训练的机器，例如，如上所述的序列到序列模型、对抗训练模型等模型。自然语言问答训练设备601配置为从根据本发明实施例的提供用于自然语言问答系统的训练数据的设备接收训练数据，并且利用所述训练数据结合相应的问题进行机器学习。根据本发明的如上所述的实例组合的示例比例设置和排序方法，使得对应于训练次数的增加，训练数据的实例组合中的低质量数据单调减少且高质量数据单调增加，由此可以从简单数据逐步过渡到困难数据进行训练，以使得机器更高效且准确地完成机器学习，由此得到准确的训练模型。

自然语言答案提供设备602可以接受用户以自然语言形式描述的提问，并能从大量的异构数据中查找或推断出用户问题的答案，并最终以自然语言的方式向用户推送答案，以便于用户获得知识。自然语言答案提供设备602配置为接收用户输入的问题，并且利用被训练的机器以自然语言形式提供与用户输入的问题对应的答案。例如，自然语言答案提供设备602利用预先训练好的分类器模型或预设的规则提取自然语言问题的结构化特征，然后基于该结构化特征从预先建立的知识库中检索或推理得到相应的答案实体(例如，上述表1中问答对中出现的“周树人”和“周樟寿”等词语实体)，进一步基于本发明中预先训练好的分类器模型利用答案实体生成以自然语言形式表达的答案。自然语言答案提供设备602可以包括显示器、扬声器等，以通过各种方式将自然语言形式的答案推送给用户。

以上详细描述了根据本发明实施例的自然语言问答系统。根据本发明实施例的自然语言问答系统，能够从简单数据逐步过渡到困难数据进行训练，以使得机器更高效且准确地完成机器学习，由此得到准确的训练模型，从而向用户提供更加准确且流利的以自然语言方式表达的答案。

试验验证

下面，本发明对采用不同的实例选择方式对第一类实例和第二类实例进行组合，然后利用不同的实例组合方式的训练数据进行训练得到训练模型后，利用该训练好的模型在自然问答系统中提供答案的质量进行测试，以评价各种实例组合方式所对应的训练模型的性能高低。具体地，各种实例选择方式如下表2所示。

表2

首先，本发明以自动评估方法来验证训练模型的训练质量。例如，可以基于准确率(Accuracy)和词重叠(WBM)来判断利用经训练的模型提供的自然语言答案的性能。准确率可以评估答案包含标准答案实体情况，而词重叠可以评估生成答案与标准答案之间词重叠的情况。测试结果如下表3所示。

表3

如表3所示，对应于本发明提出的基于课程学习理论来选择第一类实例和第二类实例进行组合并且进行排序所得到的训练数据的训练模型在大部分指标上取得最好结果，例如，以Grammar-CL组合的方式训练后所得到的答案在准确率上比现有的方法的高约6.8％。

此外，本发明以人工评估方法来进一步验证训练模型的训练质量。例如，可以基于准确性(correctness)、流利性(fluency)和一致性(coherence)来判断利用经训练的机器所提供的自然语言答案的性能。准确性可以评估答案正确与否，流利性可以评估生成句子的自然程度与语法好坏，一致性可以评估生成答案与问题的一致性。测试结果如下表4所示。

表4

如表4所示，对应于本发明提出的基于课程学习理论来选择第一类实例和第二类实例进行组合并且进行排序所得到的训练数据的训练模型在大部分指标上取得最好结果。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本发明中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤，某些步骤可以并行、彼此独立或按照其它适当的顺序执行。另外，诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。

还需要指出的是，在本发明的装置和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其它方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种提供用于自然语言问答系统的训练数据的方法，包括：

接收原始训练数据，所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案；

确定所述多个答案的数据质量；

基于所述数据质量，将所述多个答案标记为第一类实例或第二类实例；

从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合；

对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据，其中

所述第一类实例在经排序的所述多个实例组合中的比例单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例单调减少。

2.根据权利要求1所述的方法，其中，所述确定所述多个答案的数据质量包括：

对所述多个答案进行词法分析，确定其中出现的各个词语的词频；以及

基于所述各个词语的词频，将所述多个答案标记为高质量答案或低质量答案。

3.根据权利要求2所述的方法，其中，所述基于所述词频将所述多个答案标记为高质量答案或低质量答案包括：

将所述各个词语的词频和预定的词频阈值比较，将所述各个词语标记为高频词、低频词和极低频词其中之一；

将所述多个答案中的包含低频词的答案确定为高质量答案；以及

将所述多个答案中的仅包含高频词和/或极低频词而不包含低频词的答案确定为低质量答案。

4.根据权利要求1所述的方法，其中，所述确定所述多个答案的数据质量包括：

对所述多个答案进行句法分析，确定所述多个答案的语句得分；以及

基于所述语句得分，将所述多个答案标记为高质量答案或低质量答案。

5.根据权利要求4所述的方法，其中，所述基于所述语句得分将所述多个答案标记为高质量答案或低质量答案包括：

确定所述多个答案的语句长度；

基于所述语句长度，对所述多个答案的语句得分加权；以及

基于加权后的语句得分，将所述多个答案标记为高质量答案或低质量答案。

6.根据权利要求2-5中任一项所述的方法，其中，所述基于所述数据质量将所述多个答案标记为第一类实例或第二类实例包括：

将高质量答案标记为第一类实例；以及

将低质量答案标记为第二类实例。

7.根据权利要求2-5中任一项所述的方法，其中，在经排序的所述多个实例组合中的第一实例组合中，所述第一类实例少于所述第二类实例，在经排序的所述多个实例组合中的最后一个实例组合中，所述第一类实例多于所述第二类实例。

8.根据权利要求7所述的方法，其中，所述第一类实例在经排序的所述多个实例组合中的比例的增长率随着经排序的所述多个实例组合的编号单调增加并且所述第二类实例在经排序的所述多个实例组合中的比例的降低率随着经排序的所述多个实例组合的编号单调增加。

9.根据权利要求8所述的方法，其中，所述第一类实例和第二类实例在经排序的所述多个实例组合中的比例与经排序的所述多个实例组合的编号满足指数函数关系。

10.根据权利要求8所述的方法，其中，所述第一类实例和第二类实例在经排序的所述多个实例组合中的比例与经排序的所述多个实例组合的编号满足幂函数关系。

11.一种提供用于自然语言问答系统的训练数据的设备，包括：

数据接收单元，配置为接收原始训练数据，所述原始训练数据包括问题答案对形式的至少一个问题和相对应的多个答案；

质量确定单元，配置为确定多个答案的数据质量；

标记单元，配置为基于所述数据质量将所述多个答案标记为第一类实例或第二类实例；

组合单元，配置为从所述多个答案中选择第一类实例和第二类实例进行组合，以获得多个实例组合；

排序单元，配置为对所述多个实例组合进行排序，经排序的所述多个实例组合分别对应于自然语言问答系统在时间顺序上的各次训练的训练数据；以及

训练数据提供单元，配置为向自然语言问答系统提供所述经排序的所述多个实例组合，其中

12.一种提供用于自然语言问答系统的训练数据的设备，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，当所述计算机可读指令被所述处理器运行时执行根据权利要求1-10任一项所述的提供用于自然语言问答系统的训练数据的方法。

13.一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时执行根据权利要求1-10任一项所述的提供用于自然语言问答系统的训练数据的方法。

14.一种自然语言问答系统，包括：

自然语言问答训练设备，配置为从根据权利要求11或12所述的提供用于自然语言问答系统的训练数据的设备接收训练数据，并且利用所述训练数据进行机器学习；以及

自然语言答案提供设备，配置为接收用户输入的问题，并且利用被训练的机器以自然语言形式提供与用户输入的问题对应的答案。