CN110413755A

CN110413755A - 一种问答库的扩充方法、装置及服务器、存储介质

Info

Publication number: CN110413755A
Application number: CN201910675047.0A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-05

Abstract

本发明实施例公开了一种问答库的扩充方法、装置及服务器、存储介质，其中，所述方法可应用于人工智能领域的机器人问答技术，该方法包括：对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。进一步地，可以获取至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而将第一目标问答对存储至问答库。采用这样的方式，可以基于问答库中现有的数据扩充问答库中的问答对，提高问答库对应问答系统的准确度。

Description

一种问答库的扩充方法、装置及服务器、存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种问答库的扩充方法、装置及服务器、存储介质。

背景技术

人机交互(Human–Computer Interaction，HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如车载语音系统、智能音箱、智能客服、儿童陪伴机器人等产品等。这些智能产品均可以通过问答系统和用户进行聊天交流，并根据用户的问题生成相应的答案。其中，问答知识库对于问答系统至关重要，问答知识库中问答对的丰富程度直接影响问答系统输出答案的准确性。

目前，大多数问答库的扩充，通常采用大量挖掘外部知识，引入新的问题和新的答案的方式。采用这样的方式，不仅扩充成本高，且由于仅增加问答库的广度，并未增加对单一问题的深度，对单一的问题而言，无法准确找到该问题对应的问答对儿，从而输出准确的答案。因此，如何扩充问答库，提高问答系统输出答案的准确度，成为一个亟待解决的问题。

发明内容

本发明实施例提供了一种问答库的扩充方法、装置及服务器、存储介质，可以扩充问答库，提高问答库对应问答系统的准确度。

一方面，本发明实施例提供了一种问答库的扩充方法，包括：

对所述问答库中的各个问题进行聚类，并将聚类为同一类的问题与所述同一类的问题各自对应的答案进行组合，得到至少一个第一问答对；

获取所述至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从所述至少一个第一问答对中确定出第一目标问答对；

将所述第一目标问答对存储至所述问答库。

另一方面，本发明实施例提供了一种问答库的扩充装置，包括：

聚类模块，用于对所述问答库中的各个问题进行聚类，并将聚类为同一类的问题与所述同一类的问题各自对应的答案进行组合，得到至少一个第一问答对；

处理模块，用于获取所述至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从所述至少一个第一问答对中确定出第一目标问答对；

存储模块，用于将所述第一目标问答对存储至所述问答库。

相应地，本发明实施例还提供了一种服务器，包括：处理器和存储装置；所述存储装置，用于存储程序指令；所述处理器，调用所述程序指令，用于执行：对所述问答库中的各个问题进行聚类，并将聚类为同一类的问题与所述同一类的问题各自对应的答案进行组合，得到至少一个第一问答对；获取所述至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从所述至少一个第一问答对中确定出第一目标问答对；将所述第一目标问答对存储至所述问答库。

相应地，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述的各方法。

本发明实施例中，可以对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。进一步地，可以获取至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而将第一目标问答对存储至问答库。采用这样的方式，可以基于问答库中现有的数据扩充问答库中的问答对，提高问答库对应问答系统的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种问答库的扩充系统的结构示意图；

图2是本发明实施例的一种问题-答案模块实现问答库扩充的流程示意图；

图3是本发明实施例的一种答案-问题模块实现问答库扩充的流程示意图；

图4是本发明实施例的一种问答库的扩充的流程示意图；

图5是本发明实施例的另一种问答库的扩充的流程示意图；

图6是本发明实施例的一种问答库的扩充装置的结构示意图；

图7是本发明实施例的一种服务器的结构示意图。

具体实施方式

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

其中，自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，机器人问答技术是自然语言处理技术应用的一个重要技术。机器人问答技术主要应用于问答系统，使得问答系统可以根据用户输入的问题自动输出相应的答案。其中，问答知识库对于问答系统而言至关重要，问答知识库中问答对的丰富程度直接影响问答系统输出答案的准确性和丰富性。

本申请实施例提供的方案涉及人工智能的机器人问答技术，一方面可以通过问答库中的问题实现对问答库中的问答对的扩充，另一方面还可以通过问答库中的答案实现对问答库中的问答对的扩充。两方面的扩充可以相互结合，相互迭代，相较于单一的增加问题句式的方式扩充问答对，采用本发明实施例可以从更多维度的基于已有数据对问答库中的问答对做更丰富的扩充，从而提高问答系统输出答案的丰富性和准确性。具体通过如下实施例进行说明：

请参见图1，本发明实施例中提出了一种问答库的扩充系统，该扩充系统包括问题-答案模块和答案-问题模块，其中，问题-答案模块用于通过问答库中的问题去扩充问答库中的问答对，答案-问题模块用于通过问答库中的答案去扩充问答库中的问答对。该扩充系统通过将问题-答案模块和答案-问题模块结合，形成闭环，两个模块的输出结果相互迭代补充，极大丰富问答库中问答对的数量。采用这样的方式，可以在不引入额外的数据和外部知识的前提下，充分挖掘问答库现有数据，自动扩充问答库中答案和问题组成的问答对，增强问答库对问题的回答能力，提高问答库对应问答系统的准确度和多样性。

在一个实施例中，该问题-答案模块通过问答库中的问题去扩充问答库中的问答对的具体流程可以参见图2所示，该流程可以包括组合模式对应的流程和生成模式对应的流程。在一个实施例中，该组合模式对应的流程可以为：从问答库中获取所有问题，调用第一聚类模型对所有问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个问答对。进一步地，可以调用第一分类模型确定上述至少一个问答对中各个问答对的可信度，并从上述至少一个问答对中将可信度大于或者等于第一预设可信度阈值的问答对确定为候选问答对，经过人工过滤，从候选问答对中筛选出第一目标问答对，进而将该第一目标问答对存储至问答库，从而实现对问答库中问答对的扩充。

其中，在一个实施例中，当该第一预设可信度阈值满足预设可信度阈值条件时(例如，该第一预设可信度阈值较高，大于或者等于某一预设阈值时)，图2中人工过滤的流程可以省去。其中，该第一预设可信度阈值和该某一预设阈值均可以开发人员根据实验数据预先设置，后续可以根据实际需求进行调整，本发明实施例对此不作具体限定。

在一个实施例中，该生成模式对应的流程可以为：从问答库中获取问题，并调用预训练得到的第一序列生成模型确定该问题对应的至少一个文本序列，以及至少一个文本序列中各个文本序列的置信度，并将至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为该问题对应的新增答案，进而生成由该问题和新增答案组成的问答对，经过人工过滤，从该问题和新增答案组成的问答对中筛选出第一目标问答对，进而将该第一目标问答对存储至问答库，从而实现对问答库中问答对的扩充。

可以看出，组合模式和生成模式均可以通过问答库中的问题实现对问答库中问答对的扩容，两种模式各自对应流程可以是相互独立执行的。在问题-答案模块中，通过组合模式和生成模式可以快速生成大量基于已有问答库而挖掘出来的新的问答对补充到问答库中。其中，由于问题-答案模块对应的生成模式可以生成新的答案(即上述新增答案)，因此问答库中答案的数目将会增多，从而可以为答案-问题模块提供更多的答案，两者相互迭代。

在一个实施例中，该答案-问题模块通过问答库中的答案扩充问答库中的问答对的具体流程可以参见图3所示，该流程可以包括组合模式对应的流程和生成模式对应的流程。在一个实施例中，该图3中组合模式对应的流程可以为：从问答库中获取所有答案，调用第二聚类模型对所有答案进行聚类，并将聚类为同一类的答案与同一类的答案各自对应的问题进行组合，得到至少一个问答对。进一步地，可以调用第二分类模型确定上述至少一个问答对中各个问答对的可信度，并从上述至少一个问答对中将可信度大于或者等于第二预设可信度阈值的问答对确定为候选问答对，经过人工过滤，从候选问答对中筛选出第二目标问答对，进而将该第二目标问答对存储至问答库，从而实现对问答库中问答对的扩充。

其中，在一个实施例中，当该第二预设可信度阈值满足预设可信度阈值条件时(例如，该第二预设可信度阈值较高，大于或者等于某一预设阈值时)，图2中人工过滤的流程可以省去。其中，该第二预设可信度阈值和该某一预设阈值均可以开发人员根据实验数据预先设置，后续可以根据实际需求进行调整，本发明实施例对此不作具体限定。

在一个实施例中，该图3中生成模式对应的流程可以为：从问答库中获取答案，并调用预训练得到的第二序列生成模型确定该答案对应的至少一个文本序列，以及答案对应的至少一个文本序列中各个文本序列的置信度，并将该答案对应的至少一个文本序列中置信度大于或者等于第二置信度阈值的文本序列确定为该答案对应的新增问题，进而生成由该答案和新增问题组成的问答对，经过人工过滤，从该答案和新增问题组成的问答对中筛选出第二目标问答对，进而将该第二目标问答对存储至问答库，从而实现对问答库中问答对的扩充。

在答案-问题模块中，通过组合模式和生成模式均可以实现通过问答库中的答案对问答库中问答对的扩容，两种模式各自对应流程可以是相互独立执行的。在答案-问题模块中，通过组合模式和生成模式可以快速生成大量基于已有问答库而挖掘出来的新的问答对补充到问答库中。其中，由于答案-问题模块对应的生成模式可以生成新的问题(即上述新增问题)，因此，问答库中问题的数目将会增多，从而可以为问题-答案模块提供更多的问题，两者相互迭代，极大丰富问答库中问答对的数量。

通过以上内容可以看出，问题-答案模块和答案-问题模块扩充问答库各自对应的具体流程中均可以包括三类模型：聚类模型、分类模型和序列生成模型。其中，该聚类模型是无监督的，不依赖预先定义的类或带类标记的训练实例，也即，不需要专门训练，该聚类模型可以是任何一种能对文本进行聚类的模型，例如k均值聚类模型(k-means clusteringalgorithm，K-means)和高斯混合聚类模型(Mixture of Gaussian Models，GMM)等。

对于分类模型而言，输入问答对，输出的结果可以为该问答对是正确组合的可信度，或者也可以理解为问答对是正确组合的概率。示例性地，该分类模型既可以简单的支持向量机(Support Vector Machine，SVM)、逻辑回归(Logistic Regression，LR)等模型，也可以为复杂的神经网络，尤其是带有注意力机制的神经网络模型。针对该分类模型的训练，在一个实施例中，可以将问答对中的答案和问题拼接在一起，作为训练样本输入分类模型，进而进行文本分类。在另一个实施例中，可以将问答对中的问题和答案分别经过特征筛选，提取出问答对中的问题和答案各自对应的特征信息，然后在最后的输出端进行对该问答对中问题和答案各自对应的特征信息进行相似度计算，变成一个回归模型，可以将计算得到的特征相似度的值离散化到0-1上，变成分类问题。其中，0代表不相似，1代表相似。示例性地，假设某一问答对A输入分类模型后，计算得到的该问答对A中的答案和问题之间的特征相似度的值离散化到1上，可以确定问答对A中的答案和问题相似，从而可以确定该问答对是正确组合的可信度为100％。

在一个实施例中，序列生成模型可以为(Sequence to Sequence，Seq2Seq)模型，该Seq2Seq模型是一个Encoder–Decoder结构的网络，它的输入是一个序列，输出也是一个序列，Encoder中将一个可变长度的信号序列变为固定长度的向量表达，Decoder将这个固定长度的向量变成可变长度的目标的信号序列。在本发明实施例，序列生成模型可以生成多个序列。

可以理解的是，问题-答案模块和答案-问题模块虽然均包括上述三种类别的模型，但在问题-答案模块和答案-问题模块中，第一聚类模型和第二聚类模型不同，第一分类模型和第二分类模型不同，第一序列生成模型和第二序列生成模型也不同，上述不同，可以为模型中的具体参数不同，也可以为模型所采用的模型结构不同。例如，均是分类模型，第一分类模型采用SVM模型结构，第二分类模型采用LR模型结构。其中，第一聚类模型是对问题进行聚类，进而找到回答一类问题的不同答案，第二聚类模型是对答案进行聚类，进而找到回答一类答案的不同问题。第一序列生成模型和第二序列生成模型各自对应的生成机制不同，第一序列生成模型是通过问题生成答案，第二序列生成模型是通过答案生成问题，因此，对于第一序列生成模型和第二序列生成模型而言，需要单独训练。

再请参见图4是本发明实施例的一种问答库的扩充的流程示意图，本发明实施例的所述方法可以由服务器来执行。本发明实施例的所述方法包括如下步骤。

S401：对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。

在一个实施例中，问答库中存储有多个问题和答案，其中，问题和答案在问答库中的对应关系可以是一对一的对应关系，也可以是多对多的对应关系。在进行自动问答的过程中，相似的问题可以用同一类或者不同类的答案来回复，同样，相似的答案也可以回复看起来很不同的问题。比如当问题很主观，或者客观问题的答案不唯一时。

示例性地，例如一个客观问题为：大熊猫有哪些习性，这个客观问题对应的答案可以是简明扼要地阐述大熊猫的生活习惯，也可以是诙谐地调侃大熊猫的某些点(比如懒、萌等)。又例如，一个主观问题为：柴犬为什么惹人喜爱，该主观问题对应的答案就更多样了，可以是因为它笑起来很萌，也可以因为它长得很可爱。再例如，对于一个答案：颜值高，唱歌好听呀，既可以回答“王力宏为什么这么红”这一问题，也可以回答“梁静茹怎么火起来的”这一问题。

可以看出，问答库中的有些问题的答案，也可以成为其他问题的答案，组成新的问答对。在一个实施例中，服务器可以获取问答库中的所有问题，并调用聚类模型对获取到的各个问题进行聚类，将属于同一类的问题与属于该同一类的其它问题的各自对应的答案进行组合，从而组合得到至少一个第一问答对。

示例性地，假设问答库中包括的问题和答案的对应关系如表1所示，服务器可以获取问答库中的所有问题Q1、Q2和Q3，调用聚类模型对获取到的各个问题进行聚类，聚类结果为：Q1和Q3为属于同一类的问题，Q2单独为一类。针对这种情况，服务器可以将Q1与同一类的问题Q3对应的答案进行组合，将Q3与同一类的问题Q1对应的答案进行组合，组合得到4个第一问答对，分别为(Q1，A5)、(Q1，A6)、(Q3，A1)以及(Q3，A2)。

表1

其中，该聚类模型可以是任何一种能对文本进行聚类的模型，例如k均值聚类模型(k-means clustering algorithm，K-means)和高斯混合聚类模型(Mixture of GaussianModels，GMM)等。

S402：获取至少一个第一问答对中各个第一问答对的可信度，并根据各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对。

S403：将第一目标问答对存储至问答库。

在一个实施例中，服务器可以调用第一分类模型确定出至少一个第一问答对中各个第一问答对的可信度，并将至少一个第一问答对中可信度大于或者等于预设可信度阈值的第一问答对确定为第一目标问答对，进而将该第一目标问答对存储至问答库，从而实现对问答库中问答对的扩充。

在一个实施例中，服务器可以调用第一分类模型提取各个第一问答对中问题和答案各自对应的特征信息，并计算各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度，进而基于各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度，确定各个第一问答对的可信度。该可信度表征了第一问答对中问题和答案为正确组合的概率。

其中，第一问答对中问题和答案各自对应的特征信息之间的特征相似度越高，那么，该第一问答对的可信度则越高。在一个实施例中，可以将该特征相似度直接等价于可信度，例如，某一第一问答对QA1中问题和答案各自对应的特征信息之间的特征相似度为90％，则可以直接确定该第一问答对QA1的可信度为90％。在另一个实施例中，也可以基于预设转换规则，将该特征相似度转换为可信度，本发明实施例对此不做具体限定。

在一个实施例中，服务器可以从至少一个第一问答对中选取出可信度大于或者等于预设可信度阈值的候选问答对，若预设可信度阈值满足预设可信度阈值条件，则将候选问答对确定为第一目标问答对，若预设可信度阈值不满足预设可信度阈值条件，则输出候选问答对，并基于针对候选问答对的选取操作从候选问答对中确定出第一目标问答对。

其中，在一个实施例中，预设可信度阈值条件可以为上述预设可信度阈值大于或者等于预设可信度上线阈值。其中，该预设可信度阈值以及预设可信度上线阈值，均可以为开发人员预先根据实验测算数据设置的，后续可以根据实际设计需求进行调整。

在一个实施例中，若服务器检测到预设可信度阈值不满足预设可信度阈值条件，则可以通过预先建立通信连接的终端设置输出该候选问答对，当用户通过终端设备查看该候选问答对后，可以对候选问答对进行人工过滤，针对候选问答对输入选取操作，服务器可以基于该针对候选问答对的选取操作从候选问答对中确定出第一目标问答对。其中，该选取操作的输入方式可以为触控、点击、按压、语音等，本发明实施例对此不做具体限定。

进一步地，一个问题对应的答案可以更加多样化，不只局限在问答库已有的答案里。在一个实施例中，服务器可以从问答库中获取第一问题，并调用第一序列生成模型确定第一问题对应的至少一个文本序列，以及至少一个文本序列中各个文本序列的置信度，该第一问题为问答库中存储的至少一个问题中的任一个。进一步地，服务器可以将第一问题对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为第一问题对应的新增答案，生成由第一问题和新增答案组成的新问答对，并将由第一问题和新增答案组成的新问答对存储至问答库。其中，上述各个文本序列的置信度表征了各个文本序列为第一问题对应答案的概率，文本序列的置信度置越高，则该文本序列为第一问题对应答案的概率则越高。

基于上述相似的方法，服务器可以生成问答库中所有问题对应的上述新问答对。采用这样的方式，通过第一序列生成模型生成问答库中各个问题各自对应新增答案，可以增加问答库中答案的数量，使得一个问题对应的答案更加多样化，不只局限在问答库已有的答案里。

在一个实施例中，上述第一序列生成模型可以为Seq2Seq模型，服务器可以将第一问题作为该Seq2Seq模型的输入，Seq2Seq模型可以自动输出该第一问题对应的至少一个文本序列，以及至少一个文本序列中各个文本序列的置信度。

在一个实施例中，服务器将第一问题对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为第一问题对应的新增答案，并生成由第一问题和新增答案组成的新问答对之后，可以通过预先建立通信连接的终端设备输出该由第一问题和新增答案组成的新问答对，由用户进行人工过滤，并将人工过滤后的新问答对存储至问答库中。

或者，生成由第一问题和新增答案组成的新问答对之后，服务器可以判断该第一置信度阈值是否大于第一置信度上线阈值，若是，则直接将该由第一问题和新增答案组成的新问答对存储至问答库；若否，则通过预先建立通信连接的终端设备输出该由第一问题和新增答案组成的新问答对，由用户进行人工过滤，并将人工过滤后的新问答对存储至问答库中。

在一个实施例中，服务器通过问答库中的问题对问答库中问答对进行扩容后，若接收到用户输入的任一个待答问题，则可以在问答库中查询与该待答问题对应的目标答案，相比于扩容前，扩容后的该待答问题对应的目标答案的数量增多。针对这种情况，在一个实施例中，服务器可以将该待答问题对应的所有目标答案均输出，供用户选择，采用这样的方式，由于扩容后该待答问题对应目标答案的数量增多，不仅可以提高输出答案的丰富性，还可以提高输出答案的准确性。

或者，在另一个实施例中，服务器在问答库中查询到与该待答问题对应的目标答案之后，可以从该待答问题对应的所有目标答案中随机选取出预设数量阈值的待输出答案，并输出该预设数量阈值的待输出答案，供用户选择。采用这样的方式，由于扩容后该待答问题对应目标答案的数量增多，可以降低输出的待输出答案的重复度，提高输出的该待输出答案的新颖性。

在一个实施例中，服务器通过问答库中的问题对问答库中问答对进行扩容后，若接收到用户输入的任一个待答问题，可以基于该待答问题的语义信息与问答库中各个问题的语义信息进行相似度对比，得到待答问题与问答库中各个问题的语义相似度。进一步地，服务器可以从各个语义相似度中确定出最高语义相似度，若该最高语义相似度大于或者等于预设语义相似度阈值，则将该最高语义相似度对应的问题确定为该待答问题对应的目标问题，并将问答库中该目标问题对应的答案确定为待答问题的目标答案，进而输出该目标答案。

或者，若该最高语义相似度小于预设语义相似度阈值，则无法确定出待答问题的目标答案，可以输出提示信息，该提示信息用于提示用户未查询到该待答问题的目标答案。

在另一个实施例中，若服务器接收到用户输入的任一个待答问题，可以基于该待答问题中各个字符与问答库中各个问题的字符进行相似度对比，得到待答问题与问答库中各个问题的字符相似度。进一步地，服务器可以从各个字符相似度中确定出最高字符相似度，若该最高字符相似度大于或者等于预设字符相似度阈值，则将该最高字符相似度对应的问题确定为该待答问题对应的目标问题，并将问答库中该目标问题对应的答案确定为待答问题的目标答案，进而输出该目标答案。

示例性地，假设待答问题为“周杰伦是谁”，问答库中存储有一个问题A1“周杰是谁”，从语义层面来看，待答问题“周杰伦是谁”和问题A1“周杰是谁”是两个截然不同的问题，所对应的答案完全不同。针对这种情况，若服务器基于该待答问题的语义信息与问题的语义信息进行相似度对比，可以得到待答问题与该问题A1之间的语义相似度。

从字符层面来看，待答问题“周杰伦是谁”和问题A1“周杰是谁”中的字符“周”、“杰”、“是”和“谁”均相同，可以视为两个字符相似度较高的两个问题。针对这种情况，若服务器将待答问题中的各个字符与问题A1中的各个字符进行相似度对比，可以得到待答问题与问题A1的字符相似度。可以看出，对于待答问题“周杰伦是谁”和问题A1“周杰是谁”而言，从语义层面和字符层面，所得到的两者之间的相似度不同，两者之间的字符相似度高于语义相似度，在这种情况下，从语义层面确定出的待答问题的目标答案更加准确。

本发明实施例中，可以对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。进一步地，可以获取至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而将第一目标问答对存储至问答库。采用这样的方式，可以基于问答库中现有的问题扩充问答库中的问答对，提高问答库对应问答系统的准确度。

再请参见图5是本发明实施例的另一种问答库的扩充方法的流程示意图，本发明实施例的所述方法可以由服务器来执行。本发明实施例的所述方法包括如下步骤。

S501：对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。

S502：获取至少一个第一问答对中各个第一问答对的可信度，并根据各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而将第一目标问答对存储至问答库。其中，步骤S501～步骤S502的具体实施方式，可以参见上述实施例中步骤S401～步骤S403的相关描述，此处不再赘述。

S503：对问答库中的各个答案进行聚类，并将聚类为同一类的答案与同一类的答案各自对应的问题进行组合，得到至少一个第二问答对。

S504：获取至少一个第二问答对中各个第二问答对的可信度，并根据各个第二问答对的可信度从至少一个第二问答对中确定出第二目标问答对。

S505：将第二目标问答对存储至上述问答库。

在自动问答中，同一个答案可以回复多个不同的问题，例如，对于同一个答案“颜值高，唱歌好听呀”，既可以回答“王力宏为什么这么红”这一问题，也可以回答“梁静茹怎么火起来的”这一问题。因此不仅可以执行步骤S501～步骤S502，通过问答库中的问题实现对问答库中问答对的扩充，还可以执行步骤S503～步骤S505，通过问答库中的答案再次扩充问答库中的问答对，两种扩充方式相互结合，相互迭代，可以极大丰富问答库中问答对的数量。采用这样的方式，可以在不引入额外的数据和外部知识的前提下，充分挖掘问答库现有数据，自动扩充问答库中答案和问题组成的问答对，增强问答库对问题的回答能力，提高问答库对应问答系统的准确度和多样性。

在一个实施例中，服务器可以获取问答库中的所有答案，并调用聚类模型对获取到的各个答案进行聚类，将属于同一类的答案与属于该同一类的其它答案的各自对应的问题进行组合，从而组合得到至少一个第二问答对。

示例性地，假设问答库中包括的问题和答案的对应关系如表2所示，服务器可以获取问答库中的所有答案A1、A2和A3，调用聚类模型对获取到的各个答案进行聚类，聚类结果为：A1和A3为属于同一类的答案，A2单独为一类。针对这种情况，服务器可以将A1与同一类的答案A3对应的问题进行组合，将A3与同一类的答案A1对应的问题进行组合，组合得到4个第二问答对，分别为(A1，Q5)、(A1，Q6)、(A3，Q1)以及(A3，Q2)。

表2

在一个实施例中，服务器可以调用第二分类模型确定出至少一个第二问答对中各个第二问答对的可信度，并将至少一个第二问答对中可信度大于或者等于预设可信度阈值的第二问答对确定为第二目标问答对，进而将该第二目标问答对存储至问答库，从而实现通过答案对问答库中问答对的扩充。

在一个实施例中，服务器可以调用第二分类模型提取各个第二问答对中问题和答案各自对应的特征信息，并计算各个第二问答对中问题和答案各自对应的特征信息之间的特征相似度，进而基于各个第二问答对中问题和答案各自对应的特征信息之间的特征相似度，确定各个第二问答对的可信度。该可信度表征了第二问答对中问题和答案为正确组合的概率。

其中，第二问答对中问题和答案各自对应的特征信息之间的特征相似度越高，那么，该第二问答对的可信度则越高。在一个实施例中，可以将该特征相似度直接等价于可信度，例如，某一第二问答对QA1中问题和答案各自对应的特征信息之间的特征相似度为90％，则可以直接确定该第二问答对QA1的可信度为90％。在另一个实施例中，也可以基于预设转换规则，将该特征相似度转换为可信度，本发明实施例对此不做具体限定。

在一个实施例中，服务器可以从至少一个第二问答对中选取出可信度大于或者等于预设可信度阈值的该第二问答对对应的候选问答对，若预设可信度阈值满足预设可信度阈值条件，则将该第二问答对对应的候选问答对确定为第二目标问答对，若预设可信度阈值不满足预设可信度阈值条件，则输出该第二问答对对应的候选问答对，并基于针对该第二问答对对应的候选问答对的选取操作从候选问答对中确定出第二目标问答对。

在一个实施例中，若服务器检测到预设可信度阈值不满足预设可信度阈值条件，则可以通过预先建立通信连接的终端设置输出该第二问答对对应的候选问答对，当用户通过终端设备查看该第二问答对对应的候选问答对后，可以对第二问答对对应的候选问答对进行人工过滤，针对第二问答对对应的候选问答对输入选取操作，服务器可以基于该针对第二问答对对应的候选问答对的选取操作从候选问答对中确定出第二目标问答对。其中，该选取操作的输入方式可以为触控、点击、按压、语音等，本发明实施例对此不做具体限定。

进一步地，一个答案对应的问题可以更加多样化，不只局限在问答库已有的问题里。在一个实施例中，服务器可以从问答库中获取第一答案，并调用第二序列生成模型确定第一答案对应的至少一个文本序列，以及第一答案对应的至少一个文本序列中各个文本序列的置信度，该第一答案为问答库中存储的至少一个答案中的任一个。进一步地，服务器可以将第一答案对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为第一答案对应的新增问题，并生成由第一答案和新增问题组成的新问答对，进而将由第一答案和新增问题组成的新问答对存储至问答库。其中，上述第一答案对应的各个文本序列的置信度表征了各个文本序列为第一答案对应问题的概率，文本序列的置信度置越高，则该文本序列为第一答案对应问题的概率则越高。

基于上述相似的方法，服务器可以生成问答库中所有答案对应的上述新问答对。采用这样的方式，通过第二序列生成模型生成问答库中各个答案各自对应新增问题，可以增加问答库中问题的数量，使得一个答案对应的问题更加多样化，不只局限在问答库已有的问题里。

在一个实施例中，服务器将第一答案对应的至少一个文本序列中置信度大于或者等于第二置信度阈值的文本序列确定为第一答案对应的新增问题，并生成由第一答案和新增问题组成的新问答对之后，可以通过预先建立通信连接的终端设备输出该由第一答案和新增问题组成的新问答对，由用户进行人工过滤，并将人工过滤后的新问答对存储至问答库中。

或者，生成由第一答案和新增问题组成的新问答对之后，服务器可以判断该第二置信度阈值是否大于第二置信度上线阈值，若是，则直接将该由第一答案题和新增问题组成的新问答对存储至问答库；若否，则通过预先建立通信连接的终端设备输出该由第一答案和新增问题组成的新问答对，由用户进行人工过滤，并将人工过滤后的新问答对存储至问答库中。

本发明实施例中，可以对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。进一步地，可以获取至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而将第一目标问答对存储至问答库。进一步地，还可以对问答库中的各个答案进行聚类，并将聚类为同一类的答案与同一类的答案各自对应的问题进行组合，得到至少一个第二问答对，获取至少一个第二问答对中各个第二问答对的可信度，并根据各个第二问答对的可信度从至少一个第二问答对中确定出第二目标问答对，进而将第二目标问答对存储至上述问答库。可以结合通过问题扩充问答库和通过答案扩充问答库的两种方式，在不引入额外的数据和外部知识的前提下，充分挖掘问答库现有数据，自动扩充问答库中答案和问题组成的问答对，增强问答库对问题的回答能力，提高问答库对应问答系统的准确度和多样性。

本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图6，是本发明实施例的一种问答库的扩充装置的结构示意图，本发明实施例的所述问答库的扩充装置可以设置在服务器中，或者也可以设置一些软硬件资源较为丰富的智能终端中，例如一些个人电脑中。

本发明实施例的所述装置的一个实现方式中，所述装置包括如下结构。

聚类模块60，用于对所述问答库中的各个问题进行聚类，并将聚类为同一类的问题与所述同一类的问题各自对应的答案进行组合，得到至少一个第一问答对；

处理模块61，用于获取所述至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从所述至少一个第一问答对中确定出第一目标问答对；

存储模块62，用于将所述第一目标问答对存储至所述问答库。

在一个实施例中，处理模块61，还用于从所述问答库中获取第一问题，并调用第一序列生成模型确定所述第一问题对应的至少一个文本序列，以及所述至少一个文本序列中各个文本序列的置信度，所述第一问题为所述问答库中存储的至少一个问题中的任一个；将所述第一问题对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为所述第一问题对应的新增答案；生成由所述第一问题和所述新增答案组成的新问答对，并将由所述第一问题和所述新增答案组成的新问答对存储至所述问答库。

在一个实施例中，聚类模块60，还用于对所述问答库中的各个答案进行聚类，并将聚类为同一类的答案与所述同一类的答案各自对应的问题进行组合，得到至少一个第二问答对；处理模块61，还用于获取所述至少一个第二问答对中各个第二问答对的可信度，并根据所述各个第二问答对的可信度从所述至少一个第二问答对中确定出第二目标问答对；存储模块62，还用于将所述第二目标问答对存储至所述问答库。

在一个实施例中，处理模块61，还用于从所述问答库中获取第一答案，并调用第二序列生成模型确定所述第一答案对应的至少一个文本序列，以及所述第一答案对应的至少一个文本序列中各个文本序列的置信度，所述第一答案为所述问答库中存储的至少一个答案中的任一个；将所述第一答案对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为所述第一答案对应的新增问题；生成由所述第一答案和所述新增问题组成的新问答对，并将由所述第一答案和所述新增问题组成的新问答对存储至所述问答库。

在一个实施例中，聚类模块60，具体用于调用聚类模型计算所述问答库中各个问题之间的相似度；将所述相似度大于或者等于预设相似度阈值的问题聚类为同一类的问题。

在一个实施例中，处理模块61，具体用于从所述至少一个第一问答对中选取出可信度大于或者等于预设可信度阈值的候选问答对；若所述预设可信度阈值满足预设可信度阈值条件，则将所述候选问答对确定为第一目标问答对；若所述预设可信度阈值不满足预设可信度阈值条件，则输出所述候选问答对，并基于针对所述候选问答对的选取操作从所述候选问答对中确定出第一目标问答对。

在一个实施例中，处理模块61，还具体用于调用分类模型提取所述各个第一问答对中问题和答案各自对应的特征信息，并计算所述各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度；基于所述各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度，确定所述各个第一问答对的可信度。

在本发明实施例中，上述各个模块的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。

本发明实施例中，聚类模块60对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。进一步地，处理模块61可以获取至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而存储模块62将第一目标问答对存储至问答库。采用这样的方式，可以基于问答库中现有的数据扩充问答库中的问答对，提高问答库对应问答系统的准确度。

再请参见图7，是本发明实施例的一种服务器的结构示意图，本发明实施例的所述服务器包括供电模块等结构，并包括处理器701、存储装置702以及网络接口703。所述处理器701、存储装置702以及网络接口703之间可以交互数据，由处理器701实现相应的问答库的扩充功能。

所述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置702还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器701(central processing unit，CPU)。在一个实施例中，所述处理器701还可以是图形处理器701(Graphics Processing Unit，GPU)。所述处理器701也可以是由CPU和GPU的组合。在所述服务器中，可以根据需要包括多个CPU和GPU进行相应的问答库的扩充。在一个实施例中，所述存储装置702用于存储程序指令。所述处理器701可以调用所述程序指令，实现如本发明实施例中上述涉及的各种方法。

在第一个可能的实施方式中，所述服务器的所述处理器701，调用所述存储装置702中存储的程序指令，用于对所述问答库中的各个问题进行聚类，并将聚类为同一类的问题与所述同一类的问题各自对应的答案进行组合，得到至少一个第一问答对；获取所述至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从所述至少一个第一问答对中确定出第一目标问答对；将所述第一目标问答对存储至所述问答库。

在一个实施例中，处理器701，还用于从所述问答库中获取第一问题，并调用第一序列生成模型确定所述第一问题对应的至少一个文本序列，以及所述至少一个文本序列中各个文本序列的置信度，所述第一问题为所述问答库中存储的至少一个问题中的任一个；将所述第一问题对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为所述第一问题对应的新增答案；生成由所述第一问题和所述新增答案组成的新问答对，并将由所述第一问题和所述新增答案组成的新问答对存储至所述问答库。

在一个实施例中，处理器701，还用于对所述问答库中的各个答案进行聚类，并将聚类为同一类的答案与所述同一类的答案各自对应的问题进行组合，得到至少一个第二问答对；处理器701，还用于获取所述至少一个第二问答对中各个第二问答对的可信度，并根据所述各个第二问答对的可信度从所述至少一个第二问答对中确定出第二目标问答对；处理器701，还用于通过存储装置702将所述第二目标问答对存储至所述问答库。

在一个实施例中，处理器701，还用于从所述问答库中获取第一答案，并调用第二序列生成模型确定所述第一答案对应的至少一个文本序列，以及所述第一答案对应的至少一个文本序列中各个文本序列的置信度，所述第一答案为所述问答库中存储的至少一个答案中的任一个；将所述第一答案对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为所述第一答案对应的新增问题；生成由所述第一答案和所述新增问题组成的新问答对，并将由所述第一答案和所述新增问题组成的新问答对存储至所述问答库。

在一个实施例中，处理器701，具体用于调用聚类模型计算所述问答库中各个问题之间的相似度；将所述相似度大于或者等于预设相似度阈值的问题聚类为同一类的问题。

在一个实施例中，处理器701，具体用于从所述至少一个第一问答对中选取出可信度大于或者等于预设可信度阈值的候选问答对；若所述预设可信度阈值满足预设可信度阈值条件，则将所述候选问答对确定为第一目标问答对；若所述预设可信度阈值不满足预设可信度阈值条件，则输出所述候选问答对，并基于针对所述候选问答对的选取操作从所述候选问答对中确定出第一目标问答对。

在一个实施例中，处理器701，还具体用于调用分类模型提取所述各个第一问答对中问题和答案各自对应的特征信息，并计算所述各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度；基于所述各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度，确定所述各个第一问答对的可信度。

在本发明实施例中，所述处理器701的具体实现可参考前述各个附图所对应的实施例中相关内容的描述。

本发明实施例中，通过处理器701对问答库中的各个问题进行聚类，并将聚类为同一类的问题与同一类的问题各自对应的答案进行组合，得到至少一个第一问答对。进一步地，通过处理器701获取至少一个第一问答对中各个第一问答对的可信度，并根据所述各个第一问答对的可信度从至少一个第一问答对中确定出第一目标问答对，进而通过存储装置702将第一目标问答对存储至问答库。采用这样的方式，可以基于问答库中现有的数据扩充问答库中的问答对，提高问答库对应问答系统的准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种问答库的扩充方法，其特征在于，所述方法包括：

将所述第一目标问答对存储至所述问答库。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述问答库中获取第一问题，并调用第一序列生成模型确定所述第一问题对应的至少一个文本序列，以及所述至少一个文本序列中各个文本序列的置信度，所述第一问题为所述问答库中存储的至少一个问题中的任一个；

将所述第一问题对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为所述第一问题对应的新增答案；

生成由所述第一问题和所述新增答案组成的新问答对，并将由所述第一问题和所述新增答案组成的新问答对存储至所述问答库。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

对所述问答库中的各个答案进行聚类，并将聚类为同一类的答案与所述同一类的答案各自对应的问题进行组合，得到至少一个第二问答对；

获取所述至少一个第二问答对中各个第二问答对的可信度，并根据所述各个第二问答对的可信度从所述至少一个第二问答对中确定出第二目标问答对；

将所述第二目标问答对存储至所述问答库。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

从所述问答库中获取第一答案，并调用第二序列生成模型确定所述第一答案对应的至少一个文本序列，以及所述第一答案对应的至少一个文本序列中各个文本序列的置信度，所述第一答案为所述问答库中存储的至少一个答案中的任一个；

将所述第一答案对应的至少一个文本序列中置信度大于或者等于第一置信度阈值的文本序列确定为所述第一答案对应的新增问题；

生成由所述第一答案和所述新增问题组成的新问答对，并将由所述第一答案和所述新增问题组成的新问答对存储至所述问答库。

5.根据权利要求1所述的方法，其特征在于，所述对所述问答库中的各个问题进行聚类，包括：

调用聚类模型计算所述问答库中各个问题之间的相似度；

将所述相似度大于或者等于预设相似度阈值的问题聚类为同一类的问题。

6.根据权利要求1所述的方法，其特征在于，所述根据所述各个第一问答对的可信度从所述至少一个第一问答对中确定出第一目标问答对，包括：

从所述至少一个第一问答对中选取出可信度大于或者等于预设可信度阈值的候选问答对；

若所述预设可信度阈值满足预设可信度阈值条件，则将所述候选问答对确定为第一目标问答对；

若所述预设可信度阈值不满足预设可信度阈值条件，则输出所述候选问答对，并基于针对所述候选问答对的选取操作从所述候选问答对中确定出第一目标问答对。

7.根据权利要求1所述的方法，其特征在于，所述获取所述至少一个第一问答对中各个第一问答对的可信度，包括：

调用分类模型提取所述各个第一问答对中问题和答案各自对应的特征信息，并计算所述各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度；

基于所述各个第一问答对中问题和答案各自对应的特征信息之间的特征相似度，确定所述各个第一问答对的可信度。

8.一种问答库的扩充装置，其特征在于，所述装置包括：

存储模块，用于将所述第一目标问答对存储至所述问答库。

9.一种服务器，其特征在于，包括处理器和存储装置，所述处理器和存储装置相互连接，其中，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机存储介质，其特征在于，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现如权利要求1-7任一项所述的方法。