CN114117022A

CN114117022A - 一种faq相似问题生成方法及系统

Info

Publication number: CN114117022A
Application number: CN202210089762.8A
Authority: CN
Inventors: 嵇望; 陈默; 梁青; 王伟凯; 安毫亿
Original assignee: Hangzhou Yuanchuan New Technology Co ltd
Current assignee: Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-03-01
Anticipated expiration: 2042-01-26
Also published as: CN114117022B

Abstract

本发明提供一种FAQ相似问题生成方法及系统，其中，方法包括：构建标准FAQ数据集；基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；获取待处理的FAQ数据；基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。本发明的FAQ相似问题生成方法及系统，可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ，用于后续的模型训练。

Description

一种FAQ相似问题生成方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种FAQ相似问题生成方法及系统。

背景技术

智能客服机器人，是一种使用自然语言与用户进行交流的人工智能信息系统，它采用包括自然语言理解、机器学习技术在内的多项智能人机交互技术，能够识别并理解用户以文字或语音形式提出的问题，通过语义分析理解用户意图，并以拟人化的方式与用户沟通，向用户提供信息咨询等相关服务。目前的智能客服会话的核心是进行用户意图匹配，只有明确了意图，才能给出针对性的回答，意图识别就是针对已知的训练语料(如语料格式为\((x,y)\)格式的元组列表，其中\(x\)为训练语料，\(y\)为期望输出类别或者称为意图)采用选定的算法构建一个模型，而后基于构建的模型对未知的文本进行分类。流程梳理如下：

准备训练数据，按照固定的格式进行；

抽取所需要的特征，形成特征向量；

抽取的特征向量与对应的期望输出（也就是目标label）一起输入到机器学习算法中，训练出一个预测模型；

对新到的数据采取同样的特征抽取，得到用于预测的特征向量；

使用训练好的预测模型，对处特征处理后的新数据进行预测，并返回结果。

但由于用户用词习惯或知识储备的不同，对于相同意思的问题，不同用户会采用不同的描述方式，不同的用户对于同一个意图会使用不同的表达方式，因此同一个意图的相似问题需要人工构建训练语料用于有监督的分类任务，费时费力，人工标注数据具有高昂的代价，利用有限的标注数据，获取到更多的训练数据，满足有监督模型训练的要求，训练出泛化能力更强的模型就变的极其重要。

发明内容

本发明目的之一在于提供了一种FAQ相似问题生成方法及系统，可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ，用于后续的模型训练。

本发明实施例提供的一种FAQ相似问题生成方法，包括：

构建标准FAQ数据集；

基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；

基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；

获取待处理的FAQ数据；

基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。

优选的，基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：

提取标准FAQ数据集中任一标准FAQ数据；

解析标准FAQ数据，确定第一问题数据和第一答案数据；

将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集；

将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配，获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集；

将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配，获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集；

基于第一待筛选数据集和第二待筛选数据集，构建第一相似问题数据集。

优选的，基于第一待筛选数据集和第二待筛选数据集，构建第一相似问题数据集，包括：

将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集；

将第一待筛选数据集中与第一数据集中相同的数据删除，获得第三待筛选数据集；

将第二待筛选数据集中与第一数据集中相同的数据删除，获得第四待筛选数据集；

将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配，当第一数据集中存在匹配符合项时，将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除；

将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配，当第一数据集中存在匹配符合项时，将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除；

直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时，将第一数据集作为第一相似问题数据集。

提取标准FAQ数据集中任一标准FAQ数据；

基于标准FAQ数据，生成相似问题数据获取请求；

将相似问题数据获取请求发送至大数据平台上的各个数据处理节点；

接收各个数据处理节点对于相似问题数据获取请求的反馈数据；

解析各个数据处理节点的反馈数据，获取多个第三待筛选数据；

基于第三待筛选数据对应的反馈的数据处理节点的权限值，确定各个第三待筛选数据对应的信任值，信任值的计算公式如下：

;

其中，

为信任值，

为第

个反馈数据包含第三待筛选数据的数据处理节点的权限值；

为反馈数据包含第三待筛选数据的数据处理节点的数目；

基于信任值大于预设的信任阈值的第三待筛选数据，构建第二数据集；

基于信任值小于等于预设的信任阈值的第三待筛选数据，构建第五待筛选数据集；

将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配，当同时匹配符合时，将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除；

直至第五待筛选数据集中不存在可添加至第二数据集中的数据时，将第二数据集作为第一相似问题数据集。

优选的，FAQ相似问题生成方法，还包括：

获取对于第二相似问题集的异常反馈的异常数据；

对异常数据进行验证；

当验证通过时，基于异常数据，确定异常的相似问题数据并将其从第一相似问题集中删除；

基于删除后的第一相似问题集和标准FAQ数据集，重新构建相似问题生成深度学习模型；

其中，对异常数据进行验证，包括：

基于异常数据反馈的用户的反馈值，确定异常数据的效用值，计算公式如下：

;

其中，

为效用值，

为异常数据的第

个用户的反馈值；

为异常数据的第

个用户的权限值；

为异常数据的反馈的用户的总数；

当效用值大于预设的验证阈值时，确定验证通过。

优选的，FAQ相似问题生成方法，还包括：

通过人工对异常数据的验证进行抽查，对验证错误的异常数据对应的用户的反馈值进行调整，

获取需要调整的用户的反馈值的历史调整记录；

基于历史调整记录，确定用户的反馈值的调整次数；

基于调整次数和预设的调整次数与调整值对照表，确定此次反馈值的调整值。

本发明还提供一种FAQ相似问题生成系统，包括：

数据集构建模块，用于构建标准FAQ数据集；

相似集构建模块，用于基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；

模型构建模块，基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；

获取模块，用于获取待处理的FAQ数据；

生成模块，用于基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。

优选的，相似集构建模块基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，执行如下操作：

提取标准FAQ数据集中任一标准FAQ数据；

解析标准FAQ数据，确定第一问题数据和第一答案数据；

优选的，相似集构建模块基于第一待筛选数据集和第二待筛选数据集，构建第一相似问题数据集，执行如下操作：

优选的，相似集构建模块基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：

提取标准FAQ数据集中任一标准FAQ数据；

基于标准FAQ数据，生成相似问题数据获取请求；

;

其中，

为信任值，

为第

个反馈数据包含第三待筛选数据的数据处理节点的权限值；

为反馈数据包含第三待筛选数据的数据处理节点的数目；

优选的，FAQ相似问题生成系统，还包括：重构模块，重构模块执行如下操作：

获取对于第二相似问题集的异常反馈的异常数据；

对异常数据进行验证；

其中，对异常数据进行验证，包括：

;

其中，

为效用值，

为异常数据的第

个用户的反馈值；

为异常数据的第

个用户的权限值；

为异常数据的反馈的用户的总数；

当效用值大于预设的验证阈值时，确定验证通过。

优选的，FAQ相似问题生成方法，还包括：效用调整模块，效用调整模块执行如下操作：

获取人工对异常数据的验证进行抽查的结果，对结果判定为验证错误的异常数据对应的用户的反馈值进行调整，

获取需要调整的用户的反馈值的历史调整记录；

基于历史调整记录，确定用户的反馈值的调整次数；

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种FAQ相似问题生成方法的示意图；

图2为本发明实施例中一种FAQ相似问题生成方法的异常反馈的处理示意图；

图3为本发明实施例中一种FAQ相似问题生成系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种FAQ相似问题生成方法，如图1所示，包括：

步骤S1：构建标准FAQ数据集；通过对历史项目标准FAQ数据集的收集实现构建标准FAQ数据集；对历史项目的标准FAQ文件进行分析以及预处理，获得一定量的标准FAQ数据集并插入MongoDB数据库；

步骤S2：基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；例如：可以采用spider爬虫进行相似问题数据集的爬取；通过spider爬虫基于标准FAQ数据集获取到大量的待处理的相似问题数据；

步骤S3：基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；对爬取到的相似问题数据集进行清洗、去重等操作，并转换为适配模型训练数据集的格式；设置学习率、batchsize，迭代次数等参数，进行模型训练，对不同轮次的相似问题生成模型进行生成效果验证，选择生成效果最好的模型；基于Sequence-to-Sequence(Seq2Seq)模型、bert模型和UniLM模型的构建过程，模型结构等。依据当前任务的特点构建模型的整体框架和流程，基于pytroch深度学习框架编写模型的数据处理部分、输入部分、输出部分、loss函数的计算、模型保存以及模型优化器等。其中网络结构设计，相当于是模型的假设空间，即模型能够表达的关系集合。神经网络模型学习的目的是寻找合适的参数，使得损失函数的值尽可能小。解决这个问题的过程为称为最优化。解决这个问题使用的算法叫做优化器。

步骤S4：获取待处理的FAQ数据；对模型预测代码进程工程化改造，封装成Web接口，以api服务的形式提供开发侧调用，并完成和开发侧的对接；进而获取用户的待处理的FAQ数据；

步骤S5：基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。将生成的第二相似问题数据集发送给用户；

机器人的意图识别算法主要是基于统计的文本分类算法,其特点是严重依赖于训练语料，大规模的垂直领域文本分类语料是文本分类算法的关键所在，所以构建垂直领域的文本分类训练语料对于智能机器人的意图识别至关重要，与现有人工构建相似问题FAQ相比，通过本发明的FAQ相似问题生成方法自动生成相似问题FAQ能够有效降低人工投入,处理速度更高效，大幅度减小语料训练师的投入,提升项目交付的效率。机器学习与传统编程技术的明显区别就是机器学习是以数据为驱动的，因此文本分类训练语料的质量、数量决定了文本分类机器学习模型的分类效果，此外，中文的一个意图表达方式多种多样，每个意图维护的相似语料越丰富，模型越能够学习的更好，对这个意图的语义理解能力就会越深刻，而生成相似问题的模型是基于百度百科千万级用户的语义表达问题数据学习到的模型，能生成大规模、高质量、表达方式多样化的相似问题，提升相似问题FAQ的质量，提升意图识别准确率。

在一个实施例中，基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：

提取标准FAQ数据集中任一标准FAQ数据；

解析标准FAQ数据，确定第一问题数据和第一答案数据；

将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配，获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集；匹配通过计算语义相似度，当语义相似度大于预设的阈值（例如0.85）时，可以确定两者匹配；

其中，基于第一待筛选数据集和第二待筛选数据集，构建第一相似问题数据集，包括：

将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集；当问题数据与答案数据都匹配符合时，可以确定第二问题数据为第一问题数据的相似问题数据；

将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配，当第一数据集中存在匹配符合项时，将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除；因计算机是通过计算语义相似度进行判断，因此存在实际为相似问题的数据其语义相似度并不符合要求，通过计算与第一问题数据的相似问题的语义相似度，再通过阈值判断，将这部分数据复检出，进而提高最后的第一相似问题数据集构建的全面性；

上述技术方案的工作原理及有益效果为：

通过对大数据平台上各个存储节点存储的FAQ数据进行筛选，获取标准FAQ数据中第一问题数据对应的相似问题，保证最后构建的第一相似问题集中的相似问题的数量及质量。

提取标准FAQ数据集中任一标准FAQ数据；

基于标准FAQ数据，生成相似问题数据获取请求；

;

其中，

为信任值，

为第

个反馈数据包含第三待筛选数据的数据处理节点的权限值；

为反馈数据包含第三待筛选数据的数据处理节点的数目；

上述技术方案的工作原理及有益效果为：

通过定义反馈数据中提取的第三待筛选数据的信任值，是基于数据处理节点的共识机制，进行标准FAQ数据的第一问题对应的相似问题的确定；例如：大数据平台为每个数据处理节点分配数据处理节点的权限值；分配的权限值的区间为0至5；设置的信任阈值为100，即只有反馈说同一个相似问题的数据处理节点的和值大于100时，才能信任该相似问题为真实；进而构建出第二数据集；然后对信任值不足的反馈，进行二次筛选，提高最后确定的第一相似问题数据集的全面性。

在一个实施例中，FAQ相似问题生成方法，如图2所示，还包括：

步骤S11：获取对于第二相似问题集的异常反馈的异常数据；通过对各个用户的异常反馈中的异常数据进行预处理，确定相同的异常数据，相同的异常数据进行一次验证；

步骤S12：对异常数据进行验证；

步骤S13：当验证通过时，基于异常数据，确定异常的相似问题数据并将其从第一相似问题集中删除；

步骤S14：基于删除后的第一相似问题集和标准FAQ数据集，重新构建相似问题生成深度学习模型；

其中，对异常数据进行验证，包括：

;

其中，

为效用值，

为异常数据的第

个用户的反馈值；

为异常数据的第

个用户的权限值；

为异常数据的反馈的用户的总数；

当效用值大于预设的验证阈值时，确定验证通过。

上述技术方案的工作原理及有益效果为：

通过反馈数据的用户的权限值及其对应的反馈值进行自动验证，实现了重建模块的合理触发，并且验证通过时，对应的反馈数据以被确定为真实有效，从而进行模型重建，以提高模型的准确性。其中，权限值为预先给各个用户配置；反馈值也为各个用户配置一个初始值。

在一个实施例中，FAQ相似问题生成方法，还包括：

获取需要调整的用户的反馈值的历史调整记录；

基于历史调整记录，确定用户的反馈值的调整次数；

上述技术方案的工作原理及有益效果为：

通过采用人工抽查的方式，进行验证结果的确定，并对验证结果错误的对应的用户的反馈值进行调整，以保证下次此用户参与的反馈的验证的准确性；预设的调整次数与调整值对照表中各个调整值都为负值，并且随着调整次数的增多，调整值越小；当然，反馈值调整后的数值不能小于零。

本发明还提供一种FAQ相似问题生成系统，如图3所示，包括：

数据集构建模块1，用于构建标准FAQ数据集；

相似集构建模块2，用于基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；

模型构建模块3，基于标准FAQ数据集和相似问题数据集，构建相似问题生成深度学习模型；

获取模块4，用于获取待处理的FAQ数据；

生成模块5，用于基于相似问题生成深度学习模型和待处理的FAQ数据，生成对应待处理的FAQ数据对应的第二相似问题数据集。

在一个实施例中，相似集构建模块2基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，执行如下操作：

提取标准FAQ数据集中任一标准FAQ数据；

解析标准FAQ数据，确定第一问题数据和第一答案数据；

在一个实施例中，相似集构建模块2基于第一待筛选数据集和第二待筛选数据集，构建第一相似问题数据集，执行如下操作：

在一个实施例中，相似集构建模块2基于标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：

提取标准FAQ数据集中任一标准FAQ数据；

基于标准FAQ数据，生成相似问题数据获取请求；

;

其中，

为信任值，

为第

个反馈数据包含第三待筛选数据的数据处理节点的权限值；

为反馈数据包含第三待筛选数据的数据处理节点的数目；

在一个实施例中，FAQ相似问题生成系统，还包括：重构模块，重构模块执行如下操作：

获取对于第二相似问题集的异常反馈的异常数据；

对异常数据进行验证；

其中，对异常数据进行验证，包括：

;

其中，

为效用值，

为异常数据的第

个用户的反馈值；

为异常数据的第

个用户的权限值；

为异常数据的反馈的用户的总数；

当效用值大于预设的验证阈值时，确定验证通过。

在一个实施例中，FAQ相似问题生成方法，还包括：效用调整模块，效用调整模块执行如下操作：

获取需要调整的用户的反馈值的历史调整记录；

基于历史调整记录，确定用户的反馈值的调整次数；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种FAQ相似问题生成方法，其特征在于，包括：

构建标准FAQ数据集；

基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集；

基于所述标准FAQ数据集和所述相似问题数据集，构建相似问题生成深度学习模型；

获取待处理的FAQ数据；

基于所述相似问题生成深度学习模型和所述待处理的FAQ数据，生成对应所述待处理的FAQ数据对应的第二相似问题数据集。

2.如权利要求1所述的FAQ相似问题生成方法，其特征在于，所述基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：

提取所述标准FAQ数据集中任一标准FAQ数据；

解析所述标准FAQ数据，确定第一问题数据和第一答案数据；

将所述大数据平台上各个存储节点存储的FAQ数据集作为目标数据集；

将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹配，获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛选数据并构建第一待筛选数据集；

将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹配，获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据对应的所述第二问题数据作为第二待筛选数据并构建第二待筛选数据集；

基于所述第一待筛选数据集和所述第二待筛选数据集，构建所述第一相似问题数据集。

3.如权利要求2所述的FAQ相似问题生成方法，其特征在于，所述基于所述第一待筛选数据集和所述第二待筛选数据集，构建所述第一相似问题数据集，包括：

将所述第一待筛选数据集与所述第二待筛选数据集中相同的数据作为所述标准FAQ数据的所述第一问题数据的所述相似问题数据并构建为第一数据集；

将所述第一待筛选数据集中与所述第一数据集中相同的数据删除，获得第三待筛选数据集；

将所述第二待筛选数据集中与所述第一数据集中相同的数据删除，获得第四待筛选数据集；

将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配，当所述第一数据集中存在匹配符合项时，将所述第三待筛选数据集中的所述第二答案数据对应得所述第二问题数据添加进所述第一数据集中并将其从所述第三待筛选数据集中删除；

将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述第二问题数据进行匹配，当所述第一数据集中存在匹配符合项时，将所述第四待筛选数据集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删除；

直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一数据集中的所述第二问题数据时，将所述第一数据集作为所述第一相似问题数据集。

4.如权利要求1所述的FAQ相似问题生成方法，其特征在于，所述基于所述标准FAQ数据集，从大数据平台上获取相似问题数据并构建第一相似问题数据集，包括：

提取所述标准FAQ数据集中任一标准FAQ数据；

基于所述标准FAQ数据，生成相似问题数据获取请求；

将所述相似问题数据获取请求发送至所述大数据平台上的各个数据处理节点；

接收各个所述数据处理节点对于所述相似问题数据获取请求的反馈数据；

解析各个所述数据处理节点的所述反馈数据，获取多个第三待筛选数据；

基于所述第三待筛选数据对应的反馈的所述数据处理节点的权限值，确定各个所述第三待筛选数据对应的信任值，所述信任值的计算公式如下：

;

其中，

为所述信任值，

为第

个所述反馈数据包含所述第三待筛选数据的所述数据处理节点的权限值；

为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的数目；

基于所述信任值大于预设的信任阈值的所述第三待筛选数据，构建第二数据集；

基于所述信任值小于等于预设的信任阈值的所述第三待筛选数据，构建第五待筛选数据集；

将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所述第二数据集中的第三问题数据以及所述标准FAQ数据中的第一问题数据匹配并且将所述第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数据集中的第三问题数据对应的所述第三答案数据以及所述标准FAQ数据中的第一问题数据对应的第一答案数据匹配，当同时匹配符合时，将所述第五待筛选数据集中的所述第三待筛选数据添加进所述第二数据集并将其从第五待筛选数据集中删除；

直至所述第五待筛选数据集中不存在可添加至所述第二数据集中的数据时，将所述第二数据集作为所述第一相似问题数据集。

5.如权利要求1所述的FAQ相似问题生成方法，其特征在于，还包括：

获取对于所述第二相似问题集的异常反馈的异常数据；

对所述异常数据进行验证；

当验证通过时，基于所述异常数据，确定异常的相似问题数据并将其从所述第一相似问题集中删除；

基于删除后的所述第一相似问题集和所述标准FAQ数据集，重新构建所述相似问题生成深度学习模型；

其中，对所述异常数据进行验证，包括：

基于异常数据反馈的用户的反馈值，确定所述异常数据的效用值，计算公式如下：