发明内容
本发明目的之一在于提供了一种FAQ相似问题生成方法及系统,可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ,用于后续的模型训练。
本发明实施例提供的一种FAQ相似问题生成方法,包括:
构建标准FAQ数据集;
基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;
获取待处理的FAQ数据;
基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
优选的,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
优选的,基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,包括:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
优选的,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
其中,
为信任值,
为第
个反馈数据包含第三待筛选数据的数据处理节点的
权限值;
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
优选的,FAQ相似问题生成方法,还包括:
获取对于第二相似问题集的异常反馈的异常数据;
对异常数据进行验证;
当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
其中,
为效用值,
为异常数据的第
个用户的反馈值;
为异常数据的第
个用户的权限值;
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
优选的,FAQ相似问题生成方法,还包括:
通过人工对异常数据的验证进行抽查,对验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
本发明还提供一种FAQ相似问题生成系统,包括:
数据集构建模块,用于构建标准FAQ数据集;
相似集构建模块,用于基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
模型构建模块,基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;
获取模块,用于获取待处理的FAQ数据;
生成模块,用于基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
优选的,相似集构建模块基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,执行如下操作:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
优选的,相似集构建模块基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,执行如下操作:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
优选的,相似集构建模块基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
其中,
为信任值,
为第
个反馈数据包含第三待筛选数据的数据处理节点的
权限值;
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
优选的,FAQ相似问题生成系统,还包括:重构模块,重构模块执行如下操作:
获取对于第二相似问题集的异常反馈的异常数据;
对异常数据进行验证;
当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
其中,
为效用值,
为异常数据的第
个用户的反馈值;
为异常数据的第
个用户的权限值;
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
优选的,FAQ相似问题生成方法,还包括:效用调整模块,效用调整模块执行如下操作:
获取人工对异常数据的验证进行抽查的结果,对结果判定为验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种FAQ相似问题生成方法,如图1所示,包括:
步骤S1:构建标准FAQ数据集;通过对历史项目标准FAQ数据集的收集实现构建标准FAQ数据集;对历史项目的标准FAQ文件进行分析以及预处理,获得一定量的标准FAQ数据集并插入MongoDB数据库;
步骤S2:基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;例如:可以采用spider爬虫进行相似问题数据集的爬取;通过spider爬虫基于标准FAQ数据集获取到大量的待处理的相似问题数据;
步骤S3:基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;对爬取到的相似问题数据集进行清洗、去重等操作,并转换为适配模型训练数据集的格式;设置学习率、batchsize,迭代次数等参数,进行模型训练,对不同轮次的相似问题生成模型进行生成效果验证,选择生成效果最好的模型;基于Sequence-to-Sequence(Seq2Seq)模型、bert模型和UniLM模型的构建过程,模型结构等。依据当前任务的特点构建模型的整体框架和流程,基于pytroch深度学习框架编写模型的数据处理部分、输入部分、输出部分、loss函数的计算、模型保存以及模型优化器等。其中网络结构设计,相当于是模型的假设空间,即模型能够表达的关系集合。神经网络模型学习的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程为称为最优化。解决这个问题使用的算法叫做优化器。
步骤S4:获取待处理的FAQ数据;对模型预测代码进程工程化改造,封装成Web接口,以api服务的形式提供开发侧调用,并完成和开发侧的对接;进而获取用户的待处理的FAQ数据;
步骤S5:基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。将生成的第二相似问题数据集发送给用户;
机器人的意图识别算法主要是基于统计的文本分类算法,其特点是严重依赖于训练语料,大规模的垂直领域文本分类语料是文本分类算法的关键所在,所以构建垂直领域的文本分类训练语料对于智能机器人的意图识别至关重要,与现有人工构建相似问题FAQ相比,通过本发明的FAQ相似问题生成方法自动生成相似问题FAQ能够有效降低人工投入,处理速度更高效,大幅度减小语料训练师的投入,提升项目交付的效率。机器学习与传统编程技术的明显区别就是机器学习是以数据为驱动的,因此文本分类训练语料的质量、数量决定了文本分类机器学习模型的分类效果,此外,中文的一个意图表达方式多种多样,每个意图维护的相似语料越丰富,模型越能够学习的更好,对这个意图的语义理解能力就会越深刻,而生成相似问题的模型是基于百度百科千万级用户的语义表达问题数据学习到的模型,能生成大规模、高质量、表达方式多样化的相似问题,提升相似问题FAQ的质量,提升意图识别准确率。
在一个实施例中,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;匹配通过计算语义相似度,当语义相似度大于预设的阈值(例如0.85)时,可以确定两者匹配;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
其中,基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,包括:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;当问题数据与答案数据都匹配符合时,可以确定第二问题数据为第一问题数据的相似问题数据;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;因计算机是通过计算语义相似度进行判断,因此存在实际为相似问题的数据其语义相似度并不符合要求,通过计算与第一问题数据的相似问题的语义相似度,再通过阈值判断,将这部分数据复检出,进而提高最后的第一相似问题数据集构建的全面性;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
上述技术方案的工作原理及有益效果为:
通过对大数据平台上各个存储节点存储的FAQ数据进行筛选,获取标准FAQ数据中第一问题数据对应的相似问题,保证最后构建的第一相似问题集中的相似问题的数量及质量。
在一个实施例中,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
其中,
为信任值,
为第
个反馈数据包含第三待筛选数据的数据处理节点的
权限值;
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
上述技术方案的工作原理及有益效果为:
通过定义反馈数据中提取的第三待筛选数据的信任值,是基于数据处理节点的共识机制,进行标准FAQ数据的第一问题对应的相似问题的确定;例如:大数据平台为每个数据处理节点分配数据处理节点的权限值;分配的权限值的区间为0至5;设置的信任阈值为100,即只有反馈说同一个相似问题的数据处理节点的和值大于100时,才能信任该相似问题为真实;进而构建出第二数据集;然后对信任值不足的反馈,进行二次筛选,提高最后确定的第一相似问题数据集的全面性。
在一个实施例中,FAQ相似问题生成方法,如图2所示,还包括:
步骤S11:获取对于第二相似问题集的异常反馈的异常数据;通过对各个用户的异常反馈中的异常数据进行预处理,确定相同的异常数据,相同的异常数据进行一次验证;
步骤S12:对异常数据进行验证;
步骤S13:当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
步骤S14:基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
其中,
为效用值,
为异常数据的第
个用户的反馈值;
为异常数据的第
个用户的权限值;
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
上述技术方案的工作原理及有益效果为:
通过反馈数据的用户的权限值及其对应的反馈值进行自动验证,实现了重建模块的合理触发,并且验证通过时,对应的反馈数据以被确定为真实有效,从而进行模型重建,以提高模型的准确性。其中,权限值为预先给各个用户配置;反馈值也为各个用户配置一个初始值。
在一个实施例中,FAQ相似问题生成方法,还包括:
通过人工对异常数据的验证进行抽查,对验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
上述技术方案的工作原理及有益效果为:
通过采用人工抽查的方式,进行验证结果的确定,并对验证结果错误的对应的用户的反馈值进行调整,以保证下次此用户参与的反馈的验证的准确性;预设的调整次数与调整值对照表中各个调整值都为负值,并且随着调整次数的增多,调整值越小;当然,反馈值调整后的数值不能小于零。
本发明还提供一种FAQ相似问题生成系统,如图3所示,包括:
数据集构建模块1,用于构建标准FAQ数据集;
相似集构建模块2,用于基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
模型构建模块3,基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;
获取模块4,用于获取待处理的FAQ数据;
生成模块5,用于基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
在一个实施例中,相似集构建模块2基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,执行如下操作:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
在一个实施例中,相似集构建模块2基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,执行如下操作:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
在一个实施例中,相似集构建模块2基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
其中,
为信任值,
为第
个反馈数据包含第三待筛选数据的数据处理节点的
权限值;
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
在一个实施例中,FAQ相似问题生成系统,还包括:重构模块,重构模块执行如下操作:
获取对于第二相似问题集的异常反馈的异常数据;
对异常数据进行验证;
当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
其中,
为效用值,
为异常数据的第
个用户的反馈值;
为异常数据的第
个用户的权限值;
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
在一个实施例中,FAQ相似问题生成方法,还包括:效用调整模块,效用调整模块执行如下操作:
获取人工对异常数据的验证进行抽查的结果,对结果判定为验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。