CN113220864B

CN113220864B - 智能问答数据处理系统

Info

Publication number: CN113220864B
Application number: CN202110771766.XA
Authority: CN
Inventors: 籍焱; 薄满辉; 唐红武; 王殿胜; 卞磊; 谭智隆; 张丽颖
Original assignee: China Travelsky Mobile Technology Co Ltd
Current assignee: China Travelsky Mobile Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-01
Anticipated expiration: 2041-07-08
Also published as: CN113220864A

Abstract

本发明涉及一种智能问答数据处理系统，包括预设数据库，预设模型库{第一模型,第二模型,…第G模型}、处理器和存储有计算机程序的存储器，所述预设数据库包括FAQ库和基于用户query实时通过预设查询接口获取的问答信息。本发明基于预训练模型和无监督的召回方法，解决了数据冷启动问题，基于预训练模型微调和文本多标签分类模型的召回方法，提升了召回准确率，基于多路召回的融合排序模型，提高了智能问答的准确性和时间效能。

Description

智能问答数据处理系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种智能问答数据处理系统。

背景技术

智能问答系统通常以一问一答的形式向用户提供个性化的信息服务。智能问答系统通常将累积的无序的文本数据，通过自然语言处理相关技术进行有序、科学的分类，并建立各种分类模型，结合信息检索、信息抽取技术，向用户返回答案。现有的智能问答系统采用无监督的快速检索方法实现，或者采用有监督的用户深度匹配方法实现。

无监督的快速检索方法采用了三个层次进行实现：第一层，提取query中的关键词，并计算query和FAQ（Frequently Asked Questions，常见问答集）中问题的相似度，该方法存在词汇匹配缺失的问题，并且在语义匹配上效果较差。第二层，采用了语言模型的方法，使用平滑算法，并进行线性插值，用降元的方法来弥补高元的数据稀疏问题，数据估计有一定的可靠性，但是，参数估计较困难，能有效解决第一层的词汇匹配问题，但是存在平滑敏感的问题。最后一层使用词嵌入技术，来解决语义层面近似的问题，但是无法结合上下文解决一词多义这样的问题，准确性差。

有监督的深度匹配方法，采用了两条思路，第一条是基于孪生神经网络，可以在检索场景下使用点击数据来训练语义层次的匹配，但该方法需要基于搜索日志进行训练，存在冷启动的问题。另一条思路是基于交互网络，对问题和答案进行特征加权的注意力机制方案。这条思路匹配建模更加细致、充分，但是计算成本增加，时间效能较差，更加适合一些效果精度要求高但对计算性能要求不高的场景。

由此可知，如何提高智能问答的准确性和时间效能成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种智能问答数据处理系统，提高了智能问答的准确性和时间效能。

根据本发明第一方面，提供了一种智能问答数据处理系统，包括预设数据库，预设模型库{第一模型,第二模型,…第G模型}、处理器和存储有计算机程序的存储器，所述预设数据库包括FAQ库和基于用户query实时通过预设查询接口获取的问答信息，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S1、获取用户query，并对所述用户query进行预处理，得到用户query的分词特征；

步骤S2、调用第i模型从所述数据库中召回与所述用户query相似度排在前N_i的第i预选query集合和相似度排在第N_i至第M_i的第i候选query集合，所述第i预选query集合包括第i预选query和对应相似度，所述第i候选query包括第i候选query和对应相似度,i的取值为1到G-1；

步骤S3、调用第G模型从所有第i候选query集合中获取与所述用户query存在相同意图的第G预选query集合，所述第G预选query集合包括第S预选query、对应的相似度和相同意图对应的概率；

步骤S4、基于所有第i预选query集合、第G预选query集合和每一模型对应的预设权重确定目标query，基于所述目标query生成回答信息。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种智能问答数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明基于预训练模型和无监督的召回方法，解决了数据冷启动问题，基于预训练模型微调和文本多标签分类模型的召回方法，提升了召回准确率，基于多路召回的融合排序模型，提高了智能问答的准确性和时间效能。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的智能问答数据处理系统示意图；

图2为本发明实施例提供的智能问答数据处理系统具体处理过程示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种智能问答数据处理系统的具体实施方式及其功效，详细说明如后。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例提供了一种智能问答数据处理系统，如图1所示，包括数据库，模型库{第一模型,第二模型,…第G模型}、处理器和存储有计算机程序的存储器，其中，所述数据库包括FAQ库和基于用户query实时通过预设查询接口获取的问答信息，可以理解的是，FAQ库是相对性对静态的库，可以定时更新，基于用户query实时通过预设查询接口获取的问答信息，是动态变化的数据，是基于当前获取的用户query实施基于预设的查询接口所获取到的对应的问答信息，预设查询接口可以为预设网站的接口或者预设的搜索引擎的接口等。具体根据实际的智能问答应用场景来选择对应的查询接口，以民航领域的智能问答场景为例，预设查询接口可以为航空公司网页查询接口。当所述处理器执行所述计算机程序时，实现以下步骤：

query即的查询信息，具体可以为问句、陈述句或者词语等信息。

本发明实施例基于预训练模型和无监督的召回方法，解决了数据冷启动问题，基于预训练模型微调和文本多标签分类模型的召回方法，提升了召回准确率，基于多路召回的融合排序模型，提高了智能问答的准确性和时间效能。

作为一种实施例，所述步骤S1中，对所述用户query进行预处理具体可包括：

步骤S11、删除重复数据；

由于用户query可能存在重复数据，对于这些数据，采用直接删除操作去除重复数据，而对于文本、网页中的连续标点符号或词语，采用保留一个的方式。

步骤S12、删除无效符号；

通过步骤S12过滤掉文本中的表情符号、网页标记、乱码符号、连续空格和换行符；

步骤S13、将繁体字转化为简体字；

步骤S14、通过jieba分词工具对用户query进行分词和去除停用词操作，到用户query的分词特征。

所述步骤S14主要是为了去除语气助词、副词、介词等出现频率较高但实际意义不大的词，减少停用词对文本中的有效信息的噪声干扰。

作为一种实施例，所述系统包括第一样本训练集合、第二样本训练集合和意图标签库，如图2所示示例，G取值为4，所述第一模型用于执行BM25算法，其中，BM25算法为现有的计算文本相似度的算法，在此不在展开描述。所述第二模型为将倒数第二层作为输出的BERT模型，其中BERT模型为现有的预训练语言模型，共有12层transformer，本发明实施例选取倒数第二层作为第二模型的输出，能够提高获取对应预选query集合和候选query集合的准确性和可靠性。所述第三模型为基于预设的第一样本训练集合对BERT模型进行调整训练后，将倒数第二层作为输出的调整BERT模型，需要说明的是，BERT模型是采用通用语料训练得到的模型，对于特定领域的专有名词无法充分抽取内在含义，因此，本发明实施例基于第一样本训练集对BERT模型进行调整训练后生成得到能够充分提取特定领域专有名词内在含义的第三模型，第一样本训练集为特定领域对应的语料信息，例如，特定领域可以为民航领域。所述第四模型为基于预设的意图标签库和第二样本训练集训练得到的文本多标签分类模型。可以理解的是，图2所示示例中，N_i取值均为50，目标query的数量为5，在其他应用场景中，可以根据具体应用需求调整N_i以及目标query的数量，本发明实施例对此不作限定。

作为一种实施例，当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S10、构建第一样本query集合，相似的样本query标注有相同的标签；

步骤S20、从所述第一样本query集合中选取预设第一数量的具有相同标签的样本query对，作为第一正样本集合；

步骤S30、从所述样本query集合中随机抽取预设第二数量的具有不同标签的样本query对，加入第一负样本集合中；

步骤S40、基于BM25算法从所述样本query集合中召回相似度位于前R的query，从所述前R的query中抽取预设第三数量的具有不同标签的样本query对，加入第一负样本集合中，所述第二数量和第三数量之和与所述第一数量的比值大于预设比例值，所述第一正样本集合和所述第一负样本集合构成所述第一样本训练集合；

需要说明的是，BM25算法得到的排序相似度是基于文本字面意思得到的，但实际语义是可能不相同的，因此，结合BM25算法来构建第一负样本集合，能够增强第三样本对相似query的识别能力。此外，由于两个query组成的query对中，不相同的概率要高于相同的概率，因此，所述第二数量和第三数量之和与所述第一数量的比值大于预设比例值，以提高第三模型的精确度和可靠性。预设比例值可以根据具体应用场景以及对精确度的需求来选取。例如，在民航领域，可以将第一正样本和第一负样本的比例设置为1:5。

步骤S50、将BERT模型倒数第一层作为输出，将第一正样本的样本query对基于预设的间隔符进行拼接，生成第一正样本输入数据，第一正样本的实际输出值设置为1，将第一负样本的样本query对基于预设的间隔符进行拼接，生成第一负样本输入数据，第一负样本的实际输出值设置为0，将第一正样本输入数据和第二负样本数据分别输入所述BERT模型中，得到输出预测值，基于样本输出预测值和实际输出值调整所述BERT模型，直至达到预设的模型精度需求；

步骤S60、将达到预设的模型精度需求的BERT模型的倒数第二层作为输出，得到所述第三模型。

步骤S100、构建第二样本query集合，所述第二样本query集合中存储有每一第二样本输入特征和意图标签，所述第二样本输入特征包括字嵌入、位置嵌入和分割嵌入；

步骤S200、将所述第二样本输入特征输入BERT模型中，输出维度为（批量大小，序列长度，隐向量大小）的三维输出向量；

步骤S300、将所述三维输出向量输入到TextCNN模型，得到维度为（批量大小，len（卷积核大小）*卷积核个数）的中间输出向量；

其中，TextCNN模型为现有的模型框架，在此不再展开描述。卷积核大小根据具体应用需求来选取，本实施例中，假设特定领域的专有名字长度最大为6个字，那么可以将卷积核大小设置为2-6，卷积核个数设置为128。

步骤S400、将所述中间输出向量输入到全连接层，将所述中间输出向量映射到意图标签库的所有标签上，训练得到文本多标签分类模型。

作为一种实施例，当i=1时，所述步骤S2包括：

步骤S21、将所述数据库中的所有query作为文档集合，将所述用户query的分词特征中每一分词作为语素；

步骤S22、调用所述第一模型执行BM25算法，得到所述文档集合中每一query的分值作为对应的相似度，将相似度排在前N₁的query以及对应的相似度组成第一预选query集合，将相似度排在第N₁至第M₁的query以及对应的相似度组成第一候选query集合。

作为一种实施例，当i=2或3时，所述步骤S2包括：

步骤S23、将所述数据库中的所有query转换为第i模型对应的输入特征，输入到第i模型中，生成对应的候选句向量，将所述用户query的分词特征转换为第i模型对应的输入特征，输入到第i模型中，生成对应的用户句向量；

步骤S24、获取候选句向量与用户句向量相似度排在前N_i的query以及对应的相似度组成第i预选query集合，获取候选句向量与用户句向量相似度排在第N_i至第M_i的query以及对应的相似度组成第i候选query集合。

由于候选句向量数量庞大，为了提高句向量召回的速度，作为一种实施例，所述步骤S24包括：

步骤S241、将候选句向量加上对应的索引，并进行聚类处理，得到多个候选中心句向量；

其中，具体可采用现有的K-means聚类算法进行聚类处理，在此不在展开描述。

步骤S242、将用户句向量与候选中心句向量进行相似度计算，并大到小进行排序；

步骤S243、判断排在第一位的相似度的候选中心句向量对应类别中的候选query数量是否大于M_i，若大于，则将排在第一位的相似度的候选中心句向量对应类别中的候选query作为待处理query集合，执行步骤S244，否则，继续向下寻找，直至出现t,使得排在第一位至第t位的相似度的候选中心句向量对应类别中的候选query数量大于M_i，则第一位至第t位的相似度的候选中心句向量对应类别中的候选query作为待处理query集合，将执行步骤S244，t大于等于2；

步骤S244、逐一获取待处理query集合中每一待处理query的候选句向量与用户句向量的相似度，将向量相似度排在前N_i的query以及对应的相似度组成第i预选query集合，将向量相似度排在第N_i至第M_i的query以及对应的相似度组成第i候选query集合。

其中，步骤S244中，具体可采用余弦相似度算法获取每一待处理query的候选句向量与用户句向量的相似度，在此不在展开描述。

作为一种实施例，所述步骤S3包括：

步骤S31、基于用户query的分词特征转换为第G模型对应的输入特征，得到用户query的意图标签和每一意图标签的概率；

步骤S32、将所有第i候选query集合中每一候选query转换为第G模型对应的输入特征，得到候选query的意图标签和每一意图标签的概率；

步骤S33、将每一候选query的意图标签与所述用户query的意图标签进行对比，若存在相同意图标签，则将该候选query确定为第G预选query，并将该候选query、对应的相似度和相同意图对应的概率存储至所述第G预选query集合中。

以图2为例，在文本多标签分类模型召回的结果中，由于召回的结果是意图集合，因此会将BM25、BERT句向量相似度召回和BERT微调句向量相似度召回的三个结果中的TOP51-100的query中意图属于意图集合的query集合作为第四路的召回结果，同时会提高前三路召回结果中query的意图属于I的query集合的与选分值，提高最后获取目标query的准确性和可靠性。

作为一种实施例，所述步骤S4包括：

步骤S41、获取每一预选query的预选分值：

其中，H表示预选query的预选分值，

表示第i模型的预设权重，

表示预选 query在第i预选query集合中对应的相似度，

表示第S模型的预设权重，

表示预选 query在第S预选query集合中对应的相似度，K表示预选query与用户query的相同意图数量，

表示预选query与用户query的第j个相同意图对应的概率；需要说明的是，每一模型对应的预设权重可以根据对历史数据的分析处理确定。

步骤S42、将预选分值排在前X个的预选query确定为目标query，基于所述目标query生成回答信息。

本发明实施例在多路模型召回阶段，其中包括基于无监督的召回和基于有监督的召回，在无监督的召回中加入了基于预训练模型的召回，能有效解决语义匹配效果不佳、一词多义、数据冷启动等问题；而在有监督的召回中，基于日志和标注数据微调预训练模型，并且训练了一个文本多标签分类模型来识别用户query的意图，优化模型的准确率，让模型识别更准确。并且在向量匹配阶段，通过聚类方法先将带有索引的句向量进行聚类，形成多个聚类中心，然后先找到与query的句向量最邻近的聚类中心，再从该聚类中找出最相似的问答对，从而加速向量匹配，大大缩短召回时间。在融合排序阶段，本发明实施例提出了一种加权求和的融合排序模型，相比于其他精排模型，耗时大大缩短，充分利用上一步召回阶段的每一路结果的分值，并且通过标注数据和日志来灵活调整每一路的权重，使得最终返回给用户的答案更加准确和合理。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种智能问答数据处理系统，其特征在于：

包括预设数据库，预设模型库{第一模型,第二模型,…第G模型}、处理器和存储有计算机程序的存储器，G为预设模型库中模型总数量，所述预设数据库包括FAQ库和基于用户query实时通过预设查询接口获取的问答信息，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S2、调用第i模型从所述数据库中召回与所述用户query相似度排在前N_i的第i预选query集合和相似度排在第N_i至第M_i的第i候选query集合，所述第i预选query集合包括第i预选query和对应相似度，所述第i候选query包括第i候选query和对应相似度, 所述第i模型表示所述预设模型库中第i个模型，i的取值为1到G-1；

所述步骤S3包括：

步骤S33、将每一候选query的意图标签与所述用户query的意图标签进行对比，若存在相同意图标签，则将该候选query确定为第G预选query，并将该候选query、对应的相似度和相同意图对应的概率存储至所述第G预选query集合中；

2.根据权利要求1所述的系统，其特征在于，

还包括第一样本训练集合、第二样本训练集合和意图标签库，G取值为4，所述第一模型用于执行BM25算法；第二模型为将BERT模型的倒数第二层作为输出的模型；第三模型为基于预设的第一样本训练集合对BERT模型进行调整训练后，将倒数第二层作为输出的模型；第四模型为基于预设的意图标签库和第二样本训练集训练得到的文本多标签分类模型；

当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S10、构建第一样本query集合，相似度大于预设相似度阈值的样本query标注有相同的标签；

步骤S60、将达到预设的模型精度需求的BERT模型的倒数第二层作为输出，得到所述第三模型；

当所述处理器执行所述计算机程序时，还实现以下步骤：

步骤S200、将所述第二样本输入特征输入BERT模型中，输出维度为批量大小，序列长度，隐向量大小的三维输出向量；

步骤S300、将所述三维输出向量输入到TextCNN模型，得到维度为批量大小，len（卷积核大小）*卷积核个数的中间输出向量，其中，Len函数表示得到字符串的长度；

3.根据权利要求2所述的系统，其特征在于，

当i=1时，所述步骤S2包括：

4.根据权利要求2所述的系统，其特征在于，

当i=2或3时，所述步骤S2包括：

5.根据权利要求1-4中任意一项所述的系统，其特征在于，

所述步骤S4包括：