CN111209404B

CN111209404B - 一种基于深度学习辅助生成相似问句的方法

Info

Publication number: CN111209404B
Application number: CN202010302501.0A
Authority: CN
Inventors: 王磊
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-12-22
Anticipated expiration: 2040-04-17
Also published as: CN111209404A

Abstract

一种基于深度学习辅助生成相似问句的方法，包括以下步骤：S1：在客服系统中进行知识库建表，根据客服系统中的历史问法，对问句进行分词、倒排索引后，存入到开源软件中；S2：对初始问句并进行预处理，并在开源软件中进行搜索，生成拓展问句；S3：对拓展问句进行特征提取，并输入到第一深度学习模型中进行处理；S4：采用第一深度学习模型来判断拓展问句属于哪类标准问题，最后根据结果进行打标；S5：将所述拓展问句作为初始问句来重复步骤S2~S4，将生成的扩展问句的信息传入到第二深度学习模型中以判断拓展问句是否和相似问句属于同一类标准问题。本发明相较于现有技术能够避免人工添加相似问题带来的时间成本，利用多模型融合使得准确率获得提高。

Description

一种基于深度学习辅助生成相似问句的方法

技术领域

涉及数据处理领域，具体涉及一种基于深度学习辅助生成相似问句的方法。

背景技术

虽然网络搜索引擎在如今众多的互联网应用中己经取得了巨大的成就，但其作为人们获取信息的主要手段或多或少还存在着一些不足，具体包括以下几点：(1)通常搜索引擎返回的是与用户查询最相关的若干个网页，用户需要从上到下一个接一个地浏览搜索引擎返回的结果列表，并且看完网页的大部分内容，才能从中归纳总结出真正需要的内容和信息。这样往往会耗费用户大量的时间，并且容易使得用户因为其过于繁琐而产生厌烦；(2)搜索引擎对于关键词查询的处理会使得不熟悉使用搜索引擎的用户，多次提交不同的查询给搜索引擎以期望得到想要的信息，但是这样也会得到很多不需要的信息，给用户在有效地利用搜索引擎帮助其检索信息时带来诸多的不便；(3)目前的搜索引擎大都基于关键词查询，对于用户的输入要先经过分词处理，这样通常会丢失输入的语义信息，导致搜索引擎返回的结果不够准确。

为了解决上面的问题，问答系统应运而生。首先，问答的查询方式为完整而口语化的问句，帮助用户节省精心构造查询条件的时间，并充分利用问句的语义信息；其次，问答系统的返回为高精准度网页结果或明确的答案字串，避免用户花费较多的时间从整个网页中归纳总结出需要的内容信息。由于机器学习在计算机视觉，自然语言处理领域的成功应用，人工智能在近些年得到了快速的发展。而问答系统作为自然语言处理领域的一个重要任务，也得到了越来越多的关注。目前市面上也涌现出了许多领域性的智能问答系统，比如智能客服。通过对客户的问题进行回答，智能客服可以大大减少企业的人力成本。

在现有的智能客服中，首先需要构建知识库，为每个标准问题收集大量的相似问句。当用户提问时，判断哪组的相似问最接近，则将这组标准问题的faq作为当前用户问句的回复。所以知识库中相似问题的积累是整个智能客服的关键。然而单靠客服同学设计相似问题，不仅繁琐，而且会错过最佳时机，采用人工标注的方式需要耗费较长的时间。

例如专利公开布号为CN106599215A（公布日：2017.04.26）的专利公开了一种基于深度学习的问句生成方法和问句生成系统，所述问句生成方法包括：获取种子问句；对所述种子问句进行分词；对经过所述分词的种子问句进行语义词扩展；对经过所述扩展的语义词进行重组生成候选问句；通过预设的语义分类模型对所述候选问句进行语义检测，获取语义正确的候选问句。实施本发明实施例，不仅节省人工，而且提高了生成的问句的准确性。

上述专利提供的方法虽然能够节省人工，但生成的相似问句多样性较为有限，且在准确性上不能满足现有的需求。

发明内容

为了解决上述问题，本发明提供一种基于深度学习辅助生成相似问句的方法，能够避免人工添加相似问题带来的时间成本，拥有更加多样化的相似问句，利用多模型融合是的结果准确率更高。

本发明的技术方案如下所示：

一种基于深度学习辅助生成相似问句的方法，包括以下步骤：

S1：在客服系统中进行知识库建表，根据客服系统中的历史问法，对问句进行分词、倒排索引后，存入到开源软件中；

S2：对初始问句并进行预处理，并在开源软件中进行搜索，返回topN的历史问法，生成拓展问句；

S3：将拓展问句输入到第一深度学习模型中进行处理；

S4：采用第一深度学习模型来判断拓展问句属于哪类标准问题，最后根据结果进行打标；

S5：将所述拓展问句作为初始问句来重复步骤S2~S4，将生成的扩展问句的信息传入到第二深度学习模型中以判断拓展问句是否和相似问句属于同一类标准问题。

优选的，所述步骤S4中的第一深度学习模型为多分类bert模型，所述步骤S5中的第二深度学习模型为二分类bert模型。

优选的，所述多分类bert模型和二分类bert模型均由bert预训练中文模型微调而来，具体为：在知识库中，对相似问句分词后进行特征提取，利用bert预训练中文模型进行编码，将对应的标准问题进行one-hot编码，作为模型训练的输出数据，对bert预训练中文模型进行微调，获得多分类bert模型和二分类bert模型。

优选的，所述步骤S4中多分类模型处理拓展问句的过程为：所述拓展问句输入到多分类bert模型中，进行softmax操作，选取概率最大的分数所对应的标签，并设定域值，判断是否接受这个相似问句。

优选的，所述扩展问句的信息包括扩展问句的文本、分数以及所述扩展问句第几次生成的。

优选的，所述二分类bert模型的输出层采用cross entry作为损失函数，以进行模型训练，输出当前的扩展问句是否为相似问句。

更优选的，所述步骤S5中的重复步骤共进行3次。

本发明的有益效果为：本发明能够避免人工添加相似问题带来的时间成本。这个过程一般需要专业人士花费大量时间进行维护，而深度学习采用从数据中进行学习的方式，可以根据数据的特性进行学习并完成一系列任务，本发明提供了更加多样化的相似问句，由于人工设计的局限性，生成的相似问句多样性较为有限，深度学习里用其强大的复杂问题处理能力，可以在有数据支撑的前提下做到更加多样化的文本，本发明利用多模型融合使得准确率获得了提高。

附图说明

图1为本发明实施例的流程示意图。

具体实施方式

下面将结合附图对本发明的实施例做进一步的说明。

如图1所示，一种基于深度学习辅助生成相似问句的方法，包括以下步骤：

1、建表：

在客服系统中进行知识库建表，根据客服系统中的历史问法，对问句进行分词、倒排索引后，存入到开源软件es（即Elasticsearch）中。

2、问句拓展：

输入初始问句，根据初始问句在es中进行搜索，返回topN的历史问法。

3、模型训练：采用多分类bert模型判断拓展问句属于哪类标准问题，拓展问句输入到微调后的多分类bert模型，进行softmax操作，选取概率最大的分数所对应的标签，并设定域值，判断是否接受这个相似问句，最后根据结果进行打标，将结果再传入二分类bert模型判断拓展问句是否和相似问句属于同一类标准问题。

在模型训练的步骤中，还包括多分类bert模型的微调过程，具体为：在知识库中，每个相似问句分词后进行embedding，利用谷歌开源的bert预训练中文模型进行编码，将对应的标准问题进行one-hot编码，作为模型训练的输出数据。准备好了输入输出数据，对bert模型进行微调。

在模型训练步骤中，为了获得更多的相似问句，以扩展问句作为初始问句重复进行问句拓展到模型训练的过程，后一次生成的拓展问句，设定的域值要比前一次高，共重复3次。最后将三次生成的扩展问句，包括文本、分数、第几次生成的等信息作为输入，传入到二分类bert模型中，二分类bert模型输出层采用cross entry作为损失函数，进行模型训练，输出当前的扩展问句是否为相似问句。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于深度学习辅助生成相似问句的方法，其特征在于，包括以下步骤：

S2：对初始问句进行预处理，并在开源软件中进行搜索，返回topN的历史问法，生成拓展问句；

S3：将拓展问句输入到第一深度学习模型中进行处理；

S5：将所述拓展问句作为初始问句来重复步骤S2~S4，将生成的拓展问句的信息传入到第二深度学习模型中以判断拓展问句是否和初始问句属于同一类标准问题；

所述步骤S4中的第一深度学习模型为多分类bert模型，所述步骤S5中的第二深度学习模型为二分类bert模型；

所述多分类bert模型和的二分类bert模型均由bert预训练中文模型微调而来，具体为：在知识库中，对拓展问句分词后进行特征提取，利用bert预训练中文模型进行编码，将对应的标准问题进行one-hot编码，作为模型训练的输出数据，对bert预训练中文模型进行微调，获得多分类bert模型和的二分类bert模型；

所述步骤S4中的多分类模型对拓展问句进行处理的过程为：所述拓展问句输入到多分类bert模型中，进行softmax操作，选取概率最大的分数所对应的标签，并设定域值，判断是否接受这个拓展问句，在重复步骤S2~S4的过程中，后一次生成的拓展问句，设定的域值要比前一次高；

所述拓展问句的信息包括拓展问句的文本、分数以及所述拓展问句第几次生成的。

2.根据权利要求1所述的基于深度学习辅助生成相似问句的方法，所述二分类bert模型的输出层采用cross entry作为损失函数，以进行模型训练，输出当前的拓展问句是否和初始问句属于同一类标准问题。

3.根据权利要求1所述的基于深度学习辅助生成相似问句的方法，其特征在于，所述步骤S5中的重复步骤共进行3次。