CN112463949B

CN112463949B - 数据召回方法与系统、交互方法及交互系统

Info

Publication number: CN112463949B
Application number: CN202011399441.5A
Authority: CN
Inventors: 王宏; 王贺青; 孙林; 孙拔群; 武晓飞; 赵嫘
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-09-16
Anticipated expiration: 2040-12-01
Also published as: CN112463949A

Abstract

本发明涉及智能助手技术领域，公开一种数据召回方法与系统、智能问答方法及系统。数据召回方法包括：识别用户询问以获取用户意图；其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；判断用户意图是否与预设意图体系中的任一者相匹配；若匹配，计算用户询问与在该用户意图下的关于特定房源的第一历史询问之间的相似度；以及基于用户询问与第一历史询问之间的相似度及交互方标识的匹配信息，从第一历史询问中召回预设数目个第二历史询问及与相应的历史回答，其中用户询问与第二历史询问之间的相似度大于相似度阈值。本发明可提供线上各式各样的智能问答服务，帮助交互方提高作业效率。

Description

数据召回方法与系统、交互方法及交互系统

技术领域

本发明涉及智能助手技术领域，具体地涉及一种数据召回方法、交互方法、数据召回系统及交互系统。

背景技术

目前，智能助手采用提示模板的方式帮助提升经纪人的作业效率。所有模板为根据客户的询问意图线下组合的模板，如客户询问房屋的楼层，其会结合房源的信息回答房子是多少层的。这种回答方式在一定程度上能够加快经纪人的作业效率，但是也存在明显的弊端：类似客户询问房屋是否可以实地查看，或者房屋的议价(即房屋在卖家的心里价位及价格调整)等问题时，无法给出准确回答。这是由于这些问题不是房源具体信息，无法固定回答模板，智能助手模板回答功能失效。也就是说，上述智能助手所采用的固定模板的方式，无法回答房源具体信息以外的询问信息，其解决问题的能力有限。

发明内容

本发明的目的是提供一种数据召回方法、交互方法、数据召回系统及交互系统，其可依据数据库中已有的经纪人的回答信息，并结合房源信息、用户问题及用户的询问意图，提供线上各式各样的智能问答服务，帮助经纪人提高作业效率。

为了实现上述目的，本发明第一方面提供一种数据召回方法，所述数据召回方法包括：识别用户询问以获取用户意图；其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；判断所述用户意图是否与数据库中的预设意图体系中的任一者相匹配；在所述用户意图与所述预设意图体系中的任一者相匹配的情况下，计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度；以及基于所述用户询问与所述第一历史询问之间的相似度、及所述特定交互方标识与所述第一历史询问所对应的交互方标识的匹配信息，从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值。

优选地，所述识别用户询问包括：基于意图识别模型对所述用户询问进行识别，其中，所述意图识别模型为采用历史问答数据对快速文本分类算法模型进行训练而成。

优选地，在执行所述识别用户询问以获取用户意图之前，所述数据召回方法还包括：基于所述意图识别模型，对所述历史问答数据中的关于多个房源的历史询问进行识别，以获取与所述关于多个房源的历史询问相对应的历史意图；判断所述历史意图是否满足预设意图体系；在所述历史意图满足所述预设意图体系的情况下，基于问答匹配模型，从所述历史问答数据中筛选出关于所述多个房源的历史问答对，其中所述历史问答对包括：彼此匹配的历史询问及历史回答；以及建立关于所述多个房源的房源标识、所述历史意图、所述历史问答对及所述历史问答对对应交互方的交互方标识四者之间的对应关系，以形成所述数据库。

优选地，所述问答匹配模型为二分类模型，相应地，所述从所述历史问答数据中筛选出关于所述多个房源的历史问答对包括：基于所述二分类模型，确定所述历史问答数据中的关于具有同一房源标识的房源的历史问题与历史回答的问答组合为正确组合的第一概率、及所述问答组合为错误组合的第二概率；以及在所述第一概率大于所述第二概率的情况下，筛选关于所述具有同一房源标识的房源的所述问答组合为所述历史问答对。

优选地，所述计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度包括：构建所述用户询问的第一句子向量与所述在该用户意图下的关于所述特定房源的历史询问的第二句子向量；以及计算所述第一句子向量与所述第二句子向量之间的相似度。

优选地，所述从所述数据库中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答包括：在所述用户询问与所述第一历史询问中的关于所述特定房源的特定历史询问之间的相似度大于所述相似度阈值的情况下，从所述第一历史询问中筛选出所述特定历史询问；判断所述特定交互方标识是否与所述特定历史询问所对应的交互方标识中的任一者相匹配；在所述特定交互方标识与所述特定历史询问所对应的交互方标识中的任一者相匹配的情况下，从所述特定历史询问中召回所述特定交互方标识所对应的第一特定历史询问，并召回与该第一特定历史询问相对应的历史回答；判断所召回的第一特定历史询问的第一数目是否小于所述预设数目；以及在所述第一数目小于所述预设数目的情况下，从第二特定历史询问中召回相似度排名前第二数目的特定历史询问，并召回与该相似度排名前第二数目的特定历史询问相对应的历史回答，其中，所述第二特定历史询问为所述特定历史询问中的除所述第一特定历史询问之外的询问，以及所述第二数目为所述预设数目与所述第一数目之差。

通过上述技术方案，本发明创造性地首先对用户询问(其是用户针对具有特定房源标识的特定房源的询问)进行识别，从而获取用户意图，然后用户意图命中数据库中的预设意图体系的情况下，计算针对同一房源的用户询问与历史询问之间的相似度；接着基于相似度及交互方标识命中优先原则，召回预设数目个历史询问及与该历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值，由此，可直接将所召回的关于特定房源的与历史询问相对应的历史回答作为用户询问的推荐回答，从而可提供线上各式各样的智能问答服务，帮助交互方提高作业效率。

优选地，所述从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答还包括：在所述特定交互方标识与所述特定历史询问所对应的交互方标识均不匹配的情况下，从所述特定历史询问中召回相似度排名前预设数目的特定历史询问，并召回与该相似度排名前预设数目的特定历史询问相对应的历史回答。

优选地，所述从所述第一历史询问中召回预设数目预设数目个第二历史询问及与该第二历史询问相对应的历史回答还包括：在所述第一数目大于所述预设数目的情况下，从所召回的特定历史询问中筛选出相似度排名前预设数目的特定历史询问，并召回与该相似度排名前预设数目的特定历史询问相对应的历史回答。

本发明第二方面提供一种交互方法，所述交互方法包括：接收用户询问，其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；基于所述的数据召回方法，召回与用户询问相对应的预设数目个关于所述特定房源的历史询问及与该历史询问相对应的历史回答；构建所述用户询问与所述预设数目个历史询问之间的匹配特征数据；基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出所述用户询问与所述预设数目个历史询问之间的匹配度；从所述预设数目个历史询问中，筛选出匹配度排名前目标数目的关于所述特定房源的历史询问；以及将与所述匹配度排名前目标数目的关于所述特定房源的历史询问相对应的历史回答作为与所述用户询问相对应的目标回答推荐给所述特定交互方。

优选地，所述匹配特征数据包括：共现词的数目、所述共现词的权重、jaccard距离、余弦距离以及tfidf+余弦距离中的至少一者与相似度。

优选地，所述筛选出匹配度排名前目标数目的关于所述特定房源的历史询问包括：根据匹配度对所述预设数目个历史询问进行降序排序；以及筛选出匹配度排名前目标数目的关于所述特定房源的历史询问。

通过上述技术方案，本发明创造性地首先基于上述的数据召回方法来召回与用户询问相对应的预设数目个历史询问；然后构建所述用户询问与所述预设数目个历史询问之间的匹配特征数据；接着基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出用户询问与所述预设数目个历史询问之间的匹配度；再者从筛选出匹配度排名前目标数目的关于所述特定房源的历史询问；最后将与所筛选出的历史询问相对应的历史回答推荐为与用户询问相对应的目标回答，由此，通过所构建的匹配特征数据得到的匹配度从召回的数据中推荐更优的答复，从而可避免因相似度计算误差带来的误推荐，进而可极大地提高推荐答复的精确度。

本发明第三方面提供一种数据召回系统，所述数据召回系统包括：第一识别装置，用于识别用户询问以获取用户意图；其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；第一判断装置，用于判断所述用户意图是否与数据库中的预设意图体系中的任一者相匹配；计算装置，用于在所述用户意图与所述预设意图体系中的任一者相匹配的情况下，计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度；以及召回装置，用于基于所述用户询问与所述第一历史询问之间的相似度、及所述特定交互方标识与所述第一历史询问所对应的交互方标识的匹配信息，从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值。

优选地，所述识别装置用于识别用户询问包括：基于意图识别模型对所述用户询问进行识别，其中，所述意图识别模型为采用历史问答数据对快速文本分类算法模型进行训练而成。

优选地，所述数据召回系统还包括：第二识别装置，用于基于所述意图识别模型，对所述历史问答数据中的关于多个房源的历史询问进行识别，以获取与所述关于多个房源的历史询问相对应的历史意图；第二判断装置，用于判断所述历史意图是否满足预设意图体系；筛选装置，用于在所述历史意图满足所述预设意图体系的情况下，基于问答匹配模型，从所述历史问答数据中筛选出关于所述多个房源的历史问答对，其中所述历史问答对包括：彼此匹配的历史询问及历史回答；以及建立装置，用于建立关于所述多个房源的房源标识、所述历史意图、所述历史问答对及所述历史问答对对应交互方的交互方标识四者之间的对应关系，以形成所述数据库。

优选地，所述问答匹配模型为二分类模型，相应地，所述筛选装置包括：确定模块，用于基于所述二分类模型，确定所述历史问答数据中的关于具有同一房源标识的房源的历史问题与历史回答的问答组合为正确组合的第一概率、及所述问答组合为错误组合的第二概率；以及第一筛选模块，用于在所述第一概率大于所述第二概率的情况下，筛选关于所述具有同一房源标识的房源的所述问答组合为所述历史问答对。

优选地，所述计算装置包括：构建模块，用于构建所述用户询问的第一句子向量与所述在该用户意图下的关于所述特定房源的历史询问的第二句子向量；以及计算模块，用于计算所述第一句子向量与所述第二句子向量之间的相似度。

优选地，所述召回装置包括：第二筛选模块，用于在所述用户询问与所述第一历史询问中的关于所述特定房源的特定历史询问之间的相似度大于所述相似度阈值的情况下，从所述第一历史询问中筛选出所述特定历史询问；第一判断模块，用于判断所述特定交互方标识是否与所述特定历史询问所对应的交互方标识中的任一者相匹配；第一召回模块，用于在所述特定交互方标识与所述特定历史询问所对应的交互方标识中的任一者相匹配的情况下，从所述特定历史询问中召回所述特定交互方标识所对应的第一特定历史询问，并召回与该第一特定历史询问相对应的历史回答；第二判断模块，用于判断所召回的第一特定历史询问的第一数目是否小于所述预设数目；以及第二召回模块，用于在所述第一数目小于所述预设数目的情况下，从第二特定历史询问中召回相似度排名前第二数目的特定历史询问，并召回与该相似度排名前第二数目的特定历史询问相对应的历史回答，其中，所述第二特定历史询问为所述特定历史询问中的除所述第一特定历史询问之外的询问，以及所述第二数目为所述预设数目与所述第一数目之差。

优选地，所述第一召回模块还用于，在所述特定交互方标识与所述特定历史询问所对应的交互方标识均不匹配的情况下，从所述特定历史询问中召回相似度排名前预设数目的特定历史询问，并召回与该相似度排名前预设数目的特定历史询问相对应的历史回答。

优选地，所述第二召回模块还用于，在所述第一数目大于所述预设数目的情况下，从所召回的特定历史询问中筛选出相似度排名前预设数目的特定历史询问，并召回与该相似度排名前预设数目的特定历史询问相对应的历史回答。

有关本发明提供的数据召回系统的具体细节及益处可参阅上述针对数据召回方法的描述，于此不再赘述。

本发明第四方面还提供一种交互系统，所述交互系统包括：接收装置，用于接收用户询问，其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；所述的数据召回系统，用于召回与用户询问相对应的预设数目个关于所述特定房源的历史询问及与该历史询问相对应的历史回答；构建装置，用于构建所述用户询问与所述预设数目个历史询问之间的匹配特征数据；输出装置，用于基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出所述用户询问与所述预设数目个历史询问之间的匹配度；筛选装置，用于从所述预设数目个历史询问中，筛选出匹配度排名前目标数目的关于所述特定房源的历史询问；以及推荐装置，用于将与所述匹配度排名前目标数目的关于所述特定房源的历史询问相对应的历史回答作为与所述用户询问相对应的目标回答推荐给所述特定交互方。

优选地，所述筛选装置包括：排序模块，用于根据匹配度对所述预设数目个历史询问进行降序排序；以及筛选模块，用于筛选出匹配度排名前目标数目的关于所述特定房源的历史询问。

有关本发明提供的交互系统的具体细节及益处可参阅上述针对交互方法的描述，于此不再赘述。

本发明第五方面还提供一种机器可读存储介质，所述机器可读存储介质上存储有指令，该指令用于使得机器执行所述的数据召回方法和所述的交互方法。

本发明第六方面还提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现所述的数据召回方法和所述的交互方法。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

图1是本发明一实施例提供的数据召回方法的流程图；

图2是本发明一实施例提供的建立数据库的流程图；

图3是本发明一实施例提供的对意图识别模型进行训练的示意图；

图4是本发明一实施例提供的对问答匹配模型进行训练的示意图；

图5是本发明一实施例提供的建立数据库的示意图；

图6是本发明一实施例提供的数据召回过程的示意图；

图7是本发明一实施例提供的召回预设数目k个第二历史询问及与该第二历史询问相对应的历史回答的流程图；

图8是本发明一实施例提供的交互方法的流程图；

图9是本发明一实施例提供的交互过程的示意图；以及

图10是本发明一实施例提供的对GBDT模型进行训练的示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在介绍本发明的具体实施例之前，先对本发明所涉及的主要交互对象(例如用户与交互方)之间的交互进行简要说明。在本发明各个实施例中，用户与交互方(例如经纪人)之间的沟通行为可以称为交互，例如用户与交互方可通过线上聊天工具进行交互。

图1是本发明一实施例提供的数据召回方法的流程图。如图1所示，所述数据召回方法可包括以下步骤S101-S104。

在执行所述步骤S101之前，所述数据召回方法还可包括以下步骤S201-S204。

在执行步骤S201之前，先对意图识别模型及问答匹配模型的训练过程进行简单描述。

其中，所述意图识别模型可采用快速文本分类算法及历史问答数据训练完成。

具体地，意图识别模型的训练过程可包括训练数据的准备过程和模型的训练过程。

对于训练数据的准备过程：如图3所示，从线上日志(例如小贝日志)中抽取用户询问(即用户的问题)，分析用户询问的意图并构建用户意图体系(如楼层、楼盘、楼龄、售价等)，组成若干条<询问(query)，意图(intention)>的训练语料。样本样例<询问，意图>，如<这个房子多少层的？，房屋-所在楼层>。

对于模型的训练过程：如图3所示，利用训练数据训练快速文本分类算法(fasttext)模型，通过不断地优化标注数据语料来提升模型的准确度，最终获得意图识别模型。该意图识别模型可以根据输入的一条用户问题，识别出用户关于房源的询问意图。

其中，所述问答匹配模型可为二分类模型。

具体地，问答匹配模型的训练过程可包括训练数据的准备过程和模型的训练过程。

对于训练数据的准备过程：如图4所示，从线上日志(例如小贝日志)中抽取用户与经纪人的对话，并将每个用户询问(即用户的每个问题)和下文中经纪人的几句(例如三句)回复组合为问答对(即关于具有同一房源标识的房源的历史问题与历史回答的问答组合)；用上述训练好的意图识别模型识别问答对中的问题，保留被意图体系覆盖(即满足预设意图体系)的问答对，构建<询问，回答>数据；然后进行人工标注，将正确的组合作为正样本，错误的组合作为负样本，将正负样本按照1：1的比例组成训练样本。如正确的组合：<这个房子是几层的房子？，三层>，错误的组合：<这个房子是几层的房子？，这个房子是正常出售的>。

对于模型的训练过程：如图4所示，本次问答匹配模型选用的是二分类模型(例如基于bert的二分类模型)，利用标注好的正、负样本进行模型训练，该二分类模型的输出结果为是和否两个标签，训练好的模型会对每个输入的<询问，回答>组合进行预测，以分别预测出该条数据组合为正确组合的概率P1和该条数据组合为错误组合的概率P2，若是P1>P2，则认为该条数据组合为正确上下文组合，否则为错误的上下文组合。

步骤S201，基于所述意图识别模型，对历史问答数据中的关于多个房源的历史询问进行识别，以获取与所述关于多个房源的历史询问相对应的历史意图。

如图5所示，可从线上日志(例如小贝日志)中抽取具有房源ID₁的房源的用户询问1、具有房源ID₂的房源的用户询问2、……具有房源ID_n的房源的用户询问n，分析各个用户询问的意图。

步骤S202，判断所述历史意图是否满足预设意图体系。

该步骤S202的目的是判断步骤S201分析得得到的意图是否被意图体系覆盖。若是，则执行步骤S203；否则，不执行任何操作。

步骤S203，在所述历史意图满足所述预设意图体系的情况下，基于问答匹配模型，从所述历史问答数据中筛选出关于所述多个房源的历史问答对，其中所述历史问答对包括：彼此匹配的历史询问及历史回答。

对于步骤S203，所述从所述历史问答数据中筛选出关于所述多个房源的历史问答对可包括：基于所述二分类模型，确定所述历史问答数据中的关于具有同一房源标识的房源的历史问题与历史回答的问答组合为正确组合的第一概率(P1)、及所述问答组合为错误组合的第二概率(P2)；以及在所述第一概率大于所述第二概率的情况下，筛选关于所述具有同一房源标识的房源的所述问答组合为所述历史问答对。也就是说，对于同一房源的问答组合，若通过二分类模型得到的P1、P2满足P1>P2，则认为该条问答组合为正确上下文组合(即历史问答对)，否则为错误的上下文组合，如图5所示。

步骤S204，建立关于所述多个房源的房源标识、所述历史意图、所述历史问答对及所述历史问答对对应交互方的交互方标识四者之间的对应关系，以形成所述数据库。

可将房源标识(即表1中的房源ID)、所述历史意图(即表1中的意图)、所述历史问答对(即表1中的询问与回答)及答复所述历史问答对中的历史回答的经纪人标识(即表1中的经纪人ID)之间的映射关系存储到数据库中，如图5所示。当然，还可将历史问答对的相关分词结果及其他特征存储到表1中。

表1数据库中的数据结构

下面对数据结构中的各项内容分别进行解释。

索引ID：存储需要，为每一条数据配置唯一ID。

小区ID：房源所在的小区唯一编码。

房源ID：房源唯一编码。当然，也可仅用房源ID表示小区及该小区内的具体房源的编码(即用一个房源编码代替表1中的小区编码及房源编码)。下文中如无特殊说明，房源ID均指包括小区编码与房源编码的标识，各个房源ID均是唯一的。

意图：用户询问的意图。

query：用户询问或用户问题。

answer：交互方(例如经纪人)对用户问题的回答。

交互方ID：交互方唯一编码。

询问分词、回答分词：对询问及回答进行分词(线上召回功能需要)，普通分词可采用现有的分词包。当然，也可不存储分词，而在需要构建相应的句子向量时，才执行分词及句子向量的构建工作。

pv：在大量日志存在的情况下，可能存在相同的问答组合(即针对同一房源存在相同的问答描述)，对该情况做浏览量统计，可作为线上问答排序的特征。

也就是说，本实施例是根据经纪人已有的回答信息去回复相关问题，从已有的回答信息中抽取最符合当前场景下的回答。符合场景需要满足几个条件：一是该问题已有经纪人回答过，二是问题的意图明确，三是该问题的是针对同一套房源进行提问，即客观实体一致。

根据存储格式要求，结合上述训练好的意图识别模型、问答匹配模型及线上日志，可提取常见问题解答(FAQ)数据，并将该数据存入FAQ数据库中(例如ES索引数据库)。在训练好意图识别模型与问答匹配模型，并构建好FAQ数据库的情况下，可执行步骤S101-S104来召回与用户询问相关的问答数据。

步骤S101，识别用户询问以获取用户意图。

其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问。例如，所述用户询问可为用户针对房源1(其标识为房源ID₁)向交互方A(其标识为交互方0001，例如，标识为0001的经纪人A)发起的询问。

具体地，所述对所述用户询问进行识别可包括：基于意图识别模型对所述用户询问进行识别。

步骤S102，判断所述用户意图是否与数据库中的预设意图体系中的任一者相匹配。

如图6所示，当用户输入一条关于具有房源ID₁的房源1的询问消息，识别用户询问的意图，判断意图是否是意图体系下的意图(即是否可回答)。若是，则执行步骤S103；否则不执行任何操作。

步骤S103，在所述用户意图与所述预设意图体系中的任一者相匹配的情况下，计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度。

对于步骤S103，所述计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度可包括：构建所述用户询问的第一句子向量与所述在该用户意图下的关于所述特定房源的历史询问的第二句子向量；以及计算所述第一句子向量与所述第二句子向量之间的相似度。

如图6所示，当确定用户询问的意图是意图体系下的意图后，会对用户询问构建相应的句子向量。句子向量为句子的词语向量的拼接，词语向量为用fasttext方法构建的向量库；fasttext构建词向量的语料为用户询问+回答的拼接组合，这样训练得到的词语向量，会很好的保留词语上下文的内在关系。

因为本实施例想要召回的询问回答对是针对具体房源+具体意图的历史询问回答对，因此会结合房源ID+用户意图进行FAQ数据召回，初步召回FAQ数据库中符合该要求的数据。类似地，筛选数据库中的在用户意图下的关于房源ID₁的历史询问，在所述数据库存储有历史询问与历史回答的分词的情况下，通过fasttext构建相应的句子向量；在所述数据库没有存储历史询问与历史回答的分词的情况下，先通过分词技术对历史询问与历史回答进行分词，然后通过fasttext构建相应的句子向量。

由于初步召回的数据量多，且召回的数据问题之间差别可能很大，因为用户不同的问法可能会识别为同一个意图，比如“这个房子是几楼的啊”会被识别为“房屋-所在楼层”的意图，“这个房子楼层好吗？”也被识别“房屋-所在楼层”的意图，这时候当用户输入针对同一房源的问题，如“房子楼层怎么样啊？”，很显现上述第二个问题的回答，更为贴切当前的场景。因此会根据用户的问题和FAQ数据库中存储的问题进行一个相似度的判断。由此，在构建完成关于用户询问及同一意图下的同一房源的历史询问的句子向量之后，可采用faiss方法对用户询问的句子向量与历史询问的句子向量之间的相似度进行计算。

步骤S104，基于所述用户询问与所述第一历史询问之间的相似度、及所述特定交互方标识与所述第一历史询问所对应的交互方标识的匹配信息，从所述第一历史询问中召回预设数目(k)个第二历史询问及与该第二历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值。

对于步骤S104，如图7所示，所述从所述第一历史询问中召回预设数目k个第二历史询问及与该第二历史询问相对应的历史回答可包括以下步骤S701-S707。

步骤S701，在所述用户询问与所述第一历史询问中的关于所述特定房源的特定历史询问之间的相似度大于所述相似度阈值的情况下，从所述第一历史询问中筛选出所述特定历史询问。

也就是说，从第一历史询问(即候选询问向量)中召回相似度大于相似度阈值(例如0.6)的所有FAQ数据。

步骤S702，判断所述特定交互方标识是否与所述特定历史询问所对应的交互方标识中的任一者相匹配。若是，则执行步骤S703；否则，执行步骤S706。

基于所述特定经纪人标识与所述第一历史询问(例如，特定历史询问)所对应的经纪人标识的匹配信息，若特定交互方(例如经纪人)标识(例如经纪人ID001)与经步骤S701筛选得到的特定历史询问所对应的交互方(例如经纪人)标识(例如，经纪人ID001，即之前同一经纪人ID001已针对用户对关于同一房源的同一意图回复过相关的回答)相匹配，则表明命中交互方(例如经纪人)标识(例如经纪人ID001)，可优先通过步骤S703将所述特定交互方(例如经纪人)已回复过的历史询问及历史回答进行召回。若没有命中交互方(例如经纪人)标识(例如经纪人ID001)，则通过步骤S706从经步骤S701筛选得到的特定历史询问中召回相似度排名前k的特定历史询问及相对应的历史回答。

也就是说，基于所述用户询问与所述第一历史询问之间的相似度，筛选出特定历史询问(步骤S701)；然后通过所述特定交互方标识与所述第一历史询问中的特定交互方标识所对应的交互方标识是否相匹配的结果，召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答(步骤S702)。

由此，本实施例可根据经纪人的历史回复消息，提供个性化回答，提高了经纪人的作业效率。

步骤S703，从所述特定历史询问中召回所述特定交互方标识所对应的第一特定历史询问，并召回与该第一特定历史询问相对应的历史回答。

在所述特定经纪人标识命中所述特定历史询问所对应的经纪人标识中的任一者的情况下，将所述特定经纪人已回复过的历史询问及历史回答进行召回。

步骤S704，判断所召回的第一特定历史询问的第一数目k₁是否小于预设数目k。若是，则执行步骤S705；否则，当k₁等于k时，结束流程；而当k₁大于k时执行步骤S707。

判断通过步骤S703召回的由同一经纪人已回复过的特定历史询问的数目是否小于k，若是，则表明不满足实际需要的数目，继续通过步骤S705从其他经纪人已针对用户对关于同一房源的同一意图回复过的历史询问及历史回答。否则，当k₁等于k时，表明正好满足需要，可结束流程；而当k₁大于k时，表明所召回的数据已超出实际需要，需通过步骤S707从中筛选得到相似度较高的k个历史询问及历史回答。

步骤S705，从第二特定历史询问中召回相似度排名前第二数目(k-k₁)的特定历史询问，并召回与该相似度排名前k-k₁的特定历史询问相对应的历史回答。

其中，所述第二特定历史询问为所述特定历史询问中的除所述第一特定历史询问之外的询问，以及所述第二数目为所述预设数目与所述第一数目之差。

在k₁小于k的情况下，表明不满足实际需要的数目，继续通过步骤S705从其他经纪人已针对用户对关于同一房源的同一意图回复过的历史询问及历史回答。

步骤S706，从所述特定历史询问中召回相似度排名前k的特定历史询问，并召回与该相似度排名前k的特定历史询问相对应的历史回答。

若没有命中经纪人标识，则通过步骤S706从经步骤S701筛选得到的特定历史询问中召回相似度排名前k的特定历史询问及相对应的历史回答。

步骤S707，从所召回的特定历史询问中，筛选相似度排名前k的特定历史询问，并召回与该相似度排名前k的特定历史询问相对应的历史回答。

当k₁大于k时，表明所召回的数据已超出实际需要，需通过步骤S707从中筛选得到相似度较高的k个历史询问及历史回答。

因此，上述实施例实现的重要功能是FAQ数据的召回。即当线上用户询问一个问题后，会识别该用户的意图，然后按照上述展会方法，从FAQ数据中召回所有和用户询问意图一致，且是针对该房源的相关回答，作为候选答案，待进一步进行精确排序推荐。

综上所述，本发明创造性地本发明创造性地首先对用户询问(其是用户针对具有特定房源标识的特定房源的询问)进行识别，从而获取用户意图，然后用户意图命中数据库中的预设意图体系的情况下，计算针对同一房源的用户询问与历史询问之间的相似度；接着基于相似度及经纪人标识命中优先原则，召回预设数目(k)个历史询问及与该历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值，由此，可直接将所召回的关于特定房源的与历史询问相对应的历史回答作为用户询问的推荐回答，从而可提供线上各式各样的智能问答服务，帮助经纪人提高作业效率。

图8是本发明一实施例提供的交互方法的流程图。如图8所示，所述交互方法可包括以下步骤S801-S806。

上述过程召回的FAQ数据可能会由于词向量的构建的准确度的影响对召回结果造成误差，即不能单单以上述过程中计算的相似度这个单一维度进行候选结果排序。因此，在本实施例中可采用梯度提升树决策树模型(GBDT模型)，构建多维匹配特征，对通过上述过程召回的所有结果进行精确的排序，最终选择排序最高的目标数目(例如3)个候选回答进行推荐。

在执行步骤S801之前，需要对GBDT模型进行训练。具体地，GBDT模型的训练过程可包括：训练数据的准备过程和模型的训练过程。

对于训练数据的准备过程：如图10所示，用户询问及与用户询问相似的历史询问组成相似问题对，如<几楼的房子啊？，房子在几楼啊>，依据相似问题对构建句子特征。

匹配度特征(模型的输出量)：(句子)匹配度。

匹配特征(模型的输入量)：采用用户询问及所召回的历史询问的共现词的数目、共现词的权重(可利用tfidf计算)、jaccard距离、cosine距离以及tfidf+cosine距离等几个特征作中的至少一者与(句子)相似度为匹配特征。可通过现有的计算(句子)相似度的方法对相似度进行计算，例如可直接将上述召回方法中的faiss计算的(句子)相似度作为此处的(句子)相似度。

对于模型的训练过程：如图10所示，根据构建的特征作为训练特征数据输入到模型中，训练数据样例展示在表2中。

表2训练数据样例

相似度	共现词	jaccard距离	cosine距离	tfidf+cosin距离	词权重	标签
							0.9	3	0.8	0.5	0.9	0.9	1
0.5	1	0.4	0.6	0.5	0.1	0

GBDT模型的输出结果为两种结果，即1：代表两个句子是相似句句子(匹配度超过预设匹配度)，0：代表两个句子不是相似句句子(匹配度未超过所述预设匹配度)，同时输出匹配度(其可理解为两个句子相似的指数)。

步骤S801，接收用户询问，其中所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问。

例如，可接收用于针对具有房源ID₁的房源的询问。

步骤S802，基于所述的数据召回方法，召回与用户询问相对应的预设数目k个关于所述特定房源的历史询问及与该历史询问相对应的历史回答。

如图9所示，具体过程可参见上文描述，于此不再进行赘述。

步骤S803，构建所述用户询问与所述k个历史询问之间的匹配特征数据。

其中，所述匹配特征数据可包括：共现词的数目、所述共现词的权重、jaccard距离、余弦距离以及tfidf+余弦距离中的至少一者与相似度。

在本实施例中，可构建相似问题对的共现词的数目、所述共现词的权重、jaccard距离、余弦距离、tfidf+余弦距离等匹配特征数据及相似度。

步骤S804，基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出所述用户询问与所述k个历史询问之间的匹配度。

基于通过步骤S803所构建的匹配特征数据与通过上述方法训练好的梯度提升树决策树模型，输出所述用户询问与所述k个历史询问之间的匹配度。

步骤S805，从所述k个历史询问中，筛选出匹配度排名前k₀的关于所述特定房源的历史询问。

对于步骤S805，所述筛选出匹配度排名前目标数目(k₀)的关于所述特定房源的历史询问可包括：根据匹配度对所述k个历史询问进行降序排序；以及筛选出匹配度排名前k₀的关于所述特定房源的历史询问。

也就是说，从所述k个历史询问中筛选出匹配度排名前k₀(例如排名前3)的历史询问。

步骤S806，将与所述匹配度排名前k₀的关于所述特定房源的历史询问相对应的历史回答作为与所述用户询问相对应的目标回答推荐给所述特定交互方。

将与匹配度排名前k₀(例如排名前3)的历史询问相对应的历史回答作为线上候选回答推荐给经纪人，如图9所示。

因此，上述实施例实现的重要功能就是对通过上述召回方法得到的候选答案的精确排序，从排序结果中，选择最符合当前场景要求的三个回复作为最终答案，推荐给经纪人。

综上所述，本发明创造性地首先基于上述的数据召回方法来召回与用户询问相对应的预设数目k个历史询问；然后构建所述用户询问与所述k个历史询问之间的匹配特征数据；接着基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出用户询问与所述k个历史询问之间的匹配度；再者从筛选出匹配度排名前k₀的关于所述特定房源的历史询问；最后将与所筛选出的历史询问相对应的历史回答推荐为与用户询问相对应的目标回答，由此，通过所构建的匹配特征数据得到的匹配度从召回的数据中推荐更优的答复，从而可避免因相似度计算误差带来的误推荐，进而可极大地提高推荐答复的精确度。

本发明一实施例还提供一种数据召回系统，所述数据召回系统包括：第一识别装置，用于识别用户询问以获取用户意图；其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；第一判断装置，用于判断所述用户意图是否与数据库中的预设意图体系中的任一者相匹配；计算装置，用于在所述用户意图与所述预设意图体系中的任一者相匹配的情况下，计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度；以及召回装置，用于基于所述用户询问与所述第一历史询问之间的相似度、及所述特定交互方标识与所述第一历史询问所对应的交互方标识的匹配信息，从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值。

本发明一实施例还提供一种交互系统，所述交互系统包括：接收装置，用于接收用户询问，其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；所述的数据召回系统，用于召回与用户询问相对应的预设数目个关于所述特定房源的历史询问及与该历史询问相对应的历史回答；构建装置，用于构建所述用户询问与所述预设数目个历史询问之间的匹配特征数据；输出装置，用于基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出所述用户询问与所述预设数目个历史询问之间的匹配度；筛选装置，用于从所述预设数目个历史询问中，筛选出匹配度排名前目标数目的关于所述特定房源的历史询问；以及推荐装置，用于将与所述匹配度排名前目标数目的关于所述特定房源的历史询问相对应的历史回答作为与所述用户询问相对应的目标回答推荐给所述特定交互方。

本发明一实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有指令，该指令用于使得机器执行所述的数据召回方法和所述的交互方法。

本发明一实施例还提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现所述的数据召回方法和所述的交互方法。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种数据召回方法，其特征在于，所述数据召回方法包括：

识别用户询问以获取用户意图；其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；

判断所述用户意图是否与数据库中的预设意图体系中的任一者相匹配；

在所述用户意图与所述预设意图体系中的任一者相匹配的情况下，计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度；以及

基于所述用户询问与所述第一历史询问之间的相似度、及所述特定交互方标识与所述第一历史询问所对应的交互方标识的匹配信息，从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值。

2.根据权利要求1所述的数据召回方法，其特征在于，所述识别用户询问包括：

基于意图识别模型对所述用户询问进行识别，其中，所述意图识别模型为采用历史问答数据对快速文本分类算法模型进行训练而成。

3.根据权利要求2所述的数据召回方法，其特征在于，在执行所述识别用户询问以获取用户意图之前，所述数据召回方法还包括：

基于所述意图识别模型，对所述历史问答数据中的关于多个房源的历史询问进行识别，以获取与所述关于多个房源的历史询问相对应的历史意图；

判断所述历史意图是否与预设意图体系中的任一者相匹配；

在所述历史意图满足所述预设意图体系的情况下，基于问答匹配模型，从所述历史问答数据中筛选出关于所述多个房源的历史问答对，其中所述历史问答对包括：彼此匹配的历史询问及历史回答；以及

建立关于所述多个房源的房源标识、所述历史意图、所述历史问答对及所述历史问答对对应交互方的交互方标识四者之间的对应关系，以形成所述数据库。

4.根据权利要求3所述的数据召回方法，其特征在于，所述问答匹配模型为二分类模型，

相应地，所述从所述历史问答数据中筛选出关于所述多个房源的历史问答对包括：

基于所述二分类模型，确定所述历史问答数据中的关于具有同一房源标识的房源的历史问题与历史回答的问答组合为正确组合的第一概率、及所述问答组合为错误组合的第二概率；以及

在所述第一概率大于所述第二概率的情况下，筛选关于所述具有同一房源标识的房源的所述问答组合为所述历史问答对。

5.根据权利要求1所述的数据召回方法，其特征在于，所述计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度包括：

构建所述用户询问的第一句子向量与所述在该用户意图下的关于所述特定房源的历史询问的第二句子向量；以及

计算所述第一句子向量与所述第二句子向量之间的相似度。

6.根据权利要求1所述的数据召回方法，其特征在于，所述从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答包括：

在所述用户询问与所述第一历史询问中的关于所述特定房源的特定历史询问之间的相似度大于所述相似度阈值的情况下，从所述第一历史询问中筛选出所述特定历史询问；

判断所述特定交互方标识是否与所述特定历史询问所对应的交互方标识中的任一者相匹配；

在所述特定交互方标识与所述特定历史询问所对应的交互方标识中的任一者相匹配的情况下，从所述特定历史询问中召回所述特定交互方标识所对应的第一特定历史询问，并召回与该第一特定历史询问相对应的历史回答；

判断所召回的第一特定历史询问的第一数目是否小于所述预设数目；以及

在所述第一数目小于所述预设数目的情况下，从第二特定历史询问中召回相似度排名前第二数目的特定历史询问，并召回与该相似度排名前第二数目的特定历史询问相对应的历史回答，其中，所述第二特定历史询问为所述特定历史询问中的除所述第一特定历史询问之外的询问，以及所述第二数目为所述预设数目与所述第一数目之差。

7.根据权利要求6所述的数据召回方法，其特征在于，所述从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答还包括：

在所述特定交互方标识与所述特定历史询问所对应的交互方标识均不匹配的情况下，从所述特定历史询问中召回相似度排名前预设数目的特定历史询问，并召回与该相似度排名前预设数目的特定历史询问相对应的历史回答。

8.根据权利要求6所述的数据召回方法，其特征在于，所述从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答还包括：

在所述第一数目大于所述预设数目的情况下，从所召回的特定历史询问中筛选出相似度排名前预设数目的特定历史询问，并召回与该相似度排名前预设数目的特定历史询问相对应的历史回答。

9.一种交互方法，其特征在于，所述交互方法包括：

接收用户询问，其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；

基于根据权利要求1-8中任一项所述的数据召回方法，召回与用户询问相对应的预设数目个关于所述特定房源的历史询问及与该历史询问相对应的历史回答；

构建所述用户询问与所述预设数目个历史询问之间的匹配特征数据；

基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出所述用户询问与所述预设数目个历史询问之间的匹配度；

从所述预设数目个历史询问中，筛选出匹配度排名前目标数目的关于所述特定房源的历史询问；以及

将与所述匹配度排名前目标数目的关于所述特定房源的历史询问相对应的历史回答作为与所述用户询问相对应的目标回答推荐给所述特定交互方。

10.根据权利要求9所述的交互方法，其特征在于，所述匹配特征数据包括：共现词的数目、所述共现词的权重、jaccard距离、余弦距离以及tfidf+余弦距离中的至少一者与相似度。

11.根据权利要求9所述的交互方法，其特征在于，所述筛选出匹配度排名前目标数目的关于所述特定房源的历史询问包括：

根据匹配度对所述预设数目个历史询问进行降序排序；以及

筛选出匹配度排名前目标数目的关于所述特定房源的历史询问。

12.一种数据召回系统，其特征在于，所述数据召回系统包括：

第一识别装置，用于识别用户询问以获取用户意图；其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；

第一判断装置，用于判断所述用户意图是否与数据库中的预设意图体系中的任一者相匹配；

计算装置，用于在所述用户意图与所述预设意图体系中的任一者相匹配的情况下，计算所述用户询问与所述数据库中的在该用户意图下的关于所述特定房源的第一历史询问之间的相似度；以及

召回装置，用于基于所述用户询问与所述第一历史询问之间的相似度、及所述特定交互方标识与所述第一历史询问所对应的交互方标识的匹配信息，从所述第一历史询问中召回预设数目个第二历史询问及与该第二历史询问相对应的历史回答，其中所述用户询问与所述第二历史询问之间的相似度大于相似度阈值。

13.一种交互系统，其特征在于，所述交互系统包括：

接收装置，用于接收用户询问，其中，所述用户询问为用户针对具有特定房源标识的特定房源、向具有特定交互方标识的特定交互方发起的询问；

根据权利要求12所述的数据召回系统，用于召回与用户询问相对应的预设数目个关于所述特定房源的历史询问及与该历史询问相对应的历史回答；

构建装置，用于构建所述用户询问与所述预设数目个历史询问之间的匹配特征数据；

输出装置，用于基于所构建的所述匹配特征数据与梯度提升树决策树模型，输出所述用户询问与所述预设数目个历史询问之间的匹配度；

筛选装置，用于从所述预设数目个历史询问中，筛选出匹配度排名前目标数目的关于所述特定房源的历史询问；以及

推荐装置，用于将与所述匹配度排名前目标数目的关于所述特定房源的历史询问相对应的历史回答作为与所述用户询问相对应的目标回答推荐给所述特定交互方。

14.一种机器可读存储介质，其特征在于，所述机器可读存储介质上存储有指令，该指令用于使得机器执行上述权利要求1-8中任一项所述的数据召回方法和上述权利要求9-11任一项所述的交互方法。

15.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8中任一项所述的数据召回方法和上述权利要求9-11任一项所述的交互方法。