CN109582966A

CN109582966A - 一种信息匹配方法及装置

Info

Publication number: CN109582966A
Application number: CN201811468680.4A
Authority: CN
Inventors: 彭沛沛; 曾国卿; 许志强; 孙昌勋
Original assignee: Beijing Ronglian Ets Information Technology Co Ltd
Current assignee: Beijing Ronglian Ets Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-05

Abstract

本申请提供了一种信息匹配方法及装置，涉及人工智能技术领域，所述方法包括：接收用户终端发送的短文本句子；获取与所述短文本句子的相似度大于第一阈值的备选标准句子；基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度；基于所述短文本句子与所述备选标准句子的相似度，从所述标准句子中选取与所述短文本句子的相似度最高的目标标准句子。这样，在对问题库中的标准句子进行第一次筛选后，通过计算相似度的方式确定短句子文本的匹配目标，无需进行网络模型训练，简化了操作过程，减少了人工工作量。本申请主要应用于智能客服领域。

Description

一种信息匹配方法及装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种信息匹配方法及装置。

背景技术

在互联网技术的普遍应用下，涌现了越来越多的应用服务；其中，应用服务中通常都嵌入智能客服，以便智能客服帮助用户解答问题。

在用户与智能客服进行交流的过程中，客户通常都是在对话框中输入短文本句子，智能客服基于用户输入的短文本句子从数据库中查找与该短文本句子相匹配的问题，然后将查找到的问题的答案返回给用户。目前，智能客服从数据库中查找与该短文本句子相匹配的问题的方法如下：基于短文本句子以及对应问题的样本，通过深度学习等方法训练网络模型。在网络模型训练好以后，当用户输入在网络模型中输入短文本句子以后，直接确定该短文本句子对应的问题，然后，将该问题对应的答案返回给用户。

但是，上述方法需要预先训练网络模型，在训练网络模型的过程中，前期需要大量的样本收集及标注，操作过程复杂且人工工作量大。

发明内容

有鉴于此，本申请实施例的目的在于提供一种信息匹配方法及装置，通过计算相似度的方式确定短句子文本的匹配目标，无需进行网络模型训练，简化了操作过程，减少了人工工作量。

第一方面，本申请实施例提供了一种信息匹配方法，所述方法包括：

接收用户终端发送的短文本句子；

获取与所述短文本句子的相似度大于第一阈值的备选标准句子；

基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度；

基于所述短文本句子与所述备选标准句子的相似度，从所述标准句子中选取与所述短文本句子的相似度最高的目标标准句子。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述获取与所述短文本句子的相似度大于第一阈值的备选标准句子，包括：

分别提取所述短文本句子的第一关键词和所述标准句子的第二关键词；

针对任一第一关键词，根据该第一关键词分别与所述第二关键词的相似度，确定所述短文本句与所述标准句子的第一相似度；

针对任一第二关键词，根据该第二关键词分别与所述第一关键词的相似度，确定所述标准句子与所述短文本句的第二相似度；

根据所述第一相似度和所述第二相似度，确定所述短文本句字和所述标准句子的第一综合相似度；

从所述标准句子中选取与所述短文本句子的第一综合相似度大于第一阈值的备选标准句子。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述关键词有多个；所述针对任一第一关键词，根据该第一关键词分别与所述第二关键词的相似度，确定所述短文本句与所述标准句子的第一相似度，包括：

针对任一第一关键词以及该第一关键词对应的第二关键词中任一第二关键词，通过word2vec算法计算该第一关键词与该第二关键词的相似度，以及，通过同义词词林算法计算该第一关键词与该第二关键词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度的加权值，作为该第一关键词与该第二关键词的第二综合相似度；

针对任一第一关键词，从该第一关键词与多个所述第二关键词的多个第二综合相似度中，选取最大的第二综合相似度，作为该第一关键词对应的第一最大相似度；

根据多个所述第一关键词对应的第一最大相似度的总和以及所述第一关键词的数量，确定所述短文本句子和所述标准句子的第一相似度。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，所述针对任一第二关键词，根据该第二关键词分别与所述第一关键词的相似度，确定所述标准句子与所述短文本句的第二相似度，包括：

针对任一第二关键词以及该第二关键词对应的第一关键词中任一第一关键词，通过word2vec算法计算该第二关键词与该第一关键词的相似度，以及，通过同义词词林算法计算该第二关键词与该第一关键词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度的加权值，作为该第二关键词与该第一关键词的第三综合相似度；

针对任一第二关键词，从该第二关键词与多个所述第一关键词的多个第三综合相似度中，选取最大的第三综合相似度，作为该第二关键词对应的第二最大相似度；

根据多个所述第二关键词对应的第二最大相似度总和以及所述第二关键词的数量，确定所述标准句子和所述短文本句子的第二相似度。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度，包括：

分别提取所述短文本句子中的第一词和所述备选标准句子中的第二词；

针对任一第一词，根据该第一词分别与所述第二词的相似度，确定所述短文本句子与所述备选标准句子的第三相似度；

针对任一第二词，根据该第二词分别与所述第一词的相似度，确定所述备选标准句子与所述短文本句子的第四相似度；

根据所述第三相似度和所述第四相似度，确定所述短文本句子和所述备选标准句子的相似度。

结合第一方面的第四种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述针对任一第一词，根据该第一词分别与所述第二词的相似度，确定所述短文本句子与所述备选标准句子的第三相似度，包括：

针对任一第一词，计算该第一词分别与所述第二词的相似度，并从中选取该第一词对应的第三最大相似度；

根据多个所述第一词对应的第三最大相似度的总和以及所述第一词的数量，确定所述短文本句子与所述备选标准句子的第三相似度。

结合第一方面的第四种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，所述针对任一第二词，根据该第二词分别与所述第一词的相似度，确定所述备选标准句子与所述短文本句子的第四相似度，包括：

针对任一第二词，计算该第二词分别与所述第一词的相似度，并从中选取该第二词对应的第四最大相似度；

根据多个所述第二词对应的第四最大相似度的总和以及所述第二词的数量，确定所述标准句子与所述短文本句子的第四相似度。

结合第一方面的第五种可能的实施方式，本申请实施例提供了第一方面的第七种可能的实施方式，其中，所述针对任一第一词，计算该第一词分别与所述第二词的相似度，并从中选取该第一词对应的第三最大相似度，包括：

针对任一第一词以及该第一词对应的第二词中任一第二词，通过word2vec算法计算该第一词与该第二词的相似度，以及，通过同义词词林算法计算该第一词与该第二词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度的加权值，作为该第一词与该第二词的第四综合相似度；

针对任一第一词，从该第一词与多个所述第二词的多个第四综合相似度中，选取最大的第四综合相似度，作为该第一词对应的所述第三最大相似度。

结合第一方面的第六种可能的实施方式，本申请实施例提供了第一方面的第八种可能的实施方式，其中，所述针对任一第二词，计算该第二词分别与所述第一词的相似度，并从中选取该第二词对应的第四最大相似度，包括：

针对任一第二词以及该第二词对应的第一词中任一第一词，通过word2vec算法计算该第二词与该第一词的相似度，以及，通过同义词词林算法计算该第二词与该第一词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度的加权值，作为该第二词与该第一词的第五综合相似度；

针对任一第二词，从该第二词与多个所述第一词的多个第五综合相似度中，选取最大的第五综合相似度，作为该第二词对应的所述第四最大相似度。

第二方面，本申请实施例还提供了一种信息匹配装置，所述装置包括：

接收模块，用于接收用户终端发送的短文本句子；

获取模块，用于获取与所述短文本句子的相似度大于第一阈值的备选标准句子；

确定模块，用于基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度；

选取模块，用于基于所述短文本句子与所述备选标准句子的相似度，从所述标准句子中选取与所述短文本句子的相似度最高的目标标准句子。

本申请实施例提供的一种信息匹配方法及装置，在接收用户终端发送的短文本句子后，首先筛选出与短文本句子的相似度大于第一阈值的备选标准句子；然后，基于短文本句子中第一词和标准句子中第二词的相似度，确定短文本句子与备选标准句子的相似度；最后，基于短文本句子与备选标准句子的相似度，从标准句子中选取与短文本句子的相似度最高的目标标准句子。这样，在对问题库中的标准句子进行第一次筛选后，通过计算相似度的方式确定短句子文本的匹配目标，无需进行网络模型训练，简化了操作过程，减少了人工工作量。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种信息匹配方法的流程图。

图2示出了本申请实施例所提供的另一种信息匹配方法的流程图。

图3示出了本申请实施例所提供的另一种信息匹配方法的流程图。

图4示出了本申请实施例所提供的另一种信息匹配方法的流程图。

图5示出了本申请实施例所提供的另一种信息匹配方法的流程图。

图6示出了本申请实施例所提供的另一种信息匹配方法的流程图。

图7示出了本申请实施例所提供的另一种信息匹配方法的流程图。

图8示出了本申请实施例所提供的一种信息匹配装置的流程图。

图9示出了本申请一实施例所提供的计算机设备40的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供了一种信息匹配方法，应用于服务器，所述方法包括：

S101、接收用户终端发送的短文本句子。

本申请实施例中，用户通过用户终端与服务器建立会话，在用户终端的会话界面中，用户在用户终端中输入短文本句子。

S102、获取与所述短文本句子的相似度大于第一阈值的备选标准句子。

本申请实施例中，服务器中预先存储有问题库，且问题库中每个问题都对应有回答方案。服务器在通过与用户终端的会话中接收到短文本句子后，对问题库中的标准句子进行筛选，即从问题库的标准句子中选取与短文本句子的相似度大于第一阈值的备选标准句子。

具体筛选包括：分别提取所述短文本句子的第一关键词和问题库中标准句子的第二关键词，计算第一关键词和第二关键词的相似度，得到所述短文本句子与所述标准句子的相似度。然后，根据所述短文本句子与所述标准句子的相似度，从所述标准句子的相似度中选择与所述短文本句子的相似度大于第一阈值的备选标准句子。

这里，第一关键词和第二关键词可以为一个，也可以为多个。比如短文本句子为“我申请退款了，为什么退款没有到账”；其中，第一关键词可以是“申请”、“退款”和“到账”。比如，问题库中标准句子为“我申请退款了，退款的账户如何确定”；其中，第二关键词可以是“申请”、“退款”和“账户”。

S103、基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度。

本申请实施例中，分别提取所述短文本句子的第一词和备选标准句子的第二词，计算第一词和第二词的相似度，得到所述短文本句子与所述标准句子的相似度。

这里，提取第一词和第二词的方法包括：对短文本句子进行分词，通过停用词表停掉短文本句子中的一些无明确意义的词，从而获取短文本句子中的第一词；对备选标准句子进行分词，通过停用词表停掉备选标准句子中的一些无明确意义的词，从而获取备选标准句子中的第二词。

S104、基于所述短文本句子与所述备选标准句子的相似度，从所述标准句子中选取与所述短文本句子的相似度最高的目标标准句子。

本申请实施例中，服务器在选出与所述短文本句子的相似度最高的目标标准句子之后，将该目标标准句子对应的回答方案推送给用户终端，且推送的回答方案携带有会话标识(其中，该会话标识为服务器与用户终端的会话标识)，用户终端在接收到回答方案后，根据该回答方案的会话标识将该回答方案显示在于服务器的当前会话界面中。

进一步的，如图2所示，本申请实施例提供的信息匹配方法，步骤102，所述获取与所述短文本句子的相似度大于第一阈值的备选标准句子，包括：

S201、分别提取所述短文本句子的第一关键词和所述标准句子的第二关键词。

S202、针对任一第一关键词，根据该第一关键词分别与所述第二关键词的相似度，确定所述短文本句与所述标准句子的第一相似度。

本申请实施例中，可以通过word2vec算法计算该第一关键词分别与所述第二关键词的相似度，也可以通过同义词词林的算法计算该第一关键词分别与所述第二关键词的相似度。

比如，短文本句子为“我申请退款了，为什么退款没有到账”；其中，第一关键词可以是“申请”、“退款”和“到账”。比如，问题库中标准句子为“我申请退款了，退款的账户如何确定”；其中，第二关键词可以是“申请”、“退款”和“账户”。

针对第一关键词“申请”，分别计算该第一关键词“申请”与第二关键词“申请”、第二关键词“退款”和第二关键词“账户”的相似度，得到第一关键词“申请”对应的多个相似度，然后从多个相似度中选取最大相似度。同理，针对第一关键词“退款”，分别计算该第一关键词“退款”与第二关键词“申请”、第二关键词“退款”和第二关键词“账户”的相似度，得到第一关键词“退款”对应的多个相似度，然后从多个相似度中选取最大相似度。同理，得到第一关键词“到账”对应的最大相似度。

然后，计算第一关键词“申请”对应最大相似度、第一关键词“退款”对应最大相似度和第一关键词“到账”对应最大相似度均值A，将均值A作为所述短文本句与所述标准句子的第一相似度。这里，均值A的计算方式为：第一关键词“申请”对应最大相似度、第一关键词“退款”对应最大相似度和第一关键词“到账”对应最大相似度的总和/3。

S203、针对任一第二关键词，根据该第二关键词分别与所述第一关键词的相似度，确定所述标准句子与所述短文本句的第二相似度。

这里，可以通过word2vec算法计算该第二关键词分别与所述第一关键词的相似度，也可以通过同义词词林的算法计算该第二关键词分别与所述第一关键词的相似度。

针对第二关键词“申请”，分别计算第二关键词“申请”与第一关键词“申请”、第一关键词“退款”和第一关键词“到账”的相似度，得到第二关键词“申请”对应的多个相似度，然后从多个相似度中选取最大相似度。同理，得到第二关键词“退款”对应的最大相似度和第二关键词“账户”对应的最大相似度。

然后，计算第二关键词“申请”对应最大相似度、第二关键词“退款”对应最大相似度和第二关键词“账户”对应最大相似度的均值B，将均值B作为所述标准句子与所述短文本句的第二相似度。这里，加权值B的计算方式为：第二关键词“申请”对应最大相似度、第二关键词“退款”对应最大相似度和第二关键词“账户”对应最大相似度/3。

S204、根据所述第一相似度和所述第二相似度，确定所述短文本句字和所述标准句子的第一综合相似度。

本申请实施例中，计算步骤202中得到的加权值A和步骤203中得到的加权值B的加权值C，加权值C即为短文本句子和所述标准句子的第一综合相似度。这里，通过A+B/2计算加权值C。

S205、从所述标准句子中选取与所述短文本句子的第一综合相似度大于第一阈值的备选标准句子。

本申请实施例中，根据所述短文本句子和每一个所述标准句子的第一综合相似度，从问题库的多个标准句子中选取第一综合相似度大于第一阈值的备选标准句子。这里，第一阈值可以根据需要进行设置。

进一步的，如图3所示，本申请实施例提供的信息匹配方法中，步骤202中，所述针对任一第一关键词，根据该第一关键词分别与所述第二关键词的相似度，确定所述短文本句与所述标准句子的第一相似度，包括：

S301、针对任一第一关键词以及该第一关键词对应的第二关键词中任一第二关键词，通过word2vec算法计算该第一关键词与该第二关键词的相似度，以及，通过同义词词林算法计算该第一关键词与该第二关键词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度的加权值，作为该第一关键词与该第二关键词的第二综合相似度。

本申请实施例中，以第一关键词“申请”与第二关键词“申请”的相似度的具体计算为例，具体计算方法如下：通过word2vec算法计算该第一关键词“申请”与第二关键词“申请”的相似度a1，通过同义词词林算法计算该第一关键词“申请”与第二关键词“申请”的相似度b1，然后，计算相似度a1和相似度b1的加权值d1(即d1＝w*a1+(1-w)*b1)，d1即第一关键词“申请”与第二关键词“申请”的第二综合相似度，w为根据a1和b1选取的系数，其中，0＜w＜1。同理计算，得到第一关键词“申请”和第二关键词“退款”的第二综合相似度d2；以及第一关键词“申请”和第二关键词“账户”的第二综合相似度d3。

S302、针对任一第一关键词，从该第一关键词与多个所述第二关键词的多个第二综合相似度中，选取最大的第二综合相似度，作为该第一关键词对应的第一最大相似度。

本申请实施例中，第一关键词“申请”分别与第二关键词“申请”的第二综合相似度为d1、与第二关键词“退款”的第二综合相似度为d2，与第二关键词“账户”的第二综合相似度为d3，然后，从第二综合相似度为d1、第二综合相似度为d2和第二综合相似度d3中选择第一最大相似度，作为对应第一关键词“申请”的第一最大相似度。同理计算，得到第一关键词“退款”的第一最大相似度以及和第一关键词“到账”的第一最大相似度。

S303、根据多个所述第一关键词对应的第一最大相似度的总和以及所述第一关键词的数量，确定所述短文本句子和所述标准句子的第一相似度。

本申请实施例中，第一关键词为多个，比如分别为申请”、“退款”和“到账”。在计算得到每个第一关键词对应的第一最大相似度之后，计算多个第一关键词分别对应的第一最大相似度的均值E，均值E为所述短文本句子和所述标准句子的第一相似度。这里，加权值E的计算方式为：多个第一关键词对应的第一最大相似度的总和/第一关键词的数量。

进一步的，如图4所示，本申请实施例提供的信息匹配方法中，步骤203，所述针对任一第二关键词，根据该第二关键词分别与所述第一关键词的相似度，确定所述标准句子与所述短文本句的第二相似度，包括：

S401、针对任一第二关键词以及该第二关键词对应的第一关键词中任一第一关键词，通过word2vec算法计算该第二关键词与该第一关键词的相似度，以及，通过同义词词林算法计算该第二关键词与该第一关键词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度的加权值，作为该第二关键词与该第一关键词的第三综合相似度。

本申请实施例中，以第二关键词“申请”与第一关键词“申请”的相似度的具体计算为例，具体计算方法如下：通过word2vec算法计算该第二关键词“申请”与第一关键词“申请”的相似度a2，通过同义词词林算法计算该第二关键词“申请”与第一关键词“申请”的相似度b2，然后，计算相似度a2和相似度b2的加权值e1(e1的具体计算方式为w*a2+(1-w)*b2，w为根据a1和b1选取的系数，其中，0＜w＜1)，作为第二关键词“申请”和第一关键词“申请”的第三综合相似度e1。同理计算，得到第二关键词“申请”和第一关键词“退款”的第三综合相似度e2；以及第二关键词“申请”和第一关键词“到账”的第三综合相似度e3。

S402、针对任一第二关键词，从该第二关键词与多个所述第一关键词的多个第三综合相似度中，选取最大的第三综合相似度，作为该第二关键词对应的第二最大相似度。

本申请实施例中，第二关键词“申请”分别与第一关键词“申请”、“退款”和“到账”的第三综合相似度分别为e1、e2和e3，然后，从第三综合相似度e1、第三综合相似度e2和第三综合相似度e3中选择第二最大相似度，作为对应第二关键词“申请”的第二最大相似度。同理计算，得到第二关键词“退款”的第二最大相似度和第二关键词“到账”的第二最大相似度。

S403、根据多个所述第二关键词对应的第二最大相似度总和以及所述第二关键词的数量，确定所述标准句子和所述短文本句子的第二相似度。

本申请实施例中，第二关键词为多个，分别为申请”、“退款”和“账户”。在计算得到每个第二关键词对应的第二最大相似度之后，计算每个第二关键词对应的均值F，加权值F＝多个第二关键词分别对应的第二最大相似度总和/第二关键词的数量。

进一步的，如图5所示，本申请实施例提供的信息匹配方法中，步骤103，所述基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度，包括：

S501、分别提取所述短文本句子中的第一词和所述备选标准句子中的第二词。

S502、针对任一第一词，根据该第一词分别与所述第二词的相似度，确定所述短文本句子与所述备选标准句子的第三相似度。

本申请实施例中，可以通过word2vec算法计算该第一词分别与第二词的相似度，也可以通过同义词词林的算法计算该第一词分别与第二词的相似度。

比如短文本句子为“我申请退款了，为什么退款没有到账”，其中，第一词可以是“我”、“申请”、“退款”、“为什么”、“没有”、“到账”。比如，问题库中标准句子为“我申请退款了，退款的账户如何确定”；其中，第二词可以是“我”、“申请”、“退款”、“账户”、“如何”和“确定”。

针对第一词“我”，分别计算第一词“我”与每一个第二词中的相似度，得到与第一词“我”对应的多个相似度，然后从多个相似度中选取最大相似度，作为该第一词“我”对应的最大相似度。其他第一词对应的最大相似度同理计算。

然后，根据第一词的数量对多个第一词对应的最大相似度进行平均计算，得到所述短文本句子与所述备选标准句子的第三相似度。平均计算的计算过程如下：第三相似度＝多个第一词对应最大相似度的总和/第一词的数量。

S503、针对任一第二词，根据该第二词分别与所述第一词的相似度，确定所述备选标准句子与所述短文本句子的第四相似度。

这里，可以通过word2vec算法计算该第二词分别与第一词的相似度，也可以通过同义词词林的算法计算该第二词分别与第一词的相似度。

针对第二词“我”，分别计算第二词“我”与多个第一词相似度，得到第二词“我”对应的多个相似度，然后从多个相似度中选取最大相似度，得到第二词“我”对应的最大相似度。同理计算，得到其他第二词对应的最大相似度。

然后，根据第二词的数量对多个第二词对应的最大相似度进行平均计算，得到所述备选标准句子与所述短文本句子的第三相似度。平均计算的计算过程如下：第四相似度＝多个第二词对应最大相似度的总和/第二词的数量。

S504、根据所述第三相似度和所述第四相似度，确定所述短文本句子和所述备选标准句子的相似度。

本申请实施例中，所述短文本句子和所述备选标准句子的相似度＝(第三相似度+第四相似度)/2。

结合步骤501至步骤504，假设短文本句子(即句子1)中有三个第一词分别为[a1、a2、a3]，标准句子(即句子2)中两个第二词[b1、b2]，第一词和第二词的相似度分别为：a1b1、a1b2、a2b1、a2b2、a3b1、a3b2；其中，a1b1表示第一词a1和第二词b1的相似度(具体通过词林和word2vec相结合的方式得到的)，a1b2表示第一词a1和第二词b2的相似度，a2b1表示第一词a2和第二词b1的相似度，其他以此类推；

那么句子1对句子2的相似度为：s12＝(max(a1b1,a1b2)+max(a2b1，a2b2)+max(a3b1，a3b2))/3；句子2对句子1的相似度：s21＝(max(a1b1,a2b1,a3b1)+max(a1b2，a2b2，a3b2)/2；对应的，那么句子1和句子2的相似度S＝(s12+s21)/2。

进一步的，如图6所示，本申请实施例提供的信息匹配方法中，步骤502，所述针对任一第一词，根据该第一词分别与所述第二词的相似度，确定所述短文本句子与所述备选标准句子的第三相似度，包括：

S601、针对任一第一词，计算该第一词分别与所述第二词的相似度，并从中选取该第一词对应的第三最大相似度。

本申请实施例中，针对任一第一词以及该第一词对应的第二词中任一第二词，通过word2vec算法计算该第一词与该第二词的相似度，以及，通过同义词词林算法计算该第一词与该第二词的相似度；计算通过word2vec算法得到的相似度和通过同义词词林算法得到的相似度总和的加权值，作为该第一词与该第二词的第四综合相似度；针对任一第一词，从该第一词与多个所述第二词的多个第四综合相似度中，选取最大的第四综合相似度，作为该第一词对应的所述第三最大相似度。

S602、根据多个所述第一词对应的第三最大相似度的总和以及所述第一词的数量，确定所述短文本句子与所述备选标准句子的第三相似度。

本申请实施例中，当短文本句子中的第一词为多个时，加权平均计算的过程如下：所述短文本句子与所述备选标准句子的第三相似度＝多个第一词对应的第三最大相似度总和/第一词的数量。

进一步的，如图7所示，本申请实施例提供的信息匹配方法中，步骤503，所述针对任一第二词，根据该第二词分别与所述第一词的相似度，确定所述备选标准句子与所述短文本句子的第四相似度，包括：

S701、针对任一第二词，计算该第二词分别与所述第一词的相似度，并从中选取该第二词对应的第四最大相似度。

S702、根据多个所述第二词对应的第四最大相似度的总和以及所述第二词的数量，确定所述标准句子与所述短文本句子的第四相似度。

本申请实施例中，当备选标准句子中的第二词为多个，计算多个第二词对应的第四最大相似度总和，然后根据第二词的数量，对第四最大相似度总和求平均值，得到所述备选标准句子与所述短文本句子与的第四相似度。

本申请实施例中，当备选标准句子中的第二词为多个时，平均计算的过程如下：所述备选标准句子与所述短文本句子与的第四相似度＝多个第二词对应的第四最大相似度总和/第二词的数量。

本申请实施例提供的一种信息匹配方法，在接收用户终端发送的短文本句子后，首先筛选出与短文本句子的相似度大于第一阈值的备选标准句子；然后，基于短文本句子中第一词和标准句子中第二词的相似度，确定短文本句子与备选标准句子的相似度；最后，基于短文本句子与备选标准句子的相似度，从标准句子中选取与短文本句子的相似度最高的目标标准句子。这样，在对问题库中的标准句子进行第一次筛选后，通过计算相似度的方式确定短句子文本的匹配目标，无需进行网络模型训练，简化了操作过程，减少了人工工作量。

如图8所示，本申请实施例提供了一种信息匹配装置，用于执行上述信息匹配方法，所述装置包括：

接收模块11，用于接收用户终端发送的短文本句子；

获取模块12，用于获取与所述短文本句子的相似度大于第一阈值的备选标准句子；

确定模块13，用于基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度；

选取模块14，用于基于所述短文本句子与所述备选标准句子的相似度，从所述标准句子中选取与所述短文本句子的相似度最高的目标标准句子。

进一步的，本申请实施例提供的信息匹配装置中，获取模块12，具体用于：

进一步的，本申请实施例提供的信息匹配装置中，所述关键词有多个；获取模块12，具体用于：

进一步的，本申请实施例提供的信息匹配装置中，确定模块13，具体用于：

本申请实施例提供的一种信息匹配装置，在接收用户终端发送的短文本句子后，首先筛选出与短文本句子的相似度大于第一阈值的备选标准句子；然后，基于短文本句子中第一词和标准句子中第二词的相似度，确定短文本句子与备选标准句子的相似度；最后，基于短文本句子与备选标准句子的相似度，从标准句子中选取与短文本句子的相似度最高的目标标准句子。这样，在对问题库中的标准句子进行第一次筛选后，通过计算相似度的方式确定短句子文本的匹配目标，无需进行网络模型训练，简化了操作过程，减少了人工工作量。

如图9所示，为本申请一实施例提供的计算机设备40的结构示意图，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述信息匹配方法的步骤。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述信息匹配方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述信息匹配方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述信息匹配方法的步骤。

本申请实施例所提供的信息匹配装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息匹配方法，其特征在于，所述方法包括：

接收用户终端发送的短文本句子；

2.根据权利要求1所述的信息匹配方法，其特征在于，所述获取与所述短文本句子的相似度大于第一阈值的备选标准句子，包括：

3.根据权利要求2所述的信息匹配方法，其特征在于，所述关键词有多个；所述针对任一第一关键词，根据该第一关键词分别与所述第二关键词的相似度，确定所述短文本句与所述标准句子的第一相似度，包括：

4.根据权利要求2所述的信息匹配方法，其特征在于，所述针对任一第二关键词，根据该第二关键词分别与所述第一关键词的相似度，确定所述标准句子与所述短文本句的第二相似度，包括：

5.根据权利要求1所述的信息匹配方法，其特征在于，所述基于所述短文本句子中第一词和所述标准句子中第二词的相似度，确定所述短文本句子与所述备选标准句子的相似度，包括：

6.根据权利要求5所述的信息匹配方法，其特征在于，所述针对任一第一词，根据该第一词分别与所述第二词的相似度，确定所述短文本句子与所述备选标准句子的第三相似度，包括：

7.根据权利要求5所述的信息匹配方法，其特征在于，所述针对任一第二词，根据该第二词分别与所述第一词的相似度，确定所述备选标准句子与所述短文本句子的第四相似度，包括：

8.根据权利要求6所述的信息匹配方法，其特征在于，所述针对任一第一词，计算该第一词分别与所述第二词的相似度，并从中选取该第一词对应的第三最大相似度，包括：

9.根据权利要求7所述的信息匹配方法，其特征在于，所述针对任一第二词，计算该第二词分别与所述第一词的相似度，并从中选取该第二词对应的第四最大相似度，包括：

10.一种信息匹配装置，其特征在于，所述装置包括：

接收模块，用于接收用户终端发送的短文本句子；