CN111708872A

CN111708872A - 对话方法、装置及电子设备

Info

Publication number: CN111708872A
Application number: CN202010488805.0A
Authority: CN
Inventors: 王传鹏; 陈春梅; 李匡宇
Original assignee: Shanghai Hard Link Network Technology Co ltd
Current assignee: Shanghai Hard Link Network Technology Co ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-25
Anticipated expiration: 2040-06-02
Also published as: CN111708872B

Abstract

本申请公开了一种对话方法、装置及电子设备，所述方法包括：根据输入文本生成的第一词集与根据目标文本生成的第二词集获取输入文本与各目标文本的各第一文本相似度分值；检测各第一文本相似度分值中是否存在第一目标值，若存在，则将第一目标值对应的目标文本作为输入文本的匹配文本，以根据匹配文本向终端反馈对应信息，否则根据doc2vec模型生成输入文本的输入向量，将输入向量与各目标文本对应的各目标向量集做相似度运算，获取输入文本与各目标文本的各第二文本相似度分值，以根据各第二文本相似度分值确定匹配文本，向终端反馈对应信息。

Description

对话方法、装置及电子设备

技术领域

本申请涉及文本匹配技术领域，特别涉及一种对话方法、装置及电子设备。

背景技术

智能客服系统是在大规模知识处理基础上发展起来的一项面向行业应用的技术，具有行业通用性，不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段。在智能客服系统中，对用户输入信息的处理与反馈是极为关键的一部分。现有的智能客服系统对输入信息的处理，通常是将输入信息转换为输入文本，并通过浅层匹配或语义匹配的方式在数据库中确定输入文本的目标文本后，根据目标文本向用户反馈对应的信息。但在采用现有的方式进行对话处理时，发现通过浅层匹配的方式来确定向用户反馈的信息时，由于精度较差，因此可能出现匹配不到对应的目标文本的情况，而语义匹配虽然能够匹配到对应的目标文本，但是直接使用语义匹配的计算开销较大，要消耗服务器大量的性能，并且计算速度较慢，导致反馈信息的时效性较差。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种对话方法、装置、计算机可读存储介质以及电子设备，在保证匹配准确率的同时，提高整体的对话效率。

本申请实施例提供一种对话方法，包括：

获取终端的输入文本；

将根据所述输入文本生成的第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，并根据第一词集与第二词集生成的特征词集的元素量在各所述组合词集的元素量中的占比，获取所述输入文本与各所述目标文本的各第一文本相似度分值；

检测各所述第一文本相似度分值中是否存在第一目标值，若存在，则将所述第一目标值对应的目标文本作为所述输入文本的匹配文本，以根据所述匹配文本向所述终端反馈对应信息，若不存在，则根据doc2vec模型生成所述输入文本的输入向量；其中，所述第一目标值为各所述第一文本相似度分值中的最大值，所述目标值大于第一预设阈值；

将所述输入向量与各所述目标文本一一对应的各目标向量集做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值；

检测各第二文本相似度分值中是否存在第二目标值，并当各所述第二文本相似度分值存在所述第二目标值时，将所述第二目标值对应的目标文本作为所述匹配文本，以根据所述匹配文本向所述终端反馈对应信息；其中，所述第二目标值为各所述第二文本相似度分值中的最大值，所述第二目标值大于第二预设阈值。

进一步的，所述将所述第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，包括：

将所述第一词集与根据目标文本生成的第二词集进行元素合并，生成合并词集后，对所述合并词集进行降维处理，简化所述合并词集的元素数量，生成组合词集。

进一步的，所述对所述合并词集进行降维处理，简化所述合并词集的元素数量，生成组合词集，包括：

对所述合并词集与所述第二词集进行均值运算，获取所述合并词集的元素数量与所述第二词集的元素数量的平均值，根据所述平均值简化所述合并词集的元素数量，生成组合词集。

进一步的，所述将所述输入向量与各所述目标文本一一对应的各目标向量集做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值，包括：

根据doc2vec模型，对各所述目标文本均进行n次向量转换，获取与各所述目标文本一一对应的各目标向量集；其中，所述目标向量集包括n个目标向量；

将各所述目标文本对应的各所述目标向量集与所述输入向量做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值。

进一步的，所述将各所述目标文本对应的各所述目标向量集与根据输入文本生成的句子向量做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值，包括：

对所述目标向量集的n个目标向量进行加权平均，生成特征向量后，将各所述目标文本对应的各所述特征向量与所述输入向量做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值。

获取所述目标向量集的n个目标向量分别与所述输入向量进行相似度运算后的n个分值，对所述n个分值进行加权平均，生成第二文本相似度分值。

进一步的，还包括：

在检测到各所述第二文本相似度分值中不存在所述第二目标值时，根据bert模型提取所述输入文本的第一文本向量后，将所述第一文本向量与各所述目标文本根据bert模型提取的各第二文本向量做相似度匹配，确定所述匹配文本，以根据所述匹配文本向所述终端反馈对应信息。

进一步的，所述根据bert模型提取所述输入文本的第一文本向量，包括：

根据bert模型对所述输入文本进行处理，生成与各transformer encoder层一一对应的各初始句向量；

将各所述初始句向量分别与预设句向量进行相似度计算，获取与各所述初始句向量一一对应的各相似度分值，并根据各所述相似度分值，生成各所述初始句向量的向量权重；

根据各所述初始句向量及各所述初始句向量对应的向量权重，对各所述初始句向量进行加权求和，生成所述第一文本向量。

进一步的，在根据所述输入文本生成第一词集之前，还包括：

对所述输入文本进行文本分类，确定所述输入文本对应的文本类别。

进一步的，所述对所述输入文本进行文本分类，确定所述输入文本对应的文本类别，包括：

对所述输入文本进行预处理，提取所述输入文本的词条；

将所述词条与根据各文本类生成的文本词集进行相似度运算，确定所述输入文本对应的文本类别；其中，所述文本词集由各所述各文本类中出现的频次超过预设频次的多个特征词组成。

进一步的，本申请实施例提供一种对话装置，包括：

文本提取模块，用于获取终端的输入文本；

模糊匹配模块，用于将根据所述输入文本生成的第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，并根据第一词集与第二词集生成的特征词集的元素量在各所述组合词集的元素量中的占比，获取所述输入文本与各所述目标文本的各第一文本相似度分值；

第一检测模块，用于检测各所述第一文本相似度分值中是否存在第一目标值，若存在，则将所述第一目标值对应的目标文本作为所述输入文本的匹配文本，以根据所述匹配文本向所述终端反馈对应信息，若不存在，则根据doc2vec模型生成所述输入文本的输入向量；其中，所述第一目标值为各所述第一文本相似度分值中的最大值，所述目标值大于第一预设阈值；

语义匹配模块，用于将所述输入向量与各所述目标文本一一对应的各目标向量集做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值；

第二检测模块，用于检测各第二文本相似度分值中是否存在第二目标值，并当各所述第二文本相似度分值存在所述第二目标值时，将所述第二目标值对应的目标文本作为所述匹配文本，以根据所述匹配文本向所述终端反馈对应信息；其中，所述第二目标值为各所述第二文本相似度分值中的最大值，所述第二目标值大于第二预设阈值。

进一步的，还包括：

文本分类模块，用于对所述输入文本进行文本分类，确定所述输入文本对应的文本类别。

进一步的，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的对话方法。

进一步的，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的对话方法。

相比于现有技术，上述实施例先通过利用输入文本的词集与目标文本的词集进行浅层匹配，当匹配成功时直接向用户反馈对应的文本信息，若匹配失败则通过对目标文本做n次向量生成后，将根据各目标文本形成的各目标向量集与输入文本生成的句子向量做相似度匹配从而确定匹配文本，以向用户反馈定的文本信息的语义匹配方式，从而实现浅层匹配和语义匹配的相互切换，进而在保证匹配准确率的同时，提高整体的对话效率。

附图说明

下面结合附图和实施例对本申请进一步地说明；

图1为一个实施例中对话方法的应用环境图；

图2为一个实施例中对话方法的流程示意图；

图3为第二文本相似度分值获取方法的流程示意图；

图4为另一个实施例中对话方法的流程示意图；

图5为文本分类方法的流程示意图；

图6为又一个实施例中对话方法的流程示意图；

图7为一个实施例中对话装置的结构框图；

图8为另一个实施例中对话装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

本部分将详细描述本申请的具体实施例，本申请之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案，但其不能理解为对本申请保护范围的限制。

现有对话方法，通常是将输入信息转换为输入文本，并通过浅层匹配或语义匹配的方式在数据库中确定输入文本的目标文本后，根据目标文本向用户反馈对应的信息。但通过浅层匹配的方式来确定向用户反馈的信息时，由于精度较差，因此可能出现匹配不到对应的目标文本的情况，而语义匹配虽然能够匹配到对应的目标文本，但是直接使用语义匹配的计算开销较大，要消耗服务器大量的性能，并且计算速度较慢，导致反馈信息的时效性较差。因此，现有技术无法很好的兼顾准确性与时效性。

为解决上述问题，如图1所示，是一个实施例中对话方法的应用环境图。参照图1，该对话方法应用于对话系统。该对话系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端110或移动终端110，移动终端110具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器120或者是多个服务器120组成的服务器120集群来实现。

用户通过终端110向智能客服系统提供输入文本，服务器120获取用户提供的输入文本后，应用本申请的实施例提供的对话方法，从数据库中提取匹配文本反馈至终端110，或者将与该匹配文本对应的相关信息反馈给用户，例如匹配文本是数据库中预存的标准问题，而与该匹配文本对应的相关信息是该标准问题的答案文本，则将该答案文本反馈给终端110。或者将与该匹配文本对应的相关信息反馈给终端110，例如匹配文本是数据库中预存的标准问题，而与该匹配文本对应的相关信息是该标准问题的答案文本，则将该答案文本反馈给终端110。

可以理解的是，本申请实施例提供的对话方法的应用领域可以但不限于包括天气查询领域、医疗咨询领域、政务咨询领域、保险咨询领域等不同的领域，在所述技术领域普通技术人员所具备的知识范围内，本申请实施例提供的对话方法可以根据本领域技术人员的具体业务需求应用在不同领域的智能客服系统中。

下面，将通过几个具体的实施例对本申请实施例提供的对话方法进行详细介绍和说明。

如图2所示，在一个实施例中，提供了一种对话方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。

参照图2，该对话方法具体包括如下步骤：

步骤S10，获取终端的输入文本。

其中，终端可以通过连接于终端的外设设备获取用户的输入文本，外设设备包括键盘、手写板等，如用户通过与终端连接的键盘输入需要进行匹配的输入文本。

步骤S12，将根据输入文本生成的第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，并根据第一词集与第二词集生成的特征词集的元素量在各组合词集的元素量中的占比，获取输入文本与各目标文本的各第一文本相似度分值。

在一实施例中，在获取输入文本后，通过对输入文本进行分词，从而得到输入文本对应的第一词集。其中，分词是指将一个连续的字符序列切分成多个单独的字符或者字符序列。具体地，计算机设备可采用预设的分词方式对输入文本进行分词处理，得到多个字符或者字符序列，从得到输入文本所对应的第一词集。其中，第一词集可以包括一个或者多于一个词，本实施例中，这些词被称为元素。预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式等。对目标文本进行分词生成第二词集的分词方式与对输入文本进行分词生成第一词集的分词方式相同，分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式等。

需要说明的是，将第一词集和第二词集进行元素合并，合并的结果是生成组合词集，合并的过程中遇到第一词集和第二词集具有重复的元素时，则将重复的该元素进行剔除至只保留一个在组合词集中为止，即取两个词集的并集，因此生成的组合词集中不会有两个相同的元素，如输入文本是“我想要给游戏账号充值”，对输入文本分词生成的第一词集为{‘我’‘想要’‘给’‘游戏’‘账号’‘充值’}；目标文本是“游戏充值”，对目标文本进行分词生成的第二词集为{‘游戏’‘充值’}。此时，将输入文本和目标文本进行元素合并，生成的组合词集为{‘我’‘想要’‘给’‘游戏’‘账号’‘充值’}。

在一实施例中，特征词集是由第一词集与所述第二词集之间相同的元素组成，即特征词集为两个词集之间的交集，其一定程度上表示第一词集和第二词集相似的程度。为了更精确地表述第一词集和第二词集之间的相似程度，还需要考虑第一词集和第二词集之间相同的元素在组合集合中的占比，这其实就是杰卡德相似系数的定义，杰卡德相似系数用于比较有限样本集之间的相似性与差异性。杰卡德相似系数值越大，样本相似度越高。由于利用杰卡德系数来确定文本相似度时，其计算量较小，因此采用该方式进行浅层匹配，能够在很好的节省计算开销，提高后续文本匹配的效率。

但是利用传统的杰卡德相似系数计算文本相似度时，由于输入文本中可能存在过多与用户目的无关的词汇，因此会造成虽然输入文本中用于表示用户目的的词汇很精确，但输入文本与最相似的目标文本的杰卡德相似系数可能过低，导致无法准确匹配。例如，用户输入的输入文本“我想要给游戏账号充值”，与目标文本“游戏充值”实质上是非常匹配的，即“游戏充值”正是用户输入文本的实际意图。但是由于输入文本中存在过多与用户目的无关的词汇，例如{‘我’‘想要’‘给’‘账号’}等，会造成最终的得到的杰卡德相似系数过低，从而无法匹配到目标文本，进而影响对话效率。

为此，在一实施例中，通过将第一词集与根据目标文本生成的第二词集进行元素合并，生成合并词集后，对合并词集进行降维处理，简化合并词集的元素数量，生成组合词集。即先获取第一词集与第二词集中元素的并集，再对并集进行降为处理，简化元素数量，形成组合词集。其中，对于组合词集进行降维处理就是对组合词集进行简化的过程，本实施例中对合并词集进行降维处理生成组合词集，其结果是使得组合词集的规模缩小，从而缩小组合词集对于第一文本相似度分值计算的影响。由于组合词集中存在过多与用户目的无关的词汇，因此通过对组合词集进行降维处理也相应缩小了组合词集中存在的噪声，提高了与文本匹配目标相关信息的比重，从而提升了文本相似度分值，提升了文本匹配的准确度。具体地，缩小组合词集的规模，对应到文本相似度分值计算公式上，实质就是缩小了对应于组合词集的参数的值。如输入文本是A，目标文本是B。输入文本A是“我想要给游戏账号充值”，对输入文本分词生成的第一词集为{‘我’‘想要’‘给’‘游戏’‘账号’‘充值’}；目标文本B是“游戏充值”，对目标文本进行分词生成的第二词集为{‘游戏’‘充值’}；其中，对应于组合词集的参数|A∪B|＝6，对应于特征词集的参数|A∩B|＝2。

作为本实施例的一个优选举例，对组合词集进行降维处理采用的具体手段是，将对应于组合词集的参数乘以小于1且大于0的系数，从而缩小该参数的值,本实施例中系数取0.5。当输入文本是A，目标文本是B时，文本相似度分值H的计算公式为：

作为本实施例的又一个优选举例，对组合词集进行降维处理采用的具体手段是，将对应于组合词集的参数进行开方，从而缩小该参数的值，本实施例中进行的开方为求平方根。当输入文本是A，目标文本是B时，文本相似度分值I的计算公式为：

可以理解的是，缩小对应于组合词集的参数不限于上述乘以系数或开方的手段，还包括本领域技术人员可以想到的其他手段。当输入文本中包含有过多与用户目的无关的词汇造成组合词集中引入过大噪声时，上述实施例通过将对应于组成词集的参数进行降维处理，缩小该参数的值，从而降低了过长的输入文本带入该参数中的噪声，从而提高了文本匹配的准确率。

虽然将组合词集对应的参数缩小可以很大程度地降低输入文本中噪声对于文本相似度分值的影响，但是将组合词集对应的参数缩得太小，可能会导致“过度匹配”现象，即由于预设阈值一般都小于1，当组合词集对应的参数缩小程度过大，就可能导致输入文本与大多数目标文本的文本相似度分值超过1，从而判定大多数的目标文本与输入文本匹配，会造成无法准确匹配到符合用户意图的目标句子。

因此，除了应该缩小组合词集对应的参数以降低噪声，同时该参数缩小的程度也需要引入一个标准以界定。作为上述实施例的改进，在一个实施例中，通过对合并词集与第二词集进行均值运算，获取合并词集的元素数量与第二词集的元素数量的平均值，根据平均值简化合并词集的元素数量，生成组合词集。其中，通过均值运算对合并词集对应的参数进行降维处理获得合并词集的元素数量与第二词集的元素数量的平均值的手段，将第二词集对应的参数(即第二词集的元素数量)作为缩小合并词集对应参数(即合并词集的元素数量)的标准，由于由第一词集和第二词集生产的特征词集对应的参数(即特征词集的元素数量)小于第二词集对应的参数，因此可以保证文本相似度分值不会大于1，减少“过度匹配”现象。

需要说明的是，当同一输入文本与多个目标文本具有相同的特征词集时，即在特征词集确定的情况下，需要从多个目标文本中选择与输入文本最相似的作为匹配文本。而通过在文本相似度分值计算公式中引入了第二词集对应的参数，即可实现在特征词集确定的情况下，从多个目标文本中选择出与输入文本最相似的文本作为匹配文本。例如，用户的输入文本C是“你好，我很想知道当前游戏的版本是多少”，对应的第一词集{‘你好’‘我’‘很想’‘知道’‘当前’‘游戏’‘的’‘版本’‘是’‘多少’}。数据库中保存的文本包括目标文本D“游戏版本”以及目标文本E“历史游戏版本”，二者作为目标文本时对应的第二词集分别为{‘游戏’‘版本’}和{‘历史’‘游戏’‘版本’}。显然二者与输入文本C具有相同的特征词集，此时，将第二词集对应的参数引入到文本相似度分值计算公式中，用于选择与特征词集更相似的目标文本。例如输入文本C与目标文本D和目标文本E的特征词集均为{‘游戏’‘版本’}，但是由于目标文本E的第二词集除了{‘游戏’‘版本’}，还包括与{‘历史’}相关的信息，所以认为目标文本D与特征词集更相似，因此，通过将第二词集对应的参数引入到文本相似度分值计算公式中，可以选择与特征词集更相似的目标文本。如其中一个举例中，当输入文本是C，目标文本分别为D时，输入文本C与目标文本D的文本相似度分值H的计算公式为：

当输入文本是C，目标文本分别为E时，输入文本C与目标文本E的文本相似度分值I的计算公式为：

步骤S13，检测各第一文本相似度分值中是否存在第一目标值，若存在，则将第一目标值对应的目标文本作为输入文本的匹配文本，以根据匹配文本向终端反馈对应信息，若不存在，则根据doc2vec模型生成输入文本的输入向量。

其中，第一目标值为各第一文本相似度分值中的最大值，目标值大于第一预设阈值。第一预设阈值可以但不限于取3/10。

当各第一文本相似度分值中最大的第一文本相似度分值超过该第一预设阈值，则将该第一文本相似度分值对应的目标文本作为匹配文本，若不存在，则根据doc2vec模型生成输入文本的输入向量，以进行语义匹配。

由于在利用doc2vec做特征表达时，使用的的算法部分是非确定性的，单词向量的初始化是确定性的，但由于单词随机采样时，负采样可能导致非确定性输出，从而造成同样的文本每次生成的句子向量存在差异性，导致当需要从多个目标文本中匹配到最优文本时误匹配的概率会增加，因此，在一实施例中，根据doc2vec模型，对输入文本做n次向量转换，对输入文本通过doc2vec模型进行n次向量转换，获取初始向量集后，对初始向量集的n个初始向量进行加权平均，生成输入向量，从而确保输入向量的准确度。

步骤S14，将所述输入向量与各所述目标文本一一对应的各目标向量集做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值。

在一实施例中，各第二文本相似度分值的获取方法可如图3所示，包括：

步骤S21，根据doc2vec模型，对各所述目标文本均进行n次向量转换，获取与各所述目标文本一一对应的各目标向量集。

其中，所述目标向量集包括n个目标向量。

步骤S22，将各目标文本对应的各目标向量集与输入向量做相似度运算，获取输入文本与各目标文本的各第二文本相似度分值。

由于doc2vec种子的随机性会造成每次生成的句子向量的差异性，因此在一实施例中，将目标文本多次通过doc2vec进行向量转换，每次转换均会生成一个目标向量，从而根据这些目标向量组成目标向量集。而为了保证后续匹配的准确度，目标向量集中的目标向量不能过少，但由于每次转换均需要耗费一定时长，若需求的目标向量过多，则会导致耗时过长。因此为平衡匹配精度和计算时长，n的取值范围被确定为10～20。优选的，通过实测，n的取值为11。

目标向量集与输入向量的匹配方式可以是先将目标向量集转换为特征向量后，再将特征向量与输入向量做相似度匹配，从而得到目标文本与输入文本的相似度。如对目标向量集的n个目标向量进行加权平均，生成特征向量后，将各目标文本对应的各特征向量与输入向量做余弦相似度运算，从而获取输入文本与各目标文本的各第二文本相似度分值。其中，通过这种方式生成特征向量时，由于无法确定各个目标向量对匹配准确度的影响程度，因此每个目标向量的权重相同。各特征向量通过分别与句子向量做余弦相似度运算，获取各特征向量与句子向量的相似度分值，进而提取与相似度分值最高的特征向量对应的目标文本作为匹配文本。通过这种方式，降低了目标向量集与句子向量匹配时计算的复杂度，节省了系统的计算开销。

由于算数平均数受抽样的影响较小，而通过doc2vec生成目标文本集可以看成一种抽样方式，因此利用算术平均的思想，使根据目标向量集得到的特征向量与输入向量进行余弦相似度计算时，在大多数情况下得到的分值是可信的，因此可以较好的实现输入文本与目标文本的匹配。但由于算术平均容易受一组数据中极端数值的影响，即当目标文本集中有一目标向量与其他目标向量差异过大时，可能会导致最终的分值不准确。因此，作为上述实施例的改进，在一实施例中，通过获取目标向量集的n个目标向量分别与输入向量进行相似度运算后的n个分值，对n个分值进行加权平均，生成第二文本相似度分值。具体的，获取目标向量集的n个目标向量分别与输入向量进行相似度运算后的n个分值，按分值高低赋予不同权重。其中，分值越高，赋予的权重越高，具体的权重大小可按预先设定的比例进行分配，在此不多赘述。为进一步增加后续匹配的准确度，优选的，匹配分值的生成方式可以为提取n个分值中大于预设值的k个分值进行加权平均，生成匹配分值，即将n个分值中小于预设值的分值的权重降为0，从而提高相似度较高的目标向量的权重，进而提高第二文本相似度分值的准确率。其中，k≤n。

步骤S15，检测各第二文本相似度分值中是否存在第二目标值，并当各所述第二文本相似度分值存在所述第二目标值时，将所述第二目标值对应的目标文本作为所述匹配文本，以根据所述匹配文本向所述终端反馈对应信息。

其中，所述第二目标值为各所述第二文本相似度分值中的最大值，所述第二目标值大于第二预设阈值。当各第一文本相似度分值中最大的第一文本相似度分值超过该第一预设阈值，则将该第一文本相似度分值对应的目标文本作为匹配文本，从而根据匹配文本向终端反馈对应信息。

本实施例先通过利用输入文本的词集与目标文本的词集进行浅层匹配，在浅层匹配失败后再通过对目标文本做n次向量生成，并将根据各目标文本形成的各目标向量集与输入文本生成的句子向量做相似度匹配从而确定匹配文本，以向用户反馈定的文本信息的语义匹配方式，从而实现浅层匹配和语义匹配的相互切换，进而在保证匹配准确率的同时，提高整体的对话效率。

进一步的，在进行浅层匹配时，由于一个智能客服系统可以同时涉及多个领域，例如游戏平台会同时销售与游戏角色有关的游戏角色的手办，因此该游戏平台的智能客服系统可能同时涉及购物领域和游戏领域。此时则可能会出现一个输入文本中包含有两个领域的关键词，例如输入文本为“我购买的游戏角色何时发货”，此时用户的意思可能是其在购物平台购买的“游戏角色手办”何时发货，也有可能是其在游戏中购买的“游戏角色”何时发货。此时由于输入文本过长而带来了二义性问题，如果智能客服系统不能够应对输入文本的二义性问题，而只给出其中一个意思对应的答案，会导致用户无法匹配到合适的目标文本，造成用户需要不断调整输入文本，增加用户交互成本，也增加了服务器的能耗。

为了解决上述问题，如图4所示，是另一个实施例中对话方法的流程示意图。除图2所示流程外，还包括：

步骤S11，对输入文本进行文本分类，确定输入文本对应的文本类别。

在一实施例中，存储目标文本的数据库中会预先按照领域划分为多个文本类别，例如购物领域、游戏领域等。本申请实施例中对输入文本进行文本分类，通过文本分类来识别出输入文本可能具有的多个语义，从而保证不会漏掉不同语义对于的目标文本，将对应于多个语义的目标文本反馈给用户，减少用户交互成本和服务器120的能耗。其中，为确保分类的准确度，可以采用knn算法进行文本分类。此外，将输入文本进行文本分类，也可以减少后续语义匹配的计算量。

但是，由于knn算法需要通过遍历的方式将输入文本与文本集中的每个目标文本进行相似度计算，在面对数目较大的文本集时，计算量大，内存开销大，导致需要消耗服务器大量的性能，并且计算速度较慢。因此，为解决上述问题，在一实施例中，如图5所示，包括：

步骤S31，对输入文本进行预处理，提取输入文本的词条。

具体的，可通过Hadoop平台或实时Storm平台，对输入文本进行解析，提取出可用于对输入文本进行准确定性和分类的词条。

步骤S32，将词条与根据各文本类生成的文本词集进行相似度运算，确定输入文本对应的文本类别。

其中，文本词集由各文本类中出现的频次超过预设频次的多个特征词组成。

在一实施例中，从每个文本类中均提取超过预设频次的多个特征词，来组成特征词库后，将特征词库的所有特征词与词条做knn运算，确定输入文本在第一文本类中的文本类型，从而无需将每个第一文本类中的文本都进行knn运算，大大减小计算开销。

为进一步提高分类效率，在从每个文本类中均提取超过预设频次的多个特征词之前，会先获取用户历史操作记录所属的文本类，将词条与历史操作记录对应的文本类的文本词集做相似度运算，获取对应的相似度后，检测该相似度是否大于满足要求，若是，则将历史操作记录对应的文本类确定为输入文本的文本类型，否则，从每个文本类中均提取超过预设频次的多个特征词，进而利用特征词确定分类。作为本实施例的一个举例，其中，用户操作记录包括用户终端的下载记录和用户的访问记录等，当检测到用户终端最近一次的历史操作记录是登录某款游戏，则优先将输入文本与对应该款游戏的文本类进行匹配，若匹配分数满足设定值，则将输入文本确定为该文本类的文本类型。由于用户的近期活动可能大概率与输入文本有关联，因此将输入文本优先与历史记录相关的文本类型进行匹配，大概率能够直接确定输入文本在各文本类中的文本类型，从而通过在与各文本类的词集进行相似度运算之前，优先与历史记录对应的文本类进行匹配，若匹配成功，则可直接确定输入文本的文本类，无需进行后续多个文本类的匹配，大大提高文本分类的效率，而即使未匹配成功，整体上也只是多进行了一次运算，不会对分类效率造成影响。

进一步的，在进行语义匹配时，由于通过利用doc2vec模型实现的语义匹配是基于文字表示的方式的语义匹配，其依旧有小概率可能存在匹配不到对应的目标文本的情况，导致信息无法及时反馈。因此为了更好的实现信息的反馈，如图6所示，为另一个实施例中对话方法的流程示意图。除图2所示流程外，还包括：

步骤S16，在检测到各第二文本相似度分值中不存在第二目标值时，根据bert模型提取输入文本的第一文本向量后，将第一文本向量与各目标文本根据bert模型提取的各第二文本向量做相似度匹配，确定匹配文本，以根据匹配文本向终端反馈对应信息。

进一步的，在一个实施例中，如图7所示，提供了一种对话装置，包括：

文本提取模块100，用于获取终端的输入文本。

模糊匹配模块102，用于将根据输入文本生成的第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，并根据第一词集与第二词集生成的特征词集的元素量在各组合词集的元素量中的占比，获取输入文本与各目标文本的各第一文本相似度分值。

第一检测模块103，用于检测各第一文本相似度分值中是否存在第一目标值，若存在，则将第一目标值对应的目标文本作为输入文本的匹配文本，以根据匹配文本向终端反馈对应信息，若不存在，则根据doc2vec模型生成输入文本的输入向量。

其中，第一目标值为各第一文本相似度分值中的最大值，目标值大于第一预设阈值。

语义匹配模块104，用于将输入向量与各目标文本一一对应的各目标向量集做相似度运算，获取输入文本与各目标文本的各第二文本相似度分值。

第二检测模块105，用于检测各第二文本相似度分值中是否存在第二目标值，并当各第二文本相似度分值存在第二目标值时，将第二目标值对应的目标文本作为匹配文本，以根据匹配文本向终端反馈对应信息；其中，第二目标值为各第二文本相似度分值中的最大值，第二目标值大于第二预设阈值。

在一实施例中，模糊匹配模块102还用于，将第一词集与根据目标文本生成的第二词集进行元素合并，生成合并词集后，对合并词集进行降维处理，简化合并词集的元素数量，生成组合词集。

在一实施例中，模糊匹配模块102还用于，对合并词集与第二词集进行均值运算，获取合并词集的元素数量与第二词集的元素数量的平均值，根据平均值简化合并词集的元素数量，生成组合词集。

在一实施例中，语义匹配模块104具体用于，根据doc2vec模型，对各目标文本均进行n次向量转换，获取与各目标文本一一对应的各目标向量集。其中，目标向量集包括n个目标向量。将各目标文本对应的各目标向量集与输入向量做相似度运算，获取输入文本与各目标文本的各第二文本相似度分值。

在一实施例中，语义匹配模块104还用于，对目标向量集的n个目标向量进行加权平均，生成特征向量后，将各目标文本对应的各特征向量与输入向量做相似度运算，获取输入文本与各目标文本的各第二文本相似度分值。

在一实施例中，语义匹配模块104还用于，获取目标向量集的n个目标向量分别与输入向量进行相似度运算后的n个分值，对n个分值进行加权平均，生成第二文本相似度分值。

在一实施例中，第二检测模块105还用于，在检测到各第二文本相似度分值中不存在第二目标值时，根据bert模型提取输入文本的第一文本向量后，将第一文本向量与各目标文本根据bert模型提取的各第二文本向量做相似度匹配，确定匹配文本，以根据匹配文本向终端反馈对应信息。

在另一个实施例中，如图8所示，对话装置还包括：

文本分类模块101，用于对输入文本进行文本分类，确定输入文本对应的文本类别。

在一实施例中，文本分类模块101具体用于，对输入文本进行预处理，提取输入文本的词条，将词条与根据各文本类生成的文本词集进行相似度运算，确定输入文本对应的文本类别。其中，文本词集由各文本类中出现的频次超过预设频次的多个特征词组成。

图9示出了一个实施例中计算机设备的内部结构图。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现对话方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行对话方法。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的对话装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该对话装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的对话方法中的步骤。

在一个实施例中，提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述对话方法的步骤。此处对话方法的步骤可以是上述各个实施例的对话方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述对话方法的步骤。此处对话方法的步骤可以是上述各个实施例的对话方法中的步骤。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种对话方法，其特征在于，包括：

获取终端的输入文本；

将根据所述输入文本生成的第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，并根据第一词集与第二词集生成的特征词集的元素量在各所述组合词集的元素量中的占比，获取所述输入文本与各所述目标文本的各第一文本相似度分值；其中，所述特征词集为所述第一词集与所述第二词集之间相同的元素形成的词集；

2.根据权利要求1所述的一种对话方法，其特征在于，所述将所述第一词集与根据目标文本生成的第二词集进行元素合并，生成组合词集，包括：

3.根据权利要求2所述的一种对话方法，其特征在于，所述对所述合并词集进行降维处理，简化所述合并词集的元素数量，生成组合词集，包括：

4.根据权利要求1所述的一种对话方法，其特征在于，所述将所述输入向量与各所述目标文本一一对应的各目标向量集做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值，包括：

5.根据权利要求4所述的一种对话方法，其特征在于，所述将各所述目标文本对应的各所述目标向量集与根据输入文本生成的句子向量做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值，包括：

6.根据权利要求4所述的一种对话方法，其特征在于，所述将各所述目标文本对应的各所述目标向量集与根据输入文本生成的句子向量做相似度运算，获取所述输入文本与各所述目标文本的各第二文本相似度分值，包括：

7.根据权利要求1所述的一种对话方法，其特征在于，还包括：

8.根据权利要求1所述的一种对话方法，其特征在于，在根据所述输入文本生成第一词集之前，还包括：

9.根据权利要求8所述的一种对话方法，其特征在于，所述对所述输入文本进行文本分类，确定所述输入文本对应的文本类别，包括：

对所述输入文本进行预处理，提取所述输入文本的词条；

10.一种对话装置，其特征在于，包括：

文本提取模块，用于获取终端的输入文本；

11.根据权利要求10所述的一种对话装置，其特征在于，还包括：

12.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9中任一项所述的对话方法。