CN112329428A

CN112329428A - 文本相似度最佳阈值自动寻找及优化方法及装置

Info

Publication number: CN112329428A
Application number: CN202011374448.1A
Authority: CN
Inventors: 苑晓科; 唐正才; 田凤占
Original assignee: T&i Net Communication Co ltd
Current assignee: T&i Net Communication Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-05
Anticipated expiration: 2040-11-30
Also published as: CN112329428B

Abstract

本发明提供了一种文本相似度最佳阈值自动寻找及优化方法及装置。该方法包括：根据问题列表中每个问题的向量表示，计算问题相似度矩阵；遍历问题类别及问题相似度矩阵，得到问题类别平均相似度矩阵；判断是否有类间问题相似度大于类别平均相似度；如果有，则发现存在的配置问题，并重复上述操作，直至不再存在类间问题相似度大于类别平均相似度的情况；当不再存在类间问题相似度大于类别平均相似度的情况时，遍历问题类别平均相似度矩阵，得到最优相似度阈值。本发明提供的文本相似度最佳阈值自动寻找及优化方法及装置能够自动寻找适合该机器人已配置数据集的相似度阈值。

Description

文本相似度最佳阈值自动寻找及优化方法及装置

技术领域

本发明涉及机器问答技术领域，特别是涉及一种文本相似度最佳阈值自动寻找及优化方法及装置。

背景技术

针对用户信息获取类的需求，对话机器人的FAQ问答模型的核心处理步骤是将用户问题文本编码为一个表示向量，再计算该向量与已配置问题集或前置步骤已召回的相似问题列表中每个问题的的编码向量之间的相似度，相似度超过系统配置阈值的问题作为命中问题，再将相应的答案回复给用户。相似度阈值一般根据经验设置一个固定的值，比如0.75、0.8、0.85等。

阈值设置的是否合理直接影响FAQ问答模型的性能，然而固定的相似度阈值不可能适配不同场景的不同问答对数据集，而机器人训练师也无法根据所配置问答对数据估计一个合适的阈值，从而导致所配置的机器人问答效果无法达到最佳的准确率和召回率。

发明内容

本发明要解决的技术问题是提供一种文本相似度最佳阈值自动寻找及优化方法及装置，能够自动寻找适合该机器人已配置数据集的相似度阈值。为解决上述技术问题，本发明提供了一种文本相似度最佳阈值自动寻找及优化方法，所述方法包括：根据问题列表中每个问题的向量表示，计算问题相似度矩阵；遍历问题类别及问题相似度矩阵，得到问题类别平均相似度矩阵；判断是否有类间问题相似度大于类别平均相似度；如果有，则发现存在的配置问题，并重复上述操作，直至不再存在类间问题相似度大于类别平均相似度的情况；当不再存在类间问题相似度大于类别平均相似度的情况时，遍历问题类别平均相似度矩阵，得到最优相似度阈值。

在一些实施方式中，还包括：在根据问题列表中每个问题的向量表示，计算问题相似度矩阵之前，形成问题类别列表；使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。

在一些实施方式中，NLP技术文本表示算法包括：TFIDF词频统计算法。

在一些实施方式中，还包括：在形成问题类别列表之前，获取对话机器人的FAQ数据配置的问题列表。

在一些实施方式中，判断是否有类间问题相似度大于类别平均相似度，包括：选取问题列表中的一个问题；根据该问题的类别配置，计算该问题的类别平均相似度；根据问题相似度矩阵，判断与该问题有关的类间问题相似度是否均小于类别平均相似度。

此外，本发明还提供了一种文本相似度最佳阈值自动寻找及优化装置，所述装置包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的文本相似度最佳阈值自动寻找及优化方法。

采用这样的设计后，本发明至少具有以下优点：

自动寻找适合该机器人已配置数据集的相似度阈值，FAQ问答模型在召回率不降低的情况下，精确率提高3个百分点；

计算问题的类内和类间平均相似度过程，可以发现FAQ数据集中存在问题的扩展问配置，作为对话机器人配置的健康检查工具，针对发现的问题进一步优化；

后续将实际对话中未匹配或误匹配问题标注后加入机器人配置，重新计算相似度阈值后，可持续优化机器人FAQ问答模型性能。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是本发明实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程图；

图2是本发明实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程图；

图3是本发明实施例提供的文本相似度最佳阈值自动寻找及优化装置的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1示出了本发明本发明实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程。参见图1，文本相似度最佳阈值自动寻找及优化方法包括以下步骤：

S11，获取对话机器人的FAQ数据配置的问题列表。

S12，形成问题类别列表，使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。

典型的，NLP技术文本表示算法或深度学习预训练模型可以是：TFIDF词频统计算法。

S13，根据问题列表中每个问题的向量表示，计算问题相似度矩阵。

S14，遍历问题类别及问题相似度矩阵，得到问题类别平均相似度矩阵。

S15，判断是否有类间问题相似度大于类别平均相似度，如果存在类间问题相似度大于类别平均相似度的情况，执行S16，如果不再存在类间问题相似度大于类别平均相似度的情况，执行S18。

判断过程可以是，遍历问题列表中的每个问题，看属于该问题的类间问题相似度是否有大于类别平均相似度的问题。

S16，优化FAQ配置。

此处，FAQ配置可以理解为问题类别配置的另一种形式。而且，FAQ配置通常包括不同问题的类别归属。

优化FAQ配置的操作完成后，执行S11的操作。

S17，根据FAQ配置生成对话机器人FAQ问题配置数据。

S18，遍历问题类别平均相似度矩阵，得到最优相似度阈值。

图2示出了本发明另一个实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程。参见图2，文本相似度最佳阈值自动寻找及优化方法包括以下步骤：

S21，获取对话机器人的FAQ数据配置的问题列表。

S22，形成问题类别列表，使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。

S23，根据问题列表中每个问题的向量表示，计算问题相似度矩阵。

S24，遍历问题类别及问题相似度矩阵，得到问题类别平均相似度矩阵。

S25，判断是否有类间问题相似度大于类别平均相似度，如果存在类间问题相似度大于类别平均相似度的情况，执行S26，如果不再存在类间问题相似度大于类别平均相似度的情况，执行S27。

S26，优化问题列表配置，完成后执行S23。

S27，遍历问题类别平均相似度矩阵，得到最优相似度阈值。

图2示出的实施例与图1示出的实施例的最大不同在于，在每次进行配置优化调整之后，不再从头运行数据获取、数据预处理的操作，而是直接根据调整后的配置计算相似度矩阵，以及后续的操作。

图3示出了文本相似度最佳阈值自动寻找及优化装置的结构。参见图3，例如，所述文本相似度最佳阈值自动寻找及优化装置300可以用于充当文本处理系统中的文本相似度阈值设置装置。如本文所述，文本相似度最佳阈值自动寻找及优化装置300可以用于在微服务系统中实现对文本处理系统中的文本相似度阈值的自动寻优调整功能。文本相似度最佳阈值自动寻找及优化装置300可以在单个节点中实现，或者文本相似度最佳阈值自动寻找及优化装置300的功能可以在网络中的多个节点中实现。本领域的技术人员应意识到，术语文本相似度最佳阈值自动寻找及优化装置包括广泛意义上的设备，图3中示出的文本相似度最佳阈值自动寻找及优化装置300仅是其中一个示例。包括文本相似度最佳阈值自动寻找及优化装置300是为了表述清楚，并不旨在将本发明的应用限制为特定的文本相似度最佳阈值自动寻找及优化装置实施例或某一类文本相似度最佳阈值自动寻找及优化装置实施例。本发明所述的至少部分特征/方法可以在网络装置或组件，例如，文本相似度最佳阈值自动寻找及优化装置300中实现。例如，本发明中的特征/方法可以采用硬件、固件和/或在硬件上安装运行的软件实现。文本相似度最佳阈值自动寻找及优化装置300可以是任何通过网络处理，存储和/或转发数据帧的设备，例如，服务器，客户端，数据源等。如图3所示，文本相似度最佳阈值自动寻找及优化装置300可以包括收发器(Tx/Rx)310，其可以是发射器，接收器，或其组合。Tx/Rx310可以耦合到多个端口350(例如上行接口和/或下行接口)，用于从其他节点发送和/或接收帧。处理器330可耦合至Tx/Rx310，以处理帧和/或确定向哪些节点发送帧。处理器330可以包括一个或多个多核处理器和/或存储器设备332，其可以用作数据存储器，缓冲区等。处理器330可以被实现为通用处理器，或者可以是一个或多个专用集成电路(application specific integrated circuit，简称ASIC)和/或数字信号处理器(digital signal processor，简称DSP)的一部分。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种文本相似度最佳阈值自动寻找及优化方法，其特征在于，包括：

根据问题列表中每个问题的向量表示，计算问题相似度矩阵；

遍历问题类别及问题相似度矩阵，得到问题类别平均相似度矩阵；

判断是否有类间问题相似度大于类别平均相似度；

如果有，则发现存在的配置问题，并重复上述操作，直至不再存在类间问题相似度大于类别平均相似度的情况；

当不再存在类间问题相似度大于类别平均相似度的情况时，遍历问题类别平均相似度矩阵，得到最优相似度阈值。

2.根据权利要求1所述的文本相似度最佳阈值自动寻找及优化方法，其特征在于，还包括：

在根据问题列表中每个问题的向量表示，计算问题相似度矩阵之前，形成问题类别列表；

使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。

3.根据权利要求2所述的文本相似度最佳阈值自动寻找及优化方法，其特征在于，NLP技术文本表示算法包括：TFIDF词频统计算法。

4.根据权利要求2所述的文本相似度最佳阈值自动寻找及优化方法，其特征在于，还包括：

在形成问题类别列表之前，获取对话机器人的FAQ数据配置的问题列表。

5.根据权利要求1所述的文本相似度最佳阈值自动寻找及优化方法，其特征在于，判断是否有类间问题相似度大于类别平均相似度，包括：

选取问题列表中的一个问题；

根据该问题的类别配置，计算该问题的类别平均相似度；

根据问题相似度矩阵，判断与该问题有关的类间问题相似度是否均小于类别平均相似度。

6.一种文本相似度最佳阈值自动寻找及优化装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至5任意一项所述的文本相似度最佳阈值自动寻找及优化方法。