CN116089539A

CN116089539A - 基于milvus数据库的客服系统实现方法、设备及存储介质

Info

Publication number: CN116089539A
Application number: CN202211462498.4A
Authority: CN
Inventors: 詹乐
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-05-09

Abstract

本申请公开了基于milvus数据库的客服系统实现方法、设备及存储介质。方法包括：获取用户请求数据，其中请求数据包括中英文字符；请求数据输入SimCSE模型，得到请求数据的句向量；基于由SimCSE模型训练数据而建立的索引，使用请求数据的句向量在milvus数据库中进行搜索，得到相关结果；计算请求数据的句向量与相关结果的句向量的相似度；返回相似度最高的前n条数据，其中n为自然数。在SimCSE模型内部对Attention值的计算序列进行改进，在计算时使用采用最大滑动窗口的方法来获取最相近的token后再进行计算。上述方案，有利于缩短查询时间，提高客服系统的质量。

Description

基于milvus数据库的客服系统实现方法、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于milvus数据库的客服系统实现方法、设备及存储介质。

背景技术

近年来，随着互联网技术的快速发展，人工智能技术广泛应用于各行各业，其中，针对智能客服系统的构建不断提出优化方案。milvus数据库是2020年推出的开源数据库产品，主要用来存储高维度向量，并设置多种索引建立方式，应用于向量查询、检索建立，能够为万亿级向量数据建立索引。milvus数据库与传统的mysql数据库不同，它是一种向量数据库，只有行结构，能够很好地应对海量向量数据，通过合理调度数据和硬件的算力，达到获得最优搜索性能的效果。

一般地，传统的客服系统使用mysql数据库来存储数据，在用户请求前需要实时计算句向量，若将提前离线计算的向量存储在mysql数据库中，不仅占用较大的缓存，每次增量更新都会占用较大时长，造成查询时间过长，用户的体验也会受到很大的影响。

发明内容

针对上述技术问题，本申请提供一种可用于金融科技或其他相关领域的基于milvus数据库的客服系统实现方法、设备及存储介质，能够缩短查询时间，提高客服系统的质量，提升用户体验。

本申请第一方面提供了一种基于milvus数据库的客服系统实现方法，所述方法包括：获取用户请求数据，其中请求数据包括至少一个中英文字符；请求数据输入SimCSE模型，得到请求数据的句向量；基于由SimCSE模型训练数据而建立的索引，使用请求数据的句向量在milvus数据库中进行搜索，得到相关结果；计算请求数据的句向量与相关结果的句向量的相似度；返回相似度最高的前n条数据，其中n为自然数。

本申请第二方面提供了一种计算机设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的基于milvus数据库的客服系统实现方法。

本申请第三方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的图像检测模型的训练方法，或实现上述第二方面中的图像检测方法。

上述方案，通过使用SimCSE模型，计算完所有客服数据的句向量后直接存入milvus数据库中，并在数据库内部使用倒排索引的方法建立索引，基于数据库内建立好的索引，将请求数据转化成的句向量在milvus数据库中进行搜索，得到相关结果。数据库内建立好的索引加快了搜索的速度，缩短了查询时间。根据得到的相关结果再进行相似度计算，给用户返回最终结果，有助于提高客服系统质量，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请基于milvus数据库的客服系统实现方法一实施例的流程示意图；

图2是本申请一实施例中索引建立的流程示意图；

图3是本申请基于milvus数据库的客服系统实现方法另一实施例的流程示意图；

图4是传统客服系统的结构示意图；

图5是本申请优化后的客服系统的结构示意图；

图6是本申请改进后的SimCSE模型计算Attention值的一实施例的流程示意图；

图7是Attention优化后的token计算序列示意图；

图8是本申请计算机设备一实施例的框架示意图；

图9是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1，图1是本申请基于milvus数据库的客服系统实现方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取用户请求数据，其中，所述请求数据包括至少一个中英文字符。

本公开实施例中，所述用户请求数据即为用户输入的需要咨询的问题，客服系统获取所述用户请求数据。在一个具体实施例中，可以通过智能客服系统来引导用户进行自助服务，而且还能够针对用户提供的一些咨询问题进行解答，实现更加灵活的人机交互，帮助用户解决遇到的问题，提高用户体验。

步骤S12：所述请求数据输入SimCSE模型，得到所述请求数据的句向量。

本公开实施例中，采用的对比学习模型是SimCSE模型，是最新的对比学习模型，应用于对比句向量的表征。SimCSE模型主要分为两部分，一个是无监督的部分，一个是有监督的部分，对于无监督的部分，按照一定的概率将神经网络单元暂时从网络中丢弃，以此来对文本增加噪音，从而构造一个正样本对，而负样本对则是在批处理中选取的其它句子，对于有监督的部分，这一部分的句子对直接采用了自然语言推理数据集的数据，因为其中有天然的正负例句子对。SimCSE模型可以用于拉近同一输入文本的不同向量，疏远不同输入文本的向量表示，从而提高用户返回结果的准确性，提升客服系统的服务质量。

步骤S13：基于由所述SimCSE模型训练数据而建立的索引，使用所述请求数据的句向量在所述milvus数据库中进行搜索，得到相关结果。

本公开实施例中，所述相关结果包括索引ID以及与所述索引ID对应的所述客服数据的句向量。

在一个具体实施例中，在所述请求数据输入所述SimCSE模型之前，利用客服数据建立索引，如图2所示，图2是本申请一实施例中索引建立的流程示意图，具体而言，可以包括如下步骤：

步骤S21：获取客服数据，进行预处理后输入所述SimCSE模型。

步骤S22：将所述客服数据在所述SimCSE模型中进行训练，计算所述客服数据的句向量，训练完后将所述客服数据的句向量传入所述milvus数据库内保存。

步骤S23：在所述milvus数据库内部倒排建立所述索引，生成索引ID，其中，所述索引ID与相应的所述客服数据的句向量对应。

索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。milvus数据库中的索引是用于提高数据库表的数据访问速度，避免进行数据库所有内容的扫描，大多数情况，只需要扫描较少的索引页和数据页，而不是查询所有数据页。建立索引采用在milvus数据库内部使用倒排索引，倒排索引是一种基于量化的索引类型。它通过聚类方法把空间里的点划分成nlist个单元，查询时先把目标向量与所有单元的中心做距离比较，选出nprobe个最近单元，然后比较这些被选中单元里的所有向量，得到最终的结果，从而加快了搜索的速度，缩短了查询响应时间。

参阅图1，步骤S14：计算所述请求数据的句向量与所述相关结果的句向量的相似度。

本公开实施例中，利用内积计算所述相关结果的句向量与所述请求数据的句向量的相似度，内积的大小反映了向量相似度的大小。内积计算公式如下：

其中，A_i和B_i是向量中的每个元素，N是向量的维度。

步骤S15：返回相似度最高的前n条数据，其中n为自然数。

上述方案，主要使用milvus数据库与SimCSE对比学习模型，其中SimCSE模型用来训练数据句向量，训练完后将句向量在milvus数据库中保存，并创建索引与距离公式，当用户请求query数据进入后，使用其句向量进行搜索排序，其中以内积计算相似度，最后返回最终结果，从而达到提升客服系统质量的效果，建立的索引能够缩短查询时间，提升用户体验。

请参阅图3，图3是本申请基于milvus数据库的客服系统实现方法另一实施例的流程示意图，具体而言，可以包括如下步骤：

步骤S31：存储训练数据于mysql数据库中。

本公开实施例中，所述训练数据包括客服数据，此时存储于mysql数据库中的训练数据为初始训练数据，在经过AI模型训练完后，所生成的所述训练数据句向量将会传入milvus数据库保存。

步骤S32：输入训练数据至AI模型。

本公开实施例中，所述AI模型选用对比学习模型中的SimCSE模型。

步骤S33：获取query请求。

本公开实施例中，所述query请求即为步骤S11中获取的用户请求数据，获取query请求之后需输入SimCSE模型计算其句向量。

步骤S34：在milvus数据库内使用query请求的句向量进行搜索排序。

本公开实施例中，在所述query请求的句向量在milvus数据库内搜索排序之前，需建立milvus数据库内的索引，具体步骤可参阅图2中的流程步骤，在此不再赘述。

步骤S35：返回相似度最高的tok条结果，其中k为自然数。

请参阅图4，图4是传统客服系统的结构示意图。如图4所示，传统客服系统400由4个模块构成，分别为算法模块401、数据库模块402、搜索模块403、排序模块404。

在一些实施例中，传统客服系统400中的算法模块401基于AI模型，用于离线计算句向量，计算完成之后上传到数据库模块402；数据库模块402基于mysql数据库，用于存储知识库数据；搜索模块403基于solr搜索引擎，用于搜索相关数据，召回数据；排序模块404，用于计算当前query请求数据与搜索召回后的数据之间的相似度，并根据相似度值进行排序，最终传统客服系统400返回给用户相似度最高的前k条数据，其中k为自然数。传统客服系统在线上部署后较为复杂，搜索响应时间较长，因此，本申请对客服系统架构进行优化。

请参阅图5，图5是本申请优化后的客服系统的结构示意图。如图5所示，本申请优化后的客服系统500由3个模块构成，分别为算法模型模块501、数据库存储模块502、搜索排序模块503。

在本公开实施例中，算法模型模块501采用SimCSE对比学习模型，用于训练客服数据，在对客服数据进行标点去除等预处理后，直接输入到SimCSE模型进行训练，训练完后的数据输入数据库存储模块502；数据库存储模块502是基于milvus数据库，用于存储高维度向量，并设置索引建立，在milvus数据库内部使用倒排索引的方法建立索引，最后在milvus数据库中通过内积来计算向量距离；搜索排序模块503基于经过算法模型模块501训练后的数据所建立的索引，milvus数据库可对数据进行搜索和排序操作，即输入请求数据至milvus数据库中，直接进行搜索和排序，返回最终结果。

请参阅图6，图6是本申请改进后的SimCSE模型计算Attention值的一实施例的流程示意图，具体而言，可以包括如下步骤：

步骤S61：获取同一向量的3种不同标准化形式，分别为第一标准化形式向量Q、第二标准化形式向量K、第三标准化形式向量V；

步骤S62：将所述第一标准化形式向量Q与所述第二标准化形式向量K中最相近的n个向量Kn进行矩阵运算；

步骤S63：将得到的向量结果与所述第三标准化形式向量V中最相近的n个向量即Vn进行计算；

步骤S64：对结果做归一化处理，计算attention值，其中，所述n的值通过模型训练确定。

本公开实施例中，所述第一标准化形式向量Q中的每个向量与所述Kn转置后的所有向量进行矩阵乘法计算，Attention值计算公式如下所示：

其中，Q,K,V分别为第一标准化形式向量、第二标准化形式向量、第三标准化形式向量，d是每个向量的维度，N是Q中的向量与K中当前最接近的N个向量，Softmax函数是对向量做归一化处理。

上述方案，在计算Attention值时，计算QK_N ^T时，使用的进行矩阵运算，而不是每次都计算K中的所有向量，得到的向量结果最后与V_N计算来保持矩阵大小维度一定。N的值需要通过模型训练来最终确定，从而能够减少占用资源和计算时间，缩短查询时间。

在SimCSE模型内部，由于对全部token计算Attention值较为耗费时间，占用过多资源，且经过语义分析得出，每个token只与前后相邻的token较为相关，与距离较远的token相关度并不大，因此可以采用一种最大滑动窗口的方法来获取最相近的token后再进行计算。在一个具体实施例中，采用最大滑动窗口法获取最相近的token，其中，当滑动窗口大小为N时，token计算序列更新为当前所述token与其前后N个token。请参阅图7，图7是Attention优化后的token计算序列示意图，在一个具体实施场景中，例如，使用milvus1.1.0版本构建数据库系统，使用docker工具在服务器中进行计算，设置最大内存512MB，可存储200W条数据。当全部token为{平、安、银、行、股、份、有、限、公司}，滑动窗口大小为N＝2时，若当前计算的token为{‘银’}，则Attention计算的相邻token是{平、安、银、行、股}，组成为的计算序列包括当前token与其前后2个token，而不是全部token。本申请实施例与基于mysql数据库的传统客服系统进行对比，使用20W条客服数据进行训练，最终系统返回结果准确率保持不变，每次的响应时间平均减少了57ms，缩短了查询时间，提高用户体验。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图8，图8是本申请计算机设备80一实施例的框架示意图。计算机设备80包括相互耦接的存储器801和处理器802，处理器802用于执行存储器801中存储的程序指令，以实现上述任一基于milvus数据库的客服系统实现方法实施例中的步骤。在一个具体的实施场景中，计算机设备80可以包括但不限于：微型计算机、服务器，此外，计算机设备80还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器802用于控制其自身以及存储器801以实现上述任一基于milvus数据库的客服系统实现方法实施例中的步骤。处理器802还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器802可能是一种集成电路芯片，具有信号的处理能力。处理器802还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器802可以由集成电路芯片共同实现。

请参阅图9，图9为本申请计算机可读存储介质90一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令901，程序指令901用于实现上述任一基于milvus数据库的客服系统实现方法实施例中的步骤。

上述方案，客服系统实现方法基于milvus数据库作为向量存储数据库，通过使用SimCSE对比学习模型，对向量采用内积进行相似度计算，再给用户返回最终结果，有助于提高客服系统质量，提升用户体验。在数据库内部使用倒排索引的方法建立索引，快速查找到所需的内容，有助于提高客服系统答复效率。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于milvus数据库的客服系统实现方法，其特征在于，包括：

获取用户请求数据，其中，所述请求数据包括至少一个中英文字符；

所述请求数据输入SimCSE模型，得到所述请求数据的句向量；

基于由所述SimCSE模型训练数据而建立的索引，使用所述请求数据的句向量在所述milvus数据库中进行搜索，得到相关结果；

计算所述请求数据的句向量与所述相关结果的句向量的相似度；

返回相似度最高的前n条数据，其中n为自然数。

2.根据权利要求1所述的方法，其特征在于，所述索引建立的过程包括：

获取客服数据，进行预处理后输入所述SimCSE模型；

将所述客服数据在所述SimCSE模型中进行训练，计算所述客服数据的句向量，训练完后将所述客服数据的句向量传入所述milvus数据库内保存；

在所述milvus数据库内部倒排建立所述索引，生成索引ID，其中，所述索引ID与相应的所述客服数据的句向量对应。

3.根据权利要求1所述的方法，其特征在于，使用所述请求数据的句向量在所述milvus数据库中进行搜索，包括：

所述请求数据的句向量与所述索引匹配，得到所述相关结果。

4.根据权利要求1所述的方法，其特征在于，所述相关结果，包括：

索引ID以及与所述索引ID对应的客服数据的句向量。

5.根据权利要求1所述的方法，所述计算所述相关结果的句向量与所述请求数据的句向量的相似度，其特征在于，利用内积计算所述相关结果的句向量与所述请求数据的句向量的相似度。

6.根据权利要求1所述的方法，其特征在于，所述SimCSE模型的实现过程包括：

获取同一向量的3种不同标准化形式，分别为第一标准化形式向量Q、第二标准化形式向量K、第三标准化形式向量V；

将所述第一标准化形式向量Q与所述第二标准化形式向量K中最相近的n个向量即Kn进行矩阵运算；

将得到的向量结果与所述第三标准化形式向量V中最相近的n个向量即V_n进行计算；

最后对所述相关结果做归一化处理，计算attention值；

其中，所述n的值通过模型训练确定。

7.根据权利要求6所述的方法，其特征在于，将所述第一标准化形式向量Q与所述第二标准化形式向量K中最相近的n个向量即Kn进行矩阵运算，包括：

所述第一标准化形式向量Q中的每个向量与所述Kn转置后的所有向量进行矩阵乘法计算。

8.根据权利要求6所述的方法，其特征在于，所述n的值通过模型训练确定，包括：

采用最大滑动窗口法获取最相近的token，其中，当所述滑动窗口大小为n时，token计算序列更新为当前所述token与其前后n个token。

9.一种计算机设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至8任一项所述的方法。