CN117076636A

CN117076636A - 一种智能客服的信息查询方法、系统和设备

Info

Publication number: CN117076636A
Application number: CN202311048440.XA
Authority: CN
Inventors: 孙守仁; 许明; 温国兴
Original assignee: Itruschina Co ltd
Current assignee: Itruschina Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-17

Abstract

本申请涉及一种智能客服的信息查询方法，涉及智能客服领域，该方法包括：获取用户输入的提问语句，将提问语句转化成第一向量；在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量；判断是否可以查找到目标向量，如果查找到目标向量，则获取与目标向量对应的答案语句，将答案语句进行显示。有助于客服系统在处理复杂问题或进行模糊查询时，提供更加准确的回答，进而提高用户的体验效果。

Description

一种智能客服的信息查询方法、系统和设备

技术领域

本申请涉及智能客服领域，尤其涉及一种智能客服的信息查询方法、系统和设备。

背景技术

随着互联网的发展，在线客服系统已经成为公司与客户进行有效沟通的重要手段。然而，传统的客服系统往往基于关键词匹配进行查询，提问内容的关键信息必须与客服系统中已有的内容完全匹配上才可以返回答案，否则则无法回答，因此，现有的客服系统在处理复杂问题或进行模糊查询时，会出现无法提供回答或答非所问的情况，导致用户体验效果差的问题。

发明内容

为此，本申请提供一种智能客服平台的查询方法、系统和设备，有助于客服系统在处理复杂问题或进行模糊查询时，提供更加准确的回答，进而提高用户的体验效果。

为实现以上目的，本申请采用如下技术方案：

第一方面，本申请提供一种智能客服的信息查询方法，包括：

获取用户输入的提问语句，将提问语句转化成第一向量；

在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量；

判断是否可以查找到目标向量，如果查找到目标向量，则获取与目标向量对应的答案语句，将答案语句进行显示。

进一步地，判断是否可以查找到目标向量之后，还包括：

如果不能查找到目标向量，则将目标向量输入预设提问模型，利用预设提问模型生成答案语句，并将答案语句进行显示。

进一步地，将提问语句转化成第一向量，包括：

对初始提问语句进行预处理，得到提问语句，其中，预处理包括标准化、分词、删除停用词和词干提取中的一种或多种；

利用预设语义向量转化模型将提问语句转化为第一向量。

进一步地，在向量数据库中查找与第一向量相匹配的目标向量，包括：

计算向量数据库中的各个第二向量与第一向量的相似度；

将相似度大于等于预设阈值的第二向量作为第一向量的目标向量。

进一步地，计算向量数据库中的各个第二向量与第一向量的相似度之前，还包括：

获取多条知识条目，每条知识条目包括一个原始问题语句和一个答案语句；

对知识条目中的原始问题语句进行预处理得到问题语句，利用预设语义向量转化模型将问题语句转化成问题向量；

将问题向量作为第二向量，并保存第二向量与知识条目的映射关系；

获取多个第二向量，构建向量数据库。

进一步地，预设语义向量转化模型包括词嵌入模型或者语言表征模型。

第二方面，提供一种智能客服的信息查询系统，包括：

获取模块，用于获取用户输入的提问内容，将提问内容转化成第一向量；

查找模块，用于在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量；

显示模块，用于判断是否可以查找到目标向量，如果查找到目标向量，则获取将与目标向量对应的答案语句，将答案语句进行显示。

第三方面，提供一种智能客服的信息查询设备，包括：

处理器和存储器；

处理器与存储器通过通信总线相连接；

其中，处理器，用于调用并执行存储器中存储的程序；

存储器，用于存储程序，程序至少用于执行第一方面任一项的智能客服的信息查询方法。

本申请提供的技术方案可以包括以下有益效果：

本申请的智智能客服的信息查询方法获取用户输入的提问内容，将提问内容转化成第一向量；在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量；判断是否可以查找到目标向量，如果查找到目标向量，则获取将与目标向量对应的答案语句，将答案语句进行显示。通过将这个提问语句转化第一向量，查找与第一向量相匹配的的第二向量，将第二向量对应的答案语句作为答案，利用向量进行查找，不需要进行关键字匹配，即使在提问语句比较复杂或者需进行模糊检索的情况下，也能查找到更加精确的匹配项，并显示答案语句，从而提高用户的体验效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种智能客服的信息查询方法的流程图；

图2是根据一示例性实施例示出的一种构建向量数据库的方法流程图；

图3是根据一示例性实施例示出的一种智能客服的信息查询方法的另一种流程图；

图4根据一示例性实施例示出的一种智能客服的信息查询系统框图示意图；

图5根据一示例性实施例示出的一种智能客服的信息查询设备框图示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

请参见图1，图1是根据一示例性实施例示出的一种智能客服的信息查询方法的流程图，该方法可以包括以下步骤：

S101、获取用户输入的提问语句，将提问语句转化成第一向量。

具体的，可以通过人机交互界面、计算机或者手机端获得用户输入的提问语句。

将提问语句转化成第一向量是将提问语句进行语义向量化得到第一向量。语义向量化是自然语言处理(Natural Language Processing,NLP)中的一种技术，其目的是将文本(如单词，句子，段落，甚至整个文档)转化为数值向量，以便可以用数学和机器学习方法进行处理。这些数值向量被设计为捕捉文本中的一些语义属性，比如词语的含义、上下文关系等。

对初始提问语句进行预处理，得到提问语句，利用预设语义向量转化模型将提问语句转化为第一向量。

示例性的，预处理包括标准化、分词、删除停用词和词干提取中的一种或多种。

在NLP中，标准化主要是指将文本数据进行归一化，例如转换为小写、去除特殊字符和标点符号，处理缩写等，以确保文本一致性。

在NLP中，分词是将连续的文本转换成词语(token)的过程。将句子或段落拆分为独立的单词或词语，这样可以更好地处理文本数据。

在NLP中，删除停用词是指去除一些常见的无意义词语(如“的”，“和”，“在”等不包含实际信息的词)，这些词对文本分析往往没有太多价值。删除停用词可以减少数据的维度和噪声，从而更聚焦于有用的信息。

在NLP中，词干提取是将单词的不同形态还原为其词干(或基本形式)的过程。通过词干提取，可以将不同的词形归并为同一个词干，从而减少特征维度，避免冗余信息。

预设语义向量转化模型是将经过预处理获得的提问语句转化为第一向量。预设语义向量转化模型可以为词嵌入模型，例如Word2Vec(word to vector)、基于全局语料计数的无监督学习模型(Global Vectors for Word Representation，GloVe)，或者，语言表征模型，例如BERT(Bidirectional Encoder Representation from Transformers，BERT)，BERT是一种语言表征模型，Word2vec是一款用于训练词向量的软件工具，GloVe是一个新的全局对数双线性回归模型,用于词向量的无监督学习。

S102、在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量。

向量数据库是预先构建的，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量。

请参见图2，图2是根据一示例性实施例示出的一种构建向量数据库的方法流程图，构建向量数据库可以包含以下步骤：

S201获取多条知识条目，每条知识条目包括一个原始问题语句和一个答案语句。

知识条目是从问答知识库获取的，问答知识库包括各种形式的知识，可以为常见问题解答(frequently-asked questions，FAQ)，用户手册，教程，产品描述。

每条知识条目包含一个原始问题语句和与该原始问题语句对应的答案语句。

S202、对知识条目中的原始问题语句进行预处理得到问题语句，利用预设语义向量转化模型将问题语句转化成问题向量。

对知识条目中的每个原始问题语句进行预处理得到问题语句，预处理方法上述实施例中已经详细叙述。

得到的问题语句利用预设语义向量转化模型转化成问题向量，预设语义向量转化模型在上述实施例中已经详细叙述。

S203将问题向量作为第二向量，并保存第二向量与知识条目的映射关系。

将问题向量作为第二向量，保存第二向量与知识条目的映射关系，利用映射关系，找到第二向量就可以得到与原始问题语句对应的答案语句。

S204获取多个第二向量，构建向量数据库。

向量数据库中包含多个第二向量，基于向量建立一个有效的知识库，在向量数据库中可以高效地进行基于向量的搜索，提高查询速度和准确性。

在向量数据库中查找与第一向量相匹配的目标向量，具体包括：计算向量数据库中的各个第二向量与第一向量的相似度；将相似度大于等于预设阈值的第二向量作为第一向量的目标向量。

向量数据库是一种专门设计用来存储和处理向量数据的数据库。在许多实际应用中，如机器学习、深度学习和推荐系统，将数据转换为向量的形式进行处理。相比传统的关系型数据库或非关系型数据库在处理数据时可能效率更高，向量数据库的主要特点包括：

1、高效的向量搜索：向量数据库最重要的功能是支持高效的向量搜索。这通常涉及到相似性查询，这种查询常常基于某种形式的距离度量，如欧几里德距离或余弦相似度。

2、大规模数据处理：向量数据库可以处理大规模的向量数据。随着深度学习和大数据技术的发展，数据量的规模越来越大，向量数据库可以支持高效地处理大规模数据。

3、分布式和并行计算：向量数据库通常支持分布式和并行计算，可以在多台计算机或多个计算节点上并行处理数据，从而提高处理速度。

4、支持多种查询方式：除了相似性查询外，向量数据库还支持其他类型的查询，例如范围查询和最近邻查询。

范围查询是找出所有距离查询向量在一定范围内的向量；最近邻查询是找出距离查询向量最近的向量。

目前市场上有一些基于向量搜索算法构建的开源的向量数据库，向量搜索方法包含Facebook AI相似性搜索(Facebook AI Similarity Search，Faiss)和适合实际应用的快速相似查找算法(Approximate Nearest Neigjbors Ok Yeah，Annoy)，Milvus是基于FAISS、Annoy等向量搜索库构建，核心是解决稠密向量相似度检索的问题云原生向量数据库。

在向量数据库中，计算两个向量数组的相似度通常使用距离度量或相似度度量。这些度量可以衡量向量之间的接近程度或差异程度，常见的向量相似度度量方法包括：

第一种、欧几里德距离(Euclidean Distance)，欧几里德距离是最常见的向量距离度量方法之一。

例如，对于两个n维向量a和向量b，向量a和向量b之间的欧几里德距离d可以表示为：其中，∑表示对所有维度i求和。

第二种、曼哈顿距离(Manhattan Distance)，曼哈顿距离也称为城市街区距离。

例如，对于两个n维向量a和向量b，向量a和向量b之间的曼哈顿距离可以表示为：d(a,b)＝∑|a_i-b_i|，其中，∑表示对所有维度i求和，|表示取绝对值。

第三种、余弦相似度(Cosine Similarity)，余弦相似度用于衡量两个向量之间的夹角，而不是其绝对距离。如果夹角越小，说明两个向量越相似。这种度量对长度不敏感，所以常常被用在文本处理中，因为文本的长度往往和它的内容无关。

例如，对于两个n维向量a和向量b，向量a和向量b之间的余弦相似度可以表示为：其中，a·b表示向量a和向量b的内积，||a||和||b||分别表示向量a和向量b的长度。

第四种、余弦距离(Cosine Distance)，余弦距离是余弦相似度的补数，例如，对于两个n维向量a和向量b，向量a和向量b之间的余弦距离可以表示为d(a,b)＝1-similarity(a,b)。

第四种、杰卡德系数，又称为Jaccard相似系数(Jaccard similaritycoefficient)，Jaccard相似度主要用于计算集合的相似度。

例如，对于两个集合A和B，集合A和集合B之间的Jaccard相似度可以表示为：similarity(A,B)＝|A∩B|/|A∪B|，其中|A∩B|表示A和B的交集大小，|A∪B|表示A和B的并集大小。

根据具体的应用场景和数据特点，选择适合的相似度度量方法。

设置预设阈值，获取第一向量和第二向量之间的相似度，将相似度大于预设阈值的第二向量作为第一向量的目标向量，说明目标向量和第一向量相匹配。

S103、判断是否可以查找到目标向量，如果查找到目标向量，则获取与目标向量对应的答案语句，将答案语句进行显示。

如果找到目标向量，说明用户输入的提问内容在可以在知识条目中找到答案，则利用第二向量和知识条目的映射关系，获取知识条目中的答案语句，将答案语句进行显示。

请参见图3，图3是根据一示例性实施例示出的一种智能客服的信息查询方法的另一种流程图，该方法可以包括以下步骤：

S301、获取用户输入的提问语句，将提问语句转化成第一向量。

S302、在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量。

S303、判断是否可以查找到目标向量，如果查找到目标向量，则获取与目标向量对应的答案语句，将答案语句进行显示。

步骤S301、S302和S303已经在上述实施中详细叙述。

S304、如果不能查找到目标向量，则将目标向量输入预设提问模型，利用预设提问模型生成答案语句，并将答案语句进行显示。

如果不能查找到目标向量，表示用户输入的提问内容在可以在知识条目中不能找到答案，则将目标向量输入预设提问模型，利用预设提问模型生成答案语句，并将答案语句进行显示。

预设提问模型可以是BERT、延伸自转换器架构的自然语言生成模型(GenerativePretrained Transformer，GPT)和统一的文本到文本任务模型(Text-to-Text TransferTransformer，T5)。

通过在向量数据库中进行查询，可以显著加快问题的响应速度。只有在向量数据库中找不到答案时，才需要调用预设提问模型，这可以避免在处理每个用户问题时都进行计算密集型的操作，从而大大提高了响应速度。

本申请结合了向量数据库和预设提问模型的系统可以提供高质量的答案，向量数据库可以提供准确、专业的回答，而预设提问模型可以处理更复杂和特定的问题，提供更深度的回答。

基于一个总的发明构思，本发明实施例还提供一种智能客服的信息查询系统，用于实现上述方法实施例。请参见图4，图4根据一示例性实施例示出的一种智能客服的信息查询系统框图示意图。如图4所示，智能客服的信息查询系统4包括以下结构：

41获取模块，用于获取用户输入的提问内容，将提问内容转化成第一向量；

42查找模块，用于在向量数据库中查找与第一向量相匹配的目标向量，其中，向量数据库中包含多个第二向量，第二向量是预先获取的问题向量；

43显示模块，用于判断是否可以查找到目标向量，如果查找到目标向量，则获取将与目标向量对应的答案语句，将答案语句进行显示。

本申请系统可以方便地更新和扩展知识库，以适应新的问题和需求。你可以单独或同时更新知识库和语言模型，使得系统可以轻松地处理新的问题和需求，结合向量数据库和预设提问模型系统可以提供更自然、更有深度的回答，提高用户满意度，从而提高用户体验。

本系统不仅可以应用于客服场景，还可以扩展到其他需要高效和准确问答的场景，如在线教育，医疗咨询，产品推荐等。

基于一个总的发明构思，本发明实施例还提供一种智能客服的信息查询设备，用于实现上述方法实施例。请参见图5，图5根据一示例性实施例示出的一种智能客服的信息查询设备框图示意图。如图5所示，智能客服的信息查询设备5包括以下结构：

处理器51和存储器52；

处理器51与存储器52通过通信总线相连接；

其中，处理器51，用于调用并执行存储器52中存储的程序；

存储器52，用于存储程序52，程序至少用于执行以上实施例中智能客服的信息查询方法。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种智能客服的信息查询方法，其特征在于，包括：

获取用户输入的提问语句，将所述提问语句转化成第一向量；

在向量数据库中查找与所述第一向量相匹配的目标向量，其中，所述向量数据库中包含多个第二向量，所述第二向量是预先获取的问题向量；

判断是否可以查找到所述目标向量，如果查找到所述目标向量，则获取与所述目标向量对应的答案语句，将所述答案语句进行显示。

2.根据权利要求1所述的方法，其特征在于，所述判断是否可以查找到所述目标向量之后，还包括：

如果不能查找到所述目标向量，则将所述目标向量输入预设提问模型，利用所述预设提问模型生成答案语句，并将所述答案语句进行显示。

3.根据权利要求1所述的方法，其特征在于，所述将所述提问语句转化成第一向量，包括：

对初始提问语句进行预处理，得到所述提问语句，其中，所述预处理包括标准化、分词、删除停用词和词干提取中的一种或多种；

利用预设语义向量转化模型将所述提问语句转化为所述第一向量。

4.根据权利要求1所述的方法，其特征在于，所述在向量数据库中查找与所述第一向量相匹配的目标向量，包括：

计算向量数据库中的各个所述第二向量与所述第一向量的相似度；

将所述相似度大于等于预设阈值的所述第二向量作为所述第一向量的目标向量。

5.根据权利要求3所述的方法，其特征在于，所述计算向量数据库中的各个所述第二向量与所述第一向量的相似度之前，还包括：

获取多条知识条目，每条所述知识条目包括一个原始问题语句和一个答案语句；

对知识条目中的原始问题语句进行预处理得到问题语句，利用所述预设语义向量转化模型将所述问题语句转化成问题向量；

将所述问题向量作为第二向量，并保存所述第二向量与所述知识条目的映射关系；

获取多个第二向量，构建向量数据库。

6.根据权利要求5所述的方法，其特征在于，所述预设语义向量转化模型包括词嵌入模型或者语言表征模型。

7.一种智能客服的信息查询系统，其特征在于，包括：

获取模块，用于获取用户输入的提问内容，将所述提问内容转化成第一向量；

查找模块，用于在向量数据库中查找与所述第一向量相匹配的目标向量，其中，所述向量数据库中包含多个第二向量，所述第二向量是预先获取的问题向量；

显示模块，用于判断是否可以查找到所述目标向量，如果查找到所述目标向量，则获取将与所述目标向量对应的答案语句，将所述答案语句进行显示。

8.一种智能客服的信息查询设备，其特征在于，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接；

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行权利要求1-6任一项所述的智能客服的信息查询方法。