CN116628146A

CN116628146A - 一种金融领域的faq智能问答方法及系统

Info

Publication number: CN116628146A
Application number: CN202310391238.0A
Authority: CN
Inventors: 曹梦娣; 李铧; 董申浩; 冯帆
Original assignee: Bank of Communications Co Ltd
Current assignee: Bank of Communications Co Ltd
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-08-22

Abstract

本发明涉及一种金融领域的FAQ智能问答方法及系统，其中方法包括以下步骤：整理以标准问‑相似问‑答案的形式存储记录的FAQ问答知识库；构建ES索引和向量索引，生成问答对的embedding向量，将文本和embedding向量分别存储到ES和向量索引文件中；生成用户查询的embedding向量，利用ES召回字面相似的相似问，利用embedding向量检索召回语义相似的相似问，对两种方式召回的相似问取并集组成候选集合；基于精排打分模型计算候选集合中的相似问与用户查询之间的相似度，对候选集合进行精排；对精排后的相似问进行合并，得到一个或多个标准问以及标准问对应的答案，并返回给用户。与现有技术相比，本发明将相似问与标准问同时入库，提高了候选召回率，具有匹配精确度高等优点。

Description

一种金融领域的FAQ智能问答方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种金融领域的FAQ智能问答方法及系统。

背景技术

金融行业的业务种类繁多，大多数客户问题是比较简单且重复性较高的，这些问题占用了很多人工客服的资源，导致复杂的客户问题无法得到及时解决。人工客服无法提供全天候的服务支持，新员工上岗也会存在业务不熟练、回答错误等问题，这些都会导致客户体验产生负面影响。

随着移动互联网和自然语言处理等技术的快速发展，人机对话受到越来越多的关注，智能客服的服务也潜移默化的影响着我们的生活。金融行业紧跟科技浪潮，将智能客服在各个场景中广泛落地应用，从而在节省人工成本，减少客户等待时间的同时，能快速准确的解决客户需求，提高服务质量，让客户的满意度和体验感得到了大幅提升。

目前大多数FAQ问答技术仅利用关键字匹配进行用户查询文本和知识库中问题文本的相似性计算，试图通过字面信息对知识库的问答对进行排序。但是，用户问题是复杂多样的，有很多语义相似但字面表达相差巨大的问题，如“数字人民币的200满减券怎么不能用”和“为什么使用数币付款满200没有优惠呢”，这两个问题虽然语义上是匹配的，但是在字面词汇重叠和语言表达形式上都很不相似，所以仅利用字面信息无法解决此类场景。

目前也有很多FAQ问答系统利用用户查询文本和知识库中答案文本进行相关性计算，再根据该相关性进行知识库中问答对的排序。但是，知识库中的答案可能会根据金融产品的内容或时间的更新发生变化，导致需要对整个FAQ系统重新训练。而且QA匹配的主观性问题较大，会导致标注的不一致性较高，匹配精度下降。

发明内容

本发明的目的就是为了提供一种金融领域的FAQ智能问答方法及系统，解决人工客服资源有限且无法全天候在线的问题，从而节省人工成本，提高用户体验。该系统不仅利用了关键字匹配，还利用了语义匹配；不仅利用了标准问，为了提高召回率，还将相似问导入知识库中。

本发明的目的可以通过以下技术方案来实现：

一种金融领域的FAQ智能问答方法，包括以下步骤：

整理FAQ问答知识库，所述知识库中的记录以标准问-相似问-答案的形式进行存储，一个标准问对应多个相似问和一个答案；

构建ES索引和向量索引，生成问答对的embedding向量，将文本和embedding向量分别存储到ES和向量索引文件中；

生成用户查询的embedding向量，利用ES召回字面相似的相似问，利用embedding向量检索召回语义相似的相似问，对两种方式召回的相似问取并集组成候选集合；

基于精排打分模型计算候选集合中的相似问与用户查询之间的相似度，并根据相似度计算结果对候选集合进行精排；

对精排后的相似问进行合并，得到一个或多个标准问以及标准问对应的答案，根据预配置的需求将得到的一个或多个答案返回给用户。

一种金融领域的FAQ智能问答方法，包括以下步骤：

对用户查询进行纠错、同义词替换和意图识别处理；

一种金融领域的FAQ智能问答系统，包括：

ES索引和向量索引生成模块，用于生成FAQ问答知识库中存储的问答对的embedding向量，并将文本和embedding向量分别存储到ES和向量索引文件中，其中，所述知识库中的记录以标准问-相似问-答案的形式进行存储，一个标准问对应多个相似问和一个答案；

召回模块，用于生成用户查询的embedding向量，并利用ES召回字面相似的相似问，利用embedding向量检索召回语义相似的相似问，对两种方式召回的相似问取并集组成候选集合；

精排模块，基于精排打分模型计算候选集合中的相似问与用户查询之间的相似度，并根据相似度计算结果对候选集合进行精排；

后处理模块，用于对精排后的相似问进行合并，得到一个或多个标准问以及标准问对应的答案，并根据预配置的需求将得到的一个或多个答案返回给用户。

所述系统还包括用户查询纠错模块、用户查询同义词替换模块和用户查询意图识别模块。

上述方法或系统中，所述embedding向量的生成方法包括SentenceBert模型、搜狗、腾讯、word2vec词向量，其中，所述SentenceBert模型以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对作为训练集进行模型训练。

上述方法或系统中，所述精排打分模型基于交互式Bert模型构建，以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对构建训练集对交互式Bert模型进行训练，训练完成后，将交互式Bert模型学到的知识迁移到轻量级模型上，得到TinyBert轻量级模型作为精排打分模型。

与现有技术相比，本发明具有以下有益效果：

(1)本发明不仅利用了标准问，还将相似问导入知识库中，相似问与标准问的同时入库，提高了候选召回率，从而扩展了用户查询问题与知识库问题的匹配范围，提高了检索精度，使得反馈给用户的答案更为精准。

(2)本发明不仅利用了关键字匹配，还利用了语义匹配，进行了ES召回和embedding召回，能够更精准的捕获客户需求。

(3)本发明通过用户查询文本与知识库中的问题文本进行相关性计算，如果某个问题对应的答案随内容或时间更新发生变化，修改知识库中的答案即可，对问题文本并不会有任何影响，无需重新训练，提高了系统实用性。

(4)知识库中的问答对数量巨大，如果直接将问答对与用户查询进行相似度计算的计算量很大，会消耗大量时间，导致用户等待时间加长，而本发明采用两阶段匹配法，先召回候选相似问，然后再根据相似度进行精排，最后利用相似问合并得到标准问，不仅能够提高匹配速度，还能提高匹配精度。

(5)本发明提出的FAQ智能问答方法与系统解决了人工客服资源有限且无法全天候在线的问题，节省了人工成本，提高了用户体验。

附图说明

图1为本发明的方法流程图；

图2为一种示例的在线检索流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种金融领域的FAQ智能问答方法，如图1所示，包括以下步骤：

1)整理FAQ问答知识库。

本实施例中，知识库中的记录以标准问-相似问-答案的形式进行存储，一个标准问对应多个相似问和一个答案。

同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对，这些文本对作为训练语料，用来训练生成embedding的SentenceBert双塔模型和交互式Bert精排打分模型。

语义相似度计算一般分为表示型和交互型。表示型是双塔模型，将两段文本分别输入到相同的模型中，得到两个向量表示，再通过余弦相似度计算向量之间的相似性。交互型是将两段文本拼接在一起再输入到模型中编码，直接得到两段文本之间的相似性。表示型模型可以提前将文本向量计算出来，适用于对存储和速度要求较高的、匹配数据量较大的情况，比如召回阶段的检索。交互型模型在神经网络底层就让两段文本进行了交互，能捕获更深层的信息，但是计算速度较慢，适用于对相似精确度要求较高、匹配数据量较小的情况，比如获取候选集后的精排。

如果知识库特别大，有上千万或上亿规模，依次计算query向量和知识库中向量相似度的时间成本就会过高，所以需要采用近似最近邻搜索，利用已有的向量搜索工具，如Faiss、Milvus、Annoy等。

2)构建ElasticSearch(以下简称ES)索引和向量索引，生成问答对的embedding向量，将文本和embedding向量分别存储到ES和向量索引文件中。

构建ES索引存储字段为<ES_ID，标准问，相似问，答案，向量_ID>，构建向量索引<向量ID，embedding>，这样就可以将ES中存储的文本和向量索引文件中的embedding关联起来。然后将问答对文本存入ES中，将问题文本通过SentenceBert获取embedding存入到向量索引文件中，以便后续召回检索。

3)对用户查询(query)进行纠错、同义词替换和意图识别处理。

在线检索时，对用户输入的查询query首先进行通用纠错，因为垂直领域会有一些特殊用词，所以需要进一步进行金融领域纠错。纠错完成后，利用提前配置好的同义词(比如“数字人民币”和“数币”)，对query进行扩展，以提高匹配召回率。同时识别query的意图，以保证查询得到的问答对意图符合用户查询意图。查询纠错、同义词配置、意图识别这三个组件采取可插拔方式，只是为了提高召回查准率，并不是必需功能，在另一种实施例中，也可以不执行本步骤，或仅执行本步骤中的一个或多个部分。

4)生成用户查询的embedding向量，利用ES召回字面相似的相似问，利用embedding向量检索召回语义相似的相似问，对两种方式召回的相似问取并集组成候选集合。

ES的打分策略采用BM25算法，本质上还是基于字面的关键字/关键词匹配，通过构建ES查询语句对相似问字段进行打分召回一部分字面相似的候选问答对。

但知识库中存在很多字面完全不同但是语义却一致的问答对，比如“为什么借贷不成功”和“我想知道借款失败的原因”，因此需要引入基于语义的召回，一般都是通过embedding进行召回的，这里利用1)中训练完成的SentenceBert双塔模型生成embedding，也可以使用搜狗、腾讯、word2vec词向量等方法得到句子embedding。通过计算向量之间的余弦相似度进行打分召回一部分语义相似的候选问答对。

5)基于精排打分模型计算候选集合中的相似问与用户查询之间的相似度，并根据相似度计算结果对候选集合进行精排。

具体的，将query和候选集合的相似问文本一一拼接，利用精排打分模型分批次进行相似度打分，根据相似分值进行排序。本实施例中，精排打分模型基于交互式Bert模型构建，但是，交互式Bert模型虽然打分效果较好，但是模型过大、参数过多、计算时间过长，所以很难落地于要求实时性的智能客服系统。因此利用蒸馏技术将Bert大模型学到的知识迁移到另外的轻量级模型上，再用轻量级模型进行精排打分，这样既保留了打分效果，又节省了计算时间。本实施例采用的是TinyBert轻量级模型。

图2展示了一种示例的精排打分结果，用户查询为“买前如何选权益“，经过ES召回和向量召回后得到多个召回相似问并进行合并，然后利用精排模型预测相似度，按照相似度分值从高到低对相似问进行排序。

6)对精排后的相似问进行合并，得到一个或多个标准问以及标准问对应的答案，根据预配置的需求将得到的一个或多个答案返回给用户。

由于精排是以相似问为单位进行召回和精排的，所以在拿到精排后的相似问之后，还需要后处理操作，根据问答库中相似问和标准问的对应关系，将相似问合并成标准问，得到以标准问为单位的问答对，最后将检索结果返回给用户。

具体的，返回给用户的结果是一个还是多个，可以根据实际应用场景自由的进行设置。例如，当设置返回结果仅为1个答案时，返回相似度分数最高的标准问对应的答案，当返回结果设为N个答案时，返回相似度分数排名前N的标准问对应的答案。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种金融领域的FAQ智能问答方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种金融领域的FAQ智能问答方法，其特征在于，所述embedding向量的生成方法包括SentenceBert模型、搜狗、腾讯、word2vec词向量，其中，所述SentenceBert模型以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对作为训练集进行模型训练。

3.根据权利要求1所述的一种金融领域的FAQ智能问答方法，其特征在于，所述精排打分模型基于交互式Bert模型构建，以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对构建训练集对交互式Bert模型进行训练，训练完成后，将交互式Bert模型学到的知识迁移到轻量级模型上，得到TinyBert轻量级模型作为精排打分模型。

4.一种金融领域的FAQ智能问答方法，其特征在于，包括以下步骤：

对用户查询进行纠错、同义词替换和意图识别处理；

5.根据权利要求4所述的一种金融领域的FAQ智能问答方法，其特征在于，所述embedding向量的生成方法包括SentenceBert模型、搜狗、腾讯、word2vec词向量，其中，所述SentenceBert模型以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对作为训练集进行模型训练。

6.根据权利要求4所述的一种金融领域的FAQ智能问答方法，其特征在于，所述精排打分模型基于交互式Bert模型构建，以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对构建训练集对交互式Bert模型进行训练，训练完成后，将交互式Bert模型学到的知识迁移到轻量级模型上，得到TinyBert轻量级模型作为精排打分模型。

7.一种金融领域的FAQ智能问答系统，其特征在于，包括：

8.根据权利要求7所述的一种金融领域的FAQ智能问答系统，其特征在于，所述embedding向量的生成方法包括SentenceBert模型、搜狗、腾讯、word2vec词向量，其中，所述SentenceBert模型以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对作为训练集进行模型训练。

9.根据权利要求7所述的一种金融领域的FAQ智能问答系统，其特征在于，所述精排打分模型基于交互式Bert模型构建，以同一标准问下的问题文本两两结对作为相似文本对，不同标准问下的文本两两结对作为不相似文本对构建训练集对交互式Bert模型进行训练，训练完成后，将交互式Bert模型学到的知识迁移到轻量级模型上，得到TinyBert轻量级模型作为精排打分模型。

10.根据权利要求7所述的一种金融领域的FAQ智能问答系统，其特征在于，所述系统还包括用户查询纠错模块、用户查询同义词替换模块和用户查询意图识别模块。