CN117171314A

CN117171314A - 基于大模型的多模态政务问答方法

Info

Publication number: CN117171314A
Application number: CN202311086754.9A
Authority: CN
Inventors: 冯落落; 李志芸; 张峻铭
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-05

Abstract

本发明提供一种基于大模型的多模态政务问答方法，属于政务服务技术领域，本发明主要用于解决政务问答系统的多模态需求和强上下文推理能力，利用大模型强大的上下文推理能力，以及利用不同模态的处理算法可以同时处理音频、图像、文档等数据，满足用户对于多模态数据情况下的问答能力。同时可以满足政务人员快速进行文档中内容的定位。

Description

基于大模型的多模态政务问答方法

技术领域

本发明涉及政务服务技术领域，尤其涉及一种基于大模型的多模态政务问答方法。

背景技术

随着ChatGPT大模型的出现，AGI已经成为了一种可能，大模型可以像人一样进行基于很长的上下文对话，目前上下文长度能达到几十万个子，相当于一本书的长度。并且相比较之前的预训练方式的深度学习模型，推理能力非常强，尤其是在zero shot情境下。

目前问答系统都是基于单一模态的文本，并且问答系统大部分都是基于检索的方法，例如利用语法算法例如BM25、倒排索引、同义词等方法进行文本的召回，然后例如文本特征算法编辑距离、TFIDF、词性、依存关系、特征词等提取特征，然后利用逻辑回归、SVM、继承学习等方法进行文本的二次筛选，然后利用深度学习算法例如Bert等word2vec算法进行文本向量的方法，进行匹配，然后把匹配答案对应的结果返回给用户。

(1)传统问答系统都是文本单模态的，不用解决用户图片和音频相关知识的问题能力

(2)传统问答系统都是基于相似度检索的，因此缺少创造能力，用户获得答案都是提前配置好的，缺少创造能力

(3)传统问答系统缺少强的上下文理解能力，系统不能很好理解用户上下文，例如用户上一句说了给我查询明天天气，当用户在做给我订一个酒店，然后问答系统可能会问：订什么时间的，其实如果能够理解上下文，应该能反问是不是订明天的酒店。

(4)还有就是复杂场景的问答能力，当用户说的问题不是那么明显的时候，问答系统可能就答不上来了

(5)不支持通过上传文本、pdf等文件，然后问到文件中的内容进行答案的回复，这个需求在政务场景很常见。

目前传统的问答系统存在很多问题，例如模态单一，推理能力差、上下文理解能力不足、不支持基于文档的问答能力。

发明内容

为了解决以上技术问题，本发明提供了一种基于大模型的多模态政务问答方法。用于解决政务问答系统的多模态需求和强上下文推理能力，利用大模型强大的上下文推理能力，以及利用不同模态的处理算法共同解决用户的需求，同时可以满足政务人员快速进行文档中内容的定位，

本发明的技术方案是：

基于大模型的多模态政务问答方法，利用大模型的上下文推理能力，以及利用不同模态的处理算法同时处理音频、图像、文档数据，满足用户对于多模态数据情况下的问答能力。

进一步的，

具体流程如下：

第一步:首先用户输入问题；

第二步:将用户输入的问题转换为文本数据；

第三步:把用户问题通过Text2Vec进行向量化，然后利用consine距离找到文档中相关的语句，最后和语音识别语句、图像抽取数据共同组成真正和用户问题相关的用户上传数据；

第四步：把对话管理状态中的数据，也融合到用户问题相关的数据中，形成大模型的上下文信息；

第五步：把第四步获得上下文信息，和文本问题结合形成大模型ChatGLM2-6B所需要的Prompt数据，从而获得最后的答案。

再进一步的，

第一步输入的问题包括上下文资料，有音频、图像、文本问题和文档四种形式。

再进一步的，

利用语音识别算法把用户上传的音频数据转化为文本数据，采用conformer语音识别算法，使用纠错模型对文本就行纠错，得到最后的语音识别数据。

对于图像数据，采用blip算法和EAST+RCNN结合OCR算法获取图片中的描述文本和OCR文本数据。

把文本问题进行Text2Vec向量化处理。

上传的文档数据，利用TextSpliter技术对文档进行切分，然后利用Text2Vec算法对切分的数据进行向量化。

上传的文档数据，先用pdf、word文件处理工具，抽取出来文档中的文本数据，然后再进行切分。

本发明的有益效果是

本发明主要用于解决政务问答系统的多模态需求和强上下文推理能力，因此利用大模型强大的上下文推理能力，以及利用不同模态的处理算法可以同时处理音频、图像、文档等数据，满足用户对于多模态数据情况下的问答能力。同时可以满足政务人员快速进行文档中内容的定位

本发明适用于政务问答系统设计的整体框架，但是同样适用不同行业，也可以用到客服场景、机器人场景等，相比较传统的方法，可以获取用户多模态的数据，同时利用大模型的推理能力，让系统更加智能和高效。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了让大模型解决不同的问题，可以通过设计不同的Prompt来利用大模型解决不同的问题，例如可以利用in-context learning技术，利用很少的几个样本实现大模型在新的领域上实现推理能力，可以利用COT和TOT技术等技术提高模型在复杂问题的推理能力。大模型目前只是一个推理能力极强的语言生成模型，但是人类的信息往往是丰富多彩的，来自不同模态的信息，例如视觉图片信息，语音音频信息和文本文字信息。因此利用不同模态的处理算法与大模型推理能力相结合起来，共同形成一个更加智能的方式。

本发明基于多模态和大模型的问答系统可以解决上述问题。对于模态单一问题，采用基于BLIP多模态算法进行不同模态的表示、学习、对齐、转化和融合。对于传统基于规则和小模型的对话管理实现，基于大量规则进行维护对话状态，工程复杂功能简单，因此利用大模型例如chatGLM130b模型的推理能力，可以很好融合上下文对话信息，进行对话。除此之外，可以利用LangChain技术链，实现用户上传文本数据对问答中的知识进行快速问答。

本发明是关于多模态和大模型政务问答方法，主要是按照政务人员提供的需求，(1)设计出来一个基于多模态的、上下文推理能力强的问答技术方案，(2)同时支持政务人员上传文档，然后询问文档中相关问题，获得相关答案，方便用户在很长的文本中进行答案的搜索。综上需求，设计如图1所示。具体流程如下：

第一步:首先用户输入的问题，包括上下文资料，有音频、图像、文本和文档四种形式。例如用户输入一段音频和一张图片，还有一个pdf文档，加上一个文本问题：“想问一个关于人才生活补贴政策的要求是什么？”

第二步:利用语音识别算法把用户上传的音频数据转化为文本数据，本文采用conformer语音识别算法，使用纠错模型对文本就行纠错，得到最后的语音识别数据。同样对于图像数据，采用blip算法和EAST+RCNN结合OCR算法获取图片中的描述文本和OCR文本数据，上传的文档数据，利用TextSpliter技术对文档进行切分，然后利用Text2Vec算法对切分的数据进行向量化。

第三步:把用户问题也通过Text2Vec进行向量化，然后利用consine距离找到文档中相关的语句，最后和语音识别语句、图像抽取数据共同组成真正和用户问题相关的用户上传数据。

第四步：为了考虑语境上的多轮对话能力，通过把对话管理状态中的数据，也融合到用户问题相关的数据中，形成大模型的上下文信息。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于大模型的多模态政务问答方法，其特征在于，

利用大模型的上下文推理能力，以及利用不同模态的处理算法同时处理音频、图像、文档数据，满足用户对于多模态数据情况下的问答能力。

2.根据权利要求1所述的方法，其特征在于，

具体流程如下：

第一步:首先用户输入问题；

第二步:将用户输入的问题转换为文本数据；

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，

6.根据权利要求3所述的方法，其特征在于，

把文本问题进行Text2Vec向量化处理。

7.根据权利要求3所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，