CN117171314A - 基于大模型的多模态政务问答方法 - Google Patents
基于大模型的多模态政务问答方法 Download PDFInfo
- Publication number
- CN117171314A CN117171314A CN202311086754.9A CN202311086754A CN117171314A CN 117171314 A CN117171314 A CN 117171314A CN 202311086754 A CN202311086754 A CN 202311086754A CN 117171314 A CN117171314 A CN 117171314A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- user
- question
- large model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 3
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 2
- 239000000523 sample Substances 0.000 claims 1
- 238000013461 design Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于大模型的多模态政务问答方法,属于政务服务技术领域,本发明主要用于解决政务问答系统的多模态需求和强上下文推理能力,利用大模型强大的上下文推理能力,以及利用不同模态的处理算法可以同时处理音频、图像、文档等数据,满足用户对于多模态数据情况下的问答能力。同时可以满足政务人员快速进行文档中内容的定位。
Description
技术领域
本发明涉及政务服务技术领域,尤其涉及一种基于大模型的多模态政务问答方法。
背景技术
随着ChatGPT大模型的出现,AGI已经成为了一种可能,大模型可以像人一样进行基于很长的上下文对话,目前上下文长度能达到几十万个子,相当于一本书的长度。并且相比较之前的预训练方式的深度学习模型,推理能力非常强,尤其是在zero shot情境下。
目前问答系统都是基于单一模态的文本,并且问答系统大部分都是基于检索的方法,例如利用语法算法例如BM25、倒排索引、同义词等方法进行文本的召回,然后例如文本特征算法编辑距离、TFIDF、词性、依存关系、特征词等提取特征,然后利用逻辑回归、SVM、继承学习等方法进行文本的二次筛选,然后利用深度学习算法例如Bert等word2vec算法进行文本向量的方法,进行匹配,然后把匹配答案对应的结果返回给用户。
(1)传统问答系统都是文本单模态的,不用解决用户图片和音频相关知识的问题能力
(2)传统问答系统都是基于相似度检索的,因此缺少创造能力,用户获得答案都是提前配置好的,缺少创造能力
(3)传统问答系统缺少强的上下文理解能力,系统不能很好理解用户上下文,例如用户上一句说了给我查询明天天气,当用户在做给我订一个酒店,然后问答系统可能会问:订什么时间的,其实如果能够理解上下文,应该能反问是不是订明天的酒店。
(4)还有就是复杂场景的问答能力,当用户说的问题不是那么明显的时候,问答系统可能就答不上来了
(5)不支持通过上传文本、pdf等文件,然后问到文件中的内容进行答案的回复,这个需求在政务场景很常见。
目前传统的问答系统存在很多问题,例如模态单一,推理能力差、上下文理解能力不足、不支持基于文档的问答能力。
发明内容
为了解决以上技术问题,本发明提供了一种基于大模型的多模态政务问答方法。用于解决政务问答系统的多模态需求和强上下文推理能力,利用大模型强大的上下文推理能力,以及利用不同模态的处理算法共同解决用户的需求,同时可以满足政务人员快速进行文档中内容的定位,
本发明的技术方案是:
基于大模型的多模态政务问答方法,利用大模型的上下文推理能力,以及利用不同模态的处理算法同时处理音频、图像、文档数据,满足用户对于多模态数据情况下的问答能力。
进一步的,
具体流程如下:
第一步:首先用户输入问题;
第二步:将用户输入的问题转换为文本数据;
第三步:把用户问题通过Text2Vec进行向量化,然后利用consine距离找到文档中相关的语句,最后和语音识别语句、图像抽取数据共同组成真正和用户问题相关的用户上传数据;
第四步:把对话管理状态中的数据,也融合到用户问题相关的数据中,形成大模型的上下文信息;
第五步:把第四步获得上下文信息,和文本问题结合形成大模型ChatGLM2-6B所需要的Prompt数据,从而获得最后的答案。
再进一步的,
第一步输入的问题包括上下文资料,有音频、图像、文本问题和文档四种形式。
再进一步的,
利用语音识别算法把用户上传的音频数据转化为文本数据,采用conformer语音识别算法,使用纠错模型对文本就行纠错,得到最后的语音识别数据。
对于图像数据,采用blip算法和EAST+RCNN结合OCR算法获取图片中的描述文本和OCR文本数据。
把文本问题进行Text2Vec向量化处理。
上传的文档数据,利用TextSpliter技术对文档进行切分,然后利用Text2Vec算法对切分的数据进行向量化。
上传的文档数据,先用pdf、word文件处理工具,抽取出来文档中的文本数据,然后再进行切分。
本发明的有益效果是
本发明主要用于解决政务问答系统的多模态需求和强上下文推理能力,因此利用大模型强大的上下文推理能力,以及利用不同模态的处理算法可以同时处理音频、图像、文档等数据,满足用户对于多模态数据情况下的问答能力。同时可以满足政务人员快速进行文档中内容的定位
本发明适用于政务问答系统设计的整体框架,但是同样适用不同行业,也可以用到客服场景、机器人场景等,相比较传统的方法,可以获取用户多模态的数据,同时利用大模型的推理能力,让系统更加智能和高效。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了让大模型解决不同的问题,可以通过设计不同的Prompt来利用大模型解决不同的问题,例如可以利用in-context learning技术,利用很少的几个样本实现大模型在新的领域上实现推理能力,可以利用COT和TOT技术等技术提高模型在复杂问题的推理能力。大模型目前只是一个推理能力极强的语言生成模型,但是人类的信息往往是丰富多彩的,来自不同模态的信息,例如视觉图片信息,语音音频信息和文本文字信息。因此利用不同模态的处理算法与大模型推理能力相结合起来,共同形成一个更加智能的方式。
本发明基于多模态和大模型的问答系统可以解决上述问题。对于模态单一问题,采用基于BLIP多模态算法进行不同模态的表示、学习、对齐、转化和融合。对于传统基于规则和小模型的对话管理实现,基于大量规则进行维护对话状态,工程复杂功能简单,因此利用大模型例如chatGLM130b模型的推理能力,可以很好融合上下文对话信息,进行对话。除此之外,可以利用LangChain技术链,实现用户上传文本数据对问答中的知识进行快速问答。
本发明是关于多模态和大模型政务问答方法,主要是按照政务人员提供的需求,(1)设计出来一个基于多模态的、上下文推理能力强的问答技术方案,(2)同时支持政务人员上传文档,然后询问文档中相关问题,获得相关答案,方便用户在很长的文本中进行答案的搜索。综上需求,设计如图1所示。具体流程如下:
第一步:首先用户输入的问题,包括上下文资料,有音频、图像、文本和文档四种形式。例如用户输入一段音频和一张图片,还有一个pdf文档,加上一个文本问题:“想问一个关于人才生活补贴政策的要求是什么?”
第二步:利用语音识别算法把用户上传的音频数据转化为文本数据,本文采用conformer语音识别算法,使用纠错模型对文本就行纠错,得到最后的语音识别数据。同样对于图像数据,采用blip算法和EAST+RCNN结合OCR算法获取图片中的描述文本和OCR文本数据,上传的文档数据,利用TextSpliter技术对文档进行切分,然后利用Text2Vec算法对切分的数据进行向量化。
第三步:把用户问题也通过Text2Vec进行向量化,然后利用consine距离找到文档中相关的语句,最后和语音识别语句、图像抽取数据共同组成真正和用户问题相关的用户上传数据。
第四步:为了考虑语境上的多轮对话能力,通过把对话管理状态中的数据,也融合到用户问题相关的数据中,形成大模型的上下文信息。
第五步:把第四步获得上下文信息,和文本问题结合形成大模型ChatGLM2-6B所需要的Prompt数据,从而获得最后的答案。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.基于大模型的多模态政务问答方法,其特征在于,
利用大模型的上下文推理能力,以及利用不同模态的处理算法同时处理音频、图像、文档数据,满足用户对于多模态数据情况下的问答能力。
2.根据权利要求1所述的方法,其特征在于,
具体流程如下:
第一步:首先用户输入问题;
第二步:将用户输入的问题转换为文本数据;
第三步:把用户问题通过Text2Vec进行向量化,然后利用consine距离找到文档中相关的语句,最后和语音识别语句、图像抽取数据共同组成真正和用户问题相关的用户上传数据;
第四步:把对话管理状态中的数据,也融合到用户问题相关的数据中,形成大模型的上下文信息;
第五步:把第四步获得上下文信息,和文本问题结合形成大模型ChatGLM2-6B所需要的Prompt数据,从而获得最后的答案。
3.根据权利要求2所述的方法,其特征在于,
第一步输入的问题包括上下文资料,有音频、图像、文本问题和文档四种形式。
4.根据权利要求3所述的方法,其特征在于,
利用语音识别算法把用户上传的音频数据转化为文本数据,采用conformer语音识别算法,使用纠错模型对文本就行纠错,得到最后的语音识别数据。
5.根据权利要求3所述的方法,其特征在于,
对于图像数据,采用blip算法和EAST+RCNN结合OCR算法获取图片中的描述文本和OCR文本数据。
6.根据权利要求3所述的方法,其特征在于,
把文本问题进行Text2Vec向量化处理。
7.根据权利要求3所述的方法,其特征在于,
上传的文档数据,利用TextSpliter技术对文档进行切分,然后利用Text2Vec算法对切分的数据进行向量化。
8.根据权利要求7所述的方法,其特征在于,
上传的文档数据,先用pdf、word文件处理工具,抽取出来文档中的文本数据,然后再进行切分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311086754.9A CN117171314A (zh) | 2023-08-28 | 2023-08-28 | 基于大模型的多模态政务问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311086754.9A CN117171314A (zh) | 2023-08-28 | 2023-08-28 | 基于大模型的多模态政务问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117171314A true CN117171314A (zh) | 2023-12-05 |
Family
ID=88944068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311086754.9A Pending CN117171314A (zh) | 2023-08-28 | 2023-08-28 | 基于大模型的多模态政务问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117171314A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454884A (zh) * | 2023-12-20 | 2024-01-26 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、系统、电子设备和存储介质 |
CN117744797A (zh) * | 2023-12-15 | 2024-03-22 | 中国科学院空天信息创新研究院 | 基于基础模型的思维图推理方法、装置、设备及介质 |
-
2023
- 2023-08-28 CN CN202311086754.9A patent/CN117171314A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744797A (zh) * | 2023-12-15 | 2024-03-22 | 中国科学院空天信息创新研究院 | 基于基础模型的思维图推理方法、装置、设备及介质 |
CN117454884A (zh) * | 2023-12-20 | 2024-01-26 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、系统、电子设备和存储介质 |
CN117454884B (zh) * | 2023-12-20 | 2024-04-09 | 上海蜜度科技股份有限公司 | 历史人物信息纠错方法、系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
JP6793975B2 (ja) | 動画基盤求人求職マッチングサーバーおよび方法ならびにその方法を遂行するためのプログラムが記録されたコンピュータ読み取り可能記録媒体 | |
CN117171314A (zh) | 基于大模型的多模态政务问答方法 | |
WO2019100319A1 (en) | Providing a response in a session | |
WO2021211200A1 (en) | Natural language processing models for conversational computing | |
CN110321564B (zh) | 一种多轮对话意图识别方法 | |
KR20160089152A (ko) | 화행 분석을 통한 스티커 추천 방법 및 시스템 | |
CN110266899A (zh) | 客户意图的识别方法和客服系统 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN113627196A (zh) | 一种基于语境和Transformer的多语言对话机器人系统及其对话方法 | |
CN111428467A (zh) | 生成阅读理解的问题题目的方法、装置、设备及存储介质 | |
CN110019688A (zh) | 对机器人进行训练的方法 | |
CN113987147A (zh) | 样本处理方法及装置 | |
CN112818109B (zh) | 邮件的智能回复方法、介质、装置和计算设备 | |
CN110266900A (zh) | 客户意图的识别方法、装置及客服系统 | |
CN115643341A (zh) | 人工智能客服应答系统 | |
CN110059166A (zh) | 自然智能的自然表达处理方法、回应方法、设备及系统 | |
CN116050405A (zh) | 文本处理、问答文本处理及文本处理模型训练方法 | |
CN110059168A (zh) | 对基于自然智能的人机交互系统进行训练的方法 | |
KR20170061647A (ko) | 화행 분석을 통한 스티커 추천 방법 및 시스템 | |
CN116010569A (zh) | 在线答疑方法、系统、电子设备及存储介质 | |
CN116303930A (zh) | 一种基于语义匹配与生成模型的会话智能生成方法 | |
WO2024114335A1 (zh) | 主题识别模型的训练方法及装置 | |
CN110059167A (zh) | 自然智能的自然表达处理方法、回应方法、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |