CN116932731A - 面向5g消息的多模态知识问答方法及系统 - Google Patents
面向5g消息的多模态知识问答方法及系统 Download PDFInfo
- Publication number
- CN116932731A CN116932731A CN202311199600.0A CN202311199600A CN116932731A CN 116932731 A CN116932731 A CN 116932731A CN 202311199600 A CN202311199600 A CN 202311199600A CN 116932731 A CN116932731 A CN 116932731A
- Authority
- CN
- China
- Prior art keywords
- mode
- input
- message
- search result
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 174
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种面向5G消息的多模态知识问答方法及系统,响应于用户的输入请求,获取用户输入,将用户输入进行模态转换与向量编码得到特征向量;基于特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对相关性评分进行排序,得到最相关的检索结果组合;基于最相关的检索结果组合输出5G消息答案。解决现有技术中无法直接处理和理解多模态数据且单模态的交互方式无法满足用户多样化的需求的问题。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种面向5G消息的多模态知识问答方法、系统、电子设备及存储介质。
背景技术
随着5G技术的快速发展,数据类型与行业内容变得更为多样化和复杂化,人们对于更丰富、更智能的交互方式有了更高的需求。目前,大模型在自然语言处理和图像视觉处理领域取得了重大突破,并展现出其强大的表达和理解能力,同时大模型也促进了AIGC的进一步发展,在对话问答、智能客服领域的应用已经取得了显著成果;但是,针对5G消息的知识问答仍存在以下问题:
现有知识问答系统大都需要注册账户、登录、付费等步骤,用户使用成本较高,且5G消息模板可以包括多种媒体类型,如文本、图像、视频、按钮、链接等,传统的知识问答主要基于单一的交互模式,如文字输入或语音输入,单模态的交互方式无法满足用户多样化的需求,且难以处理复杂的问题。
基于文本输入或关键词检索方式的知识问答,缺乏对多模态数据的统一表示与理解能力。对于多模态数据,例如图像、视频等,传统的文本输入或关键词检索方式无法直接处理和理解。
因此,亟需一种可以有效提高知识问答的精准度与答案统一性且更加智能化与便捷化的面向5G消息的知识问答方法。
发明内容
本发明实施例的目的在于提供一种面向5G消息的多模态知识问答方法、系统、电子设备及存储介质,用以解决现有技术中无法直接处理和理解多模态数据且单模态的交互方式无法满足用户多样化的需求的问题。
为实现上述目的,本发明实施例提供一种面向5G消息的多模态知识问答方法,所述方法具体包括:
响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;
基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;
将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;
基于最相关的检索结果组合输出5G消息答案。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量,包括:
基于X-LLM多模态大模型的X2L编码器将多模态的用户输入转换为嵌入序列;
其中,所述用户输入包括文本/语音输入、图片输入/>和视频输入/>;嵌入序列包括文本/语音输入/>经过编码器编码后得到的特征向量/>、图片输入/>经过编码器编码后得到的特征向量/>和视频输入/>经过编码器编码后得到的特征向量/>。
进一步地,所述基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果,包括:
通过评分函数量化用户输入与检索结果的相关性。
进一步地,所述通过评分函数文本信息的量化输入问题与检索结果的相关性评分,包括:
通过公式1计算文本/语音输入的检索结果的相关性评分;
公式1;
式中,为文本/语音输入/>的检索结果的相关性评分,/>为相似度计算函数,为5G消息知识库中全部文本数据的向量表示,/>为文本/语音输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式2计算图片输入的检索结果的相关性评分;
公式2;
式中,为图片输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部图片数据的向量表示,/>为图片输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式3计算视频输入的检索结果的相关性评分;
公式3;
式中,为视频输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部视频数据的向量表示,/>为视频输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量。
进一步地,所述将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合,包括:
为每条历史5G消息添加问题,并将整个历史5G消息内容作为答案,为问题与5G消息内容匹配程度打上评分标签;
将打上评分标签的历史5G消息进行向量编码,得到每个模态的每条历史5G消息的特征向量;
将每个模态的特征向量进行拼接得到拼接特征向量,基于所述拼接特征向量构建训练集;
构建综合评分预测模型;
将所述训练集输入所述综合评分预测模型进行训练,得到训练好的综合评分预测模型。
进一步地,所述将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合,还包括:
使用三层感知器MLP进行迭代训练,获取目标最小化损失函数,使综合评分预测模型预测分数与真实标签分数拟合;
通过公式4计算最小化损失函数;
公式4;
式中,为整体的损失函数,N为全部训练样本数据,i为输入的第i个样本数据,为单个样本的损失,/>为模型函数,/>为权重参数,/>为第i个样本的标签,/>为融合的特征向量;
通过公式5计算第i个样本模型预测的输出分数:
公式5;
式中,是权重参数,/>是第i个样本模型预测的输出分数,/>为融合的特征向量。
进一步地,所述基于最相关的检索结果组合输出5G消息答案,包括:
基于最相关的检索结果组合生成5G消息答案后,基于5G消息答案的类型解析各个模态的内容,将5G消息答案的各个模态内容放入5G消息模板对应的位置处后,将5G消息答案发送至用户侧。
一种面向5G消息的多模态知识问答系统,包括:
特征向量获取模块,用于响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;
单模态内容检索模块,用于基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;
多模态评分模块,用于将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;
5G消息答案输出模块,用于基于最相关的检索结果组合输出5G消息答案。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如所述方法的步骤。
一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法的步骤。
本发明实施例具有如下优点:
本发明中面向5G消息的多模态知识问答方法,响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;基于最相关的检索结果组合输出5G消息答案,解决了现有技术中无法直接处理和理解多模态数据且单模态的交互方式无法满足用户多样化的需求的问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明面向5G消息的多模态知识问答方法的第一流程图;
图2为本发明面向5G消息的多模态知识问答方法的第二流程图;
图3为本发明面向5G消息的多模态知识问答系统的架构图;
图4为本发明提供的电子设备实体结构示意图。
其中附图标记为:
特征向量获取模块10,单模态内容检索模块20,多模态评分模块30,5G消息答案输出模块40,电子设备50,处理器501,存储器502,总线503。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1-图2为本发明面向5G消息的多模态知识问答方法实施例流程图,如图1-图2所示,本发明实施例提供的一种面向5G消息的多模态知识问答方法包括以下步骤:
S101,响应于用户的输入请求,获取用户输入,将用户输入进行模态转换与向量编码得到特征向量;
具体的,用户输入可以是文本/语音(T)、图片(I)或视频(V)形式,为了便于用户输入与5G消息知识库进行内容检索和大语言模型能够理解各个模态的语义信息,需要将语音、图片或视频的输入表示成一种统一的形式。基于X-LLM多模态大模型的X2L编码器可以将多模态(文本/语音、图片、视频)数据转换为嵌入序列表示(Embedding特征向量)。
基于X-LLM多模态大模型的X2L编码器将多模态的用户输入转换为嵌入序列;
其中,所述用户输入包括文本/语音输入、图片输入/>和视频输入/>;嵌入序列包括文本/语音输入/>经过编码器编码后得到的特征向量/>、图片输入/>经过编码器编码后得到的特征向量/>和视频输入/>经过编码器编码后得到的特征向量/>。
文本输入转换为嵌入序列:
图片输入转换为嵌入序列:
视频输入转换为嵌入序列:
。
S102,基于特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;
具体的,通过评分函数量化用户输入与检索结果的相关性。/>(/>)是输入/>的检索结果的相关性评分。
通过公式1计算文本/语音输入的检索结果的相关性评分;
公式1;
式中,为文本/语音输入/>的检索结果的相关性评分,/>为相似度计算函数,为5G消息知识库中全部文本数据的向量表示,/>为文本/语音输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式2计算图片输入的检索结果的相关性评分;
公式2;
式中,为图片输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部图片数据的向量表示,/>为图片输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式3计算视频输入的检索结果的相关性评分;
公式3;
式中,为视频输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部视频数据的向量表示,/>为视频输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量。
S103,将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对相关性评分进行排序,得到最相关的检索结果组合;
具体的,在处理多模态数据检索问题时,仅仅分别检索各个模态(如文本、图片、视频等)与用户输入的相似性往往不能保证内容的统一性。为了找出跨多个模态都与用户输入高度相关的一组结果,需要动态更新的多模态检索评分机制。采用多层感知器MLP训练权重参数,使用训练好的模型进行预测,得到每个组合的相关性评分。
为每条历史5G消息添加问题,并将整个历史5G消息内容作为答案,为问题与5G消息内容匹配程度打上评分标签;
用户输入、5G消息内容和匹配分数可以表示为:
其中表示用户输入内容,/>表示5G消息中文本信息,/>表示5G消息中图片信息,/>表示5G消息中视频信息,/>表示5G消息内容与输入问题的匹配分数(评分标签)。
数据库提供了高容量、高扩展性和灵活的数据存储能力,以支持大规模的数据管理和分析。利用数据库存储5G消息中的原始多模态数据,包括文本、图片、视频等形式的数据。同时,每个类型的数据分别有对应的索引向量库用于存储经过模型编码后的语义特征向量。同时,基于行业内容的文档、图片、视频数据经过处理后同样也会有向量存储表示。
将打上评分标签的历史5G消息进行向量编码,得到每个模态的每条历史5G消息的特征向量;
将每个模态的特征向量进行拼接得到拼接特征向量,基于所述拼接特征向量构建训练集;
这里表示向量拼接,/>为融合的特征向量,/>,/>,/>分别表示第i个训练语料中文本、图片和视频经过编码器编码后得到的特征向量。
构建综合评分预测模型;
将所述训练集输入所述综合评分预测模型进行训练,得到训练好的综合评分预测模型。
使用三层感知器MLP进行迭代训练,获取目标最小化损失函数,使综合评分预测模型预测分数与真实标签分数拟合;
通过公式4计算最小化损失函数;
公式4;
式中,为整体的损失函数,N为全部训练样本数据,i为输入的第i个样本数据,为单个样本的损失,/>为模型函数,/>为权重参数,/>为第i个样本的标签,/>为融合的特征向量;
通过公式5计算第i个样本模型预测的输出分数:
公式5;
式中,是权重参数,/>是第i个样本模型预测的输出分数,/>为融合的特征向量。
用户输入首先经过单模态内容检索得到的每个模态的前k个检索结果,这些检索结果与用户输入内容语义上相近,但对于每个模态的输出(),同一结果集/>来说,结果集中的图片内容或者视频内容可能会与文本内容语义偏差较大。将单模态结果集中文本、图片、视频3种模态结果进行组合,组合示例如下:
,
,
…
,
,
…
那么共有个组合方式(k=10时,则有1000种组合),将每个组合中的单模态特征向量进行融合然后输入到综合评分预测模型中得到预测的相关性评分:,然后根据预测的相关性评分进行排序,并输出最相关的一组结果。
经多模态检索评分机制优化结果集,得到新的一组结果如,这组结果通过综合评分预测模型预测得到的相关性评分最高,相关性评分最高表示与用户输入内容高度相关,而且相关性评分最高的一组结果中文本、图片与视频内容之间的相关性也较高,内容具有一致性,通过已训练好的综合评分预测模型可以从大量的组合中快速找出最相关的检索结果组合。
S104,基于最相关的检索结果组合输出5G消息答案。
具体的,基于最相关的检索结果组合生成5G消息答案后,基于5G消息答案的类型解析各个模态的内容,将5G消息答案的各个模态内容放入5G消息模板对应的位置处后,将5G消息答案发送至用户侧。
当用户输入为文本/语音输入时,将文本/语音编码为/>,基于单模态内容检索分别检索出k个相关的文本、图片和视频数据。
当用户输入为图片输入时,将图片编码为/>,基于单模态内容检索分别检索出k个相关的文本、图片和视频数据。
当用户输入为视频输入时,将视频编码为/>,基于单模态内容检索分别检索出k个相关的文本、图片和视频数据。
当用户输入为文本/语音输入和图片输入/>时,将图片编码为/>,基于单模态内容检索分别检索出k个相关的文本、图片和视频数据。
当用户输入为文本/语音输入和视频输入/>时,将视频编码为/>,基于单模态内容检索分别检索出k个相关的文本、图片和视频数据。
然后基于多模态检索评分机制获取输出,从输出结果集中得到原始文本内容/>,原始图片/>,原始视频/>。
对于用户输入回答的最终问题需要进行精炼概括,同时回答需要具有拟人化特性,而不是将检索结果直接输出给用户,因此最终文本答案的输入输出可以表示为:
输入:
输出:
其中为文本答案提示模板(如“请根据输入内容与文本内容生成问题答案”),/>为文本生成大模型。
该面向5G消息的多模态知识问答方法,响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;基于最相关的检索结果组合输出5G消息答案。解决了现有技术中无法直接处理和理解多模态数据且单模态的交互方式无法满足用户多样化的需求的问题。
该面向5G消息的多模态知识问答方法,利用大模型的优势与数据库的能力将5G消息中的多模态数据进行统一表示与存储。通过将文本、图片、视频等不同类型的数据进行向量编码,实现了对多模态数据的有效整合。
设计了一种多模态检索评分机制,能够保证检索结果的内容具有统一性,提高了知识问答的精准度和答案的一致性。这种基于深度学习训练的评分机制可以通过用户的评价反馈继续更新评分模型,不断优化检索结果的精准性。
通过使用大模型进行答案生成,可以根据用户输入内容和检索结果生成智能化的回答。同时,如果检索结果中缺少相关图片或视频,还可以基于文本内容生成相应的图片或视频数据,提供更加丰富和个性化的回答。
且传统的知识问答主要基于单一的交互模式,难以处理复杂的问题。而本发明的多模态知识问答方法可以同时处理文本、图片、视频等多种媒体类型的输入,满足用户多样化的需求,提供更加全面和准确的答案。
图3为本发明面向5G消息的多模态知识问答系统实施例流程图;如图3所示,本发明实施例提供的一种面向5G消息的多模态知识问答系统,包括以下步骤:
特征向量获取模块10,用于响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;
单模态内容检索模块20,用于基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;
多模态评分模块30,用于将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;
5G消息答案输出模块40,用于基于最相关的检索结果组合输出5G消息答案。
所述特征向量获取模块10还用于:
基于X-LLM多模态大模型的X2L编码器将多模态的用户输入转换为嵌入序列;
其中,所述用户输入包括文本/语音输入、图片输入/>和视频输入/>;嵌入序列包括文本/语音输入/>经过编码器编码后得到的特征向量/>、图片输入/>经过编码器编码后得到的特征向量/>和视频输入/>经过编码器编码后得到的特征向量/>。
所述单模态内容检索模块20还用于:
通过评分函数量化用户输入与检索结果的相关性。
通过公式1计算文本/语音输入的检索结果的相关性评分;
公式1;
式中,为文本/语音输入/>的检索结果的相关性评分,/>为相似度计算函数,为5G消息知识库中全部文本数据的向量表示,/>为文本/语音输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式2计算图片输入的检索结果的相关性评分;
公式2;
式中,为图片输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部图片数据的向量表示,/>为图片输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式3计算视频输入的检索结果的相关性评分;
公式3;
式中,为视频输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部视频数据的向量表示,/>为视频输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量。
所述多模态评分模块30还用于:
为每条历史5G消息添加问题,并将整个历史5G消息内容作为答案,为问题与5G消息内容匹配程度打上评分标签;
将打上评分标签的历史5G消息进行向量编码,得到每个模态的每条历史5G消息的特征向量;
将每个模态的特征向量进行拼接得到拼接特征向量,基于所述拼接特征向量构建训练集;
构建综合评分预测模型;
将所述训练集输入所述综合评分预测模型进行训练,得到训练好的综合评分预测模型。
使用三层感知器MLP进行迭代训练,获取目标最小化损失函数,使综合评分预测模型预测分数与真实标签分数拟合;
通过公式4计算最小化损失函数;
公式4;
式中,为整体的损失函数,N为全部训练样本数据,i为输入的第i个样本数据,为单个样本的损失,/>为模型函数,/>为权重参数,/>为第i个样本的标签,/>为融合的特征向量;
通过公式5计算第i个样本模型预测的输出分数:
公式5;
式中,是权重参数,/>是第i个样本模型预测的输出分数,/>为融合的特征向量。
所述5G消息答案输出模块40还用于:
基于最相关的检索结果组合生成5G消息答案后,基于5G消息答案的类型解析各个模态的内容,将5G消息答案的各个模态内容放入5G消息模板对应的位置处后,将5G消息答案发送至用户侧。
本发明的一种面向5G消息的多模态知识问答系统,通过特征向量获取模块10响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;通过单模态内容检索模块20基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;通过多模态评分模块30将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;通过5G消息答案输出模块40基于最相关的检索结果组合输出5G消息答案。该面向5G消息的多模态知识问答方法解决现有技术中无法直接处理和理解多模态数据且单模态的交互方式无法满足用户多样化的需求的问题。
图4为本发明实施例提供的电子设备实体结构示意图,如图4所示,电子设备50包括:处理器501(processor)、存储器502(memory)和总线503;
其中,处理器501、存储器502通过总线503完成相互间的通信;
处理器501用于调用存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;基于最相关的检索结果组合输出5G消息答案。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;基于最相关的检索结果组合输出5G消息答案。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各实施例或者实施例的某些部分的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种面向5G消息的多模态知识问答方法,其特征在于,所述方法具体包括:
响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;
基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;
将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;
基于最相关的检索结果组合输出5G消息答案。
2.根据权利要求1所述面向5G消息的多模态知识问答方法,其特征在于,所述响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量,包括:
基于X-LLM多模态大模型的X2L编码器将多模态的用户输入转换为嵌入序列;
其中,所述用户输入包括文本/语音输入、图片输入/>和视频输入/>;嵌入序列包括文本/语音输入/>经过编码器编码后得到的特征向量/>、图片输入/>经过编码器编码后得到的特征向量/>和视频输入/>经过编码器编码后得到的特征向量/>。
3.根据权利要求1所述面向5G消息的多模态知识问答方法,其特征在于,所述基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果,包括:
通过评分函数量化用户输入与检索结果的相关性。
4.根据权利要求3所述面向5G消息的多模态知识问答方法,其特征在于,所述通过评分函数文本信息的量化输入问题与检索结果的相关性评分,包括:
通过公式1计算文本/语音输入的检索结果的相关性评分;
公式1;
式中,为文本/语音输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部文本数据的向量表示,/>为文本/语音输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式2计算图片输入的检索结果的相关性评分;
公式2;
式中,为图片输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部图片数据的向量表示,/>为图片输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量;
通过公式3计算视频输入的检索结果的相关性评分;
公式3;
式中,为视频输入/>的检索结果的相关性评分,/>为相似度计算函数,/>为5G消息知识库中全部视频数据的向量表示,/>为视频输入/>经过编码器编码后得到的特征向量,/>为检索返回的数量。
5.根据权利要求1所述面向5G消息的多模态知识问答方法,其特征在于,所述将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合,包括:
为每条历史5G消息添加问题,并将整个历史5G消息内容作为答案,为问题与5G消息内容匹配程度打上评分标签;
将打上评分标签的所述历史5G消息进行向量编码,得到每个模态的每条历史5G消息的特征向量;
将每个模态的特征向量进行拼接得到拼接特征向量,基于所述拼接特征向量构建训练集;
构建综合评分预测模型;
将所述训练集输入所述综合评分预测模型进行训练,得到训练好的综合评分预测模型。
6.根据权利要求5所述面向5G消息的多模态知识问答方法,其特征在于,所述将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合,还包括:
使用三层感知器MLP进行迭代训练,获取目标最小化损失函数,使综合评分预测模型预测分数与真实标签分数拟合;
通过公式4计算最小化损失函数;
公式4;
式中,为整体的损失函数,N为全部训练样本数据,i为输入的第i个样本数据,/>为单个样本的损失,/>为模型函数,/>为权重参数,/>为第i个样本的标签,/>为融合的特征向量;
通过公式5计算第i个样本模型预测的输出分数:
公式5;
式中,是权重参数,/>是第i个样本模型预测的输出分数,/>为融合的特征向量。
7.根据权利要求1所述面向5G消息的多模态知识问答方法,其特征在于,所述基于最相关的检索结果组合输出5G消息答案,包括:
基于最相关的检索结果组合生成5G消息答案后,基于5G消息答案的类型解析各个模态的内容,将5G消息答案的各个模态内容放入5G消息模板对应的位置处后,将5G消息答案发送至用户侧。
8.一种面向5G消息的多模态知识问答系统,其特征在于,包括:
特征向量获取模块,用于响应于用户的输入请求,获取用户输入,将所述用户输入进行模态转换与向量编码得到特征向量;
单模态内容检索模块,用于基于所述特征向量进行单模态内容检索,得到的每个模态与用户输入相似的前k个检索结果;
多模态评分模块,用于将每个模态的检索结果进行组合得到若干个检索结果组合,将每个检索结果组合中的单模态特征向量进行融合得到融合特征向量,将所述融合特征向量输入综合评分预测模型中,得到预测的相关性评分,对所述相关性评分进行排序,得到最相关的检索结果组合;
5G消息答案输出模块,用于基于最相关的检索结果组合输出5G消息答案。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中的任一项所述的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中的任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199600.0A CN116932731B (zh) | 2023-09-18 | 2023-09-18 | 面向5g消息的多模态知识问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199600.0A CN116932731B (zh) | 2023-09-18 | 2023-09-18 | 面向5g消息的多模态知识问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932731A true CN116932731A (zh) | 2023-10-24 |
CN116932731B CN116932731B (zh) | 2024-01-30 |
Family
ID=88390056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311199600.0A Active CN116932731B (zh) | 2023-09-18 | 2023-09-18 | 面向5g消息的多模态知识问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932731B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972123A (zh) * | 2024-03-28 | 2024-05-03 | 深圳市壹通道科技有限公司 | 一种基于5g消息的客服信息系统、方法、设备及介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100100439A1 (en) * | 2008-06-12 | 2010-04-22 | Dawn Jutla | Multi-platform system apparatus for interoperable, multimedia-accessible and convertible structured and unstructured wikis, wiki user networks, and other user-generated content repositories |
US20110010177A1 (en) * | 2009-07-08 | 2011-01-13 | Honda Motor Co., Ltd. | Question and answer database expansion apparatus and question and answer database expansion method |
WO2013116461A1 (en) * | 2012-02-03 | 2013-08-08 | Kextil, Llc | Systems and methods for voice-guided operations |
US20170124497A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | System for automated capture and analysis of business information for reliable business venture outcome prediction |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN110895561A (zh) * | 2019-11-13 | 2020-03-20 | 中国科学院自动化研究所 | 基于多模态知识感知的医疗问答检索方法、系统、装置 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
WO2021184026A1 (en) * | 2021-04-08 | 2021-09-16 | Innopeak Technology, Inc. | Audio-visual fusion with cross-modal attention for video action recognition |
WO2022028690A1 (en) * | 2020-08-05 | 2022-02-10 | Siemens Aktiengesellschaft | Topicbert: decarbonizing bert with topics for efficient document classification |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
CN114461890A (zh) * | 2021-12-15 | 2022-05-10 | 中山大学 | 分层多模态的知识产权搜索引擎方法与系统 |
WO2022175970A1 (en) * | 2021-02-17 | 2022-08-25 | Waycool Foods And Products Private Limited | System and method for determining one or more agri-measures |
US20220292269A1 (en) * | 2021-03-15 | 2022-09-15 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for acquiring pre-trained model |
CN115205930A (zh) * | 2022-06-24 | 2022-10-18 | 北京工业大学 | 一种基于决策融合的多模态情感分类方法 |
WO2023035610A1 (zh) * | 2021-09-09 | 2023-03-16 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN115966061A (zh) * | 2022-12-28 | 2023-04-14 | 上海帜讯信息技术股份有限公司 | 基于5g消息的灾情预警处理方法、系统和装置 |
CN116204694A (zh) * | 2023-02-15 | 2023-06-02 | 北京邮电大学 | 一种基于深度学习与哈希算法的多模态检索方法 |
US20230177384A1 (en) * | 2021-12-08 | 2023-06-08 | Google Llc | Attention Bottlenecks for Multimodal Fusion |
WO2023125335A1 (zh) * | 2021-12-28 | 2023-07-06 | 华为技术有限公司 | 问答对生成的方法和电子设备 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN116524931A (zh) * | 2023-04-23 | 2023-08-01 | 上海帜讯信息技术股份有限公司 | 5g富媒体消息语音转文本系统、方法、电子设备及介质 |
-
2023
- 2023-09-18 CN CN202311199600.0A patent/CN116932731B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100100439A1 (en) * | 2008-06-12 | 2010-04-22 | Dawn Jutla | Multi-platform system apparatus for interoperable, multimedia-accessible and convertible structured and unstructured wikis, wiki user networks, and other user-generated content repositories |
US20110010177A1 (en) * | 2009-07-08 | 2011-01-13 | Honda Motor Co., Ltd. | Question and answer database expansion apparatus and question and answer database expansion method |
WO2013116461A1 (en) * | 2012-02-03 | 2013-08-08 | Kextil, Llc | Systems and methods for voice-guided operations |
US20170124497A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | System for automated capture and analysis of business information for reliable business venture outcome prediction |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN110895561A (zh) * | 2019-11-13 | 2020-03-20 | 中国科学院自动化研究所 | 基于多模态知识感知的医疗问答检索方法、系统、装置 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
WO2022028690A1 (en) * | 2020-08-05 | 2022-02-10 | Siemens Aktiengesellschaft | Topicbert: decarbonizing bert with topics for efficient document classification |
WO2022175970A1 (en) * | 2021-02-17 | 2022-08-25 | Waycool Foods And Products Private Limited | System and method for determining one or more agri-measures |
US20220292269A1 (en) * | 2021-03-15 | 2022-09-15 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for acquiring pre-trained model |
WO2021184026A1 (en) * | 2021-04-08 | 2021-09-16 | Innopeak Technology, Inc. | Audio-visual fusion with cross-modal attention for video action recognition |
WO2023035610A1 (zh) * | 2021-09-09 | 2023-03-16 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
US20230177384A1 (en) * | 2021-12-08 | 2023-06-08 | Google Llc | Attention Bottlenecks for Multimodal Fusion |
CN114461890A (zh) * | 2021-12-15 | 2022-05-10 | 中山大学 | 分层多模态的知识产权搜索引擎方法与系统 |
WO2023125335A1 (zh) * | 2021-12-28 | 2023-07-06 | 华为技术有限公司 | 问答对生成的方法和电子设备 |
CN115205930A (zh) * | 2022-06-24 | 2022-10-18 | 北京工业大学 | 一种基于决策融合的多模态情感分类方法 |
CN115966061A (zh) * | 2022-12-28 | 2023-04-14 | 上海帜讯信息技术股份有限公司 | 基于5g消息的灾情预警处理方法、系统和装置 |
CN116204694A (zh) * | 2023-02-15 | 2023-06-02 | 北京邮电大学 | 一种基于深度学习与哈希算法的多模态检索方法 |
CN116524931A (zh) * | 2023-04-23 | 2023-08-01 | 上海帜讯信息技术股份有限公司 | 5g富媒体消息语音转文本系统、方法、电子设备及介质 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
FEILONG CHEN等: "X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages", 《ARXIV》, pages 1 - 6 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972123A (zh) * | 2024-03-28 | 2024-05-03 | 深圳市壹通道科技有限公司 | 一种基于5g消息的客服信息系统、方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116932731B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
WO2021082953A1 (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN112069302B (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN111666416A (zh) | 用于生成语义匹配模型的方法和装置 | |
CN116932731B (zh) | 面向5g消息的多模态知识问答方法及系统 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN114974397A (zh) | 蛋白质结构预测模型的训练方法和蛋白质结构预测方法 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
Malode | Benchmarking public large language model | |
CN117093687A (zh) | 问题应答方法和装置、电子设备、存储介质 | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN112101015B (zh) | 一种识别多标签对象的方法及装置 | |
CN114970494A (zh) | 一种评论生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |