CN116561277A

CN116561277A - 知识问答方法、装置、设备及存储介质

Info

Publication number: CN116561277A
Application number: CN202310506333.0A
Authority: CN
Inventors: 殷兵; 刘聪; 高建清; 殷保才; 丁瑞; 刘文超; 胡国平; 魏思; 王士进; 刘权
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-08-08

Abstract

本申请公开了一种知识问答方法、装置、设备及存储介质，方法包括：获取用户输入的图片及与图片相关的问题文本，对识别图片中包含的文本信息，并将文本信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中包含的文本信息，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令输入给大语言模型，大语言模型能够基于前述理解的图片中包含的文本信息，对该问题文本进行理解及回复。本申请支持多模态的问题输入，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片中包含的文本信息，基于此能够更加准确的给出问题文本所匹配的答复内容。

Description

知识问答方法、装置、设备及存储介质

技术领域

本申请涉及大语言模型技术领域，更具体的说，是涉及一种知识问答方法、装置、设备及存储介质。

背景技术

知识问答是指，用户向机器提出指令，由机器针对用户提出的指令给出对应的答复内容的过程。

传统的知识问答一般是基于知识库或知识图谱来检索用户的指令，找到知识库中或知识图谱中匹配的答案，并输出给用户。近年来，伴随着人工智能技术的发展，尤其是大语言模型的提出，通过将大语言模型与知识问答相结合，可以大大提升知识问答的准确性。其中，大语言模型(Large language model，LLM)是指基于Transformer结构的深度神经网络模型，其具备超强的语义理解及多轮对话能力，常见的大语言模型如GPT4以及其它企业研发的大语言模型等。

但是，目前基于大语言模型的知识问答方案，还仅局限于文本输入到文本输出，或文本输入到图片输出，对于输入信息的模态过于单一，这也限制了知识问答的应用场景。

发明内容

鉴于上述问题，提出了本申请以便提供一种知识问答方法、装置、设备及存储介质，以实现多模态的问答输入信息，能够支持用户以图片、文本的形式作为知识问答的输入，并给出匹配的答复内容。具体方案如下：

第一方面，提供了一种知识问答方法，包括：

获取用户输入的图片及与图片相关的问题文本，所述问题文本用于描述用户当前轮提出的问题；

识别所述图片中包含的文本信息；

将所述文本信息作为问答知识输入给预配置的大语言模型；

以所述问题文本作为提示指令prompt，输入至所述大语言模型，得到大语言模型输出的针对所述问题文本的答复内容。

优选地，在将所述文本信息作为问答知识输入给大语言模型之前，还包括：

识别所述文本信息的语种类型，作为源语种；

在检测满足对所述文本信息进行翻译的条件时，对源语种的所述文本信息进行翻译，得到目标语种的翻译后文本信息，所述目标语种为与所述用户匹配的语种；

则将所述文本信息作为问答知识输入给大语言模型的过程，包括：

将所述翻译后文本信息作为问答知识输入给大语言模型。

优选地，检测是否满足对所述文本信息进行翻译的条件的过程，包括：

利用所述大语言模型识别所述问题文本是否包含文本翻译意图，若是，则确定满足对所述文本信息进行翻译的条件；

或，

在所述源语种不同于所述用户所匹配的目标语种时，确定满足对所述文本信息进行翻译的条件。

优选地，所述图片及所述图片相关的问题文本为在同一轮问答交互中输入，或，所述图片及所述图片相关的问题文本在不同轮问答交互中输入，且所述图片的输入时间早于所述问题文本。

优选地，在所述图片相关的问题文本的意图为对所述图片中的内容进行翻译时，所述大语言模型输出的针对所述问题文本的答复内容为所述翻译后文本信息。

优选地，在所述图片相关的问题文本的意图为将译文还原到所述图片中时，所述大语言模型输出的针对所述问题文本的答复内容为对所述图片编辑后的图片，所述编辑后的图片为将所述翻译后文本信息按照在所述图片中的对应位置替换掉原始的文本信息后的图片。

优选地，将所述文本信息作为问答知识输入给预配置的大语言模型，包括：

获取预配置的知识提示指令模板，所述知识提示指令模板包括图片信息槽；

将所述文本信息填充至所述图片信息槽中，得到编辑后的知识提示指令，并输入给预配置的大语言模型。

优选地，所述获取用户输入的图片及与图片相关的问题文本，包括：

显示问答界面，所述问答界面上包含图片输入控件及文本对话框；

响应用户通过所述图片输入控件上传图片的操作，得到用户输入的图片；

响应用户在所述文本对话框输入问题文本的操作，得到用户输入的与图片相关的问题文本。

优选地，所述获取用户输入的图片，包括：

获取用户输入的视频，并从所述视频中提取视频帧图片；

所述识别所述图片中包含的文本信息，包括：

识别各视频帧图片中包含的文本信息；

所述将所述文本信息作为问答知识输入给预配置的大语言模型，包括：

将每一视频帧图片的时间戳及其包含的文本信息，作为问答知识输入给预配置的大语言模型。

第二方面，提供了一种知识问答装置，包括：

输入信息获取单元，用于获取用户输入的图片及与图片相关的问题文本，所述问题文本用于描述用户当前轮提出的问题；

图片识别单元，用于识别所述图片中包含的文本信息；

知识输入单元，用于将所述文本信息作为问答知识输入给预配置的大语言模型；

问答交互单元，用于以所述问题文本作为提示指令prompt，输入至所述大语言模型，得到大语言模型输出的针对所述问题文本的答复内容。

第三方面，提供了一种知识问答设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如前所述的知识问答方法的各个步骤。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的知识问答方法的各个步骤。

借由上述技术方案，本申请的知识问答过程支持用户通过文本及图片的模式输入问题，在此基础上对用户输入的图片进行识别，得到图片中包含的文本信息，并将文本信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中包含的文本信息，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令prompt输入给大语言模型，大语言模型能够基于前述理解的图片中包含的文本信息，对该问题文本进行理解及回复，得到答复内容。由上可知，本实施例支持多模态的问题输入形式，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片中包含的文本信息，基于此能够更加准确的给出问题文本所匹配的答复内容。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的一种知识问答方法流程示意图；

图2-图7示例了几种不同的知识问答交互界面示意图；

图8为本申请实施例提供的另一种知识问答方法流程示意图；

图9为本申请实施例提供的一种知识问答装置结构示意图；

图10为本申请实施例提供的一种知识问答设备的结构示意图。

具体实施方式

在介绍本申请方案之前，首先对本文中涉及到的英文进行解释：

Prompt：指示指令。在与AI(如大语言模型)进行对话时，需要向AI发送的指令，其可以是一段文字描述，比如你和AI对话时输入的“请帮我推荐一首流行音乐”，也可以是按照一定格式的参数描述，比如让AI按照一定格式进行绘图，需要描述相关绘图参数。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种知识问答方案，可以适用于各种形式的知识问答的场景，示例如：智能机器人等硬件设备提供的人机对话场景、各类型应用提供的知识问答场景等。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、学习机、智能机器人等。

接下来，结合图1所述，本申请的知识问答方法可以包括如下步骤：

步骤S100、获取用户输入的图片及与图片相关的问题文本。

具体地，在知识问答场景中，用户可以通过图片、文本的形式输入问题。其中，问题文本用于描述用户当前轮提出的问题，该问题可以是与图片相关的问题。

在一次知识问答的过程中，用户与机器之间可以进行多轮交互，则本步骤中用户输入的图片及问题文本可以是在同一轮知识问答交互中输入。除此之外，图片和问题文本还可以是在不同轮问答交互中输入，且图片的输入时间早于问题文本，也即，用户可以在某一轮问答交互中先输入图片，在下一轮问答交互中再输入与图片相关的问题文本。

可以理解的是，针对同一张输入图片，用户可以在多轮问答交互中输入不同的问题文本。

参照图2-7，用户可以在第一轮问答交互中，同时输入一张包含英文内容的菜单图片，以及问题文本：“帮我把这张菜单内容翻译成中文”。当然，除此之外，还可以是在第一轮问答交互中先输入菜单图片。在第二轮问答交互中再输入问题文本：“帮我把这张菜单内容翻译成中文”，具体交互形式本申请不做限制。

进一步参照图7可知，针对同一张输入图片，用户可以和机器进行多轮的问答交互，如图7中，用户在第二轮中可以进一步输入问题文本：“帮我把翻译的内容还原到图片中”，则机器可以将还原后的图片输出。用户在第三轮中可以进一步输入问题文本：“烟熏牛肉这道菜的原材料有哪些”，机器输出对应的回复内容。

步骤S110、识别所述图片中包含的文本信息。

具体地，本申请可以调用相应的图片识别引擎，对图片中的文本信息进行识别，示例如调用OCR引擎对图片进行OCR识别，得到识别后的文本信息。

步骤S120、将所述文本信息作为问答知识输入给预配置的大语言模型。

具体地，为了使得大语言模型能够理解用户针对图片所提出的问题，本步骤中将对图片识别到的文本信息作为问答知识，输入给大语言模型，以使得大语言模型能够理解图片中包含的文本信息，将其作为知识问答对话的上下文信息，从而更好的理解用户当前轮及后续输入的与图片相关的问题文本，并给出正确的回复。

一种可选的实现方式中，可以将文本信息作为大语言模型的Prompt知识输入。具体地，本申请可以预先配置一种指示提示指令模板，用于通过Prompt的形式向大语言模型输入知识信息。知识提示指令模板中可以包括图片信息槽，用于填充图片中识别到的文本信息。在此基础上，本步骤中可以将从输入图片中识别出的文本信息填充至知识提示指令模板中的图片信息槽中，得到编辑后的知识提示指令Prompt，并输入给大语言模型。

示例性的，假设文本信息为：“拿破仑翻越阿尔卑斯山，在圣伯纳德山口”，则将文本信息填充到图片信息槽后，得到的编辑后的知识提示指令Prompt为：“请记住以下内容：这是一幅图片，图片信息如下：拿破仑翻越阿尔卑斯山，在圣伯纳德山口”。

步骤S130、以所述问题文本作为提示指令prompt，输入至所述大语言模型，得到大语言模型输出的针对所述问题文本的答复内容。

具体地，在完成上述步骤S120之后，大语言模型已经理解了图片中包含的文本信息，在此基础上，可以将用户输入的问题文本作为prompt，输入至大语言模型，得到大语言模型输出的针对该问题文本的答复内容。

本申请实施例提供的知识问答方法，支持用户通过文本及图片的模式输入问题，在此基础上对用户输入的图片进行识别，得到图片中包含的文本信息，并将文本信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中包含的文本信息，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令prompt输入给大语言模型，大语言模型能够基于前述理解的图片中包含的文本信息，对该问题文本进行理解及回复，得到答复内容。由上可知，本实施例支持多模态的问题输入形式，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片中包含的文本信息，基于此能够更加准确的给出问题文本所匹配的答复内容。

参照图2所示，本实施例提供了一种获取用户输入的图片及图片相关的问题文本的可选实现方式。

本实施例中可以提供一问答界面，显示给用户。在该问答界面上包含有图片输入控件M1，及文本对话框M2。

本实施例中可以响应用户通过图片输入控件M1上传图片的操作，得到用户输入的图片。以及，可以响应用户在文本对话框M2中输入问题文本的操作，得到用户输入的与图片相关的问题文本。

对于图片输入控件M1，用户在触发该控件后可以显示弹窗，在弹窗中支持用户选择本地的图片文件进行上传，也可以支持用户通过拖拽的方式将目标图片拖拽到指定区域内，完成图片的上传。图片上传之后进入图片缓存区，效果如图3所示。此时用户可以通过点击“发送”控件，将上传的图片上传给机器，完成图片的输入过程。除此之外，用户还可以在文本对话框M2中输入问题文本，如图4所示，输入的问题文本为“帮我把这张菜单内容翻译成中文”。在输入问题文本之后，可以点击“发送”控件，完成图片和问题文本的输入过程。

需要说明的是，本实施例提供的知识问答方法，在问题输入上支持多模态输入方式，除了上述实施例介绍的图片、文本输入模态之外，还可以支持视频模态的输入。

在获取到用户输入的视频之后，可以从视频中提取视频帧图片，进而识别各视频帧图片中包含的文本信息，示例如视频帧图片中显示的字幕信息等。其中，从视频中提取的视频帧图片，可以是视频中每一帧图片，也可以是关键帧图片。

在此基础上，为了使得大语言模型可以学习到视频中包含的文本信息，可以将每一视频帧图片中识别到的文本信息，作为问答知识输入给大语言模型。当然，考虑到不同视频帧图片的时间戳不同，且该时间戳信息和文本信息存在关联关系，也属于一种知识信息，因此可以将每一视频帧图片的时间戳及视频帧图片中包含的文本信息进行组合，将组合后的信息作为问答知识输入给大语言模型。

在视频输入模态下，用户可以针对输入视频进行提问，示例如“请翻译下视频中出现的字幕”、“请介绍下视频中出现的油画的创作背景”等。

在本申请的一些实施例中，考虑到在不同应用地区、不同应用场景，用户所倾向使用的语种可能不同，并且不同的大语言模型在训练阶段所使用的训练数据的语种也可能不同，其对不同语种的知识的理解能力也有所差异。为此，本实施例提供的知识问答方法中，可以增加对语种识别及处理的过程，具体步骤可以参照图8所示：

步骤S200、获取用户输入的图片及与图片相关的问题文本。

步骤S210、识别所述图片中包含的文本信息。

步骤S200-S210与前述实施例中的步骤S100-S110一一对应，详细参照前文介绍，此处不再赘述。

步骤S220、识别文本信息的语种类型，作为源语种。

步骤S230、检测是否满足对文本信息进行翻译的条件，若是，执行步骤S240-S250，若否，执行步骤S260。

对于检测是否满足对文本信息进行翻译的条件的过程，本申请实施例中提供了几种不同的实现方式，如下：

可以利用大语言模型识别问题文本是否包含文本翻译意图，若是，则确定满足对文本信息进行翻译的条件。

具体地，大语言模型可以理解并识别用户输入的问题文本的意图，若确定问题文本的意图中包含文本翻译意图(示例如前文提及的问题文本“帮我把这张菜单内容翻译成中文”)，则可以确定满足对文本信息进行翻译的条件，也即可以对源语种的文本信息进行翻译，翻译为目标语种。

此外，还可以在识别到的源语种不同于用户所匹配的目标语种时，确定满足对文本信息进行翻译的条件。

其中，目标语种为与用户匹配的语种。本实施例中可以采用多种不同的方式确定与用户匹配的目标语种，包括但不限于以下几种方式：

1、将用户输入的问题文本的语种作为目标语种。

2、将默认设置的语种作为目标语种。

3、通过传感器识别当前用户身份，并查询存储的与当前用户身份对应的目标语种。

步骤S240、对源语种的文本信息进行翻译，得到目标语种的翻译后文本信息。

具体地，在大语言模型具备翻译能力的情况下，可以调用大语言模型对源语种的文本信息进行翻译。除此之外，还可以调用其它翻译引擎对源语种的文本信息进行翻译。

步骤S250、将翻译后文本信息作为问答知识输入给大语言模型。

步骤S260、将文本信息作为问答知识输入给大语言模型。

步骤S270、以问题文本作为提示指令prompt，输入至大语言模型，得到大语言模型输出的针对问题文本的答复内容。

本实施例提供的知识问答方法中，增加了对文本信息的语种进行识别的过程，并且若检测到满足对文本信息进行翻译的条件时，可以对源语种的文本信息进行翻译，得到与用户匹配的目标语种的翻译后文本信息。同时，可以将目标语种的翻译后文本信息作为问答知识，输入给大语言模型，使得大语言模型可以更好的理解图片中包含的文本信息。

另一种可选的实现方式中，在上述步骤S240之后，步骤S250中还可以同时将翻译后文本信息以及翻译前的文本信息一起输入到大语言模型中，使得大语言模型可以基于两个语种的文本信息进行图片内容的理解。

在本申请的一些实施例中，介绍了本申请的知识问答方法的一些可选示例场景。如图4-图5所示：

在用户输入的图片相关的问题文本的意图为对图片中的内容进行翻译时，对应的大语言模型输出的针对问题文本的答复内容为翻译后文本信息。如图4所示，用户输入的问题文本为“帮我把这张菜单内容翻译成中文”，图5示例的对英文菜单中的内容进行翻译后，输出的翻译后菜单(需要说明的是，图5仅作为一种参考示例而非真实交互界面，其仅示例了图片中部分文本信息的翻译结果)。当然，还可以同时输出翻译前的文本信息。

如图6所示：

在用户输入的图片相关的问题文本的意图为将译文还原到图片中时，大语言模型输出的针对问题文本的答复内容为对图片编辑后的图片，该编辑后的图片为将翻译后文本信息按照在图片中的对应位置替换掉原始的文本信息后的图片。

图6示例的，用户输入的问题文本为“帮我把翻译的内容还原到图片中”，对应的机器输出编辑后图片，其中原始的英文内容被翻译后的中文内容所替代。

这里需要说明的是，在大语言模型具备图像编辑能力的情况下，可以通过大语言模型完成对图片编辑的过程。在大语言模型不具备图像编辑能力的情况下，可以向系统输出指令，由系统响应该指令进而调用第三方的图像编辑引擎，完成对图像编辑的操作。大语言模型可以理解用户的问题文本的意图，将该意图解析成图像编辑引擎所能够识别的图像编辑指令，通过系统将该图像编辑指令发送给图像编辑引擎，以使得后者可以按照图像编辑指令进行图像编辑，并得到编辑后图像，最终显示给用户。对于图像的编辑，不局限于图6示例的对图像内文字的编辑，用户还可以通过问题文本的形式，下达对图像中其它元素的编辑指令，包括但不限于：对图像中的元素进行删除、新增、移动位置、调整大小等。

当然，上述图4-5、图6仅示例了几种可选的基于图片进行知识问答的场景，除此之外，用户还可以输入其他类型的问题，本实施例中并未进行穷尽。

下面对本申请实施例提供的知识问答装置进行描述，下文描述的知识问答装置与上文描述的知识问答方法可相互对应参照。

参见图9，图9为本申请实施例公开的一种知识问答装置结构示意图。

如图9所示，该装置可以包括：

输入信息获取单元11，用于获取用户输入的图片及与图片相关的问题文本，所述问题文本用于描述用户当前轮提出的问题；

图片识别单元12，用于识别所述图片中包含的文本信息；

知识输入单元13，用于将所述文本信息作为问答知识输入给预配置的大语言模型；

问答交互单元14，用于以所述问题文本作为提示指令prompt，输入至所述大语言模型，得到大语言模型输出的针对所述问题文本的答复内容。

可选的，本申请的装置还可以包括：

源语种识别单元，用于识别所述文本信息的语种类型，作为源语种；

翻译单元，用于在检测满足对所述文本信息进行翻译的条件时，对源语种的所述文本信息进行翻译，得到目标语种的翻译后文本信息，所述目标语种为与所述用户匹配的语种；

对应的知识输入单元具体用于：将所述翻译后文本信息作为问答知识输入给大语言模型。

可选的，上述翻译单元检测是否满足对所述文本信息进行翻译的条件的过程，可以包括：

或，

可选的，在输入信息获取单元所获取的所述图片相关的问题文本的意图为对所述图片中的内容进行翻译时，所述大语言模型输出的针对所述问题文本的答复内容为所述翻译后文本信息。

可选的，在输入信息获取单元所获取的所述图片相关的问题文本的意图为将译文还原到所述图片中时，所述大语言模型输出的针对所述问题文本的答复内容为对所述图片编辑后的图片，所述编辑后的图片为，将所述翻译后文本信息按照在所述图片中的对应位置替换掉原始的文本信息后的图片。

可选的，上述知识输入单元将所述文本信息作为问答知识输入给预配置的大语言模型的过程，可以包括：

可选的，上述输入信息获取单元获取用户输入的图片及与图片相关的问题文本的过程，可以包括：

另一种可选的，上述输入信息获取单元获取用户输入的图片的过程，可以包括：获取用户输入的视频，并从所述视频中提取视频帧图片；则，图片识别单元识别所述图片中包含的文本信息的过程，可以包括：识别各视频帧图片中包含的文本信息；则上述知识输入单元将所述文本信息作为问答知识输入给预配置的大语言模型的过程，可以包括：将每一视频帧图片的时间戳及其包含的文本信息，作为问答知识输入给预配置的大语言模型。

本申请实施例提供的知识问答装置可应用于知识问答设备，如手机、电脑、学习机、智能机器人等。可选的，图10示出了知识问答设备的硬件结构框图，参照图10，知识问答设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

识别所述图片中包含的文本信息；

将所述文本信息作为问答知识输入给预配置的大语言模型；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

识别所述图片中包含的文本信息；

将所述文本信息作为问答知识输入给预配置的大语言模型；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种知识问答方法，其特征在于，包括：

识别所述图片中包含的文本信息；

将所述文本信息作为问答知识输入给预配置的大语言模型；

2.根据权利要求1所述的方法，其特征在于，在将所述文本信息作为问答知识输入给大语言模型之前，还包括：

识别所述文本信息的语种类型，作为源语种；

将所述翻译后文本信息作为问答知识输入给大语言模型。

3.根据权利要求2所述的方法，其特征在于，检测是否满足对所述文本信息进行翻译的条件的过程，包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述图片及所述图片相关的问题文本为在同一轮问答交互中输入，或，所述图片及所述图片相关的问题文本在不同轮问答交互中输入，且所述图片的输入时间早于所述问题文本。

5.根据权利要求2所述的方法，其特征在于，在所述图片相关的问题文本的意图为对所述图片中的内容进行翻译时，所述大语言模型输出的针对所述问题文本的答复内容为所述翻译后文本信息。

6.根据权利要求2所述的方法，其特征在于，在所述图片相关的问题文本的意图为将译文还原到所述图片中时，所述大语言模型输出的针对所述问题文本的答复内容为对所述图片编辑后的图片，所述编辑后的图片为将所述翻译后文本信息按照在所述图片中的对应位置替换掉原始的文本信息后的图片。

7.根据权利要求1所述的方法，其特征在于，将所述文本信息作为问答知识输入给预配置的大语言模型，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述获取用户输入的图片及与图片相关的问题文本，包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，所述获取用户输入的图片，包括：

获取用户输入的视频，并从所述视频中提取视频帧图片；

所述识别所述图片中包含的文本信息，包括：

识别各视频帧图片中包含的文本信息；

10.一种知识问答装置，其特征在于，包括：

图片识别单元，用于识别所述图片中包含的文本信息；

11.一种知识问答设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的知识问答方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的知识问答方法的各个步骤。