CN117787409A

CN117787409A - 基于大语言模型的人机交互方法、装置及电子设备

Info

Publication number: CN117787409A
Application number: CN202311763352.8A
Authority: CN
Inventors: 汪航; 陆俊; 费秀宏; 刘俊丽; 陈鹏; 魏颖; 毛斯睿; 杨荔浔
Original assignee: Postal Savings Bank of China Ltd
Current assignee: Postal Savings Bank of China Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-29

Abstract

本申请公开了一种基于大语言模型的人机交互方法、装置及电子设备，该方法包括：获取用户的输入信息；基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息；将所述输入提示信息输入大语言模型中，生成所述用户的输入信息对应的虚拟人应答信息；将所述虚拟人应答信息返回给用户。本申请实施例的基于大语言模型的人机交互方法在用户输入信息的基础上，结合预设提示模板和预设知识库生成输入提示信息，能够辅助大语言模型生成更准确、更真实、更符合用户需求的应答信息，从交互性、真实性和智能化等多个维度增加了用户与虚拟人交互的体验。

Description

基于大语言模型的人机交互方法、装置及电子设备

技术领域

本申请涉及基于人机交互技术领域，尤其涉及一种基于大语言模型的人机交互方法、装置及电子设备。

背景技术

随着AI技术以及虚拟人技术的不断发展，其在各个领域的应用也日益广泛，为银行、证券等行业实现了科技赋能、推动了数字化转型，是解决当下业务发展中存在队伍建设落后、专业人员缺失等关键问题的有效途径。通过构建数字化、智能化的系统与平台，建立以客户为中心的产品体系，提高业务效率，加大对分支行支撑力度，提升客户提现；紧跟科技前沿，聚焦科技潮流，对多模态学习、元宇宙等人工智能子领域开展创新孵化，打造数字员工、服务型虚拟数字人新IP，向客户提供更及时、更准确、更个性化的金融服务。驱动金融机构更多的业务场景实现数智化能力，提高营销和运营效率、提升客户体验、为客户创造价值。

传统的虚拟人技术主要依赖于人工设计和预先录制的素材，如语音、动画等。这些虚拟人往往缺乏真实感，智能化程度不高，难以应对复杂和多变的情境，难以实现与真实人物类似的自然交流，用户交互体验较为单一和有限，这限制了虚拟人在一些需要高智能水平的应用场景中的应用。

对话系统在虚拟人技术中起到了至关重要的作用，它是虚拟人与用户进行交互的核心功能。对话系统可以让虚拟人更具有真实感，为用户提供更加生动、自然的交互体验。传统的人机对话系统，通常是利用NLP(Natural language processing，自然语言处理)领域的ASR(Automatic Speech Recognition，自动语音识别)技术将用户输入的语音问题识别成文本文字，然后对转换后的文本进行语法分析，例如分词、词性标注、句法分析等，将文本转换成计算机可以理解的结构化表示。最后根据用户输入的问题，从事先整理好的知识库中检索答案。但这种通过经验搜集来的知识库通常是缺乏一些通用知识的能力，缺乏泛化性，因此导致和用户交互时感觉生硬，存在真实性和智能化程度不足，配置繁琐等诸多问题。

发明内容

为了解决上述至少一个方面的技术问题，本申请实施例提供了一种基于大语言模型的人机交互方法、装置及电子设备，以提高用户与虚拟人交互的真实性和智能化程度，提高用户的人机交互体验。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种基于大语言模型的人机交互方法，所述基于大语言模型的人机交互方法包括：

获取用户的输入信息；

基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息；

将所述输入提示信息输入大语言模型中，生成所述用户的输入信息对应的虚拟人应答信息；

将所述虚拟人应答信息返回给用户。

可选地，所述获取用户的输入信息包括：

获取用户的语音输入信息；

对所述用户的语音输入信息进行声纹识别，并根据声纹识别结果验证用户身份；

若验证通过，则将所述语音输入信息转换为文本输入信息；

否则，则向用户返回验证不通过的结果。

可选地，所述预设提示模板通过如下方式得到：

确定领域服务角色和所述领域服务角色对应的任务内容；

根据所述领域服务角色和所述领域服务角色对应的任务内容构建各个领域的预设提示模板；

所述预设提示模板包括多个，所述基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息包括：

获取用户选择的目标预设提示模板，所述目标预设提示模板为多个预设提示模板中的任意一个；

基于用户选择的预设提示模板和预设知识库，根据所述用户的输入信息构建所述输入提示信息。

可选地，所述预设知识库包括预设向量数据库，所述基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息包括：

将所述用户的输入信息转换为输入向量；

根据所述输入向量在所述预设向量数据库中进行检索，得到所述输入向量对应的应答向量所对应的文本；

根据所述用户的输入信息和所述输入向量对应的应答向量所对应的文本，利用所述预设提示模板构建所述输入提示信息。

可选地，所述向量数据库通过如下方式构建得到：

对知识文档数据进行关键字抽取，得到关键字抽取结果，所述知识文档数据包括中文知识文档；

基于所述关键字抽取结果，对所述知识文档数据进行分割，得到分割结果；

将所述分割结果存储至所述向量数据库中。

可选地，所述大语言模型输出的虚拟人应答信息为虚拟人应答文本信息，所述将所述虚拟人应答信息返回给用户包括：

将所述虚拟人应答文本信息转换为虚拟人应答语音信息；

利用3D渲染引擎生成虚拟人视频信息；

将所述虚拟人应答语音信息和所述虚拟人视频信息通过流媒体服务返回给用户。

可选地，在将所述虚拟人应答信息返回给用户之后，所述方法还包括：

提供虚拟人应答信息的反馈界面；

根据所述虚拟人应答信息的反馈界面获取用户对所述虚拟人应答信息的反馈结果；

根据所述用户对所述虚拟人应答信息的反馈结果和对应的用户的输入信息构建模型微调数据；

根据所述模型微调数据，利用微调算法对所述大语言模型进行微调，得到微调后的大语言模型。

第二方面，本申请实施例还提供一种基于大语言模型的人机交互装置，所述基于大语言模型的人机交互装置包括：

第一获取单元，用于获取用户的输入信息；

第一构建单元，用于基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息；

生成单元，用于将所述输入提示信息输入大语言模型中，生成所述用户的输入信息对应的虚拟人应答信息；

返回单元，用于将所述虚拟人应答信息返回给用户。

第三方面，本申请实施例还提供一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行前述之任一所述方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行前述之任一所述方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：本申请实施例的基于大语言模型的人机交互方法，先获取用户的输入信息；然后基于预设提示模板和预设知识库，根据用户的输入信息构建输入提示信息；之后将输入提示信息输入大语言模型中，生成用户的输入信息对应的虚拟人应答信息；最后将虚拟人应答信息返回给用户。本申请实施例的基于大语言模型的人机交互方法在用户输入信息的基础上，结合预设提示模板和预设知识库生成输入提示信息，能够辅助大语言模型生成更准确、更真实、更符合用户需求的应答信息，从交互性、真实性和智能化等多个维度增加了用户与虚拟人交互的体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于大语言模型的人机交互方法的流程示意图；

图2为本申请实施例中一种人机交互的全流程示意图；

图3为本申请实施例中一种基于大语言模型的人机交互流程示意图；

图4为本申请实施例中一种基于大语言模型的人机交互装置的结构示意图；

图5为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

为便于对本申请各实施例的理解，首先介绍了本申请各实施例中涉及到的主要技术术语：

1)人物引擎

人物引擎包括人像引擎和动作引擎，其中人像引擎包括3D渲染，可以采用UE4(UnrealEngine)进行人物形象包括发型、嘴型、眼睛等脸部特征进行细节刻画。动作引擎负责将音频数据、BS(BlendShape)动画、骨骼动画、内置的Animoji进行叠加播放。通过动作引擎可以实现实时动画渲染、即时的场景和任务切换动画合成。

2)对话引擎

对话引擎中通常包括对话管理(DM)、语言理解(NLU)、语言生成(NLG)等几个部分。自然语言理解(NLU)模块接收用户(非结构化字符串)的输入，输出结构化的语义帧表示。比如领域、意图和(语义)槽。对话管理(DM)模块通过状态追踪(DST)来记录关键信息，它的输入是NLU模块的输出，它的输出是对话的策略。其内部会维护一个对话状态。自然语言生成(NLG)模块根据DM模块输出的对话动作，生成用户能理解的自然语言。

3)知识库

知识库包括传统的数据库也包含向量数据库，将各类应用场景中涉及的业务话术、业务流程等进行统一管理并提供服务。可以使用现有的知识库作为数据来源，通过组合金融机构内外知识库构成。向量数据库是专门用来存储和查询向量的数据库。可用于存储、管理、查询、检索向量(Vectors)的数据库，主要应用于人工智能、机器学习、数据挖掘等领域。同传统数据库相比，向量数据库不仅能够完成基本的CRUD(添加、读取查询、更新、删除)、元数据过滤、水平缩放等操作，还能够对向量数据进行更快速的相似性搜索。目前AI主流的大模型如Transformer、Clip、GPT等均能够将文本、图像等非结构化数据转化为高维向量。

4)AI算法库

AI算法库，包括自然语言处理(NLP)、智能语言语音等多种类型的机器学习、深度学习算法，为上层虚拟人和客户交互提供支持，同时该AI算法库也包含用于给客服推荐作品的推荐算法等策略算法库。

5)声纹识别

声纹识别是一项提取说话人声音特征，自动核验说话人身份的技术。通过声纹注册、声纹1:1比对和1:N检索，可应用于身份校验、声纹解锁、声纹打卡等场景。

6)大语言模型

AIGC(Artificial Intelligence Generated Content，生成式人工智能)大语言模型，是指基于生成对抗网络、大型预训练模型等人工智能的技术方法，通过已有数据的学习和识别，以适当的泛化能力生成相关内容的技术。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习，AIGC可以根据输入的条件或指令，生成与之相关的内容。例如，通过输入关键词、描述或样本，AIGC可以生成与之相匹配的文章、图像、音频等。

7)微调

微调是一种被用来弥合预训练任务和特定下游任务的新微调范式。这种技术可以有效改善模型的输出结果，使其更加准确和人性化。将下游任务的输入建模成适配预训练模型处理的形式，从而更充分地利用预训练模型已有的知识、以更低的成本进行二次学习。对于复杂的生成任务，微调则可以帮助模型生成更加规范和正确的回复。

8)LangChain

LangChain是一个强大的程序开发框架，专注于协助开发人员构建端到端的应用。该框架提供了一系列工具、组件和接口，方便开发人员快速构建依赖于大语言模型(LLM)和聊天模型的应用程序。通过LangChain可轻松管理语言模型的交互，实现多个组件的无缝链接，还能整合额外的资源(如API和数据库)来优化开发流程。

9)Prompt

Prompt技术是一种用于引导模型生成特定类型输出的方法。通过设计巧妙的Prompt，可以有效地提高模型生成结果的准确性、针对性和创造性。Prompt在各种自然语言处理任务中都发挥着重要作用，如问答系统、对话系统、文本生成等，在GPT类自然语言大模型中，一般会使用统一格式的提示语来指导模型生成特定的输出。通过调整提示语的方式，可以让模型更加专注于特定任务或问题，从而提升其性能。

本申请实施例提供了一种基于大语言模型的人机交互方法，如图1所示，提供了本申请实施例中一种基于大语言模型的人机交互方法的流程示意图，所述基于大语言模型的人机交互方法至少包括如下的步骤S110至步骤S140：

步骤S110，获取用户的输入信息。

用户在与虚拟人进行交互时，需要先输入相关信息，例如，用户可以通过H5页面、交互屏、手机APP、VoLTE等多种交互方式，输入自然语言信息与虚拟人开启交互流程，这里的输入信息可以是语音形式，也可以是文本、图片、视频等各种形式，用户可以根据自身交互需求灵活输入信息，在此不作具体限定。

步骤S120，基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息。

用户与虚拟人交互的核心主要在于虚拟人能否基于用户输入的信息向用户作出真实、准确的应答。因此，为了提高虚拟人对用户输入信息的应答效果，本申请实施例事先构建了Prompt提示模板和预设知识库，Prompt提示模板和预设知识库均可以是针对具体应用领域和应用场景构建的。Prompt提示模板的作用在于引导后续的大语言模型生成更符合用户需求的应答信息，预设知识库也是辅助大语言模型在生成应答信息的过程中有更多相关领域知识的参考，提高大模型生成内容的准确性，进而提高用户与虚拟人的交互体验。

基于上述Prompt提示模板和预设知识库，结合用户的输入信息构建最终的Prompt提示信息，作为后续大语言模型的输入。

步骤S130，将所述输入提示信息输入大语言模型中，生成所述用户的输入信息对应的虚拟人应答信息。

本申请实施例的大语言模型是指结合具体应用领域和应用场景事先训练好的生成式大模型，生成式大模型可以根据输入的条件或指令，生成与之相关的内容。

因此，本申请实施例将上述步骤得到的Prompt提示信息输入到大语言模型中，大语言模型基于Prompt提示信息的引导和提示，利用自身的生成能力生成与用户的输入信息相关的虚拟人应答信息。

步骤S140，将所述虚拟人应答信息返回给用户。

大语言模型直接输出的虚拟人应答信息属于文本格式，因此可以对虚拟人应答信息进行一定转换处理如转换为语音形式后，再通过虚拟人模块返回给用户。当然，也可以直接返回文本形式的应答结果给用户，本领域技术人员可以根据实际需求灵活设置虚拟人应答信息的形式，在此不作具体限定。

本申请实施例的基于大语言模型的人机交互方法在用户输入信息的基础上，结合预设提示模板和预设知识库生成输入提示信息，能够辅助大语言模型生成更准确、更真实、更符合用户需求的应答信息，从交互性、真实性和智能化等多个维度增加了用户与虚拟人交互的体验。

在本申请的一些实施例中，所述获取用户的输入信息包括：获取用户的语音输入信息；对所述用户的语音输入信息进行声纹识别，并根据声纹识别结果验证用户身份；若验证通过，则将所述语音输入信息转换为文本输入信息；否则，则向用户返回验证不通过的结果。

如前所述，人机交互的一种场景是语音交互场景，在语音交互场景下，获取到的是用户的语音输入信息，为了保证交互过程的安全性，可以先对用户的身份进行核验，在核验通过的情况下，再将语音输入信息转换成文本信息，以进行后续的交互流程。

对于用户身份的核验，可以通过声纹识别技术提取语音输入信息中用户的声音特征，从而根据声音特征自动核验用户的身份。当然，具体采用何种声纹识别技术，本领域技术人员可以结合现有技术灵活确定，在此不作具体限定。

对于语音信息的转换，可以通过现有的ASR(语音识别)技术将用户输入的语音转换成自然语言描述的文本内容，例如，可以利用NLP领域的ASR技术将用户输入的语音问题识别成文本文字，然后对转换后的文本进行语法分析，例如分词、词性标注、句法分析等，将文本转换成计算机可以理解的结构化表示。

在本申请的一些实施例中，所述预设提示模板通过如下方式得到：确定领域服务角色和所述领域服务角色对应的任务内容；根据所述领域服务角色和所述领域服务角色对应的任务内容构建各个领域的预设提示模板；所述预设提示模板包括多个，所述基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息包括：获取用户选择的目标预设提示模板，所述目标预设提示模板为多个预设提示模板中的任意一个；基于用户选择的预设提示模板和预设知识库，根据所述用户的输入信息构建所述输入提示信息。

原有的Prompt提示语句一般为如下形式：

PROMPT_TEMPLATE＝″″″已知信息：{context}根据上述已知信息，请您用简洁和专业的来回答用户的问题。如果无法从中得到答案，请说“根据已知信息无法回答该问题”或“没有提供足够的相关信息”，答案请使用中文。问题是：{question}″″″

然而，原有的Prompt提示语句导致大语言模型反馈的效果不佳，这并不是因为模型训练的效果不好，而是由于在原来的Prompt提示语句中，instruction指令复杂，而且上下文context离用户问题距离较远。

基于此，本申请实施例针对具体场景预设了Prompt模板，通过在提示语中提供一些关键的提问模板，来引导模型生成特定类型的代码，这种方法可以提高生成代码的质量和准确性。例如，对于上述原有的Prompt提示语句，可以引入如下形式的Prompt提示模板：

PROMPT_TEMPLATE＝″″″基于以下已知内容，回答问题。如果无法从中得到答案，忽略已知内容直接回答问题。\n已知内容:\n{context}\n问题:\n{question}″″″。

上述Prompt提示模板中的已知内容可以来源于在预设知识库中的检索匹配结果，将其嵌入到Prompt提示模板中，避免了现有的Prompt提示语句中由于上下文context离用户问题距离较远而导致模型输出效果不佳的问题。

进一步地，为便于对本申请实施例的理解，以金融领域为例，可以针对金融领域设计类似如下形式的Prompt提示模板：

PROMPT_TEMPLATE＝″″″我要你充当一个比较专业的金融业roler1\roler2\others，完成task1\task2\others的工作″″″。

通过预设一些roler1，roler2等金融业服务角色，并预设好一些该角色应该完成的任务，可以引导大语言模型更好地生成符合实际领域和场景的应答内容。当然，此角色和任务也可以拓展到其他领域如新闻媒体等领域，只需修改角色和角色所应完成的任务即可。此外，用户还可以通过与虚拟人交互选择相应的Prompt模板，从而这样可以使大语言模型的输出更加准确。

在本申请的一些实施例中，所述预设知识库包括预设向量数据库，所述基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息包括：将所述用户的输入信息转换为输入向量；根据所述输入向量在所述预设向量数据库中进行检索，得到所述输入向量对应的应答向量所对应的文本；根据所述用户的输入信息和所述输入向量对应的应答向量所对应的文本，利用所述预设提示模板构建所述输入提示信息。

本申请实施例通过采用最新的LangChain架构，可以灵活配置模型，并且后端支持向量数据库，引入向量数据库主要是将用户问题和相应的答案转换为向量表示，并存储在向量数据库中。当用户提出问题时，可以先使用Sentence-BERT算法(SBERT)或者其他语义向量算法调用Sentence-transfomer将用户输入信息转换为句子向量，SBERT是一种基于BERT模型的语义向量表示方法。然后在向量数据库中通过相似度检索将目标对象与数据库中数据进行比对，并召回最相似的结果。例如，可以在向量数据库中使用近似最近邻搜索(Approximate Nearest Neighbor，简称ANN)算法计算向量之间的距离，检索最相关的问题信息并返回对应的答案信息。

将通过向量数据库检索到的知识作为已知内容与用户输入信息拼接放入到预设Prompt模板中，构成最终的Prompt提示信息，使用它来对大语言模型进行提问，这样可以提高用户问答的检索效率和准确性。本申请实施例可使用的向量数据库包括但不限于Pinecone、Milvus、Weaviate、Vespa等，具体采用何种形式的向量数据库，本领域技术人员可以根据实际需求灵活选择，在此不作具体限定。

在将通过向量数据库检索到的知识与用户的输入信息进行拼接时，可以灵活选择拼接方式，例如可以设计前端拼接、中端拼接、末端拼接，分别构成不同位置拼接后的Prompt提示信息，最后将拼接后完整的提示信息输入到大语言模型中，从而提高大语言模型应答的准确性。

在本申请的一些实施例中，所述向量数据库通过如下方式构建得到：对知识文档数据进行关键字抽取，得到关键字抽取结果，所述知识文档数据包括中文知识文档；基于所述关键字抽取结果，对所述知识文档数据进行分割，得到分割结果；将所述分割结果存储至所述向量数据库中。

本申请实施例构建的向量数据库的主要数据来源是知识文档，在将知识文档存到向量数据库的过程中，会涉及文档加载、切分、存储的流程，LangChain框架中内置了加载和读取各种类型文档数据的方法，当文件数据被加载以后，进入文档切分的环节即Splitting，对于pdf、text这类文档，一般都相对比较大，因此需要对文档进行分割(Splitting)后存储，文档数据被分割成块(chunks)后才能保存到向量数据库中。

现有的LangChain中有很多内置的拆分工具，其中有按字符分割的CharacterTextSplitter分割器、递归分割的RecursiveCharacterTextSplitter分割器、以及token分割器和markdown分割器等，但是对于中文的知识文档，切分后很容易造成文本不连贯、不准确。因此，本申请实施例设计了一种灵活的数据切分的方法，通过将中文句子中进行关键字抽取，在将文档切分成chunks时加入上下文关键字信息，从而避免信息缺失，保持文本连贯性。

在本申请的一些实施例中，所述大语言模型输出的虚拟人应答信息为虚拟人应答文本信息，所述将所述虚拟人应答信息返回给用户包括：将所述虚拟人应答文本信息转换为虚拟人应答语音信息；利用3D渲染引擎生成虚拟人视频信息；将所述虚拟人应答语音信息和所述虚拟人视频信息通过流媒体服务返回给用户。

在语音交互场景下，可以使用Web Speech Synthesis API将大语言模型直接输出的应答文本信息返回给虚拟人模块，虚拟人模块通过调用TTS(Text To Speech，语音合成)技术将基于大语言模型的应答文本内容转换为语音，并实时播放。

此外，为了进一步提高用户与虚拟人的交互体验，还可以通过动态生成视频技术，使用3D渲染引擎，如Unity等将虚拟人物视频的表情和动作，与经过语音识别转换的文本同步，生成虚拟人物形象视频，例如可以使用TextMeshPro来将文本渲染到虚拟人物形象视频中。

最后，通过流媒体服务将合成后的虚拟人的音视频返回到用户端，从而完成用户与虚拟人的交互流程。

为了便于对本申请上述各实施例的理解，如图2所示，提供了本申请实施例中一种人机交互的全流程示意图，该交互流程主要包括如下步骤：

1.用户通过业务端提供的H5页面、交互屏、手机APP、VoLTE等多种交互方式，输入自然语言语音与虚拟人开启交互流程，这里为了校验用户身份，引入了声纹识别模块；

2.经过声纹识别模块身份验证通过后，进入虚拟人管控模块，调用自然语言处理的标准流程将用户输入的语音通过基于大语言模型的人机交互流程生成最终的应答文本；

3.管控模块通过调用能力引擎层的ASR技术将用户输入的语音转换成自然语言描述的文本内容；

4.通过Rasa对话引擎完成用户意图理解，这部分是对用户基本意图的一个理解，然后基于对话引擎中对话管理DM模块，选择需要执行的系统行为，如果这个系统行为需要和用户交互，那么语言生成模块下一流程会被触发；

5.上述步骤完成了用户意图的基本理解，此时对话管理模块决策需要返回用户信息，大语言模型针对用户输入信息会进行意图识别，得到基于大语言模型理解后生成的文本；

6.通过动态生成视频技术，使用3D渲染引擎，如Unity等将虚拟人物视频的表情和动作，与经过语音识别转换的文本同步，生成虚拟人物形象视频；

7.通过实时语音合成模块使用TTS技术将基于大语言模型输出的文本转换为语音，并实时播放；

8.通过流媒体服务将合成后的虚拟人的音视频返回到业务端，呈现给用户，从而完成用户与虚拟人的交互流程。

在本申请的一些实施例中，在将所述虚拟人应答信息返回给用户之后，所述方法还包括：提供虚拟人应答信息的反馈界面；根据所述虚拟人应答信息的反馈界面获取用户对所述虚拟人应答信息的反馈结果；根据所述用户对所述虚拟人应答信息的反馈结果和对应的用户的输入信息构建模型微调数据；根据所述模型微调数据，利用微调算法对所述大语言模型进行微调，得到微调后的大语言模型。

本申请实施例设计了一套用户反馈逻辑来收集用户反馈信息，作为优化模型的数据基础。具体地，可以事先设计好虚拟人应答信息的反馈界面，例如在界面上展示选项卡，设计三个选项，选项一为回答完全准确(例如，标记为1分)；选项二为回来完全不相关(例如，标记为3分)；选项三为回答部分正确(例如，标记为5分)，此部分的设计可以根据具体任务来设计分值。当然，具体如何设计反馈界面，本领域技术人员可以根据实际需求灵活设置，在此不作具体限定。

用户可以根据界面上的选项对虚拟人应答信息进行打分，这部分数据可以作为训练基础大语言模型的强化学习微调数据，基于标记好的数据，结合Prompt-tunning，P-tuningv2，LORA，QLora等任意一种或多种微调技术进行大模型微调，从而优化大模型的准确率。

本申请实施例创新性地在辅助虚拟人人机交互的大语言模型生成阶段引入了大模型微调技术。当然，在该部分的微调技术使用的数据还可以包括但不限于金融领域积累的行业通用数据、开源金融领域客户助手等开源问答数据以及特定任务使用的人工标注数据等，具体使用哪些微调数据，本领域技术人员可以根据实际微调效果灵活选择，在此不作具体限定。

为了便于对本申请各实施例的理解，如图3所示，提供了本申请实施例中一种基于大语言模型的人机交互流程示意图，具体实现过程可参照前述实施例的阐述，在此不作赘述。

目前行业中使用到的虚拟人人机交互方法中并不支持基于大语言模型Prompt微调的方式完成用户与虚拟人交互。而本申请中设计的LLM-tunning模块，不仅可以生成大模型的提示文本，通过在提示语中提供一些关键的提问模板，来引导模型生成特定类型的回复，并且可以收集用户反馈的数据，将这部分作为微调训练样本。通过这种方案的设计完善了用户和虚拟人的交互体验，从交互性，真实性和智能化角度等多个维度增加了虚拟人和用户交互的体验。

综上所述，本申请的关键点在于：

1)基于自定义Prompt模板和预设知识库构建Prompt提示信息，提升大语言模型的生成能力；

2)利用LangChain框架，并结合向量数据库，提高问答系统的检索效率和准确性；

3)创新性地引入了大语言模型作为虚拟人和用户交互的手段，并通过微调数据集的构建，结合各种微调技术，优化了人机交互大模型的准确率；

4)设计了一套综合利用大语言模型生成技术的虚拟人构建系统，并可以通过用户旅程分析，将用户与虚拟人反馈信息收集起来，作为数据集，作为优化后续大模型的训练样本。

5)设计了使用向量数据库构建知识库时切分文档的方法，可将上下文关键字信息代入到切分的chunks中，使得存储的信息更加连贯。

本申请至少取得了如下的技术效果：

1)通过整体方案的设计，提升了金融机构等的运营效率，完善了用户和虚拟人的交互体验，从交互性，真实性和智能化角度等多个维度增加了虚拟人和用户交互的体验。

2)设计了一种大语言模型微调优化方案，基于用户与虚拟人交互对话内容，收集用户反馈数据，此部分作为微调数据集，优化了大语言模型的生成效果。

本申请实施例还提供了一种基于大语言模型的人机交互装置400，如图4所示，提供了本申请实施例中一种基于大语言模型的人机交互装置的结构示意图，所述基于大语言模型的人机交互装置400包括：第一获取单元410、第一构建单元420、生成单元430以及返回单元440，其中：

第一获取单元410，用于获取用户的输入信息；

第一构建单元420，用于基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息；

生成单元430，用于将所述输入提示信息输入大语言模型中，生成所述用户的输入信息对应的虚拟人应答信息；

返回单元440，用于将所述虚拟人应答信息返回给用户。

在本申请的一些实施例中，所述第一获取单元410具体用于：获取用户的语音输入信息；对所述用户的语音输入信息进行声纹识别，并根据声纹识别结果验证用户身份；若验证通过，则将所述语音输入信息转换为文本输入信息；否则，则向用户返回验证不通过的结果。

在本申请的一些实施例中，所述预设知识库包括预设向量数据库，所述第一构建单元具体用于：将所述用户的输入信息转换为输入向量；根据所述输入向量在所述预设向量数据库中进行检索，得到所述输入向量对应的应答向量所对应的文本；根据所述用户的输入信息和所述输入向量对应的应答向量所对应的文本，利用所述预设提示模板构建所述输入提示信息。

在本申请的一些实施例中，所述大语言模型输出的虚拟人应答信息为虚拟人应答文本信息，所述返回单元440具体用于：将所述虚拟人应答文本信息转换为虚拟人应答语音信息；利用3D渲染引擎生成虚拟人视频信息；将所述虚拟人应答语音信息和所述虚拟人视频信息通过流媒体服务返回给用户。

在本申请的一些实施例中，所述装置还包括：提供单元，用于在将所述虚拟人应答信息返回给用户之后，提供虚拟人应答信息的反馈界面；第二获取单元，用于根据所述虚拟人应答信息的反馈界面获取用户对所述虚拟人应答信息的反馈结果；第二构建单元，用于根据所述用户对所述虚拟人应答信息的反馈结果和对应的用户的输入信息构建模型微调数据；微调单元，用于根据所述模型微调数据，利用微调算法对所述大语言模型进行微调，得到微调后的大语言模型。

能够理解，上述基于大语言模型的人机交互装置，能够实现前述实施例中提供的基于大语言模型的人机交互方法的各个步骤，关于基于大语言模型的人机交互方法的相关阐释均适用于基于大语言模型的人机交互装置，此处不再赘述。

图5是本申请的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-AccessMemory，RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(IndustryStandardArchitecture，工业标准体系结构)总线、PCI(PeripheralComponentInterconnect，外设部件互连标准)总线或EISA(ExtendedIndustryStandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成基于大语言模型的人机交互装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取用户的输入信息；

将所述虚拟人应答信息返回给用户。

上述如本申请图1所示实施例揭示的基于大语言模型的人机交互装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中基于大语言模型的人机交互装置执行的方法，并实现基于大语言模型的人机交互装置在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中基于大语言模型的人机交互装置执行的方法，并具体用于执行：

获取用户的输入信息；

将所述虚拟人应答信息返回给用户。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于大语言模型的人机交互方法，其特征在于，所述基于大语言模型的人机交互方法包括：

获取用户的输入信息；

将所述虚拟人应答信息返回给用户。

2.根据权利要求1所述基于大语言模型的人机交互方法，其特征在于，所述获取用户的输入信息包括：

获取用户的语音输入信息；

若验证通过，则将所述语音输入信息转换为文本输入信息；

否则，则向用户返回验证不通过的结果。

3.根据权利要求1所述基于大语言模型的人机交互方法，其特征在于，所述预设提示模板通过如下方式得到：

确定领域服务角色和所述领域服务角色对应的任务内容；

4.根据权利要求1所述基于大语言模型的人机交互方法，其特征在于，所述预设知识库包括预设向量数据库，所述基于预设提示模板和预设知识库，根据所述用户的输入信息构建输入提示信息包括：

将所述用户的输入信息转换为输入向量；

5.根据权利要求4所述基于大语言模型的人机交互方法，其特征在于，所述向量数据库通过如下方式构建得到：

将所述分割结果存储至所述向量数据库中。

6.根据权利要求1所述基于大语言模型的人机交互方法，其特征在于，所述大语言模型输出的虚拟人应答信息为虚拟人应答文本信息，所述将所述虚拟人应答信息返回给用户包括：

将所述虚拟人应答文本信息转换为虚拟人应答语音信息；

利用3D渲染引擎生成虚拟人视频信息；

7.根据权利要求1～6任一项所述基于大语言模型的人机交互方法，其特征在于，在将所述虚拟人应答信息返回给用户之后，所述方法还包括：

提供虚拟人应答信息的反馈界面；

8.一种基于大语言模型的人机交互装置，其特征在于，所述基于大语言模型的人机交互装置包括：

第一获取单元，用于获取用户的输入信息；

返回单元，用于将所述虚拟人应答信息返回给用户。

9.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1～7之任一所述方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行所述权利要求1～7之任一所述方法。