CN117290488A

CN117290488A - 基于大模型的人机交互方法、装置、电子设备及存储介质

Info

Publication number: CN117290488A
Application number: CN202311421249.5A
Authority: CN
Inventors: 房洁
Original assignee: Anhui Shicalifornium Information Technology Co ltd
Current assignee: Anhui Shicalifornium Information Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-26

Abstract

本申请涉及一种基于大模型的人机交互方法、装置、电子设备及存储介质，其中，该基于大模型的人机交互方法以下步骤：利用语言处理工具对抗生成多轮对话数据集；其中，所述语言处理工具用于响应前续对话语句生成后续对话语句；将所述多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型；通过所述目标大语言模型对目标语句进行意图分类，得到意图分类结果，根据意图分类结果生成所述目标语句的回复内容。通过本申请，实现多轮对话的功能，更加适用于医疗问诊等需要进行深入交流的场景，根据解决了现有相关技术中存在的大语言模型难以适应多轮对话场景的问题。

Description

基于大模型的人机交互方法、装置、电子设备及存储介质

技术领域

本申请涉及人机交互技术领域，特别是涉及一种基于大模型的人机交互方法、装置、电子设备及存储介质。

背景技术

大语言模型（LLM）简称大模型，是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。其中，遵循指令的大语言模型，如ChatGPT，因其在指令理解和文本生成方面的显著成功而受到了重视。这些大语言模型首先进行预训练，然后微调（FineTune）以对齐人类指令。大语言模型在各种自然语言处理（NLP）任务上表现出强大的性能，显示出大语言模型作为各种自然语言理解、文本生成和对话式人工智能问题的统一解决方案的潜力。

但是，在一些特定的场景下（例如医疗问诊场景），经常需要模拟医生和患者之间进行多轮的问答，对一个回复进行深究，而现有的大语言模型中采用的数据集更加偏向于医疗知识问答，只能够实现简单的单轮对话功能，无法进行多轮有效对话，难以更好地模拟医疗问诊等需要进行多轮对话的场景。

针对相关技术中存在的大语言模型难以适应多轮对话场景的问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种基于大模型的人机交互方法、装置、电子设备及存储介质，以解决相关技术中大语言模型难以适应多轮对话场景的问题。

第一个方面，在本发明中提供了一种基于大模型的人机交互方法，包括以下步骤：

利用语言处理工具对抗生成多轮对话数据集；其中，所述语言处理工具用于响应前续对话语句生成后续对话语句；

将所述多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型；

通过所述目标大语言模型对目标语句进行意图分类，得到意图分类结果，根据意图分类结果生成所述目标语句的回复内容。

在其中的一些实施例中，所述利用语言处理工具对抗生成多轮对话数据集包括：

设定多轮对话的对话流程和至少两个对话角色；

根据所述对话流程，通过所述语言处理工具交替模拟至少两个所述对话角色进行多轮对话，生成所述多轮对话数据集。

在其中的一些实施例中，所述根据意图分类结果生成所述目标语句的回复内容包括：

在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容；

根据所述目标知识内容生成所述目标语句的回复内容。

在其中的一些实施例中，所述知识库的构建方法包括：

获取知识内容；

分别根据所述知识内容的关键词生成自身的内容标识，所述内容标识包括意图类型；

基于所述知识内容以及所述内容标识，确定所述知识库。

在其中的一些实施例中，所述在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容包括：

在所述知识库中检索与所述意图分类结果相匹配的目标内容标识；

根据所述目标内容标识，确定所述目标知识内容。

在其中的一些实施例中，所述通过所述目标大语言模型对目标语句进行意图分类，得到意图分类结果包括：

对所述目标语句进行实体识别，得到实体识别结果；

根据所述实体识别结果进行意图分析，得到意图分析结果；

根据所述意图分析结果对目标语句进行意图分类，得到所述意图分类结果。

在其中的一些实施例中，所述目标大语言模型包括提示指令；其中，所述提示指令用于提示所述目标大语言模型根据所述目标知识内容按照预设条件生成所述目标语句的回复内容。

第二个方面，在本发明中提供了基于大模型的人机交互装置，包括：

数据生成模块，用于利用语言处理工具对抗生成多轮对话数据集；其中，所述语言处理工具用于响应前续对话语句生成后续对话语句；

模型处理模块，用于将所述多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型；

回复生成模块，用于通过所述目标大语言模型对目标语句进行意图分类，得到意图分类结果，根据意图分类结果生成所述目标语句的回复内容。

第三个方面，在本发明中提供了一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的基于大模型的人机交互方法。

第四个方面，在本发明中提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的基于大模型的人机交互方法。

与相关技术相比，在本发明中提供的基于大模型的人机交互方法，通过构建多轮对话数据集，然后将多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型。使用时，目标大语言模型对目标语句进行意图分类，得到意图分类结果，然后根据意图分类结果生成针对于目标语句的回复内容。能够实现多轮对话的功能，更加适用于医疗问诊等需要进行深入交流的场景，根据解决了现有相关技术中存在的大语言模型难以适应多轮对话场景的问题。

此外，在本发明中，根据意图分类结果生成针对目标语句的回复内容时，需要在预先构建的知识库中检索与意图分类结果相关的目标知识内容，然后根据目标知识内容生成针对目标语句的回复内容。通过上述方法，使得最终生成的回复内容更加依赖于知识库中的知识内容，使得回复内容更加地符合用户的诉求。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是执行本发明中提供的基于大模型的人机交互方法的终端硬件结构框图。

图2是本发明的基于大模型的人机交互方法的流程图。

图3是本发明的基于大模型的人机交互装置的结构框图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本发明中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是执行本发明中提供的基于大模型的人机交互方法的终端硬件结构框图。如图1所示，终端可以包括一个或多个（图1中仅示出一个）处理器120和用于存储数据的存储器140，其中，处理器120可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备160以及输入输出设备180。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器140可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本发明中的基于大模型的人机交互方法对应的计算机程序，处理器120通过运行存储在存储器140内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器140可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器140可进一步包括相对于处理器120远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备160用于经由网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备160包括网络适配器（Network InterfaceController，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备160可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本发明中提供了一种基于大模型的人机交互方法，图2是本发明的基于大模型的人机交互方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，利用语言处理工具对抗生成多轮对话数据集；其中，语言处理工具用于响应前续对话语句生成后续对话语句。

步骤S202，将多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型。

步骤S203，通过目标大语言模型对目标语句进行意图分类，得到意图分类结果，根据意图分类结果生成目标语句的回复内容。

在上述方法中，利用语言处理工具的生成对话语句的功能，进行多轮对话，并且记录对话的内容，形成多轮对话数据集。语言处理工具可以是大语言模型，比如ChatGPT。示例性地，可以先设定语句A，然后利用语言处理工具响应语句A生成语句B，进一步再利用语言处理工具响应语句B生成语句C，最终形成多轮对话数据集。然后利用多轮对话数据集对初始大语言模型进行微调，得到目标大语言模型，使得目标大语言模型可以学习到多轮对话能力，进而具有持续响应前续对话语句生成后续对话语句的多轮对话功能。再利用目标大语言模型对用户输入的目标语句进行意图分类，并得到意图分类结果，其中，目标语句包括目标大语言模型的输入。最后，目标大语言模型根据意图分类结果生成响应目标语句的回复内容，回应用户的诉求，实现根据用户诉求进行多轮对话的功能，使得目标大语言模型更加适用于需要进行多轮对话或者追问功能的场景。解决了相关技术中存在的大语言模型难以适应多轮对话场景的问题。

在其中的一些实施例中，步骤S201，利用语言处理工具对抗生成多轮对话数据集包括：设定多轮对话的对话流程和至少两个对话角色；根据对话流程，通过语言处理工具交替模拟至少两个对话角色进行多轮对话，生成多轮对话数据集。

示例性的，利用语言处理工具对抗生成医疗问诊场景下的多轮对话数据集的流程如下：

角色设定：定义语言处理工具为“医生”和“患者”两个对话角色。在对话开始时，设定初始发言的对话角色，并在每次交换时交替对话角色；

对话流程设定：设定一个基本的对话流程，如病情询问、诊断、治疗或随访流程，每一个对话流程可以定义为一个或者一系列的问题和回答；

对话生成：基于设定的对话角色和对话流程，利用语言处理工具生成对话。例如，先让“患者”角色的语言处理工具描述症状，然后让“医生”角色的语言处理工具提出诊断和治疗建议，然后再让“患者”角色的语言处理工具反馈治疗效果等；

数据收集：对上述生成的多轮对话进行收集并保存，生成多轮对话数据集。

在上述操作中，采用两个或者多个语言处理工具分别代表两个或者多个不同的角色交替进行多轮对话，在实际应用时，也可采用一个语言处理工具，并使用该语言处理工具模拟不同角色进行多轮对话，从而生成多轮对话数据集。

在上述方法中，目标语句的生成可以不参照知识库中的专业知识内容，为了进一步提高对用户诉求回复的准确性，可以预先构建知识库，并且根据用户的意图以及知识库中的专业知识内容生成针对目标语句的回复内容。为此，在其中的一些实施例中，根据意图分类结果生成目标语句的回复内容包括：在预先构建的知识库中检索与意图分类结果相关的目标知识内容；根据目标知识内容生成目标语句的回复内容。

具体的，知识库的构建方法包括但不限于以下方式：获取知识内容；分别根据知识内容的关键词生成自身的内容标识，内容标识包括意图类型；基于知识内容以及内容标识，确定知识库。在预先构建的知识库中检索与意图分类结果相关的目标知识内容包括：在知识库中检索与意图分类结果相匹配的目标内容标识；根据目标内容标识，确定目标知识内容。

示例性的，针对医疗问诊场景，知识库可以通过以下方式构建：首先从医学网站或者医学书籍等来源中获取到医学相关的知识内容，然后从知识内容中抽取关键词（如病症、药物、症状等医学概念），为了方便对知识内容进行模块化存储，还能够将获取到的不同的知识内容生成不同的文章，为文章添加对应的标题，抽取出文章中的结构化信息（如治疗方法、病因、药物等）。将上述知识内容存储到初始数据库中，若将知识内容分成不同的文章，则将文章存储至初始数据库中，并且在数据库中设计不同的字段，分别存储文章的标题、内容、摘要和结构化信息等。其中，初始数据库可以是没有存储内容的空白数据库，也可以是已经存储有部分医学知识内容的数据库。存储完成后，根据抽取出的关键词为不同的知识内容或者不同的文章生成自身的内容标识。内容标识可以是症状咨询、治疗方法和用药知识等。为了进一步细化知识库中知识内容类别，还可以对每种内容标识的知识内容或者文章进一步细化分类，例如按照疾病进行分类、按照药物进行分类等。最后，为了方便对知识库中的知识内容进行检索，还可以根据内容标识建立搜索索引并提供搜索接口，方便根据关键词快速定位相关的医学知识内容。

在医疗问诊场景下，患者描述了自身的症状，意图要根据症状了解自身患有的具体病症，则目标大语言模型会根据患者的意图分类结果（病症）在知识库中检索出对应的内容标识，并将该内容标识作为目标内容标识。然后根据目标内容标识，确定与患者描述的症状相适配的病症相关的知识内容，将该知识内容确定为目标知识内容。

在其中的一些实施例中，步骤S203，通过目标大语言模型对目标语句进行意图分类，得到意图分类结果包括：对目标语句进行实体识别，得到实体识别结果；根据实体识别结果进行意图分析，得到意图分析结果；根据意图分析结果对目标语句进行意图分类，得到意图分类结果。其中，对目标语句进行实体识别包括目标大语言模型对目标语句进行实体抽取和关系提取，根据不同实体之间的关系得到实体识别结果。进一步地，在对目标语句进行意图分类之前，可以对收集到的目标语句进行文本预处理，例如对无效字（连接词、语气词等）的删除、语句顺序的调整等，使得意图分类针对的内容更加精炼。更进一步地，在得到意图分类结果之后，目标用户可根据产生的意图分类结果对该次意图分类过程进行质量评估，目标大语言模型可不断收集用户的反馈，从而便于对目标大语言模型进行调整，提升意图匹配和知识检索的性能。

目标大语言模型包括提示指令；其中，提示指令是prompt模板的功能之一，用于提示目标大语言模型根据目标知识内容按照预设条件生成目标语句的回复内容。提示指令能够对目标大语言模型进行提示，引导目标大语言模型根据目标知识内容生成当前输入目标大语言模型的目标语句的回复内容。预设条件用于对目标大语言模型的输出起到一定的规范作用，例如“根据已知信息，简洁和专业的来回答问题。不允许在答案中添加编造成分”、“对目标知识内容进行润色，生成回复内容对用户进行回复”等。

为了验证上述方法的有效性，使用1000条真实的医患问诊对话，做为测试集，然后对基于决策树的模型、基于知识图谱的模型、Chatdoctor模型、上述方法中未参照知识库的目标大语言模型以及上述方法中参照了知识库的目标大语言模型的输出和真实数据进行比较。其中，基于决策树的模型能够按照固定的话术和分支逻辑，建立回答的模板和逻辑；基于知识图谱的模型能够按照知识图谱推理的方式进行回答；Chatdoctor模型能够使用数据集进行微调然后结合知识库进行回答。在测试中，采用Bert-score指标作为评价标准，其中，P表示准确率，R表示召回率，F1为综合考虑了准确率和召回率的评价指标，，测试结果如下表所示：

由上表可知，未参照知识库的目标大语言模型的各项指标均要优于基于决策树的模型和基于知识图谱的模型，但是由于Chatdoctor模型自身参照了知识库的内容，所以未参照知识库的目标大语言模型的指标要稍微低于Chatdoctor模型，但是Chatdoctor模型的应用场景较小，只能适用于医疗领域，而本发明最终得到的目标大语言模型不仅能够适应医疗场景，还能适应其他场景，应用范围更广。并且，本发明中的目标大语言模型在同样参照了知识库中的知识内容之后，各项指标均要高于Chatdoctor模型。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本发明中还提供了一种基于大模型的人机交互装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明的基于大模型的人机交互装置的结构框图，如图3所示，该装置包括：

数据生成模块301，用于利用语言处理工具对抗生成多轮对话数据集；其中，语言处理工具用于响应前续对话语句生成后续对话语句；

模型处理模块302，用于将多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型；

回复生成模块303，用于通过目标大语言模型对目标语句进行意图分类，得到意图分类结果，根据意图分类结果生成目标语句的回复内容。

在上述装置中，利用语言处理工具的生成对话语句的功能，进行多轮对话，并且记录对话的内容，形成多轮对话数据集。然后利用多轮对话数据集对初始大语言模型进行微调，得到目标大语言模型，使得目标大语言模型也具有响应前续对话语句生成后续对话语句的多轮对话功能。再利用目标大语言模型对用户输入的目标语句进行意图分类，并得到意图分类结果，其中，目标语句包括目标大语言模型的输入。最后，目标大语言模型根据意图分类结果生成响应目标语句的回复内容，回应用户的诉求，实现根据用户诉求进行多轮对话的功能，使得目标大语言模型更加适用于需要进行多轮对话或者追问功能的场景，解决了相关技术中存在的大语言模型难以适应多轮对话场景的问题。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在本发明中还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在一个实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，利用语言处理工具对抗生成多轮对话数据集；其中，语言处理工具用于响应前续对话语句生成后续对话语句。

S2，将多轮对话数据集作为样本数据，对初始大语言模型进行微调，得到目标大语言模型。

S3，通过目标大语言模型对目标语句进行意图分类，得到意图分类结果，根据意图分类结果生成目标语句的回复内容。

需要说明的是，本电子设备的具体示例可以参考上述方法的实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述本发明中提供的基于大模型的人机交互方法，在本发明中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于大模型的人机交互方法。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

Claims

1.一种基于大模型的人机交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大模型的人机交互方法，其特征在于，所述利用语言处理工具对抗生成多轮对话数据集包括：

设定多轮对话的对话流程和至少两个对话角色；

3.根据权利要求1所述的基于大模型的人机交互方法，其特征在于，所述根据意图分类结果生成所述目标语句的回复内容包括：

根据所述目标知识内容生成所述目标语句的回复内容。

4.根据权利要求3所述的基于大模型的人机交互方法，其特征在于，所述知识库的构建方法包括：

获取知识内容；

基于所述知识内容以及所述内容标识，确定所述知识库。

5.根据权利要求4所述的基于大模型的人机交互方法，其特征在于，所述在预先构建的知识库中检索与所述意图分类结果相关的目标知识内容包括：

根据所述目标内容标识，确定所述目标知识内容。

6.根据权利要求1所述的基于大模型的人机交互方法，其特征在于，所述通过所述目标大语言模型对目标语句进行意图分类，得到意图分类结果包括：

对所述目标语句进行实体识别，得到实体识别结果；

根据所述实体识别结果进行意图分析，得到意图分析结果；

7.根据权利要求3所述的基于大模型的人机交互方法，其特征在于，所述目标大语言模型包括提示指令；其中，所述提示指令用于提示所述目标大语言模型根据所述目标知识内容按照预设条件生成所述目标语句的回复内容。

8.一种基于大模型的人机交互装置，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于大模型的人机交互方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于大模型的人机交互方法的步骤。