CN116059646B

CN116059646B - 一种交互式专家指导系统

Info

Publication number: CN116059646B
Application number: CN202310360395.5A
Authority: CN
Inventors: 李遵山
Original assignee: Shenzhen Shang Mi Network Technology Co ltd
Current assignee: Shenzhen Shang Mi Network Technology Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-11
Anticipated expiration: 2043-04-06
Also published as: CN116059646A

Abstract

本发明提出了一种交互式专家指导系统，所述系统包括答案生成模块；答案生成模块根据输入文本编码借助问答语言模型生成答案数据；所述问答语言模型是基于GPT模型的语言模型，可生成与用户输入问题相关的答案；所述答案生成模块的功能通过以下步骤实现：步骤31、当所述答案生成模块被调用时，将所述输入文本编码输入至问答语言模型进行答案预测得到答案序列组；步骤32、按照预设答案标准从答案序列组中选择最相关的答案序列，并将该答案序列中解码得到答案数据；所述系统够理解玩家复杂问题、可实时给出玩家解决方案与游戏指导，从而提升玩家游戏体验。

Description

一种交互式专家指导系统

技术领域

本发明涉及计算机技术领域，具体涉及一种交互式专家指导系统。

背景技术

专家指导系统是指为用户提供相关问题解答的系统，在游戏领域专家指导系统扮演了重要角色。游戏专家指导系统是指向玩家提供关于游戏的玩法、攻略或问题的游戏辅助系统，一般可内嵌于游戏应用或设立于游戏平台中。目前，主流游戏专家指导系统包括基于游戏任务剧情的指导系统、基于预设问题模板的指导系统以及基于玩家反馈的指导系统。

基于游戏任务剧情的指导系统是指根据游戏任务、剧情设置在游戏当中设计的问答指导系统；能够针对剧情走向提供明确的操作建议，但无法针对复杂操作玩法给出个性化指导。基于预设问题模板的指导系统依靠预设的问题模板由玩家搜索或选择相应问题答案；可以针对除游戏任务剧情外的其他操作进行指导，但问答的自由度低，无法应对个性化的问题。基于玩家反馈的指导系统可根据玩家在游戏中的表现进行实时的提示，但该类指导系统依旧会依附于剧情和操作本身，对复杂问题的处理能力不足。

因此，目前缺少一种能够理解玩家复杂问题、可实时给出玩家解决方案与游戏指导的系统，以提升玩家游戏体验。

发明内容

针对上述存在的拘束局限性，本发明提出了一种交互式专家指导系统，通过问答语言模型实现对用户个性化问题的专业解答，且准确率高，能灵活部署。

为实现上述目的，本发明采用了以下技术方案：

一种交互式专家指导系统，所述系统包括答案生成模块；

所述答案生成模块根据输入文本编码借助问答语言模型生成答案数据；

所述问答语言模型是基于GPT模型的语言模型，可生成与用户输入问题相关的答案；

所述答案生成模块的功能通过以下步骤实现：

步骤31、当所述答案生成模块被调用时，将所述输入文本编码输入至问答语言模型进行答案预测得到答案序列组；

步骤32、按照预设答案标准从答案序列组中选择最相关的答案序列，并将该答案序列中解码得到答案数据。

所述问答语言模型通过预训练的GPT模型进行微调得到，所述问答语言模型的训练方式如下：

（1）数据收集及处理：收集现有的游戏问答数据；将问答数据采用词嵌入编码进行文本编码，得到问答模型数据集；

（2）加载预训练的GPT模型，并设置模型训练参数；

（3）进行GPT模型微调：将训练问题编码输入GPT模型中，得到当前输出结果；计算损失函数；使用反向传播算法更新模型训练参数；

（4）模型评估与优化：计算微调后模型的准确率、召回率、F1分数等指标来评估模型效果；根据评估结果优化模型，得到训练完成的问答语言模型。

本发明与现有技术相对比，本发明具有以下优点：

（1）能够理解用户复杂的个性化的相关游戏问题，并给出相应答案，准确率高；

（2）可部署于游戏应用中或游戏平台内，灵活性高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本发明实施例提供的一种交互式专家指导系统的结构图。

图2为本发明实施例提供的一种交互控制模块实现方法的步骤图。

图3为本发明实施例提供的一种答案生成模块实现方法的步骤图。

实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了进一步了解本发明，下面结合最佳实施例对本发明作进一步的详细说明。

如下为本发明实施例中涉及名词术语的解释：

GPT模型：GPT模型（Generative Pre-trained Transformer Model）即生成型预训练变换模型，由OpenAI提出，是一种基于Transformer架构的预训练语言模型。GPT可以在大规模语料库上进行无监督学习，从而提取文本中的语义信息和上下文信息，实现文本的生成和理解。

在GPT模型中，主要包括了两个组件：Transformer编码器和解码器。其中编码器负责对输入文本进行编码，解码器则负责生成连续的文本。具体地，编码器主要由多层自注意力机制和前馈神经网络组成，它们可以学习到输入文本中的词语之间的语义关系。解码器则由多层自注意力机制和前馈神经网络组成，它们可以生成下一个词语，并将其添加到当前生成的文本中，从而生成连续的文本。

下面结合前述名词术语具体介绍本发明的实现方式。

本发明的发明点是提供一种交互式专家指导系统，通过对用户输入的问题进行处理解析，借助答案生成模块生成相应问题的答案，并反馈给用户；通过交互过程完成对用户的游戏指导。

参考图1所示，所述系统由数据库模块、用户接口模块、交互控制模块、答案生成模块组成。

所述数据库模块用于存储用户数据以及所述答案生成模块需要的知识库数据，并提供数据操作接口。

所述知识库数据由若干与游戏相关的知识数据组成，所述知识数据包含知识文本及主题标签。所述知识数据来自于游戏手册、游戏攻略、游戏论坛帖子等渠道。

所述用户接口模块用于接收用户的输入数据、输入数据的基本处理以及输出所述系统产生的答案数据。所述输入数据由问题数据、用户数据组成。所述问题数据为用输入的问题文本或问题语音；所述用户数据包括用户ID、用户IP、用户设备号、请求时间。

所述用户接口模块的具体工作方式包括：

步骤11、用户在用户端输入问题并发送后，用户接口模块将接收用户的输入数据；

步骤12、对用户的输入数据进行基本处理，基本处理具体包括：

提取用户数据获得用户信息；提取问题数据，若问题数据为语音数据则进行语音识别，得到问题文本；

步骤13、当所述系统生成答案数据后，将答案数据根据用户信息发送至相应用户。

所述交互控制模块用于合法性识别、输入记录以及调用答案生成模块；参考图2，所述交互控制模块的功能通过以下步骤实现：

步骤21、所述交互控制模块在获得问题文本及用户信息后，记录用户输入记录，同时对问题文本进行文本预处理及文本编码，得到问题编码；

步骤22、识别问题合法性；若问题不合法，则输出不合法通知；若问题合法，则进入步骤23；

步骤23、识别问题文本对应的问题主题；

步骤24、在数据库模块的知识库中查询与问题主题对应的知识数据；并将知识数据进行文本编码得到知识编码；

步骤25、将问题编码与知识编码进行合并，得到输入文本编码；

步骤26、调用所述答案生成模块，并将所述输入文本编码传递给答案生成模块，得到答案数据；

步骤27、将所述答案数据传输至用户接口模块。

所述答案生成模块根据输入文本编码（包含着问题文本及知识数据内容）借助问答语言模型生成答案数据。所述问答语言模型是基于GPT模型的语言模型，可生成与用户输入问题相关的答案。参考图3，答案生成模块的功能通过以下方式实现：

作为一种实施例，所述识别问题合法性可通过判断问题文本是否符合预设的合法问题规则实现；

所述合法问题规则为：问题文本中不包含非法字符；问题文本的字符长度在预设长度区间内。

作为一种实施例，所述识别问题合法性可通过将问题文本输入至合法性判断模型实现。所述合法性判断模型是基于机器学习的分类模型，可通过输入问题文本得到问题合法性的判断结果。

所述合法性判断模型可通过以下方式得到：

（1）数据收集：收集大量已知合法和不合法的问题数据，构建合法判断数据集；所述问题数据为问题文本；

将所述合法判断数据集拆分为合法判断训练集和合法判断测试集；

（2）文本编码：将问题文本进行文本编码，从而转换为机器学习算法可用的数值特征表示；

（3）模型训练：选择机器学习算法（如决策树、支持向量机、逻辑回归等）并使用所述合法判断训练集进行训练；

（4）模型评估：使用所述合法判断测试集对模型进行评估，计算模型的准确率、召回率、精确率指标，得到评估结果；

（5）模型优化：根据评估结果对模型进行优化，得到合法性判断模型。

作为一种实施例，步骤23中，问题主题的识别可通过以下方式实现：

将问题编码输入至问题分类模型中进行分类，得到问题主题。

所述问题分类模型是基于机器学习的分类模型，可通过输入问题文本得到对应的问题主题。

所述问题分类模型的训练方法与合法性判断模型的训练方法相似。区别在于，在问题分类模型训练的数据收集步骤中，需要收集各类问题并通过人工标注方式进行主题标注，得到模型训练的数据集。

基于机器学习进行分类模型训练属于当前成熟的技术，本领域技术人员根据实施例的描述可顺利实现，在此不再赘述。

作为一种实施例，步骤21与步骤23中，所述文本编码采用词嵌入编码实现。

所述词嵌入编码是指通过将单词映射到一个低维向量空间中来表示单词，可通过BERT模型、Word2Vec模型、FastText模型、潜在语义分析（LSA）和 GloVe模型中的任意一种方法实现；上述方法均为已公开成熟技术，本领域技术人员根据实施例的描述可顺利实现，在此不再赘述。

作为一种实施例，步骤25中，将问题编码与知识编码进行合并的具体方式为：借助分隔符将问题编码与知识编码依次拼接。

例如，问题为“A游戏如何进行商品交换”，对应的知识数据为“游戏商品交换可以通过玩家之间的交易完成，也可以通过游戏内的交易系统进行”及“游戏内的交易系统允许玩家使用物品进行交换”。

采用词嵌入编码进行问题文本的文本编码后得到的问题编码为[16, 67, 235,53, 161, 336, 454, 0, 0, 0, 0]；

采用词嵌入编码进行知识数据的文本编码后得到的知识编码分别为[16, 67,235, 53, 283, 189, 8, 154, 407, 285, 9, 138, 336, 343, 171, 290, 53, 197,306, 49, 0]、[16, 283, 189, 8, 154, 407, 171, 290, 53, 281, 9, 138, 336, 343,105, 306, 197, 49, 0, 0, 0]；

问题编码与知识编码中的每个数字表示一个词嵌入向量。

将问题编码与知识编码进行合并，分隔符为102，则合并得到的结果为：[16, 67,235, 53, 161, 336, 454, 0, 0, 0, 0, 102, 16, 67, 235, 53, 283, 189, 8, 154,407, 285, 9, 138, 336, 343, 171, 290, 53, 197, 306, 49, 0, 102, 16, 283, 189,8, 154, 407, 171, 290, 53, 281, 9, 138, 336, 343, 105, 306, 197, 49, 0, 0,0]。

作为一种实施例，所述问答语言模型通过预训练的GPT模型进行微调（Fine-tune）得到，具体地，问答语言模型的训练方式如下：

（1）数据收集及处理：收集现有的游戏问答数据，当问答数据的数据量较少时，可根据问答数据的含义进行问答数据扩充；将问答数据采用词嵌入编码进行文本编码，得到问答模型数据集；所述问答模型数据集由若干训练问题编码及对应的训练答案编码组成；

（2）加载预训练的GPT模型，并设置模型训练参数；所述模型训练参数包括批尺寸（batch size）、学习率（learning rate）、训练轮数（epoch）、dropout率；

（3）进行GPT模型微调：将训练问题编码输入GPT模型中，得到当前输出结果；根据当前输出结果与训练问题编码对应的训练答案编码，计算损失函数；使用反向传播算法更新模型训练参数；

所述损失函数采用交叉熵损失函数；

（4）模型评估与优化：计算微调后模型的准确率、召回率、F1分数中的任意一项指标来评估模型效果；根据评估结果优化模型，得到训练完成的问答语言模型。

作为一种实施例，步骤31中，将输入文本编码输入至问答语言模型时，需要在问答语言模型的输出层引入随机噪声，以得到多个不同的答案序列，从而得到答案序列组。

具体地，在问答语言模型的Softmax层引入噪声，通过将每个单词的概率值加上一个服从高斯分布的随机噪声，从而得到一个扰动概率分布；然后，根据扰动概率分布进行采样，得到答案序列；按照以上方式多次引入噪声，得到多个答案序列，并将多个答案序列组合成答案序列组。

这种方式可以在一定程度上保证答案的质量，同时又能够得到多样性的答案。

作为一种实施例，步骤32中选择最相关的答案序列可通过基于语言模型的评估方法实现，具体方式为：

在得到多个答案序列并组合成答案序列组后，以生成的答案序列在问答语言模型中的概率作为相关度衡量指标；选择概率最高的答案序列作为最相关的答案序列。

作为一种实施例，步骤32中选择最相关的答案序列可通过相关度模型计算的方法实现，具体方式为：

在得到多个答案序列并组合成答案序列组后，将提取所生成答案序列的答案特征数据；将所述答案特征数据作为输入，借助相关度模型计算所有答案序列的相关度；选择相关度最高的答案作为最相关的答案序列。

所述相关度计算模型是用于根据答案特征数据预测答案相关度的机器学习模型，可基于人工评定标注的答案-相关度数据集、通过回归模型训练得到。

作为一种实施例，所述系统还包括建议反馈模块、系统管理模块。

所述建议反馈模块用于收集用户对答案的反馈，具体方式为：当用户通过用户端的反馈按钮提交反馈时，收集用户的反馈数据。

所述系统管理模块用于监控系统状态、处理系统异常、控制优化系统。

作为一种实施例，本发明所述系统可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用计算机或任何其他类似硬件设备来实现。

本发明所述的系统可以软件程序的形式实施，所述软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，所述软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。

另外，本发明所述系统的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明所述的系统的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本发明所述系统的程序指令，可被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。

作为一种实施例，本发明还提供一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述的多个实施例的方法和/或技术方案。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

最后，需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种交互式专家指导系统，其特征在于，

所述系统包括答案生成模块；

所述问答语言模型是基于GPT模型的语言模型，可生成与用户输入问题相关的答案，其训练方式包括模型评估与优化：计算微调后模型的准确率、召回率、F1分数中的任意一项指标来评估模型效果，根据评估结果优化模型，得到训练完成的问答语言模型；

所述答案生成模块的功能通过以下步骤实现：

步骤31、当所述答案生成模块被调用时，将所述输入文本编码输入至问答语言模型进行答案预测得到答案序列组；具体地，在问答语言模型的Softmax层引入噪声，通过将每个单词的概率值加上一个服从高斯分布的随机噪声，从而得到一个扰动概率分布，根据扰动概率分布进行采样，得到答案序列，按照以上方式多次引入噪声，得到多个答案序列，并将多个答案序列组合成答案序列组；

步骤32、按照预设答案标准从答案序列组中选择最相关的答案序列，并将该答案序列中解码得到答案数据；

其中，步骤32中选择最相关的答案序列通过基于语言模型的评估方法实现，具体方式为：

在得到多个答案序列并组合成答案序列组后，以生成的答案序列在问答语言模型中的概率作为相关度衡量指标，选择概率最高的答案序列作为最相关的答案序列。

2.根据权利要求1所述的系统，其特征在于，

（2）加载预训练的GPT模型，并设置模型训练参数；

（3）进行GPT模型微调：将训练问题编码输入GPT模型中，得到当前输出结果；计算损失函数；使用反向传播算法更新模型训练参数。

3.根据权利要求1所述的系统，其特征在于，

所述系统还包括数据库模块；

所述数据库模块用于存储用户数据以及所述答案生成模块需要的知识库数据，并提供数据操作接口；

所述知识库数据由若干与游戏相关的知识数据组成，所述知识数据包含知识文本及主题标签。

4.根据权利要求1所述的系统，其特征在于，

所述系统还包括用户接口模块；

所述用户接口模块用于接收用户的输入数据、输入数据的基本处理以及输出所述系统产生的答案数据。

5.根据权利要求1所述的系统，其特征在于，

所述系统还包括交互控制模块；

所述交互控制模块用于合法性识别、输入记录以及调用答案生成模块；

所述交互控制模块的功能通过以下步骤实现：

步骤21、所述交互控制模块在获得问题文本及用户信息后，对问题文本进行文本预处理及文本编码，得到问题编码；

步骤22、识别问题合法性；

步骤23、识别问题文本对应的问题主题；

步骤27、将所述答案数据传输至用户接口模块。

6.根据权利要求5所述的系统，其特征在于，

所述识别问题合法性通过将问题文本输入至合法性判断模型实现；

所述合法性判断模型是基于机器学习的分类模型，通过输入问题文本得到问题合法性的判断结果。

7.根据权利要求5所述的系统，其特征在于，

问题主题的识别可通过以下方式实现：

将问题编码输入至问题分类模型中进行分类，得到问题主题；

8.根据权利要求5所述的系统，其特征在于，

所述文本编码采用词嵌入编码实现。

9.根据权利要求5所述的系统，其特征在于,

步骤25中，将问题编码与知识编码进行合并的具体方式为：借助分隔符将问题编码与知识编码依次拼接。