CN117252260A

CN117252260A - 一种基于大语言模型的面试技能训练方法、设备及介质

Info

Publication number: CN117252260A
Application number: CN202311147381.1A
Authority: CN
Inventors: 宋业臻; 肖维斌; 黄杰; 李小龙; 姚启晨; 沈骏
Original assignee: Shandong Xinfa Technology Co ltd
Current assignee: Shandong Xinfa Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-19

Abstract

本申请公开了一种基于大语言模型的面试技能训练方法、设备及介质，方法包括：将面试类型下设置的若干个面试问题，输入至预先训练的大语言模型中，获取大语言模型输出的回答内容，基于面试问题的预设标准答案或面试官表现，对回答内容进行人类反馈标注，形成面试问题对应的价值标注数据，训练生成强化学习生成模型，并输出回答内容对应的优化内容，进行面试技能训练。在面向垂直行业中面试技能培训这一特定场景下，进行训练强化学习生成模型所需数据的快速全面采集，通过人类反馈标注，使得采集到的训练数据更符合人类用户的预期和偏好。面试官无需经历面试实战场景，即可在相对真实的场景下进行面试技能的训练。

Description

一种基于大语言模型的面试技能训练方法、设备及介质

技术领域

本申请涉及人工智能大语言模型领域，具体涉及一种基于大语言模型的面试技能训练方法、设备及介质。

背景技术

在人力资源人才发展领域中，人力资源的从业人员(比如，面试专员)，以及对人力资源领域感兴趣，想要学习的人员，均需要进行面试技能训练。通常来说，面试技能需要在实战场景下进行多次反复训练才能熟练运用，但是实战场景并不常见，而且难以在相同的实战场景中反复练习，这就使得能得到的训练机会较少。

在传统的人力资源人才发展领域中，可以通过以下方式来辅助从业人员完成面试。一种是基于自然语言处理技术对面试者的简历进行分析，查看简历信息与岗位要求是否匹配；另一种是是基于自然语言处理技术对面试者的回答内容进行分析，抽取出候选人回答内容的文本信息，并通过对文本信息进行语义实体分析、逻辑推理分析等，判断候选人的回答内容是否符合岗位要求。然而上述方式都是应用在面试实战场景中，对面试过程和结果起到辅助效果，无法实现对从业人员的训练效果。

发明内容

为了解决上述问题，本申请提出了基于大语言模型的面试技能训练方法，包括：

针对预设的多个面试类型中的每个面试类型，确定该面试类型对应的知识图谱；

根据所述知识图谱中包含的节点，将所述面试类型下设置的若干个面试问题，输入至预先训练的大语言模型中，获取所述大语言模型输出的多个回答内容；

针对每个面试类型，基于所述面试问题的预设标准答案或面试官表现，得到该面试类型对应的分析标准；

基于所述面试类型的所述分析标准，对所述面试类型下的所述回答内容进行人类反馈标注，以形成对所述面试问题对应的价值标注数据，构建面向面试技能训练的内容数据集；

基于所述内容数据集，训练生成强化学习生成模型，并根据所述强化学习生成模型输出所述回答内容对应的优化内容，以根据所述优化内容进行面试技能训练。

另一方面，本申请还提出了一种基于大语言模型的面试技能训练设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：上述示例所述的基于大语言模型的面试技能训练方法。

另一方面，本申请还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：上述示例所述的基于大语言模型的面试技能训练方法。

通过本申请提出基于大语言模型的面试技能训练方法能够带来如下有益效果：

对多个面试类型下的面试问题进行整合，利用大语言模型输出回答内容，能够在面向垂直行业中面试技能培训这一特定场景下，进行训练强化学习生成模型所需数据的快速全面采集。

通过人类自身的偏好、期望和主观感受等人类反馈标注，使得采集到的训练数据在准确度、叙事细节以及上下文连贯性方面有更好的表现，更符合人类用户的预期和偏好，也使得该训练数据更贴合面试技能这一需要人类之间大量交流的场景，增加了最终训练得到的强化学习生成模型的可靠性。

面试官通过该强化学习生成模型，无需经历面试实战场景，即可模拟进行多个面试类型下的面试过程，在相对真实的场景下进行面试技能的训练。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中基于大语言模型的面试技能训练方法的流程示意图；

图2为本申请实施例中基于大语言模型的面试技能训练方法具体实施步骤示意图；

图3为本申请实施例中基于大语言模型的面试技能训练设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供一种基于大语言模型的面试技能训练方法，包括：

S101：针对预设的多个面试类型中的每个面试类型，确定该面试类型对应的知识图谱。

在面试官对被试人员的面试过程中，可以基于实际情况以及自身需求，采用相应的面试类型完成本次面试过程。不同的面试类型中，所使用的面试问题、面试场地、面试官数量等可能会不同，而面试官所期望被试人员回答的面试内容、面试表现可能也会有相应的不同。

具体地，面试类型包括结构化面试、非结构化面试、行为面试、基于胜任力的面试以及压力面试等。其中，结构化面试是指通过一系列预定的问题和评分标准来评估应聘者的能力和适应性的面试类型；非结构化面试是指面试官没有预先准备好的问题列表，而是根据候选人的回答和表现，灵活地提出问题和追问的面试类型；行为面试是指通过询问候选人过去的行为和经验来评估其在特定情境下的表现和能力的面试类型；基于胜任力的面试是指评估候选人的技能、知识、经验和行为特征，以确定他们是否适合特定的工作岗位的面试类型；压力面试是指通过给求职者施加一定的压力和紧张感来测试其在高压环境下的应对能力和表现的面试类型。

对于结构化面试、基于胜任力的面试等面试类型，可以预先设置有标准答案，对于难以设置标准答案的面试类型，可以通过其他方向来对进行面试。比如，面试官询问“平时有什么爱好吗？”，此时，针对这个面试问题，没有标准答案，可以通过面试官的面部特征等，来判断被试人员的回答是否符合面试官的要求。

面试类型不只有一个，存在有多个面试类型，并且每个面试类型中可能还会存储有多个面试问题、面试答案等数据，容易产生数据存储混乱的问题。为了更加方便的存储、读取和处理相关数据，为每个面试类型均设置有相应的知识图谱。

其中，对于每个面试类型来说，设置有该面试类型对应的知识图谱，知识图谱主要用于存储在该面试类型下所需要的相关数据，比如，分析标准、强化学习效价指标、具体地面试问题等数据。

知识图谱中可以包含多个层次，每个层次中包含多个节点，随着后续的节点内容的增加，知识图谱也逐渐完善。其中，知识图谱第一层次的节点对应面试类型，由面试类型确定知识图谱，由该第一层次的节点，表示出该知识图谱所对应的面试类型。第二层次的节点对应分析标准，该分析标准是人类反馈强化学习效价指标，其可以由预设标准答案和面试官表现设置。不同的面试类型下，其对应的分析标准也是不同的，故而在第二层次的节点中，存储有该面试类型下的分析标准。第三层次的节点对应价值标注数据，由不同面试类型，得到不同的指标。价值标注数据，是由回答内容进行人类反馈标注得到的，当然，在第三层次的节点中，还可以存储有该价值标注数据所对应的面试问题、回答内容、人类反馈标注等数据。

在知识图谱的构建过程中，首先构建出第一层次的节点，标注着该知识图谱对应的面试类型，在生成其对应的分析标准后，将该分析标准作为第二层次的节点，与第一层次的节点相连，从而对知识图谱进行初步完善。在得到分析标准后，通过分析标准，以及通过大语言模型得到的回答内容，生成价值标注数据，将其作为第三层次的节点，与第二层次的节点相连，对知识图谱进行再次完善。随着后续面试问题、回答内容的增加，第三层次的节点也会逐渐增加，还可以基于用户需求，在第二层次的节点中，添加新的分析标准，或对已有的分析标准进行适应性修改。

通过对知识图谱的完善，一方面可以用于生成加强模型，另一方面把相关数据以知识图谱的形式存储，方便后续其他用途。

S102：根据所述知识图谱中包含的节点，将所述面试类型下设置的若干个面试问题，输入至预先训练的大语言模型中，获取所述大语言模型输出的多个回答内容。

在每种面试类型下，对应有若干个不同的面试问题，将不同面试类型下的面试问题以组合的形式使用，根据知识图谱中第一层次的节点，确定当前的面试类型，并确定该面试类型下的问题集合，此时的问题集合是还没有被人类反馈标注的问题集合。

大语言模型是指使用大量文本数据训练的深度学习模型，其可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话、翻译文本等任务。

对于本申请实施例来说，可以预先训练生成所需的大语言模型。通过网页、新闻、小说等内容采集训练集，对训练集进行预处理(比如，删除无用的字符、标记化、构建词汇表等)后，进行模型架构的设计与建立，比如，采用循环神经网络RNN、长短时记忆网络LSTM、门控循环单元GRU等作为网络架构，以通过训练集对该网络架构进行模型训练，最终得到相应的大语言模型。

当然，也可以采用现有的已经成熟的大语言模型，作为本申请实施例中使用的大语言模型，比如，可以采用现有的成熟的，以大语言模型为基础得到的聊天机器人程序。

在本申请实施例中，大语言模型的输出是否可信，并不是需要重点关注的内容，即使大语言模型输出的回答内容并不可信，在本申请实施例中，随着后续人类反馈标注，也能够优化提升其在垂直行业(主要指代人力资源行业)的回答内容，使得最终得到的输出内容是可信的，故而本申请实施例中并不关心大语言模型的训练过程以及回答可信度。

将问题集合输入到预先训练的大语言模型中，并且要求大语言模型针对该问题集合中的每个面试问题，分别同时输出一个或多个问答内容。

之后，重复上述步骤，直到将结构化面试、非结构化面试、行为面试、基于胜任力的面试、压力面试这五种面试类型的每组面试问题，都输入到大语言模型中，并且得到大语言模型的回答内容为止。

S103：针对每个面试类型，基于所述面试问题的预设标准答案或面试官表现，得到该面试类型对应的分析标准。

当面试类型是结构化面试时，由于结构化面试的面试问题都是预设的，并且每个面试问题都有对应的标准答案，所以在输入结构化面试的问题集合的同时，也预先设置每个面试问题对应的标准答案。

此时，基于知识图谱第二层次的节点，提取出预设的标准答案里的标准语序结构和标准高频关键词，其中，标准高频关键词是指在预设标准答案中出现频率高于预设频率的关键词。

根据标准语序结构和标准高频关键词，确定该面试问题的信息预期符合程度，作为所述面试类型对应的分析标准。

需要说明的是，在人力资源行业中，对于有标准答案的回答内容(比如，对被试人员的专业问题的考核)，可以直接将该标注答案作为分析标准，而对于没有标准答案的内容，面试官在面试的过程中，会针对于被试人员的回答内容，进行一定程度的心理预期，而该心理预期，是能够基于面试官的一些生理特征进行体现的，通过该生理特征的检测，能够捕捉到面试官的心理预期，而对于面试过程来说，面试官的心理预期就是被试人员能否通过的标准答案。

另外，对于行为面试、基于胜任力的面试来说，与上文中描述的结构化面试类似，也设置有预设标准答案，故而在确定该面试类型的分析标准时，可以采用类似地方案，分别得到对应的分析标准。

当面试类型是非结构化面试时，由于非结构化面试的面试问题都是随机的，所以无法预先设置标准答案，在面试过程中也不需要遵循预先设置好的规则和框架。

在非结构化面试的面试过程中，基于知识图谱第二层次的节点，将面试集合输入到大语言模型中，并获取大语言模型针对每个面试问题同时输出的多个回答内容。

进一步地，基于生理特征检测模型得到面试官针对每个回答内容的生理特征，其中，生理特征检测模型包括面部特征检测模型和语音特征检测模型，生理特征包括面部特征和语音特征，将面试官在固定时间段内的积极生理特征作为非结构化面试的分析标准。

具体地，积极生理特征表现为面部表情为开心愉悦、声音语调为平缓起伏不大、行为举止幅度不大等；消极生理特征表现为眼神无光、面部表情不耐烦、声音语调起伏较大、行为举止幅度较大等。除此之外，还可以使用智能手环实时监测面试官的心率、血压、体温等，用于表示面试官的生理特征。

另外，对于压力面试来说，与上文中描述的非结构化面试类似，也难以设置预设标准答案，故而在确定该面试类型的分析标准时，可以采用类似地方案，得到相应的分析标准。

S104：基于所述面试类型的所述分析标准，对所述面试类型下的所述回答内容进行人类反馈标注，以形成对所述面试问题对应的价值标注数据，构建面向面试技能训练的内容数据集。

如图2所示，当面试类型是结构化面试时，基于知识图谱第三层次的节点，得到大语言模型针对每个面试问题同时输出一个或多个回答内容，提取出每个回答内容里的实际语序结构和实际高频关键词，其中实际高频关键词指的是回答内容中出现频率高于预设频率关键词。

具体地，根据公式一计算该面试问题对应的信息预期符合程度，其中公式一为：为信息预期符合程度，TS_回答内容为实际语序结构，TS_{预设标准答案}为标准语序结构，HFV_回答内容为实际高频关键词，HFV_{预设标准答案}为标准高频关键词。

更具体地，基于结构化面试的分析标准，确定实际语序结构和实际高频关键词与预设标准答案的标准语序结构和标准高频关键词的吻合度，将吻合度作为第一指标，用于表示该面试问题的信息预期符合程度，以形成该面试问题对应的价值标注数据，其中，第一指标的值越大，信息预期符合程度就越高，表示越是按照预期要求回答问题，该回答就越是最优回答，从而表明该结构化面试就越成功。

另外，行为面试和基于胜任力的面试也可以按照公式一，得到回答内容的吻合度，从而表示相应的面试问题的信息预期符合程度，以形成不同面试类型下面试问题相应的价值标注数据。

如图2所示，当面试类型是非结构化面试时，基于知识图谱第三层次的节点，根据非结构化面试的分析标准，对回答内容进行人类反馈标注，以确定非结构化面试问题集合中每个面试问题对应的价值标注数据。

人类反馈标注指的是，人类对输出的回答内容进行的标注，标注的方式可以包括：对回答内容的补充、删除、修改、调整语序、调整描述方法等。对于人力资源行业来说，其行业核心重点就是人与人之间的交流，而传统的大语言模型是难以体现该交流重点的。

对于一些有标准答案的回答内容，通过该标注可以实现对回答内容在专业程度上的纠正。而对于一些没有标准答案的回答内容，通过人类反馈标注后，也能够使得，大语言模型的输出内容，与反馈标注之前的内容相比，更加符合人类的思想以及交流习惯。

在人类反馈标注中，综合大量企业或面试官的平均思想，使得最终得到的强化学习生成模型，能够满足大多数企业或面试官的需求，起到一定程度的优化效果。而对于不同的企业文化和面试官，其对于一些回答内容的心理预期可能不一样，此时，可以针对不同的企业、面试官，以个性化的形式去生成符合该企业或该面试官的人类反馈标注，使得最终生成的强化学习生成模型，是尤其符合该企业或面试官的。

具体地，根据公式二计算面试官的预期满意度，其中公式二为：I_{２-非结构化}为面试官的预期满意度，F_f-posi为积极面部特征的频次，F_v-posi为积极语音特征的频次，F_f-nega为消极面部特征的频次，F_v-nega为消极语音特征的频次，T为对话时间T时间段。

更具体地，在面试过程中面试官与大语言模型对话的T时间段内，基于面部特征检测模型和语音情感检测模型，分别获得面试官在T时间段内的积极和消极的面部特征与语音特征频次，并将积极的面部特征和语音特征频次和，减去消极的面部特征和语音特征频次和，从而得到该面试问题的面试官预期满意度，将面试官预期满意度作为第二指标，以形成对该面试问题的价值标注数据。第二指标值越高，面试官的预期满意度就越高，表示该回答内容越符合面试官的要求，就越是最优回答内容，从而表明该非结构化面试就越成功。

另外，压力面试也可以按照公式二，得到相应的面试问题的面试官的预期满意度，以形成对压力面试问题集合中每个问题的价值标注数据。

根据以上问题集合以及每个面试问题对应的价值标注数据，构建出了面向面试技能训练的内容数据集。在内容数据集中，至少包含有面试问题、大语言模型输出的回答内容以及其对应的人类反馈标注，当然，也可以包含有通过人类反馈标注后，回答内容所对应的优化内容。

S105：基于所述内容数据集，训练生成强化学习生成模型，并根据所述强化学习生成模型输出所述回答内容对应的优化内容，以根据所述优化内容进行面试技能训练。

基于内容数据集里的问题集合以及单个问题对应的价值标注数据，在面试过程中的对话状态下，确定单个问题的价值，并由单个问题的价值，组成价值集合。根据价值集合得到价值总额，并确定在所述价值总额中每个单个问题的价值的贡献量，以确定价值函数，基于价值函数，训练加挂在大语言模型的基于人类反馈的强化学习生成模型，如图2所示并输出所述回答内容对应的优化内容，以根据所述优化内容进行面试技能训练，其中RLHF是指以强化学习方式依据人类反馈优化语言模型。

强化学习生成模型也是自然语言处理模型，其可以与大语言输出模型采用类似的模型架构(比如，采用循环神经网络RNN、长短时记忆网络LSTM、门控循环单元GRU等作为网络架构)，在对强化学习生成模型训练完毕后，该强化学习生成模型的输入是，并采用类似的训练过程，将得到的内容数据集作为训练样本集，在内容数据集中，将大语言模型输出的回答内容作为强化学习生成模型的输入，将人类反馈标注后的优化内容作为强化学习生成模型的输出，从而最终得到相应的强化学习生成模型。

其中，内容数据集的作用是构建一个多面试方法下的人类面试官标注的价值反馈内容库，用来训练一个加挂在大语言模型上的基于人类反馈的强化学习生成模型。

具体地，大语言模型基于内容数据集，根据强化学习模型参数，进行训练得到加挂在大语言模型上的强化学习生成模型，其中，强化学习模型参数为：v_π(S)＝E_π(R_t+1+γR_t+2+γ²R_t+3+......|S_t＝s)，v为价值函数，S为状态，R为回答的单个问题的价值。例如，在结构化面试中，v使用的是指标1的数值总额度作为价值，R使用的是指标1的值，即越符合预期信息要求的回答，价值越大。

进一步地，基于强化学习模型参数以及内容数据集，训练加挂在大语言模型上的强化学习生成模型，使得强化学习生成模型能够根据面试官的价值反馈，输出为更加符合结构化面试、非结构化面试、行为面试、基于胜任力的面试、压力面试等不同面试方法下最符合面试官要求的回答内容，生成该内容用于辅助新手面试官进行面试训练。

如图3所示，本申请实施例还提出了一种基于大语言模型的面试技能训练设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：上述示例所述的基于大语言模型的面试技能训练方法。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于大语言模型的面试技能训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，针对预设的多个面试类型中的每个面试类型，确定该面试类型对应的知识图谱，具体包括：

确定预设的多个面试类型，所述面试类型包括结构化面试、非结构化面试、行为面试、基于胜任力的面试以及压力面试；

根据每个面试类型，确定其对应的知识图谱，其中，所述知识图谱包括多个层次，每个层次包含有多个节点，所述多个层次由上至下依次为：第一层次中的节点对应于所述面试类型，第二层次中的节点对应于所述分析标准，第三层次中的节点对应于所述价值标注数据。

3.根据权利要求1所述的方法，其特征在于，根据所述知识图谱中包含的节点，将所述面试类型下设置的若干个面试问题，输入至预先训练的大语言模型中，获取所述大语言模型输出的多个回答内容，具体包括：

根据所述知识图谱中包含的节点，确定所述面试类型在其对应的面试场景下，所设置的若干个面试问题；

将所述若干个面试问题输入至预先训练的大语言模型中；

获取到所述大语言模型针对每个面试问题输出的多个回答内容。

4.根据权利要求2所述的方法，其特征在于，针对每个面试类型，基于所述面试问题的预设标准答案，得到该面试类型对应的分析标准，具体包括：

针对所述结构化面试、所述行为面试和所述基于胜任力的面试对应的面试类型，确定所述面试类型下设置的面试问题，以及所述面试问题对应的预设标准答案；

确定所述预设标准答案的标准语序结构和标准高频关键词，以得到所述面试问题的信息预期符合程度，作为所述面试类型对应的分析标准。

5.根据权利要求4所述的方法，其特征在于，基于所述面试类型的所述分析标准，对所述面试类型下的所述回答内容进行人类反馈标注，以形成对所述面试问题对应的价值标注数据，构建面向面试技能训练的内容数据集，具体包括：

针对有预设标准答案的面试问题，获取所述大语言模型的基于所述面试问题作出的多个回答内容，拆分得到所述回答内容的实际语序结构和实际高频关键词；

基于所述分析标准中的标准语序结构和标准高频关键词，根据所述回答内容的实际语序结构和实际高频关键词，得到所述回答内容与预设标准答案的吻合度，作为所述面试问题的信息预期符合程度；

基于所述面试问题的信息预期符合程度，对所述多个回答内容进行人类反馈标注，形成所述面试问题的对应的价值标注数据。

6.根据权利要求2所述的方法，其特征在于，针对每个面试类型，基于所述面试问题的面试官表现，得到该面试类型对应的分析标准，具体包括：

基于所述非结构化面试和所述压力面试对应的面试类型，确定所述面试类型未预设标准答案的随机提问的面试问题；

基于生理特征检测模型，得到所述面试官在面试过程对话期间的生理特征，并确定所述生理特征中积极特征出现的频次，作为该面试类型对应的分析标准，所述生理特征检测模型包括面部特征检测模型和语音特征检测模型，所述生理特征包括面部特征和语音特征。

7.根据权利要求6所述的方法，其特征在于，基于所述面试类型的所述分析标准，对所述面试类型下的所述回答内容进行人类反馈标注，以形成对所述面试问题对应的价值标注数据，构建面向面试技能训练的内容数据集，具体包括：

针对未预设标准答案的随机提问的面试问题，获取到所述大语言模型的多个回答内容；

基于所述生理特征检测模型，在面试过程对话期间的固定时间段内，分别得到面试官针对所述大语言模型的多个回答内容的生理特征；

基于所述分析标准中面试官的积极生理特征，确定所述积极生理特征与消极生理特征的频次差，得到所述面试官的预期满意度；

基于所述面试官的预期满意度，对所述多个回答内容进行人类反馈标注，以形成所述面试问题对应的价值标注数据。

8.根据权利要求1所述的方法，其特征在于，基于所述内容数据集，训练生成强化学习生成模型，并根据所述强化学习生成模型输出所述回答内容对应的优化内容，以根据所述优化内容进行面试技能训练，具体包括：

基于所述内容数据集里的所述面试问题对应的价值标注数据，在面试过程中的对话状态下，确定单个问题的价值；

在当前对话状态下，根据若干个问题的价值，组成价值集合；

根据所述价值集合得到价值总额，并确定在所述价值总额中每个问题的价值的贡献量，以确定价值函数；

基于所述价值函数，训练加挂在大语言模型的基于人类反馈的强化学习生成模型，以通过所述强化学习生成模型输出面试官的面试技能训练过程所需的面试问题和/或回答内容。

9.一种基于大语言模型的面试技能训练设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：权利要求1～8中任一项权利要求所述的基于大语言模型的面试技能训练方法。

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：权利要求1～8中任一项权利要求所述的基于大语言模型的面试技能训练方法。