CN111695591A

CN111695591A - 基于ai的面试语料分类方法、装置、计算机设备和介质

Info

Publication number: CN111695591A
Application number: CN202010339455.1A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-09-22
Anticipated expiration: 2040-04-26
Also published as: CN111695591B; WO2021217772A1

Abstract

本申请属于人工智能领域，公开了一种基于AI的面试语料分类方法、装置、计算机设备及可读存储介质。所述方法通过根据以GPT模型为基础训练得到的轻量模型对充分考虑与预测结果相关的面试场景下面试者的语料的若干语料特征，对面试者进行分类，并将分类结果存储于区块链网络节点中。通过根据GPT模型得来的轻量模型对面试者进行分类，因为通过对轻量模型每一层的都计算与GPT模型的损失函数，这样可以保证轻量级模型输出结果的准确性，以及与GPT模型的输出结果的一致性得到保证，解决了现有技术中用轻量网络进行面试者分类得到的分类结果准确率低的技术问题。

Description

基于AI的面试语料分类方法、装置、计算机设备和介质

技术领域

本申请涉及人工智能领域，特别是涉及一种基于AI的面试语料分类方法。

背景技术

随着大数据和AI技术的迅速发展，在智能面试能力评估场景中，需要对面试者的回答的各个维度进行能力点评，因此每一个维度都需要训练一个文本分类模型，但是由于面试场景的语料不易获取，标注困难，因此在前期构建模型时通常会遇到缺乏语料的问题，当语料较少时，我们通常会在预先训练好的语言模型上用面试语料进行微调后来达到最终效果，其优点在于能够无监督地采用通用领域的语料训练模型，使得模型学到通用语言知识，解决了数据获取及对其标注都困难的问题。当模型学到通用语义，再用目标领域仅有的少量语料对模型进行微调，就可以得到目标领域中效果相对较好的模型，但是上述方式的缺点是语言模型通常参数数量很大，GPU/TPU内存难以支持其大量的数据运算，训练和推理速度都会变得很慢，难以在生产环境中部署并上线正常运行。

中国发明专利申请公开号CN108664893A公开了一种人脸检测方法，提供了一种轻量级模型，用于解决现有技术中复杂模型计算量大的技术问题，包括对轻量网络和复杂网络分别输入一批同样的训练图像，针对轻量网络和复杂网络的分类图的输出结果采用难样本挖掘法过滤；构造综合损失函数，基于损失函数更新轻量模型的参数，直到轻量网络训练至收敛，最后根据训练得到的模型进行预测降低计算量。但是该方法中提到的复杂网络模型训练，最后的效果评估只是对模型中其中两个网络的分类结果进行了比较，使得预测的准确度无法得到保证，无法适用比较复杂的语义预测。

发明内容

基于此，有必要针对上述技术问题，本申请提供一种基于AI的面试语料分类方法、装置、计算机设备及存储介质，以解决现有技术中轻量网络的预测准确度低、计算量大的技术问题。

一种基于AI的面试语料分类方法，所述方法包括：

获取面试场景下的面试者的面试语料,并对所述面试语料进行去噪处理，得到专用语料；

将所述专用语料输入预先训练的轻量模型中，其中，所述轻量模型包括编码层、transformer层以及预测层，所述轻量模型是对降维后的GPT模型训练得到的；

通过所述编码层向量化处理所述专用语料，得到所述专用语料的语料输出矩阵；

通过不同所述transformer层的权重矩阵为所述语料输出矩阵中的关键词生成权重系数，并将每一所述transformer层按照所述权重系数输出的语料矩阵结果相加，得到所述专用语料的注意力矩阵；

在所述预测层中根据所述注意力矩阵得到的所述专用语料的各个维度特征的能力评分，得到对所述面试语料的语料分类结果，输出所述分类结果。

一种基于AI的面试语料分类装置，所述装置包括：

语料预处理模块，用于获取面试场景下的面试者的面试语料,并对所述面试语料进行去噪处理，得到专用语料；

数据输入模块，用于将所述专用语料输入预先训练的轻量模型中，其中，所述轻量模型包括编码层、transformer层以及预测层，所述轻量模型是对降维后的GPT模型训练得到的；

编码处理模块，用于通过所述编码层向量化处理所述专用语料，得到所述专用语料的语料输出矩阵；

特征提取模块，用于通过不同所述transformer层的权重矩阵为所述语料输出矩阵中的关键词生成权重系数，并将每一所述transformer层按照所述权重系数输出的语料矩阵结果相加，得到所述专用语料的注意力矩阵；

面试分类模块，用于在所述预测层中根据所述注意力矩阵得到的所述专用语料的各个维度特征的能力评分，得到对所述面试语料的语料分类结果，所述分类结果。

一种计算机设备，包括存储器和处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于AI的面试语料分类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于AI的面试语料分类方法的步骤。

上述基于AI的面试语料分类方法、装置、计算机设备和存储介质，通过根据以GPT模型为基础训练得到的轻量模型对充分考虑与预测结果相关的面试场景下面试者的语料的若干语料特征，对面试者进行分类。通过轻量模型对面试者进行分类，因为轻量模型是基于GPT模型得到的，这样可以保证轻量级模型输出结果的准确性，以及与GPT模型的输出结果的一致性得到保证，解决了现有技术中用轻量网络进行面试者分类得到的分类结果准确率低的技术问题。而且，通过对降维后的GPT模型训练得到的轻量模型，使得通过轻量模型处理的面试语料的维度特征大大降低，不仅大大减少了运算量，相比于只在预测层进行轻量化的模型，本申请可以支持配置更低的机器，提高了轻量模型应用的普适度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于AI的面试语料分类方法的应用环境示意图；

图2为基于AI的面试语料分类方法的流程示意图；

图3为另一实施例的流程示意图；

图4为图3中步骤306的流程示意图；

图5为基于AI的面试语料分类装置的示意图；

图6为一个实施例中计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于AI的面试语料分类方法，可以应用于如图1所示的应用环境中。其中，该应用环境可以包括终端102、网络以及服务端104，网络用于在终端102和服务端 104之间提供通信链路介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端102通过网络与服务端104交互，以接收或发送消息等。终端102上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端102可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务端104可以是提供各种服务的服务器，例如对终端 102上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于AI的面试语料分类方法一般由服务端/终端执行，相应地，基于AI的面试语料分类装置一般设置于服务端/终端设备中。

在实现时，服务端104可以从终端102上获取每个面试者的问答资料作为专用语料，输入到训练好的轻量模型中，轻量模型会对专用语料进行处理后得到对该面试者的评级结果作为分类结果输出。

在一个实施例中，如图2所示，提供了一种基于AI的面试语料分类方法，以该方法应用于图1中的服务端为例进行说明，包括以下步骤：

步骤202，获取面试场景下的面试者的面试语料,并对面试语料进行去噪处理，得到专用语料；

步骤204，将专用语料输入预先训练的轻量模型中，其中，轻量模型包括编码层、transformer层以及预测层，轻量模型是对降维后的GPT模型训练得到的；

步骤206，通过编码层向量化处理专用语料，得到专用语料的语料输出矩阵；

步骤208，通过不同transformer层的权重矩阵为语料输出矩阵中的关键词生成权重系数，并将每一transformer层按照权重系数输出的语料矩阵结果相加，得到专用语料的注意力矩阵；

步骤210，在预测层中根据注意力矩阵得到的专用语料的各个维度特征的能力评分，得到对面试语料的语料分类结果，输出分类结果。

上述面试语料，可以是面试官与面试者之间的问答谈话，比如：

面试官：“我们公司要开发一种新产品，主打人机的在情感方面的交流，请问你们有什么看法和意见吗？”

候选人A：“当然可以啊！这个产品一定会有不错的效果！”

候选人B：“我希望投入使用，因为它可以让人类在某些情况下找到情感出口。但是我们要考虑情感分析的可行性和开发成本，要保证产品的高质量才能保证用户体验，如果技术足够成熟，那么就可以投入生产。”

去噪是指对面试语料进行预处理，比如去除面试语料中与面试内容不相干的词语、符号等等；例如，在对候选人进行评级时，是不需要面试语料中的问号、句号以及感叹号等特殊字符，但是要保留面试语料中的字母和数字。在对这些特殊字符进行处理时，使用正则表达式可以实现该目的。例如，用正则匹配小写’a’到’z’以及大写’A’到’Z’以及数字’0’到’9’的范围之外的所有字符并用空格代替。该方式无需指定所有标点符号。当然，也可以采用其他正则表达式。可以降低需要编码化的文本数量，降低服务端的数据处理量。

进一步地，不仅可以对面试语料进行去噪处理，还可以根据需要对面试语料进行适当的语料整理，例如：

当面试官与面试者之间使用英文交谈，一般输入到终端里的内容所有句子的第一个单字的首字母是大写，有的单词也全部都是大写，这样更易于人类理解所要表达的意思，但是从计算机的角度来说没有办法区分‘car’、‘CAR’与‘Car’是否是一个意思，因此服务端会将所有字母都转换为小写或者大写，每个词用唯一一个词来表示。对有意义的单词进行统一处理，提高计算机语义理解的精度和对面试者分类的精度。

将经过去噪处理后的面试语料作为专用语料进行向量化处理，得到输出矩阵。

轻量模型是一个语言模型，是通过去除GPT模型中的冗余部分得到的，但是在得到轻量模型后需要对轻量模型中的参数进行调整，使得该轻量模型能够实现特定的功能，其中，轻量模型包括编码层、transformer层以及预测层，其中，transformer层的数量有p1个，且小于GPT模型中transformer层的数量。GPT模型是一种参数量巨大的语言模型，提出一种半监督的方式来处理语言理解的任务。GPT模型使用非监督的预训练和监督方式的微调。GPT 模型的目标是学习一个通用的语言表示，可以经过很小的调整就应用在各种任务中。GPT模型的设置不需要目标任务和非标注的数据集在同一个领域。

语料输出矩阵是将专用语料输入轻量模型后，轻量模型的编码层输出的矩阵。轻量模型的编码层包括权重矩阵w1，其维度为n*k1，k1表示轻量模型的网络宽度，n是指得到的矩阵的行数，k1网络宽度即得到的矩阵的列数。其中，网络宽度是指需要从专用语料中提取出的特征的类型。

例如，面试官在面试时，只需要获取面试者的部分信息：表达能力、专业能力，至于面试者是否具有八块腹肌、家庭人口数量等类特征相对来说比较冗余。

Transformer层的数量有p1层，而相应的，GPT模型的transformer层的数量为P2层，且p1<<p2，p1和p2分别代表轻量模型与GPT模型的transformer层的网络深度。网络深度是指轻量模型对面试语料中不同特征对应的关键词的关注程度。GPT模型的transformer层主要由多层自注意力机制构成，轻量模型的transformer层也是由多头自注意力机制构成，只是轻量模型中，transformer层的层数远远低于GPT模型的。其中，不同transformer层关注的侧重点不同，比如第一层所关注的可以是候选人的性格，比如：活泼、开朗、内向等等有关性格特征相关的词汇或语句，而第二层关注的是候选人的表达能力，比如：该产品具备易推广的特点、该产品的A类特征是广受用户喜爱等等。

在transformer层通过对编码层得到的输出矩阵进行处理，得到对训练数据中的关键字词放大以后的矩阵，比如“我认为该产品上市以后面临风险，需要我们再市场分析以后解决这个问题”，那么其中一层transformer层的多头自注意力机制就会用来放大产品上市以后的情况，即“风险”这个词，那么我们会在权重矩阵b1中给“风险”一词更大的权重，其他词更小的权重。如果第一transformer层的权重矩阵为b11，第二层为b12，第p1层为b1i，其中，i为正整数。

用权重矩阵b11与编码层的输出矩阵(假如为E1)相乘，得到输出结果T1，以此类推，权重矩阵b12给予“市场分析”较大的权重，其他字词很小的权重，得到T2＝b12*E1，最后将T1，T2，…,Ti按照给定的权重相加，得到最后的注意力矩阵，其中，给定的权重由经验决定，即看面试官更加看重哪方面的关键词。

进一步地，将得到的注意力矩阵与预测层的权重矩阵t1进行点乘，得到专用语料中各个维度特征所对应的能力评分，最后综合这些能力评分，对不同面试者的综合评分进行排序后，将最高得分对应的面试者作为候选对象，得到对面试者的分类结果，其中，分类结果的类型一般包括合格、不合格，合格是根据目前该面试者的面试语料进行分析后综合评分较高，满足要求的分类结果；不合格是达不到规定要求的分类结果。

上述基于AI的面试语料分类方法中，通过根据GPT模型训练得到的轻量模型对面试场景的专用语料的面试者进行评级分类，因为是基于GPT模型，对GPT模型降维后训练得到的轻量模型，在保证适应复杂多变的语句的前提下，还能够保证降低轻量模型的计算量，提高分类结果的计算效率，并且保证分类精度。

在一实施例中，在得到对面试语料的语料分类结果之后，将语料分类结果存储至区块链网络节点中，通过区块链存储，实现数据信息在不同平台之间的共享，也可防止数据被篡改。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性 (防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

在一个实施例中，如图3所示，在步骤204之前，还包括，

步骤302，获取语料训练数据；

步骤304，随机设置待训练轻量模型的参数，其中，参数包括轻量模型的编码层的权重矩阵w1的矩阵参数、transformer层的权重矩阵b1的矩阵参数以及预测层的权重矩阵t1的矩阵参数，待训练轻量模型是对预先训练好的GPT模型降维得到的模型，包括编码层、transformer层以及预测层，待训练轻量模型包括p1层的transformer层，GPT模型包括p2层的transformer层，且1≤p1＜＜p2，p1为整数；

步骤306，将语料训练数据输入待训练轻量模型中，得到编码层、transformer层以及预测层的输出结果；并

步骤308，计算输出结果相对于GPT模型的输出结果的损失函数；

步骤310，基于梯度下降法计算损失函数的数值，根据数值调整待训练轻量模型的参数得到轻量模型。

语料训练数据，包括通用语料与面试场景专用语料。通用语料可以是随意一篇文章、一段新闻，例如：

“苹果是一种低热量的食物，每100克产生大约60千卡左右的热量。苹果中营养成分可溶性大，容易被人体吸收，故有“活水”之称。它有利于溶解硫元素，使皮肤润滑柔嫩。”

其中，采用通用语料训练轻量模型后，轻量模型就可以理解通用语义。

面试场景的专用语料，是面试官和面试者之间的问答谈话，比如：

面试官问：“我们公司要开发一种新产品，主打人机的在情感方面的交流，请问你们有什么看法和意见吗？”

面试者A：“当然可以啊！这个产品一定会有不错的效果！”。

面试者B：“我希望投入使用，因为它可以让人类在某些情况下找到情感出口。但是我们要考虑情感分析的可行性和开发成本，要保证产品的高质量才能保证用户体验，如果技术足够成熟，那么就可以投入生产。”

在以上语料中，候选人B的回答比候选人A的回答更全面，所以如果候选人A的回答对应分数是60分的话，候选人B可以有85分。

训练数据中的专用语料不仅包括用户的回答内容，还包括不同内容对应的候选人的评级分类。

待训练轻量模型，是通过去除GPT模型中的冗余部分得到的，即所谓的对GPT模型进行降维，但是在得到轻量模型后需要对轻量模型中的参数进行调整，完成训练模型得到最终的轻快模型的目的，使得该轻量模型在训练后能够实现制定业务的功能，其中，轻量模型也包括编码层、transformer层以及预测层，其中，transformer层的数量有p1个。

待训练轻量模型的参数，对GPT模型进行降维处理得到的轻量模型的初始的参数一般为空，所以在对轻量模型进行参数调整之前需要对其进行参数设置。

具体地，一般根据经验设置轻量模型的初始的参数，可以是随机设置，例如将所有带训练轻量模型的参数都设置为0，或者0与1交替设置。

具体地，去除GPT模型的冗余部分是指：

因为GPT模型也包括编码层、transformer层以及预测层，其中，GPT模型的transformer 层的数量为p2，且p2>>p1；GPT模型的权重矩阵w2的维度上为n*k2，k2为GPT模型的网络宽度。根据对面试者进行分类所需要的提取的特征把GPT模型编码层的权重矩阵w2削减为 w1。w1和w2是需要进行模型训练得到的参数，所以权重矩阵的维度越大，模型的计算开销就越大，这里用w1代替w2之后，模型的计算开销就可以大大降低了。对于预测层，预测层的权重矩阵由GPT模型的t2(维度为n*k2)变为t1(维度为n*k1)。

具体地，本实施例中，在编码层需要从训练数据中提取的特征的数量，并对这些提取到的特征数据进行向量化处理。比如面试官在面试时只需要知道候选人的部分信息：表达能力、专业技能、团队协作能力等等，但是候选人有几块腹肌，候选人的妈妈的年龄等等这种信息就比较多余，这就是降维在本实施例中的应用。

而在Transformer层，对于专业技能这一特征，需要注意面试者在某专业领域的一些专业词汇。例如，若是在计算机领域的“代码耦合”问题下，需要注意面试语料中出现的“互连程度”、“块间联系”、“度量”、“联系紧密”、“耦合强”等关键字词，增加这些字词的权重；而对于“我认为”、“我理解”、“还有”等与“代码耦合”相关度低的词语就比较多余，需要降低这些字词的权重。

本实施例通过此方式就可以得到相对于GPT模型更加精简的轻量模型，减少输出矩阵的输出维度，降低服务端的数据处理量，提高分析效率。

在一个实施例中，如图4所示，步骤306，包括：

步骤402，基于权重矩阵w1对语料训练数据进行向量化处理，得到输出矩阵。

步骤404，基于权重矩阵b1对输出矩阵中的关键字词进行放大操作，得到注意力矩阵。

步骤406，点乘权重矩阵t1和注意力矩阵确定语料训练数据中面试专用语料的分类结果。

步骤408，将输出矩阵、注意力矩阵以及分类结果作为待训练轻量模型的输出结果。

具体地，可以通过one-hot算法对预料训练数据进行向量化处理，得到向量化矩阵，再点乘向量化矩阵与权重矩阵w1，得到编码层的输出矩阵。

在编码层通过一个固定长度的向量表示预料训练数据中制定的字词，向量的长度可以自行设定，只要远小于字典长度即可。以“我、爱、中、国”为例：

“我、爱、中国”的one-hot编码表示如下：

我 100

爱 010

中国 001

这个矩阵只是给每个字词编了号，但是无法体现出字词之间的关系，所以本实施例引入一个权重矩阵

可以将这句话映射成一个2*3的矩阵：

我	w<sub>11</sub>	w<sub>12</sub>
			爱	w<sub>21</sub>	w<sub>22</sub>
中国	w<sub>31</sub>	w<sub>32</sub>

这样既可以降低句子矩阵的维度，也可以体现字词之间的相关性，通过映射，每个字词都会转换成一个向量，而两个向量之间的夹角越小，那么对应的字词之间的相关性就越大。

将预料训练数据编码后与权重矩阵w1进点乘，得到编码层的输出矩阵。

得到输出矩阵后，在transformer层上对预料训练数据中的关键字词进行放大处理，得到注意力矩阵。自注意力机制会标记与每一面试问题相关性较高的词语或句子作为关键字，比如“我认为该产品上市以后会面临着风险，需要在市场分析后解决这个问题”，那么其中一层自注意力机制就会标记与产品上市后可能情况的关键字词，比如“风险”、“危险”、“推广”等词语作为关键词，再放大产品上市以后的情况，即“风险”一词，那么就可以在权重矩阵 b1中给“风险”一词赋予更大的权重，其他的字词更小的权重，然后用权重矩阵b11与编码层的输出结果相称得到T1，类似的，另外一层transformer层的权重矩阵b12赋予“市场分析”更大的权重，其他字词更小的权重，得到T2，……，最后将得到T1、T2，……，Th按照给定的权重相加，得到最后的注意力矩阵，这个权重由经验决定，即面试官更看重候选人哪方面的能力确定。最后在预测层，基于权重矩阵t1、注意力矩阵确定语料训练数据中的面试专用语料的分类结果。

进一步地，计算基于待训练轻量模型得到的分类结果与基于GPT模型得到的语料训练数据中的面试专用语料的分类结果的损失函数，并根据损失函数调整待训练轻量模型的参数，重复计算面试专用语料的分类结果的过程，直到得到的损失函数的数值符合预设值，比如0.01 时，结束训练，将最后一次参数调整后得到的待训练轻量模型作为训练好的轻量模型。

本实施例通过基于GPT模型得到的待训练轻量模型对语料训练数据进行编码处理，按照不同的权重对语料训练数据中的面试专用语料的关键字词进行放大处理，最后得到该面试专用语料的评分结果，大大降低了服务端的数据计算量，提高了面试专用语料的分类效率。

在一个实施例中，步骤308，包括：

待训练轻量模型的编码层的输出结果相对于GPT模型编码层输出结果的损失函数为：

loss(编码层)＝MSE(轻量模型编码层输出矩阵*we，GPT编码层输出矩阵)，其中we为一个k1*k2的矩阵，we是用于保证轻量模型的输出与GPT的输出维度一致，其中MSE是均方误差，是根据所述待训练轻量模型的输出结果的维度和所述GPT输出结果的维度确定的。

假设轻量模型的编码层的输出矩阵o2,形状为n*k1,GPT编码层的输出矩阵o1,它的形状为n*k2,由于k1不等于k2,所以o1和o2输出维度不一致，无法进行MSE损失函数的计算，因此需要把o2和we进行矩阵相乘，we的形状为k2*k1，o1和we矩阵相乘后就得到矩阵n*k2, 与o1的维度一致了。

Transformer层的损失函数为：

loss(transformer层)＝sum(MSE(轻量模型transformer层输出的注意力矩阵b1i*we， GPT模型的transformer层输出的注意力矩阵b2i))/h(i＝1，2,3，……，h),其中，h代表每一个transformer层中有h头自注意力机制。在进行对比时，需要引入we矩阵，保证两个模型的输出矩阵的维度一致。

同理，将轻量模型的分类结果与GPT的分类结果进行对比，得到损失函数：

loss(预测层)＝MSE(轻量模型预测层输出*we，GPT预测层输出)，其中we为一个k1*k2 的矩阵。

每调整一次参数后得到输出结果后都计算一次损失函数，待训练轻量模型相对于GPT模型的损失函数即为：

根据公式LOSS＝MSE(待训练轻量模型的输出结果*we，GPT模型的输出结果)计算待训练轻量模型相对于GPT模型的损失函数，其中，we是用于保证待训练轻量模型的输出结果的维度与GPT模型的输出结果的维度一致的调和矩阵。可以使轻量级模型输出结果的准确性与GPT模型的输出结果的准确性一致性得到保证。

将待训练轻量模型编码层、transformer层以及预测层的输出结果分别与GPT模型的输出结果进行对比分析，以均方误差作为两个模型的损失函数：

LOSS＝MSE(待训练轻量模型的输出结果*we，GPT模型的输出结果)

其中，损失函数不仅仅可以是均方误差，还可以是欧氏距离、曼哈顿距离等，用于计算两个向量矩阵之间的相似度，判断两个模型的输出结果是否相似。

进一步地，调整参数迭代训练待训练轻量模型具体为：

利用梯度下降法调整待训练轻量模型的参数。具体地，计算损失函数的导数，作为损失函数的数值，并根据数值的正负对待训练轻量模型进行参数调整，并判断参数调整前后损失函数的数值之间的差值是否符合预设值；若差值大于预设值，则根据参数调整后的损失函数的数值的正负重复参数调整操作，直到参数调整前后差值不大于预设值，并将最后一次参数调整后得到的待训练轻量模型作为轻量模型。

其中，数值是指损失函数导数的数值，若该数值为负数则将参数调大，为正数则调小。调整的参数的包括轻量模型的三个层的权重矩阵。一般是对编码层、transformer层、预测层三层的参数依次进行调整。当导数为0时说明是损失函数最佳，则不需再调整参数，可以直接结束轻量模型的训练。获取参数调整后轻量模型的损失函数的数值，并计算参数调整前后损失函数的数值的差值是否符合预设值；预设值可以是0.01，将该差值与预设值进行大小对比。可以得到该差值大于0.01或者小于等于0.01的对比结果。当得到大于等于0小于0.01 的结果，则说明可以结束参数调整了。

具体地，损失函数的差值不符合编码层预设值，可能轻量模型编码层的参数不准确，所以得到的输出结果与GPT模型的输出结果有一定的差距，即不准确；那么则通过梯度下降法对参数进行调整，并重新将训练数据输入调整参数后的轻量模型中，继续计算损失函数，直到损失函数的差值符合预设值后，则停止迭代，并将最后一次参数调整后得到轻量模型作为轻量模型。

其中，若损失函数的差值符合预设值，则说明该轻量模型已经与GPT模型具有几乎等同的预测效果，我们设定的初始参数就是所需要的参数，则可以将该轻量模型直接作为目标轻量模型。

其中，在进行参数调整时，若只调整编码层的参数，因为得到的输出矩阵发生变化，虽然没有调整transformer层的参数，但是因为注意力矩阵是根据变化后的输出矩阵得到的，所以transformer层的损失函数也会相应发生改变，预测层也是一样，都会向更准确的方向去。可是参数的调整有极限，所以一般调整所有的权重矩阵的矩阵参数。

本实施例通过根据GPT模型训练得来的轻量模型对面试场景的专用语料的候选人进行评级分类，不仅评级的准确率与GPT模型相比毫不逊色，且因为是对语言模型GPT进行降维处理得到待训练的轻量模型，使得服务端的计算量大大降低。而训练时，根据训练数据得到待训练轻量模型每一层的输出结果，并获取每一层输出结果相对于GPT模型的对应的层的输出结果的损失函数，再对轻量模型的参数进行调整，根据调整前后损失函数的差值判断是否需要迭代，若符合差值符合预设值则将最后一次参数调整后得到的损失函数作为目标轻量模型。通过对轻量模型每一层的都计算损失函数，这样可以保证轻量级模型输出结果的准确性，以及与GPT模型的输出结果的一致性得到保证；而且通过降低GPT模型的网络宽度和网络深度得到的轻量模型，不仅大大较少了运算量，因为这个轻量模型在各个环节都进行了轻量化，相比与只在预测环节进行轻量化的模型，该模型可以支持配置更低的机器，而且还保证了输出结果的合理性。

应该理解的是，虽然图2-图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于AI的面试语料分类装置，该基于AI的面试语料分类装置与上述实施例中基于AI的面试语料分类方法一一对应。该基于AI的面试语料分类装置包括：

语料预处理模块502，用于获取面试场景下的面试者的面试语料,并对面试语料进行去噪处理，得到专用语料；

数据输入模块504，用于将专用语料输入预先训练的轻量模型中，其中，轻量模型包括编码层、transformer层以及预测层，轻量模型是对降维后的GPT模型训练得到的；

编码处理模块506，用于通过编码层向量化处理专用语料，得到专用语料的语料输出矩阵；

特征提取模块508，用于通过不同transformer层的权重矩阵为语料输出矩阵中的关键词生成权重系数，并将每一transformer层按照权重系数输出的语料矩阵结果相加，得到专用语料的注意力矩阵；

面试分类模块510，用于在预测层中根据注意力矩阵得到的专用语料的各个维度特征的能力评分，得到对面试语料的语料分类结果，输出分类结果。

进一步地，该基于AI的面试语料分类装置，还包括：

样本获取模块，用于获取语料训练数据；

初始化模块，用于随机设置待训练轻量模型的参数，其中，参数包括轻量模型的编码层的权重矩阵w1的矩阵参数、transformer层的权重矩阵b1的矩阵参数以及预测层的权重矩阵t1的矩阵参数，待训练轻量模型是对预先训练好的GPT模型降维得到的模型，包括编码层、 transformer层以及预测层，待训练轻量模型包括p1层的transformer层，GPT模型包括p2 层的transformer层，且1≤p1＜＜p2，p1为整数；

样本输入模块，用于将语料训练数据输入待训练轻量模型中，得到编码层、transformer 层以及预测层的输出结果；并

损失计算模块，用于计算输出结果相对于GPT模型的输出结果的损失函数；

参数调整模块，用于基于梯度下降法计算损失函数的数值，根据数值调整待训练轻量模型的参数得到轻量模型。

进一步地，样本输入模块，包括：

输出矩阵子模块，用于基于权重矩阵w1对语料训练数据进行向量化处理，得到输出矩阵；

注意力矩阵子模块，用于基于权重矩阵b1对输出矩阵中的关键字词进行放大操作，得到注意力矩阵；

分类子模块，用于点乘权重矩阵t1和注意力矩阵确定语料训练数据中面试专用语料的分类结果；并

输出结果子模块，用于将输出矩阵、注意力矩阵以及分类结果作为待训练轻量模型的输出结果。

进一步地，输出矩阵子模块，包括：

编码单元，用于通过one-hot算法对语料训练数据进行向量化处理，得到向量化矩阵；

编码输出单元，用于点乘向量化矩阵与权重矩阵w1，得到编码层的输出矩阵。

进一步地，损失计算模块，包括：

差值计算子模块，用于计算损失函数的导数，作为损失函数的数值，并根据数值的正负对待训练轻量模型进行参数调整，并判断参数调整前后损失函数的数值之间的差值是否符合预设值；

模型确定子模块，用于若差值大于预设值，则根据参数调整后的损失函数的数值的正负重复参数调整操作，直到参数调整前后差值不大于预设值，并将最后一次参数调整后得到的待训练轻量模型作为轻量模型。

上述基于AI的面试语料分类装置，通过根据GPT模型训练得来的轻量模型对面试场景的专用语料的候选人进行评级分类，不仅评级的准确率与GPT模型相比毫不逊色，且因为是对语言模型GPT进行降维处理得到待训练的轻量模型，使得服务端的计算量大大降低。而训练时，根据训练数据得到待训练轻量模型每一层的输出结果，并获取每一层输出结果相对于GPT 模型的对应的层的输出结果的损失函数，再对轻量模型的参数进行调整，根据调整前后损失函数的差值判断是否需要迭代，若符合差值符合预设值则将最后一次参数调整后得到的损失函数作为目标轻量模型。通过对轻量模型每一层的都计算损失函数，这样可以保证轻量级模型输出结果的准确性，以及与GPT模型的输出结果的一致性得到保证；而且通过降低GPT模型的网络宽度和网络深度得到的轻量模型，不仅大大较少了运算量，因为这个轻量模型在各个环节都进行了轻量化，相比与只在预测环节进行轻量化的模型，该模型可以支持配置更低的机器，而且还保证了输出结果的合理性。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户订单数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于AI的面试语料分类方法。通过根据GPT 模型训练得来的轻量模型对面试场景的专用语料的候选人进行评级分类，不仅评级的准确率与GPT模型相比毫不逊色，且因为是对语言模型GPT进行降维处理得到待训练的轻量模型，使得服务端的计算量大大降低。而训练时，根据训练数据得到待训练轻量模型每一层的输出结果，并获取每一层输出结果相对于GPT模型的对应的层的输出结果的损失函数，再对轻量模型的参数进行调整，根据调整前后损失函数的差值判断是否需要迭代，若符合差值符合预设值则将最后一次参数调整后得到的损失函数作为目标轻量模型。通过对轻量模型每一层的都计算损失函数，这样可以保证轻量级模型输出结果的准确性，以及与GPT模型的输出结果的一致性得到保证；而且通过降低GPT模型的网络宽度和网络深度得到的轻量模型，不仅大大较少了运算量，因为这个轻量模型在各个环节都进行了轻量化，相比与只在预测环节进行轻量化的模型，该模型可以支持配置更低的机器，而且还保证了输出结果的合理性。

其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－ Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于AI描述场景的面试者分方法的步骤，例如图2所示的步骤202至步骤210，或者，处理器执行计算机程序时实现上述实施例中基于AI描述场景的面试者分装置的各模块/单元的功能，例如图5所示模块502至模块510的功能。为避免重复，此处不再赘述。通过根据GPT模型训练得来的轻量模型对面试场景的专用语料的候选人进行评级分类，不仅评级的准确率与GPT模型相比毫不逊色，且因为是对语言模型GPT进行降维处理得到待训练的轻量模型，使得服务端的计算量大大降低。而训练时，根据训练数据得到待训练轻量模型每一层的输出结果，并获取每一层输出结果相对于GPT模型的对应的层的输出结果的损失函数，再对轻量模型的参数进行调整，根据调整前后损失函数的差值判断是否需要迭代，若符合差值符合预设值则将最后一次参数调整后得到的损失函数作为目标轻量模型。通过对轻量模型每一层的都计算损失函数，这样可以保证轻量级模型输出结果的准确性，以及与GPT模型的输出结果的一致性得到保证；而且通过降低GPT模型的网络宽度和网络深度得到的轻量模型，不仅大大较少了运算量，因为这个轻量模型在各个环节都进行了轻量化，相比与只在预测环节进行轻量化的模型，该模型可以支持配置更低的机器，而且还保证了输出结果的合理性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态 RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型 SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形、改进或者对部分技术特征进行等同替换，而这些修改或者替换，并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴，都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于AI的面试语料分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述专用语料输入预先训练的轻量模型中之前，还包括：

获取语料训练数据；

随机设置待训练轻量模型的参数，其中，所述参数包括所述轻量模型的编码层的权重矩阵w1的矩阵参数、transformer层的权重矩阵b1的矩阵参数以及预测层的权重矩阵t1的矩阵参数，所述待训练轻量模型是对预先训练好的GPT模型降维得到的模型，包括编码层、transformer层以及预测层，所述待训练轻量模型包括p1层的transformer层，所述GPT模型包括p2层的transformer层，且1≤p1＜＜p2，p1为整数；

将所述语料训练数据输入所述待训练轻量模型中，得到所述编码层、所述transformer层以及所述预测层的输出结果；并

计算所述输出结果相对于所述GPT模型的输出结果的损失函数；

基于所述梯度下降法计算所述损失函数的数值，并根据所述数值调整所述待训练轻量模型的参数得到所述轻量模型。

3.根据权利要求2所述的方法，其特征在于，所述语料训练数据包括通用语料与面试专用语料，所述将所述语料训练数据输入所述待训练轻量模型中，得到所述编码层、所述transformer层以及所述预测层的输出结果，包括：

基于所述权重矩阵w1对所述语料训练数据进行向量化处理，得到输出矩阵；

基于所述权重矩阵b1对所述输出矩阵中的关键字词进行放大操作，得到注意力矩阵；

点乘权重矩阵t1和所述注意力矩阵确定所述语料训练数据中所述面试专用语料的分类结果；并

将所述输出矩阵、所述注意力矩阵以及所述分类结果作为所述待训练轻量模型的输出结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述权重矩阵w1对所述语料训练数据进行向量化处理，得到编码后的输出矩阵，包括：

通过one-hot算法对所述语料训练数据进行向量化处理，得到向量化矩阵；

点乘所述向量化矩阵与所述权重矩阵w1，得到所述编码层的所述输出矩阵。

5.根据权利要求2-4任一项所述的方法，其特征在于，所述计算所述输出结果相对于所述GPT模型的输出结果的损失函数，包括：

根据公式LOSS＝MSE(待训练轻量模型的输出结果*we，GPT模型的输出结果)计算所述待训练轻量模型相对于所述GPT模型的损失函数，其中，we是调和矩阵，是根据所述待训练轻量模型的输出结果的维度和所述GPT输出结果的维度确定的。

6.根据权利要求2所述的方法，其特征在于，所述基于所述梯度下降法计算所述损失函数的数值，并根据所述数值调整所述待训练轻量模型的参数得到所述轻量模型，包括：

计算所述损失函数的导数，作为所述损失函数的数值，并根据所述数值的正负对所述待训练轻量模型进行参数调整，并判断参数调整前后所述损失函数的数值之间的差值是否符合预设值；

若所述差值大于所述预设值，则根据参数调整后的损失函数的数值的正负重复参数调整操作，直到参数调整前后所述差值不大于所述预设值，并将最后一次参数调整后得到的待训练轻量模型作为轻量模型。

7.根据权利要求1所述的方法，其特征在于，在所述得到对所述面试语料的语料分类结果之后，还包括：

将所述语料分类结果存储至区块链网络节点中。

8.一种基于AI的面试语料分类装置，其特征在于，包括：

面试分类模块，用于在所述预测层中根据所述注意力矩阵得到的所述专用语料的各个维度特征的能力评分，得到对所述面试语料的语料分类结果，输出所述分类结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。