CN111695338A

CN111695338A - 基于人工智能的面试内容精炼方法、装置、设备及介质

Info

Publication number: CN111695338A
Application number: CN202010356767.3A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-22
Also published as: WO2021218028A1

Abstract

本发明公开了一种基于人工智能的面试内容精炼方法、装置、设备及介质，该方法包括：获取面试录音，并将面试录音转化为自我介绍文本和面试应答文本，对自我介绍文本进行文本解析，得到面试者基本信息，对面试应答文本进行语句分类，得到分类文本，通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼抽取语句，得到面试精炼语料，实现从数据量较大的面试记录内容中，准确提炼核心内容，提高内容提炼的准确性，有利于提高智能面试评估的准确性，将面试者基本信息和面试精炼语料存储至区块链中，同时发送给管理端进行评估，避免直接进行语义识别导致评估结果达不到要求，有利于提高智能面试结果评估的准确性和效率。

Description

基于人工智能的面试内容精炼方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人工智能的面试内容精炼方法、装置、设备及介质。

背景技术

在大型企业招聘热季，往往有众多面试者参与面试，目前大多数用人单位与面试者是通过现场或者视频会议的方式进行面试。用人单位往往在面试后，结合面试者的面试应答情况，对面试者进行评估。通常的人工面试至少存入如下问题：(1)不同面试官，进行提问的角度偏好，同一面试官，由于不同的职场经验、面试技能和情绪状态，也会有不同的判断；(2)高额的人力成本和面试时间成本，鉴于此，一些企业采用基于人工智能的面试机器人进行面试，并将得到的面试内容提供给决策者进行结果评估，这有利于提高面试的公平性，但同时也导致一个新的问题，在面试者较多时，得到的面试内容也将较多，这也增大了决策评估的时间成本，导致智能面试的效率不高。

现有的解决方案主要是通过对面试内容进行关键字匹配，得到重点语句，或者，使用自然语言处理(Natural Language Processing，NLP)模型进行语义识别，采用关键字匹配的方式时，由于不同面试者在应答过程，回答问题的方式可能不同，可能存在匹配不到预设关键字的情况，导致最终面试估计准确率低，而采用通用自然语言处理模型进行语义识别时，语义识别准确率也往往达不到要求。

发明内容

本发明实施例提供一种基于人工智能的面试内容精炼方法、装置、和介质，以提高智能面试中对面试内容评估的准确率。

为了解决上述技术问题，本申请实施例提供一种基于人工智能的面试内容精炼方法，包括：

获取面试录音，并将所述面试录音转化为面试文本，其中，所述面试文本包括自我介绍文本和面试应答文本；

对所述自我介绍文本进行文本解析，得到面试者基本信息；

按照涉及的面试角度，对所述面试应答文本进行语句分类，得到分类文本；

通过语言抽取模型，从每类所述分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼所述抽取语句，得到面试精炼语料；

将所述面试者基本信息和所述面试精炼语料发送给管理端，以使所述管理端根据所述面试者基本信息和所述面试精炼语料确定面试结果。

可选地，所述将所述面试录音转化为面试文本包括：

识别所述面试录音中包含的问答开始标识；

采用语音转换文本的方式，对所述面试录音进行文本转换，并将所述问答开始标识前的录音内容转化得到的文本，作为自我介绍文本，将所述问答开始标识前的录音内容转化得到的文本，作为面试应答文本。

可选地，所述按照涉及的面试角度，对所述面试应答文本进行语句分类，得到分类文本包括：

将面试应答文本中的每个句子作为一个基础语句，并通过预设的分词方式，对所述基础语句进行分词处理，得到基础分词；

将所述基础分词转换为词向量，并通过聚类算法，对所述词向量进行聚类，得到所述基础语句对应的聚类中心；

针对每个基础语句，计算所述基础语句对应的聚类中心与每个预设面试角度对应的词向量的欧式距离，并将距离最小的预设面试角度，作为所述基础语句的目标分类，将所述基础语句，作为所述目标分类对应的分类文本。

可选地，所述通过预设的分词方式，对所述基础语句进行分词处理，得到基础分词包括：

采用条件随机场模型，对所述基础语句进行分词，得到初始分词；

从历史面试应答文本中，获取每个所述初始分词的词频；

基于所述初始分词的词频，生成所述初始分词的权重，将所述标注有权重的初始分词，作为所述基础分词。

可选地，所述语言抽取模型为双向长短期记忆网络模型，所述双向长短期记忆网络模型包括句子编码器和文档编码器，所述通过语言抽取模型，从每类所述分类文本中进行语句抽取，得到抽取语句包括：

通过所述句子编码器对所述分类文本中的文本，按照字符进行拆分，得到基础字符；

对基础字符进行编码，得到所述基础字符对应的编码内容；

将所述编码内容输入到初始化权重的字符编码层，通过所述字符编码层将每个编码映射成一个字符向量，将每个所述字符向量作为句子编码结果；

将句子编码结果在正向和逆向隐层输出拼接成隐层向量，并将所述隐层向量输入到所述文档编码器；

通过所述文档编码器对所述隐层向量进行加权，得到文档特征向量，并对所述文档特征向量进行解码，将解码得到的输出结果作为所述抽取语句。

可选地，所述通过所述文档编码器对所述隐层向量进行加权，得到文档特征向量包括：

采用如下公式，确定所述文档特征向量：

其中，C_i为第i个所述文档特征向量，j为嵌入编码的序号，n为嵌入编码的数量，b_ij为第i个所述文档特征向量针对第j个隐层向量的权重，h_j为第j个隐层向量，其中，所述嵌入编码基于所述双向长短期记忆网络模型的隐藏状态生成。

可选地，在所述采用Transformer模型精炼所述抽取语句，得到面试精炼语料之后，所述基于人工智能的面试内容精炼方法还包括：将所述面试者基本信息和所述面试精炼语料存储至区块链网络中。

为了解决上述技术问题，本申请实施例还提供一种基于人工智能的面试内容精炼装置，包括：

文本获取模块，用于获取面试录音，并将所述面试录音转化为面试文本，其中，所述面试文本包括自我介绍文本和面试应答文本；

文本解析模块，用于对所述自我介绍文本进行文本解析，得到面试者基本信息；

文本分类模块，用于按照涉及的面试角度，对所述面试应答文本进行语句分类，得到分类文本；

语料抽取模块，用于通过语言抽取模型，从每类所述分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼所述抽取语句，得到面试精炼语料；

信息发送模块，用于将所述面试者基本信息和所述面试精炼语料发送给管理端，以使所述管理端根据所述面试者基本信息和所述面试精炼语料确定面试结果。

可选地，所述文本获取模块包括：

标识识别单元，用于识别所述面试录音中包含的问答开始标识；

文本确定单元，用于采用语音转换文本的方式，对所述面试录音进行文本转换，并将所述问答开始标识前的录音内容转化得到的文本，作为自我介绍文本，将所述问答开始标识前的录音内容转化得到的文本，作为面试应答文本。

可选地，所述文本分类模块包括：

分词单元，用于将面试应答文本中的每个句子作为一个基础语句，并通过预设的分词方式，对所述基础语句进行分词处理，得到基础分词；

聚类单元，用于将所述基础分词转换为词向量，并通过聚类算法，对所述词向量进行聚类，得到所述基础语句对应的聚类中心；

分类单元，用于针对每个基础语句，计算所述基础语句对应的聚类中心与每个预设面试角度对应的词向量的欧式距离，并将距离最小的预设面试角度，作为所述基础语句的目标分类，将所述基础语句，作为所述目标分类对应的分类文本。

可选地，所述分词单元包括：

初始分词单元，用于采用条件随机场模型，对所述基础语句进行分词，得到初始分词；

词频获取子单元，用于从历史面试应答文本中，获取每个所述初始分词的词频；

分词加权单元，用于基于所述初始分词的词频，生成所述初始分词的权重，将所述标注有权重的初始分词，作为所述基础分词。

可选地，所述语料抽取模块包括：

拆分单元，用于通过所述句子编码器对所述分类文本中的文本，按照字符进行拆分，得到基础字符；

编码单元，用于对基础字符进行编码，得到所述基础字符对应的编码内容；

映射单元，用于将所述编码内容输入到初始化权重的字符编码层，通过所述字符编码层将每个编码映射成一个字符向量，将每个所述字符向量作为句子编码结果；

拼接单元，用于将句子编码结果在正向和逆向隐层输出拼接成隐层向量，并将所述隐层向量输入到所述文档编码器；

加权单元，用于通过所述文档编码器对所述隐层向量进行加权，得到文档特征向量，并对所述文档特征向量进行解码，将解码得到的输出结果作为所述抽取语句。

可选地，所述加权解码单元包括：

计算子单元，用于采用如下公式，确定所述文档特征向量：

可选地，所述基于人工智能的面试内容精炼装置还包括：

存储模块，用于将所述面试者基本信息和所述面试精炼语料存储至区块链网络中。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于人工智能的面试内容精炼方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于人工智能的面试内容精炼方法的步骤。

本发明实施例提供的基于人工智能的面试内容精炼方法、装置、设备及介质，通过获取面试录音，并将面试录音转化为面试文本，其中，面试文本包括自我介绍文本和面试应答文本，对自我介绍文本进行文本解析，得到面试者基本信息，按照涉及的面试角度，对面试应答文本进行语句分类，得到分类文本，通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼抽取语句，得到面试精炼语料，实现从数据量较大的面试记录内容中，准确提炼出核心内容，提高了内容提炼的准确性，有利于提高智能面试评估的准确性，最后将面试者基本信息和面试精炼语料发送给管理端，以使管理端根据面试者基本信息和面试精炼语料确定面试结果，避免直接进行语义识别导致的评估结果不准确，有利于提高智能面试结果评估的准确性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请的基于人工智能的面试内容精炼方法的一个实施例的流程图；

图3是根据本申请的基于人工智能的面试内容精炼装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于人工智能的面试内容精炼方法由服务器执行，相应地，基于人工智能的面试内容精炼装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2，图2示出本发明实施例提供的一种基于人工智能的面试内容精炼方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S201：获取面试录音，并将面试录音转化为面试文本，其中，面试文本包括自我介绍文本和面试应答文本。

具体地，在企业进行面试招聘过程中，众多面试者参与面试，由于面试的岗位有限，存在多个面试者面试同一岗位的情况，为避免混淆或者遗忘面试者的信息，本实施例在面试过程中，对众多面试者中的面试过程进行录音，在事后将录音内容转换为面试文本并进行后续处理，面试文本包括自我介绍文本和面试应答文本。

其中，自我介绍文本是指面试者进行自我介绍的语音转化得到的文本，应答文本是指在自我介绍完之后，面试官提问，面试者应答的文本。

需要解释的是，本实施例中所提及的面试官，具体可以是人，也可以是参与智能面试的问答机器人，此处不做具体限定。

应理解，一般的面试时间在30-40分钟，甚至更长的时间，所以面试者回答的内容加起来篇幅是比较大的，针对这个情况，本实施例以自我介绍为出发点，因为自我介绍部分的信息已经可以概括面试者的较大一部分的能力，而面试的其他环节，如技能考察和业务敏锐度的考察等可以作为参考，用于作为训练数据，来对面试者的自我介绍进行补充验证，得到一个更加全面的结果。

本实施例中，将面试录音转化为面试文本，具体可使用支持语音转换文本的工具，也可以使用语音转换文本算法，此处不作具体限制。将面试文本进行自我介绍文本和面试应答文本的划分的具体实现过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

S202：对自我介绍文本进行文本解析，得到面试者基本信息。

具体地，由于自我介绍文本中，一般包括个人基本资料、经历信息、擅长领域和技能、过往荣誉奖项和自我评价等类别，涉及的内容模块较为相似，为提高效率，本实施例采用基于正则表达的文本解析方式，对自我介绍文本进行解析，快速提取自我介绍文本中的内容，得到面试者基本信息。

其中，面试者的基本信息包括但不限于：姓名、户籍、毕业院校、专业、工作年限等个人固定信息，和获取过的荣誉、服务过的企业、从业经历和掌握的技能等个人职业信息等。

需要说明的是，由于自我介绍文本中包含的内容维度大致相似，因而，将待获取的面试者基本信息划分为多个维度，通过对每个维度设置至少一个正则表达式，来与自我介绍文本进行匹配解析，得到该维度对应的内容，作为该维度的解析内容。

其中，正则表达式(regular expression)描述了一种字符串匹配的模式(pattern)，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

例如，在一具体实施方式中，从姓名、户籍、毕业院校、专业、工作年限、从业经历和掌握的技能这七个维度去进行文本解析，其中，对于户籍这一维度，可以设置包含一些特定字符的关键字来进行匹配，例如，对包含“我是XXX人”、“我来自XXX”、“我是XXX人”、“我在XXX长大”等特定关键字组成的句式进行匹配。

S203：按照涉及的面试角度，对面试应答文本进行语句分类，得到分类文本。

具体地，通常在面试官提问的过程中，会围绕工作经历、擅长领域和技能等方面进行提问，在本实施例中，根据实际需要，对这些面试角度进行预先设定，在得到面试应答文本后，按照涉及的面试角度，对面试应答文本进行语句分类，得到分类文本，使得后续可以根据分类文本的类别，有针对性地进行重点语句的抽取精炼，有利于提高内容精炼的准确率。

其中，涉及的面试角度是指提问和应答的侧重点，例如薪酬要求、所获奖项、工作年限、专业技能等。

进一步地，本实施例中按照涉及的面试角度，对面试应答文本进行语义识别，并根据语义识别结果对语句分类，得到分类文本的具体实现过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

其中，根据语义识别结果对语句分类，具体可以是将识别结果进行聚类，得到聚类结果，并将聚类结果与每个面试角度对应的词向量进行欧式距离计算，进而将距离最近的面试角度，作为该聚类结果对应的面试角度。

S204：通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼抽取语句，得到面试精炼语料。

具体地，通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句，再采用Transformer模型精炼抽取语句，得到面试精炼语料。

其中，语言抽取模型包括但不限于：深度语义表征(Embedding from LanguageModel，ELMo)算法、OpenAI GPT和预训练双向编码器语义(Bidirectional EncoderRepresentations from Transformers，BERT)模型。

优选地，在本实施例中采用改进的OpenAI GPT模型作为语义抽取模型，具体进行语句抽取的实现过程，可参考后续实施例的描述，为避免重复，此处不再赘述。

需要说明的是，本实施例中得到的抽取语句，其具体表现形式也可以是通过向量的形式，以便后续快速输入到Transformer模型进行精炼抽取。

其中，Transformer模型通过注意力机制，能快速根据权重提取重要性较高的语句。

需要说明的是，本实施例Transformer模型在解码阶段，将生成的文档特征向量之和输入解码器，这个自回归的长短期时间网络会预测下一句需要抽取的句子，输出的结果会在下一句解码时连接到输入。本实施例Transformer模型使用的解码器与其他常用解码器最大的不同在于，在通过点积进行注意力获取的过程中，如果连续出现两次相同的索引，那么结束整个抽取过程，避免多次提取类似信息导致信息冗余。

应理解，本实施例中，步骤S203至步骤S204，与步骤S202之间，没有必然的逻辑先后顺序，其也可以是并行执行，此处不做限定。

S205：将面试者基本信息和面试精炼语料发送给管理端，以使管理端根据面试者基本信息和面试精炼语料确定面试结果。

具体地，将提取到的面试者基本信息和面试精炼语料发送给管理端，确保提取内容的准确性和精炼，使得后续管理端的用户根据该提取内容可以准确快速确定评估结果，有利于提高智能面试的准确率和效率。

在本实施例中，通过获取面试录音，并将面试录音转化为面试文本，其中，面试文本包括自我介绍文本和面试应答文本，对自我介绍文本进行文本解析，得到面试者基本信息，按照涉及的面试角度，对面试应答文本进行语句分类，得到分类文本，通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼抽取语句，得到面试精炼语料，实现从数据量较大的面试记录内容中，准确提炼出核心内容，提高了内容提炼的准确性，有利于提高智能面试评估的准确性，最后将面试者基本信息和面试精炼语料发送给管理端，以使管理端根据面试者基本信息和面试精炼语料确定面试结果，避免直接进行语义识别导致的评估结果不准确，有利于提高智能面试结果评估的准确性和效率。

在一实施例中，可将得到的面试者基本信息和面试精炼语料保存在区块链网络上，通过区块链存储，实现数据信息在不同平台之间的共享，也可防止数据被篡改。

其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

在本实施例的一些可选的实现方式中，步骤S201中，将面试录音转化为面试文本包括：

识别面试录音中包含的问答开始标识；

采用语音转换文本的方式，对面试录音进行文本转换，并将问答开始标识前的录音内容转化得到的文本，作为自我介绍文本，将问答开始标识前的录音内容转化得到的文本，作为面试应答文本。

具体地，在进行语音转换文本之前，在面试录音文件进行遍历，查找与预设的问答开始标识具有相同语音信息的语音片段，作为分界点，将该语音片段之前的语音，转化得到的文本，作为自我介绍文本，将该语音片段之后的语音，转化得到的文本，作为面试应答文本。

其中，查找与预设的问答开始标识具有相同语音信息的语音片段，具体可通过对语音信号进行幅值归一化处理、预加重处理和分帧加窗，得到语音帧集合，进而从该语音帧集合中，通过遍历对比的方式，找到与预设的问答开始标识的语音帧相同的语音帧片段，将该语音帧片段确定为与预设的问答开始标识具有相同语音信息的语音片段。

其中，预设的问答开始标识是用于提醒自我介绍阶段完毕，问答环节开始的语音标识，例如“感谢您的介绍，现在想询问您几个问题”的语音提示等，具体可根据实际情况进行预设，此处不做限定。

其中，语音转换文本，可采用语音识别算法，也可以使用具有语音转换功能的第三方工具，具体不作限制。语语音转换文本算法包括但不限于：基于声道模型的语音识别算法、语音模板匹配识别算法和或人工神经网络的语音识别算法等。

在本实施例中，将面试录音文本转化为自我介绍文本和面试应答文本，使得后续对这两类文本分开处理，更具有针对性，得到的处理结果也更为准确。

在本实施例的一些可选的实现方式中，步骤S203中，按照涉及的面试角度，对面试应答文本进行语句分类，得到分类文本包括：

将面试应答文本中的每个句子作为一个基础语句，并通过预设的分词方式，对基础语句进行分词处理，得到基础分词；

将基础分词转换为词向量，并通过聚类算法，对词向量进行聚类，得到基础语句对应的聚类中心；

针对每个基础语句，计算基础语句对应的聚类中心与每个预设面试角度对应的词向量的欧式距离，并将距离最小的预设面试角度，作为基础语句的目标分类，将该基础语句，作为目标分类对应的分类文本。

具体地，通过对面试应答文本中每个句子进行分词聚类，得到每个句子对应的聚类中心，再计算该聚类中心与预设面试角度对应词向量，确定每个句子所属的分类。

其中，预设的分词方式包括但不限于：通过第三方分词工具或者分词算法等。

其中，常见的第三方分词工具包括但不限于：Stanford NLP分词器、ICTClAS分词系统、ansj分词工具和HanLP中文分词工具等。

其中，分词算法包括但不限于：基于规则的分词方法、基于统计的分词方法、基于理解的分词方法和神经网络分词法。

基于规则的分词方法主要包括：最小匹配法(Minimum Matching)、正向最大匹配法(Maximum Matching)、逆向最大匹配法(Reverse Directional Maximum Matching)、双向最大匹配法(Bi-Direction Maximum Matching，BMM)、标志切分法、全切分路径选择法和联想--回溯法(Association-Backtracking Method，简称AB法)等。

基于统计的分词方法主要包括：N-Gram模型、隐马尔科夫模型(HiddenMarkovModel，HMM)序列标注法、最大熵模型(Maximum Entropy Model，MEM)序列标注法、最大熵马尔科夫模型(Maximum Entropy Markov Model，MEMM)序列标注法和条件随机场(Conditional Random Fields，CRF)序列标注法等。

优选地，本实施例采用改进的CRF模型进行分词，具体实现过程可参考后续实施例的描述，为避免重复，此处不再赘述。

容易理解地，通过分词的方式提取基础分词，一方面，可以有效滤掉文本中一些无意义的词汇，另一方面，也有利于后续使用这些文本生成词向量。

其中，聚类(Cluster)算法又称群分析，它是样品或指标分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法，聚类算法包括但不限于：K均值(K-Means)聚类算法、均值漂移聚类算法、基于密度的聚类(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)方法、基于高斯混合模型的最大期望聚类、凝聚层次聚类和图团体检测(Graph Community Detection)算法等。

优选地，在本实施例中，采用K均值(K-Means)聚类算法。

在本实施例中，通过聚类和计算语义相似度，确定面试应答文本中每个句子的分类，有利于后续有针对性地对不同分类的句子进行精炼。

在本实施例的一些可选的实现方式中，通过预设的分词方式，对基础语句进行分词处理，得到基础分词包括：

采用条件随机场模型，对基础语句进行分词，得到初始分词；

从历史面试应答文本中，获取每个初始分词的词频；

基于初始分词的词频，生成初始分词的权重，将标注有权重的初始分词，作为基础分词。

具体地，采用条件随机场模型，对基础语句进行分词，得到初始分词，再通过历史面试应答文本，获取每个初始分词的词频，并根据该词频生成初始分词对应的权重，得到带有权重信息的基础分词，使得在后续对基础分词进行标注时，各个基础分词的比重更符合面试场景的需要。

其中，条件随机场(conditional random field，简称CRF)模型，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场，在分词、词性标注和命名实体识别等序列标注任务中具有较好的效果。

其中，历史面试应答文本是指已经发生的面试产生的面试应答文本，通过历史面试应答文本的词频，可以体现出一些分词在面试过程中占的比重。

在本实施例中，通过对条件随机场模型进行分词得到的初始分词赋予权重，得到更符合智能面试场景的基础分词，有利于提高分类的准确率。

在本实施例的一些可选的实现方式中，步骤S204中，语言抽取模型为双向长短期记忆网络模型，双向长短期记忆网络模型包括句子编码器和文档编码器，通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句包括：

通过句子编码器对分类文本中的文本，按照字符进行拆分，得到基础字符；

对基础字符进行编码，得到基础字符对应的编码内容；

将编码内容输入到初始化权重的字符编码层，通过字符编码层将每个编码映射成一个字符向量，将每个字符向量作为句子编码结果；

将句子编码结果在正向和逆向隐层输出拼接成隐层向量，并将隐层向量输入到文档编码器；

通过文档编码器对隐层向量进行加权，得到文档特征向量，并对文档特征向量进行解码，将解码得到的输出结果作为抽取语句。

具体地，通过句子编码器对分类文本中的文本，按照字符进行拆分并编码，得到编码内容，再讲编码内容输入到字符编码层，得到每个编码对应的字符向量，将每个字符向量，作为句子的编码结果，并通过隐层传递给文档编码器，通过文档编码器进行加权，得到抽取语句。

值得说明的是，基于句子的编码结果，模型中每个字符对应的正向与逆向隐层输出会被拼接成一个隐层向量：

其中正向用上标+表示，逆向用上标-表示，第i个字符用下标i表示。

其中，长短期记忆网络(Long Short-Term Memory，LSTM)，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

需要说明的是，单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字，这种LSTM结构只能捕捉到上文信息，无法捕捉到下文信息，而双向LSTM由两个方向不同的LSTM组成，一个LSTM按照句子中词的顺序从前往后读取数据，另一个LSTM从后往前按照句子词序的反方向读取数据，这样第一个LSTM获得上文信息，另一个LSTM获得下文信息，两个LSTM的联合说出就是整个句子的上下文信息，而上下文信息是由整个句子提供的，自然包含比较抽象的语义信息(句子的意思)，这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势，而且由于我们输入了位置特征，其经过双向LSTM编码后可以抽取出位置特征中包含的实体方向信息。

在本实施例中，通过句子编码器和文档编码器，从两个不同级别的双向长短记忆网络对分类后的句子进行解析抽取，提高关键句子抽取的准确率。

在本实施例的一些可选的实现方式中，通过文档编码器对隐层向量进行加权，得到文档特征向量包括：

采用如下公式，确定文档特征向量：

其中，C_i为第i个文档特征向量，j为嵌入编码的序号，n为嵌入编码的数量，b_ij为第i个文档特征向量针对第j个隐层向量的权重，h_j为第j个隐层向量，其中，嵌入编码基于双向长短期记忆网络模型的隐藏状态生成。

在本实施例中，通过加权计算，得到文档特征向量的生成方式，有利于准确抽取重点语句。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例基于人工智能的面试内容精炼方法一一对应的基于人工智能的面试内容精炼装置的原理框图。如图3所示，该基于人工智能的面试内容精炼装置包括文本获取模块31、文本解析模块32、文本分类模块33、语料抽取模块34和信息发送模块35。各功能模块详细说明如下：

文本获取模块31，用于获取面试录音，并将面试录音转化为面试文本，其中，面试文本包括自我介绍文本和面试应答文本；

文本解析模块32，用于对自我介绍文本进行文本解析，得到面试者基本信息；

文本分类模块33，用于按照涉及的面试角度，对面试应答文本进行语句分类，得到分类文本；

语料抽取模块34，用于通过语言抽取模型，从每类分类文本中进行语句抽取，得到抽取语句，并采用Transformer模型精炼抽取语句，得到面试精炼语料；

信息发送模块35，用于将面试者基本信息和面试精炼语料发送给管理端，以使管理端根据面试者基本信息和面试精炼语料确定面试结果。

可选地，文本获取模块31包括：

标识识别单元，用于识别面试录音中包含的问答开始标识；

文本确定单元，用于采用语音转换文本的方式，对面试录音进行文本转换，并将问答开始标识前的录音内容转化得到的文本，作为自我介绍文本，将问答开始标识前的录音内容转化得到的文本，作为面试应答文本。

可选地，文本分类模块33包括：

分词单元，用于将面试应答文本中的每个句子作为一个基础语句，并通过预设的分词方式，对基础语句进行分词处理，得到基础分词；

聚类单元，用于将基础分词转换为词向量，并通过聚类算法，对词向量进行聚类，得到基础语句对应的聚类中心；

分类单元，用于针对每个基础语句，计算基础语句对应的聚类中心与每个预设面试角度对应的词向量的欧式距离，并将距离最小的预设面试角度，作为基础语句的目标分类，将基础语句，作为目标分类对应的分类文本。

可选地，分词单元包括：

初始分词单元，用于采用条件随机场模型，对基础语句进行分词，得到初始分词；

词频获取子单元，用于从历史面试应答文本中，获取每个初始分词的词频；

分词加权单元，用于基于初始分词的词频，生成初始分词的权重，将标注有权重的初始分词，作为基础分词。

可选地，语料抽取模块34包括：

拆分单元，用于通过句子编码器对分类文本中的文本，按照字符进行拆分，得到基础字符；

编码单元，用于对基础字符进行编码，得到基础字符对应的编码内容；

映射单元，用于将编码内容输入到初始化权重的字符编码层，通过字符编码层将每个编码映射成一个字符向量，将每个字符向量作为句子编码结果；

拼接单元，用于将句子编码结果在正向和逆向隐层输出拼接成隐层向量，并将隐层向量输入到文档编码器；

加权单元，用于通过文档编码器对隐层向量进行加权，得到文档特征向量，并对文档特征向量进行解码，将解码得到的输出结果作为抽取语句。

可选地，加权解码单元包括：

计算子单元，用于采用如下公式，确定文档特征向量：

可选地，该基于人工智能的面试内容精炼装置还包括：

存储模块，用于将面试者基本信息和面试精炼语料存储至区块链网络中。

关于基于人工智能的面试内容精炼装置的具体限定可以参见上文中对于基于人工智能的面试内容精炼方法的限定，在此不再赘述。上述基于人工智能的面试内容精炼装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如电子文件的控制的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于人工智能的面试内容精炼方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于人工智能的面试内容精炼方法，其特征在于，所述基于人工智能的面试内容精炼方法包括：

对所述自我介绍文本进行文本解析，得到面试者基本信息；

2.如权利要求1所述的基于人工智能的面试内容精炼方法，其特征在于，所述将所述面试录音转化为面试文本包括：

识别所述面试录音中包含的问答开始标识；

3.如权利要求1所述的基于人工智能的面试内容精炼方法，其特征在于，所述按照涉及的面试角度，对所述面试应答文本进行语句分类，得到分类文本包括：

4.如权利要求3所述的基于人工智能的面试内容精炼方法，其特征在于，所述通过预设的分词方式，对所述基础语句进行分词处理，得到基础分词包括：

从历史面试应答文本中，获取每个所述初始分词的词频；

5.如权利要求1至4任一项所述的基于人工智能的面试内容精炼方法，其特征在于，所述语言抽取模型为双向长短期记忆网络模型，所述双向长短期记忆网络模型包括句子编码器和文档编码器，所述通过语言抽取模型，从每类所述分类文本中进行语句抽取，得到抽取语句包括：

对基础字符进行编码，得到所述基础字符对应的编码内容；

6.如权利要求5所述的基于人工智能的面试内容精炼方法，其特征在于，所述通过所述文档编码器对所述隐层向量进行加权，得到文档特征向量包括：

采用如下公式，确定所述文档特征向量：

7.如权利要求1所述的基于人工智能的面试内容精炼方法，其特征在于，在所述采用Transformer模型精炼所述抽取语句，得到面试精炼语料之后，还包括：将所述面试者基本信息和所述面试精炼语料存储至区块链网络中。

8.一种基于人工智能的面试内容精炼装置，其特征在于，基于人工智能的面试内容精炼装置包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于人工智能的面试内容精炼方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于人工智能的面试内容精炼方法。