CN109902158A

CN109902158A - 语音交互方法、装置、计算机设备及存储介质

Info

Publication number: CN109902158A
Application number: CN201910068811.8A
Authority: CN
Inventors: 杨祎
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-18

Abstract

本发明实施例公开了一种语音交互方法、装置、计算机设备及存储介质，包括下述步骤：获取面试人员的语音信息；判断所述语音信息的内容类型，其中，所述内容类型为根据所述语音信息中包含的关键词所确定的内容分类；根据所述内容类型确定答复内容，其中，所述答复内容为根据所述内容类型查找得到与所述内容类型具有映射关系的应答数据库，并在所述应答数据库中查找得到与所述内容类型具有映射关系的应答文本。通过这种语音交互方法，可以准确地回应面试人员所提的问题或确定接下来的面试内容，当相同的词汇在不同语境下进行表达时，可以获取对应不同的答复内容，使交互过程再加真实，提高面试人员的交互体验。

Description

语音交互方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音面试技术领域，特别是涉及一种语音交互方法、装置、计算机设备及存储介质。

背景技术

随着信息技术和互联网的发展，信息过载越来越严重，如何有效地理解面试人员的需求，跨越查询到已有信息之间的不一致性鸿沟，从而有效地从大量的信息中获取面试人员所需，便成为一项非常重要的问题。

对于企业而言，经常有新人入职、老员工离职等情况，对于新员工入职问题的解答，通常属于老员工或者指导者的工作内容，而每次有新员工面试的时候都需要为其解答一系列基本问题，对于每个面试人员来说，许多问题是相同的，这样的模式大大增加了老员工的重复工作量。当老员工离职较多时，人员不够分配，只能由入职时间不太长的人员当任面试人员的面试官，而面试官本身对于公司内部的内容可能并不能完全熟悉，在解答问题的时候也可能出现错误或不清楚。另一方面，企业中对于不同领域一般由专门的人员负责，而在面试人员了解企业的过程中，涉及到的内容较多和领域较多，面试官很难保证自己能够准确地解答面试人员的所有问题，当涉及到自己不懂的内容时，并不能给出正确的答复，导致面试人员体验较差。

发明内容

本发明实施例能够提供一种准确回答面试人员问题的语音交互方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种语音交互方法，包括以下步骤：

获取面试人员的语音信息；

判断所述语音信息的内容类型，其中，所述内容类型为根据所述语音信息中包含的关键词所确定的内容分类；

根据所述内容类型确定答复内容，其中，所述答复内容为根据所述内容类型查找得到与所述内容类型具有映射关系的应答数据库，并在所述应答数据库中查找得到与所述内容类型具有映射关系的应答文本。

可选地，所述内容类型包含结束类别，所述根据所述内容类型确定答复内容的步骤之后，包括以下步骤：

判断所述内容类型是否为结束类别；

当所述内容类型为结束类别时，根据所述语音信息确定所述面试人员的面试评分。

可选地，所述当所述内容类型为结束主义时，根据所述语音信息确定所述面试人员的面试评分的步骤，包括以下步骤：

获取面试录音信息，其中，所述面试录音信息为本次面试中所述语音信息的集合；

将所述面试录音信息输入到预设的面试评分模型中，其中，所述面试评分模型为已训练至收敛的，用于对录音信息进行评分的神经网络模型；

根据所述面试评分模型的输出结果确定所述面试人员的面试评分。

可选地，所述将所述面试录音信息输入到预设的面试评分模型中的步骤之前，包括以下步骤：

获取所述面试人员的面试岗位信息，其中，所述面试岗位信息包括岗位名称；

在预设的评分模型库中查找与所述岗位名称具有映射关系的评分模型；

定义所述具有映射关系的评分模型为所述面试评分模型。

可选地，所述判断所述语音信息的内容类型的步骤，包括下述步骤：

根据所述语音信息确定文本信息，其中，所述文本信息为对所述语音信息进行内容识别之后得到的与所述语音信息的内容相对应的文本内容；

提取所述文本信息的关键词信息，其中，所述关键词信息为所述文本信息中所包含的关键词；

根据所述关键词信息确定所述内容类型。

可选地，所述根据所述语音信息确定文本信息的步骤，包括下述步骤：

将所述语音信息输入到预设的语音识别模型中，所述语音识别模型为根据输入的语音信息转换得到文本的自然语言解析模型；

根据所述语音识别模型的输出结果确定所述文本信息。

可选地，所述根据所述内容类型确定答复内容的步骤，包括下述步骤：

在预设的应答数据库中查找与所述内容类型具有映射关系的答复内容；

定义所述具有映射关系的答复内容为所述答复内容。

为解决上述技术问题，本发明实施例还提供一种语音交互装置，包括：

获取模块，用于获取面试人员的语音信息；

处理模块，用于判断所述语音信息的内容类型，其中，所述内容类型为根据所述语音信息中包含的关键词所确定的内容分类；

执行模块，用于根据所述内容类型确定答复内容，其中，所述答复内容为根据所述内容类型查找得到与所述内容类型具有映射关系的应答数据库，并在所述应答数据库中查找得到与所述内容类型具有映射关系的应答文本。

可选地，所述语音交互装置，还包括：

第一判断子模块，用于判断所述内容类型是否为结束类别；

第一执行子模块，用于当所述内容类型为结束类别时，根据所述语音信息确定所述面试人员的面试评分。

可选地，所述语音交互装置，还包括：

第一获取子模块，用于获取面试录音信息，其中，所述面试录音信息为本次面试中所述语音信息的集合；

第一输入子模块，用于将所述面试录音信息输入到预设的面试评分模型中，其中，所述面试评分模型为已训练至收敛的，用于对录音信息进行评分的神经网络模型；

第一执行子模块，用于根据所述面试评分模型的输出结果确定所述面试人员的面试评分。

可选地，所述语音交互装置，还包括：

第二获取子模块，用于获取所述面试人员的面试岗位信息，其中，所述面试岗位信息包括岗位名称；

第一查找子模块，用于在预设的评分模型库中查找与所述岗位名称具有映射关系的评分模型；

第三执行子模块，用于定义所述具有映射关系的评分模型为所述面试评分模型。

可选地，所述语音交互装置，还包括：

第一处理子模块，用于根据所述语音信息确定文本信息，其中，所述文本信息为对所述语音信息进行内容识别之后得到的与所述语音信息的内容相对应的文本内容；

第一提取子模块，用于提取所述文本信息的关键词信息，其中，所述关键词信息为所述文本信息中所包含的关键词；

第四执行子模块，用于根据所述关键词信息确定所述内容类型。

可选地，所述语音交互装置，还包括：

第二输入子模块，用于将所述语音信息输入到预设的语音识别模型中，所述语音识别模型为根据输入的语音信息转换得到文本的自然语言解析模型；

第五执行子模块，用于根据所述语音识别模型的输出结果确定所述文本信息。

可选地，所述语音交互装置，还包括：

第二查找子模块，用于在预设的应答数据库中查找与所述内容类型具有映射关系的答复内容；

第六执行子模块，用于定义所述具有映射关系的答复内容为所述答复内容。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述语音交互方法的步骤。

为解决上述技术问题，本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述语音交互方法的步骤。

本发明实施例的有益效果是：通过解析面试人员语音信息中所包含的语义，判断面试人员所要表述的内容，并查找匹配对应的答复内容以及时给予面试人员相应的答复。利用这种交互方式，在面试人员提出问题时，可以及时得到想要的回应，当面试人员陈述表达之后，可以根据面试人员的表述进行追问或开始下一个面试环节，相比于传统的通过人工面试的过程，可以更快速更准确地根据面试人员的讲话内容进行回应，提升面试人员的体验。进一步地，当同一个词汇在不同语境下表达不同的意思时，通过两级查找的方式可以更加准确地确定答复内容，以确保给予答复的准确性，提高交互的真实度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例语音交互方法的基本流程示意图；

图2为本发明实施例判断是否进行面试评分的流程示意图；

图3为本发明实施例根据语音信息确定面试评分的流程示意图；

图4为本发明实施例确定面试评分模型的流程示意图；

图5为本发明实施例判断语音信息的内容类型的流程示意图；

图6为本发明实施例确定文本信息的流程示意图；

图7为本发明实施例确定答复内容的流程示意图；

图8为本发明实施例语音交互装置的基本结构框图；

图9为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunicationsService，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(PersonalDigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(MobileInternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

具体地请参阅图1，图1为本实施例语音交互方法的基本流程示意图。

如图1所示，一种语音交互方法，包括以下步骤：

S1100、获取面试人员的语音信息；

面试过程中通过声音采集设备采集面试人员的语音，当面试人员讲话过程中停顿超过一定的时间(例如2秒)之后，判断面试人员讲话完毕，将采集得到的语音作为一段语音信息。在面试开始直至结束的过程中，声音采集设备保持开启状态，每当判断面试人员讲话时，即面试人员的讲话内容作为一段语音信息，当面试人员沉默或系统进行应答时，对获取到的语音不作处理。通过这种方式将面试过程中将面试人员的讲话内容分为多段语音信息，每当获取到新的语音信息时，开启答复流程。

S1200、判断所述语音信息的内容类型，其中，所述内容类型为根据所述语音信息中包含的关键词所确定的内容分类；

在获取到面试人员新的语音信息时，将语音信息转化为文本内容，并通过已训练至收敛的神经网络模型作为内容分类模型对文本内容进行分类，以内容分类模型的输出结果作为语音信息的一级分类，再根据文本内容中包含的关键词信息确定语音信息的二级分类，以“一级分类-二级分类”的方式作为语音信息的内容类型。一级分类为面试人员的语音信息中所表达的句式分类，如面试人员的语句为陈述语句或疑问语句，但不限于此，二级分类为具体的关键词汇或信息，如“企业人数”或“员工福利”等，但不限于此。例如面试人员提到“想知道企业人数”或者“公司有多少人”等问题时，实际上所表达的语义都是相同的，即“询问企业人数”，一级分类判断为疑问语句，再根据其中包含的关键词“人数”或“多少人”确定二级分类为“企业人数”，最终得到的内容类型为“疑问句-企业人数”。

S1300、根据所述内容类型确定答复内容，其中，所述答复内容为根据所述内容类型查找得到与所述内容类型具有映射关系的应答数据库，并在所述应答数据库中查找得到与所述内容类型具有映射关系的应答文本；

根据判断后得到的内容类型中的一级分类查找得到对应的应答数据库，再在对应的应答数据库中查找与二级分类具有映射关系的答复内容。系统中预设有针对多个一级分类的应答数据库，例如疑问语句对应的应答数据库或者陈述语句对应的应答数据库等。每一个应答数据库中对应设置所有二级分类所对应的答复内容。在一些实施方式中，当二级分类比较细时，应答数据库中针对于多种二级分类可以设置有同一种答复内容，即一个答复内容对应多种二级分类。在另一些实施方式中，应答数据库中针对一种二级分类设置有一个或多个答复内容，即根据二级分类可以查找得到一个或多个答复内容，当答复内容有多个时，随机选择其中一个作为最终选用的答复内容。答复内容中还包括对应的语音音频，即答复内容的朗读录音，在确定答复内容之后，获取答复内容对应的朗读录音，进行播报。

通过对语音信息设置两级分类的方法，当同一个词汇在不同的语境下表达了不同的语义时，可以先确定语句的分类，再根据关键词查找对应的答复内容，同一个关键词在不同语境下可以得到不同的答复效果，使交互过程更加真实，提升面试人员的体验。

如图2所示，步骤S1300之后还包括以下步骤：

S1400、判断所述内容类型是否为结束类别；

内容类型中包括结束类别，即根据面试人员的语音信息判断面试可以结束，例如面试人员回答“暂时没有其他问题”时，内容分类模型的输出结果为结束类别。判断内容类型是否为结束主义的步骤在确定了答复内容之后，可以是答复内容判断完成时开始，也可以是进行答复录音的播报时进行。当判断内容类型为结束类别外的类别时，答复完成后继续语音交互，即获取语音信息判断分类并进行答复，直至当判断内容类型为结束类别时，开始面试结束流程。

S1500、当所述内容类型为结束类别时，根据所述语音信息确定所述面试人员的面试评分；

当判断内容类型为结束类别时，开始面试结束流程，统计整个面试过程中面试人员的所有语音信息，整合为一个完整的录音内容，录音内容中包括有面试人员在面试过程中的所有讲话内容。在一些实施方式中，录音内容可以是分段式的，即把所有语音信息分别作为单独的音频文件保存为一个文件包，作为录音内容，也可以是根据语音信息进行拼接，得到一个完成的音频文件作为录音内容，根据实际应用情况的不同，录音内容的存储方式可以进行调整，在此不作限定。

在得到录音内容之后，将录音内容输入到预设的面试评分模型中，根据面试评分的输出结果确定面试人员的面试评分，为管理人员提供参考。面试评分模型为根据录音内容，对录音内容所表征的分数进行分类的神经网络模型。

在判断面试结束之后，通过面试人员的录音内容对面试人员进行面试评分的方法，根据面试人员的表现可以给面试管理人员生成一个初步的参考分数，使面试管理人员可以更加快速且准确地确定面试结果。

如图3所示，步骤S1500具体包括以下步骤：

S1510、获取面试录音信息，其中，所述面试录音信息为本次面试中所述语音信息的集合；

统计整个面试过程中面试人员的所有语音信息，整合为一个完整的录音信息，录音信息中包括有面试人员在面试过程中的所有讲话内容。，根据实际应用情况的不同，录音信息的存储方式可以进行调整，录音信息可以是分段式的，即把所有语音信息分别作为单独的音频文件保存为一个文件包，作为录音信息，也可以是根据语音信息进行拼接，得到一个完成的音频文件作为录音信息。

S1520、将所述面试录音信息输入到预设的面试评分模型中，其中，所述面试评分模型为已训练至收敛的，用于对录音信息进行评分的神经网络模型；

将获取到的录音信息输入到面试评分模型中，本实施例所使用的面试评分模型在训练时可以获取到一定量(例如1000份)的录音内容作为训练样本，每个训练样本标记一个分值，将相同分值组的多个训练样本作为一个样本组，将同一个样本组中多份录音内容输入到预设的分类模型中，分别获取多份录音内容的评分分类值，以数值为限定条件对多份录音内容的评分分类值进行排序，确认所述排序结果中处于中间位置的评分分类值为上述同一分值的多份录音内容的期望分类值。再将训练样本输入到训练后的分类模型中，获取到分类模型输出的激励分类值，判断激励分类值与期望分类值之间的距离是否大于预设阈值，当大于预设阈值时，反复循环迭代的通过反向算法更新所述神经网络模型中的权重，至期望分类值与激励分类值之间的距离小于或等于预设阈值时结束。

S1530、根据所述面试评分模型的输出结果确定所述面试人员的面试评分；

面试评分模型设有多个分类结果，每一个分类结果对应一个分值区间，在本实施方式中，分值分为不同的区间，例如[0，10]，[11，20]，[21，30]，[31，40]，[41，50]，分值区间的划分不限于此，根据实际应用场景的不同，分值区间的划分可以更大，例如[0，15]，[15,35]，[35,50]，也可以更小，例如每个分值区间的跨度不超过5分。以分类结果的对应的分值区间中的取值作为面试人员的面试评分，获取的方式可以取区间的最大值，例如[31，40]区间取40作为面试评分，或者取区间的中间值或最小值等，可以根据实际应用场景的不同进行调整。

通过整合录音信息输入评分判断模型进行面试评分确定的方法，可以快速准确的对用户的面试过程进行初步判断，生成的评分也可以给面试管理人员一个参考，以便后续更快的决定面试结果。

如图4所示，步骤S1500之前还包括以下步骤：

S1410、获取所述面试人员的面试岗位信息，其中，所述面试岗位信息包括岗位名称；

面试管理人员将面试人员的面试岗位信息预先录入到系统中，在面试判断面试结束之后，对面试人员进行评分之前，获取到面试人员的面试岗位信息。面试岗位信息包括当前面试的岗位名称等，但不限于此。

S1420、在预设的评分模型库中查找与所述岗位名称具有映射关系的评分模型；

针对不同的岗位设置有对应的评分模型，评分模型为已训练至收敛的用于根据输入的语音信息对面试人员进行评分的神经网络模型。不同岗位的评分模型在进行训练时，采用不同的训练样本集，以针对不同岗位的面试侧重点。在一些实施方式中，不同的岗位评分模型的训练样本集可以是相同的语音信息，但对应的标记评分根据岗位需求的不同进行了调整，例如销售岗位需要较好的表达能力和应变能力，当面试录音中出现较多的紧张或者颤动等表现时，得分较低，技术岗位需要较好的思维能力，当面试录音中出现经常停顿等方面表现时，得分较低。通过将根据岗位需求调整过对应分值的录音信息作为训练样本，使得训练得到的模型更加贴合对应岗位的面试要求。每一个训练完成的评分模型对应一个或多个岗位，将所有训练完成的评分模型整合形成评分模型库。在获取到面试人员的面试岗位信息后，提取其中的岗位名称，根据岗位名称在评分模型库中查找与岗位名称具有映射关系的评分模型。

S1430、定义所述具有映射关系的评分模型为所述面试评分模型；

当查找得到与岗位名称具有映射关系的评分模型时，将该评分模型作为本次面试的面试评分模型。

通过针对不同岗位设置不同的评分模型，在利用评分模型进行评分时，确保使用的评分模型中的评分规则贴合岗位的实际需求，使面试评分更加客观，提高面试评分的参考价值。

如图5所示，步骤S1200具体包括下述步骤：

S1210、根据所述语音信息确定文本信息，其中，所述文本信息为对所述语音信息进行内容识别之后得到的与所述语音信息的内容相对应的文本内容；

将获取到的语音信息输入到预设的语音识别模型中，将语音信息转化为文本信息，本实施例使用的语音识别模型可以是现有的根据输入的语音内容输出对应的文本内容的自然语言解析模型。

S1220、提取所述文本信息的关键词信息，其中，所述关键词信息为所述文本信息中所包含的关键词；

系统中设置有关键词列表，用于确定语音信息的二级分类，在获取语音信息的文本信息之后，首先将文本信息进行分词，将分词后得到的结果与预设的关键词列表中的内容进行匹配，查找文本信息中的关键词，当文本信息的分词结果中包含有关键词列表中的词汇时，提取该分词结果所对应的词汇作为文本信息的关键词信息。

S1230、根据所述关键词信息确定所述内容类型；

将获取到的文本信息输入到内容分类模型中，根据内容分类模型的输出结果确定语音信息的一级分类，内容分类模型设置有多个分类结果，每一个分类结果对应一种一级分类，再将提取得到的关键词作为二级分类，以“一级分类-二级分类”作为语音信息的内容类型。

利用内容分类模型和关键词确定内容类型的方法，可以快速准确地确定语音信息中的句式类型作为一级分类，再以关键词确定详细的二级分类，当同一个关键词汇在不同的语境下表达不一样的意思时，通过这种方法可以有效地进行分类区分，在便后续针对性地给予答复。

如图6所示，步骤S1210具体包括下述步骤：

S1211、将所述语音信息输入到预设的语音识别模型中，所述语音识别模型为根据输入的语音信息转换得到文本的自然语言解析模型；

将语音信息输入到语音识别模型中，首先根据语音信息进行分段，分段的依据可以是讲话过程中的停顿，或者按照讲话的音节，将语音信息进行分段后得到分段语音，再将分段语音输入到语音识别模型中进行分词提取，提取得到零散的词语或音节，语音识别模型可以是现有的，将输入的语音信息转换得为文本的自然语言解析模型。

S1212、根据所述语音识别模型的输出结果确定所述文本信息；

将语音识别模型输出的词语或音节根据分段的先后顺序进行拼接，并且根据整句的语义进行同音词的替换调整，获得完整的句子作为文本信息。同音词调整的依据可以是预设的词语搭配关系，或者与预设的例句进行相似度匹配，根据匹配得到的相近句子中的词语进行替换。

如图7所示，步骤S1300具体包括下述步骤：

S1310、在预设的应答数据库中查找与所述内容类型具有映射关系的答复内容；

针对不同的内容类型设置有不同的答复内容，例如当判断内容类型为“询问企业人数”时，对应的回答为“企业现在一共有100人，共分为6个部门……”。在一些实施方式中，当内容类型分类比较细时，针对于多种内容类型可以设置有同一种答复内容，即一个答复内容对应多种内容类型。在另一些实施方式中，针对一种内容类型设置有一个或多个答复内容，即同一个问题可以设置意思相同或相似的多种不同回答方法，根据判断得到的内容类型可以查找得到一个或多个答复内容，当答复内容有多个时，随机选择其中一个作为目标答复内容。将所有的答复内容整合为一个应答数据库，在确定内容类型之后，在应答数据库中查找与内容类型具有映射关系的答复内容。

S1320、定义所述具有映射关系的答复内容为所述答复内容；

当查找得到与内容类型具有映射关系的答复内容时，将对应的答复内容作为答复内容。当查找得到多个答复内容时，随机确定其中的一个作为答复内容。

通过设置应答数据库的方式，对于不同的内容类型设置对应的答复内容，在确定面试人员讲话的内容类型之后，可以准确查找得到匹配的答复内容进行反馈，及时根据面试人员的讲话内容进行追问或者解答面试人员所提出的问题，提升交互体验。

为解决上述技术问题，本发明实施例还提供一种语音交互装置。具体请参阅图8，图8为本实施语音交互装置的基本结构框图。

如图8所示，语音交互装置，包括：获取模块2100、处理模块2200和执行模块2300。其中，获取模块用于获取面试人员的语音信息；处理模块用于判断所述语音信息的内容类型，其中，所述内容类型为根据所述语音信息中包含的关键词所确定的内容分类；执行模块用于根据所述内容类型确定答复内容，其中，所述答复内容为根据所述内容类型查找得到与所述内容类型具有映射关系的应答数据库，并在所述应答数据库中查找得到与所述内容类型具有映射关系的应答文本。

通过解析面试人员语音信息中所包含的语义，判断面试人员所要表述的内容，并查找匹配对应的答复内容以及时给予面试人员相应的答复。利用这种交互方式，在面试人员提出问题时，可以及时得到想要的回应，当面试人员陈述表达之后，可以根据面试人员的表述进行追问或开始下一个面试环节，相比于传统的通过人工面试的过程，可以更快速更准确地根据面试人员的讲话内容进行回应，提升面试人员的体验。进一步地，当同一个词汇在不同语境下表达不同的意思时，通过两级查找的方式可以更加准确地确定答复内容，以确保给予答复的准确性，提高交互的真实度。

在一些实施方式中，语音交互装置还包括：第一判断子模块、第一执行子模块。其中第一判断子模块用于判断所述内容类型是否为结束类别；第一执行子模块用于当所述内容类型为结束类别时，根据所述语音信息确定所述面试人员的面试评分。

在一些实施方式中，语音交互装置还包括：第一获取子模块、第一输入子模块、第一执行子模块。其中，第一获取子模块用于获取面试录音信息，其中，所述面试录音信息为本次面试中所述语音信息的集合；第一输入子模块用于将所述面试录音信息输入到预设的面试评分模型中，其中，所述面试评分模型为已训练至收敛的，用于对录音信息进行评分的神经网络模型；第一执行子模块用于根据所述面试评分模型的输出结果确定所述面试人员的面试评分。

在一些实施方式中，语音交互装置还包括：第二获取子模块、第一查找子模块、第三执行子模块。其中，第二获取子模块用于获取所述面试人员的面试岗位信息，其中，所述面试岗位信息包括岗位名称；第一查找子模块用于在预设的评分模型库中查找与所述岗位名称具有映射关系的评分模型；第三执行子模块用于定义所述具有映射关系的评分模型为所述面试评分模型。

在一些实施方式中，语音交互装置还包括：第一处理子模块、第一提取子模块、第四执行子模块。其中，第一处理子模块用于根据所述语音信息确定文本信息，其中，所述文本信息为对所述语音信息进行内容识别之后得到的与所述语音信息的内容相对应的文本内容；第一提取子模块用于提取所述文本信息的关键词信息，其中，所述关键词信息为所述文本信息中所包含的关键词；第四执行子模块用于根据所述关键词信息确定所述内容类型。

在一些实施方式中，语音交互装置还包括：第二输入子模块、第五执行子模块。其中，第二输入子模块用于将所述语音信息输入到预设的语音识别模型中，所述语音识别模型为根据输入的语音信息转换得到文本的自然语言解析模型；第五执行子模块用于根据所述语音识别模型的输出结果确定所述文本信息。

在一些实施方式中，语音交互装置还包括：第二查找子模块、第六执行子模块。其中，第二查找子模块用于在预设的应答数据库中查找与所述内容类型具有映射关系的答复内容；第六执行子模块用于定义所述具有映射关系的答复内容为所述答复内容。

为解决上述技术问题，本发明实施例还提供一种计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

如图9所示，计算机设备的内部结构示意图。如图9所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种语音交互方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音交互方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中获取模块2100、处理模块2200和执行模块2300的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有语音交互装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述语音交互方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等非易失性存储介质，或随机存储记忆体(RandomAccessMemory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音交互方法，其特征在于，包括以下步骤：

获取面试人员的语音信息；

2.如权利要求1所述的语音交互方法，其特征在于，所述内容类型包含结束类别，所述根据所述内容类型确定答复内容的步骤之后，包括以下步骤：

判断所述内容类型是否为结束类别；

3.如权利要求2所述的语音交互方法，其特征在于，所述当所述内容类型为结束主义时，根据所述语音信息确定所述面试人员的面试评分的步骤，包括以下步骤：

4.如权利要求3所述的语音交互方法，其特征在于，所述将所述面试录音信息输入到预设的面试评分模型中的步骤之前，包括以下步骤：

定义所述具有映射关系的评分模型为所述面试评分模型。

5.如权利要求1所述的语音交互方法，其特征在于，所述判断所述语音信息的内容类型的步骤，包括下述步骤：

根据所述关键词信息确定所述内容类型。

6.如权利要求5所述的语音交互方法，其特征在于，所述根据所述语音信息确定文本信息的步骤，包括下述步骤：

根据所述语音识别模型的输出结果确定所述文本信息。

7.如权利要求1-6任一项所述的语音交互方法，其特征在于，所述根据所述内容类型确定答复内容的步骤，包括下述步骤：

定义所述具有映射关系的答复内容为所述答复内容。

8.一种语音交互装置，其特征在于，包括：

获取模块，用于获取面试人员的语音信息；

9.一种计算机设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1-7任意一项所述的语音交互方法。

10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音交互方法，所述方法包括上述权利要求1-7任意一项所述的语音交互方法。