CN112786054A

CN112786054A - 基于语音的智能面试评估方法、装置、设备及存储介质

Info

Publication number: CN112786054A
Application number: CN202110209019.7A
Authority: CN
Inventors: 赵沁
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-11
Also published as: WO2022179048A1

Abstract

本发明涉及人工智能技术领域，提供一种基于语音的智能面试评估方法、装置、设备及存储介质，用于提高远程面谈评估的效率。基于语音的智能面试评估方法包括：对待处理的远程面试者语音信号进行端点检测，得到有效语音段落，将有效语音段落划分为待定标语音段落和待检测语音段落；提取待定标语音段落的定标语音特征和待检测语音段落的检测语音特征；计算定标语音特征的定标特征值和检测语音特征的检测特征值；将检测特征值与定标特征值进行对比分析得到面试者状况分析结果，生成面试者状况分析结果的评估报告。此外，本发明还涉及区块链技术，待处理的远程面试者语音信号可存储于区块链中。

Description

基于语音的智能面试评估方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的智能决策领域，尤其涉及一种基于语音的智能面试评估方法、装置、设备及存储介质。

背景技术

随着网络技术和硬件设备的发展，数据的采集和传输越来越便捷，面试的说话人双方可以在电脑等设备上进行远程面谈。对于远程面谈中面试者的表现情况判断，为了解决人为判断所带来的主观影响和操作时长问题，采用了语音技术、机器学习和自然语言处理等智能处理技术，对远程面谈过程的各种信息进行了采集、分析和评估。

但是，上述方式中，是对面试者的答案文本和语音文本进行采集、分析和评估，且需综合除了语音之外的其他信息，以此得到面试者的素质和专业特质，造成了计算量大、参数多和可解释性弱的问题，从而导致了远程面谈评估的效率低。

发明内容

本发明提供一种基于语音的智能面试评估方法、装置、设备及存储介质，用于提高远程面谈评估的效率。

本发明第一方面提供了一种基于语音的智能面试评估方法，包括：

获取待处理的远程面试者语音信号，对所述待处理的远程面试者语音信号进行端点检测，得到有效语音段落，并按照预设的定标时段，将所述有效语音段落划分为待定标语音段落和待检测语音段落；

分别对所述待定标语音段落和所述待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征；

分别计算所述定标语音特征和所述检测语音特征的统计值，得到定标特征值和检测特征值；

将所述检测特征值与所述定标特征值进行对比分析，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告。

可选的，在本发明第一方面的第一种实现方式中，所述分别对所述待定标语音段落和所述待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征，包括：

分别对所述待定标语音段落和所述待检测语音段落依次进行分帧处理，以及基于时域能量特征的识别和提取，得到定标音量特征和检测音量特征；

分别对所述待定标语音段落和所述待检测语音段落进行基于基音周期信息和基音频率信息的识别和提取，得到定标语调特征和检测语调特征；

分别对所述待定标语音段落和所述待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征；

按照预设的观察窗长度，分别对所述待定标语音段落和所述待检测语音段落依次进行滑动和停顿次数计算，得到定标流利度特征和检测流利度特征；

将所述定标音量特征、所述定标语调特征、所述定标拖音特征、所述定标语速特征和所述定标流利度特征确定为定标语音特征，并将所述检测音量特征、所述检测语调特征、所述检测拖音特征、所述检测语速特征和所述检测流利度特征确定为检测语音特征。

可选的，在本发明第一方面的第二种实现方式中，所述分别对所述待定标语音段落和所述待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征，包括：

提取所述待定标语音段落的定标信号包络，以及所述待检测语音段落的检测信号包络；

分别对所述定标信号包络和所述检测信号包络进行峰值谷值计算，得到定标音节数目和定标音节长度，以及检测音节数目和检测音节长度；

根据所述定标音节数目和所述定标音节长度确定拖音数目，得到定标拖音特征，并根据所述检测音节数目和所述检测音节长度确定拖音数目，得到检测拖音特征；

计算所述待定标语音段落的定标语段时长，以及所述待检测语音段落的检测语段时长；

根据所述定标音节数目和所述定标语段时长，计算定标语速特征，并根据所述检测音节数目和所述检测语段时长，计算检测语速特征。

可选的，在本发明第一方面的第三种实现方式中，所述将所述检测特征值与所述定标特征值进行对比分析，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告，包括：

获取基于所述定标特征值中音量定标值的音量等级范围值，以及基于所述检测特征值中语调定标值的语调等级范围值，所述定标特征值包括音量定标值、语调定标值、拖音定标值、语速定标值和流利度定标值，所述检测特征值包括音量检测值、语调检测值、拖音检测值、语速检测值和流利度检测值；

将所述音量检测值与所述音量等级范围值进行对比分析，并将所述语调检测值和所述语调等级范围值进行对比分析，得到情绪指向结果；

将所述拖音检测值与预设拖音范围值进行对比分析，并将所述语速检测值与预设语速范围值进行对比分析，得到自信程度结果和犹豫程度结果，所述预设拖音范围值包括所述拖音定标值和/或拖音预设值，所述预设语速范围值包括所述语速定标值和/或预设语速值；

将所述流利度检测值与所述流利度定标值进行对比分析，得到专注度结果和性格特质结果；

根据所述情绪指向结果、所述自信程度结果、所述犹豫程度结果、所述专注度结果和所述性格特质结果生成可视化图表，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告。

可选的，在本发明第一方面的第四种实现方式中，所述获取基于所述定标特征值中音量定标值的音量等级范围值，以及基于所述检测特征值中语调定标值的语调等级范围值，包括：

通过预设第一倍数，分别计算所述定标特征值中音量定标值和所述检测特征值中语调定标值的等级倍数，得到第一音量定标等级值和第一语调定标等级值，以及通过预设第二倍数，分别计算所述音量定标值和所述语调定标值的等级倍数，得到第二音量定标等级值和第二语调定标等级值；

根据所述第一音量定标等级值和所述第二音量定标等级值确定多个音量定标区间，得到音量等级范围值，并根据所述第一语调定标等级值和所述第二语调定标等级值确定多个语调定标区间，得到语调等级范围值。

可选的，在本发明第一方面的第五种实现方式中，所述获取待处理的远程面试者语音信号，包括：

获取初始远程面谈语音信号，对所述初始远程面谈语音信号进行声纹识别和声纹特征提取，得到声纹特征集；

将所述声纹特征集与预置的面试官声纹特征信息进行匹配，得到匹配声纹特征，根据所述匹配声纹特征从所述声纹特征集中获取目标声纹特征；

从所述初始远程面谈语音信号中，提取所述目标声纹特征对应的面试者语音信号；

对所述面试者语音信号进行降噪处理和信号增强处理，得到待处理的远程面试者语音信号。

可选的，在本发明第一方面的第六种实现方式中，所述将所述检测特征值与所述定标特征值进行对比分析，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告之后，还包括：

获取基于所述评估报告的优化信息，根据所述优化信息对所述面试者状况分析结果的执行过程进行调整。

本发明第二方面提供了一种基于语音的智能面试评估装置，包括：

端点检测模块，用于获取待处理的远程面试者语音信号，对所述待处理的远程面试者语音信号进行端点检测，得到有效语音段落，并按照预设的定标时段，将所述有效语音段落划分为待定标语音段落和待检测语音段落；

特征提取模块，用于分别对所述待定标语音段落和所述待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征；

计算模块，用于分别计算所述定标语音特征和所述检测语音特征的统计值，得到定标特征值和检测特征值；

分析生成模块，用于将所述检测特征值与所述定标特征值进行对比分析，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告。

可选的，在本发明第二方面的第一种实现方式中，所述特征提取模块包括：

第一识别提取单元，用于分别对所述待定标语音段落和所述待检测语音段落依次进行分帧处理，以及基于时域能量特征的识别和提取，得到定标音量特征和检测音量特征；

第二识别提取单元，用于分别对所述待定标语音段落和所述待检测语音段落进行基于基音周期信息和基音频率信息的识别和提取，得到定标语调特征和检测语调特征；

第一计算单元，用于分别对所述待定标语音段落和所述待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征；

第二计算单元，用于按照预设的观察窗长度，分别对所述待定标语音段落和所述待检测语音段落依次进行滑动和停顿次数计算，得到定标流利度特征和检测流利度特征；

确定单元，用于将所述定标音量特征、所述定标语调特征、所述定标拖音特征、所述定标语速特征和所述定标流利度特征确定为定标语音特征，并将所述检测音量特征、所述检测语调特征、所述检测拖音特征、所述检测语速特征和所述检测流利度特征确定为检测语音特征。

可选的，在本发明第二方面的第二种实现方式中，所述第一计算单元具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述分析生成模块包括：

获取单元，用于获取基于所述定标特征值中音量定标值的音量等级范围值，以及基于所述检测特征值中语调定标值的语调等级范围值，所述定标特征值包括音量定标值、语调定标值、拖音定标值、语速定标值和流利度定标值，所述检测特征值包括音量检测值、语调检测值、拖音检测值、语速检测值和流利度检测值；

第一对比分析单元，用于将所述音量检测值与所述音量等级范围值进行对比分析，并将所述语调检测值和所述语调等级范围值进行对比分析，得到情绪指向结果；

第二对比分析单元，用于将所述拖音检测值与预设拖音范围值进行对比分析，并将所述语速检测值与预设语速范围值进行对比分析，得到自信程度结果和犹豫程度结果，所述预设拖音范围值包括所述拖音定标值和/或拖音预设值，所述预设语速范围值包括所述语速定标值和/或预设语速值；

第三对比分析单元，用于将所述流利度检测值与所述流利度定标值进行对比分析，得到专注度结果和性格特质结果；

生成单元，用于根据所述情绪指向结果、所述自信程度结果、所述犹豫程度结果、所述专注度结果和所述性格特质结果生成可视化图表，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告。

可选的，在本发明第二方面的第四种实现方式中，所述获取单元具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述端点检测模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述基于语音的智能面试评估装置，还包括：

调整模块，用于获取基于所述评估报告的优化信息，根据所述优化信息对所述面试者状况分析结果的执行过程进行调整。

本发明第三方面提供了一种基于语音的智能面试评估设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音的智能面试评估设备执行上述的基于语音的智能面试评估方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于语音的智能面试评估方法。

本发明提供的技术方案中，获取待处理的远程面试者语音信号，对待处理的远程面试者语音信号进行端点检测，得到有效语音段落，并按照预设的定标时段，将有效语音段落划分为待定标语音段落和待检测语音段落；分别对待定标语音段落和待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征；分别计算定标语音特征和检测语音特征的统计值，得到定标特征值和检测特征值；将检测特征值与定标特征值进行对比分析，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告。本发明实施例中，通过计算对待处理的远程面试者语音信号的定标特征值以及检测特征值，将检测特征值与定标特征值进行对比分析，仅需要语音信号，便能够快速有效地计算出待处理的远程面试者语音信号的中间特征，计算量小，参数少，鲁棒性较强，基于统计信号处理，可解释性强，物理意义明确，无需太多先验假设，使用灵活，提高了远程面谈评估的效率。

附图说明

图1为本发明实施例中基于语音的智能面试评估方法的一个实施例示意图；

图2为本发明实施例中基于语音的智能面试评估方法的另一个实施例示意图；

图3为本发明实施例中基于语音的智能面试评估装置的一个实施例示意图；

图4为本发明实施例中基于语音的智能面试评估装置的另一个实施例示意图；

图5为本发明实施例中基于语音的智能面试评估设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于语音的智能面试评估方法、装置、设备及存储介质，提高了远程面谈评估的效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于语音的智能面试评估方法的一个实施例包括：

101、获取待处理的远程面试者语音信号，对待处理的远程面试者语音信号进行端点检测，得到有效语音段落，并按照预设的定标时段，将有效语音段落划分为待定标语音段落和待检测语音段落。

可以理解的是，本发明的执行主体可以为基于语音的智能面试评估装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

在进行远程面试过程中，可通过麦克风或其他录音设备实时采集面试者的声音信号，即时域波形信号x(n)＝[x1(t),x2(t),…,xN(t)]，N表示采样点数，t表示采样时刻，服务器可通过接收麦克风或其他录音设备发送的面试者的声音信号，对该面试者的声音信号进行降噪增强处理，得到待处理的远程面试者语音信号；服务器也可从预置数据库中提取经过数据预处理的远程面试者语音信号，或者接收处理终端发送的待处理的远程面试者语音信号。

服务器调用预置的语音激活检测(voice activity detection，VAD)算法，检测待处理的远程面试者语音信号的端点，根据端点对待处理的远程面试者语音信号进行分割，得到有效语音段落。服务器按照预设的定标时段将有效语音段落划分为待定标语音段落和待检测语音段落，例如：预设的定标时段为语音信号的前20秒，则将前20秒(前M个)有效语音段落划分为待定标语音段落，将第20秒(第M+1个)之后的有效语音段落划分为待检测语音段落。

102、分别对待定标语音段落和待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征。

其中，语音特征提取的特征包括但不限于音量特征、语调特征、拖音特征、语速特征和流利度特征。服务器可通过预置的语音特征模型，分别对待定标语音段落和待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征，该语音特征模型为由按照预设的连接关系将音量特征、语调特征、拖音特征、语速特征和流利度特征分别对应的网络结构进行连接构造而成的模型，该语音特征模型能够用于提取音量特征、语调特征、拖音特征、语速特征和流利度特征。

服务器可通过分别对待定标语音段落和待检测语音段落进行分帧，帧间可以有重叠，逐帧计算分帧后的定标语音段落和待检测语音段落的音量特征，得到定标音量特征和检测音量特征，逐帧计算分帧后的定标语音段落和待检测语音段落的语调特征，得到定标语调特征和检测语调特征；服务器通过预置的幅度解调算法，分别对待定标语音段落和待检测语音段落进行包络的检测和提取，得到定标信号包络和检测信号包络，分别通过定标信号包络和检测信号包络，计算定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征；服务器通过分别计算待定标语音段落和待检测语音段落基于预设时间长度内的停顿次数，得到定标流利度特征和检测流利度特征，从而得到定标语音特征和检测语音特征。

103、分别计算定标语音特征和检测语音特征的统计值，得到定标特征值和检测特征值。

服务器得到定标语音特征和检测语音特征后，计算定标语音特征的定标特征向量和检测语音特征的检测特征向量，通过预置的统计算法，计算定标特征向量的最值、均值、标准差和分位数，将定标语音特征和定标特征值写入预置的表格Excel中，得到定标特征值，同理可得检测特征值。其中，统计值包括但不限于最值、均值、标准差和分位数。

104、将检测特征值与定标特征值进行对比分析，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告。

例如，服务器可通过预置的非线性模型，将检测特征值与定标特征值进行对比分析，得到面试者状况分析结果；服务器也可按照预设的对比分析策略，将检测特征值与定标特征值进行对比分析，得到面试者状况分析结果，其中，面试者状况分析结果包括但不限于情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果，该对比分析策略包括情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果的划分条件，其中，通过音量检测值与音量定标值，以及语调检测值与语调定标值的对比分析，能够得到情绪指向结果，通过拖音检测值与拖音定标值以及语速检测值与语速定标值的对比分析，能够得到自信程度结果和犹豫程度结果，通过流利度检测值与流利度定标值的对比分析，能够得到性格特质结果，生成情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果的键值，对预置的评估结果散列表进行键值对匹配，得到对应的面试者状况分析结果，该评估结果散列表包括情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果对应的等级分值、等级描述和评估结果，如：等级分值包括1-3、4-5、6-8和9-10，等级分值分别对应的等级描述分别为特差、差、良和优，对应的评估结果分别为不录用、不录用、不录用但放入储备库和录用。

服务器从预置的评估报告模块中根据面试者状况分析结果匹配对应的目标评估报告模块，通将目标评估报告模块进行合成，得到评估报告模板，将面试者状况分析结果写入评估报告模板中，得到评估报告。其中，情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果均可包括但不限于分值和/或程度描述词。

本发明实施例中，通过计算对待处理的远程面试者语音信号的定标特征值以及检测特征值，将检测特征值与定标特征值进行对比分析，仅需要语音信号，便能够快速有效地计算出待处理的远程面试者语音信号的中间特征，计算量小，参数少，鲁棒性较强，基于统计信号处理，可解释性强，物理意义明确，无需太多先验假设，使用灵活，提高了远程面谈评估的效率。

请参阅图2，本发明实施例中基于语音的智能面试评估方法的另一个实施例包括：

201、获取待处理的远程面试者语音信号，对待处理的远程面试者语音信号进行端点检测，得到有效语音段落，并按照预设的定标时段，将有效语音段落划分为待定标语音段落和待检测语音段落。

具体地，服务器获取初始远程面谈语音信号，对初始远程面谈语音信号进行声纹识别和声纹特征提取，得到声纹特征集；将声纹特征集与预置的面试官声纹特征信息进行匹配，得到匹配声纹特征，根据匹配声纹特征从声纹特征集中获取目标声纹特征；从初始远程面谈语音信号中，提取目标声纹特征对应的面试者语音信号；对面试者语音信号进行降噪处理和信号增强处理，得到待处理的远程面试者语音信号。

服务器通过接收预置终端或移动设备发送的远程面谈语音信号，得到初始远程面谈语音信号，对初始远程面谈语音信号进行声纹识别和声纹特征提取，得到声纹特征集，服务器可通过生成声纹特征集的对比知识图谱，并生成预置的面试官声纹特征信息的参考知识图谱，分别对对比知识图谱和参考知识图谱进行随机游走，得到对比声纹序列和参考声纹序列，计算对比声纹序列和参考声纹序列之间的相似度，判断相似度是否大于预设阈值，若是，则将大于预设阈值判定为匹配声纹特征(即为面试者官声纹特征)，将声纹特征集中的匹配声纹特征删除，得到目标声纹特征，若否，则判定不存在匹配声纹特征，即该全都是面试者的声纹特征，并将声纹特征集确定为目标声纹特征；服务器得到目标声纹特征后，提取初始远程面谈语音信号中目标声纹特征对应的面试者语音信号，对面试者语音信号进行降噪处理和信号增强处理，以提高待处理的远程面试者语音信号的语音信噪比和质量。

202、分别对待定标语音段落和待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征。

具体地，服务器分别对待定标语音段落和待检测语音段落依次进行分帧处理，以及基于时域能量特征的识别和提取，得到定标音量特征和检测音量特征；分别对待定标语音段落和待检测语音段落进行基于基音周期信息和基音频率信息的识别和提取，得到定标语调特征和检测语调特征；分别对待定标语音段落和待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征；按照预设的观察窗长度，分别对待定标语音段落和待检测语音段落依次进行滑动和停顿次数计算，得到定标流利度特征和检测流利度特征；将定标音量特征、定标语调特征、定标拖音特征、定标语速特征和定标流利度特征确定为定标语音特征，并将检测音量特征、检测语调特征、检测拖音特征、检测语速特征和检测流利度特征确定为检测语音特征。

服务器可通过分别对待定标语音段落和待检测语音段落进行分帧处理，帧间可以有重叠，通过快速傅里叶变换算法(fast fourier transformation，FFT)，对每一帧定标语音段落和每一帧待检测语音段落分别进行快速傅里叶变换处理，得到处理后的待定标语音段落和处理后的待检测语音段落，分别计算处理后的待定标语音段落和处理后的待检测语音段落的基于时域的能量，并根据基于时域的能量进行特征提取，得到定标音量特征和检测音量特征；

服务器通过预置的基于短时自相关法和短时平均幅度差的算法，分别逐帧计算经过分帧处理后的待定标语音段落和待检测语音段落的基频信息(包括基音周期信息和基音频率信息)，通过预置的声道模型和声管模型，分别逐帧计算经过分帧处理后的待定标语音段落和待检测语音段落的共振峰，将分帧处理后的待定标语音段落的基频和共振峰确定为定标语调特征，将分帧处理后的待检测语音段落的基频和共振峰确定为检测语调特征。

服务器分别对待定标语音段落和待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标语音特征中的定标拖音特征和定标语速特征，以及检测语音特征中的检测拖音特征和检测语速特征。

服务器按照预设的观察窗长度，分别对待定标语音段落和待检测语音段落依次进行滑动，得到滑动定标语音和滑动检测语音，计算滑动定标语音中相邻两端点之间的时长，得到定标时长，并计算滑动检测语音中相邻两端点之间的时长，得到检测时长，判断定标时长是否大于预设时长，若是，则判定为停顿，若否，则判定为非停顿，计算停顿的次数，得到定标流利度特征；判断检测时长是否大于预设时长，若是，则判定为停顿，若否，则判定为非停顿，计算停顿的次数，得到检测流利度特征。

具体地，服务器提取待定标语音段落的定标信号包络，以及待检测语音段落的检测信号包络；分别对定标信号包络和检测信号包络进行峰值谷值计算，得到定标音节数目和定标音节长度，以及检测音节数目和检测音节长度；根据定标音节数目和定标音节长度确定拖音数目，得到定标拖音特征，并根据检测音节数目和检测音节长度确定拖音数目，得到检测拖音特征；计算待定标语音段落的定标语段时长，以及待检测语音段落的检测语段时长；根据定标音节数目和定标语段时长，计算定标语速特征，并根据检测音节数目和检测语段时长，计算检测语速特征。

例如，服务器通过预置的幅度解调算法，分别对待定标语音段落和待检测语音段落进行包络检测，并提取检测所得的包络信息，得到定标信号包络和检测信号包络，计算定标信号包络中的峰值以及峰值相邻的两个谷值，得到定标音节数目NS1，计算两个谷值之间的时长，得到定标音节长度，同理可得检测定标音节数目NS2和检测定标音节长度，判断定标音节数目是否小于预设数目和/或定标音节长度小于预设长度，若是，则判定该音节为拖音，继续对别的音节进行判断，直到检测完音节数目中的最后一个音节，统计拖音的数量，得到定标拖音特征，若否，则判定该音节为非拖音，继续对别的音节进行判断，直到检测完音节数目中的最后一个音节，统计拖音的数量，得到定标拖音特征，同理可得检测拖音特征，得到定标语段时长T1和检测语段时长T2，通过计算NS1/T1＝S1，得到定标语速特征，通过计算NS2/T2＝S2，得到检测语速特征。

203、分别计算定标语音特征和检测语音特征的统计值，得到定标特征值和检测特征值。

步骤203的执行过程与上述步骤103的执行过程类似，在此不再赘述。

204、获取基于定标特征值中音量定标值的音量等级范围值，以及基于检测特征值中语调定标值的语调等级范围值，定标特征值包括音量定标值、语调定标值、拖音定标值、语速定标值和流利度定标值，检测特征值包括音量检测值、语调检测值、拖音检测值、语速检测值和流利度检测值。

具体地，服务器通过预设第一倍数，分别计算定标特征值中音量定标值和检测特征值中语调定标值的等级倍数，得到第一音量定标等级值和第一语调定标等级值，以及通过预设第二倍数，分别计算音量定标值和语调定标值的等级倍数，得到第二音量定标等级值和第二语调定标等级值；根据第一音量定标等级值和第二音量定标等级值确定多个音量定标区间，得到音量等级范围值，并根据第一语调定标等级值和第二语调定标等级值确定多个语调定标区间，得到语调等级范围值。

例如，预设第一倍数为α，预设第二倍数为β，音量定标值和语调定标值分别为Q和W，计算得到第一音量定标等级值αQ、第二音量定标等级值βQ、第一语调定标等级值αW和第二语调定标等级值βW，将音量等级范围值为[-∞,αQ]、[αQ,βQ]和[βQ,+∞]，语调等级范围值为[-∞,αW]、[αW,βW]和[βW,+∞]。

205、将音量检测值与音量等级范围值进行对比分析，并将语调检测值和语调等级范围值进行对比分析，得到情绪指向结果。

服务器按照预设的情绪指向判断策略，将音量检测值与音量等级范围值进行判断分析，并将语调检测值和语调等级范围值进行判断分析，得到情绪指向结果，其中，预设的情绪指向判断策略如下：若音量定标值Q处于音量等级范围值[-∞,αQ]中且语调定标值W处于语调等级范围值[-∞,αW]中，则判定情绪指向为第一等级，若音量定标值Q处于音量等级范围值[αQ,βQ]中，且语调定标值W处于语调等级范围值[αW,βW]中，则判定情绪指向为第二等级，若音量定标值Q处于音量等级范围值[βQ,+∞]中，且语调定标值W处于语调等级范围值[βW,+∞]中，则判定情绪指向为第三等级，从而得到情绪指向结果。

206、将拖音检测值与预设拖音范围值进行对比分析，并将语速检测值与预设语速范围值进行对比分析，得到自信程度结果和犹豫程度结果，预设拖音范围值包括拖音定标值和/或拖音预设值，预设语速范围值包括语速定标值和/或预设语速值。

例如，判断拖音检测值是否小于或等于预设拖音范围值，若是，则判定拖音检测值较小；若否，则判定拖音检测值较大，判断语速检测值是否小于或等于预设语速范围值，若是，则判定语速检测值较小，若否，则判定语速检测值较大，若为拖音检测值较大且语速检测值较小，则判定犹豫程度较大和自信程度较小，若拖音检测值较小且语速检测值较大，则判定犹豫程度较小和自信程度较大，并根据拖音检测值和语速检测值，对预置的自信犹豫分值决策树进行检索，得到对应的自信程度分值和犹豫程度分值，从而得到自信程度结果和犹豫程度结果。

207、将流利度检测值与流利度定标值进行对比分析，得到专注度结果和性格特质结果。

例如，服务器除了将流利度检测值与流利度定标值进行对比分析之外，还将流利度检测值与预设停顿次数进行对比分析，即服务器判断流利度定标值是否小于流利度定标值，且流利度检测值小于预设停顿次数，若是，则判定专注度高和性格特质为热情外向，若否，则判定专注度低和性格特质为平稳内向，并根据流利度检测值和停顿次数，对预置的流利度分值决策树进行检索，得到对应的专注度分值和性格特质分值，从而得到专注度结果(专注度高或专注度低，以及专注度分值)和性格特质结果(性格特质为热情外向或性格特质为平稳内向，以及性格特质结果)。

208、根据情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果生成可视化图表，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告。

服务器通过预置的线性判别分析算法，对情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果进行分类，得到分类信息，该分类信息可包括但不限于表现类型，根据情绪指向结果、自信程度结果、犹豫程度结果、专注度结果、性格特质结果和分类信息生成可视化图表，从而得到面试者状况分析结果，将该面试者状况分析结果写入评估文本模板中，得到评估报告。

具体地，服务器根据情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果生成可视化图表，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告之后，还获取基于评估报告的优化信息，根据优化信息对面试者状况分析结果的执行过程进行调整。

服务器得到评估报告后，将该评估报告发送至面试官的终端，通过面试官的终端，根据预设的优化调整策略，对该评估报告进行分析，得到优化信息，或者通过面试官在面试官的终端的显示界面上输入基于评估报告的优化信息，面试官的终端得到优化信息后，将该优先信息发送至服务器，其中，该优化信息可包括但不限于对评估报告的评分以及该优化的意见信息，服务器接收到该优化信息后，根据该优化信息，对面试者状况分析结果的执行过程进行调整，以及对面试者状况分析结果所采用的算法或模型进行增加或删除、网络结构调整和运用对象调整，以实现面试者状况分析结果的执行过程的不断优化，提高了面试者状况分析结果的准确性。

上面对本发明实施例中基于语音的智能面试评估方法进行了描述，下面对本发明实施例中基于语音的智能面试评估装置进行描述，请参阅图3，本发明实施例中基于语音的智能面试评估装置一个实施例包括：

端点检测模块301，用于获取待处理的远程面试者语音信号，对待处理的远程面试者语音信号进行端点检测，得到有效语音段落，并按照预设的定标时段，将有效语音段落划分为待定标语音段落和待检测语音段落；

特征提取模块302，用于分别对待定标语音段落和待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征；

计算模块303，用于分别计算定标语音特征和检测语音特征的统计值，得到定标特征值和检测特征值；

分析生成模块304，用于将检测特征值与定标特征值进行对比分析，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告。

上述基于语音的智能面试评估装置中各个模块的功能实现与上述基于语音的智能面试评估方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本发明实施例中基于语音的智能面试评估装置的另一个实施例包括：

分析生成模块304，用于将检测特征值与定标特征值进行对比分析，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告；

其中，分析生成模块304具体包括：

获取单元3041，用于获取基于定标特征值中音量定标值的音量等级范围值，以及基于检测特征值中语调定标值的语调等级范围值，定标特征值包括音量定标值、语调定标值、拖音定标值、语速定标值和流利度定标值，检测特征值包括音量检测值、语调检测值、拖音检测值、语速检测值和流利度检测值；

第一对比分析单元3042，用于将音量检测值与音量等级范围值进行对比分析，并将语调检测值和语调等级范围值进行对比分析，得到情绪指向结果；

第二对比分析单元3043，用于将拖音检测值与预设拖音范围值进行对比分析，并将语速检测值与预设语速范围值进行对比分析，得到自信程度结果和犹豫程度结果，预设拖音范围值包括拖音定标值和/或拖音预设值，预设语速范围值包括语速定标值和/或预设语速值；

第三对比分析单元3044，用于将流利度检测值与流利度定标值进行对比分析，得到专注度结果和性格特质结果；

生成单元3045，用于根据情绪指向结果、自信程度结果、犹豫程度结果、专注度结果和性格特质结果生成可视化图表，得到面试者状况分析结果，并根据面试者状况分析结果生成评估报告。

可选的，特征提取模块302还可以具体用于：

第一识别提取单元3021，用于分别对待定标语音段落和待检测语音段落依次进行分帧处理，以及基于时域能量特征的识别和提取，得到定标音量特征和检测音量特征；

第二识别提取单元3022，用于分别对待定标语音段落和待检测语音段落进行基于基音周期信息和基音频率信息的识别和提取，得到定标语调特征和检测语调特征；

第一计算单元3023，用于分别对待定标语音段落和待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征；

第二计算单元3024，用于按照预设的观察窗长度，分别对待定标语音段落和待检测语音段落依次进行滑动和停顿次数计算，得到定标流利度特征和检测流利度特征；

确定单元3025，用于将定标音量特征、定标语调特征、定标拖音特征、定标语速特征和定标流利度特征确定为定标语音特征，并将检测音量特征、检测语调特征、检测拖音特征、检测语速特征和检测流利度特征确定为检测语音特征。

可选的，第一计算单元3023还可以具体用于：

提取待定标语音段落的定标信号包络，以及待检测语音段落的检测信号包络；

分别对定标信号包络和检测信号包络进行峰值谷值计算，得到定标音节数目和定标音节长度，以及检测音节数目和检测音节长度；

根据定标音节数目和定标音节长度确定拖音数目，得到定标拖音特征，并根据检测音节数目和检测音节长度确定拖音数目，得到检测拖音特征；

计算待定标语音段落的定标语段时长，以及待检测语音段落的检测语段时长；

根据定标音节数目和定标语段时长，计算定标语速特征，并根据检测音节数目和检测语段时长，计算检测语速特征。

可选的，获取单元3041还可以具体用于：

通过预设第一倍数，分别计算定标特征值中音量定标值和检测特征值中语调定标值的等级倍数，得到第一音量定标等级值和第一语调定标等级值，以及通过预设第二倍数，分别计算音量定标值和语调定标值的等级倍数，得到第二音量定标等级值和第二语调定标等级值；

根据第一音量定标等级值和第二音量定标等级值确定多个音量定标区间，得到音量等级范围值，并根据第一语调定标等级值和第二语调定标等级值确定多个语调定标区间，得到语调等级范围值。

可选的，端点检测模块301还可以具体用于：

获取初始远程面谈语音信号，对初始远程面谈语音信号进行声纹识别和声纹特征提取，得到声纹特征集；

将声纹特征集与预置的面试官声纹特征信息进行匹配，得到匹配声纹特征，根据匹配声纹特征从声纹特征集中获取目标声纹特征；

从初始远程面谈语音信号中，提取目标声纹特征对应的面试者语音信号；

对面试者语音信号进行降噪处理和信号增强处理，得到待处理的远程面试者语音信号。

可选的，基于语音的智能面试评估装置，还包括：

调整模块305，用于获取基于评估报告的优化信息，根据优化信息对面试者状况分析结果的执行过程进行调整。

上述基于语音的智能面试评估装置中各模块和各单元的功能实现与上述基于语音的智能面试评估方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于语音的智能面试评估装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于语音的智能面试评估设备进行详细描述。

图5是本发明实施例提供的一种基于语音的智能面试评估设备的结构示意图，该基于语音的智能面试评估设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于语音的智能面试评估设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于语音的智能面试评估设备500上执行存储介质530中的一系列指令操作。

基于语音的智能面试评估设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于语音的智能面试评估设备结构并不构成对基于语音的智能面试评估设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行基于语音的智能面试评估方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音的智能面试评估方法，其特征在于，所述基于语音的智能面试评估方法包括：

2.根据权利要求1所述的基于语音的智能面试评估方法，其特征在于，所述分别对所述待定标语音段落和所述待检测语音段落进行语音特征提取，得到定标语音特征和检测语音特征，包括：

3.根据权利要求2所述的基于语音的智能面试评估方法，其特征在于，所述分别对所述待定标语音段落和所述待检测语音段落依次进行包络提取、峰值谷值计算和语速计算，得到定标拖音特征和定标语速特征，以及检测拖音特征和检测语速特征，包括：

4.根据权利要求1所述的基于语音的智能面试评估方法，其特征在于，所述将所述检测特征值与所述定标特征值进行对比分析，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告，包括：

5.根据权利要求4所述的基于语音的智能面试评估方法，其特征在于，所述获取基于所述定标特征值中音量定标值的音量等级范围值，以及基于所述检测特征值中语调定标值的语调等级范围值，包括：

6.根据权利要求1所述的基于语音的智能面试评估方法，其特征在于，所述获取待处理的远程面试者语音信号，包括：

7.根据权利要求1-6中任一项所述的基于语音的智能面试评估方法，其特征在于，所述将所述检测特征值与所述定标特征值进行对比分析，得到面试者状况分析结果，并根据所述面试者状况分析结果生成评估报告之后，还包括：

8.一种基于语音的智能面试评估装置，其特征在于，所述基于语音的智能面试评估装置包括：

9.一种基于语音的智能面试评估设备，其特征在于，所述基于语音的智能面试评估设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音的智能面试评估设备执行如权利要求1-7中任意一项所述的基于语音的智能面试评估方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于语音的智能面试评估方法。