CN111126233B

CN111126233B - 基于距离值的通话通道构建方法、装置和计算机设备

Info

Publication number: CN111126233B
Application number: CN201911310989.5A
Authority: CN
Inventors: 卢显锋
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-07-21
Anticipated expiration: 2039-12-18
Also published as: CN111126233A

Abstract

本申请揭示了一种基于距离值的通话通道构建方法、装置、计算机设备和存储介质，所述方法包括：获取谈话视频；从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；采集所述视频片段集中所述谈话对象的语音内容与语音特征，并映射为第一向量；采集视频片段集中所述谈话对象的形体特征，并映射为第二向量；将第一向量与所述第二向量组合为综合向量；计算综合向量与预设的参照向量之间的距离值；若所述距离值大于距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。从而提高了对象匹配并构建通话通道的准确性。

Description

基于距离值的通话通道构建方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到一种基于距离值的通话通道构建方法、装置、计算机设备和存储介质。

背景技术

对象匹配的判断方法可用于当今社会中的各个领域，例如社交领域中，若能准确判断出两个对象之间是否匹配，就能提高人们的互动交流效率；在研发领域中，若能准确判断两个工程师之间是否匹配，就能有效构建强有力的研发小组，提高研发效率减少磨合成本；在保险领域中，若能准确判断出续保客户与工作人员是否匹配，就能提高续保率同时减少成本浪费。但是，传统技术一般是基于人的主观意识来认定两个对象是否匹配，但没有自动地有效识别对象间是否匹配，并在匹配后为匹配的对象构建通话通道的技术方案。因此传统技术的基于对象匹配并构建通话通道的方案准确性不足。

发明内容

本申请的主要目的为提供一种基于距离值的通话通道构建方法、装置、计算机设备和存储介质，旨在提高对象匹配的准确度。

为了实现上述发明目的，本申请提出一种基于距离值的通话通道构建方法，包括以下步骤：

获取谈话视频，所述谈话视频为第一对象与谈话对象的交谈视频；

采集所述谈话视频中所述第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；

采集所述视频片段集中所述谈话对象的语音内容与语音特征，并根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量；

采集所述视频片段集中所述谈话对象的形体特征，并根据预设的第二向量映射方法，将所述形体特征映射为高维虚拟空间中的第二向量；

根据预设的向量组合方法，将所述第一向量与所述第二向量组合为综合向量；

根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应；

若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。

进一步地，所述第一对象的面部图像为侧脸图像，所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤之前，包括：

获取预设数量的样本数据，并将所述样本数据划分成训练集和测试集；其中，所述样本数据包括人类的侧脸图像，以及与所述侧脸图像对应的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

将训练集的样本数据输入到预设的神经网络模型中进行训练；其中，训练的过程中采用随机梯度下降法，从而得到初始模型；

利用所述测试集的样本数据验证所述初始模型，并判断所述初始模型是否验证通过；

若所述初始模型验证通过，则将所述初始模型记为表情识别模型。

进一步地，所述谈话视频是通过全景镜头获得的视频，所述第一对象的面部图像为正脸图像，所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤之前，包括：

获取预设数量的样本数据，并将所述样本数据划分成训练集和测试集；其中，所述样本数据包括通过全景镜头采集的人类的正脸图像，以及与所述正脸图像对应的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

进一步地，所述语音特征至少包括语速、语调和重音位置，所述根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量的步骤,包括：

根据预设的语音识别技术，将所述语音内容识别为语音文本；

对所述语音文本进行同义词替换处理，从而得到中间文本，并获取所述中间文本中词频数值大于预设词频阈值的多个指定关键词；

根据预设的关键词与分向量数值的对应关系，获取与所述指定关键词对应的分向量数值，从而将所述语音内容映射为关键词向量，其中所述关键词向量的分向量的数值为所述指定关键词对应的分向量数值；

根据预设的语速、语调和重音位置与分向量数值的对应关系，获取所述语速、语调和重音位置对应的分向量数值，从而将所述语音特征映射为语音向量，其中所述语音向量的分向量的数值为所述语速、语调和重音位置对应的分向量数值；

生成高维虚拟空间中的第一向量，其中所述第一向量由所述关键词向量和所述语音向量顺序连接而构成。

进一步地，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应的步骤之前，包括：

获取所述第二对象的常用词汇和语音特征，并将所述第二对象的常用词汇和语音特征映射为高维虚拟空间中的第三向量；

获取所述第二对象的形体特征，并将所述第二对象的形体特征映射为高维虚拟空间中的第四向量；

将所述第三向量与第四向量组合为所述参照向量。

进一步地，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值的步骤,包括：

根据公式：计算所述综合向量与预设的参照向量之间的距离值DIS，其中A为所述综合向量，B为所述参照向量，Ai为所述综合向量中第i个分向量的数值，Bi为所述参照向量中第i个分向量的数值，所述综合向量和所述参照向量均具有n个分向量。

进一步地，所述参照向量有多个，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值的步骤,包括：

根据公式：

计算出参照向量X在所述高维虚拟空间中的长度值D_X，其中Xi为所述参照向量X中第i个分向量的数值，所述参照向量X具有n个分向量；

根据公式：

计算出综合向量A在所述高维虚拟空间中的长度值D_A，其中Ai为所述综合向量A中第i个分向量的数值，所述综合向量A具有n个分向量；

获取符合公式：|D_A-D_X|<p的参照向量，并记为最终参照向量B，其中p为预设的误差参数；

根据公式：计算所述综合向量A与所述最终参照向量B之间的距离值DIS，其中Ai为所述综合向量A中第i个分向量的数值，Bi为所述最终参照向量B中第i个分向量的数值。

本申请提供一种基于距离值的通话通道构建装置，包括：

谈话视频获取单元，用于获取谈话视频，所述谈话视频为第一对象与谈话对象的交谈视频；

面部图像识别单元，用于采集所述谈话视频中所述第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

视频片段集获取单元，用于从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；

第一向量映射单元，用于采集所述视频片段集中所述谈话对象的语音内容与语音特征，并根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量；

第二向量映射单元，用于采集所述视频片段集中所述谈话对象的形体特征，并根据预设的第二向量映射方法，将所述形体特征映射为高维虚拟空间中的第二向量；

综合向量组合单元，用于根据预设的向量组合方法，将所述第一向量与所述第二向量组合为综合向量；

距离值判断单元，用于根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应；

通话通道构建单元，用于若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于距离值的通话通道构建方法、装置、计算机设备和存储介质，获取谈话视频；采集所述谈话视频中第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理；从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；采集所述视频片段集中所述谈话对象的语音内容与语音特征，并映射为高维虚拟空间中的第一向量；采集所述视频片段集中所述谈话对象的形体特征，并映射为高维虚拟空间中的第二向量；将所述第一向量与所述第二向量组合为综合向量；计算所述综合向量与预设的参照向量之间的距离值；若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。从而利用已有视频中第一对象感兴趣的特征信息，来准确找到合适的第二对象，最终提高了对象匹配并构建通话通道的准确性。

附图说明

图1为本申请一实施例的基于距离值的通话通道构建方法的流程示意图；

图2为本申请一实施例的基于距离值的通话通道构建装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于距离值的通话通道构建方法，包括以下步骤：

S1、获取谈话视频，所述谈话视频为第一对象与谈话对象的交谈视频；

S2、采集所述谈话视频中所述第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

S3、从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；

S4、采集所述视频片段集中所述谈话对象的语音内容与语音特征，并根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量；

S5、采集所述视频片段集中所述谈话对象的形体特征，并根据预设的第二向量映射方法，将所述形体特征映射为高维虚拟空间中的第二向量；

S6、根据预设的向量组合方法，将所述第一向量与所述第二向量组合为综合向量；

S7、根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应；

S8、若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。

如上述步骤S1所述，获取谈话视频，所述谈话视频为第一对象与谈话对象的交谈视频。其中，所述谈话视频是用于获取所述第一对象感兴趣的内容，从而作为后续对象匹配的基础。所述谈话视频可以为任意视频，例如为普通视频采集装置采集的视频(此时，由于第一对象与谈话对象一般为对面而坐，因此采集到的视频一般为第一对象与谈话对象各自的侧面)，或者为通过全景镜头获得的视频(此时，由于全景镜头能捕捉360度的视频，因此，采集到的视频一般为第一对象与谈话对象各自的正面)。

如上述步骤S2所述，采集所述谈话视频中所述第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情。人的面部是具有表情的，不同的表情表明人是否有兴趣(即将表情分类为两种，有兴趣和无兴趣)。据此，可通过表情识别得到第一对象有兴趣的内容。其中，所述神经网络可为任意网络，例如为VGG16模型、VGG-F模型、ResNet152模型、InceptionV3模型、Xception模型和AlexNet模型等。神经网络可适用于对图像进行处理，进而胜任图像分类的任务。据此，将所述面部图像识别为不同的面部表情类别。

如上述步骤S3所述，从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集。所述多个视频片段中均包含了第一对象感兴趣的内容，将其组成视频片段集，作为后续分析的基础。

如上述步骤S4所述，采集所述视频片段集中所述谈话对象的语音内容与语音特征，并根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量。第一对象感兴趣的内容，可能是所述谈话对象的语音内容(例如谈话对象谈及了第一对象感兴趣的部分，例如车辆、股票等)与语音特征(例如谈话对象的语速、语调和重音位置，正好为第一对象所喜欢)。因此，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量。其中映射的方法例如为：根据预设的语音识别技术，将所述语音内容识别为语音文本；

对所述语音文本进行同义词替换处理，从而得到中间文本，并获取所述中间文本中词频数值大于预设词频阈值的多个指定关键词；、根据预设的关键词与分向量数值的对应关系，获取与所述指定关键词对应的分向量数值，从而将所述语音内容映射为关键词向量，其中所述关键词向量的分向量的数值为所述指定关键词对应的分向量数值；根据预设的语速、语调和重音位置与分向量数值的对应关系，获取所述语速、语调和重音位置对应的分向量数值，从而将所述语音特征映射为语音向量，其中所述语音向量的分向量的数值为所述语速、语调和重音位置对应的分向量数值；生成高维虚拟空间中的第一向量，其中所述第一向量由所述关键词向量和所述语音向量顺序连接而构成。

如上述步骤S5所述，采集所述视频片段集中所述谈话对象的形体特征，并根据预设的第二向量映射方法，将所述形体特征映射为高维虚拟空间中的第二向量。第一对象感兴趣的原因，还可能为谈话对象的形体特征(例如身材、穿着、肢体动作或者容貌等)。据此，根据预设的第二向量映射方法，将所述形体特征映射为高维虚拟空间中的第二向量。

如上述步骤S6所述，根据预设的向量组合方法，将所述第一向量与所述第二向量组合为综合向量。由于第一向量与第二向量均可能是第一对象的感兴趣因素，因此将其组合为综合向量。其中组合的方式可为任意方式，例如为将第一向量与第二向量顺序连接，从而构成综合向量。

如上述步骤S7所述，根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应。其中所述距离值用于衡量第一对象与第二对象是否匹配。具体的，所述距离计算方法例如为：根据公式：计算所述综合向量与预设的参照向量之间的距离值DIS，其中A为所述综合向量，B为所述参照向量，Ai为所述综合向量中第i个分向量的数值，Bi为所述参照向量中第i个分向量的数值，所述综合向量和所述参照向量均具有n个分向量。其中，在采用上述距离计算公式时，距离值DIS的最大值为1，因此当所述综合向量与预设的参照向量之间的距离值DIS越靠近1，表明所述第一对象与第二对象越匹配。

如上述步骤S8所述，若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。若所述距离值大于预设的距离阈值，则可认定第一对象与第二对象匹配。据此，构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。其中，所述终端例如为移动终端，所述通话通道例如为拨打手机号。

在一个实施方式中，所述第一对象的面部图像为侧脸图像，所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤S2之前，包括：

S111、获取预设数量的样本数据，并将所述样本数据划分成训练集和测试集；其中，所述样本数据包括人类的侧脸图像，以及与所述侧脸图像对应的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

S112、将训练集的样本数据输入到预设的神经网络模型中进行训练；其中，训练的过程中采用随机梯度下降法，从而得到初始模型；

S113、利用所述测试集的样本数据验证所述初始模型，并判断所述初始模型是否验证通过；

S114、若所述初始模型验证通过，则将所述初始模型记为表情识别模型。

如上所述，实现了获取表情识别模型。普通视频采集设备在采集谈话场景时，一般只能采集到第一对象与谈话对象的侧脸，因此，本申请预先收集人类的侧脸图像，以及与所述侧脸图像对应的面部表情类别作为样本数据，以提高模型的识别准确度。由于传统的表情识别模型的训练方法，均是采用正脸图像作为训练数据，因此其不适用于本申请的与侧脸图像相关的表情识别，将造成识别错误。其中，训练的过程采用随机梯度下降法，是指随机取样一些训练数据，替代整个训练集，在样本量很大的情况，那么只用其中部分的样本，就已经迭代到最优解了，可以提高训练速度。

在一个实施方式中，所述谈话视频是通过全景镜头获得的视频，所述第一对象的面部图像为正脸图像，所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤S2之前，包括：

S121、获取预设数量的样本数据，并将所述样本数据划分成训练集和测试集；其中，所述样本数据包括通过全景镜头采集的人类的正脸图像，以及与所述正脸图像对应的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

S122、将训练集的样本数据输入到预设的神经网络模型中进行训练；其中，训练的过程中采用随机梯度下降法，从而得到初始模型；

S123、利用所述测试集的样本数据验证所述初始模型，并判断所述初始模型是否验证通过；

S124、若所述初始模型验证通过，则将所述初始模型记为表情识别模型。

如上所述，实现了获取表情识别模型。由于普通视频采集设备在采集谈话场景时只能采集到侧面，而人类的左右脸表情并非完全对称，因此采用侧脸的方案，识别精度仍有不足。因此，本申请采用所述谈话视频是通过全景镜头获得的视频的方式，使得谈话场景中第一对象的正脸图像得以采集，相应的，样本数据包括通过全景镜头采集的人类的正脸图像，以及与所述正脸图像对应的面部表情类别。其中，需要强调的是，样本数据中的所述正脸图像并非是普通视频采集设备采集到的正脸，而是由全景镜头采集到的正脸(因为全景镜头的特殊性，其采集到图像与普通镜头的图像不同，因此普通的正脸图像无法作为训练数据)。据此，提高了表情识别的准确性。

在一个实施方式中，所述语音特征至少包括语速、语调和重音位置，所述根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量的步骤S4,包括：

S401、根据预设的语音识别技术，将所述语音内容识别为语音文本；

S402、对所述语音文本进行同义词替换处理，从而得到中间文本，并获取所述中间文本中词频数值大于预设词频阈值的多个指定关键词；

S403、根据预设的关键词与分向量数值的对应关系，获取与所述指定关键词对应的分向量数值，从而将所述语音内容映射为关键词向量，其中所述关键词向量的分向量的数值为所述指定关键词对应的分向量数值；

S404、根据预设的语速、语调和重音位置与分向量数值的对应关系，获取所述语速、语调和重音位置对应的分向量数值，从而将所述语音特征映射为语音向量，其中所述语音向量的分向量的数值为所述语速、语调和重音位置对应的分向量数值；

S405、生成高维虚拟空间中的第一向量，其中所述第一向量由所述关键词向量和所述语音向量顺序连接而构成。

如上所述，实现了根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量。所述同义词替换处理，是指将所述语音文本中的同义词采用相同的词汇进行替换，从而使词频的统计更强准确。其中，所述中间文本中词频数值大于预设词频阈值的多个指定关键词，反应了所述语音内容中的主要信息或者说话者的语癖(其中，若语癖是第一对象欣赏的，那么具有相同语癖的说话者一般也能得到第一对象欣赏，因此也能作为对象匹配的依据)，例如在一句话中多次提到股票，那么股票则很可能是主要信息。而语速、语调和重音位置可作为语音特征，代表一个人的说话特性。据此，获取所述语速、语调和重音位置对应的分向量数值，从而将所述语音特征映射为语音向量。再生成高维虚拟空间中的第一向量，其中所述第一向量由所述关键词向量和所述语音向量顺序连接而构成。从而第一向量即可代表所述语音内容与语音特征。

在一个实施方式中，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应的步骤S7之前，包括：

S61、获取所述第二对象的常用词汇和语音特征，并将所述第二对象的常用词汇和语音特征映射为高维虚拟空间中的第三向量；

S62、获取所述第二对象的形体特征，并将所述第二对象的形体特征映射为高维虚拟空间中的第四向量；

S63、将所述第三向量与第四向量组合为所述参照向量。

如上所述，实现了获取参照向量。由于参照向量要用于计算与第一向量之间的距离值，因此参照向量的生成方法优选与第一向量的生成方法相同。因此，同样地，获取所述第二对象的常用词汇和语音特征，并将所述第二对象的常用词汇和语音特征映射为高维虚拟空间中的第三向量；获取所述第二对象的形体特征，并将所述第二对象的形体特征映射为高维虚拟空间中的第四向量。其中，所述常用词汇表示了第二对象的语癖或者擅长的领域，与前述语音内容相对应。据此生成的参照向量，由于与第一向量的结构相似，因此可用距离值来反应匹配程度。

在一个实施方式中，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值的步骤S7,包括：

S701、根据公式：计算所述综合向量与预设的参照向量之间的距离值DIS，其中A为所述综合向量，B为所述参照向量，Ai为所述综合向量中第i个分向量的数值，Bi为所述参照向量中第i个分向量的数值，所述综合向量和所述参照向量均具有n个分向量。

如上所述，实现了根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值。其中上述公式，反应的是所述综合向量与预设的参照向量之间在多维虚拟空间中的角度差异。若距离值DIS等于1，表明所述综合向量与预设的参照向量的方向是相同的，即所述综合向量与预设的参照向量之间没有夹角(正向平行)，此时，认定所述综合向量与预设的参照向量(即第一对象与第二对象)的匹配程度最高。

在一个实施方式中，所述参照向量有多个，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值的步骤S7,包括：

S711、根据公式：

S712、根据公式：

S713、获取符合公式：|D_A-D_X|<p的参照向量，并记为最终参照向量B，其中p为预设的误差参数；

S714、根据公式：计算所述综合向量A与所述最终参照向量B之间的距离值DIS，其中Ai为所述综合向量A中第i个分向量的数值，Bi为所述最终参照向量B中第i个分向量的数值。

如上所述，实现了根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值。由于参照向量有多个，若一一计算综合向量与参照向量之间的距离值，会大大增加计算负担。因此，本申请通过根据公式：计算出参照向量X在所述高维虚拟空间中的长度值D_X；根据公式：/>计算出综合向量A在所述高维虚拟空间中的长度值D_A；获取符合公式：|D_A-D_X|<p的参照向量，并将其记为最终参照向量B的方式，预先筛选出与所述综合向量A有较高相似性的最终参照向量B，以降低计算负担。并且，由于上述距离值DIS的计算公式仅考虑了向量间的角度，并未考虑向量的长度，因此在准确性方面仍有欠缺。本申请通过预先计算长度值并进行筛选的方式，弥补了该缺陷，进一步提高了准确性。

本申请的基于距离值的通话通道构建方法，获取谈话视频；采集所述谈话视频中第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理；从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；采集所述视频片段集中所述谈话对象的语音内容与语音特征，并映射为高维虚拟空间中的第一向量；采集所述视频片段集中所述谈话对象的形体特征，并映射为高维虚拟空间中的第二向量；将所述第一向量与所述第二向量组合为综合向量；计算所述综合向量与预设的参照向量之间的距离值；若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。从而利用已有视频中第一对象感兴趣的特征信息，来准确找到合适的第二对象，最终提高了对象匹配并构建通话通道的准确性。

参照图2，本申请实施例提供一种基于距离值的通话通道构建装置，包括：

谈话视频获取单元10，用于获取谈话视频，所述谈话视频为第一对象与谈话对象的交谈视频；

面部图像识别单元20，用于采集所述谈话视频中所述第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

视频片段集获取单元30，用于从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；

第一向量映射单元40，用于采集所述视频片段集中所述谈话对象的语音内容与语音特征，并根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量；

第二向量映射单元50，用于采集所述视频片段集中所述谈话对象的形体特征，并根据预设的第二向量映射方法，将所述形体特征映射为高维虚拟空间中的第二向量；

综合向量组合单元60，用于根据预设的向量组合方法，将所述第一向量与所述第二向量组合为综合向量；

距离值判断单元70，用于根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应；

通话通道构建单元80，用于若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。

其中上述单元分别用于执行的操作与前述实施方式的基于距离值的通话通道构建方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述第一对象的面部图像为侧脸图像，所述装置，包括：

样本数据获取单元，用于获取预设数量的样本数据，并将所述样本数据划分成训练集和测试集；其中，所述样本数据包括人类的侧脸图像，以及与所述侧脸图像对应的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

初始模型获取单元，用于将训练集的样本数据输入到预设的神经网络模型中进行训练；其中，训练的过程中采用随机梯度下降法，从而得到初始模型；

模型验证单元，用于利用所述测试集的样本数据验证所述初始模型，并判断所述初始模型是否验证通过；

表情识别模型标记单元，用于若所述初始模型验证通过，则将所述初始模型记为表情识别模型。

在一个实施方式中，所述谈话视频是通过全景镜头获得的视频，所述第一对象的面部图像为正脸图像，所述装置，包括：

样本数据划分单元，用于获取预设数量的样本数据，并将所述样本数据划分成训练集和测试集；其中，所述样本数据包括通过全景镜头采集的人类的正脸图像，以及与所述正脸图像对应的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情；

训练单元，用于将训练集的样本数据输入到预设的神经网络模型中进行训练；其中，训练的过程中采用随机梯度下降法，从而得到初始模型；

验证单元，用于利用所述测试集的样本数据验证所述初始模型，并判断所述初始模型是否验证通过；

标记单元，用于若所述初始模型验证通过，则将所述初始模型记为表情识别模型。

在一个实施方式中，所述语音特征至少包括语速、语调和重音位置，所述第一向量映射单元40,包括：

语音识别子单元，用于根据预设的语音识别技术，将所述语音内容识别为语音文本；

中间文本获取子单元，用于对所述语音文本进行同义词替换处理，从而得到中间文本，并获取所述中间文本中词频数值大于预设词频阈值的多个指定关键词；

关键词向量映射子单元，用于根据预设的关键词与分向量数值的对应关系，获取与所述指定关键词对应的分向量数值，从而将所述语音内容映射为关键词向量，其中所述关键词向量的分向量的数值为所述指定关键词对应的分向量数值；

语音向量映射子单元，用于根据预设的语速、语调和重音位置与分向量数值的对应关系，获取所述语速、语调和重音位置对应的分向量数值，从而将所述语音特征映射为语音向量，其中所述语音向量的分向量的数值为所述语速、语调和重音位置对应的分向量数值；

第一向量生成子单元，用于生成高维虚拟空间中的第一向量，其中所述第一向量由所述关键词向量和所述语音向量顺序连接而构成。

其中上述子单元分别用于执行的操作与前述实施方式的基于距离值的通话通道构建方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述装置，包括：

第三向量生成单元，用于获取所述第二对象的常用词汇和语音特征，并将所述第二对象的常用词汇和语音特征映射为高维虚拟空间中的第三向量；

第四向量生成单元，用于获取所述第二对象的形体特征，并将所述第二对象的形体特征映射为高维虚拟空间中的第四向量；

参照向量组合单元，用于将所述第三向量与第四向量组合为所述参照向量。

在一个实施方式中，所述距离值判断单元70,包括：

距离值计算子单元，用于根据公式：计算所述综合向量与预设的参照向量之间的距离值DIS，其中A为所述综合向量，B为所述参照向量，Ai为所述综合向量中第i个分向量的数值，Bi为所述参照向量中第i个分向量的数值，所述综合向量和所述参照向量均具有n个分向量。

在一个实施方式中，所述参照向量有多个，所述距离值判断单元70,包括：

长度值D_X计算子单元，用于根据公式：

长度值D_A计算子单元，用于根据公式：

最终参照向量B获取子单元，用于获取符合公式：|D_A-D_X|<p的参照向量，并记为最终参照向量B，其中p为预设的误差参数；

距离值DIS计算子单元，用于根据公式：计算所述综合向量A与所述最终参照向量B之间的距离值DIS，其中Ai为所述综合向量A中第i个分向量的数值，Bi为所述最终参照向量B中第i个分向量的数值。

本申请的基于距离值的通话通道构建装置，获取谈话视频；采集所述谈话视频中第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理；从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；采集所述视频片段集中所述谈话对象的语音内容与语音特征，并映射为高维虚拟空间中的第一向量；采集所述视频片段集中所述谈话对象的形体特征，并映射为高维虚拟空间中的第二向量；将所述第一向量与所述第二向量组合为综合向量；计算所述综合向量与预设的参照向量之间的距离值；若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。从而利用已有视频中第一对象感兴趣的特征信息，来准确找到合适的第二对象，最终提高了对象匹配并构建通话通道的准确性。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于距离值的通话通道构建方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于距离值的通话通道构建方法。

上述处理器执行上述基于距离值的通话通道构建方法，其中所述方法包括的步骤分别与执行前述实施方式的基于距离值的通话通道构建方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，获取谈话视频；采集所述谈话视频中第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理；从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；采集所述视频片段集中所述谈话对象的语音内容与语音特征，并映射为高维虚拟空间中的第一向量；采集所述视频片段集中所述谈话对象的形体特征，并映射为高维虚拟空间中的第二向量；将所述第一向量与所述第二向量组合为综合向量；计算所述综合向量与预设的参照向量之间的距离值；若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。从而利用已有视频中第一对象感兴趣的特征信息，来准确找到合适的第二对象，最终提高了对象匹配并构建通话通道的准确性。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于距离值的通话通道构建方法，其中所述方法包括的步骤分别与执行前述实施方式的基于距离值的通话通道构建方法的步骤一一对应,在此不再赘述。

本申请的计算机可读存储介质，获取谈话视频；采集所述谈话视频中第一对象的面部图像，并将所述面部图像输入基于神经网络模型的表情识别模型中进行处理；从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段，并将所述多个视频片段组成视频片段集；采集所述视频片段集中所述谈话对象的语音内容与语音特征，并映射为高维虚拟空间中的第一向量；采集所述视频片段集中所述谈话对象的形体特征，并映射为高维虚拟空间中的第二向量；将所述第一向量与所述第二向量组合为综合向量；计算所述综合向量与预设的参照向量之间的距离值；若所述距离值大于预设的距离阈值，则构建通话通道，所述通话通道一端连接所述第一对象对应的终端，另一端连接所述第二对象对应的终端。从而利用已有视频中第一对象感兴趣的特征信息，来准确找到合适的第二对象，最终提高了对象匹配并构建通话通道的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于距离值的通话通道构建方法，其特征在于，包括：

2.根据权利要求1所述的基于距离值的通话通道构建方法，其特征在于，所述第一对象的面部图像为侧脸图像，所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤之前，包括：

3.根据权利要求1所述的基于距离值的通话通道构建方法，其特征在于，所述谈话视频是通过全景镜头获得的视频，所述第一对象的面部图像为正脸图像，所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理，从而将所述面部图像识别为不同的面部表情类别，其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤之前，包括：

4.根据权利要求1所述的基于距离值的通话通道构建方法，其特征在于，所述语音特征至少包括语速、语调和重音位置，所述根据预设的第一向量映射方法，将所述语音内容与语音特征映射为高维虚拟空间中的第一向量的步骤,包括：

5.根据权利要求1所述的基于距离值的通话通道构建方法，其特征在于，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值，并判断所述距离值是否大于预设的距离阈值，其中所述预设的参照向量与预设的第二对象对应的步骤之前，包括：

将所述第三向量与第四向量组合为所述参照向量。

6.根据权利要求1所述的基于距离值的通话通道构建方法，其特征在于，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值的步骤,包括：

7.根据权利要求1所述的基于距离值的通话通道构建方法，其特征在于，所述参照向量有多个，所述根据预设的距离计算方法，计算所述综合向量与预设的参照向量之间的距离值的步骤,包括：

根据公式：

8.一种基于距离值的通话通道构建装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。