CN117672180A

CN117672180A - 一种数字机器人语音交流控制方法及系统

Info

Publication number: CN117672180A
Application number: CN202311682203.9A
Authority: CN
Inventors: 庄勤泓; 廖红俊; 刘建友; 余展鹏; 胡世威; 刘崇雷; 黄震; 林加浩
Original assignee: Guangzhou Kaidi Cloud Information Technology Co ltd
Current assignee: Guangzhou Kaidi Cloud Information Technology Co ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-08

Abstract

本发明公开了一种数字机器人语音交流控制方法及系统，通过构建人脸识别模型和自然语言生成模型，依据人脸识别模型对人脸图像进行识别，得到人脸特征，并依据自然语言生成模型对人脸特征进行识别，得到相匹配的语言文本，最后再通过文本转语音技术将语言文本转换成语音进行输出，能够有效根据不同情景调整相对应的语言输出，从而使得语音交流适应性和自然感更加强，同时，通过采用计算机视觉技术获取人脸图像，能够提高获取人脸图像的清晰度，从而提高人脸识别的精准度和速度，进一步提高根据不同情景调整相对应语言输出的精准度和速度。

Description

一种数字机器人语音交流控制方法及系统

技术领域

本发明涉及数字机器人技术领域，尤其涉及一种数字机器人语音交流控制方法及系统。

背景技术

随着计算机技术的发展，各种类型的数字机器人被广泛地应用于人们生活的各个方面，例如，数字机器人通过语音来与别人进行打招呼或者交流，然而，现有的数字机器人语音交流控制方式一般都是通过预设的语音模板进行交流，导致缺乏适应性和自然感，尤其在面对不熟悉的人或者是没有预设应答模板的情况下，其回应往往会显得生硬、机械，同时，还不能根据不同情境调整语言输出，影响交流体验。

发明内容

有鉴于此，本发明提出一种数字机器人语音交流控制方法及系统，可以解决现有技术所存在的缺乏适应性和自然感、无法根据不同情境调整语言输出的缺陷。

本发明的技术方案是这样实现的：

一种数字机器人语音交流控制方法，具体包括：

构建人脸识别模型和自然语言生成模型；

基于计算机视觉技术获取人脸图像；

将人脸图像输入人脸识别模型中进行识别，得到人脸特征；

将人脸特征输入自然语言生成模型进行识别，生成与人脸图像相匹配的自然语言文本；

基于文本转语音技术将自然语言文本转换成语音进行输出，从而实现数字机器人语音交流控制。

作为所述数字机器人语音交流控制方法的进一步可选方案，所述构建人脸识别模型，具体包括：

收集人脸图像数据，并标注每个人脸图像数据的身份信息；

将标注身份信息的人脸图像数据进行划分，得到训练集和验证集；

将训练集输入FaceNet模型中，并依据三元损失训练策略进行训练，得到初始的人脸识别模型；

将验证集输入初始的人脸识别模型中进行验证，得到最终的人脸识别模型。

作为所述数字机器人语音交流控制方法的进一步可选方案，所述将训练集输入FaceNet模型中，并依据三元损失训练策略进行训练，得到初始的人脸识别模型，具体包括：

步骤S1、基于卷积神经网络模型对训练集中的人脸图像数据进行特征提取，得到人脸特征；

步骤S2、基于人脸特征进行人脸图像选择，选择出锚点样本、正样本和负样本；

步骤S3、依据预设的约束条件对选择出的锚点样本、正样本和负样本进行筛选，得到筛选后的出来的锚点样本、正样本和负样本；

步骤S4、依据筛选出来的锚点样本、正样本和负样本，构建出三元组；

步骤S5、依据三元损失函数计算三元组的损失值；

步骤S6、判断损失值是否与预设的阈值相同，若是，依据反向传播算法调整卷积神经网络模型的权重，得到初始的人脸识别模型，否则重复步骤S2至步骤S5的步骤。

作为所述数字机器人语音交流控制方法的进一步可选方案，所述基于人脸特征进行人脸图像选择，选择出锚点样本、正样本和负样本，具体包括：

基于每个人脸图像的多张图像，随机选择一个样本作为锚点样本；

从相同身份的人脸图像中，随机选择一个样本作为正样本；

从不同身份的人脸图像中，随机选择一个样本作为负样本。

作为所述数字机器人语音交流控制方法的进一步可选方案，所述构建自然语言生成模型，具体包括：

根据设定的场景，收集训练数据和评估数据；

对训练数据进行特征提取，选择出与设定的场景相匹配的训练特征；

将训练特征输入循环神经网络进行训练，得到初始的自然语言生成模型；

依据评估数据对初始的自然语言生成模型进行评估，得到评估结果；

依据评估结果对初始的自然语言生成模型进行参数调整，得到最终的自然语言生成模型。

一种数字机器人语音交流控制系统，包括：

构建模块，用于构建人脸识别模型和自然语言生成模型；

获取模块，用于基于计算机视觉技术获取人脸图像；

第一识别模块，用于将人脸图像输入人脸识别模型中进行识别，得到人脸特征；

第二识别模块，用于将人脸特征输入自然语言生成模型进行识别，生成与人脸图像相匹配的自然语言文本；

转换模块，用于基于文本转语音技术将自然语言文本转换成语音进行输出，从而实现数字机器人语音交流控制。

作为所述数字机器人语音交流控制系统的进一步可选方案，所述构建模块包括第一构建模块和第二构件模块，所述第一构建模块用于构建人脸识别模型，所述第二构建模块用于构建自然语言生成模型，其中，所述第一构建模块包括：

第一收集模块，用于收集人脸图像数据，并标注每个人脸图像数据的身份信息；

划分模块，用于将标注身份信息的人脸图像数据进行划分，得到训练集和验证集；

第一训练模块，用于将训练集输入FaceNet模型中，并依据三元损失训练策略进行训练，得到初始的人脸识别模型；

验证模块，用于将验证集输入初始的人脸识别模型中进行验证，得到最终的人脸识别模型。

作为所述数字机器人语音交流控制系统的进一步可选方案，所述第一训练模块包括：

特征提取模块，用于基于卷积神经网络模型对训练集中的人脸图像数据进行特征提取，得到人脸特征；

选择模块，用于基于人脸特征进行人脸图像选择，选择出锚点样本、正样本和负样本；

筛选模块，用于依据预设的约束条件对选择出的锚点样本、正样本和负样本进行筛选，得到筛选后的出来的锚点样本、正样本和负样本；

三元组构建模块，用于依据筛选出来的锚点样本、正样本和负样本，构建出三元组；

计算模块，用于依据三元损失函数计算三元组的损失值；

判断模块，用于判断损失值是否与预设的阈值相同，若是，依据反向传播算法调整卷积神经网络模型的权重，得到初始的人脸识别模型，否则重复选择模块、筛选模块、三元组构建模块和计算模块的步骤。

作为所述数字机器人语音交流控制系统的进一步可选方案，所述选择模块包括：

锚点样本选择模块，用于基于每个人脸图像的多张图像，随机选择一个样本作为锚点样本；

正样本选择模块，用于从相同身份的人脸图像中，随机选择一个样本作为正样本；

负样本选择模块，用于从不同身份的人脸图像中，随机选择一个样本作为负样本。

作为所述数字机器人语音交流控制系统的进一步可选方案，所述第二构建模块包括：

第二收集模块，用于根据设定的场景，收集训练数据和评估数据；

提取模块，用于对训练数据进行特征提取，选择出与设定的场景相匹配的训练特征；

第二训练模块，用于将训练特征输入循环神经网络进行训练，得到初始的自然语言生成模型；

评估模块，用于依据评估数据对初始的自然语言生成模型进行评估，得到评估结果；

调整模块，用于依据评估结果对初始的自然语言生成模型进行参数调整，得到最终的自然语言生成模型。

本发明的有益效果是：通过构建人脸识别模型和自然语言生成模型，依据人脸识别模型对人脸图像进行识别，得到人脸特征，并依据自然语言生成模型对人脸特征进行识别，得到相匹配的语言文本，最后再通过文本转语音技术将语言文本转换成语音进行输出，能够有效根据不同情景调整相对应的语言输出，从而使得语音交流适应性和自然感更加强，同时，通过采用计算机视觉技术获取人脸图像，能够提高获取人脸图像的清晰度，从而提高人脸识别的精准度和速度，进一步提高根据不同情景调整相对应语言输出的精准度和速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种数字机器人语音交流控制方法的流程示意图；

图2为本发明一种数字机器人语音交流控制系统的组成示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参考图1-2，一种数字机器人语音交流控制方法，具体包括：

构建人脸识别模型和自然语言生成模型；

基于计算机视觉技术获取人脸图像；

将人脸图像输入人脸识别模型中进行识别，得到人脸特征；

在本实施例中，通过构建人脸识别模型和自然语言生成模型，依据人脸识别模型对人脸图像进行识别，得到人脸特征，并依据自然语言生成模型对人脸特征进行识别，得到相匹配的语言文本，最后再通过文本转语音技术将语言文本转换成语音进行输出，能够有效根据不同情景调整相对应的语言输出，从而使得语音交流适应性和自然感更加强，同时，通过采用计算机视觉技术获取人脸图像，能够提高获取人脸图像的清晰度，从而提高人脸识别的精准度和速度，进一步提高根据不同情景调整相对应语言输出的精准度和速度。

优选的，所述构建人脸识别模型，具体包括：

收集人脸图像数据，并标注每个人脸图像数据的身份信息；

在本实施例中，首先，收集各种人脸照片作为训练数据，并进行适当的预处理，例如裁剪和缩放以确保所有图像的大小能更好被用于识别匹配，接下来，利用收集到的数据训练FaceNet模型，FaceNet模型可以将人脸图像映射到一个多维空间，在这个空间中，同一人的不同照片的映射结果会比较接近，不同人的照片的映射结果会相对较远，当有新的人脸图像输入时，FaceNet模型会提取出人脸的特征，例如眼、耳、口、鼻等，用以对特定人选进行特殊打招呼，特征提取的具体步骤如下：

a.预处理：首先，人脸图像需要进行一些预处理操作，这可能包括归一化、对齐、裁剪等，以便让图像满足模型输入的要求；

b.卷积层：预处理过后的图像被输入到卷积神经网络中，在卷积层中，网络通过一系列可学习的过滤器，对输入图像进行局部的特征提取；

c.池化层：卷积层之后通常会接一个池化层，池化层的主要作用是进一步减小数据的空间尺寸，同时能够保留有效的特征；

d.全连接层：在数个卷积层和池化层后，会接一个全连接层，全连接层可以进一步将局部特征整合为全局特征；

e.嵌入：最后，经过全连接层的图像特征表示会被映射到一个低维的欧式空间进行嵌入，这个嵌入向量就是从人脸图像中提取出来的特征。

优选的，所述将训练集输入FaceNet模型中，并依据三元损失训练策略进行训练，得到初始的人脸识别模型，具体包括：

步骤S5、依据三元损失函数计算三元组的损失值；

优选的，所述基于人脸特征进行人脸图像选择，选择出锚点样本、正样本和负样本，具体包括：

从相同身份的人脸图像中，随机选择一个样本作为正样本；

从不同身份的人脸图像中，随机选择一个样本作为负样本。

在本实施例中，锚点样本:选择一个人脸图像作为锚点样本，该样本将用于形成正样本对和负样本对；正样本:选择与锚点样本属于同一身份的人脸图像，该样本与锚点样本的特征较为相似；负样本:选择与锚点样本属于不同身份的人脸图像，该样本与锚点样本的特征相差较大，具体步骤如下：

步骤a.数据准备：收集大量人脸图像数据，并标注每个人脸图像的身份信息；

步骤b.特征提取：使用深度卷积神经网络等模型，在人脸图像上提取人脸特征向量；

步骤c.样本选择：对于每个人脸图像，随机选择一个样本作为锚点样本；

步骤d.正样本选择：从相同身份的人脸图像中，随机选择一个样本作为正样本；

步骤e.负样本选择：从不同身份的人脸图像中，随机选择一个样本作为负样本；

步骤f.样本过滤：根据一定规则筛选样本，以满足一定的约束条件，比如样本之间的欧氏距离满足一定的关系；

步骤g.构建三元组:将锚点样本、正样本和负样本组成三元组；

步骤h.计算TripletLoss:计算三元组中锚点样本与正样本之间的距离(如欧氏距离)，以及锚点样本与负样本之间的距离；根据TripletLoss函数的定义，通过优化算法(如随机梯度下降)来最小化锚点与正样本之间的距离，并最大化锚点与负样本之间的距离，从而使得正样本与负样本之间的距离尽可能大；

步骤i.重复步骤b至步骤h，直到收敛或达到一定的迭代次数。

此外，FaceNet模型采用卷积神经网络构建，核心实现是将人脸图像直接嵌入到欧几里得空间中，使用深度卷积神经网络进行特征提取，然后使用欧氏距离进行向量化。具体步骤如下：a.数据预处理：将输入的人脸图像进行预处理，包括人脸检测、对齐和图像归一化等操作。这一步骤旨在确保人脸图像的准确性和一致性。b.特征提取：使用预训练的深度卷积神经网络，在人脸图像上进行前向传播，提取出图像中的人脸特征。c.向量化：将提取的人脸特征向量归一化，以便能够在欧几里得空间中进行距离度量。d.相似度计算：使用欧氏距离来计算两个人脸特征向量之间的相似度。相似度越大，表示两个人脸特征更加相似。e.阈值判定：设定阈值用于判断两个人脸特征向量之间是否属于同一个人。如果相似度超过阈值，则认为是同一个人脸；

FaceNet模型的训练步骤与现有神经网络模型区别：(1)、选择样本：一般的神经网络模型在训练时，通常随机选择样本进行训练；而FaceNet在训练时，需要按照三元损失的要求选择样本；(2)、计算损失：一般的神经网络模型在计算损失时，只需要比较模型的预测输出与实际输出的差距；而FaceNet在计算损失时，要比较三个样本的嵌入向量之间的距离，即使得锚点样本与正样本的嵌入向量之间的距离尽可能小，而使得锚点样本与负样本的嵌入向量之间的距离尽可能大，(3)、调整权重：在一般的神经网络模型中，通过反向传播算法调整模型的权重；FaceNet也同样通过反向传播为各层神经元分配误差，然后利用梯度下降法进行权重调整，这种基于三元损失的训练策略使得FaceNet模型具有更强的区分度和稳定性，能有效地解决人脸识别任务中的实际问题。

优选的，所述构建自然语言生成模型，具体包括：

根据设定的场景，收集训练数据和评估数据；

在本实施例中，通过训练一个自然语言生成模型，该模型可以根据输入的特征生成打招呼的语言，该模型可以通过大量的人脸特征和打招呼语言的配对数据来训练，训练自然语言生成模型的步骤如下：

数据准备：根据设定的场景，收集并准备训练数据，包括语料库、标注数据；

特征提取：选择并提取适当的特征；

模型设计：使用循环神经网络；

模型训练：使用训练数据进行模型训练，通过迭代优化模型的参数，使其能够准确地生成目标语言文本；

模型评估：使用评估数据集评估模型的生成效果，包括语法准确性、语义连贯性等指标；

模型优化：根据评估结果和实际需求，对模型进行优化；

推理生成：通过训练好的模型，在新的输入数据上进行推理生成，生成所需的自然语言文本，在实现自然语言生成模型的优化上，通过数据增强技术，扩充数据及合成数据，增加训练数据的多样性，提升模型的泛化能力。

一种数字机器人语音交流控制系统，包括：

构建模块，用于构建人脸识别模型和自然语言生成模型；

获取模块，用于基于计算机视觉技术获取人脸图像；

优选的，所述构建模块包括第一构建模块和第二构件模块，所述第一构建模块用于构建人脸识别模型，所述第二构建模块用于构建自然语言生成模型，其中，所述第一构建模块包括：

优选的，所述第一训练模块包括：

计算模块，用于依据三元损失函数计算三元组的损失值；

优选的，所述选择模块包括：

优选的，所述第二构建模块包括：

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字机器人语音交流控制方法，其特征在于，具体包括：

构建人脸识别模型和自然语言生成模型；

基于计算机视觉技术获取人脸图像；

将人脸图像输入人脸识别模型中进行识别，得到人脸特征；

2.根据权利要求1所述的一种数字机器人语音交流控制方法，其特征在于，所述构建人脸识别模型，具体包括：

收集人脸图像数据，并标注每个人脸图像数据的身份信息；

3.根据权利要求2所述的一种数字机器人语音交流控制方法，其特征在于，所述将训练集输入FaceNet模型中，并依据三元损失训练策略进行训练，得到初始的人脸识别模型，具体包括：

步骤S5、依据三元损失函数计算三元组的损失值；

4.根据权利要求3所述的一种数字机器人语音交流控制方法，其特征在于，所述基于人脸特征进行人脸图像选择，选择出锚点样本、正样本和负样本，具体包括：

从相同身份的人脸图像中，随机选择一个样本作为正样本；

从不同身份的人脸图像中，随机选择一个样本作为负样本。

5.根据权利要求4所述的一种数字机器人语音交流控制方法，其特征在于，所述构建自然语言生成模型，具体包括：

根据设定的场景，收集训练数据和评估数据；

6.一种数字机器人语音交流控制系统，其特征在于，包括：

构建模块，用于构建人脸识别模型和自然语言生成模型；

获取模块，用于基于计算机视觉技术获取人脸图像；

7.根据权利要求6所述的一种数字机器人语音交流控制系统，其特征在于，所述构建模块包括第一构建模块和第二构件模块，所述第一构建模块用于构建人脸识别模型，所述第二构建模块用于构建自然语言生成模型，其中，所述第一构建模块包括：

8.根据权利要求7所述的一种数字机器人语音交流控制系统，其特征在于，所述第一训练模块包括：

计算模块，用于依据三元损失函数计算三元组的损失值；

9.根据权利要求8所述的一种数字机器人语音交流控制系统，其特征在于，所述选择模块包括：

10.根据权利要求9所述的一种数字机器人语音交流控制系统，其特征在于，所述第二构建模块包括：