CN112967718B

CN112967718B - 基于声音的投影仪控制方法、装置、设备及存储介质

Info

Publication number: CN112967718B
Application number: CN202110362191.6A
Authority: CN
Inventors: 吴建雄
Original assignee: Shenzhen Luckystar Technology Co ltd
Current assignee: Shenzhen Luckystar Technology Co ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2024-04-12
Anticipated expiration: 2041-04-02
Also published as: CN112967718A

Abstract

本申请公开了一种基于声音的投影仪控制方法、装置、设备及计算机可读存储介质，所述基于声音的投影仪控制方法包括：获取待识别声音，并基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的；基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果；基于所述声音识别结果对应的控制命令，控制目标投影仪。本申请解决了语音控制投影仪的准确度低的技术问题。

Description

基于声音的投影仪控制方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种基于声音的投影仪控制方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机软件和人工智能的不断发展，人工智能的应用也越来越广泛，例如，在投影仪控制领域，可通过人发出的声音命令，对投影仪进行控制，目前，通常首先将声音转换为文本，进而通过识别文本的语义实现对投影仪的控制，但是，当采集的声音命令中存在较多的噪音信息时，将导致声音转换出来的文本的语义较为模糊，使得文本语义识别的准确度较低，进而将导致语音控制投影仪的准确度较低。

发明内容

本申请的主要目的在于提供一种基于声音的投影仪控制方法、装置、设备及计算机可读存储介质，旨在解决现有技术中语音控制投影仪的准确度低的技术问题。

为实现上述目的，本申请提供一种基于声音的投影仪控制方法，所述基于声音的投影仪控制方法应用于基于声音的投影仪控制方法设备，所述基于声音的投影仪控制方法包括：

获取待识别声音，并基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的；

基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果；

基于所述声音识别结果对应的控制命令，控制目标投影仪。

本申请还提供一种基于声音的投影仪控制方法装置，所述基于声音的投影仪控制方法装置为虚拟装置，且所述基于声音的投影仪控制方法装置应用于基于声音的投影仪控制方法设备，所述基于声音的投影仪控制方法装置包括：

特征提取模块，用于获取待识别声音，并基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的；

声音识别模块，用于基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果；

控制模块，用于基于所述声音识别结果对应的控制命令，控制目标投影仪。

本申请还提供一种基于声音的投影仪控制方法设备，所述基于声音的投影仪控制方法设备为实体设备，所述基于声音的投影仪控制方法设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于声音的投影仪控制方法的程序，所述基于声音的投影仪控制方法的程序被处理器执行时可实现如上述的基于声音的投影仪控制方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有实现基于声音的投影仪控制方法的程序，所述基于声音的投影仪控制方法的程序被处理器执行时实现如上述的基于声音的投影仪控制方法的步骤。

本申请提供了一种基于声音的投影仪控制方法、装置、设备及计算机可读存储介质，相比于现有技术采用的将声音转换为文本，进而通过识别文本的语义实现对投影仪的控制的技术手段，本申请首先获取待识别声音，进而基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，由于所述特征提取模型是基于预设目标声音样本集中的无噪音正例样本和预设噪音样本集中的噪音负例样本进行对比学习构建的，进而目标声音表征将会靠近无噪音正例样本对应的表征，并远离噪音负例样本对应的表征，使得目标声音表征与无噪音正例样本对应的表征的相似度较高，而与噪音负例样本对应的表征的相似度较低，进而实现了生成包含噪音信息较少的目标声音表征的目的，进而基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，即可生成准确度更高的声音识别结果，进而基于所述声音识别结果对应的控制命令，控制目标投影仪，即可克服现有技术中若投影仪控制设备采集的声音中存在较多的噪音信息，将导致声音转换出来的文本的语义较为模糊，使得文本语义识别的准确度较低，进而导致语音控制投影仪的效果较差的技术缺陷，进而提升了语音控制投影仪的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于声音的投影仪控制方法第一实施例的流程示意图；

图2为本申请基于声音的投影仪控制方法第二实施例的流程示意图；

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种基于声音的投影仪控制方法，在本申请基于声音的投影仪控制方法的第一实施例中，参照图1，所述基于声音的投影仪控制方法包括：

步骤S10，获取待识别声音，并基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的；

在本实施例中，需要说明的是，所述特征提取模型为基于预设目标声音样本集和预设噪音样本集进行对比学习构建的机器学习模型，其中，所述对比学习为基于训练样本、训练样本的正例和训练样本的负例进行对比的模型构建方式，用于拉近样本的样本表征与样本的正例的样本表征之间的距离，拉远样本的样本表征与样本的负例的样本表征之间的距离，其中，所述预设目标声音样本集至少包括一预设目标声音样本，其中，所述预设目标声音样本为属于正例样本的声音样本，例如家庭投影仪的主人声音样本以及手机主人的声音样本等，所述预设噪音样本集为属于负例样本的声音样本，例如非家庭投影仪的主人声音样本以及非手机主人的声音样本等，所述特征提取模型用于对声音样本进行特征提取，以将声音样本对应的声音表示矩阵转化为样本表征，其中，所述声音表示矩阵为表示声音样本的声音特征的高维矩阵，其中，所述声音特征包括声纹特征以及音频特征等，所述样本表征为唯一表示声音样本的低维编码矩阵或者低维编码向量，其中，所述声音样本的样本表征的维数小于声音样本的声音表示矩阵的维数。

获取待识别声音，并基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的，具体地，获取待识别声音，并将所述待识别声音对应的声音表示矩阵输入所述特征提取模型，对所述待识别声音对应的声音表示矩阵进行预设次数的卷积和池化交替处理，以将所述待识别声音对应的声音表示矩阵映射至预设样本表征空间，获得目标声音表征，其中，所述预设样本表征空间可以为预设维数的向量空间或者矩阵空间，所述特征提取模型是基于所述预设目标声音样本集中提取的正例样本和所述预设噪音样本集中提取的负例样本进行对比学习构建的。

其中，所述基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征的步骤包括：

步骤S11，对所述待识别声音进行声纹分割，获得分割声音样本；

在本实施例中，对所述待识别声音进行声纹分割，获得分割声音样本，具体地，对所述待识别声音进行声音帧划分，获得预设粗粒度的各声音样本帧，其中，所述预设粗粒度为预先设置好的帧大小，进而分别对各所述声音样本帧进行声纹识别，以分别识别各所述声音样本帧的声音归属，进而基于各所述声音归属，对所述待识别声音进行分割，获得各切分声音样本，并将属于目标声音归属的切分声音样本作为所述分割声音样本，其中，所述目标声音归属为需要进行声音识别的声音样本的归属，例如家庭投影仪的主人以及手机主人等。

步骤S12，基于所述特征提取模型，将所述分割声音样本映射为所述目标声音表征。

在本实施例中，基于所述特征提取模型，将所述分割声音样本映射为所述目标声音表征，具体地，将所述分割声音样本对应的声音表示矩阵输入所述特征提取模型，对所述分割声音样本进行预设次数的卷积和池化交替处理，以将所述分割声音样本对应的声音表示矩阵映射至预设样本表征空间，获得目标声音表征。

步骤S20，基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果；

在本实施例中，需要说明的是，所述声音识别模型为用于对所述目标声音表征进行分类的机器学习模型。

基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果，具体地，将所述目标声音表征输入声音识别模型，将所述目标声音表征映射为表征分类标签，其中，所述分类标签为所述目标声音表征的类别的标识，进而依据所述表征分类标签与声音样本之间的对应关系，确定所述待识别声音的声音类别，并将所述声音类别作为所述声音识别结果。

其中，所述声音识别模型包括哈希编码模型，

所述基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果的步骤包括：

步骤S21，基于所述哈希编码模型，对所述目标声音表征进行哈希编码，获得输出哈希编码值；

在本实施例中，需要说明的是，需要说明的是，所述哈希编码模型包括深度极化网络，其中，所述深度极化网络为基于预设声音样本类别信息和极化损失函数优化的深度学习模型，且对属于同一样本类别的输入样本，所述哈希编码模型均能输出相同的极化哈希向量，所述极化损失函数为用于优化所述深度极化网络的损失函数。

另外地，需要说明的是，所述深度极化网络包括隐藏层和哈希层，其中，所述隐藏层为所述深度极化网络的数据处理层，用于进行卷积处理和池化处理等数据处理过程，且所述隐藏层为基于深度学习训练好的一层或者多层神经网络，所述哈希层为所述深度极化网络的输出层，用于进行极化哈希，并输出对应的哈希结果，且所述哈希层为基于深度学习训练好的一层或者多层神经网络。

基于所述哈希编码模型，对所述目标声音表征进行哈希编码，获得输出哈希编码值，具体地，基于所述隐藏层，对所述目标声音表征进行数据处理，以提取所述目标声音表征中的类别特征，获得所述目标声音表征对应的类别特征表示矩阵，其中，所述类别特征表示矩阵为所述目标声音表征中类别特征信息的矩阵表示形式，进而将所述类别特征表示矩阵输入所述哈希层，对所述类别特征表示矩阵进行全连接，获得全连接向量，并对所述全连接向量进行极化，获得所述全连接向量对应的极化哈希向量，进而基于所述极化哈希向量中各特征值，对所述极化哈希向量进行编码，获得哈希编码值。

其中，所述哈希编码模型包括哈希层，

所述基于所述哈希编码模型，对所述目标声音表征进行哈希编码，获得输出哈希编码值的步骤包括：

步骤S211，生成所述目标声音表征对应的声音类别特征数据，并将所述声音类别特征数据输入所述哈希层，对所述声音类别特征数据进行极化哈希，获得极化哈希结果；

在本实施例中，需要说明的是，所述声音类别特征数据为表示目标声音表征的类别特征信息的类别特征表示矩阵。

生成所述目标声音表征对应的声音类别特征数据，并将所述声音类别特征数据输入所述哈希层，对所述声音类别特征数据进行极化哈希，获得极化哈希结果，具体地，对所述目标声音表征进行类别特征提取，获得类别特征表示矩阵，进而对所述类别特征表示矩阵进行全连接，获得全连接向量，进而为所述全连接向量中各特定比特位匹配极化输出通道，其中，所述特定比特位为全连接向量中预设特征值取值范围内的特征值所属的比特位，例如，设置预设特征值取值范围为(-1，1)，则处于(-1，1)范围内的所有特征值所处的比特位均为特定比特位，进而基于各所述极化输出通道对应的极化参数，分别对各所述极化输出通道对应的特定比特位上的特征值进行极化，以使得不大于预设特征值取值范围的下阈值的特征值从负方向远离0，使得不小于所述预设特征值取值范围的上阈值的特征值从正方向远离0，进而获得各特定比特位上的特征值对应的极化特征值，并直接输出各所述非特定比特位上的特征值，获得各所述非特定比特位对应的非极化特征值，进而基于各所述极化特征值和各所述非极化特征值在所述全连接向量中的位置顺序，生成各所述极化特征值和各所述非极化特征值共同对应的极化哈希向量，并将所述极化哈希向量作为所述极化哈希结果，其中，优选地，所述预设特征值取值范围可设置为关于0值对称的取值范围，例如，假设预设特征值取值范围为(-0.5，0.5)，所述全连接向量为(-0.8，0.05，-0.05，1.2)，则进行特定比特位的极化后，所述全连接向量对应的极化哈希向量为(-1.1，0，0，2)。

步骤S212，基于所述极化哈希结果中各比特位上的目标特征值，将所述极化哈希结果转换为所述输出哈希编码值。

在本实施例中，需要说明的是，哈希编码的方式包括二值哈希编码和三值哈希编码，所述极化哈希结果为极化哈希向量，也即极化后的全连接向量。

基于所述极化哈希结果中各比特位上的目标特征值，将所述极化哈希结果转换为所述输出哈希编码值，具体地，基于所述极化哈希结果中各比特位上的目标特征值的正负符号，将所述极化哈希向量中大于0的目标特征值转换为预设第一类型二值哈希值，以及将所述极化哈希向量小于0的目标特征值转化为预设第二类型二值哈希值，获得二值哈希编码值，并将所述二值哈希编码作为输出哈希编码值，其中，优选地，所述预设第一类型二值哈希值设置为1，所述预设第二类型二值哈希值设置为0。

在另一种实施方式中，步骤S212还包括：

将所述极化哈希向量中大小大于预设特征值取值范围的上阈值的目标特征值转换为预设第一类型三值哈希值，并将所述极化哈希向量中大小小于预设特征值取值范围的下阈值的目标特征值转换为预设第二类型三值哈希值，并将所述极化哈希向量中大小不小于预设特征值取值范围的下阈值且不大于预设特征值取值范围的上阈值的目标特征值转换为预设第三类型三值哈希值，进而获得三值哈希编码，优选地，所述预设第一类型三值哈希值可设置为1，预设第二类型三值哈希值可设置为-1，预设第三类型三值哈希值可设置为0。

步骤S22，基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果。

在本实施例中，需要说明的是，所述预设哈希编码值为预先设置好的声音样本表征的类别对应的哈希编码值，用于唯一标识声音样本表征对应的声音样本类别，例如哈希编码值为111111，则标识声音样本类别M，哈希编码值000001，则标识声音样本类别N等。

基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果，具体地，通过计算所述输出哈希编码值与各预设哈希编码值之间的汉明距离，在各所述预设哈希编码值中确定与所述输出哈希编码值的汉明距离最近的目标哈希编码值，进而确定所述目标哈希编码对应的声音样本类别，并将所述声音样本类别作为所述声音识别结果。

另外地，需要说明的是，所述哈希编码模型为基于极化损失函数和预设哈希编码值进行优化的模型，其中，所述预设哈希编码值为所述预设声音样本类别信息，在一种可实施的方式中，所述极化损失函数如下：

L(v，t^c)＝max(m-v*t^c，0)

其中，L为所述极化损失函数，m为预设强制极化参数，v为所述训练样本对应的极化哈希向量中每一比特位上的数值，且v的绝对值大于m，t^c为训练样本对应的极化哈希向量的比特位对应的目标哈希值，所述目标哈希值为训练样本对应的预设哈希编码值上的比特位数值，且t^c＝{-1,+1}，且所述预设极化损失函数收敛于0，例如，假设m为1，t^c为1，v为-1，此时，L＝2，若要使得预设极化损失函数收敛于0，则需要对v进行强制极化，使得v为1，此时L＝0，进而当t^c等于1时，所述训练样本样本对应的极化哈希向量的比特位上的数值将朝正方向逐渐远离0，当t^c等于-1时，所述训练样本对应的极化哈希向量比特位上的数值将朝负方向逐渐远离0，进而在极化成功后，获得的训练样本对应的极化哈希向量中每一比特位的极化标识应与对应的目标哈希值一致，其中，所述极化标识包括比特位数值的大小取值范围和比特位数值的正负符号，也即，训练样本对应的极化哈希向量中每一比特位的比特位数值应与对应的目标哈希值的正负符号一致或者特征值取值范围一致，进一步地，由于同一样本类别的预设哈希编码值相同，所以属于同一样本类别的各训练样本对应的极化哈希向量中每一比特位上的极化标识一致，进而基于各极化标识，获得的哈希编码值一致，也即，对于属于同一样本类别的声音输入样本，基于哈希编码模型可输出相同的哈希编码值。

其中，所述声音识别结果包括第一类型识别结果和第二类型识别结果，

所述基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果的步骤包括：

步骤S221，计算所述输出哈希编码值和各所述预设哈希编码值之间的汉明距离；

在本实施例中，计算所述输出哈希编码值和各所述预设哈希编码值之间的汉明距离，具体地，计算所述输出哈希编码值与各所述预设哈希编码之间的相异比特位数量，获得所述输出哈希编码值与各所述预设哈希编码值之间的汉明距离，例如，假设所述哈希编码值为01111101，所述预设哈希编码值为01010110，则相异比特位数量为4，进而汉明距离为4。

步骤S222，确定各所述汉明距离中的目标汉明距离，若所述目标汉明距离大于预设汉明距离阈值，则生成所述第一类型识别结果；

在本实施例中，确定各所述汉明距离中的目标汉明距离，若所述目标汉明距离大于预设汉明距离阈值，则生成所述第一类型识别结果，具体地，在各所述汉明距离中选取最小的汉明距离作为目标汉明距离，进而若所述目标汉明距离大于预设汉明距离阈值，则证明所述待识别声音不属于具备目标投影仪的控制权限的声音归属，并生成所述第一类型识别结果，其中，所述第一类型识别结果无法生成对应的目标投影仪的控制命令。

步骤S223，若所述目标汉明距离不大于预设汉明距离阈值，则基于所述目标汉明距离对应的预设哈希编码值，生成所述第二类型识别结果。

在本实施例中，若所述目标汉明距离不大于预设汉明距离阈值，则基于所述目标汉明距离对应的预设哈希编码值，生成所述第二类型识别结果，具体地，若所述目标汉明距离不大于预设汉明距离阈值，则证明所述待识别声音属于具备目标投影仪的控制权限的声音归属，并基于所述目标汉明距离对应的预设哈希编码值，生成所述第二类型识别结果，其中，所述第二类型识别结果用于生成对应的目标投影仪的控制命令。

在本实施例中，需要说明的是，目前的哈希编码模型通常是基于输入样本本身的单个数据分布特征，对输入样本进行哈希编码，进而输入样本越相似，模型输出的哈希编码值越相似，进而当输入样本不属于同一样本类别且相似程度较高时，哈希编码模型容易输出相同或者相似度极高的哈希编码值，也即，对于属于不同样本类别的输入样本，输出的哈希编码值容易混淆，进而将导致基于哈希编码进行声音样本分类的准确度较低，而本申请实施例在通过特征提取模型对待识别声音进行特征提取之后，获得具备声音类别信息的目标声音表征，进而基于哈希编码模型，对所述目标声音表征进行极化哈希编码，获得所述目标声音表征对应的输出哈希编码值，实现了依据声音样本的类别信息进行哈希编码的目的，提升了哈希编码的准确性，进而基于所述输出哈希编码值与各预设哈希编码值，生成所述声音识别结果，提升了声音识别的准确性。

另外地，需要说明的是，由于哈希编码模型是基于预设声音样本类别特征信息与极化损失函数进行优化的深度极化网络，可将极化哈希向量中靠近于0的目标特征值向着远离于0的方向进行极化，进而使得极化哈希向量中的目标特征值不会在0上下浮动，进而进一步提升了哈希编码的准确性，进而进一步提升了声音识别的准确性。

步骤S30，基于所述声音识别结果对应的控制命令，控制目标投影仪。

在本实施例中，基于所述声音识别结果对应的控制命令，控制目标投影仪，具体地，若所述声音识别结果为第一类型识别结果，则生成无效控制命令或者不生成控制命令；所述声音识别结果为第二类型识别结果，则生成所述声音识别结果对应的控制命令，并基于所述控制命令，控制目标投影仪，其中，需要说明的是，一所述预设哈希编码值对应一所述声音样本类别，一所述声音样本类别对应一种控制命令，其中，所述声音样本类别包括用于生成控制目标投影仪的音量的控制命令对应的音量控制声音类别以及用于生成控制目标投影仪的亮度的控制命令对应的亮度控制声音类别等。

本申请实施例提供了一种基于声音的投影仪控制方法，相比于现有技术采用的将声音转换为文本，进而通过识别文本的语义实现对投影仪的控制的技术手段，本申请首先获取待识别声音，进而基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，由于所述特征提取模型是基于预设目标声音样本集中的无噪音正例样本和预设噪音样本集中的噪音负例样本进行对比学习构建的，进而目标声音表征将会靠近无噪音正例样本对应的表征，并远离噪音负例样本对应的表征，使得目标声音表征与无噪音正例样本对应的表征的相似度较高，而与噪音负例样本对应的表征的相似度较低，进而实现了生成包含噪音信息较少的目标声音表征的目的，进而基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，即可生成准确度更高的声音识别结果，进而基于所述声音识别结果对应的控制命令，控制目标投影仪，即可克服现有技术中若投影仪控制设备采集的声音中存在较多的噪音信息，将导致声音转换出来的文本的语义较为模糊，使得文本语义识别的准确度较低，进而导致语音控制投影仪的效果较差的技术缺陷，进而提升了语音控制投影仪的准确度。

进一步地，参照图2，基于本申请中第一实施例，在本申请的另一实施例中，在所述基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的步骤之前，所述基于声音的投影仪控制方法还包括：

步骤A10，获取待训练特征提取模型，并提取训练声音样本；

在本实施例中，需要说明的是，所述训练声音样本为构建特征提取模型的训练样本，所述待训练特征提取模型为未训练好的特征提取模型。

步骤A20，在所述预设目标声音样本集中提取所述训练声音样本对应的正例声音样本，并在所述预设噪音样本集中选取所述训练声音样本对应的负例声音样本；

在本实施例中，需要说明的是，所述预设目标声音样本集至少包括一目标声音样本，所述预设噪音样本集至少包括一预设噪音样本。

在所述预设目标声音样本集中提取所述训练声音样本对应的正例声音样本，并在所述预设噪音样本集中选取所述训练声音样本对应的负例声音样本，具体地，在所述预设目标声音样本集中随机提取一预设目标声音样本作为所述训练声音样本对应的正例声音样本，并在所述预设噪音样本集中随机选取一预设噪音样本作为负例声音样本。

步骤A30，基于所述待训练特征提取模型，分别对所述训练声音样本、所述正例声音样本和所述负例声音样本进行特征提取，获得训练声音特征提取结果、正例声音特征提取结果和负例声音特征提取结果；

在本实施例中，基于所述待训练特征提取模型，分别对所述训练声音样本、所述正例声音样本和所述负例声音样本进行特征提取，获得训练声音特征提取结果、正例声音特征提取结果和负例声音特征提取结果，具体地，基于所述待训练特征提取模型，分别对所述训练声音样本、所述正例声音样本以及所述负例声音样本进行特征提取，以分别将所述训练声音样本、所述正例声音样本以及所述负例声音样本映射至预设样本表征空间，获得所述训练声音样本对应的训练声音特征提取结果、所述正例声音样本对应的正例声音特征提取结果以及所述负例声音样本对应的负例声音特征提取结果。

步骤A40，基于所述训练声音特征提取结果、所述正例声音特征提取结果和所述负例声音特征提取结果，计算所述待训练特征提取模型对应的对比学习损失；

在本实施例中，需要说明的是，所述训练声音特征提取结果包括训练声音样本表征，所述正例声音特征提取结果包括正例声音样本表征，所述负例声音特征提取结果至少包括一负例声音样本表征。

基于所述训练声音特征提取结果、所述正例声音特征提取结果和所述负例声音特征提取结果，计算所述待训练特征提取模型对应的对比学习损失，具体地，将所述训练声音样本表征、所述正例声音样本表征以及各负例声音样本表征分别输入预设对比学习损失计算公式，计算所述待训练特征提取模型对应的对比学习损失，其中，所述对比学习计算公式如下:

其中，L为所述对比学习损失，u^A为所述训练声音样本表征，u^B为所述正例声音样本表征，u_i ^B为所述负例声音样本表征，M为负例声音样本表征的数量，进而当正例声音样本表征与训练声音样本表征之间的距离足够小，而各负例声音样本表征与训练声音样本表征的距离足够大时，所述对比学习损失即可收敛，进而基于对比学习损失更新的特征提取模型即可具备拉近所述训练声音样本表征与作为正例的正例声音样本表征的距离，以及拉远训练声音样本表征与作为负例的负例声音样本表征的距离的能力，进而特征提取模型可基于不同样本类型(正例还是负例)的样本，生成不同的样本表征，使得生成的样本表征具备样本类别信息(正例类别信息或者负例类别信息)，提升了特征提取生成的样本表征所包含的信息量。

其中，在所述基于所述训练声音特征提取结果、所述正例声音特征提取结果和所述负例声音特征提取结果，计算所述待训练特征提取模型对应的对比学习损失的步骤之后，所述基于声音的投影仪控制方法还包括：

步骤B10，将所述训练声音特征提取结果输入预设待训练声音识别模型，以对所述训练声音样本进行分类，获得预测类别标签；

在本实施例中，将所述训练声音特征提取结果输入预设待训练声音识别模型，以对所述训练声音样本进行分类，获得预测类别标签，具体地，将所述训练声音特征提取结果输入待训练电感分类模型，通过对所述训练声音特征提取结果进行数据处理，其中，所述数据处理包括但是不限定于卷积、池化和全连接等，将所述训练声音特征提取结果映射为预测类别标签，其中，所述预测类别标签为训练声音样本的声音类别的标识，所述预测类别标签可以用向量进行表示，例如，假设所述预测类别标签为(0，0，1)，则表示声音类别A。

步骤B20，基于所述预测类别标签和所述训练声音样本对应的真实样本标签，计算类别预测损失；

在本实施例中，需要说明的是，所述真实样本标签为训练声音样本对应的已知的真实声音类别的标识。

基于所述预测类别标签和所述训练声音样本对应的真实样本标签，计算类别预测损失，具体地，计算所述训练声音样本对应的真实样本标签和所述预测类别标签之间的差值，获得类别预测损失。

步骤B30，基于所述对比学习损失和所述类别预测损失，优化所述待训练特征提取模型和所述预设待训练声音识别模型，获得所述特征提取模型和所述声音识别模型。

在本实施例中，基于所述对比学习损失和所述类别预测损失，优化所述待训练特征提取模型和所述预设待训练声音识别模型，获得所述特征提取模型和所述声音识别模型，具体地，基于所述类别预测损失，计算所述预设待训练声音识别模型对应的第一模型更新梯度，以及所述待训练特征提取模型对应的第二模型更新梯度，并基于所述对比学习损失，计算所述待训练特征提取模型对应的第三模型更新梯度，进而基于所述第一模型更新梯度，更新所述预设待训练声音识别模型，并基于所述第二模型更新梯度和所述第三模型更新梯度，异步更新所述待训练特征提取模型，进而判断更新后的预设待训练声音识别模型与异步更新后的待训练特征提取模型是否均满足预设训练结束条件，若满足，则将所述预设待训练声音识别模型作为所述声音识别模型，并将所述待训练特征提取模型作为所述特征提取模型，若不满足，则返回所述提取训练声音样本的步骤，其中，所述预设训练结束条件包括损失收敛和达到最大迭代次数阈值等。

步骤A50，基于所述对比学习损失，优化所述待训练特征提取模型，获得所述特征提取模型。

在本实施例中，基于所述对比学习损失，优化所述待训练特征提取模型，获得所述特征提取模型，具体地，基于所述对比学习损失，计算所述待训练特征提取模型对应的模型更新梯度，进而依据所述模型更新梯度，更新所述待训练特征提取模型，若更新后的待训练特征提取模型满足预设迭代训练结束条件，则将所述待训练特征提取模型作为所述特征提取模型，若更新后的待训练特征提取模型不满足预设迭代训练结束条件，则返回所述提取训练声音样本的步骤，其中，所述预设迭代训练结束条件包括损失收敛和达到最大迭代次数阈值等。

本申请实施例提供了所述特征提取模型的构建方法，也即，获取待训练特征提取模型，并提取训练声音样本，进而在所述预设目标声音样本集中提取所述训练声音样本对应的正例声音样本，并在所述预设噪音样本集中选取所述训练声音样本对应的负例声音样本，进而基于所述待训练特征提取模型，分别对所述训练声音样本、所述正例声音样本和所述负例声音样本进行特征提取，获得训练声音特征提取结果、正例声音特征提取结果和负例声音特征提取结果，进而基于所述训练声音特征提取结果、所述正例声音特征提取结果和所述负例声音特征提取结果，计算所述待训练特征提取模型对应的对比学习损失，进而基于所述对比学习损失，优化所述待训练特征提取模型，获得所述特征提取模型，其中，由于所述特征提取模型是基于预设目标声音样本集中的无噪音正例样本和预设噪音样本集中的噪音负例样本进行对比学习构建的，进而目标声音表征将会靠近无噪音正例样本对应的表征，并远离噪音负例样本对应的表征，使得目标声音表征与无噪音正例样本对应的表征的相似度较高，而与噪音负例样本对应的表征的相似度较低，进而实现了生成包含噪音信息较少的目标声音表征的目的，进而基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，即可生成准确度更高的声音识别结果，进而基于所述声音识别结果对应的控制命令，控制目标投影仪，为克服现有技术中若投影仪控制设备采集的声音中存在较多的噪音信息，将导致声音转换出来的文本的语义较为模糊，使得文本语义识别的准确度较低，进而导致语音控制投影仪的效果较差的技术缺陷奠定了基础。

参照图3，图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该基于声音的投影仪控制方法设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该基于声音的投影仪控制方法设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的基于声音的投影仪控制方法设备结构并不构成对基于声音的投影仪控制方法设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于声音的投影仪控制方法程序。操作系统是管理和控制基于声音的投影仪控制方法设备硬件和软件资源的程序，支持基于声音的投影仪控制方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与基于声音的投影仪控制方法系统中其它硬件和软件之间通信。

在图3所示的基于声音的投影仪控制方法设备中，处理器1001用于执行存储器1005中存储的基于声音的投影仪控制方法程序，实现上述任一项所述的基于声音的投影仪控制方法的步骤。

本申请基于声音的投影仪控制方法设备具体实施方式与上述基于声音的投影仪控制方法各实施例基本相同，在此不再赘述。

本申请实施例还提供一种基于声音的投影仪控制方法装置，所述基于声音的投影仪控制方法装置应用于基于声音的投影仪控制方法设备，所述基于声音的投影仪控制方法装置包括：

可选地，所述特征提取模块还用于：

对所述待识别声音进行声纹分割，获得分割声音样本；

基于所述特征提取模型，将所述分割声音样本映射为所述目标声音表征。

可选地，所述声音识别模块还用于：

基于所述哈希编码模型，对所述目标声音表征进行哈希编码，获得输出哈希编码值；

基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果。

可选地，所述声音识别模块还用于：

计算所述输出哈希编码值和各所述预设哈希编码值之间的汉明距离；

确定各所述汉明距离中的目标汉明距离，若所述目标汉明距离大于预设汉明距离阈值，则生成所述第一类型识别结果；

若所述目标汉明距离不大于预设汉明距离阈值，则基于所述目标汉明距离对应的预设哈希编码值，生成所述第二类型识别结果。

可选地，所述声音识别模块还用于：

生成所述目标声音表征对应的声音类别特征数据，并将所述声音类别特征数据输入所述哈希层，对所述声音类别特征数据进行极化哈希，获得极化哈希结果；

基于所述极化哈希结果中各比特位上的目标特征值，将所述极化哈希结果转换为所述输出哈希编码值。

可选地，所述投影仪控制装置还用于：获取待训练特征提取模型，并提取训练声音样本；

在所述预设目标声音样本集中提取所述训练声音样本对应的正例声音样本，并在所述预设噪音样本集中选取所述训练声音样本对应的负例声音样本；

基于所述待训练特征提取模型，分别对所述训练声音样本、所述正例声音样本和所述负例声音样本进行特征提取，获得训练声音特征提取结果、正例声音特征提取结果和负例声音特征提取结果；

基于所述训练声音特征提取结果、所述正例声音特征提取结果和所述负例声音特征提取结果，计算所述待训练特征提取模型对应的对比学习损失；

基于所述对比学习损失，优化所述待训练特征提取模型，获得所述特征提取模型。

可选地，所述投影仪控制装置还用于：

将所述训练声音特征提取结果输入预设待训练声音识别模型，以对所述训练声音样本进行分类，获得预测类别标签；

基于所述预测类别标签和所述训练声音样本对应的真实样本标签，计算类别预测损失；

基于所述对比学习损失和所述类别预测损失，优化所述待训练特征提取模型和所述预设待训练声音识别模型，获得所述特征提取模型和所述声音识别模型。

本申请基于声音的投影仪控制方法装置的具体实施方式与上述基于声音的投影仪控制方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，且所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于声音的投影仪控制方法的步骤。

本申请计算机可读存储介质具体实施方式与上述基于声音的投影仪控制方法各实施例基本相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种基于声音的投影仪控制方法，其特征在于，所述基于声音的投影仪控制方法包括：

基于所述声音识别结果对应的控制命令，控制目标投影仪；

在所述基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的步骤之前，所述基于声音的投影仪控制方法还包括：

获取待训练特征提取模型，并提取训练声音样本；在所述预设目标声音样本集中提取所述训练声音样本对应的正例声音样本，并在所述预设噪音样本集中选取所述训练声音样本对应的负例声音样本；

基于所述对比学习损失，优化所述待训练特征提取模型，获得所述特征提取模型；

所述基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征的步骤包括：

对所述待识别声音进行声纹分割，获得分割声音样本；

基于所述特征提取模型，将所述分割声音样本映射为所述目标声音表征；

所述声音识别模型包括哈希编码模型，所述基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果的步骤包括：

基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果；

所述声音识别结果包括第一类型识别结果和第二类型识别结果，所述基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果的步骤包括：

计算所述输出哈希编码值和各所述预设哈希编码值之间的汉明距离；确定各所述汉明距离中的目标汉明距离，若所述目标汉明距离大于预设汉明距离阈值，则生成所述第一类型识别结果；若所述目标汉明距离不大于预设汉明距离阈值，则基于所述目标汉明距离对应的预设哈希编码值，生成所述第二类型识别结果。

2.如权利要求1所述基于声音的投影仪控制方法，其特征在于，所述哈希编码模型包括哈希层，所述基于所述哈希编码模型，对所述目标声音表征进行哈希编码，获得输出哈希编码值的步骤包括：

3.如权利要求1所述基于声音的投影仪控制方法，其特征在于，在所述基于所述训练声音特征提取结果、所述正例声音特征提取结果和所述负例声音特征提取结果，计算所述待训练特征提取模型对应的对比学习损失的步骤之后，所述基于声音的投影仪控制方法还包括：

4.一种基于声音的投影仪控制装置，其特征在于，所述基于声音的投影仪控制装置包括：

特征提取模块，用于获取待识别声音，并基于特征提取模型，对所述待识别声音进行特征提取，获得所述待识别声音对应的目标声音表征，其中，所述特征提取模型是基于预设目标声音样本集和预设噪音样本集进行对比学习构建的；所述特征提取模块还用于对所述待识别声音进行声纹分割，获得分割声音样本；基于所述特征提取模型，将所述分割声音样本映射为所述目标声音表征；

声音识别模块，用于基于所述目标声音表征和声音识别模型，对所述待识别声音进行声音识别，获得声音识别结果；所述声音识别模块还用于基于哈希编码模型，对所述目标声音表征进行哈希编码，获得输出哈希编码值；基于所述输出哈希编码值和各预设哈希编码值，生成所述声音识别结果；所述声音识别模块还用于计算所述输出哈希编码值和各所述预设哈希编码值之间的汉明距离；确定各所述汉明距离中的目标汉明距离，若所述目标汉明距离大于预设汉明距离阈值，则生成第一类型识别结果；若所述目标汉明距离不大于预设汉明距离阈值，则基于所述目标汉明距离对应的预设哈希编码值，生成第二类型识别结果；

控制模块，用于基于所述声音识别结果对应的控制命令，控制目标投影仪；

所述投影仪控制装置还用于：获取待训练特征提取模型，并提取训练声音样本；

5.一种基于声音的投影仪控制设备，其特征在于，所述基于声音的投影仪控制设备包括：存储器、处理器以及存储在存储器上的用于实现所述基于声音的投影仪控制方法的程序；

所述存储器用于存储实现基于声音的投影仪控制方法的程序；

所述处理器用于执行实现所述基于声音的投影仪控制方法的程序，以实现如权利要求1至3中任一项所述基于声音的投影仪控制方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有实现基于声音的投影仪控制方法的程序，所述实现基于声音的投影仪控制方法的程序被处理器执行以实现如权利要求1至3中任一项所述基于声音的投影仪控制方法的步骤。