CN111091099A

CN111091099A - 一种场景识别模型的构建方法、场景识别方法及设备

Info

Publication number: CN111091099A
Application number: CN201911329865.1A
Authority: CN
Inventors: 吴琼; 史永明; 欧歌; 刘宗民; 黄继景; 唐大伟
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-01

Abstract

本发明公开了一种场景识别模型的构建方法、场景识别方法及设备，用于提高场景识别的准确度。其中的场景识别模型的构建方法包括：通过目标检测模型确定输入的图像的场景物体词；将场景物体词输入待训练模型，获得语义转化模型，其中，语义转化模型的输入为场景物体词，输出为与图像对应的场景语义词的组合属于各个场景语义词的概率；将目标检测模型和语义转化模型连接，获得场景识别模型；其中，场景识别模型的输出为至少一个场景语义词。

Description

一种场景识别模型的构建方法、场景识别方法及设备

技术领域

本发明涉及目标识别技术领域，特别涉及一种场景识别模型的构建方法、场景识别方法及设备。

背景技术

随着计算机技术的迅速发展，场景识别技术已在越来越多的领域得到了应用。目前的场景识别大多是利用图像分类模型基于场景中的图像的基本特征进行分类，基于分类结果概括用于表征场景的词语，得出场景。

但是图像的基本特性是非结构化的，且是随机化的，这样基于图像的基本特征得到的用于表征场景的词语比较片面，即场景识别的准确度较低。

发明内容

本发明实施例提供一种场景识别模型的构建方法、场景识别方法及设备，用于提高场景识别的准确度。

第一方面，本发明实施例提供一种场景识别模型的构建方法，该方法包括：

通过目标检测模型确定输入的图像的场景物体词；

将场景物体词输入待训练模型，获得语义转化模型，其中，所述语义转化模型的输入为场景物体词，输出为与所述图像对应的场景语义词的组合属于各个场景语义词的概率；

将所述目标检测模型和所述语义转化模型连接，获得场景识别模型；其中，所述场景识别模型的输出为至少一个场景语义词。

图像所包括的物体语义词和物体场景词均是已知的，且具有对应关系，所以可以通过物体语义词预测场景物体场景词。在本发明实施例中，场景识别模型可以包括连接的目标检测模型和语义转化模型，目标检测模型用于识别图像包括的物体语义词，语义转化模型匹配与物体语义词对应的物体场景词，由于是通过已知的物体语义词和物体场景词得出的场景识别模型，从而基于该场景识别模型确定图像对应的场景更加准确。

在一种可能的实施方式中，所述语义转化模型包括两个参数矩阵，其中一个参数矩阵用于将场景物体词转换成物体词向量，另一个参数矩阵用于根据所述物体词向量预测与所述场景物体词对应的场景语义词。

在本发明实施例中，语义转化模型包括两部分，其中一部分用于将场景物体词转化成物体词向量，另一部分根据物体词向量预测对应的场景语义词，通过词向量的方式可以将场景物体词和场景语义词映射到同一语义空间中，较为准确地分析与场景物体词对应的场景语义词。

在一种可能的实施方式中，通过目标检测模型确定输入的图像的场景物体词，包括：

获取图像样本；

针对图像样本中的每张图像，建立所述每张图像包括的至少一个特征参数与对应的场景物体词之间的函数关系模型，其中，所述特征参数用于指示图像中包括的目标物体，所述函数关系模型的输入为至少一个特征参数，输出为场景物体词；

通过预设的至少一个样本特征参数对所述函数关系模型进行训练，直到所述场景物体词的取值达到设定标准，以获得所述目标检测模型；

基于所述目标检测模型对所述每张图像进行目标检测，获得所述一组场景物体词通过所述目标检测模型确定输入的图像的场景物体词。

在本发明实施例中，训练目标检测模型，针对每张图像可以较为准确的场景物体词。

在一种可能的实施方式中，将场景物体词输入待训练模型，获得语义转化模型，包括：

将场景物体词输入待训练模型，获得预测场景语义词；

若所述预测场景语义词和与所述图像对应的实际场景语义词的匹配度小于第一预设阈值，则继续训练所述待训练模型，直到所述匹配度满足预设条件，获得所述语义转化模型。

第二方面，本发明实施例提供一种场景识别模型，所述场景识别模型采用如第一方面任一所述的方法获得。

第三方面，本发明实施例提供一种场景识别方法，该方法包括：

接收待识别图像；

将所述待识别图像输入给场景识别模型，获得所述与待识别图像对应的至少一个场景语义词，其中，所述场景识别模型包括目标检测模型和语义转化模型，所述目标检测模型用于确定与所述待识别图像对应的场景物体词，所述语义转化模型用于根据所述场景物体词确定至少一个场景语义词；

根据所述至少一个场景语义词确定所述待识别图像对应的场景。

在一种可能的实施方式中，根据所述至少一个场景语义词确定所述待识别图像对应的场景，包括：

将至少一个场景语义词转化为所述待识别图像所属场景的概率；

选取概率大于预设概率的场景语义词，作为与所述待识别图像对应的场景语义词。

第四方面，本发明实施例提供了一种计算机设备，该设备包括：

存储器，用于存储程序；

处理器，用于读取所述存储器中的程序，执行下列过程：

通过目标检测模型确定输入的图像的场景物体词；

在一种可能的实施方式中，所述处理器具体用于：

获取图像样本；

在一种可能的实施方式中，所述处理器具体用于：

将场景物体词输入待训练模型，获得预测场景语义词；

第五方面，本发明实施例提供了一种计算机设备，该设备包括：

存储器，用于存储程序；

处理器，用于读取所述存储器中的程序，执行下列过程：

接收待识别图像；

在一种可能的实施方式中，所述处理器具体用于：

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面或第三方面中任一项所述的方法。

关于第二方面到第六方面的技术效果具体可参见如第一方面的技术效果的描述，这里不再赘述。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的场景识别模型的构建方法的流程示意图；

图2为本发明实施例提供的场景图像；

图3为本发明实施例提供的语义转化模型训练过程涉及的一种示意图；

图4为本发明实施例提供的场景识别方法的流程示意图；

图5为本发明实施例提供的设备的一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

目前的场景识别大多是利用图像分类模型基于场景中的图像的基本特征进行分类，基于分类结果概括用于表征场景的词语，得出场景。但是图像的基本特性是非结构化的，且是随机化的，这样基于图像的基本特征得到的用于表征场景的词语比较片面，即场景识别的准确度较低。

鉴于此，本发明实施例提供了一种场景识别模型的构建方法、场景识别方法及设备，可以通过已知的物体语义词，即利用场景和场景物体词之间的语义关系确定图像对应的场景，从而确定的场景更加准确。

下面结合附图介绍本发明实施例提供的技术方案。

请参见图1，本发明实施例提供了场景识别模型的构建方法，该方法的执行主体可以是电子设备。该方法的流程描述如下：

S101、通过目标检测模型确定输入的图像的场景物体词。

本发明实施例旨在通过已知的物体语义词，即利用场景和场景物体词之间的语义关系确定图像对应的场景。也就是针对一张图像，该图像可能包括多个目标物体，例如图2所示的图像，包括交通灯、车辆、小鸟等。多个目标物体可能对应一个场景，不同的目标物体可能对应不同的场景，也可能对应同一个场景；同一个目标物体可能对应不同的场景，也可能对应同一个场景。所以本发明实施例可以建立场景物体词和场景语义词的对应关系，或者也可以理解为建立一组场景物体词和场景语义词的对应关系。

首先，本发明实施例可以收集场景物体词。示例性的，本发明实施例可以获取图像样本，针对图像样本中的每张图像，获取每张图像包括的一组物体场景词。

在一种可能的实施方式中，本发明实施例事先可以建立目标检测模型，用于获取每张图像包括的一组物体场景词。建立目标检测模型时，可以采集每张图像中的用于指示图像中包括的目标物体至少一个特征参数，建立至少一个特征参数与对应的场景物体词之间的函数关系模型，该函数关系模型的输入为至少一个特征参数，输出为场景物体词。例如该函数关系模型可以是局部图像CNN(Convolutional Neural Network，卷积神经网络)，通过预设的至少一个样本特征参数对该函数关系模型进行训练，直到场景物体词的取值达到设定标准，以获得目标检测模型。该目标检测模型的输入为图像，输出为与图像对应的至少一个物体语义词。

本发明实施例可以将图像样本中的每张图像输入目标检测模型，通过目标检测模型获得一组场景物体词。例如这一组场景物体词组成集合o_i，o_i∈{桌子,鸟,橱柜,…}。

S102、将场景物体词输入待训练模型，获得语义转化模型，其中，语义转化模型的输入为场景物体词，输出为与图像对应的场景语义词的组合属于各个场景语义词的概率。

由于每张图像对应的场景是已知的，在可能的实施方式中，本发明实施例可以为每张图像标注场景语义词，例如y_i，y_i∈{马路,卧室,咖啡馆,…}。将获得的一组场景物体词和标注的场景语义词进行关联，获得一组场景物体词和场景语义词的对应关系{o_i,y_i}，其中，i为正整数。

本发明实施例创建了场景物体词和场景语义词的对应关系之后，可以利用该对应关系建立语义转化模型。该语义转化模型输入的是物体语义词，输出的是场景语义词的组合属于各个场景语义词的概率。

在本发明实施例中，语义转化模型包括两个参数矩阵，也可以认为包括两部分，其中的一部分用于将场景物体词转化为物体词向量，另一部分用于根据物体词向量预测与场景物体词对应的场景语义词。

例如请参见图3，为待训练模型的一种示意，该待训练模型为两层神经网络模型，包括输入层、隐藏层和输出层。其中，输入层输入场景物体词，输出层输出场景语义词，隐藏层将场景物体词映射为词向量矩阵W_I和W_O，W_O可以表征场景语义词，也就是上述的一个参数矩阵，W_I可以是上述的另一个矩阵。在训练待训练模型时，将待训练模型的输出层的每个输出接隐藏层W_I和W_O，得到输出的场景语义词，在本申请的一些实施例中，隐藏层W_I和W_O可以为全连接层。

在训练待训练模型的过程中，如果得到的场景物体词和场景语义词的匹配度小于第一预设阈值，也就是根据待训练模型预测的场景语义词与场景物体词实际对应的场景语义词的匹配度小于第一预设阈值，则根据设置的损失函数的取值调整该待训练模型的训练参数。应理解，这里损失函数是训练参数的一种，这里利用损失函数的反向传输来调整训练参数。采用调整训练参数后的该待训练模型将输入的场景物体词和场景语义词的对应关系映射到指定语义空间，计算语义关联的场景物体词和场景语义词的匹配度，直到损失函数的取值低于或等于第二预设阈值，也就是经过多次迭代使得损失函数的取值低于或等于第二预设阈值，获得语义转化模型。例如，将训练集图像X_i作为输入，图像对应的场景词y_i作为输出。目标函数可以是损失函数(Loss function)，例如为交叉熵损失函数(categorical_crossentropy)，最后一层激活函数设为softmax，训练待训练模型并调整目标参数直至达到预期效果，获得语义转化模型。

在本发明实施例中，全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的词对的匹配度高于非语义关联的词对的匹配度。通过预置目标函数能够实现根据实际情况，准确确定出场景物体词和场景语义词的匹配度。

S103、将目标检测模型和语义转化模型连接，获得场景识别模型；其中场景识别模型的输出为至少一个场景语义词。

本发明实施例可以通过全连接层参数W_I和W_O将目标检测模型和语义转化模型进行连接，从而可以对场景物体词和场景语义词描述进行两层的非线性变换，进而可以进一步挖掘场景物体词和场景语义词之间的直接匹配关系。

基于同一发明构思，本发明一实施例提供采用上述构建方法获得的场景识别模型。

基于该场景识别模型，请参见图4，本发明一实施例还提供了一种场景识别方法，该场景识别方法的流程描述如下：

S401、接收待识别图像；

S402、将待识别图像输入给上述的场景识别模型，获得与待识别图像对应的至少一个场景语义词，其中，场景识别模型包括目标检测模型和语义转化模型，所述目标检测模型用于确定与所述待识别图像对应的场景物体词，所述语义转化模型用于根据所述场景物体词确定至少一个场景语义词；

S403、根据至少一个场景语义词确定待识别图像对应的场景。

在一种可能的实施方式中，本发明实施例与待识别图像对应的至少一个场景语义词，可以将至少一个场景语义词转化为待识别图像所属场景的概率，从而选取概率大于预设概率的场景语义词，作为与待识别图像对应的场景语义词。例如请继续参见图2，本发明实施例可以输出“马路70％”、“停车场29％”。

在本发明实施例中，得到的匹配度是基于图像包括的目标物体的场景物体词和已知的物体语义词的匹配度。由于是通过已知的物体语义词，即利用场景和场景物体词之间的语义关系确定图像对应的场景，确定的场景更加准确。

下面结合说明书附图介绍本发明实施例提供的设备。

请参见图5，基于同一发明构思，本发明一实施例提供一种场景识别模型的构建设备，该设备可以包括：至少一个处理器501，处理器501用于执行存储器中存储的计算机程序时实现本发明实施例提供的如图1所示的场景识别模型的构建方法的步骤，或者实现本发明实施例提供的如图4所示的场景识别方法的步骤。

可选的，处理器501具体可以是中央处理器、特定应用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)，可以是一个或多个用于控制程序执行的集成电路。

可选的，该设备还包括与至少一个处理器连接的存储器502，存储器502可以包括只读存储器(英文：Read Only Memory，简称：ROM)、随机存取存储器(英文：Random AccessMemory，简称：RAM)和磁盘存储器。存储器502用于存储处理器501运行时所需的数据，即存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，执行如图1所示的方法。其中，存储器502的数量为一个或多个。其中，存储器502在图5中一并示出，但需要知道的是存储器502不是必选的功能模块，因此在图5中以虚线示出。

例如，处理器501可以用于：

通过目标检测模型确定输入的图像的场景物体词；

在一种可能的实施方式中，处理器501具体用于：

获取图像样本；

在一种可能的实施方式中，处理器501具体用于：

将场景物体词输入待训练模型，获得预测场景语义词；

关于该设备中各功能模块所能够实现的功能，可参考图1所示的实施例中的相应描述，不多赘述。

该设备也可以用于执行图4所示的实施例所提供的方法，例如处理器501可以用于：

接收待识别图像；

在一种可能的实施方式中，处理器501具体用于：

本发明实施例还提供一种计算机存储介质，其中，计算机存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行前述的场景识别模型的构建方法或场景识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种场景识别模型的构建方法，其特征在于，包括：

通过目标检测模型确定输入的图像的场景物体词；

2.如权利要求1所述的方法，其特征在于，所述语义转化模型包括两个参数矩阵，其中一个参数矩阵用于将场景物体词转换成物体词向量，另一个参数矩阵用于根据所述物体词向量预测与所述场景物体词对应的场景语义词。

3.如权利要求1或2所述的方法，其特征在于，通过目标检测模型确定输入的图像的场景物体词，包括：

获取图像样本；

4.如权利要求1所述的方法，其特征在于，将场景物体词输入待训练模型，获得语义转化模型，包括：

将场景物体词输入待训练模型，获得预测场景语义词；

5.一种场景识别方法，其特征在于，包括：

接收待识别图像；

6.如权利要求5所述的方法，其特征在于，所述语义转化模型包括两个参数矩阵，其中一个参数矩阵用于将场景物体词转换成物体词向量，另一个参数矩阵用于根据所述物体词向量预测与所述场景物体词对应的场景语义词。

7.如权利要求5或6所述的方法，其特征在于，根据所述至少一个场景语义词确定所述待识别图像对应的场景，包括：

8.一种计算机设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于读取所述存储器中的程序，执行下列过程：

通过目标检测模型确定输入的图像的场景物体词；

9.一种计算机设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于读取所述存储器中的程序，执行下列过程：

接收待识别图像；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-4或5-7中任一项所述的方法。