CN111797762A

CN111797762A - 一种场景识别方法和系统

Info

Publication number: CN111797762A
Application number: CN202010633894.3A
Authority: CN
Inventors: 吴臻志; 祝夭龙
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-20

Abstract

本申请提出一种场景识别方法和系统，该方法包括：提取待识别场景数据的特征；将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。本申请提出的一种场景识别方法和系统，将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果，例如，每个场景网络会输出场景数据是否为对应的场景；相对于现有技术仅可以得到场景数据与各场景的相似度，本申请的方案识别结果精确度更高。

Description

一种场景识别方法和系统

技术领域

本申请涉及识别技术领域，具体涉及一种场景识别方法和系统。

背景技术

神经网络是指一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。可以预先训练神经网络，将训练好的神经网络用于对场景进行识别。通过场景A的样本训练神经网络，将场景数据输入训练好的神经网络，可以得到场景数据与场景A的相似度结果，例如，场景数据与场景A的相似度为50％；如果希望可以识别场景A或者场景B，那么，重新通过场景A、场景B的样本训练神经网络，将场景数据输入训练好的神经网络，可以得到场景数据与场景A、场景B的相似度结果，例如，场景数据与场景A的相似度为30％，与场景B的相似度为60％。这样的方式，只可以得到场景数据与各场景的相似度结果，精确度和灵活性差。

发明内容

本申请提供一种场景识别方法和系统，实现对各种场景的精确识别。

为实现上述目的，本申请实施例提供一种场景识别方法，包括：提取待识别场景数据的特征；将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

为实现上述目的，本申请实施例提供一种场景识别系统，包括：骨干网络，设置为提取待识别场景数据的特征；多头网络装置，包括不同场景网络，提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

本申请提出的一种场景识别方法和系统，将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果，例如，每个场景网络会输出场景数据是否为对应的场景；相对于现有技术仅可以得到场景数据与各场景的相似度，本申请的方案识别结果精确度更高。

附图说明

图1是本申请实施例提供的场景识别系统的结构示意图；

图2是本申请实施例提供的场景识别系统的结构示意图；

图3是本申请实施例提供的场景识别系统的结构示意图；

图4是本申请实施例提供的场景识别方法的流程示意图；

图5是本申请实施例提供的场景识别方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

下面结合附图，对本申请实施例作进一步阐述。

如图1所示，图1是本申请实施例提供的场景识别系统的结构示意图。该系统包括但不限于骨干网络110和多头网络装置120。

骨干网络110，设置为提取待识别场景数据的特征。

骨干网络负责场景数据的特征抽取。所述场景数据至少包括场景视频数据、场景图片数据和场景文本数据之一。场景数据为场景文本数据的情况下，骨干网络为采用文本预训练的深度神经网络，场景数据通过骨干网得到代表文本特征的向量。场景数据为场景视频数据或场景图片数据的情况下，骨干网络为采用图像网络(ImageNet)预训练的深度神经网络，场景数据通过骨干网得到代表图片特征的向量。可选的，骨干网络为多层深度神经网络去除最后几层全连接层的前部网络部分。

在本实施例中，可选的，通过摄像头或者麦克风等采集设备采集场景数据，所采集的场景数据存储到内存中。

多头网络装置120，包括不同场景网络，提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

每个场景网络可以设置为单层全连接或多层感知器(Multi-Layer Perceptron,MLP)，每个场景网络称为头。可以有并行存在而互不影响的多个头，也可以增加新的头。每个头输出一个二分类，即场景数据是否为本场景网络对应的场景。

采用现有技术的方案，对于场景数据N而言，神经网络输出的场景识别结果为与各场景的近似度，而不是具体是否为哪个场景的准确结果，例如与场景A的近似度为40％，与场景B的近似度为30％，与场景C的近似度为30％，识别精确度差。.采用本实施例的方案，将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果，例如，对于场景数据N而言，场景网络A输出识别结果1，表示近似，场景网络B输出识别结果0，表示不近似，场景网络C输出识别结果0，表示不近似，从而明确场景数据N为场景网络A对应的场景数据，识别结果精确度更高。

如图2所示，图2是本申请实施例提供的场景识别系统的结构示意图。该系统包括但不限于正样本装置210、骨干网络220和多头网络装置230。

正样本装置210，设置为向所述骨干网络输出待识别场景数据。

正样本装置采集当前场景的数据，得到文本数据、图像数据或视频数据等待识别场景数据。

骨干网络220，设置为提取待识别场景数据的特征。

多头网络装置230，提取的特征并行通过多头网络装置中的不同场景网络，分别得到各场景网络对应的场景识别结果。

采用本实施例的方案，将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果，识别结果精确度更高。

如图3所示，图3是本申请实施例提供的场景识别系统的结构示意图。该系统包括但不限于正样本装置310、负样本产生器320、场景标识装置330、骨干网络340和多头网络装置350。

正样本装置310，设置为向骨干网络输出训练正样本。

负样本产生器320，设置为向所述骨干网络输出训练负样本。

其中训练正样本是选定场景文件，训练负样本是除选定场景外的其他场景文件。场景文件与场景数据的区别在于：场景数据是指直接存储在存储空间(例如内存)中的采集到的场景的数据，场景文件是场景数据的有序集合。举例说明，读取内存上0～127这128个扇区的数据，或者读取内存中X目录下的tellme.txt文件的前128字节。

场景标识装置330，设置为获取场景标识，并将所述场景标识输出给所述骨干网络。场景标识设置为标识选定场景。

骨干网络340，设置为根据所述场景标识提取训练正样本和训练负样本的训练特征。

多头网络装置350，包括不同场景网络和新的场景网络，场景标识与新的场景网络对应；训练正样本和训练负样本的训练特征通过所述新的场景网络，得到所述新场景网络对应的训练识别结果；根据所述新场景网络对应的训练识别结果、所述训练正样本的标签和所述训练负样本的标签，确定所述新场景网络的权重，得到训练后的场景网络。

或者，多头网络装置350，包括不同场景网络，场景标识与所述多头网络装置中的已有场景网络对应；将所述训练特征通过所述已有场景网络，得到所述已有场景网络对应的训练识别结果；根据所述已有场景网络对应的训练识别结果、所述训练正样本的标签和所述训练负样本的标签，更新所述已有场景网络的权重，得到更新后的场景网络。

可选的，可以通过按钮触发、按键触发或者发送指令等方式指示多头网络装置识别场景数据、训练新场景网络或者更新已有场景网络。

现有技术中，需要增加新场景识别功能的情况下，根据原有场景识别功能对应的样本以及新场景识别功能对应的样本重新训练神经网络，例如，原神经网络可以识别场景A，而无法识别场景B，需要增加识别场景B的情况下，则根据场景A和场景B的样本重新训练神经网络，从而可以识别场景数据与场景A以及场景B的相似度，例如，场景数据与场景A的相似度为30％，与场景B的相似度为60％。采用本实施例的方案，多头网络装置需要增加新场景识别功能的情况下，无需对整个多头网络装置重新训练，仅对新场景网络进行训练即可，训练方便快捷，识别灵活准确。

现有技术中，需要更新场景识别功能的情况下，根据需要更新的场景识别功能对应的样本以及其他无需更新的场景识别功能对应的样本重新训练神经网络，例如，原神经网络可以识别场景A和场景B，需要更新识别场景B的能力的情况下，则根据场景A和更新后的场景B的样本重新训练神经网络。采用本实施例的方案，多头网络装置需要更新场景识别功能的情况下，无需对整个多头网络装置重新训练，仅对需要更新的场景网络重新进行训练即可，更新方便快捷。

如图4所示，图4是本申请实施例提供的场景识别方法的流程示意图。该方法包括但不限于步骤S410和步骤S420。

步骤S410、提取待识别场景数据的特征。

场景数据至少包括场景视频数据、场景图片数据和场景文本数据之一。可选的，待识别场景数据的大小可以为64*64*3，相比于大小为32*32*3的场景数据，大小为64*64*3的场景数据分辨率更高，降维处理后更清楚。

步骤S420、将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

如图5所示，图5是本申请实施例提供的场景识别方法的流程示意图。该方法包括但不限于步骤510、步骤520、步骤530、步骤S540和步骤S550。

步骤510、根据场景标识提取训练正样本和训练负样本的训练特征。

其中训练正样本是选定场景文件，训练负样本是除选定场景外的其他场景文件。

步骤520、将所述训练特征通过所述场景标识对应的待训练网络，得到所述待训练网络对应的训练识别结果。

待训练网络为已有场景网络或者新场景网络。

步骤530、根据所述训练识别结果、所述训练正样本的标签和所述训练负样本的标签，确定所述待训练网络的权重，得到训练后的场景网络。

待训练网络的训练机制如下，其中：

Y_pr为得到的输出，Y_gt为正确的输出，W为权重，X为输入，σ为激活函数(sigmoid)，η为常量。

Y_pr＝σ(WX),where WX≡Z

权重更新量为(W＝W+ΔW):

步骤S540、提取待识别场景数据的特征。

步骤S550、将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

现有技术中，需要增加新场景识别功能的情况下，根据原有场景识别功能对应的样本以及新场景识别功能对应的样本重新训练神经网络，例如，原神经网络可以识别场景A，而无法识别场景B，需要增加识别场景B的情况下，则根据场景A和场景B的样本重新训练神经网络，从而可以识别场景数据与场景A以及场景B的相似度，例如，场景数据与场景A的相似度为30％，与场景B的相似度为60％。采用本实施例的方案，需要增加新场景识别功能的情况下，仅对新场景网络进行训练即可，训练方便快捷，识别灵活准确。

现有技术中，需要更新场景识别功能的情况下，根据需要更新的场景识别功能对应的样本以及其他无需更新的场景识别功能对应的样本重新训练神经网络，例如，原神经网络可以识别场景A和场景B，需要更新识别场景B的能力的情况下，则根据场景A和更新后的场景B的样本重新训练神经网络。采用本实施例的方案，需要更新场景识别功能的情况下，仅对需要更新的场景网络(已有场景网络)重新进行训练即可，更新方便快捷。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。

一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FPGA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本发明的范围。因此，本发明的恰当范围将根据权利要求确定。

Claims

1.一种场景识别方法，其特征在于：包括：

提取待识别场景数据的特征；

将提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

2.根据权利要求1所述的方法，其特征在于，在提取待识别场景数据的特征之前，还包括：

根据场景标识提取训练正样本和训练负样本的训练特征；

将所述训练特征通过所述场景标识对应的待训练网络，得到所述待训练网络对应的训练识别结果；

根据所述训练识别结果、所述训练正样本的标签和所述训练负样本的标签，确定所述待训练网络的权重，得到训练后的场景网络。

3.根据权利要求2所述的方法，其特征在于，所述待训练网络为已有场景网络或者新场景网络。

4.根据权利要求2所述的方法，其特征在于，所述训练正样本为场景文件，所述训练负样本为非场景文件。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述场景数据至少包括场景视频数据、场景图片数据和场景文本数据之一。

6.一种场景识别系统，其特征在于，包括：

骨干网络，设置为提取待识别场景数据的特征；

多头网络装置，包括不同场景网络，提取的特征并行通过不同场景网络，分别得到各场景网络对应的场景识别结果。

7.根据权利要求6所述的系统，其特征在于，还包括：

正样本装置，设置为向所述骨干网络输出待识别场景数据。

8.根据权利要求7所述的系统，其特征在于，还包括：场景标识装置，设置为获取场景标识，并将所述场景标识输出给所述骨干网络；负样本产生器，设置为向所述骨干网络输出训练负样本；所述正样本装置，还设置为向所述骨干网络输出训练正样本；所述多头网络装置还包括新的场景网络；

所述骨干网络根据所述场景标识提取训练正样本和训练负样本的训练特征，所述场景标识与所述新的场景网络对应；将所述训练特征通过所述新的场景网络，得到所述新场景网络对应的训练识别结果；根据所述新场景网络对应的训练识别结果、所述训练正样本的标签和所述训练负样本的标签，确定所述新场景网络的权重，得到训练后的场景网络。

9.根据权利要求7所述的系统，其特征在于，还包括：场景标识装置，设置为获取场景标识，并将所述场景标识输出给所述骨干网络；负样本产生器，设置为向所述骨干网络输出训练负样本；所述正样本装置，还设置为向所述骨干网络输出训练正样本；

所述骨干网络根据所述场景标识提取训练正样本和训练负样本的训练特征，所述场景标识与所述多头网络装置中的已有场景网络对应；将所述训练特征通过所述已有场景网络，得到所述已有场景网络对应的训练识别结果；根据所述已有场景网络对应的训练识别结果、所述训练正样本的标签和所述训练负样本的标签，更新所述已有场景网络的权重，得到更新后的场景网络。

10.根据权利要求6至9任一项所述的系统，其特征在于，所述骨干网络设置为深度神经网络，所述场景网络设置为单层全连接或多层感知器。