CN114202709A - 对象识别方法、装置及存储介质 - Google Patents

对象识别方法、装置及存储介质 Download PDF

Info

Publication number
CN114202709A
CN114202709A CN202111537721.2A CN202111537721A CN114202709A CN 114202709 A CN114202709 A CN 114202709A CN 202111537721 A CN202111537721 A CN 202111537721A CN 114202709 A CN114202709 A CN 114202709A
Authority
CN
China
Prior art keywords
scene
identification
result
key information
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111537721.2A
Other languages
English (en)
Other versions
CN114202709B (zh
Inventor
李伟
杨明川
白亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111537721.2A priority Critical patent/CN114202709B/zh
Publication of CN114202709A publication Critical patent/CN114202709A/zh
Application granted granted Critical
Publication of CN114202709B publication Critical patent/CN114202709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例中提供对象识别方法、装置及存储介质,通过基于样本库预识别对象;对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;基于所提取的关键信息完成所述对象的识别以得到识别结果。本申请在基于样本库缺乏样本而无法识别对象的情况下,通过对单场景或多场景的场景认知辅助完成对象的识别,并能推理对象在场景中的关系,提升识别能力。

Description

对象识别方法、装置及存储介质
技术领域
本申请涉及对象识别技术领域,尤其涉及对象识别方法、装置及存储介质。
背景技术
当智能机器人置于新环境的初期,为能更好的执行指令,机器人需要完成对环境中对象的辨识。
然而,目前基于通用样本库进行对象识别,对具体场景中的对象针对性不强,存在识别精度不够,并且对对象识别误差较大,样本库扩展方法的智能性及便捷性都不够。
发明消息
鉴于以上所述现有技术的缺点,本申请的目的在于提供对象识别方法、装置及存储介质,用于解决上述问题。
本申请第一方面提供一种对象识别方法,包括:基于样本库预识别对象;对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;基于所提取的关键信息完成所述对象的识别以得到识别结果。
在第一方面的一实施例中,所述基于对所述场景认知的对象关系提取与对象相关的关键信息,包括:基于所述对象的当前场景所提取的关键信息识别所述对象;若根据当前场景未能识别对象,回溯与所述当前场景或包含所述对象的至少一个关联场景以形成场景序列,以基于场景序列中的各场景提取的关键信息完成对象识别。
在第一方面的一实施例中,所述对象识别方法还包括:对未能预识别的对象设置未识别标记;若回溯关联场景仍未能完成所述对象的识别,则保持所述对象的未识别标识。
在第一方面的一实施例中,所述回溯关联场景仍未能完成所述对象的识别,包括:回溯的关联场景数量达到预设阈值仍未能完成所述对象的识别。
在第一方面的一实施例中,所述基于对场景的认知结果提取与对象相关的关键信息,包括:形成对应每个所述场景的主题场景信息集合,每个主题场景信息集合包括多模态的场景信息;根据所述多模态的场景信息进行认知以得到认知结果;根据所述认知结果提取所述关键信息。
在第一方面的一实施例中,所述多模态的场景信息包括以下至少一种:视频、图片、音频及文本。
在第一方面的一实施例中,所述认知结果包括:场景中或场景之间的对象之间的关系;所述对象包括人与物体。
在第一方面的一实施例中,所述的对象识别方法,包括以下至少一种:1)将对所述对象的识别结果录入至一场景对象样本库;所述场景对象样本库用于对象识别;2)根据识别结果搜索相关的对象,作为样本以扩充所述场景对象样本库。
在第一方面的一实施例中,所述识别结果包括:所述对象的识别信息叠加上所述对象与场景中其它对象的关系信息。
本申请第二方面提供一种对象识别装置,包括:第一识别模块,用于基于样本库预识别对象;场景认知模块,用于对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;第二识别模块,基于所提取的关键信息完成所述对象的识别以得到识别结果。
本申请第三方面提供一种计算机装置,包括:通信器、存储器及处理器;所述通信器用于与外部通信;所述存储器用于存储程序指令;所述处理器用于所述运行程序指令以执行第一方面任一项所述的对象识别方法。
本申请第四方面提供一种智能行动设备,包括如第三方面所述的计算机装置。
本申请第五方面提供一种计算机可读存储介质,存储有程序指令,所述程序指令被运行以执行如第一方面任一项所述的对象识别方法。
如上所述,本申请实施例中提供对象识别方法、装置及存储介质,通过基于样本库预识别对象;对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;基于所提取的关键信息完成所述对象的识别以得到识别结果。本申请在基于样本库缺乏样本而无法识别对象的情况下,通过对单场景或多场景的场景认知辅助完成对象的识别,并能推理对象在场景中的关系,提升识别能力。
附图说明
图1展示本申请一实施例中计算机装置的结构示意图。
图2展示本申请一实施例中对象识别方法的流程示意图。
图3展示本申请一应用实例中对象识别方法的流程示意图。
图4展示本申请一实施例中通过场景认知识别对象的流程示意图。
图5展示本申请一实施例中对象识别装置的模块示意图。
具体实施方式
以下通过特定的具体示例说明本申请的实施方式,本领域技术人员可由本申请所揭露的消息轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用系统,本申请中的各项细节也可以根据不同观点与应用系统,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
在本申请的表示中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本申请中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于表示目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的表示中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了明确说明本申请,省略与说明无关的器件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某器件与另一器件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种器件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
虽然在一些示例中术语第一、第二等在本文中用来表示各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等表示。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、模块、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、模块、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的消息相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
目前,在智能识别技术中,有通过将待识别的人或物体在样本库匹配已知样本,并通过匹配到的样本来识别所述待识别的人或物。然而,目前采用的样本库基本是通用样本库,对具体场景中的对象针对性不强,存在识别精度不够的问题,并且对于样本库之外的对象识别误差较大,则容易出现无法识别的问题,这在依赖机器视觉进行识别的场景中,例如家用、商用、工业用途的智能机器人,或者无人车辆等,将是非常正常使用的严重问题。
另外,通用样本库的扩展上的智能性及便捷性都不够,导致样本库的样本无法达到足够数量,也就无从改善识别误差、失败的问题。
鉴于此,本申请实施例中可以提供对象识别方法,对通过样本库对待识别对象识别失败的情况提供辅助手段,由于场景中对象之间存在关联关系(例如场景中人和人、人和物、物和物之间的关系),因此可以通过分析场景中的各种信息(例如视频、图片、文本等)进行场景认知,从而基于与所述关联关系相关的一些关键信息进行推理,以辅助识别出所述待识别对象。所述对象识别方法可以通过运行于计算机装置的程序代码实现。
如图1所示,展示本申请一实施例中计算机装置的电路结构示意图。
在一些实施例中,所述计算机装置100可以应用于移动终端,例如智能手机、平板电脑、移动助理设备等。在一些实施例中,所述计算机装置100可以应用于智能行动设备,例如家用、商用、工业用途的智能机器人,包括但不限于清扫机器人、服务机器人、AGV小车;又例如,无人车辆、无人机等。所述计算机装置100可以通过运行程序指令,而将所应用的设备实现为具有智能功能的“智能体”。
所述计算机装置100包括总线101、处理器102、存储器103及通信器104。处理器102、存储器103之间可以通过总线101通信。所述存储器103中可以存储有程序指令(比如系统或应用软件)。所述处理器102通过运行存储器103中的程序指令来实现本申请实施例中对象识别方法中的步骤。
总线101可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,虽然图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在一些实施例中,处理器102可以为中央处理器(Central Processing Unit,CPU)、微处理单元(MCU)、片上系统(System On Chip)、或现场可编程逻辑阵列(FPGA)等实现。存储器103可以包括易失性存储器(Volatile Memory)以用于运行程序时的数据暂存使用,例如随机存取存储器(Random Access Memory,RAM)。
存储器103还可以包括非易失性存储器(non-volatile memory)以用于数据存储,例如只读存储器(Read-Only Memory,ROM),快闪存储器,硬盘驱动器(Hard Disk Drive,HDD)或固态盘(Solid-State Disk,SSD)。
所述通信器104用于与外部通信。在具体实例中,所述通信器104可以包括一个或多个有线和/或无线通信电路模块。举例来说,所述通信器104可以包括例如有线网卡、USB模块、串行接口模块等中的一种或多种。无线通信模块所遵循的无线通信协议包括:例如近距离无线通信(Nearfield communication,NFC)技术、红外(Infared,IR)技术、全球移动通讯系统(Global System forMobile communications,GSM)、通用分组无线服务(GeneralPacket Radio Service,GPRS)、码分多址引入(Code Division MultipleAccess,CDMA)、宽带码分多址(Wideband Code division multiple access,WCDMA)、时分码分多址(Time-Division Code DivisionMultipleAccess,TD-SCDMA)、长期演进(Long Term Evolution,LTE)、蓝牙(BlueTooth,BT)、全球导航卫星系统(Global Navigation Satellite System,GNSS)等中的一种或多种。
如图2所示,展示本申请实施例中对象识别方法的流程示意图。所述方法包括:
步骤S201:基于样本库预识别对象。
在一些实施例中,基于样本库进行对象识别的方式,具体可以是通过样本库收集各种对象的例如图片等作为样本,根据样本库的样本构建训练数据集,通过训练数据集训练目标检测模型,以用于进行目标检测。在可能实例中,所述目标检测模型可以由机器学习模型实现,例如基于深度神经网络CNN所构建,如Faster R-CNN、SSD和YOLO等。
在待识别对象未在样本库中出现等情况中,可能会导致识别所述待识别对象失败的情况。
步骤S202:对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息。
其中,所述场景认知结果包括场景中的对象关系。在一些实施例中,所述对象关系,包括人与人的关系、人与物的关系、物与物的关系等。所述关键信息可以是与待识别对象的特征信息(例如标识)、与待识别对象存在关系的相关对象的特征信息、与待识别对象存在关系的场景的信息。示例性的,所述关键信息可以包括例如物品名称,适用场景,场景中的使用人等。
步骤S203:基于所提取的关键信息完成所述对象的识别以得到识别结果。
可以理解的是,利用场景中与待识别对象相关联的关键信息,可以推理出待识别对象的可能身份。
举一实例来说,若待识别物品无法被识别,但在场景中待识别物品是位于人的头顶的,其中就存在了“待识别对象在人头顶”的对象关系,进一步这个“人”如果预先知晓身份,例如“张三”,则关键信息包括“在张三头顶”,则可以缩小范围到待识别物体可能是“头发”,“帽子”,如果已知张三是光头,则可推理待识别物品可能是张三的假发或者帽子。以此类推,结合比如待识别物体带有商标标识等关键信息,就可以较大可能地推断待识别对象为帽子,并可以结合相关的对象关系,得到与场景相关的更加细致的待识别对象的识别信息:“张三的帽子”。
上述通过直观的举例来说明所要达成的识别目的,以下具体说明实现原理。
在一些实施例中,在计算机装置的机器视角,需要通过对每个实际场景进行数据采集,以构建机器可理解的数字化的“场景”,以下称为“主题场景信息集合”。所述主题场景信息集合可以包括多模态的场景信息。可选的,所述多模态的场景信息包括以下至少一种:视频、图片、音频及文本。
因此,对实际“场景”认知,对于机器而言,执行方式上即根据“主题场景信息集合”所包括的视频、图片、音频及文本中的一种或多种结合,进行认知以得到认知结果,例如提取各种认知信息,如在室内场景、天气多云、灯、图像中的人是张三、待识别物体的颜色等各种信息。进而,从认知结果中提取与所述待识别相关的关键信息。再根据关键信息来推理识别出所述待识别对象。
在一些情形中,根据当前的包含待识别对象的场景就可以推理得到对象的识别结果。比如,图中穿在用户脚上的物体、场景为室内以及结合物体形状能将识别出该物体为拖鞋。
但是在另一些情形中,可能单纯根据所述当前场景无法识别出待识别对象,例如当前场景中只能获取到桌上有一个罐子的信息,无法识别出是什么罐子。为此,在一些实施例中,可以通过回溯与所述当前场景或包含所述对象的至少一个关联场景以形成场景序列,例如[当前场景,关联场景1,关联场景2,....],以基于场景序列中的各场景提取的关键信息完成对象识别。在一些实施例中,所述关联场景可以是与待识别对象、待识别对象关联对象及进一步关联对象等相关联的关联场景。例如,当前场景中张三头戴待识别物品,关联场景1中张三在吃饭,关联场景2中张三剃了个光头等。
在一实施例中,对待识别对象的识别结果可以不仅包含待识别对象本身的识别信息,还可以包括:在对象本身的识别信息的基础上叠加上所述对象与场景中其它对象的关系信息。例如,若识别出物品是“碗”,而当前场景中是婴儿在使用吃饭,则对所述物品的识别结果可以是“婴儿吃饭用的碗”。可见,在对象识别的同时,叠加物与人、物与物等对象间关联关系,加深在特定环境下对对象的认知深度和广度。
需说明的是,在执行识别时,计算机装置分别对应每个场景形成主题场景信息集合,并根据从当前场景和各个关联场景的主题场景信息集合得到的关键信息关联、结合以推理识别待识别对象。
在一些示例中,根据场景序列,先通过当前场景提取关键信息以识别待识别对象,如果识别失败;则回溯关联场景1,提取关键信息,并与当前场景相接合来识别待识别对象;若还是识别失败,则再回溯关联场景2,根据当前场景、关联场景1、关联场景2提取关键信息相结合以推理识别待识别对象。以此类推,可以当回溯的关联场景1达到预设阈值时,放弃识别所述待识别对象。在可能示例总,所述预设阈值可以根据场景与待识别对象的相关性来设置,例如普通相关的可以算作1个场景,相关度更高的赋予权重a>1(例如1.5个场景),相关度低的赋予权重b<1(例如0.5个场景),进而按场景数量对各个场景的权重求和,与预设阈值比较,由此所述预设阈值可以并非整数。
可以理解的是,通过关联场景与当前场景中与待识别对象直接关联及间接关联关系的叠加,即对应的关键信息的结合,相比于单场景而言,能成功识别出待识别对象的可能性更大,有效降低最终识别失败的可能。
可以参考图3所示,展示本申请一实施例中通过场景认知识别对象的流程示意图。所述流程包括:
步骤S301:实时监测在当前场景中是否出现未识别对象。
若出现未识别对象,进入步骤S302;若未出现未识别对象,则继续监测。
步骤S302:根据当前场景形成第一主题场景信息集合。
所述主题场景信息集合包含语音、视频、图片、文本等多模态场景信息。
步骤S303:判断是否能识别未识别对象。
在当前场景时,根据第一主题场景信息集合的语音、视频、图片、文本等多模态场景信息进行认知以形成认知结果,并从中提取与待识别对象关联的关键信息,以用于识别未识别对象。
如果可以识别待识别对象,则完成识别;如果无法完成待识别对象的识别,则进入步骤S304。
步骤S304:进行一关联场景的回溯。
步骤S305:根据关联场景形成第二主题场景信息集合。
步骤S306:判断回溯关联场景数量是否达到预设阈值。
若是,则结束,仍无法识别;若否,则回到步骤S303,基于第一主题场景信息集合和第二主题场景信息集合提取关键信息以尝试识别待识别对象。其中,除了针对每个场景认知以外,还进行多场景认知的联合分析,如多场景关键信息之间的逻辑分析,例如人/物的相关性分析等。
在一些实施例中,对于无法识别的对象进行未识别标记,以能根据未识别标记来确定对象需要标识。例如,本次未能识别的对象,给予未识别标记,以在下一次识别时能发现出此对象而继续识别。在一些示例中,可以对于对未能预识别的对象设置未识别标记,以在后续通过场景认知继续识别时能发现此对象而进行继续识别。在又一些示例中,可以对通过回溯关联场景数量达到预设阈值仍未能完成所述对象的识别,保留所述对象的未识别标识,以待下一次继续识别。
在一些实施例中,还可以利用已识别出的对象来扩充样本库,更新的方式包括以下至少一种:
1)将对所述对象的识别结果录入至一场景对象样本库。
例如,识别出“帽子”,可以叠加上与其相关的人“张三”的信息、“黑色”的信息,构成样本“张三的黑帽子”可以作为样本录入所述场景对象样本库,以扩充样本数量。其中,所述场景对象样本库可用于对象识别。例如,通过场景对象样本库构建训练样本以训练目标检测模型。相较于通用样本库,场景对象样本库中的各样本包含的信息更多,更利于提升对象识别的能力。
2)根据识别结果搜索相关的对象,作为样本以扩充所述场景对象样本库。
例如,根据识别出的“黑帽子”,通过例如网络搜索方式等,收集各种类型的“黑帽子”或其它颜色帽子的视频、图片等,作为样本以扩充所述场景对象样本库。
再请参阅图4,展示本申请一应用实例中对象识别方法的流程示意图。通过图4以展示本申请的对象识别方法的具体应用的示例。
如图4所示,流程具体包括:
步骤S401:场景中对象的采样。
在一些实施例中,以运行有多模态智能助理程序的认知机器人体系为例,多模态智能助理程序通过连接场景中的各完成场景物品的静态采样。感知终端包括如摄像头、麦克风等,或者是其它的探测传感器。
例如,通过摄像头采集当前场景中的对象的图像。
步骤S402:基于通用样本库对采样的对象进行预识别,判断是否能识别。若是,则进入步骤S403;若否,进入步骤S405。
步骤S403:完成对象识别。
在一些实施例中,可以在此对象的识别信息基础上叠加场景认知的对象关系的信息,形成识别结果。
步骤S404:将识别结果作为样本录入场景对象样本库。
步骤S405:对不能识别的对象打上未识别标识;
步骤S406:对于未识别标识的对象,在包含该对象的当前场景完成从主题场景信息集合的构建(多模态场景信息获取)、根据主题场景信息集合认知(含人/物相互关系),至完成关键信息的提取。
其中,关键信息包括但不限于如物品名称,适用场景,场景中与所述对象关联的其它对象(人、物)等。
步骤S407:基于关键信息尝试是否能识别所述对象。
若能,则进入步骤S408;若不能,则进入步骤S409;
步骤S408:将对象的识别信息叠加场景中的对象关系形成识别结果,作为样本至步骤S404,录入场景对象样本库。
步骤S409:对根据当前场景不能识别的物品,进行关联场景的回溯,利用关联场景与相关场景提取关键信息,相叠加结合再至步骤S407对所述对象进行识别,直至完成识别而进入步骤S407;或者,关联场景数量达到预设阈值仍不能完成识别,保持所述对象的未识别标识,以待下次识别。
在得到识别结果时,可采用多种途径完成场景对象样本库的样本量的扩充,例如上述完成识别的对象叠加其在场景中的对象关系形成样本录入场景对象样本库,再有通过网络搜索对象相关(比如相似)的其它对象等,作为样本录入场景对象样本库。
以下,针对根据单场景(即当前场景)、多场景联合(即当前场景和一个或多个关联场景)对待识别对象进行识别分别举一实例加以说明。
关于单场景识别,例如当前场景对应的图片中存在一男人脚上穿着对象A、女人脚上穿着对象B。假设男人和女人身份已知,男人是“爸爸”,女人是“妈妈”,环境是室内;根据图片颜色,A是蓝色,B是棕色,则可以推理识别对象A、B是拖鞋,则叠加和其它对象的关系得到识别结果:“爸爸的蓝色拖鞋”,“妈妈的棕色拖鞋”,并可以在图片中通过目标框标记。
关于多场景识别,例如当前的场景1对应的图像中,C拿着待识别对象D,根据场景1只能识别对象D是盒子,无法得到准确识别结果。进而,根据回溯的场景2,对应的视频中E对C对话:“帮我拿一下盐”;根据回溯的场景3,可以获知E在做饭。假设根据场景或其它途径能识别C是女儿,E是妈妈,则可以识别出对象D是“调料盒”,叠加上场景2中盐的信息可以得到“装盐的调料盒”,叠加上场景1、场景2、场景3中E、C的关系、C、D的关系,可得到识别结果:“妈妈在做饭时让女儿去拿的调料盒是装盐的调料盒”。
如图5所示,展示本申请一实施例中的对象识别装置的模块示意图。所述对象识别装置的实现可以参考之前对象识别方法实施例,因此此示例中不再对相同的技术内容进行重复赘述。
所述对象识别装置500,包括:
第一识别模块501,用于基于样本库预识别对象;
场景认知模块502,用于对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;
第二识别模块503,基于所提取的关键信息完成所述对象的识别以得到识别结果。
在一实施例中,所述基于对所述场景认知的对象关系提取与对象相关的关键信息,包括:基于所述对象的当前场景所提取的关键信息识别所述对象;若根据当前场景未能识别对象,回溯与所述当前场景或包含所述对象的至少一个关联场景以形成场景序列,以基于场景序列中的各场景提取的关键信息完成对象识别。
在一实施例中,对象识别装置500还包括:标记模块,用于对未能预识别的对象设置未识别标记;若回溯关联场景仍未能完成所述对象的识别,则保持所述对象的未识别标识。
在一实施例中,所述回溯关联场景仍未能完成所述对象的识别,包括:回溯的关联场景数量达到预设阈值仍未能完成所述对象的识别。
在一实施例中,所述基于对场景的认知结果提取与对象相关的关键信息,包括:形成对应每个所述场景的主题场景信息集合,每个主题场景信息集合包括多模态的场景信息;根据所述多模态的场景信息进行认知以得到认知结果;根据所述认知结果提取所述关键信息。
在第一方面的一实施例中,所述多模态的场景信息包括以下至少一种:视频、图片、音频及文本。
在第一方面的一实施例中,所述认知结果包括:场景中或场景之间的对象之间的关系;所述对象包括人与物体。
在第一方面的一实施例中,对象识别装置500包括以下至少一种模块:录入模块,用于将对所述对象的识别结果录入至一场景对象样本库;所述场景对象样本库用于对象识别;扩充模块,用于根据识别结果搜索相关的对象,作为样本以扩充所述场景对象样本库。
需特别说明的是,在图5实施例中的各个功能模块,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以程序指令产品的形式实现。程序指令产品包括一个或多个程序指令。在计算机上加载和执行程序指令指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
并且,图5实施例所揭露的装置,可通过其它的模块划分方式实现。以上所表示的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或模块可以结合或者可以动态到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接于可以是通过一些接口,装置或模块的间接耦合或通信连接于,可以是电性或其它的形式。
另外,图5实施例中的各功能模块及子模块可以动态在一个处理部件中,也可以是各个模块单独物理存在,也可以两个或两个以上模块动态在一个部件中。上述动态的部件既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述动态的部件如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
需特别说明的是,本申请上述实施例的流程图表示的流程或方法表示可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
例如,图2、图3、图4等实施例中的各个步骤的顺序可能可以在具体场景中加以变化,并非以上述表示为限。
本申请实施例中还可以提供一种计算机可读存储介质,存储有程序指令,所述程序指令被运行时执行前述方法实施例(例如图2、图3、图4)所执行的流程步骤。
即上述实施例中的方法步骤被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此表示的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。
综上,本申请实施例中提供对象识别方法、装置及存储介质,通过基于样本库预识别对象;对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;基于所提取的关键信息完成所述对象的识别以得到识别结果。本申请在基于样本库缺乏样本而无法识别对象的情况下,通过对单场景或多场景的场景认知辅助完成对象的识别,并能推理对象在场景中的关系,提升识别能力。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (12)

1.一种对象识别方法,其特征在于,包括:
基于样本库预识别对象;
对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;
基于所提取的关键信息完成所述对象的识别以得到识别结果。
2.根据权利要求1所述的对象识别方法,其特征在于,所述基于对所述场景认知的对象关系提取与对象相关的关键信息,包括:
基于所述对象的当前场景所提取的关键信息识别所述对象;
若根据当前场景未能识别对象,回溯与所述当前场景或包含所述对象的至少一个关联场景以形成场景序列,以基于场景序列中的各场景提取的关键信息完成对象识别。
3.根据权利要求2所述的对象识别方法,其特征在于,还包括:
对未能预识别的对象设置未识别标记;
若回溯关联场景仍未能完成所述对象的识别,则保持所述对象的未识别标识。
4.根据权利要求3所述的对象识别方法,其特征在于,所述回溯关联场景仍未能完成所述对象的识别,包括:
回溯的关联场景数量达到预设阈值仍未能完成所述对象的识别。
5.根据权利要求1或2所述的对象识别方法,其特征在于,所述基于对场景的认知结果提取与对象相关的关键信息,包括:
形成对应每个所述场景的主题场景信息集合,每个主题场景信息集合包括多模态的场景信息;
根据所述多模态的场景信息进行认知以得到认知结果;
根据所述认知结果提取所述关键信息。
6.根据权利要求5所述的对象识别方法,其特征在于,所述多模态的场景信息包括以下至少一种:视频、图片、音频及文本。
7.根据权利要求1所述的对象识别方法,其特征在于,所述认知结果包括:场景中或场景之间的对象之间的关系;所述对象包括人与物体。
8.根据权利要求1所述的对象识别方法,其特征在于,包括以下至少一种:
1)将对所述对象的识别结果录入至一场景对象样本库;所述场景对象样本库用于对象识别;
2)根据识别结果搜索相关的对象,作为样本以扩充所述场景对象样本库。
9.根据权利要求1所述的对象识别方法,其特征在于,所述识别结果包括:所述对象的识别信息叠加上所述对象与场景中其它对象的关系信息。
10.一种对象识别装置,其特征在于,包括:
第一识别模块,用于基于样本库预识别对象;
场景认知模块,用于对于未能预识别的对象,在包含该对象的场景或关联场景中,基于对场景的认知结果提取与所述对象相关的关键信息;所述场景认知结果包括场景中的对象关系;
第二识别模块,基于所提取的关键信息完成所述对象的识别以得到识别结果。
11.一种计算机装置,其特征在于,包括:通信器、存储器及处理器;所述通信器用于与外部通信;所述存储器用于存储程序指令;所述处理器用于运行所述程序指令以执行如权利要求1至9中任一项所述的对象识别方法。
12.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令被运行以执行如权利要求1至9中任一项所述的对象识别方法。
CN202111537721.2A 2021-12-15 2021-12-15 对象识别方法、装置及存储介质 Active CN114202709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111537721.2A CN114202709B (zh) 2021-12-15 2021-12-15 对象识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111537721.2A CN114202709B (zh) 2021-12-15 2021-12-15 对象识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114202709A true CN114202709A (zh) 2022-03-18
CN114202709B CN114202709B (zh) 2023-10-10

Family

ID=80654212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111537721.2A Active CN114202709B (zh) 2021-12-15 2021-12-15 对象识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114202709B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488044A (zh) * 2014-09-16 2016-04-13 华为技术有限公司 数据处理的方法和设备
CN107202559A (zh) * 2017-05-08 2017-09-26 西北工业大学 基于室内声学信道扰动分析的物体识别方法
US10289910B1 (en) * 2014-07-10 2019-05-14 Hrl Laboratories, Llc System and method for performing real-time video object recognition utilizing convolutional neural networks
CN111814538A (zh) * 2020-05-25 2020-10-23 北京达佳互联信息技术有限公司 目标对象的类别识别方法、装置、电子设备及存储介质
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289910B1 (en) * 2014-07-10 2019-05-14 Hrl Laboratories, Llc System and method for performing real-time video object recognition utilizing convolutional neural networks
CN105488044A (zh) * 2014-09-16 2016-04-13 华为技术有限公司 数据处理的方法和设备
CN107202559A (zh) * 2017-05-08 2017-09-26 西北工业大学 基于室内声学信道扰动分析的物体识别方法
CN111814538A (zh) * 2020-05-25 2020-10-23 北京达佳互联信息技术有限公司 目标对象的类别识别方法、装置、电子设备及存储介质
CN111931928A (zh) * 2020-07-16 2020-11-13 成都井之丽科技有限公司 场景图的生成方法、装置和设备

Also Published As

Publication number Publication date
CN114202709B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
US10719759B2 (en) System for building a map and subsequent localization
CN109670532B (zh) 生物体器官组织图像的异常识别方法、装置及系统
US11195046B2 (en) Method and system for image search and cropping
US10710244B2 (en) Robot control using gestures
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
KR20220054657A (ko) 인터랙션 관계 인식 방법, 장치, 기기 및 저장 매체
CN105740426A (zh) 基于人脸识别的照片发送方法及装置
CN104281839A (zh) 一种人体姿势识别方法和装置
CN108875667B (zh) 目标识别方法、装置、终端设备和存储介质
WO2022174605A1 (zh) 一种手势识别方法、手势识别装置及智能设备
CN113627402B (zh) 一种图像识别方法及相关装置
CN112380955B (zh) 动作的识别方法及装置
US11727605B2 (en) Method and system for creating virtual image based deep-learning
CN111323024A (zh) 定位方法及装置、设备、存储介质
CN110765882A (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN106022208A (zh) 人体动作识别方法及装置
CN104951440B (zh) 一种图像处理方法及电子设备
CN114299363A (zh) 图像处理模型的训练方法、图像分类方法及装置
EP3647997A1 (en) Person searching method and apparatus and image processing device
CN114202709A (zh) 对象识别方法、装置及存储介质
CN111079468B (zh) 机器人识别物体的方法及装置
CN112580750A (zh) 图像识别方法、装置、电子设备及存储介质
JP2021026723A (ja) 画像処理装置、画像処理方法およびプログラム
CN112183155A (zh) 动作姿态库建立、动作姿态生成、识别方法及装置
CN104679832A (zh) 基于人脸识别的单体或多体组合图片检索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant