CN113610750B

CN113610750B - 对象识别方法、装置、计算机设备及存储介质

Info

Publication number: CN113610750B
Application number: CN202110617124.4A
Authority: CN
Inventors: 何楠君; 卢东焕; 李悦翔; 林一; 马锴; 郑冶枫
Original assignee: Tencent Healthcare Shenzhen Co Ltd
Current assignee: Tencent Healthcare Shenzhen Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2024-02-06
Anticipated expiration: 2041-06-03
Also published as: US20230080098A1; CN113610750A; WO2022252908A1

Abstract

本申请实施例公开了一种对象识别方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；对提取的多个空间特征进行融合，得到所述目标对象对应的第一融合空间特征；基于所述第一融合空间特征进行时序特征提取，得到所述目标对象的时空特征；基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果。该方法提取得到的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征对目标对象进行识别时，也提高了识别结果的准确率。

Description

对象识别方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种对象识别方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，采用图像处理技术辅助进行对象识别已成为一种常用手段。例如，在医学领域中，通过对采集的目标对象的医学图像进行识别，得到目标对象的识别结果，根据该识别结果确定目标对象的状态，或者根据该识别结果对医学图像进行分割。但是目前识别得到的识别结果并不准确，因此，如何提高识别结果的准确率，已成为亟待解决的问题。

发明内容

本申请实施例提供了一种对象识别方法、装置、计算机设备及存储介质，提高了识别准确率。所述技术方案如下：

一方面，提供了一种对象识别方法，所述方法包括：

分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；

对提取的多个空间特征进行融合，得到所述目标对象对应的第一融合空间特征；

基于所述第一融合空间特征进行时序特征提取，得到所述目标对象的时空特征，所述时空特征用于表征所述多个医学图像在不同时刻的空间信息的变化；

基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果。

在一种可能实现方式中，所述识别结果用于指示所述目标对象的状态，所述基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果之后，所述方法还包括：

基于所述识别结果，确定所述目标对象的状态。

在一种可能实现方式中，所述识别结果用于指示每个医学图像中的异常区域，所述基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果之后，所述方法还包括：

基于所述识别结果，分别对所述每个医学图像进行分割，得到所述每个医学图像中的异常区域。

在一种可能实现方式中，所述第二提取网络包括第二注意力层和第二提取层，所述调用所述第二提取网络，基于所述多个空间特征，获取所述多个目标对象的时空特征，包括：

调用所述第二注意力层，将所述第一融合空间特征划分为多个空间子特征，分别获取所述多个空间子特征对应的第二注意力参数，所述第二注意力参数用于表征对应的空间子特征在所述第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

调用所述第二注意力层，基于多个第二注意力参数，对所述多个空间子特征进行融合，得到所述多个医学图像对应的第二融合空间特征；

调用所述第二提取层，基于所述第二融合空间特征进行时序特征提取，得到所述时空特征。

在一种可能实现方式中，所述图像识别模型的训练过程包括：

获取多个样本图像及所述多个样本图像所属的样本识别结果，所述多个样本图像为同一样本对象在不同时刻的图像；

调用所述图像识别模型，对所述多个样本图像进行处理，得到所述样本对象的预测识别结果；

根据所述样本识别结果和所述预测识别结果，训练所述图像识别模型。

另一方面，提供了一种对象识别装置，所述装置包括：

空间特征提取模块，用于分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征，所述多个医学图像为同一目标对象在不同时刻的图像；

空间特征融合模块，用于对提取的多个空间特征进行融合，得到所述目标对象对应的第一融合空间特征；

时空特征提取模块，用于基于所述第一融合空间特征进行时序特征提取，得到所述目标对象的时空特征，所述时空特征用于表征所述多个医学图像在不同时刻的空间信息的变化；

对象识别模块，用于基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果。

在一种可能实现方式中，所述装置还包括：

图像特征提取模块，用于分别提取所述多个医学图像的第一图像特征；

所述空间特征提取模块，用于分别基于所述多个医学图像的第一图像特征进行空间特征提取，得到所述多个医学图像的空间特征。

在一种可能实现方式中，所述空间特征提取模块，包括：

第一注意力确定单元，用于对于每个医学图像，将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数用于表征对应的区域特征在所述第一图像特征中的重要程度，所述医学图像包括多个图像区域，每个区域特征对应所述医学图像中的一个图像区域；

第一特征融合单元，用于基于多个第一注意力参数，对所述多个区域特征进行加权融合，得到所述医学图像对应的第二图像特征；

空间特征提取单元，用于基于所述第二图像特征进行空间特征提取，得到所述医学图像的空间特征。

在一种可能实现方式中，所述第一注意力确定单元，用于：

将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征，其中所述至少两个特征空间用于表征对应图像区域中的不同像素点在对应的维度上的相似度；

基于所述每个区域特征对应的至少两个映射特征，获取所述每个区域特征对应的第一注意力参数。

在一种可能实现方式中，所述空间特征提取单元，用于：

对所述第二图像特征与所述第一图像特征进行融合，得到所述医学图像对应的第三图像特征；

基于所述第三图像特征进行空间特征提取，得到所述医学图像的空间特征。

在一种可能实现方式中，所述空间特征提取模块，还包括：

第一归一化单元，用于对所述第三图像特征进行归一化处理，得到处理后的所述第三图像特征。

在一种可能实现方式中，所述空间特征提取模块，还包括：

第二归一化单元，用于分别对所述每个医学图像的第一图像特征进行归一化处理，得到所述每个医学图像处理后的所述第一图像特征。

在一种可能实现方式中，所述时空特征提取模块，包括：

第二注意力确定单元，用于将所述第一融合空间特征划分为多个空间子特征，分别获取所述多个空间子特征对应的第二注意力参数，所述第二注意力参数用于表征对应的空间子特征在所述第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

第二特征融合单元，用于基于多个第二注意力参数，对所述多个空间子特征进行融合，得到所述多个医学图像对应的第二融合空间特征；

时空特征提取单元，用于基于所述第二融合空间特征进行时序特征提取，得到所述时空特征。

在一种可能实现方式中，所述时空特征提取单元，用于：

对所述第二融合空间特征与所述第一融合空间特征进行融合，得到所述目标对象对应的第三融合空间特征；

基于所述第三融合空间特征进行时序特征提取，得到所述时空特征。

在一种可能实现方式中，所述识别结果用于指示所述目标对象的状态，所述装置还包括：

状态确定模块，用于基于所述识别结果，确定所述目标对象的状态。

在一种可能实现方式中，所述识别结果用于指示所述每个医学图像中的异常区域，所述装置还包括：

图像分割模块，用于基于所述识别结果，分别对每个医学图像进行分割，得到所述每个医学图像中的异常区域。

在一种可能实现方式中，图像识别模型包括第一提取网络、第二提取网络和识别网络，所述空间特征提取模块，用于调用所述第一提取网络，分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征；

所述空间特征融合模块，用于调用所述第二提取网络，对提取的多个空间特征进行融合，得到所述第一融合空间特征；

所述时空特征提取模块，用于调用所述第二提取网络，基于所述第一融合空间特征进行时序特征提取，得到所述时空特征；

所述对象识别模块，用于调用所述识别网络，基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果。

在一种可能实现方式中，所述图像识别模型还包括第三提取网络，所述装置还包括：

图像特征提取模块，用于调用所述第三提取网络，分别提取所述多个医学图像的第一图像特征；

所述空间特征提取模块，用于调用所述第一提取网络，分别基于所述多个医学图像的第一图像特征进行空间特征提取，得到所述多个医学图像的空间特征。

在一种可能实现方式中，所述第一提取网络包括第一注意力层和第一提取层，所述空间特征提取模块，包括：

第一注意力确定单元，用于对于每个医学图像，调用所述第一注意力层，将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数用于表征对应的区域特征在所述第一图像特征中的重要程度，每个区域特征对应所述医学图像中的一个图像区域，所述医学图像包括多个图像区域；

第一特征融合单元，用于调用所述第一注意力层，按照多个第一注意力参数，对所述多个区域特征进行融合，得到所述医学图像对应的第二图像特征；

空间特征提取单元，用于调用所述第一提取层，基于所述第二图像特征进行空间特征提取，得到所述医学图像的空间特征。

在一种可能实现方式中，所述第二提取网络包括第二注意力层和第二提取层，所述时空特征提取模块，包括：

第二注意力确定单元，用于调用所述第二注意力层，将所述第一融合空间特征划分为多个空间子特征，分别获取所述多个空间子特征对应的第二注意力参数，所述第二注意力参数用于表征对应的空间子特征在所述第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

第二特征融合单元，用于调用所述第二注意力层，基于多个第二注意力参数，对所述多个空间子特征进行融合，得到所述多个医学图像对应的第二融合空间特征；

时空特征提取单元，用于调用所述第二提取层，基于所述第二融合空间特征进行时序特征提取，得到所述时空特征。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如上述方面所述的对象识别方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如上述方面所述的对象识别方法中所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的对象识别方法中所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的方法、装置、计算机设备及存储介质，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，对多个空间特征进行融合，并基于得到的第一融合空间特征进行时序特征提取，得到目标对象对应的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征对目标对象进行识别时，也提高了识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种对象识别方法的流程图；

图3是本申请实施例提供的另一种对象识别方法的流程图；

图4是本申请实施例提供的一种图像识别模型的结构示意图；

图5是本申请实施例提供的另一种图像识别模型的结构示意图；

图6是本申请实施例提供的另一种图像识别模型的结构示意图；

图7是本申请实施例提供的一种第一提取网络的结构示意图；

图8是本申请实施例提供的另一种第一提取网络的结构示意图；

图9是本申请实施例提供的另一种对象识别方法的流程图；

图10是本申请实施例提供的另一种图像识别网络的结构示意图；

图11是本申请实施例提供的一种热力图的示意图；

图12是本申请实施例提供的一种相关技术中图像识别模型的结构示意图；

图13是本申请实施例提供的一种图像分割方法的流程图；

图14是本申请实施例提供的一种对象识别装置的结构示意图；

图15是本申请实施例提供的另一种对象识别装置的结构示意图；

图16是本申请实施例提供的一种终端的结构示意图；

图17是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一图像特征称为第二图像特征，将第二图像特征称为第一图像特征。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个医学图像包括3个医学图像，而每个医学图像是指这3个医学图像中的每一个医学图像，任一是指这3个医学图像中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉、机器学习等技术，通过调用图像识别模型，提取目标对象对应的空间特征、时空特征，并基于时空特征，对目标对象进行识别，以得到识别结果。

本申请实施例提供的对象识别方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。

在一种可能实现方式中，本申请实施例中用于识别对象的计算机设备是区块链系统中的节点，该节点能够提取目标对象对应的多个医学图像的空间特征，以及基于多个医学图像的空间特征，提取目标对象对应的时空特征，并基于该时空特征对目标对象进行识别，之后该节点或者该区块链中的其他设备对应的节点还能够存储该目标对象对应的识别结果。

为了便于理解本申请实施例，先对本申请实施例涉及到的关键词进行解释：

Transformer：一种深度学习网络结构，该网络结构包括多头自注意力模块(Multi-head Self-attention)、多层感知机(MLP，Multi-Layer Perceptron)以及正则化层，且该网络结构中采用了残差结构。其中，多头自注意力模块是由多个自注意力模块进行级联得到的，多个自注意力模块的输出结果进行级联即为多头自注意力模块的输出结果。

CNN(Convolutional Neural Network，卷积神经网络)：一种广泛应用于图像分类任务的深度学习网络，至少包含卷积层、池化层或其他处理层。

ResNet(Residual Network，残差网络)：一种CNN网络结构，ResNet容易进行优化，且缓解了深度神经网络中增加深度带来的梯度消失问题。

CT(Computed Tomography，电子计算机断层扫描)图像：CT图像是采用X射线对人体中具有一定厚度的层面进行扫描，并接收透过该层面的X射线，对接收到的X射线进行处理，得到的图像。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括至少一个终端101(图1中以1个为例)和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如图像处理等功能。可选地，终端101为电脑、手机、平板电脑或者其他终端。可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。例如，目标应用为图像识别应用，该图像识别应用具有图像识别的功能，当然，该图像识别应用还能够具有其他功能，例如，病历生成、图像显示等。可选地，服务器102为该目标应用的后台服务器或者为提供云计算以及云存储等服务的云服务器。

在图1所示的实施环境的基础上，提供了一种宫颈状态识别场景。例如，终端获取宫颈的5个CT图像，且5个CT图像在采集时是每隔30秒采集一个，将5个CT图像发送给服务器，服务器分别对5个CT图像进行空间特征提取，得到每个CT图像的空间特征，再基于5个空间特征进行时序特征提取，得到病人宫颈的时空特征，对该时空特征进行识别，得到宫颈识别结果，并将该宫颈识别结果返回给终端，使后续医生将该识别结果作为一种辅助判断的依据，并结合病人的其他信息，确定病人宫颈是否具有癌变的可能性。

在图1所示的实施环境的基础上，还提供了一种CT图像分割场景。例如，终端获取宫颈的5个CT图像，且5个CT图像在采集时是每隔30秒采集一个，将5个CT图像发送给服务器，服务器分别对5个CT图像进行空间特征提取，得到每个CT图像的空间特征，再基于5个空间特征进行时序特征提取，得到病人宫颈的时空特征，对该时空特征进行识别，得到宫颈识别结果，并将该宫颈识别结果返回给终端，终端根据该识别结果，确定每个CT图像中的病灶区域，对每个CT图像进行分割，得到每个CT图像中的病灶区域，对病灶区域进行进一步处理。

图2是本申请实施例提供的一种对象识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图2，该方法包括以下步骤：

201、计算机设备分别基于多个医学图像进行空间特征提取，得到多个医学图像的空间特征。

其中，多个医学图像为同一目标对象在不同时刻的图像，该目标对象为任一对象，例如该目标对象是指一个人或者是身体中的某个部位。空间特征用于表征对应的医学图像的空间信息，例如空间信息至少包括医学图像的尺寸信息、医学图像中像素点的像素值、位置信息。且计算机设备在提取多个医学图像的空间特征时，该多个医学图像的空间特征提取过程，互不干扰。

202、计算机设备对提取的多个空间特征进行融合，得到目标对象对应的第一融合空间特征。

本申请实施例中，计算机设备先分别提取每个医学图像的空间特征，之后基于提取的多个空间特征进一步提取时空特征，由于进行时序特征提取时，需要考虑多个医学图像之间的时间关系，因此，对分别提取得到的多个空间特征进行融合，得到第一融合空间特征。

203、计算机设备基于第一融合空间特征进行时序特征提取，得到目标对象的时空特征。

本申请实施例中，由于时空特征是在第一融合空间特征的基础上，进行时序特征提取得到的，因此提取的时空特征中包含每个医学图像的空间信息以及多个医学图像对应的时序信息，该多个医学图像的时序信息是指多个医学图像对应的时间先后顺序以及不同时刻的医学图像的变化情况，即时空特征用于表征多个医学图像在不同时刻的空间信息的变化。

204、计算机设备基于时空特征，对目标对象进行识别，得到目标对象的识别结果。

其中，识别结果用于指示目标对象的状态，可选地，目标对象的状态包括正常状态和异常状态。或者，识别结果用于指示每个医学图像中的异常区域。

本申请实施例提供的方法，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，对多个空间特征进行融合，并基于得到的第一融合空间特征进行时序特征提取，得到目标对象对应的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征对目标对象进行识别时，也提高了识别结果的准确率。

图3是本申请实施例提供的另一种对象识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图3，该方法包括以下步骤：

301、计算机设备分别提取目标对象对应的多个医学图像的第一图像特征。

其中，目标对象为任一对象，该目标对象是指一个人或者是身体中的某个部位，例如，目标对象为肺部、胃部、子宫等任一部位。多个医学图像为同一目标对象在不同时刻的图像，即多个医学图像是在不同时刻对目标对象进行采集得到的图像，例如，医学图像为CT图像、通过X光照射拍摄的图像或采用其他方式采集的图像。可选地，该多个医学图像为计算机设备采集的，或者是由其他设备采集之后发送给该计算机设备的，本申请对此不做限制。

可选地，任两个相邻的医学图像的采集时间之间可间隔相同的时长或者不同的时长。例如，间隔的时长为30秒、60秒或其他时长。例如，对于四个医学图像，第一个医学图像的采集时间与第二个医学图像的采集时间之间间隔30秒，第二个医学图像的采集时间与第三个医学图像的采集时间之间间隔30秒，第三个医学图像的采集时间与第四个医学图像的采集时间之间间隔30秒。

其中，第一图像特征用于描述对应的医学图像，该第一图像特征为向量、矩阵或其他形式。在一种可能实现方式中，计算机设备分别对多个医学图像进行编码，得到每个医学图像的第一图像特征。

302、计算机设备分别基于多个医学图像的第一图像特征进行空间特征提取，得到多个医学图像的空间特征。

其中，空间特征用于表征对应的医学图像的空间信息，例如空间信息至少包括医学图像的尺寸信息、医学图像中像素点的像素值、位置信息。该空间特征为向量、矩阵或其他形式。

计算机设备在提取多个医学图像的空间特征时，该多个医学图像的空间特征提取过程，互不干扰，下面以提取任一医学图像的空间特征为例，对提取空间特征的过程进行说明。

在一种可能实现方式中，医学图像可划分为多个图像区域，即医学图像包括多个图像区域，对应地，计算机设备将医学图像的第一图像特征划分为多个区域特征，每个区域特征对应医学图像中的一个图像区域，分别获取多个区域特征对应的第一注意力参数，基于多个第一注意力参数，对多个区域特征进行加权融合，得到医学图像对应的第二图像特征；基于第二图像特征进行空间特征提取，得到医学图像的空间特征。

其中，第一注意力参数用于表征对应的区域特征在第一图像特征中的重要程度，该第二图像特征也用于描述对应的医学图像，第二图像特征是在第一图像特征的基础上，根据不同的区域特征的重要程度，对第一图像特征进行调整后得到的，第二图像特征与第一图像特征相比能够更加准确地表征医学图像中较为重要的图像区域。

对于第一注意力参数的确定，在一种可能实现方式中，计算机设备将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征，其中至少两个特征空间用于表征对应图像区域中的不同像素点在对应的维度上的相似度；基于每个区域特征对应的至少两个映射特征，获取每个区域特征对应的第一注意力参数。

在一种可能实现方式中，计算机设备基于第二图像特征进行空间特征提取，得到医学图像的空间特征，包括：计算机设备直接对第二图像特征进行空间特征提取，得到医学图像的空间特征。

在另一种可能实现方式中，为了避免在对第一图像特征进行处理，得到第二图像特征的过程中丢失第一图像特征中的信息，导致提取的空间特征不准确，计算机设备对第二图像特征与第一图像特征进行融合，得到医学图像对应的第三图像特征；基于第三图像特征进行空间特征提取，得到医学图像的空间特征。其中，第三图像特征中包含第一图像特征和第二图像特征，因此该第三图像特征包含医学图像完整的信息的同时，又能够凸显医学图像中较为重要的图像区域的信息。

另外，在一种可能实现方式中，计算机设备为了减小处理过程中的计算量，提高处理速度，先对第一图像特征进行归一化处理，得到处理后的第一图像特征，之后针对归一化处理后的第一图像特征执行确定第一注意力参数的步骤。同理，对第三图像特征进行归一化处理，得到处理后的第三图像特征，之后针对归一化处理后的第三图像特征执行提取空间特征的步骤。其中，归一化处理可将图像特征中包含的数值限定在0到1的范围内，从而避免图像特征中包含的各个数值之间相差较大，导致处理过程复杂。

上述提取空间特征的过程是以一个医学图像为例进行说明的，本申请中的每个医学图像均能够采用上述实施方式来提取对应的空间特征。

需要说明的是，本申请实施例对多个医学图像提取空间特征的先后顺序不做限制，可选地，同时分别提取多个医学图像的空间特征，或者，按照医学图像对应的采集时间，依次提取每个医学图像的空间特征。

303、计算机设备对提取的多个空间特征进行融合，得到目标对象对应的第一融合空间特征。

本申请实施例中，计算机设备先提取每个医学图像的空间特征，然后在提取的多个空间特征的基础上进行时序特征提取，由于进行时序特征提取时，需要考虑多个医学图像之间的时间关系，而不是分别针对每个空间特征进行时序特征提取，因此，需要先对多个空间特征进行融合，得到对应的第一融合空间特征。

其中，对多个空间特征进行融合可以是对多个空间特征进行拼接，使得到的第一融合空间特征中包含多个医学图像的空间特征。

304、计算机设备基于第一融合空间特征进行时序特征提取，得到目标对象的时空特征。

由于时空特征是在第一融合空间特征的基础上，进行时序特征提取得到的，因此提取的时空特征中包含每个医学图像的空间信息以及多个医学图像对应的时序信息，该多个医学图像的时序信息是指多个医学图像对应的时间先后顺序以及不同时刻的医学图像的变化情况，即时空特征用于表征多个医学图像在不同时刻的空间信息的变化。也就是说，时空特征用于表征多个医学图像的变化情况。

在一种可能实现方式中，计算机设备按照医学图像，将第一融合空间特征划分为多个空间子特征，每个空间子特征对应一个医学图像，分别获取多个空间子特征对应的第二注意力参数；基于多个第二注意力参数，对多个空间子特征进行融合，得到多个医学图像对应的第二融合空间特征；基于第二融合空间特征进行时序特征提取，得到时空特征。其中，第二注意力参数用于表征对应的空间子特征在第一融合空间特征中的重要程度。

对于第二注意力参数的确定，在一种可能实现方式中，计算机设备将每个空间子特征分别映射到至少两个特征空间中，得到每个空间子特征对应的至少两个映射特征，其中至少两个特征空间用于表征对应医学图像中的不同像素点在对应的维度上的相似度；基于每个空间子特征对应的至少两个映射特征，获取每个空间子特征对应的第二注意力参数。

在一种可能实现方式中，计算机设备基于第二融合空间特征进行时序特征提取，得到医学图像的空间特征，包括：计算机设备直接对第二融合空间进行时序特征提取，得到时空特征。

在另一种可能实现方式中，为了避免在对第一融合空间特征进行处理，得到第二融合空间特征的过程中丢失第一融合空间特征中的信息，导致提取的空间特征不准确，计算机设备对第二融合空间特征与第一融合空间特征进行融合，得到目标对象对应的第三融合空间特征；基于第三融合空间特征进行时序特征提取，得到时空特征。其中，第三融合空间特征中包含第一融合空间特征和第二融合空间特征，因此该第三融合空间特征中在包含全部医学图像的空间信息的同时，又能够凸显多个医学图像中较为重要的医学图像的信息。

另外，在一种可能实现方式中，计算机设备为了减小处理过程中的计算量，提高处理速度，先对第一融合空间特征进行归一化处理，得到处理后的第一融合空间特征，之后针对归一化处理后的第一融合空间特征执行确定第二注意力参数的步骤。同理，对第三融合空间特征进行归一化处理，得到处理后的第三融合空间特征，之后针对归一化处理后的第三融合空间特征执行提取时空特征的步骤。

305、计算机设备基于时空特征，对目标对象进行识别，得到目标对象的识别结果。

其中，识别结果用于指示目标对象的状态，或者识别结果用于指示每个医学图像中的异常区域。

在一种可能实现方式中，目标对象的状态包括正常状态和异常状态，正常状态指示目标对象未发生变化，异常状态指示目标对象相对于正常状态下的目标对象发生了变化。例如，在对目标对象进行疾病识别的场景下，正常状态表示目标对象没有发生病变，异常状态表示目标对象发生了病变。可选地，识别结果包括第一类别和第二类别，其中，第一类别表示目标对象处于正常状态，第二类别表示目标对象处于异常状态。例如，第一类别为阴性，第二类别为阳性。

在一种可能实现方式中，医学图像中的异常区域是指医学图像中发生病变的区域，例如，异常区域为病灶区域；对应地，医学图像中的正常区域是指医学图像中未发生病变的区域。计算机设备基于识别结果，分别对每个医学图像进行分割，得到每个医学图像中的异常区域，即将每个医学图像中的异常区域分割出来，便于对分割出的异常区域进行进一步的处理。例如，计算机设备对宫颈的CT图像进行分割，分割出CT图像中的病灶区域，对该病灶区域进行进一步识别，以确定该病灶区域的尺寸、形状等，得到该病灶区域更准确的信息。

需要说明的是，在医学领域中，本申请实施例中得到的识别结果仅是一种辅助医生对疾病进行识别的依据。例如，在癌症识别场景下，医生需要结合对目标对象的识别结果、癌症相关的其他信息以及病人的身体状况，来识别病人是否患有癌症。

并且，本申请实施例中在提取空间特征时，将第一图像特征与第二图像特征进行融合，对融合得到的第三图像特征进行空间特征提取，使提取空间特征时，能够利用更多的信息，进一步提高了空间特征的准确率，避免了获取第二图像特征的过程中丢失第一图像特征中的信息，导致提取的空间特征不准确。同理，在提取时空特征时，将第一融合空间特征与第二融合空间特征进行融合，对融合得到的第三融合空间特征进行时序特征提取，使提取时空特征时，能够利用更多的信息，进一步提高了时空特征的准确率，避免了获取第二融合空间特征的过程中丢失第一融合空间特征中的信息，导致提取的时空特征不准确。

并且，本申请实施例中，利用第一图像特征中每个区域特征对应的第一注意力参数，获取第一图像特征对应的第二图像特征，使第二图像特征中能够凸显出更加重要的图像区域的区域特征；同理，利用第一融合空间特征中每个空间子特征对应的第二注意力参数，获取第一融合空间特征对应的第二融合空间特征，使第二融合空间特征能够凸显出更加重要的医学图像的空间特征。

上述图3所示的实施例是以计算机设备直接对多个医学图像进行处理，实现对象识别为例进行说明，在另一实施例中，计算机设备调用图像识别模型对多个医学图像进行处理，实现对象识别。下面先对图像识别模型的结构进行介绍：

参见图4，该图像识别模型400包括第一提取网络401、第二提取网络402和识别网络403。其中，第一提取网络401与第二提取网络402连接，第二提取网络402还与识别网络403连接，第一提取网络401用于提取医学图像的空间特征，第二提取网络402用于提取目标对象对应的时空特征，识别网络403用于对目标对象进行识别。

在一种可能实现方式中，图像识别模型400为TiT(Transformer inTransformer)，即图像识别模型400为级联Transformer，TiT由至少两个Transformer进行级联得到。其中，第一提取网络和第二提取网络均为一个Transformer。

可选地，对于每个医学图像，分别采用不同的第一提取网络401来提取对应的空间特征，这种情况下，参见图5，该图像识别模型400包括多个第一提取网络401(图5中以3个为例)，每个第一提取网络401用于基于一个医学图像进行空间特征提取，该多个第一提取网络401分别与第二提取网络402连接。

可选地，参见图6，该图像识别模型4001还包括第三提取网络404，该第三提取网络404与第一提取网络401连接，该第三提取网络404用于提取医学图像的图像特征，即将医学图像转换为计算机设备能够处理的形式。在图像识别模型400包括多个第一提取网络401的情况下，第三提取网络404分别与每个第一提取网络401连接。

在一种可能实现方式中，第一提取网络401和第二提取网络402具有类似的网络结构，以第一提取网络401的网络结构为例，参见图7，该第一提取网络401包括第一正则化层411、第一注意力层421、第一提取层431。其中，第一正则化层411与第一注意力层421连接，第一注意力层421还与第一提取层431连接。

可选地，参见图8，第一提取层431包括第一融合层、第二正则化层和多层感知机，第一提取网络401还包括第二融合层441。其中，第一融合层与上一个网络的最后一层、第一注意力层421及第二正则化层连接，第二正则化层还与多层感知机连接，多层感知机还与第二融合层441连接，第二融合层还与第一融合层连接。

下面对调用上述所示的图像识别模型进行对象识别的过程进行详细说明。图9是本申请实施例提供的另一种对象识别方法的流程图。本申请实施例的执行主体为计算机设备。参见图9，该方法包括以下步骤：

901、计算机设备调用第三提取网络，分别提取多个医学图像的第一图像特征。

其中，第三提取网络用于对医学图像进行编码，以获取医学图像的第一图像特征。

可选地，图像识别模型包括一个第三提取网络，该第三提取网络依次提取多个医学图像的第一图像特征；或者图像识别模型包括多个第三提取网络，每个第三提取网络对应提取一个医学图像的第一图像特征。

例如，第三提取网络采用下述公式提取多个医学图像的第一图像特征：

M＝Encoder(x)

其中，M表示提取得到的第一图像特征，x表示输入的医学图像，Encoder(·)表示采用CNN进行提取。

其中，任一医学图像的分辨率(长×宽)为H×W，任一医学图像的通道数量为C，医学图像的个数为T，C和T均为正整数。

902、计算机设备调用第一提取网络，分别基于多个医学图像的第一图像特征进行空间特征提取，得到多个医学图像的空间特征。

本申请实施例中，图像识别模型中仅包括一个第一提取网络的情况下，计算机设备调用该第一提取网络，依次基于多个医学图像的第一图像特征进行空间特征提取，得到多个空间特征；图像识别模型包括多个第一提取网络的情况下，计算机设备分别调用一个第一提取网络对一个医学图像的第一图像特征进行空间特征提取，得到该医学图像的空间特征。

对于任一第一提取网络来说，对一个医学图像的空间特征的提取过程是相同的。下面以任一第一提取网络为例，对空间特征的提取过程进行说明：

在一种可能实现方式中，第一提取网络包括第一注意力层和第一提取层，对于每个医学图像，计算机设备调用第一注意力层，将医学图像的第一图像特征划分为多个区域特征，分别获取多个区域特征对应的第一注意力参数，按照多个第一注意力参数，对多个区域特征进行融合，得到医学图像对应的第二图像特征；调用第一提取层，基于第二图像特征进行空间特征提取，得到医学图像的空间特征。其中，第一注意力参数用于表征对应的区域特征在第一图像特征中的重要程度，每个区域特征对应医学图像中的一个图像区域，医学图像包括多个图像区域。

对于第一注意力参数的确定，在一种可能实现方式中，计算机设备调用第一注意力层，将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征；基于每个区域特征对应的至少两个映射特征，获取每个区域特征对应的第一注意力参数。

例如，计算机设备调用第一注意力层，将每个区域特征分别映射至三个特征空间中，该三个特征空间分别对应的查询(query)维度、键(key)维度以及值(value)特征维度，采用下述公式，确定每个区域特征对应的第一注意力参数：

[q,k,v]＝yU_qkv

其中，q表示查询维度的映射特征，k表示键维度的映射特征，v表示值特征维度的映射特征，y表示任一区域特征，U_qkv表示训练得到的模型参数，A表示该任一区域特征对应的第一注意力参数，softmax(·)表示进行归一化处理，D_h表示第一注意力层中的隐藏层的维度个数。

对应地，采用下述公式，确定医学图像对应的第二图像特征：

SA(y)＝Av

MSA(y)＝[SA₁(y)；SA₂(y)；…；SA_k(y)]U_mas

其中，SA(y)表示对任一区域特征进行加权后的区域特征，MSA(y)表示第二图像特征，k表示将医学图像划分为了k个图像区域，U_mas表示训练得到的模型参数。

在一种可能实现方式中，第一提取网络包括残差网络结构，即第一提取网络还包括第一融合层，计算机设备调用第一融合层，对第二图像特征与第一图像特征进行融合，得到医学图像对应的第三图像特征；调用第一提取层，基于第三图像特征进行空间特征提取，得到医学图像的空间特征。

另外，在一种可能实现方式中，为了减小处理过程中的计算量，提高处理速度，第一提取网络还包括第一正则化层和第二正则化层，计算机设备调用第一正则化层，对第一图像特征进行归一化处理，得到处理后的第一图像特征。同理，计算机设备调用第二正则化层，对第三图像特征进行归一化处理，得到处理后的第三图像特征。

可选地，第一提取层包括多层感知机，计算机设备调用多层感知机对第三图像特征进行空间特征提取，得到对应的空间特征。

在一种可能实现方式中，为了避免在对第三图像特征进行处理，得到空间特征的过程中丢失第三图像特征中的信息，导致后续提取的时空特征不准确，计算机设备对第三图像特征与空间特征进行融合，得到融合后的空间特征，后续对该融合后的空间特征进行处理。

903、计算机设备调用第二提取网络，对提取的多个空间特征进行融合，得到第一融合空间特征，基于第一融合空间特征进行时序特征提取，得到时空特征。

在一种可能实现方式中，第二提取网络包括第三融合层，计算机设备调用该第三融合层对多个空间特征进行融合，得到第一融合空间特征。例如，在第三融合层中采用下述公式，得到第一融合空间特征：

其中，z表示第一融合空间特征，表示输入的医学图像的空间特征，T表示共T个医学图像。其中，/>与上述步骤902中得到的输出MSA(y)相比，/>是在MSA(y)中拼接了一行或者一列进行训练得到的模型参数后得到的。

在一种可能实现方式中，第二提取网络的网络结构与第一提取网络的网络结构类似，第二提取网络包括第二注意力层和第二提取层，计算机设备调用第二注意力层，将第一融合空间特征划分为多个空间子特征，分别获取多个空间子特征对应的第二注意力参数，基于多个第二注意力参数，对多个空间子特征进行融合，得到多个医学图像对应的第二融合空间特征；调用第二提取层，基于第二融合空间特征进行时序特征提取，得到时空特征。

对于第二注意力参数的确定，在一种可能实现方式中，计算机设备调用第二注意力层，将每个空间子特征分别映射到至少两个特征空间中，得到每个空间子特征对应的至少两个映射特征；基于每个空间子特征对应的至少两个映射特征，获取每个空间子特征对应的第二注意力参数。

在一种可能实现方式中，第二提取网络包括残差网络结构，即第二提取网络还包括第四融合层，计算机设备调用第四融合层，对第二融合空间特征与第一融合空间特征进行融合，得到目标对象对应的第三融合空间特征；调用第二提取层，基于第三融合空间特征进行时序特征提取，得到时空特征。

另外，在一种可能实现方式中，为了减小处理过程中的计算量，提高处理速度，第二提取网络还包括第三正则化层和第四正则化层，计算机设备调用第三正则化层，对第一融合空间特征进行归一化处理，得到处理后的第一融合空间特征。同理，计算机设备调用第四正则化层，对第三融合空间特征进行归一化处理，得到处理后的第三融合空间特征。

可选地，第二提取层包括多层感知机，计算机设备调用多层感知机对第三融合空间特征进行时序特征提取，得到时空特征。

例如，在第二提取网络中采用下述公式提取时空特征：

其中，f表示时空特征，TT(·)表示进行时序特征提取，表示第一融合空间特征。其中，/>与上述融合得到的z相比，/>是在z中拼接了一行或一列进行训练得到的模型参数后得到的。

需要说明的是，本申请实施例仅是以一个第二提取层为例进行说明，在另一实施例中，图像识别模型包括多个第二提取层，将当前第二提取层输出的时空特征，输入至下一个第二提取层，直至得到最后一个第二提取层输出的时空特征，将最后一个第二提取层输出的时空特征确定为目标对象对应的时空特征。

904、计算机设备调用识别网络，基于时空特征，对目标对象进行识别，得到目标对象的识别结果。

其中，识别网络用于识别目标对象，得到目标对象的识别结果。

在一种可能实现方式中，识别网络包括MLP和激活函数Softmax，计算机设备调用该MLP和激活函数Softmax，对目标对象进行识别，得到识别结果。

在一种可能实现方式中，识别网络的输出为0或1，输出为1时，表示目标对象为正常状态，输出为0时，表示目标对象为异常状态。或者，识别网络的输出为概率，输出的概率大于参考概率时，表示目标对象为正常状态，输出的概率不大于参考概率时，表示目标对象为异常状态。

例如，参见图10，以目标对象的三个医学图像为例，首先经过第三提取网络1001，提取三个医学图像对应的第一图像特征，将得到的三个第一图像特征分别输入至对应的第一提取网络1002，经过对应的第一提取网络1002输出对应的空间特征，再将三个空间特征输入至第二提取网络1003，经过第二提取网络1003输出目标对象对应的时空特征，再将时空特征输入至识别网络1004，得到目标对象的识别结果。其中，在任一第一提取网络1002中，经过正则化层对第一图像特征进行归一化处理，将处理后的第一图像特征分别映射至三个特征空间，再经过多头注意力层对映射到的三个映射特征进行处理，输出第二图像特征，将第一图像特征与第二图像特征进行融合，得到第三图像特征，将第三图像特征再经过一个正则化层进行归一化处理，得到处理后的第三图像特征，将处理后的第三图像特征输入至多层感知机，经过多层感知机进行处理，得到对应的空间特征，再次经过一个融合层，对该空间特征与第三图像特征进行融合，得到融合后的空间特征。

在另一种可能实现方式中，计算机设备调用识别网络，分别对目标对象的每个医学图像进行识别，识别出每个医学图像中的异常区域之后，在医学图像中标记出异常区域，输出标记后的医学图像。例如，采用彩色的实线圈出医学图像中的异常区域，或者在异常区域填充医学图像中没有的颜色，或者采用其他方式标记，本申请实施例对此不做限制。

另外，相关技术中提供了一种图像识别模型的结构，参见图11，也以目标对象的三个医学图像为例，这三个医学图像分别由对应的卷积神经网络1101进行特征提取，将提取得到的三个特征均输入至图卷积网络1102，由图卷积网络1102对三个特征进行融合处理，对融合后的特征进行识别，得到识别结果。其中，图卷积网络1102中的一个圆表示一个提取得到的一个特征。

本申请与相关技术相比，相关技术中针对每个医学图像需要分别训练对应的卷积神经网络，导致训练量大，模型训练困难，识别效率低，且由于是针对不同的医学图像分别提取特征，没有充分考虑不同医学图像之间的关系，因此，对多个医学图像的空间信息和时序信息利用不充分，导致识别准确率较低。

另外，相关技术中的图像识别模型包括Early fusion(早期融合)模型、Voting(投票)模型、MLP、LSTM(Long Short-Term Memory，长短期记忆网络)和GCN(GraphConvolutional Networks，图卷积网络)，对比本申请中的图像识别模型TiT的识别结果与相关技术中的图像识别模型的识别结果，采用精确率(Precision)、召回率(Recall)、准确率(Accuracy)、和模型中的参数数量对识别结果进行评估，来说明本申请中的图像识别模型的识别准确率更高，且训练过程更加简单，对比结果参见下述表1，从表1中可看出，本申请中的图像识别模型得到的识别结果的精确率、召回率和准确率均是最大的，且与GCN相比，本申请中的图像识别模型需要学习的参数数量较少。

表1

模型	精确率	召回率	准确率	参数数量
					Early fusion	67.96	73.71	71.01	-
Voting	80.34	80.27	80.39	-
					MLP	80.77	80.62	80.78	-
LSTM	80.59	80.40	80.59	-
					GCN	81.97	81.78	81.95	233
TiT	85.70	83.08	82.80	57

另外，参见图12所示的医学图像及对应的热力图，该热力图中指示了对应的医学图像中的病灶区域，通过对比本申请的识别结果，及对应的热力图，可以确定本申请实施例提供的方法能够准确识别出医学图像中的病灶区域，得到的识别结果的准确率较高。

本申请实施例提供的方法，调用图像识别模型，来对目标对象进行识别，先调用第一提取网络分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，调用第二提取网络，对多个空间特征进行融合，并基于得到的第一融合空间特征进行时序特征提取，得到目标对象对应的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而调用识别网络，基于该时空特征对目标对象进行识别时，也提高了识别结果的准确率。

并且，本申请实施例中的第一提取网络和第二提取网络中采用了残差网络结构，缓解了深度神经网络中增加深度带来的梯度消失问题，使提取空间特征或者提取时空特征时，能够利用更多的信息，进一步提高空间特征或时空特征的准确率。

并且，本申请实施例中，第一提取网络和第二提取网络均采用了注意力层，利用注意力层能够对第一图像特征进行进一步处理，使处理后的第二图像特征中能够凸显出更加重要的图像区域的区域特征；同理，利用注意力层能够对第一融合空间特征进行进一步处理，使处理后的第二融合空间特征能够凸显出更加重要的医学图像的空间特征。

本申请实施例中，计算机设备调用图像识别模型识别对象之前需要先训练图像识别模型。

计算机设备获取多个样本图像及多个样本图像所属的样本识别结果；调用图像识别模型，对多个样本图像进行处理，得到样本对象的预测识别结果；根据样本识别结果和预测识别结果，训练图像识别模型。其中，多个样本图像为同一样本对象在不同时刻的图像。计算机设备对图像识别模型进行多次迭代训练，图像识别模型的训练次数达到参考次数，或者图像识别模型的训练时长达到参考时长。

可选地，采用已知的阴道镜数据集Time-lapsed Colposcopic Images(TCI，时序阴道镜图像)作为样本数据，该样本数据中包含7668个病人的时序阴道镜图像，病人的年龄分布在24岁到49岁之间。这些病人被划分为4类，分别是non-cancerous(没有癌症)、Cervical Intraepithelial Neoplasia1(CIN1，宫颈上皮内瘤变1)、CIN2～3以及cancer(癌症)。将CIN1、CIN2～3以及Cancer合并成1类，统称为低度鳞状上皮内病变或更严重。将样本数据中80％的样本用于训练图像识别模型，20％的样本用于测试图像识别模型。其中，每个病人的样本数据均包含5个时间节点的图像(初始图像，60秒后的图像，90秒的图像，120秒的图像以及150秒的图像)。

在一种可能实现方式中，输出的识别结果为概率的情况下，计算机设备采用交叉熵损失函数或者其他损失函数，对输出的概率进行处理，根据损失函数的输出结果训练图像识别模型。

需要说明的是，上述图9中调用图像识别模型对对象进行识别的计算机设备，与训练图像识别模型的计算机设备可以是同一个计算机设备，也可以是不同的计算机设备。例如，上述图9所示实施例中的计算机设备是服务器，或者是用户的终端，训练图像识别模型的计算机设备是开发人员的终端或服务器。或者，上述图9所示实施例中的计算机设备和训练图像识别模型的计算机设备是同一个服务器。

本申请实施例中的图像识别模型中包含残差网络结构，因此该图像识别模型的模型训练过程更加简单，计算量小，明显提高了图像识别模型的训练速度。

本申请实施例提供的方法可应用于多种场景下，例如，通过图13所示的实施例，对应用于图像分割场景进行说明：

1301、计算机设备采集宫颈在不同时刻的多个CT图像。

1302、计算机设备分别提取每个CT图像的第一图像特征。

1303、计算机设备分别基于提取的多个第一图像特征进行空间特征提取，得到每个CT图像的空间特征。

1304、计算机设备对提取的多个空间特征进行融合，得到宫颈对应的第一融合空间特征。

1305、计算机设备基于第一融合空间特征进行时序特征提取，得到宫颈的时空特征。

1306、计算机设备基于时空特征，对宫颈进行识别，得到宫颈的识别结果，该识别结果用于指示每个CT图像中的异常区域。

1307、计算机设备基于宫颈的识别结果，分别对每个CT图像进行分割，得到每个CT图像中的病灶区域。

图14是本申请实施例提供的一种对象识别装置的结构示意图。参见图14，该装置包括：

空间特征提取模块1401，用于分别基于多个医学图像进行空间特征提取，得到多个医学图像的空间特征，多个医学图像为同一目标对象在不同时刻的图像；

空间特征融合模块1402，用于对提取的多个空间特征进行融合，得到目标对象对应的第一融合空间特征；

时空特征提取模块1403，用于基于第一融合空间特征进行时序特征提取，得到目标对象的时空特征，时空特征用于表征多个医学图像在不同时刻的空间信息的变化；

对象识别模块1404，用于基于时空特征，对目标对象进行识别，得到目标对象的识别结果。

本申请实施例提供的装置，先分别提取目标对象的多个医学图像的空间特征，在充分提取了每个医学图像的空间特征后，对多个空间特征进行融合，并基于得到的第一融合空间特征进行时序特征提取，得到目标对象对应的时空特征，该时空特征能够表征多个医学图像在不同时刻的空间信息的变化，且提取时考虑了多个医学图像之间的时间关系，使提取的时空特征能够更加准确地表示多个医学图像的空间信息和时序信息，从而基于该时空特征对目标对象进行识别时，也提高了识别结果的准确率。

在一种可能实现方式中，参见图15，该装置还包括：

图像特征提取模块1405，用于分别提取多个医学图像的第一图像特征；

空间特征提取模块1401，用于分别基于多个医学图像的第一图像特征进行空间特征提取，得到多个医学图像的空间特征。

在一种可能实现方式中，参见图15，空间特征提取模块1401，包括：

第一注意力确定单元1411，用于对于每个医学图像，将医学图像的第一图像特征划分为多个区域特征，分别获取多个区域特征对应的第一注意力参数，第一注意力参数用于表征对应的区域特征在第一图像特征中的重要程度，医学图像包括多个图像区域，每个区域特征对应医学图像中的一个图像区域；

第一特征融合单元1421，用于基于多个第一注意力参数，对多个区域特征进行加权融合，得到医学图像对应的第二图像特征；

空间特征提取单元1431，用于基于第二图像特征进行空间特征提取，得到医学图像的空间特征。

在一种可能实现方式中，第一注意力确定单元1411，用于：

将每个区域特征分别映射到至少两个特征空间中，得到每个区域特征对应的至少两个映射特征，其中至少两个特征空间用于表征对应图像区域中的不同像素点在对应的维度上的相似度；

基于每个区域特征对应的至少两个映射特征，获取每个区域特征对应的第一注意力参数。

在一种可能实现方式中，空间特征提取单元1431，用于：

对第二图像特征与第一图像特征进行融合，得到医学图像对应的第三图像特征；

基于第三图像特征进行空间特征提取，得到医学图像的空间特征。

在一种可能实现方式中，参见图15，空间特征提取模块1401，还包括：

第一归一化单元1441，用于对第三图像特征进行归一化处理，得到处理后的第三图像特征。

第二归一化单元1451，用于分别对每个医学图像的第一图像特征进行归一化处理，得到每个医学图像处理后的第一图像特征。

在一种可能实现方式中，参见图15，时空特征提取模块1403，包括：

第二注意力确定单元1413，用于将第一融合空间特征划分为多个空间子特征，分别获取多个空间子特征对应的第二注意力参数，第二注意力参数用于表征对应的空间子特征在第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

第二特征融合单元1423，用于基于多个第二注意力参数，对多个空间子特征进行融合，得到多个医学图像对应的第二融合空间特征；

时空特征提取单元1433，用于基于第二融合空间特征进行时序特征提取，得到时空特征。

在一种可能实现方式中，参见图15，时空特征提取单元1433，用于：

对第二融合空间特征与第一融合空间特征进行融合，得到目标对象对应的第三融合空间特征；

基于第三融合空间特征进行时序特征提取，得到时空特征。

在一种可能实现方式中，识别结果用于指示目标对象的状态，参见图15，该装置还包括：

状态确定模块1406，用于基于识别结果，确定目标对象的状态。

在一种可能实现方式中，识别结果用于指示每个医学图像中的异常区域，参见图15，该装置还包括：

图像分割模块1407，用于基于识别结果，分别对每个医学图像进行分割，得到每个医学图像中的异常区域。

在一种可能实现方式中，图像识别模型包括第一提取网络、第二提取网络和识别网络，空间特征提取模块1401，用于调用第一提取网络，分别基于多个医学图像进行空间特征提取，得到多个医学图像的空间特征；

空间特征融合模块1402，用于调用第二提取网络，对提取的多个空间特征进行融合，得到第一融合空间特征；

时空特征提取模块1403，用于调用第二提取网络，基于第一融合空间特征进行时序特征提取，得到时空特征；

对象识别模块1404，用于调用识别网络，基于时空特征，对目标对象进行识别，得到目标对象的识别结果。

在一种可能实现方式中，图像识别模型还包括第三提取网络，参见图15，装置还包括：

图像特征提取模块1405，用于调用第三提取网络，分别提取多个医学图像的第一图像特征；

空间特征提取模块1401，用于调用第一提取网络，分别基于多个医学图像的第一图像特征进行空间特征提取，得到多个医学图像的空间特征。

在一种可能实现方式中，第一提取网络包括第一注意力层和第一提取层，参见图14，空间特征提取模块1401，包括：

第一注意力确定单元1411，用于对于每个医学图像，调用第一注意力层，将医学图像的第一图像特征划分为多个区域特征，分别获取多个区域特征对应的第一注意力参数，第一注意力参数用于表征对应的区域特征在图像特征中的重要程度，每个区域特征对应医学图像中的一个图像区域，医学图像包括多个图像区域；

第一特征融合单元1421，用于调用第一注意力层，按照多个第一注意力参数，对多个区域特征进行融合，得到医学图像对应的第二图像特征；

空间特征提取单元1431，用于调用第一提取层，基于第二图像特征进行空间特征提取，得到医学图像的空间特征。

在一种可能实现方式中，第二提取网络包括第二注意力层和第二提取层，参见图14，时空特征提取模块1403，包括：

第二注意力确定单元1413，用于调用第二注意力层，将第一融合空间特征划分为多个空间子特征，分别获取多个空间子特征对应的第二注意力参数，第二注意力参数用于表征对应的空间子特征在第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

第二特征融合单元1423，用于调用第二注意力层，基于多个第二注意力参数，对多个空间子特征进行融合，得到多个医学图像对应的第二融合空间特征；

时空特征提取单元1433，用于调用第二提取层，基于第二融合空间特征进行时序特征提取，得到时空特征。

在一种可能实现方式中，图像识别模型的训练过程包括：

获取多个样本图像及多个样本图像所属的样本识别结果，多个样本图像为同一样本对象在不同时刻的图像；

调用图像识别模型，对多个样本图像进行处理，得到样本对象的预测识别结果；

根据样本识别结果和预测识别结果，训练图像识别模型。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的对象识别装置在识别对象时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对象识别装置与对象识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的对象识别方法中所执行的操作。

可选地，该计算机设备提供为终端。图16是本申请实施例提供的一种终端1600的结构示意图。该终端1600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1601所执行以实现本申请中方法实施例提供的对象识别方法。

在一些实施例中，终端1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：射频电路1604、显示屏1605、摄像头组件1606、音频电路1607和电源1609中的至少一种。

外围设备接口1603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中，处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上；在一些其他实施例中，处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时，显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时，显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1605可以为一个，设置在终端1600的前面板；在另一些实施例中，显示屏1605可以为至少两个，分别设置在终端1600的不同表面或呈折叠设计；在另一些实施例中，显示屏1605可以是柔性显示屏，设置在终端1600的弯曲表面上或折叠面上。甚至，显示屏1605还可以设置成非矩形的不规则图形，也即异形屏。显示屏1605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1606用于采集图像或视频。可选地，摄像头组件1606包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1601进行处理，或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1607还可以包括耳机插孔。

电源1609用于为终端1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于：加速度传感器1611、陀螺仪传感器1612、压力传感器1613、光学传感器1615以及接近传感器1616。

加速度传感器1611可以检测以终端1600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号，控制显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1612可以检测终端1600的机体方向及转动角度，陀螺仪传感器1612可以与加速度传感器1611协同采集用户对终端1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1613可以设置在终端1600的侧边框和/或显示屏1605的下层。当压力传感器1613设置在终端1600的侧边框时，可以检测用户对终端1600的握持信号，由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在显示屏1605的下层时，由处理器1601根据用户对显示屏1605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1615用于采集环境光强度。在一个实施例中，处理器1601可以根据光学传感器1615采集的环境光强度，控制显示屏1605的显示亮度。具体地，当环境光强度较高时，调高显示屏1605的显示亮度；当环境光强度较低时，调低显示屏1605的显示亮度。在另一个实施例中，处理器1601还可以根据光学传感器1615采集的环境光强度，动态调整摄像头组件1606的拍摄参数。

接近传感器1616，也称距离传感器，设置在终端1600的前面板。接近传感器1616用于采集用户与终端1600的正面之间的距离。在一个实施例中，当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变小时，由处理器1601控制显示屏1605从亮屏状态切换为息屏状态；当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变大时，由处理器1601控制显示屏1605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图16中示出的结构并不构成对终端1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图17是本申请实施例提供的一种服务器的结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1701和一个或一个以上的存储器1702，其中，存储器1702中存储有至少一条计算机程序，该至少一条计算机程序由处理器1701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的对象识别方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得计算机设备实现上述实施例的对象识别方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对象识别方法，其特征在于，所述方法包括：

分别提取多个医学图像的第一图像特征，所述多个医学图像为同一目标对象在不同时刻的图像；

对于每个医学图像，将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数用于表征对应的区域特征在所述图像特征中的重要程度，所述医学图像包括多个图像区域，每个区域特征对应所述医学图像中的一个图像区域；

基于多个第一注意力参数，对所述多个区域特征进行加权融合，得到所述医学图像对应的第二图像特征；

基于所述第二图像特征进行空间特征提取，得到所述医学图像的空间特征；

2.根据权利要求1所述的方法，其特征在于，所述分别获取所述多个区域特征对应的第一注意力参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述第二图像特征进行空间特征提取，得到所述医学图像的空间特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第三图像特征进行空间特征提取，得到所述医学图像的空间特征之前，所述方法还包括：

对所述第三图像特征进行归一化处理，得到处理后的所述第三图像特征。

5.根据权利要求1所述的方法，其特征在于，所述对于每个医学图像，将所述医学图像的第一图像特征划分为多个区域特征之前，所述方法还包括：

分别对所述每个医学图像的第一图像特征进行归一化处理，得到所述每个医学图像处理后的所述第一图像特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一融合空间特征进行时序特征提取，得到所述目标对象的时空特征，包括：

将所述第一融合空间特征划分为多个空间子特征，分别获取所述多个空间子特征对应的第二注意力参数，所述第二注意力参数用于表征对应的空间子特征在所述第一融合空间特征中的重要程度，每个空间子特征对应一个医学图像；

基于多个第二注意力参数，对所述多个空间子特征进行融合，得到所述多个医学图像对应的第二融合空间特征；

基于所述第二融合空间特征进行时序特征提取，得到所述时空特征。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第二融合空间特征进行时序特征提取，得到所述时空特征，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法基于图像识别模型执行，所述图像识别模型包括第一提取网络、第二提取网络和识别网络，所述方法还包括：

调用所述第一提取网络，分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征；

所述对提取的多个空间特征进行融合，得到所述目标对象对应的第一融合空间特征，包括：

调用所述第二提取网络，对提取的多个空间特征进行融合，得到所述第一融合空间特征；

所述基于所述第一融合空间特征进行时序特征提取，得到所述目标对象的时空特征，包括：

调用所述第二提取网络，基于所述第一融合空间特征进行时序特征提取，得到所述时空特征；

所述基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果，包括：

调用所述识别网络，基于所述时空特征，对所述目标对象进行识别，得到所述目标对象的识别结果。

9.根据权利要求8所述的方法，其特征在于，所述图像识别模型还包括第三提取网络，所述调用所述第一提取网络，分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征之前，所述方法还包括：

调用所述第三提取网络，分别提取所述多个医学图像的第一图像特征；

所述调用所述第一提取网络，分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征，包括：

调用所述第一提取网络，分别基于所述多个医学图像的第一图像特征进行空间特征提取，得到所述多个医学图像的空间特征。

10.根据权利要求8所述的方法，其特征在于，所述第一提取网络包括第一注意力层和第一提取层，所述调用所述第一提取网络，分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征，包括：

对于每个医学图像，调用所述第一注意力层，将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数用于表征对应的区域特征在所述第一图像特征中的重要程度，每个区域特征对应所述医学图像中的一个图像区域，所述医学图像包括多个图像区域；

调用所述第一注意力层，按照多个第一注意力参数，对所述多个区域特征进行融合，得到所述医学图像对应的第二图像特征；

调用所述第一提取层，基于所述第二图像特征进行空间特征提取，得到所述医学图像的空间特征。

11.一种对象识别装置，其特征在于，所述装置包括：

图像特征提取模块，用于分别提取多个医学图像的第一图像特征，所述多个医学图像为同一目标对象在不同时刻的图像；

空间特征提取模块，包括第一注意力确定单元、第一特征融合单元以及空间特征提取单元；

所述第一注意力确定单元，用于对于每个医学图像，将所述医学图像的第一图像特征划分为多个区域特征，分别获取所述多个区域特征对应的第一注意力参数，所述第一注意力参数用于表征对应的区域特征在所述图像特征中的重要程度，所述医学图像包括多个图像区域，每个区域特征对应所述医学图像中的一个图像区域；

所述第一特征融合单元，用于基于多个第一注意力参数，对所述多个区域特征进行加权融合，得到所述医学图像对应的第二图像特征；

空间特征提取单元，用于基于所述第二图像特征进行空间特征提取，得到所述医学图像的空间特征；

12.根据权利要求11所述的装置，其特征在于，所述第一注意力确定单元，用于：

13.根据权利要求11所述的装置，其特征在于，所述空间特征提取单元，用于：

14.根据权利要求13所述的装置，其特征在于，所述空间特征提取模块，还包括：

15.根据权利要求11所述的装置，其特征在于，所述空间特征提取模块，还包括：

16.根据权利要求11所述的装置，其特征在于，所述时空特征提取模块，包括：

17.根据权利要求16所述的装置，其特征在于，所述时空特征提取单元，用于：

18.根据权利要求11所述的装置，其特征在于，图像识别模型包括第一提取网络、第二提取网络和识别网络，所述空间特征提取模块，用于调用所述第一提取网络，分别基于多个医学图像进行空间特征提取，得到所述多个医学图像的空间特征；

19.根据权利要求18所述的装置，其特征在于，所述图像识别模型还包括第三提取网络，所述装置还包括：

20.根据权利要求18所述的装置，其特征在于，所述第一提取网络包括第一注意力层和第一提取层，所述空间特征提取模块，包括：

21.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至10任一权利要求所述的对象识别方法中所执行的操作。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至10任一权利要求所述的对象识别方法中所执行的操作。