CN114220060A

CN114220060A - 基于人工智能的器具标注方法、装置、介质和计算设备

Info

Publication number: CN114220060A
Application number: CN202111600228.0A
Authority: CN
Inventors: 张莹; 杨红; 夏雪; 白杨; 盛铎
Original assignee: Xuanwei Beijing Biotechnology Co ltd; First Affiliated Hospital of Zhengzhou University
Current assignee: Henan Xuanwei Digital Medical Technology Co ltd; First Affiliated Hospital of Zhengzhou University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-03-22
Anticipated expiration: 2041-12-24
Also published as: CN114220060B

Abstract

本发明的实施方式提供了一种基于人工智能的器具标注方法、装置、介质和计算设备。该方法包括：对输入的操作视频进行目标识别，得到操作视频中每帧图像包含目标的目标位置信息，基于环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于器具类型的器具目标的目标位置信息计算得到器具目标的器具运动信息；基于环境移动向量对器具运动信息进行补偿计算，得到器具目标的器具运动修正信息；基于器具运动修正信息对操作视频中包含的器具目标进行标注，得到标注后的操作视频。本发明能够基于修正后的器具运动修正信息对操作视频中包含的器具目标进行标注，提升了对操作视频中的器具目标标注的准确性。

Description

基于人工智能的器具标注方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及人工智能领域，更具体地，本发明的实施方式涉及一种基于人工智能的器具标注方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

近年来，腹腔镜手术是一门新发展起来的微创方法，随着以机器学习尤其是深度学习为代表的人工智能技术的迅猛发展，以及相关学科的融合都为开展新技术、新方法奠定了坚定的基础，许多过去的开放性手术目前已被腔内手术所取代，大大增加了手术选择范围。

目前，通常可以基于人工智能的手术分析模型对腔内手术中医生使用的手术器具进行识别和提示，以辅助医生成功的完成腔内手术。其中，基于人工智能的手术分析模型在使用之前需要通过大量标注有手术器具的训练数据集进行训练，训练数据集的生成方式可以是对大量的手术操作视频中包含的手术器具进行目标识别，并对识别出的手术器具在手术操作视频中进行标注，从而基于标注后的手术操作视频得到大量标注有手术器具的训练数据集。

然而，在实践中发现，手术操作过程中通常会使用多个手术器具协同操作，医生在使用手术器具的过程中不可避免地会出现抖动的情况，导致识别出的手术器具可能出现错误的情况，从而使得对手术器具进行的标注的准确性也较低。

发明内容

在本上下文中，本发明的实施方式期望提供一种基于人工智能的器具标注方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种基于人工智能的器具标注方法，包括：

对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息，其中，所述目标的类型包括环境类型和器具类型；

基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于所述器具类型的器具目标的目标位置信息计算得到所述器具目标的器具运动信息；

基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息；

基于所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频。

在本实施方式的一个实施例中，对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息，包括：

对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述环境目标的目标位置信息；

对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述器具目标的目标位置信息。

在本实施方式的一个实施例中，对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述环境目标的目标位置信息，包括：

对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述操作视频中每帧图像中包含的环境目标对应的环境识别信息；其中，所述环境识别信息中包含所述环境目标对应的当前帧图像的帧序号、所述环境目标的环境标签以及用于指示所述环境目标在所述当前帧图像中所在位置的当前环境包围框的包围框信息；

对所述当前环境包围框的包围框信息进行计算，得到所述环境目标对应的当前环境质点；

获取所述当前帧图像的前一帧图像包含的前一环境包围框的包围框信息；其中，所述前一环境包围框对应的环境目标的环境标签与所述当前环境包围框对应的环境目标的环境标签相同；

基于所述前一环境包围框的包围框信息以及所述当前环境质点进行计算，得到所述当前环境包围框对应的运动参数；

基于所述环境识别信息、所述当前环境质点、所述当前环境包围框对应的运动参数，构建所述环境目标的目标位置信息。

在本实施方式的一个实施例中，对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述器具目标的目标位置信息，包括：

对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述操作视频中每帧图像中包含的器具目标对应的器具识别信息；其中，所述器具识别信息中包含所述器具目标对应的当前帧图像的帧序号、所述器具目标的器具标签以及用于指示所述器具目标在所述当前帧图像中所在位置的当前器具包围框的包围框信息；

对所述当前器具包围框的包围框信息进行计算，得到所述器具目标对应的当前器具质点；

获取所述当前帧图像的前一帧图像包含的前一器具包围框的包围框信息；其中，所述前一器具包围框对应的器具目标的器具标签与所述当前器具包围框对应的器具目标的器具标签相同；

基于所述前一器具包围框的包围框信息以及所述当前器具质点进行计算，得到所述当前器具包围框对应的运动参数；

基于所述器具识别信息、所述当前器具质点、所述当前器具包围框对应的运动参数，构建所述器具目标的目标位置信息。

在本实施方式的一个实施例中，基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量，包括：

对所述环境目标的目标位置信息进行去噪操作，得到去噪后的目标位置信息；

从所述去噪后的目标位置信息中获取去噪后的环境标签以及与所述去噪后的环境标签对应的待计算的环境识别信息；

基于所述去噪后的环境标签以及与所述待计算的环境识别信息，计算得到所述去噪后的环境标签对应的修正运动信息；

对所述修正运动信息进行统计，得到所述操作视频中每帧图像包含的环境目标的数量、以及所述每帧图像包含的环境目标对应的当前环境质点的运动累加和；

基于所述每帧图像包含的环境目标的数量以及所述运动累加和，计算得到所述操作视频中每帧图像对应的环境移动向量。

在本实施方式的一个实施例中，基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息，包括：

从所述器具运动信息中获取所述器具目标对应的当前器具包围框的包围框信息；

基于所述环境移动向量对所述当前器具包围框的包围框信息进行计算，得到修正后的包围框信息；

利用所述修正后的包围框信息替换所述器具运动信息中所述器具目标对应的当前器具包围框的包围框信息，得到所述器具目标的器具运动修正信息。

在本实施方式的一个实施例中，基于所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频，包括：

基于所述器具运动修正信息计算各个器具目标对应的平均移动间距；

根据所述平均移动间距的数值由大到小的先后顺序对所述器具目标进行排序，将排序在先的预设数量的器具目标确定为关键器具目标；

基于所述器具运动修正信息以及所述关键器具目标对所述操作视频中包含的所述关键器具目标进行标注，得到标注后的操作视频。

在本发明实施方式的第二方面中，提供了一种基于人工智能的器具标注装置，包括：

识别单元，用于对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息，其中，所述目标的类型包括环境类型和器具类型；

第一计算单元，用于基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于所述器具类型的器具目标的目标位置信息计算得到所述器具目标的器具运动信息；

第二计算单元，用于基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息；

标注单元，用于基于所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频。

在本发明实施方式的第三方面中，提供了一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序在被处理器执行时能够实现第一方面中任一项所述的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括第三方面所述的存储介质。

根据本发明实施方式的基于人工智能的器具标注方法、装置、介质和计算设备，能够从输入的操作视频中识别出每帧图像中包含的多种目标的目标位置信息，并基于多种目标的目标位置信息计算出环境移动向量和器具运动信息，以及可以基于环境移动向量对器具运动信息进行修正，得到修正后的器具运动修正信息，并且可以基于修正后的器具运动修正信息对操作视频中包含的器具目标进行标注，提升了对操作视频中的器具目标标注的准确性。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明一实施例提供的基于人工智能的器具标注方法的流程示意图；

图2为本发明另一实施例提供的基于人工智能的器具标注方法的流程示意图；

图3为根据本发明的实施方式对输入的操作视频执行目标识别任务得到的结果示意图；

图4为根据本发明的实施方式对识别的目标执行去噪任务得到的结果示意图；

图5为根据本发明的实施方式对器具目标执行修正任务得到的结果示意图；

图6为本发明一实施例提供的关键器具目标的运动轨迹示意图；

图7为本发明一实施例提供的基于人工智能的器具标注装置的结构示意图；

图8示意性地示出了本发明实施例的一种介质的结构示意图；

图9示意性地示出了本发明实施例的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于人工智能的器具标注方法、装置、介质和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

示例性方法

下面参考图1，图1为本发明一实施例提供的基于人工智能的器具标注方法的流程示意图。需要注意的是，本发明的实施方式可以应用于适用的任何场景。

图1所示的本发明一实施例提供的基于人工智能的器具标注方法的流程，包括：

步骤S101，对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息，其中，所述目标的类型包括环境类型和器具类型；

步骤S102，基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于所述器具类型的器具目标的目标位置信息计算得到所述器具目标的器具运动信息；

步骤S103，基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息；

步骤S104，基于所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频。

本申请中提出的基于人工智能的器具标注方法所针对的是基于人工智能所构建的目标标注模型，包括但不限于多目标识别、环境目标识别以、器具目标识别以及目标标注等各个适用不同应用场景的目标标注模型。

本发明能够从输入的操作视频中识别出每帧图像中包含的多种目标的目标位置信息，并基于多种目标的目标位置信息计算出环境移动向量和器具运动信息，以及可以基于环境移动向量对器具运动信息进行修正，得到修正后的器具运动修正信息，并且可以基于修正后的器具运动修正信息对操作视频中包含的器具目标进行标注，提升了对操作视频中的器具目标标注的准确性。

下面结合附图说明如何提升对操作视频中的器具目标标注的准确性：

本发明实施例中，操作视频可以为从图像采集设备（如摄像机、内窥镜等）采集到的视频等影像数据中得到，操作视频可以预先进行存储，当需要对操作视频中的目标进行识别时，可以对操作视频进行读取，读取的方式可以为：对输入的视频路径进行加载，如果视频路径的字符串是“rtsp”、“http”或其他网络协议模型的开头，则可以确定操作视频路径为网络视频流格式，可以将该视频流进行加载获取到操作视频；如果路径字符串格式是本地摄像头的型号或摄像头序号，则按本地视频设备处理方式将设备摄入的操作视频进行加载；如果路径字符串以磁盘路径（例如：“F:/”、“C:/”、“/”等）开始，特定后缀（例如：“mp4”、“avi”、“mkv”等）结束，则按本地视频格式进行处理，并将本地的操作视频进行加载。以及，输入的操作视频中可以包含多种类型的目标，可以对操作视频中的环境目标和器具目标进行识别，并基于识别得到的环境目标的位置信息计算得到环境移动向量，以及可以基于识别得到的器具目标的位置信息计算得到器具运动信息，并基于环境移动向量对器具运动信息进行修正，以使器具运动信息可以排除图像采集设备晃动的干扰，得到准确的器具的运动信息，从而可以基于修正后的器具运动修正信息在操作视频中对器具目标进行标注，以使操作视频中对器具目标的标注更为准确。

例如，当本实施例应用于腹腔镜手术等微创手术场景时，可以使用内窥镜等图像采集设备对手术过程进行视频采集，并且可以对采集到的操作视频进行目标检测，其中，目标的类型包括但不限于环境类型和器具类型中的一种，环境类型的环境目标可以为手术过程中出现的器官、组织以及血管等目标，器具类型的器具目标可以为手术过程中使用的各种手术器具（如手术刀、手术钳等）；对目标进行识别，可以得到每帧图像中包含的各个目标的目标位置信息，目标位置信息中可以包其对应的目标在当前帧图像中所处的位置信息，还可以包含目标所在帧的帧序号以及目标的目标标签等，可以通过目标标签确定出该目标标签对应的识别到的具体物体，以及，输入的操作视频中可以包含多帧图像，可以依据操作视频的播放顺序对每帧图像进行编号，因此，操作视频中的每帧图像都有对应的唯一的帧序号，且通常来说目标是连续出现在操作视频中的，即操作视频中的连续多帧图像中会出同一个目标，为了对不同帧出现的相同的目标进行区分，可以确定各个目标对应的帧图像的帧序号。

此外，在采集操作视频的过程中，图像采集设备通常会出现移动或抖动的情况，此时识别到的器具目标的位置信息可能出现较大的误差，因此，可以通过识别到的环境目标的运动信息计算得到操作视频中的环境移动向量，并通过环境移动向量对器具目标的器具运动信息进行修正，以使器具目标的运动信息可以排除掉图像采集设备的移动或抖动的干扰，得到器具目标较为准确的器具运动修正信息，之后可以基于器具运动修正信息对操作视频中的器具目标进行标注，标注方式可以为在操作视频中通过包围框对器具目标进行指示，包围框可以为矩形包围框、圆形包围框或异形包围框等，对此，本发明实施例不做限定，此外，还可以对包围框指示的器具目标进行说明，即可以输出包围框指示的该器具目标的目标标签、识别概率等信息。

请参阅图2，图2为本发明另一实施例提供的基于人工智能的器具标注方法的流程示意图，图2所示的本发明另一实施例提供的基于人工智能的器具标注方法的流程包括：

步骤S201，对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述环境目标的目标位置信息；

步骤S202，对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述器具目标的目标位置信息。

实施上述的步骤S201~步骤S202，可以分别对操作视频中包含的环境类型的环境目标和器具类型的器具目标进行识别，从而提升对环境目标和器具目标识别的准确性。

作为一种可选的实施方式，步骤S201对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述环境目标的目标位置信息的方式可以包括以下步骤：

其中，实施这种实施方式，可以对操作视频中的环境类型的环境目标进行识别，得到环境目标对应的环境识别信息，并基于环境识别信息中包含的环境目标对应的帧序号、环境标签、以及环境目标对应的当前环境包围框的包围框信息计算得到环境目标对应的当前环境质点以及当前环境包围框对应的运动参数等信息，从而使得环境目标对应的信息更加丰富准确。

本发明实施例中，得到的环境目标对应的环境识别信息中可以包含该环境目标所在当前帧图像的帧序号、该环境目标的环境标签（环境标签可以为具体的器官、组织或血管的名称等）以及用于指示该环境目标在当前帧图像中所在位置的当前环境包围框的包围框信息，且该当前环境包围框的包围框信息中包括但不限于包围框坐标和包围框概率，包围框坐标中可以包含当前环境包围框在当前帧图像中的起始点坐标和当前环境包围框的宽和高，包围框概率可以为当前环境包围框所指示的环境目标与识别得到的环境标签的相似度。

本发明实施例中，可以对当前环境包围框的包围框信息进行计算，可以将计算得到的坐标作为环境目标对应的当前环境质点，每个环境目标的当前环境质点可以使用同样的方式计算得到，例如可以计算得到当前环境包围框的中心点，将该中心点作为环境目标的当前环境质点，对比，本发明实施例不做限定。

本发明实施例中，运动参数包括但不限于运动距离和运动速度；运动参数记录的是环境目标在当前帧图像中的当前环境质点相对于前一帧图像中的前一环境质点的运动距离和运动速度，可见，如果当前帧图像为操作视频中的第一帧图像，当前帧图像中的环境目标的运动距离和运动速度均设置为0，如果当前帧图像不为操作视频中的第一帧图像，则可以获取前一帧图像包含的前一环境包围框的包围框信息，前一环境包围框的包围框信息中包含前一帧图像中环境目标的前一环境质点的坐标，通过对前一环境质点的坐标与当前环境质点的坐标进行计算，可以得到当前环境质点的运动距离，以及可以获取前一帧图像对应的前一播放时刻和当前帧图像对应的当前播放时刻，进而可以基于运动距离、前一播放时刻以及当前播放时刻计算得到当前环境质点的运动速度。

本发明实施例中，环境目标的目标位置信息中可以包含环境识别信息、当前环境质点以及当前环境包围框对应的运动参数的所有信息，以及，可以将环境目标与目标位置信息以键值对的数据存储结构进行存储，即环境目标的环境标签可以作为键值对中的键进行存储，环境目标对应的目标位置信息可以作为键值对中的值进行存储，可见键值对中的环境目标的环境标签与环境目标的目标位置信息关联存储。

作为一种可选的实施方式，步骤S202对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述器具目标的目标位置信息的方式可以包括以下步骤：

其中，实施这种实施方式，可以对操作视频中的器具类型的器具目标进行识别，得到器具目标对应的器具识别信息，并基于器具识别信息中包含的器具目标对应的帧序号、器具标签、以及器具目标对应的当前器具包围框的包围框信息计算得到器具目标对应的当前器具质点以及当前器具包围框对应的运动参数等信息，从而使得器具目标对应的信息更加丰富准确。

本发明实施例中，得到的器具目标对应的器具识别信息中可以包含该器具目标所在当前帧图像的帧序号、该器具目标的器具标签（器具标签可以为具体的手术刀、手术钳的名称等）以及用于指示该器具目标在当前帧图像中所在位置的当前器具包围框的包围框信息，且该当前器具包围框的包围框信息中包括但不限于包围框坐标和包围框概率，包围框坐标中可以包含当前器具包围框在当前帧图像中的起始点坐标和当前器具包围框的宽和高，包围框概率可以为当前器具包围框所指示的器具目标与识别得到的器具标签的相似度。

本发明实施例中，可以对当前器具包围框的包围框信息进行计算，可以将计算得到的坐标作为器具目标对应的当前器具质点，每个器具目标的当前器具质点可以使用同样的方式计算得到，例如可以计算得到当前器具包围框的中心点，将该中心点作为器具目标的当前器具质点，对比，本发明实施例不做限定。

本发明实施例中，运动参数包括但不限于运动距离和运动速度；运动参数记录的是器具目标在当前帧图像中的当前器具质点相对于前一帧图像中的前一器具质点的运动距离和运动速度，可见，如果当前帧图像为操作视频中的第一帧图像，当前帧图像中的器具目标的运动距离和运动速度均设置为0，如果当前帧图像不为操作视频中的第一帧图像，则可以获取前一帧图像包含的前一器具包围框的包围框信息，前一器具包围框的包围框信息中包含前一帧图像中器具目标的前一器具质点的坐标，通过对前一器具质点的坐标与当前器具质点的坐标进行计算，可以得到当前器具质点的运动距离，以及可以获取前一帧图像对应的前一播放时刻和当前帧图像对应的当前播放时刻，进而可以基于运动距离、前一播放时刻以及当前播放时刻计算得到当前器具质点的运动速度。

本发明实施例中，器具目标的目标位置信息中可以包含器具识别信息、当前器具质点以及当前器具包围框对应的运动参数的所有信息，以及，可以将器具目标与目标位置信息以键值对的数据存储结构进行存储，即器具目标的器具标签可以作为键值对中的键进行存储，器具目标对应的目标位置信息可以作为键值对中的值进行存储，可见键值对中的器具目标的器具标签与器具目标的目标位置信息关联存储。

步骤S203，基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于所述器具类型的器具目标的目标位置信息计算得到所述器具目标的器具运动信息；

作为一种可选的实施方式，步骤S203基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量的方式可以包括以下步骤：

其中，实施这种实施方式，可以基于去噪后的目标位置信息对待计算的环境识别信息进行计算，得到环境标签对应的修正运动信息，并基于修正运动信息计算得到当前目标操作视频中每帧图像包含的环境目标的数量、以及每帧图像包含的环境目标对应的当前环境质点的运动累加和，从而基于运动累加和以及每帧图像包含的环境目标的数量计算得到每帧图像对应的环境移动向量，提高了环境移动向量的精确度。

本发明实施例中，由于环境目标在操作视频中可能出现不连贯的情况，且部分连续的帧图像在操作视频中显示的时刻是相同的，因此，需要基于操作视频的每秒传输帧数对环境目标的运动参数进行更新，保证运动参数的准确性。

本发明实施例中，操作视频的每秒传输帧数（Frame Per Second，FPS）可以表示一秒操作视频播放的图像帧数，可以基于获取到的操作视频的FPS计算得到操作视频播放一帧图像的时长t。

本发明实施例中，如果当前帧图像为操作视频中的第一帧图像，当前帧图像中的环境目标的运动距离和运动速度均设置为0；

如果当前帧图像不为操作视频中的第一帧图像，则可以获取前一帧图像包含的前一环境包围框的包围框信息，前一环境包围框的包围框信息中包含前一帧图像中环境目标的前一环境质点last_p的坐标（x,y），且前一帧图像中环境目标的环境标签与当前帧图像中环境目标的环境标签相同，即前一帧图像中环境目标与当前帧图像中环境目标为相同的环境目标，当前帧图像中环境目标对应的运动距离d’的计算方式可以为：

其中，tmp_px为当前环境质点tmp_p的x轴坐标，tmp_py为当前环境质点tmp_p的y轴坐标，last_px为前一环境质点last_p的x轴坐标，last_py为前一环境质点last_p的y轴坐标。

以及，当前帧图像中环境目标对应的运动速度v’的计算方式可以为：

其中，abs为绝对值函数，last_i可以为前一环境质点last_p对应的前一帧图像的帧序号，tmp_i可以为当前环境质点tmp_p对应的当前帧图像的帧序号。

此时，可以利用重新计算的当前帧图像中环境目标对应的运动距离d’和运动速度v’对环境目标的环境目标位置中的相应信息进行更新。

本发明实施例中，可以获取各个环境标签对应的环境目标位置更新信息中所有的帧序号，对得到的所有帧序号进行计算，得到环境目标位置更新信息的方差，方差可以表示操作视频中识别到的环境目标的离散程度，如果方差大于预设阈值，则可以认为环境目标的离散程度较大，属于噪音，需要将该方差对应的环境目标位置更新信息进行删除，实现对环境目标的目标位置信息的去噪操作。

本发明实施例中，待计算的环境识别信息中可以为当前环境质点的坐标；去噪后的环境标签对应的修正运动信息的生成方式可以为：先获取去噪后的环境标签对应的第一个当前环境质点的坐标，并分别计算其他当前环境质点的坐标与第一个当前环境质点的坐标的差值，得到的多个差值可以组成去噪后的环境标签对应的修正运动信息。

本发明实施例中，对修正运动信息进行统计，可以得到操作视频每帧图像中识别到的环境目标的总数量，还可以从修正运动信息中计算得到每帧图像中识别到的环境目标对应的当前环境质点进行运动的运动累加和，该运动累加和可以理解为每帧图像中每个环境目标相对于第一帧图像中的该环境目标移动的距离之和。因此，通过计运动累加和除以每帧图像包含的环境目标的数量可以得到操作视频中每帧图像对应的环境移动向量。

步骤S204，基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息；

作为一种可选的实施方式，步骤S204基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息的方式可以包括以下步骤：

其中，实施这种实施方式，可以基于计算得到的环境移动向量对当前器具包围框的包围框信息进行修正计算，得到修正后的包围框信息，并用修正后的包围框信息将器具目标对应的当前器具包围框的包围框信息进行替换，得到器具目标的器具运动修正信息，以使对器具目标运动轨迹识别更加准确。

本发明实施例中，可以从当前器具包围框的包围框信息中获取包围框坐标，并通过环境移动向量对包围框坐标进行重新计算，得到修正后的包围框坐标，以及基于修正后的包围框坐标对包围框信息进行更新，得到修正后的包围框信息，最后可以利用修正后的包围框信息替换器具运动信息中器具目标对应的当前器具包围框的包围框信息，得到器具目标的器具运动修正信息。

步骤S205，基于所述器具运动修正信息计算各个器具目标对应的平均移动间距；

步骤S206，根据所述平均移动间距的数值由大到小的先后顺序对所述器具目标进行排序，将排序在先的预设数量的器具目标确定为关键器具目标；

步骤S207，基于所述器具运动修正信息以及所述关键器具目标对所述操作视频中包含的所述关键器具目标进行标注，得到标注后的操作视频。

实施上述的步骤S205~步骤S207，可以基于器具运动修正信息计算得到各个器具类型对应的平均移动距离，平均移动距离较大的器具类型对应的器具目标可以认为是当前正在使用中的器具，因此可以主要对当前正在使用中的关键器具目标进行标注，以使操作视频中的正在操作的器具目标更加明显。

本发明实施例中，基于所述器具运动修正信息计算各个器具目标对应的平均移动间距的方式可以为：

可以获取到操作视频中识别出的所有器具目标的器具运动修正信息，从器具运动修正信息中统计出每个器具目标的移动距离累加和以及每个器具目标对应帧序号的数量和，之后可以基于移动距离累加和以及数量和计算得到各个器具目标对应的平均移动间距。

可见，平均移动间距越大表示器具目标的运动幅度越大，因此可以认为该器具目标为正在操作的关键器具目标，需要在操作视频中进行标识，因此可以从识别到的多个器具目标中选取平均移动间距较大的预设数量个关键器具目标进行标识。

请一并参阅图3、图4、图5以及图6，其中，图3为根据本发明的实施方式对输入的操作视频执行目标识别任务得到的结果示意图；其中，图中L表示当前帧图像的纵向中心线，图中的方框表示包围框，包围框包括包围框A、包围框B、包围框C、包围框D、包围框E、包围框F以及包围框G，具体的，包围框A表示在当前帧图像中识别出的器具类型的器具目标，且包围框A位于L的左侧，因此将包围框A的右上角顶点确定为器具目标的当前器具质点a；包围框B表示在当前帧图像中识别出的环境类型的环境目标，因此将包围框B的中心点确定为环境目标的当前环境质点b；包围框C表示在当前帧图像中识别出的环境类型的环境目标，因此将包围框C的中心点确定为环境目标的当前环境质点c；包围框D表示在当前帧图像中识别出的环境类型的环境目标，因此将包围框D的中心点确定为环境目标的当前环境质点d；包围框E表示在当前帧图像中识别出的环境类型的环境目标，因此将包围框E的中心点确定为环境目标的当前环境质点e；包围框F表示在当前帧图像中识别出的器具类型的器具目标，且包围框F位于L的右侧，因此将包围框F的左上角顶点确定为器具目标的当前器具质点f；包围框G表示在当前帧图像中识别出的环境类型的环境目标，因此将包围框G的中心点确定为环境目标的当前环境质点g；以及，包围框左上角的区域可以输出识别到的目标的类型、标签以及概率等信息。图4为根据本发明的实施方式对识别的目标执行去噪任务得到的结果示意图；其中，图4中的方框可以表示对图3中识别到的目标进行去噪后得到的去噪后的目标对应的包围框，图4中的点表示去噪后的目标的移动轨迹。图5为根据本发明的实施方式对器具目标执行修正任务得到的结果示意图；其中，对图4中去噪后的目标进行计算，得到环境移动向量和器具运动信息，并通过环境移动向量对器具运动信息进行修正，得到的修正后的器具目标的移动轨迹为图5中输出的点。图6为本发明一实施例提供的关键器具目标的运动轨迹示意图。其中，将图5中的背景图像进行隐藏，可以得到图6中更加清晰的器具目标的运动轨迹示意图。

本发明能够基于修正后的器具运动修正信息对操作视频中包含的器具目标进行标注，提升了对操作视频中的器具目标标注的准确性。此外，本发明还可以提升对环境目标和器具目标识别的准确性。此外，本发明还可以使得环境目标对应的信息更加丰富准确。此外，本发明还可以保证得到的当前环境质点的统一性。此外，本发明还可以简化当前环境质点的获取过程，提升当前环境质点的获取效率。此外，本发明还可以使得器具目标对应的信息更加丰富准确。此外，本发明还可以提升当前器具质点获取的准确性。此外，本发明还可以使基于去噪后的目标位置信息计算得到的环境移动向量更加准确。此外，本发明还可以使最终得到的环境目标的目标位置信息更加准确。此外，本发明还可以提高环境移动向量的精确度。此外，本发明还可以使最终得到的器具目标的目标位置信息更加准确。此外，本发明还可以使对器具目标运动轨迹识别更加准确。此外，本发明还可以使操作视频中的正在操作的器具目标更加明显。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的一种基于人工智能的器具标注装置进行说明，该装置包括：

识别单元701，用于对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息，其中，所述目标的类型包括环境类型和器具类型；

第一计算单元702，用于基于识别单元701得到的所述环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于识别单元701得到的所述器具类型的器具目标的目标位置信息计算得到所述器具目标的器具运动信息；

第二计算单元703，用于基于第一计算单元702得到的所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息；

标注单元704，用于基于第二计算单元703得到的所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频。

作为一种可选的实施方式，识别单元701对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息的方式具体为：

其中，实施这种实施方式，可以分别对操作视频中包含的环境类型的环境目标和器具类型的器具目标进行识别，从而提升对环境目标和器具目标识别的准确性。

作为一种可选的实施方式，识别单元701对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述环境目标的目标位置信息的方式具体为：

作为一种可选的实施方式，识别单元701对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述器具目标的目标位置信息的方式具体为：

作为一种可选的实施方式，第一计算单元702基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量的方式具体为：

作为一种可选的实施方式，第二计算单元703基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息的方式具体为：

作为一种可选的实施方式，标注单元704基于所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频的方式具体为：

其中，实施这种实施方式，可以基于器具运动修正信息计算得到各个器具类型对应的平均移动距离，平均移动距离较大的器具类型对应的器具目标可以认为是当前正在使用中的器具，因此可以主要对当前正在使用中的关键器具目标进行标注，以使操作视频中的正在操作的器具目标更加明显。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图8对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图8，其示出的计算机可读存储介质为光盘80，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，对输入的操作视频进行目标识别，得到操作视频中每帧图像包含目标的目标位置信息，基于环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于器具类型的器具目标的目标位置信息计算得到器具目标的器具运动信息；基于环境移动向量对器具运动信息进行补偿计算，得到器具目标的器具运动修正信息；基于器具运动修正信息对操作视频中包含的器具目标进行标注，得到标注后的操作视频；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图9对本发明示例性实施方式的用于基于人工智能的器具标注的计算设备。

图9示出了适于用来实现本发明实施方式的示例性计算设备90的框图，该计算设备90可以是计算机系统或服务器。图9显示的计算设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算设备90的组件可以包括但不限于：一个或者多个处理器或者处理单元901，系统存储器902，连接不同系统组件（包括系统存储器902和处理单元901）的总线903。

计算设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备90访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器902可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）9021和/或高速缓存存储器9022。计算设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM9023可以用于读写不可移动的、非易失性磁介质（图9中未显示，通常称为“硬盘驱动器”）。尽管未在图9中示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线903相连。系统存储器902中可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块9024的程序/实用工具9025，可以存储在例如系统存储器902中，且这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备90也可以与一个或多个外部设备904（如键盘、指向设备、显示器等）通信。这种通信可以通过输入/输出（I/O）接口605进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块（如处理单元901等）通信。应当明白，尽管图9中未示出，可以结合计算设备90使用其它硬件和/或软件模块。

处理单元901通过运行存储在系统存储器902中的程序，从而执行各种功能应用以及数据处理，例如，对输入的操作视频进行目标识别，得到操作视频中每帧图像包含目标的目标位置信息，基于环境类型的环境目标的目标位置信息计算得到环境移动向量，同时基于器具类型的器具目标的目标位置信息计算得到器具目标的器具运动信息；基于环境移动向量对器具运动信息进行补偿计算，得到器具目标的器具运动修正信息；基于器具运动修正信息对操作视频中包含的器具目标进行标注，得到标注后的操作视频。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了基于人工智能的器具标注装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

Claims

1.一种基于人工智能的器具标注方法，包括：

2.根据权利要求1所述的基于人工智能的器具标注方法，对输入的操作视频进行目标识别，得到所述操作视频中每帧图像包含目标的目标位置信息，包括：

3.根据权利要求2所述的基于人工智能的器具标注方法，对输入的操作视频中包含的环境类型的环境目标进行目标识别，得到所述环境目标的目标位置信息，包括：

4.根据权利要求2所述的基于人工智能的器具标注方法，对输入的操作视频中包含的器具类型的器具目标进行目标识别，得到所述器具目标的目标位置信息，包括：

5.根据权利要求3或4所述的基于人工智能的器具标注方法，基于所述环境类型的环境目标的目标位置信息计算得到环境移动向量，包括：

6.根据权利要求5所述的基于人工智能的器具标注方法，基于所述环境移动向量对所述器具运动信息进行补偿计算，得到所述器具目标的器具运动修正信息，包括：

7.根据权利要求1~4任一项所述的基于人工智能的器具标注方法，基于所述器具运动修正信息对所述操作视频中包含的所述器具目标进行标注，得到标注后的操作视频，包括：

8.一种基于人工智能的器具标注装置，包括：

9.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1~7中的任一项所述的方法。

10.一种计算设备，包括如权利要求9所述的存储介质。